２ちゃんねるからデータ取得

何となく、２ちゃんねるからデータを取得してみる事にしました。とりあえずスレッドタイトルから。

公式Wikiにsubject.txtの仕様があるんで、その通りに取得すれば終了なんだけどね。PHPでfsockopen()関数でアクセス、User-AgentをMonazilla/1.00にすれば、テキストでは簡単に取り出せました。

ただ、仕様によるとgzipで取り出せと書かれているので、そのまま取り出してたら怒られます。なんで、gzip圧縮したものを取得。でもPHPではgzipを圧縮する関数はあるのに、解凍する関数が見つからない。色々ぐぐってたら、gzdecode()という関数を自作している偉い人がいたので、それを使ってみる。ちゃんと解凍できて正しく取得できましたよ。

ところで、普通にhttp://news19.2ch.net/news/subject.txtとかのアドレスをブラウザで開いたら読み込めたんだけど、User-Agent偽装しなきゃダメなのかな？