何となく、2ちゃんねるからデータを取得してみる事にしました。とりあえずスレッドタイトルから。
公式Wikiにsubject.txtの仕様があるんで、その通りに取得すれば終了なんだけどね。PHPでfsockopen()関数でアクセス、User-AgentをMonazilla/1.00にすれば、テキストでは簡単に取り出せました。
ただ、仕様によるとgzipで取り出せと書かれているので、そのまま取り出してたら怒られます。なんで、gzip圧縮したものを取得。でもPHPではgzipを圧縮する関数はあるのに、解凍する関数が見つからない。色々ぐぐってたら、gzdecode()という関数を自作している偉い人がいたので、それを使ってみる。ちゃんと解凍できて正しく取得できましたよ。
ところで、普通にhttp://news19.2ch.net/news/subject.txtとかのアドレスをブラウザで開いたら読み込めたんだけど、User-Agent偽装しなきゃダメなのかな?