前に書いたとおり、2ちゃんねるの検索をやろうと、ちまちま組んでます。板一覧をbbsmenu.htmlから取得。スレ一覧をGZIPで圧縮して取得。で、本文もIf-Modified-Sinceを使い、差分だけ取得できるようになりました。
これで理論的には2ちゃんねる検索が可能になりました。が、板が700以上もあるので、正直実装は難しいですね。処理時間がかかりすぎる。さらに更新日時まで調べるのなら、スレの本文も読み込まなくてはなりません。
700板×500スレ=350000スレ
例えば1時間に1回、100板ずつ更新とかならいけそうな気もする。んー、既存のスレッドタイトル検索をやってる人達はどういう実装してるんだろ?
ま、俺の場合、ポータルに組み込む用のシステムとして考えてたので、真面目に実装する必要もないんだけど。突発的にスレが立ちそうなニュース速報系は毎時間板を監視し、決まったスレしかないような板では、スレのdat落ちだけ監視して、もしdat落ちしたら板を検索して次スレを探すとかね。
でも、2ちゃんねるの規約が変わりそうなので、システムを公開できなくなったら意味ないなぁ。
どうなるかな。