「技術系」カテゴリーアーカイブ

２ちゃんねる検索作成中

2006年5月26日技術系神代クロ

前に書いたとおり、２ちゃんねるの検索をやろうと、ちまちま組んでます。板一覧をbbsmenu.htmlから取得。スレ一覧をGZIPで圧縮して取得。で、本文もIf-Modified-Sinceを使い、差分だけ取得できるようになりました。

これで理論的には２ちゃんねる検索が可能になりました。が、板が700以上もあるので、正直実装は難しいですね。処理時間がかかりすぎる。さらに更新日時まで調べるのなら、スレの本文も読み込まなくてはなりません。

700板×500スレ＝350000スレ

例えば1時間に1回、100板ずつ更新とかならいけそうな気もする。んー、既存のスレッドタイトル検索をやってる人達はどういう実装してるんだろ？

ま、俺の場合、ポータルに組み込む用のシステムとして考えてたので、真面目に実装する必要もないんだけど。突発的にスレが立ちそうなニュース速報系は毎時間板を監視し、決まったスレしかないような板では、スレのdat落ちだけ監視して、もしdat落ちしたら板を検索して次スレを探すとかね。

でも、２ちゃんねるの規約が変わりそうなので、システムを公開できなくなったら意味ないなぁ。

どうなるかな。

Webサービスを組み合わせてみる

2006年5月21日技術系神代クロ

昨日、巫女さん情報ポータルのシステムを更新しました。フリーキーワードでの検索と、作品詳細ページへの項目追加です。

フリーワード検索はようやくの追加ですね。本来なら真っ先にやるべき事ですが。作品ページの更新は、今まで使用していたWebサービス同士の組み合わせです。Amazon Webサービスだけだったのが、Yahoo WebサービスとLivedoorブログ検索も追加する事で、もうちょっと作品を詳しく紹介できるようになったかと。

次は２ちゃんねる検索してみようかと考えてます。以前やりかけて投げちゃってたしね。

cronが「使える」ようになってる！

2006年5月10日技術系神代クロ

何とはなしに自サイトが載ってるサーバを見ていたら、cronの説明文が変わっていました。よくよく読んでみると、cronでの実行可能時間が伸びてるじゃないですか！　これまでcronは1秒以内に終わらないとダメでした。なのでRSSを取得する処理で、たまにエラーが発生していたんですが、そういえば最近はエラー出てなかったな。

で、現在の実行可能時間は3分間です。これだけあれば、アレが実験できそうですね。電脳卸の商品データ丸ごとダウンロードサービスです。1日5MByteものCSVをダウンロードし、処理しなくちゃならないんですが、3分あれば出来そうな気がします。

もっとも電脳卸はリニューアル時の不都合がヒドかったんで、あまり積極的に使う気は起こらないんだけどね。

AWS：検索機能の充実

2006年5月7日技術系神代クロ

Uターンラッシュには巻き込まれなかった＞挨拶
－－－

巫女さん情報ポータルの更新です。今回は検索機能を充実させてみました。もともとAWSは検索結果を引っ張ってくるシステムで、俺が勝手に制限してただけなんだけどね。

ひとまず検索カテゴリは書籍・ゲーム・DVD・音楽の4つ。これ以上増やしても、巫女さん作品がそもそもないしね。各ページに検索窓を設置し、ついでにレビューページに関連作品を引っ張ってこれるようにリンクを作成。検索結果0件があるけど気にしない。

ゴールデンウィーク中ずっとPC触ってなかったからか、入力ミスが頻発したよ。

システムの雛型完成

2006年4月26日技術系神代クロ

一年前からちまちまと解析しながら組んでたシステムが、ようやく動作するようになりました。

これは事業の柱となるべく作ったシステムです。まだ必要なモジュールはたくさんあるけど、コア部分が出来たので後は普通に組んでくだけです。

色んな分野に応用出来るので、なんかもう楽しみですよ。

【人工知能】考える脳考えるコンピューター

2006年4月17日技術系神代クロ

考える脳考えるコンピューターという本を読み終わりました。この本は携帯端末のPalmを作った会社の創業者が書いた本です。

俺は学生時代、人工知能や人工生命にハマって、関連書籍を読み漁った事がありました。ただそれらの本には、概念的な事しか書かれておらず、しかもそれがあまりに複雑すぎた。ここで言う複雑とは理解力の問題ではなく、物凄くややこしい計算を行わなければ、人間と同じ事が認識できないという事です。

そもそも人間は赤ん坊の頃からモノを立体的に知覚し、言語もそれなりに理解できるのに、コンピュータに同じ事をやらそうとすると、研究者が数十人かかっても処理できない。それはおかしいのではないかと、常々思ってたんですよ。この本を読んでその辺りの疑問が解決されました。

この本によると、人間の脳は学習によって予測ができるという事です。そしてその予測こそが知能だと定義しています。当たり前と言えば当たり前の事ですね。にもかかわらず、これまで人間の挙動のみを真似するような、脳の仕組みなんて関係なく結果さえ同じならいいや、という研究ばかりが行われてきた。まあ、脳の機能が完全に解明されてる訳ではないですからね。ついこの間まで、人間は脳の10％しか使っていないとか、普通に信じられてたし。

著者は既存の人工知能とは根本的に違う理論を展開しています。まあ、著者自身も色々な論文を読んで得た知識を発展させているのですが。要は処理のために複雑な機能は必要なく、学習によって複雑さが増す。しかも視覚・聴覚等関係なしにすべて同じ形式で処理される。そうやって蓄えられた成果から、未来を予測する。実に美しいですね。

実際にそれをコンピュータ上で再現しようとすると、まだまだ難しそうですが、方向性は見えたと思います。著者はこの知能をもった機械の利用用途を予測していましたが、やはり日本人ならメイドロボでしょう（笑）

インターネットのリサーチ結果

2006年4月16日技術系神代クロ

ちょっと古い記事ですが、インターネットの習慣調査の結果がありました。

「よく閲覧しているインターネットサイトを教えてください」で、1番がポータル、次が情報サイト、ブログ、そして掲示板、SNSと続いています。やはり情報系サイトが上位ですね。で、いわゆる個人が趣味で作っているサイト等は、全然閲覧されてません。まぁブログに取って代わられたと言ってもいいのかもしれませんが。ともかく、インターネットは情報収集のために利用するという、以前からの意見を裏付けた形ですね。

また、「インターネットでよく利用しているもの」の上位にショッピング・オークション等が入っているところを見ると、趣味の世界からビジネスの世界へとシフトしてるのがわかります。でもホームページの作成がまだ上位にあるのが面白い。供給過多になっちゃってるんだろうね。

気づいてる人もいると思いますが、ウチのサイトでも数ヶ月前から巫女さん情報ポータルというコンテンツを作って、少しずつ実験しています。企業が提供するWEBサービスに、俺の情報を乗っける事で、何が出来るかの実験ですね。

進化しなければ生き残れない。