連想ワールド - またお前かよ！

情報科学フロンティアでは、今回は国立情報学研究所の高野明彦先生による文書情報処理のお話。
文書と文書を連想でつなげることで、情報の海の中からほしい情報を見つける支援をしようという研究です。実際の成果はしっかり上げていて、
Webcat Plus http://webcatplus.nii.ac.jp/ とか
新書マップ http://shinshomap.info/ とか
ものすごいです。要は、文書同士、キーワード同士の内容の「近さ」をランキングしてネットワークにする技術。これがまたすごい。
ちょっと実際にいじってもらうのが早いでしょう。ある文書に関連した文書をネットから検索してみます。

まず、もとの文書をWebcat Plusにコピペしましょう。社説でも論文でも何でもいいけど、例としてこのブログの記事(id:Sampo:20050812#p1)を丸ごとコピーして貼り付けます。
検索ボタン押すと本のタイトルがたくさん出てきましたね。Webcatは書籍検索システムなのです。本の目次データをもとにキーワード同士の距離を決めているんだとか。
本の一覧はとりあえず無視して右側に並んだキーワード群に注目。関連するであろう語句が追加されてリストになっています。とりあえず上から10単語(黄色いエリア)を選択して検索ボタンを押してみましょう
その10単語で本がまた検索されます(関連キーワードも再提案されます)。ここで検索ボックス内に並んだ検索語句の列をそのままコピーしてGoogleに貼り付ければ・・・
はい、あっという間に関連Webページが検索できました。

言葉の意味をまったく教えずに、出現確率だけから内容の関連を推測させるだけでこの威力。こういう、意味が内側から出現してくるような手法って大好きです。