色を使った検索2
結構まっとうな答えが出せるようになってきました。
Googleで適当に検索した情報を拾って、Wikipediaのデータを使って重要なトピックを抽出し、それらの成分を基に色で表現しています。動的にやってます。
これは大統領から流れ着いた例ですが、検索キーワードが「ナンシーレーガン」で、抽出されたトピックは、”ナンシーレーガン”(オレンジっぽい成分)、”ロナルドレーガン”(緑っぽい成分)、”ファーストレディ”(青っぽい成分)です。
グレーなのはどれも成分が弱くて、判別できていないものです。
だからなんだ!という気もする。
ただ、数学的に意味の通じる”違い”を創り出し、それを一目で分かるようにすることには成功したわけだ!
源氏物語
日本のキーワードをいろいろ試してみると結構面白い。例えば源氏物語。最初の8件の検索結果からは、"源氏物語","源氏物語大成","湖月抄"。
「湖月抄」は初めて耳にしましたが、「北村季吟によって著された源氏物語の注釈書である。延宝元年(1673年)成立。」だそうです。
次の8件を加えた16件では、"源氏物語","源氏物語絵巻","源氏物語大成"。
さらに次の8件を加えた24件では、"源氏物語","源氏物語絵巻","山口伊太郎"となりました。
ウィキペディアのデータを知識として使用しているので、ちょっと比較してみましょう。例えば”源氏物語”で検索した時に返ってくるのは、次の通りです。
- 源氏物語
- 夕霧 (源氏物語)
- 玉鬘 (源氏物語)
- 浮舟 (源氏物語)
- 夕顔 (源氏物語)
- 柏木 (源氏物語)
- 若菜 (源氏物語)
- 源氏物語絵巻
- 大宮 (源氏物語)
- 少女 (源氏物語)
- 源氏物語大成
- 光源氏
- 源氏物語千年紀 Genji
- 帚木 (源氏物語)
- 朝顔 (源氏物語)
- 蜻蛉 (源氏物語)
- 葵 (源氏物語)
- 蛍 (源氏物語)
- 源氏物語年立
- 源氏物語古系図
一般的な単語ベースの検索では、似たようなものばかり並んでしまいます。今回の色検索では、”重要なトピック”を抽出しているので、類似しているものは冗長だとして省き、ユニークかつ関連性の強いものを抽出しています。
"湖月抄"、"山口伊太郎"というトピックを抽出しているのは、なかなか面白いですね。
色を追っかける
興味のある検索結果を掘り下げる機能を試しています。例えば下の例では、日経の記事からいくつかフレーズを拾って、1番目の色がはっきりしていて、トピックが適度に分散している(3色が強めに出ている)ものを探して、「協調融資組成額 」という検索をした結果ですが、この最初の結果の色をクリックすると、重要な単語をピックアップして、この結果に類似するページの検索を行うことで、検索結果を掘り下げるようにします。関連トピックを固定するので、この朱色っぽい色を追っかける検索になります。
この例では、1番目と2番目が朱色っぽいので、これらが含まれるだろうと期待されます。抽出された重要単語は「世界」と「過去」。これらの3単語で検索をすると、1番目->1番目、2番目->6番目となり、それなりに想定どおりとなりました。
サーバーの準備にまだ数日かかるようで、来週には公開できるかと思います。