色を使った検索2

色を使った検索

結構まっとうな答えが出せるようになってきました。

Googleで適当に検索した情報を拾って、Wikipediaのデータを使って重要なトピックを抽出し、それらの成分を基に色で表現しています。動的にやってます。

これは大統領から流れ着いた例ですが、検索キーワードが「ナンシーレーガン」で、抽出されたトピックは、”ナンシーレーガン”(オレンジっぽい成分)、”ロナルドレーガン”(緑っぽい成分)、”ファーストレディ”(青っぽい成分)です。

グレーなのはどれも成分が弱くて、判別できていないものです。

だからなんだ!という気もする。

ただ、数学的に意味の通じる”違い”を創り出し、それを一目で分かるようにすることには成功したわけだ!

ウィキペディア氏

ウィキペディアを知識にして解釈(トピックの判断)を行うということは、ウィキペディア氏と会話するようなものだ。

そう考えたとき、もしウィキペディア氏のような人がたくさんいたら面白いじゃないか。ウィキペディア氏とは、物知りのおじいさんみたいなものだ。幅広くカバーしているのは頼もしいが、専門分野と時事ネタには弱い。ウェブ上には、特定のトピックを扱ったサイトが、ブログを含め、既に相当な数に達している。

「違い研究会」ぼちぼち発足します。個性的なメンバーでひとつ個性的な知識を試してみようか。

源氏物語

日本のキーワードをいろいろ試してみると結構面白い。例えば源氏物語。最初の8件の検索結果からは、"源氏物語","源氏物語大成","湖月抄"。

「湖月抄」は初めて耳にしましたが、「北村季吟によって著された源氏物語の注釈書である。延宝元年(1673年)成立。」だそうです。

次の8件を加えた16件では、"源氏物語","源氏物語絵巻","源氏物語大成"。

さらに次の8件を加えた24件では、"源氏物語","源氏物語絵巻","山口伊太郎"となりました。


ウィキペディアのデータを知識として使用しているので、ちょっと比較してみましょう。例えば”源氏物語”で検索した時に返ってくるのは、次の通りです。

  1. 源氏物語
  2. 夕霧 (源氏物語)
  3. 玉鬘 (源氏物語)
  4. 浮舟 (源氏物語)
  5. 夕顔 (源氏物語)
  6. 柏木 (源氏物語)
  7. 若菜 (源氏物語)
  8. 源氏物語絵巻
  9. 大宮 (源氏物語)
  10. 少女 (源氏物語)
  11. 源氏物語大成
  12. 光源氏
  13. 源氏物語千年紀 Genji
  14. 帚木 (源氏物語)
  15. 朝顔 (源氏物語)
  16. 蜻蛉 (源氏物語)
  17. 葵 (源氏物語)
  18. 蛍 (源氏物語)
  19. 源氏物語年立
  20. 源氏物語系図

一般的な単語ベースの検索では、似たようなものばかり並んでしまいます。今回の色検索では、”重要なトピック”を抽出しているので、類似しているものは冗長だとして省き、ユニークかつ関連性の強いものを抽出しています。

"湖月抄"、"山口伊太郎"というトピックを抽出しているのは、なかなか面白いですね。

色を追っかける

興味のある検索結果を掘り下げる機能を試しています。例えば下の例では、日経の記事からいくつかフレーズを拾って、1番目の色がはっきりしていて、トピックが適度に分散している(3色が強めに出ている)ものを探して、「協調融資組成額 」という検索をした結果ですが、この最初の結果の色をクリックすると、重要な単語をピックアップして、この結果に類似するページの検索を行うことで、検索結果を掘り下げるようにします。関連トピックを固定するので、この朱色っぽい色を追っかける検索になります。

この例では、1番目と2番目が朱色っぽいので、これらが含まれるだろうと期待されます。抽出された重要単語は「世界」と「過去」。これらの3単語で検索をすると、1番目->1番目、2番目->6番目となり、それなりに想定どおりとなりました。

サーバーの準備にまだ数日かかるようで、来週には公開できるかと思います。