GOC Vol.2 「ブログサーチテクノロジー講座」 −技術者向け

そういえばに行ったんでした。
以下、思ったこと、質問したかったことをつらつらと。

ブログ検索テクノロジー

  • gooって自前の検索エンジンだったんだ
  • 通常のWebページ検索とブログ検索の結果って分かれて表示されると便利だよなあ
    • 一緒に表示されるとウザイんだよなあ
    • 講義の内容でもあったけど、通常のWebページとブログのエントリって性質がだいぶ違うのか
  • RSSで拾ったのをサイトまでいって、HTMLで取得してるらしい
    • 本文抽出してるから余計なヒットがなくなるらしい
      • 本文抽出ルールってどんなんなんだろう
      • 本文抽出の精度ってどれくらいなんだろう
  • ブログの感想抽出が面白い 404 Not Found
  • 今は検索結果のキャッシングをしていないらしい!

BLOGRANGERのコアテクノロジー

  • マルチファセットサーチ
    • ブログ検索の目的にあわせていろんな側面から見れるらしい
    • データはどうやって持ってるんだろう?
      • ファセットごとに分断して持ったてりしないよね
  • トピックフィルタには固有名詞の抽出をしてるらしい
    • 辞書を使っているらしい
      • ゆらぎとか略称にも異表記獲得法というので対応してるらしい

1. 入力ランドマークのオフィシャルページ相当を特定
2. 特定されたページへのリンクアンカーテキストから同義語を抽出

      • 面白い!そうだよね。関連性情報も持ってるんだからそういうこともできるんだよね。

あとは

  • Yahooのひとたちが集団できてました。
  • ブロゴスフィア」って口語で言うひとを初めてみた


最後の質問タイムでしょっぱなから「注目キーワード抽出とSBMの違いは?」なんていう変な質問してしまって申し訳なかったです。サービス側のひとが言ってたけど、

SBM
「ブックマークする」っていうひとの主観的な作業のうえに成り立ってる
ブログ検索
ひとの主観を除いたうえで話題をサマリーすることができる

っていうことなんだと思う。
それにどれだけの価値があるのかはわからないけど、技術的には面白いと思います。ドキドキするほどワクワクする。