このページでは本研究開発の日本語概要を読むことができます。

論文はこちらです。 Abstruct in English

専門検索サイトの動的統合による

次世代検索システムの研究開発


和文概要

爆発的に増え続けるWWW上の情報をどのようにすれば活用できるかという問題は、現在も将来も情報化社会における重要な問題である。Yahoo!、Google等の一般の検索エンジンについては、検索結果の品質が大きな問題となっている。それに対し特定のテーマについてに限定した専門検索サイトが増えている。本研究開発では、目的に応じた専門検索サイトを動的に選択し、一括した統合検索を行なうシステムを実現した。

WWW上の多数存在する専門検索サイトを統合し検索を行なうために、専門検索サイトの特徴抽出、専門検索サイトの情報管理、目的に応じた動的統合のためのクラスタリングの部分から構成されるシステムの研究開発を行なった。検索のためのキーワードを与えるだけでなく、結果として想定する分野を、ディレクトリ階層の中で指定することにより、統合すべき専門検索サイトの選択を可能とした。また、検索サイトの特徴ベクトルとディレクトリ階層の各ノードが持つ特徴ベクトルの類似度による、検索サイトのディレクトリ構造上へのクラスタリングも実現した。検索サイトの統合における核となるラッパー自動生成については、本研究開発では検索結果のHTMLファイルに現れる特徴的パターンに着目し、自動生成している。

実際に行なった研究開発と実験の過程で、検索サイトのラッパーの検証技術、特徴ベクトルの索引語の決定等がシステムの精度向上のための重要な要点であるという知見が得られた。ラッパーの検証技術は自動生成されたラッパーを、人間が人手で編集する必要の有無を判断する重要な指標を示す技術である。今後の開発では、特に検索サイトのラッパー保守のために重要な技術であると考えている。特徴ベクトルの索引語は、検索サイト選択の機能を左右する重要な要素であり、目的に応じた統合検索機能をより効率よく提供するためにも、重視すべき項目である。

本研究開発は目的に応じて、高品質な情報を伝えたい側から必要としている側へ、効率的に仲介する機能を果たす次世代検索システムとして、大きな社会的インパクトを与えるものと期待する。また、本研究開発システムを例にWeb上の機能統合、情報統合の研究が促進され、効率的な情報利用が加速することを願っている。