WEB チームの研究内容


WWW 上における全文検索型情報検索システムに関する研究

Internet の爆発的な普及により、Internet 上のサービスの一つである WWW において提供される情報がものすごい勢いで増加している。 また、この情報は何らかのルールに沿って発信されている訳ではなく、 情報の整理がなされていない。

このような状況下において、必要とする情報を選択・選別する手段として 「情報検索システム」というものが必要となってくる。 「情報検索システム」は検索対象となる情報の収集方法の違いによって、 以下のように大きく2種類に分けられ、次のような特徴を持つ。

本研究室では大量の情報を提供できる点に着目し、ロボット型の 全文検索型情報検索システムについて研究を行っている。

Full Text Search Engine

ここで扱う情報は莫大なもの(例 : 100万件の WWW 情報に対して 約 4GB 程度)になるため、複数の計算機を利用し、負荷を分散 させることが必要となる。

そこで、本研究室では以下のような内容について研究を行っている。

現在は、特に検索性能の向上を目的とした研究を行っている。具体的には マルチスレッド処理や検索結果のキャッシュの有効利用などによって スループット、応答時間の向上を目指している。


WWW 上におけるマルチメディアデータ検索システムに関する研究

現在、WWW 上では膨大な数の画像,映像,音声などのマルチメディアデータ (以下,MD)が存在している.そのため,MDの検索を目的とした MD検索システムが開発されている.MD検索システムはその検索方法の 違いから次の2つに分類される.

一般に内容解析では,高次元の特徴量を扱うので多くの計算機資源や計算時間を 必要とする処理を行う.そのため,WWW 上のMD検索に適用する場合には, 膨大な数のMDの処理や迅速な応答の点で問題が生じる場合がある.

そこで,本研究室では文書解析に基づく検索を行うロボット型MD検索システム に関する研究を行っている.特に,文書解析に基づくスコア付け手法の一つである, HTMLのタグに基づいたスコア付け手法に関する研究を行っている.

MultiMedia Search Engine

メタ検索システムに関する研究

近年 WWW 中からユーザの求める文書の検索を目的として多様な検索システム が開発されている.

ユーザからの入力である検索条件を複数の検索エンジンに送り,複数の検索結 果を統合して1つの検索結果を出力としてユーザに返すシステムであるメタ検 索システムもその1つである.

メタ検索エンジンのメリットとして,自前のデータではなく,複数の検索シス テムの持つ情報全てを検索対象とできることが挙げられる.

しかし,使用する検索システム数が増加するにつれて検索結果の統合に かかる時間が増大し,ユーザに迅速に検索結果を返すことができないと いう問題点も存在する.

そこで本研究室では,複数の検索結果を効率良く1つにまとめるアルゴリズム に関する研究を行っている.

Meta Search Engine

外部データベースを利用した検索システムに関する研究

近年 WWW 中に存在するデータ数が爆発的に増加し,それに伴い WWW 中のデー タを検索する検索システムのもつデータベースサイズも増加の傾向にある.し かし,データベースが増加するにつれて以下のコストなどが増大する問題点が 存在する.

そこで本研究室では,データベースの構築や管理,維持にかかるコストを極力 抑える事を目的とした研究を行っている.

特に現在では,2002年4月にβ版として公開された Google Web APIs (http://www.google.com/apis/) を用いることによる,Google のデータベー スを利用した検索システム作成を通して,外部データベースの利用によるデー タベースサイズを極力抑えた検索システムに関する研究を行っている.

この検索システムのもう一つの特徴として,従来のメタ検索システムとは違い 文書データだけを外部に依存し,最終的なスコアをつけるアルゴリズムは自前 のアルゴリズムを使用することがあげられる.

現時点ではまだ実際に利用可能な段階までは到達していないが,完成すればこ のシステムを応用して,研究者のための新しいスコア付けアルゴリズム研究環 境や,検索システム利用者が自分の興味や関心にあわせた自分専用の検索シス テムを容易に構築できると考えている.


萩原研究室ホームページに戻る
萩原研の研究内容のページへ戻る