Information Retrieval
大容量情報検索論

秋セメスター
講師 菊池 浩明 辻 秀一
時限 水1限
お知らせ
■概要
インターネットの普及と商取引の電子化,および記憶メディアの発達に伴い,蓄積されるデータは指数関数的に増加してきている.これらの大規模データベースから意図する情報を適切に抽出するために検索エンジンの利用が欠かせなくなってきている. そこで,本講義では検索エンジンの活用方法から,その実現に用いられているハッシングや2分木などのデータ構造を用いた情報検索技術を学ぶ.現在,検索エンジンには属性ごとの分類が行われたディレクトリ型とキーワードによる全文検索を行うキーワード型に分類される.これらの活用方法の違いや,各々のデータベースがどのようにして構築されているのか,実際の運用方法についても述べる.データベースの更新や分散管理技術を通して,インターネット検索エンジンだけではなく,より一般的な大容量の情報検索に求められる必要条件を理解する. 更に,消費者の属性情報と嗜好傾向となどのように,項目間の有意な相関や意味のある論理関係を抽出するデータマイニングの技法についても触れる.大容量のデータベースに実用的な処理速度を得るためには,様々な機械学習アルゴリズムの理解が必須である.機械学習には,確率論に基づくもの,ニューラルネットワークを応用するもの,論理決定木によるものなどがあり,これらについても概説する.

■ 履修のポイント
中間試験と定期試験によって成績を評価する. しばしば演習を行う. 先修条件なし.

■講義ノート
情報検索の種類
情報検索の評価
索引語の自動抽出
文字列検索
索引による検索
Googleのしくみ
相関ルール
Apriori データマイニング
バケット分割 (数値属性)
決定木
回帰木
クラスタリング

■教科書
北,津田,獅々堀,「情報検索アルゴリズム」(共立出版)
(参考図書) 福田剛志,森本康彦,徳山豪著「データマイニング」(共立出版). 馬場著「Namazuシステムの構築と活用」(SOFT Bank)