情報アクセス論期末テスト

情報アクセス論期末テスト

情報検索(Information Retrieval: IR)

用語

  • 文書集合 (document collection): 検索対象となる文書群
  • 問合せ (query): 利用者の情報要求を情報検索システムに入力できる形で表現したもの
  • 索引 (index): 検索を高速化するために,あらかじめ文書集合から作っておくデータ構造
  • 索引付け (indexing): 文書中から索引語を抽出し,索引を作成する処理

情報検索システムの構成

  • 索引付けの処理
  • 検索の処理
    • 問合せ処理
    • 文書の検索・ランキング

Webクローラ(Web crawler)

形態素解析

転置索引

  • 「文書-索引語」の情報を「索引語-文書」の情報に変換する
  • 文書集合中の各文書には固有のIDを付与,文書IDと呼ぶ

間違って:フレーズ検索のために,文書中での索引語の出現頻度の情報を用いることができる.

用語の定義

  • 文字集合 (character set): テキスト情報を表現するのに用いる要素(文字)の集合
  • 符号化文字集合 (coded character set): 各文字に符号値が割り振られた文字集合: ASCII / JIS X 0213
  • 文字符号化方式 (character encoding scheme): (一つあるいはそれ以上の)文字集合からデータ(文書)を表現するビット列へのマッピング: シフトJIS / Unicode
  • 文字エンコーディング (character encoding): (一つあるいはそれ以上の)符号化文字集合と文字符号化方式の組み合わせ

UTF-8 各文字の1バイト目の上位ビットで,文字に用いられるバイト数が決まる

  • 1バイト文字:最上位ビットが「0」
  • 2バイト文字:上位3ビットが「110」
  • 3バイト文字:上位4ビットが「1110」
  • 4バイト文字:上位5ビットが「11110」
  • 5バイト文字:上位6ビットが「111110」
  • 6バイト文字:上位7ビットが「1111110」

索引付けの手順

  • 語の切り出し: 日本語では語の区切りが無いため,形態素解析を行って切り出す
  • 不要語の除去
  • 接辞処理(stemming,ステミング)

索引語 文書ID:出現頻度

TF(t,d)=1+log(tf(t,d))TF(t, d) = 1 + \log(tf(t, d))

IDF(t)=logNdf(t)IDF(t) = \log \frac{N}{df(t)}

TF-IDF: 「より少数の文書で,より多く言及される語は重要である」

検索モデル: 文書(索引語の集合)と問合せとのマッチングやランキングを行う手法

  • ブーリアンモデル
  • ベクトル空間モデル
  • 確率モデル

ブーリアンモデル: 問合せを,ブール代数(演算子AND, OR, NOTと,値0, 1のみをとる変数からなる)に基づく論理式で表現

ベクトル空間モデルとは文書を単語の塊とみなし,ベクトルとして表現

  • 文書ベクトル

問合せも同様に,ベクトルとして表現

  • 問合せベクトル

検索結果を見て,問合せベクトル中の索引語の重みを修正し,再度検索できる

  • これを用いて検索結果の向上を図る手法を適合性フィードバックと呼ぶ

問合せ処理とは? 問合せを修正したり,語を追加して,より良い検索結果を得るための処理

  • 問合せ拡張: 言語表現の多様性の問題を解決する
    • 問合せ中の語の同義語や関連語を追加する (検索漏れの防止に役立)
    • 語と語の関連を示す情報が必要
    • 関連語辞書(シソーラス)を用いる手法が用いられてきた
    • コーパス中からの共起頻度の情報を用いる手法も用いられる
  • 適合性フィードバック
  • スペル修正
    • スペリング辞書に載っていない単語が問合せとして入力された場合に,修正候補を提示
    • 各単語との文字の類似度を計算
    • 単語間の文字の類似度の計算には編集距離(Edit Distance)が良く用いられる
  • 問合せ候補の提示

編集距離

  • 代表的なものは,レーベンシュタイン距離: ある単語を別の単語に変換するのに必要な操作(1文字の挿入・削除・置換)の最小回数

適合性の尺度:再現率と適合率

再現率・適合率はトレードオフの関係にある

  • ある事実について知りたい場合は,適合率が重要
  • 網羅的に検索したい場合は,再現率が重要

F=2PRP+RF = \frac{2PR}{P+R}

(自動)分類(classification)

  • 教師あり学習のタスク

クラスタリング(clustering)

  • 教師なし学習のタスク

階層的クラスタリングのクラスタリング結果である階層構造はデンドログラムで表現される。

非階層的クラスタリングの例としてK-meansがある。

ソーシャル検索 タグを推定する手法

  • TF・IDF
    • 対象の中でTF・IDFの値が高いタグを提案
    • テキストで表現できる対象に限られる
  • 分類
    • 各タグに対して2値の分類器を学習
    • 良く使われるタグには有効
  • MMR(Maximal Marginal Relevance)

画像検索

  • 文字列検索: 「モネが書いた絵」
  • 内容に基づく検索

画像から得られる特徴量を用いる: 明度,彩度,配置,etc.

XMLを用いることで,文書の論理的な構造を考慮した検索や,部分文書の検索が可能になる

言語横断情報検索(Cross-Language IR)

訳語曖昧性の解消手法: 検索対象言語コーパス中における単語の共起傾向を用いる

  • コーパス:大量のテキストを集めた言語データ
  • 共起傾向:単語間の関連の強さの統計量

原言語(source language):翻訳元の言語 目的言語(target language):翻訳先の言語

主な機械翻訳方式

  • 単語直接方式
  • トランスファー方式
  • 中間言語方式
  • 実例型機械翻訳
  • 統計的機械翻訳

トランスファー方式の処理過程

  • 解析
    • まず形態素解析が行われ,次に構文解析
  • 変換
    • 文の変換
    • 節(格構造)の変換
  • 生成

OKAPI BM25による単語重要度評価

  • ⼀般的なTF-IDFでは⽂書内の総単語数を考慮していない

相互情報量(t1, t2) = logP(t1,t2)P(t1)P(t2)\log \frac{P(t1, t2)}{P(t1)P(t2)}

極性が⽰された辞書の例: 数値がプラスであればよりポジティブ、数値がマイナスであればよりネガティブ

⽂書分類の⼿法の例

  • 教師あり学習
    • ナイーブベイズ(単純ベイズ分類器)(第8章で紹介)
    • サポートベクタマシン
    • ニューラルネットワーク(1層のものと、多層(Deep)もの)
    • 決定⽊
  • 教師なし学習(正確には分類ではなく、クラスタリング)
    • K-means(K平均法)(第8章で紹介)
    • ニューラルネットワーク

マージン最⼤化: 線形分離可能な時に、どの平⾯を分離超平⾯として選択するかが問題となる