局所的重み（TF）と大域的重み（IDF）

ﾔﾊﾞｽけっこう日数が経っちゃったので復習しますね（；＿；）局所的重み局所的重みは、文書に対する索引語の出現頻度から計算されるのでした。局所的重みだけでも4種類あるみたいデスね。 2進重み（binary weight）索引語が文書に出現するときに1。出現し…

索引語の抽出と重み付け

これから本質に入っていく予感がしてドキドキです今日は先に感想を書いちゃいます。索引語の抽出方法として、形態素解析とNグラムインデクシングがあって、重み付けの方法として、TF-IDFがあるということはなんとなく知っていたんですが、そのなんとなくが…

適合率全文書のうち、検索質問に適合する文書の総数をとしたときに、検索結果の上位から番目を出力した時点での適合率。 → 上位にランキングされた検索結果の有用性がわかるみたい。昨日の例だと、適合率は4位の時点での適合率になるから、0.75。尺度再…

具体的に計算してみたたとえば、こんな感じの検索結果を考えます。検索結果は全部で10件。そのうち、適合文書は4個。それぞれの文書にランクがついていて、それで表示順を決めている。適合文書は、1位, 2位, 4位, 5位に登場する。ランク 1 2 3 4 5 6 7…

検索結果の評価尺度？いくつかの文書があって、その中から検索した結果の良し悪しを判断するのに使うみたい。再現率検索対象となる文書集合の中の検索質問に適合する文書のうち、実際に検索された文書の割合→ 検索質問に適合する文書を漏れなく検索してい…

数式キライ、勉強大キライな初心者ですが、自然言語処理を覚えたい＞＜聞いたことある言葉形態素解析, N-gram, TF-IDF こんな感じですが、まずはこの本を読めるようにがんばります。これは自然言語処理なの？？情報検索アルゴリズム作者: 北研二,津田和彦…