局所的重み(TF)と大域的重み(IDF)

ヤバス けっこう日数が経っちゃったので復習しますね(;_;) 局所的重み 局所的重みは、文書に対する索引語の出現頻度から計算されるのでした。局所的重みだけでも4種類あるみたいデスね。 2進重み(binary weight) 索引語が文書に出現するときに1。出現し…

索引語の抽出と重み付け

これから本質に入っていく予感がしてドキドキです 今日は先に感想を書いちゃいます。 索引語の抽出方法として、形態素解析とNグラムインデクシングがあって、重み付けの方法として、TF-IDFがあるということはなんとなく知っていたんですが、そのなんとなくが…

他の評価尺度とかテスト・コレクションとか

適合率 全文書のうち、検索質問に適合する文書の総数をとしたときに、検索結果の上位から番目を出力した時点での適合率。 → 上位にランキングされた検索結果の有用性がわかるみたい。 昨日の例だと、適合率は4位の時点での適合率になるから、0.75。 尺度 再…

再現率と適合率の続き

具体的に計算してみた たとえば、こんな感じの検索結果を考えます。 検索結果は全部で10件。 そのうち、適合文書は4個。 それぞれの文書にランクがついていて、それで表示順を決めている。 適合文書は、1位, 2位, 4位, 5位に登場する。 ランク 1 2 3 4 5 6 7…

再現率と適合率

検索結果の評価尺度? いくつかの文書があって、その中から検索した結果の良し悪しを判断するのに使うみたい。 再現率 検索対象となる文書集合の中の検索質問に適合する文書のうち、実際に検索された文書の割合→ 検索質問に適合する文書を漏れなく検索してい…

こんにちは

数式キライ、勉強大キライな初心者ですが、自然言語処理を覚えたい>< 聞いたことある言葉 形態素解析, N-gram, TF-IDF こんな感じですが、まずはこの本を読めるようにがんばります。 これは自然言語処理なの??情報検索アルゴリズム作者: 北研二,津田和彦…