局所的重み(TF)と大域的重み(IDF)
ヤバス
けっこう日数が経っちゃったので復習しますね(;_;)
局所的重み
局所的重みは、文書に対する索引語の出現頻度から計算されるのでした。
局所的重みだけでも4種類あるみたいデスね。
- 2進重み(binary weight)
- 索引語が文書に出現するときに1。出現しなければ0になるというもの。
あんまり使われてないらしいです。 - 索引語頻度(term ferquency; TF)
- 出現頻度のこと。索引語が該当文書にいくつ出現するかという値です。
TF-IDFのTFですよ! - 対数化索引語頻度(logarithmic term ferquency)
- 出現頻度の高い索引語が極端に大きい重みを持たないようにするために対数を使います。
- 拡大正規化索引語頻度(augmented normalized term ferquency)
- 該当文書中でいちばん出現頻度の高い索引語の頻度を使って索引語頻度を正規化する方法。
索引語が文書に出現するとき、
索引語が文書に出現しないとき、
むー( ̄〜 ̄;)??
下のほうに行くほど精度が高いのかなあ。。
あとで計算してみます><
大域的重み
大域的重みは、文書集合全体にわたる索引語の出現頻度の偏りを使って計算される重みで、多くの文書で出現する索引語は低い重みを、特定の文書のみに偏って出現する索引語に高い重みを与えるというものでした。
文書による索引語の偏りを表すのに、文書頻度(document frequency)っていうのを使うみたいです。
これは、索引語を含む文書数のことで、という記号で表現するみたい。
大域的重みは3種類あるみたいデスね。
- 文書頻度の逆数(inverse document ferquency; IDF)
- 逆数にすることで、(頻度が)多い→(重みが)低い/(頻度が)少ない→(重みが)高いを再現するのですね!
ちなみには、すべての文書数のことで、対数化しているのは、IDFの値の変化を少なくするためだそうです。。数式を見ただけでは理解できないお>< - 確率的IDF(probabilistic IDF)
- これは、文書集合の半数以上の文書に含まれる索引語に対しては不の値をとるようにしたIDFってことみたいだけど。。
数式を見ただけでは理解できないお>< - 大域的頻度IDF(grobal ferquency IDF)
- 文書集合を通しての索引語の頻度(大域的頻度)と文書頻度とを組み合わせた方法。索引語の大域的頻度をとするとき、大域的頻度IDFの定義はこうなるらしいです。
索引語の文書頻度小さく、大域的頻度が大きいほど大きな重みになります。。( ̄~ ̄;) ウーン
普段使わない用語が連発して、イメージするのが難しくなってきました。。(T_T)
次回、実際になにかのデータを使って計算してみようと思います!