局所的重み(TF)と大域的重み(IDF)

ヤバス

けっこう日数が経っちゃったので復習しますね(;_;)

局所的重み

局所的重み\normalsize l_{ij}は、文書\normalsize D_{j}に対する索引語\normalsize w_{i}の出現頻度\normalsize f_{ij}から計算されるのでした。

局所的重みだけでも4種類あるみたいデスね。

2進重み(binary weight)
索引語が文書に出現するときに1。出現しなければ0になるというもの。
あんまり使われてないらしいです。

索引語頻度(term ferquency; TF)
出現頻度\normalsize f_{ij}のこと。索引語が該当文書にいくつ出現するかという値です。
TF-IDFのTFですよ!

対数化索引語頻度(logarithmic term ferquency)
出現頻度の高い索引語が極端に大きい重みを持たないようにするために対数を使います。

 \Large l_{ij}=log(1+f_{ij})

拡大正規化索引語頻度(augmented normalized term ferquency)
該当文書中でいちばん出現頻度の高い索引語の頻度を使って索引語頻度\normalsize f_{ij}を正規化する方法。

 索引語が文書に出現するとき、

  \Large l_{ij}=0.5+0.5\frac{f_{ij}}{\text{max}f_{kj}}

 索引語が文書に出現しないとき、

  \Large l_{ij}=0


むー( ̄〜 ̄;)??
下のほうに行くほど精度が高いのかなあ。。
あとで計算してみます><

大域的重み

大域的重み\normalsize g_{i}は、文書集合全体にわたる索引語\normalsize w_{i}の出現頻度の偏りを使って計算される重みで、多くの文書で出現する索引語は低い重みを、特定の文書のみに偏って出現する索引語に高い重みを与えるというものでした。


文書による索引語の偏りを表すのに、文書頻度(document frequency)っていうのを使うみたいです。
これは、索引語\normalsize w_{i}を含む文書数のことで、\normalsize n_{i}という記号で表現するみたい。


大域的重みは3種類あるみたいデスね。

文書頻度の逆数(inverse document ferquency; IDF)
逆数にすることで、(頻度が)多い→(重みが)低い/(頻度が)少ない→(重みが)高いを再現するのですね!

  \Large g_{i}=log\frac{n}{n_{i}}

ちなみに\normalsize nは、すべての文書数のことで、対数化しているのは、IDFの値の変化を少なくするためだそうです。。数式を見ただけでは理解できないお><

確率的IDF(probabilistic IDF)
これは、文書集合の半数以上の文書に含まれる索引語に対しては不の値をとるようにしたIDFってことみたいだけど。。

  \Large g_{i}=log\frac{n-n_{i}}{n_{i}}

数式を見ただけでは理解できないお><

大域的頻度IDF(grobal ferquency IDF)
文書集合を通しての索引語の頻度(大域的頻度)と文書頻度とを組み合わせた方法。索引語\normalsize w_{i}の大域的頻度を\normalsize F_{i}とするとき、大域的頻度IDFの定義はこうなるらしいです。

  \Large g_{i}=log\frac{F_{i}}{n_{i}}

索引語の文書頻度\normalsize n小さく、大域的頻度\normalsize F_{i}が大きいほど大きな重みになります。。( ̄~ ̄;) ウーン

普段使わない用語が連発して、イメージするのが難しくなってきました。。(T_T)

次回、実際になにかのデータを使って計算してみようと思います!