他の評価尺度とかテスト・コレクションとか

\normalsize R適合率

全文書のうち、検索質問に適合する文書の総数を\normalsize Rとしたときに、検索結果の上位から\normalsize R番目を出力した時点での適合率。
→ 上位にランキングされた検索結果の有用性がわかるみたい。


昨日の例だと、\normalsize R適合率は4位の時点での適合率になるから、0.75

\normalsize F尺度

再現率\normalsize Rと適合率\normalsize Pの調和平均のこと。


調和平均というのは「逆数の平均値の逆数」・・・ってことらしいけど( ̄〜 ̄;)??
式で書くと、こういうことみたい。

 \Large Hm=\frac{n}{\sum_{i=1}^{n}\frac{1}{X_i}}


話がそれたけど、つまり\normalsize F尺度とはこういうこと。

 \Large F=\frac{2}{\frac{1}{\normalsize R}+\frac{1}{\normalsize P}}

\normalsize R\normalsize Pが大きくなるほど\normalsize F尺度も大きくなるので、この値が大きいほど精度がいいってことみたい。


昨日の例を使って\normalsize F尺度を計算してみます。

表示件数 適合性 再現率 適合率 \normalsize F尺度
1 0.25 1.00 0.40
2 0.50 1.00 0.67
3 × 0.50 0.67 0.57
4 0.75 0.75 0.75
5 1.00 0.80 0.89
6 × 1.00 0.67 0.80
7 × 1.00 0.57 0.73
8 × 1.00 0.50 0.67
9 × 1.00 0.44 0.61
10 × 1.00 0.40 0.57

なるほど。
この場合、5位まで表示するのがいちばん精度がいいというわけですね!
これは興味深い(・∀・)


けど、なんで普通に平均じゃだめなのかなぁ???

\normalsize E尺度

\normalsize F尺度は、再現率と適合率を同じ比重で考えたけど、この比重を調整できる尺度が\normalsize E尺度。
\normalsize bを再現率と適合率の比重を表すパラメータとしたとき、\normalsize E尺度の定義はコレ。

 \Large E=1-\frac{1+b^2}{\frac{b^2}{\normalsize R}+\frac{1}{\normalsize P}}

b=1のとき
再現率と適合率は同程度に重要。
b>1のとき
再現率よりも適合率を重視。
b<1のとき
適合率よりも再現率を重視。


うお。。\(−"−)/
これで評価の幅は広がったけど、使いこなすのが大変そうだあ(T_T)

テスト・コレクション

検索システムの評価用データのことで、以下の項目が与えられてるらしいです。

集合文書
検索対象となる文書の集合。
検索質問集合
検索質問文の集合。検索キーワードとか、クエリとか呼ばれてるやつデスね。
適合情報
検索質問集合の書く検索質問文に対して、文書集合中のどれが適合していて、どれが適合していないかという情報。

これを元に検索システムを評価したり比較したりするみたいです。
日本語のテスト・コレクションもあって、BMIR-J1とか、BMIR-J2とか、NTCIRっていうのが有名みたい。


これって、一般ぴーぷるでは入手できないのかなぁ(・_・?)