他の評価尺度とかテスト・コレクションとか

全文書のうち、検索質問に適合する文書の総数を $\normalsize R$ としたときに、検索結果の上位から $\normalsize R$ 番目を出力した時点での適合率。
→ 上位にランキングされた検索結果の有用性がわかるみたい。

昨日の例だと、 $\normalsize R$ 適合率は4位の時点での適合率になるから、0.75。

再現率 $\normalsize R$ と適合率 $\normalsize P$ の調和平均のこと。

調和平均というのは「逆数の平均値の逆数」・・・ってことらしいけど（￣〜￣；）？？
式で書くと、こういうことみたい。

　 $\Large Hm=\frac{n}{\sum_{i=1}^{n}\frac{1}{X_i}}$

話がそれたけど、つまり $\normalsize F$ 尺度とはこういうこと。

　 $\Large F=\frac{2}{\frac{1}{\normalsize R}+\frac{1}{\normalsize P}}$

→ $\normalsize R$ と $\normalsize P$ が大きくなるほど $\normalsize F$ 尺度も大きくなるので、この値が大きいほど精度がいいってことみたい。

昨日の例を使って $\normalsize F$ 尺度を計算してみます。

表示件数	適合性	再現率	適合率	$\normalsize F$ 尺度
1	○	0.25	1.00	0.40
2	○	0.50	1.00	0.67
3	×	0.50	0.67	0.57
4	○	0.75	0.75	0.75
5	○	1.00	0.80	0.89
6	×	1.00	0.67	0.80
7	×	1.00	0.57	0.73
8	×	1.00	0.50	0.67
9	×	1.00	0.44	0.61
10	×	1.00	0.40	0.57

なるほど。
この場合、5位まで表示するのがいちばん精度がいいというわけですね！
これは興味深い（・∀・）

けど、なんで普通に平均じゃだめなのかなぁ？？？

$\normalsize F$ 尺度は、再現率と適合率を同じ比重で考えたけど、この比重を調整できる尺度が $\normalsize E$ 尺度。
$\normalsize b$ を再現率と適合率の比重を表すパラメータとしたとき、 $\normalsize E$ 尺度の定義はコレ。

　 $\Large E=1-\frac{1+b^2}{\frac{b^2}{\normalsize R}+\frac{1}{\normalsize P}}$

うお。。＼（−"−）／
これで評価の幅は広がったけど、使いこなすのが大変そうだあ（Ｔ＿Ｔ）

検索システムの評価用データのことで、以下の項目が与えられてるらしいです。

これを元に検索システムを評価したり比較したりするみたいです。
日本語のテスト・コレクションもあって、BMIR-J1とか、BMIR-J2とか、NTCIRっていうのが有名みたい。

これって、一般ぴーぷるでは入手できないのかなぁ（・＿・？）