再現率と適合率の続き

たとえば、こんな感じの検索結果を考えます。

ランク	1	2	3	4	5	6	7	8	9	10
適合性	○	○	×	○	○	×	×	×	×	×

適合性っていうのは、その文章が適合文書かどうかっていう判定で、検索された文書の内容が検索質問に対してマッチしてれば○、ちょっと違うなーっていうのが×。
ホントはテスト・コレクションを持ってきて、そこで決められているものを使うんだけど、今回は練習用に勝手に決めますた。

このとき、
再現率 = 検索された文書中の適合文書の数/全文書中の適合文書の数だから、
4/　4 = 1.00

適合率 = 検索された文書中の適合文書の数/検索された文書の数だから、
4/10 = 0.40
になる。

気をつけないといけないのは、上のはあくまで検索結果を10件全部表示した場合。
検索結果の表示件数を1〜10件でにした場合、再現率、適合率はこんな感じで変わる。

わーい、できたよ＼(￣▽￣)／

この値を使って、再現率と適合率を総合的な観点から評価するみたい。

上の例だと、
(1.00 + 1.00 + 0.75 + 0.80) / 4 = 0.89

これも再現率と適合率を総合的な観点から評価ための尺度。

(ｏ･ω･ｏ）？ﾎｴ

再現率を基準にして、それに対応する適合率を計算して、その平均を出す感じ？？？
再現率レベル 0.0, 0.1, 0.2, ..., 1.0 の11点平均適合率ってのがメジャーみたい。

補間適合率っていうのは、再現率レベル $\normalsize x$ 以上の適合率のうちの最大値のことみたい。

上の結果の場合、こういうことになるみたい。
う、うまく説明できない。・°°・(>_<)・°°・。

で、各再現率レベルの補間適合率の平均を出すので、
(1.00 + 1.00 + ... + 0.80) / 11 = 0.9

平均適合率とだいたい同じくなればいい・・・の？？

これを数式で書く。
11点平均適合率 $\normalsize\tilde P$ は、補間適合率 $\normalsize P(i)$ を用いて、次のように表すことができる。。らしい。

$\Large\tilde P=\frac{1}{11}\sum_{i=0}^{10}P(\frac{i}{10})$

(￣~￣；) ウーン

数式がすらすら読めるようになりたいお＞＜