再現率と適合率の続き

具体的に計算してみた

たとえば、こんな感じの検索結果を考えます。

  • 検索結果は全部で10件。
  • そのうち、適合文書は4個。
  • それぞれの文書にランクがついていて、それで表示順を決めている。
  • 適合文書は、1位, 2位, 4位, 5位に登場する。
ランク 1 2 3 4 5 6 7 8 9 10
適合性 × × × × × ×

適合性っていうのは、その文章が適合文書かどうかっていう判定で、検索された文書の内容が検索質問に対してマッチしてれば○、ちょっと違うなーっていうのが×。
ホントはテスト・コレクションを持ってきて、そこで決められているものを使うんだけど、今回は練習用に勝手に決めますた。


このとき、
再現率 = 検索された文書中の適合文書の数/全文書中の適合文書の数 だから、
4/ 4 = 1.00

適合率 = 検索された文書中の適合文書の数/検索された文書の数 だから、
4/10 = 0.40
になる。

検索結果を何件表示するかによって、再現率、適合率が変わるよ

気をつけないといけないのは、上のはあくまで検索結果を10件全部表示した場合。
検索結果の表示件数を1〜10件でにした場合、再現率、適合率はこんな感じで変わる。

表示件数 適合性 再現率 適合率
1 1/ 4 = 0.25 1/ 1 = 1.00
2 2/ 4 = 0.50 2/ 2 = 1.00
3 × 2/ 4 = 0.50 2/ 3 = 0.67
4 3/ 4 = 0.75 3/ 4 = 0.75
5 4/ 4 = 1.00 4/ 5 = 0.80
6 × 4/ 4 = 1.00 4/ 6 = 0.67
7 × 4/ 4 = 1.00 4/ 7 = 0.57
8 × 4/ 4 = 1.00 4/ 8 = 0.50
9 × 4/ 4 = 1.00 4/ 9 = 0.44
10 × 4/ 4 = 1.00 4/10 = 0.40

わーい、できたよ\( ̄▽ ̄)/

平均適合率

適合文書が検索された時点での適合率の平均値

この値を使って、再現率と適合率を総合的な観点から評価するみたい。


上の例だと、
(1.00 + 1.00 + 0.75 + 0.80) / 4 = 0.89

n点平均適合率

あらかじめ決められたn個の再現率レベルでの適合率の平均値

これも再現率と適合率を総合的な観点から評価ための尺度。


(o・ω・o)?ホエ


再現率を基準にして、それに対応する適合率を計算して、その平均を出す感じ???
再現率レベル 0.0, 0.1, 0.2, ..., 1.0 の11点平均適合率ってのがメジャーみたい。

補間適合率を使って再現率に対応する適合率を求める

補間適合率っていうのは、再現率レベル\normalsize x以上の適合率のうちの最大値のことみたい。

上の結果の場合、こういうことになるみたい。
う、うまく説明できない。・°°・(>_<)・°°・。

再現率 補間適合率
0.0 1.00
0.1 1.00
0.2 1.00
0.3 1.00
0.4 1.00
0.5 1.00
0.6 0.75
0.7 0.75
0.8 0.80
0.9 0.80
1.0 0.80


で、各再現率レベルの補間適合率の平均を出すので、
(1.00 + 1.00 + ... + 0.80) / 11 = 0.9


平均適合率とだいたい同じくなればいい・・・の??


これを数式で書く。
11点平均適合率 \normalsize\tilde P は、補間適合率 \normalsize P(i) を用いて、次のように表すことができる。。らしい。


\Large\tilde P=\frac{1}{11}\sum_{i=0}^{10}P(\frac{i}{10})



( ̄~ ̄;) ウーン


数式がすらすら読めるようになりたいお><