再現率と適合率

検索結果の評価尺度?

いくつかの文書があって、その中から検索した結果の良し悪しを判断するのに使うみたい。

再現率
検索対象となる文書集合の中の検索質問に適合する文書のうち、実際に検索された文書の割合
→ 検索質問に適合する文書を漏れなく検索しているかどうか(完全性)がわかる。
適合率
検索された文書集合の中で、検索質問に適合する文書の割合
→ 検索質問に適合する文書だけを検索しているかどうか(正確性)がわかる。
再現率、適合率は0〜1の値をとる
うむ。

検索質問に適合する文書って???

これが最初からわかってたら検索する必要なくね?

と思ったら、テスト・コレクションという文書集合があって、それを使うのを前提にしてるみたい。
あらかじめ答えがあって、それと比較して評価するみたい。

このへん、あとで書く。

再現率と適合率はトレードオフ

再現率が上がると適合率が下がる。逆に再現率が下がると適合率が上がる

すべての文書を出力すれば再現率は最大値の1だけど、適合率は0に近くなる。
検索結果を1件しか出力しなければ適合率は最大値の1だけど、再現率は0に近くなる。


ってことらしいんだけど( ̄〜 ̄;)??

文書集合の中の文書が全部検索質問に適合する文書だったら、再現率も適合率も最大じゃね?


・・・そんなテスト・コレクションは意味ないですよね。。ですよね??


|・−・) |−・;)|・;) |;) |