再現率と適合率
検索結果の評価尺度?
いくつかの文書があって、その中から検索した結果の良し悪しを判断するのに使うみたい。
- 再現率
- 検索対象となる文書集合の中の検索質問に適合する文書のうち、実際に検索された文書の割合
→ 検索質問に適合する文書を漏れなく検索しているかどうか(完全性)がわかる。 - 適合率
- 検索された文書集合の中で、検索質問に適合する文書の割合
→ 検索質問に適合する文書だけを検索しているかどうか(正確性)がわかる。
- 再現率、適合率は0〜1の値をとる
- うむ。
検索質問に適合する文書って???
これが最初からわかってたら検索する必要なくね?
と思ったら、テスト・コレクションという文書集合があって、それを使うのを前提にしてるみたい。
あらかじめ答えがあって、それと比較して評価するみたい。
このへん、あとで書く。
再現率と適合率はトレードオフ
再現率が上がると適合率が下がる。逆に再現率が下がると適合率が上がる
すべての文書を出力すれば再現率は最大値の1だけど、適合率は0に近くなる。
検索結果を1件しか出力しなければ適合率は最大値の1だけど、再現率は0に近くなる。
ってことらしいんだけど( ̄〜 ̄;)??
文書集合の中の文書が全部検索質問に適合する文書だったら、再現率も適合率も最大じゃね?
・・・そんなテスト・コレクションは意味ないですよね。。ですよね??
|・−・) |−・;)|・;) |;) |