他の評価尺度とかテスト・コレクションとか
適合率
全文書のうち、検索質問に適合する文書の総数をとしたときに、検索結果の上位から番目を出力した時点での適合率。
→ 上位にランキングされた検索結果の有用性がわかるみたい。
昨日の例だと、適合率は4位の時点での適合率になるから、0.75。
尺度
再現率と適合率の調和平均のこと。
調和平均というのは「逆数の平均値の逆数」・・・ってことらしいけど( ̄〜 ̄;)??
式で書くと、こういうことみたい。
話がそれたけど、つまり尺度とはこういうこと。
→ とが大きくなるほど尺度も大きくなるので、この値が大きいほど精度がいいってことみたい。
昨日の例を使って尺度を計算してみます。
表示件数 | 適合性 | 再現率 | 適合率 | 尺度 |
---|---|---|---|---|
1 | ○ | 0.25 | 1.00 | 0.40 |
2 | ○ | 0.50 | 1.00 | 0.67 |
3 | × | 0.50 | 0.67 | 0.57 |
4 | ○ | 0.75 | 0.75 | 0.75 |
5 | ○ | 1.00 | 0.80 | 0.89 |
6 | × | 1.00 | 0.67 | 0.80 |
7 | × | 1.00 | 0.57 | 0.73 |
8 | × | 1.00 | 0.50 | 0.67 |
9 | × | 1.00 | 0.44 | 0.61 |
10 | × | 1.00 | 0.40 | 0.57 |
なるほど。
この場合、5位まで表示するのがいちばん精度がいいというわけですね!
これは興味深い(・∀・)
けど、なんで普通に平均じゃだめなのかなぁ???
尺度
尺度は、再現率と適合率を同じ比重で考えたけど、この比重を調整できる尺度が尺度。
を再現率と適合率の比重を表すパラメータとしたとき、尺度の定義はコレ。
- のとき
- 再現率と適合率は同程度に重要。
- のとき
- 再現率よりも適合率を重視。
- のとき
- 適合率よりも再現率を重視。
うお。。\(−"−)/
これで評価の幅は広がったけど、使いこなすのが大変そうだあ(T_T)
テスト・コレクション
検索システムの評価用データのことで、以下の項目が与えられてるらしいです。
- 集合文書
- 検索対象となる文書の集合。
- 検索質問集合
- 検索質問文の集合。検索キーワードとか、クエリとか呼ばれてるやつデスね。
- 適合情報
- 検索質問集合の書く検索質問文に対して、文書集合中のどれが適合していて、どれが適合していないかという情報。
これを元に検索システムを評価したり比較したりするみたいです。
日本語のテスト・コレクションもあって、BMIR-J1とか、BMIR-J2とか、NTCIRっていうのが有名みたい。
これって、一般ぴーぷるでは入手できないのかなぁ(・_・?)