亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

搜索引擎指標(biāo)綜合特性的評(píng)價(jià)

2015-12-22 03:27:28吳勝利譚延之施化吉

江蘇大學(xué)學(xué)報(bào)(自然科學(xué)版) 2015年2期

關(guān)鍵詞：搜索引擎分值文檔

吳勝利，譚延之，施化吉

吳勝利，譚延之，施化吉

（江蘇大學(xué)計(jì)算機(jī)科學(xué)與通信工程學(xué)院，江蘇鎮(zhèn)江212013）

對(duì)搜索引擎的檢索性能進(jìn)行評(píng)價(jià)是信息檢索的一個(gè)重要方面，目前已經(jīng)提出和使用許多各有特色的評(píng)價(jià)指標(biāo).對(duì)于如何選擇出綜合特性最優(yōu)的評(píng)價(jià)指標(biāo)，需要準(zhǔn)確、可靠的判斷方法.文中提出基于t檢驗(yàn)的方法，并使用該方法對(duì)5種常用的評(píng)價(jià)指標(biāo)進(jìn)行了試驗(yàn)研究，包括平均查準(zhǔn)率（average precision，AP）、前10個(gè)文檔的查準(zhǔn)率（precision at10 document level，P@10）、可查全水平查準(zhǔn)率（recall-level precision，RP）、第1位相關(guān)文檔的倒數(shù)（reciprocal ranking，RR）、規(guī)范化帶折扣的累積收益（normalized discounted cumulative gain，NDCG）.結(jié)果表明NDCG的綜合特性最好，其次是AP，然后是RP和P@10，RR最差.對(duì)于任意2個(gè)評(píng)價(jià)指標(biāo)所提出的方法可以給出定量的比較結(jié)果.

搜索引擎；檢索性能；評(píng)價(jià)指標(biāo)；穩(wěn)定性；敏感性

對(duì)搜索引擎的結(jié)果進(jìn)行性能評(píng)價(jià)是信息檢索的重要組成部分，它用以保證準(zhǔn)確地判定不同的檢索系統(tǒng)、模型、或者其他組件的有效性，是信息檢索技術(shù)能夠不斷發(fā)展的必要條件.檢索評(píng)價(jià)是一項(xiàng)有挑戰(zhàn)性的工作，一般需要投入很多的人力物力；另一方面要得到比較準(zhǔn)確的結(jié)果也有相當(dāng)?shù)碾y度.為了評(píng)價(jià)一個(gè)或多個(gè)搜索引擎的有效性，需要一個(gè)參考數(shù)據(jù)集.參考數(shù)據(jù)集由文檔集合、一組查詢和相關(guān)性判斷組成.其中相關(guān)性判斷是指對(duì)于任一個(gè)查詢，需通過人工判斷文檔集合中哪些文檔是相關(guān)的，哪些文檔是不相關(guān)的.相關(guān)性判斷又可分為二分相關(guān)和多分相關(guān).二分相關(guān)是指將文檔分成相關(guān)和不相關(guān)2種情況，如可用數(shù)字0表示不相關(guān)，數(shù)字1表示相關(guān).多分相關(guān)是指文檔分成n+1（n+1＞2）種情況.除了毫不相關(guān)的文檔（用數(shù)字0表示），對(duì)于相關(guān)的文檔還細(xì)分為n種情況，比如用數(shù)字n表示最相關(guān)的文檔，n-1表示第二等相關(guān)的文檔，等等.

到目前為止，人們已經(jīng)提出了許多不同的評(píng)價(jià)指標(biāo).明確各個(gè)評(píng)價(jià)指標(biāo)的優(yōu)劣以及有關(guān)特性有利于用戶選擇與使用，而且有利于對(duì)這些指標(biāo)本身進(jìn)行改進(jìn).在評(píng)價(jià)指標(biāo)的特性中，穩(wěn)定性和敏感性最為重要.對(duì)于這個(gè)問題C.Buckley和E.M.Voorhees［1］于2000年在ACM SIGIR會(huì)議上發(fā)表了一篇代表作“Evaluating evaluation measure stability”，對(duì)搜索引擎評(píng)價(jià)指標(biāo)的穩(wěn)定性和敏感性進(jìn)行了試驗(yàn)研究.他們使用TREC（text rEtreival conference，每年由美國國立標(biāo)準(zhǔn)與技術(shù)研究所舉辦）中用過的一數(shù)據(jù)集（TREC 8 query track）來評(píng)估幾個(gè)評(píng)價(jià)指標(biāo)的穩(wěn)定性和敏感性.所采用的方法是：對(duì)于一個(gè)給定的評(píng)價(jià)指標(biāo)（比如平均查準(zhǔn)率，average precision，AP），計(jì)算出所有提交的檢索結(jié)果在該指標(biāo)上對(duì)50個(gè)查詢的平均得分值；然后設(shè)定一個(gè)閾值，比如5%，對(duì)于任意2個(gè)檢索結(jié)果的平均得分值之間的差異，檢查是否大于或小于所設(shè)定的閾值（5%）.假設(shè)共有a對(duì)檢索結(jié)果，其中b對(duì)的平均得分值之間的差異小于所設(shè)定的閾值，則平局率定義為a/b.而對(duì)于平均得分值之間的差異大于閾值的結(jié)果對(duì)子，則通過如下方法計(jì)算誤差率：假設(shè)2個(gè)結(jié)果為A和B，且對(duì)于所有s個(gè)查詢A的平均得分值比B多5%或以上.在其中的s1個(gè)查詢中，A的得分值比B多5%或以上；但在其中的s2個(gè)查詢中，B的得分值比A多5%或以上（s≥s1+s2）.在此情形下，誤差率定義為s2/（s1+s2）.這是因?yàn)榭偣灿衧1次單個(gè)查詢得出的結(jié)論和所有查詢的平均得出的結(jié)論是一致的，而有s2次單個(gè)查詢得出的結(jié)論和所有查詢的平均得出的結(jié)論是相反的.

誤差率和平局率可用以表示評(píng)價(jià)指標(biāo)的特性.如果在相同的數(shù)據(jù)集中用同樣的閾值計(jì)算出一組評(píng)價(jià)指標(biāo)的誤差率和平局率，那么就可以用來比較各個(gè)評(píng)價(jià)指標(biāo).通常較低的誤差率代表較高的穩(wěn)定性，而較低的平局率代表較高的敏感性.然而評(píng)價(jià)指標(biāo)通常在其中一個(gè)特性上表現(xiàn)良好而在另一個(gè)特性上表現(xiàn)較差.比如，在C.Buckley和E.M.Voorhees的試驗(yàn)中，他們發(fā)現(xiàn)前1 000個(gè)文檔的查全率（Recall@1000）的誤差率最低，但是它的平局率高于P@5（前5個(gè)文檔的查準(zhǔn)率）、RP（recall-level precision，可查全水平查準(zhǔn)率）、AP和RP.另一方面，P@5的平局率最低，但是它的誤差率卻高于P@100，AP，RP，P@1000（前1 000個(gè)文檔的查準(zhǔn)率）和Recall@1 000.

在這種情況下，如果同時(shí)考慮穩(wěn)定性和敏感性，則需要一種合適的方法選出綜合特性好的評(píng)價(jià)指標(biāo).C.Buckley和E.M.Voorhees的文章已發(fā)表十多年，但對(duì)于該問題仍一直延用他們的方法，未有更妥善的方法.在統(tǒng)計(jì)學(xué)中，t檢驗(yàn)是一種成熟的統(tǒng)計(jì)檢驗(yàn)方法，它已被廣泛地應(yīng)用于各種領(lǐng)域中.主要用于比較2個(gè)樣本均值的差異性.筆者意識(shí)到該方法也可用于評(píng)估2種或多種評(píng)價(jià)指標(biāo)，它可有機(jī)地將穩(wěn)定性和敏感性糅合在一起.t檢驗(yàn)具有理論性和系統(tǒng)性強(qiáng)、計(jì)算過程簡單、結(jié)果可靠的特點(diǎn).該方法不僅能應(yīng)用于二分相關(guān)的情形，也能應(yīng)用于多分相關(guān)的情形.這是文中主要?jiǎng)?chuàng)新之處.

1 研究背景

在信息檢索領(lǐng)域，對(duì)搜索引擎的檢索結(jié)果進(jìn)行評(píng)價(jià)是很關(guān)鍵的問題.人們提出了許多評(píng)價(jià)指標(biāo)，而其中一些評(píng)價(jià)指標(biāo)在研究試驗(yàn)中以及一些信息檢索評(píng)價(jià)活動(dòng)（比如TREC，CLEF等）中經(jīng)常被使用到.

為了研究評(píng)價(jià)指標(biāo)的特性，C.Voorhees和E. M.Buckley［1］通過對(duì)評(píng)價(jià)指標(biāo)的穩(wěn)定性和敏感性的研究來衡量評(píng)價(jià)指標(biāo)的優(yōu)劣.T.Sakai［2］使用同樣的試驗(yàn)方法研究了基于多值相關(guān)的一組評(píng)價(jià)指標(biāo).Lin Weihao和A.Hauptmann［3］對(duì)C.Voorhees和E.M. Buckley的試驗(yàn)方法給出了理論上的意義.

Wu Shengli和Sally McClean［4］通過對(duì)多個(gè)TREC數(shù)據(jù)集的試驗(yàn)，研究了非完整相關(guān)判斷情況對(duì)評(píng)價(jià)指標(biāo)的評(píng)價(jià)質(zhì)量的影響.文中通過對(duì)基于多分相關(guān)的評(píng)價(jià)指標(biāo)的誤差率和平局率進(jìn)行線性組合以得到綜合特性最好的評(píng)價(jià)指標(biāo).

t檢驗(yàn)、Wilcoxon檢驗(yàn)和sign檢驗(yàn)均可用于判斷2組結(jié)果之間的差異是否在統(tǒng)計(jì)意義上顯著.J.Zobel［5］發(fā)現(xiàn)t檢驗(yàn)比Wilcoxon檢驗(yàn)和sign檢驗(yàn)更可靠.因此文中試驗(yàn)中選用了t檢驗(yàn)而不是其他的統(tǒng)計(jì)方法.

近年來對(duì)檢索評(píng)價(jià)的研究一直很活躍.如文獻(xiàn)［6］討論如何評(píng)估檢索結(jié)果的多樣性與新穎性，文獻(xiàn)［7］和［8］討論如何評(píng)估多樣化的檢索結(jié)果.多樣化的檢索結(jié)果是指結(jié)果中不僅有文字信息，也包含聲音、圖像等.文獻(xiàn)［9］探討了支持交互式信息檢索的評(píng)估問題，文獻(xiàn)［10］討論了信息檢索系統(tǒng)的基于概念和偽相關(guān)性反饋的性能評(píng)估，文獻(xiàn)［11］介紹了一種通過減少性能評(píng)估的風(fēng)險(xiǎn)以達(dá)到優(yōu)化信息檢索系統(tǒng)的方法.

為便于閱讀，下面對(duì)5種評(píng)價(jià)指標(biāo)的擴(kuò)充形式進(jìn)行簡單的介紹，使它們能適用于多分相關(guān)的情況.對(duì)于一給定的查詢，一查詢結(jié)果包含一派序的文檔序列＜d1，d2，…，dm＞.理想結(jié)果是指結(jié)果中所有文檔根據(jù)相關(guān)度從高向低排列，此時(shí)各種評(píng)價(jià)指數(shù)會(huì)達(dá)到最大值.以下數(shù)學(xué)式子中的gr（di）是指搜索引擎返回的結(jié)果列表中第i個(gè)文檔di的相關(guān)度.

式中：tj為第j個(gè)相關(guān)文檔在結(jié)果列表中的位置；為位置ti之前所有文檔的相關(guān)度之和；為理想結(jié)果中位置tj之前所有文檔的相關(guān)度之和；total-n為文檔集合中所有相關(guān)文檔的數(shù)目.且有：

式中n為最大相關(guān)度.而且

在一個(gè)結(jié)果中，如相關(guān)度為n的文檔第1次出現(xiàn)的位置為tn，相關(guān)度為n-1的文檔第1次出現(xiàn)的位置為tn-1，…，相關(guān)度為1的文檔第1次出現(xiàn)的位置為t1，則RR可定義為

函數(shù)max（v1，v2，..，vn）返回集合中最大的值.

式中：m為結(jié)果列表中所要考慮的文檔數(shù)；wi為與位置有關(guān)的權(quán)值，如i≤2，則wi=1，否則DCG-best則為DCG在所屬查詢中的最大可能取值，亦即DCG-best是理想結(jié)果的DCG值，文中用它來規(guī)范化DCG的值.可以驗(yàn)證當(dāng)相關(guān)度為2時(shí)，除去NDCG（normalized discounted cumulative gain，規(guī)范化帶折扣的累積收益）外的4個(gè)評(píng)價(jià)指標(biāo)即蛻化為原先定義的形式.以上所介紹的AP，P@10和RP在［4］中給出，而NDCG由K.J?rvelin和J. Kek?l?inen在文獻(xiàn)［12］中提出.

2 試驗(yàn)環(huán)境和試驗(yàn)方法

t檢驗(yàn)是用t分布理論來推論差異發(fā)生的概率，從而比較2個(gè)樣本平均值的差異是否顯著.t檢驗(yàn)分為單總體檢驗(yàn)和雙總體檢驗(yàn).雙總體t檢驗(yàn)是檢驗(yàn)2個(gè)樣本平均值與其各自所代表的總體的差異是否顯著.雙總體t檢驗(yàn)又分為2種情況，獨(dú)立樣本t檢驗(yàn)和配對(duì)樣本t檢驗(yàn).本試驗(yàn)采用配對(duì)樣本t檢驗(yàn)，即為

式中：X1和X2為樣本平均值；和分別為2個(gè)樣本方差的無偏估計(jì)；n為樣本容量.對(duì)于一個(gè)給定的顯著性水平（比如0.05），可以計(jì)算出t的值來觀察2個(gè)樣本的平均值之間的差異是否顯著.

試驗(yàn)使用TREC中的4個(gè)數(shù)據(jù)集，他們是一些研究組提交到TREC 2000 web track，TREC 2004 robust track，TREC 2008 blog opinion track和TREC 2012 medical track的結(jié)果.所有這些數(shù)據(jù)集來自不同的年份，所用的文檔集合不同，所涉及的任務(wù)類型不一樣，所采用的查詢數(shù)目也有較大差異.另外，TREC 2000和TREC 2012支持三分相關(guān)，文檔分為高度相關(guān)、低度相關(guān)和不相關(guān)3種情況；而另2個(gè)數(shù)據(jù)集只支持二分相關(guān).TREC 2008 blog opinion track將相關(guān)文檔按照意見的觀點(diǎn)分成正向、反向、混合等幾種情況.這里無需區(qū)分，只作二分相關(guān)處理.這些數(shù)據(jù)集的異構(gòu)特質(zhì)有利于判別所試驗(yàn)方法的健壯性.在提交的結(jié)果中，有一些性能很差，幾乎未檢索到任何相關(guān)文檔.這些多是由于在運(yùn)行一些搜索引擎系統(tǒng)時(shí)出現(xiàn)了這樣或那樣的錯(cuò)誤.為避免這些非正常的數(shù)據(jù)影響試驗(yàn)結(jié)果的準(zhǔn)確性，除去了一些提交的結(jié)果（評(píng)價(jià)指標(biāo)AP的平均得分值小于0.05者）.此外，在數(shù)據(jù)集TREC 2012中，有3個(gè)查詢沒有檢索出任何相關(guān)文檔，TREC 2004中，有1個(gè)查詢沒有檢索出任何相關(guān)文檔，在試驗(yàn)中也去掉了.這樣最終選擇的試驗(yàn)數(shù)據(jù)集的情況如表1所示.

表1 試驗(yàn)中所用的4組數(shù)據(jù)的信息

文中在二分和三分相關(guān)情況下對(duì)5種評(píng)價(jià)指標(biāo)進(jìn)行試驗(yàn)，它們是AP，RP，NDCG，P@10和RR.試驗(yàn)方法如下：

1）首先在一個(gè)數(shù)據(jù)集中，對(duì)所有的檢索結(jié)果使用一給定評(píng)價(jià)指標(biāo)（比如AP）計(jì)算出其在每個(gè)查詢上的得分值.比如在TREC 2000中，使用評(píng)價(jià)指標(biāo)AP計(jì)算出結(jié)果acsys9mw0在查詢1和查詢8下的得分值分別為0.569 8和0.135 6.

2）對(duì)于數(shù)據(jù)集中的所有檢索結(jié)果，兩兩之間進(jìn)行配對(duì).比如在數(shù)據(jù)集TREC 2000中，因?yàn)樵囼?yàn)用到的檢索結(jié)果總共有89個(gè)，所以總共有89× 88/2=3 916個(gè)配對(duì).

3）對(duì)于每個(gè)配對(duì)結(jié)果和給定的顯著性水平（比如0.05），使用配對(duì)樣本的t檢驗(yàn)進(jìn)行分析計(jì)算，觀察2個(gè)檢索結(jié)果用所給定的評(píng)價(jià)指標(biāo)評(píng)價(jià)出的有效性之間的差異是否顯著.比如在TREC 2000中，對(duì)acsys9mw0和apl9all的2組50個(gè)AP得分值之間使用雙尾的t檢驗(yàn)計(jì)算.結(jié)果為0.042，小于顯著性水平0.05，所以acsys9mw0和apl9all（基于50個(gè)查詢的AP平均值）之間的差異在0.05水平上是顯著的.

4）在得到所有配對(duì)結(jié)果之間的t檢驗(yàn)值后，計(jì)算出有顯著性差異的檢索結(jié)果配對(duì)所占的比例.比如在TREC 2000中，顯著性水平為0.05時(shí)，使用評(píng)價(jià)指標(biāo)AP得出有顯著性差異的檢索結(jié)果對(duì)所占的比例為56.19%，而使用評(píng)價(jià)指標(biāo)P@10得出有顯著性差異的檢索結(jié)果對(duì)所占的比例為49.68%

5）分別在15個(gè)顯著性水平下重復(fù)以上步驟.它們是0.001，0.002，0.003，0.004，0.005，0.006，0.007，0.008，0.009，0.010，0.015，0.020，0.025，0.050，0.100.

6）分別使用AP，P@10，RP，RR，NDCG這5種評(píng)價(jià)指標(biāo)重復(fù)以上步驟.

7）分別在4個(gè)數(shù)據(jù)集TREC 2000 web track，TREC 2004 robust track，TREC 2008 blog opinion track和TREC 2012 medical track中重復(fù)以上步驟.其中TREC 2000和TREC 2012為二分相關(guān)情形，而TREC 2000和TREC 2012采用二分相關(guān)和三分相關(guān)2種情形.采用二分相關(guān)時(shí)將高度相關(guān)和低度相關(guān)均視作相關(guān).

通過以上步驟可以計(jì)算出有顯著性差異的配對(duì)結(jié)果所占的比例.一方面有顯著性的差異表明該指標(biāo)可準(zhǔn)確地評(píng)價(jià)檢索結(jié)果和比較不同的檢索結(jié)果，即為穩(wěn)定性的保證；而另一方面，所占的比例高說明了該指標(biāo)區(qū)分檢索結(jié)果有效性的能力明顯，即為高敏感性，因此，通過該試驗(yàn)可以綜合考慮這2方面以判斷評(píng)價(jià)指標(biāo)的好壞.

3 試驗(yàn)結(jié)果

第2節(jié)中所述試驗(yàn)結(jié)果如圖1所示.

圖1 在6個(gè)數(shù)據(jù)集上5種評(píng)價(jià)指標(biāo)的綜合特性曲線

在圖1的6組數(shù)據(jù)曲線中，可以觀察到在最上面的曲線始終是評(píng)價(jià)指標(biāo)NDCG，其次是AP，然后是RP和P@10，RR始終在最下面.只有1處例外.在2000 web track數(shù)據(jù)集上采用二分相關(guān)時(shí)，RP和P@10的曲線非常接近.這說明了如果同時(shí)考慮評(píng)價(jià)指標(biāo)的穩(wěn)定性和敏感性，那么NDCG是綜合特性最好的評(píng)價(jià)指標(biāo)，其次是AP，然后是RP和P@10，RR最差.從另一方面說，RR只考慮一個(gè)有關(guān)的文檔，P@10只考慮排在前10位的文檔，而其余3個(gè)要考慮更多的文檔，各指標(biāo)所需的代價(jià)差異很大，所以這樣的結(jié)果并不意外.

進(jìn)一步還可以量化出評(píng)價(jià)指標(biāo)之間的優(yōu)劣，比如在數(shù)據(jù)集TREC 2000 web track數(shù)據(jù)集上采用二分相關(guān)時(shí)，當(dāng)顯著性水平為0.05時(shí)，使用NDCG和P@10得到的百分比結(jié)果分別是68.30和53.68，因此，在這個(gè)試驗(yàn)環(huán)境下，NDCG的綜合特性比RP好27.24%（因?yàn)椋?8.30-53.68）/53.68=27.24%）.

另外，筆者也希望知道查詢的數(shù)量是否對(duì)于評(píng)價(jià)指標(biāo)的綜合性能有影響.一個(gè)較為合理的假設(shè)是：如果查詢數(shù)量越多，結(jié)果會(huì)越可靠.在選擇數(shù)據(jù)集時(shí)，筆者就對(duì)于此方面有所考慮，所選4個(gè)數(shù)據(jù)集中查詢數(shù)量不等，從最少的47個(gè)到最多的249個(gè)（見表1）.由于在4個(gè)數(shù)據(jù)集上的結(jié)果相似，所以認(rèn)為結(jié)果是比較可靠的.由于TREC 2004數(shù)據(jù)集上有249個(gè)查詢，可以進(jìn)一步在該數(shù)據(jù)集上進(jìn)行試驗(yàn)觀察.

試驗(yàn)的方法是：對(duì)于TREC 2004中的249個(gè)查詢，筆者將它們分成2，3，5，10等份.如為3等份時(shí)，每一個(gè)含83個(gè)查詢.在其他情形，其中一份較其他的等份少一個(gè)查詢.對(duì)于每一份中的查詢，按前述方法進(jìn)行試驗(yàn).圖2顯示該試驗(yàn)的采用AP的結(jié)果.圖中的曲線顯示的是所有等份的平均值.對(duì)于其他的評(píng)價(jià)指標(biāo)，結(jié)果相似所以未給出.

圖2 在TREC 2004 robust track數(shù)據(jù)集上AP指標(biāo)的綜合特性曲線

從圖2可見，分成的等份越多，查詢數(shù)越少，則對(duì)于給定的顯著水平，較少對(duì)子之間的差異能達(dá)到.這和之前的假設(shè)是一致的，因此可認(rèn)為該假定成立.

4 評(píng)價(jià)指標(biāo)的得分困難度

對(duì)于同樣的結(jié)果，每一種評(píng)價(jià)指標(biāo)計(jì)算得分的方法不同，因此得分能力也就不同，筆者將采用這種評(píng)價(jià)指標(biāo)的得分能力定義為該評(píng)價(jià)指標(biāo)的得分困難度.當(dāng)對(duì)同樣的結(jié)果進(jìn)行評(píng)價(jià)時(shí)，使用困難度較大的評(píng)價(jià)指標(biāo)進(jìn)行評(píng)價(jià)得到的值較低，而使用困難度較小的評(píng)價(jià)指標(biāo)進(jìn)行評(píng)價(jià)后得到的值較高.進(jìn)行這樣的研究可有助于在不同的檢索評(píng)價(jià)間的交叉比較，尤其是采用不同的評(píng)價(jià)指標(biāo)或采用不同的數(shù)據(jù)集時(shí).例如，對(duì)于數(shù)據(jù)集C1，一組查詢Q1，檢索結(jié)果集R1，采用評(píng)價(jià)指標(biāo)I1在所有查詢中的平均得分為S1；對(duì)于數(shù)據(jù)集C2，一組查詢Q2，檢索結(jié)果集R2，采用評(píng)價(jià)指標(biāo)I2在所有查詢中的平均得分為S2.如要比較R1和R2，則要找到S1和S2可比較的方法.為了計(jì)算出各評(píng)價(jià)指標(biāo)的困難度指數(shù)，筆者仍采用前述4個(gè)數(shù)據(jù)集.試驗(yàn)方法如下：

1）首先在一個(gè)數(shù)據(jù)集中，對(duì)檢索結(jié)果R1中的第1個(gè)查詢結(jié)果r11使用一評(píng)價(jià)指標(biāo)（比如RP）計(jì)算出其得分值，記為a11；繼續(xù)對(duì)此檢索結(jié)果的第2個(gè)查詢的結(jié)果r12使用此評(píng)價(jià)指標(biāo)計(jì)算出其得分值，記為a12；依次類推，可得到此搜索引擎對(duì)于所有查詢的得分值，即a11，a12，a13，…，a1n，其中n為查詢個(gè)數(shù).

2）對(duì)于此數(shù)據(jù)集中的每個(gè)搜索引擎重復(fù)步驟a），這樣可以得到基于此評(píng)價(jià)指標(biāo)的所有搜索引擎的結(jié)果R1，R2，…，Rm在所有查詢中的得分值.

3）計(jì)算出此數(shù)據(jù)集中第1個(gè)搜索引擎的結(jié)果R1應(yīng)用此評(píng)價(jià)指標(biāo)的得分值：，第2個(gè)搜索引擎的結(jié)果R2應(yīng)用此評(píng)價(jià)指標(biāo)的得分值：，直到最后一個(gè)搜索引擎的結(jié)果Rm應(yīng)用此評(píng)價(jià)指標(biāo)的得分值：，，其中m是搜索引擎的個(gè)數(shù)，n是查詢個(gè)數(shù).

5）分別使用AP，P@10，RP，RR，NDCG這5種評(píng)價(jià)指標(biāo)重復(fù)以上步驟.

6）分別在不同的數(shù)據(jù)集中重復(fù)以上步驟，試驗(yàn)的最終結(jié)果如表2所示.

表2 5種評(píng)價(jià)指標(biāo)的困難度指數(shù)

從表2可見，在所有6個(gè)數(shù)據(jù)集中，RR的困難度最低，其次是NDCG，RP和P@10，困難度最高的是AP.唯一的例外是TREC 2012中采用三分相關(guān)的情形.此時(shí)NDCG的困難度大于RR.當(dāng)然，在各個(gè)數(shù)據(jù)集中，同一評(píng)價(jià)指標(biāo)的困難度并不相同.這是因?yàn)樵诟鱾€(gè)數(shù)據(jù)集中，文檔集合中的文檔不同，特別是所用的查詢不同，查詢的難易程度不同，這會(huì)對(duì)所有指標(biāo)的得分值有直接影響.要比較不同數(shù)據(jù)集中的搜索引擎的性能，需要考慮查詢的難易程度.參考文獻(xiàn)［13］中給出了一些估計(jì)查詢復(fù)雜度的方法.

5 結(jié) 論

2）試驗(yàn)結(jié)果表明綜合考慮敏感性和穩(wěn)定性，NDCG是最好的評(píng)價(jià)指標(biāo)，其次是AP，然后是RP和P@10，RR最差.同時(shí)，也可以量化出各評(píng)價(jià)指標(biāo)之間的優(yōu)劣.

3）文中提出了困難度的新概念，它反映了用一指標(biāo)做檢索評(píng)價(jià)所需的代價(jià).試驗(yàn)結(jié)果表明困難度從低到高的次序是RR，NDCG，RP，P@10，AP.

4）綜合考慮敏感性、穩(wěn)定性和困難度，NDCG是最好的評(píng)價(jià)指標(biāo)，它困難度較低，敏感性和穩(wěn)定性很好.

（

）

［1］ Buckley C，Voorhees E M.Evaluating evaluation measure stability［C］∥Proceedings of the23rd International ACM SIGIR Conference on Research and Development in Infornation Retrieval.Athens，Greece：ACM，2000： 33-40.

［2］ Sakai T.Evaluating evaluation metrics based on the bootstrap［C］∥Proceedings of the 29th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.Seattle：ACM，2006：525-532.

［3］ Lin W H，Hauptmann A.Revisiting the effect of topic set size on retrieval error［C］∥Proceedings of the 28th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.Salvador，Brazil：ACM，2005：637-638.

［4］ Wu Shengli，McClean Sally.Evaluation of system measures for incomplete relevance judgment in IR［C］∥Proceedings of 7th International Conference on Flexible Query Answering Systems.Milan，Italy：Springer Verlag，2006：245-256.

［5］ Zobel J.How reliable are the results of large-scale information retrieval experiments？［C］∥Proceedings of the 1998 21st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. Melbourne，Vic.，Aust：ACM，1998：307-314.

●用有機(jī)硅功能肥與硅谷農(nóng)科院培育的“硅谷829”高產(chǎn)小麥新品種，在2017年試驗(yàn)田畝產(chǎn)達(dá)到974公斤，創(chuàng)中國小麥歷史最高紀(jì)錄。

［6］ Clarke C L A，Craswell N，Soboroff I，et al.A comparative analysis of cascade measures for novelty and diversity［C］∥Proceedings of the 4th ACM International Conference on Web Search and Data Mining.Hong Kong：ACM，2011：75-84.

［7］ Zhou K，Lalmas M，Sakai T，et al.On the reliability and intuitiveness of aggregated search metrics［C］∥Proceedings of the 22nd ACM International Conference on Information and Knowledge Management.San Francisco：ACM，2013：689-698.

［8］ Chuklin A，Schuth A，Hofmann K，et al.Evaluating aggregated search using interleaving［C］∥Proceedings of the22nd ACM International Conference on Information and Knowledge Management.San Francisco：ACM，2013：669-678.

［9］ Belkin N J.Supporting and evaluating whole-session interactive information retrieval［C］∥Proceedings of the MindTheGap′14Workshop，2014.

［10］ Abderrahim M A.Concept based vs.pseudo relevance feedback performance evaluation for information retrieval system［J］.International Journal of Computational Linguistics Research，2013，4（4）：149-158.

［11］ Din?er B T，Ounis I，Macdonald C.Tackling biased baselines in the risk-sensitive evaluation of retrieval systems［C］∥Proceedings of the 36th European Conference on Information Retrieval.Amsterdam，Netherlands：Springer Verlag，2014：26-38.

［12］ J?rvelin K，Kek?l?inen J.Cumulated gain-based evaluation of IR techniques［J］.ACM Transactions on Information Systems，2002，20（4）：422-446.

［13］ Hauff C，Hiemstra D，de Jong F.A survey of pre-retrieval query performance predictors［C］∥Proceedings of the 17th ACM Conference on Information and Knowledge Management.Napa Valley：ACM，2008：1419-1420.

（責(zé)任編輯梁家峰）

Evaluation on metric characteristics of search engines

Wu Shengli，Tan Yanzhi，Shi Huaji
（School of Computer Science and Communication Engineering，Jiangsu University，Zhenjiang，Jiangsu 212013，China）

Performance evaluation of search engines is an important aspect of information retrieval.Many evaluation metrics have been proposed with different characteristics.Accurate and reliable judgment is required to select an optimal metric among many candidates.Based on t test，a method was proposed，and empirical investigation was conducted to compare five commonly used metrics of average precision（AP），precision at 10 document level（P@10），recall-level precision（RP），reciprocal ranking（RR）and normalized discounted cumulative gain（NDCG）.The results show that NDCG is the best，which is followed by AP，RP and P@10 with the worst of RR.The proposed method is able to provide quantitative conclusion for the comparison of any two metrics.

search engine；retrieval performance；evaluation metric；stability；sensitivity

TP311.135

1671-7775（2015）02-0181-06

吳勝利，譚延之，施化吉.搜索引擎指標(biāo)綜合特性的評(píng)價(jià)［J］.江蘇大學(xué)學(xué)報(bào)：自然科學(xué)版，2015，36（2）：181-186，214.

10.3969/j.issn.1671-7775.2015.02.011

2014-07-16

江蘇特聘教授項(xiàng)目；江蘇大學(xué)特聘教授啟動(dòng)基金資助項(xiàng)目

吳勝利（1963-），男，江蘇南京人，教授，博士生導(dǎo)師（swu@ujs.edu.cn），主要從事數(shù)據(jù)庫與信息系統(tǒng)研究.譚延之（1989-），男，安徽合肥人，碩士研究生（1585579087@126.com），主要從事數(shù)據(jù)庫與信息系統(tǒng)研究.