吳世勇,王明文
(江西師范大學 計算機信息工程學院,江西 南昌 330022)
搜索引擎的評價是信息檢索研究中的核心課題之一,客觀可靠的檢索性能評價方式是任何一項信息檢索研究中均需要考慮和設計的內(nèi)容。Saracevic指出[1]:“評價問題在信息檢索研發(fā)過程中處于如此重要的地位,以至于任何一種新方法與他們的評價方式是融為一體的”。
目前采用較多的評價是基于Cleverdon提出文獻[1]的Cranfield 評價框架。Cranfield 框架涉及到的組成部分包括標準評測語料庫、查詢樣例集合、標準答案集合和相應的評價指標等[2]。Cranfield方法指出[1-2],信息檢索系統(tǒng)的評價由如下幾個步驟組成:首先,確定查詢樣例集合,抽取最能表示用戶信息需求的一部分查詢樣例構建一個規(guī)模恰當?shù)募?;其次,針對查詢樣例集合,在檢索系統(tǒng)需要檢索的語料庫中尋找對應的答案,即進行標準答案集合的標注;最后,將查詢樣例集合和語料庫輸入檢索系統(tǒng),系統(tǒng)反饋檢索結(jié)果,再利用檢索評價指標對檢索結(jié)果和標準答案的接近程度進行評價,給出最終的用數(shù)值表示的評價結(jié)果。
隨著萬維網(wǎng)的不斷發(fā)展與互聯(lián)網(wǎng)信息量的增加,進行網(wǎng)絡信息檢索系統(tǒng)的性能評價時,Cranfield方法遇到了巨大的障礙。困難主要反映在針對查詢樣例集合的標準答案標注上,利用手工標注答案的方式進行網(wǎng)絡信息檢索系統(tǒng)的評價是一個既耗費人力、又耗費時間的過程。考慮到當前搜索引擎涉及到的索引頁面都在成百上千億頁面以上(2008年Google在官方網(wǎng)站中透露,他們索引的頁面數(shù)量在一萬億左右),再利用手工標注答案的方式進行網(wǎng)絡信息檢索系統(tǒng)的評價是十分不現(xiàn)實的事情,因此提高搜索引擎性能評價的自動化水平是當前檢索系統(tǒng)評價研究中的熱點。本文應用聚類方法分析搜索引擎檢索返回文檔的質(zhì)量,用類內(nèi)距和類間距等聚類指標來定義檢索性能指標,實現(xiàn)檢索系統(tǒng)的自動性能評價。
為了解決Cranfield方法在網(wǎng)絡信息檢索系統(tǒng)評價中所面臨的困境,近年來提出了一些自動進行搜索引擎性能評估的方案,一種是基于Cranfield框架,只是使用自動化方法進行答案自動標注,另一種是在Cranfield框架之外采用一些新的評價方法進行自動化評價。
第一種方案中,研究者嘗試使用檢索系統(tǒng)反饋的結(jié)果信息進行自動標注。Soboroff[3]提出可以在檢索系統(tǒng)結(jié)果池中,隨機挑選一定數(shù)量的結(jié)果作為答案集合進行評價。Nuray[4]提出對Soboroff方法的修正方案。但這種方案對檢索系統(tǒng)性能排序的影響較難以投入使用。部分研究人員基于已有的網(wǎng)頁目錄資源進行結(jié)果的自動標注,如Chowdhury[5]和Beitzel[6]提出的利用開放目錄計劃所整理的網(wǎng)頁目錄和對應的網(wǎng)頁摘要資源進行性能評測的工作,但使用摘要信息作為用戶查詢是不合理的假設,也未能得到普及應用。
第二種方案中,有IBM Haifa研究院研發(fā)的“相關詞集合評價方法”[7],減少了評價反饋時間,但手工標注與查詢相關聯(lián)的詞項也需要大量的人力。Joachims、劉奕群等提出的基于用戶點擊行為的評價方法[2,8],更適合導航類查詢的評價。在查詢性能預測研究中,Kwok和Vinay等人提出的對檢索結(jié)果同質(zhì)性進行分析的方法[9-10],Cronen-Townsend等人提出的對檢索結(jié)果突顯性分析的clarity score方法[11-12],為利用檢索結(jié)果質(zhì)量的好壞程度來實現(xiàn)檢索系統(tǒng)的性能自動評價提供了思路。但他們的方法沒有考慮查詢詞的覆蓋范圍,只是利用返回文檔之間的相似度來評價檢索結(jié)果,而檢索結(jié)果的好壞與查詢本身的質(zhì)量也有很大關系[13],多義性、歧義性的查詢一般覆蓋范圍大難以檢索到相關文檔,Charles Clarke等人[14]針對查詢歧義性和結(jié)果多樣性提出的評價指標能夠更好地反映用戶查詢需求。本文將針對信息類查詢結(jié)果多樣性的特點,根據(jù)查詢的覆蓋度對檢索結(jié)果進行聚類分析,從這一角度開展評價工作。
在網(wǎng)絡信息檢索中,用戶的信息查詢需求存在很大差異,有的用戶希望尋找指定名稱的站點或主頁,而有的用戶希望尋找與查詢主題相關的文檔頁面。這些查詢類型的不同對于檢索系統(tǒng)是十分重要的,因為不同的查詢需求可以設計不同的檢索算法從而獲得更佳的檢索結(jié)果,對檢索系統(tǒng)的評價也同樣如此,不同的查詢需求應采用不同的評價方法。
對用戶查詢有不同的分類方法。Broder把用戶的查詢信息需求分為三類:導航類,信息類和事務類[15]。導航類查詢是尋找知道名稱的站點或主頁,比如“江西高招網(wǎng)”、“某某市政府網(wǎng)站”等查詢,對應于TREC評估的homepage/named page任務;信息類查詢是尋找與查詢主題相關的文檔頁面,目標可能位于多個網(wǎng)頁,比如“電影”、“知識產(chǎn)權保護”等查詢,對應于TREC評估的ad-hoc任務;而事務類查詢是指用戶希望找到一個服務入口,需要進一步進行服務訪問,如火車路線查詢、歌曲下載等。
對于大量的用戶查詢,如何識別其類型呢?在劉奕群的工作[2]中,利用Sogou實驗室提供的用戶查詢?nèi)罩局械狞c擊信息實現(xiàn)了用戶查詢信息需求的分類,并且針對導航類查詢,提出了基于用戶行為分析的搜索引擎自動性能評價方法。因為對于導航類查詢而言,其正確答案唯一,而不需考慮答案全面性的問題;其對應的搜索引擎檢索性能也較高,因此用戶點擊行為的可靠性也比較容易保證。即:用戶在進行導航類查詢時,較容易發(fā)現(xiàn)并點擊結(jié)果列表中對應的答案,只要將用戶點擊行為中反映出的答案挑選出來就能實現(xiàn)答案的自動標注,從而達到不需要人工標注實現(xiàn)自動性能評價的目的。
對于信息類或事務類查詢而言,情況則要復雜的多,其正確答案不唯一,用戶期望的正確答案可能有多個,必須考慮答案全面性的問題;而其對應的搜索引擎檢索性能相對較低,用戶能否點擊到正確的答案也較難保證。因此,使用某個搜索引擎的用戶行為信息去評價其他搜索引擎信息類、事務類查詢的性能是不合理的。
如何實現(xiàn)針對信息類查詢的搜索引擎自動性能評價呢?網(wǎng)絡搜索引擎處理的數(shù)據(jù)是整個Web,同時Web數(shù)據(jù)還在不斷動態(tài)變化,不同的搜索引擎索引的數(shù)據(jù)也不盡相同,為了對不同數(shù)據(jù)集上檢索系統(tǒng)的質(zhì)量進行評估,我們考慮從搜索引擎檢索返回文檔的整體質(zhì)量來考查檢索系統(tǒng)的性能。根據(jù)聚團性假設[10],與一個查詢相關的文檔,彼此之間會具有一定的潛在關系,與那些不相關的文檔相比,與查詢相關的文檔會具有一定的相似性或者稱為同質(zhì)性,相關文檔會形成一個團,并與那些不相關文檔區(qū)分開來??紤]到信息類查詢的目的是為了查找與查詢主題相關的多個文檔頁面,如果檢索返回的文檔間比較相似,即具有比較高的同質(zhì)性,我們就認為返回的文檔集合與查詢主題比較相關;反之,如果檢索返回的文檔間相似度很小,我們就認為返回文檔集合中可能存在很多不相關的文檔,返回文檔的整體質(zhì)量較差。
因此,我們通過對檢索返回文檔進行聚類分析來考查檢索返回的文檔質(zhì)量,達到評估搜索引擎性能的目的。考慮到信息類查詢的主題一般可以劃分為幾個子主題,我們可以根據(jù)查詢子主題的個數(shù)確定返回文檔聚類的數(shù)目,也就是說查詢子主題的個數(shù)越多,相應的聚類數(shù)目也就越多。確定聚類數(shù)目后對檢索返回文檔進行聚類,如果一個類當中的文檔間比較相似、緊密程度較高,我們就認為這個類中的文檔與查詢中相應的一個查詢子主題比較相關;如果幾個類中心的距離比較大,側(cè)面反映查詢子主題的內(nèi)聚性比較好,不相關文檔(噪聲因子)較少。即固定聚類數(shù)量后,通過比較類內(nèi)距和類間距等聚類指標對檢索性能進行評價,如果類內(nèi)距越小、類間距越大則檢索返回文檔的質(zhì)量越好。
在對檢索返回結(jié)果進行聚類分析之前,我們首先要計算查詢的覆蓋度,即得到對該查詢的檢索結(jié)果進行聚類的數(shù)目,下一小節(jié)我們將具體介紹查詢覆蓋度的計算方法。
根據(jù)信息檢索研究中的獨立性假設原則,出現(xiàn)在文檔和查詢中的詞都被看作是相互獨立的,所以某個查詢的覆蓋度可以通過計算查詢中所有查詢詞的覆蓋度來得到。
要計算查詢詞的覆蓋范圍,我們需要考查查詢詞本身的性質(zhì),查詢詞具有一般性和特指性之分,一般性查詢往往是比較抽象的概念,其覆蓋范圍比較廣泛;而特指性查詢往往是比較具體的概念,其覆蓋范圍較小。比如:“體育”——>“籃球”——>“NBA”——>“火箭隊”,其中“體育”這個查詢詞屬于一般性查詢,覆蓋范圍很廣,包括了籃球、足球、乒乓球等子主題;而“NBA”屬于體育當中的一項籃球賽事,查詢的覆蓋范圍就要小很多。
現(xiàn)在,我們把每個查詢詞看作是一個查詢子主題,那么該查詢的覆蓋度(CS)可以通過公式(1)計算得到:
(1)
其中q是查詢Q中的一個查詢詞。
文獻[16]提出的預測查詢性能的CTS方法中,給出了兩種計算查詢主題重要度的方法,我們發(fā)現(xiàn)查詢主題越重要的查詢,其查詢的范圍應該更小,即查詢覆蓋度更小,因而可以將其方法應用到查詢覆蓋度的計算。在本文中,我們同樣可以用兩種方法來計算查詢詞的覆蓋度CS(q),其中一種方法稱為CS1,使用查詢詞的逆文檔頻率(IDF)來計算查詢詞的覆蓋度,計算方法比較簡單。IDF是信息檢索中常用到的一個因子,它是詞項所出現(xiàn)的文檔數(shù)目的倒數(shù),常用于反映該詞項的區(qū)分能力,查詢詞的IDF越小,其區(qū)分能力越低,但覆蓋范圍就越大。所以,CS1方法定義如下:
(2)
(3)
另外一種方法稱為CS2,是基于下面兩條準則而設計的[16]。第一,覆蓋范圍小的詞項在文檔集中的出現(xiàn)概率(詞頻)要比其他的詞?。坏诙?,覆蓋范圍小的詞項在不同文檔中的詞頻往往存在很大變化。也就是說覆蓋范圍大的詞項在文檔集中的分布是比較穩(wěn)定的,覆蓋范圍小的詞項在文檔集中的分布變化比較大。故定義兩個變量MP(q)和VP(q)來計算覆蓋度CS2(q)。
(4)
上述兩種方法都是使用查詢詞在文檔集中的詞頻信息和文檔頻率等靜態(tài)信息,因此我們可以在檢索前計算得到查詢的查詢覆蓋度。由于我們無法得到商業(yè)搜索引擎的整個文檔集,本文計算查詢覆蓋度使用的文檔集是北京大學網(wǎng)絡實驗室提供的CWT200G數(shù)據(jù)集與本實驗中搜索引擎檢索返回的近10G檢索結(jié)果的合集,共37 662 913篇文檔。我們首先對網(wǎng)頁預處理,包括對200G網(wǎng)頁的解壓,采用htmlparser分析html標簽,提取網(wǎng)頁中的標題和正文,即標簽
上節(jié)的論述中,我們明確了本文搜索引擎性能自動評價的對象是信息類查詢,本節(jié)我們來討論針對信息類查詢的自動性能評價的系統(tǒng)框架。搜索引擎自動性能評價框架如圖1所示。
圖1 搜索引擎自動性能評價框架
首先我們對搜狗實驗室提供的用戶查詢?nèi)罩?SogouQ)進行查詢類別分析,使用文獻[17]中的方法提取出查詢?nèi)罩局械男畔㈩惒樵儯S后運用上節(jié)提出的查詢覆蓋度計算方法計算出查詢的覆蓋度,同時使用不同的搜索引擎對提取出來的查詢進行檢索,將檢索返回的結(jié)果網(wǎng)頁抓取回來并進行預處理,最后結(jié)合查詢的覆蓋度對檢索結(jié)果進行聚類分析,通過比較類內(nèi)距和類間距等聚類指標對檢索性能進行評價。
聚類分析是數(shù)據(jù)挖掘的研究內(nèi)容之一,是根據(jù)數(shù)據(jù)集中數(shù)據(jù)的不同特征,將其劃分為不同的簇(Cluster),使得屬于同一簇的個體之間的距離盡可能小,不同簇的個體間的距離盡可能大。本文聚類分析采用向量空間模型(VSM, Vector Space Model)來處理,它的主要思想是:每一個詞都作為特征空間坐標系的一維,將文檔空間看作是一組正交特征向量組成的特征空間,每個文檔表示為其中的一個規(guī)范化特征向量V(d)=(t1,w1(d),…,ti,wi(d)…),其中ti為特征項,wi(d)為ti在文檔d中的權值。為了解決高維特征空間問題,我們選擇χ2統(tǒng)計法(CHI)進行特征選擇,減少聚類算法的處理時間。
本文采用的聚類技術是基于原型的、劃分的K-mean算法,K-mean算法比較簡單,其基本思想是用一個聚類的平均值或中值來表示這個聚類。首先,選擇K個初始質(zhì)心,其中K是用戶指定的參數(shù),即上一小節(jié)計算得到的查詢覆蓋度。每個點指派到最近的質(zhì)心,而指派到一個質(zhì)心的點集為一個簇。然后,根據(jù)指派到簇的點,更新每個簇的質(zhì)心。重復指派和更新步驟,直到簇中心不發(fā)生變化。
為了將點指派到最近的質(zhì)心,我們需要相似性度量來量化所考查的數(shù)據(jù)的“最近”概念。本文使用最常用的余弦相似性方法來計算兩個文檔之間的相似度,公式如下:
(5)
對檢索結(jié)果進行聚類后,我們利用類內(nèi)距和類間距等聚類指標來評價檢索性能。
類間距是所有聚類簇中心之間距離的平均值。定義如下:
(6)
其中k是聚類數(shù)目,ci,cj分別表示聚類Ci和Cj的類中心,|ci,cj|表示兩個類中心之間的距離。類間距表示類之間的區(qū)分程度,類間距越大,檢索結(jié)果中的不相關文檔(噪聲因子)越少,側(cè)面說明搜索引擎的檢索性能越好。
類內(nèi)距是所有聚類簇中的元素之間距離的平均值。定義如下:
(7)
其中k是聚類數(shù)目,mi表示聚類Ci中元素的個數(shù),ci表示聚類Ci的類中心,χij表示聚類Ci中的第j個元素,|χij,ci|為聚類Ci中元素與類中心的距離。類內(nèi)距表示類內(nèi)的凝聚程度,類內(nèi)距越小,檢索結(jié)果中的相關文檔就越多,反映了搜索引擎的檢索性能越好。
因此,我們可以用類間距和類內(nèi)距這兩個指標來估計搜索引擎的檢索性能,用Quality表示檢索結(jié)果的質(zhì)量,則Quality可以定義為:
(8)
Quality越大,即類間距與類內(nèi)距之比越大,反應了檢索結(jié)果中的相關文檔越多,不相關文檔越少,說明檢索性能越好。
我們選取了三個搜索引擎作為性能評價的對象,分別是Google,Baidu和Bing。實驗數(shù)據(jù)全部采集自2009年7月的互聯(lián)網(wǎng)。首先我們從搜狗實驗室提供的用戶查詢?nèi)罩?SogouQ)中提取出100個查詢頻率較高的信息類查詢并計算其查詢覆蓋度,再分別到三個搜索引擎上進行檢索,利用一些網(wǎng)頁抓取工具分別將搜索引擎返回的前600個檢索結(jié)果抓取下來。經(jīng)數(shù)據(jù)預處理后,對三組檢索結(jié)果分別進行聚類。我們提取的100個查詢在Sogou日志中的檢索頻率都在5次以上,基中查詢長度小于等于3的查詢約占80%(查詢長度主要是指用戶提交的查詢中包含幾個詞語或者字,經(jīng)統(tǒng)計Sogou日志中平均每個查詢長度為3.32),查詢詞條內(nèi)容的分布可以大致分為:娛樂、健康、商業(yè)、學術、計算機、社會等。
下面列出了100個查詢的聚類結(jié)果,如圖2所示。
圖2 三個搜索引擎檢索結(jié)果質(zhì)量比較
從圖中可以看出,Google的檢索結(jié)果質(zhì)量總體上要比Baidu和Bing的檢索結(jié)果質(zhì)量好。Baidu和Bing的檢索結(jié)果質(zhì)量相對來說相差不大,有的查詢Baidu的檢索結(jié)果質(zhì)量稍好一些,有的查詢Bing的檢索結(jié)果質(zhì)量稍好一些。計算100個查詢的檢索結(jié)果質(zhì)量平均值,Google的平均值為0.199 428,Baidu的平均值為0.146 191,Bing的平均值為0.156 826,我們可以得到三個搜索引擎檢索性能的排序從高到低為依次Google、Bing、Baidu。圖中不同查詢的檢索結(jié)果聚類質(zhì)量存在比較大的差異,這是由于不同查詢的查詢覆蓋度不同導致聚類數(shù)目不同而造成的,并不會影響檢索性能排序的比較。
為了說明我們提出的基于聚類分析的評價方法是可行的,我們將與人工標注的評價結(jié)果進行比較。我們選擇了每個搜索引擎對每個查詢的前20個結(jié)果,以及第21至100的5%,來進行人工標注答案,采用Pooling的方法[18]構造結(jié)果池。答案標注分為三個等級,分別為非常相關、一般相關、不相關,評估指標使用了p@3、p@10、p@20、NDCG@3、NDCG@10和NDCG@20。由于人為因素,不同評價人員人工標注相關等級的程度有所差別,導致不同查詢的精確率相差較大,但不影響評價結(jié)果的排序。人工評價的結(jié)論是Google的檢索結(jié)果準確度總體上要比Baidu和Bing的檢索結(jié)果準確度高。Baidu和Bing的檢索結(jié)果準確度總體來說相差不大,其中Bing的檢索結(jié)果準確度比Baidu的檢索結(jié)果準確度高的查詢多八個。將基于聚類分析的搜索引擎自動性能評價的排序結(jié)果與人工評價的排序結(jié)果進行對比,具體的評價實驗結(jié)果如圖3所示。
圖3 基于聚類分析的自動性能評價結(jié)果與人工標注評價結(jié)果的比較
為了進一步分析這兩種方法評價結(jié)果的一致性,我們進行一致性檢驗。設xg(i)、xbd(i)、xb(i)分別為Google、Baidu、bing第i個查詢的自動評分,yg(i)、ybd(i)、yb(i)分別為Google、Baidu、Bing第i個查詢的人工標注評分,然后分別對三組變量{xg(i)-xbd(i),yg(i)-ybd(i)}, {xg(i)-xb(i),yg(i)-yb(i)},{xbd(i)-xb(i),ybd(i)-yb(i)}進行相關分析,計算得到三組變量的Pearson相關系數(shù)。自動性能評價結(jié)果與人工評價結(jié)果(不同評價指標)的相關系數(shù)如表1所示。實驗結(jié)果表明兩種評價方法的評價結(jié)果是一致的且有統(tǒng)計學意義。(**表示雙邊檢驗中兩個變量相關性在a=0.01的水平是顯著的)。由此,可得出自動評價的搜索引擎性能排序結(jié)果與人工評價的結(jié)果相同。
表1 基于聚類分析的自動性能評價結(jié)果與人工評價結(jié)果(不同評價指標)的相關系數(shù)
為了考查查詢覆蓋度對自動性能評價的影響以及兩種查詢覆蓋度計算方法的優(yōu)劣,我們分別對不使用查詢覆蓋度方法(CS0)、兩種查詢覆蓋度計算方法(CS1和CS2)進行比較。通過聚類分析得到不同的自動評價結(jié)果,然后再分別與人工評價結(jié)果進行相關分析,表2中列出了三種不同覆蓋度計算方法的評價結(jié)果與人工評價結(jié)果的Pearson相關系數(shù),可以看到根據(jù)查詢覆蓋度進行聚類分析的自動評價方法能提高評價的準確率,其中第二種方法比第一種方法更好。
表2 不同查詢覆蓋度計算方法的評價結(jié)果與人工評價結(jié)果的相關系數(shù)
為了得到較好的參數(shù)λ取值,我們對查詢覆蓋度計算方法1中的λ分別取4、6、8、10、12、14,對方法2中的λ分別取1、2、3、4、5、6,計算出不同的查詢覆蓋度,再得到相應的自動評價結(jié)果,然后分別與人工評價結(jié)果進行一致性檢驗,對上述三組變量對{xg(i)-xbd(i),yg(i)-ybd(i)}, {xg(i)-xb(i),yg(i)-yb(i)},{xbd(i)-xb(i),ybd(i)-yb(i)}進行相關分析,得到三組變量對的Pearson相關系數(shù)如表3和表4所示??梢钥闯?,本文兩種覆蓋度計算方法中的參數(shù)分別取10和4較合適。
表3 查詢覆蓋度計算方法1(λ取不同的值)的評價結(jié)果與人工評價結(jié)果的相關系數(shù)
表4 查詢覆蓋度計算方法2(λ取不同的值)的評價結(jié)果與人工評價結(jié)果的相關系數(shù)
為了提高搜索引擎性能評價的自動化水平,本文提出了一種搜索引擎性能評價指標和自動進行搜索引擎性能評價的方法。首先我們對搜狗實驗室提供的用戶查詢?nèi)罩?SogouQ)進行了查詢類別判斷,提取出了查詢?nèi)罩局械男畔㈩惒樵儯缓笫褂萌笏阉饕鎸μ崛〕鰜淼牟樵冞M行檢索,將檢索返回的結(jié)果網(wǎng)頁抓取回來后進行內(nèi)容提取、分詞等處理,再應用我們提出的方法使用北京大學網(wǎng)絡實驗室提供的CWT200G數(shù)據(jù)集進行查詢覆蓋度的計算,并根據(jù)其覆蓋范圍對檢索結(jié)果進行聚類,通過本文提出的搜索引擎性能評價指標實現(xiàn)了檢索性能的自動評價。實驗結(jié)果表明,基于聚類分析的評價結(jié)果與人工標注的評價結(jié)果具有很高的一致性。
由于本文使用了簡單的K-mean算法對檢索結(jié)果進行聚類分析,初始聚類中心的選擇對聚類結(jié)果的影響較大,在未來的工作中,我們將考慮使用其他聚類的方法如層次聚類來提高自動性能評價的可靠性。同時,在改進查詢覆蓋度的計算方面,我們考慮利用開放目錄計劃(ODP)進行查詢覆蓋范圍的估計,從而不需要通過搜索引擎索引的整個文檔集來估算查詢覆蓋度。
[1] Saracevic, T. Evaluation of evaluation in information retrieval[C]//Fox E.A., Ingwersen P, Fidel R,eds. Proc. of the 18th Annual international ACM SIGIR Conf. on Research and Development in information Retrieval (SIGIR ’95). New York: ACM Press,1995: 138-146.
[2] 劉奕群,岑榮偉,張敏,等. 基于用戶行為分析的搜索引擎自動性能評價[J]. 軟件學報,2008,19 (11):3023-3032.
[3] Soboroff I., Nicholas C., Cahan P. Ranking retrieval systems without relevance judgments[C]//Kraft DH, Croft WB, Harper DJ, Zobel J, eds. Proc. of the 24th Annual international ACM SIGIR Conference on Research and Development in information Retrieval (SIGIR 2001). New York :ACM Press, 2001: 66-73.
[4] Nuray R. Can F. Automatic ranking of retrieval systems in imperfect environments[C]//Clarke C, Cormack G, Callan J, Hawking D, Smeaton A, eds. Proc. of the 26th Annual international ACM SIGIR Conference on Research and Development in information Retrieval (SIGIR 2003). New York :ACM Press, 2003: 379-380.
[5] Chowdhury A., Soboroff I. Automatic Evaluation of World Wide Web Search Services[C]//Jarverlin K, Beaulieu M, Baeza-Yates R, Myaeng SH, eds. Proc. of the 25th Annual international ACM SIGIR Conference on Research and Development in information Retrieval (SIGIR 2002). New York: ACM Press, 2002:421-422.
[6] Beitzel S. M., Jensen E. C., Chowdhury A., Grossman D. Using titles and category names from editor-driven taxonomies for automatic evaluation[C]//Kraft D, Frieder O, Hammeer J, Qureshi S, Seligman L, eds.Proc. of the twelfth international conference on Information and knowledge management, 2003:17-23.
[7] Amitay E., Carmel D., Lempel R., Soffer A. Scaling IR-system evaluation using term relevance sets[C]//Jarvelin K, Allan J, Bruza P, Sanderson M, eds. Proc. of the 27th Annual international ACM SIGIR Conference on Research and Development in information Retrieval (SIGIR 2004). New York :ACM Press,2004: 10-17.
[8] Joachims T. Evaluating Retrieval Performance Using Clickthrough Data[C]//Franke J, Nakhaeizadeh G, Renz I. Text Mining. Springer-Verlag, 2003:79-96.
[9] 郎皓,王斌,李錦濤,等. 文本檢索的查詢性能預測[J]. 軟件學報,2008,19(2):291-300.
[10] Vinay V, Cox IJ, Milic-Frayling N, Wood K. On ranking the effectiveness of searches[C]//Proc. of the 29th Annual International ACM SIGIR Conf. on Research and Development in Information Retrieval. New York: ACM Press, 2006. 398-404.
[11] Zhou Y, Croft WB. Ranking robustness: A novel framework to predict query performance[C]//Proc. of the 15th ACM International Conf. on Information and Knowledge Management.Arlington:ACM Press, 2006:567-574.
[12] Cronen-Townsend S, Zhou Y, Croft WB. Predicting query performance[C]//Proc. of the 25th Annual International ACM SIGIR Conf. on Research and Development in Information Retrieval. Tampere: ACM Press, 2002: 299-306.
[13] Carmel D, Yom-Tov E, Darlow A, Pelleg D. What makes a query difficult?[C]//Proc. of the 29th Annual International ACM SIGIR Conf. on Research and Development in Information Retrieval. New York: ACM Press, 2006:390-397.
[14] Charles Clarke, Maheedhar Kolla, Gordon Cormack. Novelty and Diversity in Information Retrieval Evaluation[C]//Proc. of the 31th Annual international ACM SIGIR Conference on Research and Development in information Retrieval (SIGIR 2008). Singapore: ACM Press, 2008:659-666.
[15] Andrei Z. Broder.,A taxonomy of web search[C]//SIGIR Forum,2002,36(2):3-10.
[16] Lang H, Wang B, Jones G et al. Query performance prediction for information retrieval based on covering topic score[J]. Journal of Computer Science and Technology, 2008, 23 (4): 590-601.
[17] Liu YQ, Zhang M, Ru LY, Ma SP. Automatic Query Type Identification Based on Click through Information[C]//Ng HT, Leong MK, Kan MY, Ji DH, eds. Proc. of the 3rdAsia Information Retrieval Symp.,AIRS 2006,LNCS 4182, Berlin, Heidelberg: Springer-Verlag, 2006:593-600.
[18] 李曉明,閆宏飛,王繼明. 搜索引擎——原理、技術與系統(tǒng)[M]. 北京:科學出版社, 2005 :179-181.