亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于查詢性能預測的魯棒檢索排序研究

2016-05-04 02:43:14薛源海俞曉明程學旗

中文信息學報 2016年5期

關鍵詞：排序模型

薛源海，俞曉明，劉悅，關峰，程學旗

(1. 中國科學院網(wǎng)絡數(shù)據(jù)科學與技術重點實驗室，北京 100190；2. 中國科學院計算技術研究所，北京 100190； 3. 中國科學院大學，北京 100190)

基于查詢性能預測的魯棒檢索排序研究

薛源海1,2,3，俞曉明1,2，劉悅1,2，關峰1,2,3，程學旗1,2

(1. 中國科學院網(wǎng)絡數(shù)據(jù)科學與技術重點實驗室，北京 100190；2. 中國科學院計算技術研究所，北京 100190； 3. 中國科學院大學，北京 100190)

信息檢索技術致力于從海量的信息資源中為用戶獲取所需的信息。相較于傳統(tǒng)的簡單模型，近些年來的大量研究工作在提升了檢索結(jié)果平均質(zhì)量的同時，往往忽略了魯棒性的問題，即造成了很多查詢的性能下降，導致用戶滿意度的顯著下降。本文提出了一種基于排序?qū)W習的查詢性能預測方法，針對每一個查詢，對多種模型得到的檢索結(jié)果列表進行預測，將其中預測性能最優(yōu)的檢索結(jié)果列表展示給用戶。在LETOR的三個標準數(shù)據(jù)集OHSUMED、MQ2008和MSLR-WEB10K上的一系列對比實驗表明，在以經(jīng)典的BM25模型作為基準的情況下，與當前最好的檢索模型之一LambdaMART相比，該方法在提升了檢索結(jié)果平均質(zhì)量的同時，顯著地減少了性能下降的查詢的數(shù)量，具備較好的魯棒性。

查詢性能預測；排序?qū)W習；魯棒檢索排序

1 引言

我們身處于一個信息爆炸的時代，而信息檢索技術正是解決信息爆炸問題最為有效的技術手段之一[1]。各類信息檢索模型相繼被提出并投入到實際應用中，主要包括向量空間模型、傳統(tǒng)概率模型、統(tǒng)計語言模型以及排序?qū)W習模型等。與此同時，查詢擴展、偽相關反饋以及查詢性能預測等技術也大量出現(xiàn)，致力于提高檢索結(jié)果的質(zhì)量。然而，對于相對簡單的模型或技術來說，日益復雜的方法在提升了檢索結(jié)果平均質(zhì)量的同時，往往忽略了檢索結(jié)果魯棒性的重要性。

在真實的應用場景中，相對于性能提升的查詢，用戶對失敗的查詢更加敏感，更容易記住不好的查詢體驗。這就要求相較于基準的檢索結(jié)果，在提升其平均質(zhì)量的同時，還要盡量避免引入太多額外的風險，即造成其中某些查詢的檢索結(jié)果質(zhì)量大幅下降。雖然高收益總是不可避免地伴隨著高風險，但是各種檢索模型之間卻具備一定的互補性，本文將基于查詢性能預測技術，融合多種檢索模型的優(yōu)勢，致力于實現(xiàn)收益與風險之間的優(yōu)化平衡。

本文組織如下：第二節(jié)分別對檢索排序的魯棒性以及查詢性能預測進行了回顧；第三節(jié)提出了基于排序?qū)W習的查詢性能預測方法并闡述了基于該方法實現(xiàn)具有魯棒性的檢索排序算法；第四節(jié)介紹了實驗環(huán)境并對實驗結(jié)果進行了分析；第五節(jié)給出了對本文工作的總結(jié)以及未來的研究方向。

2 相關工作

2.1 魯棒的檢索排序

雖然大量致力于提升檢索排序結(jié)果質(zhì)量的技術相繼被提出，但是相對于簡單的基準方法來說，這些研究從總體上看在平均性能上得到了大幅提升的同時，卻也引入了額外的風險，即造成某些查詢性能的下降甚至是查詢失敗。檢索排序的魯棒性開始被關注，即相對于某種基準排序，如何在提升平均查詢性能的同時，最小化在任意一個查詢上產(chǎn)生的風險。

為不同的查詢建立個性化的模型是有效控制風險的途徑之一。文獻[2]基于K近鄰的方法，針對每一個查詢，使用訓練集中與其最相近的鄰居進行訓練，得到查詢獨立的排序函數(shù)。文獻[3]使用聚類的方法，通過分而治之的策略訓練得到查詢獨立的排序模型。文獻[4]將查詢分類，對于不同種類的查詢，分別使用不同的損失函數(shù)進行優(yōu)化訓練，也取得了不錯的效果。

一些研究工作針對adhoc檢索提出了具備風險意識的排序算法，文獻[5]和文獻[6]對檢索排序的不確定性等因素進行了分析建模，以達到控制檢索風險的目的。面向多目標優(yōu)化的排序?qū)W習算法也相繼被提出，文獻[7]提出了同時考慮文檔新鮮度以及相關性的多目標排序?qū)W習算法，文獻[8]則是將傳統(tǒng)的相關性指標NDCG作為主要優(yōu)化目標，將通過點擊數(shù)據(jù)獲得的偽相關反饋作為次要優(yōu)化目標進行訓練學習，文獻[9]提出了一種能夠刻畫檢索性能與魯棒性之間平衡的指標，將該指標應用到排序?qū)W習算法中，在取得較好的平均性能的同時，減少了查詢失敗的數(shù)量。

本文將從另一個角度出發(fā)，使用排序?qū)W習算法對多種檢索模型得到的結(jié)果列表進行相對性能好壞的預測，并根據(jù)預測結(jié)果得到平均性能好且具備魯棒性的檢索排序結(jié)果。

2.2 查詢性能預測

不同的用戶給出的不同查詢的檢索結(jié)果質(zhì)量，往往具有很大的差異性。查詢性能預測技術致力于在缺乏相關性標注的情況下，對某一查詢返回的檢索結(jié)果質(zhì)量進行估計。目前，針對查詢性能預測技術的研究大致可分為兩類：基于檢索前的方法(Pre-retrieval predictors)和基于檢索后的方法(Post-retrieval predictors)。

基于檢索前的方法完全不關心檢索返回的結(jié)果列表，而僅僅對查詢本身進行分析，同時利用待檢索數(shù)據(jù)集的統(tǒng)計信息進行估計。這些方法主要著眼于一個查詢到底具備多強的區(qū)分力，其是否足夠?qū)⒋龣z索數(shù)據(jù)集中的相關文檔以及不相關文檔區(qū)分開來。利用查詢詞項的逆文檔頻率(IDF)進行預測是該類方法的主流策略，它們分別嘗試了使用查詢詞項IDF的平均值、標準方差以及某種變形來預測查詢的性能[10-12]。這些方法雖然都具有一定的效果，但均無法較好地對查詢性能進行預測。

基于檢索后的方法在上述方法的基礎上，進一步對檢索返回的結(jié)果列表進行了分析，包括返回的結(jié)果列表中各文檔間的相關關系以及其與整個文檔集之間的關系等。文獻[13]基于查詢和整個文檔集兩個語言模型之間的KL距離，提出了Clarity score的方法，是早期成功預測了查詢性能的方法之一。文獻[14]等很多工作是其優(yōu)化后的版本。文獻[15]提出了一種基于決策樹的預測方法，其簡單易實施，卻非常依賴于有限的訓練數(shù)據(jù)集。文獻[16]提出了一個新的概念Robustness score，用于度量檢索返回文檔集列表的穩(wěn)定性，實驗驗證了加入噪音后，檢索結(jié)果列表的穩(wěn)定性與查詢的性能有著很強的相關性。文獻[17]提出了WIG的統(tǒng)計量，并利用檢索返回結(jié)果與整個文檔集之間的狀態(tài)差異來估計查詢的性能，取得了不錯的效果。文獻[18]提出了基于CTS的預測方法，其刻畫了用戶查詢主題在檢索結(jié)果中的覆蓋度，覆蓋度越高，則說明該查詢的檢索結(jié)果質(zhì)量越高。近年來的一些研究也表明，利用檢索結(jié)果列表的文檔得分可以有效地進行查詢性能預測，如文獻[19]使用檢索結(jié)果列表文檔得分的標準方差進行了較成功的查詢性能預測。文獻[20]則討論了在多檢索結(jié)果列表融合場景下的查詢性能預測問題。

上述的查詢性能預測研究，多是著眼于預測查詢結(jié)果質(zhì)量的絕對好壞，而本文將針對同一查詢，對不同檢索結(jié)果列表質(zhì)量的相對好壞程度進行預測，最終致力于得到具有更好魯棒性的檢索排序算法。

3 基于查詢性能預測的魯棒檢索排序算法

在真實的信息檢索應用場景中，無論是用戶本身以及提交的查詢，還是其最終的信息需求，往往都存在著極大的多樣性和不確定性，這是導致單一檢索排序模型難以具備較好的魯棒性的主要原因之一。

以往的研究大多致力于提升查詢集檢索結(jié)果的平均質(zhì)量，而忽略了魯棒性的問題，結(jié)果導致大量查詢的檢索結(jié)果質(zhì)量得到了提升，也確實提升了整個查詢集檢索結(jié)果的平均質(zhì)量，但不可避免的以部分查詢的檢索結(jié)果質(zhì)量下降甚至是大幅下降作為代價。以應用最為廣泛的BM25模型和排序?qū)W習算法LambdaMART為例，在三個標準數(shù)據(jù)集OHSUMED、MQ2008和MSLR-WEB10K上的測試結(jié)果如圖1所示。顯而易見，以BM25為基準，LambdaMART雖然大幅提升了檢索結(jié)果的平均質(zhì)量，但在三個數(shù)據(jù)集上，均造成了大量查詢的檢索結(jié)果質(zhì)量下降，甚至于有10%左右的查詢結(jié)果質(zhì)量下降幅度超過25%。既然LambdaMART在部分查詢上的表現(xiàn)不如BM25，那么在這些查詢上，其他檢索模型的表現(xiàn)又如何呢？本文引入了布爾模型、向量空間模型以及語言模型等，測試結(jié)果如圖2所示。

圖1 基于BM25，LambdaMART的魯棒性問題

圖2 在LambdaMART不如BM25的查詢上，表現(xiàn)最好的模型分布

本文的目標是，給定一組基準的檢索結(jié)果列表，構(gòu)造一組新的檢索結(jié)果列表，使其相對于基準結(jié)果來說，平均性能有所提升的同時，避免在任意一個單獨的查詢上，性能有大幅下降。而從圖2中可以看到，在LambdaMART的表現(xiàn)不如BM25的查詢中均有至少50%以上的查詢，存在比BM25表現(xiàn)更好的模型。針對同一個待檢索文檔集以及同一組查詢，不同檢索模型的表現(xiàn)各不相同且各種模型之間存在一定的互補性。于是本文提出了基于查詢性能預測的魯棒檢索排序算法，擇優(yōu)錄用不同模型的檢索結(jié)果，預期在不明顯影響平均性能的同時，顯著減少性能下降的查詢數(shù)，提高最終檢索結(jié)果的魯棒性。其具體流程如下：

1) 針對已標注的每一個查詢，使用多種檢索模型得到多個結(jié)果列表；

2) 使用給定的評價指標對各個結(jié)果列表的性能打分并從小到大排序，構(gòu)造基于(查詢—結(jié)果列表)對的特征向量，并以排序序號對其進行性能等級標注，得到訓練集；

3) 在訓練集上使用排序?qū)W習算法訓練得到用于預測結(jié)果列表性能的排序模型；

4) 對于新的未標注查詢，使用多種檢索模型得到多個候選結(jié)果列表，然后利用學習得到的排序模型對其進行排序，選擇排序最靠前的結(jié)果列表作為最終結(jié)果列表。

本節(jié)接下來將分別從基礎符號定義、基于(查詢-結(jié)果列表)對的特征向量構(gòu)造以及性能預測模型的學習三個方面進行詳細闡述。

3.1 基礎符號定義

1) 查詢集大小為n，記為Q= {q1,q2, …,qn}；

2) 文檔集大小為N，記為D= {d1,d2, …,dN}；

3) 檢索模型集大小為m，記為Model= {M1,M2, …,Mm}，基準模型Mbase∈Model；

4) 針對查詢qi，檢索模型Mj得到的結(jié)果列表包含K個文檔，記為Lij= {d1,d2, …,dK}；

5) 基于(qi-dj)對的特征向量為FQDij，基于(qi-Lij)對的特征向量為FQLij。

3.2 基于(查詢-結(jié)果列表)對的特征向量構(gòu)造

本文使用檢索結(jié)果列表中的文檔所對應的基于(查詢-文檔)對的特征向量FQD構(gòu)造基于(查詢-結(jié)果列表)對的特征向量FQL，其中FQD由Y個特征組成，記為{f1,f2, …,fY}。本文主要嘗試了兩大類構(gòu)造方法：基于組合的方法和基于融合的方法。

3.2.1 基于組合的方法

基于組合的方法最為直接簡單，即將檢索結(jié)果列表中各文檔所對應的FQDk直接順序拼接得到FQL，則基于組合的方法(Combination)構(gòu)造的FQL如式(1)所示。

(1)

由此構(gòu)造得到的FQL所包含的特征維數(shù)將是FQD的K倍。

3.2.2 基于融合的方法

與基于組合的方法不同，基于融合的方法則不會造成特征維數(shù)的增長。該方法通過將檢索結(jié)果列表中的K個文檔所對應的FQDk進行線性加權得到FQL，則基于融合的方法構(gòu)造的FQL如式(2)所示。

(2)

其中，F(xiàn)QDk為在該列表中排在第k位的文檔所對應的FQD，而Wk為其權重。由此構(gòu)造得到的FQL與FQD具有相同特征維數(shù)，且各個特征之間一一對應。

本文將嘗試使用三種函數(shù)對權重Wk進行計算，它們分別如式(3)～式(5)所示。

? 反比例函數(shù)(Inverse)：

(3)

? 余弦函數(shù)(Cosine)：

(4)

? 三角形函數(shù)(Triangle)：

(5)

其中，K為檢索結(jié)果列表的大小，即包含的文檔數(shù)，k∈[1, K]。

3.3 性能預測模型的學習

本文選擇基于list-wise的排序?qū)W習算法LambdaMART[21]訓練性能預測模型，提出了名為風險規(guī)避值的性能預測評價指標作為其優(yōu)化目標。

3.3.1FQL的性能等級(Ground truth)標注

本文使用NDCG@10作為檢索結(jié)果的性能評價指標。給定查詢q及其候選結(jié)果列表集List= {L1,L2, …,Lm}，分別對各列表進行打分，記為P(Li)，按照P(Li)將其從小到大排序，再按照Li所處的位置對其進行性能等級(Ground truth)標注，記為G(Li)，如式(6)所示。

(6)

3.3.2 風險規(guī)避值(Risk-Averse)

給定查詢q及其候選結(jié)果列表的排序RankList={L1,L2, …,Lm}，記該結(jié)果列表排序的風險規(guī)避值為RA(q,RankList)，計算公式如式(7)所示。

(7)

其中，α的取值范圍為[0, 1)，β的取值范圍為(1, ∞)。使用LambdaMART，以RA(q,RankList)最大化為優(yōu)化目標，訓練學習得到性能預測模型。最終使用該模型對用戶提交的查詢的多個候選結(jié)果列表進行排序，以預測性能最優(yōu)的那個結(jié)果列表作為最終呈現(xiàn)給用戶的結(jié)果列表。

4 實驗結(jié)果

4.1 測試數(shù)據(jù)集

本文在LETOR[22]的三個標準數(shù)據(jù)集上進行了一系列的實驗。這些數(shù)據(jù)集在大小和內(nèi)容上各有不同，均是被研究者廣泛使用的公開數(shù)據(jù)集。它們都被預先分為了五組，各組中都包含了對應的訓練集、驗證集以及測試集，可以方便地進行五折交叉驗證。各數(shù)據(jù)集的相關信息如表1所示。

表1 測試數(shù)據(jù)集概況

本文使用到的檢索模型包含TF-IDF、布爾模型、向量空間模型、BM25、LMIR.ABS、LMIR.DIR、LMIR.JM以及LambdaMART，其中，除了LambdaMART，其余模型均直接使用數(shù)據(jù)集中對應的特征值對候選文檔進行排序。本文實驗中在各數(shù)據(jù)集上所使用的檢索模型集以及其中各模型所對應的特征號如表2所示。

表2 各測試數(shù)據(jù)集上使用的模型集及其中各模型對應的特征號

注： “—”表示未使用；LambdaMART的參數(shù)通過網(wǎng)格搜索和在驗證集上的結(jié)果進行最優(yōu)設定。

4.2 實驗結(jié)果概要

本文使用當前應用廣泛的排序?qū)W習模型之一LambdaMART作為參照，考察相對于BM25模型，上述提出的魯棒排序算法在平均性能以及魯棒性方面的表現(xiàn)。本文使用NDCG@10作為檢索結(jié)果的相關性評價指標，以BM25模型作為基準的排序模型。魯棒排序算法分別使用四種基于(查詢-結(jié)果列表)對的特征向量構(gòu)造方法，在OHSUMED，MQ2008以及MSLR-WEB10K三個標準數(shù)據(jù)集上進行了實驗，其中各參數(shù)通過網(wǎng)格搜索和在驗證集上的結(jié)果進行最優(yōu)設定。實驗結(jié)果概要如表3所示，其中“# of Losses”指相對于BM25模型，性能下降的查詢數(shù)，數(shù)目減少超過5%的結(jié)果被加粗顯示。

表3 魯棒排序算法與LambdaMART模型在不同數(shù)據(jù)集上的對比

可以看到，在三個數(shù)據(jù)集上，相較于LambdaMART，通過魯棒排序算法得到的結(jié)果，均顯著地減少了性能下降的查詢數(shù)，與此同時，平均性能僅略微下降，與預期相符。四種特征向量構(gòu)造方法在各個數(shù)據(jù)集上各有優(yōu)劣，但總體效果都非常不錯，這也驗證了該算法的有效性，其對特征向量的構(gòu)造方法并不特別敏感。值得注意的是，當使用基于反比例函數(shù)的融合方法時，不僅是顯著減少了性能下降的查詢數(shù)，而且平均性能在OHSUMED上與LambdaMART基本持平，在MQ2008上甚至比LambdaMART還有了進一步的提升。

4.3 性能下降的查詢的性能下降幅度分布

同樣是性能下降，但下降幅度的大小對于用戶體驗來說也是至關重要的，性能的大幅下降往往是用戶不可接受的。以MSLR-WEB10K為例，將性能下降的查詢按照下降幅度分為五個區(qū)間進行統(tǒng)計，結(jié)果如圖3所示。

圖3 LambdaMART與魯棒排序算法在MSLR-WEB10K上的性能下降查詢的下降幅度分布

顯而易見，無論使用哪種特征向量的構(gòu)造方法，在任何一個性能下降幅度區(qū)間內(nèi)，魯棒排序算法的結(jié)果均要明顯優(yōu)于LambdaMART，各區(qū)間內(nèi)的查詢數(shù)均大幅減少，具備更好的魯棒性。

4.4 對查詢失敗的控制

若某一個查詢，當使用基準檢索模型所得到的結(jié)果列表時，能夠獲取到相關文檔(性能指標非零)，而使用當前新的結(jié)果列表時，無法獲取到相關文檔(性能指標為零)，則本文稱該查詢失敗。在真實的應用場景中，查詢失敗對于用戶來說往往是不可接受的，有極大的可能性將導致用戶的流失，所以，對查詢失敗的控制是極為重要的。依舊以MSLR-WEB10K為例，LambdaMART與魯棒排序算法的查詢失敗數(shù)對比如表4所示，魯棒排序算法在對查詢失敗的控制上顯著優(yōu)于LambdaMART，將查詢失敗數(shù)減少了超過10%。

表4 LambdaMART與魯棒排序算法在MSLR-WEB10K上的查詢失敗數(shù)對比

5 總結(jié)與展望

本文對信息檢索系統(tǒng)的魯棒性進行了研究，通過利用多種檢索模型的互補性，提出了一種基于查詢性能預測的魯棒排序算法并在LETOR的3個標準數(shù)據(jù)集上進行了實驗驗證與分析。實驗結(jié)果表明，與LambdaMART相比，本文提出的方法能夠在幾乎不影響平均性能的同時，大幅提升魯棒性，特別是使得查詢失敗的概率顯著減小，更能適應實際應用的需求。

在今后的工作中，希望能夠提出更多有用的基于(查詢-結(jié)果列表)對的特征，進一步優(yōu)化查詢性能預測方法以及最終的結(jié)果選擇策略。此外，如何更好地將平均性能以及魯棒性進行統(tǒng)一的綜合評價也是未來的研究方向。

[1] Baeza Yates R, Ribeiro Neto B. Modern information retrieval[M]. New York: ACM press, 1999.

[2] Geng X, Liu T Y, Qin T, et al. Query dependent ranking using k-nearest neighbor[C]//Proceedings of the 31st annual international ACM SIGIR conference on Research and development in information retrieval. ACM, 2008: 115-122.

[3] Bian J, Li X, Li F, et al. Ranking specialization for web search: a divide-and-conquer approach by using topical RankSVM[C]//Proceedings of the 19th international conference on World wide web. ACM, 2010: 131-140.

[4] Bian J, Liu T Y, Qin T, et al. Ranking with query-dependent loss for web search[C]//Proceedings of the third ACM international conference on Web search and data mining. ACM, 2010: 141-150.

[5] Wang J, Zhu J. Portfolio theory of information retrieval[C]//Proceedings of the 32nd international ACM SIGIR conference on Research and development in information retrieval. ACM, 2009: 115-122.

[6] Zhu J, Wang J, Cox I J, et al. Risky business: modeling and exploiting uncertainty in information retrieval[C]//Proceedings of the 32nd international ACM SIGIR conference on research and development in information retrieval. ACM, 2009: 99-106.

[7] Dai N,Shokouhi M, Davison B D. Learning to rank for freshness and relevance[C]//Proceedings of the 34th International ACM SIGIR conference on Research and development in Information Retrieval. ACM, 2011: 95-104.

[8] Svore K M, Volkovs M N, Burges C J C. Learning to rank with multiple objective functions[C]//Proceedings of the 20th international conference on World wide web. ACM, 2011: 367-376.

[9] Wang L, Bennett P N, Collins-Thompson K. Robust ranking models via risk-sensitive optimization[C]//Proceedings of the 35th international ACM SIGIR conference on research and development in information retrieval. ACM, 2012: 761-770.

[10] Tomlinson S. Robust, web and terabyte retrieval with HummingbirdSearchServertm at TREC 2004[C]//Proceedings of the 13th Text Retrieval Conference.2004.

[11] He B,Ounis I. Inferring query performance using pre-retrieval predictors[C]//Proceedings of String processing and information retrieval. Springer Berlin Heidelberg, 2004: 43-54.

[12] Plachouras V, He B, Ounis I. University of Glasgow at TREC 2004: Experiments in Web, Robust, and Terabyte Tracks with Terrier[C]//Proceedings of the 13th Text Retrieval Conference.2004.

[13] Cronen Townsend S, Zhou Y, Croft W B. Predicting query performance[C]//Proceedings of the 25th annual international ACM SIGIR conference on Research and development in information retrieval. ACM, 2002: 299-306.

[14] Hauff C, Murdock V, Baeza Yates R. Improved query difficulty prediction for the web[C]//Proceedings of the 17th ACM conference on Information and knowledge management. ACM, 2008: 439-448.

[15] Yom Tov E, Fine S, Carmel D, et al. Learning to estimate query difficulty: including applications to missing content detection and distributed information retrieval[C]//Proceedings of the 28th annual international ACM SIGIR conference on Research and development in information retrieval. ACM, 2005: 512-519.

[16] Zhou Y, Croft W B. Ranking robustness: a novel framework to predict query performance[C]//Proceedings of the 15th ACM international conference on information and knowledge management. ACM, 2006: 567-574.

[17] Zhou Y, Croft W B. Query performance prediction in web search environments[C]//Proceedings of the 30th annual international ACM SIGIR conference on Research and development in information retrieval. ACM, 2007: 543-550.

[18] Lang H, Wang B, Jones G, et al. Query performance prediction for information retrieval based on covering topic score[J]. Journal of Computer Science and technology, 2008, 23(4): 590-601.

[19] Cummins R. Predicting query performance directly from score distributions[M]. Information Retrieval Technology. Springer Berlin Heidelberg, 2011: 315-326.

[20] Markovits G, Shtok A, Kurland O, et al. Predicting query performance for fusion-based retrieval[C]//Proceedings of the 21st ACM international conference on information and knowledge management. ACM, 2012: 813-822.

[21] Wu Q, Burges C J C,Svore K M, et al. Adapting boosting for information retrieval measures[J]. Information Retrieval, 2010, 13(3): 254-270.

[22] Microsoft Research. LETOR[EB/OL]. http://research.microsoft.com/en-us/um/beijing/projects/letor/.

Robust Ranking via Query Performance Prediction

XUE Yuanhai1,2,3, YU Xiaoming1,2, LIU Yue1,2, GUAN Feng1,2,3, CHENG Xueqi1,2

(1. Key Laboratory of Network Data Science and Technology, Chinese Academy of Sciences, Beijing 100190，China； 2. Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100190，China； 3. University of Chinese Academy of Sciences, Beijing 100190,China)

The main purpose of information retrieval technology is satisfying users information needs by using massive amounts of information recource. Recent years, many techniques increase average effectiveness relative to traditional simple model while they often ignore the robustness issue. Users satisfaction will be significantly hurt because of degraded results of many queries. A query performance prediction method based on learning to rank is proposed to obtain robust ranking results. For each query, the performance of multiple ranking results generated by different models are predicted and the best one is shown to the user. A series of experiments are conducted on three standard LETOR benchmark datasets which are OHSUMED, MQ2008 and MSLR-WEB10K. The results show that, compared to one of the state-of-the-art models named LambdaMART, the ranking results obtained this way significantly reduced the number of queries whose performance are hurt with respect to BM25 model while improving the nearly same degree of everage effectiveness.

query performance prediction; learning to rank; robust ranking

薛源海(1987—)，博士，主要研究領域為信息檢索和數(shù)據(jù)挖掘。E?mail：xueyuanhai@software．ict．a(chǎn)c．cn俞曉明(1977—)，博士，高級工程師，主要研究領域為信息檢索和大數(shù)據(jù)。E?mail：yuxiaoming@software．ict．a(chǎn)c．cn劉悅(1971—)，博士，副研究員，主要研究領域為信息檢索和數(shù)據(jù)挖掘。E?mail：liuyue@ict．a(chǎn)c．cn

1003-0077(2016)05-0169-07

2015-11-15 定稿日期： 2016-04-20

國家自然科學基金(61232010,61173008)；國家“863”高技術研究發(fā)展計劃(2012AA011003,2013AA01A213)；國家“973”重點基礎研究發(fā)展規(guī)劃(2012CB316303,2013CB329602)；國家科技部“十一五”科技計劃(2012BAH39B02,2012BAH46B04)