左家莉,王明文,吳水秀,萬劍怡
(江西師范大學 計算機信息工程學院,江西 南昌 330022)
結合句子級別檢索的信息檢索模型
左家莉,王明文,吳水秀,萬劍怡
(江西師范大學 計算機信息工程學院,江西 南昌 330022)
查詢詞之間的距離較為接近的文檔,相關的可能性更大,將這種距離信息用于信息檢索模型的構造可有效提高檢索的性能。然而直接估計查詢詞在文檔中的距離需要大量的訓練文本,且計算復雜度高。該文提出了一種結合句子級別檢索的信息檢索模型,將文檔分為若干個窗口,通過計算句子和查詢的相關度考察查詢詞在給定窗口中的共現(xiàn)性,該方法可增大那些查詢詞彼此靠近的文檔的相關度,從而使得檢索模型可返回更為相關的文檔。標準數(shù)據(jù)集上的實驗結果表明所提出的模型可以取得較好的性能。
信息檢索模型;句子級別檢索,句子相關度
隨著因特網(wǎng)的快速發(fā)展和全球化進程的加快,互聯(lián)網(wǎng)信息資源呈爆炸式的增長。信息檢索也因此成為應對海量信息挑戰(zhàn)的關鍵技術,為人們有效利用網(wǎng)絡信息起著至關重要的作用,在最近幾十年里得到了眾多關注和長足的發(fā)展。信息檢索模型作為信息檢索領域的核心問題,直接決定信息檢索的性能,也是研究者們關注的焦點。近年來,很多經(jīng)典的信息檢索模型,諸如布爾模型[1]、向量空間模型[2-5]、經(jīng)典概率模型[6-10]、統(tǒng)計語言模型[11-13]等,已有成熟的研究和應用。盡管如此,若想要提高用戶滿意度,仍需改進檢索模型,以獲得更好的檢索結果。
本質(zhì)而言,信息檢索的目標在于盡可能將相關文檔返回給用戶,并使得相關度大的文檔排序靠前?,F(xiàn)有的模型大多基于索引項詞頻tf與逆文檔頻率idf[13-14],并結合文檔長度等信息[14],通過計算文檔和查詢之間的匹配程度,獲得計算文檔和查詢之間的相關度,并按照相關度大小對文檔進行排序。在實際的應用中,常常會出現(xiàn)類似這樣的狀況:一些文檔由于包含相同數(shù)量的查詢詞,且文檔長度接近,檢索模型計算文檔的相關度大小相同,然而這些文檔真實的相似度往往差別很大。原因在于,為描述信息需求,用戶會使用多個查詢詞構造查詢,由于大多數(shù)詞往往含有多個語義,某個查詢詞在文檔中的語義和其在查詢中的語義可能并不一致,而傳統(tǒng)的檢索模型會因為文檔包含了查詢詞而將其判為相關,這使得一些不相關文檔被判為相關返回給用戶,降低了檢索的精度。若要直接分析詞的語義,將語義信息加入至檢索模型,會增加檢索模型的復雜度,且語義信息并不易于處理,反而有可能影響檢索的性能。
正如一些研究者所言:相關文檔是那些包含所有查詢項,且查詢項彼此緊密相連的文檔[14]。也即,查詢詞出現(xiàn)更為緊密的文檔,換而言之,查詢詞之間距離更為接近的文檔,其與查詢相關的可能性更大。實際上,基于語言學的角度,我們知道詞語會因為彼此之間的特殊相連而影響其各自的語義,若兩個或多個查詢詞在某篇文檔中出現(xiàn)較為緊密,則這些查詢詞在文檔中的語義也應較為相關,并且,與其在查詢中的語義一致的可能性會加大,那么文檔與查詢相關的可能性也就更大。因而,查詢詞在文檔中的位置信息有助于檢索模型獲得更為準確的相關性判斷。
已有一些研究將查詢詞之間的位置關系應用到統(tǒng)計語言模型中,其主要的處理方法是在建模時估計查詢詞之間的位置關系。上述檢索模型由于考慮了查詢詞在文檔中的位置關系,檢索的性能得到了提升[15-16]。然而,其需要估計的參數(shù)太多,往往需要大量的訓練文檔集,且計算復雜度高。
本文提出了一種結合句子級別檢索的信息檢索模型,該模型不直接估計查詢詞之間的位置關系。而是采用另一種方式,將文檔分為若干個窗口,考察查詢詞在給定窗口中的共現(xiàn)性,來加權文檔與查詢的相關度。本文將窗口的大小設定為句子,計算每個句子和查詢的相關度,并將其加入至檢索模型中,文檔中查詢詞彼此靠近,則其句子和查詢非常相關,模型可使得該文檔的相關度更大。這種方式計算簡單且易于實現(xiàn)。
論文按以下幾個部分展開,第二部分介紹論文的主要思想;第三部分是句子的相關度計算方法;第四部分介紹本文提出的結合句子級別檢索的信息檢索模型;第五部分是實驗和結果分析;第六部分進行總結和展望。
信息檢索模型的目的是根據(jù)用戶的查詢從文檔集合中檢索出相關文檔返回給用戶。檢索模型需計算查詢和文檔的相關度,盡可能返回相關文檔。為提高檢索性能,文獻[15]中提出了位置語言模型,將查詢詞之間位置信息加入至語言模型中。其具體思路是估計文檔D中的位置i出現(xiàn)詞w的概率p(w|D,i)。最為簡單的p(w|D,i)估計方法是使用頻率方法:將詞w在位置i出現(xiàn)的次數(shù)記為c(w,i)除以位置i上所有詞w出現(xiàn)的總次數(shù)。
最為關鍵是獲得c(w,i),若c(w,i)僅取0和1用于表示詞w在位置i出現(xiàn)與否,則過于簡單和粗糙,為獲得更好的檢索結果,文獻[15]修正了對c(w,i)的計算,具體的計算基于:(1)若詞w文檔D中位置j也出現(xiàn),則詞w在位置i的出現(xiàn)次數(shù)要小于1; (2)文檔D中與位置i最為越近的位置j,其對位置i的“貢獻次數(shù)”應該越大,權重函數(shù)k(i,j)被用來度量位置j對于位置i的貢獻,若位置j與位置i越接近,k(i,j)取值就越大。由于k(i,j)的計算是基于詞與詞的位置關系計算,未考慮詞與詞之間的語義關系。基于此,文獻[16]提出了一種結合語義的位置語言模型,利用互信息來度量詞與詞的語義關系。上述模型由于考慮了詞之間的位置關系,取得了較好的結果,但是均需要大量的訓練文檔,計算復雜度較高。
3.1 本文思想
給定某個查詢,相關文檔中查詢詞應靠近彼此,也即這些查詢詞在相關文檔中應集中出現(xiàn),若將文檔分為若干個窗口,則查詢詞應在這些特定窗口中同時出現(xiàn)。基于上述思想,考察查詢詞之間的位置關系,可轉(zhuǎn)化為考察查詢詞在給定窗口中的共現(xiàn)性。若某篇文檔中存在多個查詢詞在給定窗口中同時出現(xiàn),則查詢詞在該文檔中的位置彼此靠近,其為相關文檔的可能性就會增大。
由于句子可表達完整的意思,同一個句子中出現(xiàn)的詞存在著較強的語義關系。前期工作中,我們發(fā)現(xiàn)查詢詞在句子中的共現(xiàn)性可有助于提高檢索的性能[17,18],因而本文選取句子作為窗口,構造結合句子級別檢索的檢索模型。首先構建句子相關度模型計算句子與查詢之間的相關度,以度量查詢詞在文檔中的共現(xiàn)度。進一步結合傳統(tǒng)的文檔相關度模型,構建基于句子的文檔相關度模型。
3.2 句子相關度模型
首先需要構造句子相關度模型Score(Q,S),以度量查詢詞在句子中的共現(xiàn)度。句子中包含查詢詞,則句子與查詢相關,句子中包含的查詢詞的數(shù)量越多,該文檔與查詢的相關性就越大。我們通過式(1)來計算句子與查詢的相關度:
(1)
其中:
(2)
3.3 基于句子的文檔相關度模型
獲得句子相關度Score(Q,S)之后,就可構造基于句子的文檔相關度模型Scoresen(Q,D),本文構造了以下三種模型。
3.3.1 模型1
(3)
模型1將文檔中每個句子的Score(Q,S)進行累加獲得Scoresen(Q,D),可加強那些包含多個查詢詞的文檔的相關度。
3.3.2 模型2
Scoresen(Q,D)=
(4)
Scoresen(Q,D)=
(5)
模型1可能會使得某些長文檔獲得較高的相關度,為消除文檔長度的影響,本文構造了模型2,分別將文檔的句子個數(shù)和相關句子的個數(shù)作為長度因子加入至模型中。
3.3.3 模型3
(6)
模型3取一篇文檔中的最大Score(Q,S)作為Scoresen(Q,D),即我們希望在相關文檔中,查詢詞盡可能集中出現(xiàn)在某些句子中。
上述模型中,模型2將文檔的句子個數(shù)作為長度因子,可以避免一些長文檔獲得較高的相關度;而將相關句子的個數(shù)作為長度因子,會使得查詢詞集中出現(xiàn)的文檔的相關度更大。而模型3只在文檔中存在某個句子包含了多個查詢詞的情況下,才會使得該文檔具有較大的Scoresen(Q,D)值。
考慮到傳統(tǒng)的文檔級別的檢索模型已取得了較好的性能,且僅使用Scoresen(Q,D)度量文檔的相關度不一定能確保相關文檔被檢出,因而本文構造的基于句子級別檢索的信息檢索模型,是在傳統(tǒng)的檢索模型的基礎上,加入了句子相關度Scoresen(Q,D)。
本文的文檔相關度模型Score(Q,D)將包含兩部分:經(jīng)典的文檔級別的相關度Scoredoc(Q,D)和句子級別的文檔相關度Scoresen(Q,D)。
(7)
式(7)中λ1+λ2=1。公式表明,若在某篇文檔中,查詢詞在句子中的共現(xiàn)度較大,則模型會給予這些文檔更大的相關度。實驗部分我們將考察Scoresen(Q,D)和Scoredoc(Q,D)對檢索結果的影響。
5.1 數(shù)據(jù)集及評價指標
本文在標準數(shù)據(jù)集Med、Cran和Cisi上進行實驗。其中,Med為醫(yī)學數(shù)據(jù)集,包含1 033篇文檔、8 567個詞和30個查詢,Cran為航空數(shù)據(jù)集,包含1 398篇文檔、4 873個詞和223個查詢,Cisi為圖書館科學數(shù)據(jù)集,包含1 460篇文檔,5 254個索引項和76個查詢。我們對數(shù)據(jù)集進行了預處理,提取每篇文檔中的
5.2 基準模型
基準模型選取BM25和統(tǒng)計語言模型(Dirichlet分布,參數(shù)取1000)為特征函數(shù)[19],并和前期研究中提出的基于Markov網(wǎng)絡表示的信息檢索模型(MNR模型)進行比較[17,18]。
5.3 實驗結果及分析
表1~表3中給出了詳細的實驗結果。本文所提出的模型表示為SRIR,基于模型1、模型2和模型3的檢索模型分別表示為SRIR1、SRIR2和SRIR3,由于模型2有兩種計算方法,故分別用SRIR2-1和SRIR2-2表示,最優(yōu)結果加粗顯示。
表1 各模型實驗結果對比(數(shù)據(jù)集為Med)
表2 各模型實驗結果對比(數(shù)據(jù)集為Cran)
表3 各模型實驗結果對比(數(shù)據(jù)集為Cisi)
表1~表3的結果表明本文所提出的模型相較于基準模型和MNR模型平均有10%~20%的性能提升,這說明模型是非常有效的。SRIR1模型在Cisi和Cran兩個數(shù)據(jù)集上取得了最好的結果,而SRIR3模型在Med數(shù)據(jù)集上最優(yōu)。SRIR2的兩種不同計算方法并未表現(xiàn)出較大的差異,這兩種方法雖不及SRIR1和SRIR3,但仍然要優(yōu)于基準模型,并在大部分情況下要好于MNR模型。模型2兩個方法的結果無明顯差異且與MNR模型結果接近,表明SRIR2并未如我們預期那樣為相關文檔加權。
在最終的檢索公式(7)中,λ1的值代表Scoredoc(Q,D)和Scoresen(Q,D)的信息量在最終的檢索結果中分別所占的比重,為進一步考察λ1的選取對檢索結果的影響,我們在Med數(shù)據(jù)集上對SIR1和SRIR3,在Cran和Cisi對SRIR1模型上進行了實驗,比較了不同的參數(shù)取值對最終檢索結果的影響,結果顯示在圖1中。
結果顯示,SRIR1和SRIR3最優(yōu)結果的λ1取值均大于0.5,且隨著λ1的值減小,λ2增大,檢索的性能有所提升,一旦λ2的值增大到某個值,檢索的性能又會有所下降。在Med和Cran數(shù)據(jù)集上,SRIR3在λ1取0時,也即僅使用模型3所得到的檢索結果要優(yōu)于LM模型。式(6)顯示,這種方式實際上僅使用文檔中與查詢最為相關的句子的相關度來度量一個文檔的相關度,這表明在大多數(shù)的相關文檔中,查詢詞往往會集中出現(xiàn),因而模型3可較好地度量文檔的相關度。然而整體最優(yōu)的結果大多是SRIR1,也即,單獨使用模型1的結果雖然不如模型3,但是模型1若加入基于文檔級別的模型,就可更好地度量文檔的相關度,表明所有的查詢詞可能并不全集中在一個句子中,一個文檔是否和查詢相關,不僅文檔中需存在于查詢相關的單個部分如句子,文檔整體也必須與查詢相關。
圖1 參數(shù)λ1取值對檢索結果的影響左上(a)和右上(b)分別為Med數(shù)據(jù)集上的SRIR1和SRIR3模型結果,左下(c) 右下(d)分別為Cran和Cisi數(shù)據(jù)集上的SRIR1模型結果
SRIR2的檢索結果雖優(yōu)于基準模型,但并不比MNR模型表現(xiàn)出更好的性能,這是由于MNR模型考慮了索引項之間的相關性信息,SRIR2模型中也加入了句子的個數(shù)作為長度因子,效果和MNR模型接近,因而兩個模型沒有明顯的性能差異?;诖?,我們可以這樣設想:相關文檔可能存在一些區(qū)別于不相關文檔的性質(zhì),在構造檢索模型時可以考慮這些性質(zhì),使得檢索模型能給予相關文檔更大的相關度,從而獲得良好的檢索性能。模型1、模型2和模型3給出了不同的句子相關度的度量方法,每一種模型顯然都只能較好地度量某一類相關文檔,那么,是否組合這三個模型能使得檢索模型更好地區(qū)分相關文檔,在以后的研究中也可以進一步探討。
圖1(a)和1(b)顯示,在考察SRIRI1和SRIR3中參數(shù)λ1的選取對最終檢索結果的影響時,我們選擇了不同的標度,這是由于SRIR3中的Scoresen(Q,D)要小于SRIR1所加入的Scoresen(Q,D),若要使得Scoredoc(Q,D)能在SRIR3模型的檢索結果中獲得更大的權重,SRIR3模型中最優(yōu)的λ1取值要略大一些。因此,為了能更好地表明λ1對檢索結果的影響,我們采取了兩種標度進行實驗。
已有研究表明將查詢詞在文檔中的位置關系應用于檢索模型中,可有效提升信息檢索的性能。然而這需要估計大量的參數(shù),因而需要較多的訓練文檔集,且計算復雜度高?;诖?,本文提出了一種結合句子級別檢索的信息檢索模型,該模型不直接估計查詢詞之間的位置關系,而是通過計算句子與查詢之間的相似度來度量查詢詞在文檔中的共現(xiàn)程度,替代查詢詞在文檔中的位置關系,上述信息通過構造基于句子的文檔相關度加入檢索模型中,實驗結果表明所提出的模型具有較好的性能。
未來,我們將在更大規(guī)模的數(shù)據(jù)集上對所提出的模型進行實驗,考慮到文中所提出的句子相關度模型從不同側(cè)面考察了查詢詞在文檔中的共現(xiàn)度,我們還可結合幾個模型構造檢索模型,并進一步展開查詢擴展的研究。
[1]ChristopherD.Manning,PrabhakarRaghavan,HinrichSchutze.IntroductiontoInformationretrieval[M].Cambridge:CambridgeUniversityPress, 2009.
[2]GerardSalton.AutomaticInformationOrganizationandRetrieval[M].NewYork:McGraw-Hill, 1968.
[3]GeradSalton,AnitaWong,Chung-ShuYang.AVectorSpaceModelforAutomaticIndexing[J].CommunicationsoftheACM, 1975, 18(11):613-620.
[4]GeradSalton,Chung-ShuYang,ClementTYu.ATheoryofTermImportanceinAutomaticTextAnalysis[J].JournaloftheAmericanSocietyforInformationScience, 1975, 26(1):33-44.
[5]GerardSalton.TheSmartRetrievalSystem-ExperimentsinAutomaticDocumentProcessing[M].NewJersey:Prentice-Hall, 1971.
[6]StephenPHarter.AProbabilisticApproachtoAutomaticKeywordIndexing(partI&II)[J].JournaloftheAmericanSocietyforInformationScience, 1975, 26:197-206, 280-289.
[7]StephenERobertson,CornelisJ,VanRijsbergen,etal.ProbabilisticModelsofIndexingandSearching[C]//Proceedingsofthe3rdAnnualInternationalACMSIGIRConferenceonResearchandDevelopmentinInformationRetrieval(SIGRIR’80),Cambridge,UK, 1981: 35-56.
[8]NorbertFuhr.ProbabilisticModelsinInformationRetrieval[J].TheComputerJournal, 1992, 35(3):243-255.
[9]MEMaron,JLKuhns.OnRelevance,ProbabilisticIndexingandInformationRetrieval[J].JournaloftheACM, 1960, 7:216-244.
[10]StephenERobertson,CornelisJ,VanRijsbergen,etal.ProbabilisticModelsofIndexingandSearching[C]//Proceedingsofthe3rdAnnualInternationalACMSIGIRConferenceonResearchandDevelopmentinInformationRetrieval(SIGRIR’80),Cambridge, 1981: 35-56.
[11]JayMPonte,WBCroft.ALanguageModelingApproachtoInformationRetrieval[C]//Proceedingsofthe21stAnnualInternationalACMSIGIRConferenceonResearchandDevelopmentinInformationRetrieval(SIGIR’98), 1998: 275-281.
[12]ChengXiangZhai.StatisticalLanguageModelsforInformationRetrieval(SynthesisLecturesSeriesonHumanLanguageTechnologies)[M].SanRafael:Morgan&ClaypoolPublishers, 2008.
[13]ChengxiangZhai.StatisticalLanguageModelsforInformationRetrieval:ACriticalReview[J].FoundationsandTrendsinInformationRetrieval, 2008,2: 137-215.
[14] 黃萱菁, 張奇, 邱錫鵬. 現(xiàn)代信息檢索(第二版)[M]. 機械工業(yè)出版社, 2012.
[15]YHLv,CXZhai.PositionalRelevanceModelforPseudo-RelevanceFeedback[C]//Proceedingsofthe33rdInternationalACMSIGIRconferenceonResearchandDevelopmentinInformationRetrieval.Geneva, 2010: 579-586.
[16] 余偉, 王明文, 萬劍怡,等. 結合語義的位置語言模型[J]. 北大學報, 2013, 2: 203-212.
[17]MIwayama,AFujii,NKando,etal.AnEmpiricalStudyonRetrievalModelsforDifferentDocumentGenres:PatentsandNewspaperAriticles.IntheProceedingsofthe26thACMSpecialInterestGrouponInformationRetrieval(SIGIR03), 2003: 21-25.
[17]JialiZuo,MingwenWang.AQueryReformulationModelUsingMarkovGraphicMethod[C]//ProceedingsoftheIALP2011.
[18]JialiZuo,MingwenWang,HaoYe.MarkovGraphicMethodforInformationRetrieval[C]//ProceedingsoftheLNAI, 2011: 487-494.
Information Retrieval Model Combining Sentence Level Retrieval
ZUO Jiali, WANG Mingwen, WU Shuixiu, WAN Jianyi
(School of Computer Information Engineering, Jiangxi Normal University, Nanchang, Jiangxi 330022, China)
Models exploiting the position and proximity information of query terms in the documents improve the retrieval performance withit’s a high computation complexity. The paper presents an approximation method by compute the relevant degree of the sentence to query, resulting an information retrieval model combining sentence level retrieval. Experiment results show our model can get better performance than baseline models.
information retrieval model; sentence level retrieval; sentence relevant
左家莉(1982—),通信作者,博士,副教授,主要研究領域為信息檢索、文本挖掘。E?mail:august813cn@hotmail.com王明文(1964—),博士,教授,主要研究領域為信息檢索、數(shù)據(jù)挖掘、機器學習。E?mail:mwwang@jxnu.edu.cn吳水秀(1975—),碩士,副教授,主要研究領域為信息檢索、分布式數(shù)據(jù)庫。E?mail:18970829895@189.cn
1003-0077(2016)02-0107-06
2013-08-15 定稿日期: 2014-01-09
國家自然科學基金(61462043,61462045,61562042);江西省自然科學基金(20151BAB217014)
TP391
A