鐘敏娟,萬常選,劉德喜,江騰蛟,劉愛紅
1.江西財(cái)經(jīng)大學(xué) 信息管理學(xué)院,南昌 330013
2.江西財(cái)經(jīng)大學(xué) 數(shù)據(jù)與知識(shí)工程江西省高校重點(diǎn)實(shí)驗(yàn)室,南昌 330013
基于偽反饋的有效XML查詢擴(kuò)展*
鐘敏娟1,2+,萬常選1,2,劉德喜1,2,江騰蛟1,2,劉愛紅1,2
1.江西財(cái)經(jīng)大學(xué) 信息管理學(xué)院,南昌 330013
2.江西財(cái)經(jīng)大學(xué) 數(shù)據(jù)與知識(shí)工程江西省高校重點(diǎn)實(shí)驗(yàn)室,南昌 330013
ZHONG Minjuan,WAN Changxuan,LIU Dexi,et al.Effective XML query expansion based on pseudo relevance feedback.Journal of Frontiers of Computer Science and Technology,2016,10(12):1673-1682.
偽反饋(pseudo relevance feedback,PRF)一直以來都被認(rèn)為是一種有效的查詢擴(kuò)展技術(shù)。然而傳統(tǒng)的偽反饋容易帶來主題漂移,從而影響檢索性能。如何確定高質(zhì)量的相關(guān)文檔集,以及如何從相關(guān)文檔集中挑選有用的擴(kuò)展詞項(xiàng),是解決偽反饋中查詢主題漂移的兩個(gè)重要方面。對(duì)此,針對(duì)XML(extensible markup language)文檔,提出了一個(gè)解決框架:一方面,研究了XML偽反饋文檔查找方法,在充分考慮XML內(nèi)容和結(jié)構(gòu)特征的前提下,提出了基于檢索結(jié)果聚類和兩階段排序模型相結(jié)合的高質(zhì)量XML偽相關(guān)文檔查找技術(shù);另一方面,針對(duì)CO(content only)查詢,對(duì)詞項(xiàng)擴(kuò)展進(jìn)行了研究,提出了帶結(jié)構(gòu)語義的詞項(xiàng)權(quán)值計(jì)算方法。一系列的相關(guān)實(shí)驗(yàn)數(shù)據(jù)表明,所提的XML偽反饋查詢擴(kuò)展方法能有效地減少查詢主題漂移現(xiàn)象,獲得更好的檢索質(zhì)量。
XML偽反饋;檢索結(jié)果聚類;排序;查詢擴(kuò)展
XML(extensible markup language)文檔的大量涌現(xiàn),產(chǎn)生了對(duì)XML數(shù)據(jù)管理的需求,基于XML的信息查詢和檢索成為研究重點(diǎn)[1-2]。其中,如何有效獲取高質(zhì)量的檢索結(jié)果,提高最終檢索性能一直是學(xué)術(shù)界和工業(yè)界致力解決的熱點(diǎn)問題。然而,搜索引擎中用戶提交的短小查詢往往不能準(zhǔn)確地描述自己的查詢意圖,使得返回結(jié)果里包含了大量無關(guān)的文檔。偽反饋是提高信息檢索性能的有效查詢擴(kuò)展技術(shù),其不需用戶參與的特性在眾多查詢擴(kuò)展方法中備受關(guān)注。查閱XML偽反饋的相關(guān)文獻(xiàn)資料,大部分的研究成果都是針對(duì)傳統(tǒng)文本的偽反饋。
傳統(tǒng)偽反饋以初始檢索結(jié)果的前N篇文檔作為查詢?cè)~的擴(kuò)展源,其隱含前提假設(shè)該N篇文檔與查詢是相關(guān)的。多方的實(shí)驗(yàn)數(shù)據(jù)也證實(shí)了該方法的有效性。但是近年來的研究表明,基于傳統(tǒng)偽反饋的查詢擴(kuò)展方法容易產(chǎn)生“查詢主題漂移(query drift)”現(xiàn)象。究其原因,偽反饋的隱含假設(shè)并不總是成立的,檢索結(jié)果的前N篇文檔有可能與查詢主題并不相關(guān),從不相關(guān)的文檔中提取擴(kuò)展信息顯然會(huì)引入更多的噪音。因此,如何有效避免“查詢主題漂移”現(xiàn)象需要從以下兩方面著手:
(1)去除反饋源的噪音,獲取高質(zhì)量的相關(guān)文檔集。傳統(tǒng)偽反饋以初始檢索結(jié)果的前N篇文檔作為偽相關(guān)文檔集。而實(shí)際情況是,該N篇文檔與查詢的相關(guān)性并不純凈,有時(shí)包含著大量的噪音。比如,有些查詢本身比較歧義或者模糊,造成初始結(jié)果的前N篇里存在大量無關(guān)文檔的現(xiàn)象,而后續(xù)的查詢擴(kuò)展基于此不相關(guān)的文檔集顯然會(huì)產(chǎn)生主題漂移,反而性能下降。因此,如何在初始檢索結(jié)果里有針對(duì)性地挑選出相關(guān)文檔,并基于此形成較高質(zhì)量的偽相關(guān)文檔集是避免“查詢漂移”的首要關(guān)鍵問題。
(2)在獲取較高質(zhì)量反饋源的基礎(chǔ)上,從中挑選擴(kuò)展信息。對(duì)XML文檔而言,擴(kuò)展信息的特征選擇不僅要考慮傳統(tǒng)的內(nèi)容特征,還要專門針對(duì)XML的結(jié)構(gòu)特性。
對(duì)于如何確定相關(guān)文檔,現(xiàn)有工作主要存在兩種解決思路:一種是提出相應(yīng)特征來衡量反饋文檔的質(zhì)量[2-4],或是借助機(jī)器學(xué)習(xí)方法[5-6]來保證反饋文檔的質(zhì)量;另一種解決思路是通過初始檢索結(jié)果聚類進(jìn)行取樣與重取樣,從而提高偽相關(guān)文檔質(zhì)量[7-10]。比如,Sakai等人[7]提出了基于取樣的偽相關(guān)文檔選擇標(biāo)準(zhǔn),對(duì)前N個(gè)返回文檔進(jìn)行篩選。Lee等人[8-9]提出了基于聚類分析的重新取樣方法來更好地選擇偽相關(guān)文檔。Bashir[10]針對(duì)專利文檔,提出了一種改進(jìn)的聚類方法用于確認(rèn)好的偽相關(guān)文檔,提高了文檔的檢索率。
對(duì)于擴(kuò)展詞項(xiàng)的挑選,查詢擴(kuò)展往往基于各種不同的檢索模型。經(jīng)典概率模型里,擴(kuò)展詞項(xiàng)主要依據(jù)Roberton/Sparck-Jones權(quán)重[11]挑選。近年來,語言模型也應(yīng)用到查詢擴(kuò)展技術(shù)中,比如基于混合模型的反饋方法[12]、基于相關(guān)模型的反饋方法[13]等。Cao等人[14]在混合模型的基礎(chǔ)上提出了選擇好詞項(xiàng)的特征,比如詞項(xiàng)之間的共現(xiàn)率、詞項(xiàng)的距離信息等。文獻(xiàn)[15]對(duì)相關(guān)模型進(jìn)行了擴(kuò)展,提出利用詞項(xiàng)的位置信息作為線索來推斷詞項(xiàng)是否與查詢主題相關(guān)。在國內(nèi),許多研究學(xué)者在Rocchio框架下也提出了偽反饋的查詢擴(kuò)展方法。丁國棟等人[16]基于詞項(xiàng)與所有查詢?cè)~在局部文檔集合中的共現(xiàn)程度來挑選較高質(zhì)量的擴(kuò)展詞。黃名選等人[17]提出基于矩陣加權(quán)關(guān)聯(lián)規(guī)則挖掘的查詢擴(kuò)展方法。
上述工作中偽反饋所處理的數(shù)據(jù)對(duì)象都是普通文本,并沒有專門針對(duì)XML格式的文檔??v觀目前的研究成果,基于XML文檔的偽反饋研究成果極少,現(xiàn)存的少數(shù)幾篇論文都是相關(guān)反饋模型。為此,本文基于XML文檔,針對(duì)偽反饋中存在的“查詢主題漂移”問題展開研究,力圖通過有效的查詢擴(kuò)展來避免或減少“查詢主題漂移”的次數(shù),從而最終實(shí)現(xiàn)提高XML檢索整體性能的目的。
本文的主要貢獻(xiàn)如下:
(1)提出了基于檢索結(jié)果聚類和相關(guān)排序機(jī)制相結(jié)合的高質(zhì)量XML偽相關(guān)文檔查找策略。該策略與現(xiàn)有方法不同,不僅通過聚類將主題相似的文檔聚簇在一起,而且能在此基礎(chǔ)上充分利用聚類結(jié)果的相應(yīng)特征,融入到所提排序模型中,從而獲得更高質(zhì)量的偽相關(guān)文檔集。
(2)有效地減少了XML偽反饋中存在的“查詢主題漂移”現(xiàn)象。一方面,通過檢索結(jié)果聚類和有效的排序機(jī)制,獲得了較高質(zhì)量的擴(kuò)展源;另一方面,結(jié)合XML文檔的結(jié)構(gòu)特性,基于所獲取的XML偽相關(guān)文檔擴(kuò)展源,提出了帶結(jié)構(gòu)語義的查詢?cè)~擴(kuò)展方案,從中挑選出與初始查詢語義相關(guān)的擴(kuò)展詞項(xiàng),最終有效地提高了檢索系統(tǒng)的檢索質(zhì)量。
(3)大量的實(shí)驗(yàn)驗(yàn)證了所提方法的有效性。一方面,實(shí)驗(yàn)數(shù)據(jù)表明基于檢索結(jié)果聚類和相關(guān)排序機(jī)制相結(jié)合的XML偽反饋文檔查找方法是行之有效的,相比傳統(tǒng)的偽反饋方法,初始檢索結(jié)果聚類有益于獲取更高質(zhì)量的XML偽相關(guān)文檔集,有效地確保了擴(kuò)展源的質(zhì)量;另一方面,所提的查詢?cè)~擴(kuò)展方案能有效提高XML文檔信息檢索的質(zhì)量,減少“查詢主題漂移”現(xiàn)象,并最終獲得較高的平均準(zhǔn)確率和MAP(mean average precision)。
有效避免“查詢主題漂移”的首要關(guān)鍵問題是挑選與查詢需求相關(guān)的文檔,并匯聚在一起形成高質(zhì)量的偽相關(guān)反饋文檔集。
本文提出了高質(zhì)量XML偽相關(guān)文檔查找策略。其核心思想是借助聚類和相關(guān)排序機(jī)制共同對(duì)初始檢索結(jié)果集進(jìn)行取樣與重取樣,從而將與查詢需求相關(guān)的文檔查找出來,作為查詢?cè)~的擴(kuò)展源。聚類采用k-mediod方法實(shí)施,具體思路可參考文獻(xiàn)[18],在此不再重述。相關(guān)排序機(jī)制主要基于文獻(xiàn)[19]中提出的策略,包含候選簇的排序和候選簇中文檔的排序兩個(gè)階段。通過兩階段的排序,挑選出N個(gè)相關(guān)文檔組成偽相關(guān)文檔集合,并以此作為后續(xù)查詢?cè)~的擴(kuò)展源。
2.1 候選相關(guān)簇的排序模型
初始檢索結(jié)果聚類實(shí)現(xiàn)了文檔的主題聚簇劃分,也就是說,各個(gè)文檔按照主題內(nèi)容劃分到了不同的簇中。本文的目的是要形成高質(zhì)量的偽相關(guān)文檔反饋源,因此任務(wù)并未結(jié)束,還需要對(duì)聚類結(jié)果進(jìn)行后續(xù)的分析處理。其中第一個(gè)任務(wù)就是從眾多的簇中挑選出候選的相關(guān)簇??紤]到相關(guān)文檔可能分布在多個(gè)不同的簇中,相關(guān)簇的個(gè)數(shù)應(yīng)該設(shè)置為多個(gè),而不僅僅是單個(gè)。
最佳狀態(tài)下,如果某個(gè)簇中包含的文檔都是相關(guān)文檔,則該簇應(yīng)該是相似程度最高的簇,也理應(yīng)被選為候選的相關(guān)簇。在前述的檢索結(jié)果聚類中,k-mediod聚類算法會(huì)產(chǎn)生k個(gè)中心點(diǎn),為此,利用這k個(gè)中心點(diǎn)與查詢的相似性對(duì)簇進(jìn)行選擇。因?yàn)榇氐闹行狞c(diǎn)在一定程度上能夠表征整個(gè)簇。通過相似性的計(jì)算,對(duì)各個(gè)簇進(jìn)行排序,排在前N位的簇即為候選的相關(guān)簇。相似性計(jì)算基于文獻(xiàn)[20],公式如下:
其中,tf(tk,Q)表示詞項(xiàng)tk在查詢Q中的出現(xiàn)頻率;s是一個(gè)實(shí)驗(yàn)參數(shù)(通常取0.2);dl是簇中心文檔di的長度;avdl是數(shù)據(jù)集中文檔的平均長度;tfw(tk,di)表示詞項(xiàng)tk在簇中心文檔di中的權(quán)重頻率,如下所示:
2.2 基于候選簇的文檔排序模型
候選的相關(guān)簇敲定之后,接下來第二個(gè)任務(wù)就是從候選簇中確定與查詢需求相關(guān)的文檔。此過程實(shí)質(zhì)就是對(duì)相關(guān)簇中的所有文檔進(jìn)行相似性計(jì)算,根據(jù)相似程度來排序。排序越靠前,說明與用戶的查詢意圖越相關(guān),越是反饋源中需要獲取到的文檔。因此,需要利用一些特征來表征查詢需求的相關(guān)性,從而幫助相關(guān)文檔的挑選。本文提出了以下幾個(gè)特征:
(1)相關(guān)度值(R_Score)。在傳統(tǒng)信息檢索領(lǐng)域,相關(guān)度值表示與查詢主題的相關(guān)程度,值越大,說明與用戶的查詢?cè)较嚓P(guān),從而越應(yīng)該被挑選為反饋源中的文檔。
(2)與簇的相似性(Cluster_Sim)。挑選出的候選相關(guān)簇并不是一個(gè)純相關(guān)簇,也就是說,該相關(guān)簇中既包含有高質(zhì)量的相關(guān)文檔,同時(shí)也存在不相關(guān)的噪音文檔。因此,要盡可能地過濾掉這些噪音文檔。根據(jù)前面基于簇中心的候選簇挑選方法,相關(guān)簇的簇中心應(yīng)該與查詢主題相關(guān)。為此,在挑選相關(guān)文檔時(shí),不僅要考慮該文檔本身與查詢主題的相關(guān)程度,還要考慮該文檔與整個(gè)簇的相關(guān)性,即與簇中心的相關(guān)性。對(duì)于簇中心的衡量,可以借助簇標(biāo)簽來表征。文獻(xiàn)[19]提出了均衡化權(quán)值的簇標(biāo)簽獲取方法。簇標(biāo)簽和文檔均可看成由中心詞項(xiàng)所構(gòu)成的向量。對(duì)于有n個(gè)不同中心詞項(xiàng)的系統(tǒng),簇標(biāo)簽ci可以表示為ci=(ti1,ti2,…,tin),文檔dj也可以表示為dj= (tj1,tj2,…,tjn),利用兩者之間的距離可以衡量文檔與簇的相似性。
(3)所在簇的相對(duì)排名(Cluster_RValue)。在前述的候選相關(guān)簇排序模型中,多個(gè)候選相關(guān)簇按照相關(guān)程度依次排序,因此其排名也體現(xiàn)了該簇整體與查詢意圖的相關(guān)程度。候選文檔隸屬于候選簇中,假如該候選文檔所在的候選簇排名越靠前,說明該簇所包含的文檔在一定程度上與查詢相關(guān)的概率越大。因此,利用其所在的候選簇的相對(duì)排名能間接地反映與查詢的相似程度。
綜合以上分析,定義偽相關(guān)反饋文檔的評(píng)價(jià)公式為如下形式:
其中,R_Score(di,Q)代表文檔di與用戶查詢Q的相似度,采用式(1)中基于PNW模型的計(jì)算方法。Cluster_RValuei表示文檔di所在簇的相對(duì)排名,公式定義如下:
ClusterNum表示聚類結(jié)果中簇?cái)?shù);Ri表示文檔di所在簇在所有簇中的排名位序。
查詢擴(kuò)展中,研究者往往利用詞項(xiàng)的權(quán)值來挑選擴(kuò)展詞項(xiàng)。區(qū)別于傳統(tǒng)文檔,XML文檔具有內(nèi)容和結(jié)構(gòu)的雙重特性,特別是結(jié)構(gòu)特性會(huì)對(duì)擴(kuò)展詞的挑選產(chǎn)生影響。因此,需要將XML文檔表征出的結(jié)構(gòu)特點(diǎn)反映到詞項(xiàng)的權(quán)重計(jì)算中。分析XML文檔的表示模型,需要考慮以下幾個(gè)方面因素:
(1)詞項(xiàng)的元素頻率。類似于傳統(tǒng)信息檢索中的詞項(xiàng)頻率,詞項(xiàng)在某標(biāo)簽元素下出現(xiàn)的頻率次數(shù)越多,說明該詞項(xiàng)越重要,是該標(biāo)簽片段的中心詞項(xiàng)。
(2)詞項(xiàng)的反比元素頻率。與經(jīng)典信息檢索中的反比文獻(xiàn)頻率相類似,反比元素頻率反映了詞項(xiàng)的通用性和普遍性特點(diǎn)。如果很多標(biāo)簽片段下面都涵蓋有某詞項(xiàng),說明該詞項(xiàng)很一般,不能用來區(qū)分各個(gè)標(biāo)簽片段。
(3)詞項(xiàng)隸屬元素的標(biāo)簽節(jié)點(diǎn)語義權(quán)重。在經(jīng)典信息檢索中,詞項(xiàng)出現(xiàn)在文檔的不同位置,其對(duì)文檔的貢獻(xiàn)程度是不同的。在XML文檔里,不同的位置信息表現(xiàn)為不同的標(biāo)簽節(jié)點(diǎn)。比如,同一個(gè)詞項(xiàng)既出現(xiàn)在標(biāo)簽節(jié)點(diǎn)“abs”(摘要)里,也出現(xiàn)在標(biāo)簽節(jié)點(diǎn)“title”(標(biāo)題)中,顯然出現(xiàn)在“title”標(biāo)簽下面的詞項(xiàng)比出現(xiàn)在“abs”標(biāo)簽下的詞項(xiàng)更為重要,因?yàn)閠itle標(biāo)簽節(jié)點(diǎn)的語義權(quán)重高于“abs”標(biāo)簽節(jié)點(diǎn)的語義權(quán)重。
(4)詞項(xiàng)隸屬元素節(jié)點(diǎn)的路徑距離。直觀上認(rèn)為,在XML文檔的表示模型中,元素節(jié)點(diǎn)到根節(jié)點(diǎn)的距離越遠(yuǎn),包含在此元素節(jié)點(diǎn)下面的詞項(xiàng)對(duì)整篇文檔內(nèi)容的貢獻(xiàn)程度越小,反之越大。因此,對(duì)同一標(biāo)簽而言,路徑距離小的元素中詞項(xiàng)的權(quán)重要大于路徑距離大的元素中詞項(xiàng)的權(quán)重。
綜合上述分析,詞項(xiàng)權(quán)值計(jì)算采用如下公式:
其中,σij表示文檔di中第 j個(gè)標(biāo)簽節(jié)點(diǎn);w(σij)是標(biāo)簽σij的節(jié)點(diǎn)語義權(quán)重;tf(tk,σij)表示詞項(xiàng)tk在標(biāo)簽σij下出現(xiàn)的頻率;tags(σij)表示標(biāo)簽節(jié)點(diǎn)σij與根節(jié)點(diǎn)的路徑距離;m表示文檔di中詞項(xiàng)tk出現(xiàn)的葉子節(jié)點(diǎn)數(shù)目。IEF(tk)表示詞項(xiàng)tk的反比元素頻率;N為整個(gè)數(shù)據(jù)集中元素節(jié)點(diǎn)的個(gè)數(shù);Nk是包含詞項(xiàng)tk的元素節(jié)點(diǎn)個(gè)數(shù)。從中選擇權(quán)重最大的幾個(gè)詞項(xiàng)作為候選查詢擴(kuò)展詞。
本文實(shí)驗(yàn)是通過偽反饋對(duì)用戶的初始查詢進(jìn)行擴(kuò)展,并力圖減少或者避免偽反饋中存在的“查詢主題漂移”現(xiàn)象,從而提高檢索質(zhì)量。實(shí)驗(yàn)數(shù)據(jù)采用INEX 2005提供的IEEE CS數(shù)據(jù)集,該數(shù)據(jù)集體現(xiàn)了以文檔為中心的特點(diǎn),并針對(duì)不同的主題(topic)給出了官方的評(píng)價(jià)標(biāo)準(zhǔn),對(duì)數(shù)據(jù)集中的相關(guān)文檔進(jìn)行了標(biāo)記。本實(shí)驗(yàn)根據(jù)每個(gè)主題的描述,對(duì)29個(gè)官方主題全部進(jìn)行了查詢構(gòu)造,在文獻(xiàn)[18]檢索結(jié)果聚類的基礎(chǔ)上從兩大方面展開實(shí)驗(yàn):一是檢驗(yàn)本文所提方法是否獲得了較高質(zhì)量的XML偽相關(guān)反饋文檔集;二是評(píng)價(jià)本文所提的偽反饋查詢擴(kuò)展方法是否能提高XML檢索的性能,獲得更高質(zhì)量的檢索結(jié)果,并能有效避免或解決傳統(tǒng)偽反饋中存在的“查詢主題漂移”現(xiàn)象。
4.1 XML反饋源的質(zhì)量檢測(cè)
本文首先對(duì)XML偽相關(guān)反饋文檔集的質(zhì)量進(jìn)行了驗(yàn)證,分別比較了傳統(tǒng)偽反饋的擴(kuò)展源(traditional pseudo relevance feedback,TPRF)和本文提出的基于檢索結(jié)果聚類和相關(guān)排序機(jī)制相結(jié)合的擴(kuò)展源(clustering with structure and two ranking,CSTR_Method)的相關(guān)性質(zhì)量。
4.1.1 排序模型中的參數(shù)優(yōu)化
本文所提擴(kuò)展源方法中利用了候選相關(guān)簇的排序及候選簇中文檔排序兩個(gè)階段。在文檔的排序過程中,從式(3)可以看出,文檔與查詢條件的相關(guān)度值和文檔與所屬簇的相似度兩個(gè)因素對(duì)文檔的最終排序起著不同程度的作用,因此首先對(duì)模型中不同的參數(shù)取值進(jìn)行了優(yōu)化測(cè)試。實(shí)驗(yàn)中采用逐步添加法,即以文檔與查詢條件的相似度因素為基準(zhǔn),每次變化0.1,多次的實(shí)驗(yàn)結(jié)果如表1和表2所示。
Table 1 Coefficient value and their performance results表1 系數(shù)取值及其性能結(jié)果(Prec@5、Prec@10)
Table 2 Coefficient value and their performance results表2 系數(shù)取值及其性能結(jié)果(Prec@15、Prec@20)
從表中可以得出以下結(jié)論:
(1)文檔與查詢條件的相似性和文檔與簇的相似性共同對(duì)文檔的最終評(píng)價(jià)值起作用。數(shù)據(jù)顯示隨著文檔與簇的查詢條件因素參與到評(píng)價(jià)值里,查準(zhǔn)率逐漸增大,說明相關(guān)文檔越來越多地排列在前。
(2)隨著文檔與簇的相似度因素權(quán)重值的增大,查準(zhǔn)率逐漸提高,一直到兩者因素平衡(α=0.5, β=0.5)時(shí)達(dá)到峰值,隨后,隨著此因素權(quán)重值的進(jìn)一步加大,性能反而呈下降趨勢(shì)。
(3)為了挑選出更多高質(zhì)量的反饋文檔,依據(jù)表中的數(shù)據(jù),選擇α=0.5,β=0.5而不是α=0.6,β=0.4作為最優(yōu)解。后續(xù)的查詢擴(kuò)展也是在α=0.5,β=0.5所獲得的文檔里進(jìn)行。
4.1.2 擴(kuò)展源的相關(guān)性質(zhì)量檢測(cè)
對(duì)比傳統(tǒng)偽反饋的擴(kuò)展源和本文方法的擴(kuò)展源,表1和表2的數(shù)據(jù)表明,在參數(shù)最優(yōu)解的情況下(α=0.5,β=0.5),本文提出的檢索結(jié)果聚類和相關(guān)排序相結(jié)合的擴(kuò)展源具有更高的質(zhì)量。一方面檢索結(jié)果聚類可以首先將文檔中大部分的相關(guān)文檔在一定程度上聚簇在一起;另一方面,兩階段的排序機(jī)制在前述聚類基礎(chǔ)上相繼進(jìn)行相關(guān)簇的選取和簇中相關(guān)文檔的挑選,兩方面的有效實(shí)施共同保證了反饋源的質(zhì)量。而比較傳統(tǒng)偽反饋,僅僅簡單地認(rèn)為前N篇文檔是相關(guān)的,并作為擴(kuò)展源。顯然,前者更能保證選取文檔的相關(guān)性質(zhì)量。相關(guān)的數(shù)據(jù)表明,在Top@15以及Top@20的條件下,Prec@15和Prec@20性能分別提高了7%。與此同時(shí),Top@5的條件下,Prec@5的平均精度不如傳統(tǒng)偽反饋結(jié)果,說明有些相關(guān)文檔盡管被挑選出來,但是并沒有排序在前。分析原因,排序機(jī)制起著至關(guān)重要的因素。
(1)候選簇的選擇問題。排序機(jī)制的第一階段是選擇相關(guān)簇,在此采用了簇中心文檔與用戶查詢的相似度值來確定。簇中心文檔是k-mediod聚類算法的結(jié)果,與聚類質(zhì)量息息相關(guān)。假如聚類效果并不理想,則簇中心文檔可能會(huì)偏離查詢主題,這樣會(huì)把帶有噪音的候選簇給挑選出來,從而嚴(yán)重影響后續(xù)的相關(guān)文檔排序,使得很多相關(guān)文檔無法查找出來。
(2)相關(guān)文檔排序模型中特征的選擇問題。排序模型中,文檔相關(guān)度評(píng)價(jià)值僅僅建立在查詢?cè)~的頻率基礎(chǔ)上,并沒有過多地考慮詞項(xiàng)上下文等其他因素,因此挑選出的文檔有可能與用戶的查詢意圖并不相關(guān),盡管該文檔中某些查詢?cè)~項(xiàng)出現(xiàn)次數(shù)較多。比如查詢主題202(hidden Markov model),查找結(jié)果并不令人滿意。深入分析原因,發(fā)現(xiàn)排序在前的文檔大部分都包含了多次model詞項(xiàng),而考察這些文檔內(nèi)容,發(fā)現(xiàn)它們并不是關(guān)于hidden Markov方面的model,從而與用戶的查詢需求不相符合,造成查準(zhǔn)率降低。
4.1.3 聚類對(duì)反饋文檔查找的影響
擴(kuò)展源的相關(guān)性質(zhì)量檢測(cè)實(shí)驗(yàn)中,可以清晰地看出本文方法獲取的擴(kuò)展源具有更高的質(zhì)量,能夠查找出更多的相關(guān)文檔。究其原因,此性能的獲取是檢索結(jié)果聚類和排序這兩方面因素造成的。在此,本文對(duì)聚類在反饋文檔查找中的影響進(jìn)行了實(shí)驗(yàn)分析,驗(yàn)證了聚類對(duì)高質(zhì)量相關(guān)文檔查找的影響。實(shí)驗(yàn)的目的不在于衡量聚類算法本身的性能,而主要驗(yàn)證通過聚類這種手段是否能夠幫助查找到高質(zhì)量的反饋文檔以及更多數(shù)量的高質(zhì)量反饋文檔。
因此,本文對(duì)初始檢索結(jié)果的前100篇文檔重新進(jìn)行了相似度計(jì)算,并對(duì)此進(jìn)行排序,在相同文檔數(shù)目的前提下,比較聚類前后相關(guān)文檔的準(zhǔn)確率。從表3的數(shù)據(jù)可以看出,聚類后排在前N的文檔里相關(guān)文檔數(shù)目要比聚類前的相關(guān)文檔數(shù)目多,在Prec@10以及Prec@20指標(biāo)上,平均查準(zhǔn)率分別提高了11.1%和15.8%,因此獲得了較好的性能。事實(shí)上,在相似度計(jì)算中,聚類利用了文檔與簇的相似度以及文檔所在簇的排名等聚類才能擁有的特征,這些特征能有效地幫助查找到更多相關(guān)文檔,并且使得它們能夠盡可能地排序在前。這充分說明了聚類能夠有效地幫助查找到更多的高質(zhì)量反饋文檔,對(duì)有效避免偽相關(guān)反饋中的查詢主題漂移奠定了前提基礎(chǔ)。
Table 3 Average precision comparison between before and after clustering表3 聚類前后反饋文檔平均查準(zhǔn)率性能比較
4.2 查詢關(guān)鍵詞的擴(kuò)展
實(shí)驗(yàn)主要考察在前述較高質(zhì)量反饋源的前提下,本文基于XML文檔結(jié)構(gòu)特性的查詢?cè)~擴(kuò)展方案能否提高XML文檔檢索的質(zhì)量。實(shí)驗(yàn)分3組進(jìn)行。
第一組實(shí)驗(yàn)是將本文方法得到的擴(kuò)展詞項(xiàng)的檢索結(jié)果與未進(jìn)行擴(kuò)展的用戶初始查詢(orginal query method,OQ_Method)的檢索結(jié)果進(jìn)行比較,得到性能比較圖,如圖1和圖2所示。
Fig.1 Performance comparison on Prec@X圖1 Prec@X性能比較圖
Fig.2 Performance comparison on MAP@X圖2 MAP@X性能比較圖
從圖1和圖2的數(shù)據(jù)可以明顯看出,相比初始的查詢結(jié)果,本文方法在性能指標(biāo)Prec@X和MAP上具有更好的性能。說明此查詢擴(kuò)展是有效的,獲取的擴(kuò)展詞與用戶的查詢意圖較為吻合。擴(kuò)展詞與用戶查詢?cè)~之間具有較為接近的語義。
第二組實(shí)驗(yàn)是驗(yàn)證本文方法是否有效解決了傳統(tǒng)偽反饋中“查詢漂移現(xiàn)象”,比如查詢漂移次數(shù)是否減少了。對(duì)此,將傳統(tǒng)偽反饋的查詢擴(kuò)展方法(TranditionNoStructure method,TNS_Method)與本文方法進(jìn)行了對(duì)比。同時(shí),為了保證實(shí)驗(yàn)的一致性和公平性,設(shè)定擴(kuò)展源文檔數(shù)目均取值為20,查詢?cè)~擴(kuò)展都基于TFIDF方案進(jìn)行,將所得的擴(kuò)展詞項(xiàng)和初始查詢一同提交給同一搜索引擎,比較返回結(jié)果中前10和前20位文檔的準(zhǔn)確率,實(shí)驗(yàn)性能比較結(jié)果如圖3和圖4所示。
Fig.3 Performance comparison on Prec@10圖3 性能比較圖(Prec@10)
Fig.4 Performance comparison on Prec@20圖4 性能比較圖(Prec@20)
從圖3和圖4中數(shù)據(jù)可以看出,傳統(tǒng)偽反饋的查詢擴(kuò)展方法顯然產(chǎn)生了主題漂移,29個(gè)官方查詢主題中17個(gè)查詢主題的準(zhǔn)確率相比擴(kuò)展前的初始查詢反而降低。而觀察本文的擴(kuò)展方法,在返回結(jié)果的前10篇和前20篇文檔里,分別只有11和6個(gè)查詢主題的準(zhǔn)確率低于擴(kuò)展前,這充分說明了本文的擴(kuò)展方案減少了查詢漂移現(xiàn)象,在Prec@10和Prec@20上性能分別提高了4%和15%,整體的檢索質(zhì)量得到了提高。
分析原因,擴(kuò)展源的質(zhì)量至關(guān)重要。傳統(tǒng)偽反饋是選擇初始檢索結(jié)果的前N篇文檔作為擴(kuò)展源,此擴(kuò)展源并非每次都包含有較多的相關(guān)文檔,當(dāng)用戶查詢需求比較模糊的時(shí)候,得到的檢索結(jié)果可能會(huì)包含有較多的噪音,顯然在此環(huán)境下進(jìn)行查詢?cè)~擴(kuò)展必然會(huì)導(dǎo)致性能下降。對(duì)比本文提出的CSTR_ Method方法,該方法通過檢索結(jié)果聚類和兩階段的相關(guān)排序機(jī)制在一定程度上比傳統(tǒng)偽反饋更能保證擴(kuò)展源的質(zhì)量,使得挑選出的文檔與查詢需求更為接近,且數(shù)量也較多,為進(jìn)一步查詢擴(kuò)展保證了源頭質(zhì)量。查詢擴(kuò)展在這種相對(duì)比較好的環(huán)境下進(jìn)行,必然比傳統(tǒng)偽反饋獲得更好的檢索性能。
擴(kuò)展源的質(zhì)量得到保證之后,要獲得好的檢索質(zhì)量,接下來還需要挑選好的擴(kuò)展詞項(xiàng)。在充分考慮XML文檔結(jié)構(gòu)特性的基礎(chǔ)上本文提出了帶結(jié)構(gòu)語義的詞項(xiàng)權(quán)值擴(kuò)展方法。
第三組實(shí)驗(yàn)主要檢驗(yàn)結(jié)構(gòu)在查詢擴(kuò)展方案中的影響和作用。為了更加公平地測(cè)試,擴(kuò)展源必須保證相同。為此,實(shí)驗(yàn)分兩批進(jìn)行:第一批實(shí)驗(yàn)在本文所獲得的擴(kuò)展源里進(jìn)行,即經(jīng)過檢索結(jié)果聚類和兩階段的排序后選擇前20篇文檔組成偽相關(guān)文檔集合,擴(kuò)展詞項(xiàng)的權(quán)重分別采取帶結(jié)構(gòu)的計(jì)算策略(CSTR_Method)與不帶結(jié)構(gòu)的計(jì)算方法(CNSTR_ Method)。第二批實(shí)驗(yàn)的擴(kuò)展源基于傳統(tǒng)偽反饋,即初始檢索結(jié)果的前20篇文檔,擴(kuò)展詞項(xiàng)的權(quán)重依然分別采取帶結(jié)構(gòu)的計(jì)算策略(TS_Method)與不帶結(jié)構(gòu)的計(jì)算方法(TNS_Method),實(shí)驗(yàn)性能比較結(jié)果如表4所示。
Table 4 Performance comparison表4 性能比較
表4中數(shù)據(jù)顯示,相同擴(kuò)展源的前提下,考慮XML文檔結(jié)構(gòu)因素的擴(kuò)展策略比不考慮結(jié)構(gòu)的方法所獲得的性能普遍要好,體現(xiàn)在Prec@10和Prec@20性能指標(biāo)上,CSTR_Method方法比CNSTR_Method方法平均查準(zhǔn)率分別提高了9.6%和17%,帶結(jié)構(gòu)的傳統(tǒng)偽反饋(TS_Method)方法比不帶結(jié)構(gòu)的偽反饋(TNS_Method)方法平均查準(zhǔn)率分別提高了16%和20%。這說明結(jié)構(gòu)特性能幫助挑選到更好的擴(kuò)展查詢?cè)~,從而帶來更好的檢索質(zhì)量。
綜合上述3組實(shí)驗(yàn),匯總?cè)缦滦阅鼙容^結(jié)果。本文所提方法(CSTR_Method)總的性能高于其他方法。通過前面一系列的實(shí)驗(yàn)與分析,把原因歸結(jié)為以下兩大方面:
(1)高質(zhì)量的擴(kuò)展源。這是查詢擴(kuò)展的首要因素。假如擴(kuò)展源的質(zhì)量不高,在此集合里挑選出的擴(kuò)展詞項(xiàng)就會(huì)和用戶的真實(shí)查詢意圖相差較遠(yuǎn)。比如傳統(tǒng)偽反饋,因?yàn)閿U(kuò)展源噪音太大,所以最終產(chǎn)生主題漂移。為此,在本文的擴(kuò)展方案里,首先對(duì)檢索結(jié)果聚類,并對(duì)聚類結(jié)果進(jìn)一步分析,通過兩階段排序機(jī)制把與用戶查詢相關(guān)的文檔聚簇在一起,從而在一定程度上先保證了擴(kuò)展源的相關(guān)性。
(2)擴(kuò)展詞項(xiàng)的選擇。好的擴(kuò)展詞項(xiàng)能帶來最終檢索性能的提高。為此,需要合理制定相應(yīng)的挑選準(zhǔn)則。在上述的實(shí)驗(yàn)中,綜合考慮了XML文檔的多個(gè)結(jié)構(gòu)因素,提出了帶結(jié)構(gòu)語義的查詢?cè)~擴(kuò)展方案,相比不考慮結(jié)構(gòu)特性的擴(kuò)展詞項(xiàng)挑選準(zhǔn)則而言,能更好地挑選出相關(guān)擴(kuò)展詞,表5中Prec@10、Prec@ 20以及MAP指標(biāo)上的數(shù)據(jù)充分說明了這一點(diǎn)。
Table 5 Overall performance comparison表5 總的性能比較
針對(duì)傳統(tǒng)偽反饋中存在的查詢主題漂移現(xiàn)象進(jìn)行了研究,對(duì)如何有效避免“主題漂移”提出了系統(tǒng)的解決框架。一方面,提出了檢索結(jié)果聚類和排序機(jī)制相結(jié)合的高質(zhì)量擴(kuò)展源獲取方法;另一方面,在高質(zhì)量的擴(kuò)展源里,融合XML文檔內(nèi)容和結(jié)構(gòu)的雙重特性,提出了帶結(jié)構(gòu)語義的查詢?cè)~擴(kuò)展方法。一系列的實(shí)驗(yàn)數(shù)據(jù)表明,整個(gè)系統(tǒng)框架的實(shí)施能有效提高檢索性能,在擴(kuò)展源的質(zhì)量檢測(cè)中,本文方法獲得的擴(kuò)展源具有較高的用戶查詢相關(guān)性,相比傳統(tǒng)的偽反饋擴(kuò)展源,具有更高的質(zhì)量;與此同時(shí),結(jié)合了XML結(jié)構(gòu)特點(diǎn)的查詢擴(kuò)展方案能獲得與用戶查詢意圖更為相關(guān)的擴(kuò)展信息。高質(zhì)量的擴(kuò)展源和有效擴(kuò)展信息的獲取使得查詢主題漂移現(xiàn)象得到了控制和減少,更有效地提高了搜索引擎的檢索性能。
[1]Huang Qiang,Song Dawei,Rüger S.Robust query-specific pseudo feedback document selection for query expansion [C]//LNCS 4956:Proceedings of the 30th European Conference on Information Retrieval,Glasgow,UK,Mar 30-Apr 3, 2008.Berlin,Heidelberg:Springer,2008:547-554.
[2]He Ben,Ounis I.Finding good feedback documents[C]// Proceedings of the 18th ACM Conference on Information and Knowledge Management,Hong Kong,China,Nov 2-6, 2009.New York:ACM,2009:2011-2014.
[3]Ye Zheng.The research of machine learning techniques and external Web resources for relevance feedback[D].Dalian: Dalian University of Technology,2011.
[4]Raman K,Udupa R,Bhattacharya P,et al.On Improving pseudo-relevance feedback using pseudo-irrelevant documents [C]//LNCS 5993:Proceedings of the 32nd European Conference on Information Retrieval,Milton Keynes,UK,Mar 28-31,2010.Berlin,Heidelberg:Springer,2010:573-576.
[5]Lv Yuanhua,Zhai Chengxiang,Chen Wan.A boosting approach to improving pseudo-relevance feedback[C]//Proceedings of the 34th International ACM SIGIR Conference on Research and Development in Information Retrieval,Beijing,Jul 25-29,2011.New York:ACM,2011:165-174.
[6]Zhou Dong,Truran M,Liu Jianxu,et al.Collaborative pseudorelevance feedback[J].Expert system with Application,2013, 40(17):6805-6812.
[7]Sakai T,Manabe T,Koyama M.Flexible pseudo-relevance feedback via selective sampling[J].ACM Transactions on Asian Language Information Processing,2005,4(2):111-135.
[8]Lee K S,Croft W B,Allan J.A cluster-based resampling method for pseudo-relevance feedback[C]//Proceedings of the 31st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval,Singapore,Jul 20-24,2008.New York:ACM,2008:235-242.
[9]Lee K S,Croft W B.A deterministic resampling method using overlapping document clusters for pseudo-relevant feedback [J].Information Processing&Management,2013,49(4): 792-806.
[10]Bashir S.Improving retrievablity with improved clusterbased pseudo-relevance feedback selection[J].Expert System withApplication,2012,39(8):7495-7502.
[11]Robertson S E,Jones K S.Relevance weighting of search terms[J].Journal of the American Society of Information Science,1976,27(3):129-146.
[12]Zhai Chengxiang,Lafferty J D.Model-based feedback in the language modeling approach to information retrieval [C]//Proceedings of the 13th ACM International Conference on Information and Knowledge Management,Atlanta, USA,Nov 5-10,2001.New York:ACM,2001:403-410.
[13]Lavrenko V,Croft W B.Relevance-based language models [C]//Proceedings of the 24th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval,New Orleans,USA,Sep 9-13,2001.New York:ACM, 2001:120-127.
[14]Cao Guihong,Nie Jianyun,Gao Jianfeng,et al.Selecting good expansion terms for pseudo-relevance-feedback[C]// Proceedings of the 31st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval,Singapore,Jul 20-24,2008.New York:ACM, 2008:243-250.
[15]Lv Yuanhua,Zhai Chengxiang.Positional relevance model for pseudo-relevance feedback[C]//Proceedings of the 33rd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval,Geneva,Swizerland,Jul 19-23,2010.New York:ACM,2010:579-586.
[16]Ding Guodong,Bai Shuo,Wang Bin.Local co-occurrence based query expansion for information retrieval[J].Journal of Chinese Information Processing,2006,20(3):84-91.
[17]Huang Mingxuan,Yan Xiaowei,Zhang Shichao.Query expansion of pseudo-relevance feedback based on matrixweighted association rules mining[J].Journal of Software, 2009,20(7):1854-1865.
[18]Zhong Minjuan.Clustering XML search results based on content and structure of semantic integration[J].Journal of China Society for Scientific and Technical Information,2012, 31(5):515-525.
[19]Zhong Minjuan,Wan Changxuan,Liu Dexi,et al.FindingXML pseudo-relevance document based on search results clustering[J].Journal of Computer Science,2013,40(10): 172-177.
[20]Singhal A,Choi J,Hindle D,et al.AT&T at TREC-7[C]// Proceedings of the 7th Text Retrieval Conference,Maryland,Gaithersburg,Nov 9-11,1998:239-252.
附中文參考文獻(xiàn):
[3]葉正.基于網(wǎng)絡(luò)挖掘與機(jī)器學(xué)習(xí)技術(shù)的相關(guān)反饋研究[D].大連:大連理工大學(xué),2011.
[16]丁國棟,白碩,王斌.一種基于局部共現(xiàn)的查詢擴(kuò)展方法[J].中文信息學(xué)報(bào),2006,20(3):84-91.
[17]黃名選,嚴(yán)小衛(wèi),張師超.基于矩陣加權(quán)關(guān)聯(lián)規(guī)則挖掘的偽相關(guān)反饋查詢擴(kuò)展[J].軟件學(xué)報(bào),2009,20(7):1854-1865.
[18]鐘敏娟.基于內(nèi)容與結(jié)構(gòu)語義相融合的XML檢索結(jié)果聚類[J].情報(bào)學(xué)報(bào),2012,31(5):515-525.
[19]鐘敏娟,萬常選,劉德喜,等.基于檢索結(jié)果聚類的XML偽相關(guān)文檔查找[J].計(jì)算機(jī)科學(xué),2013,40(10):172-177.
ZHONG Minjuan was born in 1976.She is an associate professor at Jiangxi University of Finance and Economics, and the member of CCF.Her research interest is information retrieval.
鐘敏娟(1976—),女,湖南臨湘人,博士,江西財(cái)經(jīng)大學(xué)信息管理學(xué)院副教授,CCF會(huì)員,主要研究領(lǐng)域?yàn)樾畔z索。
WAN Changxuan was born in 1962.He is a professor and Ph.D.supervisor at Jiangxi University of Finance and Economics,and the senior member of CCF.His research interests include data management and data mining,etc.
萬常選(1962—),男,江西南昌人,博士,江西財(cái)經(jīng)大學(xué)信息管理學(xué)院教授、博士生導(dǎo)師,CCF高級(jí)會(huì)員,主要研究領(lǐng)域?yàn)閿?shù)據(jù)管理,數(shù)據(jù)挖掘等。
LIU Dexi was born in 1975.He is a professor at Jiangxi University of Finance and Economics,and the member of CCF.His research interest is text automatic summarization.
劉德喜(1975—),男,博士,湖南襄樊人,江西財(cái)經(jīng)大學(xué)信息管理學(xué)院教授,CCF會(huì)員,主要研究領(lǐng)域?yàn)槲谋咀詣?dòng)文摘。
JIANG Tengjiao was born in 1976.She is a Ph.D.candidate and lecturer at Jiangxi University of Finance and Economics.Her research interests include sentiment analysis and Web data management,etc.
江騰蛟(1976—),女,安徽懷寧人,江西財(cái)經(jīng)大學(xué)信息管理學(xué)院講師,博士研究生,主要研究領(lǐng)域?yàn)榍楦蟹治雠cWeb數(shù)據(jù)管理等。
LIU Aihong was born in 1971.She is an associate professor at Jiangxi University of Finance and Economics.Her research interest is database technology.
劉愛紅(1971—),女,江西南昌人,碩士,江西財(cái)經(jīng)大學(xué)信息管理學(xué)院副教授,主要研究領(lǐng)域?yàn)閿?shù)據(jù)庫技術(shù)。.
Effective XMLQuery Expansion Based on Pseudo Relevance Feedback*
ZHONG Minjuan1,2+,WAN Changxuan1,2,LIU Dexi1,2,JIANG Tengjiao1,2,LIUAihong1,2
1.School of Information Technology,Jiangxi University of Finance and Economics,Nanchang 330013,China
2.Jiangxi Key Laboratory of Data and Knowledge Engineering,Jiangxi University of Finance and Economics,Nanchang 330013,China
+Corresponding author:E-mail:lucyzmj@sina.com
Pseudo relevance feedback(PRF)has been perceived as an effective solution for automatic query expansion.However,traditional pseudo relevance feedback can result in the query representation“drifting”away from the original query and a decreased retrieval performance.Therefore,the key issues in applying PRF are to identify the real relevant documents in the top retrieved results without any other assistant information,and expend the query based on the these relevant documents.This paper presents a solution framework from extensible markup language (XML)data.Firstly,this paper considers the XML content and structure features,and proposes a good XML query scheme based on pseudo relevance feedback documents by combining search results clustering with a two-stage ranking model.Furthermore,this paper explores the XML query expansion of CO(content only)query,and givesthe term weight computation with structure.The experimental results show that the proposed scheme can reduce the topic drift effectively and obtain the better retrieval quality.
XML pseudo relevance feedback;search results clustering;ranking;query expansion
10.3778/j.issn.1673-9418.1509082
A
TP391
*The National Natural Science Foundation of China under Grant Nos.61363039,61363010,71361012,61562032(國家自然科學(xué)基金);the National Social Science Foundation of China under Grant No.12CTQ042(國家社會(huì)科學(xué)基金);the Natural Science Foundation of Jiangxi Province under Grant Nos.20142BAB217014,20142BAB207010(江西省自然科學(xué)基金);the Humanities and Social Science Research Project in Colleges and Universities of Jiangxi Province under Grant No.TQ1504(江西省高校人文社會(huì)科學(xué)研究規(guī)劃基金項(xiàng)目).
Received 2015-09,Accepted 2015-11.
CNKI網(wǎng)絡(luò)優(yōu)先出版:2015-11-24,http://www.cnki.net/kcms/detail/11.5602.TP.20151124.1430.008.html