摘 要:查詢擴展技術(shù)是提高信息檢索查準(zhǔn)率和查全率的有效手段。文章介紹了幾種重要的查詢擴展技術(shù)的工作原理,并對他們的算法效率進行了分析和比較。
關(guān)鍵詞:信息檢索;查詢擴展;相關(guān)反饋
中圖分類號:TP391.3
信息檢索中由于一般用戶在檢索時輸入的關(guān)鍵詞過于短少,在信息比對上極易造成檢索結(jié)果與用戶需求不匹配的查準(zhǔn)率低和檢索結(jié)果不全面、漏查的查全率低下的問題。查詢擴展是提高檢索性能的有效手段,它把與原查詢相關(guān)的語詞、概念等以邏輯或的方式添加到原查詢中,構(gòu)造一個新的查詢[1]。擴展后的新查詢可以提供更多有利于判斷文檔相關(guān)性的信息,從而改善查準(zhǔn)率和查全率。查詢擴展技術(shù)的有效性吸引了很多學(xué)者進行研究,其中主要的方法有基于全局的、基于相關(guān)反饋的、基于偽相關(guān)反饋的和基于用戶查詢?nèi)罩镜牡葞追N。
1 基于全局分析
基于全局的查詢擴展方法是一種早期較常采用的技術(shù)。該技術(shù)需要對全部文檔集中的詞或詞組進行相關(guān)度的計算分析,然后排序選擇相關(guān)度最高的詞進行擴展。在計算相關(guān)度時一般根據(jù)共現(xiàn)率(即兩個詞或詞組同時出現(xiàn)在一篇文章中的頻率),并將結(jié)果保存在一種特殊的類似同義詞字典的數(shù)據(jù)結(jié)構(gòu)中。當(dāng)檢索開始時,系統(tǒng)首先根據(jù)查詢詞在字典中查找與該查詢詞相關(guān)度最高的字詞,并將其添加到原查詢中擴展生成新的查詢。全局分析的主要的技術(shù)有以下幾種詞:
1.1 基于詞的聚類算法
在較早的信息檢索系統(tǒng)中采用的基本算法就是Sparck Jones提出的對詞進行聚類的算法,它根據(jù)查詢詞的共現(xiàn)性來實施詞的聚類,從而進行擴展。之所以能夠這樣判斷的依據(jù)是假設(shè)以下論斷成立,即如果來源于檢索文檔源中的兩個語詞相關(guān),則它們在文檔源集合中共同出現(xiàn)的概率肯定就大。隨著Voorhees、Hunag等人數(shù)十年的深入研究,我們在獲得研究成果的同時也發(fā)現(xiàn):聚類雖然能提高檢索性能,但是它對詞的歧義性不能正確的判斷和分析處理,當(dāng)遇到檢索中的檢索詞包含多重涵義時,采用詞的聚類算法及有可能將它們分配到各不相同的聚類中,造成查詢結(jié)果偏離題意,降低了查詢性能。
1.2 潛語義索引(LSI)
潛在語義索引技術(shù)基于簡單高效的向量空間模型(VSM)。在向量空間模型中,文檔和查詢都被映射為向量空間中的一個點,并用n維向量表示出來。而文檔與查詢間的相似度就可以定義為查詢向量和文檔向量之間的夾角的余弦值。LSI使用奇異值分解技術(shù)SVD來發(fā)現(xiàn)檢索詞之間的關(guān)聯(lián)關(guān)系,減少向量空間的維數(shù)。變換后的文檔可用于比較兩文檔的相似度并找出與查詢最匹配的前面N個詞,即為查詢擴展詞。該方法最大的缺點是n維空間帶來了巨大的計算開銷,提高檢索效率的效果不明顯,對歧義詞的問題仍然不能很好地解決,降維后的空間選擇也缺乏行之有效的方法。
1.3 基于相似詞典
為了解決檢索詞的歧義帶來的檢索性能下降問題,采用了將查詢概念化的處理。在該處理過程中要求所選的擴展詞要與全部原查詢檢索詞同現(xiàn),而不再是只比較單個的檢索詞,實驗證明用多個查詢檢索詞同時共現(xiàn)計算出的相似性結(jié)果可以極大降低單個檢索詞的歧義性風(fēng)險,而且檢索效果更佳。所以進行擴展詞選擇時,必須先計算比對文檔集中的關(guān)鍵詞與所有的查詢詞的共現(xiàn)度,通過加權(quán)合計計算出每個關(guān)鍵詞和整個查詢的相似性,然后建立相似性敘詞表,選擇相關(guān)度最高的概念中的關(guān)鍵詞作為查詢擴展詞。不過獲得概念需要對每一組詞計算共現(xiàn)率,極大地增加了計算的工作量。
全局分析的優(yōu)勢是通過分析詞間關(guān)系建立同義詞詞典,通過查找詞典可以高效地實施查詢擴展。但是隨著文檔素材的不斷擴大,文檔更新的速度日益加快,建立基于全局的同義詞詞典所耗費的時間和空間非常大。所以現(xiàn)在的查詢擴展研究主要集中在與之對應(yīng)的局部分析上。
2 基于相關(guān)反饋的查詢擴展
相關(guān)反饋是一種應(yīng)用廣泛的基于局部分析的查詢擴展技術(shù)。Rocchio早在1971年就在SM A RT系統(tǒng)中采用了相關(guān)反饋技術(shù)的進行查詢擴展。其工作原理為:用戶向信息檢索系統(tǒng)提交初始查詢句,系統(tǒng)進行初始查詢,返回一組查詢結(jié)果,然后用戶對返回的結(jié)果進行判斷,明確指出哪些文檔是與查詢相關(guān)的,然后系統(tǒng)從用戶認為相關(guān)的文獻中選擇重要的詞重構(gòu)查詢表達式。其核心思想是從用戶認為相關(guān)的文檔中選擇重要的詞語或表達式,用來對各個檢索詞的權(quán)重進行更新,加大那些出現(xiàn)在了相關(guān)文檔中的檢索詞的權(quán)重,同時減小不相關(guān)文檔中的檢索詞的權(quán)重,最后按照計算結(jié)果排序,將相關(guān)度最高的關(guān)鍵詞擴展添加到原查詢句中。這種擴展方法對檢索的效果有明顯提高,但是需要人工參與。并且Rocchio方法中的許多參數(shù)必須通過大量的實驗才能得到最優(yōu)設(shè)定。實踐中這種方法還有許多細節(jié)問題需要解決。同時由于只對前N篇相關(guān)文檔作分析,相對于全局分析的擴展方法,極大地減少了計算量,所以一般也將該方法歸類為基于局部分析的查詢擴展技術(shù)。
3 基于偽相關(guān)反饋的查詢擴展
為了克服相關(guān)反饋中需要用戶參與,降低檢索速度的弊端,一種無需用戶干預(yù)的偽相關(guān)反饋技術(shù)應(yīng)運而生。該技術(shù)基于以下假設(shè)成立:排在初檢結(jié)果的前面的若干篇文檔一定是滿足用戶需求的相關(guān)文檔。然后采用Rocchio方法等常規(guī)相關(guān)反饋技術(shù),從這些排在前面的文檔中檢索關(guān)鍵詞進行擴展。由于無需人為交互,極大提高了檢索速度。從TREC的評測結(jié)果可以看出,偽相關(guān)反饋是一種簡單高效的查詢擴展技術(shù)。然而該技術(shù)也有缺點,由于查詢擴展詞來源于初始檢索結(jié)果的前N篇文檔的偽相關(guān)文檔集,而事實上這N篇文檔并不總與查詢相關(guān),從不相關(guān)的文檔里提取的擴展詞會產(chǎn)生主題漂移的情況,造成檢索性能的下降。因此,如何在初始檢索結(jié)果里確定相關(guān)文檔,形成較高質(zhì)量的偽相關(guān)文檔集是避免信息漂移、提高查準(zhǔn)率的首要問題。
4 基于查詢?nèi)罩镜牟樵償U展
2003年崔航提出基于用戶查詢?nèi)罩镜牟樵償U展。其最主要的特點是將擴展詞的選擇范圍從所有的文檔集轉(zhuǎn)變?yōu)楸姸嘤脩舻臍v史查詢?nèi)罩尽S捎谟脩舨樵內(nèi)罩纠锉4嬷姸嘤脩羰褂脵z索系統(tǒng)時的歷史檢索結(jié)果,相當(dāng)于存儲著大量用戶多次反饋后的結(jié)果信息。因此對查詢?nèi)罩镜姆治霰纫话阆嚓P(guān)反饋更具統(tǒng)計學(xué)意義。它的實現(xiàn)過程是通過查詢?nèi)罩局杏脩舻牟樵冇涗浗⒂脩舨樵兛臻g,同時在文檔集上建立文檔空間。當(dāng)用戶提交某個查詢后,系統(tǒng)自動選取歷史上作為該查詢擴展用詞概率最大的語詞,添加到該查詢中[2]。這種算法通過預(yù)先對查詢?nèi)罩镜姆治?,既沒有全局分析那么大的運算開銷,也避免了局部分析中需要用戶參與的弊端,是一種介于兩種方法之間的能夠提高查準(zhǔn)率和查全率的查詢擴展技術(shù)。
5 結(jié)束語
目前查詢擴展的研究方向更多地與語義的研究相結(jié)合,形成更貼合用戶需求的解決方案,主要有基于關(guān)聯(lián)規(guī)則的查詢擴展、基于語義關(guān)系的查詢擴展以及基于本體的查詢擴展等。隨著信息檢索在網(wǎng)絡(luò)中的迅猛發(fā)展,查詢擴展技術(shù)的研究也將會更加深入。
參考文獻:
[1]黃名選.查詢擴展技術(shù)進展與展望[J].計算機應(yīng)用與軟件,2007(11):1-4.
[2]崔航.基于用戶日志的查詢擴展統(tǒng)計模型[J].軟件學(xué)報,2003(14):1593-1599.
[3]李衛(wèi)疆等.基于上下文的查詢擴展[J].計算機研究與發(fā)展,2010(02).
作者簡介:鄒瓊(1977.12-),女,河北鄂州人,本科,講師,研究方向:信息檢索技術(shù)與數(shù)據(jù)庫應(yīng)用。
作者單位:湖北經(jīng)濟學(xué)院,武漢 430205