陳 樂,劉迎春
(浙江工業(yè)大學,浙江 杭州 310023)
交互式信息檢索是檢索領域的全新研究課題。伴隨互聯網技術的快速發(fā)展,信息檢索系統(tǒng)功能得到極大提高[1,2],從傳統(tǒng)手動檢索逐步轉變成人機交互信息檢索模式。交互式信息檢索條件下,信息檢索行為受到認知模式、搜索策略的影響,增添了交互式信息檢索難度。如何綜合用戶和檢索系統(tǒng)的優(yōu)勢、增強信息檢索系統(tǒng)交互功能[3]、為用戶提供更加精準可靠的信息查詢服務為本文的主要研究目標。
關于信息檢索問題,相關領域專家已經得到了一些研究成果。文獻[4]提出了大數據下監(jiān)控網絡混合入侵信息檢索算法。采用遺傳算法優(yōu)化選擇特征集,構成優(yōu)化特征集合,構建冗余信息消除模型。在信息檢索理論前提下,組建信息檢索模型,實現網絡信息檢索目標。但該方法檢索到的信息數量較少,查全率較低。文獻[5]提出了融合加權模式挖掘與規(guī)則混合擴展的跨語言檢索算法。利用項集權值對比包含原查詢詞項的頻繁項集,采用剪枝策略獲得有效頻繁項集,按照規(guī)則混合擴展模型完成查詢拓展,拓展詞和原查詢詞結合為新查詢集合,重新檢索文檔并獲得檢索結果。但方法無法獲得相關詞之間的關聯,導致檢索精度不高。
為解決以上傳統(tǒng)方法存在的應用問題,本研究提出基于用戶需求挖掘的交互式信息檢索算法。結合眼動追蹤技術,劃分眼動追蹤技術評估指標,可視化處理眼動信息,獲得用戶注視點坐標與注視時間。且本文首先創(chuàng)建注視、掃視、瞳孔擴張與掃視路徑四種眼動評估指標,使用語義空間下的反饋算法完成用戶檢索興趣特征提取,通過需求挖掘理論實現高精度交互式信息檢索任務,并通過仿真表明了所提算法可靠性。
交互式信息搜索結果的相關性反饋關鍵是按照眼動視覺行為特點完成評估的。視覺理論規(guī)定:吸引用戶和被用戶長久觀看的檢索結果才能被用戶點擊,視覺行為是用戶點擊瀏覽信息的必要條件。把用戶行為代入至檢索系統(tǒng)內,可有效完成信息檢索的人機交互形式。目前的相關反饋具備兩種模式:顯示相關反饋與隱性相關反饋。顯示相關反饋需要用戶進行大量的準備工作,預先告知用戶行為對信息檢索造成的影響;隱性相關反饋模式中,用戶無需考慮自身行為對檢索結果的影響,僅需注意檢索行為是否滿足自身需要,可以很好地降低用戶工作量,檢索結果精度也很高。
本文采用基于眼動追蹤技術的檢索頁面隱性相關反饋策略,充分展現出用戶在信息檢索時的注意力分布與偏好水準等元素,進一步提高信息交互式信息檢索精度。
眼動儀是實現眼動追蹤技術的工具,共有三種類型:頭盔式眼動儀、桌面式眼動儀與眼鏡式眼動儀。眼動追蹤被劃分成四類:注視、掃視、瞳孔擴張與掃視路徑[6]。注視表示雙眼在某固定點的駐留時長;掃視表示雙眼在注視點之間的迅速移動或延遲;瞳孔擴張用來描述用戶瀏覽信息時的興趣程度;掃視路徑為雙眼在注視點間迅速移動構成的軌跡。
注視是判斷信息檢索時最核心的眼動指標,利用注視點能夠準確了解用戶檢索內容和關注的興趣區(qū)域(Area of Interest,AOI),每一種眼動均具備對應的參變量,將眼動指標及對應參變量釋義記作表1。
表1 眼動追蹤特征指標劃分
采用基于語義空間的反饋算法實現用戶檢索興趣特征提取。首先通過眼動數據得到用戶注視點坐標與注視時間,將眼動信息采取可視化處理,代入一個眼動軌跡參照圖,運用多個圓圈描述注視點范圍,圓的直徑為注視時間,連接線為注視軌跡[7]。針對各個用戶興趣區(qū)域,將區(qū)域注視時間表示為
FD(i)=∑e∈AOI(i)T(e)
(1)
式中,e表示一次注視事件,T(e)為用戶對事件e的注視時間,i為興趣區(qū)域AOI的索引。
則注視點處于興趣區(qū)域的對應坐標為
FiAx(j)=Fx(j)-AOIx1(i),F(j)∈AOI(i)
FiAy(j)=Fy(j)-AOIy1(i),F(j)∈AOI(i)
(2)
式中,AOIx1表示興趣區(qū)域左上角x坐標,AOIy1表示興趣區(qū)域左上角y坐標。
用戶各注視點的影響區(qū)域為
(3)
式中,r是影響半徑。其計算過程為
r=p·Ftime(j)
(4)
式中,p代表調節(jié)因子,Ftime(j)為注視點的注視時間。
設定一個注視臨界值t,假如某個用戶的興趣區(qū)域的注視時間高于t,認定此區(qū)域相對的信息為關聯信息,反之為無關聯圖像。將評估用戶興趣的衡量標準表示成
(5)
按照用戶對不同信息的注視時間,明確信息關聯度k(i),則注視時間和關聯度之間的耦合關系為
(6)
綜合以上信息,即可獲得一個注視點影響區(qū)域,且此影響區(qū)域大小和注視時間為正比例關系。把影響區(qū)域各個點的影響系數記作
(7)
按照用戶查看的初始檢索結果,推算出各個注視點影響區(qū)域和區(qū)域中每個點的影響系數。提取各區(qū)域視覺單詞,加權累加視覺單詞,即可得到涵蓋關聯區(qū)域全部包含權重的視覺單詞表,視覺單詞表就是語義空間的表達形式
word=∑i∈FiAword(i)·IF
(8)
為得到更精準的用戶檢索偏好,對相關信息進行重排序,重排序流程可以看作形成用戶檢索意圖視覺單詞表過程[8],如圖1所示。若擁有M個相關區(qū)域,各相關區(qū)域的初始視覺單詞表為
G(j)=(w1,w2,…,wc)
(9)
式中,G(j)表示視覺單詞表,wn為單詞表內的詞匯。
各興趣區(qū)域的權重WA(i)為
(10)
改進后的相關區(qū)域視覺單詞表為
(11)
式中
(12)
式中,WA(n)代表相關區(qū)域所處的興趣范圍,Ftime(m)為相關區(qū)域相對應的注視點時間。
(13)
圖1 檢索頁面隱性相關反饋算法基布步驟
利用上述過程獲得全新的視覺單詞后,融合Rocchio算法,將語義空間下隱性相關反饋檢索模型記作
(14)
信息檢索時,系統(tǒng)要和用戶采取多次交互,也就是擁有多個頁面隱性相關反饋,每一次反饋均會產生對應檢索策略,在原有檢索矢量內引入新的信息矢量,并剔除+不相關矢量,由此將式(14)改進為
(15)
通過式(15)的隱性相關反饋模型可知,每次檢索方式的改進都是在上一次檢索結果相關反饋前提下獲得的。需求挖掘表示從用戶的真實需求出發(fā),系統(tǒng)判斷用戶需求,獲得自身所需信息。從內容結構——空間導航建設——信息內容呈現,這一系列均為交互式邏輯的表達形式[9,10],如圖2所示。
圖2 交互式信息檢索邏輯關系
引入需求挖掘條件,設計如圖3所示的交互式信息檢索流程。
圖3 基于需求挖掘的交互式信息檢索流程
在交互式檢索系統(tǒng)中,信息檢索即為描述信息需求的檢索矢量和系統(tǒng)內不同文檔矢量之間的相似性匹配。將文檔采用矢量進行描述時,兩個文檔的相似度衡量策略有很多,譬如卡方距離、矢量夾角余弦等。
當前矢量夾角余弦應用次數較多,該方法衡量兩個文檔相似度的計算公式為:
(16)
式中,P、Q依次表示兩個文檔的矢量,freq(wi|P)、freq(wi|Q)表示矢量中的分量,即用戶檢索詞匯在此文檔內出現的頻率。
但在實際計算中發(fā)現,矢量夾角余弦方法的運算量較多,無法完成快速檢索目標。為此采用Jensen—Shannon散度方法來彌補其不足[11]。推算兩個文檔集合組成的概率分布間的相對熵距離,明確文檔間的相似度。假如相對熵距離越短,證明文檔相似度越大,反之相似度越小。Jensen—Shannon散度的推導公式為
(17)
(18)
式中,DKL代表P、Q概率分布的相對熵。
O=(o1,o2,…,on)
(19)
按照相對熵定理,設計一個如式(19)的概率矢量O,則該矢量的信息熵是
(20)
關于詞匯集合W={w1,w2,…,wn},可將oi作為wi在文檔中出現的次數,則
(21)
假如采用信息熵來描述Jensen—Shannon散度[12],可將式(17)變換為
(22)
式中,H為信息熵函數,R為P、Q的合成矢量。
本文充分融合眼動追蹤技術下隱性相關反饋與需求挖掘兩種策略,利用式(22)計算用戶需求和檢索結果的匹配程度,在有效追蹤用戶檢索偏好的同時,完成信息檢索的智能化與精準化。
為檢測所提算法真實的信息檢索性能,對其采取仿真分析,并將文獻[4]和文獻[5]作為對比。利用查全率與查準率指標來衡量檢索算法優(yōu)劣,查全率表示檢索出的相關文檔個數與系統(tǒng)文檔庫內全部相關文檔個數的比例,凸顯檢索算法的全面性,計算公式為
(23)
查準率表示檢索出的相關文檔個數和檢索獲得全部文檔個數的比例,突出檢索算法的正確性,計算公式為
(24)
三種方法的查全率與查準率對比如圖4所示。
圖4 三種方法的查全率與查準率對比
從圖4中看出,查全率在20%~60%時,文獻[4]方法、文獻[5]方法出現明顯的查準率抖動,而本文方法在查全率逐步增長的狀態(tài)下,查準率要優(yōu)于其它兩種方法。這是因為該方法使用眼動追蹤技術,能及時捕捉用戶檢索偏好,此種交互式策略可以最大限度提高信息檢索準確性。但同時也發(fā)現隨著查全率的提升,用戶檢索信息包含的詞語是用戶輸入相同含義的另一個詞語,這是形成查準率損失的關鍵原因,對此點有待改進。
信息檢索過程的消息量即滿足各檢索請求的消息量均值,利用該指標驗證方法運行穩(wěn)定性,從而反映出方法檢索的效率。三種方法信息檢索過程的消息量仿真對比結果如圖5所示。
圖5 信息檢索過程的消息量對比
從圖5看出,由于本文方法引入用戶需求挖掘策略,通過用戶需求和檢索結果的匹配,降低不相關檢索信息數量,所以其信息檢索引發(fā)的消息量顯著低于兩個文獻方法,不會增加額外的網絡負載,網絡系統(tǒng)處于平穩(wěn)運行狀態(tài),用戶能快速掌握自身所需信息,檢索速率也得到一定提高。
為有效提高交互式信息檢索準確性,為用戶提供更優(yōu)質的服務體驗,本研究結合人眼注視行為理論,提出一種新的交互式信息檢索算法。該方法能夠集中展現信息檢索過程中的認知特征,評估用戶檢索實際需求,最終呈現理想的人機交互檢索模式,給今后交互式信息檢索領域研究帶來新的探索思路。