白彥霞
摘要:通過關(guān)鍵詞匹配返回的檢索結(jié)果無法滿足用戶需求。為了解決該問題,提出一種基于貝葉斯網(wǎng)絡(luò)的語義檢索模型,該檢索能夠從語義層面上獲得較高的查準(zhǔn)率,為用戶提供更滿意的檢索結(jié)果。
Abstract: The retrieval results can be returned by keyword matching, which makes the retrieval results can't satisfy user's demand. In order to solve this problem, a semantic retrieval model based on Bayesian network is proposed, which can get high precision from the semantic level,and provide users with more satisfactory retrieval results.
關(guān)鍵詞:貝葉斯網(wǎng)絡(luò);關(guān)鍵詞;語義檢索
Key words: Bayesian network;keyword;semantic retrieval
中圖分類號(hào):TP391.3 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1006-4311(2018)25-0141-02
0 引言
隨著信息技術(shù)的蓬勃發(fā)展,網(wǎng)絡(luò)資源成指數(shù)級(jí)增長(zhǎng),人們已經(jīng)越來越習(xí)慣于在網(wǎng)絡(luò)上檢索自己所需要的各類文檔資源。對(duì)于文檔的瀏覽和檢索,傳統(tǒng)的信息檢索技術(shù)只是以關(guān)鍵詞的簡(jiǎn)單匹配作為主要手段,語義層面的具體分析無法實(shí)現(xiàn)。同時(shí),檢索的文檔信息形式比較單一,未考慮文檔之外的信息關(guān)系,使得檢索效率低下。如果將檢索術(shù)語的同義詞、近義詞、高度相關(guān)詞等考慮進(jìn)來,必然提高查全率和查準(zhǔn)率,因?yàn)榘@些詞語的文檔在一定程度上也與用戶的查詢意圖有關(guān)。特別是對(duì)于剛剛進(jìn)入某個(gè)研究領(lǐng)域的人員,由于知識(shí)有限,對(duì)相關(guān)知識(shí)的認(rèn)識(shí)不夠全面,總是希望能從一篇本領(lǐng)域的文檔中找到與之類似的文檔,這些文檔間的近似關(guān)系、關(guān)聯(lián)關(guān)系等就需要在檢索的過程中被考慮進(jìn)來,引導(dǎo)用戶沿著感興趣的文檔找到相似或相關(guān)的文檔,從而幫助用戶快速檢索到目標(biāo)文檔。
貝葉斯網(wǎng)絡(luò)也被稱為信度網(wǎng)絡(luò),具有非常靈活的拓?fù)浣Y(jié)構(gòu),通過節(jié)點(diǎn)來表示術(shù)語之間的條件關(guān)系和語義關(guān)系,為實(shí)現(xiàn)語義檢索奠定了基礎(chǔ)。本文以貝葉斯網(wǎng)為基礎(chǔ),結(jié)合簡(jiǎn)單貝葉斯網(wǎng)絡(luò)檢索模型關(guān)鍵詞精確匹配的優(yōu)點(diǎn)和兩層節(jié)點(diǎn)的貝葉斯網(wǎng)絡(luò)檢索模型語義擴(kuò)展的優(yōu)點(diǎn),提出了一個(gè)基于貝葉斯網(wǎng)絡(luò)的綜合語義檢索模型,該模型實(shí)現(xiàn)了語義檢索,使信息檢索趨于智能化。
1 模型拓?fù)浣Y(jié)構(gòu)
圖1為基于貝葉斯網(wǎng)絡(luò)的綜合語義檢索模型的拓?fù)浣Y(jié)構(gòu),整個(gè)網(wǎng)絡(luò)分為左右兩部分。右側(cè)實(shí)線框內(nèi)為簡(jiǎn)單貝葉斯網(wǎng)絡(luò)檢索模型,由兩個(gè)子網(wǎng)組成:術(shù)語子網(wǎng)和文檔子網(wǎng)。文檔子網(wǎng)由N個(gè)文檔節(jié)點(diǎn)構(gòu)成,DSj表示文檔,也表示與其相關(guān)的變量和節(jié)點(diǎn)。左側(cè)虛線框內(nèi)為兩層節(jié)點(diǎn)的貝葉斯網(wǎng)絡(luò)檢索模型,該網(wǎng)絡(luò)是對(duì)簡(jiǎn)單貝葉斯網(wǎng)絡(luò)檢索模型的擴(kuò)展,也包括兩個(gè)子網(wǎng),其中文檔子網(wǎng)與右側(cè)網(wǎng)絡(luò)中的文檔子網(wǎng)完全一樣,只是文檔用DEj表示,DEj也表示與其相關(guān)的變量和節(jié)點(diǎn)。DSj和DEj是同一個(gè)文檔Dj的不同表示。左右兩部分網(wǎng)絡(luò)最大的區(qū)別在于術(shù)語子網(wǎng),在兩層術(shù)語節(jié)點(diǎn)的貝葉斯網(wǎng)絡(luò)中,復(fù)制原始術(shù)語層T中的每個(gè)術(shù)語節(jié)點(diǎn)Ti得到術(shù)語節(jié)點(diǎn)T′i,形成一個(gè)新術(shù)語層T′,因此兩層節(jié)點(diǎn)的貝葉斯網(wǎng)絡(luò)檢索模型的變量集合 。T′中的術(shù)語變量T′i也是二進(jìn)制的隨機(jī)變量,取值集合為 , 和 分別表示“術(shù)語T′i不相關(guān)”、“術(shù)語T′i相關(guān)”。 是N篇文檔組成的集合。
連接兩個(gè)術(shù)語層的有向弧的指向:①任意術(shù)語T′i與其本身Ti之間存在由T′i指向Ti的??;②若術(shù)語Ti與Tj互為同義詞,則存在由T′i指向Tj的弧和由T′j指向Ti的弧。因此,術(shù)語節(jié)點(diǎn)Ti∈T的父節(jié)點(diǎn)集Pa(Ti)合由術(shù)語節(jié)點(diǎn)T′i及Ti的同義詞節(jié)點(diǎn)T′j組成。利用同義詞擴(kuò)展術(shù)語子網(wǎng),加入模擬術(shù)語節(jié)點(diǎn)間直接關(guān)系的弧,這樣就可以檢索到那些與查詢術(shù)語語義相同或相似的文檔,以此提高檢索性能。
新模型的最下面一層是復(fù)合的文檔層,其中任何一個(gè)文檔節(jié)點(diǎn)Dj的父節(jié)點(diǎn)都是由DEj和DSj組成,也就是說通過最終的文檔層將整個(gè)網(wǎng)絡(luò)左右兩部分進(jìn)行歸并,進(jìn)一步提高檢索性能。
2 概率分布
在兩層術(shù)語節(jié)點(diǎn)的貝葉斯網(wǎng)絡(luò)檢索中,對(duì)于任意根術(shù)語節(jié)點(diǎn)T′i的相關(guān)邊緣概率[1] 定義為 (M表示測(cè)試集合中的術(shù)語總數(shù)),不相關(guān)的概率[1]則可以表示為 。已知Ti為任意非根術(shù)語節(jié)點(diǎn),Pa(Ti)中每個(gè)術(shù)語變量取值(相關(guān)或不相關(guān))后的一個(gè)組合表示為pa(Ti),則利用一般正則模型的概率函數(shù)[2]可以得到如下表達(dá)式:
其中,vij為權(quán)重,用來反應(yīng)查詢術(shù)語 對(duì)術(shù)語Ti的影響力度, 表示只將Pa(Ti)中取值為相關(guān)的術(shù)語的權(quán)重加起來。術(shù)語Ti如果有多個(gè)父節(jié)點(diǎn),權(quán)重vij的定義如(2)式所示:
Ti如果只有一個(gè)父節(jié)點(diǎn)T′i,權(quán)重vij=0。公式(2)中 為Ti的父節(jié)點(diǎn)個(gè)數(shù),?茁為調(diào)節(jié)權(quán)重影響力度的參數(shù)。該定義可以很好的區(qū)分不同同義詞對(duì)查詢術(shù)語的影響力度。
文檔層D中的文檔節(jié)點(diǎn)DSj和DEj的條件概率 和 的計(jì)算與簡(jiǎn)單貝葉斯網(wǎng)絡(luò)檢索模型中概率計(jì)算相同。
3 推理和檢索機(jī)制
查詢Q是由用戶所提供的初始查詢,對(duì)于簡(jiǎn)單貝葉斯網(wǎng)絡(luò)檢索模型,最終計(jì)算出每篇文檔DSj與查詢Q的相關(guān)度 [2];對(duì)于兩層節(jié)點(diǎn)的貝葉斯網(wǎng)絡(luò)檢索模型,最終計(jì)算出每篇文檔DEj與查詢Q 的相關(guān)度 ?;谛履P偷臋z索過程,最終要計(jì)算出每篇文檔Dj與查詢Q的相關(guān)度, 由 和 共同決定,即新模型的檢索結(jié)果是對(duì)兩層節(jié)點(diǎn)的貝葉斯網(wǎng)絡(luò)檢索模型和簡(jiǎn)單貝葉斯網(wǎng)絡(luò)檢索模型的檢索結(jié)果的歸并。
在簡(jiǎn)單貝葉斯網(wǎng)絡(luò)檢索模型中,不包含查詢術(shù)語Q的文檔,即使?jié)M足用戶的檢索需求,但是其相關(guān)度 的值一般都非常小,所以這類文檔一般不會(huì)提供給用戶;與之相反,包含查詢術(shù)語Q中的部分或全部術(shù)語的文檔,其相關(guān)度 的值一般都比較大,從理論上講一般可以滿足用戶的檢索需求。此外,如果文檔中包含查詢Q的同義詞、近義詞或相關(guān)詞,這類文檔與用戶的檢索需要也具有一定的關(guān)聯(lián)。所以要按照 和 綜合之后的相關(guān)度對(duì)文檔排序,將相關(guān)度大于某個(gè)值的文檔進(jìn)行遞減排序,最終呈現(xiàn)給用戶。
用戶把查詢Q提交給檢索系統(tǒng)時(shí),檢索過程開始,檢索過程的執(zhí)行過程主要是歸并簡(jiǎn)單模型的檢索過程和兩層術(shù)語節(jié)點(diǎn)模型的檢索過程。其相應(yīng)的檢索推理過程如下:
①利用一般正則模型的概率函數(shù)[1]估計(jì)兩層術(shù)語節(jié)點(diǎn)的貝葉斯網(wǎng)絡(luò)中術(shù)語層T中任意術(shù)語Ti的后驗(yàn)概率 :
因?yàn)樾g(shù)語層中的術(shù)語相互邊緣獨(dú)立,所以 時(shí),則(3)式中的 ,否則 。注意,對(duì)于只有一個(gè)父節(jié)點(diǎn) 的術(shù)語Ti而言 ,若 ,由(3)式可得 ,否則 。若術(shù)語Ti有多個(gè)父節(jié)點(diǎn),vij用公式(2)代替,則 為:
公式(4)考慮了Ti的所有父節(jié)點(diǎn)對(duì)其產(chǎn)生的影響。
②計(jì)算文檔DEj的最終后驗(yàn)概率 :
③基于以上推理并利用一般正則模型的概率函數(shù)[1]對(duì)文檔Dj的最終后驗(yàn)概率 估計(jì)如下:
其中,usj和uEj為衡量文檔DSj和DEj分別在查詢Q作用下對(duì)Dj相關(guān)度影響程度的權(quán)重,定義為
④按照文檔相關(guān)度進(jìn)行排序,將相關(guān)度大于某個(gè)值的文檔提交給用戶,完成檢索過程。
4 結(jié)束語
語義檢索是未來信息檢索領(lǐng)域的一個(gè)發(fā)展趨勢(shì)。本文將貝葉斯網(wǎng)絡(luò)和語義相結(jié)合,提出基于貝葉斯網(wǎng)絡(luò)的語義檢索模型,該模型能夠根據(jù)詞語的含義檢索到與用戶需求相關(guān)的文檔,擴(kuò)大了檢索的范圍,且查全率和查準(zhǔn)率方面都得到了提高,實(shí)現(xiàn)了智能語義檢索,檢索性能更加優(yōu)越。
參考文獻(xiàn):
[1]LUIS M. DE CAMPOS, JUAN M. FERNANDEZ-LUNA, JUAN F. HUETE. The BNR model: foundations and performance of a Bayesian network-based retrieval model [J]. International Journal of Approximate Reasoning. 2003, 34(2-3): 265-285.
[2]SILVIA ACID, LUIS M. DE CAMPOS, JUAN M. FERNANDEZ-LUNA, et al. An information retrieval model based on simple Bayesian networks [J]. International Journal of Intelligent Systems. 2003, 18(2): 251-265.