亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于貝葉斯網(wǎng)絡(luò)的綜合語義檢索模型

2018-09-26 10:14:36白彥霞

價(jià)值工程 2018年25期

白彥霞

摘要：通過關(guān)鍵詞匹配返回的檢索結(jié)果無法滿足用戶需求。為了解決該問題，提出一種基于貝葉斯網(wǎng)絡(luò)的語義檢索模型，該檢索能夠從語義層面上獲得較高的查準(zhǔn)率，為用戶提供更滿意的檢索結(jié)果。

Abstract： The retrieval results can be returned by keyword matching， which makes the retrieval results can't satisfy user's demand. In order to solve this problem， a semantic retrieval model based on Bayesian network is proposed， which can get high precision from the semantic level，and provide users with more satisfactory retrieval results.

關(guān)鍵詞：貝葉斯網(wǎng)絡(luò)；關(guān)鍵詞；語義檢索

Key words： Bayesian network；keyword；semantic retrieval

中圖分類號(hào)：TP391.3 文獻(xiàn)標(biāo)識(shí)碼：A 文章編號(hào)：1006-4311（2018）25-0141-02

0 引言

隨著信息技術(shù)的蓬勃發(fā)展，網(wǎng)絡(luò)資源成指數(shù)級(jí)增長(zhǎng)，人們已經(jīng)越來越習(xí)慣于在網(wǎng)絡(luò)上檢索自己所需要的各類文檔資源。對(duì)于文檔的瀏覽和檢索，傳統(tǒng)的信息檢索技術(shù)只是以關(guān)鍵詞的簡(jiǎn)單匹配作為主要手段，語義層面的具體分析無法實(shí)現(xiàn)。同時(shí)，檢索的文檔信息形式比較單一，未考慮文檔之外的信息關(guān)系，使得檢索效率低下。如果將檢索術(shù)語的同義詞、近義詞、高度相關(guān)詞等考慮進(jìn)來，必然提高查全率和查準(zhǔn)率，因?yàn)榘@些詞語的文檔在一定程度上也與用戶的查詢意圖有關(guān)。特別是對(duì)于剛剛進(jìn)入某個(gè)研究領(lǐng)域的人員，由于知識(shí)有限，對(duì)相關(guān)知識(shí)的認(rèn)識(shí)不夠全面，總是希望能從一篇本領(lǐng)域的文檔中找到與之類似的文檔，這些文檔間的近似關(guān)系、關(guān)聯(lián)關(guān)系等就需要在檢索的過程中被考慮進(jìn)來，引導(dǎo)用戶沿著感興趣的文檔找到相似或相關(guān)的文檔，從而幫助用戶快速檢索到目標(biāo)文檔。

貝葉斯網(wǎng)絡(luò)也被稱為信度網(wǎng)絡(luò)，具有非常靈活的拓?fù)浣Y(jié)構(gòu)，通過節(jié)點(diǎn)來表示術(shù)語之間的條件關(guān)系和語義關(guān)系，為實(shí)現(xiàn)語義檢索奠定了基礎(chǔ)。本文以貝葉斯網(wǎng)為基礎(chǔ)，結(jié)合簡(jiǎn)單貝葉斯網(wǎng)絡(luò)檢索模型關(guān)鍵詞精確匹配的優(yōu)點(diǎn)和兩層節(jié)點(diǎn)的貝葉斯網(wǎng)絡(luò)檢索模型語義擴(kuò)展的優(yōu)點(diǎn)，提出了一個(gè)基于貝葉斯網(wǎng)絡(luò)的綜合語義檢索模型，該模型實(shí)現(xiàn)了語義檢索，使信息檢索趨于智能化。

1 模型拓?fù)浣Y(jié)構(gòu)

圖1為基于貝葉斯網(wǎng)絡(luò)的綜合語義檢索模型的拓?fù)浣Y(jié)構(gòu)，整個(gè)網(wǎng)絡(luò)分為左右兩部分。右側(cè)實(shí)線框內(nèi)為簡(jiǎn)單貝葉斯網(wǎng)絡(luò)檢索模型，由兩個(gè)子網(wǎng)組成：術(shù)語子網(wǎng)和文檔子網(wǎng)。文檔子網(wǎng)由N個(gè)文檔節(jié)點(diǎn)構(gòu)成，DSj表示文檔，也表示與其相關(guān)的變量和節(jié)點(diǎn)。左側(cè)虛線框內(nèi)為兩層節(jié)點(diǎn)的貝葉斯網(wǎng)絡(luò)檢索模型，該網(wǎng)絡(luò)是對(duì)簡(jiǎn)單貝葉斯網(wǎng)絡(luò)檢索模型的擴(kuò)展，也包括兩個(gè)子網(wǎng)，其中文檔子網(wǎng)與右側(cè)網(wǎng)絡(luò)中的文檔子網(wǎng)完全一樣，只是文檔用DEj表示，DEj也表示與其相關(guān)的變量和節(jié)點(diǎn)。DSj和DEj是同一個(gè)文檔Dj的不同表示。左右兩部分網(wǎng)絡(luò)最大的區(qū)別在于術(shù)語子網(wǎng)，在兩層術(shù)語節(jié)點(diǎn)的貝葉斯網(wǎng)絡(luò)中，復(fù)制原始術(shù)語層T中的每個(gè)術(shù)語節(jié)點(diǎn)Ti得到術(shù)語節(jié)點(diǎn)T′i，形成一個(gè)新術(shù)語層T′，因此兩層節(jié)點(diǎn)的貝葉斯網(wǎng)絡(luò)檢索模型的變量集合。T′中的術(shù)語變量T′i也是二進(jìn)制的隨機(jī)變量，取值集合為，和分別表示“術(shù)語T′i不相關(guān)”、“術(shù)語T′i相關(guān)”。是N篇文檔組成的集合。

連接兩個(gè)術(shù)語層的有向弧的指向：①任意術(shù)語T′i與其本身Ti之間存在由T′i指向Ti的??；②若術(shù)語Ti與Tj互為同義詞，則存在由T′i指向Tj的弧和由T′j指向Ti的弧。因此，術(shù)語節(jié)點(diǎn)Ti∈T的父節(jié)點(diǎn)集Pa（Ti）合由術(shù)語節(jié)點(diǎn)T′i及Ti的同義詞節(jié)點(diǎn)T′j組成。利用同義詞擴(kuò)展術(shù)語子網(wǎng)，加入模擬術(shù)語節(jié)點(diǎn)間直接關(guān)系的弧，這樣就可以檢索到那些與查詢術(shù)語語義相同或相似的文檔，以此提高檢索性能。

新模型的最下面一層是復(fù)合的文檔層，其中任何一個(gè)文檔節(jié)點(diǎn)Dj的父節(jié)點(diǎn)都是由DEj和DSj組成，也就是說通過最終的文檔層將整個(gè)網(wǎng)絡(luò)左右兩部分進(jìn)行歸并，進(jìn)一步提高檢索性能。

2 概率分布

在兩層術(shù)語節(jié)點(diǎn)的貝葉斯網(wǎng)絡(luò)檢索中，對(duì)于任意根術(shù)語節(jié)點(diǎn)T′i的相關(guān)邊緣概率[1] 定義為（M表示測(cè)試集合中的術(shù)語總數(shù)），不相關(guān)的概率[1]則可以表示為。已知Ti為任意非根術(shù)語節(jié)點(diǎn)，Pa（Ti）中每個(gè)術(shù)語變量取值（相關(guān)或不相關(guān)）后的一個(gè)組合表示為pa（Ti），則利用一般正則模型的概率函數(shù)[2]可以得到如下表達(dá)式：

其中，vij為權(quán)重，用來反應(yīng)查詢術(shù)語對(duì)術(shù)語Ti的影響力度，表示只將Pa（Ti）中取值為相關(guān)的術(shù)語的權(quán)重加起來。術(shù)語Ti如果有多個(gè)父節(jié)點(diǎn)，權(quán)重vij的定義如（2）式所示：

Ti如果只有一個(gè)父節(jié)點(diǎn)T′i，權(quán)重vij=0。公式（2）中為Ti的父節(jié)點(diǎn)個(gè)數(shù)，？茁為調(diào)節(jié)權(quán)重影響力度的參數(shù)。該定義可以很好的區(qū)分不同同義詞對(duì)查詢術(shù)語的影響力度。

文檔層D中的文檔節(jié)點(diǎn)DSj和DEj的條件概率和的計(jì)算與簡(jiǎn)單貝葉斯網(wǎng)絡(luò)檢索模型中概率計(jì)算相同。

3 推理和檢索機(jī)制

查詢Q是由用戶所提供的初始查詢，對(duì)于簡(jiǎn)單貝葉斯網(wǎng)絡(luò)檢索模型，最終計(jì)算出每篇文檔DSj與查詢Q的相關(guān)度 [2]；對(duì)于兩層節(jié)點(diǎn)的貝葉斯網(wǎng)絡(luò)檢索模型，最終計(jì)算出每篇文檔DEj與查詢Q 的相關(guān)度 ?；谛履Ｐ偷臋z索過程，最終要計(jì)算出每篇文檔Dj與查詢Q的相關(guān)度，由和共同決定，即新模型的檢索結(jié)果是對(duì)兩層節(jié)點(diǎn)的貝葉斯網(wǎng)絡(luò)檢索模型和簡(jiǎn)單貝葉斯網(wǎng)絡(luò)檢索模型的檢索結(jié)果的歸并。

在簡(jiǎn)單貝葉斯網(wǎng)絡(luò)檢索模型中，不包含查詢術(shù)語Q的文檔，即使?jié)M足用戶的檢索需求，但是其相關(guān)度的值一般都非常小，所以這類文檔一般不會(huì)提供給用戶；與之相反，包含查詢術(shù)語Q中的部分或全部術(shù)語的文檔，其相關(guān)度的值一般都比較大，從理論上講一般可以滿足用戶的檢索需求。此外，如果文檔中包含查詢Q的同義詞、近義詞或相關(guān)詞，這類文檔與用戶的檢索需要也具有一定的關(guān)聯(lián)。所以要按照和綜合之后的相關(guān)度對(duì)文檔排序，將相關(guān)度大于某個(gè)值的文檔進(jìn)行遞減排序，最終呈現(xiàn)給用戶。

用戶把查詢Q提交給檢索系統(tǒng)時(shí)，檢索過程開始，檢索過程的執(zhí)行過程主要是歸并簡(jiǎn)單模型的檢索過程和兩層術(shù)語節(jié)點(diǎn)模型的檢索過程。其相應(yīng)的檢索推理過程如下：

①利用一般正則模型的概率函數(shù)[1]估計(jì)兩層術(shù)語節(jié)點(diǎn)的貝葉斯網(wǎng)絡(luò)中術(shù)語層T中任意術(shù)語Ti的后驗(yàn)概率：

因?yàn)樾g(shù)語層中的術(shù)語相互邊緣獨(dú)立，所以時(shí)，則（3）式中的，否則。注意，對(duì)于只有一個(gè)父節(jié)點(diǎn) 的術(shù)語Ti而言，若，由（3）式可得，否則。若術(shù)語Ti有多個(gè)父節(jié)點(diǎn)，vij用公式（2）代替，則為：

公式（4）考慮了Ti的所有父節(jié)點(diǎn)對(duì)其產(chǎn)生的影響。

②計(jì)算文檔DEj的最終后驗(yàn)概率：

③基于以上推理并利用一般正則模型的概率函數(shù)[1]對(duì)文檔Dj的最終后驗(yàn)概率估計(jì)如下：

其中，usj和uEj為衡量文檔DSj和DEj分別在查詢Q作用下對(duì)Dj相關(guān)度影響程度的權(quán)重，定義為

④按照文檔相關(guān)度進(jìn)行排序，將相關(guān)度大于某個(gè)值的文檔提交給用戶，完成檢索過程。

4 結(jié)束語

語義檢索是未來信息檢索領(lǐng)域的一個(gè)發(fā)展趨勢(shì)。本文將貝葉斯網(wǎng)絡(luò)和語義相結(jié)合，提出基于貝葉斯網(wǎng)絡(luò)的語義檢索模型，該模型能夠根據(jù)詞語的含義檢索到與用戶需求相關(guān)的文檔，擴(kuò)大了檢索的范圍，且查全率和查準(zhǔn)率方面都得到了提高，實(shí)現(xiàn)了智能語義檢索，檢索性能更加優(yōu)越。

參考文獻(xiàn)：

[1]LUIS M. DE CAMPOS， JUAN M. FERNANDEZ-LUNA， JUAN F. HUETE. The BNR model： foundations and performance of a Bayesian network-based retrieval model [J]. International Journal of Approximate Reasoning. 2003， 34（2-3）： 265-285.

[2]SILVIA ACID， LUIS M. DE CAMPOS， JUAN M. FERNANDEZ-LUNA， et al. An information retrieval model based on simple Bayesian networks [J]. International Journal of Intelligent Systems. 2003， 18（2）： 251-265.