黃海云 程建華
貝葉斯網(wǎng)絡(luò)模型檢索技術(shù)在圖書館信息服務(wù)中的應(yīng)用分析
黃海云 程建華
數(shù)字化技術(shù)廣泛應(yīng)用于高校圖書館,提高了圖書檢索的效率。本文主要是對現(xiàn)代圖書觀眾使用的貝葉斯網(wǎng)絡(luò)模型做出了分析,包括它的發(fā)展歷史、工作原理、計算方法以及在圖書館信息服務(wù)中的具體應(yīng)用。對圖書館的信息檢索以及促進該技術(shù)的推廣具有參考意義。
貝葉斯網(wǎng)絡(luò)模型 檢索技術(shù) 圖書館 信息服務(wù)
伴隨著科學(xué)技術(shù)的不斷發(fā)展以及數(shù)字化技術(shù)的不斷進步,使分散的科技不斷運用到圖書的檢索中去,而且還大量采用了數(shù)字化技術(shù)、儲存和壓縮技術(shù)把圖書科學(xué)合理地轉(zhuǎn)化為數(shù)字信息,這樣方便了人機交流以及信息訪問,提高了為師生服務(wù)的水平以及服務(wù)質(zhì)量,更加方便快捷。其中50年代形成的貝葉斯科技的運用就是促進圖書館技術(shù)不斷更新的一大動力。
關(guān)于貝葉斯網(wǎng)絡(luò)技術(shù),很多其他領(lǐng)域的人士并不是很熟悉,這種技術(shù)有被廣泛地稱為信度網(wǎng)絡(luò)。它是一種基于概率推理的數(shù)學(xué)模型,因其帶有概率注釋的有形無環(huán)圖,因此它又被稱之為圖形化網(wǎng)絡(luò)。它的工作原理主要是利用貝葉斯公式或者定理來對變量之間的相互分布以及和概率關(guān)系進行不確定性變量的推理,這種推理可以完成語義概念的查詢,對于解決設(shè)備的不確定性和關(guān)聯(lián)性引起的故障具有顯著的作用,因此在圖書館中被廣泛利用。
計算機技術(shù)的不斷進步使我國在數(shù)據(jù)處理以及互聯(lián)網(wǎng)等方面取得了極大的進步,可以實現(xiàn)信息的廣泛傳播、縮短傳播所需要的時間。但是在具體的應(yīng)用中仍然需要一種先進的技術(shù)出現(xiàn)來彌補重復(fù)信息或者查詢詞不準確導(dǎo)致的查詢信息不精確的現(xiàn)狀。在后來的不斷探索中人們開始向概率模型的信息檢索中不斷拓展,貝葉斯網(wǎng)絡(luò)模型信息技術(shù)探索就是概率模型信息檢索的一個較好的技術(shù),它有效解決了檢索中的不確定性,保障了信息的準確性[1]。并且近年來人們對貝葉斯技術(shù)不斷拓展,探索一種從數(shù)據(jù)中學(xué)習(xí)并生成貝葉斯網(wǎng)絡(luò)的方法,這種方法可以建立科學(xué)的模型,對復(fù)雜的信息進行準確的歸類,為檢索速度的提高提供了技術(shù)保障。
(一)術(shù)語間的條件概率
運用關(guān)聯(lián)的方法來對屬于之間的語義進行概念語義的挖掘,形成聯(lián)合條件概率,一般上下文中存在上下位關(guān)系的術(shù)語就被稱之為相關(guān)術(shù)語。在具體的計算過程中要根據(jù)第一層節(jié)點的數(shù)目,建立第一層節(jié)點與第二層節(jié)點之間的聯(lián)合條件概率。之后在利用屬于之間的關(guān)聯(lián)規(guī)則方法來計算聯(lián)合條件概率,根據(jù)用戶的需求進行查詢,得到術(shù)語的側(cè)重點。其次也可以利用術(shù)語的權(quán)重計算出最大值。還可以利用術(shù)語的權(quán)重項計算出平均值,如果計算所得到的存儲量過大,就可以利用約束項目的方法來減少存儲量,這樣不僅有利于減少不相關(guān)內(nèi)容,而且也是提高檢索效率和精確度的一個有效方法。
(二)通過同義詞典計算術(shù)語權(quán)重
利用同義詞典對術(shù)語之間的相互關(guān)系進行挖掘,可以對用戶的查詢用途很好的把握,計算過術(shù)語之間的條件概率之后,通過同義詞典的方法對術(shù)語權(quán)重合理更新,反復(fù)計算,當所有的術(shù)語權(quán)重都通過同義詞典就可以暫停計算,這是一種有效地術(shù)語計算方法。
(三)用戶查詢與文檔間相似度計算
術(shù)語間的條件概率計算和貝葉斯網(wǎng)絡(luò)模型的結(jié)合,能求出所有術(shù)語的權(quán)重這樣可以在用戶查詢之后,把用戶查詢用擴展后的術(shù)語特征向量來進行表示,就是說把特征向量值作為術(shù)語在文檔中的權(quán)重,這樣用戶查詢的要求會與文檔更加接近,符合需要。
圖書館作為學(xué)校里面重要的資源獲取地,其中包含眾多的基礎(chǔ)信息資源,對高校圖書館進行建設(shè)是為了充分利用資源,實現(xiàn)資源的最大開發(fā)和利用,實現(xiàn)學(xué)生和教師的信息快速獲取與檢索服務(wù),還可以根據(jù)實際情況提供個性化服務(wù)。其中在貝葉斯網(wǎng)絡(luò)模型的利用基礎(chǔ)之上,研究出了用戶興趣聯(lián)合推送的服務(wù),這項服務(wù)的推出是高校圖書館網(wǎng)站個性化信息服務(wù)的重要組成部分,它的實現(xiàn)需要建立用戶聯(lián)合推送系統(tǒng)來實現(xiàn)。采用多個特征向量來建立用戶興趣模型,對用戶的不同興趣科學(xué)合理的分類,在建立模型之后根據(jù)用戶之間的興趣度,這種對模型的有效利用是保障用戶信息高質(zhì)量的體現(xiàn)。這樣就可以向用戶展示自身的興趣度,智能化的適應(yīng)不同用戶的興趣變化,適應(yīng)用戶的興趣變化。貝葉斯的網(wǎng)絡(luò)模型的興趣建立,對不同用戶之間的興趣進行了分類,根據(jù)用戶的興趣愛好進行智能化地推送,這樣就可以為用戶提供更加智能化的信息,這樣對于高校數(shù)字圖書館的建設(shè)具有良好的推動作用。
貝葉斯網(wǎng)絡(luò)模型作為一種新的檢索方式,對原有的圖書館檢索方法進行了改進。但是,如何從全文中挖掘相關(guān)的術(shù)語,科學(xué)準確地確定術(shù)語之間的相關(guān)值,并且進一步對檢索的效果進行精確,是需要不斷深入研究的問題。因此要借助現(xiàn)代快速發(fā)展的科技,更好的發(fā)揮出貝葉斯網(wǎng)絡(luò)模型的利用前景,推動數(shù)字化圖書館的建設(shè)。
[1]徐磊.基于貝葉斯網(wǎng)絡(luò)的突發(fā)事件應(yīng)急決策信息分析方法研究[J].計算機科學(xué),2013(07).
(作者單位:河北科技大學(xué)圖書館)
本文系河北省教育廳課題“貝葉斯網(wǎng)絡(luò)在圖書購買和借閱管理中的應(yīng)用”(項目編號:sz16180)階段性研究成果。