李 金
(榆林學(xué)院,榆林 719000)
隨著我國智能技術(shù)的不斷發(fā)展,傳統(tǒng)圖書館由于圖書眾多、占據(jù)空間大、查詢難度大的缺陷,已經(jīng)無法適應(yīng)現(xiàn)今社會(huì)的發(fā)展趨勢。數(shù)字圖書館依據(jù)需求而產(chǎn)生,其主要是利用數(shù)字技術(shù)對圖書等各種文獻(xiàn)進(jìn)行處理與存儲(chǔ)的圖書館,其實(shí)質(zhì)上是一種多媒體制作的分布式信息系統(tǒng)。數(shù)字圖書館可以將不同載體、不同位置的信息資源采用數(shù)字技術(shù)進(jìn)行存儲(chǔ),以此為基礎(chǔ),便利使用者跨越對象、區(qū)域的查詢與傳播。數(shù)字圖書館主要包括信息資源的加工、存儲(chǔ)、檢索、傳輸與利用。通俗地說,數(shù)字圖書館是虛擬的、無圍墻的圖書館,依據(jù)網(wǎng)絡(luò)環(huán)境構(gòu)建的知識(shí)網(wǎng)絡(luò)系統(tǒng),其具有分布式、大規(guī)模、便利性、無時(shí)空限制與智能檢索的優(yōu)勢,已經(jīng)被多所大學(xué)以及城市所應(yīng)用。但是如何在數(shù)字圖書館有效的提取需求的信息成為現(xiàn)今數(shù)字圖書館應(yīng)用的關(guān)鍵難題,也是目前智能領(lǐng)域重點(diǎn)研究課題之一。
就現(xiàn)有的研究來看,傳統(tǒng)的基于搜索引擎的知識(shí)獲取方式已經(jīng)無法滿足現(xiàn)今人們的需求,傳統(tǒng)知識(shí)獲取方式返回信息過于冗余,用戶需要消耗大量的人力與時(shí)間在返回信息中尋找自己需求的信息。智能問答系統(tǒng)可以精準(zhǔn)的捕捉用戶的意圖,理解用戶的自然語言提問,可以將答案直接返回給用戶,人們對智能問答系統(tǒng)的重視與研究也越來越多。數(shù)字圖書館傳統(tǒng)搜索引擎存在著返回答案速率低、準(zhǔn)確性差的缺陷,無法滿足現(xiàn)今數(shù)字圖書館的需求,為了解決上述問題,引入云計(jì)算對數(shù)字圖書館智能問答系統(tǒng)進(jìn)行設(shè)計(jì)。云計(jì)算實(shí)質(zhì)上是分布式計(jì)算的一種,其可以在幾秒鐘內(nèi)對數(shù)以萬計(jì)的數(shù)據(jù)進(jìn)行處理,從而達(dá)到強(qiáng)大的網(wǎng)絡(luò)服務(wù)。通過云計(jì)算的應(yīng)用可以極大的提升數(shù)字圖書館智能問答系統(tǒng)的性能,同時(shí)設(shè)計(jì)仿真對比實(shí)驗(yàn)對設(shè)計(jì)的數(shù)字圖書館智能問答系統(tǒng)性能進(jìn)行測試與分析。
為了解決傳統(tǒng)搜索引擎存在的難題,對數(shù)字圖書館智能問答系統(tǒng)架構(gòu)進(jìn)行設(shè)計(jì)。智能問答系統(tǒng)架構(gòu)示意圖如圖1所示。
圖1 智能問答系統(tǒng)架構(gòu)示意圖
如圖1所示,基礎(chǔ)層主要包括的是智能問答系統(tǒng)構(gòu)建需要的數(shù)據(jù),將其以文本形式進(jìn)行存儲(chǔ);
資源層主要包括問答數(shù)據(jù)、特征數(shù)據(jù)、圖書資源以及知識(shí)庫等數(shù)據(jù)資源;
分析層是智能問答系統(tǒng)的關(guān)鍵部分,主要是通過智能問答引擎、圖書庫引擎以及檢索排序引擎來對智能問答系統(tǒng)進(jìn)行構(gòu)建,其中每個(gè)部分還包含優(yōu)化方案;
應(yīng)用層是對智能問答系統(tǒng)的功能進(jìn)行實(shí)現(xiàn),包括智能問答、相關(guān)問題推薦、圖書解釋、歷史追蹤等;
交互層指的是用戶進(jìn)行智能問答的硬件,主要包括Web終端與移動(dòng)終端。
系統(tǒng)硬件設(shè)計(jì)主要包括Web終端、圖書信息采集設(shè)備與圖書信息轉(zhuǎn)換設(shè)備。具體內(nèi)容如下。
Web終端是用戶進(jìn)行問答的主要設(shè)備,是一種在網(wǎng)絡(luò)環(huán)境下的終端設(shè)備,與計(jì)算機(jī)相比較來看,其沒有軟驅(qū)、光驅(qū)、硬盤等存儲(chǔ)設(shè)備,主要通過網(wǎng)絡(luò)對資源進(jìn)行獲取,軟件與數(shù)據(jù)存儲(chǔ)與服務(wù)器上。其具有發(fā)熱量小、無噪音、使用簡便的優(yōu)勢,廣泛的應(yīng)用于學(xué)校。Web終端示意圖如圖2所示。
圖2 web終端示意圖
數(shù)字圖書館主要是對圖書館的圖書信息進(jìn)行采集,將其以數(shù)字化形式進(jìn)行存儲(chǔ)。由此可見,圖書信息采集設(shè)備是其重點(diǎn)設(shè)備。該系統(tǒng)主要采用圖書采集器對圖書信息進(jìn)行采集,該設(shè)備也被稱為圖書盤點(diǎn)機(jī),主要是通過激光技術(shù)對圖書信息進(jìn)行掃描,軟件存儲(chǔ)與該設(shè)備的內(nèi)部,共同對采集功能進(jìn)行實(shí)現(xiàn)。圖書采集器具有體積小、攜帶方便的優(yōu)勢。圖書采集器參數(shù)設(shè)置如表1所示。
表1 圖書采集器參數(shù)設(shè)置表
采集的圖書信息需要通過轉(zhuǎn)換設(shè)備對其形式進(jìn)行轉(zhuǎn)換,以此來減小存儲(chǔ)空間。該系統(tǒng)主要采用轉(zhuǎn)換器對圖書信息形式進(jìn)行轉(zhuǎn)換。
轉(zhuǎn)換器指的是將圖書信息進(jìn)行轉(zhuǎn)換的裝置。轉(zhuǎn)換器中關(guān)鍵組件為電路,因此,對轉(zhuǎn)換器進(jìn)行設(shè)計(jì),具體情況如圖3所示。
圖3 轉(zhuǎn)換器示意圖
通過上述過程完成了系統(tǒng)硬件的設(shè)計(jì),但是硬件無法實(shí)現(xiàn)智能問答,因此,對軟件部分進(jìn)行設(shè)計(jì),以輔助硬件實(shí)現(xiàn)數(shù)字圖書館的智能問答。
系統(tǒng)軟件設(shè)計(jì)主要包括數(shù)據(jù)庫構(gòu)建模塊、問句預(yù)處理模塊與檢索排序模塊。具體內(nèi)容如下。
采用圖書信息采集設(shè)備與轉(zhuǎn)換設(shè)備對圖書信息進(jìn)行采集與轉(zhuǎn)換,通過網(wǎng)絡(luò)爬蟲技術(shù)對數(shù)據(jù)庫進(jìn)行構(gòu)建。具體過程如下。
網(wǎng)絡(luò)爬蟲技術(shù)是構(gòu)建數(shù)據(jù)庫的有效技術(shù)與工具。爬蟲流程主要是根據(jù)圖書結(jié)構(gòu),對爬取規(guī)則與策略進(jìn)行設(shè)計(jì),其次對腳本程序進(jìn)行編寫,最后對采集內(nèi)容進(jìn)行保存。
首先,對問答信息進(jìn)行采集。主要采用開源爬蟲框架Scrapy框架對問答信息進(jìn)行爬蟲采集。Scrapy框架圖如圖4所示。
圖4 Scrapy框架圖
爬蟲采集數(shù)據(jù)內(nèi)容如表2所示。
表2 爬蟲采集數(shù)據(jù)內(nèi)容表
其次,對數(shù)據(jù)庫結(jié)構(gòu)進(jìn)行優(yōu)化,其優(yōu)化流程如圖5所示。
圖5 數(shù)據(jù)庫結(jié)構(gòu)優(yōu)化流程圖
通過上述過程完成了數(shù)據(jù)庫的構(gòu)建與優(yōu)化,為下述數(shù)據(jù)預(yù)處理提供支撐。
要想智能問答系統(tǒng)可以精準(zhǔn)的對問題進(jìn)行回答,首要任務(wù)就是對問句進(jìn)行預(yù)處理。該系統(tǒng)主要采用問句分類模型對問句進(jìn)行預(yù)處理。具體過程如下。
問句分類模型架構(gòu)圖如圖6所示。
圖6 問句分類模型架構(gòu)圖
如圖6所示,xi表示的是第i個(gè)詞語的嵌入詞向量;hi表示的是第i個(gè)詞語經(jīng)過隱藏層之后的輸出信息。hi計(jì)算公式為:
但是問句中詞語有輕重之分,因此,需要對詞語進(jìn)行權(quán)重分配,則輸出結(jié)果為:
其中,ti表示的是第i個(gè)詞語的權(quán)重。
將得到的特征向量H~導(dǎo)入分類器中,得到類別結(jié)果為:
其中,g()表示的是分類器函數(shù);Vx表示的是權(quán)值矩陣;.Ms表示的是分類器的dropout處理;bs表示的是分類器的偏置向量。
通過上述過程完成了問句的預(yù)處理,為最后的檢索排序提供精準(zhǔn)支撐。
以處理好的問句為基礎(chǔ),通過結(jié)構(gòu)化索引的方式對數(shù)字圖書館的數(shù)據(jù)進(jìn)行匹配比較,依照匹配打分由高到低輸出檢索結(jié)果列表。檢索流程如圖7所示。
圖7 檢索流程圖
如圖7所示,為了提升智能問答系統(tǒng)的返回答案的準(zhǔn)確性,對問句、特征以及類目進(jìn)行匹配。具體過程 如下。
問句匹配檢索。將輸入的問句與歷史問句進(jìn)行匹配,對相似度進(jìn)行計(jì)算,計(jì)算公式為:
其中,simcontent表示的是問句相似度;α,β表示的是計(jì)算參數(shù);Q表示的是用戶提出的問句;question表示的是歷史問句。
特征匹配檢索。當(dāng)檢索出的答案的相似度進(jìn)行計(jì)算,采用simeva進(jìn)行表示,其采納規(guī)則為:
類目匹配檢索。類目匹配檢索指的是對問句的類目進(jìn)行判別。其判別式為:
其中,simcate表示的是類目相似度;cate_1q,cate_2q分別表示的是問句分類結(jié)果;field表示的是歷史問句類目。
通過上述系統(tǒng)硬件與軟件的設(shè)計(jì),實(shí)現(xiàn)了基于云計(jì)算的數(shù)字圖書館智能問答系統(tǒng)運(yùn)行,為數(shù)字圖書館的應(yīng)用提供新的技術(shù)支撐。
上述過程實(shí)現(xiàn)了基于云計(jì)算的數(shù)字圖書館智能問答系統(tǒng)的設(shè)計(jì)與運(yùn)行,但是對其是否能夠解決傳統(tǒng)搜索引擎存在的問題還無法確定,為此設(shè)計(jì)仿真對比實(shí)驗(yàn)對設(shè)計(jì)系統(tǒng)的性能進(jìn)行測試與分析。
在測試過程中,主要采用設(shè)計(jì)系統(tǒng)與傳統(tǒng)搜索引擎進(jìn)行對比實(shí)驗(yàn),由于問答過程不同,其對問句進(jìn)行回答的方式也存在著較大的不同,為了保障實(shí)驗(yàn)結(jié)論的準(zhǔn)確性,對實(shí)驗(yàn)外部環(huán)境參數(shù)進(jìn)行統(tǒng)一設(shè)置,通過返回答案速率與準(zhǔn)確性對系統(tǒng)性能進(jìn)行體現(xiàn)。返回答案速率計(jì)算公式為:
其中,TP表示的是返回答案正確的數(shù)量;t表示的是返回答案單位時(shí)間。
返回答案準(zhǔn)確性計(jì)算公式為:
其中,F(xiàn)N表示的是返回答案錯(cuò)誤的數(shù)量。
通過上述公式對系統(tǒng)性能指標(biāo)進(jìn)行計(jì)算與獲取,以此為基礎(chǔ),對實(shí)驗(yàn)結(jié)果進(jìn)行具體分析。
通過實(shí)驗(yàn)得到返回答案速率對比情況如圖8所示。
圖8 返回答案速率對比情況圖
如圖8所示,設(shè)計(jì)系統(tǒng)的返回答案速率遠(yuǎn)遠(yuǎn)的高于傳統(tǒng)搜索引擎,其最大值可以達(dá)到90%。
通過實(shí)驗(yàn)得到返回答案準(zhǔn)確性對比情況如表3 所示。
如表3所示,設(shè)計(jì)系統(tǒng)的返回答案準(zhǔn)確性遠(yuǎn)遠(yuǎn)的高于傳統(tǒng)搜索引擎,其最大值可以達(dá)到92%。
表3 返回答案準(zhǔn)確性對比情況表
通過測試結(jié)果顯示,設(shè)計(jì)的數(shù)字圖書館智能問答系統(tǒng)極大的提升了返回答案速率與準(zhǔn)確性,充分說明設(shè)計(jì)的數(shù)字圖書館智能問答系統(tǒng)具備更好的性能。
設(shè)計(jì)的數(shù)字圖書館智能問答系統(tǒng)極大的提升了返回答案速率與準(zhǔn)確性,為數(shù)字圖書館的應(yīng)用提供新的技術(shù)支撐。但是智能問答系統(tǒng)返回答案的準(zhǔn)確性與速率依然還存在著較大的上升空間,因此,需要對設(shè)計(jì)系統(tǒng)進(jìn)行進(jìn)一步的研究與優(yōu)化。