王均玲
摘? 要: 針對(duì)當(dāng)前數(shù)字圖書館信息檢索模型存在精度低、誤差大等難題,為了獲得理想的數(shù)字圖書館信息檢索結(jié)果,提出大數(shù)據(jù)分析技術(shù)的數(shù)字圖書館信息檢索模型。首先,分析國內(nèi)外數(shù)字圖書館信息檢索相關(guān)文獻(xiàn),找到引起數(shù)字圖書館信息檢索效果不好的原因;然后,收集大量數(shù)字圖書館信息檢索的數(shù)據(jù),并引入大數(shù)據(jù)分析技術(shù)建立數(shù)字圖書館信息檢索模型;最后,采用具體數(shù)字圖書館信息檢索實(shí)例分析所提模型的優(yōu)越性。結(jié)果表明,文中方法的數(shù)字圖書館信息檢索準(zhǔn)確率要高于其他數(shù)字圖書館信息檢索模型,克服了當(dāng)前數(shù)字圖書館信息檢索存在的一些問題。
關(guān)鍵詞: 大數(shù)據(jù)分析技術(shù); 圖書館管理系統(tǒng); 檢索精度; 檢索模型; 領(lǐng)域本體; 本體結(jié)構(gòu)
中圖分類號(hào): TN99?34; TP311.52? ? ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼: A? ? ? ? ? ? ? ? ? ? ?文章編號(hào): 1004?373X(2020)17?0155?03
ry information retrieval model, a digital library information retrieval model based on big data analysis technology is proposed to obtain ideal information retrieval results. The related literature at home and abroad for the digital library information retrieval is analyzed to find out the reasons of poor effect of digital library information retrieval, and then a large number of data of digital library information retrieval is collected to establish the digital library information retrieval model with big data analysis technology. Finally, the advantages of proposed model is analyzed with specific examples of digital library information retrieval. The results show that, in comparison with other digital library information retrieval models, the proposed model has higher information retrieval accuracy and overcomes some difficulties in current digital library information retrieval.
Keywords: big data analysis technology; library management system; retrieval accuracy; retrieval model; domain ontology; ontology structure
0? 引? 言
數(shù)字圖書館是知識(shí)經(jīng)濟(jì)的載體,已在各國文化科技競(jìng)爭(zhēng)中成為焦點(diǎn)[1]。大數(shù)據(jù)分析技術(shù)的出現(xiàn)改變了傳統(tǒng)圖書館受到地域、時(shí)間和空間的限制,它可以隨時(shí)為人們提供有用的信息資源。智能型Agent在數(shù)字圖書館中主要用于對(duì)圖書的存取和搬運(yùn),早前在日本的早稻田大學(xué)就有人構(gòu)建機(jī)械A(chǔ)gent,它能夠?qū)⒆x者選擇的資源自動(dòng)運(yùn)送到指定區(qū)域。這樣免除了大量的人力資源消耗,為市民提供24 h的圖書館借還服務(wù)。智能算法是大數(shù)據(jù)分析技術(shù)的核心部分,在本次設(shè)計(jì)中,結(jié)合智能算法、智能檢索技術(shù)和智能語義轉(zhuǎn)換服務(wù)提高信息檢索效率,處理查詢信息,構(gòu)建數(shù)字圖書館信息檢索模型。
傳統(tǒng)的檢索模型是基于關(guān)鍵詞的信息檢索,已無法滿足讀者的查詢需求,這是由信息檢索查詢服務(wù)智能化水平降低、共享程度低導(dǎo)致的。為了解決這個(gè)問題,在原有的基礎(chǔ)上,從知識(shí)層次檢索信息,從語義角度理解用戶的查詢請(qǐng)求,分析信息檢索過程。大數(shù)據(jù)分析技術(shù)的數(shù)字圖書館信息檢索模型是通過分析符合用戶需求的信息集合,處理檢索需求的。希望本次研究成果可以應(yīng)用于數(shù)字圖書館檢索領(lǐng)域,實(shí)現(xiàn)語義信息檢索。
1? 數(shù)字圖書館信息領(lǐng)域本體構(gòu)建
利用大數(shù)據(jù)分析技術(shù)構(gòu)建領(lǐng)域本體,再到知識(shí)庫中,搜索用戶需要檢索的信息[2]。當(dāng)用戶輸入查詢請(qǐng)求時(shí),推理機(jī)會(huì)在領(lǐng)域本體的基礎(chǔ)上語義推理輸入的關(guān)鍵詞或者語句,形成邏輯表達(dá)式,上傳到檢索系統(tǒng)。在檢索時(shí)還需要采用RDF等工具描述實(shí)例推理,依據(jù)推理規(guī)則,由系統(tǒng)程序員根據(jù)具體情況創(chuàng)建規(guī)則。最后,從數(shù)字圖書館的信息資源中搜索出符合用戶需求的相關(guān)文獻(xiàn)資源。
但由于領(lǐng)域本體的類型不同,需要按照本體開發(fā)的層次構(gòu)建領(lǐng)域本體[3]。具體構(gòu)建方法如下:
1) 使用單本體方法,說明全局本體提供的共享詞匯集,所有的信息源必須要與全局本體發(fā)生聯(lián)系,保證語義的一致性。單本體結(jié)構(gòu)如圖1所示。
當(dāng)需要映射某一特定領(lǐng)域時(shí),可采用該方法,前提是單本體不會(huì)受信息源變化的影響[4]。
2) 使用多本體方法,描述不同信息源,并使每個(gè)本體都擁有自己的詞匯集[5]。多本體結(jié)構(gòu)如圖2所示。由圖2可知,當(dāng)信息源發(fā)生變化時(shí),本體結(jié)構(gòu)改動(dòng)較小,這也是多本體方法的優(yōu)勢(shì)所在[6]。
根據(jù)領(lǐng)域本體的需求,選擇合適的分類方法,準(zhǔn)確地從數(shù)字圖書館的信息資源中搜索出符合用戶需求的相關(guān)文獻(xiàn)。
2? 數(shù)字圖書館信息用戶查詢信息處理
在構(gòu)建領(lǐng)域本體后,需要處理用戶查詢信息,采用統(tǒng)一模式解析文本形式,存儲(chǔ)到文檔數(shù)據(jù)庫。在MARC標(biāo)準(zhǔn)下,根據(jù)數(shù)字化文檔元數(shù)的規(guī)范定義提取文檔數(shù)據(jù)庫中的文檔信息[7]。為方便數(shù)據(jù)共享,采用XML提取元數(shù)據(jù)組織存儲(chǔ)到元數(shù)據(jù)庫。具體提取過程如圖3所示。
依據(jù)MARC元數(shù)據(jù)提取標(biāo)準(zhǔn),提取各類數(shù)據(jù)庫信息,再細(xì)化,實(shí)現(xiàn)文檔信息元數(shù)據(jù)提取[8]。但因XML不具備語義描述能力,需構(gòu)建概念模型,描述兩者之間的關(guān)系。
在完成上述工作后,利用語義字典和主體詞表等工具簡(jiǎn)化程序,減少創(chuàng)建元數(shù)據(jù)的工作量。
3? 數(shù)字圖書館信息檢索
先構(gòu)建領(lǐng)域本體,再處理用戶查詢信息,在此基礎(chǔ)上構(gòu)建數(shù)字圖書館信息檢索模型,具體實(shí)現(xiàn)步驟如下:
Step1:應(yīng)用智能算法處理上下文單詞,計(jì)算候選術(shù)語的出現(xiàn)頻率、候選術(shù)語長(zhǎng)度、候選術(shù)語出現(xiàn)次數(shù)總和,計(jì)算公式如下:
式中:[C?Value]表示智能算法;[a]表示候選字符串;[log]表示字符串長(zhǎng)度;[f]表示出現(xiàn)頻率[9]。
在運(yùn)用智能算法抽取術(shù)語時(shí),要先計(jì)算[C]?Value值,再構(gòu)建詞性過濾規(guī)則,搜索符合詞性過濾規(guī)則的術(shù)語[10]。
Step2:在獲得候選術(shù)語列表后,需要計(jì)算可接受的精度,應(yīng)用智能算法NC?Value計(jì)算一個(gè)上下文加權(quán)因子的權(quán)重,計(jì)算公式如下:
式中:[w]表示上下文中的詞匯;[t(w)]表示術(shù)語數(shù)目;[n]表示所有術(shù)語總數(shù);[weight(w)]表示上下文加權(quán)因子[11]。
Step3:在此基礎(chǔ)上構(gòu)建數(shù)字圖書館信息檢索模型層次架構(gòu),見表1。
以下是模型層次解析:
第一層:應(yīng)用層是基于互聯(lián)網(wǎng)的入口集合,結(jié)合了人工智能服務(wù)的特點(diǎn),方便用戶在各功能界面獲取信息[12]。
第二層:服務(wù)層,模型的核心部分。主要負(fù)責(zé)智能信息檢索服務(wù)和個(gè)性化信息推送服務(wù)。
第三層:支持層,是數(shù)字圖書館信息檢索平臺(tái)的引擎部分。主要負(fù)責(zé)采集信息、檢索業(yè)務(wù)、分類信息、存儲(chǔ)信息[13]。
第四層:資源層,是整個(gè)數(shù)字圖書館自身數(shù)據(jù)庫的支撐。
大數(shù)據(jù)分析技術(shù)的數(shù)字圖書館信息檢索模型如圖4所示。
圖4模型是依據(jù)概念語義檢索原理完成的,具體檢索流程如下:
首先,運(yùn)用概念檢索技術(shù),在領(lǐng)域?qū)<业膸椭?,?gòu)建領(lǐng)域本體[14];其次,在MARC元數(shù)據(jù)標(biāo)準(zhǔn)下,利用大數(shù)據(jù)分析技術(shù)收集信息源中的數(shù)據(jù),并建立元數(shù)據(jù)存儲(chǔ)到元數(shù)據(jù)庫;再對(duì)檢索界面提交查詢請(qǐng)求,處理檢索需求;最后,排序領(lǐng)域本體的語義相似度,相似度大的靠前,排序后提交給用戶[15]。
由此,完成大數(shù)據(jù)分析技術(shù)的數(shù)字圖書館信息檢索模型的設(shè)計(jì)。
4? 仿真實(shí)驗(yàn)結(jié)果與分析
為驗(yàn)證所建的大數(shù)據(jù)分析技術(shù)的數(shù)字圖書館信息檢索模型的可行性,將與SaaS領(lǐng)域相關(guān)的600篇文本作為前景語料,主要涉及新聞和文化等領(lǐng)域。為保證實(shí)驗(yàn)具有說明性,分別檢測(cè)傳統(tǒng)檢索模型和所建模型的檢索匹配結(jié)果是否能夠獲得效果非常好的準(zhǔn)確率、召回率和平均權(quán)重值。表2和表3分別為所建模型和傳統(tǒng)檢索模型檢索SaaS領(lǐng)域中經(jīng)常使用的15個(gè)檢索詞的準(zhǔn)確率、召回率和平均權(quán)重值的結(jié)果。
通過分析表2和表3可知:使用大數(shù)據(jù)分析技術(shù)的數(shù)字圖書館信息檢索模型對(duì)這15個(gè)檢索詞檢索時(shí),獲得了效果非常好的準(zhǔn)確率、召回率、平均權(quán)重值,由此說明所建模型相比傳統(tǒng)模型檢索匹配結(jié)果更好??偨Y(jié)使用該模型檢索結(jié)果較好的原因:一方面,與查詢SaaS領(lǐng)域有關(guān),使得抽取的檢索準(zhǔn)確率較高;另一方面,與檢索角度有關(guān),使用本次設(shè)計(jì)的檢索模型檢索時(shí),先語義化處理這些檢索詞,計(jì)算每個(gè)數(shù)字圖書館信息的相關(guān)索引。
5? 結(jié)? 語
針對(duì)傳統(tǒng)數(shù)字圖書館信息檢索模型存在的問題,本文提出一種新的模型。大數(shù)據(jù)分析技術(shù)的數(shù)字圖書館信息檢索模型提供了共享平臺(tái),相對(duì)傳統(tǒng)模型的優(yōu)勢(shì)在于,大數(shù)據(jù)分析技術(shù)具有廣闊的應(yīng)用前景,可以構(gòu)建個(gè)性化信息推薦和智能信息檢索模型。該模型從檢索的視角出發(fā),構(gòu)建了數(shù)字圖書館信息檢索框架,希望本次設(shè)計(jì)能夠?yàn)閿?shù)字圖書館開展面向用戶的信息檢索提供參考。
參考文獻(xiàn)
[1] 吳丹,程磊.信息組織與檢索的研究熱點(diǎn)與動(dòng)向:語義、交互與社群[J].圖書情報(bào)知識(shí),2017,21(4):4?12.
[2] 張小英.Web集成信息檢索在數(shù)字圖書館中的應(yīng)用研究[J].價(jià)值工程,2017,36(29):202?204.
[3] 李莉.基于多Agent技術(shù)的數(shù)字圖書館個(gè)性化信息服務(wù)檢索模型研究[J].情報(bào)科學(xué),2018,36(5):90?93.
[4] 谷參.基于分布式結(jié)構(gòu)的圖書館信息檢索服務(wù)系統(tǒng)研究[J].現(xiàn)代電子技術(shù),2017,40(1):83?85.
[5] 江小燕,王明輝.基于本體的PPP項(xiàng)目風(fēng)險(xiǎn)信息建模與檢索[J].土木工程與管理學(xué)報(bào),2018,35(1):66?72.
[6] 韓永青.基于BIBFRAME模型實(shí)體:關(guān)系映射法的館藏學(xué)科資源語義化機(jī)制及實(shí)現(xiàn):以“信息檢索”學(xué)科為例[J].圖書館雜志,2017(9):35?41.
[7] 何旭峰,陳嶺.基于LDA主題模型的分布式信息檢索集合選擇方法[J].中文信息學(xué)報(bào),2017,31(3):125?133.
[8] 賈賀,艾中良.基于Solr的司法大數(shù)據(jù)檢索模型研究與實(shí)現(xiàn)[J].計(jì)算機(jī)工程與應(yīng)用,2017,53(20):249?253.
[9] 劉激.基于大數(shù)據(jù)的高校圖書館服務(wù)轉(zhuǎn)型探究[J].江蘇科技信息,2017(25):10?12.
[10] 劉東波,黃惠勇.基于中醫(yī)藥領(lǐng)域本體的信息檢索模型研究[J].湖南中醫(yī)藥大學(xué)學(xué)報(bào),2017,37(2):220?224.
[11] 趙謙,荊琪.一種基于語義與句法結(jié)構(gòu)的短文本相似度計(jì)算方法[J].計(jì)算機(jī)工程與科學(xué),2018,40(7):1287?1294.
[12] 王志宏,楊震.大數(shù)據(jù)分析技術(shù)研究及未來智能化信息服務(wù)體系的思考[J].電信科學(xué),2017,33(5):1?11.
[13] 謝蓉,劉煒.數(shù)字學(xué)術(shù)與公眾科學(xué):數(shù)字圖書館新生態(tài):第十三屆數(shù)字圖書館前沿問題研討班會(huì)議綜述和思考[J].大學(xué)圖書館學(xué)報(bào),2017,35(1):6?10.
[14] 齊云飛,趙宇翔.基于BIBFRAME的數(shù)字圖書館語義搜索框架研究[J].圖書與情報(bào),2017,23(1):74?81.
[15] 張紅斌,殷依.基于詞序列拼積木模型的圖像句子標(biāo)注研究[J].北京理工大學(xué)學(xué)報(bào),2017,37(11):1144?1149.