丁泉?jiǎng)?,戴哲明,姜?/p>
(中國(guó)電子科技集團(tuán)公司第三十二研究所,上海 200233)
基于概念擴(kuò)展的文獻(xiàn)檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
文獻(xiàn)檢索;檢索優(yōu)化;概念網(wǎng)絡(luò);概念相似度;概念擴(kuò)展;系統(tǒng)設(shè)計(jì)
文獻(xiàn)檢索系統(tǒng)能夠根據(jù)用戶信息需求,快速定位文獻(xiàn),提高文獻(xiàn)獲取效率,因此伴隨著文獻(xiàn)數(shù)量量爆發(fā)式增長(zhǎng),文獻(xiàn)檢索系統(tǒng)的重要性不斷提高。文獻(xiàn)檢索系統(tǒng)的是基于關(guān)鍵詞進(jìn)行檢索的,一個(gè)常規(guī)的檢索流程是:用戶首先將檢索需求轉(zhuǎn)化為為一組關(guān)鍵詞輸入檢索系統(tǒng);接著信息檢索系統(tǒng)將輸入的關(guān)鍵詞組與文獻(xiàn)集合里的每一篇文獻(xiàn)進(jìn)行相關(guān)度計(jì)算;最后檢索系統(tǒng)按照每篇文獻(xiàn)的相關(guān)度由高到低排序,返回檢索結(jié)果。在這個(gè)流程中,文獻(xiàn)需求到關(guān)鍵詞的轉(zhuǎn)化至關(guān)重要,這決定了檢索結(jié)果能否覆蓋到檢索需求。從檢索需求中提取的關(guān)鍵詞往往只有其外在的表現(xiàn)形式,而非全部概念,因此,本文在傳統(tǒng)的文獻(xiàn)檢索的基礎(chǔ)上,引入概念擴(kuò)展功能,通過(guò)多次和用戶交互,幫助用戶提煉檢索需求中的概念,豐富關(guān)鍵詞組,進(jìn)而提高檢索效果。
基于概念擴(kuò)展的文獻(xiàn)檢索系統(tǒng)主要由文獻(xiàn)采集代理、檢索引擎、概念引擎這三部分構(gòu)成,如圖1所示。其工作思想主要是:文獻(xiàn)采集代理對(duì)文獻(xiàn)服務(wù)器中的文獻(xiàn)進(jìn)行自動(dòng)采集和內(nèi)容獲取,將獲取的內(nèi)容發(fā)送到檢索引擎,由檢索引擎的索引模塊完成對(duì)內(nèi)容的分析和索引;對(duì)于用戶的檢索請(qǐng)求,將同時(shí)由檢索引擎和概念引擎進(jìn)行處理,檢索引擎將根據(jù)用戶輸入的關(guān)鍵詞,按照相關(guān)度排序返回檢索到的文獻(xiàn),而概念引擎將根據(jù)關(guān)鍵詞,從概念庫(kù)中查詢出相關(guān)的概念,反饋給用戶,使用戶能夠以這些概念作為關(guān)鍵詞再次查詢,從而進(jìn)一步滿足用戶的檢索需求。
圖1 基于概念擴(kuò)展的文獻(xiàn)檢索系統(tǒng)體系結(jié)構(gòu)圖
概念擴(kuò)展是通過(guò)將關(guān)鍵詞和概念庫(kù)中的概念進(jìn)行概念匹配實(shí)現(xiàn)的,因此概念庫(kù)是實(shí)現(xiàn)概念擴(kuò)展的基礎(chǔ)。在基于概念擴(kuò)展的文獻(xiàn)檢索系統(tǒng)中,概念庫(kù)的實(shí)現(xiàn)形式是概念網(wǎng)絡(luò)。
2.1概念網(wǎng)絡(luò)構(gòu)建
概念網(wǎng)絡(luò)是一個(gè)帶標(biāo)識(shí)的有向圖,其中節(jié)點(diǎn)表示概念,有向邊表示概念之間的關(guān)系概念與概念之間的關(guān)系一共有三種:子類、實(shí)例、屬性。本文選用軍事領(lǐng)域來(lái)構(gòu)建概念網(wǎng)絡(luò),如圖2所示:槍具有扳機(jī)、槍管、槍托這幾個(gè)屬性;自動(dòng)步槍、手槍是槍的子類;自動(dòng)步槍有AK47、M4,手槍有54式這些實(shí)例。
圖2 槍械概念網(wǎng)絡(luò)示意圖
構(gòu)建領(lǐng)域的概念網(wǎng)絡(luò)是一個(gè)復(fù)雜的工作,通常需要有檢驗(yàn)的領(lǐng)域?qū)<依脤iT的工具進(jìn)行構(gòu)建。在基于概念擴(kuò)展的文獻(xiàn)檢索系統(tǒng)中,利用在線百科網(wǎng)頁(yè)這一知識(shí)來(lái)源實(shí)現(xiàn)了自動(dòng)化構(gòu)建概念網(wǎng)絡(luò)。本文選取的百科網(wǎng)頁(yè)是百度百科,百度百科的知識(shí)具有權(quán)威性和全面性,且能夠動(dòng)態(tài)更新,同時(shí),百度百科的網(wǎng)頁(yè)結(jié)構(gòu)清晰,方便概念和概念間關(guān)系的抽取。概念網(wǎng)絡(luò)的自動(dòng)構(gòu)建流程如下:網(wǎng)頁(yè)獲取和預(yù)處理、概念抽取、概念關(guān)系抽取、形式化表示,生成概念網(wǎng)絡(luò),其體系結(jié)構(gòu)如圖3所示。
2.2概念網(wǎng)絡(luò)形似度計(jì)算
基于構(gòu)建完成的概念網(wǎng)絡(luò),概念引擎通過(guò)計(jì)算關(guān)鍵詞和概念庫(kù)中概念的相似度,完成對(duì)關(guān)鍵詞的概念擴(kuò)展。概念間的相似度有嚴(yán)格的數(shù)學(xué)定義[2]:
用sim(x,y)表示兩個(gè)概念x、y之間的相似度值,形式上,相似度計(jì)算應(yīng)當(dāng)滿足以下條件:
(1)語(yǔ)義相似度的值為[0,1]區(qū)間中的一個(gè)實(shí)數(shù),即sim(x,y)∈[0,1];
(2)如果兩個(gè)概念對(duì)象是完全相似的,則語(yǔ)義相似度值為1,即sim(x,y)=1時(shí)當(dāng)且僅當(dāng)x=y;
(3)如果兩個(gè)概念對(duì)象之間沒(méi)有任何共同特征或者概念對(duì)象之間相互獨(dú)立,那么其語(yǔ)義相似度值為0,即sim(x,y)=0;
(4)相似關(guān)系滿足對(duì)稱性,即sim(x,y)=sim(y,x)。
圖3 概念網(wǎng)絡(luò)的自動(dòng)構(gòu)建流程
在計(jì)算概念相似度時(shí),綜合考慮計(jì)算代價(jià)和實(shí)際應(yīng)用效果,本文采用了基于權(quán)重的最短路徑法[3]進(jìn)行計(jì)算。該算法是一種基于距離的語(yǔ)義相似度計(jì)算方法,它擴(kuò)展了最短路徑法[4],考慮了概念的位置信息(所在深度和所處區(qū)域的密度)和邊所表征的關(guān)聯(lián)強(qiáng)度,通過(guò)將組成兩個(gè)概念詞連通路徑的各個(gè)邊的權(quán)值相加,而不是簡(jiǎn)單統(tǒng)計(jì)兩個(gè)概念詞間邊的數(shù)量,來(lái)計(jì)算兩個(gè)概念詞的距離?;跈?quán)重的概念相似度計(jì)算方法如式(1)所示:
其中,N1和N2分別表示概念x,y與最近公共父節(jié)點(diǎn)概念c之間的距離,H表示c到根節(jié)點(diǎn)的最短距離。
2.3概念擴(kuò)展
用戶在進(jìn)行關(guān)鍵詞檢索時(shí),檢索引擎會(huì)根據(jù)關(guān)鍵詞對(duì)文獻(xiàn)庫(kù)中的文獻(xiàn)進(jìn)行相似度分析,反饋給用戶最相似的若干文獻(xiàn);同時(shí)概念引擎會(huì)通過(guò)2.2中算法根據(jù)計(jì)算出的相似度值從高到低對(duì)與關(guān)鍵詞相似的概念進(jìn)行排序并反饋給用戶。例如關(guān)鍵詞是“槍”,系統(tǒng)會(huì)在文獻(xiàn)庫(kù)中檢索與槍相關(guān)的文獻(xiàn),并進(jìn)行相似度計(jì)算和排序;同時(shí),根據(jù)關(guān)鍵詞計(jì)算最相似的概念并取前5個(gè),用戶將得到關(guān)鍵詞擴(kuò)展的概念分別為“步槍”、“手槍”、“自動(dòng)步槍”、“AK47”,和“M4”,用戶能夠利用這些概念進(jìn)一步提煉自己的檢索需求,經(jīng)過(guò)多次迭代交互,最終找到自己所需要的文獻(xiàn)。
本文對(duì)基于概念擴(kuò)展的文獻(xiàn)檢索系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn)進(jìn)行簡(jiǎn)單介紹。針對(duì)特定的領(lǐng)域,該系統(tǒng)以百科網(wǎng)頁(yè)為數(shù)據(jù)源,采用自動(dòng)化的方式構(gòu)建了概念網(wǎng)絡(luò)庫(kù)?;诟拍罹W(wǎng)絡(luò)庫(kù),該系統(tǒng)以概念擴(kuò)展的方式,在用戶利用關(guān)鍵詞檢索的同時(shí),通過(guò)將相似概念反饋給用戶,最大程度的幫助用戶提煉自己的檢索需求,提高用戶的檢索體驗(yàn)。
[1]李蕾.基于語(yǔ)義網(wǎng)絡(luò)的概念檢索研究與實(shí)現(xiàn)[J]1情報(bào)學(xué)報(bào),2000(5):525-5311.
[2]韓欣,秦帆.基于概念語(yǔ)義樹的語(yǔ)義相似度計(jì)算方法研究[J].Computer Knowledge and Technology.June 2011:3809-3810.
[3]Wu Z,Palmer M.Verb Semantics and Lexical Selection[C].In:Proceedings of the 32nd Annual Meeting of the Associations for Computational Linguistics,1994:133-138.
[4]An Information-Theoretic Definition of Similarity[EB/OL].[2007-12-20].http://www.cs.ualberta.ca/lindek/papers/sim.pdf
Literature Retrieval;Retrieval Optimization;Concept Network;Concept Similarity;Concept Extension;System Design
Design and Implementation of a Literature Retrieval System Based on Concept Extension
DING Quan-xun,DAI Zhe-ming,JIANG Xin
(The 32nd Research Institute of China Electronics Technology Group Corporation,Shanghai 200233)
1007-1423(2015)28-0052-03
10.3969/j.issn.1007-1423.2015.28.013
丁泉?jiǎng)?,戴哲明,姜?/p>
(中國(guó)電子科技集團(tuán)公司第三十二研究所,上海200233)
丁泉?jiǎng)祝?987-),男,江蘇泰州人,工程師,研究方向?yàn)橹悄苄畔z索
戴哲明(1978-),男,浙江富陽(yáng)人,碩士,高級(jí)工程師,研究方向?yàn)檐浖こ?/p>
姜鑫(1987-),男,江蘇淮安人,碩士,工程師,研究方向?yàn)樾畔z索
2015-09-08
2015-09-22
在文獻(xiàn)檢索系統(tǒng)中,檢索需求通過(guò)關(guān)鍵詞來(lái)描述,關(guān)鍵詞對(duì)檢索需求的覆蓋程度決定了檢索結(jié)果能否滿足檢索需求。為了改善檢索需求的提煉過(guò)程,提高關(guān)鍵詞對(duì)檢索需求的覆蓋程度,描述一種基于概念擴(kuò)展的文獻(xiàn)檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)。與傳統(tǒng)的文獻(xiàn)檢索系統(tǒng)相比,該系統(tǒng)具備關(guān)鍵詞概念擴(kuò)展的能力,該系統(tǒng)能夠基于百科網(wǎng)頁(yè)自動(dòng)構(gòu)建概念網(wǎng)絡(luò),通過(guò)概念相似度計(jì)算從概念網(wǎng)絡(luò)中選擇與關(guān)鍵詞最相近的概念進(jìn)行關(guān)鍵詞的概念擴(kuò)展,以此來(lái)改善檢索需求的提煉、提高對(duì)檢索需求的覆蓋,從而達(dá)到優(yōu)化檢索體驗(yàn)的目的。
In the literature retrieval system,the retrieval requirement is described by keyword,and the coverage of the retrieval requirement will de-termine whether the retrieval results can meet the needs of the search.In order to improve the extraction process and the coverage of re-trieval requirement,designs and implements a literature retrieval system based on concept extension.Compared with the traditional litera-ture retrieval system,the system has the ability to expand the keywords by using concept network.Aiming to improve the extraction pro-cess,the coverage of retrieval requirement as well as optimizing retrieval experience,the system can automatically construct the concept network based on the encyclopedias web page,extends keywords by selecting the concepts from concept network which are the most simi-lar to the keywords.