吳 芳 丁 玲 張 杰 劉金亮
摘要:網(wǎng)絡(luò)的發(fā)展和世界語言的多樣性使跨語言信息檢索(CLIR,Cross Language Information Retrieval)倍受關(guān)注。但用戶查詢與文檔用詞不匹配成為影響檢索效率的重要原因。為此,本文提出了一種基于領(lǐng)域本體的跨語言信息檢索模型,以解決傳統(tǒng)CLIR查詢效率低下的問題。
關(guān)鍵詞:智能信息檢索;查詢擴(kuò)展;本體
中圖分類號:G642 文獻(xiàn)標(biāo)識碼:B
1問題的提出
現(xiàn)代企業(yè)的國際化導(dǎo)致企業(yè)內(nèi)部存在多種語言,這使跨語言信息檢索CLIR(Cross Language Information Retrieval)備受關(guān)注,可是現(xiàn)存的跨語言信息檢索系統(tǒng)大多使用基于關(guān)鍵詞的單純字符匹配的檢索策略,只有當(dāng)查詢詞出現(xiàn)在文檔中時(shí),才有可能被找到,這種檢索系統(tǒng)無法提供基于概念的智能檢索。例如,用戶輸入查詢“trip”,可是包含“journey”和“travel”的文檔卻不能夠被檢索出來。由于大量同義詞和多義詞的存在,用戶查詢相關(guān)文檔時(shí)一些內(nèi)容由于用詞不同而無法被檢索出來,這種用詞不匹配問題是長期困擾并影響信息檢索效率的重要原因之一。
解決此問題的有效的方法是使用查詢擴(kuò)展策略。查詢擴(kuò)展是將用戶輸入的原始查詢請求經(jīng)過概念提取后,自動地根據(jù)用戶的語義,加入新的檢索詞或短語。最終的查詢請求是基于用戶原始查詢請求中關(guān)鍵詞的一系列同義詞及相關(guān)詞。經(jīng)過查詢擴(kuò)展后的系統(tǒng)具有很高的查詢效率。
要實(shí)現(xiàn)上面的智能查詢,查詢擴(kuò)展的構(gòu)造是非常關(guān)鍵的。當(dāng)前構(gòu)造查詢擴(kuò)展的方法大致有兩種:一種是基于語義詞典的方法,如WordNet;另外一種是基于統(tǒng)計(jì)的方法,如基于關(guān)聯(lián)共現(xiàn)頻率的統(tǒng)計(jì)方法。本文提出了一種基于雙語本體(Ontology)的跨語言查詢擴(kuò)展模型,利用領(lǐng)域本體在知識表示和知識描述方面的優(yōu)勢,實(shí)現(xiàn)基于概念的智能查詢擴(kuò)展。我們構(gòu)建了一個(gè)旅游領(lǐng)域的跨語言信息檢索模型,使用基于旅游領(lǐng)域本體對查詢進(jìn)行擴(kuò)展。結(jié)果表明采用基于本體的查詢擴(kuò)展方法能夠有效改善檢索的性能。
2相關(guān)概念和技術(shù)
(1)CLIR (Cross-Language Information Retrieval):用戶用某種語言(比如中文)表示的檢索條件,檢索由多種語言(比如中文、英文、德文、日文等)組成的文檔集,我們稱之為跨語言信息檢索。
(2) 本體:本體是共享概念模型的明確的形式化規(guī)范說明。這個(gè)定義包含了概念模型、形式化、明確、共享4層含義。概念模型,通過抽象出客觀世界中一些現(xiàn)象的相關(guān)概念而得到的模型,其表示的含義獨(dú)立于具體的環(huán)境狀態(tài);明確,所使用的概念及使用這些概念的約束都有明確的定義;形式化,Ontology是計(jì)算機(jī)可讀的;共享,Ontology中體現(xiàn)的是共同認(rèn)可的知識,反映的是相關(guān)領(lǐng)域中公認(rèn)的概念集,它所針對的是團(tuán)體而不是個(gè)體。
本體的目標(biāo)就是捕獲相關(guān)的領(lǐng)域知識,提供對該領(lǐng)域知識的共同理解,確定該領(lǐng)域內(nèi)共同認(rèn)可的詞匯,并從不同層次的形式化模式上給出這些詞匯和詞匯之間相互關(guān)系的明確定義,為基于知識的信息檢索提供基礎(chǔ)。
3系統(tǒng)結(jié)構(gòu)和實(shí)施
3.1模塊功能
我們實(shí)現(xiàn)的是一個(gè)關(guān)于旅游知識的智能跨語言搜索引擎,利用本體在知識表述和知識描述方面的優(yōu)勢,對查詢進(jìn)行擴(kuò)展,從而提高檢索的效率。模型主要由四大模塊組成:過濾模塊,翻譯模塊,查詢優(yōu)化模塊,和檢索模塊。下面將對各個(gè)模塊進(jìn)行介紹:
? 過濾模塊
過濾模塊的任務(wù)是對用戶的輸入進(jìn)行中文分詞,分詞后過濾掉無用詞,如“的”“呀”等,取出查詢的中心詞。過濾模塊由中國科學(xué)院的分詞系統(tǒng)ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System)改進(jìn)而來。先對用戶的輸入進(jìn)行分詞,然后過濾無用詞,取出中心詞。我們的智能檢索系統(tǒng)就把這些中心詞作為處理的對象。
? 翻譯模塊
跨語言信息檢索中,關(guān)鍵技術(shù)就是實(shí)現(xiàn)目標(biāo)語言和源語言的統(tǒng)一。在系統(tǒng)中我們使用的是提問翻譯策略,也就是將查詢提問中的源語言翻譯成目標(biāo)語言,然后再利用由目標(biāo)語言構(gòu)成的檢索去查找相關(guān)信息。我們采用的是基于專業(yè)詞典的翻譯方法。中心詞經(jīng)過翻譯模塊的翻譯后,把翻譯結(jié)果和原中心詞一并傳給語義模塊,接下來語義模塊對這些中心詞進(jìn)行語義處理。
? 查詢優(yōu)化模塊
查詢優(yōu)化模塊是整個(gè)系統(tǒng)的核心部分,在查詢優(yōu)化模塊中,我們利用本體良好的概念層次和對邏輯理解的支持,幫助信息搜索引擎對潛在的目標(biāo)對象進(jìn)行甄別和判斷,從而構(gòu)建智能化的搜索引擎。在這里,我們使用了英漢本體庫分別對中英文關(guān)鍵詞進(jìn)行擴(kuò)展。
使用斯坦福大學(xué)設(shè)計(jì)的protégé軟件來管理和維護(hù)本體知識庫,本體我們使用的是來自于http://protege. stanford.edu 的travel. owl,并把它翻譯為相應(yīng)的中文本體以供使用。同時(shí),我們使用惠普的開放資源Jena對本體進(jìn)行處理。Jena是創(chuàng)建語義應(yīng)用系統(tǒng)的java框架結(jié)構(gòu),為本體文件提供了一個(gè)程序開發(fā)環(huán)境。我們通過創(chuàng)建本體模型,對Ontology資源進(jìn)行處理。通過本體模型查找本體中的相關(guān)類,也就是用戶要查找的相關(guān)概念,找到這個(gè)相關(guān)類之后,再對其進(jìn)行語義化處理。
系統(tǒng)對相關(guān)類進(jìn)行語義化處理,考慮下面的情況:
① 相似類,即同義詞關(guān)系:概念與概念之間的意思相同或非常相近,往往可以相互替換,如計(jì)算機(jī)、電腦和PC。在模型中,我們需要提取相似類。
② 類的上下層關(guān)系:包括父類與子類的關(guān)系和類與其下的實(shí)例(Instance)的關(guān)系。如植物是生物的子類,菊花是植物的實(shí)例(Instance)。在模型中,我們需要提取下層子類。
③ Disjoint類:即類與類之間不可有共同的實(shí)例。例如,“植物”下的實(shí)例“菊花”,它要么屬于“植物”類,要么屬于“動物”類,不能夠同時(shí)屬于“植物”類和“動物”類。在這里“菊花”是“植物”類下的實(shí)例。在模型中,我們需要排除Disjoint類及其Disjoint類的實(shí)例。
④ 其次,如果用戶提出的查詢請求是詞組或者一句話,還要考慮其中各中心詞之間的語義關(guān)系。例如:用戶需要檢索旅游中的“非冒險(xiǎn)活動”,系統(tǒng)就需要在旅游活動中排除“冒險(xiǎn)性的活動”。
中心詞經(jīng)過語義擴(kuò)充后,被傳遞給檢索模塊,最后由檢索模塊完成檢索任務(wù)。如圖1所示。
? 檢索模塊
檢索模塊是由Lucene構(gòu)建的基于關(guān)鍵詞的全文檢索系統(tǒng),使用的是基于自動分詞的倒排索引原理。在檢索模塊里,lucene首先對文檔建立全文索引,然后對索引進(jìn)行檢索,返回給用戶查找的結(jié)果。
Ontology—CLIR的流程的第一步就是對用戶輸入的查詢語句進(jìn)行分詞,取出查詢中的中心詞,然后將它們傳遞給翻譯系統(tǒng)進(jìn)行翻譯,翻譯過后把翻譯結(jié)果(英文)和原分詞結(jié)果(中文)遞交給語義系統(tǒng);語義系統(tǒng)對這些檢索詞進(jìn)行擴(kuò)展后把它們交給檢索系統(tǒng),最后由檢索系統(tǒng)完成檢索。
我們使用領(lǐng)域Ontology中包含的領(lǐng)域?qū)I(yè)詞典對遞交過來的檢索詞進(jìn)行分析,將查詢請求Q1, 2,…n,分為兩個(gè)部分:一是在本體庫中所覆蓋到的關(guān)鍵詞O1, 2,…,n,二是不在本體庫中的其他單詞B1, 2,…,n。語義模塊開始在本體庫中查找到O1, 2,…,n的語義描述,為檢索模塊提供了比一般的CLIR方式更準(zhǔn)確豐富的信息內(nèi)容,然后把語義描述交給檢索模塊得到檢索結(jié)果Result1。B1, 2,…,n則直接被傳遞給檢索模塊,得到檢索結(jié)Result2,最后返回給用戶結(jié)果是Result1與Result2的和。
3.2基于語義模型的主要檢索算法描述
輸入:查詢請求Q
輸出檢索的結(jié)果:Result
Begin //算法開始
Result={ } //清空
Result1={ } //清空
Result2={ } //清空
//分詞和翻譯
Begin
1.分詞,取出中心詞;
2.中心詞分類,屬于本體的置于O,不屬于本體的置入B;
3.對O進(jìn)行語義獲取(解析子類、Instances,排除disjoints classes等);對B只進(jìn)行翻譯;
End;
//使用本體進(jìn)行查詢擴(kuò)展后(即語義獲取),將擴(kuò)展結(jié)果置入O;
//對每一個(gè)檢索對象進(jìn)行下面操作
Begin
1.使用本體進(jìn)行查詢擴(kuò)展;
2.若O不為空,則使用O進(jìn)行全文檢索,得結(jié)果集Result1;
3.若B不為空,則直接使用B進(jìn)行全文檢索,得結(jié)果集Result2;
4.Result=Result1+Result2;
End;
End;//算法結(jié)束
4系統(tǒng)性能測試
為了檢測出這種基于本體的智能檢索方法的有效性,我們進(jìn)行了相關(guān)的實(shí)驗(yàn)。檢索資料來自于新浪或雅虎的關(guān)于旅游的相關(guān)文章,共 97 篇。兩個(gè)搜索引擎:智能CLIR和傳統(tǒng)CLIR,傳統(tǒng)搜索引擎由Lucene構(gòu)建,采用的是基于專業(yè)旅游詞典的翻譯策略。智能搜索引擎在傳統(tǒng)搜索引擎的基礎(chǔ)上由OWL本體擴(kuò)展而構(gòu)建。我們的檢索領(lǐng)域是關(guān)于旅游出游的相關(guān)知識。
平均查準(zhǔn)率/查全率曲線是評價(jià)一個(gè)檢索算法的有效方法。我們?nèi)∽銐蚨嗟牟樵儗?shí)例,并得出他們的查全/查準(zhǔn)率曲線,依次求某查全率下這些查詢實(shí)例的查詢率的平均值,就得出了圖2所示的平均查全率/查準(zhǔn)率曲線圖:
可以看出,通過使用查詢擴(kuò)展,查全率得到了明顯的提高,但需要注意的是,一味追求查全率的提高,可能會降低系統(tǒng)的查準(zhǔn)率,如何找到一個(gè)兩者兼顧的平衡值,是我們下一步需要研究的問題。
5總結(jié)
本文在傳統(tǒng)CLIR的基礎(chǔ)上提出了一種基于本體查詢擴(kuò)展搜索引擎模型,此模型克服了傳統(tǒng)方法在效率、知識表示方面的不足,有效地提高了知識的獲取效率,并且可以應(yīng)用到各個(gè)不同的專業(yè)領(lǐng)域,具有很好的通用性和擴(kuò)充性。但當(dāng)本體庫非常龐大的時(shí)候,需要采取一定的策略控制查詢擴(kuò)展的程度以保證系統(tǒng)的查準(zhǔn)率,這也是我們下一步需要完成的工作。
參考文獻(xiàn):
[1]Wu, F., Wu, G., Fu, X ., 2007, in IFIP International Federation for Information Processing, Volume 254,Research and Practical Issues of Enterprise Information Systems Ⅱ Volume Ⅰ, eds.L.Xu, Tjoa A., Chaudhry S.(Boston: Springer), 293-298.
[2] 王昊. 跨語言信息檢索實(shí)現(xiàn)方法與關(guān)鍵技術(shù)探討[J]. 情報(bào)檢索,2005(7).
[3] 王妙婭,賴茂生. 跨語言信息檢索中的詢問翻譯方法及其研究進(jìn)展[J]. 現(xiàn)代圖書情報(bào)技術(shù),2005(4):37-41.
[4] 王進(jìn),陳恩紅,張振亞,等. 基于本體的跨語言信息檢索模型[J]. 中文信息學(xué)報(bào),2004(3):1-8.