摘 要:針對無線網(wǎng)絡(luò)文獻檢索的智能化發(fā)展趨勢,將本體應(yīng)用到檢索中,結(jié)合應(yīng)用領(lǐng)域收集重點概念和關(guān)系,構(gòu)建領(lǐng)域本體。將本體與無線網(wǎng)絡(luò)文獻檢索相結(jié)合把內(nèi)容挖掘擴展到語義層次,相比傳統(tǒng)僅僅基于關(guān)鍵字的匹配方式具有更高的查準率和查全率。
關(guān)鍵詞:本體;文獻檢索;語義檢索
中圖分類號:TP391.3
隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,無線網(wǎng)絡(luò)的應(yīng)用已越來越廣泛,文獻檢索技術(shù)的應(yīng)用也不再局限于有線網(wǎng)絡(luò),智能化檢索技術(shù)開始應(yīng)用在無線網(wǎng)絡(luò)文獻檢索中。傳統(tǒng)的信息檢索技術(shù)基于關(guān)鍵字進行匹配,缺乏語義信息,容易造成信息的誤檢和漏檢。而本體為Web信息提供了語義表示機制,是實現(xiàn)語義Web和智能信息檢索的關(guān)鍵技術(shù)?;诒倔w的無線網(wǎng)絡(luò)文獻檢索可以實現(xiàn)更加方便高效的信息查詢和下載,查準率和查全率要高于傳統(tǒng)僅僅基于關(guān)鍵字的匹配方式。
1 本體的定義
1991年在人工智能界,Neches等人最早給出了本體(Ontology)的定義。后來在信息系統(tǒng)、知識系統(tǒng)等領(lǐng)域,越來越多的人開始研究本體并給出不同的定義,其中最著名的是由Gruber提出的:“本體是概念化的明確的規(guī)范說明”[1]。到1998年,Studer等人提出“Ontology是共享概念模型的明確的形式化規(guī)范說明”[2],成為目前對Ontology概念的統(tǒng)一看法。該定義包括概念化(conceptualization)、明確(explicit)、形式化(formal)和共享(share)四個主要方面。
2 技術(shù)路線
本研究充分借鑒軟件工程的研究思路,從需求分析到本體構(gòu)建、從確認評價到進化完善,參照軟件生命周期的實現(xiàn)過程進行基于本體的文獻檢索的研究。研究過程的流程圖如下圖所示:
圖1 項目總體流程圖
(1)需求分析。本研究以計算機專業(yè)術(shù)語為例,構(gòu)建領(lǐng)域本體,實現(xiàn)無線網(wǎng)絡(luò)文獻檢索,為使用者提高文獻檢索的準確率。
(2)實施本體建設(shè)。根據(jù)需求和計劃構(gòu)建本體。
1)領(lǐng)域信息的收集和分析。信息來源包括其它專家、書籍、網(wǎng)絡(luò)、甚至是其它的本體;2)重點概念和關(guān)系的確定。在充分了解領(lǐng)域知識之后,提出該領(lǐng)域中的重點概念和概念之間的關(guān)系。并用精準的術(shù)語表達出來,作為領(lǐng)域本體的核心概念集;3)建立本體框架。選出關(guān)鍵性術(shù)語,摒棄不必要或超出領(lǐng)域范圍的概念,盡可能準確而精簡的表達出領(lǐng)域知識,形成框架體系,得到領(lǐng)域本體的框架結(jié)構(gòu);4)形式化的編碼。用精準的術(shù)語表達出領(lǐng)域中的重點概念及關(guān)系,讓機器可以理解;5)確認與評價。檢查是否滿足了剛開始提出的需求,是否滿足本體的建立準則等。
(3)搭建信息檢索系統(tǒng)平臺,利用本體實現(xiàn)智能檢索。
3 本體建設(shè)
3.1 信息收集與分析
本系統(tǒng)以計算機組成原理課程為例,構(gòu)建課程核心術(shù)語表,實現(xiàn)領(lǐng)域本體。該本體描述了計算機組成原理課程的基本概念、核心術(shù)語及主要關(guān)系,并針對每個重要的知識點提供相應(yīng)的學(xué)習(xí)文獻。
圖2 計算機組成原理本體層次
3.2 本體構(gòu)建
本體構(gòu)建階段是整個系統(tǒng)中非常重要的一部分。在本體構(gòu)建過程中,參照W3C的XML、RDF、OWL等技術(shù)規(guī)范,探討和研究領(lǐng)域本體進化的方法,以及構(gòu)建后的本體在無線網(wǎng)絡(luò)信息檢索中的應(yīng)用,以提高檢索的查全率和查準率。構(gòu)建合理的領(lǐng)域本體,供參考的領(lǐng)域術(shù)語和相關(guān)領(lǐng)域研究人員的指導(dǎo)是必不可少的。本研究選擇計算機組成原理課程為對象,參考了影響力較大的多本計算機組成原理教材、計算機組成原理考研大綱和計算機硬件相關(guān)的文獻關(guān)鍵詞,使用本體構(gòu)建工具Protégé構(gòu)建了計算機組成原理本體,生成OWL文件,共包含專業(yè)術(shù)語132個。結(jié)合收集與分析所得的術(shù)語以及關(guān)系構(gòu)成語義元數(shù)據(jù)庫。
4 檢索平臺實現(xiàn)與測試
本研究的目的是驗證基于本體的檢索方法相比基于關(guān)鍵詞的檢索方法能更精確表達用戶的信息需求。在實現(xiàn)檢索平臺的基礎(chǔ)上針對系統(tǒng)研究之初設(shè)定的目標和本體構(gòu)建原則,對構(gòu)建的領(lǐng)域本體進行確認與評價。測試過程中,選取了計算機組成原理的3個術(shù)語進行檢索。從表1與表2的對比中可以看出,在基于本體的無線網(wǎng)絡(luò)文獻檢索系統(tǒng)中,根據(jù)語義和關(guān)系的檢索結(jié)果相比于傳統(tǒng)基于關(guān)鍵字的匹配方式具有更高的準確率和查全率。
表1 基于本體的文獻檢索
用戶輸入的檢索詞檢索概念查找文獻數(shù)
指令系統(tǒng)指令系統(tǒng)、指令集23
帶寬帶寬、吞吐率15
全寫法全寫法、寫直達法11
表2 基于關(guān)鍵字的文獻檢索
用戶輸入的檢索詞檢索概念查找文獻數(shù)
指令系統(tǒng)指令系統(tǒng)18
帶寬帶寬10
全寫法全寫法6
5 結(jié)束語
本文將本體與無線網(wǎng)絡(luò)文獻檢索相結(jié)合,針對基于關(guān)鍵詞進行匹配的檢索方法的局限性,提出語義檢索方式,把內(nèi)容挖掘擴展到語義層次。本研究通過抽取語義元數(shù)據(jù)和專家咨詢建立了文獻元數(shù)據(jù)和課程領(lǐng)域本體,使用戶在檢索時不僅能得到與檢索條件精確匹配的信息資源,還能查詢到與檢索條件具有語義相關(guān)、但在語法上并不精確匹配的隱含信息資源,從而強化了領(lǐng)域概念與文獻間的相關(guān)度,提高了文獻檢索的效率和準確性。在以后的工作中,需要對現(xiàn)有的研究成果進行改進和完善,將檢索平臺應(yīng)用到其他課程,構(gòu)建更加高效準確的學(xué)科領(lǐng)域檢索平臺。
參考文獻:
[1]Gruber T R.A Translation Approach to Portable Ontology Specifications.Knowledge Acquisition,1993(02):199-220.
[2]Studer Rudi,Richard Benjamins,Dieter Fensel.Knowledge engineering:principles and methods[J].Data and Knowledge Engineering,1998(1/2):161-197.
[3]孟紅偉,張志平,張曉丹.基于領(lǐng)域本體的文獻智能檢索模型研究[J].情報雜志,2013(09):180-184.
作者簡介:趙靜(1981-),女,山東青島人,碩士研究生,講師;房正華(1982-),女,山東青島人,碩士研究生,講師。
作者單位:青島工學(xué)院 信息工程學(xué)院,山東青島 266300
基金項目:本文為青島工學(xué)院校級科研項目“基于本體的教育信息化共享平臺研制”成果之一(項目編號:2012KY009)。