李貫峰,李衛(wèi)軍
(1.寧夏大學 信息工程學院,寧夏 銀川 750021;2.北方民族大學 網(wǎng)絡信息技術中心,寧夏 銀川 750021)
一個基于枸杞病蟲害領域本體的語義檢索模型
李貫峰1,李衛(wèi)軍2
(1.寧夏大學 信息工程學院,寧夏 銀川 750021;2.北方民族大學 網(wǎng)絡信息技術中心,寧夏 銀川 750021)
由于缺少信息在語義上的處理和表示,傳統(tǒng)的以關鍵字和主題詞為檢索途徑的信息檢索方法會導致檢索結果不全面和不準確,無法完全滿足用戶的檢索要求。為了提升檢索系統(tǒng)的檢索質(zhì)量,將本體引入至語義檢索過程中,提出了一種基于枸杞病蟲害領域本體的語義檢索模型,并對模型涉及的一些關鍵技術進行了研究。該模型構建了枸杞病蟲害領域本體,并修復了本體不一致問題,確保領域知識能準確的組織和表示,利用本體固有的樹形結構,結合語義距離、上下位概念重合度及概念節(jié)點層次深度等影響語義相似度計算的因素,提出了一個概念相似度算法,結合所建立的語義推理規(guī)則,構建了基于枸杞病蟲害領域本體的查詢與檢索模型。實驗結果表明,該語義檢索模型能較好地彌補傳統(tǒng)檢索方式的不足,提高信息檢索的查全率和查準率。
本體;枸杞病蟲害;不一致性檢測;語義相似度;語義檢索
寧夏枸杞自古享譽中外,是寧夏最具潛力的優(yōu)勢特色產(chǎn)業(yè)之一。目前,寧夏枸杞種植面積85萬畝,枸杞干果總量達到13萬噸,約占全國總產(chǎn)量的55%,年綜合產(chǎn)值超過80億元,是寧夏第一大出口農(nóng)產(chǎn)品。在枸杞栽植和生產(chǎn)過程中,枸杞病蟲害問題一直是寧夏枸杞產(chǎn)業(yè)發(fā)展的主要問題。隨著信息技術與互聯(lián)網(wǎng)技術的迅速發(fā)展,如何準確全面地獲取枸杞病蟲害信息資源,是目前枸杞產(chǎn)業(yè)信息服務中一個亟待解決的問題。傳統(tǒng)以關鍵字、主題詞等字符串匹配原理為核心的信息資源檢索方法由于缺少在語義層面上的處理和表示,用戶輸入的檢索內(nèi)容與信息資源庫中的目標內(nèi)容不相匹配,不能從根本上解決用戶查詢意圖與檢索資源之間的語義匹配問題,造成了檢索結果的不全面、不準確,甚至系統(tǒng)無法返回符合用戶需要的檢索結果,從而影響檢索結果的客觀性。
本體(Ontology)是一種描述概念以及概念間關系的知識建模工具。本體具有良好的概念層次結構和對邏輯推理的支持,因而將本體引入信息檢索系統(tǒng)中,能夠為改進信息檢索性能提供組織形式和語義上的保證[1]。一方面本體提供了對概念的語義支持,保留了概念之間的語義關系,從而實現(xiàn)基于語義理解的智能檢索;另一方面引入了推理機制,本體通過屬性和公理描述概念之間的邏輯關系和設計的推理規(guī)則實現(xiàn)推理,從而實現(xiàn)隱含知識的發(fā)現(xiàn)。
近年來,以本體為知識模型的語義檢索技術已成為一個研究熱點,國內(nèi)外學者開展了大量的研究工作[2]。文獻[3]為提高多式信息檢索系統(tǒng)的性能,利用醫(yī)學本體擴展了用戶檢索關鍵詞;文獻[4]提出了一種基于領域本體的混合查詢方法,利用查詢重寫和推理的方法處理動態(tài)和靜態(tài)的知識,實現(xiàn)了有效的知識檢索;文獻[5]提出了面向領域本體的查詢擴展模型,總結出了5種應用于語義檢索系統(tǒng)中的查詢擴展方法;文獻[6]借助所建立的新聞領域本體和啟發(fā)式規(guī)則,提出了一種語義檢索方法,獲得了較高的查準率;文獻[7-8]主要研究了基于距離、內(nèi)容和屬性的相似度計算方法,用于計算領域本體的概念相似度。
雖然基于本體的語義檢索方法取得了一定的進展,但是大多數(shù)方法是利用本體進行關鍵字的語義擴展查詢,忽略了屬性和實例等語義關系及應用程序層面的本體建立。此外,沒有充分利用本體的推理功能,以發(fā)現(xiàn)本體中概念和實例之間隱含的語義關聯(lián),弱化了檢索效果。針對上述問題,需要在基于本體的語義檢索中建立新的語義檢索模型,并通過引入推理來發(fā)現(xiàn)隱含的語義關聯(lián)。為此,利用農(nóng)業(yè)領域本體中概念之間的語義聯(lián)系和結構差異,結合語義推理和語義相似度,提出了一種基于本體的農(nóng)業(yè)領域語義查詢模型,是對傳統(tǒng)的語義檢索的補充和提升。
1.1本體的構建
農(nóng)業(yè)本體是農(nóng)業(yè)領域中概念、概念間的相互關系以機器能理解的形式化語言表示和組織農(nóng)業(yè)知識的模型。從本質(zhì)上說,本體是一個客觀事實的集合,而這些集合是實現(xiàn)語義信息檢索的基礎。本體的構建是一項復雜的系統(tǒng)工程,目前沒有統(tǒng)一的本體構建的方法和規(guī)則。Gruber提出本體構建的5個原則,即本體的定義具備清晰性、完整性、一致性、最大單向可擴展性和最小編碼相關性[9]。對于領域本體的構建,還應遵循標準化建設原則、本體的復用原則、協(xié)作原則和評建結合的原則。借鑒相關構建本體的方法[10],依據(jù)農(nóng)業(yè)領域知識的特點,給出農(nóng)業(yè)本體構建流程,如圖1所示。
圖1 農(nóng)業(yè)領域本體構建方法流程
根據(jù)上述的構建步驟,在學習了很多相關枸杞病蟲害書籍和大量文獻資料的基礎上,結合枸杞病蟲害領域專家建議,以寧夏地區(qū)常見的枸杞蚜蟲、枸杞紅癭蚊、枸杞癭螨等51種枸杞害蟲和根腐病、炭疽病、白粉病等15種枸杞病害為研究對象,以診斷和防治為研究目標,抽取領域中的重要概念、屬性及實例,用Protégé工具構建了一個枸杞病蟲害本體。本體的類結構如圖2所示,共計37個本體類,基本涵蓋了實際生產(chǎn)中主要的枸杞病蟲害種類。該本體中有7個數(shù)據(jù)屬性和12個一級對象屬性用于描述枸杞病蟲害的基本信息,包括51個害蟲實例,15個病害實例及其他類的實例。
圖2 枸杞病蟲害本體類關系模型
1.2本體一致性檢測推理
本體構建后手動添加本體或本體合并難免會出現(xiàn)本體不一致,當概念相似度的計算基于本體的一致性時,語義檢索才有意義。因此研究如何處理本體的不一致很有必要[11]。推理是計算機對本體知識理解的一種重要表現(xiàn),利用本體推理可以獲取更準確的語義關系?;谝?guī)則的推理(rule-based reasoning)是一種將領域專家的專業(yè)知識和經(jīng)驗抽象成為推理規(guī)則的基于謂詞邏輯的產(chǎn)生式系統(tǒng)。該推理方法比較直觀,推理過程簡單,同時推理效率比較高,因此采用基于本體的規(guī)則推理方法來實現(xiàn)農(nóng)業(yè)本體推理。推理思路是首先要詳細分析一下領域本體的語義關系,接下來在本體知識庫中進行本體推理規(guī)則設計,制定規(guī)則庫,然后依靠推理機按照一定的推理算法從既有事實推理出隱含知識,并用于語義檢索。推理規(guī)則是實現(xiàn)語義檢索的關鍵技術之一,利用領域本體中的語義關系和語義性質(zhì),如互逆性、傳遞性等的邏輯特點,設計出有效的推理規(guī)則,以應用于推理過程。推理規(guī)則語法:
RuleName:T1,T2,…,Tn→P
其中,RuleName為規(guī)則名;Ti(i=1,2,…,n)為已經(jīng)存在的三元組知識;P為可以推導出的三元組知識。
在推理規(guī)則中,如果左邊前提知識為真,則可以得到右邊的結論知識。將本體的推理規(guī)則分為兩類:通用規(guī)則和領域規(guī)則。通用規(guī)則是指與領域無關的推理規(guī)則,即所有本體都要用到的規(guī)則。例如用于確定多概念間的父子關系的傳遞性規(guī)則定義如下:
(?c1,rdfs: subClassOf, ?p),(?p, rdfs: subClassOf, ?c2)→(?c1, rdfs:subClassOf,?c2)。
確定通用規(guī)則后,還需要考慮概念屬性的具體語義,將通用規(guī)則具體化,形成領域規(guī)則。領域規(guī)則是指與領域相關的規(guī)則,實例之間的關系類型取決于其所在領域,需要領域專家參與確定,是對通用規(guī)則的補充。例如,枸杞根腐病的癥狀為:枸杞病株葉片泛黃、萎垂;剖檢病株根、莖部,能夠看到患部變褐至黑褐色,部分皮層腐爛、脫落,露出木質(zhì)部,構建了相應的診斷推理規(guī)則,格式如下:
(?x,rdf:type, Wolfberry),(?y, rdf:type, Disease),(?z, rdf:type, Roots),(?y, harmsOn, ?z),(?z, hasColor,black brown),(?z, hasDS, rot),(?u, rdf:type, Leaf),(?y, harmsOn, ?u),(?u, hasColor, yellow),(?u, hasDS, sag),(?v, rdf:type, Branches),(?y, harmsOn, ?v),(?v, hasColor, brown),(?v, hasDS, Cortex fall off)→(?y, rdf:type, Ceitocybe bescens)。
其中,x、y、z、u、v分別為類Wolfberry(枸杞)、Disease(病害)、Roots(根部)、Leaf(葉片)、Branches(莖)的實例;harmsOn、hasColor、hasDS等為屬性關系。
目前,利用領域本體語義關系進行的推理主要是使用一些推理機來完成的,通過推理引擎去解析本體庫中的知識概念,運用推理機根據(jù)相應的概念和推理規(guī)則進行規(guī)則匹配,從而獲得新的知識概念。語義推理可分為前向鏈推理和后向鏈推理兩種方法[12],使用前向鏈推理算法,采用Jena作為推理機進行推理,利用其提供的DIG接口實現(xiàn)推理,推理過程如下:
(1)構建領域本體概念集合以及推理規(guī)則集合。
(2)從已知概念展開,根據(jù)需要來選擇用到的推理規(guī)則。
(3)若無規(guī)則匹配-觸發(fā)時,則推理終止;若出現(xiàn)多條推理規(guī)則,利用相關策略進行選擇。
(4)當有規(guī)則被觸發(fā)時,進行推理,并將新事實添加到概念集中。
(5)重復第(2)步。
在語義檢索過程中,為了獲取準確和全面的檢索結果,通常使用本體中的術語來表達用戶的檢索需求,判斷本體中的術語與用戶檢索條件在語義上的匹配程度,即需要計算術語間的相似度。語義相似度[13]是指兩個或兩個以上的不同概念間具有相近的特征。若有本體中的兩個概念ci和cj,它們之間的相似度用函數(shù)sim(ci,cj):S×S→[0,1]表示。目前的語義相似度計算方法主要是基于本體的概念,沒有綜合考慮影響術語間語義相似度的因素和充分利用本體結構知識的問題,不能滿足本體庫中語義相似度計算的需要。利用本體固有的樹形結構,結合語義距離、上下位概念重合度、概念節(jié)點層次深度等影響語義相似度計算的因素,建立一種新的基于本體的語義相似度計算模型,使之能夠滿足本體知識庫中語義相似度計算的需要。
(1)基于概念語義距離的語義相似度。
語義距離是度量本體中兩個概念在語義上的近義程度的方法,在本體樹結構中,通過計算兩個概念節(jié)點間的最短路徑來衡量語義距離。語義距離與語義相似度之間是一種簡單的反比關系。對于詞匯ci和cj,如果dis(ci,cj)為其語義距離,則語義相似度為:
(1)
其中,dis(ci,cj)=Sd(ci,LCA(ci,cj))+Sd(cj,LCA(ci,cj)),Sd(ci,cj)為概念節(jié)點ci和cj在本體樹中的最短距離,LCA(ci,cj)為ci和cj的最小共同祖先節(jié)點;α為一個可調(diào)節(jié)的參數(shù)。
(2)基于上位概念重合度的語義相似度。
上位概念重合度度量領域本體中兩個概念之間在語義上的重合程度,它指兩個概念相同的上位概念數(shù)量與所有的上位概念數(shù)量間的比率,顯示了兩個概念的祖先節(jié)點的相似度。上位概念重合度與語義相似度呈正比,兩個概念的上位概念越多,重合度就越大,相應的語義相似度越大,反之亦然。對于兩個概念ci和cj,N(ci)和N(cj)分別為概念ci和cj的上位概念集合,集合中元素的數(shù)量與本體樹結構中節(jié)點ci和cj與根節(jié)點“Thing”的最短路徑中所包含的節(jié)點數(shù)相等。N(ci)∩N(cj)表示ci和cj相同的上位概念集合,N(ci)∪N(cj)表示ci和cj所有的上位概念集合。由于在信息論中采用非線性函數(shù)來評估語義相似性更好,因此,利用對數(shù)函數(shù)計算概念ci和cj之間的上位概念重合度,公式如下:
(2)
(3)基于概念層次深度的語義相似度。
利用概念的層次結構可以計算概念之間的語義相似度。一般來說,本體樹結構中處于同一層次的兩個概念所含的信息量相似,當兩個概念間層次和增加,語義相似度會變大,反之,當兩個概念所在層次差增加,其語義相似度會減小。對于兩個詞匯ci和cj,利用概念層次結構計算語義相似度的公式如下:
(3)
其中,L(ci)和L(cj)分別為概念ci和cj的層次;dmax為本體樹的深度。
綜合考慮本體結構樹中各個因素的影響,結合上述語義相似度計算方法,最終的語義相似度計算方法如下:
sim(ci,cj)=
(4)
其中,α、β、γ為調(diào)節(jié)系數(shù),取值范圍均為(0,1],且α+β+γ=1。
3.1語義檢索模型
建立基于領域本體的語義檢索模型,首先根據(jù)枸杞病蟲害領域具體的知識結構,構建了領域本體。然后采集枸杞病蟲害領域文檔,通過預處理將文檔進行標注,建立枸杞病蟲害知識資源庫。利用枸杞病蟲害領域本體中概念之間的語義聯(lián)系和結構差異,結合語義推理和概念相似度建立語義檢索模型。該模型主要由系統(tǒng)界面、本體庫、知識資源庫、語義擴展和推理、語義檢索等模塊組成,如圖3所示。
(1)用戶界面:該功能主要實現(xiàn)查詢用戶和語義檢索系統(tǒng)的信息交互,用戶利用檢索界面輸入相應的查詢關鍵詞,系統(tǒng)處理后返回查詢結果。
(2)本體庫:本體是語義檢索的核心,對于原查詢詞的語義擴展和資源庫語義信息的標注至關重要。為了使用戶能夠對領域知識理解一致,實現(xiàn)知識的共享和本體的重用,通過從相關書籍、領域專家和本體學習等途徑獲取本體信息,構建本體。本體庫定義了農(nóng)業(yè)領域中的概念、關系以及實體和屬性集合。
圖3 基于本體的語義檢索模型
(3)知識資源庫:該模塊提供了可供語義檢索的信息資源。利用網(wǎng)絡爬蟲在Web上爬取網(wǎng)頁文檔,然后在頁面中找出本體中的實體,包括本體中的概念、屬性和實例等,進行相應的語義標注,用領域本體中各種概念的語義關系來描述文檔的語義,為資源文檔建立基于本體的索引,以便對信息資源進行語義檢索。
(4)查詢擴展處理:對用戶輸入的查詢詞進行分詞等預處理后,該功能模塊根據(jù)領域本體庫信息,把原查詢詞與本體的內(nèi)容進行映射,進行語義相似度計算和查詢語義擴展。與此同時,利用本體中的各種語義關系,設計推理規(guī)則,進行知識推理,得到新的更能反映用戶檢索意圖的檢索式,從而提高了檢索精度[14]。
(5)語義檢索模塊:按新的檢索式對知識資源庫進行檢索,根據(jù)查詢實例與文檔的相關度和相似度進行排序,并將排好序的查詢結果返回給用戶。
3.2語義檢索過程
根據(jù)用戶的檢索要求進行語義檢索,過程如下:
(1)對輸入的用戶檢索請求進行分詞處理;
(2)利用分詞后的結果,判斷檢索詞是否為本體庫中的概念和實例,如果是則進行知識檢索,如果不是,則根據(jù)農(nóng)業(yè)領域本體中存在的語義關系和設計的推理規(guī)則,結合語義相似度計算方法對用戶檢索詞進行語義擴展;
(3)語義擴展后,用得到的檢索詞進行檢索操作。語義檢索引擎根據(jù)和原檢索詞相近或相似的新的檢索詞進行語義檢索;
(4)按相似度從大到小排序后輸出檢索結果,并將結果列表輸出到用戶頁面。
為了對提出的模型進行實驗驗證,從http://www.nyyy.cc/、http://wolfberry.forestry.gov.cn/和http://www.qhgq.org/三個大型的枸杞農(nóng)業(yè)網(wǎng)站中獲取相關網(wǎng)頁,以這些Web頁面作為信息資源庫。實驗前對資源進行了相應的語義標注,使其能滿足語義檢索的要求。實驗使用傳統(tǒng)的基于關鍵字的檢索方法(M1)和基于本體的語義檢索方法(M2)分別對語料庫進行檢索,以對比兩種檢索方法的性能。與傳統(tǒng)的信息檢索系統(tǒng)一樣,基于本體的語義檢索模型的目標也是在資源耗費較少的前提下快速檢索到準確而全面的結果,因此對檢索系統(tǒng)的評價也從效果和效率方面進行。效果方面采用的評價指標包括查準率、查全率和F值。其中,查準率是檢出的正確結果總量與檢出的結果總量的比率,查全率是檢出結果的總量與系統(tǒng)中相關結果總量的比率,F(xiàn)反映了查準率和查全率的平衡的綜合評價指標,通常與檢索系統(tǒng)性能呈正比關系[15]。效率方面主要對時間開銷和響應速度進行測試比較。
從表1中可以看出,基于本體的語義檢索方法不論查全率還是查準率,均優(yōu)于基于關鍵字的檢索方法,因為基于關鍵字匹配的檢索技術僅僅是關鍵字字型的匹配,不提供語義支持和規(guī)則推理,無法獲取語義關聯(lián)的結果和隱含的知識。而提出的方法主要實現(xiàn)了關鍵字語義層面上的匹配和推理,可以檢索出與關鍵字語義相關的知識,因此各個評價指標總體上比基于關鍵字的檢索方法要高。
表1 語義檢索實驗結果 %
隨著本體中的類和實例等數(shù)量(本體樹結構中節(jié)點數(shù))的增加,需要耗費更多的時間來遍歷本體樹結構,因此整個語義檢索系統(tǒng)耗時就增加了,時間開銷曲線如圖4所示。
圖4 語義檢索方法時間開銷
傳統(tǒng)的信息檢索模型是基于字符串匹配,缺乏語義,極大限制了檢索的查準率和查全率。為此,利用本體的語義結構和語義推理的能力,在研究基于枸杞病蟲害領域本體的語義檢索系統(tǒng)模型及其關鍵技術的基礎上,提出了一種基于枸杞病蟲害領域本體的語義檢索模型。其主要工作包括:構建了領域本體庫并使用語義規(guī)則和推理引擎對本體進行一致性檢測,改進了語義相似度計算方法并實現(xiàn)了基于領域本體的語義檢索模型。實驗結果表明,與基于關鍵字的檢索模型相比,該模型有效可行,是完善知識檢索方法的一種嘗試,為農(nóng)業(yè)科技知識服務平臺提供了一種有效的檢索方法。隨著本體應用的不斷深入,還需要對現(xiàn)有檢索模型進行進一步優(yōu)化,以提高檢索的整體效率。
[1] 楊月華,杜軍平,平 源.基于本體的智能信息檢索系統(tǒng)[J].軟件學報,2015,26(7):1675-1687.
[2] Zammali S,Arour K,Bouzeghoub A.Using ontologies to build testbed for peer-to-peer information retrieval systems[C]//27th international conference on advanced information networking and applications.[s.l.]:IEEE,2013:1033-1040.
[3] Díaz-Galiano M C,Martín-Valdivia M T,Urea-López L A.Query expansion with a medical ontology to improve a multimodal information retrieval system[J].Computers in Biology & Medicine,2009,39(4):396-403.
[4] Yoo D.Hybrid query processing for personalized information retrieval on the semantic web[J].Knowledge-Based Systems,2012,27(3):211-218.
[5] Liu Z Y,Chen J X,Li X,et al.Design and application for the model of semantic query expansion based on domain ontology[J].International Journal of Modelling,Identification and Control,2012,16(3):277-284.
[6] Kallipolitis L,Karpis V,Karali I.Semantic search in the world news domain using automatically extracted metadata files[J].Knowledge-Based Systems,2012,27(3):38-50.
[7] Batet M,Sánchez D,Valls A.An ontology-based measure to compute semantic similarity in biomedicine[J].Journal of Biomedical Informatics,2011,44(1):118-125.
[8] 王旭陽,萬 里.信息檢索中語義相似度算法研究[J].計算機工程與應用,2014,50(10):124-127.
[9] Studer R,Benjamins V R,Fensel D.Knowledge engineering,principles and methods[J].Data and Knowledge Engineering,1998,25(2):161-197.
[10] 鄭業(yè)魯,何綺云,錢 平,等.基于本體的農(nóng)業(yè)知識管理系統(tǒng)構建方法[J].中國科學:信息科學,2010,40(S):196-204.
[11] Huang Z,Harmelen F V.Using semantic distances for reasoning with inconsistent ontologies[C]//International conference on the semantic web.[s.l.]:Springer-Verlag,2008:178-194.
[12] 李貫峰,李衛(wèi)軍.基于SWRL的枸杞病蟲害本體知識推理研究[J].江蘇農(nóng)業(yè)科學,2016,44(11):399-402.
[13] 劉宏哲,須 德.基于本體的語義相似度和相關度計算研究綜述[J].計算機科學,2012,39(2):8-13.
[14] 蘇依拉,吉亞圖,竇葆媛.基于蒙古語課程領域語義Web的推理與檢索方法的研究[J].計算機工程與科學,2016,38(2):376-385.
[15] 張乃靜,鞠洪波,紀 平.基于本體的林業(yè)領域語義查詢擴展模型[J].計算機系統(tǒng)應用,2016,25(3):151-156.
A Semantic Retrieval Model with Domain Ontology Based on Wolfberry Disease and Pests
LI Guan-feng1,LI Wei-jun2
(1.School of Information Engineering,Ningxia University,Yinchuan 750021,China; 2.Network Information & Technology Center,Beifang University of Nationalities,Yinchuan 750021,China)
The traditional information retrieval methods based on keywords and subject are lack of processing and presentation on the semantic level and thus lead to incomplete and inaccurate retrieval results,which cannot meet the user’s retrieval needs totally.In order to improve the quality of retrieval system,a model of semantic retrieval based on ontology for wolfberry disease and pests domain has been presented and its key technologies have been investigated in the processing of the introduction of ontology into semantic retrieving.It constructs the domain ontology of wolfberry diseases and pests,and modifies its inconsistent problem to ensure consistency and accuracy of wolfberry diseases and pests knowledge.Under the guidance of hierarchical tree structure of the domain ontology,a concept similarity method considering semantic distance,superior concepts coincidence degree and depth of concept nodes is proposed.Combined with the semantic inference rules a semantic retrieval model based on domain ontology of wolfberry disease and pests is realized.The experimental results demonstrate that the semantic retrieval model has well overcome the deficiency of the traditional retrieval method and effectively improved the recall and precision of information retrieval.
ontology;wolfberry disease and pests;inconsistency detection;semantic similarity;semantic retrieval
2016-10-13
:2017-01-18 < class="emphasis_bold">網(wǎng)絡出版時間
時間:2017-07-11
寧夏自治區(qū)高??蒲谢鹳Y助項目(NGY2014009)
李貫峰(1979-),男,碩士,副教授,研究方向為知識工程。
http://kns.cnki.net/kcms/detail/61.1450.TP.20170711.1455.056.html
TP391
:A
:1673-629X(2017)09-0048-05
10.3969/j.issn.1673-629X.2017.09.011