沈國祥
摘要:本體匹配解決了本體異構問題,作為本體匹配的關鍵技術,相似度算法決定了匹配的精度和效率。WordNet中概念節(jié)點的語義距離常作為相似度算法的依據(jù)。設計了一種新的語義距離計算方法及相似度算法,并以此搭建一個本體匹配框架進行了驗證。
關鍵詞:本體匹配;WordNet;語義距離;語義相似度
DOIDOI:10.11907/rjdk.161033
中圖分類號:TP312
文獻標識碼:A 文章編號:1672-7800(2016)005-0034-04
0 引言
隨著Internet的發(fā)展,語義Web技術解決了海量信息與高效利用之間的突出矛盾。語義Web通過在資源信息中加入語義信息,使信息的內容與表示分離處理,為描述的信息賦予了良好的語義,實現(xiàn)了計算機對海量信息處理的自動化和智能化,極大提高了信息使用效率。
作為語義Web中的關鍵技術,本體得到了越來越廣泛的應用,本體已經成為語義Web中知識表示的標準。為了實現(xiàn)語義信息共享,各個領域紛紛定義了相應的本體標準,但本體構造一直沒有一個統(tǒng)一的規(guī)范和標準,從而導致本體存在各種異構問題。為了更有效地使用和重用本體來完成信息交換與集成任務,就必須找出不同本體之間的映射關系,即本體匹配技術。
根據(jù)文獻[1]對本體匹配流程的描述,可以將本體匹配總結為5個步驟:①本體特征(概念、關系、屬性等)提??;②選擇本體匹配的實體對;③語義相似度計算;④人工干預;⑤匹配輸出,其中相似度計算是整個流程的核心技術,也是本文研究的主要內容。對于相似度計算可以從自然語言、字符串、本體結構信息、本體推理等多角度進行。
本體匹配技術研究及本體匹配系統(tǒng)構建取得了一批成果。目前,常見的本體匹配有基于語言學特征、基于結構和基于實例等多種方法。
1 WordNet簡介
WordNet[2]是在美國普林斯頓大學G. Miller教授的指導下,由心理學家、語言學家和計算機工程師聯(lián)合設計的一種基于認知語言學的英語詞典,是基于語言特征的本體匹配方法中常用的外部資源。
WordNet使用同義詞集合代表概念,詞匯關系在詞語之間體現(xiàn),語義關系在概念之間體現(xiàn)。雖然WordNet中存在著多種語義關系,如同義關系、反義關系、整體與部
分關系等,但is-a關系是WordNet中最重要的一種關系,所有的名詞概念和動詞概念都可以通過這種關系來聯(lián)接,如圖1所示。本文所研究的語義相似度計算都是基于這種關系的。
3 改進的相似度算法
總結以上研究成果,每種方法都對后面的研究作出了一定的貢獻,同時也存在一些不足。因為相似度計算本身就是一個主觀性較強的工作,理解上的相異導致算法的不同也就不足為奇了。
針對現(xiàn)有方法的不足,在分析前人成果的基礎上,加上筆者的理解,提出了一種基于WordNet的新的相似度算法。該相似度算法改進了現(xiàn)有算法的某些不足,降低了計算復雜度,并且把相似度的值限制在[0,1]范圍之內。在詳細描述本文算法之前,先介紹本文中改進算法所依據(jù)的概念、假設等。正如語義相似度具有主觀性一樣,這些概念和假設具有一定的主觀性而不一定具有普遍性。
3.1 相關假設假設1:語義距離和語義相似度具有反比性,即語義距離越大,相似度越??;語義距離越小,相似度越大。
假設2:假如兩個概念的語義距離為0,則相似度為1。
假設3:假設某一概念是父概念的唯一分類,則兩個概念間的語義距離為0。
假設4:WordNet語義樹中相同詞性的兩個概念,相似度不為0;兩個詞性不同的概念,相似度為0。
假設5:兩個概念的語義相似度不僅與語義距離相關,而且與它們所處的深度相關。
3.2 相關概念
概念1:直接語義距離。直接語義距離是指兩個具有直接或間接上下級關系的節(jié)點間語義距離,其中一個節(jié)點是另一個節(jié)點的祖先節(jié)點,例如節(jié)點
概念2:間接語義距離。
間接語義距離是指不具有上下級關系的兩個概念節(jié)點之間的距離,由各自節(jié)點與公共祖先節(jié)點的直接語義距離相加。例如節(jié)點
可以發(fā)現(xiàn),改進的相似算法與其它兩種算法在相似度趨勢上基本保持一致,驗證了改進后的算法具有一定的合理性和科學性。從整體結果來看,改進后的算法在查全率和查準率上比其它兩種方法均有所提高,證明改進后的算法具有一定實際意義。
4 結語
作為本體匹配的關鍵技術,相似度計算直接對本體匹配的結果有著決定性影響。不可否認的是,相似度是一個主觀性較強的概念,因此在相似度計算中所用語義距離及其它相關的概念和認識也具有一定的主觀性。
本文通過對前人基于WordNet的相似度算法研究,形成了一種改進算法,并以此建立一個本體匹配的框架進行驗證。僅基于WordNet的本體匹配算法在匹配效果上不一定令人滿意。因此,要將該算法應用于實際工作中,還需要與其它類型的算法綜合考慮,以提高匹配精度和廣度,這正是需要進一步研究的工作。
參考文獻:
[1]M EHRIG,S STAAB.QOM:Quick ontology mapping[C]. In Proeeedings of the Intemational Semantic Web Conference(ISWC),2004:683-697.
[2]梁健,吳丹. 種子概念方法及其在基于文本的本體學習中的應用[J]. 圖書情報工作, 2006,50(9):18-21.
[3]WU Z ,PALMER M. Verb Semantics and Lexical Selection[C]. In Proeeedings of the 32nd Annual Meeting of the Association for Computational Linguistics,Las Cruces,New Mexico,1994:133-138.
[4]PHILIP RESNIK.Using information content to evaluate semantic similarity[C].In Proceedings of the 14th Intemational Joint Conference on Artificial Intelligence,1995:102-119.
[5]JIANG J,CONRATH D.Semantic similarity based on corpus statistics and lexical taxonomy[C].In Proeeedings of Intemational Conferenee on Researeh in Computational Linguistics,Taiwan,1997:19-33.
[6]LIN, DEKANG.An information-theoretic definition of similarity[C].In Proeeedings of the 15th International Conference on Machine Leaming,Madison,WI,1998:296-304.
[7]KALYANPUR A,PARSIA B,HORRIDGE M,et al.Finding all justications of OWL DL entailments[C].In Proceedings of ISWC,2007:267-280.
(責任編輯:杜能鋼)