游 妍,徐博藝,謝 誠
(1.上海交通大學安泰經濟與管理學院,上海200030;2.上海交通大學軟件學院,上海200240)
基于實例相似度的概念語義挖掘方法
游 妍1,徐博藝1,謝 誠2
(1.上海交通大學安泰經濟與管理學院,上海200030;2.上海交通大學軟件學院,上海200240)
本體在知識表達、共享、重用以及語義查詢中具有重要作用,但在本體融合過程中存在概念層融合難的問題。為此,提出一種挖掘本體概念語義的方法。該方法從實例數(shù)據(jù)出發(fā),以實例相似度矩陣為基礎,在實例層和概念層交替進行概念語義挖掘,將挖掘結果通過屬性語義反饋到實例層,并對其進行修正和補充。利用OAEI2012提供的測試本體進行實驗,結果顯示查全率與查準率均得到提高,證明了該方法的可行性和有效性。
實例相似度;實例匹配;概念語義;屬性語義;本體融合;語義網
語義網的興起引起了人們對于本體的興趣。本體在數(shù)據(jù)集成領域有重要的意義,促進了知識的表達、共享和重用,同時也促進了從語法到語義這一查詢模式的轉變。本體由實例數(shù)據(jù)和概念數(shù)據(jù)組成,概念是抽象的描述性的,實例是現(xiàn)實世界客觀存在的。發(fā)現(xiàn)在現(xiàn)實世界中表示同一事物的對象的過程為實例匹配[1],建立不同本體概念之間的聯(lián)系的過程為本體融合,是機制匹配的一種形式[2]。
目前,本體融合的方法主要有4種[3]:(1)基于通用本體,例如,OAEI2012的WikiMatch系統(tǒng)應用關聯(lián)規(guī)則,將源本體和目標本體都關聯(lián)到維基百科[4];(2)基于術語和自然語言處理技術;(3)基于結構相似度,文獻[5]將結構分為內部結構(如屬性、屬性類型)和外部關系結構,一般與其他方法結合應用;(4)基于實例匹配,文獻[6]提出一種基于已經存在的實例連接,度量約束類的實例集重疊程度,來挖掘值約束類的語義關系,進一步找到本體中的概念覆蓋的方法。但通用本體無法解決領域術語與概念的匹配問題;基于自然語言處理技術的方法依賴于本體中概念的命名,與概念的實際含義無關;結構相似度的相關方法對本體結構的完善度要求較高,且前三類方法的實質是對本體中的描述性信息進行二次加工,脫離了數(shù)據(jù)的事實基礎。而基于實例的方法,不考慮本體原有的結構,充分地利用實例集,從本體生成角度進行融合,只適用于已經擁有大量實例數(shù)據(jù)而概念相對較少的本體。因此,本文選取基于實例匹配的方法,融合有實例的本體。
實例匹配的方法主要有:(1)基于圖的入度和出度的實例匹配方法[7];(2)基于OWL語義,如owl: sameas語義、函數(shù)性/逆函數(shù)性、基數(shù)等的實例匹配方法[8];(3)基于屬性的實例匹配方法,SLINT系統(tǒng)通過有分辨力的屬性-值對匹配實例[9]。此外,在文獻[10]提出的Simrank算法中,如果2個對象連接的對象相似,則認為這兩個對象也相似。文獻[11]算法也是SimRank的一種拓展?;趫D的方法只考慮了圖中邊的數(shù)量,而忽略了邊的含義;OWL語義直接有效,但只存在于OWL本體中,且這幾種語義占本體所有語義的比例較小;基于屬性的方法一般比較公共屬性的重疊度,能很好地利用屬性集,但關鍵屬性的識別是一個難點。
本文結合SimRank算法與屬性語義進行實例層的匹配,計算不同數(shù)據(jù)源之間實例的相似度,利用相似的實例發(fā)現(xiàn)其所屬概念的語義關系,達到本體融合的效果。
2.1 概念語義挖掘過程
基于實例相似度挖掘概念語義的過程如圖1所示。
圖1 基于實例相似度的概念語義挖掘過程
圖1 中包含3個主要的模塊:
(1)實例相似度計算模塊:初次輸入為包含實例的源本體和目標本體,輸出為m×n的實例相似度矩陣。收到屬性語義挖掘模塊的反饋后,輸入為屬性的相關度,輸出為調整的實例相似度矩陣。
(2)概念語義挖掘模塊:輸入為實例相似度矩陣,輸出為源本體概念和目標本體概念之間可能存在的語義,如same_as,subclass_of,disjoint等,以及語義成立的可信度。
(3)屬性語義挖掘模塊:輸入為概念語義及可信度,輸出為屬性語義,即屬性相關度。
2.2 實例相似度
實例相似度計算的輸入是分別來自源本體和目標本體的實例集,輸出為實例對的相似度矩陣。對于任意的實例,通過屬性連接到屬性值,這樣的描述在RDF中稱為一個三元組<s,p,o>,<s,p,o>∈U×U×U∪L,其中,U為URI集合;L為文本集合。實例的完整描述由多個三元組構成,2個實例的描述相似則意味著實例相似,因此,在比較實例時,比較它們的屬性值是一個合理的方法。
屬性值可以是文本(L)或URI(U),若屬性值為URI,稱這個URI代表的實例為原實例的鄰居實例。基于SimRank的思想[8],不僅鄰居實例可以描述原實例,鄰居的鄰居實例也能對原實例的描述做出貢獻,本文給出實例相似度計算公式,如式(1)所示。
其中,C為0~1之間的衰減常數(shù);pi為實例的第i個屬性;pvi為pi對應的屬性值;a或b可能沒有任何屬性和屬性值,即pv(a)或pv(b)可能為空集,此時S(a,b)=0。
2.3 概念語義關系挖掘
實例相似度矩陣為源本體和目標本體在實例層建立了映射,要將這種映射轉移到概念層才能實現(xiàn)在異構機制下的本體互操作。
從實例層映射中發(fā)現(xiàn)概念語義的過程如圖2所示。其中,C1,C2分別來自源本體O1和目標本體O2;I1,I2分別為C1,C2的實例集;在O2中與I1的實例連接的實例集稱為I1在O2中的映射集Map(I1)。根據(jù)映射集與目標實例集的重疊情況來度量概念語義。
圖2 從實例映射中發(fā)現(xiàn)概念語義的過程
定義參數(shù)p,q為度量指標,p,q的計算公式如下:
若p=1,則C1?C2;若q=1,則C2?C1。
實例之間的映射通過相似值產生,相似值是小于1大于閾值的數(shù),并不能斷定連接的實例指的是同一事物,因此,在這些映射基礎上挖掘的概念語義也不是完全可信的。給出概念語義可信度的定義為:I1中實例與Map(I1)∩I2中實例的所有映射對應的相似值的平均值,如下式所示:
表1為p,q取不同的值時,C1,C2的語義對應關系,在實際計算中,將取值適當放寬,大于0.9則可以等同于1,小于0.1等同于0。
表1 概念語義與p,q值的對應關系
2.4 屬性語義比對
若2個屬性的定義域(Domain)和值域(Range)相似,則這2個屬性很可能是相似的,且相似度與其定義域和值域語義相似的可信度相關,如圖3所示。用rel(p1,p2)表示屬性p1,p2的相關度,即屬性語義的相似度:
圖3 從概念語義挖掘屬性語義的過程
將式(1)在a,b∈U,a≠b時的情況修正為:
3.1 數(shù)據(jù)來源
本文選取OAEI2012提供的Benchmark測試庫中的書目本體(http://oaei.ontologymatching.org/ 2012/benchmarks/index.html)進行實驗。將本體101作為源本體,本體202作為目標本體。本體101是完整的參考本體,而本體202則是將本體101中的概念、實例名字和備注等用亂碼替代而得到的。2個本體均包含55個實例和36個概念,其中,包含實例的概念有10個,由1 332條三元組組成。
3.2 實驗結果
根據(jù)2.2節(jié)中的算法,本文比較對象型屬性值和文本屬性值的相似度來衡量2個實例的相似度,通過迭代計算最終得到一個相似度矩陣,如圖4所示。相似值在0~1之間,值越高,代表對應的2個實例越相似。本文設置閾值為0.85,實例之間相似值大于0.85,則認為有效相似,小于0.85則認為沒有意義。
圖4 實例相似度矩陣中的部分數(shù)據(jù)
基于該相似度矩陣,利用2.3節(jié)中的算法查找概念語義關系,結果如表2所示。
找到概念語義關系后,能反推出本體屬性之間存在的一些關系,找出相似的屬性對。如(journal, sxqsnbvsq,0.89),(event,zadzjadns,0.88),(articles, YuEma,0.89),(title,dznbaln,0.89)等,括號中的數(shù)值代表屬性相似的程度。返回實例相似度矩陣中,對這些屬性所對應的實例相似值進行修正。由表3可見,修正后的相似度加強了源概念和目標概念之間的聯(lián)系,重復概念語義挖掘的過程,可以得出源概念Inbook與目標概念 vccfsq語義相等,源概念Inproceeding與目標概念deqdxcsqcsq語義相等。由屬性修正后補充新增的概念語義如表4所示。
表2 概念語義關系部分挖掘結果
表3 實例相似值修正前后的對比
表4 屬性修正后新增的概念語義
3.3 實驗結果評估
對實驗結果用查全率(P)和查準率(R)評估。查全率是查詢結果中正確的關系數(shù)與發(fā)現(xiàn)的關系數(shù)的比值;查準率是查詢結果中正確的關系數(shù)與實際存在的關系數(shù)。用F1值來平衡查全率與查準率:
在測試本體101和本體202中,每個本體有36個概念,其中只有10個概念包含實例數(shù)據(jù),其余26個概念均未包含實例,即實例集是空集。但由于本文方法是以實例數(shù)據(jù)為基礎的,本體中不包含實例的概念是干擾性的數(shù)據(jù),不在本文方法評估的范圍內。因此在表5中,將評估結果分為2行,分別是以包含實例的概念為基數(shù)的結果和以所有概念(包含實例與未包含實例的)為基數(shù)的結果。
在實驗中,利用屬性語義對相似度矩陣進行了一次反饋修正,就達到了3項指標均為1的效果,因此,表5中對每項指標也分成了2欄記錄,修正前的數(shù)值為挖掘流程進行了初次實例相似度計算和概念語義挖掘后的結果,修正后的數(shù)值則是在修正前的基礎上,進行了屬性語義挖掘、修正相似度矩陣、補充概念語義后的結果。針對本體202的概念語義挖掘實驗結果評估如表5所示,從中可見,當將本體中的所有概念作為基數(shù)時,修正前 3項指標均為8/36=0.22,修正后3項指標為10/36=0.28。當將本體中有實例的概念作為基數(shù)時,修正前各項指標均為8/10=0.8,修正后找全了所有的概念語義,各項指標為1。
表5 概念語義挖掘實驗結果評估
由實驗結果可以看出,屬性對于概念語義的修正作用較為顯著,本文方法對于以實例數(shù)據(jù)為基礎的本體來說是可行有效的。
3.4 與相關方法的比較
以實例為基礎的本體融合方法,已有類似研究工作:Zhishi是一個實例匹配系統(tǒng),利用標簽進行pre-match,然后進行復雜的語義挖掘[12];ObjectCoref是一個利用屬性-值對迭代自訓練的實例匹配系統(tǒng),挖掘頻繁屬性組合來調整訓練過程[13];SBUEI是一個在實例層和機制層交替匹配的本體融合系統(tǒng),將實例5步以內的鄰居實例組成該實例的關聯(lián)網,計算關聯(lián)網的相似度來匹配實例,并認為相似網中的實例所屬概念也相似[14]。
本文從融合機制、實例匹配依據(jù)、適用場合、數(shù)據(jù)集大小4個維度將本文方法與Zhishi,ObjectCoref和SBUEI方法進行比較,如表6所示。
表6 本文方法與Zhishi,ObjectCoref,SBUEI方法的比較
在融合機制上,本文方法與SBUEI方法較為相似,均在實例層與概念層交替,但本文實例層接受概念層的反饋,且考慮屬性語義的修正作用。在實例匹配時,本文方法綜合了文本、鄰居實例、屬性對實例的描述,適用于一般的含實例的本體。
本體由于其在數(shù)據(jù)集成、查詢優(yōu)化等領域的重要意義成為當前研究的熱點,而本體融合是本體互操作性實現(xiàn)的一個難點。本文提出的方法是一種基于實例的概念語義挖掘方法,在客觀數(shù)據(jù)中挖掘本體概念層的聯(lián)系,最大限度地提取了實例數(shù)據(jù)中的信息,完成了本體機制匹配,可實現(xiàn)知識共享和本體互操作。該方法將屬性值對的相似度傳遞到實例對上,通過迭代計算得到穩(wěn)定的實例相似度矩陣,建立本體實例層的關聯(lián),而概念語義則是這種關聯(lián)在機制層的表現(xiàn),進一步挖掘屬性的語義,修正實例相似度矩陣,優(yōu)化概念語義挖掘的結果。
本文方法在OAEI2012的測試數(shù)據(jù)集上有較好的查詢效果,但其基礎是實例數(shù)據(jù),并不適用于沒有實例數(shù)據(jù)或實例數(shù)據(jù)較少的本體,這也是以所有概念為基數(shù)時指標不高的原因。此外,由于在實例相似度計算部分時間復雜度和空間消耗較高,本文方法對于大規(guī)模的本體適應性不強。下一步工作是研究如何將本文方法應用到大規(guī)模的本體中。
[1] Halpin H,Hayes P J,McCusker J P,et al.When owl: Sameas Isn’t the Same:An Analysis of Identity in Linked Data[C]//Proc.of ISWC’10.Berlin,Germany: Springer-Verlag,2010:305-320.
[2] Rahm E,Bernstein P A.A Survey of Approaches to Automatic Schema Matching[J].The VLDB Journal, 2001,10(4):334-350.
[3] 孫海霞,錢 慶,成 穎.基于本體的語義相似度計算方法研究綜述[J].現(xiàn)代圖書情報技術,2010,26(1): 51-56.
[4] Hertling S,Paulheim H.WikiMatch——Using Wikipedia for Ontology Matching[C]//Proc.of 2012 International Workshop on Ontology Matching.Boston,USA:[s.n.], 2012:37-38.
[5] Euzenat J,Euzenat J,Shvaiko P.Ontology Matching [M].Berlin,Germany:Springer-Verlag,2007.
[6] Parundekar R,Knoblock C A,Ambite J L.Discovering Concept Coverings in Ontologies of Linked Data Sources [C]//Proc.of ISWC’12.Berlin,Germany:Springer-Verlag,2012.
[7] Rowe M.Interlinking Distributed Social Graphs[C]// Proc.of LDOW’09.Heidelberg,Germany:Springer-Verlag,2009:461-475.
[8] Hogan A,Polleres A,Umbrich J,et al.Some Entities are More Equal than Others:Statistical Methods to Consolidate Linked Data[C]//Proc.of the 4th International Workshop on New Forms of Reasoning for the Semantic Web:Scalable and Dynamic.Heraklion, Greece:[s.n.],2010:44-58.
[9] Nguyen K,Ichise R,Le B.SLINT:A Schemaindependent Linked Data Interlinking System[C]// Proc.of 2012 International Workshop on Ontology Matching.Boston,USA:[s.n.],2012:1-12.
[10] Jeh G,Widom J.SimRank:A Measure of Structuralcontext Similarity[C]//Proc.of the 8th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.Edmonton,Canada:ACM Press,2002: 538-543.
[11] 宋亞楠,仲 茜,鐘 遠.基于多屬性的本體實例匹配算法[J].計算機工程,2011,37(13):63-65.
[12] Niu Xin,Rong Shu,Zhang Yunlong,et al.Zhishi.Links Results for OAEI 2011[C]//Proc.of 2011 International Workshop onOntologyMatching.Bonn,Germany: [s.n.],2011:220-227.
[13] Hu Wei,Chen Jianfeng,Qu Yuzhong.A Self-training ApproachforResolvingObjectConferenceonthe Semantic Web[C]//Proc.of the 20th International Conference on World Wide Web.[S.l.]:ACM Press, 2011:87-96.
[14] Taheri A,Shamsfard M.SBUEI:Results for OAEI 2012 [C]//Proc.of 2012 International Workshop on Ontology Matching.Boston,USA:[s.n.],2012:189-196.
編輯 金胡考
Concept Semantic Mining Method Based on Instance Similarity
YOU Yan1,XU Bo-yi1,XIE Cheng2
(1.Antai College of Economic and Management,Shanghai Jiaotong University,Shanghai 200030,China;
2.School of Software,Shanghai Jiaotong University,Shanghai 200240,China)
Ontology plays an important role in knowledge expression,sharing,reuse and semantic query,but in the process of ontology integration,it is difficult to fuse the concept layer.Aiming at this paper,this paper proposes a method to find concept semantic for ontology.Based on the instance similarity metric extract from instance data,it alternates between instance level and schema level to get concept semantic,mines the property semantic,and then turns instance level to amend similarity metric and complement concept semantic on schema level.This paper tests this method with test ontologies provided by OAEI2012,and the result shows that the precise and recall ratio are increased,which proves the feasibility and effectiveness of the method
instance similarity;instance matching;concept semantic;property semantic;ontology fusion;semantic Web
1000-3428(2014)10-0219-05
A
TP18
10.3969/j.issn.1000-3428.2014.10.041
國家自然科學基金資助項目“診療本體自動構建方法與過程驅動的本體進化機制研究”(71171132);上海市自然科學基金資助項目“面向自演化軟件服務的本體生成及進化研究”(13ZR1419800)。
游 妍(1991-),女,碩士研究生,主研方向:本體論,數(shù)據(jù)集成;徐博藝,副教授;謝 誠,博士研究生。
2013-11-11
2013-12-10E-mail:yancyyou@sjtu.edu.cn
中文引用格式:游 妍,徐博藝,謝 誠.基于實例相似度的概念語義挖掘方法[J].計算機工程,2014,40(10):219-223.
英文引用格式:You Yan,Xu Boyi,Xie Cheng.Concept Semantic Mining Method Based on Instance Similarity[J]. Computer Engineering,2014,40(10):219-223.