羅俊麗
(許昌學院信息工程學院,許昌 461000)
制造資源本體的語義相似度計算方法研究
羅俊麗
(許昌學院信息工程學院,許昌461000)
制造行業(yè)市場競爭日趨激烈,市場不斷細化,企業(yè)需要進一步深化合作和資源共享,提高部門之間、企業(yè)之間、地區(qū)之間制造資源的共享。而制造資源本身呈現異構性、多樣性,分布性、海量性等特點,這給企業(yè)在檢索和匹配制造資源時帶來困難。本體是一種共享概念的形式化的清晰的規(guī)范描述,它使用概念及概念間的關系來表示信息,使用本體來描述統一制造資源可以幫助達到制造資源共享,具體過程是將制造資源封裝成本體,然后計算它們之間的語義相似度,從而完成制造資源的匹配,其中本體相似度計算是制造資源檢索和匹配的中的重要環(huán)節(jié)[1]。本文主要研究制造資源概念的語義相似度計算方法。
目前被學者廣泛接受的本體定義是Studer的“本體是共享概念模型的明確的形式化說明”,此定義包括下面幾層含義[2]:(1)共享:本體不是面向整體,其是共同認可的概念,是公認的知識的集合。(2)明確:本體中明確定義了使用的概念和概念的約束。(3)概念化:本體中的概念模型是客觀世界抽象出來的,其與具體環(huán)境沒有關系。(4)形式化:本體是計算機方便處理的。
概念相似度指的是本體在語義上的相似程度,目前常用的語義相似度計算方法有:基于屬性的計算方法,基于信息內容的計算方法,基于距離的方法。用S(ci,cj)表示兩個本體概念的相似度,其需要滿足以下幾個原則[4]:(1)相似度是一個取值范圍在[0,1]間的實數,數值越大表示相似度越大,反之亦然。相似度為1表示兩個概念完全相等,相似度為0表示兩個概念完全不相關。(2)滿足對稱性S(ci,cj)=S(cj,ci)。(3)相似度計算方法應綜合考慮制造資源間的各種影響因素,而計算公式本身應該簡潔,易于計算。
2.1基于距離的概念語義相似度計算
基于距離的計算方法是使用本體樹形模型中的兩個概念的最短路徑長度來衡量概念之間的語義相似度。距離越近,相似度越大;距離越大,相似度越小。該方法計算簡單,復雜性小,但是缺點也比較明顯。因為該方法已經假設本體樹形圖中所有邊的重要程度是一致的,即所有邊的權重相同。而事實上,樹形模型中邊的重要程度與其位置、類型等多種因素都有關系,所以這種假設是不成立的。文獻[5]根據概念在本體模型中的位置設置權重,對兩個概念詞匯的路徑中帶權值的邊求和,進而得到兩個概念詞匯的距離,用這個距離表示兩個概念的相似度,計算方法如下[5]:
2.2基于信息內容的概念語義相似度計算
該方法使用兩個概念詞匯間共享信息的多少來表示語義相似度。如果概念詞之間共享信息越少,則它們相似度越小;如果它們之間共享信息越多,則相似度越大。Lord使用樹形圖中概念詞的最近公共父節(jié)點概念詞包含信息量的多少來表示概念詞間的語義相似度[5-6]。
2.3基于屬性的相似度計算
其中,c1a和c2a分別是本體概念詞c1和c2的屬性集合;c1和c2的屬性集交集c1a∩c2a表示它們之間相同屬性集合;c1a-c2a為c1和c2屬性集的差集,即包含在c1a中的屬性但是沒有包含在c2a中的屬性的集合,同理,c2a-c1a表示包含在c2a中的屬性但是沒有包含在c1a中的屬性的集合。
基于屬性的相似度計算基于這樣的思想:若兩個概念詞有非常多相同的屬性,則認為這兩個概念相似度高,反之亦然。Tversky在文獻[7]中給出了計算方法:
上述幾類方法從不同角度出發(fā),給出了相似度計算方法,但是這些方法沒有將本體距離、節(jié)點密度、屬性、信息內容等影響因素綜合考慮。下面我們用一個實例來說明。
如圖1所示,以帶權重的距離計算方法,圖中的“c8鍛壓設備”和“c9焊接設備”兩個概念,與“c10傳動件”和“c11連接件”兩個概念的帶權重距離相等,這是因為c8和c9的深度為4,有共同的父節(jié)點c4;而c10與c11也有共同的父節(jié)點c7,且他們的深度也為4,另外這4個節(jié)點有共同的祖先節(jié)點c0,所以,他們的帶權重的距離也是相等的。但是直觀上我們認為“c8加工鍛壓設備”與“c9焊接設備”的相似度比“c10傳動件”和“c11連接件”的相似度要小。所以,使用距離等單一的計算方法不能精確地反映概念間的相似度,還需綜合考慮其他因素,下面我們來分析影響概念語義相似度的各個因素。
圖1 制造資源本體圖
其中P(ci)是概念ci在資料中的出現頻率統計,使用上面兩個公式,我們可以得到兩個概念間的相似度計算方法:
(1)制造資源本體概念信息量
由信息理論得知,概念包含的信息量與該概念出現的頻率相關,概念的信息量計算公式為[2]:
其中,IC(Anc.(c1,c2)表示概念c1和c2最近公共祖先的信息量。
(2)制造資源本體概念節(jié)點密度
通常一個概念節(jié)點的密度反映了該概念的具體化程度,若兩個概念節(jié)點密度都比較大,則這兩個概念的語義相似度通常會比較大。
其中wid.(c1)表示概念節(jié)點c1的兄弟節(jié)點個數,以此來表示該節(jié)點的密度,max(wid.(T))是本體樹形圖中最大節(jié)點密度的值[4]。
其中,Attr.(c1)∩Attr.(c2)表示表示概念c1和c2各自屬性集合的交集,Attr.(c1)∪Attr.(c2)表示概念c1和c2各自屬性集合的并集。Count.()是集合中數量的統計函數,公式(7)描述了語義相似度與概念共享屬性的關系。
(4)影響因素的系數
上面分析了概念信息量、概念節(jié)點密度及概念共享屬性對概念之間的語義相似度的影響,綜合考慮這些情況,我們定義概念間的語義相似度計算方法為:
(3)制造資源本體概念屬性
在前面基于屬性的相似度方法中已經指出,兩個概念共享的屬性數量與它們的相似度成正比。據此,我們可以得出下面公式:
其中,α、β、γ、λ分別是概念節(jié)點間的距離、概率節(jié)點密度、概念節(jié)點信息量及概念節(jié)點共享屬性程度這幾個影響因素的系數[2]。令這四個系數之和為1,即α+ β+γ+λ=1,通常α的值比其他三個大很多,說明基于語義節(jié)點距離對概念間相似度值影響還是最大的。這幾個系數的值可以由領域專家設定,也可以由研究者在具體實驗環(huán)境中通過測試集訓練得出。
4.1數據集和評估方法
Miller和Charles在實驗中證明人工判斷語義相似度具有很高的可信度,因而研究者通常使用帶人工判斷結果的數據集來驗證算法的有效性。從設備資源和國家標準件本體數據集中分別選擇一部分概念詞匯作為實驗中的兩個數據集,這兩個數據集分別包含詞匯30對和35對。通常使用皮爾森相關系數來計算人工判斷和計算機算法得到的語義相似度的關聯度,關聯度越高表示人工判斷和計算機算法結果越接近,也就表示該算法效果好[8]。例如有X1和X2兩個變量,則它們之間的皮爾森相關系數為:
4.2實驗結果與分析
實驗采用文獻[2,6,7]中分別介紹的基于距離的方法、基于信息內容量的方法、基于共享屬性的方法和我們的方法進行測試,表1和表2分別是這幾種方法在4.1中提到的兩個數據集上計算皮爾森相關系數的結果:
表1 部分設備資源數據集相關系數比較
表2 部分國家標準件數據集相關系數比較
從上面的是實驗結果可以看出,本文的方法因為綜合考慮了距離、信息內容量、共享屬性數量等多個因素,因而所得效果明顯要比前三種方法好。
本文結合制造資源的例子分析了語義相似度計算的幾種方法,指出影響概念相似度的因素有多個,單純一種方法不能到達滿意結果,進而提出一種綜合各個影響因素的制造資源本體概念相似度的計算方法,最后用實驗驗證了該方法的有效性。
[1]劉文劍,郭寧,金天國.制造資源本體的相似度計算模型[J].計算機集成制造系統,2010,16(11):2468-2474.
[2]魏軍英.基于Web服務的中小企業(yè)制造資源共享關鍵技術研究[D].山東科技大學,2011.
[3]袁慶霓.基于網絡化制造環(huán)境的制造資源共享服務語義關鍵技術研究[D].西南交通大學,2010.
[4]黨亞洲.基于本體的機械零件資源庫語義檢索研究與應用[D].新疆大學,2015.
[5]劉宏哲.文本語義相似度計算方法研究[D].北京交通大學,2012.
[6]Shi B,Yan J Z,Wang P,et al.Ontology-based Measure of Semantic Similarity Between Concepts[C].Wri World Congress on Software Engineering.IEEE Computer Society,2009:109-112.
[7]Tversky A.Features of Similarity[J].Readings in Cognitive Science,1988,84(4):290-302.
[8]羅俊麗,王亞,路凱.基于模糊語義的本體概念相似度計算算法[J].微電子學與計算機,2013(7):128-132.
Manufacturing Resources;Semantic Similarity;Concept;Ontology;Distance
Research on Semantic Similarity Calculating Method for Manufacturing Resource Ontology
LUO Jun-li
(College of Information Engineering,Xuchang University,Xuchang 461000)
1007-1423(2016)22-0024-04DOI:10.3969/j.issn.1007-1423.2016.22.005
羅俊麗(1986-),女,河南周口人,碩士,講師,研究方向為數據挖掘、語義信息處理
2016-07-05
2016-07-30
企業(yè)對制造資源的描述是不完全相同的,為了實現企業(yè)之間的制造資源共享,需要建立一個能夠有效匹配制造企業(yè)資源的模型。通過分析現有語義相似度計算的主流方法,提出一種計算制造資源概念語義相似度的新方法。該方法綜合考慮距離、共享屬性、信息內容量和節(jié)點密度等因素,能夠明顯提高概念的語義相似度準確度。實驗結果驗證該方法效果要優(yōu)于傳統的語義相似度計算方法。
制造資源;語義相似度;概念;本體
許昌學院科研項目(No.2015090)
The description of manufacturing resources for different enterprises is not same,in order to achieve sharing manufacturing resources among enterprises,need to build an effective model for matching concept of manufacturing resources.Through analyzing the current semantic similarity computation of ontology,proposes a new method for computing the concept semantic similarity.This method synthetically considers different impact factors which include distance,shared property,content information and density of node.By this means,the accuracy of the concept semantic similarity is improved obviously.Experimental result shows that this method outperforms traditional similarity measures.