余朦朦,劉宇,劉雅婷
(1.武漢科技大學計算機學院,武漢 430065;2.武漢市科學學研究所,武漢 430023)
語義相似度的計算是自然語言處理的關(guān)鍵問題之一,在問答系統(tǒng)、機器翻譯和文本主題抽取等領域有著非常廣泛的應用[1]。雖然目前研究人員已提出了多種基于單本體的語義相似度計算方法[2],但是單一領域本體的知識覆蓋度限制了相關(guān)方法的性能。針對上述問題,Montserrat等人[3]提出了基于多本體的語義相似度計算方法。通過利用多個本體所提供的語義線索,Montserrat法的計算結(jié)果更準確,即更為擬合領域?qū)<业脑u估結(jié)果。
鑒于運用多本體計算概念對的語義相似度較為復雜,Montserrat法采用了依據(jù)不同情況分別處理的解決方案:1.僅某一本體包含概念a和b,兩者的語義相似度直接利用單本體計算獲得;2.a和b都同時出現(xiàn)在多個本體,選取各本體計算結(jié)果的最大值作為a和b的語義相似度;3.無本體同時包含a和b,利用多本體中上位概念的匹配概念對計算a和b的語義相似度。圖1展示了生物醫(yī)學本體FMA(Foundational Model Of Anatomy)和 NCI(National Cancer Institute)的部分匹配概念對。顯然,計算Ana_str和Org_Che的語義相似度滿足Montserrat法的情況3——FMA和NCI不同時包含 Ana_str和 Org_Che。從圖 1可見,Ana_str和Org_Che不僅上位概念中包含匹配概念對FMA(Thing):NCI(Thing),而且下位概念中也包含匹配概念對 FMA(Pho):NCI(Pho)和 FMA(phospha):NCI(phos?pha)。因此,僅利用上位概念中的匹配概念對,而沒有借鑒下位概念中的匹配概念對,Montserrat法無法充分利用多本體所提供的語義線索。針對Montserrat法中情況3的處理方式所存在的不足,本文提出了改進的面向多本體語義相似度的計算方法,記為I-SSCMO。
圖1 FMA和NCI的部分匹配概念對
設概念a和b分別隸屬于本體A和B,則本論文所涉及的相關(guān)定義描述如下。
定義1(上位概念集合)本體A中概念a的上位概念集合,記為 U(A,a)。
定義2(下位概念集合)本體A中概念a的下位概念集合,記為 L(A,a)。
定義3(匹配概念集合)本體A與本體B的匹配概念集合,記為 M(A,B)。在圖 1 中,M(FMA,NCI)包含所有箭頭線所連接的概念對。
定義4(匹配上位概念集合)本體A中a的上位概念與本體B中b的上位概念相匹配的概念集合,記為MU(A(a),B(b))。在圖 1 中,MU(FMA(Ana_str),NIC(Org_Che))={FMA(Thing):NCI(Thing)}。
定義5(匹配下位概念集合)本體A中a的下位概念與本體B中b的下位概念相匹配的概念集合,記為ML(A(a),B(b))。在圖 1 中,{FMA(Pho):NCI(Pho),FMA(phospha):NCI(phospha)}為 Ana_str 和 Org_Che的匹配下位概念集合。
定義6(公共上位概念集合)本體A中概念a與本體B中概念b的公共上位概念集合為
在圖 1 中,CU(FMA(Ana_str),NIC(Org_Che))={FMA(Thing),NCI(Thing)}。
定義7(公共下位概念集合)本體A中概念a與本體B中概念b的公共上位概念集合為
在圖 1 中,CL(FMA(Ana_str),NIC(Org_Che))={FMA(Pho),NCI(Pho),FMA(phospha),NCI(phos?pha),FMA(pholin),NCI(pholinl)}。
在上述定義的基礎上,I-SSCMO法首先利用多本體中匹配上位概念集合所提供的語義線索,計算概念對的語義相似度,其具體計算方法如公式(3)所示。
然后,I-SSCMO法利用匹配下位概念集合計算語義相似度,具體計算方法如公式(4)所示。
通過綜合上述兩種語義相似度,A本體中概念a與B本體中概念b的語義相似度可由公式(5)獲得。
其中,w∈[0,1]。w為加權(quán)因子,調(diào)控U_Sim(A(a),B(b))和 L_Sim(A(a),B(b))對最終結(jié)果Sim(A(a),B(b))的影響。當w為0時,表示僅利用匹配下位概念集合所提供的線索計算語義相似度;當w為1時,表示僅利用匹配上位概念集合所提供的線索計算語義相似度。
I-SSCMO法的偽代碼如下所示:
輸入:本體A和本體B,待評估的概念對(a,b),加權(quán)因子w
輸出:概念對(a,b)的語義相似度
1:IF概念對(a,b)屬于Montserrat法的情況1和情況2
2: RETURN Montserrat法的計算結(jié)果;
3:ELSE
4:分別獲取a和b的上位概念集合和下位概念集合;
5:獲取概念對(a,b)的匹配上位概念集合和匹配下位概念集合;
6:獲取概念對(a,b)的公共上位概念集合和公共下位概念集合;
7: 根據(jù)公式(3)計算 U_Sim(A(a),B(b));
8: 根據(jù)公式(4)計算 L_Sim(A(a),B(b));
9: 根據(jù) U_Sim(A(a),B(b))、L_Sim(A(a),B(b))和加權(quán)因子 w 計算 Sim(A(a),B(b));
10:RETURN Sim(A(a),B(b));
11:END IF
為了驗證I-SSCMO法的有效性,本文利用兩對本體進行了實驗:生物醫(yī)學本體FMA和NCI、經(jīng)濟領域本體STW(The Thesaurus for Economics)和社會科學本體 TheSoz(The Thesaurus for the Social Sciences)。需要說明的是,盡管STW和TheSoz屬于不同的領域,但它們之間有很大部分的重疊域。由于I-SSCMO法主要改進了Montserrat法情況3的計算方法,本實驗從FMA和NCI、STW和TheSoz中分別選取了30對概念對。這些概念對不僅滿足情況3的條件,而且均具有匹配下位概念。在人工評判環(huán)節(jié),分別由多名醫(yī)學和經(jīng)濟專業(yè)人員對概念對的相似度按照5個等級打分(0表示兩個概念不相關(guān),4表示兩個概念相同),并以平均值作為人工評判的最終結(jié)果。最后,本文將Montserrat法和I-SSCMO法的計算結(jié)果與人工評判的結(jié)果進行了比較,并運用皮氏積矩相關(guān)系數(shù)的計算方法來評估結(jié)果的準確度,具體如公式(6)所示。r的取值范圍為[0,1],并且r值越大意味著計算結(jié)果越擬合人工評判的結(jié)果,此時相應方法能夠獲得更為準確的語義相似度。
其中,Xi為Montserrat法或I-SSCMO法計算第i對概念對的語義相似度,Yi為人工評判的第i對概念對的相似度,X可為Montserrat法或I-SSCMO法計算結(jié)果所組成的數(shù)組,Y為人工評判結(jié)果所組成的數(shù)組,Xˉ和Yˉ分別是X數(shù)組和Y數(shù)組的平均值。
鑒于加權(quán)因子w對I-SSCMO法的影響,本實驗從[0,1]中選取了11個w值,以評估在w不同的取值情況下I-SSCMO法的結(jié)果準確度。圖2展示了在計算FMA和NCI中概念對時Montserrat法或I-SSCMO法的性能比較。Montserrat法不受加權(quán)因子w的影響,因此其準確度始終是0.6579;當w=0.8時,I-SSCMO法的準確度達到最大值0.6602。圖2的結(jié)果說明,在FMA和NCI中匹配下位概念所提供的語義線索有限,I-SS?CMO的性能改進不顯著。圖3展示了在計算STW和TheSoz中概念對時Montserrat法或I-SSCMO法的性能比較。同樣,Montserrat法的準確度始終是0.5101;當w=0.9時,I-SSCMO法的準確度達到最大值0.5702,性能提升較為明顯。綜合圖2和圖3的結(jié)果,可以發(fā)現(xiàn):1.在計算多本體中概念對的語義相似度時,相對于匹配下位概念而言,匹配上位概念所提供的語義線索更為有效,即w應取較大值;2.對不同多本體處理時,應當根據(jù)具體情況選取w的值,即處理FMA和NCI時應取0.8、處理STW和TheSoz時應取0.9;3.對于彼此之間差異較大的本體對,考慮匹配下位概念所提供的語義線索是有效的,能夠提供更為準確度的結(jié)果。
圖2 計算FMA和NCI中概念對時的性能比較
圖3 計算STW和TheSoz中概念對時的性能比較
針對基于多本體的語義相似度計算方法所存在的問題,本文提出了綜合考慮匹配上位概念和匹配下位概念所提供語義線索的相似度計算方法。在FMA和NCI、STW和TheSoz上的實驗表明,通過選取合適的加權(quán)因子w,改進的方法I-SSCMO能夠在一定程度上獲得更準確的結(jié)果。在將來的研究中,我們將考慮如何更為充分地利用匹配下位概念提供的語義線索、加權(quán)因子w的優(yōu)化取值等問題。
[1]張滬寅,劉道波,溫春艷.基于《知網(wǎng)》的詞語語義相似度改進算法研究[J].計算機工程,2015,41(2):151-156.
[2]孫海霞,錢慶,成穎.基于本體的語義相似度計算方法研究綜述[J].現(xiàn)代圖書情報技術(shù),2010,26(1):51-56.
[3]Batet M,Sánchez D,Valls A,et al.Semantic Similarity Estimation from Multiple Ontologies[M].Applied Intelligence,2013:29-44.