孫麗莉,張小剛
(1.西安交通大學(xué) 人文學(xué)院,西安 710049;2.塔里木大學(xué)a.學(xué)報(bào)編輯部;b.信息工程學(xué)院,新疆 阿拉爾 843300;3.浙江大學(xué) 計(jì)算機(jī)學(xué)院,杭州 310027)
概念語義相似度計(jì)算因其在詞義消歧、文本分類、信息檢索和機(jī)器翻譯等方面的諸多用途而被廣泛應(yīng)用于人工智能、自然語言處理以及認(rèn)知科學(xué)等學(xué)科領(lǐng)域。本體[1]因其能夠準(zhǔn)確描述概念含義和概念之間的內(nèi)在關(guān)聯(lián),已成為語義相似度研究的基礎(chǔ)?;诒倔w的概念語義相似度是指本體中兩個(gè)概念在語義上的相似程度,需要考慮詞語所在的語境和語義等信息。WordNet作為一部樹狀的語義詞典,在自然語言處理研究等方面應(yīng)用很廣,已出現(xiàn)很多概念語義相似性度量方法的研究成果。因此,本文對當(dāng)前基于WordNet通用本體語義相似度計(jì)算進(jìn)行系統(tǒng)的梳理顯得十分必要,旨在通過深入的分析和總結(jié),闡述研究的最新進(jìn)展,為未來的研究提供參考。
目前提出的語義相似度計(jì)算方法主要可以分為兩類:一類是基于上下文統(tǒng)計(jì)信息的方法,這種方法利用大規(guī)模的語料或詞語定義,收集統(tǒng)計(jì)數(shù)據(jù),來估算詞匯語義相似度;另一類是基于某種世界知識(本體)或分類體系組織的語義詞典來進(jìn)行計(jì)算,這種方法根據(jù)概念間結(jié)構(gòu)層次關(guān)系來進(jìn)行計(jì)算詞語的相似度,例如上下位關(guān)系和同位關(guān)系等。目前,基于本體的語義相似度計(jì)算方法研究已經(jīng)形成了豐富的研究成果,其中,Princeton大學(xué)基于認(rèn)知語言學(xué)而設(shè)計(jì)的英語詞典WordNet因其思想簡單明確,框架形式結(jié)構(gòu)合理,通用性強(qiáng)而被詞匯語義學(xué)界和計(jì)算詞典學(xué)界所認(rèn)可,被廣泛應(yīng)用于概念語義相似度計(jì)算[2]。
作為通用的英語語言學(xué)本體庫和語義詞典,WordNet按語義關(guān)系組織詞匯語義網(wǎng)絡(luò),詞匯通過同義詞集合來表示,每個(gè)集合標(biāo)明一個(gè)詞匯概念,同時(shí)通過鏈路表達(dá)上下位、部分整體、同義反義等語義關(guān)系。這樣就構(gòu)成了一個(gè)比較完整的語義網(wǎng)絡(luò),同時(shí)又提供了很好的概念層次結(jié)構(gòu),同義詞集合之間的語義關(guān)系通過鏈接來實(shí)現(xiàn)。
基于WordNet本體的語義相似度計(jì)算模型可分為三大類:第一類是基于路徑距離計(jì)算的方法[3-8],這類方法一般通過計(jì)算邊的個(gè)數(shù)來計(jì)算兩個(gè)概念在分類樹中的語義距離,然后將語義距離轉(zhuǎn)換成相似度值,該方法主要考慮的是連接兩個(gè)概念的邊的數(shù)量,邊的個(gè)數(shù)越多表示距離越遠(yuǎn),表示兩個(gè)概念的相似度越小。第二類是基于IC(Information Content)[9-13]的方法,一般通過計(jì)算兩個(gè)概念共有信息量的多少來確定概念間的相似度。這些方法依據(jù)概念c在語義詞典中出現(xiàn)的頻率給每一個(gè)概念關(guān)聯(lián)一個(gè)概率p(c),然后將每個(gè)概念的概率的負(fù)對數(shù)似然值作為這個(gè)概念的信息量,即 IC(c)=-log p(c)。第三類是基于屬性特征的方法[14-17],該方法認(rèn)為事物間的關(guān)聯(lián)程度與它們所共有的屬性數(shù)成正比。兩個(gè)概念的公共屬性數(shù)量越多,相似度越大?;趯傩缘恼Z義相似度計(jì)算從詞匯的特征出發(fā)來計(jì)算概念語義相似度,如利用WordNet中的同義關(guān)系,利用概念節(jié)點(diǎn)的祖先節(jié)點(diǎn)的交集和并集。在不作具體說明情況下,本文介紹的這3類算法都是建立在WordNet“is_a”關(guān)系樹狀分類體系基礎(chǔ)上的。
基于路徑距離的語義相似度算法以WordNet is_a關(guān)系分類樹為基礎(chǔ),通過兩個(gè)概念在關(guān)系樹中的最短距離來表示它們之間的語義相似性,該類方法認(rèn)為距離越近的概念間語義相似程度越高,該類算法中典型的有Rada等[3]提出的根據(jù)鏈接兩個(gè)概念的路徑中的最小長度路徑來計(jì)算兩個(gè)概念的相似度,也就是利用邊的個(gè)數(shù)來計(jì)算。相應(yīng)計(jì)算公式如式(1)所示:
后來Wu&Palmer[4]提出了新的改進(jìn)方法,主要思想是在別的因素不變的情況下,在分類樹中層次越低的概念之間相似度越小。具體計(jì)算時(shí)除了考慮兩個(gè)概念間的路徑外,還考慮了兩個(gè)概念的公共父節(jié)點(diǎn)及其在分類樹中的相關(guān)深度,相應(yīng)計(jì)算公式如式(2)所示:
其中,depth(ci)表示概念 ci在WordNet“is_a”關(guān)系樹中的深度。len(c1, c2)是指WordNet中兩個(gè)概念 (c1, c2)最短的路徑距離。lso(c1,c2)表示c1和c2處于WordNet“is_a”樹中最深層的公共父節(jié)點(diǎn)。
Leacock&Chodorow[5]也提出了一種非線性的計(jì)算方法,該方法考慮了兩個(gè)概念間的節(jié)點(diǎn)數(shù)量(包含本身)和所處的分類樹的最大深度,相應(yīng)計(jì)算公式如式(3)所示:
這種方法考慮了兩個(gè)概念間的路徑,對于一個(gè)固定的分類樹來說,兩個(gè)概念間的路徑越多,語義相似度越小。從信息論的角度看,該算法求解得到的語義相似度值是概念間路徑所提供的信息量。
Hirst-St-Onge法[6]認(rèn)為存在較短路徑的概念詞c1和c2,在遍歷路徑過程中方向改變的次數(shù)越少,則兩個(gè)概念詞相關(guān)性越強(qiáng)。具體計(jì)算公式如式(4)所示:
其中,C和k為常量,L代表c1和c2間最短路徑長度,d表示遍歷路徑中方向改變的次數(shù)。雖然Hirst-St-Onge的方法考慮了路徑“方向”問題,但實(shí)驗(yàn)效果不佳[7]。
通過以上典型方法可以看出,基于距離的方法的優(yōu)點(diǎn)主要是只依靠概念所處分類樹的幾何模型,相對于文本語料庫方法來說算法簡單,計(jì)算量較小。不足之處在于因?yàn)槁窂绞且粋€(gè)離散量,如果單純基于路徑去求相似度勢必很難改善相似度算法的性能,精確性較差,例如在計(jì)算時(shí)本體中別的路徑都被忽略,只考慮最小路徑,這樣求出的語義相似度值準(zhǔn)確度不好。
基于IC的語義相似度算法的核心是算法中IC值的計(jì)算,因此研究人員在基于IC信息容量的語義相似度算法研究主要集中與兩個(gè)方向,一是語義相似度計(jì)算模型,二是IC值計(jì)算模型。例如,Resnik[8],Jiang-Conrath[9],Lin[10]等人都提出了各自的語義相似度算法模型。Seco[12],Zhou[13],Meng[14],Sánchez[15],Sebti[16]等人提出了自己的 IC 計(jì)算模型。
在提出語義相似度計(jì)算模型的人中,Resnik是第一個(gè)引入本體和詞典來計(jì)算相似度的人。他從語義判斷的目的出發(fā),提出在在分類樹中,概念出現(xiàn)的頻率可以用Brown語料庫[2]的名詞頻率來估計(jì)。Resnik根據(jù)該理論判斷一對概念的相似度就應(yīng)該是這對概念共享信息的數(shù)量,因此他將兩個(gè)概念c1和c2的共同祖先的最大信息量作為兩個(gè)概念的語義相似度。其提出的語義相似度算法模型如式(5)所示:
其中,lso( )c1,c2指概念c1和c2位于該分類樹中的最小公共父節(jié)點(diǎn)。
Jiang-Conrath的語義相似度算法是在Resnik算法的基礎(chǔ)上提出的,與Resnik相同的是Jiang-Conrath也利用了信息容量的概念,只不過作者通過結(jié)合一些詞對的最大詞義性來計(jì)算相似性。
這里s1i和s2j是w1和w2的意義(在本體中的概念)。他們利用兩個(gè)概念的信息量和它們的最大信息量之差作為語義距離進(jìn)行語義相似度的計(jì)算,這種方法被認(rèn)為是計(jì)算兩個(gè)概念的相異度。其算法模型如下:
基于IC的語義相似度算法研究中偏重IC值計(jì)算的研究重點(diǎn)是研究如何優(yōu)化IC值精確度[11-16]。
Seco等[11]是第一個(gè)提出利用分類樹自身內(nèi)部組織結(jié)構(gòu)特點(diǎn)進(jìn)行IC值計(jì)算的人。他們發(fā)現(xiàn),一個(gè)概念包含的子節(jié)點(diǎn)越多,它擁有的信息量越少,同時(shí)它包含的葉子節(jié)點(diǎn)的信息量越大。他們提出的這種方法只與WordNet的自身結(jié)構(gòu)有關(guān),該方法中某個(gè)概念c的信息容量依靠的是基礎(chǔ)本體的下義詞的數(shù)量。該方法IC值的計(jì)算公式如式(9)所示:
Lin對語義相似度的理解與Resnik類似,他認(rèn)為一方面概念有共性的一面,另一方面每一個(gè)概念也有自己單獨(dú)的信息容量。因此他提出的的語義相似度算法都與特定的應(yīng)用、特定的領(lǐng)域有關(guān)。后來,Lin考慮定義一個(gè)通用的計(jì)算相似度的方法,他認(rèn)為兩個(gè)概念的相似性應(yīng)該能被信息共性和信息總量的比值來測算,其提出的算法模型如下:
這里 hypo(c)返回值是概念c的所有子節(jié)點(diǎn)數(shù),max_nodes代表的是該分類樹本身所包含的概念的最大數(shù)量。該方法中默認(rèn)WordNet是基礎(chǔ)分類樹,但該模型存在的問題是兩個(gè)處于不同層次但下義詞數(shù)量相同的概念,它們的相似度計(jì)算結(jié)果也相同。
為了避免這種情況,David Sanchez等[12]引入了一種新的基于自身結(jié)構(gòu)的模型來計(jì)算IC的值,這種方法沒有考慮深度問題,而是引入了下義詞,通過一個(gè)概念的下義詞和上義詞來進(jìn)行計(jì)算。他們認(rèn)為依靠葉子來區(qū)分不同概念就已經(jīng)足夠了,David新提出的IC計(jì)算公式如下:
式中l(wèi)eaves(a)=m∈C/m∈hyponyms(a),這里C 是本體概念集合,m是其中的葉子節(jié)點(diǎn)。subsumers(a)={c ∈C/a≤c}∪{a},這里a≤c是指a為c的直系下義詞節(jié)點(diǎn)。所有的葉子概念不論深度都擁有相同的最大信息容量 -log (1/(max_leaves+1))。該模型存在的問題是有相同上義詞概念但有不同下義詞結(jié)構(gòu)和下義詞數(shù)會導(dǎo)致IC值相等。也就意味著這兩個(gè)概念意義相同但包含信息不同。
為了克服這種情況,Zhou等[13]引入了概念的下義詞的相對深度,提出了一種新的計(jì)算IC值的方法:
引入深度作為權(quán)重參數(shù)雖然克服了David算法的問題,但又導(dǎo)致了新的問題的產(chǎn)生,例如該參數(shù)必須通過實(shí)驗(yàn)調(diào)試來確定具體的K值。
為此Meng等[14]整合了Seco and Zhou的方法來克服這種情況,他考慮了每個(gè)概念的深度和該概念的每個(gè)下義詞的深度,并改變了術(shù)語 hypo(c)而通過另一個(gè)術(shù)語max_depth來體現(xiàn)對IC計(jì)算的貢獻(xiàn):
對概念c,depth(c)是概念c在分類樹中的深度,max_depth是分類樹的最高深度,max_nodes是分類樹中的概念的最大數(shù)量。
David Sanchez等后來針對自己文章[12]存在的不足,又提出了一種新的利用概念共性(commonness)來計(jì)算IC值的模型[15],這種模型依靠葉子節(jié)點(diǎn)的subsumer(上義詞)的數(shù)量來計(jì)算IC的值。具體計(jì)算公式如下所示:
Sebti等[16]也提出了一種包含了深度的以下義詞數(shù)量為基礎(chǔ)的IC計(jì)算新方法來。具體計(jì)算方法如圖1所示。
以Box的IC值計(jì)算為例:
圖1 Sebti算法的信息容量片段計(jì)算示例
通過以上分析可以看出,這些方法都是以不同形式利用了本體中的節(jié)點(diǎn)和結(jié)構(gòu),例如 hypo(c),leaves(c),subsumers(c)和depth(c),其中Resnik 的算法、Jiang-Conrath的算法與Lin算法都是直接或間接的將兩個(gè)概念父節(jié)點(diǎn)的IC值作為兩個(gè)概念的相似度,Seco,Zhou and Sánchez等人都在一定程度上利用層次結(jié)構(gòu)來計(jì)算本體中的IC,都有一定的代表性。
基于屬性的語義相似度計(jì)算模型的方法依據(jù)的思想是事物之間的關(guān)聯(lián)程度與其所具有的公共屬性數(shù)相關(guān),兩個(gè)概念的公共屬性數(shù)量越多,相似度越大。因此,這類方法的基本原理是通過判斷兩個(gè)概念對應(yīng)的屬性集的相似程度來區(qū)分概念的語義相似度。
Tversky[17]算法模型是該類算法的典型,其語義相似度計(jì)算模型如下:
其中,θ ,α ,β ,f(c1∩c2)返回的是c1和c2的公共屬性項(xiàng)的數(shù)量,f(c1-c2)返回的是c1有但c2中沒有的屬性數(shù),f(c2-c1)返回的是c2有但c1中沒有的屬性數(shù),參數(shù)分別表示c1和c2的公共屬性和非公共屬性對其相似度計(jì)算的影響程度,參數(shù)值的確定由具體任務(wù)決定,且由于概念詞相似度的非對稱性,α和β值不一定相同?;趯傩缘恼Z義相似度計(jì)算模型在國內(nèi)典型的有荀恩東等[18]人從WordNet中提取同義詞并采取向量空間方法計(jì)算的語義相似度模型。該計(jì)算模型首先從WordNet的同義詞詞集(Synset)、類屬信息(Class)和意義解釋(Sense Explanation)三方面抽取候選同義詞,進(jìn)行特征提取后計(jì)算被比較概念詞的各個(gè)意義(Sense),然后在這三個(gè)特征空間通過計(jì)算距離來計(jì)算各自的意義相似度,最后基于意義相似度來綜合計(jì)算詞語的相似度。
除此之外,也有一些研究人員將上述三種方法進(jìn)行了綜合,即同時(shí)考慮了概念詞的位置信息、邊的類型、概念詞的屬性信息等,綜合分析后提出了一些混合參數(shù)的語義相似度計(jì)算方法,例如Rodriguez等人[19],Knappe[20],王桐等[21],張忠平等[22]都提出了自己的相似度模型,這些模型都是在以上三種基本類型基礎(chǔ)上的綜合考量。
目前,基于WordNet通用本體的相似度計(jì)算研究已經(jīng)取得很多成果,這些成果從WordNet語義詞典的結(jié)構(gòu)信息、位置信息、內(nèi)容信息等角度對概念語義相似度的本質(zhì),語義相似度算法和如何更好地揭示概念間的語義關(guān)系來展開。本文僅從算法利用的角度進(jìn)行綜述,同時(shí)對每種類型中有代表性的算法進(jìn)行了系統(tǒng)的闡述和比較?;诋?dāng)前研究成果,本文認(rèn)為,今后基于本體的語義相似度研究還需從以下幾個(gè)方向予以深入[22-26]:(1)通過融合的方法從不同的角度和層面充分揭示詞匯間語義關(guān)系的背景信息,準(zhǔn)確有效實(shí)現(xiàn)被比較詞語向本體概念詞的映射。(2)基于語料庫的統(tǒng)計(jì)方法具有數(shù)據(jù)稀疏和數(shù)據(jù)噪音問題,基于語義詞典的方法受領(lǐng)域應(yīng)用的限制,無法反映客觀實(shí)際情況,所以如何將將語料庫以及語義詞典合理融合進(jìn)行優(yōu)勢互補(bǔ),還有待進(jìn)一步研究和實(shí)踐。(3)本體語義詞典結(jié)構(gòu)非常復(fù)雜,除了上下位關(guān)系外,還有同義、反義、整體部分等關(guān)系,目前針對上下位關(guān)系外的別的結(jié)構(gòu)的研究還比較少,所以加強(qiáng)本體中其他語義關(guān)系相似度計(jì)算研究對語義相似度研究的進(jìn)一步發(fā)展非常必要。(4)本體之間側(cè)重點(diǎn)不同,尤其是領(lǐng)域本體之間差距很大,所以跨本體之間的語義相似度研究也是重要的方向之一。(5)目前語義相似度研究的檢驗(yàn)仍然依靠數(shù)據(jù)測試集R&G[27]和M&C[28]等,通用性差,只限于名詞,而且數(shù)據(jù)量少,因此建立樣本數(shù)更多、詞性范圍更廣、可靠性更好的通用測試集也成是今后的研究方向。
[1]Gruber T R.A Translation Approach to Portable Ontology Specifica?tions[J].Knowledge Acquisition,1993,5(2).
[2]Fellbaum C,Miller G.WordNet:An Electronic Lexical Database[M].Massachusetts:MIT Press,1998.
[3]Rada R,Mili H,Bicknell E,et al.Development and Application of A Metric on Semantic Nets[J].IEEE Transactions on Systems Man&Cy?bernetics,1989,19(1).
[4]Wu Z,Palmer M.Verb Semantics and Lexical Selection[J].ACL Pro?ceedings of Annual Meeting on Association for Computational Linguis?tics,1994.
[5]Fellbaum C,Miller G.Combining Local Context and WordNet Similar?ity for Word Sense Identification[M].WordNet:An Electronic Lexical Database,1998.
[6]HirstG,St-Onge D.Lexical Chains as Representations of Context for the Detection and Correction of Malapropisms[M].Cambridge:The MIT Press,1998.
[7]Budanitsky A,Hirst G.Semantic Distance in WordNet:An Experi?mental,Application-oriented Evaluation of Five Measures[C].The Workshop on WordNet&Other Lexical Resources,2001.
[8]Resnik,Philip.Using Information Content to Evaluate Semantic Simi?larity in a Taxonomy[C].International Joint Conference on Artificial Intelligence,1995.
[9]Jiang J J,Conrath D W.Semantic Similarity Based on Corpus Statis?tics and Lexical Taxonomy[R].Proceedings of International Confer?ence on Research in Computational Linguistics,August 22-24;Taipei,Taiwan,1997.
[10]Lin D.An Information Theoretic Definition of Similarity.In:ShavlikJ,editor.Fifteenth International Conference on Machine Learning,IC?ML 1998.Madison(Wisconsin,USA):Morgan Kaufmann,1998.
[11]Nuno Seco,Tony Veale,and Jer Hayes.An Intrinsic Information Content Metric for Semantic Similarity in WordNet,European Confer?ence on Artificial Intelligence-ECAI,2004.
[12]David Snchez,MontserratBatet,and David Isern,Ontology Based In?formation Content Computation,Journal on Knowledge-Based Sys?tems,2011,24(2).
[13]Zili Zhou,Yanna Wang,and Junzhong Gu,A New Model of Informa?tion Content for Semantic Similarity in WordNet,International Con?ference on Future Generation Communication and Networking Sym?posia,IEEE Computer Society,2008.
[14]Lingling Meng,Junzhong Gu,and Zili Zhou,A New Model of Informa?tion Content Based on Concepts Topology for Measuring Semantic Similarity in WordNet,International Journal of Grid and Distributed Computing,2012,5(3).
[15]David Snchez and Montserrat Batet,A New Model to Compute the Information Content of Concepts from Taxonomic Knowledge,Inter?national Journal on Semantic Web Information Systems archive,2012,8(2).
[16]Sebti A,Barfroush A A.A New Word Sense Similarity Measure in WordNet[C].International Multiconference on Computer Science and Information Technology.IEEE,2008.
[17]Tversky.A,Features of Similarity,Psychological Review,1977,84(2).
[18]荀恩東,顏偉.基于語義網(wǎng)計(jì)算英語詞語相似度[J].情報(bào)學(xué)報(bào),2006,25(1).
[19]Sabou M,Richards D,Splunter S V.An Experience Report on Using DAML-S[C].WWW 2003 Workshop on E-Services and the Seman?tic Web,2003.
[20]Knappe R,Bulskov H,Andreasen T.On Similarity Measures for Con?cept-based Querying [C].In:Proceedingsofthe10th International Fuzzy Systems Association World Congress,2003.
[21]王桐,王磊等.WordNet中的綜合概念語義相似度計(jì)算方法[J].北京郵電大學(xué)學(xué)報(bào),2013,36(2).
[22]張忠平,田淑霞,劉洪強(qiáng).一種綜合的本體相似度計(jì)算方法[J].計(jì)算機(jī)科學(xué),2007,35(12).
[23]孫海霞,錢慶,成穎.基于本體的語義相似度計(jì)算方法研究綜述[J].現(xiàn)代圖書情報(bào)技術(shù),2010,(1).
[24]左秀然.基于概念相似度的本體映射系統(tǒng)研究[D].武漢:武漢理工大學(xué),2008.
[25]黃宏斌,董發(fā)花,鄧蘇等.一種跨本體的語義相似度計(jì)算方法[J].計(jì)算機(jī)科學(xué),2008,35(7).
[26]曹澤文,錢杰,張維明等.一種綜合的概念相似度計(jì)算方法[J].計(jì)算機(jī)科學(xué),2007,34(3).
[27]Rubenstein H,Goodenough J B.Contextual Correlates of Synonymy[M].ACM,1965.
[28]Miller G A,Charles W G.Contextual Correlates of Semantic Similari?ty[J].Language and Cognitive Processes,1991,6(1).