裴 培,丁雪晶
(安徽三聯(lián)學(xué)院 計(jì)算機(jī)工程學(xué)院, 合肥 230601)
伴隨著Internet的飛速發(fā)展、網(wǎng)絡(luò)資源的爆炸式增長(zhǎng),人們對(duì)于Web信息的獲取提出了更高的要求。一方面,用戶對(duì)信息獲取的準(zhǔn)確性、系統(tǒng)性越來(lái)越難;另一方面,由于語(yǔ)義的異構(gòu)特征,利用關(guān)鍵詞實(shí)現(xiàn)的簡(jiǎn)單匹配,缺失了有針對(duì)性的語(yǔ)義信息和數(shù)據(jù)關(guān)聯(lián),缺少對(duì)用戶意圖的精準(zhǔn)推測(cè),因而導(dǎo)致了“信息孤島”現(xiàn)象。諸如此類的“差異化表達(dá)”,無(wú)法滿足用戶從信息到知識(shí)層面探索的深層次體驗(yàn)。因此,能夠?qū)ξ谋具M(jìn)行自動(dòng)化的處理與檢索是人們一直關(guān)注的話題。語(yǔ)義相似度作為機(jī)器學(xué)習(xí)、自然語(yǔ)言處理領(lǐng)域的底層框架,在過(guò)去的20年里發(fā)展迅速,成果豐富。其中利用本體解決語(yǔ)義層面的信息共享問(wèn)題,成為該領(lǐng)域的一個(gè)核心研究方向。通過(guò)總結(jié)經(jīng)典方法、梳理匯報(bào)最新研究成果,對(duì)于完善基于本體的語(yǔ)義相似度研究進(jìn)展具有重要應(yīng)用價(jià)值。
相似性最早出現(xiàn)于心理學(xué)領(lǐng)域,是人對(duì)兩類對(duì)象進(jìn)行比較而產(chǎn)生的認(rèn)知反應(yīng)。這種反應(yīng)是人對(duì)對(duì)象進(jìn)行感知體驗(yàn)后進(jìn)行定性的比較,而非定量的表示。[1]
Dekang L.認(rèn)為任何兩個(gè)對(duì)象的相似度取決于它們的共性(Commonality)和差異性(Differences)。即兩個(gè)對(duì)象的共性越多,相似度越大;兩個(gè)對(duì)象的差異性越大,相似度越小。借助數(shù)據(jù)挖掘中二維數(shù)據(jù)特征向量的表達(dá)形式,建立一個(gè)對(duì)象-屬性結(jié)構(gòu)數(shù)據(jù)矩陣(n個(gè)對(duì)象被p個(gè)屬性刻畫(huà),其中xij是對(duì)象xi的第j個(gè)屬性的值,如公式(1)所示),可以從中得到任意兩個(gè)數(shù)據(jù)對(duì)象之間的相似性矩陣(公式(2))。
(1)
(2)
用Sim(i,j)來(lái)表示對(duì)象i和j的相似度,用Dis(i,j)表示兩者的相異度(即語(yǔ)義距離)。如果兩個(gè)對(duì)象i和j不相似,則Sim(i,j)=0;如果相似性值越高,那么對(duì)象之間的相似性越大(典型的,值1表示完全相似,即對(duì)象是等同的)。而語(yǔ)義距離的求解反之。[2]具體分析如下:
(1)當(dāng)Sim(i,j)=1時(shí),Dis(i,j)=0,即兩個(gè)語(yǔ)義對(duì)象之間完全相似;
(2)當(dāng)Sim(i,j)=0時(shí),Dis(i,j)則趨向于無(wú)窮大,表示兩個(gè)語(yǔ)義對(duì)象之間完全不相似或不相關(guān);
(3)語(yǔ)義距離的值是非負(fù)的,當(dāng)對(duì)象i和j彼此高度相似時(shí),Dis(i,j)接近于0;
(4)相似度和語(yǔ)義距離的對(duì)應(yīng)關(guān)系還可以歸納為:Sim(i,j)=α/Dis(i,j)+α,α為調(diào)節(jié)因子,用來(lái)調(diào)節(jié)相似度的取值。
本體論最先起源于哲學(xué)領(lǐng)域。柏拉圖認(rèn)為本體就是理念,康德認(rèn)為的本體是“自在之物”。[3]本體可以被看作是一個(gè)客觀存在的元系統(tǒng),用于解釋或說(shuō)明。[4]Gruber給出的本體定義為: Ontology是概念模型的明確的規(guī)范說(shuō)明。[5]Studer在Gruber基礎(chǔ)上提出“Ontology是共享概念模型的明確的形式化規(guī)范說(shuō)明”,其中包括四個(gè)層面[6,7]:概念模型(conceptualization)、明確(explicit)、形式化(formal)和共享(share)。
在語(yǔ)義相似度的研究范疇中,本體是由概念組成的高級(jí)描述,是表述特殊知識(shí)領(lǐng)域的形式化語(yǔ)言。如圖1所示,這是一個(gè)以WordNet為基礎(chǔ)的一個(gè)概念分類體系片段。[8]實(shí)線代表概念之間屬于 “is-a”關(guān)系,虛線連接的是省略了部分中間節(jié)點(diǎn)的概念集合。在這個(gè)分類中, “5分硬幣”概念節(jié)點(diǎn)和“1角硬幣”概念節(jié)點(diǎn)都位于“硬幣形式”概念節(jié)點(diǎn)下方,進(jìn)一步歸納得出:“5分硬幣”和“信用卡交易”這兩個(gè)概念子節(jié)點(diǎn)共享了一個(gè)特定的父節(jié)點(diǎn)“交易媒介”。在以概念特征為背景的本體劃分體系中,還可以進(jìn)一步歸納“5分硬幣”節(jié)點(diǎn)和“1角硬幣”概念節(jié)點(diǎn)共性特征,兩種都是外形上小巧、圓形、金屬材質(zhì)的貨幣,兩個(gè)節(jié)點(diǎn)作為子節(jié)點(diǎn)共同隸屬于“硬幣形式”這個(gè)父節(jié)點(diǎn)。
圖1 WordNet概念分類體系片段
本體借助樹(shù)形結(jié)構(gòu)來(lái)表征概念之間的語(yǔ)義關(guān)系。樹(shù)中節(jié)點(diǎn)表示概念,邊表示概念節(jié)點(diǎn)之間的關(guān)系。具體來(lái)說(shuō),較為寬泛的概念的節(jié)點(diǎn)處于樹(shù)中較高的位置,周圍節(jié)點(diǎn)相對(duì)稀疏。[9]較為具體的概念節(jié)點(diǎn)處于樹(shù)中較低位置或末端,周圍節(jié)點(diǎn)稠密。梳理相關(guān)研究,發(fā)現(xiàn)本體結(jié)構(gòu)對(duì)文本相似度影響包括以下5點(diǎn)因素:[10]
表1中描述的本體結(jié)構(gòu)分類片段如圖2—圖5所示。
表1 不同本體結(jié)構(gòu)對(duì)語(yǔ)義相似度的影響
圖2 節(jié)點(diǎn)間概念深度比較
圖3 節(jié)點(diǎn)間概念密度比較
圖4 連接概念節(jié)點(diǎn)中間路徑類型
圖5 有向邊關(guān)聯(lián)強(qiáng)度
國(guó)內(nèi)外學(xué)者在語(yǔ)義相似度領(lǐng)域已經(jīng)形成了較為成熟劃分體系和研究成果,本文參照Hlianoutakis[12]、Batet[13]等的研究,結(jié)合陳二靜[14]等文本相似度綜述劃分體系,將基于本體的語(yǔ)義相似度計(jì)算為4種:基于距離的語(yǔ)義相似度計(jì)算、基于內(nèi)容的語(yǔ)義相似度計(jì)算、基于屬性語(yǔ)義計(jì)算相似度和混合方法。
基于距離的語(yǔ)義相似度計(jì)算方法是通過(guò)測(cè)量?jī)蓚€(gè)概念節(jié)點(diǎn)在本體層次樹(shù)中的位置,以路徑長(zhǎng)度的方式體現(xiàn)差異。路徑越短,相似度越大;路徑越長(zhǎng),相似度越小。后期稱之為“利用最短路徑(Shortest Path)計(jì)算文本相似度的模型”。Rada利用本體的層次結(jié)構(gòu)中兩個(gè)概念詞的距離來(lái)表征相互之間的語(yǔ)義距離[15]。計(jì)算公式如下(3):
(3)
該算法的計(jì)算復(fù)雜度相對(duì)較小,缺陷是大部分均未考慮邊的類型影響因素,算法成立的前提是假設(shè)“本體分類體系中所有邊的距離權(quán)重相等”。此外,結(jié)合前文所提,邊的重要性還會(huì)受到位置信息、所表征的關(guān)聯(lián)強(qiáng)度等因素的影響。Hao[16]等提出從概念距離和概念深度兩方面計(jì)算相似度,但缺少對(duì)同一層次的最小公共父節(jié)點(diǎn)相似度結(jié)果的對(duì)比計(jì)算,算法準(zhǔn)確性有待進(jìn)一步探索。
Wu和Palmer[17]法是基于最近公共父節(jié)點(diǎn)的位置關(guān)系計(jì)算語(yǔ)義相似度。Leacock和Chodorow[18]法在最近公共父節(jié)點(diǎn)基礎(chǔ)上加入了本體樹(shù)深度對(duì)被比較概念詞相似度的影響。Hirst-Stonge[19]法取而代之先前的概念關(guān)系,轉(zhuǎn)而針對(duì)路徑的方向因素,其認(rèn)為:如果兩個(gè)概念節(jié)點(diǎn)路徑越短,且遍歷過(guò)程中較少改變路徑方向,則這兩個(gè)概念節(jié)點(diǎn)語(yǔ)義相關(guān)度高,但計(jì)算結(jié)果顯示并不理想。
Yang和Power[20]法提出基于本體結(jié)構(gòu)中有向邊關(guān)系的語(yǔ)義相關(guān)度計(jì)算方法,有向邊關(guān)系包括:“is a”“equivalence”和“part of”關(guān)系。設(shè)計(jì)了BDLS和UBFS兩種搜索算法和兩種語(yǔ)義相關(guān)度計(jì)算方法,由于該算法的實(shí)現(xiàn)需要涉及到7個(gè)可以自由參數(shù),因而不穩(wěn)定。
基于內(nèi)容的方法是將信息熵的計(jì)算與本體關(guān)系相結(jié)合?;舅枷霝椋焊拍钪g共享信息越多,熵越小,相似度越大。共享的信息內(nèi)容通過(guò)共有的父節(jié)點(diǎn)信息量計(jì)算表示。因?yàn)樵诒倔w中子節(jié)點(diǎn)往往是其上一層父節(jié)點(diǎn)的細(xì)化,故在整個(gè)樹(shù)形結(jié)構(gòu)中任意一個(gè)子節(jié)點(diǎn)的信息內(nèi)容能夠反映其所有的祖先節(jié)點(diǎn)的信息內(nèi)容[21]。單個(gè)概念節(jié)點(diǎn)信息量的計(jì)算公式(4)如下:
(4)
在本體中計(jì)算任意兩個(gè)節(jié)點(diǎn)之間的相似度公式(5)如下:
(5)
Lord[22]和Resnik[8]等提出基于最近公共父節(jié)點(diǎn)概念詞的出現(xiàn)頻率和信息量來(lái)計(jì)算節(jié)點(diǎn)詞對(duì)間的相似度。Lin[23]法還考慮到當(dāng)兩個(gè)概念詞同屬于一個(gè)本體時(shí),還應(yīng)考慮概念詞自身所包含的信息內(nèi)容,即既考慮到被比較概念詞之間的共享信息熵也考慮到兩個(gè)概念自身的信息熵之和,通過(guò)二者比值進(jìn)行相似度求解。Jiang和Conrath法[24]直接通過(guò)對(duì)語(yǔ)義距離的計(jì)算來(lái)表征被比較概念詞間的相似度,并加入了對(duì)結(jié)構(gòu)密度、節(jié)點(diǎn)深度、連通路徑類型等因素的考慮。榮河江[25]等利用基因本體攜帶的語(yǔ)義關(guān)系、基因產(chǎn)物屬性,改進(jìn)了基于信息量的計(jì)算方法,將信息量均值納入考慮,在Li方法的基礎(chǔ)上做了拓展,實(shí)驗(yàn)結(jié)果進(jìn)一步提升。
基于屬性的方法針對(duì)兩個(gè)概念對(duì)應(yīng)的屬性集進(jìn)行相似度計(jì)算。該方法的計(jì)算效果依賴于本體屬性集的完備性。兩個(gè)概念間共有更多的相同屬性,則相似度更高,反之概念間不同屬性越多,相似度降低。Tversky[26]算法從屬性角度研究?jī)蓚€(gè)概念之間的語(yǔ)義相似度,計(jì)算模型如下公式(6):
Sim(c1,c2)=Xf(c1∩c2)-Yf(c1-c2)-Zf(c2-c1)
(6)
該模型從屬性的角度出發(fā),綜合比較了兩個(gè)概念之間的共同屬性(f(c1∩c2)的返回值)和不同屬性((c1-c2)和(c2-c1))。利用相同的屬性增加概念間的相似度,不同的屬性減少概念間相似度進(jìn)行計(jì)算。該算法的特點(diǎn)在于屬性的選擇,但缺乏對(duì)數(shù)據(jù)類型屬性的區(qū)分,沒(méi)有考慮被比較概念詞的位置信息、以及祖先節(jié)點(diǎn)和所包含信息內(nèi)容。
楊方穎[27]等在Tversky算法模型基礎(chǔ)上,綜合了距離和信息量?jī)煞N算法的優(yōu)點(diǎn),加入了層次特征和屬性特征的度量來(lái)進(jìn)行相似度計(jì)算。
混合方法是對(duì)上面所有方法的綜合。代表算法有:Li[28]法同時(shí)考慮了考慮路徑長(zhǎng)度、概念深度、概念密度等要素,算法參數(shù)是基于經(jīng)驗(yàn)值,缺乏理論基礎(chǔ),并不能完全適應(yīng)到其他的本體中。史斌[29]等提出基于圖理論和信息論兩種方法結(jié)合的語(yǔ)義相似度計(jì)算方法。利用兩個(gè)概念的路徑長(zhǎng)度、局部密度結(jié)合連接路徑權(quán)重和信息量來(lái)度量相似度,但該算法主要是基于“is-a”語(yǔ)義關(guān)系。鄭志蘊(yùn)[30]等提出一種自適應(yīng)相似度綜合加權(quán)計(jì)算方法(ACWA),基于信息內(nèi)容、距離、屬性的相似度改進(jìn)計(jì)算方法,并采用主成分分析方法解決加權(quán)計(jì)算時(shí)人工賦權(quán)的不足的問(wèn)題。該方法有效提升了本體語(yǔ)義相似度計(jì)算的準(zhǔn)確性。張滬寅[31]等提出一種改進(jìn)的綜合加權(quán)的相似度計(jì)算算法(PRSSC),在共享路徑重合度的基礎(chǔ)上綜合加權(quán)概念節(jié)點(diǎn)密度、深度、最低共同祖先節(jié)點(diǎn)深度以及概念的屬性,在解決各種多繼承問(wèn)題的基礎(chǔ)上,進(jìn)一步提高計(jì)算準(zhǔn)確度。賀元香[32]等提出一種改進(jìn)的本體語(yǔ)義相似度計(jì)算方法,在本體結(jié)構(gòu)類型的計(jì)算中加入了深度、密度、寬度三種權(quán)重因子,并且綜合考慮語(yǔ)義重合度,語(yǔ)義距離對(duì)相似度的影響。徐英卓[33]等提出利用樹(shù)層次結(jié)構(gòu)特征表征本體間的關(guān)系,計(jì)算基于實(shí)例的概念相似度。該方法建立在領(lǐng)域本體的模型基礎(chǔ)上,利用重構(gòu)的本體樹(shù)反映本體間的映射關(guān)系。甄亞亞[34]等提出了一種基于領(lǐng)域本體樹(shù)狀結(jié)構(gòu)的相似度改進(jìn)算法,將本體樹(shù)結(jié)構(gòu)分為上下位兩個(gè)分層,在計(jì)算中綜合考慮語(yǔ)義距離與重合度、節(jié)點(diǎn)深度與密度,并結(jié)合加權(quán)計(jì)算對(duì)節(jié)點(diǎn)密度因子、語(yǔ)義重合度因子做了進(jìn)一步改進(jìn)。張思琪[35]改進(jìn)了基于信息量的計(jì)算方法,基于WordNet中概念結(jié)點(diǎn)的深度和下位詞提供的語(yǔ)義信息,并綜合考慮了Shortest Path以及IC語(yǔ)義距離,并設(shè)計(jì)了基于圖形用戶界面的交互系統(tǒng),實(shí)現(xiàn)了對(duì)某個(gè)單詞的上位詞或下位詞的查詢。許飛翔[36]等利用模擬退火改進(jìn)神經(jīng)網(wǎng)絡(luò)的算法實(shí)現(xiàn)了對(duì)本體概念的映射和集成,設(shè)立的具有全局指標(biāo)性能的本體樹(shù),解決了信息交互上的語(yǔ)義異構(gòu)問(wèn)題。
基于距離的方法直觀、易于理解、具有較低的時(shí)間復(fù)雜度,對(duì)于小規(guī)模的本體結(jié)構(gòu)具有一定的實(shí)用價(jià)值。當(dāng)面對(duì)復(fù)雜結(jié)構(gòu)大型本體時(shí),因其較少對(duì)本體特征的關(guān)注,導(dǎo)致忽略結(jié)構(gòu)中存在的多種繼承性以及其他相似度的影響因素(公共父節(jié)點(diǎn)的分布與數(shù)量等),算法效果不是很突出。此外,該方法較多的依賴于本體結(jié)構(gòu)的完備性和覆蓋力,適用于WordNet這種大型專業(yè)的通用本體庫(kù)。[11]
基于內(nèi)容的方法依托于大規(guī)模語(yǔ)料庫(kù)的統(tǒng)計(jì),結(jié)果相對(duì)比較客觀,能夠體現(xiàn)概念之間的相異性。但同時(shí)存在一些缺陷:第一,單純依靠信息熵作為判斷條件,往往會(huì)忽略其他影響因素例如本體自身結(jié)構(gòu)(概念節(jié)點(diǎn)密度與深度、路徑邊的關(guān)聯(lián)性和強(qiáng)度等),造成計(jì)算結(jié)果的準(zhǔn)確性下降。第二,計(jì)算需要統(tǒng)計(jì)概念詞的所有下位節(jié)點(diǎn)或下位樣子節(jié)點(diǎn)總數(shù),而在大數(shù)據(jù)環(huán)境下,一部分概念詞會(huì)受到“維度詛咒”影響,數(shù)據(jù)量呈現(xiàn)指數(shù)級(jí)增長(zhǎng),而一部分概念詞會(huì)受到形成“稀疏數(shù)據(jù)”現(xiàn)象,因此統(tǒng)計(jì)結(jié)果的精確度有待考量。此外,當(dāng)針對(duì)新的應(yīng)用領(lǐng)域建立領(lǐng)域本體時(shí),其語(yǔ)料庫(kù)的完備性不足,算法難以推進(jìn)實(shí)施。
基于屬性的方法存在兩個(gè)突出問(wèn)題:一是該算法的建立依賴于領(lǐng)域語(yǔ)料庫(kù)的規(guī)模和候選概念的詞頻,用于區(qū)分概念詞之間的相同屬性與不同屬性,除卻大型通用本體一般本體無(wú)法到達(dá)相應(yīng)的信息量;二是調(diào)節(jié)參數(shù)。不同本體下參數(shù)設(shè)置有所差異,因此限制了此算法的普適性。
混合方法由于考慮的因素較多,相對(duì)計(jì)算效果較好。但是在計(jì)算過(guò)程中較多依賴于附加信息因素,因此不能從根本上克服基于方法的局限性。[37]
任何一種算法的選擇因研究需求、具備的條件和實(shí)用場(chǎng)景而各異。從算法原理到模型實(shí)踐,從基于規(guī)則的理性主義(人工建模、基于規(guī)則體系的知識(shí)庫(kù))到基于統(tǒng)計(jì)的經(jīng)驗(yàn)主義(語(yǔ)料庫(kù))。伴隨著自然語(yǔ)言處理技術(shù)的深入研究,信息的飛速發(fā)展,新的知識(shí)體系亟待進(jìn)一步完善,相似度的研究還存在以下幾點(diǎn)問(wèn)題,值得深入思考與探究:
(1)本體的映射與更新。由于領(lǐng)域?qū)<抑R(shí)背景的差異,導(dǎo)致同一領(lǐng)域產(chǎn)生不同的本體。隨著信息的不斷變化,已構(gòu)建好的本體也需要適應(yīng)性的更新。本體的映射與更新,能夠有效解決上述問(wèn)題。[38]本體更新方法大致可以分為人工添加和自動(dòng)添加。依靠人工添加的方法效率低、易出錯(cuò),因此,應(yīng)當(dāng)關(guān)注本體的自擴(kuò)展與自動(dòng)化建設(shè),關(guān)注基于語(yǔ)義相似度的本體概念的自動(dòng)更新算法。
(2)本體的異構(gòu)性與跨本體語(yǔ)義相似度研究。網(wǎng)絡(luò)信息資源分散性提高了本體的使用頻率,同時(shí)也使得同一領(lǐng)域里存在多個(gè)形式的本體,這種本體異構(gòu)性影響了實(shí)際計(jì)算的準(zhǔn)確率。同時(shí),單一本體的計(jì)算并不能滿足研究與應(yīng)用的需求,相似性的計(jì)算可以在單一本體結(jié)構(gòu)內(nèi)的完成,也可以在本體之間實(shí)現(xiàn)。因此,應(yīng)當(dāng)加強(qiáng)跨本體、異構(gòu)本體的語(yǔ)義相似度相關(guān)研究。
(3)網(wǎng)絡(luò)資源背景下的相似度計(jì)算所面臨的挑戰(zhàn)。網(wǎng)絡(luò)資源為相似度計(jì)算提供了大規(guī)模語(yǔ)料庫(kù),新型的Web信息組織結(jié)構(gòu)與表征也將應(yīng)用到文本的相似度計(jì)算之中。但現(xiàn)實(shí)的問(wèn)題是,在小數(shù)據(jù)集規(guī)模中本體研究表現(xiàn)穩(wěn)定,而經(jīng)過(guò)累加詞語(yǔ)相似度獲得長(zhǎng)文本相似度,則突顯出計(jì)算效率較低的問(wèn)題。因此,需要關(guān)注數(shù)據(jù)挖掘領(lǐng)域機(jī)器學(xué)習(xí)的相關(guān)方法,例如監(jiān)督學(xué)習(xí)、詞向量的文本表示等,將本體中的概念與網(wǎng)絡(luò)知識(shí)詞條進(jìn)行匹配,以便充分挖掘完善語(yǔ)義信息。
(4)混合方法突破創(chuàng)新,日漸豐富。在進(jìn)行相似度計(jì)算的過(guò)程中,單一的計(jì)算方法容易導(dǎo)致計(jì)算結(jié)果非線性偏高。例如,基于WordNet結(jié)構(gòu)的計(jì)算方法受到人工的主觀影響較大,基于信息量的方法受到語(yǔ)料庫(kù)的影響較大,在某些特定領(lǐng)域,語(yǔ)料庫(kù)的質(zhì)量決定相似度計(jì)算的精確度。因此,多種方法的融合能在一定程度上彌補(bǔ)單一方法的不足,提供基于本體的語(yǔ)義相似度計(jì)算方法的準(zhǔn)確性,而這種方法的融合需要根據(jù)具體任務(wù)選擇相應(yīng)的算法并進(jìn)行加權(quán)和回歸。
(5)領(lǐng)域之間的融合與探索。任何一種算法都不可能解決所有問(wèn)題,每個(gè)算法都有針對(duì)性。因此,加強(qiáng)跨學(xué)科領(lǐng)域的交流、領(lǐng)域?qū)<业暮献?,能夠促進(jìn)跨領(lǐng)域本體的集成與融合,并對(duì)相似度的計(jì)算提供更有價(jià)值的方法與思路。