李國佳 楊喜亮
摘要:國內(nèi)利用知網(wǎng)計算中文詞語相似度通常采用基于義原距離的方法,這些方法依賴于公式設(shè)計和參數(shù)選取。根據(jù)信息論中計算兩個事物相似度的思想,利用知網(wǎng)的分類體系來計算詞語所包含的義原信息量,將義原及其角色關(guān)系的信息量作為詞語相似度計算的基本單位,通過計算兩個詞語的共有義原及其角色關(guān)系的信息量和所有義原及其角色關(guān)系的信息量的比值來綜合計算詞語的相似度。實驗結(jié)果證明,該方法合理可行。
關(guān)鍵詞:義原信息量;角色關(guān)系;詞語相似度;信息處理
DOIDOI:10.11907/rjdk.151250
中圖分類號:TP391
文獻標識碼:A 文章編號:16727800(2015)006014203
作者簡介作者簡介:李國佳(1986-),男,山西大同人,碩士,華北水利水電大學(xué)軟件學(xué)院助教,研究方向為自然語言處理;楊喜亮(1981-),男,河南鄭州人,碩士,華北水利水電大學(xué)現(xiàn)代教育技術(shù)中心助教,研究方向為智能信息處理。
0 引言
詞語相似度計算在信息檢索、文本分類、信息抽取、機器翻譯等領(lǐng)域有著廣泛應(yīng)用。目前,詞語相似度的計算方法主要有兩大類:一類是基于距離的方法,如基于WordNet中詞語結(jié)點的距離來計算英語詞語的語義相似度[1],基于知網(wǎng)(Hownet)義原距離來計算中文詞語的語義相似度[23];另一類是基于語料統(tǒng)計的方法,這類方法假設(shè)凡是語義相近的詞語,它們的上下文也應(yīng)該相似,利用上下文中詞語的概率分布來計算詞語相似度[45]。
自1999年知網(wǎng)(HowNet)正式發(fā)布以來,其受到越來越多研究人員的關(guān)注。基于知網(wǎng)計算中文詞語的相似度也誕生了很多方法[2,68],這些方法通常根據(jù)意義分解思想,將詞語分解為更小單位(義原)參與相似度計算,再按照權(quán)重比例綜合計算詞語整體相似度。利用詞語分解后的單位(義原)參與計算,割裂了描述詞語的各個義原之間的關(guān)系,不能充分反應(yīng)出詞語間語義的相似性,計算結(jié)果也不夠理想。
本文從整體性角度出發(fā),給出一種基于義原信息量計算中文詞語相似度的方法?;谥W(wǎng)的分類體系(Taxonomy),將義原及其角色關(guān)系整體作為詞語相似度計算的基本單位,保留了描述詞語概念的各個義原間的關(guān)系,并依據(jù)信息論中計算兩個事物相似度的思想[4],用兩個詞語共有義原及其角色關(guān)系的信息量和所有義原及其角色關(guān)系的信息量來綜合計算詞語的相似度。
1 知網(wǎng)義原信息量
1.1 義原信息量
其中,P(A)表示義原A在某個語料庫樣本空間中出現(xiàn)的概率。計算語料庫樣本空間中某個義原出現(xiàn)的概率很困難。知網(wǎng)作為一個以各類概念及關(guān)系為描述對象的知識系統(tǒng),其分類體系本身可以看作是各個義原出現(xiàn)的一個樣本空間,那么僅依賴知網(wǎng)分類體系本身而不需其它語料庫,作為計算義原出現(xiàn)概率的樣本空間也是合理的。本文給出一種根據(jù)知網(wǎng)的分類體系來計算義原信息量的方法。
由義原組成的知網(wǎng)分類體系是一棵概念分類樹,在每類義原樹狀層次結(jié)構(gòu)(以下簡稱為義原樹)中,根結(jié)點義原是分類類別,是最大的分類,其它義原都是根結(jié)點義原的子孫??梢哉J為,分支結(jié)點義原包含越多的子孫結(jié)點,其信息量越小。葉子結(jié)點是最小的分類,所有葉子結(jié)點的信息量是相同的。
1.2 義原及其角色關(guān)系的信息量
在知網(wǎng)的知識詞典中,每個詞語由DEF來描述其概念。將DEF分為兩部分:主類義原和特性描述部分。
定義1:義原及其角色關(guān)系。
在詞語概念DEF的特性描述部分中,將義原及動態(tài)角色與特征(Event Role and Features)[9]的層次結(jié)構(gòu)的組合稱為義原及其角色關(guān)系。
定義2:主類義原。
在詞語概念DEF中,把描述詞語概念最左邊的第一個義原稱為主類義原,也稱為第0層義原及其角色關(guān)系。
例如詞語“病菌”的一個概念:DEF={bacteria|微生物:domain={medical|醫(yī)},modifier={able|能:scope={ResultIn|導(dǎo)致:result={disease|疾病}}}}。在“病菌”的DEF中,將“bacteria|微生物”稱為主類義原,其它部分是特性描述部分。在特性描述部分中,將“domain={medical|醫(yī)}”、“modifier={able|能 }”稱為DEF的第一層義原及其角色關(guān)系,其中包含兩個本層義原“medical|醫(yī)”和“medical|醫(yī)”;把“scope={ResultIn|導(dǎo)致}”稱為第二層義原及其角色關(guān)系,包含一個本層義原“ResultIn|導(dǎo)致”,將“result={disease|疾病}”稱為第三層的義原及其角色關(guān)系,包含一個本層義原“disease|疾病”,依次類推。
其中,I(pj)表示r所包含的第j個義原pj的信息量。
例如在詞語“病菌”的DEF中,每層的義原及其角色關(guān)系中包含的本層義原信息量均為3.346,根據(jù)式(4)可得“病菌”的義原及其角色關(guān)系的總信息量為7.946。
在知網(wǎng)中,包含幾種特殊符號,如“~”、“?”、“MYM”、“*”。其中,“~”表達的含義是充當(dāng)一個具體動態(tài)角色的值,“?”表示所充當(dāng)?shù)膭討B(tài)角色的演員一定會出現(xiàn),“MYM”表示充當(dāng)某一個動態(tài)角色的演員[9] 。設(shè)定模式為“{義原1:{義原2: 動態(tài)角色或特征={~}}}”情況下,“~”所表達內(nèi)容的信息量等于義原1的信息量。將其它特殊符號及動態(tài)角色的信息量設(shè)定為一個常數(shù),大小與具體詞的信息量相同,為3.346。一個沒有義原描述的具體詞,其信息量為一個常數(shù),其大小可規(guī)定為一個葉子義原結(jié)點的信息量3.346。
1.3 共有義原及其角色關(guān)系的信息量
3 實驗結(jié)果及分析
目前沒有可以評估中文詞語語義相似度算法質(zhì)量的專用數(shù)據(jù)集,本文選取一些常用詞語和知網(wǎng)漢語詞典中以“病”開頭的一些相關(guān)詞語作為實驗對象,與國內(nèi)著名的劉群方法[2]、知網(wǎng)在線[9]的詞語相似度計算方法進行對比分析。劉群方法、知網(wǎng)在線和本文方法的實驗參數(shù)如表1所示。詞語相似度實驗結(jié)果如表2所示。
本文方法與劉群方法、知網(wǎng)在線方法相比較可知,劉群方法是基于義原距離來計算詞語相似度,當(dāng)義原處在同一類義原樹中,詞語的相似度偏大,例如第3、6組詞語相似度結(jié)果比本文及知網(wǎng)在線方法的結(jié)果都偏大,與人的判斷也不一致。實際上,劉群方法在詞語相似度計算上不夠重視能反映出詞語差異的特性描述部分,使得詞語相似度計算結(jié)果的差異性不夠明顯,例如第4組詞語間相似度結(jié)果過于接近。
知網(wǎng)在線方法在計算詞語的相似性時更加細化,將詞語的義原結(jié)構(gòu)分解為多個部分,賦予各部分不同的權(quán)重然后加權(quán)計算得到整體間的相似度。這種方法實際上進一步割裂了描述詞語的各個義原之間的關(guān)系,使得詞語相似度計算的結(jié)果也不夠準確,例如第1、2、5、8、9組詞語,計算結(jié)果偏小。另外,知網(wǎng)在線方法對詞語特性描述部分計算比較復(fù)雜,計算量也較大。
綜合來看,本文方法的結(jié)果整體表現(xiàn)更加合理,能夠反映出詞語間語義的相似性和差異,與人的判斷結(jié)果比較一致,計算也簡單。
4 結(jié)語
基于知網(wǎng)義原信息量計算中文詞語相似度的方法根據(jù)信息論中計算兩個事物相似度的思想,利用知網(wǎng)的分類體系來計算義原信息量,并根據(jù)知網(wǎng)這一關(guān)系系統(tǒng)的特性,從保留義原間關(guān)系的角度出發(fā),將義原及其角色關(guān)系作為計算概念相似度的基本單位,更能全面反映詞語語義的相似性和差異?;谥W(wǎng)通過義原及其角色關(guān)系的信息量來綜合計算詞語的相似度,計算量較少,計算結(jié)果合理可行。在詞語相似度計算基礎(chǔ)上,進一步研究句子間相似度計算方法,則有待下一步研究。
參考文獻:
[1] ENEKO AGIRRE,GERMAN RIGAU.A proposal for word sense disambiguation using conceptual distance[C].Proceedings of the First International Conference on Recent Advanced in NLP,1995:258264.
[2] 劉群,李素建.基于《知網(wǎng)》的詞匯語義相似度的計算[C]. 臺北:第三屆漢語詞匯語義學(xué)研討會,2002,7(2):5976.
[3] 董振東,董強,郝長伶.《知網(wǎng)》的理論發(fā)現(xiàn)[J].中文信息學(xué)報,2007,21(4):39.
[4] DEKANG LIN.An informationtheoretic definition of similarity[C].Proceedings of the Fifteenth International Conference on Machine Learning,1998:296304.
[5] PHILIP RESNIK.Semantic similarity in a taxonomy: an informationbased measure and its application to problems of ambiguity in natural language[J].Journal of Artificial Intelligence Research,1999(2):95130.
[6] 夏天.漢語詞語語義相似度計算研究[J].計算機工程,2007, 33(6):191194.
[7] 張亮,尹存燕,陳家駿.基于語義樹的中文詞語相似度計算與分析[J].中文信息學(xué)報, 2010,24(6):2330.
[8] 王小林,王義.改進的基于知網(wǎng)的詞語相似度算法[J].計算機應(yīng)用,2011,31(11):7590.
[9] 董強,董振東.知網(wǎng)簡介[EB/OL].[20130129].http://www.keenage.com/.
責(zé)任編輯(責(zé)任編輯:孫 娟)