張 亮,尹存燕,陳家駿
(1. 南京大學(xué) 計算機(jī)軟件新技術(shù)國家重點實驗室,江蘇 南京 210093;
2. 江蘇警官學(xué)院 公安科技系,江蘇 南京 210000)
詞是研究語句的基本語義單元和句法單位,詞之間的相似度與相關(guān)度的分析是研究詞語相互關(guān)系的核心內(nèi)容之一,在信息檢索、信息抽取、詞義排歧、機(jī)器翻譯、句法分析等處理中有很重要的作用。
常見的詞語相似度計算方法主要有兩類[1], 一種是根據(jù)世界知識(Ontology) 或分類體系(Taxonomy)計算,一種是利用大規(guī)模語料庫進(jìn)行統(tǒng)計。
根據(jù)世界知識計算詞語語義距離的方法,一般是利用一部同義詞詞典(Thesaurus)。一般同義詞詞典都是將所有的詞組織在一棵或幾棵樹狀的層次結(jié)構(gòu)中,一棵樹形圖中,任何兩個節(jié)點之間有且只有一條路徑[2]。于是,這條路徑的長度就可以作為這兩個概念的語義距離的一種度量。劉群等人利用《知網(wǎng)》計算語義相似度,但無法計算不同詞性之間的相似度;李素建綜合了《知網(wǎng)》和同義詞詞林計算語義相似度,但由于《知網(wǎng)》與同義詞詞林是完全不同的組織方式, 所以計算結(jié)果不太理想。
統(tǒng)計方法則是在大規(guī)模語料中統(tǒng)計分析每個詞的特征詞向量, 然后利用這些向量之間的相似度(用向量的夾角余弦計算) 作為這兩個詞的相似度。這種做法的假設(shè)是,凡是語義相近的詞,他們的上下文也應(yīng)該相似。李涓子利用這種思想來實現(xiàn)語義的自動排歧[3];魯松研究了如何利用詞語的相關(guān)性來計算詞語的相似度[4]。Dagan使用了更為復(fù)雜的概率模型來計算詞語的距離[5]。
這兩種方法各有特點:基于世界知識的方法簡單有效,也比較直觀、易于理解,與人的學(xué)習(xí)理解方式類似,但這種方法需要有較完備的知識庫的支撐,另外,這種方法比較準(zhǔn)確地反映了詞語之間語義方面的相似性和差異,而對于詞語之間的句法和語用特點考慮得比較少?;谡Z料庫的方法比較客觀,綜合反映了詞語在句法、語義、語用等方面的相似性和差異。但是,這種方法比較依賴于訓(xùn)練所用的語料庫,計算量大,計算方法復(fù)雜,另外,受數(shù)據(jù)稀疏和數(shù)據(jù)噪聲的干擾較大,有時會出現(xiàn)明顯的錯誤。
本文基于新版《知網(wǎng)》進(jìn)行詞語相似度計算,從功用角度(如句法分析)將詞語相似度細(xì)化為語義特征相似度和句法特征相似度,改進(jìn)了傳統(tǒng)的基于《知網(wǎng)》的相似度計算方法,通過構(gòu)建多維語義樹,將詞相似分析轉(zhuǎn)化為樹的相似分析,設(shè)計了一個新的詞語相似度計算模型。
《知網(wǎng)》(HowNet)[6]是目前國內(nèi)外漢語自然語言處理中使用較為廣泛的語義資源平臺,是一個以漢語和英語的詞語所代表的概念為描述對象,以揭示概念與概念之間以及概念所具有的屬性之間的關(guān)系為基本內(nèi)容的常識知識庫。這里的概念簡而言之是一詞多義中的一個“義”,是計算語義的依據(jù)。《知網(wǎng)》定義了一套釋義元語言,即義原(Sememe)對概念進(jìn)行刻畫和描述,義原本身是不易再分割的意義最小單位,具有唯一性和確定性。由義原構(gòu)筑起來的《知網(wǎng)》概念層次體系(Taxonomy)是一棵概念分類樹,如圖1所示,將所有的概念從top-down的視角劃分為事件Event、實體Entity、屬性Attribute、屬性值A(chǔ)ttribute Value、次要特征Secondary Feature等幾個特征類別?!吨W(wǎng)》著力描述了概念之間和概念屬性之間的各種關(guān)系,主要包括上下位關(guān)系、同義關(guān)系、反義關(guān)系、對義關(guān)系、屬性—宿主關(guān)系、部件—整體關(guān)系、材料—成品關(guān)系、事件—角色關(guān)系[7]。與一般作為語言處理資源的詞典相比, 《知網(wǎng)》具有的特點見圖1。
圖1 HowNet的概念層次結(jié)構(gòu)
(1) 釋義元語言——義原的定義和使用,使得概念描述具有較好的概括性和確定性;
(2) 設(shè)計并使用了一種知識詞典的描述語言(KDML)規(guī)范概念的描述格式,保證了知識詞典的形式化, 提高了概念的可計算性。
(3) 概念定義時縱向歸類與橫向關(guān)聯(lián)相結(jié)合,描述結(jié)構(gòu)清晰,便于計算機(jī)處理。
Dekang Lin認(rèn)為任何兩個事物的相似度取決于它們的共性(Commonality)和個性(Differentces)[8],他從信息理論的角度給出任意兩個事物相似度的通用公式:
(1)
其中分子是描述A、B共性所需要的信息量的大小,分母是完整的描述出A、B所需要的信息量大小。
1) Dekang Lin的這一理論是目前絕大多數(shù)中文詞語語義相似度計算模型的基本思想,盡管劉群等提出兩個詞語的相似度是它們在不同的上下文中可以互相替換且不改變文本的句法語義結(jié)構(gòu)的可能性大小,但在其計算模型中并沒有突出可替換性這一特征。詞語相似度主要從語義分析的角度出發(fā),通過比較詞的義項,計算共同部分的大小,比較抽象的討論和計算兩個詞之間的語義距離,這雖然可以為信息檢索、機(jī)器翻譯等其他自然語言處理提供一定的幫助,但是功用性不是很強(qiáng),語義距離與可替換性有時并不一致,如Similarity(盜墓人,盜墓)> Similarity(盜墓人,小偷),Similarity(雨傘,打傘)>Similarity(雨傘,雨衣),即前者的語義相似度大于后者的語義相似度,但是它們的可替換性正好相反。
2) 我們認(rèn)為詞語相似度是一個比較粗泛的概念,根據(jù)應(yīng)用需求,起碼應(yīng)該可以細(xì)化為語義特征相似度和句法特征相似度。詞語的語義特征相似度,也就是在同一個語境中,兩個詞相互替換,而不改變整個語境的語義;句法特征相似度,也就是兩個詞互換,而不改變原有的句法結(jié)構(gòu)或依存關(guān)系,這對基于語料庫的句法結(jié)構(gòu)排歧有很好的幫助作用,如圖2所示,詞w4被某個與其相似度較高的詞wi替代,無論是句法樹還是依存關(guān)系,都沒有變化。語義特征相似度高則句法特征相似度高,反之不一定。如“他認(rèn)為這是一個好主意?!逼渲械摹昂谩?,被“餿”替換,語義相反,但是句法關(guān)系不變,因此在基于語料的句法分析中,這類語義相反,但句法結(jié)構(gòu)一樣的語料,同樣具有很好的參考價值。
圖2 圖中的詞W4被Wi替換后,句法和依存關(guān)系不變
從相關(guān)文獻(xiàn)看,目前基于《知網(wǎng)》的語言分析與處理絕大多數(shù)還是以舊版本(《知網(wǎng)》2000)作為平臺,其實新版(《知網(wǎng)》2007)的概念描述架構(gòu)已經(jīng)有了質(zhì)的不同,概念的定義由主類義原及其特性描述組成:1)主類義原相當(dāng)于舊版中的第一義原,是所定義概念的最基本的意義; 2)特性描述利用動態(tài)角色和特征標(biāo)注復(fù)雜概念,內(nèi)容上體現(xiàn)概念之間的關(guān)聯(lián),形式上可以為嵌套結(jié)構(gòu)。整個概念的定義可以轉(zhuǎn)化為一棵語義樹,如圖3所示。
圖3 HowNet中概念的描述框架
如前所述,在《知網(wǎng)》中,詞是用概念來描述的,一個詞可以表達(dá)為幾個概念,而概念則用義原來描述。假設(shè)詞W1有n個概念C11,C12, …,C1 n,詞W2有m個概念C21,C22, …,C2m,則本文中詞語W1和W2的相似度是其所有概念之間相似度絕對值的最大值,如公式(2)所示,其符號取該對概念相似度的符號。
(2)
根據(jù)《知網(wǎng)》的概念定義,兩個概念之間的相似度計算可以從以下幾個方面進(jìn)行。
主類義原確定了概念的最基本的意義,實際上是給概念盡可能細(xì)地分類,主類義原相似度計算核心是如何計算兩個義原的語義距離。義原相似度的計算一般依據(jù)義原的層次體系(上下位關(guān)系) 來計算,這種基于樹狀層次結(jié)構(gòu)計算語義相似度的研究已經(jīng)十分成熟。Eneko Agirre[9]、Dekang Lin、劉群等都提出了自己的公式,BUDAN-ITSKY對基于WordNet的幾種計算方法進(jìn)行了比較[10]。他們的方法可以分為兩大類:一種是基于兩個節(jié)點之間的路徑長度,一種是基于兩個節(jié)點所含的共有信息大小。
a. 基于節(jié)點間的路徑長度(其中α是一個可調(diào)節(jié)的參數(shù)。α的含義是:當(dāng)相似度為0.5時的詞語距離值):
(3)
吳健、李峰[11-13]等認(rèn)為在路徑距離相同的情況, 層次越深的節(jié)點具有越高的相似度,在公式(3)的基礎(chǔ)上,加入了義原節(jié)點層次深度的影響。
b. 基于兩個節(jié)點所含的共有信息大小(Sp表示離它們最近的共同祖先,P(S)是該節(jié)點的子節(jié)點個數(shù)與樹中的所有節(jié)點個數(shù)的比) :
(4)
我們認(rèn)為,義原相似度應(yīng)當(dāng)同時反映出兩個義原在樹中的距離和兩個義原公共信息的大小,同時由于Taxonomy中的義原樹具有語義分類內(nèi)涵以及節(jié)點上下位關(guān)系,處于下位的節(jié)點與上位節(jié)點同類,并且是在上位節(jié)點的語義基礎(chǔ)上,加入更多的語義成分。義原樹具有如下性質(zhì):
性質(zhì)1:約定節(jié)點樹中節(jié)點S所承載的語義信息由語義特征集合Semantic(S)表示。 對于樹中的任意兩個節(jié)點S1和S2,若S1≠S2,則Semantic(S1)≠Semantic(S2);
性質(zhì)2:若存在節(jié)點S1和S2,且S1是S2的上位節(jié)點,則Semantic(S1)是Semantic(S2)的真子集,即Semantic(S1)?Semantic(S2);
性質(zhì)3:若存在節(jié)點S1和S2,S1≠S2,S1和S2具有共同的祖先S3,則Semantic(S3)= Semantic(S1)∩Semantic(S2);Semantic(S′) = Semantic(S1)-Semantic(S2),S′為一個虛擬的節(jié)點,Semantic(S′) ?Semantic(S1) 且Semantic(S′)∩Semantic(S2)=?。
根據(jù)以上性質(zhì)的描述可知,與節(jié)點承載的語義信息量與其到根節(jié)點的距離正相關(guān),節(jié)點語義信息的重要程度與其到根節(jié)點的距離負(fù)相關(guān),也就是說,離根節(jié)點越近,對語義區(qū)分的貢獻(xiàn)值越大,這對兩個詞語的可相互替換程度有重要的影響。
公式(5)是我們的義原相似度計算公式,其中,其中α是一個可調(diào)節(jié)的參數(shù),取值越大則層次的區(qū)分越小,m、h、n分別為節(jié)點1、節(jié)點2和節(jié)點1與節(jié)點2的最近的共同祖先的層次數(shù)。
(5)
新版《知網(wǎng)》中概念的描述是一棵以主類義原為根的語義樹,樹中每一個節(jié)點都是一個義原,除根節(jié)點外,每個節(jié)點與其父節(jié)點之間的關(guān)系用一個動態(tài)角色和特征加以標(biāo)識。兩個概念的相似度,是指概念類型相似程度以及概念中相同的特性描述的廣度與深度。這樣兩個概念描述的相似度計算就轉(zhuǎn)化為對應(yīng)的兩個語義樹的最大匹配。
如圖4所示,詞語“兒科醫(yī)生”與“患兒”的概念描述中,主類義原都是“人”,虛線部分勾勒出兩棵語義樹中最大相似部分。
圖4 詞語“兒科醫(yī)生”與“患兒”的概念語義樹對照圖(虛線勾勒出最大相似部分)
計算兩棵語義樹的最大相似度算法:
1) 將兩個概念描述分別轉(zhuǎn)換為兩棵Tree1,Tree2(根節(jié)點為主類義原,除根節(jié)點外,其他節(jié)點除包含本身的義原外,還有與父節(jié)點的關(guān)系值,即動態(tài)角色和特征);
2) 廣度優(yōu)先遍歷Tree1,將遍歷節(jié)點存入隊列Queue中;
3) 如果Queue≠?,取出Queue中第一個元素,賦值給變量Tree1_x;否則轉(zhuǎn)7);
4) 廣度優(yōu)先遍歷Tree2,若存在某節(jié)點與Tree1_x相等,則將其賦值給Tree2_y,并轉(zhuǎn)5);若遍歷完畢,則轉(zhuǎn)3);
5) 分別在Tree1和Tree2中,檢查是否存在Tree1_x的子節(jié)點與Tree2_y的子節(jié)點相等,并且對應(yīng)的動態(tài)角色和特征相等,若存在分別將其存入隊列Queue1和Queue2,轉(zhuǎn)6);若不存在,則轉(zhuǎn)4);
6) 如果Queue1=?,則轉(zhuǎn)4);否則取出Queue1中第一個元素,賦值給變量Tree1_x;取出Queue2中第一個元素,賦值給變量Tree2_y,轉(zhuǎn)5);
7) 結(jié)束處理。
注:結(jié)束處理是將匹配中記錄下來的相似塊按大小和先后順序進(jìn)行比較,大者優(yōu)先,若大小一樣,則排在前面的優(yōu)先;廣度優(yōu)先遍歷,可以保證如果存在同樣的相似塊,則層次高的排在前面。
如前所述,主類義原是對一個概念的根本屬性的規(guī)定,是概念的第一義原,在形式上表現(xiàn)為緊鄰標(biāo)識符“DEF”后面的義原。所謂義原框架是對在義原樹上的義原的本質(zhì)屬性的描述,是在語義分類的基礎(chǔ)上,對義原本身語義的更細(xì)致的刻劃。如“人”作為entity分類樹上的一個義原節(jié)點,其義原框架為:DEF={AnimalHuman|動物:HostOf={Ability|能力}{Name|姓名}{Wisdom|智慧},{speak|說:agent={~}},{think|思考:agent={~}}}。兩個概念的主類義原框架相似度計算是在提取兩個概念的主類義原的基礎(chǔ)上,做義原框架的相似度計算,是對4.1節(jié)中主類義原相似度計算的補(bǔ)充,其計算方法與概念語義樹相似度計算一致。
從語義樹角度看,反義義原節(jié)點之間(或?qū)αx義原節(jié)點之間)的絕對距離不大,甚至很小,它們之間語義距離大,是描述對象屬性或動態(tài)特征的語義極性的表現(xiàn),如“喜歡”與“厭惡”、“抽象”與“具體”等,它們在義原樹上的垂直關(guān)系如下所示:
喜歡:事件 → 靜態(tài) → 狀態(tài) → 精神狀態(tài) → 態(tài)度 → 好態(tài) → 喜歡
厭惡:事件 → 靜態(tài) → 狀態(tài) → 精神狀態(tài) → 態(tài)度 → 壞態(tài) → 厭惡
抽象:屬性值 → 特性值 → 內(nèi)容值 → 抽象性值 → 抽象
具體:屬性值 → 特性值 → 內(nèi)容值 → 抽象性值 → 具體
由于對象屬性或動態(tài)特征的語義極性存在,依據(jù)《知網(wǎng)》的概念描述體系結(jié)構(gòu),我們給出本文中概念的相似度的定義。
定義1:概念C1、C2的相似度Similarity(C1,C2)是在《知網(wǎng)》概念描述框架的基礎(chǔ)上,根據(jù)C1、C2的概念類別、語義特性描述和主類義原框架等幾個方面的相似程度,并考慮C1、C2的語義極性,而計算出的一個綜合值。Similarity(C1,C2)∈[-1,+1],Similarity(C1,C2)反映C1、C2的語義特征相似度,Similarity(C1,C2)的絕對值反映C1、C2的句法特征相似度。
如果概念C1、C2是反義或?qū)αx關(guān)系,則Similarity(C1,C2)=-1;
如果概念C1、C2的上位義原是反義或?qū)αx關(guān)系,則Similarity(C1,C2)=-1;
如果概念C1、C2中存在反義或?qū)αx關(guān)系,則Similarity(C1,C2)為負(fù)值。
根據(jù)《知網(wǎng)》反義詞表和對義詞表進(jìn)行反義和對義的計算。
我們在4.1~4.2節(jié)的基礎(chǔ)上,下面給出基于《知網(wǎng)》的詞語相似度的完整計算公式。
(6)
其中,C1、C2是進(jìn)行相似度計算的兩個概念,θ是決定Similarity(C1,C2)符號的系數(shù),如果C1、C2概念特性描述中含有反義或?qū)αx關(guān)系,則θ=-1,否則θ=+1;Sim1(C1,C2)是C1,C2的主類義原相似度計算,Sim2(C1,C2)是C1,C2的語義樹相似度計算,Sim3(C1,C2)是C1,C2的主類義原框架相似度計算β1、β2、β3分別是對應(yīng)計算的權(quán)重,β1+β2+β3=1,β3≤β1≤β2。γ為懲罰因子,如果C1,C2的特性描述中存在某個共同的Event,并同時存在依附于該Event的不同的動態(tài)角色與特征關(guān)系,則γ=0.5,否則γ=1。如在詞語“兒科醫(yī)生”與“患兒”的概念語義樹對照圖中,“兒科醫(yī)生”與“患兒”具有相同的主類義原“人”,在特性描述中都有“醫(yī)治”這個Event,但在“兒科醫(yī)生”中,主類義原“人”是Event“醫(yī)治”的agent;在“患兒”中,主類義原“人”是Event“醫(yī)治”的patient,即他們的動態(tài)角色不同。
由于概念相似度的計算的功用目的,有必要突出語義分析和句法分析中的詞語可替換性。深入研究知網(wǎng)的概念表達(dá)體系結(jié)構(gòu),我們發(fā)現(xiàn)概念的主類義原確定了概念的最基本的意義,是概念語義分類的依據(jù),而無論是詞語的語義特征還是句法特征,都與概念語義分類密切相關(guān),為體現(xiàn)這一特性,我們將公式(6)修正為公式(7)。
(7)
在公式(6)的基礎(chǔ)上,對語義樹相似度計算Sim2(C1,C2)乘上主類義原相似度計算Sim1(C1,C2),這一修改的含義是:如果Sim1(C1,C2)值較大,則公式(6)的計算值接近于公式(7),如果Sim1(C1,C2)值較小,則第二項的計算值較小,整個公式的計算值就較小。
由于目前對中文詞語相似度還沒有形成統(tǒng)一的規(guī)范,也沒有相關(guān)標(biāo)注語料提供實驗平臺,因此中文詞語相似度計算的實驗設(shè)計與數(shù)據(jù)篩選困難較大,如果隨機(jī)的選取一些詞語,很難說明問題。我們從本文中文詞語相似度的功用目的出發(fā),在遴選實驗數(shù)據(jù)時側(cè)重那些能說明語義特征和句法特征以及語義相關(guān)性的詞語。
表1是實驗中的相關(guān)參數(shù),分為3個不同的參數(shù)組,通過不同參數(shù)的權(quán)重的不同設(shè)置,觀察實驗結(jié)果的合理性。
表1 相關(guān)參數(shù)設(shè)置
表2是相關(guān)實驗結(jié)果。實驗數(shù)據(jù)表明,主類義原及其框架對概念之間的類別區(qū)別貢獻(xiàn)較大,如在參數(shù)組1和參數(shù)組3中,由于β1和β3的值設(shè)置的相對較高,在(“盜墓人”、“盜墓”)和(“盜墓人”、“小偷”)、(“雨傘”、“打傘”)和(“雨傘”、“雨衣”)這幾組數(shù)據(jù)的計算中,能較好地體現(xiàn)類別區(qū)別。
表2 實驗結(jié)果
續(xù)表
“色調(diào)”的DEF={Hue|濃淡:host={Color|顏色}},“藍(lán)色”的DEF={blue|藍(lán)},其對應(yīng)的主類義原的上位關(guān)系鏈分別為:屬性→外觀→濃淡,屬性值→外觀值→顏色值→藍(lán),也就是說這連個看似關(guān)系密切的詞語,在《知網(wǎng)》的概念架構(gòu)中分別屬于“屬性”和“屬性值”兩個不同的類別,因此計算相似度為0。從能否替換的角度看,這兩個詞確實可替換性較差,但是它們確實存在一定的語義關(guān)聯(lián),針對不同的應(yīng)用目標(biāo),在相似度計算中,應(yīng)考慮進(jìn)屬性和屬性值之間的關(guān)系。
實驗結(jié)果中的正負(fù)值,較好地反映出語義特征相似度和句法特征相似度,如(“合算”、“得不償失”),語義相反,但句法結(jié)構(gòu)中具有替代性?!棒~類”和“鯉魚”的相似度為1,是因為它們的DEF都是{fish|魚}。HowNet中有一些詞語的定義的細(xì)致程度還有待進(jìn)一步的完善。
由于《知網(wǎng)》中,概念的語義是從概念特性描述、主類義原、主類義原框架3個方面進(jìn)行定義的,具體到某些詞語,在這3個方面的描述分量并不是很平衡,有些特性描述較細(xì)致,但義原或義原框架卻較簡略,而有些卻正好相反。如“北”、“北部”,它們的主類義原框架描述較細(xì)致,且相似性高,因此在參數(shù)組3等到結(jié)果最大。固定地設(shè)定某組參數(shù),對某些詞效果叫好,可能對另外一些詞,則不然。針對這一情況,進(jìn)行參數(shù)的動態(tài)設(shè)定,即綜合考慮概念定義的3個方面,動態(tài)調(diào)節(jié)參數(shù)。參數(shù)計算公式(8)所示:
(8)
其中,n1、m1分別為參與比較的兩個概念的主類義原在義原樹上的深度,n2、m2分別為兩個概念的特性描述中的節(jié)點數(shù)目,n3、m3分別為兩個主類義原框架中的節(jié)點數(shù)目。
詞語相似度的分析與計算是自然語言處理關(guān)鍵技術(shù)之一,對句法分析、機(jī)器翻譯、信息檢索等能提供很好的幫助。本文充分分析和利用新版HowNet的概念架構(gòu)和語義多維表達(dá)形式,從概念的主類義原、主類義原框架以及概念特性描述三個方面綜合分析詞語相似度,并從實際功用出發(fā),將詞語相似度細(xì)分為語義特征相似度和句法特征相似度,并在計算中區(qū)分和體現(xiàn)出兩種相似度的不同。實驗結(jié)果較為理想,與人的直觀判斷基本一致。
《知網(wǎng)》含有豐富的詞匯語義知識和世界知識,尤其是新版《知網(wǎng)》除了規(guī)模有很大的擴(kuò)充外,概念描述架構(gòu)體系有了較大的改進(jìn)和完善,為中文語義處理提供了很好的平臺。在本文后繼的工作中,將著力于挖掘和利用HowNet中的動態(tài)角色與特征提供的概念之間更為細(xì)致的語義關(guān)聯(lián),分析詞語相似性與相關(guān)性之間的內(nèi)在聯(lián)系和轉(zhuǎn)換。
致謝:衷心感謝語義分析與處理支撐平臺——《知網(wǎng)》。
[1] 劉群,李素建. 基于《知網(wǎng)》的詞匯語義相似度的計算[C]//第三屆漢語詞匯語義學(xué)研討會. 中國臺北,2002.
[2] Green, Rebecca and Bonnie J. Dorr. Inducing A Semantic Frame Lexicon from WordNet Data[C]//Proceedings of the 2nd Workshop on Text Meaning and Interpretation (ACL 2004).
[3] 李涓子.漢語詞義排歧方法研究[D].清華大學(xué)博士論文,1999.
[4] 魯松.自然語言中詞相關(guān)性知識無導(dǎo)獲取和均衡分類器的構(gòu)建[D].中國科學(xué)院計算技術(shù)研究所博士論文.2001.
[5] Dagan I., Lee L. and Pereira F. (1999), Similarity-based models of word cooccurrence probabilities[C]//.Machine Learning, Special issue on Machine Learning and Natural Language, 1999.
[6] 董振東, 董強(qiáng). 《知網(wǎng)》[DB/OL]. http://www.keenage.com
[7] 董振東,董強(qiáng),郝長伶.《知網(wǎng)》的理論發(fā)現(xiàn)[J]. 中文信息學(xué)報,2007,21(4):3-9.
[8] Dekang Lin. An Information Theoretic Definition of Similarity Semantic distance in WordNet [C]//Proceedings of the Fifteenth International Conference on Machine Learning. 1998.
[9] Eneko Agirre, German Rigau. A Proposal for Word Sense Disambiguation using Conceptual Distance[C]//Proceedings of the First International Conference on Recent Advanced in NL P. 1995.
[10] BUDANITSKY, A. AND HIRST, G. Semantic distance in WordNet:An experimental, application oriented evaluation of five measures[C]//Workshop on WordNet and Other Lexical Resources, Second meeting of the North American Chapter of the Association for Computational Linguistics. 2001.
[11] 李峰,李芳. 中文詞語語義相似度計算——基于《知網(wǎng)》2000[J]. 中文信息學(xué)報,2007,21(3):99-105.
[12] 吳健,吳朝暉,李瑩,等. 基于本體論和詞匯語義相似度的Web服務(wù)發(fā)現(xiàn)[J]. Chinese Journal of Computers,2005, 28 (4).
[13] 朱嫣嵐,閔錦,周雅倩,黃萱菁,等. 基于HowNet的詞匯語義傾向計算[J]. 中文信息學(xué)報, 2006, 20(1):14-20.