萬(wàn)富強(qiáng),吳云芳
(北京大學(xué) 計(jì)算語(yǔ)言學(xué)教育部重點(diǎn)實(shí)驗(yàn)室,北京,100871)
語(yǔ)義相關(guān)度的計(jì)算在很多自然語(yǔ)言處理的應(yīng)用中都扮演著重要的角色。信息檢索[1]系統(tǒng)中使用相關(guān)度得分,對(duì)查詢進(jìn)行擴(kuò)展。詞義消歧[2]一直以來都是計(jì)算語(yǔ)言中一個(gè)比較難解的問題。利用詞語(yǔ)之間的相關(guān)性能夠協(xié)助計(jì)算機(jī)進(jìn)行詞義消歧。例如,“削蘋果的刀”與“削蘋果的皮”,兩者都是“動(dòng)詞+名詞+助詞+名詞”的結(jié)構(gòu),可以利用“蘋果”與“刀”,“蘋果”與“皮”的相關(guān)度對(duì)兩者加以區(qū)分。此外,在文檔自動(dòng)文摘以及問答系統(tǒng)中常常使用相關(guān)度或相似度的得分,評(píng)估候選語(yǔ)句的精準(zhǔn)程度。在拼寫校正[3]中也會(huì)用到語(yǔ)義相關(guān)度的計(jì)算。研究如何更好地計(jì)算文本或者詞匯之間的語(yǔ)義相關(guān)度是一個(gè)重要的課題。
本文研究基于Gabrilovich&Markovitch提出的基于維基百科的顯性語(yǔ)義分析(Explicit Semantic Analysis,ESA)方法[4],對(duì)中文詞語(yǔ)之間的語(yǔ)義相關(guān)度進(jìn)行計(jì)算。將詞表示為帶權(quán)重的概念向量,計(jì)算目標(biāo)詞語(yǔ)之間的相關(guān)性就轉(zhuǎn)化為比較相應(yīng)的概念向量。本研究選取的概念由中文維基百科文章明確定義,即將指定的中文維基百科的一個(gè)頁(yè)面作為一個(gè)概念,引入概念(頁(yè)面)的先驗(yàn)概率,利用維基百科詞條的詞頻信息和頁(yè)面之間的鏈接信息對(duì)算法進(jìn)行了多種改進(jìn)。實(shí)驗(yàn)結(jié)果表明,引入頁(yè)面先驗(yàn)概率因子,能夠明顯改善目標(biāo)詞對(duì)相關(guān)度計(jì)算的結(jié)果—斯皮爾曼等級(jí)相關(guān)系數(shù)從0.40提高到0.52。
本文組織結(jié)構(gòu)如下:第2節(jié)介紹了前人的相關(guān)工作;第3節(jié)闡述顯性語(yǔ)義分析方法的核心思想及基本方法;第4節(jié)介紹引入了頁(yè)面先驗(yàn)概率的改進(jìn)算法;第5節(jié)介紹中文維基百科概念的選取,實(shí)驗(yàn)采用的評(píng)測(cè)數(shù)據(jù)集以及評(píng)測(cè)的指標(biāo)—斯皮爾曼等級(jí)相關(guān)系數(shù);第6節(jié)展示本實(shí)驗(yàn)的結(jié)果及對(duì)結(jié)果的分析;第7節(jié)對(duì)本實(shí)驗(yàn)進(jìn)行了總結(jié)。
語(yǔ)義相關(guān)度的計(jì)算可以劃分為3類方法:基于大規(guī)模語(yǔ)料庫(kù)的方法、基于語(yǔ)義分類體系的方法和基于百科知識(shí)的方法?;诖笠?guī)模語(yǔ)料庫(kù)計(jì)算文本(或單詞)的相似度或者相關(guān)度,主要有兩種方法:一種方法是簡(jiǎn)單地使用詞語(yǔ)共現(xiàn)信息。該方法假定同時(shí)出現(xiàn)在文檔或者段落中的詞在某種意義上相似或者相關(guān),它將文檔或者段落視為詞的集合,忽略詞與詞之間的語(yǔ)法信息。另一種方法是對(duì)文檔或者段落進(jìn)行淺層的句法分析,得到詞匯之間語(yǔ)法關(guān)系或者依存關(guān)系,在依存分析結(jié)果的基礎(chǔ)上進(jìn)行相似度計(jì)算。使用詞共現(xiàn)信息更具有魯棒性,不會(huì)涉及語(yǔ)句的句法分析,實(shí)現(xiàn)起來更加簡(jiǎn)單。目前有許多關(guān)于語(yǔ)義相關(guān)度和相似度的研究是基于前一種方法的[5-7]。
英語(yǔ)中基于語(yǔ)義分類體系計(jì)算語(yǔ)義相關(guān)度主要是依據(jù)WordNet[8],而漢語(yǔ)中主要是依據(jù)HowNet。前人基于WordNet的層次分類體系實(shí)現(xiàn)的詞匯語(yǔ)義相似度度量方法有以下4種:1)邊計(jì)數(shù)方法。如果該網(wǎng)絡(luò)中的兩個(gè)概念c1,c2之間的連接越多,兩個(gè)概念之間的距離越短,那么它們就越相似。具體度量方法有:最短路徑[9],帶權(quán)重的鏈接[10]等。2)信息含量方法。兩個(gè)概念的相似度與它們共享的信息相關(guān),而共享信息是由在網(wǎng)絡(luò)層次體系中涵括它們的高層的概念表征。如 Resnik[11],Lin[12]等工作。3)基于特征的度量方法。每一個(gè)詞都由能表征它性質(zhì)、特征的詞的集合表示,如Tversky[13]。4)組合方法,如 Rodriguez et al.[14]。
隨著維基百科的普及和盛行,近年來出現(xiàn)了一些基于百科知識(shí)的相關(guān)度計(jì)算方法。Michael Strube等提出使用Wikirelate!方法[15]計(jì)算詞語(yǔ)之間的語(yǔ)義相關(guān)度,該方法首先將兩個(gè)目標(biāo)詞t1,t2用以它們?yōu)闃?biāo)題的文章來表示,并提取文章的類別信息,然后使用基于文本覆蓋的方法,或者利用維基百科的類別樹,使用基于路徑或信息含量的方法計(jì)算兩篇文章的相關(guān)度,也即是兩個(gè)目標(biāo)詞的相關(guān)度。Gabrilovichand Markovitch提出基于維基百科的顯性語(yǔ)義分析方法(Explicit Semantic Analysis,ESA)[4]用于計(jì)算文本(或詞)之間的語(yǔ)義相關(guān)度。孫琛琛等[6]利用英文維基百科結(jié)構(gòu)信息計(jì)算語(yǔ)義關(guān)聯(lián)度。李赟等[7]利用中文維基百科進(jìn)行語(yǔ)義相關(guān)詞的獲取及其相關(guān)度分析。
還有研究者利用其他的資源進(jìn)行語(yǔ)義相關(guān)性研究。如利用維基詞典計(jì)算語(yǔ)義相關(guān)性[16],使用網(wǎng)絡(luò)搜索引擎度量詞語(yǔ)之間的相似度[17]等。Torsten et al.[18]的研究表明,基于 German WordNet的語(yǔ)義相似度度量方法比基于維基百科的語(yǔ)義相似度度量方法更接近人工判定的結(jié)果;然而,基于維基百科的語(yǔ)義相關(guān)度度量卻比基于German WordNet的語(yǔ)義相關(guān)性度量方法要好。
分布相似在一定程度上能夠反映語(yǔ)義相似以及語(yǔ)義相關(guān),因此可以將詞語(yǔ)之間的語(yǔ)義相關(guān)性度量轉(zhuǎn)化為詞語(yǔ)分布的相似性度量。顯性語(yǔ)義分析(ESA),是將詞表示為帶權(quán)重的概念向量,計(jì)算詞語(yǔ)之間的相關(guān)性就轉(zhuǎn)化為比較相應(yīng)的概念向量。本文選取的概念由中文維基百科文章明確定義,即將中文維基百科的頁(yè)面作為概念。
令N表示中文維基百科的單詞數(shù)(即詞匯表L的大小),M表示選取的概念(頁(yè)面)數(shù)。用wi,j表示詞項(xiàng)ti與概念cj的關(guān)聯(lián)程度。該值越大,表明詞ti與該概念cj的關(guān)聯(lián)程度越強(qiáng);反之,則表明詞ti與該概念cj的關(guān)聯(lián)程度越弱。詞—文檔矩陣表示為式(1):
則詞t的概念向量V可表示為式(2):
然后,根據(jù)概念向量V1和V2,使用cosine方法比較兩個(gè)向量,計(jì)算目標(biāo)詞對(duì)<t1,t2>的相關(guān)度(當(dāng)至少有一個(gè)目標(biāo)詞不在詞表中時(shí)兩者的相關(guān)度記為0),如式(3)所示。
Gabrilovich等提出的基于維基百科的ESA方法[4]采用在信息檢索中常用的TFIDF(即詞項(xiàng)頻率與逆文檔頻率的乘積)作為詞與文檔的關(guān)聯(lián)程度的度量。使用數(shù)學(xué)公式表示為式(4):
由于IDFt僅由詞t決定,對(duì)于同一個(gè)t而言IDFt是相同的。使用余弦相似度方法比較詞的概念向量時(shí),對(duì)向量長(zhǎng)度進(jìn)行了歸一化,因此事實(shí)上IDFt并沒有真正參與到計(jì)算之中,結(jié)果僅由TFt,c決定。于是,可以將各個(gè)分量都含有的常量提出來,記為k。目標(biāo)詞t的概念向量可以簡(jiǎn)單的表示為式(5):
為了便于表述,將此方法記作TFIDF。
利用顯性語(yǔ)義分析(ESA)方法,使用TFIDF作為權(quán)值度量,計(jì)算漢語(yǔ)語(yǔ)義相關(guān)度的結(jié)果并不理想。本文引入頁(yè)面的先驗(yàn)概率,提出了以下的改進(jìn)方法。
在信息檢索中使用查詢似然模型,將文檔按照其與查詢相關(guān)的似然P(d|q)排序。查詢似然模型是信息檢索中最早使用也是最基本的語(yǔ)言模型。P(d|q)度量了d與q的相關(guān)性程度。利用貝葉斯公式有P(d|q)=P(q|d)P(d)/P(q)。將詞t與q對(duì)應(yīng),概念c與d對(duì)應(yīng),我們得到詞項(xiàng)t與c關(guān)聯(lián)程度,如式(6)所示。
對(duì)P(t|c(diǎn))使用最大似然估計(jì),如式(7)所示。
對(duì)于給定的t,P(t)是一個(gè)常數(shù),于是有式(8)。
TFt,c以及Tc通過對(duì)中文維基百科數(shù)據(jù)進(jìn)行分詞以及詞頻統(tǒng)計(jì)便可得到,因此為了得到詞t與概念c的相關(guān)程度wt,c,只需對(duì)先驗(yàn)概率P(c)進(jìn)行估計(jì)。比較式(5)和式(9),基本的TFIDF方法,等價(jià)于取c的先驗(yàn)概率正比于詞條數(shù)目的模型。然而,僅使用文檔詞條數(shù)目作為文檔先驗(yàn)概率的估計(jì)因子有失偏頗,本文提出以下方法對(duì)頁(yè)面(概念)的先驗(yàn)概率進(jìn)行估計(jì)。
對(duì)P(c)進(jìn)行估計(jì)最簡(jiǎn)單的方法便是,所有概念c出現(xiàn)的概率相同。即對(duì)于任意的c,P(c)是一個(gè)定值(此處取為1/M)。同樣由于使用cosine方法比較詞與詞的概念向量,因此,詞項(xiàng)t的概念向量V可以簡(jiǎn)單記為:
該向量與TFIDF基本方法得到的概念向量差別在于,它對(duì)詞項(xiàng)頻率(TF)進(jìn)行了歸一化。為了表述的方便,將此方法記為NORM_TF。
前文提及在進(jìn)行Wikiprep處理的同時(shí)得到了頁(yè)面之間的鏈接信息。維基百科頁(yè)面之間的鏈接與普通網(wǎng)頁(yè)鏈接有所不同。普通網(wǎng)頁(yè)鏈出的數(shù)目較少,而維基百科頁(yè)面的鏈出很多。維基百科的鏈接是這樣生成的:如果在一個(gè)頁(yè)面中出現(xiàn)了某個(gè)詞(或詞組),而這個(gè)詞(或詞組)正好又是維基百科的一個(gè)詞條,那么該頁(yè)面就有一條指向詞條對(duì)應(yīng)頁(yè)面的鏈接。如頁(yè)面“阿波羅計(jì)劃”中出現(xiàn)了詞‘蘇聯(lián)’,而錨文本“蘇聯(lián)”又正好是維基百科的一個(gè)詞條,對(duì)應(yīng)了維基百科的一個(gè)頁(yè)面,因此從頁(yè)面“阿波羅計(jì)劃”到頁(yè)面“蘇聯(lián)”有一條鏈接。
由于維基百科頁(yè)面的鏈接信息在一定程度上能夠反映頁(yè)面被訪問的頻率??紤]到維基百科鏈接構(gòu)造的特殊性,可以認(rèn)為越頻繁出現(xiàn)的詞條,其對(duì)應(yīng)頁(yè)面的入度越大,頁(yè)面被訪問的頻率越高?;谶@個(gè)假設(shè),記頁(yè)面(概念)c的入度為INLKc,則可以對(duì)P(c)進(jìn)行估計(jì)。由于選取的概念入度差別非常大,因此直接使用入度進(jìn)行計(jì)算會(huì)使得頁(yè)面入度大的P(c)非常大,因此可以對(duì)入度采用取對(duì)數(shù)的方法,此時(shí)概念c的先驗(yàn)概率P(c)表示為:
同樣,為了便于表述,將此方法記為INLK.
既然提及頁(yè)面之間的鏈接,自然就會(huì)想到PageRank[19]。記網(wǎng)頁(yè)數(shù)量為K,根據(jù) Web圖的鄰接矩陣A(K×K),并記A第i行1的個(gè)數(shù)為Ni,可以推導(dǎo)出該馬爾科夫鏈的概率轉(zhuǎn)移矩陣P(K×K):
對(duì)中文維基百科的概念使用上述方法(取α=0.1),可以得到各個(gè)概念被訪問的頻率,使用它對(duì)P(c)進(jìn)行估計(jì)。與INLK方法一樣vc的差距很大,但不能像INLK方法那樣先取對(duì)數(shù)再加1,因?yàn)橹苯尤?duì)數(shù)得到的是負(fù)值。于是將vc乘以10 M(M為選取的概念的個(gè)數(shù)),使得其值大于等于1。再對(duì)該結(jié)果取對(duì)數(shù)加1。P(c)的估計(jì)值為(將此方法記為PRANK)如式(13)所示。
維基百科詞條有著對(duì)其頁(yè)面內(nèi)容的充分概括性,頁(yè)面內(nèi)容都是對(duì)該詞條的闡述。因此可以使用頁(yè)面的標(biāo)題在整個(gè)數(shù)據(jù)集中出現(xiàn)的頻率(CF)或者文檔頻率(DF)來度量概念的先驗(yàn)概率P(c),使用TCF表示概念標(biāo)題(詞條)的CF,TDF表示概念標(biāo)題的DF,并采用對(duì)數(shù)平滑方法,則對(duì)P(c)的估計(jì)分別為式(14)和式(15)。同樣為了表述方便,將兩種對(duì)估計(jì)P(c)計(jì)算詞與詞之間相似度的方法分別記為TCF,TDF。
前文已使用了多種方法對(duì)P(c)的值進(jìn)行估計(jì),如INLK,TDF等??紤]到他們的組合實(shí)在是太多,但都是基于維基百科鏈接或者維基百科頁(yè)面的標(biāo)題,因此僅僅選取他們兩兩組合中的其中一種,即TDF+PRANK(記為COMB),前者基于標(biāo)題詞頻,后者基于鏈接,并且使用最簡(jiǎn)單的線性組合的方式將兩者對(duì)概念的先驗(yàn)概率的估計(jì)加以組合,即式(16)所示。
其中,wPRANK(t,c)以及wTDF(t,c)分別表示使用PRANK和TDF方法得到的權(quán)重。
從中文維基百科網(wǎng)站(http://zh.wikipedia.org/)下載中文版維基百科的XML轉(zhuǎn)儲(chǔ)數(shù)據(jù) (zhwiki-20101029-pages-meta-current.xml.bz2),數(shù)據(jù)解壓后使用 Wikiprep①?gòu)?http://search.cpan.org/~triddle/Parse-MediaWiki-Dump-1.0.4下載。原始代碼用于處理英文維基百科數(shù)據(jù),修改部分代碼之后即可用于處理中文維基百科的數(shù)據(jù)。處理,去掉模板頁(yè)面、重定向頁(yè)面、類別頁(yè)面等以及頁(yè)面中無關(guān)的域(僅保留頁(yè)面標(biāo)題、頁(yè)面ID以及文本域)。進(jìn)行Wikiprep處理的同時(shí)會(huì)得到頁(yè)面的鏈接信息以及類別信息等。由于中文維基百科頁(yè)面中包含簡(jiǎn)體和繁體中文,我們使用中文繁簡(jiǎn)轉(zhuǎn)換工具,統(tǒng)一將所有的繁體字轉(zhuǎn)換為簡(jiǎn)體字。得到1G的文本文件,共有324 216個(gè)頁(yè)面。
有些中文維基百科頁(yè)面的正文太短,包含的信息量很少,編輯的內(nèi)容質(zhì)量不高。如果將所有的頁(yè)面都作為最終的概念,那么得到的詞的概念向量的維度很大,在很多維度上噪音很大,對(duì)詞相關(guān)度的計(jì)算造成不利的影響。因此需要在這些頁(yè)面中選出一個(gè)子集C作為最終概念集合。由于頁(yè)面入度和詞數(shù)在一定程度上能夠反映頁(yè)面的質(zhì)量,因此在實(shí)驗(yàn)中去掉了入度過小(小于3)或者詞數(shù)過少(少于70)的頁(yè)面,剩下的頁(yè)面(127 936個(gè))即作為最終的概念集合C,用于詞語(yǔ)之間相關(guān)度的計(jì)算。
為了統(tǒng)計(jì)頁(yè)面的詞條數(shù),本實(shí)驗(yàn)使用了中文停用詞表①總共有 1 208 個(gè)停用詞,可從 http://www.hicode.cn/download/view-software-13784.html下載,對(duì)概念集合C中所有的頁(yè)面進(jìn)行自動(dòng)分詞。維基百科頁(yè)面標(biāo)題通常是人名、地名、專有名詞等,因此為了將它們作為一個(gè)詞(或詞組)保留下來,實(shí)驗(yàn)時(shí)將頁(yè)面標(biāo)題作為一個(gè)詞條。由于這些詞條數(shù)目眾多,不可能人工對(duì)其進(jìn)行詞性標(biāo)注,而缺少詞性標(biāo)注會(huì)對(duì)分詞結(jié)果造成影響。為了降低這種不良影響,采取了以下措施:首先使用中文分詞器②中國(guó)科學(xué)院計(jì)算技術(shù)研究所開發(fā)的ICTCLAS漢語(yǔ)分詞系統(tǒng),http://ictclas.org/ictclas_download.aspx下載對(duì)這些詞條進(jìn)行分詞,將分詞器不能識(shí)別的詞條(分詞器會(huì)將其切分開)加入到用戶詞典,再次使用分詞器對(duì)維基百科數(shù)據(jù)進(jìn)行分詞。對(duì)概念集合進(jìn)行解析,統(tǒng)計(jì)詞條(token)數(shù)目Tc的同時(shí),得到了以下數(shù)據(jù):(1)詞匯表L;(2)詞項(xiàng)t在多少個(gè)概念中出現(xiàn)DFt;(3)詞項(xiàng)t在概念c中出現(xiàn)的頻次 TFt,c;(4)詞項(xiàng)t在所有概念中出現(xiàn)的頻次CFt。
本實(shí)驗(yàn)的評(píng)測(cè)數(shù)據(jù)基于英文 WordSimilarity-353數(shù)據(jù)集,這是英語(yǔ)語(yǔ)義相似度研究中廣泛應(yīng)用的一個(gè)評(píng)測(cè)標(biāo)準(zhǔn)。根據(jù) WordSimilarity-353③http://www.cs.technion.ac.il/~gabr/resources/data/wordsim353/得到中文詞相關(guān)度測(cè)試的數(shù)據(jù)集(為了便于表述,將此數(shù)據(jù)集記為ZH-SIM-353),具體做法如下。
首先,兩個(gè)計(jì)算語(yǔ)言學(xué)研究生獨(dú)立地對(duì)數(shù)據(jù)集WordSimilarity-353進(jìn)行人工翻譯,將英語(yǔ)單詞對(duì)翻譯為漢語(yǔ)詞語(yǔ)對(duì),然后讓第三者對(duì)前兩者翻譯不一致的詞對(duì)進(jìn)行修改。只有當(dāng)詞對(duì)中的兩個(gè)詞都翻譯得完全相同時(shí)才稱為一致。WordSimilarity-353總共有353個(gè)詞對(duì),其中兩人翻譯一致的詞對(duì)數(shù)為169,占總數(shù)的48%。兩人翻譯不一致時(shí),再進(jìn)行如下處理。
1.單字詞和雙字詞。兩個(gè)翻譯者在單字詞和雙字詞的使用上顯現(xiàn)出差異,如表1所示。解決方法:讓翻譯結(jié)果音節(jié)一致;不一致時(shí),傾向于雙音節(jié)。例如,在表1中,得到的翻譯正確結(jié)果為{<虎,貓>,<老虎,老虎>,<藥物,濫用>}。
表1 單字詞VS雙字詞
2.別名的使用。例如,potato一者翻譯為“土豆”,另一者翻譯為“馬鈴薯”。解決方法:使用更通用的稱說,此處選擇“土豆”作為potato的中文翻譯。
3.去掉翻譯為漢語(yǔ)時(shí)有明顯歧義的5個(gè)詞對(duì),它們分別是<stock,egg>,<stock,live>,<brother,monk>,<crane,implement>以及<life,term>。將剩下的348個(gè)中文詞對(duì)以及它們的得分,作為最終的評(píng)測(cè)集。
本實(shí)驗(yàn)采用斯皮爾曼等級(jí)相關(guān)系數(shù)對(duì)目標(biāo)詞對(duì)的相關(guān)度計(jì)算的結(jié)果與人工標(biāo)注評(píng)測(cè)集ZH-SIM-353的一致性進(jìn)行評(píng)價(jià)。斯皮爾曼等級(jí)相關(guān)系數(shù)是反映兩組變量之間聯(lián)系的密切程度,它和相關(guān)系數(shù)r一樣,取值在-1到+1之間。斯皮爾曼等級(jí)相關(guān)系數(shù)的計(jì)算公式如式(17)所示。
其中n為樣本容量,RX為變量X的等級(jí)數(shù),RY為變量Y的等級(jí)數(shù)。
使用各種向量的權(quán)值計(jì)算方法對(duì)目標(biāo)詞對(duì)之間的相關(guān)度進(jìn)行計(jì)算,然后按照相關(guān)度值降序排列得到詞對(duì)的等級(jí)數(shù),其結(jié)果與人工判斷標(biāo)準(zhǔn)的斯皮爾曼等級(jí)相關(guān)系數(shù)見表2。
表2 不同方法的斯皮爾曼等級(jí)相關(guān)系數(shù)
從表2中可以看出,本文提出的改進(jìn)方法NORM_TF,INLK,PRANK、TCF,TDF以及集成方法COMB均比基本方法TFIDF有顯著提高。即對(duì)詞與詞之間相關(guān)性的度量與人工判定的結(jié)果更一致,在評(píng)測(cè)集 ZH-SIM-353上明顯優(yōu)于基本方法——TFIDF方法。結(jié)果表明:明確地引入概念(頁(yè)面)的先驗(yàn)概率,利用維基百科頁(yè)面鏈接信息,修正詞向量元素的值可以提高相關(guān)度計(jì)算的結(jié)果。
前文已經(jīng)提到由于有些頁(yè)面正文太短,頁(yè)面的質(zhì)量可能較低,重要性不夠,有些頁(yè)面的入度很小,即沒有指向它的鏈接或指向它的鏈接很少,因此在實(shí)驗(yàn)中去掉了入度過小或者詞數(shù)過少的頁(yè)面,將剩余的頁(yè)面作為最終的概念。我們探究了作為概念的頁(yè)面入度的下界a,以及詞數(shù)的下界b對(duì)計(jì)算詞—詞之間的相關(guān)度的影響。
為了選擇較好的概念集合,采用實(shí)驗(yàn)結(jié)果較好的PRANK方法和TDF方法,對(duì)參數(shù)a以及b進(jìn)行調(diào)節(jié)。不同a,b對(duì)應(yīng)不同的概念集合,采用不同的概念集合計(jì)算詞與詞之間的相關(guān)度的結(jié)果會(huì)有所不同,表3列出了概念數(shù)目以及實(shí)驗(yàn)結(jié)果的斯皮爾曼等級(jí)相關(guān)系數(shù)隨a,b變化的情況。為了更好地觀察實(shí)驗(yàn)結(jié)果隨a,b變化的趨勢(shì)將上表轉(zhuǎn)化為曲線圖,如圖1所示(其中實(shí)線和虛線分別代表采用PRANK方法和TDF方法對(duì)目標(biāo)詞對(duì)的相關(guān)度計(jì)算結(jié)果與ZH-SIM-353人工標(biāo)注結(jié)果的斯皮爾曼等級(jí)相關(guān)系數(shù)的變化)。
表3 概念的選取
從圖1可以看出,當(dāng)a,b變化時(shí),目標(biāo)詞對(duì)相關(guān)性計(jì)算的結(jié)果也隨著變化,但是結(jié)果與ZH-SIM-353的一致程度并沒多大變化,僅僅有細(xì)微的波動(dòng)。因此在一定范圍內(nèi)a,b的取值對(duì)相關(guān)度計(jì)算的結(jié)果幾乎沒有影響。TDF和PRANK方法對(duì)概念集合的選取具有較強(qiáng)的魯棒性。
圖1 概念集合對(duì)結(jié)果的影響
從表3可以看出,當(dāng)<a,b>=<2,50>時(shí)概念數(shù)量比a,b取其他值時(shí)多,但是相關(guān)度計(jì)算的結(jié)果卻比其他很多時(shí)候都差一點(diǎn),這說明并不是概念的數(shù)量越多越好,當(dāng)然也不是越少越好(從<a,b>=<4,70>以及<a,b>=<5,80>可以看出)。在a,b變化時(shí),兩種方法計(jì)算相關(guān)性的結(jié)果仍然非常接近,可以說明兩者在對(duì)概念(concept)的先驗(yàn)概率的估計(jì)上是比較一致的。這種一致性很大程度上是由中文維基百科頁(yè)面之間鏈接的特殊性決定的。
圖2 組合方法參數(shù)選取
為了探究COMB方法中參數(shù)α的取值變化對(duì)詞-詞相關(guān)度計(jì)算實(shí)驗(yàn)結(jié)果的影響,我們針對(duì)不同的參數(shù)α,得到目標(biāo)詞對(duì)相關(guān)度與人工標(biāo)注的ZHSIM-353數(shù)據(jù)的斯皮爾曼等級(jí)相關(guān)系數(shù)(圖2)。
從圖2可以看出參數(shù)α的變化會(huì)使得實(shí)驗(yàn)結(jié)果的斯皮爾曼等級(jí)相關(guān)系數(shù)有些微的變化,當(dāng)α取0.4時(shí),在測(cè)試集ZH-SIM-353上表現(xiàn)得最好。但是隨著參數(shù)α的變化,實(shí)驗(yàn)結(jié)果并沒有顯著的變化,斯皮爾曼等級(jí)相關(guān)系數(shù)波動(dòng)幅度非常?。ú坏?.003),這也說明了TDF方法和PRANK方法對(duì)概念c的先驗(yàn)概率P(c)的估計(jì)很一致,兩種方法計(jì)算詞與詞之間的相關(guān)度的結(jié)果也比較一致。
本文研究采用顯性語(yǔ)義分析方法,基于中文維基百科實(shí)現(xiàn)了漢語(yǔ)詞與詞之間的相關(guān)度計(jì)算?;痉椒ㄊ牵瑢⒃~表示為帶權(quán)重的由中文維基百科文章定義的概念向量,將詞之間的相關(guān)度計(jì)算轉(zhuǎn)化為比較相應(yīng)的概念向量,然后,使用余弦方法比較兩個(gè)向量,得到詞之間的相關(guān)度。本文改進(jìn)方法中,利用概率模型,引入概念的先驗(yàn)概率,利用維基百科文章標(biāo)題的文檔頻率、文檔集頻率以及頁(yè)面之間的鏈接結(jié)構(gòu)信息對(duì)概念的先驗(yàn)概率進(jìn)行估計(jì)。實(shí)驗(yàn)結(jié)果表明,本文的改進(jìn)方法顯著提高了相關(guān)度計(jì)算性能,斯皮爾曼等級(jí)相關(guān)系數(shù)從0.40提高到0.52。文章進(jìn)一步比較分析了各種方法的特點(diǎn),并指出在一定范圍內(nèi),概念集合的選取對(duì)詞語(yǔ)之間相關(guān)度計(jì)算結(jié)果的影響甚小,組合方法參數(shù)的選取對(duì)相關(guān)度計(jì)算的結(jié)果也幾乎沒有影響,我們提出的改進(jìn)方法具有較強(qiáng)的魯棒性。
本文研究的測(cè)試集是從英文測(cè)試集翻譯而來。然而,中英文詞之間并沒有一一對(duì)應(yīng)的關(guān)系。為了檢驗(yàn)本文提出的改進(jìn)方法是否與本研究采用的測(cè)試集有關(guān),它是否也同樣適用于英文,未來的工作有兩個(gè)方面:其一,在其他的中文相關(guān)度測(cè)試集上對(duì)本文的方法進(jìn)行測(cè)試,觀察評(píng)測(cè)結(jié)果是否與本文的結(jié)果一致;其二,使用英文維基百科在英文的測(cè)試集上檢驗(yàn)該改進(jìn)方法是否同樣適合于英文。
[1]Finkelstein L,E Gabrilovich,Y Matias,et al.Placing search in context:The concept revisited[J].ACM Transactions on Information Systems,2002,20(1):116-131.
[2]Patwardhan S,S Banerjee&T.Pedersen.SenseRelate:TargetWord-Ageneralized framework for word sense disambiguation [C]//Proceeding of AAAI-05,2005.
[3]Budanitsky,A.& G.Hirst.Evaluating WordNet-based Measures of Lexical Semantic Relatedness[J].Computational Linguistics,2006,32(1):13-47.
[4]Gabrilovich E,S Markovitch.Computing semantic relatedness using Wikipedia-based explicit semantic analysis[C]//Proceedings of IJCAI,2007:1606-1611.
[5]石靜,吳云芳,邱立坤,等.基于大規(guī)模語(yǔ)料庫(kù)的漢語(yǔ)詞義相似度計(jì)算方法[J].中文信息學(xué)報(bào),2012(1):1-6.
[6]孫琛琛,申德榮,等.WSR:一種基于維基百科結(jié)構(gòu)信息的語(yǔ)義關(guān)聯(lián)度計(jì)算算法[J].計(jì)算機(jī)學(xué)報(bào),2012(11):2361-2370.
[7]李赟,黃開妍,等.維基百科的中文語(yǔ)義相關(guān)詞獲取及相關(guān)度分析計(jì)算[J].北京郵電大學(xué)學(xué)報(bào),2009(3):109-112.
[8]Fellbaum,Christiane(editor).WordNet:An Electronic Lexical Database[M].Cambridge,Massachusetts:MIT Press,1998.
[9]R.Rada,H.Mili,E.Bicknell,M.Blettner.Development and Application of aMetric on Semantic Nets[J].IEEE Transactions on Systems,Man,and Cybernetics,January/February 1989,19,1,17-30.
[10]R.Richardson,A.Smeaton,J.Murphy.Using WordNet as a KnowledgeBase for Measuring Semantic Similarity BetweenWords[R].Technical Report-Working paper CA-1294,School of Computer Applications,Dublin City University,Dublin,Ireland,1994.
[11]O.Resnik.Semantic Similarity in a Taxonomy:An Information-Based Measureand its Application to Problems of Ambiguity and Natural Language [J].Journal of Artificial Intelligence Research,11:95-130,1999.
[12]D.Lin.Principle-Based Parsing Without Over generation[C]//Proceedings of the31st Annual Meeting of the Association for Computational Linguistics(ACL'93):112-120,Columbus,Ohio,1993.
[13]A.Tversky.Features of Similarity[M].Psychological Review,84(4):327-352,1977.
[14]M.A.Rodriguez and M.J.Egenhofer.Determining Semantic Similarity AmongEntity Classes from Different Ontologies[J].IEEE Transactions on Knowledge andData Engineering,15(2):442-456,March/April 2003.
[15]Michael Strube,Simon Paolo Ponzetto.WikiRelate!Computing semantic relatedness using Wikipedia[C]//Proceedings of AAAI'06:1419-1224,Boston,MA,2006.
[16]Zesch,T.,M ller,C.,Gurevych,I.:Using Wiktionary for Computing Semantic Relatedness [C]//Proceedings of the Twenty-Third AAAI Conference on Artificial Intelligence,AAAI 2008,Chicago,Illinois,USA,pp.861 867(2008).
[17]D.Bollegala,Y.Matsuo,M.Ishizuka.Measuring semantic similarity between words using Web search engines[C]//Proceedings of WWW,2007.
[18]TorstenZesch,IrynaGurevych, Max Muhlhauser.2007b.Comparing Wikipedia and German Wordnet by Evaluating Semantic Relatedness on MultipleDatasets[C]//Proceedings of NAACL-HLT.Rochester,New York:205-208.
[19]L.Page,S.Brin,R.Motwani,T.Winograd,The-PRANK Citation Ranking:Bringing Order to the Web[C]//Proceedings of Stanford Digital Libraries Working Paper,199.