梁泳詩,黃沛杰,岑洪杰,唐杰聰,王俊東
(華南農(nóng)業(yè)大學(xué) 數(shù)學(xué)與信息學(xué)院,廣東 廣州 510642)
詞語相似性用于衡量兩個詞語之間語義相似的程度,是自然語言處理(natural language processing, NLP)的一個重要的任務(wù),也是信息檢索、機(jī)器翻譯、自動文摘、問答系統(tǒng)、情感分析等眾多NLP下游應(yīng)用的基礎(chǔ)[1],所以如何正確計算詞語的相似性顯得尤為重要。詞語間的相似性主要有兩種,一種是關(guān)系相似,另一種是屬性相似[2]。在屬性上有很強(qiáng)相似性的兩個詞語也被稱為同義詞。而本文所研究的詞語相似性計算就是在屬性相似上開展的。
目前主要有兩種計算詞語相似性的方法,一種是基于訓(xùn)練文本上下文的向量模型,其中最主流的是基于詞向量[3-4];另一種是基于手工構(gòu)建的詞匯分類體系[5-7]。通過向量模型得到詞向量,計算詞向量間的余弦相似度以代表詞語間的語義相似性,這種基于向量模型的方法可以在文本語料中提取詞語間的關(guān)系與詞語的特征表達(dá),但上下文不等同于真正意義上的語義,向量模型的可解釋性是受到限制的[8]。詞匯分類體系是由人工構(gòu)建的知識體系。根據(jù)詞匯分類體系的結(jié)構(gòu)特點(diǎn),可以對詞語的語義相似性進(jìn)行計算,但是人工構(gòu)建的詞匯分類體系詞匯量少,詞匯分類粒度粗糙,難以對眾多詞語的語義差別進(jìn)行細(xì)致的評價。
組合方法可以彌補(bǔ)單一詞向量和單一詞匯分類體系在詞語相似性計算中的不足。Guo等人[9]在NLPCC-ICCPOL 2016評測比賽中,運(yùn)用多種語料庫得到的向量表達(dá)以及多種詞匯分類體系對詞語進(jìn)行相似性計算,然后通過加權(quán)組合得到最終的詞語相似性,取得了比賽的第一名。但他們的組合方法過于簡單,也沒有考慮不同類型知識來源的差別。Faruqui等人[10]利用詞匯分類體系,在已經(jīng)訓(xùn)練好的詞向量上增強(qiáng)它的語義關(guān)系,彌補(bǔ)了詞匯分類體系中詞匯量不足的缺點(diǎn),同時改善了詞向量的語義表達(dá)。然而,他們忽視了不同的詞匯分類體系對詞語向量表達(dá)的修正帶來的潛在差異,本文在詞語的向量表達(dá)構(gòu)建中綜合了不同類型的詞匯分類體系知識,并初步探索了這些差異性知識的選用和融合效果。相比已有的研究,本文的主要貢獻(xiàn)如下。
(1) 提出了向量模型和多源詞匯分類體系相結(jié)合的詞語相似性計算方法。采用HowNet、《同義詞詞林?jǐn)U展版》等詞匯分類體系的近義詞關(guān)系以及中文信息學(xué)會社會媒體專委會提供的SMP 2015微博數(shù)據(jù)集訓(xùn)練得到的詞向量,計算得到的詞向量表達(dá),取得優(yōu)于單一詞向量、單一詞匯分類體系以及單一詞匯分類體系修正詞向量等方案的詞語相似性計算效果。
(2) 研究了不同類型詞匯分類體系提供的知識的選用和融合,進(jìn)一步提高詞語相似性的計算效果。在中文詞語相似性評測的公開數(shù)據(jù)集PKU 500上進(jìn)行實(shí)驗(yàn),取得了0.637的斯皮爾曼等級相關(guān)系數(shù),比NLPCC-ICCPOL 2016詞語相似度評測比賽第一名的方法的結(jié)果提高了23%。
本文后續(xù)部分安排如下: 第二節(jié)介紹相關(guān)工作,第三節(jié)介紹本文提出的方法,第四節(jié)給出測試結(jié)果及分析,最后一節(jié)總結(jié)本文的工作并做了簡要的展望。
在現(xiàn)有的計算詞語相似性的兩類方法中,基于向量模型的方法建立在一個假設(shè)上: 有相似語義的詞語會傾向于在相似的上下文中出現(xiàn)。因此一個詞語的語義可以通過對它所在的上下文建模計算出來[11]。盡管所有的向量空間模型都是基于相同的假設(shè),他們又有各自的特色。他們之間最主要的區(qū)別在于如何定義上下文[11]。早期的模型是基于文檔模型(document-based models)進(jìn)行潛在語義分析(latent semantic analysis, LSA)[12]。這些模型是以所有的文檔或者段落作為上下文,因此在文檔中經(jīng)常共同出現(xiàn)的詞語會被視作語義相似。還有一種模型是近年來最受歡迎的分布式向量表示,它就是詞向量,也稱為詞嵌入(word embeddings)[3-4]。它的核心思想是通過詞的上下文(周圍的詞)訓(xùn)練出詞匯表征[13]。在這種模型里面詞語被投射進(jìn)連續(xù)的空間,擁有相似上下文的詞語在這個多維空間里面會很相近。
在詞匯分類體系方面,過去有很多研究者花了巨大的人力構(gòu)建詞匯分類體系,意在為自然語言處理提供詞匯知識庫,如在中文上就有HowNet[6]和《同義詞詞林?jǐn)U展版》[7],在英文上有WordNet[5]、DBnary[14]等。
WordNet和《同義詞詞林?jǐn)U展版》都是以層次結(jié)構(gòu)的方式呈現(xiàn)的,而詞語的相似性是根據(jù)詞語在語義分類樹上的距離所定義的。WordNet是一個詞匯資源,由普林斯頓大學(xué)構(gòu)建[5]。WordNet把名詞、動詞、形容詞和副詞連接成一套同義詞集(synsets),每套同義詞集都代表一個概念,同義詞集之間會根據(jù)語義、概念和詞匯關(guān)系相連接。一詞多意的詞語會與多個同義詞集對應(yīng),它們的意思會根據(jù)出現(xiàn)頻率進(jìn)行排序。而HowNet則與WordNet和《同義詞詞林?jǐn)U展版》不一樣,HowNet是用復(fù)雜的、多個維度的知識描述語言對詞語進(jìn)行定義的。HowNet選用義原(最小單位)作為標(biāo)記集去描述詞語的語義。通過這些標(biāo)記集,可以對詞語的語義相似性進(jìn)行計算以及生成詞類。
但是如上文所提到的,這兩類傳統(tǒng)的詞語相似性計算方法在詞語表達(dá)的語義性、構(gòu)建代價以及詞匯覆蓋等方面都存在各自的缺點(diǎn)。本文提出一種向量模型與多源詞匯分類體系相結(jié)合的詞語相似性計算方法,采用多源詞匯分類體系的近義詞關(guān)系以及向量模型得到的詞向量,計算得到詞語的向量表達(dá),并探索不同類型詞匯分類體系提供的知識的選用和融合問題,彌補(bǔ)了單一詞向量和單一詞匯分類體系在詞語相似性計算中的缺點(diǎn)。
圖1是本文所提出方法的總體技術(shù)架構(gòu)。
圖1所示的技術(shù)框架中,主要分為四個部分: 第一部分是利用大型的語料庫,通過向量模型訓(xùn)練得到詞向量,構(gòu)成初始向量表達(dá)層;第二部分是詞匯分類體系,本文選用HowNet和《同義詞詞林?jǐn)U展版》兩種中文詞匯分類體系;第三部分是近義關(guān)系層,有別于Faruqui等人[10]采用的單一詞匯分類體系的近義詞關(guān)系修正詞語向量表達(dá),本文采用多源詞匯分類體系的近義詞關(guān)系結(jié)合向量模型得到的詞向量,計算得到詞語的向量表達(dá);第四部分是多源融合層,與Guo等人[9]采用的簡單組合方法不同,本文提出對不同類型的詞匯分類體系提供的差異性知識進(jìn)行選用和融合,通過不同的關(guān)聯(lián)強(qiáng)度對詞向量進(jìn)行修正,最后得到更能體現(xiàn)詞語語義的向量表達(dá)。
圖1 向量模型與多源詞匯分類體系相結(jié)合的技術(shù)架構(gòu)
目前訓(xùn)練詞向量的主流方法是在訓(xùn)練語言模型的同時得到詞向量?;诮y(tǒng)計的語言模型能夠表示成一個已出現(xiàn)的詞和當(dāng)前詞的條件概率的極大似然估計,如式(1)所示。
(1)
針對不同的上下文構(gòu)造方法,在訓(xùn)練詞向量時主要有CBOW (continuous bag-of-words)和Skip-gram兩種語言模型[4]。Skip-gram模型允許某些詞被跳過,在訓(xùn)練數(shù)據(jù)少的情況用Skip-gram可以創(chuàng)造更多的訓(xùn)練例子,而連續(xù)的CBOW則可以有較快的訓(xùn)練速度[4]。由于本文選用的詞向量訓(xùn)練數(shù)據(jù)不論是新聞?wù)Z料還是微博數(shù)據(jù)都是數(shù)量較大,因此本文使用CBOW語言模型對詞語的語義層面建模。CBOW語言模型不限于已出現(xiàn)的詞為wt的上下文,而是把句子中距離當(dāng)前詞n以內(nèi)的詞都看作是當(dāng)前詞的上下文環(huán)境。
用一個函數(shù)f表示當(dāng)前詞wt的上下文的向量到當(dāng)前詞wt條件概率的映射[3],并結(jié)合CBOW的機(jī)制,則當(dāng)前詞的上下文和當(dāng)前詞的條件概率可以表示為式(2)。
(2)
其中,C(wi)是詞語wi的分布式特征向量。
在訓(xùn)練語言模型及詞向量時,對于wt都要掃一遍詞庫大小|V|,計算復(fù)雜度過高??梢圆捎秘?fù)采樣(negative sampling)[15]和分層的softmax(hierarchical softmax)[16]的方法來降低計算復(fù)雜度。
基于詞匯分類體系計算詞語相似度的方法是在某種世界知識庫上展開的,這些世界知識庫一般都采用一棵或者幾棵樹狀的層次結(jié)構(gòu)對詞語的概念進(jìn)行描述,在這些層次結(jié)構(gòu)圖中,一個概念代表一個節(jié)點(diǎn),任何兩個節(jié)點(diǎn)之間有且僅有一條路徑,這條路徑的長度就可以反映這兩個概念的語義距離。本文主要研究的是兩個中文方面的詞匯分類體系,分別是HowNet[6]以及《同義詞詞林?jǐn)U展版》[7],并根據(jù)詞匯分類體系各自的結(jié)構(gòu)特點(diǎn),制作近義詞詞典。
在HowNet中,義原是描述概念的最基本單位,不同義原的集合表述不同的概念。HowNet中的詞語有一個或者多個概念[17-18]。如在HowNet中詞語“男人”的表述如圖2所示。
圖2 HowNet結(jié)構(gòu)示例
從圖2可以看到,在HowNet中,詞語“男人”的概念是DEF=human|人,family|家,male|男,人、家、男就是組成概念的義原。
HowNet中的義原有1 600多個[18],HowNet中的中文詞語就由這些義原的組合進(jìn)行描述。義原又以樹狀結(jié)構(gòu)的層次體系進(jìn)行組織,通過義原在層次體系中的深度求出義原的相似度,進(jìn)而逐步求出詞語概念的相似度以及詞語的相似性。本文利用HowNet的詞語相似性的計算方法,計算出HowNet中所有詞語兩兩之間的相似性,并把一個詞語及與之相似度最高的詞語視為該詞語的近義詞詞集,所有近義詞詞集組合成HowNet的近義詞詞典。
而《同義詞詞林》則是由梅家駒等人[19]在1983年整理編寫,隨后由哈爾濱工業(yè)大學(xué)信息檢索實(shí)驗(yàn)室進(jìn)行更新而成的一部具有漢語大詞表的“哈工大信息檢索研究室同義詞詞林?jǐn)U展版”[7]?!锻x詞詞林?jǐn)U展版》包含約七萬條詞語,按照詞語的意思進(jìn)行編碼,是一部同義詞類的詞典,如圖3所示。
圖3 《同義詞詞林?jǐn)U展版》示例
《同義詞詞林?jǐn)U展版》在秉承《同義詞詞林》編撰風(fēng)格的基礎(chǔ)上,對《同義詞詞林》進(jìn)行修正與擴(kuò)充。與《同義詞詞林》編碼規(guī)則類似,《同義詞詞林?jǐn)U展版》按照樹狀層次結(jié)構(gòu)把詞條進(jìn)行組織,把詞語分為大、中、小、詞群和原子詞群五類,大類有12組,中類有95組,小類有1 425組,詞群有4 223組,原子詞群有17 807組。每一個原子詞群中都有若干個詞語,同一原子詞群的詞語不是語義相同或十分接近就是語義有很強(qiáng)的相關(guān)性[7]。每一行都有自身所屬的編碼,在《同義詞詞林?jǐn)U展版》中,詞語的相似性就是根據(jù)每一行的編碼計算的。編碼的最后一位標(biāo)記符用于說明同一個原子詞群中的詞語關(guān)系,共有三種標(biāo)記符,分別為“=”“#”“@”,“=”代表相等、同義,“#”代表同行詞語屬于相關(guān)詞語,是同類,不能視為相等,“@”代表獨(dú)立,表示在詞典中該詞既沒有同義詞也沒有相關(guān)詞?!锻x詞詞林?jǐn)U展版》自身就是一部同義詞類的詞典,每一行詞語視為語義上具有強(qiáng)相關(guān)性,可以直接用在詞向量的修正上。并且,《同義詞詞林?jǐn)U展版》中近義詞的不同標(biāo)記符也成為本文對其提供的知識進(jìn)行選用的依據(jù)。
向量模型和詞匯分類體系相結(jié)合的方法可以彌補(bǔ)單一詞向量和單一詞匯分類體系在詞語相似性計算中的不足。Guo等人[9]在NLPCC-ICCPOL 2016評測比賽中也運(yùn)用了多種語料庫得到的向量表達(dá)以及多種詞匯分類體系對詞語進(jìn)行相似性計算,但他們的組合方法過于簡單,僅僅通過加權(quán)組合得到最終的詞語相似性。Faruqui等人[10]利用詞匯分類體系,在已經(jīng)訓(xùn)練好的詞向量上增強(qiáng)其語義關(guān)系,在英語語料上取得了較好的應(yīng)用效果。本文在其基礎(chǔ)上,進(jìn)一步考慮不同的詞匯分類體系對詞語向量表達(dá)的修正帶來的潛在差異,在向量表達(dá)的構(gòu)建中綜合了不同類型的詞匯分類體系知識,并研究了這些差異性知識的選用和融合效果。具體而言,如圖1所示,由近義關(guān)系層、初始向量表達(dá)層以及多源融合層共同完成本文方案中詞語向量表達(dá)的構(gòu)建。
近義關(guān)系層提供了特定詞語在詞匯分類體系中的近義詞關(guān)系信息。通過不同類型的詞匯分類體系,可以得到多組語義上具有強(qiáng)相關(guān)性的詞集,如上文提到的HowNet中的相似度最大近義詞詞集以及《同義詞詞林?jǐn)U展版》中的原子詞群。
本文在Faruqui等人[10]提供的方法基礎(chǔ)上,增加了多源融合層??紤]到不同詞匯分類體系,以及同一詞匯分類體系內(nèi)部的不同近義情況對于詞語語義向量表達(dá)價值的差異,本文增加多源融合層對多源的詞匯分類體系提供的知識進(jìn)行選用和修正權(quán)重的賦予。目前本文僅在一定數(shù)量案例分析的基礎(chǔ)上嘗試了一些較為基礎(chǔ)的選用考慮因素,更為系統(tǒng)的選用機(jī)制還有待進(jìn)一步研究。一方面,對來自于《同義詞詞林?jǐn)U展版》的強(qiáng)關(guān)聯(lián)詞,本文選取了編碼的最后一位的標(biāo)記符為“=”的原子詞群,而棄用了標(biāo)記符為“#”的原子詞群,因?yàn)椤?”代表詞語間是相關(guān)的,是同類,但在很多情況下和同義有一定差距。另一方面,對于來自于HowNet相似度最大的近義詞詞集,本文只保留最大相似度為α以上的近義詞詞集(在后面的實(shí)驗(yàn)中,我們采用了α=0.75的設(shè)置,更優(yōu)化的參數(shù)可以通過驗(yàn)證得到),因?yàn)橄嗨贫冗^低的詞語,對詞向量的修正可能會造成負(fù)面影響。本文的實(shí)驗(yàn)表明,上述詞匯分類體系的知識選用有助于近義詞詞集質(zhì)量的提高。
(3)
其中,α和β是控制關(guān)聯(lián)相對強(qiáng)度的系數(shù),βk代表不同來源的詞匯分類體系知識權(quán)重,i代表需要構(gòu)建的詞語,j代表詞語i的近義詞。
根據(jù)要求,對公式Ψ(Q)求最小值,對Ψ(Q)進(jìn)行一階求導(dǎo),并令導(dǎo)數(shù)等于0,從而得到詞向量qi的更新公式,如式(4)所示。
(4)
本文采用兩個來源的訓(xùn)練語料庫訓(xùn)練詞向量,分別是搜狗實(shí)驗(yàn)室提供的搜狗新聞數(shù)據(jù)集以及中國中文信息學(xué)會社會媒體專委會提供的SMP2015微博數(shù)據(jù)集(SMP 2015 Weibo DataSet),其中在SMP 2015 Weibo DataSet 中取了4G和10G的微博作為訓(xùn)練語料庫,得到三個語料庫用于對比試驗(yàn)。
在中文詞匯分類體系選用方面,本文采用了HowNet 2000版(HowNet的開源版本,實(shí)驗(yàn)結(jié)果中標(biāo)記為“HowNet”)以及《同義詞詞林?jǐn)U展版》。
在實(shí)驗(yàn)效果評價方面,采用了中文詞語相似度評測數(shù)據(jù)集PKU 500數(shù)據(jù)集[1]。PKU 500共有500對詞語,每對詞語都有人工標(biāo)注的相似度(范圍為0~10)。PKU 500被采用到第五屆國際自然語言處理與中文計算會議暨第24屆國際東方語言計算機(jī)處理會議(NLPCC-ICCPOL 2016)的評測比賽中。
本文采用斯皮爾曼等級相關(guān)系數(shù)(Spearman rank correlation coefficient)去衡量詞向量計算詞語相似性的效果。通過計算PKU 500中每對詞語人工標(biāo)注的相似性和詞向量計算出的詞語相似性之間的斯皮爾曼等級相關(guān)系數(shù),借以判斷各實(shí)驗(yàn)方案對詞語相似性的計算效果。
實(shí)驗(yàn)方案為:
(1) 基于向量模型的詞語相似性計算: 對比不同的訓(xùn)練語料訓(xùn)練得到的詞向量對詞語的相似性計算的效果。
(2) 基于詞匯分類體系的詞語相似性計算: 對比不同詞匯分類體系,本文中為HowNet和《同義詞詞林?jǐn)U展版》應(yīng)用于詞語相似性計算的效果。
(3) 基于向量模型與詞匯分類體系相結(jié)合的詞語相似性計算: 分別利用HowNet與《同義詞詞林?jǐn)U展版》所提供的知識參加詞語向量表達(dá)的構(gòu)建,考察其結(jié)合方法的效果。
(4) 基于向量模型與多源詞匯分類體系相結(jié)合的詞語相似性計算: 對比了本文提出的方法在不同類型的詞匯分類體系的知識選用及其在詞語向量表達(dá)構(gòu)建中的不同權(quán)重的效果。
(5) 研究進(jìn)展方法在中文詞語相似性計算上的性能對比: 對比了本文提出的方法與研究進(jìn)展方法在詞語相似性計算上的性能。
本文的方法為向量模型和多源詞匯分類體系相結(jié)合的詞語相似性計算方法,用于與之對比的兩個研究進(jìn)展的方法如下:
(1) NLPCC-ICCPOL 2016評測比賽第一名的方法: Guo等人[9]在NLPCC-ICCPOL 2016評測比賽中也運(yùn)用組合多種語料庫得到的向量表達(dá)以及多種詞匯分類體系對詞語進(jìn)行相似性計算的方法,對比實(shí)驗(yàn)中直接引用了其在比賽中得到的結(jié)果。
(2) 向量模型與單一詞匯分類體系相結(jié)合的方法: Faruqui等人[10]利用詞匯分類體系,在已經(jīng)訓(xùn)練好的詞向量上增強(qiáng)它的語義關(guān)系,在英文語料上取得了較好的應(yīng)用效果。本文將其應(yīng)用于中文詞語相似性計算,在實(shí)驗(yàn)中,以實(shí)驗(yàn)效果最好的單一詞匯分類體系(本文實(shí)驗(yàn)中為《同義詞詞林?jǐn)U展版》)修正詞向量的結(jié)果代表該方法的結(jié)果。
3.3.1 基于向量模型的詞語相似性計算
本實(shí)驗(yàn)運(yùn)用word2vec的CBOW模型在三個語料上進(jìn)行詞向量的訓(xùn)練,“搜狗新聞”代表搜狗新聞?wù)Z料庫訓(xùn)練詞向量。“4G微博”代表用4GB的微博數(shù)據(jù)來進(jìn)行詞向量訓(xùn)練的方案。“10G微博”代表用10GB的微博數(shù)據(jù)作為語料庫來訓(xùn)練詞向量。三個語料庫對PKU 500的數(shù)據(jù)集詞語的覆蓋率,如表1所示。
表1 不同的詞向量訓(xùn)練語料庫對PKU 500詞語的覆蓋率
從表1可以看到,搜狗新聞?wù)Z料庫,在PKU 500的1 000個詞語中有12個詞語不存在,4G微博語料庫缺失了八個,而10G微博語料庫覆蓋了全部詞語。進(jìn)一步地,我們對比了不同語料庫訓(xùn)練的詞向量的詞語相似性計算效果,如表2所示。
表2 不同語料庫訓(xùn)練的詞向量的詞語相似性計算效果
表2顯示,通過這三種語料庫計算出來的斯皮爾曼等級相關(guān)系數(shù)分別為0.412、0.413和0.418。證明語料庫越大,詞語覆蓋率就會越高,計算出的詞語相似度就會越高,斯皮爾曼等級相關(guān)系數(shù)也會越高。本文后續(xù)實(shí)驗(yàn)都采用10G微博訓(xùn)練的詞向量。
3.3.2 基于詞匯分類體系的詞語相似性計算
本實(shí)驗(yàn)采用HowNet以及《同義詞詞林?jǐn)U展版》作為詞匯分類體系,詞語的相似性計算分別采用了李峰等[18]以及田久樂等[20]的方法。
利用HowNet和《同義詞詞林?jǐn)U展版》計算詞語相似度的參數(shù)設(shè)置分別如表3和表4所示。
表3 HowNet相似性計算參數(shù)設(shè)置
表4 《同義詞詞林?jǐn)U展版》相似性計算參數(shù)設(shè)置
首先考察這兩個詞匯分類體系在PKU 500數(shù)據(jù)集中詞語的覆蓋情況,如表5所示。
表5 不同的詞匯分類體系對PKU 500詞語的覆蓋率
從表5可以看到,在PKU 500的數(shù)據(jù)集的1 000個詞中,HowNet和《同義詞詞林?jǐn)U展版》的詞語覆蓋率分別為88.5%和95.8%,可見,詞匯分類體系的詞語覆蓋率還存在不足。因?yàn)檫@些詞匯分類體系都是人工打造,要收錄所有詞語十分困難,這是詞匯分類體系方法的不足之處之一。而且我們發(fā)現(xiàn),不同于詞向量計算得到的結(jié)果,在HowNet的計算結(jié)果中,相似度為1的詞語有85對(占17%),在《同義詞詞林?jǐn)U展版》中,相似度為1的有134對(占26.8%),所以相對于詞向量計算詞語相似性而言,人工打造的詞匯分類體系詞語的區(qū)分粒度不夠細(xì)致,很多情況下都不能區(qū)分相似度較高的詞語。進(jìn)一步檢驗(yàn)詞匯分類體系計算詞語相似度的效果,如表6所示。
表6 詞匯分類體系的詞語相似性計算效果
在表6中,來自HowNet的詞語相似度與人工標(biāo)注的詞語相似度的斯皮爾曼等級相關(guān)系數(shù)為0.483,《同義詞詞林?jǐn)U展版》的為0.481。通過與上一個實(shí)驗(yàn)方案的斯皮爾曼等級相關(guān)系數(shù)對比,可以發(fā)現(xiàn)基于詞匯分類體系求得的斯皮爾曼等級相關(guān)系數(shù)都比基于向量模型求出的斯皮爾曼等級相關(guān)系數(shù)高,說明盡管詞匯分類體系有自身的缺點(diǎn),但是利用詞匯分類體系求出的詞語相似度比利用詞向量求出的詞語相似度更能反映真實(shí)的詞語語義相關(guān)性情況。
3.3.3 基于向量模型與詞匯分類體系相結(jié)合的詞語相似性計算
在本實(shí)驗(yàn)中,“w2v”代表采用10G微博訓(xùn)練詞向量的計算方法,“w2v+HowNet”代表在詞語向量表達(dá)構(gòu)建中采用了10G微博訓(xùn)練詞向量以及來自于HowNet的知識?!皐2v +同義詞詞林?jǐn)U展版” 代表在詞語向量表達(dá)構(gòu)建中采用了10G微博訓(xùn)練詞向量以及來自于《同義詞詞林?jǐn)U展版》的知識。不同方案的詞語相似性計算效果如表7所示。
表7 不同方案的詞語相似性計算效果
從表7可以看到,采用詞匯分類體系對詞向量進(jìn)行修正的方法,實(shí)驗(yàn)效果比傳統(tǒng)的兩種詞語相似性的計算方法都要好,說明這種利用詞匯分類體系對詞向量進(jìn)行修正從而計算詞語相似性的方法是可行的。這種方法彌補(bǔ)了詞匯分類體系中詞匯量不足的缺點(diǎn),同時也補(bǔ)充了詞向量語義表達(dá)上的欠缺。同時我們也發(fā)現(xiàn)《同義詞詞林?jǐn)U展版》的修正效果在PKU 500數(shù)據(jù)集上比HowNet的修正效果更好一些。如3.2節(jié)所述,本文用效果較好的“w2v+同義詞詞林?jǐn)U展版”方案、代表Faruqui等人[10]方法在中文詞語相似性計算的應(yīng)用。
3.3.4 基于向量模型與多源詞匯分類體系相結(jié)合的詞語相似性計算
本實(shí)驗(yàn)中,“w2v+ (HowNet,同義詞詞林?jǐn)U展版)”代表采用了HowNet和《同義詞詞林?jǐn)U展版》兩個詞語語義關(guān)系的知識源?!癏owNet(>0.75)”代表HowNet的知識來源只保留相似度大于0.75的近義詞加入到詞語的近義詞集?!巴x詞詞林?jǐn)U展版(=)”表示《同義詞詞林?jǐn)U展版》的知識來源只保留編碼最后一位標(biāo)記符為“=”的原子詞群?!安町悪?quán)重”代表對來自于HowNet、《同義詞詞林?jǐn)U展版》以及兩者的交集的近義詞差異對待,考慮到3.3.2節(jié)的實(shí)驗(yàn)中《同義詞詞林?jǐn)U展版》的單源結(jié)合效果優(yōu)于HowNet,在式(4)的詞語向量表達(dá)構(gòu)建中,本文分別給詞語本身w2v、僅來自于HowNet的近義詞的w2v、僅來自于《同義詞詞林?jǐn)U展版》的近義詞的w2v、同時來自于HowNet和《同義詞詞林?jǐn)U展版》的近義詞的w2v設(shè)定了0.2、0.1、0.2和0.5的權(quán)重。而非差異權(quán)重的方案,則給予來自于不同詞匯分類體系的近義詞的w2v相同的權(quán)重。結(jié)果如表8所示。
表8 不同知識選用及權(quán)重方案的詞語相似性計算效果
可以看到,不做任何選取地選用HowNet和《同義詞詞林?jǐn)U展版》的多源方案,結(jié)果并沒有優(yōu)于單獨(dú)采用《同義詞詞林?jǐn)U展版》的方案(表7),可見探索不同類型詞匯分類體系提供的知識的選用和融合問題是有價值的。而本文采用的最優(yōu)方案,在PKU 500數(shù)據(jù)集上取得了高達(dá)0.637的斯皮爾曼等級相關(guān)系數(shù)。
3.3.5 研究進(jìn)展方法在中文詞語相似性計算上的性能對比
本文的方法與研究進(jìn)展方法的對比如表9所示。
表9 本文的方法與研究進(jìn)展方法在中文詞語相似性計算上的性能對比
從表9可以看到,在PKU 500數(shù)據(jù)集上,以斯皮爾曼等級相關(guān)系數(shù)標(biāo)準(zhǔn),本文的方法比Faruqui等人[10]的方法在中文詞語相似性計算的效果提高18.4%,比NLPCC-ICCPOL 2016評測比賽中第一名的方法[9]高出23%。
本文提出一種向量模型與多源詞匯分類體系相結(jié)合的詞語相似性計算方法,采用多源詞匯分類體系的近義詞關(guān)系以及向量模型得到的詞向量,計算得到詞語的向量表達(dá),并探索了不同類型詞匯分類體系提供的知識的選用和融合問題,彌補(bǔ)了單一詞向量和單一詞匯分類體系在詞語相似性計算中的缺點(diǎn),在公開數(shù)據(jù)集PKU 500數(shù)據(jù)集的評測取得了0.637的斯皮爾曼等級相關(guān)系數(shù),比NLPCC-ICCPOL 2016詞語相似度評測比賽第一名的方法的結(jié)果提高了23%。進(jìn)一步的工作主要集中在研究更為系統(tǒng)的不同類型詞匯分類體系提供的知識的選用和融合方案。
[1] Wu Y F, Li W. Overview of the NLPCC-ICCPOL 2016 shared task: Chinese word similarity measurement[J]. Lecture Notes in Artificial Intelligence, 2016, 10102:828-839.
[2] Turney P D. Similarity of semantic relations[J]. Computational Linguistics, 2006, 32(3):379-416
[3] Bengio Y, Ducharme R, Vincent P,et al. A neural probabilistic language model[J]. The Journal of Machine Learning Research, 2003(3):1137-1155.
[4] Mikolov T, Chen K, Corrado G, et al. Efficient estimation of word representations in vector space[C]//Proceedings of the International Conference on Learning Representations (ICLR 2013), 2013.
[5] Miller G A. WordNet: A lexical database for English[J]. Communications of the ACM, 1995,38(11): 235-244.
[6] Dong Z D, Dong Q. HowNet and the computation of meaning[M]. World Scientific Publishing Company, Singapore, 2006.
[7] Li W, Liu T, Zhang Y, et al. Automated generalization of phrasal paraphrases from the web[C]//Proceedings of the 3rd International Workshop on Paraphrasing (IWP2005), 2005: 49-56.
[8] Panchenko A. Best of both worlds: Making word sense embeddings interpretable[C]//Proceedings of the 10th Language Resources and Evaluation Conference (LREC 2016), 2016: 2649-2655.
[9] Guo S R,Guan Y, Li R, et al. Chinese word similarity computing based on combination strategy[C]//Proceedings of NLPCC 2016,Lecture Notes in Artificial Intelligence, 2016,10102: 744-752.
[10] Faruqui M, Dodge J, Jauhar S K, et al. Retrofitting word vectors to semantic lexicons[C]//Proceedings of the 2015 Annual Conference of the North American Chapter of the ACL (NAACL 2015), 2015:1606-1615.
[11] Heylen K, Peirsmany Y, Geeraerts D, et al. Modeling word similarity: An evaluation of automatic synonym extraction algorithms[C]//Proceedings of the 6th International Language Resources and Evaluation, 2008, 3243-3249.
[12] Landauer T K, Dumais S T. A solution to plato’s problem: The latent semantic analysis theory of acquisition, induction and representation of knowledge[J]. Psychological Review, 1997,104(2):211-240.
[13] Baroni M, Zamparelli R. Nouns are vectors, adjectives are matrices: Representing adjective-noun constructions in semantic space[C]//Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing (EMNLP 2010), 2010:1183-1193.
[14] Sérasset G. DBnary: Wiktionary as a lemon-based multilingual lexical resource in rdf[J]. Semantic Web Journal-Special Issue on Multilingual Linked Open Data, 2015, 6(4):355-361.
[15] Mikolov T, Sutskever I, Chen K, et al. Distributed representations of words and phrases and their compositionality[C]//Proceedings of the 27th Annual Conference on Neural Information Processing Systems (NIPS 2013), 2013b: 3111-3119.
[16] Morin F, Bengio Y. Hierarchical probabilistic neural network language model[C]//Proceedings of the International Workshop on Artificial Intelligence and Statistics (AISTATS 2005), 2005: 246-252.
[17] 劉群, 李素建. 基于《知網(wǎng)》的詞匯語義相似度計算[J]. 中文計算語言學(xué), 2002, 7(2): 59-76 .
[18] 李峰, 李芳. 中文詞語語義相似度計算·基于《知網(wǎng)》2000[J]. 中文信息學(xué)報, 2007, 21(3): 99-105.
[19] 梅家駒, 竺一鳴, 高蘊(yùn)琦,等. 同義詞詞林[M].上海:上海辭書出版社, 1983: 106-108.
[20] 田久樂, 趙蔚. 基于同義詞詞林的詞語相似度計算方法[J]. 吉林大學(xué)學(xué)報(信息科學(xué)版), 2010,28(6): 602-608.
E-mail: cenhongjie@stu.scau.edu.cn