蘇 暢 , 付 澤 , 鄭發(fā)魁 , 陳怡疆
1(廈門大學(xué) 信息學(xué)院 人工智能系,福建 廈門 361005)
2(廈門大學(xué) 信息學(xué)院 計(jì)算機(jī)科學(xué)系,福建 廈門 361005)
在自然語言處理研究領(lǐng)域中,隱喻是一個不可回避的問題.一些研究[1,2]表明,中文和英文的語料中存在著大量隱喻表達(dá).因此,機(jī)器翻譯、文本處理、信息檢索等若局限于獲取字面意義,而無法理解隱喻等“言外之意”是遠(yuǎn)遠(yuǎn)不夠的[3].若能在這些領(lǐng)域中引入隱喻計(jì)算系統(tǒng),則有希望進(jìn)一步提高機(jī)器翻譯質(zhì)量,改善搜索引擎反饋,提高人工智能系統(tǒng)的水平.
“同從異出”是隱喻的語義特征和本質(zhì)屬性之一.這里的同和異指的是相似性和差異性.差異性創(chuàng)造了表達(dá)中的語義矛盾,隱喻識別歸根結(jié)底就是發(fā)現(xiàn)不同個體之間的差異性.
隱喻識別是現(xiàn)代隱喻學(xué)的中心問題之一[4].目前,多數(shù)隱喻識別研究工作[5-15]只從某一個角度來判斷兩個事物是否構(gòu)成語義矛盾.這種靜態(tài)的方法具有片面性,因?yàn)槿送鶑亩鄠€角度考慮兩個概念之間的差異性,并且兩個事物可能從一個角度看是相似的,而從另一個角度看卻是相異的.一系列的隱喻研究表明,人是動態(tài)地處理隱喻的.束定芳[4]指出,隱喻的重要特點(diǎn)就是說明了某類事物某方面特征的同時,卻掩蓋了其他方面的特征.Black[16,17]提出了隱喻的過濾作用,即概念有多個意義,在隱喻中,概念突顯出顯著的意義并且過濾掉不顯著的意義.Fauconnier 等人[18]的概念整合理論認(rèn)為,概念之間的映射過程在隱喻中是動態(tài)的.王小潞[19]通過分析人腦在處理隱喻時的ERP 神經(jīng)成像,發(fā)現(xiàn)隱喻處理牽涉到與隱喻內(nèi)容相關(guān)的大腦皮層的各個認(rèn)知模塊,這說明人處理隱喻是一個多種認(rèn)知功能共同處理的復(fù)雜過程.基于上述理論,本文提出了一種動態(tài)分類的思想,從多個分類角度來度量事物之間的差異性,以模仿人腦在處理隱喻時綜合考慮概念的多個意義和角度的復(fù)雜過程.本文的動態(tài)分類思想基于以下3 個原則.
(1)人類可以從多個角度對事物進(jìn)行分類.分類可依據(jù)客觀上的物理特征,如形狀、顏色、功能、狀態(tài)等,也可依據(jù)分類者主觀上對事物的感覺產(chǎn)生的特征,如性格、美丑、善惡等.
(2)兩個事物間的差異性可從一個或多個角度進(jìn)行度量,差異性在不同角度下可能不同.
(3)基于某個分類角度度量事物間的差異性時,事物在這個角度下的性質(zhì)會突顯,在其他角度下的性質(zhì)會消隱.
本文的動態(tài)分類系統(tǒng)從概念的語義類別、整體部件、客觀屬性值和認(rèn)知屬性這4 個角度入手,分別計(jì)算概念在不同角度下的差異性,從而實(shí)現(xiàn)隱喻識別的功能.在語義類別角度上,系統(tǒng)通過計(jì)算概念之間的上下位關(guān)系和“is 關(guān)系”判斷概念的差異性;在整體部件角度上,系統(tǒng)通過計(jì)算概念間的共同部件來判斷概念的差異性;在客觀屬性值角度上,系統(tǒng)從WordNet 中名詞概念的釋義文本中抽取屬性和關(guān)系知識,通過基于反義關(guān)系的屬性值差異性計(jì)算方法判斷概念的差異性;在認(rèn)知屬性角度上,系統(tǒng)通過構(gòu)建圖模型計(jì)算顯著認(rèn)知屬性的差異性.系統(tǒng)輸入可能構(gòu)成隱喻本體和喻體的英文名詞詞對,如〈person,machine〉,輸出為metaphor 或literal,分別代表系統(tǒng)判斷二者構(gòu)成隱喻,或構(gòu)成常規(guī)表達(dá).在英文名詞性隱喻識別的實(shí)驗(yàn)中,本文提出的算法對隱喻、常規(guī)表達(dá)的識別準(zhǔn)確率達(dá)到85.4%.此外,本文的方法在識別出隱喻或常規(guī)表達(dá)結(jié)果的同時,可以給出在不同角度下的識別依據(jù),因此具有可解釋性的特點(diǎn).在進(jìn)一步的實(shí)驗(yàn)中,本文的多角度隱喻識別算法與部分角度的識別算法相比,在準(zhǔn)確率上有所提升.實(shí)驗(yàn)結(jié)果表明,本文算法是有效的.
本文主要做出了以下貢獻(xiàn).
(1)我們實(shí)現(xiàn)了基于動態(tài)分類的隱喻識別方法.該方法能夠根據(jù)事物的多種特征選取對應(yīng)的分類角度,并在多個角度下判斷事物的差異性.
(2)我們的隱喻識別方法是可解釋的.該方法在計(jì)算出隱喻識別結(jié)果的同時提供了動態(tài)分類角度和判斷依據(jù),可以通過角度和依據(jù)解釋隱喻識別的結(jié)果.
(3)我們的隱喻識別方法體現(xiàn)了在隱喻處理過程中,概念的某一部分特征被突顯而另一部分特征被掩蓋的過程[4].
本文第1 節(jié)簡要介紹隱喻識別和屬性及關(guān)系抽取的相關(guān)工作.第2 節(jié)介紹動態(tài)分類使用的各個角度.第3節(jié)說明使用動態(tài)分類進(jìn)行隱喻識別的算法,對算法進(jìn)行實(shí)驗(yàn)并分析結(jié)果.第4 節(jié)對全文的內(nèi)容進(jìn)行總結(jié).
目前,隱喻識別方法大體上可以分為基于知識庫規(guī)則的方法、基于有監(jiān)督的機(jī)器學(xué)習(xí)方法和基于無監(jiān)督的機(jī)器學(xué)習(xí)方法.
在基于知識庫規(guī)則的隱喻識別方法上,Fass[20]基于選擇限制理論,通過對比輸入表達(dá)與人工定義的語義規(guī)則是否匹配來識別動詞的常規(guī)表達(dá)、轉(zhuǎn)喻、隱喻和異常表達(dá).Krishnakumaran 等人[5]使用WordNet 中名詞間的上下位關(guān)系來識別IS-A 型名詞性隱喻,利用詞語在語料庫中的共現(xiàn)頻率來識別動詞和形容詞性隱喻.楊蕓[6]使用HowNet 和《同義詞詞林》,通過語義路徑和共有信息計(jì)算兩個中文名詞的相似性來判斷是否構(gòu)成隱喻表達(dá).賈玉祥等人[7]利用《同義詞詞林》的語義距離和HowNet 的語義關(guān)系來進(jìn)行隱喻表達(dá)的識別.賈玉祥等人[8]使用知識遷移的方法把英文的抽象度知識遷移到中文中,再基于抽象性知識識別隱喻.Kesarwani 等人[9]使用詩歌作為語料進(jìn)行隱喻識別.馮帥等人[10]使用網(wǎng)絡(luò)百科資源作為隱喻識別的知識庫,通過計(jì)算兩個概念在網(wǎng)絡(luò)百科中知識的重合度進(jìn)行隱喻識別.
在使用有監(jiān)督的機(jī)器學(xué)習(xí)方法上,隱喻識別被看作一個分類問題.不同的研究使用概念的不同特征訓(xùn)練隱喻識別的分類器,概念的特征可以粗略地分為概念的屬性特征和概念的語義特征.此外,也有使用概念的多種特征訓(xùn)練分類器的識別方法.在使用概念的屬性特征的方法上,Gedigian 等人[11]將隱喻識別問題轉(zhuǎn)化為一個二值分類問題,訓(xùn)練了一個最大熵模型分類器.Bulat 等人[12]使用概念的屬性特征為概念進(jìn)行語義建模進(jìn)而訓(xùn)練可解釋的隱喻識別分類器.Dunn 等人[21]基于本體論對SUMO 數(shù)據(jù)庫中的概念進(jìn)行屬性特征抽取,使用回歸方法進(jìn)行隱喻識別.在使用概念的語義特征的方法上,Gutiérrez 等人[13]使用成分分布式語義模型獲取“形容詞-名詞”短語的向量表示,進(jìn)而對隱喻和常規(guī)表達(dá)進(jìn)行分類.Mason[14]通過網(wǎng)頁文本提取名詞概念域的特征動詞來構(gòu)建源域到目標(biāo)域之間的映射以及名詞性隱喻實(shí)例.Shutova 等人[2]通過譜聚類實(shí)現(xiàn)了動詞源域和名詞目標(biāo)域的自動擴(kuò)展,來生成動詞性隱喻實(shí)例.Strzalkowski 等人[22]結(jié)合句子的話題結(jié)構(gòu)和抽象性分析實(shí)現(xiàn)隱喻的識別.Hovy 等人[23]使用支持向量機(jī)的Tree Kernels,讓機(jī)器學(xué)習(xí)模型通過學(xué)習(xí)句子的語義解析樹來進(jìn)行隱喻的識別.Tekiroglu等人[15]使用人的知覺信息作為特征進(jìn)行隱喻識別.在使用概念的多種特征的方法上,Shutova 等人[24]提出了跨模態(tài)的隱喻識別方法,結(jié)合文字和圖像對隱喻進(jìn)行識別.黃孝喜等人[25]通過計(jì)算概念的抽象度,結(jié)合概念的相似度使用支持向量機(jī)對隱喻識別進(jìn)行分類.Rai 等人[26]則使用條件隨機(jī)場模型,綜合了句法、概念、情感和詞嵌入的特征,訓(xùn)練了一個隱喻識別的分類器.
在基于無監(jiān)督的學(xué)習(xí)方法上,Shutova 等人[27]使用多層次的圖分解模型為名詞進(jìn)行聚類,進(jìn)而實(shí)現(xiàn)隱喻識別算法.
此外,還有利用上下文信息進(jìn)行隱喻識別的方法.Klebanov 等人[28]使用一元語言模型,以上下文作為特征,用監(jiān)督學(xué)習(xí)的方法對連續(xù)文本中的詞語進(jìn)行隱喻識別.Schulder 等人[29]同樣利用上下文,通過標(biāo)記句中非常規(guī)詞匯作為特征進(jìn)行隱喻識別.
現(xiàn)有的方法大多是基于概念的單一特征進(jìn)行隱喻識別.有的方法雖然結(jié)合了概念的兩個或多個特征[24-26],但并沒有對概念的不同特征進(jìn)行不同角度上的分析.本文實(shí)現(xiàn)了一種基于動態(tài)分類的隱喻識別方法.該方法與現(xiàn)有方法相比,結(jié)合了概念的語義信息、屬性信息、部件等多種特征,并對不同特征的不同角度進(jìn)行了分析.該方法把概念的多種特征動態(tài)地結(jié)合到了一起,能夠根據(jù)概念的不同情況選擇適用的特征進(jìn)行隱喻識別.
2.1.1 特征的類別
Miller[30]認(rèn)為,刻畫一個名詞概念并使其能與其他概念區(qū)分,需要考慮概念的屬性(attributes)、部件(parts)和功能(function)這3 個方面的特征.基于該理論,HowNet(HowNet,http://www.keenage.com/)認(rèn)為,事物之間的異同是由屬性決定的.受到這些思想的啟發(fā),我們認(rèn)為,人在對隱喻進(jìn)行識別過程中會考慮事物的不止一種特征.本文選擇概念的語義類別、客觀屬性值、認(rèn)知屬性、部件這4 類特征作為動態(tài)分類的分類依據(jù),并討論每類特征的獲取途徑和獲取對應(yīng)分類角度的具體方法.
2.1.2 屬性和屬性值
本文的研究區(qū)分概念的屬性和屬性值.在對屬性和屬性值的定義上,本文沿用了HowNet 的觀點(diǎn).即:概念的特征類別組成了概念的屬性,概念之間的異同是由屬性決定的.而概念在某一類特征的具體信息由屬性值體現(xiàn),例如“蘋果的顏色是紅色的”,對于概念“蘋果”它具有屬性“顏色”.一個屬性可以有多個屬性值進(jìn)行描述,而在本例中,“蘋果”的“顏色”對應(yīng)的屬性值是“紅色”.本文區(qū)分概念的屬性和屬性值,是因?yàn)槲覀冋J(rèn)為,只有在同一個屬性類別下的屬性值對比才具有意義.
2.1.3 客觀屬性值和認(rèn)知屬性值
Veale 等人[31]根據(jù)屬性值獲取的來源不同,把從 WordNet 釋義中抽取的屬性值稱為一種客觀的描述(objective description),把通過 Google 等搜索引擎從網(wǎng)絡(luò)文本中抽取的屬性值稱為一種典型的描述(stereotypical description).Veale 認(rèn)為,它們對概念的描述起到互補(bǔ)的作用.我們認(rèn)為,這兩種屬性值的差異在于人類對概念的認(rèn)知體驗(yàn)上.從WordNet 等語義知識庫中獲取的屬性值多是專家從生物學(xué)分類等客觀角度對概念進(jìn)行的歸納和總結(jié),具有客觀性,不會因人類的主觀因素而改變,體現(xiàn)了人們的一種共識[31].相反地,另一種屬性值則反映了人類認(rèn)知上的主觀性.例如,“pig”這個概念在英語和漢語中所體現(xiàn)的顯著屬性值不同[32].不同的文化背景會導(dǎo)致人們在日常認(rèn)知知識中的差異[33].李斌等人[34]強(qiáng)調(diào),這種屬性值是在特定的語言中,語言使用者對詞語所代表的概念或?qū)嶓w的認(rèn)知體驗(yàn)?zāi)Y(jié)到詞義中的體現(xiàn).
2.2.1 客觀屬性值的獲取
基于第2.1.2 節(jié)的理論,本文使用基于依存關(guān)系的方法對WordNet(WordNet,https://wordnet.princeton.edu/)釋義文本中的客觀屬性值進(jìn)行抽取.在依存關(guān)系識別中,本文修改了ReVerb[35]識別模式,使其更適合進(jìn)行對WordNet 的釋義文本進(jìn)行客觀屬性值抽取.修改部分如下.
(1)為了解決無法識別非連續(xù)動詞短語結(jié)構(gòu)的問題,如“he turned the light off”,對具有依存關(guān)系compound:prt(verb,prep)的“動詞+介詞”短語進(jìn)行預(yù)處理,改為“turned off the light”的連續(xù)結(jié)構(gòu).
(2)對具有依存關(guān)系compound(noun,noun)的名詞進(jìn)行預(yù)處理,使它們連接成單個名詞短語,如“sodium aluminum silicate”.
(3)對相鄰的關(guān)系短語只取最后一個關(guān)系短語.例如在“monkeys like to eat bananas”中,識別關(guān)系短語是“eat”,而不是“l(fā)ike to eat”.
(4)使用在線英文詞典Dict(Dict,http://dict.cn/)作為前置知識對關(guān)系短語進(jìn)行檢驗(yàn),如果短語在詞典中出現(xiàn)則識別正確,否則降低識別粒度.這樣可以使關(guān)系短語符合人類的分析標(biāo)準(zhǔn),避免出現(xiàn)過長或不正確的關(guān)系.
(5)為區(qū)分屬性知識與關(guān)系知識,使用HowNet 對句子中潛在的名詞屬性進(jìn)行標(biāo)注,并將句子中所有的形容詞都視為潛在的屬性值.
我們使用算法1 對關(guān)系進(jìn)行抽取及屬性標(biāo)注.
算法1.關(guān)系抽取和屬性標(biāo)注.
輸入:一個句子S.
輸出:關(guān)系短語集合R.
初始化R=?
1.對S中的任意動詞vi和介詞pj,若滿足compound:prt(vi,pj),則將pj移動至vi的后面.
2.對S中的任意兩個名詞wi和wj,若滿足compound(wi,wj),則將wi和wj合并為一個名詞短語.
3.對S中的任意名詞wi,若其在HowNet 中為屬性,則標(biāo)記為prop;對S中的任意形容詞ai標(biāo)記為value.
4.以S中的任意動詞vi作為起點(diǎn)識別關(guān)系短語ri,若ri不能在前置知識中驗(yàn)證,則ri的長度-1.重復(fù)進(jìn)行,直到ri被驗(yàn)證.將ri添加入R.
我們首先使用算法1 獲得關(guān)系短語集合R,再使用表1 的抽取方式獲得關(guān)系的謂詞表示,最后按公式(1)和公式(2)對客觀屬性值的關(guān)系進(jìn)行擴(kuò)展,從而獲得WordNet 中概念的釋義文本的客觀屬性值.
WordNet 中,一個概念的屬性值并不僅僅來源于其本身的釋義,還可以繼承自它的上位概念.WordNet 中的名詞概念之間的上下位關(guān)系具有傳遞性和不對稱性,是一個具有繼承性的層級體系[36].下位概念會繼承它每一個上位概念的所有特征,并至少增加一種特征來與它的上位進(jìn)行區(qū)別.例如,“warm-blooded(溫血的)”是所有“mammal(哺乳動物)”的共同特征,所以,“wolf(狼)”“bear(熊)”等會從它們的上位“mammal”中繼承這個屬性值,而不用在自己的釋義中重復(fù)定義.
Table 1 Relation extraction of objective properties表1 客觀屬性值的關(guān)系抽取
2.2.2 隱藏屬性補(bǔ)充算法
人們在對事物的屬性值進(jìn)行描述時,往往隱藏了對屬性的描述,如“蘋果是紅的”隱藏了蘋果的屬性“顏色”.本文提取出的屬性謂詞表示Prop(cpt,prop,value)容易缺失第2 項(xiàng)的屬性信息.本文把缺失的屬性信息稱為隱藏屬性.我們提出一種基于HowNet 的隱藏屬性補(bǔ)充算法,為屬性值補(bǔ)充其隱藏屬性.隱藏屬性補(bǔ)充算法如下.
算法2.隱藏屬性補(bǔ)充算法.
輸入:一個名詞概念n與形容詞屬性值v.
輸出:最合適的隱藏屬性集合Pbest.
初始化Pbest=?
1.選取n在HowNet 中的第一義原c.
2.通過概念-屬性關(guān)系找到c關(guān)聯(lián)的屬性集合Pc,通過屬性值-屬性關(guān)系找到v關(guān)聯(lián)的屬性集合Pv;則輸入概念和屬性值之間的關(guān)聯(lián)屬性集合Pcv=Pv∪Pc.
3.若Pcv≠?,則執(zhí)行步驟4;否則,取得c的上位義原c′,若c≠c′,則使c=c′,執(zhí)行步驟2,否則算法結(jié)束.
4.若Pcv存在pi的第二義原等于v,則將pi添加入Pbest.
5.若Pbest=?,則使Pbest=Pcv.
2.2.3 分類角度(客觀屬性)的獲取
我們通過WordNet 中形容詞間的反義關(guān)系獲取每個屬性值所對應(yīng)的分類角度.兩個具有反義關(guān)系的屬性值可以看作是它們所代表的屬性的相反兩個極值[37].例如,屬性“height”的兩個屬性值為“high”和“l(fā)ow”.WordNet 中幾乎所有的屬性都具有雙極性,個別屬性甚至包含多個屬性值.我們把這種屬性值組成的集合稱為反義關(guān)系集合.若一個客觀屬性值具有反義詞,則它所對應(yīng)的反義關(guān)系集合就能構(gòu)成一個分類角度.基于客觀屬性值獲取分類角度的過程如下.
過程1.基于客觀屬性值獲取分類角度.
步驟1.給定一個概念c,使用屬性抽取算法從WordNet 中抽取c的客觀屬性值集合Vc.
步驟2.對于c的每個上位概念hi,抽取其的客觀屬性值集合Vi,使Vc←Vc∪Vi.最終得到的集合Vc就是概念c所有客觀屬性值的集合.
步驟3.對Vc中的每個屬性值vi,從WordNet 獲取對應(yīng)的反義關(guān)系集合Ai,若Ai≠?,則Ai可以作為一個分類角度,vi為c在Ai下的分類依據(jù).
表2 展示了部分分類角度和依據(jù).
Table 2 Part of angles and foundations of classification based on objective properties表2 部分基于客觀屬性值的分類角度和依據(jù)
2.3.1 認(rèn)知屬性值的顯著度
在語言學(xué)研究方面,顯著度是語言理解的重要機(jī)制.以色列語言學(xué)家Giora[38]提出的梯度顯著假說(graded salience hypothesis)認(rèn)為,在話語處理中(尤其是隱喻、慣用語、反語和幽默語言),顯著的意義總是首先通達(dá).理論認(rèn)為,顯著度與規(guī)約性、熟悉度、使用頻率等因素都呈正相關(guān)關(guān)系.我們認(rèn)為,人類對事物進(jìn)行分類時也遵循梯度顯著假說,人類往往優(yōu)先使用較為顯著的特征作為分類依據(jù).認(rèn)知屬性值來源于網(wǎng)絡(luò)文本,顯著度很大程度上體現(xiàn)在人們的使用頻率上,即一個認(rèn)知屬性值與其宿主概念共現(xiàn)的頻率越高,說明這個認(rèn)知屬性值越顯著.
2.3.2 認(rèn)知屬性值的獲取
本文通過兩個在線知識庫The Lex-Ecologist(The Lex-Ecologist,http://afflatus.ucd.ie/lexeco/)(簡稱LexEco)和CogBank(CogBank,http://www.cognitivebase.com/ecb_nju.php)獲取認(rèn)知屬性值.LexEco 語料來源是英文維基百科,CogBank 的英文[34]語料來源是Google.兩個知識庫都統(tǒng)計(jì)了每個屬性值出現(xiàn)的頻數(shù)信息.表3 給出了3 個名詞概念的部分認(rèn)知屬性值,按照每個屬性值在兩個資源庫中出現(xiàn)的總頻數(shù)從大到小排序.在獲得概念的認(rèn)知屬性值之后,我們同樣使用第2.2.2 節(jié)中的隱藏屬性補(bǔ)充算法對概念的認(rèn)知屬性值進(jìn)行隱藏屬性的補(bǔ)充.
Table 3 Data samples of LexEco and CogBank表3 LexEco 和CogBank 數(shù)據(jù)樣例
2.3.3 分類角度(認(rèn)知屬性)的獲取
本文從兩個途徑獲取認(rèn)知屬性值的分類角度.
?第一,與客觀屬性值一樣,可以通過反義關(guān)系尋找認(rèn)知屬性值的分類角度.由于主觀性因素,許多認(rèn)知屬性值并不會在WordNet 相對客觀的釋義文本中出現(xiàn),所以這是對客觀屬性值的一個很好的補(bǔ)充.
?第二,認(rèn)知屬性值的顯著度差異直接影響了對應(yīng)屬性的顯著度差異,人們在描述一個概念時總是會突出顯著度高的屬性,所以概念的屬性可以作為一種分類角度.
由于一個屬性通常具有不止一個屬性值,所以需要考慮多個顯著的屬性值.我們選取概念的某個屬性作為其分類角度,將其對應(yīng)的屬性值組成一個特征向量作為該屬性下的分類依據(jù),具體步驟如下.
過程2.基于認(rèn)知屬性值獲取分類角度.
步驟1.給定一個概念c,從LexEco 中獲取c的認(rèn)知屬性值集合Vlex以及每個屬性值對應(yīng)的頻數(shù),從CogBank 中獲取c的認(rèn)知屬性值集合Vcog以及每個屬性值對應(yīng)的頻數(shù).概念c的全部認(rèn)知屬性集合為Vc←Vlex∪Vcog.
步驟2.對Vc中的每一個認(rèn)知屬性值vi,獲取其對應(yīng)的反義關(guān)系集合Ai,若Ai≠?,則Ai可以作為一個分類角度,vi為c在Ai下的分類依據(jù).
步驟3.利用隱藏屬性補(bǔ)充算法,對Vc中的每個認(rèn)知屬性值進(jìn)行屬性補(bǔ)充,得到概念c的屬性集合Pc.
步驟4.對Vc中的每個屬性值vi,使用公式(3)計(jì)算其對概念c的顯著度Sig(c,vi).
其中,Ix(vi)表示屬性值vi在知識庫x中的頻數(shù),其中,lex表示LexEco,cog表示CogBank.系數(shù)α和β是兩個可調(diào)節(jié)的參數(shù),取值范圍為[0,1],用來權(quán)衡兩個知識庫中數(shù)據(jù)的可信度.參數(shù)取值越高,表示相應(yīng)的數(shù)據(jù)來源越可信.根據(jù)Giles[39]的觀點(diǎn),我們認(rèn)為,維基百科的可信度相比普通網(wǎng)絡(luò)文本要高,根據(jù)經(jīng)驗(yàn)取α=0.6,β=0.4.
步驟5.對Pc中的每個屬性pi,設(shè)對應(yīng)的認(rèn)知屬性值為vij,顯著度為sij=Sig(c,vij),可得pi的屬性值向量wi=其中,Ni表示pi所對應(yīng)的屬性值總數(shù).wi即為分類角度pi下c的分類依據(jù).最后,使用公式(4)計(jì)算pi在概念c中的顯著度Sig(c,pi).
表4 展示了”pig”的部分屬性顯著度信息.
Table 4 Significance of properties of the word“pig”表4 “pig”的屬性顯著度
本文通過WordNet 中名詞概念之間的部分-整體關(guān)系來獲取一個概念的部件.和客觀屬性值一樣,概念的部件也受到繼承性的影響.基于部分-整體關(guān)系的傳遞性,一個概念還可以從它的部件中獲得部件.然而,并不是所有的部分-整體關(guān)系都具有傳遞性.例如,“l(fā)imb”是“tree”的部分,“tree”又是“forest”的部分,但并不能說“the limb is a part of the forest”,因?yàn)椤發(fā)imb/tree”與“tree/forest”之間的部分-整體關(guān)系在語義上并不相同[40].WordNet 中定義了組成部分(constituent part)、組成物質(zhì)(substance)、組成成員(member)這3 種不同語義的部分-整體關(guān)系類型.本文規(guī)定,傳遞性只適用于同種類型的部分-整體關(guān)系中.
2.4.1 分類角度(部件)的獲取
人類區(qū)分事物很重要的一個依據(jù)就是事物具有什么部件,通常有兩種情況:(1)判斷兩個事物是否都具有單個指定的部件;(2)從整體上衡量兩個事物具有多少共同的部件或不同的部件.基于部件獲取分類角度的步驟如下.
過程3.基于部件獲取分類角度.
步驟1.給定一個概念c,通過WordNet 中的部分-整體關(guān)系獲取c的部件集合Mc.
步驟2.對于c的每一個上位概念hi,獲取其部件集合Mi,并使Mc←Mc∪Mi.
步驟3.對Mc中的每個概念mj,若能得到mj的非空部件集合Mj,且Mj?Mc,則使Mc←Mc∪Mj.循環(huán)此步,直到對任意mj,均滿足Mj?Mc.最終得到的集合Mc就是概念c所有部件的集合.
步驟4.當(dāng)以單個部件為分類角度時,Mc中的每個元素都能作為c的分類依據(jù);以整體部件作為分類角度時,分類依據(jù)則為整個Mc.
表5 展示了部分概念的部件特征.
Table 5 Component characteristics of concepts表5 概念的部件特征
隱喻的一個本質(zhì)是“同從異出”,用與本體相異的事物作為喻體來描述本體,在表層語義上構(gòu)成了語義矛盾.隱喻識別的本質(zhì),就是判斷一個表達(dá)中的兩個事物之間是否構(gòu)成了語義矛盾.究其根本,就是去發(fā)現(xiàn)這兩個事物之間因何而異、異在何處.通常,兩個事物之間的相似性和差異性可以用一個數(shù)值來表示,數(shù)值越大時相似性越大,差異性越小;反之,相似性越小,差異性越大.
以整體部件作為分類角度時,兩個概念之間的相似性由它們共有的部件及獨(dú)有的部件決定.我們通過公式(5)計(jì)算兩個概念c1和c2之間的相似性,取值范圍是[0,1],其中,P1和P2分別為概念a和b的部件集合.
從信息量的角度來看,如果兩個概念具有的部件數(shù)量越多,則上述公式越有意義;如果部件數(shù)量太少,則會造成準(zhǔn)確性上的不足.因此,本文約定概念c1和c2之間的部件數(shù)之和不得小于5.給定一個閾值γ∈[0,1],當(dāng)Sim(c1,c2,part)<γ時,我們認(rèn)為c1和c2在整體部件的角度上具有差異性.
一個形容詞與其本身相似性最大,與其反義詞的相似性最小,如公式(6)所示.
給定兩個名詞概念c1和c2及其客觀屬性集合V1和V2,對于V1中的每個屬性值vi,如果ai具有反義詞,則找到對應(yīng)的分類角度Ai,根據(jù)公式(5),如果ai有一個反義詞屬于V2,那么在分類角度Ai下,c1和c2的相似性Sim(c1,c2,Ai)=0,即c1和c2的差異性達(dá)到最大.通常情況下,一個概念的客觀屬性值中不會存在一對具有反義關(guān)系的形容詞,所以在客觀屬性值的角度下,兩個概念不會既相似又相異.
語義差別法(semantic differential)[41]是美國心理學(xué)家Osgood 提出的一種以形容詞的正反意義對詞語所表示的概念進(jìn)行語義測量的方法.該方法在每一對反義詞之間設(shè)置區(qū)間值作為量表,以反映人們對客觀對象的各個特征的心理感覺強(qiáng)度.參考語義差別法,本文利用WordNet 中形容詞間的同義關(guān)系和近似關(guān)系構(gòu)建圖模型,以反義形容詞對在圖中的最短路徑作為相似性的度量標(biāo)準(zhǔn).該方法可以度量不具有反義關(guān)系的兩個形容詞之間的相似性.
3.4.1 基于WordNet 的形容詞圖模型構(gòu)建
基于圖論的觀點(diǎn),Kamps 等人[42]嘗試?yán)肳ordNet 中的同義關(guān)系對名詞、動詞、形容詞和副詞進(jìn)行圖模型的構(gòu)建.在無向圖G(W,Synonymy)中,W是由WordNet 中所有單詞組成的頂集,Synonymy是由所有同義關(guān)系組成的邊集.研究發(fā)現(xiàn),G中各詞性子圖都是非連通圖,其中,形容詞子圖的極大連通子圖的階數(shù)為5 427,約占整個形容詞子圖的25%,而第二大的形容詞連通子圖的階數(shù)僅為30.這說明基于同義關(guān)系的形容詞模型構(gòu)建方法基本上是可行的.
但是我們發(fā)現(xiàn),在這種方法構(gòu)建的圖模型中,有許多反義詞之間并不連通,例如“ugly/beautiful”“pleasant/unpleasant”“optimistic/pessimistic”等.為了增強(qiáng)圖模型中反義詞之間的連通性,我們在Kamps 等人[42]的基礎(chǔ)上,為無向圖增加了形容詞之間的近似關(guān)系,更改后的圖模型為G′(A,Synonymy+Similarity),其中,A是由WordNet 中所有形容詞組成的頂集,Synonymy+Similarity是所有形容詞之間的同義關(guān)系和近似關(guān)系組成的邊集,邊值權(quán)重和顯著性閾值依據(jù)經(jīng)驗(yàn)設(shè)置.G′的極大連通子圖的階數(shù)為16 852,約占整體的78%,是G的3 倍多.原來在圖G中不連通的反義詞,也在圖G′中變?yōu)檫B通.
3.4.2 基于圖模型的形容詞相似性
Kamps 等人[42]曾使用語義差別法的“語義空間”中最主要的3 對反義詞在圖模型中的最短距離來度量形容詞的傾向性.基于Osgood 的理論,所有反義形容詞對都可以用來度量形容詞的某一方面特征.如公式(7)所示,形容詞a和b之間的相似性可以用其中一個形容詞a與它的反義形容詞a′在圖中的最短距離來度量.
公式相似性的取值范圍是[-1,1],取值越接近1,表示b與a差異性越小;越接近-1,表示b與a差異性越大.顯然,Sim(a,b)和Sim(b,a)所表示的意義是不一樣的.我們認(rèn)為,形容詞之間的同義關(guān)系比近似關(guān)系在語義上的距離更近.所以取同義關(guān)系表示的邊權(quán)值為1,近似關(guān)系表示的邊權(quán)值為1.5.表6 展示了該算法下部分形容詞之間的相似性.給定判斷形容詞差異性的閾值θ1∈(0,1),θ2∈(-1,0),當(dāng)Sim(a,b)≥θ1時,認(rèn)為形容詞a與b的差異性不顯著,當(dāng)Sim(a,b)≤θ2時,則認(rèn)為形容詞a與b的差異性顯著.
Table 6 Adjective similarity based on graph model表6 基于圖模型的形容詞相似性
3.4.3 顯著屬性差異性
度量兩個概念之間屬性值相似性的同時,也是在度量它們屬性的相似性.本文提出的屬性相似性計(jì)算方法基于以下假設(shè).
(1)在屬性的分類角度下,兩個事物之間的相似性可以表現(xiàn)為它們共有的某一屬性的認(rèn)知屬性值之間的相似性.
(2)把事物A與B相比,通常是把A與B最顯著的某些屬性值特征相比,而忽略不顯著的屬性值.
(3)越顯著的屬性值,越能代表其屬性的本質(zhì).
兩個概念的相似性越低,代表它們的差異性越明顯.
給定兩個概念c1,c2及它們共有的一個屬性p,Sim(c1,c2,p)表示在屬性p的角度下,c2與c1比較的相似性.根據(jù)假設(shè),Sim(c1,c2,p)表示為顯著相似的屬性值和差異顯著的屬性值的累加,當(dāng)相似大于差異時表現(xiàn)為相似,當(dāng)差異大于相似時則表現(xiàn)為不相似,相等時表示無法判斷.設(shè)在屬性p下,c1的認(rèn)知屬性值向量為V1={v11,v12,…,v1n},對應(yīng)的顯著度向量為S1={s11,s12,…,s1n};c2的認(rèn)知屬性值向量為V2={v21,v22,…,v2m},對應(yīng)的顯著度向量為S2={s21,s22,…,s2m},fij表示用公式(7)得到的屬性值v1i和v2j之間的相似性.公式8 展示了Sim(c1,c2,p)的計(jì)算方法.為了保證認(rèn)知屬性值的顯著性,我們規(guī)定每個屬性值的顯著度必須大于等于1.
人類識別隱喻時的思考過程是一個層次性的動態(tài)過程,在每個層次人類都從某個角度進(jìn)行分析.由于主觀性,層次體系可能因人而異.本文按照“語義類別”→“關(guān)系”→“整體部件”→“客觀屬性值”→“認(rèn)知屬性”進(jìn)行識別,算法步驟如下.
算法3.基于動態(tài)分類的名詞性隱喻識別.
輸入:名詞概念A(yù)和B.
輸出:隱喻表達(dá)/常規(guī)表達(dá).
1.獲取A和B的整體部件、客觀屬性值以及認(rèn)知屬性值的分類角度.
2.基于WordNet 中的上下位關(guān)系,若A是B的上位或下位,則輸出常規(guī)表達(dá),算法結(jié)束.
3.通過算法1 的關(guān)系抽取,若R中存在關(guān)系is(A,B)或is(B,A),則輸出常規(guī)表達(dá),算法結(jié)束.
4.計(jì)算A和B在整體部件角度下的相似性Sim(A,B,part):若小于閾值γ,則輸出隱喻表達(dá),算法結(jié)束;若大等于γ,則輸出常規(guī)表達(dá),算法結(jié)束;若無法判斷(部件太少),則進(jìn)行下一步.
5.計(jì)算A和B在客觀屬性值角度下的相似性.若存在一個客觀屬性值使A和B的相似性為0,則輸出隱喻表達(dá),否則進(jìn)行下一步.
6.計(jì)算A和B之間認(rèn)知屬性的相似性,若存在一個顯著屬性p使得Sim(A,B,p)<0,或不存在任何顯著屬性p′,使得Sim(A,B,p′)>0,則輸出隱喻表達(dá);否則輸出常規(guī)表達(dá),算法結(jié)束.
圖1 所示為本識別算法的主要流程圖.
Fig.1 Algorithm procedure of nominal metaphor recognition based on dynamic categorization圖1 基于動態(tài)分類的名詞性隱喻識別算法流程
3.6.1 數(shù)據(jù)集
本文從Master Metaphor List 語料庫(Master Metaphor List,http://araw.mede.uic.edu/~alansz/metaphor/)、Collins Cobuild[43]語料庫以及采用人工標(biāo)注的方法,從網(wǎng)絡(luò)、新聞等資源中標(biāo)注出580 個英文名詞詞對作為實(shí)驗(yàn)的數(shù)據(jù)集.數(shù)據(jù)集中包含290 個隱喻表達(dá)和290 個常規(guī)表達(dá).我們使用隨機(jī)劃分的方法,將數(shù)據(jù)分為一個大小為80 的訓(xùn)練集(40 個隱喻表達(dá)和40 個常規(guī)表達(dá))和一個大小為500 的測試集(250 個隱喻表達(dá)和250 個常規(guī)表達(dá)).特別地,對于測試數(shù)據(jù)中出現(xiàn)的人稱代詞如“I”“he”“she”等,我們一律將其轉(zhuǎn)換為名詞“person”.
3.6.2 參數(shù)訓(xùn)練
本文的模型需要通過訓(xùn)練集訓(xùn)練兩類參數(shù).
?其一是整體部件的判斷閾值,記作γ.當(dāng)整體部件的相似度Sim(c1,c2,part)<γ時,判斷為隱喻,否則為常規(guī)表達(dá).
?其二是形容詞差異性的判斷閾值,記作θ1和θ2.當(dāng)認(rèn)知屬性的形容詞相似性Sim(a,b)≥θ1時,認(rèn)為相似性顯著;當(dāng)Sim(a,b)≤θ2時,認(rèn)為相似性不顯著.我們在訓(xùn)練集上分別對這兩組參數(shù)進(jìn)行訓(xùn)練.
在訓(xùn)練γ時,我們僅使用上下位及整體部件的隱喻識別方法,以此排除模型的其他部分對訓(xùn)練參數(shù)的影響.我們采用最大化準(zhǔn)確率的方法進(jìn)行訓(xùn)練.我們發(fā)現(xiàn),當(dāng)γ=0.3 時,該參數(shù)的訓(xùn)練效果準(zhǔn)確率最高,為67.3%.
訓(xùn)練(θ1,θ2)與訓(xùn)練γ的方法類似,為了排除模型的其他部分對訓(xùn)練參數(shù)的影響,我們僅使用上下位及形容詞差異性進(jìn)行隱喻識別.算法3 的第6 步給出了使用形容詞差異性進(jìn)行隱喻識別的方法.我們同樣采用最大化準(zhǔn)確率的方法尋訓(xùn)練θ1和θ2.我們發(fā)現(xiàn),當(dāng)θ1=0.9,θ2=-0.3 時,該組參數(shù)達(dá)到最好的訓(xùn)練效果,準(zhǔn)確率是62.5%.
3.6.3 結(jié)果分析
我們使用Su 等人[44]的方法作為本文方法的對比實(shí)驗(yàn).Su 等人[44]的方法使用概念的上下位關(guān)系和詞向量的余弦距離識別名詞性隱喻.該方法首先在大語料中訓(xùn)練各個概念的詞向量,之后計(jì)算概念間的余弦相似度.若兩個概念不屬于上下位關(guān)系并且概念間的向量余弦相似度小于閾值,則這兩個概念屬于隱喻表達(dá),否則為常規(guī)表達(dá).余弦相似度閾值使用訓(xùn)練集訓(xùn)練得到.本文的方法與對比實(shí)驗(yàn)使用了相同的訓(xùn)練集和測試集.本文的方法與對比實(shí)驗(yàn)在測試集上的結(jié)果見表7.
Table 7 Comparison of experimental result of this paper with the method result of Su,et al.[44]表7 本文的實(shí)驗(yàn)結(jié)果與Su 等人[44]的方法結(jié)果比較
實(shí)驗(yàn)結(jié)果表明,本文的方法效果優(yōu)于對比實(shí)驗(yàn)的方法.此外,本文的方法在識別出隱喻結(jié)果的同時,還能得到識別的角度和依據(jù).例如,對于兩個概念“person”和“machine”,我們的方法可以得到它們在整體部件上有很低的相似度,即人和機(jī)器的整體部件有很大的不同,這可以成為把它們識別為隱喻的依據(jù).Su 等人[44]的方法得到“person”和“machine”的余弦相似度是-0.036,我們只能得到它們不相似的結(jié)論,卻難以解釋它們?yōu)槭裁床幌嗨?由此可見,本文的方法具有可解釋性的優(yōu)勢.表8 列舉了部分隱喻的識別結(jié)果及識別的角度和依據(jù).
為了進(jìn)一步了解各個角度在隱喻識別工作上的不同之處,我們設(shè)置了如下3 個對比實(shí)驗(yàn).對比實(shí)驗(yàn)只考慮了部分角度.各個對比實(shí)驗(yàn)的設(shè)置如下所示.
(1)僅使用語義類別和整體部件的角度計(jì)算.在語義類別不沖突的前提下,若整體部件差異性高于閾值,則判斷為隱喻表達(dá);否則為常規(guī)表達(dá).
(2)僅使用語義類別和客觀屬性值的角度計(jì)算.在語義類別不沖突的前提下,若存在使相似性為0 的客觀屬性值,則判斷為隱喻表達(dá);否則為常規(guī)表達(dá).
(3)僅使用語義類別和認(rèn)知屬性的角度計(jì)算.在語義類別不沖突的前提下,若存在顯著差異屬性,則判斷為隱喻表達(dá);否則為常規(guī)表達(dá).
Table 8Results of metaphor identification表8 隱喻識別結(jié)果
表9 給出了本文方法和各角度方法的對比.通過對比可以發(fā)現(xiàn),多角度的方法識別準(zhǔn)確率高于部分角度的準(zhǔn)確率.這說明多角度的隱喻識別方法對于提升識別效果是有效的.使用語義類別和整體部件的對比實(shí)驗(yàn)準(zhǔn)確率最低,這是由于整體部件的差異性有時不能全面反映概念間的總體差異.此外,還有很多概念無法找到足夠多的整體部件特征,這些概念需要其他角度的補(bǔ)充才能完善整個隱喻識別過程.使用客觀屬性值的對比實(shí)驗(yàn)比使用認(rèn)知屬性的對比實(shí)驗(yàn)效果要好,這是因?yàn)榭陀^屬性值的獲取來自于權(quán)威的詞典,它對概念特征的描述更客觀,因此也更加準(zhǔn)確.來源于互聯(lián)網(wǎng)資源的認(rèn)知屬性值對概念特征的描述更具有主觀性,因此會有更多的噪聲.經(jīng)過進(jìn)一步的數(shù)據(jù)分析我們發(fā)現(xiàn),本文方法在識別準(zhǔn)確率上的提高大多體現(xiàn)在隱喻識別中各個角度的互補(bǔ)作用.例如,對于隱喻表達(dá)“desire force”,整體部件的方法無法找到足夠多的部件支持它的判斷,但客觀屬性值能夠找到“general:specific”的反義關(guān)系作為補(bǔ)充,從而使其被正確地識別為隱喻表達(dá).
Table 9 Comparison of the method result of this paper with part angles algorithms results表9 本文方法與部分角度的算法對比
本文方法的不足之處在于,對于抽象概念,我們提取出的認(rèn)知屬性值比較少.例如,“knowledge”只有6 個認(rèn)知屬性值,其中最顯著的“honourable”的顯著度只有0.8,而“discrimination”等一些不太常見的抽象概念更是找不到認(rèn)知屬性值,使判斷結(jié)果不令人滿意.未來我們可以通過采用知識圖譜等方法改善認(rèn)知屬性值缺乏的問題.
我們實(shí)現(xiàn)了一種基于動態(tài)分類的隱喻識別方法.該方法從概念的語義類別、整體部件、客觀屬性值和認(rèn)知屬性這4 個角度對隱喻進(jìn)行動態(tài)識別.在語義類別的角度,我們使用概念的上下位關(guān)系及“is 關(guān)系”判斷隱喻;在整體部件角度,我們通過WordNet 獲得概念的整體部件信息并計(jì)算其差異性;在客觀屬性值的角度,我們通過WordNet 的釋義文本抽取出概念的客觀屬性值描述,并通過形容詞的反義關(guān)系計(jì)算其差異性;在認(rèn)知屬性方面,我們通過知識庫獲取概念的認(rèn)知屬性,通過圖模型計(jì)算形容詞的相似度.此外,我們提出了隱藏屬性補(bǔ)充算法,通過計(jì)算同一屬性類別下的認(rèn)知屬性值相似度,判斷認(rèn)知屬性角度的差異性.實(shí)驗(yàn)結(jié)果表明,本文方法具有可行性.此外,本方法還具有可解釋性的優(yōu)點(diǎn).本文在隱喻研究的道路上朝新的角度邁出了試探性的一步,為隱喻計(jì)算和其他相關(guān)領(lǐng)域提供了新的思路.
本文算法仍有如下不足和改進(jìn)空間.
(1)本文的特征抽取方法只限于WordNet,而該類資源受到手工構(gòu)建的限制.如何從更廣闊的資源中獲取概念的特征,是一個重要的研究點(diǎn).
(2)本文的方法只探討了無數(shù)分類角度中常見的幾類,還有許多可供使用的角度可以嘗試.
(3)本文的方法只實(shí)現(xiàn)了名詞性隱喻的識別,動詞性隱喻、形容詞性隱喻的識別也是今后需要進(jìn)一步研究的方向.