賈玉祥, 昝紅英, 范 明, 俞士汶, 王治敏
(1. 鄭州大學(xué) 信息工程學(xué)院,河南 鄭州 450001;2. 北京大學(xué) 計(jì)算語(yǔ)言學(xué)教育部重點(diǎn)實(shí)驗(yàn)室,北京 100871;3. 北京語(yǔ)言大學(xué) 漢語(yǔ)學(xué)院,北京 100083)
面向隱喻識(shí)別的詞語(yǔ)抽象性度量
賈玉祥1, 昝紅英1, 范 明1, 俞士汶2, 王治敏3
(1. 鄭州大學(xué) 信息工程學(xué)院,河南 鄭州 450001;2. 北京大學(xué) 計(jì)算語(yǔ)言學(xué)教育部重點(diǎn)實(shí)驗(yàn)室,北京 100871;3. 北京語(yǔ)言大學(xué) 漢語(yǔ)學(xué)院,北京 100083)
隱喻通常借助具體的概念來(lái)表達(dá)抽象的概念。如果能判斷出文本中詞語(yǔ)所指的概念是具體還是抽象的,即度量出詞語(yǔ)的抽象程度,那么這將為隱喻的機(jī)器識(shí)別提供重要的依據(jù)。該文提出基于跨語(yǔ)言知識(shí)遷移的漢語(yǔ)詞語(yǔ)抽象性度量方法,把英語(yǔ)中的詞語(yǔ)抽象性知識(shí)遷移到漢語(yǔ)中來(lái)。提出基于詞語(yǔ)抽象性知識(shí)的隱喻識(shí)別方法,并詳細(xì)分析了詞語(yǔ)抽象性與隱喻之間的關(guān)系。實(shí)驗(yàn)表明,知識(shí)遷移是可行的,基于抽象性知識(shí)的隱喻識(shí)別有較高的準(zhǔn)確率,可以有效提高從真實(shí)文本中抽取隱喻的效率。
隱喻識(shí)別;詞語(yǔ)抽象性;跨語(yǔ)言知識(shí)遷移
概念有具體和抽象之分,具體概念一般是指可以通過(guò)感官(視覺(jué)、聽覺(jué)、味覺(jué)、嗅覺(jué)、觸覺(jué))或自身行動(dòng)來(lái)體驗(yàn)的概念,如馬、房子等,稱為基于體驗(yàn)來(lái)理解的概念;抽象概念是指不能通過(guò)感官或自身行動(dòng)體驗(yàn)的概念,如思想、理論等,這些概念由其他概念來(lái)定義,稱為基于語(yǔ)言來(lái)理解的概念[1]。認(rèn)知科學(xué)的研究顯示,具體與抽象概念在人腦中的組織和表示方法是不同的,具體概念按照概念之間的相似性進(jìn)行組織,抽象概念則是按照概念之間的相關(guān)性進(jìn)行組織的;大腦使用不同的區(qū)域和神經(jīng)系統(tǒng)來(lái)處理這兩類概念;具體概念比抽象概念更容易學(xué)習(xí)、記憶和處理[2]。
具體與抽象的研究主要表現(xiàn)為詞語(yǔ)抽象性的度量。詞語(yǔ)的抽象程度不是“具體”與“抽象”兩個(gè)值,而是一個(gè)從“具體”到“抽象”的連續(xù)值,值越小,越具體;值越大,越抽象。詞語(yǔ)的抽象性指標(biāo)是一種重要的詞匯語(yǔ)義知識(shí),在自然語(yǔ)言處理很多任務(wù)中都有應(yīng)用,包括詞典編纂[3]、詞義消歧[4]、詞語(yǔ)相似度計(jì)算[5]、文本可理解性計(jì)算[6]、隱喻識(shí)別[7-11]等,其中最典型的是隱喻識(shí)別。
隱喻通常借助具體的概念來(lái)表達(dá)抽象的概念,以使得表述更容易理解或取得更好的語(yǔ)言表達(dá)效果,如金融風(fēng)暴、人事地震等,用具體的概念“風(fēng)暴”、“地震”描述抽象的概念“金融”、“人事”,比“金融危機(jī)”、“人事巨變”的效果更好。如果能夠度量詞語(yǔ)的抽象程度,就可以為隱喻的識(shí)別提供線索,像這樣的“N+N”形式的名名組合隱喻,可以通過(guò)抽象名詞與具體名詞的搭配進(jìn)行識(shí)別。
目前漢語(yǔ)詞語(yǔ)抽象性度量及基于此的隱喻識(shí)別方面的研究還很少,本文提出一種基于跨語(yǔ)言知識(shí)遷移的詞語(yǔ)抽象性度量方法,把英語(yǔ)中的詞語(yǔ)抽象性知識(shí)遷移到漢語(yǔ)中,并考察詞語(yǔ)抽象性知識(shí)在名名組合隱喻識(shí)別中的作用與效果。
詞語(yǔ)抽象性度量的研究多數(shù)由人工標(biāo)注數(shù)據(jù),其中影響最大的是英語(yǔ)的MRC數(shù)據(jù)庫(kù)[12],該數(shù)據(jù)庫(kù)中人工為4 292個(gè)英語(yǔ)單詞標(biāo)注了抽象程度信息。Brysbaert等[1]借助Amazon Mechanical Turk眾包平臺(tái),發(fā)動(dòng)4 000多人參與,為六萬(wàn)多個(gè)英語(yǔ)單詞標(biāo)注抽象程度信息,最后得到近四萬(wàn)個(gè)單詞的有效信息,抽象程度(準(zhǔn)確地說(shuō)是具體程度concreteness)取值為1~5,值越大越具體,值越小越抽象。我們將以這一數(shù)據(jù)為基礎(chǔ)進(jìn)行英語(yǔ)到漢語(yǔ)的知識(shí)遷移。
Turney等[7]采用自動(dòng)的方法計(jì)算詞語(yǔ)的抽象程度,先選取20個(gè)抽象的種子詞和20個(gè)具體的種子詞,一個(gè)詞的抽象程度等于該詞與抽象種子詞的相似度之和減去該詞與具體種子詞的相似度之和,最后歸一化到0~1之間。詞語(yǔ)相似度使用基于語(yǔ)料庫(kù)的LSA方法來(lái)計(jì)算。Tanaka等[6]利用SVM回歸來(lái)計(jì)算詞語(yǔ)的抽象程度,選取的特征有: 詞語(yǔ)的視覺(jué)表達(dá)強(qiáng)度(Bing圖片檢索返回的圖片數(shù)、Flickr照片共享平臺(tái)中出現(xiàn)的次數(shù))、詞語(yǔ)流行度(Bing網(wǎng)頁(yè)檢索返回的網(wǎng)頁(yè)數(shù))、標(biāo)注多樣性(在Flickr中出現(xiàn)在多少?gòu)堈掌臉?biāo)注中,相當(dāng)于逆文檔頻率IDF)、詞語(yǔ)與感官類動(dòng)詞共現(xiàn)次數(shù)、詞語(yǔ)義項(xiàng)數(shù)、在WordNet語(yǔ)義分類體系中的深度、下位節(jié)點(diǎn)數(shù)、情感值(來(lái)自SentiWordNet)以及詞長(zhǎng)等。
Kwong[3]從詞典編纂的角度研究詞語(yǔ)抽象性,根據(jù)WordNet中詞語(yǔ)的定義的不同模式來(lái)給詞語(yǔ)一個(gè)抽象程度的數(shù)值。Kwong[4]考察了不同抽象程度的詞語(yǔ)詞義消歧的結(jié)果,提出在詞義消歧任務(wù)中考慮詞語(yǔ)抽象程度這一因素將有助于提高消歧效果。Hill等[5]在詞語(yǔ)相似度計(jì)算中區(qū)分了詞語(yǔ)的抽象程度,因?yàn)榫唧w詞語(yǔ)之間的相似性與抽象詞語(yǔ)之間的相關(guān)性是不同的,不能籠統(tǒng)地認(rèn)為都是相似性。Tanaka等[6]根據(jù)詞語(yǔ)的抽象程度來(lái)計(jì)算文本的可理解性,越是具體的文本越容易理解,該工作的背景是信息檢索,檢索出既與查詢相關(guān)又容易理解的文本。人眼看到的東西是具體的,基于此可以將大量的圖片信息與文本信息結(jié)合起來(lái),形成多模態(tài)的計(jì)算模型,實(shí)現(xiàn)從具體到抽象、從易到難的語(yǔ)言理解[6,13]。
詞語(yǔ)抽象性是識(shí)別隱喻的重要知識(shí),詞語(yǔ)與上下文之間抽象程度的差異往往成為隱喻出現(xiàn)的標(biāo)志,因此詞語(yǔ)抽象性知識(shí)被單獨(dú)或與其他特征一起用于隱喻識(shí)別[7-9]。其作為一種語(yǔ)義知識(shí)也具有一定程度的語(yǔ)言獨(dú)立性,被用于跨語(yǔ)言的隱喻識(shí)別[10-11]。英語(yǔ)研究中最常見的隱喻類型有兩種,一種是形容詞隱喻,即“A+N”結(jié)構(gòu)(形容詞+名詞),另一種是動(dòng)詞隱喻,即“SVO”結(jié)構(gòu)(主謂賓)。而漢語(yǔ)中則有另外一種常見的隱喻類型,即“N+N”結(jié)構(gòu)的名詞隱喻,由兩個(gè)連續(xù)的名詞(如,金融風(fēng)暴)或兩個(gè)名詞中間加上“的”“之”等字(如,知識(shí)的海洋、沙漠之舟)構(gòu)成,稱為名名組合隱喻,也是名名組合語(yǔ)義分析的重要研究?jī)?nèi)容。漢語(yǔ)名名組合隱喻識(shí)別有基于詞典的方法[14]和基于詞語(yǔ)相關(guān)度的方法[15],而詞語(yǔ)抽象性知識(shí)還沒(méi)有被研究者使用。
3.1 現(xiàn)有的詞語(yǔ)抽象性知識(shí)
漢語(yǔ)詞匯知識(shí)庫(kù)中含有一定的抽象性信息,主要體現(xiàn)在名詞概念上。知網(wǎng)HowNet[16]的名詞語(yǔ)義分類體系中,義原節(jié)點(diǎn)“physical|物質(zhì)”及其下位節(jié)點(diǎn)對(duì)應(yīng)的是具體概念,以其為第一義原的名詞為具體名詞,而義原節(jié)點(diǎn)“mental|精神”及其下位節(jié)點(diǎn)對(duì)應(yīng)的是抽象概念,以其為第一義原的名詞為抽象名詞。同義詞詞林[17]的名詞分為四大類: A人、B物、C時(shí)間和空間、D抽象事物。其中B可以認(rèn)為是具體概念,D可以認(rèn)為是抽象概念。
漢語(yǔ)詞匯知識(shí)庫(kù)中的抽象性信息并不系統(tǒng)和完備。除名詞外,形容詞、動(dòng)詞等,其他詞性的詞的抽象性信息沒(méi)有得到體現(xiàn);除了具體與抽象兩極之外,具體與抽象程度的強(qiáng)弱也沒(méi)有得到體現(xiàn)。一個(gè)完整的詞語(yǔ)抽象性知識(shí)庫(kù)需要對(duì)每一個(gè)詞語(yǔ)給出一個(gè)反映其抽象程度的數(shù)值。由人工來(lái)構(gòu)建這樣一個(gè)知識(shí)庫(kù)并不容易,一個(gè)現(xiàn)實(shí)的途徑是提出一個(gè)詞語(yǔ)抽象性的度量方法,基于現(xiàn)有資源自動(dòng)構(gòu)建。
英語(yǔ)方面詞語(yǔ)抽象性的研究相對(duì)較多,并且已經(jīng)存在較大規(guī)模、較高質(zhì)量的詞語(yǔ)抽象性知識(shí)庫(kù),我們提出一種基于跨語(yǔ)言知識(shí)遷移的詞語(yǔ)抽象性度量方法,把英語(yǔ)中的現(xiàn)有知識(shí)遷移到漢語(yǔ)中加以利用,并考察知識(shí)遷移的效果。
3.2 英漢詞語(yǔ)抽象性知識(shí)的遷移方法
我們采用的英語(yǔ)詞語(yǔ)抽象性知識(shí)庫(kù)來(lái)自文獻(xiàn)[1],包含39 954個(gè)詞語(yǔ)的抽象性信息,涵蓋名詞、動(dòng)詞、形容詞等各種詞性。為了實(shí)現(xiàn)知識(shí)的遷移,我們借助HowNet中的雙語(yǔ)映射。HowNet(2000版)含有120 496條記錄,一條記錄的格式如下:
NO.=089298 W_C=舞臺(tái) G_C=N E_C= W_E=stage G_E=N E_E= DEF=facilities|設(shè)施,space|空間,@perform|表演,entertainment|藝
其中,字段W_C與W_E構(gòu)成一個(gè)中英文單詞映射,即翻譯對(duì),如“舞臺(tái)”與“stage”。
英語(yǔ)詞語(yǔ)抽象性知識(shí)庫(kù)中度量詞語(yǔ)抽象性的指標(biāo)稱為Concreteness,取值1~5,值越大越具體,越小越抽象,相當(dāng)于具體程度。我們把這個(gè)指標(biāo)拿過(guò)來(lái)度量漢語(yǔ)詞語(yǔ),漢語(yǔ)詞語(yǔ)的Concreteness等于其所有英語(yǔ)譯詞的取值的平均值,即
Concreteness(WC)=
WC表示漢語(yǔ)詞語(yǔ),Trans(WC)表示W(wǎng)C的英語(yǔ)譯詞的集合,WE是英語(yǔ)詞語(yǔ)。例如,WC=舞臺(tái),Trans(舞臺(tái))={arena, stage},Concreteness(arena)=4.83,Concreteness(stage)=4.64,則Concreteness(舞臺(tái))=4.735。
通過(guò)公式(2)線性歸一化到[0,1]。其中,LBConcreteness=1表示Concreteness取值的下界,UBConcreteness=5表示Concreteness取值的上界。則得到NomalizedConcreteness(舞臺(tái))=0.933 8。
詞語(yǔ)的抽象程度Abstractness由公式(3)定義,即
從而Abstractness取值范圍為[0,1]。值越大,越抽象;值越小,越具體。Abstractness(舞臺(tái))=0.066 2。
3.3 詞語(yǔ)抽象性知識(shí)的遷移結(jié)果
通過(guò)跨語(yǔ)言知識(shí)遷移后,我們得到27 401個(gè)漢語(yǔ)詞語(yǔ)的抽象程度指標(biāo)Abstractness,其中抽象程度最高的13個(gè)詞語(yǔ)為: 雖、雖然、雖說(shuō)、的話、假使、恐怕、如果、如若、若、說(shuō)不定、倘或、倘然、倘使,都是虛詞。整體看來(lái),虛詞的抽象程度都比較高。
可以通過(guò)與HowNet及同義詞詞林中的抽象性知識(shí)做比較來(lái)評(píng)價(jià)知識(shí)遷移的效果。表1給出了HowNet中“physical|物質(zhì)”類名詞(HowNet-P)、“mental|精神”類名詞(HowNet-M)、同時(shí)屬于這兩類的名詞(HowNet-PM)的抽象程度分布情況,以及同義詞詞林A、B、C、D四類名詞的抽象程度分布情況(由于有些詞沒(méi)有對(duì)應(yīng)的英語(yǔ)譯詞,也就沒(méi)有抽象程度值,相當(dāng)于未登錄詞,這里只計(jì)算有抽象程度值的詞)。詞語(yǔ)抽象程度從0到1等分為四個(gè)階段[0,0.25)、[0.25,0.5)、[0.5,0.75)、[0.75,1],表1分別給出了每個(gè)階段的詞語(yǔ)個(gè)數(shù),Total表示各階段詞語(yǔ)總數(shù),Ave.Abs.表示這些詞抽象程度的平均值,%[0,0.5)表示抽象程度小于0.5的詞語(yǔ)的百分比,如果我們認(rèn)為這些詞語(yǔ)是具體詞,那么該字段表示具體詞的百分比。從表1可以看出,HowNet-P中大部分詞語(yǔ)抽象程度很低,分布在前兩個(gè)階段,平均抽象程度只有0.218 6,具體詞占90%以上。總體上抽象程度大小比較結(jié)果為: HowNet-P < HowNet-PM < HowNet-M,詞林B < A < C < D,這和我們的認(rèn)知基本上是一致的。
表1 詞語(yǔ)抽象程度的分布
4.1 基于詞語(yǔ)抽象性的隱喻識(shí)別方法
一般情況下,名名組合隱喻中的前一個(gè)名詞是目標(biāo)域詞,后一個(gè)名詞是源域詞,如“金融風(fēng)暴”中的“金融”是目標(biāo)域詞,“風(fēng)暴”是源域詞,由于目標(biāo)域詞的修飾而使源域詞的詞義發(fā)生了轉(zhuǎn)移,從源域轉(zhuǎn)移到目標(biāo)域。也有少數(shù)情況下,前一個(gè)名詞是源域詞,后一個(gè)名詞是目標(biāo)域詞,如“泡沫經(jīng)濟(jì)”,“泡沫”是源域詞,“經(jīng)濟(jì)”是目標(biāo)域詞,但往往兩個(gè)詞調(diào)換次序也是合法的表達(dá),即也可以說(shuō)“經(jīng)濟(jì)泡沫”。通常情況下,源域詞是具體詞,目標(biāo)域詞是抽象詞,體現(xiàn)了隱喻用具體概念表達(dá)抽象概念的思想。
因此,我們定義一個(gè)簡(jiǎn)單的規(guī)則來(lái)識(shí)別名名組合隱喻: 如果前一個(gè)名詞Noun1是抽象名詞(可以假設(shè)Abstractness(Noun1)≥0.5),并且后一個(gè)名詞Noun2是具體名詞(假設(shè)Abstractness(Noun2)<0.5),則是隱喻表達(dá);否則,是字面表達(dá)。
4.2 隱喻識(shí)別結(jié)果及分析
為了測(cè)試隱喻識(shí)別的效果,我們使用文獻(xiàn)[14]中的名名組合實(shí)例(這些組合本身已經(jīng)可以判別是否是隱喻,不需要上下文),包括33個(gè)名詞,每個(gè)名詞給出一個(gè)字面名名組合和一個(gè)隱喻名名組合(每個(gè)詞第一個(gè)實(shí)例為字面組合,第二個(gè)實(shí)例為隱喻組合,見表2)。利用本文規(guī)則識(shí)別隱喻組合,并與文獻(xiàn)[14]中方法的識(shí)別結(jié)果進(jìn)行比較。比較結(jié)果如表3所示,可見利用詞語(yǔ)抽象性知識(shí)識(shí)別隱喻取得了很高的準(zhǔn)確率,而文獻(xiàn)[14]的方法具有更高的召回率,兩方面知識(shí)的結(jié)合有可能取得更好的隱喻識(shí)別效果。
表2 字面組合名名組合實(shí)例隱喻組合
序號(hào)字面組合隱喻組合2大門鑰匙 問(wèn)題鑰匙 5鳳凰翅膀 理想翅膀 8國(guó)家海洋 知識(shí)海洋 11公路橋梁 友誼橋梁 14院子大門 北京大門 17啤酒泡沫 價(jià)格泡沫 20病人脈搏 市場(chǎng)脈搏 23奶油蛋糕 市場(chǎng)蛋糕 26橋梁工程師靈魂工程師29火車車輪 歷史車輪 32桃樹花朵 祖國(guó)花朵
序號(hào)字面組合隱喻組合3西瓜種子 生命種子6耕地土壤 腐敗土壤9海潮風(fēng)暴 金融風(fēng)暴12小兒心臟 祖國(guó)心臟15媽媽懷抱 祖國(guó)懷抱18海洋風(fēng)浪 政治風(fēng)浪21運(yùn)動(dòng)員腳步春天腳步24鋼鐵火花 思想火花27圖書大廈 科學(xué)大廈30嬰兒搖籃 文明搖籃33戰(zhàn)斗陣地 輿論陣地
表3 隱喻識(shí)別結(jié)果比較
為了進(jìn)一步觀察詞語(yǔ)抽象性與隱喻之間的關(guān)系,我們?cè)趫D1~3中分別給出了隱喻名名組合中兩個(gè)名詞抽象程度的比較、隱喻名名組合與字面名名組合第一個(gè)名詞抽象程度的比較,以及字面名名組合中兩個(gè)名詞抽象程度的比較,橫坐標(biāo)表示實(shí)例的序號(hào),縱坐標(biāo)表示抽象程度取值A(chǔ)bstractness。圖中折線有斷開,斷開處表示該實(shí)例的目標(biāo)名詞沒(méi)有抽象程度數(shù)值,即該名詞在我們的詞語(yǔ)抽象性知識(shí)庫(kù)中是未登錄詞OOV。
由圖1可見,隱喻名名組合中的第一個(gè)名詞(Met-Nounl)大多是抽象名詞(Abstractness≥0.5),而第二個(gè)名詞大多是具體名詞(Abstractness<0.5),并且前者的抽象程度都大于后者,具有明顯的可區(qū)分性,這可能是隱喻識(shí)別準(zhǔn)確率高的原因。由圖2可以看出,字面名名組合中第一個(gè)名詞(Lit-Nounl)通常是具體名詞,這和隱喻名名組合有比較明顯的區(qū)別。由圖3可以看出,字面名名組合中的兩個(gè)名詞都偏向具體名詞,在抽象程度上不容易區(qū)分開來(lái)。
圖1 隱喻名名組合兩個(gè)名詞抽象程度的比較
圖2 隱喻名名組合與字面名名組合第一個(gè)名詞抽象程度的比較
圖3 字面名名組合兩個(gè)名詞抽象程度比較
名名組合中詞語(yǔ)抽象程度分布的匯總?cè)绫?所示,可見,隱喻目標(biāo)域名詞Met-Noun1偏抽象(除實(shí)例20和23中的“市場(chǎng)”一詞抽象程度低外),其他名詞都偏具體。33個(gè)隱喻源域名詞Noun2中只有30個(gè)名詞有抽象程度取值,3個(gè)為OOV。為了進(jìn)一步考察源域名詞的抽象程度分布,我們對(duì)王治敏[18]提出的730個(gè)源域名詞計(jì)算抽象程度,其中有值的名詞472個(gè),抽象程度分布情況如表4WZM-Noun所示。對(duì)這472個(gè)名詞按抽象程度從高到低排序如下(這里給出前10個(gè)和后10個(gè)): 天空、潛臺(tái)詞、要害、直腸子、魂、朝氣、魂魄、骨肉、光輝、小兒科……箭、橋、橋梁、雨、咽喉、階梯、花瓶、馬、顯微鏡、葉子。
表4 名名組合中詞語(yǔ)抽象程度分布的匯總
4.3 基于詞語(yǔ)抽象性的隱喻抽象考察
從上面的實(shí)驗(yàn)可以看到,基于詞語(yǔ)抽象性知識(shí)識(shí)別隱喻可以獲得很高的準(zhǔn)確率。我們可以針對(duì)某一個(gè)目標(biāo)域詞,從大規(guī)模的語(yǔ)料中抽取盡量多的名名組合隱喻。為了驗(yàn)證方案的可行性,我們以“經(jīng)濟(jì)”這個(gè)詞為目標(biāo)域詞,從《人民日?qǐng)?bào)》2000年語(yǔ)料中抽取名名組合(前一個(gè)名詞是“經(jīng)濟(jì)”),對(duì)這些組合按照后一個(gè)名詞的抽象程度從低到高排序,然后考察其中隱喻組合的情況,具體如表5所示??梢姡?0個(gè)組合中有6個(gè)是隱喻組合,前50個(gè)組合中有22個(gè)隱喻組合,前100個(gè)組合中有38個(gè)隱喻組合。繼續(xù)向后考察,前200個(gè)組合中有68個(gè)隱喻組合,前266個(gè)組合中有86個(gè)隱喻組合。再增大N,后一個(gè)名詞的抽象程度Abstractness開始大于或等于0.5,但是仍然會(huì)有隱喻出現(xiàn),當(dāng)N=291時(shí),共發(fā)現(xiàn)隱喻組合92個(gè)。由此可見,利用詞語(yǔ)抽象性知識(shí)可以大大提高隱喻抽取的效率,為隱喻實(shí)例的獲取和隱喻資源的建設(shè)提供幫助。
表5 名名組合隱喻抽取情況(Noun1=經(jīng)濟(jì))
本文研究漢語(yǔ)詞語(yǔ)抽象性的度量,提出一種基于跨語(yǔ)言知識(shí)遷移的詞語(yǔ)抽象程度計(jì)算方法,把英語(yǔ)的詞語(yǔ)抽象性知識(shí)遷移到漢語(yǔ)中來(lái)。與現(xiàn)有漢語(yǔ)詞匯知識(shí)庫(kù)中的抽象性信息比較的結(jié)果顯示,知識(shí)遷移是有效的。把詞語(yǔ)抽象性知識(shí)用于隱喻識(shí)別,對(duì)二者關(guān)系進(jìn)行了詳細(xì)的分析,實(shí)驗(yàn)結(jié)果表明,基于詞語(yǔ)抽象性知識(shí)的隱喻識(shí)別具有較高的準(zhǔn)確率。隱喻計(jì)算的障礙在于獲取實(shí)例困難,難以形成上規(guī)模的數(shù)據(jù)集。引入詞語(yǔ)抽象性知識(shí),可以比較容易地抽取到更多的隱喻實(shí)例,我們初步的實(shí)驗(yàn)也表明了這一點(diǎn)。
我們下一步工作包括兩個(gè)方面: 第一,繼續(xù)探索詞語(yǔ)抽象性度量方法,把詞匯知識(shí)庫(kù)與語(yǔ)料庫(kù)結(jié)合起來(lái)計(jì)算詞語(yǔ)的抽象程度;第二,把詞語(yǔ)抽象性、詞語(yǔ)相關(guān)度及詞語(yǔ)的上下文特征等多源知識(shí)結(jié)合起來(lái),在機(jī)器學(xué)習(xí)的框架下進(jìn)行隱喻識(shí)別,從真實(shí)文本中抽取更多的隱喻實(shí)例,構(gòu)建隱喻知識(shí)庫(kù)。
[1] Brysbaert M, Warriner A B, Kuperman V. Concreteness ratings for 40 thousand generally known English word lemmas[J]. Behavior research methods, 2014, 46(3): 904-911.
[2] Hill F, Korhonen A, Bentz C. A quantitative empirical analysis of the abstract/concrete distinction[J]. Cognitive science, 2014, 38(1): 162-177.
[3] Kwong O Y. Measuring concept concreteness from the lexicographic perspective[C]//Proceedings of PACLIC, 2011: 60-69.
[4] Kwong O Y. A preliminary study on the impact of lexical concreteness on Word Sense Disambiguation[C]//Proceedings of PACLIC, 2008: 235-244.
[5] Hill F, Reichart R, Korhonen A. Simlex-999: Evaluating semantic models with (genuine) similarity estimation[J]. arXiv preprint arXiv: 1408.3456, 2014.
[6] Tanaka S, Jatowt A, Kato M P, et al. Estimating content concreteness for finding comprehensible documents[C]//Proceedings of the sixth ACM international conference on Web search and data mining, 2013: 475-484.
[7] Turney P, Neuman Y, Assaf D, et al. Literal and metaphorical sense identification through concrete and abstract context[C]//Proceedings of the 2011 Conference on the Empirical Methods in Natural Language Processing, 2011: 680-690.
[8] Dunn J. What metaphor identification systems can tell us about metaphor-in-language[C]//Proceedings of the First Workshop on Metaphor in NLP, 2013: 1-10.
[9] Dunn J. Multi-dimensional abstractness in cross-domain mappings[C]//Proceedings of ACL, 2014: 27-32.
[10] Tsvetkov Y, Mukomel E, Gershman A. Cross-lingual metaphor detection using common semantic features[C]//Proceedings of the First Workshop on Metaphor in NLP, 2013: 45-51.
[11] Tsvetkov Y, Boytsov L, Gershman A, et al. Metaphor detection with cross-lingual model transfer[C]//Proceedings of ACL, 2014: 248-258.
[12] Coltheart M. The MRC psycholinguistic database[J]. The Quarterly Journal of Experimental Psychology, 1981,(33): 497-505.
[13] Hill F, Reichart R, Korhonen A. Multi-modal models for concrete and abstract concept meaning[J]. Transactions of the Association for Computational Linguistics, 2014, (2): 285-296.
[14] 賈玉祥, 俞士汶. 基于詞典的名詞性隱喻識(shí)別[J]. 中文信息學(xué)報(bào), 2011, 25(2): 99-104.
[15] Jia Y X, Zan H Y, Fan M, et al. Word Relevance Computation for Noun-Noun Metaphor Recognition[C]//Proceedings of Chinese Lexical Semantics Workshop, Springer International Publishing, 2014: 251-259.
[16] 董振東, 董強(qiáng). 知網(wǎng)[OL]. http://www.keenage.com.
[17] HIT-SCIR. 同義詞詞林(擴(kuò)展版)[OL]. http://ir.hit.edu.cn.
[18] 王治敏. 漢語(yǔ)名詞短語(yǔ)隱喻識(shí)別研究[D]. 北京大學(xué)博士學(xué)位論文, 2006.
MeasuringWord< class="emphasis_bold">Abstractness
nessforMetaphorRecognition
JIA Yuxiang1, ZAN Hongying1, FAN Ming1, YU Shiwen2, WANG Zhimin3
(1. School of Information Engineering, Zhengzhou University, Zhengzhou, Henan 450001, China;2. MOE Key Laboratory of Computational Linguistics, Peking Univerisity, Beijing 100871, China;3. College of Chinese Studies, Beijing Language and Culture University, Beijing 100083, China)
In metaphors, abstract things are usually described in terms of concrete things. If we can decide whether a word is concrete or abstract, we will provide useful clues for automatic metaphor recognition. This paper proposed a cross-lingual knowledge transfer method to adapt English word abstractness knowledge to Chinese. Then we propose a metaphor recognition method based on word abstractness and analyze in detail the relation between word abstractness and metaphor. Experimental results show that, the cross-lingual knowledge transfer method is feasible to measure Chinese word abstractness, the abstractness-based metaphor recognition method achieves a high precision score, and it can improve the efficiency of metaphor extraction from real texts.
metaphor recognition; word abstractness; cross-lingual knowledge transfer
賈玉祥(1981—),博士,講師,主要研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理。
昝紅英(1966—),博士,教授,主要研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理。
范明(1948—),教授,主要研究領(lǐng)域?yàn)闄C(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘。
1003-0077(2017)03-0041-07
2015-06-15定稿日期: 2015-09-15
國(guó)家自然科學(xué)基金(61402419, 61170163);國(guó)家社會(huì)科學(xué)基金(14BYY096);國(guó)家重點(diǎn)基礎(chǔ)研究發(fā)展計(jì)劃 973 課題(2014CB340504);計(jì)算語(yǔ)言學(xué)教育部重點(diǎn)實(shí)驗(yàn)室(北京大學(xué))開放課題(201301, 201401)
TP391
: A