徐琳宏,林鴻飛,楊 亮,徐 博
1(大連外國(guó)語(yǔ)大學(xué) 軟件學(xué)院,遼寧 大連 116044) 2(大連理工大學(xué) 計(jì)算機(jī)系,遼寧 大連 116024)
成語(yǔ)作為中華民族悠久歷史文化的一部分,一般來(lái)自于歷史典故,是古代人智慧的結(jié)晶.成語(yǔ)大多具有豐富的歷史底蘊(yùn),包含了漢語(yǔ)言文化的精華.在使用過(guò)程中,成語(yǔ)有較強(qiáng)的修辭效果,一個(gè)成語(yǔ)可以抵上多個(gè)形容詞,形象生動(dòng),內(nèi)涵深刻,簡(jiǎn)短精辟.成語(yǔ)的定義有多種,《現(xiàn)代漢語(yǔ)》中定義為:“一種相沿習(xí)用具有書面語(yǔ)色彩的固定短語(yǔ)”[1].《新華成語(yǔ)詞典》中定義為:“相沿習(xí)用的固定詞組或短語(yǔ),能獨(dú)立表意,形式短小,一般為四字格式”[2].無(wú)論哪種定義,都可以看出成語(yǔ)是人們長(zhǎng)期以來(lái)習(xí)用的、簡(jiǎn)潔精辟的定型詞組或短句,有固定的結(jié)構(gòu)形式和固定的用法.
趣味成語(yǔ)就是將原有成語(yǔ)本身經(jīng)單字和多字替換后的成語(yǔ)應(yīng)用于一個(gè)新的場(chǎng)景,產(chǎn)生幽默的效果.因其具有趣味性,常常引人發(fā)笑和深思,被廣泛接受.有時(shí),僅僅一字的差異能出現(xiàn)多種理解和含義,也是漢語(yǔ)言博大精深所在.如,“默默無(wú)聞”中的“聞”經(jīng)替換后變?yōu)椤澳瑹o(wú)蚊”,指沒有蚊子的嗡嗡聲,周圍很安靜,體現(xiàn)了一定幽默風(fēng)趣的色彩.這種諧音的趣味成語(yǔ)可以用于廣告、諷刺或幽默,能生動(dòng)地表現(xiàn)產(chǎn)品的特色,有效地影響消費(fèi)者.
本文研究目標(biāo)是以現(xiàn)代成語(yǔ)為基礎(chǔ),自動(dòng)生成趣味成語(yǔ),使其在某一固定場(chǎng)景中產(chǎn)生幽默的效果,而趣味成語(yǔ)大多是通過(guò)諧音替換得到,很多成語(yǔ)具有諧音雙關(guān)的含義.因此,下面分別從幽默生成、雙關(guān)語(yǔ)和成語(yǔ)三個(gè)方面介紹相關(guān)的研究工作.
近些年國(guó)內(nèi)外有很多幽默生成方面的研究,2012年,Igor Labutov等人基于SSTH理論做幽默語(yǔ)句生成的研究,采用人工打分的方式評(píng)測(cè)生成語(yǔ)句的效果[3].2013年,Alessandro Valitutti等人通過(guò)詞語(yǔ)替換,生成幽默文本,采用人工評(píng)估的方式評(píng)估幽默等級(jí)[4].國(guó)內(nèi)研究者也在幽默研究方面進(jìn)行了一定的探討.2015年張冬瑜等人構(gòu)建了情感隱喻語(yǔ)料庫(kù),這為幽默的識(shí)別提供了可以借鑒的方法[5].2016年林鴻飛等人回顧了幽默研究的發(fā)展歷史,詳細(xì)闡述了幽默計(jì)算中的多種基本理論和應(yīng)用,對(duì)于諧音幽默的處理也給出了相應(yīng)的討論[6].
雙關(guān)語(yǔ)作為幽默的一個(gè)重要分支,近些年也有很多的相關(guān)研究工作.2011年,Valitutti等又提出一種計(jì)算幽默程度的方法,評(píng)估生成的諧音雙關(guān)語(yǔ).首先利用音素距離、音節(jié)距離、單詞距離和熟悉用語(yǔ)等多個(gè)特征生成諧音雙關(guān)語(yǔ),最后采用人工評(píng)估的方法檢驗(yàn)生成系統(tǒng)的效果[7].2012年,Pawel Dybala等人生成日文的雙關(guān)語(yǔ),通過(guò)高頻詞匯統(tǒng)計(jì)的方式過(guò)濾候選詞匯,降低雙關(guān)語(yǔ)生成系統(tǒng)的時(shí)間代價(jià).Valitutti等人也在2013年通過(guò)對(duì)普通文本的替換產(chǎn)生諧音幽默的句子,替換過(guò)程中主要考慮單詞的聲音相似性、拼寫和可替換性三個(gè)特征,使幽默生成變?yōu)樵~語(yǔ)選擇問題,最后通過(guò)人工打分的方式評(píng)估諧音文本的幽默性[3].
成語(yǔ)是中華傳統(tǒng)文化的璀璨明珠,語(yǔ)言學(xué)方面關(guān)于成語(yǔ)典故、結(jié)構(gòu)和釋義有許多研究工作.曾小兵等提出成語(yǔ)的穩(wěn)定度高于習(xí)語(yǔ),將成語(yǔ)定為語(yǔ)言中的高穩(wěn)態(tài)的部分[8].徐耀民等認(rèn)為成語(yǔ)的整體意義同字面意義往往不一致,使人產(chǎn)生聯(lián)想,因而運(yùn)用起來(lái)容易收到生動(dòng)、形象、耐人尋味和言簡(jiǎn)意賅的效果[9].倪寶元指出由于表達(dá)需要而臨時(shí)產(chǎn)生的成語(yǔ)語(yǔ)素變換的形式成為套式.語(yǔ)言的演變依據(jù)“從俗、從簡(jiǎn)和義明”等規(guī)范[10].成語(yǔ)大多是約定俗成的四字結(jié)構(gòu),在漢語(yǔ)書面或者日常會(huì)話中經(jīng)常出現(xiàn),特別是在文學(xué)作品中尤為頻繁,而在新聞?lì)I(lǐng)域中成語(yǔ)的使用頻率相對(duì)較低[11].以上是語(yǔ)言學(xué)方面對(duì)成語(yǔ)的部分研究.因?yàn)槌烧Z(yǔ)具有字?jǐn)?shù)少,含義豐富的特點(diǎn),機(jī)器理解困難較大,所以自然語(yǔ)言處理中關(guān)于成語(yǔ)方面的研究工作較少.冉婕等將成語(yǔ)的典故信息以本體的方式存儲(chǔ),分別從類、子類、屬性、個(gè)體及關(guān)系幾個(gè)方面進(jìn)行了詳細(xì)分析,為成語(yǔ)典故相關(guān)知識(shí)的查詢奠定基礎(chǔ)[12].楊雪松等提出了一種基于成語(yǔ)典故本體的信息檢索模型,以問題模式和答案模式為基礎(chǔ),提高成語(yǔ)的語(yǔ)義檢索效率[13].以上是國(guó)內(nèi)外幽默生成、雙關(guān)語(yǔ)和成語(yǔ)方面的研究進(jìn)展,從成語(yǔ)的字形及語(yǔ)義角度出發(fā),生成幽默成語(yǔ)的研究目前還很少見.
本文在大家使用頻率較高的成語(yǔ)基礎(chǔ)上,生成諧音趣味成語(yǔ),主要的貢獻(xiàn)如下:1.根據(jù)一定的語(yǔ)音替換策略,生成候選成語(yǔ)集合,并提取成語(yǔ)中包含的字形和幽默等特征;2.將成語(yǔ)的生成問題轉(zhuǎn)化為查詢檢索問題,基于排序?qū)W習(xí)算法生成趣味成語(yǔ);3.在多個(gè)維度中采用人工評(píng)估和機(jī)器評(píng)估相結(jié)合的方式,評(píng)測(cè)趣味成語(yǔ)的質(zhì)量.
趣味成語(yǔ)的生成首先是利用豐富的成語(yǔ)資源,在一定的語(yǔ)音替換策略基礎(chǔ)上,抽取諧音成語(yǔ)集合.然后提取成語(yǔ)集合中每條成語(yǔ)的特征集,融合到排序?qū)W習(xí)的算法中,生成幽默性較強(qiáng)的趣味成語(yǔ).最終建立一個(gè)多場(chǎng)景自適應(yīng)的趣味成語(yǔ)生成模型,該模型的基本流程如圖1所示.
輸入層包含查詢的關(guān)鍵字和場(chǎng)景詞兩部分,其中查詢關(guān)鍵字是生成的趣味成語(yǔ)中包含的漢字,場(chǎng)景詞是指趣味成語(yǔ)的應(yīng)用場(chǎng)景.成語(yǔ)的幽默程度大多與應(yīng)用的場(chǎng)景密切相關(guān),如趣味成語(yǔ)“終身無(wú)汗”,查詢的關(guān)鍵字為“汗”,生成的成語(yǔ)本身幽默性不強(qiáng),但如果和場(chǎng)景詞“空調(diào)”關(guān)聯(lián)時(shí),很容易理解,“無(wú)汗”是強(qiáng)調(diào)空調(diào)的制冷效果,“終身”夸張了空調(diào)的功能,兩者結(jié)合呈現(xiàn)出一定的幽默色彩.可見,幽默特性通過(guò)與固定的場(chǎng)景詞關(guān)聯(lián)體現(xiàn)出來(lái).因此本模型的輸入為查詢關(guān)鍵字和場(chǎng)景詞兩部分.以語(yǔ)音替換策略為基礎(chǔ),根據(jù)輸入的查詢關(guān)鍵字在現(xiàn)代成語(yǔ)語(yǔ)料庫(kù)中生成候選成語(yǔ)集合.然后提取每條候選成語(yǔ)的特征集,利用排序?qū)W習(xí)算法,為候選成語(yǔ)集排序,輸出排名靠前的趣味成語(yǔ)以及它與場(chǎng)景詞關(guān)聯(lián)的幽默程度.生成和檢索算法的流程如下:
input={key,Q}//key為查詢關(guān)鍵字,Q為場(chǎng)景詞idioms=語(yǔ)音匹配(key)//idioms為候選成語(yǔ)集合
for idiom in idioms:
FVector=提取特征_11(idiom)
FMatrix=FMatrix.add(FVector)
indices=LambdaMart(FMatrix)
根據(jù)上述的流程可知,模型的輸入為查詢關(guān)鍵字key,輸出是若干成語(yǔ),關(guān)鍵問題是如何將生成的成語(yǔ)按其與場(chǎng)景詞Q的相關(guān)度和幽默程度排序.這與信息檢索的問題很相似,其中查詢關(guān)鍵字相當(dāng)于檢索中用戶輸入的查詢條件,場(chǎng)景詞為查詢的擴(kuò)展部分,每個(gè)候選成語(yǔ)可以看作一個(gè)查詢返回的文檔,提取成語(yǔ)中的語(yǔ)義和幽默特征矩陣FMatrix,融入到排序?qū)W習(xí)的算法中,訓(xùn)練排序模型,返回候選成語(yǔ)集合中成語(yǔ)幽默程度的排序indices.這樣可以把一個(gè)幽默成語(yǔ)的生成問題轉(zhuǎn)化為信息檢索問題,進(jìn)而利用檢索的相關(guān)技術(shù)生成和評(píng)估幽默成語(yǔ).信息檢索的核心問題是排序,趣味成語(yǔ)的核心問題也是如何將候選成語(yǔ)按其幽默程度排序.因此,本文在提取成語(yǔ)特征時(shí),既考慮候選成語(yǔ)與查詢的相關(guān)性,也考慮成語(yǔ)本身的重要程度和幽默特性.
圖1 趣味成語(yǔ)生成模型Fig.1 Model of interesting idioms generation
為了全方位、多層次的體現(xiàn)成語(yǔ)的查詢相關(guān)度和幽默程度,本文在候選成語(yǔ)集合中提取語(yǔ)音、幽默、語(yǔ)義、情感和形態(tài)五個(gè)維度的特性,共11個(gè)特征.將上述特征融入到排序?qū)W習(xí)算法中,輸出每個(gè)候選成語(yǔ)的重要性.因此,圖1中的成語(yǔ)生成型可以進(jìn)一步細(xì)化為特征集提取和檢索模型兩部分,其中提取的特征集如圖2所示.
首先,為候選成語(yǔ)集中的每條成語(yǔ)計(jì)算五個(gè)維度的特征集合,將生成的特征矩陣作為排序算法的輸入,經(jīng)排序算法訓(xùn)練和學(xué)習(xí)后,使趣味性較強(qiáng)的成語(yǔ)盡量排名靠前,最后利用信息檢索領(lǐng)域常見的平均準(zhǔn)確率(MAP)和前N個(gè)結(jié)果的準(zhǔn)確率(P@N)等指標(biāo)評(píng)估算法的有效性.由圖2可知,選取特征的質(zhì)量直接影響排序算法的輸出結(jié)果,它們是成語(yǔ)選擇的重要原始數(shù)據(jù),下面將詳細(xì)介紹該模型的五個(gè)維度的特征.
利用給定的查詢字在成語(yǔ)集合中查找發(fā)音相同和相似的成語(yǔ),可以生成候選的成語(yǔ)集合.語(yǔ)音替換策略是指在進(jìn)行上述語(yǔ)音替換時(shí)的原則,替換策略寬松,損失生成成語(yǔ)的語(yǔ)音特性,且生成的候選成語(yǔ)數(shù)量龐大,會(huì)增加趣味成語(yǔ)的挑選難度.反之,替換策略過(guò)于嚴(yán)格,生成的成語(yǔ)數(shù)量較少,很多幽默性強(qiáng)的趣味成語(yǔ)不能進(jìn)入候選成語(yǔ)集.為保證候選成語(yǔ)集合的數(shù)量適中,本文選擇的替換策略是“嚴(yán)格匹配聲母和韻母,寬松匹配聲調(diào)”的原則.即替換字與查詢字的聲母和韻母必須完全相同,而聲調(diào)可以不同.其中聲母23個(gè),韻母35個(gè).需要注意的是這里的韻母是嚴(yán)格區(qū)分單韻母、雙韻母、三韻母和組合韻母.例如,韻母“àn”和組合韻母“iàn”屬于發(fā)音不同.
圖2 成語(yǔ)特征集Fig.2 Features of idioms
語(yǔ)音距離:查詢字與被替換字發(fā)音相同還是相似.因?yàn)檎Z(yǔ)音替換策略中放寬了聲調(diào)的匹配,發(fā)音完全相同比發(fā)音相似語(yǔ)音距離小,讀起來(lái)更流暢,語(yǔ)感更強(qiáng).語(yǔ)感是一種綜合的語(yǔ)言直覺能力.它包括對(duì)語(yǔ)音、語(yǔ)法、語(yǔ)義和語(yǔ)用等許多方面的敏感的直覺能力.雖然,人與人之間的語(yǔ)感有差別,但每種語(yǔ)言都存在共同的語(yǔ)感稱為“共同語(yǔ)感”[14].語(yǔ)音距離近,語(yǔ)感強(qiáng),則該成語(yǔ)更可能語(yǔ)義通順,趣味性強(qiáng).
成語(yǔ)作為一個(gè)語(yǔ)義單元,不像語(yǔ)句和篇章可以包含更多的詞匯和漢字,體現(xiàn)更大的信息量.而成語(yǔ)大多只包含四個(gè)漢字,卻能夠體現(xiàn)較為豐富和生動(dòng)的語(yǔ)義.為了讓機(jī)器能更全面的了解成語(yǔ)的豐富含義,需要在四個(gè)漢字的字面含義基礎(chǔ)上,多層次多角度的擴(kuò)展語(yǔ)義.本文從兩個(gè)方向擴(kuò)展關(guān)聯(lián)的語(yǔ)義:一個(gè)是向外擴(kuò)展,通過(guò)大規(guī)模語(yǔ)料完成,另一個(gè)是向內(nèi)擴(kuò)展,將成語(yǔ)中四個(gè)漢字拆分計(jì)算.因此我們的語(yǔ)義特征包含查詢擴(kuò)展字和成語(yǔ)內(nèi)聚度兩個(gè)方面.
3.2.1 查詢擴(kuò)展字
該特征首先通過(guò)大規(guī)模語(yǔ)料擴(kuò)展查詢場(chǎng)景詞,將擴(kuò)展后的關(guān)鍵字與成語(yǔ)匹配.匹配度越高,說(shuō)明候選成語(yǔ)與查詢的關(guān)聯(lián)越大,語(yǔ)義上也就越相關(guān).本文選擇2G的微博語(yǔ)料做查詢擴(kuò)展,因?yàn)槲⒉┱Z(yǔ)料相對(duì)于新聞等語(yǔ)料更生活化、也更貼近人們?nèi)粘5谋磉_(dá)方式.一個(gè)用戶發(fā)表的一段微博一般較短,可以將其看作一個(gè)文檔,計(jì)算查詢擴(kuò)展詞出現(xiàn)的文檔編號(hào),則該文檔中的所有詞匯都可以作為查詢?cè)~的共現(xiàn)詞匯,選擇排名靠前的共現(xiàn)詞匯作為該查詢的擴(kuò)展詞.計(jì)算的公式如式(1):
(1)
其中,qk代表第k個(gè)查詢的場(chǎng)景詞,Corrence函數(shù)表示第i個(gè)文檔中場(chǎng)景詞qk與詞匯wj的共現(xiàn)次數(shù).因此,Cj代表語(yǔ)料中第j個(gè)詞匯與場(chǎng)景詞qk共現(xiàn)的頻率.當(dāng)前場(chǎng)景詞qk與所有單詞的共現(xiàn)矩陣為(C1,C2,…,Cm-1,Cm),選擇其中共現(xiàn)頻率較高的詞匯作為場(chǎng)景詞qk的查詢擴(kuò)展詞,最后在qk的候選成語(yǔ)中匹配是否存在查詢擴(kuò)展詞,將其作為查詢擴(kuò)展詞的特征值.
3.2.2 成語(yǔ)內(nèi)聚度
成語(yǔ)內(nèi)聚度是指成語(yǔ)中每個(gè)漢字之間結(jié)合的緊密程度.結(jié)合越緊密,內(nèi)聚度越高,說(shuō)明該成語(yǔ)中每個(gè)漢字經(jīng)常搭配使用,表達(dá)含義更容易被人們理解.四字格成語(yǔ)一般為二二結(jié)構(gòu)[15],如“千山萬(wàn)水”、“畫蛇添足”等,因此本文計(jì)算的成語(yǔ)內(nèi)聚程度并不是將成語(yǔ)中每?jī)蓚€(gè)漢字組合計(jì)算,而是分為前后兩部分,即先計(jì)算前兩個(gè)字的內(nèi)聚度,再計(jì)算后兩個(gè),最后將兩者加和,內(nèi)聚度是通過(guò)漢字的Ngram值表示.見公式(2).
(2)
其中,Coh(idiomi)為第i個(gè)成語(yǔ)的內(nèi)聚度,由前后兩部分相加得到.ngram函數(shù)計(jì)算相鄰兩個(gè)漢字的ngram值,本文集成KenLM Toolkit[22]工具包,在1G的中文維基百科語(yǔ)料中按字訓(xùn)練Ngram語(yǔ)言模型.
幽默具有 “戲謔”的特征,因此“有趣,可笑”可以作為判斷幽默的廣義標(biāo)準(zhǔn)[6].趣味成語(yǔ)中“趣”就是指具有幽默的含義,而幽默的表現(xiàn)形式多種多樣.本文的幽默特性包含夸張?zhí)匦?、成語(yǔ)流通度和極性差值三個(gè)方面.
3.3.1 夸張?zhí)匦?/p>
幽默有時(shí)與一定的修辭手法關(guān)聯(lián),例如,國(guó)內(nèi)外很多學(xué)者認(rèn)為夸張常常有幽默的效果[16],作為情緒的宣泄方式,夸張、反語(yǔ)都能達(dá)到幽默的作用[17].夸張是作者把描述事物的本質(zhì)特征極力地夸大或縮小,從而使話語(yǔ)產(chǎn)生幽默效果.而夸張的表現(xiàn)手法是多種多樣的,歸納起來(lái)就是利用多種語(yǔ)言資源,增強(qiáng)或降低事物的某些方面.包含語(yǔ)勢(shì)和語(yǔ)焦兩個(gè)方向.語(yǔ)勢(shì) 可以擴(kuò)大或縮小,語(yǔ)焦可以銳化或柔化[18].語(yǔ)勢(shì)最經(jīng)常使用的是數(shù)量上的夸張,如經(jīng)典夸張表達(dá)“白發(fā)三千丈”[19].根據(jù)以上語(yǔ)言學(xué)中關(guān)于夸張的理論,我們提取成語(yǔ)中的數(shù)詞及表示數(shù)量規(guī)模的量詞等表示夸張?zhí)匦?
3.3.2 成語(yǔ)流通度
“流通度” 是一種語(yǔ)言事實(shí)在社會(huì)交際中的流行通用的程度.詞匯流行通用程度高,表明人們的熟悉程度高,也就是更多的人能夠理解詞匯的含義.幽默言語(yǔ)是說(shuō)話者在某一特定情景下說(shuō)出來(lái)的,聽者利用自己的語(yǔ)言知識(shí)和常識(shí)去理解,在這種人的交際與認(rèn)知中獲取.如果一個(gè)成語(yǔ)的流通度較低,含義比較晦澀難懂,就很難在理解語(yǔ)義的基礎(chǔ)上產(chǎn)生幽默.為了客觀公正的在大規(guī)模語(yǔ)料中獲取成語(yǔ)的流通度,我們利用百度搜索引擎,將原始成語(yǔ)作為查詢關(guān)鍵字,獲取該成語(yǔ)返回的相關(guān)結(jié)果個(gè)數(shù),然后對(duì)生成流通度向量做歸一化處理,得到成語(yǔ)對(duì)應(yīng)的流通度數(shù)值.流通度數(shù)值越高,說(shuō)明該成語(yǔ)在生活中越常見,其含義也被大多數(shù)人熟知,進(jìn)而其幽默的含義也更容易被理解.反之,如果一個(gè)成語(yǔ)流通度較低,則說(shuō)明大部分人對(duì)它表達(dá)的含義或者成語(yǔ)的典故出處不太了解,這樣的成語(yǔ)生成候選成語(yǔ)后,即使其中包含一定的幽默含義,也很難被人解析和認(rèn)知.
3.3.3 極性差值
極性差值是指計(jì)算查詢字與被替換字之間的極性差值.因?yàn)橛哪哉Z(yǔ)大多來(lái)自于交際過(guò)程中最大關(guān)聯(lián)與最佳關(guān)聯(lián)之間意義的反差[20],語(yǔ)義信息有限的成語(yǔ)中,情感極性的差值從一個(gè)側(cè)面體現(xiàn)了這種反差,造成一種意料之外的效果.本文計(jì)算極性差值的方法是:首先,在大連理工大學(xué)的情感詞匯本體[21]基礎(chǔ)上,根據(jù)每個(gè)字出現(xiàn)在褒貶義詞匯中的次數(shù)計(jì)算單個(gè)漢字的褒貶義;然后根據(jù)漢字的褒貶義,計(jì)算替換前后成語(yǔ)的褒貶義變化,計(jì)算公式如式(3):
polarDiff(idiomi)=polar(zori)-polar(znew)
(3)
其中,zori表示成語(yǔ)中的原始字,znew表示替換zori的查詢字.polarDiff(idiomi)代表替換前后成語(yǔ)中漢字的極性變化,它的絕對(duì)值越高說(shuō)明替換前后情感的反差越大,則越可能含有幽默色彩.
成語(yǔ)和習(xí)語(yǔ)中通常包含豐富的情感信息,對(duì)情感識(shí)別作用較大[22].從情感的角度出發(fā),趣味成語(yǔ)分為兩種類型,大部分是褒義成語(yǔ)轉(zhuǎn)化而來(lái),少部分成語(yǔ)原始是貶義成語(yǔ),但替換后不再具有貶義色彩.本文的情感特征包含成語(yǔ)褒貶性和單字褒貶性,分別針對(duì)兩種類型的趣味成語(yǔ).成語(yǔ)褒貶性主要處理大部分趣味成語(yǔ)是褒義成語(yǔ)轉(zhuǎn)化而來(lái)的情況,而單字褒貶性主要處理少部分成語(yǔ)的去貶義化問題.
3.4.1 成語(yǔ)褒貶性
本文使用的成語(yǔ)來(lái)源于《成語(yǔ)大詞典》[23],詞典中具有情感極性的成語(yǔ)標(biāo)注為褒義、貶義.我們手工錄入詞典中的情感標(biāo)注,作為成語(yǔ)褒貶性的特征值.貶義值為1,中性值為2,褒義為3,需要說(shuō)明的是詞典中明確標(biāo)注了具有褒義和貶義的詞語(yǔ),未標(biāo)注褒貶極性的成語(yǔ)劃分到中性類別中.從情感極性的角度看,由褒義成語(yǔ)替換成的候選成語(yǔ)成為趣味成語(yǔ)的概率更大.
3.4.2 單字褒貶性
單字褒貶性是判斷候選成語(yǔ)中是否包含褒義字.包含褒義字的成語(yǔ)其貶義被去除的概率加大,即更可能為去貶義化的成語(yǔ).這主要是針對(duì)一些貶義成語(yǔ)具有趣味性,它們通常是通過(guò)單字替換后,原來(lái)的貶義傾向性消失的現(xiàn)象.例如,“口蜜腹健”,原始成語(yǔ)中的“劍”字被“健”替換后,原始的貶義消失,帶有一定褒義色彩.
漢字是象形文字發(fā)展而來(lái),能通過(guò)字形表達(dá)豐富的語(yǔ)義,因此外在形態(tài)包含了語(yǔ)義表示的重要信息.本文選擇的形態(tài)特征包括成語(yǔ)通透性、單字常見度和場(chǎng)景重疊字.
3.5.1 成語(yǔ)通透性
成語(yǔ)的通透性是將組成成語(yǔ)的每個(gè)漢字的通透性疊加.1999年,曾捷英等提出漢字空間通透性的概念,它是衡量漢字筆畫之間離散程度的可量化指標(biāo),漢字空間的通透性和筆畫間的離散程度成正比[24].因此,可以將筆畫數(shù)作為衡量通透性的一個(gè)標(biāo)準(zhǔn).現(xiàn)代漢字學(xué)把筆畫看作是“構(gòu)成漢字字形的最小單位”[25].目前廣泛采用的筆畫是1965年文化部和中國(guó)文字改革委員會(huì)頒布了《印刷通用漢字字形表》.筆畫數(shù)的多少標(biāo)志著字的繁簡(jiǎn)[26].曹傳詠等[27]也肯定了漢字識(shí)別中的筆畫數(shù)效應(yīng).因此,本文中成語(yǔ)的通透性通過(guò)構(gòu)成成語(yǔ)的每個(gè)漢字筆畫數(shù)的加和來(lái)計(jì)算.通透性越好,說(shuō)明成語(yǔ)被人們識(shí)別和理解的概率越大,也就更可能成為趣味成語(yǔ).
3.5.2 單字常見度
漢字的常見度反映了漢字在人們生活中的使用頻率.越常見的漢字,其語(yǔ)義越易被大多數(shù)人理解,在充分理解語(yǔ)義的前提下,也就越容易理解其中的幽默等含義.本文的常用漢字是選擇國(guó)家語(yǔ)委漢字處1988年制定的《現(xiàn)代漢語(yǔ)常用字表》中的常用漢字.判斷成語(yǔ)的漢字是否為常用字,計(jì)算公式見公式(4).
(4)
其中,T(zj)表示漢字zj是否為常見字,是值為1,否則為0.T(idiomi)表示成語(yǔ)i中漢字的常見度,如果候選成語(yǔ)中除查詢字外每個(gè)漢字都為常見字,值為1,否則值為0.
3.5.3 場(chǎng)景重疊字
場(chǎng)景重疊字特征是判斷生成的候選成語(yǔ)中是否包含場(chǎng)景詞中漢字.每個(gè)查詢字都配有一個(gè)場(chǎng)景詞,因?yàn)槌烧Z(yǔ)的幽默程度大多與應(yīng)用的場(chǎng)景密切相關(guān),在具體場(chǎng)景下才能體現(xiàn)幽默.如果候選成語(yǔ)與場(chǎng)景詞高度相關(guān),則產(chǎn)生幽默的可能性會(huì)變大.例如,趣味成語(yǔ)“聞‘機(jī)’起舞”中的“舞”與場(chǎng)景詞“跳舞機(jī)”重疊,兩者的語(yǔ)義相近.反之,如果候選成語(yǔ)與指定的場(chǎng)景語(yǔ)義距離較遠(yuǎn),很難產(chǎn)生幽默的聯(lián)想,那么成為趣味成語(yǔ)的概率會(huì)變小.場(chǎng)景重疊字特征計(jì)算候選成語(yǔ)有多少個(gè)字與場(chǎng)景詞重疊,字?jǐn)?shù)越多,兩者語(yǔ)義越相近.
依據(jù)語(yǔ)音替換模板和查詢字,生成了候選成語(yǔ)集,通常一個(gè)查詢字可以生成幾百甚至幾千個(gè)候選成語(yǔ),這些成語(yǔ)中哪些與規(guī)定的場(chǎng)景詞更相關(guān),哪些更具有幽默特性是下一步需要解決的問題.即我們需要根據(jù)選擇的5大類特征,將生成的多個(gè)候選成語(yǔ)排名,使語(yǔ)義更相關(guān)、幽默性更高的成語(yǔ)排名靠前.這與信息檢索的問題非常相似,在信息檢索中用戶搜索一個(gè)查詢關(guān)鍵字,可能返回多個(gè)相關(guān)的文檔,提取特征后通過(guò)合適的排序?qū)W習(xí)算法,將相關(guān)度大的文檔排在前面.信息檢索的核心問題是排序,就是把用戶最需要的信息排在返回列表的最前面.而趣味成語(yǔ)的檢索模型也是要解決排序問題,將趣味性強(qiáng)的成語(yǔ)排在候選成語(yǔ)集的最前面.因此,本文采用信息檢索領(lǐng)域應(yīng)用廣泛的排序?qū)W習(xí)算法和相關(guān)評(píng)測(cè)方法,實(shí)現(xiàn)趣味成語(yǔ)的檢索模型.該檢索模型的主要結(jié)構(gòu)如圖3所示.
圖3 趣味成語(yǔ)的檢索模型Fig.3 Model of interesting idioms retrieval
首先,在已標(biāo)注的訓(xùn)練集中提取5個(gè)維度的11個(gè)特征值,使用排序?qū)W習(xí)算法訓(xùn)練,利用開發(fā)集調(diào)整參數(shù)后,得到效果較好的排序模型.然后利用排序模型分別排序已標(biāo)注的測(cè)試數(shù)據(jù)和未標(biāo)注的用戶需求兩個(gè)數(shù)據(jù)集.最后評(píng)估階段,已標(biāo)注的數(shù)據(jù)采用機(jī)器評(píng)估,未標(biāo)注的數(shù)據(jù)采用人工評(píng)估,以更全面、客觀地評(píng)價(jià)趣味成語(yǔ)的生成質(zhì)量.
排序?qū)W習(xí)的思想是將排序問題轉(zhuǎn)化為機(jī)器學(xué)習(xí)問題,利用機(jī)器學(xué)習(xí)的相關(guān)方法,以排序特征為依據(jù)構(gòu)建合適的排序模型.它的主要目標(biāo)是利用排序函數(shù)計(jì)算文檔和查詢的相關(guān)度,然后根據(jù)相關(guān)度進(jìn)行排序.參照信息檢索的定義,本文的趣味成語(yǔ)檢索模型任務(wù)定義為:對(duì)于給定的候選成語(yǔ)集合C,其中每個(gè)候選成語(yǔ)表示為三元組形式,q為查詢,c為該成語(yǔ)的特征集合{f1,f2,…,fn},r為成語(yǔ)與查詢的相關(guān)程度.因此,構(gòu)造一個(gè)函數(shù)反映候選成語(yǔ)與查詢的相關(guān)度是排序?qū)W習(xí)的核心任務(wù).
排序?qū)W習(xí)中列表級(jí)[28]方法因?yàn)椴辉賹⑴判騿栴}直接轉(zhuǎn)化為分類問題,而是對(duì)整個(gè)候選文檔列表進(jìn)行優(yōu)化,是目前研究的重點(diǎn).本文采用列表級(jí)方法中效果較好,使用范圍較廣的LambdaMart算法訓(xùn)練模型,以位置信息敏感的MAP為評(píng)價(jià)準(zhǔn)則,評(píng)估候選成語(yǔ)的排序效果.
(5)
其中,I表示某查詢下的所有候選對(duì)象.LambdaMart方法在眾多檢索任務(wù)中都獲得了較好的效果.
信息檢索的評(píng)價(jià)指標(biāo)很多,如F值、E值、AP值、MAP、P@K、NDCG和MRR等.為了客觀公正地評(píng)估趣味成語(yǔ)的質(zhì)量,本文選擇通用的MAP和P@K作為評(píng)價(jià)指標(biāo).AP(Average Precision)值是計(jì)算單個(gè)查詢中每篇相關(guān)文檔的平均準(zhǔn)確率.而MAP(Mean average Precision)是計(jì)算集合中多個(gè)查詢的平均AP值,具體方法如式(6).
(6)
其中,Pi(r)指查全率為r時(shí)的平均查準(zhǔn)率,N為查詢的個(gè)數(shù).MAP是反映全部相關(guān)文檔性能的指標(biāo),相關(guān)文檔排名越高,MAP的值越高.
生成的候選成語(yǔ)經(jīng)檢索模型排序后,生成趣味成語(yǔ)集合.采用機(jī)器評(píng)估和人工評(píng)估相結(jié)合的方法評(píng)估生成趣味成語(yǔ)的質(zhì)量.本節(jié)主要介紹使用的語(yǔ)料、實(shí)驗(yàn)方案及結(jié)果.
成語(yǔ)生成模型中需要成語(yǔ)語(yǔ)料庫(kù),現(xiàn)代漢語(yǔ)中到底有多少條成語(yǔ),很難有一個(gè)具體、明確的數(shù)字[30].因?yàn)檗o書常常設(shè)有主條、副條或主條、附見條,如果這種單位也被視為成語(yǔ),則成語(yǔ)的總數(shù) 可能達(dá)到兩三萬(wàn)條,如果將其排除在外,那么成語(yǔ)的總數(shù)可能為 10000 條左右[31].四字格是成語(yǔ)最典型的格式,數(shù)量也是最多的,體現(xiàn)了漢民族追求和諧、崇尚對(duì)偶的審美觀.據(jù)許肇本的統(tǒng)計(jì),在不下萬(wàn)條的成語(yǔ)中,四字格約占 97%[32].因此,本文采用商務(wù)印書館的《現(xiàn)代成語(yǔ)大詞典》為基本的成語(yǔ)語(yǔ)料庫(kù),選擇四字格成語(yǔ)10604個(gè),其中褒義成語(yǔ)1981個(gè),貶義成語(yǔ)1840,中性成語(yǔ)6783.趣味成語(yǔ)的已標(biāo)注數(shù)據(jù)集是從互聯(lián)網(wǎng)上收集,包含72個(gè)查詢,82個(gè)趣味成語(yǔ),查詢涉及生活用品、電器、保健品和住房等多個(gè)領(lǐng)域.72個(gè)查詢中12個(gè)作為測(cè)試集,50個(gè)訓(xùn)練集,10個(gè)開發(fā)集.除了這些已標(biāo)注的數(shù)據(jù)集,我們還準(zhǔn)備了25個(gè)用戶查詢構(gòu)成未標(biāo)注的數(shù)據(jù)集,利用人工評(píng)估的方法檢測(cè)趣味成語(yǔ)的生成質(zhì)量.為了全面地評(píng)測(cè)該模型的質(zhì)量,上述25個(gè)用戶查詢來(lái)源于國(guó)家統(tǒng)計(jì)局2013年發(fā)布的《居民消費(fèi)支出分類》表,從衣、食、住、用和行5個(gè)大類中,每個(gè)類別分別隨機(jī)選擇5個(gè)產(chǎn)品作為查詢字的場(chǎng)景詞,總計(jì)25個(gè)查詢.
本文主要完成兩大類實(shí)驗(yàn):已標(biāo)注數(shù)據(jù)集上的機(jī)器評(píng)估和未標(biāo)注數(shù)據(jù)集上的人工評(píng)估.排序算法采用LambdaMart,使用開發(fā)集調(diào)整參數(shù),將排序模型應(yīng)用到上述兩類測(cè)試集,分別采用MAP和P@K兩種評(píng)價(jià)指標(biāo).
5.2.1 機(jī)器評(píng)估結(jié)果
72個(gè)查詢中12個(gè)作為測(cè)試集,采用交叉驗(yàn)證的方式,單獨(dú)使用各維特征及所有特征疊加的實(shí)驗(yàn)結(jié)果如表1所示.
表1 各維特征對(duì)MAP值的影響
Table 1 Features′ impaction in MAP
特征MAP情感特征6.13%形態(tài)特征6.78%語(yǔ)音特征13.60%語(yǔ)義特征13.94%幽默特征17.07%所有特征27.47%
從表1可以看出,將5個(gè)維度的11個(gè)特征都加入到模型中,效果最好,MAP值達(dá)到27.47%.如果一個(gè)查詢只有一個(gè)趣味成語(yǔ),則該趣味成語(yǔ)平均排名在3到4名左右.在排序模型中單獨(dú)使用各維特征,幽默特征作用最大,MAP值為17.07%,而情感特征的作用最小,只有6.13%.這是因?yàn)榍楦刑卣髦饕罁?jù)成語(yǔ)的褒貶性來(lái)區(qū)分,而10604個(gè)成語(yǔ)集合中具有明顯褒貶義的成語(yǔ)數(shù)量較少,只有3821個(gè),因此影響范圍不大.幽默特征的作用最大,因?yàn)楹饬咳の冻烧Z(yǔ)好壞的關(guān)鍵指標(biāo)是趣味性,即幽默.為了細(xì)化幽默特征的作用,本文分別在所有特征中刪除每個(gè)幽默特性,以MAP值的提升程度表示各個(gè)幽默特性的效果,結(jié)果如表2所示.
由表2可以看出,三個(gè)幽默特性中極性差值作用最小,夸張?zhí)匦宰饔米畲?在特征集中加入夸張?zhí)匦?整體的MAP值能提高7.37%.可見,夸張是幽默的一種重要體現(xiàn)形式,能夠幫助識(shí)別部分趣味成語(yǔ)中的幽默效果.成語(yǔ)流通度特性能提高6.54%,說(shuō)明人們?cè)绞煜さ某烧Z(yǔ)替換后越容易產(chǎn)生幽默色彩.極性差值的提升幅度為2.73%,與其他兩個(gè)特性比效果較小,這是因?yàn)樽值陌H義本身與其在實(shí)際上下文中的含義可能有一定的誤差.
表2 幽默特性對(duì)MAP值的影響
Table 2 Humor features′impaction in MAP
特征MAP提升幅度所有特征-極性差值24.74%2.73%所有特征-成語(yǔ)流通度20.93%6.54%所有特征-夸張?zhí)匦?0.10%7.37%
5.2.2 人工評(píng)估結(jié)果
考慮到目前機(jī)器對(duì)幽默等隱式情感的理解不足,在高級(jí)情感的鑒別和解析中人的感受更為準(zhǔn)確和具體.因此,本文針對(duì)25個(gè)查詢字及場(chǎng)景詞采用人工評(píng)估的方法,進(jìn)一步評(píng)價(jià)趣味成語(yǔ)生成模型的效果.每個(gè)查詢生成的候選成語(yǔ)數(shù)量龐大,對(duì)每一條候選成語(yǔ)進(jìn)行人工評(píng)估,人力成本較大.因此,對(duì)于每個(gè)查詢,我們選擇排名在前10的成語(yǔ)人工評(píng)估,每名評(píng)測(cè)員完成250個(gè)成語(yǔ)的評(píng)估工作.評(píng)測(cè)員為每條成語(yǔ)打分,分為“不相關(guān)”、“一般相關(guān)”和“非常相關(guān)”.“不相關(guān)”的成語(yǔ)還需要細(xì)化不相關(guān)的原因,如語(yǔ)義不通,或者與場(chǎng)景詞關(guān)聯(lián)度較小等,這主要是為后續(xù)改進(jìn)模型提供依據(jù).“非常相關(guān)”是指成語(yǔ)趣味性較強(qiáng),與查詢場(chǎng)景比較貼合的成語(yǔ).“一般相關(guān)”是指與查詢場(chǎng)景語(yǔ)義相關(guān),但趣味性稍弱的成語(yǔ).人工評(píng)估的結(jié)果如表3所示.
表3 人工評(píng)估的P@10結(jié)果
Table 3 P@10 values of artificial assessment
評(píng)測(cè)標(biāo)準(zhǔn)平均P1P2P3P4P5非常相關(guān)34%27%30%42%34%39%相關(guān)60%55%69%63%56%57%
表3中給出了趣味成語(yǔ)p@10的評(píng)測(cè)結(jié)果,“相關(guān)”是指“非常相關(guān)”和“一般相關(guān)”的疊加.從結(jié)果可以看出,排名靠前的10個(gè)成語(yǔ)中平均有6個(gè)成語(yǔ)是相關(guān)的,其中有3個(gè)是非常相關(guān)的.這從人工的角度驗(yàn)證了趣味成語(yǔ)生成模型的效果,基本能夠滿足大部分查詢的實(shí)際需求.此外,5人評(píng)測(cè)組中,組員評(píng)分的方差為0.003,方差較小,也說(shuō)明評(píng)測(cè)員的評(píng)測(cè)結(jié)果一致性較好,結(jié)果的可靠程度較高.25個(gè)查詢分別來(lái)自衣、食、住、用和行5大類別,各類別趣味成語(yǔ)的生成質(zhì)量如圖4所示.
圖4 各個(gè)類別人工評(píng)估的p@10值Fig.4 P@10 values of each category through artificial assessment
由圖4可以看出,食品類和服飾類查詢生成趣味成語(yǔ)的質(zhì)量較高,相關(guān)成語(yǔ)的平均值為68%,而交通出行類查詢的生成質(zhì)量最低,非常相關(guān)的成語(yǔ)15%,相關(guān)成語(yǔ)也只有46%.這是因?yàn)槌烧Z(yǔ)多來(lái)源于古代的典故,而出行類的查詢場(chǎng)景詞多為出租車和飛機(jī)等現(xiàn)代詞匯,兩者的語(yǔ)義相關(guān)度較小,所以趣味成語(yǔ)的生成質(zhì)量最低.
表4 部分趣味成語(yǔ)
Table 4 Examples of facetious idioms
查詢字場(chǎng)景詞趣味成語(yǔ)羽羽絨服“羽”眾不同無(wú)“羽”倫比巾圍巾情不自“巾”“巾巾”有味鞋皮鞋一“鞋”千里齊心“鞋”力麥小麥一“麥”相傳含情“麥麥”甜巧克力巧奪“甜”工“甜”下第一
表4給出了生成的部分趣味成語(yǔ),從結(jié)果可以看出大部分成語(yǔ)趣味性較強(qiáng),與場(chǎng)景詞的語(yǔ)義相關(guān)度較大,趣味成語(yǔ)的質(zhì)量較好.
本文依據(jù)語(yǔ)音替換規(guī)則生成候選成語(yǔ)集合,從中提取語(yǔ)音、幽默、語(yǔ)義、情感和形態(tài)五個(gè)維度11個(gè)特征,并以此為基礎(chǔ),利用排序?qū)W習(xí)的相關(guān)算法,從候選成語(yǔ)集合中檢索趣味成語(yǔ),進(jìn)而構(gòu)建趣味成語(yǔ)的生成模型.該模型將成語(yǔ)生成問題映射到信息檢索領(lǐng)域,以查詢及相關(guān)反饋的技術(shù)解決生成問題.經(jīng)機(jī)器和人工的雙重評(píng)估,實(shí)驗(yàn)結(jié)果表明五個(gè)維度的特征能夠細(xì)致刻畫趣味成語(yǔ),區(qū)分度較好,生成質(zhì)量較高.
但我們的研究工作也存在一些不足,如很多近現(xiàn)代出現(xiàn)的查詢?cè)~與古代成語(yǔ)的相關(guān)度較低,生成質(zhì)量有待提高.另一方面,能否理解幽默與人類的常識(shí)高度相關(guān),而這部分幽默特征表示困難,還需要進(jìn)一步加強(qiáng).