亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于潛在語義特性的語義雙關(guān)語檢測及雙關(guān)詞定位

        2019-05-24 06:50:46刁宇峰林鴻飛樊小超
        中文信息學報 2019年4期
        關(guān)鍵詞:雙關(guān)語雙關(guān)語義

        刁宇峰,楊 亮,林鴻飛,吳 迪,樊小超,3,徐 博,許 侃

        (1. 大連理工大學 計算機科學與技術(shù)學院,遼寧 大連 116024;2. 內(nèi)蒙古民族大學 計算機科學與技術(shù)學院,內(nèi)蒙古 通遼 028043;3. 新疆師范大學 計算機科學技術(shù)學院,新疆 烏魯木齊 830054)

        0 引言

        雙關(guān)語是一種文字游戲,即利用一詞多義或者語音相似來達到多個含義的一種修辭方式[1]。在文學、演講和廣告語中,雙關(guān)語也是標準的修辭手段。例如,莎士比亞因為他的雙關(guān)語而聞名世界[2],甚至在非喜劇作品中雙關(guān)語也廣泛存在。眾所周知,雙關(guān)語作為一個廣泛研究的有趣對象,能夠洞察文字游戲和雙重含義的本質(zhì)性質(zhì)。

        雙關(guān)語分類任務(wù)在自然語言處理(NLP)領(lǐng)域中有重要的意義。例如,Redfern[3]將雙關(guān)語劃分為語義雙關(guān)語和諧音雙關(guān)語,前者主要解決同義詞的問題,后者主要解決同音詞的問題。這兩種雙關(guān)語都有其自身的特點,不能用同一種模式來區(qū)分兩種類型的雙關(guān)語。本文的研究主要集中于對語義雙關(guān)語的研究。然而,目前對語義雙關(guān)語的工作未從雙關(guān)語理論的基礎(chǔ)上進行系統(tǒng)的推導和解釋。

        本文的貢獻主要有三點: 第一,在雙關(guān)語的理論基礎(chǔ)上,針對語義雙關(guān)語,本文挖掘出不一致、模糊、情感因素和語言學四種潛在語義特性,并設(shè)計每個結(jié)構(gòu)下的特征集,提出一種有效的語義雙關(guān)語檢測模型;第二,在語義雙關(guān)語潛在語義特性的基礎(chǔ)之上,考慮到低維分布語義空間和同義詞信息,本文提出一種基于詞向量和同義詞融合的語義相似度算法,能夠有效地定位雙關(guān)詞;最后,在SemEval 2017 Task 7和Pun of the Day兩個數(shù)據(jù)集上,本文提出的方法在語義雙關(guān)語檢測和雙關(guān)詞定位兩個任務(wù)上均取得了較好的實驗性能。

        1 相關(guān)工作

        雙關(guān)語自古以來就在修辭學和文學批判等領(lǐng)域被廣泛使用和討論,近年來日益成為一個值得研究的課題。但是,在計算語言學和自然語言處理領(lǐng)域中類似的研究工作并不多[3]。本節(jié)主要回顧與雙關(guān)語相關(guān)的前人工作。

        對于語義雙關(guān)語的檢測,Kao等[4]提出了一種雙關(guān)語中幽默的計算模型,主要從模糊性和特殊性兩個維度檢測語義雙關(guān)句。Miller和Gurevych[5]提出了針對語義雙關(guān)語的多個含義進行詞義消歧的語義雙關(guān)語識別算法。Huang等[6]介紹了一種新的框架,主要考慮是把句子中的位置信息作為檢測語義雙關(guān)句的重要指標。然而,上述的語義雙關(guān)語檢測工作均沒有從理論的角度出發(fā),未對語義雙關(guān)語的本質(zhì)進行系統(tǒng)的推導和合理的解釋。

        對于雙關(guān)詞的定位,Doogan等提出的Idiom Savant系統(tǒng)[7]主要基于n-gram和詞向量,計算關(guān)聯(lián)度和候選雙關(guān)詞的得分以定位雙關(guān)詞。Vechtomova[8]等引入互信息等傳統(tǒng)特征,運用排序?qū)W習算法得到雙關(guān)詞。Indurthi和Oota[9]提出的Fermi系統(tǒng)主要計算句子中任意詞對的同義詞之間的相似度。然而,現(xiàn)有的雙關(guān)詞定位任務(wù)沒有從雙關(guān)的理論和本質(zhì)出發(fā),未充分考慮低維稠密語義空間和一詞多義的聯(lián)系。

        雙關(guān)語在幽默中也有很廣泛的應(yīng)用。Taylor和Mazlack[10]提出了一種基于固定句法上下文的n-gram識別算法來說明雙關(guān)語在英文笑話中的幽默效果。林鴻飛等[11]詳細闡述了幽默的多種基本理論和實際應(yīng)用,對于語義幽默的理解也給出了相應(yīng)的討論。但目前雙關(guān)語的識別還處于起步階段,未來還有很大的發(fā)展空間。盡管雙關(guān)語經(jīng)常在各種場合中使用,但由于歧義性和復(fù)雜性,現(xiàn)有的成果并不能很好地進行處理和分析。

        2 語義雙關(guān)語的潛在語義特性及其特征

        本文將語義雙關(guān)語的檢測視作一個傳統(tǒng)的文本分類問題。首先,本文根據(jù)語義雙關(guān)語的相關(guān)理論,從四個方面制定了語義雙關(guān)語的潛在語義特性,分別是: (1)不一致特性;(2)模糊特性;(3)情感因素特性;(4)語言學特性。然后,針對每個潛在語義特性,本文設(shè)計了一系列的特征以有效地檢測語義雙關(guān)句。

        2.1 不一致特性

        語言學家Wales[12]指出,人們在說話時使用雙關(guān)語,其主要目的在于使用不同意思以達到不同的奇妙的反應(yīng)和效果。不一致特性由語境中的沖突和語義上的不連貫導致。雙關(guān)產(chǎn)生于兩種或兩種以上不協(xié)調(diào)不合適的狀態(tài)下,是一種復(fù)雜的組合方式。因此,不一致特性是產(chǎn)生雙關(guān)語這種語言學現(xiàn)象的重要原因之一。

        Eg1Money doesn’t grow on tree. But it blossoms at our #branches#.

        例1錢不能長在樹上。但是它可以在我們的#銀行#上開花。

        該句為雙關(guān)語,[branches]為雙關(guān)詞,一般是[樹枝]的意思,在該語境下意思為[銀行]。[Money doesn’t grow on tree]和[But it blossoms at our branches]產(chǎn)生一種與語境的沖突,是一種不一致特性,從而達到語義雙關(guān)語的效果。

        針對不一致特性,首先本節(jié)定義了兩類特征,間隔性和重復(fù)性,用以衡量一個句子中任意兩個詞對之間的語義距離。其次,不一致特性是一種語義上的不連貫,本節(jié)定義了語義連貫性來衡量語義雙關(guān)語中的語義距離。本節(jié)使用Word Embedding和n-gram語言模型來計算不一致特性。Word Embedding能夠充分展現(xiàn)低維稠密空間下的語義信息,能夠更好地表示語義雙關(guān)語的潛在語義信息,這里使用Word2Vec[注]https://code.goole.com/p/word2vec工具。同時,n-gram語言模型是一種能夠發(fā)現(xiàn)語句中詞與詞之間關(guān)聯(lián)性的規(guī)律信息,本文使用KenLM工具來訓練n-gram語言模型,使用的外部語料來自開源的新聞?wù)Z料(Brown語料集)。

        ① 間隔性: 衡量句子中任意兩個詞之間的最大語義距離,使用 Word2Vec詞向量計算詞與詞之間的余弦相似度。

        ② 重復(fù)性: 衡量句子中任意兩個詞之間的最小語義距離。

        ③ 語義連貫性: 衡量句子的語義連貫性,使用KenLM工具對n-gram語言模型打分。

        2.2 模糊特性

        模糊特性是指句子中的一個詞具有多個含義[13],起到模糊歧義的作用,是很多語義雙關(guān)語的關(guān)鍵成分[5]。雙關(guān)語可以使一個詞關(guān)系到不同的方面和角度,雙關(guān)詞具有本身的字面意思,由于受到上下文語境的影響,一個詞的多個可能的含義能夠讓人們產(chǎn)生不同的理解,以達到模糊的效果和突出的目的。

        Eg2Before he sold Christmas trees, he got himself #spruced# up.

        例2在他賣圣誕樹之前,他將自己#打扮得整齊漂亮#。

        該例句為語義雙關(guān)語,[spruced]為雙關(guān)詞,該詞有[云杉樹]的意思,還有[使自己或事物看上去整齊和漂亮]的意思。

        本節(jié)使用詞匯資源WordNet[注]http://www.nltk.org/howto/wordnet.html來計算句子的模糊特性。雙關(guān)語主要由句子中的內(nèi)容詞(名詞、動詞、形容詞和副詞)構(gòu)成[1],稱之為候選雙關(guān)詞。本文使用NLTK詞性標注工具來識別候選雙關(guān)詞,用以體現(xiàn)雙關(guān)語中的模糊性[1]。結(jié)合詞性信息來計算一個詞的語義分散度PSD,如式(1)所示。

        Spos表示句子中具有相同詞性的詞的同義詞(sysnet)集合(s0,s1,...,sn),P(|Spos|,2) 表示兩個同義詞集合中任意組合的個數(shù),d(Si,Sj)表示同義詞Si和Sj在WordNet之間的上位距離。

        ① 最遠語義距離: 根據(jù)句子中相應(yīng)的詞性集合,計算任一詞義的最遠語義距離。

        ② 平均語義距離: 計算句子中任一詞義的平均語義距離。

        ③ 最近語義距離: 計算句子中任一詞義的最近語義距離。

        2.3 情感因素特性

        雙關(guān)語能夠產(chǎn)生委婉、含蓄、幽默的語言效果。Van Mulken[14]等人發(fā)現(xiàn),經(jīng)常使用雙關(guān)語以達到幽默的效果,會讓觀眾對廣告中的產(chǎn)品增加更正面的看法和積極的認同感。因此,語義雙關(guān)語與情感因素有密切的關(guān)系。

        Eg3The two guys caught drinking battery acid will soon be #charged#.

        例3這兩個喝電池酸液的家伙很快就會被#起訴#。

        該句為語義雙關(guān)語,[charged]為雙關(guān)詞,具有強烈的情感色彩。語義雙關(guān)語中的雙關(guān)詞表現(xiàn)出一定的情感色彩,所關(guān)聯(lián)的正面或者負面的傾向性都是人們在情感上的真實反映。

        本節(jié)使用開放資源SenticNet[15]識別詞級別的情感。該資源提供情感極性(polarity)和情感學(sentics),可以充分地衡量詞匯的主觀性和情感信息。

        ① 情感極性: 計算所有詞的情感極性分值的總和、情感極性分值的平均值、情感極性分值絕對值的總和以及情感極性分值絕對值的平均值。

        ② 情感學: 從情感學的總分、平均分、絕對值總分和絕對值平均分四個維度來表示情感學特征。

        2.4 語言學特性

        本節(jié)主要采用語言學特性進行分析,從詞性、位置、句子長度和語義信息四個方面設(shè)計了有效的特征。

        (1) 詞性信息

        Eg4Boyle said he was under too much #pressure#.

        例4波義耳說他承受的#壓力#太大了。

        該句為語義雙關(guān)句,[pressure]是雙關(guān)詞,為名詞。根據(jù)詞性信息,可以影響語義雙關(guān)語檢測。具體的特征如下所示。

        ① 候選雙關(guān)詞數(shù)量: 計算句子中的各類候選雙關(guān)詞的數(shù)量。

        ② 候選雙關(guān)詞占比: 計算各類候選語義雙關(guān)詞在句子中的占比。

        (2) 位置信息

        Eg5Here is how the track meet is going to #run#.

        例5這里是賽道如何#運行#的說明。

        該句為語義雙關(guān)句,其中run為雙關(guān)詞,且位置在句子的后端。特征如下所示。

        ① 最大位置: 計算候選雙關(guān)詞集合在句子中的最大位置。

        ② 最小位置: 計算候選雙關(guān)詞集合在句子中的最小位置。

        ③ 平均位置: 計算候選雙關(guān)詞集合在句子中的位置的平均值。

        (3) 句子長度

        Barbieri和Saggion[16]提出句子的結(jié)構(gòu)信息能夠有效地衡量不同實體之間的差異。因此,句子的不同長度會影響語義雙關(guān)句的檢測。

        ① 句子長度: 計算句子的長度。

        ② 長度之差: 計算當前句子長度與句子平均長度的差值。

        (4) 語義信息

        本節(jié)定義句子間的搭配關(guān)系是同詞性候選雙關(guān)詞之間的語義關(guān)系,使用WordNet來計算候選雙關(guān)詞間的語義相似度。

        Eg6I used to be a banker but I lost #interest#.

        例6我過去是一個銀行家,但是我失去了#利益#。

        該句為語義雙關(guān)語,[ interest]為雙關(guān)詞,具有[利益]和[興趣]的含義,這里是[利益]的意思。本節(jié)通過計算[used]和[lost],[banker]和[interest]之間的語義相似度來檢測該句是否為語義雙關(guān)語。

        同樣,本節(jié)衡量候選詞之間的反義關(guān)系。如詞[fall]在WordNet中的反義詞有: [ascent],[rise],[ascend]和[increase]。特征如下所示。

        ① 最大語義相似度: 通過WordNet計算名詞與名詞、動詞與動詞、形容詞與形容詞、副詞與副詞之間的路徑相似度。

        ② 是否存在反義詞: 計算句子中的候選雙關(guān)詞在WordNet中是否具有反義詞。

        ③ 最大反義詞數(shù)量: 計算候選雙關(guān)詞在WordNet中的反義詞個數(shù)的最大值。

        ④ 平均反義詞數(shù)量: 計算候選雙關(guān)詞在WordNet中的反義詞個數(shù)的平均值。

        3 基于詞向量和同義詞融合的雙關(guān)詞定位

        每一條語義雙關(guān)語都包含一個雙關(guān)詞,本節(jié)需要給出線索并定位到哪個詞是雙關(guān)詞。本節(jié)將雙關(guān)詞定位歸結(jié)為一個無監(jiān)督匹配問題,提出LOCATION_PUN相似度匹配算法,如表1所示。該算法的輸入為每一條語義雙關(guān)語,輸出為具體的雙關(guān)詞。

        表1 LOCATION_PUN算法

        續(xù)表

        Eg7Getting rid of your boat for another could cause a whole #raft# of problems.

        例7把你的#船#換成另一艘船,可能會造成很多的問題。

        該例句為語義雙關(guān)語,其中[raft]為雙關(guān)詞,有[一批]和[船]的意思。

        通過語義雙關(guān)語的潛在語義特性可知,(1)語言學特性的位置信息: 雙關(guān)詞通常出現(xiàn)在語義雙關(guān)語的句尾;(2)語言學特性的詞性信息: 候選雙關(guān)詞通常為名詞、動詞、形容詞和副詞;(3)模糊特性: 雙關(guān)詞在WordNet中有至少兩個詞義;(4)不一致特性的間隔性和重復(fù)性: 雙關(guān)詞與非雙關(guān)詞之間在低維稠密空間的語義關(guān)聯(lián)性不大。

        對于候選雙關(guān)詞與其他詞之間語義相似度的計算方式,本節(jié)使用詞向量和WordNet兩種方式。對于詞向量,使用Word2Vec和GloVe,語義距離采用余弦距離和編輯距離;對于WordNet,使用WordNet中的同義詞集合,利用Path Similarity計算候選詞的不同同義詞的相似度。最后,從詞向量和同義詞出發(fā),融合GloVe和Sysnet的方式計算語義相似度,最終定位雙關(guān)詞的位置。

        4 實驗與分析

        首先介紹實驗方面的設(shè)置,然后驗證本文提出的潛在語義特性在雙關(guān)語檢測任務(wù)中的性能,最后驗證LOCATION_PUN相似度匹配算法在雙關(guān)詞定位任務(wù)中的表現(xiàn)。

        4.1 實驗設(shè)置

        本節(jié)首先分析實驗使用的數(shù)據(jù)集,然后介紹具體的評價指標和基線方法,最后給出在模型訓練過程中的實現(xiàn)細節(jié)。

        (1) 數(shù)據(jù)集

        SemEval 2017[注]SemEval 2017 Task 7: http://alt.qcri.org/semeval2017/task7.Task 7: 該任務(wù)主要檢測和定位語義雙關(guān)句,包括語義雙關(guān)句和諧音雙關(guān)句兩部分。本文主要關(guān)注語義雙關(guān)句,子任務(wù)一是檢測語義雙關(guān)句,每條語料至多含有一個雙關(guān)表達;子任務(wù)二是定位雙關(guān)詞,每條語料均為語義雙關(guān)句,需要線索定位哪個詞為雙關(guān)詞。

        Pun of the Day[注]Pun of the Day: http://www.punoftheday.com/.: 該網(wǎng)站的數(shù)據(jù)用于檢測語義雙關(guān)句,其正例來源于日常的用戶,為了構(gòu)建平衡的數(shù)據(jù)集進而獲取合適的負例,該數(shù)據(jù)集從以下四個網(wǎng)站收集負例: AP News[注]AP News: http://hosted.ap.org/dynamic/fronts/HOME?SITE=AP.、New York Times、Yahoo!Answer[注]Yahoo!Answer: http://answers.yahoo.com/.和Proverb。統(tǒng)計分析見表2。

        表2 數(shù)據(jù)集SemEval 2017 Task 7和 Pun of the Day的統(tǒng)計信息

        數(shù)據(jù)集正例負例平均長度正例平均長度負例平均長度Task 7(子任務(wù)一,語義雙關(guān)語)160764313.113.910.8Pun of the Day2403240313.512.213.8

        (2) 評價指標

        對于語義雙關(guān)語的檢測任務(wù),本文的評價指標與SemEval 2017 Task 7任務(wù)一的評價方法一致,采用準確率、召回率和F1值指標。

        對于語義雙關(guān)詞定位任務(wù),本文與SemEval 2017 Task 7子任務(wù)二的評價指標一致,采用覆蓋率、準確率、召回率和F1值指標。

        (3) 基線方法

        對于語義雙關(guān)語的檢測任務(wù),本文設(shè)置了如下的基線方法。

        ? Bag of Words(BOW): 主要捕獲句子中的詞序關(guān)系信息,檢測是否為語義雙關(guān)句。

        ? Language Model(LM): 在統(tǒng)計學的基礎(chǔ)上,通過句子中詞的概率分布計算對應(yīng)的雙關(guān)概率值,不需要訓練集和訓練語料。

        ? AVGWord2Vec: 根據(jù)潛在語義分布表示,將句子的任意詞對應(yīng)的詞向量相加取平均值。

        ? HPCF: 將本文提出的四個潛在語義特性定義為語義雙關(guān)語核心特征(homographic puns core features,簡稱HPCF)。

        ? AVGWord2Vec_HPCF: HPCF和AVGWord2Vec結(jié)合在一起使用,性能已超過基線方法。

        對于語義雙關(guān)詞的定位任務(wù),本文設(shè)置了如下的基線方法。

        ? Idiom Savant: 該方法采用Word2Vec計算候選詞的得分,使用WordNet提供的gloss vector計算關(guān)聯(lián)度,在SemEval 2017 Task 7任務(wù)二評測中取得了第一名的成績。

        ? UWaterloo: 該方法引入互信息等特征,運用得分公式進行排序,從而得到雙關(guān)詞,在SemEval 2017 Task 7中排名第二。

        ? Fermi: 計算詞與詞的同義詞之間的相似度,在SemEval 2017 Task 7中排名第三。

        ? LOCATION_PUN: 本文提出的基于詞向量和同義詞融合的語義相似度匹配算法,用于定位語義雙關(guān)詞,取得了最好的性能。

        (4) 實驗細節(jié)

        對于語義雙關(guān)句的檢測任務(wù),本文采用5倍交叉驗證來進行實驗,使用60%的數(shù)據(jù)訓練模型,使用20%的數(shù)據(jù)調(diào)參,使用20%的數(shù)據(jù)進行預(yù)測。訓練Word2Vec詞向量維度的語料來自Wiki,分別對比了維度100、200、300,最終選擇300維。本文使用GBDT這個基于決策樹的方法作為分類算法,與文獻[17]一致。

        對于雙關(guān)詞的定位任務(wù),本文使用GloVe[注]GloVe: https://nlp.stanford.edu/projects/glove/詞向量,分別對比了維度50、100、200,最終選擇100維,使用WordNet提供的同義詞集,本文對比了余弦距離和編輯距離兩種相似度算法,最終選擇了余弦距離算法。

        4.2 語義雙關(guān)語檢測

        將本文提出的基于潛在語義特性的檢測方法與基線方法進行對比,具體結(jié)果見表3。

        (1) HPCF主要包括不一致、模糊、情感因素和語言學共計四個潛在語義特性,在語義雙關(guān)語檢測任務(wù)中,其性能優(yōu)于BOW和LM方法。這充分驗證了基于雙關(guān)語理論提出的潛在語義特性是合理且有效的。HPCF的結(jié)果高于LM,表明潛在語義特性消除了領(lǐng)域之間的差異, 從而更精確地檢測語義雙關(guān)句。HPCF的結(jié)果高于BOW,表明潛在語義特性能夠更合理地理解詞在句子中出現(xiàn)的順序。

        表3 語義雙關(guān)語檢測任務(wù)中不同方法結(jié)果對比

        (2) BOW_HPCF是融合BOW和HPCF的算法,在兩個數(shù)據(jù)集上的結(jié)果均高于BOW和HPCF方法。這個結(jié)果表明BOW_HPCF方法可以充分地表示潛在語義信息和句子中的詞序順序。但是BOW_HPCF的結(jié)果不如AVGWord2Vec_HPCF,因為前者僅涉及了充足的潛在語義特性信息,而沒有考慮分布式語義信息。

        (3) AVGWord2Vec_HPCF在語義雙關(guān)語檢測任務(wù)中,在Pun of the Day數(shù)據(jù)集上,取得了0.91的最優(yōu)F1值。原因在于該方法充分考慮到潛在語義特性和分布式低維稠密語義信息的關(guān)系。而在SemEval 2017 Task 7的任務(wù)一中,除了BOW_HPCF取得了最高的召回率之外,其他結(jié)論幾乎是一致的。從這些結(jié)果可以看出,本文提出的潛在語義特性能夠深刻地理解語義雙關(guān)語。

        在SemEval 2017 Task 7中最佳的系統(tǒng)Fermi[9,18],該方法同樣將語義雙關(guān)語檢測看作一種有監(jiān)督的分類問題,使用深度學習模型中的循環(huán)神經(jīng)網(wǎng)絡(luò)來訓練分類器,F(xiàn)1值達到0.899。因此,未來本文也將嘗試使用現(xiàn)有的深度學習方法來解決這類問題。

        本文針對提出的潛在語義特性進行展開實驗,分析每個潛在語義特性對語義雙關(guān)句檢測的影響。對于上述的兩個數(shù)據(jù)集,使用統(tǒng)一的分類器GBDT來驗證上述不同特性的表現(xiàn)。為了公平性,本文使用統(tǒng)一的參數(shù)設(shè)置。實驗結(jié)果如圖1所示。

        圖1 不同的潛在語義結(jié)構(gòu)對語義雙關(guān)語檢測任務(wù)的貢獻程度

        (1) 根據(jù)實驗結(jié)果,可以看出本文提出的潛在語義特性在兩個數(shù)據(jù)集上取得了類似的性能。語言學特性在SemEval 2017 Task 7任務(wù)一和Pun of the Day上均取得了最優(yōu)的實驗結(jié)果。原因在于語義雙關(guān)語的檢測與語言學特性中的位置信息、詞性信息、搭配信息和反義信息具有相當密切的聯(lián)系。

        (2) 在兩個數(shù)據(jù)集中,模糊特性取得了第二的效果,這表明大多數(shù)的語義雙關(guān)語都有著良好的句式結(jié)構(gòu)和多義性,具有難以理解和分析的特點。從圖1中可以看出,在Pun of the Day數(shù)據(jù)集中,情感因素特性性能表現(xiàn)最差,原因在于人類的情感表達,尤其是語義雙關(guān)句中的情感信息是難以挖掘和分析的。

        (3) 與Pun of the Day數(shù)據(jù)集的結(jié)論不同,在SemEval 2017 Task 7任務(wù)一中,不一致特性取得了最差的結(jié)果,原因在于不協(xié)調(diào)、不和諧的含義使人們難以找到和理解豐富有用的信息。潛在語義特性在兩個數(shù)據(jù)集上有不同的表現(xiàn)結(jié)果,這表明語義雙關(guān)句的潛在語義特性在不同數(shù)據(jù)集上會有不同的潛在語義表示信息。

        4.3 語義雙關(guān)詞定位

        本文選取SemEval 2017 Task 7的任務(wù)二作為數(shù)據(jù)集,提出一種基于詞向量和同義詞融合的相似度匹配算法,即LOCATION_PUN算法來定位語義雙關(guān)詞,實驗結(jié)果如表4所示。

        由表4可知,本文的LOCATION_PUN算法在雙關(guān)詞定位任務(wù)的所有指標中均取得了最優(yōu)的性能,其F1值超過評測的Idiom Savant近3.4%。原因有兩點: 第一,本文提出的潛在語義特性對語義雙關(guān)詞定位任務(wù)是有效的,如語言學特性的位置、詞性信息,不一致特性的間隔性和重復(fù)性,以及模糊特性;第二,在潛在語義特性的基礎(chǔ)之上,本文從低維語義空間和傳統(tǒng)詞典提供的同義詞兩個角度入手,提出了詞向量和同義詞融合的方式,既考慮了詞共現(xiàn)的分布式語義空間表示,又結(jié)合了WordNet提供的同義詞信息。

        表4 語義雙關(guān)詞定位任務(wù)中不同方法的結(jié)果對比

        下面,本文詳細地對LOCATION_PUN算法進行分析,衡量維度有: 語言學潛在語義特性(是否考慮位置信息和詞性信息,Linguistics)、模糊特性(是否考慮同義詞信息,Sysnet)和不一致特性(是否考慮Word2Vec/GloVe詞向量),均使用余弦相似度算法進行對比,實驗結(jié)果如表5所示。

        表5 語義雙關(guān)詞定位任務(wù)中不同維度的結(jié)果對比

        從表5中,可以得到以下的結(jié)論。

        (1) Linguistics+Sysnet、Linguistics+Word2Vec的結(jié)果要分別高于Sysnet、Word2Vec,說明本文提出的語言學潛在語義特性的位置信息和詞性信息可以幫助定位語義雙關(guān)詞,從側(cè)面表明了該特性的有效性。

        (2) Linguistics+Word2Vec+Sysnet、Linguistics+GloVe+Sysnet的結(jié)果均高于Linguistics +Sysnet,說明不一致特性能夠幫助定位雙關(guān)詞,同時低維分布式語義空間對雙關(guān)詞的定位也有很大的影響,且GloVe的結(jié)果均優(yōu)于對應(yīng)的Word2Vec,說明了詞共現(xiàn)信息的有效性。

        (3) Linguistics+GloVe+Sysnet、Linguistics+Word2Vec+Sysnet的結(jié)果高于Linguistics +GloVe、語言學+Word2Vec,原因在于模糊特性提供的同義詞信息能夠合理地定位雙關(guān)詞。本文提出的方法(Linguistics+GloVe+Sysnet,即LOCATION_PUN算法)的結(jié)果最優(yōu),在位置信息和詞性信息的基礎(chǔ)上,考慮了低維分布式語義空間和Sysnet,充分融合了詞向量和同義詞的信息,能夠合理高效地定位語義雙關(guān)句中的雙關(guān)詞。

        5 結(jié)論與未來工作

        本文的研究工作旨在檢測語義雙關(guān)語和定位雙關(guān)詞。基于雙關(guān)語的理論基礎(chǔ)之上,挖掘了四個潛在語義特性,針對每個特性設(shè)計了有效特征集,用以檢測語義雙關(guān)語。在雙關(guān)詞定位任務(wù)方面,本文從潛在語義特性出發(fā),提出一種基于詞向量和同義詞融合的無監(jiān)督語義相似度匹配算法。在兩個數(shù)據(jù)集上得到的實驗結(jié)果表明,本文提出的潛在語義特性具有足夠的檢測語義雙關(guān)語的能力,能夠準確地定位雙關(guān)詞。

        在未來工作中,本文將嘗試探索更高效的特征來體現(xiàn)語義雙關(guān)的特點,并結(jié)合深度學習算法來檢測語義雙關(guān)句,運用無監(jiān)督方法、弱監(jiān)督方法來實現(xiàn)定位雙關(guān)詞的工作。

        猜你喜歡
        雙關(guān)語雙關(guān)語義
        感悟“雙關(guān)”修辭 提高習作能力
        甘肅教育(2020年20期)2020-04-13 08:05:22
        語言與語義
        概念整合理論視角下的雙關(guān)語認知
        時代人物(2019年29期)2019-11-25 01:35:20
        雙關(guān)
        意林(2016年14期)2016-08-18 22:10:59
        “上”與“下”語義的不對稱性及其認知闡釋
        雙關(guān)語的隨附性解釋
        外語學刊(2016年4期)2016-01-23 02:34:05
        認知范疇模糊與語義模糊
        也說雙關(guān)語的解讀機制*——兼談最佳關(guān)聯(lián)推定策略的細化
        外語學刊(2014年6期)2014-04-18 09:11:46
        英漢雙關(guān)語中鉸鏈詞數(shù)量差異對翻譯的影響
        雙關(guān)語翻譯簡析
        无码Av在线一区二区三区| 国产一区二区三区av观看| 国产内射视频在线观看| 亚洲性av少妇中文字幕| 成人偷拍自拍视频在线观看| 人妻av有码中文字幕| 国产精品无码一区二区三区| 亚洲va久久久噜噜噜久久男同| 97久久天天综合色天天综合色hd| 1000部精品久久久久久久久| 熟妇无码AV| 视频精品亚洲一区二区 | 人妻无码aⅴ不卡中文字幕| 日韩国产成人精品视频| 日韩人妻有码中文字幕| 黄色国产精品福利刺激午夜片 | 婷婷亚洲岛国热超碰中文字幕| 亚洲av片在线观看| av一区二区三区人妻少妇| 亚洲精品综合第一国产综合| 无人视频在线播放在线观看免费| 91久久国产露脸国语对白| 蜜桃一区二区三区视频| 极品白嫩的小少妇| 性色av一区二区三区| 中文天堂在线www| 久久99老妇伦国产熟女高清| 国产精品av免费网站| 精品国产日韩亚洲一区在线| 久久av粉嫩一区二区| 久久精品国产亚洲超碰av| 精品无码国产一区二区三区av| 亚洲精品自产拍在线观看| 亚洲av乱码专区国产乱码| 日本高清在线一区二区三区| 91九色视频在线国产| 成人a级视频在线播放 | 在线国产激情视频观看| 精品久久人妻av中文字幕| 国产精品无圣光一区二区| 国产精品99久久国产小草|