朱蘇陽, 李壽山, 周國棟
(蘇州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 蘇州 215008)
情緒分析(emotion analysis)作為一種細(xì)粒度的情感分析(sentiment analysis)任務(wù),旨在判別自然語言文本中所蘊(yùn)含的情緒,是自然語言處理領(lǐng)域中的研究熱點(diǎn)[1-3].一條文本中通常包含兩類情緒:作者情緒(作者以什么樣的情緒寫下這條文本)和讀者情緒(讀者看到這條文本會產(chǎn)生什么樣的情緒).而情緒分析可進(jìn)一步分為以下兩個(gè)任務(wù).
1) 情緒分類(emotion classification).通過分類模型判別輸入文本所屬的情緒類別(emotion category).例如,例句1(取自Yao等人[2]的作者情緒分類語料庫)表達(dá)了一種開心(happiness)的作者情緒.
2) 情緒回歸(emotion regression).通過回歸模型對輸入文本的情緒維度(emotion dimension)進(jìn)行打分.其中,情緒維度一般是多維的,包括極性(valence,簡稱V)、強(qiáng)度(arousal,簡稱A)以及可控性(dominance,簡稱D).例如,例句 2(取自 Buechel等人[4]的多維度情緒回歸語料庫 EMOBANK)的 3個(gè)作者情緒維度分?jǐn)?shù)(V,A,D)=(2.4,3.6,2.8).
例句1:時(shí)間真的過的好快,我從一個(gè)未成年到奔三了,感謝一路上很多人,感謝我認(rèn)識你們大家,謝謝你們.
例句 2:You see, Nathan, there is …separate from your society …oh damn it.(你懂的,內(nèi)森,有這樣的人…與你的社會所隔絕…哦,該死的.)
情緒分類的研究工作開始得較早,有許多相關(guān)工作,包括傳統(tǒng)的基于統(tǒng)計(jì)模型的方法和最新的基于神經(jīng)網(wǎng)絡(luò)模型的方法.例如,Yang等人[5]利用情感詞典作為外部語言資源訓(xùn)練SVM分類器來判別博客文本所屬的情緒類別.Tripathi等人[6]利用深度卷積神經(jīng)網(wǎng)絡(luò)判別文本的情緒類別.然而,由于缺乏公認(rèn)的情緒分類體系(emotion taxonomy),不同的情緒分類語料庫大多會采用不同的情緒分類體系,其分類體系中包含的情緒類別也不盡相同.例如,例句1所在語料庫使用的是基于Ekman[7]的6類情緒分類體系之上設(shè)計(jì)的7類情緒分類體系,而例句1若在Huang等人[8]所使用的情緒體系下則會被標(biāo)注為正面復(fù)合(positive complex)的作者情緒.因此,基于單一語料庫的情緒分類任務(wù)所訓(xùn)練的分類模型很難簡單復(fù)用到使用其他情緒分類體系的語料庫上[9].
與情緒分類相比,情緒回歸任務(wù)受限于回歸任務(wù)的難度和情緒回歸語料庫的缺乏,相關(guān)研究起步較晚.情緒回歸語料庫相比于情緒分類語料庫的一大優(yōu)勢在于,其多使用公認(rèn)的在心理學(xué)上用于描述情緒的極性-強(qiáng)度模型(valence-arousal model)[10]對語料進(jìn)行情緒維度分?jǐn)?shù)的標(biāo)注.Buechel等人[4]在極性-強(qiáng)度模型的基礎(chǔ)上將其拓展為極性-強(qiáng)度-可控性模型(valence-arousal-dominance model),并基于這一模型構(gòu)建了一個(gè)包含超過10 000條樣本的多維度情緒回歸語料庫EMOBANK.本文致力于在該語料庫上進(jìn)行多維度的情緒回歸研究.
近年來,基于神經(jīng)網(wǎng)絡(luò)的方法在許多自然語言處理任務(wù)中都取得了較好的成果.例如,句法分析[11,12]、情感分析[13,14]、信息抽取[15,16]、機(jī)器翻譯[17,18]等.在神經(jīng)網(wǎng)絡(luò)的相關(guān)研究中,生成式對抗網(wǎng)絡(luò)(generative adversarial network,簡稱 GAN)通過對抗式學(xué)習(xí)(adversarial learning)來訓(xùn)練能夠生成接近真實(shí)樣本的生成器[19].基于對抗式學(xué)習(xí)的學(xué)習(xí)框架在圖像處理領(lǐng)域中已經(jīng)取得了很好的成果[20,21],在自然語言處理領(lǐng)域也被初步應(yīng)用到文本生成任務(wù)中去[22,23],這是一種很有潛力的學(xué)習(xí)框架.并且,該學(xué)習(xí)框架可被應(yīng)用到全監(jiān)督、半監(jiān)督以及無監(jiān)督的機(jī)器學(xué)習(xí)任務(wù)中.
目前,將對抗式學(xué)習(xí)框架應(yīng)用于分類任務(wù)的相關(guān)研究還較少[24,25],而應(yīng)用于回歸任務(wù)的研究則更為罕見.本文提出一種基于對抗式神經(jīng)網(wǎng)絡(luò)的多維度情緒回歸方法.本文提出的方法包括對抗式神經(jīng)網(wǎng)絡(luò)(adversarial neural network)模型和對抗學(xué)習(xí)算法.對抗式神經(jīng)網(wǎng)絡(luò)包含特征抽取器、回歸器、判別器這3個(gè)部分,通過聯(lián)合訓(xùn)練多個(gè)特征抽取器和回歸器,以對輸入文本的不同情緒維度進(jìn)行打分.而對抗學(xué)習(xí)算法借由判別器在不同的特征抽取器之間進(jìn)行對抗式訓(xùn)練,從而獲得能夠抽取出泛化性更強(qiáng)的針對不同情緒維度的特征抽取器,以提高情緒回歸的性能.在EMOBANK多維度情緒回歸語料上的實(shí)驗(yàn)結(jié)果表明,本文的方法優(yōu)于其他基準(zhǔn)系統(tǒng)和領(lǐng)域內(nèi)先進(jìn)系統(tǒng),在EMOBANK新聞?lì)I(lǐng)域和小說領(lǐng)域的情緒回歸上均取得了較好的性能.
本文第1節(jié)介紹情緒分析和對抗式神經(jīng)網(wǎng)絡(luò)模型的相關(guān)工作.第2節(jié)詳細(xì)描述本文提出的對抗式神經(jīng)網(wǎng)絡(luò)模型以及對抗學(xué)習(xí)算法.第 3節(jié)介紹 EMOBANK語料庫以及實(shí)驗(yàn)設(shè)置,并對實(shí)驗(yàn)結(jié)果進(jìn)行詳細(xì)分析.最后,第 4節(jié)給出本文的結(jié)論并展望未來工作.
本節(jié)首先介紹情緒分類與情緒回歸的相關(guān)研究,然后給出對抗式神經(jīng)網(wǎng)絡(luò)模型的相關(guān)研究工作.
情緒分類研究的主流為基于語料庫的方法.隨著互聯(lián)網(wǎng)的發(fā)展,許多研究者通過各類在線社交平臺用戶發(fā)布的文本構(gòu)建情緒語料庫.Mishne等人[1]從在線博客平臺LiveJournal的815 494篇博客文章中構(gòu)建情緒分類語料庫.Pak等人[26]從Twitter用戶發(fā)布的推文(tweets)中構(gòu)建情緒分類語料庫.Yao等人[2]和Huang等人[8]分別從新浪微博與騰訊微博中構(gòu)建中文情緒分類語料庫.除情緒分類語料庫的建設(shè)之外,情緒詞典(emotion lexicon)的構(gòu)建也是重要的語料庫構(gòu)建工作.Xu等人[27]利用同義詞詞典、語義詞典等語言資源,通過基于圖規(guī)則的方法構(gòu)建包含 5類情緒的情緒詞典.Yang等人[28]提出了一種情緒意識隱狄利克雷分布模型(emotion-aware LDA model)來構(gòu)建特定領(lǐng)域的情緒詞典.
根據(jù)輸入文本的粒度,情緒分類任務(wù)可以分為文檔級(document-level)情緒分類和句子級(sentence-level)情緒分類.基于傳統(tǒng)方法的文檔級情緒分類包括以下代表性工作:Mishne等人[1]利用LiveJournal的博客文章訓(xùn)練SVM分類器來對博客文檔情緒進(jìn)行分類.Yang等人[5]借助情感詞典等外部語言資源訓(xùn)練SVM分類器與CRF序列標(biāo)注器在博客文章上進(jìn)行情緒分類任務(wù).Lin等人[29]在雅虎新聞(Yahoo! News)上進(jìn)行讀者情緒分類的研究.新聞的讀者情緒由新聞末尾的讀者情緒投票結(jié)果確定.基于傳統(tǒng)方法的句子級情緒分類主要依靠情緒詞典確定句子包含的情緒,包括以下的代表性工作:Amam等人[30]提出了一種基于知識庫的句子級情緒識別方法.Mohammad等人[31]對情緒詞對句子情緒的影響進(jìn)行了研究.他們使用了基于 Word Net與NRC-10語料的情緒詞典輔助訓(xùn)練最大熵分類器與SVM分類器,用以識別句子的情緒.Das等人[32]在Bengali博客上識別句子級的情緒.他們首先識別句子中所包含的情緒詞,之后利用情緒詞典確定這些情緒詞所屬的情緒類別,最后綜合確定句子的情緒.
近年來,基于神經(jīng)網(wǎng)絡(luò)的方法也被應(yīng)用到情緒分類的任務(wù)中去.Bertero等人[33]提出一種基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,簡稱CNN)的模型來對交互對話系統(tǒng)中的實(shí)時(shí)對話情緒進(jìn)行分類.文獻(xiàn)[33]給出的實(shí)驗(yàn)結(jié)果表明,使用單層卷積神經(jīng)網(wǎng)絡(luò)配合最大池化(max-pooling)的特征抽取方法便能夠取得較好的分類準(zhǔn)確率.Felbo等人[34]提出了一種基于雙向長短期記憶網(wǎng)絡(luò)(bi-directional long short term memory,簡稱Bi-LSTM)的方法在8個(gè)基準(zhǔn)數(shù)據(jù)集上進(jìn)行情緒分類任務(wù)研究.除了雙向長短期記憶網(wǎng)絡(luò)之外,Felbo等人還利用推特中的情緒表情符號輔助訓(xùn)練模型,使之能夠從文本中抽取出包含更豐富的情緒信息的特征,并在所有基準(zhǔn)數(shù)據(jù)集上都取得了先進(jìn)的性能.Abdul-Mageed等人[3]提出了一種基于循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,簡稱RNN)的情緒分類模型EmoNet.該方法結(jié)合了循環(huán)神經(jīng)網(wǎng)絡(luò)與遠(yuǎn)程監(jiān)督(distant supervision)方法對未標(biāo)注數(shù)據(jù)進(jìn)行自動標(biāo)注,并在他們自己收集的包含24類情緒的語料上取得了87.58%的準(zhǔn)確率.
上述情緒分類研究大多采用不同的情緒分類語料庫,而這些語料庫往往使用不同的情緒分類體系.因此使用這些方法訓(xùn)練的分類模型無法直接應(yīng)用到其他語料庫上,而是需要在新的語料上重新訓(xùn)練模型.此外,由于情緒分類任務(wù)本質(zhì)上是將文本特征通過模型映射到離散的標(biāo)簽空間中去,因此,若所使用的情緒標(biāo)簽種類較少,則無法進(jìn)一步進(jìn)行更加細(xì)粒度的情緒分析.大量增加情緒標(biāo)簽會大幅度提高每一類數(shù)據(jù)的稀疏性,而克服這一稀疏性需要耗費(fèi)大量的人力標(biāo)注成本.
與情緒分類任務(wù)相比,受限于回歸任務(wù)本身的難度和情緒回歸語料庫的缺乏,情緒回歸任務(wù)研究的起步較晚.Yu等人[35]實(shí)現(xiàn)了一種基于帶權(quán)圖(weighted graph)的詞語級情緒回歸模型.該方法通過帶權(quán)圖來建模多個(gè)情緒詞節(jié)點(diǎn)之間的關(guān)系與相似度,從而給情感詞的極性-強(qiáng)度分?jǐn)?shù)進(jìn)行打分.該方法在中文和英文的情感詞典上的詞語級情緒回歸任務(wù)中的性能均優(yōu)于線性回歸(linear regression)、核方法(kernel method)以及 Pagerank算法.Wang等人[36]提出了一種局部卷積神經(jīng)網(wǎng)絡(luò)-長短期記憶網(wǎng)絡(luò)(regional CNN-LSTM)的文檔級情緒回歸模型.該方法將一段文本劃分為多個(gè)局部,并通過卷積神經(jīng)網(wǎng)絡(luò)抽取每個(gè)局部的特征.抽取得到的特征經(jīng)過融合后,經(jīng)由一個(gè)長短期記憶網(wǎng)絡(luò)來預(yù)測整個(gè)文本的極性-強(qiáng)度分?jǐn)?shù).在多個(gè)語料上的實(shí)驗(yàn)結(jié)果表明,該方法優(yōu)于傳統(tǒng)的基于詞典的方法以及基于單層卷積神經(jīng)網(wǎng)絡(luò)和單層長短期記憶網(wǎng)絡(luò)的方法.Buechel等人[37]在SemEval 07語料上探討了將極性-強(qiáng)度-可控性分?jǐn)?shù)映射為SemEval 07語料所使用的Ekman這6類情緒類別標(biāo)簽的可行性.他們首先人工地為SemEval 07語料標(biāo)注了極性-強(qiáng)度-可控性分?jǐn)?shù),之后通過k近鄰算法構(gòu)建情緒分?jǐn)?shù)和情緒標(biāo)簽之間的映射,并取得了較好的準(zhǔn)確率.
在相關(guān)語料庫的構(gòu)建方面,現(xiàn)有的情緒回歸語料庫數(shù)量極少,并且語料庫規(guī)模大多較小.Preo?iuc-Pietro等人[38]收集Facebook用戶發(fā)布的信息,構(gòu)建了規(guī)模為2 895條文本的英文情緒回歸語料庫.Yu等人[39]發(fā)布了一個(gè)規(guī)模為2 009條句子的中文情緒回歸語料庫.該語料庫的文本數(shù)據(jù)源自多個(gè)在線平臺.由Buechel等人[4]標(biāo)注的EMOBANK語料庫是目前罕有的包含樣本數(shù)超過10 000的大規(guī)模多領(lǐng)域情緒回歸語料庫.
與情緒分類相比,情緒回歸所使用的語料庫在標(biāo)注上都采用心理學(xué)上公認(rèn)的極性-強(qiáng)度模型或極性-強(qiáng)度-可控性模型.因此,這些方法訓(xùn)練的模型具有較好的普適性.此外,由于情緒回歸任務(wù)本質(zhì)上是將文本特征通過模型映射到連續(xù)的情緒分?jǐn)?shù)空間中去,因此適合進(jìn)行更細(xì)粒度的情緒分析任務(wù).
基于神經(jīng)網(wǎng)絡(luò)的對抗式學(xué)習(xí)方法是目前深度學(xué)習(xí)的熱點(diǎn)之一.這類方法最早源自 Goodfellow等人[19]提出的GAN模型.GAN模型由兩部分組成:生成器G和判別器D,并使用對抗式學(xué)習(xí)算法來訓(xùn)練這兩部分.G的輸入通常為一組滿足正態(tài)分布的隨機(jī)噪音,輸出為一張圖片;D的輸入為一張圖片,輸出為判別該圖片為原始數(shù)據(jù)集中的真實(shí)樣本還是由G生成的偽樣本.對抗式學(xué)習(xí)發(fā)生在G與D之間:G需要生成盡可能能夠欺騙D的圖片,而D需要盡可能判別出G所生成的樣本為偽樣本.GAN的目標(biāo)在于通過對抗式學(xué)習(xí)使得G能夠生成盡可能接近真實(shí)樣本分布的偽樣本.當(dāng)兩個(gè)網(wǎng)絡(luò)之間達(dá)到納什均衡時(shí)模型收斂.GAN的優(yōu)點(diǎn)在于G的輸入可以任意采樣,并且整個(gè)模型在實(shí)現(xiàn)上可以使用任何可微模型,但同時(shí)也存在眾多缺陷.在 GAN的基礎(chǔ)上,研究者們嘗試解決該方法的不足,許多衍生模型被提了出來,并在圖像處理領(lǐng)域取得了較好的效果.Mirza等人[20]提出了條件式GAN(conditional GAN,簡稱CGAN)來解決GAN生成樣本不具可控性的缺陷.CGAN在G和D的輸入上分別增加了一個(gè)條件信號作為輔助輸入以實(shí)現(xiàn)對生成數(shù)據(jù)的控制.CGAN在MNIST手寫數(shù)字圖像數(shù)據(jù)集上用0~9的數(shù)字符號作為輔助的條件輸入,通過實(shí)驗(yàn)表明這一改進(jìn)能夠生成指定的質(zhì)量較好的手寫數(shù)字圖像.Radford等人[21]探索了G與D的具體實(shí)現(xiàn),通過窮舉法發(fā)現(xiàn),分別用4層卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)的G與D能夠獲得較好的生成效果,并在 MNIST和亞洲人臉數(shù)據(jù)集(Asian face dataset)上通過實(shí)驗(yàn)證明了這一點(diǎn).Arjovsky等人[40]提出的Wasserstein GAN(WGAN)則進(jìn)一步解決了 GAN訓(xùn)練不穩(wěn)定、缺少一個(gè)具體的數(shù)值來指示訓(xùn)練進(jìn)程的缺陷.WGAN最主要的改進(jìn)在于使用真實(shí)樣本分布于生成樣本分布之間的Wasserstein距離來取代原始GAN中使用的兩個(gè)分布之間的簡森-香農(nóng)散度作為判別器D的損失函數(shù),從而避免了當(dāng)兩個(gè)分布之間沒有重疊或重疊很小時(shí),D的損失函數(shù)值無法度量兩個(gè)分布之間的真實(shí)距離.在具體實(shí)現(xiàn)中,兩個(gè)分布之間的Wasserstein距離通過一個(gè)全連接層的神經(jīng)網(wǎng)絡(luò)來近似擬合而得到.
除了圖像生成之外,近年來,基于神經(jīng)網(wǎng)絡(luò)的對抗式學(xué)習(xí)算法也被應(yīng)用到其他任務(wù)中去.在自然語言處理領(lǐng)域,該方法在文本生成的任務(wù)上取得了一定的研究進(jìn)展.Zhang等人[22]、Zhao等人[23]均使用卷積神經(jīng)網(wǎng)絡(luò)、長短期記憶網(wǎng)絡(luò)等模型構(gòu)建GAN進(jìn)行文本生成實(shí)驗(yàn),并能夠生成比較接近自然語言的文本語句.除了文本生成任務(wù)外,該方法還被應(yīng)用到分類任務(wù)上.Wu等人[24]分別使用卷積神經(jīng)網(wǎng)絡(luò)與循環(huán)神經(jīng)網(wǎng)絡(luò)構(gòu)造兩種 GAN模型,在紐約時(shí)報(bào)語料與華盛頓大學(xué)語料兩個(gè)數(shù)據(jù)集上進(jìn)行關(guān)系抽取實(shí)驗(yàn),并探討了這兩種實(shí)現(xiàn)的優(yōu)劣.Liu等人[25]利用對抗式學(xué)習(xí)框架構(gòu)建了兩個(gè)基于長短期記憶網(wǎng)絡(luò)的分類模型進(jìn)行多任務(wù)文本分類.對抗式學(xué)習(xí)發(fā)生在兩個(gè)分類網(wǎng)絡(luò)之間.在Liu等人收集的16個(gè)不同的文本分類數(shù)據(jù)集上的實(shí)驗(yàn)證明了這一方法在分類準(zhǔn)確率上超過了其他單任務(wù)的深度神經(jīng)網(wǎng)絡(luò)模型.近兩年來,有研究者利用對抗式學(xué)習(xí)算法的特點(diǎn),將其用于跨領(lǐng)域的文本分類任務(wù)之中.Li等人[41]與Peng等人[42]先后提出基于對抗式學(xué)習(xí)算法的神經(jīng)網(wǎng)絡(luò)模型,利用判別器對輸入文本所屬領(lǐng)域進(jìn)行判別,以此從來自源領(lǐng)域的輸入文本中學(xué)習(xí)更接近目標(biāo)領(lǐng)域的特征,用于訓(xùn)練針對目標(biāo)領(lǐng)域測試集的文本分類器.這兩種方法均在Yelp多領(lǐng)域情感分類數(shù)據(jù)集上取得了優(yōu)于傳統(tǒng)跨領(lǐng)域?qū)W習(xí)的分類性能.
本節(jié)詳細(xì)描述了我們所提出的基于對抗式神經(jīng)網(wǎng)絡(luò)的多維度情緒回歸方法.首先,給出多維度情緒回歸任務(wù)的定義.接著,介紹本文提出的對抗式神經(jīng)網(wǎng)絡(luò)模型的框架與每一部分的具體實(shí)現(xiàn),包括特征抽取器、回歸器以及判別器的具體實(shí)現(xiàn).最后,介紹本文在訓(xùn)練模型時(shí)所使用的對抗式學(xué)習(xí)算法.
本文在 EMOBANK多領(lǐng)域情緒回歸語料上進(jìn)行多維度情緒回歸任務(wù).首先,記整個(gè)語料庫為X={x1,x2,…,xn},其中,n為語料庫容量.對于語料庫中第i個(gè)文本輸入xi,本文的模型最終輸出該文本的包含極性-強(qiáng)度-可控性情緒分?jǐn)?shù)的三元組yi=(Vi,Ai,Di),其中,xi為由第i個(gè)文本中詞語的詞向量序列組成的詞向量矩陣,Vi、Ai、Di分別對應(yīng)文本xi包含的極性(valence)分?jǐn)?shù)、強(qiáng)度(arousal)分?jǐn)?shù)、可控性(dominance)分?jǐn)?shù).最后,記整個(gè)語料庫X對應(yīng)的輸出為Y={y1,y2,…,yn}.
關(guān)于詞向量的訓(xùn)練,本文在EMOBANK語料庫上使用Skip-gram算法[43]預(yù)先訓(xùn)練詞向量查找表E∈?d|V|,其中,d為詞向量的維度,V為EMOBANK包含的單詞的集合.對于第i個(gè)文本,文本中的每個(gè)單詞通過查表的方式轉(zhuǎn)換為詞向量:
其中,ei為第i個(gè)詞對應(yīng)的詞向量,wi為第i個(gè)詞的單熱點(diǎn)表示.此時(shí)可得到詞向量矩陣xi=[e1,e2,…,ek]T,其中,k為每個(gè)文本的固定序列長度.對于長度小于k的文本,本文采用隨機(jī)正態(tài)初始化的方法構(gòu)建不足部分的詞向量添加于序列首部;對于長度大于k的文本,本文從序列尾部開始截?cái)喑龅牟糠?k作為模型的超參,其具體設(shè)置將在實(shí)驗(yàn)部分另作介紹.
本文實(shí)現(xiàn)了一種對抗式神經(jīng)網(wǎng)絡(luò)模型,用于實(shí)現(xiàn) 3個(gè)維度之間的兩兩對抗學(xué)習(xí).以極性和強(qiáng)度兩個(gè)維度間的對抗為例,模型的框架圖如圖1所示.
模型由 3部分組成:特征抽取器(ExtV、ExtA)、回歸器(RV、RA)、判別器(D).特征抽取器用于抽取文本中針對不同維度的特征向量.抽取的特征向量被輸入到相應(yīng)的回歸器中以對情緒維度進(jìn)行打分.為了抽取具有維度特定性且泛化性更好的特征,兩個(gè)維度的特征抽取器之間通過判別器進(jìn)行對抗式學(xué)習(xí).判別器用于判斷抽取的特征屬于何種維度.特征抽取器不僅通過常規(guī)的有監(jiān)督訓(xùn)練來學(xué)習(xí)抽取具有維度特性的特征,還通過欺騙判別器來學(xué)習(xí)抽取泛化性更好的特征.
除圖 1所示的極性-強(qiáng)度對抗模型之外,本文還實(shí)現(xiàn)了極性-可控性、強(qiáng)度-可控性的對抗模型.其中包括輸出可控性特征FeatD的可控性回歸器ExtD、輸出可控性分?jǐn)?shù)Di的可控性回歸器RD.判別器D的輸出Pi∈(-1,1)為輸入的特征屬于兩個(gè)維度中某一個(gè)的判別分?jǐn)?shù).本文在此分別定義了3個(gè)對抗模型中判別器D輸出的判別分?jǐn)?shù)Pi如下.
1) 在極性-強(qiáng)度對抗模型中,若Pi越接近1,則代表輸入特征越可能是極性特征;反之,若Pi越接近-1,則代表輸入特征越可能是強(qiáng)度特征.
2) 在極性-可控性對抗模型中,若Pi越接近1,則代表輸入特征越可能是極性特征;反之,若Pi越接近-1,則代表輸入特征越可能是可控性特征.
3) 在強(qiáng)度-可控性對抗模型中,若Pi越接近1,則代表輸入特征越可能是強(qiáng)度特征;反之,若Pi越接近-1,則代表輸入特征越可能是可控性特征.
為方便起見,在本節(jié)剩下的內(nèi)容中,若不作特殊說明,則均以極性-強(qiáng)度模型為例來解釋模型的詳細(xì)實(shí)現(xiàn).
自然語言處理領(lǐng)域中的許多研究表明,長短期記憶網(wǎng)絡(luò)(long short term memory,簡稱LSTM)能夠從文本中抽取富含信息量的特征[3,35,37].Hochreiter等人[44]提出的LSTM是循環(huán)神經(jīng)網(wǎng)絡(luò)的一個(gè)變種模型.由于傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)在反向傳播梯度時(shí)存在梯度消失(gradient vanishment),因此,當(dāng)輸入序列較長時(shí),傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)會丟失一部分靠前的序列中的信息.LSTM在循環(huán)神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上引入LSTM單元(LSTM cell)來解決梯度消失的問題.LSTM單元由4部分組成:輸入門(input gate)i、輸出門(output gate)o、遺忘門(forget gate)f以及記憶單元(memory cell)c.給定詞向量矩陣xi=[e1,e2,…,ek]T,在t時(shí)刻LSTM單元的計(jì)算如下:
其中,et為t時(shí)刻LSTM單元的輸入,亦即輸入矩陣x中第t個(gè)行向量,ht為t時(shí)刻LSTM單元的輸出,σ表示sigmoid激活函數(shù),⊙表示點(diǎn)乘運(yùn)算符,W、U、V均表示 LSTM 單元的參數(shù)矩陣.輸入門控制每個(gè)記憶單元的更新信息.輸出門控制每個(gè)記憶單元的輸出信息.遺忘門控制每個(gè)記憶單元在時(shí)間t時(shí)刻丟棄的信息.c?t表示t時(shí)刻記憶單元的候選值.ct根據(jù)t-1時(shí)刻的記憶單元狀態(tài)ct-1和t時(shí)刻的候選值c?t計(jì)算得到.
作為模型的原始輸入,詞向量矩陣xi輸入LSTM之后,計(jì)算得到輸出序列H=[h1,h2,…,hk]T.由于最后一個(gè)時(shí)刻k的計(jì)算實(shí)際上取決于時(shí)刻1~k-1的輸出,因此,在過去的研究中大多選用hk作為LSTM所抽取的序列中的特征向量.為了從文本中獲取更加豐富的信息,本文另對輸出序列H進(jìn)行平均池化(average pooling)操作.
平均池化后得到的輸出向量與hk進(jìn)行拼接操作后通過tanh激活函數(shù)得到特征抽取器最終輸出的特征向量Feat為
圖2給出了特征抽取器的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu).在極性-強(qiáng)度模型中,特征抽取器抽取詞向量矩陣xi中的極性特征與強(qiáng)度特征的計(jì)算流程定義如下:
回歸器接收特征抽取器所抽取的輸入文本特征作為輸入,用于對輸入文本某個(gè)情緒維度的分?jǐn)?shù)進(jìn)行打分.本文所提出的對抗式模型并不限制回歸器部分的具體實(shí)現(xiàn),因此,只要模型每個(gè)部分的梯度能夠在網(wǎng)絡(luò)中傳遞,回歸器既可以是基于傳統(tǒng)方法的回歸器,也可以是任何可微神經(jīng)網(wǎng)絡(luò)模型構(gòu)成的回歸器.本文為了突出對抗式學(xué)習(xí)在訓(xùn)練特征抽取器上的優(yōu)越性,僅使用簡單的單層全連接神經(jīng)網(wǎng)絡(luò)層作為回歸器的實(shí)際實(shí)現(xiàn)方式.
其中,W表示全連接層的參數(shù),b為偏置項(xiàng),h為全連接層的隱層狀態(tài),relu表示Relu激活函數(shù).最終輸出為某個(gè)情緒維度的分?jǐn)?shù)S.在極性-強(qiáng)度模型中,回歸器的計(jì)算流程定義如下:
判別器接收特征抽取器輸出的文本中的特征作為輸入,以判別抽取的特征是屬于哪個(gè)情緒維度的特征.判別器在對抗式學(xué)習(xí)算法中起著重要的作用,模型不同部分之間的對抗均通過判別器來進(jìn)行.在判別器的實(shí)現(xiàn)上,本文參照了Arjovsky等人[40]在WGAN上的工作,使用兩個(gè)特征分布之間的Wasserstein距離來指示判別器的訓(xùn)練程度.相比于原始GAN中使用JS散度作為判別器的損失函數(shù),Wasserstein距離在兩個(gè)分布沒有重疊或重疊很小的時(shí)候也能夠度量兩個(gè)分布之間的距離,從而為判別器的訓(xùn)練提供更加平滑的量度來衡量模型的訓(xùn)練水平.在實(shí)際實(shí)現(xiàn)中,本文使用單層全連接層來近似擬合Wasserstein距離.
其中,W表示全連接層的參數(shù),b為偏置項(xiàng),h為全連接層的隱層狀態(tài),tanh表示雙曲正切激活函數(shù).最終輸出為判別結(jié)果P.在極性-強(qiáng)度模型中,判別器的計(jì)算流程定義如下:
本文提出一種對抗式學(xué)習(xí)算法來訓(xùn)練對抗式神經(jīng)網(wǎng)絡(luò).該算法首先通過最小化以下的回歸損失函數(shù)來訓(xùn)練特征抽取器ExtV和ExtA、回歸器RV和RA.在具體實(shí)現(xiàn)上,本文采用均方誤差作為回歸的損失函數(shù).
其中,FeatVi和FeatAi分別代表第i個(gè)樣本的極性特征和強(qiáng)度特征.最后,對抗式學(xué)習(xí)算法通過最小化以下判別誤差達(dá)到欺騙判別器的效果,從而再次訓(xùn)練特征抽取器ExtV和ExtA.
算法 1給出了詳細(xì)的在一輪學(xué)習(xí)中使用對抗式學(xué)習(xí)訓(xùn)練整個(gè)網(wǎng)絡(luò)的算法.模型在若干輪學(xué)習(xí)后收斂.其中,該算法在訓(xùn)練判別器時(shí)將判別器的參數(shù)的絕對值進(jìn)行了裁剪.根據(jù)Arjovsky等人[40]在WGAN上的工作,進(jìn)行判別器的參數(shù)裁剪是為了使判別器這一可微網(wǎng)絡(luò)滿足 Lipschitz連續(xù)性(Lipschitz continuity)條件,從而能夠使用該網(wǎng)絡(luò)的輸出結(jié)果來近似擬合Wasserstein距離.t作為模型的可調(diào)超參,它的取值將在本文實(shí)驗(yàn)部分給出.
算法1.對抗式學(xué)習(xí)算法.
(1) 從訓(xùn)練集中順序選取N條訓(xùn)練數(shù)據(jù)XN={x1,x2,…,xN}.
(2) 利用XN,根據(jù)訓(xùn)練樣本所標(biāo)注的兩個(gè)維度的情緒分?jǐn)?shù)分別訓(xùn)練特征抽取器ExtV和ExtA、回歸器RV和RA.更新ExtV、ExtA、RV、RA的參數(shù).
(3) 利用XN,訓(xùn)練判別器D.更新D的參數(shù).ExtV、ExtA的參數(shù)保持不變.
(4) 將更新后D的參數(shù)的絕對值裁剪到一個(gè)不大于t的值.
(5) 利用XN,通過欺騙D再次訓(xùn)練ExtV和ExtA.更新ExtV和ExtA的參數(shù).D的參數(shù)保持不變.
(6) 重復(fù)(1)~(5),直至整個(gè)訓(xùn)練集的樣本被取完.
本節(jié)首先介紹所使用的情緒回歸語料庫 EMOBANK.之后給出實(shí)驗(yàn)的設(shè)置,包括衡量情緒回歸性能的指標(biāo)、模型中的超參設(shè)置.然后介紹實(shí)驗(yàn)中所使用的基準(zhǔn)系統(tǒng),以與本文提出的方法進(jìn)行對比實(shí)驗(yàn).本文使用的外部工具也在本節(jié)中相應(yīng)部分給出.最后,給出詳細(xì)的實(shí)驗(yàn)結(jié)果,包括具體的回歸性能與結(jié)果分析.
本文使用 EMOBANK語料庫[4]來驗(yàn)證我們所提出的基于對抗式神經(jīng)網(wǎng)絡(luò)的多維度情緒回歸方法.該語料庫的數(shù)據(jù)源自兩個(gè)公開語料庫:SemEval07:task 14(http://nlp.cs.swarthmore.edu/semeval/tasks/task14/data.shtml)與MASC(http://www.anc.org/data/masc/corpus/)語料庫,人工標(biāo)注了共6個(gè)領(lǐng)域的英文文本的10 325條讀者情緒和10 279條作者情緒,由多個(gè)標(biāo)注者分別對文本的3個(gè)情緒維度:極性、強(qiáng)度、可控性進(jìn)行讀者情緒和作者情緒打分,分?jǐn)?shù)區(qū)間為[1.0,5.0].EMOBANK中的讀者情緒和作者情緒的文本數(shù)量并不相同,這說明語料庫在標(biāo)注時(shí)有少量文本未作讀者情緒或作者情緒的標(biāo)注.表1給出了EMOBANK包含的文本數(shù)量在各領(lǐng)域上的分布.由于本文不涉及跨領(lǐng)域情緒回歸的研究,而不同領(lǐng)域文本的相同情緒維度的特征分布存在一定的不同,因此本文僅在樣本數(shù)最多的兩個(gè)領(lǐng)域:新聞?lì)I(lǐng)域與小說領(lǐng)域上分別進(jìn)行實(shí)驗(yàn).
Table 1 Genre distribution of EMOBANK corpus表1 EMOBANK語料各領(lǐng)域文本數(shù)量的分布
表2給出了EMOBANK語料庫的主要統(tǒng)計(jì)數(shù)據(jù).從表中可以看出,無論是讀者情緒還是作者情緒,3個(gè)情緒維度的標(biāo)注分?jǐn)?shù)平均值都在3.00上下.而情緒分?jǐn)?shù)的標(biāo)準(zhǔn)差較低,樣本的情緒分?jǐn)?shù)大多落于區(qū)間[2.3,3.7]上.
Table 2 Statistics of EMOBANK corpus表2 EMOBANK語料庫的統(tǒng)計(jì)數(shù)據(jù)
EMOBANK中文本平均長度約為15個(gè)單詞,而文本長度的標(biāo)準(zhǔn)差較大.由于本文提出的神經(jīng)網(wǎng)絡(luò)模型的輸入需要保證每個(gè)詞向量矩陣的行列相等,因此會預(yù)先將文本長度調(diào)整到等長.為了既不丟失絕大多數(shù)文本中的信息,也不在較短文本中加入過多的空白填充,本文在實(shí)驗(yàn)中將文本長度k統(tǒng)一設(shè)置為37(均值+兩倍標(biāo)準(zhǔn)差).
除了文本長度與情緒分?jǐn)?shù)的計(jì)量之外,本文還使用了配對雙樣本t檢驗(yàn)來考察文本兩兩情緒維度分?jǐn)?shù)之間是否存在顯著差異.從表 2中可以看出,除了極性與可控性兩個(gè)維度的讀者情緒之外,剩余兩兩組合之間的差異性均相當(dāng)明顯.不同維度情緒分?jǐn)?shù)間的明顯差異說明了在EMOBANK上的多維度的情緒回歸任務(wù)本身具有意義.
本文在EMOBANK的新聞與小說領(lǐng)域上分別進(jìn)行讀者情緒與作者情緒回歸的5倍交叉驗(yàn)證,并使用皮爾森相關(guān)系數(shù)(Pearson’s correlation coefficient,用r表示)與均方誤差(mean square error,簡稱MSE)作為評估指標(biāo).
若系統(tǒng)在測試集上的r越高,MSE越低,則說明系統(tǒng)性能越好.本文在評估各方法性能時(shí)優(yōu)先考慮皮爾森相關(guān)系數(shù)r,而MSE作為輔助參考指標(biāo).此外,本文使用配對雙樣本t檢驗(yàn)來檢驗(yàn)本文方法與基準(zhǔn)系統(tǒng)性能之間的差異是否顯著.實(shí)驗(yàn)中各超參的設(shè)置在表 3中給出.本文使用 gensim工具包(https://radimrehurek.com/gensim/)的word2vec訓(xùn)練詞向量查找表,使用skipgram算法在新聞和小說領(lǐng)域的語料上分別進(jìn)行無監(jiān)督訓(xùn)練.
Table 3 Setting of hyper parameters during experimentation表3 實(shí)驗(yàn)中超參的設(shè)置
為充分證明我們提出的方法在 EMOBANK上進(jìn)行多維度情緒回歸任務(wù)的優(yōu)越性,本文進(jìn)行了以下基準(zhǔn)系統(tǒng)與所提方法的比較.
1) SVR(BOW):該基準(zhǔn)系統(tǒng)使用了Smola等人[48]提出的基于支持向量機(jī)的回歸器(support vector regerssor,簡稱 SVR).SVR被廣泛地應(yīng)用到自然語言處理的回歸任務(wù)中,并被認(rèn)為是該領(lǐng)域的先進(jìn)回歸系統(tǒng)之一[49].該系統(tǒng)使用文本的詞袋模型(bag-of-words)作為輸入特征.
2) SVR(TF-IDF):該系統(tǒng)與基準(zhǔn)系統(tǒng)1)相同,使用SVR作為回歸器.與1)的不同之處在于,該系統(tǒng)以文本中單詞的TF-IDF度量作為輸入特征.
3) SVR(W2V):該系統(tǒng)與基準(zhǔn)系統(tǒng)1)相同,使用 SVR作為回歸器.與1)的不同之處在于,該系統(tǒng)以文本中單詞的詞向量之和作為輸入特征.該系統(tǒng)所使用的詞向量查找表與本文提出的方法相同.
4) ANN:該系統(tǒng)由Bitvai等人[50]提出.其基本結(jié)構(gòu)為使用多層并聯(lián)的卷積神經(jīng)網(wǎng)絡(luò)抽取文本中的多個(gè)n元文法(n-gram)特征.該方法被應(yīng)用于對電影評論的情感極性回歸任務(wù)中,亦被認(rèn)為是自然語言處理領(lǐng)域中的先進(jìn)回歸系統(tǒng)之一.本文所實(shí)現(xiàn)的該系統(tǒng)采用3層并聯(lián)卷積神經(jīng)網(wǎng)絡(luò),分別抽取文本中的一元文法(uni-gram)、二元文法(bi-gram)、三元文法(tri-gram)特征.抽取的 3種特征經(jīng)過拼接后輸入到一層全連接層來進(jìn)行回歸任務(wù).該系統(tǒng)的輸入特征與本文提出的方法相同,為文本的詞向量矩陣.
5) LSTM:該系統(tǒng)為基于長短期記憶網(wǎng)絡(luò)的回歸器.與本文提出的方法相比,該系統(tǒng)僅使用圖 2所描述的模型抽取文本特征,再以抽取的文本特征作為輸入,使用第 2.4節(jié)所描述的回歸器進(jìn)行文本回歸任務(wù).該系統(tǒng)的輸入特征與本文提出的方法相同,為文本的詞向量矩陣.
6) C-LSTM:該系統(tǒng)由 Zhou等人[51]提出,為文本分類任務(wù)上的先進(jìn)系統(tǒng).本文通過修改模型最后一層的激活函數(shù),將該方法應(yīng)用到文本回歸的任務(wù)中.該方法組合了卷積神經(jīng)網(wǎng)絡(luò)以及長短期記憶網(wǎng)絡(luò),首先利用卷積神經(jīng)網(wǎng)絡(luò)將句子轉(zhuǎn)換為短語級特征,再將短語級特征輸入到長短期記憶網(wǎng)絡(luò)中進(jìn)行分類任務(wù).該系統(tǒng)的輸入特征與本文提出的方法相同,為文本的詞向量矩陣.
此外,本文提出的對抗式神經(jīng)網(wǎng)絡(luò)簡稱為AdvNN.
表4給出了AdvNN與其他基準(zhǔn)系統(tǒng)在新聞?lì)I(lǐng)域上的情緒回歸性能.由于本文實(shí)驗(yàn)采用5倍交叉驗(yàn)證,評估結(jié)果為每次驗(yàn)證結(jié)果的平均值.此外,表5進(jìn)一步給出了3種情緒維度兩兩組合:極性-強(qiáng)度、極性-可控性以及強(qiáng)度-可控性3個(gè)模型的詳細(xì)性能.以極性-強(qiáng)度模型為例,表中維度1表示前一維度——極性維度回歸性能,維度2表示后一維度——強(qiáng)度維度回歸性能.表4中AdvNN的每個(gè)維度的性能取自表5中各組合中皮爾森相關(guān)系數(shù)r最高的一項(xiàng),例如讀者情緒的極性維度在極性-可控性模型中的回歸結(jié)果的r值較極性-強(qiáng)度模型中的r值更高,因此,表4中記錄該最優(yōu)r值以及相應(yīng)的MSE值.
Table 4 The performances of various approach on the News domain表4 各種方法在新聞?lì)I(lǐng)域上的情緒回歸性能
從表4可以看出:
1) 總體而言,在新聞?lì)I(lǐng)域上,所有方法取得的r值都較低.最高的r值為AdvNN在讀者極性情緒上取得的0.353.作為參考,EMOBANK全領(lǐng)域上標(biāo)注者兩兩間標(biāo)注結(jié)果的平均r值約為0.6[4].由此可見,EMOBANK上的多維度情緒回歸任務(wù)是一個(gè)較難的任務(wù),不容易取得非常高的性能.注意到該領(lǐng)域上的作者強(qiáng)度情緒最高r值未超過0.1.造成這一結(jié)果的可能原因在于新聞?lì)I(lǐng)域文本的作者在撰寫相關(guān)文本時(shí)傾向于不代入較強(qiáng)的情緒.例如,例句3的作者強(qiáng)度情緒為3.25,為中等強(qiáng)度,而讀者強(qiáng)度情緒為4.00,為較高強(qiáng)度.例句3作為一條典型的報(bào)道負(fù)面消息的新聞文本,能夠激發(fā)起讀者較強(qiáng)的負(fù)面情緒.而作者在撰寫這條文本時(shí)為了保證新聞的客觀性,相比讀者不會代入強(qiáng)烈的情緒(盡管例句3的作者情緒極性也為負(fù)面).同樣,例句4作為一條報(bào)道正面消息的新聞文本,其讀者強(qiáng)度情緒為較高的 3.80,而作者強(qiáng)度情緒為中等的 3.40.例句 5說明在讀者強(qiáng)度情緒較弱情況(2.00)下,作者情緒依然趨于中等(2.80).可見,在新聞?lì)I(lǐng)域上,作者情緒傾向于為一個(gè)適中的強(qiáng)度.
2) 與傳統(tǒng)方法(SVR)相比,一般的基于神經(jīng)網(wǎng)絡(luò)的回歸模型表現(xiàn)并無明顯優(yōu)勢.其中,ANN在所有基準(zhǔn)系統(tǒng)中的總體性能最差,各情緒維度的平均r值為0.163,低于其他基準(zhǔn)系統(tǒng).相比之下,SVR方法的平均r值在0.171上下,優(yōu)于ANN,相比LSTM取得的平均r值0.174亦無太大劣勢.而C-LSTM取得了基準(zhǔn)系統(tǒng)中最高的平均r值0.184,說明了文本分類任務(wù)中的先進(jìn)系統(tǒng)在回歸任務(wù)上亦能取得較好的效果.
3) 在新聞?lì)I(lǐng)域上,無論是讀者情緒還是作者情緒,AdvNN的最高r值均超過了其他所有基準(zhǔn)系統(tǒng)的r值.其中,在作者極性維度上的提升最多,較該維度上最強(qiáng)的基準(zhǔn)系統(tǒng) SVR(TF-IDF)提升了 0.027.AdvNN在作者強(qiáng)度維度回歸上的提升最小,較該維度上最強(qiáng)的基準(zhǔn)系統(tǒng)SVR(BOW)僅有0.001的提升.此外,AdvNN在新聞?lì)I(lǐng)域的平均r值達(dá)到0.207,亦超過了平均r值最高的基準(zhǔn)系統(tǒng)C-LSTM.從這一結(jié)果來看,同樣是在LSTM的基礎(chǔ)上實(shí)現(xiàn)的神經(jīng)網(wǎng)絡(luò)模型,使用了對抗式學(xué)習(xí)的AdvNN相比融合了卷積神經(jīng)網(wǎng)絡(luò)的C-LSTM在本文的任務(wù)上能夠進(jìn)一步學(xué)習(xí)文本中的情緒維度特征,從而提高系統(tǒng)性能.
4) 除r值之外,AdvNN在 MSE評估指標(biāo)下的表現(xiàn)也較為優(yōu)秀.除讀者強(qiáng)度、作者極性和作者強(qiáng)度之外,AdvNN均取得了最低的MSE值.盡管在作者強(qiáng)度維度上的r值提升較低,AdvNN與SVR(BOW)相比MSE下降了0.008,但總體而言,在該維度上的性能卻存在一定的提升.AdvNN取得了平均0.102的MSE值,亦低于所有基準(zhǔn)系統(tǒng)的平均MSE值.
例句3:Scam lures victims with free puppy offer.(騙局使用提供免費(fèi)的小狗的方式來引誘受害者.)
例句4:Kidnapped AP photographer freed in Gaza.(被綁架的美聯(lián)社攝影師在加扎被釋放.)
例句5:I feel bad for Jorge he's a good friend of mine, Bengie said.(本吉說到:我為霍赫感到難過,他是我的好朋友.)
Table 5 Detailed performances of AdvNNs for three combinations of emotion dimensions on the News domain表5 新聞?lì)I(lǐng)域上3種情緒維度組合的對抗式神經(jīng)網(wǎng)絡(luò)詳細(xì)性能
進(jìn)一步分析表5,可以發(fā)現(xiàn):
1) 除了強(qiáng)度-可控性模型中作者強(qiáng)度情緒的r值低于兩個(gè)基準(zhǔn)系統(tǒng)之外,各維度組合整體結(jié)果相比基準(zhǔn)系統(tǒng)均有一定的提升.其中,AdvNN在讀者強(qiáng)度情緒和作者極性情緒上的非最優(yōu)r值亦超過最強(qiáng)基準(zhǔn)系統(tǒng)至少0.019.
2) 除作者強(qiáng)度情緒外,其余情緒維度在不同組合下的平均r值亦超過相應(yīng)維度的最強(qiáng)基準(zhǔn)系統(tǒng)結(jié)果.盡管在大多數(shù)情緒維度上AdvNN的所有維度組合性能超過了最強(qiáng)基準(zhǔn)系統(tǒng),然而由于某些維度組合的r值提升幅度較小,如極性-強(qiáng)度模型的讀者情緒相比該維度最強(qiáng)基準(zhǔn)系統(tǒng) C-LSTM 僅有 0.002的r值提升.因此,盡管AdvNN在新聞?lì)I(lǐng)域上的各組合的最優(yōu)性能均超過了最強(qiáng)基準(zhǔn)系統(tǒng),但在個(gè)別情況下的提升并不穩(wěn)定.
3) AdvNN在作者強(qiáng)度情緒這一維度上的較低性能也進(jìn)一步證明,由于新聞文本自身的特性,新聞作者在撰寫相關(guān)文本時(shí)為了維持新聞的相對客觀性,并不會產(chǎn)生明顯的情緒強(qiáng)度上的波動,因而難以在該維度上取得較好的回歸結(jié)果.
表6給出了AdvNN與其他基準(zhǔn)系統(tǒng)在小說領(lǐng)域上的情緒回歸性能,具體結(jié)果亦為5倍交叉實(shí)驗(yàn)的平均值.表7進(jìn)一步給出了3種情緒維度兩兩組合的詳細(xì)性能.從表6中可以看出:
1) 與新聞?lì)I(lǐng)域相比,在小說領(lǐng)域上,所有方法取得的r值亦較低.而與新聞?lì)I(lǐng)域不同的是,小說領(lǐng)域的結(jié)果之中無很低(小于 0.1)的r值.造成這一結(jié)果的原因可能在于小說作者在撰寫文本時(shí)會代入一定程度的個(gè)人情緒.例如,例句6標(biāo)注了負(fù)面的讀者情緒和作者情緒,而讀者強(qiáng)度情緒和作者強(qiáng)度情緒分別為4.20與4.20,均為較強(qiáng)的情緒.而例句7的讀者強(qiáng)度情緒和作者強(qiáng)度情緒分別為2.67與2.20,均為較弱的情緒.由此可見,小說領(lǐng)域上的作者情緒與新聞?lì)I(lǐng)域上的不同,是和讀者情緒一樣會產(chǎn)生較為明顯的強(qiáng)度波動.因此,實(shí)驗(yàn)中所有系統(tǒng)相對來說在小說領(lǐng)域強(qiáng)度維度上的r值均高出新聞?lì)I(lǐng)域很多.此外,整體來看,所有系統(tǒng)取得的r值與新聞?lì)I(lǐng)域上一樣并不高,亦證明了EMOBANK語料上的多維度情緒回歸任務(wù)較難.
2) 不同于新聞?lì)I(lǐng)域,ANN在小說領(lǐng)域上的性能較好,其平均r值達(dá)到了 0.184,在基準(zhǔn)系統(tǒng)中僅次于C-LSTM的0.190.LSTM在小說領(lǐng)域上的表現(xiàn)明顯差于其他基準(zhǔn)系統(tǒng),平均r值僅為0.160,尤其是在讀者極性維度和讀者強(qiáng)度維度上與其他基準(zhǔn)系統(tǒng)相比有較大差距.而SVR在小說領(lǐng)域的性能依然穩(wěn)定,3種特征輸入得到的結(jié)果平均r值均在0.170以上,最高為SVR(TF-IDF)取得的0.182,進(jìn)一步證明了傳統(tǒng)的SVR在回歸任務(wù)中是不亞于一般的神經(jīng)網(wǎng)絡(luò)模型的先進(jìn)系統(tǒng).
3) AdvNN在小說領(lǐng)域上亦取得了所有情緒維度下最高的r值,并且在讀者情緒與作者情緒的所有維度下較r值最高的基準(zhǔn)系統(tǒng)有至少0.019的明顯提升.此外,AdvNN在小說領(lǐng)域的平均r值達(dá)到了0.219,亦超過了平均r值最高的基準(zhǔn)系統(tǒng)C-LSTM.在小說領(lǐng)域上的結(jié)果進(jìn)一步證明,AdvNN相比C-LSTM在本文的任務(wù)上能夠進(jìn)一步提升基于LSTM的神經(jīng)網(wǎng)絡(luò)回歸模型的性能.
4) 小說領(lǐng)域上,AdvNN在MSE評估指標(biāo)下的表現(xiàn)也較為良好,并在作者極性維度和作者強(qiáng)度維度中取得了最低的MSE值.除了在讀者可控性維度中的MSE值高出MSE值最低的基準(zhǔn)系統(tǒng)C-LSTM較多之外,在其他未取得最低 MSE值的情緒維度上相比該維度的最低值差距亦較小.然而與新聞?lì)I(lǐng)域不同的是,AdvNN在所有情緒維度下取得了0.124的平均MSE值,與SVR(TF-IDF)相同,略高于C-LSTM取得的0.122,總體而言并未取得最佳的MSE值.
Table 6 The performances of various approach on the Fictions domain表6 各種方法在小說領(lǐng)域上的情緒回歸性能
例句 6:She screamed I haven’t socialized with Terra’s elite for most of my life.(她尖叫到:我人生中大部分時(shí)間都沒能與地球的精英社交.)
例句7:The only other illumination came from a lurid moonlight filtered through thin branches and clouds casting its bone-pale glow onto the pine floorboards.(唯一的其他照明來自一縷透過稀薄的樹枝和云彩的月光,將其蒼白的光芒投射到松木地板上.)
進(jìn)一步分析表7,可以發(fā)現(xiàn):
1) 在小說領(lǐng)域上,AdvNN在所有維度上的非最優(yōu)r值依然高于最強(qiáng)基準(zhǔn)系統(tǒng),并未出現(xiàn)新聞?lì)I(lǐng)域上AdvNN在個(gè)別維度的非最優(yōu)r值低于基準(zhǔn)系統(tǒng)的情況.其中,讀者極性情緒、讀者可控性情緒以及作者極性情緒上AdvNN的非最優(yōu)r值相比最強(qiáng)基準(zhǔn)系統(tǒng)都有至少0.018的提升.
2) 各情緒維度在不同模型中的平均r值亦均超過相應(yīng)維度的最強(qiáng)基準(zhǔn)系統(tǒng)結(jié)果,其中,AdvNN在作者極性情緒上取得的平均r值達(dá)到0.239,相比該維度上的最強(qiáng)基準(zhǔn)系統(tǒng)SVR(TF-IDF)的提升達(dá)到非常顯著的0.030.
3) 通過上述結(jié)果可以看出,小說領(lǐng)域的文本由于領(lǐng)域的特性,其情緒分析的難度相對新聞?lì)I(lǐng)域較低.兩個(gè)領(lǐng)域上的結(jié)果對比說明了讀者在閱讀一段包含情緒的文本時(shí)并不受領(lǐng)域差異性的影響,對于情緒的表達(dá)會有較明顯的波動,使得情緒分析系統(tǒng)能夠較好地從文本中挖掘相關(guān)的特征來完成情緒回歸的任務(wù).而作者情緒則會較明顯地受領(lǐng)域差異性的影響,尤其是作者強(qiáng)度情緒.小說領(lǐng)域的作者情緒強(qiáng)度不同于新聞?lì)I(lǐng)域,作者不需要保持情緒上的客觀性,因此小說領(lǐng)域的作者強(qiáng)度情緒和讀者強(qiáng)度情緒一樣,能夠比較容易地被情緒回歸系統(tǒng)識別.
Table 7 Detailed performances of AdvNNs for three combinations of emotion dimensions on the Fictions domain表7 小說領(lǐng)域上3種情緒維度組合的對抗式神經(jīng)網(wǎng)絡(luò)詳細(xì)性能
除了上述的情緒回歸實(shí)驗(yàn)結(jié)果之外,我們進(jìn)一步給出了本文所提方法的輸出結(jié)果與r值最優(yōu)的基準(zhǔn)系統(tǒng)輸出結(jié)果之間的配對雙樣本t檢驗(yàn)結(jié)果.表8與表9分別給出了新聞與小說領(lǐng)域中各情緒維度上雙樣本t檢驗(yàn)的p值.與實(shí)驗(yàn)結(jié)果一樣,表8與表9中的p值亦為5倍交叉驗(yàn)證每一組測試集上輸出結(jié)果之間顯著性測試的平均值.
Table 8 Results of dependent t-test for paired samples between AdvNN and strongest baselines for each emotion dimension in the News domain表8 新聞?lì)I(lǐng)域上AdvNN與各情緒維度下最強(qiáng)基準(zhǔn)系統(tǒng)之間的配對雙樣本t檢驗(yàn)結(jié)果
Table 9 Results of dependent t-test for paired samples between AdvNN and strongest baselines for each emotion dimension in the Fictions domain表9 小說領(lǐng)域上AdvNN與各情緒維度下最強(qiáng)基準(zhǔn)系統(tǒng)之間的配對雙樣本t檢驗(yàn)結(jié)果
從表8所示結(jié)果可以看出,在新聞?lì)I(lǐng)域中,除了作者強(qiáng)度維度之外,本文提出的AdvNN相比各情緒維度上最強(qiáng)的基準(zhǔn)系統(tǒng)有顯著的性能提升(p<0.05).僅在作者強(qiáng)度維度上,AdvNN相比最強(qiáng)基準(zhǔn)系統(tǒng) SVR(BOW)的提升不明顯(p>0.05).而表 9的結(jié)果則表明,在小說領(lǐng)域中的所有情緒維度上,AdvNN相比各維度上的最強(qiáng)基準(zhǔn)系統(tǒng)均有顯著的性能提升.顯著性測試的結(jié)果表明,本文提出的AdvNN相比其他基準(zhǔn)系統(tǒng)不僅在r值評估指標(biāo)下有明顯的數(shù)值上的提升,并且這一提升具有統(tǒng)計(jì)顯著性,從而進(jìn)一步證明了AdvNN在EMOBANK語料中多維度情緒回歸任務(wù)上的優(yōu)越性.
本文針對多維度情緒回歸這一任務(wù)提出了一種基于對抗式神經(jīng)網(wǎng)絡(luò)的多維度情緒回歸方法.該方法包括了對抗式神經(jīng)網(wǎng)絡(luò)和對抗式學(xué)習(xí)算法.對抗式神經(jīng)網(wǎng)絡(luò)包括 3個(gè)部分:特征抽取器、回歸器以及判別器.以在一對情緒維度上進(jìn)行對抗式學(xué)習(xí)的情緒回歸模型為例,首先,本文實(shí)現(xiàn)了兩個(gè)基于 LSTM 神經(jīng)網(wǎng)絡(luò)模型的特征抽取器,以分別從輸入的文本詞向量矩陣中抽取與特定情緒維度相關(guān)的特征向量.其次,本文使用兩個(gè)基于全連接神經(jīng)網(wǎng)絡(luò)的回歸器,以分別根據(jù)特征抽取器輸出的特征對特定情緒維度進(jìn)行打分.最后,本文實(shí)現(xiàn)了一個(gè)基于全連接神經(jīng)網(wǎng)絡(luò)的判別器,以判別特征抽取器抽取的特征屬于哪個(gè)情緒維度.該方法借助判別器,在兩個(gè)情緒維度的特征抽取器之間通過對抗式學(xué)習(xí)算法進(jìn)行對抗式訓(xùn)練,從而使兩個(gè)特征抽取器能夠從文本輸入中抽取泛化性更好的針對不同情緒維度的特征向量,繼而獲得更好的回歸性能.在EMOBANK語料的新聞和小說兩個(gè)領(lǐng)域上的實(shí)驗(yàn)結(jié)果表明,無論是作者情緒回歸還是讀者情緒回歸,本文的方法在3個(gè)情緒維度上的r值均超過了所有的基準(zhǔn)系統(tǒng),其中包括了文本回歸領(lǐng)域中的先進(jìn)系統(tǒng) ANN.除了文本回歸先進(jìn)系統(tǒng)之外,本文還將文本分類領(lǐng)域的先進(jìn)系統(tǒng) C-LSTM 進(jìn)行修改后用于本文針對的多維度情緒回歸任務(wù)進(jìn)行比較,而本文提出的方法依然在所有情緒維度上取得了更好的r值.除實(shí)驗(yàn)結(jié)果之外,AdvNN與各情緒維度上最強(qiáng)的基準(zhǔn)系統(tǒng)間的顯著性測試也表明,AdvNN取得的性能提升具有統(tǒng)計(jì)上的顯著性,進(jìn)一步證明了AdvNN在EMOBANK新聞與小說領(lǐng)域上的多維度情緒回歸任務(wù)上的優(yōu)越性.
然而,本文的方法目前僅為兩個(gè)維度之間的對抗,并且在一些維度下取得的提升并不明顯(例如新聞?lì)I(lǐng)域上的作者強(qiáng)度情緒維度).此外,一些情緒維度的對抗組合取得的性能提升也并不非常理想,甚至有個(gè)別組合在某個(gè)情緒維度下取得的r值相比部分基準(zhǔn)系統(tǒng)有所下降.因此,我們未來的工作將首先集中于同時(shí)進(jìn)行三維度之間的對抗.此外,我們還將改進(jìn)對抗式學(xué)習(xí)框架與算法,例如引入共享參數(shù)的神經(jīng)網(wǎng)絡(luò)層來進(jìn)一步學(xué)習(xí)抽取不同維度間的公共特征,以期能夠在所有情緒維度對抗的組合上都取得穩(wěn)定且明顯的提升.