劉 鑫,祁瑞華,徐琳宏,陳 恒
(大連外國(guó)語(yǔ)大學(xué) 語(yǔ)言智能研究中心,遼寧 大連 116044)
E-mail:liuxin_szn@dlufl.edu.cn
互聯(lián)網(wǎng)背景下的大數(shù)據(jù)已成為推動(dòng)數(shù)字人文研究的重要力量,推特等社交媒體文本的情感傾向分析一直是自然語(yǔ)言處理的研究熱點(diǎn)[1].俄語(yǔ)作為聯(lián)合國(guó)官方語(yǔ)言之一、全球第八大語(yǔ)言,在東歐和中亞區(qū)域的17個(gè)國(guó)家被廣泛使用,將其作為母語(yǔ)或第二語(yǔ)言的總?cè)藬?shù)約為2.58億[2].社交媒體作為民眾交流觀點(diǎn)和表達(dá)情感的主要途徑之一,每天產(chǎn)生海量帶有主觀情感色彩的俄語(yǔ)短文本,歸納、分析和推理其中蘊(yùn)含的情感信息,有利于相關(guān)國(guó)家的商業(yè)決策制定、政治輿情分析和社會(huì)趨勢(shì)預(yù)測(cè)[3],對(duì)防范精準(zhǔn)政治營(yíng)銷,構(gòu)建和諧穩(wěn)定國(guó)際關(guān)系、推進(jìn)跨國(guó)和區(qū)域間經(jīng)貿(mào)、開(kāi)展合作共贏的“一帶一路”戰(zhàn)略具有重大價(jià)值.然而目前針對(duì)該領(lǐng)域的研究大多聚焦于地位強(qiáng)勢(shì)的英語(yǔ),多數(shù)分析工具均面向英語(yǔ)的特點(diǎn)設(shè)計(jì)和實(shí)現(xiàn),專門(mén)針對(duì)跨領(lǐng)域俄語(yǔ)情感分析的研究并不多見(jiàn)[4].部分研究試圖借助英語(yǔ)相關(guān)工具,獲取俄語(yǔ)英譯文的情感分析結(jié)果[5].然而,由于翻譯階段情感乃至語(yǔ)義的損失,分析階段又忽略了俄語(yǔ)自身特性,所以結(jié)果并不理想.
俄語(yǔ)社交媒體文本的情感分析主要存在兩大難點(diǎn):1)俄語(yǔ)自身語(yǔ)言特點(diǎn)使得文中經(jīng)常存在自由語(yǔ)序、一詞多義、復(fù)雜形態(tài)和非投影關(guān)系[6],增加了語(yǔ)義分析和情感提取的復(fù)雜性;2)社交媒體文本在傳遞信息、評(píng)價(jià)對(duì)象或表達(dá)觀點(diǎn)時(shí)具有口語(yǔ)化、俚語(yǔ)多、語(yǔ)言不規(guī)范和上下文信息不明顯等特點(diǎn),采用常見(jiàn)的情感分析方法難以獲得滿意的結(jié)果[1].
針對(duì)上述困難與俄文網(wǎng)絡(luò)用語(yǔ)的特點(diǎn),本文結(jié)合傳統(tǒng)方法和深度學(xué)習(xí)方法,完成如下工作:第2節(jié)梳理、分析和比較了近些年俄語(yǔ)情感分析的相關(guān)研究成果;第3節(jié)針對(duì)源自規(guī)則集、情感詞典等多角度提取的詞級(jí)和句級(jí)情感特征進(jìn)行分析、篩選和處理,從而基于俄語(yǔ)特點(diǎn)和情感常識(shí)[7]人工設(shè)計(jì)并初始化深度模型所需的特征向量;第4節(jié)結(jié)合卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)和自注意力機(jī)制(Self-attention)等多種深度學(xué)習(xí)技術(shù),建立基于自注意力機(jī)制的CNN-BiLSTM混合模型(Attention-based CNN- BiLSTM mixed Model,ACBM);第5節(jié)基于俄語(yǔ)推特文本(后面簡(jiǎn)稱推文)情感分類的實(shí)驗(yàn)結(jié)果,探討采用英譯文情感分析方案的可行性,對(duì)比了多種模型在各類詞級(jí)、句級(jí)特征加入前后的結(jié)果,并通過(guò)樣例分析證明本文模型能有效提升俄語(yǔ)推文的情感分析結(jié)果.
情感分析(Sentiment Analysis,SA)旨在識(shí)別非結(jié)構(gòu)化文本的主觀態(tài)度,主要任務(wù)之一是對(duì)相關(guān)作者觀點(diǎn)和傾向性的分類[3].目前,面向俄語(yǔ)的情感分析研究稀少,通常借鑒英語(yǔ)等語(yǔ)種的分析方法[4],結(jié)合俄語(yǔ)自身特點(diǎn)的相關(guān)研究明顯不足.現(xiàn)有對(duì)社交媒體文本的情感分析主要采用基于詞典、機(jī)器學(xué)習(xí)或深度學(xué)習(xí)的方法,尤其深度學(xué)習(xí)方法近年來(lái)在許多任務(wù)中表現(xiàn)突出[1,8].
基于詞典方法的核心模式是抽取情感判別規(guī)則和構(gòu)建情感詞典,即制定并匯總基于單詞、短語(yǔ)和句法結(jié)構(gòu)設(shè)計(jì)的判斷規(guī)則,并以情感詞典作為判斷情感極性的主要依據(jù).2015年,莫斯科國(guó)立大學(xué)Loukachevich團(tuán)隊(duì)[9]針對(duì)俄語(yǔ)在電信領(lǐng)域的文本特征,實(shí)現(xiàn)了基于規(guī)則集合的分類器,其F1高于SVM(support vector machine)和最大熵分類器,但該方法比較依賴語(yǔ)言或領(lǐng)域?qū)<业膹臉I(yè)經(jīng)驗(yàn)與個(gè)人能力,不僅規(guī)則集合的維護(hù)擴(kuò)展成本較高,而且難以制定適合多語(yǔ)言和跨領(lǐng)域的規(guī)則集合.2016年,Loukachevitch團(tuán)隊(duì)[10]針對(duì)跨領(lǐng)域問(wèn)題構(gòu)建了每個(gè)詞條具有4個(gè)情感級(jí)別的俄語(yǔ)通用情感詞典RuSentiLex,并基于該詞典在SentiRuEval-2016的推特信譽(yù)監(jiān)控任務(wù)中取得很好的結(jié)果.同年,喀山聯(lián)邦大學(xué)Tutubalina團(tuán)隊(duì)[11]針對(duì)SentiRuEval-2015中面向目標(biāo)的文本分類任務(wù),基于面向目標(biāo)的N-gram特征和詞匯情感值等統(tǒng)計(jì)結(jié)果,實(shí)現(xiàn)了情感詞典的自動(dòng)擴(kuò)展,該方法的最大熵分類器在精確率、召回率和F1等方面均高于人工構(gòu)建的詞典.基于詞典的情感分析方法雖能體現(xiàn)文本的非結(jié)構(gòu)化特征,但這類方法本質(zhì)上依賴判定規(guī)則和情感詞典的質(zhì)量,其優(yōu)劣程度基本取決于人工設(shè)計(jì)和先驗(yàn)知識(shí),很難涵蓋互聯(lián)網(wǎng)層出不窮的新詞和俄語(yǔ)復(fù)雜多樣的形態(tài).
特征工程是基于機(jī)器學(xué)習(xí)算法處理情感分類任務(wù)成敗的關(guān)鍵,實(shí)驗(yàn)中常用的特征有N-gram特征、TF-IDF特征、句法特征和詞性特征等.2012年,Yussupova N[12]等針對(duì)俄羅斯銀行貸款審查文本,對(duì)比了多種機(jī)器學(xué)習(xí)模型,最終發(fā)現(xiàn)所有模型準(zhǔn)確率均高于85%,且SVM算法結(jié)果優(yōu)于NB(Na?ve Bayes)算法.然而,2017年Bobichev等[13]在自行創(chuàng)建語(yǔ)料庫(kù)(331篇跨領(lǐng)域俄語(yǔ)新聞)上的對(duì)比實(shí)驗(yàn)卻發(fā)現(xiàn),NB算法在經(jīng)濟(jì)、社會(huì)和體育3個(gè)領(lǐng)域情感分類結(jié)果的F1均優(yōu)于SVM算法.可見(jiàn),特征選取是否合適是影響機(jī)器學(xué)習(xí)分類效果的主要因素,在特定領(lǐng)域表現(xiàn)優(yōu)秀的特征不一定在其他領(lǐng)域同樣表現(xiàn)優(yōu)秀,面對(duì)特征稀疏、內(nèi)容簡(jiǎn)短且形態(tài)復(fù)雜的俄語(yǔ)社交媒體文本,傳統(tǒng)的機(jī)器學(xué)習(xí)算法很難挑選出最適合的情感特征.
深度學(xué)習(xí)的興起極大影響了情感分析的研究現(xiàn)狀.2016年,Sakenovich 等[14]在3萬(wàn)條俄語(yǔ)新聞?wù)Z料上對(duì)比了多種深度學(xué)習(xí)模型,其中兩層堆疊的長(zhǎng)短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)憑借較強(qiáng)的序列記憶能力,成功克服普通RNN梯度爆炸和梯度消失的缺點(diǎn),獲得最佳的準(zhǔn)確率86.3%.Galinsky等[15]則針對(duì)餐館和商品俄語(yǔ)評(píng)論使用字符級(jí)嵌入的CNN提取文本局部特征,并借助替換同義詞擴(kuò)充訓(xùn)練語(yǔ)料的方法,將準(zhǔn)確率提高了2.4%.上述研究雖然均試圖構(gòu)建多隱層的深度模型,但由于搭建的網(wǎng)絡(luò)結(jié)構(gòu)相對(duì)簡(jiǎn)易和單一,不僅未能有效結(jié)合文本的局部特征和序列特征全面提取更深層的情感信息,而且受限于深度學(xué)習(xí)模型的黑盒特性,難以充分利用俄語(yǔ)自身的特點(diǎn)和情感常識(shí).
針對(duì)俄語(yǔ)社交文本“口語(yǔ)化、不規(guī)范、一詞多義和形態(tài)多樣”等特點(diǎn),本文制定了系統(tǒng)的特征提取規(guī)則,能夠從多角度抽取俄語(yǔ)推文中不同粒度和種類的情感特征.這種融合了俄語(yǔ)多級(jí)情感特征的表示方法,著重分析蘊(yùn)含局部情感信息的詞級(jí)特征,以及表達(dá)整體情感信息的句級(jí)特征.
3.1.1 詞性特征和形態(tài)特征
俄語(yǔ)社交評(píng)論趨向使用形容詞和動(dòng)詞表達(dá)情感[16].針對(duì)語(yǔ)序自由、不夠規(guī)范的俄語(yǔ)推文,為使模型將注意力集中于情感信息更豐富的實(shí)詞,本文借助詞性標(biāo)注工具自動(dòng)獲取每個(gè)單詞的詞性特征,借以區(qū)分不同單詞情感信息的權(quán)重.本文針對(duì)每個(gè)單詞,先通過(guò)谷歌翻譯、NLTK、俄語(yǔ)形態(tài)分析工具PyMystem(1)https://pypi.org/project/pymystem3和PyMorphy2(2)http://www.github.com/kmike/pymorphy2分別標(biāo)注詞性,再匯總上述4種結(jié)果并通過(guò)多數(shù)表決法獲取分類結(jié)果為“形容詞、副詞、動(dòng)詞、名詞、感嘆詞、Emoji或其他”的詞性情感特征.
為了探究俄語(yǔ)各種復(fù)雜形態(tài)對(duì)情感表達(dá)的影響,本文通過(guò)工具PyMystem和PyMorphy2將每個(gè)單詞標(biāo)注為分屬10大類的28種俄語(yǔ)形態(tài)(比如,形態(tài)“式”分成命令式和陳述式兩類),表1羅列了部分重要的俄文形態(tài).因?yàn)镻yMystem不僅采用了基于詞典和規(guī)則的算法,而且充分考慮了語(yǔ)境的上下文信息,與后者相比可信度更高.所以本文優(yōu)先采用PyMystem獲取的結(jié)果作為單詞的基準(zhǔn)形態(tài)特征,而將PyMorphy2獲取的結(jié)果作為補(bǔ)充形態(tài)特征.
3.1.2 情感分?jǐn)?shù)特征
與英語(yǔ)相比,針對(duì)俄語(yǔ)情感詞典的研究較少,且現(xiàn)有工作或只面向固定領(lǐng)域的相關(guān)話題[9],或只適用于面向目標(biāo)的情感分類[11],在分析俄語(yǔ)社交媒體文本時(shí)存在一定局限性.詞典[10]雖包含16057個(gè)通用領(lǐng)域的情感詞條,卻仍難以涵蓋紛繁復(fù)雜的俄語(yǔ)形態(tài)和層出不窮的網(wǎng)絡(luò)新詞,而且僅依據(jù)情感強(qiáng)度粗粒度地將單詞分為4級(jí),沒(méi)有精確地區(qū)分詞條間細(xì)致的情感差別.與已有俄語(yǔ)情感詞典相比,業(yè)內(nèi)廣泛采用的英語(yǔ)情感詞典Sentiwordnet[17]和多語(yǔ)種情感詞典Senticnet[18]均具備規(guī)模大覆蓋廣、情感強(qiáng)度細(xì)致精確等特點(diǎn).因此,本文先借助Sentiwordnet依據(jù)詞性和英文釋義獲取每個(gè)單詞的情感分?jǐn)?shù),再通過(guò)Senticnet分別獲取每個(gè)俄語(yǔ)原詞的情感分?jǐn)?shù)及其英文釋義的情感分?jǐn)?shù).上述3個(gè)情感分?jǐn)?shù)均為-1至+1的連續(xù)型數(shù)據(jù),具備更精細(xì)地描述單詞情感傾向與強(qiáng)度的能力,故將其作為詞級(jí)的情感分?jǐn)?shù)特征,為模型提供更清晰準(zhǔn)確的情感信息.
表1 PyMorphy2和PyMystem標(biāo)注的俄語(yǔ)形態(tài)Table 1 Russian forms marked by PyMorphy2 and PyMystem
3.1.3 臟話俚語(yǔ)特征
社交媒體用戶習(xí)慣使用不雅詞語(yǔ)表達(dá)強(qiáng)烈情感、發(fā)泄不滿情緒、表達(dá)貶斥的態(tài)度或咒罵其厭惡的對(duì)象.在俄語(yǔ)推文中也經(jīng)常出現(xiàn)各種臟話俚語(yǔ),加上許多非直接性表達(dá),使得影響句子情感因子的顆粒度加大,單純依靠傳統(tǒng)的情感詞典無(wú)法滿足需求.本文參考文獻(xiàn)[19,20],構(gòu)建了一個(gè)包含3類單詞或詞組的臟話俚語(yǔ)詞典,包括把對(duì)方比擬成動(dòng)物或污穢無(wú)用物品的詞匯(如гавно、мудак),與性行為或性器官相關(guān)的臟話(如блять、ебал和пенис),以及各種用于侮辱、咒罵或?yàn)^神的詞語(yǔ)(如дебил、дура和слабак).本文以單詞是否存在于該詞典中作為評(píng)判標(biāo)準(zhǔn),把每個(gè)俄語(yǔ)單詞分成臟詞和非臟詞兩類,并將該結(jié)果作為詞級(jí)的臟話俚語(yǔ)特征.
3.1.4 字母特征
為了表達(dá)強(qiáng)烈情感,社交網(wǎng)絡(luò)上的用戶經(jīng)常有意識(shí)違反俄語(yǔ)語(yǔ)言規(guī)則[21].比如,將單詞的首字母或尾字母、元音或響輔音(л,м,н,р)、暫噪輔音或爆破噪輔音(б,г,д,к,п,т)重復(fù)多次,例如"Это суперрррр!"和"Дддуууббб ты трууушный!!!".再比如,用大寫(xiě)字母表示故意錯(cuò)置單詞的重音,表達(dá)諷刺、憤怒、輕蔑、厭惡等負(fù)面情緒,例如 "Скоро-ВСЁ БУДЕТ ХОРОШО ! "和"КрасавЕц! Ничего не скажешь! Лысый,толстый и морда красная!".因此本文將每個(gè)單詞中大寫(xiě)字母和重復(fù)字母的個(gè)數(shù)作為詞級(jí)的字母情感特征.
3.2.1 英譯情感特征
在所有語(yǔ)言中,針對(duì)英語(yǔ)情感分析研究占比最大,并衍生出大量專業(yè)且便利的分析工具.盡管俄譯英階段會(huì)損失部分情感特征并引入些許噪聲,但與社交媒體上語(yǔ)序混亂、規(guī)范性差的俄語(yǔ)原文相比,翻譯引擎能獲得相對(duì)規(guī)范且符合語(yǔ)言模型的英譯文.若合理選擇英語(yǔ)情感分析工具,其分析結(jié)果可以為俄語(yǔ)情感分析提供可靠的參考[5].在眾多成熟的英語(yǔ)情感分析工具中,Vader[22]和TextBlob(3)https://textblob.readthedocs.io不僅適用領(lǐng)域廣泛,而且尤其擅長(zhǎng)分析社交媒體短文本,無(wú)需訓(xùn)練即可得到若干個(gè)表達(dá)情感極性的浮點(diǎn)型數(shù)值.因此本文在實(shí)驗(yàn)中,先分別使用Google和百度的翻譯引擎獲取英譯文,再針對(duì)英譯文依次使用Vader和TextBlob獲得情感極性值,最后將其作為句級(jí)的英譯情感特征融入深度模型.
3.2.2 表情符號(hào)特征
與其他語(yǔ)言類似,俄語(yǔ)社交媒體用戶也常用標(biāo)點(diǎn)符號(hào)的組合來(lái)模擬面部表情或與情感相關(guān)的事物,進(jìn)而表達(dá)正向或負(fù)向的情感,例如,用"^_^"代表笑臉,用"3)"表示心和愛(ài)意.本文參考文獻(xiàn)[23,24],以表2為極性分類標(biāo)準(zhǔn)統(tǒng)計(jì)各類表情符號(hào)的數(shù)量,并將句中各類極性的表情符號(hào)數(shù)量作為俄語(yǔ)文本的表情符號(hào)特征,以反映俄語(yǔ)文本中正負(fù)情感極性的強(qiáng)度.
表2 表情符號(hào)的分類Table 2 Classification of emoticons
3.2.3 標(biāo)點(diǎn)符號(hào)特征
俄語(yǔ)社交媒體用戶習(xí)慣通過(guò)疊加嘆號(hào)、問(wèn)號(hào)等標(biāo)點(diǎn)符號(hào)來(lái)表達(dá)情感的強(qiáng)烈程度,例如"Я не хочу!!!!!!!"和"Как же плохо????"[21],或在文本的結(jié)尾處添加連續(xù)多個(gè)小括號(hào)表達(dá)正向或者負(fù)向的情感,例如"Очень добрый человек с открытой душой,что редкость в наше время)))"和"О Боже Алина беременна Пойду поллачу((((".因此,本文將嘆號(hào)、問(wèn)號(hào)和結(jié)尾處不同方向的小括號(hào)的數(shù)目,作為俄語(yǔ)文本的標(biāo)點(diǎn)符號(hào)情感特征,來(lái)體現(xiàn)該文本表達(dá)的情感極性與強(qiáng)度.
為了能有效結(jié)合CNN模型捕捉多維數(shù)據(jù)局部特征的能力、RNN模型提取序列中長(zhǎng)期依賴關(guān)系的優(yōu)勢(shì),以及自注意力機(jī)制聚焦重要信息的特點(diǎn),進(jìn)而提升俄語(yǔ)情感分類效果,本文提出了一種基于自注意力機(jī)制的CNN-BiLSTM深度學(xué)習(xí)混合模型ACBM.如圖1所示,該模型共由6個(gè)子模塊構(gòu)成.首先,詞級(jí)特征編碼層基于詞向量和各種詞級(jí)情感特征,將每個(gè)單詞及其對(duì)應(yīng)的情感特征轉(zhuǎn)化成包含語(yǔ)義和情感信息的情感詞向量.接著,局部特征提取層負(fù)責(zé)從相鄰的信息中提取每個(gè)單詞的上下文局部特征.然后,由序列特征提取層和注意力層協(xié)同工作,前者負(fù)責(zé)提取整個(gè)文本的序列特征,后者負(fù)責(zé)生成序列中每個(gè)元素的情感權(quán)重.最后,情感分類層結(jié)合之前生成的注意力序列特征以及句級(jí)特征編碼層的輸出,生成整個(gè)模型情感分類的判定結(jié)果.
圖1 ACBM的結(jié)構(gòu)圖Fig.1 Structure diagram of ACBM
為了將文本信息轉(zhuǎn)化成神經(jīng)網(wǎng)絡(luò)能夠處理的數(shù)字向量,本文采用fastText[25]基于維基百科和海量公共網(wǎng)站文本訓(xùn)練得到的預(yù)訓(xùn)練詞向量,每個(gè)單詞的詞向量wi的維度是300.由于詞匯表規(guī)模很大,共包含1888423個(gè)俄語(yǔ)單詞,而且采用了N-gram字符特征生成詞向量,所以fastText不但能有效降低OOV(Out of Vocabulary)的概率,而且適用于形態(tài)豐富的俄語(yǔ).
俄語(yǔ)詞匯不僅富于形態(tài)變化,而且具有很強(qiáng)的多義性.Р.А.Будагов對(duì)大型詞典調(diào)查研究后發(fā)現(xiàn),俄語(yǔ)中多義詞占比高達(dá)80%,許多單詞不僅含義繁多,且各自蘊(yùn)含的情感信息截然相反[26].例如,俄語(yǔ)中最基本也最活躍的動(dòng)詞之一,"идти"甚至包含20多種含義,而動(dòng)詞"следить"同時(shí)具有“注視”、“關(guān)心”、“監(jiān)視”和“跟蹤”等多種不同的情感含義,其表達(dá)的語(yǔ)義及蘊(yùn)含的情感信息,不僅由自身決定,還受到語(yǔ)境中上下文其他單詞的影響[27].又比如,當(dāng)形容詞"зелёная"后面分別連接"трава"、"молодёжь"和"скука"時(shí),含義依次為“綠色的草”、“幼稚的青年”和“難堪的苦悶”,此時(shí)不僅詞義各不相同,且表示的情感極性也不一致.
針對(duì)俄語(yǔ)“詞義多樣、語(yǔ)序自由”等特點(diǎn),為了提取更客觀精準(zhǔn)的詞語(yǔ)局部特征,本文針對(duì)詞級(jí)特征編碼層輸出的情感詞向量矩陣,采用CNN提取每個(gè)單詞的上下文局部特征,其結(jié)構(gòu)如圖2所示.假設(shè)文本中包含n個(gè)單詞,情感詞向量xi
圖2 局部特征提取層Fig.2 Local feature extraction layer
的維度是d,則情感特征矩陣X的初始形狀為n×d.為了使CNN輸入輸出的序列長(zhǎng)度一致,本文通過(guò)填充PAD,使矩陣X形狀變?yōu)?n+2)×d.卷積層中,共包含T個(gè)尺寸為3×d的卷積核W,當(dāng)?shù)趈(1≤j≤T)個(gè)卷積核Wj對(duì)矩陣X中的xi進(jìn)行卷積運(yùn)算后,會(huì)獲得局部特征值gij(1≤i≤n),計(jì)算過(guò)程如下:
Leschot (Felsa)也宣布推出一款以ETA2824為基礎(chǔ)的機(jī)心。起價(jià)125瑞士法郎。其購(gòu)買(mǎi)了Technotime 法國(guó)85%的股份,將生產(chǎn)改進(jìn)到現(xiàn)行水準(zhǔn)。如今向Camy這樣的品牌供應(yīng)幾千件產(chǎn)品。他毫不遮掩自己的雄心:五年內(nèi)50萬(wàn)件。
gij=f(Wj⊙Xi:i+2+b)
(1)
vi=[gi1,gi2,gi3,…,giT]
(2)
公式(1)中,Xi:i+2是矩陣X第i行到第i+2行的情感特征向量,⊙代表卷積乘,b是偏置,f是非線性激活函數(shù)(本文選擇ReLU作為激活函數(shù)來(lái)加快收斂速度).公式(2)中,vi由卷積層T個(gè)卷積核W分別在第i個(gè)單詞周圍提取的3-gram局部特征值組成.與情感詞向量xi相比,本層輸出的局部情感特征向量vi不僅包含第i個(gè)單詞本身的特征,還融合了該單詞相鄰區(qū)域的上下文特征,包含的語(yǔ)義和情感信息更加全面準(zhǔn)確、客觀.
受限于固定大小的卷積核窗口,CNN難以對(duì)長(zhǎng)距離的序列信息建模.為了能提取距離更長(zhǎng)、隱藏更深的情感信息,本文將局部特征向量[v1,v2,…,vn]依次送入序列特征提取層.雖然標(biāo)準(zhǔn)RNN擅長(zhǎng)處理序列數(shù)據(jù),但卻存在兩個(gè)缺點(diǎn):1)長(zhǎng)序列訓(xùn)練中的梯度消失或爆炸問(wèn)題使其對(duì)較遠(yuǎn)距離的重要節(jié)點(diǎn)信息感知能力下降;2)單向的狀態(tài)信息傳導(dǎo)使其無(wú)法獲取后文對(duì)目標(biāo)單詞處的影響.因此本文采用雙向LSTM(Bidirectional LSTM,BiLSTM)[14]提取序列特征,一方面借助LSTM中的門(mén)結(jié)構(gòu)控制傳輸狀態(tài),進(jìn)而限制過(guò)濾無(wú)效信息、記憶留存長(zhǎng)距離情感特征,另一方面通過(guò)兩個(gè)各自獨(dú)立且方向相反的LSTM同時(shí)捕捉當(dāng)前位置的上下文序列特征,進(jìn)而全面地考慮每個(gè)位置過(guò)去和未來(lái)方向的情感和語(yǔ)義信息,推導(dǎo)與合并公式如下:
(3)
(4)
大腦在閱讀時(shí)總會(huì)對(duì)相對(duì)重要的元素分配更多注意力,進(jìn)而提高獲取關(guān)鍵信息的效率.本節(jié)的注意力層采用原理類似的Attention機(jī)制,在將信息融合且送入情感分類層之前,通過(guò)計(jì)算每個(gè)單詞的情感權(quán)重,突出文本中包含關(guān)鍵特征的元素、弱化非情感信息或不重要元素,從而獲取能夠準(zhǔn)確反映俄語(yǔ)文本中重要情感信息的注意力序列特征,提升模型的效果.許多研究中基于自注意力機(jī)制的深度學(xué)習(xí)模型[28],都直接采用LSTM的隱含層hi來(lái)生成不同元素的注意力權(quán)重值ai,計(jì)算方法如公式(5)所示.
si=tanh(WThi+b);ai=softmax(siA);
(5)
圖3 注意力層的結(jié)構(gòu)圖Fig.3 Structure diagram of attention layer
(6)
與詞級(jí)特征編碼層功能和原理類似,句級(jí)特征編碼層負(fù)責(zé)提取句級(jí)情感特征向量SF,該模塊先從3.2節(jié)中選取l種預(yù)留的句級(jí)情感特征,再將其第j種句級(jí)特征(1≤j≤l)通過(guò)多項(xiàng)式擴(kuò)展,轉(zhuǎn)化成能夠在深度模型中自學(xué)習(xí)的p維情感特征向量sfj,最后通過(guò)合并得到蘊(yùn)含豐富情感信息的句級(jí)特征向量SF,計(jì)算公式為:SF=sf1⊕…⊕sfj⊕…⊕sfl,向量SF的維度等于p*l.
圖4 情感分類層Fig.4 Emotion classification layer
本文實(shí)驗(yàn)采用數(shù)據(jù)集由Araujo[5]提供,共包含帶有分類標(biāo)簽的俄語(yǔ)推文3968條,其中正向情感1145條,負(fù)向情感1188條,其余均被標(biāo)記為中性.為提高分類準(zhǔn)確性,本文對(duì)語(yǔ)料進(jìn)行了預(yù)處理,并通過(guò)詞干化將同根同源的單詞映射為統(tǒng)一形式(例如:去除單復(fù)數(shù),人稱,陰陽(yáng)性,名詞格,動(dòng)詞多種時(shí)、態(tài)、體等的干擾).預(yù)處理后語(yǔ)料共剩余13943種單詞或符號(hào),其中12485種可映射到fastText提供的預(yù)訓(xùn)練詞向量上,OOV比例由14.78%下降為10.46%.為使模型能夠快速找到全局最優(yōu)解,實(shí)驗(yàn)采用Mini-Batch梯度下降法訓(xùn)練模型,并使用5折交叉驗(yàn)證法檢驗(yàn)最終模型的性能,同時(shí)將F1_macro作為主要評(píng)價(jià)標(biāo)準(zhǔn)、準(zhǔn)確率作為輔助評(píng)價(jià)標(biāo)準(zhǔn)來(lái)平衡精確率和召回率之間的關(guān)系,兩者在后文中分別簡(jiǎn)稱為F1和Acc.
5.2.1 多種基于英譯文的分類方案對(duì)比
因?yàn)槟壳岸碚Z(yǔ)語(yǔ)料數(shù)量較少,且俄語(yǔ)情感分析工具能力有限,所以文獻(xiàn)[5]結(jié)合翻譯引擎與英語(yǔ)情感分析工具來(lái)獲得分類結(jié)果,在其覆蓋率Cov超過(guò)90%的實(shí)驗(yàn)方案中,Google翻譯與Sentiment140(www.sentiment140.com)組合獲得了最高的F1值61%.本文也對(duì)比了3.2.1節(jié)中設(shè)計(jì)的兩種翻譯引擎與兩種分析工具相互組合的結(jié)果,基于Cov達(dá)到100%的前提,4種組合的F1范圍為47.85%~53.64%,其中百度翻譯與Vader[21]組合結(jié)果最好,如表3所示.實(shí)驗(yàn)發(fā)現(xiàn),針對(duì)俄語(yǔ)語(yǔ)料[5],在使用同種英語(yǔ)分析工具的情況下,百度翻譯的效果略好于Google翻譯,這也證明翻譯質(zhì)量會(huì)對(duì)分析結(jié)果造成一定影響.
本文將Bert預(yù)訓(xùn)練模型提取的特征向量直接送入全連接層進(jìn)行情感分類,發(fā)現(xiàn)Bert英語(yǔ)預(yù)訓(xùn)練模型的F1比多語(yǔ)言預(yù)訓(xùn)練模型高7.25.通過(guò)對(duì)比實(shí)驗(yàn)發(fā)現(xiàn)ACBM模型結(jié)果好于上述所有方案,這說(shuō)明由于翻譯導(dǎo)致的語(yǔ)義、情感、語(yǔ)言特征等方面的信息損失,基于英譯文的情感分類效果不如直接對(duì)俄語(yǔ)原文進(jìn)行分析,在機(jī)器翻譯技術(shù)尚未取得進(jìn)一步突破之前,建議將其作為臨時(shí)性方案或遷移學(xué)習(xí)中的輔助性方案.
表3 對(duì)比各種英譯情感特征的效果Table 3 Comparison of the effects of various emotion features in English translation
5.2.2 各種句級(jí)特征的對(duì)比
為了深入挖掘俄語(yǔ)推文中的情感信息,充分利用相關(guān)知識(shí)和語(yǔ)言特征,本文分別向模型LSTM和ACBM中逐個(gè)加入各種句級(jí)情感特征,同時(shí)對(duì)比這些特征與情感分類標(biāo)簽的3種相關(guān)性指數(shù):Kendall,Pearson和Spearman,實(shí)驗(yàn)發(fā)現(xiàn)該指數(shù)的絕對(duì)值與加入對(duì)應(yīng)特征后的實(shí)驗(yàn)結(jié)果之間存在比較明顯的正相關(guān),如表4所示.
表4 各種句級(jí)特征的結(jié)果對(duì)比Table 4 Comparison of the results of various sentence-level features
在所選句級(jí)特征中,英譯文Bert向量、英譯文Vader情感值、正向表情符個(gè)數(shù)、結(jié)尾括號(hào)方向的效果最好,加入特征前后對(duì)比,LSTM的F1分別提高1.47%、1.05%、0.87%和0.79%,ACBM的F1分別提高1.36%、0.95%、0.73%、0.71%.相對(duì)而言,句級(jí)特征對(duì)LSTM的提升更明顯,這說(shuō)明ACBM針對(duì)原文的情感特征提取能力更強(qiáng),故而句級(jí)特征對(duì)其輔助和補(bǔ)充的效果有限.兩種英譯情感特征的效果最好,說(shuō)明單純依靠英譯文進(jìn)行分析的效果雖然不夠理想,但可將其作為俄語(yǔ)情感分析中有效的輔助手段.各類表情符也有相對(duì)不錯(cuò)的效果(結(jié)尾處的小括號(hào)也類似于表情符),這說(shuō)明社交媒體語(yǔ)言喜歡通過(guò)鮮明的表情符來(lái)表達(dá)個(gè)人情感傾向.嘆號(hào)和問(wèn)號(hào)的效果不夠理想,原因是這兩種符號(hào)主要表達(dá)的是情感有無(wú),卻不包含情感的正負(fù)信息.
5.2.3 各種詞級(jí)特征的對(duì)比
為研究各種詞級(jí)特征對(duì)俄語(yǔ)情感分析的影響,本文實(shí)驗(yàn)還分別向模型LSTM和ACBM中逐個(gè)加入各種詞級(jí)情感特征,如表5所示.這些特征中情感分?jǐn)?shù)、臟話俚語(yǔ)、情感分?jǐn)?shù)+詞性效果最好,加入特征前后對(duì)比,LSTM的F1分別提高0.83%、1.31%和0.77%,ACBM的F1則分別提高0.97%、1.56%和1.57%.與句級(jí)特征相反,詞級(jí)特征顯然對(duì)ACBM的提升更為明顯,這說(shuō)明引入CNN模塊和自注意力機(jī)制以后,ACBM對(duì)單詞上下文情感特征和局部信息更敏感.此外,無(wú)論是否加入特征、或是加入何種特征,ACBM均比LSTM的F1值高1.46-2.51.值得注意的是,單獨(dú)加入詞性特征的效果相對(duì)較差,但若同時(shí)加入情感分?jǐn)?shù)和詞性特征,F(xiàn)1卻比單獨(dú)加入情感分?jǐn)?shù)特征還高0.6%.這得益于ACBM的自注意力機(jī)制能有效地從詞性特征中提取每個(gè)元素的權(quán)重,進(jìn)而使模型更關(guān)注重要元素的情感分?jǐn)?shù)特征.
為了驗(yàn)證俄語(yǔ)形態(tài)信息在情感分析中的作用,本文還向兩種模型中依次加入各種俄語(yǔ)形態(tài),如表1和表5所示.實(shí)驗(yàn)結(jié)果表明:有6種形態(tài)對(duì)原模型有提升作用,其中形態(tài)“式”和“人稱”提升效果相對(duì)明顯.這或許因?yàn)樵诙碚Z(yǔ)表述中,命令式比陳述式、第一人稱比其他人稱更傾向表達(dá)主觀強(qiáng)烈的情感,而其余形態(tài)在俄語(yǔ)情感表達(dá)方面的作用相對(duì)不夠明顯.
表5 各種詞級(jí)特征的結(jié)果對(duì)比Table 5 Comparison of the results of various word-level features
5.2.4 多種模型的結(jié)果對(duì)比
為了驗(yàn)證本文模型ACBM對(duì)俄語(yǔ)社交媒體文本的情感分析能力,表6將其與俄語(yǔ)情感分析工具Dostoevsky(4)https://github.com/bureaucratic-labs/dostoevsky、傳統(tǒng)機(jī)器學(xué)習(xí)方法(SVM)、常見(jiàn)深度學(xué)習(xí)模型(CNN,LSTM,BiLSTM)、以及多種深度學(xué)習(xí)組合模型進(jìn)行對(duì)比,實(shí)驗(yàn)共分兩組:第1組直接對(duì)原文進(jìn)行分析,未引入任何特征,對(duì)應(yīng)實(shí)驗(yàn)結(jié)果為F1w/o-f和Accw/o-f;第2組同時(shí)加入若干詞級(jí)特征(情感分?jǐn)?shù)+詞性+臟話俚語(yǔ))和句級(jí)特征(表情符號(hào)+英譯情感),對(duì)應(yīng)實(shí)驗(yàn)結(jié)果為F1w-f和Accw-f.F1↑和Acc↑則表示除Dostoevsky之外,每個(gè)模型的第2組實(shí)驗(yàn)結(jié)果與第1組實(shí)驗(yàn)結(jié)果相比,對(duì)應(yīng)的F1和Acc提高的幅度,其計(jì)算公式分別為F1↑=F1w-f-F1w/o-f和Acc↑=Accw-f-Accw/o-f.顯然,F(xiàn)1↑和Acc↑越高,意味著對(duì)應(yīng)的模型在加入各級(jí)情感特征之后,情感分類的效果提高地越明顯.針對(duì)各模型說(shuō)明如下:Dostoev-sky是基于RuSentiment[29]數(shù)據(jù)集訓(xùn)練得到的俄語(yǔ)情感分析深度模型,在其測(cè)試集上F1值為0.71;BiLSTM-2layers復(fù)現(xiàn)了文獻(xiàn)[14]提出的兩層堆疊雙向LSTM;BiLSTM-ATT和BiLSTM-ATT2分別在BiLSTM基礎(chǔ)上加入基于公式(5)和公式(6)的自注意力機(jī)制;BiLSTM-CNN是BiLSTM先于CNN的深度學(xué)習(xí)組合模型;CNN-BiLSTM是CNN先于BiLSTM的深度學(xué)習(xí)組合模型.
表6 不同方法分類結(jié)果對(duì)比Table 6 Comparison of classification results of different methods
對(duì)比實(shí)驗(yàn)的結(jié)果說(shuō)明,引入各級(jí)情感特征后,所有模型的性能提升明顯,其中ACBM提升效果最為突出,F(xiàn)1和Acc分別提高5.03和5.07.由于未在語(yǔ)料[5]上再次訓(xùn)練,Dostoevsky表現(xiàn)不佳,與未加入特征的SVM性能接近,而無(wú)論是否添加特征,所有深度模型均優(yōu)于SVM.在加入各級(jí)特征后,CNN與BiLSTM效果差別不大,但二者結(jié)果均明顯優(yōu)于LSTM,這證明了CNN高效提取文本局部特征的能力與BiLSTM捕捉序列歷史前后特征的敏感性.如果對(duì)BiLSTM添加模型層數(shù)、或添加基于公式(5)、公式(6)的自注意力模塊,F(xiàn)1會(huì)分別提升0.51、0.13和1.46,這證明增加網(wǎng)絡(luò)層數(shù)或自注意力模塊能有效提升BiLSTM的性能,且改進(jìn)后的自注意力機(jī)制更有效.CNN-BiLSTM效果略強(qiáng)于BiLSTM-CNN,說(shuō)明針對(duì)俄語(yǔ)推文先用CNN提取局部特征、再通過(guò)BiLSTM提取全局序列特征的方案更為合理.無(wú)論是否加入特征,本文的ABCM效果均好于所有模型,這說(shuō)明通過(guò)優(yōu)化組合CNN與BiLSTM,同時(shí)輔以分工明確的自注意力機(jī)制,能更細(xì)致地捕捉局部特征、匯總?cè)中畔⒑吞嵘楦蟹治鲂Ч?
ACBM模型能夠基于自注意力機(jī)制和文本的各種多級(jí)情感特征,為重要元素賦予更高的情感權(quán)重,進(jìn)而提升對(duì)情感信息的提取和分析能力,圖5展示了ACBM為不同Token生成權(quán)重值對(duì)應(yīng)的熱力圖.例如:無(wú)論是類似:":D"和":("的正向或負(fù)向表情符,還是諸如"веселый"(愉快的)、"люблю"(喜歡)、"молодец"(好樣的)、"грубая"(粗野的)、"злая"(邪惡的)、"тратьте"(白費(fèi))、"фигню'(廢話)和"плачут"(哭泣)等具有明顯情感傾向的實(shí)詞,都被賦予較高的情感權(quán)重.而類似"Я"(我)、"того"(這個(gè))、"и"(和)、"что"(什么)、"у"(在)、"на"(上)等與情感關(guān)系不大的代詞、連詞、介詞和標(biāo)點(diǎn)符號(hào)情感權(quán)重都很低.例句1-5中,最高權(quán)重是其余權(quán)重均值的3.1-5.7倍.例句6和7中,最高的兩個(gè)權(quán)重均值是其余權(quán)重均值的10.9倍和15.3倍.分析例句8還可發(fā)現(xiàn),當(dāng)句子中出現(xiàn)多個(gè)極性相反的表情符時(shí),ACBM會(huì)依據(jù)文本含義和各Token所處位置,為相對(duì)重要的表情符":("賦予更高的權(quán)重值.
圖5 ACBM自注意力層生成的Token權(quán)重?zé)崃DFig.5 Token weight thermograph generated by the attention layer of ACBM
本文在融合俚語(yǔ)、俄語(yǔ)形態(tài)、情感分?jǐn)?shù)和詞性等詞級(jí)特征,以及表情符號(hào)和英譯情感值等句級(jí)特征的基礎(chǔ)上,構(gòu)建基于自注意力機(jī)制的深度學(xué)習(xí)模型,在俄語(yǔ)推文情感分析方面取得了較好的結(jié)果.研究表明雖然直接分析英譯文的效果不夠理想,但可將其作為深度學(xué)習(xí)模型重要的輔助手段;融合多級(jí)特征有利于提升各類模型效果,其中句級(jí)特征對(duì)于簡(jiǎn)單模型效果提升更明顯,詞級(jí)特征對(duì)于復(fù)雜模型效果提升更明顯;與單一的深度模型和常見(jiàn)的組合深度模型相比,在融合CNN和LSTM等模型優(yōu)點(diǎn)并輔以改進(jìn)的自注意機(jī)制之后,本文設(shè)計(jì)的ACBM能夠針對(duì)俄語(yǔ)社交媒體文本的特點(diǎn),明顯提升對(duì)其情感分類的結(jié)果.
本文工作仍有如下不足和改進(jìn)空間:限于俄語(yǔ)語(yǔ)料庫(kù)的有限性,對(duì)比實(shí)驗(yàn)僅在俄語(yǔ)推文語(yǔ)料庫(kù)[5]進(jìn)行,如何構(gòu)建規(guī)模更大,類型更豐富的俄語(yǔ)情感語(yǔ)料庫(kù)是下階段的研究重點(diǎn);在融合字母、標(biāo)點(diǎn)和部分形態(tài)特征后,模型未能取得預(yù)期效果,如何更合理的將這些特征融入到深度學(xué)習(xí)模型中,探究這些特征在不同語(yǔ)料上的作用,也值得進(jìn)一步研究.