曾碧卿,韓旭麗,王盛玉,徐如陽,周 武
(1. 華南師范大學(xué) 軟件學(xué)院,廣東 佛山 528225;2. 華南師范大學(xué) 計(jì)算機(jī)學(xué)院,廣東 廣州 510631)
情感分類是情感分析的一項(xiàng)基礎(chǔ)任務(wù). 情感分析的應(yīng)用是針對(duì)互聯(lián)網(wǎng)上生成的文本信息分析其情感極性,當(dāng)前極性分類有三分類、五分類和十分類,例如三分類為積極、中性和消極. 目前,情感分析已經(jīng)解決了很多實(shí)際問題,例如提取評(píng)論情感傾向用于優(yōu)化電商平臺(tái)、視頻網(wǎng)站以及對(duì)選舉活動(dòng)進(jìn)行輿情分析等.
研究人員通常進(jìn)行人工構(gòu)建特征,以機(jī)器學(xué)習(xí)方法來訓(xùn)練文本分類器. Pang等[1]根據(jù)傳統(tǒng)的機(jī)器學(xué)習(xí)方法進(jìn)行情感傾向性分析,利用一元詞、二元詞和詞性標(biāo)注等特征進(jìn)行實(shí)驗(yàn),論證了該方法在情感分類任務(wù)上是有效的. 隨后,研究學(xué)者們?cè)噲D采用更有效的人工特征來構(gòu)建文本分類模型,例如采用情感詞匯特征[2-3]和n-grams詞特征[4-5]構(gòu)建模型. 但是這些情感分類方法過多依賴于人工特征,例如采用專家設(shè)計(jì)的特征或使用額外的情感詞匯.
神經(jīng)網(wǎng)絡(luò)模型在獲取特征表示時(shí)無需復(fù)雜的特征工程,該思想受到越來越多的研究者的關(guān)注[6-7]. 當(dāng)前,神經(jīng)網(wǎng)絡(luò)模型已經(jīng)在多個(gè)自然語言處理領(lǐng)域取得較好效果,例如神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯[8]、句子對(duì)識(shí)別[9]、自動(dòng)問答[10]、文本摘要[11]和序列標(biāo)注[12]等. 在自然語言處理領(lǐng)域,卷積神經(jīng)網(wǎng)絡(luò)在情感分析任務(wù)中的有效性已被證明. Kim等[13]提出用詞向量訓(xùn)練文本并用以表示文本信息,在卷積神經(jīng)網(wǎng)絡(luò)模型中成功地進(jìn)行篇章分類. Kalchbrenner等[14]提出用CNN模型進(jìn)行句子分類,并利用動(dòng)態(tài)最大池化方法將其融入句子分類模型中取得較好的實(shí)驗(yàn)效果.
雖然CNN具有很強(qiáng)的學(xué)習(xí)能力,但它不能自動(dòng)確定文本的哪個(gè)部分在文本特征提取的過程中更為重要. 在進(jìn)行文本情感分析時(shí),部分文本的情感信息對(duì)最終的情感傾向具有較大影響. 理想的情感分析模型應(yīng)該能夠有選擇地進(jìn)行特征提取并構(gòu)建生成句子特征表示. 基于此,本文提出一種基于多注意力的卷積神經(jīng)網(wǎng)絡(luò)模型,以該模型進(jìn)行情感分析研究. 模型受啟發(fā)于n-grams語言模型,同時(shí)在詞和詞性2個(gè)角度提取文本的特征表示. 注意力機(jī)制可以使模型在訓(xùn)練的過程中對(duì)部分文本加強(qiáng)特征提取,并將得到的篇章特征構(gòu)建的中間表示[15].
目前,大部分的神經(jīng)網(wǎng)絡(luò)模型將句子或篇章作為模型輸入,經(jīng)過模型得到情感特征表示. 多特征的融合更具特征表示能力,可以得到更優(yōu)的情感分類效果. 但是,當(dāng)前使用串聯(lián)的方式無法判別融合多個(gè)特征. 因此,本文提出一種注意力方式來替代串聯(lián)方式進(jìn)行特征融合. 在進(jìn)行多特征融合時(shí),本文使用全局注意力方式來判別詞特征和詞性特征各自的重要性,對(duì)2個(gè)特征有選擇地構(gòu)建最終的篇章表示.
本文的主要貢獻(xiàn)如下:(1) 本文結(jié)合注意力機(jī)制和CNN來解決情感分類問題. (2) 本模型中運(yùn)用了雙注意力機(jī)制,局部注意力機(jī)制可以發(fā)現(xiàn)文本中重要的詞和詞性. 隨后全局注意力將兩類特征有效融合.(3) 相較于對(duì)比實(shí)驗(yàn),本文提出的模型在情感分析任務(wù)上取得較優(yōu)的效果,同時(shí),實(shí)驗(yàn)證明多特征的融合較單一特征對(duì)情感分析更有效.
隨著深度學(xué)習(xí)的發(fā)展,深度學(xué)習(xí)模型已在多個(gè)情感分析數(shù)據(jù)集評(píng)比上均取得較好結(jié)果. 由于人工構(gòu)建的特征無法有效表征文本的語法和語義信息,因此詞嵌入表示方法被提出. 詞嵌入(Word Embedding)[16-18]的功能是將文本中詞映射成一個(gè)連續(xù)的低維的實(shí)質(zhì)向量矩陣,作用是為了更好地表示文本的語法和語義特征. 大多數(shù)情感分析研究者利用詞嵌入構(gòu)建深度學(xué)習(xí)模型的方法進(jìn)行情感分析研究[19],Kim等[13]提出利用卷積神經(jīng)網(wǎng)絡(luò)構(gòu)建多通道的情感分類模型. Zhang等[20]提出一種卷積神經(jīng)網(wǎng)絡(luò)的方法,利用高維度的one-hot向量作為模型的輸入.Socher等[21]利用遞歸神經(jīng)網(wǎng)絡(luò)進(jìn)行建模,在情感分類任務(wù)上取得了不錯(cuò)效果. 循環(huán)神經(jīng)網(wǎng)絡(luò)在序列化文本中具有較強(qiáng)的特征學(xué)習(xí)能力,在情感分析領(lǐng)域得到很好的應(yīng)用. Tai等[22]提出一種樹型結(jié)構(gòu)的LSTM模型用于情感分類. 使用循環(huán)神經(jīng)網(wǎng)絡(luò)構(gòu)建層次化的模型,該模型通過RNN能夠更好地提取出篇章的特征,而篇章的特征通過詞和句子2個(gè)維度刻畫,從而達(dá)到良好的實(shí)驗(yàn)效果[23-24].
注意力機(jī)制(Attention Mechanism)成功應(yīng)用于NLP各個(gè)領(lǐng)域,在情感分析方向上,注意力機(jī)制作用在于發(fā)現(xiàn)更有利于模型訓(xùn)練的特征. Xu等[25]在處理計(jì)算機(jī)視覺問題時(shí)使用注意力機(jī)制改善計(jì)算機(jī)圖像描述不準(zhǔn)確的問題. 注意力機(jī)制在機(jī)器翻譯領(lǐng)域應(yīng)用比較廣泛[26-27],Bahdanau等[26]利用注意力機(jī)制在原始的encoder-decoder翻譯模型上進(jìn)行改進(jìn). Yang等[28]在層次化模型中融合注意力機(jī)制,從詞和句子2個(gè)角度關(guān)注特征提取并取得較好效果. Yin等[9]利用卷積神經(jīng)網(wǎng)絡(luò)模型構(gòu)建一種情感分類任務(wù)模型,并利用注意力機(jī)制將模型進(jìn)行融合,在構(gòu)建句子分類任務(wù)中實(shí)驗(yàn)效果良好. 基于CNN的層次化模型在融合注意力機(jī)制后用于句子關(guān)系分類問題,取得較好效果[29-30].
本文提出一種雙注意力的卷積神經(jīng)網(wǎng)絡(luò)模型(Double Attention Convolutional Neural Networks,DACNN),如圖1所示. 整個(gè)模型包括2個(gè)通道:詞特征通道和詞性特征通道. 在每個(gè)通道獲取到特征表示后,在全局注意力層對(duì)兩種特征進(jìn)行特征融合. 最后,將生成的篇章特征表示作為全連接層的輸入,得到最終的情感傾向.
本文從詞和詞性兩種特征中提取篇章特征,雙通道的機(jī)制相同,都采用局部注意力卷積神經(jīng)網(wǎng)絡(luò)模型,故本小節(jié)僅從詞角度介紹模型結(jié)構(gòu).
圖1 雙注意力卷積神經(jīng)網(wǎng)絡(luò)模型Fig.1 The model of double attention convolutional neural networks
如圖1所示,本文提出的局部注意力卷積神經(jīng)網(wǎng)絡(luò)模型,其主要分為5個(gè)層次:(1) 詞嵌入層:文本進(jìn)行序列化操作后進(jìn)行詞嵌入表征文本信息,得到特征表示作為模型的輸入. (2) 詞注意力層:在詞嵌入層后增加注意力層,本層的作用是讓模型可以在文本的訓(xùn)練過程中對(duì)文本進(jìn)行重點(diǎn)關(guān)注詞特征. (3) 填充層:在詞注意力層后添加填充層,其作用為文本中每個(gè)詞特征表示進(jìn)行上下文填充處理,并根據(jù)卷積核大小對(duì)卷積層進(jìn)行填充,以確保文本中所有的詞都具備上下文. (4) 卷積層:本文使用的卷積層中使用了多個(gè)大小不一的卷積核,本文所取卷積核大小分別是1、3、4和5,作用是使本文可以提取不同方面的特征. (5) 池化層:對(duì)輸入特征進(jìn)行篩選,得到最重要特征.
通過以上的層次,在情感分析中,使模型在訓(xùn)練過程中具有文本詞特征的鑒別能力. 本文模型訓(xùn)練過程中,卷積層的主要作用在于不僅可以獲得文本每個(gè)詞的特征表示,并且根據(jù)文本特征表示獲得文本的局部特征. 以下對(duì)5個(gè)層次進(jìn)行詳細(xì)介紹.
詞嵌入層:文本篇章通過模型進(jìn)行詞特征映射得到特征表示 S={w1,w2,···,wn-1,wn},定義中wi表示文本中詞語或者短語在整個(gè)文本中的詞匯序列中第i個(gè)詞. 采用one-hot模型進(jìn)行篇章的特征表示. 經(jīng)過詞嵌入層將詞語或者短語映射成一個(gè)d維向量.
詞注意力層:在詞嵌入層后,添加詞注意力層,主要作用是對(duì)文本特征表示信息進(jìn)行區(qū)分,將重點(diǎn)詞特征進(jìn)行突顯,使模型可以有選擇地被關(guān)注. 本文利用了n-grams 的語言模型,將文本中詞語或短語的上下文的詞作為該詞的一個(gè)特征表達(dá). 本文用D表示一個(gè)中心詞的上下文范圍,詞窗口大小為的 詞特征作為此詞新的表示作為滑動(dòng)窗口的矩陣參數(shù),在此步驟中需計(jì)算每個(gè)詞的特征值權(quán)重,用于表示對(duì)文本中的詞的重要程度信息值.
其中 Xiatt表示以 xi作為中心詞,設(shè)置中心詞上下文大小為L(zhǎng),h (·)為sigmoid激活函數(shù), batt代表偏置量,?操作代表兩矩陣對(duì)應(yīng)元素相乘后求和,即:
將詞注意力層采用平移滑動(dòng)的方式,進(jìn)行更深層次地表達(dá),由詞嵌入輸出X的特征值,每一個(gè)輸出的局部特征值X得到一個(gè)詞權(quán)重值α ,如圖2所示.
其中 n 為篇章中句子的長(zhǎng)度值. α用于表示句子中詞或短語的重要程度值,將 α與每個(gè)詞特征表示 xi相乘輸出新的特征表示 Xatt.
圖2 詞注意力層Fig.2 Layer with attention of words
填充層:傳統(tǒng)的情感分析處理自然語言的方法一般采用一元語言模型、二元語言模型和三元語言模型提取情感分析特征表示. Pang等[1]曾使用該方法進(jìn)行情感分析,并取得良好的實(shí)驗(yàn)效果. 卷積神經(jīng)網(wǎng)絡(luò)模型利用卷積操作提取局部特征值,它的工作原理在于每進(jìn)行一次卷積操作,卷積核參數(shù)都將以為中心,進(jìn)行上下文窗口大小為D的卷積提取特征,視為提取每個(gè)詞的n-grams特征. 在本文中,以卷積核大小為3舉例,每次取文本每一個(gè)中心詞的上下文的范圍為1,遵循馬爾科夫原則,當(dāng)卷積核大小取5時(shí),上下文范圍則擴(kuò)大為2. 在模型訓(xùn)練中存在文本信息提取不足的問題,在進(jìn)行卷積操作時(shí),首部詞無法取到上文和尾部詞無法取到下文情況. 即首部和尾部有個(gè)詞無法提取到n-grams特征的問題.解決此問題,本文采取首尾填充操作. 主要采用2種填充方法,第一種采用首尾部填充的方法,第二種采用尾部填充的方法,其具體操作如圖3所示,其填充方式如下.
(1) Padding-1: 在首尾部分進(jìn)行填充,即對(duì)卷積層的輸入的首部和尾部分別進(jìn)行0向量補(bǔ)全,由于首尾部各存在一半窗口的信息缺失,所以補(bǔ)全大小取,目的為保證其首部詞存在上文,尾部詞存在下文.
(2) Padding-2: 對(duì)卷積層的輸入末尾部分進(jìn)行大小為h-1的0向量補(bǔ)全.
其中⊕ 表示串聯(lián)操作.
圖3 兩種padding方式Fig.3 Methods of the padding
卷積層和池化層:在模型的詞注意力層之后添加卷積層和池化層,卷積層的作用主要是將前一步驟提取到的特征進(jìn)行卷積操作,取多個(gè)大小不一的卷積核得到多種特征表示. 如圖1所示,卷積層負(fù)責(zé)提取單一詞特征和詞的上下文信息. 使用多個(gè)大小不同的卷積核得到多種特征圖. 例如在本層中加入大小為1的卷積核,用于對(duì)次特征進(jìn)行提取,用 Xatt進(jìn)行表示. 其中取大小為的卷積核ω ∈ ?h×d對(duì)輸入的特征表示信息進(jìn)行提取局部特征,隨后使用最大池化得到特征圖的最大特征c.
使用m個(gè)卷積核對(duì)同一位置進(jìn)行特征提取,得到特征表示 v.
將全局注意力層的輸出作為全連接層的輸入,全連接層負(fù)責(zé)獲取最終的情感傾向.
其中softmax為激活函數(shù),Wfc代表全連接層的權(quán)重,bfc代表偏置.
實(shí)驗(yàn)在以下2個(gè)開放數(shù)據(jù)集上進(jìn)行:
SST-1:斯坦福情感樹數(shù)據(jù)集,已劃分為訓(xùn)練集/驗(yàn)證集/測(cè)試集.
MR:用戶對(duì)電影的評(píng)論數(shù)據(jù). 每一條評(píng)論數(shù)據(jù)包含正向和負(fù)向的情感傾向.
如表1所示,展示了2個(gè)數(shù)據(jù)的詳細(xì)信息,對(duì)數(shù)據(jù)集的標(biāo)簽進(jìn)行了人為處理,所以本文實(shí)驗(yàn)可以忽略標(biāo)簽和實(shí)驗(yàn)數(shù)據(jù)集中不相符合的情況.
表1 實(shí)驗(yàn)數(shù)據(jù)集Tab.1 The Statistical Data of Datasets
其中|V|為詞匯總量;average為篇章總量;max為所有包含的最多詞的篇章中所含詞的數(shù)量.
下列內(nèi)容將詳細(xì)地介紹實(shí)驗(yàn)參數(shù)設(shè)置和數(shù)據(jù)預(yù)處理過程. 數(shù)據(jù)集被劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集,所占比例分別為8:1:1. 使用Keras提供的tokenizer接口實(shí)現(xiàn)自動(dòng)分詞,所以本文將其作為數(shù)據(jù)預(yù)處理工具. 詞向量采用Mikolov等[16]提前訓(xùn)練好的公開結(jié)果集,向量維度映射為300維(https://code.google.com/archive/p/word2vec/). 詞注意力層取上下文范圍大小D=2,即L=5,滑動(dòng)窗口數(shù)量為1,激活函數(shù)為sigmoid函數(shù). 全局注意力多層感知機(jī)權(quán)重. 其他參數(shù)設(shè)置同Kim等[13]構(gòu)建情感分析的單層多通道的卷積神經(jīng)網(wǎng)絡(luò)模型相類似,卷積核大小分別取[1,2,3,4,5]用于卷積層實(shí)驗(yàn). 其卷積核數(shù)量設(shè)置為100,激活函數(shù)使用的是Rectified Linear Units(RELU),池化層采用的是Max-pooling進(jìn)行池化操作. 模型訓(xùn)練過程中對(duì)超參數(shù)進(jìn)行微調(diào),優(yōu)化器參數(shù)采用Adadelta算法作為模型優(yōu)化操作. Dropout值設(shè)為0.5,batch_size為64. 全連接層隱藏單元200個(gè).用十折交叉取平均值作為實(shí)驗(yàn)結(jié)果. 本文代碼使用Keras實(shí)現(xiàn)并優(yōu)化,采用Nvidia Tesla K40 GPU加速訓(xùn)練過程.
將前人研究在情感分析上的一些較好的模型方法作為本文的基線模型,將本文的方法與基線模型方法進(jìn)行對(duì)比,對(duì)比方法如下.
(1) NBSVM, MNB: 樸素貝葉斯和SVM用于對(duì)情緒和主題進(jìn)行分類[30]. (2) CNN-K:Kim等[13]構(gòu)建的情感分類的多通道單層卷積神經(jīng)網(wǎng)絡(luò)模型. (3) CNN-Z:Zhang等[20]通過對(duì)深度學(xué)習(xí)進(jìn)行構(gòu)建模型并總結(jié)了卷積神經(jīng)網(wǎng)絡(luò)對(duì)各種參數(shù)的分類效果. (4) CNN-A:詞嵌入和注意機(jī)制聯(lián)合應(yīng)用卷積神經(jīng)網(wǎng)絡(luò)的情感分析方法[31]. (5) CNN: 在本文的實(shí)驗(yàn)環(huán)境下,使用CNN在各數(shù)據(jù)集上的實(shí)驗(yàn). (6) Paragraph Vector: Le and Mikolov等[32]提出的一種文檔分布式情感分析方法.(7) Sent-Parser: 利用統(tǒng)計(jì)分析架構(gòu)方法進(jìn)行情感分析[33]. (8) DACNN1: 其他設(shè)置保持不變,在填充層上用padding-1方法在本文的雙注意力卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行實(shí)驗(yàn). (9) DACNN2: 其他設(shè)置保持不變,在填充層上用padding-2在本文的雙注意力卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行實(shí)驗(yàn). (10) DACNN-N:本文的雙注意力卷積神經(jīng)網(wǎng)絡(luò)模型中對(duì)填充層不使用任何padding方法.
本文在兩組數(shù)據(jù)集MR和SST-1上進(jìn)行多組不同的實(shí)驗(yàn),得到目標(biāo)的情感傾向準(zhǔn)確率值. 表2展示了通過對(duì)不同數(shù)據(jù)集的實(shí)驗(yàn)獲得的分類結(jié)果. 其中加粗?jǐn)?shù)字為最好的結(jié)果.
根據(jù)表2中的結(jié)果可以看出,本文提出的方法在兩個(gè)領(lǐng)域的數(shù)據(jù)集上達(dá)到的實(shí)驗(yàn)準(zhǔn)確率效果最優(yōu).較傳統(tǒng)的機(jī)器學(xué)習(xí)方法和原始CNN相比,DACNN1、DACNN2、DACNN-N在情感分析任務(wù)中取得較好的實(shí)驗(yàn)效果. CNN模型對(duì)所有單詞一視同仁,從每一處提取局部特征,無法識(shí)別關(guān)鍵詞. 與一般的神經(jīng)網(wǎng)絡(luò)模型相比,DACNN可以并行提取原始文本的特征和詞性信息. 與CNN模型相比,基于注意機(jī)制的DACNN模型在情感分類準(zhǔn)確率上有顯著提高,與CNN-K和CNN-A相比,DACNN在MR5K和SST-1數(shù)據(jù)集上分別提高了近0.7%和1%. 表明將文本的詞特征與詞性特征的有效融合,可以充分表達(dá)原文的情感信息,更有利于分析文本的情感傾向性. 并且局部注意力有效地捕捉到詞語和詞性信息中有關(guān)情感的重要信息,而全局注意力則有效地融合了這兩種特征,從而已達(dá)到了預(yù)期的效果.
表2 情感分析模型的實(shí)驗(yàn)結(jié)果Tab. 2 The results in the models of sentiment analysis %
從表2可以看出,DACNN-N模型在多個(gè)數(shù)據(jù)集上的性能略低于DACNN1和DACNN2. 根據(jù)圖4顯示,DACNN-N性能較原始CNN得到改進(jìn),但與DACNN1、DACNN2兩個(gè)模型進(jìn)行比較,性能較差.模型在訓(xùn)練過程中,在卷積層對(duì)文本進(jìn)行特征進(jìn)一步提取,添加填充層防止信息丟失的問題,提高實(shí)驗(yàn)的效果.
圖4顯示不同填充方法的優(yōu)劣是不確定的,其效果在不同的目標(biāo)數(shù)據(jù)中表現(xiàn)不同. 具體哪一種更好取決于具體的目標(biāo).
圖4 MR數(shù)據(jù)集上模型上十折交叉驗(yàn)證的實(shí)驗(yàn)結(jié)果Fig.4 10-fold cross validation experiment on MR dataset
了解卷積層中卷積神經(jīng)網(wǎng)絡(luò)的卷積運(yùn)算,根據(jù)中心詞提取單詞的n-grams特征,本文利用2種不同的填充方式,確保模型在卷積運(yùn)算過程中能夠提取到篇章中所有的上下文信息.
如表2和圖4所示,在MR和SST-1數(shù)據(jù)集上模型證明了該方法在改進(jìn)DACNN模型的效果. 在本節(jié)中,通過在MR數(shù)據(jù)集上的兩組實(shí)驗(yàn)來驗(yàn)證提出的理論,推測(cè)正確性和CNN上填充方法的有效性.
進(jìn)行更深層次實(shí)驗(yàn)驗(yàn)證DACNN模型的有效性.如表3和表4所示,驗(yàn)證了模型的理論預(yù)測(cè)正確性和CNN上填充方法有效性. 其中CNN-1代表使用padding-1的方法,CNN-2代表使用padding-2的方法.將單個(gè)卷積核和多個(gè)卷積核分別進(jìn)行實(shí)驗(yàn). 從表3可以看出,隨著卷積核的增加,效果越差,原因是卷積層在文本的開頭和結(jié)尾丟失的信息與卷積核的數(shù)量有關(guān),卷積核數(shù)量越多,丟失信息越多. 本文通過添加填充層,可以更好地表達(dá)文本的情感信息. 根據(jù)實(shí)驗(yàn)結(jié)果,CNN-1和CNN-2均取得了比原CNN更好的效果,該填充方法在多卷積核的卷積神經(jīng)網(wǎng)絡(luò)中是同樣有效的. 從表4中的實(shí)驗(yàn)結(jié)果可知,使用不同大小的卷積核,填充方法可以將模型效果提高0.3%~1%. 由此可得,該方法不僅適用于DACNN模型,而且適用于傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)模型.
表3 Padding對(duì)多卷積核模型的影響Tab. 3 Effect of filter region size with several region sizes %
表4 Padding對(duì)單卷積核模型的影響Tab. 4 Effect of single filter region size %
從表2可以看出整體模型的效果要優(yōu)于單一特征的模型,為進(jìn)一步驗(yàn)證全局注意力層的特征融合效果,設(shè)計(jì)本組實(shí)驗(yàn),如圖5所示. 為排除局部注意力的影響,實(shí)驗(yàn)在簡(jiǎn)單CNN上進(jìn)行.
圖5 全局注意力層特征融合效果對(duì)比Fig.5 Effect of the Global Attention for Integrating
為了幫助更好地理解詞注意力對(duì)模型的影響,此部分對(duì)特征提取進(jìn)行詞注意力可視化. 如圖6和圖7所示. 可視化實(shí)驗(yàn)數(shù)據(jù)由本文的2個(gè)實(shí)驗(yàn)數(shù)據(jù)集中隨機(jī)抽取的2條文本. 其中圖6表示取正向積極情感的文本數(shù)據(jù),圖7取負(fù)向消極情感的數(shù)據(jù)文本. 在詞注意力層獲取詞特征表示的權(quán)重值. 用不同顏色深度給文本進(jìn)行標(biāo)注,其中實(shí)驗(yàn)過程中顏色深的得到權(quán)重比較大. 淺顏色表示權(quán)重比較小. 為了便于視覺查看,其余比較低的權(quán)重詞特征表示未進(jìn)行標(biāo)注. 如圖6為SST-1中隨機(jī)抽取的數(shù)據(jù)文本,可以看出詞注意力確實(shí)具有將關(guān)鍵詞重點(diǎn)關(guān)注的作用.
圖6 SST-1數(shù)據(jù)集文本注意力機(jī)制可視化(正向)Fig.6 Visualization of review text with highlights on the SST-1 datasets
圖7 MR數(shù)據(jù)集文本注意力機(jī)制可視化(負(fù)向)Fig.7 Visualization of review text with highlights on the MR datasets
通過對(duì)情感分析研究,提出一種基于雙注意力的卷積神經(jīng)網(wǎng)絡(luò)模型,實(shí)驗(yàn)取得了較好效果. 首先,模型從詞和詞性個(gè)通道提取特征. 其次,采用局部注意力機(jī)制的方式使模型在訓(xùn)練過程中進(jìn)行特征詞提取,提高了模型的詞特征選擇能力. 最后對(duì)注意力機(jī)制層進(jìn)行可視化分析,充分證明了本文在模型中添加的詞注意力機(jī)制對(duì)情感分析實(shí)驗(yàn)是有幫助的. 最后,填充層的填充方法保證每個(gè)詞都具備上下文信息,篇章的特征表示由全局注意力層進(jìn)行特征融合.模型在MR和SST-1數(shù)據(jù)集上得到驗(yàn)證.
廣東工業(yè)大學(xué)學(xué)報(bào)2019年4期