吳 迪,王梓宇,趙偉超
(河北工程大學(xué)信息與電氣工程學(xué)院,河北 邯鄲 056038)
文本情感分類是自然語言處理領(lǐng)域的重要分支,廣泛應(yīng)用于輿情分析、內(nèi)容推薦等任務(wù),能幫助用戶快速獲取、整理和分析相關(guān)信息,并對帶有情感色彩的主觀性文本進行分析、處理、概括和推理。目前,深度學(xué)習(xí)技術(shù)[1]和注意力機制得到快速發(fā)展并且在文本分類領(lǐng)域取得了一定的研究進展。在利用深度學(xué)習(xí)技術(shù)實現(xiàn)自然語言處理的過程中,常用word2vec、Glove 等詞嵌入方式表示原始文本信息,從而有效捕捉句法和語義相關(guān)信息。文獻[2]提出一種基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)的情感分類模型CNN_Text_word2vec,引入word2vec 來訓(xùn)練每個單詞上的分布式單詞嵌入,通過多個不同大小的卷積核來學(xué)習(xí)文本特征。文獻[3]提出卷積神經(jīng)網(wǎng)絡(luò)和長短期記憶(Long Short-Term Memory,LSTM)網(wǎng)絡(luò)模型CNNLSTM,采用word2vec訓(xùn)練初始單詞向量,利用CNN 提取文本局部特征,通過LSTM 捕獲序列之間的長期依賴關(guān)系。文獻[4]提出一種基于深度卷積神經(jīng)網(wǎng)絡(luò)的文本情感分類模型,堆疊多個卷積層,并利用全局最大池化構(gòu)建情感分類模塊。文獻[5]提出MTL-MSCNNLSTM 模型,將多尺度CNN 和LSTM 相結(jié)合,有效利用處理不同尺度文本的局部和全局特征。文獻[6]提出MF-CNN 模型,結(jié)合多樣化的特征信息,利用句中的情感特征優(yōu)化情感分類結(jié)果。針對現(xiàn)有深度學(xué)習(xí)技術(shù)在文本情感分類任務(wù)中特征提取能力不足的問題,研究人員提出了一系列解決方案。文獻[7]提出一種雙通道卷積神經(jīng)網(wǎng)絡(luò)模型,將擴展文本特征和語義特征分別輸入到多通道的CNN 模型中,增強模型的情感特征提取能力。文獻[8]提出一種基于深度學(xué)習(xí)的詞匯集成雙通道CNN-LSTM 情感分析模型,將CNN 和雙向長短期記憶(Bi-directional Long Short-Term Memory,BiLSTM)分支以并行方式組合在一起提取特征。文獻[9]提出一種卷積神經(jīng)網(wǎng)絡(luò)和長短期記憶結(jié)合的模型,串聯(lián)CNN 和LSTM 兩個模型提取文本情感特征。文獻[10]提出Multi-Bi-LSTM 模型,對現(xiàn)有的信息生成不同的特征通道,利用BiLSTM 學(xué)習(xí)句子中的情感傾向信息。注意力機制本質(zhì)上與人類的選擇性機制類似,其目標(biāo)是從眾多信息中選擇出對當(dāng)前任務(wù)目標(biāo)更關(guān)鍵的信息,被廣泛應(yīng)用于自然語言處理、圖像與語音識別等各種不同類型的深度學(xué)習(xí)任務(wù)中,可有效提高模型分類效果。文獻[11]提出一種多通道卷積神經(jīng)網(wǎng)絡(luò)模型,采用3 種通道進行卷積操作,利用字向量發(fā)現(xiàn)文本深層語義特征。文獻[12]提出一種基于RNN 和CNN 并融入注意力機制的新模型。文獻[13]利用區(qū)域LSTM 來調(diào)整不同信息對分類結(jié)果的影響程度,并實現(xiàn)了區(qū)域劃分。文獻[14]提出一種基于遞歸神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)的情感分析方法,將預(yù)處理后的文本數(shù)據(jù)輸入到一個或者多個RNN 中,利用注意力機制進行處理。文獻[15]對不同注意力模塊進行獨立訓(xùn)練,用以提取各類文本情感特征。文獻[16]提出基于注意力機制的AT-DPCNN 模型,利用CNN 進一步提取注意力輸入矩陣的特征。文獻[17]提出一種基于注意力的雙向CNN-RNN 模型,利用注意力機制給雙向特征提取層賦予權(quán)重。文獻[18]在利用多頭注意力機制的同時加入位置編碼,采用圖卷積網(wǎng)絡(luò)獲取文本的情感信息。
上述模型由于采用傳統(tǒng)的靜態(tài)詞向量進行建模,導(dǎo)致上下文相似但情感極性不同的詞語映射到向量空間相鄰位置,影響情感分類效果,因此本文充分考慮不同上下文中的一詞多義現(xiàn)象,并且兼顧提取全局特征與局部特征,提出一種ELMo[19]-CNN-雙向門控遞歸單元(Bi-directional Gated Recurrent Unit,BiGRU)雙通道文本情感分類模型。將動態(tài)詞向量與靜態(tài)詞向量相結(jié)合,以實現(xiàn)不同上下文語境中的一詞多義效果。采用注意力機制處理輸入向量,得到內(nèi)部詞之間的依賴關(guān)系。構(gòu)建CNN-BiGRU 雙通道結(jié)構(gòu),并行提取數(shù)據(jù)的局部和全局特征,以實現(xiàn)特征的完整提取。
文獻[19]提出的ELMo 是一個雙層雙向的LSTM 模型,分別有一個前向和一個后向語言模型,前向LSTM 和后向LSTM通過和計算獲得,其中(c1,c2,…,cn)表示n個文本序列。ELMO 預(yù)訓(xùn)練模型結(jié)構(gòu)如圖1所示,其中E表示文本語料的詞向量。利用大量語料訓(xùn)練ELMo 模型結(jié)構(gòu),獲得預(yù)訓(xùn)練模型。將ELMo 預(yù)訓(xùn)練模型生成數(shù)據(jù)的動態(tài)詞向量與Glove預(yù)訓(xùn)練模型生成的靜態(tài)詞向量進行堆疊嵌入,作為ELMo-CNN-BiGRU 模型的輸入特征。
圖1 ELMo 預(yù)訓(xùn)練模型結(jié)構(gòu)Fig.1 ELMo pretrained model structure
注意力機制是一種權(quán)重分配機制,通過調(diào)整權(quán)重系數(shù)來修改文本特征的關(guān)鍵程度。權(quán)重系數(shù)越大,表示該信息越重要,對文本情感分類結(jié)果影響越大。本文采用自注意力(Self-Attention)機制,僅關(guān)注自身信息更新訓(xùn)練參數(shù),降低對外部信息的依賴程度,更好地獲取信息的內(nèi)部關(guān)聯(lián)關(guān)系。
構(gòu)建CNN 和BiGRU 雙通道模型,同時獲取輸入信息的局部特征和全局特征。雙通道結(jié)構(gòu)可以有效彌補CNN 和BiGRU 模型各自缺陷,充分捕捉局部和全局的情感特征,優(yōu)化文本情感分類結(jié)果。
1)局部特征獲取。采用CNN 獲取輸入信息的局部特征。通過卷積層抽取信息特征,獲取評論文本信息的局部語義特征。利用多尺度卷積核,采用不同尺度的卷積過濾器來幫助模型進行特征學(xué)習(xí),獲得不同距離單詞間的特征信息。經(jīng)過卷積層提取文本的特征信息后,輸入最大池化層中進行特征降維。
2)全局特征獲取。采用BiGRU 獲取輸入信息的全局特征,并且充分考慮上下文信息,更好地捕捉文本中的語義信息。BiGRU 中的GRU 單元結(jié)構(gòu)如圖2 所示,GRU 單元在t時刻的更新門rt、重置門zt、當(dāng)前記憶內(nèi)容hc、當(dāng)前時間的最終記憶ht更新過程如下:
圖2 GRU 單元結(jié)構(gòu)Fig.2 GRU unit structure
其中:xt為輸入向量;σ、tanh 為激活函數(shù);ht-1是t?1 時刻隱藏層狀態(tài)信息;Wr、Wz、Wh、Ur、Uz、Uh為權(quán)重矩陣;br、bz、bh為偏置值;⊙符號是向量間點乘運算。
本文提出一種ELMo-CNN-BiGRU 文本情感分類模型。首先,對原始評論文本數(shù)據(jù)進行去停用詞、無用標(biāo)簽、特殊符號等預(yù)處理操作。然后,在詞嵌入操作過程中,采用ELMo 和Glove 模型分別生成動態(tài)詞向量和靜態(tài)詞向量,將兩種詞向量進行堆疊嵌入作為模型的輸入向量。其次,利用自注意力機制處理輸入向量,獲取信息的內(nèi)部關(guān)聯(lián)關(guān)系。再次,利用雙通道的CNN 和BiGRU 模型分別提取局部和全局特征。最后,將雙通道提取的特征進行拼接,經(jīng)全連接層處理后,輸入分類器進行文本情感分類操作。ELMo-CNN-BiGRU 模型框架如圖3 所示。
圖3 ELMo-CNN-BiGRU 模型框架Fig.3 ELMo-CNN-BiGRU model frame
由于靜態(tài)詞向量生成后不會發(fā)生改變,因此在應(yīng)對不同上下文中一詞多義情況時存在局限性。動態(tài)詞向量會隨著模型訓(xùn)練在不同上下文中做出調(diào)整,其初始化會影響到文本情感分類的收斂速度和最終結(jié)果。單獨使用靜態(tài)詞向量和動態(tài)詞向量其中的一種均存在一定的問題。為了在更精準(zhǔn)地表示文本詞向量的同時加快模型收斂速度,并優(yōu)化文本情感分類結(jié)果,采用Glove 模型生成的靜態(tài)詞向量與ELMo 預(yù)訓(xùn)練模型生成的動態(tài)詞向量,以堆疊嵌入的方式作為模型的輸入向量。利用ELMo 預(yù)訓(xùn)練模型進行詞嵌入操作,應(yīng)對不同上下文中一詞多義的情況,使用堆疊嵌入的方式融合兩種詞向量,能夠有效優(yōu)化文本情感分類結(jié)果。
Glove 模型生成詞的向量為wg,具體公式如下:
其中:t表示詞向量wg的維度。
ELMo 模型生成的詞向量為we,具體公式如下:
其中:T表示詞向量we的維度。
將wg與we堆疊生成的詞向量,作為模型隱藏層的輸入數(shù)據(jù)iinput,具體公式如下:
采用Self-Attention 機制得到內(nèi)部的詞依賴關(guān)系,具體公式如下:
其中:dk為輸入詞嵌入向量的維度;W為輸入信息。
將堆疊嵌入的特征向量,輸入到由Self-Attention機制構(gòu)建的注意力層,進一步在雙通道深度學(xué)習(xí)層中獲取局部與全局特征。
ELMo-CNN-BiGRU 模型采用雙通道結(jié)構(gòu),其中CNN 通道用來捕獲評論文本數(shù)據(jù)的局部特征,BiGRU 通道用來獲取評論文本數(shù)據(jù)的全局特征。該結(jié)構(gòu)可以同步綜合考量評論文本數(shù)據(jù)的局部和全局特征,在提取文本數(shù)據(jù)全局情感傾向特征的同時,捕獲文本的局部情感特征,從而更全面地獲取文本的情感特征,有效優(yōu)化文本情感分類結(jié)果。
2.3.1 CNN 通道
ELMo-CNN-BiGRU 模型利用CNN 通道獲取文本數(shù)據(jù)的局部特征,其中CNN 通道由卷積層和池化層兩部分組成。
1)卷積層
卷積層采用3 種不同大小的卷積核,獲得不同距離詞序列之間的特征來提取更全面的局部信息。在CNN 通道中,利用卷積核進行一維卷積操作,將詞嵌入矩陣轉(zhuǎn)化為一維向量,采用ReLU 函數(shù)作為卷積層的激活函數(shù)。卷積操作能提取詞語序列的特征,從詞語序列Xi:i+h?1中提取特征圖,具體公式如下:
其中:b?Rk為偏置項,k為向量的維度;f為非線性函數(shù)ReLu;W?Rhd表示卷積核,h(h 2)池化層 采用最大池化法提取特征圖(Zmax)中池化區(qū)域最大的特征值,可對特征信息進行降維,具體公式如下: 2.3.2 BiGRU 通道 BiGRU 通道用于提取數(shù)據(jù)的全局特征。在BiGRU 模型中,t時刻當(dāng)前隱藏層ht由前向隱藏層和后向隱藏層加權(quán)求和得到,具體計算如下: 其中:xt表示當(dāng)前隱藏層的輸入向量表示(t?1)時刻前向隱藏層狀態(tài)表示t?1 時刻后向隱藏層狀態(tài);wt、vt分別表 示t時 刻BiGRU 所對應(yīng)的前向隱藏層和后向隱藏層的相關(guān)權(quán)重值;bt表示t時刻隱藏層狀態(tài)的偏置值。 將雙通道的特征數(shù)據(jù)進行拼接后,輸入到全連接層中,通過在全連接層前融合Dropout 方法緩解模型過擬合現(xiàn)象。利用softmax 函數(shù)對文本進行情感分類,具體公式如下: 其中:a、b分別為全連接層的權(quán)重矩陣和偏置值;y為雙通道拼接后的向量數(shù)據(jù);Y為利用Dropout 方法處理后的向量。 ELMo-CNN-BiGRU 文本情感分類流程具體如下: 1)將文本D同時輸入ELMo 預(yù)訓(xùn)練模型和Glove 預(yù)訓(xùn)練模型,生成對應(yīng)的詞向量Se=[w1,w2,…,wx]、Sg=[w1,w2,…,wX],其中文本D由x個句子{d1,d2,…,dx}組成,文本中第i個句子由j個單詞{c1,c2,…,cj}組成,x和X為Glove 和ELMo 所生成的詞向量的維度。 2)將生成的詞向量進行堆疊式嵌入,得到模型的輸入向量iinput=[Se,Sg]。 3)將詞嵌入層生成的向量輸入自注意力層進行處理。 4)將自注意力機制層中的數(shù)據(jù)分別輸入雙通道的CNN 層和BiGRU 層,分別得到兩個通道的隱藏層表示。 5)拼接雙通道的特征向量并輸入帶有Dropout機制的全連接層,經(jīng)過全連接層處理后使用softmax函數(shù)進行分類,獲得情感分類的最終結(jié)果。 在Colaboratory 云平臺上進行模型搭建,采用Python編程語言和keras框架進行實驗。在IMDB、yelp、sentiment140 數(shù)據(jù)集上,將ELMo-CNN-BiGRU 模型與6 種模型進行性能對比,此外,針對ELMo-CNN-BiGRU模型,將在迭代次數(shù)、詞向量維度、詞向量嵌入方式和通道結(jié)構(gòu)這4個方面進行對比實驗,以驗證ELMo-CNNBiGRU 雙通道文本情感分類模型的有效性。實驗所用數(shù)據(jù)集中訓(xùn)練集和測試集的數(shù)據(jù)量比例為8∶2,具體統(tǒng)計信息如表1 所示。 表1 數(shù)據(jù)集統(tǒng)計信息Table 1 Data set statistics 將句子最大長度設(shè)置為100。對于小于最大長度的句子,采取補零操作;對于大于最大長度的句子,采取截斷操作。采用Adam 函數(shù)作為模型的訓(xùn)練優(yōu)化函數(shù),Adam 函數(shù)的學(xué)習(xí)率設(shè)置為0.000 1。在ELMo-CNN-BiGRU 模型的CNN 通道中,多通道CNN 選取的卷積核窗口大小分別設(shè)置為2、3、5,采用Dropout 機制應(yīng)對模型可能會發(fā)生的過擬合現(xiàn)象。BiGRU 模塊采用Tanh 作為神經(jīng)元的激活函數(shù),CNN模塊采用ReLU 函數(shù)作為卷積操作的激活函數(shù)。超參數(shù)設(shè)置如表2 所示。 表2 超參數(shù)設(shè)置Table 2 Hyperparameter setting 采用準(zhǔn)確率(A)和F1 值(F)作為評價指標(biāo),用來測試ELMo-CNN-BiGRU 及其對比模型性能。準(zhǔn)確率和F1 值的計算公式分別如下: 其中:P表示精確率;R表示召回率;TTP表示實際標(biāo)簽是真,模型預(yù)測結(jié)果為真的文本數(shù)量;FFN表示實際標(biāo)簽為真,但是模型預(yù)測結(jié)果為假的文本數(shù)量;FFP表示實際標(biāo)簽為假,但是模型預(yù)測結(jié)果為真的文本數(shù)量;TTN表示實際標(biāo)簽為假,模型預(yù)測結(jié)果也為假的文本數(shù)量。 為驗證ELMo-CNN-BiGRU 模型性能,首先測試迭代次數(shù)對實驗結(jié)果的影響,其次測試不同詞向量維度、詞向量嵌入方式、通道結(jié)構(gòu)下的模型準(zhǔn)確率和F1 值,最后將ELMo-CNN-BiGRU 與CNN、BiGRU等6 種文本情感分類模型進行對比實驗。 3.4.1 迭代次數(shù)對比 在IMDB、yelp、sentiment140 這3 個數(shù)據(jù) 集上,ELMo-CNN-BiGRU 模型的準(zhǔn)確率和F1 值隨著迭代次數(shù)的變化趨勢如圖4、圖5 所示。 圖4 ELMo-CNN-BiGRU 模型在3個數(shù)據(jù)集上的準(zhǔn)確率對比Fig.4 Comparison of the accuracy of the ELMo-CNN-BiGRU model on the three data sets 圖5 ELMo-CNN-BiGRU 模型在3 個數(shù)據(jù)集上的F1 值對比Fig.5 Comparison of F1 value of ELMo-CNN-BiGRU model on three data sets 由圖4、圖5 可知:在第10 次迭代前,ELMo-CNNBiGRU 模型的準(zhǔn)確率和F1 值總體呈現(xiàn)緩慢上升趨勢,這是由于模型剛開始訓(xùn)練,權(quán)重參數(shù)在初始化階段,需要增加迭代次數(shù)才能訓(xùn)練出提升模型分類效果的參數(shù);在第10 次迭代后,ELMo-CNN-BiGRU 模型的準(zhǔn)確率和F1 值在IMDB、yelp、sentiment140 這3 個數(shù)據(jù)集上普遍呈現(xiàn)較快上升趨勢,這是由于經(jīng)過迭代訓(xùn)練,模型已經(jīng)訓(xùn)練出部分能提升模型分類效果的有效參數(shù),進而加快了迭代速度;在第20次迭代后,ELMo-CNN-BiGRU模型在準(zhǔn)確率和F1 值上普遍處于平穩(wěn)狀態(tài),這是由于模型要達到擬合狀態(tài),結(jié)果變化不明顯;在IMDB、yelp、sentiment140 這3 個數(shù)據(jù) 集上,ELMo-CNN-BiGRU 模型的準(zhǔn)確率和F1 值的變化趨勢相近,這表明ELMo-CNN-BiGRU 模型面對有差異數(shù)據(jù)時,分類結(jié)果具有一定的穩(wěn)定性。 綜上所述,在3 個數(shù)據(jù)集上,ELMo-CNN-BiGRU模型在sentiment140 數(shù)據(jù)集上取得了最優(yōu)結(jié)果,這是由于該模型使用的ELMo 模型更適合處理短文本數(shù)據(jù),在較短的文本上能獲得更好的分類效果。 3.4.2 詞向量維度對比 詞向量維度對模型性能具有一定的影響。詞向量維度越大,所表示的信息量越大,但會淡化詞語之間的聯(lián)系,然而詞向量維度過小,則會產(chǎn)生無法有效區(qū)分詞語的問題,因此需要選擇合適的詞向量維度。在3 個數(shù)據(jù)集上,對ELMo-CNN-BiGRU 模型使用不同維度的詞向量進行實驗測試。本文使用ELMo 模型和Glove模型堆疊的方式生成詞向量,其中ELMo分別生成256、512、102 4 維的向量,Glove 分別生成50、100、200 維的向量,將兩者堆疊后產(chǎn)生不同維度的詞向量。在3 個數(shù)據(jù)集上,當(dāng)詞向量維度不同時,ELMo-CNN-BiGRU模型的準(zhǔn)確率與F1 值對比結(jié)果如圖6、圖7 所示。 圖6 詞向量維度對ELMo-CNN-BiGRU 模型準(zhǔn)確率的影響Fig.6 Effect of word vector dimension on the accuracy of ELMo-CNN-BiGRU model 圖7 詞向量維度對ELMo-CNN-BiGRU 模型F1 值的影響Fig.7 Effect of word vector dimension on F1 value of ELMo-CNN-BiGRU model 由圖6、圖7可知:ELMo-CNN-BiGRU 模型在3 個數(shù)據(jù)集上的準(zhǔn)確率和F1 值都在詞向量維度為612時達到最優(yōu)效果。此時,ELMo 模型詞向量維度為512、Glove模型詞向量維度為100,因此詞向量維度并非越大效果越好,過大反而會導(dǎo)致模型的性能下降。在詞向量維度到達612之前,模型的性能震蕩上升,在612 維度后模型的性能震蕩下降??梢?,ELMo-CNNBiGRU 模型性能變化不穩(wěn)定,震蕩改變是由于本文的詞向量采用堆疊嵌入,動態(tài)詞向量與靜態(tài)詞向量對模型性能的影響程度不同。 3.4.3 詞向量嵌入方式對比 采用ELMo 和Glove模型分別生成動態(tài)詞向量與靜態(tài)詞向量,堆疊后作為模型的輸入向量,為驗證堆疊嵌入方式的優(yōu)勢,將其與word2vec、Glove、ELMo、ELMo+word2vec 進行對比,在采用不同的詞向量嵌入方式時,預(yù)訓(xùn)練模型的準(zhǔn)確率與F1 值結(jié)果如圖8、圖9 所示。由圖8、圖9 可知:ELMo 和Glove 堆疊嵌入方式明顯優(yōu)于其他4 種詞嵌入方式;與傳統(tǒng)靜態(tài)詞向量嵌入方式相比,動態(tài)詞向量與靜態(tài)詞向量堆疊嵌入方式能根據(jù)不同的上下文調(diào)整詞向量,使得模型在準(zhǔn)確率和F1 值上取得更好的效果;與ELMo和word2vec 堆疊嵌入方式相比,Glove 充分考慮全局信息,在實際應(yīng)用中效果更好。 圖8 不同詞向量嵌入方式對ELMo-CNN-BiGRU 模型準(zhǔn)確率的影響Fig.8 Effect of different word vector embedding modes on the accuracy of ELMo-CNN-BiGRU model 圖9 不同詞向量嵌入方式對ELMo-CNN-BiGRU 模型F1 值的影響Fig.9 Effect of different word vector embedding modes on the F1 value of ELMo-CNN-BiGRU model 3.4.4 通道結(jié)構(gòu)對比 ELMo-CNN-BiGRU 模型采用雙通道結(jié)構(gòu),將數(shù)據(jù)送入雙通道結(jié)構(gòu),能更好地捕捉文本數(shù)據(jù)的全局與局部特征。在3 個數(shù)據(jù)集上分別進行雙通道結(jié)構(gòu)與CNN-BiGRU 串行結(jié)構(gòu)的準(zhǔn)確率和F1 值對比,實驗結(jié)果如圖10、圖11 所示。 圖10 雙通道結(jié)構(gòu)對模型準(zhǔn)確率的影響Fig.10 Effect of dual-channel structure on model accuracy 圖11 雙通道結(jié)構(gòu)對模型F1 值的影響Fig.11 Effect of dual-channel structure on model F1 value 由圖10、圖11 可知,雙通道結(jié)構(gòu)較串行結(jié)構(gòu)可有效提升模型性能,在IMDB、yelp、sentiment140這3個數(shù)據(jù)集上,準(zhǔn)確率分別提升了2.91、3.08、3.28個百分點,F(xiàn)1 值分別提升了2.87、2.98、3.13 個百分點。 3.4.5 文本情感分類模型對比 將ELMo-CNN-BiGRU 模型與如下6 種模型進行對比實驗: 1)CNN,采用卷積層提取特征,池化層降低特征維度。 2)BiGRU,在門控遞歸單元的基礎(chǔ)上,采用雙向結(jié)構(gòu)進行情感分析。 3)BiLSTM+EMB_ATT[20],使用注 意力機制學(xué)習(xí)句子的情感傾向權(quán)重分布,利用LSTM 獲取文本的語義信息。 4)BiGRU-CNN[21],引入注意力機制,將BiGRU和CNN 串行疊加構(gòu)建情感分類模型。 5)H-BiGRU[22],利用BiGRU 編碼表示詞向量和句向量,采用注意力機制加權(quán)求和獲得數(shù)據(jù)的最終表示形式。 6)PF-CNN[23],分段提取句子特征,并融合詞性特征與詞向量區(qū)分同義詞。 文本情感分類模型的準(zhǔn)確率和F1 值對比結(jié)果如表3、表4 所示。 表3 準(zhǔn)確率對比結(jié)果Table 3 Accuracy comparison results % 表4 F1 值對比結(jié)果Table 4 F1 value comparison result % 由表3、表4 可知:BiGRU 由于能夠獲取評論文本的語義信息和雙向的上下文信息,較CNN 在準(zhǔn)確率和F1 值上獲得更好的結(jié)果;BiGRU-CNN 在BiGRU和CNN 串聯(lián)處理特征信息的基礎(chǔ)上,融入注意力機制,較CNN 和BiGRU 模型更 優(yōu);ELMo-CNN-BiGRU模型采用動態(tài)詞向量技術(shù)進行詞嵌入,通過BiGRU 和CNN 雙通道并行提取特征,能夠同時獲得原始文本信息的全局特征和局部特征,與采用串聯(lián)結(jié)構(gòu)的BiGRUCNN 模型相比,評論文本情感分類準(zhǔn)確率和F1值均有所提高;ELMo-CNN-BiGRU 采用自注意力機制,對原始評論文本信息進行權(quán)重處理,能夠?qū)χ匾畔⑼度敫嚓P(guān)注,有效解決一詞多義問題,與H-BiGRU、BiLSTM+EMB_ATT、PF-CNN模型對比,在評論文本情感分類方面具有更好的性能表現(xiàn);ELMo-CNN-BiGRU模型在3 個數(shù)據(jù)集上的準(zhǔn)確率和F1 值均為最優(yōu),與對比模型中情感分類性能最優(yōu)的H-BiGRU 模型相比,準(zhǔn)確率分別提升了2.42、1.98、2.52個百分點,F(xiàn)1值分別提升了2.40、1.94、2.43 個百分點。 本文提出一種ELMo-CNN-BiGRU 雙通道文本情感分類模型。在輸入層,融合靜態(tài)詞向量和動態(tài)詞向量進行堆疊嵌入,使得文本信息表示能夠較好地根據(jù)上下文調(diào)整語義。利用自注意力機制為文本信息分配權(quán)重,獲得文本內(nèi)部的詞依賴關(guān)系,并將其輸入到BiGRU-CNN 雙通道中,更全面地獲取文本數(shù)據(jù)的局部與全局特征。最終使用softmax 分類器,實現(xiàn)文本情感分類。實驗結(jié)果表明,在IMDB、yelp 和sentiment140 這3 個數(shù)據(jù)集上,ELMo-CNN-BiGRU 模型相較于CNN、BIGRU、BiLSTM+EMB_ATT、PF-CNN、BiGRU-CNN和H-BiGRU 模型具有更優(yōu)的情感分類性能。下一步將建立細(xì)粒度情感分類模型,并且通過融合注意力機制,識別結(jié)構(gòu)更復(fù)雜的評論文本的情感傾向。2.4 分類層
2.5 文本情感分類流程
3 實驗結(jié)果與分析
3.1 數(shù)據(jù)集與實驗環(huán)境設(shè)置
3.2 超參數(shù)設(shè)置
3.3 評價指標(biāo)
3.4 結(jié)果分析
4 結(jié)束語