劉司搖,周艷玲,蘭正寅,張 龑,曾張帆
(湖北大學(xué) 計(jì)算機(jī)與信息工程學(xué)院,湖北 武漢 430062)
隨著互聯(lián)網(wǎng)高速發(fā)展與通信設(shè)備普及,各式各樣的社交媒體平臺(tái)通過網(wǎng)絡(luò)被推送到生活中,越來越多的用戶通過微博、淘寶等應(yīng)用軟件發(fā)表對(duì)新聞、產(chǎn)品的態(tài)度和評(píng)價(jià)[1]。情感分析的目的是從具有主觀性的文本中提取用戶情感,屬于自然語言處理的基本任務(wù)之一[2]。通過情感分析這些評(píng)論文本數(shù)據(jù),可獲取用戶對(duì)商品的評(píng)價(jià)或網(wǎng)民對(duì)社會(huì)新聞的態(tài)度,從而精準(zhǔn)把握用戶需求,調(diào)節(jié)產(chǎn)品市場(chǎng)方向;引導(dǎo)社會(huì)輿論向積極方向發(fā)展,避免負(fù)面事件進(jìn)一步發(fā)酵。因此,通過情感分析網(wǎng)絡(luò)交互信息中的用戶觀點(diǎn)與情緒極具商業(yè)價(jià)值和社會(huì)意義,如何在海量數(shù)據(jù)中挖掘有效信息,利用深度學(xué)習(xí)方法更好地捕捉深層次文本語義特征便具有十分重要的研究價(jià)值[3]。
目前,文本情感分析方法主要分為:①基于情感詞典的情感分析方法[4],但情感詞通常具有滯后性,因此通用性不足且耗時(shí)耗力;②基于傳統(tǒng)機(jī)器學(xué)習(xí)的情感分析方法[5],該方法通過機(jī)器學(xué)習(xí)相關(guān)技術(shù)提取文本中的情感特征,建立訓(xùn)練模型后預(yù)測(cè)文本情感,但對(duì)特征提取質(zhì)量的依賴性較大,難以達(dá)到滿意的效果;③基于深度學(xué)習(xí)的情感分析方法[6],該方法通過模擬人腦結(jié)構(gòu),借助多層神經(jīng)元自動(dòng)提取、更新、優(yōu)化特征,從而提升情感分析的準(zhǔn)確度,現(xiàn)已取得了較好的性能[7-9],但如何利用深度學(xué)習(xí)方法抽取更深層次的文本語義特征仍然亟待解決。
本文為了提升中文文本情感分類效果,利用各模型優(yōu)勢(shì)捕捉多維度語義信息,增強(qiáng)文本向量表征能力,提出一種融合雙通道語義特征(Fused on Dual Channel Semantic Features,F(xiàn)DSF)的情感分析模型。首先,將BERT 作為詞嵌入層以獲取文本詞向量矩陣表示,將其輸入BiGRU 來提取全局文本序列特征,并引入注意力機(jī)制分配特征向量權(quán)重;然后利用CNN 提取文本矩陣多個(gè)粒度下的局部特征,并將BiGRU-Attention 與CNN 輸出特征信息進(jìn)行向量融合;最后由全連接層Softmax 分類器輸出文本的情感傾向。
文本向量化是情感分析研究的關(guān)鍵環(huán)節(jié),通過神經(jīng)網(wǎng)絡(luò)對(duì)文本構(gòu)建詞向量矩陣,讓機(jī)器理解文本語義,對(duì)情感極性的判斷具有重要的研究意義。常用的詞向量表示方法包括One-hot 編碼[10]、Word2vec[11]、BERT、Glove[12]等。其中,Glove 詞嵌入模型同時(shí)考慮了文本的局部和整體語義信息,結(jié)合了LSA 與Word2vec 的優(yōu)點(diǎn),提升了模型訓(xùn)練速度和分類準(zhǔn)確度,但構(gòu)建的靜態(tài)詞向量仍然無法解決相同文字在不同語句中的一詞多義問題。
為此,Google 提出采用雙向Transformer 編碼器的語言表示模型BERT(Bidirectional Encoder Representations from Trans-formers)。Devlin 等[13]通過BERT 模型預(yù)訓(xùn)練的文本數(shù)據(jù)在11 個(gè)自然語言處理任務(wù)上獲得了較好的效果。王宇晗等[14]提出一種基于BERT 的嵌入式主題模型,在主題多樣性、建模時(shí)的一詞多義等問題上表現(xiàn)優(yōu)越,在大規(guī)模文本中能提取高質(zhì)量、細(xì)粒度的主題詞。Karimi 等[15]提出一種基于BERT 對(duì)抗性訓(xùn)練的新模型,利用對(duì)抗性訓(xùn)練完成情感分析中的特征提取、特征情感分類兩個(gè)主要任務(wù),研究表明在這兩個(gè)任務(wù)中該方法相較于傳統(tǒng)方法效果更優(yōu)。此外,Pang 等[16]基于Transformer 雙向編碼表示(BERT),通過構(gòu)造一個(gè)方面特征定位模型提出了一種有效的方面級(jí)情感分析方法。
隨著情感分析研究深入,基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)模型受到了眾多學(xué)者青睞,已廣泛應(yīng)用于自然語言處理領(lǐng)域中。常見的神經(jīng)網(wǎng)絡(luò)技術(shù)包括卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)[17]、循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)[18]、門控循環(huán)單元(Gate Recurrent Unit,GRU)[19]等,以上模型可從文本中提取特征并不斷優(yōu)化,相較于傳統(tǒng)機(jī)器學(xué)習(xí)方法無需繁瑣的人工標(biāo)注就能取得更好的效果,并能提取更深層次的句子級(jí)特征信息,在下游任務(wù)情感分析中的應(yīng)用效果顯著。Jelodar 等[20]通過長短時(shí)記憶網(wǎng)絡(luò)(Long Short Term Memory,LSTM)分析新型冠狀病毒的情感,揭示了利用公眾輿論和適當(dāng)?shù)挠?jì)算技術(shù)了解該問題并指導(dǎo)相關(guān)決策的重要性,準(zhǔn)確度達(dá)到81.15%。
除了基于單一神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)算法,越來越多的研究人員考慮結(jié)合不同神經(jīng)網(wǎng)絡(luò)方法的優(yōu)點(diǎn)組成混合神經(jīng)網(wǎng)絡(luò)的模型,并應(yīng)用于情感分析。Ume 等[21]提出一種結(jié)合CNN 和LSTM 的深度網(wǎng)絡(luò),在Twitter 數(shù)據(jù)集上進(jìn)行情感分析的結(jié)果表明,該模型優(yōu)于單一機(jī)器學(xué)習(xí)分類器。Liu等[22]提出一種Bert-BiGRU-Softmax 的混合模型,利用BERT 模型作為輸出層提取情感特征,以雙向門控循環(huán)單元(BiGRU)為隱藏層計(jì)算情感權(quán)重,以注意力機(jī)制為輸出層,準(zhǔn)確率達(dá)到95.5%以上。
然而,基于單通道的混合神經(jīng)網(wǎng)絡(luò)模型往往會(huì)因融合加深網(wǎng)絡(luò)層次,特征向量壓縮損失更多文本語義信息,致使情感傾向發(fā)生偏差?;陔p通道的混合神經(jīng)網(wǎng)絡(luò)模型由兩個(gè)互不干擾的網(wǎng)絡(luò)通道組成,充分利用了不同深度學(xué)習(xí)模型的優(yōu)勢(shì),從多方面提取文本特征語義,在一定程度上降低了網(wǎng)絡(luò)層次深度造成的語義信息損失。
本文提出的FDSF 模型結(jié)構(gòu)由輸入層、BERT 詞嵌入層、提取全局語義特征的BiGRU-Attention 層、提取多粒度下局部語義特征信息的CNN 層和語義向量融合輸出層構(gòu)成,如圖1所示。
Fig.1 FDSF model圖1 FDSF模型
預(yù)訓(xùn)練模型BERT 以無監(jiān)督方式,通過大量無標(biāo)注的文本數(shù)據(jù)進(jìn)行訓(xùn)練,得到具有文本語句情感性傾向的詞向量。在不同下游任務(wù)中無需特意更改模型,只進(jìn)行相對(duì)應(yīng)的微調(diào)即可,相較于Word2vec、Glove、BERT 等常用的詞嵌入模型,利用雙向Transformer 編碼器的多頭注意力機(jī)制可捕獲到更準(zhǔn)確的語義信息,解決了相同字詞在不同語境中的一詞多義問題。
如圖2 所示,BERT 模型利用雙向Transform-er 編碼器提取文本中的語義信息。其中,w1,w2,…,wn表示文本輸入,通過多層Transf-ormer 訓(xùn)練得到對(duì)應(yīng)的文本輸出O1,O2,…,On。Transformer 編碼器由多個(gè)編碼器組成,每個(gè)編碼器分為多頭自注意力層和前饋層,自注意力層的主要作用是在捕獲詞向量時(shí)能考慮該單詞與其他單詞的上下文語義關(guān)聯(lián),有利于在深度學(xué)習(xí)任務(wù)中聚焦更重要的單詞,加快訓(xùn)練速度。
Fig.2 BERT word embedding圖2 BERT詞嵌入
考慮到在復(fù)雜的任務(wù)中,自注意力機(jī)制層對(duì)文本的擬合程度不夠,前饋神經(jīng)網(wǎng)絡(luò)的兩個(gè)線性層能加強(qiáng)Transformer 的表達(dá)能力。因此,在進(jìn)入解碼器前,Transformer 編碼器還會(huì)對(duì)輸出進(jìn)行殘差連接和層規(guī)范化。
在預(yù)訓(xùn)練過程中,BERT 模型引入了兩個(gè)任務(wù),分別為遮蔽語言模型(Masked Language Model,MLM)和下一句預(yù)測(cè)(Next Sentence Prediction,NSP)。其中,MLM 語言模型通過[Mask]掩碼隨機(jī)遮擋數(shù)據(jù)集中部分單詞,然后讓模型利用上下文預(yù)測(cè)被隱藏的單詞,目的是為了更準(zhǔn)確地捕捉單詞表征;NSP 任務(wù)通過判斷前后句子間的合理性來理解文本的構(gòu)造。因此,BERT 預(yù)訓(xùn)練模型擁有優(yōu)秀的語義表征能力,非常適用于情感分析任務(wù)。
CNN 是一種由輸入層、卷積層、池化層和全連接層4部分組成的一種深度前饋神經(jīng)網(wǎng)絡(luò),因良好的特征提取能力被廣泛應(yīng)用于計(jì)算機(jī)視覺等領(lǐng)域,近幾年也有越來越多學(xué)者將其應(yīng)用于情感分類,如圖3所示。
Fig.3 CNN local feature extraction圖3 CNN局部特征提取
CNN 具有的局部感受野和權(quán)值共享優(yōu)點(diǎn),可減少模型訓(xùn)練參數(shù),非常適合提取局部特征。因此,本文采用CNN提取局部文本情感特征信息。其中,卷積層通過卷積計(jì)算得到經(jīng)過映射的特征,在池化層中深度學(xué)習(xí)模型通常采用最大池化對(duì)特征降維后得到一維向量,該一維向量可看為經(jīng)過卷積層映射后得到文本數(shù)據(jù)的主要特征,最后全連接層將得到的特征進(jìn)行連接。局部情感特征Fw的計(jì)算過程如式(1)所示。
式中:bc表示偏移項(xiàng);W為卷積核;*為卷積運(yùn)算;Xi:i+h-1表示從i到i+h-1 個(gè)詞向量;f(·)為非線性激活函數(shù)。
RNN 將文本序列按時(shí)間順序依次輸入網(wǎng)絡(luò)中處理,結(jié)合單詞前后關(guān)聯(lián)進(jìn)行特征提取,然而當(dāng)文本序列長度過長時(shí)會(huì)造成梯度彌散和梯度爆炸問題,導(dǎo)致后期模型無法有效獲取前向序列文本信息。門控循環(huán)單元作為RNN 的變體,結(jié)構(gòu)中的重置門、更新門機(jī)制分別更新、重置文本序列,有效解決了RNN 在短序列文本上的瓶頸依賴問題,GRU 結(jié)構(gòu)如圖4 所示,前向傳播的GRU 網(wǎng)絡(luò)計(jì)算公式如式(2)—式(5)所示。
Fig.4 GRU network model圖4 GRU網(wǎng)絡(luò)模型
式中:σ為sigmoid 激活函數(shù),將其函數(shù)值控制在(0,1)范圍內(nèi);Wz、Wr均為GRU 網(wǎng)絡(luò)的權(quán)值矩陣;ht-1為前一時(shí)刻的狀態(tài)信息;ht為當(dāng)前隱藏狀態(tài);為候選隱藏狀態(tài)。
式(2)為更新門表達(dá)式,更新門決定了前一個(gè)時(shí)間狀態(tài)信息傳遞到當(dāng)前時(shí)間的狀態(tài)信息程度,值越大說明前一時(shí)刻傳遞的信息越多;式(3)為重置門表達(dá)式,重置門控制丟棄前一時(shí)刻信息的程度,重置門值越小代表忽略越多。盡管GRU 能有效捕捉長序列文本語義信息,但單向GRU只能從前往后讀取文本數(shù)據(jù)信息,導(dǎo)致其只能保留前向文本特征。因此,在前后文語義關(guān)聯(lián)較強(qiáng)的文本中,單向GRU 無法較好地提取語句中的隱藏信息。
為了準(zhǔn)確捕獲文本情感傾向,F(xiàn)DSF 模型采用雙向門控單元(BiGRU)提取文本序列特征。BiGRU 由兩個(gè)反方向的單向GRU 組成,能同時(shí)保留過去、未來文本語義特征,可結(jié)合上下文更準(zhǔn)確地預(yù)測(cè)當(dāng)前內(nèi)容。如圖5 所示,在BiGRU 網(wǎng)絡(luò)中,設(shè)t時(shí)刻計(jì)算的前向輸出為,后向輸出為,將雙向輸出拼接融合得到最終輸出。
Fig.5 Bidirectional GRU network model圖5 雙向GRU網(wǎng)絡(luò)模型
考慮到文本情感分析中每個(gè)字詞對(duì)整個(gè)文本的情感傾向貢獻(xiàn)度不同。本文為了強(qiáng)調(diào)關(guān)鍵信息在全文中的作用,通過FDSF 模型將BiGRU 最后時(shí)刻的隱藏層作為全局語義特征表示,并加入自注意力機(jī)制。注意力機(jī)制根據(jù)每個(gè)單詞在全文中的相關(guān)程度分配權(quán)重,最終的輸出即為BiGRU 輸出向量的加權(quán)和[23]。具體數(shù)學(xué)計(jì)算公式如式(6)所示:
式中:Wω為權(quán)值矩陣;bω為偏置項(xiàng);at為t時(shí)刻經(jīng)過歸一化處理得到的權(quán)重;Fc為經(jīng)注意力機(jī)制加權(quán)后最終的全局語義特征信息。
首先將經(jīng)過CNN 通道獲取的局部情感特征Fw和經(jīng)過BiGRU-Attention 通道獲取的全局情感特征Fc進(jìn)行拼接融合,得到最終的融合情感特征。然后,將融合情感特征通過全連接層輸出Softmax 分類器運(yùn)算得到最終分類預(yù)測(cè)概率。
式中:Ws為全連接層的權(quán)值矩陣;bs為偏置項(xiàng)。
本文測(cè)試模型采用版本為Python+Pytorch1.9.0 深度學(xué)習(xí)框架,實(shí)驗(yàn)環(huán)境為Google 提供機(jī)器學(xué)習(xí)服務(wù)器Colaboratory,內(nèi)置GPU 為NVIDIDA Tesla T4-16 G。
為驗(yàn)證FDSF 模型在中文情感分析任務(wù)上的有效性,本文使用ChinaNLPcorpus 組織提供的中文情感分析數(shù)據(jù)集online_shopping_10_cats 和中科院譚松波學(xué)者收集的酒店評(píng)論語料數(shù)據(jù)集進(jìn)行比較實(shí)驗(yàn)。其中,online_shopping_10_cats 為ChinaNLPcorpus 組織公開發(fā)表的情感分析數(shù)據(jù)集,包含10 種線上交易情感數(shù)據(jù),包括正面、負(fù)面情感兩種傾向,共計(jì)62 773 條數(shù)據(jù)(正向情感樣本31 727 條,負(fù)向31 046條),本文按照7∶3的比例劃分正負(fù)情感樣本;酒店評(píng)論數(shù)據(jù)集包含正傾向性情感7 000 條,負(fù)傾向性情感3 000條,本文設(shè)置訓(xùn)練樣本9 000條,測(cè)試樣本1 000條。
為驗(yàn)證模型的有效性,將本文所提方法與GRU 模型[19]、BiGRU 模型[24]、TextCNN 模型[17]、AEN-BERT 模型[25]、DPCNN 模型[26]、BERT-base 模型[13]這些主流深度學(xué)習(xí)分類模型進(jìn)行比較。具體的,GRU 模型使用單向GRU網(wǎng)絡(luò)提取文本序列特征,將最后時(shí)刻隱藏層輸入全連接層進(jìn)行情感分類;BiGRU 模型采用雙向GRU 網(wǎng)絡(luò)結(jié)合上下文語義信息,增強(qiáng)模型在文本序列上的特征提取能力;TextCNN 模型通過卷積層提取文本情感特征,運(yùn)用最大池化提取最重要的情感特征,最后輸入全連接層進(jìn)行情感分類;DPCNN 模型通過加深網(wǎng)絡(luò)以增強(qiáng)文本情感特征提取能力,達(dá)到提升金字塔結(jié)構(gòu)分類性能的目的;BERT-base模型以BERT(基于Transformer 的雙向編碼模型,具有強(qiáng)大的語義表征能力)為預(yù)訓(xùn)練模型獲取文本動(dòng)態(tài)詞向量后鏈接全連接層,然后將其輸入Softmax 分類器中輸出最終情感傾向;AEN-BERT 模型利用標(biāo)簽平滑方式在一定程度上解決了模糊情感文本的極性判斷,通過融合注意力機(jī)制對(duì)方面詞進(jìn)行建模。實(shí)驗(yàn)參數(shù)設(shè)置如表1所示。
Table 1 Experimental parameters表1 實(shí)驗(yàn)參數(shù)
本文通過準(zhǔn)確率(Accuracy)、精確率(Precision)、召回率(Recall)與F1 值作為評(píng)價(jià)標(biāo)準(zhǔn),如式(10)—式(13)所示,指標(biāo)計(jì)算的混淆矩陣如表2 所示。其中,TP 為預(yù)測(cè)為正的正樣本,F(xiàn)P 為預(yù)測(cè)為正的負(fù)樣本,F(xiàn)N 為預(yù)測(cè)為負(fù)的正樣本,TN 為預(yù)測(cè)為負(fù)的負(fù)樣本。
Table 2 Confusion matrix表2 混淆矩陣
為驗(yàn)證FDSF 模型的在情感分析任務(wù)上的可靠性,避免出現(xiàn)偶然性結(jié)果。首先對(duì)epoch 進(jìn)行10 次循環(huán)后采集數(shù)據(jù)測(cè)試集的準(zhǔn)確率、精確率、召回率和F1 值,然后求均值進(jìn)行比較驗(yàn)證。online_shopping_10_cats 數(shù)據(jù)集和酒店評(píng)論數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果如表3、表4 所示。由此可知,本文提出的FDSF 模型在中文情感分類任務(wù)上相較于其它深度學(xué)習(xí)模型,在各項(xiàng)評(píng)級(jí)指標(biāo)方面均最優(yōu)。其中,各模型的F1值柱狀圖如圖6所示。
Table 3 Experimental results of online_shopping_10_cats dataset表3 online_shopping_10_cats數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果(%)
Table 4 Experimental results of hotel reviews dataset表4 酒店評(píng)論數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果(%)
Fig.6 F1 value histogram analysis圖6 F1值直方圖分析
由圖6 可見,F(xiàn)DSF 模型在文本情感分析任務(wù)上性能良好,BiGRU 在兩個(gè)數(shù)據(jù)集上的F1 值相較于GRU 分別提升1%~3%,驗(yàn)證了雙向門控循環(huán)機(jī)制在全局語義特征提取方面的優(yōu)勢(shì)。基于BERT 的3 類模型的各項(xiàng)指標(biāo)均明顯優(yōu)于GRU、BiGRU 和TextCNN 模型,說明預(yù)訓(xùn)練模型提取的動(dòng)態(tài)詞向量具有更好的語義表征能力,這也是FDSF 采用BERT 預(yù)訓(xùn)練模型作為雙通道詞嵌入層的原因。
雖然,AEN-BERT 方法的F1值接近本文模型,但FDSF在兩個(gè)數(shù)據(jù)集上相較于AEN-BERT 方法分別提升0.43%、0.65%,進(jìn)一步說明了FDSF 模型通過提取、融合多粒度下的局部和全局語義特征,能有效提升模型性能。
本文設(shè)計(jì)消融實(shí)驗(yàn),以驗(yàn)證FDSF 模型中各層結(jié)構(gòu)對(duì)模型的有效增益情況。其中,F(xiàn)DSF-CNN 為采用全局語義特征通道進(jìn)行情感分析的模型;FDSF-BiGRU-Att 為原模型減去BiGRU 結(jié)構(gòu)和注意力機(jī)制后的模型,詞嵌入后利用CNN 提取多粒度下的局部語義特征進(jìn)行分類;FDSF-Att為原模型減去BiGRU 結(jié)構(gòu)后的注意力機(jī)制層模型,實(shí)驗(yàn)結(jié)果如表5所示。
Table 5 Ablation experiment results表5 消融實(shí)驗(yàn)結(jié)果(%)
由表5 可知,上述消融模型相較于BERT-base 模型在兩類數(shù)據(jù)集上的F1 值均具有一定提升,說明BiGRU、CNN和注意力機(jī)制融合BERT 均能效提升模型語義特征提取能力。實(shí)驗(yàn)發(fā)現(xiàn),F(xiàn)DSF 相較于結(jié)合門控循環(huán)單元與注意力機(jī)制進(jìn)行全局語義特征提取的FDSF-CNN 模型、結(jié)合CNN進(jìn)行局部語義特征提取的FDSF-BiGRU-Att 模型,在性能方面具有一定程度的提升,表明FDSF 模型通過雙通道融合特征向量的方式能提升模型性能。FDSF-Att 與FDSF 結(jié)果相差0.18%,說明在保持雙通道結(jié)構(gòu)的前提下,融入注意力機(jī)制能為模型性能帶來增益。
綜上所述,F(xiàn)DSF 模型通過雙通道方式融合BERT、Bi-GRU、Attention 機(jī)制、CNN 模型的優(yōu)勢(shì),能顯著提升模型在情感分析任務(wù)上的性能,充分提取文本語義特征信息以深入分析情感傾向。
本文針對(duì)文本情感分類問題,充分結(jié)合了BERT、CNN、BiGRU 模型與Attention 的優(yōu)勢(shì),提出融合雙通道語義特征的情感特征模型。首先采用BERT 預(yù)訓(xùn)練語言模型提取文本情感特征的動(dòng)態(tài)表示,并將其分別輸入兩個(gè)通道進(jìn)行下游分類任務(wù);然后在CNN 通道中提取局部情感特征,在BiGRU-Attention 通道中提取全局情感特征;最后加權(quán)融合兩個(gè)通道特征,并輸入Softmax 分類器得到最終結(jié)果。
在online_shopping_10_cats、譚松波酒店評(píng)論數(shù)據(jù)集上,與其他深度學(xué)習(xí)分類模型進(jìn)行比較實(shí)驗(yàn)的結(jié)果表明,F(xiàn)DSF 模型在準(zhǔn)確率、精確率、召回率、F1 值均最優(yōu),證明了FDSF 模型在文本情感分析任務(wù)中的有效性和優(yōu)勢(shì)。然而,考慮到通過雙通道特征融合時(shí)會(huì)損失部分特征信息,未來將探究如何選擇性地保留更多關(guān)鍵特征信息,尋求更優(yōu)的融合方式獲得更準(zhǔn)確的情感傾向。