貴向泉, 高 禎, 李 立
(蘭州理工大學(xué) 計(jì)算機(jī)與通信學(xué)院, 甘肅 蘭州 730050)
隨著移動(dòng)互聯(lián)網(wǎng)終端技術(shù)的不斷發(fā)展,用戶(hù)可以通過(guò)手機(jī)等移動(dòng)端隨時(shí)隨地發(fā)表關(guān)于日常生活的、富有情感色彩的信息,這種及時(shí)性和互動(dòng)性也導(dǎo)致互聯(lián)網(wǎng)中的信息量急劇增長(zhǎng),僅憑人工很難從如此龐大的文本數(shù)據(jù)中提取到人們的情感傾向。文本情感分析技術(shù)[1]的出現(xiàn)可以幫助人們更高效地從文本中挖掘出用戶(hù)的情感信息,對(duì)意見(jiàn)挖掘、網(wǎng)絡(luò)輿論預(yù)測(cè)等應(yīng)用領(lǐng)域具有重要意義[2-3]。2019年年底爆發(fā)的新型冠狀病毒肺炎由于其傳染能力之強(qiáng)和擴(kuò)散范圍之廣在互聯(lián)網(wǎng)上引發(fā)了強(qiáng)烈的公眾情緒波動(dòng),結(jié)合文本情感分析技術(shù)提取出這些情感,可以反映出民眾對(duì)待此次疫情的態(tài)度,為管理部門(mén)準(zhǔn)確掌握輿情信息、制定相關(guān)措施提供有效的數(shù)據(jù)支持。
近年來(lái),深度神經(jīng)網(wǎng)絡(luò)模型憑借在分類(lèi)問(wèn)題上的出色性能被應(yīng)用于文本情感分析任務(wù)[4-6]。Bengio等[7]建立了神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型并提出詞向量的概念,實(shí)現(xiàn)了詞的分布式表征。Mikolov等[8]提出Word2Vec,通過(guò)引入負(fù)采樣等可行性措施高質(zhì)量地學(xué)習(xí)出詞向量。Kim等[9]提出將詞向量和卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)結(jié)合,通過(guò)卷積神經(jīng)網(wǎng)絡(luò)提取文本詞向量的局部特征進(jìn)行文本分類(lèi),但是由于CNN不具備聯(lián)想上下文信息的能力,所以循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)被更多應(yīng)用于文本序列的處理,以便有效地利用近距離的語(yǔ)義信息[10-11]。Wang等[12]使用長(zhǎng)短期記憶網(wǎng)絡(luò)(Long Short-Term Memory, LSTM)對(duì)文本中詞匯的時(shí)序關(guān)系進(jìn)行學(xué)習(xí),并解決了RNN存在的梯度消失和梯度爆炸問(wèn)題。雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(Bidirectional Long Short-Term Memory, BiLSTM)[13]彌補(bǔ)了單向LSTM無(wú)法有效聯(lián)系上下文信息的缺陷。Bai等[14]提出了時(shí)序卷積網(wǎng)絡(luò)(Temporal Convolutional Network,TCN),其獨(dú)特的因果卷積和擴(kuò)張卷積解決了LSTM信息無(wú)用就會(huì)逐漸被遺忘的問(wèn)題,并且可以根據(jù)一個(gè)已知序列出現(xiàn)的先后順序進(jìn)行預(yù)測(cè)。Bahdanau等[15]引入注意力機(jī)制,通過(guò)對(duì)重要特征增加權(quán)重來(lái)衡量其重要程度。此后,基于BiLSTM引入注意力機(jī)制(BiLSTM+Attention)[16]的研究方法憑借能抓取上下文信息和提取特定的情感特征,以及可以提高情感極性判別的準(zhǔn)確率,被更多應(yīng)用于文本情感分析。
以上研究說(shuō)明,文本情感分析方法已取得很大進(jìn)步,但該領(lǐng)域內(nèi)的大部分神經(jīng)網(wǎng)絡(luò)模型仍然存在對(duì)上下文信息利用不足的缺陷,以及遠(yuǎn)距離詞匯對(duì)當(dāng)前詞匯影響的長(zhǎng)期依賴(lài)問(wèn)題。單一的TCN網(wǎng)絡(luò)僅關(guān)注單向特征的學(xué)習(xí),忽略了下文對(duì)上文的語(yǔ)義影響,而如果僅用BiLSTM實(shí)現(xiàn)雙向的語(yǔ)義學(xué)習(xí),就會(huì)導(dǎo)致對(duì)詞序信息無(wú)法充分的利用。針對(duì)這些問(wèn)題,本文基于深度學(xué)習(xí)的方法,首次提出融合TCN與引入自注意力機(jī)制的BiLSTM網(wǎng)絡(luò)的情感模型(簡(jiǎn)稱(chēng)TCN-BA模型),并將其應(yīng)用于新型冠狀病毒疫情期間的網(wǎng)民評(píng)論文本情感分析,分析判別與此次疫情相關(guān)的文本信息中蘊(yùn)含的情感傾向。
本文首先通過(guò)對(duì)因果卷積層進(jìn)行多次堆疊和擴(kuò)大卷積的感受野,將TCN處理時(shí)序問(wèn)題的優(yōu)勢(shì)性能應(yīng)用到提取文本序列特征的任務(wù)中,充分考慮先出現(xiàn)的詞對(duì)后出現(xiàn)的詞的影響;然后,利用BiLSTM的雙向循環(huán)結(jié)構(gòu)對(duì)TCN層獲取到的文本特征進(jìn)一步學(xué)習(xí),獲取文本的上下文聯(lián)系,同時(shí)避免RNN存在的長(zhǎng)期依賴(lài)問(wèn)題;最后,引入自注意力機(jī)制,根據(jù)疫情期間民眾的關(guān)注熱點(diǎn)以及引發(fā)情緒波動(dòng)的關(guān)鍵詞,對(duì)提取到的特征向量進(jìn)行篩選優(yōu)化,降低噪聲對(duì)情感極性判別的影響。最終,有效地提高了情感分析模型的準(zhǔn)確性,TCN-BA模型的鏈?zhǔn)骄W(wǎng)絡(luò)聯(lián)合的有效性也通過(guò)實(shí)驗(yàn)各項(xiàng)性能的提高得以證明。
詞向量表示是將微博文本轉(zhuǎn)化為計(jì)算機(jī)可以理解的向量表示,本文對(duì)詞向量的訓(xùn)練和生成使用了詞嵌入技術(shù),詞嵌入技術(shù)是將文本中的詞轉(zhuǎn)換成數(shù)字向量,具體過(guò)程就是把一個(gè)維數(shù)為所有詞數(shù)量的高維空間嵌入到一個(gè)維數(shù)低得多的連續(xù)向量空間中,每個(gè)單詞或詞組被映射為實(shí)數(shù)域上的向量。
時(shí)序卷積網(wǎng)絡(luò)本質(zhì)上是對(duì)一維卷積進(jìn)行變形使得其可以處理時(shí)序問(wèn)題的卷積網(wǎng)絡(luò),近年來(lái)逐漸被應(yīng)用到文本序列預(yù)測(cè)任務(wù)中。如圖1所示(圖中,xt為原始的時(shí)序輸入,yt為網(wǎng)絡(luò)預(yù)測(cè)值,d為擴(kuò)張卷積中空洞大小),TCN與普通一維卷積網(wǎng)絡(luò)主要存在兩點(diǎn)不同:
圖1 時(shí)序卷積網(wǎng)絡(luò)結(jié)構(gòu)圖
1) 擴(kuò)張卷積(Dilated Convolution)。越到上層,窗口越大,卷積窗口中的空洞越多,在保證每一層隱藏層都和輸入序列大小相同的同時(shí),降低計(jì)算量增大感受野,使模型可以學(xué)習(xí)到更長(zhǎng)時(shí)段內(nèi)的信息;
2) 因果卷積(Causal Convolution)。因果卷積具備嚴(yán)格的時(shí)間約束,只能使用某個(gè)時(shí)刻之前的信息來(lái)預(yù)測(cè)該時(shí)刻的值,限制滑動(dòng)窗口,可以確保該時(shí)刻之后的信息不會(huì)用來(lái)預(yù)測(cè),同時(shí)也保證了之前的信息不會(huì)被遺漏。
圖2 LSTM記憶單元模型結(jié)構(gòu)圖
LSTM網(wǎng)絡(luò)通過(guò)上個(gè)時(shí)刻的隱層狀態(tài)ht-1和當(dāng)前輸入xt計(jì)算出來(lái)的遺忘門(mén)ft、記憶門(mén)it、輸出門(mén)ot控制輸入信息是否被丟棄或傳遞。計(jì)算過(guò)程如下:
1) 計(jì)算遺忘門(mén),控制選擇要遺忘的信息:
ft=σ(Wf·[ht-1,xt]+bf)
(1)
2) 計(jì)算記憶門(mén),控制選擇要記憶的信息:
it=σ(Wi·[ht-1,xt]+bi)
(2)
(3)
3) 計(jì)算當(dāng)前時(shí)刻細(xì)胞狀態(tài):
(4)
4) 計(jì)算輸出門(mén)和當(dāng)前時(shí)刻隱層狀態(tài):
ot=σ(Wo·[ht-1,xt]+bo)
(5)
ht=ot·tanh(Ct)
(6)
其中,W為不同門(mén)限的權(quán)重矩陣,b為不同門(mén)限的偏置矩陣,σ、tanh為激活函數(shù)。
通過(guò)門(mén)限結(jié)構(gòu)控制記憶單元中的輸入信息是否被記憶或者遺忘,從而實(shí)現(xiàn)對(duì)有用的信息進(jìn)行傳遞,而無(wú)用的信息則被丟棄,彌補(bǔ)了RNN很難獲取到文本語(yǔ)義表示的長(zhǎng)距離依賴(lài)信息的缺陷。
注意力機(jī)制的實(shí)質(zhì)是仿效人類(lèi)的視覺(jué)系統(tǒng),根據(jù)一些特定的信息得到視覺(jué)焦點(diǎn),抓取到有關(guān)信息的重要特征。一般的注意力機(jī)制是通過(guò)多個(gè)查詢(xún)(Query)和鍵值對(duì)(Key-Value)組成的映射函數(shù)來(lái)實(shí)現(xiàn),通過(guò)計(jì)算Query和每個(gè)Key的相似度得到相應(yīng)的權(quán)重,再利用Softmax函數(shù)對(duì)權(quán)重歸一化,并將處理后的權(quán)重與對(duì)應(yīng)的鍵值加權(quán)求和得到最終的注意力值,計(jì)算過(guò)程如下:
1) 計(jì)算每一個(gè)Query和各個(gè)Key的相關(guān)性得到每個(gè)Key對(duì)應(yīng)Value的權(quán)重系數(shù):
(7)
2) 使用Softmax函數(shù)對(duì)權(quán)重系數(shù)進(jìn)行歸一化處理;
(8)
3) 將權(quán)重與鍵值加權(quán)求和得到最終的注意力值:
(9)
其中,A是最終所求的注意力值;Lx為數(shù)據(jù)長(zhǎng)度;Q代表查詢(xún);K代表鍵;V代表值。
在文本情感分析任務(wù)中,注意力機(jī)制主要用于表示句子中的詞匯和輸出之間的相關(guān)程度,對(duì)文本語(yǔ)義表示中的情感特征增加不同的注意力權(quán)重,區(qū)分不同的特征對(duì)文本信息的重要性,進(jìn)而提高文本情感分類(lèi)的準(zhǔn)確性。
文本情感分析需要考慮文本序列、上下文信息以及情感特征重要程度對(duì)最終情感分類(lèi)的影響,本文提出的TCN-BA模型共包含了6層結(jié)構(gòu),如圖3所示:第一層為輸入層,輸入微博文本;第二層為文本向量表示層,將輸入的文本轉(zhuǎn)化為詞向量;第三層為T(mén)CN網(wǎng)絡(luò)層,利用TCN網(wǎng)絡(luò)層抓取文本序列特征;第四層為BiLSTM網(wǎng)絡(luò)層,將TCN網(wǎng)絡(luò)層的輸出作為BiLSTM網(wǎng)絡(luò)層的輸入,對(duì)文本的上下文信息進(jìn)一步學(xué)習(xí);第五層為自注意力機(jī)制層,引入自注意力機(jī)制,生成權(quán)重向量,將情感分類(lèi)重要特征突出表示,并將詞匯級(jí)的特征拼接為句子級(jí)特征用于情感分類(lèi);第六層為輸出層,使用Softmax分類(lèi)器完成情感分類(lèi)。
本文使用Word2Vec中的Skip-gram模型(Continuous Skip-gram Model)將詞匯轉(zhuǎn)化為詞向量,詞向量的維度需在訓(xùn)練前定義。Skip-gram模型根據(jù)給定詞,對(duì)詞匯表中的詞匯出現(xiàn)在該詞上下文的概率作出判斷,表達(dá)式為:
(10)
圖3 TCN-BA網(wǎng)絡(luò)模型結(jié)構(gòu)圖
其中,wt代表給定詞匯;j代表與當(dāng)前輸入詞匯的距離;vwt表示當(dāng)前時(shí)刻輸入矩陣中的詞向量;v′wt+j表示輸出矩陣中的詞向量;w′∈v表示訓(xùn)練樣本詞匯w′包含于詞匯表v中。如果輸入句子S長(zhǎng)度為n,則可以通過(guò)向量矩陣S′∈Rn×k(k為詞匯表中的詞匯數(shù)量)表示,而S′i∈Rk則代表句子中第i個(gè)詞匯的詞向量表示。
由此可見(jiàn),Skip-gram模型在考慮到上下文信息的同時(shí),詞向量維度也相對(duì)較少,能夠表現(xiàn)出詞匯之間的關(guān)系,幫助提取文本中的語(yǔ)法語(yǔ)義信息。
TCN網(wǎng)絡(luò)層利用因果卷積限制滑動(dòng)窗口來(lái)實(shí)現(xiàn)嚴(yán)格的時(shí)間束縛,利用擴(kuò)大擴(kuò)張卷積結(jié)構(gòu)感受野學(xué)習(xí)到更大范圍的信息,并通過(guò)增加殘差鏈接(Residual Connections)防止網(wǎng)絡(luò)層過(guò)高導(dǎo)致梯度消失來(lái)獲取更高層文本序列的語(yǔ)義信息特征。
2.2.1因果卷積
因果卷積使得TCN具備很強(qiáng)的因果性質(zhì),當(dāng)前時(shí)刻的信息只能依靠當(dāng)前時(shí)刻之前的信息進(jìn)行預(yù)測(cè),即只能通過(guò)當(dāng)前的時(shí)刻輸入xt和之前的輸入x1,x2,…,xt-1進(jìn)行計(jì)算,在這之后信息不能用于預(yù)測(cè),從左至右進(jìn)行計(jì)算提取特征。
(11)
2.2.2擴(kuò)張卷積
由于因果卷積對(duì)特征的提取被限定于卷積核的大小范圍之內(nèi),添加擴(kuò)張卷積可以彌補(bǔ)這一缺陷。每隔一定的空洞數(shù)對(duì)文本序列進(jìn)行采樣計(jì)算,相當(dāng)于在卷積核內(nèi)部插入了d個(gè)0(d為空洞數(shù)),添加擴(kuò)張卷積以后的卷積核大小為:
fk_d=(d-1)×(fk-1)+fk
(12)
其中,fk為當(dāng)前層的卷積核大小。
2.2.3殘差鏈接
擴(kuò)張卷積的添加需要增加網(wǎng)絡(luò)層數(shù)、擴(kuò)大網(wǎng)絡(luò)層的感受野,而網(wǎng)絡(luò)層數(shù)過(guò)深時(shí),很容易出現(xiàn)梯度消失的現(xiàn)象。添加殘差鏈接結(jié)構(gòu)可以形成短路鏈接,通過(guò)對(duì)輸入x和經(jīng)過(guò)非線(xiàn)性變換以后的F(x)求和,使得時(shí)序卷積網(wǎng)絡(luò)避免了由網(wǎng)絡(luò)層數(shù)增加引起的梯度消失。
R=x+F(x)
(13)
本文所采取的擴(kuò)張因果卷積模塊就是在每一次進(jìn)行擴(kuò)張因果卷積計(jì)算Conv()之后將參數(shù)層級(jí)歸一化Hi-norm(),然后采用ReLU激活函數(shù)進(jìn)行非線(xiàn)性計(jì)算,將得到的結(jié)果與輸入進(jìn)行求和,實(shí)現(xiàn)殘差鏈接。計(jì)算過(guò)程如下:
Ti=Conv(Wi×Fj+bi)
(14)
{T0,T1,…,Tn}=Hi-norm({T0,T1,…,Tn})
(15)
{T0,T1,…,Tn}=Relu({T0,T1,…,Tn})
(16)
其中,Ti是i時(shí)刻卷積計(jì)算得到的狀態(tài)值;Wi為i時(shí)刻卷積計(jì)算的詞的矩陣;Fj為第j層的卷積核;bi為偏置矩陣;{T0,T1,…,Tn}是序列經(jīng)過(guò)一次完整的卷積計(jì)算后的編碼。
TCN網(wǎng)絡(luò)層通過(guò)堆疊多個(gè)擴(kuò)張因果卷積層,擴(kuò)大卷積的感受野,獲取到更完整的文本序列特征,從而能提取到更深層次的語(yǔ)義信息。
單一的TCN對(duì)句子進(jìn)行建模時(shí),存在無(wú)法編碼從后到前的信息的問(wèn)題,本文加入BiLSTM層(網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示),其隱藏層由正、反兩個(gè)傳播方向的LSTM結(jié)合而成,正向傳播層單元學(xué)習(xí)當(dāng)前文本上文信息,后向傳播層單元學(xué)習(xí)下文信息,然后將兩個(gè)方向?qū)W習(xí)到的特征進(jìn)行拼接,提取到文本序列的上下文信息,獲取正反兩個(gè)傳播方向的情感特征。
圖4 BiLSTM網(wǎng)絡(luò)結(jié)構(gòu)圖
(17)
自注意力機(jī)制是注意力機(jī)制的一個(gè)變形。注意力機(jī)制通常用于任務(wù)目標(biāo)與數(shù)據(jù)源不同的情況(如,機(jī)器翻譯),而自注意力機(jī)制則更擅長(zhǎng)處理數(shù)據(jù)源內(nèi)部、任務(wù)目標(biāo)內(nèi)部元素的計(jì)算。
對(duì)文本情感分析而言,自注意力機(jī)制可以更好地捕獲到同一個(gè)句子之間的語(yǔ)法、語(yǔ)義特征,對(duì)語(yǔ)句中的情感特征重要程度進(jìn)行區(qū)分。自注意力機(jī)制并不依賴(lài)于外部信息,它是對(duì)自身的數(shù)據(jù)信息進(jìn)行訓(xùn)練并不斷更新參數(shù),從而得到注意力值,即更關(guān)注句子之間詞匯的關(guān)系。
本文將BiLSTM網(wǎng)絡(luò)層生成的向量集合作為自注意力機(jī)制的輸入,與自注意力機(jī)制層生成的權(quán)重向量相乘,并將詞匯級(jí)的特征匯總成句子級(jí)特征用于最終的情感分類(lèi)。實(shí)現(xiàn)過(guò)程如下:
1) 獲取BiLSTM網(wǎng)絡(luò)層的輸出,即向量集合
生成權(quán)重向量:
(18)
2) 使用Softmax函數(shù)對(duì)生成的權(quán)重矩陣做歸一化處理,突出重要特征的權(quán)重。權(quán)重越大,表明對(duì)微博用戶(hù)在疫情期間的情感傾向越重要。
α=Softmax(W)
(19)
3) 將權(quán)重與向量集合H相乘,即得到最終的自注意力值:
A(H)=αH
(20)
h*=tanh(A(H))
(21)
(22)
其中,L為損失值;x為樣本;N為樣本總數(shù)。采取的是Mini-batch梯度下降優(yōu)化算法,相較于其他算法,該法只需對(duì)損失函數(shù)一階求導(dǎo),計(jì)算代價(jià)相對(duì)較小的同時(shí),也提高了模型的訓(xùn)練速度。
實(shí)驗(yàn)數(shù)據(jù)來(lái)源于新浪微博(Weibo)的用戶(hù)微博文本。新浪微博是中國(guó)最大的社交媒體平臺(tái)之一,其內(nèi)容具有很高的及時(shí)性和開(kāi)放性,對(duì)于一些突發(fā)事件(如此次新冠疫情),可以提供大量的研究數(shù)據(jù)。
本實(shí)驗(yàn)依據(jù)“新冠肺炎”、“冠狀病毒”、“疫情”、“傳染”、“武漢”等關(guān)鍵詞,利用爬蟲(chóng)技術(shù)對(duì)2020年1月24日至2020年2月24日期間的相關(guān)微博文本進(jìn)行爬取,共獲得原發(fā)微博87 563條,實(shí)驗(yàn)數(shù)據(jù)統(tǒng)計(jì)信息如表1所示。由于采集的數(shù)據(jù)存在噪聲,會(huì)對(duì)最終的實(shí)驗(yàn)結(jié)果產(chǎn)生影響,本文對(duì)數(shù)據(jù)進(jìn)行了篩選和預(yù)處理:
1) 字體轉(zhuǎn)換(繁體字轉(zhuǎn)換成簡(jiǎn)體字);
2) 分詞和停用詞去除(把中文的漢字序列切分成有意義的詞,并適當(dāng)減少電腦檢索中的虛字和非檢索用字);
3) 特殊符號(hào)替換(使用正則匹配的方法將@符號(hào)、URL分別轉(zhuǎn)換為
4) 無(wú)效微博的過(guò)濾(文本內(nèi)容中詞數(shù)少于5個(gè),全部都是重復(fù)符號(hào)、字母、漢字的情況,微博中的廣告和推廣性的內(nèi)容等);
5) 數(shù)據(jù)格式的標(biāo)準(zhǔn)化。
表1 實(shí)驗(yàn)數(shù)據(jù)統(tǒng)計(jì)信息
微博數(shù)據(jù)經(jīng)過(guò)初步處理后,根據(jù)BosonNLP情感詞典(情感詞匯:積極情感詞、消極情感詞、積極評(píng)價(jià)詞以及消極評(píng)價(jià)詞;程度副詞:控制情感詞的強(qiáng)弱;否定詞匯:判斷情感極性是否發(fā)生轉(zhuǎn)變)進(jìn)行人工標(biāo)注,如表2實(shí)驗(yàn)數(shù)據(jù)樣例所示,情感標(biāo)簽分為三類(lèi):-1,消極;0,中性;1,積極。根據(jù)情感詞典進(jìn)行情感極性的標(biāo)注,在一定程度上可以避免主觀(guān)性判別出現(xiàn)的偏差。標(biāo)注后對(duì)數(shù)據(jù)作進(jìn)一步欠采樣處理,保留了68 657條微博文本,使得三種情感傾向的比例趨近1∶1∶1,保證了數(shù)據(jù)分布平衡。將標(biāo)注好的數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù)集,按照8∶1∶1的比例劃分成訓(xùn)練集、驗(yàn)證集及測(cè)試集進(jìn)行實(shí)驗(yàn)。
表2 實(shí)驗(yàn)數(shù)據(jù)樣例
在標(biāo)注數(shù)據(jù)的過(guò)程中,發(fā)現(xiàn)微博用戶(hù)的情感傾向分布與年齡、性別之間呈現(xiàn)出一定的關(guān)聯(lián)(如圖5所示):多數(shù)25歲以下的用戶(hù)在面對(duì)疫情時(shí)更為積極,50歲以上的用戶(hù)其消極評(píng)論占比更大,25~50歲的用戶(hù)其評(píng)論文本則相對(duì)更為中性;在性別方面,男性和女性之間的差異也比較明顯,男性用戶(hù)中的中性文本和積極文本相對(duì)于女性分別高出7.5%和15.2%,消極文本中女性用戶(hù)則占到了61.8%,可見(jiàn),男性在面對(duì)疫情時(shí),其評(píng)論文本更為理性和積極。
本文在PyTorch深度學(xué)習(xí)框架下進(jìn)行實(shí)驗(yàn),具體實(shí)驗(yàn)環(huán)境如表3所示。
圖5 各類(lèi)情感傾向在不同年齡和性別之間的分布
表3 實(shí)驗(yàn)環(huán)境搭建
本文采用準(zhǔn)確率、召回率以及Macro-F1值作為評(píng)估模型有效性的指標(biāo)。計(jì)算過(guò)程為:
準(zhǔn)確率:
(23)
召回率:
(24)
(25)
其中,TP表示真陽(yáng)例;FP表示假陽(yáng)例;FN表示假陰例。準(zhǔn)確率P越大,代表模型預(yù)測(cè)準(zhǔn)確度越高;對(duì)每一個(gè)類(lèi)別分別計(jì)算F1值,求平均即得到Macro-F1值,其值越大,表示模型分類(lèi)效果越好。
在相同的實(shí)驗(yàn)環(huán)境設(shè)置了6組對(duì)照實(shí)驗(yàn),用于驗(yàn)證本文提出的TCN-BA模型的有效性。除BERT模型外,其余5組實(shí)驗(yàn)的詞向量均由Word2Vec中的Skip-gram模型訓(xùn)練得來(lái)。
1) LSTM:在一般RNN的基礎(chǔ)上添加了門(mén)限結(jié)構(gòu),選擇性提取信息[17]。
2) BiLSTM:正向LSTM和反向LSTM分別從正、反兩個(gè)方向?qū)ξ谋菊Z(yǔ)義特征進(jìn)行學(xué)習(xí),并將得到的特征進(jìn)行融合,用于最終的情感極性判斷[18]。
3) BiLSTM+Attention:在BiLSTM網(wǎng)絡(luò)中引入注意力機(jī)制,由BiLSTM提取文本序列的上下文信息,注意力機(jī)制負(fù)責(zé)區(qū)分所提取特征對(duì)最終情感分類(lèi)的重要程度[19-20]。
4) TCN:對(duì)于單一的時(shí)序卷積網(wǎng)絡(luò),設(shè)置多層因果卷積及擴(kuò)張卷積對(duì)文本序列進(jìn)行計(jì)算,將最后時(shí)刻狀態(tài)視為最終語(yǔ)義表示用于情感分類(lèi)。
5) BERT:利用Transformer的雙向編碼表示對(duì)基于架構(gòu)微調(diào)的方法進(jìn)行改進(jìn),通過(guò)聯(lián)合調(diào)節(jié)所有層中的上下文來(lái)預(yù)先訓(xùn)練深度雙向表示[21]。
6) TCN-BA:即本文模型。
TCN-BA模型在實(shí)驗(yàn)中使用Word2Vec中的Skip-gram模型訓(xùn)練詞向量,維度設(shè)置為300,學(xué)習(xí)率為0.03;TCN網(wǎng)絡(luò)層中擴(kuò)張因果卷積層數(shù)為4,卷積核大小設(shè)置為7,空洞因子為2n,使用ReLU函數(shù)作為激活函數(shù);BiLSTM網(wǎng)絡(luò)層中隱藏層數(shù)設(shè)置為128,隱藏層有64個(gè)神經(jīng)元;Dropout參數(shù)分別設(shè)置為0.3、0.3、0.25;Adam優(yōu)化器學(xué)習(xí)率為0.002;訓(xùn)練批次長(zhǎng)度batch_size設(shè)置為64。
本文在疫情期間微博用戶(hù)文本數(shù)據(jù)集上進(jìn)行了6組對(duì)照實(shí)驗(yàn),以模型在數(shù)據(jù)集上的準(zhǔn)確率、召回率和Macro-F1值為評(píng)價(jià)標(biāo)準(zhǔn),具體實(shí)驗(yàn)結(jié)果如表4、圖6所示。
表4 對(duì)照實(shí)驗(yàn)結(jié)果
圖6 6種模型準(zhǔn)確率對(duì)比圖
1) 相對(duì)于單一的LSTM,BiLSTM增加了后向傳播單元,可以抓取到下文對(duì)當(dāng)前詞匯的影響,融合了上下文信息特征,效果更優(yōu);
2) 相較于單獨(dú)的BiLSTM網(wǎng)絡(luò)模型, BiLSTM+Attention網(wǎng)絡(luò)模型在引入注意力機(jī)制以后,能更好地捕捉到句子的局部特征,區(qū)分情感特征重要程度,其準(zhǔn)確率、召回率以及Macro-F1值分別提高了3.47%,2.60%,0.028 3。
3) TCN由于利用因果卷積、擴(kuò)張卷積可以獲取到更多的文本序列特征,并且殘差鏈接結(jié)構(gòu)可以抑制網(wǎng)絡(luò)層數(shù)過(guò)多而引起的梯度消失現(xiàn)象,因此其實(shí)驗(yàn)效果優(yōu)于BiLSTM+Attention模型。
4) BERT使用遮蔽語(yǔ)言模型來(lái)實(shí)現(xiàn)預(yù)訓(xùn)練的深度雙向表示,由于在所有層中共同依賴(lài)于左右上下文,使得BERT模型在文本情感分析任務(wù)中可以較好地提取到文本序列中的情感特征。
5) TCN-BA模型結(jié)合TCN學(xué)習(xí)文本序列特征,增加BiLSTM網(wǎng)絡(luò)層補(bǔ)足單向TCN無(wú)法聯(lián)系上下文的缺陷,并利用自注意力機(jī)制優(yōu)化特征向量。對(duì)比TCN-BA和其他5組模型的實(shí)驗(yàn)結(jié)果可知,TCN-BA模型的準(zhǔn)確率和召回率都得到了有效提升,分別達(dá)到92.68%、91.53%,Macro-F1值達(dá)到0.839 5。
除了對(duì)6種模型的準(zhǔn)確率、召回率以及Macro-F1值進(jìn)行對(duì)比,本文還在實(shí)驗(yàn)過(guò)程中對(duì)各個(gè)模型的性能進(jìn)行了比較,如圖7所示。
圖7 6種模型損失對(duì)比圖
通過(guò)對(duì)比發(fā)現(xiàn),由于BERT模型預(yù)訓(xùn)練過(guò)程中的標(biāo)記在實(shí)際預(yù)測(cè)中不會(huì)出現(xiàn),過(guò)多使用標(biāo)記往往會(huì)影響模型表現(xiàn),并且每個(gè)批次只有15%的符號(hào)(包含字符和標(biāo)點(diǎn))被預(yù)測(cè),這在一定程度上影響了收斂速度。相對(duì)于BERT模型,TCN-BA融合模型收斂速度更快,在疫情期間微博文本數(shù)據(jù)集上的性能表現(xiàn)總體上更為優(yōu)秀。由圖7可知,單一的時(shí)序卷積網(wǎng)絡(luò)模型、BiLSTM+Attention模型以及BERT模型的損失值下降到穩(wěn)定值的速度盡管比TCN-BA模型慢,但在最后的幾次迭代中也逐漸趨于收斂。
本文首次提出TCN-BA模型,并將其應(yīng)用于疫情期間的微博文本情感分析。首先,通過(guò)TCN網(wǎng)絡(luò)層提取文本的序列特征;然后,將其輸出作為BiLSTM網(wǎng)絡(luò)層的輸入,學(xué)習(xí)文本的上下文信息和情感特征,得到文本的語(yǔ)義表示;最后,引入自注意力機(jī)制,結(jié)合上下文信息與疫情期間熱點(diǎn)詞匯特征,優(yōu)化特征向量,減少噪音干擾。6組對(duì)照實(shí)驗(yàn)證明了TCN-BA模型在疫情期間微博文本數(shù)據(jù)集上進(jìn)行情感分析的有效性。在總結(jié)實(shí)驗(yàn)期間,發(fā)現(xiàn)時(shí)序卷積網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)在理論上可以對(duì)文本特征進(jìn)行雙向?qū)W習(xí),提取文本的上下文信息。因此,今后的研究將會(huì)聚焦于如何對(duì)TCN的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行調(diào)整來(lái)進(jìn)一步提高文本情感分析準(zhǔn)確度的問(wèn)題上。