周艷玲,蘭正寅,張 ,劉司搖
(湖北大學(xué) 人工智能學(xué)院,湖北 武漢 430062)
中國互聯(lián)網(wǎng)絡(luò)信息中心第49次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告》統(tǒng)計顯示,截至2021年12月,我國互聯(lián)網(wǎng)用戶量伴隨5G時代的到來已高達10.32億規(guī)模。隨之而來的則是新聞媒體、社交軟件和購物軟件等每時每刻產(chǎn)生海量的用戶網(wǎng)絡(luò)文本評論數(shù)據(jù),這些文本數(shù)據(jù)時刻反映著人們?nèi)粘I畹南才泛蛯浾摵褪挛锏目捶ㄅc態(tài)度,即蘊含了巨大的用戶情感信息。對其進行準確快速的情感傾向性分析,可以應(yīng)用于輿情分析、新聞推送、商品營銷等領(lǐng)域。從而可有效引導(dǎo)企業(yè)實時調(diào)整發(fā)展方向,精準把握用戶需求;同時有助于政府掌握網(wǎng)絡(luò)輿論走向[1],維護社會穩(wěn)定。因此,文本情感分類具有重要的經(jīng)濟效益和社會效益。情感分類[2]作為自然語言處理領(lǐng)域典型的下游任務(wù),也是自然語言處理領(lǐng)域中的重要研究方向和近年來國內(nèi)外學(xué)者的研究熱點之一,是信息挖掘的關(guān)鍵技術(shù)和大數(shù)據(jù)的研究應(yīng)用基礎(chǔ),具有極大的學(xué)術(shù)研究價值。
隨著神經(jīng)網(wǎng)絡(luò)不斷取得突破性的進展,眾多學(xué)者提出各種深度學(xué)習(xí)模型用于情感分類任務(wù)的研究[3],通過構(gòu)建多層神經(jīng)網(wǎng)絡(luò),在獲取更深層次的語義特征信息的同時,取得了多方面都優(yōu)于機器學(xué)習(xí)方法的效果[4]。目前主流的深度學(xué)習(xí)模型有卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)、長短時記憶(Long Short-Term Memory,LSTM)和預(yù)訓(xùn)練語言模型等,這些深度學(xué)習(xí)方法因各自不同的模型結(jié)構(gòu)與特點,各有所長,亦各有所短,每個模型的提取語義特征的側(cè)重點不同。
這些模型在針對深層次語義特征進行提取時,卻未考慮到數(shù)據(jù)集的先驗分布情況,當(dāng)數(shù)據(jù)集樣本類別分布不均勻或者訓(xùn)練數(shù)據(jù)出現(xiàn)過擬合情況時,容易導(dǎo)致分類模型遇到接近標(biāo)簽判定決策邊界的情況,尤其細粒度分類時容易導(dǎo)致分類出現(xiàn)偏差。
基于上述問題,本文從分類模型和數(shù)據(jù)集兩個角度進行改善: 利用多模型優(yōu)勢互補融合和注意力機制,充分提取挖掘文本的全局語義特征,獲得樣本較為準確的各類情感上的概率分布;同時利用數(shù)據(jù)集的先驗分布,對不確定性樣本預(yù)測值進行修正。因此本文提出一種多模型融合交替歸一化的深度學(xué)習(xí)模型(A model Fused with Alternating Normalization and RoBERTa-based Bi-directional LSTM and Attention,FAN-RoBLA)。該模型通過結(jié)合RoBERTa、Bi-LSTM深度學(xué)習(xí)模型和注意力機制的特性,并根據(jù)數(shù)據(jù)集先驗分布采用交替歸一化方法,提升情感細粒度分類任務(wù)效果。模型在SMP2020-EWWCT中文競賽數(shù)據(jù)集和SemEval 2014 task4英文公開數(shù)據(jù)集上經(jīng)過對比實驗驗證,證明了該融合模型在跨語言細粒度情感分類任務(wù)上的有效性。
早期文本情感分類的需求限于技術(shù)主要為二分類,即對文本進行正面情感與負面情感的判斷。隨著社會的發(fā)展和技術(shù)的進步,現(xiàn)在對用戶的情感分類需求也從早期的正負二分類進一步提升到細粒度的情感分類,例如,開心(Happy)、悲傷(Sad)、憤怒(Angry)、恐懼(Fear)和驚奇(Surprise)等。
最初的情感細粒度分類研究[5]主要基于特征詞典判斷和機器學(xué)習(xí)算法實現(xiàn)。此類方法由于人為主觀因素的影響與其提取特征需要的巨大人工成本,導(dǎo)致情感分類完成質(zhì)量與效率偏低。隨著眾學(xué)者在深度學(xué)習(xí)模型上的不斷創(chuàng)新,對情感特征的選擇不斷優(yōu)化,在細粒度情感分類任務(wù)上逐漸取得了更好的效果。
相較于淺層的機器學(xué)習(xí)方法,深度學(xué)習(xí)的出現(xiàn)在很大程度上解決了機器學(xué)習(xí)過于依賴特征工程的問題,更多學(xué)者將深度學(xué)習(xí)用于自然語言處理領(lǐng)域并在情感分類任務(wù)中取得了顯著的成果。2014年Kim[6]提出將CNN應(yīng)用于NLP領(lǐng)域中的一般流程,其由嵌入層、卷積層、池化層和全連接層構(gòu)成,結(jié)構(gòu)精巧,可并行處理,在提取文本局部特征上具有一定優(yōu)勢,但由于未考慮時間因素而忽略了詞與上下文之間的關(guān)聯(lián)。RNN是一種基于遞歸的神經(jīng)網(wǎng)絡(luò)模型,通過網(wǎng)絡(luò)內(nèi)部的結(jié)構(gòu)設(shè)計能利用循環(huán)機制獲取前一刻輸出作為下一刻輸入,從而有效捕捉文本序列之間的關(guān)系特征。由于RNN模型容易出現(xiàn)隱藏層梯度爆炸與梯度消失的現(xiàn)象,Bowman等人[7]在RNN的基礎(chǔ)上進一步改善提出LSTM模型,得到了更為廣泛的使用。錢忠等人[8]提出一種基于雙向長短時記憶(Bidirectional Long Short-Term Memory, Bi-LSTM)方法,充分結(jié)合上下文信息,同時從前、后兩個方向獲取評論文本信息的雙向語義特征作用于關(guān)系抽取任務(wù)。Brahma等人[9]對Bi-LSTM做出改進,提出一種Suffix BiLSTM模型,該模型對文本進行雙向的前綴與后綴編碼,增強全局語義特征信息,減小了順序偏差的影響,在細粒度情感分類任務(wù)上取得明顯效果。
預(yù)訓(xùn)練模型的出現(xiàn)極大推進了深度學(xué)習(xí)模型的研究進展,其本質(zhì)上屬于遷移學(xué)習(xí)的應(yīng)用,利用詞嵌入將大量數(shù)據(jù)數(shù)字化,輸入基于Transformer框架的模型進行詞向量訓(xùn)練,保存已訓(xùn)練好的網(wǎng)絡(luò)模型,針對具體的下游任務(wù)微調(diào)加以使用。2018年Devlin等人[10]在ELMo和GPT的基礎(chǔ)上提出的BERT預(yù)訓(xùn)練模型是自然語言處理的一個里程碑式研究,BERT采用雙向Transformer編碼器訓(xùn)練動態(tài)詞向量,提升向量表征能力,解決了Word2Vec等靜態(tài)詞向量無法解決一次多義的問題,并在輿情監(jiān)控[11]、醫(yī)療[12]、金融[13]等多個應(yīng)用領(lǐng)域取得優(yōu)秀的研究成果。2019年哈工大訊飛聯(lián)合實驗室[14]發(fā)布中文預(yù)訓(xùn)練模型Chinese-RoBERTa-wwm(簡稱RoBERTa),采用全詞掩碼策略,并在多個中文句子級與篇章級任務(wù)上進行測試,均取得較好的實驗效果。
注意力機制起源于對人類感知的研究。人在處理事物時,往往會將感知聚焦于關(guān)鍵的信息上,忽略淡化不重要的邊緣性信息。深度學(xué)習(xí)中,由于模型提取的數(shù)據(jù)特征較多,包含的信息量也隨之增大,引入注意力機制,通過權(quán)重分配降低關(guān)聯(lián)度低的特征向量權(quán)重,可有效提高下游任務(wù)準確率。Bahdanau等人[15]首次將注意力機制引入自然語言處理領(lǐng)域的機器翻譯任務(wù)中。Huang等人[16]將注意力機制融入LSTM輸出向量與上下文表達中,通過二者聯(lián)合進行情感分類。Zhang等人[17]利用注意力機制將情感屬性詞表與上下文語義相融合的向量表示進行進一步加權(quán)提取,得到更準確的語義表示。
Sinkhorn和Knopp[18]在1967年首次提出了交替歸一化方法,用參考數(shù)據(jù)集中的高置信度樣本調(diào)整低置信度樣本的預(yù)測。Jia等人[19]在2021年首次提出借助數(shù)據(jù)先驗分布提升性能的文本分類交替歸一化方法(Classification with Alternating Normalization,CAN),并應(yīng)用到文本分類的關(guān)系抽取下游任務(wù)上,取得了不錯的效果。但其樣本置信度熵值判定指標(biāo)未進行歸一化,導(dǎo)致樣本熵值無法保證在0~1之間,不利于閾值的調(diào)節(jié)。
本文在其基礎(chǔ)上對樣本置信度熵值判定指標(biāo)進行改進;融合RoBERTa、Bi-LSTM和注意力機制在提取深層次文本特征信息的同時,結(jié)合改進交替歸一化方法,使得最終結(jié)果更接近數(shù)據(jù)集的先驗分布,進而提升情感極性判斷的準確性。
本文提出的FAN-RoBLA模型通過RoBERTa預(yù)訓(xùn)練提取文本動態(tài)詞向量表示,輸入Bi-LSTM模型,結(jié)合上下文獲取全局語義特征,融合注意力機制,加入特征權(quán)重后得到分類結(jié)果,隨后對輸出結(jié)果進行熵值判定,分類為高、低置信度兩類樣本,利用數(shù)據(jù)集先驗分布信息和高置信度樣本作為修正參考系對低置信度樣本進行交替歸一化,逐一修正得到最終情感傾向。FAN-RoBLA模型結(jié)構(gòu)如圖1所示。
圖1 FAN-RoBLA模型結(jié)構(gòu)
訓(xùn)練文本輸入模型前需進行特征處理與詞典轉(zhuǎn)換,在文本起始位置添加[CLS]占位符,通過RoBERTa詞典對文本中字符進行index轉(zhuǎn)換,作為嵌入層的輸入。
預(yù)訓(xùn)練RoBERTa模型由12層經(jīng)過微調(diào)的雙向Transfomer構(gòu)成,隱藏層維度為768,每一層均含相對應(yīng)的多頭自注意力結(jié)構(gòu),用于獲取文本全局向量矩陣H=[H1,H2…,HN]作為下游結(jié)構(gòu)的輸入。RoBERTa結(jié)構(gòu)如圖2所示。
圖2 RoBERTa模型結(jié)構(gòu)
此外,RoBERTa采用了比BERT更高質(zhì)量的維基百科作為訓(xùn)練語料,以增強模型語義理解能力。并基于Yang等人[20]提出BERT模型中下一句預(yù)測任務(wù)(Next Sentence Prediction,NSP)存在的缺陷問題,RoBERTa經(jīng)過實驗驗證,摒棄NSP任務(wù)情況下的缺陷可有效提高分類任務(wù)性能。同時,RoBERTa模型在每次接收一個序列時都會生成一種新的掩碼方式,即在預(yù)訓(xùn)練時進行動態(tài)掩碼,從而在數(shù)據(jù)量偏大情況下能學(xué)習(xí)到不同的文本特征信息。
RNN能通過遞歸循環(huán)學(xué)習(xí)到文本上下文語義關(guān)聯(lián)信息,但在處理長序列文本時容易出現(xiàn)梯度爆炸與梯度消失等現(xiàn)象。LSTM作為傳統(tǒng)RNN的變體神經(jīng)網(wǎng)絡(luò),在處理長序列文本時,能有效緩解上述RNN所產(chǎn)生的梯度問題。 LSTM模型核心結(jié)構(gòu)主要由輸入門it,遺忘門ft,輸出門Ot,單元狀態(tài)Ct四部分組成,計算如式(1)~式(5)所示。
其中,Wi,Wf,WO,WC分別代表輸入門、遺忘門、輸出門和單元狀態(tài)相對應(yīng)的權(quán)重矩陣,bi,bf,bO,bC分別代表輸入門、遺忘門、輸出門和單元狀態(tài)相對應(yīng)的偏置矩陣,xt和ht分別代表t時刻的輸入特征與隱藏層狀態(tài)。輸入門、遺忘門、輸出門均采用sigmoid作為激活函數(shù)(式中表示為σ),用于調(diào)節(jié)網(wǎng)絡(luò)中傳輸?shù)男畔⒅?并將tanh作為激勵函數(shù),使輸出均值為0。
本文利用注意力機制對Bi-LSTM層輸出的特征向量yn進行權(quán)重分配,對文本訓(xùn)練中重要語義特征給予高權(quán)重,降低無關(guān)信息的資源分配,提高細粒度情感分類任務(wù)效率與準確性。注意力機制層計算公式如式(6)~式(8)所示。
假定情感二分類任務(wù)時,模型對輸入a的預(yù)測輸出為p(a)=[0.05,0.95],則a預(yù)測類別明顯傾更向于為第1類情感;對輸入b的預(yù)測輸出為p(b)=[0.5,0.5],預(yù)測此時容易出現(xiàn)偏差,若此時已知先驗信息:
① 類別必為0類或1類情感之一。
② 兩類數(shù)據(jù)分布概率各為0.5。
由于前一個樣本a的預(yù)測結(jié)果為第1類數(shù)據(jù),則在先驗分布的影響下,會更傾向于將樣本b預(yù)測為第0類情感。交替歸一化即利用上述思想通過數(shù)據(jù)集先驗分布信息對低置信度的預(yù)測結(jié)果進行修正,使最終預(yù)測結(jié)果更接近先驗分布。
FAN-RoBLA模型中每一個測試樣本經(jīng)過Softmax層輸出后得到預(yù)測概率分布結(jié)果p=[p1,p2,…,pm](m代表情感類別數(shù)),對每個測試樣本逐一進行熵值判定,判定衡量指標(biāo)采用不確定性熵E(p),樣本熵值E(p)越大,表明這個樣本內(nèi)部情感傾向越不穩(wěn)定,即熵值越大,樣本置信度越低。對于熵值大于閾值τ的樣本,判定為低置信度樣本,反之判定為高置信度樣本。熵值計算如式(9)所示。
(9)
熵值小于τ,判定為高置信度的預(yù)測樣本,被認為是可信任的,不用加以修正,因此對熵值大于τ的低置信度預(yù)測樣本進行交替歸一化法修正。修正過程如式(12)~式(17)所示。
N:Rn→Rn×n
(12)
(13)
ΛS=N((L0)Te)
(14)
(15)
ΛL=Ν(SdΛqe)
(16)
(17)
在如圖3所示的交替歸一化修正情感三分類任務(wù)實例中,模型輸入四個樣本,其中三個樣本經(jīng)過閾值判定為高置信度樣本,并且預(yù)測類別分別是2、0和2類情感,將三類高置信度樣本預(yù)測概率進行拼接得到A0用作“修正參考系”,b0為待修正的低置信度樣本。按式(12)~式(17)進行交替歸一化操作,得到最終修正樣本。其中Λq為三類情感數(shù)據(jù)先驗分布比例,可以看出第一類情感占比最大,且b0經(jīng)過修正后預(yù)測概率明顯偏向占比最多的第一類,且向量求和保持為1,符合概率定義。
為測試FAN-RoBLA模型在細粒度情感分類任務(wù)上的預(yù)測性能。本文實驗基于Python 3.8+PyTorch 1.9.0深度學(xué)習(xí)框架,訓(xùn)練環(huán)境采用Google Research團隊開發(fā)的線上Jupyter服務(wù)器Colab,GPU為NVIDIDA Tesla P100-PICE-16G。
FAN-RoBLA預(yù)訓(xùn)練模型采用哈工大訊飛聯(lián)合實驗室發(fā)布的中文RoBERTa與Google發(fā)布的英文RoBERTa,均為12層雙向Transformer結(jié)構(gòu)隱藏層,維度為768。模型訓(xùn)練超參數(shù)設(shè)置如下: 參考數(shù)據(jù)集平均長度max length統(tǒng)一設(shè)置為128;數(shù)據(jù)量批次Batch Size設(shè)置為64;損失函數(shù)采用交叉熵損失函數(shù);模型通過AdamW優(yōu)化器進行優(yōu)化收斂;學(xué)習(xí)率lr設(shè)置為2e-5;Dropout設(shè)置為0.2,防止過擬合;置信度判定閾值設(shè)定為0.8;模型訓(xùn)練迭代輪數(shù)Epoch設(shè)置為5。
本文實驗使用SMP2020-EWWCT中文競賽提供的usual微博數(shù)據(jù)集、virus新冠疫情數(shù)據(jù)集和SemEval 2014 task4中Restaurant英文數(shù)據(jù)集進行跨語言實驗驗證。三類數(shù)據(jù)集具體信息如表1所示。
其中,usual與virus數(shù)據(jù)集均蘊含六類情緒,分別是積極(happy)、憤怒(angry)、悲傷(sad)、恐懼(fear)、驚奇(surprise)和無情緒(neutral),其中usual數(shù)據(jù)集內(nèi)容為隨機采集的微博上各類話題數(shù)據(jù)內(nèi)容;virus數(shù)據(jù)集采集自2020年期間由關(guān)鍵字篩選的相關(guān)新冠疫情微博內(nèi)容,具體樣例如表2所示。Restaurant數(shù)據(jù)集采集自餐館評測,蘊含三類情感極性,分別是積極(positive)、消極(sad)和無情緒(neutral)。
由于SMP2020-EWWCT的通用微博和疫情微博數(shù)據(jù)集均為直接抓取于微博用戶發(fā)表內(nèi)容,因此數(shù)據(jù)文本中摻雜許多無用信息與符號,這些雜質(zhì)在訓(xùn)練時會在不同程度地影響模型效果,導(dǎo)致部分數(shù)據(jù)在最后細粒度情感分類時出現(xiàn)偏差。為提升訓(xùn)練數(shù)據(jù)質(zhì)量,降低文本雜質(zhì)對模型訓(xùn)練效果的影響,本文對兩類數(shù)據(jù)集文本內(nèi)容同時進行繁體轉(zhuǎn)為簡體、英文大寫轉(zhuǎn)為小寫、url地址去除、email郵箱去除、符號全角轉(zhuǎn)半角、微博@標(biāo)簽去除以及保留emoji表述等操作進行數(shù)據(jù)清洗,清洗樣例如表3所示。
表3 數(shù)據(jù)清洗樣例
為驗證FAN-RoBLA模型在細粒度情感分類任務(wù)上的有效性,選取當(dāng)前性能較好的主流深度學(xué)習(xí)分類模型進行對比實驗。對比模型介紹如下:
(1)TextCNN[6]: 利用卷積神經(jīng)網(wǎng)絡(luò)對文本N-gram特征進行自由組合,捕捉不同層次局部情感特征并作用于Softmax。
(2)DPCNN[21]: 參考殘差網(wǎng)絡(luò)提出的一種通過增加網(wǎng)絡(luò)深度抽取長距離的文本依賴關(guān)系的金字塔結(jié)構(gòu)模型。
(3)ATAE-LSTM[22]: 通過LSTM捕捉文本間語義關(guān)聯(lián),同時拼接經(jīng)過平均池化后的屬性詞向量;結(jié)合注意力機制篩選權(quán)重更高的詞后進行分類。
(4)BERT-FC[10]: 以BERT-base作為預(yù)訓(xùn)練模型獲取文本動態(tài)詞向量,輸入全連接層,后接Softmax歸一化后進行分類。BERT因雙向Transformer編碼器結(jié)構(gòu)而具有優(yōu)秀的語義表征能力。
(5)AEN-BERT[23]: 采用標(biāo)簽平滑方式解決情感模糊判斷問題,并通過注意力機制對方面詞和全局文本進行建模。
(6)FMNN[24]: 融合多神經(jīng)網(wǎng)絡(luò),采用雙通道結(jié)構(gòu)減小網(wǎng)絡(luò)深度的同時融合BERT、RNN和CNN進行全局和局部文本語義提取。
(7)RoBERTa-FC: RoBERTa作為在BERT基礎(chǔ)上改進的預(yù)訓(xùn)練模型,RoBERTa預(yù)訓(xùn)練模型采用動態(tài)掩碼機制,使得同一句話擁有不同的掩碼方式,進一步增強模型語義表征能力與特征提取能力。
(8)RoBERTa-ATTLSTM: 以RoBERTa作為預(yù)訓(xùn)練模型,獲取詞級別的動態(tài)詞向量,以雙向LSTM作為下游分類任務(wù)模型輸出全局特征,最后通過注意力機制特征權(quán)重分配。
本文采用準確率Acc(Accuracy)、精確率P(Precision)、召回率R(Recall)與F1值四個指標(biāo)對此次實驗進行多角度評價混淆矩陣,F1如表4所示。
其中,TP是預(yù)測為正的實際正樣本,FP是預(yù)測為正的實際負樣本,FN是預(yù)測為負的實際正樣本,TN是預(yù)測為負的實際負樣本。指標(biāo)公式如式(18)~式(21)所示。
由于本文實驗為細粒度情感分類實驗,因此采用更適合多分類的宏觀精確率(Macro-P)、宏觀召回率(Macro-R)和宏觀F1值(Macro-F1)計算各類別的平均指標(biāo)值作為n分類的最終評估。定義如式(22)~式(24)所示。
3.7.1 閾值分析
實驗部分首先在中文SMP2020-EWWCT的通用微博Usual數(shù)據(jù)集和英文SemEval 2014 task4的Restaurant數(shù)據(jù)集上針對置信度閾值大小對準確率的影響進行實驗分析,根據(jù)實驗結(jié)果繪制雙Y軸折線柱狀圖,如圖4和圖5所示。其中,折線代表不同閾值下高置信度樣本、低置信度樣本和FAN-RoBLA修正后的準確率,參考坐標(biāo)系為左Y軸;柱狀圖代表不同置信度下高置信度和低置信度的數(shù)量對比,參考坐標(biāo)系為右Y軸。
圖5 SemEval task4-Restaurant不同閾值影響
從圖4、圖5可以看出,整體趨勢上,FAN-RoBLA準確率在閾值0.8左右達到最高值并趨于穩(wěn)定后略微下降。同時閾值越大,高置信度樣本數(shù)量越多,此時高置信度樣本的準確率越低,也驗證了樣本熵值越大時,樣本概率內(nèi)部穩(wěn)定性越低;隨之相應(yīng)的低置信度樣本則是隨著閾值的提高,數(shù)量越少,準確率逐漸下降。圖4反映出隨著閾值增高,低置信度樣本數(shù)量逐漸趨于0時,FAN-RoBLA能修正的樣本數(shù)也逐漸趨于0,此時FAN-RoBLA準確率基本與高置信度相同,即與修正前概率一致。圖5則反映出SemEval 2014 task 4-Restaurant數(shù)據(jù)集有一定數(shù)量的樣本熵值屬于0.95~1區(qū)間內(nèi),即樣本預(yù)測概率內(nèi)部極度不穩(wěn)定,此時交替歸一法對其修正效果十分微小,并且閾值于0.75~0.95區(qū)間低置信度樣本數(shù)量相差很小,也導(dǎo)致FAN-RoBLA準確率在此區(qū)間基本不變。通過實驗結(jié)果可看出,不同的閾值對FAN-RoBLA情感分類效果會產(chǎn)生一定的影響,高置信度數(shù)量與其準確率盡可能高時,交替歸一化修正效果越好。因此針對不同的數(shù)據(jù)集選擇不同的閾值才能達到最好的情感分類效果。本文實驗中英兩類數(shù)據(jù)集,閾值均選定0.8時達到實驗最好的分類效果。
3.7.2 模型對比分析
由于virus數(shù)據(jù)集數(shù)據(jù)量只有usual的1/3,且存在嚴重的樣本類別分布不平衡的情況??紤]到virus數(shù)據(jù)集與usual數(shù)據(jù)集存在相同的情緒主題標(biāo)簽,因此利用遷移學(xué)習(xí),在usual訓(xùn)練好的模型基礎(chǔ)上加入virus訓(xùn)練數(shù)據(jù),以增強模型泛化能力。FAN-RoBLA模型與各對比模型在SMP2020-EWWCT和SemEval 2014 task 4-Restaurant數(shù)據(jù)集實驗結(jié)果如表5所示。
表5 不同模型實驗結(jié)果對比 (單位: %)
從對比試驗結(jié)果上可看出,模型在情感細粒度分類任務(wù)上對比其他深度學(xué)習(xí)模型,在實驗評價指標(biāo)上均達到最優(yōu)的效果,證明了FAN-RoBLA模型在情感細粒度分類任務(wù)中的有效性。
TextCNN模型通過不同大小的一維卷積核對文本進行特征提取,再通過池化進行特征篩選,在usual與virus數(shù)據(jù)集上均表現(xiàn)不佳,側(cè)面反映了TextCNN不能通過卷積獲取文本長距離依賴關(guān)系的問題所在;DPCNN通過不斷加深網(wǎng)絡(luò)以獲取長距離文本依賴關(guān)系,實驗效果在評價指標(biāo)上的表現(xiàn)略好于TextCNN,證明了針對情感細粒度分類任務(wù)時,DPCNN能更有效地抓取文本關(guān)鍵特征信息;ATAE-LSTM結(jié)合LSTM與Attention的優(yōu)勢對不同方面信息進行處理,取得了不使用預(yù)訓(xùn)練情況下的最好實驗效果,同時驗證了LSTM結(jié)合Attention機制在特征提取能力上的良好性能。
通過分析表中數(shù)據(jù)可知,融合預(yù)訓(xùn)練模型的BERT-FC、AEN-BERT和FMNN在情感分類上的表現(xiàn)明顯大幅優(yōu)于TextCNN、DPCNN和ATAE-LSTM模型,其中BERT-FC在usual、virus和Restaurant數(shù)據(jù)集上Macro-F1值較ATAE-LSTM分別取得7.69%、7.74%和9.21%的提升,反映了BERT預(yù)訓(xùn)練模型的雙向Transformer編碼結(jié)構(gòu)在更深層次的提取文本語義特征信息上的優(yōu)勢,并以此獲取動態(tài)詞向量輸入全連接層進行情感細粒度分類。
3.7.3 消融實驗
為更好地分析FAN-RoBLA結(jié)構(gòu)中不同部分對模型的影響,設(shè)計相應(yīng)的消融實驗進行驗證。其中,表5中baseline 7、8分別為FAN-RoBLA去掉深層語義提取結(jié)構(gòu)和去掉交替歸一化結(jié)構(gòu)后的消融模型。
RoBERTa作為BERT的改進模型,RoBERTa-FC相較于BERT-FC在usual、virus和Restaurant數(shù)據(jù)集上F1值上分別有1.51%、1.06%和2.99%的提升,說明RoBERTa采用全詞MASK機制在中文數(shù)據(jù)集上能更多考慮到文本中文詞一詞多義的豐富性表達,充分利用上下語義間關(guān)聯(lián)來提升分類效果,這也是本文模型選用RoBERTa作為預(yù)訓(xùn)練模型的原因。
RoBERTa-ATTLSTM模型融合了RoBERTa、Bi-LSTM和注意力機制的優(yōu)勢,先通過RoBERTa獲取預(yù)訓(xùn)練詞向量,輸入Bi-LSTM獲取全局語義特征信息后,聯(lián)合注意力機制進行關(guān)鍵特征權(quán)重分配,其分類效果僅次于本文提出的FAN-RoBLA模型,在usual、virus和Restaurant數(shù)據(jù)集上macro-F1值比BERT預(yù)訓(xùn)練模型有0.3%、0.22%和0.69%的提升,驗證了通過融合Bi-LSTM和注意力機制在深度語義提取上的有效性。
本文提出的FAN-RoBLA模型在RoBERTa-ATTLSTM的基礎(chǔ)上進一步利用數(shù)據(jù)集先驗分布信息對模型輸出的低置信度樣本進行交替歸一化修正,得到最終分類結(jié)果。對比實驗中性能最好的RoBERTa-ATTLSTM模型,FAN-RoBLA模型在macro-F1值在usual、virus和Restaurant數(shù)據(jù)集上分別有2.94%、3.42%和0.87%的提升,從而進一步證明了FAN-RoBLA模型能通過結(jié)合各深度學(xué)習(xí)模型優(yōu)勢同時融合交替歸一化方法的有效性,在情感細粒度分類下游任務(wù)上帶來穩(wěn)定的提升效果。
本文針對細粒度情感分類問題提出一種結(jié)合RoBERTa、Bi-LSTM和注意力機制優(yōu)勢的同時融合交替歸一化的FAN-RoBLA模型。該模型通過RoBERTa預(yù)訓(xùn)練模型獲取文本動態(tài)特征向量;利用Bi-LSTM結(jié)構(gòu)結(jié)合上下文得到全局語義編碼表示,融合注意力機制對關(guān)鍵特征進行權(quán)重分配;在幾乎不增加預(yù)測成本的情況下,通過交替歸一化修正低置信度樣本得到最終結(jié)果。在SMP2020-EWWCT中文數(shù)據(jù)集和SemEval 2014 task4-Restaurant英文數(shù)據(jù)集上均達到了最優(yōu)效果,從而驗證了此模型在細粒度情感分類任務(wù)上的有效性?,F(xiàn)實中,面對缺乏高質(zhì)量訓(xùn)練數(shù)據(jù)或樣本分類嚴重不均衡時,模型表現(xiàn)效果波動較大,未來工作將對如何維持模型在不同場景下的魯棒性做進一步研究。