胡任遠(yuǎn),劉建華,卜冠南,張冬陽,羅逸軒
1.福建工程學(xué)院 信息科學(xué)與工程學(xué)院,福州350118
2.福建省大數(shù)據(jù)挖掘與應(yīng)用技術(shù)重點(diǎn)實(shí)驗(yàn)室,福州350118
情感分析(sentiment analysis),是指通過自動分析用戶對某種事物的文本內(nèi)容,提取出用戶對該事物的褒貶態(tài)度以及意見,屬于文本分類問題。傳統(tǒng)的機(jī)器學(xué)習(xí)方法可以解決文本分類問題,例如支持向量機(jī)、樸素貝葉斯、最大熵、K鄰近算法等。傳統(tǒng)方法主要通過人工標(biāo)注一部分文本數(shù)據(jù)為訓(xùn)練集,并需要文本數(shù)據(jù)特征進(jìn)行人工提取,然后訓(xùn)練機(jī)器學(xué)習(xí)的分類模型,最后利用分類模型對沒有標(biāo)注的數(shù)據(jù)進(jìn)行預(yù)測,輸出最終的預(yù)測分類結(jié)果?;趥鹘y(tǒng)機(jī)器學(xué)習(xí)的文本分類方法已經(jīng)取得了非常多的成果,但需要依賴復(fù)雜人工規(guī)則的文本特征工程,而特征工程的策略是否合適會大大影響情感分類的效果。
近些年來,深度學(xué)習(xí)在自然語言處理領(lǐng)域取得了碩果,被廣泛應(yīng)用于情感分析任務(wù)中,成為當(dāng)前研究熱點(diǎn)[1]。其優(yōu)勢為能夠采用詞嵌入(word embedding)技術(shù),把詞映射成一個(gè)實(shí)值向量空間,提取詞向量為特征,減少人工特征工程對情感分析的影響。Kim等[2]將不同卷積核的卷積神經(jīng)網(wǎng)絡(luò)對英文文本進(jìn)行語義特征提取,在句子級分類任務(wù)中模型的分類效果出色。李洋等[3]提出將CNN與BiLSTM網(wǎng)絡(luò)特征融合的文本情感分析模型,利用Word2vec訓(xùn)練詞向量,在以往模型的基礎(chǔ)上進(jìn)一步提升情感分析問題的分類準(zhǔn)確率。劉全等[4]提出的一種用于基于方面情感分析的深度分層網(wǎng)絡(luò)模型,其中的區(qū)域卷積神經(jīng)網(wǎng)絡(luò)需要將事先將用戶的評論語言按不同方面的目標(biāo)詞分割為長度固定的不同區(qū)域,提取了文本序列中不同的特征。以上研究人員都通過不同的神經(jīng)網(wǎng)絡(luò)模型處理情感分析問題,并且取得了較好的分類效果。
Word2vec[5]目前被廣泛應(yīng)用于NLP 領(lǐng)域中詞向量的訓(xùn)練。Pennington 等[6]于2014 年提出Glove 模型,該模型提高了詞向量在大語料數(shù)據(jù)集上的訓(xùn)練速度和模型穩(wěn)定性,從而被廣泛應(yīng)用。通過深度學(xué)習(xí)對語料庫數(shù)據(jù)的訓(xùn)練,可以預(yù)訓(xùn)練出詞向量,構(gòu)成預(yù)訓(xùn)練模型。故預(yù)訓(xùn)練模型(Pre-trainedmodel)是一種基于大量數(shù)據(jù)集訓(xùn)練得到的神經(jīng)網(wǎng)絡(luò)架構(gòu),并且可以在此基礎(chǔ)上進(jìn)行下游任務(wù)的實(shí)現(xiàn)。預(yù)訓(xùn)練模型在很多NLP 任務(wù)中的表現(xiàn)大多比傳統(tǒng)神經(jīng)網(wǎng)絡(luò)更為出色。通過對預(yù)訓(xùn)練模型進(jìn)一步的深入研究,ELMo[7]、Transformer[8]、基于轉(zhuǎn)換器的雙向編碼表征(BERT)[9]等豐富的預(yù)訓(xùn)練模型被相繼提出,其中BERT 是目前應(yīng)用最廣泛的預(yù)訓(xùn)練模型。Xu等[10]針對BERT模型缺乏對領(lǐng)域知識和任務(wù)相關(guān)知識的問題,提出了一種后訓(xùn)練的解決方案,但其訓(xùn)練的特征較為單一,未能學(xué)習(xí)到序列的多層次特征。GAO等[11]在目標(biāo)詞后添加了一層最大池化層和一層全連接神經(jīng)網(wǎng)絡(luò),提出了基于目標(biāo)的BERT 分類模型,但其忽略了上下文之間的聯(lián)系而只關(guān)注于目標(biāo)情感詞??爸救旱萚12]將BERT 與BiLSTM 結(jié)合,在微博數(shù)據(jù)的傾向性分析中取得了出色的效果,串行連接的BiLSTM可以在微調(diào)任務(wù)(Fine Tune)中特征提取能力仍有提高空間。謝潤忠等[13]提出了一種基于BERT 和雙通道注意力的模型,在情感分類任務(wù)中表現(xiàn)出色,但其用的雙通道注意力模型同時(shí)需要訓(xùn)練兩種BERT 模型,時(shí)間成本巨大,并且其左通道結(jié)合了BiGRU提取序列的聯(lián)系忽略的情感極性的表達(dá),右通道添加一層全連接神經(jīng)網(wǎng)絡(luò),同樣缺乏對目標(biāo)任務(wù)特征的進(jìn)一步提取。
以上文獻(xiàn)使用的BERT 模型為了處理不同領(lǐng)域的任務(wù),使用了微調(diào)的方法讓模型在訓(xùn)練時(shí)可以不斷學(xué)習(xí)領(lǐng)域知識,并且通過反饋神經(jīng)網(wǎng)絡(luò)的來更新原本模型的參數(shù)。但是在研究文本序列的情感極性時(shí),均存在以下不足:(1)BERT模型在通過后續(xù)任務(wù)補(bǔ)全推理和決策的過程中,未能很好的幫助其多方面學(xué)習(xí)情感分析領(lǐng)域知識,提升模型的分類能力。(2)對于句子級文本情感分類任務(wù)模型獲取的文本情感極性略顯單一,多層次語義的捕獲能力不足。
由于在情感分析任務(wù)中,截取不同長度的文本內(nèi)容,其所表達(dá)的情感極性可能出現(xiàn)截然不同的情況。針對以上問題,本文提出一種多層次語義協(xié)同模型(MCNN)來提取多層次語義的情感傾向特征,該模型能夠以分組的形式,將句子切分成不同長度的句塊,進(jìn)而對不同的句塊做特征提取,因此可提取到文本序列內(nèi)不同層次角度的情感極性特征,幫助模型更準(zhǔn)確的判斷文本序列的情感極性。最后,本文將MCNN 與BERT 融合,形成了一種基于BERT 模型的多層次語義協(xié)同模型,能夠分析文本序列的情感極性,并且該模型使用BiLSTM,抓取序列的上下文聯(lián)系,使用MCNN 對文本序列進(jìn)行不同層次上的情感極性特征提取,避免模型存在上述問題的不足,提高了模型的分類準(zhǔn)確性。
卷積神經(jīng)網(wǎng)絡(luò)(CNN)是深度學(xué)習(xí)的重要網(wǎng)絡(luò)之一,其由于采用了局部連接,權(quán)值共享的方式,相比起傳統(tǒng)神經(jīng)網(wǎng)絡(luò)采用全連接方式而言,有效的解決了網(wǎng)絡(luò)參數(shù)大,訓(xùn)練時(shí)間長等問題。CNN 主要是由輸入層、卷積層、池化層和全連接層組成,如圖1所示。
圖1 卷積神經(jīng)網(wǎng)絡(luò)
1.1.1 卷積層
在文本處理中,對句子做分詞處理,得到詞向量數(shù)據(jù),然后將詞向量數(shù)據(jù)輸入到CNN的卷積層,使用卷積核對其做卷積操作,得到新的特征矩陣。圖1中的X1,X2,…,Xn為句子所對應(yīng)的詞嵌入向量,將詞嵌入向量作為卷積層的輸入,根據(jù)式(1),可以得到序列輸出:
其中,X為詞嵌入向量組成的矩陣,W為權(quán)重矩陣,b為偏置量,f為卷積核激活函數(shù)。
1.1.2 最大池化層
在卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中,池化層一般分為平均池化層和最大池化層,本文使用的為最大池化層。將卷積層的輸出序列輸入池化層,在提取文本的主要特征同時(shí),也降低了向量維度,減少要訓(xùn)練的權(quán)重,并將結(jié)果傳給下一層神經(jīng)網(wǎng)絡(luò)。
1.2.1 傳統(tǒng)長短期記憶網(wǎng)絡(luò)
傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)在情感分類任務(wù)中,隨著文本序列長度的增大,容易出現(xiàn)梯度消失問題。為解決該問題,1997年,Hochreiter等[14]提出長短期記憶網(wǎng)絡(luò)模型(LSTM),LSTM 是對RNN 的改進(jìn),有效地解決RNN 網(wǎng)絡(luò)在訓(xùn)練過程中梯度消失的問題,利用細(xì)胞狀態(tài)和門機(jī)制,使其能夠記憶上一步的信息,并融合當(dāng)前接受的信息向下傳輸,如圖2所示。
圖2 長短期記憶網(wǎng)絡(luò)
LSTM運(yùn)行機(jī)制如式(2)~(7)所示:
其中,i、o、f分別代表著LSTM網(wǎng)絡(luò)中門機(jī)制內(nèi)的輸入門、輸出門和遺忘門,c是記憶細(xì)胞用來記錄細(xì)胞狀態(tài)的更新,在t時(shí)刻,網(wǎng)絡(luò)接收到當(dāng)前輸入xt和上一時(shí)刻t-1 遺留的信息向量ht-1作為三個(gè)門機(jī)制的輸入,it、ot、ft分別為輸入門、輸出門、遺忘門在t時(shí)刻所得到的激活向量。σ為非線性激活函數(shù)sigmoid(),tanh為非線性激活函數(shù)tanh(),圖中Wf、Wi、We、Wc和Ut、Ui、Ue、Uc分別為遺忘門、輸入門、輸出門的記憶細(xì)胞所對應(yīng)的權(quán)重矩陣,bt、bi、be、bc是偏置量,由模型訓(xùn)練獲得。
1.2.2 雙向長短記憶網(wǎng)絡(luò)
LSTM雖然解決了文本長度依賴的問題,但是無法獲取文本的上下文信息,雙向長短期記憶網(wǎng)絡(luò)(BiLSTM)可以同時(shí)考慮文本的上下文語境,如圖3 所示,其工作原理為:將接收的輸入傳入兩個(gè)時(shí)序相反的LSTM 網(wǎng)絡(luò)中,前向LSTM 可以獲取輸入序列的上文信息,而后向的LSTM 可以獲取輸入序列的下文信息,然后通過向量拼接的方式得到最終序列的隱藏表示。為了防止過擬合,本文采用Hinton 等[15]提出的Dropout 策略,每次迭代隨機(jī)刪減隱藏層的部分神經(jīng)元,達(dá)到了一定程度上的正則化效果。將x1,x2,…,xn作為輸入,通過前向LSTM 和后向LSTM 分別獲得了hL和hR,如式(8)和(9)所示:
圖3 雙向長短期記憶網(wǎng)絡(luò)
最后連接hL和hR獲得輸出數(shù)據(jù)hi(i=1,2,…,n)。
1.3.1 Transformer
Transformer 模型的Encoder 部分包含兩個(gè)子模塊,一個(gè)是自注意力機(jī)制層,其采用了多頭自注意力(Multihead Attention),另一個(gè)為全連接的前饋神經(jīng)網(wǎng)絡(luò),并且都對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化操作。模型中每個(gè)子模塊采用了殘差連接的方式來改善神經(jīng)網(wǎng)絡(luò)退化的問題。Transformer模型以Seq2Seq結(jié)構(gòu)為基礎(chǔ),改變了傳統(tǒng)Encoder-Decoder架構(gòu)需要依賴于RNN的模式,僅使用注意力機(jī)制和全連接神經(jīng)網(wǎng)絡(luò)搭建而成,將輸入數(shù)據(jù)通過詞嵌入(Word Embedding)和位置編碼(Position Encoding)處理,可以學(xué)習(xí)到文本序列的位置關(guān)系,再通過多頭自注意力機(jī)制來學(xué)習(xí)文本序列中字詞相互的關(guān)系。Transformer模型結(jié)構(gòu)如圖4所示。
圖4 Transformer模型
圖中虛線箭頭為殘差連接,是為了解決多層神經(jīng)網(wǎng)絡(luò)訓(xùn)練困難的問題,通過將前一層的信息無差的傳遞到下一層,可以有效的僅關(guān)注差異部分。Attention的計(jì)算公式如(10)和(11)所示,其中Q、K、V為隨機(jī)初始化而成后續(xù)通過訓(xùn)練不斷更新,是注意力層的輸入。多頭注意力機(jī)制為多個(gè)自注意力機(jī)制的結(jié)合,可以使模型通過不同的頭學(xué)習(xí)到不同方面的內(nèi)容,給予模型更大的容量??梢詭椭P瓦M(jìn)行縮放,避免softmax的結(jié)果非0即1,W0同樣為隨機(jī)初始化的矩陣最后將每個(gè)頭學(xué)習(xí)到的注意力矩陣進(jìn)行拼接。
1.3.2 BERT模型
Word2vec 等傳統(tǒng)生成詞向量工具知識基于淺層神經(jīng)網(wǎng)絡(luò)的模型來提供詞嵌入作為特征,相比之下BERT模型還可以集成到下游任務(wù)中,可以適用特定的任務(wù)體系并作出調(diào)整。BERT 是以雙向Transformer 模型為基礎(chǔ)的雙向Transformer編碼器,主要使用了Encoder模塊來計(jì)算,如圖5 所示。其采用遮蔽語言模型[16](Masked Language Model,MLM)建模,使得其輸出的序列可以更全面的學(xué)習(xí)到不同方向的文本信息,為給后續(xù)的微調(diào)提供了更好的初始參數(shù)。
圖5 BERT模型結(jié)構(gòu)圖
本文提出一種基于BERT 的多層次語義協(xié)同模型。如圖6所示,BERT-CMCNN模型一共有四層:輸入層、特征提取層,信息融合層以及輸出層。為解決BERT模型缺乏情感分析領(lǐng)域的知識,幫助其補(bǔ)全后續(xù)推理和決策環(huán)節(jié),本文使用在BERT模型后添加的雙通道中含有BiLSTM 來抓取上下文關(guān)系以及協(xié)同的多層次語義特征提取模型MCNN,該模型可以從不同角度去理解序列所表達(dá)的情感特征,而且采用協(xié)同結(jié)構(gòu)可以很好地避免神經(jīng)網(wǎng)絡(luò)過深而帶來的梯度消失以及信息丟失等問題。最后,在信息整合之下本文提出的BERT-CMCNN模型便包含了情感分類領(lǐng)域的序列關(guān)系以及不同層次的情感極性特征,更適用于情感分類任務(wù)中。
圖6 BERT-CMCNN模型結(jié)構(gòu)圖
首先對中文文本數(shù)據(jù)進(jìn)行停用詞和特殊且無意義的符號進(jìn)行去除,其次挑選出情感分析領(lǐng)域最常見的錯(cuò)別字構(gòu)建字詞典,對文本序列進(jìn)行錯(cuò)別字替換。英文文本數(shù)據(jù)則進(jìn)行特殊無意義符號去除的大小寫轉(zhuǎn)換。BERT 模型的每輸入都需要由詞向量(Token Embeddings)、段向量(Segment Embeddings)、位置向量(Position Embeddings)相加而成。其中詞向量是由隨機(jī)初始化而來,該向量的取值在模型訓(xùn)練過程中自動學(xué)習(xí),用于刻畫文本的全局語義信息,并與單字詞的語義信息相融合。段向量為區(qū)分字詞所在的上下文。位置向量是由于出現(xiàn)在文本不同位置的字詞所攜帶的語義信息存在差異(比如,“我愛你”和“你愛我”),因此,BERT模型對不同位置的字詞分別附加一個(gè)不同的向量以作區(qū)分,輸入格式如圖7所示。
圖7 BERT模型的輸入
MCNN結(jié)構(gòu)如圖8所示,該結(jié)構(gòu)由多個(gè)不同大小卷積核的一維卷積神經(jīng)網(wǎng)絡(luò)協(xié)同組成了多層次語義學(xué)習(xí)器。該模型可以學(xué)習(xí)到以不同卷積核大小為長度的語塊中,不同層次的情感特征。
圖8 MCNN模型結(jié)構(gòu)圖
本文采用的協(xié)同結(jié)構(gòu)一定程度上避免了串行結(jié)構(gòu)中容易出現(xiàn)深度神經(jīng)網(wǎng)絡(luò)梯度消失的問題,在后續(xù)情感分析任務(wù)中幫助模型學(xué)習(xí)到了目標(biāo)領(lǐng)域的知識,來進(jìn)行后續(xù)的補(bǔ)全推理和決策環(huán)節(jié),最后將學(xué)習(xí)到的不同層次情感特征進(jìn)行融合。因其能多角度多層次的學(xué)習(xí)到序列表達(dá)的情感極性,故該模型可以適用于不同語料的情感分類任務(wù)中。
實(shí)驗(yàn)方法主要采用以下三種方式:
(1)將BERT詞向量模型與Word2vec、Glove和ELMo三種不同詞向量模型做對比實(shí)驗(yàn),驗(yàn)證了BERT詞向量模型的優(yōu)越性。
(2)將CMCNN 的組合方式與BiLSTM-BiLSTM 和MCNN-MCNN等兩種不同的組合方式分別做消融實(shí)驗(yàn)并進(jìn)行對比,驗(yàn)證了CMCNN 能夠使BERT 模型補(bǔ)充更豐富的領(lǐng)域知識,提高情感分類準(zhǔn)確率。
(3)將BERT-CMCNN 模型與其他情感分類的深度學(xué)習(xí)模型做對比實(shí)驗(yàn),驗(yàn)證本文提出模型的能夠提高情感分類的效率。
3.1.1 實(shí)驗(yàn)環(huán)境
本文實(shí)驗(yàn)環(huán)境:操作系統(tǒng)為Windows10,CPU 為Intel Core i5-8300H,GPU為GeForce GTX 1060 6 GB,內(nèi)存大小為DDR4 16 GB,開發(fā)環(huán)境為TensorFlow 2.2.0-GPU,開發(fā)工具使用了JetBrainsPycharm。
3.1.2 實(shí)驗(yàn)數(shù)據(jù)
實(shí)驗(yàn)采用的數(shù)據(jù)集有兩種語言(中文和英文),其中每種語言都包含一個(gè)二分類數(shù)據(jù)和一個(gè)三分類數(shù)據(jù)并且訓(xùn)練集和測試集是獨(dú)立的兩個(gè)數(shù)據(jù)集,來確保本文提出方法的有效性。首先對中文文本數(shù)據(jù)進(jìn)行停用詞和特殊且無意義的符號進(jìn)行去除,其次挑選出情感分析領(lǐng)域最常見的錯(cuò)別字構(gòu)建字詞典,對文本序列進(jìn)行錯(cuò)別字替換。英文文本數(shù)據(jù)則進(jìn)行特殊無意義符號去除的大小寫轉(zhuǎn)換。中文實(shí)驗(yàn)數(shù)據(jù)采用了Data Fountain 的開源數(shù)據(jù)O2O 商鋪食品相關(guān)評論數(shù)據(jù)(本文縮寫為據(jù)o2o)以及疫情期間網(wǎng)民情緒數(shù)據(jù)(本文縮寫為Cov19),英文實(shí)驗(yàn)數(shù)據(jù)則是SST-2 和Twitter 航空評論數(shù)據(jù),如表1 所示,CN代表中文文本數(shù)據(jù),EN代表英文文本數(shù)據(jù)。
表1 實(shí)驗(yàn)數(shù)據(jù)統(tǒng)計(jì)
3.1.3 評價(jià)標(biāo)準(zhǔn)
本文使用的評價(jià)模型的指標(biāo)為精準(zhǔn)率(Precision)、召回率(Recall)和F1 值(F1-score),其中精準(zhǔn)率是指正確預(yù)測正樣本占實(shí)際預(yù)測為正樣本的比例,召回率是指表示正確預(yù)測正樣本占正樣本的比例,文本引入了綜合衡量指標(biāo)F1 值作為模型分類結(jié)果的評價(jià)標(biāo)準(zhǔn)之一,如式(12)~(14)所示:
其中,TP(TruePositive)是指正類判定為正類個(gè)數(shù),F(xiàn)P(False Positive)是指負(fù)類判定為正類個(gè)數(shù),F(xiàn)N(False Negative)是指正類判定為負(fù)類個(gè)數(shù)。
3.1.4 模型參數(shù)設(shè)置
由于模型參數(shù)的選擇對結(jié)果會有較大的影響,實(shí)驗(yàn)采用控制變量法,BiLSTM 隱層節(jié)點(diǎn)分別取64、128 和256,使用Adam優(yōu)化器優(yōu)化函數(shù),將卷積層填充模式設(shè)為same,BERT模型選用混合語言模型來確保模型初始權(quán)重的相同。通過多次對比實(shí)驗(yàn),發(fā)現(xiàn)取表2 參數(shù)時(shí),BERT-CMCNN分類模型效果最好。
表2 模型參數(shù)設(shè)置
3.2.1 實(shí)驗(yàn)方法與內(nèi)容
本小節(jié)采用Word2vec、Glove、ELMo和BERT不同詞向量模型,對4個(gè)數(shù)據(jù)集做情感分類對比實(shí)驗(yàn),目的是驗(yàn)證選擇BERT模型更合理。實(shí)驗(yàn)結(jié)果數(shù)據(jù)如表3所示。
3.2.2 實(shí)驗(yàn)結(jié)果與分析
從表3 可以看出,Glove-CMCNN 模型結(jié)果優(yōu)于Word2vec-CMCNN,是因?yàn)镚love 通過矩陣分解的方法利用詞共現(xiàn)信息,在關(guān)注上下文的同時(shí)還學(xué)習(xí)到了全局信息,在語義表征能力上有所提升。而ELMo 與BERT都可以動態(tài)表示詞向量,根據(jù)下游任務(wù)對語義表征能力進(jìn)行微調(diào),幫助模型學(xué)習(xí)領(lǐng)域知識,提高了了多義詞的識別效率,同時(shí)產(chǎn)生的詞向量特征更為豐富,因而模型得分均獲得了大幅度的提高。
表3 基于不同詞向量模型的對比結(jié)果 %
進(jìn)一步觀察表3 可知,相比于Word2vec 模型而言,ELMo 在4 組數(shù)據(jù)集上的準(zhǔn)確率、召回率、F1 分?jǐn)?shù)平均分別提高了4.16、4.84 和4.50 個(gè)百分點(diǎn)。不同于ELMo使用LSTM 進(jìn)行詞向量特征提取的方法,BERT 采用更為強(qiáng)大Transformer 編碼器進(jìn)行情感表征,特征提取能力得到進(jìn)一步提高,相比ELMo模型,BERT模型在4組數(shù)據(jù)集上F1 分?jǐn)?shù)分別提高了2.54、1.92 和2.22 個(gè)百分點(diǎn),在4 組數(shù)據(jù)集上使用BERT 作為詞向量工具的模型均取得了最高F1 分?jǐn)?shù)。
3.3.1 實(shí)驗(yàn)方法與內(nèi)容
實(shí)驗(yàn)設(shè)置了3 組消融實(shí)驗(yàn),分別改變BERT 模型后神經(jīng)網(wǎng)絡(luò)的組合方式來證明本文模型組合方式的合理性。實(shí)驗(yàn)結(jié)果如表4所示。
表4 不同組合方式在4種數(shù)據(jù)集上的消融實(shí)驗(yàn)結(jié)果 %
3.3.2 實(shí)驗(yàn)結(jié)果與分析
根據(jù)表4 所示實(shí)驗(yàn)結(jié)果,本文模型使用BiLSTMMCNN(CMCMM)模型組合方式的實(shí)驗(yàn)結(jié)果會優(yōu)于MCNN-MCNN 以及BiLSTM-BiLSTM 模型組合方式的實(shí)驗(yàn)結(jié)果,因?yàn)閮H使用MCNN 組合的模型雖然可以學(xué)習(xí)到多層次的語義,但其缺乏提取文本的上下文信息的能力,而僅使用BiLSTM組合的模型在多層次語義特征提取能力上更弱。相比BiLSTM-BiLSTM 模型以及MCNN-MCNN 模型,本文提出的模型在4 組數(shù)據(jù)集上的準(zhǔn)確率、召回率、F1 分?jǐn)?shù)平均分別提高了2.04、2.39、1.93個(gè)百分點(diǎn)和1.91、2.01、1.68個(gè)百分點(diǎn)。
3.4.1 實(shí)驗(yàn)方法與內(nèi)容
為了驗(yàn)證文本提出BERT-CMCNN 模型的有效性,本小節(jié)將此模型和3 種典型的神經(jīng)網(wǎng)絡(luò)模型,3 種近期提出的基于BERT 深度學(xué)習(xí)模型,在4 個(gè)數(shù)據(jù)集上進(jìn)行對比實(shí)驗(yàn),這7組實(shí)驗(yàn)?zāi)P徒榻B如下。
(1)CNN:基于文獻(xiàn)[17]提出的卷積神經(jīng)網(wǎng)絡(luò)模型,使用獨(dú)立的句子作為網(wǎng)絡(luò)模型的輸入,忽略了文本序列的時(shí)序問題,也忽略了句子長距離依賴關(guān)系。是基礎(chǔ)的卷積網(wǎng)絡(luò)模型。
(2)BiLSTM:基于文獻(xiàn)[18]提出的BiLSTM模型,該模型可以處理時(shí)間序列,但輸入的文本序列未能進(jìn)行特征提取工作,邊緣信息會干擾模型分類結(jié)果,無法有效判別句子的情感極性。
(3)BiLSTM-CNN:基于文獻(xiàn)[19]提出的結(jié)合BiLSTM和CNN的模型。輸入序列先通過BiLSTM處理后再作為CNN的輸入進(jìn)行局部語義特征提取。在情感分析任務(wù)中該模型取得了比以往單一模型更好的效果,但未融合循環(huán)機(jī)制在CNN中,局部語義提取效果仍不顯著。
(4)BERT:基于文獻(xiàn)[10]提出一種基于遷移學(xué)習(xí)的預(yù)訓(xùn)練模型,采用Transformer 的Encoder 模塊來構(gòu)建,結(jié)合多頭注意力機(jī)制和前饋神經(jīng)網(wǎng)絡(luò)去學(xué)習(xí)輸入信息,相比傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)而言取得了重大的突破。
(5)BERT-CNN:基于文獻(xiàn)[20]提出的結(jié)合BERT 和CNN 的模型,在BERT 模型后添加一層CNN 來進(jìn)一步提取輸入序列的情感特征,使模型能夠很好地處理情感分析的任務(wù)。
(6)BERT-BiLSTM:基于文獻(xiàn)[13]提出的結(jié)合BERT和BiLSTM 的模型,在BERT 模型后使用BiLSTM 進(jìn)一步獲取文本的上下文信息,使得模型在情感分類任務(wù)獲得了更好的效果。
(7)BERT-CMCNN:文本提出的結(jié)合BERT 的多層次語義協(xié)同網(wǎng)絡(luò)模型。在學(xué)習(xí)序列上下文關(guān)系的同時(shí)抓取了序列多層次的情感特征,幫助模型在后續(xù)訓(xùn)練中學(xué)習(xí)到目標(biāo)領(lǐng)域的知識,使得模型更好地適應(yīng)情感分類任務(wù),并在該任務(wù)中表現(xiàn)出色。
3.4.2 實(shí)驗(yàn)結(jié)果與分析
根據(jù)表5 所示的實(shí)驗(yàn)結(jié)果,基于遷移學(xué)習(xí)思想的BERT模型分類效果遠(yuǎn)高于傳統(tǒng)神經(jīng)網(wǎng)絡(luò)模型的分類效果(表5中,P、R、F分別代表精準(zhǔn)率、召回率和F1值)。CNN、BiLSTM和BiLSTM-CNN在4個(gè)數(shù)據(jù)集上的平均F1 分?jǐn)?shù)只有76.91%、78.78%和79.81%,而BERT模型相比傳統(tǒng)神經(jīng)網(wǎng)絡(luò),在4 個(gè)數(shù)據(jù)集上的平均F1 分?jǐn)?shù)比基礎(chǔ)的CNN、BiLSTM 和BiLSTM-CNN 模型總體提高了8.03、6.16和5.13個(gè)百分點(diǎn)。文本提出的BERT-CMCNN模型在4 個(gè)數(shù)據(jù)集上都取得了比其他網(wǎng)絡(luò)模型更好的分類效果。該模型在4個(gè)數(shù)據(jù)集上的平均F1 分?jǐn)?shù)比傳統(tǒng)神經(jīng)網(wǎng)絡(luò)中表現(xiàn)最好的BiLSTM-CNN 網(wǎng)絡(luò)模型在4個(gè)數(shù)據(jù)集上的平均F1 分?jǐn)?shù)提高了8.48 個(gè)百分點(diǎn),在表現(xiàn)最好的Conv19 數(shù)據(jù)集上模型效果提高了15.08 個(gè)百分點(diǎn)。相比使用了BERT模型的網(wǎng)絡(luò)結(jié)構(gòu),本文提出的BERT-CMCNN 模型相比傳統(tǒng)的BERT 模型在4 個(gè)數(shù)據(jù)集上的平均F1 分?jǐn)?shù)提高了3.63個(gè)百分點(diǎn),在表現(xiàn)最好的Cov19數(shù)據(jù)集上模型效果提高了4.16個(gè)百分點(diǎn),相比近期提出的BERT-CNN模型和BERT-BiLSTM模型也均有提高,F(xiàn)1 分?jǐn)?shù)平均提高了2.87 個(gè)百分點(diǎn)和2.25 個(gè)百分點(diǎn)。如圖9~12所示,在4組數(shù)據(jù)集上本文模型的收斂速度均快于其他對比模型,驗(yàn)證了本文提出方法的有效性。
圖9 o2o數(shù)據(jù)集上4種模型分?jǐn)?shù)變化曲線
表5 不同模型在4種數(shù)據(jù)集上的結(jié)果 %
圖10 Cov19數(shù)據(jù)集上4種模型分?jǐn)?shù)變化曲線
圖11 SST2數(shù)據(jù)集上4種模型分?jǐn)?shù)變化曲線
圖12 Twitter數(shù)據(jù)集上4種模型分?jǐn)?shù)變化曲線
同時(shí)本文對MCNN 中的協(xié)同通道數(shù)進(jìn)行多次試驗(yàn),測試模型在4組數(shù)據(jù)集上訓(xùn)練過程的平均F1 分?jǐn)?shù),如圖13所示。分別使用二通道(K2)、三通道(K3)和四通道(K4)的協(xié)同模型進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)發(fā)現(xiàn)通道數(shù)過多會影響模型的時(shí)間成本但模型分類效果并無明顯提高,過少則會影響模型的分類準(zhǔn)確性和收斂速度,故本文采用三通道模型來提取多層次情感特征。對于卷積核大小的取值決定了不同層次情感特征的來源,故本文以三通道模型為前提,對卷積核大小組合的取值做了實(shí)驗(yàn)分析,發(fā)現(xiàn)卷積核在取[2,3,4]時(shí)模型分類效果最佳,如圖14所示。
圖13 不同通道數(shù)模型分?jǐn)?shù)變化曲線
圖14 不同卷積核組合模型分?jǐn)?shù)變化曲線
本文針對基于遷移學(xué)習(xí)思想的BERT 模型在不同目標(biāo)任務(wù)中會缺乏領(lǐng)域知識和目標(biāo)相關(guān)知識,提出了基于BERT多層次語義協(xié)同模型,將其應(yīng)用于情感分析任務(wù)中。通過和傳統(tǒng)神經(jīng)網(wǎng)絡(luò)模型以及近期提出的基于遷移學(xué)習(xí)思想的模型在情感分類任務(wù)實(shí)驗(yàn)對比,驗(yàn)證了BERT-CMCNN模型具有更好的分類性能。本文研究模型的實(shí)驗(yàn)內(nèi)容限于二分類和三分類問題,未來需要針對情感極性更細(xì)膩的問題,研究本文模型的有效性。