李壯,李鴻燕
(太原理工大學(xué)信息與計(jì)算機(jī)學(xué)院,山西 晉中 030600)
方面級情感分析[1]是針對給定文本的特定方面進(jìn)行細(xì)粒度情感分析的任務(wù),是情感分析領(lǐng)域[2]中的重要分支。傳統(tǒng)機(jī)器學(xué)習(xí)方法依賴于人工特征提取的質(zhì)量,導(dǎo)致分類精度較低。近年來,深度學(xué)習(xí)憑借良好的特征提取能力,在該領(lǐng)域中得到廣泛應(yīng)用[3-5]。經(jīng)研究,注意力機(jī)制可有效提升情感分類效果[6],因此成為該領(lǐng)域的常用方法[7-9]。Li[10]等人發(fā)現(xiàn)對輸入信息進(jìn)行加權(quán)處理,可有效提升方面級特征提取能力。此外,相關(guān)學(xué)者提出GPT[11]和ELMO[12]提升分類效果,但兩種模型均需大量人工標(biāo)注數(shù)據(jù)集進(jìn)行訓(xùn)練。He[13]等人則利用遷移學(xué)習(xí)將文檔級知識轉(zhuǎn)移到方面級情感分類任務(wù)中,并有效提升分類精度。然而,以上研究均未考慮到該領(lǐng)域數(shù)據(jù)集較少,且目前工作遷移層次不夠深的問題。為了豐富方面級數(shù)據(jù)的獲取形式并提高分類精度,文中提出了BERTDTL-HAN 模型,該模型結(jié)合層次注意力網(wǎng)絡(luò)[14],可以將同領(lǐng)域句子級別的情感知識深層次遷移[15]到方面級任務(wù)中,通過與基準(zhǔn)模型進(jìn)行對比實(shí)驗(yàn),證明該方案的可行性和有效性。
文中提出的模型是基于BERT[16]作為預(yù)訓(xùn)練模型,結(jié)合深度遷移學(xué)習(xí)(Deep Transfer Learning,DTL)方法和層次注意力網(wǎng)絡(luò)(Hierarchical Attention Networks,HAN)的細(xì)粒度情感分析模型。BERTDTL-HAN 模型結(jié)構(gòu)如圖1 所示。
圖1 BERT-DTL-HAN模型結(jié)構(gòu)圖
模型包含四個部分,分別為基于BERT 模型的文本嵌入層、進(jìn)行深層次遷移學(xué)習(xí)的單詞編碼層和片段編碼層,以及進(jìn)行情感極性分類的輸出網(wǎng)絡(luò)層。
文本嵌入層將輸入的文本語料轉(zhuǎn)換為深度學(xué)習(xí)模型輸入的詞向量的數(shù)學(xué)形式,并進(jìn)行中文語料預(yù)處理的工作。
傳統(tǒng)語言模型如獨(dú)熱編碼和Word2Vec,僅可實(shí)行單向特征提取,且特征向量維度單一。為了解決傳統(tǒng)的詞嵌入方法不能很好地表征深層次的字詞向量信息,文中引入了圖2 所示的BERT 模型,該模型可以進(jìn)行詞義向量、分段向量和位置向量三個維度的特征提取,且采用雙向Transfoemer 結(jié)構(gòu)獲取上下文特征信息。
圖2 BERT模型圖
以“My dog is cute”為例句,其詞向量、分段向量和位置向量三個維度的向量信息如圖3 所示。
圖3 BERT模型輸入圖
三個維度大小相同,其中位置向量是通過三角函數(shù)對輸入文本中各個位置分別進(jìn)行編碼得到的,計(jì)算公式如下式:
式中,pos 表示第pos 個詞,i表示在詞向量嵌入模型中的第i維。
文本嵌入層通過BERT 模型進(jìn)行預(yù)訓(xùn)練時,序列長度被控制在BERT 能處理的最大序列長度512以內(nèi),其中長度不足512 的用0 填充,以方便進(jìn)行模型進(jìn)行矩陣運(yùn)算。
單詞編碼層采用雙向長短時記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)編碼,該網(wǎng)絡(luò)包含前向LSTM 和后向LSTM,可以從單詞層面的兩個方向讀取方面級的特征信息。單詞編碼層將句子級別的特征信息深層遷移到單詞層面。正向LSTM 建模定義為,后向LSTM 建模定義為,總建模為hit,建模的具體公式如下:
其中,xij表示輸入文本中第i個句子中第j個單詞的編碼信息,θLSTMw表示用于單詞編碼器的LSTM的參數(shù)。
單詞層次注意力機(jī)制的構(gòu)建公式如下:
式中,Kit為權(quán)重參數(shù),Rit為偏置參數(shù),uw為單詞編碼模型學(xué)習(xí)得到的向量,oi為單詞編碼層的輸出。
片段編碼層也采用雙向LSTM 架構(gòu),實(shí)現(xiàn)對片段層次的特征信息的雙向編碼。片段編碼層將句子級別的特征信息深層遷移到片段層面。片段編碼器的正向建模定義為,后向建模定義為,總建模定義為hi。建模的具體公式如下。
其中,xij表示輸入文本中第i個句子中第j個片段的編碼信息,θLSTMw表示用于片段編碼器的LSTM 的參數(shù)。
片段層次注意力機(jī)制的構(gòu)建公式如下:
式中,Wi為權(quán)重參數(shù),bi為偏置參數(shù),us為片段編碼模型學(xué)習(xí)得到的向量,S為片段編碼器注意力層輸出。
輸出網(wǎng)絡(luò)層采用全連接和softmax 函數(shù)進(jìn)行情感分類和歸一化處理,模型的最終輸出向量為Z,公式如下:
式中,W為權(quán)重參數(shù),b為偏置參數(shù)。
采用Adam 優(yōu)化方法進(jìn)行參數(shù)更新,并使用最小化交叉熵?fù)p失函數(shù)作為目標(biāo)函數(shù)優(yōu)化模型的情感分類效果,公式如下:
式中,B為訓(xùn)練集的數(shù)據(jù)量,L為情感具體分類的個數(shù),實(shí)驗(yàn)中數(shù)據(jù)量的大小為3,為預(yù)測類別數(shù),y為實(shí)際類別數(shù),φ‖θ‖2為交叉正則項(xiàng)。
文中采用了三個領(lǐng)域的公開數(shù)據(jù)集,分別為餐館(Restaurant)評論數(shù)據(jù)集和筆記本電腦(Laptop)數(shù)據(jù)集以及推特(Twitter)數(shù)據(jù)集,數(shù)據(jù)集被劃分為訓(xùn)練集和測試集,具體數(shù)據(jù)如表1 所示。
表1 實(shí)驗(yàn)數(shù)據(jù)集
實(shí)驗(yàn)的評估標(biāo)準(zhǔn)采用二分類問題中常用標(biāo)準(zhǔn)ACC(Accuracy,準(zhǔn)確率)和F1 值。其中ACC 標(biāo)準(zhǔn)計(jì)算的是正確分類樣本數(shù)占總樣本數(shù)的比例,計(jì)算公式如下:
F1 值為精確率和召回率的調(diào)和均值,兩者公式換算如下:
其中,TP 為模型預(yù)測為積極情緒,樣本本身為積極情緒的樣本個數(shù);TN 為模型預(yù)測為消極情緒,樣本本身為消極情緒的樣本個數(shù);FP 為模型預(yù)測為積極情緒,但樣本本身為消極情緒的樣本個數(shù);FN為模型預(yù)測為消極情緒,但樣本為積極情緒的樣本個數(shù)。
文中實(shí)驗(yàn)具體的環(huán)境如表2 所示。
表2 實(shí)驗(yàn)環(huán)境
將文中提出的BERT-DTL-HAN 模型在三個領(lǐng)域的數(shù)據(jù)集中與七個基準(zhǔn)模型進(jìn)行廣泛性實(shí)驗(yàn)。
為驗(yàn)證單詞編碼層和片段編碼層深層遷移學(xué)習(xí)的有效性,采用準(zhǔn)確率和F1 值作為評價指標(biāo)。文中分別對無遷移學(xué)習(xí)、只遷移單詞層面、只遷移片段層面和單詞級別以及片段級別均遷移四種情況進(jìn)行了對照實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表3 所示。
表3 不同遷移級別的實(shí)驗(yàn)結(jié)果
為了研究模型情感極性分類的有效性,設(shè)置七組模型進(jìn)行性能對比,相關(guān)的基準(zhǔn)模型均為方面級情感分析任務(wù)常用模型,文中提出的模型與各個基準(zhǔn)模型在三個領(lǐng)域數(shù)據(jù)集中的準(zhǔn)確率數(shù)據(jù)記錄如表4 所示。
表4 準(zhǔn)確率實(shí)驗(yàn)結(jié)果對比
表3 實(shí)驗(yàn)結(jié)果表明,在三個領(lǐng)域的數(shù)據(jù)集中,進(jìn)行單詞級別或片段級別深層遷移學(xué)習(xí)的模型準(zhǔn)確率和F1 值均優(yōu)于無遷移的模型。相比較于片段級別遷移,單詞級別對模型的準(zhǔn)確率提升更為明顯,其中單詞+片段遷移(全遷移)模型的情感分類效果最好。該實(shí)驗(yàn)證明了結(jié)合深層次遷移學(xué)習(xí)和層次注意網(wǎng)絡(luò)機(jī)制將數(shù)據(jù)量大的句子級別情感分析數(shù)據(jù)集遷移到數(shù)據(jù)量小的基于方面級情感分析任務(wù)中的可行性和有效性。
表4 實(shí)驗(yàn)結(jié)果表明,BERT-DTL-HAN 模型在三個數(shù)據(jù)領(lǐng)域中相較于七個基準(zhǔn)模型都取得了最好的實(shí)驗(yàn)結(jié)果。在筆記本電腦評論語料數(shù)據(jù)集中,相對于基準(zhǔn)模型中最優(yōu)結(jié)果模型Feature+SVM,準(zhǔn)確率提升了1.40%;在推特評論語料數(shù)據(jù)集中,相比較于基準(zhǔn)模型中的最優(yōu)結(jié)果模型Feature+SVM 模型,其準(zhǔn)確率提升了0.96%;在餐館評論數(shù)據(jù)集中本模型的效果相較于基準(zhǔn)模型的最優(yōu)結(jié)果SVM 模型的80.13%提升了0.93%。
針對由于數(shù)據(jù)集偏小且特征提取不足而導(dǎo)致方面級情感分析分類效果不佳問題,文中構(gòu)建了一種BERT-DTL-HAN 模型,模型首先通過BERT 進(jìn)行預(yù)處理獲得多維度的詞向量信息,再通過深層次遷移學(xué)習(xí)將數(shù)據(jù)量豐富的句子級別信息遷移到數(shù)據(jù)量較小的方面級情感分析任務(wù)中,最后通過層次遷移網(wǎng)絡(luò)增強(qiáng)對方面級特征信息的提取。實(shí)驗(yàn)結(jié)果表明,該模型有效解決了基于方面級情感分析任務(wù)中數(shù)據(jù)量小和方面級特征獲取不足的問題,其分類精度也優(yōu)于對比實(shí)驗(yàn)中的一眾基準(zhǔn)模型。
在后續(xù)的工作中,將會嘗試進(jìn)一步增強(qiáng)深度遷移學(xué)習(xí)的維度來更高效地豐富基于方面級情感分析的數(shù)據(jù)集并進(jìn)一步優(yōu)化模型的分類效果。