蔡瑞初,尹 婉,許柏炎
(廣東工業(yè)大學 計算機學院,廣州 510006)
隨著深度學習技術提升,句子級別的情感分析研究取得巨大進展,已被廣泛應用到社交網(wǎng)絡輿情分析和電子商務等場景.基于目標的情感分析(Target-Based Sentiment Analysis)是一種細粒度的情感分析任務,旨在識別句子中的目標并預測目標的情感極性,其中包括目標提取和特定目標情感分析兩個子任務[1].如圖1所示,當輸入句子“這家中國餐廳比上次那家昂貴的泰國餐廳更好吃”,應提取出該句子中包含的目標“中國餐廳”和“泰國餐廳”,并預測出目標“中國餐廳”的情感為積極,目標“泰國餐廳”的情感為消極.
圖1 基于目標的情感分析任務
現(xiàn)有大多數(shù)情感分析研究工作只關注解決目標提取或特定目標情感分析.少數(shù)研究工作同時解決兩個子任務.根據(jù)協(xié)同子任務訓練方式的不同,可以劃分為流水線方法、聯(lián)合方法和統(tǒng)一方法.研究者[2,3]將基于目標情感分析任務建模成序列標注問題,利用神經(jīng)網(wǎng)絡和條件隨機場技術實現(xiàn)3類方法.
其中,流水線方法需要按次序分別訓練目標提取模型和特定目標的情感分析模型,缺乏集成度和存在誤差傳播等問題;聯(lián)合方法是采用兩個不同的標簽集共同標記每個句子,統(tǒng)一方法則是將兩個標簽折疊成一個統(tǒng)一標簽.聯(lián)合方法和統(tǒng)一方法可采用端到端的訓練方式.
然而,現(xiàn)有研究中仍然存在以下不足:1)基于長短期記憶網(wǎng)絡模型無法很好地捕獲輸入文本的內(nèi)部聯(lián)系.隨著輸入文本距離的增加,學習較遠位置之間的依賴關系變得困難[4].因此當輸入句子中的目標詞與情感詞距離較遠時,無法學習到兩者之間的聯(lián)系,容易導致目標詞情感極性判斷錯誤;2)現(xiàn)有工作無法很好地利用子任務的信息來協(xié)助目標和情感的同時產(chǎn)生.顯然,其中的關鍵是引入無距離限制的語義提取方法.
因此,本文提出一種基于方向感知Transformer的雙輔助網(wǎng)絡模型.模型包含語義特征提取組件,雙輔助任務分支和目標情感分析主線網(wǎng)絡.通過引入方向感知的Transformer(Direction-Aware Transformer,DAT)[5]用于提取源輸入序列的語義特征,DAT是一種可以提取句子語義特征和學習源輸入中目標詞和情感詞內(nèi)在聯(lián)系的組件.DAT組件不同于長短期記憶網(wǎng)絡需要依賴上個時間步的隱向量,其任意兩個單詞的依賴計算為常數(shù)級別,可以捕獲的相關性范圍更廣,能更好地捕獲到情感詞和目標詞之間的聯(lián)系.雙輔助任務分支是指目標提取網(wǎng)絡和情感增強網(wǎng)絡,目標提取網(wǎng)絡有助于捕獲目標詞的邊界信息,情感增強網(wǎng)絡有助于捕獲目標詞對應的情感信息.本文引入雙輔助任務分支可以充分利用子任務的信息輔助邊界表示和情感表示,輔助模型分別去學習兩種不同類型的標簽.目標情感分析主線網(wǎng)絡用于輸出統(tǒng)一標簽,將雙輔助任務分支輸出的隱向量融合后輸入到目標情感分析主線網(wǎng)絡得到最終的統(tǒng)一標簽.
本文的主要總結如下:
1)在基于目標的情感分析任務引入相對位置編碼的Transformer,學習句子中單詞和情感詞的內(nèi)部聯(lián)系.
2)構建目標提取和情感增強雙輔助分支,融合子任務的信息,輔助目標情感分析主線網(wǎng)絡生成統(tǒng)一標簽.
前文提及,基于目標的情感分析包括目標提取和特定目標的情感分析兩個子任務.多數(shù)經(jīng)典研究工作專注于研究其中一類子任務,近來少數(shù)研究工作開始著手同時解決目標提取和情感分析.本章節(jié)將依次進行介紹,另外序列標注的相關工作也將被討論.
目標提取任務研究中,F(xiàn)an等[6]基于長短期記憶網(wǎng)絡建模,將目標信息和上下文信息融合,學習特定目標的上下文表示,成對提取意見目標和意見詞.Luo等[7]提出一種無監(jiān)督神經(jīng)網(wǎng)絡框架,充分利用語義符號增強詞匯中的語義,發(fā)現(xiàn)單詞之間的一致性.Liao等[8]采用無監(jiān)督方式基于神經(jīng)網(wǎng)絡建模,耦合全局和局部表示來提取目標方面.
特定目標的情感分析任務的研究中,Chen等[9]基于雙向切片門控循環(huán)單元和注意力機制建立情感分類模型,充分提取文本語義特征.Zhao等[10]利用文檔級情感分類數(shù)據(jù)集的注意力知識提高方面級情感分類任務的注意力能力,解決方面級情感分類任務中數(shù)據(jù)稀缺性導致注意力機制無法集中在情感詞的問題.Wang等[11]提出一種基于注意力機制和長短期記憶網(wǎng)絡的模型,可以有效捕捉目標與情感表達式之間的結構依賴關系.Zhang等[12]提出基于有序神經(jīng)元長短時記憶和自注意力機制的方面情感分析模型,從上下文的左右兩個方向同時進行訓練.Chen等[13]使用門控循環(huán)神經(jīng)網(wǎng)絡和卷積神經(jīng)網(wǎng)絡分別從字向量和詞向量中提取特征,獲取上下文語義特征和局部語義特征,提高文本情感分類的性能.然而在情感分析的實際應用中,單獨處理兩個子任務的研究具有一定的局限性,同時處理兩個子任務的研究在實際應用具有更廣泛的價值.
基于目標的情感分析的研究方法需要同時解決目標提取和特定目標情感分析兩個子任務.現(xiàn)有的研究工作可以分為流水線方法、聯(lián)合方法和統(tǒng)一方法.Zhang等[3]基于神經(jīng)網(wǎng)絡建模實現(xiàn)3類方法,通過淺層神經(jīng)網(wǎng)絡自動提取特征.通過流水線方法組合基于深度學習的目標提取任務模型HAST[14]和基于循環(huán)神經(jīng)網(wǎng)絡和卷積神經(jīng)網(wǎng)絡的情感分析任務模型TNet[15].Peng等[16]首次為方面提取,方面情感分類,以及意見詞提取提供一個完整的解決方案.Li等[17]提出基于堆疊長短期記憶網(wǎng)絡的端到端情感分析模型E2E-TBSA,上下層網(wǎng)絡分別預測統(tǒng)一標簽和目標邊界標簽,采用目標詞邊界信息引導組件約束統(tǒng)一標簽生成,取得顯著的提升效果.
流水線方法需要按次序分別訓練目標提取模型和特定目標的情感分析模型.聯(lián)合方法是聯(lián)合訓練兩個子任務,而統(tǒng)一方法將兩個子任務標簽折疊成一個統(tǒng)一標簽.聯(lián)合方法和統(tǒng)一方法實現(xiàn)端到端的訓練方式相比流水線方法單獨訓練模型具有更好的集成性.與E2E-TBSA模型不同,本文引入融合方向感知的Transformer解決了長短期網(wǎng)絡無法很好的捕捉內(nèi)部聯(lián)系的問題,并設計雙輔助網(wǎng)絡用于輔助目標情感分析主線網(wǎng)絡學習.
本文提出基于雙輔助網(wǎng)絡的目標情感分析模型 DNTSA(Dual-assist Network based framework for Target Sentiment Analysis),主要由目標提取網(wǎng)絡、情感增強網(wǎng)絡和目標情感分析主線網(wǎng)絡組成.如圖2所示.模型工作流如下,輸入句子S經(jīng)過詞嵌入層后分別輸入到目標提取網(wǎng)絡和情感增強網(wǎng)絡中.詞嵌入層采用了預訓練Glove詞向量[18].目標提取網(wǎng)絡中的融合方向信息Transformer(Direction-Aware Transformer,DAT)用來獲取目標的邊界信息,情感增強網(wǎng)絡中的DAT用來獲取目標的情感信息.目標提取網(wǎng)絡和情感增強網(wǎng)絡得到的隱藏表示相加,輸入到目標情感分析主線網(wǎng)絡中的DAT融合輔助信息到目標情感分析主線網(wǎng)絡,最終預測統(tǒng)一標簽序列.
圖2 基于雙輔助網(wǎng)絡的目標情感分析模型DNTSA
與現(xiàn)有的基于目標的情感分析工作普遍采取長短期記憶網(wǎng)絡不同,本文引入DAT 作為語義特征提取器學習語義信息,提取原始詞向量和雙輔助任務分支學習的特定表示語義信息.DAT通過相對位置編碼具有方向感知.在基于目標的情感分析任務中,DAT組件相比長短期記憶網(wǎng)絡能更好的獲取到距離較遠兩個詞之間的語義信息,也能具有長短期記憶網(wǎng)絡方向感知的優(yōu)點.本節(jié)詳細介紹DAT組件的相對位置編碼與多頭注意力機制.
3.1.1 相對位置編碼
Transformer[4]中位置編碼采用正弦余弦的點積,如公式(1)、公式(2)所示:
(1)
(2)
DAT采用相對位置編碼,t表示當前單詞的索引,j表示上文單詞的索引,Rt-j表示t和j之間的相對位置編碼,如公式(3)、公式(4)所示:
(3)
(4)
因為sin(x)=-sin(x),cos(x)=cos(-x),公式(4)中cos(cit)的前向和后向相對位置編碼是相同的,但是sin(cit)前向和后向的位置編碼是相反的.因此相對位置編碼具有方向感知.
3.1.2 多頭注意力機制
DAT組件中注意力機制得分計算如公式(5)、公式(6):
(5)
(6)
多頭注意力機制將多組Q,K,V分別進行多次注意力機制計算并將結果拼接,最后用前饋神經(jīng)網(wǎng)絡連接多頭注意力機制的輸出,計算如公式(7)、公式(8)所示:
multihead(Q,K,V)=concat[head1,…,headn]Wo
(7)
headi=attention(Qi,Ki,Vi)
(8)
其中n是頭的數(shù)量,i表示頭索引.
與E2E-TBSA模型只采用目標提取子任務信息不同,本文采用雙輔助網(wǎng)絡:目標提取網(wǎng)絡和情感增強網(wǎng)絡,共同獲取目標邊界和情感的信息,增強模型目標提取和情感識別能力.
(9)
(10)
(11)
(12)
(13)
(14)
(15)
在一個多單詞構成的目標中,目標內(nèi)單詞的統(tǒng)一標簽需要保持情感一致.例如目標詞“中國餐廳”的統(tǒng)一標簽為"B-POS,E-POS",詞語“中國”和詞語“餐廳”的情感標簽需要保持一致性.如公式(16)、公式(17)所示,本文利用門控制機制gt[16]保持多單詞目標的情感一致性,當前時間步特征依賴上一步時間步特征.其中是Wg,bg為模型參數(shù).
(16)
(17)
(18)
(19)
損失函數(shù)如公式(20)所示:
J(θ)=LSE+LTE+LU
(20)
J(θ)為總損失函數(shù),LU為預測統(tǒng)一標簽任務的損失函數(shù),LTE和LSE分別為邊界增強和情感增強輔助任務的損失函數(shù).
損失函數(shù)的計算基于單詞級別,采用交叉熵計算,如公式(21)所示.
(21)
本節(jié)將詳細介紹實驗采用的數(shù)據(jù)集和模型的超參數(shù)設置,通過實驗來評價提出模型的性能,包括兩個部分:1)從整體的角度來與基準方法比較在各評價指標上的結果差異;2)從局部模型設置有效性的角度來確定整體模型中的關鍵部件對結果的影響.
為了驗證基于目標的情感提取模型的通用有效性,本文實驗采用了3個不同領域的開源數(shù)據(jù)集進行測試:
1)Laptop數(shù)據(jù)集是2014年SemEval ABSA挑戰(zhàn)賽[1]針對筆記本電腦領域的公開文本評論數(shù)據(jù)集,訓練集共3045條句子,測試集共800條句子.
2)Restaurant數(shù)據(jù)集是2014年、2015年、2016年SemEval ABSA挑戰(zhàn)賽[19-21]餐廳文本評論數(shù)據(jù)集的并集,本文的數(shù)據(jù)集是3年的數(shù)據(jù)集的并集,訓練集共3877條句子,測試集共2158條句子.
3)Twitter數(shù)據(jù)集是Mitchell等[2]收集的推特推文組成,訓練集共21150條句子,測試集共2350條句子.
數(shù)據(jù)集中的情感極性主要包括積極、消極、中性,訓練集和測試集的具體數(shù)量如表1所示.本文隨機保留訓練集數(shù)據(jù)的10%作為驗證集.對于Twitter數(shù)據(jù)集,沒有標準的訓練集和測試集的劃分,沿用基準方法的劃分方式[3,17],采用十折交叉驗證得出最終結果.
表1 數(shù)據(jù)集表
關于實驗超參數(shù)設置,列舉如下:詞向量和隱狀態(tài)維度大小均為300維;使用預訓練Glove詞向量初始化;對于詞典中不存在的詞語被隨機采樣初始化,隨機采樣服從μ(-0.25,0.25)分布;所有偏差的初始化均服從μ(-0.25,0.25)的隨機采樣;模型采用Adam優(yōu)化器,學習率設置為0.0001.詳細的模型超參數(shù)如表2設置.
表2 超參數(shù)表
本文通過完全匹配來衡量評估指標:精確度P、召回率R、F1得分.本文F1采用的是MicroF1.F1計算公式如公式(22)所示:
(22)
基于目標的情感分析任務目前主要存在3種實現(xiàn)方法:流水線、聯(lián)合、統(tǒng)一.本實驗將本文模型與3種方法下的主流模型進行對比,各對比模型簡介如下:
1)CRF-{pipelined,joint,unified}[2]:利用條件隨機場技術,分別構建流水線、聯(lián)合、統(tǒng)一的3種模型.
2)NN+CRF-{pipelined,joint,unified}[3]:運用條件隨機場技術和神經(jīng)網(wǎng)絡分別構建的3種實現(xiàn)方法模型.
3)HAST-Tnet:HAST[14]利用循環(huán)神經(jīng)網(wǎng)絡和注意力機制建模.TNet[15]采用卷積神經(jīng)網(wǎng)絡和雙向循環(huán)神經(jīng)網(wǎng)絡建模.HAST-TNet是用流水線方法將HAST和TNet用流水線形式組合起來,是當前流水線方法下最前沿的模型之一.
4)LSTM-unified:基于長短期記憶網(wǎng)絡的統(tǒng)一方法模型.
5)LSTM-CRF-1[22]:基于長短期記憶網(wǎng)絡和條件隨機場技術.
6)LSTM-CRF-2[23]:在LSTM-CRF-1基礎上增加了卷積神經(jīng)網(wǎng)絡.
7)LM-LSTM-CRF[24]:采用預訓練詞嵌入和字符級知識,基于長短期記憶網(wǎng)絡和條件隨機場技術建立神經(jīng)網(wǎng)絡模型.
8)E2E-TBSA[17]:基于雙長短期記憶網(wǎng)絡的端到端情感分析模型,雙網(wǎng)絡分別預測統(tǒng)一標簽和目標邊界標簽,是當前統(tǒng)一方法下最前沿的模型之一.
本文與基于目標的情感分析任務的其它模型比較,結果見表3.從表3可以看出,本文的模型優(yōu)于其它基線.與最佳的流水線模型HAST-TNet相比,本文的模型在數(shù)據(jù)集Laptop,Restaurant,Twitter上的性能都有所提升,F(xiàn)1值分別提升了7.1%,5.5%,4.7%,相比流水線方法本文采用的統(tǒng)一方法具有更高的集成度,便于同時訓練目標提取和情感增強網(wǎng)絡.在統(tǒng)一方法中,與E2E-TBSA模型相比,本文的模型在Laptop,Restaurant,Twitter數(shù)據(jù)集上F1值分別提升了2.3%,1.8%,3.9%,表明在統(tǒng)一方法中,本文模型比E2E-TBSA模型更具有優(yōu)勢,一方面是因為本文模型基于融合方向感知Transformer,不僅相比長短期記憶網(wǎng)絡能更好地學習到目標詞和上下文之間內(nèi)部聯(lián)系,也具有長短期記憶網(wǎng)絡方向感知的優(yōu)點.另一面是因為模型充分利用了兩個子任務的信息.此外,在Twitter數(shù)據(jù)集上提升的效果比其它兩個數(shù)據(jù)集顯著,可能是因為Twitter數(shù)據(jù)集中的長句子較多,而Transformer對比長短期記憶網(wǎng)絡在長句子中更具有優(yōu)勢.基準方法實驗結果引用Li等[17]的復現(xiàn)結果.
表3 與相關工作的比較實驗
本文模型采用了雙輔助任務分支和DAT組件,為了探討兩部分對模型結果的貢獻度以及合理性,設計以下消融實驗來進行有效評估:
1)Model-TEN:在模型的基礎上去除目標提取網(wǎng)絡;
2)Model-SEN:在模型基礎上去除情感增強網(wǎng)絡;
3)Model-LSTM:將模型中的DAT組件替換成雙向長短期記憶網(wǎng)絡;
4)Model-Transformer:將模型中的DAT組件替換成普通Transformer.
從表4的實驗結果可以看出,去除目標提取網(wǎng)絡以后的模型Model-TEN和原模型相比,在Laptop,Restaurant,Twitter數(shù)據(jù)集中F1值分別下降了3.9%,1.5%,2.4%.去除情感增強網(wǎng)絡以后的模型Model-SEN和原模型相比,在Laptop,Restaurant,Twitter數(shù)據(jù)集中F1值分別下降了6.3%,1.4%,2.3%.實驗結果的下降說明了目標邊界信息和情感信息對生成的統(tǒng)一標簽起到了一定的作用,雙輔助任務分支通過生成邊界表示和情感表示輔助目標情感分析主線網(wǎng)絡充分利用目標邊界信息和情感信息.將DAT組件替換成雙向長短期記憶網(wǎng)絡以后,模型Model-LSTM和原模型相比,在Laptop,Restaurant,Twitter數(shù)據(jù)集中F1值下降了3.9%,1%,2.9%,實驗結果表明DAT組件比長短期記憶網(wǎng)絡在基于目標的情感分析任務中表現(xiàn)更好,DAT組件能更好的學習到目標詞和情感詞之間的聯(lián)系.將DAT組件替換成普通Transformer以后,模型Model-Transformer和原模型相比,在Laptop,Restaurant,Twitter數(shù)據(jù)集中F1值下降了5.2%,2.4%,3.9%,實驗結果表明DAT組件中的方向信息對目標情感分析任務有所幫助.另外模型Model-Transformer和Model-LSTM相比,F(xiàn)1值有所下降,雖然普通Transformer緩解了LSTM無法很好捕獲長文本句子內(nèi)部聯(lián)系的問題,但是普通 Transformer缺乏方向信息,因此可能導致其在目標情感分析任務中整體表現(xiàn)欠佳.
表4 消融實驗
表5給出了Model-SEN和Full Model模型的一些預測示例,輸入句子得到預測的統(tǒng)一標簽.通過分別觀察表5中的3個示例,對比兩個模型生成的統(tǒng)一標簽,可以看出Model-SEN生成的統(tǒng)一標簽中邊界標簽正確而情感標簽出現(xiàn)錯誤,表明Model-SEN在捕獲情感信息的時候存在不足之處.可能是由于沒有情感增強網(wǎng)絡時,模型學習兩種不同類型的標簽存在一定困難.而 Full Model加入情感增強網(wǎng)絡之后,模型可以更好地捕獲到情感信息,并正確預測出目標詞的情感標簽.表6給出了Model-TEN和Full Model模型的一些預測示例.通過觀察表6中示例1,2,3,對比兩個模型生成的統(tǒng)一標簽,可以看出Model-TEN中邊界標簽產(chǎn)生錯誤從而導致統(tǒng)一標簽錯誤.而 Full Model加入了目標提取網(wǎng)絡之后,模型可以更好地捕獲到目標詞邊界信息,并正確預測出目標詞的邊界標簽.表5和表6兩個實例分析表明雙輔助任務分支能幫助模型分別學習兩種不同類型的標簽,使得情感標簽和邊界標簽容易出現(xiàn)錯誤的問題得到了緩解.
表5 Model-SEN和Full Model模型的實例分析
表6 Model-TEN和Full Model模型的實例分析
類似的,表7給出了Model-LSTM和Full Model模型的一些預測示例.通過觀察表7中示例1和示例2我們發(fā)現(xiàn)當輸入句子中目標詞距離情感詞有一定距離時,Model-LSTM模型預測的情感標簽會出現(xiàn)錯誤.表7示例1和示例2中,表達情感的情感詞分別為"issue"和"dismissive",分別距離目標詞"os"和"owner"有一定距離,Model-LSTM產(chǎn)生了錯誤的情感標簽,這可能是由于長短期記憶網(wǎng)絡當前時間步計算依賴上一個時間步所導致,當目標詞和情感詞存在一定距離時,獲取到兩個詞之間的聯(lián)系信息變得困難.當情感詞和目標詞距離較遠時,基于DAT的Full Model模型對兩個輸入詞之間的依賴計算是常數(shù)級別,可以較好的學習到任意兩個詞之間的內(nèi)部聯(lián)系.示例3中目標詞"food"附近有情感詞"hard"和"fancy","hard"表示消極情感"hancy"表示積極情感.Model-LSTM模型預測的情感標簽出現(xiàn)了錯誤.因此Full Model相比Model-LSTM可以更好地學習到目標詞和情感詞之間的聯(lián)系.
表7 Model-LSTM和Full Model模型的實例分析
表8給出了Model-Transformer和Full Model模型的兩個預測示例.通過觀察表8中示例1、2發(fā)現(xiàn),當輸入句子中有不同類型的情感詞時,Model-Transformer模型預測的情感標簽會出現(xiàn)錯誤.示例1中,目標詞” Hardware performance”上文中存在的情感詞” not inexpensive”表示消極情感,下文中存在的情感詞” impressive”表示積極情感.示例2中,目標詞”waiting”上文中存在的情感詞”popular”表示積極情感,下文中存在的情感詞”nightmare”表示消極情感.兩個示例的預測結果中,Model-Transformer都產(chǎn)生了錯誤的情感標簽,這可能是由于普通的Transformer缺乏方向信息導致的,DAT引入了方向信息后,模型可以更好的學習到句子的語義信息.
表8 Model-Transformer和Full Model模型的實例分析
目標情感分析任務中,多頭注意力機制學習目標詞的邊界信息以及目標詞和情感詞之間的關系.圖3例句所示,目標情感分析主線網(wǎng)絡中DAT的注意力機制權重觀察(注意力機制權重為多頭注意力機制head的平均值).通過觀察圖3,發(fā)現(xiàn)多單詞組成的目標詞″battery life″″battery″和″life″產(chǎn)生依賴組成短語.目標詞″battery life″和情感詞″wonderful″產(chǎn)生聯(lián)系.實驗表明目標情感分析主線網(wǎng)絡中DAT的多頭注意力機制能有效學習目標詞單詞間的依賴以及目標詞和情感詞之間的聯(lián)系.
圖3 注意力機制觀察例句
本文提出一種基于雙輔助網(wǎng)絡的目標情感分析模型DNTSA,包括雙輔助網(wǎng)絡和目標情感主線,其中引入方向感知的Transformer作為語義特征提取器.模型的核心思想是通過語義特征器分別學習目標提取和情感增強子任務的語義表示輔助目標情感分析主線網(wǎng)絡學習,解決了統(tǒng)一方法下同時學習目標提取標簽和情感分析標簽存在困難的問題.語義特征提取器采用方向感知的Transformer有效學習目標詞和情感詞之間內(nèi)部關系,方向感知有效避免了多個目標詞和情感詞的對齊錯誤.未來的工作中,本文將進一步改進雙輔助網(wǎng)絡語義表達的融合方式,有效提高目標提取和情感標簽的協(xié)同訓練.