翟社平,成大寶,張文晴,劉園彪
(1.西安郵電大學(xué) 計(jì)算機(jī)學(xué)院,陜西 西安 710121;2.陜西省網(wǎng)絡(luò)數(shù)據(jù)分析與智能處理重點(diǎn)實(shí)驗(yàn)室,陜西 西安 710121)
情感分析,又稱為觀點(diǎn)挖掘、意見(jiàn)挖掘,是自然語(yǔ)言處理領(lǐng)域中的一項(xiàng)基本任務(wù),其基本目標(biāo)是挖掘文本中的情感信息,分析其情感傾向性[1]。情感分析人物根據(jù)粒度的不同,被劃分為文檔級(jí)情感分析、句子級(jí)情感分析以及細(xì)粒度的方面級(jí)情感分析。
方面級(jí)情感分析旨在判斷文本中具體方面所對(duì)應(yīng)的情感極性[2]。在文本“In addition, the food is very good but the prices are unreasonable.”中,“food”和“prices”是對(duì)同一個(gè)餐廳進(jìn)行描述的兩個(gè)方面,而他們的極性卻是相反的,使用文檔級(jí)情感分析或句子級(jí)情感分析無(wú)法判別文本真實(shí)的情感極性,而使用方面級(jí)情感分析能夠分別計(jì)算文本中多個(gè)方面的情感極性。目前隨著文本信息的復(fù)雜,方面級(jí)情感分析成為了一項(xiàng)重要的研究?jī)?nèi)容。
隨著深度學(xué)習(xí)的發(fā)展,在目前現(xiàn)有的方面級(jí)情感分析方法中,主要包括構(gòu)建復(fù)雜的神經(jīng)網(wǎng)絡(luò)模型以及將不同的神經(jīng)網(wǎng)絡(luò)模型與注意力機(jī)制等進(jìn)行結(jié)合。這類模型研究能夠模仿人們閱讀時(shí)的注意力,從而能夠捕獲方面詞的極性信息。但此類研究均只在模型構(gòu)建層面進(jìn)行迭代與累積,并未考慮方面詞在文本中的位置關(guān)系,從而導(dǎo)致在不同數(shù)據(jù)集上的魯棒性較差。為解決以上問(wèn)題,本文著重研究方面詞及其上下文之間的位置特征對(duì)情感極性的影響,將方面詞與上下文分別輸入模型,同時(shí)利用注意力機(jī)制進(jìn)行計(jì)算,提出一種融合位置特征的方面詞情感分析方法。本文的主要工作有以下三點(diǎn):
(1)對(duì)BERT模型進(jìn)行兩種不同的改進(jìn),將方面詞及其上下文采用兩種文本劃分方式,并獨(dú)立進(jìn)行權(quán)重詞向量的表示。
(2)將權(quán)重詞向量送入多頭注意力機(jī)制中,計(jì)算其文本特征,最后在輸出層將兩種特征進(jìn)行融合和池化。
(3)在SemEval2014數(shù)據(jù)集和Twitter數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)證明方面詞情感極性經(jīng)過(guò)融合位置特征后,相較于其他對(duì)比實(shí)驗(yàn)在準(zhǔn)確率和F1值上均有不錯(cuò)表現(xiàn)。
目前針對(duì)方面級(jí)情感分析任務(wù),大部分研究者利用深度學(xué)習(xí)中卷積神經(jīng)網(wǎng)絡(luò)及其變體進(jìn)行建模。Vo等[3]通過(guò)利用基于分布式單詞表示的特征,研究了基于目標(biāo)的Twitter情感分類,提出了一種全新的上下文表示方法,同時(shí)采用自動(dòng)句法分析器減少了噪聲的影響。Xue等[4]提出了一種融合卷積神經(jīng)網(wǎng)絡(luò)與門控機(jī)制的模型,卷積網(wǎng)絡(luò)對(duì)方面詞語(yǔ)情感信息分別建模,門控單元能夠根據(jù)給定的方面有選擇地輸出對(duì)應(yīng)的情感特征。注意力機(jī)制由于能夠獲取上下文詞語(yǔ)與目標(biāo)詞語(yǔ)之間的重要程度,因此被引入方面級(jí)情感分析任務(wù)中。王宇欣等[5]總結(jié)了注意力機(jī)制在情感分析中的應(yīng)用。Wang等[6]提出了一種結(jié)合注意力機(jī)制的LSTM模型,當(dāng)不同的方面被輸入時(shí),注意力機(jī)制能夠集中在句子的不同部分,對(duì)重要部分進(jìn)行情感計(jì)算。Yang等[7]提出了一種基于注意力機(jī)制的雙向LSTM模型,通過(guò)將方面目標(biāo)與最顯著的特征對(duì)齊,來(lái)獲取其情感極性。Liu等[8]通過(guò)結(jié)合注意力模型,將特定方面上下文中每個(gè)單詞的權(quán)重進(jìn)行單獨(dú)計(jì)算,從而更有效地尋找方面詞對(duì)應(yīng)的情感極性。申靜波等[9]將注意力機(jī)制與LSTM相結(jié)合,從而更有效地計(jì)算動(dòng)態(tài)變化情況下的詞語(yǔ)重要性。
隨著模型網(wǎng)絡(luò)結(jié)構(gòu)的復(fù)雜,研究表明上下文的位置特征對(duì)方面詞的情感極性有著重要的作用。Fan等[10]同時(shí)計(jì)算特定目標(biāo)與上下文之間的雙向交互關(guān)系,同時(shí)提出一種新的池化方法,減少在融合部分情感極性的損失。Zhai等[11]提出采用雙層門控循環(huán)神經(jīng)網(wǎng)絡(luò)對(duì)方面詞上下文語(yǔ)義信息進(jìn)行充分提取,并采用圖注意網(wǎng)絡(luò)對(duì)方面詞信息進(jìn)行更為準(zhǔn)確的情感極性判別。杜成玉等[12]針對(duì)方面詞與上下文距離較遠(yuǎn)的情況會(huì)丟失信息,提出了一種基于方面詞加權(quán)的上下文表示方法,并進(jìn)行循環(huán),最終有效提高了方面詞與情感極性的匹配。該文通過(guò)兩種位置特征的劃分,重點(diǎn)研究方面詞及其上下文的位置特征信息對(duì)輸出結(jié)果的影響,通過(guò)BERT預(yù)訓(xùn)練模型進(jìn)行詞向量表示,多頭注意力機(jī)制對(duì)特征進(jìn)行提取,并進(jìn)行池化與拼接,從而獲得更為準(zhǔn)確的特征信息,進(jìn)一步提升分類準(zhǔn)確性。
該模型主要由三部分組成:詞向量層、特征層、輸出層。詞向量層通過(guò)兩種對(duì)文本的劃分方式,將方面詞及其上下文進(jìn)行劃分,分別送入到兩個(gè)BERT模型中,進(jìn)行詞向量的表示。特征層通過(guò)聯(lián)合多頭注意力機(jī)制,對(duì)向量矩陣分別進(jìn)行特征表示。輸出層將四個(gè)特征表示進(jìn)行拼接和平均池化,并進(jìn)行最終情感極性的分類。具體模型框架如圖1所示。
采用BERT預(yù)訓(xùn)練模型完成詞向量的表示,能夠獲得更深層次的文本特征信息,該文將方面詞及其上下文采用兩種不同的方式進(jìn)行劃分,并輸入到兩個(gè)獨(dú)立的BERT模型進(jìn)行詞向量的表示。
(1)基于方面間隔的上下文劃分方法。
根據(jù)不同方面詞在文本中的位置特征,將兩個(gè)方面詞之間的文本同時(shí)視為前一個(gè)方面詞的后文及后一個(gè)方面詞的前文,據(jù)此對(duì)BERT模型進(jìn)行微調(diào)與訓(xùn)練。如對(duì)“In addition,the food is very good and the prices are reasonable.”,當(dāng)以方面詞進(jìn)行間隔時(shí),其位置關(guān)系如圖2所示。
(a)以方面詞為分隔的前文部分:“[CLS]+前文內(nèi)容+[SEP]”;
(b)方面詞部分:“[CLS]+方面詞內(nèi)容+[SEP]”;
圖1 融合位置特征的方面級(jí)情感分析模型結(jié)構(gòu)
圖2 基于方面詞間隔的位置關(guān)系
(c)以方面詞為分隔的后文部分:“[CLS]+后文內(nèi)容+[SEP]”。
其中,[CLS]和[SEP]用來(lái)將文本進(jìn)行分割,將分割后形成的部分獨(dú)立輸入BERT模型。將特定方面詞及其前后文經(jīng)過(guò)BERT網(wǎng)絡(luò)后,得到了對(duì)應(yīng)的詞向量:
(2)基于單詞距離的上下文劃分方法。
根據(jù)方面詞與前后文之間的位置特征,將文本分為方面詞部分、相鄰部分和其他部分,根據(jù)部分不同,對(duì)詞向量進(jìn)行權(quán)重的設(shè)置,以此對(duì)BERT模型進(jìn)行微調(diào)與訓(xùn)練。
(a)其他部分:“[CLS]+其他內(nèi)容+[SEP]”;
(b)相鄰部分:“[CLS]+相鄰內(nèi)容+[SEP]”;
(c)方面詞部分:“[CLS]+方面詞內(nèi)容+[SEP]”。
如式(1)所示,當(dāng)di≤0時(shí),為方面詞部分。當(dāng)0 (1) 其中,i表示單詞在句子中的位置,oa表示方面詞的中心位置,la表示方面詞的長(zhǎng)度。針對(duì)其他部分和相鄰部分,di表示方面詞的上下文距離方面詞最近的距離長(zhǎng)度。如對(duì)“In addition, the food is very good and the prices are reasonable.”,當(dāng)相鄰部分長(zhǎng)度設(shè)置為2時(shí),其位置關(guān)系如圖3所示。 圖3 基于單詞距離的位置關(guān)系 對(duì)于方面詞部分,設(shè)置其權(quán)重系數(shù)為1。對(duì)于相鄰部分的內(nèi)容和其他部分的詞,隨著di的增大上下文詞的權(quán)重系數(shù)是動(dòng)態(tài)衰減的。但對(duì)相鄰部分和其他部分的衰減策略會(huì)有差異,在相鄰部分,設(shè)定所有詞都比方面詞部分的重要性小,但都比其他部分的重要性大,衰減程度小于其他部分的衰減程度,因此設(shè)定衰減系數(shù)為α(β<α<1)。對(duì)于其他部分的詞,設(shè)定所有的詞的重要性都小于方面詞部分及相鄰部分,并會(huì)產(chǎn)生大幅度衰減,因此設(shè)定衰減系數(shù)β(0<β<α)。將相同類型的部分進(jìn)行拼接,并對(duì)其進(jìn)行權(quán)重的設(shè)置,最終經(jīng)過(guò)BERT網(wǎng)絡(luò)后,得到最終對(duì)應(yīng)的權(quán)重詞向量: 注意力機(jī)制將一個(gè)鍵序列k={k1,k2,…,kn}和一個(gè)查詢序列q={q1,q2,…,qn}映射到一個(gè)輸出序列o,如式(2)所示: o=Attention(k,q)=softmax(fs(k,q))k (2) 其中,fs為對(duì)齊函數(shù),該函數(shù)可以學(xué)習(xí)qj和ki之間的語(yǔ)義相關(guān)性,如式(3)所示: fs(ki,qj)=tanh([ki:qj]Watt) (3) 其中,Watt是一個(gè)可學(xué)習(xí)的權(quán)重,在模型的訓(xùn)練過(guò)程中進(jìn)行更新迭代。多頭注意力機(jī)制可以在多個(gè)并子空間中學(xué)習(xí)n個(gè)不同的權(quán)重,將該n個(gè)輸出拼接,并映射到指定的隱藏維度Dhid,計(jì)算方法如式(4)與式(5)所示: MHA(k,q)=Concat(o1,o2,…,on)Wmh (4) oi=Attentioni(k,q) (5) 通過(guò)給定一個(gè)方面詞前文或后文詞向量矩陣eC,以及一個(gè)方面詞向量矩陣eM,聯(lián)合多頭注意力機(jī)制可以計(jì)算出前后文以及方面詞相互關(guān)系表示rinter,如式(6)所示: rinter=MHA(eC,eM) (6) (7) (8) (9) (10) (11) (12) 采用交叉熵?fù)p失函數(shù),同時(shí)引入L2正則化項(xiàng),防止模型出現(xiàn)過(guò)擬合現(xiàn)象,如式(13)所示: (13) 為了驗(yàn)證文中模型的有效性,采用SemEval2014 Task4[13]數(shù)據(jù)集和Twitter[14]數(shù)據(jù)集對(duì)模型進(jìn)行實(shí)驗(yàn),SemEval2014 Task4 數(shù)據(jù)集包含Laptop-14和Restaurant-14兩個(gè)數(shù)據(jù)集,其中Laptop-14是筆記本電腦和電子設(shè)備領(lǐng)域的評(píng)論,Restaurant-14是餐館和服務(wù)領(lǐng)域的用戶評(píng)論。Twitter數(shù)據(jù)集是經(jīng)過(guò)處理的用戶推文數(shù)據(jù)集。具體數(shù)據(jù)集設(shè)置如表1所示。 表1 數(shù)據(jù)集設(shè)置 實(shí)驗(yàn)中采用了BERT Adam優(yōu)化方法,學(xué)習(xí)率為0.001,輸出層采用softmax進(jìn)行分類,采用交叉熵作為損失函數(shù),采用隨機(jī)梯度下降算法更新權(quán)重,同時(shí)在對(duì)方面詞上下文部分劃分中,以α為0.72,β為0.56效果最好,具體詳細(xì)參數(shù)如表2所示。 表2 超參數(shù)設(shè)置 文本分類中常用的評(píng)測(cè)指標(biāo)有精確率P(Precision)、召回率R(Recall)、F1值(F1-measure)和準(zhǔn)確率A(Accuracy)。由于該文使用的兩個(gè)數(shù)據(jù)集都比較平衡,所以使用測(cè)試集上的F1值和準(zhǔn)確率A作為實(shí)驗(yàn)結(jié)果的評(píng)測(cè)指標(biāo)。評(píng)測(cè)指標(biāo)定義如式(14)~式(17)所示: (14) (15) (16) (17) 其中,TP表示實(shí)際為正向且預(yù)測(cè)為正向的數(shù)量,FP表示實(shí)際為負(fù)向但預(yù)測(cè)為正向的數(shù)量,TN表示實(shí)際為負(fù)向且預(yù)測(cè)為負(fù)向的數(shù)量,FN表示實(shí)際為正向但預(yù)測(cè)為負(fù)向的數(shù)量。TP、FP、TN、FN的分類矩陣如表3所示。 表3 分類矩陣 本節(jié)設(shè)計(jì)了兩個(gè)消融實(shí)驗(yàn)對(duì)模型中各個(gè)組件進(jìn)行計(jì)算,首先對(duì)相鄰區(qū)域長(zhǎng)度進(jìn)行優(yōu)化,以此計(jì)算在數(shù)據(jù)集中性能最優(yōu)的相鄰區(qū)域,其次對(duì)多頭注意力機(jī)制中頭數(shù)的設(shè)置進(jìn)行計(jì)算,以此驗(yàn)證注意力頭數(shù)對(duì)模型性能的影響。 3.3.1 相鄰區(qū)域長(zhǎng)度 相鄰區(qū)域長(zhǎng)度是影響詞向量權(quán)重的重要參數(shù)。經(jīng)過(guò)實(shí)驗(yàn),不同長(zhǎng)度的相鄰區(qū)域?qū)?zhǔn)確率和F1值有重要的影響,如圖4所示。其中當(dāng)長(zhǎng)度小于2時(shí),在三個(gè)數(shù)據(jù)集中均呈上升趨勢(shì),當(dāng)長(zhǎng)度等于2時(shí),準(zhǔn)確率的效果最好,當(dāng)長(zhǎng)度大于2時(shí),在三個(gè)數(shù)據(jù)集中呈下降趨勢(shì)。這說(shuō)明越是臨近方面詞的單詞對(duì)其情感極性的判斷越重要,但隨著距離超過(guò)最優(yōu)值,卻又會(huì)引入不必要的干擾信息,最終將模型的相鄰區(qū)域長(zhǎng)度設(shè)置為2。 圖4 相鄰部分長(zhǎng)度對(duì)準(zhǔn)確率的影響 3.3.2 注意力機(jī)制模塊數(shù) 注意力機(jī)制的頭數(shù)是影響信息特征交互的重要參數(shù)。經(jīng)過(guò)實(shí)驗(yàn),將多頭注意力機(jī)制頭數(shù)分別設(shè)置為1~8,可以得到注意力機(jī)制頭數(shù)的選擇能夠?qū)?shí)驗(yàn)結(jié)果有著重要的影響,如圖5所示。當(dāng)注意力頭數(shù)小于5時(shí),在三個(gè)數(shù)據(jù)集中均呈上升趨勢(shì),當(dāng)長(zhǎng)度等于5時(shí),準(zhǔn)確率效果最好,當(dāng)長(zhǎng)度大于5時(shí),在三個(gè)數(shù)據(jù)集中均呈下降趨勢(shì)。這說(shuō)明當(dāng)注意力機(jī)制頭數(shù)過(guò)少時(shí),無(wú)法有效地進(jìn)行交互特征的計(jì)算,而當(dāng)注意力頭數(shù)過(guò)多時(shí),則會(huì)引入大量參數(shù),造成模型的過(guò)擬合,最終將模型注意力機(jī)制頭數(shù)設(shè)置為5。 圖5 多頭注意力模塊數(shù)對(duì)準(zhǔn)確率的影響 為了驗(yàn)證文中模型的有效性,設(shè)置了如下對(duì)比實(shí)驗(yàn): (1)Majority:基線實(shí)驗(yàn),將訓(xùn)練集樣本中的情感極性最大的值分配給樣本中的所有方面。 (2)SVM[15]:通過(guò)傳統(tǒng)機(jī)器學(xué)習(xí),從訓(xùn)練集樣本中進(jìn)行特征提取,采用支持向量機(jī)對(duì)特征進(jìn)行分類。 (3)CNN[16]:傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)模型,通過(guò)設(shè)置不同大小的卷積核,可以有效地捕獲局部特征。 (4)BiLSTM[17]:雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò),能夠同時(shí)捕捉方面詞前后的依賴特征。 (5)BERT[18]:預(yù)訓(xùn)練語(yǔ)言模型,通過(guò)雙層Transformer架構(gòu)捕獲方面詞上下文的特征信息,最后通過(guò)隱藏層獲取全局分類特征信息。 表4展示了融合位置特征的方面級(jí)情感分析模型在各個(gè)數(shù)據(jù)集上與近年相關(guān)研究的效果對(duì)照,相較于對(duì)比實(shí)驗(yàn)在各個(gè)數(shù)據(jù)集上均有不同的提升。 該文提出了融合位置特征的方面級(jí)情感分析模型,該模型首先對(duì)文本進(jìn)行兩種區(qū)域劃分,并使用了兩個(gè)獨(dú)立的BERT預(yù)訓(xùn)練模型對(duì)詞向量進(jìn)行編碼與權(quán)重計(jì)算,其次通過(guò)多頭注意力機(jī)制對(duì)方面詞與上下文的特征信息進(jìn)行交互,最后將特征信息進(jìn)行融合輸出。與現(xiàn)有的模型相比,該模型能夠有效地根據(jù)方面詞與上下文之間位置特征的不同對(duì)信息進(jìn)行計(jì)算,從而使模型能夠更加準(zhǔn)確地計(jì)算出情感極性判斷結(jié)果,相對(duì)于其他對(duì)比模型,該模型明顯提高了準(zhǔn)確率與F1值。在后續(xù)的工作中,將充分考慮對(duì)文本的詞性或依存關(guān)系等文本特征進(jìn)行計(jì)算,從而產(chǎn)生更好的效果。 表4 模型綜合性能評(píng)估2.3 特征層
2.4 輸出層
3 實(shí) 驗(yàn)
3.1 數(shù)據(jù)設(shè)置
3.2 評(píng)價(jià)指標(biāo)
3.3 消融實(shí)驗(yàn)
3.4 對(duì)比實(shí)驗(yàn)
4 結(jié)束語(yǔ)