張濟(jì)群,張名芳,郭軍軍,相 艷
1.昆明理工大學(xué) 信息工程與自動(dòng)化學(xué)院,昆明 650500
2.昆明理工大學(xué) 云南省人工智能重點(diǎn)實(shí)驗(yàn)室,昆明 650500
基于方面的情感分析(aspect-based sentiment analysis,ABSA)關(guān)鍵任務(wù)是檢測(cè)出評(píng)論中提及的方面術(shù)語(yǔ),即方面術(shù)語(yǔ)提取[1-4(]aspect term extraction,ATE),同時(shí)預(yù)測(cè)方面術(shù)語(yǔ)的情感極性,即方面術(shù)語(yǔ)情感分類[5-8](aspect-based sentiment classification,ASC)。例如在句子“The cheese pizza is delicious.”中,方面術(shù)語(yǔ)分別是“cheese pizza”,對(duì)應(yīng)的情感極性為積極。最初的研究工作大多解決其中的某一個(gè)子任務(wù),但需要事先給出評(píng)論中的方面術(shù)語(yǔ),限制了其實(shí)際使用。因此,有研究者提出將兩個(gè)子任務(wù)以聯(lián)合標(biāo)簽的方式連接在一起[9-10],直接建模為序列標(biāo)注問(wèn)題[11-12],如表1所示,用{B-(POS,NEG,NEU),Ⅰ-(POS,NEG,NEU),E-(POS,NEG,NEU),S-(POS,NEG,NEU)}分別表示方面術(shù)語(yǔ)的開(kāi)始,內(nèi)部,結(jié)尾和單個(gè)方面詞及其對(duì)應(yīng)的情感極性,O表示非方面術(shù)語(yǔ)。這種標(biāo)注方式也稱為端到端方面級(jí)情感分析(E2E-ABSA)。
表1 E2E-ABSA聯(lián)合標(biāo)簽方案說(shuō)明Table 1 E2E-ABSA unified tagging scheme description
目前E2E-ABSA 的研究主要設(shè)計(jì)不同的特征編碼器和解碼器,將ABSA 形式化為一個(gè)統(tǒng)一的框架,提升性能。例如Schmitt 等人[13]提出使用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)作為特征提取器,CNN可以識(shí)別局部特征,且有很強(qiáng)的并行計(jì)算能力,一般來(lái)說(shuō),帶有情感傾向的詞會(huì)影響整體結(jié)果,所以CNN網(wǎng)絡(luò)可以很好地應(yīng)用到ABSA任務(wù)中。Li等人[6]設(shè)計(jì)了一個(gè)堆疊的循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)模型作為特征編碼器,這種設(shè)計(jì)基于統(tǒng)一標(biāo)記方案下,跨度信息與邊界標(biāo)記的信息完全相同,RNN網(wǎng)絡(luò)可以緩解遠(yuǎn)距離依賴,下層RNN提供引導(dǎo)信息,執(zhí)行目標(biāo)邊界預(yù)測(cè),上層RNN生成最終預(yù)測(cè)結(jié)果。Li等人[7]使用擁有強(qiáng)大語(yǔ)言表征能力和特征提取能力的雙向語(yǔ)言模型BERT 或其變體Deem BERT 作為特征提取器,并與下游神經(jīng)模型耦合以完成任務(wù)。
以上E2E-ABSA 模型主要考慮了如何設(shè)計(jì)編碼器獲得較好的方面特征,從而更好地預(yù)測(cè)聯(lián)合標(biāo)簽。事實(shí)上,方面術(shù)語(yǔ)和觀點(diǎn)術(shù)語(yǔ)通常是名詞短語(yǔ)或形容詞名詞短語(yǔ)的組塊形式;同時(shí),方面術(shù)語(yǔ)和觀點(diǎn)術(shù)語(yǔ)之間存在句法聯(lián)系,觀點(diǎn)術(shù)語(yǔ)的正確識(shí)別有利于方面術(shù)語(yǔ)的情感極性預(yù)測(cè)。上述的特性可以通過(guò)句法分析工具獲取。但是,直接通過(guò)句法工具解析的依賴樹(shù)通常有很多節(jié)點(diǎn),這不利于對(duì)方面詞和觀點(diǎn)詞的整體判斷。因此,需要對(duì)句法標(biāo)記節(jié)點(diǎn)信息進(jìn)行簡(jiǎn)化,實(shí)現(xiàn)方面術(shù)語(yǔ)和觀點(diǎn)術(shù)語(yǔ)的整體提取,構(gòu)建方面術(shù)語(yǔ)和觀點(diǎn)術(shù)語(yǔ)之間的聯(lián)系。以圖1 評(píng)論“It had the fully sized touch pad.”為例,在屬于同一方面術(shù)語(yǔ)的“touch”和“pad”之間存在依賴關(guān)系“nn”。如果可以簡(jiǎn)化這種依賴關(guān)系,并將它們與父節(jié)點(diǎn)“had”直接連接,那么就會(huì)形成一個(gè)完整的方面術(shù)語(yǔ)“touch pad”。類似地,如果可以簡(jiǎn)化“fully”和“sized”之間的依賴關(guān)系“dep”,并將其與父節(jié)點(diǎn)“touch”直接連接,則將形成完整的觀點(diǎn)術(shù)語(yǔ)“fully sized”,并連接到方面術(shù)語(yǔ)“touch pad”上。
圖1 采用Biaffine句法解析的原始句法樹(shù)結(jié)構(gòu)Fig.1 Original syntax tree structure with Biaffine parsing
本文提出了一種融合簡(jiǎn)化句法標(biāo)記信息的E2EABSA 模型,設(shè)計(jì)了一組剪枝規(guī)則來(lái)重塑原始的依賴樹(shù),以獲取簡(jiǎn)潔的句法依賴標(biāo)記,從而表示術(shù)語(yǔ)完整性及方面術(shù)語(yǔ)和觀點(diǎn)術(shù)語(yǔ)之間的相關(guān)性;同時(shí),利用自注意力網(wǎng)絡(luò),將句法依賴標(biāo)記表征融入模型。在兩個(gè)公共評(píng)論數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),并與多個(gè)基線模型進(jìn)行了比較,結(jié)果表明,本文所提模型具有更優(yōu)的性能。
以往的研究工作大多集中于ABSA的某個(gè)子任務(wù),即ATE或ASC。ATE通常被視為序列標(biāo)注問(wèn)題[14],最近的研究嘗試將ATE建模為序列到序列的學(xué)習(xí),在預(yù)訓(xùn)練語(yǔ)言模型上獲得了很好的效果[15-16]。對(duì)于ASC,之前有研究使用LSTM 網(wǎng)絡(luò)提取方面詞和上下文之間的聯(lián)系[17];之后的研究提出,ASC 通過(guò)注意機(jī)制將方面詞和上下文聯(lián)系起來(lái)是有幫助的[18]。此外,還有模型使用了門控機(jī)制和存儲(chǔ)機(jī)制,來(lái)解決ASC問(wèn)題[19-21]。
由于兩個(gè)子任務(wù)是高度關(guān)聯(lián)的,將二者視為兩個(gè)獨(dú)立任務(wù)限制了它們的實(shí)際應(yīng)用價(jià)值。因此,有研究者提出使用聯(lián)合標(biāo)注體系的方法同時(shí)解決這些問(wèn)題。他們使用一組方面標(biāo)簽{B,Ⅰ,E,S,O}來(lái)表示方面術(shù)語(yǔ)的開(kāi)始、內(nèi)部、結(jié)束、單個(gè)單詞和空值,同時(shí)使用另一組情感標(biāo)簽{POS,NEU,NEG}來(lái)表示方面術(shù)語(yǔ)的積極、中性和消極情緒。此標(biāo)記方案通常用于兩個(gè)子任務(wù)的聯(lián)合訓(xùn)練。例如Ma 等人[22]提出多級(jí)的雙層門控循環(huán)網(wǎng)絡(luò)(gated recurrent unit,GRU),該模型考慮了單詞和字符兩個(gè)層面的嵌入特征,建模了字符級(jí)特征和高級(jí)語(yǔ)義特征之間的關(guān)系。更多的模型考慮了方面術(shù)語(yǔ)和情感極性的關(guān)系。Klinger 和Cimiano 等人[23]提出的聯(lián)合模型可以從兩個(gè)方向分析方面和主觀短語(yǔ)之間的關(guān)系,并做出預(yù)測(cè)。在此基礎(chǔ)上,Yang等人[24]使用CRF將觀點(diǎn)持有者、方面和觀點(diǎn)表達(dá)建模為一個(gè)序列標(biāo)記,將方面和觀點(diǎn)表達(dá)與句法關(guān)系相結(jié)合。Luo等人[25]提出了一種基于注意力機(jī)制的雙循環(huán)神經(jīng)網(wǎng)絡(luò)交叉共享(dual cross-shared RNN)的框架,使用兩個(gè)BiLSTM 分別提取方面詞和情感極性的表征,同時(shí)使用一個(gè)交叉共享的單元來(lái)考慮它們之間的關(guān)系。
E2E-ABSA 使用聯(lián)合標(biāo)簽方案消除了ATE 和ASC兩個(gè)子任務(wù)的邊界。Schmitt等人[13]提出的模型將CNN和Bi-LSTM 作為特征提取器,并在最后使用softmax 分類來(lái)判斷一個(gè)詞是否是方面詞。如果是,則模型輸出情感極性。E2E-ABSA 需要考慮同一方面詞的情感極性一致性。為此,Li等人[6]設(shè)計(jì)了一個(gè)包含兩個(gè)堆疊RNN的新型統(tǒng)一框架。下層通過(guò)向上層RNN提供引導(dǎo)信息來(lái)執(zhí)行目標(biāo)邊界的輔助預(yù)測(cè),上層生成最終預(yù)測(cè)結(jié)果。該模型通過(guò)門控機(jī)制將當(dāng)前單詞與前一個(gè)單詞進(jìn)行集成,以保持同一方面術(shù)語(yǔ)中的情感一致性。在利用不同粒度信息方面,He等人[26]提出了交互式多任務(wù)學(xué)習(xí)網(wǎng)絡(luò)(interactive multi-task learning network,IMN),它可以同時(shí)聯(lián)合學(xué)習(xí)token 級(jí)和文檔級(jí)的多個(gè)任務(wù)。此外,預(yù)訓(xùn)練模型和圖模型為E2E-ABSA 提供了新的思路。例如,Li 等人[7]使用BERT 將上下文單詞嵌入層與下游神經(jīng)網(wǎng)絡(luò)層耦合,以完成任務(wù)。Liu 等人[27]提出了一種新的動(dòng)態(tài)異構(gòu)圖聯(lián)合模型,該模型同時(shí)使用單詞和情感標(biāo)簽作為節(jié)點(diǎn),實(shí)現(xiàn)方面和情感之間的交互,進(jìn)一步提高了ABSA的性能。
上述E2E-ABSA 方法僅側(cè)重于將ABSA 形式化為一個(gè)統(tǒng)一的框架,而忽略了評(píng)論中不同單詞的相關(guān)性對(duì)這項(xiàng)任務(wù)有很大作用。因此,本文重點(diǎn)對(duì)方面詞和觀點(diǎn)詞之間的內(nèi)部關(guān)系進(jìn)行建模,以提高模型的性能。
圖2給出了本文模型的結(jié)構(gòu),主要由BERT表征層、句法簡(jiǎn)化層和特定任務(wù)層組成。BERT表征層獲取評(píng)論的上下文表征;句法簡(jiǎn)化層根據(jù)一組規(guī)則對(duì)句法依賴樹(shù)進(jìn)行重塑,獲得簡(jiǎn)化的句法表征;特定任務(wù)層采用單層注意力機(jī)制變體TFM[7(]self-attention network variant),以更好地融合上下文表征和句法表征,并使用softmax函數(shù)預(yù)測(cè)每個(gè)單詞對(duì)應(yīng)的標(biāo)簽。
圖2 本文模型總體框架Fig.2 Overall framework of model
將輸入的評(píng)論文本表示為W=(w1,w2,…,wn),其中n是句子的長(zhǎng)度。通過(guò)BERT模型來(lái)計(jì)算W對(duì)應(yīng)的上下文表征。輸入特征表示為H0=(e1,e2,…,en),其中ei(i∈[1,n])是輸入評(píng)論中的詞wi對(duì)應(yīng)的詞嵌入(token embedding)、位置嵌入(position embedding)和段嵌入(segment embedding)的組合。然后引入L層transformer,逐層細(xì)化詞級(jí)特征。具體而言,第l(l∈[1,L])層的特征表示HL計(jì)算如下:
2.2.1 句法剪枝規(guī)則
評(píng)論中的顯式方面詞基本上是多個(gè)名詞的組合、形容詞和名詞的組合以及副詞和名詞的組合。也就是說(shuō),方面詞與句法和詞性密切相關(guān)。本文總結(jié)了如表2 所示的規(guī)則。如果兩個(gè)單詞滿足表2 中的詞性關(guān)系和句法依賴關(guān)系,就將尾節(jié)點(diǎn)(句法關(guān)系指向的節(jié)點(diǎn))的初始依賴標(biāo)記更改為與頭節(jié)點(diǎn)(句法關(guān)系出發(fā)的節(jié)點(diǎn))一致。
表2 句法規(guī)則設(shè)置Table 2 Syntax rule setting
2.2.2 句法標(biāo)記獲取過(guò)程
首先,遍歷每個(gè)句子的原始句法樹(shù),獲得可能的句法序列。以句子“It had the fully sized touch pad”為例,以“had”作為根節(jié)點(diǎn)遍歷其原始語(yǔ)法樹(shù),并獲得三個(gè)序列,如表3所示。
表3 通過(guò)遍歷原始語(yǔ)法樹(shù)獲得句法序列舉例Table 3 Examples of syntactic sequences obtained by traversing original syntax tree
接下來(lái),設(shè)置一個(gè)寬度為2 的窗口,并將窗口在句法序列上從開(kāi)始到結(jié)束以步長(zhǎng)為1進(jìn)行滑動(dòng),處理窗口中的單詞。如果窗口中的兩個(gè)單詞符合表2 中的規(guī)則之一,將更改這兩個(gè)單詞的依賴關(guān)系,使其與頭節(jié)點(diǎn)相同。
例如,對(duì)于滑動(dòng)窗口中的兩個(gè)單詞“fully”和“sized”,對(duì)應(yīng)的詞性分別為“ADV”和“ADJ”,兩詞之間的依賴關(guān)系是“dep”,對(duì)應(yīng)表2 中的第五行。頭節(jié)點(diǎn)是“size”,尾節(jié)點(diǎn)是“fully”。由于“size”的父節(jié)點(diǎn)是“touch”,對(duì)應(yīng)依賴關(guān)系是“amod”,將“fully”和“touch”之間的依賴關(guān)系更改為“amod”,并刪除“fully”和“sized”之間的依賴關(guān)系“dep”。其余單詞的句法標(biāo)記也如此更新,如圖3所示。經(jīng)過(guò)句法簡(jiǎn)化,同一方面術(shù)語(yǔ)的“touch”和“pad”用相同的句法標(biāo)記直接連接,而同一觀點(diǎn)術(shù)語(yǔ)中的“fully”和“sized”通過(guò)依賴關(guān)系“amod”與方面術(shù)語(yǔ)“touchpad”直接連接。
圖3 句法樹(shù)結(jié)構(gòu)Fig.3 Syntax tree structure
2.2.3 句法標(biāo)記的表征
在簡(jiǎn)化句法標(biāo)記之后,將句子中每個(gè)詞的句法標(biāo)記和詞性標(biāo)記按順序排列。在上面的示例中,原句法標(biāo)記為nsubj、root、det、dep、amod、nn、dep。經(jīng)處理后,句法標(biāo)記為nsubj、root、det、amod、amod、dep、dep;相應(yīng)的詞性標(biāo)記為PRON、AUX、DET、ADV、ADJ、NOUN、NOUN、PUNCT。
為句法標(biāo)記和詞性標(biāo)記生成句法表征HD=(d1,d2,…,dn)和詞性表征HT=(t1,t2,…,tn)。不同的標(biāo)記di和ti用一定維度的隨機(jī)生成的向量來(lái)表示。對(duì)兩種表征進(jìn)行拼接操作,獲得句法標(biāo)記的整體表征HDT=(dt1,dt2,…,dtn)。
使用自注意力網(wǎng)絡(luò)的變體(self-attention network variant,TFM)[7]進(jìn)一步學(xué)習(xí)句法增強(qiáng)表征HP=(p1,p2,…,pn)。TFM結(jié)構(gòu)如圖4所示,具體的計(jì)算過(guò)程如下:
圖4 TFM的結(jié)構(gòu)Fig.4 Structure of TFM
將句法標(biāo)記的整體表征HDT作為TFM的輸入,經(jīng)過(guò)點(diǎn)乘注意力機(jī)制[28(]self-attentive scaled dot-product attention,SLF_ATT)生成包含更多信息的表征。
其中,LN為層標(biāo)準(zhǔn)化(layer normalization)。
在獲得上下文表征HL和句法增強(qiáng)表征HP后,將二者相加,獲得維度為dimh的表征HF:
然后將HF送入TFM,獲取最終表征,TFM的計(jì)算過(guò)程按照上述公式(2)~(4)進(jìn)行。
最后,使用線性變換和softmax以輸出每個(gè)詞wt的預(yù)測(cè)結(jié)果yt。
其中,Wo和bo表示線性層可學(xué)習(xí)的參數(shù)。
通過(guò)在所有數(shù)據(jù)上最小化目標(biāo)y和預(yù)測(cè)之間的交叉熵?fù)p失來(lái)訓(xùn)練本文所提模型。
其中,i是數(shù)據(jù)的索引,j是情感類別索引。
使用來(lái)自SemEval 的兩個(gè)產(chǎn)品評(píng)論數(shù)據(jù)集[29-31]進(jìn)行模型評(píng)估,表4 給出數(shù)據(jù)集的統(tǒng)計(jì)信息。Laptop 是SemEval 2014筆記本電腦領(lǐng)域的評(píng)論,Rest是SemEval 2014、2015和2016餐廳數(shù)據(jù)集的合集。
表4 數(shù)據(jù)集描述Table 4 Dataset description
本文所采用的評(píng)價(jià)指標(biāo)是方面術(shù)語(yǔ)作為一個(gè)整體的準(zhǔn)確率(P)、召回率(R)和F1-score(F1)。其中對(duì)應(yīng)的公式如下所示:
其中,TP對(duì)應(yīng)真陽(yáng)的數(shù)目,F(xiàn)P對(duì)應(yīng)假陽(yáng)的數(shù)目,F(xiàn)N對(duì)應(yīng)假陰的數(shù)目。
在句法標(biāo)記的表征中,句法表征HD和詞性表征HT的維度均為384,拼接得到的整體表征的維度為768;文本表征使用“BERT-base-uncased”[32]模型,其中transformer 的層數(shù)L數(shù)量為12,隱藏層的維度為768。對(duì)于Laptop 數(shù)據(jù)集,batch size 設(shè)置為32,對(duì)于REST 數(shù)據(jù)集,batch size 設(shè)置為16,使用Adam 進(jìn)行參數(shù)優(yōu)化,學(xué)習(xí)率為2E-5。將模型訓(xùn)練到1 500 步。在訓(xùn)練1 000個(gè)步驟后,以100步為一個(gè)周期計(jì)算模型在驗(yàn)證集上的誤差。用不同的隨機(jī)種子訓(xùn)練了五個(gè)模型,并報(bào)告了平均結(jié)果。
NN-CRF[33]:這是一個(gè)使用單詞嵌入和神經(jīng)網(wǎng)絡(luò)的增強(qiáng)型CRF模型,也采用聯(lián)合標(biāo)簽方案。神經(jīng)網(wǎng)絡(luò)的隱層維數(shù)為200,AdaGrad 的初始學(xué)習(xí)率為0.001,正則化參數(shù)為10-8。
LSTM:這是一種使用標(biāo)準(zhǔn)LSTM 網(wǎng)絡(luò)作為特征提取器,并采用聯(lián)合標(biāo)簽方案的序列標(biāo)記模型。
LSTM-CNN-CRF[34]:這是一種增強(qiáng)的CRF模型,使用LSTM 和CNN 網(wǎng)絡(luò)的單詞嵌入和特征提取器,并采用聯(lián)合標(biāo)簽方案。
HAST-TNet:HAST[3]和TNet[5]分別是ATE和ASC的經(jīng)典模型。HAST使用歷史信息預(yù)測(cè)當(dāng)前單詞,TNet有三層,底層為Bi-LSTM,上層為CNN。HAST-TNet是使用這兩種模型的管道方法。
DOER[25]:這是一個(gè)雙重交叉共享的RNN 框架,利用ATE 和ASC 的交互作用,輸出所有的方面詞和其對(duì)應(yīng)的情感極性。使用Adam作為優(yōu)化器,學(xué)習(xí)率為0.001,dropout率為0.5,最大迭代次數(shù)設(shè)置為50。
BG-CS-OE[6]:使用兩個(gè)疊加遞歸神經(jīng)網(wǎng)絡(luò),其中下層神經(jīng)網(wǎng)絡(luò)用于輔助方面術(shù)語(yǔ)的邊界識(shí)別,上層神經(jīng)網(wǎng)絡(luò)用于聯(lián)合標(biāo)簽預(yù)測(cè)。該模型使用Adam 進(jìn)行參數(shù)優(yōu)化,初始學(xué)習(xí)率為10-3,迭代次數(shù)設(shè)置為50,dropout率設(shè)置為0.5。
IMN[27]:一個(gè)交互式多任務(wù)學(xué)習(xí)網(wǎng)絡(luò),可以同時(shí)學(xué)習(xí)單詞級(jí)和文檔級(jí)的多個(gè)相關(guān)任務(wù)。該模型使用Adam進(jìn)行參數(shù)優(yōu)化,學(xué)習(xí)率為10-4。
DHG[28]:以單詞和情感標(biāo)簽為節(jié)點(diǎn),構(gòu)造一個(gè)動(dòng)態(tài)異構(gòu)圖,并通過(guò)迭代不斷修剪該圖。該模型使用Adam進(jìn)行參數(shù)優(yōu)化,學(xué)習(xí)率為10-4,迭代次數(shù)為3,閾值設(shè)置為0.75。
MTMVN[35]:多任務(wù)多視圖網(wǎng)絡(luò)架構(gòu),統(tǒng)一的端到端ABSA任務(wù)作為主任務(wù),ASC與ATE作為輔助任務(wù)別構(gòu)建視圖,通過(guò)在多視圖學(xué)習(xí)的思想下增強(qiáng)視圖之間的相關(guān)性,通過(guò)優(yōu)化全局視圖表示提高模型整體性能。
C-ATT[36]:使用相鄰注意力機(jī)制和等級(jí)限制,從而歸納句中的不同成分。加入成分感知系數(shù),使方面術(shù)語(yǔ)更加關(guān)注對(duì)應(yīng)的觀點(diǎn)術(shù)語(yǔ)。該模型使用Adam 進(jìn)行參數(shù)優(yōu)化,學(xué)習(xí)率為5E-5。
對(duì)比表5 中的F1 值,有以下分析:(1)在所有使用Word2vec 作為詞嵌入表征的模型中,LSTM-CNN-CRF性能相對(duì)較高。該模型在LSTM 的基礎(chǔ)上,利用CNN進(jìn)一步學(xué)習(xí)字符級(jí)特征,并以CRF 為解碼層,從而獲得全局最優(yōu)的標(biāo)簽序列。相比于最強(qiáng)基線LSTM-CNNCRF,Our model-Word2vec在數(shù)據(jù)集Laptop和Rest上分別獲得了2.92 和8.77 個(gè)百分點(diǎn)的提升。這證明加入了簡(jiǎn)化句法的模型可以更好地學(xué)習(xí)序列特征,從而提高ABSA 的性能。(2)在基于Glove 的模型中,HAST-TNet模型集成了HAST 和TNet,與LSTM-CNN-CRF 相比有所改進(jìn)。然而,管道形式會(huì)造成不可避免的誤差累積,因此改進(jìn)是有限的。DOER 使用兩個(gè)網(wǎng)絡(luò)來(lái)生成方面術(shù)語(yǔ)和情感極性的不同表示,并使用交叉共享單元來(lái)學(xué)習(xí)ATE 和ASC 任務(wù)之間的關(guān)系,在兩個(gè)數(shù)據(jù)集上的F1值都顯著高于HAST-TNet;同樣的,聯(lián)合模型IMN通過(guò)一個(gè)交互式多任務(wù)學(xué)習(xí)網(wǎng)絡(luò),執(zhí)行方面術(shù)語(yǔ)和觀點(diǎn)術(shù)語(yǔ)的聯(lián)合提取、方面級(jí)情感分類、文檔級(jí)情感分類和文檔級(jí)領(lǐng)域分類四個(gè)任務(wù)。通過(guò)四個(gè)任務(wù)的信息交互,該模型在Laptop 數(shù)據(jù)集上具有較好的性能。然而DOER 和IMN沒(méi)有限制方面術(shù)語(yǔ)的界限,會(huì)導(dǎo)致同一方面術(shù)語(yǔ)內(nèi)出現(xiàn)不同的情感極性,Our model-Glove 通過(guò)句法簡(jiǎn)化的方法,將屬于同一方面術(shù)語(yǔ)的單詞賦予相同的句法標(biāo)記,在一定程度上輔助了方面術(shù)語(yǔ)的邊界的判斷,相比于最強(qiáng)基線DOER,在Rest數(shù)據(jù)集上提升了1.08個(gè)百分點(diǎn)。(3)在基于BERT的模型中,C-ATT使用相鄰注意力機(jī)制和等級(jí)限制,一定程度上限制了方面術(shù)語(yǔ)的邊界,同時(shí)加入成分感知系數(shù),使方面術(shù)語(yǔ)更加關(guān)注對(duì)應(yīng)的觀點(diǎn)術(shù)語(yǔ)。Our model-BERT與之相比在數(shù)據(jù)集Laptop上的F1 值提升了0.95 個(gè)百分點(diǎn),這證明本文所提模型采用的簡(jiǎn)化句法在保證方面術(shù)語(yǔ)完整性的同時(shí)考慮到了方面術(shù)語(yǔ)與觀點(diǎn)之間的聯(lián)系,將簡(jiǎn)化的句法信息和上下文信息的結(jié)合可以提高ABSA的整體性能。
表5 不同模型的實(shí)驗(yàn)結(jié)果Table 5 Experimental results of different models 單位:%
為了驗(yàn)證本文提出的融合簡(jiǎn)化句法信息的有效性,本文設(shè)計(jì)了消融模型并在Rest數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。
(1)Bert-TFM:使用BERT層來(lái)獲得上下文表示,并使用單層TFM 來(lái)微調(diào)模型,而不融合任何句法信息或詞性信息。
(2)Bert-TFM+dep_tree:將未經(jīng)簡(jiǎn)化的初始句法依賴標(biāo)記表示為隨機(jī)向量,添加到從BERT層獲得的上下文表示中,并在上層使用TFM。
(3)Bert-TFM+pos:將詞性表征添加到從BERT 層獲得的上下文表征中,并在上層使用TFM。
(4)Bert-TFM+new_dep_tree:將簡(jiǎn)化的句法表征添加到從BERT 層獲得的上下文表征中,并在上層使用TFM。
(5)Bert-TFM+dep_tree+pos:將未經(jīng)簡(jiǎn)化的初始句法依賴標(biāo)記信息表示為隨機(jī)向量,與句法表征拼接在一起,然后將拼接表征添加到從Bert層獲得的上下文表征中,并在上層使用TFM。
實(shí)驗(yàn)結(jié)果如表6所示。與Bert-TFM相比,Bert-TFM+dep_tree 的P 值有所提高,而R 值降低了0.62 個(gè)百分點(diǎn)。說(shuō)明句法信息有助于方面詞和情感極性的準(zhǔn)確識(shí)別,從而提高精度。但另一方面,解析工具獲得的句法樹(shù)包含過(guò)多的子節(jié)點(diǎn),影響了方面詞的整體判斷,某些方面詞可能會(huì)遺漏,導(dǎo)致R值下降。與Bert-TFM+dep_tree相比,Bert-TFM+new_dep_tree的P值和R值分別增加了0.27和0.61個(gè)百分點(diǎn),這說(shuō)明簡(jiǎn)化句法信息由于減少了冗余節(jié)點(diǎn),形成方面術(shù)語(yǔ)在一定程度上有助于模型確定方面術(shù)語(yǔ)的邊界。
表6 消融分析的實(shí)驗(yàn)結(jié)果Table 6 Experimental results of ablation analysis單位:%
與Bert-TFM 相 比,Bert-TFM+pos 的P 值降低了0.44個(gè)百分點(diǎn),R值增加了0.68個(gè)百分點(diǎn)。方面詞通常是形容詞短語(yǔ)和名詞短語(yǔ),詞性信息可以引導(dǎo)模型更加關(guān)注這些詞,從而提高召回率。另一方面,如果模型過(guò)度依賴詞性,則會(huì)影響其判斷,降低其精確率。
Bert-TFM+dep_tree+pos在Bert-TFM的基礎(chǔ)上增加了句法依賴信息和詞性信息,提高了性能。本文模型將簡(jiǎn)化的句法信息和詞性信息結(jié)合起來(lái),更準(zhǔn)確地判斷方面術(shù)語(yǔ)的邊界,同時(shí)利用注意機(jī)制在一定程度上獲得方面詞和觀點(diǎn)詞之間的聯(lián)系。因此,本文模型獲得了最好的性能。
使用IMN、Bert-TFM+dep_tree+pos 和本文模型給出了兩個(gè)實(shí)例及預(yù)測(cè)結(jié)果,并顯示了三個(gè)模型識(shí)別出的觀點(diǎn)詞,如表7 所示。在實(shí)例1“Ican say that Iam fully satisfied with the performance that the computer has supplied.”中,IMN 和Bert-TFM+dep_tree+pos 能夠正確識(shí)別方面詞“performance”,但相應(yīng)的情感極性預(yù)測(cè)是錯(cuò)誤的,而本文模型預(yù)測(cè)結(jié)果則完全正確。這是因?yàn)榕c方面詞對(duì)應(yīng)的觀點(diǎn)詞“fully satisfied”是一個(gè)詞組,IMN 和Bert-TFM+dep_tree+pos 識(shí)別出的觀點(diǎn)詞“full”不完整,導(dǎo)致對(duì)情感極性的錯(cuò)誤預(yù)測(cè)。本文方法對(duì)于該示例的句法簡(jiǎn)化過(guò)程如表8 所示。在原句法結(jié)構(gòu)中,“fully”和“satisfied”的依賴關(guān)系標(biāo)簽分別為“dep”和“comp”。同一觀點(diǎn)詞的依賴關(guān)系標(biāo)簽不一致,會(huì)干擾觀點(diǎn)詞的識(shí)別,導(dǎo)致情感極性判斷不準(zhǔn)確。經(jīng)過(guò)句法重構(gòu),“satisfied”和“fully”被標(biāo)記為同一標(biāo)簽“ccomp”。這樣,就保證了“fully satisfied”作為觀點(diǎn)表達(dá)的完整性,從而獲得正確的預(yù)測(cè)。
表7 案例分析Table 7 Case analysis
表8 實(shí)例1的句法解析Table 8 Syntax analysis of example 1
在實(shí)例2“But dinner here is never disappointing,even if the prices are a bit over the top.”中,方面術(shù)語(yǔ)為“dinner”,對(duì)應(yīng)的情感極性為正向。這三個(gè)模型都能正確地檢測(cè)到方面術(shù)語(yǔ)“dinner”,但都不能正確預(yù)測(cè)情感極性。這是由于實(shí)例2為雙重否定,模型很難預(yù)測(cè)這類句子的情感極性。結(jié)果表明,一些復(fù)雜的語(yǔ)言表達(dá)可能會(huì)超出本文模型對(duì)情感極性的預(yù)測(cè)能力。
本文提出了一個(gè)E2E-ABSA模型,考慮了方面術(shù)語(yǔ)和觀點(diǎn)術(shù)語(yǔ)之間的句法關(guān)系,對(duì)句法標(biāo)記進(jìn)行了重塑;同時(shí),利用注意機(jī)制實(shí)現(xiàn)了簡(jiǎn)化句法信息和上下文信息的融合,從而增強(qiáng)了模型的預(yù)測(cè)能力。在SemEval數(shù)據(jù)集上的大量實(shí)驗(yàn)表明,重構(gòu)的句法表征有助于方面術(shù)語(yǔ)的識(shí)別和對(duì)應(yīng)的情感極性檢測(cè),所提句法標(biāo)記重構(gòu)規(guī)則是合理的。