亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

子句級(jí)別的自注意力機(jī)制的情感原因抽取模型

2021-02-02 06:49:38覃俊孟凱劉晶廖立婷毛養(yǎng)勤

中南民族大學(xué)學(xué)報(bào)(自然科學(xué)版) 2021年1期

覃俊，孟凱，劉晶，廖立婷，毛養(yǎng)勤

(中南民族大學(xué) 計(jì)算機(jī)科學(xué)學(xué)院&湖北省制造企業(yè)智能管理工程技術(shù)研究中心,武漢 430074)

文本情感分析一直是自然語(yǔ)言處理和文本挖掘領(lǐng)域研究的熱點(diǎn)問(wèn)題之一，因其廣泛的應(yīng)用前景而受到學(xué)術(shù)界和工業(yè)界的重視．文本情感分析領(lǐng)域中，情感分類[1]任務(wù)的目的在于確認(rèn)文本所表達(dá)的情感，情感要素抽取[2]的目的在于分析文本所表達(dá)的情緒，而基于方面的情感分析[3]則旨在分析針對(duì)事物的某個(gè)方面所表達(dá)的情感．近年來(lái)，情感原因抽取也成為情感分析領(lǐng)域的一項(xiàng)重要子任務(wù)，其旨在識(shí)別在給定文本中某種情緒表達(dá)背后的潛在原因．有效識(shí)別情感產(chǎn)生的原因，能更好地幫助服務(wù)提供者改善并提高服務(wù)質(zhì)量，提升用戶體驗(yàn)．在公共安全領(lǐng)域，如輿情監(jiān)控和政府決策層面，對(duì)情感原因的探究有助于更好地理解公眾意見的形成的原因．因此，關(guān)于情感原因提取的研究近年來(lái)受到越來(lái)越多的關(guān)注．

早期的研究主要采用構(gòu)建規(guī)則的方法從文本中抽取情感對(duì)應(yīng)的原因[4-5]，這些方法將情感原因抽取看作詞級(jí)別的序列標(biāo)注任務(wù)，其性能依賴于標(biāo)注數(shù)據(jù)集的大小，而且移植性較差．一些研究[6-7]表明，考慮文檔中子句級(jí)別的信息可以提高情感分析任務(wù)尤其是情感原因抽取任務(wù)的性能．近幾年，在該任務(wù)上的研究取得了一定的成果[8-12]．

圖1展示了子句級(jí)的情感原因抽取的基準(zhǔn)數(shù)據(jù)集[13]中的一個(gè)例子．被標(biāo)注了“激動(dòng)”的情感標(biāo)簽的文檔中包含了8個(gè)子句，其中子句C3描述了該情感，被標(biāo)注為“激動(dòng)”情感子句．子句C2是情感子句C3產(chǎn)生的原因，被標(biāo)注為C3的原因子句．因此，子句級(jí)的情感原因抽取任務(wù)可以看作一個(gè)子句分類問(wèn)題．根據(jù)給定的情感標(biāo)注，判斷文檔中的每個(gè)子句是否包含該情感的原因，從而確定該情感的原因子句．該數(shù)據(jù)集已經(jīng)成為了情感原因抽取任務(wù)的一個(gè)基準(zhǔn)數(shù)據(jù)集．基于該數(shù)據(jù)集，在深度學(xué)習(xí)和傳統(tǒng)機(jī)器學(xué)習(xí)[13-14]上都有了許多的研究工作．

圖1 例子：情感原因抽取Fig.1 Example：Emotion cause extraction

隨著深度學(xué)習(xí)的發(fā)展，長(zhǎng)短期記憶網(wǎng)絡(luò)和注意力機(jī)制被廣泛的應(yīng)用于情感原因抽取任務(wù)．文獻(xiàn)[8]提出了帶有上下文感知的聯(lián)合注意力神經(jīng)網(wǎng)絡(luò)進(jìn)行情感原因抽取．文獻(xiàn)[10]考慮了整個(gè)文檔對(duì)情感原因子句的作用，利用多注意力機(jī)制從多個(gè)視角抽取文檔特征從而加大對(duì)原因子句的關(guān)注．文獻(xiàn)[15]基于雙向長(zhǎng)短期記憶網(wǎng)絡(luò)，設(shè)計(jì)了一種聯(lián)合注意力機(jī)制來(lái)捕捉每個(gè)候選原因子句和情感子句之間的相互作用．上述方法主要關(guān)注了情感原因子句中文檔的上下文信息，忽略了情感描述子句和情感原因子句之間的語(yǔ)義關(guān)系．另一方面，由于數(shù)據(jù)集中標(biāo)簽不平衡，普通的子句遠(yuǎn)多于原因子句，使得尋找情感描述子句與情感原因子句的之間的語(yǔ)義關(guān)系十分困難．

因此，本文綜合考慮了情感原因子句和情感描述子句之間的語(yǔ)義關(guān)系、情感原因子句和情感描述子句的位置關(guān)系，以及情感原因子句的上下文信息．提出了一個(gè)基于子句的自注意力多特征融合神經(jīng)網(wǎng)絡(luò)模型(SANN)，本文主要貢獻(xiàn)如下：

(1)融合了情感原因子句的上下文信息、情感原因子句和情感描述子句之間的語(yǔ)義關(guān)系以及情感原因子句和情感描述子句的位置關(guān)系特征．

(2)利用自注意力機(jī)制，融合位置關(guān)系特征，計(jì)算情感描述子句和情感原因子句之間的語(yǔ)義信息．

(3)基于文獻(xiàn)[13]提出的當(dāng)前最大子句級(jí)的中文情感原因抽取任務(wù)的數(shù)據(jù)集評(píng)估了我們的方法，實(shí)驗(yàn)結(jié)果表明，該模型在查全率R上優(yōu)于目前的其他方法．

1 相關(guān)工作

早期研究將情感原因抽取任務(wù)定義為詞級(jí)別的序列標(biāo)簽問(wèn)題，提出了基于規(guī)則或機(jī)器學(xué)習(xí)的方法[7,16-17]．例如SOPHIA[4]等基于語(yǔ)言學(xué)規(guī)則，最早針對(duì)新聞文本中的情緒表達(dá)抽取其對(duì)應(yīng)的原因，同時(shí)提出了評(píng)測(cè)規(guī)范．文獻(xiàn)[18]基于人工規(guī)則特征，使用支持向量機(jī)(Support Vector Machine,SVM)等傳統(tǒng)機(jī)器學(xué)習(xí)方法去抽取情感原因．文獻(xiàn)[5]將認(rèn)知學(xué)中的模型引入情感原因發(fā)現(xiàn)，設(shè)計(jì)了新的抽取規(guī)則．一些研究方法[17]從其他領(lǐng)域?qū)胂闰?yàn)知識(shí)和理論來(lái)推斷并提取情感的原因．這些方法均基于有注釋的數(shù)據(jù)集構(gòu)建語(yǔ)言規(guī)則．在小數(shù)據(jù)集上能取得較好的效果，但隨著數(shù)據(jù)集的增大，規(guī)則集的構(gòu)建周期也會(huì)變長(zhǎng)，而且移植性較差．

文獻(xiàn)[8]指出，圍繞情感關(guān)鍵詞的上下文描述了情緒引起的線索．因此，由情感詞以及與它相關(guān)的上下文組成的情感子句應(yīng)作為一個(gè)整體進(jìn)行查詢．文獻(xiàn)[6]證明了子句級(jí)別的特征可以提高情感分析任務(wù)的性能．因此，情感抽取的研究開始考慮文檔中子句級(jí)別的信息，構(gòu)建基于句級(jí)別語(yǔ)義的情感原因抽取模型．已有的研究工作[7,11,13,19]表明，從子句級(jí)別去考慮表達(dá)的情感和原因之間的關(guān)系，能夠明顯提高情感原因的抽取效率，基于Transformer[20]的模型[9]取得了較好的效果．

文檔中不同內(nèi)容的子句對(duì)特定情感有著不同的作用，文獻(xiàn)[15]基于雙向長(zhǎng)短期記憶網(wǎng)絡(luò)，考慮了情感原因子句和情感描述子句相互作用，設(shè)計(jì)了一種聯(lián)合注意力機(jī)制來(lái)捕捉每個(gè)候選原因子句和情感子句之間的相互作用．文獻(xiàn)[8]提出了一個(gè)帶有上下文感知的聯(lián)合注意力神經(jīng)網(wǎng)絡(luò)．利用聯(lián)合注意力機(jī)制尋找情感描述子句和情感原因子句之間的關(guān)系，最后使用卷積神經(jīng)網(wǎng)絡(luò)對(duì)添加了聯(lián)合注意力的子句進(jìn)行分類．文獻(xiàn)[10]考慮了整個(gè)文檔對(duì)情感原因子句的作用，使用注意力機(jī)制對(duì)文檔建模，從多個(gè)視角抽取文檔特征從而加大對(duì)原因子句的關(guān)注．文獻(xiàn)[21]基于中文微博多用戶的特點(diǎn)，構(gòu)建了一個(gè)多用戶的中文情感原因數(shù)據(jù)集，發(fā)現(xiàn)了不同博客之間的情感原因關(guān)聯(lián)，并使用SVM和長(zhǎng)短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)等方法去探測(cè)多用戶的情感原因關(guān)聯(lián)．文獻(xiàn)[13]基于新浪城市新聞構(gòu)建了中文情感原因數(shù)據(jù)集．該數(shù)據(jù)集針對(duì)的是基于子句級(jí)的情感原因抽取任務(wù)，目標(biāo)是對(duì)給定的情感描述的注釋，確認(rèn)該情感的原因子句．這個(gè)數(shù)據(jù)集已經(jīng)成為了情感原因抽取任務(wù)的一個(gè)基準(zhǔn)數(shù)據(jù)集．

之前的研究工作主要忽略了情感原因子句和情感描述子句的語(yǔ)義關(guān)聯(lián)．因此，本文綜合考慮了情感描述子句和情感原因子句之間的語(yǔ)義關(guān)系以及原因子句自身的特點(diǎn)，利用自注意力機(jī)制的特性，同時(shí)結(jié)合情感描述子句和情感原因子句的相對(duì)位置特征，學(xué)習(xí)情感描述子句和情感原因子句之間的語(yǔ)義關(guān)系，然后利用卷積神經(jīng)網(wǎng)絡(luò)捕捉情感原因子句的局部上下文特征，從而學(xué)習(xí)情感原因子句的特征．在基準(zhǔn)數(shù)據(jù)集上的實(shí)驗(yàn)表明，綜合考慮了情感原因子句和情感描述子句的語(yǔ)義關(guān)系和位置關(guān)系，以及原因子句的上下文后，能獲得較好的原因子句抽取效果．

2 基于子句的情感原因抽取方法

情感原因抽取可以轉(zhuǎn)化為子句級(jí)別的分類問(wèn)題[13]．在子句級(jí)別的情感原因抽取任務(wù)中，對(duì)給出的每個(gè)文檔D，根據(jù)標(biāo)注的情感子句，從所有候選子句中找出引發(fā)該情感的原因子句，即判斷子句是否是該情感產(chǎn)生的原因．本文充分考慮了子句間的語(yǔ)義和位置關(guān)系，首先，利用雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(Bi-directional Long Short-Term Memory,Bi-LSTM)編碼子句信息，并通過(guò)位置嵌入網(wǎng)絡(luò)，將子句的位置信息融入到該子句的語(yǔ)義信息中．接著，利用卷積神經(jīng)網(wǎng)絡(luò)和自注意力機(jī)制，獲得文檔中每個(gè)子句的上下文信息以及該子句與情感描述子句之間的語(yǔ)義信息，最后結(jié)合以上子句特征對(duì)子句分類．整體網(wǎng)絡(luò)模型如圖2所示.

圖2 基于子句的自注意力神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Clause-based self-attention neural network model structure

模型主要由5個(gè)部分組成：子句編碼器網(wǎng)絡(luò)、位置特征編碼器網(wǎng)絡(luò)、自注意力計(jì)算網(wǎng)絡(luò)，上下文特征提取網(wǎng)絡(luò)和原因子句分類網(wǎng)絡(luò)．其中，句子編碼器由Bi-LSTM組成(3.2節(jié))，用于編碼子句從而獲得子句的特征表示．位置特征編碼器(3.3節(jié))由位置嵌入和線性變換網(wǎng)絡(luò)組成，用于位置特征的學(xué)習(xí)和提取．自注意力計(jì)算網(wǎng)絡(luò)(3.4節(jié))由多個(gè)線性網(wǎng)絡(luò)層組成，用于計(jì)算情感原因子句和情感描述子句之間的自注意力計(jì)算．上下文特征提取網(wǎng)絡(luò)(3.5節(jié))由多個(gè)卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)組成，用于抽取子句的上下文局部特征．原因子句分類網(wǎng)絡(luò)(3.6節(jié))，將由各個(gè)網(wǎng)絡(luò)學(xué)到的特征融合后，最后使用softmax網(wǎng)絡(luò)層進(jìn)行分類，獲得最后的句子標(biāo)簽．

表1為論文相關(guān)符號(hào)說(shuō)明．

表1 相關(guān)符號(hào)說(shuō)明Tab.1 Related symbol description

2.1 模型輸入特征

文檔D={C1,C2,…,Cn}由n條子句組成．其中，情感描述子句用Ed表示，引發(fā)情感Ed的原因子句用Ec表示．D中的每個(gè)子句Ci由m個(gè)詞組成，即Ci={w1,w2,…,wm}．利用word2vec[22]技術(shù)將每個(gè)詞映射為向量表示．情感描述子句Ed被轉(zhuǎn)換由詞向量表示的特征矩陣Ed={w1,w2,…,wm}．

為了便于訓(xùn)練模型，令文檔中候選原因子句Ec和情感描述子句Ed有相同的L個(gè)詞的長(zhǎng)度．所有的子句都用一個(gè)lxd(l為句子長(zhǎng)度，d為詞向量維度)矩陣來(lái)表示，同時(shí)融入Ec和Ed的相對(duì)距離特征Pf．為了更加凸顯情感原因子句特點(diǎn)，本文在訓(xùn)練過(guò)程中利用卷積神經(jīng)網(wǎng)絡(luò)融入了候選原因子句的上下文信息F．

2.2 基于Bi-LSTM句子編碼器

相對(duì)于一般的循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network ,RNN)，LSTM[23]不僅可以解決RNN的梯度消失和梯度爆炸問(wèn)題，還可以依賴門控機(jī)制捕獲更長(zhǎng)依賴的語(yǔ)義信息．與LSTM相比，Bi-LSTM不僅能捕獲正向的序列信息，還能捕獲反向的序列信息．因此，為了更好的獲得情感原因子句和情感描述子句的上下文語(yǔ)義信息，本文使用Bi-LSTM對(duì)句子編碼，如圖3所示．

圖3 基于雙向神經(jīng)網(wǎng)絡(luò)的句子編碼器Fig.3 Sentence encoder based on Bi-LSTM

實(shí)驗(yàn)所使用的Bi-LSTM包含了兩層ht的輸出，即一個(gè)為正向LSTM的輸出，另一個(gè)為反向LSTM的輸出，將文檔D={C1,C2,…,Cn}中的子句的詞向量矩陣放進(jìn)Bi-LSTM中，可以獲得兩個(gè)正反兩個(gè)方向的輸出，拼接兩個(gè)輸出獲得最終的輸出，如公式(1)所示．

(1)

2.3 位置編碼網(wǎng)絡(luò)

通過(guò)對(duì)數(shù)據(jù)集的統(tǒng)計(jì)，發(fā)現(xiàn)Ed和Ec的距離大多數(shù)情況下都是接近的，如表2所示，情感描述子句和情感原因子句的相對(duì)距離(Relative Position,RP)小于2的占比85%以上，相對(duì)距離大于2的子句對(duì)少于5%，表明了情感描述子句和情感原因子句存在位置上的關(guān)系．

表2 相對(duì)距離統(tǒng)計(jì)Tab.2 Relative distance statistics

因此，本文引入位置編碼網(wǎng)絡(luò)去學(xué)習(xí)Ed和Ec的位置特征，如圖4所示．

本文用位置嵌入來(lái)描述子句之間的相對(duì)位置信息P．首先初始化一個(gè)符合正態(tài)分布的隨機(jī)位置矩陣PE(Position Embedding)，獲得位置向量Pe，然后通過(guò)線性變換和ReLU激活函數(shù)來(lái)抽取位置特征，獲得最后的位置特征Pf，在網(wǎng)絡(luò)訓(xùn)練過(guò)程中調(diào)節(jié)位置矩陣PE，公式(2)-(5)給出了變換過(guò)程的定義．

(2)

(3)

(4)

(5)

圖4 位置編碼網(wǎng)絡(luò)Fig.4 Position encoder neural network

2.4 自注意力的計(jì)算網(wǎng)絡(luò)

利用自注意力機(jī)制[19]可以計(jì)算詞與詞之間的相關(guān)程度的特性，本文使用自注意力計(jì)算子句Ed和Ec之間的關(guān)聯(lián)性，如圖5所示．

圖5 自注意力計(jì)算網(wǎng)絡(luò)Fig.5 Self attention neural network

計(jì)算自注意力需要q、k和v三個(gè)輸入，Ec的輸入用qc,kc,vc表示，Ed的輸入用qd,kd,vd表示，hc和hd分別是使用Bi-LSTM編碼得到的Ec和Ed的子句特征．Ec和Ed的自注意力計(jì)算如公式(6)-(13)所示．

(6)

(7)

(8)

(9)

(10)

(11)

(12)

(13)

其中wQ,wk,wV分別為查詢矩陣，鍵矩陣和值矩陣，輸入向量通過(guò)與這三個(gè)矩陣相乘獲得對(duì)應(yīng)查詢向量q、鍵向量k和值向量v，公式(7)-(9)給出了計(jì)算過(guò)程．然后，本文在自注意力計(jì)算過(guò)程中利用q、k計(jì)算出對(duì)應(yīng)的注意力分?jǐn)?shù)，如公式(14)-(17)所示．βd和βc分別是Ed和Ec得到的注意力分布，最后通過(guò)與值向量v相乘獲得，獲得Ed和Ec的自注意力信息zd和zc．

(14)

(15)

(16)

(17)

2.5 基于CNN的上下文特征提取

文獻(xiàn)[24]將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用到文本分類任務(wù)，利用多個(gè)不同大小的卷積核提取句子中的關(guān)鍵信息，從而捕捉到句子的局部特征．為了更好的找到情感原因子句的局部特征，本文也利用卷積神經(jīng)網(wǎng)絡(luò)抽取每個(gè)子句的上下文特征F．如圖6所示，利用三個(gè)不同的卷積核的卷積神經(jīng)網(wǎng)絡(luò)從不同維度提取特征．通常一個(gè)子句的語(yǔ)義與前后子句是相關(guān)聯(lián)的，因此本文將每個(gè)子句的前一條子句和后一條子句作為子句的上下文．

1)卷積層.

(18)

圖6 基于卷積神經(jīng)網(wǎng)絡(luò)的上下文編碼網(wǎng)絡(luò)Fig.6 Context encoder based on CNN

2)池化層.

獲得卷積提取特征后，再通過(guò)最大值池化操作進(jìn)一步對(duì)文本特征進(jìn)行采樣提取，從而獲得每個(gè)子句的上下文特征，式子(19)表示了池化過(guò)程．將三個(gè)不同卷積核的卷積神經(jīng)網(wǎng)絡(luò)抽取的特征進(jìn)行拼接，最后獲得的子句的上下文特征表示F，如公式(20)所示．

(19)

(20)

2.6 原因子句抽取

首先將自注意力信息zd和zc融入到Ed和Ec的子句特征中，然后結(jié)合上下文特征獲得最后的特征表示fcd，最后，我們使用句子分類器對(duì)子句進(jìn)行分類，如公式(21)-(24)所示．

(21)

(22)

(23)

(24)

3 實(shí)驗(yàn)分析

3.1 數(shù)據(jù)集與參數(shù)設(shè)置

本文選取了基于新浪城市新聞的中文情感原因數(shù)據(jù)集[13]，該數(shù)據(jù)集目前是情感原因抽取領(lǐng)域最大的中文數(shù)據(jù)集．?dāng)?shù)據(jù)集中包含了2105條新聞文檔，總共包含11799條子句．其中，原因子句有2167條，平均每個(gè)文檔至少包含一條原因子句，具體信息如表3所示．每個(gè)文檔包含多個(gè)子句，其中可能存在多個(gè)情感描述子句和情感原因子句，模型的目標(biāo)是找出文檔中的原因子句．

表3 數(shù)據(jù)集信息統(tǒng)計(jì)Tab.3 Dataset information statistics

為了更好地評(píng)價(jià)模型的性能，本文采用查準(zhǔn)率(P)、查全率(R)和F分?jǐn)?shù)作為模型的性能指標(biāo)．同時(shí)，參考了文獻(xiàn)[20]的實(shí)驗(yàn)設(shè)置，將數(shù)據(jù)隨機(jī)分為10份，其中，9份作為訓(xùn)練集，1份作為測(cè)試集，最后的實(shí)驗(yàn)結(jié)果由十折交叉驗(yàn)證實(shí)驗(yàn)結(jié)果求均值得到．實(shí)驗(yàn)使用了gensim模塊訓(xùn)練詞向量，詞向量維度設(shè)置為200，位置嵌入矩陣維度為200，Bi-LSTM的隱藏層設(shè)為400，層數(shù)為1，卷積神經(jīng)網(wǎng)絡(luò)的卷積核大小分別為3、4、5．本文利用Adam優(yōu)化器，在G200eR2上訓(xùn)練模型，每次學(xué)習(xí)64條數(shù)據(jù)，學(xué)習(xí)率設(shè)置為0.0001．

3.2 對(duì)比模型

本文選取了近年的情感原因抽取模型進(jìn)行對(duì)比，對(duì)比模型的具體信息如下：

● RB 是一種基于語(yǔ)言規(guī)則的情感原因分析模型[4]．

● CB 是一個(gè)基于知識(shí)的方法[17]．

● RB+CB 是一個(gè)聯(lián)合RB和CB的方法．

● RB+CB+SVM 是一個(gè)結(jié)合了規(guī)則和知識(shí)的基于SVM的方法[14]．

● Multi-kernel 是一個(gè)基于多核的情感原因抽取方法[13]．

● CNN 是一個(gè)基于卷積神經(jīng)網(wǎng)絡(luò)的方法[24]．

● Memnet 是一個(gè)將情感原因抽取任務(wù)看做一個(gè)問(wèn)答問(wèn)題中閱讀理解任務(wù)神經(jīng)網(wǎng)絡(luò)模型[20]．

● CANN 是一個(gè)有上下文感知的聯(lián)合注意力神經(jīng)網(wǎng)絡(luò)模型[8]．

● HCS 是一個(gè)基于CNN和RNN的層次神經(jīng)網(wǎng)絡(luò)模型[11]．

● RTHN是一個(gè)基于RNN和transformer的層次網(wǎng)絡(luò)模型[9]．

● MANN是一個(gè)帶有上下文感知的多注意力神經(jīng)網(wǎng)絡(luò)模型[15]．

● COMV 是一個(gè)帶有上下文感知的多視圖神經(jīng)網(wǎng)絡(luò)模型[10]．

3.3 實(shí)驗(yàn)結(jié)果分析

如表4所示，基于深度學(xué)習(xí)技術(shù)的方法整體上要優(yōu)于傳統(tǒng)方法，體現(xiàn)出深度學(xué)習(xí)方法強(qiáng)大特征抽取能力．在傳統(tǒng)方法中，Multi-kernel模型由于其多核的設(shè)置，明顯優(yōu)于其他方法，能夠抽取更多的文本特征．RTHN模型考慮了文檔中全局子句之間的關(guān)系，與除了COMV以外的模型相比，R和F均有較好的提升．模型COMV由于考慮了文檔中子句的上下文信息，使得整體指標(biāo)明顯優(yōu)于其他模型，提升了1%左右，說(shuō)明了每個(gè)子句的特征與其上下文有著緊密的聯(lián)系．MANN模型使用互注意力機(jī)制，考慮了情感描述子句和情感原因子句的關(guān)系，而在查全率R上優(yōu)于其他模型，提升了2%左右．

表4 模型結(jié)果對(duì)比Tab.4 Comparison of model results

從表4中可以看出，本文提出的子句級(jí)自注意力神經(jīng)網(wǎng)絡(luò)模型(SANN)，在查全率R上有明顯提升，達(dá)到了0.8383，而查準(zhǔn)率P有小幅度下降，F(xiàn)分?jǐn)?shù)與其他模型相比，略有提升．經(jīng)分析，本文所提出的模型一方面利用子注意力機(jī)制，結(jié)合位置特征學(xué)習(xí)了情感描述子句和情感原因子句之間的語(yǔ)義關(guān)系，能更好的抽取情感原因子句的特征；另一方面，還考慮了情感原因子句的上下文特征，從而更加凸顯情感原因子句的語(yǔ)義特性，使得模型可以更好的辨別情感原因子句和其他子句的差異，使模型有更好的查全率R．

3.4 多頭注意力參數(shù)分析

在Transformer原始結(jié)構(gòu)中，自注意力計(jì)算可以進(jìn)行多頭的并行計(jì)算，從而獲得詞在不同子空間的語(yǔ)義，從而獲得更好的注意力表示．因此，本文對(duì)子句級(jí)的自注意力的有效性也進(jìn)行了驗(yàn)證．

從表5可以看出，在有子句級(jí)別的自注意力時(shí)，模型的查全率R和F分?jǐn)?shù)明顯高于沒有自注意力的情況．另一方面，模型各個(gè)性能指標(biāo)并沒有隨著head的數(shù)量的增加而有明顯的變化，只有微弱的浮動(dòng)，說(shuō)明在本文的模型中，多頭注意力只學(xué)習(xí)了有限的情感原因子句和情感描述子句之間的語(yǔ)義關(guān)系．

表5 多頭注意力的結(jié)果Tab.5 Results of multi-head attention

3.5 位置特征

為了驗(yàn)證位置特征抽取網(wǎng)絡(luò)的有效性，本文進(jìn)行了在沒有位置特征情況下的試驗(yàn)，實(shí)驗(yàn)結(jié)果如表6所示．從表6可以看出，在沒有位置特征的情況下，模型的各個(gè)性能指標(biāo)均發(fā)生了明顯的下降，達(dá)到25%左右．實(shí)驗(yàn)結(jié)果表明，位置特征對(duì)自注意力網(wǎng)絡(luò)學(xué)習(xí)情感原因子句和情感描述子句之間的語(yǔ)義特征十分重要；本文提出的位置特征抽取網(wǎng)絡(luò)能夠有效學(xué)習(xí)到子句的位置特征．

表6 位置特征比結(jié)果Tab.6 Comparison of location features

3.6 超參數(shù)分析

為了找到模型的最優(yōu)超參數(shù)設(shè)置，本文進(jìn)一步分析了不同超參數(shù)對(duì)模型收斂速度和各個(gè)性能指標(biāo)的影響．

如圖7展示的是模型收斂的速度與批數(shù)據(jù)大小的關(guān)系，從圖中可以看出，模型在訓(xùn)練70輪左右時(shí)，模型基本收斂，批處理數(shù)據(jù)越小，模型收斂的速度越快．在批處理大小為16時(shí)，模型收斂得最快，同時(shí)，隨著批處理數(shù)據(jù)越大，模型收斂的速度越快．但是，在尋找最優(yōu)值時(shí)，批處理數(shù)據(jù)越小，越容易在最優(yōu)值附近波動(dòng)，使得模型不容易找到最優(yōu)收斂值，相反，批處理數(shù)據(jù)偏大，模型收斂慢，但是容易找到最優(yōu)值．

圖7 模型收斂與批大小關(guān)系Fig.7 Relationship between model convergence and batch size

圖8展示了詞向量的維度與模型各性能指標(biāo)的實(shí)驗(yàn)結(jié)果．從圖中可以看出，在詞向量維度為200的情況下，模型的整體性能最好，最高的查全率R為0.8383．雖然不同維度的詞向量對(duì)模型的性能有一定的影響，但各性能指標(biāo)差異在1%以內(nèi)．

圖8 詞向量維度對(duì)模型性能的影響Fig.8 Influence of word vector dimension on model performance

4 結(jié)語(yǔ)

為了更好地抽取情感原因子句和情感描述子句之間的語(yǔ)義關(guān)系，本文提出了一個(gè)基于子句的自注意力機(jī)制的情感原因抽取方法．首先利用雙向長(zhǎng)短期記憶網(wǎng)絡(luò)編碼情感原因子句和情感描述子句信息，然后利用自注意力機(jī)制，融入位置特征的去抽取情感原因子句和情感描述子句之間的語(yǔ)義關(guān)系，最后結(jié)合卷積神經(jīng)網(wǎng)絡(luò)提取的子句上下文局部特征，去識(shí)別情感原因子句．實(shí)驗(yàn)結(jié)果表明，本文提出的方法能夠有效學(xué)習(xí)情感原因子句和情感描述子句之間的關(guān)聯(lián)特征，從而有效識(shí)別原因子句，使得模型的查全率R明顯優(yōu)于其他神經(jīng)網(wǎng)絡(luò)模型．

在未來(lái)工作中，將嘗試引入預(yù)訓(xùn)練語(yǔ)言模型，在抽取情感原因子句的同時(shí)，進(jìn)行情感的抽取，并進(jìn)一步探究情感原因子句的其它特征．