亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于多頭注意力門控卷積網(wǎng)絡(luò)的特定目標(biāo)情感分析

2022-04-18 12:36:00樊建聰

山東科技大學(xué)學(xué)報(bào)(自然科學(xué)版) 2022年2期

李浩，樊建聰,2

(1.山東科技大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院，山東青島 266590； 2.山東省智慧礦山信息技術(shù)重點(diǎn)實(shí)驗(yàn)室，山東青島 266590)

近年來(lái)，隨著互聯(lián)網(wǎng)的快速發(fā)展，越來(lái)越多帶有情感的信息發(fā)布在社交媒體上，如對(duì)商品的評(píng)論、熱門事件的觀點(diǎn)、政治事件等。情感分析是從給定的主觀性文本中挖掘有用信息的過(guò)程，這些信息能夠反映人們對(duì)于商品的態(tài)度、熱點(diǎn)事件的思考、政策的傾向等。文本情感分析[1]是自然語(yǔ)言處理領(lǐng)域中的一個(gè)重要研究方向，在輿情分析、意見(jiàn)挖掘[2]等應(yīng)用領(lǐng)域中發(fā)揮著重要作用。

傳統(tǒng)的情感分析方法主要包括基于詞典的方法[3]和基于機(jī)器學(xué)習(xí)的方法。基于詞典的方法主要依靠情感詞典[4]，分類效果取決于構(gòu)建的情感詞典的質(zhì)量和輸入規(guī)則。基于機(jī)器學(xué)習(xí)的方法包括有監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)方法，有監(jiān)督學(xué)習(xí)方法必須有大量標(biāo)注的數(shù)據(jù)，耗費(fèi)人工成本；無(wú)監(jiān)督學(xué)習(xí)方法以聚類方法和隱含狄利克雷分配(latent dirichlet allocation，LDA)為主，不需要人工標(biāo)注數(shù)據(jù)，但在處理復(fù)雜問(wèn)題時(shí)準(zhǔn)確率不如前者好。近幾年隨著神經(jīng)網(wǎng)絡(luò)技術(shù)的快速發(fā)展，循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network，RNN)和卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network，CNN)在自然語(yǔ)言處理領(lǐng)域得到廣泛應(yīng)用。Kim等[5]利用CNN解決了文本分類問(wèn)題；Cho等[6]使用RNN構(gòu)建Encoder-Decoder模型，更好地學(xué)習(xí)到序列的語(yǔ)義信息和語(yǔ)法信息。早期基于RNN模型的特定目標(biāo)情感分析主要是利用RNN來(lái)獲得句子的上下文語(yǔ)義信息，如Tang等[7]提出的目標(biāo)依賴的長(zhǎng)短期記憶網(wǎng)絡(luò)(target dependent long short-term memory，TD-LSTM)模型，Wang等[8]提出的帶有目標(biāo)嵌入的注意力長(zhǎng)短期記憶網(wǎng)絡(luò)(attention-based LSTM with aspect embedding，ATAE-LSTM)模型等，但LSTM模型存在模型復(fù)雜、不能并行計(jì)算等問(wèn)題，在訓(xùn)練時(shí)需要大量的時(shí)間。盡管LSTM模型可以提取長(zhǎng)距離的上下文語(yǔ)義信息，但是對(duì)于含有多個(gè)目標(biāo)的文本目標(biāo)情感分析任務(wù)，局部特征對(duì)特定目標(biāo)分類結(jié)果的影響相對(duì)于全局特征更加重要。CNN通過(guò)不同的卷積核運(yùn)算獲取不同粒度的特征，在獲取句子的局部特征任務(wù)上具有獨(dú)特優(yōu)勢(shì)。

特定目標(biāo)情感分析[7](aspect-based sentiment analysis，ABSA)是對(duì)文本中特定目標(biāo)實(shí)體的情感極性進(jìn)行分類，是一項(xiàng)更細(xì)粒度的情感分析任務(wù)。例如，“這家酒店的服務(wù)很好，但是地理位置不容易找到，太偏了?！痹撐谋居小胺?wù)”和“地理位置”兩個(gè)目標(biāo)實(shí)體，目標(biāo)實(shí)體“服務(wù)”對(duì)應(yīng)的情感極性是積極的，而“地理位置”對(duì)應(yīng)的情感極性是消極的。因此，一個(gè)文本中多個(gè)不同的目標(biāo)實(shí)體可能存在相反的情感極性。在特定目標(biāo)情感分析中，如何獲取目標(biāo)實(shí)體與上下文的關(guān)系也是熱門研究?jī)?nèi)容。注意力機(jī)制通過(guò)一個(gè)注意力矩陣計(jì)算出句子相應(yīng)的注意力特征，在訓(xùn)練時(shí)重點(diǎn)關(guān)注某些信息，在實(shí)體識(shí)別、文本分類、機(jī)器翻譯等文本領(lǐng)域得到廣泛使用。梁斌等[9]利用多注意力的卷積神經(jīng)網(wǎng)絡(luò)獲取深層次的情感特征信息，有效識(shí)別目標(biāo)的情感極性。李明揚(yáng)等[10]融入自注意力機(jī)制對(duì)社交媒體命名實(shí)體識(shí)別任務(wù)做了改進(jìn)，通過(guò)不同子空間捕獲上下文信息來(lái)提高實(shí)體識(shí)別性能。然而，簡(jiǎn)單的注意力模型不善于捕獲上下文詞對(duì)目標(biāo)詞的影響程度。

本研究針對(duì)RNN對(duì)句子建模耗費(fèi)大量時(shí)間和無(wú)法獲取局部特征的問(wèn)題，采用帶有門控機(jī)制[11]的卷積神經(jīng)網(wǎng)絡(luò)獲取句子語(yǔ)義特征，摒棄RNN結(jié)構(gòu)，使用門控機(jī)制控制通過(guò)神經(jīng)網(wǎng)絡(luò)節(jié)點(diǎn)的信息，增強(qiáng)目標(biāo)特征的表達(dá)；為了更好地獲取上下文信息，本研究利用注意力機(jī)制構(gòu)建多頭注意力層，通過(guò)對(duì)文本信息特征進(jìn)一步表達(dá)，提取更多的信息，通過(guò)帶有門控操作的卷積神經(jīng)網(wǎng)絡(luò)，再經(jīng)過(guò)隱藏層處理，獲得目標(biāo)文本的情感極性判斷；為了彌補(bǔ)CNN在獲取文本序列信息方面的劣勢(shì)，在輸入層加入文本與目標(biāo)實(shí)體的相對(duì)位置編碼信息，增加文本的額外信息，提升特定目標(biāo)情感分析性能。

1 帶有位置嵌入的多頭注意力門控卷積網(wǎng)絡(luò)

1.1 問(wèn)題定義與模型架構(gòu)

首先，模型通過(guò)輸入層獲得文本嵌入矩陣、位置嵌入矩陣和目標(biāo)嵌入矩陣；然后，利用多頭注意力層對(duì)文本嵌入矩陣進(jìn)行深層次特征表達(dá)，在拼接位置信息后輸入到卷積層進(jìn)行局部特征提取，將提取到的特征與目標(biāo)信息融合，利用tanh門和relu門進(jìn)行對(duì)位相乘操作，控制信息傳遞；最后使用平均池化得到最終特征，輸出到Softmax分類器，完成目標(biāo)情感極性識(shí)別。

圖1 PE-MAGCN模型架構(gòu)

1.2 輸入層

輸入層包括文本嵌入(word embedding)、目標(biāo)嵌入(target embedding)和位置嵌入(position embedding)，目的在于獲得文本的表示矩陣。

文本嵌入是使用自然語(yǔ)言處理中的詞嵌入方法，將高維度one-hot編碼轉(zhuǎn)換為低維度的連續(xù)值向量來(lái)表達(dá)詞的語(yǔ)義信息。用文本嵌入矩陣S={w1,…,wi,…,wn}表示Sc經(jīng)過(guò)詞嵌入得到的實(shí)數(shù)矩陣，wi∈Rdw是第i個(gè)詞的實(shí)數(shù)值向量，其中dw是每個(gè)詞用向量表示的維度。

目標(biāo)嵌入是將目標(biāo)實(shí)體用連續(xù)值向量來(lái)表示，向量的維度與文本嵌入向量一致。目標(biāo)嵌入矩陣用T={wi,wi-1,…,wi+m-1}表示語(yǔ)料中標(biāo)注的實(shí)體。

(1)

1.3 多頭注意力層

受Transformer[12]結(jié)構(gòu)的啟發(fā)，本研究在輸入層和卷積層之間額外加入注意力層，運(yùn)用多頭自注意力機(jī)制來(lái)更好地表示目標(biāo)和句子的特征，通過(guò)使用縮放點(diǎn)積操作(scaled dot product attention，SDA)計(jì)算句子中上下文單詞的權(quán)重，得出每個(gè)單詞的注意力分?jǐn)?shù)，如式(2)～(4)所示。

(2)

Q,K,V=fx(X),

(3)

(4)

其中:X為輸入層的詞嵌入矩陣；Q、K、V分別表示Query、Key、Value由X乘以權(quán)重矩陣Wq∈Rdw×dq、Wk∈Rdw×dk、Wv∈Rdw×dv；dq、dk、dv表示權(quán)重矩陣的維度，均為dw/h；h為注意力頭的個(gè)數(shù)。

將所有頭學(xué)習(xí)到的注意力表示拼接后進(jìn)行矩陣轉(zhuǎn)換，多頭自注意力(multi-head self-attention，MHSA)矩陣

Xatt=MHSA(X)=tanh(H1:…:Hh}·W)。

(5)

其中：Xatt∈Rn×dw表示經(jīng)過(guò)注意力層后的詞向量矩陣；H1,…,Hh表示h個(gè)頭學(xué)習(xí)到的注意力表示；“:”表示所有向量拼接；W∈Rhdq×dw表示多頭注意力的權(quán)重矩陣；tanh(·)為非線性函數(shù)，作為激活函數(shù)加入，以增強(qiáng)網(wǎng)絡(luò)學(xué)習(xí)能力。

1.4 卷積層

本研究使用卷積層的窗口卷積來(lái)提取句子中的局部特征。窗口卷積使用單詞本身和上下文大小為窗口來(lái)進(jìn)行卷積操作，在超出邊界的句首或者句尾位置利用padding操作補(bǔ)齊，對(duì)上層得到的多頭自注意力矩陣Xatt進(jìn)行卷積運(yùn)算[13]，如式(6)所示。

ci=conv(w·xi+b)，

(6)

其中:ci∈Rdc為第i個(gè)卷積核運(yùn)算得出的結(jié)果;dc為模型結(jié)構(gòu)超參數(shù)，表示卷積層的輸出維度；conv(·)表示卷積運(yùn)算；w為卷積核權(quán)重；xi表示多頭自注意力矩陣Xatt的第i個(gè)向量，0≤i≤n；b為偏置向量。

1.5 門控層

門控層由帶有目標(biāo)嵌入的門控單元[14](gated tanh-relu unit，GTRU)組成，每個(gè)門控單元與兩個(gè)卷積神經(jīng)節(jié)點(diǎn)連接，其輸入為卷積層的輸出和特定目標(biāo)特征向量，如式(7)～(9)所示。

gi=si×αi，

(7)

αi=relu(Wα·ci+Vα·vα+bα)，

(8)

si=tanh(Ws·ci+bs)。

(9)

其中:vα表示經(jīng)過(guò)卷積操作后的目標(biāo)特征向量，Vα表示目標(biāo)特征向量的權(quán)重矩陣，向量αi的元素∈(0,1)表示經(jīng)過(guò)relu門后接收的目標(biāo)信息比例，Ws、Wα分別表示tanh門和relu門的權(quán)重矩陣，bs、bα分別表示tanh門和relu門的偏置向量，αi、si、gi與ci的大小一致，0≤i≤n。

1.6 輸出層

輸出層包含平均池化層和分類器，門控層得到的向量ci按順序拼接為矩陣C，先經(jīng)過(guò)平均池化操作得出主要特征向量r，降低模型的參數(shù)和運(yùn)行時(shí)間，再經(jīng)過(guò)Softmax分類器得到特定目標(biāo)的情感極性。

r=Avg{C}，

(10)

y=Softmax(W·r+b)。

(11)

其中：Avg函數(shù)表示平均池化操作；Softmax輸出最終特征，得到不同類別的概率；y為一個(gè)3維的向量，分別表示3個(gè)類別的概率。

1.7 模型訓(xùn)練

為了預(yù)測(cè)目標(biāo)極性，需要在預(yù)測(cè)前對(duì)模型進(jìn)行訓(xùn)練。使用交叉熵和L2正則化作為模型的損失函數(shù)，使用梯度下降法來(lái)最小化損失函數(shù)

(12)

PE-MAGCN模型的訓(xùn)練過(guò)程如算法1所示。輸入包括使用Glove得到的文本嵌入矩陣X和目標(biāo)嵌入矩陣T，使用建模方法得到的位置嵌入矩陣L。首先，使用(0,1)范圍內(nèi)的隨機(jī)數(shù)對(duì)模型中的權(quán)重矩陣進(jìn)行初始化(第1行)，設(shè)置模型超參數(shù)和劃分?jǐn)?shù)據(jù)集。然后，多次迭代學(xué)習(xí)直到模型擬合(第2～7行)。具體是使用前向傳播計(jì)算模型的損失函數(shù)，依據(jù)梯度下降法更新模型中的權(quán)重變量。最后，輸出測(cè)試集的結(jié)果。

算法1 PE-MAGCN模型的訓(xùn)練算法Input:文本嵌入矩陣X,目標(biāo)嵌入矩陣T,位置嵌入矩陣LOutput:測(cè)試數(shù)據(jù)集結(jié)果1) 隨機(jī)初始化模型參數(shù),設(shè)置超參數(shù),劃分?jǐn)?shù)據(jù)集;2) while i <= epoch do:3) 使用公式(2)～(11)計(jì)算輸出值ypre;4) err←ypre-y;5) 計(jì)算神經(jīng)元總誤差loss;6) if loss≤delta:break;7) 計(jì)算梯度誤差,使用梯度下降算法反向更新參數(shù);8)end while9)輸出測(cè)試集結(jié)果;10) 計(jì)算準(zhǔn)確率和F1值。

模型訓(xùn)練主要的計(jì)算成本是前向傳播，評(píng)估模型的函數(shù)和計(jì)算梯度誤差，使用梯度下降算法更新參數(shù)。句子、特定目標(biāo)以及目標(biāo)情感極性為一條數(shù)據(jù)，在前向傳播過(guò)程中，一條數(shù)據(jù)分別經(jīng)過(guò)輸入層、多頭注意力層、卷積層、門控層，最終達(dá)到輸出層，時(shí)間復(fù)雜度為O(1)，語(yǔ)料中共有N條數(shù)據(jù)，故前向傳播的時(shí)間復(fù)雜度為O(N)。評(píng)估模型loss函數(shù)需要用到所有的樣本標(biāo)簽和預(yù)測(cè)標(biāo)簽，時(shí)間復(fù)雜度為O(N)。計(jì)算梯度誤差是對(duì)網(wǎng)絡(luò)中的參數(shù)求梯度，然后使用梯度下降法更新參數(shù)，時(shí)間復(fù)雜度為O(N)。因此，模型訓(xùn)練一次迭代的時(shí)間復(fù)雜度為O(N)。

本模型針對(duì)RNN存在的問(wèn)題，采用了卷積網(wǎng)絡(luò)結(jié)構(gòu)獲取文本局部特征，引入多頭注意力機(jī)制對(duì)文本嵌入特征進(jìn)行處理，增強(qiáng)網(wǎng)絡(luò)特征表達(dá)能力；增加位置嵌入矩陣，考慮了文本和目標(biāo)的相對(duì)位置信息，通過(guò)對(duì)位置建模和訓(xùn)練，反映不同單詞對(duì)目標(biāo)實(shí)體的貢獻(xiàn)程度，在卷積網(wǎng)絡(luò)層后加入門控層，控制信息在網(wǎng)絡(luò)中的傳遞，獲取與目標(biāo)實(shí)體更相關(guān)的特征。

2 實(shí)驗(yàn)與結(jié)果分析

為了驗(yàn)證本模型的文本情感分類性能，在2個(gè)不同領(lǐng)域的數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)，并與8個(gè)模型進(jìn)行對(duì)比。實(shí)驗(yàn)環(huán)境：操作系統(tǒng)為Windows 10 64位，處理器為AMD Ryzen5 2600，內(nèi)存16 GB，顯存為GTX2060 6 GB，開(kāi)發(fā)語(yǔ)言是Python 3.6，采用的深度學(xué)習(xí)框架為Pytorch 1.50。

2.1 實(shí)驗(yàn)數(shù)據(jù)集

選取英文SemEval 2014數(shù)據(jù)集(http:∥alt. qcri. org/semeval2014/)，數(shù)據(jù)集包括restaurant領(lǐng)域和laptop領(lǐng)域的評(píng)論數(shù)據(jù)。每個(gè)評(píng)論樣本分為positive、neural和negative 3類情感傾向。數(shù)據(jù)集的統(tǒng)計(jì)情況如表1所示。

表1 SemEval 2014數(shù)據(jù)集

2.2 實(shí)驗(yàn)參數(shù)設(shè)置

使用多種窗口卷積核對(duì)輸入矩陣進(jìn)行卷積操作，訓(xùn)練過(guò)程中使用Adadelta[15]更新規(guī)則，其他參數(shù)如表2所示。

2.3 對(duì)比實(shí)驗(yàn)

為了驗(yàn)證本模型性能，在上述數(shù)據(jù)集上設(shè)置多個(gè)基準(zhǔn)模型進(jìn)行對(duì)比實(shí)驗(yàn)，具體基準(zhǔn)模型如下。

1) 目標(biāo)依賴的長(zhǎng)短期記憶網(wǎng)絡(luò)[7](TD-LSTM)：利用兩層目標(biāo)依賴的LSTM來(lái)預(yù)測(cè)情感極性。

2) 帶有目標(biāo)嵌入的注意力長(zhǎng)短期記憶網(wǎng)絡(luò)[8](AEAT-LSTM)：使用LSTM模型來(lái)獲取全文序列信息，融合了注意力機(jī)制和實(shí)體嵌入，通過(guò)學(xué)習(xí)上下文和目標(biāo)之間的信息來(lái)提高分類效果。

表2 實(shí)驗(yàn)參數(shù)設(shè)置

3) 文本卷積神經(jīng)網(wǎng)絡(luò)(text comvolutional neural network，TextCNN)：Kim等[5]提出的一種針對(duì)NLP任務(wù)的卷積神經(jīng)網(wǎng)絡(luò)模型。

4) 帶有目標(biāo)嵌入的門控卷積網(wǎng)絡(luò)[14](gated convolutional network with aspect embedding，GCAE)：通過(guò)卷積層構(gòu)建目標(biāo)和情感信息，并且使用門控單元控制信息的傳遞，經(jīng)過(guò)最大池化層后預(yù)測(cè)情感極性。

5) 交互注意力網(wǎng)絡(luò)[16](interactive attention network，IAN)：利用注意力機(jī)制對(duì)實(shí)體和上下文之間關(guān)系進(jìn)行建模，關(guān)注目標(biāo)和上下文之間的表示，融合后再作為最終表示。

6) 記憶網(wǎng)絡(luò)[17](memory network，MemNet)：包含多層權(quán)重共享的計(jì)算層，每層包含一個(gè)注意力層和全連接層，通過(guò)多層計(jì)算后輸出到分類層。

7) 注意力編碼網(wǎng)絡(luò)(attention encoder network，AEN)：利用注意力機(jī)制來(lái)對(duì)上下文和特定目標(biāo)進(jìn)行編碼，放棄循環(huán)神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)來(lái)提取句子特征，交互式學(xué)習(xí)上下文和目標(biāo)的表示。

8) 包含句法依存信息的記憶網(wǎng)絡(luò)[18](MenNet with syntactic dependency information，MNSI)：在原始MemNet的基礎(chǔ)上，利用卷積神經(jīng)網(wǎng)絡(luò)和多頭注意力機(jī)制融合句法依存信息。

2.4 實(shí)驗(yàn)結(jié)果及分析

為了驗(yàn)證模型的性能，本模型與其他基準(zhǔn)模型在相同環(huán)境下運(yùn)行，各個(gè)模型的準(zhǔn)確率和F1值的結(jié)果如表3所示。

表3 各個(gè)模型的準(zhǔn)確率和F1值對(duì)比

從表3看出，與基準(zhǔn)模型相比，本研究模型在兩個(gè)數(shù)據(jù)集中有一定效果的提升。從模型的類型來(lái)看，使用循環(huán)神經(jīng)網(wǎng)絡(luò)的模型效果并不夠理想，效果最差的模型是TD-LSTM模型，原因在于TD-LSTM模型只是簡(jiǎn)單地處理目標(biāo)詞，無(wú)法準(zhǔn)確地識(shí)別文本信息的特征，因此模型的準(zhǔn)確率和F1值較低。ATAE-LSTM模型在循環(huán)神經(jīng)網(wǎng)絡(luò)后加入注意力機(jī)制和目標(biāo)實(shí)體嵌入信息，在效果上優(yōu)于TD-LSTM模型?；贚STM的兩個(gè)模型結(jié)構(gòu)效果都不理想，原因在于雖然LSTM網(wǎng)絡(luò)能夠得到文本的序列信息，但是容易丟失信息，忽略目標(biāo)與上下文之間的相關(guān)性信息。

由于CNN可以獲取文本的局部信息特征，準(zhǔn)確率和F1值好于基礎(chǔ)的TD-LSTM模型。然而Text-CNN模型表現(xiàn)卻不好，因?yàn)門extCNN模型不是專門針對(duì)特定目標(biāo)的模型，沒(méi)有融合目標(biāo)信息，導(dǎo)致輸出的特征多為文本本身的特征，而并非目標(biāo)相關(guān)的特征。GCAE模型由于存在門控機(jī)制，可以控制信息的傳遞，并且將目標(biāo)嵌入到網(wǎng)絡(luò)模型中，增強(qiáng)了模型的信息獲取能力，表現(xiàn)優(yōu)于TextCNN模型，且比循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)模型的效果好，說(shuō)明門控機(jī)制的存在能夠一定程度改善目標(biāo)特征選擇的問(wèn)題。MNSI模型利用圖卷積結(jié)構(gòu)，在訓(xùn)練中通過(guò)節(jié)點(diǎn)的距離改變節(jié)點(diǎn)狀態(tài)，控制層與層之間的信息傳遞，增加了句法依存分析樹(shù)，轉(zhuǎn)換句子句法依存信息，消除目標(biāo)詞多義產(chǎn)生的錯(cuò)誤結(jié)果，結(jié)果上優(yōu)于TextCNN和GCAE模型。

在注意力機(jī)制的模型中，IAN模型表現(xiàn)一般，在獲取目標(biāo)詞與上下文單詞之間關(guān)系時(shí)，只是簡(jiǎn)單地交互學(xué)習(xí)注意力信息。MenNet模型通過(guò)多個(gè)計(jì)算層獲取語(yǔ)義信息得到最后的文本表示，而且文本表示本質(zhì)上為文本嵌入的非線性表示，模型效果優(yōu)于IAN模型。AEN模型在三個(gè)注意力機(jī)制模型中表現(xiàn)最優(yōu)，說(shuō)明多頭注意力交互的有效性，避免了網(wǎng)絡(luò)遞歸計(jì)算，但整體性能相對(duì)于本研究模型還存在一定差距。

2.5 消融實(shí)驗(yàn)分析

為了進(jìn)一步分析模型各部分對(duì)性能的影響程度，使用Laptop數(shù)據(jù)集進(jìn)行消融實(shí)驗(yàn)，各個(gè)模型的參數(shù)值相同，結(jié)果如表4所示。

表4 消融實(shí)驗(yàn)結(jié)果

表4給出的實(shí)驗(yàn)結(jié)果中，從acc和F1值兩個(gè)指標(biāo)可以看到，消融后的模型在準(zhǔn)確率和F1值兩方面效果均不如提出的模型，表明模型改善的部分在提高分類性能發(fā)揮著積極的作用。通過(guò)對(duì)比無(wú)門控機(jī)制模型(PE-MACN)和本研究模型(PE-MAGCN)結(jié)果，能夠發(fā)現(xiàn)存在門控機(jī)制的模型準(zhǔn)確率提高了0.37%，F(xiàn)1值提高了0.9%，表明門控機(jī)制在控制信息傳遞方面發(fā)揮出積極作用。通過(guò)與無(wú)位置嵌入信息模型(MAGCN)對(duì)比，PE-MAGCN在Laptop數(shù)據(jù)集上的準(zhǔn)確率和F1值分別提升了0.24%和0.97%，表明位置嵌入信息能夠反映目標(biāo)和文本的相對(duì)位置，在訓(xùn)練過(guò)程中一定程度反映局部特征對(duì)目標(biāo)的貢獻(xiàn)程度。從表中可以看出，不添加注意力層的模型(PE-GCN)準(zhǔn)確率和F1值均小于無(wú)門控機(jī)制的模型和無(wú)位置嵌入信息的模型，本研究模型(PE-MAGCN)與之相比，準(zhǔn)確率提高了1.68%，F(xiàn)1值提高了1.3%，提高幅度最大，表明注意力機(jī)制能夠有效增強(qiáng)模型的特征表達(dá)能力。

2.6 模型復(fù)雜性分析

為了測(cè)試本研究模型與其他模型的復(fù)雜性，在Laptop數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)，迭代次數(shù)設(shè)置為20，學(xué)習(xí)率為0.01，batchsize設(shè)置為64，記錄每次epoch所需時(shí)間、模型達(dá)到收斂所消耗的時(shí)間以及模型的參數(shù)數(shù)量。實(shí)驗(yàn)結(jié)果如表5所示。

由表5可以看出，PE-MAGCN模型的可訓(xùn)練參數(shù)數(shù)量為1.08×106個(gè)，少于由多層全連接層和注意力層構(gòu)成的MemNet模型和MNSI模型，這是由于模型結(jié)構(gòu)較為復(fù)雜，導(dǎo)致模型偏大。在迭代一次所需時(shí)間方面，模型要優(yōu)于ATAE-LSTM、MNSI、MenNet和IAN模型，次于TD-LSTM、TextCNN、GCAE、AEN。雖然上述模型的時(shí)間復(fù)雜度均為O(N)，但是由于模型內(nèi)部的結(jié)構(gòu)不同，實(shí)例消耗的時(shí)間也不同。

與注意力網(wǎng)絡(luò)MemNet和IAN模型相比，收斂時(shí)間降低了44.38和58.5 s，因?yàn)槟Ｐ娃饤壛搜h(huán)網(wǎng)絡(luò)結(jié)構(gòu)，模型訓(xùn)練時(shí)不會(huì)因?yàn)橛?jì)算目標(biāo)與上下文之間的注意力矩陣消耗較多時(shí)間。與循環(huán)網(wǎng)絡(luò)相比，參數(shù)數(shù)量高于TD-LSTM和ATAE-LSTM模型，迭代一次所消耗的時(shí)間為3.7 s，高于TD-LSTM迭代一次所需時(shí)間，原因在于TD-LSTM模型的結(jié)構(gòu)較為簡(jiǎn)單，訓(xùn)練一次所計(jì)算的參數(shù)較少。ATAE-LSTM模型在LSTM模型上加入全局注意力層，獲得隱藏層特征后再進(jìn)行注意力矩陣計(jì)算，消耗較多時(shí)間。而PE-MAGCN模型不使用LSTM結(jié)構(gòu)獲取特征，使用卷積單元獲取句子局部特征，因此時(shí)間少于ATAE-LSTM模型。與TextCNN、GCAE模型相比，PE-MAGCN模型的迭代一次所需時(shí)間分別增加了0.7和0.44 s，收斂時(shí)間增加了2.69和6.76 s，說(shuō)明加入多頭注意力層會(huì)增加訓(xùn)練時(shí)間，但與提高的分類準(zhǔn)確率相比，增加的時(shí)間代價(jià)可以接受。與MemNet、IAN模型相比，PE-MAGCN模型迭代一次的時(shí)間分別降低了3.74和5.58 s，收斂

表5 模型參數(shù)數(shù)量和模型訓(xùn)練時(shí)間對(duì)比

時(shí)間分別降低了44.38和58.5 s，說(shuō)明交互式注意力機(jī)制和LSTM模型的結(jié)構(gòu)會(huì)消耗較多的時(shí)間，時(shí)間復(fù)雜性較高。與AEN模型相比，PE-MAGCN模型迭代時(shí)間增加了0.2 s，收斂時(shí)間降低了7.27 s，這是因?yàn)锳EN模型使用注意編碼層替代了LSTM層，獲取輸入嵌入的隱藏狀態(tài)；使用點(diǎn)卷積獲取目標(biāo)語(yǔ)義相關(guān)，與本研究模型結(jié)構(gòu)相似，因此時(shí)間代價(jià)相差不大。與MNSI模型相比，PE-MAGCN模型的迭代時(shí)間降低了4.02 s，收斂時(shí)間降低了47.71 s，這是由于MNSI模型是在MenNet模型的基礎(chǔ)上又引入了句法依存關(guān)系并使用spacy工具包將句子轉(zhuǎn)換為句法依存樹(shù)。雖然轉(zhuǎn)換句法依存樹(shù)的時(shí)間復(fù)雜度也為O(N)，但是仍然消耗額外的轉(zhuǎn)換時(shí)間，在所有的對(duì)比模型中訓(xùn)練消耗的時(shí)間最高。PE-MAGCN模型使用多頭注意力機(jī)制獲取特征表達(dá)，利用門控卷積層控制信息的傳遞，能夠有效地表示目標(biāo)相關(guān)特征，收斂速度較快，獲得了較高的準(zhǔn)確率。

3 總結(jié)

針對(duì)循環(huán)神經(jīng)網(wǎng)絡(luò)在獲取句子特征時(shí)，容易造成信息丟失和較長(zhǎng)的訓(xùn)練時(shí)間，以及傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)不能很好獲取上下文信息的問(wèn)題，提出一種帶有位置嵌入的多頭注意力門控卷積網(wǎng)絡(luò)，完成特定目標(biāo)情感識(shí)別任務(wù)。本研究模型首先利用多頭注意力層獲取目標(biāo)和文本詞之間的語(yǔ)義交互信息，通過(guò)卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)獲取文本局部特征，利用門控機(jī)制控制信息傳遞，將與目標(biāo)相關(guān)的信息輸入到分類層。另外，為了獲取不同詞與目標(biāo)特征之間的距離信息，模型額外加入位置嵌入矩陣，增加了模型的信息獲取能力。通過(guò)對(duì)SemEval 2014數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)，驗(yàn)證了模型的有效性和實(shí)用性，準(zhǔn)確率和F1值在兩個(gè)數(shù)據(jù)集上都有提高。與其他基準(zhǔn)模型比較發(fā)現(xiàn)，本模型相較于循環(huán)網(wǎng)絡(luò)和注意力機(jī)制網(wǎng)絡(luò)，具有較快的收斂速度，可為特定目標(biāo)情感分析提供新的模型，但仍存在一些不足，如實(shí)驗(yàn)所用的數(shù)據(jù)集規(guī)模有限且模型參數(shù)數(shù)量較多，一定程度增加了模型的訓(xùn)練時(shí)間。后續(xù)將研究如何將現(xiàn)有的額外知識(shí)融入到神經(jīng)網(wǎng)絡(luò)中，在精簡(jiǎn)網(wǎng)絡(luò)模型結(jié)構(gòu)的同時(shí)增強(qiáng)模型的情感分析結(jié)果。