亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于多頭注意力門控卷積網(wǎng)絡(luò)的特定目標(biāo)情感分析

        2022-04-18 12:36:00樊建聰
        關(guān)鍵詞:注意力卷積神經(jīng)網(wǎng)絡(luò)

        李 浩,樊建聰,2

        (1.山東科技大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,山東 青島 266590; 2.山東省智慧礦山信息技術(shù)重點(diǎn)實(shí)驗(yàn)室,山東 青島 266590)

        近年來(lái),隨著互聯(lián)網(wǎng)的快速發(fā)展,越來(lái)越多帶有情感的信息發(fā)布在社交媒體上,如對(duì)商品的評(píng)論、熱門事件的觀點(diǎn)、政治事件等。情感分析是從給定的主觀性文本中挖掘有用信息的過(guò)程,這些信息能夠反映人們對(duì)于商品的態(tài)度、熱點(diǎn)事件的思考、政策的傾向等。文本情感分析[1]是自然語(yǔ)言處理領(lǐng)域中的一個(gè)重要研究方向,在輿情分析、意見(jiàn)挖掘[2]等應(yīng)用領(lǐng)域中發(fā)揮著重要作用。

        傳統(tǒng)的情感分析方法主要包括基于詞典的方法[3]和基于機(jī)器學(xué)習(xí)的方法。基于詞典的方法主要依靠情感詞典[4],分類效果取決于構(gòu)建的情感詞典的質(zhì)量和輸入規(guī)則。基于機(jī)器學(xué)習(xí)的方法包括有監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)方法,有監(jiān)督學(xué)習(xí)方法必須有大量標(biāo)注的數(shù)據(jù),耗費(fèi)人工成本;無(wú)監(jiān)督學(xué)習(xí)方法以聚類方法和隱含狄利克雷分配(latent dirichlet allocation,LDA)為主,不需要人工標(biāo)注數(shù)據(jù),但在處理復(fù)雜問(wèn)題時(shí)準(zhǔn)確率不如前者好。近幾年隨著神經(jīng)網(wǎng)絡(luò)技術(shù)的快速發(fā)展,循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)和卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)在自然語(yǔ)言處理領(lǐng)域得到廣泛應(yīng)用。Kim等[5]利用CNN解決了文本分類問(wèn)題;Cho等[6]使用RNN構(gòu)建Encoder-Decoder模型,更好地學(xué)習(xí)到序列的語(yǔ)義信息和語(yǔ)法信息。早期基于RNN模型的特定目標(biāo)情感分析主要是利用RNN來(lái)獲得句子的上下文語(yǔ)義信息,如Tang等[7]提出的目標(biāo)依賴的長(zhǎng)短期記憶網(wǎng)絡(luò)(target dependent long short-term memory,TD-LSTM)模型,Wang等[8]提出的帶有目標(biāo)嵌入的注意力長(zhǎng)短期記憶網(wǎng)絡(luò)(attention-based LSTM with aspect embedding,ATAE-LSTM)模型等,但LSTM模型存在模型復(fù)雜、不能并行計(jì)算等問(wèn)題,在訓(xùn)練時(shí)需要大量的時(shí)間。盡管LSTM模型可以提取長(zhǎng)距離的上下文語(yǔ)義信息,但是對(duì)于含有多個(gè)目標(biāo)的文本目標(biāo)情感分析任務(wù),局部特征對(duì)特定目標(biāo)分類結(jié)果的影響相對(duì)于全局特征更加重要。CNN通過(guò)不同的卷積核運(yùn)算獲取不同粒度的特征,在獲取句子的局部特征任務(wù)上具有獨(dú)特優(yōu)勢(shì)。

        特定目標(biāo)情感分析[7](aspect-based sentiment analysis,ABSA)是對(duì)文本中特定目標(biāo)實(shí)體的情感極性進(jìn)行分類,是一項(xiàng)更細(xì)粒度的情感分析任務(wù)。例如,“這家酒店的服務(wù)很好,但是地理位置不容易找到,太偏了?!痹撐谋居小胺?wù)”和“地理位置”兩個(gè)目標(biāo)實(shí)體,目標(biāo)實(shí)體“服務(wù)”對(duì)應(yīng)的情感極性是積極的,而“地理位置”對(duì)應(yīng)的情感極性是消極的。因此,一個(gè)文本中多個(gè)不同的目標(biāo)實(shí)體可能存在相反的情感極性。在特定目標(biāo)情感分析中,如何獲取目標(biāo)實(shí)體與上下文的關(guān)系也是熱門研究?jī)?nèi)容。注意力機(jī)制通過(guò)一個(gè)注意力矩陣計(jì)算出句子相應(yīng)的注意力特征,在訓(xùn)練時(shí)重點(diǎn)關(guān)注某些信息,在實(shí)體識(shí)別、文本分類、機(jī)器翻譯等文本領(lǐng)域得到廣泛使用。梁斌等[9]利用多注意力的卷積神經(jīng)網(wǎng)絡(luò)獲取深層次的情感特征信息,有效識(shí)別目標(biāo)的情感極性。李明揚(yáng)等[10]融入自注意力機(jī)制對(duì)社交媒體命名實(shí)體識(shí)別任務(wù)做了改進(jìn),通過(guò)不同子空間捕獲上下文信息來(lái)提高實(shí)體識(shí)別性能。然而,簡(jiǎn)單的注意力模型不善于捕獲上下文詞對(duì)目標(biāo)詞的影響程度。

        本研究針對(duì)RNN對(duì)句子建模耗費(fèi)大量時(shí)間和無(wú)法獲取局部特征的問(wèn)題,采用帶有門控機(jī)制[11]的卷積神經(jīng)網(wǎng)絡(luò)獲取句子語(yǔ)義特征,摒棄RNN結(jié)構(gòu),使用門控機(jī)制控制通過(guò)神經(jīng)網(wǎng)絡(luò)節(jié)點(diǎn)的信息,增強(qiáng)目標(biāo)特征的表達(dá);為了更好地獲取上下文信息,本研究利用注意力機(jī)制構(gòu)建多頭注意力層,通過(guò)對(duì)文本信息特征進(jìn)一步表達(dá),提取更多的信息,通過(guò)帶有門控操作的卷積神經(jīng)網(wǎng)絡(luò),再經(jīng)過(guò)隱藏層處理,獲得目標(biāo)文本的情感極性判斷;為了彌補(bǔ)CNN在獲取文本序列信息方面的劣勢(shì),在輸入層加入文本與目標(biāo)實(shí)體的相對(duì)位置編碼信息,增加文本的額外信息,提升特定目標(biāo)情感分析性能。

        1 帶有位置嵌入的多頭注意力門控卷積網(wǎng)絡(luò)

        1.1 問(wèn)題定義與模型架構(gòu)

        首先,模型通過(guò)輸入層獲得文本嵌入矩陣、位置嵌入矩陣和目標(biāo)嵌入矩陣;然后,利用多頭注意力層對(duì)文本嵌入矩陣進(jìn)行深層次特征表達(dá),在拼接位置信息后輸入到卷積層進(jìn)行局部特征提取,將提取到的特征與目標(biāo)信息融合,利用tanh門和relu門進(jìn)行對(duì)位相乘操作,控制信息傳遞;最后使用平均池化得到最終特征,輸出到Softmax分類器,完成目標(biāo)情感極性識(shí)別。

        圖1 PE-MAGCN模型架構(gòu)

        1.2 輸入層

        輸入層包括文本嵌入(word embedding)、目標(biāo)嵌入(target embedding)和位置嵌入(position embedding),目的在于獲得文本的表示矩陣。

        文本嵌入是使用自然語(yǔ)言處理中的詞嵌入方法,將高維度one-hot編碼轉(zhuǎn)換為低維度的連續(xù)值向量來(lái)表達(dá)詞的語(yǔ)義信息。用文本嵌入矩陣S={w1,…,wi,…,wn}表示Sc經(jīng)過(guò)詞嵌入得到的實(shí)數(shù)矩陣,wi∈Rdw是第i個(gè)詞的實(shí)數(shù)值向量,其中dw是每個(gè)詞用向量表示的維度。

        目標(biāo)嵌入是將目標(biāo)實(shí)體用連續(xù)值向量來(lái)表示,向量的維度與文本嵌入向量一致。目標(biāo)嵌入矩陣用T={wi,wi-1,…,wi+m-1}表示語(yǔ)料中標(biāo)注的實(shí)體。

        (1)

        1.3 多頭注意力層

        受Transformer[12]結(jié)構(gòu)的啟發(fā),本研究在輸入層和卷積層之間額外加入注意力層,運(yùn)用多頭自注意力機(jī)制來(lái)更好地表示目標(biāo)和句子的特征,通過(guò)使用縮放點(diǎn)積操作(scaled dot product attention,SDA)計(jì)算句子中上下文單詞的權(quán)重,得出每個(gè)單詞的注意力分?jǐn)?shù),如式(2)~(4)所示。

        (2)

        Q,K,V=fx(X),

        (3)

        (4)

        其中:X為輸入層的詞嵌入矩陣;Q、K、V分別表示Query、Key、Value由X乘以權(quán)重矩陣Wq∈Rdw×dq、Wk∈Rdw×dk、Wv∈Rdw×dv;dq、dk、dv表示權(quán)重矩陣的維度,均為dw/h;h為注意力頭的個(gè)數(shù)。

        將所有頭學(xué)習(xí)到的注意力表示拼接后進(jìn)行矩陣轉(zhuǎn)換,多頭自注意力(multi-head self-attention,MHSA)矩陣

        Xatt=MHSA(X)=tanh(H1:…:Hh}·W)。

        (5)

        其中:Xatt∈Rn×dw表示經(jīng)過(guò)注意力層后的詞向量矩陣;H1,…,Hh表示h個(gè)頭學(xué)習(xí)到的注意力表示;“:”表示所有向量拼接;W∈Rhdq×dw表示多頭注意力的權(quán)重矩陣;tanh(·)為非線性函數(shù),作為激活函數(shù)加入,以增強(qiáng)網(wǎng)絡(luò)學(xué)習(xí)能力。

        1.4 卷積層

        本研究使用卷積層的窗口卷積來(lái)提取句子中的局部特征。窗口卷積使用單詞本身和上下文大小為窗口來(lái)進(jìn)行卷積操作,在超出邊界的句首或者句尾位置利用padding操作補(bǔ)齊,對(duì)上層得到的多頭自注意力矩陣Xatt進(jìn)行卷積運(yùn)算[13],如式(6)所示。

        ci=conv(w·xi+b),

        (6)

        其中:ci∈Rdc為第i個(gè)卷積核運(yùn)算得出的結(jié)果;dc為模型結(jié)構(gòu)超參數(shù),表示卷積層的輸出維度;conv(·)表示卷積運(yùn)算;w為卷積核權(quán)重;xi表示多頭自注意力矩陣Xatt的第i個(gè)向量,0≤i≤n;b為偏置向量。

        1.5 門控層

        門控層由帶有目標(biāo)嵌入的門控單元[14](gated tanh-relu unit,GTRU)組成,每個(gè)門控單元與兩個(gè)卷積神經(jīng)節(jié)點(diǎn)連接,其輸入為卷積層的輸出和特定目標(biāo)特征向量,如式(7)~(9)所示。

        gi=si×αi,

        (7)

        αi=relu(Wα·ci+Vα·vα+bα),

        (8)

        si=tanh(Ws·ci+bs)。

        (9)

        其中:vα表示經(jīng)過(guò)卷積操作后的目標(biāo)特征向量,Vα表示目標(biāo)特征向量的權(quán)重矩陣,向量αi的元素∈(0,1)表示經(jīng)過(guò)relu門后接收的目標(biāo)信息比例,Ws、Wα分別表示tanh門和relu門的權(quán)重矩陣,bs、bα分別表示tanh門和relu門的偏置向量,αi、si、gi與ci的大小一致,0≤i≤n。

        1.6 輸出層

        輸出層包含平均池化層和分類器,門控層得到的向量ci按順序拼接為矩陣C,先經(jīng)過(guò)平均池化操作得出主要特征向量r,降低模型的參數(shù)和運(yùn)行時(shí)間,再經(jīng)過(guò)Softmax分類器得到特定目標(biāo)的情感極性。

        r=Avg{C},

        (10)

        y=Softmax(W·r+b)。

        (11)

        其中:Avg函數(shù)表示平均池化操作;Softmax輸出最終特征,得到不同類別的概率;y為一個(gè)3維的向量,分別表示3個(gè)類別的概率。

        1.7 模型訓(xùn)練

        為了預(yù)測(cè)目標(biāo)極性,需要在預(yù)測(cè)前對(duì)模型進(jìn)行訓(xùn)練。使用交叉熵和L2正則化作為模型的損失函數(shù),使用梯度下降法來(lái)最小化損失函數(shù)

        (12)

        PE-MAGCN模型的訓(xùn)練過(guò)程如算法1所示。輸入包括使用Glove得到的文本嵌入矩陣X和目標(biāo)嵌入矩陣T,使用建模方法得到的位置嵌入矩陣L。首先,使用(0,1)范圍內(nèi)的隨機(jī)數(shù)對(duì)模型中的權(quán)重矩陣進(jìn)行初始化(第1行),設(shè)置模型超參數(shù)和劃分?jǐn)?shù)據(jù)集。然后,多次迭代學(xué)習(xí)直到模型擬合(第2~7行)。具體是使用前向傳播計(jì)算模型的損失函數(shù),依據(jù)梯度下降法更新模型中的權(quán)重變量。最后,輸出測(cè)試集的結(jié)果。

        算法1 PE-MAGCN模型的訓(xùn)練算法Input:文本嵌入矩陣X,目標(biāo)嵌入矩陣T,位置嵌入矩陣LOutput:測(cè)試數(shù)據(jù)集結(jié)果1) 隨機(jī)初始化模型參數(shù),設(shè)置超參數(shù),劃分?jǐn)?shù)據(jù)集;2) while i <= epoch do:3) 使用公式(2)~(11)計(jì)算輸出值ypre;4) err←ypre-y;5) 計(jì)算神經(jīng)元總誤差loss;6) if loss≤delta:break;7) 計(jì)算梯度誤差,使用梯度下降算法反向更新參數(shù);8)end while9)輸出測(cè)試集結(jié)果;10) 計(jì)算準(zhǔn)確率和F1值。

        模型訓(xùn)練主要的計(jì)算成本是前向傳播,評(píng)估模型的函數(shù)和計(jì)算梯度誤差,使用梯度下降算法更新參數(shù)。句子、特定目標(biāo)以及目標(biāo)情感極性為一條數(shù)據(jù),在前向傳播過(guò)程中,一條數(shù)據(jù)分別經(jīng)過(guò)輸入層、多頭注意力層、卷積層、門控層,最終達(dá)到輸出層,時(shí)間復(fù)雜度為O(1),語(yǔ)料中共有N條數(shù)據(jù),故前向傳播的時(shí)間復(fù)雜度為O(N)。評(píng)估模型loss函數(shù)需要用到所有的樣本標(biāo)簽和預(yù)測(cè)標(biāo)簽,時(shí)間復(fù)雜度為O(N)。計(jì)算梯度誤差是對(duì)網(wǎng)絡(luò)中的參數(shù)求梯度,然后使用梯度下降法更新參數(shù),時(shí)間復(fù)雜度為O(N)。因此,模型訓(xùn)練一次迭代的時(shí)間復(fù)雜度為O(N)。

        本模型針對(duì)RNN存在的問(wèn)題,采用了卷積網(wǎng)絡(luò)結(jié)構(gòu)獲取文本局部特征,引入多頭注意力機(jī)制對(duì)文本嵌入特征進(jìn)行處理,增強(qiáng)網(wǎng)絡(luò)特征表達(dá)能力;增加位置嵌入矩陣,考慮了文本和目標(biāo)的相對(duì)位置信息,通過(guò)對(duì)位置建模和訓(xùn)練,反映不同單詞對(duì)目標(biāo)實(shí)體的貢獻(xiàn)程度,在卷積網(wǎng)絡(luò)層后加入門控層,控制信息在網(wǎng)絡(luò)中的傳遞,獲取與目標(biāo)實(shí)體更相關(guān)的特征。

        2 實(shí)驗(yàn)與結(jié)果分析

        為了驗(yàn)證本模型的文本情感分類性能,在2個(gè)不同領(lǐng)域的數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),并與8個(gè)模型進(jìn)行對(duì)比。實(shí)驗(yàn)環(huán)境:操作系統(tǒng)為Windows 10 64位,處理器為AMD Ryzen5 2600,內(nèi)存16 GB,顯存為GTX2060 6 GB,開(kāi)發(fā)語(yǔ)言是Python 3.6,采用的深度學(xué)習(xí)框架為Pytorch 1.50。

        2.1 實(shí)驗(yàn)數(shù)據(jù)集

        選取英文SemEval 2014數(shù)據(jù)集(http:∥alt. qcri. org/semeval2014/),數(shù)據(jù)集包括restaurant領(lǐng)域和laptop領(lǐng)域的評(píng)論數(shù)據(jù)。每個(gè)評(píng)論樣本分為positive、neural和negative 3類情感傾向。數(shù)據(jù)集的統(tǒng)計(jì)情況如表1所示。

        表1 SemEval 2014數(shù)據(jù)集

        2.2 實(shí)驗(yàn)參數(shù)設(shè)置

        使用多種窗口卷積核對(duì)輸入矩陣進(jìn)行卷積操作,訓(xùn)練過(guò)程中使用Adadelta[15]更新規(guī)則,其他參數(shù)如表2所示。

        2.3 對(duì)比實(shí)驗(yàn)

        為了驗(yàn)證本模型性能,在上述數(shù)據(jù)集上設(shè)置多個(gè)基準(zhǔn)模型進(jìn)行對(duì)比實(shí)驗(yàn),具體基準(zhǔn)模型如下。

        1) 目標(biāo)依賴的長(zhǎng)短期記憶網(wǎng)絡(luò)[7](TD-LSTM):利用兩層目標(biāo)依賴的LSTM來(lái)預(yù)測(cè)情感極性。

        2) 帶有目標(biāo)嵌入的注意力長(zhǎng)短期記憶網(wǎng)絡(luò)[8](AEAT-LSTM):使用LSTM模型來(lái)獲取全文序列信息,融合了注意力機(jī)制和實(shí)體嵌入,通過(guò)學(xué)習(xí)上下文和目標(biāo)之間的信息來(lái)提高分類效果。

        表2 實(shí)驗(yàn)參數(shù)設(shè)置

        3) 文本卷積神經(jīng)網(wǎng)絡(luò)(text comvolutional neural network,TextCNN):Kim等[5]提出的一種針對(duì)NLP任務(wù)的卷積神經(jīng)網(wǎng)絡(luò)模型。

        4) 帶有目標(biāo)嵌入的門控卷積網(wǎng)絡(luò)[14](gated convolutional network with aspect embedding,GCAE):通過(guò)卷積層構(gòu)建目標(biāo)和情感信息,并且使用門控單元控制信息的傳遞,經(jīng)過(guò)最大池化層后預(yù)測(cè)情感極性。

        5) 交互注意力網(wǎng)絡(luò)[16](interactive attention network,IAN):利用注意力機(jī)制對(duì)實(shí)體和上下文之間關(guān)系進(jìn)行建模,關(guān)注目標(biāo)和上下文之間的表示,融合后再作為最終表示。

        6) 記憶網(wǎng)絡(luò)[17](memory network,MemNet):包含多層權(quán)重共享的計(jì)算層,每層包含一個(gè)注意力層和全連接層,通過(guò)多層計(jì)算后輸出到分類層。

        7) 注意力編碼網(wǎng)絡(luò)(attention encoder network,AEN):利用注意力機(jī)制來(lái)對(duì)上下文和特定目標(biāo)進(jìn)行編碼,放棄循環(huán)神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)來(lái)提取句子特征,交互式學(xué)習(xí)上下文和目標(biāo)的表示。

        8) 包含句法依存信息的記憶網(wǎng)絡(luò)[18](MenNet with syntactic dependency information,MNSI):在原始MemNet的基礎(chǔ)上,利用卷積神經(jīng)網(wǎng)絡(luò)和多頭注意力機(jī)制融合句法依存信息。

        2.4 實(shí)驗(yàn)結(jié)果及分析

        為了驗(yàn)證模型的性能,本模型與其他基準(zhǔn)模型在相同環(huán)境下運(yùn)行,各個(gè)模型的準(zhǔn)確率和F1值的結(jié)果如表3所示。

        表3 各個(gè)模型的準(zhǔn)確率和F1值對(duì)比

        從表3看出,與基準(zhǔn)模型相比,本研究模型在兩個(gè)數(shù)據(jù)集中有一定效果的提升。從模型的類型來(lái)看,使用循環(huán)神經(jīng)網(wǎng)絡(luò)的模型效果并不夠理想,效果最差的模型是TD-LSTM模型,原因在于TD-LSTM模型只是簡(jiǎn)單地處理目標(biāo)詞,無(wú)法準(zhǔn)確地識(shí)別文本信息的特征,因此模型的準(zhǔn)確率和F1值較低。ATAE-LSTM模型在循環(huán)神經(jīng)網(wǎng)絡(luò)后加入注意力機(jī)制和目標(biāo)實(shí)體嵌入信息,在效果上優(yōu)于TD-LSTM模型?;贚STM的兩個(gè)模型結(jié)構(gòu)效果都不理想,原因在于雖然LSTM網(wǎng)絡(luò)能夠得到文本的序列信息,但是容易丟失信息,忽略目標(biāo)與上下文之間的相關(guān)性信息。

        由于CNN可以獲取文本的局部信息特征,準(zhǔn)確率和F1值好于基礎(chǔ)的TD-LSTM模型。然而Text-CNN模型表現(xiàn)卻不好,因?yàn)門extCNN模型不是專門針對(duì)特定目標(biāo)的模型,沒(méi)有融合目標(biāo)信息,導(dǎo)致輸出的特征多為文本本身的特征,而并非目標(biāo)相關(guān)的特征。GCAE模型由于存在門控機(jī)制,可以控制信息的傳遞,并且將目標(biāo)嵌入到網(wǎng)絡(luò)模型中,增強(qiáng)了模型的信息獲取能力,表現(xiàn)優(yōu)于TextCNN模型,且比循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)模型的效果好,說(shuō)明門控機(jī)制的存在能夠一定程度改善目標(biāo)特征選擇的問(wèn)題。MNSI模型利用圖卷積結(jié)構(gòu),在訓(xùn)練中通過(guò)節(jié)點(diǎn)的距離改變節(jié)點(diǎn)狀態(tài),控制層與層之間的信息傳遞,增加了句法依存分析樹(shù),轉(zhuǎn)換句子句法依存信息,消除目標(biāo)詞多義產(chǎn)生的錯(cuò)誤結(jié)果,結(jié)果上優(yōu)于TextCNN和GCAE模型。

        在注意力機(jī)制的模型中,IAN模型表現(xiàn)一般,在獲取目標(biāo)詞與上下文單詞之間關(guān)系時(shí),只是簡(jiǎn)單地交互學(xué)習(xí)注意力信息。MenNet模型通過(guò)多個(gè)計(jì)算層獲取語(yǔ)義信息得到最后的文本表示,而且文本表示本質(zhì)上為文本嵌入的非線性表示,模型效果優(yōu)于IAN模型。AEN模型在三個(gè)注意力機(jī)制模型中表現(xiàn)最優(yōu),說(shuō)明多頭注意力交互的有效性,避免了網(wǎng)絡(luò)遞歸計(jì)算,但整體性能相對(duì)于本研究模型還存在一定差距。

        2.5 消融實(shí)驗(yàn)分析

        為了進(jìn)一步分析模型各部分對(duì)性能的影響程度,使用Laptop數(shù)據(jù)集進(jìn)行消融實(shí)驗(yàn),各個(gè)模型的參數(shù)值相同,結(jié)果如表4所示。

        表4 消融實(shí)驗(yàn)結(jié)果

        表4給出的實(shí)驗(yàn)結(jié)果中,從acc和F1值兩個(gè)指標(biāo)可以看到,消融后的模型在準(zhǔn)確率和F1值兩方面效果均不如提出的模型,表明模型改善的部分在提高分類性能發(fā)揮著積極的作用。通過(guò)對(duì)比無(wú)門控機(jī)制模型(PE-MACN)和本研究模型(PE-MAGCN)結(jié)果,能夠發(fā)現(xiàn)存在門控機(jī)制的模型準(zhǔn)確率提高了0.37%,F(xiàn)1值提高了0.9%,表明門控機(jī)制在控制信息傳遞方面發(fā)揮出積極作用。通過(guò)與無(wú)位置嵌入信息模型(MAGCN)對(duì)比,PE-MAGCN在Laptop數(shù)據(jù)集上的準(zhǔn)確率和F1值分別提升了0.24%和0.97%,表明位置嵌入信息能夠反映目標(biāo)和文本的相對(duì)位置,在訓(xùn)練過(guò)程中一定程度反映局部特征對(duì)目標(biāo)的貢獻(xiàn)程度。從表中可以看出,不添加注意力層的模型(PE-GCN)準(zhǔn)確率和F1值均小于無(wú)門控機(jī)制的模型和無(wú)位置嵌入信息的模型,本研究模型(PE-MAGCN)與之相比,準(zhǔn)確率提高了1.68%,F(xiàn)1值提高了1.3%,提高幅度最大,表明注意力機(jī)制能夠有效增強(qiáng)模型的特征表達(dá)能力。

        2.6 模型復(fù)雜性分析

        為了測(cè)試本研究模型與其他模型的復(fù)雜性,在Laptop數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),迭代次數(shù)設(shè)置為20,學(xué)習(xí)率為0.01,batchsize設(shè)置為64,記錄每次epoch所需時(shí)間、模型達(dá)到收斂所消耗的時(shí)間以及模型的參數(shù)數(shù)量。實(shí)驗(yàn)結(jié)果如表5所示。

        由表5可以看出,PE-MAGCN模型的可訓(xùn)練參數(shù)數(shù)量為1.08×106個(gè),少于由多層全連接層和注意力層構(gòu)成的MemNet模型和MNSI模型,這是由于模型結(jié)構(gòu)較為復(fù)雜,導(dǎo)致模型偏大。在迭代一次所需時(shí)間方面,模型要優(yōu)于ATAE-LSTM、MNSI、MenNet和IAN模型,次于TD-LSTM、TextCNN、GCAE、AEN。雖然上述模型的時(shí)間復(fù)雜度均為O(N),但是由于模型內(nèi)部的結(jié)構(gòu)不同,實(shí)例消耗的時(shí)間也不同。

        與注意力網(wǎng)絡(luò)MemNet和IAN模型相比,收斂時(shí)間降低了44.38和58.5 s,因?yàn)槟P娃饤壛搜h(huán)網(wǎng)絡(luò)結(jié)構(gòu),模型訓(xùn)練時(shí)不會(huì)因?yàn)橛?jì)算目標(biāo)與上下文之間的注意力矩陣消耗較多時(shí)間。與循環(huán)網(wǎng)絡(luò)相比,參數(shù)數(shù)量高于TD-LSTM和ATAE-LSTM模型,迭代一次所消耗的時(shí)間為3.7 s,高于TD-LSTM迭代一次所需時(shí)間,原因在于TD-LSTM模型的結(jié)構(gòu)較為簡(jiǎn)單,訓(xùn)練一次所計(jì)算的參數(shù)較少。ATAE-LSTM模型在LSTM模型上加入全局注意力層,獲得隱藏層特征后再進(jìn)行注意力矩陣計(jì)算,消耗較多時(shí)間。而PE-MAGCN模型不使用LSTM結(jié)構(gòu)獲取特征,使用卷積單元獲取句子局部特征,因此時(shí)間少于ATAE-LSTM模型。與TextCNN、GCAE模型相比,PE-MAGCN模型的迭代一次所需時(shí)間分別增加了0.7和0.44 s,收斂時(shí)間增加了2.69和6.76 s,說(shuō)明加入多頭注意力層會(huì)增加訓(xùn)練時(shí)間,但與提高的分類準(zhǔn)確率相比,增加的時(shí)間代價(jià)可以接受。與MemNet、IAN模型相比,PE-MAGCN模型迭代一次的時(shí)間分別降低了3.74和5.58 s,收斂

        表5 模型參數(shù)數(shù)量和模型訓(xùn)練時(shí)間對(duì)比

        時(shí)間分別降低了44.38和58.5 s,說(shuō)明交互式注意力機(jī)制和LSTM模型的結(jié)構(gòu)會(huì)消耗較多的時(shí)間,時(shí)間復(fù)雜性較高。與AEN模型相比,PE-MAGCN模型迭代時(shí)間增加了0.2 s,收斂時(shí)間降低了7.27 s,這是因?yàn)锳EN模型使用注意編碼層替代了LSTM層,獲取輸入嵌入的隱藏狀態(tài);使用點(diǎn)卷積獲取目標(biāo)語(yǔ)義相關(guān),與本研究模型結(jié)構(gòu)相似,因此時(shí)間代價(jià)相差不大。與MNSI模型相比,PE-MAGCN模型的迭代時(shí)間降低了4.02 s,收斂時(shí)間降低了47.71 s,這是由于MNSI模型是在MenNet模型的基礎(chǔ)上又引入了句法依存關(guān)系并使用spacy工具包將句子轉(zhuǎn)換為句法依存樹(shù)。雖然轉(zhuǎn)換句法依存樹(shù)的時(shí)間復(fù)雜度也為O(N),但是仍然消耗額外的轉(zhuǎn)換時(shí)間,在所有的對(duì)比模型中訓(xùn)練消耗的時(shí)間最高。PE-MAGCN模型使用多頭注意力機(jī)制獲取特征表達(dá),利用門控卷積層控制信息的傳遞,能夠有效地表示目標(biāo)相關(guān)特征,收斂速度較快,獲得了較高的準(zhǔn)確率。

        3 總結(jié)

        針對(duì)循環(huán)神經(jīng)網(wǎng)絡(luò)在獲取句子特征時(shí),容易造成信息丟失和較長(zhǎng)的訓(xùn)練時(shí)間,以及傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)不能很好獲取上下文信息的問(wèn)題,提出一種帶有位置嵌入的多頭注意力門控卷積網(wǎng)絡(luò),完成特定目標(biāo)情感識(shí)別任務(wù)。本研究模型首先利用多頭注意力層獲取目標(biāo)和文本詞之間的語(yǔ)義交互信息,通過(guò)卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)獲取文本局部特征,利用門控機(jī)制控制信息傳遞,將與目標(biāo)相關(guān)的信息輸入到分類層。另外,為了獲取不同詞與目標(biāo)特征之間的距離信息,模型額外加入位置嵌入矩陣,增加了模型的信息獲取能力。通過(guò)對(duì)SemEval 2014數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),驗(yàn)證了模型的有效性和實(shí)用性,準(zhǔn)確率和F1值在兩個(gè)數(shù)據(jù)集上都有提高。與其他基準(zhǔn)模型比較發(fā)現(xiàn),本模型相較于循環(huán)網(wǎng)絡(luò)和注意力機(jī)制網(wǎng)絡(luò),具有較快的收斂速度,可為特定目標(biāo)情感分析提供新的模型,但仍存在一些不足,如實(shí)驗(yàn)所用的數(shù)據(jù)集規(guī)模有限且模型參數(shù)數(shù)量較多,一定程度增加了模型的訓(xùn)練時(shí)間。后續(xù)將研究如何將現(xiàn)有的額外知識(shí)融入到神經(jīng)網(wǎng)絡(luò)中,在精簡(jiǎn)網(wǎng)絡(luò)模型結(jié)構(gòu)的同時(shí)增強(qiáng)模型的情感分析結(jié)果。

        猜你喜歡
        注意力卷積神經(jīng)網(wǎng)絡(luò)
        讓注意力“飛”回來(lái)
        基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
        神經(jīng)網(wǎng)絡(luò)抑制無(wú)線通信干擾探究
        電子制作(2019年19期)2019-11-23 08:42:00
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        基于傅里葉域卷積表示的目標(biāo)跟蹤算法
        “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
        A Beautiful Way Of Looking At Things
        基于神經(jīng)網(wǎng)絡(luò)的拉矯機(jī)控制模型建立
        復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)在基于WiFi的室內(nèi)LBS應(yīng)用
        基于支持向量機(jī)回歸和RBF神經(jīng)網(wǎng)絡(luò)的PID整定
        少妇无码吹潮| 久久国产精品免费专区| 男人天堂这里只有精品| 欧美日韩国产码高清综合人成| 中国一级毛片在线观看| 美女扒开内裤露黑毛无遮挡 | 久久综合给合综合久久| 免费a级毛片在线观看| 日本看片一区二区三区| 精品一区中文字幕在线观看 | 拍摄av现场失控高潮数次| 久99久精品免费视频热77| 国产熟女白浆精品视频二| 亚洲精品蜜夜内射| 激情97综合亚洲色婷婷五| 国产裸体AV久无码无遮挡| 不卡一区二区三区国产| 国语对白做受xxxxx在| 有码精品一二区在线| 在线免费观看国产视频不卡| 少妇无套裸按摩呻吟无呜| 在线精品国产一区二区三区| 久久久久久国产精品免费网站| 美女把内衣内裤脱了给男人舔| 欧美性生交大片免费看app麻豆 | 亚洲一区sm无码| 国内精品少妇久久精品| 亚洲av永久无码精品古装片| 国产精品.xx视频.xxtv| 久久久9色精品国产一区二区三区| 女人被躁到高潮嗷嗷叫免| 亚洲精品美女久久久久久久| 麻豆国产巨作AV剧情老师| 亚洲精品视频一区二区三区四区| 丰满大爆乳波霸奶| 国产乱子伦精品免费无码专区| 国产一级r片内射免费视频| 99在线视频这里只有精品伊人| 亚洲一区 日韩精品 中文字幕 | 午夜一级成人| 国产自拍精品在线视频|