亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

用于短文本情感分類的多頭注意力記憶網(wǎng)絡

2021-12-07 10:08:50李曉瑜崔建劉齊

計算機應用 2021年11期

鄧鈺，李曉瑜*，崔建，劉齊

（1.電子科技大學信息與軟件工程學院，成都 610054；2.解放軍93246部隊，長春 130000；3.解放軍95486部隊，成都 610041）

0 引言

隨著互聯(lián)網(wǎng)技術的飛速發(fā)展，社交網(wǎng)絡和電子商務平臺已變成最重要的公共信息集散地，利用其中龐大的數(shù)據(jù)對人們的情感和觀點進行分析，有著重要的社會價值和科研價值。情感分析是人們對產(chǎn)品、服務、組織、個人、問題、事件、話題及其屬性的觀點、情緒、評價和態(tài)度的計算研究［1］，屬于文本分類的子任務。不同于普通文本分類，情感分析要求更高層的語義抽取，技術上更具挑戰(zhàn)性。如何利用自然語言處理（Natural Language Processing，NLP）技術對主觀意見文本進行情感分析正被越來越多的研究人員所關注［2］。

早期情感分析任務大多采用傳統(tǒng)機器學習方法處理，依賴特征工程，需要花費大量時間對背景知識進行收集、整理和抽象。深度學習方法出現(xiàn)后，迅速取代了機器學習成為NLP領域的主流。作為近年來人工智能領域發(fā)展最快的研究方向，深度學習模型在各種NLP 任務中被廣泛應用。相較于傳統(tǒng)的機器學習算法，深度學習不依賴人工構建特征，具有特征的自學習能力，非常適合非結(jié)構化文本數(shù)據(jù)的抽象、高維、復雜等特點。目前，很多研究人員將長短期記憶（Long Short-Term Memory，LSTM）網(wǎng)絡與卷積神經(jīng)網(wǎng)絡（Convolutional Neural Network，CNN）等深度學習模型用于解決文本情感分類問題［3-5］，并取得了不錯的效果。在結(jié)合注意力機制后，深度學習模型在NLP 任務中可以抽象更高層次的特征信息、獲得更有效的語義表示?；谧⒁饬Φ纳疃葘W習模型不僅有效而且還具有很好的可解釋性［6］。

注意力（attention）機制最早由圖像識別領域提出，可以讓模型有效關注局部特定信息，挖掘更深的特征信息［7］。隨后，在自然語言處理領域，注意力機制被驗證使得特征提取更加高效。文獻［8］中首次將注意力機制與循環(huán)神經(jīng)網(wǎng)絡（Recurrent Neural Network，RNN）結(jié)合，在編碼-解碼模型上計算輸入序列與輸出序列的對齊概率矩陣，有效解決機器翻譯問題。文獻［9］中提出了在卷積神經(jīng)網(wǎng)絡中使用注意力機制的有效方法，以完成機器閱讀理解任務。目前，很多研究人員將注意力機制應用于情感分類領域，取得了很好的效果。文獻［10］中在LSTM 網(wǎng)絡將目標內(nèi)容與序列相應中間狀態(tài)進行拼接，并計算注意力加權輸出，有效解決了上下文對不同目標的情感極性問題。文獻［11］中基于LSTM 網(wǎng)絡提出了兩種注意力實現(xiàn)方法：一種方法是將目標詞向量拼接到用于注意力權重計算的句子隱藏表示中，另一種方法是將目標詞向量與輸入詞向量拼接。文獻［12］中提出了一種基于注意力機制的交互式注意力網(wǎng)絡模型，利用與目標相關的注意力從上下文中獲取重要信息，同時利用上下文交互信息來監(jiān)督目標的建模，以提高情感極性預測精度。

為進一步提高情感分類任務的分類精度，研究人員將注意力機制與記憶網(wǎng)絡（Memory Network）結(jié)構結(jié)合，并取得了很好的效果。文獻［13］中借鑒深度記憶網(wǎng)絡，提出了多跳注意力模型，計算基于內(nèi)容和位置的注意力值，利用外部存儲單元保存上下文對于目標的權值信息，并通過疊加計算獲取更深層次的情感語義信息。文獻［14］中利用雙向LSTM 網(wǎng)絡構建記憶力單元，以對多跳注意力網(wǎng)絡進行改進，同時對外部記憶內(nèi)容進行位置加權，在捕獲情感特征的同時消除噪聲干擾。文獻［15］中提出了一種結(jié)合多跳注意力機制和卷積神經(jīng)網(wǎng)絡的深度模型，利用記憶網(wǎng)絡中多個相同的計算模塊，獲取更深層次的情感特征信息。

為了使注意力機制對NLP 任務的性能改進更加有效，并且讓模型的可解釋性更強，創(chuàng)新的結(jié)構被不斷提出。文獻［16］中提出了一種Transformer 模型框架，用來代替卷積神經(jīng)網(wǎng)絡和循環(huán)神經(jīng)網(wǎng)絡體系結(jié)構，并在機器翻譯任務中取得了最好的結(jié)果。Transformer 結(jié)構中首次提出了自注意力機制和多頭注意力，它完全使用attention 機制來建模輸入和輸出的全局依賴關系，以生成與語義更相關的文本表示，允許模型在不同的表示子空間中學習相關信息。文獻［17］中分析了自注意力網(wǎng)絡的模型特點，提出了多頭注意力與自注意力結(jié)合的兩種方式，并探討了其用于情感分析的有效性。文獻［18］中基于自注意力網(wǎng)絡，提出了一種靈活、可解釋的文本分類模型，可以有效提高情感分類精度。文獻［19］中將多頭自注意力運用于面向目標的情感分析，提出了一種注意力編碼網(wǎng)絡，可以用來獲取每個目標詞與上下文之間的交互關系和語義信息。

在情感分類領域，已經(jīng)有許多研究工作取得了很好的效果，但也存在一些問題。盡管多頭注意力機制可以有效挖掘上下文關聯(lián)信息，但很難進一步獲取更深層次的內(nèi)聯(lián)關系；另一方面，多跳結(jié)構中的記憶力單元只包含原始輸入，利用這種不加處理的淺層特征數(shù)據(jù)，很難通過模塊的線性疊加對短文本中的情感語義結(jié)構進行有效的編碼。為解決上述問題，本文提出了一種短文本情感分類模型，利用n元語法（n-gram）特征信息和有序神經(jīng)元長短時記憶（Ordered Neurons LSTM，ON-LSTM）網(wǎng)絡對原始輸入進行加工，以獲得更豐富的語義表示。同時，利用改進的多頭注意力機制和多跳記憶力網(wǎng)絡對短文本上下文內(nèi)部關聯(lián)進行有效建模，充分挖掘高層情感語義特征。最后，在電影評論集（Movie Review dataset，MR）、斯坦福情感樹（Stanford Sentiment Treebank，SST）-1 和SST-2 三個公開用戶評論數(shù)據(jù)集上對模型進行評估，實驗結(jié)果驗證了所提MAMN 在情感分類任務中的有效性，其分類性能優(yōu)于實驗任務中其他對比的相關模型。

1 相關工作

文本對于情感的表達通常并不直接，觀點和態(tài)度往往隱含在句法結(jié)構和上下文語境中，所以短文本情感分類的關鍵在于對深層次情感語義特征的充分挖掘和對上下文內(nèi)在關系的抽象。多頭注意力機制和ON-LSTM 網(wǎng)絡可以挖掘深層語義特征，對上下文內(nèi)在結(jié)構信息進行有效抽取，而本文也將利用其特性優(yōu)化模型結(jié)構，以提升情感分類精度。

1.1 多頭注意力

多頭注意力機制可以簡單有效地對上下文依賴關系進行抽象，并捕獲句法和語義特征。具體來說，輸入矩陣Q、K、V對應注意力（attention）計算的三個重要組件，分別為query、key 和value，其中，，其中m、n、dk、dv分別表示矩陣的不同維度。一般框架下的標準attention計算過程如下：

其中fatt表示概率對齊函數(shù)，本文采用Scaled Dot Product：

在多頭注意力機制中，輸入特征通過不同的權值矩陣被線性映射到不同的信息子空間，并在每個子空間完成相同的注意力計算，以對文本潛在的結(jié)構和語義進行充分學習，其中第i頭注意力計算過程如下：

自注意力是在序列內(nèi)部進行attention 計算，尋找序列內(nèi)部的聯(lián)系。假設輸入序列是X，其多頭自注意力計算過程如下：

1.2 ON-LSTM網(wǎng)絡

有序神經(jīng)元長短時記憶（ON-LSTM）網(wǎng)絡，由傳統(tǒng)的LSTM網(wǎng)絡演化而來。傳統(tǒng)的LSTM 網(wǎng)絡可以有效解決文本處理中因上下文長距離依賴而產(chǎn)生的梯度消失和梯度爆炸問題。在此基礎上，ON-LSTM 網(wǎng)絡通過有序神經(jīng)元的設計，將樹狀的層級結(jié)構整合到LSTM 中，使其能自動學習到文本的層級結(jié)構信息，提高模型的語義抽象能力。ON-LSTM 中通過主遺忘門（master forget gate）和主輸入門（master input gate）對神經(jīng)元進行排序，利用不同的位置順序來判斷信息層級的高低。在這種層級結(jié)構中信息被分組進行更新，其中高層信息能夠保留相當長的距離，而低層信息可能隨著每一步輸入而被更改。

ON-LSTM網(wǎng)絡的模型結(jié)構如圖1所示，它改進了LSTM中ct的更新機制，其主要更新過程如式（6）～（14）所示：

圖1 ON-LSTM網(wǎng)絡的模型結(jié)構Fig.1 Model structure of ON-LSTM network

其中：xt和ht-1分別表示當前輸入信息和歷史隱層信息；σ表示sigmoid 函數(shù)；tanh 表示雙曲正切函數(shù)；“°”表示向量對應逐位相乘運算。而cs函數(shù)定義如下：

2 多頭注意力記憶網(wǎng)絡模型

為解決短文本情感分類問題，本文在以上研究的基礎上提出了一種多頭注意力記憶網(wǎng)絡（Multi-head Attention Memory Network，MAMN）模型，用于短文本情感分類。該模型主要按照以下兩個方面進行構建：

1）利用n-gram 特征和ON-LSTM 網(wǎng)絡對多頭自注意力機制進行改進，以對文本上下文內(nèi)聯(lián)關系進行更深層次的提取，使模型可以獲得更豐富的文本特征信息；

2）利用多頭注意力機制對多跳記憶網(wǎng)絡結(jié)構進行優(yōu)化，以對短文本上下文內(nèi)部語義結(jié)構進行有效建模，充分挖掘高層情感語義特征。

本文模型總體結(jié)構如圖2 所示，包括詞嵌入層、特征抽取層、注意力編碼層、多跳記憶結(jié)構，接下來將對該模型的實現(xiàn)思路及細節(jié)進行描述。

圖2 MAMN模型總體結(jié)構Fig.2 Overall structure of MAMN model

2.1 詞嵌入層

為便于處理，非結(jié)構化的文本首先被轉(zhuǎn)換成結(jié)構化的低維數(shù)值向量。在典型的NLP 任務預處理階段，文本中的詞匯首先使用word2vec、Glove 等算法進行預訓練，轉(zhuǎn)換為詞向量（word embedding）。在本層中，一個包含n個詞的上下文序列可以轉(zhuǎn)換為S={v1，v2，…，vn}，其中vi∈Rd，是第i個詞的d維向量表示，S∈Rn×d代表句子的輸入詞向量序列。

2.2 特征提取層

本層主要用于對輸入特征作進一步抽象和加工。在自然語言處理任務中，通常使用由語料產(chǎn)生的詞庫作為模型輸入，然而這種淺層的直觀特征對于隱含關系的表達并不充分，而簡單依靠增加輸入特征的數(shù)目，并不能有效突破模型的極限預測性能。引入n-gram 詞組特征，將輸入從淺層特征轉(zhuǎn)換為深層特征，使模型擁有更多的語義信息，以挖掘上下文更多的深層交互特性。通過卷積神經(jīng)網(wǎng)絡生成n-gram 特征，可以在有效處理文本詞匯局部相關性的同時，避免n-gram 中對于特征權重的大量概率統(tǒng)計計算，相較于循環(huán)神經(jīng)網(wǎng)絡具有更小的訓練開銷，因此卷積神經(jīng)網(wǎng)絡也被大量用于文本處理問題。

該層將多個卷積運算應用于句子的輸入詞向量矩陣（context embedding），以提取相應的n-gram 特征，產(chǎn)生新的特征向量序列G={g1，g2，…，gn-k+1}，其中，k為一維卷積窗口大小，dp為卷積核個數(shù)。

隨后，將ON-LSTM 網(wǎng)絡應用于得到的n-gram 特征序列，以對短文本中各詞組的依賴關系進行建模，并挖掘其隱含語義，同時獲取短文本上下文內(nèi)部層級結(jié)構信息。最后采用ON-LSTM網(wǎng)絡得到的隱藏狀態(tài)H={h1，h2，…，hn-k+1}作為原始文本的高層特征表示，其中，dq為網(wǎng)絡隱藏層維度。

2.3 注意力編碼層

標準的多頭注意力模型中，以上下文序列中的單個詞作為基本處理單元，這使得句子隱含的語義和結(jié)構信息被忽視。實際應用中，單純依靠增加頭部數(shù)量，也很難提高多頭注意力模型的性能，表明其在多維信息空間中的提取和學習能力并沒有得到充分發(fā)揮。

受Hao 等［20］研究的啟發(fā)，本文將n-gram 特征與多頭自注意力模型結(jié)合，提出了深度自注意力機制，引入相鄰詞匯組合形成的語義特征，使多頭注意力機制能在多維特征空間中學習更多隱藏信息，以更好地預測目標情感極性。

在深度自注意力中，首先對輸入特征序列進行抽象轉(zhuǎn)換，將得到的高層表示加入模型以對標準自注意力機制進行擴展。本文采用ON?LSTM 網(wǎng)絡對輸入的n-gram 特征序列G作進一步抽象，深度自注意力具體計算過程如下：

2.4 多跳記憶結(jié)構

記憶力網(wǎng)絡最早由Facebook AI在2015年提出［21］，其研究人員將LSTM 網(wǎng)絡中類似的內(nèi)部標量記憶單元擴展成為外部向量記憶模塊，以解決NLP任務中涉及的復雜語義計算問題。MAMN模型將多頭注意力機制和外部記憶單元結(jié)合構造獨立計算模塊（hop），并將計算模塊疊加，形成多跳（hops）深度記憶網(wǎng)絡。這種多跳注意力遞歸深度記憶結(jié)構，相較于普通鏈式深度網(wǎng)絡可以在更短路徑上獲得長距離依賴，并且相較于淺層模型可以學習到更高級別的抽象數(shù)據(jù)表示［22-23］。由于每個計算層的運算都有外部原始記憶單元內(nèi)容參與，可以使模型一直關注歷史信息，通過足夠跳數(shù)的計算層堆疊轉(zhuǎn)換，可以使模型學習到文本內(nèi)部蘊含更加復雜、抽象的非線性特征。因為所有的輸入n-gram特征借由注意力的遞歸計算過程充分交互，也使得文本特征間的遠程依賴關系得到更充分的建模。

模型在運行多跳結(jié)構之前，先將注意力編碼層的輸出進行線性變化（Linear），生成歷史信息記憶

由于每一個計算層作為獨立模塊，擁有相同的處理流程，用第i個計算層來說明計算過程：

2.5 預測輸出層

本層作為模型的最后一層，負責將多跳記憶結(jié)構的輸出進行再加工，最后通過softmax函數(shù)來計算各類的輸出概率。

最后，為了可以充分對短文本上下文序列蘊含的句子結(jié)構以及語義信息進行建模，MAMN 模型采用了多種粒度的詞匯組合（2-gram，3-gram 和4-gram），以擴展多頭注意力信息子空間規(guī)模，豐富語義表達。整個模型的數(shù)據(jù)處理架構如圖3所示。

圖3 MAMN模型的數(shù)據(jù)處理架構Fig.3 Data processing architecture of MAMN model

2.6 預測輸出層

由于在情感分類任務中，情感極性通常被定為“正面”“負面”和“中性”等，屬于典型的文本多分類任務，于是MAMN 的損失函數(shù)選擇交叉熵，并通過對其最小化來優(yōu)化模型。交叉熵損失函數(shù)如式（27）所示：

其中：D為訓練數(shù)據(jù)集大?。籆為類別數(shù)；P(i，j)是模型預測樣本i為類別j的概率；Q(i，j)為1或0，表示模型分類結(jié)果是否正確；λ‖θ‖2為正則項。

3 實驗與結(jié)果分析

3.1 實驗數(shù)據(jù)

本文在兩類基準數(shù)據(jù)集上開展實驗，即電影評論集（MR）［22］和斯坦福情感樹（SST）［23］數(shù)據(jù)集。MR 和SST 都被廣泛應用于短文本情感分類任務模型的性能評估，本文在這兩個數(shù)據(jù)集上將MAMN 與同類任務模型進行性能對比，數(shù)據(jù)集具體細節(jié)統(tǒng)計如表1所示。

表1 實驗數(shù)據(jù)統(tǒng)計Tab.1 Experimental data statistics

1）MR：該數(shù)據(jù)集數(shù)據(jù)抓取自專業(yè)英文電影評論網(wǎng)站，包含“積極”和“消極”兩類情感傾向的電影評論短文本，各5331條。測試一般采用隨機分割，十折交叉檢驗。

2）SST-1：該數(shù)據(jù)集是對MR 的進一步擴展，是一個具有完全標記的解析樹的語料庫。它擁有11855 條電影評論，但是數(shù)據(jù)按照“非常消極”“消極”“中性”“積極”和“非常積極”分為了五類。

3）SST-2：該數(shù)據(jù)集為SST 的二進制標記版本。其中，“中性”評論被刪除，“非常積極”和“積極”的評論被標記為“積極”，“非常消極”和“消極”的評論被標記為“消極”。它總共包含9613條評論，其中1821條用于模型測試。

3.2 實驗設置

詞嵌入層使用Glove預訓練模型，詞向量在訓練過程中固定不變，維度設置為300，學習率設置為1E-3，模型最后運行于NVIDIA RTX 2080Ti GPU，采用分類精度（accuracy）值來對其性能進行評價，其他通用超參數(shù)設置如表2所示。

表2 模型超參數(shù)設置Tab.2 Hyperparameter setting of model

3.3 模型性能對比

為了評價MAMN 模型在三個數(shù)據(jù)集上的性能，引入多種典型模型進行實驗對比，其中包括一些性能基線方法和最新研究成果。以下詳細介紹了所有比較模型：

1）RAE（Recursive AutoEncoder）［24］：該模型基于遞歸自動編碼器構造，可對復雜構詞短語的空間向量表示進行學習，以對句子情感極性標簽的所屬概率進行預測。

2）矩陣-向量RNN（Matrix-Vector RNN，MV-RNN）［25］：該模型是一種遞歸神經(jīng)網(wǎng)絡，可以學習任意句法類型和長度的短語，獲得句子的組合向量表示。模型為解析樹中的每一個節(jié)點分配一個向量和一個矩陣，以抽象相鄰詞語的組合情感語義。

3）遞歸神經(jīng)張量網(wǎng)絡（Recursive Neural Tensor Network，RNTN）［23］：該模型是一個基于情感語義解析樹結(jié)構的遞歸深層神經(jīng)網(wǎng)絡，利用張量特征對解析樹上不同維度的子節(jié)點之間的相關性進行建模，抽象組合情感語義。

4）CNN-non-static［26］：該模型將一個預訓練的word2vec 詞向量模型與卷積神經(jīng)網(wǎng)絡相結(jié)合，并在每個任務的訓練過程中對詞向量進行微調(diào)。

5）CNN-multichannel［26］：該模型同時采用兩個詞向量集，每一組向量都被視為一個“通道”，并將每個濾波器同時對兩個通道進行卷積操作。模型能動態(tài)微調(diào)一組向量，同時保持另一組向量為靜態(tài)。

6）RNN-Capsule［27］：該模型將RNN 與膠囊網(wǎng)絡相結(jié)合，并在膠囊網(wǎng)絡中采用注意力機制，利用概率模塊對輸出膠囊進行重構以抽象更高層次的情感語義表達。

7）Capsule-CNN［28］：該模型將卷積神經(jīng)網(wǎng)絡和膠囊網(wǎng)絡相結(jié)合，實現(xiàn)了一種多級膠囊的通用文本分類處理架構，并針對特定的文本分類任務對膠囊網(wǎng)絡中的動態(tài)路由算法進行了優(yōu)化。

8）BiLSTM-CRF（Bi-directional LSTM with Conditional Random Field）［29］：該模型將序列結(jié)構和卷積神經(jīng)網(wǎng)絡結(jié)合，提出了一種用于文本情感分類的流水處理框架。首先將文本按照所包含的情感目標數(shù)分為不同類型，然后采用一維卷積操作分別對每類文本進行情感特征檢測。

本文用分類精度作為評測指標，各模型分類實驗結(jié)果如表3 所示。可以看出，MAMN 模型在三個基準數(shù)據(jù)集上都有良好表現(xiàn)，特別是在MR數(shù)據(jù)集上顯著提高了分類性能。

表3 不同模型在三個數(shù)據(jù)集上的分類精度Tab.3 Classification accuracies of different models on three datasets

在基線模型中，RAE、MV-RNN 和RNTN 都采用了簡單的深度學習算法，整體分類性能偏低。其中：RAE模型只簡單使用了空間向量特征和自編碼器，分類精度最低；MV-RNN 在空間向量的基礎上，利用相鄰詞匯的組合特征對情感分類進行改善；而RNTN 通過融入情感語義解析特征，進一步改善性能，尤其在SST兩個數(shù)據(jù)集上性能提高明顯。

從實驗結(jié)果上看，采用循環(huán)神經(jīng)網(wǎng)絡和卷積神經(jīng)網(wǎng)絡結(jié)構的復雜深度學習模型在所有數(shù)據(jù)集上的表現(xiàn)都顯著且持續(xù)地優(yōu)于簡單的深度學習算法。除了模型結(jié)構復雜度增加，預訓練詞向量的使用也是性能改進的關鍵原因。其中，CNNnon-static 和CNN-multichannel 都采用了CNN 結(jié)構，但在不同數(shù)據(jù)集上互有優(yōu)劣，可見單純靠增加不同詞向量集并不能有效改善模型性能，而對詞向量進行微調(diào)可以充分挖掘潛在語義特征；RNN-Capsule 和Capsule-CNN 都采用了膠囊網(wǎng)絡與普通深度模型相結(jié)合的架構，以對高層情感語義特征進行抽象，其中RNN-Capsule 在MR 和SST-1 上都有優(yōu)異表現(xiàn)，說明注意力機制的引入，可以讓模型有更好的內(nèi)部關聯(lián)挖掘的能力，能在二分類和多分類任務中更有優(yōu)勢；BiLSTM-CRF 模型利用LSTM 和CNN 相結(jié)合，設計了多級流水結(jié)構將模型的深度繼續(xù)加深，以提高特征的表征能力，并在SST-2 數(shù)據(jù)集上取得參考模型的最好分值。

MAMN 模型在MR、SST-1 和SST-2 這三個數(shù)據(jù)集上相較對比模型的最好分值分別提高了0.4個百分點、0.3個百分點和0.4 個百分點?？梢姸囝^注意力機制的采用、記憶模塊的參與以及多跳結(jié)構對模型深度的加深，都對分類性能提升起到了重要作用。所提模型在二分類和多分類任務中都表現(xiàn)出分類的有效性和性能的穩(wěn)定性。

3.4 模型結(jié)構性能分析

為進一步驗證MAMN 模型的多跳記憶結(jié)構對性能改善的有效性，同時考察模塊跳數(shù)設置對分類精度的影響程度，在三個數(shù)據(jù)集上對跳數(shù)取不同值進行對比實驗，以評價各個數(shù)據(jù)集上的最優(yōu)跳數(shù)設置。在實驗中，將跳數(shù)預設范圍定為1～7，對應著記憶結(jié)構模塊不斷增加。另外，整個實驗過程模型的超參數(shù)集合均保持不變，實驗結(jié)果如圖4所示。

圖4 三個數(shù)據(jù)集上MAMN模型在不同跳數(shù)下的分類性能Fig.4 Classification performance of MAMN model with different hops on three datasets

從實驗結(jié)果的數(shù)據(jù)可以看出，其中，MR 數(shù)據(jù)集最優(yōu)跳數(shù)取值為4，對應分類精度為0.842；SST-1 數(shù)據(jù)集最優(yōu)跳數(shù)取值為3，對應分類精度為0.491；SST-2數(shù)據(jù)集最優(yōu)跳數(shù)取值為5，對應分類精度為0.887。從實驗中很容易發(fā)現(xiàn)，模型在三個數(shù)據(jù)集上都表現(xiàn)出同樣的規(guī)律，即隨著跳數(shù)取值的增加，分類精度不斷升高，并在堆疊特定數(shù)量的記憶模塊時達到最優(yōu)，隨后性能明顯下降。這表明，多跳結(jié)構的設計可以使模型深度得到擴展，讓情感語義信息的提取層次更高、更加有效，從而直接改善模型的分類性能。并且，記憶結(jié)構的設計也極大增強了模型的擴展性，因為模塊具有相同的代碼和接口，使得工程實施變得簡單。需要注意的是，記憶模塊的過度疊加，也會給模型帶來過擬合的風險，導致性能下降。

4 結(jié)語

針對短文本情感分類問題，本文提出了一種多頭注意力記憶網(wǎng)絡模型。該模型一方面利用卷積神經(jīng)網(wǎng)絡從輸入序列中提取n-gram 信息，結(jié)合改進的多頭自注意力機制對上下文內(nèi)部關聯(lián)進行有效挖掘；另一方面引入多跳記憶結(jié)構，對模型深度進一步拓展，同時通過對記憶模塊內(nèi)容的遞歸操作，也使得模型可以挖掘更高層次的上下文情感語義關系。最后，在MR、SST-1 和SST-2 這三個數(shù)據(jù)集上對模型進行評估，實驗結(jié)果表明MAMN 與流行的基線模型和最新的任務相關模型相比，分類性能都顯著優(yōu)于其他模型，充分驗證了其在短文本情感分類任務中的有效性。另外，結(jié)構性能分析實驗也驗證了多跳結(jié)構對于模型分類性能提升的重要作用。

在接下來，我們希望將更加靈活多樣的注意力計算方法用于文本內(nèi)部關聯(lián)語義特征提取，可以為記憶力單元生成更復雜、抽象層次更高的數(shù)據(jù)內(nèi)容，讓語義信息建模更加高效合理。另外，多跳記憶模塊中可以加入其他輔助信息，如考慮將位置信息、詞性和先驗知識作為補充，針對特定任務優(yōu)化模型。