亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于多層次注意力的語義增強情感分類模型

        2024-01-09 02:43:14曹建樂李娜娜
        計算機應用 2023年12期
        關鍵詞:注意力語義分類

        曹建樂,李娜娜

        基于多層次注意力的語義增強情感分類模型

        曹建樂,李娜娜*

        (河北工業(yè)大學 人工智能與數據科學學院,天津 300401)(?通信作者電子郵箱linana@scse.hebut.edu.cn)

        由于自然語言的復雜語義、詞的多情感極性以及文本的長期依賴關系,現有的文本情感分類方法面臨嚴峻挑戰(zhàn)。針對這些問題,提出了一種基于多層次注意力的語義增強情感分類模型。首先,使用語境化的動態(tài)詞嵌入技術挖掘詞匯的多重語義信息,并且對上下文語義進行建模;其次,通過內部注意力層中的多層并行的多頭自注意力捕獲文本內部的長期依賴關系,從而獲取全面的文本特征信息;再次,在外部注意力層中,將評論元數據中的總結信息通過多層次的注意力機制融入評論特征中,從而增強評論特征的情感信息和語義表達能力;最后,采用全局平均池化層和Softmax函數實現情感分類。在4個亞馬遜評論數據集上的實驗結果表明,與基線模型中表現最好的TE-GRU (Transformer Encoder with Gated Recurrent Unit)相比,所提模型在App、Kindle、Electronic和CD數據集上的情感分類準確率至少提升了0.36、0.34、0.58和0.66個百分點,驗證了該模型能夠進一步提高情感分類性能。

        情感分類;自然語言處理;詞嵌入;注意力機制;神經網絡

        0 引言

        情感分析是自然語言處理(Natural Language Processing,NLP)領域的一個熱門研究方向,它的目的是從用戶發(fā)布在網絡的主觀信息中提取和分析知識。情感分類是情感分析的研究主題之一,旨在根據情感極性對文本進行分類[1],近年來受到了眾多研究者的密切關注,并取得了許多進展。隨著互聯網產業(yè)的快速發(fā)展,用戶在網絡上發(fā)表的觀點和評論越來越多。利用情感分類技術分析這些用戶評論信息,可以推測用戶的情感和心理狀態(tài),有助于研究機構掌握社會情緒的動態(tài)[2]。

        目前的情感分類方法主要分為傳統方法和基于深度學習的方法。傳統方法通常使用大量的人工特征[3]和淺層學習方法進行分類,如支持向量機[4]和樸素貝葉斯[5]等。然而,傳統方法的特征提取過程需要花費大量的人力和時間,并且會導致情感表達不完整,處理復雜任務的能力有限?;谏疃葘W習的方法能夠避免人工特征提取,降低了模型開發(fā)成本。常用的深度學習方法,如卷積神經網絡(Convolutional Neural Network,CNN)、循環(huán)神經網絡(Recurrent Neural Network,RNN)、雙向門控循環(huán)單元(Bidirectional Gated Recurrent Unit, BiGRU)和雙向長短期記憶(Bidirectional Long Short-Term Memory, BiLSTM)網絡等,已廣泛應用于情感分類任務[6-7]。目前,大多數文本情感分類方法主要集中在生成豐富的文本特征表示,以提高模型的性能。研究者通常采用結構復雜的編碼器以及注意力機制[8]生成語義豐富的特征表示。雖然這些方法在一定程度上解決了相關問題并改善了性能,但仍存在以下問題:1)使用預訓練的靜態(tài)詞嵌入,無法處理單詞的復雜語義,缺乏在不同文本中表達不同詞義的能力;2)使用大量的序列模型,順序編碼的方式導致時間復雜度高,且難以捕獲全面的文本特征信息;3)一個句子中可能存在多個對句子情感傾向產生重要影響的詞,而傳統的注意力機制無法完全學習句子的情感信息,不能有效地獲取文本的情感語義特征。

        針對上述問題,本文提出了一種基于多層次注意力的語義增強情感分類模型。模型采用BERT(Bidirectional Encoder Representation from Transformers)[9]預訓練模型構建文本的動態(tài)詞嵌入向量,并且通過多層次的內部注意力層和外部注意力層生成包含豐富情感語義信息的文本特征表示,使用增強的文本特征進行情感分類。為了驗證該模型的有效性,在4個亞馬遜評論文本數據集上進行實驗。實驗結果表明,本文模型在情感分類任務上的性能優(yōu)于大多數先進模型。

        本文的主要工作如下:

        1)使用動態(tài)詞嵌入技術構建文本的語境化的上下文詞嵌入,有效地挖掘詞匯的多重語義信息。

        2)使用多層次的內部注意力層,引入多頭注意力機制并行地從不同特征子空間中學習語義特征,能夠降低模型時間復雜度并捕獲文本中的長期依賴關系,獲取全面的文本特征信息。

        3)考慮到模型各層具有不同的句法和語義信息處理能力,本文模型的內部注意力層設計了兩種并行層次組合策略,用于獲得單層輸出結構無法捕獲的額外信息。

        4)外部注意力層采用多層的注意力機制,利用元數據的總結信息增強評論特征的情感語義表達能力,實驗結果表明該模型有效提升了情感分類的性能。

        1 相關工作

        1.1 詞嵌入技術

        大多數詞嵌入方法都依賴于語言分布結構的假設,具體地,相似上下文中的詞通常具有相似的語義,而詞的語義由它們的上下文決定。Mikolov等[10]利用單詞語義以及單詞之間的關系提出了Word2Vec(Word to Vector)模型,該模型包括連續(xù)詞袋模型(Continuous Bag-Of-Word model, CBOW)和連續(xù)Skip-gram(Continuous Skip-gram Model)兩種算法。這兩種算法都基于元模型,該模型假設一個單詞只與它周圍的個單詞相關;但這一假設使得該方法對全局信息利用不足。Pennington等[11]提出了GloVe(Global Vectors for word representation)模型,考慮全局信息和局部信息的全局向量詞表示;但這種嵌入方法是一種靜態(tài)嵌入,無法用于一個詞具有多種含義的情況。

        Peters等[12]通過使用BiLSTM,提出來自深層語言模型的嵌入(Embeddings from Language MOdels, ELMO),不僅能生成動態(tài)詞嵌入,而且可以利用單詞的深層語義?;赥ransformer[13]強大的特征提取能力,Radford等[14]提出一種生成式預訓練(Generative Pre-Training,GPT)模型,使用Transformer代替ELMO中的長短期記憶(Long Short-Term Memory, LSTM),在當時取得了多個NLP任務中的最好結果。Devlin等[9]提出了BERT模型,使用雙向語言模型替換單向語言模型,并結合CBOW算法的技巧。BERT作為近年來詞嵌入模型的代表,在多項NLP任務中取得了最優(yōu)的表現。本文模型利用BERT獲得詞嵌入,更具體地,通過使用BERT為情感分類模型提供輸入文本序列的上下文感知嵌入。

        1.2 情感分類方法

        早期工作多使用數據挖掘[15]和機器學習[16-17]等方法在情感分類領域進行研究。隨著深度學習的發(fā)展,CNN和RNN在NLP領域取得了顯著的成功。Kalchbrenner等[18]提出動態(tài)CNN,使用寬卷積和池化捕獲單詞關系,通過構造類似解析樹的結構提取長距離的信息。Rezaeinia等[19]基于CNN模型和改進的單詞嵌入進行文檔情感分類,通過改進詞嵌入的詞匯、位置和句法特征,提高了情感分類中詞嵌入的準確性。與CNN相比,RNN引入了記憶單元,能夠考慮文本之間的長期依賴。Zhou等[20]采用堆疊的BiLSTM網絡,提高了對序列特征中長期依賴的學習能力。Chatterjee等[21]提出了多通道LSTM模型,通過結合語義和基于情感的表示提高情感檢測能力。

        為結合CNN和RNN各自的優(yōu)點,一些研究嘗試結合這兩種結構。Hassan等[22]將CNN與RNN串行連接,使用CNN提取情感特征,LSTM實現上下文語義的建模,該模型能減少局部信息的丟失,并捕獲長期依賴關系;Batbaatar等[23]將CNN與RNN并行連接,使用BiLSTM捕獲上下文信息并專注語義關系,同時使用CNN提取情感特征并側重文本中單詞之間的情感關系;Tam等[24]使用卷積層解決BiLSTM的局限性,使用一維卷積提取文本不同位置的局部特征并降低其維度,之后使用BiLSTM提取文本的上下文信息,該方法通過獲取句子上下文中的局部和全局相關性,有效地提高了文本情感分類性能。

        1.3 基于注意力的模型方法

        注意力機制能使模型關注文本中的重要信息,因此常被用于增強文本的特征。Bahdanau等[8]在機器翻譯任務中使用了注意力機制,首次將注意力機制應用于NLP領域。Liu等[25]提出基于注意力的卷積層BiLSTM模型,解決了文本數據的高維和稀疏性問題,并通過捕獲短語的局部特征和全局句子語義,有助于處理自然語言的復雜語義。自注意力機制[13]充分考慮句子中不同詞語之間的語義以及語法聯系,能夠進一步地捕獲上下文之間的聯系。Li等[26]提出了具有自注意力機制和多通道特征的BiLSTM模型。該模型對語言知識和情感資源進行建模,形成不同的特征通道,并利用自注意力機制增強情感信息;然而該模型不適用于處理長文本信息。Liu等[27]組合兩層具有注意力的BiGRU模型獲得長文本的組合語義,并應用二維卷積捕獲句子特征之間的依賴關系;然而該方法僅強調句子的重要性,缺少對單詞價值的關注。

        Kamyab等[28]提出了基于雙通道CNN和雙向RNN(Bidirectional RNN, Bi-RNN)的深度模型,應用注意力同時強調單詞和文本的重要性,并采用零填充策略使模型同樣適用于長文本數據,輸入層使用高斯噪聲和隨機失活作為正則化防止過擬合。Zhu等[29]利用自注意力機制捕獲文本上下文全局信息,關注文本的關鍵詞和句子信息,通過并行的空洞卷積和標準卷積獲得多尺度特征信息,提高了情感分類的性能。然而,單一的注意力機制無法從文本中提取多語義的情感信息,不能有效地獲取文本的情感語義特征;因此本文提出一種基于多層次注意力的語義增強情感分類模型,從多個層次提取文本的語義信息,豐富文本的特征表示,進而提升模型的情感分類性能。

        2 本文模型

        本文模型的流程如圖1所示。模型主要包括4個部分:輸入嵌入層、內部注意力層、外部注意力層和分類輸出層。其中表示評論文本序列,表示總結文本序列。

        圖1 模型框架

        首先,輸入嵌入層利用BERT詞嵌入技術為文本生成對應的上下文動態(tài)詞嵌入;其次,內部注意力層采用多層次的結構生成文本的全面特征表示,當中的每一層都包含一個多頭自注意力機制和前饋全連接層,內部注意力層中采用了兩種并行的層次組合策略,即連續(xù)層次組合和間隔層次組合;再次,外部注意力層通過在評論特征和總結信息之間應用多層注意力機制,獲得情感語義增強的評論特征表示;最后,分類輸出層對最終的評論特征使用全局平均池化操作和Softmax激活函數,獲得評論文本的情感分類結果。

        2.1 輸入嵌入層

        詞嵌入技術用于將文本中的每個詞映射到低維實值向量空間中。與上下文無關的靜態(tài)詞嵌入技術相比,BERT模型可以生成上下文感知的動態(tài)詞嵌入表示,能夠更好地對上下文語義進行建模。本文模型利用BERT為文本中的每個單詞生成詞嵌入向量。輸入嵌入層的結構如圖2所示,表示單詞對應的詞向量。

        圖2 輸入嵌入層

        2.2 內部注意力層

        獲得每個單詞的詞嵌入向量后,模型使用內部注意層來生成文本的特征表示。內部注意力層采用了多層的結構,每一層主要包括兩部分:多頭自注意力機制和前饋全連接層。本文設計了兩種并行的層次組合策略:連續(xù)層次組合和間隔層次組合。內部注意力層的結構如圖3所示。

        圖3 內部注意力層

        2.2.1多頭自注意力機制

        多頭自注意力利用多個并行的注意力機制獲得句子中每個單詞的加權注意力分數。這種結構設計能讓每個注意力機制優(yōu)化每個詞的不同特征部分,從而均衡同一種注意力機制可能產生的偏差,讓詞義擁有更多元的表達能力。多頭注意力中的“頭”是一種特殊的注意力機制,由多個并行的縮放點積注意力機制組成;因此在介紹多頭注意力之前,需要先介紹縮放點積注意力。縮放點積注意力和多頭注意力的結構如圖4所示。

        2.2.2前饋全連接層

        2.2.3層次組合策略

        考慮到單個內部注意力層難以完全提取句子中單詞之間的語義特征,本文模型采用多層次的內部注意力層捕獲文本內部的長期依賴關系,并獲得全面的上下文特征信息。本文設計了兩種并行的層次組合策略,包括連續(xù)層次組合策略和間隔層次組合策略。

        在連續(xù)層次組合策略中,將內部注意力層的最后層的輸出進行組合,獲得內部注意力層最終的特征輸出。對于間隔層次的組合策略,內部注意力層最終的特征輸出表示由間隔的層內部注意力的輸出組合獲得。兩種方式的計算如式(10)和式(11)所示:

        2.3 外部注意力層

        外部注意力層利用總結信息增強評論文本特征的情感語義信息。外部注意力層的結構如圖5所示,包括多個堆疊的注意力子層。外部注意力子層使用注意力機制捕獲評論與總結之間的情感依賴關系,通過在評論特征表示中查詢總結特征表示,增強評論特征的情感信息和語義信息。多個注意力子層堆疊有利于獲得更精細的特征表達能力。

        其中:為第i個外部注意力子層輸出的評論特征;、和是需要訓練學習的線性變換矩陣。注意力子層的計算方式也可以使用多頭注意力。

        2.4 分類輸出層

        分類輸出層的目的是將模型學習的分布式特征表示映射到樣本標記空間。模型的輸出層采用全局平均池化層和Softmax層替代傳統的池化層和全連接層,減少了模型的參數量,避免過擬合。

        模型的訓練目標是最小化預測標簽和真實標簽之間的交叉熵損失,損失函數的計算如式(15)所示:

        3 實驗與結果分析

        3.1 實驗設置

        3.1.1數據集

        本文在4個亞馬遜產品評論數據集上對模型的有效性進行實驗評估,數據集分別為:安卓應用程序數據集(App)、Kindle商店數據集(Kindle)、電子產品數據集(Electronic)和光盤與黑膠唱片數據集(CD)[30]。

        數據集的詳細統計情況如表1所示。原始數據集中的每篇評論數據主要包括一個純文本評論、一個用戶總結文本和一個從1~5的總體情感評分。每個數據集都是類別數量不平衡的數據集,本文將它們構造成積極數據與消極數據同等數量的平衡數據集。本文將情感評分為1和2的數據作為消極數據,情感評分為4和5的數據作為積極數據??紤]到積極數據的數量遠多于消極數據的數量,本文從積極數據中選擇與消極數據同等數量的數據作為平衡數據集中的積極數據,消極數據直接作為平衡數據集中的消極數據。本文按照7∶1∶2將構造的平衡數據集劃分成訓練集、驗證集和測試集,并且所有數據集中的積極數據和消極數據各占一半。

        表1數據集的詳細信息

        Tab.1 Details of datasets

        3.1.2實現細節(jié)

        本文的模型是在PyTorch 1.7.0和Python 3.8的環(huán)境下實現的。利用GPU對模型進行訓練,以加速計算過程。GPU類型為RTX 2080 Ti。

        3.1.3評估指標

        本文使用精確率(Precision)、召回率(Recall)、F1分數(F1)和準確率(Accuracy)四種評估指標來評估模型的性能,這些評估指標的定義公式如下:

        其中:表示將正樣本預測為正類的數目,表示將正樣本預測為負類的數目,表示將負樣本預測為正類的數目,表示將負樣本預測為負類的數目。

        3.2 基線模型

        為驗證本文模型的有效性,將本文模型與以下幾種基線模型進行實驗比較。

        1)IWV(Improved Word Vector)[19]。結合單詞詞性、詞典方法和Word2Vec方法改進詞向量,使用3個卷積層、1個最大池化層和1個用于情感分類的完全連接層組成模型結構。

        2)SS-BED(Sentiment and Semantic Based Emotion Detector)[21]。在兩個不同的詞嵌入矩陣上應用兩個平行的LSTM層學習語義和情感特征表示,利用具有隱藏層的全連接網絡預測情感類別。

        3)AC-BiLSTM(Attention-based BiLSTM with Convolution layer)[25]。通過卷積層提取局部特征,之后使用BiLSTM捕獲前后兩個方向的上下文表示。通過引入注意力機制,對隱藏層輸出的信息給予不同的關注,該模型既能捕獲短語的局部特征,又能捕獲句子的全局語義。

        4)ACR-SA(Attention-based deep model using two Channel CNN and Bi-RNN Sentiment Analysis)[28]。使用具有最大池化層的CNN提取上下文特征并降維,隨后應用兩個獨立的Bi-RNN捕獲長期依賴關系,并且將注意力機制應用于RNN層的輸出,以強調每個單詞的注意力水平。

        5)BiGRU-Att-HCNN(BiGRU-Attention and Hybrid CNN)[29]。結合BiGRU和自注意力機制獲取全局信息,并補充關鍵信息權重,之后使用兩個并行的空洞卷積和標準卷積,以較少的參數獲得多尺度特征信息,最后采用全局平均池化層替代池化層和全連接層,預測情感傾向。

        6)ABCDM(Attention-based Bidirectional CNN-RNN Deep Model)[31]。該模型由兩個雙向獨立的RNN層組合而成,用于提取前向和后向的特征,結合注意力機制對信息給予不同程度的關注,接著對每層的輸出分別應用兩個獨立的卷積層,進行特征降維并提取位置不變的局部特征。

        7)BERT-CNN(BERT with CNN semantic extraction layer)[32]。該模型首先在BERT模型的輸入表示層對評論文本進行編碼,之后使用CNN語義提取層提取評論文本向量的局部特征,BERT語義提取層提取評論文本向量的全局特征,語義連接層融合兩個模型提取的特征。

        8)MCBAT(MIX-CNN-BiLSTM-Attention-Transformer)[33]。通過CNN捕獲詞的固定搭配特征,通過BiLSTM獲取上下文特征,利用自注意力機制判斷每個詞在文本中的重要性。3種特征拼接后,分類器通過全連接層獲得情感分類結果。

        9)TE-GRU(Transformer Encoder with Gated Recurrent Unit)[34]。模型結合Transformer的全局特征提取能力和循環(huán)模型的序列特征提取能力。Transformer編碼器獲得文本的全局語義信息,可以更好地處理長序列信息丟失的問題,采用GRU的最終狀態(tài)作為分類的輸入,輸出預測的分類概率。

        3.3 實驗結果及分析

        3.3.1對比實驗

        本文模型與上述基線模型在4個數據集上進行實驗比較。按照內部注意力層不同的層次組合策略,本文模型分為兩種,即連續(xù)層次組合模型(Our_Model_1)和間隔層次組合模型(Our_Model_2)。4個數據集上的對比實驗結果如表2所示。從實驗結果看,在4個評論數據集的情感分類任務中,本文的兩種模型的分類效果都優(yōu)于其他基線模型。

        表24個數據集上的對比實驗結果 單位:%

        Tab.2 Comparative experimental results on four datasets unit:%

        IWV通過改進詞向量提高性能,SS-BED利用平行的LSTM學習語義和情感表達。與這兩者相比,本文模型應用注意力機制對重要的信息給予更多的關注,提高了模型的情感表達能力。AC-BiLSTM和ACR-SA使用序列編碼器提取特征并結合注意力機制提高情感分類性能;而本文模型采用了多層次注意力機制,內部注意力層并行地從不同特征子空間中學習語義特征,能夠降低模型時間復雜度并捕獲文本中的長期依賴關系,獲取全面的文本特征信息。BERT-CNN和TE-GRU利用Transformer框架結構提取全局語義信息并結合CNN或RNN,以此提高模型的特征表達能力;然而,模型的多層結構未得到有效利用。本文模型的內部注意力層設計了兩種并行層次組合策略,能夠獲得多層結構的豐富信息。本文模型在外部注意力層中采用了多層的注意力機制,使用總結信息對評論數據進行語義增強,與BiGRU-Att-HCNN、MCBAT等模型相比,評論特征具有更強的情感語義表達能力,因而模型的情感分類效果更好。另外,Our_Model_1的各項指標均高于Our_Model_2,這表明當模型的內部注意力層采用連續(xù)層次組合策略時擁有比間隔層次組合策略更好的性能。這可能是由于間隔層次中的低層和中層網絡擅長學習低級的信息表征,而連續(xù)層次中的高層網絡更能捕獲高級的語義信息特征。

        總體上,與基線模型中表現最好的TE-GRU相比,Our_Model_1在App、Kindle、Electronic和CD數據集上的情感分類準確率分別提高了0.65、0.75、0.63和1.01個百分點,Our_Model_2的情感分類準確率分別提高了0.36、0.34、0.58和0.66個百分點。對于F1分數,Our_Model_1相較于TE-GRU在4個數據集上分別提高了0.66、0.72、0.63和0.96個百分點,Our_Model_2在4個數據集上分別提高了0.39、0.31、0.58和0.64個百分點。這些結果表明本文模型能夠很好地處理情感分類任務。

        值得注意地,對于CD數據集,模型的性能提升效果最明顯,這可能與該數據集中評論文本的數據長度有關。如表3所示,CD數據集中的長文本數據占比更高,平均數據長度更長,本文模型中使用多層次的內部注意力層提取文本中的長期依賴關系,而這種長期依賴關系在長的評論文本中更加明顯,表明本文模型在處理長文本時具有更好的效果。

        3.3.2消融實驗

        為了研究不同模塊對模型性能的影響,對本文模型進行消融實驗分析。內部注意力層和外部注意力層是本文模型的最重要的結構,因此,本節(jié)將重點分析內部注意力層和外部注意力層對模型性能的影響。

        表4展示了針對內部注意力層的消融實驗的實驗結果,其中:Model-A為沒有使用內部注意力層的模型,Model-B為僅使用最后一層內部注意力層的模型,Model-C表示本文提出的連續(xù)層次組合策略模型,Model-D表示本文提出的間隔層次組合策略模型。根據Model-A與其他3組的比較結果,應用內部注意力層的模型在4個數據集上的準確率分別提高了至少3.65、2.99、3.70和3.93個百分點,這表明內部注意力層能夠很好地捕獲文本內部的依賴關系,極大地提高模型的情感分類性能。

        另外,通過表4中Model-B與Model-C、Model-D的對比可以發(fā)現,模型Model-C和Model-D在4個數據集上的準確率分別提高了至少0.30、0.61、0.47和0.64個百分點。上述結果表明,本文提出的內部注意力層的并行層次組合方法,包括連續(xù)層次組合模型和間隔層次組合模型,能夠獲得單層結構無法捕獲的額外信息,比僅使用最后一層內部注意力層的模型性能更好。

        為研究外部注意力層對模型性能的影響,本文在內部注意力層使用連續(xù)層次組合策略的前提下針對外部注意力層進行了實驗分析。實驗結果如表5所示,實驗設置了有外部注意力層模型和無外部注意力層模型。通過結果可以看出,使用外部注意力層的模型性能均優(yōu)于無外部注意力層的模型,在App、Kindle、Electronic和CD這4個數據集上的情感分類準確率分別提高了1.33、1.47、0.87和1.45個百分點,F1分數分別提高了1.42、1.55、0.96和1.54個百分點。這些指標的提升說明了外部注意力層能夠有效地增強評論文本中的情感語義信息,有利于提高模型的情感分類性能。

        表5外部注意力層的消融實驗結果 單位:%

        Tab.5 Ablation experimental results of external attention layer unit:%

        本文模型的外部注意力層也采用了多層次的結構,注意力子層數是影響外部注意力層性能的重要因素。表6為針對不同注意力子層數的實驗結果,其中,Model-N1、Model-N2、Model-N3和Model-N4分別表示外部注意力子層數分別為1~4的模型。結果顯示,不同層數的外部注意力層在4個數據集上的表現不同。具體地,層數為1~2的模型在4個數據集上的表現更好,對于App和Electronic數據集,Model-N2的準確率高于Model-N1;對于Kindle和CD數據集則是Model-N1的表現更好。但總體而言,Model-N2在4個數據集上的平均表現要優(yōu)于Model-N1。

        表6 外部注意力層的子層數對準確率的影響

        另外可以發(fā)現,模型的性能并沒有隨著子層數的增加而進一步提高,當層數為3~4時,模型在各數據集上的表現均有下降,這可能是因為高層次的外部注意力為評論文本引入了過多的噪聲,進而影響了模型的情感分類性能。上述結果表明,外部注意力層數能夠影響模型性能,針對不同的數據集使用合適的子層數能夠使模型有效地學習評論和總結之間的潛在聯系,進而提升模型的性能。

        4 結語

        本文提出了一種基于多層次注意力的語義增強情感分類模型。首先,模型通過構建上下文感知的動態(tài)詞嵌入,能夠更好地對文本的上下文語義進行建模。其次,使用內部注意力層和外部注意力層生成文本的隱藏特征表示:內部注意力層采用并行的多層次結構,引入了連續(xù)層次組合和間隔層次組合兩種策略,用于捕獲文本內部的長期依賴關系,獲得單層結構無法捕獲的額外信息;外部注意力層利用總結信息增強評論文本包含的情感語義信息,外部注意力層也采用了多層次的結構,以獲得更精細的評論特征表示。最后,使用分類輸出層對評論特征進行情感分類。在4個亞馬遜評論數據集上進行了多組實驗。實驗結果表明,本文模型提高了情感分類的性能。本文主要研究情感分析中的情感分類問題,未來將進一步研究在其他情感分析任務中的有效性。此外,本文模型以英語數據為基礎開發(fā),但它可以擴展到其他語言,我們接下來也會將研究方向擴展到跨語言文本情感分類,驗證提出的模型能夠適用于多種語言。

        [1] 張公讓,鮑超,王曉玉,等. 基于評論數據的文本語義挖掘與情感分析[J]. 情報科學, 2021, 39(5): 53-61.(ZHANG G R, BAO C, WANG X Y, et al. Sentiment analysis and text data mining based on reviewing data[J]. Information Science, 2021, 39(5): 53-61.)

        [2] HU R, RUI L, ZENG P, et al. Text sentiment analysis: a review [C]// Proceedings of the 2018 IEEE 4th International Conference on Computer and Communications. Piscataway: IEEE, 2018: 2283-2288.

        [3] ZHANG S, WEI Z, WANG Y, et al. Sentiment analysis of Chinese micro-blog text based on extended sentiment dictionary[J]. Future Generation Computer Systems, 2018, 81: 395-403.

        [4] VIJAYARAGAVAN P, PONNUSAMY R, ARAMUDHAN M. An optimal support vector machine based classification model for sentimental analysis of online product reviews[J]. Future Generation Computer Systems, 2020, 111: 234-240.

        [5] WANG Y. Iteration-based naive bayes sentiment classification of microblog multimedia posts considering emoticon attributes[J]. Multimedia Tools and Applications, 2020, 79: 19151-19166.

        [6] 趙宏,王樂,王偉杰. 基于BiLSTM-CNN串行混合模型的文本情感分析[J]. 計算機應用, 2020, 40(1): 16-22.(ZHAO H, WANG L, WANG W J. Text sentiment analysis based on serial hybrid model of bi-directional long short-term memory and convolutional neural network[J]. Journal of Computer Applications, 2020, 40(1): 16-22.)

        [7] GAN C, FENG Q, ZHANG Z. Scalable multi-channel dilated CNN-BiLSTM model with attention mechanism for Chinese textual sentiment analysis[J]. Future Generation Computer Systems, 2021, 118: 297-309.

        [8] BAHDANAU D, CHO K, BENGIO Y. Neural machine translation by jointly learning to align and translate [EB/OL]. (2016-05-19)[2022-12-22]. https://arxiv.org/pdf/1409.0473.pdf.

        [9] DEVLIN J, CHANG M-W, LEE K, et al. BERT: pre-training of deep bidirectional Transformers for language understanding [EB/OL]. (2019-05-24)[2022-08-27]. https://arxiv.org/pdf/1810.04805.pdf.

        [10] MIKOLOV T, SUTSKEVER I, CHEN K, et al. Distributed representations of words and phrases and their compositionality [EB/OL]. (2013-10-16)[2022-06-19]. https://arxiv.org/pdf/1310.4546.pdf.

        [11] PENNINGTON J, SOCHER R, MANNING C D. GloVe: global vectors for word representation [C]// Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2014: 1532-1543.

        [12] PETERS M E, NEUMANN M, IYYER M, et al. Deep contextualized word representations [EB/OL]. (2018-03-02)[2022-04-09]. https://arxiv.org/pdf/1802.05365.pdf.

        [13] VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need [EB/OL]. (2017-06-30)[2022-07-14]. https://arxiv.org/pdf/1706.03762v4.pdf.

        [14] RADFORD A, NARASIMHAN K, SALIMANS T, et al. Improving language understanding by generative pre-training [EB/OL]. (2018-06-18)[2022-07-18]. https://www.cs.ubc.ca/~amuham01/LING530/papers/radford2018improving.pdf.

        [15] KHEDR A E, SALAMA S E, YASEEN HEGAZY N. Predicting stock market behavior using data mining technique and news sentiment analysis [J]. International Journal of Intelligent Systems and Applications, 2017, 9(7): 22-30.

        [16] NANDAL N, TANWAR R, PRUTHI J. Machine learning based aspect level sentiment analysis for Amazon products [J]. Spatial Information Research, 2020, 28: 601-607.

        [17] BUDHI G S, CHIONG R, PRANATA I, et al. Using machine learning to predict the sentiment of online reviews: a new framework for comparative analysis [J]. Archives of Computational Methods in Engineering, 2021, 28: 2543-2566.

        [18] KALCHBRENNER N, GREFENSTETTE E, BLUNSOM P. A convolutional neural network for modelling sentences [EB/OL]. (2014-04-08)[2022-03-22]. https://arxiv.org/pdf/1404.2188.pdf.

        [19] REZAEINIA S M, RAHMANI R, GHODSI A, et al. Sentiment analysis based on improved pre-trained word embeddings[J]. Expert Systems with Applications, 2019, 117: 139-147.

        [20] ZHOU J, LU Y, DAI H-N, et al. Sentiment analysis of Chinese microblog based on stacked bidirectional LSTM [J]. IEEE Access, 2019, 7: 38856-38866.

        [21] CHATTERJEE A, GUPTA U, CHINNAKOTLA M K, et al. Understanding emotions in text using deep learning and big data[J]. Computers in Human Behavior, 2019, 93: 309-317.

        [22] HASSAN A, MAHMOOD A. Convolutional recurrent deep learning model for sentence classification[J]. IEEE Access, 2018, 6: 13949-13957.

        [23] BATBAATAR E, LI M, RYU K H. Semantic-emotion neural network for emotion recognition from text[J]. IEEE Access, 2019, 7: 111866-111878.

        [24] TAM S, SAID R B, TANRI?VER ? ?. A ConvBiLSTM deep learning model-based approach for Twitter sentiment classification[J]. IEEE Access, 2021, 9: 41283-41293.

        [25] LIU G, GUO J. Bidirectional LSTM with attention mechanism and convolutional layer for text classification[J]. Neurocomputing, 2019, 337: 325-338.

        [26] LI W, QI F, TANG M, et al. Bidirectional LSTM with self-attention mechanism and multi-channel features for sentiment classification [J]. Neurocomputing, 2020, 387: 63-77.

        [27] LIU F, ZHENG J, ZHENG L, et al. Combining attention-based bidirectional gated recurrent neural network and two-dimensional convolutional neural network for document-level sentiment classification [J]. Neurocomputing, 2020, 371: 39-50.

        [28] KAMYAB M, LIU G, RASOOL A, et al. ACR-SA: attention-based deep model through two-channel CNN and Bi-RNN for sentiment analysis[J]. PeerJ Computer Science, 2022, 8(4): e877.

        [29] ZHU Q, JIANG X, YE R. Sentiment analysis of review text based on BiGRU-attention and hybrid CNN [J]. IEEE Access, 2021, 9: 149077-149088.

        [30] McAULEY J, LESKOVEC J. Hidden factors and hidden topics: understanding rating dimensions with review text [C]// Proceedings of the 7th ACM Conference on Recommender Systems. New York: ACM, 2013: 165-172.

        [31] BASIRI M E, NEMATI S, ABDAR M, et al. ABCDM: an attention-based bidirectional CNN-RNN deep model for sentiment analysis[J]. Future Generation Computer Systems, 2021, 115: 279-294.

        [32] DONG J, HE F, GUO Y,et al. A commodity review sentiment analysis based on BERT-CNN model [C]// Proceedings of the 2020 5th International Conference on Computer and Communication Systems. Piscataway: IEEE, 2020: 143-147.

        [33] TAN Z, CHEN Z. Sentiment analysis of Chinese short text based on multiple features [C]// Proceedings of the 2nd International Conference on Computing and Data Science. New York: ACM, 2021: Article No. 65.

        [34] ZHANG B, ZHOU W. Transformer-Encoder-GRU (TE-GRU) for Chinese sentiment analysis on Chinese comment text [EB/OL]. (2021-08-01)[2022-11-18]. https://arxiv.org/pdf/2108.00400.pdf.

        Semantically enhanced sentiment classification model based on multi-level attention

        CAO Jianle, LI Nana*

        (,,300401,)

        The existing text sentiment classification methods face serious challenges due to the complex semantics of natural language, the multiple sentiment polarities of words, and the long-term dependency of text. To solve these problems, a semantically enhanced sentiment classification model based on multi-level attention was proposed. Firstly, the contextualized dynamic word embedding technology was used to mine the multiple semantic information of words, and the context semantics was modeled. Secondly, the long-term dependency within the text was captured by the multi-layer parallel multi-head self-attention in the internal attention layer to obtain comprehensive text feature information. Thirdly, in the external attention layer, the summary information in the review metadata was integrated into the review features through a multi-level attention mechanism to enhance the sentiment information and semantic expression ability of the review features. Finally, the global average pooling layer and Softmax function were used to realize sentiment classification. Experimental results on four Amazon review datasets show that, compared with the best-performing TE-GRU (Transformer Encoder with Gated Recurrent Unit) in the baseline models, the proposed model improves the sentiment classification accuracy on App, Kindle, Electronic and CD datasets by at least 0.36, 0.34, 0.58 and 0.66 percentage points, which verifies that the proposed model can further improve the sentiment classification performance.

        sentiment classification; Natural Language Processing (NLP); word embedding; attention mechanism; neural network

        TP391.1

        A

        1001-9081(2023)12-3703-08

        10.11772/j.issn.1001-9081.2022121894

        2023?02?01;

        2023?03?05;

        2023?03?08。

        曹建樂(1998—),男,山東濰坊人,碩士研究生,主要研究方向:文本分類、情感分析;李娜娜(1980—),女,河北保定人,副教授,博士,主要研究方向:數據挖掘、機器學習。

        CAO Jianle, born in 1998, M. S. candidate. His research interests include text classification, sentiment analysis.

        LI Nana, born in 1980, Ph. D., associate professor. Her research interests include data mining, machine learning.

        猜你喜歡
        注意力語義分類
        讓注意力“飛”回來
        分類算一算
        語言與語義
        分類討論求坐標
        數據分析中的分類討論
        教你一招:數的分類
        “揚眼”APP:讓注意力“變現”
        傳媒評論(2017年3期)2017-06-13 09:18:10
        A Beautiful Way Of Looking At Things
        “上”與“下”語義的不對稱性及其認知闡釋
        現代語文(2016年21期)2016-05-25 13:13:44
        認知范疇模糊與語義模糊
        久久婷婷国产五月综合色| 成人妇女免费播放久久久| 欧美高大丰满freesex| 成人精品免费av不卡在线观看| 国产另类人妖在线观看| 国产精品天干天干| 免费无码又爽又刺激聊天app| 久久青青草原亚洲AV无码麻豆| 免费av网址一区二区| 日韩精品在线视频一二三| gv天堂gv无码男同在线观看| 欧美激情五月| 女同国产日韩精品在线| 国产色视频一区二区三区不卡| 亚洲日韩一区二区一无码| 色综合久久丁香婷婷| 国产精品久久中文字幕亚洲| 男女18视频免费网站| 久久无码专区国产精品s| 欧美黄色免费看| 午夜黄色一区二区不卡| 色哟哟亚洲色精一区二区| 毛片大全真人在线| 九九久久国产精品大片| 国产精品女丝袜白丝袜美腿| 手机看黄av免费网址| 亚洲暴爽av天天爽日日碰| 色老汉亚洲av影院天天精品| 国产激情视频在线观看大全| 国产成人精品久久综合| 在线免费观看韩国a视频| 美女福利视频网址导航| 一本色道无码不卡在线观看| 日韩在线一区二区三区免费视频 | 插b内射18免费视频| 亚洲最新版无码AV| 一区二区亚洲熟女偷拍| 亚洲一区二区三区四区五区黄| 1717国产精品久久| 国产免费人成视频在线观看播放| 亚洲毛片在线免费视频|