亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于圖卷積網(wǎng)絡(luò)的短文本情感分類標(biāo)注

        2022-12-03 01:56:46佘久洲葉施仁
        計算機應(yīng)用與軟件 2022年11期
        關(guān)鍵詞:分類文本情感

        佘久洲 葉施仁 王 暉

        (常州大學(xué)信息科學(xué)與工程學(xué)院 江蘇 常州 213164)

        0 引 言

        當(dāng)前互聯(lián)網(wǎng)已經(jīng)成為了當(dāng)今時代信息傳播和獲取的主要渠道,截至2019年6月,我國網(wǎng)民數(shù)已達(dá)8.54億,普及率達(dá)61.2%。大量互聯(lián)網(wǎng)用戶促進(jìn)了互聯(lián)網(wǎng)產(chǎn)業(yè)的飛速發(fā)展,微博、微信和電商等平臺應(yīng)運而生。人們在平臺上發(fā)表自己的觀點,平臺中交織的觀點又無形中影響著用戶彼此。對網(wǎng)絡(luò)短文本進(jìn)行情感分類或意見挖掘,可以發(fā)現(xiàn)網(wǎng)絡(luò)中人們的觀點和情緒,評估用戶對產(chǎn)品、組織等實體的態(tài)度,具有重要的現(xiàn)實意義。承載用戶意見的網(wǎng)絡(luò)短文本與日常生活相關(guān),具有邏輯復(fù)雜、情感豐富和時效性強的特點?;谏疃葘W(xué)習(xí)的模型不僅能學(xué)習(xí)非線性的復(fù)雜關(guān)系,而且能學(xué)習(xí)數(shù)據(jù)中隱藏關(guān)系。尤其是基于注意力機制的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)和循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)模型在網(wǎng)絡(luò)短文本的情感分類任務(wù)上取得了很好的效果[1-2]。

        然而,在CNN和RNN模型中引入注意力機制后,依然容易忽略詞語間的依賴關(guān)系。即當(dāng)句子中存在多個情感極性不一致的短語時,模型的情感分類準(zhǔn)確率會受到影響。例如,對語句“Frenetic but not really funny.”進(jìn)行情感分類時,CNN和RNN模型是將句子看作是詞的序列組合,但句子中詞語間的隱藏聯(lián)系(依賴關(guān)系、詞性標(biāo)簽等)卻容易被忽略。此時,CNN和RNN模型均能較好地找到句中情感詞“Frenetic”和“funny”,但基于CNN的模型只能通過卷積操作獲取局部特征,忽略了例句中距離較遠(yuǎn)詞“not”和“funny”共現(xiàn)的特征;基于RNN的模型由于容易忽略局部特征對整體情感的影響,此時例句中的情感詞“Frenetic”和“funny”被注意力分配合適的權(quán)重,但過渡詞“but”和否定詞“not”卻被注意力機制給忽略,從而導(dǎo)致情感極性判斷出錯。

        在自然語言處理領(lǐng)域中,由于詞嵌入(Word Embedding)的文本文檔是一種非歐幾里得的數(shù)據(jù),數(shù)據(jù)中異構(gòu)成對關(guān)系可以通過圖(Graph)表示[3]。并且,由于樹形模型與句子結(jié)構(gòu)中句法解釋之間的關(guān)系,所以樹形模型是一種非常有吸引力的語言選擇[4]。構(gòu)建依賴關(guān)系樹,如圖1所示??梢园l(fā)現(xiàn)例句1中“but”作為轉(zhuǎn)折詞修飾的對象是“Frenetic”,而非連續(xù)的情感詞“Frenetic”和“funny”產(chǎn)生了并列聯(lián)系,說明“funny”詞對整句的情感極性影響最大。但由于“not really”作為否定狀語修飾的對象是“funny”,所以整體情感極性為消極。為將詞語間的依賴關(guān)系引入文本情感分類任務(wù),需要保持詞語間的樹狀依賴特征?;谡Z義依賴樹進(jìn)行計算,但CNN和RNN都不能直接計算語義依賴樹。

        圖1 例句的依賴關(guān)系

        Kipf等[5]在ICLR上提出了圖卷積網(wǎng)絡(luò)(Graph Convolutional Network,GCN)用于引文網(wǎng)絡(luò)(Citation Network)數(shù)據(jù)集的分類任務(wù)。GCN是一種處理圖數(shù)據(jù)(Graph Data)的多層神經(jīng)網(wǎng)絡(luò),每一層都使用近鄰特征(Features of Immediate Neighbors)去編碼和更新圖中的節(jié)點表征(Node Representation)。因樹是一種特殊的圖,所以在利用GCN處理例句1的情感極性時,由于依賴關(guān)系的制約,近鄰特征的使用受到限制。即當(dāng)編碼詞節(jié)點“Frenetic”表征時,詞節(jié)點“but”和“funny”的特征會被使用;而當(dāng)編碼詞節(jié)點“funny”的表征,只會考慮到依賴關(guān)系上近鄰特征“not”和“really”。通過依賴關(guān)系的約束,情感詞的表征得到重新編碼,過濾與情感詞無依賴關(guān)系的近鄰特征,因而情感分類的準(zhǔn)確率得到提高。

        基于該思想,本文提出一種基于圖卷積網(wǎng)絡(luò)的分類模型——SAGCN模型(Sentiment Analysis using Graph Convolutional Network)用于處理文本情感分類任務(wù)。模型首先根據(jù)句子的依賴樹(Semantic Dependency Tree)得到詞語間的依賴關(guān)系,并利用雙向長短時記憶網(wǎng)絡(luò)從文本數(shù)據(jù)中提取句子表征。其次利用圖卷積網(wǎng)絡(luò)結(jié)合依賴關(guān)系對句子表征進(jìn)行編碼得到節(jié)點表征。然后結(jié)合注意力機制,利用節(jié)點表征重新分配句子表征的情感權(quán)重,并輸入到全連接層,最終通過判別器判定句子的情感傾向。在情感分類基準(zhǔn)數(shù)據(jù)集上的結(jié)果表明,采用SAGCN模型具有較高的準(zhǔn)確率和良好的泛化性能。

        1 相關(guān)工作

        1.1 情感分類

        情感分類任務(wù)作為自然語言處理領(lǐng)域的研究熱點之一,根據(jù)處理的文本粒度不同,一般分為三個層次:篇章級(Document Level)、句子級(Sentence Level)和方面級(Aspect Level)[6]。對給定的評論文本,情感分析將文本分為積極(Positive)、消極(Negative)兩類情感,也可以根據(jù)實際需求進(jìn)一步細(xì)分為非常積極(Very Positive)、積極(Positive)、中立(Neutral)、消極(Negative)和非常消極(Very Negative)五類情感[7]。因此,情感分析可以是兩分類問題,也可以是五分類問題。近年來,隨著深度學(xué)習(xí)的興起,利用大規(guī)模語料庫,基于深度學(xué)習(xí)的模型能自動學(xué)習(xí)特征,摒棄了特征工程的弊端,在情感分類任務(wù)上取得了很好的效果。其中,Santos等[8]基于單詞的構(gòu)造(即以構(gòu)成單詞的字母為單位),提出CharCNN(Character to Sentence Convolutional Neural Network)模型。CharCNN模型以CNN為基礎(chǔ),采用兩個并行的卷積層分別學(xué)習(xí)單詞的構(gòu)造特征和句子的語義特征。Wang等[9]在LSTM(Long Short-Term Memory)的基礎(chǔ)上,結(jié)合詞向量算法,通過模擬詞語在合成過程中的相互作用,完成了對Twitter數(shù)據(jù)集進(jìn)行情感兩分類。

        Bahdanau等[10]將注意力機制引入機器翻譯中,在處理有限資源時注意力機制可以集中關(guān)注影響較大的部分,解決了翻譯時由于語句過長導(dǎo)致上下文依賴關(guān)系丟失的問題。注意力機制引入情感分類領(lǐng)域后,在處理邏輯復(fù)雜語句時,注意力機制可以分配不同語義特征的權(quán)重,提高分類任務(wù)的準(zhǔn)確率。Er等[11]在CNN的基礎(chǔ)上,提出APCNN(Attention Pooling-based Convolutional Neural Network)模型。該模型利用卷積層生成的局部特征與Bi-LSTM(Bidirectional LSTM)層生成的全局特征進(jìn)行注意力權(quán)重的計算,從而保留特征的位置信息和強度信息,增強語義特征的提取。Gao等[12]在LSTM的基礎(chǔ)上,提出AB-BiLSTM(Attention-based BiLSTM with POS Embeddings)模型。該模型使用Bi-LSTM層分別從詞嵌入(Word Embedding)和詞性嵌入(POS Embedding)中提取文本特征和詞性特征,利用注意力機制分別將文本特征和詞性特征進(jìn)行權(quán)重計算,從而保留詞性信息對整體語句的情感影響。

        1.2 圖神經(jīng)網(wǎng)絡(luò)

        基于CNN和RNN的模型是將句子看作是詞的序列組合,但忽略了詞語之間的關(guān)聯(lián)(依賴關(guān)系、詞頻等)。通過將句子轉(zhuǎn)為文本圖表示(Text Graph),每個詞看作是一個節(jié)點,詞語之間的關(guān)聯(lián)便是節(jié)點的邊,詞語間的關(guān)聯(lián)得到保留。文本圖已被廣泛運用于自然語言處理領(lǐng)域中各類任務(wù),如關(guān)鍵詞提取、文本分類等。最近的一些研究嘗試將CNN和RNN模型運用到圖數(shù)據(jù)上[13-14]。其中,Defferrard等[3]在CNN的基礎(chǔ)上,提出Graph-CNN-C模型。該模型通過修改卷積核和池化的計算,將CNN擴(kuò)展到非歐幾里得領(lǐng)域,在手寫數(shù)字識別和文本分類任務(wù)上取得良好成績。Tai等[4]在LSTM的基礎(chǔ)上,提出Dependency Tree-LSTM模型。該模型利用當(dāng)前輸入隱藏向量和任意子節(jié)點的狀態(tài)隱藏向量來計算當(dāng)前狀態(tài)隱藏向量,在情感分類任務(wù)上取得良好成績。盡管上述方法展示了文本圖的重要性,但這類方法仍存在計算效率低下、特征提取困難的問題。

        在神經(jīng)網(wǎng)絡(luò)的相關(guān)研究中,圖神經(jīng)網(wǎng)絡(luò)[15](Graph Neural Network,GNN)能處理圖數(shù)據(jù),將傳統(tǒng)神經(jīng)網(wǎng)絡(luò)(CNN、RNN)擴(kuò)展到非歐幾里得領(lǐng)域。圖卷積網(wǎng)絡(luò)作為圖神經(jīng)網(wǎng)絡(luò)最常見的模型。不僅完善了計算效率低的問題,而且提高了特征提取的能力,已逐漸成為學(xué)者的研究熱點之一[16-17]。其中,Kipf等[5]簡化切比雪夫多項式的計算,提出一階(First-Order)圖卷積網(wǎng)絡(luò)模型。該模型通過考慮步長K=2的節(jié)點對中心節(jié)點的影響,降低了運算復(fù)雜度,減少局部領(lǐng)域結(jié)構(gòu)(Local Neighborhood Structures)過擬合的問題,在引文數(shù)據(jù)集上取得了優(yōu)異的成果。Yao等[18]將PMI(Pointwise Mutual Information)算法與TF-IDF算法結(jié)合,提出Text-GCN模型。該模型將文本和單詞看作節(jié)點,采用One-hot Representation方法構(gòu)建詞向量,利用PMI和TF-IDF計算文本與單詞、單詞與單詞之間的關(guān)聯(lián)權(quán)重,構(gòu)文本圖和建鄰接矩陣。在文本分類任務(wù)上得到了比傳統(tǒng)神經(jīng)網(wǎng)絡(luò)更為突出的結(jié)果。Chen等[19]在GCN的基礎(chǔ)上,提出GCNSA模型。該模型將方面作為圖中特定區(qū)域,構(gòu)建文本圖。利用GCN對圖數(shù)據(jù)進(jìn)行卷積計算得到全文的隱藏狀態(tài),同時利用結(jié)構(gòu)注意力模型(Structural Attention Model),提取特定區(qū)域的信息,并使用平均池化的方法過濾隱藏狀態(tài)中與特定區(qū)域信息無關(guān)的特征,在方面級的文本情感五分類任務(wù)上取得良好的成果。

        2 基于圖卷積網(wǎng)絡(luò)的短文本情感分類模型

        因此,為了解決CNN和RNN模型無法直接計算依賴樹的問題,本文使用GCN去處理具有依賴關(guān)系的樹。同時,為了解決GCN忽略詞序的問題,本文引入Bi-LSTM來生成具有詞序信息的句子表征。兩層的GCN運算過程如圖2所示。

        圖2 兩層GCN的運算過程

        在預(yù)處理階段,利用句法分析工具,整句被構(gòu)建為語義依賴樹,通過分析詞節(jié)點間是否存在依賴關(guān)系(即節(jié)點間的邊),可以計算得到GCN使用的鄰接矩陣A。同時,考慮到詞序?qū)η楦刑卣鞯挠绊?,使用Bi-LSTM層產(chǎn)生的含有單詞及其特征的句子表征,可作為GCN的特征矩陣X。當(dāng)GCN對詞節(jié)點進(jìn)行卷積操作時,由于依賴關(guān)系的約束,情感詞的表征得以重新編碼,過濾與情感詞無依賴關(guān)系的近鄰特征,得到具有依賴關(guān)系的節(jié)點表征。此時,在計算情感特征的權(quán)重時,注意力機制不僅可以考慮到詞序?qū)η楦刑卣鞯挠绊懀夷芸紤]到依賴關(guān)系對情感特征的影響,因此可以提高情感分類的準(zhǔn)確率,增強可解釋性。

        基于該思想,提出基于圖卷積網(wǎng)絡(luò)的情感分類模型。該模型主要由四個部分組成,如圖3所示。第一部分是利用GloVe算法[20]將單詞轉(zhuǎn)為向量表示(即詞向量),同時利用句法分析工具分析詞語間的依賴關(guān)系得到依賴樹;第二部分通過Bi-LSTM提取詞向量特征(即文本特征),得到句子表征,同時GCN根據(jù)依賴關(guān)系編碼句子表征得到具有依賴關(guān)系的節(jié)點表征;第三部分是句子表征和節(jié)點向量通過注意力機制得到不同的語義編碼向量,每個向量代表了不同維度的語義信息;第四部分是通過判別器判定情感極性。

        圖3 面向情感分類的圖卷積網(wǎng)絡(luò)模型

        2.1 任務(wù)定義

        對于一個句子C={w1,w2,…,wn}及其對應(yīng)的情感標(biāo)簽Y,其中:wi表示句子C中第i個單詞;n為句子C的長度,則句子的最終情感極性判定計算過程如下:

        式中:θ表示模型所涉及的參數(shù);f(·)表示模型中的數(shù)學(xué)函數(shù)。

        通過詞向量算法將每個詞wi轉(zhuǎn)為詞向量ei,使用GloVe算法[20]訓(xùn)練得到詞向量查找表L∈R|V|×d,其中:|V|為單詞的集合;d為詞向量的維度。對于句中的單詞可以通過查表的方式轉(zhuǎn)為詞向量:

        ei=Lwi

        (4)

        此時,句子C的詞向量矩陣為E={e1,e2,…,en},其中n為句子長度,且E∈Rn×d。同時,利用句法分析工具(Dependency Parser)將句子C構(gòu)建成依賴樹,此時每個詞wi視為一個詞節(jié)點。

        2.2 Bi-LSTM的特征抽取

        2.3 GCN層編碼

        首先通過分析依賴樹中詞節(jié)點間是否存在依賴關(guān)系(即節(jié)點間的邊),可以構(gòu)建句子C的鄰接矩陣A。雖然依賴樹是有方向的圖,但GCN通常不考慮方向,卻可以適用于方向感知的場景。所以本文提出兩個變種SAGCN模型:基于有方向樹的SAGCN-T(SAGCN-Tree)和基于無方向圖的SAGCN-G(SAGCN-Graph)。SAGCN-T的鄰接矩陣比SAGCN-G更稀疏。不同模型下例句1矩陣A的計算如圖4所示。

        圖4 矩陣A的計算

        本文中,GCN的層數(shù)l為2,采用X=HL。所以此時句子C的GCN輸出計算過程如式(8)-式(10)所示。

        2.4 注意力層

        為了量化不同距離的單詞對情感分類結(jié)果的影響,本文引入注意力機制對任意單詞確定其權(quán)重值。在得到基于Bi-LSTM的輸出隱藏向量HL后,結(jié)合GCN的輸出隱藏向量利用注意力機制對單詞進(jìn)行加權(quán),得到基于注意力機制的隱藏向量r。首先計算t時刻的注意力分值。

        然后采用Softmax函數(shù)得到時刻的注意力權(quán)重分布ai。

        最后,利用求得的注意力權(quán)重對隱藏向量HG進(jìn)行加權(quán)求和,得到基于注意力機制的隱藏向量r。

        2.5 分類層

        在得到隱藏向量r后,將其輸入到全連接層,并通過Softmax歸一化層輸出得到極性決策空間上的概率分布P∈Rdp。

        p=Softmax(Wpr+bp)

        (14)

        式中:dp是標(biāo)簽的維數(shù),權(quán)重Wp∈Rdp×2dh和偏置bp∈Rdp是通過學(xué)習(xí)得到。

        2.6 模型訓(xùn)練

        本文使用標(biāo)準(zhǔn)的反向傳播算法[5]來訓(xùn)練模型,通過最小化交叉熵函數(shù)來優(yōu)化模型,交叉熵的代價函數(shù)如下:

        式中:n表示樣本總量;k表示類別數(shù);yi表示真實標(biāo)簽;pi表示預(yù)測標(biāo)簽;Θ表示所有可訓(xùn)練的參數(shù);λ是L2正則化的參數(shù)

        3 實驗與結(jié)果分析

        3.1 實驗數(shù)據(jù)集

        在情感分類任務(wù)中,本文使用三個基準(zhǔn)數(shù)據(jù)集對模型進(jìn)行評估,數(shù)據(jù)集的統(tǒng)計結(jié)果如表1所示。

        表1 數(shù)據(jù)集分布

        (1) SSTb-1:SSTb(Stanford Sentiment Treebank)數(shù)據(jù)集[8]的內(nèi)容來源于在線影評,屬于網(wǎng)絡(luò)短文本。數(shù)據(jù)集包含情感實證的概率,可將情感分成非常消極、消極、中性、積極和非常積極五類。

        (2) SSTb-2:情感兩分類的SSTb。其中:中性的評論被刪除;非常積極和積極的評論被標(biāo)記為積極;消極和非常消極的評論被標(biāo)記為消極。

        (3) MR:MR(Movie Review Sentence Polarity Dataset)是一個用于情感兩分類任務(wù)的數(shù)據(jù)集,包含5 331條正面情緒評論和5 331條負(fù)面情緒評論,采用文獻(xiàn)[18]的方法劃分?jǐn)?shù)據(jù)集。

        3.2 實驗設(shè)置

        本文使用SpaCy工具包中Dependency Parser工具構(gòu)建文本的依賴關(guān)系樹;詞嵌入(Word Embedding)在送入模型訓(xùn)練前采用Dropout[21]減少過擬合,提升模型泛化能力。實驗結(jié)果采用隨機初始化運行,結(jié)果平均三次,以準(zhǔn)確率和Macro-AveragedF1值作為評價指標(biāo),以驗證模型在基線模型上取得改進(jìn)是有效的。實驗中各超參數(shù)設(shè)置在表2中給出。

        表2 實驗超參數(shù)設(shè)置

        3.3 基準(zhǔn)模型

        為了比較和論證SAGCN模型的有效性,本文選擇多個基準(zhǔn)模型進(jìn)行比較。

        (1) CharCNN:Santos等[8]提出一種基于CNN的情感分類模型,該模型基于單詞構(gòu)造。

        (2) LSTM:Wang等[9]定義的LSTM模型,使用最后一個隱藏狀態(tài)作為全文表示。

        (3) AB-BiLSTM:Gao等[12]提出一種基于注意力機制的Bi-LSTM的情感分類模型,文中僅使用詞嵌入作為輸入。

        (4) Graph-CNN-C:Defferrard等[3]提出一種圖CNN模型,該模型對詞嵌入的相似圖進(jìn)行卷積操作。

        (5) Text-GCN:Yao等[18]提出一種GCN模型,該模型將每個詞看作是一個節(jié)點,利用TF-IDF和PMI計算詞節(jié)點的邊。

        3.4 結(jié)果分析

        表3給出了SAGCN模型與其他基準(zhǔn)模型在數(shù)據(jù)集上執(zhí)行情感分類標(biāo)注的準(zhǔn)確率。

        表3 不同模型的準(zhǔn)確率(%)

        可以看出,本文所提出的SAGCN模型在情感兩分類任務(wù)上的準(zhǔn)確率均優(yōu)于其他基準(zhǔn)模型。與CharCNN的模型相比,SAGCN-G在兩分類任務(wù)上的準(zhǔn)確率分別提高了6.3百分點和3.5百分點,五分類任務(wù)上提高了3.3百分點。這是因為CharCNN只能通過卷積獲取局部語義特征,而不同距離上的語義依賴關(guān)系對文本情感分類的影響較大。與Text-GCN相比,本文提出的模型在兩分類任務(wù)上的準(zhǔn)確率分別提高了7.0百分點和2.6百分點,五分類任務(wù)上提高了5.0百分點。這是因為在引入依賴關(guān)系后,通過注意力機制對情感詞重新分配權(quán)重,提升了模型的分類準(zhǔn)確率。與AB-BiLSTM模型相比,本文提出的模型在情感兩分類任務(wù)上的準(zhǔn)確率分別提高了3.2百分點和1.3百分點??梢钥闯龌谧⒁饬C制的模型在加入依賴關(guān)系后,兩分類任務(wù)的準(zhǔn)確率得到一定提升。同時不難發(fā)現(xiàn),本文提出的SAGCN模型在五分類僅略低于AB-BiLSTM模型,這是因為GCN只考慮步長K=2的節(jié)點對中心節(jié)點的影響,并未考慮更大步長節(jié)點對中心節(jié)點的影響,這種影響容易造成語義的多層次信息丟失。

        同時也可以看出,本文提出的SAGCN-G模型與SAGCN-T模型相比,在兩分類數(shù)據(jù)集SSTb-2和MR上的準(zhǔn)確率分別提高了2.7百分點和0.7百分點,五分類上的準(zhǔn)確率提高了1.3百分點。這是由于來自父節(jié)點的信息與來自子節(jié)點的信息同樣重要,因此將依賴樹視為有方向的圖容易導(dǎo)致信息丟失。

        3.5 GCN層數(shù)的影響

        由于本文所提出的SAGCN模型涉及一個l層的GCN網(wǎng)絡(luò),所以本文研究層數(shù)l對SAGCN-G結(jié)果的影響。詞向量維度為300,層數(shù)l={1,2,3,4,6,8,10},在SSTb-2數(shù)據(jù)集上比較準(zhǔn)確率和Macro-AveragedF1值,結(jié)果如圖5所示。

        (a)(b)圖5 GCN層數(shù)影響

        在這兩個指標(biāo)上可以看出,SAGCN-G在l層為2時達(dá)到最好的性能,表明了在實驗部分中層數(shù)的選擇是合理的。此外,可以看出隨著l層數(shù)的增加,兩個指數(shù)都呈下降趨勢,當(dāng)l=10時候,由于有大量超參數(shù),所以SAGCN-G訓(xùn)練變得困難,此時的準(zhǔn)確率和Macro-AveragedF1都大幅下降。

        3.6 案例分析

        為了更好地展示SAGCN-G是如何處理情感分類任務(wù)的,本文通過一組帶有標(biāo)簽的英文短文本在SAGCN-G模型上的結(jié)果與文獻(xiàn)中AB-BiLSTM(輸入端僅使用Word Embedding)模型上的結(jié)果進(jìn)行比較分析。例句見表4,其中,例句1中間存在過渡詞“but”,“funny”前用“not”否定詞強調(diào),提高情感分類的難度。例句2中使用“while”、“still”等過渡詞,同時還有否定句,容易導(dǎo)致模型做出錯誤的預(yù)測。

        表4 例句

        表5、表6分別展示了AB-BiLSTM模型和SAGCN-G模型的注意力得分情況以及對句子情感類別的預(yù)測和預(yù)測得分,句子的背景顏色越深,表示注意力得分越高,預(yù)測概率是預(yù)測情感類別的概率。

        表5 例句1的結(jié)果

        表6 例句2的結(jié)果

        對例句1,AB-BiLSTM模型忽略了過渡詞“but”和否定詞“not”,注意力并未分配適當(dāng)?shù)臋?quán)重對過渡詞和否定詞進(jìn)行強調(diào),所以AB-BiLSTM錯誤地判定情感極性。而SAGCN-G由于使用了詞語間的依賴關(guān)系,注意力更好地關(guān)注到過渡詞“but”和“not”上,因而情感極性判定正確。對例句2,兩個模型均正確預(yù)測了句子的情感極性,但通過預(yù)測概率不難發(fā)現(xiàn)SAGCN-G處理例句2時,判定Positive的概率高于AB-BiLSTM,這是因為結(jié)合依賴關(guān)系,注意力機制對后半句分配了更大的權(quán)重,同時GCN在編碼情感詞“satisfying”的表征時,僅會考慮“ultimately”詞節(jié)點的特征,忽略了前半段“not”詞節(jié)點對“satisfying”的影響,提高了預(yù)測概率。圖6展示了例句2中詞語間的依賴關(guān)系。

        圖6 例句2的依賴關(guān)系

        4 結(jié) 語

        針對邏輯復(fù)雜、情感豐富、時效性強的網(wǎng)絡(luò)短文本,本文提出一種基于圖卷積網(wǎng)絡(luò)的情感分類模型。該模型首先根據(jù)句子的依賴樹得到詞語間的依賴關(guān)系,并利用雙向長短時記憶網(wǎng)絡(luò)從文本數(shù)據(jù)中提取句子表征。其次利用圖卷積網(wǎng)絡(luò)結(jié)合依賴關(guān)系對句子表征進(jìn)行編碼得到節(jié)點表征。然后結(jié)合注意力機制,利用節(jié)點表征重新分配句子表征的情感權(quán)重,使模型可以更好地關(guān)注對情感極性影響大的部分,并輸入到全連接層,最終通過判別器判定句子的情感傾向。實驗結(jié)果表明,本文提出的模型與其他模型相比在情感兩分類任務(wù)上的準(zhǔn)確率優(yōu)于已知方法,在五分類上表現(xiàn)良好。

        本文方法并未考慮到領(lǐng)域知識。如果設(shè)計具有層次結(jié)構(gòu)特征的文本圖涵蓋領(lǐng)域知識,可能可以提升本文方法的性能。此外,引入一個更有效的卷積規(guī)則來解決過度平滑的問題,避免隨著卷積層數(shù)的增加節(jié)點的特征會被過度平滑,降低了準(zhǔn)確率。嘗試調(diào)整參數(shù)和部分模型,探索本文方法在中文短文本情感分類標(biāo)注問題的應(yīng)用,是我們今后進(jìn)一步開展工作的方向。

        猜你喜歡
        分類文本情感
        分類算一算
        如何在情感中自我成長,保持獨立
        失落的情感
        北極光(2019年12期)2020-01-18 06:22:10
        情感
        在808DA上文本顯示的改善
        分類討論求坐標(biāo)
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        如何在情感中自我成長,保持獨立
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        精品国产三级a| 久久精品中文字幕大胸| 无遮挡又黄又刺激又爽的视频| 久久九九有精品国产尤物| 国产成人夜色在线视频观看| 青青草成人在线播放视频 | 亚洲精品www久久久| 国产精品久久久久国产精品| 91自国产精品中文字幕| 中文字幕亚洲精品在线免费| 免费视频成人片在线观看| 精品无码国产污污污免费| 午夜一区二区三区在线视频| 美丽小蜜桃1一3在线观看| 国产福利视频一区二区| 国产黄色片在线观看| 免费人成黄页网站在线观看国内| 日韩有码在线观看视频| 日本高清视频xxxxx| 在线免费观看韩国a视频| 美女福利视频网址导航| 无码人妻丰满熟妇区免费| 国产人妻久久精品二区三区| 亚洲欧美日韩高清一区二区三区| 亚洲成人av大片在线观看| 国产成人av综合色| 美女视频一区| 东京道一本热码加勒比小泽| 亚洲精品粉嫩美女一区| 国产涩涩视频在线观看| 在线观看国产三级av| 国产一区二区黑丝美胸| 国产人妻熟女高跟丝袜图片| 宅男噜噜噜| 亚洲中文字幕乱码在线视频| 男人的天堂av高清在线| 久久人人爽人人爽人人片亞洲| 亚洲日产AV中文字幕无码偷拍| 国产熟女露脸91麻豆| 亚洲综合精品伊人久久| 丁香六月久久|