亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于卷積自注意力聯(lián)合模型的評(píng)論情感分析*

        2022-05-10 07:28:14盧浩陳偉
        關(guān)鍵詞:語(yǔ)義特征文本

        盧浩陳偉

        (南京理工大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院 南京 210094)

        1 引言

        隨著國(guó)家近年來(lái)大力推動(dòng)移動(dòng)互聯(lián)網(wǎng)的發(fā)展和微博、微信、論壇等社交媒體的興起,越來(lái)越多的網(wǎng)民愿意在網(wǎng)絡(luò)上發(fā)表見(jiàn)聞、觀點(diǎn)、想法[1]。消費(fèi)者在網(wǎng)絡(luò)上選購(gòu)商品和服務(wù)時(shí),可以方便查看他人對(duì)商品的評(píng)論并可以自行發(fā)表評(píng)論。商家可以通過(guò)挖掘這些包含用戶(hù)情感傾向的評(píng)論文本信息來(lái)獲取用戶(hù)的觀點(diǎn)和評(píng)價(jià),提高產(chǎn)品和服務(wù)的質(zhì)量。情感分析(Sentiment Analysis)作為自然語(yǔ)言處理(Natural Language Processing,NLP)的一個(gè)重要分支,其發(fā)展在自然語(yǔ)言處理領(lǐng)域有重大的影響[2]。移動(dòng)互聯(lián)網(wǎng)的興起使得用戶(hù)評(píng)論數(shù)據(jù)呈現(xiàn)指數(shù)級(jí)別的增長(zhǎng),如何高效準(zhǔn)確地挖掘評(píng)論信息中的情感傾向,成為了當(dāng)今自然語(yǔ)言處理方向的研究熱點(diǎn)。

        2 相關(guān)工作

        情感分析是自然語(yǔ)言處理領(lǐng)域的一個(gè)研究熱點(diǎn),主要包括情感極性分析、情感方面抽取、主客觀分析等子課題,主要目的是從詞語(yǔ)、句子或者篇章中提取評(píng)論人的主觀情感傾向。

        目前的情感分析所用的技術(shù)路線主要分成三類(lèi):基于語(yǔ)義規(guī)則的方法、基于特征機(jī)器學(xué)習(xí)的方法和基于深度學(xué)習(xí)的方法[3]?;谇楦性~典的方法主要依據(jù)語(yǔ)義構(gòu)建情感詞典,結(jié)合情感詞典和人工設(shè)定傾向性評(píng)價(jià)的指標(biāo)與方法來(lái)判斷情感傾向性。基于機(jī)器學(xué)習(xí)方法需要利用人工的方式設(shè)計(jì)篩選出文本的特征,將文本特征向量化之后輸入到機(jī)器學(xué)習(xí)算法中進(jìn)行分類(lèi),特征的選取直接影響分析結(jié)果,且泛化能力較差。Pang等[4]使用基于機(jī)器學(xué)習(xí)的算法,利用最大熵、貝葉斯、支持向量機(jī)等多種分類(lèi)器進(jìn)行了對(duì)電影評(píng)論的情感分析,取得了較好的效果。這兩種方法由于需要大量的人工標(biāo)注和特征工程,且泛化能力較差的特點(diǎn),已經(jīng)逐漸被淘汰。

        基于深度學(xué)習(xí)的方法較好地規(guī)避了傳統(tǒng)方法的弊端,隨著深度學(xué)習(xí)在自然語(yǔ)言處理領(lǐng)域的使用,利用深度學(xué)習(xí)算法進(jìn)行文本情感分析成為了研究界的主流趨勢(shì)。Kim等[5]提出使用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)實(shí)現(xiàn)了句子級(jí)別的情感分類(lèi)任務(wù),在多個(gè)數(shù)據(jù)集上均取得了很好的結(jié)果。CNN具有提取深層次短語(yǔ)特征的特點(diǎn)[6],但其無(wú)法學(xué)習(xí)到句子內(nèi)部和句子之間依賴(lài)關(guān)系和上下文信息。梁軍[7]等在長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)基礎(chǔ)上融合了極性轉(zhuǎn)移機(jī)制對(duì)影評(píng)數(shù)據(jù)集進(jìn)行了情感分析實(shí)驗(yàn)。Xiao等[8]提出雙向長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)(Bidirectional Long Short-Term Memory,BiLSTM)的情感分析方法,BiLSTM可以從兩個(gè)方向上獲取上下文特征,綜合學(xué)習(xí)前后向語(yǔ)義信息,能夠有效提高模型的精度。Tai等[9]嘗試在LSTM模型的基礎(chǔ)上以樹(shù)形結(jié)構(gòu)來(lái)描述文本,提高句子結(jié)構(gòu)的語(yǔ)義表達(dá),同時(shí)解決了循環(huán)神經(jīng)網(wǎng)絡(luò)在時(shí)間上的梯度彌散問(wèn)題。

        深度學(xué)習(xí)中的注意力機(jī)制是對(duì)人類(lèi)所特有的腦部信號(hào)處理機(jī)制的模仿,能夠在眾多的輸入信息中找到特定關(guān)注的區(qū)域,忽略一些次要信息。人類(lèi)可以通過(guò)快速掃描圖像來(lái)獲取視覺(jué)注意力焦點(diǎn),分配特定區(qū)域更多的注意力。注意力機(jī)制最早是由Bahdanau等[10]應(yīng)用到自然語(yǔ)言處理領(lǐng)域,眾多學(xué)者對(duì)注意力機(jī)制在情感分析領(lǐng)域進(jìn)行了研究與應(yīng)用。Yang等[11]提出了基于層次化注意力機(jī)制的文本分類(lèi)模型,通過(guò)句子和詞語(yǔ)兩個(gè)級(jí)別的注意力來(lái)提高分類(lèi)準(zhǔn)確率。張仰森等[12]利用注意力模型對(duì)微博文本內(nèi)容和情感符號(hào)進(jìn)行雙重編碼,提出了基于雙重注意力的微博情感分類(lèi)方法。顧軍華等[13]使用卷積操作提取文本注意力信號(hào),并將其加權(quán)融合到文本分布式表示矩陣中,提升了模型的準(zhǔn)確度。趙云山等[14]在CNN網(wǎng)絡(luò)中引入Attention機(jī)制,使得傳統(tǒng)的CNN也能計(jì)算局部特征與非局部特征之間的依賴(lài)關(guān)系,有效地提取句子級(jí)別的分類(lèi)特征。李勇等[15]提出了融合位置注意力的BiLSTM評(píng)論情感分析網(wǎng)絡(luò),通過(guò)位置注意力與語(yǔ)義特征的融合,提升了情感詞的權(quán)重。谷歌公司在2017年提出了自注意力機(jī)制[16],在機(jī)器翻譯領(lǐng)域獲得了較大的突破。這種自注意力機(jī)制所依賴(lài)的外部參數(shù)少,更容易獲取文本內(nèi)部依賴(lài)關(guān)系,在文本情感分析尤其是針短文本情感分析時(shí),可以取得比較好的準(zhǔn)確率表現(xiàn)。吳小華等[17]提出了結(jié)合Self-Attention機(jī)制和文本字向量表示方法的情感分析網(wǎng)絡(luò),更完整保留了短文本中的稀疏特征,提高了分類(lèi)準(zhǔn)確率。王拂林等[18]利用自注意力和LSTM進(jìn)行語(yǔ)義編碼結(jié)合動(dòng)態(tài)記憶網(wǎng)絡(luò),在方面級(jí)別情感分析中取得了較好的結(jié)果。

        3 網(wǎng)絡(luò)模型結(jié)構(gòu)

        本文提出了基于多通道卷積自注意力聯(lián)合模型,模型結(jié)構(gòu)如圖1所示。首先將預(yù)處理好的文本通過(guò)Word Embedding生成詞向量,同時(shí)將詞向量送入多通道CNN和BiLSTM層中分別進(jìn)行特征提取。通過(guò)多通道CNN,使用不同寬度的卷積核,提取出不同詞粒度的局部信息表示,并引入自注意力機(jī)制(Self-Attention),將學(xué)習(xí)到的結(jié)果送入Self-Attention層中,再經(jīng)過(guò)池化后將向量序列拼接獲取最終的局部語(yǔ)義表示結(jié)果。同時(shí)使用BiLSTM獲取到全局語(yǔ)義,并使用Self-Attention提高對(duì)文本內(nèi)部特征的獲取,將上述兩個(gè)通道內(nèi)的不同語(yǔ)義特征進(jìn)行融合后,得到最終的語(yǔ)義表示。最后將所得到的文本特征表示通過(guò)全連接層后再通過(guò)分類(lèi)層,輸出最終的分類(lèi)結(jié)果。

        圖1 網(wǎng)絡(luò)結(jié)構(gòu)圖

        3.1 詞向量層

        在詞向量標(biāo)識(shí)層之前,由于中文文本的特殊性,需要進(jìn)行數(shù)據(jù)清洗,分詞和去除停用詞等操作。同時(shí)為了方便統(tǒng)一處理,需要對(duì)文本語(yǔ)料的長(zhǎng)度進(jìn)行截取和補(bǔ)齊處理。進(jìn)行預(yù)處理完的文本內(nèi)容本不具有豐富的高維向量表示,需要將文本內(nèi)容轉(zhuǎn)換成詞向量以獲取模型網(wǎng)絡(luò)的輸入向量。因此文本情感分析首先需要將長(zhǎng)度為n的文本序列表示成d維單詞向量序列。目前,通常訓(xùn)練詞向量采用的方法是使用Word2vec詞向量訓(xùn)練工具,該技術(shù)主要包含兩種模型,Skip-gram模型和連續(xù)詞袋模型(CBOW)[19],前者的主要思想是利用目標(biāo)詞預(yù)測(cè)其周?chē)脑~,后者則是利用周?chē)脑~語(yǔ)預(yù)測(cè)目標(biāo)詞。在本文實(shí)驗(yàn)中,使用Word2vec進(jìn)行詞向量訓(xùn)練,本文將使用Skip-gram模型進(jìn)行訓(xùn)練并將生成的詞向量矩陣作為網(wǎng)絡(luò)模型的輸入信息。

        3.2 雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)

        循環(huán)神經(jīng)網(wǎng)絡(luò)是一種序列神經(jīng)網(wǎng)絡(luò),可以獲取文本內(nèi)容的上下文特征,廣泛應(yīng)用于自然語(yǔ)言處理任務(wù)中。Hochreiter[20]提出的LSTM網(wǎng)絡(luò)解決了傳統(tǒng)的RNN存在的梯度消失和梯度爆炸的問(wèn)題而且更容易學(xué)習(xí)到長(zhǎng)期依賴(lài)關(guān)系,其具體單元結(jié)構(gòu)如圖2所示。LSTM每個(gè)單元主要由輸入門(mén)i、輸出門(mén)o和遺忘門(mén)f記錄并更新信息,通過(guò)門(mén)控的方式提高了長(zhǎng)距離重要語(yǔ)義信息的捕獲,式(1)~式(6)則為L(zhǎng)STM的更新方式。

        圖2 LSTM單元結(jié)構(gòu)圖

        其中,σ表示激活函數(shù);tanh是雙曲正切函數(shù);Wi,Wo,Wf、bi,bf,bo分別為輸入門(mén)、輸出門(mén)和遺忘門(mén)對(duì)應(yīng)的權(quán)重矩陣和偏執(zhí)矩陣;xt是當(dāng)前的輸入向量。

        3.3 多通道卷積神經(jīng)網(wǎng)絡(luò)

        卷積神經(jīng)網(wǎng)絡(luò)已經(jīng)在圖像識(shí)別等領(lǐng)域取得了巨大成功[21],同時(shí)也被應(yīng)用于了自然語(yǔ)言處理領(lǐng)域中。卷積神經(jīng)網(wǎng)絡(luò)主要使用卷積層學(xué)習(xí)局部特征并通過(guò)池化層進(jìn)行特征映射。在本文任務(wù)中卷積的過(guò)程就是一個(gè)一維濾波器掃過(guò)詞向量矩陣,通過(guò)在不同的位置檢測(cè)并提取特征,以此實(shí)現(xiàn)全局特征的提取。

        將詞向量嵌入層的輸出作為卷積層的輸入,句子的長(zhǎng)度為n,向量維度為d,則句子的第i個(gè)詞向量可以表示為xi∈Rd,則文本可以表示為由n個(gè)d維向量組成的詞向量矩陣x∈Rn×d,如式(9)所示。

        其中,⊕代表拼接運(yùn)算符,卷積層使用不同的卷積核提取局部上下文信息,用卷積核w∈Rh×d進(jìn)行卷積操作,其中濾波器的窗口大小為d,寬度為h,其過(guò)程可以表示為

        其中,b為偏置項(xiàng),f是激活函數(shù),為了加快訓(xùn)練速度,本文選擇Relu函數(shù)作為激活函數(shù),xi:i+h-1∈Rh×d表示由h個(gè)詞構(gòu)成的濾波器窗口,經(jīng)過(guò)卷積操作之后得到的特征序列C,C=[c1,c2,…cn-h+1]。為了更加充分利用不同尺寸的卷積核卷積操作所獲取的不同粒度的序列特征,本文采用了多通道卷積層,使用三種不同尺寸的卷積核,獲取多種粒度的特征序列C1、C2和C3。對(duì)于文本矩陣而言,行與行之間具有語(yǔ)序特征,可以通過(guò)不同維度的卷積操作獲取更加豐富的語(yǔ)義特征[22]。因此,使用多通道CNN進(jìn)行不同詞粒度的卷積操作進(jìn)行文本特征提取,能夠提高卷積神經(jīng)網(wǎng)絡(luò)的提取文本特征的能力,能獲取更加豐富的語(yǔ)義和語(yǔ)序特征,同時(shí)由于CNN并行化計(jì)算的特點(diǎn),相比于LSTM網(wǎng)絡(luò)可以提高訓(xùn)練速度。

        3.4 自注意力機(jī)制與融合層

        注意力機(jī)制是一種對(duì)人腦的注意力分配機(jī)制的模仿。注意力機(jī)制本質(zhì)是特征選擇機(jī)制對(duì)輸入序列進(jìn)行動(dòng)態(tài)編碼,從眾多信息中獲取對(duì)當(dāng)前任務(wù)最重要的信息,高效感知語(yǔ)義特征信息。自注意力(Self-Attention)是注意力機(jī)制中的一種,又被稱(chēng)為內(nèi)部注意力,其特點(diǎn)在于無(wú)需外部額外信息直接計(jì)算依賴(lài)關(guān)系,能夠更好地學(xué)習(xí)句子的內(nèi)部結(jié)構(gòu)。將Bi-LSTM層的輸出向量H輸入到自注意力層,學(xué)習(xí)到序列內(nèi)部的依賴(lài)關(guān)系和不同詞向量的權(quán)重。自注意力的計(jì)算過(guò)程使得句子中任意兩個(gè)單詞之間可以無(wú)視距離直接聯(lián)系起來(lái),遠(yuǎn)距離依賴(lài)特征更加容易被學(xué)習(xí)到,式(11)是其計(jì)算過(guò)程。

        其中,H∈Rd是Bi-LSTM層的輸出向量是調(diào)節(jié)因子,避免內(nèi)積過(guò)大,sof t max函數(shù)的作用是對(duì)權(quán)重進(jìn)行歸一化處理。

        本文使用雙自注意力機(jī)制,將多通道CNN層經(jīng)過(guò)卷積操作后得到的向量序列和Bi-LSTM層的輸出向量H都輸入至Self-Attention層中進(jìn)行建建模,提高內(nèi)部語(yǔ)義信息的獲取。多通道粒度的特征序列C1、C2和C3經(jīng)過(guò)Self-Attention層之后所得到的特征序列所得到的的特征序列需要經(jīng)過(guò)池化層對(duì)提取出的特征進(jìn)行采樣,本文選用最大池化(Max pooling),該池化方法是將過(guò)濾器抽取到的多個(gè)特征值中的最大值保留下來(lái),獲取到局部區(qū)域內(nèi)的最突出特征。講池化后的三個(gè)特征序列拼接所作為句子的語(yǔ)義部分表示,如式(12)~式(13)所示:

        Bi-LSTM層的輸出向量H都輸入至Self-Attention層后所得到的向量為H'。在融合層中使用concatenate函數(shù)講兩個(gè)通道的不同語(yǔ)義特征拼接起來(lái),得到最終的語(yǔ)義向量表示A={H',N}。

        3.5 分類(lèi)層

        本文模型中,將最終融合得出的句子特征向量作為全連接層的輸入,并通過(guò)sof tmax函數(shù)進(jìn)行歸一化,可以得到最終的分類(lèi)結(jié)果,如式(14)所示:

        其中wc是可訓(xùn)練權(quán)重矩陣,bc是偏置。本文損失函數(shù)使用交叉熵?fù)p失,本文的損失函數(shù)如式(15)所示:

        其中,y(i)表示第i個(gè)文本的情感預(yù)測(cè)值,λ是L2正則化系數(shù)的懲罰項(xiàng)目,θ是模型設(shè)置的參數(shù)。本文使用的優(yōu)化器為Adam[23]來(lái)降低損失值。

        4 實(shí)驗(yàn)

        4.1 實(shí)驗(yàn)數(shù)據(jù)與環(huán)境

        本文選用譚松波[24]整理的酒店評(píng)論語(yǔ)料(Chn-SentiCorp_htl)訓(xùn)練和驗(yàn)證模型的有效性。該數(shù)據(jù)集的語(yǔ)料規(guī)模為10000條,整理成四個(gè)子集,本文選用其中的6000條平衡語(yǔ)料子集(ChnSenti-Corp_htl_ba_6000),正向和負(fù)向的酒店評(píng)論各3000條,文本內(nèi)容是用戶(hù)對(duì)酒店的評(píng)價(jià),該數(shù)據(jù)集文本平均長(zhǎng)度38.18,最大長(zhǎng)度337。本文采用10折交叉驗(yàn)證的方法進(jìn)行實(shí)驗(yàn),具體的實(shí)驗(yàn)環(huán)境如表1所示。

        表1 實(shí)驗(yàn)環(huán)境配置

        4.2 參數(shù)設(shè)置

        深度學(xué)習(xí)模型的訓(xùn)練實(shí)驗(yàn)中,參數(shù)設(shè)置對(duì)結(jié)果會(huì)有較大影響,經(jīng)過(guò)實(shí)驗(yàn)對(duì)比,本文使用了以下的參數(shù)設(shè)置。詞向量的維度為200維,BiLSTM層的隱藏層有128個(gè)神經(jīng)元,卷積核的寬度分別為3、4和5,卷積核個(gè)數(shù)均為250。dropout率是0.2,Adam優(yōu)化器的學(xué)習(xí)率為0.001,數(shù)據(jù)批處量batch_size是64,實(shí)驗(yàn)迭代10個(gè)epoch。

        4.3 實(shí)驗(yàn)評(píng)價(jià)指標(biāo)

        本文采用通用評(píng)價(jià)標(biāo)準(zhǔn),使用準(zhǔn)確率(Precision)、召回率(Recall)、F值(F-Measure)這三個(gè)標(biāo)準(zhǔn)對(duì)情感分析實(shí)驗(yàn)結(jié)果進(jìn)行評(píng)價(jià),其中F值本文選用常見(jiàn)的F1值,具體計(jì)算公式如式(16)~式(19)所示。

        其中,TP指積極類(lèi)預(yù)測(cè)為積極類(lèi)數(shù),F(xiàn)P指消極類(lèi)預(yù)測(cè)為積極類(lèi)數(shù),F(xiàn)N指積極類(lèi)預(yù)測(cè)為消極類(lèi)數(shù),TN指消極類(lèi)預(yù)測(cè)為消極類(lèi)數(shù)。

        4.4 對(duì)比實(shí)驗(yàn)設(shè)置

        本文實(shí)驗(yàn)設(shè)置多組對(duì)比實(shí)驗(yàn),在對(duì)比實(shí)驗(yàn)組中包含了單一網(wǎng)絡(luò)層和聯(lián)合網(wǎng)絡(luò)的對(duì)比,可以通過(guò)對(duì)比實(shí)驗(yàn),分析本文提出的基于卷積自注意力聯(lián)合模型的性能表現(xiàn)。

        1)LSTM:使用LSTM網(wǎng)絡(luò)進(jìn)行分類(lèi)實(shí)驗(yàn),網(wǎng)絡(luò)輸入是Word2vec訓(xùn)練出的詞向量。

        2)BiLSTM:使用單一的BiLSTM網(wǎng)絡(luò)進(jìn)行實(shí)驗(yàn),網(wǎng)絡(luò)輸入是Word2vec訓(xùn)練出的詞向量。

        3)SAN-Bi LSTM:結(jié)合BiLSTM和Self-attention機(jī)制的情感分析網(wǎng)絡(luò),具體可以參考文獻(xiàn)[17],網(wǎng)絡(luò)輸入是Word2vec訓(xùn)練出的詞向量。

        4)CNN:?jiǎn)我籆NN層進(jìn)行分類(lèi)實(shí)驗(yàn),網(wǎng)絡(luò)輸入是Word2vec訓(xùn)練出的詞向量,具體可以參看文獻(xiàn)[5]。

        5)MCNN:多通道CNN層進(jìn)行分類(lèi)實(shí)驗(yàn),選擇三通道CNN進(jìn)行詞語(yǔ)局部特征獲取,選擇的卷積核數(shù)量與寬度與本文模型相同,網(wǎng)絡(luò)輸入是Word2vec訓(xùn)練出的詞向量。

        6)CSAN-BLSAN:本文模型,使用卷積長(zhǎng)短時(shí)自注意力融合模型,網(wǎng)絡(luò)輸入是Word2vec訓(xùn)練出的詞向量。

        4.5 實(shí)驗(yàn)結(jié)果與分析

        本文在酒店評(píng)論數(shù)據(jù)集上進(jìn)行了多組對(duì)比實(shí)驗(yàn),在實(shí)驗(yàn)過(guò)程中記錄了本文模型與5組對(duì)比模型的實(shí)驗(yàn)數(shù)據(jù),實(shí)驗(yàn)結(jié)果如表2所示。

        表2 實(shí)驗(yàn)結(jié)果

        1)通過(guò)LSTM和Bi LSTM算法的對(duì)比實(shí)驗(yàn)可知,Bi LSTM由于使用了正向、后向的雙向傳播機(jī)制,通過(guò)雙向?qū)W習(xí)語(yǔ)義特征以避免遺失未來(lái)語(yǔ)義,實(shí)驗(yàn)結(jié)果上性能更優(yōu)。

        2)根據(jù)BiLSTM和SAN-BiLSTM這兩個(gè)算法的對(duì)比實(shí)驗(yàn)結(jié)果可知,相比不引入Self-Attention的BiLSTM算法的實(shí)驗(yàn)組,后者在模型的準(zhǔn)確率,召回率和F1值上分別提高了5.42%、4.56%、2.77%。引入Self-Attention機(jī)制能使模型更加容易獲取句子的局部信息,Self-Attention機(jī)制可以使句子中任意兩個(gè)單詞無(wú)視遠(yuǎn)距離依賴(lài)直接關(guān)聯(lián)起來(lái),減少了普通注意力機(jī)制的外部參數(shù)依賴(lài),加強(qiáng)了情感詞的權(quán)重分布,提高了語(yǔ)義特征的獲取能力,進(jìn)而提高了模型的準(zhǔn)確率。

        3)通過(guò)對(duì)比MCNN和CNN兩種算法的實(shí)驗(yàn)結(jié)果可知,由于本文數(shù)據(jù)集的平均文本長(zhǎng)度在進(jìn)行文本預(yù)處理并分詞后,平均文本長(zhǎng)度相對(duì)不高,CNN可以獲得相對(duì)比較好的模型綜合性能,使用多通道CNN的模型,可以獲取多粒度的文本特征信息,相比于單通道CNN在三個(gè)評(píng)價(jià)指標(biāo)上均有一定的提升。在本實(shí)驗(yàn)中,使用CNN網(wǎng)絡(luò)進(jìn)行實(shí)驗(yàn)可以獲得相比于LSTM相對(duì)更好的分類(lèi)結(jié)果。

        4)本文模型綜合使用了雙Self-Attention機(jī)制對(duì)多通道CNN和BiLSTM的語(yǔ)義表達(dá)進(jìn)行處理并融合,獲得相對(duì)全面的語(yǔ)義表示,在準(zhǔn)確率,召回率和F1值的指標(biāo)上均取得了最佳的性能,說(shuō)明本文模型可以在評(píng)論情感分析實(shí)驗(yàn)中可以取得較好的分類(lèi)結(jié)果。

        本文實(shí)驗(yàn)訓(xùn)練迭代次數(shù)設(shè)置為10次,為了更加直觀地反應(yīng)6組對(duì)比模型的性能表現(xiàn),圖3和圖4分別是模型的在驗(yàn)證集預(yù)測(cè)的準(zhǔn)確率和損失值變化曲線。從圖中可以得知,6組模型均可以在相對(duì)短的時(shí)間內(nèi)達(dá)到較高的準(zhǔn)確率,其中本文模型在第四次迭代時(shí)達(dá)到驗(yàn)證集準(zhǔn)確率最高為91.67%,整體驗(yàn)證集準(zhǔn)確率也在所有模型中最優(yōu)。驗(yàn)證集損失率圖顯示出,本文模型在第二次迭代時(shí),取得了最小val_loss,LSTM和CNN模型相對(duì)波動(dòng)最大,本文模型損失值變化情況總體在其它幾組模型下方,在驗(yàn)證集損失率變化上也是取得相對(duì)最佳的性能表現(xiàn)。這6組實(shí)驗(yàn)數(shù)據(jù)都出現(xiàn)了過(guò)擬合的情況,但本文模型波動(dòng)相對(duì)較小,最小val_loss也是本文模型取得,綜合圖3和圖4的分析結(jié)果,本文模型可以更加全面地提取文本信息,收斂速度快,可以得到的最高的驗(yàn)證集準(zhǔn)確率和最小驗(yàn)證集損失值,并且模型的穩(wěn)定性也較好。

        圖3 驗(yàn)證集準(zhǔn)確率變化

        圖4 驗(yàn)證集損失值變化

        5 結(jié)語(yǔ)

        本文提出了一種CSAN-BLSAN模型的中文文本情感分析方法,引入自注意力機(jī)制進(jìn)行雙重語(yǔ)義特征的建模學(xué)習(xí),通過(guò)多通道CNN和BiLSTM獲取多粒度的局部語(yǔ)義特征和全局語(yǔ)義特征,提高對(duì)文本特征信息的獲取,并通過(guò)自注意力機(jī)制進(jìn)行重點(diǎn)情感詞權(quán)重的動(dòng)態(tài)調(diào)整,并且通過(guò)對(duì)比實(shí)驗(yàn)組,驗(yàn)證了本文模型的準(zhǔn)確率的提升。由于網(wǎng)絡(luò)結(jié)構(gòu)的相對(duì)復(fù)雜,也帶來(lái)了模型迭代時(shí)間的一定損耗。今后研究的重點(diǎn)是如何利用情感詞語(yǔ)的相對(duì)位置關(guān)系,進(jìn)一步挖掘語(yǔ)句中的情感傾向,依靠重點(diǎn)情感詞語(yǔ)及其上下文更加準(zhǔn)確地提取文本的情感語(yǔ)義,在提高模型準(zhǔn)確率的同時(shí),進(jìn)一步縮短模型的平均迭代時(shí)間。

        猜你喜歡
        語(yǔ)義特征文本
        語(yǔ)言與語(yǔ)義
        如何表達(dá)“特征”
        在808DA上文本顯示的改善
        不忠誠(chéng)的四個(gè)特征
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        抓住特征巧觀察
        “上”與“下”語(yǔ)義的不對(duì)稱(chēng)性及其認(rèn)知闡釋
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        認(rèn)知范疇模糊與語(yǔ)義模糊
        如何快速走進(jìn)文本
        日本久久精品中文字幕| 精品国产av 无码一区二区三区| av在线色| 在线你懂| 国产精品亚洲一二三区| 中文字幕人乱码中文字幕| 国产va免费精品高清在线| 久久国产精品老女人| 亚洲av高清一区三区三区| 夜夜高潮夜夜爽夜夜爱爱一区 | 娇柔白嫩呻吟人妻尤物| 国产影片免费一级内射| 刺激一区仑乱| 在线观看午夜亚洲一区| 中文字幕亚洲人妻系列| 亚洲av成人永久网站一区| 亚洲国产一二三精品无码| 免费无码av片在线观看 | 日韩精品亚洲一区二区| 88久久精品无码一区二区毛片| 精品一精品国产一级毛片| 国产成人亚洲精品一区二区三区| 久久国产劲爆∧v内射| 精品无码一区二区三区亚洲桃色| 亚洲AⅤ樱花无码| 亚洲不卡av一区二区三区四区| 人妻插b视频一区二区三区| 国产中出视频| 91九色国产在线观看| 蜜桃视频插满18在线观看| 亚洲av无码不卡| 美女熟妇67194免费入口| 国产午夜免费啪视频观看| 99爱在线精品免费观看| 香蕉视频一级| 一区二区三区观看在线视频| 噜噜噜噜私人影院| 亚洲av无码一区二区三区在线| 国产免费人成视频在线观看播放 | 亚洲一区二区在线视频,| 色欲色香天天天综合vvv|