亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合語法規(guī)則的雙通道中文情感模型分析

        2021-03-07 05:15:58邱寧佳王曉霞王艷春
        計算機(jī)應(yīng)用 2021年2期
        關(guān)鍵詞:雙通道語法向量

        邱寧佳,王曉霞,王 鵬,王艷春

        (長春理工大學(xué)計算機(jī)科學(xué)技術(shù)學(xué)院,長春 130022)

        (*通信作者wpeng@cust.edu.cn)

        0 引言

        近年來對文本進(jìn)行情感分析成為了自然語言處理領(lǐng)域的重要分支,進(jìn)行有效的情感分析能夠幫助用戶及時掌握所在領(lǐng)域的情緒動態(tài)。傳統(tǒng)的文本情感分類方法主要為基于情感詞典與基于機(jī)器學(xué)習(xí)的方法。在基于情感詞典的研究方法上,Araque 等[1]使用語義相似性度量與嵌入式表示結(jié)合使用,該模型表明了詞匯的選擇對跨數(shù)據(jù)集性能有影響;Zhang等[2]提出了一種基于情感詞典的方法,解決了中文文本情感分析問題;Xu 等[3]提出的基于擴(kuò)展情感詞典的方法對評論文本的情感識別具有一定的可行性和準(zhǔn)確性。此外,對于情感詞典跨數(shù)據(jù)集的適用性問題,Hung[4]根據(jù)上下文信息構(gòu)建適合領(lǐng)域的情感詞典,并將其與偏好向量模型相結(jié)合,實現(xiàn)了IMDB和hotels.com 數(shù)據(jù)集口碑質(zhì)量分類的顯著改進(jìn);Khoo 等[5]也提出了新的通用情感詞典WKWSCI(Wee Kim Wee School of Communication and Information),將其與常用的五種情感詞典進(jìn)行比較后也取得了不錯的分類成績。在基于機(jī)器學(xué)習(xí)的研究方法上,Singh 等[6]利用了樸素貝葉斯、J48、BFTree 和One Rule(OneR)四種機(jī)器學(xué)習(xí)分類器對IMDB 電影評論數(shù)據(jù)集進(jìn)行了實驗,對比分析了四種分類器各自的性能;Anggita等[7]使用粒子群優(yōu)化(Particle Swarm Optimization,PSO)算法優(yōu)化了樸素貝葉斯和支持向量機(jī)(Support Vector Machines,SVM),提高了原算法的分類精度;對產(chǎn)品評論進(jìn)行情感分類時,Tama 等[8]采用了樸素貝葉斯算法得到了80.48%的分類準(zhǔn)確性。基于情感詞典的分類過分依賴于構(gòu)建的情感詞典,通用性不強(qiáng);而基于機(jī)器學(xué)習(xí)的方法通常需依賴復(fù)雜的特征過程,且人工標(biāo)注成本較高。

        深度學(xué)習(xí)在不同情感分析領(lǐng)域取得了優(yōu)異成績,現(xiàn)已成為文本情感分析的主流技術(shù)。陳珂等[9]利用多通道卷積神經(jīng)網(wǎng)絡(luò)(Multi-Channels Convolutional Neural Network,MCCNN)模型使其從多方面的特征表示學(xué)習(xí)輸入句子的情感信息;Long 等[10]將雙向長短時記憶(Bidirectional Long Short-Term Memory,Bi-LSTM)網(wǎng)絡(luò)與多頭注意力機(jī)制相結(jié)合對社交媒體文本進(jìn)行情感分析,克服了傳統(tǒng)機(jī)器學(xué)習(xí)中的不足;孫凱[11]、李洋等[12]、趙宏等[13]將卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)與Bi-LSTM 融合起來,解決了現(xiàn)有情感分析方法特征提取不充分的問題,并分別通過實驗表明了該融合模型在實際應(yīng)用中具有較大的價值;同時,Wang 等[14]研究了樹形結(jié)構(gòu)的區(qū)域CNN-BiLSTM 模型,提供了更細(xì)粒度的情感分析,在不同語料庫上都取得了不錯的分類效果。同時,為了充分發(fā)揮語法規(guī)則在中文文本中的重要性,學(xué)者們還嘗試將其融入神經(jīng)網(wǎng)絡(luò)中,如盧強(qiáng)等[15]將語法規(guī)則與Bi-LSTM相融合,何雪琴等[16]則將其與CNN 相融合,通過設(shè)置對比實驗,各自都在不同數(shù)據(jù)集上取得了更好的分類效果。

        針對上述研究現(xiàn)狀,本文融合語法規(guī)則構(gòu)建雙通道中文情感模型,首先設(shè)計語法規(guī)則對文本進(jìn)行預(yù)處理,以保留情感傾向更明顯的文本;然后使用CNN 的強(qiáng)語義特征提取能力在不同窗口大小得到粒度不同的局部情感特征,同時為了彌補(bǔ)語法規(guī)則處理時可能忽視上下文信息問題的不足,利用Bi-LSTM挖掘到文本時間跨度更大時的語義依賴關(guān)系,獲取到包含上下文信息的全局特征;最后將融合后的局部特征與全局特征使用分類器對文本進(jìn)行情感分類。

        1 中文語法規(guī)則的構(gòu)建

        為了解決因中文文本語義多樣化而導(dǎo)致CNN 情感特征提取困難的問題,本文考慮首先設(shè)計語法規(guī)則對文本進(jìn)行初步情感信息清洗,降低文本語義復(fù)雜性,從而獲取到情感傾向更加明確的文本信息;再使用Word2Vec模型進(jìn)行訓(xùn)練得到規(guī)則特征向量后作為CNN 的輸入。通過中文文本語法規(guī)則研究發(fā)現(xiàn):文本中的情感傾向詞所在句直接表達(dá)了作者正面或負(fù)面情感;總結(jié)詞則表明了文本的中心思想,直接影響了句子的情感傾向;而轉(zhuǎn)折詞則實現(xiàn)前后情感反轉(zhuǎn)的作用。其中轉(zhuǎn)折詞分為兩類:甲類轉(zhuǎn)折詞所在句帶有明顯的情感傾向;乙類轉(zhuǎn)折詞則起到過渡作用,所在句的內(nèi)容不能夠表達(dá)文本的情感傾向,其情感傾向常表現(xiàn)在余下語句中。為了充分發(fā)揮情感傾向詞、總結(jié)詞、轉(zhuǎn)折詞在文本情感傾向信息提取中的作用,本文將依據(jù)數(shù)據(jù)集進(jìn)行這三類詞的提煉匯總,設(shè)計出三類情感詞典:EmoTendencyWords 情感傾向詞詞典、SumWords 總結(jié)詞詞典和TurnWords 轉(zhuǎn)折詞詞典,然后根據(jù)這三類詞典對中文文本進(jìn)行語法規(guī)則設(shè)定,以獲取情感傾向更加明確的信息,方便CNN 在訓(xùn)練時獲取情感傾向特征。令W表示整個評論文本,Wi表示文本中的各個分句,定義該評論文本的分句集合為{W1,W2,…,Wn},W′則表示經(jīng)語法規(guī)則處理后的文本。規(guī)則如下:

        規(guī)則1 若評論文本W(wǎng)中通過匹配EmoTendencyWords情感傾向詞詞典,存在情感傾向詞,則直接提取情感傾向詞所在的分句Wi,然后根據(jù)情感傾向詞詞典直接判定評論文本W(wǎng)的正負(fù)面。

        當(dāng)文本中出現(xiàn)多個情感傾向詞時,參照文獻(xiàn)[16]提出的“主題詞+直接分類法”進(jìn)行該文本的情感傾向判定,通過主題詞判定該情感傾向詞是否有效,若無效則舍棄。具體方法為:首先根據(jù)數(shù)據(jù)集設(shè)定好種子主題詞,利用Word2Vec 工具文本將文本轉(zhuǎn)換為詞向量表示wi={si1,si2,…,sik};然后計算詞向量之間的歐氏距離來判斷該分句與種子主題詞之間相似度,閾值范圍以內(nèi)則為相關(guān)主題,表示該情感傾向詞有效;最后統(tǒng)計有效正負(fù)面情感傾向詞個數(shù)并比較,正面?zhèn)€數(shù)多則該文本W(wǎng)情感傾向為積極,反之則為消極。相似度計算公式如式(1)所示:

        sim(w1,w2)=

        j=1,2,…,k(s1j-s2j)2(1)

        規(guī)則2 若評論文本W(wǎng)中無情感傾向詞,則與SumWords總結(jié)詞詞典進(jìn)行匹配,若存在某總結(jié)詞,則直接提取總結(jié)詞后的分句Wi。若文本中出現(xiàn)多個總結(jié)詞,為提高分類效率,默認(rèn)只提取第一個總結(jié)詞以后的分句Wi。

        規(guī)則3 若評論文本W(wǎng)中無情感傾向詞與直接分類詞,則與TurnWords 轉(zhuǎn)折詞詞典進(jìn)行匹配,若存在甲類轉(zhuǎn)折詞,則直接提取該轉(zhuǎn)折詞之后的所有分句{Wi,Wi+1,…,Wn} ;若存在乙類轉(zhuǎn)折詞,則忽略該轉(zhuǎn)折詞所在分句Wi,提取評論其他內(nèi)容{W1,W2,…,Wi-1,Wi+1,…,Wn} 。

        規(guī)則4 若評論文本W(wǎng)均不屬于上述三種情況,則直接保留原文本內(nèi)容W。

        利用語法規(guī)則提取情感傾向語句的流程如圖1所示。

        圖1 利用語法規(guī)則提取情感傾向語句的流程Fig.1 Flowchart of extracting sentiment sentences using grammatical rules

        文本W(wǎng)經(jīng)語法規(guī)則處理后會先后出現(xiàn)四種情況:1)直接根據(jù)情感傾向詞得到文本的情感分類結(jié)果;2)得到含有總結(jié)詞的分句;3)得到判斷甲乙類轉(zhuǎn)折詞的分句;4)得到原文本。如此處理后得到的文本W(wǎng)′,大部分相較原文本更加簡短且具有明顯的情感傾向,大大降低了中文文本的語義多樣化,從而解決了輸入到CNN 后訓(xùn)練時因文本語義復(fù)雜而導(dǎo)致的特征提取困難問題。

        2 雙通道神經(jīng)網(wǎng)絡(luò)

        2.1 CNN通道

        CNN 擁有局部感知與參數(shù)共享兩大特點,每個神經(jīng)元只需對局部進(jìn)行感知,且在局部連接中,每個神經(jīng)元的參數(shù)都是一樣的,進(jìn)行卷積操作時實際上是提取一個個的局部信息。因此對于規(guī)則處理后的文本W(wǎng)′,使用CNN 模型能夠有效地提取出局部特征。CNN通道模型結(jié)構(gòu)如圖2所示。

        圖2 CNN通道模型結(jié)構(gòu)Fig.2 Channel model structure of CNN

        在CNN 模型訓(xùn)練中,經(jīng)語法規(guī)則處理后得到評論文本W(wǎng)′,然后使用jieba 分詞得到文本序列為x={x1,x2,…,xn},其中xn∈R(R表示文本數(shù)據(jù)集構(gòu)成的詞典),通過詞嵌入技術(shù)Word2Vec 得到整個文本序列的詞向量句子表示如式(2)所示,其中,xi表示wi對應(yīng)的詞向量,⊕為拼接操作。

        將X作為卷積層的輸入,通過大小為r*k的濾波器提取出不同位置的局部特征,計算公式如式(3):

        其中:F為濾波器大小,V(w(i:i+r-1))為X中從i到i+r-1 共r行詞向量詞組,b為偏置項。故通過卷積層后得到輸出h=[h1,h2,…,hn-r+1]。由于卷積核共享存在著特征提取不充分的問題,需通過增加多個卷積核來彌補(bǔ),通過固定參數(shù)的訓(xùn)練方法得到CNN 卷積窗口分別為3、4、5 時分類效果更好,故經(jīng)過卷積操作后本文的卷積輸出為h3、h4、h5。

        然后對于卷積層的每一個輸出向量h與Bi-LSTM 提取出的全局特征hblstm進(jìn)行注意力池化操作以提取出更能夠表達(dá)情感傾向的特征。其中,注意力池化是指通過式(4)、(5)計算出當(dāng)前局部特征與全局特征之間的相似性,且相似性越高則為該局部特征分配更大的權(quán)重。

        其中:函數(shù)sim()通過余弦函數(shù)計算局部特征與全局特征之間的相似度,?i為權(quán)重。計算出權(quán)重后,最終的局部特征表示hcnn由式(6)得到。

        2.2 Bi-LSTM通道

        由于經(jīng)語法規(guī)則處理后的評論文本W(wǎng)′可能會省略掉部分文本,從而導(dǎo)致了上下文信息缺失的問題,因此使用Bi-LSTM 模型來獲取包含上下文信息的全局特征。模型結(jié)構(gòu)如圖3所示。

        圖3 Bi-LSTM通道模型結(jié)構(gòu)Fig.3 Channel model structure of Bi-LSTM

        將未經(jīng)語法規(guī)則處理的文本經(jīng)過jieba 分詞以后利用Glove 工具訓(xùn)練得到詞向量,再作為Bi-LSTM 模型的輸入。其原理就是首先構(gòu)建基于語料庫的詞共現(xiàn)矩陣,然后根據(jù)共現(xiàn)矩陣與Glove模型學(xué)習(xí)詞向量。Glove模型綜合了潛在語義分析(Latent Semantic Analysis,LSA)和Word2Vec 模型的優(yōu)點,在高效清晰的地表達(dá)文本語義的同時考慮了全局的文本信息。設(shè)第i個單詞的n維詞向量表示為vi={w1,w2,…,wn},將每個單詞向量V結(jié)合起來形成句子的矩陣表示形式Rs×n,其中,每一行是每個單詞對應(yīng)的詞向量權(quán)重。設(shè)s代表單詞總數(shù),若確定了詞向量權(quán)重的維度大小,則該矩陣的列也將確定,n代表詞語維度。令vi∈Rn表示第i個詞的n維詞向量,則長度為s的文本表示為:

        經(jīng)過將單詞轉(zhuǎn)換為詞向量,則句子中的每個詞的詞向量拼接最終組成了詞向量矩陣,即V∈Rs×n。接著將詞向量從前后兩個方向輸入模型,設(shè)定w、u、v、v′為Bi-LSTM 模型的權(quán)重,當(dāng)前單元輸入為xt,前一單元輸入為ht-1,后一單元輸入為ht+1。由式(8)得到上文的情感傾向特征,由式(9)得到下文的情感傾向特征,最終由式(10)得到了包含上下文信息的全局特征hblstm。

        綜上,由雙通道神經(jīng)網(wǎng)絡(luò)得到了文本的局部hcnn與全局特征hblstm,并將兩者作為本文提出的CB_Rule 模型特征融合的輸入,以增強(qiáng)分類器中情感特征的全面性,從而提高情感分類精度。

        3 融合語法規(guī)則的雙通道中文情感分析模型

        雖然經(jīng)語法規(guī)則處理后的文本能夠使CNN 獲取到情感傾向更加明確的局部特征hcnn,但也存在因語法規(guī)則而存在的忽略上下文信息的問題,考慮使用Bi-LSTM 提取出的全局特征來作為局部特征被忽略問題的彌補(bǔ),所以本文將其與Bi-LSTM 提取的全局特征hblstm融合起來。融合公式如式(11)所示:

        融合即將hcnn與hblstm拼接在一起,一同作為全連接層的輸入,并引入Dropout 機(jī)制,這樣能有效避免模型對部分特征產(chǎn)生依賴,從而發(fā)生過擬合現(xiàn)象,最后將其輸入到softmax 分類器中。融合流程如圖4所示。

        特征融合既充分利用了CNN 強(qiáng)大的文本特征提取能力,又發(fā)揮了Bi-LSTM 對時間序列信息強(qiáng)大的記憶力,最終能夠讓分類器得到的情感傾向特征h更加全面,最后通過分類器得到中文文本情感分類類別。分類公式如式(12)所示:

        其中:Wh為權(quán)重矩陣,bh為偏置,y為情感類別。

        同時本文將利用反向傳播算法來訓(xùn)練模型,通過最小化交叉熵得到的損失函數(shù)來優(yōu)化模型,如式(13)所示。

        其中:c為情感類別數(shù)量,n為句子數(shù)量,pi為實際類別,yi為預(yù)測類別,λ為L2正則化權(quán)重,Θ包含了CNN 和Bi-LSTM 中的所有權(quán)重及偏置項。

        圖4 雙通道特征融合流程Fig.4 Flowchart of double-channel feature fusion

        綜上,融合語法規(guī)則的雙通道神經(jīng)網(wǎng)絡(luò)模型如圖5所示。

        圖5 融合語法規(guī)則的雙通道神經(jīng)網(wǎng)絡(luò)模型Fig.5 Double-channel neural network model integrating grammar rules

        由圖5可知,模型的構(gòu)建過程如下:

        1)將文本預(yù)處理后的數(shù)據(jù)依據(jù)設(shè)定的語法規(guī)則獲取到文本的情感信息語句,然后通過Word2Vec詞嵌入工具轉(zhuǎn)換成規(guī)則特征向量,再將規(guī)則特征向量輸入到CNN 模型;同時將未經(jīng)規(guī)則處理的文本經(jīng)過Glove 工具轉(zhuǎn)換成詞向量,輸入到Bi-LSTM模型。

        2)在CNN 和Bi-LSTM 相結(jié)合的神經(jīng)網(wǎng)絡(luò)模型中,CNN 模型提取出文本的局部特征,其中將使用注意力池化的方法來提取出CNN 卷積層的局部特征,以此來判斷哪些特征能夠包含更多的情感信息;而Bi-LSTM 則用來提取出文本的全局特征。

        3)將雙通道神經(jīng)網(wǎng)絡(luò)模型輸出的局部特征與全局特征進(jìn)行融合后,輸入到分類器中進(jìn)行情感分類。

        4 實驗與結(jié)果分析

        4.1 實驗數(shù)據(jù)

        本文所采用的實驗數(shù)據(jù)為情感分析開源數(shù)據(jù)集online_shopping_10_cats 電商購物評論,數(shù)據(jù)對象有書籍、平板、手機(jī)、水果等十個類別,電商評論情感標(biāo)簽分為兩類[0,1],積極評論情感標(biāo)簽為1,消極評論情感標(biāo)簽為0。共62 272條數(shù)據(jù),其中正向評論31 351 條,負(fù)向評論31 421 條,數(shù)據(jù)集具體數(shù)據(jù)分布見表1。實驗數(shù)據(jù)的訓(xùn)練集與測試集比例設(shè)置為8∶2。

        表1 數(shù)據(jù)集的數(shù)據(jù)分布Tab.1 Data distribution of dataset

        4.2 實驗參數(shù)設(shè)置

        本文融合神經(jīng)網(wǎng)絡(luò)模型中CNN 部分的參數(shù)及值如表2所示,Bi-LSTM部分的參數(shù)及值如表3所示。

        表2 CNN部分的參數(shù)Tab.2 Parameters of CNN part

        表3 Bi-LSTM部分的參數(shù)Tab.3 Parameters of Bi-LSTM part

        針對不同數(shù)據(jù)集所需的情感詞典不同,根據(jù)上文的規(guī)則設(shè)定,由本文實驗所用的電商評論數(shù)據(jù)集得到的三類情感詞典的部分關(guān)鍵詞如下:

        正面情感傾向詞:推薦、值得、值、物超所值、強(qiáng)烈推薦、性價比高、質(zhì)量不錯、五星、好評、給力、滿意等。

        負(fù)面情感傾向詞:不推薦、不值得、質(zhì)量不行、性價比低、差評、不滿意、失望、別買、一星、不值等。

        總結(jié)詞:總的來說、總之、總的感覺、總體、在我看來、綜上所述、個人認(rèn)為、反正、個人建議、整體等。

        甲類轉(zhuǎn)折詞:但是、但、可是、卻、不過、然而、所以、因此等。

        乙類轉(zhuǎn)折詞:只是、只不過、但就是、而且、就是、雖然、如果等。

        由電商評論數(shù)據(jù)集提取出的種子主題詞有產(chǎn)品、快遞、價格、質(zhì)量、性能、包裝、客服、外形等,種子主題詞與待定主題之間相似度閾值范圍設(shè)為0.8。

        4.3 評價指標(biāo)

        本文將采用準(zhǔn)確率Acc(Accuracy)、召回率Re(Recall)以及F1(F1值)作為實驗評價指標(biāo),其他符號表示如表4所示。

        準(zhǔn)確率Acc表示測試集所有樣本都正確分類的概率,計算公式如式(14):

        召回率Re表示測試集分類結(jié)果中某情感標(biāo)簽中的真實類別占所有真實類別的比例,計算公式如式(15)所示。

        F1 值是表示準(zhǔn)確率Acc與召回率Re綜合性能的指標(biāo),對兩者加權(quán)調(diào)和計算得到最終分類效果,即

        表4 分類類別混淆矩陣Tab.4 Confusion matrix of classification category

        4.4 實驗結(jié)果分析

        4.4.1 語法規(guī)則可行性分析

        隨機(jī)選取電商評論中的10 000條數(shù)據(jù)來驗證本文提出的語法規(guī)則對CNN 分類結(jié)果的影響,其中,r1、r2、r3為文中第一章提出的前三個規(guī)則,CNN 參數(shù)設(shè)置見表2,實驗結(jié)果如表5所示。由表5 可以看出,本文根據(jù)情感傾向詞、總結(jié)詞、轉(zhuǎn)折詞設(shè)定的語法規(guī)則能夠有效提升CNN 模型的分類精度,其中規(guī)則1 對模型的分類結(jié)果影響最大,F(xiàn)1值較CNN 模型提升了3.2 個百分點,表明情感傾向詞對分類結(jié)果的影響比重高于總結(jié)詞與轉(zhuǎn)折詞,通過提取有效情感傾向詞更能夠促進(jìn)文本情感分類效果。雖然使用規(guī)則2 與規(guī)則3 的提升效果沒有規(guī)則1 明顯,但總體上都提升了CNN 模型的最終分類精度。這說明通過語法規(guī)則處理能夠得到更加明確的情感傾向信息,進(jìn)而幫助CNN提取到語義特征,提高分類精度。

        表5 語法規(guī)則對CNN分類結(jié)果的影響Tab.5 Influence of grammar rules on CNN classification results

        同時,本文還將語法規(guī)則應(yīng)用到了機(jī)器學(xué)習(xí)算法SVM上,并與CNN 模型進(jìn)行對比實驗,同樣隨機(jī)選取10 000 條數(shù)據(jù),設(shè)定批大小batch 為64,迭代次數(shù)iteration 為157,數(shù)據(jù)集訓(xùn)練輪數(shù)epoch 為15,結(jié)果見圖6??梢钥闯?,語法規(guī)則應(yīng)用到機(jī)器學(xué)習(xí)算法SVM 與傳統(tǒng)CNN 模型上,分類準(zhǔn)確率都得到了顯著的提升,且準(zhǔn)確率都隨著epoch 的增加而增加,CNN、CNN_Rule、SVM、SVM_Rule 最終的準(zhǔn)確率穩(wěn)定在89%、93%、80%、86%左右,進(jìn)一步有效驗證了該語法規(guī)則的可行性。

        圖6 應(yīng)用語法規(guī)則效果Fig.6 Effect of applying grammar rules

        4.4.2 融合語法規(guī)則的雙通道模型分類精度

        為解決雙通道模型特征融合時出現(xiàn)的過擬合現(xiàn)象,使用10 000 條電商評論文本作為實驗數(shù)據(jù),在模型全連接層加入Dropout,并通過實驗對比了Dropout 值在0.1~1 的準(zhǔn)確率變化,最終選擇0.5 作為Dropout 的最適值,實驗結(jié)果如圖7所示。

        圖7 Dropout參數(shù)對模型性能的影響Fig.7 Influence of Dropout parameter on model performance

        為驗證本文CB_Rule 模型的性能,在相同實驗環(huán)境下使用表1 數(shù)據(jù)進(jìn)行實驗,并根據(jù)圖7 的實驗結(jié)果選取Dropout 為0.5。首先分別利用Word2Vec 和Glove 向量化工具將評論文本轉(zhuǎn)換成矩陣向量,再構(gòu)造單一的CNN、Bi-LSTM 模型以及雙通道模型CNN_BLstm 模型與CB_Rule 進(jìn)行對比實驗,使用接受者操作特征曲線(Rceiver Operating Characteristic curve,ROC 曲線)下面積(Area Under Curve,AUC)值作為情感分類效果的評價指標(biāo),ROC 曲線如圖8 所示。由圖8 可知,Bi_LSTM 的AUC 值比CNN 模型高出0.9%,說明在中文情感分類任務(wù)中,上下文信息影響著分類結(jié)果,所以僅使用融合規(guī)則的CNN 模型進(jìn)行情感分類時,就容易忽略上下文信息,造成模型分類性能下降。雙通道CNN_BLstm 模型的AUC 值較傳統(tǒng)的單Bi-LSTM、單CNN 模型分別高出2.8%、3.7%,究其原因,CNN 模型具有的局部感知與參數(shù)共享使其關(guān)注的是局部語義特征的提取,而較少考慮到上下文信息;反之,Bi-LSTM 由于其對時間序列的超強(qiáng)記憶功能,通過正反向LSTM傳播得到了上下文信息,但也忽略了局部語義特征在中文情感分析中的重要性。這再次說明了將CNN 提取出的局部特征與Bi-LSTM 提取的全局特征融合起來對情感分類效果有著顯著的影響。同時,將語法規(guī)則融入雙通道模型中時,CB_Rule 模型的AUC 值又比雙通道CNN_BLstm 模型提高了1.2%,驗證了將語法規(guī)則融入其中更有助于情感特征的獲取,提升神經(jīng)網(wǎng)絡(luò)分類效果。

        圖8 CB_Rule模型與其他分類模型的ROC曲線Fig.8 ROC curves of CB_Rule model and other classification models

        4.4.3 CB_Rule模型與其他模型的性能對比

        為了驗證本文提出的規(guī)則融合模型的情感分類性能,將本文提出的CB_Rule模型與文獻(xiàn)[12-16]提出的模型在表1數(shù)據(jù)集上進(jìn)行對比實驗,其中各個模型的CNN 與Bi-LSTM 皆按照表2、3 進(jìn)行參數(shù)設(shè)置,實驗結(jié)果如表6 所示。其中:文獻(xiàn)[12]提出的L-BiLSTM_CNN 模型將CNN 提取的局部特征與Bi-LSTM 提取的全局特征融合后使用分類器進(jìn)行情感分類;Z-BiLSTM_CNN 為文獻(xiàn)[13]構(gòu)建的Bi-LSTM 和CNN 的串行混合模型,首先利用Bi-LSTM 提取上下文特征,再對上下文特征進(jìn)行局部特征提取,最后使用分類器進(jìn)行分類;R-Bi-LSTM 為文獻(xiàn)[15]提出的融合語法規(guī)則的Bi-LSTM 模型,并采用Glove工具進(jìn)行詞向量訓(xùn)練;SCNN(Syntactic rules for Convolutional Neural Network)為文獻(xiàn)[16]提出的融合句法規(guī)則和CNN 的旅游評論情感分析模型,但詞向量訓(xùn)練采用Word2Vec模型。

        表6 CB_Rule模型與其他模型的分類結(jié)果對比Tab.6 Comparison of classification results of CB_Rule model and other models

        由表6 可知,本文所提出的CB_Rule 模型的準(zhǔn)確率優(yōu)于對比模型。將CNN提取出的局部特征和Bi-LSTM提取的全局特征進(jìn)行融合時,L-BiLSTM_CNN 模型的準(zhǔn)確率明顯高于Z-BiLSTM_CNN 模型,說明直接并行提取出特征進(jìn)行融合的效果優(yōu)于串行提取出后再進(jìn)行特征融合,故而本文采用了不同的詞向量處理工具對文本數(shù)據(jù)并行處理。同時,本文提出的將語法規(guī)則融入雙通道模型在準(zhǔn)確率上較R-Bi-LSTM、SCNN 模型分別高出3.7 個百分點和0.6 個百分點,進(jìn)一步驗證了CB_Rule模型在情感分類上的有效性。

        5 結(jié)語

        進(jìn)行情感研究對當(dāng)今社會意義重大,本文針對傳統(tǒng)的CNN 與Bi-LSTM 這類情感分類模型所存在的問題,提出了融合語法規(guī)則的雙通道中文情感分析模型,將語法規(guī)則融入CNN中,訓(xùn)練得到更具有情感傾向的局部特征,同時為了解決語法規(guī)則處理后出現(xiàn)的忽略上下文信息問題,利用Bi-LSTM對之進(jìn)行補(bǔ)充改進(jìn),最后將提取出的特征進(jìn)行融合,將其輸入到分類器中提高情感分類精度。在電商評論文本數(shù)據(jù)集上設(shè)計了語法規(guī)則的可行性分析、融合語法規(guī)則的雙通道模型的分類精度以及CB_Rule 模型性能對比等實驗,驗證了本文提出的CB_Rule模型具有良好的情感分類效果。

        猜你喜歡
        雙通道語法向量
        向量的分解
        近端胃切除雙通道重建及全胃切除術(shù)用于胃上部癌根治術(shù)的療效
        聚焦“向量與三角”創(chuàng)新題
        跟蹤導(dǎo)練(二)4
        KEYS
        Keys
        Book 5 Unit 1~Unit 3語法鞏固練習(xí)
        向量垂直在解析幾何中的應(yīng)用
        向量五種“變身” 玩轉(zhuǎn)圓錐曲線
        采用6.25mm×6.25mm×1.8mm LGA封裝的雙通道2.5A、單通道5A超薄微型模塊穩(wěn)壓器
        国产亚洲精品综合99久久 | 内射夜晚在线观看| 无码乱人伦一区二区亚洲一| 婷婷丁香社区| 午夜亚洲国产精品福利| 亚洲一区二区日韩精品| 亚洲国产精品18久久久久久| 日韩亚洲欧美中文在线| 日韩第四页| 久久国产精品一区二区| 美女人妻中出日本人妻| 少妇人妻精品一区二区三区| 妇女性内射冈站hdwwwooo| 亚洲欧美日韩一区在线观看| 无码少妇一区二区浪潮av| 五月婷婷激情小说| 国产亚洲精品高清视频| 亚洲国产精品国自产拍久久蜜av| 国产精品久久人妻无码| 最新国产三级| 中文字幕国产精品专区| 丰满女人猛烈进入视频免费网站 | 久久久久亚洲av无码专区| 噜噜噜色97| 中文字幕乱码日本亚洲一区二区| 天天噜日日噜狠狠噜免费| 亚洲成人电影在线观看精品国产| 国产高跟丝袜在线诱惑| 青青草免费手机视频在线观看| 国产免费人成视频在线观看| 午夜亚洲AV成人无码国产| 久久偷拍国内亚洲青青草| 精品亚洲成a人在线观看| 欧美疯狂性xxxxxbbbbb| 亚洲人成网站在线播放小说| 亚洲最新精品一区二区| 亚洲精品久久久久中文字幕一福利| 国产午夜精品一区二区三区视频| 蜜桃av一区二区三区久久| 日本一区二区三区爆乳| 伊人色综合九久久天天蜜桃|