亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于cw2vec 與CNN-BiLSTM 注意力模型的中文微博情感分類

        2021-03-25 02:09:26盧昱波劉德潤蔡奕超楊慶雨劉太安
        軟件導(dǎo)刊 2021年3期
        關(guān)鍵詞:分類文本情感

        盧昱波,劉德潤,蔡奕超,楊慶雨,陳 偉,劉太安,

        (1.山東科技大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院,山東青島 266590;2.山東農(nóng)業(yè)大學(xué)信息科學(xué)與工程學(xué)院,山東泰安 271018;3.山東科技大學(xué)智能裝備學(xué)院,山東泰安 271019)

        0 引言

        據(jù)中國互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)發(fā)布的第45 次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》[1],截至2020 年3 月,我國網(wǎng)民規(guī)模為9.04 億,手機(jī)網(wǎng)民所占比例高達(dá)99.3%,互聯(lián)網(wǎng)普及率達(dá)到64.5%。移動終端和互聯(lián)網(wǎng)的大規(guī)模普及已經(jīng)改變了人們收集信息、表達(dá)觀點(diǎn)的方式,越來越多的公眾更傾向于通過網(wǎng)絡(luò)發(fā)表意見、抒發(fā)情感。互聯(lián)網(wǎng)上產(chǎn)生大量網(wǎng)民的認(rèn)知、態(tài)度、情感和行為傾向,這些信息集合為網(wǎng)絡(luò)輿情[2]。目前以新浪微博為代表的中文微博取得空前發(fā)展。根據(jù)新浪微博2020 年第一季度財(cái)務(wù)報(bào)告[3],2020年Q1 的月活躍用戶為5.5 億,移動端月活躍用戶突破5億,日活躍用戶2.41 億。面對數(shù)據(jù)的爆炸性增長以及微博用戶較高的自由度進(jìn)行中文微博的情感分類,不僅可對內(nèi)容監(jiān)控,而且也是突發(fā)事件預(yù)警及輿情分析的基礎(chǔ),不但能幫助決策者更快地了解大眾意見,還能為企業(yè)進(jìn)行市場分析、調(diào)查、反饋提供更多有參考性的信息。因此,中文微博信息處理技術(shù)具有重要的理論與應(yīng)用價(jià)值。

        情感分類研究可分為基于情感詞典的情感分類方法、基于傳統(tǒng)機(jī)器學(xué)習(xí)的情感分類方法和基于深度學(xué)習(xí)的情感分類方法?;谇楦性~典的方法根據(jù)現(xiàn)有的情感詞典和計(jì)算規(guī)則獲得情感類型。國外對情感詞典的研究較早,其中應(yīng)用最廣的英文詞典是SentiWordNet[4];在中文情感分類中,使用最廣泛的是知網(wǎng)HowNet 情感詞典[5]。傳統(tǒng)的基于機(jī)器學(xué)習(xí)的情感分類方法解決基于情感詞典方法中存在的問題,該方法將文本轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù),然后構(gòu)造基于機(jī)器學(xué)習(xí)的分類器,最后確定文檔情感類型。Pang等[6]首次將機(jī)器學(xué)習(xí)引入情感分類中,通過實(shí)驗(yàn)對比各類算法在電影評論情感分類中的表現(xiàn),發(fā)現(xiàn)支持向量機(jī)的分類性能最優(yōu);García 等[7]在影評數(shù)據(jù)集上訓(xùn)練樸素貝葉斯模型,提高了情緒分析的準(zhǔn)確率;為克服傳統(tǒng)機(jī)器學(xué)習(xí)方法在時(shí)間序列上信息表達(dá)不足的缺點(diǎn),基于深度學(xué)習(xí)的情感分類將深度學(xué)習(xí)模型引入自然語言處理領(lǐng)域,取得了很好效果;基于卷積神經(jīng)網(wǎng)絡(luò)理論,Yang 等[8]改進(jìn)Kim 提出的模型,對Twitter 的推文進(jìn)行分類研究,驗(yàn)證了卷積神經(jīng)網(wǎng)絡(luò)對Twitter 信息情感分類的優(yōu)越性能;Hassan 等[9]提出基于CNN 和LSTM 的網(wǎng)絡(luò)結(jié)構(gòu)ConvLstm,利用LSTM 代替CNN 中的池化層,減少局部細(xì)節(jié)信息的丟失,在句子序列中捕獲長期依賴關(guān)系,表現(xiàn)出較好的分類效果;Wang 等[10]提出連接CNN 層的輸出作為RNN 輸入,將得到的句子特征表達(dá)輸入至Softmax 分類器,取得較好的分類效果。

        從上述研究可知,目前理論不僅對中文的情感詞訓(xùn)練缺乏關(guān)注,而且單一的深度學(xué)習(xí)模型也無法對局部特征和上下文信息同時(shí)提取。因此,本文提出基于中文筆畫的cw2vec 模型對中文詞進(jìn)行訓(xùn)練,使用CNN-BiLSTM 注意力的混合深度學(xué)習(xí)模型對中文文本進(jìn)行情感分類。在相同的數(shù)據(jù)集上對比不同的單一深度學(xué)習(xí)模型,驗(yàn)證本文方法的有效性。

        1 cw2vec 模型

        在自然語言處理領(lǐng)域,詞向量的訓(xùn)練有重要作用,廣泛應(yīng)用于詞性分類、命名實(shí)體識別、機(jī)器翻譯等領(lǐng)域[11]?,F(xiàn)存的方法主要是詞級別的基于上下文信息表征學(xué)習(xí),如2013 年Mikolov 等[12]提出兩種神經(jīng)網(wǎng)絡(luò)語言模型—連續(xù)詞袋模型CBOW(Continuous Bag of Words)和Skip-gram 模型,從大量的新聞單詞中訓(xùn)練出詞向量Word2vec,但是大量的詞向量模型都是基于英語進(jìn)行訓(xùn)練的。漢字作為中華民族的幾千年文化,具有集形象、聲音和詞義三者于一體特性,內(nèi)部包含了較強(qiáng)的語義信息。由于中英語言完全不同,單個英文字符是不具備語義的,因此Cao 等[13]通過使用筆畫n-gram 詞向量捕獲中文詞的語義和形態(tài)信息。將中文筆畫劃分為5 類,將筆畫特征也使用相同向量表示,每個詞語使用n-gram 窗口滑動的方法將其表示為多個筆畫序列,每個gram 和詞語都被表示成向量,用來訓(xùn)練和計(jì)算它們之間的相似度,如表1 所示。

        Table 1 The relationship between stroke names and numbers表1 筆畫名稱與數(shù)字對應(yīng)關(guān)系

        詞語向量化過程如圖1 所示。將中文詞語分割為單個字符,按照筆畫順序抽取漢字筆畫特征得到整個詞語的全部筆畫信息,使用編號代替筆畫特征完成數(shù)字化,最后用大小為n 的窗口生成n-gram 筆畫特征。

        Fig.1 The process of extracting n-gram stroke features from Chinese characters圖1 漢字抽取n-gram 筆畫特征過程

        在cw2vec 模型中,定義相似函數(shù)sim(w,c)單詞與其上下文之間公式如式(1)所示。

        其中,w和c分別是當(dāng)前位置的詞和上下文單詞,S(w)為當(dāng)前詞語w所對應(yīng)的n 元筆畫集合,q→為當(dāng)前詞語q對應(yīng)的n 元筆畫向量,為上下文詞語的詞向量。目標(biāo)函數(shù)計(jì)算公式如式(2)所示。

        其中,w為當(dāng)前詞語,D為訓(xùn)練語料,T(w)是當(dāng)前詞語劃窗內(nèi)所有詞語集合,σ是sigmoid 函數(shù)。c′為隨機(jī)選取的詞語,稱為“負(fù)樣例”,λ是負(fù)樣例個數(shù),Ec'~P(D)是期望,表示c′根據(jù)詞頻分布進(jìn)行采樣,即語料庫中出現(xiàn)頻率更高的單詞可能被采樣的概率更高。

        2 CNN-BiLSTM 注意力模型

        通過cw2vec 模型預(yù)先訓(xùn)練好詞向量,將其作為分類模型輸入。先使用CNN 進(jìn)行局部特征提取,然后利用BiL?STM 進(jìn)行上下文全局特征提取,最后通過注意力模型進(jìn)行加權(quán)并采用Softmax 分類得到情感極性。模型結(jié)構(gòu)如圖2所示。

        Fig.2 Network structure of CNN-BiLSTM attention model圖2 CNN-BiLSTM 注意力模型的網(wǎng)絡(luò)結(jié)構(gòu)

        2.1 CNN

        CNN 是一種具有卷積結(jié)構(gòu)的前饋神經(jīng)網(wǎng)絡(luò)模型,本質(zhì)上為多層感知機(jī)[14]。卷積結(jié)構(gòu)能夠減少內(nèi)存量占用,其中局部鏈接和權(quán)值共享操作是其廣泛應(yīng)用的關(guān)鍵[15]。CNN具有多層網(wǎng)絡(luò)結(jié)構(gòu),卷積層、池化層和全連接層是卷積神經(jīng)網(wǎng)絡(luò)的基本組成部分。

        卷積層主要通過卷積操作感知文本的局部信息,不同尺寸的卷積核能夠提取不同的特征,卷積計(jì)算公式如式(3)所示。

        其中,Ch為不同高度過濾窗口提取到的特征,Wh為對應(yīng)的權(quán)重矩陣,XC為特征矩陣,b為偏置,f為激活函數(shù)。在訓(xùn)練過程中,使用Rule函數(shù)作為激活函數(shù)以提高模型的收斂速度。在對長度為n的句子進(jìn)行卷積操作后生成特征圖Ch,如式(4)所示。

        池化的主要作用是在保留局部最優(yōu)特征的同時(shí)減少參數(shù)實(shí)現(xiàn)降維,防止過擬合。在情感分類中,一般采取最大池化策略,即只保留最大特征丟棄弱特征,如式(5)所示。

        由于BiLSTM 輸入必須是序列化結(jié)構(gòu),池化將中斷序列結(jié)構(gòu)K,所以需要添加全連接層,將池化后的K向量連接成向量J,如式(6)所示。

        2.2 BiLSTM 模型

        長短時(shí)記憶(Long short-term memory,LSTM)是一種特殊的RNN,主要解決長序列訓(xùn)練過程中的梯度消失和梯度爆炸問題[16]。對于中文文本,復(fù)雜的語法和句法結(jié)構(gòu)使文本的上下文都有一定的聯(lián)系,因此該層搭建了雙向LSTM對文本語義進(jìn)行編碼,分別學(xué)習(xí)上文和下文,其內(nèi)部結(jié)構(gòu)如圖3 所示。

        圖3 中,xt為t 時(shí)刻輸入,ht為t 時(shí)刻輸出,ct為t 時(shí)刻細(xì)胞狀態(tài)。LSTM 主要通過ft、it、Ot三個門結(jié)構(gòu)有選擇性地實(shí)現(xiàn)信息流動。

        ft表示遺忘門,用來控制ct-1中的信息遺忘程度,計(jì)算公式如式(7)所示。

        其中,σ為Sigmoid函數(shù),Wf為遺忘門權(quán)重,bf為遺忘門偏置。

        Fig.3 Internal structure of LSTM圖3 LSTM 內(nèi)部結(jié)構(gòu)

        it代表輸入門,負(fù)責(zé)控制信息的更新程度,計(jì)算公式如式(8)所示。利用tanh函數(shù)得到候選細(xì)胞信息,計(jì)算公式如式(9)所示。依賴于遺忘門和輸入門,更新舊的細(xì)胞信息ct-1得到新的細(xì)胞信息ct,更新公式如式(10)所示。

        其中,Wi表示輸入門權(quán)重,bi表示輸入門偏置,Wc表示候選細(xì)胞信息權(quán)重,bc表示候選細(xì)胞信息偏置。

        Ot代表輸出門,用以控制信息輸出,計(jì)算公式如式(11)所示。最終t時(shí)刻的隱層輸出ht計(jì)算公式如式(12)所示。

        其中,Wo為輸出門權(quán)重,bo為輸出門偏置。

        Fig.4 Bidirectional LSTM model structure圖4 雙向LSTM 模型結(jié)構(gòu)

        但是LSTM 模型只能學(xué)習(xí)到當(dāng)前文本的上文信息,忽略了當(dāng)前詞語與下文的聯(lián)系,因此通過構(gòu)建雙向LSTM 充分學(xué)習(xí)上下文語義信息,如圖4 所示。為t 時(shí)刻正向LSTM 的輸出向量為t 時(shí)刻反向LSTM 的輸出向量,t 時(shí)刻雙向LSTM 的輸出Ht由連接而成,如式(13)所示。

        2.3 注意力模型

        注意力機(jī)制(Attention mechanism)的思想源于人類視覺系統(tǒng)中的“注意力”,最早應(yīng)用于視覺圖像領(lǐng)域[17],可通過注意力概率分布的計(jì)算得出部分特征對整體的重要程度[18]。由于每個詞對于句子整體情感表達(dá)的重要程度不同,為了突出關(guān)鍵詞對情感表達(dá)的貢獻(xiàn)度,在雙向LSTM 模塊后引入注意力機(jī)制。通過對雙向LSTM 層提取到的序列信息進(jìn)行加權(quán)變換,以生成具有注意力概率分布的向量,突出文本中重要特征對情感類別的影響程度,使情感分類準(zhǔn)確率得到提升。計(jì)算公式如式(14)、(15)、(16)所示。

        其中,ut表示Ht通過tanh層得到的隱層,Ht表示t 時(shí)刻雙向LSTM 輸出的特征向量,αt表示通過Softmax 函數(shù)得到的注意力權(quán)重,v表示加權(quán)后得到的特征向量。

        用Softmax 層計(jì)算出所有可能標(biāo)簽的概率,如式(17)所示。將公式進(jìn)行變換得到多次迭代后的網(wǎng)絡(luò)參數(shù),獲得得分最高的序列作為預(yù)測標(biāo)記的正確序列。

        式中,Wv表示權(quán)重矩陣,bv表示偏置。

        為使模型的分類誤差最小化,使用交叉熵作為損失函數(shù)并加入正則項(xiàng)防止過擬合,計(jì)算公式如式(18)所示。

        式中,Nd表示訓(xùn)練集的大小,Nc表示情感類別的數(shù)量,y為文本中情感的類別,為模型預(yù)測的文本情感類別,λ表示L2 正則化,θ表示模型參數(shù)的集合。

        3 實(shí)驗(yàn)結(jié)果與分析

        3.1 實(shí)驗(yàn)數(shù)據(jù)

        數(shù)據(jù)集來自GitHub 網(wǎng)站公開的標(biāo)注微博評論,正面情感標(biāo)注為1,負(fù)面情感標(biāo)注為0,包含正向情感5 萬條,負(fù)向情感5 萬條共計(jì)10 萬條。實(shí)驗(yàn)分別從正向和負(fù)向情感數(shù)據(jù)集中選取前3 萬條作為訓(xùn)練集,其余數(shù)據(jù)作為測試集。

        3.2 數(shù)據(jù)處理

        (1)文本預(yù)處理。由于微博的表達(dá)形式多樣化,所以部分微博文本會帶有特殊符號,去除URL 地址、表情符號、用戶提及符號、轉(zhuǎn)發(fā)符號和主題符號等數(shù)據(jù)中的特殊符號不會影響微博文本的情感分析。本文使用正則表達(dá)式對其進(jìn)行清理。

        (2)文本切分。在中文中,詞與詞之間沒有明顯的分隔符,因此需要先對文本進(jìn)行分割,然后才能繼續(xù)分詞。有很多常見的中文分詞工具如jieba、NLPIR、pyltp 等。通過比較不同的分詞能力,本文選擇使用jieba 分詞工具。

        (3)去停用詞。解析微博文本時(shí)會有很多沒有實(shí)際意義的高頻詞,如介詞、代詞和連詞等。這些詞只是通過前后詞的連接使句子更加流暢,如“的”“了”“啊”等,在占用大量存儲空間的同時(shí)會降低數(shù)據(jù)處理效率,因此需要刪除。常用的有哈工大停用詞表和百度停用詞表。為了使停用詞覆蓋面更加全面,對上述兩個停用詞列表進(jìn)行集成和刪除,獲得一個新的停用詞列表來過濾停用詞,以提高處理效率。

        3.3 實(shí)驗(yàn)環(huán)境與評價(jià)指標(biāo)

        (1)實(shí)驗(yàn)環(huán)境。本文實(shí)驗(yàn)環(huán)境與參數(shù)如表2 所示。

        (2)評價(jià)指標(biāo)。情感分類作為文本分類的一種,常見的評估指標(biāo)有準(zhǔn)確率(accuracy)、精確率(Precision)、召回率(Recall)和F1 值,計(jì)算公式如式(19)-(22)所示。

        其中,T 是預(yù)測正確的數(shù)量,N 是全部數(shù)量。TP 是正向類預(yù)測為正向的數(shù)量,F(xiàn)P 是負(fù)向類預(yù)測為正向的數(shù)量,F(xiàn)N 是正向類預(yù)測為負(fù)向的數(shù)量。

        Table 2 Laboratory environment configuration表2 實(shí)驗(yàn)環(huán)境配置

        3.4 實(shí)驗(yàn)結(jié)果分析

        在Tensorflow 深度學(xué)習(xí)框架下搭建CNN-BiLSTM 模型,為優(yōu)化模型性能進(jìn)行大量的調(diào)參實(shí)驗(yàn),最后設(shè)置本文的超參數(shù)如表3 所示。

        Table 3 Parameter setting of emotion classification model表3 情感分類模型參數(shù)設(shè)置

        (1)詞向量模型對比實(shí)驗(yàn)。為驗(yàn)證基于中文筆畫的cw2vec 模型在中文微博分類的有效性,均采用相同的中文微博文本數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),選取目前使用最多的word2vec中CBOW 模型和Skip-gram 模型作為參照實(shí)驗(yàn)。分類模型采用本文提出的CNN+BiLSTM+注意力混合深度學(xué)習(xí)模型,評價(jià)指標(biāo)采用準(zhǔn)確率,實(shí)驗(yàn)結(jié)果如圖5 所示,準(zhǔn)確率如式(19)所示。

        實(shí)驗(yàn)結(jié)果表明,基于中文筆畫的cw2vec 模型比基于英文字母的CBOW 模型和Skip-gram 模型分別提升2.35%和1.19%,cw2vec 模型可以更好地利用漢字結(jié)構(gòu)和筆畫信息有效捕捉漢字特征,準(zhǔn)確率更高,魯棒性更好。

        (2)分類模型對比實(shí)驗(yàn)。為驗(yàn)證混合深度學(xué)習(xí)模型有效性,全部采用cw2vec 模型訓(xùn)練好的中文微博數(shù)據(jù)集作為輸入,設(shè)置SVM、CNN、LSTM 和BiLSTM 模型進(jìn)行對比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如圖6 所示,評價(jià)指標(biāo)如式(20)-(22)所示。

        通過圖6 可知,SVM 模型作為機(jī)器學(xué)習(xí)中比較典型的分類模型,實(shí)驗(yàn)結(jié)果較差;CNN 模型只對局部特征進(jìn)行提取,學(xué)習(xí)詞語間長距離依賴的能力較差,最后的分類效果不理想;對比LSTM 模型與BiLSTM 模型,由于權(quán)值共享,會造成文本處理過程中的相對公平,但關(guān)注上下文的雙向LSTM 比只關(guān)注上文的LSTM 分類效果有所提升;CNN+BiLSTM+注意力模型、混合深度學(xué)習(xí)模型通過增加CNN 和注意力機(jī)制可以更好地提取局部關(guān)鍵特征,與BiLSTM 單一的深度學(xué)習(xí)模型相比,混合深度學(xué)習(xí)模型的精確率、召回率和F1 值分別提升1.88%、3.56% 和2.72%,證明混合深度學(xué)習(xí)模型結(jié)合cw2vec 模型在情感分類上更有效。

        Fig.5 Comparison of segmentation model results圖5 分詞模型結(jié)果對比

        Fig.6 Experimental results of classification model圖6 分類模型實(shí)驗(yàn)結(jié)果

        4 結(jié)語

        本文提出基于中文筆畫的cw2vec 和CNN-BiLSTM 注意力模型相結(jié)合的混合深度學(xué)習(xí)中文微博文本情感分類方法,通過cw2vec 模型將中文文本表示為詞向量作為CNN 的輸入層,并使用CNN 提取局部特征,利用BiLSTM模型提取中文文本的上下文特征并增加注意力模型獲取重要特征,加權(quán)后使用Softmax 函數(shù)進(jìn)行分類。使用公開標(biāo)注的中文微博數(shù)據(jù)集,先通過與CBOW 模型和Skipgram 模型進(jìn)行對比,證明基于中文筆畫的cw2vec 模型的有效性,然后在cw2vec 模型基礎(chǔ)上與SVM、CNN、LSTM 和BiLSTM 經(jīng)典模型進(jìn)行對比,證明本文提出的cw2vec 和CNN-BiLSTM 注意力模型結(jié)合的方法有效。由于本文重點(diǎn)研究中文微博信息,沒有考慮英文文本,未來可考慮在中英文文本混合分類中加入中文微博表情方法進(jìn)行情感分類研究。

        猜你喜歡
        分類文本情感
        分類算一算
        如何在情感中自我成長,保持獨(dú)立
        失落的情感
        北極光(2019年12期)2020-01-18 06:22:10
        情感
        在808DA上文本顯示的改善
        分類討論求坐標(biāo)
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        如何在情感中自我成長,保持獨(dú)立
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        巨乳av夹蜜桃站台蜜桃机成人| 国产精品99无码一区二区| 蜜桃视频无码区在线观看| 国产精品11p| 国产一区二区三区亚洲精品| 国产免费一区二区在线视频| 无码人妻丰满熟妇啪啪网站| 欧美情侣性视频| 久久久婷婷综合五月天| 国产一区二区三区最新地址| 日本大骚b视频在线| 少妇的丰满3中文字幕| 成人国产在线播放自拍| 国产激情视频在线观看大全 | 97高清国语自产拍| 97超在线视频免费| 日本一区二区高清视频在线| 亚洲中文字幕av天堂自拍| 国产成人精品电影在线观看| 精品欧美久久99久久久另类专区| 国产激情在线观看视频网址| 中文字幕无码中文字幕有码| 97精品人妻一区二区三区香蕉| 亚洲欧洲综合有码无码| 一本色道久久综合亚洲精品不| 久久亚洲欧美国产精品| 熟妇与小伙子matur老熟妇e| 国产亚洲一区二区三区成人| 久久一区二区三区久久久| 最近中文字幕完整版免费| 久久无码精品精品古装毛片| 日本美女性亚洲精品黄色| 久久久久亚洲av无码专区首 | 亚洲一区二区三区综合网| 大奶白浆视频在线观看| 特级婬片国产高清视频| 国产一级淫片免费大片| 国内免费自拍9偷1拍| 欧美午夜刺激影院| 国产一区二区三区啪| 中文字幕人妻被公喝醉在线|