亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于改進(jìn)CNN的文本情感分析

        2021-11-04 10:09:42楊會(huì)成徐姝琪
        關(guān)鍵詞:單詞分類文本

        何 野,楊會(huì)成,潘 玥,徐姝琪

        (安徽工程大學(xué) 電氣工程學(xué)院,安徽 蕪湖 241004)

        0 引言

        隨著電子產(chǎn)品及互聯(lián)網(wǎng)技術(shù)的不斷進(jìn)步與革新,包含人們情感評(píng)論的大量文本信息已經(jīng)出現(xiàn)在網(wǎng)絡(luò)平臺(tái)上.在自然語言處理(NLP)領(lǐng)域中,尋找一種有效的數(shù)據(jù)挖掘和分析方法是一項(xiàng)非常重要的研究,這被稱為文本情感分析[1].文本情感分析主要包括文本分類、信息提取和文本生成技術(shù),情感分析是一個(gè)過程,用于識(shí)別和分類意見、觀點(diǎn)(從文本到特定主題或產(chǎn)品).這些評(píng)估可以是正面、負(fù)面或中立的.分析可以在文檔級(jí)別、句子級(jí)別或單詞級(jí)別執(zhí)行.目前,基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的情感分析在各種應(yīng)用中都取得了良好的效果.然而,機(jī)器學(xué)習(xí)方法中使用的函數(shù)非常簡單,這可能導(dǎo)致它們?cè)谔幚韽?fù)雜分類問題時(shí)對(duì)新的模型的適應(yīng)能力較差,并且在樣本和計(jì)算單位比較少的情況下,表達(dá)復(fù)雜函數(shù)的能力在一定程度上受到限制.

        歷年來,情感分類方法發(fā)生了許多變化,最早是基于初始情感詞典的方法, Bengio等[2]最早使用神經(jīng)網(wǎng)絡(luò)構(gòu)建語言模型.Mikolov等[3-4]于2013 年提出了 Word2Vec 技術(shù),推動(dòng)了詞向量的快速發(fā)展.然后再到機(jī)器學(xué)習(xí)方法,例如支持向量機(jī)(SVM)[5]、樸素貝葉斯(NB)、決策樹、邏輯回歸等.盡管某些機(jī)器學(xué)習(xí)方法可以在某些任務(wù)上取得良好的結(jié)果,但是由于特征工程的復(fù)雜性,這些方法的效果非常依賴于特征表示,并且難以獲得可接受的分類結(jié)果.隨著人們對(duì)深度學(xué)習(xí)算法的進(jìn)一步研究與認(rèn)識(shí),許多深度學(xué)習(xí)方法被應(yīng)用于情感分類任務(wù).與機(jī)器學(xué)習(xí)方法相比,深度學(xué)習(xí)則更加側(cè)重于取代人工使用自動(dòng)提取語料特征的方式,這樣可以使文本的特征更加廣泛和豐富.但是,深度學(xué)習(xí)模型的魯棒性和泛化能力在很大程度上取決于訓(xùn)練階段可用的數(shù)據(jù)量,而基于機(jī)器學(xué)習(xí)的分類系統(tǒng)的性能則主要取決于語料庫中的標(biāo)記訓(xùn)練及其有效特征的選擇.

        卷積神經(jīng)網(wǎng)絡(luò)[6](CNN)和遞歸神經(jīng)網(wǎng)絡(luò)是兩個(gè)廣泛使用的用于情感表達(dá)的深度學(xué)習(xí)模型.Yann LeCun在1998年提出的CNN具有很強(qiáng)的適應(yīng)性,并且非常善于從文本中提取局部特征.由于其獨(dú)特的權(quán)重共享結(jié)構(gòu),它可以顯著降低計(jì)算復(fù)雜度以及訓(xùn)練參數(shù)的數(shù)量.對(duì)于句子建模,Kalchbrenner等人提出了動(dòng)態(tài)卷積神經(jīng)網(wǎng)絡(luò),它能夠獲得短時(shí)和長時(shí)關(guān)系.作為另一個(gè)流行的網(wǎng)絡(luò),循環(huán)神經(jīng)網(wǎng)絡(luò)[7](RNN)可以處理序列數(shù)據(jù)并了解長期依賴性.RNN將當(dāng)前輸出和網(wǎng)絡(luò)的上一級(jí)輸出聯(lián)系在一起,這意味著當(dāng)前隱藏層的輸入不僅包括輸入層的輸出,而且還包括先前隱藏層的輸出.當(dāng)RNN學(xué)習(xí)到對(duì)信息的長期依賴時(shí),它將產(chǎn)生梯度衰減或爆炸.為了解決這個(gè)問題,研究人員提出了一種LSTM[8]單元,其中包含一個(gè)可以長時(shí)間保持狀態(tài)的存儲(chǔ)單元,這樣可以確保結(jié)構(gòu)更準(zhǔn)確地提取情感信息.筆者在研究CNN和LSTM的基礎(chǔ)上,將這兩種框架的部分結(jié)構(gòu)結(jié)合在一起,CNN僅提取本地特征,而LSTM是一種網(wǎng)絡(luò)類型,其網(wǎng)絡(luò)內(nèi)存可以記住輸入中的先前數(shù)據(jù),并根據(jù)該知識(shí)做出決策.因此,LSTM更適合直接輸入文本,因?yàn)榫渥又械拿總€(gè)單詞都具有基于周圍單詞的含義.充分利用了它們各自的優(yōu)勢(shì),彌補(bǔ)了單個(gè)網(wǎng)絡(luò)框架的缺陷,并通過實(shí)驗(yàn)證明了該網(wǎng)絡(luò)模型對(duì)提高文本情感分析具有較為高效的作用.

        1 相關(guān)技術(shù)與概念

        1.1 CNN模型

        CNN是卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network)的簡稱,它本質(zhì)上是一個(gè)多層感知機(jī).該模型主要由3個(gè)部分構(gòu)成:卷積層、池化層和全連接層(輸出層).結(jié)構(gòu)如圖1所示.

        圖1 CNN模型結(jié)構(gòu)

        它是一個(gè)具有多個(gè)隱層的人工神經(jīng)網(wǎng)絡(luò).卷積和池化是網(wǎng)絡(luò)中的最關(guān)鍵的操作,也是網(wǎng)絡(luò)進(jìn)行局部和全局特征提取的主要方式.CNN采用梯度下降法,通常都能夠得到最優(yōu)解,經(jīng)過多次的訓(xùn)練調(diào)整提高網(wǎng)絡(luò)的參數(shù)的合理性.

        1.2 長短時(shí)記憶LSTM模型

        在處理時(shí)間序列問題上,無論是分類還是預(yù)測(cè)的問題,循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)都有著很好的優(yōu)勢(shì).它的神經(jīng)單元經(jīng)過運(yùn)算輸出結(jié)果后,繼續(xù)將其作為下一個(gè)單元的輸入并循環(huán)往復(fù),這樣可以有效利用前面的信息.在文本處理以及情感分析的問題上,循環(huán)神經(jīng)網(wǎng)絡(luò)能夠貫穿全文,利用上下文的信息,從而使分類問題變得更加精準(zhǔn).然而,傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)難以對(duì)長文本進(jìn)行處理,因其容易造成梯度爆炸和消失的問題.

        長短時(shí)記憶網(wǎng)絡(luò)(Long Short Term Memory Network,LSTM),是一種改進(jìn)之后的循環(huán)神經(jīng)網(wǎng)絡(luò),可以解決RNN無法處理長距離的依賴的問題,在涉及長時(shí)間滯后的任務(wù)上,其性能將優(yōu)于RNN.

        LSTM網(wǎng)絡(luò)結(jié)構(gòu)由4個(gè)主要部分組成:輸入門、自循環(huán)鏈接、遺忘門和輸出門.

        對(duì)于輸入門i、遺忘門f和輸出門o,在t時(shí)刻分別有如下操作:

        it=σ(Wixt+Uiht-1),

        (1)

        ft=σ(Wfxt+Ufht-1),

        (2)

        ot=σ(Woxt+Uoht-1),

        (3)

        (4)

        (5)

        ht=ot·tanh(ct).

        (6)

        其中Wi、Wf、Wo、Wc、Ui、Uf、Uo、Uc均為權(quán)重矩陣,網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示.

        圖2 LSTM模型結(jié)構(gòu)

        2 基于LSTM-CNN的模型

        LSTM-CNN 模型由一個(gè)初始LSTM層構(gòu)成,它將接收詞向量輸入矩陣作為輸入,LSTM層為原始輸入生成一個(gè)新的編碼.然后將LSTM層的輸出緊接著輸入到期望可以提取局部特征的卷積層中.最后卷積層的輸出將被匯集到一個(gè)較小的緯度,最終輸出為正或負(fù)標(biāo)簽.它的結(jié)構(gòu)如圖3所示.

        圖3 LSTM-CNN組合網(wǎng)絡(luò)

        2.1 文本的詞向量表示

        對(duì)于情感分析來說,英文和中文存在著差別,即英文一般都是以單詞來表達(dá)意思,而中文則以詞組來表達(dá)情感.所以在進(jìn)行中文情感分析之前,首先得對(duì)數(shù)據(jù)集進(jìn)行預(yù)處理,即對(duì)句子進(jìn)行分詞,去除無用符號(hào)和停用詞等,其次將處理好的文本用詞向量表示.

        2.2 Word2Vec

        Word2Vec是一個(gè)非常有效的工具,可以在無須人工干預(yù)的情況下提取特定域的功能.另外,對(duì)于太小的文本或單個(gè)詞語,它都可以很好地工作.通過提供龐大的語料庫上下文并使用Word2Vec,可以創(chuàng)建具有正確意義的詞語并在大型數(shù)據(jù)集上更快地運(yùn)行.

        單詞含義是深度學(xué)習(xí)的最終視角,使用Word2Vec對(duì)較大的實(shí)體進(jìn)行分類可以完全滿足單詞的含義.在提出的方法中,數(shù)據(jù)集是在向量上訓(xùn)練的.具有相同情感標(biāo)簽的單詞具有相同的向量,因此可以輕松指定單詞相似度.

        2.3 LSTM-CNN網(wǎng)絡(luò)搭建

        該網(wǎng)絡(luò)由以下3個(gè)部分組成:

        1)卷積神經(jīng)網(wǎng)絡(luò)的輸入矩陣.所有的詞向量都被連接成二維矩陣,作為卷積神經(jīng)網(wǎng)絡(luò)的輸入矩陣.

        2)卷積神經(jīng)網(wǎng)絡(luò).在本文模型中,由4層卷積層構(gòu)建卷積神經(jīng)網(wǎng)絡(luò)模型,以提取句子中的重要特征信息.卷積由卷積內(nèi)核執(zhí)行.對(duì)于長度為l的內(nèi)核,有:

        ci=f(ω·xii+l-1+b).

        (7)

        式中,ω∈Rl×d是內(nèi)核的權(quán)重矩陣,xii+l-1被用于內(nèi)核嵌入基質(zhì)的字.而對(duì)于長度為n的句子,則得到特征向量c=[c1,c2,…,ci,cn].

        (8)

        2.4 模型的訓(xùn)練

        該模型訓(xùn)練的損失函數(shù)是通過反向傳播算法更新參數(shù)的形式得到的,損失函數(shù)如式(9)所示:

        (9)

        3 實(shí)驗(yàn)結(jié)果與分析

        筆者使用電子商務(wù)網(wǎng)站的產(chǎn)品評(píng)論為數(shù)據(jù)集,共20 065條數(shù)據(jù),使用數(shù)字1代表積極情緒,數(shù)字0代表消極情緒.其中,積極評(píng)價(jià)數(shù)據(jù)10 212條,消極評(píng)價(jià)數(shù)據(jù)9 853條.模型中,文本長度為29,詞向量維度為128,Adam的學(xué)習(xí)率為0.002,dropout 為0.5,批次大小設(shè)置為100.

        為了驗(yàn)證模型的性能,本次實(shí)驗(yàn)另外訓(xùn)練了兩種其他模型作為對(duì)比數(shù)據(jù),分別是CNN和LSTM模型,通過對(duì)比各個(gè)模型的準(zhǔn)確率(accuracy)、精確率(precision)、召回率(recall)和F-measure的值來判斷優(yōu)化程度.

        實(shí)驗(yàn)結(jié)果如表1所示.

        表1 模型測(cè)試結(jié)果

        通過模型 1 和模型 2 的實(shí)驗(yàn)對(duì)比,發(fā)現(xiàn)CNN模型在處理文本的各方面均優(yōu)于LSTM模型.

        對(duì)以上3種實(shí)驗(yàn)結(jié)果進(jìn)行分析,LSTM-CNN模型相比其他兩種單個(gè)模型,在對(duì)評(píng)論文本情感分析上有著更好的表現(xiàn),它的F-measure值均高于其他兩種模型.

        4 結(jié)論

        綜上所述,針對(duì)文本情感分析問題,在研究了CNN和LSTM模型的基礎(chǔ)上,筆者提出的基于LSTM-CNN算法的文本情感分析模型在各方面數(shù)據(jù)顯示其具有較為優(yōu)異的處理能力,實(shí)驗(yàn)結(jié)果驗(yàn)證了該模型的可行性和有效性.將來,可以嘗試將模型與其他自然語言處理技術(shù)串聯(lián)起來,以期在NLP問題中獲得更好的結(jié)果.

        猜你喜歡
        單詞分類文本
        分類算一算
        單詞連一連
        在808DA上文本顯示的改善
        分類討論求坐標(biāo)
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        數(shù)據(jù)分析中的分類討論
        看圖填單詞
        教你一招:數(shù)的分類
        看完這些單詞的翻譯,整個(gè)人都不好了
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        毛片免费视频在线观看| 五十路在线中文字幕在线中文字幕| 顶级高清嫩模一区二区| 韩国三级在线观看久| 国产chinese男男gay视频网| 亚洲欧美性另类春色| 精品人无码一区二区三区| 亚洲最大av免费观看| 丝袜美腿国产一区二区| 国产两女互慰高潮视频在线观看| 国产主播一区二区三区在线观看| 99精品国产自产在线观看| 国产一区二区视频免费| 精品国产免费一区二区三区 | 无码精品a∨在线观看| 亚洲午夜精品久久久久久抢| 东京热日本道免费高清| 少妇性l交大片7724com| 亚洲av综合av国产av| 国产成人久久精品亚洲小说| 久久九九精品国产不卡一区| 日本在线 | 中文| 久久tv中文字幕首页| 大白屁股流白浆一区二区三区| 亚洲最新精品一区二区| 国产三区在线成人av| 澳门毛片精品一区二区三区| 日本免费a一区二区三区 | 国产成人午夜精品免费视频| 日本一区二区久久精品亚洲中文无 | av新型国产在线资源| 久久狠狠色噜噜狠狠狠狠97| 亚洲色大成网站www尤物| 日韩美女av二区三区四区| 国产精品女丝袜白丝袜美腿| 国色天香中文字幕在线视频| 内射后入在线观看一区| 国产女主播免费在线观看| 亚洲一区二区在线观看网址| 亚洲午夜精品久久久久久人妖| 成在线人视频免费视频|