亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        結(jié)合卷積神經(jīng)網(wǎng)絡(luò)和詞語(yǔ)情感序列特征的中文情感分析

        2015-04-12 11:31:00陳釗徐睿峰桂林陸勤
        中文信息學(xué)報(bào) 2015年6期
        關(guān)鍵詞:特征文本情感

        陳釗,徐睿峰,桂林,陸勤

        (1.哈爾濱工業(yè)大學(xué)深圳研究生院計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,廣東深圳518000;2.香港理工大學(xué) 電子計(jì)算學(xué)系,香港特別行政區(qū))

        1 引言

        互聯(lián)網(wǎng)相關(guān)技術(shù)的飛速發(fā)展帶來(lái)人們?nèi)粘I畹那娜桓淖?。用戶通過(guò)微博等自媒體在社交網(wǎng)絡(luò)中表達(dá)自己的觀點(diǎn),在電子商務(wù)平臺(tái)對(duì)網(wǎng)購(gòu)的產(chǎn)品進(jìn)行評(píng)價(jià)等行為已經(jīng)成為了日常生活中的一部分。如何利用機(jī)器學(xué)習(xí)、自然語(yǔ)言處理技術(shù)對(duì)此類文本進(jìn)行分析,獲得其中的觀點(diǎn)傾向性、情感極性,成為了人工智能領(lǐng)域的一個(gè)重要研究問(wèn)題[1]。

        傳統(tǒng)的情感分析技術(shù)大體可以分為基于規(guī)則的方法和基于統(tǒng)計(jì)的方法?;谝?guī)則的方法主要從語(yǔ)言學(xué)角度出發(fā),利用語(yǔ)言專家的人工知識(shí)編寫(xiě)詞典和模板,對(duì)文本中的情感傾向性進(jìn)行分析[2]。基于統(tǒng)計(jì)的方法,則從機(jī)器學(xué)習(xí)的角度出發(fā),利用人工標(biāo)注的訓(xùn)練語(yǔ)料,進(jìn)行特征提取和統(tǒng)計(jì)模型構(gòu)建,自動(dòng)化地實(shí)現(xiàn)情感極性的判斷[3]。在文本情感分析發(fā)展的十余年中,兩類方法相互滲透,使得情感分析技術(shù)向著更高的水平邁進(jìn)。在這個(gè)過(guò)程中,研究人員們積累了大量的資源、工具、算法與模型。

        近年來(lái),隨著深度學(xué)習(xí)相關(guān)技術(shù)的發(fā)展,研究人員利用基于深度神經(jīng)網(wǎng)絡(luò)的相關(guān)技術(shù)對(duì)文本中的情感進(jìn)行分析。例如,利用構(gòu)建在句法分析樹(shù)上的循環(huán)神經(jīng)網(wǎng)絡(luò)對(duì)電影評(píng)論文本進(jìn)行五個(gè)級(jí)別的情感極性判別[4],以及利用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行情感分析[5]等。部分研究人員認(rèn)為此類方法是模擬人類神經(jīng)元的工作方法,對(duì)文本進(jìn)行了情感的理解。而另一部分研究人員則認(rèn)為此類方法是在特征層面更好地構(gòu)建了模型。不論是哪一種觀點(diǎn),基于深度神經(jīng)網(wǎng)絡(luò)的方法是一種自動(dòng)化的情感分析方法,并且由于其模型參數(shù)規(guī)模大,對(duì)于特征空間的構(gòu)建與搜索、模型的建立等都更為精細(xì),性能上也體現(xiàn)了相比于以往方法的優(yōu)越性。但這類方法忽略了對(duì)現(xiàn)有積累的大量情感資源,包括已有的規(guī)則、已有的情感詞典、知識(shí)庫(kù)等的有效利用。如何融合深度神經(jīng)網(wǎng)絡(luò)和現(xiàn)有情感計(jì)算資源,則是一個(gè)有待解決的問(wèn)題。

        為此,本文提出一種結(jié)合卷積神經(jīng)網(wǎng)絡(luò)和情感計(jì)算資源的中文文本情感分析方法,采用基于詞典資源的抽象表達(dá)方式來(lái)描述每個(gè)詞語(yǔ)的基本屬性特征,將詞語(yǔ)的情感極性和詞性特征應(yīng)用到文本的特征表示。然后利用卷積神經(jīng)網(wǎng)絡(luò)提取與文本情感表達(dá)相關(guān)的序列特征作為文本的特征向量用于情感分類。在中文傾向性分析評(píng)測(cè)Chinese Opinion Analysis Evaluation(COAE2014)數(shù)據(jù)集的實(shí)驗(yàn)顯示本文提出的方法取得了比目前主流的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)以及樸素貝葉斯支持向量機(jī)(Na?ve Bayes Support Vector Machines,NBSVM)更好的性能,顯示了本文提出思路的有效性。

        本文的內(nèi)容組織結(jié)構(gòu)如下:第二節(jié)介紹情感分析以及深度學(xué)習(xí)的相關(guān)工作,第三節(jié)主要介紹本文提出的情感分析方法,第四節(jié)將通過(guò)兩組實(shí)驗(yàn)評(píng)估本文方法的有效性,第五節(jié)將對(duì)本文的主要貢獻(xiàn)做出梳理和總結(jié)。

        2 相關(guān)工作

        文本情感分析技術(shù)主要通過(guò)分析文本內(nèi)容來(lái)判斷文本所表達(dá)的情感傾向。這一技術(shù)在產(chǎn)品評(píng)價(jià)分析、輿情監(jiān)控等方面具有較廣泛的應(yīng)用。

        情感分析技術(shù)大體可以分為基于規(guī)則的方法和基于統(tǒng)計(jì)的方法。其中基于情感詞典資源的有監(jiān)督機(jī)器學(xué)習(xí)方法是目前的研究熱點(diǎn)。這類方法主要基于有監(jiān)督的機(jī)器學(xué)習(xí)方法,如支持向量機(jī)(SVMs,Support Vector Machines)、樸素貝葉斯(NB,Na?ve Bayes)、最大熵(ME,Maxinum Entropy)。通過(guò)結(jié)合文本特征,包括一元詞特征(uni-gram)、二元詞特征(bigram)、詞性特征、情感詞特征等,將文本映射為特征向量,用于模型的訓(xùn)練和分類預(yù)測(cè)。Sida Wang[6]等人采用樸素貝葉斯和支持向量機(jī)相結(jié)合的方法,在多個(gè)公開(kāi)數(shù)據(jù)集上取得了不錯(cuò)的效果。Bollegala[7]等人利用不同領(lǐng)域情感表達(dá)方式的共性來(lái)構(gòu)建領(lǐng)域相關(guān)的情感詞典,擴(kuò)充文本特征,以此提高跨領(lǐng)域情感分類的效果。謝麗星[8]等人針對(duì)中文微博的文本特征,提出了基于層次結(jié)構(gòu)的多策略中文微博情感分析和特征抽取方法。

        在自然語(yǔ)言處理領(lǐng)域,詞作為文本的基本組成單元,One-h(huán)ot Representation成為詞語(yǔ)最常用的一種表達(dá)方式。但是該方法忽略了詞與詞之間的上下文語(yǔ)義與語(yǔ)法關(guān)系,也無(wú)法提供詞本身所攜帶的信息。Bengio[9]等在2003年提出用神經(jīng)網(wǎng)絡(luò)構(gòu)建二元語(yǔ)言模型的方法,把詞映射到低維實(shí)數(shù)向量,通過(guò)詞與詞之間的距離來(lái)判斷它們之間的語(yǔ)義相似度。Andriy Mnih[10]等人提出層次Log-Bilinear模型來(lái)訓(xùn)練語(yǔ)言模型。Mikolov[11-12]借鑒Log-Bilinear模型的思想,在word2vec中實(shí)現(xiàn)了CBOW和Skipgram兩種語(yǔ)言模型。隨后,詞嵌入(也稱詞向量)被應(yīng)用自然語(yǔ)言處理的多個(gè)領(lǐng)域。Socher[13]等人提出基于詞向量的遞歸神經(jīng)網(wǎng)絡(luò),實(shí)現(xiàn)對(duì)文本的向量表示,并在情感分析方面取得不錯(cuò)的效果。Johnson[14]提出基于One-h(huán)ot Representation的詞表達(dá)方式的卷積神經(jīng)網(wǎng)絡(luò)模型,顯示了詞序特征在文本分類上的有效性。上述基于詞向量的深度學(xué)習(xí)模型主要利用了詞的上下文語(yǔ)義信息和語(yǔ)法結(jié)構(gòu)特征,而在情感分析任務(wù)中,詞語(yǔ)極性和詞性等詞語(yǔ)本身所具有的特征信息直接影響文本的情感表達(dá)。Maas[15]利用訓(xùn)練語(yǔ)料的情感標(biāo)注信息,提出了有監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)相結(jié)合的語(yǔ)言模型。Tang[16]提出一種嵌入情感信息的語(yǔ)言模型,在Twitter情感分類任務(wù)中取得最好成績(jī)。Faruqiu[17]則采用后處理的方式,實(shí)現(xiàn)在任意詞向量上嵌入具有網(wǎng)絡(luò)結(jié)構(gòu)的語(yǔ)義詞典。

        目前的相關(guān)工作中,基于人工規(guī)則和詞典資源的特征抽取方法往往依賴于特定領(lǐng)域或特定語(yǔ)料,而且文本特征維度隨人工規(guī)則和詞典資源的增加而線性增長(zhǎng),不僅增加了模型的訓(xùn)練成本,還降低了模型的泛化能力。

        3 基于卷積神經(jīng)網(wǎng)絡(luò)的詞語(yǔ)情感序列特征抽取模型

        為了實(shí)現(xiàn)文本情感特征信息的有效挖掘和表達(dá),本文提出了一種結(jié)合詞語(yǔ)情感特征的卷積神經(jīng)網(wǎng)絡(luò)(Word Feature Convolutional Neural Networks,WFCNN)方法。這一方法首先建立一種基于情感詞典資源的抽象詞向量表達(dá)方式,通過(guò)該方法引入詞語(yǔ)的情感極性和詞性特征。然后用詞向量組成文本特征矩陣,將其作為卷積神經(jīng)網(wǎng)絡(luò)模型的輸入,并利用反向傳播算法訓(xùn)練模型。最后,提取WFCNN模型產(chǎn)生的序列特征,將其作為輸入文本的情感特征表示,加入到支持向量機(jī)SVMs分類器,實(shí)現(xiàn)對(duì)文本的情感極性分類。

        3.1 基于詞典的詞語(yǔ)抽象表示方法

        網(wǎng)絡(luò)文本,如微博、產(chǎn)品評(píng)論,由于受到文本長(zhǎng)度限制,內(nèi)容往往較為精簡(jiǎn),偏向于口語(yǔ)化,整體情感較為單一,因此文本中的相關(guān)情感表達(dá)序列片段往往代表著文本的情感傾向。例如,“太逗了!看到蒙牛笑噴了”其中“太逗了”和“笑噴了”代表了整句的情感傾向。又如“所以我都不喝蒙牛,一直不喜歡蒙牛?!?,文本中的“不喜歡”表達(dá)了負(fù)面情緒。在對(duì)上述文本的傾向性進(jìn)行識(shí)別時(shí),若能提取與情感表達(dá)相關(guān)的序列片段,將有助于準(zhǔn)確地判斷文本的情感極性?;谏鲜鰧?duì)文本情感表達(dá)序列規(guī)則的觀察,本文提出了利用詞典資源構(gòu)建詞向量的方法。不同于word2vec等實(shí)數(shù)向量的表示方式,本文利用詞語(yǔ)本身具有的屬性特征來(lái)構(gòu)建詞向量。

        本文采用表1所示的詞語(yǔ)特征。

        本文把每一個(gè)詞語(yǔ)映射到一個(gè)k維0,1向量空間,即x∈?k,其中k代表詞語(yǔ)本身具有的特征個(gè)數(shù),每一維度的數(shù)值用0或1表示,0表示不具有該特征,1表示具有該特征。對(duì)于給定的句子,它包含n個(gè)詞xi,1≤i≤n,構(gòu)成一個(gè)n×k的特征矩陣。本文將句子中第i個(gè)詞到第j個(gè)詞組成的短語(yǔ)片段記為。同理,包含n個(gè)詞的句子記做。

        表1 情感分類采用的詞語(yǔ)特征

        3.2 基于詞向量的卷積神經(jīng)網(wǎng)絡(luò)模型

        卷積神經(jīng)網(wǎng)絡(luò)是一種前饋神經(jīng)網(wǎng)絡(luò),由卷積層和下采樣層疊加組合而成。每一層的輸出是下一層的輸入。卷積層作為特征提取層,通過(guò)濾波器提取局部特征,經(jīng)過(guò)卷積核函數(shù)運(yùn)算產(chǎn)生特征圖,輸出到下采樣層。下采樣層屬于特征映射層,對(duì)卷積層產(chǎn)生的特征圖進(jìn)行采樣,輸出局部最優(yōu)特征。本文在Kim[5]的卷積神經(jīng)網(wǎng)絡(luò)模型的基礎(chǔ)上,引入了本文提出的基于詞典資源的詞向量表示方法。圖1為本文采用的卷積神經(jīng)網(wǎng)絡(luò)模型。

        本文利用大小為h×k的濾波器對(duì)輸入特征矩陣進(jìn)行卷積操作,即:

        其中,ci代表特征圖中第i個(gè)特征值,f(·)為卷積核函數(shù),w∈?hk為濾波器,h為滑動(dòng)窗口大小,b為偏置值。Xi:i+h-1表示由第i行到第i+h-1行組成的局部特征矩陣。因此,特征圖C為:

        下采樣層采用Gollobert[18]提出的max-overtime pooling方法進(jìn)行特征采樣,得到的特征值為c^:

        卷積層和下采樣層組成WFCNN模型的特征提取層,WFCNN由多個(gè)不同類型的特征提取層(h取不同的值)并列組成,其中每種類型的特征提取層各m個(gè),因此全連接層的特征向量V為:

        圖1 本文提出的WFCNN模型結(jié)構(gòu)

        其中c^l,hj為第j種類型的濾波器產(chǎn)生的第l個(gè)特征值。期望通過(guò)這樣的網(wǎng)絡(luò)結(jié)構(gòu),可以在本文提出的基于詞語(yǔ)特征表示的基礎(chǔ)上,進(jìn)一步提取出與正負(fù)面情感標(biāo)簽相關(guān)的詞語(yǔ)序列特征用于最終的情感分類。

        下采樣層輸出的特征向量作為全連接層的輸入,然后利用Softmax輸出分類結(jié)果,并根據(jù)訓(xùn)練數(shù)據(jù)的實(shí)際分類標(biāo)簽,采用反向傳播算法對(duì)模型參數(shù)進(jìn)行梯度更新。即:

        最后,利用訓(xùn)練好的WFCNN模型,將文本特征矩陣轉(zhuǎn)為特征向量V,并用SVMs分類器進(jìn)行模型訓(xùn)練和分類。

        3.3 詞語(yǔ)序列特征融合方法

        本文提出的WFCNN模型在對(duì)文本特征矩陣進(jìn)行特征提取后,輸出文本的特征向量V。特征向量V可以作為其他模型的附加特征,為其他模型提供一種嵌入文本情感傾向性特征的簡(jiǎn)單高效的方法。假設(shè)為增加文本情感傾向性特征后的特征向量,Voriginal模型原始特征向量,則:

        其中⊕為向量拼接操作。

        在本文提出的計(jì)算體系下,可以對(duì)文本中每一個(gè)詞語(yǔ)進(jìn)行抽象,選擇離散特征來(lái)表示其可能的情感極性以及其他可能對(duì)情感極性造成反轉(zhuǎn)或增強(qiáng)的屬性。在此基礎(chǔ)上,通過(guò)卷積神經(jīng)網(wǎng)絡(luò)的卷積運(yùn)算,在抽象出的詞語(yǔ)屬性序列上,進(jìn)行基于卷積操作的特征提取。通過(guò)這一運(yùn)算,獲得在抽象屬性基礎(chǔ)上的序列特征。例如,“否定詞+負(fù)面極性詞=正面極性”這一規(guī)則,可以結(jié)合序列特征和文本分類標(biāo)簽,通過(guò)卷積運(yùn)算獲得。

        因此,本文提出的相關(guān)方法所抽取的特征,具有很好的可理解性。在此基礎(chǔ)上,可以將本文的相關(guān)方法與傳統(tǒng)的規(guī)則方法通過(guò)添加規(guī)則集的方式進(jìn)行融合,也可以利用本文的相關(guān)方法和傳統(tǒng)的特征工程方法進(jìn)行特征層面的融合。

        4 實(shí)驗(yàn)結(jié)果

        在2014年中文觀點(diǎn)傾向性分析評(píng)測(cè)(Chinese Opinion Analysis Evaluation,COAE2014)微博數(shù)據(jù)集上,對(duì)本文提出方法有效性進(jìn)行評(píng)估。COAE2014微博數(shù)據(jù)集分為訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集。訓(xùn)練數(shù)據(jù)來(lái)自同一個(gè)話題,總共2 174條,其中有1 003條帶有正面情緒,1 171條帶有負(fù)面情緒。測(cè)試數(shù)據(jù)分別選自手機(jī)、保險(xiǎn)、翡翠三個(gè)不同話題,總共7 000條,其中帶有正面情感的有3 776條,帶有負(fù)面情感的有3 224條。

        本文設(shè)計(jì)了兩組實(shí)驗(yàn)來(lái)驗(yàn)證本文提出方法的有效性。實(shí)驗(yàn)一,對(duì)比本文提出的WFCNN模型與Kim提出的基于word2vec訓(xùn)練的詞向量的CNN模型(標(biāo)記為W2VCNN)以及Sida Wang提出的NBSVM①http://nlp.stanford.edu/~sidaw/home/projects:nbsvm模型的性能。實(shí)驗(yàn)二,將本文方法提取的情感序列特征添加到W2VCNN模型和NBSVM模型中驗(yàn)證本文方法在提取文本情感特征上的有效性。

        4.1 實(shí)驗(yàn)數(shù)據(jù)預(yù)處理與模型參數(shù)設(shè)置

        本實(shí)驗(yàn)使用的詞典資源由Hownet情感詞典和大連理工大學(xué)細(xì)粒度情感詞典構(gòu)成。在數(shù)據(jù)預(yù)處理方面,利用ICTCLAS②http://ictclas.nlpir.org/分詞工具對(duì)實(shí)驗(yàn)數(shù)據(jù)集進(jìn)行分詞和詞性標(biāo)注。詞向量采用Google開(kāi)源的word2vec③http://word2vec.googlecode.com/svn/trunk/的Skip-gram模型,利用2 000萬(wàn)條微博語(yǔ)料訓(xùn)練產(chǎn)生。詞向量維度為50維,包含33萬(wàn)個(gè)詞匯,在實(shí)驗(yàn)數(shù)據(jù)集上的詞匯覆蓋率為90.08%。對(duì)于卷積神經(jīng)網(wǎng)絡(luò)模型,本文統(tǒng)一采用表2所示的卷積神經(jīng)網(wǎng)絡(luò)模型可調(diào)參數(shù)設(shè)置。在模型訓(xùn)練階段,采用Zeiler[19]提出的Adadelta Update Rule進(jìn)行隨機(jī)梯度下降更新模型參數(shù)。

        表2 卷積神經(jīng)網(wǎng)絡(luò)參數(shù)設(shè)置

        在NBSVM模型中,本文采用Unigram和Bigram語(yǔ)言模型構(gòu)建文本特征向量。

        4.2 模型對(duì)比實(shí)驗(yàn)

        第一組實(shí)驗(yàn)對(duì)比本文提出的WFCNN模型與其他已有模型的性能。表3列出了在COAE2014數(shù)據(jù)集上實(shí)驗(yàn)的對(duì)比結(jié)果。

        表3 三種模型的情感分類性能對(duì)比(COAE 2014數(shù)據(jù)集)

        從表3的實(shí)驗(yàn)結(jié)果可以看出,本文提出的WFCNN模型與基于word2vec的詞向量的W2VCNN在性能上有一定的差距。但是WFCNN模型以低維度的詞語(yǔ)特征構(gòu)造特征輸入,相比于50維乃至上百維的詞向量,降低了模型的復(fù)雜度和減少了模型參數(shù),加快了模型訓(xùn)練速度,同時(shí)保證了良好的性能。WFCNN模型基于詞典資源,提取表達(dá)文本情感傾向性的通用規(guī)則序列,具有較強(qiáng)的模型泛化能力。與傳統(tǒng)的基于領(lǐng)域知識(shí)的NBSVM相比,WFCNN不僅在模型訓(xùn)練上具有優(yōu)勢(shì),而且在性能上也具有較大的優(yōu)勢(shì)。從表3的實(shí)驗(yàn)結(jié)果可知,在正面情緒識(shí)別的F-Score上,WFCNN比NBSVM高出1.68%,而負(fù)面情緒識(shí)別的F-Score,WFCNN比NBSVM高出6.56%。

        4.3 特征融合實(shí)驗(yàn)對(duì)比

        第二個(gè)實(shí)驗(yàn)為了驗(yàn)證本文提出的WFCNN模型在提取文本情感傾向性特征序列上的有效性,將WFCNN模型生成的文本特征向量分別與W2VCNN模型和NBSVM模型的特征向量進(jìn)行特征融合,對(duì)比特征融合前后的模型性能變化。表4列出了特征融合前后的實(shí)驗(yàn)結(jié)果對(duì)比。

        表4 情感序列特征對(duì)情感分類性能影響對(duì)比(COAE 2014數(shù)據(jù)集)

        通過(guò)對(duì)模型特征融合前后的實(shí)驗(yàn)對(duì)比,可以發(fā)現(xiàn)WFCNN模型產(chǎn)生的文本情感傾向性序列特征能夠有效地提升文本情感分類的效果。對(duì)于W2VCNN模型,融合WFCNN模型產(chǎn)生的情感傾向性序列特征后,在正面情緒識(shí)別的F-Score上獲得了0.97%的提升,而在負(fù)面情緒識(shí)別的F-Score上則提升了1.58%。對(duì)于基于領(lǐng)域知識(shí)的NBSVM模型而言,引入WFCNN模型產(chǎn)生的情感傾向性序列特征之后,分類性能得到極大的提升,在正面和負(fù)面情緒識(shí)別的F-Score上分別獲得了4.98%和7.51%的提升。

        4.4 實(shí)驗(yàn)結(jié)果分析

        這里通過(guò)幾個(gè)具體實(shí)例來(lái)分析WFCNN模型在引入文本情感序列特征上的有效性。表5給出從測(cè)試數(shù)據(jù)集合中選取的具有代表性的數(shù)據(jù)機(jī)器分類結(jié)果。

        如表5的樣例數(shù)據(jù)的分類結(jié)果所示。對(duì)于樣例1“三星的手機(jī)有點(diǎn)用不慣啊”,以及樣例2“珠寶是一項(xiàng)很好的投資,特別是翡翠升值空間是房產(chǎn)的n倍”,由于這一類樣例表達(dá)比較常見(jiàn),在訓(xùn)練集和測(cè)試集中都有類似的樣例,三種方法對(duì)此類樣例均有一定程度的覆蓋度,所以都做出了正確的情感分類。

        表5 測(cè)試數(shù)據(jù)實(shí)驗(yàn)結(jié)果樣例(COAE 2014數(shù)據(jù)集)

        對(duì)于樣例3“加入保險(xiǎn)是科學(xué)管理風(fēng)險(xiǎn),轉(zhuǎn)移損失的最佳方式。”以及樣例4“買(mǎi)了保險(xiǎn),就意味著一個(gè)麻煩之后會(huì)跟著另外的一些麻煩”,由于這類樣例中的情感詞不是單獨(dú)起作用,而是通過(guò)詞的序列表達(dá)出了一定的邏輯關(guān)系。基于詞向量的CNN方法,在處理這類樣例時(shí),由于樣例3中大量的負(fù)面詞“風(fēng)險(xiǎn)”“損失”等等,而被誤分類為負(fù)面。而在本文提出的詞語(yǔ)情感序列模型下,由于“風(fēng)險(xiǎn)”所在的序列為“科學(xué)管理風(fēng)險(xiǎn)”,是一個(gè)“正面極性詞+動(dòng)詞+負(fù)面極性詞”序列;而“一些麻煩”則是作為“量詞+負(fù)面極性詞”序列被判為反例。這類樣本在基于詞向量的CNN中均被錯(cuò)誤分類,而基于序列特征的CNN可以正確處理。而綜合了此類序列特征之后,基于詞向量的方法可以將之前的錯(cuò)誤分類糾正。對(duì)于樣例5“華為難道就只會(huì)技術(shù)了?”所有方法均未能正確分類。由于此樣例中出現(xiàn)了反問(wèn)、諷刺的表達(dá)方式,而“會(huì)技術(shù)”這一關(guān)鍵詞無(wú)論是基于詞向量的表達(dá),還是基于詞典的表示,均被判為正例。所以這一樣例在三種方法中均未能正確分類。

        由此可見(jiàn),WFCNN模型在處理具有情感詞的文本時(shí),能通過(guò)提取包含情感詞的序列特征,如“科學(xué)管理風(fēng)險(xiǎn)”、“最佳方式”、“一些麻煩”等,準(zhǔn)確地識(shí)別文本情感傾向性。而W2VCNN模型由于只利用詞語(yǔ)之間的語(yǔ)法和語(yǔ)義信息的詞向量,無(wú)法提取文本中表達(dá)情感傾向性的序列特征,因此對(duì)文本進(jìn)行了錯(cuò)誤的分類。而將WFCNN模型的情感序列特征加入到W2VCNN模型后,模型能夠準(zhǔn)確地識(shí)別文本的情感傾向性。此外,從測(cè)試樣例中可以發(fā)現(xiàn),無(wú)論是WFCNN模型還是W2VCNN模型都無(wú)法識(shí)別反諷句式的情感傾向性。對(duì)于如何識(shí)別這類特殊表達(dá)句式,也將是我們今后需要研究的一個(gè)課題。

        5 結(jié)論

        本文提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)的文本情感傾向性序列特征挖掘的算法,通過(guò)利用詞語(yǔ)本身固有的特征,將文本映射為低維度的抽象的特征矩陣,在保證文本情感傾向性識(shí)別性能的基礎(chǔ)上,降低了卷積神經(jīng)網(wǎng)絡(luò)模型的復(fù)雜度,加快了模型訓(xùn)練的速度。此外,本文提出的算法能夠從文本中挖掘表示情感傾向性的序列特征,可以為其他模型提供對(duì)情感分類有用的特征信息。

        由于本文提出的算法依賴于詞典資源,詞典資源的數(shù)量和質(zhì)量直接影響到算法的執(zhí)行效果。所以,如何利用卷積神經(jīng)網(wǎng)絡(luò)在抽象特征抽取方面的優(yōu)勢(shì)去挖掘和擴(kuò)充詞典資源將是我們下一步需要研究的工作。

        [1] Pang B.,Lee L.,Vaithyanathan S.Thumbs up?:sentiment classification using machine learning techniques[C]//Proceedings of the ACL.2002:79-86.

        [2] Xu R.F,Wong K.F,Xia Y.Coarse-Fine opinion mining-WIA in NTCIR-7MOAT task[C]//Proceedings of NTCIR.2008:307-313.

        [3] Tan S.,Zhang J.An empirical study of sentiment analysis for Chinese documents[J].Expert Systems with Applications,2008,34(4):2622-2629.

        [4] Socher R.,Perelygin A.,Wu J.Y.,et al.Recursive deep models for semantic compositionality over a sentiment Treebank[C]//Proceedings of the EMNLP.2013:1631-1642.

        [5] Kim Y.Convolutional neural networks for sentence classification[C]//Proceedings of the EMNLP.2014:1746-1751.

        [6] Wang S.,Manning C.D Baselines and bigrams:Simple,good sentiment and topic classification[C]//Proceedings of the ACL.2012:90-94.

        [7] Bollegala D.,Weir D.,Carroll J.Using multiple sources to construct a sentiment sensitive thesaurus for cross-domain sentiment classification[C]//Proceedings of the ACL.2011:132-141.

        [8] 謝麗星,周明,孫茂松.基于層次結(jié)構(gòu)的多策略中文微博情感分析和特征抽?。跩].中文信息學(xué)報(bào),2012,26(1):73-83.

        [9] Bengio Y.,Ducharme R.,Vincent P.,et al.A neural probabilistic language model[J].The Journal of Machine Learning Research,2003,3:1137-1155.

        [10] Mnih A.,Hinton G.E A scalable hierarchical distrib-uted language model[C]//Proceedings of the NIPS.2009:1081-1088.

        [11] Mikolov T.,Sutskever I.,Chen K.,et al.Distributed representations of words and phrases and their compositionality[C]//Proceedings of the NIPS.2013:3111-3119.

        [12] Mikolov T.,Chen K.,Corrado G.,et al.Efficient estimation of word representations in vector space[J].Computing Research Repository,2013:1301,3781

        [13] Socher R.,Pennington J.,Huang E.H,et al.Semisupervised recursive autoencoders for predicting sentiment distributions[C]//Proceedings of the ACL.2011:151-161.

        [14] Johnson R.,Zhang T.Effective use of word order for text categorization with convolutional neural networks[J].Computing Research Repository,2014:1412,1058.

        [15] Maas A.L,Daly R.E,Pham P.T,et al.Learning word vectors for sentiment analysis[C]//Proceedings of the ACL.2011:142-150.

        [16] Tang D.,Wei F.,Yang N.,et al.Learning sentiment-specific word embedding for twitter sentiment classification[C]//Proceedings of the ACL.2014:1555-1565.

        [17] Faruqui M.,Dodge J.,Jauhar S.K,et al.Retrofitting word vectors to semantic lexicons[J].Computing Research Repository,2014:1441,4166.

        [18] Collobert R.,Weston J.,Bottou L.,et al.Natural language processing(almost)from scratch[J].The Journal of Machine Learning Research,2011,12:2493-2537.

        [19] Zeiler M.D ADADELTA:An adaptive learning rate method[J].Computing Research Repository,2012:1212.5701.

        猜你喜歡
        特征文本情感
        如何在情感中自我成長(zhǎng),保持獨(dú)立
        失落的情感
        北極光(2019年12期)2020-01-18 06:22:10
        如何表達(dá)“特征”
        情感
        在808DA上文本顯示的改善
        不忠誠(chéng)的四個(gè)特征
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        如何在情感中自我成長(zhǎng),保持獨(dú)立
        抓住特征巧觀察
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        亚洲一区不卡在线导航| 婷婷亚洲综合五月天小说| 国产99一区二区三区四区| 激情精品一区二区三区| 无码专区人妻系列日韩精品| 妺妺窝人体色www婷婷| 亚洲av日韩综合一区二区三区| 日本高清视频xxxxx| 开心五月激情综合婷婷| a级黑人大硬长爽猛出猛进| 在线精品免费观看| 国产毛片一区二区日韩| 国产午夜在线观看视频| 国产精品一区二区久久蜜桃| 漂亮人妻被强了中文字幕| 精品人妖一区二区三区四区| 色综合久久中文娱乐网| 免费大黄网站| 久久久久亚洲精品天堂| 亚洲综合久久久| 久久综合给合久久狠狠狠9| 少妇爽到爆视频网站免费| 免费国产不卡在线观看| 亚洲av高清一区二区在线观看| 插插射啊爱视频日a级| 国产精品人妻一区二区三区四| 亚洲av无码一区二区三区在线| 国产视频不卡在线| 亚洲色图少妇熟女偷拍自拍| 国产一区二区三区十八区| 日本av一区二区三区视频| 亚洲第一se情网站| 日韩一线无码av毛片免费| 国产丰满乱子伦无码专| 亚洲精品视频一区二区三区四区 | 欧美变态口味重另类在线视频| 青榴社区国产精品| 日韩av一区二区不卡| 日本老熟妇乱| 人妻无码中文字幕免费视频蜜桃| av在线免费观看你懂的|