陳釗,徐睿峰,桂林,陸勤
(1.哈爾濱工業(yè)大學(xué)深圳研究生院計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,廣東深圳518000;2.香港理工大學(xué) 電子計(jì)算學(xué)系,香港特別行政區(qū))
互聯(lián)網(wǎng)相關(guān)技術(shù)的飛速發(fā)展帶來(lái)人們?nèi)粘I畹那娜桓淖?。用戶通過(guò)微博等自媒體在社交網(wǎng)絡(luò)中表達(dá)自己的觀點(diǎn),在電子商務(wù)平臺(tái)對(duì)網(wǎng)購(gòu)的產(chǎn)品進(jìn)行評(píng)價(jià)等行為已經(jīng)成為了日常生活中的一部分。如何利用機(jī)器學(xué)習(xí)、自然語(yǔ)言處理技術(shù)對(duì)此類文本進(jìn)行分析,獲得其中的觀點(diǎn)傾向性、情感極性,成為了人工智能領(lǐng)域的一個(gè)重要研究問(wèn)題[1]。
傳統(tǒng)的情感分析技術(shù)大體可以分為基于規(guī)則的方法和基于統(tǒng)計(jì)的方法?;谝?guī)則的方法主要從語(yǔ)言學(xué)角度出發(fā),利用語(yǔ)言專家的人工知識(shí)編寫(xiě)詞典和模板,對(duì)文本中的情感傾向性進(jìn)行分析[2]。基于統(tǒng)計(jì)的方法,則從機(jī)器學(xué)習(xí)的角度出發(fā),利用人工標(biāo)注的訓(xùn)練語(yǔ)料,進(jìn)行特征提取和統(tǒng)計(jì)模型構(gòu)建,自動(dòng)化地實(shí)現(xiàn)情感極性的判斷[3]。在文本情感分析發(fā)展的十余年中,兩類方法相互滲透,使得情感分析技術(shù)向著更高的水平邁進(jìn)。在這個(gè)過(guò)程中,研究人員們積累了大量的資源、工具、算法與模型。
近年來(lái),隨著深度學(xué)習(xí)相關(guān)技術(shù)的發(fā)展,研究人員利用基于深度神經(jīng)網(wǎng)絡(luò)的相關(guān)技術(shù)對(duì)文本中的情感進(jìn)行分析。例如,利用構(gòu)建在句法分析樹(shù)上的循環(huán)神經(jīng)網(wǎng)絡(luò)對(duì)電影評(píng)論文本進(jìn)行五個(gè)級(jí)別的情感極性判別[4],以及利用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行情感分析[5]等。部分研究人員認(rèn)為此類方法是模擬人類神經(jīng)元的工作方法,對(duì)文本進(jìn)行了情感的理解。而另一部分研究人員則認(rèn)為此類方法是在特征層面更好地構(gòu)建了模型。不論是哪一種觀點(diǎn),基于深度神經(jīng)網(wǎng)絡(luò)的方法是一種自動(dòng)化的情感分析方法,并且由于其模型參數(shù)規(guī)模大,對(duì)于特征空間的構(gòu)建與搜索、模型的建立等都更為精細(xì),性能上也體現(xiàn)了相比于以往方法的優(yōu)越性。但這類方法忽略了對(duì)現(xiàn)有積累的大量情感資源,包括已有的規(guī)則、已有的情感詞典、知識(shí)庫(kù)等的有效利用。如何融合深度神經(jīng)網(wǎng)絡(luò)和現(xiàn)有情感計(jì)算資源,則是一個(gè)有待解決的問(wèn)題。
為此,本文提出一種結(jié)合卷積神經(jīng)網(wǎng)絡(luò)和情感計(jì)算資源的中文文本情感分析方法,采用基于詞典資源的抽象表達(dá)方式來(lái)描述每個(gè)詞語(yǔ)的基本屬性特征,將詞語(yǔ)的情感極性和詞性特征應(yīng)用到文本的特征表示。然后利用卷積神經(jīng)網(wǎng)絡(luò)提取與文本情感表達(dá)相關(guān)的序列特征作為文本的特征向量用于情感分類。在中文傾向性分析評(píng)測(cè)Chinese Opinion Analysis Evaluation(COAE2014)數(shù)據(jù)集的實(shí)驗(yàn)顯示本文提出的方法取得了比目前主流的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)以及樸素貝葉斯支持向量機(jī)(Na?ve Bayes Support Vector Machines,NBSVM)更好的性能,顯示了本文提出思路的有效性。
本文的內(nèi)容組織結(jié)構(gòu)如下:第二節(jié)介紹情感分析以及深度學(xué)習(xí)的相關(guān)工作,第三節(jié)主要介紹本文提出的情感分析方法,第四節(jié)將通過(guò)兩組實(shí)驗(yàn)評(píng)估本文方法的有效性,第五節(jié)將對(duì)本文的主要貢獻(xiàn)做出梳理和總結(jié)。
文本情感分析技術(shù)主要通過(guò)分析文本內(nèi)容來(lái)判斷文本所表達(dá)的情感傾向。這一技術(shù)在產(chǎn)品評(píng)價(jià)分析、輿情監(jiān)控等方面具有較廣泛的應(yīng)用。
情感分析技術(shù)大體可以分為基于規(guī)則的方法和基于統(tǒng)計(jì)的方法。其中基于情感詞典資源的有監(jiān)督機(jī)器學(xué)習(xí)方法是目前的研究熱點(diǎn)。這類方法主要基于有監(jiān)督的機(jī)器學(xué)習(xí)方法,如支持向量機(jī)(SVMs,Support Vector Machines)、樸素貝葉斯(NB,Na?ve Bayes)、最大熵(ME,Maxinum Entropy)。通過(guò)結(jié)合文本特征,包括一元詞特征(uni-gram)、二元詞特征(bigram)、詞性特征、情感詞特征等,將文本映射為特征向量,用于模型的訓(xùn)練和分類預(yù)測(cè)。Sida Wang[6]等人采用樸素貝葉斯和支持向量機(jī)相結(jié)合的方法,在多個(gè)公開(kāi)數(shù)據(jù)集上取得了不錯(cuò)的效果。Bollegala[7]等人利用不同領(lǐng)域情感表達(dá)方式的共性來(lái)構(gòu)建領(lǐng)域相關(guān)的情感詞典,擴(kuò)充文本特征,以此提高跨領(lǐng)域情感分類的效果。謝麗星[8]等人針對(duì)中文微博的文本特征,提出了基于層次結(jié)構(gòu)的多策略中文微博情感分析和特征抽取方法。
在自然語(yǔ)言處理領(lǐng)域,詞作為文本的基本組成單元,One-h(huán)ot Representation成為詞語(yǔ)最常用的一種表達(dá)方式。但是該方法忽略了詞與詞之間的上下文語(yǔ)義與語(yǔ)法關(guān)系,也無(wú)法提供詞本身所攜帶的信息。Bengio[9]等在2003年提出用神經(jīng)網(wǎng)絡(luò)構(gòu)建二元語(yǔ)言模型的方法,把詞映射到低維實(shí)數(shù)向量,通過(guò)詞與詞之間的距離來(lái)判斷它們之間的語(yǔ)義相似度。Andriy Mnih[10]等人提出層次Log-Bilinear模型來(lái)訓(xùn)練語(yǔ)言模型。Mikolov[11-12]借鑒Log-Bilinear模型的思想,在word2vec中實(shí)現(xiàn)了CBOW和Skipgram兩種語(yǔ)言模型。隨后,詞嵌入(也稱詞向量)被應(yīng)用自然語(yǔ)言處理的多個(gè)領(lǐng)域。Socher[13]等人提出基于詞向量的遞歸神經(jīng)網(wǎng)絡(luò),實(shí)現(xiàn)對(duì)文本的向量表示,并在情感分析方面取得不錯(cuò)的效果。Johnson[14]提出基于One-h(huán)ot Representation的詞表達(dá)方式的卷積神經(jīng)網(wǎng)絡(luò)模型,顯示了詞序特征在文本分類上的有效性。上述基于詞向量的深度學(xué)習(xí)模型主要利用了詞的上下文語(yǔ)義信息和語(yǔ)法結(jié)構(gòu)特征,而在情感分析任務(wù)中,詞語(yǔ)極性和詞性等詞語(yǔ)本身所具有的特征信息直接影響文本的情感表達(dá)。Maas[15]利用訓(xùn)練語(yǔ)料的情感標(biāo)注信息,提出了有監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)相結(jié)合的語(yǔ)言模型。Tang[16]提出一種嵌入情感信息的語(yǔ)言模型,在Twitter情感分類任務(wù)中取得最好成績(jī)。Faruqiu[17]則采用后處理的方式,實(shí)現(xiàn)在任意詞向量上嵌入具有網(wǎng)絡(luò)結(jié)構(gòu)的語(yǔ)義詞典。
目前的相關(guān)工作中,基于人工規(guī)則和詞典資源的特征抽取方法往往依賴于特定領(lǐng)域或特定語(yǔ)料,而且文本特征維度隨人工規(guī)則和詞典資源的增加而線性增長(zhǎng),不僅增加了模型的訓(xùn)練成本,還降低了模型的泛化能力。
為了實(shí)現(xiàn)文本情感特征信息的有效挖掘和表達(dá),本文提出了一種結(jié)合詞語(yǔ)情感特征的卷積神經(jīng)網(wǎng)絡(luò)(Word Feature Convolutional Neural Networks,WFCNN)方法。這一方法首先建立一種基于情感詞典資源的抽象詞向量表達(dá)方式,通過(guò)該方法引入詞語(yǔ)的情感極性和詞性特征。然后用詞向量組成文本特征矩陣,將其作為卷積神經(jīng)網(wǎng)絡(luò)模型的輸入,并利用反向傳播算法訓(xùn)練模型。最后,提取WFCNN模型產(chǎn)生的序列特征,將其作為輸入文本的情感特征表示,加入到支持向量機(jī)SVMs分類器,實(shí)現(xiàn)對(duì)文本的情感極性分類。
網(wǎng)絡(luò)文本,如微博、產(chǎn)品評(píng)論,由于受到文本長(zhǎng)度限制,內(nèi)容往往較為精簡(jiǎn),偏向于口語(yǔ)化,整體情感較為單一,因此文本中的相關(guān)情感表達(dá)序列片段往往代表著文本的情感傾向。例如,“太逗了!看到蒙牛笑噴了”其中“太逗了”和“笑噴了”代表了整句的情感傾向。又如“所以我都不喝蒙牛,一直不喜歡蒙牛?!?,文本中的“不喜歡”表達(dá)了負(fù)面情緒。在對(duì)上述文本的傾向性進(jìn)行識(shí)別時(shí),若能提取與情感表達(dá)相關(guān)的序列片段,將有助于準(zhǔn)確地判斷文本的情感極性?;谏鲜鰧?duì)文本情感表達(dá)序列規(guī)則的觀察,本文提出了利用詞典資源構(gòu)建詞向量的方法。不同于word2vec等實(shí)數(shù)向量的表示方式,本文利用詞語(yǔ)本身具有的屬性特征來(lái)構(gòu)建詞向量。
本文采用表1所示的詞語(yǔ)特征。
本文把每一個(gè)詞語(yǔ)映射到一個(gè)k維0,1向量空間,即x∈?k,其中k代表詞語(yǔ)本身具有的特征個(gè)數(shù),每一維度的數(shù)值用0或1表示,0表示不具有該特征,1表示具有該特征。對(duì)于給定的句子,它包含n個(gè)詞xi,1≤i≤n,構(gòu)成一個(gè)n×k的特征矩陣。本文將句子中第i個(gè)詞到第j個(gè)詞組成的短語(yǔ)片段記為。同理,包含n個(gè)詞的句子記做。
表1 情感分類采用的詞語(yǔ)特征
卷積神經(jīng)網(wǎng)絡(luò)是一種前饋神經(jīng)網(wǎng)絡(luò),由卷積層和下采樣層疊加組合而成。每一層的輸出是下一層的輸入。卷積層作為特征提取層,通過(guò)濾波器提取局部特征,經(jīng)過(guò)卷積核函數(shù)運(yùn)算產(chǎn)生特征圖,輸出到下采樣層。下采樣層屬于特征映射層,對(duì)卷積層產(chǎn)生的特征圖進(jìn)行采樣,輸出局部最優(yōu)特征。本文在Kim[5]的卷積神經(jīng)網(wǎng)絡(luò)模型的基礎(chǔ)上,引入了本文提出的基于詞典資源的詞向量表示方法。圖1為本文采用的卷積神經(jīng)網(wǎng)絡(luò)模型。
本文利用大小為h×k的濾波器對(duì)輸入特征矩陣進(jìn)行卷積操作,即:
其中,ci代表特征圖中第i個(gè)特征值,f(·)為卷積核函數(shù),w∈?hk為濾波器,h為滑動(dòng)窗口大小,b為偏置值。Xi:i+h-1表示由第i行到第i+h-1行組成的局部特征矩陣。因此,特征圖C為:
下采樣層采用Gollobert[18]提出的max-overtime pooling方法進(jìn)行特征采樣,得到的特征值為c^:
卷積層和下采樣層組成WFCNN模型的特征提取層,WFCNN由多個(gè)不同類型的特征提取層(h取不同的值)并列組成,其中每種類型的特征提取層各m個(gè),因此全連接層的特征向量V為:
圖1 本文提出的WFCNN模型結(jié)構(gòu)
其中c^l,hj為第j種類型的濾波器產(chǎn)生的第l個(gè)特征值。期望通過(guò)這樣的網(wǎng)絡(luò)結(jié)構(gòu),可以在本文提出的基于詞語(yǔ)特征表示的基礎(chǔ)上,進(jìn)一步提取出與正負(fù)面情感標(biāo)簽相關(guān)的詞語(yǔ)序列特征用于最終的情感分類。
下采樣層輸出的特征向量作為全連接層的輸入,然后利用Softmax輸出分類結(jié)果,并根據(jù)訓(xùn)練數(shù)據(jù)的實(shí)際分類標(biāo)簽,采用反向傳播算法對(duì)模型參數(shù)進(jìn)行梯度更新。即:
最后,利用訓(xùn)練好的WFCNN模型,將文本特征矩陣轉(zhuǎn)為特征向量V,并用SVMs分類器進(jìn)行模型訓(xùn)練和分類。
本文提出的WFCNN模型在對(duì)文本特征矩陣進(jìn)行特征提取后,輸出文本的特征向量V。特征向量V可以作為其他模型的附加特征,為其他模型提供一種嵌入文本情感傾向性特征的簡(jiǎn)單高效的方法。假設(shè)為增加文本情感傾向性特征后的特征向量,Voriginal模型原始特征向量,則:
其中⊕為向量拼接操作。
在本文提出的計(jì)算體系下,可以對(duì)文本中每一個(gè)詞語(yǔ)進(jìn)行抽象,選擇離散特征來(lái)表示其可能的情感極性以及其他可能對(duì)情感極性造成反轉(zhuǎn)或增強(qiáng)的屬性。在此基礎(chǔ)上,通過(guò)卷積神經(jīng)網(wǎng)絡(luò)的卷積運(yùn)算,在抽象出的詞語(yǔ)屬性序列上,進(jìn)行基于卷積操作的特征提取。通過(guò)這一運(yùn)算,獲得在抽象屬性基礎(chǔ)上的序列特征。例如,“否定詞+負(fù)面極性詞=正面極性”這一規(guī)則,可以結(jié)合序列特征和文本分類標(biāo)簽,通過(guò)卷積運(yùn)算獲得。
因此,本文提出的相關(guān)方法所抽取的特征,具有很好的可理解性。在此基礎(chǔ)上,可以將本文的相關(guān)方法與傳統(tǒng)的規(guī)則方法通過(guò)添加規(guī)則集的方式進(jìn)行融合,也可以利用本文的相關(guān)方法和傳統(tǒng)的特征工程方法進(jìn)行特征層面的融合。
在2014年中文觀點(diǎn)傾向性分析評(píng)測(cè)(Chinese Opinion Analysis Evaluation,COAE2014)微博數(shù)據(jù)集上,對(duì)本文提出方法有效性進(jìn)行評(píng)估。COAE2014微博數(shù)據(jù)集分為訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集。訓(xùn)練數(shù)據(jù)來(lái)自同一個(gè)話題,總共2 174條,其中有1 003條帶有正面情緒,1 171條帶有負(fù)面情緒。測(cè)試數(shù)據(jù)分別選自手機(jī)、保險(xiǎn)、翡翠三個(gè)不同話題,總共7 000條,其中帶有正面情感的有3 776條,帶有負(fù)面情感的有3 224條。
本文設(shè)計(jì)了兩組實(shí)驗(yàn)來(lái)驗(yàn)證本文提出方法的有效性。實(shí)驗(yàn)一,對(duì)比本文提出的WFCNN模型與Kim提出的基于word2vec訓(xùn)練的詞向量的CNN模型(標(biāo)記為W2VCNN)以及Sida Wang提出的NBSVM①http://nlp.stanford.edu/~sidaw/home/projects:nbsvm模型的性能。實(shí)驗(yàn)二,將本文方法提取的情感序列特征添加到W2VCNN模型和NBSVM模型中驗(yàn)證本文方法在提取文本情感特征上的有效性。
本實(shí)驗(yàn)使用的詞典資源由Hownet情感詞典和大連理工大學(xué)細(xì)粒度情感詞典構(gòu)成。在數(shù)據(jù)預(yù)處理方面,利用ICTCLAS②http://ictclas.nlpir.org/分詞工具對(duì)實(shí)驗(yàn)數(shù)據(jù)集進(jìn)行分詞和詞性標(biāo)注。詞向量采用Google開(kāi)源的word2vec③http://word2vec.googlecode.com/svn/trunk/的Skip-gram模型,利用2 000萬(wàn)條微博語(yǔ)料訓(xùn)練產(chǎn)生。詞向量維度為50維,包含33萬(wàn)個(gè)詞匯,在實(shí)驗(yàn)數(shù)據(jù)集上的詞匯覆蓋率為90.08%。對(duì)于卷積神經(jīng)網(wǎng)絡(luò)模型,本文統(tǒng)一采用表2所示的卷積神經(jīng)網(wǎng)絡(luò)模型可調(diào)參數(shù)設(shè)置。在模型訓(xùn)練階段,采用Zeiler[19]提出的Adadelta Update Rule進(jìn)行隨機(jī)梯度下降更新模型參數(shù)。
表2 卷積神經(jīng)網(wǎng)絡(luò)參數(shù)設(shè)置
在NBSVM模型中,本文采用Unigram和Bigram語(yǔ)言模型構(gòu)建文本特征向量。
第一組實(shí)驗(yàn)對(duì)比本文提出的WFCNN模型與其他已有模型的性能。表3列出了在COAE2014數(shù)據(jù)集上實(shí)驗(yàn)的對(duì)比結(jié)果。
表3 三種模型的情感分類性能對(duì)比(COAE 2014數(shù)據(jù)集)
從表3的實(shí)驗(yàn)結(jié)果可以看出,本文提出的WFCNN模型與基于word2vec的詞向量的W2VCNN在性能上有一定的差距。但是WFCNN模型以低維度的詞語(yǔ)特征構(gòu)造特征輸入,相比于50維乃至上百維的詞向量,降低了模型的復(fù)雜度和減少了模型參數(shù),加快了模型訓(xùn)練速度,同時(shí)保證了良好的性能。WFCNN模型基于詞典資源,提取表達(dá)文本情感傾向性的通用規(guī)則序列,具有較強(qiáng)的模型泛化能力。與傳統(tǒng)的基于領(lǐng)域知識(shí)的NBSVM相比,WFCNN不僅在模型訓(xùn)練上具有優(yōu)勢(shì),而且在性能上也具有較大的優(yōu)勢(shì)。從表3的實(shí)驗(yàn)結(jié)果可知,在正面情緒識(shí)別的F-Score上,WFCNN比NBSVM高出1.68%,而負(fù)面情緒識(shí)別的F-Score,WFCNN比NBSVM高出6.56%。
第二個(gè)實(shí)驗(yàn)為了驗(yàn)證本文提出的WFCNN模型在提取文本情感傾向性特征序列上的有效性,將WFCNN模型生成的文本特征向量分別與W2VCNN模型和NBSVM模型的特征向量進(jìn)行特征融合,對(duì)比特征融合前后的模型性能變化。表4列出了特征融合前后的實(shí)驗(yàn)結(jié)果對(duì)比。
表4 情感序列特征對(duì)情感分類性能影響對(duì)比(COAE 2014數(shù)據(jù)集)
通過(guò)對(duì)模型特征融合前后的實(shí)驗(yàn)對(duì)比,可以發(fā)現(xiàn)WFCNN模型產(chǎn)生的文本情感傾向性序列特征能夠有效地提升文本情感分類的效果。對(duì)于W2VCNN模型,融合WFCNN模型產(chǎn)生的情感傾向性序列特征后,在正面情緒識(shí)別的F-Score上獲得了0.97%的提升,而在負(fù)面情緒識(shí)別的F-Score上則提升了1.58%。對(duì)于基于領(lǐng)域知識(shí)的NBSVM模型而言,引入WFCNN模型產(chǎn)生的情感傾向性序列特征之后,分類性能得到極大的提升,在正面和負(fù)面情緒識(shí)別的F-Score上分別獲得了4.98%和7.51%的提升。
這里通過(guò)幾個(gè)具體實(shí)例來(lái)分析WFCNN模型在引入文本情感序列特征上的有效性。表5給出從測(cè)試數(shù)據(jù)集合中選取的具有代表性的數(shù)據(jù)機(jī)器分類結(jié)果。
如表5的樣例數(shù)據(jù)的分類結(jié)果所示。對(duì)于樣例1“三星的手機(jī)有點(diǎn)用不慣啊”,以及樣例2“珠寶是一項(xiàng)很好的投資,特別是翡翠升值空間是房產(chǎn)的n倍”,由于這一類樣例表達(dá)比較常見(jiàn),在訓(xùn)練集和測(cè)試集中都有類似的樣例,三種方法對(duì)此類樣例均有一定程度的覆蓋度,所以都做出了正確的情感分類。
表5 測(cè)試數(shù)據(jù)實(shí)驗(yàn)結(jié)果樣例(COAE 2014數(shù)據(jù)集)
對(duì)于樣例3“加入保險(xiǎn)是科學(xué)管理風(fēng)險(xiǎn),轉(zhuǎn)移損失的最佳方式。”以及樣例4“買(mǎi)了保險(xiǎn),就意味著一個(gè)麻煩之后會(huì)跟著另外的一些麻煩”,由于這類樣例中的情感詞不是單獨(dú)起作用,而是通過(guò)詞的序列表達(dá)出了一定的邏輯關(guān)系。基于詞向量的CNN方法,在處理這類樣例時(shí),由于樣例3中大量的負(fù)面詞“風(fēng)險(xiǎn)”“損失”等等,而被誤分類為負(fù)面。而在本文提出的詞語(yǔ)情感序列模型下,由于“風(fēng)險(xiǎn)”所在的序列為“科學(xué)管理風(fēng)險(xiǎn)”,是一個(gè)“正面極性詞+動(dòng)詞+負(fù)面極性詞”序列;而“一些麻煩”則是作為“量詞+負(fù)面極性詞”序列被判為反例。這類樣本在基于詞向量的CNN中均被錯(cuò)誤分類,而基于序列特征的CNN可以正確處理。而綜合了此類序列特征之后,基于詞向量的方法可以將之前的錯(cuò)誤分類糾正。對(duì)于樣例5“華為難道就只會(huì)技術(shù)了?”所有方法均未能正確分類。由于此樣例中出現(xiàn)了反問(wèn)、諷刺的表達(dá)方式,而“會(huì)技術(shù)”這一關(guān)鍵詞無(wú)論是基于詞向量的表達(dá),還是基于詞典的表示,均被判為正例。所以這一樣例在三種方法中均未能正確分類。
由此可見(jiàn),WFCNN模型在處理具有情感詞的文本時(shí),能通過(guò)提取包含情感詞的序列特征,如“科學(xué)管理風(fēng)險(xiǎn)”、“最佳方式”、“一些麻煩”等,準(zhǔn)確地識(shí)別文本情感傾向性。而W2VCNN模型由于只利用詞語(yǔ)之間的語(yǔ)法和語(yǔ)義信息的詞向量,無(wú)法提取文本中表達(dá)情感傾向性的序列特征,因此對(duì)文本進(jìn)行了錯(cuò)誤的分類。而將WFCNN模型的情感序列特征加入到W2VCNN模型后,模型能夠準(zhǔn)確地識(shí)別文本的情感傾向性。此外,從測(cè)試樣例中可以發(fā)現(xiàn),無(wú)論是WFCNN模型還是W2VCNN模型都無(wú)法識(shí)別反諷句式的情感傾向性。對(duì)于如何識(shí)別這類特殊表達(dá)句式,也將是我們今后需要研究的一個(gè)課題。
本文提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)的文本情感傾向性序列特征挖掘的算法,通過(guò)利用詞語(yǔ)本身固有的特征,將文本映射為低維度的抽象的特征矩陣,在保證文本情感傾向性識(shí)別性能的基礎(chǔ)上,降低了卷積神經(jīng)網(wǎng)絡(luò)模型的復(fù)雜度,加快了模型訓(xùn)練的速度。此外,本文提出的算法能夠從文本中挖掘表示情感傾向性的序列特征,可以為其他模型提供對(duì)情感分類有用的特征信息。
由于本文提出的算法依賴于詞典資源,詞典資源的數(shù)量和質(zhì)量直接影響到算法的執(zhí)行效果。所以,如何利用卷積神經(jīng)網(wǎng)絡(luò)在抽象特征抽取方面的優(yōu)勢(shì)去挖掘和擴(kuò)充詞典資源將是我們下一步需要研究的工作。
[1] Pang B.,Lee L.,Vaithyanathan S.Thumbs up?:sentiment classification using machine learning techniques[C]//Proceedings of the ACL.2002:79-86.
[2] Xu R.F,Wong K.F,Xia Y.Coarse-Fine opinion mining-WIA in NTCIR-7MOAT task[C]//Proceedings of NTCIR.2008:307-313.
[3] Tan S.,Zhang J.An empirical study of sentiment analysis for Chinese documents[J].Expert Systems with Applications,2008,34(4):2622-2629.
[4] Socher R.,Perelygin A.,Wu J.Y.,et al.Recursive deep models for semantic compositionality over a sentiment Treebank[C]//Proceedings of the EMNLP.2013:1631-1642.
[5] Kim Y.Convolutional neural networks for sentence classification[C]//Proceedings of the EMNLP.2014:1746-1751.
[6] Wang S.,Manning C.D Baselines and bigrams:Simple,good sentiment and topic classification[C]//Proceedings of the ACL.2012:90-94.
[7] Bollegala D.,Weir D.,Carroll J.Using multiple sources to construct a sentiment sensitive thesaurus for cross-domain sentiment classification[C]//Proceedings of the ACL.2011:132-141.
[8] 謝麗星,周明,孫茂松.基于層次結(jié)構(gòu)的多策略中文微博情感分析和特征抽?。跩].中文信息學(xué)報(bào),2012,26(1):73-83.
[9] Bengio Y.,Ducharme R.,Vincent P.,et al.A neural probabilistic language model[J].The Journal of Machine Learning Research,2003,3:1137-1155.
[10] Mnih A.,Hinton G.E A scalable hierarchical distrib-uted language model[C]//Proceedings of the NIPS.2009:1081-1088.
[11] Mikolov T.,Sutskever I.,Chen K.,et al.Distributed representations of words and phrases and their compositionality[C]//Proceedings of the NIPS.2013:3111-3119.
[12] Mikolov T.,Chen K.,Corrado G.,et al.Efficient estimation of word representations in vector space[J].Computing Research Repository,2013:1301,3781
[13] Socher R.,Pennington J.,Huang E.H,et al.Semisupervised recursive autoencoders for predicting sentiment distributions[C]//Proceedings of the ACL.2011:151-161.
[14] Johnson R.,Zhang T.Effective use of word order for text categorization with convolutional neural networks[J].Computing Research Repository,2014:1412,1058.
[15] Maas A.L,Daly R.E,Pham P.T,et al.Learning word vectors for sentiment analysis[C]//Proceedings of the ACL.2011:142-150.
[16] Tang D.,Wei F.,Yang N.,et al.Learning sentiment-specific word embedding for twitter sentiment classification[C]//Proceedings of the ACL.2014:1555-1565.
[17] Faruqui M.,Dodge J.,Jauhar S.K,et al.Retrofitting word vectors to semantic lexicons[J].Computing Research Repository,2014:1441,4166.
[18] Collobert R.,Weston J.,Bottou L.,et al.Natural language processing(almost)from scratch[J].The Journal of Machine Learning Research,2011,12:2493-2537.
[19] Zeiler M.D ADADELTA:An adaptive learning rate method[J].Computing Research Repository,2012:1212.5701.