繆廣寒
(無(wú)錫城市職業(yè)技術(shù)學(xué)院 實(shí)訓(xùn)基地管理中心,江蘇 無(wú)錫 214000)
隨著社交網(wǎng)絡(luò)和計(jì)算機(jī)技術(shù)的不斷發(fā)展,更多的人借助博客、微博來(lái)發(fā)表觀點(diǎn)、表達(dá)情感[1]。微博具有互動(dòng)性、原創(chuàng)性、便捷性、內(nèi)容碎片化和傳播速度快等特點(diǎn)[2-3],其逐漸成為熱門(mén)話題以及事件討論的重要平臺(tái)[4]。微博通常帶有一定的感情傾向,使用數(shù)據(jù)挖掘技術(shù)來(lái)分析微博所表達(dá)的情感、了解事件的動(dòng)態(tài),已成為諸多學(xué)者、專(zhuān)家和科研機(jī)構(gòu)的研究方向[5-7]。
微博情感分析,即分析微博內(nèi)容中的文本和表情符等所表達(dá)出的主觀信息以及說(shuō)話人的態(tài)度[8]。不同于傳統(tǒng)文本分類(lèi)的是,該種文本分析的對(duì)象是一些主觀因素而不是客觀內(nèi)容[9]。目前,情感分析的主要研究方法可以分為基于機(jī)器學(xué)習(xí)的方法和基于情感詞典與規(guī)則的方法。如文獻(xiàn)[10]使用標(biāo)簽傳播算法構(gòu)建中文情感詞典,來(lái)進(jìn)行文本情感分析;文獻(xiàn)[11]構(gòu)建了一種基于SVM和情感詞特征的情感分類(lèi)模型;文獻(xiàn)[12]使用SVM和N-Grams模型對(duì)情感分類(lèi);文獻(xiàn)[13~14]使用多種特征融合的方式來(lái)分類(lèi)中文情感。然而,這些文獻(xiàn)并未過(guò)多考慮不同情感詞匯的重要性,忽略了不同情感詞匯對(duì)分類(lèi)精度的影響。因此,本文提出了一種基于詞頻重要性加權(quán)Word2vec[15]的特征和SVM[16]的微博情感分析模型。
Word2vec是谷歌公司在2013年開(kāi)源的一款將文本詞匯表示為向量的工具。其可以將文本內(nèi)容轉(zhuǎn)化為詞向量,并將文本語(yǔ)義上的相似度轉(zhuǎn)換為求解向量空間上的相似度。Word2vec模型可以充分提取相互獨(dú)立、毫無(wú)關(guān)聯(lián)的文本詞匯的上下文語(yǔ)義信息,從而可以為文本數(shù)據(jù)挖掘更加深層次到特征表示。
Word2vec包含Skip-gram 和Continuous Bag of Words(CBOW)兩種訓(xùn)練模型。其中,CBOW的數(shù)學(xué)表示為P(Wt|Wt-k,Wt-k-1,…,Wt+k-1,Wt+k), 表示語(yǔ)料詞匯。CBOW的目的是,通過(guò)上下文相鄰的k個(gè)詞來(lái)預(yù)測(cè)給定詞Wt出現(xiàn)的概率。Skip-gram的數(shù)學(xué)表示為P((Wt-k,Wt-k-1,…,Wt+k-1,Wt+k|W)),其則是根據(jù)給定詞 來(lái)預(yù)測(cè)上下文的信息。然而,Word2vec模型并不能區(qū)分文本中不同詞匯的重要程度。因此,本文提出使用詞頻的方法計(jì)算微博文本中詞匯的權(quán)重。
詞頻(Term Frequency,TF)即某一給定詞匯ti在文檔dj中出現(xiàn)的頻率,計(jì)算公式為
(1)
其中,詞匯ti出現(xiàn)的次數(shù)為ni,j,所有詞出現(xiàn)的總次數(shù)為∑knk,j。
Word2vec模型能較好地建立上下文間的關(guān)系,但忽略了不同詞匯的權(quán)重;而基于詞頻的方法只考慮了詞匯出現(xiàn)的頻率而并未考慮文本的上下文關(guān)系。因此,本文采用基于詞頻加權(quán)的Word2vec模型來(lái)更有效地挖掘文本更深層的特征。
假設(shè)獲取到的訓(xùn)練語(yǔ)料詞典為Vocab,文檔為〈w1,w2,…,wj〉,詞向量維度為N
Vocab={ti|i∈1,…,N}
(2)
首先,使用默認(rèn)的Skip-gram模型訓(xùn)練語(yǔ)料數(shù)據(jù)集,得到Word2vec模型。并使用該模型獲得文檔中每個(gè)詞匯的詞向量,累加這些詞向量得到文檔dj的向量表示R(dj)為
R(dj)=∑iWord2vect(t) ,wheret∈dj
(3)
其中,詞匯t的Word2vec詞向量表示為Word2vect(t)。
然后,統(tǒng)計(jì)文檔dj中每個(gè)詞匯出現(xiàn)的頻率,并將該詞匯的Word2vec詞向量與詞頻相乘,得到加權(quán)Word2vec詞向量。再累加這些加權(quán)詞向量得到文檔dj新的詞向量為
W_R(dj)=∑iWord2vect(t)×tfi,j, wheret∈dj
(4)
最后,將加權(quán)Word2vec詞向量作為SVM分類(lèi)器的特征向量,并訓(xùn)練得到SVM模型。
支持向量機(jī)(Support Vector Machine,SVM)是由Vapnik等基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則和統(tǒng)計(jì)學(xué)習(xí)理論提出的一種新的機(jī)器學(xué)習(xí)算法。其本質(zhì)為核方法,在解決非線性、小樣本和高維模式識(shí)別問(wèn)題中表現(xiàn)出了諸多優(yōu)勢(shì)。本文將SVM分類(lèi)器用于微博情感分類(lèi)問(wèn)題中,將微博分為積極和消極兩種情感。
SVM通過(guò)非線性變換φ(·)將低維空間的輸入數(shù)據(jù)映射到高維特征空間中,實(shí)現(xiàn)低維線性不可分的數(shù)據(jù)在高維空間的線性可分。從而得到最大間隔分類(lèi)超平面f(x)=ωTφ(x)+b,其優(yōu)化目標(biāo)為
(5)
經(jīng)過(guò)對(duì)偶變換等方式后,可以得到SVM的決策分類(lèi)函數(shù)為
(6)
其中,K為核函數(shù)實(shí)現(xiàn)低維樣本向高維空間的映射。
本文使用中文維基百科和百度百科下載的常用、未處理的詞條作為訓(xùn)練Word2vec模型的訓(xùn)練數(shù)據(jù)。情感分析使用Coae2014語(yǔ)料集,并各保留3 000條積極微博和消極微博,部分測(cè)試數(shù)據(jù)如下表1所示。為了驗(yàn)證模型的有效性將微博語(yǔ)料分為80%的訓(xùn)練數(shù)據(jù)和20%的測(cè)試數(shù)據(jù)。
表1 實(shí)驗(yàn)數(shù)據(jù)
本文首先將下載的訓(xùn)練數(shù)據(jù)進(jìn)行繁簡(jiǎn)體轉(zhuǎn)換、噪聲過(guò)濾等預(yù)處理后,經(jīng)ICTCLAS分詞,共提取到762 134個(gè)詞匯。預(yù)訓(xùn)練的Word2vec模型窗口大小為20,包含400維參數(shù)向量。同時(shí),微博數(shù)據(jù)也經(jīng)過(guò)數(shù)據(jù)清洗、去停用詞和分詞等預(yù)處理以及詞頻統(tǒng)計(jì)后,得到加權(quán)后的Word2vec詞向量。數(shù)據(jù)處理流程,如圖1所示。
圖1 數(shù)據(jù)處理流程
將詞頻加權(quán)的Word2vec詞向量作為SVM分類(lèi)器的特征向量,來(lái)訓(xùn)練分類(lèi)器。然后,對(duì)標(biāo)注好的測(cè)試數(shù)據(jù)集進(jìn)行預(yù)測(cè)。并將實(shí)驗(yàn)結(jié)果與僅使用Word2vec詞向量和基于詞頻的方法進(jìn)行比較,其比較結(jié)果如表2所示。本文主要比較了基于混淆矩陣的分類(lèi)準(zhǔn)確率、召回率、F值和正確率等性能指標(biāo)。
表2 實(shí)驗(yàn)結(jié)果與比較
從表2可以看出,本文所提出的基于詞頻加權(quán)Word2vec特征的微博情感分類(lèi)模型對(duì)積極和消極情感均能獲得更好的分類(lèi)性能。雖然Word2vec模型能較好地建立上下文間的關(guān)系,但忽略了不同詞匯的權(quán)重;而基于詞頻的方法只考慮了詞匯出現(xiàn)的頻率而并未考慮文本的上下文關(guān)系。因此,本文提出了基于詞頻加權(quán)的Word2vec特征和SVM分類(lèi)器進(jìn)行微博情感分類(lèi)。從實(shí)驗(yàn)結(jié)果可看出,此方法具有更高的分類(lèi)準(zhǔn)確率、召回率、F值和正確率。
針對(duì)微博情感挖掘問(wèn)題中忽略詞匯重要程度和缺失語(yǔ)義關(guān)系的問(wèn)題,本文提出了一種基于Word2vec和SVM的微博情感挖掘方法。該方法使用詞頻加權(quán)的Word2vec特征,能同時(shí)考慮詞匯出現(xiàn)的頻率和詞匯上下文間的關(guān)系,可以更有效地挖掘文本更深層的特征。同時(shí),使用SVM分類(lèi)器將微博分為積極和消極兩種情感,取得了較好的分類(lèi)結(jié)果,其相比于傳統(tǒng)的方法其性能更加理想。
參考文獻(xiàn)
[1] 劉龍飛,楊亮,張紹武,等.基于卷積神經(jīng)網(wǎng)絡(luò)的微博情感傾向性分析[J].中文信息學(xué)報(bào),2015,29(6):159-165.
[2] 王志濤,於志文,郭斌,等.基于詞典和規(guī)則集的中文微博情感分析[J].計(jì)算機(jī)工程與應(yīng)用,2015,51(8):218-225.
[3] 張志琳,宗成慶.基于多樣化特征的中文微博情感分類(lèi)方法研究[J].中文信息學(xué)報(bào),2015, 29(4):134-143.
[4] 李陽(yáng)輝,謝明,易陽(yáng).基于降噪自動(dòng)編碼器及其改進(jìn)模型的微博情感分析[J].計(jì)算機(jī)應(yīng)用研究,2017,34(2):373-377.
[5] 蘇小英,孟環(huán)建.基于神經(jīng)網(wǎng)絡(luò)的微博情感分析[J].計(jì)算機(jī)技術(shù)與發(fā)展,2015,25(12):161-164.
[6] 劉德喜,聶建云,張晶,等.中文微博情感詞提取:N-Gram為特征的分類(lèi)方法[J].中文信息學(xué)報(bào),2016,30(4):193-205.
[7] 何炎祥,孫松濤,牛菲菲,等.用于微博情感分析的一種情感語(yǔ)義增強(qiáng)的深度學(xué)習(xí)模型[J].計(jì)算機(jī)學(xué)報(bào),2017,40(4):773-790.
[8] 郝志峰,杜慎芝,蔡瑞初,等.基于全局變量CRFs模型的微博情感對(duì)象識(shí)別方法[J].中文信息學(xué)報(bào),2015,29(4):50-58.
[9] 杜亞楠,劉業(yè)政.基于修正G2特征篩選的中文微博情感組合分類(lèi)[J].情報(bào)學(xué)報(bào),2016,35(4):349-357.
[10] 李天彩,王波,毛二松,等.基于Skip-gram模型的微博情感傾向性分析[J].計(jì)算機(jī)應(yīng)用與軟件,2016,33(7):114-117.
[11] Rahmawati D, Khodra M L.Word2vec semantic representation in multilabel classification for indonesian news article[C].MA,USA:International Conference on Advanced Informatics: Concepts, Theory and Application,IEEE,2017.
[12] Rachman G H,Khodra M L,Widyantoro D H. Rhetorical sentence categorization for scientific paper using Word2vec semantic representation[C].CA,USA:IEEE Conference on Informations,2017.
[13] 張謙,高章敏,劉嘉勇.基于Word2vec的微博短文本分類(lèi)研究[J].信息網(wǎng)絡(luò)安全,2017(1):57-62.
[14] 李銳,張謙,劉嘉勇.基于加權(quán)word2vec的微博情感分析[J].通信技術(shù),2017,50(3):502-506.
[15] 陳炳豐,郝志峰,蔡瑞初,等.基于AWCRF模型的微博情感傾向分類(lèi)方法[J].計(jì)算機(jī)工程,2017,43(7):187-192.
[16] Lilleberg J,Zhu Y,Zhang Y.Support vector machines and Word2vec for text classification with semantic features[C].Guangzhou:IEEE International Conference on Cognitive Informatics & Cognitive Computing,2015.