馮成剛 田大鋼
摘 要:針對目前國內(nèi)外學(xué)者對微博情感只作二分類研究,僅僅從正面和負(fù)面研究微博情感不足的問題,選取NLPCC2013-2014年多情感的微博數(shù)據(jù)集,重點研究常用的3種機(jī)器學(xué)習(xí)算法、3種特征選擇以及特征權(quán)重方法對中文微博情感多分類的影響。實驗表明:不管選擇哪種特征權(quán)重,使用SVM的微博文本分類準(zhǔn)確率都最高,KNN的準(zhǔn)確率最低;不同特征權(quán)重下,信息增益作為特征選擇的方法時,3個算法各自準(zhǔn)確率都是最高的;當(dāng)信息增益為特征選擇,TF-IDF為特征權(quán)重時,支持向量機(jī)的文本分類準(zhǔn)確率最高。由于微博簡短、口語化,詞袋模型忽視了詞與詞間的聯(lián)系,導(dǎo)致微博情感分類準(zhǔn)確率不高。
關(guān)鍵詞:機(jī)器學(xué)習(xí);情感分類;微博;特征選擇;特征權(quán)重
DOI:10.11907/rjdk.173073
中圖分類號:TP301
文獻(xiàn)標(biāo)識碼:A 文章編號:1672-7800(2018)006-0058-04
Abstract:The current domestic and foreign research on micro-blog emotion is focused on binary classfication which is divided merely to positive and negative sides to study the weakness of micro-blog emotion. NLPCC multi-emotional micro-blog data set from the year of 2013 to 2014 is selected with the research focus of the three commonly used machine learning algorithm, three kinds of feature selection and feature weighting method on Chinese multi-bog emotional multi-classfication. The experiment shows that SVM text classification has the highest accuracy regardless of the choices of feature weights while KNN has the lowest accuracy ; the three algorithms have the highest accuracy under different feature weights with information gain as the feature selection method. When the information gain is the feature selection and TF-IDF is the feature weight, the accuracy of text classification of SVM is the highest. The final analysis shows that due to the short and colloquial features of micro-blog, the bag-of-words model ignores the connection between words and phrases, which leads to low accuracy rate of micro-blog classfication.
Key Words:maching Learning; emotion classfication; micro-blog; feature selection; feature weighting
0 引言
微博是一種分享和評論的平臺,用戶可以表達(dá)自己的觀點和情感。近年來,微博已經(jīng)成為人們溝通及情感交流的途徑之一,產(chǎn)生的海量數(shù)據(jù)為文本情感分類提供了數(shù)據(jù)基礎(chǔ)[1]。國內(nèi)外研究文本情感分類主要是基于機(jī)器學(xué)習(xí)的方法[2],利用機(jī)器學(xué)習(xí)對微博語料進(jìn)行訓(xùn)練,再利用訓(xùn)練好的模型時測試文本進(jìn)行分類。
目前國內(nèi)外學(xué)者一般對微博情感作二分類研究,僅僅用正面和負(fù)面劃分微博情感。Pang[3]將傳統(tǒng)機(jī)器學(xué)習(xí)方法引入電影評論的褒貶分類中,實驗表明,支持向量機(jī)的效果最理想。但是中文文本與英文分詞、語法是有區(qū)別的,英文分類的結(jié)論不一定適合中文。國內(nèi)研究中,何躍等[4]對比多種文本分類方法構(gòu)建最優(yōu)分類器,實驗結(jié)果表明機(jī)器學(xué)習(xí)方法適合于規(guī)模較大的研究并且SVM模型更適合細(xì)粒度的情感分類。歐陽純萍等[5]在研究基于樸素貝葉斯情緒微博識別問題的基礎(chǔ)上,提出基于多策略(SVM和KNN算法)的微博情緒分類方法。實驗證明基于多策略的分類方法優(yōu)于單一的方法。在特征選擇和特征權(quán)重方面,Paltoglou等[6]利用TF-IDF算法計算分類特征的權(quán)值,以提高SVM分類器的效果[7-8]。劉志明[9]使用機(jī)器學(xué)習(xí)算法和特征選擇對微博進(jìn)行褒貶二分類,實驗結(jié)果表明,信息增益為特征選擇時,微博的情感分類效果最好。國內(nèi)關(guān)于微博情感二分類有較好研究成果,但關(guān)于微博情感多分類問題的特征選擇與特征權(quán)重研究較少。
由于情感多分類問題更加細(xì)膩,有些情感類詞含義之間的區(qū)別十分微妙,機(jī)器學(xué)習(xí)方法對該部分學(xué)習(xí)能力值得進(jìn)一步研究。本文重點研究機(jī)器學(xué)習(xí)算法、特征選擇以及特征權(quán)重對微博情感多分類問題的影響,通過實驗找到最優(yōu)的機(jī)器學(xué)習(xí)方法以及特征選擇和特征權(quán)重。整個實驗過程都是在python軟件下編寫執(zhí)行,數(shù)據(jù)集選用nlpcc2013-2014多類別的微博情感數(shù)據(jù)集,分詞選用可直接調(diào)用分詞準(zhǔn)確率高的結(jié)巴分詞。
1 文本分類流程
基于機(jī)器學(xué)習(xí)的文本情感分類問題,處理過程可以分為兩個部分:一是文本學(xué)習(xí)過程,二是文本分類過程。其中,學(xué)習(xí)過程是指對微博訓(xùn)練集進(jìn)行訓(xùn)練得到分類器,分類過程是指用訓(xùn)練好的模型來對測試文本進(jìn)行分類。如果已知測試集類別,可用準(zhǔn)確率評價分類器的好壞。
2 微博情感分類理論基礎(chǔ)
2.1 機(jī)器學(xué)習(xí)分類算法
2.1.1 支持向量機(jī)(SVM)
在文本分類中,支持向量機(jī)是一種效果顯著的方法。支持向量機(jī)將文本數(shù)據(jù)轉(zhuǎn)化為支持向量,通過算法得到?jīng)Q策平面,從而解決文本分類問題。Thorsten Joachims將核函數(shù)引入SVM中,用線性核函數(shù)解決非線性的分類問題,就是將低維空間數(shù)據(jù)用核函數(shù)變換到高維空間中去,然后在轉(zhuǎn)換后的高維空間找分割平面,期望使得分割平面兩側(cè)到訓(xùn)練點的間隔最大。
2.1.2 樸素貝葉斯(NB)
貝葉斯算法將一個文本看作一個特征,求文本所在類別的條件概率就是文本分類的過程。按照NB算法,先計算每個文本對所有類別文本的先驗概率,再計算測試文本可能屬于某一類別文本的后驗概率,后驗概率中數(shù)值最大的就是測試文本的類別。
根據(jù)式(2),可以將測試文本視為后驗概率最大的類別。
2.1.3 K-最近鄰算法(KNN)
KNN算法簡單明了:如果一個樣本在特征空間中的k個最相似樣本大多數(shù)屬于某一個類別,則該樣本也屬于這個類別。也就是分類的依據(jù)是該樣本距離哪個類別最近就歸屬為哪個類別[10]。
KNN算法主要依靠周圍的樣本,對于文本特征交叉比較大、難以區(qū)分的文本而言, KNN方法比支持向量機(jī)和貝葉斯算法更為適合,而且新的測試文本加入訓(xùn)練集中,不需要再進(jìn)行模型訓(xùn)練。但是當(dāng)用KNN訓(xùn)練大語料時,計算開銷大,花費時間長。
2.2 特征選擇
2.2.1 信息增益(IG)
信息增益(Information Gain,IG)是某特征詞語出現(xiàn)或不出現(xiàn)對文本類別分類的信息量大小,根據(jù)訓(xùn)練文本,將文本特征的信息增益值計算出來[11],計算方法如式(3):
2.2.2 互信息(MI)
互信息(Mutual Information,MI)可以衡量兩個事件的關(guān)聯(lián)度:
2.2.3 加權(quán)似然對數(shù)(WLLR)
加權(quán)似然對數(shù)法與MI方法類似,統(tǒng)計了特征詞t-i與類別c-j之間的關(guān)聯(lián)性,計算公式如下:
2.3 特征權(quán)重選擇
2.3.1 布爾權(quán)重(presence)
布爾權(quán)重是一種計算特征項權(quán)值最簡單的方法,如果特征項t-k出現(xiàn)在文檔d-i中,則權(quán)值為1;如果不出現(xiàn)在文本d-i中,其權(quán)值就為0,其公式表示如下:
2.3.2 詞頻權(quán)重(TF)
如果在一個文本中,某個文本特征詞出現(xiàn)的次數(shù)越多,那么它對文本類別的判定貢獻(xiàn)越大:
2.3.3 TF-IDF
TF-IDF算法的主要思想是:如果某個詞在一個文本中的出現(xiàn)次數(shù)多,但是在其它文本中卻很少出現(xiàn),那么就認(rèn)為該詞語具有很好的文本類別區(qū)分能力。
2.4 評價方法與指標(biāo)
實驗中用3個指標(biāo)評價模型:準(zhǔn)確率、召回率和F值。準(zhǔn)確率衡量的是微博文本被預(yù)測類別與真實類別的一致性。
準(zhǔn)確率=判斷正確的樣本數(shù)判斷為該類別的樣本數(shù)
召回率,是指微博文本被判定正確的個數(shù)占總的正例的比重。
召回率=判斷正確樣本數(shù)應(yīng)判斷正確為該類別的樣本數(shù)
因為準(zhǔn)確率高時召回率會低,而在召回率高時準(zhǔn)確率會低。為了衡量該兩個指標(biāo)就用F值。
3 實驗設(shè)計
數(shù)據(jù)來源:本文采用NLPCC 2013年和2014年情感評測任務(wù)的兩個公開數(shù)據(jù)集,數(shù)據(jù)集中共有7種情感:happiness、like、sadness、disgust、 anger、 fear和surprise。由于有的微博句子不止一種情感,但是本文研究時只取其主要情感作為該微博的情感類別。兩個數(shù)據(jù)集的統(tǒng)計信息如表1所示.最終的訓(xùn)練集11 575個,測試集文本7 720個。
3.1 特征權(quán)重
實驗中選取3種特征權(quán)重(bool,TF,TF-IDF),分別測試3種不同的權(quán)重下,3種機(jī)器學(xué)習(xí)方法對微博情感分類的影響。
從圖2可以看出:
(1)不管選擇哪種特征權(quán)重,使用SVM的微博文本分類準(zhǔn)確率都最高,KNN的準(zhǔn)確率最低。
(2)同一種算法在不同特征權(quán)重下性能不一樣,SVM在TF-IDF下分類效果最好,KNN在TF下分類效果最好,NB在3種特征權(quán)重下,分類效果變化不大。
3.2 特征選擇
通過上述實驗,得到在不同特征權(quán)重下,3種機(jī)器學(xué)習(xí)算法的分類效果。下列實驗是當(dāng)已經(jīng)確定特征權(quán)重和機(jī)器學(xué)習(xí)算法的情況下,不同特征選擇對分類效果的影響。根據(jù)上一節(jié)的結(jié)果(參考圖2),由于采用TF-IDF為特征時支持向量機(jī)的效果最好,故對支持向量機(jī)采用TF-IDF特征(見圖3)。同理,對貝葉斯采用TF-IDF特征(見圖4),對K-近鄰采用TF特征(見圖5)。
圖3中,在TF-IDF為特征權(quán)重,SVM為分類算法時,3種特征選擇對分類效果的影響。得出如下結(jié)論:①隨著特征數(shù)量的增加,3種特征選擇都使準(zhǔn)確率不斷上升;②當(dāng)特征數(shù)量達(dá)到22 500時,3種特征選擇方法的效果趨于穩(wěn)定并基本相同;③當(dāng)特征數(shù)量小于22 500時,隨著特征數(shù)量的增加,IG作為特征選擇時微博文本分類準(zhǔn)確率最高,MI作為特征選擇時文本分類效果最差。
圖4為采用TF-IDF為特征權(quán)重、貝葉斯算法下3種特征選擇對分類效果的影響。從圖中可以得出如下結(jié)論: ①當(dāng)特征數(shù)量在18 000~22 500時,WLLR的性能表現(xiàn)比IG好;②隨著特征數(shù)量的增加,3種特征選擇都使準(zhǔn)確率不斷上升;③當(dāng)特征數(shù)量達(dá)到22 500時,此時3種特征選擇性能趨于穩(wěn)定,文本分類準(zhǔn)確率最高。
圖5為在TF為特征權(quán)重、K-近鄰算法下3種特征選擇對分類效果的影響:①不同于圖3、圖4的結(jié)論,圖5中隨著特征數(shù)量的增加,IG和MI準(zhǔn)確率不是平穩(wěn)上升,而是來回波動;②特征數(shù)量不是越多越好,當(dāng)IG、MI作為特征選擇時,過多的特征數(shù)量反而降低了文本分類的準(zhǔn)確率;③當(dāng)特征數(shù)量達(dá)到22 500時,此時3種特征選擇性能趨于穩(wěn)定;④當(dāng)特征數(shù)量在15 000左右時,此時的微博文本分類準(zhǔn)確率較高,原因還有待進(jìn)一步的研究.
3.3 一定特征數(shù)量下,3種算法在不同特征選擇與特征權(quán)重下的比較
參考圖5的特點,選取特征數(shù)量為15 000,測試在一定特征數(shù)量下,特征選擇和特征權(quán)重對微博文本分類的共同影響。從表2可以得到如下結(jié)論:
(1)不同特征權(quán)重,信息增益作為特征選擇的方法時,3個算法各自準(zhǔn)確率都是最高的。
(2)當(dāng)信息增益為特征選擇時,TF-IDF與SVM組合準(zhǔn)確率最高,KNN與TF-IDF組合準(zhǔn)確率最低。
(3)當(dāng)互信息為特征選擇時,Bool與SVM組合準(zhǔn)確率最高,KNN與TF組合準(zhǔn)確率最低。
(4)在加權(quán)對數(shù)為特征選擇下,WLLR與SVM組合準(zhǔn)確率最高,KNN與TF-IDF組合準(zhǔn)確率最低。
3.4 微博單類情感P、R、F值比較
根據(jù)表2的結(jié)論,測試在最優(yōu)組合下,單種情感P、R、F值的對比,對表3中7種情感F值的大小作圖6比較。
圖6中可以看出,“高興”、“悲傷”、“厭惡”F值比較大,而“憤怒”、“喜好”、“恐懼”、“驚訝”的F值較小。通過分析主要由3個方面造成:①“高興”、“悲傷”、“厭惡”這類情感區(qū)分度大,而像“高興”與“喜好”、“恐懼”、“悲傷”與“厭惡”這類情感,彼此之間會有情感交叉,導(dǎo)致區(qū)別度并不是很高;②一個文本中往往不只一種情感,大多數(shù)文本中都會包含1~2種情感,只是主情感強(qiáng)烈而已,但是不強(qiáng)烈的情感卻為微博文本情感的分類造成了難度;③語料庫不均衡,也會導(dǎo)致情感分類不準(zhǔn)確,從圖6看“驚訝”的F值最小,并且“驚訝”的訓(xùn)練數(shù)據(jù)量只有630,也很低,過小的數(shù)據(jù)量導(dǎo)致算法無法獲得“驚訝”區(qū)別于其它情感更好的特征詞。
4 結(jié)語
本文對微博文本情感分類進(jìn)行研究,通過實驗對比了在3種算法、3種特征選擇、3種特征權(quán)重下的分類效果,當(dāng)以SVM作為機(jī)器學(xué)習(xí)算法、IG為特征選擇、TF-IDF為特征選擇時,分類效果最好,但是最好的分類效果下準(zhǔn)確率只有60%。主要是由于微博內(nèi)容過于簡短、語言含各種噪聲(錯別字、縮寫、表情符號等非正式用語等),使得對微博數(shù)據(jù)的文本情感分析相對于傳統(tǒng)的文本情感分析有一定難度和特殊性。文本本身表示模型VSM存在非常嚴(yán)重的數(shù)據(jù)稀疏性問題,使得分類器面臨維度災(zāi)難,忽略了特征的次序和位置關(guān)系,且不考慮文本長度,不考慮語義聯(lián)系,從而大大降低了分類性能。能找到一種更好的微博短文本表示方法,是解決短文本分類難題的一個方向。
參考文獻(xiàn):
[1] 趙妍妍,秦兵,劉挺.文本情感分析[J].軟件學(xué)報,2010:1834-1848.
[2] LI H. Text classification using machine learning techniques[J]. Wseas Transactions on Computers, 2008,4(8):966-974.
[3] BO P, LEE L, VAITHYANATHAN S. Thumbs up: sentiment classification using machine learning techniques[C]. Acl-02 Conference on Empirical Methods in Natural Language Processing, 2002:79-86.
[4] 何躍,鄧唯茹,張丹.中文微博的情緒識別與分類研究[J].情報雜志,2014(2):136-139.
[5] 歐陽純萍,陽小華,雷龍艷,等.多策略中文微博細(xì)粒度情緒分析研究[J].北京大學(xué)學(xué)報:自然科學(xué)版,2014,50(1):67-72.
[6] PALTOGLOU G, THELWALL M. A study of information retrieval weighting schemes for sentiment analysis[C]. Proceedings of the Meeting of the Association for Computational Linguistics, 2010:1386-1395.
[7] O'CONNOR B, BALASUBRAMANYAN R, ROUTLEDGE B R, et al. From tweets to polls: linking text sentiment to public opinion time series[C].Washington, Dc, Usa, May:DBLP, 2010.
[8] JANSEN B J, ZHANG M. Twitter power: tweets as electronic word of mouth[J].Journal of the American Society for Information Science & Technology,2009:2169-2188.
[9] 劉魯,劉志明.基于機(jī)器學(xué)習(xí)的中文微博情感分類實證研究[J].計算機(jī)工程與應(yīng)用,2012,48(1):1-4.
[10] 王超學(xué),潘正茂,馬春森,等.改進(jìn)型加權(quán)KNN算法的不平衡數(shù)據(jù)集分類[J].計算機(jī)工程,2012,38(20):160-163.
[11] 任永功,楊榮杰,尹明飛,等.基于信息增益的文本特征選擇方法[J].計算機(jī)科學(xué),2012,41(11):460-462.
(責(zé)任編輯:何 麗)