于海燕,陳麗如,鄭文斌
(中國計量大學(xué) 信息工程學(xué)院,浙江 杭州 310018)
?
基于核超限學(xué)習(xí)機的中文文本情感分類
于海燕,陳麗如,鄭文斌
(中國計量大學(xué) 信息工程學(xué)院,浙江 杭州 310018)
【摘要】針對傳統(tǒng)情感分類算法存在的參數(shù)學(xué)習(xí)困難及分類性能較低等問題,提出了一種基于核超限學(xué)習(xí)機的中文文本情感分類方法.首先通過信息增益對訓(xùn)練數(shù)據(jù)進行特征選擇以降低輸入維數(shù),然后通過構(gòu)建基于小波核超限學(xué)習(xí)機的分類器實現(xiàn)對中文文本的情感分類.實驗結(jié)果表明,新方法參數(shù)學(xué)習(xí)容易,且其文本情感分類性能通常優(yōu)于支持向量機和樸素貝葉斯.
【關(guān)鍵詞】核超限學(xué)習(xí)機;情感分類;中文文本
隨著科學(xué)技術(shù)的發(fā)展,互聯(lián)網(wǎng)越來越普及,Web2.0給人們帶來了很大的互動性,人們不僅可以閱讀網(wǎng)頁,而且還可以在網(wǎng)上對商品的滿意度、當(dāng)下熱點話題、時事政治等發(fā)表自己的觀點和表明態(tài)度.商業(yè)公司、用戶等迫切需要計算機能夠有效地判斷這些觀點和態(tài)度的情感傾向性,以幫助他們做出正確的決策.文本情感分類獲得越來越多的關(guān)注.
情感分類主要是判斷文本的情感傾向性,即褒貶性[1-3].當(dāng)前研究使用的技術(shù)主要分為兩大類:一類是基于詞典的方法[4,5],通過構(gòu)建情感詞典,并計算情感文本中正負(fù)情感詞的個數(shù)以實現(xiàn)情感分類;另一類是基于機器學(xué)習(xí)的方法[1,6,7],如:樸素貝葉斯[8](Naive Bayes,NB)、支持向量機[9](Support Vector Machine,SVM)等.當(dāng)前很多研究結(jié)果表明,基于機器學(xué)習(xí)的方法比基于詞典的方法性能好[1,2].然而,這些方法仍然存在一些問題,如:NB完全忽略了特征項之間的聯(lián)系[10],而文本特征間明顯存在關(guān)聯(lián);SVM分類模型性能較好,但是其參數(shù)學(xué)習(xí)比較困難[11].
近年來,黃廣斌等提出了一種新的學(xué)習(xí)算法即超限學(xué)習(xí)機(Extreme Learning Machine,ELM)[12],它是一種單隱藏層前饋神經(jīng)網(wǎng)絡(luò),可以解析求出網(wǎng)絡(luò)的輸出權(quán)值,具有學(xué)習(xí)速度快、外權(quán)求解全局最優(yōu)等特點.但是,ELM的隱藏層輸入權(quán)值隨機產(chǎn)生,使得最終結(jié)果帶有一定的隨機性.Huang等[13]通過進一步研究,對比ELM與SVM的建模和求解過程,提出了核超限學(xué)習(xí)機(Kernel Extreme Learning Machine,KELM)算法,其可調(diào)參數(shù)少、性能穩(wěn)定,且核函數(shù)的引入使非線性映射隱含在線性學(xué)習(xí)器中同步進行,有利于學(xué)習(xí)速度進一步提高.
本文提出一種基于KELM的中文文本情感分類方法:首先采用信息增益實現(xiàn)情感文本的特征選擇以降低輸入維度,從而降低KELM的網(wǎng)絡(luò)規(guī)模.之后根據(jù)KELM網(wǎng)絡(luò)特點設(shè)計分類器并實現(xiàn)情感分類.主要貢獻(xiàn)有:1)探索基于KELM的分類器實現(xiàn)文本情感分類的可行性;2)探索KELM相關(guān)參數(shù)對分類器性能的影響;3)將KELM與流行的相關(guān)分類模型進行性能比較.
本文其他章節(jié)安排如下:第1節(jié)介紹了基于核超限學(xué)習(xí)機的情感分類的具體實現(xiàn);第2節(jié)呈現(xiàn)了相關(guān)實驗結(jié)果及實驗分析;第3節(jié)給出相應(yīng)總結(jié)及展望.
1基于KELM的中文文本情感分類實現(xiàn)
1.1文本表示及特征選擇
本文采用TF-IDF[14]方法實現(xiàn)文本的特征表示.TF-IDF特征權(quán)值不但考慮了特征項在每篇文檔中出現(xiàn)的次數(shù),而且還考慮了特征項在整個數(shù)據(jù)集中的情況,其基本公式為
TF-IDF(ti,d)=tf(ti,d)×idf(ti).
(1)
其中,t和d分別表示特征項和文檔,tf(ti,d)是特征項ti在文檔d中出現(xiàn)的次數(shù),idf(ti)是逆文檔頻率,idf(ti)=log(N/df(ti)),N是指訓(xùn)練集中總的文檔數(shù),df(ti)指訓(xùn)練集中包含ti的文檔數(shù).
將TF-IDF特征權(quán)值歸一化如式(2),這樣可以消除不同文檔長度的影響.
(2)
其中,n是特征空間的維數(shù),wi是文檔d中特征項ti的權(quán)值.
由于文本特征維數(shù)較高,特別是中文文本在分詞后特征維數(shù)很高,所以需要特征選擇以提高分類的效率.本文采用具有較好性能的信息增益[15]進行文本特征選擇,其計算公式為
(3)
其中,c表示情感類別,P(t,c)表示特征項和類別的共現(xiàn)概率.
1.2分類模型實現(xiàn)
(4)
其中,
(5)
(6)
(7)
(8)
其中,
(9)
(10)
K(xi,xj)是核函數(shù)的形式,常用的核函數(shù)有多項式核函數(shù)、高斯徑向基核函數(shù)、線性核函數(shù)、小波核函數(shù)等.
1.3算法描述
基于核超限學(xué)習(xí)機的中文文本情感分類的具體算法流程如下.
輸出:測試樣本類別標(biāo)簽c;
1)對訓(xùn)練樣本與測試樣本分別進行分詞、去停用詞;
2)通過公式(3)計算訓(xùn)練樣本初始特征的信息增益,按信息增益從大到小的順序選取前n維特征作為文本特征向量,n為預(yù)選取的特征維數(shù);
2實驗
實驗中所采用的計算機配置環(huán)境為:處理器為Intel(R)Core(TM)i3-4150CPU@3.50GHz,內(nèi)存為4GB,操作系統(tǒng)為Windows7.計算軟件是MATLAB7.11.0(R2010b);SVM分類算法調(diào)用的是LIBSVM工具箱*http://www.csie.ntu.edu.tw/~cjlin/libsvm/.
2.1數(shù)據(jù)集與預(yù)處理
本文采用了兩個領(lǐng)域的語料集:書籍(BOOK)評論、筆記本(NOTEBOOK)評論,均來源于譚松波博士搜集整理的中文文本語料*http://www.datatang.com/datares/go.aspx?dataid=605301.實驗中每個數(shù)據(jù)集選用正負(fù)向文本各1 000篇.
預(yù)處理過程中,首先對情感文本進行分詞并去除停用詞.分詞調(diào)用的是NLPIR2015漢語分詞系統(tǒng)中的開源代碼*http://ictclas.nlpir.org/.然后進行特征選擇,構(gòu)造特征向量空間.
2.2性能評價
在實際的情感分類系統(tǒng)中,不僅需要考慮分類的準(zhǔn)確率,而且還要考慮計算成本.本文從準(zhǔn)確率(Accuracy)、訓(xùn)練時間(TrainingTime)、測試時間(TestingTime)等多角度評價分類系統(tǒng).其中準(zhǔn)確率為情感分類正確的文本數(shù)與總的文本數(shù)的百分比;訓(xùn)練時間和測試時間主要是針對分類算法的訓(xùn)練和測試過程,不包含前期的預(yù)處理過程.
2.3實驗結(jié)果與分析
為能夠客觀評價分類器性能,實驗結(jié)果中采用5折交叉驗證取平均值的方法.分類器輸入特征維數(shù)在50維到4 000維之間進行取值.分類算法有NB、SVM和KELM,后兩種算法都會涉及到參數(shù)的選擇,支持向量機需要選擇的是懲罰因子和核參數(shù),核超限學(xué)習(xí)機需要選擇核參數(shù)和正則化參數(shù).實驗中用網(wǎng)格交叉驗證法選擇各算法的相關(guān)參數(shù).
核超限學(xué)習(xí)機中的核函數(shù)有多項式核函數(shù)、高斯徑向基核函數(shù)、線性核函數(shù)、小波核函數(shù)等.其中,小波核函數(shù)中的小波函數(shù)選用的是morlet小波函數(shù),則小波核函數(shù)為
exp(-(xi-xi′)2/2a2)].
(11)通過對比以上四種核函數(shù)的性能,選取最優(yōu)核函數(shù).
圖1、2對比了四種核函數(shù)在兩個數(shù)據(jù)集上的分類性能.從圖中可以看出小波核函數(shù)(wavelet-kernel)的性能在大部分情況下都優(yōu)于其他三個核函數(shù).維數(shù)大于等于1 000維時,小波核函數(shù)的性能保持不變或有所提高,且基本上均優(yōu)于其它核函數(shù).整體上,在3 000維到4 000維時性能要優(yōu)于其他維數(shù)時的性能.根據(jù)此實驗結(jié)果,接下來的實驗中采用小波核作為核超限學(xué)習(xí)機的核函數(shù).
圖1 BOOK數(shù)據(jù)集上四種核函數(shù)的性能對比Figure 1 Performance comparison of the four kernel functions on the BOOK data set
圖2 NOTEBOOK數(shù)據(jù)集上四種核函數(shù)的性能對比Figure 2 Performance comparison of the four kernel functions on the NOTEBOOK data set
圖3、4分別給出了KELM的參數(shù)在BOOK和NOTEBOOK數(shù)據(jù)集上的一個網(wǎng)格交叉驗證結(jié)果.可以看出正則化參數(shù)C對性能的影響要弱于核參數(shù).從整體上看,當(dāng)C較大時,KELM對核參數(shù)的選擇并不敏感.這有利于方便高效地選擇核參數(shù).
圖3 KELM的參數(shù)在BOOK數(shù)據(jù)集上的一個網(wǎng)格交叉驗證結(jié)果Figure 3 Grid cross validation of the KELM parameters on the BOOK data set
圖4 KELM的參數(shù)在NOTEBOOK數(shù)據(jù)集上的一個網(wǎng)格交叉驗證結(jié)果Figure 4 Grid cross validation of the KELM parameters on the NOTEBOOK data set
表1和表2分別給出了KELM、SVM、NB三種分類模型在BOOK和NOTEBOOK數(shù)據(jù)集上的分類準(zhǔn)確率.可以看出KELM的準(zhǔn)確率通常優(yōu)于SVM,隨著維數(shù)的升高,這種差距越明顯.而NB分類模型的準(zhǔn)確率較低,雖然其性能隨著特征維數(shù)的增加也增加,但是依然低于KELM.
表1、2均反映出KELM在高維情況下的性能仍然穩(wěn)定,而且其準(zhǔn)確率隨特征維度的升高而升高.但是在4 000維時略微有所下降,這說明特征維數(shù)并不是越高越好,因為維數(shù)過高容易引入較多的噪聲特征.
表1 不同分類模型在BOOK數(shù)據(jù)集上的準(zhǔn)確率對比
表2 不同分類模型在NOTEBOOK數(shù)據(jù)集上的準(zhǔn)確率對比
圖5、6分別給出了三種分類模型在BOOK數(shù)據(jù)集上的訓(xùn)練時間和測試時間.從圖5中可以看出KELM在保證取得較高分類準(zhǔn)確率的情況下,其訓(xùn)練時間接近SVM快于NB.在測試階段,KELM所需的時間低于SVM,NB算法的測試時間雖然很短,但是其分類精度較低.綜合起來,KELM的整體性能優(yōu)于其他兩種算法.
圖5 BOOK數(shù)據(jù)集上各分類模型的訓(xùn)練時間對比 Figure 5 Training time comparison of the different classification models on the BOOK data set
圖6 BOOK數(shù)據(jù)集上各分類模型的測試時間對比 Figure 6 Testing time comparison of the different classification models on the BOOK data set
3總結(jié)與展望
本文提出了一種基于KELM的中文文本情感分類方法,探索了核參數(shù)以及正則化參數(shù)的選擇變化對系統(tǒng)性能的影響.進一步對比了KELM與SVM、NB在不同輸入維數(shù)下的分類準(zhǔn)確率以及訓(xùn)練時間和分類時間.實驗表明:當(dāng)正則化參數(shù)較大時,小波核超限學(xué)習(xí)機對核參數(shù)的選擇并不敏感,有利于方便高效地學(xué)習(xí)參數(shù).在分類性能方面,KELM的準(zhǔn)確率一般優(yōu)于SVM和NB,其所需的訓(xùn)練時間和測試時間也較少.因此KELM的整體性能優(yōu)于其他兩種算法.在將來的工作中,將研究如何有效降低特征的維度,以進一步減少核函數(shù)矩陣的計算花銷以及如何進一步優(yōu)化小波核函數(shù),以獲得更好的中文文本情感分類性能.
【參考文獻(xiàn)】
[1]PANG B, LEE L, VAITHYANATHAN S. Thumbs up: sentiment classification using machine learning techniques[C]//Proceedings of the ACL-02 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, USA: Association for Computational Linguistics,2002:79-86.
[2]TAN S, ZHANG J. An empirical study of sentiment analysis for Chinese documents[J]. Expert Systems with Applications,2008,34(4):2622-2629.
[3]王素格,李德玉,魏英杰.基于賦權(quán)粗糙隸屬度的文本情感分類方法[J].計算機研究與發(fā)展,2015,48(5):855-861.
WANG Suge, LI Deyu, WEI Yingjie. A method of text sentiment classification based on weighted rough membership[J]. Journal of Computer Research and Development,2015,48(5):855-861.
[4]ANDREEVSKAIA A, BERGLER S. Mining WordNet for a fuzzy sentiment: sentiment tag extraction from WordNet glosses[C]// Proceedings EACL-06, the 11th Conference of the European Chapter of the Association for Computational Linguistics. Trento, Italy: EACL,2006:209-216.
[5]KENNEDY A, INKPEN D. Sentiment classification of movie reviews using contextual valence shifters[J]. Computational Intelligence,2006,22(2):110-125.
[6]葉佳駿,馮俊,任歡,等.IG-RS-SVM的電子商務(wù)產(chǎn)品質(zhì)量輿情分析研究[J].中國計量學(xué)院學(xué)報,2015,26(3):285-290.
YE Jiajun, FENG Jun, REN Huan, et al. Analysis of pubilic opinon on E-commerce product quality based on IG-RS-SVM[J]. Journal of China University of Metrology,2015,26(3):285-290.
[7]CHEN P, FU X, TENG S, et al. Research on micro-blog sentiment polarity classification based on SVM[M]. Switzerland: Springer International Publishing,2015:392-404.
[8]MCCALLUM A, NIGAM K. A comparison of event models for naive bayes text classification[C]//AAAI-98 Workshop on Learning for Text Categorization. USA: AAAI,1998:41-48.
[9]GODBOLE S, SARAWAGI S, CHAKRABARTI S. Scaling multi-class support vector machines using inter-class confusion[C]//Proceedings of the Eighth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.USA:ACM,2002:513-518.
[10]LU S H, CHIANG D A, KEH H C, et al. Chinese text classification by the Naive Bayes classifier and the associative classifier with multiple confidence threshold values[J]. Knowledge-Based Systems,2010,23(6):598-604.
[11]祁亨年.支持向量機及其應(yīng)用研究綜述[J].計算機工程,2004,30(10):6-9.
QI Hengnian. Support vector machines and application research overview[J]. Computer Engineering,2004,30(10):6-9.
[12]HUANG G B, ZHU Q Y, SIEW C K. Extreme learning machine: a new learning scheme of feedforward neural networks[C]//2004 IEEE International Joint Conference on Neural Networks. America: IEEE,2004:985-990.
[13]HUANG G B, ZHOU H, DING X, et al. Extreme learning machine for regression and multi-class classification[J]. IEEE Transactions on Systems, Man, and Cybernetics, Part B (Cybernetics),2011,42(2):513-529.
[14]SALTON G, BUCKLEY C. Term-weighting approaches in automatic text retrieval[J]. Information Processing & Management,1988,24(5):513-523.
[15]LEE C, LEE G G. Information gain and divergence-based feature selection for machine learning-based text categorization[J]. Information Processing & Management,2006,42(1):155-165.
【文章編號】1004-1540(2016)02-0228-06
DOI:10.3969/j.issn.1004-1540.2016.02.018
【收稿日期】2015-12-30《中國計量學(xué)院學(xué)報》網(wǎng)址:zgjl.cbpt.cnki.net
【基金項目】國家自然科學(xué)基金資助項目(No.61272315,11391240180),浙江省自然科學(xué)基金資助項目(No.LY14F020041,LY15A020003).
【作者簡介】于海燕(1991-),女,河南省南陽人,碩士研究生,主要研究領(lǐng)域為文本情感分類.E-mail:diyyhy@163.com 通信聯(lián)系人:鄭文斌,男,副教授.E-mail:zwb@zju.edu.cn
【中圖分類號】TP391
【文獻(xiàn)標(biāo)志碼】A
Chinese text sentiment classification based on kernel extreme learning machines
YU Haiyan, CHEN Liru, ZHENG Wenbin
(College of Information Engineering, China Jiliang University, Hangzhou 310018, China)
Abstract:Aiming at the disadvantages of traditional classification algorithms for sentiment classification, such as complicated parameter learning and low classification performance, this paper proposed a novel Chinese text sentiment classification approach based on kernel extreme learning machines. First, the feature selection for training data via the information gain technology was implemented to reduce the input dimensionality. Then, a classifier based on the wavelet kernel extreme learning machine was constructed for Chinese text sentiment classification. The experimental results show that the model parameters of the proposed method are easier to learn and the Chinese text sentiment classification performance of the proposed method is usually superior to support vector machines or naive bayes.
Key words:kernel extreme learning machine; sentiment classification; Chinese texts