黃夢(mèng)瑩,張曉濱
(西安工程大學(xué) 計(jì)算機(jī)科學(xué)學(xué)院,陜西 西安 710048)
互聯(lián)網(wǎng)的發(fā)展,使人們可以從多個(gè)途徑獲得自己需要的信息,互聯(lián)網(wǎng)用戶可以通過(guò)網(wǎng)絡(luò)發(fā)表自己對(duì)某人某事某物的看法,記錄自己在某個(gè)時(shí)間的心理狀態(tài),而這些用戶上傳的情感文本數(shù)據(jù)使越來(lái)越多的情感評(píng)價(jià)體系應(yīng)運(yùn)而生.因而如何高效地獲取情感文本中表達(dá)的對(duì)人、事、物的情感信息,分析用戶的情感傾向,從而獲取有用的信息已是大勢(shì)所趨.文本情感分析是對(duì)帶有感情色彩的主觀文本進(jìn)行分析處理[1].分析用戶的情感傾向首先需要對(duì)用戶的文本數(shù)據(jù)進(jìn)行分析,找到其文本的情感特征詞.
卡方統(tǒng)計(jì)量和信息增益的特征選取方法是特征選擇算法中效果較好的2種特征選取方法,其主要是對(duì)傳統(tǒng)文本進(jìn)行特征選擇的方法,但由于兩者都存在各自的不足,從而導(dǎo)致文本的分類(lèi)效率不高,因此出現(xiàn)了很多對(duì)這2種方法進(jìn)行改進(jìn)的算法.劉海峰等[2]基于特征項(xiàng)的不同分布角度,實(shí)現(xiàn)對(duì)CHI模型的逐步優(yōu)化以及裴英博等[3]通過(guò)對(duì)傳統(tǒng)CHI方法特征選擇精度的影響因素進(jìn)行分析,提出了消除特征項(xiàng)與類(lèi)別負(fù)相關(guān)對(duì)特征選擇精度影響的改進(jìn)算法.以上兩者是在卡方統(tǒng)計(jì)量的方法上進(jìn)行改進(jìn),都是基于傳統(tǒng)的文本實(shí)驗(yàn)分類(lèi),并不適用于情感文本.另外有基于特征項(xiàng)在文本中的位置信息和詞頻信息,對(duì)CHI算法做出改進(jìn)[4]的方法,以及基于微博文本的特征信息,提出了適合微博特征提取的改進(jìn)的CHI特征提取算法[5]和黃章樹(shù)等[6]通過(guò)降低負(fù)相關(guān)低頻詞在特征選擇算法中的權(quán)重,減小其對(duì)模型的影響.這三者雖然在一定程度上減小了卡方統(tǒng)計(jì)量的方法對(duì)文本分類(lèi)的影響,但是對(duì)文本的信息處理上會(huì)花費(fèi)更多的時(shí)間.
在信息增益的方法上,郭亞維等[7]將傳統(tǒng)的信息增益算法引入平衡因子中從而得到一種新的算法,雖然提高了分類(lèi)效果,但平衡因子的取值不確定;李學(xué)明等[8]考慮到特征詞在類(lèi)內(nèi)、類(lèi)間的分布對(duì)其權(quán)重的影響,提出一種基于信息增益與信息熵的TFIDF算法.文獻(xiàn)[9]提出了一種基于卡方特征選擇改進(jìn)的文本分類(lèi)方法,以上兩者在一定程度上提高了分類(lèi)性能,但局限性較大.上述是基于這2種方法中的某一種方法進(jìn)行的改進(jìn)算法,最終都能實(shí)現(xiàn)對(duì)文本分類(lèi)效率的提高.而考慮到這2種方法又是特征選擇算法中最有效的2種方法,GHAREB等[10]通過(guò)對(duì)幾種特征選擇算法與增強(qiáng)的遺傳算法相結(jié)合,在遺傳算法的基礎(chǔ)上提出了一種混合特征選擇方法,該方法雖然能提高分類(lèi)效率,但是花費(fèi)的時(shí)間相對(duì)較高.文獻(xiàn)[11]通過(guò)對(duì)文本挖掘中常用的幾種特征選擇算法的分析與比較,在文本意義的基礎(chǔ)上提出的一種新的文本數(shù)據(jù)特征選擇方法.LIU等[12]提出一種新的結(jié)合LW索引與序列正向搜索算法的特征選擇方法,在收集大量的文本數(shù)據(jù)基礎(chǔ)上能有效地提高文本的特征選擇.文獻(xiàn)[13]基于自適應(yīng)遺傳算法的特征選擇方法,采用不同的術(shù)語(yǔ)加權(quán)方法和分類(lèi)算法對(duì)自然語(yǔ)言呼叫路由的文本分類(lèi)進(jìn)行了研究; HE等[14]通過(guò)添加權(quán)重系數(shù)來(lái)平衡特征項(xiàng)對(duì)分類(lèi)的影響.文獻(xiàn)[15]雖然實(shí)現(xiàn)了這2種方法的集合,對(duì)這2種方法進(jìn)行了改進(jìn),但該方法是基于普通文本特征的選擇,對(duì)于情感文本并不適用.
上述方法都是基于傳統(tǒng)文本的分類(lèi),相對(duì)于傳統(tǒng)文本,情感文本是更加細(xì)化的傳統(tǒng)文本,情感文本包含的情感詞、態(tài)度、觀點(diǎn)詞更多.因此,在研究情感文本的分類(lèi)過(guò)程中,并不僅僅是將文本分類(lèi),而且同時(shí)還要分析情感文本的正向或負(fù)向的情感.在當(dāng)代互聯(lián)網(wǎng)的情景下,獲取文本情感的傾向能夠更好地分析用戶的情感,從而實(shí)現(xiàn)對(duì)用戶的分析與推薦,有更好的用戶體驗(yàn).本文在分析2種傳統(tǒng)的特征選擇算法的基礎(chǔ)上結(jié)合研究現(xiàn)狀對(duì)2種方法進(jìn)行融合,實(shí)現(xiàn)對(duì)情感文本的特征選?。ㄟ^(guò)對(duì)均衡與非均衡的情感文本語(yǔ)料進(jìn)行分類(lèi)實(shí)驗(yàn),實(shí)驗(yàn)證明該方法能有效地提高情感文本的分類(lèi)效率.
CHI統(tǒng)計(jì)方法是通過(guò)比較實(shí)際值與理論值判斷理論假設(shè)的正確與否,在計(jì)算CHI值時(shí)假設(shè)2個(gè)變量相互獨(dú)立.假設(shè)特征變量t與類(lèi)別c相互獨(dú)立,則t對(duì)于類(lèi)別c的CHI統(tǒng)計(jì)量表示為
(1)
式中:A表示屬于類(lèi)別c且包含特征詞t的文檔數(shù);B表示不屬于類(lèi)別c但包含特征詞t的文檔數(shù);C表示屬于類(lèi)別c但不包含特征詞t的文檔數(shù);D表示既不屬于類(lèi)別c也不包含特征詞t的文檔數(shù);N表示文檔總數(shù).式(1)計(jì)算特征詞t與類(lèi)別c之間的相關(guān)性,當(dāng)t與c相互獨(dú)立時(shí),χ2(t,c)=0;當(dāng)t與c相關(guān)性越強(qiáng),χ2(t,c) 值越大,即特征詞t中包含的能鑒定類(lèi)別c的信息越多.
在信息增益中,衡量重要性的標(biāo)準(zhǔn)為選出的特征詞能否將該文本與其他的文本進(jìn)行區(qū)別,該特征詞帶來(lái)的信息越多,則該特征越重要,即計(jì)算有特征t與無(wú)特征t之間信息熵的差值.對(duì)分類(lèi)器來(lái)說(shuō),類(lèi)別C為變量,取值范圍為C1,C2,…,Cn,而該類(lèi)別出現(xiàn)時(shí)分別對(duì)應(yīng)的概率為P(C1),P(C2),…,P(Cn),n表示類(lèi)別的總數(shù).此時(shí)的分類(lèi)器的熵表示為
(2)
對(duì)于無(wú)特征t的情況,指的是分類(lèi)器中雖然包含特征t,但是t已經(jīng)固定不變.此時(shí)信息的熵就是計(jì)算特征t固定時(shí)的信息熵,即條件熵.則無(wú)特征t時(shí)的信息熵計(jì)算公式可以表示為
(3)
(4)
圖 1 權(quán)值α,β與Random Forest分類(lèi)器準(zhǔn)確率的關(guān)系Fig.1 Relationship between α,β and accuracy of random forest classifier
CHI統(tǒng)計(jì)量的計(jì)算過(guò)程忽略了特征詞t的頻數(shù),即用該方法計(jì)算的CHI統(tǒng)計(jì)值導(dǎo)致在某類(lèi)文章的每篇文檔都出現(xiàn)一次的特征值大于該類(lèi)文章中99%的文檔中出現(xiàn)10次的特征值大.基于信息增益的整個(gè)算法過(guò)程可以看到它只能考察特征對(duì)整個(gè)分類(lèi)器的貢獻(xiàn),而不能具體到某個(gè)類(lèi)別上,如果有的特征詞對(duì)某個(gè)類(lèi)別有區(qū)分度,但是對(duì)其他類(lèi)別沒(méi)有什么區(qū)分度給分類(lèi)帶來(lái)的信息則較少.為了降低這2種方法不足帶來(lái)的影響,本文提出了一種改進(jìn)的特征選擇方法,即融合信息增益與CHI的特征選擇算法.可以在2種方法中取一個(gè)權(quán)值α,綜合2種算法的弊端,
CHI-IG(T,C)=αIG(T)+(1-α)χ2(t,c).
(5)
同時(shí)為了區(qū)分情感特征詞與普通的特征詞,在選取的特征詞中,對(duì)情感特征詞的CHI-IG(T,C) 值乘上β值.即
CHI-IG(T,C)=(βy+1)×[αIG(T)+(1-α)χ2(t,c)].
(6)
式中:y取0和1,當(dāng)特征詞為情感特征詞時(shí),y取1,反之取0.
在均衡語(yǔ)料的實(shí)驗(yàn)特征維度為1 600時(shí).采用隨機(jī)森林分類(lèi)算法計(jì)算的α,β值與CHI-IG特征提取算法情感文本分類(lèi)準(zhǔn)確率之間的關(guān)系如圖1所示.從圖1可以看出,CHI-IG-α表示初始值α,CHI-IG-β表示在初始值α最優(yōu)的情況下計(jì)算的β值,CHI-IG-α1表示在β的值固定且為最優(yōu)值的情況下調(diào)整后的α值.由圖可知曲線CHI-IG-α隨著權(quán)值α逐漸增大,CHI統(tǒng)計(jì)量的不足帶來(lái)的影響逐漸減小,當(dāng)α達(dá)到0.48時(shí),準(zhǔn)確率達(dá)到最高;當(dāng)權(quán)值α超過(guò)0.48之后,信息增益方法(IG)不足帶來(lái)的影響逐漸增大,準(zhǔn)確率逐漸降低.因此可知公式(5)中的α取0.48時(shí)分類(lèi)器的準(zhǔn)確率最高.CHI-IG-β和CHI-IG-α1是在CHI-IG-α的基礎(chǔ)上對(duì)權(quán)值進(jìn)行調(diào)整,以達(dá)到最優(yōu)的權(quán)值.CHI-IG-β是在同樣的實(shí)驗(yàn)數(shù)據(jù)條件下,且α的值固定為最優(yōu)值的情況下計(jì)算的β值與CHI-IG特征提取算法情感文本分類(lèi)準(zhǔn)確率之間的關(guān)系曲線,β值取0.25時(shí)分類(lèi)器的準(zhǔn)確率最高.考慮到式(5)中的α值的計(jì)算未涉及到β值,所以需要在β值最優(yōu)的情況下再次測(cè)試α值.CHI-IG-α1是在相同的實(shí)驗(yàn)數(shù)據(jù)條件下,且β的值固定為最優(yōu)值的情況下計(jì)算的α值與CHI-IG特征提取算法情感文本分類(lèi)準(zhǔn)確率之間的關(guān)系曲線,α值取0.45時(shí)分類(lèi)器的準(zhǔn)確率最高.因此,最終確定的特征選擇算法的計(jì)算公式為
CHI-IG(T,C)=(0.25y+1)×[0.45IG(T)+0.55χ2(t,c)]
(7)
對(duì)數(shù)據(jù)進(jìn)行的預(yù)處理包括去掉分詞、停用詞、繁簡(jiǎn)轉(zhuǎn)化、替換奇異詞等.其中分詞使用中國(guó)科學(xué)院的漢語(yǔ)分詞系統(tǒng)NLPIR[16].去除分詞后的停用詞和鏈接等無(wú)用信息.進(jìn)行特征選擇時(shí),采用傳統(tǒng)的卡方統(tǒng)計(jì)量、信息增益算法以及本文改進(jìn)的融合算法.實(shí)驗(yàn)平臺(tái)采用WEKA3.7數(shù)據(jù)挖掘開(kāi)源工具,對(duì)文本分類(lèi)進(jìn)行驗(yàn)證.分別采用隨機(jī)森林算法和支持向量機(jī)分類(lèi)算法進(jìn)行分類(lèi)實(shí)驗(yàn).
分別采用卡方統(tǒng)計(jì)量方法、信息增益方法以及本文提出的CHI-IG方法進(jìn)行不同維度的特征提取,用SVM進(jìn)行分類(lèi),結(jié)果如圖2,3所示.
(a) 均衡語(yǔ)料 (b) 非均衡語(yǔ)料圖 2 不同維度下SVM分類(lèi)器的準(zhǔn)確率Fig.2 Accuracy of SVM classifier in different dimensions
(a) 均衡語(yǔ)料 (b) 非均衡語(yǔ)料圖 3 不同維度下Random Forest分類(lèi)器的準(zhǔn)確率Fig.3 Accuracy of Random Forest classifier in different dimensions
從圖2可以看出,隨著特征維度的增加,改進(jìn)的CHI-IG特征提取算法相比于傳統(tǒng)的卡方統(tǒng)計(jì)量以及信息增益算法在提取不同維度的特征時(shí),改進(jìn)的算法SVM分類(lèi)的準(zhǔn)確率都有所提高,在選取1 200維度的特征時(shí)準(zhǔn)確率達(dá)到最高,分別是88.37%和87.85%.說(shuō)明在采用改進(jìn)的CHI-IG情況下情感文本分類(lèi)的準(zhǔn)確率得到了提高.
從圖3可以看出,隨著特征維度的增加,3種方法的分類(lèi)準(zhǔn)確率都有所增加,而改進(jìn)的CHI-IG特征提取算法相比于另外2種算法,其分類(lèi)準(zhǔn)確率提高較大,在選取1 600維度的特征時(shí)準(zhǔn)確率達(dá)到最高分別為89.86%和89.13%.說(shuō)明在采用改進(jìn)的CHI-IG情況下情感文本分類(lèi)的準(zhǔn)確率得到了較大提高.
本文基于對(duì)傳統(tǒng)的信息增益與卡方統(tǒng)計(jì)量特征選擇算法的分析,提出改進(jìn)的特征選擇算法并應(yīng)用在情感文本的分類(lèi)上,通過(guò)對(duì)比實(shí)驗(yàn)證明該算法在情感文本的分類(lèi)上得到了較大提高.在后續(xù)的研究中可以將該方法應(yīng)用在不同的研究領(lǐng)域.