亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于改進信息增益特征選擇法的SVM中文情感分類算法

2019-01-24 03:10:08王根生黃學(xué)堅吳小芳胡向亮

成都理工大學(xué)學(xué)報(自然科學(xué)版) 2019年1期

王根生, 黃學(xué)堅, 吳小芳, 胡向亮

(江西財經(jīng)大學(xué) 計算機實踐教學(xué)中心，南昌 330013)

隨著開放性、交互性互聯(lián)網(wǎng)的發(fā)展，網(wǎng)絡(luò)成為人們發(fā)表觀點、信息、情感的新平臺[1]。如何對這些傳播的信息進行情感分析是網(wǎng)絡(luò)輿情監(jiān)測的一個重要部分。國內(nèi)外的學(xué)者也已經(jīng)開展了相關(guān)研究，國外學(xué)者主要專注于英文文本情感分類的研究，而由于中文表達的多樣性，對中文情感分類的研究更具復(fù)雜性[2]。

目前文本情感分類算法主要分為基于語義理解和基于機器學(xué)習(xí)2類[3-4]?；跈C器學(xué)習(xí)的文本情感分類思想是：通過事先標注好了情感標簽的文本作為訓(xùn)練集，選擇相關(guān)的機器學(xué)習(xí)算法進行訓(xùn)練，得到分類器，最后使用這個分類器對后續(xù)的文本進行情感分類[5]。Bo Pang等使用最大熵(Maximum Entropy)、支持向量機(SVM)、樸素貝葉斯(Native Bayes)等不同機器學(xué)習(xí)算法對文本的情感傾向性進行分類實驗，發(fā)現(xiàn)SVM算法的效果最好[6]。

基于機器學(xué)習(xí)的文本情感分類算法的第一步是對文本進行分詞處理，然后進行特征詞篩選。如果直接使用分詞后的詞組作為特征空間會產(chǎn)生高維的數(shù)據(jù)，在高維數(shù)據(jù)空間進行訓(xùn)練會導(dǎo)致計算時間過長且得到的分類器效果不佳等問題[7-8]。針對此問題，唐慧豐等人[9]提出了基于信息增益特征選擇的機器學(xué)習(xí)文本情感分類算法。本文在該方法之上引入詞頻和特征詞情感表現(xiàn)程度的改進策略，對文本特征降維處理，采用SVM算法進行訓(xùn)練，實驗結(jié)果顯示該算法具有更好的分類效果。

1 相關(guān)理論

使用SVM算法進行文本情感分類時，主要涉及文本的特征表示、文本特征選擇、訓(xùn)練器構(gòu)建等[10]。

算法Ⅰ：基于SVM算法的文本情感分類算法

Step1:Select training set；//來源于事先標注好了情感標簽的文本。

Step2:Preprocessing Text；//分詞處理，排除停用詞。

Step3:Text representation；//根據(jù)預(yù)處理后的結(jié)果進行特征選擇與提取，構(gòu)造特征表示。

Step4:Training classifier；//對訓(xùn)練集中的每個文本進行統(tǒng)一表示，采用SVM算法進行訓(xùn)練，得出分類器。

Step5:Test classifier；//選擇測試集測試分類器的準確率等相關(guān)指標。

1.1 文本特征表示

對文本進行特征表示是機器學(xué)習(xí)中一個重要的步驟，一個好的特征表示不僅反映了文本的基本內(nèi)容，并且對不同的文本特征也能很好地區(qū)分[11]。常見的表示模型有布爾模型(Boolean Model)、向量空間模型(VSM)、概率模型(Probabilistic Model)和潛在語義索引模型(LSI)等[12]。向量空間模型(VSM)是目前文本特征表示中運用最廣泛的模型[13]，它包含3個基本概念：①文本(document)，由一定數(shù)量的特征詞組成。②特征項(feature term)，文本特征詞組成了特征項原始空間，向量空間模型使用這些特征項表示為di(ti1,ti2, …,tin)，di表示第i個文本，tik表示第i個文本的第k個特征項。③特征項權(quán)重(term weight)，在特征向量中，對每個特征項都要進行相應(yīng)的權(quán)重計算，權(quán)重的大小作為區(qū)分文本類別的貢獻程度[14]。文本di表示為di(ti1=wi1,ti2=wi2,…,tin=win)，簡記為di(wi1,wi2,…,win)，其中wik就是第i個文檔中第k個特征項的權(quán)重。權(quán)重計算目前用的較多的是TF-IDF算法[15]。

1.2 文本特征選擇

文本經(jīng)過分詞和去停用詞后，會產(chǎn)生一個較大的原始特征空間。特征空間中每個特征對分類貢獻的大小不同，選擇貢獻大的特征詞，降低特征空間復(fù)雜度，以提高機器學(xué)習(xí)算法的效率[16-17]。目前，特征選取的方式有3種：①采用變換或映射等方法將最原始的特征進行轉(zhuǎn)換，從而減少特征的數(shù)目；②依據(jù)相關(guān)領(lǐng)域?qū)＜业南闰炛R選??；③使用數(shù)學(xué)方法計算每個特征對分類判別貢獻的大小，從而進行特征選擇。

使用數(shù)學(xué)方法進行特性選取是比較精確的，因為人為干擾因素較少，在選擇準則上都是基于特征詞的頻率或出現(xiàn)特征詞的文檔頻率，常用的方法有：文檔頻率(document frequency)、互信息(mutual information)、期望交叉熵(expected cross entropy)、χ2統(tǒng)計法和信息增益(information gain)等[18]。信息增益方法在文本情感分類中表現(xiàn)得比較優(yōu)秀，其計算方法為

(1)

1.3 SVM分類器

支持向量機(SVM)算法通過核函數(shù)把低維特征空間不可線性分割問題轉(zhuǎn)換到高維特征空間，使得問題求解在高維特征空間線性可分[19]。其以良好的性能在模式識別、圖像分析、自然語言處理等相關(guān)領(lǐng)域得到廣泛運用。

SVM的核函數(shù)有多種類型選擇，常用的核函數(shù)有4種：①線性核函數(shù)；②多項式核函數(shù)；③徑向核函數(shù)；④sigmoid核函數(shù)。

2 基于改進信息增益特征選擇法的SVM算法

傳統(tǒng)的信息增益方法在計算過程中只考慮了特征出現(xiàn)與不出現(xiàn)2種情況和特征對全體樣本的貢獻，而沒有考慮到單個局部樣本，所以該算法在全局效果較好，而在某些局部樣本空間的表現(xiàn)不佳。

2.1 融合詞頻與情感程度的信息增益特征選擇方法

針對傳統(tǒng)信息增益方法的局限性，本文提出融合詞頻和特征詞情感程度的改進思路。

a.引入詞頻

詞頻指詞語在文本中出現(xiàn)的次數(shù)，頻率越高的詞語越能代表文本的特性。設(shè)文本的特征集合為T={t1,t2,t3,…,tn}，訓(xùn)練集文本di1,di2, …,diNi屬于類別Ci(1≤i≤2)，其中Ci類的文檔總數(shù)為Ni，tfik(tj)代表特征tj(1≤j≤n)在文本dik(1≤k≤Ni)中出現(xiàn)的頻率。再對每個詞頻進行歸一化處理，特征項tj在類別Ci中出現(xiàn)的頻率表示為tfik′(tj)，令A(yù)j=tfik′(tj)，計算公式為

(2)

b.引入詞語情感表現(xiàn)程度

本文使用知網(wǎng)語義相似度公式進行詞語情感表現(xiàn)程度計算，將語義相似度融入到特征選擇過程中。為了計算方便，對計算公式進行歸一化處理

(3)

式中：Bi為特征i的情感表現(xiàn)程度；O(wi)為特征i的情感權(quán)值；n為所有特征的個數(shù)。其中O(wi)參考知網(wǎng)語義相似度計算公式

(4)

式中：POS代表褒義詞集合；NEG代表貶義詞集合；m為褒義詞集合的大??；n為貶義詞集合大小；Sim(w,POSi)為詞語w與POS中第i個詞語的相似度；Sim(w,NEGj)為詞語w與NEG中第j個詞語的相似度。

c.改進的信息增益

綜上所述，根據(jù)詞頻公式(2)和詞語情感程度公式(3)，對信息增益計算公式(1)重新定義，計算式為

(5)

2.2 改進信息增益特征的SVM算法

使用改進后的信息增益計算公式(5)對算法Ⅰ中Step3進行優(yōu)化，并且為了降低算法的復(fù)雜度，進行了2次特征選擇，第一次使用傳統(tǒng)的信息增益方法進行粗略降維，再使用本文改進的信息增益方法進行第二次降維。

算法Ⅱ：基于改進信息增益特征SVM算法的文本情感分類算法

Step1: Select training set；//對訓(xùn)練文本進行情感標注。

Step2: Preprocessing Text；//對文本進行分詞和去除停用詞處理，構(gòu)成原始特征集合。

Step3:First feature reduction;//使用傳統(tǒng)的信息增益方法對原始特征集合進行特征選擇，構(gòu)成第一次降維后的特征集合。

Step4:Secondary feature reduction;//通過詞頻與情感程度融合的信息增益方法對Step3篩選后的結(jié)果再降維，構(gòu)成最終的特征子集合。

Step5: Training classifier；//使用最終的特征子集合構(gòu)成文本特征表示，作為SVM算法的輸入數(shù)據(jù)進行訓(xùn)練。

Step6: Test classifier。//對最后得出的分類器進行測試。

3 實驗與分析

本實驗主要比較不同的特征選擇方法下SVM算法在文本情感分類中的表現(xiàn)。訓(xùn)練樣本來源于各大網(wǎng)站的評論性文章，涉及財經(jīng)、房地產(chǎn)、汽車、娛樂、體育等領(lǐng)域，共2 000篇文章，并對文章表達的褒貶情感進行人為標注。在實驗過程中，分別使用文檔頻率(DF)、χ2統(tǒng)計法、信息增益(IG)以及本文改進的信息增益法進行特征選擇，使用歸一化后的向量空間模型(VSM)作為文本特征表示，借助SVM的開源庫LIBSVM和sigmoid核函數(shù)進行SVM算法試驗，使用交叉驗證的方式進行驗證，使用查全率(recall)與查準率(precision)對算法進行衡量。實驗對訓(xùn)練樣本進行了3次隨機選擇訓(xùn)練，具體結(jié)果如表1所示。

從實驗結(jié)果數(shù)據(jù)能夠看出，基于本文改進的信息增益特征選擇的SVM算法在查準率、查全率上都有提高，因為它在特征選擇時從全局和局部2個方面進行了衡量。在得到基于改進信息增益特性選擇的SVM分類器后，再重新選擇測試數(shù)據(jù)集進行測試，測試數(shù)據(jù)集依然來自財經(jīng)、房地產(chǎn)、汽車、娛樂、體育5個領(lǐng)域，每個領(lǐng)域各300篇已標注了褒貶情感類別的文本，測試結(jié)果如表2所示。

表1 不同的特征選擇方法下SVM文本情感分類算法性能比較Table 1 Algorithm performance comparison of SVM text sentiment classification under different feature selection

表2 分類器在不同領(lǐng)域的性能表現(xiàn)Table 2 Performance of classifier in different fields

從測試結(jié)果看，娛樂領(lǐng)域的評論性文章的查全率和查準率的結(jié)果值最高，因為該領(lǐng)域的評論性文章的褒貶情感最為明顯；其他幾個領(lǐng)域雖然比訓(xùn)練時交叉驗證的結(jié)果低一點，但分類器依然保持了較好的泛化能力。為了進一步證明該算法的性能，再選取不同數(shù)目特征集的情況下對傳統(tǒng)信息增益特征選擇的SVM算法和基于本文改進的信息增益特征選擇的SVM算法進行對比實驗，特征集的大小從100遞增到1 000，每次遞增100，使用F-measure來衡量算法的性能。F-measure是查全率與查準率加權(quán)平均值，也同樣進行3組實驗，以3組結(jié)果的平均F-measure來衡量性能(圖1)。

圖1 不同特征集個數(shù)下2種算法性能比較Fig.1 Performance comparison of two algorithms with different feature numbers

由圖1可以看出，開始階段隨著特征集數(shù)目的增加2種算法的性能都有提高，但超過一定數(shù)目后性能反而隨著特征集數(shù)目的增加而降低，這是由于特征數(shù)目較少時SVM算法處于欠學(xué)習(xí)(underfitting)狀態(tài),而超過一定特征數(shù)目后處于過學(xué)習(xí)(overfitting)狀態(tài)。而且在不同特征集數(shù)目下，本文改進的算法分類性能一直優(yōu)于基于傳統(tǒng)的信息增益SVM算法，在特征集數(shù)目較少的情況下優(yōu)勢更為明顯。因為傳統(tǒng)的信息增益方法是根據(jù)特征對整個系統(tǒng)分類貢獻的大小選取的，沒有考慮特征詞在某個特定類別下的貢獻，選取特征集數(shù)目較少時，這些對全局分類貢獻不大，但對特定類別下分類貢獻較好的特征很難被選中。本文引入詞頻和詞語情感表現(xiàn)程度的改進的特征選擇方法綜合考慮了特征在全局和局部的貢獻大小，改善了整個算法分類的效果。

4 結(jié) 論

本文介紹了文本情感分類的主要方法，針對傳統(tǒng)的信息增益特性選擇法的局限性，提出引入詞頻和特征詞情感表現(xiàn)程度的信息增益特性選擇算法，提高了特征選擇的準確性，再通過選擇后的特征構(gòu)造文本向量，使用SVM算法進行訓(xùn)練。通過實驗對比，本算法比傳統(tǒng)的算法具有更好的分類效果。