亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于改進信息增益特征選擇法的SVM中文情感分類算法

        2019-01-24 03:10:08王根生黃學(xué)堅吳小芳胡向亮
        關(guān)鍵詞:詞頻特征選擇分類器

        王根生, 黃學(xué)堅, 吳小芳, 胡向亮

        (江西財經(jīng)大學(xué) 計算機實踐教學(xué)中心,南昌 330013)

        隨著開放性、交互性互聯(lián)網(wǎng)的發(fā)展,網(wǎng)絡(luò)成為人們發(fā)表觀點、信息、情感的新平臺[1]。如何對這些傳播的信息進行情感分析是網(wǎng)絡(luò)輿情監(jiān)測的一個重要部分。國內(nèi)外的學(xué)者也已經(jīng)開展了相關(guān)研究,國外學(xué)者主要專注于英文文本情感分類的研究,而由于中文表達的多樣性,對中文情感分類的研究更具復(fù)雜性[2]。

        目前文本情感分類算法主要分為基于語義理解和基于機器學(xué)習(xí)2類[3-4]?;跈C器學(xué)習(xí)的文本情感分類思想是:通過事先標注好了情感標簽的文本作為訓(xùn)練集,選擇相關(guān)的機器學(xué)習(xí)算法進行訓(xùn)練,得到分類器,最后使用這個分類器對后續(xù)的文本進行情感分類[5]。Bo Pang等使用最大熵(Maximum Entropy)、支持向量機(SVM)、樸素貝葉斯(Native Bayes)等不同機器學(xué)習(xí)算法對文本的情感傾向性進行分類實驗,發(fā)現(xiàn)SVM算法的效果最好[6]。

        基于機器學(xué)習(xí)的文本情感分類算法的第一步是對文本進行分詞處理,然后進行特征詞篩選。如果直接使用分詞后的詞組作為特征空間會產(chǎn)生高維的數(shù)據(jù),在高維數(shù)據(jù)空間進行訓(xùn)練會導(dǎo)致計算時間過長且得到的分類器效果不佳等問題[7-8]。針對此問題,唐慧豐等人[9]提出了基于信息增益特征選擇的機器學(xué)習(xí)文本情感分類算法。本文在該方法之上引入詞頻和特征詞情感表現(xiàn)程度的改進策略,對文本特征降維處理,采用SVM算法進行訓(xùn)練,實驗結(jié)果顯示該算法具有更好的分類效果。

        1 相關(guān)理論

        使用SVM算法進行文本情感分類時,主要涉及文本的特征表示、文本特征選擇、訓(xùn)練器構(gòu)建等[10]。

        算法Ⅰ:基于SVM算法的文本情感分類算法

        Step1:Select training set;//來源于事先標注好了情感標簽的文本。

        Step2:Preprocessing Text;//分詞處理,排除停用詞。

        Step3:Text representation;//根據(jù)預(yù)處理后的結(jié)果進行特征選擇與提取,構(gòu)造特征表示。

        Step4:Training classifier;//對訓(xùn)練集中的每個文本進行統(tǒng)一表示,采用SVM算法進行訓(xùn)練,得出分類器。

        Step5:Test classifier;//選擇測試集測試分類器的準確率等相關(guān)指標。

        1.1 文本特征表示

        對文本進行特征表示是機器學(xué)習(xí)中一個重要的步驟,一個好的特征表示不僅反映了文本的基本內(nèi)容,并且對不同的文本特征也能很好地區(qū)分[11]。常見的表示模型有布爾模型(Boolean Model)、向量空間模型(VSM)、概率模型(Probabilistic Model)和潛在語義索引模型(LSI)等[12]。向量空間模型(VSM)是目前文本特征表示中運用最廣泛的模型[13],它包含3個基本概念:①文本(document),由一定數(shù)量的特征詞組成。②特征項(feature term),文本特征詞組成了特征項原始空間,向量空間模型使用這些特征項表示為di(ti1,ti2, …,tin),di表示第i個文本,tik表示第i個文本的第k個特征項。③特征項權(quán)重(term weight),在特征向量中,對每個特征項都要進行相應(yīng)的權(quán)重計算,權(quán)重的大小作為區(qū)分文本類別的貢獻程度[14]。文本di表示為di(ti1=wi1,ti2=wi2,…,tin=win),簡記為di(wi1,wi2,…,win),其中wik就是第i個文檔中第k個特征項的權(quán)重。權(quán)重計算目前用的較多的是TF-IDF算法[15]。

        1.2 文本特征選擇

        文本經(jīng)過分詞和去停用詞后,會產(chǎn)生一個較大的原始特征空間。特征空間中每個特征對分類貢獻的大小不同,選擇貢獻大的特征詞,降低特征空間復(fù)雜度,以提高機器學(xué)習(xí)算法的效率[16-17]。目前,特征選取的方式有3種:①采用變換或映射等方法將最原始的特征進行轉(zhuǎn)換,從而減少特征的數(shù)目;②依據(jù)相關(guān)領(lǐng)域?qū)<业南闰炛R選??;③使用數(shù)學(xué)方法計算每個特征對分類判別貢獻的大小,從而進行特征選擇。

        使用數(shù)學(xué)方法進行特性選取是比較精確的,因為人為干擾因素較少,在選擇準則上都是基于特征詞的頻率或出現(xiàn)特征詞的文檔頻率,常用的方法有:文檔頻率(document frequency)、互信息(mutual information)、期望交叉熵(expected cross entropy)、χ2統(tǒng)計法和信息增益(information gain)等[18]。信息增益方法在文本情感分類中表現(xiàn)得比較優(yōu)秀,其計算方法為

        (1)

        1.3 SVM分類器

        支持向量機(SVM)算法通過核函數(shù)把低維特征空間不可線性分割問題轉(zhuǎn)換到高維特征空間,使得問題求解在高維特征空間線性可分[19]。其以良好的性能在模式識別、圖像分析、自然語言處理等相關(guān)領(lǐng)域得到廣泛運用。

        SVM的核函數(shù)有多種類型選擇,常用的核函數(shù)有4種:①線性核函數(shù);②多項式核函數(shù);③徑向核函數(shù);④sigmoid核函數(shù)。

        2 基于改進信息增益特征選擇法的SVM算法

        傳統(tǒng)的信息增益方法在計算過程中只考慮了特征出現(xiàn)與不出現(xiàn)2種情況和特征對全體樣本的貢獻,而沒有考慮到單個局部樣本,所以該算法在全局效果較好,而在某些局部樣本空間的表現(xiàn)不佳。

        2.1 融合詞頻與情感程度的信息增益特征選擇方法

        針對傳統(tǒng)信息增益方法的局限性,本文提出融合詞頻和特征詞情感程度的改進思路。

        a.引入詞頻

        詞頻指詞語在文本中出現(xiàn)的次數(shù),頻率越高的詞語越能代表文本的特性。設(shè)文本的特征集合為T={t1,t2,t3,…,tn},訓(xùn)練集文本di1,di2, …,diNi屬于類別Ci(1≤i≤2),其中Ci類的文檔總數(shù)為Ni,tfik(tj)代表特征tj(1≤j≤n)在文本dik(1≤k≤Ni)中出現(xiàn)的頻率。再對每個詞頻進行歸一化處理,特征項tj在類別Ci中出現(xiàn)的頻率表示為tfik′(tj),令A(yù)j=tfik′(tj),計算公式為

        (2)

        b.引入詞語情感表現(xiàn)程度

        本文使用知網(wǎng)語義相似度公式進行詞語情感表現(xiàn)程度計算,將語義相似度融入到特征選擇過程中。為了計算方便,對計算公式進行歸一化處理

        (3)

        式中:Bi為特征i的情感表現(xiàn)程度;O(wi)為特征i的情感權(quán)值;n為所有特征的個數(shù)。其中O(wi)參考知網(wǎng)語義相似度計算公式

        (4)

        式中:POS代表褒義詞集合;NEG代表貶義詞集合;m為褒義詞集合的大??;n為貶義詞集合大小;Sim(w,POSi)為詞語w與POS中第i個詞語的相似度;Sim(w,NEGj)為詞語w與NEG中第j個詞語的相似度。

        c.改進的信息增益

        綜上所述,根據(jù)詞頻公式(2)和詞語情感程度公式(3),對信息增益計算公式(1)重新定義,計算式為

        (5)

        2.2 改進信息增益特征的SVM算法

        使用改進后的信息增益計算公式(5)對算法Ⅰ中Step3進行優(yōu)化,并且為了降低算法的復(fù)雜度,進行了2次特征選擇,第一次使用傳統(tǒng)的信息增益方法進行粗略降維,再使用本文改進的信息增益方法進行第二次降維。

        算法Ⅱ:基于改進信息增益特征SVM算法的文本情感分類算法

        Step1: Select training set;//對訓(xùn)練文本進行情感標注。

        Step2: Preprocessing Text;//對文本進行分詞和去除停用詞處理,構(gòu)成原始特征集合。

        Step3:First feature reduction;//使用傳統(tǒng)的信息增益方法對原始特征集合進行特征選擇,構(gòu)成第一次降維后的特征集合。

        Step4:Secondary feature reduction;//通過詞頻與情感程度融合的信息增益方法對Step3篩選后的結(jié)果再降維,構(gòu)成最終的特征子集合。

        Step5: Training classifier;//使用最終的特征子集合構(gòu)成文本特征表示,作為SVM算法的輸入數(shù)據(jù)進行訓(xùn)練。

        Step6: Test classifier。//對最后得出的分類器進行測試。

        3 實驗與分析

        本實驗主要比較不同的特征選擇方法下SVM算法在文本情感分類中的表現(xiàn)。訓(xùn)練樣本來源于各大網(wǎng)站的評論性文章,涉及財經(jīng)、房地產(chǎn)、汽車、娛樂、體育等領(lǐng)域,共2 000篇文章,并對文章表達的褒貶情感進行人為標注。在實驗過程中,分別使用文檔頻率(DF)、χ2統(tǒng)計法、信息增益(IG)以及本文改進的信息增益法進行特征選擇,使用歸一化后的向量空間模型(VSM)作為文本特征表示,借助SVM的開源庫LIBSVM和sigmoid核函數(shù)進行SVM算法試驗,使用交叉驗證的方式進行驗證,使用查全率(recall)與查準率(precision)對算法進行衡量。實驗對訓(xùn)練樣本進行了3次隨機選擇訓(xùn)練,具體結(jié)果如表1所示。

        從實驗結(jié)果數(shù)據(jù)能夠看出,基于本文改進的信息增益特征選擇的SVM算法在查準率、查全率上都有提高,因為它在特征選擇時從全局和局部2個方面進行了衡量。在得到基于改進信息增益特性選擇的SVM分類器后,再重新選擇測試數(shù)據(jù)集進行測試,測試數(shù)據(jù)集依然來自財經(jīng)、房地產(chǎn)、汽車、娛樂、體育5個領(lǐng)域,每個領(lǐng)域各300篇已標注了褒貶情感類別的文本,測試結(jié)果如表2所示。

        表1 不同的特征選擇方法下SVM文本情感分類算法性能比較Table 1 Algorithm performance comparison of SVM text sentiment classification under different feature selection

        表2 分類器在不同領(lǐng)域的性能表現(xiàn)Table 2 Performance of classifier in different fields

        從測試結(jié)果看,娛樂領(lǐng)域的評論性文章的查全率和查準率的結(jié)果值最高,因為該領(lǐng)域的評論性文章的褒貶情感最為明顯;其他幾個領(lǐng)域雖然比訓(xùn)練時交叉驗證的結(jié)果低一點,但分類器依然保持了較好的泛化能力。為了進一步證明該算法的性能,再選取不同數(shù)目特征集的情況下對傳統(tǒng)信息增益特征選擇的SVM算法和基于本文改進的信息增益特征選擇的SVM算法進行對比實驗,特征集的大小從100遞增到1 000,每次遞增100,使用F-measure來衡量算法的性能。F-measure是查全率與查準率加權(quán)平均值,也同樣進行3組實驗,以3組結(jié)果的平均F-measure來衡量性能(圖1)。

        圖1 不同特征集個數(shù)下2種算法性能比較Fig.1 Performance comparison of two algorithms with different feature numbers

        由圖1可以看出,開始階段隨著特征集數(shù)目的增加2種算法的性能都有提高,但超過一定數(shù)目后性能反而隨著特征集數(shù)目的增加而降低,這是由于特征數(shù)目較少時SVM算法處于欠學(xué)習(xí)(underfitting)狀態(tài),而超過一定特征數(shù)目后處于過學(xué)習(xí)(overfitting)狀態(tài)。而且在不同特征集數(shù)目下,本文改進的算法分類性能一直優(yōu)于基于傳統(tǒng)的信息增益SVM算法,在特征集數(shù)目較少的情況下優(yōu)勢更為明顯。因為傳統(tǒng)的信息增益方法是根據(jù)特征對整個系統(tǒng)分類貢獻的大小選取的,沒有考慮特征詞在某個特定類別下的貢獻,選取特征集數(shù)目較少時,這些對全局分類貢獻不大,但對特定類別下分類貢獻較好的特征很難被選中。本文引入詞頻和詞語情感表現(xiàn)程度的改進的特征選擇方法綜合考慮了特征在全局和局部的貢獻大小,改善了整個算法分類的效果。

        4 結(jié) 論

        本文介紹了文本情感分類的主要方法,針對傳統(tǒng)的信息增益特性選擇法的局限性,提出引入詞頻和特征詞情感表現(xiàn)程度的信息增益特性選擇算法,提高了特征選擇的準確性,再通過選擇后的特征構(gòu)造文本向量,使用SVM算法進行訓(xùn)練。通過實驗對比,本算法比傳統(tǒng)的算法具有更好的分類效果。

        猜你喜歡
        詞頻特征選擇分類器
        基于詞頻分析法的社區(qū)公園歸屬感營建要素研究
        園林科技(2021年3期)2022-01-19 03:17:48
        BP-GA光照分類器在車道線識別中的應(yīng)用
        電子測試(2018年1期)2018-04-18 11:52:35
        Kmeans 應(yīng)用與特征選擇
        電子制作(2017年23期)2017-02-02 07:17:06
        加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
        結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機的TSK分類器
        聯(lián)合互信息水下目標特征選擇算法
        詞頻,一部隱秘的歷史
        云存儲中支持詞頻和用戶喜好的密文模糊檢索
        基于LLE降維和BP_Adaboost分類器的GIS局部放電模式識別
        以關(guān)鍵詞詞頻法透視《大學(xué)圖書館學(xué)報》學(xué)術(shù)研究特色
        圖書館論壇(2014年8期)2014-03-11 18:47:59
        亚洲欧美在线观看一区二区| 精品人无码一区二区三区| 国产做国产爱免费视频| 精品国产18久久久久久| 97久久久久国产精品嫩草影院| 少妇人妻在线伊人春色| 一边摸一边做爽的视频17国产| 国产97色在线 | 日韩| 无码av在线a∨天堂毛片| av天堂在线免费播放| 黑人免费一区二区三区| 日韩女优图播一区二区| 国产激情无码一区二区三区| 中文成人无字幕乱码精品区| 亚洲国产成人无码影院| 小草手机视频在线观看| 人妻少妇中文字幕在线| 大肉大捧一进一出视频出来呀| 国产哟交泬泬视频在线播放| 日本一道高清在线一区二区| 日本三级吃奶头添泬| 国产精品久久久| 亚洲中文无码久久精品1| 国产中文字幕亚洲综合| 日本在线观看一区二区三| 国产精品免费观看久久 | 午夜福利试看120秒体验区| 四虎精品影视| 日韩精品免费观看在线| 色婷婷一区二区三区四区成人网| 伊人蕉久中文字幕无码专区| 国产做床爱无遮挡免费视频 | 97丨九色丨国产人妻熟女| 中文字幕一区二区人妻| 亚洲欧美日韩中文综合在线不卡| 高清不卡日本v二区在线| 在厨房拨开内裤进入毛片| 洗澡被公强奷30分钟视频| 国产啪精品视频网站免| 不卡一本av天堂专区| 人人爽人人澡人人人妻|