亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        文本分類中基于CHI改進(jìn)的特征選擇方法*

        2019-01-15 05:02:20宋呈祥陳秀宏
        傳感器與微系統(tǒng) 2019年2期
        關(guān)鍵詞:特征詞特征選擇類別

        宋呈祥, 陳秀宏, 牛 強(qiáng)

        (江南大學(xué) 數(shù)字媒體學(xué)院,江蘇 無錫 214122)

        0 引 言

        合理的特征選擇,不僅可以降低文本特征維度,還能降低分類時間復(fù)雜度,提高分類效果[1]。近年來,越來越多的特征選擇算法涌現(xiàn),這些方法大多數(shù)都是基于頻率或者概率對特征詞進(jìn)行權(quán)重計(jì)算,并根據(jù)排名選取TOP-K特征詞??ǚ浇y(tǒng)計(jì)量(Chi-square statistics,CHI)是一種常用的特征選擇方法,具備更低的時間復(fù)雜度和應(yīng)用便利性[2],其統(tǒng)計(jì)特征詞在文本中是否出現(xiàn),但沒有考慮詞頻和特征詞分散度、集中度等信息。Galavotti L等人[3]通過研究特征詞與類別的正負(fù)相關(guān)性問題,引入一種新的相關(guān)系數(shù)方法對CHI模型進(jìn)行優(yōu)化,使得模型性能有了一定的提高。Jin C等人[4]使用樣本方差計(jì)算詞的分布信息,并考慮最大詞頻信息來改進(jìn)CHI方法,在三個數(shù)據(jù)集上均取得較好的結(jié)果。葉敏等人[5]通過在CHI特征選擇算法中引入分散度、頻度等特征因子,并考慮位置和詞長信息改進(jìn)詞頻-逆文本頻率(term frequency-inverse document frequency,TF-IDF)賦權(quán)公式,提出一種用來描述特征詞的權(quán)重分布情況的特征選擇算法,提高特征詞的類別鑒別能力。高寶林等人[6]通過引入類內(nèi)和類間分布因子,提出基于類別的CHI特征選擇方法,減少了低頻詞帶來的干擾,并且降低了特征詞在類間均勻分布時對分類帶來的負(fù)貢獻(xiàn)。袁磊[7]考慮不均衡文本長度的影響,對特征詞頻進(jìn)行歸一化處理,同時融合特征詞的類別信息,提出了一種改進(jìn)CHI特征選擇算法。但這些方法都沒有考慮分布在少數(shù)文本集合的高頻特征詞。

        由于傳統(tǒng)CHI方法是在全局范圍內(nèi)進(jìn)行特征選擇而未考慮特征詞頻信息,且沒有考慮特征詞的出現(xiàn)與類負(fù)相關(guān)的情況,故本文提出一種新的基于CHI特征選擇方法,考慮位置特性而改進(jìn)TF-IDF權(quán)重計(jì)算公式,并分別使用支持向量機(jī)(support vector machine,SVM)和樸素貝葉斯(naive Bayes)方法對文本分類。實(shí)驗(yàn)結(jié)果表明,該方法分類效果優(yōu)于傳統(tǒng)CHI方法和文獻(xiàn)[6]的方法。

        1 相關(guān)概念與方法

        1.1 CHI

        CHI是用來衡量特征詞tk和類別ci之間的相關(guān)聯(lián)程度。假設(shè)tk和ci之間符合具有一階的自由度χ2分布,則tk與ci的CHI值定義為[2]

        (1)

        (2)

        式中m為類別數(shù)目。

        1.2 特征權(quán)重計(jì)算

        特征選擇后需計(jì)算各特征詞的權(quán)重大小,以衡量某個特征詞在文本中區(qū)別能力的強(qiáng)弱。TF-IDF是一種經(jīng)典的特征權(quán)重計(jì)算方法,在信息檢索占有重要地位[8],其計(jì)算公式如下

        (3)

        式中nij為特征詞wi在第j篇文本中出現(xiàn)的頻度,|Dj|為第j篇文本的長度,n為文本集的文本總數(shù),df(wi)為文本集中出現(xiàn)特征詞wi的文本數(shù)目。如果一個詞在某篇文本出現(xiàn)的次數(shù)多且在其他文本中包括該詞的文本數(shù)少,那么其就越和該文本主題相關(guān),區(qū)分能力也就越強(qiáng)[9]。為了消除文本長度對TF-IDF值的影響,一般將其進(jìn)行歸一化處理。

        2 改進(jìn)的文本分類方法

        2.1 基于位置改進(jìn)的TF-IDF權(quán)重計(jì)算公式

        傳統(tǒng)的TF-IDF公式在計(jì)算特征詞權(quán)重時只考慮詞頻和包含它的文本數(shù)量,沒有考慮特征詞出現(xiàn)的位置,然而特征詞的位置信息從某種程度也反映了其重要性。如果特征詞出現(xiàn)在文本的標(biāo)題、摘要或者關(guān)鍵詞處,則其應(yīng)該獲得更高的權(quán)重。于是,改進(jìn)的頻度 (稱為位置頻度,pos_n)為

        pos_nij=nij×(1+log2(T(wi)+1))

        (4)

        式中T(wi)為特征詞wi出現(xiàn)在標(biāo)題、摘要或者關(guān)鍵詞處的總次數(shù)。當(dāng)T(wi)=0時,pos_nij=nij,該式值即為傳統(tǒng)的特征詞頻度。式(4)表明,如果一個特征詞在標(biāo)題、摘要、關(guān)鍵詞出現(xiàn)的次數(shù)越多,那么它的權(quán)值應(yīng)越高,也就越重要。將式(4)替換式(3)中的nij,便可得到包含特征詞位置的改進(jìn)TF-IDF權(quán)重公式位置 TF-IDF (position TF-IDF,PTF-IDF)

        (5)

        2.2 CHI的優(yōu)化

        針對傳統(tǒng)CHI全局特征選擇以及未考慮詞頻信息等問題,考慮特征分布系數(shù)(feature distribution coefficient,F(xiàn)DC)如下

        (6)

        (7)

        式中N(tk,ci)為類ci出現(xiàn)特征tk的文本數(shù),N(tk)為文本集中出現(xiàn)tk的文本總數(shù),m為類別數(shù)。于是,當(dāng)類ci中出現(xiàn)特征tk的文本數(shù)小于平均每個類中出現(xiàn)tk的文本數(shù)時,NCF值為負(fù)數(shù),CHI值就會是負(fù)數(shù),此時刪除與類ci負(fù)相關(guān)的特征即可避免負(fù)相關(guān)對分類的影響。最后給出改進(jìn)的特征選擇公式IMPCHI(improved CHI)為

        IMPCHI(tk,ci)=CHI(tk,ci)FDC(tk)NCF(tk,ci)

        (8)

        綜上所述,得到以下改進(jìn)的特征選擇和權(quán)重計(jì)算的文本分類算法流程:

        1)文本預(yù)處理。文本預(yù)處理包括詞性標(biāo)注、去除特殊符號以及停用詞;只保留名詞、動詞和形容詞等重要詞語,獲取文本詞語(標(biāo)題、關(guān)鍵詞、摘要、正文和類別)集合。

        2)特征選擇。使用本文算法計(jì)算訓(xùn)練集文本詞語集合和每個類別的NCF,CHI,FDC值,得到每個詞和對應(yīng)類別的IMPCHI值;對于重復(fù)的詞,取最大值作為該詞最終的IMPCHI值。將每個詞按IMPCHI降序排序,根據(jù)語料文本特征選取TOP-K作為整個語料集的特征詞集合。

        3)權(quán)重計(jì)算。對于每篇文本的詞語集合,若步驟(2)的特征詞集合含有該詞,使用考慮特征詞位置特性的PTF-IDF賦權(quán)公式計(jì)算該詞的權(quán)重,構(gòu)造文本特征向量。

        4)分類器訓(xùn)練。利用步驟(3)得到訓(xùn)練集文本特征向量,并訓(xùn)練分類器。

        5)測試分析。將測試集分別進(jìn)行步驟(1)、步驟(3)處理獲取測試集文本特征向量,并對步驟(4)得到的分類器測試評估,輸出實(shí)驗(yàn)結(jié)果。

        3 實(shí)驗(yàn)與結(jié)果分析

        實(shí)驗(yàn)數(shù)據(jù)利用網(wǎng)易新聞?wù)Z料庫和復(fù)旦大學(xué)中文語料庫,其中網(wǎng)易新聞?wù)Z料庫包括汽車、文化、經(jīng)濟(jì)、醫(yī)藥、軍事和體育六個大類,隨機(jī)選取每個類別的300篇文本,以2∶1的比例組成訓(xùn)練集和測試集;復(fù)旦大學(xué)中文語料庫,隨機(jī)選取的訓(xùn)練集和測試集文本數(shù)量如表1。

        表1 復(fù)旦大學(xué)中文語料庫訓(xùn)練集和測試集的選取情況

        實(shí)驗(yàn)中,使用中科院NLPIR[10]工具對語料進(jìn)行預(yù)處理。實(shí)驗(yàn)分別采用TF-IDF和PTF-IDF公式對特征選擇后的特征詞計(jì)算其權(quán)重;并利用臺灣大學(xué)的Chang Chih-chung教授等人[11]開發(fā)的線性核函數(shù)SVM分類器和Weka平臺Naive Bayes分類器[12]對語料文本進(jìn)行分類。

        實(shí)驗(yàn)性能評估使用宏F1值 (macro_F1)來度量所有類別的總體分類指標(biāo)

        (9)

        式中m為類別個數(shù);Pi,Ri分別為ci類的查準(zhǔn)率(Precision,P)和查全率(Recall,R);macro_P為宏查準(zhǔn)率;macro_R為宏查全率。

        實(shí)驗(yàn)中各個方法表示為:E1為傳統(tǒng)CHI特征選擇+TF-IDF權(quán)重計(jì)算的實(shí)驗(yàn);E2為傳統(tǒng)CHI 特征選擇+PTF-IDF權(quán)重計(jì)算的實(shí)驗(yàn);E3為文獻(xiàn)[6]提出的C-ICHI方法+TF-IDF權(quán)重計(jì)算的實(shí)驗(yàn);E4為IMPCHI特征選擇 +TF-IDF權(quán)重計(jì)算的實(shí)驗(yàn);E5為IMPCHI特征選擇 +PTF-IDF權(quán)重計(jì)算的實(shí)驗(yàn)。

        3.1 在不同語料庫上的SVM分類實(shí)驗(yàn)

        在不同語料庫的SVM分類對比實(shí)驗(yàn)結(jié)果如圖1。

        圖1 不同特征維度的SVM分類宏F1值

        可見,當(dāng)特征集合維度增大時,宏F1值也隨著變大。在網(wǎng)易新聞?wù)Z料庫中,特征維度1 500時,E5達(dá)到宏F1值最大值87.46 %,但E1此時宏F1已經(jīng)下降,E4,E5雖然宏F1值也在輕微下降,但E1,E3下降更加明顯,表明本文提出的IMPCHI方法更加穩(wěn)定,綜合性能更好。在復(fù)旦大學(xué)新聞?wù)Z料庫中,特征集合維度2 500時,達(dá)到86.27 %的宏F1值,E5比E1,E3分別高出4.31 %,1.47 %,但是當(dāng)特征集合維度繼續(xù)增大時,因?yàn)樘卣髟~集合含有很多冗余特征,致使宏F1值變小。E3引入類內(nèi)和類間分布因子等因素,雖然宏F1值比E1高,但低于E4,E5。因?yàn)樵谔卣鬟x擇時,對于位置特性、一些大量分布于少量文本集的特征等因素,對于提升CHI特征選擇的分類性能不可忽視。在計(jì)算特征權(quán)重時,本文提出的PTF-IDF權(quán)重公式,考慮特征詞位置權(quán)重,出現(xiàn)的位置越重要,得分越高,網(wǎng)易新聞?wù)Z料庫和復(fù)旦大學(xué)中文語料庫中E2比E1分別提升平均1.19 %,2.85 %的宏F1值。PTF-IDF單純考慮位置特性不能達(dá)到理想的分類效果,使E2結(jié)果不如E3和E4方法。

        在網(wǎng)易新聞?wù)Z料庫和復(fù)旦大學(xué)中文語料庫中,在宏F1值分別達(dá)到最大值時分析各個類別的宏F1值,如表2、表3。各個類別宏F1值差別明顯,原因是不同文本長度對于結(jié)果的影響,如果文本較短,含有很多空值,使向量稀疏,造成分類結(jié)果較低。若文本含有詞數(shù)較多,并含有一些類別區(qū)分度高頻詞語,使宏F1值較大,本文提出的方法能有效改善傳統(tǒng)CHI和TF-IDF的缺陷,過濾掉低頻詞語,改善不同特征詞的權(quán)重,使得分類效果更好,性能更穩(wěn)定。

        表2 網(wǎng)易新聞?wù)Z料庫中特征維度1500時的不同類別的SVM分類宏F1值 %

        表3 復(fù)旦大學(xué)中文語料庫中特征維度2500時不同類別的SVM分類宏F1值 %

        3.2 在復(fù)旦語料庫上的Naive Bayes分類實(shí)驗(yàn)

        為了驗(yàn)證本文方法在不同分類器的可行性,Naive Bayes分類對比實(shí)驗(yàn)結(jié)果如圖2所示。

        圖2 復(fù)旦中文語料庫中不同特征維度的Naive Bayes分類宏F1值

        由圖2可得,隨著特征維度增大,宏F1值變化比較平緩;在特征維度3 000維時,E5達(dá)到86.98 %宏F1值,而E3在2 500維達(dá)到最大值84.79 %。同時,還驗(yàn)證了本文提出的方法在不同分類器上都是可行的。

        4 結(jié)束語

        特征選擇在文本分類過程中具有重要作用。本文提出了一種改進(jìn)的CHI統(tǒng)計(jì)特征選擇方法,同時提出修正因子解決特征詞與類別負(fù)相關(guān)的困擾,并將改進(jìn)后TF-IDF的權(quán)重計(jì)算方法用于特征詞的權(quán)值計(jì)算,使其分類效果有了明顯提高。在后續(xù)工作中,將考慮特征詞的語義關(guān)系,進(jìn)一步進(jìn)行特征降維,在減少算法時間復(fù)雜度的同時提高分類效果。

        猜你喜歡
        特征詞特征選擇類別
        基于改進(jìn)TFIDF算法的郵件分類技術(shù)
        產(chǎn)品評論文本中特征詞提取及其關(guān)聯(lián)模型構(gòu)建與應(yīng)用
        Kmeans 應(yīng)用與特征選擇
        電子制作(2017年23期)2017-02-02 07:17:06
        聯(lián)合互信息水下目標(biāo)特征選擇算法
        服務(wù)類別
        新校長(2016年8期)2016-01-10 06:43:59
        面向文本分類的特征詞選取方法研究與改進(jìn)
        論類別股東會
        商事法論集(2014年1期)2014-06-27 01:20:42
        中醫(yī)類別全科醫(yī)師培養(yǎng)模式的探討
        基于特征選擇和RRVPMCD的滾動軸承故障診斷方法
        基于二元搭配詞的微博情感特征選擇
        中文www新版资源在线| 日本高清一区二区在线播放| 亚洲永久国产中文字幕| 亚洲乱码日产精品一二三| 精品国产制服丝袜高跟| 亚洲AV无码乱码精品国产草莓| 黑人免费一区二区三区| 亚洲一区二区三区国产| 国产日产欧产精品精品| 国产精品无码无片在线观看 | 无码国产精品一区二区免费模式| 国产欧美日韩视频一区二区三区 | 99久久久无码国产精品试看| 91精品91| 亚洲av永久一区二区三区| 精品乱人伦一区二区三区| 国产免费又色又爽又黄软件| 亚洲AV无码久久久久调教| 国产在线观看午夜视频| 熟妇人妻久久中文字幕| 中文字幕在线免费| 中文字幕一区二区va| 久久久精品国产亚洲av网深田| 337p西西人体大胆瓣开下部| 亚洲午夜无码久久yy6080| 中文字幕乱码在线婷婷| 国产高清在线观看av片| 理论片87福利理论电影| 91尤物在线看| 亚洲自拍偷拍色图综合| 黑人巨大精品欧美一区二区| 亚洲熟妇AV一区二区三区宅男| 男女啪啪免费视频网址| 制服丝袜一区二区三区| 越南女子杂交内射bbwbbw| 亚洲AV永久无码精品表情包| 亚洲精品在线视频一区二区| 亚洲av高清在线一区二区三区| 麻豆五月婷婷| 美女和男人一起插插插| 99久久超碰中文字幕伊人|