亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        改進的文本特征選取算法研究

        2019-05-17 02:52:06朱世玲
        計算機技術(shù)與發(fā)展 2019年5期
        關(guān)鍵詞:特征詞互信息類別

        朱世玲,鄭 彥

        (南京郵電大學 計算機軟件學院,江蘇 南京 210023)

        0 引 言

        隨著計算機信息技術(shù)的快速發(fā)展,網(wǎng)絡(luò)上各種各樣的文本數(shù)據(jù)極速增長。對這些文本數(shù)據(jù)的快速處理成為了重要的研究課題,文本分類也因此得到了快速發(fā)展。文本分類是在給定一些特定的文本類別下,根據(jù)文本的內(nèi)容將文本自動劃分到一個或多個類別中[1-2]。在文本分類時,通常需要將文本信息用向量空間模型或詞頻矩陣來表示[3]。如果直接用文本向量來表示,則向量空間維數(shù)會很大,而且會包含很多無用的屬性,所以需要對文本數(shù)據(jù)進行預處理,去除無關(guān)屬性,降低文本向量空間的維數(shù)以及排除一些無關(guān)信息對分類的干擾。預處理通常包括去除停用詞、特征選取等方法[4],而特征選取是文本分類預處理中的重要一步,也是一直以來很多學者研究的重點問題[5-7]。目前,文本分類中常用的特征選取算法有文檔頻率(document frequency,DF)、卡方統(tǒng)計量(CHI-square statistic,CHI)、信息增益(information gain,IG)、互信息(mutual information,MI)[8]等。文檔頻率就是設(shè)置一個閾值,只要在訓練集中包含該詞的文本數(shù)大于這個閾值就選取作為特征詞。在文本分類特征選取中,互信息衡量的是一個特征和類別之間的相關(guān)程度,互信息值越大,所包含的類別信息就越多,對分類影響就越大。近年來很多學者都對互信息進行了改進[9-12]。在此基礎(chǔ)上,文中分別討論了文檔頻率和互信息在進行特征選取時的缺點,提出了一種混合文檔頻率和互信息的改進算法,并通過實驗對其有效性進行驗證。

        1 傳統(tǒng)的特征選取算法

        1.1 傳統(tǒng)的文檔頻率算法

        文檔頻率算法是文本分類中最簡單、復雜度最低的特征選取算法。它是指在訓練集中包含某個詞條的文本數(shù)。將得到的每個詞條的DF值和預先設(shè)定的閾值進行比較,如果大于這個閾值,就表示這個詞條屬于高頻詞對文本分類有價值,就保留作為特征詞,如果小于這個閾值,就認為該詞條屬于低頻詞對分類沒有貢獻并刪除。這種方法簡單,計算快速,能夠勝任大規(guī)模的文本分類任務。

        1.2 傳統(tǒng)的互信息算法

        在文本分類特征選取中,互信息衡量的是特征和類別之間的統(tǒng)計關(guān)聯(lián)程度。它的理論基礎(chǔ)是如果類別c中包含特征t的文檔數(shù)占類別文檔數(shù)的比重高,而包含特征t占文檔集總數(shù)的比重低,則表明特征t與類別具有強相關(guān)性,不是相互獨立關(guān)系,其互信息值大[13]。特征與類別之間的互信息計算公式如下:

        (1)

        其中,P(t,c)表示在類別c中文本包含特征t的概率;P(c)表示屬于類別c的文本占訓練集文本的概率;P(t)表示在訓練集中文本包含特征t的概率。當特征t和類別c相互獨立時,P(t|c)=P(t)P(c)的值就等于0。P(t|c)值越大,P(t)值越小,互信息值就越大,特征與類別之間的關(guān)聯(lián)性就越強,特征就具有更多的分類信息。

        特征t對于整個類別的互信息主要有兩種計算方式,分別是互信息的最大值和各類互信息的平均值。兩種計算公式如下:

        采用平均值:

        (2)

        采用最大值:

        MI(t)=maxMI(t,ci)

        (3)

        2 改進的特征選取算法

        2.1 傳統(tǒng)文檔頻率方法的不足與改進

        文檔頻率算法雖然簡單直白,復雜度低,但是缺點也很明顯,即沒有確切的理論基礎(chǔ),通常被認為是一種經(jīng)驗方法。而且考慮特征詞和類別之間的關(guān)系,有的詞條小于預先設(shè)定的閾值,被認為低頻詞而刪除,但卻在某個類別中集中出現(xiàn),能夠很好地反映該類別特征。有的詞條雖然大于預先設(shè)定的閾值,但卻在每個類別中均勻出現(xiàn),這樣的特征詞對分類就沒有價值[14]?;谶@個缺點,文中為特征詞的文檔頻率加入類別間的方差權(quán)重,選擇詞條在每個類別中文檔頻率方差比較大的詞條。這樣可以降低在每個類別中均等出現(xiàn)詞的作用。

        改進后的文檔頻率公式如下:

        DF(t)=β×logDF

        (4)

        其中,DF(t)表示改進后的特征t的文檔頻率;β表示特征t在各個類別中的文檔頻率的方差權(quán)重;DF表示特征t的文檔頻率。

        β的計算公式為:

        (5)

        其中,m表示類別總數(shù);dfj(t)表示特征t在類別j中的文檔數(shù)。

        2.2 傳統(tǒng)互信息方法的不足與改進

        根據(jù)式1可知,當兩個特征的P(t|c)相同時,P(t)越小的特征的互信息值反而越大,所以會偏向選擇低頻詞[15]。而且對于特征t和類別c,當互信息值大于零時,P(t|c)越大或P(t)越小時,互信息的值就越大,絕對值越大;當互信息值小于零時,P(t|c)越大或P(t)越小時,互信息的值越小,絕對值反而越大。換句話說,當P(t|c)和P(t)越接近時,特征t和類別c的相關(guān)聯(lián)度就越小,互信息的絕對值越小,反之,互信息的絕對值就越大。所以,互信息值的絕對值越大的特征越能反映特征和類別之間的關(guān)聯(lián)程度。改進后的互信息公式如下:

        (6)

        其中互信息的值采用平均值。

        2.3 改進的混合算法

        文中提出了混合DF和MI的特征選取算法,并對DF和MI各自的不足進行了分析和改進。針對DF方法偏向選擇高頻詞和MI方法偏向選擇低頻詞,考慮將兩種方法進行混合來削弱它們的不足,使在特征選取時選擇的特征詞既不偏向低頻詞也不偏向高頻詞,也避免選取在類別中均等出現(xiàn)的特征詞?;旌螪F和MI的特征選取公式如下:

        (7)

        3 實 驗

        3.1 數(shù)據(jù)集及開發(fā)工具

        實驗數(shù)據(jù)集采用搜狗數(shù)據(jù)集,總共9個類別,分別為財經(jīng)、IT、健康、體育、旅游、教育、招聘、文化、軍事。每個類別300篇文章,共2 700篇文章,其中每個類別的200篇文章用于訓練,100篇文章用于測試分類結(jié)果。為了驗證該算法的有效性,將傳統(tǒng)的DF方法和傳統(tǒng)的MI方法與提出的混合DFMI方法進行比較。分類器選擇實現(xiàn)簡單,分類效果良好的樸素貝葉斯,用Java語言實現(xiàn),開發(fā)工具為Eclipse。

        3.2 分類效果評估

        一篇文本的分類情況可以分為四種:真正例(true position)、假正例(false position)、真反例(true negative)、假反例(false negative),如表1所示。

        表1 文本分類結(jié)果

        評價算法好壞的度量指標采用精度(precision,又稱查準率)、召回率(recall,又稱查全率)、F1度量。

        精度(P)可以看作精確性的度量,即標記為正類的元組實際為正類所占的百分比,公式如下:

        (8)

        召回率(R)是完全性度量,即正元組標記為正的百分比,公式如下:

        (9)

        F1度量是把精度和召回率組合到一起的度量方法,公式如下:

        (10)

        3.3 實驗結(jié)果及分析

        在Eclipse上用Java語言實現(xiàn)樸素貝葉斯分類,來驗證不同特征選取方法對分類結(jié)果的影響。先利用中科大ICTCLAS分詞系統(tǒng)對所有文本進行分詞,根據(jù)分詞后的結(jié)果,再選取名詞性和既有名詞性和動詞性的詞語,得到預處理后的特征集合。使用不同特征選取方法進行特征選取,特征詞都是1 000個。將所有文本向量化,最后利用樸素貝葉斯分類器對文本進行分類,實驗結(jié)果如表2所示。

        表2 DF、MI、DFMI方法在精度、召回率和F1上的比較 %

        從表中可以看出,改進的混合DFMI方法明顯比MI方法好很多,無論在精度、召回率還是F1度量上都明顯提高,和DF相比也均有提升,從而驗證了混合DFMI方法的有效性。

        4 結(jié)束語

        MI方法簡單,應用廣泛,但傾向選擇低頻詞,忽略了互信息絕對值較大的特征也具有較好的類別區(qū)別能力,因此通過對互信息取絕對值后再取平均值排序進行特征選擇。DF方法雖然簡單直白,但有的特征雖然出現(xiàn)的頻率很好,但在類別中均等出現(xiàn)這樣的特征也沒有區(qū)別能力,所以考慮加入文檔頻率類別方差?;趦煞N改進后的方法,提出一種混合的DFMI特征選取算法。實驗結(jié)果表明,該算法在精度、召回率和F1度量上均有所提高。

        現(xiàn)有的特征選取算法都是從不同的角度進行特征選取,都有各自的優(yōu)缺點,因此將不同的特征選取算法進行混合,使之從多個角度進行考慮,兼顧多個方面,是一個值得研究的方向。

        猜你喜歡
        特征詞互信息類別
        基于改進TFIDF算法的郵件分類技術(shù)
        產(chǎn)品評論文本中特征詞提取及其關(guān)聯(lián)模型構(gòu)建與應用
        基于互信息的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學習
        聯(lián)合互信息水下目標特征選擇算法
        服務類別
        新校長(2016年8期)2016-01-10 06:43:59
        面向文本分類的特征詞選取方法研究與改進
        改進的互信息最小化非線性盲源分離算法
        電測與儀表(2015年9期)2015-04-09 11:59:22
        基于增量式互信息的圖像快速匹配方法
        論類別股東會
        商事法論集(2014年1期)2014-06-27 01:20:42
        中醫(yī)類別全科醫(yī)師培養(yǎng)模式的探討
        国产人成无码视频在线1000| 久久精品99久久香蕉国产| 香蕉久久福利院| 免费一级肉体全黄毛片| 日本一区二区三区的免费视频观看 | 男人扒开女人下面狂躁小视频 | 论理视频二区三区四区在线观看| 五月综合激情婷婷六月| 狠狠色综合网站久久久久久久| 99精品欧美一区二区三区美图| 琪琪av一区二区三区| 97成人精品国语自产拍| 久久精品免费观看国产| 久久88综合| 精品av一区二区在线| 香蕉久久一区二区不卡无毒影院| 欧美黑吊大战白妞| 久久久久亚洲精品天堂| 伊人狼人激情综合影院| 亚洲av不卡无码国产| 亚洲欧美另类激情综合区| 国产一起色一起爱| 精品少妇人妻av一区二区蜜桃| 久久只精品99品免费久23| 色窝窝在线无码中文| 青青草视频原手机在线观看| 国产一级二级三级在线观看av| 在线 | 一区二区三区四区| 国产成人精品三级麻豆 | 性色av无码久久一区二区三区| 久久久久久国产精品免费网站| 蜜桃av在线播放视频| 77777_亚洲午夜久久多人| 国产精品va在线播放我和闺蜜| 成激情人妻视频| 亚洲国产中文字幕无线乱码| 欧美性受xxxx白人性爽| 免费看国产精品久久久久| 中文字幕一区二区人妻性色av| 久久午夜无码鲁丝片午夜精品| 国产在线一区观看|