亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        改進(jìn)的文本特征選取算法研究

        2019-05-17 02:52:06朱世玲
        關(guān)鍵詞:分類特征文本

        朱世玲,鄭 彥

        (南京郵電大學(xué) 計算機(jī)軟件學(xué)院,江蘇 南京 210023)

        0 引 言

        隨著計算機(jī)信息技術(shù)的快速發(fā)展,網(wǎng)絡(luò)上各種各樣的文本數(shù)據(jù)極速增長。對這些文本數(shù)據(jù)的快速處理成為了重要的研究課題,文本分類也因此得到了快速發(fā)展。文本分類是在給定一些特定的文本類別下,根據(jù)文本的內(nèi)容將文本自動劃分到一個或多個類別中[1-2]。在文本分類時,通常需要將文本信息用向量空間模型或詞頻矩陣來表示[3]。如果直接用文本向量來表示,則向量空間維數(shù)會很大,而且會包含很多無用的屬性,所以需要對文本數(shù)據(jù)進(jìn)行預(yù)處理,去除無關(guān)屬性,降低文本向量空間的維數(shù)以及排除一些無關(guān)信息對分類的干擾。預(yù)處理通常包括去除停用詞、特征選取等方法[4],而特征選取是文本分類預(yù)處理中的重要一步,也是一直以來很多學(xué)者研究的重點(diǎn)問題[5-7]。目前,文本分類中常用的特征選取算法有文檔頻率(document frequency,DF)、卡方統(tǒng)計量(CHI-square statistic,CHI)、信息增益(information gain,IG)、互信息(mutual information,MI)[8]等。文檔頻率就是設(shè)置一個閾值,只要在訓(xùn)練集中包含該詞的文本數(shù)大于這個閾值就選取作為特征詞。在文本分類特征選取中,互信息衡量的是一個特征和類別之間的相關(guān)程度,互信息值越大,所包含的類別信息就越多,對分類影響就越大。近年來很多學(xué)者都對互信息進(jìn)行了改進(jìn)[9-12]。在此基礎(chǔ)上,文中分別討論了文檔頻率和互信息在進(jìn)行特征選取時的缺點(diǎn),提出了一種混合文檔頻率和互信息的改進(jìn)算法,并通過實驗對其有效性進(jìn)行驗證。

        1 傳統(tǒng)的特征選取算法

        1.1 傳統(tǒng)的文檔頻率算法

        文檔頻率算法是文本分類中最簡單、復(fù)雜度最低的特征選取算法。它是指在訓(xùn)練集中包含某個詞條的文本數(shù)。將得到的每個詞條的DF值和預(yù)先設(shè)定的閾值進(jìn)行比較,如果大于這個閾值,就表示這個詞條屬于高頻詞對文本分類有價值,就保留作為特征詞,如果小于這個閾值,就認(rèn)為該詞條屬于低頻詞對分類沒有貢獻(xiàn)并刪除。這種方法簡單,計算快速,能夠勝任大規(guī)模的文本分類任務(wù)。

        1.2 傳統(tǒng)的互信息算法

        在文本分類特征選取中,互信息衡量的是特征和類別之間的統(tǒng)計關(guān)聯(lián)程度。它的理論基礎(chǔ)是如果類別c中包含特征t的文檔數(shù)占類別文檔數(shù)的比重高,而包含特征t占文檔集總數(shù)的比重低,則表明特征t與類別具有強(qiáng)相關(guān)性,不是相互獨(dú)立關(guān)系,其互信息值大[13]。特征與類別之間的互信息計算公式如下:

        (1)

        其中,P(t,c)表示在類別c中文本包含特征t的概率;P(c)表示屬于類別c的文本占訓(xùn)練集文本的概率;P(t)表示在訓(xùn)練集中文本包含特征t的概率。當(dāng)特征t和類別c相互獨(dú)立時,P(t|c)=P(t)P(c)的值就等于0。P(t|c)值越大,P(t)值越小,互信息值就越大,特征與類別之間的關(guān)聯(lián)性就越強(qiáng),特征就具有更多的分類信息。

        特征t對于整個類別的互信息主要有兩種計算方式,分別是互信息的最大值和各類互信息的平均值。兩種計算公式如下:

        采用平均值:

        (2)

        采用最大值:

        MI(t)=maxMI(t,ci)

        (3)

        2 改進(jìn)的特征選取算法

        2.1 傳統(tǒng)文檔頻率方法的不足與改進(jìn)

        文檔頻率算法雖然簡單直白,復(fù)雜度低,但是缺點(diǎn)也很明顯,即沒有確切的理論基礎(chǔ),通常被認(rèn)為是一種經(jīng)驗方法。而且考慮特征詞和類別之間的關(guān)系,有的詞條小于預(yù)先設(shè)定的閾值,被認(rèn)為低頻詞而刪除,但卻在某個類別中集中出現(xiàn),能夠很好地反映該類別特征。有的詞條雖然大于預(yù)先設(shè)定的閾值,但卻在每個類別中均勻出現(xiàn),這樣的特征詞對分類就沒有價值[14]?;谶@個缺點(diǎn),文中為特征詞的文檔頻率加入類別間的方差權(quán)重,選擇詞條在每個類別中文檔頻率方差比較大的詞條。這樣可以降低在每個類別中均等出現(xiàn)詞的作用。

        改進(jìn)后的文檔頻率公式如下:

        DF(t)=β×logDF

        (4)

        其中,DF(t)表示改進(jìn)后的特征t的文檔頻率;β表示特征t在各個類別中的文檔頻率的方差權(quán)重;DF表示特征t的文檔頻率。

        β的計算公式為:

        (5)

        其中,m表示類別總數(shù);dfj(t)表示特征t在類別j中的文檔數(shù)。

        2.2 傳統(tǒng)互信息方法的不足與改進(jìn)

        根據(jù)式1可知,當(dāng)兩個特征的P(t|c)相同時,P(t)越小的特征的互信息值反而越大,所以會偏向選擇低頻詞[15]。而且對于特征t和類別c,當(dāng)互信息值大于零時,P(t|c)越大或P(t)越小時,互信息的值就越大,絕對值越大;當(dāng)互信息值小于零時,P(t|c)越大或P(t)越小時,互信息的值越小,絕對值反而越大。換句話說,當(dāng)P(t|c)和P(t)越接近時,特征t和類別c的相關(guān)聯(lián)度就越小,互信息的絕對值越小,反之,互信息的絕對值就越大。所以,互信息值的絕對值越大的特征越能反映特征和類別之間的關(guān)聯(lián)程度。改進(jìn)后的互信息公式如下:

        (6)

        其中互信息的值采用平均值。

        2.3 改進(jìn)的混合算法

        文中提出了混合DF和MI的特征選取算法,并對DF和MI各自的不足進(jìn)行了分析和改進(jìn)。針對DF方法偏向選擇高頻詞和MI方法偏向選擇低頻詞,考慮將兩種方法進(jìn)行混合來削弱它們的不足,使在特征選取時選擇的特征詞既不偏向低頻詞也不偏向高頻詞,也避免選取在類別中均等出現(xiàn)的特征詞?;旌螪F和MI的特征選取公式如下:

        (7)

        3 實 驗

        3.1 數(shù)據(jù)集及開發(fā)工具

        實驗數(shù)據(jù)集采用搜狗數(shù)據(jù)集,總共9個類別,分別為財經(jīng)、IT、健康、體育、旅游、教育、招聘、文化、軍事。每個類別300篇文章,共2 700篇文章,其中每個類別的200篇文章用于訓(xùn)練,100篇文章用于測試分類結(jié)果。為了驗證該算法的有效性,將傳統(tǒng)的DF方法和傳統(tǒng)的MI方法與提出的混合DFMI方法進(jìn)行比較。分類器選擇實現(xiàn)簡單,分類效果良好的樸素貝葉斯,用Java語言實現(xiàn),開發(fā)工具為Eclipse。

        3.2 分類效果評估

        一篇文本的分類情況可以分為四種:真正例(true position)、假正例(false position)、真反例(true negative)、假反例(false negative),如表1所示。

        表1 文本分類結(jié)果

        評價算法好壞的度量指標(biāo)采用精度(precision,又稱查準(zhǔn)率)、召回率(recall,又稱查全率)、F1度量。

        精度(P)可以看作精確性的度量,即標(biāo)記為正類的元組實際為正類所占的百分比,公式如下:

        (8)

        召回率(R)是完全性度量,即正元組標(biāo)記為正的百分比,公式如下:

        (9)

        F1度量是把精度和召回率組合到一起的度量方法,公式如下:

        (10)

        3.3 實驗結(jié)果及分析

        在Eclipse上用Java語言實現(xiàn)樸素貝葉斯分類,來驗證不同特征選取方法對分類結(jié)果的影響。先利用中科大ICTCLAS分詞系統(tǒng)對所有文本進(jìn)行分詞,根據(jù)分詞后的結(jié)果,再選取名詞性和既有名詞性和動詞性的詞語,得到預(yù)處理后的特征集合。使用不同特征選取方法進(jìn)行特征選取,特征詞都是1 000個。將所有文本向量化,最后利用樸素貝葉斯分類器對文本進(jìn)行分類,實驗結(jié)果如表2所示。

        表2 DF、MI、DFMI方法在精度、召回率和F1上的比較 %

        從表中可以看出,改進(jìn)的混合DFMI方法明顯比MI方法好很多,無論在精度、召回率還是F1度量上都明顯提高,和DF相比也均有提升,從而驗證了混合DFMI方法的有效性。

        4 結(jié)束語

        MI方法簡單,應(yīng)用廣泛,但傾向選擇低頻詞,忽略了互信息絕對值較大的特征也具有較好的類別區(qū)別能力,因此通過對互信息取絕對值后再取平均值排序進(jìn)行特征選擇。DF方法雖然簡單直白,但有的特征雖然出現(xiàn)的頻率很好,但在類別中均等出現(xiàn)這樣的特征也沒有區(qū)別能力,所以考慮加入文檔頻率類別方差?;趦煞N改進(jìn)后的方法,提出一種混合的DFMI特征選取算法。實驗結(jié)果表明,該算法在精度、召回率和F1度量上均有所提高。

        現(xiàn)有的特征選取算法都是從不同的角度進(jìn)行特征選取,都有各自的優(yōu)缺點(diǎn),因此將不同的特征選取算法進(jìn)行混合,使之從多個角度進(jìn)行考慮,兼顧多個方面,是一個值得研究的方向。

        猜你喜歡
        分類特征文本
        分類算一算
        如何表達(dá)“特征”
        在808DA上文本顯示的改善
        不忠誠的四個特征
        分類討論求坐標(biāo)
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        抓住特征巧觀察
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        中文字幕无码不卡一区二区三区| 日韩在线不卡一区三区av| 亚洲处破女av日韩精品中出| 性无码专区无码| 美女自卫慰黄网站| 99久久精品国产片| 永久免费看黄网站性色| 亚洲国产果冻传媒av在线观看 | 国产成人无码一区二区在线观看| 久久狠狠高潮亚洲精品暴力打 | 摸丰满大乳奶水www免费| 久久人人玩人妻潮喷内射人人| av无码天堂一区二区三区| 高潮av一区二区三区| 国产av无码专区亚洲a∨毛片| 亚洲av无码精品色午夜| 精品福利一区| 青青草在线免费观看在线| 精品国产免费一区二区三区香蕉| 欧美成人精品一区二区综合| 亚洲精品自拍视频在线观看| av在线播放免费观看| 潮喷失禁大喷水aⅴ无码| 国产精品99久久免费| 超级少妇一区二区三区| 国产精品一区av在线| 国产午夜精品一区二区| 最新精品亚洲成a人在线观看| 日本在线免费一区二区三区| 人妻少妇偷人精品久久性色av| 午夜三级a三级三点| 99re6久精品国产首页| 亚洲av午夜福利精品一区不卡| 99精品国产在热久久无码| 亚洲V日韩V精品v无码专区小说| 国产激情视频在线观看你懂的| 中文乱码字幕精品高清国产| 精品国产人成亚洲区| 成年女人在线观看毛片| 成人爽a毛片在线播放| 国产精品视频免费播放 |