亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于特征貢獻(xiàn)度的特征選擇方法在文本分類中應(yīng)用

        2011-02-08 09:39:24孟佳娜林鴻飛李彥鵬
        關(guān)鍵詞:分類特征文本

        孟佳娜, 林鴻飛, 李彥鵬

        (1.大連理工大學(xué)計(jì)算機(jī)科學(xué)與工程系,遼寧大連 116024;2.大連民族學(xué)院理學(xué)院,遼寧大連 116600)

        0 引 言

        文本分類是信息檢索與數(shù)據(jù)挖掘領(lǐng)域的研究熱點(diǎn)問題,其核心任務(wù)為根據(jù)給定的訓(xùn)練數(shù)據(jù),構(gòu)造高性能的分類器,實(shí)現(xiàn)對新文本的自動分類.在實(shí)際應(yīng)用中,根據(jù)預(yù)定義類別的數(shù)量不同,分類系統(tǒng)可分為兩類分類器和多類分類器兩種.從文本所屬類別的個數(shù)來看,文本分類技術(shù)又可以分為單標(biāo)簽和多標(biāo)簽兩種.

        文本分類的主要算法包括樸素貝葉斯方法[1、2]、KNN[3]、最大熵方法[4]、神經(jīng)網(wǎng)絡(luò)[5]、支持向量機(jī)[6]方法等.最常用的文本特征表示模型是向量空間模型(vector space model,VSM),這種方法將分類文檔中出現(xiàn)的全部詞條作為特征,將分類空間視為一組正交詞條向量所張成的向量空間,原始空間的維數(shù)十分巨大,因此,找到一種有效的特征選擇方法顯得至關(guān)重要.文本分類中常用的特征選擇方法有文檔頻率(document frequency,DF)[7]、互信息(mutual information,MI)[7]、χ2統(tǒng)計(jì)(chi-square statistic,CHI)[7]及幾率比(odds ratio,OR)[8]等.文獻(xiàn)[7]比較了一些常用的特征選擇方法,并指出χ2統(tǒng)計(jì)和信息增益方法是最有效的,其次是文檔頻率和互信息.文獻(xiàn)[8]提出了幾率比的特征選擇方法,僅使用了多分類的樸素貝葉斯分類器在reuters-21578語料集上進(jìn)行了實(shí)驗(yàn),并與其他方法進(jìn)行了比較,同時提出該方法是效果最好的特征選擇方法.人們利用這些特征評價函數(shù)從不同的知識角度對特征項(xiàng)與文本之間的相關(guān)程度進(jìn)行了研究[9、10],文獻(xiàn)[9]使用SVM分類器分析了不同特征選擇方法的效果,并提出了一種新的特征選擇方法BNS,該方法在一些特定的情況下分類結(jié)果優(yōu)于常用的方法.文獻(xiàn)[10]給出了一組特征選擇函數(shù)需滿足的基本約束條件,并基于該約束條件提出了一個構(gòu)造高性能特征選擇方法的通用方法.

        上述方法從不同的角度改進(jìn)了特征選擇方法,提高了分類效果,但忽略了特征詞在各個類中的分布情況,而特征詞在各個類的分布情況會反映特征對區(qū)分每個類的貢獻(xiàn).本文提出基于特征詞在各個類的分布情況的統(tǒng)計(jì)信息,即特征貢獻(xiàn)度的一種特征選擇方法,這種方法通過計(jì)算特征的貢獻(xiàn)度值對特征進(jìn)行選擇,傾向于選擇出在某一類文檔中頻繁出現(xiàn)同時在其他類中出現(xiàn)次數(shù)少的特征,認(rèn)為這種特征能夠?yàn)槲谋痉诸愄峁└袃r值的信息.

        1 基于特征貢獻(xiàn)度(FCD)的特征選擇方法

        1.1 FCD特征選擇方法

        為了選擇出對分類貢獻(xiàn)度大的特征,本文首先用下面的公式計(jì)算每個特征的貢獻(xiàn)度值:

        特征t的最終的FCD值計(jì)算公式定義為

        由上式計(jì)算的FCD值越大,說明特征對于某一類區(qū)別于其他類的區(qū)分貢獻(xiàn)程度越大,對于分類的指導(dǎo)意義越大;該值越小,說明其對于類別區(qū)分的貢獻(xiàn)程度越弱,對于分類的指導(dǎo)性越小.本文算法在提取特征時,是按FCD值從大到小的次序依次提取,因此FCD值越高的特征將有更大的機(jī)會被選擇.

        綜上所述,本文考慮到特征詞在各個類別中的分布情況不同,而特征在各個類的分布情況的統(tǒng)計(jì)信息對分類具有指導(dǎo)意義,從而提出了基于特征貢獻(xiàn)度的一種特征選擇方法,這種方法通過計(jì)算特征的貢獻(xiàn)度值對特征進(jìn)行選擇,而特征貢獻(xiàn)度值能夠很好地反映出類別分布情況的統(tǒng)計(jì)信息.該方法傾向于選擇出在某一類文檔中出現(xiàn)次數(shù)多同時在其他類中出現(xiàn)次數(shù)少的特征,認(rèn)為這種特征能夠?yàn)槲谋痉诸愄峁└袃r值的信息.

        1.2 舉 例

        為說明本文方法進(jìn)行特征選擇的具體情況,下面舉一個例子進(jìn)行說明.表1列出了在一個簡單的文本語料集中特征的FCD值比較.其中,第1列表示語料集中出現(xiàn)的幾個特征,第2、3、4列分別表示該特征在三類文檔中出現(xiàn)的文檔數(shù),第5列為特征在數(shù)據(jù)集中出現(xiàn)的總文檔數(shù),最后一列為特征的FCD值.對于特征“corn”來說,它在所有文檔中只在corn類中出現(xiàn)過,此時,F(xiàn)CD(corn,corn)=(50-0)/(50+0)=1,同時,F(xiàn)CD(corn,{interest,trade})=(0-50)/(0+50)=-1,所以FCD(corn)=max{1,-1,-1}=1;對于特征“engineer”來說,它在所有文檔中的每一類中出現(xiàn)的次數(shù)相同,F(xiàn)CD(engineer,{corn,interest,trade})=(20-40)/(20+40)=-0.33,所以FCD(engineer)=-0.33;最后,考慮特征“database”,F(xiàn)CD(database,corn)=-30/40=-0.75,F(xiàn)CD(database,interest)=10/40=0.25,F(xiàn)CD(database,trade)=-20/40=-0.5,所以FCD(database)=0.25.

        從以上例子可以看出,特征“corn”的FCD值最高,此特征對于類別區(qū)分的貢獻(xiàn)度最大;特征“engineer”的FCD值最低,此特征對于類別區(qū)分的貢獻(xiàn)度最小.本文方法正是依據(jù)選擇那些對于分類貢獻(xiàn)度大的特征來達(dá)到提高分類效果的目的的.

        表1 在一個簡單的語料集上特征的FCD值比較Tab.1 Comparison between features FCD value in a simple corpus

        2 實(shí)驗(yàn)結(jié)果

        本文選擇支持向量機(jī)(SVM)算法作為分類器,SVM是Vapnik提出的一種在缺乏先驗(yàn)知識的條件下,以最小化結(jié)構(gòu)風(fēng)險為目標(biāo),對有限樣本進(jìn)行學(xué)習(xí)的統(tǒng)計(jì)學(xué)習(xí)方法.Joachims于1998年將其引入自動文本分類研究領(lǐng)域,取得了非常理想的文本分類效果[11、12].為了說明本文方法的有效性,將其和一些常用的特征選擇方法進(jìn)行了比較.主要包括χ2統(tǒng)計(jì)法、文檔頻率、幾率比及互信息選擇方法,實(shí)驗(yàn)對比結(jié)果在后文給出.

        2.1 語料集

        實(shí)驗(yàn)中使用了20Newsgroups[13]和reuters-21578[11]兩個語料集.20Newsgroups語料集是由互聯(lián)網(wǎng)用戶在Usenet上張貼的19 997條消息組成的.這些消息分布在20個不同的新聞組中,每個新聞組對應(yīng)一個文本類別.實(shí)驗(yàn)中使用了其20news-bydate-matlab語料集,該語料集詳細(xì)的數(shù)據(jù)統(tǒng)計(jì)見表2.取其中的10個類別作為實(shí)驗(yàn)語料集,5 633篇文檔作為訓(xùn)練集,3 742篇文檔作為測試集.實(shí)驗(yàn)所采用的第2個語料集是reuters-21578,使用由David Lewis搜集的Mod Apte子集,包含reuters-21578最大的10個類,分別是acq、corn、crude、earn、grain、interest、money-fx、ship、trade、wheat.實(shí)驗(yàn)中隨機(jī)選擇訓(xùn)練文檔7 193篇,測試文檔2 787篇.訓(xùn)練集中類的分布是不均衡的,最大類有文檔2 877篇,最小類只有181篇.

        表2 20Newsgroups的bydate-matlab版本的語料集的數(shù)據(jù)統(tǒng)計(jì)Tab.2 Data statistics of 20Newsgroups corpus in bydate-matlab version

        2.2 評價方法

        文本分類的評價方法和準(zhǔn)則不盡相同,本文使用宏平均F1(macro-averagingF1)和微平均F1(micro-averagingF1)[14]的評價方法.首先介紹查全率、查準(zhǔn)率和F-Measure.查全率r和查準(zhǔn)率p分別定義為

        其中a表示分類器認(rèn)為屬于這個類而實(shí)際也屬于該類的文檔數(shù),b表示分類器認(rèn)為屬于這個類而實(shí)際不屬于該類的文檔數(shù),c表示分類器認(rèn)為不屬于這個類而實(shí)際屬于該類的文檔數(shù).

        其中β是一個調(diào)整參數(shù),用于以不同的權(quán)重綜合查全率和查準(zhǔn)率.當(dāng)β=1時,查全率和查準(zhǔn)率被平等對待,如下式所示,這時F-Measure又被稱為

        上面提出的查全率、查準(zhǔn)率及F1-Measure都是針對單個類的分類情況而言的,當(dāng)需要評價某個分類算法時,還需要將所有類上的結(jié)果綜合起來得到平均的結(jié)果.綜合的方法通常有兩種,分別為宏平均F1和微平均F1,即

        2.3 實(shí)驗(yàn)結(jié)果和分析

        圖1和2分別列出了在20Newsgroups語料集上使用各種特征選擇方法的宏平均F1和微平均F1分類結(jié)果,從分類結(jié)果中可以看出,在選擇10 000個特征時,F(xiàn)CD方法在所有列出的特征選擇方法中分類效果最不好,其次是互信息方法;此時文檔頻率方法效果最好,其次是χ2統(tǒng)計(jì)方法,這可能與FCD方法和互信息方法選擇了大量的低頻詞有關(guān),而文檔頻率方法選擇的都是出現(xiàn)頻率最高的特征;在特征數(shù)逐步增大的過程中,F(xiàn)CD方法分類效果提高得非常明顯,在特征數(shù)達(dá)到35 000時,分類效果最好,而文檔頻率方法在特征數(shù)增加時,其分類效果提高得很小,而互信息方法在特征數(shù)增大時,分類效果提高得比較明顯.在特征數(shù)增大到一定程度時,F(xiàn)CD方法分類效果下降,這與其他的特征選擇方法的結(jié)果相同.圖3和4列出了在reuters-21578語料集上使用各種特征選擇方法在SVM分類器上的宏平均F1和微平均F分類結(jié)果,從分類結(jié)果中可以看出,F(xiàn)CD方法在特征數(shù)增大時,分類效果提高得比較緩慢,而OR和MI方法則提高得最為顯著.表3列出了所有特征選擇方法在語料集上的宏平均F1和微平均F1的最大值,綜合兩個語料集上的分類結(jié)果來看,F(xiàn)CD方法在所列出的幾種特征選擇方法中為所有分類器效果最好的,這也驗(yàn)證了該方法的分類有效性.

        圖1 有關(guān)的特征選擇方法在20Newsgroups語料集上的宏平均F1值Fig.1 Macro-F1 values of relative feature selection methods in 20Newsgroups corpus

        圖2 有關(guān)的特征選擇方法在20Newsgroups語料集上的微平均F1Fig.2 Micro-F1 values of relative feature selection methods in 20Newsgroups corpus

        圖3 有關(guān)的特征選擇方法在reuters-21578語料集上的宏平均F1Fig.3 Macro-F1 values of relative feature selection methods in reuters 21578 corpus

        圖4 有關(guān)的特征選擇方法在reuters-21578語料集上的微平均F1Fig.4 Micro-F1 values of relative feature selection methods in reuters-21578 corpus

        表3 有關(guān)的特征選擇方法在兩個語料集上的效果統(tǒng)計(jì)Tab.3 Performance statistic using relative feature selection methods in two text corpuses

        3 結(jié) 語

        文本分類是信息檢索、信息過濾和搜索引擎工作的技術(shù)基礎(chǔ).文本特征的高維性是影響各種分類器分類精度和效率的一個重要因素,如何進(jìn)行有效的特征降維成為文本分類的一個研究熱點(diǎn).因?yàn)槲谋痉诸愂且粋€分類問題,所以類別信息對于特征選擇是很重要的.本文提出了一種稱之為FCD的特征選擇方法,該方法利用特征的統(tǒng)計(jì)結(jié)果將對于類別區(qū)分具有高貢獻(xiàn)度的特征過濾出來,實(shí)驗(yàn)結(jié)果表明該方法與其他幾種常用的特征選擇方法相比簡單、有效,該結(jié)果在20Newsgroups和reuters-21578語料集上得到了驗(yàn)證.

        未來的工作將集中在將該方法用于具有更多特征和文檔的大語料集上,同時FCD方法沒有考慮何時特征和類別共現(xiàn),何時特征和類別不共現(xiàn),如果將該統(tǒng)計(jì)結(jié)果加入到特征選擇方法中,可能分類效果會得到提高.

        [1]MITEHELL T.Machine Learning[M].New York:McGraw-Hill,1997

        [2]MCCALLUM A,NIGAM K.A comparison of event models for Nave Bayes text classification[C]//Proceedings of the AAAI-98 Workshop on Learning for Text Categorization.Wisconsin:AAAI Press,1998

        [3]COVER T M,HART P E.Nearest neighbor pattern classification[J].IEEE Transactions on Information Theory,1967,13(1):21-27

        [4]ADWAIT R.Maximum entropy models for natural language ambiguity resolution[D].Pennsylvania:University of Pennsylvania,1998

        [5]NG Hwee-tou,GOH Wei-boon,LOW Kok-leong.Feature selection,perceptron learning,and a usability case study for text categorization[C]//Proceedings of the 20th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.New York:ACM Press 1997

        [6]VAPNIK V.The Nature of Statistical Leaning Theory[M].New York:Springer-Verlag,1995

        [7]YANG Y,PEDERSEN J.A comparative study on feature selection in text categorization[C]//Proceedings of the 14thInternational Conference on Machine Learning(ICML′97).Nashville:Morgan Kaufmann Publishers,1997

        [8]MLADENIC D,GROBELNIK M.Features selection for unbalanced class distribution and Nave Bayes[C]//Proceedings of the 16thInternational Conference on Machine Learning.Slovenia:Morgan Kaufmann Publishers,1999

        [9]FORMAN G.An extensive empirical study of feature selection metrics for text classification[J].Journal of Machine Learning Research,2003,3(7-8):1289-1305

        [10]徐 燕,李錦濤,王 斌,等.基于區(qū)分類別能力的高性能特征選擇方法[J].軟件學(xué)報(bào),2008,19(1):82-89

        [11]JOACHIMS T.Text categorization with support vector machines:Leaning with many relevant features[C]//Machine Learning:ECML-98.Chemnitz:Springer,1998

        [12]JOACHIMS T.Making large-scale SVM learning practical[M]//Advances in Kernel Methods:Support Vector Learning.Cambridge:MIT Press,1999

        [13]LANG K.NewsWeeder:Learning to filter netnews[C]//Proceedings of the 12th International Conference on Machine Learning.San Francisco:Morgan Kaufmann Publisher,1995

        [14]YANG Yi-ming.An evaluation of statistical approaches to text categorization[J].Journal of Information Retrieval,1999,1(1-2):67-88

        猜你喜歡
        分類特征文本
        分類算一算
        如何表達(dá)“特征”
        在808DA上文本顯示的改善
        不忠誠的四個特征
        分類討論求坐標(biāo)
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        抓住特征巧觀察
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        视频一区精品中文字幕| 大胸美女吃奶爽死视频| 91在线区啪国自产网页| 加勒比精品一区二区三区| 亚洲中文字幕永久网站| 久久精品国产亚洲av网在 | 国产成人亚洲综合一区| 亚洲 无码 制服 丝袜 自拍| 国产亚洲精品性爱视频| 天堂av一区二区在线| 91精品国产高清久久福利| 日本护士口爆吞精视频| 在线观看视频国产一区二区三区| 日本女优久久精品久久| 亚洲乱码av中文一区二区| 人人鲁人人莫人人爱精品| 日本丰满熟妇videossex8k| 亚洲精品久久久久久动漫| 国产小毛片| 亚洲国产精品成人一区| av天堂免费在线播放| 久久精品国产亚洲超碰av| 亚洲人交乣女bbw| 亚洲日韩精品无码专区网站| 一个人在线观看免费视频www| 久久久国产精品樱花网站| 国产亚洲女人久久久久久| 最新中文字幕乱码在线| 国产不卡在线观看视频| 日本一区二区三区爆乳| 国产女人水真多18毛片18精品| 人人妻人人澡人人爽人人精品| 人妻无码∧V一区二区| 日本一区二区三区不卡在线| 秘书边打电话边被躁bd视频| 国产无遮挡裸体免费视频| 试看男女炮交视频一区二区三区| 日韩人妖一区二区三区| 狠狠色欧美亚洲狠狠色www| 亚洲国产精品ⅴa在线观看| 久久精品无码一区二区三区蜜费|