亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        文本分類中基于改進(jìn)特征選擇方法的研究*

        2016-08-10 05:33:05胡改蝶樊孝仁崔藝馨
        關(guān)鍵詞:文本分類特征選擇效率

        胡改蝶 樊孝仁 崔藝馨

        (太原工業(yè)學(xué)院網(wǎng)絡(luò)與信息中心 太原 030008)

        ?

        文本分類中基于改進(jìn)特征選擇方法的研究*

        胡改蝶樊孝仁崔藝馨

        (太原工業(yè)學(xué)院網(wǎng)絡(luò)與信息中心太原030008)

        摘要文本分類不僅可以提高分類的效率,而且可使人們更快地找到想要獲取的信息。在特征選擇方法的基礎(chǔ)上,分析了卡方統(tǒng)計(jì)法的缺點(diǎn),對其提出了一種改進(jìn)的方法,同時(shí)采用支持向量機(jī)分類的算法和詞頻-逆向文件頻率權(quán)重函數(shù)對其進(jìn)行了驗(yàn)證。通過實(shí)驗(yàn)得出此方法可以在很大程度上提高文本分類精確度,使分類的效果更好。

        關(guān)鍵詞效率; 文本分類; 特征選擇; 卡方統(tǒng)計(jì)法

        Class NumberTP311

        1引言

        網(wǎng)絡(luò)發(fā)展到現(xiàn)今,幾乎所有的知識、信息和新聞等都可以從網(wǎng)絡(luò)中得到,但如何將網(wǎng)絡(luò)中的內(nèi)容更好地進(jìn)行分類,更加方便人們進(jìn)行查找,便成了一個(gè)熱門話題。文本分類是屬于機(jī)器學(xué)習(xí)中的一個(gè)重要應(yīng)用。文本分類就是將海量的且雜亂無章的文檔集通過計(jì)算機(jī)將其分別歸到不同的類別中,就像映射進(jìn)程一樣,即將一個(gè)新文檔映射到現(xiàn)有的類別中去,這種映射有兩種,一種是一對一,另一種是一對多[1]。從模式分類的角度來看,常見的文本分類方法有基于統(tǒng)計(jì)方法、基于連接方法和基于規(guī)則方法[2]。文本分類大致步驟是:第一步是預(yù)處理;第二步是從上一步的語料庫中提取相應(yīng)的特征,即特征提?。坏谌绞翘卣鬟x擇;最后,重新對一個(gè)新文檔集進(jìn)行分類[3]。

        2特征選擇概述

        所有的分類都要依賴于文本訓(xùn)練樣例的特征詞規(guī)模,特征詞的規(guī)模達(dá)到數(shù)萬個(gè)是再正常不過的,甚至可以達(dá)到億級,因而做出決策模型的時(shí)間就很長,并且如此大的維數(shù)非常容易造成維度災(zāi)難。降低維數(shù)的輸入而不影響分類準(zhǔn)確率的方法有特征選擇與特征抽取[4]。

        特征選擇也稱特征子集或?qū)傩赃x擇,即從特征子集中找到最佳子集作為特征詞,因?yàn)樽罴炎蛹木S數(shù)最少,對分類準(zhǔn)確率的貢獻(xiàn)就最大。特征選擇的目標(biāo)是根據(jù)一個(gè)選擇標(biāo)準(zhǔn)在原始特征集中選擇一個(gè)子集,去掉不相關(guān)的特征,達(dá)到減少特征的個(gè)數(shù),而且剩下的正相關(guān)的特征使模型得到了簡化,使分類效果與準(zhǔn)確度大大提高[5~6]。特征選擇在文本分類中的方法比較多,有文檔頻率DF、信息增益IG、期望交叉熵ECE、卡方統(tǒng)計(jì)方法CHI、互信息MI、GSS Coefficient等[7]。

        3卡方特征選擇統(tǒng)計(jì)法與改進(jìn)

        卡方特征選擇統(tǒng)計(jì)法從標(biāo)準(zhǔn)考慮角度來看,有距離、相關(guān)性和平衡度三種度量標(biāo)準(zhǔn)。其中,相關(guān)性度量標(biāo)準(zhǔn)在一定程度上能有效地去掉不相關(guān)的特征[8]。特征t在類別c中的CHI特征選擇方法如式(1)所示,公式計(jì)算所得到的結(jié)果越大,說明此特征與類別之間的相關(guān)性越大,分類的結(jié)果也就越好。

        (1)

        本文從相關(guān)性度量標(biāo)準(zhǔn)和平衡度度量標(biāo)準(zhǔn)來進(jìn)行相應(yīng)的研究,前者主要是在文檔中找到與特征相關(guān)比較大的詞,從而進(jìn)行特征選擇[9];后者主要是在文檔中找到與特征平衡度較高的詞作為特征詞,從而進(jìn)行特征選擇。但一些相關(guān)性不大的詞和平衡度不太高的詞卻沒有考慮在內(nèi)。為了有效地解決這些問題,CHI特征選擇方法進(jìn)行了改進(jìn),改進(jìn)后的式(2)。

        (2)

        其中:總文檔數(shù)為n,類別為c,類別c中含有特征t的文檔概率η=1.0*tfi/n,類別c的文檔概率ξ=1.0*c/n。

        4實(shí)驗(yàn)與結(jié)果分析

        4.1語料庫及實(shí)驗(yàn)環(huán)境

        本實(shí)驗(yàn)的訓(xùn)練與測試語料庫均由復(fù)旦大學(xué)信息與技術(shù)系國際數(shù)據(jù)庫中心自然語言處理小組整理所得,從中抽取了八個(gè)類別,分別是計(jì)算機(jī)、交通、軍事、環(huán)境、政治、體育、醫(yī)藥和經(jīng)濟(jì)。其中訓(xùn)練文本集有1569個(gè),測試文本集有779個(gè),文本集共2348個(gè)文本集。采用環(huán)境是Windows7專業(yè)版,Intel(R) Xeon(R) CPU E5504@2.00GHz處理器,2.00G內(nèi)存,32位操作系統(tǒng),Visual C++6.0開發(fā)語言。

        4.2分類算法、權(quán)重及評價(jià)標(biāo)準(zhǔn)

        文本分類算法有K-近鄰算法、支持向量機(jī)(SVM)算法、決策樹算法和樸素貝葉斯算法等,本實(shí)驗(yàn)采用SVM分類算法,這種算法是在類別中找到一個(gè)決策邊界,只關(guān)心靠近邊界的實(shí)例,落在內(nèi)部的實(shí)例將其丟掉,可以從高維度的特征空間中學(xué)習(xí)到較好的分類超平面[10]。文本分類特征權(quán)重方法有布爾函數(shù)、平均根函數(shù)、TF-IDF函數(shù)和對數(shù)函數(shù)等,本文特征權(quán)重選擇TF(IDF函數(shù),它的理論是若一詞在文檔中出現(xiàn)的頻率TF高,同時(shí)在其他文檔中出現(xiàn)的次數(shù)比較少,那么這個(gè)詞就有很好的區(qū)分類別的能力,因而它是信息搜索中最常用的方法,在分類中廣泛應(yīng)用[11]。實(shí)驗(yàn)過程中特征選擇方法選用CHI,特征維數(shù)選擇500。文本分類的評價(jià)標(biāo)準(zhǔn)有查全率(R,Recall)、查準(zhǔn)率(P,Precision)、漏報(bào)率、準(zhǔn)確率、宏平均、微平均、ROC曲線、代價(jià)因子和F-測度(F)等,本實(shí)驗(yàn)用到的評價(jià)標(biāo)準(zhǔn)是查全率(R)、查準(zhǔn)率(P)和F-測度(F)[12]。

        4.3結(jié)果分析

        傳統(tǒng)的CHI與改進(jìn)后的CHI的查全率和查準(zhǔn)率實(shí)驗(yàn)比較結(jié)果如表1所示,F(xiàn)-測度實(shí)驗(yàn)比較結(jié)果如表2所示。從表1和表2中可以看出,改進(jìn)后CHI方法的查全率R、查準(zhǔn)率P和F-測度的評價(jià)標(biāo)準(zhǔn)值都比傳統(tǒng)CHI高,雖然某些值高出的并不明顯,但整體來說,改進(jìn)后的實(shí)驗(yàn)結(jié)果要好些。

        表1 查全率和查準(zhǔn)率實(shí)驗(yàn)結(jié)果比較

        表2 F-測度實(shí)驗(yàn)比較結(jié)果

        由于F-測度是由查全率與查準(zhǔn)率得出的,在一定程度上F-測度結(jié)果是二者的綜合,所以本實(shí)驗(yàn)給出了F-測度的比較曲線圖,如圖1所示。從圖1中可以更加直觀地看到,改進(jìn)后的方法比傳統(tǒng)的方法的F-測度的分類效果明顯要好得多。

        圖1 F-測度比較曲線圖

        5結(jié)語

        文本分類中的一個(gè)必不可少的、關(guān)鍵且重要的一步是特征選擇方法,CHI統(tǒng)計(jì)法是特征選擇方法中比較好的一種。本文將文本分類中CHI統(tǒng)計(jì)法進(jìn)行了闡述與分析,并提出了一種改進(jìn)的CHI方法,通過大量實(shí)驗(yàn),進(jìn)一步說明改進(jìn)的方法是適用的、可行的、高效的。

        參 考 文 獻(xiàn)

        [1] 王雷.文本分類相關(guān)技術(shù)研究[D].上海:復(fù)旦大學(xué),2006.WANG Lei. Research On the Related Technology of Text Classification[D]. Shanghai: Fudan University,2006.

        [2] 祝曉魯,白振興,賈海燕.自動(dòng)文本分類技術(shù)研究[J].現(xiàn)代電子技術(shù),2007(3):121-124.

        ZHU Xiaolu, BAI Zhenxing, JIA Haiyan. A Survey of Algorithm of Text Categorization[J]. Modern Electronics Technique,2007(3):121-124.

        [3] 陳艷秋,熊耀華.新型快速中文文本分類器的設(shè)計(jì)與實(shí)現(xiàn)[J].計(jì)算機(jī)工程與應(yīng)用,2009,45(22):53-55.

        CHEN Yanqiu, XIONG Yaohua. Design and implementation of new Chinese text classier[J]. Computer Engineering and Applications,2009,45(22):53-55.

        [4] Ethem Alpaydin.機(jī)器學(xué)習(xí)導(dǎo)論[M].范明,昝紅英,牛常勇,譯.北京:機(jī)械工業(yè)出版社,2009:65-69.

        Ethem Alpaydin. Machine learning[M]. FAN Ming, ZAN Hongying, NIU Changyong, et al. Beijing: China Machine Press,2009:65-68.

        [5] 范小麗,劉曉霞.文本分類中互信息特征選擇方法的研究[J].計(jì)算機(jī)工程與應(yīng)用,2010,46(34):123-125.FAN Xiaoli, LIU Xiaoxia. Study on mutual information-based feature selection in text categorization[J]. Computer Engineering and Applications,2010,46(34):123-125.

        [6] M. Dash, H. Liu. Feature Selection for Classification. Intelligent Data Analysis,2010,1:131-156.

        [7] 張玉芳,王勇,劉明,等.新的文本分類特征選擇方法的研究[J].計(jì)算機(jī)工程與應(yīng)用,2013,49(5):132-135.

        ZHANG Yufang, WANG Yong, LIU Ming, et al. New feature selection approach for text categorization[J]. Computer Engineering and Applications,2013,49(5):132-135.

        [8] 范小麗.文本分類中特征選擇方法的研究與應(yīng)用[D].西安:西北大學(xué),2011.

        FAN Xiaoli. Research and Application of Feature Selection Method in Text Categorization[D]. Xi’an: Northwest University,2011.

        [9] 胡改蝶,馬建芬.文本分類中一種特征選擇方法的改進(jìn)[J].計(jì)算機(jī)與現(xiàn)代化,2011(5):20-21.

        HU Gaidie, MA Jianfen. Improvement of Feature Selection Method in Text Classification[J]. Computer And Modernization,2011(5):20-21.

        [10] Nello Cristianini, John Shawe-Taylaor.李國正,王猛,曾華軍,譯.支持向量機(jī)導(dǎo)論[M].北京:電子工業(yè)出版社,2004:8-15.

        Nello Cristianini, John Shawe-Taylaor. Li Guozheng, Wang Meng, Ze Huajun. Introduction to Support Vector Machine[M]. Beijing: Publishing House of Electronics Industry,2004:8-15.

        [11] 宋惟然.中文文本分類中特征選擇和權(quán)重計(jì)算方法的研究[D].北京:北京工業(yè)大學(xué),2013.

        SONG Weiran. Researchon Feature Selection and Weighting Method for Chinese text Classification[D]. Beijing: Beijing University of Technology,2013.

        [12] 郭亞維,劉曉霞.文本分類中信息增益特征選擇方法的研究[J].計(jì)算機(jī)工程與應(yīng)用,2012(27):119-122.

        GUO Yawei, LIU Xiaoxia. Study on information gain-based feature selection in Chinese text categorization[J]. Computer Engineering and Applications,2012,48(27):119-122.

        收稿日期:2016年1月4日,修回日期:2016年2月26日

        作者簡介:胡改蝶,女,碩士,助理工程師,研究方向:自然語言處理,文本分類,機(jī)器學(xué)習(xí),計(jì)算機(jī)網(wǎng)絡(luò)。樊孝仁,男,副教授,研究方向:信息與計(jì)算技術(shù)。崔藝馨,女,碩士,助理工程師,研究方向:計(jì)算機(jī)網(wǎng)絡(luò),數(shù)據(jù)挖掘。

        中圖分類號TP311

        DOI:10.3969/j.issn.1672-9722.2016.07.022

        Text Categorization Based on Improved Feature Selection in Text Categorization

        HU GaidieFAN XiaorenCUI Yixin

        (Network and Information Center, Taiyuan Institute of Technology, Taiyuan030008)

        AbstractText categorization not only can improve the efficiency of categorization, but also can make people quickly find the information they want. On the basis of the feature selection method, this paper analyzes Chi-square (CHI) statistical method shortcomings, and proposes a Chi-square statistical method. At the same time, the Support Vector Machine (SVM) classification’s algorithm and Term Frequency-Inverse Document Frequency (TF-IDF) weight function are used on the validation. The experiment shows that this method can largely improve to the text categorization accuracy, the classification effect is greatly improved, make better classification.

        Key Wordsefficiency, text categorization, feature selection, Chi-square statistical method

        猜你喜歡
        文本分類特征選擇效率
        提升朗讀教學(xué)效率的幾點(diǎn)思考
        甘肅教育(2020年14期)2020-09-11 07:57:42
        Kmeans 應(yīng)用與特征選擇
        電子制作(2017年23期)2017-02-02 07:17:06
        基于組合分類算法的源代碼注釋質(zhì)量評估方法
        基于貝葉斯分類器的中文文本分類
        基于蟻群智能算法的研究文本分類
        文本分類算法在山東女子學(xué)院檔案管理的應(yīng)用
        科技視界(2016年24期)2016-10-11 09:36:57
        聯(lián)合互信息水下目標(biāo)特征選擇算法
        跟蹤導(dǎo)練(一)2
        “錢”、“事”脫節(jié)效率低
        基于特征選擇和RRVPMCD的滾動(dòng)軸承故障診斷方法
        国产三级a三级三级| 中文字幕在线观看乱码一区| 久久av少妇亚洲精品| 国产av一区二区三区性入口| 亚洲国产天堂一区二区三区| 久久国产偷| 精品女同一区二区三区在线播放器| 精品高清免费国产在线| 夜夜添夜夜添夜夜摸夜夜摸 | 亚洲中文字幕无码不卡电影| 大陆少妇一区二区三区| av色综合久久天堂av色综合在| a国产一区二区免费入口| 国产强伦姧在线观看| 91一区二区三区在线观看视频| 亚洲欧美一区二区成人片| 色妺妺视频网| 日韩少妇人妻一区二区| 女人av天堂国产在线| 亚洲精品乱码久久久久久金桔影视| 狠狠躁夜夜躁人人爽天天 | 91热久久免费精品99| 亚洲一区二区日韩精品| 亚洲午夜成人精品无码色欲| 亚洲成色在线综合网站| 素人系列免费在线观看| 国产精品一区二区黑丝| 欧美性猛交xxxx乱大交3| 久久福利青草精品资源| 精品黑人一区二区三区久久hd| 成人试看120秒体验区| 鲁一鲁一鲁一鲁一澡| 日本一区二区视频免费观看| 变态另类人妖一区二区三区 | 偷拍av一区二区三区| 一个人看的视频在线观看| 久久99精品国产麻豆| 亚洲精品国产不卡在线观看| 日韩人妻系列在线观看| 人妻少妇精品视频专区二区三区| 色一情一乱一伦|