亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        文本分類中特征權重算法改進研究

        2018-03-13 07:23:33李鵬鵬范會敏
        計算機與現代化 2018年2期
        關鍵詞:特征詞特征選擇類別

        李鵬鵬,范會敏

        (西安工業(yè)大學計算機科學與工程學院,陜西 西安 710021)

        0 引 言

        作為互聯(lián)網的主要信息載體,文本、圖像和聲音具有顯著的特點。其中,文本是主要的信息載體,自然語言處理在當今仍然是研究的熱門和重點方向。文本分類是自然語言處理中的重要研究課題,特征權重算法在文本分類中起到了至關重要的作用。目前文本分類中常用的特征權重算法TF-IDF是一種基于詞頻的特征權重算法,該方法容易實現、思想簡單,兼顧效率的同時往往能取得較滿意的效果從而被廣泛使用。但該算法沒有體現特征詞在文檔類之間和類內的分布信息,無法適應不平衡數據集,分類準確性不高。目前主要的改進包括以下幾種:在傳統(tǒng)算法基礎上,增加特征權重所蘊含的信息;利用特征選擇算法對傳統(tǒng)算法TF或IDF部分進行替換,或對二者結合,使其攜帶新的分類信息[1-2];此外,還有文獻通過加入類別相關度平衡因子對互信息公式進行改進,同時將其應用于特征加權算法;利用跨不同類文本的細粒度術語分布信息,特征權重計算利用文本集特征全集而非本類特征集合;利用剔除近義詞方法優(yōu)化文本向量中的特征項,提出貢獻率因子的概念,提高了文本分類準確率[3-7]。以上多種改進算法均在一定程度上提升了分類準確率,但并未完全兼顧文檔分布信息與算法在傾斜數據集上的表現。鑒于傳統(tǒng)TF-IDF算法的不足,本文提出一種文本分類中改進的特征權重TF-IDF-dist算法。相比以上各種改進方法,本文方法兼顧文本類間與類內分布均勻程度的同時,還加入特征類間比重信息,使其對文檔集分布不敏感,從而對文檔集有更強的適應性。實驗表明本文算法在準確率、召回率和F1值方面均優(yōu)于傳統(tǒng)TF-IDF算法。

        1 傳統(tǒng)TF-IDF算法

        TF-IDF算法認為,刻畫某一關鍵詞的權重可根據其在類內文檔中的出現頻數和在類間出現分布來表示。算法分為2部分TF和IDF,TF即詞頻,代表詞在類內的出現頻數,IDF代表特征詞概率密度的交叉熵[8]。

        TF-IDF經典公式表示形式為:

        (1)

        其中Wi表示特征詞求得的權重結果,tfi表示該特征在文檔中出現次數,N表示總文檔數,ni表示出現過該特征詞的文檔數,β是一個經驗值,一般取0.01[9-11]。

        計算中通常使用歸一化的形式:

        (2)

        2 改進的TF-IDF-dist算法

        從經典公式可以看出,TF-IDF算法僅基于特征詞的詞頻與逆文檔頻率進行計算。計算所得權重反映了特征詞在文檔集范圍內的出現次數信息,一定程度上反映了特征詞的分布信息,但在進行分類時特征僅由以上信息決定,分類準確率較低。

        經典公式中N代表的是多個類別的文檔數總和,由于每一類文本可以包含多個文檔,無法從N得出類別之間的分布信息。按照算法思想,當特征詞在多數類中普遍出現時,該特征詞應該給予較低權重,但由于文檔中特定特征詞的絕對數量大,經過計算得到的權重值卻很大;另外,隨著特征項在類內出現次數的增加,IDF應該隨之增大,但算法的計算結果卻幾乎無變化;同時在傾斜數據集某類文檔較少情況下,IDF幾乎失效。

        IDF的計算忽略了特征詞在類內文檔的分布,當特征詞在同一類多個文檔中出現次數一定時,根據經典公式,IDF值保持不變。特征詞分布具有隨機性,從而IDF的計算結果對文本類內分布不具有代表性。

        針對以上算法缺陷,本文采用類內類間分布信息豐富特征權重,提高文本分類的準確性。引入類間文檔、詞頻分布以及類內詞頻分布因子對TF-IDF算法進行改進。

        1)提出因子introC描述文本類間分布信息:

        (3)

        對因子乘號左半部分,如果此項越高,即特征詞在文檔類別間分布比例越低,說明特征詞在類別間分布越有傾向性,即分類能力越強。對右半部分,特征詞在類之間分布的均勻程度能反映特征詞是否普遍存在于多個類別文檔。該項越大,說明該特征詞在類之間分布更不均勻,也即偏向某一類別,對文檔的區(qū)分能力更強。反之,該項越小,說明該詞在各類別文檔分布更均勻,區(qū)分類別的作用更小。兩部分的乘積,可以反映特征詞在類之間分類能力。

        因子introC乘號左半部分反映了特征詞在類別之間分布情況,規(guī)避了文本集類之間文檔數據量差異帶來的干擾,對類別間文檔總數不敏感,提高了對傾斜文本數據集的適應性;根式部分反映了特征詞在類別之間分布頻數的標準差,即反映了特征詞在類別之間分布均勻程度,描述因子introC,反映了特征詞在類間的分布比例與類別之間分布均勻程度。

        2)提出因子interC描述類內詞頻分布:

        (4)

        (5)

        特征詞在類內的分布信息也對特征詞的分類能力有影響。如果特征詞在類內分布更加均勻,說明特征詞普遍存在于本類文檔,對本類文檔有更強的代表性。反之,如果特征詞僅僅在一類文檔的個別文檔出現,那么該詞更具有偶然性,不具備代表本類文檔的能力。interC反映了特征詞在每個類別文檔中文檔之間分布均勻程度均值。該項越大,說明特征在類內分布越分散,特征詞隨機性越強,對文檔類別的區(qū)分性越低。反之,該項越小,特征在類內分布越均勻,對文檔類別越有區(qū)分性。因子interC可以反映特征詞區(qū)分能力。

        3)改進后的特征權重算法為:

        Wij=TFij×IDFij×introCi×interCi

        (6)

        改進后的特征權重算法TF-IDF-dist結合了傳統(tǒng)算法與因子interC和introC,豐富了特征權重的分布信息,具有更強的分類性能。下面設計實驗驗證改進算法的有效性。

        3 實驗結果及分析

        3.1 特征權重算法對比實驗設計

        文本分類一般首先要對文檔進行預處理,包括分詞去停用詞等步驟。之后得到一個詞的集合,集合包含停用詞以外的所有詞。然后進行特征選擇,特征選擇在降低特征維度且保持文本分類準確率的同時,可以提高文本分類效率。隨后對所選特征詞進行特征權重計算。需要注意的是,本文訓練過程中計算所得因子interC和introC將被用于計算測試集對應的特征詞權重。計算所得權重作為文檔在該特征項的特征值。最后將計算所得特征值作為分類器的輸入進行分類,得到分類器模型。隨后在測試集驗證模型的準確性[12-15]。

        為驗證本文算法改進的有效性,本文基于卡方統(tǒng)計特征選擇算法,在多個分類算法以及多特征詞數量下,對本文算法、TF-IDF算法和常用的改進TF-CHI算法做對比實驗。具體實驗流程如圖1所示,在本文算法與TF-CHI算法進行比較時,圖中“TF-IDF”部分為TF-CHI算法。

        圖1中訓練過程中特征選擇所得結果與訓練所得分類器將被用于測試過程。測試過程的分類結果被用來分析分類準確率驗證試驗結果。

        圖1 TF-IDF權重算法與TF-IDF-dist算法對比實驗流程

        為測試本文算法在多個對比實驗的準確率,實驗數據采用搜狗實驗室數據集,對財經、教育、汽車、娛樂、女性5個類別文檔合計5000篇新聞文檔正文進行提取作為本實驗文本數據集。對文本集進行劃分,每類隨機選取80%文檔作為訓練文本集,其余20%作為測試文本集。

        3.2 不同特征維度下對F1值的影響

        為分析TF-IDF-dist算法在不同特征維度下分類準確率的變化,對實驗文本集采用卡方統(tǒng)計特征選擇算法,分別選取不同特征維數特征,在多項式貝葉斯分類器下進行對比實驗,實驗結果如圖2所示。

        圖2 特征維數對比實驗結果

        分析圖2發(fā)現,特征維數較少時,3種算法的準確率均處在較低位置,隨特征數的增加,3種特征權重算法對應分類模型F1值均呈上升趨勢,TF-IDF-dist算法F1值一直處于較高水平;隨著特征維數的增加,由于特征維度已達到一定規(guī)模,3種算法的F1值增長速度逐漸趨緩,新的特征維度對整體準確率的影響逐漸下降;在各個特征維數下,TF-IDF-dist算法F1值均高于TF-IDF算法和TF-CHI算法,在各特征維度下算法F1值相較TF-IDF平均提升了3.2%,相較TF-CHI算法平均提升2.7%。

        3.3 不同特征選擇算法比較

        為驗證TF-IDF-dist算法在不同分類器下分類準確率變化,對實驗文本集采用信息增益、卡方統(tǒng)計和互信息特征選擇算法,特征維數設置為3000維,特征權重算法分別采用TF-IDF,TF-CHI和TF-IDF-dist算法,結合貝葉斯分類器做對比實驗。實驗結果如表1所示。

        分析表1發(fā)現,當特征權重算法為傳統(tǒng)TF-IDF算法時,結合以上3種特征選擇算法,分類準確率、召回率與F1值處于較低水平,其中卡方統(tǒng)計表現略好于其他2種特征選擇算法;采用TF-CHI算法時,結合以上3種特征選擇算法,分類準確率、召回率、F1值與TF-IDF算法相比基本持平。當特征權重算法為TF-IDF-dist算法時,結合3種特征選擇算法,分類準確率、召回率與F1值均有提升。其中,對比TF-IDF算法,互信息與TF-IDF-dist結合對應的F1值提升較小為2%,信息增益F1值提升最大為4%;在3種特征選擇算法所計算得到的特征維度基礎上,TF-IDF-dist計算所得權重的分類F1值相比TF-IDF平均提升3%,相比TF-CHI算法平均提升2.7%。

        表1 TF-IDF-dist算法與TF-IDF算法針對不同特征選擇算法比較

        特征選擇算法特征維度特征權重算法分類器平均準確率/%平均召回率/%平均F1值卡方統(tǒng)計3000TF?IDFTF?CHITF?IDF?dist貝葉斯分類器949494949594979797互信息3000TF?IDFTF?CHITF?IDF?dist貝葉斯分類器939393939493959595信息增益3000TF?IDFTF?CHITF?IDF?dist貝葉斯分類器939393939494979797

        3.4 傾斜數據集對比實驗

        為驗證改進的TF-IDF-dist算法在傾斜數據集的有效性,采用搜狗實驗室10個類別新聞正文作為數據集。實驗數據各類別分布如表2所示。采用卡方統(tǒng)計特征選擇算法,特征維度為3500,采用貝葉斯分類器進行對比實驗。實驗結果如圖3所示。

        圖3 傾斜數據集對比實驗

        表2 傾斜數據集

        類別財經汽車教育娛樂女性IT房產軍事科技體育訓練集文檔數500066768719849621201282301203106測試集文檔數125016717148724030325730776

        分析圖3發(fā)現,隨特征維數增加3種特征權重算法對應分類模型的F1值均呈上升趨勢,這與均衡數據集表現一致;傳統(tǒng)TF-IDF算法對傾斜數據集適應性較差,TF-CHI算法在傾斜數據集的F1值相比TF-IDF算法有較大提升,對傾斜數據集適應性較強。改進的TF-IDF-dist算法分類結果F1值整處于較高水平,對傾斜數據集適應性更強;改進的TF-IDF-dist算法F1值比TF-IDF算法平均高27.7%,比TF-CHI算法平均提升8.3%。

        為進一步分析算法在傾斜數據集各類別的表現,取特征維度為3500,對3種模型分類結果中每類文檔的準確率召回率以及對應F1值進行整理如表3~表5所示。

        對比表3~表5數據發(fā)現,傳統(tǒng)TF-IDF算法分類結果傾斜于文檔數較大的類別,分類結果偏向性很大;TF-CHI算法對傾斜數據集適應性更強,但在訓練集文檔數較大的類別F1值較低;改進的TF-IDF-dist算法在各類別表現均處于較好水平。

        表3 傾斜數據集各類別分類指標(TF-IDF)

        類別準確率/%召回率/%F1值測試集文檔數財經56100721250汽車1001931167教育982944171娛樂963045487女性10012240IT00030房產100193232軍事00057科技00030體育959494776平均值776862324

        表4 傾斜數據集各類別分類指標(TF-CHI)

        類別準確率/%召回率/%F1值測試集文檔數財經9577851250汽車688776167教育969193171娛樂908286487女性797175240IT10671830房產19412632軍事28814257科技143530體育969394776平均值888184324

        表5 傾斜數據集各類別分類指標(TF-IDF-dist)

        類別準確率/%召回率/%F1值測試集文檔數財經9392921250汽車909593167教育999496171娛樂908989487女性897280240IT36534330房產33534132軍事53916757科技503630體育969897776平均值919090324

        4 結束語

        1)將基于文本數據集類之間分布信息與詞在類間分布比重相結合,設計實現了一種基于類間比重和類間類內方差的改進的TF-IDF-dist算法。

        2)與傳統(tǒng)TF-IDF算法相比,改進的算法在多種特征維度下,結合貝葉斯分類器,F1值平均提升3.2%;在特征數足夠大且一致時,結合不同特征選擇算法,F1值平均提升3%;改進的TF-IDF-dist算法在傾斜數據集,分類F1值有較大提升。

        3)本文改進的TF-IDF-dist算法相較于傳統(tǒng)算法,計算速度略有下降。在不影響算法準確率的基礎上,需要進一步提高TF-IDF-dist算法的效率。

        [1] Li Yongfei. A feature weight algorithm for text classification based on class information[C]// Advanced Materials Research Trans Tech Publications. 2013,756-759:3419-3422.

        [2] 彭時名. 中文文本分類中特征提取算法研究[D]. 重慶:重慶大學, 2006.

        [3] 徐冬冬,吳韶波. 一種基于類別描述的TF-IDF特征選擇方法的改進[J]. 現代圖書情報技術, 2015(3):39-48.

        [4] Gautam J, Kumar E. An integrated and improved approach to terms weighting in text classification[J]. International Journal of Computer Science Issues, 2013,10(1):310-314.

        [5] 黃磊,伍雁鵬,朱群峰. 關鍵詞自動提取方法的研究與改進[J]. 計算機科學, 2014,41(6):204-207.

        [6] 張玉芳,彭時名,呂佳. 基于文本分類TFIDF方法的改進與應用[J]. 計算機工程, 2006,32(19):76-78.

        [7] How B C, Narayanan K. An empirical study of feature selection for text categorization based on term weightage[C]// Proceedings of IEEE/WIC/ACM International Conference on Web Intelligence. 2004:599-602.

        [8] 施聰鶯,徐朝軍,楊曉江. TFIDF算法研究綜述[J]. 計算機應用, 2009,29(S1):167-170.

        [9] Chen Keli, Zong Chengqing. A new weighting algorithm for linear classifier[C]// Proceedings of 2003 International Conference on Natural Language Processing and Knowledge Engineering. 2003:650-655.

        [10] 趙小華. KNN文本分類中特征詞權重算法的研究[D]. 太原:太原理工大學, 2010.

        [11] Aless R B, Moschitti A, Pazienza M T. A text classifier based on linguistic processing[C]// International Joint Conference on Artificial Intelligence. 1999.

        [12] 樊小超. 基于機器學習的中文文本主題分類及情感分類研究[D]. 南京:南京理工大學, 2014.

        [13] Chen Chien-Hsing. Improved TFIDF in big news retrieval: An empirical study[J]. Pattern Recognition Letters, 2016,93(1):113-122.

        [14] Chen Kewen, Zhang Zuping, Long Jun. Turning from TF-IDF to TF-IGM for term weighting in text classification[J]. Expert Systems With Applications Journal, 2016,66(C):245-260.

        [15] 郭正斌,張仰森,蔣玉茹. 一種面向文本分類的特征向量優(yōu)化方法[J]. 計算機應用研究, 2017,34(8):2299-2302.

        猜你喜歡
        特征詞特征選擇類別
        基于改進TFIDF算法的郵件分類技術
        產品評論文本中特征詞提取及其關聯(lián)模型構建與應用
        Kmeans 應用與特征選擇
        電子制作(2017年23期)2017-02-02 07:17:06
        聯(lián)合互信息水下目標特征選擇算法
        服務類別
        新校長(2016年8期)2016-01-10 06:43:59
        面向文本分類的特征詞選取方法研究與改進
        論類別股東會
        商事法論集(2014年1期)2014-06-27 01:20:42
        中醫(yī)類別全科醫(yī)師培養(yǎng)模式的探討
        基于特征選擇和RRVPMCD的滾動軸承故障診斷方法
        基于二元搭配詞的微博情感特征選擇
        計算機工程(2014年6期)2014-02-28 01:26:36
        国产自国产自愉自愉免费24区 | 亚洲AV无码永久在线观看| 青春草在线观看免费视频| 国产一区二区三区在线蜜桃| 婷婷五月婷婷五月| 日本a天堂| 日韩极品视频在线观看| 日本a级免费大片网站| 欧美色欧美亚洲另类二区| 狠狠噜天天噜日日噜| 国产精品亚洲美女av网站| 国内偷拍国内精品多白86| 少妇人妻综合久久中文字幕| 亚洲av乱码中文一区二区三区| aⅴ色综合久久天堂av色综合| 国产三级精品三级男人的天堂| 人妻插b视频一区二区三区| 日产精品久久久久久久| 免费人成视频网站在线观看不卡| 91成人黄色蘑菇视频| 国产午夜精品一区二区| 亚洲综合色秘密影院秘密影院| 青青草免费在线视频导航| 亚洲人成网77777色在线播放| 欧洲人妻丰满av无码久久不卡| 亚洲人成网站久久久综合| 久久精品国产自产对白一区| 日韩精品无码一区二区| 蜜臀av免费一区二区三区| 亚洲av粉色一区二区三区| 精品一区中文字幕在线观看| 亚洲国产精品日韩av不卡在线| 精品亚洲午夜久久久久| 少妇人妻系列中文在线| 国模冰莲自慰肥美胞极品人体图| 成年在线观看免费视频| 日本亚洲成人中文字幕| 文字幕精品一区二区三区老狼| 99香蕉国产精品偷在线观看| 久久久久久久久国内精品影视| av一区二区在线网站|