亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        文本分類中TF IDF權(quán)重計算方法改進(jìn)

        2018-02-12 12:24:56隗中杰
        軟件導(dǎo)刊 2018年12期
        關(guān)鍵詞:文本分類分布密度

        隗中杰

        摘要:TF?IDF是文本分類中計算特征權(quán)重的經(jīng)典方法,但其本身并未考慮特征詞在文檔集合中的分布情況,從而導(dǎo)致類別區(qū)分度不大。通過計算特征詞類內(nèi)密度與特征詞在樣本中均勻分布時整體平均密度的比值對IDF函數(shù)進(jìn)行改進(jìn)。實驗結(jié)果表明,改進(jìn)后的TF?IDF考慮了特征詞內(nèi)分布與在整體文檔集中的分布,提升了對類別的區(qū)分能力,有效改善了文本分類效果。

        關(guān)鍵詞:文本分類;密度;TF?IDF;特征權(quán)重;分布

        Improvement of TF?IDF Weight Calculation Method in Text Classification

        WEI Zhong?jie

        (Information Technology and Network Security, People's Public Security University of China,Beijing 100038,China)

        Abstract:TF?IDF is a classical method for calculating feature weight calculation in text classification, but it does not consider the distribution of feature words in the document collection itself, which results in less classification. In this paper, the IDF function is improved by calculating the ratio of the intra?class density of the feature words to the overall average density of the feature words evenly distributed in the sample. Experiments show that the improved TF?IDF considers the intra?class distribution of feature words and the distribution of the overall document set, which improves the ability to distinguish categories and effectively improves the text classification effect.

        Key Words:text classification; density; TF?IDF; feature weight; distribution

        0?引言

        隨著信息技術(shù)的發(fā)展與大數(shù)據(jù)時代的到來,每天都會產(chǎn)生海量數(shù)據(jù),信息量呈幾何級數(shù)增長,而文本數(shù)據(jù)在其中占據(jù)著非常重要的部分。因此,如何對相關(guān)數(shù)據(jù)進(jìn)行有效處理以便于人們加以利用,文本分類是至關(guān)重要的。文本分類是指將未分類的文檔,通過分析文檔內(nèi)容將其歸類為已知的某一個或某幾個類別[1]。文本分類通常需要經(jīng)過文本預(yù)處理、特征選擇、文本向量化、分類4個步驟。本文將對經(jīng)典方法TF?IDF進(jìn)行改進(jìn),并通過實驗證明改進(jìn)TF?IDF算法的有效性與可行性。

        1?國內(nèi)外研究現(xiàn)狀

        TF?IDF是使用最為廣泛的文本特征權(quán)重計算方法[2],對其進(jìn)行改進(jìn)更是文本分類與聚類領(lǐng)域的研究重點。在國外,F(xiàn)orman[3]通過統(tǒng)計比較類分布的顯著性,對IDF進(jìn)行二元正態(tài)分割;Lan等[4]提出TF?RF算法,用相關(guān)性頻率替代IDF。在國內(nèi),張玉芳等[5]將IDF計算改為IDF=log?N(t?j,c?i)N(t?j,c?i)+N(c?j,C?i),其中N(t?j,Ci)為類C?i中包含特征詞t?j的個數(shù),N(t?j,C?i)為非類C?i包含特征t?j?的個數(shù)。該方法將類內(nèi)與類間特征簡潔地體現(xiàn)在對IDF的改進(jìn)中,從而一定程度上改善了傳統(tǒng)TF?IDF的缺陷;申劍博[6]通過調(diào)和類內(nèi)均勻分布與類間比重,提出TF?DFI?DFO算法;覃世安[7]利用文檔中詞出現(xiàn)的概率替代詞頻,對IDF進(jìn)行了優(yōu)化;趙小華[8]通過CHI統(tǒng)計值對TF?IDF進(jìn)行修正,提出TF?IDF?CHI算法,之后路永和等[9]將CHI值取自然對數(shù),以改善其權(quán)重影響過大的問題,并提出TW?TF?IDF算法;馬瑩等[10]考慮特征詞之間的近義關(guān)系,結(jié)合語義相似度改進(jìn)詞頻信息,從而改進(jìn)了TF?IDF算法。此外,還有一些學(xué)者利用文檔長度與特征詞長度等信息對傳統(tǒng)方法進(jìn)行改進(jìn)[11?12]。本文通過特征詞類內(nèi)聚集程度與文檔集中的平均密度改進(jìn)TF?IDF方法,既考慮到特征詞的類內(nèi)分布,又考慮到特征項在整體文檔集中的分布,從而有效解決了傳統(tǒng)TF?IDF算法類別區(qū)分能力較低的問題,提高了文本分類精度。

        2?文本分類步驟

        2.1?文本預(yù)處理

        文本預(yù)處理主要步驟為分詞[13]與去停用詞。分詞即利用分詞算法將文本切分成字、詞、短語的過程,分詞精度對后續(xù)應(yīng)用模塊影響很大,是語言處理最核心的任務(wù)。中文分詞任務(wù)是在詞與詞之間添加間隔符,并盡可能保證分詞準(zhǔn)確性。分詞后的語料中包含大量無意義詞,例如人稱代詞、介詞、副詞等,這些詞稱為停用詞,對文本分類并無實質(zhì)性幫助,反而會使特征空間過大,影響分類速度與精度。因此,在文本分類時,應(yīng)將停用詞從特征集中去掉,以提高文本分類效率。

        2.2?特征選擇

        特征選擇[14]是指從一組特征中依據(jù)某個評估函數(shù)挑選出一些最具代表性的特征。特征選擇主要方法[15]包括文檔頻率(DF,Document Frequency)、信息增益(IG,Information Gain)、互信息(MI,Mutual Information)、χ?2統(tǒng)計量(CHI,Chi-square)、期望交叉熵(ECE,Expected Cross Entropy)等。其中χ?2統(tǒng)計量經(jīng)過實驗驗證有著較好效果,因此本文在后續(xù)實驗中通過?χ?2統(tǒng)計量進(jìn)行特征選擇。χ?2?統(tǒng)計方法是度量詞條與文檔類別之間相關(guān)程度的統(tǒng)計測試方法,其基本思想是通過觀察實際值與理論值之間偏差確定理論正確性,計算方程如下:

        其中,N表示整個語料文檔總數(shù),t為詞條,c為類別。A表示類別c中包含詞條t的文檔數(shù),B表示非類別c中包含詞條t的文檔數(shù),C表示類別c中不包含詞條t的數(shù)量,D表示非類別c中不包含詞條t的文檔數(shù)。

        2.3?文本向量化

        向量空間模型VSM[16]是應(yīng)用最廣泛的文本表示模型,通過特征權(quán)重反映特征詞對文檔貢獻(xiàn)大小、對該文本內(nèi)容標(biāo)識能力及區(qū)分其它文本的能力,TF?IDF則是計算特征權(quán)重的方法之一。

        2.4?文本分類

        文本分類算法是指通過已知類別樣本得到分類器,再通過分類器對未知類別樣本進(jìn)行自動分類。常見文本分類方法有KNN算法[17]、支持向量機(SVM)算法[18]、樸素貝葉斯算法、決策樹算法等。已有研究結(jié)果表明,SVM算法分類效果較好[19?21],因此本文選取SVM算法進(jìn)行分類器訓(xùn)練。

        3?TF?IDF算法改進(jìn)

        3.1?傳統(tǒng)TF?IDF算法

        TF?IDF是應(yīng)用最廣泛的權(quán)值計算方法。TF指詞頻(Term Frequency),代表一個詞或詞組在文檔中出現(xiàn)的頻率,IDF指逆文檔頻率(Inverse Document?Frequence),反映詞語在整個文檔集中的重要性,其思想為整個文檔集合中包含某個詞或詞組的文檔數(shù)越多,代表該詞或詞組對文本貢獻(xiàn)越低。TF與IDF常用公式如式(2)、式(3)所示。

        其中?N(t?i,d)表示特征詞條t?i在文檔d中出現(xiàn)次數(shù),S表示文檔d總詞條數(shù)。

        其中N表示總文檔數(shù),N(t?i)表示文檔集中包含詞條的文檔數(shù)。

        上式中,N(t?i)=N(t?i,C?j )+N(t?i,C?j),其中N(t?i,C?j )為特征詞t?i在類C?j中的文檔個數(shù),N(t?i,C?j )為非類C?j中包含特征詞t?i的文檔個數(shù),當(dāng)N(t?i,C?j )增加時,N(t?i)?也隨之增加,IDF值則會減少,最終權(quán)重值也會減少,意味著該特征詞不能很好地將該類文檔與其它類別文檔加以區(qū)分,類別區(qū)分能力較弱。但是根據(jù)實際文本分類進(jìn)行判斷,如果某一詞項在某一類中出現(xiàn)次數(shù)越多,越能代表該類文檔,特征權(quán)重也越高,且區(qū)別于其它類別的能力越強。因此,傳統(tǒng)IDF不能很好地反映特征詞分布情況,權(quán)值大小僅是由整個語料中包含特征項的文檔個數(shù)決定的,導(dǎo)致傳統(tǒng)TF?IDF的類別區(qū)分能力不足。

        3.2?TF?IDF改進(jìn)

        現(xiàn)有某一語料,其類別集合為S={C?1,C?2,C?3,…,C?n},n為類別數(shù)目,特征詞集合為T={t?1,t?2,t_3,…,t?j },j為特征詞數(shù)目。本文提出的改進(jìn)算法思想是:首先,假設(shè)特征詞t在整個語料中均勻分布,可求得特征詞t的分布密度ρ?t;其次,求出特征詞t對于類C?i的分布密度ρ?ti;最后,通過計算ρ?ti與ρ?t之間比值,便可得到類C?i中特征詞t的聚集程度c。c值越大,說明特征詞t在類C?i中聚集程度越高,反之亦然?;谝陨纤枷?,?對IDF進(jìn)行以下改進(jìn):

        其中,?N(t?j,C?i)表示類C?i中包含特征詞t?j的文本數(shù)目,N(t?j,C?i)表示類C?i中不包含特征詞t?j的數(shù)目,N(t?j,C?i)表示非類C?i中包含特征t?j的數(shù)目,N?為訓(xùn)練集中的文檔總數(shù)。調(diào)整后的IDF′考慮到詞條加入的類別信息,從而克服了傳統(tǒng)TF?IDF存在的問題。

        將公式進(jìn)行如下驗證:類C?i中出現(xiàn)特征詞t?j的文檔數(shù)N(t?j,C?i)與特征詞t?j對于類C?i的特征權(quán)重應(yīng)呈正相關(guān)。N(t?j,C?i )+N(t?j ,C?i) = N(C?i)與N都是一個常數(shù)。因此,上述公式可簡化為求N(t?j,C?i)與N(t?j,C?i)N(t?j,C?i)+N(t?j,C?i)的相關(guān)性。

        其中,N(t?j,C?i)增加時,N(t?j,C?i)N(t?j,C?i)+N(t?j,C?i)的值也隨之增加,所以兩者正相關(guān)。因此,N(t?j,C?i)與特征權(quán)重呈正相關(guān),即特征詞在某類中出現(xiàn)頻率越高,其相應(yīng)特征權(quán)重越大。同理可證明,N(t?j,C?i)與特征權(quán)重負(fù)相關(guān),即非類C?i中包含特征詞t?j的文檔越多,則特征詞t?j對于類C?i的?權(quán)重越小,符合對傳統(tǒng)TF?IDF改進(jìn)的要求,因此可用于特征權(quán)重計算。

        4?實驗結(jié)果及分析

        4.1?實驗環(huán)境與實驗數(shù)據(jù)集

        本文文本分類算法通過python語言加以實現(xiàn),并在Windows10環(huán)境下進(jìn)行測試,內(nèi)存為8G。實驗數(shù)據(jù)來自搜狗實驗室搜集的9個類別新聞?wù)Z料,包括財經(jīng)、互聯(lián)網(wǎng)、健康、教育、軍事、旅游、體育、文化、招聘。本文在每類中隨機挑選1 000篇文章進(jìn)行訓(xùn)練與測試,訓(xùn)練集與測試集比例為4∶1。

        4.2?評價指標(biāo)

        本文采取準(zhǔn)確率?P、召回率R、F1值及宏平均F1值對分類效果進(jìn)行評估。分類結(jié)果有以下4種情況:①屬于類C的樣本被正確分類到類C的數(shù)目,記為TP;②不屬于類C的樣本被分類到類C的數(shù)目,記為FN;③屬于類C的樣本被錯誤分類到其它類,記為TN;④不屬于類C且被正確分到其它類,記為FP。

        準(zhǔn)確率即為預(yù)測該類樣本準(zhǔn)確性,計算公式如下:

        召回率即為預(yù)測正確的類別樣本對于樣本集中該類別樣本的覆蓋程度,公式為:

        F1值用來調(diào)和準(zhǔn)確率和召回率,計算公式如下:

        宏平均F1值可用來評價整個分類器分類效果的優(yōu)劣,其值為各類F1值的算術(shù)平均值。

        4.3?實驗結(jié)果

        本文實驗首先對文檔集合進(jìn)行預(yù)處理,并使用統(tǒng)計量進(jìn)行特征選擇,取每個類別值排名前100的關(guān)鍵詞組成特征集合。兩種算法通過SVM進(jìn)行分類,實驗結(jié)果如圖1與表2所示。

        從表2與圖1可以看出,改進(jìn)TF?IDF相比于傳統(tǒng)TF?IDF,分類效果有著顯著提升。由圖1可以看出,各個類別的?F1?值均有所提升,其中“文化”一類提升最為明顯,提升了6.18%,并且宏平均?F1?值由84.50%提升到87.16%。實驗結(jié)果表明,改進(jìn)后的TF?IDF方法對于提高文本分類效果是可行的。

        5?結(jié)語

        針對傳統(tǒng)TF?IDF不能體現(xiàn)特征詞分布情況以及類別區(qū)分能力不足的缺點,本文通過特征詞類內(nèi)密度與特征詞均勻分布時的密度之比(聚集程度)對IDF進(jìn)行改進(jìn)。實驗結(jié)果證明,改進(jìn)的TF?IDF算法分類效果優(yōu)于傳統(tǒng)TF?IDF算法。文本分類中,特征詞提取也是其中的關(guān)鍵一環(huán),因此在接下來研究中,將會對特征詞選擇與提取進(jìn)行改進(jìn),以進(jìn)一步提升文本分類效果。

        參考文獻(xiàn):

        [1]?SEBASTIANI F. Machine learning in automated text categorization[J]. ACM Computing Surveys (CSUR), 2002, 34(1):1?47.

        [2]?施聰鶯,徐朝軍,楊曉江.TFIDF算法研究綜述[J].計算機應(yīng)用,2009,29(S1):167?170,180.

        [3]?FORMAN G. BNS feature scaling: an improved representation over TF?IDF for SVM text classification[C].Proceedings of the 17th ACM Conference on Information and Knowledge Management. USA, California: ACM, 2008:263?270.

        [4]?LAN M,TAN C L,LOW H B,et al.A comprehensive comparative study on term weighting schemes for text categorization with support vector machines[C].Special Interest Tracks and Posters of the 14th International Conference on World Wide Web,ACM,2005: 1032?1033.

        [5]?張玉芳,彭時名,呂佳.基于文本分類TF?IDF方法的改進(jìn)與應(yīng)用[J].計算機工程,2006(19):76?78.

        [6]?申劍博.改進(jìn)的TF?IDF中文本特征詞加權(quán)算法研究[J].軟件導(dǎo)刊,2015,14(4):67?69.

        [7]?覃世安,李法運.文本分類中TF?IDF方法的改進(jìn)研究[J].現(xiàn)代圖書情報技術(shù),2013(10):27?30.

        [8]?趙小華.KNN文本分類中特征詞權(quán)重算法的研究[D].太原:太原理工大學(xué),2010.

        [9]?路永和,李焰鋒.改進(jìn)TF?IDF算法的文本特征項權(quán)值計算方法[J].圖書情報工作,2013,57(3):90?95.

        [10]?馬瑩,趙輝,李萬龍,等. 結(jié)合改進(jìn)的CHI統(tǒng)計方法的TF?IDF算法優(yōu)化[J]. 計算機應(yīng)用研究,2019 (9):1?6.

        [11]?賀科達(dá),朱錚濤,程昱.基于改進(jìn)TF?IDF算法的文本分類方法研究[J].廣東工業(yè)大學(xué)學(xué)報,2016,33(5):49?53.

        [12]?楊彬,韓慶文,雷敏,等.基于改進(jìn)的TF?IDF權(quán)重的短文本分類算法[J].重慶理工大學(xué)學(xué)報,2016,30(12):108?113.

        [13]?梁喜濤,顧磊.中文分詞與詞性標(biāo)注研究[J].計算機技術(shù)與發(fā)展,2015,25(2):175?180.

        [14]?毛勇,周曉波,夏錚,等.特征選擇算法研究綜述[J].模式識別與人工智能,2007,20(2):211?218.

        [15]?陳晨. 文本分類中基于k?means的特征選擇算法研究[D].西安:西安電子科技大學(xué),2014.

        [16]?SALTON G, WONG A, YANG C S. A vector space model for automatic indexing[J]. Communications of the Acm, 1974, 18(11):613?620.

        [17]?COVER T, HART P E. Nearest neighbor pattern classification[J]. Information Theory, IEEE Transactions on, 1967,13(1):21?27.

        [18]?丁世飛,齊丙娟,譚紅艷.支持向量機理論與算法研究綜述[J].電子科技大學(xué)學(xué)報,2011,40(1):2?10.

        [19]?劉懷亮,張治國,馬志輝,等.基于SVM與KNN的中文文本分類比較實證研究[J].情報理論與實踐,2008,31(6):941?944.

        [20]?馬建斌,李瀅,滕桂法,等.KNN和SVM算法在中文文本自動分類技術(shù)上的比較研究[J].河北農(nóng)業(yè)大學(xué)學(xué)報,2008(3):120?123.

        [21]?盧葦,彭雅.幾種常用文本分類算法性能比較與分析[J].湖南大學(xué)學(xué)報:自然科學(xué)版,2007(6):67?69.

        猜你喜歡
        文本分類分布密度
        『密度』知識鞏固
        密度在身邊 應(yīng)用隨處見
        “玩轉(zhuǎn)”密度
        密度應(yīng)用知多少
        基于組合分類算法的源代碼注釋質(zhì)量評估方法
        大葉千斤拔活性成分分布及積累動態(tài)
        28例醫(yī)療糾紛起訴案件特點分析
        基于貝葉斯分類器的中文文本分類
        基于蟻群智能算法的研究文本分類
        文本分類算法在山東女子學(xué)院檔案管理的應(yīng)用
        科技視界(2016年24期)2016-10-11 09:36:57
        国产一区二区三区av免费| 色www亚洲| 日本亚洲成人中文字幕| 日韩av天堂一区二区三区在线| 在线中文字幕乱码英文字幕正常| 男女爽爽无遮挡午夜视频| 四虎在线播放免费永久视频| 亚洲国产精品亚洲高清| 在线精品首页中文字幕亚洲| 18禁无遮拦无码国产在线播放| 猫咪www免费人成网最新网站| 精品人妻av一区二区三区不卡| 亚洲精品国产二区三区在线| 翘臀诱惑中文字幕人妻| 久久精品国产免费观看三人同眠| 好日子在线观看视频大全免费动漫| 无码不卡免费一级毛片视频| 久久亚洲精品中文字幕蜜潮| 亚洲精品无码av人在线观看国产| 精品视频一区二区三区在线观看| 夜夜嗨av一区二区三区| 免费成人毛片| 日韩一区二区,亚洲一区二区视频 国产一区二区三区经典 | 精品人妻一区二区蜜臀av| av在线播放男人天堂| 伊人久久久精品区aaa片| 国产精品无码久久久一区蜜臀 | 日本免费一区精品推荐| 国产亚洲超级97免费视频| 欧美 丝袜 自拍 制服 另类| 中文字幕Aⅴ人妻一区二区苍井空| av在线资源一区二区| 成人欧美一区二区三区在线| 亚洲欧洲精品成人久久曰影片 | 亚洲av推荐网站在线观看| 四虎国产成人永久精品免费| 久久久久久久性潮| 国产一区二区三区最新视频| 国产成人高清在线观看视频| 丰满人妻熟妇乱又伦精品软件| 本道无码一区二区久久激情|