亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于改進TF-IDF算法的文本分類方法研究

        2016-10-17 06:00:43賀科達朱錚濤
        廣東工業(yè)大學學報 2016年5期
        關鍵詞:分類特征文本

        賀科達, 朱錚濤, 程 昱

        (廣東工業(yè)大學 信息工程學院,廣東 廣州 510006)

        ?

        基于改進TF-IDF算法的文本分類方法研究

        賀科達, 朱錚濤, 程昱

        (廣東工業(yè)大學 信息工程學院,廣東 廣州 510006)

        類別關鍵詞是文本分類首先要解決的關鍵問題,在研究利用類別關鍵詞及TF-IDF算法對文本進行分類的基礎上,提出了一種改進的TF-IDF算法.首先建立類別關鍵詞庫,并對其進行擴充及去重,克服了向量空間模型不能很好調節(jié)權重的缺點.通過加入文檔長度權值修正文檔中關鍵詞的權重,有效地解決了原有特征詞條類別區(qū)分能力不足的問題.采用貝葉斯分類方法,結合實驗驗證了該算法的有效性,提高了文本分類的準確度.

        提?。?特征選擇; 文本分類; 預處理

        隨著網絡技術的不斷發(fā)展,全球信息化以驚人的速度快速發(fā)展.近年來更是在全球范圍內掀起了傳播數據信息的浪潮,企業(yè)積累了大量的數據,這是它們最為寶貴的財富.對海量數據的獲取、匯總、聚類[1]、分類顯得尤為重要,其中文本分類的作用也越來越重要.文本分類[2]指對于所給出的文本集合,將每篇文檔歸入到按照預先定義的一個或者多個主題類別當中.而文本自動分類則是通過計算機程序來實現文本的準確、高效的分類.文本分類是數據挖掘中的一個重要內容.中文文本分類的基本步驟是中文分詞、特征提取、訓練模型、預測類別等步驟.在眾多的文本分類算法中,主要有Rocchio算法、樸素貝葉斯分類算法[3]、決策樹算法[4]、K-means算法、神經網絡算法和SVM(Support Vector Machine)算法[5].

        文本分類的研究可以追溯到20世紀60年代, 1957年美國IBM公司的盧恩(H.P.Luhn)提出的基于詞頻統計的抽詞標引法[6],在這一領域進行了開創(chuàng)性的研究.對于TF-IDF算法,國內外學者做了大量的改進工作,研究內容主要圍繞IDF計算方法展開,對其進行改進.TF-IDF算法源于Salton在文獻[7]中提出的TFDF算法.此后,Salton多次論證TFDF算法在信息檢索中的有效性[8].在此基礎上,國外學者Forman[9]運用概率統計方法度量并比較關于類別分布的顯著性,對IDF的計算方法采用二元正太分割(Bi-Nor-mal Separation)計算方法.Lan等[10]提出TF-RF算法,用相關性頻率(RF)方法代替IDF計算方法,在這一領域進行了卓有成效的研究.國內學者張玉芳等[11]提出增加在某一個類中頻繁出現的詞條的權重,結合遺傳算法[12]使得分類準確率有所提高.張瑾[13]通過加入位置權值及詞跨度權值來避免單純采用TF-IDF算法產生的偏差.雖然還有一些學者對TF-IDF方法進行了其他方面的一些改進,但是還存在特征詞權值波動,對信息增益、信息熵、相關性頻率等計算量大,復雜度高等問題[14].針對這些問題,本文研究TF-IDF改進算法,解決向量空間模型問題,通過加入文檔長度權值,修正文檔中關鍵詞的權重,有效地解決了因為權值問題使得特征詞條的類別區(qū)分能力不足的問題.

        1 文本預處理

        1.1文本分詞及關鍵詞選取

        文本分詞是文本處理中最基本的過程,在中文文本中可以選擇字、詞或者詞組作為文本的特征項,相比較而言,詞比字和詞組具有更多優(yōu)勢,具有更強的表達能力,更加容易切分.因此,在對文本進行預處理時采用的方法通常是分詞處理.本文采用ICTCLAS[15]對每篇文章進行中文分詞,根據特征權重計算方法構建VSM(Vector Space Model)模型.如果把所有的詞都作為特征項,則特征向量維數過大,計算量也隨之變大,故需要減少詞的數量以此來降低向量空間維數,從而減少計算量,提高計算速度和精準度.本文采用選取關鍵詞對文章進行降維,對于每一個類別的文章都有其對應的關鍵詞,而每篇文章都是圍繞相應的主題展開的,各個主題之間都有相對明顯的區(qū)別,每個類可以通過類別關鍵詞來表示.所以,文本中的關鍵詞對文本分類具有特殊的作用.例如,一篇關于環(huán)境的文章中可能會出現“海嘯”、“大氣污染”、“溫室效應”等詞匯.根據類別關鍵詞可以組成關鍵詞詞庫,這樣使得分類效率和速度得到很大的提升.關鍵詞庫組建主要包括以下幾個方面:

        (1) 通過分詞軟件得到類別關鍵詞詞匯列表;

        (2) 根據人工分類體系將每個類別中的文章主題詞組成一個類別詞庫;

        (3) 根據關鍵詞的同義詞對其進行拓展,然后去掉重復詞匯.

        1.2文本表示

        在對文本進行分類時,需將文本轉化為向量,能夠被計算機處理,其中向量空間模型是文本表示的常用模型之一.VSM[16]模型概念簡單,把文本內容轉化為向量運算,并且以空間上的相似度表達語義相似度,直觀易懂.文檔被看作為一個多維向量,特征項當作其中的一維,特征項的TF-IDF值作為向量分量的值,通過余弦距離來表達文本相似性度量.

        2 TF-IDF算法及其改進

        2.1傳統的TF-IDF及其存在的問題

        TF-IDF是一種統計方法,廣泛應用于文本分類, TF指的是一個詞或者詞組在文檔中的頻率,其主要思想[17]是:若在一篇文章中某個詞或詞組的TF值高且其在其他的文章中的TF值小,那么就認為該詞或者詞組的類別區(qū)分能力強,和其他的詞或詞組相比,其更適宜用于分類.TF-IDF實際上是:TF×IDF,TF詞頻(Term Frequency) 表示詞條在文檔d中出現的頻率,IDF反文檔頻率(Inverse Document Frequency)是一個詞或者詞組的普遍重要性的度量,常用計算公式為式(1)、(2)[18]:

        (1)

        其中t表示特征詞條在文檔w中出現的次數,s表示文檔w中出現的總詞條數.

        (2)

        其中D表示語料庫中文檔總數,d表示包含特征詞條的文檔總數.

        由式(2)[19]可知,如果語料庫中的某一類文檔C中包含特征詞條t的文檔數為n,而在其他類中包含t的文檔總數為m.所以,在文檔集中所有包含特征詞條t的文檔數d=n+m,當n增大的時候,d也會增大.當d增大時,按照式(2)得到的IDF的值會變小,則說明該特征詞條t的對于文檔類別來說,它不能很好地區(qū)別于其他的文本類別,表明它的類別區(qū)分能力不是很強.但是在實際文本分類中,如果特征詞條t在文本類別Ci中的文檔中頻繁出現,那么就說明特征詞條t能夠很好地代表類別Ci的文本的特征,具有較好的類別區(qū)分能力.對于類似特征詞條t這樣的詞條,在進行權重賦值時,相較于其他的特征詞條應該賦予更高的權重,并應當選來作為Ci類文本的特征詞,便于與其他類的文檔有所區(qū)別.當關鍵詞在其他類頻繁出現時,原有IDF計算方法造成了分類能力的下降,這就是TF-IDF算法的不足之處.

        2.2改進后的TF-IDF算法

        在多數文本分類中,特別是多類別文本分類中,對于某個特征詞條,該詞條可能會出現在該類別的多個文本中,也有可能出現在其他類別中,故而會使得特征詞條的權值不同.而權值的不同對分類的穩(wěn)定性產生很大的影響,在一定程度上會有波動現象.

        針對權值波動現象,本文提出了IDF的改進算法.在所選的數據集中有待分類文檔的類別集合C={C1,C2,…,Cm},Cm(Cm∈C)中的文檔集合D={d1,d2,…,dn},其中n為文檔的數目.文檔中出現的特征詞集合I={i1,i2,…,ik},其中ik為Cm中所有出現的特征詞以及根據其拓展后的特征詞集合.針對傳統TF-IDF算法的不足,計算IDF時,以特征值的頻率與對應文檔的長度乘積比代替特征值的頻率比,對其進行了均值化,這樣可以修正文檔中的關鍵詞權重,減少文檔長度對權值的影響.改進的IDF權重計算公式:

        (3)

        其中mi1表示特征詞條i在Ci類文本i1中出現的次數,li1表示文本i1的長度,t表示所屬類別中包含特征詞條i的文本數目,ni2表示除了Ci類外,在其他類文本i2中特征詞條i出現的次數,li2表示文本i2的長度,s表示所屬類別中包含特征詞條i的文本數目,n表示文本中特征詞條i的總數目,li3表示文本i3的長度,k表示包含特征詞條i的文本總數.

        2.3分類算法

        本文描述了文本預處理的方法并分析了TF-IDF算法的不足之處,據此本文對其進行了優(yōu)化,在此基礎上本文利用貝葉斯算法[20]對文本進行分類,并通過實驗來評價TF-IDF算法的性能.其主要步驟如下:

        (1) 通過分詞軟件對數據集中的文本進行關鍵詞提取并對其進行擴展得到關鍵詞庫;

        (2) 對得到的關鍵詞庫建立VSM模型,把文本內容轉化為向量運算;

        (3) 利用優(yōu)化后的TF-IDF算法分別計算每個關鍵詞的TF-IDF值;

        (4) 將獲得的TF-IDF值作為特征向量,采用貝葉斯算法對文本進行分類,結合實驗評估改進算法的性能.

        3 實驗及分析

        3.1評價標準

        對于優(yōu)化后的算法需對其性能進行評估,評估文本分類系統的性能,國際上有通用的評估指標,包括召回率(Recall)、查準率(Precision)和F1評估值3項.本實驗采用這3項指標對改進的后的TF-IDF算法進行測試.其對應的公式[21]分別如下:

        (4)

        召回率是衡量文本分類系統從數據集中分類成功度的一項指標,體現了分類的完備性,A表示分類正確的文本數,(A+B)表示總的文本數.

        (5)

        查準率是衡量文本系統中分類的準確程度,A表示分類正確的文本數,(A+C)表示總的文本數.

        (6)

        召回率和查準率之間具有互逆關系,它們反映了分類準確性的兩個不同方面,當P的指標上升時,會導致R的指標下降.所以取兩者的調和均值,由此可知,F1的值越大,分類效率也就越好.

        3.2實驗數據

        數據集采用復旦大學計算機信息與技術系國際數據庫中心自然語言處理小組的語料庫,選取了其中6個主題作為本文的數據集,其中包括計算機、環(huán)境、農業(yè)、經濟、政治、體育.經過選取關鍵詞后,將文本分為訓練文本和測試文本,兩者彼此不重疊.各主題類的實驗文本數如表1所示.

        表1 實驗數據

        3.3實驗結果及分析

        實驗分別對文本進行關鍵詞提取,根據2.2提出的方法分別計算每個關鍵詞的TF-IDF值,采用貝葉斯算法對文本進行分類,把經本文改進的TF-IDF的分類效果與引入位置權值及詞跨度權值的TF-IDF的分類效果進行比較,得到的分類結果如表2所示.

        表2 改進方法的比較實驗結果

        表2中R、P和F1,R′、P′和F1′分別指的是引入位置權值及詞跨度權值的TF-IDF算法以及經本文改進后的TF-IDF算法計算得出的召回率、查準率及F1值.從表2的實驗結果可以看出,經過本文改進的TF-IDF,不管是召回率、查準率還是F1值,相比于引入位置權值及詞跨度權值的TF-IDF算法都有一定的提升.可以分析得出本文改進的TF-IDF算法在文本分類領域中有一定的優(yōu)勢.

        4 結語

        本文針對類別關鍵詞改進了TF-IDF算法,首先對文本進行關鍵詞提取,然后通過計算其改進后的TF-IDF值形成特征向量,最后根據貝葉斯算法對文本進行分類.性能對照實驗結果表明,經過對TF-IDF算法進行優(yōu)化后,分類準確率得到了一定的改善.也就是說改進后的TF-IDF方法優(yōu)于引入位置權值及詞跨度權值的TF-IDF的分類效果.本文通過提取類別關鍵詞,減少了特征向量維數,使得分類的時間效率有了一定的提高,可以減少約3%.因此改進后的TF-IDF方法是有效且可行的.

        關鍵詞的選取工作還有待進一步完善:當兩個類別相近時,其關鍵詞也有很多同義詞,故而會使得分類效果不好,比如實驗中容易將農業(yè)類的文章劃分到環(huán)境類中.

        [1] 蔣盛益,王連喜.聚類分析研究的挑戰(zhàn)性問題[J]. 廣東工業(yè)大學學報, 2014, 31(3):32-38.

        JIANG S Y, WANG L X. Some challenges in clustering analysis[J]. Journal of Guangdong University of Technology, 2014, 31(3): 32-38.

        [2] 譚學清,周通,羅琳.一種基于類平均相似度的文本分類算法[J].現代圖書情報技術, 2014, 250 (9): 66-73.

        TAN X Q, ZHOU T, LUO L. A text classification algorithm based on the average category similarity[J].New Technology of Library and Information Service, 2014, 250 (9): 66-73.

        [3] GENG X L, GAO X Y, ZHAO B. Research on Chinese text classification based on Naive Bayesian method[C]∥Proceedings of the Fifth International Symposium on Test Automation & Instrumentation (Vol.1).[S. l.]:[s. n.], 2014: 226-230.

        [4] KATZ G, SHABTAIA, ROKACH L. CONFDTREE O N: A statistical method for improving decision trees[J].Data Management and Data Mining, 2014,29(3):392-407.

        [5] 陳培文,傅秀芬.采用SVM 方法的文本情感極性分類研究[J].廣東工業(yè)大學學報,2014,31(3):95-101.

        CHEN P W, FU X F. Research on sentiment classification of texts based on SVM[J]. Journal of Guangdong University of Technology, 2014, 31(3): 95-101.

        [6] 沈志斌,白清源.文本分類中特征權重算法的改進[J].南京師范大學學報, 2008, 8(4): 95-98.

        SHEN Z B, BAI Q Y. Improvement of feature weighting algorithm in text classification[J]. Journal of Nanjing Normal University, 2008, 8(4): 95-98.

        [7] SALTON G, YU C T. On the construction of effective vocabularies for information retrieval[J]. ACM Sigplan Notices, 1975, 9(3): 48-60.

        [8] SALTON G. Extended boolean information retrieval[J].Cornell University, 1983, 11(4): 95-98.

        [9] FORMAN G. BNS feature scaling: an improved representation over TF-IDF for SVM text classification[C]∥Proceedings of the 17th ACM Conference on Information and Knowledge Management. USA, California: ACM, 2008: 263-270.

        [10] LAN M, TAN C L, LOW H B, et al. A comprehensive comparative study on term weighting schemes for text categorization with support vector machines[C]∥Special Interest Tracks and Posters of the 14th International Conference on World Wide Web.[S.l.]: ACM, 2005: 1032-1033.

        [11] 張玉芳,彭時名,呂佳.基于文本分類TFIDF方法的改進與應用[J].計算機工程, 2006, 32(19): 76-78.

        ZHANG Y F, PENG S M, LYU J. Improvement and application of TFIDF method based on text classification[J] Computer Engineering, 2006, 32(19): 76-78.

        [12] 谷小青,易當祥,劉春和.遺傳算法優(yōu)化神經網絡的拓撲結構與權值[J].廣東工業(yè)大學學報,2006, 23(4): 64-69

        GU X Q, YI D X, LIU C H. Optimization of topological structure and weight value of artificial neural network using genetic algorithm[J]. Journal of Guangdong University of Technology, 2006, 23(4): 64-69.

        [13] 張瑾.基于改進TF-IDF算法的情報關鍵詞提取方法[J].情報雜志, 2014, 33(4): 153-155.

        ZHANG J. A method of intelligence key words extraction based on improved TF-IDF[J]. Journal of Intelligence, 2014, 33(4): 153-155.

        [14] 王清毅,張波,蔡慶生.目前數據挖掘算法的評價[J].小型微型計算機系統, 2000, 21(1): 75-78.

        WANG Q Y, ZHANG B, CAI Q S. Evaluation of current data mining algorithms[J] Mini- Micro System, 2000, 21(1): 75-78.

        [15] ZHANG H P, YU H K, XIONG D Y, et al. HHMM-Based Chinese lexical analyzer ICTCLAS[C]∥Proceedings of the second SIGHAN workshop on Chinese language processing-Volume 17. PA: Association for Computational Linguistics, 2003: 184-187.

        [16] 郭慶琳,李艷梅,唐琦. 基于VSM的文本相似度計算的研究[J].計算機應用研究2008, 25(11): 3256-3258.

        GUO Q L, LI Y M, TANG Q. Similarity computing of documents based on VSM[J]. Application Research of Computer, 2008, 25(11): 3256-3258.

        [17] 覃世安,李法運.文本分類中TF-IDF方法的改進研究[J].現代圖書情報技術, 2013, 38(10): 27-30.

        TAN S A, LI F Y. Improved TF-IDF method in text classification[J]. New Technology of Library and Information Service, 2013, 38(10): 27-30.

        [18] GERARD SALTON,CHRISTOPHER BUCKLEY.Term-weighting approaches in automatic text retrieval[J]. Information Processing & Management,1988, 24( 5) : 513 -523.

        [19] 徐山,杜衛(wèi)鋒.不可靠語料庫的提純及詞權度量指標IDF的改進[J].微型機與應用, 2013, 32(4): 61-63.

        XU S, DU W F. The purification of unreliable corpus and the improvement of word weight index IDF[J]. Microcomputer & Its Applications, 2013, 32(4): 61-63.

        [20] 駱樺,張喜梅.基于貝葉斯分類法的股票選擇模型的研究[J].浙江理工大學學報, 2015, 33(3): 418-422.

        LUO H, ZHANG X M. Research on stock selection model based on bayesian classifier[J]. Journal of Zhejiang Sci-Tech University, 2015, 33(3): 418-422.

        [21] YIMING Y. An evaluation of statistic approaches to text categorization[J]. Information Retrieva, 1999, 1(12): 69-90.

        A Research on Text Classification Method Based on Improved TF-IDF Algorithm

        He Ke-da, Zhu Zheng-tao,Cheng Yu

        (School of Information Engineering, Guangdong University of Technology, Guangzhou 510006, China)

        Establishing category keywords is the key problem in text classification, which should be solved first. On the basis of the classification of text by using the category keywords and TF-IDF algorithm, an improved TF-IDF algorithm has been proposed to overcome the shortcomings of the vector space model, which cannot well adjust the weights. Firstly, category keyword library should be established, and the expansion and duplication be carried out. The weight of keywords in the document is modified by the addition of the length of the document, and the shortage of the original features of the entry class distinction ability is solved effectively. By using Bayesian classification method, combined with the experiments, the effectiveness of the algorithm is verified, and the accuracy of text classification improved.

        extraction; feature selection; text classification; pretreatment

        2015- 09- 22

        國家自然科學基金資助項目(11204043)

        賀科達(1989-),男,碩士研究生,主要研究方向為數據與文本挖掘.

        朱錚濤(1967-),男,副教授,博士,主要研究方向為計算機視覺檢測技術.E-mail:511972136@qq.com

        10.3969/j.issn.1007- 7162.2016.05.009

        TP393

        A

        1007-7162(2016)05- 0049- 05

        猜你喜歡
        分類特征文本
        分類算一算
        如何表達“特征”
        在808DA上文本顯示的改善
        不忠誠的四個特征
        當代陜西(2019年10期)2019-06-03 10:12:04
        分類討論求坐標
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        數據分析中的分類討論
        教你一招:數的分類
        抓住特征巧觀察
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
        欧美精品v国产精品v日韩精品| 蜜桃网站入口可看18禁| 日本人妖熟女另类二区| 激烈的性高湖波多野结衣| 人人做人人妻人人精| 在线观看av片永久免费| 伊人久久大香线蕉av最新午夜| 亚洲av无码无限在线观看| 丰满女人又爽又紧又丰满| 天天射色综合| 精品极品视频在线观看| 一本色道久久综合狠狠躁篇 | 亚洲av无码国产精品色午夜软件| 亚洲伊人色欲综合网| 亚洲中文字幕无码卡通动漫野外| 国产av精品久久一区二区| 91中文人妻熟女乱又乱| 亚洲色www成人永久网址| 九九久久国产精品大片| 中文字幕亚洲高清精品一区在线| 亚洲国产av无码精品| 超碰97人人做人人爱少妇| 久久久99久久久国产自输拍| 国产主播性色av福利精品一区| 极品少妇小泬50pthepon| 亚洲香蕉视频| 久草视频在线视频手机在线观看| 国精产品一区一区三区有限在线 | 色综合999| 久久久精品亚洲人与狗| 丰满岳乱妇一区二区三区| 国产美女免费国产| 成年女人午夜特黄特色毛片免| 少妇性l交大片7724com| 国产精品亚洲а∨无码播放| 国产精品久久毛片av大全日韩| 精品国产午夜久久久久九九| 高潮精品熟妇一区二区三区| 国产三级久久久精品麻豆三级| 国产欧美精品在线一区二区三区| 成人全视频在线观看免费播放|