楊 彬,韓慶文,雷 敏,張亞鵬,劉向國,楊亞強,馬雪峰
(1.重慶大學通信工程學院,重慶400044;2.重慶阿爾法碳索科技有限公司,重慶400000)
基于改進的TF-IDF權重的短文本分類算法
楊 彬1,韓慶文1,雷 敏2,張亞鵬2,劉向國2,楊亞強2,馬雪峰2
(1.重慶大學通信工程學院,重慶400044;2.重慶阿爾法碳索科技有限公司,重慶400000)
短文本具有特征稀疏的特點,如采用TF-IDF權重和算法來選擇短文本特征,很多具有專業(yè)領域信息特征而訓練集中未出現(xiàn)過的特征將被忽略,從而導致待分類文本集的權值分布比較集中,區(qū)分度小,最終影響短文本信息推送。因此,一種基于改進的TF-IDF權重的短文本分類算法被提出。該算法通過同義詞對分類器的關鍵詞庫進行擴展和基于特征長度對短文本權值進行加權,使得文本集的權值方差增大。與直接對短文本進行擴展的算法相比,該算法具有更快的分類速度。
短文本;TF-IDF權重;特征擴展
近年來,隨著社交網(wǎng)絡服務的逐漸興起,產(chǎn)生了海量的短文本數(shù)據(jù)。短文本通常是指語義表達精煉、長度較短(不超過100個字符)的文本,如網(wǎng)絡評論、新聞標題、微博等。短文本能反映人們對輿論事件的不同態(tài)度和看法,在搜索引擎、情感分析等領域發(fā)揮著重要的作用。如何從海量短文本中挖掘出專業(yè)領域信息成為一大挑戰(zhàn)[1]。主流的文本分類算法均采用機器學習的方法,例如K近鄰(k-nearest neighbors,KNN)[2]、樸素貝葉斯(Na??ve Bayes)、最大熵(maximum entropy)[3]、支持向量機(support vectormachine,SVM)[4]、神經(jīng)網(wǎng)絡(neural networks)等,利用事先手工標記的具有確定類別的文本進行訓練得到分類器模型,通過分類器模型預測待檢測文本的類別。由于短文本具有特征稀疏的特點,在進行文檔特征表示時,采用傳統(tǒng)的基于詞語出現(xiàn)頻次和文檔數(shù)量間的關系來選擇特征詞,因此很多具有專業(yè)領域信息特征而訓練集中未出現(xiàn)過的特征將被忽略,導致分類效果不理想,待分類文本集的權值分布比較集中,文本區(qū)分度小,影響短文本信息推送。
短文本分類問題主要是降低特征向量空間的高維性和文檔特征向量的稀疏性。從向量空間模型來看,確定特征項后,如何計算特征權重是文檔分類的重點。
本文給出了一種基于改進的TF-IDF權重的短文本分類算法,旨在解決短文本分類中的數(shù)據(jù)稀疏性與文本區(qū)分度問題,使得短文本分類信息推送滿足用戶需求。
近年已有很多學者為解決短文本分類問題中的稀疏性問題作了相關研究。目前國內(nèi)外學者的主要研究方向是對短文本特征進行擴展。特征擴展主要有基于相似度擴展和基于知識庫擴展[5]。文獻[6]使用搜索引擎返回結果來比較詞語相似度,缺點是在線查詢依賴網(wǎng)絡因而比較耗時,不利于時效要求較高的實時應用。文獻[7-8]提出了使用維基百科作為固定的資源搜索庫,文獻[8]進一步采用Lucene(https://lucene.apache.org/)對維基百科建立索引,將Lucene返回結果作為擴展特征。文獻[1]提出了一種基于詞矢量相似度的分類方法,通過對訓練數(shù)據(jù)集進行訓練得到詞矢量,然后對測試集中出現(xiàn)的集外詞利用詞矢量之間的相似度進行擴展。上述方法都是利用外部相關數(shù)據(jù)來衡量詞語相似度對原始文本進行擴展?;谡Z義知識庫擴展方法主要是依據(jù)語義知識庫的概念關系進行擴展,語義知識庫包括HowNet、WordNet、FrameNet等。Hu Xia等[9-10]將短文本原始詞特征以及種子詞特征構成層次表示模型,然后借助外部資源來擴展獲取基于種子詞特征的語義信息。文獻[11]考慮了特征之間的語義關聯(lián),使用基于主題本體的特征擴展方法,達到了較好的分類性能?;谥R庫擴展方法不需在線連接外部知識庫,雖然省去了聯(lián)網(wǎng)時間,但需計算相似度,因此也會影響分類速度。
考慮短文本分類推送系統(tǒng)對分類速度的要求,本文提出通過同義詞對分類器的關鍵詞庫進行擴展,既降低短文本的特征稀疏性,又保證一定的分類速度。
在分類算法選擇方面,文獻[12]對SVM算法與權重和算法作了詳細對比分析,認為雖然SVM算法針對短文本分類是一種成熟并且性能優(yōu)良的算法,但若采用的訓練集規(guī)模較小會降低了SVM的性能,而權重和算法在訓練集規(guī)模較小的情況下性能卻優(yōu)于SVM算法。TF-IDF權重和算法[13]通過計算待分類文本特征詞分別在各個類別中所出現(xiàn)的權重和,將待分類文本所屬類別定為權重和最大的類別。TF-IDF權重和算法簡單有效,但是權值分布比較集中,文本區(qū)分度小。因此,本文對TF-IDF權重和算法進行改進,提出基于改進的TF-IDF權重的短文本分類算法來解決上述問題。
TF-IDF權重和算法是基本的文本分類算法,流程如圖1所示。
圖1 TF-IDF權重和算法流程
算法主要步驟如下:
1)選取具有確定類別的文本數(shù)據(jù)集(訓練集),對訓練數(shù)據(jù)進行預處理。一般包括分詞、去除停用詞、去除特殊符號等。
2)提取訓練集特征值,利用TF-IDF計算特征值,生成特征向量,形成詞典。
3)通過分類器計算測試文本的特征詞在每個類別中所對應的權重之和,并將最大權重和對應的類別確定為測試文本的所屬類別。
TF-IDF算法涉及到兩個關鍵技術,即特征向量空間的形成和權重選擇,下面分別進行闡述。
2.1 向量空間模型
文本表示主要是將文本轉換成計算機更好地理解、容易處理的形式。常見的文本表示模型主要有3種:布爾模型(Boolean model)[14],概率模型和VSM向量空間模型。向量空間模型[15]是目前應用最多且效果較好的方法之一。
向量空間模型(vector space model,VSM)由G.Salton等提出,是當前最常用的文本特征表示方法。在該模型中最小的數(shù)據(jù)單元是特征項,字、詞和詞組都可以用來作為特征項進行處理。將文本d看作是向量空間中的一個n維向量,如式(1)所示:
其中:ti表示文本d的第i個特征項;wi表示文本d的第i個特征項對應的特征權重。特征權重的大小表示該特征包含文本類別信息的多少。
2.2 TF-IDF權重
特征提取主要是將文本中能代表并且可以區(qū)分該文本的特征詞提取出來。進行特征提取時,最關鍵的就是確定特征詞的權重。目前有很多種計算特征權重的方法,包括文檔頻度、互信息、χ2統(tǒng)計量、信息增益等。
TF-IDF(term frequency-inverse document frequency)的概念被公認為信息檢索中最重要的發(fā)明,在搜索、文獻分類和其他相關領域有廣泛的應用[16]。TF-IDF函數(shù)作為計算特征項權值函數(shù),是在信息檢索領域常用的方式,由Salton首次論證提出。其主要思想為:在特定的文檔中,一個詞語出現(xiàn)的頻率越高,出現(xiàn)的范圍越小,說明該詞區(qū)分文檔內(nèi)容屬性的標識能力越強,其權重自然就越大。計算公式如下:
其中:count(t)為單詞t在某一領域內(nèi)的文章(一般稱為前景語料)中出現(xiàn)的次數(shù);N為實驗的全部語料(一般稱為背景語料)的文本總數(shù);n為該詞在背景語料文本中出現(xiàn)的次數(shù)。
TF是詞t在前景語料中出現(xiàn)的頻率,一般來說,該值越大,說明該詞對于前景語料來說就越具有代表性。IDF表示的是該詞使用范圍的大小。當某個詞在背景語料中經(jīng)常出現(xiàn)時(即n很大),就可以認為這個詞是一個大范圍內(nèi)使用的常用詞,對于任何領域來說都不具備代表性,所以它的IDF值恰好因為n很大而變得很小。
通過TF和IDF計算得到特征權重,可以使表示前景語料特征的單詞獲得高權值,使常用普通詞獲得低權值。利用這一特性,將專業(yè)領域文本作為前景語料,普通語料作為背景語料,計算每個單詞TF-IDF值,提取權值最大的前幾項(本文取前100)作為前景語料的文本向量。
如前所述,TF-IDF權重和算法的最大問題在于短文本的特征權重區(qū)分度不足,究其原因是由于特征權重的計算問題,因此本文提出改進的TFIDF權重以解決短文本分類中的數(shù)據(jù)稀疏性與文本區(qū)分度問題。
改進的TF-IDF權重在計算方式上進行如下改進:首先基于特征長度進行加權,在計算文本特征權重時,對于不同長度的特征分配不同的權重系數(shù);然后基于知識庫擴展,通過同義詞庫對訓練集進行擴展,間接實現(xiàn)原始文本擴展。
3.1 特征長度加權
TF-IDF權重忽略了特征長度對類別主題的表達作用的影響。兩個長度不同的特征,長的特征對于主題的表達作用明顯要大于短的特征[12]。因此,計算文本特征權重時,基于特征長度進行加權,給予長度更長的特征分配更大的權重系數(shù)。特征詞的長度l和長度權重lw的關系如式(3)所示。
改進的TF-IDF權重計算公式:
對式(4)中詞頻項進行歸一化處理得到實際應用的公式為:
其中s為特征集的大小。
3.2 訓練集擴展
由于通過計算相似度來擴展原始文本是在分類階段進行,勢必要在運算性能上付出代價,因此本文考慮在特征提取階段對訓練集進行擴展,從而間接實現(xiàn)待分類文本的特征擴展。具體做法是在實現(xiàn)類別特征向量提取后,從同義詞典中找出所有特征對應的同義詞將其加入類別特征向量。
例如,在訓練階段,給定某類別的特征向量t={ti},根據(jù)同義詞集求出ti所對應的同義詞oi,得到該類別對應的同義詞集合o={oi},將o并入該類別的特征向量t,最終得到擴展訓練集t’=在預測階段,對新文本向量p={pi},計算與訓練集t′的交集q=(p∩t)∪(p∩o)。實際上,p∩o可以看作是對文本向量p的擴展。
基于改進的TF-IDF權重的短文本分類推送系統(tǒng)架構如圖2所示。系統(tǒng)主要由數(shù)據(jù)預處理、特征向量提取、反饋、信息推送4部分組成。
圖2 基于改進的TF-IDF權重的短文本分類推送系統(tǒng)架構
4.1 數(shù)據(jù)預處理
首先,利用開源分詞工具結巴分詞(https://github.com/fxsjy/jieba/tree/jieba3k)對文本進行分詞并計算改進的TF-IDF權值,生成特征權值詞典。通過正則表達式去除停用詞以及一些與文本類別表現(xiàn)不相干的詞,如日期、數(shù)量詞等。
4.2 特征向量提取
對于訓練集,需要先進行同義詞擴展,之后才能提取,得到分類器。同義詞擴展采用了《哈工大信息檢索研究室同義詞詞林擴展版》(http://www.ltp-cloud.com/),該詞典共包含77 343條詞語。對于某一類別中本身具有多個同義詞的情況,取其中的最大權值作為這些同義詞的權值。
對于測試集文本,取前3 000個關鍵詞作為文本的向量表示。
4.3 反饋
待分析文本通過分類器進行測試,得到最終分類結果,并通過將分類結果反饋回訓練集以提高分類的準確度。本文采用人工干預的方式進行反饋,通過人工判斷后,將分類正確的文本加入訓練數(shù)據(jù),將分類錯誤的文本從訓練數(shù)據(jù)中刪除,并進行再訓練。
4.4 信息推送
將每個類別的權值均值作為推送閾值,待分析文本權值大于該閾值則進行信息推送。
5.1 實驗設置
本文在實驗數(shù)據(jù)集選擇方面,選擇通過網(wǎng)頁爬蟲抓取的中新網(wǎng)新聞標題數(shù)據(jù)集作為短文本語料。分成5個類別:體育、娛樂、房產(chǎn)、健康、汽車。每個類別采集2 000條標題。
由于數(shù)據(jù)集樣本高度不均衡,因此在進行分類結果的對比實驗時,采用5折交叉驗證(5-fold cross-validation)。即:將數(shù)據(jù)集平均分為5份,取其中4份作為訓練集、1份作為測試集進行多次測試。最終通過求平均值得到實驗結果,從而消除實驗結果的偶然性,同時也確保測試集與訓練集不會產(chǎn)生交集。
5.2 評價方法
本文采用通用的性能評價指標,分別是準確率、召回率和F1值。準確率(Precision,P)等于正確分類的文檔數(shù)除以被分類器識別為該類的文檔數(shù),召回率(Recall,R)等于正確分類的文檔數(shù)除以被測試的該類文檔數(shù)。F1值的計算公式如下:
另外,為使文本權值區(qū)分度更大以便于進行信息推送,還需要評價待分類文本集的權值方差,權值方差越大,各文本的區(qū)分度就越大,就越利于信息推送。
5.3 實驗結果與分析
分別采用本文算法(算法1)同原始的權重和算法(算法2)在準確率、召回率、F1值以及權值方差等方面進行比較。算法1和算法2的準確率、召回率、F1值的實驗結果如圖3所示??梢钥闯鏊惴?和算法2性能相差不大,算法1略優(yōu)于算法2。算法1和算法2的權值方差如圖4所示。從圖4可以看出:算法1的各個類別的方差明顯較算法2高,更加利于信息的篩選與推送。
在分類速度方面,與文獻[9](算法3)進行對比。算法1和算法3對10 000條新聞標題的分類時間分別為4.15 s和8.64 s。算法1進行知識庫擴展是通過對分類器擴展來間接進行的,算法3是分類時直接對訓練文本進行擴展。實驗數(shù)據(jù)表明:算法3耗費更多時間,算法1更適用于實時性要求高的推送系統(tǒng)。
圖3 算法1和算法2的準確率、召回率、F1值
圖4 算法1和算法3的權值方差
針對短文本分類中的數(shù)據(jù)稀疏性與文本區(qū)分度問題,本文提出改進的TF-IDF權重和算法。實驗結果表明:該算法雖然在分類性能方面沒有實現(xiàn)大的提升,但該算法通過同義詞庫對分類器進行擴展和基于特征長度對短文本權值進行加權,增加了各文本的區(qū)分度,從而使得推送的文本更符合用戶的需求。本文在知識庫擴展上沒有采用直接擴展,因此獲得了速度優(yōu)勢,但并未實現(xiàn)準確率提升。分析原因是從網(wǎng)絡上采集的新聞標題短文本語料,包含大量網(wǎng)絡用語和縮略詞等,導致系統(tǒng)不能準確分詞,進而不能準確提取特征向量。下一步工作將完善用戶詞典,使得分詞更準確,從而減小分詞不準確對分類系統(tǒng)性能的影響。
[1] 馬成龍,姜亞松,李艷玲,等.基于詞矢量相似度的短文本分類[J].山東大學學報(理學版),2014,49(12):18-22.
[2] ANH V N,MOFFAT A.Improved word-aligned binary compression for text indexing[J].IEEE Transactions on Knowledge&Data Engineering,2006(6):857-861.
[3] SHIEHW Y,CHUNGCP.A statistics-based approach to incrementally update inverted files[J].Information processing&management,2005,41(2):275-288.
[4] KOBAYASHIM,TAKEDA K.Information retrieval on the web[J].ACM Computing Surveys(CSUR),2000,32(2):144-173.
[5] FERRAGINA P,SCAIELLA U.Tagme:on-the-fly annotation of short text fragments(by wikipedia entities)[C]//Proceedings of the 19th ACM international conference on Information and knowledge management.[S.l.]:ACM,2010:1625-1628.
[6] BOLLEGALA D,MATSUO Y,ISHIZUKA M M.Measuring semantic similarity between words using web search engines[J].International Conference on World Wide Web,2007(7):757-766.
[7] GABRILOVICH E,MARKOVITCH S.Computing Semantic Relatedness Using Wikipedia-based Explicit Semantic Analysis[C]//IJCAI.India:[s.n.],2007:1606-1611.
[8] BANERJEE S,RAMANATHAN K,GUPTA A.Clustering short texts using wikipedia[C]//Proceedings of the 30th annual international ACM SIGIR conference on Research and development in information retrieval.Amsterdam:ACM,2007:787-788.
[9] HU X,SUN N,ZHANG C,et al.Exploiting internal and external semantics for the clustering of short texts using world knowledge[C]//Proceedings of the18th ACM conference on Information and knowledge management.Hong Kong:ACM,2009:919-928.
[10]HU X,TANG L,LIU H.Enhancing accessibility of microblogging messages using semantic knowledge[C]//Proceedings of the 20th ACM international conference on Information and knowledge management.Glasgow:ACM,2011:2465-2468.
[11]湛燕,陳昊.基于主題本體擴展特征的短文本分類[J].河北大學學報(自然科學版),2014,34(3):307-311.
[12]王海濤,趙艷瓊,岳磅.基于標題的中文新聞分類研究Research of Chinese News Classification Based on Titles[J].Hans Journal of Data Mining,2013(3):33.
[13]徐易.基于短文本的分類算法研究[D].上海:上海交通大學,2010.
[14]COOPER W S.Getting beyond boole[J].Information Processing&Management,1988,24(3):243-248.
[15]SALTON G,WONG A,YANG C S.A vector space model for automatic indexing[J].Communications of the ACM,1975,18(11):613-620.
(責任編輯楊黎麗)
Short Text Classification Algorithm Based on Improved TF-IDFW eight
YANG Bin1,HAN Qing-wen1,LEIMin2,ZHANG Ya-peng2,LIU Xiang-guo2,YANG Ya-qiang2,MA Xue-feng2
(1.College of Communication Engineering,Chongqing University,Chongqing 400030,China;(2.Discarbonry Technology,Chongqing 40000,China)
The short text is characterized by sparse features.If TF-IDF weights algorithm is adopted to select features,many professional features,which are not seen in the training set,would be ignored.So the text to be classified,whose weight distribution is relatively concentrated,has very small distinction.And then the information push would be affected.Therefore,Short text classification algorithm based on improved TF-IDF weight is proposed.The algorithm enhanced the variance of weights by two measures.On the one hand,keywords in classifier are extended by synonyms.On the other hand,the weight of the short text is adjusted based on the feature length.Compared with direct extension of text to be classified,the algorithm has faster classification speed.
short text;TF-IDFweight;feature extension
TP391
A
1674-8425(2016)12-0108-06
10.3969/j.issn.1674-8425(z).2016.12.017
2015-10-10
國家自然科學基金青年基金資助項目(41404027)
楊彬(1983—),男,重慶人,碩士研究生,主要從事數(shù)據(jù)挖研究,E-mail:1556917794@qq.com。
楊彬,韓慶文,雷敏,等.基于改進的TF-IDF權重的短文本分類算法[J].重慶理工大學學報(自然科學),2016(12):108-113.
format:YANG Bin,HAN Qing-wen,LEI Min,et al.Short Text Classification Algorithm Based on Improved TF-IDF Weight[J].Journal of Chongqing University of Technology(Natural Science),2016(12):103-113.