蘭秋軍,李衛(wèi)康, 劉文星
(湖南大學 工商管理學院,湖南 長沙 410082)
?
不同情境下中文文本分類模型的表現(xiàn)及選擇*
蘭秋軍?,李衛(wèi)康, 劉文星
(湖南大學 工商管理學院,湖南 長沙410082)
摘要:針對中文文本分類任務中N-Gram,素貝葉斯、K最近鄰和TF-IDF等經(jīng)典而廣泛使用的文本分類模型的選擇困惑問題,基于萬余篇中文新聞文本語料數(shù)據(jù),設計了一系列的對比實驗,考察了各模型在不同參數(shù)、不同訓練數(shù)據(jù)規(guī)模、不同訓練文本長度、類別是否偏斜等多種情境下分類性能的表現(xiàn),總結了各模型的特性,為中文文本分類模型的選擇和應用提供了實踐依據(jù)和參考.
關鍵詞:中文文本;文本分類;數(shù)據(jù)挖掘; 情報分析
文本挖掘是語言學、統(tǒng)計學以及計算機技術相結合的產(chǎn)物,是對海量文本信息進行自動處理,獲取人們感興趣的、隱含的、有用信息的過程[1-2],在信息檢索、生物醫(yī)學、情報獲取、輿情分析和市場營銷等眾多領域備受關注[3-5].文本分類作為文本挖掘領域中的核心技術,是各種自然語言處理、應用的基礎.其中分類模型的選擇對最終結果具有至關重要的影響.然而,因所基于的原理、參數(shù)、應用場合各不相同,即使相同的模型其性能表現(xiàn)也往往大相徑庭.
新聞文本是一類常見的文本形式,其蘊含的信息量大,是各種情報分析的重要數(shù)據(jù)源[6-7].盡管現(xiàn)有的各個新聞網(wǎng)站以欄目形式對新聞進行了人工劃分,然而各網(wǎng)站的分類體系和欄目形式各不相同,因此在具體的新聞挖掘應用項目中,常需將采集的新聞數(shù)據(jù)重新進行組織和劃分.中文文本分類領域中具有代表性的模型是樸素貝葉斯、N-Gram,K最近鄰和TF-IDF.這些不同的模型各具有怎樣的特性?分別適合哪些場合?在使用時應如何選取合適的參數(shù)?人們往往面臨困惑.由于各方法在處理細節(jié)上有不少差異,很難從理論分析的角度來比較各方法的優(yōu)劣.因此,基于典型數(shù)據(jù),采用實驗的方式進行比較是比較通行的做法[8-9].本文精心構造了多組實驗,從模型參數(shù)選取、訓練數(shù)據(jù)規(guī)模、訓練文本長度、數(shù)據(jù)是否偏斜等幾個情境來考察各模型在不同情境下的性能表現(xiàn),其結論對中文文本分類模型的選擇與參數(shù)設置等具有實踐指導意義.
1模型概述
文本分類就是通過計算機程序自動將某個文檔歸屬到事先給定的類別體系中一個或多個類別.現(xiàn)有的文本分類方法大致可歸為兩類:基于規(guī)則的方法和基于機器學習的方法.其中基于規(guī)則的方法早在20世紀70年代就已出現(xiàn),但因規(guī)則制定的困難,目前普遍采用的是基于機器學習的方法.而機器學習方法中,基于統(tǒng)計的方法是最具有代表性和使用最為廣泛的[10].其中,N元模型(N-Gram)[11]、樸素貝葉斯(NB),K最近鄰(KNN)和TF-IDF又是其中最經(jīng)典的幾個模型.
N-Gram模型基于馬爾科夫假設,即下一詞的出現(xiàn)概率僅依賴于它前面的N個詞,統(tǒng)計N元詞串在各類別中出現(xiàn)概率,以此確定文檔歸屬于哪個類別[11-12].樸素貝葉斯模型基于貝葉斯定理,假設單詞兩兩獨立,獲得各文檔類別的后驗概率,哪個類別概率值大,文檔即歸屬于該類別[13].KNN的主要思想是先將文檔內容轉化為特征空間中的特征向量,計算待分類文檔與訓練文檔中每個樣本的相似度,找出其中的k個最近鄰居,據(jù)此判別文檔所屬類別[14].TF-IDF則先將文本內容轉化為特征向量,然后計算其與類別特征向量間的余弦相似度,以此作為其所屬類別的判據(jù)[15].分析上述模型,不難發(fā)現(xiàn),N-Gram模型主要是提取了不同類別文檔中字與字之間的順序依賴關系來構造分類特征,樸素貝葉斯則提取了不同類別文檔中詞與詞之間的概率依賴關系構成分類依據(jù),K近鄰直接利用了空間向量模型,以文檔相似性特征作為分類依據(jù),而TF-IDF則同時考慮了詞在文檔本身中的出現(xiàn)頻度以及其在不同文檔中的出現(xiàn)頻度信息.幾個模型所抓取的文檔類別信息特征明顯不同,很難在理論上判別哪個模型更好,更適合哪些情境.因此,從實驗的角度來考察是更為切合實際的方案.
2基礎與準備
2.1算法實現(xiàn)工具
LingPipe是基于Java語言的自然語言處理的開源軟件包,提供了文本挖掘各階段的基本功能.由于該軟件包的數(shù)據(jù)處理都基于一個共同框架,采用了相同的基礎源代碼模塊,故本文以其作為算法實現(xiàn)工具,可盡量減少模型本身之外的因素(如文本預處理階段的分詞、特征提取、文本表示等)給模型性能帶來的影響.
2.2實驗數(shù)據(jù)
本文實驗數(shù)據(jù)采集來自新浪、騰訊、鳳凰等主流網(wǎng)站.特地挑選了歷史、軍事、文化、讀書、社會幾個比較近似,甚至人工也容易分錯的文本類別.其中,歷史類和軍事類的文章比較相近,而文化類和讀書類的也常相似.數(shù)據(jù)采集跨時2個月,去除了所有Html標記和網(wǎng)頁中的噪聲文本,只包含標題、正文內容以及標點符號.共采集16 000篇,去除了部分重復和校驗過程中有問題的文檔,最終保留14 000篇作為本文研究的語料數(shù)據(jù).其中含歷史1 900篇,軍事1 600篇,文化2 500篇,讀書4 000篇,社會4 000篇.每篇文章按類別以txt文件的形式保存.各類別、不同文本長度的文檔篇數(shù)分布情況如表1所示,所有文檔的長度介于10 000字節(jié)以內,涵蓋了網(wǎng)頁中的絕大多數(shù)新聞文本長度.
2.3分詞與特征項
盡管特征選擇和預處理措施都是影響文本分類性能的關鍵因素,但因各模型算法原理相差太大,無法基于統(tǒng)一的特征項和預處理進行比較[16].因此,各模型的特征項均以詞頻為基礎,采取各模型常用的特征形式和預處理方式.N-Gram模型本身不需分詞,因此未做分詞處理,而其它模型則應用中科院分詞系統(tǒng)NLPIR_2014進行分詞處理.
2.4分類評價指標
LingPipe提供了一系列指標對模型性能進行評估.本文實驗主要采用宏平均、微平均下的F值進行評價,它綜合考慮了準確率、召回率兩個被廣泛認可的分類器評價指標.其詳細定義和含義可參見相關文獻[17].此外,實驗過程中,還記錄了各模型的訓練和分類運行時間.這也是反映分類模型性能的一個方面.
注:1000以下表示1000字節(jié)以下,1000-2000表示1000字節(jié)-2000字節(jié),后同;單元格內數(shù)字為文檔數(shù).
3實驗方案與結果
從應用角度來看,分類準確度和處理效率是用戶最為關注的兩個方面.而影響這兩方面的因素無外乎模型本身和待處理的數(shù)據(jù),如圖1所示.模型本身因素具體包括模型的構造機制和模型參數(shù).其中,模型機制對用戶而言是封裝的,要提升分類性能,用戶只能調整模型參數(shù).而數(shù)據(jù)方面,文本的詞語和語義特點太過復雜和精細,用戶難以據(jù)此選擇模型.然而待處理文本的長度、規(guī)模和偏斜程度等是影響分類性能的重要因素,用戶可以據(jù)此選擇最合適的模型.因此,本文主要設計了4組實驗考察不同情境下中文文本分類模型的表現(xiàn).下面具體闡述各組實驗的具體方案及結果.
圖1 模型分類性能影響因素
3.1模型參數(shù)與模型性能
所述的4個分類模型中,NB模型和TF-IDF模型沒有參數(shù),而N-Gram和KNN模型則分別有一個關鍵參數(shù)N和K.先對這兩個模型進行不同參數(shù)取值下的實驗.所采用的數(shù)據(jù)集文檔篇數(shù)情況如表2所示.
表2 不同模型參數(shù)下的實驗數(shù)據(jù)分布情況
3.1.1關于N-Gram模型參數(shù)N的實驗
根據(jù)N-Gram模型中參數(shù)N的含義,字與字之間的概率依賴關系主要由詞組造成,漢語超過6個字的詞組已經(jīng)相當稀少.本組實驗考察了N取值為1,2,4,6,7的情形,獲得結果如表3所示.可見,隨著N取值的加大,該分類器的分類性能也越高,但在N超過4以后,分類性能改善幅度已相當小,而訓練時間和測試時間卻成倍增長,為此,后述實驗均取N=4,不再贅述.
表3 N-Gram模型N值大小與性能關系
3.1.2關于KNN模型參數(shù)K的實驗
參數(shù)K為經(jīng)驗參數(shù),表示選取的近鄰個數(shù),其值的大小對于模型的分類性能有顯著的影響.實驗中,為確定K最佳值,將K分別取值 1,3,5,10,20,獲得如表4所示結果.顯見,隨著K值的增加,分類性能有緩慢下降趨勢,表明并非選取的近鄰數(shù)越多越好.原因在于KNN基于向量空間模型,維數(shù)較高,數(shù)據(jù)比較稀疏,K值越大,反而可能帶來更多的誤判信息.本實驗中,K取值為1時分類性能最優(yōu),因此在后述實驗中均取該最優(yōu)值.
表4 KNN模型K值大小與性能關系
3.2訓練集規(guī)模與模型性能
為了考察各模型在不同訓練集規(guī)模情境下的性能表現(xiàn),分8次小實驗,每次從實驗語料中抽取1 000,2 000,3 000,4 000,5 000,6 000,7 000,8 000篇文檔構成訓練集,抽取1 000篇文檔構成測試集.抽樣過程中,為了消除各類別新聞分布不一致、文本長度不一致所帶來的影響,進行了適度控制,即確保8次實驗中,各類別新聞的比例保持一致,各文本長度所占比例也保持一致.在此控制下,隨機抽取樣本,每次實驗進行3次,以其平均值作為最后結果.實驗結果如表5所示,圖2展示了不同訓練集規(guī)模情境下,模型性能(微平均下F值)的情況;圖3和圖4則分別展示了分類訓練時間和測試時間與訓練集規(guī)模的關系.
由表5以及圖2~圖4可知,在各類別數(shù)據(jù)相近的情況下,隨著訓練集規(guī)模的增大,各模型的分類性能也均得到提升并漸趨于平穩(wěn),與文獻[9]結論相同.KNN改善效果最為明顯.就運行時間而言,各分類模型隨著訓練集規(guī)模的增大,訓練時間明顯增加,而測試時間僅KNN分類模型顯著增加,其它則變化微小.通過逐漸加大訓練集規(guī)模,實驗還發(fā)現(xiàn),在測試集不變的情況下,訓練集達到一定規(guī)模后(例如7 000篇),即使再顯著增大訓練集規(guī)模,分類性能的改善也非常微弱.
表5 模型性能與訓練集規(guī)模間關系
訓練集規(guī)模
訓練集規(guī)模
訓練集規(guī)模
3.3文本長度與性能
為了考察各模型在不同文本長度情境下性能的表現(xiàn),將訓練數(shù)據(jù)的每個類別都按文檔大小進行劃分,抽取5個子集,分別為1 000字節(jié)以下,1 000- 2 000字節(jié),2 000-3 000字節(jié),3 000-5 000字節(jié),5 000字節(jié)以上.在保證5個子集的類別分布和規(guī)模分布一致的前提下,隨機抽取樣本構成訓練數(shù)據(jù),實驗數(shù)據(jù)如表6所示.該實驗共進行3次,取3次實驗結果的平均值作為最終結果,如表7所示.圖5展示了不同文本長度情境下,模型性能(微平均下F值)的情況;圖6和圖7則展示了分類訓練時間和測試時間與文本長度的關系.
表6 文本長度實驗數(shù)據(jù)集示例
表7 各模型性能與訓練集文本長度關系
對文本長度情境而言,從表7以及圖5~圖7可以看出,隨著文本長度的增加,除KNN模型外,其它3個分類模型的準確性能在初期快速提升,其后趨緩而漸趨平穩(wěn),但KNN快速提升后卻逐漸下降.實驗還發(fā)現(xiàn),在文本長度短時(小于1 000字節(jié)),TF-IDF模型要好于其它3個模型.從時間性能來看,各模型都隨文本長度增加而近似呈線性增長趨勢.其中NB和TF-IDF相對較遜一籌.
文本長度
文本長度
文本長度
3.4類別偏斜與模型性能
為了考察各模型在類別是否偏斜情境下性能的表現(xiàn),我們設計了類別均衡和非均衡兩組實驗,實驗數(shù)據(jù)集如表8所示,訓練集和測試集規(guī)模相同,非均衡訓練集中讀書和社會兩個類別遠高于其它類別數(shù)據(jù),而均衡訓練集中各類別文本數(shù)相同.每組實驗共進行3次,隨機抽取樣本構成訓練數(shù)據(jù).取3次實驗結果的平均值作為最終結果,如表9所示.
表8 文本類別偏斜實驗數(shù)據(jù)集示例
對類別偏斜情境而言,觀察可知,各模型整體性能及各類別分類性能在均衡訓練集情境下的表現(xiàn)均優(yōu)于在非均衡訓練集下的性能表現(xiàn).在非均衡訓練集情境下,對各小類而言,包含文本數(shù)較多的讀書和社會兩個類別的分類性能要優(yōu)于其它類別,與文獻[18]對訓練集類別分布對文本分類影響的研究結果類似.4個分類模型中,對于類別均衡數(shù)據(jù)而言,TF-IDF表現(xiàn)最佳,對于類別非均衡數(shù)據(jù)而言,NB表現(xiàn)最佳.
表9 文本類別偏斜實驗各小類分類情況(F1值)
4結論
本文所考察的幾個模型是當前文本分類領域應用最為廣泛、最為經(jīng)典的.在實踐當中,各模型的表現(xiàn)各異,而在理論上又很難分析和評價其優(yōu)劣.為此本文構建了多組實驗來考察不同情境下各模型的表現(xiàn),形成的結論及模型選擇建議如下:
1)幾個模型在運行效率方面沒有明顯的區(qū)別,訓練和測試時間都與數(shù)據(jù)集的規(guī)模和文本長度呈線性關系.實驗結果看,NB模型和TF-IDF雖然稍遜,但實際應用中,此差別并不明顯,可以忽略.
2)不管在何種情境下,KNN的表現(xiàn)都最差,因此不推薦采用此模型.
3)從訓練集規(guī)模來看,幾種模型都是隨著規(guī)模增大而分類精確性穩(wěn)步增加,訓練集的大小不構成模型選擇的關鍵依據(jù).
4)N-Gram、TF-IDF、NB三個模型的分類精度受文本長度的影響差別不大.都隨文本長度的增加而精度得到提升,且都在長度低于1 kb(約400漢字)時提升較明顯,而此后提升速度放緩.KNN則未能因文本長度的增加而提升其精確度.
5)對類別分布是否偏斜的情況,NB模型表現(xiàn)出良好的穩(wěn)定性,比N-Gram和TF-IDF都要好.因此,在類別偏斜嚴重的情況下,推薦采用NB模型.
參考文獻
[1]NASSIRTOUSSI A K, AGHABOZORGI S, WAH T Y,etal. Text mining for market prediction: A systematic review[J]. Expert Systems with Applications, 2014, 41(16): 7653-7670.
[2]袁軍鵬, 朱東華, 李毅, 等. 文本挖掘技術研究進展[J]. 計算機應用研究, 2006,23(2):1-4.
YUAN J P, ZHU D H, LI Y,etal. Survey of text mining technology[J]. Application Research of Computers, 2006,23(2):1-4. (In Chinese)
[3]譚文堂, 王楨文, 殷風景, 等. 一種面向多文本集的部分比較性混合模型[J]. 湖南大學學報: 自然科學版, 2013, 40(11): 101-107.
TAN W T, WANG Z W, YIN F J,etal. A partial comparative mixture model for multi-collections documents[J]. Journal of Hunan University: Natural Sciences Edition, 2013, 40(11): 101-107. (In Chinese)
[4]ZHU F, PATUMCHAROENPOL P, ZHANG C,etal. Biomedical text mining and its applications in cancer research[J]. Journal of Biomedical Informatics, 2013, 46(2): 200-211.
[5]XU X, CHENG X, TAN S,etal. Aspect-level opinion mining of online customer reviews[J]. Communications, China, 2013, 10(3): 25-41.
[6]胡凌云,胡桂蘭,徐勇,等.基于Web的新聞文本分類技術研究[J].安徽大學學報:自然科學版,2010,34(6):66-70.
HU L Y, HU G L, XU Y,etal. Research of text classification technology based on Web news pages[J]. Journal of Anhui University: Natural Sciences Edition, 2010,34(6):66-70.(In Chinese)
[7]蔡華麗,劉魯,王理. 突發(fā)事件Web新聞多層次自動分類方法[J]. 北京工業(yè)大學學報:自然科學版, 2011,37(6): 947-954.
CAI H L, LIU L, WANG L. Automated multiple hierarchical classification of web news of unexpected events[J]. Journal of Beijing University of Technology, 2011,37(6): 947-954. (In Chinese)
[8]蘇金樹, 張博鋒, 徐昕. 基于機器學習的文本分類技術研究進展[J]. 軟件學報, 2006, 17(9): 1848-1859.
SU J S, ZHANG B F, XU X.Advances in machine learning based text categorization[J].Journal of Software,2006, 17(9): 1848-1859. (In Chinese)
[9]盧葦, 彭雅. 幾種常用文本分類算法性能比較與分析[J]. 湖南大學學報:自然科學版, 2007, 34(6): 67-69.
LU W, PENG Y. Performance comparison and analysis of several general text classification algorithms[J].Journal of Hunan University: Natural Sciences Edition, 2007, 34(6): 67-69. (In Chinese)
[10]SEBASTIANI F. Machine learning in automated text categorization[J]. ACM Computing Surveys (CSUR), 2002, 34(1): 1-47.
[11]BROWN P F, DESOUZA P V, MERCER R L,etal. Class based N-gram models of natural language[J]. Computational Linguistics, 1992, 18(4): 467-479.
[12]楊健, 汪海航. 基于隱馬爾可夫模型的文本分類算法[J]. 計算機應用, 2010, 30(9): 2348-2350.
YANG J, WANG H H. Text classification algorithm based on hidden Markov model[J]. Journal of Computer Applications, 2010, 30(9): 2348-2350. (In Chinese)
[13]熊志斌, 劉冬. 樸素貝葉斯在文本分類中的應用[J]. 軟件導刊, 2013, 12(2):49-51.
XIONG Z B, LIU D. Application of naive Bayes in documents[J]. Software Guide,2013, 12(2):49-51. (In Chinese)
[14]張寧, 賈自艷, 史忠植. 使用 KNN 算法的文本分類[J]. 計算機工程, 2005, 31(8).
ZHANG N, JIA Z Y, SHI Z Z. Text categorization with KNN algorithm [J]. Computer Engineering, 2005, 31(8). (In Chinese)
[15]張玉芳, 彭時名, 呂佳. 基于文本分類 TFIDF 方法的改進與應用[J]. 計算機工程, 2006, 32(19): 76-78.
ZHANG Y F, PENG S M, LV J. Improvement and application of TFIDF method based on text classification [J]. Computer Engineering, 2006, 32(19): 76-78. (In Chinese)
[16]李明江.結合類詞頻的文本特征選擇方法的研究[J].計算機應用研究,2014,31(7): 2024-2026.
LI M J. Research on method of feature selection in text combined with word frequency in class[J]. Application Research of Computers, 2014,31(7): 2024-2026. (In Chinese)
[17]陳建華. 中文文本分類特征選擇方法研究[D]. 西北師范大學,2012.
CHEN J H. Research of feature selection method for Chinese text classification[D]. Northwest Normal University, 2012. (In Chinese)
[18]張啟蕊, 張凌, 董守斌, 等. 訓練集類別分布對文本分類的影響[J]. 清華大學學報: 自然科學版, 2005,45(S1).
ZHANG Q R,ZHANG L,DONG S B,etal. Effects of category distribution in a training set on text categorization[J]. Journal of Tsinghua University: Science and Technology, 2005,45(S1). (In Chinese)
Performance and Choice of Chinese Text Classification Models in Different Situations
LAN Qiu-jun?, LI Wei-kang, LIU Wen-xing
(Business School, Hunan Univ, Changsha, Hunan410082,China )
Abstract:N-Gram, Na?ve Bayes, K nearest neighbors and TF-IDF are classical text classification models with a wide range of applications. People are often puzzled about which classification model should be used in a certain Chinese text classification task. This paper collected more than ten thousand Chinese news texts, and designed a series of experiments to analyze the performance of these models in varied situations from classification parameters, training data scale, text length and skewed data sets. The characteristics of these models were summarized, which provides a practical guide for the model selection in Chinese text classification tasks.
Key words:Chinese text; text classification; data mining; information analysis
中圖分類號:TP274;TP302
文獻標識碼:A
作者簡介:蘭秋軍(1972-),男,湖南婁底人,湖南大學副教授,博士?通訊聯(lián)系人,E-mail:lanqiujun@hnu.edu.cn
收稿日期:2014-11-08基金項目:國家自然科學基金資助項目(71171076),National Natural Science Foundation of China(71171076)
文章編號:1674-2974(2016)04-0141-06