〔摘 要〕本文對(duì)中文文本分類系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn)進(jìn)行了闡述,對(duì)分類系統(tǒng)的系統(tǒng)結(jié)構(gòu)、特征提取、訓(xùn)練算法、分類算法等進(jìn)行了詳細(xì)的介紹。將基于詞頻統(tǒng)計(jì)的方法應(yīng)用于文本分類。并提出了一種基于漢語中單字詞及二字詞統(tǒng)計(jì)特性的中文文本分類方法,在無詞表的情況下,通過統(tǒng)計(jì)構(gòu)造單字和二字詞表,對(duì)文本進(jìn)行分類,并取得不錯(cuò)的效果。
〔關(guān)鍵詞〕詞頻統(tǒng)計(jì);特征選取;中文文本分類
〔中圖分類號(hào)〕TP393 〔文獻(xiàn)標(biāo)識(shí)碼〕A 〔文章編號(hào)〕
1008-0821(2009)02-0179-03
Chinese Text Classification Based on Word Frequency StatisticsYao Xingshan
(Department of Information Management,Nanjing University,Nanjing 210093,China)
〔Abstract〕In this paper,the designation and accomplishment of a Chinese text class fication system was described,and system construction,feature selection,trainin arithmetic,classification arithmetic were introduced.The methods based on word frequency statistics were used in Chinese text classification.At the same time, new Chinese text classification method was introduced in this paper,which based on word and two-word statistical properties.In the absence of vocabulary,statistics through word structure and the second word list,text classification,and ac hieved good results.
〔Key words〕word frequency statistics;feature selection;chinese text classification
在中文信息處理中,中文文本分類(Text Categorization,簡記為TC)問題一直是重要的研究內(nèi)容。中文文本分類的最終目標(biāo):在給定的分類體系下,根據(jù)訓(xùn)練文檔集合,自動(dòng)確定新的文檔的類別。通過文檔的自動(dòng)分類,實(shí)現(xiàn)資源從無序到有序的組合,以便用戶高效的利用資源[1]。早期的自動(dòng)文本分類以知識(shí)工程的方法為主,根據(jù)領(lǐng)域?qū)<覍?duì)給定文本集合的分類經(jīng)驗(yàn),人工提取出一組邏輯規(guī)則,作為計(jì)算機(jī)自動(dòng)文本分類的依據(jù)。本文在論述中文文本分類系統(tǒng)實(shí)現(xiàn)過程中,避免了過去那種機(jī)械分詞的步驟,在文本特征抽取的過程中引入統(tǒng)計(jì)學(xué)的方法,提出了一種基于單字和二字統(tǒng)計(jì)特性的中文文本分類方法,在文中詳細(xì)的介紹了流程和機(jī)器學(xué)習(xí)的過程,最后給出了實(shí)驗(yàn)測(cè)試的結(jié)果。
1 系統(tǒng)設(shè)計(jì)
從數(shù)學(xué)的角度可以把文本分類看成是一個(gè)映射的過程。它將未標(biāo)明類別的文本映射到已有的
文本中,該映射可以是一一映射,也可以是一對(duì)多映射,一篇文檔和多篇文檔相關(guān)聯(lián)。用數(shù)學(xué)的公式表示為:F(A)=>(B)其中A為待分類的文本集,B為分類體系中的類別集,F(xiàn)為文本分類規(guī)則。圖1我們給出了中文文本分類的流程圖。
圖1 中文文本分類系統(tǒng)流程圖
系統(tǒng)主要由詞典生成模塊、訓(xùn)練模塊和分類模塊組成。詞典生成模塊通過對(duì)文本中單字字頻信息以及相鄰字的共現(xiàn)信息進(jìn)行統(tǒng)計(jì),產(chǎn)生分詞詞表。訓(xùn)練模塊首先對(duì)訓(xùn)練文本進(jìn)行預(yù)處理,然后進(jìn)行特征選取和參數(shù)訓(xùn)練,最后生成文本分類器。分類模塊通過對(duì)待分類文本的預(yù)處理及特征選擇后,由文本分類器自動(dòng)對(duì)文本進(jìn)行分類。
1.1 詞典生成模塊
我們通過向量空間模型(Vector Space Model)把文本表示成一個(gè)由詞條向量組成的向量空間,每個(gè)文本d都可以映射為空間的一個(gè)特征向量V(d)=(T1,W1(d),T2,W2(d),…Tn,Wn(d)),其中Ti表示特征項(xiàng),Wi(d)表示對(duì)應(yīng)分量的權(quán)重[2]。
在中文文本中可以采用字、詞或者短語作為表示文本的特征項(xiàng),由于短語的切分難度要比字和詞的切分難度大的多,所以我們采用字和詞作為文本的特征項(xiàng)。那么所要做的第一步就是要進(jìn)行文本的分詞,如果把所有的詞都作為特征項(xiàng),那么特征向量的維度將過于巨大,從而導(dǎo)致計(jì)算量巨大,要完成文本分類幾乎是不可能的。筆者摒棄了過去的那種傳統(tǒng) 的詞典分詞方式,引入統(tǒng)計(jì)學(xué)的模型,通過計(jì)算詞頻來實(shí)現(xiàn)特征項(xiàng)的抽取。根據(jù)文獻(xiàn)[3] 的統(tǒng)計(jì)見表1:表1 詞條分布情況表
詞條字?jǐn)?shù)1234567詞條數(shù)9 91965 89126 35221 6995 1242 446980出現(xiàn)頻率%56.7539.652.211.190.1440.0830.023
2009年2月第29卷第2期現(xiàn)?代?情?報(bào)Journal of Modern InformationFeb.2009Vol.29 No.2
2009年2月第29卷第2期基于詞頻的中文文本分類研究Feb.2009Vol.29 No.2由表1可見,在漢語常用詞中單、雙字詞出現(xiàn)的頻率最高,同時(shí)數(shù)量上也占了絕大部分。
從語言學(xué)的角度分析。不同類別的文本中,漢字的分布是有規(guī)律的,研究人員大量的實(shí)驗(yàn)證 明,用單字詞統(tǒng)計(jì)特性來進(jìn)行文本分類精度可以達(dá)到65%左右。這說明采用單字詞來表示文 本特征進(jìn)行文本分類精度還是可以保證的,如果再結(jié)合少量的對(duì)類別區(qū)分能力強(qiáng)的二字詞的 話,則應(yīng)該可以提高系統(tǒng)的精度。因此我們采用單字詞為主結(jié)合少量的二字詞為文本的特征 向量,相應(yīng)的詞表也是由單、雙字詞構(gòu)成。系統(tǒng)包括的分類體系有軍事、體育、財(cái)經(jīng)、新聞 和娛樂5個(gè)類別,我們采用國內(nèi)知名搜狐門戶網(wǎng)站上的網(wǎng)頁文本作為訓(xùn)練文本集。
首先進(jìn)行單字詞的統(tǒng)計(jì),把待統(tǒng)計(jì)的所有的文本組合為一個(gè)大的文本A,對(duì)文本中的所有漢字出現(xiàn)頻率進(jìn)行統(tǒng)計(jì)并排序。由于漢語中的常用漢字大概在3 000個(gè)左右,為了確保單字詞對(duì)文本的覆蓋率,只要出現(xiàn)過的漢字就作為單字詞保留在單字詞表中。接下來進(jìn)行二字詞的統(tǒng)計(jì)。文獻(xiàn)[4]提出了通過計(jì)算相鄰漢字的互信息并以此建立詞表。這種方法運(yùn)算過于復(fù)雜,當(dāng)文本量很大時(shí)速度也比較慢。由于我們目的是找到各類文本中的常用的二字詞, 因此我們采用更為簡單的方法,通過計(jì)算相鄰二字共現(xiàn)的頻率(文中以WF表示)來查找二 字詞。
1.2 訓(xùn)練模塊
在進(jìn)行中文文本處理前我們需要首先對(duì)文本進(jìn)行預(yù)處理。由于我們需要抽取的特征向量都是詞,對(duì)于英文、數(shù)字等一些符號(hào)都不予考慮。同時(shí)對(duì)那些頻率極高卻沒有什么實(shí)際意義的詞 ,如:“的”、“了”、“和”等。這些詞對(duì)文本分類的影響甚小,因此通過停用詞表剔除 。
文本表示中Ti及其Wi選取稱為特征抽取。特征算法的優(yōu)劣影響到文本分類的效果。我們?cè)谙到y(tǒng)中采取了基于詞頻統(tǒng)計(jì)的特征抽取方法。通過大量的文本訓(xùn)練,根據(jù)特征項(xiàng)對(duì)文本內(nèi)容的貢獻(xiàn),經(jīng)過多次的統(tǒng)計(jì)學(xué)習(xí)得出權(quán)重評(píng)價(jià)。以這種方法選擇的特征項(xiàng)集具有如下的兩個(gè)特點(diǎn):
(1)完全性:特征項(xiàng)能夠體現(xiàn)目標(biāo)內(nèi)容;
(2)區(qū)分性:根據(jù)特征項(xiàng)集能夠?qū)⒛繕?biāo)同其他文本相區(qū)別。
根據(jù)這兩個(gè)特點(diǎn)可得,當(dāng)一個(gè)詞條在某類文本中出現(xiàn)的頻率越高。而在其它類別的文本中初相的頻率越低,則該詞條在該類別特征向量中的權(quán)重就越大。因此我們構(gòu)造了詞條權(quán)值評(píng)價(jià)函數(shù):Wik=tfik#8226;log2(aNk/nk+0.05)[5]。其中tfik表示詞條Tk在文本Di中出現(xiàn)的頻數(shù),Nk表示本類別訓(xùn)練文本中出現(xiàn)Tk的文本數(shù),nk表示詞條Tk在所有的文本中出現(xiàn)的頻數(shù),a為系數(shù)可以根據(jù)實(shí)驗(yàn)的結(jié)果進(jìn)行調(diào)整。為增強(qiáng)文本類特征的穩(wěn)定性,我們?nèi)「黝悇e文本的重心作為該類的特征向量,文本類重心定義為一類文本中所有文本向量的平均向量,第k個(gè)類的重心記為Ck=(Ck1,Ck2,Ck3,……Ckn),n為向量空間的維數(shù),m為類k中文本的數(shù)目,則有公式1:
Ckj=∑mi=1Wij/m(1)
Wij表示文本Di的第j個(gè)項(xiàng)的權(quán)重。在實(shí)際的使用中,為了降低個(gè)別高頻特征項(xiàng)對(duì)其它中低頻項(xiàng)的抑制作用,我們對(duì)特征向量進(jìn)行了歸一化處理。
1.3 分類模塊
根據(jù)各文本的中心特征向量對(duì)未知文本進(jìn)行分類的技術(shù)關(guān)鍵是分類算法。我們系統(tǒng)采用了向量最小距離法計(jì)算待分類文本與各類別的相似度,并把該文本歸入相似度最大的類別。其過程就是通過計(jì)算未知類別文本的特征向量和各類別的中心特征向量之間的夾角余弦。其計(jì)算公式見公式2[6]:
Sim(V,U)=COS(V,U)=V#8226;U/|V||U|
=∑nk=1WvkWuk∑nk=1Wvk2∑nk=1Wuk2(2)
其中Wvk表示文本向量V的第k個(gè)特征項(xiàng)的權(quán)值,Wuk表示文本向量U的第k個(gè)特征項(xiàng)的權(quán)值,V#8226;U表示向量V和U的點(diǎn)積。分類的過程如圖2所示。
圖2
2 數(shù)據(jù)測(cè)試及討論
由于沒有標(biāo)準(zhǔn)的測(cè)試文本集,我們采用一些大的門戶網(wǎng)站的各類別的網(wǎng)頁作為我們的測(cè)試數(shù)據(jù)。我們從搜狐網(wǎng)站上下載了5種類型的網(wǎng)頁:娛樂、財(cái)經(jīng)、體育、軍事和新聞。這些網(wǎng)頁都是已經(jīng)經(jīng)過網(wǎng)站分類好的放在對(duì)應(yīng)的類別中。每種類別下載500篇文本,按照4∶1的比例分為訓(xùn)練文本和測(cè)試文本。我們進(jìn)行了2種類型的實(shí)驗(yàn),一種是以單字為文本的特征,另一種是以單字加二字詞為文本的特征,測(cè)試的結(jié)果如表2所示。表2 文本分類測(cè)試結(jié)果
測(cè)試類別單字詞精度單字+二字詞精度娛樂68%82%財(cái)經(jīng)70%80%體育76%85%軍事78%84%新聞75%85%
我們同時(shí)也做了一個(gè)這樣的測(cè)試,訓(xùn)練文本集的大小對(duì)分類精度的影響是如何變化的,我們用曲線進(jìn)行表示,用100篇文本作為基點(diǎn),用來作為測(cè)試的文本是統(tǒng)一的,其變化的曲線如 圖3所示。
由于我們實(shí)驗(yàn)的規(guī)模小,用來進(jìn)行訓(xùn)練和測(cè)試的樣本數(shù)量不是很大,實(shí)驗(yàn)的數(shù)據(jù)可能存在一定的誤差。但是我們從實(shí)驗(yàn)的結(jié)果可以看出,利用單字詞和二字詞的結(jié)合其文本分類的精度有了顯著的提高。
3 結(jié)束語
本文中我們提出了一種中文文本分類系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn)的過程,給出了分類的流程圖,引入 統(tǒng)計(jì)詞頻的方法,實(shí)現(xiàn)了以單字結(jié)合二字的中文文本分類的方法,這樣 的系圖3 文本量和分類準(zhǔn)確率擬合曲線
統(tǒng)對(duì)于分類的精度要求不是很高的需求是完全滿足的。由于在文本的特征選取的過程中并沒有結(jié)合其它的特征選取方法,并且在統(tǒng)計(jì)的過程中對(duì)低頻詞的處理不是很好,導(dǎo)致我們的特征的選取未必是最準(zhǔn)確的,文本分類的精度受到了影響。在接下來的研究當(dāng)中我們將重點(diǎn)關(guān)注信息增益IG[7]、互信息MI、x2分布(CHI)、期望交叉熵、優(yōu)勢(shì)率、文本證據(jù)權(quán)等這些特征選取法[8],根據(jù)其不同的特性進(jìn)行組合,以實(shí)現(xiàn)其優(yōu)勢(shì)的互補(bǔ)。嘗試的引進(jìn)反饋和層次分類機(jī)制,進(jìn)行閾值的調(diào)整研究,改進(jìn)分類算法,以實(shí)現(xiàn)文本分類精度的提高。
參考文獻(xiàn)
[1]郝曉燕,常曉明.中文文本分類研究[J].太原理工大學(xué)學(xué)報(bào),2006,36(6):710-713.
[2]金凱民,苗奪謙,段其國,等.一種基于隱含子類信息的粗糙集中文文本分類方法[J],計(jì)算機(jī)科學(xué),2008,35(2):147-149.
[3]李慶虎,陳玉健.一種中文分詞詞典新機(jī)制一雙字哈希機(jī)制[J].中文信息學(xué)報(bào),2003,17(4):13-18.
[4]費(fèi)曉紅,康松林,朱曉娟,等.基于詞頻統(tǒng)計(jì)的中文分詞研究[J].計(jì)算機(jī)工程與應(yīng)用,2005,(7):67.
[5]熊忠陽,黎剛,陳曉莉,等.文本分類中詞語權(quán)重計(jì)算方法的改進(jìn)與應(yīng)用[J].計(jì)算機(jī)工程與應(yīng)用,2008,44(5):187-189.
[6]劉博,楊柳,袁芳,等.改進(jìn)的KNN方法及其在中文文本分類中的應(yīng)用[J].西華大學(xué)學(xué)報(bào):自然科學(xué)版,2008,27(2):33-36.
[7]寇蘇玲,蔡慶生.中文文本分類中的特征選擇研究[J].計(jì)算機(jī)仿真,2007,24(3):289-291.
[8]胡燕,吳虎子,鐘珞,等.中文文本分類中基于詞性的特征提取方法研究[J].武漢理工大學(xué)學(xué)報(bào),2007,29(4):132-135.