李國和,岳 翔,吳衛(wèi)江,洪云峰 ,劉智淵 ,程 遠
(1. 中國石油大學(北京) 地球物理與信息工程學院,北京 102249;2. 中國石油大學(北京) 油氣數據挖掘北京市重點實驗室,北京 102249;3. 石大兆信數字身份管理與物聯網技術研究院,北京 100029)
?
面向文本分類的特征詞選取方法研究與改進
李國和1,2,3,岳 翔1,2,吳衛(wèi)江1,2,3,洪云峰3,劉智淵3,程 遠3
(1. 中國石油大學(北京) 地球物理與信息工程學院,北京 102249;2. 中國石油大學(北京) 油氣數據挖掘北京市重點實驗室,北京 102249;3. 石大兆信數字身份管理與物聯網技術研究院,北京 100029)
中文特征詞的選取是中文信息預處理內容之一,對文檔分類有重要影響。中文分詞處理后,采用特征詞構建的向量模型表示文檔時,導致特征詞的稀疏性和高維性,從而影響文檔分類的性能和精度。在分析、總結多種經典文本特征選取方法基礎上,以文檔頻為主,實現文檔集中的特征詞頻及其分布為修正的特征詞選取方法(DC)。采用宏F值和微F值為評價指標,通過實驗對比證明,該方法的特征選取效果好于經典文本特征選取方法。
文本文檔;特征詞;特征選?。晃谋痉诸?/p>
文本分類的目的是將未知類別的文本劃歸到具體的類別中,其在文檔信息處理中主要具有信息過濾、內容查重、組織管理等功能,成為信息檢索領域的重要應用之一[1]。由于文檔的非結構化或半結構化特點,其中所隱含的信息難于直接進行比較,因此采用結構化的向量空間模型進行文本表示[2-3]。在該模型中,特征由文本中具有語義的詞、短語等構成,統稱特征詞。這使得文檔分類過程主要包括文本分詞、特征詞提取與優(yōu)化、特征加權和分類器構建等階段[1]。特征詞的提取,除了可以去除停用詞(如標點符號等)外,還可以完成文檔的特征向量表示的結構化過程。由于采用統一特征向量形式表示所有文檔,導致針對每一文檔的特征向量具有高維性和稀疏性[4]。這不僅降低分類器的學習效率,而且影響甚至降低分類器的分類效果(包括精確率和召回率)。因此,通過特征選取方法,優(yōu)化特征維數,選取確保分類效果不變或改善的特征詞子集,成為文檔分類的重要研究內容之一[5-6]。目前,特征詞的選取方法主要采用統計學的方法[1,7],但是沒有考慮到特征詞在文檔中的分布特性。針對這一不足,本文提出特征詞分布的修正方法,完善特征詞選取的功能。
先簡介一些相關基本概念,給出規(guī)范化的定義。
2.1 基本概念
D={di|i=1,2,…,n}為n個文檔的文檔集;T={ti|i=1,2,…,k}為k個特征詞的特征集;C={ci|i=1,2,…,m}為文檔的類別集;W={Wi|i=1,2,…,k}為所有特征值域的集合(即ω: D×T→Wi,對于?d∈D,ω(d, ti)∈Wi為文檔d的特征詞ti的特征值,也稱特征詞加權的權值);D(t)?D為含有特征詞t∈T的文檔集,D(c)?D為屬于類別c∈C的文檔集,D(t,c)?D為屬于類別c∈C并且含有特征詞t∈T的文檔集,DF(t)=|D(t)|為含有特征詞t∈T的文檔頻(即文檔集D(t)中的文檔數),DF(c)=|D(c)|為屬于類別c∈C的文檔頻(即文檔集D(c)中的文檔數),DF(t,c)=|D(t,c)|為屬于類別c并且含有特征詞t∈T的文檔頻(即文檔集D(c)中含有特征詞t的文檔數),TF(t, D′)為文檔集D′ ?D中出現特征詞t∈T的詞頻(即文檔集D′中出現特征詞t的次數)。定義c類別概率、t詞頻概率、t詞頻與c類別關系的聯合概率和條件概率,如下所示。
(1)
(2)
(3)
(4)
(5)
t、c分別為非特征詞t和非類別c,也可定義有關概率。實際上,這些概率均為關于文檔頻的頻率。
文本分類就是構造分類器函數φ:D×T→C,即φ(d,ω1(d,t1),ω2(d,t2),...,ωk(d,tk))∈C。特征詞選取就是選取特征詞子集SubT?T,并使分類器函數η:D×SubT→C滿足η(d,SubT)=φ(d,T),即特征子集與原有特征集具有相同的分類能力。
2.2 經典文本特征選取方法
經典文本特征選取有信息增益IG[8]、互信息熵MI[8]、卡方χ2[8]、文檔證據權WET[9]、期望交叉熵EC[9]、相對熵H[5]等,還有與文本類別無關的文檔頻DF[8]等,它們均為基于統計學的方法。各種特征詞的選取方法是定義特征詞t∈T對文檔所有類別c∈C的分類能力評估函數。這些函數涉及如2.1所述的概率。通過特征詞分類評估函數評價每個特征詞t的分類能力,選取分類能力強的若干個特征詞構成特征詞子集SubT。
這些評估函數(DF方法除外)都體現出特征詞t與文檔類別c之間統計意義下的關聯關系,如信息增益IG:
(6)
其強調特征詞t對文本分類的影響,即特征詞t決策類別c的能力,而互信息MI:
(8)
其強調特征詞t與類別c之間的相互關聯性,即特征詞t決策類別c并且類別c也決策特征詞t的能力。又如相對熵RE是文檔類別c概率分布{P(ci)|i=1,2,...,m},與t∧c概率分布{P(t∧ci)|i=1,2,...,m}的相似性比較,表達形式如式(9)所示。
(9)
2.3 存在問題
經典特征選取方法只是涉及到文檔頻DF,并不涉及到詞頻TF。實際上,詞頻TF對文檔分類具有很大的影響。一般情況下,文檔d∈D中某一特征詞t的詞頻TF(t,qoeu0kg)越高,文檔內涵越明確,文檔的類別就越清晰,所以該特征詞對文檔的分類能力也越強。鑒于此,文獻[10]提出了基于TFIDF的文檔特征選取方法,其核心思想是用屬于ci類且含有特征詞t的文檔數來刻畫特征詞t對ci類文檔的分類能力,即
(10)
還結合詞頻TF,定義特征詞t對ci類文檔的分類能力
(11)
基于文檔詞頻分布修正的特征詞選取方法(DC)以文檔頻DF為主,兼顧文檔集中詞頻的分布對文檔分類的影響,涉及以下基本算子:
綜合上述四個基本算子,特征詞t的文檔分類能力評估函數定義如下:
(12)
表明了特征詞t在ci類文檔集中詞頻較大,而且分布比較均勻(即類中每個文檔的詞頻大小相當),而在其他類詞頻較小,而且分布不均勻(即類中每個文檔的詞頻不相當),則表示此特征詞的分類能力較強,因此該方法充分體現了類內文檔相似性高、類間文檔差異性大的特點。
4.1 實驗基礎
實驗數據采用復旦大學計算機學院提供的文檔集,其類別數|C|=20,文檔數|D|=19 637。采用ICTCLAS分詞系統進行分詞,得到特征詞數|T|約為13萬。采用TFIDF對所有文檔進行加權[7]:
(11)
表示文檔d的特征詞t的權值。
分類器選用KNN[11],并取K值為15。對文檔集D中的所有文檔進行統一加權后,采用5-交叉驗證實驗,即所有文檔隨機均分成五組,一組為測試集,其他四組為訓練集,共進行五次實驗,最后評價指標的平均值作為特征詞選取的依據。
4.2 效果評價標準
4.3 特征詞分類能力有效性實驗
根據式(10)對每一特征詞的分類能力進行評估,并根據評估值從大到小對所有特征詞進行排序。為了證明此特征選取方法的有效性,從有序的特征集中分別“從前到后”(即正向選取)、“從后到前”(即反向選取)和“隨機”(即隨機選取)選取特征詞n個,構成三個n維特征向量,分別進行文檔分類效果實驗。特征向量維數n的范圍為100到4 000。每隔100個特征詞做一次5-交叉實驗。實驗結果如圖1和圖2所示。從實驗結果可看出: ①正向選取的特征詞集分類效果好于反向選取特征詞集的分類效果,而隨機選取特征詞集的分類效果介于正向選取和反向選取的分類效果之間。②隨著特征詞數的增加,正向選取特征詞的文檔分類效果逐漸變好,而反向選取特征詞的分類效果基本不變。說明反向選取的特征詞分類能力特別弱。③特征詞數目大于4 000以后,正向選取特征集的分類效果基本保持不變,隨機選取特征集和反向選取特征集的分類效果在緩慢逐漸增大,但最大值也難于接近正向選取特征集的分類效果。其他特征詞分類能力的評價實驗結果與宏F值和微F值測試結果具有相似的變化趨勢。說明有序特征集中靠前的特征詞分類能力比較強,特征選取方法DC能夠對特征詞分類能力進行有效評估,成為特征詞選取的依據。
圖1 宏F反映特征集分類能力
圖2 微F反映特征集分類能力
4.4 文本特征選取方法對比實驗
對文檔集進行TFIDF加權后,分別采用詞頻修正DC、文檔頻DF、信息增益IG、互信息熵MI、統計量χ2(CHI)、文檔證據權WET、期望交叉熵ECE和DIS以及相對熵RE進行文檔分類效果對比實驗,實驗結果如圖3和圖4所示。
圖3 不同特征詞選取方法比較(微F)
圖4 不同特征詞選取方法比較(宏F)
由圖3所示,所有特征選取方法的微F值隨著特征詞的增多都能達到一個比較穩(wěn)定的效果,其中DC方法優(yōu)于其他方法,最快達到的穩(wěn)定值和最大值。由圖4可知,上述所有方法的宏F值隨著特征詞的增多都呈現明顯的上升趨勢,但是DC方法上升趨勢更明顯,且達到的極值最大。當特征詞大于4 000個以后,微F值和宏F值就沒有明顯增大趨勢,文檔分類效果基本達到極值。其他特征詞分類效果評價的變化趨勢與微F值和宏F值實驗結果變化趨勢相似。
通過分析現有多種基于統計學的文本特征詞選取方法,其實質上是利用某個特征詞在一個文檔中是否出現對文檔類別的概率分布的影響來刻畫特征詞對文檔分類能力,只是應用到文檔頻的信息。而這些特征選取方法缺乏考慮文檔詞頻和文檔詞頻分布對文檔分類的影響。針對這個缺陷,以文檔頻為主,結合文檔詞頻和文檔詞頻分布為修正,重新定義文本特征詞分類能力的評估函數。在此基礎上完成特征詞的分類能力排序,形成基于詞頻分布修正的文本特征詞選取方法DC。目前,文本特征詞選取方法主要是構造特征詞分類能力評估函數,實現特征詞分類能力排序。以特征詞分類能力為啟發(fā)信息,采用分類能力強的特征詞組合(即特征詞分類能力的強強聯合),逐一測試每一組合的分類效果(即精確率、召回率、F值),人工選取認可的特征詞子集集,但還缺少特征詞自動選取方法。另一方面,特征詞選取后采用其他方法(主要是TFIDF方法)對特征詞加權,即特征詞選取和特征詞加權是分離的。因此,下一步工作是實現自動特征選取方法和特征加權后再進行特征詞選取的研究。
[1] 苗奪謙,衛(wèi)志華.中文文本信息處理的原理與應用[M].北京: 清華大學出版社,2007
[2] 劉銘.大規(guī)模文檔聚類中若干關鍵問題的研究[D].哈爾濱工業(yè)大學博士學位論文. 2010.
[3] 熊忠陽,張鵬招,張玉芳.基于χ2統計的文本分類特征選擇方法的研究[J],計算機應用,2008,28(2): 513-514
[4] 熊云波.文本信息處理的若干關鍵技術研究[D].復旦大學博士學位論文. 2006.
[5] 王 輝,張成鎖,卓呈祥.一種改進的相對熵特征選擇方法[J].計算機工程,2011,37(10):167-169.
[6] 柴玉梅,王宇.基于TFIDF的文本特征選擇方法[J].微計算機信息,2006,22(8-3): 24-26
[7] 蘇丹.一種基于最少出現文檔頻的文本特征提取方法[J].計算機工程與應用,2012,48(10):164-166+178.
[8]BongCh,K.Narayanan.Anempiricalstudyoffeatureselectionfortextcategorizationbasedontermweightage[C]//ProceedingsoftheInternationalConferenceonWebIntelligence, 2004:599-602.
[9] 代六玲,黃河燕,陳肇雄.中文文本分類中特征抽取方法的比較研究[J].中文信息學報,2004,18(1): 26-32.
[10]Saltong,Clementty.Ontheconstructionofeffectivevocabulariesforinformationretrieval[C]//Proceedingsofthe1973Meet-ingonProgrammingLanguagesandInformationRetrieva.lNewYork:ACM, 1973: 11.
[11] 宗成慶.統計自然語言處理[M].北京: 清華大學出版社,2011.
[12] 陳鍵.面向文本分類的特征詞選取方法研究[D]. 合肥工業(yè)大學碩士學位論文. 2009.
[13] 余俊英.文本分類中特征選擇方法的研究[D]. 江西師范大學碩士學位論文. 2007.
[14] 周茜,趙明生等. 中文文本分類中的特征選擇研究[J].中文信息學報,2003 ,18 (3):17- 23.
[15] 單松巍,馮是聰,李曉明.幾種典型特征選取方法在中文網頁分類上的效果比較[J].計算機工程與應用,2003,39(22):146-148
[16]YangYiming,PedersenJO.Acomparativestudyonfeatureselectionintextcategorization[C]//ProceedingsoftheFourteenthInternationalConferenceonMachineLearning.SanFrancisco,CA,USA:ICML97MorganKaufmannPublishersInc,1997.
Feature Word Selection for Document Classification
LI Guohe1,2,3,YUE Xiang1,2,WU Weijiang1,2,3,HONG Yunfeng3,LIU Zhiyuan3,CHEN Yuan3
(1. College of Geophysics and Information Engineering, China University of Petroleum, Beijing 102249, China;2. Beijing Key Lab of Data Mining for Petroleum Data, China University of Petroleum, Beijing 102249, China;3. PanPass Institute of Digital Identification Management and Internet of Things, Beijing 100029, China)
Feature words selection from texts is a significant step in Chinese text information pre-processing. After the segmentation of Chinese texts, a Vector Model constructed by feature words representing the Chinese text documents cannot avoid low accuracy of document classification (or document retrieval) due to the sparseness and high-dimension of feature words. On the basis of an analysis of several classical text feature selection methods, a new method of text feature selection(DC) is presented, which is based on a modified document frequency. Experiments prove the performance of DC, is better than that of typical other methods according to macro-F values and micro-F values.
Text document; Feature word; Feature selection; Text classification
李國和(1965—),博士,教授,博士生導師,主要研究領域為智能信息處理,知識發(fā)現,數據可視化等。E-mail:ligh@cup.edu.cn岳翔(1988—),碩士研究生,主要研究領域為智能信息處理,知識發(fā)現等。E-mail:yuexiang19881@126.com吳衛(wèi)江(1971—),在職博士研究生,副教授,主要研究領域為智能信息處理,知識發(fā)現,數據可視化等。E-mail:allan1226@163.com
1003-0077(2015)04-0120-06
2013-07-14 定稿日期: 2013-11-12
國家高新技術研究發(fā)展計劃(2009AA062802);國家自然科學基金(60473125);中國石油(CNPC)石油科技中青年創(chuàng)新基金(05E7013);國家重大專項子課題(G5800-08-ZS-WX)
TP391
A