余 璇,孫 偉,張 翔
(上海海事大學 信息工程學院,上海 201306)
基于互信息的文本分類改進方法研究
余 璇,孫 偉,張 翔
(上海海事大學 信息工程學院,上海 201306)
傳統(tǒng)的LDA主題模型沒有考慮詞頻對主題分類的影響,使得主題分布向高頻詞傾斜。為了綜合考慮詞頻和主題間的相關性,文中利用互信息能夠表達變量間相關性的特點,在互信息基礎上改進作為特征選擇方法,利用評價函數評價特征詞的權重值改進LDA算法分類過程,提高對主題分類貢獻度高的特征詞的作用。通過在新聞語料庫上的分類實驗證明了該方法的有效性,同時表明分類的準確率也有所提高。
主題模型;詞頻;互信息;特征選擇
文本分類是指在給定分類體系下,根據文本內容自動確定文本類別的過程,本質上是一種模式識別過程,它可以對文本的特征模式進行識別,關鍵技術有語料庫的預處理、特征選擇、分類模型構建等。主題模型[1](topic modeling)是一種常見的機器學習方法,可以自動提取隱含在文檔集中的主題,并且按照詞的分布形式直觀地表達主題,無監(jiān)督地分析文檔和預測新文檔,目前廣泛應用于對文本的分類。其中LDA(Latent Dirichlet Allocation)[2]主題模型由于其參數簡單,不產生過度擬合的現象,逐漸成為主題模型應用于文本分類的研究熱點。根據zipf定律,文檔中的詞頻分布符合冪律分布,在LDA主題模型學習時,這種冪律分布影響了詞對主題間相關性的表達能力。針對這一現象,利用評價函數通過特征選擇提取出文檔中特征詞,對特征集中的每一個特征詞進行評估,選取特定數目的特征詞組成特征子集表示文本,達到文本降維的目的。傳統(tǒng)的特征選擇方法有詞頻[3](Term Frequency,TF)、文檔頻率[4](Document Frequency,DF)、信息增益[5](Information Gain,IG)、互信息[6](Mutual Information,MI)、卡方統(tǒng)計[6](Chi-square Statistic,CHI)、期望交叉熵[6](Expected Cross Entropy,ECE)、文本證據權[6](Weight of Evidence for Text,WET)、優(yōu)勢比[6](Odds Ratio,OR)等方法。文本利用詞頻與互信息結合做為評估函數提取特征詞,并在LDA模型中對特征詞進行加權處理,提高特征詞對文本主題分類的能力。
LDA主題模型是一種對文本數據的主題信息進行提取的方法,通過對文本內容進行簡短的描述,保留本質的統(tǒng)計信息,高效地處理大規(guī)模數據集。LDA模型是一個產生式三層貝葉斯概率模型,分別是文檔層、主題層和詞層。
為了表述文檔中主題類間的相關性問題,在LDA模型的基礎上,Blei等人在LDA模型提出之后接著提出了CTM[7](Correlated Topic Model)模型,用邏輯正態(tài)分布(Logistic-Normal)替換Dirichlet主題先驗分布,通過引入主題間的協(xié)方差矩陣來描述主題相關性。Li等人提出PAM[8](Pachinko Allocation Model)模型,用一個有向無環(huán)圖(DAG)表示語義結構,在描述詞之間的相關性的同時,還描述了主題之間的相關性,通過主題相關性提高文本分類效果。張振平、宣國榮等人[9]于2005年提出一種基于分類錯誤率最小的改進型LDA特征選擇算法 ,采用迭代計算使Bayes分類錯誤率上界最小,取得比原LDA更好的分類效果。由于LDA模型應用廣泛,盧盛祺等人[10]提出了一種基于LDA模型的電影推薦方法,提高了視頻推薦的精度。
針對LDA模型的主題分布中詞分布不均勻現象,高頻詞的比重大導致能夠代表主題的多數詞被少量的高頻詞淹沒,使得主題表達能力降低,張小平、周雪忠[11]利用高斯函數對特征詞加權,改進模型的主題分布。雖然在數據預處理階段大量無用詞已被剔除,但在構造分類器時,其余的特征詞數量仍然很多,并且有很多特征詞表述類別信息能力較差,甚至會誤導分類結果。因此,為提高分類器的效率,更好地表示主題間的關系,本文從這些特征詞中進一步挑選出對類別貢獻大的特征詞構成特征向量。對于幾種不同的特征選擇方法,下面著重介紹詞頻和互信息。
2.1詞頻
詞頻指特征詞的頻次(Term Frequency,TF),即特征詞在所有文本即整個語料中出現的次數。設立閾值根據詞頻的大小對所有詞項進行篩選。
2.2互信息
作為計算語言學模型分析中的重要內容,互信息可以衡量兩個事件之間的相關性。兩個事件X和Y的互信息計算方法為:
H(X,Y)=H(X)+H(Y)-H(X,Y)
(1)
其中H(X,Y)是事件的聯(lián)合熵,定義為:
H(X,Y)=-∑p(x,y)log(p(x,y))
(2)
在文本分類中特征詞和主題類的互信息公式為:
(3)
其中,p(t)表示特征詞t在整個文檔集中出現的文檔頻,p(ci)是文檔集中第ci類文檔個數與整個文檔集中文檔個數的比值,p(t,ci)表示類別c中含有特征t的文檔個數。
3.1特征詞的抽取
特征詞在一篇文檔中的詞頻率并不絕對對應于該特征詞在該文檔中的重要性,互信息方法可以度量特征詞對于整個文檔集分類的重要程度,它根據文檔頻和特征詞與類別之間的關系判斷詞對主題類劃分的貢獻度。缺點是有可能導致最終所得的特征集中,能夠代表某類的特征詞較多,而代表其他類的較少,即會導致特征集合“不均勻”。
為了提高特征詞對文本分類的貢獻度,需要重新構造每篇文檔的特征向量,即在構造特征向量時,使用原來的特征詞構成特征向量,同時將在該文檔中以高詞頻出現的特征詞補充在向量列表中。本文通過詞頻與互信息結合的方式,用式(4)作為評價函數計算每個特征詞在一篇文檔中的貢獻度:
(4)
為了得到特征詞t與各個文檔的平均關聯(lián)程度,特征詞對于文檔集的平均互信息計算公式為:
(5)
在主題分類前由于不確定主題類,因此本文用互信息表示特征詞與文檔之間的相關程度,其中p(di)表示第i篇文檔的詞頻,p(t)表示特征詞t在整個文檔集中出現的詞頻,p(t,di)表示文檔i中含有特征詞t的詞個數。利用詞頻代替文檔頻表示特征詞與文檔的相關性方法,避免了僅僅考慮文檔頻不考慮詞頻導致的最終計算出的互信息值大量相同的現象,減緩最終根據閾值篩選特征詞時丟失很多有價值的特征詞的問題。
3.2模型的推導與估計
將文檔集表示為D篇文本,假設由K個主題混合產生表示每篇文本,主題類別個數K已知,并且主題類間相互獨立,忽略文本中的語法結構和詞出現的先后順序,每個主題k由詞的多項式分布形成。將LDA模型使用概率圖表示(如圖1),圖中黑色標志詞w是唯一可觀察到的變量,wdn表示第d篇文本的第n個詞,wdn∈V,V表示文檔中詞的字典集;zdn表示wdn產生的主題;α表示文檔集的主題先驗分布超參數;θd代表文檔d在主題上的分布比例,對于每篇文檔d,θd服從狄利克雷分布;主題φk表示字典V中的詞分布;圖中主題模型包含k個主題在詞上的分布φ1:k,文檔中詞的總個數用N表示。作為一個產生式概率模型,假設主題類個數確定,給定參數α和β,文檔d的物理產生過程描述為:(1)從p(θ|α)中隨機選擇一個K維向量θd,產生文檔d的主題分布;(2)通過p(wdn|θd,φ1:k)產生文檔d的每個詞wdn。
圖1 LDA圖概率模型表示
(6)
上式的條件概率計算中涉及到兩個Dirichlet-multinational共軛結構:
(7)
(8)
(9)
(10)
由式(9)、(10)得到LDA文本建模最終的參數采樣公式為:
p(zi=k|z,w,α,β)∞
p(zi=k,wi=t|z,w,α,β)∞
(11)
本文在詞頻與互信息結合的基礎上改進模型,通過對LDA模型進行擴展改變模型生成特征詞的過程, 提高表意性較強的特征詞在生成過程中的采樣分布。對此將特征詞在文檔中的權重考慮在參數采樣公式中,權重值公式參考前文提到的平均互信息計算公式,即
(12)
改變生成模型生成特征詞的概率,提出一個基于Gibbs Sampling公式基礎上的新公式:
p(zi=k|z,w,α,β)∞
p(zi=k,wi=t|z,w,α,β)∞
(13)
本文使用的主題模型方法在Gibbs Sampling采樣過程中對詞的權重值進行調整,并使用0均值標準化(Z-score standardization)(如式(12))方法在模型中詞概率值進行歸一化。
z=(p-μ)/σ
(14)
其中μ、σ分別為Gibbs Sampling迭代之前的特征詞頻率值的均值和方差,歸一化后Gibbs Sampling過程能夠順利收斂。
4.1實驗數據和實驗環(huán)境
本實驗所使用的數據是搜狗實驗室提供的全網新聞數據,來自若干新聞站點2012年6月至7月期間國內、國際、體育、社會、娛樂等18個頻道的新聞數據,選取其中的30 000篇新聞數據,訓練數據20 000篇,測試數據10 000篇。
實驗PC為Thinkpad A6-3400M,主頻為1.4 GHz,采用Python2.7基于本文提出的詞頻與互信息結合的方法實現特征詞的提取,根據具體的評估函數計算特征詞對文本分類的貢獻度建立數據字典,通過Python實現改進后的主題模型,利用WEKA工具對分類效果進行評價。
4.2實驗評價標準
對分類器性能的全面評估需要考慮兩個方面的關鍵因素:一方面是分類器正確分類的能力;另一方面是分類器快速分類的能力。如何提高分類器正確分類的能力仍然是研究的熱點,目前常用的性能評估指標有召回率R(Recall)、準確率P(Precision)和F1值。
4.3特征詞選擇效果對比
為綜合評估本文提出的詞頻與互信息結合的主題模型特征選擇方法(簡稱TFMI-LDA模型)的有效性,將本文得到的特征詞與使用詞頻、互信息、信息增益分別得到的前10個特征詞及權重值變化進行對比,以體育類為例,結果如表1所示。
表1 不同特征選擇方法選擇出的特征詞及權重值變化比較
從表1可以看出,僅僅根據詞頻得到的特征詞如獎金、參與、視頻等特征詞對體育類主題的新聞表意性較差、對文本的理解貢獻度較低。根據互信息和信息增益的方法得到的關鍵詞中也有審核、收看等對主題區(qū)分度不高的詞,而通過本文的TFMI-LDA方法提取的關鍵詞,其中權重值最高的比賽、籃球、熱火、詹姆斯、高爾夫等詞都與體育類主題相關性較高,對文本分類貢獻度更高,更具代表性。
4.4準確率、召回率、F1值對比
為綜合評估本文提出的基于詞頻和互信息結合的主題模型文本分類方法的有效性, 將基于詞頻、互信息、信息增益、LDA模型作為基礎對比方法, 與本文TFMI-LDA方法進行對比實驗。LDA過程中的參數設定為:K=18,α=50/K,β=0.1。針對訓練的新聞數據,各特征選擇方法在特征詞數500~2 500之間的分類效果, 如圖2。
圖2 不同特征詞個數時幾種方法的F1值對比
從實驗結果可以看出,針對體育、社會、娛樂、財經等主題的新聞分類中,基于文本提出的TFMI-LDA方法在分類結果F1值上都要優(yōu)于基于傳統(tǒng)的詞頻、互信息、信息增益特征選擇方法,隨著特征詞個數的增加,F1值逐漸增加,當特征詞個數在2 500時,分類結果F1值達到86%。
將特征詞個數選取為2 100個,在LDA模型的基礎上,分別使用本文提出的TFMI-LDA方法和前文提到的張小平、周雪忠等人通過高斯函數對特征詞加權的方法做對比實驗,選取體育、社會、娛樂、財經、國內、國際主題類,實驗準確率、召回率、F1值結果分別如圖3所示。
圖3 不同主題類下三種方法的準確率、召回率、F1值對比
觀察實驗結果,當設定相同的參數時,高斯函數加權法和本文的TFMI-LDA方法在傳統(tǒng)LDA模型基礎上實驗準確率、召回率、F1值都有所提高,并且TFMI-LDA方法比高斯函數加權法的F1值提高更多。
傳統(tǒng)的LDA模型在主題分類時沒有考慮語料庫中高頻詞對分類結果的影響,本文提出基于詞頻與互信息結合的方法做特征提取,并用評價函數計算特征詞的貢獻度,改進LDA主題模型文本分類方法。實驗結果表示TFMI-LDA方法比傳統(tǒng)LDA模型具有更好的性能,分類準確率、召回率、F1值也有所提高。
[1] DEERWESTER S,DUMAIS S, FURNAS U,et al.Indexing by latent semantic analysis[J]. Journal of the American Society for Information Science, 1990,41(6): 391-407.
[2] BLEI D,NG A,JORDAN M.Latent dirichlet allocation[J].Journal of Machine Learning Research, 2003(3):993-1022.
[3] 費曉紅,康松林,朱曉娟,等.基于詞頻統(tǒng)計的中文分詞研究[J].計算機工程與應用,2005,41(7):67-68.
[4] 楊凱峰,張毅坤,李燕. 基于文檔頻率的特征選擇方法[J].計算機工程,2010,36(9):33-35,38.
[5] 劉慶和,梁正友.一種基于信息增益的特征優(yōu)化選擇方法[J].計算機工程與應用,2011, 47(12):130-132.
[6] 鄧彩鳳.中文文本分類中互信息特征選擇方法研究[D].重慶:西南大學,2011.
[7] BLEI D,LAFFERTY J.Correlated topic models[C].In;Proc,of International Conference on Machine Learning, 2006: 113-120.
[8] LI W,MCCALLUM A.Pachinko allocation:DAG(rstructured mixture models of topic correlations[C].In:Proc.of International Conference on Machine Learning, 2006:577-584.
[9] 張振平,宣國榮,鄭俊翔,等.一種基于最小分類錯誤率的改進型 LDA特征選擇算法[J].微型電腦應用,2005(4):4-6.
[10] 盧盛祺,管連,金敏,等.LDA模型在網絡視頻推薦中的應用[J].微型機與應用,2016,35(11): 74-79.
[11] 張小平,周雪忠,黃厚寬.一種改進的 LDA 主題模型[J].北京交通大學學報,2010,34(2): 111-114.
Research on text classification improvement method based on mutual information
Yu Xuan, Sun Wei, Zhang Xiang
(College of Information Engineering, Shanghai Maritime University , Shanghai 201306, China)
The traditional Latent Dirichlet Allocation(LDA) topic model does not consider the influence of word frequency on the subject classification, so that the distribution of the subject is tilted to the high frequency word.In order to comprehensively consider the correlation between word frequency and subject, this paper uses mutual information to express the characteristics of correlation between variables, and improves it as a feature selection method on the basis of mutual information. We use the evaluation function to evaluate the weight value of the characteristic word to improve the LDA algorithm classification process, and improve the contribution of the characteristic words with high contribution to the subject classification. The validity of the method is proved by the classification experiment in the news corpus, and the result shows that the accuracy of the classification is also improved.
topic model; word frequency; mutual information; feature selection
TP301.6
A
10.19358/j.issn.1674- 7720.2017.19.006
余璇,孫偉,張翔.基于互信息的文本分類改進方法研究[J].微型機與應用,2017,36(19):19-22.
2017-04-04)
余璇(1994-),通信作者,女,碩士研究生,主要研究方向:數據挖掘、文本分析。E-mail:15001882660@163.com。孫偉(1978-),男,博士,副教授,主要研究方向:智能信息處理(模糊認知圖)、移動傳感器網絡動態(tài)組網、物聯(lián)網技術等。張翔(1991-),男,碩士研究生,主要研究方向:數據挖掘、文本分析。