王海林,張雅君
(山西財經(jīng)大學 信息管理學院,太原 030006)
基于主題模型的短文本分類研究
王海林,張雅君
(山西財經(jīng)大學信息管理學院,太原030006)
分本分類作為文本挖掘的分支,得到了廣泛的關(guān)注和迅速的發(fā)展?;谥黝}模型,針對短文本分類進行研究,選取LDA和BTM主題模型和SVM、Bagging和AdaBoost分類方法進行短文本分類實驗,并對實驗結(jié)果進行評價。
主題模型;短文本分類;LDA;BTM
隨著信息技術(shù)的快速發(fā)展和網(wǎng)絡的廣泛使用,互聯(lián)網(wǎng)中產(chǎn)生的信息顯著增加。大量非結(jié)構(gòu)化數(shù)據(jù)已經(jīng)成為網(wǎng)絡數(shù)據(jù)的主力軍,可以占到總數(shù)據(jù)量的90%[1],短文本更是在社交網(wǎng)站中隨處可見。主題模型作為特征選擇的一種方法,常用于文本分類中。使用不同的分類方法,對比LDA和BTM模型對于短文本特征選擇的效果。
2.1主題模型思想
主題模型是一種層次結(jié)構(gòu)的模型,用概率來表示各層之間的關(guān)系,常見的有 PLSA[2]、LDA[3]和 BTM[4]等,PLSA即潛在語義分析,是最早的主題模型,它使用條件概率描述單詞和潛在類別間的關(guān)系,并使用最大期望的方法訓練潛在類別。
2.2 LDA模型
由于PLSA模型的不完備和容易出現(xiàn)過擬合等缺陷[4],Blei等人提出了LDA模型,用概率來表示文檔集合層、文檔層和詞語層之間的關(guān)系。
在LDA模型中:
(1)每篇文檔主題詞的個數(shù)N~Possion(ξ);
(2)文檔中先驗概率θ~Dir(α);
(3)每篇文檔的第n個主題詞wn:
主題Zn~Multinomial(θ);
主題詞wn~Multinomial(wn|Zn,β)。
所以,LDA模型可以表示為:
其中P(φ|β),代表主題概率,P(w|φ)P(z|θ)代表主題詞概率,P(w|φ)P(z|θ)P(θ|φ)代表文檔概率。
參數(shù)估計:
2.3 BTM模型
BTM是另一種三層貝葉斯結(jié)構(gòu)模型,與LDA不同的是它用“詞對”來代替詞,從而克服了短文本中詞少所帶來的困難。BTM和LDA均使用Gibbs抽樣方法進行參數(shù)估計。LDA的Gibbs updating rules為:
BTM的Gibbs updating rules為:
BTM模型參數(shù)估計:
3.1實驗數(shù)據(jù)及預處理
實驗數(shù)據(jù)集來源于SODA上海開放數(shù)據(jù)創(chuàng)新應用大賽公開數(shù)據(jù),數(shù)據(jù)集名稱為網(wǎng)格化管理數(shù)據(jù),該數(shù)據(jù)集用來統(tǒng)計城市居民對于市容市貌現(xiàn)象的反映,其中描述這個屬性是對反映內(nèi)容的簡單敘述,平均字數(shù)少于100,類別是指反映現(xiàn)象所屬類別。經(jīng)過對數(shù)據(jù)的篩選,最終有988條數(shù)據(jù),類別為暴露垃圾、跨門營業(yè)和占道無證經(jīng)營。
3.2實驗環(huán)境
分詞處理:中科院中文分詞系統(tǒng)ICTCLAS;
主題模型:Windows下的 JGibbs和 Ubuntu下的 BTM-master;
文本分類:Weka中的libsvm、Bagging和AdaBoost方法。
3.3實驗及結(jié)果評價
選取 LDA和 BTM為主題模型,使用 libsvm、Bagging和 AdaBoost分類方法,將它們兩兩組合,同樣的分類方法設置相同的參數(shù),最終進行6次實驗,并對實驗結(jié)果進行評價。
以精確度 (Precision rate)、召回率 (Recall)和F值 (F-measure)為評價指標,BTM+libsvm最高,均為 0.967,LDA+ AdaBoost最低,分別為0.804、0.811和0.795。因此,對于短文本,BTM比LDA有更強的適用性,而對于分類,SVM更適合處理高維數(shù)據(jù)。
從實驗結(jié)果可以看出,對于短文本的分類,使用BTM作為主題模型,SVM作為分類方法,得到的效果最佳。當然,由于數(shù)據(jù)集的局限性,實驗結(jié)果具有一定的片面性,未來的工作可以進一步選取多個實驗數(shù)據(jù)集,以得到更普遍的結(jié)論。
主要參考文獻
[1]Limeng Cui,F(xiàn)an Meng,Yong Shi,etal.A Hierarchy Method Based on LDA and SVM for News Classification[C]//Proceedings of the 2014 IEEE International Conference on Data MiningWorkshop,2014:60-64.
[2]THofmann.Probabilistic L atent S emantic I ndexing[C]//Annual International SIGIRConference,1999.
[3]Blei D,Ng A,Jordan M.Latent Dirichlet Allocation[J].Journal of Machine Learning Research.2003(3):993-1022.
[4]董文.基于LDA和Word2Vec的推薦算法研究[D].北京:北京郵電大學,2015.
10.3969/j.issn.1673-0194.2016.19.098
TP311
A
1673-0194(2016)19-0174-02
2016-08-25
王海林(1962-),男,山西大同人,山西財經(jīng)大學副教授,碩士研究生導師,主要研究方向:數(shù)據(jù)建模、大數(shù)據(jù)、分布式系統(tǒng)、數(shù)據(jù)可視化。