亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于主題模型的短文本分類研究

2016-10-21 08:40:12王海林張雅君

中國管理信息化 2016年19期

關(guān)鍵詞：山西財經(jīng)大學主題詞短文

王海林，張雅君

（山西財經(jīng)大學　信息管理學院，太原　030006）

基于主題模型的短文本分類研究

王海林，張雅君

（山西財經(jīng)大學信息管理學院，太原030006）

分本分類作為文本挖掘的分支，得到了廣泛的關(guān)注和迅速的發(fā)展?；谥黝}模型，針對短文本分類進行研究，選取LDA和BTM主題模型和SVM、Bagging和AdaBoost分類方法進行短文本分類實驗，并對實驗結(jié)果進行評價。

主題模型；短文本分類；LDA；BTM

1　引言

隨著信息技術(shù)的快速發(fā)展和網(wǎng)絡的廣泛使用，互聯(lián)網(wǎng)中產(chǎn)生的信息顯著增加。大量非結(jié)構(gòu)化數(shù)據(jù)已經(jīng)成為網(wǎng)絡數(shù)據(jù)的主力軍，可以占到總數(shù)據(jù)量的90%［1］，短文本更是在社交網(wǎng)站中隨處可見。主題模型作為特征選擇的一種方法，常用于文本分類中。使用不同的分類方法，對比LDA和BTM模型對于短文本特征選擇的效果。

2　主題模型

2.1主題模型思想

主題模型是一種層次結(jié)構(gòu)的模型，用概率來表示各層之間的關(guān)系，常見的有 PLSA［2］、LDA［3］和 BTM［4］等，PLSA即潛在語義分析，是最早的主題模型，它使用條件概率描述單詞和潛在類別間的關(guān)系，并使用最大期望的方法訓練潛在類別。

2.2 LDA模型

由于PLSA模型的不完備和容易出現(xiàn)過擬合等缺陷［4］，Blei等人提出了LDA模型，用概率來表示文檔集合層、文檔層和詞語層之間的關(guān)系。

在LDA模型中：

（1）每篇文檔主題詞的個數(shù)N～Possion（ξ）；

（2）文檔中先驗概率θ～Dir（α）；

（3）每篇文檔的第n個主題詞wn：

主題Zn～Multinomial（θ）；

主題詞wn～Multinomial（wn|Zn，β）。

所以，LDA模型可以表示為：

其中P（φ|β），代表主題概率，P（w|φ）P（z|θ）代表主題詞概率，P（w|φ）P（z|θ）P（θ|φ）代表文檔概率。

參數(shù)估計：

2.3 BTM模型

BTM是另一種三層貝葉斯結(jié)構(gòu)模型，與LDA不同的是它用“詞對”來代替詞，從而克服了短文本中詞少所帶來的困難。BTM和LDA均使用Gibbs抽樣方法進行參數(shù)估計。LDA的Gibbs updating rules為：

BTM的Gibbs updating rules為：

BTM模型參數(shù)估計：

3　實驗數(shù)據(jù)及評價

3.1實驗數(shù)據(jù)及預處理

實驗數(shù)據(jù)集來源于SODA上海開放數(shù)據(jù)創(chuàng)新應用大賽公開數(shù)據(jù)，數(shù)據(jù)集名稱為網(wǎng)格化管理數(shù)據(jù)，該數(shù)據(jù)集用來統(tǒng)計城市居民對于市容市貌現(xiàn)象的反映，其中描述這個屬性是對反映內(nèi)容的簡單敘述，平均字數(shù)少于100，類別是指反映現(xiàn)象所屬類別。經(jīng)過對數(shù)據(jù)的篩選，最終有988條數(shù)據(jù)，類別為暴露垃圾、跨門營業(yè)和占道無證經(jīng)營。

3.2實驗環(huán)境

分詞處理：中科院中文分詞系統(tǒng)ICTCLAS；

主題模型：Windows下的 JGibbs和 Ubuntu下的 BTM-master；

文本分類：Weka中的libsvm、Bagging和AdaBoost方法。

3.3實驗及結(jié)果評價

選取 LDA和 BTM為主題模型，使用 libsvm、Bagging和 AdaBoost分類方法，將它們兩兩組合，同樣的分類方法設置相同的參數(shù)，最終進行6次實驗，并對實驗結(jié)果進行評價。

以精確度（Precision rate）、召回率（Recall）和F值（F-measure）為評價指標，BTM+libsvm最高，均為 0.967，LDA+ AdaBoost最低，分別為0.804、0.811和0.795。因此，對于短文本，BTM比LDA有更強的適用性，而對于分類，SVM更適合處理高維數(shù)據(jù)。

4　總結(jié)

從實驗結(jié)果可以看出，對于短文本的分類，使用BTM作為主題模型，SVM作為分類方法，得到的效果最佳。當然，由于數(shù)據(jù)集的局限性，實驗結(jié)果具有一定的片面性，未來的工作可以進一步選取多個實驗數(shù)據(jù)集，以得到更普遍的結(jié)論。

主要參考文獻

［1］Limeng Cui，F(xiàn)an Meng，Yong Shi，etal.A Hierarchy Method Based on LDA and SVM for News Classification［C］//Proceedings of the 2014 IEEE International Conference on Data MiningWorkshop，2014：60-64.

［2］THofmann.Probabilistic L atent S emantic I ndexing［C］//Annual International SIGIRConference，1999.

［3］Blei D，Ng A，Jordan M.Latent Dirichlet Allocation［J］.Journal of Machine Learning Research.2003（3）：993-1022.

［4］董文.基于LDA和Word2Vec的推薦算法研究［D］.北京：北京郵電大學，2015.

10.3969/j.issn.1673-0194.2016.19.098

TP311

1673-0194（2016）19-0174-02

2016-08-25

王海林（1962-），男，山西大同人，山西財經(jīng)大學副教授，碩士研究生導師，主要研究方向：數(shù)據(jù)建模、大數(shù)據(jù)、分布式系統(tǒng)、數(shù)據(jù)可視化。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于主題模型的短文本分類研究

1 引言

2 主題模型

3 實驗數(shù)據(jù)及評價

4 總結(jié)

1　引言

2　主題模型

3　實驗數(shù)據(jù)及評價

4　總結(jié)