亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于主題模型的短文本分類研究

        2016-10-21 08:40:12王海林張雅君
        中國管理信息化 2016年19期
        關(guān)鍵詞:山西財經(jīng)大學主題詞短文

        王海林,張雅君

        (山西財經(jīng)大學 信息管理學院,太原 030006)

        基于主題模型的短文本分類研究

        王海林,張雅君

        (山西財經(jīng)大學信息管理學院,太原030006)

        分本分類作為文本挖掘的分支,得到了廣泛的關(guān)注和迅速的發(fā)展?;谥黝}模型,針對短文本分類進行研究,選取LDA和BTM主題模型和SVM、Bagging和AdaBoost分類方法進行短文本分類實驗,并對實驗結(jié)果進行評價。

        主題模型;短文本分類;LDA;BTM

        1 引言

        隨著信息技術(shù)的快速發(fā)展和網(wǎng)絡的廣泛使用,互聯(lián)網(wǎng)中產(chǎn)生的信息顯著增加。大量非結(jié)構(gòu)化數(shù)據(jù)已經(jīng)成為網(wǎng)絡數(shù)據(jù)的主力軍,可以占到總數(shù)據(jù)量的90%[1],短文本更是在社交網(wǎng)站中隨處可見。主題模型作為特征選擇的一種方法,常用于文本分類中。使用不同的分類方法,對比LDA和BTM模型對于短文本特征選擇的效果。

        2 主題模型

        2.1主題模型思想

        主題模型是一種層次結(jié)構(gòu)的模型,用概率來表示各層之間的關(guān)系,常見的有 PLSA[2]、LDA[3]和 BTM[4]等,PLSA即潛在語義分析,是最早的主題模型,它使用條件概率描述單詞和潛在類別間的關(guān)系,并使用最大期望的方法訓練潛在類別。

        2.2 LDA模型

        由于PLSA模型的不完備和容易出現(xiàn)過擬合等缺陷[4],Blei等人提出了LDA模型,用概率來表示文檔集合層、文檔層和詞語層之間的關(guān)系。

        在LDA模型中:

        (1)每篇文檔主題詞的個數(shù)N~Possion(ξ);

        (2)文檔中先驗概率θ~Dir(α);

        (3)每篇文檔的第n個主題詞wn:

        主題Zn~Multinomial(θ);

        主題詞wn~Multinomial(wn|Zn,β)。

        所以,LDA模型可以表示為:

        其中P(φ|β),代表主題概率,P(w|φ)P(z|θ)代表主題詞概率,P(w|φ)P(z|θ)P(θ|φ)代表文檔概率。

        參數(shù)估計:

        2.3 BTM模型

        BTM是另一種三層貝葉斯結(jié)構(gòu)模型,與LDA不同的是它用“詞對”來代替詞,從而克服了短文本中詞少所帶來的困難。BTM和LDA均使用Gibbs抽樣方法進行參數(shù)估計。LDA的Gibbs updating rules為:

        BTM的Gibbs updating rules為:

        BTM模型參數(shù)估計:

        3 實驗數(shù)據(jù)及評價

        3.1實驗數(shù)據(jù)及預處理

        實驗數(shù)據(jù)集來源于SODA上海開放數(shù)據(jù)創(chuàng)新應用大賽公開數(shù)據(jù),數(shù)據(jù)集名稱為網(wǎng)格化管理數(shù)據(jù),該數(shù)據(jù)集用來統(tǒng)計城市居民對于市容市貌現(xiàn)象的反映,其中描述這個屬性是對反映內(nèi)容的簡單敘述,平均字數(shù)少于100,類別是指反映現(xiàn)象所屬類別。經(jīng)過對數(shù)據(jù)的篩選,最終有988條數(shù)據(jù),類別為暴露垃圾、跨門營業(yè)和占道無證經(jīng)營。

        3.2實驗環(huán)境

        分詞處理:中科院中文分詞系統(tǒng)ICTCLAS;

        主題模型:Windows下的 JGibbs和 Ubuntu下的 BTM-master;

        文本分類:Weka中的libsvm、Bagging和AdaBoost方法。

        3.3實驗及結(jié)果評價

        選取 LDA和 BTM為主題模型,使用 libsvm、Bagging和 AdaBoost分類方法,將它們兩兩組合,同樣的分類方法設置相同的參數(shù),最終進行6次實驗,并對實驗結(jié)果進行評價。

        以精確度 (Precision rate)、召回率 (Recall)和F值 (F-measure)為評價指標,BTM+libsvm最高,均為 0.967,LDA+ AdaBoost最低,分別為0.804、0.811和0.795。因此,對于短文本,BTM比LDA有更強的適用性,而對于分類,SVM更適合處理高維數(shù)據(jù)。

        4 總結(jié)

        從實驗結(jié)果可以看出,對于短文本的分類,使用BTM作為主題模型,SVM作為分類方法,得到的效果最佳。當然,由于數(shù)據(jù)集的局限性,實驗結(jié)果具有一定的片面性,未來的工作可以進一步選取多個實驗數(shù)據(jù)集,以得到更普遍的結(jié)論。

        主要參考文獻

        [1]Limeng Cui,F(xiàn)an Meng,Yong Shi,etal.A Hierarchy Method Based on LDA and SVM for News Classification[C]//Proceedings of the 2014 IEEE International Conference on Data MiningWorkshop,2014:60-64.

        [2]THofmann.Probabilistic L atent S emantic I ndexing[C]//Annual International SIGIRConference,1999.

        [3]Blei D,Ng A,Jordan M.Latent Dirichlet Allocation[J].Journal of Machine Learning Research.2003(3):993-1022.

        [4]董文.基于LDA和Word2Vec的推薦算法研究[D].北京:北京郵電大學,2015.

        10.3969/j.issn.1673-0194.2016.19.098

        TP311

        A

        1673-0194(2016)19-0174-02

        2016-08-25

        王海林(1962-),男,山西大同人,山西財經(jīng)大學副教授,碩士研究生導師,主要研究方向:數(shù)據(jù)建模、大數(shù)據(jù)、分布式系統(tǒng)、數(shù)據(jù)可視化。

        猜你喜歡
        山西財經(jīng)大學主題詞短文
        山西財經(jīng)大學
        山西財經(jīng)大學會計學院第二屆博士論壇召開
        會計之友(2019年21期)2019-11-07 01:56:59
        KEYS
        Keys
        2016年山西財經(jīng)大學會計學院學術(shù)論壇召開
        會計之友(2016年24期)2017-01-09 10:08:53
        Consequences of Economic Globalization
        我校學報第32卷第5期(2014年10月)平均每篇有3.04個21世紀的Ei主題詞
        我校學報第32卷第6期(2014年12月)平均每篇有3.00個21世紀的Ei主題詞
        2014年第16卷第1~4期主題詞索引
        《疑難病雜志》2014年第13卷主題詞索引
        伊人久久一区二区三区无码| 精品亚洲国产成人蜜臀av| 在线精品无码字幕无码av| 精品无码人妻一区二区三区| 91情侣视频| 日本一区二区日韩在线| 国产亚洲人成在线观看| 人妻哺乳奶头奶水| 一个人看的www免费视频中文| 国产自精品在线| 五月婷婷开心五月播五月| 亚洲中字幕日产av片在线| 国产精品自在线拍国产| 久久无码一一区| av在线不卡一区二区三区| 亚洲国产精品美女久久| 国产又黄又爽又色的免费| 999国产精品视频| 亚洲视频精品一区二区三区| 国产亚洲人成在线观看| 午夜内射中出视频| 亚洲最大成av人网站| 午夜在线观看一区二区三区四区| 婷婷色婷婷开心五月四| 成人三级a视频在线观看| 精品国产18禁久久久久久久| 经典亚洲一区二区三区| 免费a级毛片高清在钱| 成 人 免费 黄 色 视频| 青青草视频华人绿色在线| 在线小黄片视频免费播放| 中文字幕无线码一区二区| 疯狂做受xxxx高潮欧美日本| 亚洲色欲色欲www成人网| 国产精品熟女少妇不卡| 无遮挡18禁啪啪羞羞漫画| 精品人妻伦九区久久AAA片69| 亚洲av无码国产精品久久| 成人黄色网址| 久久se精品一区二区国产| 男女搞事在线观看视频|