,
(蘭州財經(jīng)大學 統(tǒng)計學院,蘭州 730020)
隨著計算機技術(shù)的不斷發(fā)展,各式各樣的文本數(shù)據(jù)大量產(chǎn)生。據(jù)相關(guān)統(tǒng)計資料顯示,社交網(wǎng)站Twitter每天新出現(xiàn)推文數(shù)量達到5億條[1]。傳統(tǒng)的文本分析方法是基于詞典對文檔進行分類,但是在數(shù)據(jù)量龐大的現(xiàn)今社會,這種方法無法完成數(shù)據(jù)的降維和分析數(shù)據(jù)潛在的語意[2],因此不能滿足人們的需求。隨著大數(shù)據(jù)技術(shù)的發(fā)展,文本分類方法結(jié)合計算機技術(shù)開始逐漸受到廣大學者的關(guān)注。如何從海量信息中提取有用的文本數(shù)據(jù)成為目前數(shù)據(jù)分析的迫切需求,這一現(xiàn)實問題也促使了文本分類技術(shù)的不斷發(fā)展[3]。
目前,文本分析的主流方法主要有基于規(guī)則和基于統(tǒng)計這兩大類[4-5]。但是,網(wǎng)絡(luò)文本具有表達方式多樣、表達形式不規(guī)范等特點,以及基于規(guī)則的分析方法在規(guī)則的總結(jié)和制定上成本高,耗時長,并且不具有良好的可擴展性。因此,在海量網(wǎng)絡(luò)文本作為數(shù)據(jù)基礎(chǔ)的背景下,越來越多的學者傾向于采用基于統(tǒng)計的方法。統(tǒng)計方法的基本思路是挖掘文本的主題信息,典型代表有隱語義索引(LSI)方法及其概率化的PLSI[6]。LSI方法在文本分類中的應用得到了深入的研究,盡管其降維作用較為顯著,但是分類精度較低。另外,這類模型的參數(shù)空間和訓練數(shù)據(jù)呈正比,不利于對大規(guī)模或動態(tài)增長的語料庫進行建模。文獻[7]提出的帶標簽的有監(jiān)督LDA(sl-LDA)模型是基于L-LDA模型進行的改進,并對L-LDA模型存在的不足提出改進,提高了模型的分類精度。本文提出的帶標簽的有監(jiān)督隱狄里克雷分配模型(sl-LDA)是在文獻[8]提出有監(jiān)督的LDA(s-LDA)主題模型基礎(chǔ)上進行的改進。由于s-LDA模型存在特殊類別標記方式,在進行分類時不能夠處理多標簽問題[2],并且s-LDA模型在分類時還存在主題未正確分配的問題。
為解決s-LDA模型存在的上述問題,本文在s-LDA模型基礎(chǔ)上加入類別標簽,并對改進模型進行實驗驗證。
LDA模型是文獻[9]提出的一種概率生成模型,它的基本出發(fā)點是認為文檔是一個詞包(bag of word)的集合,即認為文檔是詞的集合,忽略任何語法或者詞匯出現(xiàn)的順序關(guān)系。而且LDA模型的參數(shù)空間不會隨著訓練文檔數(shù)量增加而增加。因此,它具有優(yōu)良的語義挖掘和主題分析能力,尤其適用于含有大量文檔數(shù)據(jù)的挖掘分析。文獻[10]的研究表明,在文本分類上面LDA模型的分類效果表現(xiàn)并不突出。因此,LDA模型在主題分類精度上有不足之處。
目前,人們對LDA模型提出較多改進的應用模型[11-17]。一些無監(jiān)督LDA模型、有監(jiān)督LDA模型相繼被提出。
文獻[18]提出基于帶標簽的LDA(L-LDA)模型,在傳統(tǒng)的LDA模型基礎(chǔ)上加入標簽因素,從而解決LDA強制分配隱主題的問題。但是加入類別信息,必須考慮到標簽與主題之間的聯(lián)系,L-LDA模型定義了主題和類別標簽之間一一對應的關(guān)系,并將每一個文檔分配到預先定義的標簽集合,這種方式使得該模型缺乏處理潛在類別標簽以及含有共同語義文檔的機制,同時在含有最小基數(shù)的文本集合中分類效果不佳[7]。為了改變主題和類別標簽之間一一對應的關(guān)系,文獻[2]提出用于多標簽分類的改進Labeled LDA模型,對文檔加入文檔類別、作者等信息。該模型在文檔類別判定過程中通過聯(lián)合獨享主題和共享主題對類別進行預測,從而提高了多標簽主題分類的精度。從文檔內(nèi)容方面考慮,文獻[19]提出連續(xù)的LDA(SeqLDA)模型,該模型基于文檔內(nèi)容的興趣點等進行分析,此外采用分層雙參數(shù)泊松-狄里克雷分布進行建模,表現(xiàn)出良好的分類精度。
為了提高LDA模型的分類精度,文獻[8]提出有監(jiān)督的LDA主題模型(s-LDA)。該模型通過對文檔類別標記將對應的連續(xù)變量映射為由主題混合方式產(chǎn)生的響應變量來實現(xiàn)文檔的類別判定和連續(xù)數(shù)據(jù)的回歸分析,并構(gòu)造響應變量分析潛在主題。
基于以上描述,考慮到對LDA模型改進主要是加入標簽因素以及進行有監(jiān)督或者無監(jiān)督建模的優(yōu)點和缺點,本文基于s-LDA模型提出帶標簽的有監(jiān)督的隱狄里克雷分配(sl-LDA)模型。
文獻[9]提出的s-LDA模型是一種有監(jiān)督的主題模型分類方法。與傳統(tǒng)LDA模型不同的是,s-LDA模型對LDA模型中的每一個文檔加入響應變量,這個變量可以適應許多變量類型。舉例來講,變量是某部電影中明星的數(shù)量,也可以是論壇用戶對某一篇文章中訪問次數(shù)的統(tǒng)計[8]。而且s-LDA模型改進了lasso回歸方法,可以進一步提高分類的精度。s-LDA圖模型如圖1所示。
圖1 s-LDA圖模型
文獻[9]提出的s-LDA模型在LDA模型的基礎(chǔ)上加入響應變量,而且s-LDA模型改進了lasso回歸方法。然而s-LDA模型對文檔進行主題分配過程中存在一些問題:一方面,只能處理含有一個類別標記的文檔[2];另一方面,從實驗分析角度看,s-LDA模型在進行主題分配時,部分主題未進行正確分配,從而導致了文檔分配主題精確度下降。
鑒于s-LDA模型存在的問題,本文對s-LDA模型進行改進,從而嘗試解決s-LDA模型在進行主題分配時,部分主題未進行正確分配的問題。本文在s-LDA模型基礎(chǔ)上加入標簽因素,提出帶標簽的有監(jiān)督的隱狄里克雷分配(sl-LDA)模型。該模型對s-LDA模型主題層與文檔層的映射關(guān)系進行了改進,通過加入類別標簽降低主題被錯誤分配的可能性,提高了分類的精確度。同時加入類別標簽也可以提高文本分類的性能[18]。在第3節(jié)對本文的模型進行實例驗證,并與s-LDA模型比較。從比較結(jié)果來看,本文的模型能夠提高文本分類精確度。
具體來講,在對文檔中主題進行分類時,若所分配的主題存在于訓練過程中所選擇的主題,則保留該主題,否則拋棄。即在分配主題時加入狄拉克函數(shù)δ(x),該函數(shù)在x=0時函數(shù)值為1,在x≠0時函數(shù)值為0。為此,本文的sl-LDA圖模型形式如圖2所示。
圖2 sl-LDA圖模型
參數(shù)的分布表示形式如下:
1)對于每個主題θ有θ|αl~Dirichlet(αl)(l=1,2,…,C)。
2)對于每個詞w中的主題z有zn|θ~Multnormal(θ)。
3)對于每個詞w有wn|zn,βl,1∶K~Multnormal(β)(l=1,2,…,C)。
s-LDA模型的概率模型為:
(1)
通過最大化證據(jù)下界l(g)構(gòu)造變分函數(shù),對于每一個文檔有:
logap(w,y|α,β)≥(γ,φ,α,β)=
E[logap(y|Z1∶N)]+H(q)
(2)
其中,q表示變分分布函數(shù),且:
(3)
其中,γ為變分Dirichlet參數(shù)。
E步:
由式(1)~式(3)得到:
[logap(y|Z1∶N)]=
(4)
其中:
由式(2)可知,變分Dirichlet參數(shù)γ與響應變量y無關(guān),對式(4)采用坐標上升法[8]得到:
(5)
φl,j∝exp(E[logaθ|γ]+
E[logap(wj|βl,1∶K)(δC-l(d))]+
(6)
M步:
(7)
(8)
利用E步選擇的變分分布參數(shù),求矩陣A的期望,通過擴展內(nèi)積,利用線性期望和η的一階條件,可以得到:
E[ATA]=E[A]Ty?
(9)
(10)
本文在參數(shù)估計E步中,在s-LDA模型參數(shù)估計的基礎(chǔ)上對參數(shù)γnew和φj分別加入類別標簽c,并使用狄拉克函數(shù)δ(x)。具體而言,當文檔集合上隱主題與文檔類別匹配時,δC-l(d)的值為1,否則為0,這使得s-LDA模型對訓練主題進行分配時主題未正確分配這一問題得以改善。在M步估計中,由于β=(β1,β2,…,βC),則對β的估計與s-LDA模型也不同,加入類別標簽后,文檔中的詞在進行主題選擇時會有區(qū)別地選擇主題。比如“引力波”這個詞,它會傾向于選擇“科技”這類主題。對“引力波”加入類別標簽“科技”,可以使其更準確地選擇正確的主題,從而改善文本主題分類的精度。
為驗證sl-LDA模型的分類精度,本文使用復旦大學中文新聞?wù)Z料庫和英文新聞?wù)Z料庫進行實驗。其中中文新聞?wù)Z料庫包含2 815篇文章,共10個主題;英文新聞?wù)Z料庫包含18 744篇文章,共20個主題。匯總結(jié)果如表1~表3所示。
表1 中文新聞?wù)Z料庫
表2 英文新聞?wù)Z料庫
表3 英文新聞?wù)Z料庫詞條統(tǒng)計
本文利用R語言中的LDA包和topicmodels包對數(shù)據(jù)進行建模。首先對原始語料庫進行數(shù)據(jù)清洗,為了便于建模,本文在建模過程中利用正則表達式進行數(shù)據(jù)的預處理。數(shù)據(jù)清洗完成后,利用R語言中的rJava、Rwordseg包對每一篇文檔進行分詞和詞頻統(tǒng)計,統(tǒng)計部分結(jié)果見表4,最后依據(jù)新聞?wù)Z料庫中的主題類型對每個詞進行分類。
表4 中文新聞詞頻統(tǒng)計結(jié)果(部分)
本文從中文新聞?wù)Z料庫抽取75%作為訓練集,25%作為測試集進行實驗。實驗分兩組進行,采用的模型分別是s-LDA模型和sl-LDA模型,參數(shù)估計方法采用變分EM算法。本文利用建立混淆矩陣(confused matrix)[20]的方法來計算s-LDA模型和sl-LDA模型的精確度。
分詞過程完成后,本文利用R語言對這2個模型進行編程,并改變迭代次數(shù)以分別統(tǒng)計每次迭代混淆矩陣計算的精確度。s-LDA模型與sl-LDA模型中文新聞?wù)Z料庫迭代次數(shù)對比結(jié)果見表5,模型迭代次數(shù)對比見圖3,其中,橫坐標表示迭代次數(shù),縱坐標表示精確度。sl-LDA模型與sl-LDA模型英文新聞?wù)Z料庫迭代次數(shù)對比結(jié)果見表6,模型迭代次數(shù)對比見圖4,其中,橫坐標表示迭代次數(shù),縱坐標表示精確度。從圖3和圖4的結(jié)果可以看出:在迭代次數(shù)相同情況下,sl-LDA模型的預測精確度高于s-LDA模型的預測結(jié)果,隨著迭代次數(shù)的增加,兩者的預測精度趨于近似。
表5 中文新聞精確度對比
圖3 中文新聞模型精確度對比
迭代次數(shù)s-LDA模型預測精確度sl-LDA模型預測精確度E∶5,M∶20.5320.618E∶10,M∶40.6730.708E∶15,M∶90.6870.719E∶20,M∶140.7380.768E∶25,M∶190.7380.780E∶30,M∶240.7620.785E∶35,M∶290.7730.793
圖4 英文新聞模型精確度對比
從圖3中的中文新聞?wù)Z料庫和圖4中的英文新聞?wù)Z料庫的對比分析看出,本文提出的sl-LDA模型與s-LDA模型相比,在迭代次數(shù)相同的情況下,精確度要優(yōu)于s-LDA模型。隨著迭代次數(shù)的增加,兩者分配精度都有所提升,但是本文提出的sl-LDA模型依然保持較好的分配精度。這說明在有監(jiān)督的情況下,相對于未加入標簽因素,加入標簽因素在模型分類精度上有所提升。針對s-LDA模型在對主題進行分配過程中只能處理含有一個類別標記的文檔[2]及通過s-LDA模型分配的部分主題不存在于訓練過程中所選擇的主題,從而導致了對文檔分配主題精確度下降等問題。本文提出的sl-LDA模型通過增加類別信息來解決這些問題。為了驗證模型的主題分類精度,本文分別就中文新聞?wù)Z料庫和英文新聞?wù)Z料庫進行主題分類實驗,并通過建立混淆矩陣來計算每次迭代下模型的分類精確性。從上文的實驗結(jié)果來看,在中文和英文新聞?wù)Z料庫的對比實驗中,英文新聞?wù)Z料庫分類精度提高了約3.80%,中文新聞?wù)Z料庫分類精度提高了約1.77%。
本文針對s-LDA模型在主題分配過程中只能處理含有一個類別標記的文檔[2]及s-LDA模型部分主題未進行正確分配,從而導致文檔分配主題精確度下降的問題,提出一種帶標簽的有監(jiān)督的隱狄里克雷分配(sl-LDA)模型。首先介紹s-LDA主題模型的分類方法,隨后分析了s-LDA主題模型存在只能處理含有一個類別標記文檔等問題。為驗證模型的主題分類精度,本文分別對中文新聞?wù)Z料庫和英文新聞?wù)Z料庫進行主題分類實驗,并通過建立混淆矩陣計算每次迭代下模型的分類精確性。實驗結(jié)果表明,在中文和英文新聞?wù)Z料庫的對比實驗中,英文新聞?wù)Z料庫分類精度提高了約3.80%,中文新聞?wù)Z料庫分類精度提高了約1.77%。下一步將研究改進s-LDA模型對其他類型文本的分類效果,在無監(jiān)督學習下,分析主題模型的分類精度并與本文的改進模型進行對比。
[1] SEBASTIANI F.Machine Learning in Automated Text Categorization[J].ACM Computing Surveys,2002,34(1):1-47.
[2] 江雨燕,李 平,王 清.用于多標簽分類的改進Labeled LDA模型[J].南京大學學報(自然科學版),2013,49(4):425-432.
[3] STEYVERS M,GRIFFITHS T.Probabilistic Topic Models[J].Handbook of Latent Semantic Analysis,2007,427(7):424-440.
[4] MEDHAT W,HASSAN A,KORASHY H.Sentiment Analysis Algorithms and Applications:A Survey[J].Ain Shams Engineering Journal,2014,5(4):1093-1113.
[5] TANEJA H,DHURIA S.A Survey on Sentiment Analysis and Opinion Mining[J].Journal of Emerging Technologies in Web Intelligence,2013,5(4):53-65.
[6] DEERWESTER S,DUMAIS S T,FURNAS G W,et al.Indexing by Latent Semantic Analysis[J].Journal of the American Society for Information Science,1990,41(6):391-407.
[7] LI Ximing,OUYANG Jihong,ZHOU Xiaotang,et al.Supervised Labeled Latent Dirichlet Allocation for Document Categorization[J].Applied Intelligence,2015,42(3):581-593.
[8] BLEI D M,MCAULIFFE J D.Supervised Topic Models[J].Advances in Neural Information Processing Systems,2010,3(1):327-332.
[9] BLEI D M,NG A Y,JORDAN M I.Latent Dirichlet Allocation[J].Journal of Machine Learning Research,2003,3(3):993-1022.
[10] LI W,MCCALLUM A.DAG-structured Mixture Models of Topic Correlations[C]//Proceedings of International Conference on Machine Learning.Washington D.C.,USA:IEEE Press,2006:577-584.
[11] TADDY M,GARDNER M,CHEN L,et al.A Nonparametric Bayesian Analysis of Heterogeneous Treatment Effects in Digital Experimentation[J].Journal of Business & Economic Statistics,2016,65(3):193-211.
[12] 宋鈺婷,徐德華.基于LDA和SVM的中文文本分類研究[J].現(xiàn)代計算機,2016(5):18-23.
[13] 陳 攀,楊 浩,呂 品,等.基于LDA模型的文本相似度研究[J].計算機技術(shù)與發(fā)展,2016,26(4):82-85.
[14] 李 博,陳志剛,黃 瑞,等.基于LDA模型的音樂推薦算法[J].計算機工程,2016,42(6):175-179.
[15] 李 琮,袁 方,劉 宇,等.基于LDA模型和T-OPTICS算法的中文新聞話題檢測[J].河北大學學報(自然科學版),2016,36(1):106-112.
[16] 張 亮.基于LDA主題模型的標簽推薦方法研究[J].現(xiàn)代情報,2016,36(2):53-56.
[17] 石 晶,李萬龍.基于LDA模型的主題詞抽取方法[J].計算機工程,2010,36(19):81-83.
[18] 李文波,孫 樂,張大鯤.基于Labeled-LDA模型的文本分類新算法[J].計算機學報,2008,31(4):620-627.
[19] DU L,BUNTINNE W,JIN H,et al.Sequential Latent Dirichlet Allocation[J].Knowledge & Information Systems,2012,31(3):475-503.
[20] FORBES A D.Classification-algorithm Evaluation:Five Performance Measures Based on Confusion Matrices[J].Journal of Clinical Monitoring and Computing,1995,11(3):189-206.