郭曉利,周自嵐
(東北電力大學 信息工程學院,吉林 吉林 132012)
基于SLDTM的主題提取方法
郭曉利,周自嵐
(東北電力大學 信息工程學院,吉林 吉林 132012)
針對主題提取時現(xiàn)有的LDA模型對于主題數(shù)目和關鍵時間點的確定存在一定困難、對于主題結果的準確解釋上存在難度的問題,本文提出的SLDTM融合了一種改進的聚類算法到DTM模型中,并在各個子集上采用標簽信息進行監(jiān)督學習。該模型中滑動窗口大小依據(jù)主題分布特征而變化,實現(xiàn)更合理的文本集分割,主題的個數(shù)也可變且易于理解。實驗表明:和以往主題模型相比,SLDTM提取的主題更能體現(xiàn)內容發(fā)生的重要變化,語義也更加清晰。
主題提取;主題模型;標簽;文本處理
互聯(lián)網(wǎng)技術帶來信息的爆炸式發(fā)展,海量信息資源使得人們掌握自己關注的信息存在困難[1-2]。由于信息是時序且隨著時間等因素處于不斷發(fā)展中,如何在時序信息中提取出讓人能快速理解的主要內容,且快速分析出內容發(fā)生明顯變化的時間點,這些熱點問題在信息檢索和輿情監(jiān)督等[3-4]領域都具有重大研究價值。
LDA(Latent Dirichlet Allocation Model)模型[5]是一種有效的話題模型,能很好的模擬文檔生成的過程。傳統(tǒng)的主題模型是靜態(tài)的,不能處理海量時序文本流。Hornik等[6]考慮時間因素,提出DTM模型(Dynamic Topic Model),根據(jù)文本出現(xiàn)的時間先后次序將其分派到各個時間窗口內,對每個時間窗口內的文本分別使用ILDA(Infinite Topic Model)進行建模。DTM能夠得到主題熱度及主題內容隨時間的演化,但是演化效果取決于時間粒度的選擇。Chen等[7]運用OLDA模型(Online LDA)將前后兩時間片上的參數(shù)進行關聯(lián),能夠對模型進行增量更新,從而有效地對隨時間變化的主題進行發(fā)現(xiàn)和追蹤。
以往模型往往是非監(jiān)督的,主題詞不易理解,存在無意義主題,不利于進一步分析[8]。一些可融合標簽信息的監(jiān)督式主題模型方法被提出,基本思路是盡量保證文檔生成主題與標簽信息存在一定的匹配性。Jameel等運用的Supervised LDA[9]和 Zhu 提出的Med LDA[10]都假設文檔與單一的標簽相對應,通過將文檔類別標記或對應的連續(xù)變量映射為由主題混合方式產生的響應變量的方式來實現(xiàn)文檔的類別判定,但只能處理含有一個類別標記的文檔。Rao 等[11]提出L-LDA(Labeled LDA)在LDA中主將主題與情感標簽集合進行對應,通過這種標記的相關映射找到文檔的多標簽,成功解決了主題表示問題。由于標簽集合是已知的,也能確定主題數(shù)目。
要實現(xiàn)對新聞等文本內容的挖掘分析,需要一種兼顧標簽信息的動態(tài)主題模型。在主題提取時,若將文本集劃分為固定時間長度子集,則不能得到內容變化關鍵時間點[12],使主題變化和關聯(lián)的邊界變得模糊;主題數(shù)設定為一固定值,忽略了文本動態(tài)變化分布的特性,導致話題混亂和產生無意義話題,探測新主題的產生和舊主題的消亡變得困難[13]。因此,需要一種合理劃分時序文本集和確定主題數(shù)目的方法。在對提取的主題的解釋性上,非監(jiān)督方法得到的主題往往解釋性較差,很難被理解,甚至產生理解偏斜[14],影響模型的效果。
本文提出SLDTM模型,它首先在DTM模型上融合了一種時間片劃分算法,通過前后時間片的主題分布變化來對文本集進行時間片的劃分,找到主題轉變的時間點。和DTM模型不同的是,它在每個時間片上運用L-LDA模型而不是LDA模型,通過建立標簽與主題的約束和映射關系,提高主題語義概括能力,很方便的確定主題數(shù)目。所以SLDTM模型其實是同時融合了時間片分割算法、標簽模型和DTM 模型,實現(xiàn)了準確率更高,語義表達更完善的主題提取。
本文提出的基于SLDTM模型的主題提取方法的整體框架為:按照文本集的先后時序順序,用滑動窗口將其進行劃分;然后在初步劃分好的窗口內采用L-LDA模型進行主題抽取,確定主題數(shù)目;接著用重疊率來衡量劃分后得到的主題,對窗口大小進行調整,直到找到最優(yōu)劃分效果時間點,再在新的窗口中運用L-LDA模型,提取出最終的主題。
1.1 改進的時間片確定算法
時間片確定算法主要分為4步:
(1)按時間先后順序分別用兩個滑動窗口來分割文本集Dm(me[1,M]),每個窗口大小為最小時間粒度的n倍,n有一定取值范圍;
(2)分別在兩窗口內采用變分推理求解ILDA模型參數(shù),確定各時間片的K值,提取主題;
(3)選出前后時間片各個主題排在前面的關鍵詞,計算前后主題間的重疊率;
(4)根據(jù)重疊率找出最適合的時間片分割點,對文本集進行合理劃分后回到(1),直到文本集全部被劃分完畢。
時間片劃分算法關鍵是計算出前后時間片主題間的重疊率,重疊率的關鍵在于比較分割點前后兩階段的話題內容在話題演化過程中存在的差異,具體表現(xiàn)為主題詞項的變化,新詞往往意味著新演化階段的到來。描述某階段各話題的詞特征與其它階段具有的差別,當該階段主要話題特征發(fā)生改變,則話題發(fā)生階段性演變[12]。本文比較前后時間段話題間共現(xiàn)特征詞來衡量前后話題發(fā)生的變化,若變化明顯,這分割點可能是個不錯的劃分點。
圖1 列聯(lián)表來評估兩相鄰窗口的主題分布獨立性
按時間順序遍歷兩個相鄰窗口中各個主題,找出兩個相鄰窗口中的相同特征詞的個數(shù)。如圖1上部分的前后兩個時間片ti有3個主題,ti+1有3個主題,Z1和Z1′擁有的相同特征詞只有w1,所以相似性矩陣中個數(shù)為1。越多相同特征詞則話題相似性更高,最后通過評估兩個相鄰窗口的主題相似性來對文本數(shù)據(jù)進行分割。計算相似性時定義了兩種分布,兩種分布分別是矩陣中的行分布P(R)和列分布P(C)。
一般對詞共現(xiàn)的衡量是通過計算兩個主題間詞匯的共現(xiàn)度,再求平均來計算的,而本文對于兩窗口之間主題分布的相似性,采用兩窗口間所有的P(R)和P(C)與均勻分布的相對熵的平均值F來計算。由于各個主題在窗口中占的概率大小是不一樣的,其在表示該窗口上的比重也是不一樣的,考慮了主題分布概率函數(shù)M。F越小,兩窗口間的主題相似性越小,主題變化就越顯著。當F值達到局部最小時,在該處進行分割,剩余的時序文本數(shù)據(jù)則繼續(xù)分割。目標函數(shù)F公式為
(1)
表1SLDTM的算法描述
1.2 融合標簽和動態(tài)主題模型
1.2.1 模型簡介
本文提出一種動態(tài)監(jiān)督主題模型SLDTM,該模型在動態(tài)主題模型DTM的框架下通過時間劃分方法將時間窗口進行靈活的劃分,另外在各個窗口中結合文本集的標簽信息進行模型的監(jiān)督學習,最終提取出準確的主題。加入標簽信息其實是為了提高模型提取出的主題解釋性,在該模型中主題與標簽對應,每篇文檔都擁有幾個標簽,所以抽取主題時將從對應的帶有標簽的文本中進行抽取,從而實現(xiàn)監(jiān)督學習。SLDTM 的圖模型如圖2所示,圖中字符含義見表2。
圖2 SLDTM的圖模型
表2 SLDTM中的字符含義
表3 SLDTM的生成過程
對于每個時間片上的文檔子集,本文用SLDTM建模,時間t的文章生成過程見表3所示。
1.2.2 參數(shù)推理與更新
對于模型中隱含參數(shù)變量的后驗分布需要進行推理求解,本文采用變分推理[15-16]來近似后驗分布,可用將其轉換成變分優(yōu)化問題來解決。它用一個似然函數(shù)分布來近似實際后驗分布,當兩分布之間的KL分歧足夠小,那么該變分分布可用來代替求解真實后驗分布。
(2)
設定的對應變分分布為
(3)
(4)
最后的近似變分分布為
(5)
對于變分分布與實際分布之間的KL分歧,對其求解該似然函數(shù)的下界。要使得KL分歧最小,該下界需要最大化:
實現(xiàn)下界的最大化可以采用坐標上升法進行優(yōu)化,當公式(6)的下界的相對變化小于設定的閾值后,停止變量的迭代更新過程。
2.1 實驗數(shù)據(jù)集及評價指標
本論文使用了從2008年5月1日到2009年5月30日“汶川地震”共10120篇新聞報道作為話題挖掘算法的測試語料,對語料運用ICTCLAS系統(tǒng)對文本進行分詞等預處理,生成詞頻矩陣。本文采用2個對比實驗來檢驗所提出的SLDTM模型的效果。
實驗一:將SLDTM應用于文本分類任務得到模型對文本的語義解釋概括能力。對訓練集上分別使用SLDTM、L-LDA和DTM進行訓練,SLDTM能夠得到時間序列的主題-詞概率分布β1:T都是一個K*V維的矩陣,K是主題的個數(shù),V是詞匯的數(shù)目;為了對照實驗保持一致,在實驗中,預先把各模型的主題數(shù)目都設定為K,從而使得DTM也訓練得到一組不同時間片上的主題-詞概率分布并且也是一個K*V的矩陣;最后L-LDA訓練得到的是一個固定不變的靜態(tài)全局主題-詞概率分布,由于L-LLDA也受到關鍵詞標簽的約束,因此該β也是一個K*V的矩陣。實驗具體分為4步:
(1)固定主題數(shù)K,根據(jù)DTM、L-LDA和SLDTM得到K*V維主題-詞匯概率分布;
(2)各自運用后驗推理方法對測試集進行推理,得到相應K維的主題向量;
(3)然后將推理生成的主題向量作為該文檔的特征值向量應用于分類算法Na?ve Bayes來預測該文檔的類別;
(4)最后采用準確率P(Precision)、召回率R(Recall)和F1值(F1-Measure)3個分類評價指標來得到3個模型的分類效果。3個評價指標公式如下:
(7)
式中:TP為正確分到該類的文檔數(shù)量,F(xiàn)P為分到該類但分的不正確的文檔數(shù),F(xiàn)N為沒有分到但實際屬于該類的文檔數(shù)量。
實驗二:分別用SLDTM模型和DTM模型對語料庫進行主題挖掘,通過比較提取出的主題及其關鍵詞,來表現(xiàn)模型捕捉某些詞匯出現(xiàn)的概率隨著時間變化情況的能力。另外采用困惑度Pe(perplexity)來衡量語言模型對測試語料建模能力的強弱。實驗中將80%的數(shù)據(jù)用來訓練相關的主題模型,20%作為測試集Dts來測試主題模型的困惑度。困惑度越小,表示模型的泛化能力越強,困惑度公式表示為
(8)
圖3 模型主題向量分類能力
2.2 實驗結果與分析
實驗一得到的各個模型的分類時各項指標如圖3所示。
可以看出:SLDTM 生成的主題特征向量各個指標上都取得了最佳分類效果。它主題-詞匯分布是動態(tài)變化的,L-LDA采用固定主題-詞匯分布,因此SLDTM 對分布的建模和語義概括更準確。DTM 效果最差,因為它在訓練模型時沒有加入主題標簽約束,得到的主題結構相對不準確。
從表4可以看出算法挖掘的結果是合理的,符合事件發(fā)展邏輯。在地震災難事件發(fā)生后開始最關心的是汶川受災狀況以及當?shù)鼐葹那闆r;接下來的五個月中政府進行災后救助,災情得到了控制,這時最關心的變?yōu)榱藢Ξ數(shù)厝嗣竦慕洕戎约爸苓吺》莸膶谥г龋话殡S著元旦和新年到來,該事件重新被關注,慰問等活動展開,災后重建工作也得到了很多媒體報道;到了第二年的5月時,由于是受災一周年,對應的報道增多,“哀悼”、“失蹤”等詞體現(xiàn)了這一段時間的紀念活動主題的特征。
表4 SLDTM 模型挖掘結果
圖4 不同時間片上關于“援助”的主題詞
圖5 模型困惑度比較
圖4為映射到“援助”標簽主題中隨著時間出現(xiàn)的高頻詞匯,從圖中我們可以發(fā)現(xiàn)出現(xiàn)概率最高的詞與該標簽相關程度高,說明經過SLDTM的監(jiān)督訓練,主題的語義更容易解釋。同時,在各個時間片上雖然大部分詞匯相同,但是有少部分詞是不同的,這表明同一主題在不同時間片上的概率分布時變化的,說明模型可以挖掘主題的動態(tài)變化。
對于各個主題的困惑度情況如圖5所示??煽闯霰疚奶岢龅哪P途哂懈〉睦Щ蠖?,這表明該模型有更好的預測能力,模型建模效果較好,引入標簽監(jiān)督后有較顯著的提升。
本文提出SLDTM模型,該模型無需事先指定主題數(shù)和劃分的時間片的大小,可依據(jù)文本集的主題分布特征來實現(xiàn)對前后主題集的劃分,可得到更符合文本實際主題演化情況,方便找出更準確清晰的主題邊界,發(fā)現(xiàn)其變化。另外結合標簽信息監(jiān)督主題的建模,約束模型學習過程,使得提取出的文本主題精確且數(shù)目易確定,能準確捕捉語義上的變化。實驗表明,本文提出的模型不僅性能上很優(yōu)秀,對文本集的主題提取也有很大的進步。
下一步工作將圍繞模型數(shù)據(jù)挖掘的自適應性,結合Spark等[17-18]大數(shù)據(jù)并行計算平臺來提高模型的訓練速度??紤]結合復雜的HDP[19-21]模型進行實驗,最后進行可視化研究。
[1] W.Cui,S.Liu,L.Tan,et al.TextFlow:towards better understanding of evolving topics in text[J].IEEE Transactions on Visualization and Computer Graphics,2011,17(12):2412-2421.
[2] 曲朝陽,范旭東,于華濤,等.基于本體的智能電網(wǎng)文本知識獲取模型[J].東北電力大學學報,2014,34(5):60-68.
[3] 曹麗娜,唐錫晉.基于主題模型的BBS話題演化趨勢分析[J].管理科學學報,2014,17(11):109-121.
[4] 曹建平,王暉,夏友清,等.基于LDA的雙通道在線主題演化模型[J].自動化學報,2014,40(12):2877-2886.
[5] 徐戈,王厚峰.自然語言處理中主題模型的發(fā)展[J].計算機學報,2011,34(8):1423-1436.
[6] K.Hornik,B.Grun.topicmodels:An R package for fitting topic models[J].Journal of Statistical Software,2011,40(13):1-30.
[7] H E.Jianyun,X.Chen,D U.Min,et al.Topic evolution analysis based on improved online LDA model[J].Journal of Central South University,2015,46(2):547-553.
[8] 單斌,李芳.基于LDA話題演化研究方法綜述[J].中文信息學報,2010,24(6):43-49.
[9] S.Jameel,W.Lam,L.Bing.Supervised topic models with word order structure for document classification and retrieval learning[J].Information Retrieval Journal,2015,18(4):1-48.
[10] J.Zhu,A.Ahmed,E P.Xing.MedLDA:maximum margin supervised topic models[J].Journal of Machine Learning Research,2012,13(4):2237-2278.
[11] Y.Rao,Q.Li,X.Mao,et al.Sentiment topic models for social emotion mining[J].Information Sciences,2014,266(5):90-100.
[12] 楊玉珍,劉培玉.融合擴展信息瓶頸理論的話題關聯(lián)檢測方法研究[J].自動化學報,2014,40(3):471-479.
[13] 胡艷麗,白亮,張維明.一種話題演化建模與分析方法[J].自動化學報,2012,38(10):1690-1697.
[14] S.Oeltze,D J.Lehmann,A.Kuhn,et al.Blood flow clustering and applications in virtual stenting of intracranial aneurysms[J].IEEE Transactions on Visualization and Computer Graphics,2014,20(5):686-701.
[15] 曲朝陽,陳帥,楊帆,等.基于云計算技術的電力大數(shù)據(jù)預處理屬性約簡方法[J].電力系統(tǒng)自動化.2014,38(8),67-71.
[16] A N.Rafferty,T L.Griffiths,D.Klein.Analyzing the rate at which languages lose the influence of a common ancestor[J].Cognitive Science,2014,38(17):1406-1431.
[17] S.Liu,X.Wang,Y.Song,et al.Evolutionary bayesian rose trees[J].IEEE Transactions on Knowledge and Data Engineering,2015,27(6):1533-1546.
[18] S.Liu,J.Yin,X.Wang,et al.Online visual analytics of text streams[J].IEEE Transactions on Visualization and Computer Graphics,2015,22(11):2451-2466.
[19] I.Pruteanu-Malinici,L.Ren,J.Paisley,et al.Hierarchical bayesian modeling of topics in time-stamped documents[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,2010,32(6):996-1011.
[20] W.Ding,C.Chen.Dynamic topic detection and tracking:a comparison of HDP,C-word,and cocitation methods[J].Journal of the Association for Information Scienceand Technology,2014,65(10):2084-2097.
[21] 郭曉利,韓嘯.電網(wǎng)知識協(xié)同發(fā)現(xiàn)策略研究[J].東北電力大學學報,2014,34(1):94-98.
Abstract:Owing to exist the difficult of determine the number of topics and key point of times and accurate interpretation of topics for existing LDA model.There present SLDTM,which fused an improved clustering algorithm to the DTM model and using the tag information for supervised learning in each subset.In this paper,a more reasonable text set segmentation can be achieved because the sliding window size of SLDTM can be changed according to the distribution characteristics of the topics.The number of topics is variable and can be understand easier.experimental results show that compared with the previous topic model,these extracted topics of SLDTM can reflect the important changes of the content and the semantics is clearer.
Keywords:Topic Extraction;Topic Model;Tag;Text Processing
TopicExtractionMethodBasedonSLDTM
GuoXiaoli,ZhouZilan
(School of Information Engineering,Northeast Electric Power University,Jilin Jilin 132012)
TP391
A
2017-05-12
郭曉利(1968-),女,碩士,教授,主要研究方向:人工智能技術、智能信息處理.
電子郵箱:243589657@qq.com(郭曉利);1422076216@qq.com(周自嵐)
1005-2992(2017)05-0080-07