李文 黃克文
摘要:為了提高政府部門應對網(wǎng)絡輿情的處理效率,采用一種產(chǎn)生式的組話題模型對微博政務話題進行挖掘與分析。組話題模型對每個話題產(chǎn)生一個多項式分布,對相似性質事件進行合并生成相關矩陣。由于每個實體可以屬于多個話題,并且網(wǎng)絡規(guī)模大,用Gibbs采樣對提出的模型進行了驗證,并與其他話題預測模型進行對比分析。實驗結果表明:本文提出的組話題模型不僅執(zhí)行時間短、效率高,而且具有很高的準確率。
關鍵詞:微博;話題模型;社會網(wǎng)絡
中圖分類號: TP393? ? ? 文獻標志碼:A? ? ? 文章編號:1008-4657(2021)06-0089-05
引言
微博作為當前最熱門的新媒體之一,其影響力已經(jīng)遠遠超過電視,報紙等傳統(tǒng)媒體。在微博中,每個注冊用戶都可以談論自己感興趣的話題,這種交互是自發(fā)的,往往能表達發(fā)言者的真實情感。隨著微博的普及和應用,越來越多的用戶已經(jīng)把微博當成生活中必不可少的一部分。在微博的注冊用戶中,不僅有影視明星、商人、普通群眾、也有國家的公務人員或機構。這些代表國家權力的公務人員或機構通過微博傳達黨和政府的聲音及時公布相關數(shù)據(jù)和事件,同時也可以傾聽人民心聲訴求排解與政府管理有關的實際問題。然而,在微博中,不僅有健康積極的內容,也充斥著損害黨和國家形象的言論。因此,及時的發(fā)現(xiàn)這些損害黨和國家形象的話題,并加以監(jiān)督和引導對維護社會的穩(wěn)定有著重要的作用。隨著數(shù)據(jù)量的激增,傳統(tǒng)的話題預測模型已不適用,如何有效挖掘和分析微博政務話題,預測輿情趨勢進而提前采取防治措施已成為相關管理部門亟待解決的問題。
1? ? ? ? 相關工作
向量空間模型是最早的話題挖掘與分析的工具。在向量空間中,通過尋找單詞同時出現(xiàn)的模式,例如TF或TF-IDF,可以將同時出現(xiàn)的相關單詞構成話題模型。基于單詞的頻率,Hearst? M[ 1 ]通過計算兩個單詞塊的余弦相似性來區(qū)分不同的話題。Choi? F[ 2 ]通過矩陣的秩的模式將不同的單詞進行聚類,從而進行話題的區(qū)分。Xiang? ?J等[ 3 ]對重復的單詞進行加權,然后應用詞匯鏈對話題進行分析。Utiyama? ?M等[ 4 ]提出一種概率話題分析方法,該方法應用動態(tài)規(guī)劃以最小的代價對話題進行區(qū)分。此外,Malioutov? ?I等[ 5 ]將話題區(qū)分轉換成圖的分割問題。話題模型的另一個研究方向是應用產(chǎn)生式對話題進行建模,例如LDA[ 6 ]模型。PLDA[ 7 ]是一種無監(jiān)督的概率話題建模方法。該模型對LDA模型進行了擴展,將話題分布表示為馬爾科夫結構,該模型將多個LDA模型表示成一個馬爾科夫鏈。在PLDA中,Yi W等[ 7 ]人將每個文本信息附加了一個二元話題轉換變量。其中第j個文本的二元轉換變量表示該文本是否與第j-1個文本共享相同的話題分布。與PLDA相似,Nguyen? V等[ 8 ]也將話題分布表示成一個馬爾科夫結構,差別在于SITS中的每一個話題為HDP-LDA[ 9 ]。此外SITS認為每個文本消息都有一個作者,并且這個作者與二元轉換變量相關。Rubin? ?T? ?N等[ 10 ]認為一個數(shù)據(jù)集中的文檔可能不共享相同的話題,認為每個單詞片段來自于單獨的話題,并應用多項式語言模型對文檔中的詞匯進行建模。在此基礎上,Chen? ?Z等[ 11 ]又進行了擴展,認為每個單詞片段即可能來自于一個話題,也可能來自于這個話題的父話題。此外,Lee? ?S等[ 12 ]、Pan? ?S等[ 13 ]、Riedl? ?M等[ 14 ]將話題模型的輸出作為輸入來進行話題的進一步分析。然而,當前話題模型大多存在預測精度不高,對大規(guī)模數(shù)據(jù)處理效率低,時變性不強等缺陷[ 15 ]。由于微博中含有大量的話題,政務話題往往會湮沒于海量的信息之中。組話題模型為大數(shù)據(jù)時代網(wǎng)絡數(shù)據(jù)挖掘與分析提供了新的思路,本文采用組話題模型對微博中的政務話題挖掘進行研究,對每一個指定的話題產(chǎn)生一個多項式分布,生成相關矩陣,并應用Gibbs采樣進行分析。
2? ? ? ? 組話題模型
微博文本具有文本短,信息量大,用詞不規(guī)范等特點。在微博中,文本是由一個個詞匯實體連接而成的。在實體的識別中,先去掉“#”格式信息,“@”格式信息以及虛詞。對于用戶用詞的不規(guī)范,先通過余弦相似性識別出詞匯及其縮寫形式并看做一個實體,對于近義詞則采用手工識別出實體。
組話題模型通過實體之間的關系將實體進行聚類分析。實體之間的關系可以是有向的,也可以是無向的,還可以包含多個屬性。本文關注的是實體間的無向關系,并且關系之間的屬性是若干個詞匯,組話題模型的結構如圖1。
在實體間的每個關系的產(chǎn)生過程中,該模型首先產(chǎn)生話題t,然后產(chǎn)生所有描述該話題的詞匯。其中每個詞匯都是通過多項式離散分布?覬t獨立產(chǎn)生的,并且是和話題t相關的。在網(wǎng)絡的關系結構的產(chǎn)生過程中,對于每個話題t,從特定的多項式分布θt中產(chǎn)生一個組gst,并將之分配該話題。在給事件進行了組分配后,可以得到矩陣V(b),其中每個元素V■■代表了實體i和j是否屬于相同的事件b。矩陣V中的每個元素都來自于二項分布γ。如果認為所有的事件都反應一個話題,那么該模型可以簡化為隨機塊結構模型[ 16 ]。為了和塊模型相匹配,每個事件定義為一個關系。例如在該事件中,兩個實體的話題組是否相同。然而,在本文的模型中,一個關系可以包含多個屬性(每個事件是由多個詞匯描述的),并且是多項式離散分布生成的。當考慮多個話題存在的情況下,數(shù)據(jù)集被劃分為T個子塊,每個子塊與相應的話題對應。組話題模型的相關參數(shù)見表1。
該模型應用實體間的關系及關系的屬性來挖掘話題敏感的組成員。由于微博網(wǎng)絡中往往含有大量的用戶及事件,因此本文采用Gibbs采樣分析。在模型中,可以將參數(shù)θ,?覬和γ結合起來降低不確定性,這樣做同樣可以簡化Gibbs采樣對參數(shù)θ,?覬和γ的確定。于是組話題模型就是求出下面兩個條件概率:
其中,ntg表示在話題t中組g的實體個數(shù),m表示組g和h是否屬于同一個事件b(k=1或k=2),I(tb=t)是一個指示函數(shù),d表示m中實體s被分到組gst中的部分(如果I(tb=t)=0,那么忽略與事件b相關的部分)。
其中,e表示單詞v在事件b中出現(xiàn)的次數(shù)。m是一個隨著tb的賦值而變化的變量,因為tb影響著事件b中的所有實體的組分配。
3? ?實驗分析
實驗采集的政務數(shù)據(jù)來源于新浪微博公開數(shù)據(jù),包含330 657個用戶構成的網(wǎng)絡及用戶的發(fā)言內容。我們對網(wǎng)民關注度比較高的“新冠疫情”“鐵鏈女”“離婚冷靜期”教育業(yè)“雙減”政策“二胎政策”等事件的發(fā)言進行了收集,并將這些事件作為數(shù)據(jù)集的真實話題。同時,對參與這些話題討論的用戶的其它發(fā)言也進行了收集。本次實驗的硬件測試環(huán)境采用Microsoft Windows10操作系統(tǒng),CPU為Inter Core i9 12900k,3.6GHz,內存為16GB,編程語言為MATLAB R2020a。
實驗采用話題檢測的缺失概率PMiss,錯誤提示概率 PFA以及二者的組合CDet三個指標來評價話題挖掘的性能。CDet用如下公式表示:
在參數(shù)的選擇上,令CMiss = 1.0,CFA = 0.1, Ptarget = 0.02,進一步對CDet進行規(guī)范化,可得
將本文提出的組話題模型表示為GM,將GM模型與主流的LDA模型[ 17 ]和Kmeans模型[ 18 ]的話題預測結果進行對比。從圖2的預測結果來看,本研究提出的GM模型能對微博政務熱點話題進行刻畫,預測誤差較小,預測結果可為相關管理者把握網(wǎng)絡輿情走勢,提前采取措施提供決策依據(jù)。對比了三種算法在缺失概率、錯誤提示率及CDet,結果如圖3所示,LDA算法在新浪數(shù)據(jù)集上的話題預測性能優(yōu)于Kmeans算法,而GM算法的話題預測性能要高于LDA和Kmeans算法。
對比了三種算法在這5個不同大小(依次遞增)數(shù)據(jù)集下的執(zhí)行效率。不同算法運行時間對比如圖4所示,從圖4所示的結果中可以看出,三種算法在小數(shù)據(jù)集上所需要的執(zhí)行時間較短,并且差異不大,隨著測試機的增大,GM算法所需要的執(zhí)行效率要明顯優(yōu)于其它兩種算法。這是因為GM模型對原始數(shù)據(jù)進行了分組,將相似事件分配到同一個矩陣進行計算,大大縮小了計算時間。從上述結果可知,本文提出的組話題模型在保持較高的話題預測準確性的同時具有較高的執(zhí)行效率,更適合大規(guī)模數(shù)據(jù)的話題挖掘和分析。
4? ? 結論
受數(shù)據(jù)量激增及時變性強等因素作用,傳統(tǒng)話題預測模型不能滿足當前微博政務話題預測的需要。為此,提出一種基于組話題模型(GM)的數(shù)據(jù)挖掘技術,對每一個指定的話題產(chǎn)生一個多項式分布并生成相關矩陣,應用Gibbs采樣進行分析,并與LDA模型和Kmeans模型進行對比,實驗結果表明GM模型具有更好的預測精度,更優(yōu)的缺失檢測概率及錯誤提示率,同時由于其采用相似分組模式,當數(shù)據(jù)集較大時具有更高的運算效率,能更好的服務于新時代網(wǎng)絡輿情預測。
參考文獻:
[1] Hearst M. Texttiling: Segmenting text into multi-paragraph subtopic passage[J]. Computational linguistics,1997,23(1): 33-64.
[2] Choi F. Advances in domain independent linear text segmentation[C]. Proceedings of the 1st North American chapter of the Association for Computational Linguistics conference. Seattle: Association for Computational Linguistics, 2000: 26-33.
[3] Xiang J,Zha H. Domain-independent text segmentation using anisotropic diffusion and dynamic programming[J]. ACM? Sigir Forum,2003: 322-329.
[4] Utiyama M, Isahara H. A statistical model for domain-independent text segmentation[C]. Proceedings of the 39th Annual Meeting on Association for Computational Linguistics. Seattle: Association for Computational Linguistics,2001: 499-506.
[5] Malioutov I, Barzilay R. Minimum cut model for spoken lecture segmentation[C]. Proceedings of the 21st International Conference on Computational Linguistics and the 44th annual meeting of the Association for Computational Linguistics. Seattle: Association for Computational Linguistics,2006: 25-32.
[6] Lienou M, Maitre H, Datcu M. Semantic annotation of satellite images using latent dirichlet allocation[J]. IEEE Geoscience & Remote Sensing Letters,2010,7(1):28-32.
[7] Yi W,Bai H, Stanton M,et al. PLDA: Parallel latent dirichlet allocation for Large-scale applications[C]. Proceedings of the 5th International Conference on Algorithmic Aspects in Information and Management. Berlin-Heidelberg: Springer,1970.
[8] Nguyen V, Boydgraber J,Resnik P. SITS: A hierarchical nonparametric model using speaker identity for topic segmentation in multiparty conversations[C]. Meeting of the Association for Computational Linguistics: Long Papers. Seattle: Association for Computational Linguistics,2012.
[9] Wang E,Silva J,Willett R,et al. Dynamic relational topic model for social network analysis with noisy links[C]. Statistical Signal Processing Workshop. Piscataway: IEEE, 2011.
[10] Rubin T N, Chambers A, Smyth P, et al. Statistical topic models for multi-label document classification[J]. Machine Learning,2012,88(1-2):157-208.
[11] Chen Z, Mukherjee A, Liu B, et al. Leveraging multi-domain prior knowledge in topic models[C]. Proceedings of the Twenty-Third international joint conference on Artificial Intelligence. Palo Alto: AAAI Press, 2013: 2 071-2 077.
[12] Lee S,Belkasim S, Zhang Y. Multi-document text summarization using topic model and fuzzy logic[C]. Machine Learning and Data Mining in Pattern Recognition. Berlin-Heidelberg: Springer,2013: 159-168.
[13] Pan S , Zhou M X,Song Y,et al. Optimizing temporal topic segmentation for intelligent text visualization[C]. International Conference on Intelligent User Interfaces. New York: ACM,2013.
[14] Riedl M, Biemann C. Topictiling: A text segmentation algorithm based on LDA[C]. Proceedings of ACL 2012 Student Research Workshop. Seattle: Association for Computational Linguistics,2012: 37-42.
[15] 夏一雪.網(wǎng)絡話題傳播規(guī)律建模與預測問題研究[J].現(xiàn)代情報,2019,39(4):3-12.
[16] Du L, Buntine W, Johnson M. Topic segmentation with a structured topic model[C]. Proceedings of NAACL-HLT. Atlanta: Naacl. 2013: 190-200.
[17] 許睿,龍丹,劉佳,等.基于LDA模型的電力投訴文本熱點話題識別[J].云南大學學報(自然科學版),2020,42(S2):26-31.
[18] 郭順利,步輝,何宏國.基于G-Kmeans的網(wǎng)絡問答社區(qū)話題用戶信息需求聚合方法及應用研究[J].情報理論與實踐,2022(4):1-16.
[責任編輯:鄭筆耕]
收稿日期:2021-10-08
基金項目:廣東省科技廳科學研究項目(NO.163-2019-XMZC-0009-02-0066)
作者簡介:李文(1963-),男,廣西欽州人,廣東科貿職業(yè)學院副教授,碩士。主要研究方向:網(wǎng)絡安全、數(shù)據(jù)庫。