吳 迪,張夢甜,生 龍,黃竹韻,顧明星
河北工程大學 信息與電氣工程學院,河北 邯鄲056038
微博因其文體較短、話題內容廣泛、傳播迅速、實時性好等特點,已經成為傳播各種資訊的重要平臺[1]。往往一件引發(fā)熱議的事情可以在微博上形成熱點話題,繼而,網民會通過搜索話題標簽來發(fā)表自己的觀點并關注事態(tài)發(fā)展。因此,對微博熱點話題進行演化分析,可以較完整地描繪熱點話題的演化趨勢,這對于網民了解事件演化、網絡監(jiān)管部門引導輿情有著很重要的現(xiàn)實意義[2]。
話題檢測與跟蹤(Topic Detection and Tracking,TDT)[3]技術最初是由美國國防高級研究計劃局提出的。隨后,根據不同的引入時間方式,話題演化分為先建模后離散時間、將時間這個變量引入到模型中(如TOT模型[4])以及先離散化時間再建模(如DTM模型[5])三種[6]。
鑒于上述模型不能在線處理文本,Alsumait等人提出了在線LDA(On-Line LDA,OLDA)[7]模型和晏小輝等人提出了OBTM[8]模型,較好地解決了這一局限性,且OBTM更適用于短文本。裴可鋒等人[9]考慮到OLDA存在主題混合以及定義權重的問題,提出了可變在線LDA(Variable Online LDA,VOLDA)模型,通過刪除含舊主題的時間片、優(yōu)化動態(tài)權重計算公式以及先驗參數,有效地減少了新舊主題混合問題并提高了主題演化的表示能力。蔣權等人[10]設計了動態(tài)負載策略并優(yōu)化了文檔權值計算公式,提出了分布式OLDA(Distribute Online LDA,DOLDA)模型,緩解了OLDA效率低下和發(fā)現(xiàn)新主題能力差的問題。余本功等人[11]利用雙通道模式對主題-詞分布的遺傳度進行優(yōu)化,提出了基于雙通道的OLDA模型,有效緩解了主題混合以及冗余詞多的問題。李慧等人[12]充分利用微博的文體特征,提出了基于話題標簽的微博熱點話題演化模型(Label On-line LDA,LOLDA),增強了模型演化主題的能力。
綜上所述,現(xiàn)有文獻尚未充分利用OBTM進行話題演化研究。針對OBTM建模得到的主題混合且冗余詞較多導致不能明確描述主題的問題,本文提出基于話題標簽和先驗參數的OBTM微博熱點話題演化算法。在OBTM的基礎上,首先,分別將前一時間片內基于標簽、微博內容的文檔-主題分布作為當前時間片內對應文檔-主題分布的Dirichlet先驗參數,以提高發(fā)現(xiàn)新主題的水平,緩解主題混合的缺陷;其次,在前一時間片文檔-主題分布的基礎上增加主題排名,優(yōu)化當前時間片上主題-詞分布的Dirichlet先驗參數計算方法,以減少冗余詞,從而更準確地描述主題。
OBTM是一種借鑒了OLDA并更適用于短文本的主題演化模型,該模型的主要思想是:首先,將所有文本集按時間片劃分;然后,對于每一個時間片上的文本子集分別使用BTM建模,為了使建模結果具有延續(xù)性,OBTM將歷史時間片的主題-詞分布作為當前時間片上主題-詞分布φtk的Dirichlet先驗參數[13]:
文獻[12]提出了一種在OLDA的基礎上增加微博話題標簽的主題演化模型LOLDA,在建模前,通過參數λd來判斷一篇微博短文本是否含有話題標簽“#”:
其中,λd=0表示含標簽,則該微博的文檔-主題分布θd由基于標簽內容的文檔-主題分布θs決定;相反,λd=1表示不含標簽,則θd由基于微博內容的文檔-主題分布θr決定。
針對微博短文本有特殊的文體特征、OBTM建模得到的主題混合且冗余詞頻率高導致不能明確描述主題的問題,本文提出基于話題標簽和先驗參數的OBTM微博熱點話題演化算法。首先,采集微博數據并按時間片切分;然后,在每一個時間片內依據話題標簽區(qū)分語料庫(含標簽和不含標簽的兩類數據集),再進行文本預處理;最后,利用LPOBTM建模,進行熱點話題在內容和強度上的演化分析。算法流程圖如圖1所示。
圖1 算法流程圖Fig.1 Flowchart of algorithm
微博短文本集預處理主要包括按時間片切分數據集、根據標簽區(qū)分語料庫和文本預處理三個部分,其中,文本預處理又包括微博短文本過濾、分詞及詞性標注、去停用詞和特征選擇四個部分。具體流程如圖2所示。
圖2 微博短文本集預處理流程圖Fig.2 Flowchart of microblog short text set preprocessing
借鑒文獻[12]中利用λd判斷是否含有話題標簽,以區(qū)分語料庫的方法,本文在OBTM主題模型的基礎上進行改進。LPOBTM模型圖如圖3所示。圖中,各符號表示的含義如表1所示。
圖3 LPOBTM圖模型Fig.3 Diagram model of LPOBTM
表1 符號及其含義Table 1 Symbols and their meanings
LPOBTM具體改進方法如下:
(1)針對原始OBTM建模主題混合,導致不易發(fā)現(xiàn)新主題的問題,本文將t-1時刻建模生成的基于標簽、微博內容的文檔-主題分布作為t時刻對應文檔-主題分布的Dirichlet先驗參數
其中,K為主題個數;M為文檔總數;θm,k為文檔dm中主題k的概率,由Gibbs抽樣得到的θs,k和θr,k決定,采樣的條件概率如下[15]:
基于標簽、微博內容的文檔-主題分布θs,k、θr,k和主題-詞分布φk,w如下:
其中,nk表示主題k中詞對的個數,nw|k表示詞w賦給主題k的個數,n.|k表示賦給主題k的總詞數,W為數據集的總詞數。
(2)針對冗余詞頻率高,導致不能準確描述主題的問題,本文對公式(1)進行改進,增加t-1時刻的主題強度排名,并借鑒Sigmod函數優(yōu)化先驗參數β的計算方法:
8.根據公式(8)、(9)和(10)計算基于標簽、微博內容的文檔-主題分布θs,k、θr,k和主題-詞分布φk,w。
實驗在Win 10以及Ubuntu 15.10,配置8 GB內存和Intel Core i5-5200U 2.20 GHz CPU的硬件環(huán)境下進行,數據采集軟件為八爪魚V7.6.4,編譯語言為Python3。
本文采用2019年3月12日至3月17日新浪平臺發(fā)布的微博作為話題演化的數據集,以1天為時間片劃分。經過文本預處理,保留了10 000條微博,其中7 000條作為訓練集,3 000條作為測試集。
本文利用困惑度(perplexity)[16]確定最優(yōu)主題數K值,困惑度用來評價模型的泛化能力,其值越小表明建模效果越好。公式如下:
其中,W表示文本集,p(wd)為第d篇文本中詞的概率,Nd為第d篇文本中的詞數。
圖4 LPOBTM在不同主題數下的困惑度Fig.4 Perplexity of LPOBTM under different topic numbers
由圖4可知,當主題數目K=6時,困惑度最小,表明此時LPOBTM的建模效果最好,故本文選取最優(yōu)主題數目K=6。
3.3.1 內容演化分析
本文選取Topic 4在每個時間片上的Top 6個特征詞,展示該話題的內容演化情況,如表2所示。
表2 Topic 4的內容演化情況Table 2 Content evolution of Topic 4
從表2可以看出,Topic 4說的是“成都七中實驗學校食品安全事件”,隨著時間變化,特征詞也在發(fā)生變化,說明話題內容在進行演化。時間片1中展示了成都七中學生胃疼,家長前往食堂拍照取證并發(fā)現(xiàn)食材發(fā)霉,事件由此開始;時間片2和3中,家長聚集并發(fā)生踩踏事故,警方帶離,隨后省教育廳對成都教育局進行核查,溫江區(qū)公安對食堂責任人進行調查;時間片4中,主要側重點包括食材的溯源調查、照片中相關食材的檢測、檢測結果符合標準說明、相關人員停職檢查等;時間片5中,國務院食安辦表態(tài)該事件尚未查清,隨后溫江區(qū)市場監(jiān)督管理局再次核查食材;時間片6中,主要包括召開發(fā)布會、校長解聘、董事會重組并澄清相關不實信息等。
3.3.2 強度演化分析
本文選取Topic 1(315晚會)、Topic 2(李勝利事件)、Topic 4(成都七中實驗學校食品安全事件)這三個話題,根據公式(13)計算主題強度,進行強度演化分析,話題強度演化圖如圖5所示。
圖5 話題強度演化圖Fig.5 Intensity evolution of topics
從圖5可以發(fā)現(xiàn),“315晚會”這個話題在3月15日之前只有很少的主題強度,而在3月15日當天,主題強度急速增長,并且在之后的兩天都保持較高的強度;“李勝利事件”這個話題在3月12日已經有相當高的主題強度且在之后的時間片內保持緩慢下降的趨勢,說明該話題在3月12日當天或者之前已經達到了事件的高潮,從13日開始演化直至逐漸消亡;“成都七中實驗學校食品安全事件”這個話題在3月12日已經有較少的主題強度且隨著時間推移較快增長,最終在3月15日到達頂峰,說明該話題在3月12日已經開始產生,經過2天的演化,在3月15日達到高潮,然后逐漸消亡。
為了驗證LPOBTM在話題演化方面的優(yōu)勢,本文將LPOBTM與文獻[8]的OBTM模型、文獻[11]的基于雙通道的OLDA模型以及文獻[12]的LOLDA模型進行比較,利用這四種模型對數據集進行建模并分析實驗結果。
為展示四種模型的話題演化能力,本文選用“成都七中實驗學校食品安全事件”這個話題的詞分布進行分析,因為該話題在6個時間片內具有較為完整的演化過程,且在時間片1和6上的特征詞區(qū)別較大,便于作比較。表3展示了Topic 4在時間片1和6上的Top 5個特征詞。
表3 四種模型關于Topic 4在時間片1和6上的特征詞Table 3 Four models about specific words of Topic 4 on Time 1 and 6
如表3所示,LPOBTM建模得到的特征詞可以更好地概括和描述主題,在不同的時間片內可以更確切地發(fā)現(xiàn)話題在內容上的演化趨勢。這是因為LPOBTM在考慮了微博話題標簽的同時,改進了先驗參數的計算方法,刪除了容易導致主題意義不明確的冗余詞,因此LPOBTM相比其他三種模型能夠更準確地描述話題內容的演化情況。
為了量化地比較這四種模型在話題演化方面的能力,本文計算了不同時間片內四種模型的困惑度,如圖6所示。
圖6 四種模型在不同時間片內對應的困惑度Fig.6 Perplexity of four models in different time slices
由圖6可知,LPOBTM的困惑度在任意時間片上均小于其他三種模型的困惑度,由此說明LOBTM模型有更好的主題泛化能力,可以獲得更好的話題演化效果。
本文研究了如何更準確地描述微博熱點話題的演化趨勢,提出了基于話題標簽和先驗參數的OBTM微博熱點話題演化算法。針對主題混合、新主題挖掘困難的問題,按照有無話題標簽,本文將文檔-主題分布分為基于標簽、微博內容的文檔-主題分布,并設置了對應的先驗參數傳遞,以此來保持舊主題在新時間片內的連續(xù)性;其次,為了更準確地描述主題演化趨勢,通過增加主題強度排名,提高了重要主題的遺傳度,優(yōu)化了主題-詞分布的先驗參數計算方法,減少了冗余詞的概率。實驗結果表明,LPOBTM能夠實現(xiàn)熱點話題內容和強度的演化分析,且與OBTM、基于雙通道的OLDA以及LOLDA模型相比,LPOBTM能夠更準確地描述熱點話題的內容演化情況,并且在各時間片內都有更低的模型困惑度。