向卓元 吳 玉 陳 浩 張芙瑋
(中南財經(jīng)政法大學(xué)信息與安全工程學(xué)院 武漢 430073)
隨著移動互聯(lián)網(wǎng)的快速發(fā)展,微博、貼吧等社交媒體得以蓬勃發(fā)展,用戶生成的社交媒體信息量呈現(xiàn)爆炸式的增長,同時互聯(lián)網(wǎng)將產(chǎn)生海量的短文本信息。新浪微博是國內(nèi)大型網(wǎng)絡(luò)媒體之一,人們可以不受時間、空間限制,實現(xiàn)實時分享與傳播互動。當(dāng)某一個話題爆發(fā)時,微博對事件能夠做出快速的反應(yīng),用戶可以通過PC端、移動端等方式獲取有關(guān)話題信息,或者參與信息交互(轉(zhuǎn)發(fā)、評論、點贊等操作),在短時間內(nèi)形成輿論焦點,從而使該話題形成一個熱點話題。因此,微博具有短文本性、實時性和交互性的特點。如何從海量的短文本數(shù)據(jù)中高效、準(zhǔn)確地挖掘熱點話題是目前輿情分析中的一個研究熱點問題。
梳理已有文獻可以發(fā)現(xiàn)傳統(tǒng)主題模型[1-3]是為挖掘長文本主題設(shè)計的,當(dāng)應(yīng)用這些模型來處理短文本時,會面臨數(shù)據(jù)稀疏、語義信息匱乏、向量維度高等問題,從而無法從短文本中有效的挖掘文本主題信息,失去了在長文本話題發(fā)現(xiàn)中所發(fā)揮的優(yōu)勢。
近些年來,為了解決短文本的數(shù)據(jù)稀疏問題,部分學(xué)者通過語料數(shù)據(jù)文檔的詞對共現(xiàn)信息來學(xué)習(xí)主題。Yan等人在2013年提出詞對主題模型(Biterm Topic Model,BTM)[4],通過構(gòu)建詞對解決短文本的稀疏性問題,實驗表明該模型挖掘的話題質(zhì)量不受文本長度的限制,在短文本上同樣取得較好的效果;但BTM模型挖掘的主題可能屬于普通話題,也可能屬于熱點話題,因此無法直接用于熱點話題發(fā)現(xiàn)。王亞民等[5]利用BTM模型進行微博輿情熱點發(fā)現(xiàn),與改進TF-IDF算法進行特征提取及相似性度量,解決了傳統(tǒng)短文本主題模型的高維度和稀疏性問題。李衛(wèi)疆等[6]結(jié)合BTM話題模型和K-means聚類算法來檢測微博話題,緩解了短文本數(shù)據(jù)稀疏的問題。這些主題模型及其改進方法雖然能解決短文本的稀疏問題,但是無法直接用于發(fā)現(xiàn)熱點話題,需要一些啟發(fā)式后處理等工作。Hoffman等[7]提出了在線主題模型(Online for Latent Dirichlet Allocation,OnlineLDA),但仍然存在需要手工標(biāo)注話題數(shù)目等后處理問題。M.Gerlach等[8]提出的hSBM模型通過調(diào)整具有非參數(shù)先驗的隨機塊模型(SBM),獲得了一個更通用的主題建??蚣?,它能夠自動檢測主題的數(shù)量,并對單詞和文檔進行分層聚類。分析表明,在統(tǒng)計模型選擇方面,SBM方法比LDA方法能得到更好的主題模型。
為了解決BTM模型無法直接應(yīng)用于短文本熱點話題發(fā)現(xiàn)的問題,Yan等[9]在2015年提出了突發(fā)詞對主題模型(Bursty Biterm Topic Model,BBTM),將詞對突發(fā)概率作為模型的先驗知識,可直接用于突發(fā)話題的發(fā)現(xiàn)。黃暢[10]改進BBTM模型,提出熱點話題發(fā)現(xiàn)方法(Hot topic-Hot Biterm Topic Model,H-HBTM),用傳播值來量化詞對熱值突發(fā)概率,設(shè)計了一種自適應(yīng)學(xué)習(xí)話題數(shù)目的方法。林特[11]改進BBTM模型量化詞對突發(fā)概率方法,提出了一種結(jié)合基于自動狀態(tài)機的枚舉突發(fā)詞對和正態(tài)分布的方法來量化突發(fā)詞對。
為了考慮詞語間的語義信息,沈蘭奔等[12]結(jié)合注意力機制和BiLSTM用于檢測中文事件。Yuan等[13]在2016年提出的詞共現(xiàn)網(wǎng)絡(luò)模型(WNTM)將文檔中的詞共現(xiàn)信息構(gòu)建成詞網(wǎng)絡(luò),提高了數(shù)據(jù)空間的語義密度。彭敏等[14]提出了一個基于雙向LSTM語義強化的概率主題模型,強化語義特征之間的關(guān)系。和志強等[15]提出了基于雙向LSTM的短文本分類算法,該算法能夠有效解決短文本分類過程中語義缺乏的問題。
也有學(xué)者致力于將人工神經(jīng)網(wǎng)絡(luò)結(jié)合主題模型來研究短文本主題挖掘。Li等[16]提出了一種基于反饋遞歸神經(jīng)網(wǎng)絡(luò)的主題模型,將LSTM與主題模型結(jié)合,提升了模型挖掘文檔集合主題的效率。石磊等[17]利用RNN來學(xué)習(xí)詞之間的關(guān)系作為先驗知識加入到稀疏主題模型,結(jié)合主題模型發(fā)現(xiàn)社交網(wǎng)絡(luò)突發(fā)話題。張翠等[18]將CNN和BiLSTM獲取的特征進行融合,能充分理解上下文信息,有效提取文本特征信息。Chitkara等[19]提出了一種具有自我注意力的層次模型,將深度學(xué)習(xí)技術(shù)應(yīng)用于話題發(fā)現(xiàn)。
由上述內(nèi)容可知,主流主題模型存在未進行特征選擇、沒有考慮詞語之間語義信息、未削弱高頻中性詞對主題的影響、需要人工指定話題數(shù)目等問題,針對這些問題設(shè)計一種基于密度的BiLSTM-HBBTM的最優(yōu)話題數(shù)目選擇方法,提出基于雙向長短期記憶網(wǎng)絡(luò)的熱點突發(fā)詞對主題模型(BiLSTM based on topic-hot Bursty Biterm Topic Model,BiLSTM-HBBTM)。
2.1微博傳播值微博傳播值的計算如公式(1)所示。傳播值越大,則該微博越有可能是熱點微博。
spreadd=γ·max{ln(repd),0}+χ·
max{ln(comd),0}+μ·max{ln(attd),0}
(1)
其中,spreadd表示微博文檔d的傳播值,repd、comd、attd分別表示微博文檔d被轉(zhuǎn)發(fā)數(shù)、被評論數(shù)、被點贊數(shù)。γ、χ、μ分別表示微博文本被轉(zhuǎn)發(fā)、評論和點贊對微博傳播值的影響權(quán)重。當(dāng)spreadd=0時,將該微博標(biāo)記為噪聲微博并將其刪除。
2.2詞項H指數(shù)受到Hirsch[20]提出的H指數(shù)的啟發(fā),本文提出詞項H指數(shù),將每篇微博文檔被轉(zhuǎn)發(fā)數(shù)作為該篇文檔每個詞語的被瀏覽次數(shù)。詞項H指數(shù)的定義如下:假設(shè)有N條微博中包含詞項wi,并且有H條微博的被轉(zhuǎn)發(fā)頻次大于或等于H次,那么該H值就是詞項的H指數(shù),用來確定該詞項對微博語料庫的重要性。
2.3詞對先驗知識為了解決BBTM模型沒有考慮詞語之間關(guān)系的問題,本文在BBTM模型的基礎(chǔ)上融入了詞對之間的關(guān)系作為共現(xiàn)詞對分布的先驗知識來強化詞對主題的相關(guān)性。
基于BiLSTM的先驗知識框架如圖1所示。首先,BiLSTM-HBBTM使用詞嵌入算法表示文本向量,引入BiLSTM來學(xué)習(xí)詞之間的關(guān)系。其次,為了過濾高頻中性詞對于主題質(zhì)量的影響,BiLSTM-HBBTM將改進詞語的逆文檔頻率(IDF)作為先驗知識的一部分。將BiLSTM的輸出信息和IDF結(jié)果的加權(quán)值作為模型的先驗知識。
圖1基于BiLSTM的先驗知識框架
根據(jù)Yan等[9]對BBTM模型的分析,在時間片t上詞對b的突發(fā)概率估計方法如式(2)所示。
(2)
2.5詞對熱值突發(fā)概率詞對熱值突發(fā)概率γb,t可以表示為詞對b在t時刻的熱度值φb,t相對于歷史平均熱度值φb,h的增長率,φb,t和φb,h的計算如式(3)和(4)所示。
(3)
(4)
詞對熱值突發(fā)概率γb,t如式(5)所示:
(5)
其中,δ用于過濾低頻詞對,s表示相關(guān)時隙大小,Mt表示t時隙內(nèi)的微博數(shù)目,spreadi,b指詞對b所在微博i的傳播值。
3.1算法步驟BiLSTM-HBBTM算法步驟如圖2所示,以下各節(jié)對主要部分進行詳細闡述。
圖2 BiLSTM-HBBTM算法流程圖
3.2特征選擇微博中的詞可以分為熱點詞和非熱點詞。熱點詞是指與熱點話題相關(guān)的詞, 在文本中出現(xiàn)的次數(shù)具有短期突增的特點,利用詞項H指數(shù)和詞的突發(fā)特性選擇微博特征, 選擇詞項H指數(shù)在前80%的詞以及突發(fā)概率大于閾值ω的詞作為微博的特征詞。這樣篩選出來的詞能夠更利于熱點話題的發(fā)現(xiàn),為后面建模減少了維度,降低了數(shù)據(jù)稀疏性和計算效率。特征選擇算法如算法1所示。
算法1 特征選擇算法
輸入:數(shù)據(jù)處理后的文本集text,詞突發(fā)概率閾值ω,相關(guān)時間片段s
輸出:文本特征集text_features
1.sorted(repw,reverse=True) /按每個詞的被瀏覽數(shù)降序排序/
2. calculateHw/計算詞w的H指數(shù)/
3. sorted(Hw,reverse=True)
4. ifHw排序在前80%
5. 將詞w加入text_h
6. forwi,wjin text_h
7.b=(wi,wj) /獲取詞對/
12.將詞對b加入text_features
13. end for
3.3詞對熱值概率化BBTM模型中的詞對突發(fā)概率只考慮了詞出現(xiàn)的頻次,但是與熱點話題相關(guān)的微博不只是表現(xiàn)為相關(guān)的微博數(shù)量變多,還表現(xiàn)為微博的評論數(shù)、轉(zhuǎn)發(fā)數(shù)和點贊數(shù)增多。熱點詞是熱門微博文本的組成部分,同時具有突發(fā)性和傳播性。因此,將詞對熱值突發(fā)概率代替詞對突發(fā)概率作為BBTM模型的先驗概率。詞對熱值概率化算法如算法2所示。
算法2 詞對熱值概率化算法
輸入:文本特征集text_features,相關(guān)時間片段s
輸出:(b,γb,t)
1.b=(wi,wj) /讀取詞對/
2.calculateφb,hby formula (5)
3.calculateφb,tby formula (6)
4.calculateγb,tby formula (7)
3.4自適應(yīng)學(xué)習(xí)話題數(shù)目按照主題相似度最小時話題質(zhì)量最佳的原則,在平均主題相似度最小時確定自適應(yīng)學(xué)習(xí)主題數(shù)K。根據(jù)文獻[21]中的基于密度的自適應(yīng)學(xué)習(xí)話題數(shù)目的選擇方法,本文采用詞嵌入Word2Vec算法的方式來表示話題向量。由于向量維度太高會淡化詞之間的關(guān)系,維度太低又不能將詞區(qū)分,因此將話題向量的維度設(shè)置在300維。改進的確定話題數(shù)目方法稱為基于密度的BiLSTM-HBBTM最優(yōu)話題數(shù)目K值確定方法。BiLSTM-HBBTM算法中的詞嵌入模型使用基于負方向采樣的Skip-gram詞向量來訓(xùn)練模型微博文本向量?;诿芏鹊腂iLSTM-HBBTM最優(yōu)K值選擇方法的基本過程如算法3所示。
算法3 基于密度的BiLSTM-HBBTM最優(yōu)K值選擇算法
輸入:(b,γb,t,maxKit)
輸出:K
1.隨機初始化話題數(shù)目K,K∈(20,100)。set flag=-1,simHis=1,topic=K,simBest=1。
2.while話題數(shù)目K不再改變時 or 達到最大迭代次數(shù)
3. CalculateSimavgby formula (12) and(13)
4. ifSimavg>simHisthen
5.flag=-flag
6. else
7.flag=flag
8. ifsimBest>Simavgthen
9.simBest=Simavg,simHis=Simavg,topic= K
10. ifsimkd 11.統(tǒng)計每個話題的話題密度 12.計算噪聲話題數(shù)C,即話題密度小于K/3的話題數(shù)。 13. update K,K=K+flag×C 14.return K 3.5模型參數(shù)求解BiLSTM-HBBTM用Gibbs采樣方法對參數(shù)進行求解,需要采樣的參數(shù)變量有z,θ和φ。詞對的條件概率分布分別如式(6)和(7)所示。 (6) (7) 經(jīng)過足夠次數(shù)的迭代后,收集統(tǒng)計信息并逐一更新每個單詞對的主題類型表示變量和主題分配。這些統(tǒng)計信息可用于估計各種參數(shù)。在達到最大迭代次數(shù)之后,將學(xué)習(xí)到的參數(shù)的平均值用作參數(shù)估計值。最后,推導(dǎo)出微博熱點話題分布和單詞分布參數(shù)結(jié)果,如公式(8)和(9)所示。 (8) (9) BiLSTM-HBBTM的吉布斯采樣算法具體描述如算法4所示。 算法4 BiLSTM-HBBTM吉布斯采樣算法 輸入:(K,α,β,B) 輸出:(θ,φ) 1.隨機初始化e,z 2.foriter=1 toNiterdo 3. for eachbi=(wi,1,wi,2)∈Bdo 4.從式(8)和(9)抽取ei,k 5. ifei=0 then 6. updaten0,wi,1,n0,wi,2 7. else 8. updatenk,n0,wi,1,n0,wi,2 9. end for 10.end for 11.returnθandφ 4.1實驗環(huán)境本章實驗均是在 Intel(R)Core(TM),i5-8250U CPU,1.60GHz的主頻, 8GHe內(nèi)存,Windows 10操作系統(tǒng)上進行的。應(yīng)用軟件采用3.7版本的Python程序結(jié)合2019.3.1版本的JetBrains Pycharm進行實證分析。 4.2數(shù)據(jù)集本文選取對熱點事件傳播影響力較大的官方微博,通過Python爬蟲抓取從2020年1月1日至2020年3月31日的微博,共計151 240條構(gòu)成本實驗原始數(shù)據(jù)集,用于發(fā)現(xiàn)疫情期間的微博熱點話題。其中,每條微博數(shù)據(jù)包括發(fā)布時間、微博正文、點贊數(shù)、評論數(shù)以及轉(zhuǎn)發(fā)數(shù)。 4.3參數(shù)設(shè)置 4.3.1 詞對突發(fā)概率閾值 BiLSTM-HBBTM在特征選擇中的詞對突發(fā)率閾值ω的取值大小會影響到最后話題的質(zhì)量。ω的取值范圍為(0,1),如果取值太小不能有效的過濾非突發(fā)詞,取值過大則容易丟失部分突發(fā)詞,因此進行了閾值ω變化對話題質(zhì)量影響的實驗。實驗結(jié)果如圖3所示。實驗結(jié)果純度(Purity)指標(biāo)的值越大表示話題質(zhì)量越好,從圖中可知,參數(shù)ω取0.4時純度最高,說明此時生成的話題質(zhì)量最好,因此實驗中參數(shù)ω的取值為0.4。 圖3 參數(shù)ω的實驗結(jié)果 4.3.2 其他參數(shù) 根據(jù)參考文獻[7],OnlineLDA的參數(shù)α,β分別為0.05,0.01;BTM、BBTM、BiLSTM-HBBTM中的參數(shù)根據(jù)文獻[4]和[8]的思想,設(shè)置為α=50/K和β=0.01,熱點主題的數(shù)量從20個到100個不等。Gibbs采樣過程的迭代次數(shù)都設(shè)置為1000次。根據(jù)文獻[10],H-HBTM,BiLSTM-HBBTM的其余參數(shù)取值為:s=4,δ=1,γ=0.7,χ=0.2,μ=0.1。 4.4評價指標(biāo) 4.4.1 主題相關(guān)性評估 a.平均話題相似度。根據(jù)文獻[21]的思想,主題間平均話題相似度最小時模型發(fā)現(xiàn)的各個話題相關(guān)程度最低,表明此時模型達到最優(yōu)。兩個文本向量k和d的相似度Simk,d用余弦距離與IDF結(jié)合計算,能夠削弱高頻中性詞對主題的影響,文本的相似性計算方法如公式(10)。 Simk,d= (10) 式中,ki表示k向量對應(yīng)i維上的值;di表示d向量對應(yīng)i維上的值。 用兩兩話題向量間相似度的平均值來表示平均話題相似度,其計算公式如式(11)。 (11) 式中,Simi,j是第i個話題與第j個話題之間的相似度,n表示為話題向量維度。 b.點互信息。受到信息論中互信息的啟發(fā),本文主題一致性評估采用點互信息(Pointwise Mutual Information,PMI)指標(biāo),點互信息的值越高,說明詞語的相關(guān)性越大,越能解釋同一個主題。本文PMI計算公式如式(12)所示。 (12) 其中,w1,w2,…,wN為主題z前N個可能的詞,p(wi,wj)是詞對 4.4.2 話題質(zhì)量評估 a.平均準(zhǔn)確度。將在不同熱點話題數(shù)目K下的平均準(zhǔn)確度(P@K)作為發(fā)現(xiàn)熱點話題準(zhǔn)確度的評價指標(biāo)。將算法生成的話題隨機混合在一起,邀請7個志愿者根據(jù)給出的話題信息對生成的熱點話題進行人工標(biāo)注。一個話題被認定是熱點話題的標(biāo)準(zhǔn)是:當(dāng)有超過50%志愿者都將該話題標(biāo)注為熱點話題,則該話題被認定是一個熱點話題。平均準(zhǔn)確度計算如式(13)。 (13) 其中,K為算法生成熱點話題數(shù)目,Kv為人工標(biāo)注的熱點話題數(shù)目。 b.熵值和純度。話題質(zhì)量評估采用熵值(entropy)[22]和純度(purity)[23]來度量。整個聚類劃分的熵值和純度的計算如式(14)和(15)。 (14) (15) 式中,mi表示為在聚類i中所有成員的個數(shù),mij表示為聚類i中的成員屬于類j的個數(shù),m是整個聚類劃分所涉及到的成員個數(shù),K是聚類的數(shù)目,L是類的個數(shù)。 4.5實驗過程和結(jié)果分析為了證明算法的有效性,選取了當(dāng)前三個業(yè)界主流模型OnlineLDA、BTM和BBTM以及BBTM模型的改進算法H-HBTM作為基準(zhǔn)模型,以平均話題相似度、平均準(zhǔn)確度熵值、純度、點互信息作為指標(biāo),在自適應(yīng)學(xué)習(xí)話題數(shù)目、發(fā)現(xiàn)準(zhǔn)確度、發(fā)現(xiàn)質(zhì)量和主題一致性這四個角度上,對改進的模型與基準(zhǔn)模型進行比較。 4.5.1 自適應(yīng)學(xué)習(xí)話題數(shù)目實驗 針對傳統(tǒng)主題模型存在需要人工確定話題數(shù)目的問題,BiLSTM-HBBTM算法中采用了基于密度的BiLSTM-HBBTM最優(yōu)K值選擇方法(KBiLSTM-HBBTM),用于確定話題數(shù)目K。當(dāng)主題之間平均余弦距離最小時,話題質(zhì)量最佳,模型最優(yōu)。為了證明該方法能夠自適應(yīng)學(xué)習(xí)話題數(shù)目,將其與原方法KLDA進行比較,并在運行時間角度同時與hSBM[8]比較。 在不同話題數(shù)目下,KBiLSTM-HBBTM與KLDA方法平均話題相似度的變化情況如圖2所示。當(dāng)話題數(shù)目K=67時,兩種方法的平均話題相似度都最低。由于基于密度的最優(yōu)K值選擇方法是根據(jù)LDA的模型結(jié)構(gòu)提出,將最優(yōu)K值選擇與模型參數(shù)估計統(tǒng)一在一個框架里,因而基于密度的最優(yōu)K值選擇方法會更適合LDA模型,KLDA的平均話題相似度也低于KBiLSTM-HBBTM。從圖4的實驗結(jié)果可知,基于密度的BiLSTM-HBBTM的自適應(yīng)學(xué)習(xí)話題數(shù)目的方法,能夠較好地確定最優(yōu)話題數(shù)目K。 圖4 KBiLSTM-HBBTM和KLDA選擇K的性能表現(xiàn) 為了證明BiLSTM-HBBTM模型使用的詞嵌入算法能夠改善LDA模型的高維度問題,提高運算效率,與KLDA、hSBM分別在10組不同話題數(shù)目下比較完整運行一次算法所用的時間,實驗結(jié)果如圖5所示。 從圖5可看出,KBiLSTM-HBBTM、KLDA與hSBM三種方法的運行時間,都隨著話題數(shù)目的增加而增長。 圖5 不同話題數(shù)目K下的運行時間 在相同數(shù)量的話題數(shù)目下,KBiLSTM-HBBTM的運行時間都少于KLDA和hSBM模型的運行時間,主要原因是KLDA使用向量空間表示話題分布,向量的維數(shù)與微博文本中特征詞的數(shù)量相同,會出現(xiàn)高維度的問題。hSBM算法構(gòu)造無向圖,數(shù)據(jù)量越大,運行時間呈幾何增長,因此當(dāng)數(shù)據(jù)集很大時,所耗費的時間會非常久,運算效率低。而在KBiLSTM-HBBTM方法中,采用Word2Vec詞嵌入的方式來表示話題向量,將話題向量維數(shù)設(shè)置在300,極大地降低了話題向量維度,縮短了在不同話題數(shù)目下每輪迭代過程中計算話題相似度所消耗的時間。由此可知,與KLDA、hSBM方法相比,KBiLSTM-HBBTM方法能夠改善維度過高的問題,縮短計算時間。 4.5.2 特征選擇結(jié)合BBTM與BBTM、H-HBTM發(fā)現(xiàn)熱點話題對比 本文引入了基于傳播值和詞項H指數(shù)的特征選擇方法,從文檔層面和詞語層面進行特征選擇。為了驗證本文提出的特征選擇方法的有效性,對比傳播值與詞項H指數(shù)結(jié)合BBTM建模(HBBTM)與H-HBTM模型、BBTM模型,分別得出每類熱點主題下的詞分布以及詞語之間的PMI。提取“各地醫(yī)生馳援湖北”“火神山醫(yī)院施工現(xiàn)場”兩個話題中出現(xiàn)概率最大前5個詞,實驗結(jié)果如表1所示。 表1 模型改進前后挖掘主題比較 由表1可以看出,通過BBTM模型得出的關(guān)鍵詞從語義上來看有些和主題無關(guān),例如“危重癥”和“觀看”;通過H-HBTM算法提取的話題詞能較好地描述主題,但也存在少量干擾詞。前兩種方法計算出的PMI均比HBBTM低,說明BBTM和H-HBTM模型發(fā)現(xiàn)的熱點話題中詞語之間的相關(guān)性比HBBTM低,HBBTM能夠更好地發(fā)現(xiàn)熱點話題。實驗結(jié)果表明,通過微博傳播值和詞項熱度結(jié)合BBTM建模,每個話題得出的詞語與主題高度相關(guān),能與主題相吻合,實驗結(jié)果優(yōu)于BBTM和H-HBTM方法。這是因為傳播值綜合考慮了微博的被轉(zhuǎn)發(fā)數(shù)、點贊數(shù)、評論數(shù)對微博文本的影響;而詞項H指數(shù)考慮了詞項的熱度。因此,使用結(jié)合傳播值和詞項H指數(shù)的特征選擇法建模得出的詞語能夠覆蓋整個話題的表述。 4.5.3 BiLSTM-HBBTM與BBTM、H-HBTM發(fā)現(xiàn)熱點話題對比 針對傳統(tǒng)主題模型存在忽略詞之間關(guān)系的問題,本文引入了BiLSTM來雙向?qū)W習(xí)詞語之間的關(guān)系。為了驗證BiLSTM學(xué)習(xí)的詞之間的關(guān)系對挖掘熱點話題的的有效性,將BiLSTM-HBBTM建模與H-HBTM模型、BBTM模型對比,得出每類熱點主題下的詞分布以及詞之間的PMI。對比兩個話題中出現(xiàn)概率最大的前5個詞,實驗結(jié)果如表2所示。 表2 模型改進前后所得的話題詞及PMI 由表2可以看出,BiLSTM-HBBTM模型得出的每個話題的詞語與熱點主題語義相近,而通過H-HBTM和BBTM建模得出的每個主題的詞語中,有一部分詞語與主題語義無關(guān)或者語義相差較遠。從PMI得分也能看出BiLSTM-HBBTM輸出的詞語之間關(guān)聯(lián)程度更高,能夠更好地描述主題。這是因為BBTM是以概率的方法來計算詞的突發(fā)概率,并將其作為模型的先驗知識,只從統(tǒng)計的角度考慮詞語的熱度;而BiLSTM考慮了詞語之間的語義關(guān)系,并且利用逆文檔頻率削弱了高頻中性詞的影響,因此,引入BiLSTM能夠更加準(zhǔn)確地提取各個熱點話題下的關(guān)鍵詞,更有利于熱點話題的發(fā)現(xiàn)。 4.5.4 BiLSTM-HBBTM與對比算法在話題發(fā)現(xiàn)準(zhǔn)確度上的比較與分析 為了評估本文方法與基準(zhǔn)模型發(fā)現(xiàn)熱點話題的準(zhǔn)確性,計算在不同的熱點話題數(shù)目K下對應(yīng)的平均準(zhǔn)確度(P@K),作為各方法發(fā)現(xiàn)熱點話題準(zhǔn)確度的評價指標(biāo)。實驗結(jié)果如表3所示。 表3 不同話題數(shù)目下的準(zhǔn)確度 由表3可知:BiLSTM-HBBTM方法的平均準(zhǔn)確度都是大于0.8,明顯優(yōu)于其他方法。這說明BiLSTM-HBBTM結(jié)合傳播值和詞項H指數(shù)進行特征選擇,利用BiLSTM學(xué)習(xí)詞之間的關(guān)系,并且將詞對熱值突發(fā)概率代替詞對突發(fā)概率作為BBTM模型的先驗概率,過濾掉一些非熱點詞,提高了熱點話題發(fā)現(xiàn)的準(zhǔn)確度。 4.5.5 BiLSTM-HBBTM與對比算法在話題發(fā)現(xiàn)質(zhì)量上的比較與分析 為了評價熱點話題發(fā)現(xiàn)的質(zhì)量,選擇純度和熵作為評價指標(biāo),純度越大、熵值越小表示性能越好。話題數(shù)目設(shè)置為K∈[40,65]。各個方法在不同話題數(shù)目下的熱點話題聚類結(jié)果如圖6和圖7所示。 圖6 不同話題數(shù)目下的聚類純度 圖7 不同話題數(shù)目下的聚類熵 由圖6和圖7的實驗結(jié)果可以看出,相比其他對比算法,本文提出的BiLSTM-HBBTM方法在純度和熵指標(biāo)的實驗結(jié)果更好。BBTM、H-HBTM的實驗效果較好,但稍微差于本文所提方法,這是因為BiLSTM-HBBTM利用微博傳播值和詞項H指數(shù)選擇微博文本和特征詞,并且將詞對熱值突發(fā)概率作為模型的先驗概率,更好地表征詞對熱度;考慮了詞語關(guān)系,過濾掉高頻中性詞,能夠更準(zhǔn)確地發(fā)現(xiàn)熱點問題。 4.5.6 BiLSTM-HBBTM與對比算法在主題一致性上的比較與分析 本文選用點互信息(PMI)指標(biāo)來度量BiLSTM-HBBTM方法的主題一致性,當(dāng)PMI越高時,表明該主題的主題一致性更強。BiLSTM-HBBTM與對比算法在不同熱點話題數(shù)量下的熱點話題的主題一致性結(jié)果如圖8所示。 圖8 不同話題數(shù)目下的主題一致性 由圖8可知,相比于其他對比方法,BiLSTM-HBBTM方法的主題一致性實驗效果更優(yōu),說明BiLSTM-HBBTM方法發(fā)現(xiàn)的熱點話題里,各個詞語之間的一致性更高。 為了定性分析主題一致性,此次實驗隨機挑選了一個出現(xiàn)頻次較高且是熱點話題的話題標(biāo)簽。抽取話題“雙黃連可抑制新型冠狀病毒”的實驗結(jié)果,分別列出概率最高的前10個詞語,如表4所示。 表4 話題“雙黃連可抑制新型冠狀病毒”發(fā)現(xiàn)概率 由表4的實驗結(jié)果可知,BiLSTM-HBBTM中詞語之間的PMI最大,說明各個詞語間語義相關(guān)性最強,與話題的一致性也更強。BBTM、H-HBTM發(fā)現(xiàn)的話題關(guān)鍵詞的相關(guān)性也較大,但也存在與話題不相關(guān)或相差較遠的詞語。OnlineLDA中的PMI最低,詞以日常通用詞語為主,與話題相關(guān)的詞語比較少,因此,在所有對比方法中,OnlineLDA得出的結(jié)果與主題相關(guān)性最低。BTM的實驗結(jié)果雖然略優(yōu)于OnlineLDA方法,但也包含了較多的日常通用詞,比如說“生產(chǎn)”和“早期”,表明BTM模型挖掘的主題有可能是普通話題,不是熱點話題。 4.5.7 總結(jié) 從前文的分析可以得到以下各個模型功能模塊的對比結(jié)果,詳見表5。 表5 模型功能模塊對比 從表5可以看出,傳統(tǒng)主題模型仍然存在一定的缺陷。本文提出的基于雙向長短期記憶網(wǎng)絡(luò)的熱點突發(fā)詞對主題模型(BiLSTM-HBBTM)在話題發(fā)現(xiàn)準(zhǔn)確度、話題質(zhì)量、話題一致性方面都取得了較好的實驗效果。這是因為BiLSTM-HBBTM結(jié)合微博的傳播性與詞項熱度進行了文檔和詞項的特征選擇,將詞之間的關(guān)系和詞對熱值概率作為詞對的先驗知識,同時削弱高頻中性詞對話題的影響,采用基于密度的自適應(yīng)學(xué)習(xí)話題數(shù)目方法,能夠從嘈雜的微博文本中挖掘出高質(zhì)量的熱點話題。 本文提出了一種基于基于突發(fā)詞對主題模型改進的微博熱點話題發(fā)現(xiàn)方法(BiLSTM-HBBTM),用來發(fā)現(xiàn)微博中的熱點話題。BiLSTM-HBBTM先引入微博傳播值、詞項H指數(shù)和詞對突發(fā)概率,從文檔和詞語兩個層面進行特征選擇,再通過BiLSTM訓(xùn)練詞語之間的關(guān)系,計算詞對熱值突發(fā)概率,為BBTM模型提供了更加準(zhǔn)確的先驗知識,最后使用基于密度的方法自適應(yīng)選擇話題數(shù)目,解決了傳統(tǒng)的主題模型需要人工指定話題數(shù)目的問題。然而,本文數(shù)據(jù)集只選取微博的文本進行建模,但微博數(shù)據(jù)中還包含有圖片、視頻、音頻、表情包等相關(guān)能反映話題的信息,未來或許可以考慮結(jié)合多方面的數(shù)據(jù)信息建模來更精確的挖掘熱點話題。4 實驗分析
5 結(jié) 語