胡 靖 李金名 劉佳莉 陸立萍 貢瑋晨通訊作者
(天津理工大學(xué) 天津 300384)
隨著疫情發(fā)展,公眾對疫情關(guān)注度有顯著變化。從初期迫切需要相關(guān)消息,再到全民隔離后信息傳播全部依托于社交媒體平臺,信息可視化致使各種輿論層出不窮,對輿論的引導(dǎo)管控格外重要。引用模型是處理海量信息的關(guān)鍵。DW模型可存儲大量數(shù)據(jù)方便檢索且保持?jǐn)?shù)據(jù)的一致完整性、安全可共享,通過組合分析可產(chǎn)生新數(shù)據(jù)。LDA模型可以精準(zhǔn)定位到主題詞匯,從文本中分析和挖掘出隱含的結(jié)構(gòu)信息,且不依賴任何提前標(biāo)注的信息。
DW模型。數(shù)據(jù)倉庫DW是一個龐大的數(shù)據(jù)集合,用于支持企業(yè)管理決策,長期保存且不會修改所有從ODS來的數(shù)據(jù)。
DW多種特征:①效率高;②擴(kuò)展性;③面向主題;④不可更新;⑤大容量。
LDA主題模型原理。LDA主題模型是由文檔、主題、詞匯組成的文檔生成模型[1]。運(yùn)用詞袋模型的方法將文本向量化表示,文檔為詞頻向量,文本信息為建模所需的數(shù)字信息,從眾多文本信息中提取出便于理解的關(guān)鍵詞,使文本中的降維問題得到解決。計算過程涉及狄利克雷分布(Dirichlet 分布)、多項分布、以及Dirichlet-Multinomial 共軛分布[2]。
Dirichlet分布是多項式分布的共軛先驗概率分布,按照貝葉斯推理的邏輯得到Dirichlet-Multinomial 共軛分布的一般表達(dá)式為:
LDA主題模型中所有變量的聯(lián)合分布結(jié)果為:
針對輿情演變趨勢的DW-LDA混合模型及算法。在LDA模型的基礎(chǔ)上引入DW,將基礎(chǔ)信息按時間序列進(jìn)行主題和詞的分類,利用Gibbs采樣算法[3]將數(shù)據(jù)進(jìn)行降維處理,對新數(shù)據(jù)庫進(jìn)行可視化分析,得到事件的總體發(fā)展歷程及高熱度發(fā)展主題和詞匯,綜合結(jié)果與事實發(fā)展?fàn)顟B(tài)還可以有效預(yù)測事件的未來演變趨勢。
確認(rèn)研究主體為微博熱搜詞條,將數(shù)據(jù)庫基礎(chǔ)信息進(jìn)行分類預(yù)處理,以月為單位分為M篇文檔,每篇文檔含有K個潛在主題,每個主題為N’個單詞的集合分布。將每篇文檔看作熱搜詞條潛在主題的一個隨機(jī)混合,其中每個主題看作若干個單詞的隨機(jī)混合。在每篇文檔中,根據(jù)由Dirichlet先驗α控制的多項式分布選擇潛在主題,確定一個主題,根據(jù)由Dirichlet先驗β控制的另一個多項式分布來提取單詞。對整個資料庫來講,每篇文檔生成過程都是互相獨立的,即共形成M+K個互相獨立的Dirichlet-Multinomial共軛結(jié)構(gòu)。由模型參數(shù)K=5可知,α=10,β=0.01。最終得到DW-LDA混合模型的概率表達(dá)式為:
疫情期間國內(nèi)外疫情相關(guān)數(shù)據(jù)收集。以微博熱搜詞條時間與話題討論次數(shù)為關(guān)鍵詞,構(gòu)建基于Python的爬蟲框架,對2020年1月1日至2020年10月31日的內(nèi)微博熱搜話題進(jìn)行采集,最終得到27862條信息。
將原始數(shù)據(jù)進(jìn)行預(yù)處理,剔除無關(guān)信息,關(guān)鍵信息分為醫(yī)療應(yīng)急管理、政府輿情治理、自媒體引導(dǎo)、國際輿情走向、社會輿情發(fā)展5大主題[4],每個主題包含10個單詞。分別為醫(yī)療應(yīng)急管理:口罩、醫(yī)護(hù)人員、核酸檢測、鐘南山、傳染源、治療藥物、隔離、新增病例、發(fā)熱門診、消毒;政府輿情治理:武漢疫情、醫(yī)院建設(shè)、封城、免職問責(zé)、復(fù)工復(fù)產(chǎn)復(fù)學(xué)、大連疫情、新疆疫情、干部響應(yīng)、掌控市場價位、確診者活動范圍;自媒體引導(dǎo):丁香醫(yī)生、晚安短信、封城日記、云監(jiān)工、云聚會、釘釘、健康碼、疫情知識科普、在一起、直播助力武漢;國際輿情走向:境外輸入、國際支援、中國外交、世界衛(wèi)生組織、最新疫情地圖、國外疫情、歸國留學(xué)生、國際航班、外國人入境、全球攜手戰(zhàn)疫;社會輿情發(fā)展:活動取消、快遞、野生動物、網(wǎng)課、獻(xiàn)愛心、社區(qū)服務(wù)、企業(yè)轉(zhuǎn)型、疫情防護(hù)、紅十字會、疫情拐點。
利用DW-LDA混合模型進(jìn)行數(shù)據(jù)可視分析。以時間為橫軸,熱度為縱軸,利用DW-LDA混合模型對數(shù)據(jù)進(jìn)行驗證。假設(shè)微博熱搜詞集為一個整體的語料庫[5],其中共有D條信息,包含M=10篇文檔、K=5個潛在主題、N=N′×K=50個單詞。對于每條熱搜詞條d∈D,由Dirichlet分布θm~Dir(α)得熱搜詞條d的主題分布參數(shù)θm,θm代表文檔-主題概率分布;對于每個主題z∈K,由Dirichlet分布φz~Dir(β)得主題z上單詞的多項式分布參數(shù)φK,φK代表主題-詞概率分布;對于每條熱搜詞條d對應(yīng)的單詞N,由多項式分布zm,n~Mult(θm)得主題zm,n;由多項式分布wm,n~Mult(φk)得詞匯wm,n。結(jié)果見圖1。
圖1 數(shù)據(jù)庫主題熱度變化
國內(nèi)輿情演變趨勢的動態(tài)研究。2020年1月新冠肺炎以武漢為中心向全國范圍內(nèi)爆發(fā),引起社會廣泛關(guān)注,網(wǎng)絡(luò)輿論隨之發(fā)酵。目前為止,輿論主題熱度變化是相同的走向趨勢[6],先增后降再急速降低,疫情反復(fù)使主題熱度再度飆升后又顯著降低。政府對疫情把控良好,輿論控制在一定的范圍內(nèi),暫無較大波動。隨著國際疫情的發(fā)展,新冠肺炎疫苗的研發(fā)以及有效治療藥物再次被提及,引起群眾的廣泛討論。
綜上所述,疫情輿情仍處于波動階段,政府和相關(guān)部門一定要做好研判工作,防止二次爆發(fā)。疫情并未走遠(yuǎn),輿情尚未結(jié)束,只是進(jìn)入了常態(tài)化防護(hù)階段,有一定的發(fā)酵程度,政府要做好應(yīng)對準(zhǔn)備。
新冠疫情引發(fā)的網(wǎng)絡(luò)輿情仍處于波動階段,關(guān)于疫情的話題依然占比較大。很多信息經(jīng)過網(wǎng)絡(luò)發(fā)酵,稍有不慎就會引發(fā)二次輿情,做好輿情研判工作,防止輿情爆發(fā)是現(xiàn)階段網(wǎng)絡(luò)輿情監(jiān)管工作的重點。
黨和政府高效有序的開展疫情防控工作并取得了巨大成績,網(wǎng)絡(luò)輿論隨著戰(zhàn)“疫”的不斷成功,變得積極向上充滿能量。更多人在社交平臺上自發(fā)進(jìn)行謠言駁斥,將輿論往正方向引導(dǎo)??梢?,網(wǎng)絡(luò)輿情需要政府和管理者的積極干預(yù)與調(diào)控。
對相關(guān)疫情輿情,建立輿情監(jiān)測體系,加強(qiáng)監(jiān)測力度,建立疫情應(yīng)對體系,對網(wǎng)上的輿論及時處置;加強(qiáng)輿情風(fēng)險防范的宣傳,培養(yǎng)公眾輿情風(fēng)險防范意識;加強(qiáng)對公眾的管理和監(jiān)督,及時解決問題;建立良好的外部溝通機(jī)制,延緩輿情的擴(kuò)散速度,為采取應(yīng)對措施爭取時間。