劉建義,夏 換,周 潔
(1.貴州財(cái)經(jīng)大學(xué)信息學(xué)院,貴州 貴陽(yáng) 550025;2.貴州財(cái)經(jīng)大學(xué)電子商務(wù)大數(shù)據(jù)營(yíng)銷工程研究中心)
隨著后疫情時(shí)代的來(lái)臨,我國(guó)民眾的健康信息素養(yǎng)顯著提升,居家隔離時(shí)通過(guò)各種渠道獲取健康信息知識(shí),并且在微博、抖音等社交媒體平臺(tái)發(fā)布個(gè)人訴求、表達(dá)個(gè)人情感等,特別是伴隨著熱點(diǎn)事件的出現(xiàn),民眾的情感表達(dá)和現(xiàn)實(shí)訴求會(huì)集中性的出現(xiàn)。
智能終端的普及使得我國(guó)網(wǎng)民下沉現(xiàn)象明顯,研究對(duì)象不僅僅局限于青年群體,中老年群體也開(kāi)始成為研究對(duì)象的一部分,一定程度上豐富研究對(duì)象的年齡屬性和群體屬性使得結(jié)論更具現(xiàn)實(shí)意義。
當(dāng)下社交媒體的便利性使得民眾表達(dá)訴求和情感的方式變得簡(jiǎn)單。例如:一條微博抖音評(píng)論、一條政府留言板留言、一條朋友圈、一條彈幕等都可成為其表達(dá)情感和訴求的途徑。表達(dá)途徑的方便往往造成信息的冗雜,為方便政府及時(shí)了解后疫情時(shí)期民眾的切實(shí)訴求,所以采用LDA 主題模型和社會(huì)網(wǎng)絡(luò)分析對(duì)人民網(wǎng)評(píng)論數(shù)據(jù)進(jìn)行歸類總結(jié),構(gòu)建主題詞圖譜;同時(shí)根據(jù)時(shí)間的推移構(gòu)建民眾訴求主題的演化趨勢(shì)。
曾子明、孫晶晶兩位學(xué)者以新冠疫情為例,從用戶注意力的角度對(duì)突發(fā)公共衛(wèi)生事件輿情情感的演化進(jìn)行了相關(guān)研究,著重考慮了影響用戶情感分析的用戶特征這一影響因子,提出基于用戶注意力的情感分析模型,對(duì)輿情情感演化具有一定的可解釋性,但是其數(shù)據(jù)單一,未考慮數(shù)據(jù)的多元性。曹樹(shù)金,岳文玉就突發(fā)公共衛(wèi)生事件微博輿情主題挖掘與演化分析進(jìn)行了相關(guān)研究,通過(guò)生命周期理論對(duì)突發(fā)公共衛(wèi)生事件微博轉(zhuǎn)播階段進(jìn)行劃分,利用LDA 主題模型實(shí)現(xiàn)文本聚類和TF-IDF 特征權(quán)重賦值,分析2020.01-04的熱門(mén)微博和評(píng)論文本數(shù)據(jù),指出LDA 主題模型可以揭示突發(fā)公共衛(wèi)生事件微博的傳播內(nèi)容主題。王偉、高寧、徐玉婷等利用LDA 主題模型對(duì)眾籌項(xiàng)目在線評(píng)論主題動(dòng)態(tài)演化分析進(jìn)行了相關(guān)研究,得出LDA 主題模型可以很好的處理在線評(píng)論的主題動(dòng)態(tài)演化。楊建梁、劉越男等就2019 年12 月1 日-2020 年5 月15 日部分地市的人民網(wǎng)地方政府留言板的民眾留言進(jìn)行了數(shù)據(jù)挖掘分析,數(shù)據(jù)來(lái)源較為單一,部分民眾的訴求還是難以得到體現(xiàn),但是他考慮到了空間因素對(duì)民眾訴求的影響。顏端武、梅喜瑞等基于主題模型和詞向量融合的微博短文本主題聚類研究,利用LDA 主題模型對(duì)微博一段時(shí)間內(nèi)的的熱點(diǎn)進(jìn)行聚類分析,發(fā)現(xiàn)對(duì)微博短文本的處理效果較好。楊奕、張毅以中美貿(mào)易爭(zhēng)端為案例,利用LDA 主題挖掘與社會(huì)網(wǎng)絡(luò)分析算法探究復(fù)雜公共議題下社交媒體演化趨勢(shì),先利用LDA 主題模型提取出議題關(guān)注主題,實(shí)現(xiàn)降維分類,然后進(jìn)行主題時(shí)間趨勢(shì)分析,最后利用社會(huì)網(wǎng)絡(luò)分析構(gòu)建主題詞圖譜,明確了主題議題之間的聯(lián)系。
研究數(shù)據(jù)采用2021 年5 月-11 月人民網(wǎng)地方政府留言板的新冠疫情有關(guān)留言內(nèi)容、留言標(biāo)題和央視新聞2021年5月-11月與新冠疫情有關(guān)的微博評(píng)論內(nèi)容。
數(shù)據(jù)的獲取采用Python 爬蟲(chóng)技術(shù)獲取,利用Python 爬蟲(chóng)第三方庫(kù)selenium 即瀏覽器自動(dòng)化操作框架,這里主要用到WebDriver這一個(gè)工具,接著利用element_by_xpath 或css_selector 進(jìn)行數(shù)據(jù)抓取,具體處理過(guò)程為:
⑴新建.py 文件導(dǎo)入第三方庫(kù)selenium、Pandas、time、csv、requests、json、lxml、urllib.;
⑵獲取URL;
⑶設(shè)置代碼自動(dòng)點(diǎn)擊登錄按鈕,然后選擇掃碼登錄,程序休眠5秒方便掃碼;
⑷登錄后利用by_xpath 選擇內(nèi)容搜索,keyword=新冠疫情;
⑸建立空白詞典詞典內(nèi)容包括留言時(shí)間、留言內(nèi)容內(nèi)容、留言標(biāo)題;
⑹抓取數(shù)據(jù),F(xiàn)12 進(jìn)入開(kāi)發(fā)者選項(xiàng)利用by_xpath抓取所需數(shù)據(jù)的源代碼,同時(shí)設(shè)置代碼將滾動(dòng)條拖到最后方便獲取全部數(shù)據(jù)。
另外因?yàn)槲⒉┰u(píng)論的特殊性,使用移動(dòng)端源代碼獲取評(píng)論較為簡(jiǎn)單,需要找到爬取微博評(píng)論的URL、cookie、Referer、User-Agen;除此之外因?yàn)楝F(xiàn)在微博的反爬蟲(chóng)機(jī)制,20 條評(píng)論后會(huì)出現(xiàn)一個(gè)隨機(jī)變化的max_id 參數(shù),設(shè)置代碼捕捉這個(gè)參數(shù)就可以實(shí)現(xiàn)翻頁(yè)爬取。
LDA主題模型(圖1)是一個(gè)“文本-主題-單詞”的三層貝葉斯產(chǎn)生式模型,即三層貝葉斯概率圖,包含文檔、主題、主題詞三層結(jié)構(gòu),該方法首先選定一個(gè)主題向量θ,確定每個(gè)主題被選擇的概率。然后在生成每個(gè)單詞的時(shí)候,從主題分布向量θ 中選擇一個(gè)主題z,按主題z的詞語(yǔ)概率分布生成一個(gè)詞語(yǔ)。
圖1 LDA主題模型邏輯圖
為了更科學(xué)的確定主題數(shù)不僅要從模型效果的角度,還要考慮所獲主題是否具有良好的解釋性。擬采用困惑度(Perplexity)指標(biāo)來(lái)確定最優(yōu)主題數(shù),困惑度越低,說(shuō)明聚類的效果越好。
根據(jù)困惑度確定好主題數(shù)之后,進(jìn)行LDA 主題模型分析,分析結(jié)果利用pyLDAvis 包進(jìn)行數(shù)據(jù)可視化,方便政府更加清晰直觀的獲取民眾訴求主題熱點(diǎn)。
從圖2 可以很明顯的看出,文本聚類圈之間沒(méi)有重合,說(shuō)明聚類效果很好。
圖2 LDA聚類圖
利用LDA 主題聚類結(jié)果可以很清楚的了解到住房問(wèn)題、工作問(wèn)題、醫(yī)療問(wèn)題、考試教育問(wèn)題、旅游問(wèn)題成為當(dāng)下民眾最關(guān)心的問(wèn)題,也代表了他們當(dāng)下的切實(shí)訴求。為了方便歸類統(tǒng)計(jì),設(shè)計(jì)了表1。
表1 主題熱詞歸類表
另外,為了更直觀地表達(dá)各個(gè)主題詞聯(lián)系的緊密程度和主題熱詞隨時(shí)間推移的演化趨勢(shì),本次研究中采用社會(huì)網(wǎng)絡(luò)分析法來(lái)進(jìn)行可視化分析。利用社區(qū)探測(cè)算法(模塊化),根據(jù)原始圖中各個(gè)關(guān)系節(jié)點(diǎn)相互連接的歸類。類型相同的兩個(gè)節(jié)點(diǎn)在模塊化處理過(guò)程中會(huì)隨之增加一個(gè)字段(數(shù)字表示)。通過(guò)計(jì)算社交網(wǎng)絡(luò)各個(gè)節(jié)點(diǎn)的連邊數(shù)與隨機(jī)點(diǎn)的連邊數(shù)之差,用于判斷該社交網(wǎng)絡(luò)的緊密程度。
將所獲數(shù)據(jù)依據(jù)時(shí)間維度來(lái)進(jìn)行數(shù)據(jù)劃分,根據(jù)上述兩個(gè)網(wǎng)絡(luò)圖譜來(lái)分析,前幾個(gè)月,疫苗、防疫等主題熱詞出于中心緊密點(diǎn),而隨著時(shí)間的推移,旅游、交房、供暖等主題熱詞開(kāi)始由邊緣向中心移動(dòng)。這表明疫情防控措施是非常有效的,公民由最開(kāi)始的關(guān)心疫情物資政策逐漸變?yōu)殛P(guān)心疫情時(shí)期的教育、旅游、住房等重要的民生問(wèn)題。我國(guó)民眾也由最初的恐慌性情緒轉(zhuǎn)變?yōu)橹饾u接受新冠疫情的常態(tài)化存在,特別是全民接種疫苗計(jì)劃的推進(jìn),使得民眾對(duì)新冠疫情的恐懼降到了最低,所以后疫情時(shí)期的日常生活問(wèn)題就成了民眾最為關(guān)心的問(wèn)題。
圖3 5-7月主題熱詞網(wǎng)絡(luò)圖
圖4 9-11月主題熱詞網(wǎng)絡(luò)圖
在研究過(guò)程中發(fā)現(xiàn),民眾的訴求主題中不僅僅包括現(xiàn)實(shí)問(wèn)題,還包括對(duì)熱點(diǎn)事件和政府防疫政策的情感表達(dá)(主要分為消極、積極兩種態(tài)勢(shì))。針對(duì)這一突出問(wèn)題,我們?cè)陂喿x相關(guān)文獻(xiàn)之后,決定在后續(xù)研究中采用機(jī)器學(xué)習(xí)算法對(duì)民眾情感進(jìn)行分類研究,其中為了測(cè)試那種機(jī)器學(xué)習(xí)算法精確度和適配度最高,利用獲取到的數(shù)據(jù)構(gòu)建了數(shù)據(jù)測(cè)試集,將1000條情感數(shù)據(jù)按照消極積極地情感屬性進(jìn)行評(píng)分,帶入支持向量機(jī)、隨機(jī)森林、樸素貝葉斯三種機(jī)器學(xué)習(xí)算法檢驗(yàn)?zāi)P瓦m配度,結(jié)果如下:
圖5 隨機(jī)森林測(cè)試集數(shù)據(jù)圖
根據(jù)表2 顯示,隨機(jī)森林算法的各項(xiàng)指標(biāo)都是比較理想的,所以針對(duì)新冠疫情熱點(diǎn)事件中民眾的情感態(tài)勢(shì)的科學(xué)把控,可以采用隨機(jī)森林算法進(jìn)行情感分類。根據(jù)分類結(jié)果責(zé)成權(quán)威媒體進(jìn)行發(fā)聲,方便政府進(jìn)行社會(huì)輿論的引導(dǎo)。
表2 測(cè)試集數(shù)據(jù)表
根據(jù)數(shù)據(jù)分析結(jié)果可以得出,住房問(wèn)題、教育問(wèn)題、工作問(wèn)題、旅游問(wèn)題成為了受關(guān)注度最高的問(wèn)題,社會(huì)各界應(yīng)當(dāng)集中優(yōu)勢(shì)資源,優(yōu)先解決這些問(wèn)題。
⑴住房問(wèn)題的解決措施
住房問(wèn)題多是何時(shí)可以交房、延期交房、供暖問(wèn)題,所以針對(duì)這些問(wèn)題政府應(yīng)當(dāng)敦促開(kāi)發(fā)商嚴(yán)格按照合同規(guī)定交付住房、供暖等,落實(shí)追責(zé)制度;對(duì)于不可抗力原因延期交房、延期供暖的應(yīng)當(dāng)及時(shí)通過(guò)官方媒體、公眾號(hào)等渠道告知業(yè)主并且對(duì)其進(jìn)行安撫,同時(shí)政府應(yīng)當(dāng)通過(guò)調(diào)配各種資源來(lái)保障這部分業(yè)主的正常生活。
⑵工作問(wèn)題的解決措施
工作問(wèn)題多是工資發(fā)放不及時(shí)、政府減免租金等問(wèn)題。政府應(yīng)當(dāng)用盡用活各種優(yōu)惠政策,例如擴(kuò)大租金減免的適用范圍、提高政府補(bǔ)助的額度、對(duì)符合條件的企業(yè)進(jìn)行合理的稅務(wù)減免等等,給予中小企業(yè)強(qiáng)有力的支持,使其可以在新冠疫情的沖擊下仍能良性發(fā)展或者轉(zhuǎn)型;企業(yè)也應(yīng)當(dāng)調(diào)整發(fā)展戰(zhàn)略,適應(yīng)后疫情時(shí)代的經(jīng)濟(jì)環(huán)境,遵循政府的引導(dǎo),挖掘潛在市場(chǎng),為民眾提供一定的就業(yè)崗位,維護(hù)國(guó)家經(jīng)濟(jì)穩(wěn)定。
⑶教育問(wèn)題的解決措施
教育問(wèn)題集中體現(xiàn)在各種證書(shū)和學(xué)歷的考試、公務(wù)員考試、幼兒園入學(xué)等。不同疫情地區(qū),在考試、開(kāi)學(xué)時(shí)間,核酸檢測(cè)等方面應(yīng)作出合理調(diào)整。
⑷旅游問(wèn)題的解決措施
旅游問(wèn)題集中體現(xiàn)在跨省旅游核酸、隔離、旅游退費(fèi)等問(wèn)題。針對(duì)這些問(wèn)題加強(qiáng)防疫政策的宣傳,可考慮將抖音、快手等作為宣傳渠道。政府和相關(guān)機(jī)構(gòu)應(yīng)當(dāng)制定出退費(fèi)的標(biāo)準(zhǔn),合理退費(fèi),從法律層面對(duì)疫情時(shí)期的退費(fèi)進(jìn)行規(guī)范法、法制化,不可自說(shuō)其話影響自身公信力。
本文的研究主要是針對(duì)當(dāng)下民眾的熱點(diǎn)訴求進(jìn)行分析整理,針對(duì)新冠疫情熱點(diǎn)事件中民眾情感態(tài)勢(shì)的分類進(jìn)行了數(shù)據(jù)集測(cè)試,結(jié)果顯示,隨機(jī)森林算法處理情感文本分類是最契合的。準(zhǔn)確把握這些訴求有助于政府有針對(duì)性的解決民生問(wèn)題,增強(qiáng)人民的獲得感、幸福感和自豪感。