楊秀璋 武帥 夏換 于小民
摘要:針對(duì)“新冠肺炎疫情”熱點(diǎn)新聞和話題,提出一種基于主題挖掘和情感分析的輿情分析方法。通過(guò)Python抓取2020年1月20日至3月22日期間共計(jì)1389篇人民網(wǎng)的疫情新聞,利用數(shù)據(jù)預(yù)處理、特征詞提取、詞云可視化展現(xiàn)與“新冠肺炎疫情”相關(guān)的熱點(diǎn)主題,再采用共詞分析、LDA模型、知識(shí)圖譜和情感分析算法挖掘輿情演化趨勢(shì)。實(shí)驗(yàn)結(jié)果表明,此次肺炎疫情的情感呈現(xiàn)積極狀態(tài),熱點(diǎn)主題包括疫情、防控、醫(yī)院、工作、服務(wù)等。該方法能有效挖掘輿情事件的主題,具有一定的應(yīng)用前景和使用價(jià)值。
關(guān)鍵詞:主題挖掘;情感分析;新冠肺炎疫情;知識(shí)圖譜
中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1006-8228(2020)08-31-06
0 引言
2019年12月,湖北省武漢市開始出現(xiàn)多起不明原因引發(fā)的肺炎病例,后證實(shí)是由一種新型冠狀病毒(2019-novel coronavirus,2019-nCoV)感染所致,以下簡(jiǎn)稱新冠肺炎[1-2]。2020年2月ll日,世界衛(wèi)生組織宣布將新冠肺炎命名為“COVID-19”[2]。
新冠肺炎疫情的不斷擴(kuò)散,給全國(guó)社會(huì)經(jīng)濟(jì)發(fā)展帶來(lái)了巨大挑戰(zhàn),同時(shí)以網(wǎng)絡(luò)平臺(tái)為主的新聞報(bào)道及社交論壇引發(fā)了社會(huì)的廣泛關(guān)注。隨著感染人數(shù)和疑似人數(shù)不斷增加,互聯(lián)網(wǎng)中相關(guān)的熱點(diǎn)新聞及話題呈爆炸式增長(zhǎng)。如何利用計(jì)算機(jī)方法和數(shù)據(jù)分析算法準(zhǔn)確地識(shí)別熱點(diǎn)新聞和疫情主題,分析群眾的情感動(dòng)態(tài),挖掘民眾關(guān)注的話題,已成為數(shù)據(jù)分析人員的重要研究議題[4]。本文提出一種基于主題挖掘和情感分析的“新冠肺炎疫情”輿情分析方法。 近些年,國(guó)內(nèi)外學(xué)者致力于輿情分析研究,并提出了相關(guān)分析方法。趙雪等[5]使用詞共現(xiàn)網(wǎng)絡(luò)的方法對(duì)中國(guó)鄉(xiāng)村之聲官方微博信息進(jìn)行輿情分析,識(shí)別出熱點(diǎn)話題主要為農(nóng)業(yè)經(jīng)濟(jì)信息和農(nóng)民民生。李建新[6]通過(guò)構(gòu)建BPOAS-MSW模型,建立系統(tǒng)的言論模式。何夢(mèng)嬌等[7]借助SVM模型對(duì)交通輿情主題進(jìn)行分類,基于Apriori算法分析關(guān)鍵詞隱含的交通規(guī)則,再利用共現(xiàn)網(wǎng)絡(luò)分析交通問(wèn)題與時(shí)間的變化規(guī)律。王心瑤等[8]通過(guò)內(nèi)容分析法對(duì)微博信息進(jìn)行歸類、情感值計(jì)算以及轉(zhuǎn)發(fā)路徑分析。謝修娟等[9]提出一種基于密度的K-Means初始聚類中心算法,解決初始聚類中心選取到孤立點(diǎn)易導(dǎo)致聚類結(jié)果局部最優(yōu)的不足。武帥等[10]運(yùn)用數(shù)據(jù)可視化及情感分析的方法對(duì)巴黎圣母院火災(zāi)事件的輿情信息進(jìn)行分析。張翼鵬等[11]提出一種改進(jìn)的細(xì)菌覓食算法,將網(wǎng)頁(yè)相關(guān)數(shù)值作為測(cè)量網(wǎng)頁(yè)熱度的度量,從而建立熱度評(píng)價(jià)模型,得到了更好的聚類效果。陳興蜀等[13]對(duì)“新冠肺炎疫情”相關(guān)的話題展開輿情分析,可視化地展現(xiàn)本次疫情事件中網(wǎng)絡(luò)輿情的時(shí)空演化過(guò)程。林永明[13]踟提出了一種輿情文本的動(dòng)態(tài)主題情感模型,能夠有效刻畫公眾所關(guān)注的話題及其情感變化,且效果顯著。
針對(duì)“新型肺炎疫情”熱點(diǎn)新聞和輿情話題的主題及情感難以辨別的問(wèn)題,本文提出了一種結(jié)合主題挖掘和情感分析的輿情分析方法。本文的實(shí)驗(yàn)數(shù)據(jù)集為2020年1月20日至3月22日期間在人民網(wǎng)發(fā)布的疫情相關(guān)新聞,共計(jì)1389篇。利用數(shù)據(jù)預(yù)處理、特征提取、詞云可視化技術(shù)挖掘目標(biāo)數(shù)據(jù)的熱點(diǎn)主題,再采用共詞分析、LDA主題模型、知識(shí)圖譜和情感分析算法對(duì)目標(biāo)數(shù)據(jù)進(jìn)行分析,挖掘輿情主題演化趨勢(shì)。最終得出該時(shí)間段的疫情相關(guān)新聞數(shù)據(jù)的總體情感趨向,各時(shí)間段的核心主題,以及隨時(shí)間變遷的主題演化過(guò)程和知識(shí)圖譜。
1 研究方法
1.1 算法總體流程
本文旨在分析“新冠肺炎疫情”的熱點(diǎn)主題和情感態(tài)勢(shì),其算法的總體流程如圖l所示。
(1)通過(guò)Python和Selenium技術(shù)自定義爬蟲抓取人民網(wǎng)“新冠肺炎疫情”相關(guān)的新聞,包括新聞標(biāo)題、新聞內(nèi)容、發(fā)布時(shí)間、新聞來(lái)源等信息。
(2)對(duì)所抓取的語(yǔ)料進(jìn)行數(shù)據(jù)預(yù)處理,包括中文分詞、停用詞過(guò)濾、特征提取、數(shù)據(jù)清洗等,再將預(yù)處理之后文本存入數(shù)據(jù)庫(kù)中。
(3)輿情分析包括三個(gè)核心模塊,計(jì)量分析涉及時(shí)間分布分析、空間分布分析、詞頻統(tǒng)計(jì);主題挖掘涉及LDA主題模型分析、共詞分析、知識(shí)圖譜構(gòu)建;情感分析涉及情感詞提取、貝葉斯模型和情感時(shí)間分布分析,最終得出實(shí)驗(yàn)結(jié)果。
1.2 數(shù)據(jù)采集及預(yù)處理
本文采集人民網(wǎng)關(guān)于“新冠肺炎疫情”相關(guān)的新聞1389篇,時(shí)間跨度為2020年1月20日至3月22日,從武漢市封城前到全國(guó)疫情基本控制共計(jì)9周的新聞數(shù)據(jù),詳細(xì)信息如表1所示。其中,八方支援專題125篇,各地動(dòng)態(tài)專題500篇,抗疫英雄專題127篇,權(quán)威解讀專題50篇,人民網(wǎng)評(píng)專題87篇,實(shí)況武漢專題200篇,一線守護(hù)專題200篇,疫情快訊專題100篇。
新聞數(shù)據(jù)采集完成之后,緊接著實(shí)施數(shù)據(jù)預(yù)處理操作。首先進(jìn)行缺失值處理、重復(fù)值刪除;再通過(guò)Python調(diào)用Jieba庫(kù)進(jìn)行中文分詞,并導(dǎo)入關(guān)鍵詞和停用詞字典完成停用詞過(guò)濾和數(shù)據(jù)清洗;最后進(jìn)行情感詞提取、TF-IDF計(jì)算、共詞分析等處理。通過(guò)數(shù)據(jù)預(yù)處理,實(shí)驗(yàn)?zāi)艿玫劫|(zhì)量更高、數(shù)據(jù)更完整的文本,從而為后續(xù)的實(shí)驗(yàn)提供有效支撐。
1.3 主題挖掘
主題挖掘(Topic Mining)旨在從海量文本信息中識(shí)別出關(guān)鍵詞、核心主題、情感分?jǐn)?shù)等,進(jìn)而實(shí)施文本挖掘、輿情分析和情感計(jì)算,其是數(shù)據(jù)挖掘、輿情分析領(lǐng)域的重要知識(shí)點(diǎn)[14]。主題模型通過(guò)計(jì)算概率來(lái)挖掘文本主題,常見的算法包括LSA和LDA,廣泛應(yīng)用于自然語(yǔ)言處理、引文文獻(xiàn)挖掘、情感傾向分析、社交網(wǎng)絡(luò)分析等領(lǐng)域[15]。
LDA(Latent Dirichlet Allocation)'16]是一種無(wú)監(jiān)督學(xué)習(xí)的主題概率生成模型,也被稱作三層貝葉斯概率模型,其是在pLSA模型的基礎(chǔ)上增加貝葉斯架構(gòu)模塊所形成的。
1.4 情感分析
情感分析是輿情研究中極為重要的部分,旨在從文本內(nèi)容中識(shí)別、抽取、分析及推理帶有情感色彩的主觀性文本。首先通過(guò)Jieba庫(kù)進(jìn)行中文分詞和數(shù)據(jù)預(yù)處理操作,調(diào)用自定義情感詞典進(jìn)行特征提取,并計(jì)算每個(gè)情感詞出現(xiàn)的頻數(shù)。接著采用已分好類的正面文本pos.txt和負(fù)面文本neg.txt進(jìn)行模型訓(xùn)練,并利用SnowNLP庫(kù)進(jìn)行情感分析,其核心算法是貝葉斯模型。最后按照時(shí)間順序加權(quán)平均每天的情感分?jǐn)?shù),采用PyEcharts庫(kù)繪制情感時(shí)間分布圖。
2 實(shí)證分析
2.1 計(jì)量分析
本文從時(shí)間維度和空間維度分析新冠肺炎疫情的影響。采用Python從人民網(wǎng)“眾志成城,抗擊疫情”專題抓取了全國(guó)新冠肺炎的病例數(shù)據(jù)(如圖2),詳細(xì)展示了截止2020年3月22日全國(guó)累計(jì)確診病例、疑似病例、累計(jì)治愈病例和累計(jì)死亡病例的情況。
圖3為2020年3月22日全國(guó)各地區(qū)新冠肺炎累計(jì)確診病例的可視化地圖。由圖可知,全國(guó)疫情最嚴(yán)重的的省份為湖北,疫情較嚴(yán)重的省份包括廣東、河南、浙江、湖南等,疫情較輕的省份包括青海、新疆、寧夏、吉林等,疫情最輕的省份為西藏。
2.2 主題挖掘
(1)詞云主題演化分析
詞云旨在凸顯文本中出現(xiàn)頻率較高的關(guān)鍵詞,在視覺(jué)上直觀呈現(xiàn)。本文采用WordCloud對(duì)“新冠肺炎疫情”新聞進(jìn)行詞云主題演化分析,以周為時(shí)間單位繪制圖4所示的“疫情”新聞主題演化圖。
由圖4可知,各時(shí)間段的核心主題詞均包括“疫情”,隨著時(shí)間的推移,“防控”也逐漸成為熱點(diǎn)話題。在前三周2020年1月20日至2月9日期間,新聞報(bào)道主要以疫情的蔓延情況為主,包括“疫情”、“感染”、“防控”、“病例”、“確診”、“新增”等主題詞,從側(cè)面說(shuō)明該段時(shí)間為“疫情”的擴(kuò)散期,初期還未能做到有效控制。在中間三周2020年2月10日至3月1日期間,新聞報(bào)道已由之前的“疫情”蔓延情況開始向“疫情”救治轉(zhuǎn)變,“防控”也成為重要的熱點(diǎn)話題,“醫(yī)院”、“醫(yī)療”、“支援”、“物資”、“武漢”、“社區(qū)”、“企業(yè)”等主題詞也清晰地呈現(xiàn),體現(xiàn)了我們國(guó)家“一方有難,八方支援”的精神,“眾志成城,共抗疫情”的決心,從側(cè)面說(shuō)明這段時(shí)期主要為“疫情”控制階段。在后三周2020年3月2日至3月22日期間,新聞報(bào)道逐漸開始向“疫情”穩(wěn)定控制進(jìn)行轉(zhuǎn)變,企業(yè)復(fù)工、社區(qū)服務(wù)、黨員活動(dòng)等主題漸現(xiàn),涉及的主題詞包括“社區(qū)”、“工作”、“企業(yè)”、“復(fù)工”、“黨員”、“黨建”“復(fù)產(chǎn)”等,從側(cè)面推測(cè)“疫情”得到穩(wěn)定控制,人民的日常生活逐漸向正常恢復(fù)。
(2) LDA-模型i題聚類
在基于LDA模型的主題聚類實(shí)驗(yàn)中,采用TFIDF技術(shù)計(jì)算特征詞的權(quán)重。該技術(shù)采用統(tǒng)計(jì)方法,根據(jù)特征詞在文本中出現(xiàn)的次數(shù)和在整個(gè)語(yǔ)料中出現(xiàn)的文檔頻率,來(lái)計(jì)算一個(gè)特征詞在整個(gè)語(yǔ)料中的重要程度。其優(yōu)點(diǎn)是能夠過(guò)濾掉一些常見的卻無(wú)關(guān)緊要的詞語(yǔ),同時(shí)保留影響整個(gè)文本的重要特征詞。計(jì)算方法如下。
本文通過(guò)LDA模型主題挖掘?qū)嶒?yàn),發(fā)現(xiàn)其主題數(shù)設(shè)置為3效果最佳。接著調(diào)用LDA模型訓(xùn)練得到每個(gè)模型內(nèi)的主題詞及對(duì)應(yīng)權(quán)重,最終聚類生成的效果圖如圖5所示,分別對(duì)應(yīng)新型肺炎及疫情擴(kuò)散、疫情防控及八方支援、企業(yè)復(fù)工及社區(qū)服務(wù)三個(gè)主題。
(3)共現(xiàn)知識(shí)圖譜分析
針對(duì)“新冠肺炎疫情”新聞主題關(guān)鍵詞的分析,本文提出一種基于共現(xiàn)矩陣和知識(shí)圖譜的分析方法,構(gòu)建各主題詞的關(guān)聯(lián)關(guān)系,從而更好地挖掘本次疫情的主題演化關(guān)系。采用Gephi構(gòu)建“新冠肺炎疫情”新聞的關(guān)鍵詞共現(xiàn)知識(shí)圖譜如圖6所示,共構(gòu)建了319個(gè)核心主題關(guān)鍵詞和1753條關(guān)系,其平均路徑長(zhǎng)度為2.257,最低共現(xiàn)權(quán)重為9,網(wǎng)絡(luò)直徑為5。通過(guò)知識(shí)圖譜將“新冠肺炎疫情”新聞相關(guān)的主題聚焦在一起,居于中心位置的是“疫情”和“防控”,其他的主題詞逐漸向邊緣分布擴(kuò)散。圖中左邊紫色區(qū)域?yàn)橐咔榉揽叵嚓P(guān)的主題詞及關(guān)系,右邊中心綠色區(qū)域?yàn)獒t(yī)院治療相關(guān)的主題詞及關(guān)系,右邊藍(lán)色區(qū)域?yàn)榉窝撞±嚓P(guān)的主題詞及關(guān)系,右上紅色區(qū)域?yàn)楹笔「魇锌h相關(guān)的主題詞及關(guān)系。其中“肺炎”和“確診”、“疫情”和“黨員”、“疫情”和“武漢”、“肺炎”和“防控”、“醫(yī)院”和“患者”、“肺炎”和“冠狀病毒”、“企業(yè)”和“復(fù)工”、“防控”和“黨建”等關(guān)鍵詞共現(xiàn)明顯,其連線較粗。
2.3 情感分析
本文通過(guò)自定義情感詞典提取疫情文本的情感特征詞,表2展示了排名前15的正面情感特征詞和負(fù)面情感特征詞。其中,正面情感特征詞出現(xiàn)的頻率及TFIDF值更高,“新冠肺炎疫情”新聞的整體情緒呈現(xiàn)積極態(tài)勢(shì)。正面情感特征詞包括“落實(shí)”、“健康”、“有效”、“重要”、“穩(wěn)定”等,負(fù)面情感特征詞包括“嚴(yán)重”、“緊缺”、“重大”、“貧困”、“緊張”、“嚴(yán)峻”等。
接著采用SnowNLP庫(kù)和貝葉斯模型進(jìn)行情感時(shí)間分布分析。當(dāng)結(jié)果為正數(shù)時(shí),情感表現(xiàn)為積極正面,值越高則情感積極性越高;當(dāng)結(jié)果為負(fù)數(shù)時(shí),情感表現(xiàn)為消極負(fù)面,值越低則情感消極性越高。
圖7為人民網(wǎng)“新冠肺炎疫情”新聞的情感時(shí)間分布結(jié)果,時(shí)間跨度為2020年1月20日至3月22日。該時(shí)段,新聞及群眾的態(tài)度趨于正面,共有55天情感分?jǐn)?shù)呈積極狀態(tài),有8天情感分?jǐn)?shù)呈消極狀態(tài)。新聞的整體情緒符合國(guó)家“一方有難,八方支援”的精神,體現(xiàn)中華民族“眾志成城,共抗疫情”的決心。
3 結(jié)束語(yǔ)
針對(duì)“新型肺炎疫情”熱點(diǎn)新聞和輿情話題的主題及情感難以辨別的問(wèn)題,本文提出了一種結(jié)合主題挖掘和情感分析的輿情分析方法。首先采用Python和Selenium抓取人民網(wǎng)2020年1月20日至3月22日期間共計(jì)1389篇“新冠肺炎疫情”相關(guān)的新聞,接著利用數(shù)據(jù)預(yù)處理、特征詞提取、詞云可視化展現(xiàn)與“新冠肺炎疫情”相關(guān)的熱點(diǎn)主題,再采用共詞分析、LDA模型、知識(shí)圖譜和情感分析算法挖掘輿情演化趨勢(shì)。
實(shí)驗(yàn)結(jié)果表明,本文提出的方法能有效地識(shí)別出疫情新聞的主題關(guān)鍵詞,挖掘疫情的主題演化規(guī)律,形成以“疫情”和“防控”為中心,其他關(guān)鍵詞擴(kuò)散的共現(xiàn)知識(shí)圖譜。同時(shí),此次疫情的情感呈現(xiàn)積極狀態(tài),九個(gè)時(shí)間段涉及疫情、防控、醫(yī)院、工作、服務(wù)等熱點(diǎn)主題。本文的方法能有效挖掘輿情事件的主題,歸納熱點(diǎn)新聞的演化規(guī)律和共現(xiàn)知識(shí)圖譜,為未來(lái)的災(zāi)害應(yīng)對(duì)、突發(fā)事件和輿情分析提供思路。
參考文獻(xiàn)(References):