王晨雨,葉妍君,2,邱英俏,杜美慶
(1.河北工程大學(xué) 地球科學(xué)與工程學(xué)院,河北 邯鄲 056038; 2. 中國(guó)科學(xué)院地理科學(xué)與資源研究所資源與、環(huán)境信息系統(tǒng)國(guó)家重點(diǎn)實(shí)驗(yàn)室,北京 100101; 3. 山東正元數(shù)字城市建設(shè)有限公司,山東 煙臺(tái) 264670;4. 煙臺(tái)市智慧城市及物聯(lián)設(shè)施工程技術(shù)研究中心,山東 煙臺(tái) 264670)
地震是造成破壞最為嚴(yán)重的自然災(zāi)害之一,重大地震發(fā)生會(huì)對(duì)民眾的生命和財(cái)產(chǎn)安全構(gòu)成威脅,還會(huì)引發(fā)滑坡、泥石流等次生自然災(zāi)害[1-2],有效的災(zāi)害應(yīng)急管理和防災(zāi)減災(zāi)策略迫在眉睫。傳統(tǒng)的災(zāi)情信息獲取方式具有時(shí)間周期長(zhǎng)、工作量大、滯后于災(zāi)情等特點(diǎn),不能滿足政府開展實(shí)時(shí)性救援工作的需求。因此,震后黑箱期內(nèi)及時(shí)獲取災(zāi)情信息并采取有效應(yīng)急策略是救援部署工作開展的關(guān)鍵[3-5]。據(jù)中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心(China Internet Network Information Center, CNNIC)2021年9月15日發(fā)布的第48次《中國(guó)互聯(lián)網(wǎng)網(wǎng)絡(luò)發(fā)展?fàn)顩r報(bào)告》顯示[6]:截止2021年6月,我國(guó)網(wǎng)民達(dá)10.11億,互聯(lián)網(wǎng)普及率達(dá)71.6%,統(tǒng)計(jì)結(jié)果表明,隨著“互聯(lián)網(wǎng)+”時(shí)代的到來(lái),網(wǎng)絡(luò)使我們獲取信息的方式更便捷、更迅速,社交媒體平臺(tái)受到網(wǎng)友廣泛關(guān)注,人們可以通過(guò)互聯(lián)網(wǎng)社交平臺(tái)分享日常、發(fā)表觀點(diǎn)、互動(dòng)交流,社交媒體數(shù)據(jù)來(lái)源于公眾,這些數(shù)據(jù)背后隱藏的輿情信息反映了人的態(tài)度、情感傾向、社會(huì)行為,在進(jìn)行災(zāi)情研判和救援處置時(shí)更具針對(duì)性,CHENG等[7]基于2011年日本9.0級(jí)地震,將公眾和媒體對(duì)災(zāi)害的看法進(jìn)行研究,分析了地震對(duì)災(zāi)后感應(yīng)和行為產(chǎn)生的不同影響。社交媒體平臺(tái)—新浪微博以隨時(shí)隨地發(fā)布身邊事的特點(diǎn)獲得公眾認(rèn)可,2020年9月微博用戶月活躍量達(dá)5.11億,日活躍量達(dá)2.24億,網(wǎng)友可以在微博發(fā)表文字、圖片和視頻等,這種方便快捷的表述更加符合現(xiàn)代人的生活方式,還可以隨時(shí)隨地進(jìn)行留言、對(duì)來(lái)訪者的評(píng)論進(jìn)行回復(fù),具有良好的互動(dòng)性[8]。地震事件發(fā)生后,大量用戶在微博平臺(tái)發(fā)布言論,表達(dá)自己的情感、態(tài)度,海量數(shù)據(jù)匯集成為震后應(yīng)急救援開展的一手資料。
目前已有國(guó)內(nèi)外學(xué)者利用新浪微博數(shù)據(jù)研究地震事件,其成果主要包括實(shí)時(shí)地震系統(tǒng)構(gòu)建、災(zāi)情影響范圍、災(zāi)情時(shí)空分析等,鄭嶸等[9]基于微博數(shù)據(jù)構(gòu)建了災(zāi)害實(shí)時(shí)處理系統(tǒng),并在實(shí)際地震中驗(yàn)證了系統(tǒng)可行性;曹彥波等[10]基于微博數(shù)據(jù)挖掘四川九寨溝地震災(zāi)情信息并與實(shí)際災(zāi)評(píng)結(jié)果進(jìn)行空間對(duì)比,對(duì)救災(zāi)決策部署提供一定參考;徐敬海等[11]利用位置微博提取地震災(zāi)情的方法,實(shí)現(xiàn)了點(diǎn)集微博災(zāi)情向面狀災(zāi)情的轉(zhuǎn)化;SAKAKI等[12]使用支持向量機(jī)算法分析了日本地震相關(guān)推文。微博平臺(tái)是獲取災(zāi)害事件中公眾情緒的有效跟蹤工具,重大災(zāi)害的發(fā)生會(huì)使公眾產(chǎn)生恐懼、懷疑和悲傷等情緒,這種狀態(tài)不及時(shí)調(diào)節(jié)會(huì)給災(zāi)區(qū)民眾帶來(lái)不同程度的精神和心理問(wèn)題,可見災(zāi)后針對(duì)公眾情感情緒研究的重要性。楊騰飛等[13]基于深度學(xué)習(xí)算法抽取的情感信息結(jié)合時(shí)空信息為應(yīng)急救災(zāi)提供了一定參考;曹彥波[14]基于微博數(shù)據(jù)采用情感詞典與規(guī)則相結(jié)合的方法,分析了災(zāi)區(qū)民眾情感極性特征和情緒反映時(shí)空變化;萬(wàn)巖等[15]基于微博數(shù)據(jù)建立了一個(gè)新的情感分析模型,提高了細(xì)粒度情感分類的準(zhǔn)確率;林筱妍等[16]、張巖等[17]基于微博文本特征分析了臺(tái)風(fēng)事件公眾情感傾向,有助于政府掌握和引導(dǎo)災(zāi)害輿情;ALFARRARJEH等[18]、NEPPALLI等[19]利用多源社交媒體數(shù)據(jù)對(duì)桑迪颶風(fēng)等災(zāi)害進(jìn)行情感分析并可視化。
重大地震發(fā)生會(huì)給人們帶來(lái)極大精神壓力和心理傷害,產(chǎn)生不同程度的心理應(yīng)激反應(yīng),趙高鋒等[20]、羅興偉等[21]、范方等[22]和耿富雷等[23]通過(guò)大量調(diào)查研究發(fā)現(xiàn),震后民眾會(huì)出現(xiàn)心理失衡狀況,尤其會(huì)對(duì)地震親臨者的心理應(yīng)激情緒帶來(lái)重大影響,嚴(yán)重影響他們未來(lái)的生活,還可能產(chǎn)生負(fù)面社會(huì)心理效應(yīng),對(duì)社會(huì)穩(wěn)定構(gòu)成威脅[24-26]。一般情況下,地震對(duì)于我們來(lái)說(shuō)是短暫的、瞬時(shí)的,然而,這種災(zāi)害對(duì)于地震親臨者的傷害卻是持續(xù)的、長(zhǎng)期的,震后72 h生命黃金救援期也是心理救援的關(guān)鍵期。“5·12”汶川地震的救援工作,使人們深刻體會(huì)到災(zāi)后應(yīng)急管理和社會(huì)救援工作中心理干預(yù)的重要性,雖然此次地震的心理危機(jī)干預(yù)工作得到高度重視,但由于響應(yīng)機(jī)制缺失、缺乏專業(yè)隊(duì)伍,依然存在較多問(wèn)題[27],因此,針對(duì)震區(qū)心理危機(jī)干預(yù)方法的研究尤為重要,青少年作為震后災(zāi)區(qū)重點(diǎn)心理干預(yù)對(duì)象,災(zāi)后教育重建中應(yīng)加以重視[28],譚友果等[29]、胡麗等[30]和張曉林等[31]利用班級(jí)團(tuán)體結(jié)合個(gè)別輔導(dǎo)、體育鍛煉等方式對(duì)震區(qū)學(xué)生進(jìn)行干預(yù),同時(shí),一些針對(duì)地震災(zāi)區(qū)現(xiàn)場(chǎng)實(shí)施的心理干預(yù)方式也取得良好效果[32-37],楊一等[38]提出心理干預(yù)是一項(xiàng)長(zhǎng)期系統(tǒng)工作,應(yīng)構(gòu)建“醫(yī)院-學(xué)校-行業(yè)”等多元主體協(xié)同的專業(yè)化研究團(tuán)隊(duì);與此同時(shí),政府在心理危機(jī)干預(yù)中發(fā)揮了不可忽視的作用,政府的正確引導(dǎo)保障了社會(huì)救援的通暢,何江新等[39]、曹蓉等[40]和宋曉明等[41]學(xué)者已從事件預(yù)防、響應(yīng)、恢復(fù)等多方面為政府提出可行性建議。
為了應(yīng)對(duì)心理危機(jī)干預(yù)、了解公眾關(guān)注熱點(diǎn)、掌握并正確引導(dǎo)網(wǎng)絡(luò)輿論,如何從海量、非結(jié)構(gòu)化的微博文本信息中快速挖掘輿情信息,國(guó)內(nèi)外學(xué)者已從多方向進(jìn)行研究:LI等[42]基于微博數(shù)據(jù)利用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行文本信息提取,并應(yīng)用于武漢和深圳暴雨事件的監(jiān)測(cè)上;楊辰等[43]基于自然語(yǔ)言處理算法提取分析報(bào)警災(zāi)情描述信息,進(jìn)一步分析了氣象災(zāi)害的時(shí)空特征及致災(zāi)條件;WANG等[44]結(jié)合LDA模型和SVM算法對(duì)暴雨主題文本流進(jìn)行了分類;陳璦璦等[45]對(duì)社交媒體文本中的位置淺語(yǔ)義特征進(jìn)行提取,并與地理空間結(jié)合,對(duì)于場(chǎng)所感知和城市規(guī)劃有積極意義;譚永濱等[46]提出的微博文本位置信息識(shí)別與提取模型可進(jìn)行文本位置挖掘分析;王艷東等[47]提出的基于共詞網(wǎng)絡(luò)社區(qū)演化進(jìn)行災(zāi)情態(tài)勢(shì)感知方法可輔助了解災(zāi)情發(fā)展過(guò)程;馬瑩雪等[48]和蘇曉慧等[49]采用機(jī)器學(xué)習(xí)算法提取災(zāi)害熱點(diǎn)話題,為災(zāi)害應(yīng)急管理提供幫助,目前學(xué)者已從文本分類、信息抽取等方面進(jìn)行輿情分析,但對(duì)社交媒體數(shù)據(jù)中蘊(yùn)含的更細(xì)粒度地震主題信息提取并分類的研究存在不足。
本文以2021年5月21日“大理漾濞6.4級(jí)地震”事件為例,基于新浪微博數(shù)據(jù),研究了一種利用卷積神經(jīng)網(wǎng)絡(luò)(convolution neural network, CNN)提取地震主題信息并分類的方法,并將結(jié)果以地震主題時(shí)空演變特征可視化,為震后災(zāi)情研判、救援部署工作提供重要參考。
2021年5月21日云南漾濞發(fā)生6.4級(jí)地震,截至2021年5月22日15時(shí),此次地震共造成15.9萬(wàn)人受災(zāi),3人死亡、32人受傷,多處房屋開裂甚至倒塌,地震造成的坍塌和滑坡導(dǎo)致道路受損、交通中斷。因此,本文以漾濞彝族自治縣6.4級(jí)地震為研究對(duì)象,以大理白族自治州為研究區(qū)域,地震震中位于25.67°N,99.87°E,如圖1所示。
圖1 研究區(qū)域
漾濞6.4級(jí)地震在震后一段時(shí)間內(nèi)一直是新浪微博的熱點(diǎn)話題,并登上微博熱搜榜第一,震后人們反響強(qiáng)烈,紛紛在微博表達(dá)自己的態(tài)度、情感,期間網(wǎng)友發(fā)布的微博包含了大量與此次地震相關(guān)的輿情信息,如:救援信息、傷亡情況等。本文以新浪微博平臺(tái)為數(shù)據(jù)源,使用Python軟件爬取微博熱搜話題數(shù)據(jù),數(shù)據(jù)獲取形式為發(fā)布時(shí)間、用戶名、性別、位置、點(diǎn)贊數(shù)、博文內(nèi)容等,如表1所示,采集時(shí)間為震后48 h(2021年5月21日21時(shí)48分—23日21時(shí)48分),為解決爬取的數(shù)據(jù)重復(fù)率高、無(wú)關(guān)內(nèi)容多等問(wèn)題,使用Excel等統(tǒng)計(jì)軟件和人工判讀對(duì)數(shù)據(jù)進(jìn)行篩選、分類和統(tǒng)計(jì),最終獲取#大理漾濞6.4級(jí)地震#數(shù)據(jù)7972條。
表1 微博數(shù)據(jù)獲取格式
其中,地理定位為用戶發(fā)布微博時(shí)所處位置,以文本描述的形式存在,如:“大理·大理大學(xué)(古城校區(qū))”、“大理·大理古鎮(zhèn)”等,為了便于分析,需要將這些文本數(shù)據(jù)轉(zhuǎn)換為坐標(biāo)數(shù)據(jù)。通過(guò)Python語(yǔ)言編程,使用https://mapjiqrxxcom/jingweidu/網(wǎng)站中的位置轉(zhuǎn)坐標(biāo)功能,將地理位置轉(zhuǎn)換為地理坐標(biāo),如表2所示。研究區(qū)域?yàn)榇罄戆鬃遄灾沃?故表中展示了大理市部分地點(diǎn)坐標(biāo)。
表2 地理定位轉(zhuǎn)換結(jié)果示例
通過(guò)對(duì)微博文本進(jìn)行閱讀,并參照微博災(zāi)情信息分類指標(biāo)[50]、地震現(xiàn)場(chǎng)災(zāi)情信息分類代碼表[51]和位置微博地震災(zāi)情分類映射表[9],結(jié)合漾濞地震后災(zāi)區(qū)實(shí)際情況將地震文本分為正能量祈禱、動(dòng)作狀態(tài)、場(chǎng)景描述、預(yù)警信息、救援處置、震情信息和傷亡受災(zāi)七類主題,如表3所示。為滿足CNN模型訓(xùn)練的需要,每條微博文本通過(guò)人工標(biāo)注方式得到一個(gè)主題,即每條訓(xùn)練文本對(duì)應(yīng)一個(gè)地震主題。
表3 微博主題分類表
基于新浪微博數(shù)據(jù),利用構(gòu)建的卷積神經(jīng)網(wǎng)絡(luò)模型可從大量文本中識(shí)別出救援、傷亡和震情等與此次地震事件相關(guān)的信息;對(duì)地震數(shù)據(jù)集做分詞和去停用詞處理,構(gòu)建文本向量矩陣作為卷積神經(jīng)網(wǎng)絡(luò)的輸入層;通過(guò)不斷測(cè)試和優(yōu)化得到地震輿情信息提取結(jié)果,最后將訓(xùn)練完成后的模型應(yīng)用于新的地震數(shù)據(jù)集分類中。
隨著深度學(xué)習(xí)技術(shù)的發(fā)展,其已應(yīng)用于不同研究領(lǐng)域,如災(zāi)害信息自動(dòng)提取與分類[52]、空間情緒感知評(píng)價(jià)[53]等。常用的深度學(xué)習(xí)算法包括卷積神經(jīng)網(wǎng)絡(luò)(CNN)和循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural networks, RNN),RNN對(duì)信息分類是依據(jù)整個(gè)文本或文本間存在較長(zhǎng)的語(yǔ)義關(guān)系的詞語(yǔ)加權(quán)和,而CNN是將文本中具有明顯特征的關(guān)鍵詞或短語(yǔ)作為分類依據(jù)[54]。微博數(shù)據(jù)以短文本為主,具有口語(yǔ)化、碎片化等特點(diǎn),由于微博文本中包含了大量與地震輿情有關(guān)的特征詞,基于卷積神經(jīng)網(wǎng)絡(luò)構(gòu)建的多分類模型有較好的特征詞識(shí)別能力,且據(jù)研究CNN在文本分類中具有明顯優(yōu)勢(shì),且比較穩(wěn)定[55],因此,本文使用CNN提取地震輿情信息,圖2為主題信息提取流程。
圖2 地震主題信息抽取流程
2.1.1 微博文本特征信息獲取
文本向量矩陣是文本特征信息獲取的重要部分,主要思路為:
1)讀取地震主題相關(guān)語(yǔ)料庫(kù),使用結(jié)巴分詞工具對(duì)獲取的微博文本進(jìn)行分詞、去停用詞操作;停用詞是與本次研究無(wú)關(guān)、無(wú)實(shí)際意義的詞,比如“呀”、“啊”等語(yǔ)氣詞,“這些”、“那么”等沒有反映災(zāi)情的詞。
2)利用Python軟件Gensim包的word2vec模塊構(gòu)建Skip-gram模型生成詞向量空間。word2vec主要有Skip-gram和CBOW這2種模型,基于微博數(shù)據(jù)的特點(diǎn)Skip-gram模型適用于小語(yǔ)料庫(kù),在處理效果上更具優(yōu)勢(shì),該模型通過(guò)對(duì)大量文本進(jìn)行訓(xùn)練,可依據(jù)當(dāng)前詞計(jì)算出上下文的語(yǔ)義關(guān)系,并以向量的形式表示[56]。Word2vec依據(jù)語(yǔ)料庫(kù)使用Skip-gram模型進(jìn)行訓(xùn)練,得到詞向量空間。
3)將每條微博文本單獨(dú)分詞,這些詞對(duì)應(yīng)詞向量構(gòu)成了詞向量列表,根據(jù)列表轉(zhuǎn)換為文本矩陣。由于微博文本不超過(guò)140個(gè)字符,所以設(shè)置詞向量維度為140,文本中的詞匯從上向下排列,長(zhǎng)度不足的微博文本用“0”補(bǔ)齊,此方式解決窗口滑動(dòng)時(shí)會(huì)遇到文本長(zhǎng)短不一的問(wèn)題。文本向量矩陣如圖3所示。
圖3 微博文本向量矩陣結(jié)構(gòu)
2.1.2 卷積神經(jīng)網(wǎng)絡(luò)模型構(gòu)建與訓(xùn)練
本文構(gòu)建的卷積神經(jīng)網(wǎng)絡(luò)模型使用了基于Tensorflow的keras深度學(xué)習(xí)框架,卷積層和池化層沒有重復(fù)疊加,結(jié)果表明簡(jiǎn)單的模型可防止過(guò)擬合,達(dá)到最優(yōu)效果,如圖4所示。
圖4 用于文本分類的CNN結(jié)構(gòu)
1)輸入層:將每條地震災(zāi)害相關(guān)微博文本分詞嵌入詞向量中,變量x和y分別為地震災(zāi)害微博文本和地震主題類別,將訓(xùn)練文本對(duì)應(yīng)矩陣輸入到卷積層中。
2)卷積層:利用固定窗口的過(guò)濾器對(duì)嵌入的詞向量進(jìn)行卷積,過(guò)濾器的寬應(yīng)與詞向量維度一致,設(shè)置窗口大小,每次窗口覆蓋連續(xù)的幾個(gè)詞。卷積可提取相鄰的離散文本特征,如單一詞語(yǔ)“交通”、“中斷”,結(jié)合后的詞“交通中斷”作為新的特征詞出現(xiàn),突出了文本中的震情信息,這樣的詞還有很多,如“震感”和“明顯”等。
3)池化層:池化是對(duì)卷積操作后的結(jié)果進(jìn)一步篩選,常用的池化方法有最大池化和平均池化,研究表明,最大池化的效果比平均池化好[55]。本文使用最大池化使卷積后的輸出值作為池化層的輸入值,輸出矩陣中最大的元素,為卷積之后具有最明顯的特征。
4)全連接層和分類層:把池化層的結(jié)果做一個(gè)拼接,加一個(gè)reluctant非線性映射,對(duì)標(biāo)準(zhǔn)主題分類與拼接結(jié)果求一個(gè)交叉熵?fù)p失,損失值越小效果越好;使用Softmax函數(shù)計(jì)算輸入文本的主題類別,輸出每個(gè)主題可能的概率值,最終確定的地震主題為概率值最大的一類。
基于提取的地震主題類別,結(jié)合輔助輿情分析方法:熱度分析、關(guān)鍵詞挖掘和核密度估計(jì)等方法將震情可視化。
2.2.1 地震熱度分析方法
對(duì)地震輿情熱度進(jìn)行量化分析,統(tǒng)計(jì)每20 min內(nèi)有關(guān)地震事件的討論次數(shù),并結(jié)合不同時(shí)段的關(guān)鍵詞進(jìn)行分析,其中,微博話題熱度=微博點(diǎn)贊數(shù)+評(píng)論數(shù)+轉(zhuǎn)發(fā)數(shù),將每次微博用戶行為都視為一次熱度。
微博文本特征提取的方法有詞頻—逆文檔(TF-IDF)和信息熵等,本文使用Jieba分詞的TF-IDF算法進(jìn)行關(guān)鍵詞挖掘,計(jì)算公式為:
TF-IDF=TF×IDF=tfi,j×idfi
(1)
(2)
(3)
式中:tfi,j為頻率;ni,j為某個(gè)詞i在文本j中出現(xiàn)的次數(shù); ∑knk,j為數(shù)據(jù)集k中文本j包含特征詞i的總數(shù),tfi,j值越大表明該特征詞對(duì)文本的貢獻(xiàn)越大;idfi為逆文檔頻率,表示一個(gè)特征詞i在數(shù)據(jù)集k中出現(xiàn)的概率,主要用于降低一些常見卻對(duì)文檔影響不大的詞;N為數(shù)據(jù)集中文本總數(shù);Ni為數(shù)據(jù)集中包含特征詞i的文本總數(shù)。
2.2.2 情感分析方法
將大連理工大學(xué)信息檢索研究室研發(fā)的中文情感詞匯本體庫(kù)作為基礎(chǔ)詞典,綜合考慮句法對(duì)語(yǔ)義表達(dá)的影響,結(jié)合知網(wǎng)HowNet否定詞和程度副詞詞典,構(gòu)成一個(gè)新的地震輿情情感詞典。每個(gè)詞在每個(gè)情感下對(duì)應(yīng)一個(gè)極性,情感詞的情感極性有“正面、負(fù)面、中性”三類,情感極性大于0的賦值為1,代表正面情緒;情感極性等于0的直接作為中性情緒;情感極性小于0的賦值為-1,代表負(fù)面情緒,詞匯的情感值如式(4):
Sw=VwPw
(4)
式中:Sw為詞匯情感值;Vw為詞匯情感強(qiáng)度;Pw為詞匯情感極性。
(5)
Sk=∑Sentik
(6)
式中:k∈{1,2,3,4,5,6,7}分別為好、樂(lè)、哀、怒、懼、惡、驚7種情感;αki、βki分別為k類情感詞的強(qiáng)度和修飾該情感詞的程度副詞強(qiáng)度;n為否定詞個(gè)數(shù);N為情感詞個(gè)數(shù)。
2.2.3 核密度估計(jì)法
核密度估計(jì)(kernel density estimation, KDE)是一種基于非參數(shù)密度估計(jì)的對(duì)點(diǎn)要素進(jìn)行地理空間分析的方法[58],其幾何意義是以樣本點(diǎn)xi為中心,計(jì)算每個(gè)樣本點(diǎn)在指定半徑范圍內(nèi)的密度值,越靠近中心點(diǎn)處的密度越高。在地震主題研究中,核密度估計(jì)值越大地震主題在空間上的分布就越聚集,計(jì)算公式如式(7)[58]:
(7)
基于1.2節(jié)七類地震主題信息,人工閱讀并標(biāo)記了2100條帶有地理定位的數(shù)據(jù)做為訓(xùn)練樣本,每個(gè)主題對(duì)應(yīng)300條數(shù)據(jù),由于“傷亡受災(zāi)”類主題的微博數(shù)量不足300條,故從新浪微博爬取#青海發(fā)生7.4級(jí)地震#熱搜話題數(shù)據(jù)作為補(bǔ)充數(shù)據(jù)集,數(shù)據(jù)采集時(shí)間范圍為2021年5月22日2時(shí)4分—23日2時(shí)4分。將標(biāo)記的主題數(shù)據(jù)按5∶1劃分為卷積神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練集和測(cè)試集,訓(xùn)練樣本劃分為訓(xùn)練集和測(cè)試集以便構(gòu)建誤差最小的模型,保證每個(gè)地震主題的完整性。本次研究主題信息分類通過(guò)召回率(Recall)、準(zhǔn)確度(Precision)和綜合評(píng)價(jià)指標(biāo)(F1-score)值3個(gè)指標(biāo)進(jìn)行衡量,各項(xiàng)指標(biāo)計(jì)算公式如式(8)~式(10):
(8)
(9)
(10)
模型優(yōu)化是神經(jīng)網(wǎng)絡(luò)訓(xùn)練的重要步驟,通過(guò)多次迭代尋求最合適的參數(shù),其中,詞向量維度設(shè)為140,滑窗大小設(shè)置為3,丟棄正則化參數(shù)設(shè)為0.3,padding設(shè)為same,地震主題分類精度評(píng)估結(jié)果如表4所示,F1值處于精確度和召回率之間,數(shù)值達(dá)到85.4%,整體精確度達(dá)到89.7%,說(shuō)明模型在地震主題提取中有一定效果。
表4 文本主題分類精度評(píng)估
針對(duì)每個(gè)主題分別計(jì)算其精度評(píng)估結(jié)果,據(jù)漾濞地震評(píng)估結(jié)果:精確度、召回率和F1值都在80%以上,說(shuō)明大部分文本內(nèi)容可以被準(zhǔn)確識(shí)別。為了對(duì)模型進(jìn)行驗(yàn)證,從青海瑪多地震數(shù)據(jù)集中抽取800條人工標(biāo)記的微博數(shù)據(jù)作為驗(yàn)證集,對(duì)數(shù)據(jù)進(jìn)行分詞、去停用詞以及文本向量矩陣轉(zhuǎn)化等處理,將800條文本輸入主題分類模型中進(jìn)行分類,結(jié)果如表5所示,整體精度高于80%,主題“正能量祈禱”、“場(chǎng)景描述”、“震情信息”的精度達(dá)到90%,CNN模型在新的地震數(shù)據(jù)集上也有較好表現(xiàn),說(shuō)明分類器有自動(dòng)提取文本特征的能力,在災(zāi)害信息提取方面具有可行性。
表5 漾濞地震和青海地震主題信息精度評(píng)估結(jié)果
調(diào)用Python中的結(jié)巴分詞庫(kù)、詞頻統(tǒng)計(jì)庫(kù)等庫(kù)對(duì)獲取的地震數(shù)據(jù)進(jìn)行中文分詞和詞頻統(tǒng)計(jì),結(jié)合地震主題類別進(jìn)行分析,如圖5所示。主題“正能量祈禱”的微博數(shù)量最多,比例達(dá)38%;震后高頻形容詞“平安”出現(xiàn)3189次,位居第一,“希望”一詞出現(xiàn)1507次,與地震主題信息提取結(jié)果相符。
圖5 漾濞6.4級(jí)地震主題對(duì)應(yīng)微博數(shù)量及所占比例
如表6所示,主題“動(dòng)作狀態(tài)”占比25%,震后“下樓避險(xiǎn)”、“在籃球場(chǎng)中央瑟瑟發(fā)抖”、“手抖腳軟”等一系列動(dòng)作狀態(tài)表明當(dāng)時(shí)公眾害怕、惶恐不安。主題“場(chǎng)景描述”和“震情信息”分別占比15%和11%,結(jié)合震后高頻名詞和動(dòng)詞統(tǒng)計(jì)結(jié)果:“救援”一詞出現(xiàn)1693次、“應(yīng)急”一詞出現(xiàn)652次、“警報(bào)”一詞出現(xiàn)333次、“震感”一詞出現(xiàn)327次、“自救”一詞出現(xiàn)265次,表明無(wú)論何時(shí)我們都應(yīng)該提高警惕,面對(duì)突如其來(lái)的災(zāi)害不要慌張,公眾自身平時(shí)要多加防范;此次地震出現(xiàn)人員傷亡情況,政府及相關(guān)部門應(yīng)提高重視,宣傳防震避震知識(shí),并做好應(yīng)急措施以及預(yù)警預(yù)報(bào)。
表6 漾濞地震高頻特征詞統(tǒng)計(jì)(排名前15)
震后48 h地震微博熱度達(dá)到401360,以20 min為單位分析地震討論熱度(從地震發(fā)生后登上微博熱搜開始計(jì)算,20 min為劃分單元,以此類推),對(duì)圖中局部熱度峰值進(jìn)行關(guān)鍵詞分析,該峰值20 min內(nèi)對(duì)應(yīng)的微博博文作為分析對(duì)象,TF-IDF所得結(jié)果進(jìn)行標(biāo)注,如圖6所示。從圖中可看出,以20 min為劃分單元的輿情熱度時(shí)序討論與實(shí)際地震輿情時(shí)序變化相符,震后0~24 h一直保持較高的討論熱度,震后3 h是話題討論高峰期,熱度值最高的為中國(guó)地震臺(tái)網(wǎng)發(fā)布的官方震情、祈禱祝福、對(duì)震后救援的肯定、贊美;隨著地震事件在微博熱度減小,24~48 h 2次地震話題討論度明顯減少,余震發(fā)生時(shí)會(huì)出現(xiàn)小的起伏。以一天24 h為區(qū)間來(lái)看,熱度變化隨公眾日常作息呈現(xiàn)出規(guī)律性變化,凌晨0—6時(shí),輿情熱度逐漸迅速下降,凌晨6時(shí)之后,輿情熱度出現(xiàn)上升趨勢(shì);一天內(nèi)討論熱度最高時(shí)期為早晨7時(shí)前后和中午12時(shí)前后,晚上18時(shí)前后也會(huì)出現(xiàn)話題討論小高峰。
圖6 2021年5月21日21時(shí)48分—23日21時(shí)48分地震討論熱度
為了進(jìn)一步驗(yàn)證各類地震主題在實(shí)際減災(zāi)中的作用,通過(guò)統(tǒng)計(jì)每個(gè)地震主題的數(shù)量變化,得到各時(shí)段公眾對(duì)地震的響應(yīng)情況,有助于了解地震輿情發(fā)展規(guī)律。
本文對(duì)5月21日21∶48—5月23日21∶48時(shí)間段之間的數(shù)據(jù)進(jìn)行時(shí)序分析,震后每個(gè)主題隨時(shí)間變化的趨勢(shì),如圖7所示,直觀反映了地震輿情基本情況和發(fā)展規(guī)律。從圖中可知,大部分微博主題數(shù)量隨地震事件發(fā)生經(jīng)歷了較大起伏,震后數(shù)小時(shí)微博數(shù)量居高不下,余震發(fā)生后微博數(shù)量也會(huì)出現(xiàn)小高峰,說(shuō)明基于微博數(shù)據(jù)抽取地震主題與實(shí)際地震發(fā)生階段相符??傮w來(lái)看,白天時(shí)段微博發(fā)布量略高于在晚上時(shí)段,呈現(xiàn)出“晝多夜少”的特征,地震發(fā)生后的6 h和次日上午微博數(shù)量最多,夜間和下午微博發(fā)布量相對(duì)較少;隨著時(shí)間推移熱度降低,5月23日微博發(fā)布數(shù)量明顯減少,之后一段時(shí)間基本沒有發(fā)布量?!罢芰科矶\”和“動(dòng)作狀態(tài)”2個(gè)主題的微博數(shù)量最多,震后地震親臨者和網(wǎng)友紛紛在微博傳播正能量信息,相互鼓勵(lì),提醒大家注意安全并宣傳轉(zhuǎn)發(fā)防震自救等相關(guān)微博; 發(fā)布 “場(chǎng)景描述”和“震情信息”的微博發(fā)布量也較多, “震情信息”類微博在余震發(fā)生后會(huì)有所上升。22∶49∶00用戶名為“婷婷婷婷婷在這呢”發(fā)布微博:“一晚上震十幾次 我真的太慌了 救命SOS 看見整棟樓都在搖 我真的怕了!”此條微博包含了場(chǎng)景描述信息“整棟樓都在晃”和震情信息“一晚上震好幾次”以及地震親臨者的感受“慌”和“怕”。“救援處置”類微博數(shù)量增多趨勢(shì)晚于“傷亡受災(zāi)”類微博主題,隨著救援工作持續(xù)進(jìn)行,救援和傷亡信息逐漸減少,民眾情緒得到平復(fù)。此次大理漾濞地震震級(jí)較大,影響范圍廣,存在人員傷亡,通過(guò)不同的地震主題變化趨勢(shì),有助于從多角度分析震后輿情演變。
圖7 2021年5月21日21時(shí)48分—23日21時(shí)48分地震主題時(shí)序變化
為了直觀地震后公眾輿情態(tài)勢(shì),運(yùn)用地理統(tǒng)計(jì)分析方法,篩選出大理白族自治州范圍內(nèi)帶有地理定位的微博數(shù)據(jù),對(duì)網(wǎng)友發(fā)布的微博進(jìn)行解析發(fā)現(xiàn),微博數(shù)量空間分布總體呈現(xiàn)出不均衡的特征,大理白族自治州微博數(shù)量最高的地區(qū)為大理市,其次為發(fā)震地點(diǎn)漾濞彝族自治縣,距離震中較遠(yuǎn)的鶴慶縣、南澗彝族自治縣微博數(shù)量最少。主要原因是大理市經(jīng)濟(jì)發(fā)達(dá),信息傳播快,有大理古城、蒼山洱海等著名景區(qū),當(dāng)?shù)孛癖姾屯鈦?lái)旅客聚集,公眾對(duì)熱點(diǎn)事件關(guān)注度高,震后通訊設(shè)施未受到重大破壞,微博數(shù)量較多;漾濞彝族自治縣附近地區(qū)由于無(wú)線電通訊設(shè)備受損,信號(hào)中斷,影響震區(qū)民眾與外界聯(lián)系,加之人口密度低,微博發(fā)布量較少。
由圖8微博核密度空間分布可知,漾濞地震輿情高值區(qū)為大理市,距離震中較近的漾濞彝族自治縣城區(qū)、區(qū)域a、區(qū)域b的核密度值也較高;區(qū)域c、區(qū)域d、區(qū)域e、區(qū)域f雖遠(yuǎn)離震中,但也表現(xiàn)出較周圍區(qū)域更高的密度分布,震后災(zāi)區(qū)開展應(yīng)急管理時(shí),地震輿情高值區(qū)可為政府把握輿情信息、合理分配救災(zāi)物資提供重要參考,加強(qiáng)對(duì)該區(qū)域的地震監(jiān)測(cè)和震情管理可在震后黑箱期內(nèi)預(yù)防意外發(fā)生。
圖8 2021年5月21日21時(shí)48分—23日21時(shí)48分地震輿情空間分布
帶有定位的微博數(shù)據(jù)包含了地理位置,一條微博文本對(duì)應(yīng)一個(gè)地震主題類別,故每條微博可被認(rèn)為是帶有一個(gè)主題的實(shí)體點(diǎn)。4.2節(jié)微博主題時(shí)序變化,抽取微博數(shù)量最高的3個(gè)時(shí)段:21日21時(shí)—22日3時(shí)、22日6時(shí)—22日12時(shí)、22日17時(shí)—22日23時(shí)作為研究對(duì)象,結(jié)合3個(gè)時(shí)段對(duì)應(yīng)情感類別分析地震輿情。
如圖9(a)所示震后第一個(gè)時(shí)段,該時(shí)段微博主題數(shù)量多且分布范圍廣,具有分散性,整個(gè)大理白族自治州除云龍縣和鶴慶縣都有分布,主要集中在大理市和震中附近,地震主題以“正能量祈禱”和“動(dòng)作狀態(tài)”為主;永平縣和賓川縣出現(xiàn)主題“救援處置”,抽取這一時(shí)間段微博主要關(guān)鍵詞:“云南”、“震中”、“大家”、“余震”等,表明此次地震對(duì)公眾的影響較大,漾濞6.4級(jí)地震前后,又發(fā)生數(shù)次余震,此時(shí)網(wǎng)友的情緒主要表現(xiàn)為恐懼、憤怒,分別占比17%、14%,懷疑情緒占比達(dá)10%,如圖10所示,人們比較擔(dān)心是否還會(huì)有重大地震和余震發(fā)生,震后部分網(wǎng)友通過(guò)關(guān)注中國(guó)地震臺(tái)網(wǎng)、云南省地震局等官方微博了解最新震情。如圖9(b)所示震后第二個(gè)時(shí)段,地震主題主要集中在大理市,“震情信息”、“動(dòng)作狀態(tài)”和“場(chǎng)景描述”等主題明顯減少,云龍縣、彌渡縣、劍川縣出現(xiàn)“正能量祈禱”主題,結(jié)合關(guān)鍵詞“抗震”、“避震”、“救援”、“安好”等可知,震后公眾情緒逐漸恢復(fù),祝愿和安心情感占比增加,懷疑和恐懼情感占比明顯減少;震中附近區(qū)域和大理市還存在主題“救援處置”,結(jié)合關(guān)鍵詞“搶險(xiǎn)”、“救援”、“帳篷”等表明震區(qū)還需要一些應(yīng)急物資,這是震后對(duì)個(gè)人需求的滿足,是對(duì)震后精準(zhǔn)救援的直接反饋。震后第三個(gè)時(shí)段見圖9(c),各類主題信息明顯減少并聚集在大理市,公眾發(fā)布正能量祈禱信息居多,結(jié)合關(guān)鍵詞“平安”、“安好”、“希望”等可知,震后人們“祝平安”“報(bào)平安”為災(zāi)區(qū)祈禱,互相鼓勵(lì)、安慰;如圖10所示,從情感占比角度看,祝愿和安心情感達(dá)59%,從側(cè)面說(shuō)明了公眾對(duì)震后救援取得成效的肯定;值得注意的是,該時(shí)段悲傷情感占比21%,雖然震后救援保障了災(zāi)區(qū)民眾生命安全,但地震造成的持續(xù)性心理傷害卻沒有減退,因此,將地震主題信息與公眾情感相結(jié)合有助于政府關(guān)注震區(qū)情況及公眾的心理變化,為震后災(zāi)區(qū)應(yīng)急管理提供一定參考。
圖9 不同時(shí)段地震主題的空間分布
圖10 不同時(shí)段各情感類型占比
2021年5月24日,云南省地震局發(fā)布了云南漾濞6.4級(jí)地震烈度圖,此次地震的最大烈度為VIII度(8度),對(duì)大理白族自治州6個(gè)縣市造成嚴(yán)重影響。將主題信息與地震影響場(chǎng)、交通路網(wǎng)等數(shù)據(jù)結(jié)合(所涉及的交通路網(wǎng)數(shù)據(jù)根據(jù)高德地圖的路網(wǎng)柵格底圖矢量化得到),分析不同類別地震主題在應(yīng)急管理中的作用。如圖11所示,地震主題主要集中在震中所在的漾濞彝族自治縣、大理市、祥云縣、賓川縣等縣城、鄉(xiāng)鎮(zhèn)及道路沿線區(qū)域,呈條帶狀和團(tuán)塊狀分布:條帶狀即主要沿交通路網(wǎng)分布,通過(guò)大理市的214國(guó)道、連接大理市和漾濞彝族自治縣的215國(guó)道,保證了震后救援的通達(dá)性;大理市、永平縣和賓川縣等地區(qū)的微博呈團(tuán)塊狀分布在城區(qū)附近。通過(guò)地震烈度區(qū)可以確定地震影響范圍,在烈度VIII度區(qū)內(nèi),漾濞縣城受此次地震影響最大,出現(xiàn)最多的主題為“正能量祈禱”和“救援處置”,由于距離震中近,震感強(qiáng)烈,地震造成的破壞較嚴(yán)重,應(yīng)劃為震后救援重災(zāi)區(qū),秀嶺村及西北部發(fā)布的“救援處置”信息最多,震中多山環(huán)繞的復(fù)雜地形可能會(huì)加劇二次災(zāi)害發(fā)生,也加大了救援工作難度,因此,震后應(yīng)根據(jù)主題“救援處置”的位置做出應(yīng)急響應(yīng),以減少人員傷亡。在烈度VII度區(qū)內(nèi),太平鄉(xiāng)以及平坡鎮(zhèn)附近村莊發(fā)布的主題多為“正能量祈禱”、“動(dòng)作狀態(tài)”。在烈度VI度區(qū)內(nèi),大理市的主題信息分布最為密集,大理古城、大理蒼山世界地質(zhì)公園、太邑彝族鄉(xiāng)、村落瓦世恒等附近均出現(xiàn)主題“正能量祈禱”和“動(dòng)作狀態(tài)”,震后公眾“抱頭”、“下樓避險(xiǎn)”、“打開手機(jī)”等一系列動(dòng)作反應(yīng)表明震后公眾自救意識(shí)強(qiáng),這與政府日常宣傳防震抗震自救等知識(shí)密切相關(guān)?;ń敷渌淼篮碗p廊鎮(zhèn)附近出現(xiàn)主題“場(chǎng)景描述”,結(jié)合微博內(nèi)容多為游客發(fā)布的輿情信息,5月21日23時(shí)49分,微博用戶名為“有妖眸的巫婆”發(fā)文稱“雙廊古鎮(zhèn)感受強(qiáng)烈,震了好幾次,最明顯的那次整個(gè)地都在晃”,可見當(dāng)時(shí)雙廊鎮(zhèn)震感明顯,器物、建筑物出現(xiàn)明顯晃動(dòng)。在烈度VI度區(qū)外,村落白馬廟和廟前村出現(xiàn)主題“救援處置”,東山國(guó)家森林公園均出現(xiàn)主題“動(dòng)作狀態(tài)”,大甘莊出現(xiàn)主題“傷亡受災(zāi)”,救援醫(yī)療隊(duì)?wèi)?yīng)在震后第一時(shí)間趕往該區(qū)域,進(jìn)行傷亡救援。利用同樣的方法可為其他災(zāi)區(qū)災(zāi)情監(jiān)測(cè)、應(yīng)急處置提供決策依據(jù)。
圖11 地震影響場(chǎng)主題信息空間分布
本文基于微博平臺(tái)爬取包含文本、時(shí)間、位置的數(shù)據(jù),通過(guò)人工判讀和數(shù)據(jù)處理軟件對(duì)數(shù)據(jù)進(jìn)行結(jié)構(gòu)化整理,便于后期分析研究。結(jié)合災(zāi)情信息分類知識(shí)閱讀微博文本,判別不同類型的地震主題信息,對(duì)帶有地理定位的數(shù)據(jù)集進(jìn)行標(biāo)記。以2021年5月21日“大理漾濞6.4級(jí)地震”事件為例,構(gòu)建了一個(gè)基于CNN模型的主題信息提取流程框架,通過(guò)設(shè)置不同參數(shù)對(duì)模型進(jìn)行優(yōu)化訓(xùn)練,整體精度達(dá)到80%以上,各個(gè)主題精度也達(dá)到預(yù)期效果。將新獲取的青海地震數(shù)據(jù)集輸入模型進(jìn)行驗(yàn)證,2次地震驗(yàn)證結(jié)果說(shuō)明,該模型在災(zāi)害主題信息提取中具有可行性,最后將地震輿情可視化,得出以下結(jié)論:
1)時(shí)序變化:地震主題時(shí)序變化反映了震后各階段輿情關(guān)注點(diǎn)的變化,大部分地震主題隨地震事件的發(fā)生產(chǎn)生較大起伏,主題“正能量祈禱”數(shù)量最多,比例達(dá)38%,余震發(fā)生后微博數(shù)量會(huì)出現(xiàn)小高峰,總體呈現(xiàn)出“晝多夜少”的特征,與實(shí)際地震發(fā)生階段相符。
2)空間特征:地震主題信息分布范圍廣,具有分散性;隨著時(shí)間推移,地震事件在微博的熱度逐漸消退,更多主題信息集中在大理市。不同市(縣)區(qū)域?qū)Φ卣鹬黝}的關(guān)注度不同,越靠近震中公眾對(duì)地震事件的響應(yīng)程度越高。微博數(shù)量除與地震事件影響范圍外,還與經(jīng)濟(jì)水平、交通便捷程度、人口密度有密切關(guān)系。
本文提出的利用卷積神經(jīng)網(wǎng)絡(luò)提取地震主題信息并分類的方法,對(duì)地震主題進(jìn)行了更細(xì)粒度劃分,這些地震主題信息是人本身對(duì)災(zāi)后輿情的直接反饋,深入挖掘主題信息有助于把握公眾輿情傾向,彌補(bǔ)震后心理危機(jī)干預(yù)快速增長(zhǎng)的需求,更有針對(duì)性的安撫受災(zāi)民眾,疏解重大災(zāi)害帶來(lái)的心理恐慌,提高公眾心理應(yīng)急能力,提升社會(huì)救援效率,為震后災(zāi)情研判、救援部署提供重要參考,同時(shí),也為其他地區(qū)災(zāi)害事件監(jiān)測(cè)和應(yīng)急管理提供新思路。結(jié)合各時(shí)段文本關(guān)鍵詞、公眾情感情緒有助于政府關(guān)注震區(qū)情況及公眾的心理變化,為震區(qū)應(yīng)急管理提供參考。
盡管此研究方法在救援減災(zāi)中具有很好的效果,但還存在一些不足:僅僅依靠微博數(shù)據(jù)分析地震輿情具有單一性,后期可將手機(jī)信令、抖音等多源數(shù)據(jù)綜合考慮進(jìn)行分析;震后并非每位網(wǎng)友發(fā)布微博時(shí)都會(huì)開啟定位,導(dǎo)致用于空間分析的地理位置數(shù)據(jù)不全面,后期考慮智能化算法提取文本中可能包含的位置信息。