曹彥波++吳艷梅++許瑞杰++張方浩
摘要:提出了基于微博輿情信息的震后有感范圍快速判定技術框架,構建了微博輿情數據的獲取方法和技術流程。根據中國地震烈度表和地震現(xiàn)場工作調查規(guī)范,將微博特征詞與地震災情速判指標進行關聯(lián)匹配,建立微博災情信息分類指標體系,通過自然鄰點空間插值方法將離散分布的微博災情點轉化為連續(xù)分布的災情面,形成震后災區(qū)有感范圍的時空變化特征分布圖,輔助災情快速判定。以2014年景谷66級地震為例,進行探索和實踐。結果表明:在震后1~2 h內,微博用戶活躍度高,信息量大且豐富,對信息充分挖掘有助于對災情的宏觀把握,對救災決策部署有一定的參考意義,彌補了傳統(tǒng)獲取技術時效性差、數據量少、覆蓋面小等問題。
關鍵詞:微博輿情數據;災情判定;有感范圍提取
中圖分類號:P315941文獻標識碼:A文章編號:1000-0666(2017)02-0303-08
0引言
地震發(fā)生后,災情信息的快速獲取、處理、分析和研判是各級黨委政府、各級抗震救災指揮部成員單位部署抗震救災工作,派遣救援力量、調配救災物資的關鍵環(huán)節(jié),尤其是震后2 h的黑箱期內,如何快速判定災區(qū)影響范圍災情時空分布、震害規(guī)模、強度等是地震應急災情快速獲取及服務的關鍵(聶高眾等,2012)。目前,在震后有感范圍確定方面,主要有以下幾個途徑:一是通過“三網一員”、政府、地震部門應急人員電話、傳真,網站災情填報等方式獲取災情,繪制有感范圍圖;二是根據烈度衰減模型快速計算生成地震影響場來預估災區(qū)范圍和強度(汪素云等,2000;王景來,宋志峰,2001;張方浩等,2016a);三是基于智能手持采集終端(PDA、12322、IOS/Andrio手機端APP等)獲取地震信息,生成有感范圍分布圖(鄭黎輝等,2012;陳維鋒,2014;章熙海等,2014);四是通過網絡爬蟲在網站上獲取災情信息,通過地址匹配、空間定位解析后插值生成有感范圍分布圖(帥向華等,2009,2013;胡素平,帥向華,2012;楊天青等,2016)。在實際地震應急中,上述幾種途徑在信息獲取的時效性、獲取效率、信息量、空間范圍上存在一定的局限性,短時間內都難以全面客觀地反應災區(qū)有感范圍的強度和分布,“互聯(lián)網+”時代的來臨為我們在震后災情快速獲取方面提供了一種新的解決思路。
根據中國互聯(lián)網絡信息中心(CNNIC)發(fā)布的《第38次中國互聯(lián)網絡發(fā)展狀況統(tǒng)計報告》顯示,截至2016年6月,中國網民規(guī)模達710億,互聯(lián)網普及率為488%,手機網民規(guī)模達656億,微博客用戶242億。從統(tǒng)計數字可以看出,隨著移動互聯(lián)網技術的飛速發(fā)展,數量眾多的個人成為信息傳播的重要載體。相對于手機信令、浮動車、微信等數據,以新浪微博為代表的新興社交平臺具有實時性、互動性、強擴散、空間分布廣泛性等特點,微博數據可以在互聯(lián)網上被免費、公開地獲?。莸?,2011;劉經南等,2014;仇培元等,2016)。尤其是在破壞性地震發(fā)生后數小時內,大量與地震相關的信息發(fā)布并廣泛傳播,匯集形成海量數據,包括用戶賬號、發(fā)布時間、經緯度坐標、博文、圖片、微視頻、關注熱點等,這些數據中包含有地震災情信息,如震感、人員傷亡、房屋破壞、生命線工程破壞、地震地質災害等(王松等,2014;何宗宜等,2015;徐敬海等,2015)。通過對這些微博“大數據”進行充分挖掘、分析、表達和應用,能客觀地反映災情時空演變規(guī)律,輔助地震災情快速研判,服務政府應急救援決策。[HJ]
本文根據微博輿情數據特點和傳播特性,研究如何利用微博輿情數據分時段提取地震有感范圍,并以2014年景谷66級地震為例進行應用檢驗。
1研究技術框架
當破壞性地震發(fā)生后,首先根據地震三要素信息,通過微博API調用、關鍵字檢索、網絡爬蟲、專業(yè)地理抓取等技術手段,實時獲取微博用戶發(fā)布的信息,信息主要來源于新浪、騰訊、網易、人民網等主流網站微博用戶,對這些信息進行存儲管理,形成結構化的數據庫。其次,對微博數據進行解析、去重,提取有效信息,包括微博發(fā)布時間、博文內容、圖片、空間經緯度坐標等,并對核心博文內容進行中文分詞、清洗等挖掘處理,提取與地震災情相關的特征詞,根據相關標準和規(guī)則對微博數據與地震烈度判定的描述性信息進行關聯(lián)匹配,建立微博地震災情信息分類表。最后,以微博災情節(jié)點為基礎進行空間插值,將離散分布的災情點轉化為連續(xù)分布的災情有感范圍圖,描述災情時空演變規(guī)律,輔助災情研判。具體研究技術框架如圖1所示。
2微博數據獲取
微博數據獲取方式有網絡爬蟲技術和調用微博官方API接口兩種途徑,基于網絡爬蟲技術獲取信息的基本流程是通過設定入口URL地址,按照一定的爬行策略將網頁內容保存,并提取網頁中有效地址作為下一次爬行的入口URL地址,直到爬行完畢。由于地震災情信息抽取和空間定位要求,該方式信息獲取效率不高,空間地理位置還需通過地名規(guī)則、地址匹配技術進行解析獲取,另外,多次訪問有賬號屏蔽風險(廉捷等,2011)。因此,本文以當前用戶基數較大的新浪微博為例,注冊認證后獲取調用新浪微博的API權限,通過調用相關API,解析服務器返回的JSON數據文檔獲取微博信息,該方式微博信息獲取時效性高,數據格式清晰,便于數據的存儲和解析。微博數據獲取技術流程如圖2所示。
[BT(12]3微博數據分析表達
31微博數據分析處理[BT)]
面對海量的微博信息“大數據”,為提高數據挖掘效率和準確率,需對原始數據進行解析、去重,提取微博的發(fā)布時間、內容、圖片、經緯度坐標等有效信息,并對核心博文內容進行中文分詞、清洗等挖掘處理,濾掉一些頻繁出現(xiàn)而意義又不大的詞,比如“的”“就”“是”“和”等語氣助詞、副詞、介詞和連詞,提取與地震災情相關的特征詞、熱詞,對微博災情信息進行分類和編碼,具體流程如圖3所示。
對微博信息進行數據挖掘完成后,建立微博與地震災情信息分類映射是微博災情可視化表達的關鍵環(huán)節(jié)。通過對2014年云南地區(qū)70余次地震新浪微博博文內容進行解析,提取主體特征詞,從結果分析看,震后與地震相關的內容,主體集中于人的反應、器物反應方面,約占統(tǒng)計的70%以上,房屋破壞、人員傷亡、生命線工程破壞的信息以及地震地質破壞方面的較少。依據《中國地震烈度表》《地震現(xiàn)場工作第3部分——調查規(guī)范》等相關標準,將微博信息與地震災情描述性信息進行關聯(lián)匹配,建立了微博災情分類表(表1)(曹彥波等,2010;張方浩等,2016b)。
32微博數據可視化表達
微博數據的空間可視化表達是實現(xiàn)分析災情時空演變規(guī)律的基礎,震后獲取到的微博災情數據往往是在地理上分布不規(guī)則的離散數據,為了能夠更直觀地了解地震災情時空分布特征,需以這些微博數據點為基礎進行空間插值。常用的空間插值算法有反距離加權插值法(Inverse Distance to a Power)、克里金插值法(Kriging)、最小曲率插值法(Minimum Curvature)、樣條函數插值法、Shepard插值法和自然鄰點插值方法(Natural Neighbor Interpolation)等(高洋,張健,2005)。本文將采用自然鄰點插值方法來處理高度離散化分布的不規(guī)則微博災情節(jié)點,通過插值擬合來描述災情空間尺度上的變化特征。
由于震區(qū)絕大部分微博用戶群體是一般公眾,個人震感不一,對災情的描述也有差別,為方便對微博災情節(jié)點進行空間插值,使擬合出來的有感范圍更接近實際,基于中國地震局工程力學研究所提出的“等震線長短軸半徑與烈度對應經驗關系”,計算微博災情位置距震中的距離,根據距離震中遠近對微博數據進行分級賦值,共分7級:1代表有感區(qū),對應烈度表的Ⅳ度區(qū);2代表輕微區(qū),對應Ⅴ度區(qū);3代表輕度區(qū),對應Ⅵ度區(qū);4代表中度區(qū),對應Ⅶ度區(qū);5代表重災區(qū),對應Ⅷ度區(qū);6代表極重災區(qū),對應Ⅸ度區(qū);7代表巨災區(qū),對應Ⅹ度及以上(表2)。
4微博數據應用實踐
[KG(0.2mm]2014年10月7日21時49分39秒,云南省普洱市景谷傣族彝族自治縣發(fā)生66級地震,震中位于(234°N,1005°E),震源深度50 km。這是進入新世紀以來云南省發(fā)生的震級最大的一次地震,影響范圍廣,引起較多的微博用戶關注。筆者通過調用新浪API,以本次地震震中位置為中心,150 km為搜索半徑,數據采集時段為震后24 h。共獲取到1 231條微博信息,經過清洗篩選后剩余281條與本次地震相關的災情信息,包括人的反應信息178條,器物反應信息56條,房屋破壞信息15條,其他信息26條。發(fā)布這些信息的微博用戶地理位置上主要分布在普洱市、臨滄市、西雙版納州3個州(市)的16個縣(區(qū)),震中附近區(qū)域震感強烈,微博活躍用戶群體主要集中在永平鎮(zhèn)、距離震中較近的景谷縣城威遠鎮(zhèn)以及人口密集的普洱市主城區(qū)(圖4)。[KG)]
從災情數據分類結果來看,在震后24 h內,災情描述信息以人的反應和器物反應為主,占總信息條數的83%,而房屋破壞、地震地質、生命線破壞等情況描述較少,不到20%,主要因為微博用戶群體以一般公眾為主,博文的內容主體集中在微博用戶自身所處環(huán)境的感覺、表情、心情和身邊器物反應的描述,對于其他如房屋破壞、地震地質,生命線破壞等比較專業(yè)的災情描述不是很多(圖5)。
從震后24 h內的微博災情數據分時段統(tǒng)計結果看,大量的信息集中在震后2 h,共發(fā)布145條,占總條數的50%左右,第一條微博信息發(fā)布于2014年10月7日21時56分32秒,也就是震后3 min,發(fā)布的內容為“就在1分鐘前,地震了,好恐怖[淚],這個美麗的地方又地震了”,地理位置是(101043 5°N,230588 8°E),距離本次震中64 km(圖6)。對獲取到的數據進行分析挖掘,提取特征詞庫,擬合形成了震后10 h災情演變時空特征分布圖(表3,圖7)。
來自Ⅵ度區(qū)以外的臨翔區(qū)和思茅區(qū),景谷縣城附近震感強烈,周邊的景東、墨江、景洪、勐海、孟連、滄源有感,根據該圖,可幫助決策部門在較短時間內把握宏觀災情的空間分布和重點救助區(qū)域的初步判斷。震后1~4 h,隨著救援力量、救災物資的投人,災區(qū)社會秩序逐步恢復,災民得到救助和轉移安置,通信恢復正常,微博粉絲活躍度逐漸增加,信息發(fā)布量增多,有感范圍增大,但震感較強烈的區(qū)域還是在震中附近。震后8 h,隨著救援行動的進一步深入,震中永平鎮(zhèn)附近也發(fā)布有10多條相關的微博災情信息,災情進一步明朗,空間分布上主要集中在永平鎮(zhèn)和威遠鎮(zhèn)一帶,強有感區(qū)邊界也較清晰明顯。震后10 h,微博災情有感范圍基本與實際地震烈度范圍一致。
5結語
“互聯(lián)網+”時代背景下,微博等新興社交平臺產生的“大數據”信息豐富、多變、復雜,充分挖掘利用這些數據,對震后有感范圍提取,災情快速判定提供了新的研究方法和技術實現(xiàn)途徑。本文提出了基于微博輿情數據的震后有感范圍快速判定的技術框架,詳細論述了微博輿情數據的獲取方法和技術流程,根據《中國地震烈度表》和《地震現(xiàn)場工作第3部分——調查規(guī)范》等規(guī)范,將微博主體特征詞與地震烈度判定的描述性信息進行關聯(lián)匹配,建立了微博地震災情信息分類表,采用自然鄰點方法將微博災情節(jié)點通過插值擬合來描述地震有感范圍時空變化特征。最后以景谷66級地震為例獲取了震后微博災情數據,對災情數據進行了分析處理,生成有感范圍時空演變圖,對于決策部門震后快速把握災情提供了一種可行和有效的途徑。但在實際地震應用中,應將微博擬合結果與衰減模型烈度、儀器烈度、震源機制、破裂過程等信息進行對比分析和綜合判定,提供更科學、合理的決策建議。
參考文獻:
曹彥波,李永強,胡秀玉2010地震現(xiàn)場災情信息編碼體系研究[J].地震研究,33(3):344-348
陳維鋒,郭紅梅,張翼,等2014四川省地震災情快速上報接收處理系統(tǒng)[J].災害學,29(2):116-122
仇培元,陸鋒,張恒才,等2016蘊含地理事件微博客消息的自動識別方法[J].地球信息科學學報,18(7):886-893
高洋,張健2005基于自然鄰點插值的數據處理方法[J].中國科學院研究生院學報,22(3):346-351
何宗宜,苗靜,彭將,等2015結合微博數據挖掘的時空特征分析[J].測繪通報,(10):60-64
胡素平,帥向華2012網絡地震災情信息智能處理模型與地震烈度判定方法研究[J].震災防御技術,7(4):420-430
廉捷,周欣,曹偉,等2011新浪微博數據挖掘方案[J].清華大學學報:自然科學版,51(10):1300-1305
劉經南,方媛,郭遲,等2014位置大數據的分析處理研究進展[J].武漢大學學報:信息科學版,39(4):379-385
聶高眾,安基文,鄧硯2012地震應急災情服務進展[J].地震地質,34(4):783-789
帥向華,侯建盛,劉欽2009基于地震現(xiàn)場離散點災情報告的災害空間分析模擬研究[J].地震地質,31(2):321-333
帥向華,胡素平,鄭向向2013地震災情網絡媒體獲取與處理模型研究[J].自然災害學報,(3):178-184
汪素云,俞言祥,高阿甲,等2000中國分區(qū)地震動衰減關系的確定[J].中國地震,16(2):99-106
王景來,宋志峰2001地震災害快速評估模型[J].地震研究,24(2):162-167
王松,吳亞東,李秋生,等2014基于時空分析的微博演化可視化[J].西南科技大學學報,29(3):68-75
徐敬海,褚俊秀,聶高眾,等2015基于位置微博的地震災情提取[J].自然災害學報,24(5):12-18
楊天青,席楠,張翼,等2016基于離散災情信息的地震烈度分布快速判定方法研究[J].地震,36(2):48-59
張方浩,和仕芳,呂佳麗,等2016b基于互聯(lián)網的地震災情信息分類編碼與初步應用研究[J].地震研究,39(4):664-671
張方浩,蔣飛蕊,李永強,等2016a云南地區(qū)地震烈度評估模型研究[J].中國地震,32(3):572-583
章熙海,宋法奇,胡曉榮,等2014基于PDA的地震災情信息流動采集系統(tǒng)的設計與實現(xiàn)[J].地震,34(2):131-137
鄭黎輝,黃聲明,林巖釗,等2012基于智能手機的地震災情快速上報系統(tǒng)的設計與實現(xiàn)[J].國際地震動態(tài),(6):164-164