王艷東,阮詩斯
(1.測(cè)繪遙感信息工程國家重點(diǎn)實(shí)驗(yàn)室,湖北 武漢 430079;2.地球空間信息技術(shù)協(xié)同創(chuàng)新中心,湖北 武漢 430079)
隨著Web2.0以及相應(yīng)技術(shù)的推進(jìn),社交媒體已成為人們生活中必不可少的一部分,改變了傳統(tǒng)的信息傳播模式,使得信息能在短時(shí)間內(nèi)迅速擴(kuò)散[1]。帶有地理坐標(biāo)的社交媒體數(shù)據(jù)可被認(rèn)為是自發(fā)性地理信息(VGI),具有時(shí)效性強(qiáng)、數(shù)據(jù)量大等特點(diǎn),已成為越來越多的有關(guān)地震災(zāi)害管理研究的數(shù)據(jù)來源[2-3]。
以開放式移動(dòng)信息發(fā)布平臺(tái)Twitter為例,帶有GPS的Twitter數(shù)據(jù)包含了豐富的位置和語義信息,是近年來探測(cè)地震災(zāi)害信息領(lǐng)域的研究熱點(diǎn)。參考文獻(xiàn)[4]~[9]將Twitter視為一種混合傳感器系統(tǒng)對(duì)地震災(zāi)害事件進(jìn)行預(yù)警與監(jiān)測(cè),其中Earle P S[4]等開發(fā)了帶有地理坐標(biāo)的有關(guān)損害或人員傷亡等消息的推文,能幫助有關(guān)應(yīng)急決策部門在地震發(fā)生時(shí)啟動(dòng)應(yīng)急響應(yīng);Sakaki T[8-9]等建立了一個(gè)能找到事件位置中心的目標(biāo)事件概率時(shí)空域模型,利用粒子濾波器來估計(jì)目標(biāo)事件位置。參考文獻(xiàn)[10]~[13]利用推文主題時(shí)空變化趨勢(shì)來探索地震災(zāi)害的發(fā)展趨勢(shì)和空間分布規(guī)律,從而分析災(zāi)情狀況。目前,大多數(shù)研究都基于文本分析、時(shí)序分析和熱點(diǎn)分析等方法探測(cè)地震應(yīng)急信息,忽略了地震發(fā)生后短時(shí)間內(nèi)社交媒體數(shù)據(jù)中所蘊(yùn)含的空間分布傳感價(jià)值。
本文以從Twitter上獲取的數(shù)據(jù)為例,旨在探討地震事件發(fā)生后,如何快速從社交媒體數(shù)據(jù)中探測(cè)應(yīng)急信息。首先利用描述性統(tǒng)計(jì)法分析了數(shù)據(jù)的時(shí)序特征;然后從空間分析的角度對(duì)數(shù)據(jù)進(jìn)行不同維度的可視化,探究數(shù)據(jù)的時(shí)空分布模式,從中分析地震影響范圍;最后與美國地質(zhì)調(diào)查局的官方數(shù)據(jù)進(jìn)行對(duì)比,以評(píng)估Twitter探測(cè)災(zāi)害事件時(shí)空應(yīng)急信息的能力。
從Twitter中可方便獲取單一來源信息,且具有傳感價(jià)值[14]。若將每條帶有發(fā)文時(shí)間和經(jīng)緯度坐標(biāo)位置信息的推文視為一個(gè)帶有位置信息的傳感值,事件檢測(cè)就可簡(jiǎn)化為基于傳感器讀數(shù)的位置檢測(cè)。由于智能手機(jī)將越來越密集化,且聚集在特定事件中最感興趣的地方,因此Twitter的傳感價(jià)值將越來越高。地震發(fā)生后,將帶有GPS的推文視為傳感器讀數(shù),從其空間屬性出發(fā),探索其中包含的時(shí)空應(yīng)急信息,能為應(yīng)急決策提供依據(jù)。
為了提高平臺(tái)的影響力和吸納更多的用戶,Twitter對(duì)平臺(tái)以及用戶以外的第三方開放了數(shù)據(jù)訪問接口(https://dev.twitter.com/overview/api/tweets)。使用 API采集的數(shù)據(jù)分為兩種:一種是以一組關(guān)鍵字為話題,搜集與突發(fā)事件相關(guān)的推文;另一種是以事發(fā)地為中心,指定搜索半徑,搜集事發(fā)地周圍的推文。本文以“4.25尼泊爾地震”為例,通過Twitter開放平臺(tái)API實(shí)時(shí)采集了距離地震中心(28.2E,84.7N)1 609.3 km范圍內(nèi),北京時(shí)間2015年4月25日14時(shí)到2015年4月29日10時(shí)的包含“earthquake”關(guān)鍵字的18 131條JSON格式的Twitter數(shù)據(jù),其有4 903條帶有GPS位置信息。
本節(jié)對(duì)數(shù)據(jù)量隨時(shí)間變化的發(fā)展過程進(jìn)行描述性統(tǒng)計(jì)分析,了解采集數(shù)據(jù)的情況。圖1展示了搜集與地震相關(guān)Twitter數(shù)據(jù)的統(tǒng)計(jì)結(jié)果,可以發(fā)現(xiàn),圖中推文峰值出現(xiàn)的時(shí)間與表1中統(tǒng)計(jì)的該次地震發(fā)生后一系列余震發(fā)生的時(shí)間有良好的對(duì)應(yīng)。表1中4月25日14時(shí)、20時(shí)以及26日7時(shí)、11時(shí)和15時(shí)尼泊爾發(fā)生地震時(shí),圖1中對(duì)應(yīng)的時(shí)間點(diǎn)A、B、C、D、E正好是推文數(shù)量的峰值。北京時(shí)間4月27日0時(shí)發(fā)生的地震,在圖1中對(duì)應(yīng)F點(diǎn),微博趨勢(shì)線延遲1 h達(dá)到最高點(diǎn),F(xiàn)點(diǎn)延遲的原因在于該次地震發(fā)生在尼泊爾當(dāng)?shù)貢r(shí)間4月26日23時(shí),此時(shí)Twitter總體參與人數(shù)不多或人們反應(yīng)時(shí)間較慢。整體結(jié)果可以說明,在地震發(fā)生后,推文數(shù)據(jù)流的特點(diǎn)能反映地震所處的不同階段。
圖1 Twitter數(shù)據(jù)量統(tǒng)計(jì)圖
表1 “4.25尼泊爾地震”信息表
將這些點(diǎn)狀數(shù)據(jù)進(jìn)行可視化能了解相關(guān)推文在空間上的熱點(diǎn)分布區(qū)域和規(guī)律,從而有利于對(duì)災(zāi)害事件的時(shí)空信息進(jìn)行探測(cè)。圖2為采集到的4 903條帶有GPS信息的地震推文在地圖上的直觀顯示,可以發(fā)現(xiàn),除了尼泊爾上方區(qū)域(中國地區(qū),Twitter未開放)外,推文以震中為中心,向外呈發(fā)散狀;且推文在震中(84°43' E,28°14' N)、尼泊爾首都加德滿都(85°19'E,27°42'N)以及距震中約730 km的印度首都新德里(77°13' E,28°37' N)處較為密集,熱點(diǎn)位置主要分布在震中、加德滿都、新德里以及印度其他的一些大型城市。
圖2 推文空間分布圖
地震發(fā)生后短時(shí)間內(nèi)的推文相當(dāng)于是反應(yīng)地震信息的一條傳感值,其中包含著有用的時(shí)空信息,因此本文對(duì)地震發(fā)生后600 s內(nèi)的237條帶有GPS的地震推文進(jìn)行時(shí)空分析,探索其中的應(yīng)急信息。
圖3 600 s推文三維時(shí)空反應(yīng)格局圖
圖3中每個(gè)點(diǎn)代表一條推文,顏色從藍(lán)到紅代表距離震中由近到遠(yuǎn)。X軸為經(jīng)度,Y軸為緯度,Z軸為反應(yīng)時(shí)間,即指推文發(fā)布時(shí)間與震中發(fā)震時(shí)間之差,是體現(xiàn)推文對(duì)該事件反應(yīng)的一個(gè)指標(biāo)。每條推文分別映射到相應(yīng)的X-Y、Y-Z、X-Z三個(gè)投影面上,顏色保持不變。在推文映射的X-Y投影面上可以觀察到,映射點(diǎn)由震中向外呈擴(kuò)散狀;分析X-Z和Y-Z兩個(gè)投影面可以發(fā)現(xiàn),推文的時(shí)空分布存在明顯的聚集,在經(jīng)度為76°~78°之間和緯度為28°~29°之間的位置,以及經(jīng)度為88°~90°之間和緯度為22°~23°之間的位置一直有連續(xù)不斷的推文產(chǎn)生。產(chǎn)生該現(xiàn)象的原因是印度首都新德里和印度三大城市之一的加爾各答分布在此,二者均為人口密度聚集區(qū),也是Twitter使用密度較高的區(qū)域。相比之下,同樣是人口密集分布且推文分布多的尼泊爾首都加德滿就沒有出現(xiàn)類似推文連續(xù)分布的狀況,這是由于加德滿都受該次地震影響十分嚴(yán)重,短時(shí)間內(nèi)該區(qū)域的人們更多地關(guān)注實(shí)際地震情況,而不是在社交媒體上發(fā)布數(shù)據(jù)。同時(shí),從圖中也能發(fā)現(xiàn)反應(yīng)較快的推文都分布在震中附近。
為了更加直觀地了解這些數(shù)據(jù)對(duì)該次地震反應(yīng)出的空間格局,圖4展示了推文對(duì)該地震事件的距離—時(shí)間反應(yīng)模式,橫軸表示推文發(fā)文地點(diǎn)與震中的距離,縱軸表示推文的反應(yīng)時(shí)間,每個(gè)點(diǎn)代表相應(yīng)的推文,可以發(fā)現(xiàn),距震中約950 km的紅線標(biāo)志閾值區(qū)域,左邊推文聚集,右邊推文分散。閾值區(qū)域左右推文數(shù)據(jù)流的時(shí)空模式顯然不同。小于該距離時(shí)(紅線左側(cè)),推文在空間和時(shí)間有很高的聚集性,而大于該距離時(shí)(紅線右側(cè)),只有零星的推文參考數(shù)據(jù);且在距離達(dá)到閾值前,每個(gè)距離發(fā)布最快的推文的反應(yīng)時(shí)間幾乎隨距離的增大而呈線性增長(zhǎng),這種變化趨勢(shì)與地震影響強(qiáng)度隨距離增大而變?nèi)跻恢?,距離超過閾值后,這一趨勢(shì)結(jié)束,甚至發(fā)生相反情況。本文估計(jì)距震中950 km的閾值可能與受該次地震影響的區(qū)域范圍有關(guān),該范圍將與美國地質(zhì)調(diào)查局(USGS)數(shù)據(jù)進(jìn)行對(duì)比。
圖4 600 s推文二維時(shí)空反應(yīng)格局圖
本文利用從USGS網(wǎng)站獲取的官方數(shù)據(jù)對(duì)Twitter數(shù)據(jù)的可靠性以及探測(cè)到的地震影響區(qū)域閾值進(jìn)行評(píng)估。USGS不僅提供了專業(yè)的“地震速報(bào)圖”,即重大地震災(zāi)害發(fā)生后提供震動(dòng)烈度可視化分布圖,而且提供了以眾包方式收集的官方調(diào)查數(shù)據(jù),用以修正地震烈度圖,相當(dāng)于來自世界各地的傳感器數(shù)據(jù)。
圖5展示了Twitter數(shù)據(jù)和官方數(shù)據(jù)對(duì)比情況。圖5a展示了Twitter數(shù)據(jù)核密度分布狀況以及探測(cè)到的影響范圍閾值(藍(lán)色圈),圖5b展示了USGS網(wǎng)站上的官方數(shù)據(jù)。圖5b中紅色矩形區(qū)域內(nèi)為官方數(shù)據(jù)提供的該次地震烈度可視化分布圖,顯示了4級(jí)以上的烈度分布范圍(加德滿都周圍約400 km),正對(duì)應(yīng)圖5a矩形區(qū)域中Twitter數(shù)據(jù)分布最密集的地方。同時(shí),圖5b中官方調(diào)查數(shù)據(jù)的熱點(diǎn)分布位置也正是Twitter熱點(diǎn)分布位置(紅色圓圈區(qū)域),二者均集中分布在人口密度較大的城市,如新德里、勒克瑙、加爾各答等;且圖5a中的閾值范圍,與圖5b中的官方調(diào)查數(shù)據(jù)探測(cè)到的最低震級(jí)邊緣較為吻合。
圖5 Twitter 數(shù)據(jù)與官方數(shù)據(jù)可視化圖
綜上所述,在地震發(fā)生后,通過分析Twitter數(shù)據(jù)時(shí)空分布模式能夠探測(cè)到地震時(shí)空應(yīng)急信息,以提高對(duì)周遭環(huán)境的敏感性以及認(rèn)識(shí)與應(yīng)對(duì)災(zāi)害事件的能力。
社交媒體正迅速成為傳播地理信息的新途徑,災(zāi)害發(fā)生后,社交媒體能提供及時(shí)的信息來補(bǔ)充數(shù)據(jù)來源,以提高人們對(duì)環(huán)境的敏感性以及認(rèn)識(shí)與應(yīng)對(duì)災(zāi)害事件的能力。本文主要通過對(duì)從Twitter上采集的有關(guān)“4.25尼泊爾地震”的帶有GPS信息的數(shù)據(jù)進(jìn)行可視化和時(shí)空分析,探索了其中包含的時(shí)空應(yīng)急信息;并利用官方數(shù)據(jù)評(píng)估了獲取信息的質(zhì)量。結(jié)果表明,能夠從Twitter信息中提取時(shí)空應(yīng)急信息,從而快速識(shí)別地震影響區(qū)域,提高人們的感知能力。今后需進(jìn)一步關(guān)注社交媒體數(shù)據(jù)的質(zhì)量,對(duì)數(shù)據(jù)的來源、質(zhì)量和價(jià)值進(jìn)行人工評(píng)估。