楊 波,王繼周,毛 曦,馬維軍
(1. 遼寧工程技術(shù)大學(xué),遼寧 阜新 123000; 2. 中國測繪科學(xué)研究院,北京 100830)
突發(fā)事件,是指突然發(fā)生,造成或者可能造成嚴(yán)重社會危害,需要采取應(yīng)急處置措施予以應(yīng)對的自然災(zāi)害、事故災(zāi)難、公共衛(wèi)生事件和社會安全事件[1-3]。伴隨著國家經(jīng)濟(jì)和人口的不斷增長,各地的突發(fā)事件也與日俱增。像某地發(fā)生的跳樓事件、聚眾打架斗毆事件、野外求救等類似惡性事件屢見不鮮,這類應(yīng)急事件伴隨著發(fā)展周期短、影響惡劣以及即時性等特點(diǎn),其結(jié)果嚴(yán)重影響國家的人民安全和社會秩序。面對這類災(zāi)害性事件,應(yīng)急預(yù)案處理過程中并沒有相關(guān)的基礎(chǔ)地理信息的空間化數(shù)據(jù),而且由于報(bào)案人員語言描述的地理屬性信息并不規(guī)范。這給應(yīng)急處置帶來了巨大的工作壓力,同時也增加了應(yīng)急救援的難度和困難。本文針對以上問題提出了面向突發(fā)事件的地理信息空間化方法,其中基于應(yīng)急災(zāi)害事件的地名地址標(biāo)準(zhǔn)化方法請參考相關(guān)文獻(xiàn)[4—5],本文主要研究那些在基礎(chǔ)地理信息庫中沒有空間化信息的突發(fā)事件的地理信息空間化。
地理信息的空間化方法主要包括應(yīng)急地理信息匹配技術(shù)和應(yīng)急地理格網(wǎng)的空間化[6-9]?;谕暾刂纷R別的方法是將突發(fā)事件對應(yīng)的地址數(shù)據(jù)通過調(diào)用地圖服務(wù)來獲取空間化信息,由于數(shù)據(jù)處理簡單,也比較容易和其他統(tǒng)計(jì)數(shù)據(jù)結(jié)合,應(yīng)用比較廣泛,但是單純的獲取空間化信息卻忽略了地理實(shí)體之間的空間關(guān)系[10];基于格網(wǎng)的空間化方式雖然更加注重地理實(shí)體的空間關(guān)系,是現(xiàn)在地理信息科學(xué)研究的方向之一,但是其中涉及多個領(lǐng)域的知識,推理過程復(fù)雜,現(xiàn)在仍處于探索階段[11-12]?,F(xiàn)有的地理信息空間化技術(shù)為常見的地名命名實(shí)體識別技術(shù)提供了扎實(shí)的基礎(chǔ)。但是,面對眾源應(yīng)急事件,人們既需要分析地理信息的空間關(guān)系又需要及時、快速地獲取空間信息,尤其是獲取那些無法采用常用方法獲取的空間化信息。這類研究普遍有如下缺點(diǎn):
(1) 只是獲取常見地址的空間信息,沒有獲取不常見地址的空間信息。
(2) 只是單一的分析空間關(guān)系,沒有結(jié)合地名與空間信息來綜合分析空間關(guān)系。
(3) 對獲取的空間化信息,沒有構(gòu)建基于空間信息獲取的精度評估方法。
因此,本文通過分析科學(xué)的應(yīng)急地理信息空間化方法,提出了基于K-means算法的眾源應(yīng)急地理信息空間化研究。主要是通過應(yīng)急地理屬性和空間信息來分析突發(fā)事件的空間關(guān)系[13],包括眾源應(yīng)急地理信息在空間中的拓?fù)潢P(guān)系、方位關(guān)系及度量關(guān)系。研究目標(biāo)是解決通用地理信息空間化方法的不足,更重要的是為了解決應(yīng)急事件的精確定位的問題。當(dāng)相關(guān)應(yīng)急災(zāi)害發(fā)生時,該研究能夠?yàn)闆Q策者快速準(zhǔn)確地獲取到應(yīng)急災(zāi)害發(fā)生的場所,提高決策者的決策可行性與科學(xué)性,從而減少國家的人員與財(cái)產(chǎn)損失。
為了實(shí)現(xiàn)上述研究目標(biāo),本文提出了基于眾源應(yīng)急事件的地理信息空間化方法,其總體思路如圖1所示。
該技術(shù)框架有3個模塊:一是坐標(biāo)擬合模塊,主要是將那些無法使用常用工具及方法來空間化的應(yīng)急地理信息使用基于K-means算法進(jìn)行空間坐標(biāo)的擬合,從而補(bǔ)充普通方法空間化的不足;二是空間化模塊主要是將原有的應(yīng)急地理信息轉(zhuǎn)化為應(yīng)急空間信息,同時結(jié)合數(shù)據(jù)源中的應(yīng)急地址信息分析其空間關(guān)系,這里的數(shù)據(jù)源是經(jīng)過基于事件框架的信息提取和突發(fā)事件應(yīng)急處置的完整地址獲取之后的數(shù)據(jù),具體請參考相關(guān)文獻(xiàn);三是精度分析模塊,針對前兩個模塊進(jìn)行試驗(yàn)結(jié)果分析。這3個模塊相互關(guān)聯(lián),前一個模塊的運(yùn)行結(jié)果是后一個模塊的數(shù)據(jù)源,前一個模塊的結(jié)果也同時影響著后一個模塊的精度,對于各模塊的具體流程現(xiàn)分述如下。
圖1 總體技術(shù)流程
常見的地理信息的空間化方法有軌跡模擬空間化和統(tǒng)一坐標(biāo)均值空間化。軌跡模擬即通過規(guī)則圖形的路徑軌跡來預(yù)測未知地理位置的坐標(biāo),該方法使用與具有線狀軌跡關(guān)系的坐標(biāo)預(yù)測,但是當(dāng)遇到離散地理位置時,此方法則無用武之地;坐標(biāo)均值的方法是將已知的坐標(biāo)通過取其均值來獲取未知地理位置坐標(biāo),這種方法雖然可以簡單地獲取未知地理位置的坐標(biāo),但是該方法是對所有坐標(biāo)進(jìn)行均值求坐標(biāo),求取結(jié)果的誤差不可估量;在數(shù)據(jù)挖掘中,K-means是在圖形圖像處理中廣泛應(yīng)用的聚類算法[14-16],其核心是計(jì)算數(shù)據(jù)的聚集程度,通過不斷地取離中心點(diǎn)最近的均值坐標(biāo)來獲取最優(yōu)聚類解的算法[17]。K-means算法解決的問題如圖2所示,左側(cè)有離散應(yīng)急信息點(diǎn),可以很容易地判斷這是3個地址點(diǎn)群,但是如何通過計(jì)算機(jī)程序找到這3個地址點(diǎn)群,這是K-means能夠解決的問題。
圖2 K-means聚類分析
K聚類中心的準(zhǔn)則函數(shù)為
(1)
式中,Gj為第j個聚類;Nj為第j個聚類中心的樣本數(shù);Zj為第j個樣本的聚類中心。
算法步驟如下:
(1) 任選k個初始聚類中心Z1(l),Z2(l),…,Zk(l)。
(2) 計(jì)算每個樣本到k個聚類中心的距離,并按最近規(guī)則歸類;
(3) 從步驟(2)的計(jì)算結(jié)果計(jì)算新的聚類中心
(2)
式中,j=1,2,…,k,該聚類中心可以使準(zhǔn)則函數(shù)的Jj值達(dá)到最小。
(4) 若新的聚類中心與前一個聚類中心相等,即
Zj(k+1)=Zj(k)
(3)
式中,j=1,2,…,k。當(dāng)滿足式(3)的條件時,算法收斂,聚類結(jié)束;否則轉(zhuǎn)入步驟(2)。
該算法的執(zhí)行結(jié)果受所選的聚類中心的個數(shù)、初始位置、樣本的幾何性質(zhì)以及數(shù)據(jù)讀入的次序的影響。在對應(yīng)急地理信息空間化的應(yīng)用中可以結(jié)合實(shí)例只選擇一個聚類中心進(jìn)行聚類擬合。如果測試樣本為N個孤立的區(qū)域分布,則很容易得到算法的收斂結(jié)果。
本文以123 804個非空原始網(wǎng)頁為測試源樣本,精度評估參考的是信息檢索領(lǐng)域的經(jīng)典方法[18-19],即查準(zhǔn)率和查全率,詳細(xì)內(nèi)容請參考相關(guān)文獻(xiàn)?;诙嗑S度地理空間認(rèn)知模型的測試結(jié)果見表1。
表1 應(yīng)急地理信息空間化的試驗(yàn)分析
由試驗(yàn)可知,影響應(yīng)急地理信息空間化精度的主要誤差如下:
(1) 應(yīng)急災(zāi)害數(shù)據(jù)源存在一些噪聲,如應(yīng)急災(zāi)害的預(yù)防和災(zāi)害常識的科普性文章,這些文章中并不包含突發(fā)事件信息。
(2) 某些應(yīng)急災(zāi)害的描述文件中并不包含地名信息,而且本文的主要測試對象是中文地址,但數(shù)據(jù)庫中并未構(gòu)建國外地名數(shù)據(jù)庫信息,這是造成查準(zhǔn)率低的主要原因。
(3) 本文的測試對象構(gòu)建的是國內(nèi)三層行政區(qū)地名庫,包括省、市、縣地名結(jié)構(gòu),對于那些超出數(shù)據(jù)庫之外未能識別的應(yīng)急地址信息,本不在誤差的考慮范圍之內(nèi),但是考慮數(shù)據(jù)的真實(shí)可靠性,在計(jì)算時并沒有將其去除。如果去除這部分的噪聲樣本,綜合識別地址識別精度會更高。
(4) 在應(yīng)急地理信息的空間化過程中,由于地圖服務(wù)的超時鏈接所產(chǎn)生的噪聲,這也是本文誤差來源之一。
當(dāng)然,通過試驗(yàn)分析發(fā)現(xiàn),本文方法還不夠優(yōu)越,以后的應(yīng)急信息提取研究之路任重道遠(yuǎn)。本文的測試對象是中文地址,中文地址的命名規(guī)則是按照從大范圍到小范圍逐級遞減的結(jié)構(gòu)命名[20],這可能與非中文為母語的國家的地址命名存在差別。但是,本文的算法具有通用的參考價值,如以英語為母語的國家而言,他們國家的地址命名是從小到大的范圍逐漸擴(kuò)大的規(guī)則,此時只要調(diào)用相應(yīng)的地圖服務(wù)即可獲取應(yīng)急空間信息。通過應(yīng)急空間信息的精度評估,其綜合精度為81.94%,測試結(jié)果可靠,符合實(shí)際應(yīng)急相關(guān)部分的精度需要。
本文通過對國內(nèi)外常見的空間化方法進(jìn)行了對比總結(jié),在此基礎(chǔ)上指出了常見空間化方法的不足之處。在應(yīng)急測繪領(lǐng)域中,基于K-means算法的空間化是一種實(shí)際應(yīng)用中較為少見獲取應(yīng)急空間信息的方法。由于傳統(tǒng)的基礎(chǔ)地理信息并不直接等同于空間的位置信息,因此應(yīng)急地理信息的空間化正是解決這一問題的關(guān)鍵。通過以上研究實(shí)現(xiàn)了眾源應(yīng)急信息的空間化。將應(yīng)急屬性信息同空間位置信息進(jìn)行關(guān)聯(lián),提高了眾源應(yīng)急數(shù)據(jù)的空間化效率。當(dāng)然,本文的空間化方法仍有不足之處,還有待進(jìn)一步研究。