郭紅梅 陳維鋒 張 瑩 申 源
(四川省地震局,成都 610041)
基于規(guī)則引擎與空間聚類(lèi)分析的多源地震災(zāi)情數(shù)據(jù)清洗策略研究1
郭紅梅 陳維鋒 張 瑩 申 源
(四川省地震局,成都 610041)
通過(guò)研究不同來(lái)源地震災(zāi)情數(shù)據(jù)匯集處理過(guò)程中的數(shù)據(jù)清洗技術(shù),利用數(shù)據(jù)挖掘中基于規(guī)則引擎與空間聚類(lèi)分析相結(jié)合的方法檢測(cè)多源災(zāi)情數(shù)據(jù)存在的錯(cuò)誤、不完整和重復(fù)等問(wèn)題并進(jìn)行修正,提高災(zāi)情數(shù)據(jù)質(zhì)量。以清洗后的災(zāi)情數(shù)據(jù)為基礎(chǔ),運(yùn)用ArcGIS空間插值對(duì)離散災(zāi)情點(diǎn)進(jìn)行總體分析和模擬,從而快速反映并確定地震災(zāi)情的總體分布情況,為地震應(yīng)急救災(zāi)工作提供更可靠、形象的災(zāi)情分布信息。文中以四川省地震災(zāi)情快速上報(bào)接收處理系統(tǒng)在四川省蘆山“4·20”7.0級(jí)強(qiáng)烈地震中,通過(guò)多種災(zāi)情獲取手段獲取到的包括主觀震感、客觀震感、房屋破壞、交通系統(tǒng)破壞等共1330條災(zāi)情信息為例進(jìn)行處理和分析,共檢測(cè)出不合理災(zāi)情數(shù)據(jù)717條,其中剔除696條,修正21條,清洗后的災(zāi)情數(shù)據(jù)空間分布和模擬結(jié)果與實(shí)際考察形成的烈度圈吻合度良好。
多源地震災(zāi)情信息 數(shù)據(jù)清洗 規(guī)則引擎 信息融合 空間聚類(lèi)
郭紅梅,陳維鋒,張瑩,申源,2015.基于規(guī)則引擎與空間聚類(lèi)分析的多源地震災(zāi)情數(shù)據(jù)清洗策略研究.震災(zāi)防御技術(shù),10(4):892—901.doi:10.11899/zzfy20150407
地震應(yīng)急工作是一項(xiàng)準(zhǔn)軍事化行動(dòng),成敗的關(guān)鍵在于能否在最短的時(shí)間內(nèi)做出科學(xué)合理的決策并付諸行動(dòng)(聶高眾等,2012)??茖W(xué)合理的決策需要正確災(zāi)情信息的支撐,因此,地震災(zāi)情信息的獲取和處理是地震應(yīng)急工作的關(guān)鍵環(huán)節(jié)。隨著科學(xué)技術(shù)的發(fā)展,震后快速獲取海量災(zāi)情信息變的可能,但由于災(zāi)情信息來(lái)源的多樣性,獲取到的原始災(zāi)情信息往往包含了大量的“臟數(shù)據(jù)”,譬如信息重復(fù)、不完整、邏輯錯(cuò)誤等(蘇桂武等,2003)。如何快速檢測(cè)出災(zāi)情數(shù)據(jù)中存在的質(zhì)量問(wèn)題,提高災(zāi)情數(shù)據(jù)質(zhì)量,是現(xiàn)階段地震應(yīng)急工作中急需解決的關(guān)鍵問(wèn)題之一(白仙富等,2010)。
數(shù)據(jù)清洗是指使用一系列的邏輯規(guī)則或數(shù)據(jù)挖掘技術(shù)等多種方法從大量原始數(shù)據(jù)中檢測(cè)出臟數(shù)據(jù),并對(duì)臟數(shù)據(jù)采取修復(fù)或丟棄動(dòng)作,從而提高數(shù)據(jù)質(zhì)量的過(guò)程。目前,國(guó)外對(duì)災(zāi)害領(lǐng)域數(shù)據(jù)清洗的研究主要是通過(guò)引入數(shù)據(jù)挖掘方法,如應(yīng)用聚類(lèi)方法檢測(cè)異常記錄,模型方法發(fā)現(xiàn)不符合現(xiàn)有模式的記錄,關(guān)聯(lián)規(guī)則方法發(fā)現(xiàn)數(shù)據(jù)集中不符合具有高置信度和支持度規(guī)則的異常數(shù)據(jù)來(lái)檢測(cè)并消除異常及近似重復(fù)記錄等(王曰芬等,2007)。國(guó)內(nèi)對(duì)數(shù)據(jù)清洗技術(shù)的研究起步較晚,針對(duì)地震災(zāi)情中的數(shù)據(jù)質(zhì)量問(wèn)題,有專(zhuān)家和學(xué)者采用了包括統(tǒng)計(jì)分析方法、簡(jiǎn)單的規(guī)則庫(kù)、經(jīng)典偶然誤差處理模型等多種方法進(jìn)行了部分?jǐn)?shù)據(jù)的清理與校驗(yàn)。
四川省地震災(zāi)情快速上報(bào)接收處理系統(tǒng)的建成,使得在短時(shí)間內(nèi)獲得大量災(zāi)情信息成為可能(陳維鋒等,2014)。本文以四川省地震災(zāi)情快速上報(bào)接收處理系統(tǒng)在四川省蘆山“4·20”7.0級(jí)強(qiáng)烈地震中獲取的多源災(zāi)情信息為例,通過(guò)對(duì)多源災(zāi)情數(shù)據(jù)存在的質(zhì)量問(wèn)題進(jìn)行分析分類(lèi),采用Java規(guī)則引擎Drools并結(jié)合災(zāi)情數(shù)據(jù)的實(shí)際質(zhì)量問(wèn)題制定數(shù)據(jù)清洗規(guī)則,對(duì)各類(lèi)災(zāi)情信息中的重復(fù)、不完整及不規(guī)范等記錄分別進(jìn)行初步檢測(cè)與修正。并以數(shù)據(jù)量最大、記錄覆蓋面最廣的主觀震感為基礎(chǔ),結(jié)合在同一地點(diǎn)處的客觀震感、房屋破壞、交通系統(tǒng)破壞情況等災(zāi)情信息進(jìn)行多源災(zāi)情數(shù)據(jù)融合,分析它們之間的邏輯關(guān)系,制定業(yè)務(wù)規(guī)則,修正主觀震感中的錯(cuò)誤記錄。本文中主觀震感是指地震發(fā)生時(shí)人對(duì)震動(dòng)的感覺(jué)??陀^震感是指地震造成某一區(qū)域房屋破壞的總體概況。房屋和交通系統(tǒng)破壞是指房屋和交通系統(tǒng)的具體破壞情況。在此基礎(chǔ)上,應(yīng)用密度聚類(lèi)分析方法對(duì)空間離散點(diǎn)進(jìn)行聚類(lèi)分析,彌補(bǔ)關(guān)聯(lián)規(guī)則難以檢測(cè)孤立點(diǎn)的不足,進(jìn)一步檢測(cè)并修正多源災(zāi)情數(shù)據(jù)中存在的錯(cuò)誤,使其滿(mǎn)足應(yīng)急指揮決策分析對(duì)災(zāi)情數(shù)據(jù)質(zhì)量的要求。最后,將修正后的空間離散災(zāi)情點(diǎn)投射到地圖上,通過(guò)ArcGIS插值展示出災(zāi)情的總體空間分布情況,為應(yīng)急救災(zāi)工作提供更可靠、形象的多源災(zāi)情信息支撐。
以往基于規(guī)則的數(shù)據(jù)清洗方法通常將業(yè)務(wù)規(guī)則編譯好后嵌入到系統(tǒng)代碼中的不同位置,隨著數(shù)據(jù)量及其復(fù)雜性的增大,需要回到需求階段重新制定新的業(yè)務(wù)規(guī)則并重新編譯,難以適應(yīng)數(shù)據(jù)多源化的趨勢(shì)(包從劍,2007)。而規(guī)則引擎可將業(yè)務(wù)邏輯從系統(tǒng)代碼中分離出來(lái),使規(guī)則可獨(dú)立于系統(tǒng)進(jìn)行靈活的配置和更新(郭志懋等,2012)。結(jié)合多源地震災(zāi)情信息中存在的質(zhì)量問(wèn)題,采用開(kāi)源Java規(guī)則引擎Drools對(duì)其進(jìn)行數(shù)據(jù)質(zhì)量的檢測(cè)及清洗。
1.1 Java規(guī)則引擎Drools工作機(jī)制
Drools是一個(gè)開(kāi)源的業(yè)務(wù)規(guī)則引擎框架,以高效的模式匹配算法Rete為核心構(gòu)建,實(shí)現(xiàn)了邏輯與數(shù)據(jù)的分離,提高了規(guī)則執(zhí)行的效率(葉舟等,2011)。其通過(guò)檢索提交到引擎的數(shù)據(jù)對(duì)象,如主觀震感、客觀震感、房屋破壞等,根據(jù)對(duì)象的當(dāng)前屬性值和它們之間的關(guān)系,從加載到引擎的規(guī)則文件中發(fā)現(xiàn)符合條件的規(guī)則,創(chuàng)建規(guī)則的執(zhí)行實(shí)例,使實(shí)例在引擎接到執(zhí)行指令時(shí)依照某種優(yōu)先順序依次執(zhí)行?;竟ぷ鳈C(jī)制如圖1所示。
工作區(qū)中存放被規(guī)則引擎引用的數(shù)據(jù)集,將事先編譯好的業(yè)務(wù)規(guī)則導(dǎo)入靜態(tài)規(guī)則區(qū),規(guī)則執(zhí)行隊(duì)列將不斷存儲(chǔ)被激活的規(guī)則執(zhí)行實(shí)例,當(dāng)工作區(qū)中的數(shù)據(jù)對(duì)象發(fā)生改變后,引擎會(huì)迅速對(duì)規(guī)則執(zhí)行隊(duì)列中的執(zhí)行實(shí)例做出調(diào)整和更新(潘巍等,2011;Payne等,2010),以適應(yīng)數(shù)據(jù)多源性與多變的特點(diǎn)。
在進(jìn)行數(shù)據(jù)質(zhì)量檢測(cè)時(shí),Drools規(guī)則引擎通過(guò)調(diào)用規(guī)則文件來(lái)判斷記錄是否是臟數(shù)據(jù),并做出保留、剔除或修正數(shù)據(jù)的動(dòng)作,規(guī)則文件主要構(gòu)成框架Java代碼如下:
圖1 Drools數(shù)據(jù)清洗工作機(jī)制Fig.1 Data verification mechanism of Drools
其中,規(guī)則集用<rule-set>標(biāo)記,一個(gè)規(guī)則集可以包含多條規(guī)則<rule>,每個(gè)規(guī)則都有一個(gè)ID號(hào)和相應(yīng)的清洗動(dòng)作類(lèi)型ruleTyPe。此外,規(guī)則中還定義了很多用<java:condition>標(biāo)記的邏輯條件,這些邏輯條件之間是“與”或者“或”的關(guān)系。Drools規(guī)則引擎將根據(jù)這些邏輯條件動(dòng)態(tài)地構(gòu)建最優(yōu)匹配樹(shù),高效地檢測(cè)由<parameter>標(biāo)記的數(shù)據(jù)是否符合邏輯條件,如果符合則觸發(fā)<java:consequence>標(biāo)記中的Java代碼,不符合則不觸發(fā)(曹永亮,2008)。在上述示例代碼中,定義了記錄被封裝到Data 類(lèi)中data表的ID字段如果不為空,即可通過(guò)data.setFlag(1)方法判定為初步干凈的數(shù)據(jù);反之,如果為空則應(yīng)被剔除。可見(jiàn),規(guī)則文件中包含了數(shù)據(jù)必須滿(mǎn)足的清洗規(guī)則,每條規(guī)則由定義好的檢測(cè)和清洗動(dòng)作構(gòu)成。
1.2 多源地震災(zāi)情數(shù)據(jù)清洗規(guī)則的制定
對(duì)應(yīng)急指揮決策而言,災(zāi)情數(shù)據(jù)質(zhì)量主要包括適用性和正確性?xún)煞矫?,其中?zāi)情數(shù)據(jù)的適用性包括關(guān)鍵字段值完整、災(zāi)情記錄不重復(fù)等。通過(guò)對(duì)各種來(lái)源的災(zāi)情信息可能存在的質(zhì)量問(wèn)題進(jìn)行分析,可發(fā)現(xiàn)在正確性方面主要存在字段值不符合災(zāi)區(qū)實(shí)際受災(zāi)情況等錯(cuò)誤,而在適用性上主要問(wèn)題為缺少必要的字段值導(dǎo)致記錄不可用、字段值不完整、重復(fù)記錄等,需要分別制定業(yè)務(wù)規(guī)則進(jìn)行檢測(cè)和修正,形成規(guī)則文件后加載到規(guī)則引擎中運(yùn)行。
(1)針對(duì)適用性的初步清洗規(guī)則
針對(duì)適用性方面的問(wèn)題,對(duì)不同來(lái)源的災(zāi)情數(shù)據(jù)可分別制定獨(dú)立的邏輯規(guī)則進(jìn)行數(shù)據(jù)質(zhì)量初步檢測(cè)與清洗,下面以四川省地震災(zāi)情快速上報(bào)接收處理系統(tǒng)在蘆山“4·20”7.0級(jí)強(qiáng)烈地震中獲取的記錄條數(shù)最多且具有代表性的主觀震感進(jìn)行規(guī)則制定示例。在主觀震感(subtrem)中提取出了五個(gè)關(guān)鍵字段,分別是災(zāi)情發(fā)生地(area)、經(jīng)度(longtitude)、緯度 (latitude)、震感級(jí)別(tremlevel)和時(shí)間(time)。其中,災(zāi)情發(fā)生地和經(jīng)度(longtitude)、緯度(latitude)都是表示災(zāi)情的位置信息,災(zāi)情發(fā)生地字段完整或經(jīng)度(longtitude)、緯度 (latitude)字段完整的就表示該條災(zāi)情的位置信息完整。主觀震感數(shù)據(jù)質(zhì)量初步檢測(cè)與清洗規(guī)則如下:
①關(guān)鍵字段值缺失記錄清洗規(guī)則
主觀震感可用的前提是震感級(jí)別、位置信息和時(shí)間都完整。若某一條記錄中震感級(jí)別、位置信息和時(shí)間中任一字段值缺失,該條記錄就失去了實(shí)際應(yīng)用價(jià)值,這種情況的記錄應(yīng)經(jīng)過(guò)檢測(cè)后剔除,以減少應(yīng)用的復(fù)雜程度。程序結(jié)構(gòu)框如圖2所示。
圖2 關(guān)鍵字段值缺失記錄清洗過(guò)程示例Fig.2 An example of verifying record due to missing of key characters
②關(guān)鍵字段值不完整記錄清洗規(guī)則
主觀震感災(zāi)情信息的震感級(jí)別和災(zāi)情發(fā)生地經(jīng)緯度字段中還存在信息不完整和不規(guī)范的問(wèn)題。例如在震感級(jí)別中只有對(duì)震感的主觀性描述,沒(méi)有按規(guī)范格式進(jìn)行量化表示,不便于對(duì)震感級(jí)別的理解和歸類(lèi),對(duì)于這類(lèi)記錄應(yīng)將缺失的信息補(bǔ)充完整。而在災(zāi)情發(fā)生地經(jīng)緯度字段中有一些明顯超出四川省經(jīng)緯度范圍的記錄,不符合規(guī)范,應(yīng)根據(jù)災(zāi)情發(fā)生地字段的值修正到合理范圍內(nèi)。以震感級(jí)別不完整記錄為例的清洗規(guī)則程序框圖,如圖3所示。
③重復(fù)記錄清洗規(guī)則
主觀震感記錄中存在不少重復(fù)記錄,主要是同一地點(diǎn)存在若干條震感信息。主要原因是部分災(zāi)報(bào)員不僅僅報(bào)了主震的震感,而且每次余震都上報(bào)了震感。這既造成數(shù)據(jù)量巨大,又影響對(duì)震感的總體判斷。針對(duì)這種情況,對(duì)該次震害事件,只保留主震的震感信息,余震的震感信息剔除。由于四川省災(zāi)情快速上報(bào)接收處理系統(tǒng)震害事件的創(chuàng)建以主震為起點(diǎn),不含前震,因此震感重復(fù)記錄清洗的具體規(guī)則是根據(jù)時(shí)間軸,取該點(diǎn)第一次上報(bào)的震感信息。
(2)針對(duì)正確性的災(zāi)情數(shù)據(jù)清洗規(guī)則
在四川省地震災(zāi)情快速上報(bào)接收處理系統(tǒng)中,客觀震感根據(jù)多位具有豐富現(xiàn)場(chǎng)災(zāi)評(píng)經(jīng)驗(yàn)的專(zhuān)家經(jīng)驗(yàn)設(shè)置,分為6個(gè)等級(jí),具體描述如下:i看不到房屋破壞;ii房屋破壞不容易看到,要人帶領(lǐng);iii大部分房屋未倒塌,房屋破壞可以看到;iv少數(shù)房屋倒塌,房屋破壞很容易見(jiàn)到;v土木房一片廢墟;vi磚房一片廢墟,其中ii-vi級(jí)分別對(duì)應(yīng)烈度VI-X。主觀震感分為5個(gè)等級(jí),分別描述如下:i無(wú)震感;ii僅僅有感;iii震感強(qiáng),可行走;iv站立不穩(wěn),行走困難;v被地震摔倒。學(xué)校和醫(yī)院房屋破壞分為3個(gè)等級(jí),分別描述如下:i為完好,即墻體有少量裂縫或無(wú)破壞;ii為部分破壞,即房屋墻體有很多裂縫;iii為毀壞,即房屋倒塌或部分倒塌。
圖3 關(guān)鍵字段不完整記錄清洗過(guò)程示例Fig.3 An example of verifying record due to incompletion of key characters
農(nóng)村房屋和城鎮(zhèn)房屋破壞分級(jí)一致,具體描述如下:i完好,無(wú)房屋破壞或有少部分房屋被震裂;ii部分破壞,很多房屋被震裂或少量房屋倒塌;iii毀壞,很多房屋倒塌。交通系統(tǒng)破壞分三個(gè)等級(jí),具體如下:i通行;ii通行困難;iii中斷。根據(jù)GB/T 17742-2008《中國(guó)地震烈度表》中的人的感覺(jué)、房屋震害和其他震害現(xiàn)象的描述,主觀震感對(duì)應(yīng)烈度表中人的感覺(jué)一欄;學(xué)校、醫(yī)院以及城鎮(zhèn)房屋對(duì)應(yīng)烈度表中的C類(lèi)建筑物;農(nóng)村房屋對(duì)應(yīng)烈度表中的B類(lèi)建筑物;交通系統(tǒng)破壞根據(jù)烈度表中其他震害現(xiàn)象的描述來(lái)對(duì)應(yīng)。依據(jù)烈度表對(duì)地震烈度信息的具體描述,獲得這幾類(lèi)災(zāi)情信息橫向和縱向邏輯對(duì)應(yīng)關(guān)系如表1所示。
表1 多源地震災(zāi)情信息對(duì)應(yīng)關(guān)系表Table 1 Correlation of multi earthquake hazard information
在表1中,各類(lèi)災(zāi)情信息的破壞等級(jí)之間形成了縱向上的對(duì)應(yīng)關(guān)系,本文選取主觀震感為基準(zhǔn)進(jìn)行災(zāi)情數(shù)據(jù)初步清洗后的信息融合,即當(dāng)同一地點(diǎn)的客觀震感(objtrem)、房屋破壞(houbroken)、交通系統(tǒng)破壞(trabroken)等破壞等級(jí)滿(mǎn)足其中某一列的條件時(shí),即可通過(guò)規(guī)則制定。利用融合后的數(shù)據(jù)檢測(cè)主觀震感的錯(cuò)誤,當(dāng)主觀震感的級(jí)別值缺失時(shí)還可以進(jìn)行填充。例如若某一災(zāi)情發(fā)生地的客觀震感為ii級(jí),農(nóng)村房屋破壞、城鎮(zhèn)房屋破壞、交通系統(tǒng)破壞和學(xué)校醫(yī)院破壞等級(jí)均為i級(jí),那么該地的主觀震感的合理取值應(yīng)為iii級(jí),該清洗規(guī)則程序結(jié)構(gòu)框圖,如圖4所示。
圖4 利用幾類(lèi)災(zāi)情數(shù)據(jù)融合針對(duì)震感正確性的清洗過(guò)程示例Fig.4 An example of verifying record by using multi hazard data sources
將清洗規(guī)則集成為規(guī)則文件后,加載到Drools規(guī)則引擎中即可快速運(yùn)行配置好的規(guī)則文件,初步檢測(cè)和修正多源災(zāi)情數(shù)據(jù)中的質(zhì)量問(wèn)題。
上述使用的關(guān)聯(lián)規(guī)則方法不易受數(shù)據(jù)分布的影響,雖能檢測(cè)出多源災(zāi)情數(shù)據(jù)中大部分的異常記錄,實(shí)驗(yàn)證明具有強(qiáng)壯性,但很難發(fā)現(xiàn)一些孤立點(diǎn)存在的異常,而聚類(lèi)算法在這方面具有較好的檢測(cè)效果(Ester等,1996)。因此,考慮相關(guān)聯(lián)的幾類(lèi)災(zāi)情信息之間的邏輯或約束關(guān)系,建立一種適合空間離散點(diǎn)災(zāi)情信息的聚類(lèi)分析算法,可進(jìn)一步檢測(cè)經(jīng)過(guò)規(guī)則篩選的災(zāi)情數(shù)據(jù),剔除異常點(diǎn)。
2.1 空間聚類(lèi)算法原理與改進(jìn)
聚類(lèi)分析是依據(jù)樣本間度量標(biāo)準(zhǔn)將其自動(dòng)分成幾個(gè)群組,且使同一群組內(nèi)的樣本相似,不同群組的樣本相異的一種數(shù)據(jù)分析方法(程顯洲等,2013)。在各類(lèi)地震災(zāi)情信息中都包含了災(zāi)情發(fā)生地及其經(jīng)緯度的空間信息,所以,利用聚類(lèi)分析法進(jìn)行數(shù)據(jù)清洗時(shí)必須考慮這些空間屬性。而密度聚類(lèi)DBSCAN是最常用的空間聚類(lèi)算法,在其執(zhí)行過(guò)程中定義一個(gè)空間半徑Eps和一個(gè)密度閾值MinPts,如果某個(gè)空間對(duì)象p的Eps鄰域內(nèi)點(diǎn)密度超過(guò)MinPts,則將p作為群組中心,然后不斷搜索從p到直接密度可達(dá)的點(diǎn),將尋找到的點(diǎn)加入該群組中,當(dāng)沒(méi)有新的點(diǎn)可以被添加到任何群組時(shí)聚類(lèi)結(jié)束,未被歸入任何群組的點(diǎn)即為噪聲點(diǎn)(聶躍光等,2008;魯小丫等,2012)。
基于上述原理,可在空間聚類(lèi)的過(guò)程中加入與災(zāi)情屬性密切相關(guān)的烈度值為參照,將烈度橢圓作為空間搜索半徑,改進(jìn)DBSCAN算法,對(duì)包含空間信息的離散點(diǎn)災(zāi)情屬性進(jìn)行檢測(cè)與修正。根據(jù)中國(guó)地震烈度區(qū)劃中的烈度回歸模型,可得出西南地區(qū)地震烈度衰減關(guān)系:
式中,M是震級(jí);R是震中距;I是烈度;a、b分別為橢圓長(zhǎng)軸方向和短軸方向。
將DBSCAN的空間鄰近Eps擴(kuò)充為長(zhǎng)軸鄰近Eps1和短軸鄰近Eps2,分別對(duì)應(yīng)與烈度衰減關(guān)系相應(yīng)的烈度橢圓長(zhǎng)軸和短軸:
改進(jìn)后的算法過(guò)程如圖5所示。
圖5 改進(jìn)后的空間聚類(lèi)算法流程圖Fig. 5 Flow chart of improved spatial clustering algorithm
2.2 多源災(zāi)情數(shù)據(jù)清洗空間聚類(lèi)算法實(shí)現(xiàn)
根據(jù)算法流程,在編程實(shí)現(xiàn)算法的過(guò)程中為防止出現(xiàn)循環(huán)判定核心點(diǎn)和噪聲點(diǎn),需從任意對(duì)象開(kāi)始根據(jù)MinPts和Eps1、Eps2值判斷其鄰域內(nèi)是否存在核心點(diǎn)時(shí),將經(jīng)過(guò)此步驟判斷的所有對(duì)象標(biāo)記為“已使用”。此外,在聚類(lèi)過(guò)程中只考慮對(duì)象Eps1-2鄰域內(nèi)點(diǎn)的數(shù)目,簡(jiǎn)化了密度定義。改進(jìn)后的空間聚類(lèi)算法部分核心代碼如下:
算法執(zhí)行后,可輸出地震災(zāi)情數(shù)據(jù)的聚類(lèi)分析結(jié)果,獲得更準(zhǔn)確的災(zāi)情信息。
本文以四川省地震災(zāi)情快速上報(bào)接收處理系統(tǒng)在四川省蘆山“4·20”7.0級(jí)強(qiáng)烈地震中,通過(guò)多種災(zāi)情獲取手段獲取到的包括主觀震感、客觀震感、房屋破壞、交通系統(tǒng)破壞等共1330條災(zāi)情信息為例進(jìn)行處理和分析,其中,采用基于Java規(guī)則引擎的多源災(zāi)情數(shù)據(jù)清洗方法通過(guò)初次規(guī)則篩選共剔除“臟數(shù)據(jù)”696條,其中主觀震感剔除660條,客觀震感剔除17條,學(xué)校破壞剔除3條,醫(yī)院破壞剔除2條,城鎮(zhèn)房屋破壞剔除7條,農(nóng)村房屋破壞剔除5條,交通系統(tǒng)破壞剔除2條。
將經(jīng)過(guò)初次清洗的多源災(zāi)情信息以主觀震感為基準(zhǔn),結(jié)合客觀震感、房屋破壞、交通系統(tǒng)破壞和學(xué)校醫(yī)院破壞等災(zāi)情信息進(jìn)行基于規(guī)則的數(shù)據(jù)融合,修正主觀震感信息18條,補(bǔ)充主觀震感信息3條。以四川省雅安市天全縣城廂鎮(zhèn)為例,該鎮(zhèn)各類(lèi)災(zāi)情信息如表2所示,根據(jù)各類(lèi)災(zāi)情信息間的邏輯關(guān)系,制定規(guī)則檢測(cè)出上述記錄主觀震感的震感級(jí)別信息是有誤的,應(yīng)為Ⅵ級(jí)。為此,通過(guò)對(duì)多源災(zāi)情信息的融合,利用規(guī)則引擎進(jìn)一步對(duì)以主觀震感為基礎(chǔ)的災(zāi)情信息中有誤的記錄進(jìn)行了檢測(cè)和修正。
表2 城廂鎮(zhèn)各類(lèi)災(zāi)情信息列表Table 2 List of earthquake hazard information of Chengxiang town
針對(duì)孤立點(diǎn)存在的異常,通過(guò)執(zhí)行改進(jìn)后的基于密度的空間聚類(lèi)算法結(jié)果如圖6所示。
圖6 震感信息空間聚類(lèi)圖Fig.6 Spatial clustering result of feeling information
為了便于宏觀災(zāi)情分布的描述,此處將主觀震感的級(jí)別描述進(jìn)行了映射,即“iii 震感強(qiáng),可行走”映射成“震感強(qiáng),無(wú)破壞”;“iv站立不穩(wěn),行走困難”映射成“有破壞,無(wú)傷亡”;“v被地震摔倒”映射成“破壞重,有傷亡”。經(jīng)過(guò)規(guī)則篩選后,未進(jìn)行空間聚類(lèi)的主觀震感分布如圖6(a)所示,空間聚類(lèi)后的分布如圖6(b)所示,比較兩次結(jié)果可發(fā)現(xiàn),通過(guò)空間聚類(lèi)分析,災(zāi)情點(diǎn)的分布更符合中國(guó)地震局發(fā)布的“4·20蘆山7.0級(jí)”地震烈度圖(中國(guó)地震局,2013)中烈度圈的走向和范圍,結(jié)果與實(shí)際受災(zāi)情況更加吻合。
為更直觀地展現(xiàn)清洗前后的災(zāi)情分布情況,對(duì)災(zāi)情進(jìn)行了總體分析和模擬,利用ArcGIS空間分析中的Delaunay三角插值對(duì)原始的主觀震感信息和經(jīng)過(guò)清洗后的災(zāi)情信息離散點(diǎn)分別進(jìn)行空間插值(帥向華等,2009),結(jié)果如圖7所示。
圖7 災(zāi)情信息空間分布插值對(duì)比圖Fig.7 Comparison of hazard information spatial distribution after interpolation
從圖7可以看出,原始災(zāi)情數(shù)據(jù)在表達(dá)實(shí)際的受災(zāi)程度方面存在一些錯(cuò)誤,而經(jīng)過(guò)清洗后的災(zāi)情數(shù)據(jù)能更好地反映實(shí)際的受災(zāi)情況,在數(shù)據(jù)不足時(shí),可通過(guò)插值擬合出基本符合實(shí)際的地震災(zāi)情分布。
本文應(yīng)用規(guī)則引擎與空間聚類(lèi)相結(jié)合的方法分階段清洗了四川省蘆山“4·20”7.0級(jí)強(qiáng)烈地震的原始多源災(zāi)情數(shù)據(jù)。通過(guò)規(guī)則引擎對(duì)各類(lèi)災(zāi)情信息進(jìn)行了初步檢測(cè)與修正,并將多源災(zāi)情信息融合后,利用同一地點(diǎn)的其他災(zāi)情信息輔助判斷其主觀震感的正誤;加入烈度信息,改進(jìn)了密度聚類(lèi)算法,進(jìn)一步修正了原始災(zāi)情信息中的錯(cuò)誤,使結(jié)果更準(zhǔn)確地反映出實(shí)際受災(zāi)情況。今后的研究將更加注重多源災(zāi)情信息的實(shí)時(shí)性,通過(guò)增量式檢測(cè)等手段提高算法效率及準(zhǔn)確度。
白仙富,李永強(qiáng),陳建華等,2010.地震應(yīng)急現(xiàn)場(chǎng)信息分類(lèi)初步研究.地震研究,33(1):111—118.
包從劍,2007.數(shù)據(jù)清洗的若干關(guān)鍵技術(shù)研究.南京:江蘇大學(xué).
陳維鋒,郭紅梅,張翼等,2014.四川省地震災(zāi)情快速上報(bào)接收處理系統(tǒng).災(zāi)害學(xué),2(29):110—116.
曹永亮,2008.基于Java規(guī)則引擎的動(dòng)態(tài)數(shù)據(jù)清洗研究與設(shè)計(jì).武漢:武漢理工大學(xué).
程顯洲,肖蘭喜,董翔,2013.基于烈度衰減橢圓閾值空間散點(diǎn)聚類(lèi)研究.災(zāi)害學(xué),10(28):205—208.
郭志懋,周傲英,2012.數(shù)據(jù)質(zhì)量和數(shù)據(jù)清洗研究綜述.軟件學(xué)報(bào),13(36):105—108.
魯小丫,宋志豪,徐柱,2012.利用實(shí)時(shí)路況數(shù)據(jù)聚類(lèi)方法檢測(cè)城市交通擁堵點(diǎn).地球信息科學(xué)學(xué)報(bào),12(6):775—779.
聶高眾,安基文,鄧硯,2012.地震應(yīng)急災(zāi)情服務(wù)進(jìn)展.地震地質(zhì),4(3-4):782—791.
聶躍光,陳立潮,陳湖,2008.基于密度的空間聚類(lèi)算法研究.計(jì)算機(jī)技術(shù)與發(fā)展,8(8):91—94.
潘巍,李戰(zhàn)懷,聶艷明等,2011.一種有效的多數(shù)據(jù)源RFID冗余數(shù)據(jù)清洗技術(shù).西北工業(yè)大學(xué)學(xué)報(bào),29(3):435—442.
蘇桂武,聶高眾,高建國(guó)等,2003.地震應(yīng)急信息的特征、分類(lèi)與作用.地震,23(3):27—35.
帥向華,侯建盛,劉欽,2009.基于地震現(xiàn)場(chǎng)離散點(diǎn)災(zāi)情報(bào)告的災(zāi)害空間分析模擬研究.地震地質(zhì),31(2):321—332.
王曰芬,章成志,張蓓蓓等,2007.數(shù)據(jù)清洗研究綜述.現(xiàn)代圖書(shū)情報(bào)技術(shù),(12):50—56.
葉舟,王東,2011.基于規(guī)則引擎的數(shù)據(jù)清洗.計(jì)算機(jī)工程,6(33):51—54.
中國(guó)地震局,2013.四川省蘆山“4·20”7.0級(jí)強(qiáng)烈地震烈度圖.[EB/OL] http://www.cea.gov.cn
Ester M., Krigel H., Sander J. and Xu X.A., 1996. Density-based algorithm for discovering clusters in large spatial databases with noise. KDD-96 Proceedings, 226—231.
Payne H. and Knoel H., 2010. Development and testing of incident-detection algorithm. Research Methodology and Detailed Results, FHWA-RD-06-20.
Multi-source Earthquake Disaster Data Verification Strategy Based on Rules Engine and Spatial Clustering Analysis
Guo Hongmei, Chen Weifeng, Zhang Ying and Shen Yuan
(Earthquake Administration of Sichuan Province, Chengdu 610041, China)
In order to improve the quality of multi-source earthquake disaster data, the rules engine and spatial cluster analysis combined method of data mining is used to detect mistakes such as error, incomplete and repeated in multi-source earthquake disaster data. After that, ArcGIS spatial interpolation is applied to the overall analysis and simulation of discrete earthquake disaster points, so that we can determine the general distribution of earthquake hazard rapidly, and provide reliable hazard distribution information for earthquake emergency relief work. In this paper we processed and analyzed 1,330 multi-source earthquake disaster items of data including subjective feeling,objective feeling, houses damage, transportation system damage and so on, which were obtained immediately after“4·20 Lushan MS7.0 strong earthquake” by the Sichuan Earthquake Quickly Receiving and Processing System. Totally 717 unreasonable disaster items were selected by the multi-source earthquake disaster data cleaning strategy,in which 696 items was eliminated and 21 items were corrected. The spatial distribution and simulation results of verified data shows to fit well with the actual seismic intensity regions determined from field investigation.
Multi-source earthquake disaster information; Data verification; Rules engine; Information fusion; Spatial clustering
2015年度地震科技星火計(jì)劃項(xiàng)目(XH15039Y)
2015-02-03
郭紅梅,女,生于1984年。碩士,工程師。主要從事地震應(yīng)急和災(zāi)情信息處理研究。E-mall:115453242@qq.com