韓萬(wàn)江 韓卓言 田怡凡 韓睿 邱雅穎
北京郵電大學(xué),計(jì)算機(jī)學(xué)院(國(guó)家示范性軟件學(xué)院),北京 100876
目前,國(guó)內(nèi)有關(guān)防災(zāi)減災(zāi)方面的統(tǒng)計(jì)數(shù)據(jù)尚不完善。地震災(zāi)情信息的收集是一件繁雜的工作,現(xiàn)有的災(zāi)情收集方式仍存在不足,2008年汶川8.0級(jí)地震中發(fā)現(xiàn)的一些重大科學(xué)和技術(shù)問(wèn)題,如災(zāi)情獲取困難、評(píng)估誤差很大、缺少?zèng)Q策支持、災(zāi)情服務(wù)匱乏、應(yīng)急產(chǎn)出與社會(huì)需求之間存在差距等問(wèn)題,依然未得到徹底有效解決。國(guó)家重點(diǎn)研發(fā)計(jì)劃“重大自然災(zāi)害監(jiān)測(cè)預(yù)警與防范”專(zhuān)項(xiàng)的“地震應(yīng)急全時(shí)程災(zāi)情匯聚與決策服務(wù)技術(shù)研究”項(xiàng)目,針對(duì)災(zāi)前災(zāi)情難以預(yù)估、災(zāi)后災(zāi)情獲取緩慢且碎片化、災(zāi)情評(píng)估誤差較大、決策支持不到位、災(zāi)情服務(wù)缺位等科學(xué)問(wèn)題,從震前、震后的全時(shí)程角度,提出了災(zāi)情的獲取、匯聚與災(zāi)情服務(wù)產(chǎn)品等研究?jī)?nèi)容。為展開(kāi)相關(guān)研究,需要探索地震災(zāi)情信息分類(lèi)編碼與整合技術(shù)規(guī)范、災(zāi)情信息共享與發(fā)布技術(shù)規(guī)范等。在此背景下,本文針對(duì)公眾涉災(zāi)信息數(shù)據(jù)異構(gòu)、多維、數(shù)據(jù)格式差異大、部分?jǐn)?shù)據(jù)維度缺失導(dǎo)致的數(shù)據(jù)無(wú)法得到綜合利用的現(xiàn)狀(曹彥波等,2010),研究基于異構(gòu)公眾涉災(zāi)信息的一體化編碼和實(shí)時(shí)動(dòng)態(tài)管理技術(shù),實(shí)現(xiàn)災(zāi)情數(shù)據(jù)統(tǒng)一管理和高效合理利用,從而為災(zāi)后應(yīng)急救援提供方案。
本文研究了多源異構(gòu)數(shù)據(jù)的一體化編碼和開(kāi)放接口技術(shù)規(guī)范,在此基礎(chǔ)上構(gòu)建基于微服務(wù)(Aderaldo et al,2017)的多源災(zāi)情數(shù)據(jù)管理服務(wù)系統(tǒng)(韓萬(wàn)江等,2021),實(shí)現(xiàn)災(zāi)情數(shù)據(jù)全生命周期的動(dòng)態(tài)管理,為災(zāi)情影響范圍、空間分布等決策支撐系統(tǒng)提供數(shù)據(jù)支持。通過(guò)開(kāi)放式接口在最短的時(shí)間內(nèi)對(duì)數(shù)字、文本、語(yǔ)音、圖片及視頻等災(zāi)情數(shù)據(jù)信息進(jìn)行采集,實(shí)現(xiàn)災(zāi)情數(shù)據(jù)全生命周期的動(dòng)態(tài)管理,有利于相關(guān)部門(mén)組織評(píng)估災(zāi)害損失(中華人民共和國(guó)國(guó)家質(zhì)量監(jiān)督檢驗(yàn)檢疫總局等,2011),并實(shí)施快速有效的應(yīng)急救援。
多源異構(gòu)地震數(shù)據(jù)分類(lèi)是以災(zāi)情指標(biāo)為基本單元,根據(jù)地震事件的劃分和指標(biāo)類(lèi)型,將地震災(zāi)情信息按一定的原則和方法進(jìn)行區(qū)分和歸類(lèi),并建立起一定的分類(lèi)體系和排列順序。多源異構(gòu)地震數(shù)據(jù)分類(lèi)符合GB/T7027-2002《信息分類(lèi)和編碼的基本原則與方法》(中華人民共和國(guó)國(guó)家質(zhì)量監(jiān)督檢驗(yàn)檢疫總局,2002)的規(guī)定,遵循科學(xué)性、系統(tǒng)性、可擴(kuò)展性、兼容性、綜合實(shí)用性等原則。
多源異構(gòu)地震數(shù)據(jù)采用分層與組合的分類(lèi)法(中華人民共和國(guó)國(guó)家質(zhì)量監(jiān)督檢驗(yàn)檢疫總局等,2016a),按地震事件分為數(shù)據(jù)來(lái)源、載體形式、災(zāi)情信息,如圖1所示。其中,數(shù)據(jù)來(lái)源包括業(yè)務(wù)報(bào)送數(shù)據(jù)、泛在感知數(shù)據(jù)等;載體形式包括文字、圖像、音頻、視頻等;災(zāi)情信息分類(lèi)針對(duì)地震事件,分為人員傷亡及失蹤信息、房屋破壞信息、生命線(xiàn)工程災(zāi)情信息、次生災(zāi)害信息等。
圖1 多源異構(gòu)地震數(shù)據(jù)分類(lèi)方法
多源異構(gòu)地震數(shù)據(jù)結(jié)構(gòu)分類(lèi)是以災(zāi)情數(shù)據(jù)格式為基礎(chǔ),將多源異構(gòu)地震數(shù)據(jù)接口格式按一定的原則和方法進(jìn)行區(qū)分和歸類(lèi),并建立起一定的數(shù)據(jù)接口存取格式和管理模式。為了進(jìn)行數(shù)據(jù)融合接口設(shè)計(jì),將多源異構(gòu)地震數(shù)據(jù)結(jié)構(gòu)分為結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù),如圖2所示。其中,結(jié)構(gòu)化數(shù)據(jù)可以用二維表結(jié)構(gòu)來(lái)邏輯表達(dá)的數(shù)據(jù),可采用關(guān)系數(shù)據(jù)庫(kù)、電子表格存儲(chǔ);非結(jié)構(gòu)化數(shù)據(jù)不方便用二維邏輯表來(lái)表現(xiàn)的數(shù)據(jù),數(shù)據(jù)不規(guī)則或者不完整,包括所有格式的辦公文檔、文本、圖片、XML、HTML、各類(lèi)報(bào)表、圖像、音頻、視頻等信息數(shù)據(jù),可采用文件直接讀?。话虢Y(jié)構(gòu)化數(shù)據(jù)是結(jié)構(gòu)化數(shù)據(jù)的一種形式,但不符合關(guān)系數(shù)據(jù)庫(kù)的形式關(guān)聯(lián)模型結(jié)構(gòu),包含相關(guān)標(biāo)記,用來(lái)分隔語(yǔ)義元素,可采用XML、JSON形式存儲(chǔ)和管理。
圖2 多源異構(gòu)地震數(shù)據(jù)接口規(guī)范分類(lèi)
多源異構(gòu)地震災(zāi)情數(shù)據(jù)編碼設(shè)計(jì)將地震信息和指標(biāo)賦予具有一定規(guī)律、易于計(jì)算機(jī)和人識(shí)別處理的符號(hào),形成代碼元素集合。代碼元素集合中的代碼元素為賦予編碼對(duì)象的符號(hào),即編碼對(duì)象的代碼值。
多源異構(gòu)地震災(zāi)情數(shù)據(jù)編碼包含的內(nèi)容有:信息表達(dá)成代碼的方法、信息的代碼表示形式、代碼元素集合的賦值。多源異構(gòu)地震災(zāi)情數(shù)據(jù)編碼的主要作用為:標(biāo)識(shí)、分類(lèi)、整合。標(biāo)識(shí)的目的是將編碼對(duì)象彼此區(qū)分開(kāi),在編碼對(duì)象的集合范圍內(nèi),編碼對(duì)象的代碼值是其唯一性標(biāo)識(shí);信息編碼的分類(lèi)作用實(shí)質(zhì)上是對(duì)分類(lèi)進(jìn)行標(biāo)識(shí);信息編碼的整合作用體現(xiàn)在將編碼對(duì)象按照一定規(guī)則聚合成針對(duì)地震災(zāi)害事件的信息有序集合(中華人民共和國(guó)國(guó)家質(zhì)量監(jiān)督檢驗(yàn)檢疫總局等,2013)。
多源異構(gòu)地震災(zāi)情數(shù)據(jù)編碼設(shè)計(jì)采用分層和組合編碼方法,分為4段,依次為震情碼、來(lái)源碼、載體碼、災(zāi)情碼。其中,第一段震情碼用于描述地震災(zāi)害事件屬性信息,用26位阿拉伯?dāng)?shù)字標(biāo)識(shí);第二段來(lái)源碼用于描述災(zāi)情報(bào)送單位,用3位阿拉伯?dāng)?shù)字標(biāo)識(shí);第三段載體碼用于描述災(zāi)情載體類(lèi)型,用1位阿拉伯?dāng)?shù)字標(biāo)識(shí);第四段災(zāi)情碼描述災(zāi)情數(shù)據(jù)的具體信息,用6位阿拉伯?dāng)?shù)字標(biāo)識(shí)。編碼結(jié)構(gòu)如圖3所示。
圖3 多源異構(gòu)地震災(zāi)情數(shù)據(jù)編碼層次結(jié)構(gòu)
震情編碼采用分層組合編碼方法,依次為地理信息編碼(中華人民共和國(guó)國(guó)家質(zhì)量監(jiān)督檢驗(yàn)檢疫總局等,2011)和時(shí)間編碼(中華人民共和國(guó)國(guó)家質(zhì)量監(jiān)督檢驗(yàn)檢疫總局等,2005)。其中,第一段地理信息碼用于描述基礎(chǔ)地理信息,用12位阿拉伯?dāng)?shù)字標(biāo)識(shí);第二段時(shí)間碼用于記錄地震發(fā)生的具體時(shí)間和具體時(shí)刻,用14位阿拉伯?dāng)?shù)字標(biāo)識(shí)。編碼結(jié)構(gòu)如圖4所示。
圖4 震情信息編碼層次結(jié)構(gòu)
2.2.1 地理信息編碼
地理信息編碼采用組合碼,分為2段,編碼結(jié)構(gòu)見(jiàn)表1和圖5。其中,第一段表示省、市、縣(市、區(qū)),由6位阿拉伯?dāng)?shù)字表示,采用層次法編碼,前兩位表示省、直轄市、自治區(qū)行政區(qū)劃代,中間兩位表示地市行政區(qū)劃代碼,后兩位表示縣區(qū)行政區(qū)劃代碼,采用《中華人民共和國(guó)行政區(qū)劃代碼》(GB/T2260-2007)(中華人民共和國(guó)國(guó)家質(zhì)量監(jiān)督檢驗(yàn)檢疫總局等,2008)中規(guī)定的代碼;第二段表示具體的街道和社區(qū),前三位表示鄉(xiāng)、鎮(zhèn)或街道辦事處代碼,采用《縣以下行政區(qū)劃代碼編制規(guī)則》(GB10114-88)的編碼方法,001~099表示街道辦事處,100~199表示鎮(zhèn),200~399表示鄉(xiāng),后三位表示行政村、社區(qū)代碼。字段為空時(shí)將以若干個(gè)0代替。
表1 地理信息編碼結(jié)構(gòu)
圖5 地理信息編碼層次結(jié)構(gòu)
2.2.2 時(shí)間編碼
時(shí)間信息表示震情發(fā)生的時(shí)間和時(shí)刻,采用組合碼,分為兩段,由14位阿拉伯?dāng)?shù)字組成。編碼結(jié)構(gòu)見(jiàn)表2和圖6。其中,第一段表示具體時(shí)間,將地震發(fā)生的時(shí)間具體到天,由8位阿拉伯?dāng)?shù)字表示,前4位表示年份,中間4位表示月份與日期;第二段表示具體時(shí)刻,精確到秒,由6位阿拉伯?dāng)?shù)字表示,前2位表示小時(shí),中間2位位表示分鐘,后2位表示秒鐘。
表2 時(shí)間編碼結(jié)構(gòu)
圖6 時(shí)間編碼層次結(jié)構(gòu)
以2008年5月12日14時(shí)28分4發(fā)生的汶川8.0級(jí)地震為例,汶川縣編碼513221000000,則基本震情編碼為51322100000020080512142804。
數(shù)據(jù)來(lái)源分為業(yè)務(wù)報(bào)送數(shù)據(jù)、泛在感知數(shù)據(jù)和其他數(shù)據(jù)三大類(lèi),采用組合碼,分為兩段,由3位阿拉伯?dāng)?shù)字組成,如表3所示。
表3 來(lái)源分類(lèi)編碼
第一段表示大類(lèi)代碼,由1位阿拉伯?dāng)?shù)字表示,分別對(duì)應(yīng)3種數(shù)據(jù)來(lái)源。其中,1代表業(yè)務(wù)報(bào)送數(shù)據(jù),由各種能夠收集或產(chǎn)生地震相關(guān)數(shù)據(jù)的生產(chǎn)部門(mén)或隸屬于部門(mén)的系統(tǒng)上報(bào);2代表泛在感知數(shù)據(jù),來(lái)自大量的各類(lèi)聯(lián)網(wǎng)終端中收集而來(lái)的數(shù)據(jù);3代表其他未分類(lèi)或難以分類(lèi)的數(shù)據(jù)。第二段表示子類(lèi)代碼,由2位阿拉伯?dāng)?shù)字表示,采用系列順序碼,在各類(lèi)別代碼取值范圍內(nèi)對(duì)編碼對(duì)象順序地賦予代碼值。
對(duì)于第一大類(lèi)業(yè)務(wù)報(bào)送數(shù)據(jù)中的子類(lèi),按照產(chǎn)生數(shù)據(jù)的生產(chǎn)部門(mén)及隸屬于部門(mén)的系統(tǒng)分為5小類(lèi),其中,00~19表示抗震救災(zāi)指揮機(jī)構(gòu);20~39表示全國(guó)統(tǒng)一部署的地震應(yīng)急信息服務(wù)相關(guān)技術(shù)系統(tǒng);40~59表示中國(guó)地震局司室及直屬單位成立的應(yīng)急信息服務(wù)技術(shù)支持工作組;60~79表示中國(guó)地震局直屬單位建設(shè)的地震應(yīng)急信息服務(wù)相關(guān)技術(shù)系統(tǒng);80~98 表示各省地震局建設(shè)的地震應(yīng)急信息服務(wù)相關(guān)技術(shù)系統(tǒng)。該分類(lèi)方法參考《地震應(yīng)急信息產(chǎn)品分類(lèi)編碼研究》(張翼等,2016)并改進(jìn),子類(lèi)再根據(jù)各個(gè)部門(mén)或隸屬于部門(mén)的系統(tǒng)進(jìn)行分類(lèi),方便對(duì)來(lái)自職能相似的生產(chǎn)部門(mén)或系統(tǒng)的數(shù)據(jù)進(jìn)行統(tǒng)一、快速的處理。根據(jù)實(shí)際應(yīng)用情況中各個(gè)不同職能的部門(mén)及隸屬于部門(mén)的系統(tǒng)數(shù)量的不同,該代碼可略微進(jìn)行變動(dòng)以適應(yīng)各種情景。
對(duì)于第二大類(lèi)泛在感知數(shù)據(jù)種的子類(lèi),按照收集的感知數(shù)據(jù)的來(lái)源分成若干類(lèi),例如互聯(lián)網(wǎng)感知、通信網(wǎng)感知、輿情網(wǎng)感知、電力系統(tǒng)感知、交通系統(tǒng)感知以及其他感知系統(tǒng)。
對(duì)于第三大類(lèi),子類(lèi)代碼默認(rèn)為00。
數(shù)據(jù)載體編碼用于描述災(zāi)情數(shù)據(jù)載體類(lèi)型,用1位阿拉伯?dāng)?shù)字標(biāo)識(shí),如表4所示。
表4 載體形式編碼
災(zāi)情信息碼編碼采用組合碼,分為3段(中華人民共和國(guó)國(guó)家質(zhì)量監(jiān)督檢驗(yàn)檢疫總局等,2018),編碼結(jié)構(gòu)見(jiàn)表5和圖7。其中,第一段表示災(zāi)害大類(lèi)代碼,由1位阿拉伯?dāng)?shù)字表示,具體編碼見(jiàn)表6;第二段表示災(zāi)害子類(lèi)代碼,由2位阿拉伯?dāng)?shù)字表示,具體編碼見(jiàn)表6;第三段表示災(zāi)情指標(biāo)代碼,由3位阿拉伯?dāng)?shù)字表示,指標(biāo)代碼見(jiàn)表7、表8。例如,發(fā)生了次生災(zāi)害中的巖溶塌陷,編碼為444004。
表5 災(zāi)情信息編碼結(jié)構(gòu)
圖7 災(zāi)情等級(jí)編碼層次結(jié)構(gòu)
表6 災(zāi)情信息分類(lèi)
表7 災(zāi)情指標(biāo)分類(lèi)類(lèi)別代碼
表8 災(zāi)情指標(biāo)代碼
災(zāi)情信息(中華人民共和國(guó)國(guó)家質(zhì)量監(jiān)督檢驗(yàn)檢疫總局等,2011)主要分為震情、人員傷亡及失蹤、房屋破壞、生命線(xiàn)工程災(zāi)情以及次生災(zāi)害5種(中華人民共和國(guó)國(guó)家質(zhì)量監(jiān)督檢驗(yàn)檢疫總局等,2016b),具體編碼見(jiàn)表6。
災(zāi)情指標(biāo)則對(duì)上述5種災(zāi)情信息的具體情況進(jìn)行細(xì)分,地震事件信息包括地震發(fā)生的地點(diǎn)、時(shí)間、深度以及震級(jí)(中華人民共和國(guó)國(guó)家質(zhì)量監(jiān)督檢驗(yàn)檢疫總局等,2017);人員傷亡及失蹤信息包括受災(zāi)人數(shù)、受災(zāi)程度;房屋破壞信息包括不同種類(lèi)房屋的破壞面積(中華人民共和國(guó)國(guó)家質(zhì)量監(jiān)督檢驗(yàn)檢疫總局等,2009a);生命線(xiàn)工程災(zāi)情信息包括不同種類(lèi)生命線(xiàn)工程災(zāi)情的損失、范圍以及嚴(yán)重程度(中華人民共和國(guó)國(guó)家質(zhì)量監(jiān)督檢驗(yàn)檢疫總局等,2009b);次生災(zāi)害信息包括不同種類(lèi)次生災(zāi)害造成的損失、波及范圍以及受災(zāi)程度(中國(guó)地質(zhì)調(diào)查局,2004),具體編碼見(jiàn)表8。
多源異構(gòu)地震數(shù)據(jù)的接口技術(shù)規(guī)范適用于震后多源異構(gòu)地震數(shù)據(jù)的標(biāo)準(zhǔn)化接入,接口設(shè)計(jì)原則如下(韓萬(wàn)江等,2017):
(1)單一性:每個(gè)接口包含的功能單一,即一個(gè)接口只針對(duì)一種數(shù)據(jù)接入服務(wù),返回對(duì)應(yīng)的信息。
(2)可擴(kuò)展性:接口具有可擴(kuò)展性,考慮客戶(hù)端的需求,一個(gè)接口可以被多個(gè)業(yè)務(wù)場(chǎng)景使用。
(3)兼容性:應(yīng)采用通用的接口設(shè)計(jì)標(biāo)準(zhǔn),保證與其他系統(tǒng)的互聯(lián)互通,兼容災(zāi)情信息采集所采用的不同網(wǎng)絡(luò)制式和操作終端。
(4)安全性:每個(gè)接口均明確用戶(hù)權(quán)限,部分接口的調(diào)用需要進(jìn)行驗(yàn)證。
(5)松耦合:應(yīng)避免服務(wù)提供方的業(yè)務(wù)系統(tǒng)對(duì)接口實(shí)現(xiàn)的依賴(lài)。
多源異構(gòu)地震數(shù)據(jù)接口是將不同數(shù)據(jù)來(lái)源、不同數(shù)據(jù)格式的地震事件災(zāi)情信息,以災(zāi)情指標(biāo)為基本元素、災(zāi)情文件為基本單元,按照不同的數(shù)據(jù)結(jié)構(gòu)進(jìn)行數(shù)據(jù)讀取和發(fā)送。將多源異構(gòu)地震數(shù)據(jù)按照結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)的結(jié)構(gòu)類(lèi)型,設(shè)計(jì)三類(lèi)數(shù)據(jù)接口形式,如圖8所示。每類(lèi)接口通過(guò)一體化編碼實(shí)現(xiàn)數(shù)據(jù)的接入。
圖8 數(shù)據(jù)接口分類(lèi)規(guī)范
結(jié)構(gòu)化數(shù)據(jù)接口通過(guò)一體化編碼作為關(guān)鍵字進(jìn)行索引,采用關(guān)系數(shù)據(jù)庫(kù)接口形式或電子表格數(shù)據(jù)接口形式,實(shí)現(xiàn)與多源異構(gòu)災(zāi)情數(shù)據(jù)管理系統(tǒng)的接入。例如,來(lái)自后方地震應(yīng)急指揮部的房屋損失文字災(zāi)情信息,其關(guān)系數(shù)據(jù)庫(kù)接口示例和電子表格數(shù)據(jù)接口示例如圖9、圖10所示。
圖9 數(shù)據(jù)庫(kù)接口格式示例
圖10 電子表格接口格式示例
非結(jié)構(gòu)化數(shù)據(jù)接口采用文件讀取方式,以一體化編碼作為文件名字進(jìn)行索引,直接讀取Word及PDF文件、圖片、音頻、視頻等信息數(shù)據(jù),實(shí)現(xiàn)與多源異構(gòu)災(zāi)情數(shù)據(jù)管理系統(tǒng)的接入。例如,來(lái)自后方地震應(yīng)急指揮部的房屋損失圖片災(zāi)情信息,其接口示例如圖11所示。
圖11 圖片災(zāi)情數(shù)據(jù)接口格式示例
半結(jié)構(gòu)化數(shù)據(jù)接口采用XML、JSON數(shù)據(jù)格式讀取數(shù)據(jù)。以一體化編碼作為數(shù)據(jù)的第一個(gè)標(biāo)簽索引,實(shí)現(xiàn)與多源異構(gòu)災(zāi)情數(shù)據(jù)管理系統(tǒng)的接入(中華人民共和國(guó)國(guó)家質(zhì)量監(jiān)督檢驗(yàn)檢疫總局等,2007)。
(1)XML報(bào)文規(guī)范示例如下:
第一層為disasterInfo標(biāo)簽,表示一條XML報(bào)文;第二層為info標(biāo)簽,每一對(duì)info標(biāo)簽代表了一條完整的災(zāi)情數(shù)據(jù),info中的各個(gè)標(biāo)簽代表了該條數(shù)據(jù)的各種信息。
(2)JSON報(bào)文規(guī)范示例如下:
第一層為中括號(hào),表示一條JSON報(bào)文;第二層為大括號(hào),表示一條數(shù)據(jù);大括號(hào)中包含了多個(gè)鍵值對(duì),表示具體的數(shù)據(jù)信息。
[
{
“ID”:“632626200206202105220204001010222001”,
“province”:“青海省”,
“city”:“果洛藏族自治州”,
“country”:“瑪多縣”,
“town”:“黃河鄉(xiāng)”,
“village”:“果洛新村”,
“category”:“房屋破壞磚木”,
“date”:“2021-05-2202:57:10”,
“l(fā)ocation”:“青海省”,
“basicallyIntactSquare”:“198.4”,
“damagedSquare”:“4.9”,
“destroyedSquare”:“1.0”,
“note”:“輕微”,
“reportingUnit”:“中國(guó)地震臺(tái)網(wǎng)”
}
]
根據(jù)上述多源異構(gòu)地震數(shù)據(jù)一體化編碼和接口技術(shù)規(guī)范,設(shè)計(jì)和實(shí)現(xiàn)多源異構(gòu)地震災(zāi)情數(shù)據(jù)的一體化編碼管理和數(shù)據(jù)的接口接入。將多源異構(gòu)數(shù)據(jù)轉(zhuǎn)化為具有一定規(guī)律、易于計(jì)算機(jī)和人識(shí)別處理的符號(hào)編碼,同時(shí)根據(jù)不同的數(shù)據(jù)結(jié)構(gòu)設(shè)計(jì)不同的數(shù)據(jù)接口融合方法,該接口將不同數(shù)據(jù)來(lái)源、不同數(shù)據(jù)格式的地震事件災(zāi)情信息,以災(zāi)情指標(biāo)為基本元素、災(zāi)情文件為基本單元,按照不同的數(shù)據(jù)結(jié)構(gòu)進(jìn)行數(shù)據(jù)讀取和發(fā)送。將多源異構(gòu)地震數(shù)據(jù)按照結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)的結(jié)構(gòu)類(lèi)型,設(shè)計(jì)三類(lèi)數(shù)據(jù)接口形式。同時(shí),針對(duì)不同來(lái)源的數(shù)據(jù),設(shè)計(jì)不同的大類(lèi)子類(lèi)代碼,然后通過(guò)一體化編碼來(lái)進(jìn)行進(jìn)一步的數(shù)據(jù)融合接入。通過(guò)這種方式,不僅可以減少不同結(jié)構(gòu)數(shù)據(jù)中存在的信息冗余部分,也可以避免單一數(shù)據(jù)存在的信息缺失,盡可能保證地震災(zāi)情數(shù)據(jù)的完整性。采用多源也提高了系統(tǒng)數(shù)據(jù)獲取的實(shí)時(shí)性。
結(jié)構(gòu)化數(shù)據(jù)的一體化編碼作為結(jié)構(gòu)化數(shù)據(jù)的一項(xiàng)屬性,對(duì)一條多源異構(gòu)災(zāi)情數(shù)據(jù)進(jìn)行標(biāo)識(shí)。接口通過(guò)一體化編碼作為關(guān)鍵字進(jìn)行索引,采用關(guān)系數(shù)據(jù)庫(kù)接口形式或電子表格數(shù)據(jù)接口形式實(shí)現(xiàn)與多源異構(gòu)災(zāi)情數(shù)據(jù)管理系統(tǒng)的接入。一體化編碼中的災(zāi)情碼為數(shù)據(jù)入庫(kù)分類(lèi)提供依據(jù),系統(tǒng)自動(dòng)讀取數(shù)據(jù)并實(shí)現(xiàn)存儲(chǔ),如圖12所示。
圖12 結(jié)構(gòu)化數(shù)據(jù)的接入示例
半結(jié)構(gòu)化數(shù)據(jù)的一體化編碼同樣作為半結(jié)構(gòu)化數(shù)據(jù)的一項(xiàng)屬性,對(duì)一條多源異構(gòu)災(zāi)情數(shù)據(jù)進(jìn)行標(biāo)識(shí)。接口采用XML、JSON數(shù)據(jù)格式讀取數(shù)據(jù),以一體化編碼作為數(shù)據(jù)的第一個(gè)標(biāo)簽索引,實(shí)現(xiàn)與多源異構(gòu)災(zāi)情數(shù)據(jù)管理系統(tǒng)的接入。當(dāng)數(shù)據(jù)連接ftp服務(wù)器進(jìn)行存儲(chǔ)時(shí),服務(wù)器會(huì)自動(dòng)讀取該文件編碼信息進(jìn)行識(shí)別存儲(chǔ),如圖13所示。
圖13 半結(jié)構(gòu)化數(shù)據(jù)的接入示例
非結(jié)構(gòu)化數(shù)據(jù)的一體化編碼作為該文件的名稱(chēng),接口采用文件讀取方式,以一體化編碼作為文件名字進(jìn)行索引,直接讀取Word及PDF文件、圖片、音頻、視頻等信息數(shù)據(jù),實(shí)現(xiàn)與多源異構(gòu)災(zāi)情數(shù)據(jù)管理系統(tǒng)的接入,如圖14所示。
圖14 非結(jié)構(gòu)化數(shù)據(jù)的接入示例
本文結(jié)合災(zāi)情數(shù)據(jù)管理存在的問(wèn)題,參考相關(guān)規(guī)范標(biāo)準(zhǔn)提出了多源異構(gòu)地震數(shù)據(jù)一體化編碼和接口技術(shù)規(guī)范,同時(shí)設(shè)計(jì)和實(shí)現(xiàn)了多源災(zāi)情數(shù)據(jù)的一體化管理模式。將多源社會(huì)災(zāi)情數(shù)據(jù)通過(guò)接口規(guī)范輸入到基于微服務(wù)(Balalaie et al,2016)的多源災(zāi)情數(shù)據(jù)管理服務(wù)系統(tǒng)平臺(tái),通過(guò)一體化編碼實(shí)現(xiàn)了災(zāi)情數(shù)據(jù)接口輸入、災(zāi)情數(shù)據(jù)一體化編碼入庫(kù)、災(zāi)情數(shù)據(jù)展示、災(zāi)情的一體化編碼輸出等全周期性統(tǒng)一管理(中華人民共和國(guó)國(guó)家質(zhì)量監(jiān)督檢驗(yàn)檢疫總局等,2014)。圍繞“重大自然災(zāi)害監(jiān)測(cè)預(yù)警與防范”重點(diǎn)專(zhuān)項(xiàng),根據(jù)政府決策和社會(huì)公眾服務(wù)的需求,針對(duì)多源異構(gòu)災(zāi)情數(shù)據(jù)進(jìn)行統(tǒng)一化管理,設(shè)計(jì)提出了多源異構(gòu)數(shù)據(jù)的一體化編碼和接口技術(shù)規(guī)范,同時(shí)開(kāi)發(fā)完成了多源異構(gòu)地震數(shù)據(jù)的一體化管理系統(tǒng)(韓萬(wàn)江等,2019)。系統(tǒng)具備可移植性和可擴(kuò)展性,為準(zhǔn)確、快速、及時(shí)地收集并上報(bào)地震災(zāi)情信息,評(píng)估地震烈度(張方浩等,2016),對(duì)各級(jí)政府決策指揮、搶險(xiǎn)救災(zāi)提供一定的支持作用。