劉 堅(jiān) 馬文娟 李盛樂 謝有順
(1.中國(guó)地震局地震研究所(地震大地測(cè)量重點(diǎn)實(shí)驗(yàn)室),湖北武漢 430071;2.寧夏回族自治區(qū)地震局,寧夏銀川 750001)
基于大數(shù)據(jù)技術(shù)的地震科學(xué)數(shù)據(jù)集成共享研究
劉 堅(jiān)1馬文娟2李盛樂1謝有順1
(1.中國(guó)地震局地震研究所(地震大地測(cè)量重點(diǎn)實(shí)驗(yàn)室),湖北武漢 430071;2.寧夏回族自治區(qū)地震局,寧夏銀川 750001)
針對(duì)目前地震科學(xué)數(shù)據(jù)共享過程中存在數(shù)據(jù)種類繁雜、數(shù)據(jù)量大而存儲(chǔ)線性擴(kuò)展困難、檢索性能瓶頸等問題,從核心地震業(yè)務(wù)數(shù)據(jù)資源入手,梳理了地震觀測(cè)、探測(cè)、實(shí)驗(yàn)與試驗(yàn)、專題等7大類科學(xué)數(shù)據(jù);采用大數(shù)據(jù)技術(shù),集成重構(gòu)了一套全新地震科學(xué)數(shù)據(jù)共享平臺(tái)。該平臺(tái)以數(shù)據(jù)集為基本單位,為地震科研人員、監(jiān)測(cè)預(yù)報(bào)人員、地震科學(xué)愛好者等全行業(yè)用戶提供開放、統(tǒng)一、便捷、一站式數(shù)據(jù)共享服務(wù)。
地震科學(xué)數(shù)據(jù);數(shù)據(jù)共享;分布式存儲(chǔ);大數(shù)據(jù);云計(jì)算
地震科學(xué)數(shù)據(jù)共享是2002年科技部科學(xué)數(shù)據(jù)共享首批試點(diǎn)項(xiàng)目之一,經(jīng)過10多年的建設(shè)與發(fā)展,地震科學(xué)數(shù)據(jù)共享工作取得了一系列的成果:中國(guó)地震臺(tái)網(wǎng)中心率先在地震系統(tǒng)開展地震科學(xué)數(shù)據(jù)共享工程,匯交整理了地震行業(yè)眾多學(xué)科的數(shù)據(jù)資源,建設(shè)了學(xué)科主體數(shù)據(jù)庫(kù),規(guī)劃設(shè)計(jì)了數(shù)據(jù)管理和服務(wù)標(biāo)準(zhǔn)[1]。隨后,江蘇省地震局依托本省的測(cè)震數(shù)據(jù)庫(kù)、前兆數(shù)據(jù)庫(kù)建設(shè)了江蘇省地震科學(xué)數(shù)據(jù)共享網(wǎng)站[2],上海市地震局建設(shè)了省局資源共享平臺(tái),對(duì)強(qiáng)震、測(cè)震、空間信息、地震地質(zhì)背景等數(shù)據(jù)進(jìn)行規(guī)范化管理[3];中國(guó)地震局工程力學(xué)研究所建設(shè)了專門針對(duì)強(qiáng)震數(shù)據(jù)共享系統(tǒng);中國(guó)地震局地球物理研究所上線了測(cè)震波形數(shù)據(jù)共享系統(tǒng)等。然而,上述共享網(wǎng)站或系統(tǒng)主要采用傳統(tǒng)集中式IOE(IBM服務(wù)器+ Oracle數(shù)據(jù)庫(kù)+EMC存儲(chǔ))模式,而隨著地震數(shù)據(jù)爆炸式增長(zhǎng),該模式下服務(wù)器存儲(chǔ)量的不斷擴(kuò)展不僅給財(cái)政支出和日常運(yùn)維帶來壓力,技術(shù)上也存在以下4個(gè)方面的問題與不足[4]。一是存儲(chǔ)橫向線性擴(kuò)展有限,傳統(tǒng)系統(tǒng)都屬于TB級(jí),而支持PB級(jí)能力有限;二是硬件平臺(tái)兼容性差,致使異構(gòu)平臺(tái)整合困難;三是非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)處理能力不足,關(guān)系型數(shù)據(jù)庫(kù)僅對(duì)結(jié)構(gòu)化數(shù)據(jù)處理高效;四是數(shù)據(jù)處理與檢索性能瓶頸,數(shù)據(jù)量大、讀寫頻繁導(dǎo)致傳統(tǒng)數(shù)據(jù)庫(kù)I/O性能下降。
針對(duì)上述問題,本文從地震業(yè)務(wù)核心數(shù)據(jù)資源入手,采用大數(shù)據(jù)技術(shù)架構(gòu),將數(shù)據(jù)采集、清洗、標(biāo)準(zhǔn)化、數(shù)據(jù)集整理、集成的整個(gè)流程,進(jìn)行重構(gòu)設(shè)計(jì)并實(shí)現(xiàn)了一套全新的地震科學(xué)數(shù)據(jù)共享集成平臺(tái),為全行業(yè)用戶提供開放、統(tǒng)一、一站式數(shù)據(jù)共享服務(wù)。
按照地震科學(xué)數(shù)據(jù)分類標(biāo)準(zhǔn)[5],地震科學(xué)數(shù)據(jù)分為地震觀測(cè)數(shù)據(jù)、地震探測(cè)數(shù)據(jù)、地震調(diào)查(考察)數(shù)據(jù)、地震實(shí)驗(yàn)與試驗(yàn)數(shù)據(jù)、地震專題數(shù)據(jù)、防震減災(zāi)綜合數(shù)據(jù)、其他地震數(shù)據(jù)等7個(gè)大類、44個(gè)中類、286個(gè)小類。
按時(shí)間周期,地震數(shù)據(jù)可以分為:前兆數(shù)據(jù)、測(cè)震數(shù)據(jù)以及專題整編數(shù)據(jù)。前兆數(shù)據(jù)主要是地形變、電磁、地下流體的前兆觀測(cè)資料,包括:原始數(shù)據(jù)和預(yù)處理數(shù)據(jù)的秒值、分鐘值、小時(shí)值、日均值,觀測(cè)日志和儀器運(yùn)行日志以及輔助觀測(cè)數(shù)據(jù)(如中國(guó)氣象局CLDAS大氣數(shù)據(jù))等。測(cè)震數(shù)據(jù)包括:2013—2015年SEED、SAC、Miniseed、ASCII等格式的事件波形數(shù)據(jù),1900年至今全球7級(jí)以上,1973年至今全球6級(jí)以上,公元前780年至今全國(guó)5級(jí)以上,1965年至今全國(guó)2級(jí)以上地震目錄、全球地震目錄、全球?yàn)?zāi)害信息目錄以及中國(guó)臺(tái)網(wǎng)快報(bào)、正式觀測(cè)報(bào)告、區(qū)域子網(wǎng)觀測(cè)報(bào)告、震源機(jī)制解等。專題整編數(shù)據(jù):《中國(guó)震例》中的285個(gè)歷史地震資料(1996—2006),以及傾角 1°~ 90°、滑動(dòng)角-180°~180°的三維動(dòng)態(tài)斷層錯(cuò)動(dòng)gif圖;大震應(yīng)急產(chǎn)品數(shù)據(jù)集(震中位置、地震構(gòu)造圖、地震波傳播圖、波形圖、斷層錯(cuò)動(dòng)模型、震源機(jī)制解、地震動(dòng)預(yù)測(cè)、余震分布)等。
按時(shí)間維度可以將地震數(shù)據(jù)分為實(shí)時(shí)、準(zhǔn)實(shí)時(shí)、歷史數(shù)據(jù)三類。
為實(shí)現(xiàn)上述地震科學(xué)數(shù)據(jù)的集成與共享,克服傳統(tǒng)數(shù)據(jù)共享系統(tǒng)存在的問題,本文利用大數(shù)據(jù)技術(shù)架構(gòu)進(jìn)行地震科學(xué)大數(shù)據(jù)平臺(tái)的設(shè)計(jì),其總體架構(gòu)如圖1所示。
共享平臺(tái)主要完成3個(gè)層面的工作:一是采集匯交地震大數(shù)據(jù),二是實(shí)現(xiàn)地震大數(shù)據(jù)的存儲(chǔ)處理,三是地震大數(shù)據(jù)的展現(xiàn)與查詢下載。首先采集匯交三類數(shù)據(jù)源。其次將匯集的數(shù)據(jù)置于地震大數(shù)據(jù)平臺(tái)進(jìn)行處理。針對(duì)數(shù)據(jù)的價(jià)值高低采取不同融合方式進(jìn)行存儲(chǔ)處理:事務(wù)型業(yè)務(wù)數(shù)據(jù)采用關(guān)系型數(shù)據(jù)庫(kù)存儲(chǔ),低價(jià)值密度數(shù)據(jù)采用Hadoop下的HDFS(Hadoop Distributed File System)、MapReduce等方式存儲(chǔ)處理[6-9],高價(jià)值密度數(shù)據(jù)采用列存儲(chǔ)、壓縮技術(shù)、粗粒度索引等技術(shù)進(jìn)行存儲(chǔ)管理。最后通過基于臺(tái)站、測(cè)點(diǎn)、測(cè)項(xiàng)、類別等方式,將原始數(shù)據(jù)、波形、產(chǎn)品、專題等數(shù)據(jù)以數(shù)據(jù)集的形式為用戶提供查詢、預(yù)覽和下載服務(wù)。
地震大數(shù)據(jù)共享平臺(tái),涉及以下主要關(guān)鍵技術(shù)。
(1)數(shù)據(jù)標(biāo)準(zhǔn)化。數(shù)據(jù)標(biāo)準(zhǔn)化包括數(shù)據(jù)的清洗處理、數(shù)據(jù)資源編目和數(shù)據(jù)格式規(guī)范等。其中數(shù)據(jù)清洗是人工校驗(yàn)與研發(fā)數(shù)據(jù)清洗模型和算法相結(jié)合,通過數(shù)據(jù)間的相互印證和邏輯關(guān)系校準(zhǔn)異常值,補(bǔ)齊缺失值,形成規(guī)范統(tǒng)一的元數(shù)據(jù)。
圖1 地震大數(shù)據(jù)共享平臺(tái)總體架構(gòu)
(2)系統(tǒng)互操作。針對(duì)跨平臺(tái)、跨部門、跨系統(tǒng)的不同需求,應(yīng)通過高通用、可伸縮、易擴(kuò)展的互操作技術(shù),實(shí)現(xiàn)結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的對(duì)接與互連互通。
(3)數(shù)據(jù)存儲(chǔ)。針對(duì)海量數(shù)據(jù)的實(shí)時(shí)性、快捷性調(diào)用需求,應(yīng)采用Hadoop和MapReduce等云存儲(chǔ)和分布式計(jì)算技術(shù),實(shí)現(xiàn)存儲(chǔ)與計(jì)算的并發(fā)運(yùn)行。
(4)海量數(shù)據(jù)檢索。針對(duì)數(shù)據(jù)產(chǎn)品多源性、海量性和繁雜性特點(diǎn),規(guī)范和統(tǒng)一數(shù)據(jù)文件管理方式,開發(fā)能夠支持海量影像數(shù)據(jù)的快速調(diào)用、動(dòng)態(tài)顯示的模糊檢索和精準(zhǔn)檢索運(yùn)算技術(shù),包括布爾檢索、邏輯檢索、鄰近檢索和字段限制檢索等。
(5)數(shù)據(jù)安全。綜合利用防火墻技術(shù)、安全評(píng)估技術(shù)、入侵檢測(cè)技術(shù)、防病毒技術(shù)等,建立完整的、立體的、多層次的系統(tǒng)安全防御體系。
歷史靜態(tài)數(shù)據(jù)主要利用Sqoop(在Hadoop和關(guān)系數(shù)據(jù)庫(kù)中傳遞數(shù)據(jù)工具)和Extract-Transform-Load(縮寫ETL)工具將數(shù)據(jù)清洗、標(biāo)準(zhǔn)化后以數(shù)據(jù)集的形式進(jìn)行文件存儲(chǔ),處理過程較簡(jiǎn)單。在此不再贅述[10]。重點(diǎn)闡述兩類增量業(yè)務(wù)觀測(cè)數(shù)據(jù):一是測(cè)震實(shí)時(shí)波形流數(shù)據(jù),二是前兆等準(zhǔn)實(shí)時(shí)數(shù)據(jù)的集成。從圖2可以看到:(1)實(shí)時(shí)波形流數(shù)據(jù)處理過程。通過適配器程序?qū)?shí)時(shí)波形數(shù)據(jù)從測(cè)震流服務(wù)器接入并推送到Kafka(一種高吞吐量的分布式發(fā)布訂閱消息系統(tǒng))集群中,相當(dāng)于一個(gè)數(shù)據(jù)緩沖區(qū),Storm(一種流式處理框架)[11]上的應(yīng)用實(shí)時(shí)獲取Kafka消息緩沖區(qū)中的數(shù)據(jù)進(jìn)行解析、分析,并將結(jié)果持久化至HBase和Mysql數(shù)據(jù)庫(kù)供共享平臺(tái)使用和展示。(2)前兆和其他準(zhǔn)實(shí)時(shí)數(shù)據(jù)。利用Sqoop或ETL在監(jiān)控程序的控制下,將數(shù)據(jù)源的增量數(shù)據(jù)抽取至Greenplum(一種在數(shù)據(jù)倉(cāng)庫(kù)中能快速查詢結(jié)果分布式數(shù)據(jù)庫(kù))供共享平臺(tái)使用和展示。
針對(duì)地震系統(tǒng)內(nèi)部科學(xué)數(shù)據(jù)量日益暴增使得傳統(tǒng)集中垂直方式存在存儲(chǔ)擴(kuò)展瓶頸的問題,可以采用分布式服務(wù)器集群水平擴(kuò)展方法加以解決,而用于集群的服務(wù)器可以是普通的服務(wù)器,這樣既可降低運(yùn)營(yíng)成本,也可使存儲(chǔ)服務(wù)器輕易地?cái)U(kuò)展至數(shù)千臺(tái)。為此,該平臺(tái)采用分布式Nosql(Not Only Sql)數(shù)據(jù)庫(kù)存儲(chǔ)架構(gòu)設(shè)計(jì),地震觀測(cè)數(shù)據(jù)如前兆各學(xué)科、測(cè)震、強(qiáng)震等連續(xù)波形、事件波形數(shù)據(jù)選用Hbase分布式數(shù)據(jù)庫(kù)進(jìn)行存儲(chǔ),而由于HBase具有將所有需要一起進(jìn)行查詢并把數(shù)據(jù)存儲(chǔ)在一起這一特性,HBase集群就自然能夠根據(jù)key來組織數(shù)據(jù)。在水平分割時(shí),key值的范圍就可以被用來分割數(shù)據(jù)。每一個(gè)服務(wù)器可以存儲(chǔ)全部數(shù)據(jù)的一個(gè)子集。同時(shí)分布式的數(shù)據(jù)還可以被同時(shí)訪問。這樣大大增強(qiáng)了HBase的可擴(kuò)展性。
Hbase表是一個(gè)分布式多維表,關(guān)鍵在設(shè)計(jì)好Row Key,以方便數(shù)據(jù)查詢并進(jìn)行數(shù)據(jù)分析。根據(jù)地震業(yè)務(wù)邏輯,觀測(cè)數(shù)據(jù)表的Row Key可以有以下幾個(gè)部分構(gòu)成:<臺(tái)網(wǎng)Netid ><臺(tái)站Stationid><測(cè) 點(diǎn)pointid><儀 器Intrid><測(cè) 項(xiàng)Itemid><采 樣率Samplerate><時(shí)間戳Timestamp><產(chǎn)品類別Protype>。當(dāng)要查詢某個(gè)臺(tái)網(wǎng)某個(gè)時(shí)間段數(shù)據(jù)就可以指定起始Row Key為
通過模擬相同存儲(chǔ)環(huán)境,將Mysql與Hbase兩者針對(duì)結(jié)構(gòu)化觀測(cè)數(shù)據(jù)的存儲(chǔ)進(jìn)行效能測(cè)試,在關(guān)鍵代碼行處添加秒表,記錄執(zhí)行命令時(shí)間。數(shù)據(jù)量(條)分別為50條、100條、1000條、1萬條、10萬條。每次插入保存完畢把所耗時(shí)長(zhǎng)(單位:ms)寫入日志文件。連續(xù)多次測(cè)試,取平均值。如圖3所示,當(dāng)寫入記錄條數(shù)小于1000時(shí),可以看出兩者所耗時(shí)間差別并不明顯;但隨插入記錄條數(shù)持續(xù)增加,Mysql的插入耗時(shí)開始劇增,而Hbase耗時(shí)變化幅度相對(duì)較小,其存儲(chǔ)性能優(yōu)勢(shì)明顯得到提升。
圖2 增量數(shù)據(jù)集成示意圖
針對(duì)共享平臺(tái)來自不同部門或機(jī)構(gòu)的異構(gòu)數(shù)據(jù),特別是其他部委(如氣象局)數(shù)據(jù),傳統(tǒng)數(shù)據(jù)整合思路是將數(shù)據(jù)從各系統(tǒng)抽取過來集中至一個(gè)數(shù)據(jù)中心,進(jìn)行數(shù)據(jù)集的物理整合。這種方式不僅涉及重復(fù)投資,而且存在數(shù)據(jù)搬遷困難、整合成本高、非結(jié)構(gòu)化數(shù)據(jù)整合困難等問題。為此提出一種新的整合方式:基于分布式云計(jì)算服務(wù)的邏輯數(shù)據(jù)整合。該方式的整合思路為:不強(qiáng)求物理上的集中,而是保持原部門或機(jī)構(gòu)數(shù)據(jù)的分布現(xiàn)狀,將各個(gè)系統(tǒng)的數(shù)據(jù)通過接口包裝成服務(wù),如圖4所示,注冊(cè)到企業(yè)服務(wù)總線,通過企業(yè)服務(wù)總線提供統(tǒng)一的數(shù)據(jù)服務(wù),從而實(shí)現(xiàn)數(shù)據(jù)在邏輯上的整合。
作為數(shù)據(jù)源的結(jié)構(gòu)化數(shù)據(jù)庫(kù)需要開放數(shù)據(jù)庫(kù)接口,供元數(shù)據(jù)管理系統(tǒng)從源數(shù)據(jù)庫(kù)中抽取數(shù)據(jù)結(jié)構(gòu)信息,并保存在元系統(tǒng)中。服務(wù)生成模塊可以查詢存放于元數(shù)據(jù)系統(tǒng)中的各業(yè)務(wù)系統(tǒng)元數(shù)據(jù),通過簡(jiǎn)單的操作自動(dòng)生成提取數(shù)據(jù)的代碼塊,并將該部分代碼塊包裝成云服務(wù),存放于服務(wù)運(yùn)行模塊中,并服務(wù)注冊(cè)到企業(yè)服務(wù)總線,對(duì)外部進(jìn)行數(shù)據(jù)服務(wù)。
圖3 與關(guān)系數(shù)據(jù)庫(kù)存儲(chǔ)性能對(duì)比
圖4 異構(gòu)數(shù)據(jù)整合示意圖
對(duì)于NoSQL數(shù)據(jù)庫(kù),由于沒有統(tǒng)一的數(shù)據(jù)結(jié)構(gòu),是無法通過上面的方式自動(dòng)生成代碼塊并發(fā)布提供服務(wù)的。但可以通過定制服務(wù)接口的方式生成提供服務(wù),通過云服務(wù)進(jìn)行集成并發(fā)布到數(shù)據(jù)整合平臺(tái),統(tǒng)一對(duì)外提供服務(wù)。在這種情況下,只能針對(duì)每個(gè)接口進(jìn)行云服務(wù)的定制開發(fā)。
平臺(tái)數(shù)據(jù)種類多,涉及眾多學(xué)科,規(guī)范不統(tǒng)一,具有典型多維、異構(gòu)特點(diǎn),且用戶需求也各異多樣,為此平臺(tái)采用“化整為零,各個(gè)擊破,分而治之”策略,對(duì)于震源機(jī)制解、地震目錄等已規(guī)范化的測(cè)震數(shù)據(jù),保留原國(guó)際通用的標(biāo)準(zhǔn)格式,亦便于用戶直接下載使用;對(duì)于測(cè)震連續(xù)、事件波形數(shù)據(jù),因數(shù)據(jù)量大,結(jié)構(gòu)復(fù)雜,則采用MiniSEED[12]格式,既滿足專業(yè)用戶需求,又減少數(shù)據(jù)格式轉(zhuǎn)換代價(jià);對(duì)于涉及多學(xué)科的前兆數(shù)據(jù),雖然數(shù)據(jù)種類各異,但因其業(yè)務(wù)參數(shù)基本相同,平臺(tái)利用XML封裝設(shè)計(jì)了一種通用的、易于理解、易于解析的中間數(shù)據(jù)格式模型。
數(shù)據(jù)集XML數(shù)據(jù)封裝模型,結(jié)構(gòu)如下:
XML數(shù)據(jù)封裝模型的定義基于地震前兆業(yè)務(wù)邏輯為基本結(jié)構(gòu)框架,以標(biāo)簽Dzdataset為根元素標(biāo)識(shí)數(shù)據(jù)類型,主體部分由元信息部分和數(shù)據(jù)集部分組成,分別以標(biāo)簽metadata和datasets標(biāo)記。
平臺(tái)設(shè)計(jì)的XML文檔依據(jù)前兆數(shù)據(jù)庫(kù)管理規(guī)則,以統(tǒng)一的數(shù)據(jù)模型來描述保存在異構(gòu)環(huán)境中的各種數(shù)據(jù),靈活表達(dá)數(shù)據(jù)內(nèi)涵,屏蔽了數(shù)據(jù)源中應(yīng)用環(huán)境和數(shù)據(jù)結(jié)構(gòu)的異構(gòu)性。同時(shí),標(biāo)簽元素的規(guī)整性也確保了文檔在網(wǎng)絡(luò)中傳輸?shù)谋憷砸约捌脚_(tái)處理數(shù)據(jù)的統(tǒng)一性[14]。這些特征有利于XML文檔在不同系統(tǒng)之間的交換,推動(dòng)數(shù)據(jù)的全面共享。
平臺(tái)實(shí)現(xiàn)主要是服務(wù)器端網(wǎng)站的研發(fā),為滿足平臺(tái)“低藕合、高內(nèi)聚”的目標(biāo),實(shí)現(xiàn)代碼的健壯性和可擴(kuò)展性,平臺(tái)采用典型的三層結(jié)構(gòu),即用戶界面層/表示層(負(fù)責(zé)與用戶進(jìn)行交互)、業(yè)務(wù)邏輯層、數(shù)據(jù)訪問層(主要是對(duì)非原始數(shù)據(jù)的操作層,也就是僅對(duì)數(shù)據(jù)庫(kù),而不是對(duì)數(shù)據(jù)的操作,具體為業(yè)務(wù)邏輯層或用戶界面層提供數(shù)據(jù)服務(wù))。本平臺(tái)采用MVC模式的SSM(SpringMVC、Spring和Mybatis)框架實(shí)現(xiàn),如圖5,各層采用不同的技術(shù)構(gòu)建了易于維護(hù)擴(kuò)展的Web應(yīng)用程序。
圖6 平臺(tái)主頁
地震數(shù)據(jù)共享服務(wù)平臺(tái)以友好的門戶網(wǎng)站向地震全行業(yè)用戶開放,主頁鏈接為:http://10.5.109.26:8080/csds/index.html。 如 圖 6 所示,客戶端用戶僅需在瀏覽器地址欄鍵入主頁鏈接即可進(jìn)入系統(tǒng)主頁。主頁包括5個(gè)部分:導(dǎo)航欄、重要資料推薦區(qū)、圖形展示區(qū)、快捷搜索區(qū)和產(chǎn)品滾動(dòng)區(qū)。
系統(tǒng)上線以來,運(yùn)行穩(wěn)定,具有可靠的容錯(cuò)機(jī)制;支持多用戶并發(fā)操作;系統(tǒng)單次響應(yīng)最大時(shí)間≤20秒;海量數(shù)據(jù)平均單次查詢≤30秒;離線數(shù)據(jù)準(zhǔn)備最大時(shí)間≤24時(shí);在服務(wù)端可動(dòng)態(tài)添加業(yè)務(wù)service模塊,提供接口使用,在功能和性能上均達(dá)到預(yù)期要求。
(1)采用分布式數(shù)據(jù)庫(kù)(Nosql)技術(shù),解決了傳統(tǒng)集中式存儲(chǔ)水平擴(kuò)展困難的問題,與傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)相比,數(shù)據(jù)量越大,Nosql數(shù)據(jù)庫(kù)存儲(chǔ)與檢索的效能優(yōu)勢(shì)越明顯。
(2)采用云計(jì)算技術(shù),解決了數(shù)據(jù)搬遷困難、整合成本高、非結(jié)構(gòu)化數(shù)據(jù)整合困難等問題,使不同部門或機(jī)構(gòu)的異構(gòu)數(shù)據(jù)源整合變得快捷高效。
(3)采用了數(shù)據(jù)標(biāo)準(zhǔn)化技術(shù),利用XML數(shù)據(jù)封裝模型實(shí)現(xiàn)了異構(gòu)環(huán)境下數(shù)據(jù)的自由、便捷共享,提供了涵蓋所有數(shù)據(jù)結(jié)構(gòu)的多維度檢索及相應(yīng)的下載服務(wù),從不同角度滿足了用戶的檢索、下載需求。
利用上述大數(shù)據(jù)技術(shù),地震科學(xué)數(shù)據(jù)集成共享平臺(tái)重構(gòu)建成后,為地震全行業(yè)用戶提供了零障礙、一站式數(shù)據(jù)共享渠道,全v面提升了行業(yè)數(shù)據(jù)源的共享服務(wù)能力,但隨著共享平臺(tái)的推廣使用,主體共享數(shù)據(jù)和用戶量都將不斷擴(kuò)充,數(shù)據(jù)的分布式管理和在線可視化功能需進(jìn)一步完善,以保障系統(tǒng)的高效、穩(wěn)定和體驗(yàn)度。
[1]劉瑞豐, 蔡晉安, 彭克銀, 等. 地震科學(xué)數(shù)據(jù)共享工程[J]. 地震, 2007, 27(2): 9-16.
[2]詹小艷, 許紅梅, 朱升初, 等.江蘇省地震科學(xué)數(shù)據(jù)共享平臺(tái)技術(shù)研究[J].防災(zāi)科技學(xué)院學(xué)報(bào), 2012, 14(1):57-63.
[3]袁媛, 尹京苑.上海地震科學(xué)數(shù)據(jù)共享服務(wù)平臺(tái)建設(shè)[J].華北地震科學(xué), 2014, 32(1): 16-21.
[4]諸云強(qiáng), 宋佳, 潘鵬, 等.地學(xué)數(shù)據(jù)共享發(fā)展現(xiàn)狀、問題與對(duì)策研究[J].中國(guó)科技資源導(dǎo)刊, 2014(4): 55-63. DOI: 10.3772/j.issn.1674-1544.2014.04.010
[5]黃永文, 張建勇, 黃金霞, 等.國(guó)外開放科學(xué)數(shù)據(jù)研究綜述[J].現(xiàn)代圖書情報(bào)技術(shù), 2013(5): 21-27.
[6]LIVNY M, THAIN D, TANNENBAUM T. Distributed computing in practice: the condor experience[J]. Concurrency & Computation Practice & Experience, 2005,17(2/4): 323-356.
[7]AGRAWAL D, DAS S, EL A A. Big data and cloud computing: current state and future opportunities[C]//14th Int’l Conf. on Extending Database Technology(EDBT 2011). Uppsala: ACM Press, 2011: 530-533.DOI: 10.1145/1951365.1951432.
[8]TALLON PP. Corporate governance of big data: perspectives on value, risk, and cost[J]. Computer, 2013,46(6): 32-38. DOI: 10.1109/MC.2013.155.
[9]TALIA D. Clouds for scalable big data analytics[J].Computer, 2013, 46(5): 98-101.DOI: 10.1109/MC. 2013.162.
[10]孫大為, 張廣艷, 鄭緯民.大數(shù)據(jù)流式計(jì)算: 關(guān)鍵技術(shù)及系統(tǒng)實(shí)例[J].軟件學(xué)報(bào), 2014, 25(4): 839-862.
[11]Storm wiki[EB/OL].[2014-09-15]. http: //en.wikipedia.org/wiki/Storm.
[12]IRIS.Data Formats[EB/OL]. [2016-05-18]. http://ds.iris.edu/ds/nodes/dmc/data/formats/#miniseed.
[13]劉堅(jiān), 李盛樂, 戴苗, 等. 基于Hbase的地震大數(shù)據(jù)存儲(chǔ)研究[J].大地測(cè)量與地球動(dòng)力學(xué), 2015, 35(5): 890-893.
[14]唐曉光. 基于訂閱機(jī)制的數(shù)據(jù)共享平臺(tái)的研究與設(shè)計(jì)[D]. 大慶: 東北石油大學(xué), 2013.
Integration and Sharing Research on the Earthquake Science Data Based on the Technology of Big Data
LIU Jian1, MA Wenjuan2, LI Shengle1, XIE Youshun1
(1.Key Laboratory of Earthquake Geodesy, Institute of Seismology, CEA, Wuhan 430071; 2.Earthquake Administration of Ningxia Hui Autonomous Region,Yinchuan 750001)
In the process of sharing seismic scientific data, there are many problems such as complicated data types, large amount of data, difficult linear storage expansion and bottleneck of retrieval performance. This paper starts with the core seismic data resources, and sorts out 7 kinds of scientific data, such as earthquake observation, exploration, experiment and experiment, and special topic. Using big data technology, it integrated a new set of earthquake scientific data sharing platform. The platform takes data sets as basic units and provides open, uni fi ed, convenient and one-stop data sharing services for industry users, such as seismological researchers, monitoring and forecasting personnel, and earthquake science enthusiasts.
seismological science data, data sharing, distributed storage, big data, cloud computing
P315
A
10.3772/j.issn.1674-1544.2017.05.010
劉堅(jiān)(1978—),男,中國(guó)地震局地震研究所減災(zāi)與遙感應(yīng)用研究室副主任,碩士,研究方向:地震大數(shù)據(jù)處理應(yīng)用研究;馬文娟(1975—),女,寧夏回族自治區(qū)地震局高級(jí)工程師,碩士,研究方向:地震數(shù)據(jù)庫(kù)管理及大數(shù)據(jù)新技術(shù)應(yīng)用(通訊作者);李盛樂(1965—),男,中國(guó)地震局地震研究所減災(zāi)與遙感應(yīng)用研究室主任,碩士生導(dǎo)師,主要研究方向:地震分析預(yù)報(bào)軟件研制;謝有順(1992—),男,中國(guó)地震局地震研究所碩士研究生,研究方向:地震信息化研究。
國(guó)家科技支撐課題“地震分析預(yù)測(cè)若干實(shí)用技術(shù)研究”(2012BAK19B00);寧夏自然科學(xué)基金項(xiàng)目“基于物聯(lián)網(wǎng)的大數(shù)據(jù)整合在寧夏地震應(yīng)急信息交換中的應(yīng)用研究”(NZ15214)。
2017年7月14日。