衛(wèi)建國,李新慶,馬 寧,劉文毫
(1.中國氣象局旱區(qū)特色農(nóng)業(yè)氣象災(zāi)害監(jiān)測預(yù)警與風險管理重點實驗室,寧夏 銀川 750002;2.寧夏氣象防災(zāi)減災(zāi)重點實驗室,寧夏 銀川 750002;3.北方民族大學(xué) 計算機科學(xué)與工程學(xué)院,寧夏 銀川 750021)
“全國綜合氣象信息共享系統(tǒng)”(China integrated meteorological information service system,CIMISS)是國家級和省級氣象業(yè)務(wù)單位氣象基礎(chǔ)數(shù)據(jù)加工、共享、服務(wù)平臺[1]。CIMISS為省級數(shù)據(jù)庫建設(shè)提供了4個方面基本示范和經(jīng)驗,主要有:①數(shù)據(jù)標準和規(guī)范。該平臺建立了氣象數(shù)據(jù)標準體系,系統(tǒng)設(shè)計過程中已經(jīng)對14大類、498個子類、1 500個細目資料進行了規(guī)范[1];②提供了二次開發(fā)接口-氣象數(shù)據(jù)統(tǒng)一訪問接口(meteorological unified service interface community,MUSIC);③結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)支持;④規(guī)范化的業(yè)務(wù)流程。
江西、陜西、廣西等地以此為基礎(chǔ),開展了本地的業(yè)務(wù)開發(fā)和應(yīng)用[2-6]。匯總各省基于CIMISS業(yè)務(wù)應(yīng)用類型,其公共特征為:使用CIMISS統(tǒng)一數(shù)據(jù)環(huán)境,使其作為基本數(shù)據(jù)來源;應(yīng)用集中在某一特定應(yīng)用領(lǐng)域(例如:監(jiān)測預(yù)警[2]、信息服務(wù)[3-4]、產(chǎn)品服務(wù)[5]、算法改進[6]等)開發(fā);各省開發(fā)應(yīng)用基于人工交互業(yè)務(wù)流程展開,數(shù)據(jù)及產(chǎn)品制作過程使用人工交互方式。從整體業(yè)務(wù)應(yīng)用來看,基于CIMISS統(tǒng)一數(shù)據(jù)環(huán)境的多方面業(yè)務(wù)開發(fā)應(yīng)用,是各省支撐氣象業(yè)務(wù)和服務(wù)開發(fā)的主要形式。近年來,省級氣象業(yè)務(wù)、服務(wù)呈現(xiàn)新四個方面的特點:①服務(wù)精準度要求越來越高,部分重要服務(wù)(如氣象要素預(yù)報)要求具體到鄉(xiāng)鎮(zhèn)一級;②服務(wù)時效要求越來越高,區(qū)域性災(zāi)害天氣監(jiān)測預(yù)警提前量為小時級別;③服務(wù)對象覆蓋面越來越廣;④地方特色服務(wù)需求增長較快,服務(wù)產(chǎn)品分類越來越細。面對省級出現(xiàn)的新特點,基于全局規(guī)劃的CIMISS對省級特色業(yè)務(wù)數(shù)據(jù)支持存在不足。與此同時,新技術(shù)發(fā)展為省級氣象業(yè)務(wù)系統(tǒng)和數(shù)據(jù)庫建設(shè)提供有效借鑒。新技術(shù)主要應(yīng)用有:①Hadoop分布式存儲技術(shù)。國家氣象信息中心使用Hadoop中的Sequence file方式對大量小文件進行預(yù)處理,進行數(shù)據(jù)統(tǒng)計分析,相比原有Oracle數(shù)據(jù)庫處理方式,計算效率明顯提高[7]。廣東省信息中心基于Hadoop、HBase等技術(shù)實現(xiàn)了數(shù)據(jù)存儲管理和數(shù)據(jù)服務(wù)接口,在構(gòu)建數(shù)值預(yù)報產(chǎn)品服務(wù)平臺的設(shè)計和應(yīng)用中進行了探索[8]。②相似的行業(yè)應(yīng)用中,楊峰等在海量農(nóng)業(yè)數(shù)據(jù)資源管理應(yīng)用中提出了相似的框架結(jié)構(gòu),在解決大文件存儲應(yīng)用上進行了探索,檢索效率提高明顯[9]。在大數(shù)據(jù)、云計算技術(shù)發(fā)展的大背景下,在原有CIMISS技術(shù)體系基礎(chǔ)上,充分發(fā)揮大數(shù)據(jù)新技術(shù)的優(yōu)勢,成為本地氣象現(xiàn)代化建設(shè)必然趨勢。
文中在原有CIMISS技術(shù)體系的基礎(chǔ)上,借鑒其成功經(jīng)驗,結(jié)合技術(shù)發(fā)展趨勢[10-11],提出寧夏氣象綜合數(shù)據(jù)庫框架。該框架旨在解決自動化流程和智能化業(yè)務(wù)系統(tǒng)在數(shù)據(jù)庫上面臨的新問題,支撐寧夏省級業(yè)務(wù)應(yīng)用系統(tǒng)運行。
鑒于原有CIMISS數(shù)據(jù)庫對省級特色業(yè)務(wù)、服務(wù)及產(chǎn)品支持的不足,寧夏氣象局基于省級業(yè)務(wù)、服務(wù)的新需求和技術(shù)發(fā)展的新趨勢,制定了寧夏智能化綜合氣象業(yè)務(wù)服務(wù)共享與管理平臺規(guī)劃(以下簡稱智能化平臺),寧夏氣象綜合數(shù)據(jù)庫為該平臺中間部分。智能化平臺包含寧夏省級業(yè)務(wù)應(yīng)用系統(tǒng)、寧夏氣象綜合數(shù)據(jù)庫、綜合氣象信息共享與管理系統(tǒng)三個部分(參見圖1)。其中上下兩部分均圍繞寧夏氣象綜合數(shù)據(jù)庫開展業(yè)務(wù)應(yīng)用和業(yè)務(wù)管理,寧夏氣象綜合數(shù)據(jù)庫處于智能化平臺的核心位置(參見圖1實線部分),為數(shù)據(jù)處理和數(shù)據(jù)應(yīng)用提供基礎(chǔ)支持。寧夏氣象綜合數(shù)據(jù)庫由基礎(chǔ)數(shù)據(jù)庫CIMISS+(以下簡稱基礎(chǔ)數(shù)據(jù)庫)、綜合業(yè)務(wù)產(chǎn)品庫、綜合服務(wù)產(chǎn)品庫三個部分組成,并包含相互通信的數(shù)據(jù)接口服務(wù)。該智能化平臺擬從流程自動化和產(chǎn)品智能化兩個方面,應(yīng)對日益增長的地方特色業(yè)務(wù)需求,提供更加精細精準的地方特色服務(wù)。
圖1 寧夏智能化綜合氣象業(yè)務(wù)服務(wù)共享與管理平臺
CIMISS系統(tǒng)對標準數(shù)據(jù)提供了支持,在CIMISS數(shù)據(jù)標準基礎(chǔ)上,擴展其數(shù)據(jù)范圍,形成了具有本地特色的基礎(chǔ)數(shù)據(jù)庫CIMISS+。在該數(shù)據(jù)庫中不僅包含了國家氣象考核標準數(shù)據(jù),而且融入了地方特色基礎(chǔ)氣象數(shù)據(jù),形成了對標準氣象數(shù)據(jù)和特色氣象數(shù)據(jù)的雙重支持。
CIMISS基礎(chǔ)上的標準氣象業(yè)務(wù),難以滿足不斷催生的省級本地特色業(yè)務(wù)需求,因此在數(shù)據(jù)庫CIMISS+基礎(chǔ)上,需要從數(shù)據(jù)自動加工、業(yè)務(wù)產(chǎn)品智能制作、服務(wù)產(chǎn)品智慧發(fā)布三個環(huán)節(jié)進行數(shù)據(jù)接口和數(shù)據(jù)服務(wù)擴展,支撐省級業(yè)務(wù)應(yīng)用系統(tǒng)運行。與此同時,全流程的數(shù)據(jù)留痕和數(shù)據(jù)分析成果在綜合氣象信息共享與管理系統(tǒng)的支撐下,在不同部門和專業(yè)間進行充分共享,實現(xiàn)了數(shù)據(jù)、產(chǎn)品、服務(wù)資源的集約管理。如上所述,以三大數(shù)據(jù)庫及其接口服務(wù)的擴展共同組成了寧夏氣象綜合數(shù)據(jù)庫。
面對日益精細、迅速發(fā)展的服務(wù)需求,寧夏氣象綜合數(shù)據(jù)庫必須為相關(guān)業(yè)務(wù)單位應(yīng)用平臺解決四個方面問題:①發(fā)揮大數(shù)據(jù)技術(shù)優(yōu)勢,提供高效的數(shù)據(jù)庫框架和統(tǒng)一數(shù)據(jù)應(yīng)用環(huán)境;②兼容CIMISS原有技術(shù)框架和標準,支持地方特色產(chǎn)品應(yīng)用和業(yè)務(wù)管理;③建立標準訪問接口,為系統(tǒng)間交互提供數(shù)據(jù)支持;④根據(jù)本地特色業(yè)務(wù)流程,構(gòu)建標準服務(wù),支撐智能化業(yè)務(wù)系統(tǒng)運行。
根據(jù)寧夏本地業(yè)務(wù)、服務(wù)特點,寧夏氣象綜合數(shù)據(jù)庫由基礎(chǔ)數(shù)據(jù)庫、綜合業(yè)務(wù)產(chǎn)品數(shù)據(jù)庫、綜合服務(wù)產(chǎn)品以及為省級業(yè)務(wù)應(yīng)用系統(tǒng)配套服務(wù)的數(shù)據(jù)接口服務(wù)共同組成。本地原始觀測數(shù)據(jù)進入到基礎(chǔ)數(shù)據(jù)庫,數(shù)據(jù)進一步通過數(shù)據(jù)接口服務(wù)向綜合業(yè)務(wù)產(chǎn)品智能化生成系統(tǒng)提供服務(wù),同時生成的產(chǎn)品進入綜合業(yè)務(wù)產(chǎn)品數(shù)據(jù)庫;業(yè)務(wù)產(chǎn)品數(shù)據(jù)通過數(shù)據(jù)接口服務(wù)為綜合服務(wù)產(chǎn)品智能化制作系統(tǒng)提供服務(wù),同時又將服務(wù)產(chǎn)品保存到綜合服務(wù)產(chǎn)品數(shù)據(jù)庫;服務(wù)產(chǎn)品通過數(shù)據(jù)接口服務(wù)為服務(wù)產(chǎn)品智慧發(fā)布系統(tǒng)提供服務(wù),將產(chǎn)品發(fā)送給服務(wù)對象。從數(shù)據(jù)收集到業(yè)務(wù)產(chǎn)品生成,從產(chǎn)品制作到產(chǎn)品發(fā)布,寧夏氣象綜合數(shù)據(jù)庫提供全過程服務(wù)。因此,它在系統(tǒng)協(xié)作間擔負關(guān)鍵角色,在地方特色產(chǎn)品和服務(wù)應(yīng)用中發(fā)揮重要作用。
智能化業(yè)務(wù)系統(tǒng)與傳統(tǒng)業(yè)務(wù)系統(tǒng)相比,存在顯著特點:①智能處理環(huán)節(jié)增多,人機交互變少。智能化系統(tǒng)中使用量化指標和模型代替人工交互決策和判別,原有人機交互轉(zhuǎn)換為量化指標和模型處理。②自動化流程保障。從數(shù)據(jù)定時收集和處理到完成既定業(yè)務(wù)產(chǎn)品生成,從服務(wù)產(chǎn)品制作到下一個環(huán)節(jié)服務(wù)產(chǎn)品發(fā)布,整個流程之間銜接保持自動化跟蹤和協(xié)調(diào),保障業(yè)務(wù)流程自動化運行。③數(shù)據(jù)處理時限和質(zhì)量要求更高。數(shù)據(jù)庫需要支撐自動化業(yè)務(wù)流程運行,對數(shù)據(jù)的時限、質(zhì)量提出了更高要求,對于支撐業(yè)務(wù)系統(tǒng)數(shù)據(jù)流轉(zhuǎn)的數(shù)據(jù)庫,必須在規(guī)定時限內(nèi)獲取到數(shù)據(jù),并進行有效數(shù)據(jù)處理。④業(yè)務(wù)管理要求更高。大量數(shù)據(jù)存在交換和資源共享,數(shù)據(jù)資源管理、計算資源分配,產(chǎn)品共享管理相比傳統(tǒng)業(yè)務(wù)管理更加細致,需要方便靈活的管理手段。
根據(jù)智能化業(yè)務(wù)系統(tǒng)的新特點,體現(xiàn)到對數(shù)據(jù)庫的設(shè)計上,基本特征可以概括為:數(shù)據(jù)存儲量和吞吐量大,數(shù)據(jù)處理速度快,流程環(huán)節(jié)之間溝通順暢,管理手段靈活高效。
根據(jù)寧夏現(xiàn)有資源的實際情況,順應(yīng)大數(shù)據(jù)技術(shù)發(fā)展趨勢[12],以大數(shù)據(jù)應(yīng)用為基礎(chǔ)構(gòu)建寧夏綜合數(shù)據(jù)庫框架。針對業(yè)務(wù)系統(tǒng)對數(shù)據(jù)庫的要求,該框架共計分為4層,從低到高分別為:數(shù)據(jù)源層、數(shù)據(jù)接入層、數(shù)據(jù)存儲層、數(shù)據(jù)服務(wù)層(參見圖2)。在綜合數(shù)據(jù)庫總體框架中,描述各層存在的主要問題,提出了需要完成的功能和解決途徑,自下而上論述其邏輯結(jié)構(gòu)和功能,支撐自動化流程和智能化業(yè)務(wù)的系統(tǒng)運行。
圖2 綜合數(shù)據(jù)庫邏輯結(jié)構(gòu)
該層由本地數(shù)據(jù)源和CIMISS標準數(shù)據(jù)源(以下簡稱標準數(shù)據(jù)源)兩部分組成基本數(shù)據(jù)源。
3.1.1 數(shù)據(jù)差異
基于地方服務(wù)需求,本地新增觀測網(wǎng)站氣象要素與標準氣象觀測要素存在差異。在省級氣象數(shù)據(jù)中,本地數(shù)據(jù)源和標準數(shù)據(jù)源有所不同(參見表1)。
表1 本地數(shù)據(jù)源與標準數(shù)據(jù)源的差異
(1)流程差異:本地數(shù)據(jù)源直接通過本地收集獲得,標準數(shù)據(jù)源通過標準流程后獲得,需要上傳至國家局后,定期反饋后獲得。
(2)更新及質(zhì)量差異:本地數(shù)據(jù)源更新及時,但是數(shù)據(jù)沒有經(jīng)過標準流程,數(shù)據(jù)質(zhì)量可能存在瑕疵。標準數(shù)據(jù)源更新存在延遲,但因為該數(shù)據(jù)通過了標準流程控制,相比較本地數(shù)據(jù)源,質(zhì)量控制比較嚴格。
(3)內(nèi)容差異:本地數(shù)據(jù)源因站點密集,并包含本地其他相關(guān)部門共享數(shù)據(jù),數(shù)據(jù)內(nèi)容比較豐富,綜合利用能力更強,但數(shù)據(jù)積累時間序列相對較短。標準數(shù)據(jù)源是標準化的站點數(shù)據(jù),具有長時間序列特點。
(4)應(yīng)用差異:本地數(shù)據(jù)源對于本地特色服務(wù)具有優(yōu)勢,標準數(shù)據(jù)源側(cè)重于區(qū)域服務(wù)和科研項目研究。
3.1.2 主要功能
該部分為寧夏氣象數(shù)據(jù)總來源,支撐省級相關(guān)基本氣象業(yè)務(wù),位于寧夏氣象綜合數(shù)據(jù)庫總體框架的底層。通過本地數(shù)據(jù)源和CIMISS標準數(shù)據(jù)源的融合,形成了寧夏氣象全集數(shù)據(jù)源(即基本數(shù)據(jù)源)。根據(jù)基本數(shù)據(jù)源中兩種數(shù)據(jù)源的不同特點,兼顧兩種數(shù)據(jù)源的服務(wù)優(yōu)勢,在寧夏綜合數(shù)據(jù)庫將兩者結(jié)合起來共同組成省級基本數(shù)據(jù)源,完成了數(shù)據(jù)源的資源整合。
3.2.1 主要任務(wù)
要使該部分成為支撐地方特色氣象業(yè)務(wù)和服務(wù),必須完成數(shù)據(jù)源層的資源整合,消除本地數(shù)據(jù)源和標準數(shù)據(jù)源的數(shù)據(jù)差異。在該層要完成三項基本任務(wù):地方共享數(shù)據(jù)標準化;特色氣象數(shù)據(jù)新增業(yè)務(wù)分類;實時數(shù)據(jù)匯集,數(shù)據(jù)解析,數(shù)據(jù)轉(zhuǎn)換等。
3.2.2 解決思路
標準化需要完成的任務(wù):本地數(shù)據(jù)通常根據(jù)地方服務(wù)需要進行數(shù)據(jù)采集,與標準數(shù)據(jù)采集存在差異。要實現(xiàn)兩類數(shù)據(jù)的融合應(yīng)用,必須統(tǒng)一相應(yīng)標準。為此,需要在本地數(shù)據(jù)標準化過程中,規(guī)劃數(shù)據(jù)發(fā)送和收集時間間隔,統(tǒng)一數(shù)據(jù)記錄單位和精度,確定數(shù)據(jù)字段類型;制定數(shù)據(jù)擴展編碼規(guī)則,分配本地數(shù)據(jù)標準編碼,保持本地數(shù)據(jù)與標準數(shù)據(jù)的一致性。
數(shù)據(jù)分類:數(shù)據(jù)支撐業(yè)務(wù)系統(tǒng)運行,需要解決數(shù)據(jù)精準共享和產(chǎn)品集約化管理問題。為此,需要根據(jù)業(yè)務(wù)單位實際應(yīng)用,建立基本數(shù)據(jù)需求集合,并按照數(shù)據(jù)的應(yīng)用、產(chǎn)品的性質(zhì)、應(yīng)用范圍、分發(fā)的對象等建立數(shù)據(jù)和產(chǎn)品應(yīng)用分類,利用分類信息劃分數(shù)據(jù)應(yīng)用子集。擴展資料分類編碼規(guī)范,制定產(chǎn)品存儲命名標準,增加產(chǎn)品智能識別標識符等。通過數(shù)據(jù)和產(chǎn)品分類和編碼規(guī)范,便于在業(yè)務(wù)管理和產(chǎn)品應(yīng)用中確定數(shù)據(jù)流向、產(chǎn)品去向,實現(xiàn)數(shù)據(jù)和產(chǎn)品精準管理。
數(shù)據(jù)匯集、解析、轉(zhuǎn)換處理:這三個環(huán)節(jié)囊括了數(shù)據(jù)源加工到入庫的所有過程。系統(tǒng)采用SOA(面向服務(wù)的體系結(jié)構(gòu))框架[13],使用時間觸發(fā)、流程觸發(fā)、用戶觸發(fā)的感知策略獲取數(shù)據(jù)信息,啟動Quartz數(shù)據(jù)收集任務(wù),完成數(shù)據(jù)搜集;數(shù)據(jù)解析、轉(zhuǎn)換處理引入了JBPM業(yè)務(wù)流程中間件技術(shù)[14]進行報文格式解析和類型轉(zhuǎn)換,并進行了入庫操作。
該層由系統(tǒng)數(shù)據(jù)存儲和基礎(chǔ)數(shù)據(jù)存儲兩部分組成,其中基礎(chǔ)數(shù)據(jù)存儲包含Oracle集群、基于Hadoop分布式文件系統(tǒng)(HDFS)和HBase。該部分是寧夏綜合氣象數(shù)據(jù)庫的核心,合理規(guī)劃各部分的功能是業(yè)務(wù)系統(tǒng)高效運行的關(guān)鍵。對于省級氣象業(yè)務(wù),在數(shù)據(jù)存儲層需要解決的問題有:結(jié)構(gòu)化氣象數(shù)據(jù)快速處理,并保持與原有系統(tǒng)的兼容性;非結(jié)構(gòu)化數(shù)據(jù)快速響應(yīng)和管理;管理信息與氣象數(shù)據(jù)分離。
3.3.1 結(jié)構(gòu)化數(shù)據(jù)兼容性
對于省級數(shù)據(jù)業(yè)務(wù)應(yīng)用,結(jié)構(gòu)化氣象數(shù)據(jù)涉及范圍最廣,訪問最頻繁,所以必須保證寧夏綜合數(shù)據(jù)庫結(jié)構(gòu)化數(shù)據(jù)的快速處理能力。該數(shù)據(jù)庫以標準數(shù)據(jù)源(使用Oracle數(shù)據(jù)庫)為基礎(chǔ),需要保證現(xiàn)有數(shù)據(jù)業(yè)務(wù)應(yīng)用的兼容性,有利于繼承原有技術(shù)開發(fā)成果。保持數(shù)據(jù)環(huán)境的一致性,有利于本區(qū)域新增數(shù)據(jù)和氣象標準統(tǒng)一,達到現(xiàn)有業(yè)務(wù)與原有業(yè)務(wù)的有機融合。
根據(jù)結(jié)構(gòu)化氣象數(shù)據(jù)的影響面和重要性,寧夏綜合數(shù)據(jù)庫通過部署Oracle集群方式,兼容標準化數(shù)據(jù)。同時,為保證數(shù)據(jù)的處理和存儲能力,在Centos 7環(huán)境下部署兩臺物理服務(wù)器,共計存儲空間4 T,32核CPU。
3.3.2 非結(jié)構(gòu)化數(shù)據(jù)快速響應(yīng)和管理
Hadoop分布式文件系統(tǒng)(HDFS)支持數(shù)據(jù)多副本容錯機制,能提高數(shù)據(jù)訪問吞吐量,非常適合大規(guī)模數(shù)據(jù)集上的應(yīng)用(典型的HDFS文件大小是GB到TB的級別),支持文件的一次寫多次讀操作[15-16]。Hbase是運行在Hadoop上的分布式的和可擴展的大數(shù)據(jù)倉庫[17],能夠利用HDFS的分布式處理模式,存儲具有數(shù)十億行和上百萬列的大表,能夠融合key/value存儲模式,具有強大的實時數(shù)據(jù)查詢、分析的能力,以及通過MapReduce進行離線處理或者批處理的能力。
平臺對大量文件的快速處理是支撐數(shù)據(jù)運行的關(guān)鍵,特別是以雷達、衛(wèi)星為代表的大文件和報文為代表的海量小文件,需要的耗時和占用的資源問題較為突出。楊芙容等在Hadoop下處理雷達數(shù)據(jù)及小文件存儲方面有突出表現(xiàn)[18];陳東輝等使用HBase分布式存儲密集地面分鐘數(shù)據(jù),入庫、檢索效果明顯[19]。寧夏氣象綜合數(shù)據(jù)庫處理的兩類數(shù)據(jù)非常符合上述特點。綜合分析,HDFS+HBase是綜合解決非結(jié)構(gòu)化數(shù)據(jù)較好的方案。
3.3.3 管理信息與氣象數(shù)據(jù)分離
寧夏氣象綜合數(shù)據(jù)庫作為支撐地方業(yè)務(wù)和特色服務(wù)的基礎(chǔ),管理了更多地方氣象資料,增加了標準化外的流程,服務(wù)產(chǎn)品要求更加精準,資源分配更加精細,內(nèi)容更新要求更快。在此過程中,因管理需要規(guī)劃較多數(shù)據(jù)流,多種數(shù)據(jù)流程產(chǎn)生了系統(tǒng)監(jiān)控信息。以上信息相對于氣象數(shù)據(jù)比較獨立,多數(shù)為系統(tǒng)管理、用戶管理、產(chǎn)品管理、服務(wù)管理,應(yīng)用上偏重于管理需求。基于數(shù)據(jù)應(yīng)用獨立性和減輕氣象數(shù)據(jù)服務(wù)器負擔的考慮,將以上信息進行單獨存放和管理。
MySQL作為一個小型關(guān)系型數(shù)據(jù)庫管理系統(tǒng),因其具有體積小、速度快、成本低、開放源碼等特點,廣泛應(yīng)用于Internet上的中小規(guī)模網(wǎng)站。管理信息相比氣象數(shù)據(jù)量要小,要求實時性更高,多用于管理查詢統(tǒng)計,保存時間長度要求相對較低。因此選擇MySQL作為系統(tǒng)管理數(shù)據(jù)庫比較合適。
數(shù)據(jù)服務(wù)層包含數(shù)據(jù)統(tǒng)一接口服務(wù)、資源服務(wù)、數(shù)據(jù)加工服務(wù)三個部分(參見圖2)。進一步分解數(shù)據(jù)服務(wù)層,得到其內(nèi)部詳細結(jié)構(gòu)(見圖3)。該層立足于數(shù)據(jù)存儲層,向省級管理和特色業(yè)務(wù)應(yīng)用提供數(shù)據(jù)統(tǒng)一接口服務(wù)。該部分是支撐業(yè)務(wù)單位系統(tǒng)運行的資源獲取渠道,也是構(gòu)建省級新增業(yè)務(wù)及服務(wù)的基礎(chǔ),同時也是實現(xiàn)信息安全監(jiān)控、資源管理分配、省級業(yè)務(wù)管理的基礎(chǔ)。
圖3 數(shù)據(jù)服務(wù)層結(jié)構(gòu)
3.4.1 資源服務(wù)擴展
借鑒CIMISS資源管理模式,通過擴展資源服務(wù),實現(xiàn)元數(shù)據(jù)管理、資料集管理、資料集發(fā)布、資源配置管理等,最終以統(tǒng)一接口服務(wù)的方式面向業(yè)務(wù)應(yīng)用提供服務(wù)。以上設(shè)計不但將省級資源納入了統(tǒng)一管理,也繼承了氣象標準化體系,使得本地資源管理與CIMISS管理體系保持一致,為省級開展本地精細化管理奠定了基礎(chǔ)。
3.4.2 數(shù)據(jù)服務(wù)擴展
數(shù)據(jù)服務(wù)擴展到省級氣象數(shù)據(jù)資源,將省級特色業(yè)務(wù)應(yīng)用的需求,轉(zhuǎn)化為多種服務(wù)類型(數(shù)據(jù)分析、數(shù)據(jù)計算、數(shù)據(jù)圖形化、數(shù)據(jù)轉(zhuǎn)化等服務(wù)),利用數(shù)據(jù)服務(wù)層的計算資源,完成業(yè)務(wù)應(yīng)用委托功能,最終以統(tǒng)一接口服務(wù)的方式為業(yè)務(wù)應(yīng)用提供數(shù)據(jù)產(chǎn)品。
省級業(yè)務(wù)應(yīng)用中,本地氣象產(chǎn)品和服務(wù)需求最為旺盛,產(chǎn)品缺口較大。尤其是本地特色產(chǎn)品和服務(wù)對數(shù)據(jù)服務(wù)的要求都很強。寧夏本地枸杞、釀酒葡萄、馬鈴薯數(shù)據(jù)需求較為突出。數(shù)據(jù)服務(wù)層中擴展建立這些標準化數(shù)據(jù)服務(wù),為地方特色業(yè)務(wù)應(yīng)用開發(fā)和特色服務(wù)開展提供了基本保障。
3.4.3 數(shù)據(jù)統(tǒng)一接口服務(wù)擴展
CIMISS平臺面向省級業(yè)務(wù)應(yīng)用,開發(fā)并公開了MUSIC,成為各省業(yè)務(wù)應(yīng)用開發(fā)取得多方面進展的主要原因。該接口允許省級業(yè)務(wù)應(yīng)用單位根據(jù)自身業(yè)務(wù)數(shù)據(jù)特點,靈活使用該接口在業(yè)務(wù)應(yīng)用進行二次開發(fā)。該接口成為各地發(fā)揮自身優(yōu)勢的有效途徑。
在寧夏氣象綜合數(shù)據(jù)庫設(shè)計中,同樣吸收了這個基本經(jīng)驗,并且將MUSIC進行了擴展。在設(shè)計過程中,不但以數(shù)據(jù)為對象建立了統(tǒng)一訪問服務(wù)接口,而且將部分管理功能也進行了接口擴展,以此為基礎(chǔ)完成對氣象信息共享管理系統(tǒng)的支持。在省級數(shù)據(jù)庫層面上,完善了本地業(yè)務(wù)應(yīng)用。
在已部署平臺上,對寧夏氣象綜合數(shù)據(jù)庫進行測試。選取基礎(chǔ)數(shù)據(jù)庫中密集存儲的地面小時數(shù)據(jù)作為測試對象,與CIMISS相同類型數(shù)據(jù)進行對比,比較相同記錄條件下訪問接口獲取數(shù)據(jù)消耗時間。測試時雙方擁有的數(shù)據(jù)量為:CIMISS數(shù)據(jù)量為9.5億條,氣象基礎(chǔ)數(shù)據(jù)庫數(shù)據(jù)量12.1億條。測試采用隨機變換參數(shù)的方法,非循環(huán)調(diào)用相同接口,獲得1 000-10萬條記錄兩個接口的耗時結(jié)果(見圖4)。測試結(jié)果表明:在存儲總量相當?shù)那闆r下,現(xiàn)有數(shù)據(jù)庫接口速度是原有數(shù)據(jù)接口速度的3.7~11.4倍。說明該數(shù)據(jù)庫的存取效率相比原有系統(tǒng)有較大提高。
圖4 地面小時數(shù)據(jù)接口訪問耗時對比
寧夏氣象綜合數(shù)據(jù)庫規(guī)劃設(shè)計到運行,歷經(jīng)一年多時間,經(jīng)業(yè)務(wù)單位多方協(xié)調(diào)共同努力,現(xiàn)在已經(jīng)投入業(yè)務(wù)試運行。目前已經(jīng)接入資料146類,結(jié)構(gòu)化數(shù)據(jù)21.638億條,非結(jié)構(gòu)化數(shù)據(jù)73.19 GB,業(yè)務(wù)產(chǎn)品2 099個,服務(wù)產(chǎn)品3 467個。經(jīng)各單位聯(lián)合測試,從目前數(shù)據(jù)庫性能表現(xiàn)來看,基本符合設(shè)計預(yù)期。
寧夏氣象綜合數(shù)據(jù)庫設(shè)計綜合考慮了省級本地數(shù)據(jù)和業(yè)務(wù)服務(wù)系統(tǒng)的特點,在數(shù)據(jù)源層分析了數(shù)據(jù)源基本功能定位和數(shù)據(jù)差異,在數(shù)據(jù)庫技術(shù)框架中采取以下改進方法:①數(shù)據(jù)接入層:對數(shù)據(jù)進行標準化,完成實時數(shù)據(jù)入庫前集中處理,解決本地數(shù)據(jù)與標準數(shù)據(jù)的應(yīng)用標準差異問題;②數(shù)據(jù)存儲層:針對結(jié)構(gòu)化數(shù)據(jù)設(shè)置了物理Oracle集群,非結(jié)構(gòu)化數(shù)據(jù)采用HDFS+HBase方案提高數(shù)據(jù)響應(yīng),MySQL將管理信息和氣象數(shù)據(jù)進行分離處理;③數(shù)據(jù)服務(wù)層:繼承并擴展了CIMISS資源管理和標準體系,資源服務(wù)擴展為本地精細化管理奠定基礎(chǔ);數(shù)據(jù)服務(wù)擴展為地方特色業(yè)務(wù)應(yīng)用開發(fā)提供了基本支撐;以本地化服務(wù)為對象,擴展了數(shù)據(jù)統(tǒng)一訪問接口。該設(shè)計從數(shù)據(jù)庫框架的每個層次考慮了技術(shù)兼容和擴展功能,是CIMISS系統(tǒng)設(shè)計思想和大數(shù)據(jù)技術(shù)應(yīng)用在省級業(yè)務(wù)服務(wù)應(yīng)用的一個實例。
系統(tǒng)間緊密協(xié)作完成業(yè)務(wù)產(chǎn)品的自動化和模式判別的智能化,使得業(yè)務(wù)系統(tǒng)與數(shù)據(jù)庫間網(wǎng)絡(luò)通訊、數(shù)據(jù)交換中間環(huán)節(jié)增多,增加了數(shù)據(jù)庫設(shè)計難度。實際實施過程中,由于多個業(yè)務(wù)系統(tǒng)施工主體不同,技術(shù)體系之間也存在不能兼容的情況,從中尋找雙方都能接受的方案,具有一定難度。對整個系統(tǒng)的頂層設(shè)計和過程管理提出了更高要求,現(xiàn)實情況有可能存在人員的變動,設(shè)計思想變化,都會對既定的技術(shù)方案形成追蹤修正的連鎖反應(yīng),影響項目實施。整體數(shù)據(jù)庫性能和表現(xiàn),需要較長時間的考察和追蹤,適時調(diào)整成為后期改進數(shù)據(jù)庫性能的一種常態(tài)工作。