亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于ElasticSearch的氣象大數(shù)據(jù)原型系統(tǒng)*

        2019-03-12 03:41:04鄧鳳東
        中低緯山地氣象 2019年1期
        關(guān)鍵詞:原型氣象系統(tǒng)

        何 林,鄧鳳東,曹 波,王 壘,高 宇

        (陜西省氣象信息中心,陜西 西安 710014)

        1 引言

        隨著氣象觀測水平的不斷提高,氣象數(shù)據(jù)種類、頻次都大幅增加,氣象數(shù)據(jù)與其他行業(yè)數(shù)據(jù)融合,外延不斷增加,基本已形成大數(shù)據(jù)規(guī)模。據(jù)國家氣象信息中心的調(diào)研分析,當(dāng)前與氣象相關(guān)的數(shù)據(jù)資源累計(jì)約2 310種,國家級(jí)、省級(jí)存有的各類氣象數(shù)據(jù)總量約26 PB,僅2016年數(shù)據(jù)增量就超過1.8PB[1]。氣象數(shù)據(jù)蘊(yùn)含著豐富的應(yīng)用和研究價(jià)值,已被業(yè)界普遍認(rèn)可。氣象數(shù)據(jù)一般可分為結(jié)構(gòu)化、非結(jié)構(gòu)、半結(jié)構(gòu)數(shù)據(jù)三大類[2]。在眾多種類的氣象數(shù)據(jù)中,存儲(chǔ)于關(guān)系型數(shù)據(jù)庫中的結(jié)構(gòu)化觀測資料的使用最為廣泛,例如通過對(duì)長時(shí)間序列的實(shí)況監(jiān)測資料進(jìn)行統(tǒng)計(jì)分析,以歷史上相似天氣現(xiàn)象所發(fā)生的天氣或氣候變化的概率為依據(jù),開展氣候預(yù)測業(yè)務(wù)的經(jīng)典方法等[3]。

        本文以解決傳統(tǒng)氣象業(yè)務(wù)應(yīng)用中,結(jié)構(gòu)化數(shù)據(jù)檢索和統(tǒng)計(jì)分析效率較低的痛點(diǎn)問題為切入點(diǎn),選用ElasticSearch全文搜索引擎工具(簡稱ES),搭建一個(gè)氣象大數(shù)據(jù)原型系統(tǒng)。該系統(tǒng)從全國綜合氣象信息共享平臺(tái)(China Integrated Meteorological Information Service System,CIMISS系統(tǒng))接入數(shù)據(jù),涵蓋了氣象數(shù)據(jù)的匯聚采集、加工處理、存儲(chǔ)管理、應(yīng)用服務(wù)等全部業(yè)務(wù)流程[4],并開放標(biāo)準(zhǔn)化的數(shù)據(jù)訪問接口,以支持氣象應(yīng)用系統(tǒng)的對(duì)接。通過設(shè)計(jì)并實(shí)現(xiàn)原型系統(tǒng)、采集并存儲(chǔ)真實(shí)的業(yè)務(wù)數(shù)據(jù)、選取典型用例進(jìn)行對(duì)比測試等過程,驗(yàn)證了原型系統(tǒng)的合理性和可操作性,為未來探索氣象行業(yè)大數(shù)據(jù)+互聯(lián)網(wǎng)大數(shù)據(jù)的分析應(yīng)用準(zhǔn)備了數(shù)據(jù)平臺(tái),并奠定了理論和實(shí)踐基礎(chǔ)。

        2 系統(tǒng)架構(gòu)

        氣象大數(shù)據(jù)原型系統(tǒng)分為四層,系統(tǒng)架構(gòu)如圖1所示。

        圖1 氣象大數(shù)據(jù)原型系統(tǒng)整體架構(gòu)Fig.1 The Overall Architecture Meteorological Big Data Prototype System

        基礎(chǔ)設(shè)施層主要是搭建原型系統(tǒng)所需的服務(wù)器、存儲(chǔ)陣列及網(wǎng)絡(luò)設(shè)備等,采用集群方式搭建,計(jì)算節(jié)點(diǎn)及存儲(chǔ)空間可線性擴(kuò)展。數(shù)據(jù)平臺(tái)層為整個(gè)原型系統(tǒng)的核心,數(shù)據(jù)來源為國省統(tǒng)一的CIMISS數(shù)據(jù)環(huán)境。基于CIMISS提供的數(shù)據(jù)接口采集和同步數(shù)據(jù)[5],同時(shí)進(jìn)行必要的加工處理,將原始數(shù)據(jù)及算法加工處理生成的產(chǎn)品存儲(chǔ)于Hadoop分布式文件系統(tǒng)(Hadoop Distributed File System,簡稱HDFS)及ElasticSearch分布式數(shù)據(jù)庫。數(shù)據(jù)服務(wù)層通過對(duì)ES提供的接口進(jìn)行封裝,形成JAVA、RESTful和類SQL語句三種數(shù)據(jù)調(diào)用和訪問方式。業(yè)務(wù)應(yīng)用層將各類應(yīng)用場景轉(zhuǎn)換為三大類,包括數(shù)據(jù)檢索、統(tǒng)計(jì)分析、數(shù)據(jù)可視化展示??蓾M足歷史同期分析、長時(shí)間序列數(shù)據(jù)下載等業(yè)務(wù)應(yīng)用場景的基本需求,并支持對(duì)平臺(tái)存儲(chǔ)的各類數(shù)據(jù)和產(chǎn)品進(jìn)行可視化展示。

        本文的原型系統(tǒng)以中國地面逐小時(shí)觀測資料為研究對(duì)象。該資料時(shí)序較長,且保存相對(duì)完整,經(jīng)粗略統(tǒng)計(jì),從1951年至今,全國地面觀測站,包括國家站和區(qū)域站,總存儲(chǔ)的逐時(shí)觀測數(shù)據(jù)記錄數(shù)逾30億條,規(guī)模較大。在此數(shù)據(jù)的基礎(chǔ)上,可通過算法加工,衍生得到日、候、旬、月、季、年及30 a整編等不同尺度的統(tǒng)計(jì)產(chǎn)品[6],具有較高的實(shí)用價(jià)值。另一方面,CIMISS系統(tǒng)設(shè)計(jì)時(shí),該數(shù)據(jù)存儲(chǔ)于單表中,在使用時(shí)存在明顯瓶頸,大數(shù)據(jù)量檢索和統(tǒng)計(jì)分析耗時(shí)較長,在應(yīng)用方面具有較大的優(yōu)化空間。

        3 關(guān)鍵技術(shù)

        3.1 數(shù)據(jù)采集

        氣象大數(shù)據(jù)原型系統(tǒng)的數(shù)據(jù)采集模塊通過調(diào)用氣象數(shù)據(jù)統(tǒng)一服務(wù)接口(Meteorological Unified Service Interface Community,簡稱MUSIC)實(shí)現(xiàn)。MUSIC基于國省統(tǒng)一的CIMISS數(shù)據(jù)環(huán)境,面向氣象業(yè)務(wù)和科研,提供了統(tǒng)一、標(biāo)準(zhǔn)、豐富、具有多種調(diào)用形式的數(shù)據(jù)訪問服務(wù)和應(yīng)用編程接口,為各級(jí)應(yīng)用系統(tǒng)提供直接支撐的數(shù)據(jù)接入服務(wù)[7]。調(diào)用MUSIC的JAVA API接口,研發(fā)數(shù)據(jù)ETL(抽取、轉(zhuǎn)換、加載)工具,實(shí)現(xiàn)將中國地面逐小時(shí)數(shù)據(jù)(資料編碼為SURF_CHN_MUL_HOR)采集并同步到大數(shù)據(jù)原型系統(tǒng)對(duì)應(yīng)的數(shù)據(jù)表中。

        數(shù)據(jù)采集分為歷史數(shù)據(jù)導(dǎo)入和實(shí)時(shí)數(shù)據(jù)同步兩大類。歷史數(shù)據(jù)導(dǎo)入為一次性運(yùn)行的腳本,使用按時(shí)間段檢索地面數(shù)據(jù)要素接口,由于該接口的單次數(shù)據(jù)訪問時(shí)限為3 d,因此需循環(huán)檢索數(shù)據(jù),再導(dǎo)入目標(biāo)表[8]。實(shí)時(shí)數(shù)據(jù)同步可復(fù)用歷史數(shù)據(jù)導(dǎo)入的接口,設(shè)置時(shí)間段參數(shù)為上次結(jié)束同步時(shí)間到當(dāng)前時(shí)間,并配置定時(shí)執(zhí)行策略。由于CIMISS中,當(dāng)前時(shí)次整點(diǎn)數(shù)據(jù)的入庫呈現(xiàn)類指數(shù)方式的增長,為保證數(shù)據(jù)時(shí)效,實(shí)時(shí)同步程序定時(shí)執(zhí)行策略為每時(shí)次的01、02、03、05、07、10、30、59分。數(shù)據(jù)采集模塊詳細(xì)設(shè)計(jì)參數(shù)見表1。

        表1 大數(shù)據(jù)原型系統(tǒng)數(shù)據(jù)采集模塊設(shè)計(jì)參數(shù)Tab.1 The Design Parameters of Data Acquisition Module in the Big Data Prototype System

        注:數(shù)據(jù)來源為中國地面逐小時(shí)資料,接口為按時(shí)間段檢索地面數(shù)據(jù)要素。

        3.2 數(shù)據(jù)處理

        在數(shù)據(jù)處理模塊,主要是對(duì)導(dǎo)入的原始數(shù)據(jù)進(jìn)行清洗、更新以及二次加工等操作。數(shù)據(jù)清洗主要是針對(duì)中國地面逐小時(shí)觀測數(shù)據(jù)中的一些異常值和無效值進(jìn)行剔除,例如在出現(xiàn)自動(dòng)氣象站設(shè)備之前,主要依靠每日定時(shí)的人工觀測,非人工觀測時(shí)段的數(shù)據(jù)即為無效值,可按需剔除。本次原型系統(tǒng)搭建,為保證數(shù)據(jù)規(guī)模,對(duì)該類數(shù)據(jù)予以保留。數(shù)據(jù)更新主要是對(duì)更正報(bào)文導(dǎo)致的數(shù)據(jù)記錄進(jìn)行處理,本次原型系統(tǒng)搭建,當(dāng)出現(xiàn)同一站號(hào)相同觀測數(shù)據(jù)記錄時(shí),采用刪除舊記錄,插入新記錄的策略進(jìn)行數(shù)據(jù)更新。數(shù)據(jù)二次加工可通過部署一些算法實(shí)現(xiàn)數(shù)據(jù)的實(shí)時(shí)處理并生成相應(yīng)產(chǎn)品。例如,實(shí)時(shí)監(jiān)測數(shù)據(jù)完整性,當(dāng)完整性達(dá)到設(shè)定的閾值后,啟動(dòng)日值統(tǒng)計(jì)算法,并將生成的日數(shù)據(jù)產(chǎn)品存儲(chǔ)于相應(yīng)的產(chǎn)品表或文件系統(tǒng)。

        3.3 數(shù)據(jù)存儲(chǔ)

        大數(shù)據(jù)的存取面臨存儲(chǔ)容量和存取速度兩方面的問題[9],因此存儲(chǔ)選型設(shè)計(jì)是大數(shù)據(jù)原型系統(tǒng)的核心。本文搭建的原型系統(tǒng)選用ElasticSearch智能化全文搜索引擎,特別適用于快速地儲(chǔ)存、搜索和分析海量數(shù)據(jù)的應(yīng)用場景。

        ES本質(zhì)上是一個(gè)分布式數(shù)據(jù)庫,允許多臺(tái)服務(wù)器協(xié)同工作,每臺(tái)服務(wù)器可以運(yùn)行多個(gè)ES實(shí)例。單個(gè)ES實(shí)例稱為一個(gè)節(jié)點(diǎn),一組節(jié)點(diǎn)構(gòu)成一個(gè)集群,ES采用無中心化的集群設(shè)計(jì)方式,將多個(gè)分片均衡地分布在集群的所有可用節(jié)點(diǎn)上[10],不會(huì)因某個(gè)節(jié)點(diǎn)的故障而導(dǎo)致整個(gè)集群崩潰。ES在存儲(chǔ)數(shù)據(jù)時(shí)會(huì)索引所有字段,經(jīng)過處理后寫入一個(gè)反向索引。查找數(shù)據(jù)時(shí),直接查找該索引,從而提高查詢速度。索引類似于傳統(tǒng)關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)庫,數(shù)據(jù)表即索引類型,索引的單條記錄稱為 Document(文檔),一般用JSON格式進(jìn)行表示。同一個(gè)索引里面的文檔,不要求有相同的結(jié)構(gòu),但是最好保持相同,這樣有利于提高搜索效率,這與NoSql數(shù)據(jù)庫的特點(diǎn)非常類似。

        以中國地面逐小時(shí)觀測數(shù)據(jù)為例,將CIMISS中存儲(chǔ)的中國地面逐小時(shí)資料的211個(gè)字段(含質(zhì)控碼字段)全部進(jìn)行同步,ES文檔的屬性與CIMISS表結(jié)構(gòu)的字段一一對(duì)應(yīng),插入ES文檔時(shí),自動(dòng)進(jìn)行了全字段索引。同時(shí),為增強(qiáng)可靠性,對(duì)所有數(shù)據(jù)要素進(jìn)行雙副本存儲(chǔ),某索引分片失效時(shí)可啟用副本及時(shí)恢復(fù)。隨著數(shù)據(jù)量的增長,單個(gè)索引量非常大時(shí)可適當(dāng)?shù)卦黾庸?jié)點(diǎn),ES通過自動(dòng)發(fā)現(xiàn)節(jié)點(diǎn)機(jī)制,重新分片和索引數(shù)據(jù)[11]。類似關(guān)系型數(shù)據(jù)庫中的垂直拆分、水平拆分等分片策略,將逐小時(shí)觀測數(shù)據(jù)打散在不同的節(jié)點(diǎn)上。

        3.4 數(shù)據(jù)接口

        ES本身提供了RESTful風(fēng)格的應(yīng)用編程接口,包括PUT、GET、DELETE等方法,實(shí)現(xiàn)對(duì)文檔的添加、更新、查詢、刪除等基本操作。為使上層應(yīng)用接入時(shí)可選用更多樣的數(shù)據(jù)調(diào)用方式,大數(shù)據(jù)原型系統(tǒng)對(duì)ES接口進(jìn)行封裝,實(shí)現(xiàn)了JAVA API、RESTful和類SQL語句3種數(shù)據(jù)服務(wù)接口。以下代碼示例了使用類SQL語句接口,實(shí)現(xiàn)“查詢2009年11月11日,陜西省平均最高氣溫<0 ℃的所有氣象站點(diǎn)列表”。

        Search surf_wea_chn_mul_hor_tab* where PROVINCE ='陜西'and D_DATETIME>"2009-11-11 00∶00∶00" and D_DATETIME<"2009-11-11 23∶00∶00" | avg(V12011) as s group by (V04001,V01301,CNAME ) MAP t | SQL "select CNAME as 站點(diǎn),s as 平均最高氣溫 from t where s<0"

        4 應(yīng)用場景對(duì)比測試

        基于ElasticSearch的氣象大數(shù)據(jù)原型系統(tǒng)在陜西省氣象局進(jìn)行了測試。使用5臺(tái)服務(wù)器,4塊固態(tài)硬盤搭建集群,基于ES搜索引擎和Spark架構(gòu),提供實(shí)時(shí)檢索、交互式統(tǒng)計(jì)分析、數(shù)據(jù)挖掘等計(jì)算能力。通過與CIMISS系統(tǒng)對(duì)接,原型系統(tǒng)共采集了近13億條中國地面逐小時(shí)觀測數(shù)據(jù)記錄,并進(jìn)行雙副本存儲(chǔ)和全表索引。圖2為氣象大數(shù)據(jù)原型系統(tǒng)數(shù)據(jù)采集和索引構(gòu)建概覽界面的截圖,通過安裝ES-head插件實(shí)現(xiàn)。展示了ElasticSearch集群的配置環(huán)境信息,同時(shí),記錄了以年為單位的數(shù)據(jù)分片及數(shù)據(jù)量的大小。

        選取了5個(gè)典型應(yīng)用場景對(duì)氣象大數(shù)據(jù)原型系統(tǒng)的數(shù)據(jù)檢索和統(tǒng)計(jì)分析能力進(jìn)行了測試,應(yīng)用場景清單見表2,包括業(yè)務(wù)中常用的、較有代表性的多并發(fā)數(shù)據(jù)檢索、歷史數(shù)據(jù)排名、歷史同期分析等應(yīng)用。經(jīng)過測試,同等條件下,CIMISS系統(tǒng)中響應(yīng)較慢的長時(shí)間序列數(shù)據(jù)檢索和統(tǒng)計(jì)分析等接口,在大數(shù)據(jù)原型系統(tǒng)中基本都可以達(dá)到秒級(jí)響應(yīng)。圖3為針對(duì)相同應(yīng)用場景,CIMISS和基于ES的大數(shù)據(jù)原型系統(tǒng)分別在10、50、100、200等遞增的不同數(shù)量并發(fā)請(qǐng)求時(shí),響應(yīng)速度的對(duì)比圖??v向比較,隨著并發(fā)數(shù)的增加,CIMISS系統(tǒng)響應(yīng)時(shí)間也成倍提升,最高平均耗時(shí)超過3 s,而大數(shù)據(jù)原型系統(tǒng)的響應(yīng)時(shí)間沒有發(fā)生明顯波動(dòng),始終保持在毫秒級(jí)。橫向比較,在并發(fā)數(shù)較少的情況下,兩個(gè)系統(tǒng)響應(yīng)時(shí)間的差距并不大,而在并發(fā)量激增時(shí),基于ES的大數(shù)據(jù)原型系統(tǒng)的性能則明顯優(yōu)于基于Oracle-RAC的CIMISS系統(tǒng)。

        圖2 氣象大數(shù)據(jù)原型系統(tǒng)數(shù)據(jù)采集和索引構(gòu)建界面 Fig.2 The Data Acquisition and Index Construction Interface in the Meteorological Big Data Prototype System

        序號(hào)應(yīng)用場景描述測試結(jié)果1陜西省國家站小時(shí)數(shù)據(jù)氣溫要素多并發(fā)查詢1 000并發(fā),平均響應(yīng)時(shí)間822 ms2陜西省所有地面觀測站點(diǎn)歷史汛期總降水量排名TOP20共5次測試,平均用時(shí)583.2 ms3陜西省日降水量超過閾值的日期和站點(diǎn)分析共5次測試,平均用時(shí)377.8 ms4指定站點(diǎn)歷年汛期日降水量超過閾值的天數(shù)統(tǒng)計(jì)共5次測試,平均用時(shí)282.4 ms5陜西11月11日最高溫度歷史同期排名共5次測試,平均用時(shí)1 182 ms

        圖3 CIMISS系統(tǒng)和基于ES的氣象大數(shù)據(jù)原型系統(tǒng)平均響應(yīng)速度(ms)對(duì)比Fig.3 The Comparison of Average Response Speed (milliseconds) between CIMISS System and ES-based Meteorological Big Data Prototype System

        使用氣象大數(shù)據(jù)原型系統(tǒng)的RESTful接口,對(duì)“陜西省氣象數(shù)據(jù)共享網(wǎng)”應(yīng)用系統(tǒng)[12]進(jìn)行了數(shù)據(jù)接入改造。優(yōu)化后的數(shù)據(jù)共享網(wǎng)進(jìn)行數(shù)據(jù)查詢時(shí),效率更高,此前較為卡頓的統(tǒng)計(jì)分析等模塊響應(yīng)速度明顯增快,業(yè)務(wù)系統(tǒng)的用戶體驗(yàn)得到了很大改進(jìn)。

        5 結(jié)論與展望

        通過對(duì)最具代表性的中國地面逐小時(shí)觀測資料相關(guān)應(yīng)用場景的測試,表明基于ES的氣象大數(shù)據(jù)原型系統(tǒng)在結(jié)構(gòu)化數(shù)據(jù)的檢索和統(tǒng)計(jì)方面,尤其是多并發(fā)訪問的情況下,相比CIMISS數(shù)據(jù)服務(wù)接口,響應(yīng)時(shí)間性能提升明顯。但由于測試范圍有限,還難以將該原型系統(tǒng)用于業(yè)務(wù)生產(chǎn)環(huán)境,未來可繼續(xù)在以下兩個(gè)方面展開研究:

        ①選取典型的非結(jié)構(gòu)化數(shù)據(jù),如雷達(dá)或衛(wèi)星資料等,在大數(shù)據(jù)原型系統(tǒng)中存儲(chǔ),并選取應(yīng)用場景進(jìn)行性能優(yōu)化測試;

        ②將ES開放接口和CIMISS數(shù)據(jù)服務(wù)接口直接對(duì)接,通過接口網(wǎng)關(guān)實(shí)現(xiàn)數(shù)據(jù)源跳轉(zhuǎn),在保證數(shù)據(jù)同步時(shí)效和對(duì)用戶透明的前提下,實(shí)現(xiàn)原型系統(tǒng)到生產(chǎn)環(huán)境的平穩(wěn)過渡。

        猜你喜歡
        原型氣象系統(tǒng)
        氣象
        Smartflower POP 一體式光伏系統(tǒng)
        氣象樹
        《內(nèi)蒙古氣象》征稿簡則
        WJ-700無人機(jī)系統(tǒng)
        包裹的一切
        ZC系列無人機(jī)遙感系統(tǒng)
        北京測繪(2020年12期)2020-12-29 01:33:58
        《哈姆雷特》的《圣經(jīng)》敘事原型考證
        大國氣象
        連通與提升系統(tǒng)的最后一塊拼圖 Audiolab 傲立 M-DAC mini
        国产精品制服一区二区| 国产98在线 | 日韩| 老少交欧美另类| 白丝美女被狂躁免费视频网站| 亚洲福利网站在线一区不卡| 国产亚洲精品久久久久5区| 国产亚洲精品aaaa片小说| 亚洲AV秘 无码一区二区三区1| 富婆叫鸭一区二区三区| av剧情演绎福利对白| 伊人久久大香线蕉av网禁呦| 456亚洲人成影视在线观看| 天堂av在线一区二区| 蜜臀av毛片一区二区三区| 国内精品卡一卡二卡三| 久久综合五月天| av男人的天堂手机免费网站| 午夜视频在线观看一区二区小| 国产精品一区二区久久不卡| 免费看一级a女人自慰免费| 色综合久久人妻精品日韩| av无码国产精品色午夜| 久久精品国产亚洲精品| 国产强伦姧在线观看| 亚洲黄色av一区二区三区| 国产午夜伦鲁鲁| 精品欧美乱子伦一区二区三区 | 精品视频在线观看日韩| 亚洲成av人片在线观看麦芽| 男人的天堂在线无码视频| 日本熟女视频一区二区三区| 国产成人精品免费久久久久| 久久人人妻人人做人人爽| 国产精品成人无码久久久久久| 亚洲伊人久久一次| 用力草我小逼视频在线播放| 韩国av一区二区三区不卡| 国产乱人伦在线播放| 欧美zozo另类人禽交| 在线观看视频免费播放| 国产人妻久久精品二区三区老狼|