朱亮 鐘艷雯 賀煒 羅林艷 歐陽(yáng)計(jì)躍
摘要:介紹了湖南省農(nóng)業(yè)氣象大數(shù)據(jù)平臺(tái)利用分布式存儲(chǔ)與計(jì)算架構(gòu)大數(shù)據(jù)體系構(gòu)建,包括數(shù)據(jù)收集系統(tǒng)、多源數(shù)據(jù)管理系統(tǒng)、多源數(shù)據(jù)應(yīng)用系統(tǒng)和制定數(shù)據(jù)管理規(guī)范。平臺(tái)了實(shí)現(xiàn)對(duì)農(nóng)業(yè)氣象數(shù)據(jù)的收集、存儲(chǔ)和應(yīng)用,便于下一步綜合運(yùn)用大數(shù)據(jù)、云計(jì)算、智能化等技術(shù)實(shí)現(xiàn)氣象數(shù)據(jù)與跨學(xué)科、跨行業(yè)相關(guān)聯(lián)數(shù)據(jù)進(jìn)行深度融合,為“三農(nóng)”服務(wù)、氣象防災(zāi)減災(zāi)提供數(shù)據(jù)支撐。
關(guān)鍵詞:農(nóng)業(yè)氣象;大數(shù)據(jù);分布式
中圖分類號(hào):S16? ? ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):0439-8114(2019)06-0128-03
DOI:10.14088/j.cnki.issn0439-8114.2019.06.029? ? ? ? ? ?開放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):
Abstract: This paper introduces the construction of Hunan Agrometeorological Big Data Platform using distributed storage and computing architecture, including data collection system, multi-source data management system, multi-source data application system and data management specification. The platform realizes the collection, storage and application of agricultural meteorological data, and facilitates the comprehensive use of big data, cloud computing, intelligent technology and other technologies to realize the deep integration of meteorological data and interdisciplinary and cross-industry related data for the “three rural” services. Data support for meteorological disaster prevention and mitigation.
Key words: agrometeorology; big data; distributed
隨著經(jīng)濟(jì)發(fā)展、社會(huì)進(jìn)步、科技創(chuàng)新不斷深入,農(nóng)業(yè)、水文、林業(yè)、國(guó)土、環(huán)境、交通、軍隊(duì)等各行業(yè)業(yè)務(wù)流程與氣象數(shù)據(jù)呈現(xiàn)出越來(lái)越密切的關(guān)系,氣象防災(zāi)減災(zāi)的效果特別明顯。湖南省是農(nóng)業(yè)大省,位于長(zhǎng)江中游南岸、南嶺以北,山地、丘陵、平原兼俱,處亞熱帶季風(fēng)氣候區(qū),氣象災(zāi)害發(fā)生十分頻繁,是全國(guó)發(fā)生最多的省份之一,常年遭受干旱、暴雨、高溫、低溫、冰凍、熱帶氣旋(臺(tái)風(fēng))、雷電、冰雹、霜凍、寒潮等災(zāi)害性天氣及山洪地質(zhì)、森林火災(zāi)等次生災(zāi)害的影響。目前,湖北省各地農(nóng)田小氣候站因廠家不一致,數(shù)據(jù)格式不統(tǒng)一,極大地影響了農(nóng)田小氣候數(shù)據(jù)的應(yīng)用。隨著氣象觀測(cè)的技術(shù)不斷提升,區(qū)域站數(shù)據(jù)傳輸頻次由1 h上升至5 min,然而如此高密度的觀測(cè)數(shù)據(jù)在農(nóng)業(yè)氣象應(yīng)用中并沒有得到體現(xiàn);與此同時(shí),農(nóng)業(yè)氣象服務(wù)資料來(lái)源涉及中國(guó)氣象局下發(fā)、省內(nèi)各氣象業(yè)務(wù)單位制作共享及水文國(guó)土等其他行業(yè)共享。湖南省缺少統(tǒng)一的平臺(tái)面向農(nóng)戶、農(nóng)業(yè)氣象企業(yè)提供對(duì)這些農(nóng)氣象預(yù)警資料、產(chǎn)品進(jìn)行展示、應(yīng)用和共享。
同時(shí),隨著云計(jì)算和大數(shù)據(jù)技術(shù)不斷推進(jìn),社會(huì)各行業(yè)也逐步將行業(yè)內(nèi)部數(shù)據(jù)進(jìn)行廣泛共享。2018年中國(guó)農(nóng)民豐收節(jié)等的設(shè)立,中央對(duì)“三農(nóng)”工作的越來(lái)越重視,2016、2017 年全國(guó)氣象局長(zhǎng)會(huì)議更是明確要求“發(fā)展基于‘互聯(lián)網(wǎng)+的智慧農(nóng)業(yè)氣象服務(wù)”,為促進(jìn)氣象信息化發(fā)展,實(shí)現(xiàn)對(duì)氣象服務(wù)指導(dǎo)產(chǎn)品、為農(nóng)氣象服務(wù)產(chǎn)品的集約化、共享,為發(fā)展“智慧氣象”奠定基礎(chǔ),因此建立農(nóng)業(yè)氣象大數(shù)據(jù)平臺(tái)。
1? 平臺(tái)主要功能
系統(tǒng)總體框架包括數(shù)據(jù)收集系統(tǒng)、多源數(shù)據(jù)管理系統(tǒng)、多源數(shù)據(jù)應(yīng)用系統(tǒng)和數(shù)據(jù)管理規(guī)范(圖1)。
1.1? 數(shù)據(jù)收集系統(tǒng)
數(shù)據(jù)收集系統(tǒng)利用大數(shù)據(jù)收集等技術(shù),實(shí)現(xiàn)從數(shù)據(jù)服務(wù)器、數(shù)據(jù)庫(kù)、數(shù)據(jù)采集器、手機(jī)等多設(shè)備上收集到文本、結(jié)構(gòu)化數(shù)據(jù)、數(shù)據(jù)流、文檔圖片視頻等多樣數(shù)據(jù),依托地面寬帶網(wǎng)絡(luò)、專線鏈路、移動(dòng)網(wǎng)絡(luò),實(shí)現(xiàn)從數(shù)據(jù)源收集農(nóng)業(yè)氣象等數(shù)據(jù)并進(jìn)行數(shù)據(jù)預(yù)處理及數(shù)據(jù)加工處理(圖2)??赏ㄟ^(guò)接口將獲得的各業(yè)務(wù)系統(tǒng)數(shù)據(jù)、外部數(shù)據(jù)經(jīng)過(guò)預(yù)處理后導(dǎo)入數(shù)據(jù)平臺(tái),支持多種數(shù)據(jù)收集方式。收集方式包括但不限于網(wǎng)上數(shù)據(jù)填報(bào)、批量數(shù)據(jù)導(dǎo)入、實(shí)時(shí)數(shù)據(jù)采集、網(wǎng)上爬蟲方式、主動(dòng)數(shù)據(jù)抽取等,同時(shí)實(shí)現(xiàn)數(shù)據(jù)交換信息監(jiān)控。
1.2? 多源數(shù)據(jù)管理系統(tǒng)
農(nóng)業(yè)氣象數(shù)據(jù)庫(kù)存儲(chǔ)數(shù)據(jù)包括數(shù)據(jù)入庫(kù)、存儲(chǔ)和管理,主要有站點(diǎn)數(shù)據(jù)、格點(diǎn)數(shù)據(jù)、文檔數(shù)據(jù)、圖片數(shù)據(jù)和視頻數(shù)據(jù)五類。多源數(shù)據(jù)管理系統(tǒng)依托分布式數(shù)據(jù)管理、大數(shù)據(jù)等技術(shù),建立高效、安全、穩(wěn)定的數(shù)據(jù)存儲(chǔ)系統(tǒng);系統(tǒng)具有數(shù)據(jù)導(dǎo)入、追加、更新、數(shù)據(jù)的備份和恢復(fù)、數(shù)據(jù)清理維護(hù)等功能。
1.3? 多源數(shù)據(jù)應(yīng)用系統(tǒng)
多源數(shù)據(jù)應(yīng)用系統(tǒng)農(nóng)業(yè)氣象大數(shù)據(jù)庫(kù)為基礎(chǔ),架構(gòu)考慮了上層應(yīng)用的復(fù)雜多變,提供豐富的應(yīng)用服務(wù)和數(shù)據(jù)共享接口[1],采用統(tǒng)一訪問(wèn)接口(API訪問(wèn)、Web Service等)、文件目錄共享服務(wù)提供統(tǒng)一、分級(jí)數(shù)據(jù)檢索接口和服務(wù),滿足用戶對(duì)農(nóng)業(yè)氣象數(shù)據(jù)資料檢索訪問(wèn)的各種需求。
1.4? 數(shù)據(jù)管理規(guī)范
“標(biāo)準(zhǔn)先行”已成為當(dāng)前各行業(yè)數(shù)據(jù)應(yīng)用的共識(shí),有了標(biāo)準(zhǔn)數(shù)據(jù)才能共享,才能支撐大數(shù)據(jù)平臺(tái)應(yīng)用的開展[2]。根據(jù)現(xiàn)有《全國(guó)智慧農(nóng)業(yè)氣象服務(wù)平臺(tái)綜合數(shù)據(jù)存儲(chǔ)規(guī)范》[3]相關(guān)標(biāo)準(zhǔn)規(guī)范,制定數(shù)據(jù)交換標(biāo)準(zhǔn)和應(yīng)用接口標(biāo)準(zhǔn)。
2? 主要技術(shù)實(shí)現(xiàn)
Hadoop架構(gòu)是一種分布式開源計(jì)算平臺(tái),因?yàn)榫哂兴綌U(kuò)容的特性, 使得經(jīng)濟(jì)存儲(chǔ)海量數(shù)據(jù)成為可能。Hadoop由Apache公司為實(shí)現(xiàn)Google的MapReduce編程模型的一個(gè)云計(jì)算開源平臺(tái),Hadoop平臺(tái)包括最底部的文件系統(tǒng)(HDFS)、數(shù)據(jù)庫(kù)(HBase)、數(shù)據(jù)處理(MapReduce)等功能模塊,某種程度上可以說(shuō)Hadoop已經(jīng)成為大數(shù)據(jù)處理工具事實(shí)上的標(biāo)準(zhǔn)[4-6]。Spark是基于內(nèi)存的迭代計(jì)算框架,其核心是彈性分布式數(shù)據(jù)集,可以快速在內(nèi)存中對(duì)數(shù)據(jù)集進(jìn)行多次迭代,以支持復(fù)雜的數(shù)據(jù)挖掘算法和圖形計(jì)算算法。湖南省農(nóng)業(yè)氣象大數(shù)據(jù)平臺(tái)要保證1 TB以上大數(shù)據(jù)量分析探查的高效靈活的響應(yīng),支持列式存儲(chǔ),內(nèi)存計(jì)算等提高查詢速度的技術(shù)。由于自動(dòng)站數(shù)據(jù)量非常大,平臺(tái)在軟硬件上采取的策略是,一方面在硬件上采用高性能服務(wù)器組成服務(wù)器集群;另一方面采用Hadoop大數(shù)據(jù)分析技術(shù),利用HBase數(shù)據(jù)庫(kù)、Kafka數(shù)據(jù)接收、Tachyon內(nèi)存管理、Spark統(tǒng)計(jì)分析等組件,解決自動(dòng)站查詢統(tǒng)計(jì)慢的問(wèn)題。
2.1? 硬件環(huán)境
系統(tǒng)底層硬件資源采用通用X86服務(wù)器部署,利用分布式存儲(chǔ)與計(jì)算架構(gòu)大數(shù)據(jù)體系構(gòu)建,并根據(jù)需求進(jìn)行一定封裝和訂制開發(fā);處理后的數(shù)據(jù)根據(jù)上層應(yīng)用需要向各系統(tǒng)提供數(shù)據(jù)訂制服務(wù)和數(shù)據(jù)共享服務(wù)[7]。按照《氣象信息化基礎(chǔ)設(shè)施資源池建設(shè)指南》的技術(shù)指標(biāo)進(jìn)行購(gòu)置和搭建,納入到信息化基礎(chǔ)設(shè)施資源池進(jìn)行統(tǒng)一管理,共計(jì)采用5臺(tái)服務(wù)器。同時(shí)采用內(nèi)部交換與外部訪問(wèn)獨(dú)立的方式,內(nèi)部數(shù)據(jù)交換采用堆疊的兩個(gè)萬(wàn)兆交換機(jī),外部數(shù)據(jù)交換采用堆疊的兩個(gè)千兆交換機(jī)(圖3)。
2.2? 軟件環(huán)境
5臺(tái)服務(wù)器操作系統(tǒng)為L(zhǎng)inux同一版本的操作系統(tǒng),CentOS Linux release 7.3.1611(Core),64位。管理節(jié)點(diǎn)2臺(tái),通訊節(jié)點(diǎn)3臺(tái),其中,2臺(tái)管理節(jié)點(diǎn)同時(shí)作為通訊節(jié)點(diǎn),數(shù)據(jù)節(jié)點(diǎn)5臺(tái),管理節(jié)點(diǎn)、通訊節(jié)點(diǎn)同時(shí)作為數(shù)據(jù)節(jié)點(diǎn)。程序設(shè)計(jì)語(yǔ)言:Windows平臺(tái)配置Java程序設(shè)計(jì)語(yǔ)言。數(shù)據(jù)庫(kù)系統(tǒng)使用Hbase記錄存儲(chǔ)收發(fā)日志信息、氣象數(shù)據(jù)等(圖4)。
2.3? 軟件展示與應(yīng)用
農(nóng)業(yè)氣象大數(shù)據(jù)平臺(tái)完成了農(nóng)氣月報(bào)、農(nóng)氣旬報(bào)、農(nóng)田小氣候資料,農(nóng)氣站作物觀測(cè),土壤水分、水文資料及日照、輻射、省內(nèi)與周邊六省國(guó)家站區(qū)域站資料以及種植大戶信息錄入,其中農(nóng)氣站作物觀測(cè)起始時(shí)間自1981年,自動(dòng)站累計(jì)16 935站,頻次達(dá)分鐘級(jí)。尤其是會(huì)商視頻點(diǎn)播、自動(dòng)站分鐘降水實(shí)況與統(tǒng)計(jì)等功能移植整合,整合了會(huì)商視頻點(diǎn)播,中小尺度系統(tǒng)等功能單一、小而散的業(yè)務(wù)系統(tǒng)(圖5)。平臺(tái)實(shí)現(xiàn)對(duì)氣象服務(wù)指導(dǎo)產(chǎn)品、為農(nóng)氣象服務(wù)產(chǎn)品的集約化、共享,為發(fā)展“智慧氣象”奠定基礎(chǔ),增強(qiáng)農(nóng)業(yè)氣象服務(wù)的主動(dòng)性、及時(shí)性、針對(duì)性,加強(qiáng)“三農(nóng)”服務(wù)、氣象防災(zāi)減災(zāi),加快發(fā)展智慧氣象,提高服務(wù)質(zhì)量和效益。
2.4? 統(tǒng)一接口訪問(wèn)
針對(duì)農(nóng)氣月報(bào)、天氣預(yù)報(bào)等文件類產(chǎn)品提供文件下載目錄,對(duì)日照、水文等數(shù)據(jù)采用接口訪問(wèn)方式進(jìn)行訪問(wèn),滿足對(duì)各級(jí)用戶對(duì)數(shù)據(jù)訪問(wèn)需求(圖6)。
3? 小結(jié)
大數(shù)據(jù)的研究應(yīng)用已逐步成為一項(xiàng)數(shù)據(jù)工程,研究跨領(lǐng)域的農(nóng)業(yè)氣象大數(shù)據(jù)平臺(tái)需要支撐大數(shù)據(jù)采集、存儲(chǔ)、管理和分析處理等活動(dòng)。目前提出的主要用來(lái)實(shí)現(xiàn)農(nóng)業(yè)氣象大數(shù)據(jù)平臺(tái)的基礎(chǔ)應(yīng)用研究,未來(lái)前景可觀??傮w得出以下結(jié)論:
1)農(nóng)業(yè)氣象大數(shù)據(jù)平臺(tái)通過(guò)分布式技術(shù)實(shí)現(xiàn)了多源數(shù)據(jù)的收集、存儲(chǔ)及應(yīng)用,增強(qiáng)農(nóng)業(yè)氣象服務(wù)的主動(dòng)性、及時(shí)性、針對(duì)性,加強(qiáng)“三農(nóng)”服務(wù)、氣象防災(zāi)減災(zāi),提高服務(wù)質(zhì)量和效益。
2)平臺(tái)整合了中小尺度系統(tǒng)等功能單一、小而散的業(yè)務(wù)系統(tǒng),符合集約化發(fā)展理念。
3)采用統(tǒng)一訪問(wèn)接口(API訪問(wèn)、Web Service等)、文件目錄共享服務(wù)提供統(tǒng)一、分級(jí)的數(shù)據(jù)檢索接口和服務(wù),滿足用戶對(duì)農(nóng)業(yè)氣象數(shù)據(jù)資料檢索訪問(wèn)的各種需求。
參考文獻(xiàn):
[1] 彭? 慶.基于大數(shù)據(jù)技術(shù)的數(shù)據(jù)共享平臺(tái)方案研究[J].電信技術(shù),2014(10):22-23.
[2] 宮夏屹,李伯虎,柴旭東,等.大數(shù)據(jù)平臺(tái)技術(shù)綜述[J].系統(tǒng)仿真學(xué)報(bào),2014,26(3):489-496.
[3] 中國(guó)氣象局減災(zāi)司關(guān)于印發(fā)《全國(guó)智慧農(nóng)業(yè)氣象服務(wù)平臺(tái)數(shù)據(jù)存儲(chǔ)規(guī)范(試行)》的通知[EB/OL].http://www.cma.gov.cn/root7/auto13139/201612/t20161213_349710.html.
[4] 張? 潔,薛勝軍.云計(jì)算環(huán)境下氣象大數(shù)據(jù)服務(wù)的應(yīng)用[J].安徽農(nóng)業(yè)科學(xué),2016,44(5):298-301.
[5] 宋? 杰,孫宗哲,毛克明,等.MapReduce大數(shù)據(jù)處理平臺(tái)與算法研究進(jìn)展[J].軟件學(xué)報(bào),2017,28(3):514-543.
[6] 孟小峰,慈? 祥.大數(shù)據(jù)管理:概念技術(shù)與挑戰(zhàn)[J].計(jì)算機(jī)研究與發(fā)展,2013,50(1):146-169.
[7] 陳? 娜,徐歆壹,宋紅兵,等.基于Hadoop的電信BSS大數(shù)據(jù)平臺(tái)建設(shè)研究[J].電信科學(xué),2013(3):36-40.