馬艷蘭,木 霖,曹志勇,高 儼,郭 晉,陳云輝,劉夢然
(1.云南省農業(yè)環(huán)境保護監(jiān)測站,云南昆明 650201;2.云南農業(yè)大學,昆明黑龍?zhí)?650201)
隨著互聯(lián)網(wǎng)、云計算、大數(shù)據(jù)等信息技術的快速發(fā)展,可為數(shù)據(jù)量龐大的云南省農業(yè)環(huán)境與農產品質量現(xiàn)狀調查與安全評價提供數(shù)據(jù)支撐與保障。云南省農業(yè)環(huán)境保護工作在實施耕地及農產品協(xié)同監(jiān)測中,不能及時可視化、電子化、信息化,工作模式嚴重滯后于國家倡導的“智慧農業(yè)、數(shù)字農業(yè)”,嚴重影響了全省耕地土壤環(huán)境質量與農產品質量安全評價的時效性與效率,結合云南省實際,基于云技術的云南省農用地土壤環(huán)境質量協(xié)同采樣系統(tǒng)開發(fā)及應用數(shù)據(jù)庫的構建,通過大數(shù)據(jù)平臺及技術,對土壤及農產品的采樣、質控、匯總、分析等過程提供云技術服務,實現(xiàn)耕地土壤和農產品調查、采樣的可視化、實時化、科學化、空間化,以提高工作效率與數(shù)據(jù)的分析處理能力。
土壤是經(jīng)濟社會可持續(xù)發(fā)展的物質基礎,關系人民群眾身體健康,關系美麗中國建設,保護好土壤環(huán)境是推進生態(tài)文明建設和維護國家生態(tài)安全的重要內容。耕地是農產品生產的源頭,耕地土壤環(huán)境質量直接影響農產品質量。定期或不定期的對全省耕地土壤環(huán)境質量現(xiàn)狀進行監(jiān)測與評價,是保護耕地土壤可持續(xù)發(fā)展及農產品質量安全的基礎。但是長期以來,全省農業(yè)環(huán)境保護系統(tǒng)的科技人員在實施耕地及農產品協(xié)同監(jiān)測樣品采集、采樣質量控制、樣品流轉、樣品制樣與樣品分析等一系列工作中依然采用傳統(tǒng)的作業(yè)模式,做不到實時可視化、電子化、信息化,這種工作模式嚴重滯后于國家倡導的“智慧農業(yè)、數(shù)字農業(yè)”,嚴重影響了全省耕地土壤環(huán)境質量與農產品質量安全評價的時效性與效率的提高。
農用地土壤環(huán)境質量協(xié)同采樣系統(tǒng)通過地圖網(wǎng)格化,經(jīng)緯度定點,土壤樣本采集、食用農產品樣本采集,樣本實驗分析,同時通過數(shù)據(jù)挖掘和分析技術,找準土壤、食用農產品數(shù)據(jù)的潛藏價值及聯(lián)系,有效直觀地呈現(xiàn)云南省土壤環(huán)境質量現(xiàn)狀和趨勢,為云南省耕地土壤環(huán)境質量和農產品質量安全相關活動的發(fā)展規(guī)劃、指導、監(jiān)督、管理,提供數(shù)據(jù)支持。系統(tǒng)建設主要包括以下內容:
整個平臺采用基于主流Hadoop的發(fā)行版本CDH (Cloudera’s Distribution Including Apache Hadoop)作為數(shù)據(jù)存儲和計算的基礎平臺。平臺采用分層式的架構模式,具有松散耦合、邏輯復用等特性,可及時響應業(yè)務需求變化和高效應對平臺的擴展,其架構如圖1。
1.農業(yè)環(huán)境大數(shù)據(jù)融合管理平臺。通過數(shù)據(jù)融合任務,將已有的各個部門、州(市)的土壤相關數(shù)據(jù)、農產品數(shù)據(jù)、污染面源數(shù)據(jù)等從各個系統(tǒng)中抽取到平臺或通過Excel、CSV數(shù)據(jù)格式導入到平臺中,并進行數(shù)據(jù)的清洗、轉換和存儲。數(shù)據(jù)融合平臺負責多數(shù)據(jù)源融合、大數(shù)據(jù)平臺管理、系統(tǒng)基礎支撐管理、系統(tǒng)監(jiān)控。在整個項目中總領“心臟”的角色,為整個項目的平穩(wěn)有效運行保駕護航。
完成功能:
(1)開發(fā)Hadoop集群進行統(tǒng)一的管理和監(jiān)控功能;
(2)開發(fā)Spark作業(yè)提交、任務監(jiān)控和資源調度、任務提交管理、任務隊列管理、任務刪除管理、任務執(zhí)行策略管理、任務狀態(tài)管理功能;
(3)實現(xiàn)平臺使用Sqoop組件對外圍業(yè)務系統(tǒng)的關系型數(shù)據(jù)庫數(shù)據(jù)的抽?。?/p>
(4)使用Oozie組件對數(shù)據(jù)抽取任務的計劃調度管理;
(5)開發(fā)對數(shù)據(jù)抽取任務的監(jiān)控;
(6)開發(fā)對Excel數(shù)據(jù)表格、CSV數(shù)據(jù)表格數(shù)據(jù)的處理與導入功能;
(7)開發(fā)對大數(shù)據(jù)平臺組件:HDFS、HBase、Hive、Impala、Zookeeper、Sqoop、Spark、Yarn、Oozie、Solr的健康狀態(tài)的實時監(jiān)控、對大數(shù)據(jù)平臺各個節(jié)點的CPU、內存、IO使用率的實時監(jiān)控功能;
(8)開發(fā)對大數(shù)據(jù)平臺組件:HDFS、HBase、Hive、Impala、Zookeeper、Sqoop、Spark、Yarn、Oozie、Solr的日志的實時監(jiān)控、日志統(tǒng)計分析功能;
(9)開發(fā)對大數(shù)據(jù)平臺的分角色和應用的權限管理;
(10)開發(fā)系統(tǒng)的基礎管理功能包括:用戶管理、角色管理、權限管理、菜單管理;
(11)開發(fā)系統(tǒng)監(jiān)控功能:CPU、內存、JVM使用率實時監(jiān)控儀表盤、系統(tǒng)操作日志管理。
2.云南省耕地土壤環(huán)境質量專題成果基礎檔案分布式數(shù)據(jù)庫。負責現(xiàn)場采集app或無人機采集回傳的耕地土壤圖片、視頻,以及包括PDF文檔、Word文檔成果報告、GIS相關數(shù)據(jù)等結構化或非結構化數(shù)據(jù)的分布式存儲,確保數(shù)據(jù)的規(guī)范性與標準性,并對外提供數(shù)據(jù)訪問、數(shù)據(jù)檢索、數(shù)據(jù)交換等共享服務。
非結構化存儲使用Hadoop框架中的HDFS分布式文件系統(tǒng),具備高度容錯性,適合部署在廉價的機器上。同時其能提供高吞吐量的數(shù)據(jù)訪問,非常適合大規(guī)模數(shù)據(jù)集上的應用。
對于其他結構化的農業(yè)耕地土壤詳查數(shù)據(jù)、專題成果基礎檔案數(shù)據(jù)、農田資料數(shù)據(jù)、農業(yè)資源等數(shù)據(jù),通過數(shù)據(jù)融合后,使用HBase分布式數(shù)據(jù)庫進行數(shù)據(jù)存儲,利用其特點可在廉價PC Server上搭建起大規(guī)模結構化存儲集群。
完成功能:
(1)實現(xiàn)HDFS/HBase分布式存儲框架存儲耕地土壤詳查數(shù)據(jù)、專題成果基礎檔案數(shù)據(jù)的結構化數(shù)據(jù);
(2)實現(xiàn)HDFS/HBase分布式存儲框架,存儲采樣調查中的圖片、視頻等非結構化數(shù)據(jù);
(3)實現(xiàn)使用分布式計算引擎Spark/MapReduce2對耕地土壤數(shù)據(jù)、農產品數(shù)據(jù)進行批處理計算和分析;
(4)實現(xiàn)流式計算框架Spark Streaming對實時流數(shù)據(jù)進行分析計算;
(5)實現(xiàn)分布式數(shù)據(jù)倉庫Hive和Impala對耕地土壤數(shù)據(jù)、農產品數(shù)據(jù)構建數(shù)據(jù)模型并進行存儲;
(6) 實現(xiàn)Yarn對計算資源的統(tǒng)一調度和管理;
(7)開發(fā)耕地土壤數(shù)據(jù)、農產品數(shù)據(jù)的數(shù)據(jù)目錄功能;
(8)開發(fā)耕地土壤數(shù)據(jù)、農產品數(shù)據(jù)的數(shù)據(jù)目錄服務功能;
(9)開發(fā)耕地土壤數(shù)據(jù)、農產品數(shù)據(jù)的數(shù)據(jù)共享交換服務功能;
(10)開發(fā)數(shù)據(jù)共享交換服務的安全保障功能。
3.云南省耕地土壤環(huán)境質量數(shù)據(jù)平臺及分析系統(tǒng)。
一是采樣任務管理。負責現(xiàn)場采集任務管理、采樣數(shù)據(jù)管理、采樣數(shù)據(jù)匯總分析。擔任整個項目中“管家”的角色,任務的操控、數(shù)據(jù)的采集、進度的統(tǒng)計都由云南省耕地土壤環(huán)境質量數(shù)據(jù)平臺及分析系統(tǒng)管理運作。
管理員可以對采樣任務進行新增、刪除、查詢、修改等管理操作。
每個采樣點系統(tǒng)會生成唯一的編碼(點位編碼)。后續(xù)采樣檢測結果會依據(jù)該編碼進行回填。采樣任務包括土壤采樣、農產品采樣、污染物采樣、其它等類型,創(chuàng)建時可選擇任務類型。
二是任務監(jiān)控。各區(qū)縣可監(jiān)控各個采樣點隊伍的采樣任務完成情況。
各州市可監(jiān)控下轄各個區(qū)縣的采樣任務完成情況。
省級管理員可監(jiān)控各州市的采樣任務情況。
三是現(xiàn)場采樣app。采用app可接收平臺下發(fā)的采樣點任務,采樣隊伍收到任務后即可前往采樣地點完成采樣任務。采樣隊伍根據(jù)任務點位來到預定地點,可打開app進行采樣,app調用拍照功能進行現(xiàn)場采樣拍照。完成后,如有網(wǎng)絡可進行上傳,無網(wǎng)絡則可暫存,等到有網(wǎng)絡時進行上傳。采樣app自動記錄拍照點位精確的經(jīng)緯度信息,以及時間信息,上傳采樣任務數(shù)據(jù)時,自動上傳經(jīng)緯度和時間信息,確保采樣質量。現(xiàn)場采樣完畢后,樣品送到實驗室進行檢測,檢測結果出來后,需進入平臺將采樣檢測結果回填到平臺中。
樣品經(jīng)過實驗室檢測后,可根據(jù)采樣點編碼將采樣檢測結果回填到對應的采樣任務中。填報完畢后,可提交數(shù)據(jù)進行審批校驗。樣品檢測結果填報完畢后,提交審批員進行數(shù)據(jù)審批,審批完成后,任務狀態(tài)變?yōu)橐淹瓿?,采樣?shù)據(jù)進入通過數(shù)據(jù)接口進入分布式數(shù)據(jù)庫中。對于非重點監(jiān)測點位,如果采用無人機采集或其他手段采集,可以提供非重點監(jiān)測點位數(shù)據(jù)的填報功能,按設定的表格填報完成后,提交審批,審批通過后,通過數(shù)據(jù)接口進入分布式數(shù)據(jù)庫中。
完成功能:
(1)開發(fā)云南省耕地土壤數(shù)據(jù)平臺,并封裝到農業(yè)環(huán)境大數(shù)據(jù)融合管理平臺;
(2)開發(fā)土壤采樣任務的管理功能,支持采樣任務系統(tǒng)自動生成;
(3)開發(fā)土壤檢測結果填報系統(tǒng),支持土壤采樣任務監(jiān)控功能、支持采樣任務的催報功能、支持采樣任務審批;
(4)開發(fā)移動端app,支持任務接收及數(shù)據(jù)回傳功能;支持自動保存采樣時間和采樣點的經(jīng)緯度坐標;
(5)開發(fā)云南省土壤基礎信息數(shù)據(jù)管理功能;
(6)開發(fā)土壤檢測化驗數(shù)據(jù)匯總分析功能。
2019年2 月下旬,項目組到玉溪紅塔區(qū)進行項目實地測試。根據(jù)項目需求書內容,實測了用戶模塊、任務中心模塊和任務管理模塊。在實測過程中,信息平臺主要功能均得到實現(xiàn)。同時根據(jù)農業(yè)環(huán)境監(jiān)測的要求,通過優(yōu)化算法、增加樣本點位核實功能等手段,對實測中GPS定位精度及協(xié)同檢測工作流程質控手段進行了優(yōu)化。
2019年3-4 月,采樣app首先在師宗、羅平、會澤、魯?shù)?縣進行農產品采樣試點工作。在工作過程中,不斷與基層采樣人員溝通、協(xié)同完善采樣功能、優(yōu)化質控手段、提高運行效率。項目組成員在培訓過程中不斷與采樣人員進行溝通交流,聽取基層工作人員對于軟件使用過程中操作細節(jié)的建議,并將所有建議進行完整記錄、匯總分類,之后對軟件進行了完善和優(yōu)化。
在師宗縣試點過程中,共完成任務數(shù)724條,采樣數(shù)556條,核實數(shù)724條,獲得采樣圖片1439張,收集了11條意見,增添了手動添加任務功能,完善了數(shù)據(jù)采集表單內容,優(yōu)化了數(shù)據(jù)同步功能,添加2個范圍標識圈,對采集任務定位誤差的距離做了更加符合基層意見的修改,進一步優(yōu)化采樣質量控制手段。經(jīng)過對師宗縣試點工作總結,形成通過“試點縣培訓+實操指導+獲取修改意見”的軟件迭代更新模式,并將該模式拓展到羅平縣、會澤縣、魯?shù)榭h3縣,不斷完善軟件功能和運行效率。
2019年3月23 日,到羅平縣進行了培訓,之后試點工作共完成任務數(shù)587條,采樣數(shù)207條,核實數(shù)532條,獲得采樣圖片572張,收集了8條意見,新增步行導航,采樣界面顯示經(jīng)緯度及距離,同時在任務界面地圖可切換衛(wèi)星影像及電子地圖功能。為進一步對采樣進行質控,對采樣樣品表單修改添加偏移量、偏移說明等字段。
2019年4月2 日,到魯?shù)榭h進行了培訓,共完成任務數(shù)449條,采樣數(shù)309條,核實數(shù)413條,獲得采樣圖片1363張,獲得3條修改意見,在移動端新增是否采樣狀態(tài)標識,并進一步優(yōu)化采樣字段。
會澤縣試點工作,共完成任務數(shù)1127條,采樣數(shù)720條,核實數(shù)645條,獲得采樣圖片1323張,獲得3條修改意見,對后臺各縣任務進度導出功能進一步優(yōu)化,對樣品數(shù)據(jù)關聯(lián)導入核實數(shù)據(jù)進行了優(yōu)化。
隨后,在2019年下半年的普及推廣過程中,共協(xié)助27個縣完成7190條采集任務,獲取140種農產品樣本,經(jīng)過專業(yè)檢測機構評定,最終形成35950組檢測數(shù)據(jù)并順利入庫。2020年,全省剩余98個縣農產品協(xié)同檢測樣品采集、信息收集全部采用這個平臺系統(tǒng)。據(jù)后臺統(tǒng)計, 截至2020年7月24日,共完成省級下達任務數(shù)8899條,縣級采樣數(shù)5054條,核實數(shù)8475條,獲得采樣圖片35 378張,達到了農產品協(xié)同監(jiān)測采樣、核實、數(shù)據(jù)收集實時質量控制要求。
項目進行過程中,前期與業(yè)務單位溝通不及時,部分技術內容未能準確表達業(yè)務意圖。
開發(fā)后期通過與業(yè)務部門加強溝通,積極深入基層試點示范和培訓,梳理基層意見,調整、優(yōu)化軟件功能,保證了項目對業(yè)務工作支持的可靠和可用。
通過數(shù)據(jù)庫連接、抽取、電子表格數(shù)據(jù)導入、在線監(jiān)測數(shù)據(jù)接入、數(shù)據(jù)上傳接口等多種數(shù)據(jù)融合方式。但因沒有或不能使用地圖底圖圖層數(shù)據(jù)、土壤詳細數(shù)據(jù)(包含云南省農用地土壤分布)、食用農產品詳細數(shù)據(jù)(包含食用農產品分布、食用農產品種類)、土壤檢測結果等數(shù)據(jù),故不能快速生成全省土壤質量和農產品質量分析的分布情況、重點污染區(qū)域分布情況,暫不能為決策人員部署實施全省農業(yè)環(huán)境污染治理方案提供直觀、有效、科學的依據(jù)。
為農業(yè)環(huán)境監(jiān)測數(shù)據(jù)建立全省統(tǒng)一的采集標準和使用規(guī)范,為現(xiàn)有業(yè)務數(shù)據(jù)和未來數(shù)據(jù)融合以及使用提供統(tǒng)一標準和規(guī)范。
現(xiàn)有監(jiān)測范圍過窄,監(jiān)測種類數(shù)據(jù)偏少(土壤和農產品),無法對農業(yè)生態(tài)環(huán)境監(jiān)測信息統(tǒng)一發(fā)布形成有效支撐。
為推廣應用農產品質量安全檔案信息追溯,建立長期有效的農產品質量安全工作機制,為從農田到餐桌“舌尖上的安全”源頭——農業(yè)環(huán)境質量現(xiàn)狀打下基礎。