劉朝陽,李 越,黃家懌,2※,劉海峰,2
(1.廣州市健坤網絡科技發(fā)展有限公司,廣東 廣州 510630;2.廣東省現代農業(yè)裝備研究所,廣東 廣州 510630)
隨著國家對農藥、獸藥、化肥、飼料等農用物資監(jiān)管力度的加強,農資檢測的數據呈現出爆炸性增加態(tài)勢。如何處理多源、高緯、異構等農業(yè)大數據,如何利用農業(yè)資源進行科學高效地管理,成為迫切需求,傳統的管理手段和技術已不能滿足目前我國農業(yè)發(fā)展的實際需要[1-3]。
目前,不同時期建設的種植、畜牧、農機等一系列應用系統并行存在,因缺乏統一頂層設計和數據規(guī)范,每個系統需要獨立的服務器、存儲和帶寬資源,造成資源浪費和信息交換共享困難。在數據層面,存在數據孤島,即缺乏頂層設計、數據標準不統一、數據理解缺乏共同的語言。在應用層面,存在應用孤島,即各系統之間彼此獨立、缺乏信息服務交換機制、信息不能交換共享。在業(yè)務層面,存在業(yè)務孤島,即業(yè)務缺乏統一流程管控、存在斷點、不能實現業(yè)務的完整順利執(zhí)行和處理。
為了打破農業(yè)信息資源的孤島格局,更加高效地挖掘農業(yè)數據中的有效信息,設計并構建了面向資源高效管理與可視化分析的檢測大數據平臺,在近紅外光譜技術的體系下對飼料農資進行數據分析。檢測大數據平臺批處理速度是開源Hadoop的10~100倍,是MPP的5~10倍,可以對從GB到PB級的數據量實現復制的查詢和分析。此外,平臺也具有可擴展性,用戶可以通過增加集群節(jié)點數量,線性提高系統的處理能力。在極致的性能與可擴展性之外,平臺還具有簡易的操作和管理、完整的SQL和ACID支持、低延遲的流處理、圖形化的大數據開發(fā)工具套件等優(yōu)勢。
通過平臺,結合紅外光譜快速檢驗技術[4],使用大數據分析方法對搜集到的光譜大數據進行分析與挖掘,然后將分析結果以可視化的方式進行輸出,可以有效地為產品的質量控制提供標準,為原料的管理與存儲、產品的銷售以及上級有關部門的監(jiān)控與執(zhí)法提供可靠依據。
當前的農業(yè)農村數據資源存在缺乏頂層設計、數據標準不統一的問題,給數據后期處理帶來不便。為了優(yōu)化資源的管理效率,需要對大數據的來源、格式等進行規(guī)范。具體需要對外圍設備的對接要求、通信規(guī)約、交換數據內容和格式加以規(guī)范化,以獲得準確、一致、無延遲的管控結果。平臺以數據交換和共享為基礎、以接口規(guī)范為支撐、以精準管控為目標的標準體系,緊緊圍繞外圍設備的接入要求、通信規(guī)約、平臺與外圍設備交互數據的采集和表達、大數據平臺接入安全性管理等重要環(huán)節(jié)開展標準研制。
目前,已開展2類標準規(guī)范的建設:一是大數據平臺的數據接入標準。定義了大數據平臺感知層、傳輸層、應用層的網絡架構(硬件)、系統集成(軟件)及數據/指令流;規(guī)定了大平臺的工業(yè)通信網絡端口及通信規(guī)約、不同協議下數據包的封裝結構,以保證通信可以進行,數據包可以被平臺解析;規(guī)定了外圍設備接入大平臺的安全管控方法和要求。二是大數據平臺的數據采集規(guī)范。規(guī)定了采集數據的方式、頻率和內容,以保證數據的有效性和完整性;基礎數據統一的表達方式,即數據字典。以保證外圍設備傳輸的數據可以被平臺理解。
1.2.1 分布式數據庫存儲
傳統的網絡存儲系統采用集中的存儲服務器存放所有數據,存儲服務器成為系統性能的瓶頸,也是可靠性和安全性的焦點,不能滿足大規(guī)模存儲應用的需要。而分布式網絡存儲系統采用可擴展的系統結構,利用多臺存儲服務器分擔存儲負荷,利用位置服務器定位存儲信息,不但提高了系統的可靠性、可用性和存取效率,還易于擴展,這些優(yōu)點都是傳統的集中存儲服務器所欠缺的。可視化分析的檢測大數據平臺是基于Transwarp Data Hub(簡稱TDH)企業(yè)級大數據平臺(方法參考文獻[5][6])。使用了以分布式文件系統、分布式數據庫為代表的大數據技術,來存儲和管理不同類型與來源的農業(yè)大數據,平臺數據源管理界面如圖1所示。
圖1 平臺數據源管理界面
為了方便用戶的使用,在TDH數據庫連接外,也提供了支持MySQL、MSSQL Server等數據庫的連接功能,如圖2所示,同時也支持用戶對本地的Excel文件進行拖拽上傳,方便、快捷的實現數據云存儲,如圖3所示。數據上傳之后,能實時對已經上傳的數據進行在線預覽,如圖4所示。
1.2.2 可視化分析技術
圖2 數據庫管理界面
圖3 在線文件上傳界面
圖4 數據預覽界面
在海量數據的基礎上,為了將單純的數據轉換成有用的信息和知識,采用了可視化分析的技術對數據進行處理和展示。數據可視化技術的基本思想是將數據庫中每一個數據項作為單個圖元元素表示,大量的數據集構成數據圖像,同時將數據的各個屬性值以多維數據的形式表示,可以從不同的維度觀察數據,從而對數據進行更深入的觀察和分析。
平臺運用了基于JavaScript的數據可視化工具,可以支持柱狀圖、條狀圖、線圖、蠟燭圖、餅圖、雷達、極坐標圖、散點圖、燃燒圖和金字塔圖等圖表。采用的庫是完全獨立的類庫,在應用中不依賴任何其他第三方類庫,就可直接編譯運行。平臺除提供最基本的規(guī)范要素外,還提供了交互特性。用戶在瀏覽基于庫制作的圖表時,用鼠標 hover 圖表內容,可以與其進行交互,使圖表展示細節(jié)信息。圖表還能夠以動態(tài)動畫的形式被繪制出來,帶來非常生動、具體的展示效果,為用戶的數據分析提供強有力的支撐,如圖5所示。
1.2.3 可視化實例演示
1)在可視化界面點擊“新建大屏”,并對大屏進行命名,如:我的展示大屏,如圖6所示;
2)在大屏界面選擇需要的圖表類別,如地圖、折線圖、柱狀圖、雷達圖等,如圖7 所示;
圖5 農資大數據大屏展示界面
3)雙擊組件進行圖表組件信息編輯;
4)根據需求在組件上選擇用戶關注的數據維度、數值,同時可針對目標維度進行數據篩選,如圖8所示;
圖6 新建大屏界面
圖7 圖表組件選擇界面
圖8 圖表構建界面
5)點擊“保存”即可將圖表進行保存,方便用戶隨時查看、調用。
經過合理的排列布局能得到直觀、便于分析的可視化數據展示界面。
飼料檢測大數據平臺基于上述可視化分析的大數據平臺,依據MVC(模型-視圖-控制器)軟件設計模式,采用B/S結構、SOA組件模型和J2EE企業(yè)級架構[7-9],提供標準化接口服務,運用農業(yè)大數據、云計算、物聯網和移動互聯技術的智慧農業(yè)綜合解決方案,將飼料大數據、近紅外光譜檢測、可視化分析與云計算深度融合,實現數字化、信息化的飼料綜合管理平臺。通過簡單易操作的圖形化界面,無需用戶掌握編程,即可通過簡單托拽方式進行可視化分析,幫助飼料生產產家全方位挖掘和利用大數據價值,提升管理效率與智能化生產水平,優(yōu)化飼料原料結構,保障飼料安全,為廠家的經濟效益增長提供有力的幫助[10]。
通過構建飼料檢測大數據平臺,實現了在線式實時接收近紅外光譜設備檢測數據;根據不同的數據模型,如水分、蛋白質、淀粉、纖維等物質進行含量計算,并與參考值進行比對;對含量異常的檢測數據提供數據異常的提示功能;根據用戶的需求對模型進行在線模型優(yōu)化、模型下載,如圖9—12所示。
通過可視化分析,如圖13所示,能夠更好地對實際生產進行指導,如飼料原料蛋白質,水分的月度、季度分布,為用戶購買飼料原料提供智能化的幫助。
圖9 農資快速檢測平臺首頁
圖10 數據過濾
圖11 選擇模型
圖12 依據模型計算得出含量及平臺的參考值
圖13 飼料檢測可視化展示界面
構建面向資源高效管理與可視化分析的農業(yè)大數據平臺,通過處理不同種類飼料的光譜檢測與質量數據,證明該平臺能有效提高數據處理效率,為廠家的生產提供合理的建議與幫助。在數據的挖掘與信息的提取上,還缺乏快速、高效地總結方式,需要使用者對農業(yè)相關信息有良好的積累。如何提高獲取有效信息的效率,是下一步研究需要解決的問題。