亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Hadoop農(nóng)業(yè)大數(shù)據(jù)管理平臺(tái)的設(shè)計(jì)①

        2017-06-07 08:24:05文燕
        關(guān)鍵詞:數(shù)據(jù)管理分布式架構(gòu)

        文燕

        (成都農(nóng)業(yè)科技職業(yè)學(xué)院,成都 611130)

        基于Hadoop農(nóng)業(yè)大數(shù)據(jù)管理平臺(tái)的設(shè)計(jì)①

        文燕

        (成都農(nóng)業(yè)科技職業(yè)學(xué)院,成都 611130)

        信息技術(shù)的高速發(fā)展使得每天的數(shù)據(jù)量以TB級(jí)速度暴增,如何有效利用和管理這些爆炸式增長(zhǎng)的大數(shù)據(jù)呢?是當(dāng)前亟待處理的問(wèn)題.大數(shù)據(jù)已經(jīng)滲透到包括農(nóng)業(yè)領(lǐng)域在內(nèi)的各個(gè)領(lǐng)域,隨著農(nóng)業(yè)信息化建設(shè)以及物聯(lián)網(wǎng)技術(shù)在農(nóng)業(yè)生產(chǎn)中的應(yīng)用,產(chǎn)生了海量的農(nóng)業(yè)大數(shù)據(jù)待存儲(chǔ)、管理和處理.本文以成都農(nóng)業(yè)科技職業(yè)學(xué)院彭州葛仙山農(nóng)業(yè)示范基地的農(nóng)業(yè)信息化建設(shè)為背景,根據(jù)農(nóng)業(yè)物聯(lián)網(wǎng)和信息化建設(shè)要求,構(gòu)建高性能基于Hadoop農(nóng)業(yè)大數(shù)據(jù)管理的平臺(tái),實(shí)現(xiàn)農(nóng)業(yè)大數(shù)據(jù)的安全可靠存儲(chǔ)、智能管理與應(yīng)用,最終達(dá)到對(duì)農(nóng)業(yè)生產(chǎn)的智能預(yù)警、智能決策和智能分析的目的,并為農(nóng)戶提供專業(yè)的指導(dǎo).為我國(guó)進(jìn)入精細(xì)化種植、精準(zhǔn)化控制、可視化管理、智能化決策的智慧農(nóng)業(yè)時(shí)代奠定基礎(chǔ).

        農(nóng)業(yè)大數(shù)據(jù);Hadoop;Map/Reduce;HDFS;智慧農(nóng)業(yè)

        1 引言

        “大數(shù)據(jù)”的相關(guān)概念,早在1980年由阿爾文.托夫勒出版的《第三次浪潮》[1]中已經(jīng)提出.隨著物聯(lián)網(wǎng)、云計(jì)算等技術(shù)的迅猛發(fā)展,大數(shù)據(jù)再次吸引了人類的眼球.2015年中央一號(hào)文件再次聚焦農(nóng)業(yè),主題為進(jìn)一步深化農(nóng)村改革加快推進(jìn)農(nóng)業(yè)現(xiàn)代化、信息化,這也是中央連續(xù)12年一號(hào)文件關(guān)注農(nóng)業(yè).農(nóng)業(yè)作為一個(gè)國(guó)家的基礎(chǔ)產(chǎn)業(yè),也緊隨著時(shí)代的步伐,加強(qiáng)現(xiàn)代化大農(nóng)業(yè)發(fā)展,加快科技創(chuàng)新,實(shí)施重大農(nóng)業(yè)科技創(chuàng)新,積極開展應(yīng)用基礎(chǔ)和前沿高技術(shù)領(lǐng)域自主創(chuàng)新[2],傳統(tǒng)的農(nóng)業(yè)生產(chǎn)方式應(yīng)向數(shù)據(jù)驅(qū)動(dòng)的智慧化生產(chǎn)方式轉(zhuǎn)變,標(biāo)志著進(jìn)入農(nóng)業(yè)大數(shù)據(jù)時(shí)代.

        隨著農(nóng)業(yè)信息化的不斷推進(jìn),在長(zhǎng)期的研究和實(shí)踐過(guò)程中,通過(guò)觀察、測(cè)量、實(shí)驗(yàn)等方式積累了大量的對(duì)農(nóng)業(yè)生產(chǎn)經(jīng)營(yíng)過(guò)程具有實(shí)際指導(dǎo)意義的農(nóng)業(yè)數(shù)據(jù),而且這些數(shù)據(jù)還在呈幾何級(jí)飛速增長(zhǎng).這些飛速增長(zhǎng)的數(shù)據(jù)形成了農(nóng)業(yè)大數(shù)據(jù),它是由結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)組成,它涉及到農(nóng)業(yè)生產(chǎn)經(jīng)營(yíng)過(guò)程中的方方面面,比如育種、耕種、收割等[3].農(nóng)業(yè)的快速發(fā)展和農(nóng)業(yè)物聯(lián)網(wǎng)的應(yīng)用,非結(jié)構(gòu)化數(shù)據(jù)在農(nóng)業(yè)數(shù)據(jù)的比重的逐漸上升,將很快會(huì)遠(yuǎn)遠(yuǎn)超過(guò)農(nóng)業(yè)數(shù)據(jù)中結(jié)構(gòu)化數(shù)據(jù).

        如何管理和利用蘊(yùn)含大量的價(jià)值的數(shù)據(jù),是人類亟待解決的問(wèn)題.目前,在管理和處理農(nóng)業(yè)大數(shù)據(jù)方面存在一些凸顯的問(wèn)題:

        (1)各級(jí)農(nóng)業(yè)部門信息孤立,各自為陣,主要以結(jié)構(gòu)化的關(guān)系型數(shù)據(jù)存儲(chǔ)方式來(lái)存儲(chǔ).

        (2)農(nóng)業(yè)大數(shù)據(jù)具有自身的特點(diǎn),如:土壤類型眾多,作物品種復(fù)雜,病蟲害發(fā)生頻繁且癥狀不斷變化,肥水、氣候相互之間的關(guān)系和影響,就使得關(guān)于它們的數(shù)據(jù)庫(kù)與知識(shí)庫(kù)具有大型、多維、動(dòng)態(tài)、不完全、不確定等特征[3].

        (3)各級(jí)部門對(duì)農(nóng)業(yè)生產(chǎn)和經(jīng)營(yíng)過(guò)程中采集的數(shù)據(jù)的重視程度不夠.對(duì)于花費(fèi)了大量的人力、物力和財(cái)力建立起來(lái)的農(nóng)業(yè)大棚,采集來(lái)的數(shù)據(jù)不夠全面,數(shù)據(jù)類型過(guò)少,并且對(duì)于采集來(lái)的數(shù)據(jù)也沒(méi)有得到及時(shí)的處理與存儲(chǔ)和有效的管理,就更別說(shuō)有效的利用,因此農(nóng)業(yè)的智能化程度不高[4].

        (4)對(duì)于農(nóng)業(yè)大數(shù)據(jù)集中管理和利用效率不高.

        (5)在農(nóng)業(yè)大數(shù)據(jù)的存儲(chǔ)和價(jià)值挖掘方面,對(duì)傳統(tǒng)存儲(chǔ)方式和計(jì)算平臺(tái)已遠(yuǎn)遠(yuǎn)不能夠滿足農(nóng)業(yè)大數(shù)據(jù)的處理需要.

        隨著農(nóng)業(yè)信息技術(shù)的普及,成都農(nóng)業(yè)科技職業(yè)學(xué)院依托智能化農(nóng)業(yè)大大背景,在彭州葛仙山農(nóng)業(yè)示范試驗(yàn)基地進(jìn)行了一系列信息化和智能化建設(shè),為了方便對(duì)彭州葛仙山農(nóng)業(yè)產(chǎn)業(yè)示范園所采集的農(nóng)業(yè)大數(shù)據(jù)更好的管理和更高效的利用,真正發(fā)揮示范基地的作用,因此,迫切的要構(gòu)建針對(duì)彭州葛仙山農(nóng)業(yè)產(chǎn)業(yè)示范基地的海量數(shù)據(jù)的存儲(chǔ)和管理的大數(shù)據(jù)處理平臺(tái).針對(duì)農(nóng)業(yè)大數(shù)據(jù)自身的特征,搭建基于Hadoop的農(nóng)業(yè)大數(shù)據(jù)管理應(yīng)用平臺(tái),對(duì)采集的結(jié)構(gòu)化和非結(jié)構(gòu)化的農(nóng)業(yè)大數(shù)據(jù)進(jìn)行并行處理,挖掘出有價(jià)值的數(shù)據(jù)為農(nóng)業(yè)生產(chǎn)和科研服務(wù),充分發(fā)揮大數(shù)據(jù)在智能化、現(xiàn)代化農(nóng)業(yè)產(chǎn)業(yè)中的作用.

        2 Hadoop平臺(tái)簡(jiǎn)介

        Hadoop平臺(tái)是由Apache開發(fā)的一個(gè)運(yùn)行在廉價(jià)機(jī)器上的開放式、可擴(kuò)展的分布式計(jì)算框架,是一種底層細(xì)節(jié)透明的分布式集群系統(tǒng)架構(gòu),即用戶在不了解底層是實(shí)現(xiàn)的基礎(chǔ)上,可以根據(jù)自身需求,通過(guò)函數(shù)編程和操作接口進(jìn)行應(yīng)用開發(fā)的分布式系統(tǒng)[5].

        2.1 Hadoop分布式結(jié)構(gòu)模型

        Hadoop分布式數(shù)據(jù)處理框架包括HDFS(分布式文件系統(tǒng))和Map/Reduce(分布式處理模型)兩個(gè)核心的引擎,還包括了HBase(非關(guān)系型數(shù)據(jù)庫(kù))、Hive等大量的組件,其結(jié)構(gòu)模型如圖1所示.

        圖1 Hadoop分布式結(jié)構(gòu)模型

        圖2 HDFS架構(gòu)模型

        2.2 HDFS(分布式文件系統(tǒng))

        HDFS(Hadoop Distributed File System)是Hadoop分布式結(jié)構(gòu)中非常的核心部件,主要是對(duì)數(shù)據(jù)進(jìn)行存儲(chǔ)和管理,優(yōu)點(diǎn)是容錯(cuò)性高、高吞吐量、有一定的硬件故障檢測(cè)能力.因此,HDFS即使部署在廉價(jià)的硬件平臺(tái)上,都能夠通過(guò)流式數(shù)據(jù)訪問(wèn)的方式提供高吞吐量的數(shù)據(jù)訪問(wèn)能力,從而提高整個(gè)應(yīng)用系統(tǒng)的性能,對(duì)于海量的農(nóng)業(yè)大數(shù)據(jù)的應(yīng)用系統(tǒng)非常適合.

        HDFS采用主從架構(gòu)(Master/Salve)的結(jié)構(gòu)模式,包括一個(gè)控制節(jié)點(diǎn)負(fù)責(zé)管理和存儲(chǔ)Hadoop系統(tǒng)數(shù)據(jù)信息的位置和名稱空間,處理客戶端的請(qǐng)求,一般定義為NameNode(名稱節(jié)點(diǎn));一定數(shù)量的數(shù)據(jù)節(jié)點(diǎn),主要負(fù)責(zé)存儲(chǔ)實(shí)際數(shù)據(jù),告訴主節(jié)點(diǎn)存儲(chǔ)信息,一般定義為DataNode(數(shù)據(jù)節(jié)點(diǎn)),需要存儲(chǔ)的切分文件為: Client.HDFS架構(gòu)如圖2所示.

        2.3 Map/Reduce并行計(jì)算框架

        Map/Reduce是一種新的分布式環(huán)境下的并行計(jì)算模型,由谷歌實(shí)驗(yàn)室于2004年發(fā)表的論文中提出的,主要適用于大于 1TB的大規(guī)模數(shù)據(jù)集計(jì)算分析. Map/Reduce是Map函數(shù)和Reduce函數(shù)兩個(gè)核心操作組成,其中Map函數(shù)對(duì)Client傳來(lái)的熱切文件按照一定的規(guī)則映射成一組相關(guān)的中間文件;Reduce函數(shù)則是對(duì)Map函數(shù)傳來(lái)的中間文件按照規(guī)約進(jìn)行合并或縮減,得到最終的結(jié)果.Map/Reduce架構(gòu)模型如圖3所示.該模型由Job Tracker總調(diào)度,把每一個(gè)任務(wù)分配給Task Tracker執(zhí)行,運(yùn)行在HDFS上的各數(shù)據(jù)節(jié)點(diǎn)的Task Tracker.

        圖3 Map/Reduce架構(gòu)模型

        2.4 HBase分布式數(shù)據(jù)庫(kù)

        HBase是Hadoop分布式結(jié)構(gòu)中的一個(gè)重要組件,其理論基礎(chǔ)來(lái)源于名為《Bigtable:一個(gè)結(jié)構(gòu)化的數(shù)據(jù)庫(kù)分布式系統(tǒng)》Google的論文,是當(dāng)下最為流行的分布式數(shù)據(jù)庫(kù)系統(tǒng).與傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)相比,HBase最大的不同之處存儲(chǔ)格式采用的是列式存儲(chǔ)格式,對(duì)于非結(jié)構(gòu)化的數(shù)據(jù)庫(kù)存儲(chǔ)特別適合列式存儲(chǔ)格.HBase底層為HDFS分布式文件系統(tǒng),使用ZooKeeper實(shí)現(xiàn)分布式協(xié)同機(jī)制,利用Hadoop的Map/Reduce組建來(lái)處理海量數(shù)據(jù)存儲(chǔ)在數(shù)據(jù)庫(kù).

        Hadoop分布式架構(gòu)平臺(tái)對(duì)于解決異構(gòu)農(nóng)業(yè)大數(shù)據(jù)的存儲(chǔ)管理,挖掘有效資源提供非常重要的開源架構(gòu)平臺(tái),主要優(yōu)點(diǎn):可靠性高、可擴(kuò)展性好、高效性、容錯(cuò)性高、低成本.

        3 基于Hadoop農(nóng)業(yè)大數(shù)據(jù)平臺(tái)的設(shè)計(jì)

        針對(duì)現(xiàn)有農(nóng)業(yè)數(shù)據(jù)處理平臺(tái)的數(shù)據(jù)處理和存儲(chǔ)存在不足.一是現(xiàn)有農(nóng)業(yè)數(shù)據(jù)處理平臺(tái)采用的集中式數(shù)據(jù)庫(kù)架構(gòu),隨著數(shù)據(jù)的不斷增多,數(shù)據(jù)庫(kù)的性能會(huì)受到嚴(yán)峻的影響,這也是集中式數(shù)據(jù)庫(kù)成為整個(gè)平臺(tái)架構(gòu)的瓶頸,而對(duì)于海量的非結(jié)構(gòu)化農(nóng)業(yè)大數(shù)據(jù)更是無(wú)法解決.二是針對(duì)海量非結(jié)構(gòu)化的農(nóng)業(yè)大數(shù)據(jù),現(xiàn)有解決平臺(tái)的順序計(jì)算耗時(shí)長(zhǎng),不能夠滿足農(nóng)業(yè)大數(shù)據(jù)時(shí)間要求.因此,要解決農(nóng)業(yè)大數(shù)據(jù)的計(jì)算處理、存儲(chǔ)和挖掘問(wèn)題,需要在現(xiàn)有農(nóng)業(yè)大數(shù)據(jù)管理平臺(tái)的基礎(chǔ)上構(gòu)建以Hadoop為計(jì)算處理中心,HDFS和HBase為數(shù)據(jù)存儲(chǔ)中心的農(nóng)業(yè)大數(shù)據(jù)管理平臺(tái).主要借助于Hadoop分布式并行計(jì)算的數(shù)據(jù)處理能力以及HDFS和HBase分布式大數(shù)據(jù)存儲(chǔ)能力,為農(nóng)業(yè)大數(shù)據(jù)的處理和存儲(chǔ)提供了保障.

        3.1 Hadoop農(nóng)業(yè)大數(shù)據(jù)管理平臺(tái)架構(gòu)

        通過(guò)對(duì)成都農(nóng)業(yè)科技職業(yè)學(xué)院彭州葛仙山農(nóng)業(yè)信息化示范園的實(shí)際情況分析,結(jié)合Hadoop的體系結(jié)構(gòu)的研究,提出如圖4所示基于Hadoop農(nóng)業(yè)大數(shù)據(jù)管理平臺(tái)架構(gòu).該農(nóng)業(yè)大數(shù)據(jù)平臺(tái)從底層往上依次農(nóng)業(yè)大數(shù)據(jù)采集層、數(shù)據(jù)存儲(chǔ)中心、計(jì)算處理中心、交互層與智能農(nóng)業(yè)終端應(yīng)用系統(tǒng).各部分之間通過(guò)網(wǎng)絡(luò)通信和數(shù)據(jù)傳輸保證整個(gè)系統(tǒng)正常運(yùn)行.

        圖4 Hadoop農(nóng)業(yè)大數(shù)據(jù)管理平臺(tái)架構(gòu)

        下面對(duì)平臺(tái)各部分的功能進(jìn)行介紹:

        已經(jīng)建成的農(nóng)業(yè)大數(shù)據(jù)采集網(wǎng)絡(luò),利用各類智能終端采集設(shè)備傳感器、RFID和攝像頭等,采集農(nóng)業(yè)生長(zhǎng)環(huán)境所有的各類環(huán)境參數(shù)信息、圖片和視頻信息,這些信息構(gòu)成了農(nóng)業(yè)大數(shù)據(jù)的主要數(shù)據(jù)來(lái)源,通過(guò)網(wǎng)絡(luò)傳輸?shù)綌?shù)據(jù)中心.

        ② 統(tǒng)一的農(nóng)業(yè)大數(shù)據(jù)存儲(chǔ)中心

        數(shù)據(jù)存儲(chǔ)中心,是對(duì)農(nóng)業(yè)大數(shù)據(jù)的管理和存儲(chǔ).各級(jí)農(nóng)業(yè)部門都擁有自己的數(shù)據(jù)存儲(chǔ)中心,而這些數(shù)據(jù)存儲(chǔ)中心部署在不同的地域,因此這些數(shù)據(jù)中心之間不能夠統(tǒng)一數(shù)據(jù)存儲(chǔ)格式,也無(wú)法實(shí)現(xiàn)信息的共享,容易形成信息孤島,這使得農(nóng)業(yè)數(shù)據(jù)的計(jì)算、處理和價(jià)值挖掘不便.針對(duì)于農(nóng)業(yè)大數(shù)據(jù)具有結(jié)構(gòu)化和非結(jié)構(gòu)化的特點(diǎn),該數(shù)據(jù)存儲(chǔ)中心是采用統(tǒng)一農(nóng)業(yè)數(shù)據(jù)存儲(chǔ)中心,以Hadoop中的HBase分布式數(shù)據(jù)庫(kù)和HDFS分布式文件系統(tǒng)為數(shù)據(jù)管理框架,不僅可以為上層提供并行的數(shù)據(jù)訪問(wèn),還能夠提供高效、安全和易擴(kuò)展的存儲(chǔ)服務(wù).當(dāng)系統(tǒng)現(xiàn)有存儲(chǔ)能力達(dá)到一定極值時(shí),能夠便捷的擴(kuò)充新的存儲(chǔ)節(jié)點(diǎn),新增存儲(chǔ)節(jié)點(diǎn)后不會(huì)影響原有的數(shù)據(jù)存儲(chǔ).與此同時(shí),為保證數(shù)據(jù)存儲(chǔ)的安全,該數(shù)據(jù)管理框架還具有良好的副本機(jī)制,即當(dāng)存儲(chǔ)節(jié)點(diǎn)上的數(shù)據(jù)出現(xiàn)存儲(chǔ)異常時(shí),通過(guò)副本機(jī)制將數(shù)據(jù)轉(zhuǎn)移到其他節(jié)點(diǎn).

        ③ 計(jì)算處理中心

        計(jì)算處理中心是整個(gè)系統(tǒng)的核心部分,為用戶提供動(dòng)態(tài)的資源控制、帶寬分配、程序開發(fā)運(yùn)行環(huán)境,實(shí)現(xiàn)各業(yè)務(wù)邏輯的功能,為系統(tǒng)數(shù)據(jù)處理和數(shù)據(jù)挖掘提供基礎(chǔ)的計(jì)算模型,并為上層提供任務(wù)調(diào)度模塊.該平臺(tái)中的計(jì)算處理框架以Hadoop中的Map/Reduce并行計(jì)算數(shù)據(jù)處理平臺(tái)為基礎(chǔ),結(jié)合CART算法實(shí)現(xiàn)對(duì)農(nóng)業(yè)數(shù)據(jù)的價(jià)值進(jìn)行挖掘.

        ④ 農(nóng)業(yè)示范應(yīng)用

        農(nóng)業(yè)示范應(yīng)用是對(duì)該平臺(tái)的整合和各功能的完備性、正確性的有效驗(yàn)證.該應(yīng)用系統(tǒng)平臺(tái)主要有農(nóng)業(yè)核心應(yīng)用、農(nóng)業(yè)數(shù)據(jù)挖掘和智慧農(nóng)業(yè)的應(yīng)用三類.農(nóng)業(yè)核心應(yīng)用主要是基于Map/Reduce并行計(jì)算框架實(shí)現(xiàn),包括作物病蟲害檢查算法、病蟲害診斷算法、作物生長(zhǎng)情況的分析算法等對(duì)原始農(nóng)業(yè)數(shù)據(jù)進(jìn)行快速處理的一系列相關(guān)算法,并將處理結(jié)果進(jìn)行存儲(chǔ)處理,以便對(duì)事實(shí)數(shù)據(jù)進(jìn)行查詢.智慧農(nóng)業(yè)的基于農(nóng)業(yè)核心應(yīng)用中的計(jì)算結(jié)果,面向用戶需求而設(shè)計(jì)的,包括農(nóng)業(yè)數(shù)據(jù)查詢、分析、統(tǒng)計(jì)、預(yù)測(cè)、智能控制、搜索等功能的一系列農(nóng)業(yè)市場(chǎng)的應(yīng)用.

        3.2 農(nóng)業(yè)大數(shù)據(jù)存儲(chǔ)中心解決方案

        各級(jí)部門數(shù)據(jù)存儲(chǔ)中心通過(guò)各種類型傳感器、RFID和視頻采集等采集手段獲取海量農(nóng)業(yè)數(shù)據(jù),這些數(shù)據(jù)以不同形式和結(jié)構(gòu)存儲(chǔ)在不同地理位置的數(shù)據(jù)庫(kù)中.數(shù)據(jù)存儲(chǔ)中心對(duì)分散數(shù)據(jù)源和異構(gòu)數(shù)據(jù)進(jìn)行有機(jī)整合,并對(duì)存儲(chǔ)在不同系統(tǒng)的農(nóng)業(yè)原始數(shù)據(jù)進(jìn)行高效管理、有效組織和存儲(chǔ),再通過(guò)大數(shù)據(jù)處理技術(shù)解決數(shù)據(jù)計(jì)算的問(wèn)題.

        3.2.1 農(nóng)業(yè)大數(shù)據(jù)存儲(chǔ)中心架構(gòu)

        農(nóng)業(yè)大數(shù)據(jù)存儲(chǔ)中心對(duì)于不同地域的各級(jí)農(nóng)業(yè)數(shù)據(jù)中心進(jìn)行統(tǒng)一組織和管理.平臺(tái)通過(guò)創(chuàng)建服務(wù)實(shí)例的方式管理各級(jí)數(shù)據(jù)中心,每個(gè)服務(wù)實(shí)例對(duì)應(yīng)一個(gè)各級(jí)的分?jǐn)?shù)據(jù)中心,服務(wù)實(shí)例記錄了原始數(shù)據(jù)存儲(chǔ)中心的地址以及訪問(wèn)的權(quán)限等信息,以及各個(gè)數(shù)據(jù)中心所使用的數(shù)據(jù)庫(kù)類型、中心地址、數(shù)據(jù)庫(kù)名稱、表名稱、用戶名、登陸密碼、訪問(wèn)權(quán)限等內(nèi)容,從而實(shí)現(xiàn)數(shù)據(jù)中心的資源共享和統(tǒng)一管理.如用戶需要對(duì)某個(gè)數(shù)據(jù)中心的數(shù)據(jù)進(jìn)行訪問(wèn)時(shí),只需要通過(guò)Hadoop平臺(tái)的中央查詢集群中的服務(wù)實(shí)例就可以查詢到對(duì)應(yīng)數(shù)據(jù)中心的數(shù)據(jù).各數(shù)據(jù)中心節(jié)點(diǎn)和Hadoop集群分布式架構(gòu)如圖5所示.分布式集群架構(gòu)的底層除了部署Hadoop集群和HBase集群外,還有Hadoop分布式結(jié)構(gòu)模型中的一系列的子項(xiàng)目Sqoop、Hive等.

        圖5 農(nóng)業(yè)大數(shù)據(jù)存儲(chǔ)中心集群架構(gòu)

        3.2.2 農(nóng)業(yè)大數(shù)據(jù)并行集群整合服務(wù)實(shí)例

        Hadoop結(jié)構(gòu)和HBase架構(gòu)都采用的Master/Slave結(jié)構(gòu),其中Hadoop架構(gòu)是由負(fù)責(zé)Map/Reduce任務(wù)調(diào)度的Job Tracker和負(fù)責(zé)HDFS數(shù)據(jù)管理節(jié)點(diǎn)的Name Node構(gòu)成Master;HBase框架中的Master由HMaster組件構(gòu)成.整個(gè)集群能否正常運(yùn)行Master起著決定性的作用,較的好穩(wěn)定性,因此對(duì)外只提供一個(gè)地址服務(wù)信息,即Master主機(jī)所在地址.

        針對(duì)農(nóng)業(yè)大數(shù)據(jù)的并行存儲(chǔ),各級(jí)各地的農(nóng)業(yè)數(shù)據(jù)存儲(chǔ)中心通過(guò)創(chuàng)建一個(gè)并行集群整合服務(wù)實(shí)例來(lái)實(shí)現(xiàn)與Hadoop中心訪問(wèn)存儲(chǔ),實(shí)例創(chuàng)建流程如下所示:

        1)用戶通過(guò)應(yīng)用命令行終端向服務(wù)網(wǎng)關(guān)發(fā)起創(chuàng)建服務(wù)實(shí)例的請(qǐng)求.

        2)服務(wù)網(wǎng)關(guān)接到服務(wù)實(shí)例創(chuàng)建請(qǐng)求后,根據(jù)平臺(tái)系統(tǒng)中每個(gè)服務(wù)節(jié)點(diǎn)當(dāng)前的資源利用情況查找出最優(yōu)節(jié)點(diǎn),并通知其創(chuàng)建服務(wù)實(shí)例.

        3)服務(wù)節(jié)點(diǎn)在接到服務(wù)實(shí)例的創(chuàng)建請(qǐng)求后,記錄Hadoop、HBase集群地址并記錄在對(duì)應(yīng)的服務(wù)實(shí)例中,向服務(wù)網(wǎng)關(guān)返回服務(wù)實(shí)例創(chuàng)建成功的消息.

        4)服務(wù)網(wǎng)關(guān)在得到服務(wù)實(shí)例創(chuàng)建成功的消息后,在數(shù)據(jù)庫(kù)中記錄服務(wù)實(shí)例與服務(wù)節(jié)點(diǎn)的相關(guān)信息,用于后續(xù)與應(yīng)用的綁定.

        客戶端應(yīng)用通過(guò)綁定服務(wù)實(shí)例后,即可獲取分布式集群地址,與集群進(jìn)行通信.通過(guò)開放接口輸入相關(guān)數(shù)據(jù),即可完成HBase數(shù)據(jù)庫(kù)中表的相關(guān)操作以及獲取分布式運(yùn)算和存儲(chǔ)環(huán)境,而無(wú)需再訪問(wèn)服務(wù)數(shù)據(jù)節(jié)點(diǎn).

        3.3 農(nóng)業(yè)大數(shù)據(jù)計(jì)算處理中心的設(shè)計(jì)

        基于Hadoop的農(nóng)業(yè)大數(shù)據(jù)管理平臺(tái)是一個(gè)功能足夠強(qiáng)大、便捷、快速的大數(shù)據(jù)處理平臺(tái),整個(gè)平臺(tái)從數(shù)據(jù)采集、加工、處理分析、存儲(chǔ)、運(yùn)營(yíng)和維護(hù)提供一條龍服務(wù),終端用戶無(wú)須知曉或關(guān)注底層如何實(shí)現(xiàn)和運(yùn)維.

        3.3.1 基于Map/Reduce并行計(jì)算框架農(nóng)業(yè)大數(shù)據(jù)計(jì)算處理中心的設(shè)計(jì)

        在Hadoop農(nóng)業(yè)大數(shù)據(jù)平臺(tái)的數(shù)據(jù)計(jì)算處理中心以Map/Reduce并行計(jì)算框架作為基礎(chǔ)框架,在基礎(chǔ)框架上移植各種算法,可以實(shí)現(xiàn)各種業(yè)務(wù)邏輯,以此來(lái)滿足平臺(tái)大規(guī)模數(shù)據(jù)集的計(jì)算速度和進(jìn)行數(shù)據(jù)挖掘.計(jì)算處理中心的結(jié)構(gòu)如圖6所示.

        圖 6 計(jì)算處理中心結(jié)構(gòu)

        Map/Reduce并行計(jì)算數(shù)據(jù)處理是各種數(shù)據(jù)處理和挖掘算法應(yīng)用在平臺(tái)可在不知底層處理細(xì)節(jié)的情況下,提供簡(jiǎn)易交互接口,實(shí)現(xiàn)多種并行計(jì)算.有很好的伸縮性和擴(kuò)展性,當(dāng)系統(tǒng)某一計(jì)算節(jié)點(diǎn)崩潰時(shí),該計(jì)算框架會(huì)自動(dòng)將崩潰節(jié)點(diǎn)的任務(wù)分配給其他計(jì)算節(jié)點(diǎn);在平臺(tái)并行計(jì)算處理能力不足的情況下,可以便捷的增加計(jì)算節(jié)點(diǎn),從而提高整個(gè)平臺(tái)的計(jì)算能力.

        3.3.2 基于Map/Reduce農(nóng)業(yè)數(shù)據(jù)挖掘解決方案

        針對(duì)大數(shù)據(jù)具有海量性,多樣性,不規(guī)則性等特征,而對(duì)于特殊的農(nóng)業(yè)領(lǐng)域的大數(shù)據(jù)來(lái)源于農(nóng)作物的從生產(chǎn)到餐桌的整個(gè)過(guò)程,由于這些數(shù)據(jù)有類型眾多的土壤、品種復(fù)雜的農(nóng)作物、頻發(fā)的病蟲害、不確定的氣候等諸多影響因素,因此,采集到的相關(guān)農(nóng)業(yè)大數(shù)據(jù)具有不確定、不完全(數(shù)據(jù)隨機(jī)噪音)和稀疏性(數(shù)據(jù)的實(shí)用價(jià)值不高)等特征.要讓農(nóng)業(yè)大數(shù)據(jù)在農(nóng)業(yè)生產(chǎn)過(guò)程中的起到智能預(yù)警、智能決策、智能分析的作用,需要對(duì)農(nóng)業(yè)大數(shù)據(jù)進(jìn)行精準(zhǔn)、高效的數(shù)據(jù)挖掘.對(duì)農(nóng)業(yè)領(lǐng)域的數(shù)據(jù)常見的挖掘主要有:相關(guān)性分析、分類描述、聚類分析、偏差分析等,而在實(shí)際應(yīng)用中最多的就是數(shù)據(jù)的分類.針對(duì)農(nóng)業(yè)大數(shù)據(jù)的特征,一般選擇分類回歸樹CART(Classification and Regression Trees)算法.

        CART算法是以統(tǒng)計(jì)學(xué)為理論基礎(chǔ),采用的非參數(shù)方法,以典型的二叉樹結(jié)構(gòu)為決策樹,即由一個(gè)根節(jié)點(diǎn)和若干屬性節(jié)點(diǎn)、葉結(jié)點(diǎn)組成,其分類結(jié)果易于理解和掌握.首先所有的樣本集都在根節(jié)點(diǎn)內(nèi),然后按照一定的分割方法,根節(jié)點(diǎn)被分割成兩個(gè)子節(jié)點(diǎn),樣本集也被分割到兩個(gè)子節(jié)點(diǎn)內(nèi),在相同的分割規(guī)則下,遞歸的對(duì)子節(jié)點(diǎn)進(jìn)行分割,直到不可以再分割為止[12].

        基于Map Reduce框架農(nóng)業(yè)核心應(yīng)用以及提取價(jià)值數(shù)據(jù),關(guān)鍵在于各種算法的應(yīng)用,當(dāng)然有一些算法如果直接移植到Map/Reduce分布式計(jì)算框架,是沒(méi)有辦法完成,則需要對(duì)某些算法做一定的改進(jìn).例如要進(jìn)行數(shù)據(jù)的價(jià)值挖掘所使用的CART算法,需要改進(jìn)后才能夠?qū)ART算法移植到Map/Reduce分布式計(jì)算框架.

        CART算法本是為解決串行運(yùn)算問(wèn)題而設(shè)計(jì)的,因具有其特殊性,在此根據(jù)農(nóng)業(yè)大數(shù)據(jù)的特性可以將CART算法并行設(shè)計(jì),基于Hadoop平臺(tái)的農(nóng)業(yè)數(shù)據(jù)挖掘CART算法的并行化設(shè)計(jì)如下:

        1)計(jì)算各個(gè)屬性Gini指數(shù)(是判斷最佳分裂屬性的度量)時(shí)的并行,屬性的并行可以通過(guò)Hadoop中Map階段對(duì)定義Partitioner來(lái)實(shí)現(xiàn),因?yàn)橹挥邢嗤?jié)點(diǎn)上的相同屬性表才會(huì)被分發(fā)到同一個(gè)Reducer進(jìn)行處理.

        2)構(gòu)建決策樹時(shí)節(jié)點(diǎn)的并行,從屬性的并行設(shè)計(jì)可知,同一個(gè)節(jié)點(diǎn)的所有屬性表是一個(gè)整體,一起分割的,節(jié)點(diǎn)分割完成后屬性表則會(huì)附在新的節(jié)點(diǎn)上,并繼續(xù)進(jìn)行分割.而處在同一層節(jié)點(diǎn)之間的產(chǎn)生是不存在相互關(guān)聯(lián)的,由此在構(gòu)造決策樹時(shí)可以對(duì)位于樹的同一層的所有節(jié)點(diǎn)進(jìn)行并行處理.

        3)排序的并行,在Hadoop平臺(tái)中,Map/Reduce在每次分發(fā)數(shù)據(jù)時(shí)都會(huì)對(duì)其進(jìn)行排序,CART算法對(duì)連續(xù)值進(jìn)行預(yù)排序處理,相鄰兩個(gè)屬性值的中間點(diǎn)作為計(jì)算Gini指數(shù)值,計(jì)算時(shí)先判斷連續(xù)性,再根據(jù)屬性值的大小進(jìn)行排序.對(duì)于農(nóng)業(yè)大數(shù)據(jù)而言,數(shù)據(jù)連續(xù)值的分布情況以及排序算法的選擇對(duì)數(shù)據(jù)挖掘的最終效果會(huì)產(chǎn)生很大的影響,在通過(guò)CART算法并行設(shè)計(jì)和改進(jìn)后,使其成為并行的算法再結(jié)合Hadoop中的Map/Reduce并行計(jì)算框架并行化實(shí)現(xiàn),使得整個(gè)基于Hadoop的農(nóng)業(yè)大數(shù)據(jù)平臺(tái)良好的并行化,具有較高的數(shù)據(jù)處理和數(shù)據(jù)挖掘的能力,系統(tǒng)的性能也能發(fā)揮極致.

        4 總結(jié)展望

        本文對(duì)Hadoop分布式架構(gòu)以及其兩個(gè)核心的引擎HDFS(分布式文件系統(tǒng))和Map/Reduce(分布式處理模型)、HBase進(jìn)行詳細(xì)的分析研究,提出了Hadoop分布式架構(gòu)大數(shù)據(jù)平臺(tái).結(jié)合成都農(nóng)業(yè)科技職業(yè)學(xué)院彭州葛仙山示范園實(shí)際情況,對(duì)農(nóng)業(yè)大數(shù)據(jù)的特點(diǎn)進(jìn)行分析研究,針對(duì)現(xiàn)有農(nóng)業(yè)大數(shù)據(jù)在存儲(chǔ)和處理過(guò)程中存在具體問(wèn)題,構(gòu)建出高性能的基于Hadoop農(nóng)業(yè)大數(shù)據(jù)管理平臺(tái),以實(shí)現(xiàn)農(nóng)業(yè)大數(shù)據(jù)的安全可靠存儲(chǔ)、智能化管理與應(yīng)用,最終達(dá)到對(duì)農(nóng)業(yè)生產(chǎn)過(guò)程的智能預(yù)警、智能決策和智能分析的目的,同時(shí)為農(nóng)戶提供專業(yè)指導(dǎo).在以后的研究工作中,將在Hadoop的農(nóng)業(yè)大數(shù)據(jù)平臺(tái)下對(duì)有關(guān)業(yè)務(wù)功能算法的研究,將其中的作物病蟲害檢查算法、病蟲害診斷算法、價(jià)值挖掘算法(CART)等算法進(jìn)行分析、設(shè)計(jì)并實(shí)現(xiàn)并行化運(yùn)行.

        1阿爾文托夫勒.第三次浪潮.北京:新華出版社,2006.

        2農(nóng)業(yè)部農(nóng)業(yè)科技發(fā)展“十二五”規(guī)劃(2011-2015年). http://www.ccfc.zju.edu.cn/a/zhengcefagui/2012/0406/9978.h tml.[2012-04-06].

        3李秀峰,陳守合,郭雷風(fēng).大數(shù)據(jù)時(shí)代農(nóng)業(yè)信息服務(wù)的技術(shù)創(chuàng)新.中國(guó)農(nóng)業(yè)科技導(dǎo)報(bào),2014,(4):10–15.

        4孫忠富,杜克明,鄭飛翔,尹首一.大數(shù)據(jù)在智慧農(nóng)業(yè)中研究與應(yīng)用展望.中國(guó)農(nóng)業(yè)科技導(dǎo)報(bào),2013,(6):63–71.

        5張永軍.Hadoop分布式架構(gòu)的研究與實(shí)際應(yīng)用[碩士學(xué)位論文].北京:北京郵電大學(xué),2015.

        6 Fan R.Hadoop capacity scheduler.Hadoop Taiwan User Group meeting2009,Yahoo!2009.

        7 Dean J.Experiences with MapReduce,an abstraction for LargeScale computation.Proc.15th International Conference on ParallelArchitectures and Compilation Techniques.2006.

        8 Hadoop.The apache software foundation.http://Hadoop. apache.org/core.

        9周俊清.基于Hadoop平臺(tái)的分布式任務(wù)調(diào)度算法研究[碩士學(xué)位論文].長(zhǎng)沙:湖南大學(xué),2012.

        10溫孚江.農(nóng)業(yè)大數(shù)據(jù)研究的戰(zhàn)略意義與協(xié)同機(jī)制.高等農(nóng)業(yè)教育,2013,(11):3–6.

        11 Lam C.Hadoop in action.Manning Publications Company, 2010.

        12柴進(jìn).基于Hadoop農(nóng)業(yè)數(shù)據(jù)挖掘系統(tǒng)的研究與實(shí)現(xiàn)[碩士學(xué)位論文].北京:北京工業(yè)大學(xué),2015.

        13 Bennett JML.Agricultural big data:utilisation to discover the unknown and instigate practice change.Farm Policy Journal,2015,12(1):43–50.

        14戴小文,漆雁斌,陳文寬.農(nóng)業(yè)現(xiàn)代化背景下大數(shù)據(jù)分析在農(nóng)業(yè)經(jīng)濟(jì)中的應(yīng)用研究.四川師范大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版), 2015,(2):70–77.

        Design of the Management Platform forAgriculture Big Data Based on Hadoop

        WEN Yan

        (ChengduAgricultural Science and Technology Vocational College,Chengdu 611130,China)

        The rapid development of modern information technology makes the amount of every day data increase at the speed of TB,how to effectively use and manage the big data with explosive growth?It is a problem need to be solved urgently.Big data has penetrated into various fields including agriculture,with the agricultural informatization construction and the application of Internet technology in agricultural production,resulting in a large amount of agricultural data to be stored,managed and processed.Based on the background of the construction of agricultural informatization in Pengzhou Gexian mountain agricultural demonstration base of Chengdu agricultural science and technology vocational college,according to the demand of informatization construction of agriculture,we build high performance agricultural big data management platform based on Hadoop,realizing the agricultural big data safe and reliable storage,intelligent management and application.And ultimately we achieve the purpose of early intelligent warning of agricultural production,intelligent decision-making and intelligent analysis,providing professional guidance to farmers.This lays the foundation for China to enter the intelligent agricultural era based on fine planting,precise control,visual management and intelligent decision-making.

        agriculture big data;Hadoop;Map/Reduce;HDFS;wisdom agriculture

        四川省教育廳2016年四川省高校人文社科學(xué)重點(diǎn)研究基地科研項(xiàng)目(TCCSJY-2016-C16);成都農(nóng)業(yè)科技職業(yè)學(xué)院科研項(xiàng)目(成農(nóng)院[2016]1-24)

        2016-08-10;收到修改稿時(shí)間:2016-09-23

        10.15888/j.cnki.csa.005737

        猜你喜歡
        數(shù)據(jù)管理分布式架構(gòu)
        基于FPGA的RNN硬件加速架構(gòu)
        企業(yè)級(jí)BOM數(shù)據(jù)管理概要
        定制化汽車制造的數(shù)據(jù)管理分析
        海洋環(huán)境數(shù)據(jù)管理優(yōu)化與實(shí)踐
        功能架構(gòu)在電子電氣架構(gòu)開發(fā)中的應(yīng)用和實(shí)踐
        汽車工程(2021年12期)2021-03-08 02:34:30
        CTCS-2級(jí)報(bào)文數(shù)據(jù)管理需求分析和實(shí)現(xiàn)
        分布式光伏熱錢洶涌
        能源(2017年10期)2017-12-20 05:54:07
        分布式光伏:爆發(fā)還是徘徊
        能源(2017年5期)2017-07-06 09:25:54
        LSN DCI EVPN VxLAN組網(wǎng)架構(gòu)研究及實(shí)現(xiàn)
        基于DDS的分布式三維協(xié)同仿真研究
        国产精品18久久久久久麻辣| 亚洲福利二区三区四区| 久久国语露脸国产精品电影| 水蜜桃精品一二三| 欧美精品一级| 日韩有码中文字幕av| 日本久久精品中文字幕| 精品三级av无码一区| 色诱久久av| 国产精品视频免费一区二区三区 | 国产亚洲精品不卡在线| 国产av精选一区二区| 国产a级三级三级三级| 最新亚洲精品国偷自产在线| 无码AV午夜福利一区| av在线不卡一区二区| 又爽又黄又无遮挡网站| 国产精品 视频一区 二区三区| 国产一级做a爱视频在线| 日本超级老熟女影音播放| 亚洲av无码成人网站在线观看| 国产女人成人精品视频| 国产一区二区三区色区| 校园春色综合久久精品中文字幕| 激情第一区仑乱| 国产免费网站看v片元遮挡| 免费在线观看草逼视频| 久久理论片午夜琪琪电影网| 国产剧情麻豆女教师在线观看| 国产片三级视频播放| 你懂的视频在线看播放| 激烈的性高湖波多野结衣| 精品手机在线视频| 精品国产车一区二区三区| 4455永久免费视频| 亚洲av无码av吞精久久| 亚洲综合色婷婷七月丁香| 国产一区二区av免费在线观看| v一区无码内射国产| 美女高潮流白浆视频在线观看| 亚洲av午夜福利精品一区不卡 |