王云慧
[摘要]隨著移動(dòng)互聯(lián)網(wǎng)、大數(shù)據(jù)、云計(jì)算、物聯(lián)網(wǎng)等信息技術(shù)不斷發(fā)展,大大的加快了我國(guó)農(nóng)業(yè)信息化體系的建設(shè)。結(jié)合大數(shù)據(jù)理論方法,運(yùn)用Hadoop技術(shù)框架、Hive數(shù)據(jù)分析技術(shù),構(gòu)建了農(nóng)產(chǎn)品流通大數(shù)據(jù)分析平臺(tái),該平臺(tái)能夠解決傳統(tǒng)分析平臺(tái)存儲(chǔ)數(shù)據(jù)量小、數(shù)據(jù)結(jié)構(gòu)單一等問(wèn)題。
[關(guān)鍵詞]大數(shù)據(jù)技術(shù);農(nóng)產(chǎn)品流通;大數(shù)據(jù)分析平臺(tái)
[中圖分類(lèi)號(hào)]TP399[文獻(xiàn)標(biāo)識(shí)碼]A
新時(shí)代信息化背景下,大數(shù)據(jù)無(wú)處不在,在“互聯(lián)網(wǎng)+農(nóng)產(chǎn)品流通”模式的視角下,農(nóng)產(chǎn)品流通環(huán)節(jié)面臨數(shù)據(jù)量大、數(shù)據(jù)來(lái)源廣泛、數(shù)據(jù)類(lèi)型多樣、數(shù)據(jù)結(jié)構(gòu)復(fù)雜,難以使用傳統(tǒng)的方法進(jìn)行數(shù)據(jù)的處理和分析等問(wèn)題。近些年來(lái),隨著大數(shù)據(jù)技術(shù)的不斷推進(jìn),運(yùn)用大數(shù)據(jù)技術(shù)深入剖析并且有效地整合散落在各處的農(nóng)產(chǎn)品流通過(guò)程中產(chǎn)生的大量數(shù)據(jù),進(jìn)行科學(xué)的分析研判,以提高農(nóng)產(chǎn)品資源利用率和流通效率,已成為大家關(guān)注的熱點(diǎn)和政府決策的重點(diǎn)。因此,通過(guò)“大數(shù)據(jù)+產(chǎn)業(yè)”策略,構(gòu)建一個(gè)農(nóng)產(chǎn)品流通大數(shù)據(jù)分析平臺(tái),對(duì)農(nóng)產(chǎn)品流通環(huán)節(jié)進(jìn)行多個(gè)維度(包括農(nóng)產(chǎn)品流通成本、農(nóng)產(chǎn)品市場(chǎng)、農(nóng)產(chǎn)品流通模式、農(nóng)產(chǎn)品流通區(qū)域、農(nóng)產(chǎn)品運(yùn)輸方式等)的分析和預(yù)測(cè),完善農(nóng)產(chǎn)品流通供應(yīng)鏈,使農(nóng)戶(hù)、中小型農(nóng)商企業(yè)更加了解農(nóng)產(chǎn)品信息,幫助農(nóng)戶(hù)、農(nóng)商精準(zhǔn)營(yíng)銷(xiāo)。
1 農(nóng)業(yè)大數(shù)據(jù)
1.1 農(nóng)業(yè)大數(shù)據(jù)簡(jiǎn)述
隨著信息技術(shù)的迅速發(fā)展,農(nóng)業(yè)與信息技術(shù)的結(jié)合已逐漸成為農(nóng)業(yè)發(fā)展的新模式。在農(nóng)業(yè)物聯(lián)網(wǎng)新模式中,農(nóng)業(yè)數(shù)據(jù)類(lèi)型和數(shù)量正以驚人的速度增長(zhǎng)。物聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,產(chǎn)生了大量的數(shù)據(jù),是大數(shù)據(jù)發(fā)展的源泉,同時(shí),大數(shù)據(jù)也使物聯(lián)網(wǎng)的發(fā)展價(jià)值得到了極大的提升空間,它們之間是相輔相成,互相成就的關(guān)系。在我國(guó)農(nóng)業(yè)信息化的建設(shè)中,越來(lái)越多的以物聯(lián)網(wǎng)傳感器為基礎(chǔ)的終端設(shè)備應(yīng)用到農(nóng)業(yè)中采集大量的數(shù)據(jù),形成了農(nóng)業(yè)大數(shù)據(jù)集,這些農(nóng)業(yè)大數(shù)據(jù)集具有時(shí)間性、區(qū)域性、季節(jié)性等特點(diǎn)。從數(shù)據(jù)結(jié)構(gòu)上來(lái)講,這些數(shù)據(jù)的結(jié)構(gòu)復(fù)雜,既有結(jié)構(gòu)化數(shù)據(jù),又有半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),這就使海量數(shù)據(jù)在存儲(chǔ)及分析方面存在了問(wèn)題。近些年來(lái),隨著大數(shù)據(jù)技術(shù)的不斷的推進(jìn),這些問(wèn)題得到很好的解決,運(yùn)用大數(shù)據(jù)思維模式對(duì)農(nóng)產(chǎn)品從種植到生產(chǎn)、加工再到流通各環(huán)節(jié)的數(shù)據(jù)進(jìn)行深入的剖析,使農(nóng)業(yè)大數(shù)據(jù)的應(yīng)用得到了很好的提升。
1.2 農(nóng)業(yè)大數(shù)據(jù)作用
當(dāng)前,從我國(guó)信息化社會(huì)建設(shè)的視角出發(fā)分析,大數(shù)據(jù)與產(chǎn)業(yè)的結(jié)合是未來(lái)信息化發(fā)展的趨勢(shì)。大數(shù)據(jù)與農(nóng)業(yè)相關(guān)學(xué)科進(jìn)行結(jié)合互融,會(huì)對(duì)我國(guó)農(nóng)業(yè)科研的現(xiàn)代化發(fā)展、政府宏觀(guān)戰(zhàn)略決策以及涉農(nóng)企業(yè)等領(lǐng)域起到?jīng)Q定性的作用,同時(shí)能夠提供全新的思維模式,加快了我國(guó)農(nóng)業(yè)信息化的建設(shè)。
1.2.1 大數(shù)據(jù)助力農(nóng)產(chǎn)品流通。農(nóng)產(chǎn)品流通是連接農(nóng)產(chǎn)品生產(chǎn)與消費(fèi)的紐帶。利用農(nóng)業(yè)大數(shù)據(jù)技術(shù),可以實(shí)現(xiàn)農(nóng)產(chǎn)品流通在生產(chǎn)、運(yùn)輸、包裝、裝卸、搬運(yùn)、儲(chǔ)存和加工配送等各個(gè)環(huán)節(jié)信息的透明化,追溯農(nóng)產(chǎn)品流通的整個(gè)過(guò)程,很好地解決了傳統(tǒng)農(nóng)產(chǎn)品流通各環(huán)節(jié)中存在的問(wèn)題。與此同時(shí),還可以更好地預(yù)測(cè)農(nóng)產(chǎn)品供需端、產(chǎn)銷(xiāo)端的平衡關(guān)系,并且通過(guò)這些數(shù)據(jù)的分析,用于指導(dǎo)農(nóng)戶(hù)對(duì)農(nóng)產(chǎn)品生產(chǎn)作出決策,維持市場(chǎng)平衡發(fā)展,防止農(nóng)產(chǎn)品價(jià)格指數(shù)波動(dòng)過(guò)大,避免農(nóng)戶(hù)承受巨大損失。而且,按照預(yù)測(cè),還能夠按需調(diào)配生產(chǎn)資料,經(jīng)過(guò)充分調(diào)配,可有效防止生產(chǎn)資料的產(chǎn)能過(guò)?;蚨倘?。同時(shí),運(yùn)用大數(shù)據(jù)技術(shù)還能夠有效的降低農(nóng)產(chǎn)品追蹤和監(jiān)測(cè)的復(fù)雜性,從而提高倉(cāng)庫(kù)、運(yùn)輸、交易等各個(gè)環(huán)節(jié)的運(yùn)營(yíng)質(zhì)量。
1.2.2 大數(shù)據(jù)實(shí)現(xiàn)農(nóng)業(yè)數(shù)據(jù)資源共享。利用衛(wèi)星定位和物聯(lián)網(wǎng)傳感器設(shè)備采集農(nóng)產(chǎn)品的生長(zhǎng)環(huán)境、生產(chǎn)產(chǎn)量、加工存儲(chǔ)、農(nóng)產(chǎn)品安全質(zhì)量檢測(cè)、市場(chǎng)流通等數(shù)據(jù),利用大數(shù)據(jù)技術(shù)設(shè)計(jì)開(kāi)發(fā)出農(nóng)業(yè)大數(shù)據(jù)信息資源共享系統(tǒng),讓農(nóng)民人人了解信息技術(shù),促進(jìn)農(nóng)村信息化建設(shè),推進(jìn)物聯(lián)網(wǎng)、大數(shù)據(jù)與農(nóng)業(yè)的深度結(jié)合,從而實(shí)現(xiàn)農(nóng)業(yè)大數(shù)據(jù)共享。
2 大數(shù)據(jù)技術(shù)
當(dāng)今社會(huì),大數(shù)據(jù)技術(shù)廣泛使用,它包含了海量復(fù)雜結(jié)構(gòu)的數(shù)據(jù)存儲(chǔ)技術(shù)(HDFS、HBase)、大型數(shù)據(jù)集的分析技術(shù)(Hive),以及數(shù)據(jù)可視化技術(shù)(Echarts)等。目前,以Hadoop生態(tài)圈代表的大數(shù)據(jù)技術(shù),占領(lǐng)了市場(chǎng)的主導(dǎo)地位。
2.1 Hadoop技術(shù)
Hadoop從狹義的角度講,它是一個(gè)可以運(yùn)行在大規(guī)模廉價(jià)的計(jì)算機(jī)集群上的大數(shù)據(jù)框架,它包括一個(gè)分布式文件系統(tǒng)HDFS、一個(gè)離線(xiàn)計(jì)算框架MapReduce,在Hadoop 2.0之后還增加了一個(gè)資源管理器Yarn。由于Hadoop是一個(gè)開(kāi)源的計(jì)算框架,它有足夠強(qiáng)大的社群作為支撐,發(fā)展至今已經(jīng)形成了Hadoop生態(tài)體系,也就是宏觀(guān)角度上的Hadoop,它在其原有的基礎(chǔ)上還包含了Hive、HBase、Pig、Chukwa、Avro、Zookeeper、Mahout等模塊。下面重點(diǎn)談一下HDFS、MapReduce、Hive、HBase等技術(shù)。
2.2 HDFS技術(shù)
HDFS是基于Hadoop框架下的分布式文件系統(tǒng),它是在谷歌文件系統(tǒng)GFS的基礎(chǔ)上實(shí)現(xiàn)了開(kāi)源,用于將數(shù)據(jù)存儲(chǔ)在廉價(jià)計(jì)算機(jī)集群上并進(jìn)行管理,適用于大規(guī)模數(shù)據(jù)的存儲(chǔ)并且具有高容錯(cuò)性、高吞吐量等優(yōu)點(diǎn),還提供了多種訪(fǎng)問(wèn)模式。HDFS在設(shè)計(jì)上更多的考慮到了數(shù)據(jù)的批處理,而不是用戶(hù)交互處理。
2.3 MapReduce技術(shù)
MapReduce是Hadoop的框架的重要組成部分,是一個(gè)基于Google公司開(kāi)源實(shí)現(xiàn)的分布式計(jì)算框架,谷歌的MapReduce運(yùn)行在分布式文件系統(tǒng)GFS上,而Hadoop MapReduce則運(yùn)行在分布式文件系統(tǒng)HDFS上,可以存放和分析各種原始數(shù)據(jù)格式。它具有易于使用、良好的伸縮性、適用于大規(guī)模數(shù)據(jù)處理等特點(diǎn)。在傳統(tǒng)編程時(shí),程序員需要掌握大量的編程細(xì)節(jié),而MapReduce能夠?qū)⒑芏喾爆嵉募?xì)節(jié)隱藏起來(lái),即使沒(méi)有經(jīng)驗(yàn)的程序員也能夠很容易的掌握。
2.4 Hive技術(shù)
Hive是Hadoop架構(gòu)的一個(gè)數(shù)據(jù)倉(cāng)庫(kù)工具,可以將結(jié)構(gòu)化的數(shù)據(jù)集映射成為一張數(shù)據(jù)庫(kù)表,進(jìn)行SQL分析查詢(xún)。Hive所有的數(shù)據(jù)都存儲(chǔ)在HDFS,使用的計(jì)算模型是MapReduce。它本身沒(méi)有特定的數(shù)據(jù)存儲(chǔ)格式,也沒(méi)有建立索引,具有熟知,快速,可擴(kuò)展等特點(diǎn)。
2.5 HBase技術(shù)
HBase是Hadoop Database的簡(jiǎn)稱(chēng),一個(gè)分布式的、面向列的開(kāi)源數(shù)據(jù)庫(kù),屬于NoSQL數(shù)據(jù)庫(kù)的一種,可以用來(lái)存儲(chǔ)一些非結(jié)構(gòu)化的數(shù)據(jù),用戶(hù)可以給行定義一些各種不同的列。HBase提供了Native Java API、HBase Shell、Thrift Gateway、REST Gateway、Pig、Hive等多種訪(fǎng)問(wèn)接口類(lèi)型,適合特定的場(chǎng)景使用。它的特點(diǎn)是彌補(bǔ)Hadoop的實(shí)時(shí)性操作,執(zhí)行效率高,適用于索引方式的訪(fǎng)問(wèn)。
3 農(nóng)產(chǎn)品流通大數(shù)據(jù)分析平臺(tái)構(gòu)建
3.1 平臺(tái)總體框架
本文結(jié)合大數(shù)據(jù)理論方法,運(yùn)用了Hadoop技術(shù)框架、Hive數(shù)據(jù)分析技術(shù),構(gòu)建了農(nóng)產(chǎn)品流通大數(shù)據(jù)分析平臺(tái),其包括4個(gè)部分:大數(shù)據(jù)采集、大數(shù)據(jù)存儲(chǔ)及處理、大數(shù)據(jù)分析、數(shù)據(jù)可視化。其中平臺(tái)總體架構(gòu)如圖1所示:
3.2 大數(shù)據(jù)采集
由于大數(shù)據(jù)來(lái)源類(lèi)型廣泛,大數(shù)據(jù)采集是對(duì)不同業(yè)務(wù)系統(tǒng)中的結(jié)構(gòu)化數(shù)據(jù)、日志文件的半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化的數(shù)據(jù)進(jìn)行采集。
3.3 大數(shù)據(jù)存儲(chǔ)及處理
3.3.1 大數(shù)據(jù)存儲(chǔ)。利用大數(shù)據(jù)技術(shù)、分布式存儲(chǔ)技術(shù)將多個(gè)數(shù)據(jù)源獲取的數(shù)據(jù)進(jìn)行整合并存儲(chǔ)在HDFS中。相對(duì)于傳統(tǒng)的本地文件系統(tǒng),HDFS是通過(guò)網(wǎng)絡(luò)實(shí)現(xiàn)存儲(chǔ),可將大規(guī)模不同數(shù)據(jù)類(lèi)型的數(shù)據(jù)存儲(chǔ)在多臺(tái)廉價(jià)的計(jì)算機(jī)上。
3.3.2 大數(shù)據(jù)處理。要對(duì)大規(guī)模的數(shù)據(jù)進(jìn)行科學(xué)的分析,由于所采集的數(shù)據(jù)里不是所有的信息都是必需的,而是摻雜了很多無(wú)效數(shù)據(jù)。所以,將海量數(shù)據(jù)存儲(chǔ)在分布式存儲(chǔ)集群之后,在此基礎(chǔ)上運(yùn)用MapReduce做一些簡(jiǎn)單的預(yù)處理工作。
3.4 大數(shù)據(jù)分析
大數(shù)據(jù)分析是整個(gè)平臺(tái)的核心內(nèi)容,用Hive大數(shù)據(jù)分析技術(shù)對(duì)農(nóng)產(chǎn)品流通模式、農(nóng)產(chǎn)品流通成本、農(nóng)產(chǎn)品價(jià)格、農(nóng)產(chǎn)品流通地區(qū)、農(nóng)產(chǎn)品運(yùn)輸方式等多個(gè)維度進(jìn)行分析挖掘,幫助農(nóng)戶(hù)更加精準(zhǔn)的營(yíng)銷(xiāo),提高農(nóng)產(chǎn)品流通率。
3.5 數(shù)據(jù)可視化
數(shù)據(jù)通常是枯燥乏味的,相對(duì)而言,人們對(duì)于大小、圖形、顏色等懷有更加濃厚的興趣。利用Echarts數(shù)據(jù)可視化技術(shù),將分析后的數(shù)據(jù)以柱狀圖、餅圖、折線(xiàn)圖、條形圖、面積圖、散點(diǎn)圖、氣泡圖、燭臺(tái)圖等形式呈現(xiàn)給用戶(hù),為用戶(hù)提供更加友好的平臺(tái)使用體驗(yàn),幫助用戶(hù)更好的理解數(shù)據(jù)。
4 結(jié)語(yǔ)
本文討論了農(nóng)產(chǎn)品流通大數(shù)據(jù)分析平臺(tái)的構(gòu)建,是運(yùn)用大數(shù)據(jù)技術(shù)Hadoop集群進(jìn)行實(shí)現(xiàn)的,將農(nóng)產(chǎn)品流通各個(gè)環(huán)節(jié)產(chǎn)生的海量數(shù)據(jù)存儲(chǔ)在HDFS分布式文件系統(tǒng),采用MapReduce進(jìn)行并行計(jì)算且與Hive相結(jié)合進(jìn)行多維度數(shù)據(jù)分析,最后將枯燥乏味的數(shù)據(jù)通過(guò)Echarts動(dòng)態(tài)可視化的呈現(xiàn)出來(lái),幫助用戶(hù)更好的理解和分析數(shù)據(jù)。該平臺(tái)解決了傳統(tǒng)分析平臺(tái)存儲(chǔ)數(shù)據(jù)量小、數(shù)據(jù)結(jié)構(gòu)單一等問(wèn)題,由此可見(jiàn),基于大數(shù)據(jù)技術(shù)的分析平臺(tái)必將成為未來(lái)的發(fā)展趨勢(shì)。同時(shí),在大數(shù)據(jù)分析過(guò)程中使用相應(yīng)的數(shù)據(jù)挖掘算法對(duì)數(shù)據(jù)進(jìn)行實(shí)時(shí)分析,成為下一步研究的重點(diǎn)。
[參考文獻(xiàn)]
[1] 王宏宇.Hadoop平臺(tái)在云計(jì)算中的應(yīng)用[J].軟件,2011(4):36-38.
[2] 謝晴.大數(shù)據(jù)助力農(nóng)產(chǎn)品流通[J].中國(guó)農(nóng)村科技,2014(12):23-25.
[3] 李響.基于Hadoop的云計(jì)算基礎(chǔ)架構(gòu)分析[J].計(jì)算機(jī)時(shí)代,2011(11):20-22.
[4] 楊艷梅.基于Hadoop的應(yīng)用系統(tǒng)框架IMSAA的設(shè)計(jì)與實(shí)現(xiàn)[D].天津:天津大學(xué),2018.