[摘 要] 隨著農(nóng)業(yè)信息化的建設(shè)和發(fā)展,農(nóng)業(yè)電子商務(wù)的發(fā)展越來越快,農(nóng)業(yè)電子商務(wù)數(shù)據(jù)平臺的建設(shè)成為了農(nóng)業(yè)電子商務(wù)發(fā)展的重要部分,而Hadoop大數(shù)據(jù)技術(shù)可以滿足農(nóng)業(yè)電子商務(wù)數(shù)據(jù)平臺建設(shè)的需要?;诖耍疚膶ξ覈鴤鹘y(tǒng)農(nóng)業(yè)電子商務(wù)建設(shè)和發(fā)展中存在的問題進行分析,提出基于Hadoop技術(shù)的農(nóng)業(yè)電子商務(wù)數(shù)據(jù)平臺的設(shè)計方案,并對基于Hadoop技術(shù)的農(nóng)業(yè)電子商務(wù)數(shù)據(jù)平臺進行分析和研究。
[關(guān)鍵詞] 農(nóng)業(yè)現(xiàn)代化;電子商務(wù);數(shù)據(jù)平臺建設(shè);Hadoop技術(shù)
[中圖分類號] TP311.13;F724.6 [文獻(xiàn)標(biāo)識碼] A [文章編號] 1674-7909(2017)28-87-2
隨著我國農(nóng)業(yè)信息化的建設(shè)和發(fā)展,在我國的農(nóng)業(yè)電子商務(wù)發(fā)展中,農(nóng)業(yè)電子商務(wù)平臺存儲的用戶數(shù)據(jù)和農(nóng)產(chǎn)品數(shù)據(jù)呈海量式的規(guī)模發(fā)展,傳統(tǒng)的數(shù)據(jù)平臺已經(jīng)不能滿足農(nóng)業(yè)電子商務(wù)數(shù)據(jù)平臺對數(shù)據(jù)處理的需求。而Hadoop技術(shù)在農(nóng)業(yè)電子商務(wù)數(shù)據(jù)平臺中的應(yīng)用,滿足了農(nóng)業(yè)電子商務(wù)數(shù)據(jù)平臺對數(shù)據(jù)的存儲和處理需要,促進了我國農(nóng)業(yè)電子商務(wù)的發(fā)展。
1 我國傳統(tǒng)農(nóng)業(yè)電子商務(wù)平臺建設(shè)和發(fā)展存在的問題
我國傳統(tǒng)的電子商務(wù)數(shù)據(jù)平臺主要是采用磁盤陣列技術(shù)和關(guān)系型數(shù)據(jù)庫對存儲的數(shù)據(jù)進行處理,數(shù)據(jù)平臺存儲可擴展性比較差,而且平臺對數(shù)據(jù)的處理能力也較低。
1.1 平臺數(shù)據(jù)采集問題
農(nóng)業(yè)電子商務(wù)數(shù)據(jù)平臺建設(shè)的基礎(chǔ)是數(shù)據(jù)的采集[1],在數(shù)據(jù)采集過程中要保證數(shù)據(jù)的完整性,要對多個終端相對應(yīng)的節(jié)點進行數(shù)據(jù)的采集。數(shù)據(jù)采集完成后,要經(jīng)過多個節(jié)點進行轉(zhuǎn)發(fā)對數(shù)據(jù)進行傳輸?shù)炔僮?,然后在?shù)據(jù)平臺上進行存儲。隨著農(nóng)業(yè)電子商務(wù)的快速發(fā)展,平臺的數(shù)據(jù)量變得越來越大。傳統(tǒng)的農(nóng)業(yè)電子商務(wù)數(shù)據(jù)平臺在對數(shù)據(jù)的采集和傳輸過程中,受平臺節(jié)點多和網(wǎng)絡(luò)傳輸質(zhì)量的影響,會出現(xiàn)數(shù)據(jù)丟失的現(xiàn)象。這就需要采用分布式數(shù)據(jù)處理技術(shù)建立完整的數(shù)據(jù)采集機制,來解決平臺數(shù)據(jù)采集和傳輸過程中出現(xiàn)的問題,提高數(shù)據(jù)采集的安全性。通過數(shù)據(jù)采集機制的建立,可以對整個平臺的數(shù)據(jù)進行分布式處理,對數(shù)據(jù)進行分布式采集的過程實現(xiàn)有效的監(jiān)控,如果系統(tǒng)中的節(jié)點出現(xiàn)問題,那么可以對出現(xiàn)問題的節(jié)點采取容錯方式進行處理,保證平臺數(shù)據(jù)采集的正常進行,提高數(shù)據(jù)采集的高效性。
1.2 平臺數(shù)據(jù)存儲問題
傳統(tǒng)的農(nóng)業(yè)電子商務(wù)數(shù)據(jù)平臺的數(shù)據(jù)庫是基于小型數(shù)據(jù)的,隨著農(nóng)業(yè)電子商務(wù)網(wǎng)站應(yīng)用的用戶數(shù)量和規(guī)模的不斷擴大,平臺數(shù)據(jù)呈海量式增長,對數(shù)據(jù)的存儲不能進行很好的擴展。另外,傳統(tǒng)的農(nóng)業(yè)電子商務(wù)數(shù)據(jù)平臺在數(shù)據(jù)的容災(zāi)恢復(fù)和數(shù)據(jù)備份等方面都不能進行很好的處理。農(nóng)業(yè)電子商務(wù)數(shù)據(jù)平臺最基本的功能就是對海量的數(shù)據(jù)進行基本的分析和處理,但是平臺數(shù)據(jù)的存儲量非常大,在對數(shù)據(jù)進行處理時需要實現(xiàn)數(shù)據(jù)處理的高效性和正確性,才能夠保證數(shù)據(jù)平臺的數(shù)據(jù)分析工作正常進行。傳統(tǒng)農(nóng)業(yè)電子商務(wù)數(shù)據(jù)平臺對平臺存儲的數(shù)據(jù)進行分析和處理主要是利用關(guān)系型數(shù)據(jù)庫技術(shù)[2],處理少量的數(shù)據(jù)比較容易,對海量的平臺數(shù)據(jù)進行處理就存在耗時大和處理效率低的問題,不能滿足海量數(shù)據(jù)處理的基本需要。
2 農(nóng)業(yè)電子商務(wù)數(shù)據(jù)平臺中Hadoop技術(shù)的應(yīng)用特點
隨著農(nóng)業(yè)電子商務(wù)的快速發(fā)展,農(nóng)業(yè)電子商務(wù)網(wǎng)站的用戶數(shù)據(jù)量越來越多,對用戶的數(shù)據(jù)進行挖掘和分析可以為企業(yè)提供有價值的重要的農(nóng)業(yè)信息,在一定程度上可以促進農(nóng)業(yè)電子商務(wù)的建設(shè)和發(fā)展?;贖adoop技術(shù)的農(nóng)業(yè)電子商務(wù)數(shù)據(jù)平臺建設(shè),可以滿足農(nóng)業(yè)電子商務(wù)對數(shù)據(jù)處理的需要。在農(nóng)業(yè)電子商務(wù)數(shù)據(jù)平臺的建設(shè)中應(yīng)用Hadoop技術(shù)是非常重要的。Hadoop技術(shù)是一種開源的分布式處理技術(shù),Hadoop技術(shù)的云計算軟件平臺在我國的農(nóng)業(yè)和工業(yè)中都得到了廣泛的應(yīng)用,其應(yīng)用優(yōu)勢主要表現(xiàn)如下。首先,Hadoop技術(shù)可以對非結(jié)構(gòu)化的數(shù)據(jù)進行處理,并通過通用的方式把處理的結(jié)果發(fā)送給其他的應(yīng)用服務(wù)。其次,Hadoop技術(shù)可以對海量的數(shù)據(jù)進行排序,在分布式數(shù)據(jù)處理中Hadoop技術(shù)具有很強的數(shù)據(jù)處理能力[3]。再者,Hadoop技術(shù)具有高性能和高擴展性。高擴展性是Hadoop技術(shù)的一個重要優(yōu)勢,隨著數(shù)據(jù)量的增長,Hadoop技術(shù)通過可擴展性可以對節(jié)點進行擴展,甚至可以擴展到幾千個節(jié)點。隨著農(nóng)業(yè)電子商務(wù)數(shù)據(jù)量的海量式增長,Hadoop技術(shù)可以對集群進行相應(yīng)的擴展工作。此外,Hadoop技術(shù)可以對存儲空間進行擴展來實現(xiàn)對數(shù)據(jù)的存儲,可以通過建立數(shù)據(jù)副本的方式來提高數(shù)據(jù)的容錯性。在價格低廉的機器中都可以安裝Hadoop技術(shù),所以Hadoop技術(shù)可以以低成本的優(yōu)勢來對數(shù)據(jù)完成容錯性的存儲和計算,大大降低用戶的經(jīng)濟成本。目前,Hadoop是比較受歡迎的云計算平臺,應(yīng)用范圍非常廣。Hadoop的開源性,使得Hadoop分布式平臺在企業(yè)和公司中非常受歡迎;Hadoop技術(shù)對海量數(shù)據(jù)進行處理的能力,也是農(nóng)業(yè)電子商務(wù)數(shù)據(jù)平臺應(yīng)用Hadoop技術(shù)的主要優(yōu)勢。
3 基于Hadoop技術(shù)的農(nóng)業(yè)電子商務(wù)數(shù)據(jù)平臺設(shè)計
3.1 平臺架構(gòu)
Hadoop平臺提供了分布式的計算處理能力,平臺的架構(gòu)是一個主從式的分布式架構(gòu)結(jié)構(gòu),采用分布式文件數(shù)據(jù)存儲系統(tǒng)。分布式主從架構(gòu)部分結(jié)構(gòu)圖如圖1所示。
圖1 分布式主從架構(gòu)結(jié)構(gòu)圖
圖1是一個分布式的主從架構(gòu)圖,HDFS是分布式文件存儲系統(tǒng);YARN是資源管理器,YARN的應(yīng)用程序在運行時可以帶動一個Hadoop集群一起運行;MapReduce是一種計算引擎,采用批處理的方式。Hadoop技術(shù)具有非常強大的并行方式的計算能力,可以對大數(shù)據(jù)集進行數(shù)據(jù)分區(qū)的操作。在Hadoop的平臺架構(gòu)中,數(shù)據(jù)存儲架構(gòu)是作為存儲的組件,采用分布式文件系統(tǒng),具有高吞吐量的特點,也可以對大文件進行腹瀉。高吞吐量決定了可以對網(wǎng)絡(luò)的輸出和輸入進行優(yōu)化。數(shù)據(jù)存儲架構(gòu)還具有可伸縮性的特點,可以對數(shù)據(jù)進行容錯。資源管理調(diào)度系統(tǒng)在Hadoop中可以進行分布式的資源調(diào)度,當(dāng)Hadoop集群操作5 000節(jié)點時,整個數(shù)據(jù)平臺就會面臨擴展性問題,需要增加額外的節(jié)點,并改進可伸縮性。分布式計算框架MapReduce是對分布式計算的批處理框架進行模仿的,分布式計算框架MapReduce可以對原始數(shù)據(jù)進行并行化計算[4],與日志功能相結(jié)合從數(shù)據(jù)庫中提出客戶的反問記錄,這個操作過程對于傳統(tǒng)的編程技術(shù)來說需要很長的時間,但使用分布式計算框架MapReduce技術(shù)就可以把時間節(jié)約到幾分鐘。分布式計算框架MapReduce通過并行化的計算對并行處理進行了簡化。
3.2 數(shù)據(jù)采集技術(shù)
農(nóng)業(yè)電子商務(wù)數(shù)據(jù)平臺的數(shù)據(jù)量增長非???,數(shù)據(jù)采集工作是平臺工作的主要部分。在傳輸數(shù)據(jù)時,系統(tǒng)對數(shù)據(jù)轉(zhuǎn)發(fā)的中間節(jié)點數(shù)量增加,數(shù)據(jù)在網(wǎng)絡(luò)傳輸中可靠性下降,數(shù)據(jù)采集過程中會發(fā)生數(shù)據(jù)丟失的現(xiàn)象。面對數(shù)據(jù)采集的分布式的準(zhǔn)確性問題,需要對數(shù)據(jù)采集機制進行研究來提高采集數(shù)據(jù)的可靠性。數(shù)據(jù)采集模式流程圖如圖2所示。
文件是否變化
][ 從變化文件內(nèi)讀取新增記錄
][ 將新增記錄存儲到消息隊列
][結(jié)束流程
][是]
圖2 數(shù)據(jù)采集模式流程圖
農(nóng)業(yè)電子商務(wù)網(wǎng)站使用客戶規(guī)模在快速增長,每天會產(chǎn)生大量的日志數(shù)據(jù),有時候每天會產(chǎn)生幾太字節(jié)的數(shù)據(jù)。因此,數(shù)據(jù)采集采用Flume多級代理模式。農(nóng)業(yè)電子商務(wù)網(wǎng)站按照地區(qū)性的特點可以把采集的數(shù)據(jù)劃分為地理數(shù)據(jù)、物流數(shù)據(jù)和不同區(qū)域的機房數(shù)據(jù)等,這些數(shù)據(jù)在不同地區(qū)的節(jié)點進行分布,采用分層模式進行數(shù)據(jù)的采集,數(shù)據(jù)從低級節(jié)點傳輸?shù)礁呒壒?jié)點,高級節(jié)點在接收到數(shù)據(jù)后再向更高級的節(jié)點進行傳輸,最后將數(shù)據(jù)進行匯集,并且對不同區(qū)域的數(shù)據(jù)進行存儲計算。
4 結(jié)語
農(nóng)業(yè)電子商務(wù)的發(fā)展是農(nóng)村信息化建設(shè)的重要內(nèi)容,是我國社會經(jīng)濟發(fā)展的必然趨勢。Hadoop技術(shù)在農(nóng)業(yè)電子商務(wù)數(shù)據(jù)平臺中的應(yīng)用,從技術(shù)方面有利地推動了農(nóng)村電子商務(wù)的發(fā)展。
參考文獻(xiàn)
[1]孫忠富,杜克明,鄭飛翔,等.大數(shù)據(jù)在智慧農(nóng)業(yè)中研究與應(yīng)用展望[J].中國農(nóng)業(yè)科技導(dǎo)報,2013(6):63-71.
[2]吳勝,劉建波,劉士彬.ASP.NET MVC框架下內(nèi)容管理系統(tǒng)的探索與實現(xiàn)[J].微計算機信息,2010(36):30-32.
[3]林璇,馮健文,陳啟買.餐飲決策支持系統(tǒng)中OLAP數(shù)據(jù)倉庫的設(shè)計與實現(xiàn)[J].計算機工程與設(shè)計,2016(21):4142-4144.
[4]梁強.政府支持對包容性創(chuàng)業(yè)的影響機制研究——基于揭陽軍埔農(nóng)村電商創(chuàng)業(yè)集群的案例分析[J].南方經(jīng)濟,2016(1):42-56.