王 聰,黃曉英
(浙江農(nóng)林大學(xué)暨陽(yáng)學(xué)院,紹興 311800)
基于云計(jì)算的柑橘市場(chǎng)信息預(yù)測(cè)平臺(tái)構(gòu)建研究*
王 聰,黃曉英
(浙江農(nóng)林大學(xué)暨陽(yáng)學(xué)院,紹興 311800)
文章設(shè)計(jì)了一種基于Hadoop的柑橘市場(chǎng)信息預(yù)測(cè)平臺(tái),根據(jù)往年的柑橘產(chǎn)量、柑橘消費(fèi)量、進(jìn)出口量、庫(kù)存量等,通過(guò)Apriori算法在云計(jì)算平臺(tái)Hadoop下實(shí)現(xiàn)對(duì)影響柑橘價(jià)格的各類(lèi)影響因素和柑橘市場(chǎng)信息之間的關(guān)聯(lián)分析,根據(jù)得出的關(guān)聯(lián)性和置信度預(yù)測(cè)柑橘價(jià)格和產(chǎn)量,以此構(gòu)建柑橘市場(chǎng)信息預(yù)測(cè)平臺(tái),對(duì)柑橘價(jià)格和產(chǎn)量進(jìn)行預(yù)測(cè)。
云計(jì)算 數(shù)據(jù)挖掘 Hadoop 柑橘
目前,中國(guó)柑橘生產(chǎn)面積已躍居世界第一,柑橘產(chǎn)業(yè)已經(jīng)成為中國(guó)農(nóng)業(yè)生產(chǎn)的重要力量,在發(fā)展的過(guò)程中,也面臨一系列問(wèn)題。由于柑橘產(chǎn)量與需求的不平衡,使得柑橘的銷(xiāo)售和增收困難,柑橘價(jià)格長(zhǎng)期劇烈的波動(dòng),使得柑橘種植商的利潤(rùn)波動(dòng)大,當(dāng)柑橘生產(chǎn)量遠(yuǎn)遠(yuǎn)大于供應(yīng)量時(shí),就會(huì)出現(xiàn)柑橘滯銷(xiāo)、價(jià)格低廉,相反就會(huì)出現(xiàn)供不應(yīng)求的情況。如果通過(guò)數(shù)據(jù)挖掘技術(shù),分析柑橘市場(chǎng)每年的供求關(guān)系,提前知曉柑橘未來(lái)供需缺口的變化,能夠?yàn)楦涕偕a(chǎn)、消費(fèi)、進(jìn)出口制定相應(yīng)對(duì)策提供依據(jù)的同時(shí),保證柑橘市場(chǎng)的供需平衡,具有重要的意義。
隨著數(shù)據(jù)量不斷的劇增,傳統(tǒng)的數(shù)據(jù)挖掘算法和分析工具在面臨海量數(shù)據(jù)時(shí),出現(xiàn)挖掘效率低的問(wèn)題,由于已有的數(shù)據(jù)挖掘大多基于傳統(tǒng)的單機(jī)模式,無(wú)法高效的處理海量數(shù)據(jù)。同時(shí),擴(kuò)展已有的挖掘體系,會(huì)造成人力物力成本上升,很多中小企業(yè)無(wú)法承擔(dān)如此高昂的成本,而且,數(shù)據(jù)挖掘成本高,效率低。
云計(jì)算的出現(xiàn),給數(shù)據(jù)挖掘帶來(lái)新的方向。基于云計(jì)算的數(shù)據(jù)挖掘,具有在計(jì)算能力、存儲(chǔ)能力、可靠性、價(jià)格低等優(yōu)點(diǎn),迅速地得到廣泛應(yīng)用。云計(jì)算挖掘平臺(tái)可以分為3層,包括數(shù)據(jù)挖掘云服務(wù)層、數(shù)據(jù)挖掘分析層和云計(jì)算支持平臺(tái)。云服務(wù)層通過(guò)網(wǎng)絡(luò)連接,為云用戶(hù)提供云資源例如挖掘算法服務(wù)、數(shù)據(jù)預(yù)處理服務(wù)、數(shù)據(jù)服務(wù)、調(diào)度服務(wù)等;數(shù)據(jù)挖掘能力層包括數(shù)據(jù)并行處理、調(diào)度引擎等;云計(jì)算支持平臺(tái)提供分布式存儲(chǔ)和計(jì)算能力,為數(shù)據(jù)挖掘提供物理支持。如圖1所示。
2.1 系統(tǒng)設(shè)計(jì)目標(biāo)
目前,市場(chǎng)上柑橘種類(lèi)繁多,柑橘數(shù)據(jù)來(lái)源收受域約束,分布比較分散。同時(shí),這些數(shù)據(jù)具有時(shí)效性,在移動(dòng)互聯(lián)網(wǎng)和各種物聯(lián)網(wǎng)的發(fā)展下,柑橘的數(shù)據(jù)量劇增,如果采用傳統(tǒng)數(shù)據(jù)挖掘體系,無(wú)法很好地完成挖掘功能。因此,文章采用基于云計(jì)算的Hadoop下的云計(jì)算方式進(jìn)行平臺(tái)設(shè)計(jì)。
該系統(tǒng)設(shè)計(jì)基于云計(jì)算的市場(chǎng)信息預(yù)測(cè)平臺(tái)要滿(mǎn)足以下需求。
(1)存儲(chǔ)具有可擴(kuò)展性。在存儲(chǔ)層,存儲(chǔ)節(jié)點(diǎn)具有可擴(kuò)展性,由于柑橘數(shù)據(jù)來(lái)源多樣,且很多異構(gòu)數(shù)據(jù)。因此,該文采用非關(guān)系型數(shù)據(jù)庫(kù)系統(tǒng)的存儲(chǔ)模式存儲(chǔ)數(shù)據(jù),存儲(chǔ)方式采用分布式,便于靈活地進(jìn)行系統(tǒng)擴(kuò)容和系統(tǒng)伸縮。
(2)集成化、可定制的數(shù)據(jù)挖掘能力。用戶(hù)可以根據(jù)實(shí)際添加所需要的算法,因此系統(tǒng)實(shí)現(xiàn)了可定制的數(shù)據(jù)挖掘能力。
(3)友好的用戶(hù)展示界面。能夠直觀(guān)地顯示數(shù)據(jù)挖掘結(jié)果,用戶(hù)可以輕而易舉地理解挖掘的含義。
因此,該設(shè)計(jì)基于云計(jì)算的柑橘市場(chǎng)信息預(yù)測(cè)平臺(tái),具有可靠、高效、性能好、可擴(kuò)展的特點(diǎn)。
2.2 設(shè)計(jì)思路及方案
文章設(shè)計(jì)了基于Hadoop的柑橘市場(chǎng)信息預(yù)測(cè)平臺(tái),利用Hadoop的強(qiáng)大計(jì)算能力和存儲(chǔ)能力,達(dá)到以上系統(tǒng)設(shè)計(jì)目標(biāo)。
其設(shè)計(jì)思路是:利用Hadoop的特性,將數(shù)據(jù)挖掘中需要大的計(jì)算能力的算法擴(kuò)展到Hadoop集群的各個(gè)節(jié)點(diǎn)上,利用并行計(jì)算能力進(jìn)行數(shù)據(jù)挖掘工作,提高挖掘效率。采用分層設(shè)計(jì)思想,存儲(chǔ)層使用HDFS存儲(chǔ)文件和數(shù)據(jù),通過(guò)Map Reduce計(jì)算模型來(lái)執(zhí)行海量數(shù)據(jù)挖掘。
根據(jù)設(shè)計(jì)思路和云計(jì)算數(shù)據(jù)挖掘模型,通過(guò)分層設(shè)計(jì)思想,自頂向下的調(diào)用下層結(jié)構(gòu),最頂層是用戶(hù)和系統(tǒng)的交互層;中間層是業(yè)務(wù)處理層,提供基礎(chǔ)計(jì)算框架和業(yè)務(wù)邏輯處理;最底層為存儲(chǔ)層,提供分布式存儲(chǔ)。
2.3 系統(tǒng)模塊功能
數(shù)據(jù)管理框架。數(shù)據(jù)管理層建立在Hadoop下的HDFS文件系統(tǒng)之上,提供并行數(shù)據(jù)訪(fǎng)問(wèn)和高效、可擴(kuò)展的存儲(chǔ)服務(wù)。當(dāng)系統(tǒng)存儲(chǔ)能力不足時(shí),可以在不影響已有數(shù)據(jù)情況下,添加新的存儲(chǔ)節(jié)點(diǎn)。通過(guò)多副本存儲(chǔ)機(jī)制保障數(shù)據(jù)安全,即使有節(jié)點(diǎn)出現(xiàn)存儲(chǔ)失效,通過(guò)副本機(jī)制將失效節(jié)點(diǎn)數(shù)據(jù)轉(zhuǎn)移到其他節(jié)點(diǎn)。
圖1 基于云計(jì)算的數(shù)據(jù)挖掘
基礎(chǔ)計(jì)算框架。Map Reduce為系統(tǒng)的基礎(chǔ)計(jì)算框架,它可以隱藏底層設(shè)計(jì)細(xì)節(jié),通過(guò)簡(jiǎn)單的對(duì)外接口,實(shí)現(xiàn)各種并行計(jì)算能力,并且具有很好的擴(kuò)展性和伸縮性,可以根據(jù)實(shí)際需求增加或者刪除節(jié)點(diǎn)。
算法管理。用戶(hù)通過(guò)算法管理模塊查看系統(tǒng)提供的算法,并且可以上傳自己設(shè)計(jì)的算法,實(shí)現(xiàn)可定制化的數(shù)據(jù)挖掘能力。
頁(yè)面展示。通過(guò)友好的方式展示數(shù)據(jù)挖掘結(jié)果。
數(shù)據(jù)加載塊。由于數(shù)據(jù)種類(lèi)繁多,且來(lái)源不同,數(shù)據(jù)加載模塊將來(lái)源各異的數(shù)據(jù)在數(shù)據(jù)集管理模塊中進(jìn)行注冊(cè),然后存儲(chǔ)到HDFS文件系統(tǒng)。
數(shù)據(jù)挖掘算法模塊。提供各種并行挖掘算法,是基于算法管理模塊的擴(kuò)展。
數(shù)據(jù)挖掘。是系統(tǒng)的核心模塊,通過(guò)調(diào)用業(yè)務(wù)層的Map Reduce計(jì)算框架,提供高效的數(shù)據(jù)挖掘服務(wù)。
3.1 Hadoop平臺(tái)搭建
平臺(tái)采用B/S架構(gòu),前臺(tái)采用JSP作為開(kāi)發(fā)語(yǔ)言;后臺(tái)選擇java語(yǔ)言,采用Tomcat服務(wù)器;數(shù)據(jù)存儲(chǔ)采用MySQL和Hadoop的HDFS;Hadoop采用4臺(tái)PC機(jī)器作為數(shù)據(jù)節(jié)點(diǎn)。所有機(jī)器配置:4臺(tái)HP刀片服務(wù)器組成一個(gè)內(nèi)部往來(lái),建立一個(gè) 4個(gè)節(jié)點(diǎn)的Hadoop集群。其中 1個(gè)節(jié)點(diǎn)作為 Master,其余3 個(gè)節(jié)點(diǎn)作為 Slave,各個(gè)節(jié)點(diǎn)通過(guò)100M網(wǎng)卡進(jìn)行數(shù)據(jù)訪(fǎng)問(wèn)。Master節(jié)點(diǎn)服務(wù)器CPU:Inter(R)Xeon(R)E5620 2.4GHz 4*4核,Memory:6GB,Disk:500G*8。Salve節(jié) 點(diǎn) 服 務(wù) 器 CPU:Inter (R)Xeon(TM)3.00GHZ 4核,Memory:1GB,Disk: 146.8G*2。每臺(tái)服務(wù)器上安裝OS:64 bit CentOS6.2,Hadoop 版本1.0.3和Eclipse版本4.3.1。Hadoop默認(rèn)參數(shù)配置Block為64M,備份數(shù)為3。
3.2 預(yù)測(cè)模型構(gòu)建
文章采用關(guān)聯(lián)規(guī)則分析中的Apriori算法,對(duì)柑橘價(jià)格和產(chǎn)量進(jìn)行分析和預(yù)測(cè),主要通過(guò)Apriori算法,找出影響柑橘價(jià)格和產(chǎn)量之間的置信度,通過(guò)置信度構(gòu)建柑橘市場(chǎng)分析模型,以置信度計(jì)算柑橘市場(chǎng)信息。
基于Apriori算法的柑橘市場(chǎng)價(jià)格預(yù)測(cè)模型,如圖3.1所示。整個(gè)柑橘價(jià)格是建立在2005~2015年的柑橘價(jià)格指數(shù)、生產(chǎn)量指數(shù)、世界柑橘價(jià)格指數(shù)等基層上,通過(guò)我國(guó)《中國(guó)統(tǒng)計(jì)年鑒》發(fā)布的數(shù)據(jù),導(dǎo)入這10年的柑橘指數(shù)作為預(yù)測(cè)模型基礎(chǔ)。利用這些數(shù)據(jù)構(gòu)建數(shù)據(jù)挖掘模型,利用Apriori算法對(duì)這些數(shù)據(jù)進(jìn)行挖掘分析,得到各種因素對(duì)柑橘價(jià)格和產(chǎn)量之間的置信度,然后通過(guò)計(jì)算模型,實(shí)現(xiàn)對(duì)柑橘價(jià)格和產(chǎn)量的預(yù)測(cè)(圖2)。
3.3 Hadoop數(shù)據(jù)預(yù)處理
影響柑橘市場(chǎng)的數(shù)據(jù)主要有柑橘產(chǎn)量、柑橘消費(fèi)量、進(jìn)出口量、庫(kù)存量等,文章主要通過(guò)這些數(shù)據(jù),構(gòu)建柑橘市場(chǎng)預(yù)測(cè)模型。由于庫(kù)存量沒(méi)有統(tǒng)計(jì)數(shù)據(jù),因此,文章不考慮柑橘的庫(kù)存量對(duì)市場(chǎng)影響。
(1)柑橘產(chǎn)量。柑橘產(chǎn)量數(shù)據(jù)來(lái)源于《中國(guó)統(tǒng)計(jì)年鑒》。
(2)柑橘消費(fèi)量,數(shù)據(jù)來(lái)源于《中國(guó)農(nóng)村統(tǒng)計(jì)年鑒》,根據(jù)家庭人均水果消費(fèi)量,計(jì)算出柑橘中國(guó)國(guó)內(nèi)消費(fèi)數(shù)據(jù)。
(3)柑橘出口量,數(shù)據(jù)來(lái)源于聯(lián)合國(guó)貿(mào)易數(shù)據(jù)庫(kù)。
(4)國(guó)民消費(fèi)價(jià)格指數(shù),國(guó)家統(tǒng)計(jì)局獲取。
將以上數(shù)據(jù)存儲(chǔ)到預(yù)測(cè)模型的數(shù)據(jù)倉(cāng)庫(kù)中,在單機(jī)模式下Apriori算法執(zhí)行效率低,因此,采用云平臺(tái)方法,通過(guò)Hadoop實(shí)現(xiàn)Apriori算法。在計(jì)算過(guò)程中,首先將這些數(shù)據(jù)處理成Html格式存儲(chǔ)到Hadoop中,使用MapReduce對(duì)柑橘價(jià)格影響因素?cái)?shù)據(jù)進(jìn)行提取,之后將Apriori算法預(yù)測(cè)模型與Hadoop云計(jì)算框架關(guān)聯(lián)。
圖2 柑橘市場(chǎng)預(yù)測(cè)模型
圖3 基于Hadoop的柑橘市場(chǎng)預(yù)測(cè)模型
經(jīng)過(guò)數(shù)據(jù)預(yù)處理之后,結(jié)合Hadoop云計(jì)算框架,設(shè)計(jì)基于Hadoop云計(jì)算處理的柑橘市場(chǎng)預(yù)測(cè)模型,如圖4.1所示,將Hadoop云計(jì)算框架部署在Linux虛擬機(jī)上,通過(guò)Hadoop框架構(gòu)建整個(gè)預(yù)測(cè)系統(tǒng),然后設(shè)計(jì)Hadoop并行Apriori處理任務(wù),將Apriori算法挖掘任務(wù)分成多個(gè)并行任務(wù),分布到各個(gè)計(jì)算節(jié)點(diǎn)進(jìn)行處理。同時(shí),通過(guò)預(yù)處理模塊,從柑橘市場(chǎng)預(yù)測(cè)數(shù)據(jù)系統(tǒng)中,導(dǎo)入柑橘產(chǎn)量、柑橘消費(fèi)量、進(jìn)出口量、庫(kù)存量、居民消費(fèi)指數(shù)到HDFS文件系統(tǒng)中,為Hadoop執(zhí)行Apriori算法提供數(shù)據(jù)支持,最大限度地提高Apriori算法的執(zhí)行效率,最后通過(guò)Apriori算法得到各個(gè)影響因素,對(duì)糧食價(jià)格和年產(chǎn)量的置信度,交給柑橘市場(chǎng)預(yù)測(cè)模塊,進(jìn)行計(jì)算,得到柑橘年產(chǎn)量和價(jià)格預(yù)測(cè)值(圖3)。
以上述模型為依托,從而搭建基于Hadoop的柑橘市場(chǎng)信息預(yù)測(cè)平臺(tái)。
[1] 陳康,鄭緯民.云計(jì)算系統(tǒng)實(shí)例與研究現(xiàn)狀.軟件學(xué)報(bào),2009,20(5):1337~1348
[2] 陳全,鄧倩妮.云計(jì)算及其關(guān)鍵技術(shù).計(jì)算機(jī)應(yīng)用,2009,29(9):2562~2567
[3] 張建勛,古志民,鄭超.云計(jì)算研究進(jìn)展綜述.計(jì)算機(jī)應(yīng)用研究,2010,27(2):429~433
[4] 何勁,祁春節(jié).中國(guó)柑橘生產(chǎn)成本和市場(chǎng)價(jià)格變動(dòng)的實(shí)證研究.浙江柑橘,2009,26(1):2~7
[5] 汪曉銀.中國(guó)柑橘市場(chǎng)預(yù)警研究.華中農(nóng)業(yè)大學(xué),2013
[6] Witten,F(xiàn)rank I H.Data Mining.Practical Machine Learning Tools & Techniques with Java Implementations,2011,13(4):95~97
[7] 劉永平,郭小波,胡坤倫.采用云計(jì)算對(duì)糧食價(jià)格進(jìn)行分析和預(yù)測(cè).現(xiàn)代食品,2015,(21)
[8] Azuaje F. Witten IH,F(xiàn)rank E: Data Mining: Practical Machine Learning Tools and Techniques. Biomedical Engineering Online,2006,5(1):1~2
[9] 孫吉紅,彭林,鄒秋霞.基于云計(jì)算平臺(tái)的智能預(yù)測(cè)模型研究.農(nóng)業(yè)網(wǎng)絡(luò)信息,2014,(1):43~46
[10] 徐懿瑾.基于數(shù)據(jù)挖掘的移動(dòng)中高端用戶(hù)流失預(yù)警分析.上海交通大學(xué),2010
[11] Han J,Kamber M. Data Mining: Concepts and Techniques. Data Mining Concepts Models Methods & Algorithms Second Edition,2000,5(4):1~18
[12] 李佳鍞.基于云計(jì)算和數(shù)據(jù)挖掘技術(shù)的中小企業(yè)風(fēng)險(xiǎn)預(yù)測(cè)模型研究.廈門(mén)大學(xué),2012
[13] Chen M S,Han J,Yu P S. Data Mining: An Overview from a Database Perspective. IEEE Transactions on Knowledge & Data Engineering,1996,8(6):866~883
[14] Romero C,Ventura S,Garc í a E. Data mining in course management systems: Moodle case study and tutorial. Computers & Education,2008,51(1):368~384
[15] White T. Hadoop : the definitive guide. O’reilly Media Inc Gravenstein Highway North,2010,215(11):1 ~ 4
[16] O’Driscoll A,Daugelaite J,Sleator R D. ‘Big data’,Hadoop and cloud computing in genomics. Journal of Biomedical Informatics,2013,46(5):774~781
[17] Borthakur D,Gray J,Sarma J S,et al. Apache hadoop goes realtime at Facebook// Proceedings of the 2011 ACM SIGMOD International Conference on Management of data. ACM,2011:1071~1080
[18] Dean J,Ghemawat S. MapReduce: Simplified Data Processing on Large Clusters.. In Proceedings of Operating Systems Design and Implementation OSDI,2004,51(1):107~113
[19] Dean B J. et al .MapReduce:Simplifieddataprocessing on large clusters. Osdi’,2010,51(1):107~113
[20] 覃雄派,王會(huì)舉,杜小勇,等.大數(shù)據(jù)分析——RDBMS與MapReduce的競(jìng)爭(zhēng)與共生. 軟件學(xué)報(bào),2012,23(1):32~45
[21] 孫廣中,肖鋒,熊曦. MapReduce模型的調(diào)度及容錯(cuò)機(jī)制研究. 微電子學(xué)與計(jì)算機(jī),2007,24(9):178~180
[22] 孫廣中,肖鋒,熊曦. MapReduce模型的調(diào)度及容錯(cuò)機(jī)制研究.全國(guó)開(kāi)放式分布與并行計(jì)算機(jī)學(xué)術(shù)會(huì)議,2007:178~180
[23] 萬(wàn)至臻.基于MapReduce模型的并行計(jì)算平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn).浙江大學(xué),2008
[24] 陳艷金. MapReduce模型在Hadoop平臺(tái)下實(shí)現(xiàn)作業(yè)調(diào)度算法的研究和改進(jìn).華南理工大學(xué),2011
[25] 鐘曉,馬少平,等.數(shù)據(jù)挖掘綜述.模式識(shí)別與人工智能,2001,14(1):48~55
[26] 程苗.基于云計(jì)算的Web數(shù)據(jù)挖掘.計(jì)算機(jī)科學(xué),2011,(Z1):146~149
[27] 王鄂,李銘.云計(jì)算下的海量數(shù)據(jù)挖掘研究.現(xiàn)代計(jì)算機(jī):專(zhuān)業(yè)版,2009,(11):22~25
[28] 紀(jì)俊.一種基于云計(jì)算的數(shù)據(jù)挖掘平臺(tái)架構(gòu)設(shè)計(jì)與實(shí)現(xiàn).青島大學(xué),2009
[29] 李軍華.云計(jì)算及若干數(shù)據(jù)挖掘算法的MapReduce化研究.電子科技大學(xué),2010
[30] 賀瑤,王文慶,薛飛.基于云計(jì)算的海量數(shù)據(jù)挖掘研究.微機(jī)發(fā)展,2013,(2):69~72
教育部人文社科基金項(xiàng)目(12YJA870008);浙江農(nóng)林大學(xué)暨陽(yáng)學(xué)院大學(xué)生科技創(chuàng)新項(xiàng)目(TMKC1442)