王小平 張望 姜繼勤
摘? ?要:在家蠶規(guī)?;B(yǎng)殖過程中,投資決策者需要對家蠶養(yǎng)殖過程中每個環(huán)節(jié)的情況有所了解,對市場需求、市場存量、上下游配套關(guān)系等進行數(shù)據(jù)分析,才能做到科學(xué)決策。文章利用大數(shù)據(jù)分析手段,從技術(shù)的角度探討了家蠶養(yǎng)殖行業(yè)大數(shù)據(jù)分析系統(tǒng)平臺的設(shè)計和實現(xiàn),對家蠶養(yǎng)殖產(chǎn)業(yè)具有一定的參考作用。
關(guān)鍵詞:智慧養(yǎng)蠶;生態(tài)鏈;大數(shù)據(jù)
在家蠶養(yǎng)殖的智能化改造升級過程中[1],研究人員發(fā)現(xiàn)大規(guī)模智能化養(yǎng)蠶將結(jié)束蠶繭行業(yè)散亂差的局面[2],但是迎來的問題也是前所未有的。家蠶養(yǎng)殖涉及的產(chǎn)業(yè)鏈包括桑樹的種植、家蠶養(yǎng)殖、繭絲綢生產(chǎn)銷售、絲綢醫(yī)藥等應(yīng)用環(huán)節(jié)。我國目前蠶繭年產(chǎn)量約60~80萬噸,如果各地規(guī)模性地投資智能化養(yǎng)蠶系統(tǒng),勢必將對上下游產(chǎn)業(yè)鏈產(chǎn)生重大影響。引入大數(shù)據(jù)分析技術(shù),可以精準了解桑葉產(chǎn)能及國際國內(nèi)蠶繭市場行情,方便政府及行業(yè)進行戰(zhàn)略決策,以保證整個產(chǎn)業(yè)生態(tài)鏈健康有序發(fā)展,為企業(yè)投產(chǎn)輔助決策。
1? ? 選型及邊界
調(diào)研智慧家蠶養(yǎng)殖企業(yè),明確了業(yè)主關(guān)心的是對家蠶蠶繭市場(包括國際國內(nèi))的整體分析,對家蠶養(yǎng)殖原料(主要是桑葉)的市場行情分析,以及對養(yǎng)殖過程中的相關(guān)數(shù)據(jù)分析,如圖1所示(數(shù)據(jù)主要來自于網(wǎng)絡(luò))。根據(jù)該應(yīng)用場景對大數(shù)據(jù)平臺進行技術(shù)選型。
大數(shù)據(jù)平臺第一個要素是數(shù)據(jù)源,要處理的數(shù)據(jù)源包括家蠶養(yǎng)殖數(shù)據(jù)、銷售系統(tǒng)數(shù)據(jù)、桑樹種植數(shù)據(jù)、桑葉產(chǎn)量數(shù)據(jù)、各地政策等業(yè)務(wù)數(shù)據(jù);數(shù)據(jù)分析不會直接對業(yè)務(wù)的數(shù)據(jù)源進行處理,而是先經(jīng)過數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)存儲,之后才能進行數(shù)據(jù)分析及結(jié)果展現(xiàn)等。完成數(shù)據(jù)工程需要大量的資源,利用監(jiān)控和協(xié)調(diào)分派來控制和協(xié)調(diào)這些資源;部署要更方便、更容易地大規(guī)模的數(shù)據(jù),確認是否需要集群,還涉及日志、安全以及與云的結(jié)合,這些在實際設(shè)計的時候需要明確下來。
2? ? 系統(tǒng)設(shè)計
系統(tǒng)包括數(shù)據(jù)采集、數(shù)據(jù)處理、數(shù)據(jù)分析、數(shù)據(jù)解釋及展現(xiàn)4個部分,如圖2所示。
(1)數(shù)據(jù)采集是指將來自于RDBMS的結(jié)構(gòu)型數(shù)據(jù)、來源于網(wǎng)絡(luò)Web的半結(jié)構(gòu)型數(shù)據(jù)以及文檔型數(shù)據(jù)進行數(shù)據(jù)采集、數(shù)據(jù)整合[3]。
(2)數(shù)據(jù)處理及存儲指將采集到的數(shù)據(jù)進行數(shù)據(jù)清洗、分類、修正,形成可信數(shù)據(jù),最終將相關(guān)聯(lián)的數(shù)據(jù)進行存儲。外部數(shù)據(jù)的結(jié)構(gòu)跟企業(yè)內(nèi)部數(shù)據(jù)的結(jié)構(gòu)不一樣,需要進行轉(zhuǎn)換,爬蟲爬取的數(shù)據(jù)結(jié)構(gòu)更亂。大數(shù)據(jù)平臺里需要進行數(shù)據(jù)的提取、轉(zhuǎn)換、加載、清洗、去重、去噪。爬蟲爬過來的數(shù)據(jù)往往是非結(jié)構(gòu)性的、文檔型的數(shù)據(jù),還有視頻、音頻,需要去做數(shù)據(jù)清洗、數(shù)據(jù)預(yù)處理等工作。
(3)數(shù)據(jù)分析是指運用數(shù)據(jù)挖掘、智能算法、云計算等技術(shù)對處理并存儲后的數(shù)據(jù)進行分析,形成歷史趨勢分析報告,并在此基礎(chǔ)上預(yù)測下一年乃至于幾年蠶桑養(yǎng)殖行業(yè)的發(fā)展趨勢。
(4)數(shù)據(jù)解釋及展現(xiàn)是將結(jié)果以數(shù)據(jù)、圖表、曲線、模擬等方式展現(xiàn)給用戶,供用戶閱讀和決策參考,是呈現(xiàn)給用戶最終的結(jié)果。
3? ? 系統(tǒng)實現(xiàn)關(guān)鍵點
3.1? 數(shù)據(jù)采集的實現(xiàn)
結(jié)構(gòu)型數(shù)據(jù)屬于企業(yè)內(nèi)部數(shù)據(jù),需要與企業(yè)生產(chǎn)系統(tǒng)對接(如各養(yǎng)殖基地在養(yǎng)殖過程中的產(chǎn)量、原料消耗等數(shù)據(jù));半結(jié)構(gòu)型數(shù)據(jù)(如交易市場蠶繭銷售交易數(shù)據(jù))和文檔型數(shù)據(jù)(如企業(yè)報告給當(dāng)?shù)卣虅?wù)局的報表)屬于外部數(shù)據(jù),有兩種處理方法:(1)要獲取的外部數(shù)據(jù)本身提供API,可以調(diào)用API獲取。(2)數(shù)據(jù)本身不提供API,需要通過爬蟲技術(shù)爬取過來。圖3為爬取處理過程。
3.2? 數(shù)據(jù)處理的實現(xiàn)
通過系統(tǒng)本身的業(yè)務(wù)數(shù)據(jù)、管理員錄入的業(yè)務(wù)數(shù)據(jù)、日志數(shù)據(jù),通過不同的方式采集后,存入到HDFS[4],HBASE中,對數(shù)據(jù)進行預(yù)處理,如圖4所示,包括數(shù)據(jù)清洗、日志解析、分類合并等工作,最后進行數(shù)據(jù)統(tǒng)計分析、數(shù)據(jù)展現(xiàn),并存入HIVE數(shù)據(jù)倉庫[5]。
3.3? 數(shù)據(jù)分析及展現(xiàn)的實現(xiàn)
將處理并存儲后的數(shù)據(jù)運用數(shù)據(jù)挖掘、智能算法、云計算等技術(shù),對數(shù)據(jù)進行分析。本系統(tǒng)需要做3個方面的數(shù)據(jù)分析:(1)統(tǒng)計分析,使用MapReduce[6]或Spark。(2)做查詢檢索,同步寫到HDFS的同時還要考慮寫到ES里。(3)做統(tǒng)計分析,先建立一個Cube,然后再進入OLAP的場景[7-8]。
數(shù)據(jù)分析后形成歷史趨勢分析報告,并在此基礎(chǔ)上預(yù)測下一年乃至于幾年蠶桑養(yǎng)殖行業(yè)的發(fā)展趨勢。如圖5所示,通過報表及報告的形式展現(xiàn)給不同的用戶。
4? ? 結(jié)語
通過本次大數(shù)據(jù)平臺系統(tǒng)設(shè)計,本研究搭建了基本大數(shù)據(jù)分析框架,并利用Java語言進行了實現(xiàn),基本滿足了企業(yè)、行業(yè)以及政府部門對蠶桑養(yǎng)殖行業(yè)上下游產(chǎn)業(yè)鏈的數(shù)據(jù)分析需求。但在功能上還有很多不完善的地方,需要在后續(xù)過程中迭代完善。
[參考文獻]
[1]聶萌瑤,張峙.大數(shù)據(jù)下基于Hadoop的智能物流平臺架構(gòu)[J].無線互聯(lián)科技,2018(17):15-16,40.
[2]雷軍,葉航軍,武澤勝,等.基于開源生態(tài)系統(tǒng)的大數(shù)據(jù)平臺研究[J].計算機研究與發(fā)展,2017(1):80-93.
[3]董賀,徐凌宇.基于云平臺的軟件服務(wù)流體系結(jié)構(gòu)[J].上海大學(xué)學(xué)報(自然科學(xué)版),2013(1):14-20.
[4]曹寧,吳中海,劉宏志,等.HDFS下載效率的優(yōu)化[J].計算機應(yīng)用,2010(8):2060-2065,2240.
[5]紀俊.一種基于云計算的數(shù)據(jù)挖掘平臺架構(gòu)設(shè)計與實現(xiàn)[D].青島:青島大學(xué),2009.
[6]萬至臻.基于MapReduce模型的并行計算平臺的設(shè)計與實現(xiàn)[D].杭州:浙江大學(xué),2008.
[7]梁年貴.家蠶省力化養(yǎng)殖技術(shù)探討[J].南方農(nóng)業(yè),2015(3):144-145.
[8]李建琴.蠶桑產(chǎn)業(yè)轉(zhuǎn)型升級理論與路徑[J].蠶業(yè)科學(xué),2017(3):361-368.
Analysis on the platform architecture of big data analysis system for
upstream and downstream ecological chain of smart sericulture
Wang Xiaoping, Zhang Wang, Jiang Jiqin
(Chongqing City Management College, Chongqing 401331, China)
Abstract:In the process of large-scale sericulture, as an investment decision-maker, we need to understand the situation of each link in the process of sericulture, and analyze the data of market demand, market stock, upstream and downstream supporting relationship, to make a scientific decision. Using big data analysis method, this paper discusses the design and implementation of big data analysis system platform in sericulture industry from the technical point of view, which has a certain reference role for sericulture industry.
Key words:smart sericulture; ecological chain; big data