楊 毅
(河南牧業(yè)經(jīng)濟(jì)學(xué)院,河南 鄭州 450000)
在大數(shù)據(jù)時代下,人工智能、云平臺和高性能計算等技術(shù)的高速發(fā)展為畜產(chǎn)品智能檢測分析系統(tǒng)提供了重要的支撐。智能檢測分析系統(tǒng)的建構(gòu),有利于提升畜產(chǎn)品檢測的智能化,完善畜產(chǎn)品質(zhì)量安全體系,推進(jìn)農(nóng)業(yè)信息化建設(shè)[1]。將畜產(chǎn)品檢測與大數(shù)據(jù)技術(shù)相結(jié)合,利用現(xiàn)代信息技術(shù),通過采集海量碎片化的信息數(shù)據(jù),準(zhǔn)確的進(jìn)行篩選、分析,并最終歸納、整理出政府和相關(guān)機(jī)構(gòu)需要的資訊,構(gòu)建一套畜產(chǎn)品檢測智能分析系統(tǒng),實行及時有力的深度分析,整體提升畜產(chǎn)品檢測監(jiān)管能力和水平,促進(jìn)畜牧業(yè)產(chǎn)業(yè)健康、可持續(xù)發(fā)展。
針對目前畜產(chǎn)品的檢測,其數(shù)據(jù)處理主要存在3個問題:
(1)畜產(chǎn)品檢測注重檢測方法的使用和創(chuàng)新,檢測設(shè)備的培訓(xùn)和升級,檢測人員的指導(dǎo)和培訓(xùn),而對檢測數(shù)據(jù)分析不夠重視,沒有深度發(fā)掘測試數(shù)據(jù)的潛在價值。
(2)各類檢測機(jī)構(gòu)眾多且互不統(tǒng)屬,有傳統(tǒng)的人工統(tǒng)計模式,還有利用軟件進(jìn)行簡單分析的模式。此外實驗室所用大型儀器,廠家不同,操作軟件也不同,數(shù)據(jù)存儲和處理也不同,測試數(shù)據(jù)分散,導(dǎo)致數(shù)據(jù)收集困難。
(3)畜產(chǎn)品數(shù)據(jù)的數(shù)據(jù)統(tǒng)計、分析與挖掘還比較滯后,需要向系統(tǒng)化、集成化、智能化的方向發(fā)展,缺乏相對應(yīng)的畜產(chǎn)品檢測數(shù)據(jù)分析系統(tǒng)。
數(shù)據(jù)獲取是從數(shù)據(jù)源收集數(shù)據(jù),數(shù)據(jù)源分為閉源數(shù)據(jù)和開源數(shù)據(jù)。閉源數(shù)據(jù)指的是和相關(guān)檢測機(jī)構(gòu)合作獲取的內(nèi)部數(shù)據(jù),這部分?jǐn)?shù)據(jù)可靠性比較高且不向外部公開,僅僅只作為分析統(tǒng)計使用,不能進(jìn)行商業(yè)的應(yīng)用。開源數(shù)據(jù)是指各檢測機(jī)構(gòu)通過網(wǎng)絡(luò)發(fā)布的公開檢測數(shù)據(jù),比較分散,可以利用爬蟲軟件進(jìn)行抓取[2]。
對開源數(shù)據(jù)進(jìn)行收集時,首先是定時,每段時間對相關(guān)網(wǎng)站進(jìn)行分析,觀察所發(fā)布檢測數(shù)據(jù)的更新情況。其次定量,要準(zhǔn)確地識別出哪些是最新的、哪些是相關(guān)的內(nèi)容。數(shù)據(jù)主要來源于國家、省、市、縣和具有檢測資質(zhì)的企業(yè)等相關(guān)網(wǎng)站,這些數(shù)據(jù)都比較分散,需要進(jìn)一步進(jìn)行有意義信息的提取,比如:過濾冗余信息,集成互補性信息。這其中還存在很多問題,如信息的質(zhì)量問題,哪些信息是有價值的、可信賴的??梢詮目尚潘菰?信息的不同來源進(jìn)行分析,省市級的信息比較重要和真實)、動態(tài)輪詢(根據(jù)后期分析和預(yù)測結(jié)果對數(shù)據(jù)源之前的重要性權(quán)重進(jìn)行動態(tài)更新)做出判斷。采集數(shù)據(jù)分為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),要區(qū)別對待。
考慮到不同數(shù)據(jù)來源中數(shù)據(jù)特性的不同,對于結(jié)構(gòu)化相對較好、關(guān)聯(lián)相對簡單的檢測機(jī)構(gòu)知識庫數(shù)據(jù),重點關(guān)注檢測指標(biāo)實體(如樣品編號、測量對象、濃度等)的識別與消歧;對于采集的非結(jié)構(gòu)化數(shù)據(jù),重點關(guān)注基于所識別的測試指標(biāo)實體,抽取數(shù)據(jù)中的命名實體及其實體之間的關(guān)聯(lián)。最后,研究知識融合方法消除知識元素間的知識冗余、知識沖突,以保證知識的精準(zhǔn)性與可行度,構(gòu)建可靠的畜產(chǎn)品檢測知識圖譜。
針對復(fù)雜、迭代式的信息抽取與知識融合,使用具有高可擴(kuò)展性、可容錯性的MapReduce架構(gòu)(開源Spark系統(tǒng)),實現(xiàn)并發(fā)處理與調(diào)度。以研究人員為中心,針對數(shù)據(jù)的局部性,設(shè)計合理劃分策略,將大的數(shù)據(jù)集分為若干個容易處理的子數(shù)據(jù)集。根據(jù)劃分的策略,針對不同子數(shù)據(jù)集的特點,設(shè)計特有的清洗方法,提升局部數(shù)據(jù)質(zhì)量。設(shè)計整體清洗策略,清洗多個子數(shù)據(jù)之間存在的錯誤、不一致等問題,提升整體數(shù)據(jù)質(zhì)量。由于分區(qū)的清洗策略充分的考慮了數(shù)據(jù)的局部特征與整體特征,將顯著提高清洗效率和效果[3]。
畜產(chǎn)品檢測數(shù)據(jù)之間存在潛在的信息互補和信息冗余,對這些大規(guī)模數(shù)據(jù)進(jìn)行融合分析和產(chǎn)品動態(tài)畫像的構(gòu)建,能更加全面、有效地分析出畜產(chǎn)品質(zhì)量異常發(fā)生的季節(jié)、地點、產(chǎn)生的原因等。針對數(shù)據(jù)的融合分析,本課題從兩個方面進(jìn)行處理:(1)為了過濾掉畜產(chǎn)品數(shù)據(jù)之間的冗余信息,并且對有意義、高質(zhì)量的互補信息進(jìn)行提取,采用主成分分析(PCA)和知識圖譜的嵌入向量融合的方法,最終得到更加全面、準(zhǔn)確的畜產(chǎn)品特征表示。(2)為了提高在下游任務(wù)中的性能,采用集成學(xué)習(xí)的思想對不同弱分類(或預(yù)測)器進(jìn)行決策層的融合,比如在Flume的基礎(chǔ)上結(jié)合Spark實現(xiàn)梯度提升決策樹(GBDT)以及隨機(jī)森林(RF)算法的快速分布式融合。
數(shù)據(jù)倉庫能夠以不同的維度(如區(qū)域,時間等)、不同的粒度級別存儲數(shù)據(jù),同時具有方便的擴(kuò)展性,因此課題擬使用基于Hive的 MapReduce+Spark 雙計算引擎混合架構(gòu)進(jìn)行數(shù)據(jù)倉庫系統(tǒng)設(shè)計,通過和機(jī)器學(xué)習(xí)技術(shù)結(jié)合,無須人工干預(yù)和停機(jī)就能自動調(diào)優(yōu)、修補、升級、監(jiān)視和保護(hù)數(shù)據(jù)庫,以幫助疫病預(yù)測和制定戰(zhàn)略決策[4-5],系統(tǒng)設(shè)計如圖1所示。
圖1 數(shù)據(jù)倉庫系統(tǒng)設(shè)計
數(shù)據(jù)倉庫的主模塊包含HDFS、YARN、MapReduc、Spark和Hive。首先系統(tǒng)將多源異構(gòu)數(shù)據(jù)匯聚到HDFS分布式文件系統(tǒng),通過YARN對Hadoop 集群和Spark集群的資源進(jìn)行分配和管理,然后再利用Hive工具進(jìn)行數(shù)據(jù)的管理和索引,再通過上層MapReduce和Spark計算引擎對數(shù)據(jù)進(jìn)行查詢分析和計算。雙引擎的好處在于,可以依據(jù)業(yè)務(wù)計算需求的不同,通過配置或簡單命令隨時切換Hive計算引擎。MapReduce采用了多進(jìn)程模型,便于細(xì)粒度控制每個任務(wù)占用的資源,但會消耗較多的啟動時間,對實時性要求不高或?qū)Ψ€(wěn)定性要求較高的場景下使用MapReduce計算引擎;而Spark采用了多線程模型,雖然會出現(xiàn)嚴(yán)重的資源爭用,但有效地減少了中間數(shù)據(jù)傳輸數(shù)量與同步次數(shù),對實時性有一定要求時使用Spark計算引擎。
此外,根據(jù)項目的實際需要,添加以下模塊:
(1)考慮到業(yè)務(wù)的擴(kuò)展性,添加組件ZooKeeper,按需對集群節(jié)點進(jìn)行擴(kuò)容。
(2)考慮到病情預(yù)警所需要的實時性,添加組件Spark Streaming對數(shù)據(jù)進(jìn)行流處理,為實時流處理提供平臺。
(3)考慮到數(shù)據(jù)源多樣性,添加組件Graphx對圖片類型數(shù)據(jù)進(jìn)行處理。
(4)考慮到和機(jī)器學(xué)習(xí)技術(shù)結(jié)合,添加機(jī)器學(xué)習(xí)庫Spark Mlib。
傳統(tǒng)產(chǎn)業(yè)與現(xiàn)代信息技術(shù)結(jié)合,已經(jīng)成為畜牧業(yè)創(chuàng)新發(fā)展的制高點。大數(shù)據(jù)時代,畜牧業(yè)在產(chǎn)前、產(chǎn)中、產(chǎn)后各鏈條、各環(huán)節(jié)產(chǎn)生大量的數(shù)據(jù),如何分析、挖掘、開發(fā)和利用大數(shù)據(jù)技術(shù)對海量數(shù)據(jù)進(jìn)行相關(guān)分析,對畜牧業(yè)發(fā)展做出準(zhǔn)確預(yù)測,對畜牧業(yè)生產(chǎn)經(jīng)營管理者進(jìn)行正確指導(dǎo)和選擇合適的技術(shù)行為,是畜牧大數(shù)據(jù)開發(fā)的關(guān)鍵,畜產(chǎn)品檢測作為畜牧業(yè)安全保障的關(guān)鍵一環(huán),需要加快信息資源整合,讓數(shù)據(jù)轉(zhuǎn)起來、用起來,讓決策有依據(jù),大數(shù)據(jù)分析必不可少。