數(shù)據(jù)挖掘在溫室大棚上的應(yīng)用研究

2017-12-15 02:32:18,,,

計算機測量與控制 2017年11期

關(guān)鍵詞：異構(gòu)溫室數(shù)據(jù)挖掘

,, ,

(1.浙江大學(xué)城市學(xué)院杭州市物聯(lián)網(wǎng)技術(shù)與應(yīng)用重點實驗室,杭州 310015;2.浙江大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,杭州 310015)

數(shù)據(jù)挖掘在溫室大棚上的應(yīng)用研究

鄭增威1,陳漢群1,2,孫霖1,蔡建平1

(1.浙江大學(xué)城市學(xué)院杭州市物聯(lián)網(wǎng)技術(shù)與應(yīng)用重點實驗室,杭州310015;2.浙江大學(xué)計算機科學(xué)與技術(shù)學(xué)院,杭州310015)

隨著物聯(lián)網(wǎng)的興起，數(shù)據(jù)的積累速度、維度以及體積等也越來越大，成了真正的大數(shù)據(jù)范疇；在農(nóng)業(yè)溫室大棚中部署的大量各種各樣的傳感器產(chǎn)生了大量多源異構(gòu)的傳感數(shù)據(jù)，而且這些數(shù)據(jù)中存在需要清洗的各種臟亂數(shù)據(jù)；文章按照數(shù)據(jù)清洗，模型構(gòu)建和模型應(yīng)用3個部分進行詳述，首先介紹數(shù)據(jù)清洗技術(shù)和多源異構(gòu)數(shù)據(jù)的融合技術(shù)，然后列舉了常見的預(yù)測模型構(gòu)建方法并分別指出了每種方法的適用情況，最后對常見的應(yīng)用領(lǐng)域進行了綜述和總結(jié)，并提出了目前還存在的問題，以及對未來的展望。

數(shù)據(jù)挖掘；溫室大棚；數(shù)據(jù)清洗；異構(gòu)數(shù)據(jù)

0 引言

在云計算和大數(shù)據(jù)等新興技術(shù)的興起和完善，在農(nóng)業(yè)培育領(lǐng)域也出現(xiàn)了相應(yīng)的新技術(shù)，其中基于物聯(lián)網(wǎng)技術(shù)的溫室大棚栽培技術(shù)也開始在不斷的發(fā)展。就實際的應(yīng)用來看，物聯(lián)網(wǎng)溫室大棚技術(shù)主要是在溫室里面布設(shè)多種傳感器件、控制執(zhí)行器以及由它們構(gòu)成的滴管系統(tǒng)、變溫系統(tǒng)、加濕系統(tǒng)和通風系統(tǒng)等。通過各種各樣的傳感器件將農(nóng)業(yè)栽培活動過程中的海量環(huán)境信息和作物生長數(shù)據(jù)通過已有的互聯(lián)網(wǎng)絡(luò)傳輸至云端服務(wù)器進行處理、加工，然后再通過互聯(lián)網(wǎng)傳輸?shù)街悄芙K端系統(tǒng)進行展示、智能化管理、電子化交易，對作物生長進行更加細粒度的控制。從而改變以往低效、粗放的農(nóng)業(yè)行為，實現(xiàn)更加高效、節(jié)能、生態(tài)和安全的生產(chǎn)行為。

正由于物聯(lián)網(wǎng)和各種傳感信息獲取技術(shù)的不斷延伸和普及應(yīng)用，使得溫室栽培領(lǐng)域積累的數(shù)據(jù)爆發(fā)式的增長：數(shù)據(jù)增長速度越來越快、數(shù)據(jù)體積越來越大、數(shù)據(jù)結(jié)構(gòu)和維度越來越復(fù)雜、數(shù)據(jù)的冗余量越來越多、數(shù)據(jù)處理和應(yīng)用面臨著越來越大的考驗等[1]。各類格式的傳感器無時無刻不在產(chǎn)生著大量的數(shù)據(jù)，空氣溫濕度、土壤溫濕度、農(nóng)作物的葉綠素值及其病害情況等數(shù)據(jù)持續(xù)不斷的送往服務(wù)器并被存儲在云端的數(shù)據(jù)倉庫[2]中。如同互聯(lián)網(wǎng)[3]一樣，如今的溫室大棚研究領(lǐng)域也已經(jīng)積累了來自傳感器的海量數(shù)據(jù)，這些數(shù)據(jù)的體積之大和結(jié)構(gòu)之復(fù)雜單靠人工是無法進行全面而透徹的進行分析的，所以就需要引入數(shù)據(jù)挖掘相關(guān)的研究算法。

本文首先介紹了數(shù)據(jù)預(yù)處理的常見方法，包含數(shù)據(jù)清洗和多源異構(gòu)數(shù)據(jù)的融合技術(shù)，然后對比了常見的模型構(gòu)建的方法，最后簡要列舉了數(shù)據(jù)挖掘算法在溫室大棚領(lǐng)域中比較常見的應(yīng)用以及總結(jié)，并對后續(xù)算法研究中面臨的問題進行了簡要分析總結(jié)。

1 數(shù)據(jù)清洗

數(shù)據(jù)清洗是數(shù)據(jù)預(yù)處理的主要工作，它的目的是提高數(shù)據(jù)的質(zhì)量，以便下一步模型建立。一般來說，在實際傳感器中收集而來的原始數(shù)據(jù)很可能會含有很多的缺失值，也有可能包含各種數(shù)據(jù)噪音。這可能是因為傳感器本身對一些異常值的處理方式不同，也有可能是在收集和錄入數(shù)據(jù)時人為操作失誤導(dǎo)致異常值的產(chǎn)生。這些情況都會導(dǎo)致數(shù)據(jù)出現(xiàn)不穩(wěn)定性，模糊性，出現(xiàn)殘缺數(shù)據(jù)、錯誤數(shù)據(jù)和重復(fù)數(shù)據(jù)等“臟數(shù)據(jù)”，對之后使用算法模型挖掘出有效的信息產(chǎn)生很大的困擾。因此，在進行模型建立之前，我們必須使用一些措施來對這些不符合要求的數(shù)據(jù)進行清洗，以便提高數(shù)據(jù)的質(zhì)量。

正常情況數(shù)據(jù)清洗的第一個步驟就是對數(shù)據(jù)使用一些數(shù)學(xué)方法進行統(tǒng)計分析，通過一些圖表來了解哪些數(shù)據(jù)是不合理的，同時也能夠明白數(shù)據(jù)的基本情況。在分析完數(shù)據(jù)之后，需要對數(shù)據(jù)的缺失值進行處理。缺失值的產(chǎn)生有很多原因，可能是設(shè)備在收集的時候處理不當產(chǎn)生的，也有可能是人工錄入數(shù)據(jù)的時候不小心看錯或者是漏掉導(dǎo)致的。在處理的缺失值的時候首先應(yīng)該判斷缺失值的分布情況，然后根據(jù)不同的數(shù)據(jù)場景應(yīng)用不同的處理方法。比較常用的缺失值處理方法有以下幾種[4]。

1.1 中位數(shù)或均值替代法

使用均值來替代，這種方法的好處是：不會導(dǎo)致樣本信息變少，而且操作起來也比較簡單。但是有個缺點就是當缺失數(shù)據(jù)不是隨機數(shù)據(jù)時會產(chǎn)生偏差。對于正常分布的數(shù)據(jù)可以使用均值代替，如果數(shù)據(jù)是傾斜的，使用中位數(shù)可能更好。

1.2 插補法

常見的插補法主要以以下幾種：隨機插補法，從總體中隨機抽取某個樣本代替缺失樣本；多重插補法，通過變量之間的關(guān)系對缺失數(shù)據(jù)進行預(yù)測，利用蒙特卡洛方法生成多個完整的數(shù)據(jù)集，在對這些數(shù)據(jù)集進行分析，最后對分析結(jié)果進行匯總處理；熱平臺插補，指在非缺失數(shù)據(jù)集中找到一個與缺失值所在樣本相似的樣本(匹配樣本)，利用其中的觀測值對缺失值進行插補，優(yōu)點：簡單易行，準確率較高，缺點：變量數(shù)量較多時，通常很難找到與需要插補樣本完全相同的樣本。但我們可以按照某些變量將數(shù)據(jù)分層，在層中對缺失值實用均值插補。

1.3 建模法

可以用回歸、使用貝葉斯形式化方法的基于推理的工具或決策樹歸納確定。例如，利用數(shù)據(jù)集中其他數(shù)據(jù)的屬性，可以構(gòu)造一棵判定樹，來預(yù)測缺失值的值。

以上各種缺失值處理的方法各有優(yōu)劣，在實際使用的時候需要根據(jù)具體情況，如數(shù)據(jù)的傾斜度、缺失值所占的比例和分布情況等來進行選取。正常來說，建模法由于是根據(jù)已有的值來預(yù)測缺失值，準確率更高，所以是比較常見的方法。

處理完缺失值后，數(shù)據(jù)中往往還會存在著異常值。從統(tǒng)計圖形上來看，異常值通常也稱為“離群點”。在處理異常值的時候，可以視算法特性而定，有些算法可能對異常值并不是很敏感，那么就可以不需要對其進行處理，而有的算法對這些“離群點”比較敏感，比如K-Means，KNN之類的算法，那么就需要對異常值進行處理了。當數(shù)據(jù)中可以明顯觀察出異常數(shù)據(jù)量比較少的時候是可以直接將它們刪除掉，否則可以使用平均值替代法來進行操作，這種方法均有損失小，簡單高效的優(yōu)點。還有一種方式就是將異常值當做缺失值來進行處理，使用以上處理缺失值的方法來進行。

由于一些感知信息如大棚室溫、土壤溫度、空氣濕度等并不是時刻在發(fā)生著變化，它們更多的是以小時為時間單位而發(fā)生變化，而傳感器的數(shù)據(jù)采集頻率正常是遠沒有這么久，這就導(dǎo)致了一個問題：數(shù)據(jù)存在極大的冗余性[2]。數(shù)據(jù)冗余性除了會增加模型的訓(xùn)練時間之外，還有會加大數(shù)據(jù)的傳輸量和帶寬延遲。

在消除冗余數(shù)據(jù)方面，Jeffrey提出了基于管道的算法,根據(jù)原始數(shù)據(jù)的特性使用了兩種不同的步驟進行處理，這種算法可以很好的處理數(shù)據(jù)的重復(fù)讀取，降低冗余性[6]。Jeffrey在他的另一篇論文中提出一個基于時間相關(guān)的數(shù)據(jù)清洗策略，該策略使用一個可能性模型和來解決數(shù)據(jù)的泄露問題[4]。另外，Sarma 也介紹了一個管道算法來提高7去除冗余之后數(shù)據(jù)流的質(zhì)量[8]。

2 異構(gòu)信息融合方法

雖然我們在前文對數(shù)據(jù)進行過清洗，不過仍然存在問題就是數(shù)據(jù)的多源異構(gòu)性。由于數(shù)據(jù)是來自各種各樣的傳感器，包括環(huán)境感知數(shù)據(jù)、作物生長數(shù)據(jù)等，這些數(shù)據(jù)從內(nèi)容、格式上來分析都是不同的，因此如果想對這些數(shù)據(jù)進行下一個的加工就需要先對其進行融合，將數(shù)據(jù)格式融合統(tǒng)一之后才可以執(zhí)行下一步的加工操作。由布設(shè)于溫室環(huán)境中大量的傳感器和執(zhí)行器所構(gòu)成的環(huán)境數(shù)據(jù)信息感知系統(tǒng)、作物生長信息感知系統(tǒng)以及滴管系統(tǒng)、變溫系統(tǒng)和通風系統(tǒng)，將所采集的大量的農(nóng)業(yè)信息數(shù)據(jù)通過網(wǎng)絡(luò)傳輸?shù)皆贫朔?wù)器進行加工處理，以幫助農(nóng)民智能化農(nóng)業(yè)生產(chǎn)活動，通過預(yù)警機制及時發(fā)現(xiàn)問題，準確知道發(fā)生問題的具體位置。實現(xiàn)以大量傳感設(shè)備和執(zhí)行設(shè)備為中心的智能化生產(chǎn)模式，通過各種自動化、智能化、遠程控制的生產(chǎn)設(shè)備使得人從繁重的農(nóng)務(wù)中解放出來。在上述系統(tǒng)中，主要的傳感器設(shè)備包括溫濕度傳感器、酸堿性傳感器、二氧化碳傳感器和光照傳感器等設(shè)備，運用這些傳感器對溫室環(huán)境進行偵測，所得結(jié)果數(shù)據(jù)類似如表1所示。將傳感器傳回來的各種數(shù)據(jù)通過儀表和各類顯示走勢圖實時展示溫室情況，對作物的生長環(huán)境進行實時監(jiān)控以保證作物的健壯成長。

產(chǎn)生于不同種類的傳感器件的各種各樣的數(shù)據(jù)信息，對之后的數(shù)據(jù)加工有著很大的干擾，直接利用它們進行分析預(yù)測會導(dǎo)致結(jié)果模型不穩(wěn)定，模型不夠魯棒，而且數(shù)據(jù)處理過程中由于要判斷不一樣的數(shù)據(jù)也會導(dǎo)致梳處理速度變慢。因此，可以使用數(shù)據(jù)融合技術(shù)對這些異構(gòu)數(shù)據(jù)進行預(yù)處理，使其形成完整統(tǒng)一的數(shù)據(jù)，這樣才可以繼續(xù)下一步的預(yù)測模型構(gòu)建，數(shù)據(jù)融合技術(shù)是數(shù)據(jù)預(yù)處理過程中的主要工作。

1991年，由美國(joint directors of laboratories, JDL)提出了一種數(shù)據(jù)融合模型[10]，業(yè)界的大部分研究者都接受這個融合模型。當前，由于已有的大多數(shù)融合系統(tǒng)在實現(xiàn)的細節(jié)上還存在著諸多的不一致，所以很多學(xué)者還在尋求一種新的理想的模型框架。不過，幸運的是現(xiàn)有的一些工具或者方案可以符合一些功能上的要求，比如FLAMES系統(tǒng)、SceneGen[11]工具、MRS[12]工具等系統(tǒng)和工具。數(shù)據(jù)信息融合的研究設(shè)計到很多理論知識，從數(shù)據(jù)結(jié)構(gòu)算法的角度來看，大概可以分為：人工智能方法和概率統(tǒng)計方法兩個大類。其中人工智能方法中模糊理論神經(jīng)網(wǎng)絡(luò)、D-S 證據(jù)推理、Bayes 估計這3個占了融合算法的85%，另外粗糙集等機器、遺傳算法、支持向量機學(xué)習(xí)方法也已經(jīng)開始在信息融合中深入應(yīng)用。常見的機器學(xué)習(xí)融合算法主要有表2所描述的幾種。

除了從算法的角度進行分類之外，還可以從異構(gòu)數(shù)據(jù)集成技術(shù)的角度來對數(shù)據(jù)融合方法進行分類，分為模式集成方法和數(shù)據(jù)復(fù)制方法。其中，模式集成方法主要思路是通過將所有的數(shù)據(jù)源集中成一個全局模式，用戶在使用的時候可以基于全局模式來透明的訪問每一個數(shù)據(jù)集里面的數(shù)據(jù)，中間件集成方法和聯(lián)邦數(shù)據(jù)庫是當下兩種比較典型的模式集成方法[15]，如表3所示。而數(shù)據(jù)復(fù)制方法的主要思想是通過將異構(gòu)的數(shù)據(jù)集統(tǒng)一存放在中央數(shù)據(jù)庫里面，其中，數(shù)據(jù)倉庫是數(shù)據(jù)復(fù)制方法中比較受歡迎的一種方法。Hadley通過定義對數(shù)據(jù)語義的理解和映射，使用典型的關(guān)系型數(shù)據(jù)庫對其做了新的定義[16]，使用變量名作為數(shù)據(jù)表的列，具體的數(shù)據(jù)存放在二維表關(guān)系表的行里面，從而將多遠異構(gòu)數(shù)據(jù)融合存放在一個新的統(tǒng)一數(shù)據(jù)庫里面[17]。

表2 常見的機器學(xué)習(xí)數(shù)據(jù)融合算法

表3 傳統(tǒng)的異構(gòu)數(shù)據(jù)集成工程技術(shù)

3 預(yù)測模型在溫室大棚中的研究現(xiàn)狀

3.1 模型構(gòu)建方法

在處理完大量異構(gòu)數(shù)據(jù)的預(yù)處理和信息融合等工作之后，接下來的任務(wù)就是進行植物生長預(yù)測模型的構(gòu)建工作。模型構(gòu)建的主要過程是在缺失的、海量的、隨機和有雜音的數(shù)據(jù)中，通過一些數(shù)據(jù)挖掘算法分析出這些傳感數(shù)據(jù)信息里面所包含的、潛在有價值的信息和知識的過程。由于溫室作物栽培過程的一些特性：作物類型繁多，土壤種類復(fù)雜且不易檢測，密度、水分和氣候等多種因素之間相互影響影響，作物病害頻繁發(fā)生且不斷出現(xiàn)新的癥象，這樣就使得關(guān)于數(shù)據(jù)庫與知識庫具有多個維度、數(shù)據(jù)不完整、矩陣稀疏性高、數(shù)據(jù)量大、數(shù)據(jù)不確定、動態(tài)等特征，使得本來就復(fù)雜的傳感數(shù)據(jù)變得更加的模糊不清。所以，在選擇模型構(gòu)建方法的時候，所選擇的方法應(yīng)該要適合與處理溫室農(nóng)業(yè)領(lǐng)域的相關(guān)數(shù)據(jù)特征。此外前面所提及的數(shù)據(jù)有領(lǐng)一個重要的特征，那就是它的測量方式往往是和當前時間互相掛鉤的，因此在進行數(shù)據(jù)分析的時候，應(yīng)該要盡量考慮時間方面的因素。模型構(gòu)建的主要步驟如下所示[20](圖1)：

表4 智慧農(nóng)業(yè)上常用的模型構(gòu)建方法

1)數(shù)據(jù)定義：創(chuàng)建元數(shù)據(jù)，定義相關(guān)專業(yè)領(lǐng)域的情況，了解基礎(chǔ)知識背景，理清用戶的需求。這是創(chuàng)建數(shù)據(jù)質(zhì)量改善方法和數(shù)據(jù)倉庫的首要步驟。

2)數(shù)據(jù)準備：這一步是數(shù)據(jù)分析挖掘過程中的重要環(huán)節(jié)，需要對原始數(shù)據(jù)進行清洗和過濾操作，然后檢驗數(shù)據(jù)的一致性和完備性，其中，主要的工作是處理噪音數(shù)據(jù)，以及對缺失的數(shù)據(jù)進行填充。

3)模型構(gòu)建：通過對比多種數(shù)據(jù)挖掘算法，選出符合要求的算法，然后確定最終的預(yù)測算法。

4)數(shù)據(jù)挖掘：利用前一步驟所選擇的預(yù)測算法，從經(jīng)過預(yù)處理的數(shù)據(jù)中分析出用戶想要的信息，將這些信息提煉成某種特定的規(guī)則表達式，然后持久化存儲。

5)知識評估：知識評估包含知識的解釋、知識外推和預(yù)測模型的優(yōu)化等等。將挖掘得到的知識以用戶可以容易理解的方式展示出來，根據(jù)用戶的需求對數(shù)據(jù)挖掘過程中的繆寫步驟進行修改優(yōu)化，直到符合用戶的要求為止。

在智慧農(nóng)業(yè)發(fā)展過程中，主要有以下表4所述的幾種模型構(gòu)建方法比較常見。

圖1 數(shù)據(jù)挖掘過程

3.2 常見應(yīng)用方向概述

在大棚農(nóng)業(yè)系統(tǒng)中，由于土壤類型眾多，作物品種復(fù)雜，病蟲害發(fā)生頻繁且病發(fā)癥狀不斷變化，土壤營養(yǎng)成分、溫濕度以及氣候相互之間的關(guān)系和影響，仍然還有許多未知的規(guī)律還未被人類所發(fā)現(xiàn)。在前面介紹完數(shù)據(jù)清洗和數(shù)據(jù)融合技術(shù)等預(yù)處理技術(shù)以及常見的模型構(gòu)建方法之后，本節(jié)主要介紹數(shù)據(jù)挖掘技術(shù)在大棚農(nóng)業(yè)系統(tǒng)上的常見應(yīng)用場景，主要有圖2所示的幾個應(yīng)用。

圖2 數(shù)據(jù)挖掘在大棚農(nóng)業(yè)上的應(yīng)用

3.3 作物病害預(yù)測模型的實踐研究

預(yù)測模型在大棚栽培的作物病害應(yīng)用，歸納起來有這幾種：發(fā)生趨勢預(yù)測、風險評估病及其蟲害動態(tài)監(jiān)測等應(yīng)用。溫室作物里病害的發(fā)生條件受到了栽培耕作條件、農(nóng)作物布局、氣象條件和品種抗性等多種因素的作用，另外由于氣候溫度等的原因，所以病害的發(fā)生也與地理空間有一定的關(guān)聯(lián)。預(yù)測模型能夠用來預(yù)測在某個時間段內(nèi)發(fā)生病害的概率，以及所發(fā)生的病害的樂行，從而為病害的預(yù)防治理決策提供參考支持。病蟲害導(dǎo)致我國每年的經(jīng)濟損失達到了15～25%，因此研究病蟲害的預(yù)測結(jié)果對農(nóng)業(yè)的發(fā)展具有很大的意義。

關(guān)聯(lián)規(guī)則挖掘(Association Rule Mining)最早是為了發(fā)現(xiàn)超市交易數(shù)據(jù)庫中不同的商品之間的關(guān)系。它用于挖掘數(shù)據(jù)中隱含的練習(xí)，通過關(guān)聯(lián)規(guī)則形式表示。Apriori算法是最有影響的挖掘關(guān)聯(lián)規(guī)則的算法之一，該算法目前已應(yīng)用于農(nóng)業(yè)、商業(yè)、林業(yè)和教育等方面。Apriori算法通過分析事物之間的相互依賴關(guān)系，能發(fā)現(xiàn)和提取隱藏在在數(shù)據(jù)背后的有效知識，有助于人們認識和理解其中存在著的客觀規(guī)律，具有很大的實用價值。Perrizo et al.通過使用Apriori算法，在支持度仍然比較低的情況下，通過尋找較高的置信度規(guī)則來預(yù)測溫室中作物蟲害的數(shù)量規(guī)模[25]。Wang et al.利用已收集的溫室環(huán)境信息和Apriori算法提出了一個預(yù)測模型來構(gòu)建實時的溫室環(huán)境參數(shù)監(jiān)測和植大棚作物蟲害疾病監(jiān)控系統(tǒng)[26]。Tripathy et al.使用關(guān)聯(lián)規(guī)則挖掘技術(shù)發(fā)現(xiàn)了在溫室環(huán)境溫度18-20攝氏度，作物葉面濕度在7～10%，以及濕度處于70%或更高的時候是容易產(chǎn)生蟲害的一個影響條件[27]。另外，Pratheepa et al.也發(fā)現(xiàn)了當溫室環(huán)境最高溫度處于28.3～33.1攝氏度，而最低溫度處于 16.5～22.07 攝氏度并且相關(guān)濕度是在45.5～60%范圍的時候，作物蟲害事件的出現(xiàn)概率大大提高[28]。

3.4 專家決策支持系統(tǒng)的研究進展

大多數(shù)決策支持系統(tǒng)中的專家知識庫是建立在相應(yīng)領(lǐng)域的專家只是的基礎(chǔ)上的，并且大棚農(nóng)業(yè)領(lǐng)域中的專家只是多事經(jīng)驗性和描述性的，這就導(dǎo)致了很難使用數(shù)學(xué)模型對這些知識進行描述，所以專家決策支持系統(tǒng)存在著知識庫中知識獲取難度大、知識量少等難題。大棚農(nóng)業(yè)生產(chǎn)支持決策系統(tǒng)是指以區(qū)域農(nóng)業(yè)經(jīng)濟為研究對象，以農(nóng)業(yè)可持續(xù)發(fā)展為決策目標，對大棚生產(chǎn)中的非結(jié)構(gòu)化決策問題，通過提供溫室環(huán)境和社會環(huán)境的背景資料協(xié)助明確問題、模型計算和列舉可能發(fā)案等方式，為大棚生產(chǎn)的管理者做出正確決策提供幫助。

M.G.Hill et al.使用2008-2011年來自新西蘭的四年的農(nóng)場大棚數(shù)據(jù)，分別使用決策樹、素樸貝葉斯、隨機森林、支持向量機以及邏輯回歸等數(shù)據(jù)挖掘技術(shù)在2008-2010三年的數(shù)據(jù)上構(gòu)建了5個預(yù)測模型，然后預(yù)測2011年該年是否需要對獼猴桃作物進行農(nóng)藥噴灑。得出了每個模型各不一樣的預(yù)測效果，其中決策樹的準確率為49%，隨機森林的準確率為98%，而樸素貝葉斯的準確率則為95%[29]。Sadok et al.提出了一個基于決策樹算法的MASC模型，該模型將比較大而復(fù)雜的決策問題分解為一個個簡單的以經(jīng)濟、社會和環(huán)境3個變量為維度的單元問題，產(chǎn)生32個重要的全局向量元素來評價作物系統(tǒng)[30]。Ellis et al.提出了包含數(shù)據(jù)庫，地理信息系統(tǒng)，預(yù)測模型，知識庫或?qū)＜蚁到y(tǒng)，以及“混合”決策支持系統(tǒng)等元素的基于數(shù)據(jù)挖掘技術(shù)的決策支持工具，促進指導(dǎo)農(nóng)林業(yè)發(fā)展，建議采納和管理方面的決策過程，提高農(nóng)林業(yè)同時實現(xiàn)環(huán)境保護和農(nóng)業(yè)生產(chǎn)目標的能力[31]。Latika et al.使用數(shù)據(jù)挖掘技術(shù)構(gòu)建了知識管理系統(tǒng)和OLAP在線分析系統(tǒng)[32]。

3.5 數(shù)據(jù)挖掘技術(shù)在植物生長過程中的預(yù)測

在我國傳統(tǒng)農(nóng)業(yè)的發(fā)展過程中，對于作物產(chǎn)量和果實質(zhì)量的預(yù)測都是靠著果農(nóng)的過往經(jīng)驗來進行預(yù)測的，特別是在環(huán)境氣候因素與常年的情況偏離比較大的時候，這種人為預(yù)測的效果與實際值的偏差就更大了。當前在預(yù)測領(lǐng)域中，已經(jīng)有不少的數(shù)據(jù)挖掘技術(shù)被付諸實踐，如神經(jīng)網(wǎng)絡(luò)、遺傳算法和高斯過程等技術(shù)，在各種預(yù)測領(lǐng)域中發(fā)揮著重要作用。其中使用數(shù)據(jù)挖掘進行預(yù)測的思路主要是從已有的各種數(shù)據(jù)中尋找潛在的模式和趨勢的過程，目標是對大量的數(shù)據(jù)進行分類，從而發(fā)現(xiàn)新的信息。目前已有不少研究人員用相應(yīng)的挖掘技術(shù)對大棚作物的成長過程進行了預(yù)測。

Georg et al.使用人工神經(jīng)網(wǎng)絡(luò)技術(shù)對小麥的產(chǎn)量進行預(yù)測，根據(jù)季節(jié)環(huán)境信息，土壤肥沃程度等數(shù)據(jù)預(yù)測的結(jié)果在誤差允許的范圍內(nèi)，并且從環(huán)境和經(jīng)濟的角度實現(xiàn)了肥料的優(yōu)化用法，提高了經(jīng)濟效益[33]。Cortet et al.根據(jù)法國東北部10年以來土壤中的生物肥料和礦物質(zhì)等數(shù)據(jù)進行分析，發(fā)現(xiàn)生物尸體堆土壤中的磷成分有很大的影響，該論文使用數(shù)據(jù)挖掘技術(shù)驗證了生物尸體對于維持土壤中的磷成分的方法是比較穩(wěn)妥的[34]。貝葉斯分類技術(shù)是一種統(tǒng)計學(xué)分類方法，利用概率論統(tǒng)計知識進行分類的算法，具有分類簡單、準確率高和速度快等優(yōu)點。Shahinfar et al.使用樸素貝葉斯算法結(jié)合26個農(nóng)場數(shù)據(jù)，對產(chǎn)量進行了精準的預(yù)測[35]。

3.6 本章小結(jié)

綜合以上的概述來看，數(shù)據(jù)挖掘技術(shù)對該領(lǐng)域的數(shù)據(jù)分析主要還是停留在對經(jīng)驗數(shù)據(jù)的概率統(tǒng)計上，大部分的預(yù)測模型的預(yù)測準確性并不是很高，使用的預(yù)測算法主要是來自其他領(lǐng)域較為成熟的應(yīng)用算法，各種算法的研發(fā)和應(yīng)用仍然有待提高，缺少大棚農(nóng)業(yè)上的特色算法的創(chuàng)新和研制，研究人員應(yīng)該利用溫室培植的獨有特點，然后結(jié)合已有的成熟算法進一步改造或者創(chuàng)造出適合溫室作物生產(chǎn)生長預(yù)測的模型算法。

4 總結(jié)

由于信息科學(xué)技術(shù)的高速發(fā)展，使得大棚農(nóng)業(yè)也快速走上了信息化和智能化的道路。本文分別從數(shù)據(jù)預(yù)處理，模型構(gòu)建和預(yù)測模型的應(yīng)用。數(shù)據(jù)預(yù)處理主要包含了數(shù)據(jù)清洗和多源異構(gòu)數(shù)據(jù)的融合兩部分，然后分析比較了數(shù)據(jù)挖掘在溫室大棚上常用的模型預(yù)測方法，最后對這些模型構(gòu)建方法在農(nóng)業(yè)大棚上的應(yīng)用情況進行了分析了舉例，闡述當前的研究狀況。另外，從溫室大棚和智慧農(nóng)業(yè)的角度來說，目前仍然存在以下幾個問題。

第一個問題體現(xiàn)在數(shù)據(jù)預(yù)處理方面的數(shù)據(jù)缺失，模糊問題。所以在未來，應(yīng)該克服傳感器在收集數(shù)據(jù)時候出現(xiàn)的數(shù)據(jù)丟失和模糊等問題，可以在保存數(shù)據(jù)的時候?qū)ζ溥M行格式的驗證等；第二個問題是數(shù)據(jù)異構(gòu)性仍然是當前需要面對的一個問題，如果能夠統(tǒng)一數(shù)據(jù)格式和傳輸協(xié)議，相信這個問題也是能夠得到很好的解決；最后一個問題是預(yù)測模型的創(chuàng)新，研究人員應(yīng)該著重于農(nóng)業(yè)培植的獨有特點，結(jié)合已有的成熟算法進一步改造或者創(chuàng)造出適合大棚農(nóng)業(yè)作物生產(chǎn)生長預(yù)測的模型算法。

因此，我們應(yīng)當在互聯(lián)網(wǎng)+的時代下，把握機會努力發(fā)展智慧農(nóng)業(yè)，克服以上的問題[36-38]，讓智慧農(nóng)業(yè)變得更加的智慧，更加自動化，以便減少人力和物力等資源的耗費。

[1] 王元卓, 靳小龍, 程學(xué)旗. 網(wǎng)絡(luò)大數(shù)據(jù):現(xiàn)狀與展望[J]. 計算機學(xué)報, 2013, 36(6):1125-1138.

[2] Abdullah A, Hussain A. Data mining a new pilot agriculture extension data warehouse[J]. Journal of Research & Practice in Information Technology, 2006, 38(3):229-249.

[3] Brin S, Page L. The anatomy of a large-scale hypertextual Web search engine[A]. International Conference on World Wide Web[C]. Elsevier Science Publishers B. V. 1998:107-117.

[4] Bertossi L, Kolahi S, Lakshmanan L V S. Data Cleaning and Query Answering with Matching Dependencies and Matching Functions[J]. Theory of Computing Systems, 2013, 52(3):441-482.

[5] Wang L, Xu L D, Bi Z, et al. Data Cleaning for RFID and WSN Integration[J]. IEEE Transactions on Industrial Informatics, 2014, 10(1):408-418.

[6] Jeffery S R, Alonso G, Franklin M J, et al. A Pipelined Framework for Online Cleaning of Sensor Data Streams[A]. International Conference on Data Engineering. DBLP[C]. 2006:140-140.

[7] Jeffery S R, Garofalakis M, Franklin M J. Adaptive cleaning for RFID data streams[A]. International Conference on Very Large Data Bases[C]. Seoul, Korea, 2006:163-174.

[8] Sarma A D, Jeffery S R, Franklin M J, et al. Estimating data stream quality for object-detection applications[J]. Technical Report, 2006.

[9] 李治強, 苗放. 多源異構(gòu)數(shù)據(jù)整合在信用系統(tǒng)中的應(yīng)用研究[J]. 計算機技術(shù)與發(fā)展, 2007, 17(2):172-174.

[10] Dasarathy B V. Revisions to the JDL data fusion model[J]. Proceedings of SPIE - The International Society for Optical Engineering, 1999, 3719:430-441.

[11] Mehta C, Srimathveeravalli G, Kesavadas T. An approach to design and development of decentralized data fusion simulator[A]. Winter Simulation Conference[C]. IEEE, 2005:7 pp.

[12] Vanhamme L, Van d B A, Van H S. Improved method for accurate and efficient quantification of MRS data with use of prior knowledge[J]. 1997, 129(1):35-43.

[13] Zhang J, Kang D K, Silvescu A, et al. Learning accurate and concise naive Bayes classifiers from attribute value taxonomies and data[J]. Knowledge and Information Systems, 2006, 9(2):157-179.

[14] Shevade S K, Keerthi S S, Bhattacharyya C, et al. Improvements to the SMO algorithm for SVM regression[J]. IEEE Transactions on Neural Networks, 2000, 11(5):1188-93.

[15] 李曉麗. 異構(gòu)數(shù)據(jù)集成技術(shù)在物聯(lián)網(wǎng)中的研究與應(yīng)用[D]. 北京:北京郵電大學(xué), 2013.

[16] Grolemund G, Wickham H. A Cognitive Interpretation of Data Analysis[J]. International Statistical Review, 2014, 82(2):184-204.

[17] Wickham H. Tidy data[J]. Journal of Statistical Software, 2014, 059.

[18] 朱好好. 異構(gòu)數(shù)據(jù)融合中間件的研究與應(yīng)用[D]. 武漢:華中科技大學(xué), 2012.

[19] Delgado G, Aranda V, Calero J, et al. Using fuzzy data mining to evaluate survey data from olive grove cultivation.[J]. Computers & Electronics in Agriculture, 2009, 65(1):99-113.

[20] Fernandez Martinez R,Martinez-de-Pison Ascacibar F J, Pernia Espinoza A V， et al. Predictive modelling in grape berry weight during maturation process: comparison of data mining, statistical and artificial intelligence techniques[J]. Spanish Journal of Agricultural Research 2011 9(4), 1156-1167.

[21] Wu X, Kumar V, Ross Quinlan J, et al. Top 10 algorithms in data mining[J]. Knowledge and Information Systems, 2008, 14(1):1-37.

[22] Tsang I W, Kwok J T, Cheung P M. Core Vector Machines: Fast SVM Training on Very Large Data Sets[J]. Journal of Machine Learning Research, 2005, 6(1):363-392.

[23] Ahmed S, Coenen F, Leng P. Tree-based partitioning of date for association rule mining[J]. Knowledge and Information Systems, 2006, 10(3):315-331.

[24] Caruana R, Niculescu-Mizil A. An empirical comparison of supervised learning algorithms[A]. International Conference on Machine Learning[C]. ACM, 2006:161-168.

[25] Perrizo W, Ding Q, Ding Q, et al. Deriving High Confidence Rules from Spatial Data Using Peano Count Trees.[J]. Lecture Notes in Computer Science, 2001, 2118:91-102.

[26] Wang X F, Wang Z, Zhang S W, et al. Monitoring and Discrimination of Plant Disease and Insect Pests based on agricultural IOT[A]. International Conference on Information Technology and Management Innovation[C]. 2015.

[27] Tripathy A K, Adinarayana J, Vijayalakshmi K, et al. Knowledge discovery and Leaf Spot dynamics of groundnut crop through wireless sensor network and data mining techniques[J]. Computers & Electronics in Agriculture, 2014, 107(107):104-114.

[28] Pratheepa M, Verghese, Abraham, Bheemanna, H. Weighted Association rule mining for the occurrence of the insect pest Helicoverpa armigera(Hubner) related with abiotic factors on cotton[A]. International Conference on Computing For Sustainable Global Development[C]. 2016.

[29] Hill M G, Connolly P G, Reutemann P, et al. The use of data mining to assist crop protection decisions on kiwifruit in New Zealand[J]. Computers & Electronics in Agriculture, 2014, 108:250-257.

[30] Sadok W, Angevin F, Bergez J E, et al. MASC, a qualitative multi-attribute decision model for ex ante assessment of the sustainability of cropping systems.[J]. Agronomy for Sustainable Development, 2009, 29(3):447-461.

[31] Ellis E A, Bentrup G, Schoeneberger M M. Computer-based tools for decision support in agroforestry: Current state and future needs[J]. Agroforestry Systems, 2004, 61(1):401-421.

[32] Latika Sharma, Nitu Mehta. Data Mining Techniques: A Tool For Knowledge Management System In Agriculture[J]. International Journal of Scientific & Technology Research, 2012, 1(5):67-73.

[33] Rub G, Kruse R, Schneider M, et al. Data Mining with Neural Networks for Wheat Yield Prediction[J]. Lecture Notes in Computer Science, 2008, 5077:47-56.

[34] Cortet J, Kocev D, Ducobu C, et al. Using data mining to predict soil quality after application of biosolids in agriculture.[J]. Journal of Environmental Quality, 2011, 40(6):1972-1982.

[35] Shahinfar S, Page D, Guenther J, et al. Prediction of insemination outcomes in Holstein dairy cattle using alternative machine learning algorithms[J]. Journal of Dairy Science, 2014, 97(2):731-42.

[36] Qiang Y, Xindong W. 10 challenging problems in data mining research[J]. International Journal of Information Technology & Decision Making, 2006,5(4):597-604.

[37] Ojha T, Misra S, Raghuwanshi N S. Wireless sensor networks for agriculture: The state-of-the-art in practice and future challenges[J]. Computers & Electronics in Agriculture, 2015, 118(3):66-84.

ApplicationofDataMininginGreenhouse

Zheng Zengwei1, Chen Hanqun1,2, Sun Lin1, Cai Jianping1

(1.Hangzhou Key Laboratory for IoT Technology &Application, Zhejiang University City College, Hangzhou 310015,China；2.School of Computer Science and Technology, Zhejiang University, Hangzhou 310015,China)

With the rise of the Internet of Things, data accumulation speed, dimension and volume are also growing, and has become a real big data category. The large variety of sensors deployed in agricultural greenhouses produces a large number of multi-source heterogeneous sensing data, and there are various types of dirty data that need to be cleaned. In this paper, data cleaning, model building and model application are described in detail. Firstly, data cleaning technology and multi-source heterogeneous data fusion technology are introduced. Then, common forecasting model construction methods are listed. Finally, common application fields are introduced. Summarizes and puts forward the existing problems, as well as the prospect of the future.

data mining; greenhouse; data clean; heterogeneous data

2017-04-08；

2017-05-23。

杭州市農(nóng)業(yè)科研主動設(shè)計項目(20162012A06)；杭州市農(nóng)業(yè)科研自主申報項目(20170432B30)；杭州市物聯(lián)網(wǎng)技術(shù)與應(yīng)用重點實驗室及杭州市農(nóng)業(yè)科研主動設(shè)計項目(20162012A06)。

鄭增威(1969-)，男，教授，主要從事數(shù)據(jù)挖掘、普適計算、物聯(lián)網(wǎng)技術(shù)等方向的研究。

孫霖(1979-)，男，博士，主要從事數(shù)據(jù)挖掘、普適計算、物聯(lián)網(wǎng)技術(shù)等方向的研究。

1671-4598(2017)11-0123-06

10.16526/j.cnki.11-4762/tp.2017.11.032

TP312

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

數(shù)據(jù)挖掘在溫室大棚上的應(yīng)用研究

0 引言

1 數(shù)據(jù)清洗

1.1 中位數(shù)或均值替代法

1.2 插補法

1.3 建模法

2 異構(gòu)信息融合方法

3 預(yù)測模型在溫室大棚中的研究現(xiàn)狀

3.1 模型構(gòu)建方法

3.2 常見應(yīng)用方向概述

3.3 作物病害預(yù)測模型的實踐研究

3.4 專家決策支持系統(tǒng)的研究進展

3.5 數(shù)據(jù)挖掘技術(shù)在植物生長過程中的預(yù)測

3.6 本章小結(jié)

4 總結(jié)