葉 婷,馬宏娟,盧 銳,徐雯潁,吳洪洪*
(1.武漢船舶職業(yè)技術(shù)學(xué)院 計(jì)算機(jī)信息技術(shù)學(xué)院,武漢 430050;2.華中農(nóng)業(yè)大學(xué) 植物科學(xué)技術(shù)學(xué)院,武漢 430070)
農(nóng)業(yè)是關(guān)系國計(jì)民生的基礎(chǔ)產(chǎn)業(yè)。目前我國的農(nóng)業(yè)生產(chǎn)模式是高投入高產(chǎn)出,經(jīng)濟(jì)效益相對(duì)較低,生態(tài)環(huán)境負(fù)擔(dān)大,可持續(xù)性不強(qiáng)。在此背景下,我國明確了農(nóng)業(yè)4.0升級(jí)換代的政策導(dǎo)向。而智慧農(nóng)業(yè)是農(nóng)業(yè)4.0的重要研究方向之一。趙春江[1]院士指出:“智慧農(nóng)業(yè)是以信息和知識(shí)為核心要素,通過互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、大數(shù)據(jù)、人工智能和智能裝備等現(xiàn)代信息技術(shù)與農(nóng)業(yè)跨界融合,實(shí)現(xiàn)農(nóng)業(yè)生產(chǎn)全過程的信息感知、定量決策、智能控制、精準(zhǔn)投入、個(gè)性化服務(wù)的全新農(nóng)業(yè)生產(chǎn)方式,是農(nóng)業(yè)信息化發(fā)展從數(shù)字化到網(wǎng)絡(luò)化再到智能化的高級(jí)階段”。毋庸置疑,智能化感知、智能化預(yù)警、智能化分析和智能化決策等都是智慧農(nóng)業(yè)應(yīng)用及實(shí)施中的重要組成部分。因此,智慧農(nóng)業(yè)的實(shí)現(xiàn)離不開人工智能。
人工智能概念由約翰·麥肯錫在1956年首次提出,可分為通用人工智能(Artificial General Intelligence)和狹義人工智能(Artificial Narrow Intelligence)。通用人工智能也被稱為強(qiáng)人工智能,泛指能實(shí)現(xiàn)人類智能活動(dòng)的一類系統(tǒng),具有和人類相似的智能行為,包括決策、學(xué)習(xí)和交流,甚至看、聽和聞等能力。狹義人工智能也被稱為弱人工智能,泛指專注于某種特定問題或任務(wù)的一類系統(tǒng),不具備自我認(rèn)知能力或任何感知能力。從系統(tǒng)結(jié)構(gòu)來看,人工智能系統(tǒng)是一個(gè)包括數(shù)據(jù)輸入、數(shù)據(jù)處理、學(xué)習(xí)模型和學(xué)習(xí)方法等組成部分的復(fù)雜功能系統(tǒng)。其中,數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)是人工智能系統(tǒng)的關(guān)鍵組成部分。因此,數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)是人工智能系統(tǒng)服務(wù)于智慧農(nóng)業(yè)的重要抓手。本文將從農(nóng)業(yè)數(shù)據(jù)挖掘的研究內(nèi)容、數(shù)據(jù)挖掘過程和關(guān)鍵技術(shù)等方面介紹數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)服務(wù)于智慧農(nóng)業(yè)的相關(guān)理論和進(jìn)展。
如前所述,智慧農(nóng)業(yè)的應(yīng)用與實(shí)施離不開人工智能。而農(nóng)業(yè)大數(shù)據(jù)則是人工智能中的重要一環(huán)。農(nóng)業(yè)大數(shù)據(jù)是指基于大數(shù)據(jù)分析,利用大數(shù)據(jù)理念及技術(shù)方法,以解決農(nóng)業(yè)及相關(guān)領(lǐng)域數(shù)據(jù)的采集和存儲(chǔ),以及其后續(xù)的計(jì)算與應(yīng)用等一系列問題[2]。與其他大數(shù)據(jù)技術(shù)相比,農(nóng)業(yè)大數(shù)據(jù)有農(nóng)業(yè)數(shù)據(jù)自身的特點(diǎn),如涵蓋區(qū)域廣、數(shù)據(jù)采集復(fù)雜、干擾因素多、涉及領(lǐng)域和內(nèi)容相對(duì)寬泛、受眾群體文化水平參差不齊,以及決策管理及落實(shí)難到位等特點(diǎn)[3]。譬如,狹義的農(nóng)業(yè)生產(chǎn)包括糧食作物、經(jīng)濟(jì)作物、飼料作物和綠肥等種植業(yè)生產(chǎn)。其農(nóng)業(yè)數(shù)據(jù)采集涉及到播種前、生產(chǎn)中和收獲后等過程,如耕地整地、播種、澆水施肥、殺蟲除草、采收、儲(chǔ)存、加工制作與販賣銷售等農(nóng)業(yè)生產(chǎn)、加工和銷售的各個(gè)環(huán)節(jié)。廣義的農(nóng)業(yè)生產(chǎn)則包括種植業(yè)、林業(yè)、畜牧業(yè)、漁業(yè)和副業(yè)等多種產(chǎn)業(yè)形式[4]。毋庸置疑,其農(nóng)業(yè)數(shù)據(jù)采集的復(fù)雜程度更高。
前人研究表明,相比結(jié)構(gòu)化數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù)已經(jīng)在快速增長,且其數(shù)量也已遠(yuǎn)超結(jié)構(gòu)化數(shù)據(jù)[5]。譬如,相對(duì)于存儲(chǔ)于數(shù)據(jù)庫、基于二維表結(jié)構(gòu)進(jìn)行邏輯表達(dá)實(shí)現(xiàn)的結(jié)構(gòu)化數(shù)據(jù),農(nóng)業(yè)數(shù)據(jù)則主要以非結(jié)構(gòu)化數(shù)據(jù)為主。除圖表、文字、動(dòng)畫、音頻/視頻及農(nóng)業(yè)模型等內(nèi)容外,農(nóng)業(yè)數(shù)據(jù)還包括非數(shù)據(jù)化呈現(xiàn)的專家經(jīng)驗(yàn)和知識(shí)等。此外,農(nóng)業(yè)生產(chǎn)過程中作物與環(huán)境互作程度高,易受環(huán)境因素變化和人工管理變量等因素的影響,因此農(nóng)業(yè)數(shù)據(jù)采集具有一定的多樣性和異變性。上述因素都共同影響了農(nóng)業(yè)數(shù)據(jù)的采集、挖掘與分析應(yīng)用的難度。因此,如何有效挖掘農(nóng)業(yè)數(shù)據(jù)價(jià)值、提高農(nóng)業(yè)數(shù)據(jù)的分析應(yīng)用能力并盡量減少數(shù)據(jù)垃圾且避免數(shù)據(jù)冗余,是將農(nóng)業(yè)大數(shù)據(jù)有效應(yīng)用于智慧農(nóng)業(yè)的重要前提。
數(shù)據(jù)挖掘(Data Mining,DM)是指對(duì)大量的不完全或者雜亂無章的信息中具有隱性規(guī)律且有價(jià)值的數(shù)據(jù)進(jìn)行有效挖掘,并將挖掘出的有效數(shù)據(jù)轉(zhuǎn)化為知識(shí),從而進(jìn)一步轉(zhuǎn)化為價(jià)值的過程[6]。數(shù)據(jù)挖掘技術(shù)不僅可挖掘多種不同類型的數(shù)據(jù),如結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),同時(shí)其結(jié)果呈現(xiàn)的形式不僅僅局限于規(guī)則集、公式等,可為人們進(jìn)行正確和科學(xué)的決策提供很大幫助。目前,數(shù)據(jù)挖掘已在眾多行業(yè)中得到了廣泛應(yīng)用,并取得了良好的結(jié)果。當(dāng)前運(yùn)用到的數(shù)據(jù)挖掘主要通過大數(shù)據(jù)統(tǒng)計(jì)、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)、知識(shí)庫和專家系統(tǒng),以及模式識(shí)別等技術(shù)來完成相應(yīng)目標(biāo),而這些都離不開計(jì)算機(jī)科學(xué)的關(guān)聯(lián)和支撐。
數(shù)據(jù)挖掘主要分為2個(gè)部分:描述和預(yù)測(cè)。前者通過對(duì)數(shù)據(jù)的收集和預(yù)處理,生成對(duì)數(shù)據(jù)集內(nèi)部關(guān)系的相關(guān)描述;而后者則主要通過對(duì)數(shù)據(jù)集的潛在聯(lián)系進(jìn)行研究,并以此構(gòu)建學(xué)習(xí)模型,從而達(dá)到對(duì)既定維度數(shù)據(jù)進(jìn)行相關(guān)預(yù)測(cè)的目的。當(dāng)下,農(nóng)業(yè)大數(shù)據(jù)挖掘的主要關(guān)注點(diǎn)有產(chǎn)量預(yù)測(cè)[7]、作物生長實(shí)時(shí)監(jiān)測(cè)、農(nóng)業(yè)專家系統(tǒng)[8]和農(nóng)業(yè)氣象分析[9]等。其中產(chǎn)量預(yù)測(cè)和農(nóng)業(yè)專家系統(tǒng)是農(nóng)業(yè)數(shù)據(jù)挖掘中較為受到關(guān)注的2個(gè)維度,相關(guān)研究較多。其中,產(chǎn)量預(yù)測(cè)的關(guān)鍵在于相關(guān)的預(yù)測(cè)技術(shù)方法和模型的選擇。譬如,針對(duì)全國糧食產(chǎn)量預(yù)測(cè)這一重大戰(zhàn)略需求,中國科學(xué)院陳錫康教授首先在國際上提出并創(chuàng)立了投入占用產(chǎn)出技術(shù)這一新的方法。其特點(diǎn)是不僅針對(duì)經(jīng)濟(jì)流量,研究了在某個(gè)時(shí)期經(jīng)濟(jì)系統(tǒng)所發(fā)生的投入產(chǎn)出關(guān)系,而且還能把經(jīng)濟(jì)系統(tǒng)在某個(gè)時(shí)間點(diǎn)上的存量情況進(jìn)行相對(duì)恰當(dāng)?shù)捏w現(xiàn)。此方法更全面地反映了影響糧食產(chǎn)量的因素。同時(shí),華中農(nóng)業(yè)大學(xué)彭少兵教授團(tuán)隊(duì)在產(chǎn)量差預(yù)測(cè)方面做了一些有益的探索,為制定和實(shí)施全國乃至全球的農(nóng)業(yè)領(lǐng)域優(yōu)先研究及發(fā)展策略提供了參考和新思路[10]。然而關(guān)于農(nóng)業(yè)生產(chǎn)過程中的數(shù)據(jù)挖掘目前則相對(duì)研究不多。植物表型組技術(shù)相關(guān)的數(shù)據(jù)挖掘是其中一個(gè)主要代表。植物表型組技術(shù)研究的核心是獲取高質(zhì)量、可重復(fù)的性狀數(shù)據(jù),進(jìn)而量化分析基因型和環(huán)境互作效應(yīng)及其對(duì)產(chǎn)量、質(zhì)量和抗逆等相關(guān)的主要性狀的影響[11]。譬如,華中農(nóng)業(yè)大學(xué)楊萬能團(tuán)隊(duì)利用高通量多重光學(xué)表型技術(shù)和GWAS分析技術(shù)剖析玉米群體復(fù)雜性狀的遺傳結(jié)構(gòu)及其克隆耐旱性[12]。
此外,如何利用農(nóng)業(yè)大數(shù)據(jù)挖掘結(jié)果,進(jìn)一步優(yōu)化產(chǎn)前干預(yù)(如智能育種、播期精準(zhǔn)預(yù)測(cè)等)、產(chǎn)中管理(如水肥運(yùn)籌、打頂減枝等)及產(chǎn)后溯源(如農(nóng)產(chǎn)品存儲(chǔ)、銷售等)等全產(chǎn)業(yè)鏈過程,也是農(nóng)業(yè)數(shù)據(jù)挖掘的研究內(nèi)容。充分利用農(nóng)業(yè)數(shù)據(jù)挖掘技術(shù),不僅將有利于提高整個(gè)農(nóng)業(yè)生產(chǎn)過程的精準(zhǔn)化監(jiān)測(cè),而且有利于對(duì)其進(jìn)行智能化決策、科學(xué)化管理和調(diào)控。
農(nóng)業(yè)數(shù)據(jù)挖掘的相關(guān)流程主要有:①數(shù)據(jù)準(zhǔn)備;②數(shù)據(jù)挖掘;③數(shù)據(jù)分析或預(yù)測(cè)(圖1)。目前農(nóng)業(yè)大數(shù)據(jù)的獲取主要包括以下幾個(gè)方面。①農(nóng)業(yè)生產(chǎn)環(huán)境的相關(guān)數(shù)據(jù)采集;②生命信息的相關(guān)智能感知;③農(nóng)田變量相關(guān)信息的快速采集;④農(nóng)業(yè)遙感相關(guān)數(shù)據(jù)的獲?。虎蒉r(nóng)產(chǎn)品市場(chǎng)相關(guān)經(jīng)濟(jì)數(shù)據(jù)的采集;⑥農(nóng)業(yè)網(wǎng)絡(luò)相關(guān)數(shù)據(jù)的抓取等[13]。第一個(gè)環(huán)節(jié)是“數(shù)據(jù)準(zhǔn)備”階段,其主要是通過利用各種相關(guān)終端采集設(shè)備(如移動(dòng)終端、傳感器、溫濕度計(jì)和無人機(jī)等)來獲取不同的基礎(chǔ)農(nóng)業(yè)數(shù)據(jù),并搜索與業(yè)務(wù)對(duì)象有關(guān)聯(lián)的內(nèi)、外部的相關(guān)數(shù)據(jù)信息,從中優(yōu)化選擇出可用于數(shù)據(jù)挖掘應(yīng)用的相關(guān)數(shù)據(jù),對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化、去噪等工作,并將目標(biāo)數(shù)據(jù)集存儲(chǔ)到自己的數(shù)據(jù)庫或者數(shù)據(jù)倉庫中,方便后續(xù)挖掘工作的開展。而在“數(shù)據(jù)挖掘”階段,其主要任務(wù)是建立相關(guān)知識(shí)庫。第一步是明確數(shù)據(jù)挖掘的目的,然后則是優(yōu)化選取不同的適用于該數(shù)據(jù)挖掘目的的算法,將產(chǎn)生的模型放入到知識(shí)庫中,方便后續(xù)相關(guān)操作。最后,在“數(shù)據(jù)分析和預(yù)測(cè)”階段,第一步應(yīng)該解釋并評(píng)估結(jié)果,面對(duì)不同的應(yīng)用場(chǎng)景用不同的技術(shù)或平臺(tái)來處理,通過數(shù)據(jù)建模、利用挖掘分析軟件進(jìn)行深層次數(shù)據(jù)分析[14],最后通常會(huì)使用到可視化技術(shù)或其他相關(guān)知識(shí)表達(dá)技術(shù),進(jìn)一步把結(jié)果以用戶感興趣的方式呈現(xiàn)。
圖1 農(nóng)業(yè)數(shù)據(jù)挖掘的相關(guān)流程
數(shù)據(jù)挖掘是一個(gè)人機(jī)交互、不斷重復(fù)的過程[15],在數(shù)據(jù)準(zhǔn)備階段,搭建集多傳感器于一體的自動(dòng)化農(nóng)機(jī)設(shè)備是目前農(nóng)業(yè)機(jī)械領(lǐng)域的研究熱點(diǎn)之一。這些安裝在農(nóng)機(jī)上的傳感元件可以獲取聲吶、紅外和多光譜等多種特殊的農(nóng)田信息,并且隨農(nóng)業(yè)機(jī)械(無人機(jī)、智能農(nóng)機(jī)車輛等)的快速移動(dòng)實(shí)現(xiàn)對(duì)大面積農(nóng)作物的表型等信息的快速掃描。Pedro等研究開發(fā)的同時(shí)攜帶了4套傳感器(聲吶傳感器、紅外輻射傳感器、GPS-RTK接收器、多光譜作物冠層傳感器)的田間表型動(dòng)態(tài)性狀監(jiān)測(cè)系統(tǒng),能夠同時(shí)測(cè)量冠層高度、歸一化植被指數(shù)及溫度,從而對(duì)棉花的多個(gè)性狀進(jìn)行快速準(zhǔn)確測(cè)量。
植物信息中蘊(yùn)含著大量的數(shù)據(jù),但是不能直接利用,對(duì)這些數(shù)據(jù)進(jìn)行篩選,提取有效信息排除“噪音”,優(yōu)化機(jī)器學(xué)習(xí)算法,運(yùn)用人工智能等方法對(duì)所捕獲的信息進(jìn)行深度挖掘和分析,是大數(shù)據(jù)挖掘信息處理部分的研究重點(diǎn)。這些數(shù)據(jù)來自不同類型的傳感器設(shè)備,所產(chǎn)生的數(shù)據(jù)類型也不同,如數(shù)字?jǐn)?shù)據(jù)、圖像數(shù)據(jù)和光譜數(shù)據(jù)等。通過數(shù)據(jù)挖掘與分析,可將不可直接利用的不同類型的數(shù)據(jù)通過適當(dāng)算法轉(zhuǎn)換為可執(zhí)行的決策。當(dāng)前廣泛應(yīng)用于農(nóng)業(yè)、工業(yè)及商業(yè)等領(lǐng)域的深度學(xué)習(xí)算法雖然同屬于機(jī)器學(xué)習(xí),但是與傳統(tǒng)機(jī)器學(xué)習(xí)有很大不同,深度學(xué)習(xí)是機(jī)器學(xué)習(xí)中具有深層結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)算法[16]。傳統(tǒng)機(jī)器學(xué)習(xí)主要依賴人工進(jìn)行特征提取,但是面對(duì)大量數(shù)據(jù)時(shí)效率較低,深度學(xué)習(xí)靠機(jī)器自動(dòng)進(jìn)行特征提取,在處理復(fù)雜數(shù)據(jù)時(shí)會(huì)有更好的表現(xiàn),但可解釋性較差。深度學(xué)習(xí)中已經(jīng)有很多成熟且高效的算法,如卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN),循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Networks),遞歸神經(jīng)網(wǎng)絡(luò)(Recursive Neural Networks)。CNN是前饋網(wǎng)絡(luò),信息流在網(wǎng)絡(luò)中發(fā)生只有一個(gè)方向,從輸入到輸出,就像人工神經(jīng)網(wǎng)絡(luò)(ANN)是受生物學(xué)啟發(fā)的,CNN也是受大腦的視覺皮層啟發(fā)的,由簡單細(xì)胞和復(fù)雜細(xì)胞交替組成[17]。通過信號(hào)采集、加權(quán)求和及導(dǎo)入激活函數(shù)這一流程模擬人腦中神經(jīng)元傳遞信號(hào)的過程。在高光譜成像分析等智慧農(nóng)業(yè)應(yīng)用場(chǎng)景中卷積神經(jīng)網(wǎng)絡(luò)展現(xiàn)出獨(dú)特的優(yōu)勢(shì),其通過卷積(Convolution)進(jìn)行稀疏連接,通過激活函數(shù)(如ReLU)引入非線性函數(shù),通過池化(Polling)減小維度特征提升效率,卷積神經(jīng)網(wǎng)絡(luò)的應(yīng)用極大提高了識(shí)別的準(zhǔn)確率。
人工智能是智慧農(nóng)業(yè)的基石之一。而數(shù)據(jù)準(zhǔn)備和數(shù)據(jù)挖掘則是人工智能的前提條件之一。因此,分析農(nóng)業(yè)數(shù)據(jù)準(zhǔn)備和數(shù)據(jù)挖掘的當(dāng)前研究內(nèi)容和進(jìn)展有利于促進(jìn)人工智能在智慧農(nóng)業(yè)中的應(yīng)用。進(jìn)一步優(yōu)化數(shù)據(jù)采集和數(shù)據(jù)清洗,從紛雜和形式多樣的采集數(shù)據(jù)中獲取有效的農(nóng)業(yè)數(shù)據(jù),并進(jìn)行優(yōu)化、高效的農(nóng)業(yè)數(shù)據(jù)挖掘,有利于加強(qiáng)智慧農(nóng)業(yè)的智能決策及其相關(guān)的優(yōu)化管理。