孫吉紅,錢 曄,周 正,張劍波
(1.云南省科學(xué)技術(shù)院,昆明 650000;2.云南農(nóng)業(yè)大學(xué)大數(shù)據(jù)學(xué)院(信息工程學(xué)院),昆明 650201;3.云南省高校農(nóng)業(yè)信息技術(shù)重點(diǎn)實(shí)驗(yàn)室,昆明 650201)
云南省香料植物品種豐富,種類多樣性和香氣多樣性均在全國(guó)前列,素有“植物王國(guó)”美譽(yù),目前已探明種類有18 000 余個(gè),占全國(guó)植物品種總量的51.6%。其中,省內(nèi)發(fā)現(xiàn)或引種的香料植物超過400種,與國(guó)內(nèi)已報(bào)道的800 余種香料植物相比,約占50%,品種豐富程度在全國(guó)位居前列[1]。云南省地處亞熱帶、熱帶,在云貴高原復(fù)雜地貌特征的影響下,氣溫隨海拔的升高差異明顯,形成了獨(dú)特的立體式地理氣候條件,非常適宜香料植物的生長(zhǎng)[2]。因此,不僅世界上大多數(shù)的香料植物都能在云南省找到適宜生長(zhǎng)、繁衍的地區(qū),而且植物次生代謝物質(zhì)積累充分,香料植物產(chǎn)量更高、香氣更好。云南省天然芳香作物種植面積約27萬hm2,位居全國(guó)前列。從事天然香料種植和初加工的農(nóng)民已超過200 萬人,其中,八角、草果、小黃姜、花椒、砂仁等特色天然香辛(調(diào)味料)種植面積均為全國(guó)最大。近年來,隨著香料植物品種的不斷開發(fā)和引進(jìn),云南省香料作植種植面積仍在不斷增加[2,3]。僅玫瑰花種植面積已接近全國(guó)總面積的25%,約0.4萬hm2。
無論從氣候環(huán)境、地理位置,還是香料種類、種植面積方面,云南省都具有優(yōu)勢(shì),但香料價(jià)格不穩(wěn)定,主要表現(xiàn)在連續(xù)幾年高售價(jià)的香料下一年可能價(jià)格大跌,嚴(yán)重影響種植戶的收入,甚至導(dǎo)致中小型種植企業(yè)陷入危機(jī)。近年來,大數(shù)據(jù)技術(shù)的迅速發(fā)展,各行業(yè)大數(shù)據(jù)中心的建立為解決行業(yè)中存在的問題提供了專業(yè)化平臺(tái),各種智能算法的衍生為解決各行業(yè)的具體難題提供了技術(shù)支撐。為此,本研究致力于在深度學(xué)習(xí)的環(huán)境下,以云南省最具代表性的草果為研究對(duì)象,采用智能算法構(gòu)建草果種植推薦模型,在此基礎(chǔ)上進(jìn)行推廣應(yīng)用,構(gòu)建多種香料種植推薦模型,形成云南省香料種植推薦模型群,并搭建信息平臺(tái),為種植戶、種植企業(yè)、科研人員等提供具有參考意義的數(shù)據(jù)。
本研究以草果為研究對(duì)象,在深度學(xué)習(xí)環(huán)境下,采用人工神經(jīng)網(wǎng)絡(luò)算法,構(gòu)建基于智能算法的草果種植推薦系統(tǒng),對(duì)草果的產(chǎn)量、質(zhì)量、價(jià)格分別進(jìn)行預(yù)測(cè),形成一個(gè)草果產(chǎn)業(yè)化的推薦系統(tǒng)。
智能推薦模型的前身主要是指基于智能算法的價(jià)格(產(chǎn)量)預(yù)測(cè)模型,一般情況下,以人工神經(jīng)網(wǎng)絡(luò)算法或者遺傳算法等定量性算法為基礎(chǔ),在收集整理大量數(shù)據(jù)的基礎(chǔ)上,確定影響研究對(duì)象價(jià)格(產(chǎn)量)的因素,并將收集的數(shù)據(jù)填充進(jìn)影響因素中,初步形成構(gòu)建智能模型的數(shù)據(jù)集,并采用拉依達(dá)準(zhǔn)則等相關(guān)算法尋找并刪除異常數(shù)據(jù),根據(jù)數(shù)據(jù)之間的關(guān)系以及收集數(shù)據(jù)所屬行業(yè)領(lǐng)域補(bǔ)充空缺的數(shù)據(jù),形成完整的數(shù)據(jù)集合[4];根據(jù)數(shù)據(jù)集合的基本情況,將該集合分為訓(xùn)練集合、測(cè)試集合;根據(jù)數(shù)據(jù)集合中數(shù)據(jù)量的大小結(jié)合智能算法的特點(diǎn)擬定構(gòu)建智能模型的算法。所有預(yù)備工作做好后,在構(gòu)建智能模型的平臺(tái)上,按照智能算法構(gòu)建模型的步驟進(jìn)行模型構(gòu)建,然后進(jìn)行價(jià)格(產(chǎn)量)預(yù)測(cè)[5],將預(yù)測(cè)的結(jié)果與實(shí)際的結(jié)果進(jìn)行對(duì)比,得到智能預(yù)測(cè)模型預(yù)測(cè)的準(zhǔn)確率。如果預(yù)測(cè)結(jié)果與實(shí)際結(jié)果相差較大,則返回智能算法選擇這一步驟,并且檢查數(shù)據(jù)收集的關(guān)鍵環(huán)境是否有誤。如果預(yù)測(cè)結(jié)果接近于實(shí)際的結(jié)果將完成智能模型的構(gòu)建。在此,需要強(qiáng)調(diào)的是智能算法構(gòu)建模型,它是一個(gè)不斷學(xué)習(xí)的過程,學(xué)習(xí)的次數(shù)特別重要,如果數(shù)據(jù)量太小,無論選擇哪一種算法都無法得到精準(zhǔn)的預(yù)測(cè)結(jié)果。只有當(dāng)數(shù)據(jù)量達(dá)到一定規(guī)模時(shí),才能準(zhǔn)確判斷該模型是否需要修改完善。因此,數(shù)據(jù)量的大小成為了構(gòu)建智能預(yù)測(cè)模型關(guān)鍵因素之一。
經(jīng)過多位學(xué)者的研究還發(fā)現(xiàn),構(gòu)建智能預(yù)測(cè)模型關(guān)鍵的因素是正確確定影響預(yù)測(cè)對(duì)象的價(jià)格、產(chǎn)量、需求量、銷售量等因素。隨著大數(shù)據(jù)技術(shù)時(shí)代的來臨,各種智能算法深入多個(gè)領(lǐng)域的研究工作中。錢曄等[6]提出了采用人工神經(jīng)網(wǎng)絡(luò)算法構(gòu)建基于鮮切花價(jià)格影響因素的驗(yàn)證模型。主要是采用管理學(xué)中頭腦風(fēng)暴法收集整理歸納專家意見。然后,采用名義小組技術(shù)將形成的意見分別發(fā)給每一位技術(shù)專家,形成影響鮮切花價(jià)格的影響因素。最后,采用人工神經(jīng)網(wǎng)絡(luò)算法構(gòu)建的驗(yàn)證模型進(jìn)行驗(yàn)證??傊?,構(gòu)建智能預(yù)測(cè)模型[7]的關(guān)鍵點(diǎn)在于影響因素、對(duì)應(yīng)的數(shù)據(jù)集合、適合的算法以及模型的調(diào)試驗(yàn)證等。目前,科研人員在農(nóng)產(chǎn)品價(jià)格預(yù)測(cè)的應(yīng)用中,主要采用的智能分析方法包括神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)[8-10]、灰色預(yù)測(cè)法[11]、支持向量機(jī)[12]等。
目前,云南省怒江州境內(nèi)草果種植面積已經(jīng)超過3.33 萬hm2,主要采用林下種植的方式,在河溝、濕度大的陰山面進(jìn)行大量種植,已經(jīng)成為云南省乃至全國(guó)草果種植基地的特色。以怒江州境內(nèi)種植的草果為研究對(duì)象,采用人工神經(jīng)網(wǎng)絡(luò)算法構(gòu)建基于智能算法的草果產(chǎn)量預(yù)測(cè)模型。
1.2.1 確定試驗(yàn)數(shù)據(jù)集 在云南省怒江州境內(nèi)草果種植基地,安裝傳感器實(shí)時(shí)采集種植草果期間每天的澆水量、施肥量、噴灑農(nóng)藥量、溫度、濕度等相關(guān)數(shù)據(jù),如遇空缺則標(biāo)記為“0”,因?yàn)椴莨麖牟シN至收貨的時(shí)間周期為5~6 個(gè)月。因此,該模型的數(shù)據(jù)收集的一個(gè)周期為5~6 個(gè)月。在收集數(shù)據(jù)期間內(nèi),至少收集3年的數(shù)據(jù),形成6 個(gè)種植周期的數(shù)據(jù)信息,大約為1 095 組信息,形成本研究中草果產(chǎn)量智能預(yù)測(cè)模型的數(shù)據(jù)集合。然后,分別將各類信息進(jìn)行歸納整理,剔除異常數(shù)據(jù)、補(bǔ)充空缺數(shù)量,并通過歸一化算法將數(shù)據(jù)集合中的數(shù)據(jù)控制在(0,1)中。其中,將前2 個(gè)周期的數(shù)據(jù)集合作為測(cè)試集數(shù)據(jù),后面4 個(gè)周期的數(shù)據(jù)集合作為訓(xùn)練集數(shù)據(jù)。
歸一化算法[13]是使用premnmx 函數(shù)進(jìn)行數(shù)據(jù)歸一化處理,對(duì)預(yù)測(cè)對(duì)象的影響因素及預(yù)測(cè)對(duì)象進(jìn)行歸一化處理,使得各影響因素及對(duì)應(yīng)的預(yù)測(cè)值控制在(-1,1)的區(qū)間。語法格式為:
式(1)中,P表示歸一化后的數(shù)據(jù)集合;p表示需要?dú)w一化的數(shù)據(jù)集合;式(2)中,m為隨機(jī)變量,max<m<min。
1.2.2 擬定并驗(yàn)證影響因素 目前,尚未有科研人員針對(duì)草果的產(chǎn)量影響因素進(jìn)行深入研究。僅有部分研究人員[13]針對(duì)某種農(nóng)產(chǎn)品進(jìn)行產(chǎn)量預(yù)測(cè)。本研究將傳感器中收集整理的各類數(shù)據(jù)暫定為影響草果產(chǎn)量的因素進(jìn)行研究,主要依據(jù)為暫定影響因素囊括了草果種植過程中所有可能產(chǎn)生的數(shù)據(jù)類型,具體包括種植草果過程中記錄的溫度、濕度、光照度、澆水量、施肥量、噴灑農(nóng)藥量等數(shù)據(jù)。
1.2.3 修改并確定構(gòu)建智能模型的算法 大數(shù)據(jù)技術(shù)發(fā)展至今,已經(jīng)產(chǎn)生了多種不同的智能算法,以最典型的人工神經(jīng)網(wǎng)絡(luò)算法為例,不同的算法具有不同的特點(diǎn),例如模糊神經(jīng)網(wǎng)絡(luò)算法針對(duì)空缺數(shù)據(jù)較多、異常數(shù)據(jù)量較大的情況下,能夠提高模型預(yù)測(cè)的精準(zhǔn)率;GRNN 神經(jīng)網(wǎng)絡(luò)算法適合在訓(xùn)練樣本較小的情況下,提高模型預(yù)測(cè)的準(zhǔn)確率;RBF 神經(jīng)網(wǎng)絡(luò)算法作為傳統(tǒng)BP 神經(jīng)網(wǎng)絡(luò)算法的補(bǔ)充算法,規(guī)避了BP 神經(jīng)網(wǎng)絡(luò)算法訓(xùn)練速度較慢的特點(diǎn),適合在訓(xùn)練數(shù)據(jù)、測(cè)試數(shù)據(jù)量較大的情況下使用。每種算法都具有各自不同的特點(diǎn),但是在試驗(yàn)過程中,根據(jù)數(shù)據(jù)的特點(diǎn)去匹配算法時(shí),同樣會(huì)遇到問題。部分研究人員直接選擇數(shù)據(jù)集與之最匹配的算法進(jìn)行智能模型構(gòu)建,在少量的試驗(yàn)過程中將難以區(qū)別這種選擇的缺陷。但是,在實(shí)際的生產(chǎn)過程中,將會(huì)暴露該類做法的缺陷,即在數(shù)據(jù)量不斷增加,試驗(yàn)次數(shù)不斷加大的情況下,該類模型的預(yù)測(cè)結(jié)果會(huì)出現(xiàn)不穩(wěn)定現(xiàn)象。為了規(guī)避預(yù)測(cè)結(jié)果不穩(wěn)定帶來的影響,在確定算法的過程中,將采用以下方式對(duì)算法進(jìn)行相應(yīng)的完善。以BP 人工神經(jīng)網(wǎng)絡(luò)算法為例,構(gòu)建智能預(yù)測(cè)模型時(shí),可以采用啟發(fā)式改進(jìn)方法對(duì)算法進(jìn)行改進(jìn),具體方法包括:構(gòu)建模型時(shí),將權(quán)值的范圍設(shè)置為1-n,即將權(quán)值設(shè)置為1、2、3,…,n,用于調(diào)整權(quán)值,解決BP 神經(jīng)網(wǎng)絡(luò)在學(xué)習(xí)訓(xùn)練過程中的難題。同時(shí),可以將BP 人工神經(jīng)網(wǎng)絡(luò)算法與遺傳算法或者灰色算法等進(jìn)行有機(jī)結(jié)合,形成一種新的算法,提高網(wǎng)絡(luò)訓(xùn)練的速度和預(yù)測(cè)的準(zhǔn)確率,也可以通過歸一化算法、拉依達(dá)準(zhǔn)則等算法提升測(cè)試集、訓(xùn)練集數(shù)據(jù)的質(zhì)量,以此提高智能預(yù)測(cè)模型的準(zhǔn)確率。
1.2.4 草果產(chǎn)量預(yù)測(cè)模型的構(gòu)建 本研究基于怒江州草果種植基地,采用傳感器收集數(shù)據(jù),將收集到的3年6 個(gè)周期的數(shù)據(jù)進(jìn)行整理,形成構(gòu)建草果產(chǎn)量預(yù)測(cè)模型的數(shù)據(jù)集合,采用RBF 人工神經(jīng)網(wǎng)絡(luò)算法,以MATLAB 為平臺(tái)構(gòu)建智能產(chǎn)量預(yù)測(cè)模型。
1)確定輸入輸出模式。輸入模式為影響草果產(chǎn)量的因素,包括種植草果過程中每天的澆水量、施肥量、噴灑農(nóng)藥量、溫度、濕度等相關(guān)數(shù)據(jù)。綜上所述,該模型中輸入向量包括影響草果產(chǎn)量的因素;輸出向量為1,輸出層神經(jīng)元個(gè)數(shù)設(shè)置為1。
2)智能模型網(wǎng)絡(luò)訓(xùn)練。將數(shù)據(jù)集合中前兩期共365 組數(shù)據(jù)作為測(cè)試集樣本數(shù)據(jù)輸入RBF 網(wǎng)絡(luò)中,然后分別設(shè)置隱含層節(jié)點(diǎn)數(shù)、網(wǎng)絡(luò)最大訓(xùn)練次數(shù)、平均誤差、學(xué)習(xí)速率等。試驗(yàn)過程中,分別設(shè)置隱含層節(jié)點(diǎn)數(shù),然后對(duì)應(yīng)輸入剩余的4 組共730 組數(shù)據(jù)作為訓(xùn)練集樣本數(shù)。分別輸出不同的預(yù)測(cè)結(jié)果,并與實(shí)際產(chǎn)量進(jìn)行對(duì)比,設(shè)置的哪一個(gè)節(jié)點(diǎn)對(duì)應(yīng)的預(yù)測(cè)結(jié)果準(zhǔn)確率最高,哪一個(gè)節(jié)點(diǎn)為確定的隱含層節(jié)點(diǎn)。
3)智能預(yù)測(cè)結(jié)果及分析。本研究中隱含層節(jié)點(diǎn)數(shù)設(shè)置為1~7,RBF 預(yù)測(cè)結(jié)果將產(chǎn)生7 個(gè)不同的結(jié)果,分別將7 個(gè)預(yù)測(cè)結(jié)果除以實(shí)際產(chǎn)量,得到預(yù)測(cè)的準(zhǔn)確率,選取準(zhǔn)確率最高的結(jié)果為預(yù)期模型。當(dāng)準(zhǔn)確率低于85%時(shí),將返回至確定影響因素的步驟,重新確定影響草果產(chǎn)量的因素。
深度學(xué)習(xí)環(huán)境下草果種植推薦模型的研究主要包括草果產(chǎn)量智能預(yù)測(cè)模型、草果質(zhì)量智能預(yù)測(cè)模型、草果病蟲害智能預(yù)測(cè)模型、草果價(jià)格智能預(yù)測(cè)模型等。在深度學(xué)習(xí)環(huán)境下,構(gòu)建草果智能預(yù)測(cè)模型群的方法與以上方法類似,按照已構(gòu)建的基于智能算法的草果質(zhì)量預(yù)測(cè)模型可以構(gòu)建其余的模型,形成基于智能算法的草果種植智能模型群,從草果的選種、種植管理、銷售、反饋一體化智能管理系統(tǒng),為云南省草果行業(yè)的發(fā)展提供一種新思路。結(jié)合云南省怒江州草果種植的實(shí)際情況,構(gòu)建基于云環(huán)境下草果種植管理平臺(tái),具體情況如圖1、圖2、圖3 所示。
整個(gè)平臺(tái)包括3 個(gè)模塊,第一個(gè)模塊是基于智能算法的草果種植推薦模型群,第二個(gè)模塊是用戶權(quán)限管理,第三個(gè)模塊是云環(huán)境下草果種植管理平臺(tái)。其中,第一個(gè)模塊作為整個(gè)平臺(tái)的核心部分,主要是針對(duì)草果的價(jià)格、產(chǎn)量、質(zhì)量、病蟲害進(jìn)行預(yù)測(cè),為農(nóng)戶提供下一個(gè)種植周期,包括草果的種植品種、種植規(guī)模、種植過程中病蟲害的防治方法,為提升草果的品質(zhì),增加農(nóng)戶的收入提供智力支持,為草果種植、加工、銷售企業(yè)提供企業(yè)發(fā)展指南,為研究香精香料的研究人員提供了數(shù)據(jù)支持,具體內(nèi)容詳見圖1。
圖1 基于智能算法的草果種植推薦模型群
第二個(gè)模塊主要是用戶權(quán)限管理,在此強(qiáng)調(diào)用戶權(quán)限管理主要是該平臺(tái)的建設(shè)與用戶的使用權(quán)限關(guān)聯(lián)緊密,對(duì)于游客僅能夠?yàn)g覽系統(tǒng)中的公開信息,將注冊(cè)付費(fèi)后的普通會(huì)員分為種植戶、種植企業(yè)、銷售企業(yè)、加工企業(yè)、科研人員5 個(gè)類型。種植戶能夠收到草果種植下一季的價(jià)格、產(chǎn)量、質(zhì)量預(yù)測(cè)的數(shù)據(jù)以及針對(duì)下一季當(dāng)?shù)貧夂颦h(huán)境病蟲害防治方法;種植企業(yè)相對(duì)于種植戶可以獲取更廣泛的數(shù)據(jù)信息,例如:能夠收到草果種植下一年的價(jià)格、產(chǎn)量、質(zhì)量預(yù)測(cè)的數(shù)據(jù)以及針對(duì)當(dāng)?shù)貧夂颦h(huán)境病蟲害防治方法;銷售企業(yè)、加工企業(yè)收到的信息更為聚焦,能夠獲取下一年每天的銷售預(yù)測(cè)價(jià)格等重要信息;科研人員能夠獲取基于智能算法的草果種植推薦模型中預(yù)測(cè)的所有數(shù)據(jù)值,僅能用于科學(xué)研究工作的開展,并且科研成果必須用于該平臺(tái)的修整完善。超級(jí)會(huì)員作為該平臺(tái)受益最多的群體,能夠查詢到所有智能模型的推薦結(jié)果,并且能夠享受定制化的服務(wù)。管理員除了擁有超級(jí)會(huì)員的權(quán)限外,同時(shí)需要承擔(dān)管理整個(gè)平臺(tái)的責(zé)任。具體內(nèi)容詳見圖2。
圖2 用戶權(quán)限管理
圖3 所示為云環(huán)境下草果種植管理平臺(tái),在基于智能算法的草果種植推薦群、用戶管理2 個(gè)模塊的共同作用下,構(gòu)建云環(huán)境下草果種植管理平臺(tái),該平臺(tái)的主要功能包括:用戶權(quán)限管理、經(jīng)營(yíng)模式管理、數(shù)據(jù)共享模式管理、數(shù)據(jù)采集系統(tǒng)管理等模塊。最值得關(guān)注的是本研究主要基于云環(huán)境下構(gòu)建智能推薦平臺(tái),由于用戶數(shù)量大、推薦數(shù)據(jù)準(zhǔn)確性高、用戶收費(fèi)底、效果好等優(yōu)點(diǎn),不但能夠?yàn)橛脩籼峁M意的服務(wù),農(nóng)戶致富、企業(yè)發(fā)展壯大、科研人員獲得發(fā)展的空間,更重要的是能夠在不斷壯大、激活該智能平臺(tái)的基礎(chǔ)上,促進(jìn)云南省乃至全國(guó)草果行業(yè)的發(fā)展。
圖3 云環(huán)境下草果種植管理平臺(tái)
本研究基于深度學(xué)習(xí)環(huán)境下,以人工智能算法為基礎(chǔ),選取草果種植為例構(gòu)建香料種植推薦模型,解決農(nóng)戶、企業(yè)種植全過程中的難題,為科研人員提供構(gòu)建智能模型時(shí)所需的訓(xùn)練集數(shù)據(jù)和測(cè)試集數(shù)據(jù),全面助推云南香料產(chǎn)業(yè)的發(fā)展。主要表現(xiàn)在以下3 個(gè)方面。
一是構(gòu)建草果智能預(yù)測(cè)模型群。在云南省怒江,即科學(xué)技術(shù)欠發(fā)達(dá)的地區(qū),提出了在深度學(xué)習(xí)環(huán)境下,采用人工神經(jīng)網(wǎng)絡(luò)算法構(gòu)建基于智能算法的草果價(jià)格預(yù)測(cè)模型、病蟲害預(yù)測(cè)模型等多個(gè)智能模型,搭建草果產(chǎn)業(yè)智能推薦模型群,是解決怒江地區(qū)經(jīng)濟(jì)相對(duì)落后問題的一種創(chuàng)新思路。
二是推廣應(yīng)用價(jià)值高。本研究構(gòu)建的智能模型群,不僅適用于草果產(chǎn)業(yè)的發(fā)展,同樣適用于香料產(chǎn)業(yè)中的其他作物,為深入研究香精香料作物的產(chǎn)量、質(zhì)量、病蟲害等關(guān)鍵性問題提供參考。
三是適用人群廣泛、服務(wù)能力強(qiáng)。本研究成果不僅適用于種植戶、企業(yè),還適用于相關(guān)領(lǐng)域的科研人員。針對(duì)智能模型的預(yù)測(cè)結(jié)果,可以為種植戶、企業(yè)提供下一季種植品種的類型、種植規(guī)模等信息,為研究人員提供研究的數(shù)據(jù)支撐;針對(duì)智能模型收集、整理數(shù)據(jù)的過程,可以形成大量數(shù)據(jù)集合,為構(gòu)建草果產(chǎn)業(yè)大數(shù)據(jù)中心提供數(shù)據(jù)支撐;針對(duì)智能模型的拓展應(yīng)用,可以為構(gòu)建模型的企業(yè)提供良好的經(jīng)濟(jì)效益,提供大量的低價(jià)格、高質(zhì)量的服務(wù)。