于珍珍 鄒華芬 于德水 李海亮 孫海天 汪 春,
(1.黑龍江八一農(nóng)墾大學工程學院, 大慶 163319; 2.中國熱帶農(nóng)業(yè)科學院南亞熱帶作物研究所, 湛江 524091;3.華中科技大學管理學院, 武漢 430074)
甘蔗是喜高溫、強光照和充足水分的經(jīng)濟作物[1-3],其產(chǎn)量對保障中國制糖工業(yè)安全具有重要意義。甘蔗產(chǎn)量預測是制糖工業(yè)的一項重要技術管理工作,對于優(yōu)化甘蔗田間管理措施及統(tǒng)籌分配具有指導作用[4-6]。甘蔗產(chǎn)量呈現(xiàn)出強烈的空間變異性,與田間環(huán)境、大氣溫度、濕度、光照強度、降雨量等因素密切相關[7-11]。
目前,國內外關于農(nóng)作物產(chǎn)量預測的方法及研究成果較多,主要以線性、多元回歸模型及神經(jīng)網(wǎng)絡模型應用較為廣泛[12]。其中,BP(Back propagation)神經(jīng)網(wǎng)絡是目前應用場景最多,較為廣泛的人工神經(jīng)網(wǎng)絡之一[13-14]。國內學者以相關環(huán)境參數(shù)及生物參數(shù)為輸入量,基于BP神經(jīng)網(wǎng)絡實現(xiàn)對小麥、馬鈴薯、番茄等作物產(chǎn)量的預測效果分析[15-16]。文獻[17]首次運用BP神經(jīng)網(wǎng)絡,以氣象因子為變量,對廣西忻城糖廠蔗區(qū)甘蔗產(chǎn)量進行預測;后期,相關研究人員逐步開展以氣象為變量進行甘蔗產(chǎn)量預測[18-21];隨著無人機及遙感技術的發(fā)展,通過微型傳感器和大數(shù)據(jù)處理技術獲取作物農(nóng)藝信息,如葉面積指數(shù)、生物量和氣候數(shù)據(jù)等進行產(chǎn)量預測[22-24]。上述研究對于甘蔗產(chǎn)量的預測分析都起到了重要的推動作用,但是仍存在一些問題:①目前,國內外在甘蔗產(chǎn)量預測方面多以氣象環(huán)境為影響因子進行大面積(全國、全省或全縣)的宏觀預測,很少將氣象數(shù)據(jù)與農(nóng)作物田間的環(huán)境數(shù)據(jù)相結合來微觀預測某一區(qū)域的甘蔗產(chǎn)量[19],甘蔗產(chǎn)量預測考慮影響因素過于單一。②雖然神經(jīng)網(wǎng)絡可以解決一些復雜、非線性映射問題,但是它也存在一些缺點,如過擬合、容易陷入局部最優(yōu)解及收斂速度慢等問題,因此,利用遺傳算法、粒子群和蟻群算法等用于優(yōu)化初始權重和閾值,更有利于提高模型學習效率并進行全局優(yōu)化,改善原有網(wǎng)絡結構。
本文綜合考慮甘蔗產(chǎn)量與氣象因子及田間水熱因子的相關性,以湛江觀測實驗站2011—2020年間田間物聯(lián)網(wǎng)獲取的氣象因子(大氣相對濕度、大氣溫度、降雨量)、田間水熱因子(土壤含水率、土壤溫度)及甘蔗產(chǎn)量,通過Pearson及Spearman相關系數(shù)明確甘蔗產(chǎn)量影響因子的主次順序,基于遺傳算法優(yōu)化建立GA-BP神經(jīng)網(wǎng)絡預測模型,分析對比模型訓練前后的精度及預測誤差,以期為甘蔗生產(chǎn)的整體管理措施調整及決策提供技術支撐。
研究區(qū)域位于廣東省湛江市(109°40′~110°58′E,20°13′~21°57′N),年平均日照時間為2 160 h,無霜期為350 d,年平均氣溫為23.2℃,是典型的亞熱帶季風氣候,環(huán)境數(shù)據(jù)與氣象數(shù)據(jù)來源于湛江觀測實驗站循環(huán)農(nóng)業(yè)研究中心,蔗區(qū)種植基地共計5個,如圖1所示。
圖1 研究區(qū)位置示意圖Fig.1 Schematic diagram of location of the study area
甘蔗的生長與氣溫、濕度、降雨量及土壤水熱環(huán)境等因子密切相關[2]。氣候條件是制約區(qū)域某種農(nóng)作物是否正常完成其生長周期的主要因素。我國甘蔗90%以上種植在無灌溉條件的旱地、坡地和山地,生長周期長,適宜生長地域寬,受極端天氣氣候影響大。吳炫柯等[10-11]對2006—2007年柳州市甘蔗莖伸長期旬伸長量與氣象因子進行相關和回歸分析,發(fā)現(xiàn)相對濕度對甘蔗莖伸長量的影響最大,其余依次為降雨量和大氣溫度。氣候環(huán)境中降雨量及大氣溫度對土壤環(huán)境中的水熱因子產(chǎn)生間接正效應。相關研究表明,水分收入量是影響甘蔗莖伸長最重要的因子,對甘蔗莖伸長的影響具有滯后性和累積性。
因此,選取大氣溫度、大氣相對濕度、降雨量、土壤含水率及土壤溫度作為影響因子。以月土壤最高溫度(X1)、月土壤最低溫度(X2)、月土壤平均溫度(X3)、月土壤平均含水率(X4)、月大氣最高溫度(X5)、月大氣最低溫度(X6)、月大氣平均溫度(X7)、月降雨量(X8)、月大氣平均相對濕度(X9)(月平均值取每年3—12月甘蔗生長時期的均值)這9個指標作為輸入,以甘蔗產(chǎn)量作為輸出構建網(wǎng)絡模型進行訓練和預測。以2011—2020年度4個試驗地點甘蔗產(chǎn)量為訓練樣本,以1個試驗地點2011—2020年數(shù)據(jù)作為驗證。分別采用BP神經(jīng)網(wǎng)絡模型和遺傳算法優(yōu)化BP神經(jīng)網(wǎng)絡(GA-BP)模型進行預測,GA-BP模型采用V型交叉驗證對考慮滯后的GA-BP預測模型進行評估,全文采用Matlab進行編程與模型建立。
1.2.1BP神經(jīng)網(wǎng)絡
圖2顯示了4層BP網(wǎng)絡拓撲結構,圖中x1、x2、…、xm為模型輸入影響因素,y1、y2、…、yt為模型輸出,BP網(wǎng)絡訓練過程分為3個步驟。首先,將氣象因子和田間數(shù)據(jù)作為輸入層;其次,通過將輸出數(shù)據(jù)與實測數(shù)據(jù)進行對比分析,使用損失函數(shù)(又稱為成本函數(shù))來計算誤差;最后,將誤差反向傳播,對網(wǎng)絡中每個權重系數(shù)進行更新,在多次重復以上3個步驟并學習權重后,將模型應用于新數(shù)據(jù)以同時預測多個目標值。
圖2 BP神經(jīng)網(wǎng)絡結構圖Fig.2 BP neural network structure diagram
1.2.2GA優(yōu)化后的BP神經(jīng)網(wǎng)絡
GA是目前應用最為廣泛的一種求解優(yōu)化問題的自適應啟發(fā)式的搜索算法,它模仿了自然界的“物競天擇,優(yōu)勝劣汰”的生物進化機制,算法步驟如圖3所示。
(1)確定神經(jīng)網(wǎng)絡拓撲結構:在BP神經(jīng)網(wǎng)絡模型中,輸入層為每組數(shù)據(jù)的9種影響因子,輸出層為甘蔗產(chǎn)量,構成9個節(jié)點輸入層和1個節(jié)點輸出層。
(2)獲得初始種群:通過對輸入層進行數(shù)據(jù)預處理,設置種群數(shù)量,主要包括網(wǎng)絡模型的權值及閾值。
(3)適應度函數(shù)F的設置。
(4)選擇運算:選擇操作是指通過一定概率從原始種群中選出優(yōu)秀樣本,通過繁殖產(chǎn)生下一代樣本數(shù)據(jù)。
(5)交叉運算:交叉運算是指從種群中隨機選擇2個樣本,通過交換和組合,產(chǎn)生適應性強的新個體。
(6)變異運算:通過種群變異可以保持種群的多樣性,從種群中隨機選取一個個體,選取個體的一部分進行變異操作,從而產(chǎn)生更好的個體。個體ai在j處發(fā)生變異,形成一個新的個體aij。
(7)計算新生成種群中個體的適應度函數(shù)。 如果適應度函數(shù)滿足要求或進化次數(shù)達到最大值,則進化完成,否則返回步驟(4)。
(8)通過GA優(yōu)化,給BP網(wǎng)絡初始權重和閾值,滿足終止條件后得到預測結果。
圖3 基于遺傳算法優(yōu)化的神經(jīng)網(wǎng)絡預測模型流程圖Fig.3 Step diagram of neural network prediction model based on genetic algorithm optimization
1.2.3誤差分析
為了定量評估GA優(yōu)化的神經(jīng)網(wǎng)絡預測模型的有效性和準確性,分別采用均方誤差(MSE)、均方根誤差(RMSE)、平均絕對誤差(MAE)和平均誤差(MAPE)加以評價。
由9個影響因素X與甘蔗產(chǎn)量Y的Pearson相關系數(shù)和Spearman相關系數(shù)可知,甘蔗產(chǎn)量Y與X1、X2、X3、X5、X7、X9為極顯著相關,相關系數(shù)高于0.7;甘蔗產(chǎn)量Y與X4、X8顯著相關,與X6相關性較弱(圖4)。
考慮到環(huán)境相對濕度和降雨量對土壤水分的影響具有一定的滯后性,土壤含水率和月降雨量的增加導致土壤水分增加,水分進入土壤需要一定的時間,因此考慮了滯后性進行預測??紤]其滯后性后,Spearman和Pearson相關系數(shù)有了顯著提高,相關系數(shù)提高到0.5以上,如表1所示。
圖4 甘蔗產(chǎn)量與影響因子相關性分析Fig.4 Correlation analysis of sugarcane yield and influencing factors
表1 X4與X8的滯后對比Tab.1 Lag comparison of X4 and X8
圖5 BP神經(jīng)網(wǎng)絡下甘蔗產(chǎn)量預測值與實測值對比分析Fig.5 Contrast analysis of sugarcane yield prediction value and actual measurement value under BP neural network
通過前期試驗,采用試湊法設置本次試驗BP神經(jīng)網(wǎng)絡中相應參數(shù):收斂誤差為0.000 65,學習速度為0.05,最大訓練次數(shù)為50 000。當收斂誤差滿足最初設置值時,完成訓練,相關模型檢驗結果如圖5所示。BP神經(jīng)網(wǎng)絡模型可以應用在甘蔗產(chǎn)量預測,輸出結果與預測結果擬合程度較差(圖5a),預測誤差變化波動劇烈,平均相對誤差達到3.30%,絕對誤差達到3.32 t/hm2;以黃色豎線為分布誤差0的分界線,向兩端擴散增大,在單一BP網(wǎng)絡誤差直方圖中(圖5c),誤差較大,最大誤差在-9.144左右。
針對BP神經(jīng)網(wǎng)絡下,初始權值閾值隨機設置存在的問題,通過遺傳算法來優(yōu)化BP神經(jīng)網(wǎng)絡的初始權值與閾值。GA-BP神經(jīng)網(wǎng)絡參數(shù)設置與BP神經(jīng)網(wǎng)絡一致。個體編碼方式采用實數(shù)法,由于輸入層節(jié)點數(shù)和輸出層節(jié)點數(shù)分別為9和1,隱含層節(jié)點數(shù)為10,則共有65個權值和11個閾值,遺傳算法需要優(yōu)化的參數(shù)為76個。
經(jīng)過遺傳算法優(yōu)化后的GA-BP神經(jīng)網(wǎng)絡模型在預測精度方面得到了很大提高,產(chǎn)量預測模型驗證集的平均相對誤差僅為-0.37%,平均絕對誤差為-1.01 t/hm2,輸出結果與測試與實際值吻合程度較高(圖6a),變化趨勢相同,輸出指標的預測誤差變化波動較小(圖6b);通過與圖5c對比可以清晰地看到,GA-BP誤差接近0的個數(shù)更多且誤差更小,范圍在-1.835到1.870之間(圖6c),模型預測較為穩(wěn)定。
將甘蔗產(chǎn)量分別采用BP網(wǎng)絡和GA-BP組合模型進行預測,并對得到的結果進行相應擬合系數(shù)圖的分析,GA-BP網(wǎng)絡模型與期望值的擬合程度優(yōu)于BP神經(jīng)網(wǎng)路,回歸擬合性較好(圖7a),GA-BP神經(jīng)網(wǎng)絡模型相關系數(shù)從0.494 4增加到0.922 4,決定系數(shù)R2從0.496 4增加到0.842 8(圖7c)。
圖6 GA-BP神經(jīng)網(wǎng)絡下甘蔗產(chǎn)量預測值與實測值對比分析Fig.6 Comparison analysis of sugarcane yield predicted value and measured value under GA-BP neural network
圖7 2種模型預測值與實測值間的相關性分析Fig.7 Correlation analysis between predicted values of two models and measured values
訓練結束后,原始數(shù)據(jù)預測結果及考慮滯后效應下模型的MSE、RMSE、MAE和MAPE的預測結果如表2所示。MSE從22.83 t2/hm4降低到1.21 t2/hm4,RMSE從4.77 t/hm2降低到1.10 t/hm2,MAE從4.11 t/hm2降低到0.90 t/hm2,MAPE由4.07%降低到0.90%,說明遺傳算法優(yōu)化后的GA-BP神經(jīng)網(wǎng)絡模型對于甘蔗產(chǎn)量的預測能力優(yōu)于BP神經(jīng)網(wǎng)絡模型。將原始數(shù)據(jù)與預測模型進行比較考慮到滯后,GA-BP預測模型的MSE和MAPE分別為0.07 t2/hm4和0.32%。BP神經(jīng)網(wǎng)絡預測誤差最大,甘蔗產(chǎn)量預測誤差較大,考慮滯后的GA-BP預測模型具有較好的預測效果。
表2 BP神經(jīng)網(wǎng)絡和GA-BP神經(jīng)網(wǎng)絡誤差分析Tab.2 Error analysis of BP neural network and GA-BP neural network
遺傳算法優(yōu)化后的神經(jīng)網(wǎng)絡可以通過遺傳算法獲得最優(yōu)的權值和閾值。通過遺傳算法的不斷選擇、交叉和變異運算,選出最佳個體。遺傳算法的優(yōu)化主要涉及最大進化代數(shù)、初始種群規(guī)模、交叉概率和變異概率。本文將遺傳算法中的參數(shù)設置為:最大進化代數(shù)為100,初始種群規(guī)模40,交叉概率0.8,變異概率0.05。
本文采用交叉驗證法對甘蔗產(chǎn)量預測模型進行評價。ALLEN[25]引入了交叉驗證作為評估預測模型的方法,用來提高模型預測精度。交叉驗證是一種樣本訓練過程中消除隨機抽樣引起的偏差的方法,根據(jù)神經(jīng)網(wǎng)絡的預測設置將原始數(shù)據(jù)劃分為預測樣本和測試樣本。用測試樣本訓練好的模型進行驗證,用測試樣本來評估模型的預測精度。交叉驗證方法具有計算效率高、操作簡單的特點。通過交叉驗證對考慮滯后的GA-BP預測模型進行評估,如圖8所示。
圖8 預測模型V型交叉驗證與評估Fig.8 V-cross-validation and evaluation of predictive model
通過V型交叉驗證后,RMSE和MAPE作為本文兩種模型的評價標準。從表3可以看出,BP神經(jīng)網(wǎng)絡預測模型的RMSE和MAPE平均值分別為5.261 t/hm2和3.961%,而GA-BP神經(jīng)網(wǎng)絡預測模型的RMSE和MAPE平均值分別為0.705 t/hm2和0.933%。交叉驗證后,BP神經(jīng)網(wǎng)絡的預測波動較大,而GA-BP神經(jīng)網(wǎng)絡的預測結果相對穩(wěn)定,檢驗表明GA-BP神經(jīng)網(wǎng)絡精度優(yōu)于BP神經(jīng)網(wǎng)絡。
表3 V型交叉驗證評價指標參數(shù)統(tǒng)計Tab.3 V- cross-validation evaluation index parameter statistics
(1)通過對所選影響因素與甘蔗產(chǎn)量相關系數(shù)分析可知,甘蔗產(chǎn)量與月土壤最高溫度、月土壤最低溫度、月土壤平均溫度、月大氣最高溫度、月大氣平均溫度、月大氣平均相對濕度為極顯著相關,相關系數(shù)高于0.7;與月土壤平均含水率、月降雨量呈顯著相關;與月大氣最低溫度相關性較弱。由于甘蔗產(chǎn)量受到氣象因子的影響具有滯后性,尤其是水分進入土壤這個過程,所以對X4、X8滯后性進行預測,相關系數(shù)有了顯著提高,Spearman和Pearson相關系數(shù)提高到0.5以上。
(2)運用BP神經(jīng)網(wǎng)絡對甘蔗產(chǎn)量預測效果較差,模型預測不穩(wěn)定,個別預測結果誤差較大,預測值與實測值的R2為0.496 4。通過構建GA優(yōu)化后的BP神經(jīng)網(wǎng)絡模型,得出最優(yōu)權重組合,經(jīng)過不斷迭代訓練,GA-BP網(wǎng)絡模型預測精度R2達到0.842 8,MAPE僅為0.90%,RMSE為1.10 t/hm2。這一預測精度滿足甘蔗生產(chǎn)的實際需要,對于制定甘蔗生長期間的精準管理決策及農(nóng)藝管理措施、提高甘蔗的生產(chǎn)效率具有指導作用與參考依據(jù)。
(3)通過交叉驗證對考慮滯后的2種預測模型進行評估,BP神經(jīng)網(wǎng)絡預測模型的RMSE和MAPE平均值分別為5.261 t/hm2和3.961%,而GA-BP神經(jīng)網(wǎng)絡預測模型RMSE和MAPE平均值分別為0.705 t/hm2和0.933%,BP神經(jīng)網(wǎng)絡的預測波動較大,而GA-BP神經(jīng)網(wǎng)絡的預測結果相對穩(wěn)定,檢驗表明GA-BP神經(jīng)網(wǎng)絡預測模型精度優(yōu)于BP神經(jīng)網(wǎng)絡。