亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于多源時空數(shù)據(jù)的冬小麥產(chǎn)量預測模型

2023-11-14 08:45:44劉靖宇李遠斌馮俊辰丁云鴻

江蘇農(nóng)業(yè)科學 2023年19期

劉靖宇, 李遠斌, 董昊, 馮俊辰, 丁云鴻

(哈爾濱師范大學計算機科學與信息工程學院,黑龍江哈爾濱 150025)

由于人口的增長和人們生活水平的提高,糧食需求正在迅速增長。Baj?elj等認為,糧食需求將在21世紀中葉以后超過糧食產(chǎn)量[1-3]。小麥是世界上最重要的3種糧食作物(小麥、水稻和玉米)之一,全球種植面積超過2.2億hm2/年[4]。中國是全球第一大小麥生產(chǎn)國,其產(chǎn)量約占全球小麥產(chǎn)量的18%[5]。隨著糧食需求的增加,中國需要將糧食產(chǎn)量提高36%才能養(yǎng)活全國[6]。因此,及時準確掌握各地區(qū)農(nóng)作物的產(chǎn)量信息,能夠為糧食生產(chǎn)宏觀調(diào)控、經(jīng)濟政策制定和農(nóng)作物保險提供信息支持,對服務(wù)國家糧食安全戰(zhàn)略具有重要意義。一般而言,基于過程的作物生長模擬模型和統(tǒng)計模型是用于產(chǎn)量預測的常用模型。作物生長模擬模型(如WOFOST[7]、DSSAT[8]、APSIM[9]、STICS[10]和MONICA[11])可以模擬農(nóng)作物的生長發(fā)育和產(chǎn)量形成過程,能夠研究作物產(chǎn)量和環(huán)境條件之間的相互作用[12-14]。然而,大規(guī)模運行作物模型非常耗時[15-16],還需要大量來自實地統(tǒng)計的數(shù)據(jù)(如品種特征、管理信息、土壤特性等)以校準模型[2,17]。因此,難以將該方法擴展到多種作物和地區(qū)[18-20]。與基于過程的作物模型相比,統(tǒng)計模型(如傳統(tǒng)的統(tǒng)計模型和機器學習模型)在大規(guī)模產(chǎn)量預測中更加有效,因此應(yīng)用更廣泛[20]。已有研究使用傳統(tǒng)的回歸模型進行產(chǎn)量預測。如Lobell等使用多元線性回歸(MLR)模型預測1980—2003年美國加利福尼亞州的作物產(chǎn)量,且僅使用2～3個氣候變量的簡單方程解釋超過2/3觀測到的產(chǎn)量變化[21]。但與非線性回歸模型相比,傳統(tǒng)的統(tǒng)計模型(如線性回歸模型)準確性相對較低。實際上作物產(chǎn)量與大多環(huán)境因素之間的關(guān)系通常是非線性的[22-24]。機器學習是一種先進的統(tǒng)計技術(shù),可以分析變量與產(chǎn)量之間的非線性關(guān)系[25-28]。最近,有研究開發(fā)出基于統(tǒng)計的作物產(chǎn)量預測模型,如人工神經(jīng)網(wǎng)絡(luò)(ANN)、最小絕對值收斂和選擇算子算法(LASSO)、支持向量機(SVM)和隨機森林 (RF)[29-32]。Khanal等使用線性回歸和6種機器學習算法預測玉米產(chǎn)量并比較它們的性能[33]。Leng等使用傳統(tǒng)的線性回歸模型和RF模型預測1980—2010年美國玉米產(chǎn)量的變化[34]。眾多研究結(jié)果表明,機器學習模型的性能優(yōu)于線性回歸模型。此外,部分機器學習模型能夠識別預測變量對產(chǎn)量的相對重要性。作物產(chǎn)量受多種因素影響,如作物品種特征、土壤特征、病蟲害等[35],但是先前的大多數(shù)研究都基于單一因素預測作物產(chǎn)量,如氣候數(shù)據(jù)。Anderson等認為,衛(wèi)星遙感可以連續(xù)監(jiān)測不同光譜波段的作物生長,并為作物產(chǎn)量預測提供有用的補充信息[36-38]。其中,可見光和近紅外數(shù)據(jù)可以用來計算各種植被指數(shù)以監(jiān)測作物生長,故其在預測作物產(chǎn)量方面最具優(yōu)勢[39-42]。自從Tucker提出第1個歸一化植被指數(shù)(NDVI)以來[43],幾種流行的植被指數(shù)[NDVI、增強植被指數(shù)(EVI)]已被廣泛應(yīng)用于農(nóng)業(yè)領(lǐng)域[44-45]。EVI是NDVI的改進版,對較高的冠層葉面積指數(shù)敏感,受大氣氣溶膠的影響較小,是最常用的作物產(chǎn)量預測指數(shù)。但植被指數(shù)以綠化率為基礎(chǔ),對溫度、水汽壓、吸收輻射等氣象因素引起的植被生理變化不敏感。近年來,日光誘導葉綠素熒光(SIF)這一衛(wèi)星指數(shù)進入眾多研究者的視線。SIF是植物葉綠素吸收光能后產(chǎn)生的熒光,反映光合作用效率和響應(yīng)。在農(nóng)業(yè)、生態(tài)學和氣候研究中,SIF被廣泛應(yīng)用,幫助了解植物對環(huán)境的適應(yīng)性和生長狀態(tài),為農(nóng)作物生產(chǎn)和生態(tài)系統(tǒng)保護提供有價值的信息[46-49]。大量研究結(jié)果表明,日光誘導葉綠素熒光(SIF)與生物量直接相關(guān)[50-53],可以直接反映作物的呼吸作用,對環(huán)境變化作出及時、準確的響應(yīng)。Somkuti等直接使用SIF來預測作物產(chǎn)量,并取得比植被指數(shù)更好的結(jié)果[54-56]。同時,由EVI再度改進出一個新的植被指數(shù),即無藍光增強植被指數(shù)(EVI2),它不僅繼承了EVI的全部優(yōu)點,還可以消除亞像素和云等造成的藍光波段的影響。Franch等認為,基于氣候數(shù)據(jù)和衛(wèi)星數(shù)據(jù)的作物模型的產(chǎn)量預測精度普遍優(yōu)于僅基于氣候數(shù)據(jù)的模型[57-59]。Guan等認為,各種衛(wèi)星產(chǎn)品具有共同的重疊和互補信息有利于產(chǎn)量預測[60]。但如何更好地結(jié)合衛(wèi)星數(shù)據(jù)和其他環(huán)境因素來進行作物產(chǎn)量預測還有待進一步研究。冬小麥的生長周期可細分為11個階段,分別是發(fā)芽期、出苗期、分蘗期、越冬期、返青期、拔節(jié)期、孕穗期、抽穗期、開花期、灌漿期、成熟期。Li等將這11個時期分為4個階段[基于生長期(Bogp)]：T1,發(fā)芽期—分蘗期(10—11 月);T2,分蘗期—拔節(jié)期(12月至次年3月);T3,拔節(jié)期—抽穗期(3—4月);T4,抽穗期—成熟期(5—6 月),并按照這4個階段整理數(shù)據(jù)集[61]。但這樣的時間劃分方式存在很大的干擾因素。如10月為播種階段,5月下旬至6月上旬為收獲階段,人為因素影響巨大。本研究將多源時空數(shù)據(jù)(包括時空數(shù)據(jù)、氣候數(shù)據(jù)、土壤數(shù)據(jù)、衛(wèi)星數(shù)據(jù))按照月份進行拆分,去除受人為因素影響最大的10月以及次年的5、6月[基于時空(Boam)],采用LASSO、嶺回歸(RIDGE)、支持向量機回歸(SVR)、隨機森林、XGBoost、輕型梯度提升算法(LightGBM)等6個機器學習算法,對山東省2009—2020年13個縣(市區(qū))的冬小麥產(chǎn)量進行預測,并進行相關(guān)研究。本研究旨在解決以下幾個問題：(1)采用本研究的時間劃分方式整理數(shù)據(jù)集訓練模型,其性能與以往的研究相比是否有改進?這6種機器學習模型誰的性能最強?最佳預測時間段是哪幾個月?(2)多源時空數(shù)據(jù)對預測模型是否有積極影響?時空變量對預測模型是否有影響? EVI2與SIF對提高預測精度的作用誰更大?

1 材料與方法

1.1 研究區(qū)域

山東省是我國冬小麥主產(chǎn)區(qū)之一,屬溫帶大陸性季風氣候。該地區(qū)主要盛行的輪作方式是冬小麥和夏玉米,本研究僅針對冬小麥進行分析。同時,山東省內(nèi)各地所種植冬小麥的品種相近,所以忽略基因型的影響(圖1)。

1.2 數(shù)據(jù)和預處理

本研究共使用了作物產(chǎn)量和種植面積、氣候數(shù)據(jù)、衛(wèi)星數(shù)據(jù)、土壤數(shù)據(jù)、時空數(shù)據(jù)等數(shù)據(jù),數(shù)據(jù)集描述見表1。本研究收集的多源數(shù)據(jù)具有不同的時空分辨率,因此首先將所有變量聚合為縣級空間分辨率和月份時間分辨率,再匯總每個縣(市、區(qū))的月平均變量。因為各變量每個月對冬小麥的生長具有不同的影響,所以將每個變量按月份劃分為6個因子,作為預測模型的輸入。

表1 數(shù)據(jù)集的詳細描述

1.2.1 作物產(chǎn)量和種植面積基于山東省各縣(市、區(qū))的農(nóng)業(yè)統(tǒng)計年鑒(http://tjj.shandong.gov.cn/col/col6279/index.html),本研究收集13個縣(市、區(qū))2009—2020年冬小麥種植面積(hm2)和總產(chǎn)量數(shù)據(jù)(kg)。有一些縣域缺失某些年份的數(shù)據(jù),再剔除氣候數(shù)據(jù)、衛(wèi)星數(shù)據(jù)和土壤數(shù)據(jù)等不全的異常數(shù)據(jù),共得到110條樣本數(shù)據(jù)。通過冬小麥總產(chǎn)量和種植面積計算得到冬小麥產(chǎn)量(kg/hm2)。

1.2.2 氣候數(shù)據(jù) 氣候數(shù)據(jù)來源于MERRA-2數(shù)據(jù)集[62]。MERRA-2是一套由美國國家航空航天局(National Aeronautics and Space Administration,NASA)提供的大氣再分析資料。本研究使用其中的8個氣象因子,包括地表溫度(℃)、降水量(cm)、相對濕度(%)、蒸發(fā)量(cm)、平均風速(m/s)、長波輻射(W/m2)、短波輻射(W/m2)和日照時數(shù)(峰值,h)。

小麥屬于喜涼性作物,溫度、降水、太陽輻射和光照是影響其產(chǎn)量的關(guān)鍵因素。本研究所選的8個氣象因子中,地表溫度、降水量、相對濕度和蒸發(fā)量是反映溫度和降水的變量,長波輻射、短波輻射和日照時數(shù)是反映太陽輻射和光照的變量,這7個變量已被廣泛應(yīng)用于作物產(chǎn)量研究[63]。另外,風速是一個很少被考慮的氣候因素,它可以通過影響葉片氣體和熱交換來影響植物生長,或通過改變?nèi)~片邊界層的厚度來改變水分狀態(tài)[64-65]。

1.2.3 衛(wèi)星數(shù)據(jù) 本研究使用SIF和EVI2共2個衛(wèi)星植被指數(shù)。SIF是近年來研究光合活動的一種新指數(shù),已廣泛應(yīng)用于作物監(jiān)測和產(chǎn)量預測。SIF數(shù)據(jù)下載自O(shè)CO-2衛(wèi)星(http://data.globalecology.unh.edu)的SIF再分析數(shù)據(jù)集(GOSIF)。GOSIF是一個再分析數(shù)據(jù)集,基于來自O(shè)CO-2、MODIS數(shù)據(jù)和氣候數(shù)據(jù)的SIF數(shù)據(jù),與直接從OCO-2探測中聚合的粗分辨率SIF相比,GOSIF具有更精細的空間分辨率,全球連續(xù)覆蓋和更長的記錄。EVI2是EVI的改進版本,它僅由紅光波段和近紅外波段2個波段計算得出。與EVI相比,它不僅繼承了EVI的全部優(yōu)點,還可以消除亞像素和云等造成的藍光波段的影響。EVI2數(shù)據(jù)下載自美國國家航空航天局的MOD13A3產(chǎn)品(https://search.earthdata.nasa.gov/search),該產(chǎn)品的數(shù)據(jù)不僅包含NDVI和EVI等2個現(xiàn)成的植被指數(shù),還包括紅光、近紅外、藍光、中紅外等4個波段的原始數(shù)據(jù)。EVI2由公式(1)計算得出。

(1)

式中：NIR表示近紅外波段;RED表示紅光波段。

1.2.4 土壤數(shù)據(jù) 土壤理化性質(zhì)是作物產(chǎn)量的關(guān)鍵影響因素,本研究共使用6個土壤變量,其中土壤容重、土壤深度、有機碳含量、酸堿度pH值和黏土的陽離子交換能力等5個變量[63]來源于世界土壤數(shù)據(jù)庫(HWSD,http://www.tpdc.ac.cn/zh-hans/data/844010ba-d359-4020-bf76-2b58806f9205/)[66],HWSD里中國地區(qū)的數(shù)據(jù)源為中國科學院南京土壤研究所提供的1995年全國第2次土地調(diào)查的土壤數(shù)據(jù)。使用的最后1個土壤變量為根區(qū)濕度(kg/m2),來源于美國哥達德空間飛行中心(GSFC)和美國國家環(huán)境預報中心(NCEP)聯(lián)合開發(fā)的全球高分辨率的陸面模擬系統(tǒng)(GLDAS),空間分辨率為0.25°×0.25°,時間分辨率為逐月。

1.2.5 地理基礎(chǔ)數(shù)據(jù) 作物生長狀況和生長環(huán)境具有空間異質(zhì)性,相鄰縣在某一年的作物產(chǎn)量通常是相似的。空間自相關(guān)可以通過地理坐標(經(jīng)緯度)來解釋[67]。

1.2.6 數(shù)據(jù)預處理 EVI2、SIF和HWSD土壤數(shù)據(jù)均是柵格數(shù)據(jù),其中EVI2和SIF均是用ENVI軟件從原始數(shù)據(jù)中導出表格數(shù)據(jù),再根據(jù)經(jīng)緯度求縣級月平均數(shù)據(jù)。HWSD土壤數(shù)據(jù)則是先用ArcGIS軟件從原始數(shù)據(jù)庫中導出所需要的表格數(shù)據(jù),再根據(jù)經(jīng)緯度求縣級平均數(shù)據(jù)。為了消除指標之間的量綱影響,對所有數(shù)據(jù)作最大值、最小值歸一化處理。

共整理出3個數(shù)據(jù)集：第一,按照Boam劃分方式,先將10月以及次年5月、6月的數(shù)據(jù)剔除掉,再把剩下的數(shù)據(jù)按照月分辨率整理成Boam數(shù)據(jù)集。第二,將數(shù)據(jù)按照Bogp劃分方式整理出來的Bogp數(shù)據(jù)集。第三,先通過收集到的全部數(shù)據(jù)計算出每個變量的日均值,再刪除經(jīng)緯度坐標,以此得到Nost(無時空變量)數(shù)據(jù)集。

1.3 研究方法

采用最小絕對收縮和選擇算子算法(LASSO)、嶺回歸(RIDGE)、支持向量機回歸(SVR)、隨機森林(RF)、極端梯度提升回歸(XGBoost)、輕量級梯度提升算法(LightGBM)等6種機器學習算法構(gòu)建冬小麥產(chǎn)量預測模型,并比較它們的性能。

1.3.1 最小絕對值收斂和選擇算子算法和嶺回歸 LASSO由Robert Tibshirani于1996年首次提出,是一種正則化回歸分析方法,通過變量選擇和正則化可以提高模型的預測精度和可解釋性。LASSO通過使用特征選擇生成簡約模型,并通過懲罰系數(shù)絕對值之和來避免過擬合。RIDGE是1970年由Hoerl和 Kennard提出的一種算法,也是一種正則化回歸方法,但RIDGE使用L2正則化,而LASSO使用L1正則化。LASSO和RIDGE的模型使用Python 3.9中的scikit-learn包進行訓練。

1.3.2 支持向量機回歸 SVR是SVM的一種回歸方法,是一種基于核的算法。與支持向量機類似,SVR找到一個回歸平面來最小化所有輸入到這個超平面的距離。一般而言,SVR需要1個核函數(shù)將原始空間的所有輸入映射到高維空間,然后在該特征空間中構(gòu)造一個線性函數(shù)來平衡誤差最小化和過擬合。最常用的核函數(shù)有線性核、多項式核和高斯徑向基核。此外,需要調(diào)優(yōu)的超參數(shù)是懲罰系數(shù)C和核系數(shù)gamma,該模型使用Python 3.9中的scikit-learn包進行訓練。

1.3.3 隨機森林 RF最早由Leo Breiman和Adele Cutler在1995年提出。RF模型是一種用于回歸和分類的集成學習方法,它由許多決策樹組成。在訓練階段將訓練集分成多個不同的子訓練集,再用每個子訓練集生成單個決策樹,每個決策樹訓練完成后都會給出一個預測結(jié)果。最后對每個決策樹的預測結(jié)果取平均值,得到最終的預測結(jié)果。此外,RF對噪音不敏感,具有很強的魯棒性。決策樹的數(shù)量和最大深度是研究中需要調(diào)優(yōu)的超參數(shù)。該模型使用Python 3.9中的scikit-learn包進行訓練。

1.3.4 極端梯度提升算法 XGBoost是2014年華盛頓大學的陳天奇博士提出的一種梯度增強框架下的算法。XGBoost算法的基本原理是在完整數(shù)據(jù)上構(gòu)建多個弱學習器,并將所有弱學習器的建模結(jié)果進行聚合,以獲得更好的回歸或分類性能。XGBoost結(jié)合了正則化模型來防止過擬合,弱學習器可以是回歸樹或線性模型。本研究的 XGBoost 模型是基于決策樹建立的。該模型使用Python 3.9中的XGBoost包進行訓練。

1.3.5 輕型梯度提升算法 LightGBM是微軟于2017年提出的boosting框架,其基本原理與XGBoost一樣,使用基于學習算法的決策樹,只是在框架上做了優(yōu)化(重點在模型訓練速度上的優(yōu)化)。LightGBM已經(jīng)被應(yīng)用于許多不同類型的數(shù)據(jù)挖掘任務(wù)(如分類、回歸和排序),并顯示出極好的準確性。LightGBM算法包含基于梯度的單邊采樣(GOSS)和互斥特征捆綁(EFB)2種新技術(shù),這2種技術(shù)分別便于處理大量數(shù)據(jù)實例和大量特征。因此,與其他類似算法(如XGBoost)相比,LightGBM在計算速度和內(nèi)存占用方面的表現(xiàn)明顯更好。每棵樹的葉子數(shù)量、迭代速度、樹的最大深度、每張葉子記錄的最小數(shù)量、每次迭代隨機選擇的特征的比例、每次迭代使用的數(shù)據(jù)的比例是LightGBM算法中需要調(diào)優(yōu)的主要參數(shù)。該模型使用Python 3.9中的lightgbm包進行訓練。

1.3.6 模型評估本研究使用留一法交叉驗證來評估模型的實用性,即使用除某縣某年的其他所有縣所有年份的數(shù)據(jù)來訓練模型,再對目標年份進行預測。該方法是一種被廣泛使用的交叉驗證方法,其具有實現(xiàn)簡單、通用性強、能避免過擬合問題等優(yōu)點。為了評估模型的性能,本研究選擇確定系數(shù)(R2)和均方根誤差(RMSE)作為評估指標。R2是最常用于評價回歸模型優(yōu)劣程度的指標,其取值范圍為0～1,無單位。R2越大(接近于1),所擬合的回歸方程越優(yōu)。RMSE衡量觀測值與真實值之間的偏差,常用來作為機器學習模型預測結(jié)果衡量的標準。RMSE越小,預測結(jié)果越接近真實值。RMSE的計算公式見公式(2)。R2和RMSE由Python 3.9中的scikit-learn包里的函數(shù)計算得出。

(2)

1.3.7 試驗設(shè)計本研究共設(shè)計5個試驗來探究問題。試驗1：分別用Bogp數(shù)據(jù)集和Boam數(shù)據(jù)集訓練6個機器學習模型,比較哪個數(shù)據(jù)集訓練出的冬小麥預測模型性能更強,再找出最強模型。試驗2：Boam數(shù)據(jù)集中,氣候數(shù)據(jù)、衛(wèi)星數(shù)據(jù)及土壤數(shù)據(jù)中的根區(qū)濕度按照月份劃分,其他為固定變量。本試驗抽取10個不同時間段(11月至次年1月、11月至次年2月、11月至次年3月、11月至次年4月、12月至次年2月、12月至次年3月、12月至次年4月、1—3月、1—4月、2—4月)的數(shù)據(jù)對模型進行訓練,用得到的R2和RMSE選出預測效果最佳的時間段。為了避免機器學習模型的過擬合現(xiàn)象,每個時間段最低包含3個月的數(shù)據(jù)。試驗3：先用包含年份、經(jīng)緯度和氣候變量的數(shù)據(jù)對模型進行訓練并預測,依次向數(shù)據(jù)集增加土壤變量和衛(wèi)星變量,并分別對模型進行訓練測試,最后對比3次訓練得到的評估指數(shù),以此探究多源數(shù)據(jù)對產(chǎn)量預測結(jié)果的影響。試驗4：用Nost數(shù)據(jù)集訓練模型,將預測結(jié)果與用Boam數(shù)據(jù)集得到的結(jié)果對比,以此探究時空變量對預測結(jié)果的影響。試驗5：對衛(wèi)星數(shù)據(jù)進行拆分,先用EVI2和其他變量作為模型的輸入,再用SIF和其他變量作為模型的輸入,最后用EVI2+SIF和其他變量作為模型的輸入,以此測試2個衛(wèi)星因子的性能。

2 結(jié)果與分析

2.1 數(shù)據(jù)集的時間性能研究

由圖2可知,除嶺回歸模型外,其余5種模型均顯示,Boam劃分方式略優(yōu)于Bogp劃分方式。對比Boam數(shù)據(jù)集訓練出來的6個預測模型可知,XGBoost模型的預測性能最強(R2=0.843 6,RMSE=0.085 8),其次是LightGBM模型(R2=0.680 7,RMSE=0.102 3)和RF模型(R2=0.518 7,RMSE=0.116 4),而嶺回歸模型(R2=0.096 5,RMSE=0.162 4)的性能最差?？赡苁且驗榇蠖鄶?shù)變量與結(jié)果之間的關(guān)系是非線性的。

試驗2用Boam數(shù)據(jù)集來完成,并僅用基于XGBoost算法的冬小麥產(chǎn)量預測模型來分析。10個時間段數(shù)據(jù)訓練出的模型的R2和RMSE見圖3?？梢?0個模型的性能差距不大,其中使用11月至次年1月數(shù)據(jù)訓練出來的模型性能最好,R2、RMSE分別為0.850 0、0.085 1。故11月至次年1月是最佳預測時間段。

2.2 對預測變量的研究

試驗3的R2和RMSE見圖4?？梢娞砑油寥雷兞亢?R2由0.664 3增加到0.794 9,RMSE由0.103 8減小到0.091 0。最后加上衛(wèi)星變量,R2又增加到0.843 6,RMSE減小到0.085 8?？梢婋S著數(shù)據(jù)的多源化,預測精度在逐步增加。圖5是試驗4的R2和RMSE?？梢娞砑訒r空變量后,R2由0.713 5增加到0.843 6,RMSE由0.106 4減小到0.085 8,說明添加時空變量對預測結(jié)果有一定的積極作用。

試驗5中3次訓練得到的R2和RMSE見圖6。與SIF(R2=0.732 2,RMSE=0.097 4)相比,EVI2(R2=0.797 5,RMSE=0.089 0)對預測結(jié)果的增幅更大。但用同時包含兩者的數(shù)據(jù)訓練出來的模型(R2=0.843 6,RMSE=0.085 8)性能更加強大。SIF和EVI2對預測結(jié)果的增益方式不同,故累加兩者之后預測效果更強。

3 結(jié)論與討論

3.1 數(shù)據(jù)集的時間性能研究

與Bogp劃分方式相比,按照Boam劃分方式整理數(shù)據(jù)集訓練的模型性能更強。不可否認的是,以前研究的時間劃分有一定的道理,但是沒有排除人為因素的影響,就像10月不僅是發(fā)芽期還是播種期,5月和6月不僅是成熟期還是收獲期,這必然對預測結(jié)果產(chǎn)生一定的影響。排除人為干擾,僅用11月至次年4月的數(shù)據(jù)進行預測,同時把變量按照月份進行劃分,時間劃分更細致。

測試的6種機器學習模型中,基于XGBoost算法的冬小麥產(chǎn)量預測模型性能穩(wěn)居第一,但是此模型也有缺點,如占用內(nèi)存較大、運行時間較長。與之相比,LightGBM算法作為XGBoost算法的改進版,占用內(nèi)存較小,運行速度較快。而LightGBM算法是犧牲了部分精度才獲取到最優(yōu)速度。因此,是使用基于XGBoost算法的模型還是使用基于LightGBM算法的模型,又或是其他機器學習模型,要視具體情況而定。

試驗2旨在找到最佳預測時間段,因此抽取10個不同時間段的數(shù)據(jù)進行預測,發(fā)現(xiàn)使用11月至次年1月數(shù)據(jù)訓練模型時,得到R2最大值為0.850 0,RMSE最小值為0.085 1?？梢?11月至次年1月是最佳預測時間段。11月至次年1月的預測結(jié)果優(yōu)于11月至次年4月的預測結(jié)果。據(jù)此推斷,數(shù)據(jù)集中的74個變量存在無關(guān)變量或消極變量。進而計算每個變量的貢獻度,貢獻度的取值范圍為0～1,全部變量的貢獻度總和為1。

由表2可知,上年11月日照時數(shù)、上年12月日照時數(shù)、1月日照時數(shù)、3月日照時數(shù)、4月日照時數(shù)、3月EVI2等6個變量貢獻度為0,即無關(guān)變量。其中,3月SIF、2月EVI2、上年12月SIF等3個變量為貢獻度最高的3個變量,其貢獻度均在0.1之上。值得注意的是,貢獻度最高的3個變量全都是衛(wèi)星因子,由此可預見衛(wèi)星數(shù)據(jù)在農(nóng)學領(lǐng)域的潛力。此外,其他變量貢獻度均在0～0.1之間。

表2 變量貢獻度

3.2 對預測變量的研究

泱泱華夏地大物博,不同時間不同地區(qū)的氣候、人文、土壤等均不相同。試驗3探究了多源數(shù)據(jù)對冬小麥產(chǎn)量預測模型的影響,數(shù)據(jù)集由多源數(shù)據(jù)整理而成,結(jié)果表明,每增加1組不同來源的數(shù)據(jù),預測結(jié)果精度便增加1分?？梢?數(shù)據(jù)越多源,預測結(jié)果精度越高。本研究共使用時空數(shù)據(jù)、氣候數(shù)據(jù)、土壤數(shù)據(jù)、衛(wèi)星數(shù)據(jù)等4個來源的數(shù)據(jù)進行預測,像社會因子(灌溉面積、化肥農(nóng)藥等)、高程數(shù)據(jù)等均未使用。故本研究還可以繼續(xù)收集更多源的數(shù)據(jù)整理進數(shù)據(jù)集,以使模型性能更強,預測結(jié)果更準確。

試驗4探究時空變量對預測結(jié)果的影響,發(fā)現(xiàn)與用不包含時空變量的Nost數(shù)據(jù)集訓練出的預測模型相比,用加上時空變量之后的Boam數(shù)據(jù)集訓練出的預測模型精度更高。精度提升較低,這是因為僅選擇山東省作為研究區(qū)域,如果把華北平原甚至全中國、全世界作為研究區(qū)域,那時空變量一定會給預測結(jié)果帶來更大的提升。

試驗5探究EVI2和SIF對預測結(jié)果的影響。在農(nóng)業(yè)領(lǐng)域,已有學者使用衛(wèi)星數(shù)據(jù)來源預測作物產(chǎn)量,使用最多的是NDVI和EVI這2個植被指數(shù)。本研究使用的EVI2指數(shù)是EVI的改良版,至今未曾被用于農(nóng)業(yè)領(lǐng)域。它僅由紅光波段和近紅外波段計算得出,不受藍光波段的影響,故性能強于EVI,本研究探究其和近期興起的植被指數(shù)SIF的性能誰更強。結(jié)果表明,EVI2的性能強于SIF,但兩者的疊加效果又強于兩者單獨的作用?？梢?2個植被指數(shù)的作用域不同,預測時可疊加兩者使模型性能變得更強。

3.3 結(jié)論

本研究開發(fā)基于機器學習算法的冬小麥產(chǎn)量模型,通過整合多源時空數(shù)據(jù)(時空數(shù)據(jù)、氣候數(shù)據(jù)、土壤數(shù)據(jù)、衛(wèi)星數(shù)據(jù))來預測冬小麥產(chǎn)量,并得出以下結(jié)論。

(1)與以往的研究相比,Boam時間劃分方式更合理,因而預測精度更高。測試的6個冬小麥產(chǎn)量預測模型中,XGBoost模型在預測冬小麥產(chǎn)量方面具有最優(yōu)性能。6個機器學習模型的性能排序依次是XGBoost模型(R2=0.843 6,RMSE=0.085 8)、LightGBM模型(R2=0.680 7,RMSE=0.102 3)、RF模型(R2=0.518 8,RMSE=0.116 4)、SVR模型(R2=0.495 6,RMSE=0.118 3)、LASSO模型(R2=0.273 4,RMSE=0.135 0)、RIDGE(R2=0.096 5,RMSE=0.162 4)。結(jié)果表明,11月至次年1月是進行冬小麥產(chǎn)量預測的最佳時間段。由6個月縮減到3個月,不僅可以大大縮減整理數(shù)據(jù)集的工作量,還可以增強模型的性能。數(shù)據(jù)集中存在無關(guān)變量。3月SIF、2月EVI2、上年12月SIF等3個變量為貢獻度最高的3個變量,均為衛(wèi)星因子,由此可預見衛(wèi)星數(shù)據(jù)在農(nóng)學領(lǐng)域的潛力。

(2)更多源的數(shù)據(jù)能給預測結(jié)果帶來更大的增益。首先,在數(shù)據(jù)集中依次增加土壤數(shù)據(jù)和衛(wèi)星數(shù)據(jù)后,模型的預測性能逐漸增強。其次,時空變量對預測結(jié)果具有積極的作用。用Boam數(shù)據(jù)集得到的預測結(jié)果比用沒加時空變量(年份和經(jīng)緯度)的數(shù)據(jù)得到的預測結(jié)果精度更高。最后,與SIF相比,EVI2的性能更勝一籌,而同時使用SIF和EVI2共2個因子的模型性能強于僅適用SIF或EVI2的模型。因此,2個衛(wèi)星植被指數(shù)的作用域不同,在進行冬小麥產(chǎn)量預測時完全可以疊加兩者使用。

本研究證明,以XGBoost為主的幾個機器學習算法在冬小麥產(chǎn)量預測方面的能力很強,且建模方法可以通過使用公開的數(shù)據(jù)擴充本研究的數(shù)據(jù)集,進而廣泛應(yīng)用于全世界其他地區(qū)。