李乾川,許世衛(wèi),張永恩,莊家煜,李燈華,劉?;?,朱之洵,劉浩
基于氣象因素的玉米單產(chǎn)堆棧集成學(xué)習(xí)建模與預(yù)測
中國農(nóng)業(yè)科學(xué)院農(nóng)業(yè)信息研究所,北京 100081
【目的】在世界氣候變化加劇和氣象災(zāi)害頻發(fā)的背景下,探究氣象因素對玉米單產(chǎn)的重要性并準(zhǔn)確預(yù)測玉米單產(chǎn)對于促進(jìn)農(nóng)業(yè)生產(chǎn)和田間管理具有重要意義。本文旨在量化分析玉米各生育階段氣象因素對單產(chǎn)的重要性并建立高精度、高可靠性的玉米氣象單產(chǎn)堆棧集成學(xué)習(xí)估測模型來預(yù)測單產(chǎn)。【方法】利用HP濾波法和移動平均法確定各縣域趨勢單產(chǎn)模型并分離出各縣氣象單產(chǎn)。采用輕量級梯度提升機(jī)(LightGBM)、Bagging和Stacking 3種集成學(xué)習(xí)方法,通過對中國12個省份596個縣級行政區(qū)域和氣象觀測站跨度34年的日度氣象數(shù)據(jù)和玉米產(chǎn)量數(shù)據(jù)進(jìn)行分析,建立3種基于不同集成學(xué)習(xí)框架(LightGBM、Bagging和Stacking)的玉米氣象單產(chǎn)預(yù)測模型?!窘Y(jié)果】適用HP濾波法作為趨勢單產(chǎn)模型的縣域主要集中在陜西、河南、江蘇和安徽地區(qū)。相較于HP濾波法,更多縣域適用于移動平均法,且多數(shù)縣域2分布于0.8以上?;?年滑動預(yù)測和模型精度評價(jià)指標(biāo),3種模型對玉米單產(chǎn)的平均絕對百分比誤差(MAPE)指標(biāo)均低于6%。Stacking模型MAPE值達(dá)到4.60%,預(yù)測精度高,泛化性強(qiáng)。結(jié)果表明玉米氣象單產(chǎn)堆棧集成學(xué)習(xí)預(yù)測模型(stacking)具有更高精度和更強(qiáng)魯棒性,并能有效利用各基學(xué)習(xí)器特點(diǎn)與優(yōu)勢,提升預(yù)測精度,是根據(jù)氣象因素預(yù)測玉米單產(chǎn)的最優(yōu)模型。此外,基于12省玉米生育階段27個氣象因素的隨機(jī)森林特征重要性評分對玉米單產(chǎn)的定量分析,對作物監(jiān)測和田間管理有借鑒和參考意義?!窘Y(jié)論】3種集成學(xué)習(xí)方法,尤其是堆棧集成學(xué)習(xí)模型(stacking)預(yù)測效果能夠詳細(xì)反映出玉米單產(chǎn)的時(shí)空分布變化情況。基于氣象因素的玉米單產(chǎn)堆棧集成學(xué)習(xí)模型可為田間管理和精準(zhǔn)預(yù)測玉米單產(chǎn)提供新方法。
玉米氣象單產(chǎn);集成學(xué)習(xí);單產(chǎn)估測;縣級數(shù)據(jù);特征重要性
【研究意義】在全球變暖背景下,溫度、降水、光照和氣候極端事件等因素對全球農(nóng)作物產(chǎn)生了深遠(yuǎn)的影響[1-2]。2021年,政府間氣候變化專門委員會(IPCC)第6次報(bào)告指出氣候變化可能會導(dǎo)致糧食作物產(chǎn)量下降,因而增加農(nóng)作物供應(yīng)的不穩(wěn)定性,從而引發(fā)價(jià)格波動和食品安全問題[3-5]。因此,作物產(chǎn)量預(yù)測對于作物供給平衡、作物交易價(jià)格、以及糧食安全監(jiān)測預(yù)警具有重要意義。玉米是重要的糧食作物和飼料作物[6],我國是世界上最大的玉米生產(chǎn)國之一[7]。國家統(tǒng)計(jì)局?jǐn)?shù)據(jù)顯示,2021年我國玉米總產(chǎn)量2.73億噸,其中南方12省份玉米產(chǎn)量5 847.12萬噸,占全國總產(chǎn)的21.5%。華中與華南地區(qū)近年來屢遭高溫及干旱氣候?yàn)?zāi)害,尤以2022年為甚[8-9]。隨著氣象變化加劇,準(zhǔn)確預(yù)測玉米單產(chǎn)對于穩(wěn)定市場供應(yīng)和保障居民生活具有重要意義?!厩叭搜芯窟M(jìn)展】氣候環(huán)境會對玉米的單產(chǎn)預(yù)測產(chǎn)生影響,其中平均溫度、降雨量和日照時(shí)數(shù)等因素與玉米的生長和單產(chǎn)密切相關(guān)。國際學(xué)者開展了大量研究工作,以探討氣候變化對玉米長勢和單產(chǎn)的影響。有研究指出全球氣溫每上升1 ℃,全球的玉米產(chǎn)量平均下降7.4%[10]。此外,利用機(jī)器學(xué)習(xí)算法結(jié)合光譜信息、溫度等因素預(yù)測玉米單產(chǎn),可快速提供無損信息[11]。有研究基于氣象和玉米單產(chǎn)數(shù)據(jù),采用極限學(xué)習(xí)機(jī)方法(extreme learning machine)對捷克的縣級玉米單產(chǎn)進(jìn)行評估,證明機(jī)器學(xué)習(xí)的方法預(yù)測作物單產(chǎn)具有較大潛力[12]。通過利用氣象指數(shù)、氣象數(shù)據(jù)和衛(wèi)星數(shù)據(jù),建立單一機(jī)器學(xué)習(xí)方法,可在較大范圍內(nèi)預(yù)測玉米單產(chǎn)情況[13]。國內(nèi)外已有利用集成學(xué)習(xí)開展種植業(yè)研究工作的進(jìn)展,但研究領(lǐng)域主要集中在作物長勢、生育指標(biāo)[14-16]、機(jī)理[17-18]和圖像識別分類等領(lǐng)域[19-21]。此外,雖然有研究基于集成學(xué)習(xí)結(jié)合多光譜遙感數(shù)據(jù)預(yù)測作物產(chǎn)量問題[22-25],但存在樣本數(shù)據(jù)少、時(shí)間跨度短、各生育階段特征變量對單產(chǎn)重要性不明確、預(yù)測精度不高的問題。目前并沒有基于氣象因素系統(tǒng)探討高精度玉米堆棧集成學(xué)習(xí)模型預(yù)測單產(chǎn)的研究?!颈狙芯壳腥朦c(diǎn)】在全球氣候變暖的大背景下,氣候變化對國內(nèi)糧食安全造成挑戰(zhàn)。雖然已有基于氣象因素預(yù)測作物單產(chǎn)的研究,但量化分析玉米各生育階段氣象因素對單產(chǎn)重要性的探究還不夠深入與充分。此外,雖然目前玉米氣象單產(chǎn)預(yù)測的研究較為系統(tǒng),但這些研究因受限于應(yīng)用單一機(jī)器學(xué)習(xí)方法,導(dǎo)致模型出現(xiàn)預(yù)測精度不高、適用性不理想等一系列問題。因此,除了考慮日照時(shí)數(shù)、降雨量、平均溫度等因素,將一般生長度日、極端生長度日和極端天數(shù)等描述極端天氣的氣象指標(biāo)納入預(yù)測模型的特征集中[26-27],對于作物單產(chǎn)定量分析研究的監(jiān)測預(yù)警和田間管理尤為重要。集成學(xué)習(xí)可以通過集成不同模型類型,并利用這些模型之間的架構(gòu)差異性提高預(yù)測精度和魯棒性。因此,引入集成學(xué)習(xí)對玉米氣象單產(chǎn)預(yù)測具有重要作用。【擬解決的關(guān)鍵問題】基于玉米各生育階段的氣象因素,量化分析對玉米單產(chǎn)的重要性,并基于輕量級梯度提升機(jī)(light gradient boosting machine,LightGBM)、Bagging和Stacking 3種集成學(xué)習(xí)框架構(gòu)建玉米氣象單產(chǎn)預(yù)測模型,探究上述集成學(xué)習(xí)建模在提升預(yù)測玉米單產(chǎn)準(zhǔn)確性、可靠性和泛化性的具體表現(xiàn)和效果,以優(yōu)化種植管理措施并為預(yù)測玉米氣象單產(chǎn)提供高精度、高可靠性的方法。
近年來,我國氣候變化愈加頻繁,極端氣候事件頻發(fā)[28-30]。2022年夏季,我國南部和中西部12省份(安徽、福建、貴州、河南、湖北、湖南、江蘇、江西、陜西、四川、浙江和重慶)出現(xiàn)自1961年以來最強(qiáng)高溫和氣象干旱過程。這種極端高溫干旱天氣對于12省份的農(nóng)業(yè)生產(chǎn)造成了嚴(yán)重影響,且對農(nóng)業(yè)監(jiān)測預(yù)警和田間種植預(yù)防管理造成新的挑戰(zhàn)。因此,本文詳細(xì)調(diào)查了12省份氣象數(shù)據(jù)和玉米產(chǎn)量數(shù)據(jù),并在建立對玉米單產(chǎn)影響的特征集時(shí)也將高溫和氣象干旱指標(biāo)納入考量范圍。國家統(tǒng)計(jì)局?jǐn)?shù)據(jù)顯示,這12個省份2021年的玉米總產(chǎn)量從2003年的2 977萬噸增至2021年的5 847萬噸,增幅達(dá)96%。玉米是禾谷類作物中增產(chǎn)潛力最大的作物,南部12省份對于保障我國糧食安全具有重要作用。黃淮地區(qū)(安徽、河南和江蘇)地處29—38°N,是溫濕氣候與寒燥氣候的過渡地區(qū),在6—8月份,具有光照充足、溫度適宜、雨熱同季、降雨適中等特點(diǎn),適宜種植玉米;珠江流域(貴州、湖南、江西、福建)屬亞熱帶濕潤氣候,年均溫16—22 ℃,年降水1 000—2 000 mm,滿足玉米對溫度和雨養(yǎng)的需求,適宜玉米生長;長江流域(四川、重慶、湖北、湖南、江西、安徽、江蘇、浙江)地處亞熱帶濕潤氣候區(qū),氣候溫暖,雨量豐沛,中下游地區(qū)四季分明,冬冷夏熱,四川盆地氣候溫和。因此,本文基于12省份玉米主產(chǎn)區(qū)分布空間特點(diǎn)和氣候特點(diǎn),選取596個縣級(county-level)1980—2013年的玉米單產(chǎn)數(shù)據(jù)和中國氣象局對應(yīng)各個縣氣象觀測點(diǎn)為研究對象。
1.2.1 玉米和氣象數(shù)據(jù)收集與處理 玉米單產(chǎn)數(shù)據(jù)來源于農(nóng)業(yè)農(nóng)村部縣級數(shù)據(jù)庫,包括1980—2013年我國南部和中西部12省份596個主要玉米縣級產(chǎn)區(qū)。在處理玉米單產(chǎn)數(shù)據(jù)時(shí),運(yùn)用了農(nóng)學(xué)先驗(yàn)知識,以最大程度降低登記誤差對模型準(zhǔn)確性的影響。本文采用了1980—2013年596個玉米主產(chǎn)區(qū)氣象觀測點(diǎn)的日度氣象數(shù)據(jù),包括:平均溫度、日照時(shí)數(shù)和降雨量,氣象數(shù)據(jù)來源于中國氣象局。氣象觀測點(diǎn)的分布情況如圖1所示。
審圖號:GS京(2024)0204號
圖1 我國氣候帶分布、南部和中西部12個省份玉米種植縣域地理信息與氣象觀測點(diǎn)分布情況
Fig. 1 Distribution of climatic zones in China, geographic information and meteorological observation points of maize planting counties in 12 provinces of Southern and Central-Western China
本文使用的氣象數(shù)據(jù)插值方法為距離平方倒數(shù)法,是基于距離加權(quán)的移動平均方法[31]。通過這種方法,可以計(jì)算玉米氣象單產(chǎn)影響因素。具體為利用周圍網(wǎng)格點(diǎn)的氣象觀測站實(shí)際數(shù)據(jù),按照距離平方的倒數(shù)進(jìn)行插值計(jì)算,即:
式中,為網(wǎng)格處插得的氣象數(shù)據(jù),m為點(diǎn)周圍附近第個氣象觀測站的實(shí)測氣象數(shù)據(jù),為反距離權(quán)重函數(shù),冪參數(shù)在本研究中設(shè)為2。d為點(diǎn)到其周圍附近第個氣象觀測點(diǎn)的距離,為點(diǎn)周圍氣象觀測站的個數(shù)。
1.2.2 氣象指標(biāo)處理與計(jì)算 生長度日(growing degree days,GDD)指作物在生長季內(nèi)累積的有效積溫,可以作為衡量植物生長積累熱量的指標(biāo)。對于玉米生長發(fā)育來說,生長度日計(jì)算的基點(diǎn)溫度為10 ℃,最適溫度范圍上限為30 ℃[32-33],即:
式中,D為特定生育階段內(nèi)累計(jì)生長度日;t為玉米特定生育階段內(nèi)每天的生長度日;為以天為單位的步長(d);為玉米特定生育階段天數(shù)(d);T為日平均溫度(℃);T和T分別為玉米的基點(diǎn)溫度和最適溫度范圍的上限(℃),本文的T是10 ℃,T是30 ℃。
極熱天數(shù)(extreme heat days,EHD)表示高溫天氣出現(xiàn)的頻次。參考玉米生長與溫度關(guān)系相關(guān)研究,設(shè)定影響玉米生長的最高溫度閾值為35 ℃[34-36]。極熱天數(shù)由玉米生長季中最高溫度超過35 ℃的天數(shù)累計(jì)所得。以下為具體計(jì)算公式:
式中,D為生育期內(nèi)累計(jì)極熱天數(shù)(d);d為玉米特定生育階段內(nèi)某天是否記為極熱天數(shù)(d);T為日最高溫度(℃);T為影響玉米生長的最高溫度閾值(℃),本文T是35 ℃。下同。
極端生長度日(extreme growing degree days,EDD)是一種衡量作物生長過程中高溫嚴(yán)重程度的指標(biāo)。極端生長度日值越高,說明極端高溫發(fā)生的程度越嚴(yán)重。具體來說,求和玉米特定生育階段內(nèi)最高溫度超過35 ℃的天數(shù),可計(jì)算出該生育階段的極端生長度日,即:
式中,D為生育期內(nèi)累計(jì)極端生長度日,t為玉米特定生育階段內(nèi)每天的極端生長度日。
降雨日數(shù)(precipitation days,PD)是衡量降水情況的一種指標(biāo),與降水量等因素統(tǒng)籌結(jié)合時(shí),可以綜合評估玉米特定生育階段內(nèi)的氣象干旱情況。降雨日數(shù)的計(jì)算公式是指在玉米特定生育階段內(nèi),記錄到的降水量≥0.1 mm的日數(shù)即為降雨日數(shù),即:
式中,D為生育期內(nèi)累計(jì)降雨天數(shù)(d);d為玉米特定生育階段內(nèi)某天是否記為降雨天數(shù)(d);為日降雨量(mm);P為降雨日所必須監(jiān)測到的最小降雨量閾值(mm),本文的最小降雨量閾值是0.1 mm。
1.2.3 玉米生育階段氣象數(shù)據(jù)收集與處理 對玉米生育期的劃分方法參考Hanway[37],并且將玉米生長的地理因素、生長特性進(jìn)行統(tǒng)籌考慮[38]。同時(shí),本文對玉米的物候期進(jìn)行了重新分類,使各地區(qū)的生育期起始階段日期盡可能精確,便于模型的量化分析[39-41]。本文將玉米生育時(shí)期分為6個階段:第一階段-播種階段、第二階段-出苗階段、第三階段-拔節(jié)階段、第四階段-抽雄階段、第五階段-開花吐絲階段、第六階段-成熟階段。為符合物候?qū)W規(guī)律,在使用已有天氣數(shù)據(jù)的同時(shí),需保證所選用的預(yù)測變量個數(shù)適合,對涉及到的日照時(shí)數(shù)、降雨量和平均溫度等氣象數(shù)據(jù)以圖2生育期表格為依據(jù),以生育期為單位進(jìn)行均值化處理。具體本文模型所用玉米各生育階段氣象因素信息參照圖2。
1.2.4 縣級玉米趨勢單產(chǎn)和氣象單產(chǎn)模型建立方法 作物單產(chǎn)受多種復(fù)雜因素影響,包括外部環(huán)境和內(nèi)部基因[42-43]。為精確研究氣候?qū)ψ魑锂a(chǎn)量的影響,作物單產(chǎn)可分為趨勢單產(chǎn)和氣象單產(chǎn)[44]。玉米產(chǎn)量研究可從趨勢產(chǎn)量和氣象產(chǎn)量兩方面展開。趨勢產(chǎn)量是穩(wěn)定的長期趨勢,受農(nóng)業(yè)生產(chǎn)技術(shù)、種質(zhì)水平、科技水平、農(nóng)機(jī)投入、人力投入、農(nóng)藥化肥投入等多種因素影響;氣候產(chǎn)量則是波動的短期趨勢,受氣候因素影響,具體玉米單產(chǎn)公式如下:
圖2 12個省的玉米各生育階段具體日期劃分示意圖
式中,Y為玉米單產(chǎn);()為玉米趨勢單產(chǎn),為高斯白噪聲,幅度服從高斯分布;為特定某一年;M為玉米特定生育期間的氣象因素,是氣象因素,包括平均溫度、降雨量和日照時(shí)數(shù);為玉米的某一生育階段;(M)為玉米不同生育階段自變量氣象因素與因變量氣象單產(chǎn)的關(guān)系函數(shù)。
建立合適的氣象單產(chǎn)模型對模型預(yù)測精度至關(guān)重要[45]。為解決不同地區(qū)應(yīng)用不同趨勢單產(chǎn)擬合方法的問題,本文采用HP濾波法、邏輯回歸法、移動平均法和指數(shù)平滑法4種回歸模型建立玉米趨勢單產(chǎn)。HP濾波法是一種時(shí)間序列分解方法,假設(shè)時(shí)間序列由長期趨勢和短期波動組成,其能分離特定周期下的高頻成分[46-47]。邏輯回歸模型能較好地?cái)M合時(shí)間序列長期增長趨勢[48-49]。移動平均法適用于具有明顯負(fù)荷變化趨勢的數(shù)據(jù)序列,通過移動平均值消除偶然變動因素,找出發(fā)展趨勢[50-51]。本研究采用3年間隔移動平均法建立趨勢單產(chǎn)模型。指數(shù)平滑法是一種時(shí)間序列分析預(yù)測模型,適用于含有線性趨勢和周期波動的非平穩(wěn)序列,讓模型參數(shù)適應(yīng)非平穩(wěn)序列的變化[52-53]。玉米受內(nèi)在因素和外在因素交叉影響,且趨勢單產(chǎn)呈較為穩(wěn)定、長期、循序漸進(jìn)的趨勢,而氣象單產(chǎn)呈波動、敏感、短期的趨勢。因此上述4種模型適用于建立玉米趨勢單產(chǎn)。
為解決不同縣域需篩選最優(yōu)趨勢單產(chǎn)擬合模型的問題,需從4種趨勢單產(chǎn)模型中選擇最適合的模型描述各縣趨勢單產(chǎn)??紤]到同一氣候區(qū)域氣候相似特性,同一區(qū)域或鄰近區(qū)域玉米的氣象產(chǎn)量應(yīng)具有相似變化特征[54-55],利用檢驗(yàn)和調(diào)整決定系數(shù)(adjusted2)篩選合適的縣域玉米趨勢產(chǎn)量模型[56-57],其公式為:
式中,2是調(diào)整決定系數(shù);2是決定系數(shù);為數(shù)據(jù)樣本中的數(shù)據(jù)點(diǎn)數(shù)量;為獨(dú)立回歸變量的數(shù)量,即模型中的變量數(shù)量,不包括常數(shù)項(xiàng)。
綜合考慮4種趨勢單產(chǎn)方法得到的相應(yīng)氣象單產(chǎn)區(qū)域平均值及標(biāo)準(zhǔn)差序列、調(diào)整決定系數(shù)、玉米單產(chǎn)與氣象因素之間的相關(guān)系數(shù)來評估回歸模型的優(yōu)劣,確保模型方法的科學(xué)性和合理性。
最后,用確定的縣域趨勢單產(chǎn)模型擬合出歷年趨勢單產(chǎn),再用歷年真實(shí)單產(chǎn)減去趨勢單產(chǎn)即為對應(yīng)年份的氣候單產(chǎn)[58]。
1.2.5 玉米氣象單產(chǎn)集成學(xué)習(xí)預(yù)測模型 Bagging(bootstrap aggregating)是一種集成學(xué)習(xí)方法(圖3),利用自助采樣(bootstrap sampling)生成多個訓(xùn)練子集,然后訓(xùn)練多個基學(xué)習(xí)器并進(jìn)行結(jié)果融合[59-60],其能有效降低玉米氣象單產(chǎn)集成學(xué)習(xí)預(yù)測模型的方差,提高模型的泛化能力。套索回歸(least absolute shrinkage and selection operator,Lasso)是一種線性回歸方法,優(yōu)勢是在正則化和特征選擇方面表現(xiàn)突出[61-62]。Lasso在基于線性回歸模型的目標(biāo)函數(shù)J(w)基礎(chǔ)上,添加1個模型復(fù)雜度函數(shù),構(gòu)造1個新懲罰目標(biāo)函數(shù),求新目標(biāo)函數(shù)的最值(最大值或最小值)得到參數(shù)估計(jì)值。Lasso回歸模型的目標(biāo)函數(shù)為:
()=()+() (13)
式中,()為可微凸函數(shù);()為誤差平方和;()為懲罰項(xiàng)。
將Lasso方法應(yīng)用于Bagging模型的過程分為3步:(1)通過自助采樣生成多個訓(xùn)練子集;(2)對每個訓(xùn)練子集使用Lasso方法訓(xùn)練得到一個稀疏線性回歸模型;(3)將所有基學(xué)習(xí)器的預(yù)測結(jié)果用平均法進(jìn)行融合。這種組合可以充分利用Lasso方法在特征選擇和稀疏解上的優(yōu)勢,同時(shí)通過Bagging模型降低模型的方差,提高模型的泛化能力。
圖3 玉米氣象單產(chǎn)Bagging集成學(xué)習(xí)預(yù)測模型框架
輕量級梯度提升機(jī)(LightGBM)是一種高效的集成學(xué)習(xí)方法,采用基于梯度提升(gradient boosting)的決策樹算法[63-64]。LightGBM在訓(xùn)練過程中具有較低的內(nèi)存消耗和計(jì)算復(fù)雜度,因此,在處理玉米大規(guī)模氣象因素特征集上表現(xiàn)出較高的性能。LightGBM玉米氣象單產(chǎn)集成學(xué)習(xí)預(yù)測模型(圖4)使用的決策樹方法分為5步:(1)初始化模型并迭代訓(xùn)練多個決策樹,每棵樹擬合前一棵樹的殘差;(2)在每次迭代中,利用梯度信息選擇最佳的分割特征和分割點(diǎn),以降低損失函數(shù);(3)用直方圖優(yōu)化法加速特征分割計(jì)算過程;(4)使用帶深度限制的Leaf-wise葉子生長策略構(gòu)建樹,可以減少過擬合風(fēng)險(xiǎn),同時(shí)提高模型泛化能力;(5)結(jié)合所有決策樹的預(yù)測結(jié)果,得到最終預(yù)測輸出。綜上所述,LightGBM玉米高溫干旱集成學(xué)習(xí)氣象單產(chǎn)預(yù)測模型通過引入決策樹算法和梯度提升方法,以及一系列優(yōu)化技術(shù),實(shí)現(xiàn)了高效、可擴(kuò)展的集成學(xué)習(xí)模型,符合玉米大規(guī)模氣象數(shù)據(jù)集和高維特征空間的切實(shí)需要。
圖4 玉米氣象單產(chǎn)LightGBM集成學(xué)習(xí)預(yù)測模型框架
本文提出的玉米氣象單產(chǎn)堆棧(Stacking)集成學(xué)習(xí)預(yù)測模型的框架如圖5所示。Stacking是一種通過元模型將多個基模型(base-model)進(jìn)行組合的集成策略,其實(shí)質(zhì)是一種串行結(jié)構(gòu)的多層學(xué)習(xí)系統(tǒng)[65-66]。不同于傳統(tǒng)集成框架引導(dǎo)聚類算法(bagging)和提升方法(boosting),Stacking框架是將BP神經(jīng)網(wǎng)絡(luò)、Lasso、LightGBM和Bagging這4個基學(xué)習(xí)器組合起來進(jìn)行模型融合。Stacking算法前期使用5折交叉驗(yàn)證的方法把原始特征轉(zhuǎn)換為二級特征,然后再對變換得到的二級特征運(yùn)用元學(xué)習(xí)器進(jìn)行常規(guī)訓(xùn)練和擬合。
訓(xùn)練過程:(1)利用Stacking集成學(xué)習(xí)方法調(diào)用BP神經(jīng)網(wǎng)絡(luò)、Lasso、LightGBM和Bagging這4種類型的學(xué)習(xí)器對數(shù)據(jù)集進(jìn)行訓(xùn)練學(xué)習(xí);(2)將各分類器得到的訓(xùn)練結(jié)果組成一個新的訓(xùn)練樣例輸入嶺回歸這一元學(xué)習(xí)器;(3)第二層模型中元學(xué)習(xí)器的輸出值為最終的輸出結(jié)果。
1.2.6 變量篩選和特征重要性 本文選取27個變量作為特征集,特征集包括玉米6個生育階段的平均氣溫、日照時(shí)數(shù)和降雨量3個氣象因素共18個變量;和極端生長度日、極熱天數(shù)、一般生長度日以及降雨日數(shù)這4個氣象指標(biāo)。此外,還選取受氣候影響的前5年氣候單產(chǎn)作為5個特征。假設(shè)預(yù)測2024年玉米單產(chǎn),那么前5年氣候單產(chǎn)是2019—2023年的氣候單產(chǎn)。
圖5 玉米氣象單產(chǎn)堆棧集成學(xué)習(xí)預(yù)測模型框架
同時(shí),為避免量綱對預(yù)測結(jié)果的影響,采用z-score標(biāo)準(zhǔn)化方法對特征集進(jìn)行標(biāo)準(zhǔn)化處理,公式為:
式中,為z-score值,為個體的觀測值,為總體數(shù)據(jù)的標(biāo)準(zhǔn)差,為總體數(shù)據(jù)的均值。
探究各生育階段與高溫干旱氣象指標(biāo)對玉米單產(chǎn)的影響對于量化分析玉米生產(chǎn)與田間管理至關(guān)重要?;诠?jié)點(diǎn)純度的特征重要性可以通過隨機(jī)森林特征重要性的屬性來獲取。這個屬性返回一個數(shù)組,其中包含每個特征的重要性得分[67-68]。此得分能夠表示特征對模型整體性能的貢獻(xiàn)程度,越大表示越重要。首先,可以使用隨機(jī)森林算法計(jì)算每個氣象因素變量的重要性得分。通過訓(xùn)練一個隨機(jī)森林回歸模型,并使用特征重要性獲取每個變量重要性評分(variable importance measures,VIM),得分排名可以評估出玉米各生育階段氣象因素和指標(biāo)對于單產(chǎn)的貢獻(xiàn)和影響程度。
1.2.7 評價(jià)指標(biāo) 采用決定系數(shù)(coefficient of determination,2)、均方根誤差(root mean square error,RMSE)、平均絕對誤差(mean absolute error,MAE)和平均絕對百分比誤差(mean absolute percentage error,MAPE)4個指標(biāo)評價(jià)預(yù)測方法的精度。其中,決定系數(shù)越接近1表示所擬合的回歸方程越好,模型預(yù)測能力越強(qiáng);RMSE評價(jià)預(yù)測值和實(shí)測值的離散程度,越接近0說明模型預(yù)測越準(zhǔn)確。MAE能更好地反映估測值誤差的實(shí)際情況,越接近0說明模型越精確。MAPE評價(jià)預(yù)測值和實(shí)測值之間相對誤差的平均值,更能直觀反映出預(yù)測結(jié)果與真實(shí)值之間的差距,越接近0說明模型越準(zhǔn)確。
通過上文縣域玉米趨勢單產(chǎn)確定方法計(jì)算得到我國南部和中西部12省份主要玉米種植區(qū)域?qū)?yīng)596縣的趨勢單產(chǎn)模型。由圖6可以看出各玉米生產(chǎn)縣因地理環(huán)境和氣候變化的差異性、豐歉年發(fā)生情況等造成不同縣采用不同趨勢單產(chǎn)擬合方法的特點(diǎn)。從總體數(shù)量看,最多的縣應(yīng)用三點(diǎn)移動平均法來擬合趨勢產(chǎn)量,其泛化性最強(qiáng);其次是HP濾波法,主要集中在河南、安徽和陜西3省。沒有縣域是應(yīng)用邏輯回歸法和指數(shù)平滑法的,說明上述兩種模型方法并不適用于本文樣本數(shù)據(jù)。從擬合優(yōu)度的角度來看,三點(diǎn)移動平均法和HP濾波法均能較好地?cái)M合出趨勢,但三點(diǎn)移動平均法的決定系數(shù)2明顯優(yōu)于HP濾波法,且大部分集中在0.8以上,表明三點(diǎn)移動平均法在所應(yīng)用的縣域能更好地?cái)M合出玉米的趨勢單產(chǎn)。通過氣候單產(chǎn)模型決策系統(tǒng)從上述4種趨勢產(chǎn)量模型篩選出各縣級地區(qū)適用性和合理性最好的趨勢產(chǎn)量模型,能夠從各縣玉米單產(chǎn)中有效分離出玉米氣候單產(chǎn)。
審圖號:GS京(2024)0204號
圖6 12省份各縣域趨勢單產(chǎn)模型示意圖
Fig. 6 Schematic diagram of county-level trend yield models in 12 provinces
基于隨機(jī)森林特征重要性評分,圖7、圖8表明了12省596縣34年跨度中玉米各生育階段氣象因素對單產(chǎn)的重要性。由圖7可以看出,開花吐絲期平均溫度的特征重要性值(FI value)>0.05,且在河南和安徽省的超過0.20,這是因?yàn)殚_花吐絲期是玉米對溫度最敏感的時(shí)期,由于光合作用對溫度極其敏感,且不當(dāng)溫度將影響玉米結(jié)實(shí)率[69-70]。除開花吐絲期平均溫度外,拔節(jié)期降雨量的特征重要性值也>0.05,重慶、陜西、江蘇地區(qū)甚至>0.10,說明玉米拔節(jié)期是需水臨界點(diǎn),多雨可能造成田間濕度過大,根系缺氧,影響單產(chǎn);少雨或干旱則直接造成莖稈伸長增粗不利,影響生長[71-73]。
本文訓(xùn)練和驗(yàn)證了3種集成學(xué)習(xí)預(yù)測模型(Bagging、Stacking和LightGBM)和2種單一模型(BP神經(jīng)網(wǎng)絡(luò)和LASSO)的具體表現(xiàn)。為了最大限度地檢驗(yàn)各模型的預(yù)測效果,采用5年滑動預(yù)測方法,即利用1980—2013年數(shù)據(jù)時(shí),第一次預(yù)測中1980—2008年數(shù)據(jù)為訓(xùn)練集,2009年為測試集。同理,第二次預(yù)測中1980—2009年數(shù)據(jù)為訓(xùn)練集,2010年為測試集;以此類推,一直預(yù)測到以2013年為止。此方法相較于1次劃分訓(xùn)練集、測試集方法,可提高數(shù)據(jù)利用效率,更能檢驗(yàn)?zāi)P皖A(yù)測效果。表1展示了5種模型分別對12個省份5年滑動預(yù)測的具體評價(jià)指標(biāo)。由表1可以看出,12省中單一機(jī)器學(xué)習(xí)模型LASSO和BP神經(jīng)網(wǎng)絡(luò)與其他集成學(xué)習(xí)模型在MAPE、RMSE、MAE和2這4個指標(biāo)上表現(xiàn)差距不大,說明LASSO這種具有特征選擇優(yōu)勢的回歸模型及BP神經(jīng)網(wǎng)絡(luò)這種局部搜索優(yōu)化模型較適用于解決氣象與單產(chǎn)之間復(fù)雜非線性影響關(guān)系的預(yù)測問題,可以作為堆棧集成學(xué)習(xí)模型的基模型。除安徽和河南省外,LightGBM模型在2009—2013年訓(xùn)練集上4項(xiàng)指標(biāo)均遜色于Stacking和Bagging集成學(xué)習(xí)模型,這是由于Stacking和Bagging能夠更好地捕捉氣象因素與單產(chǎn)之間非線性關(guān)系和在降低方差及提高預(yù)測精度方面具有理想的表現(xiàn)。
圖7 12省玉米氣象因素特征重要性評分柱狀圖
為全面檢驗(yàn)BP神經(jīng)網(wǎng)絡(luò)、LASSO、LightGBM、Bagging、Stacking模型對各縣域玉米單產(chǎn)的預(yù)測精度,分別用每個模型對596個縣域進(jìn)行5年滑動預(yù)測,并以MAPE指標(biāo)權(quán)衡各模型的表現(xiàn)情況,結(jié)果如圖9所示。除LightGBM在四川中西部地區(qū)預(yù)測結(jié)果與其他4種模型有差距外,5個模型對各縣的整體MAPE預(yù)測值基本趨近。除安徽、貴州、河南西部和江西中部區(qū)域,5種模型的MAPE值大部分集中在綠色至淺黃色色段(MAPE值6%以下)。集成學(xué)習(xí)模型中,在處理河南、安徽局部地區(qū)時(shí)LightGBM和stacking表現(xiàn)優(yōu)于bagging,表明二者善于處理非線性、小樣本和高維度等回歸問題,且在預(yù)測玉米氣象單產(chǎn)問題時(shí)有更高的預(yù)測精度和魯棒性。在處理四川西部地區(qū)時(shí),stacking模型比LightGBM的MAPE值更低。在貴州省,5個模型對該地區(qū)的估測能力普遍差于長江、淮海和珠江流域,原因在于貴州省以山地農(nóng)業(yè)為主,耕地空間呈現(xiàn)出塊多、面小、分布零散和明顯的垂直帶性分異等特征,相比其他地區(qū)更容易受到山體滑坡等其他非氣象因素的制約與影響,且玉米種植受人為因素影響程度高,因此氣象因素對玉米單產(chǎn)的影響被弱化。
為驗(yàn)證模型的性能,將3種基于氣象數(shù)據(jù)的玉米氣象單產(chǎn)集成學(xué)習(xí)預(yù)測模型與各單一機(jī)器學(xué)習(xí)模型進(jìn)行比較。通過對596個縣分別進(jìn)行2009—2013年的玉米單產(chǎn)滑動估測,5種模型對玉米單產(chǎn)估測的評價(jià)指標(biāo)對比如表2所示。Stacking在平均絕對百分比誤差值(MAPE)上表現(xiàn)最好,為4.60%,比LASSO、BP神經(jīng)網(wǎng)絡(luò)、Bagging和LightGBM分別降低0.40%、0.42%、0.35%和0.37%,平均降低0.39%。Stacking均方根誤差(RMSE)為326.14 kg·hm-2,比LASSO、BP神經(jīng)網(wǎng)絡(luò)、Bagging和LightGBM分別降低17.10、18.98、16.28和21.95 kg·hm-2,平均降低18.58 kg·hm-2。Stacking平均絕對誤差(MAE)為208.51 kg·hm-2,比LASSO、Bagging、LightGBM和BP神經(jīng)網(wǎng)絡(luò)分別降低19.66、18.58、15.39和22.11 kg·hm-2,平均降低18.94 kg·hm-2。
圖8 12省氣象因素特征重要性熱力圖
基于3種集成學(xué)習(xí)的玉米氣象單產(chǎn)預(yù)測模型逐縣預(yù)測2009—2013年中國12省玉米主產(chǎn)區(qū)單產(chǎn),并逐縣統(tǒng)計(jì)玉米預(yù)測單產(chǎn)(圖10)。2009—2013年玉米估測單產(chǎn)差異不大,河南東部、江蘇北部、關(guān)中、四川東部部分地區(qū)玉米單產(chǎn)在6 500 kg·hm-2以上。2009年以后,12省絕大部分地區(qū)展現(xiàn)出玉米單產(chǎn)逐年上升的趨勢,符合科技投入水平提高、種質(zhì)提升等趨勢方向。
根據(jù)12省各縣域趨勢單產(chǎn)模型示意圖(圖6)所示,移動平均法、HP濾波法相較于指數(shù)平滑法和邏輯回歸法可以更有效地分離玉米氣象單產(chǎn)數(shù)據(jù),為提高基于氣象因素的玉米單產(chǎn)預(yù)測模型提供了有力支撐[74]。適用HP濾波法的縣域主要集中在陜西、河南、江蘇和安徽地區(qū)。更多縣域適用移動平均法,且相較于HP濾波法更多縣域2分布于0.8以上。通過上述方法,可從玉米單產(chǎn)中分離出合適的氣象單產(chǎn),有助于更準(zhǔn)確地預(yù)測作物氣象單產(chǎn),并為農(nóng)業(yè)生產(chǎn)和監(jiān)測預(yù)警提供有力支持。
本文采用隨機(jī)森林特征重要性方法,利用玉米各生育階段氣象因素對玉米單產(chǎn)的特征重要性值(FI值)進(jìn)行了定量分析,并構(gòu)建了基于氣象因素的玉米集成學(xué)習(xí)單產(chǎn)預(yù)測模型,對田間管理和產(chǎn)量監(jiān)測預(yù)警提供了參考。通過圖7和圖8可以看到各生育階段氣象因素對玉米單產(chǎn)的重要性評分。圖7顯示,開花吐絲期平均溫度的FI值>0.05,而在河南和安徽省,這一值甚至超過0.20。這是由于開花吐絲期是玉米對溫度最敏感的階段,不適宜的溫度影響玉米的結(jié)實(shí)率。另外,拔節(jié)期降雨量的FI值也>0.05,在重慶、陜西、江蘇等地區(qū)甚至超過0.10,這說明拔節(jié)期是玉米對水分需求的關(guān)鍵階段,過多或過少均會影響玉米的生長。這些玉米單產(chǎn)影響因素的定量分析結(jié)果對田間管理具有參考價(jià)值。通過對玉米各生育階段氣象因素進(jìn)行特征重要性定量分析,農(nóng)業(yè)管理者和決策者可以更準(zhǔn)確地了解哪些因素對作物產(chǎn)量重要性最大,從而制定針對性的農(nóng)業(yè)政策和管理措施,提高作物產(chǎn)量,并通過監(jiān)測預(yù)警為農(nóng)業(yè)生產(chǎn)者提供針對性建議,降低各階段氣象災(zāi)害對作物的影響。
表1 12省份596縣5種玉米氣象單產(chǎn)預(yù)測模型5年滑動平均預(yù)測指標(biāo)評價(jià)
續(xù)表1 Continued table 1
審圖號:GS京(2024)0204號
圖9 596個縣級行政區(qū)玉米單產(chǎn)5年滑動估測的MAPE精度評價(jià)
Fig. 9 MAPE accuracy evaluation of 5-year sliding estimation of maize yield in 596 county-level administrative regions
審圖號:GS京(2024)0204號
圖10 596縣集成預(yù)測模型預(yù)測單產(chǎn)5年時(shí)空變化規(guī)律示意圖
Fig. 10 Schematic diagram of the 5-year spatiotemporal variation pattern in predicted yield by the ensemble prediction model in 596 counties
表2 單一模型與3個集成學(xué)習(xí)模型在5年移動預(yù)測中的比較
基于表1、表2和圖9的結(jié)果,相比于LightGBM和Bagging集成學(xué)習(xí)模型,Stacking模型在2、MAPE、MAE和RMSE指標(biāo)上均優(yōu)于前兩者。通過5年滑動預(yù)測596個縣分別驗(yàn)證LightGBM、Bagging和Stacking模型,三者對玉米單產(chǎn)的MAPE指標(biāo)均低于6%。Stacking模型在中國12省596個縣的MAPE值達(dá)到4.60%,預(yù)測精度高,泛化性強(qiáng)。Stacking模型是本研究涉及模型與樣本中的優(yōu)選模型。本文首次論證了Stacking模型相較于其他集成學(xué)習(xí)算法和單一模型可以提高基于氣象因素的玉米單產(chǎn)估測精度;將集成學(xué)習(xí)模型獨(dú)立應(yīng)用在596個縣域行政區(qū),均取得了較好的估測效果,證明集成學(xué)習(xí)模型在估測玉米單產(chǎn)時(shí)具有泛化性強(qiáng)和精度高的特點(diǎn)[75]。
結(jié)合表2和圖10所示數(shù)據(jù),表明3種集成學(xué)習(xí)方法預(yù)測結(jié)果與中國農(nóng)業(yè)農(nóng)村部數(shù)據(jù)庫玉米單產(chǎn)數(shù)據(jù)真實(shí)值的MAPE值<5%,進(jìn)一步說明集成學(xué)習(xí)模型在估測區(qū)域玉米單產(chǎn)方面的準(zhǔn)確性和實(shí)用性。Stacking的估測效果優(yōu)于其他模型,泛化能力較強(qiáng),具有更高的預(yù)測精度。對比表2結(jié)果表明,Stacking模型能有效利用基學(xué)習(xí)器的特點(diǎn)與優(yōu)勢,有效提升預(yù)測精度,是根據(jù)氣象因素預(yù)測玉米單產(chǎn)的最優(yōu)模型。
綜上所述,在不同氣候帶類型、經(jīng)緯度跨度較大的玉米主產(chǎn)區(qū),本研究應(yīng)用的集成學(xué)習(xí)模型基于大量歷史氣象數(shù)據(jù)和已知作物生育法則來分析氣象相關(guān)因素與作物單產(chǎn)之間的關(guān)系,并取得了較好的實(shí)際效果。筆者認(rèn)為,這一方法同樣適用于監(jiān)測和預(yù)測小麥、水稻等作物的單產(chǎn)。本文提出方法的意義在于,基于氣象因素的單產(chǎn)估測集成學(xué)習(xí)模型不僅可以提升玉米單產(chǎn)的預(yù)測精度,隨著年份的增加、日度氣象數(shù)據(jù)的增多,模型的精度和適用性將會提升[76-77]。在未來,可以從豐富特征集、利用多模態(tài)模型建模等方面來開展研究。
通過確定差異化的縣域趨勢單產(chǎn)分離出合適的氣象單產(chǎn)數(shù)據(jù),構(gòu)建了3種分別以bagging、stacking和lightGBM為基礎(chǔ)基于氣象因素的玉米單產(chǎn)集成預(yù)測模型,實(shí)現(xiàn)了對玉米單產(chǎn)的準(zhǔn)確估算,并得到了對應(yīng)的596個縣的玉米單產(chǎn)時(shí)空分布圖。3種集成學(xué)習(xí)框架尤其是堆棧集成學(xué)習(xí)模型(stacking)預(yù)測結(jié)果具有高可行性與有效性。玉米氣象單產(chǎn)堆棧集成學(xué)習(xí)預(yù)測模型能夠較好地預(yù)測玉米單產(chǎn)情況,為玉米單產(chǎn)估測提供了新方法。
[1] EGERER S, PUENTE A F, PEICHL M, RAKOVEC O, SAMANIEGO L, SCHNEIDER U A. Limited potential of irrigation to prevent potato yield losses in Germany under climate change. Agricultural Systems, 2023, 207: 103633.
[2] ZHANG Z Y, LI Y, CHEN X G, WANG, Y Z, NIU B, LIU D L, HE J Q, PULATOV B, HASSAN I, MENG Q T. Impact of climate change and planting date shifts on growth and yields of double cropping rice in southeastern China in future. Agricultural Systems, 2023, 205: 103581.
[3] KIKSTRA J S, NICHOLLS Z R J, SMITH C J, LEWIS J, LAMBOLL R D, BYERS E, SANDSTAD M, MEINSHAUSEN M, GIDDEN M J, ROGELJ J,. The IPCC sixth assessment report WGIII climate assessment of mitigation pathways: from emissions to global temperatures. Geoscientific Model Development, 2022, 15(24): 9075-9109.
[4] SCHENUIT F. Staging science: Dramaturgical politics of the IPCC’s special report on 1.5 ℃. Environmental Science and Policy, 2023, 139: 166-176.
[5] WEI W Y, KASHAGAN K, LI L H. Sensitivities of wheat and maize productivity in Kazakhstan to future climate change scenarios. International Journal of Plant Production, 2022, 16(3): 365-383.
[6] PALACIOS-ROJAS N, MCCULLEY L, KAEPPLER M, TITCOMB T J, GUNARATNA N S, LOPEZ-RIDAURA S, TANUMIHARDJO S A. Mining maize diversity and improving its nutritional aspects within agro-food systems. Comprehensive Reviews in Food Science and Food Safety, 2020, 19(4): 1809-1834.
[7] BAI Y Y, ZHANG T Z, ZHAI Y J, SHEN X X, MA X T, ZHANG R R, JI C X, HONG J L. Water footprint coupled economic impact assessment for maize production in China. Science of the Total Environment, 2021, 752: 141963.
[8] WANG Z Q, LUO H L, YANG S. Different mechanisms for the extremely hot central-eastern China in July-August 2022 from a Eurasian large-scale circulation perspective. Environmental Research Letters, 2023, 18(2): 024023.
[9] QIN Y, QIN Y J, SHEN Y C, LI Y H, XIANG B. Numerical study on the effects of intraseasonal oscillations for a persistent drought and hot event in South China summer 2022. Remote Sensing, 2023, 15(4): 892.
[10] ZHAO C, LIU B, PIAO S, WANG X H, LOBELL D B, HUANG Y, HUANG M, YAO Y T, BASSU S, CIAIS P,. Temperature increase reduces global yields of major crops in four independent estimates. Proceedings of the National Academy of Sciences of the United States of America, 2017, 114(35): 9326-9331.
[11] BAIO F H R, SANTANA D C, TEODORO L P R, DE OLIVEIRA I C, GAVA R, DE OLIVEIRA J L G, DA SILVA C A, TEODORO P E, SHIRATSUCHI L S. Maize yield prediction with machine learning, spectral variables and irrigation management. Remote Sensing, 2022, 15(1): 79.
[12] MAITAH M, MALEC K, GE Y, GEBELTOVA Z, SMUTKA L, BLAZEK V, PANKOVA L, MAITAH K, MACH J. Assessment and prediction of maize production considering climate change by extreme learning machine in Czechia. Agronomy, 2021, 11(11): 2344.
[13] CHEN X X, FENG L, YAO R, WU X J, SUN J, GONG W. Prediction of maize yield at the city level in China using multi-source data. Remote Sensing, 2021, 13(1): 146.
[14] 陳志君, 朱振闖, 孫仕軍, 王秋瑤, 蘇通宇, 付玉娟. Stacking集成模型模擬膜下滴灌玉米逐日蒸散量和作物系數(shù). 農(nóng)業(yè)工程學(xué)報(bào), 2021, 37(5): 95-104.
CHEN Z J, ZHU Z C, SUN S J, WANG Q Y, SU T Y, FU Y J. Estimation of daily evapotranspiration and crop coefficient of maize under mulched drip irrigation by Stacking ensemble learning model. Transactions of the Chinese Society of Agricultural Engineering, 2021, 37(5): 95-104. (in Chinese)
[15] ELBELTAGI A, SRIVASTAVA A, KUSHWAHA N L, JUHASZ C, TAMAS J, NAGY A. Meteorological data fusion approach for modeling crop water productivity based on ensemble machine learning. Water, 2022, 15(1): 30.
[16] CHENG Q, XU H G, FEI S P, LI Z P, CHEN Z. Estimation of maize LAI using ensemble learning and UAV multispectral imagery under different water and fertilizer treatments. Agriculture, 2022, 12(8): 1267.
[17] 張杰, 徐波, 馮海寬, 競霞, 王嬌嬌, 明世康, 傅友強(qiáng), 宋曉宇. 基于集成學(xué)習(xí)的水稻氮素營養(yǎng)及籽粒蛋白含量監(jiān)測. 光譜學(xué)與光譜分析, 2022, 42(6): 1956-1964.
ZHANG J, XU B, FENG H K, JING X, WANG J J, MING S K, FU Y Q, SONG X Y. Monitoring nitrogen nutrition and grain protein content of rice based on ensemble learning. Spectroscopy and Spectral Analysis, 2022, 42(6): 1956-1964. (in Chinese)
[18] ZHAO W, ZHAO X N, LUO B, BAI W W, KANG K, HOU P C, ZHANG H. Identification of wheat seed endosperm texture using hyperspectral imaging combined with an ensemble learning model. Journal of Food Composition and Analysis, 2023, 121: 105398.
[19] AL-GAASHANI M S A M, SHANG F J, ABD EL-LATIF A A. Ensemble learning of lightweight deep convolutional neural networks for crop disease image detection. Journal of Circuits, Systems and Computers, 2023, 32(5): 2350086.
[20] 侯志松, 冀金泉, 李國厚, 焦紅偉, 王良. 集成學(xué)習(xí)與遷移學(xué)習(xí)的作物病害圖像識別算法. 中國科技論文, 2021, 16(7): 708-714.
HOU Z S, JI J Q, LI G H, JIAO H W, WANG L. Crop disease image recognition algorithm based on ensemble learning and transfer learning. China Sciencepaper, 2021, 16(7): 708-714. (in Chinese)
[21] 史飛飛, 高小紅, 肖建設(shè), 李宏達(dá), 李潤祥, 張昊. 基于集成學(xué)習(xí)和多時(shí)相遙感影像的枸杞種植區(qū)分類. 自然資源遙感, 2022, 34(1): 115-126.
SHI F F, GAO X H, XIAO J S, LI H D, LI R X, ZHANG H. Classification of wolfberry planting areas based on ensemble learning and multi-temporal remote sensing images. Remote Sensing for Natural Resources, 2022, 34(1): 115-126. (in Chinese)
[22] DAS A, KUMAR M, KUSHWAHA A, DAVE R, DAKHORE K K, CHAUDHARI K, BHATTACHARYA B K. Machine learning model ensemble for predicting sugarcane yield through synergy of optical and SAR remote sensing. Remote Sensing Applications: Society and Environment, 2023, 30: 100962.
[23] OLOFINTUYI S S, OLAJUBU E A, OLANIKE D. An ensemble deep learning approach for predicting cocoa yield. Heliyon, 2023, 9(4): e15245.
[24] FEI S P, HASSAN M A, HE Z H, CHEN Z, SHU M Y, WANG J K, LI C C, XIAO Y G. Assessment of ensemble learning to predict wheat grain yield based on UAV-multispectral reflectance. Remote Sensing, 2021, 13(12): 2338.
[25] LI Z P, CHEN Z, CHENG Q, DUAN F Y, SUI R X, HUANG X Q, XU H G. UAV-based hyperspectral and ensemble machine learning for predicting yield in winter wheat. Agronomy, 2022, 12(1): 202.
[26] DHILLON J S, RAUN W R. Effect of topdress nitrogen rates applied based on growing degree days on winter wheat grain yield. Agronomy Journal, 2020, 112(4): 3114-3128.
[27] SONG Y L, WANG C Y, LINDERHOLM H W, FU Y, CAI W Y, XU J X, ZHUANG L W, WU M X, SHI Y X, WANG G F, CHEN D L. The negative impact of increasing temperatures on rice yields in southern China. Science of the total environment, 2022, 820: 153262.
[28] LI S, WEI F L, WANG Z, SHEN J S, LIANG Z, WANG H, LI S C. Spatial heterogeneity and complexity of the impact of extreme climate on vegetation in China. Sustainability, 2021, 13(10): 5748.
[29] Yu X Y, Ma Y Y. Spatial and temporal analysis of extreme climate events over Northeast China. Atmosphere, 2022, 13(8): 1197.
[30] XIAO D P, BAI H Z, LIU D L, TANG J Z, WANG B, SHEN Y J, CAO J S, FENG P Y. Projecting future changes in extreme climate for maize production in the North China Plain and the role of adjusting the sowing date. Mitigation and Adaptation Strategies for Global Change, 2022, 27(3): 21.
[31] WANG S, LIM T H, OH K, SEO C, CHOO H. Prediction of wide range two-dimensional refractivity using an IDW interpolation method from high-altitude refractivity data of multiple meteorological observatories. Applied Sciences, 2021, 11(4): 1431.
[32] SIATWIINDA S M, SUPIT I, VAN HOVE B, YEROKUN O, ROS G H, DE VRIES W. Climate change impacts on rainfed maize yields in Zambia under conventional and optimized crop management. Climatic Change, 2021, 167: 1-23.
[33] WANG X Y, ZHANG X H, YANG M X, GOU X N, LIU B B, HAO Y C, XU S T, XUE J Q, QIN X L, SIDDIQUE K H M. Multi-site evaluation of accumulated temperature and rainfall for maize yield and disease in Loess Plateau. Agriculture, 2021, 11(4): 373.
[34] HATFIELD J L, PRUEGER J H. Temperature extremes: Effect on plant growth and development. Weather and Climate Extremes, 2015, 10: 4-10.
[35] WAQAS M A, WANG X K, ZAFAR S A, NOOR M A, HUSSAIN H A, NAWAZ M A, FAROOQ M. Thermal stresses in maize: Effects and management strategies. Plants, 2021, 10(2): 293.
[36] SANCHEZ B, RASMUSSEN A, Porter J R. Temperatures and the growth and development of maize and rice: a review. Global change biology, 2014, 20(2): 408-417.
[37] HANWAY J J. How a corn plant develops. Special Report. Iowa State University, 1966: 38.
[38] LING M H, HAN H B, HU X Y, XIA Q Y, GUO X M. Drought characteristics and causes during summer maize growth period on Huang-Huai-Hai Plain based on daily scale SPEI. Agricultural Water Management, 2023, 280: 108198.
[39] WANG X W, LI X Y, GU J T, SHI W Q, ZHAO H G, SUN C, YOU S C. Drought and waterlogging status and dominant meteorological factors affecting maize (L.) in different growth and development stages in Northeast China. Agronomy, 2023, 13(2): 374.
[40] GAO C, LI X W, SUN Y W, ZHOU T, LUO G, CHEN C. Water requirement of summer maize at different growth stages and the spatiotemporal characteristics of agricultural drought in the Huaihe River Basin, China. Theoretical and Applied Climatology, 2019, 136: 1289-1302.
[41] WANG C L, WU J D, WANG X, HE X, LI N. Non-linear trends and fluctuations in temperature during different growth stages of summer maize in the North China Plain from 1960 to 2014. Theoretical and Applied Climatology, 2019, 135: 61-70.
[42] LOBELL D B, SCHLENKER W, COSTA-ROBERTS J. Climate trends and global crop production since 1980. Science, 2011, 333(6042): 616-620.
[43] SLOAT L L, DAVIS S J, GERBER J S, MOORE F C, RAY D K, WEST P C, MUELLER N D. Climate adaptation by crop migration. Nature Communications, 2020, 11(1): 1243.
[44] KUKAL M S, IRMAK S. Climate-driven crop yield and yield variability and climate change impacts on the U.S. great plains agricultural production. Scientific Reports, 2018, 8(1): 3450.
[45] PENG B, GUAN K Y, TANG J Y, AINSWORTH E A, ASSENG S, BERNACCHI C J, COOPER M, DELUCIA E H, ELLIOTT J W, EWERT F,. Towards a multiscale crop modelling framework for climate change adaptation assessment. Nature Plants, 2020, 6(4): 338-348.
[46] VAN DRIEL J, OLIVERS C N L, FAHRENFORT J J. High-pass filtering artifacts in multivariate classification of neural time series data. Journal of Neuroscience Methods, 2021, 352: 109080.
[47] ZAHRA H S, OWEIS H T. Application of high-pass filtering techniques on gravity and magnetic data of the eastern Qattara Depression area, Western Desert, Egypt. NRIAG Journal of Astronomy and Geophysics, 2016, 5(1): 106-123.
[48] AL-ALWAN A, FEROZE N, NAZAKAT A, ALMUHAYFITH F E, ALSHENAWY R. Analysis of trends in awareness regarding hepatitis using bayesian multiple logistic regression model. Mathematical Problems in Engineering, 2022, 2022: 4120711.
[49] SHANG J, CHEN M Y, JI H Q, ZHOU D H, ZHANG H F, LI M L. Dominant trend based logistic regression for fault diagnosis in nonstationary processes. Control Engineering Practice, 2017, 66: 156-168.
[50] CHERNYKH M, VODIANYK B, SELEZNOV I, HARMATIUK D, ZYMA I, POPOV A, KIYONO K. Detrending moving average, power spectral density, and coherence: Three EEG-based methods to assess emotion irradiation during facial perception. Applied Sciences, 2022, 12(15): 7849.
[51] 孟品超, 李學(xué)源, 賈洪飛, 李延忠. 基于滑動平均法的軌道交通短時(shí)客流實(shí)時(shí)預(yù)測. 吉林大學(xué)學(xué)報(bào)(工學(xué)版), 2018, 48(2): 448-453.
MENG P C, LI X Y, JIA H F, LI Y Z. Short-time rail transit passenger flow real-time prediction based on moving average. Journal of Jilin University (Engineering and Technology Edition), 2018, 48(2): 448-453. (in Chinese)
[52] CETIN B, YAVUZ I. Comparison of forecast accuracy of Ata and exponential smoothing. Journal of Applied Statistics, 2021, 48(13/15): 2580-2590.
[53] BUTT U M, LETCHMUNAN S, HASSAN F H, KOH T W. Hybrid of deep learning and exponential smoothing for enhancing crime forecasting accuracy. PloS one, 2022, 17(9): e0274172.
[54] RAY D K, GERBER J S, MACDONALD G K, WEST P C. Climate variation explains a third of global crop yield variability. Nature communications, 2015, 6(1): 5989.
[55] NETZEL P, STEPINSKI T. Climate similarity search: GeoWeb tool for exploring climate variability. Bulletin of the American Meteorological Society, 2018, 99(3): 475-477.
[56] YU Z X, GUINDANI M, GRIECO S F, CHEN L J, HOLMES T C, XU X M. Beyondtest and ANOVA: applications of mixed-effects models for more rigorous statistical analysis in neuroscience research. Neuron, 2022, 110(1): 21-35.
[57] BAR-GERA H. The target parameter of adjusted-squared in fixed-design experiments. The American Statistician, 2017, 71(2): 112-119.
[58] ZHUANG J Y, XU S W, LI G Q, ZHANG Y E, WU J Z, LIU J J. The influence of meteorological factors on wheat and rice yields in China. Crop Science, 2018, 58: 837-852.
[59] NGO G, BEARD R, CHANDRA R. Evolutionary bagging for ensemble learning. Neurocomputing, 2022, 510: 1-14.
[60] KIM K, KIM J, CHOI H, KWON O, JANG Y, RYU S, LEE H, SHIM K, PARK T, CHA S W. Pre-diagnosis of flooding and drying in proton exchange membrane fuel cells by bagging ensemble deep learning models using long short-term memory and convolutional neural networks. Energy, 2023, 266: 126441.
[61] WONG A, KRAMER S C, PICCININNI M, ROHMANN J L, KURTH T, ESCOLANO S, GRITTNER U, DE CELLES M D. Using LASSO regression to estimate the population-level impact of pneumococcal conjugate vaccines. American journal of epidemiology, 2023, 192(7): 1166-1180.
[62] 奚麗婧, 郭昭艷, 楊雪珂, 平智廣. LASSO及其拓展方法在回歸分析變量篩選中的應(yīng)用. 中華預(yù)防醫(yī)學(xué)雜志, 2023, 57(1): 107-111.
XI L J, GUO Z Y, YANG X K, PING Z G. Application of LASSO and its extended method in variable selection of regression analysis. Chinese Journal of Preventive Medicine, 2023, 57(1): 107-111. (in Chinese)
[63] JI Q Q, ZHANG S Y, DUAN Q, GONG Y H, LI Y W, XIE X T, BAI J K, HUANG C L, ZHAO X. Short- and medium-term power demand forecasting with multiple factors based on multi-model fusion. Mathematics, 2022, 10(12): 2148.
[64] LYU J Y, ZHENG P J, QI Y, HUANG G H. LightGBM-LncLoc: A lightGBM-based computational predictor for recognizing long non-coding RNA subcellular localization. Mathematics, 2023, 11(3): 602.
[65] ZHAO L N, LU S, QI D. Improvement of maximum air temperature forecasts using a stacking ensemble technique. Atmosphere, 2023, 14(3): 600.
[66] WU X L, WANG J Y. Application of bagging, boosting and stacking ensemble and easyensemble methods for landslide susceptibility mapping in the three gorges reservoir area of China. International Journal of Environmental Research and Public Health, 2023, 20(6): 4977.
[67] IBRAHIM S. Improving land use/cover classification accuracy from random forest feature importance selection based on synergistic use of sentinel data and digital elevation model in agriculturally dominated landscape. Agriculture, 2022, 13(1): 98.
[68] HWANG S W, CHUNG H W, LEE T Y, KIM J, KIM Y, KIM J C, KWAK H W, CHOI I G, YEO H M. Feature importance measures from random forest regressor using near-infrared spectra for predicting carbonization characteristics of kraft lignin-derived hydrochar. Journal of Wood Science, 2023, 69(1): 1-12.
[69] 王曉偉, 李曉玉, 史雯琪, 趙海根, 孫琛, 游松財(cái). 黃淮海地區(qū)玉米生育期制圖研究. 江蘇農(nóng)業(yè)科學(xué), 2023, 51(4): 105-113.
WANG X W, LI X Y, SHI W Q, ZHAO H G, SUN C, YOU S C. Study on mapping of maize growth period in Huang-Huai-Hai region. Jiangsu Agricultural Sciences, 2023, 51(4): 105-113. (in Chinese)
[70] 尹小剛, 王猛, 孔箐鋅, 王占彪, 張海林, 褚慶全, 文新亞, 陳阜. 東北地區(qū)高溫對玉米生產(chǎn)的影響及對策. 應(yīng)用生態(tài)學(xué)報(bào), 2015, 26(1): 186-198.
YIN X G, WANG M, KONG Q X, WANG Z B, ZHANG H L, CHU Q Q, WEN X Y, CHEN F. Impacts of high temperature on maize production and adaptation measures in Northeast China. Chinese Journal of Applied Ecology, 2015, 26(1): 186-198. (in Chinese)
[71] 馮小杰, 鄭子成, 李廷軒. 紫色土區(qū)坡耕地玉米季地表徑流及其氮素流失特征. 水土保持學(xué)報(bào), 2017, 31(1): 43-48, 54.
FENG X J, ZHENG Z C, LI T X. Characteristics of runoff and nitrogen loss in sloping cropland of purple soil during corn growing season. Journal of Soil and Water Conservation, 2017, 31(1): 43-48, 54. (in Chinese)
[72] 周新國, 韓會玲, 李彩霞, 郭樹龍, 郭冬冬, 陳金平. 拔節(jié)期淹水玉米的生理性狀和產(chǎn)量形成. 農(nóng)業(yè)工程學(xué)報(bào), 2014, 30(9): 119-125.
ZHOU X G, HAN H L, LI C X, GUO S L, GUO D D, CHEN J P. Physiological characters and yield formation of corn (L.) under waterlogging stress in jointing stage. Transactions of the Chinese Society of Agricultural Engineering, 2014, 30(9): 119-125. (in Chinese)
[73] 任小龍, 賈志寬, 陳小莉, 韓娟, 韓清芳, 丁瑞霞. 半干旱區(qū)溝壟集雨對玉米光合特性及產(chǎn)量的影響. 作物學(xué)報(bào), 2008, 34(5): 838-845.
REN X L, JIA Z K, CHEN X L, HAN J, HAN Q F, DING R X. Effects of ridge and furrow planting for rainfall harvesting on photo-synthetic characteristics and yield in corn in semi-arid regions. Acta Agronomica Sinica, 2008, 34(5): 838-845. (in Chinese)
[74] LI Q C, XU S W, ZHUANG J Y, LIU J J, ZHOU Y, ZHANG Z X. Ensemble learning prediction of soybean yields in China based on meteorological data. Journal of Integrative Agriculture, 2023, 22(6): 1909-1927.
[75] DUARTE Y C N, SENTELHAS P C. Intercomparison and performance of maize crop models and their ensemble for yield simulations in Brazil. International Journal of Plant Production, 2020, 14: 127-139.
[76] XU S W, LI G Q, LI Z M. China agricultural outlook for 2015-2024 based on China Agricultural Monitoring and Early-warning System (CAMES). Journal of Integrative Agriculture, 2015, 14(9): 1889-1902.
[77] 許世衛(wèi), 邸佳穎, 李干瓊, 莊家煜. 農(nóng)產(chǎn)品監(jiān)測預(yù)警模型集群構(gòu)建理論方法與應(yīng)用. 中國農(nóng)業(yè)科學(xué), 2020, 53(14): 2859-2871. doi: 10.3864/j.issn.0578-1752.2020.14.010.
XU S W, DI J Y, LI G Q, ZHUANG J Y. The methodology and application of agricultural monitoring and early warning model cluster. Scientia Agricultura Sinica, 2020, 53(14): 2859-2871. doi: 10.3864/j. issn.0578-1752.2020.14.010. (in Chinese)
Stacking Ensemble learning modeling and forecasting of maize yield based on meteorological factors
Agricultural Information Institute, Chinese Academy of Agricultural Sciences, Beijing 100081
【Objective】In the context of intensified global climate change and frequent meteorological disasters, exploring the significance of meteorological factors on maize yield and accurately predicting maize yield is crucial for enhancing agricultural production and field management. This paper aims to quantitatively analyze the importance of meteorological factors during various growth stages of maize on yield and to establish a highly accurate and reliable maize meteorological yield stacking ensemble learning estimation model for yield prediction.【Method】Using the HP filter method and moving average method, trend yield models for various counties were determined, and county-level meteorological yields were isolated. Three ensemble learning methods (light gradient boosting machine (LightGBM), Bagging, and Stacking) were employed. By analyzing daily meteorological data and maize yield data over 34 years from 596 county-level administrative regions and meteorological observation stations across 12 provinces in China, three maize meteorological yield prediction models based on different ensemble learning frameworks (LightGBM, Bagging, and Stacking) were established.【Result】The HP filter method as the trend yield model was mainly applicable in the regions of Shaanxi, Henan, Jiangsu, and Anhui. Compared to the HP filter method, more counties were suitable for the moving average method, with most counties having the2distribution above 0.8. Based on a 5-year sliding forecast and model accuracy evaluation indicators, the mean absolute percentage error (MAPE) for the three models on maize yield was below 6%. The Stacking model achieved a MAPE of 4.60%, indicating high prediction accuracy and strong generalizability. The results demonstrate that the maize meteorological yield stack-integrated learning prediction model has higher accuracy and stronger robustness. It effectively utilizes the characteristics and advantages of each base learner to improve prediction accuracy, making it the optimal model for predicting maize yield based on meteorological factors. Furthermore, a quantitative analysis of the impact of 27 meteorological factors during the maize growth stages in 12 provinces, using the random forest feature importance score, is of reference value for crop monitoring and field management.【Conclusion】The three ensemble learning methods, especially the stack-integrated learning model (stacking), can accurately reflect the spatiotemporal distribution changes in maize yield. The stack-integrated learning model for maize yield based on meteorological factors provides a new method for field management and accurate prediction of maize yield.
maize meteorological yield; ensemble learning; yield estimation; county-level data; feature importance
2023-06-12;
2023-08-02
中國農(nóng)業(yè)科學(xué)院科技創(chuàng)新工程(CAAS-ASTIP-2016-AII)
李乾川,E-mail:82101211326@caas.cn。通信作者許世衛(wèi),E-mail:xushiwei@caas.cn
(責(zé)任編輯 岳梅)