亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于集成學(xué)習(xí)的土壤含水量預(yù)測研究——以遼西地區(qū)為例①

        2023-08-02 03:08:08付平凡楊曉靜蘇志誠屈艷萍馬苗苗
        土壤 2023年3期
        關(guān)鍵詞:深度特征模型

        付平凡,楊曉靜*,蘇志誠,屈艷萍,馬苗苗

        基于集成學(xué)習(xí)的土壤含水量預(yù)測研究——以遼西地區(qū)為例①

        付平凡1,2,楊曉靜1,2*,蘇志誠1,2,屈艷萍1,2,馬苗苗1,2

        (1 中國水利水電科學(xué)研究院,北京 100038;2 水利部防洪抗旱減災(zāi)工程技術(shù)研究中心,北京 100038)

        準(zhǔn)確高效地預(yù)測土壤含水量(SMC)對田間水分管理至關(guān)重要。本研究利用在遼西地區(qū)自建的3個站點(diǎn)2018—2021年10 ~ 40 cm土壤水分自動觀測小時數(shù)據(jù)集,分析研究隨機(jī)森林(random forest,RF)和梯度提升機(jī)(gradient boosting machine,GBM)算法在SMC預(yù)測方面的適用性,驗(yàn)證不同時間尺度SMC的預(yù)測結(jié)果。同時引入SHAP(shapley additive explanations)方法表征5類(降水、日照時數(shù)、平均相對濕度、風(fēng)速、平均氣溫)輸入變量對SMC預(yù)測結(jié)果的影響,并制定區(qū)間劃分規(guī)則識別變量最大貢獻(xiàn)閾值區(qū)間。研究結(jié)果表明:年尺度下,SMC 預(yù)測GBM模型和RF模型2分別為0.982和0.888,氣溫貢獻(xiàn)最大,最大貢獻(xiàn)區(qū)間是21 ~ 23℃;季尺度下,2種模型2分別為0.935和0.863,日照時數(shù)貢獻(xiàn)最大,最大貢獻(xiàn)區(qū)間為2 ~ 4 h。該研究創(chuàng)新應(yīng)用SHAP方法于機(jī)器學(xué)習(xí)輸入變量貢獻(xiàn)度分析,同時驗(yàn)證了2種機(jī)器學(xué)習(xí)算法對SMC預(yù)測研究的準(zhǔn)確性,可為SMC相關(guān)研究提供參考。

        集成學(xué)習(xí);土壤含水量預(yù)測;梯度提升機(jī);隨機(jī)森林;遼寧西部;SHAP值

        土壤水分是區(qū)域水循環(huán)、農(nóng)業(yè)灌溉管理和氣候變化的特征要素之一,其在水文、氣象、農(nóng)業(yè)等學(xué)科中也具有重要的作用[1]。土壤含水量(soil moisture content,SMC)是地表植被吸收水分的主要來源,其對作物的生長發(fā)育至關(guān)重要[2]。因此,準(zhǔn)確預(yù)測土壤含水量對作物增產(chǎn)和糧食安全具有重要意義。

        目前主要的土壤水分預(yù)測方法有經(jīng)驗(yàn)?zāi)P头╗3]、土壤水動力學(xué)法[4]、時間序列模型法[5]以及機(jī)器學(xué)習(xí)算法[6]等。近年來,隨著計(jì)算機(jī)技術(shù)的快速發(fā)展,機(jī)器學(xué)習(xí)算法已成為一種重要的預(yù)測土壤含水量的手段[7]。集成學(xué)習(xí)(ensemble learning)是通過構(gòu)建并結(jié)合多個機(jī)器學(xué)習(xí)器來完成任務(wù),具有較強(qiáng)的泛化能力[8]。由于集成學(xué)習(xí)模型相比傳統(tǒng)機(jī)器學(xué)習(xí)模型在性能上表現(xiàn)更為出色,目前集成學(xué)習(xí)中的隨機(jī)森林(random forest,RF)和梯度提升機(jī)(gradient boosting machine,GBM)模型已在農(nóng)業(yè)干旱監(jiān)測、驟發(fā)性干旱研究等領(lǐng)域有所應(yīng)用[9-10]。Cai等[11]結(jié)合GBM與RF模型系統(tǒng)論證了這兩種方法預(yù)測凈生態(tài)系統(tǒng)碳交換的有效性;Prodhan等[12]也將RF和GBM進(jìn)行非線性集成,利用ISI-MP作物模型定量分析了未來干旱對作物產(chǎn)量的影響。以上研究都表明,RF和GBM模型具有較好的實(shí)用性,但此類方法在土壤含水量預(yù)測的適用性研究上亟待進(jìn)一步深入。

        由于機(jī)器學(xué)習(xí)模型是黑箱模型,現(xiàn)有的多數(shù)研究主要基于評估指標(biāo)來對模型的結(jié)果進(jìn)行評價,而針對輸入變量對預(yù)測結(jié)果影響的研究還相對較少。為解決這一問題,Lundberg和Lee[13]在2017年提出了SHAP(shapley additive explanations)方法,該方法基于合作博弈理論定量化表征每個特征對最終預(yù)測值的影響,增加了模型的可解釋性。近年來,已有研究利用SHAP方法解釋機(jī)器學(xué)習(xí)模型,王鑫等[14]融合LightGBM模型與SHAP方法分析得出了血清胰島素、葡萄糖濃度和年齡是患者是否患有糖尿病的關(guān)鍵因素;Kannangara等[15]利用RF模型和SHAP方法,分析了9個輸入變量對隧道開挖引起沉降的影響,結(jié)果表明土壤類型的影響最大。目前SHAP方法已應(yīng)用于金融欺詐、污水處理、電力系統(tǒng)緊急控制等領(lǐng)域輸入變量對預(yù)測結(jié)果的貢獻(xiàn)研究[16-18],但在土壤水分預(yù)測方面上的應(yīng)用還相對較少。因此,將SHAP方法應(yīng)用于土壤含水量預(yù)測研究,可定量識別輸入變量對土壤含水量的貢獻(xiàn)程度,為缺省輸入因子情況下的變量選擇提供依據(jù)。

        本文擬將集成學(xué)習(xí)中的RF、GBM算法應(yīng)用到土壤含水量預(yù)測研究,拓展驗(yàn)證2種算法在土壤含水量模擬預(yù)測中的適用性;且為解釋各變量對于預(yù)測模型的影響,引入SHAP方法定量評估集成學(xué)習(xí)模型輸入變量的貢獻(xiàn)程度,并基于制定的區(qū)間劃分規(guī)則識別特征敏感閾值區(qū)間,為解釋輸入變量對預(yù)測值的影響和土壤含水量預(yù)測方法的選擇提供新的參考。

        1 數(shù)據(jù)與方法

        1.1 研究區(qū)概況

        研究區(qū)為遼西地區(qū)(119.70° E ~ 122.53° E,40.35° N ~ 42.24° N),包括阜新、朝陽、葫蘆島和錦州4市,屬于溫帶大陸性季風(fēng)氣候,多年平均降水量約為450 ~ 700 mm,其中夏季降水量約占全年降水量的2/3。全年四季分明,雨熱同期,日照豐富,年均溫7.2 ~ 8.3℃。根據(jù)2021年遼寧省統(tǒng)計(jì)年鑒的結(jié)果,遼西地區(qū)主要的糧食作物為玉米,占全省糧食作物種植面積的41.2%。區(qū)域內(nèi)含遼西走廊和遼西北部低山丘陵2個區(qū)域,地勢呈現(xiàn)西北高、東南低的空間分布態(tài)勢[19]。研究所選墑情站點(diǎn)均位于玉米種植區(qū),其空間分布如圖1所示。凌海站位于低山丘陵區(qū)的凌海市東部,土壤類型為棕壤;孫家灣站位于朝陽市東北部大凌河干流附近,地形為黃土丘陵,土壤類型為褐黃土;葉柏壽站位于朝陽市建平縣南部,地形為丘陵坡地,土壤類型為褐黃土。

        1.2 數(shù)據(jù)來源與質(zhì)量控制

        1.2.1 數(shù)據(jù)來源 研究應(yīng)用的數(shù)據(jù)主要包括小時土壤含水量數(shù)據(jù)集和氣象要素?cái)?shù)據(jù)集。

        1)小時土壤含水量數(shù)據(jù)集來源。2018年7月在遼西地區(qū)選址(大凌河出口的凌海站,干流中部附近的孫家灣站,支流的葉柏壽站)并安裝3套土壤墑情自動監(jiān)測系統(tǒng)。該系統(tǒng)所使用的土壤水分傳感器長期埋設(shè)在野外大田的測點(diǎn)中,并基于時域反射原理(time domain reflectometry,TDR)對不同深度土壤進(jìn)行土壤體積含水量測定。站點(diǎn)的數(shù)據(jù)時間序列始于2018年7月,10 ~ 40 cm深度傳感器實(shí)時接收間隔為1 h的土壤墑情數(shù)據(jù)。為驗(yàn)證數(shù)據(jù)的有效性,分季節(jié)進(jìn)行7次人工取土實(shí)驗(yàn),利用烘干法將測定的土壤含水量與自動監(jiān)測站監(jiān)測結(jié)果進(jìn)行對比,對比結(jié)果表明各深度土壤含水量同步監(jiān)測差值小于10%。

        2)氣象要素?cái)?shù)據(jù)集來源。由于墑情站點(diǎn)的數(shù)據(jù)序列起始時間為2018年7月,為匹配對應(yīng)日期的墑情數(shù)據(jù),選擇2018—2021年氣象數(shù)據(jù)作為模型輸入變量,氣象數(shù)據(jù)來源于中國氣象數(shù)據(jù)網(wǎng)(http://data. cma.cn/)。3個氣象站點(diǎn)氣象要素包括逐日的降水、日照時數(shù)、平均相對濕度、風(fēng)速、平均氣溫。

        1.2.2 數(shù)據(jù)質(zhì)量控制 為降低異常數(shù)據(jù)對模型預(yù)測結(jié)果準(zhǔn)確性的擾動,從兩個方面對數(shù)據(jù)進(jìn)行質(zhì)量控制。

        圖1 研究區(qū)和3個試驗(yàn)站點(diǎn)示意圖

        1)數(shù)據(jù)有效性控制。為保證數(shù)據(jù)集的有效性,將墑情站和氣象站空值數(shù)據(jù)剔除后,孫家灣站共有數(shù)據(jù)1 099條,葉柏壽站共有數(shù)據(jù)1 202條,凌海站共有數(shù)據(jù)1 177條。

        2)數(shù)據(jù)量綱控制。為避免不同輸入變量之間數(shù)量級別和量綱的影響,將輸入和輸出數(shù)據(jù)進(jìn)行歸一化處理,計(jì)算公式如下:

        式中:x為歸一化后的樣本集;為原始樣本集;min為原始樣本集最小值,max為原始樣本集最大值。將每日8:00的土壤墑情數(shù)據(jù)作為當(dāng)日值,并按照8︰2的分配原則進(jìn)行訓(xùn)練集和測試集的劃分。

        1.3 研究方法

        1.3.1 集成學(xué)習(xí) 集成學(xué)習(xí)是一種融合多個機(jī)器學(xué)習(xí)模型的集成模型,通過某種融合策略??色@得比單一模型顯著優(yōu)越的泛化性能。集成學(xué)習(xí)不僅能夠?qū)崿F(xiàn)模型之間的優(yōu)勢互補(bǔ),還能減少對訓(xùn)練所需數(shù)據(jù)的依賴程度[20]。常用的融合策略有3種:Bagging、Boosting和Stacking。本研究采用Bagging中的RF、Boosting中的梯度提升決策樹(GBDT)算法,所使用的2種方法的建模過程均在Python語言環(huán)境下加載scikit-learn實(shí)現(xiàn)。

        梯度提升機(jī)(gradient boosting machine,GBM)是由Friedman[21]提出的一種流行機(jī)器學(xué)習(xí)的集成方法。為了解決回歸和分類問題,GBM通常是以決策樹弱模型組合的形式,周期性地構(gòu)造出一個魯棒模型。Gradient Boosting與一般的Boosting算法一樣,也是一個迭代的過程,Gradient Boosting每個新的模型是沿著前面模型的殘差減少的梯度方向上建立,每次的訓(xùn)練是為了改進(jìn)上一次的回歸結(jié)果。為了減少模型的殘差(residual),通常采用牛頓–拉弗森方法(Newton- Raphson method)在殘差減少的梯度(Gradient)方向擬合一個新的模型[22]。由GBM構(gòu)建的梯度提升回歸模型有5個需要優(yōu)化的參數(shù),分別為學(xué)習(xí)率(learning_rate)、損失函數(shù)(loss)、決策樹的數(shù)量(n_estimators)、決策樹的深度(max_depth)和建立決策樹時選擇的最大特征數(shù)目(max_features)。利用GridSearchCV方法[23]進(jìn)行超參數(shù)隨機(jī)匹配擇優(yōu),經(jīng)過調(diào)參后,n_estimators=300,max_depth=10,max_features=2,loss='huber'函數(shù),learning_rate=0.1為最優(yōu)參數(shù)。

        隨機(jī)森林(random forest,RF)算法是一種通過集成大量的決策樹來改進(jìn)分類和回歸的方法。Breiman[24]引入的RF是一種基于bootstrap聚合的決策樹集合,通過隨機(jī)選取廣泛應(yīng)用于回歸問題的預(yù)測器子集,計(jì)算預(yù)測變量并基于預(yù)測變量的數(shù)據(jù)分割,得到因變量的均方根誤差(RMSE)最佳估計(jì)。在RF回歸中,引入的RF算法將自動創(chuàng)建隨機(jī)決策樹群,通過從訓(xùn)練數(shù)據(jù)集中選擇隨機(jī)變量集,并采用隨機(jī)有放回抽樣的方法來構(gòu)建每棵樹,最后通過對所有樹的均衡化結(jié)果來計(jì)算觀測值的預(yù)測值。RF模型有3個需要優(yōu)化的參數(shù):決策樹的數(shù)量(n_estimators)、決策樹的深度(max_depth)和建立決策樹時選擇的最大特征數(shù)目(max_features)。利用GridSearchCV方法進(jìn)行超參數(shù)隨機(jī)匹配擇優(yōu),經(jīng)過調(diào)參后,n_estimators= 900,max_depth=15,max_features=5是最優(yōu)參數(shù)。

        1.3.2 模型評價指標(biāo) 選用平均絕對誤差(MAE)、決定系數(shù)(2)[25]和均方根誤差(RMSE)3種指標(biāo)分別對GBM、RF預(yù)測模型進(jìn)行預(yù)測效果評估。評價指標(biāo)計(jì)算公式如下:

        1.3.3 SHAP方法 SHAP方法是一種直觀的、合理的解釋模型的方法,該方法通過計(jì)算每個特征對預(yù)測值的貢獻(xiàn)來解釋特征,所使用的值(SHAP值)可定量化表征各個特征對預(yù)測值的貢獻(xiàn),SHAP值越大表明該特征對于預(yù)測值的貢獻(xiàn)越大。SHAP方法是以合作博弈理論為基礎(chǔ)計(jì)算SHAP值,特征值的SHAP值是對所有可能的特征值組合進(jìn)行加權(quán)求和,其公式如下:

        式中:是模型中使用的特征的子集,表示這些特征不包括在集合中;是特征的數(shù)量;val()是對集合中特征值的預(yù)測;表示val第個特征的貢獻(xiàn)。

        2 結(jié)果與分析

        2.1 年尺度預(yù)測結(jié)果對比

        選取2018—2021年土壤10 ~ 40 cm深度含水量數(shù)據(jù)進(jìn)行訓(xùn)練,基于RF、GBM算法構(gòu)建土壤含水量預(yù)測模型。對比2種模型測試集的預(yù)測結(jié)果(表1)發(fā)現(xiàn),10 ~ 40 cm深度預(yù)測精度相差較小,2差值都在0.1以內(nèi)。GBM模型預(yù)測精度較高,10 ~ 40 cm深度2值均大于0.94,MAE和RMSE均值均小于0.006和0.026;RF模型預(yù)測精度略差,10 ~ 40 cm深度2均值范圍為0.881 ~ 0.891,MAE和RMSE均值均小于0.054和0.071。

        表1 年尺度下不同站點(diǎn)不同深度土壤含水量RF和GBM模型預(yù)測精度比較

        以孫家灣站為例,2種模型10 ~ 40 cm深度測試集土壤含水量樣本預(yù)測值與實(shí)測值基本都在1∶1線附近,2值均超過0.86,GBM模型的預(yù)測值明顯更加接近實(shí)測值,如圖2所示。綜上所述,對比2種模型方法的評價指標(biāo),RF模型和GBM模型年尺度下均能精準(zhǔn)地預(yù)測土壤含水量,但GBM模型表現(xiàn)更佳。

        圖2 孫家灣站10 ~ 40 cm深度土壤含水量預(yù)測值與實(shí)測值

        2.2 季節(jié)尺度預(yù)測結(jié)果對比

        本研究中,季節(jié)劃分標(biāo)準(zhǔn)為:春季3—5月、夏季6—8月、秋季9—11月、冬季12月—次年2月。季節(jié)尺度的預(yù)測結(jié)果(表2)表明,GBM模型和RF模型在不同季節(jié)預(yù)測土壤含水量均具有較高的精度。GBM模型10 ~ 40 cm深度各季節(jié)2均值范圍為0.931 ~ 0.938,MAE值均小于0.026,RMSE值均小于0.065;RF模型10 ~ 40 cm深度各季節(jié)2值范圍為0.816 ~ 0.894,MAE值均小于0.073,RMSE值均小于0.095,精度略低于GBM模型。

        表2 不同季節(jié)土壤含水量2種模型預(yù)測精度比較

        對比分析多時間尺度模型預(yù)測結(jié)果表明:GBM模型和RF模型在年、季尺度下均有較好的預(yù)測結(jié)果(2均大于0.816),GBM模型的預(yù)測精度略高(2均大于0.868)。年尺度上,2種模型在3個站點(diǎn)不同土層的2均值皆大于0.881,RMSE均值皆小于0.071,MAE均值皆小于0.054;季節(jié)尺度上,2種模型在春季、夏季和秋季的預(yù)測結(jié)果則更好,春季、夏季和秋季2均大于0.835,RMSE均小于0.094,MAE均小于0.072。

        2.3 特征要素貢獻(xiàn)度分析

        為探究不同時間尺度、不同深度各輸入特征要素對預(yù)測的土壤含水量的貢獻(xiàn)度,將預(yù)測結(jié)果較好的GBM模型與SHAP方法進(jìn)行融合。分別計(jì)算年、季尺度下降水、日照時數(shù)、平均相對濕度、風(fēng)速、平均氣溫這5個輸入變量的SHAP值,并基于SHAP值大小判斷輸入特征對土壤含水量的貢獻(xiàn)。

        年尺度上,孫家灣站、葉柏壽站和凌海站10 ~ 40 cm深度特征要素貢獻(xiàn)排序基本一致,均是平均氣溫貢獻(xiàn)最大,降水貢獻(xiàn)最小。其中葉柏壽站10、20和40 cm深度的特征要素貢獻(xiàn)排序從高到低分別為平均氣溫、日照時數(shù)、相對濕度、風(fēng)速和平均氣溫;30 cm深度則為平均氣溫、相對濕度、日照時數(shù)、風(fēng)速和平均氣溫,如圖3所示。孫家灣站和凌海站特征要素貢獻(xiàn)排序與葉柏壽站一致。

        為對比4個不同深度、不同季節(jié)5個輸入特征對預(yù)測土壤含水量的整體貢獻(xiàn)度,利用特征的SHAP值之和(整體SHAP值)來對比不同深度和季節(jié)的結(jié)果。

        年尺度上,4個土層深度輸入的5個氣象要素對于預(yù)測10 cm和20 cm土層的土壤含水量貢獻(xiàn)較大,且更適用于預(yù)測20 cm深度的土壤含水量。孫家灣、葉柏壽和凌海站10 cm和20 cm深度的整體SHAP值分別為7.99、8.07和7.98,比30 cm和40 cm深度分別增加了10.66%、12.08% 和1.01%。各站點(diǎn)20 cm深度輸入變量的整體SHAP值分別為8.48、8.43和8.53,比10 cm深度分別增加了12.96%、14.48% 和14.79%,其中葉柏壽站SHAP值如圖3所示。

        由于年尺度20 cm土層整體SHAP值最高,因此季節(jié)尺度上選擇20 cm土層為代表性土層進(jìn)行分析。孫家灣站和葉柏壽站貢獻(xiàn)最大的特征要素是日照時數(shù),凌海站為平均氣溫,所有站點(diǎn)對預(yù)測結(jié)果貢獻(xiàn)最低的變量均為降水。夏季整體SHAP值高于其余3個季節(jié),其中葉柏壽站春季、秋季和冬季整體SHAP值相比夏季分別降低36.5%、18.8% 和46.2%;凌海站分別降低47.9%、10.8% 和5.8%;孫家灣站春季整體SHAP值比夏季增加2.6%,秋季和冬季分別降低39.6% 和26.6%,具體結(jié)果見表3。

        圖3 葉柏壽站10 ~ 40 cm土壤預(yù)測含水量的特征要素貢獻(xiàn)分布

        在年、季尺度上降水貢獻(xiàn)均最低,可能有以下兩個方面的原因:①遼西地區(qū)年降水量區(qū)間為400 ~ 700 mm,且全年2/3的降水集中在夏季。孫家灣、葉柏壽和凌海站夏季降水量分別為319.3、357.2和474.43 mm;②無降水日數(shù)占比較高。孫家灣、葉柏壽和凌海站年內(nèi)無降水日數(shù)的數(shù)據(jù)占比分別為81.1%、79.4% 和79.5%;盡管降水集中在夏季,但無雨日數(shù)仍高于60%(孫家灣、葉柏壽和凌海站占比分別為61.8%、62.0% 和62.3%)。

        表3 20 cm深度土壤預(yù)測含水量不同季節(jié)特征要素貢獻(xiàn)統(tǒng)計(jì)

        集成學(xué)習(xí)預(yù)測結(jié)果的準(zhǔn)確性與樣本數(shù)量和數(shù)值變化區(qū)間成正比,因此在相同數(shù)量樣本條件下,較多的無降水日數(shù)可使降水貢獻(xiàn)小于其他要素。雖然5個特征中降水的貢獻(xiàn)最低,但對比季節(jié)貢獻(xiàn)結(jié)果可以看出,降水對土壤含水量的貢獻(xiàn)度與降水量成正比關(guān)系。遼西地區(qū)夏季降水最多,貢獻(xiàn)度也是四季最高,如圖4所示。

        綜上所述,遼西地區(qū)降水對土壤含水量貢獻(xiàn)較低的主要原因是年內(nèi)、季節(jié)內(nèi)降水分布不均。已有的研究也表明,降水對于土壤含水量的貢獻(xiàn)較小。Clewley等[26]利用RF分析了高程、坡度和降水等對土壤水分的影響,結(jié)果表明降水影響最小;Karthikeyan和Mishra[27]利用XGBoost算法分析了海拔、土壤質(zhì)地、歸一化植被指數(shù)(NDVI)和降水對于土壤水分的影響,結(jié)果表明降水影響最小。以上研究利用了不同的算法、輸入了不同的變量來預(yù)測土壤含水量,但結(jié)果都表明降水對于土壤水分的影響最小。

        圖4 2018—2021年不同季節(jié)累積降水量和SHAP值

        為定量識別不同輸入特征要素對應(yīng)的有效閾值區(qū)間,制定區(qū)間識別劃分規(guī)則為:①篩選出SHAP值大于0的點(diǎn),提取點(diǎn)所在的區(qū)間;②將區(qū)間等分,分別計(jì)算每個區(qū)間SHAP均值;③比較劃分后的區(qū)間與原區(qū)間SHAP均值的大小,最終定量識別不同輸入特征對土壤含水量貢獻(xiàn)最大的區(qū)間。各個特征SHAP值大于0的區(qū)間分別為降水0 ~ 10 mm、日照時數(shù)0 ~ 8 h、相對濕度60% ~ 80%、風(fēng)速1 ~ 3 m/s、氣溫22 ~ 24℃,如圖5所示。

        圖5 特征要素貢獻(xiàn)依賴圖

        孫家灣站和葉柏壽站對土壤含水量貢獻(xiàn)最大的特征區(qū)間一致,都是日照時數(shù)貢獻(xiàn)最大,最大區(qū)間為2 ~ 4 h;降水貢獻(xiàn)最小,貢獻(xiàn)最大區(qū)間為0 ~ 5 mm。凌海站卻是降水貢獻(xiàn)最大,貢獻(xiàn)最大的區(qū)間為5 ~ 10 mm;風(fēng)速貢獻(xiàn)最小,貢獻(xiàn)最大的區(qū)間為1 ~ 2 m/s。各站點(diǎn)特征區(qū)間SHAP均值見表4。

        表4 3站點(diǎn)各個特征要素區(qū)間SHAP均值

        注:表中加粗部分即各個特征要素貢獻(xiàn)最大值,所在區(qū)間為貢獻(xiàn)最大區(qū)間。

        3 討論

        本研究結(jié)果表明,GBM模型在年、季尺度上的預(yù)測精度均高于RF模型(2均大于0.816)。融合SHAP方法的GBM模型不僅定量計(jì)算出了不同土層、不同季節(jié)輸入變量對土壤含水量的貢獻(xiàn),而且基于區(qū)間劃分規(guī)則識別了特征最大貢獻(xiàn)區(qū)間。為驗(yàn)證該模型在預(yù)測土壤含水量上的優(yōu)勢,從以下兩方面進(jìn)行討論。

        1)與神經(jīng)網(wǎng)絡(luò)中最常用的多層感知機(jī)(MLP)進(jìn)行對比驗(yàn)證。目前利用神經(jīng)網(wǎng)絡(luò)預(yù)測土壤含水量的研究較多[28],為了驗(yàn)證GBM模型和RF模型在預(yù)測土壤含水量上的優(yōu)勢,采用神經(jīng)網(wǎng)絡(luò)中最常用的MLP模型進(jìn)行對比驗(yàn)證。利用optuna方法[29]對MLP進(jìn)行10次參數(shù)擇優(yōu)后,最終確定神經(jīng)網(wǎng)絡(luò)隱藏層分別為70、60和20,最優(yōu)參數(shù)分別為activation='relu',solver='lbfgs',max_iter=1400,alpha=0.04?;趨?shù)優(yōu)選后的結(jié)果預(yù)測各站點(diǎn)不同深度土壤含水量結(jié)果,3個站點(diǎn)的MAE介于0.065 ~ 0.110,RMSE介于0.086 ~ 0.146,2介于0.423 ~ 0.871,具體結(jié)果見表5。MLP模型的預(yù)測精度明顯低于本研究中構(gòu)建的2種土壤含水量預(yù)測模型,GBM模型在3個站點(diǎn)的2均值分別提升了0.226、0.176和0.459;RF模型在3個站點(diǎn)的2均值分別提升了0.124、0.084和0.371。上述結(jié)果表明,本研究使用的集成學(xué)習(xí)模型相較于MLP模型具有顯著的優(yōu)勢。

        2)與國內(nèi)外同類研究結(jié)果對比。已有的研究也表明,GBM模型和RF模型在土壤含水量預(yù)測方面擁有更加良好的表現(xiàn)。Chen[8]等基于RADARSAT-2和Sentinel-2數(shù)據(jù),使用支持向量回歸機(jī)(SVR)、RF和梯度提升決策樹(GBDT)這3種機(jī)器學(xué)習(xí)方法在加拿大安大略省西南部對冬小麥種植區(qū)0 ~ 5 cm土壤水分進(jìn)行預(yù)測,結(jié)果表明,RF模型結(jié)果最優(yōu)(2為0.94),GBMT模型次之(2為0.77),SVR模型結(jié)果最差(2為3.06)。

        表5 MLP模型對10 ~ 40 cm深度土壤含水量的預(yù)測結(jié)果

        目前針對特征貢獻(xiàn)的研究還相對較少。Clewley等[26]采集了位于加拿大馬尼托巴省南部SMAP實(shí)驗(yàn)點(diǎn)2012年6—7月間13 d現(xiàn)場數(shù)據(jù),利用RF算法計(jì)算了各輸入特征的重要度,結(jié)果表明,貢獻(xiàn)最大的變量是高程,貢獻(xiàn)最小的變量是降水;Cai等[30]分析了各輸入特征與土壤含水量的相關(guān)性,結(jié)果表明,相對濕度相關(guān)性最大,降水相關(guān)性最小。本研究利用SHAP方法不僅判斷出不同時間尺度下最大貢獻(xiàn)的特征要素,而且制定了區(qū)間劃分規(guī)則識別輸入特征最大貢獻(xiàn)區(qū)間,從方法應(yīng)用范圍上進(jìn)行了提升和改進(jìn)。

        4 結(jié)論

        本文基于集成學(xué)習(xí)Bagging中的隨機(jī)森林(RF)、Boosting中的梯度提升機(jī)(GBM),研究了2種算法在遼西地區(qū)預(yù)測土壤含水量的適用性。在土壤含水量預(yù)測的基礎(chǔ)上,引入SHAP方法定量計(jì)算輸入特征變量對土壤含水量的貢獻(xiàn),并基于制定的區(qū)間劃分規(guī)則識別特征最大貢獻(xiàn)的閾值范圍,實(shí)現(xiàn)了高精度可解釋的土壤水分預(yù)測。

        1)從模型適用性方面,GBM模型更適合遼西地區(qū)的土壤含水量預(yù)測。年、季尺度下,GBM模型和RF模型均適用于遼西地區(qū)土壤含水量預(yù)測。年尺度下GBM模型和RF模型10 ~ 40 cm深度2分別為0.982、0.888;季節(jié)尺度下2分別為0.935、0.863。

        2)對比分析降水、日照時數(shù)、平均相對濕度、風(fēng)速、平均氣溫5個輸入要素的貢獻(xiàn)度,氣溫和日照時數(shù)貢獻(xiàn)較大,其中氣溫貢獻(xiàn)最大范圍21 ~ 23℃;日照時數(shù)貢獻(xiàn)最大范圍為2 ~ 4 h。年尺度下,氣溫貢獻(xiàn)最大,降水貢獻(xiàn)最??;季節(jié)尺度下,夏季對于土壤含水量預(yù)測的貢獻(xiàn)最大,貢獻(xiàn)最大的特征要素為日照時數(shù),貢獻(xiàn)最小的特征要素為降水。

        3)與傳統(tǒng)的MLP模型結(jié)果相比,GBM模型和RF模型10 ~ 40 cm深度土壤含水量的預(yù)測結(jié)果均優(yōu)于MLP模型。孫家灣站、葉柏壽站和凌海站GBM模型的2均值相較于MLP模型分別提升了0.226、0.176和0.459,RF模型較之提升了0.124、0.084和0.371。

        4)本研究首次將集成學(xué)習(xí)算法中的GBM模型和RF模型應(yīng)用到遼西地區(qū)的土壤含水量預(yù)測,驗(yàn)證了2種模型在年、季尺度上的有效性。創(chuàng)新引入SHAP方法,定量化表征輸入特征要素貢獻(xiàn)度,并基于制定的區(qū)間劃分規(guī)則計(jì)算了區(qū)間SHAP均值,識別了輸入特征最大貢獻(xiàn)區(qū)間,可為其他地區(qū)的土壤含水量預(yù)測研究提供新的參考與借鑒。

        [1] Zhang D J, Zhou G Q. Estimation of soil moisture from optical and thermal remote sensing: A review[J]. Sensors (Basel, Switzerland), 2016, 16(8): 1308.

        [2] 程諒, 焦雄, 邸涵悅, 等. 不同整地措施坡面土壤水分時空分布特征[J]. 土壤學(xué)報(bào), 2021, 58(6): 1423–1435.

        [3] Hummel J W, Sudduth K A, Hollinger S E. Soil moisture and organic matter prediction of surface and subsurface soils using an NIR soil sensor[J]. Computers and Electronics in Agriculture, 2001, 32(2): 149–165.

        [4] 周良臣. 利用土壤水動力學(xué)模型預(yù)測麥田土壤水分的研究[J]. 節(jié)水灌溉, 2007(3): 10–13, 17.

        [5] 白冬妹, 郭滿才, 郭忠升, 等. 時間序列自回歸模型在土壤水分預(yù)測中的應(yīng)用研究[J]. 中國水土保持, 2014(2): 42–45, 69.

        [6] 聶紅梅, 楊聯(lián)安, 李新堯, 等. 基于PCA-SVR的冬小麥土壤水分預(yù)測[J]. 土壤, 2018, 50(4): 812–818.

        [7] Padarian J, Minasny B, McBratney A B. Machine learning and soil sciences: A review aided by machine learning tools[J]. SOIL, 2020, 6(1): 35–52.

        [8] Chen L, Xing M F, He B B, et al. Estimating soil moisture over winter wheat fields during growing season using machine-learning methods[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2021, 14: 3706–3718.

        [9] Zhang L Q, Liu Y, Ren L L, et al. Analysis of flash droughts in China using machine learning[J]. Hydrology and Earth System Sciences, 2022, 26(12): 3241–3261.

        [10] Feng P Y, Wang B, Liu L D, et al. Machine learning-based integration of remotely-sensed drought factors can improve the estimation of agricultural drought in South-Eastern Australia[J]. Agricultural Systems, 2019, 173: 303–316.

        [11] Cai J C, Xu K, Zhu Y H, et al. Prediction and analysis of net ecosystem carbon exchange based on gradient boosting regression and random forest[J]. Applied Energy, 2020, 262: 114566.

        [12] Prodhan F A, Zhang J H, Sharma T P P, et al. Projection of future drought and its impact on simulated crop yield over South Asia using ensemble machine learning approach[J]. Science of the Total Environment, 2022, 807: 151029.

        [13] Lundberg S M, Lee S I. A unified approach to interpreting model predictions[C]//Proceedings of the 31st International Conference on Neural Information Processing Systems. December 4 - 9, 2017, Long Beach, California, USA. New York: ACM, 2017: 4768–4777.

        [14] 王鑫, 廖彬, 李敏, 等. 融合LightGBM與SHAP的糖尿病預(yù)測及其特征分析方法[J]. 小型微型計(jì)算機(jī)系統(tǒng), 2022, 43(9): 1877–1885.

        [15] Kannangara K K, Zhou W H, Ding Z, et al. Investigation of feature contribution to shield tunneling-induced settlement using Shapley additive explanations method [J]. Journal of Rock Mechanics and Geotechnical Engineering, 2002, 14(4): 1052–1063.

        [16] Zhang K, Xu P D, Zhang J. Explainable AI in deep reinforcement learning models: A SHAP method applied in power system emergency control[C]//2020 IEEE 4th Conference on Energy Internet and Energy System Integration (EI2). October 30 - November 1, 2020, Wuhan, China. IEEE, 2021: 711–716.

        [17] Wang D, Thunéll S, Lindberg U, et al. Towards better process management in wastewater treatment plants: Process analytics based on SHAP values for tree-based machine learning methods[J]. Journal of Environmental Management, 2022, 301: 113941.

        [18] Fukas P, Rebstadt J, Menzel L, et al. Towards explainable artificial intelligence in financial fraud detection: Using shapley additive explanations to explore feature importance[C]//Advanced Information Systems Engineering: 34th International Conference, CAiSE 2022, Leuven, Belgium, June 6-10, 2022, Proceedings. New York: ACM, 2022: 109–126.

        [19] 王笑歌. 遼西地區(qū)干旱評價及預(yù)測研究[D]. 沈陽: 沈陽農(nóng)業(yè)大學(xué), 2019.

        [20] 余東行, 張保明, 趙傳, 等. 聯(lián)合卷積神經(jīng)網(wǎng)絡(luò)與集成學(xué)習(xí)的遙感影像場景分類[J]. 遙感學(xué)報(bào), 2020, 24(6): 717場727.

        [21] Friedman J H. Greedy function approximation: A gradient boosting machine[J]. The Annals of Statistics, 2001, 29(5): 1189–1232.

        [22] 萬倫軍. 基于梯度提升模型的負(fù)相關(guān)學(xué)習(xí)算法的研究與應(yīng)用[D]. 合肥: 中國科學(xué)技術(shù)大學(xué), 2014.

        [23] Memon N, Patel S B, Patel D P. Comparative analysis of artificial neural network and XGBoost algorithm for PolSAR image classification[M]//Lecture Notes in Computer Science. Cham: Springer International Publishing, 2019: 452–460.

        [24] Breiman L. Random forests[J]. Machine Learning, 2001, 45(1): 5–32.

        [25] 蔡慶空, 李二俊, 陶亮亮, 等. 基于改進(jìn)作物散射模型的陜西楊凌區(qū)麥田土壤水分反演研究[J]. 土壤, 2020, 52(4): 846–852.

        [26] Clewley D, Whitcomb J B, Akbar R, et al. A method for upscalingsoil moisture measurements to satellite footprint scale using random forests[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2017, 10(6): 2663–2673.

        [27] Karthikeyan L, Mishra A K. Multi-layer high-resolution soil moisture estimation using machine learning over the United States[J]. Remote Sensing of Environment, 2021, 266: 112706.

        [28] 范嘉智, 譚詩琪, 羅宇, 等. 長短期記憶神經(jīng)網(wǎng)絡(luò)在多時次土壤水分動態(tài)預(yù)測中的應(yīng)用[J]. 土壤, 2021, 53(1): 209–216.

        [29] Akiba T, Sano S, Yanase T, et al. Optuna: A next-generation hyperparameter optimization framework[C]// Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. August 4 - 8, 2019, Anchorage, AK, USA. New York: ACM, 2019: 2623–2631.

        [30] Cai Y, Zheng W G, Zhang X, et al. Research on soil moisture prediction model based on deep learning[J]. PLoS One, 2019, 14(4): e0214508.

        Prediction of Soil Moisture Content Based on Ensemble Learning—A Case Study of Western Liaoning Province

        FU Pingfan1,2, YANG Xiaojing1,2*, SU Zhicheng1,2, QU Yanping1,2, MA Miaomiao1,2

        (1 China Institute of Water Resources and Hydropower Research, Beijing 100038, China; 2 Research Center of Flood Control, Drought Relief, and Mitigation Engineering, Ministry of Water Resources, Beijing 100038, China)

        Accurate and efficient prediction of soil moisture content (SMC) is vital for field water management. In this study, two types of ensemble learning models (RF and GBM) were used to compare their applicability in SMC prediction based on the automatic hourly SMC data at 10–40 cm during 2018—2021 from three self-built sites in the western Liaoning area, the prediction results were also compared and verified at annual and seasonal scales. The SHAP (Shapley Additive Explanations) method was introduced to quantitatively characterize the effects of five input variables (precipitation, sunshine hour, average relative humidity, wind speed and average temperature) on SMC prediction. Interval division rules were developed to identify the interval of maximum contribution threshold of variables. The results show that2of GBM and RF models are 0.982 and 0.888 respectively on annual scale, temperature is the most important factor with the maximum contribution range of 21–23℃, whileRof the two models are 0.935 and 0.863 respectively on seasonal scale, sunshine hour is the most important factor with the maximum contribution range of 2–4 hours. This study innovatively applied SHAP method to analyze the contribution rates of input variables of machine learning, and verified the results of RF and GBM methods in SMC prediction, which can provide reference for related study on SMC.

        Ensemble learning; Soil moisture content forecasting; Gradient boosting machine; Random forest; Western Liaoning; SHAP value

        S152.7

        A

        10.13758/j.cnki.tr.2023.03.025

        付平凡, 楊曉靜, 蘇志誠, 等. 基于集成學(xué)習(xí)的土壤含水量預(yù)測研究——以遼西地區(qū)為例. 土壤, 2023, 55(3): 671–681.

        江西省“科技+水利”聯(lián)合計(jì)劃項(xiàng)目(2022KSG01002)和中國水利水電科學(xué)研究院防洪抗旱減災(zāi)工程技術(shù)研究中心青年創(chuàng)新人才推進(jìn)項(xiàng)目資助。

        (yxj@iwhr.com)

        付平凡(1998—),男,河南信陽人,碩士研究生,主要從事干旱監(jiān)測研究。E-mail: fupf123456@163.com

        猜你喜歡
        深度特征模型
        一半模型
        深度理解一元一次方程
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        如何表達(dá)“特征”
        不忠誠的四個特征
        深度觀察
        深度觀察
        深度觀察
        抓住特征巧觀察
        激情综合色综合久久综合| 国产一区二区在线中文字幕| 久久无码中文字幕东京热| 秀人网嫩模李梓熙大尺度| 日本在线免费一区二区三区| 国产一区二区三区在线蜜桃| 国产人妖乱国产精品人妖| 后入到高潮免费观看| 性高湖久久久久久久久| 人妻系列无码专区久久五月天| 无码国产精品第100页| 精品国产日韩无 影视| 亚洲女同系列在线观看| 日韩亚洲精品中文字幕在线观看| 初尝人妻少妇中文字幕| 国产精品亚洲αv天堂无码| 国产精品美女| 久久国产精品免费一区二区| 中文字幕无线精品亚洲乱码一区 | 日韩AVAV天堂AV在线| 亚洲国产精品色婷婷久久| 狼人精品剧情av在线观看| 国产精品h片在线播放| 法国啄木乌av片在线播放| 国产成人无码A区在线观| 无码8090精品久久一区| 青青草手机免费播放视频| 麻豆精品导航| 少妇人妻200篇白洁| 精品无码一区二区三区小说| 国产三区二区一区久久| 国产人与zoxxxx另类| 亚洲爱婷婷色婷婷五月| 樱花AV在线无码| 视频一区视频二区亚洲免费观看 | 国产精品久久久久9999赢消| 精品国产福利在线观看网址2022| 无码中文字幕专区一二三| 精品少妇一区二区三区四区| 美女视频在线观看网址大全| 国产精品成熟老女人|