亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向亞熱帶丘陵區(qū)小流域土壤有機(jī)碳空間預(yù)測(cè)的四種模型構(gòu)建及性能比較

        2023-08-12 06:04:36王志遠(yuǎn)湯哲周萍賴佳鑫戴玉婷周林王玉婷陳港明姜雨辰郭曉彬吳金水
        關(guān)鍵詞:環(huán)境變量機(jī)器重要性

        王志遠(yuǎn),湯哲,周萍,賴佳鑫,戴玉婷,周林,王玉婷,陳港明,姜雨辰,郭曉彬,吳金水

        (1. 中南大學(xué)計(jì)算機(jī)學(xué)院,湖南 長(zhǎng)沙 410083;2. 中國(guó)科學(xué)院亞熱帶農(nóng)業(yè)生態(tài)研究所,亞熱帶農(nóng)業(yè)生態(tài)過程重點(diǎn)實(shí)驗(yàn)室,長(zhǎng)沙農(nóng)業(yè)環(huán)境觀測(cè)研究站,湖南 長(zhǎng)沙 410125;3. 北京郵電大學(xué)計(jì)算機(jī)學(xué)院,北京 100876)

        土壤有機(jī)碳(SOC)含量是衡量生態(tài)系統(tǒng)生產(chǎn)力和生態(tài)服務(wù)功能的關(guān)鍵指標(biāo),在提升土壤肥力與農(nóng)業(yè)可持續(xù)利用以及減緩全球氣候變化方面至關(guān)重要。土壤有機(jī)碳的精準(zhǔn)預(yù)測(cè)有助于精確評(píng)估區(qū)域乃至國(guó)家尺度土壤碳庫(kù)儲(chǔ)量,從而助力區(qū)域碳中和目標(biāo)的實(shí)現(xiàn),具有突出的科學(xué)意義[1]。

        計(jì)算機(jī)模擬是預(yù)測(cè)土壤有機(jī)碳含量變化與分布的關(guān)鍵手段,國(guó)際上建立了諸多土壤有機(jī)碳過程模擬模型(Roth-C、CENTURY、DNDC等)。由于SOC含量與諸多環(huán)境因素密切相關(guān),對(duì)土壤條件、空間分辨率、氣候、水文、植被、地形地貌等環(huán)境條件的變化十分敏感[2],而現(xiàn)有的過程模型模擬主要涉及到碳輸入量、部分氣候和土壤屬性(如粘粒含量)等參數(shù),對(duì)其他環(huán)境變量的關(guān)注較小,導(dǎo)致不同區(qū)域和生態(tài)系統(tǒng)的過程模擬存在較大的不確定性,區(qū)域應(yīng)用存在局限性[3]。

        機(jī)器學(xué)習(xí)在處理數(shù)據(jù)方面具有固有的優(yōu)勢(shì),在SOC預(yù)測(cè)中具有很強(qiáng)的泛化性,也比傳統(tǒng)的數(shù)字化測(cè)繪方法更加敏感,可以較好地模擬SOC和環(huán)境協(xié)變量之間復(fù)雜的、非線性的關(guān)系,提升區(qū)域SOC含量預(yù)測(cè)的準(zhǔn)確性[4-6]。并且在樣本數(shù)并不豐富的情況下,機(jī)器學(xué)習(xí)模型仍然表現(xiàn)出很強(qiáng)的適用性[7]。比如Emadi等[6]使用不同機(jī)器學(xué)習(xí)模型對(duì)伊朗東北部SOC含量預(yù)測(cè)的研究表明,機(jī)器學(xué)習(xí)模型在SOC預(yù)測(cè)中具有很強(qiáng)的適用性。Khaledian和Miller[8]總結(jié)了近幾年來關(guān)于SOC的機(jī)器學(xué)習(xí)方面的研究認(rèn)為,人工神經(jīng)網(wǎng)絡(luò)(ANN)在預(yù)測(cè)SOC含量方面具有強(qiáng)有力的表現(xiàn),但是隨機(jī)森林(RF)比ANN更快,其結(jié)果也趨于更好的魯棒性,并且RF和立體派模型(Cubist)克服了ANN對(duì)小數(shù)據(jù)集敏感和完全是黑箱模型的弱點(diǎn)。由此可見,基于機(jī)器學(xué)習(xí)模型提高SOC空間模擬精度的研究已具備一定基礎(chǔ),但是在小流域尺度上如何對(duì)復(fù)雜地形地貌條件下的SOC含量開展精確預(yù)測(cè)仍然存在較大挑戰(zhàn)。

        亞熱帶丘陵區(qū)地形變化復(fù)雜,相關(guān)地形地貌和土壤環(huán)境的空間異質(zhì)性很大,目前已有基于傳統(tǒng)機(jī)器學(xué)習(xí)模型(如RF、支持向量機(jī)回歸SVR)預(yù)測(cè)復(fù)雜地形地貌區(qū)SOC含量的少量研究,且不同機(jī)器學(xué)習(xí)模型的表現(xiàn)具有明顯的差異性[9-10]。而關(guān)于極端梯度提升算法(XGBoost)和輕量級(jí)梯度提升機(jī)(LightGBM)對(duì)亞熱帶丘陵地貌區(qū)SOC的預(yù)測(cè)性能尚未有過嘗試。由于XGBoost考慮了訓(xùn)練數(shù)據(jù)為稀疏值的情況,可以為缺失值或者指定的值指定分支的默認(rèn)方向,從而大大提升算法的效率。LightGBM模型則采用了直方圖算法將遍歷樣本轉(zhuǎn)變?yōu)楸闅v直方圖,極大的降低了時(shí)間復(fù)雜度,同時(shí)也降低了內(nèi)存消耗。因此很有必要對(duì)XGBoost和LightGBM模型預(yù)測(cè)復(fù)雜地形地貌區(qū)SOC含量的性能進(jìn)行評(píng)價(jià)。基于此,本研究以亞熱帶丘陵區(qū)一個(gè)具有復(fù)雜地形地貌特征的小流域?yàn)閷?duì)象,結(jié)合地形、氣候、植被等環(huán)境變量的輸入,以傳統(tǒng)的非集成機(jī)器學(xué)習(xí)模型SVR與傳統(tǒng)的RF模型作為對(duì)比,分析XGBoost和LightGBM模型對(duì)土壤表層(0~20 cm)SOC含量預(yù)測(cè)的可能性,評(píng)估不同機(jī)器學(xué)習(xí)模型在亞熱帶丘陵小流域SOC預(yù)測(cè)中的性能差異,以期為復(fù)雜地形地貌區(qū)SOC含量的精確預(yù)測(cè)提供理論基礎(chǔ)。

        1 材料與方法

        1.1 研究區(qū)域概況

        研究區(qū)位于湖南省長(zhǎng)沙縣金井鎮(zhèn)(112°56′~113°30′E、27°55′~28°40′N),面積約134.40 km2,其中耕地面積為23.13 km2。地貌類型以丘陵為主,海拔介于56~440 m。研究區(qū)域?qū)賮啛釒Ъ撅L(fēng)氣候;多年平均氣溫17.2 ℃;年平均降水量1360 mm。金井鎮(zhèn)境內(nèi)河道屬湘江水系,有金井河流經(jīng)境內(nèi)。土壤類型主要為花崗巖和板頁(yè)巖風(fēng)化物發(fā)育的紅壤和水稻土。土地利用類型以水田和林地為主,林地主要以馬尾松、杉木等人工林和灌木、草叢群落為主,常綠闊葉林的覆蓋率相對(duì)較低。

        1.2 土壤樣品采集與分析

        于2009年8月根據(jù)流域內(nèi)地形分布情況,按各高程段樣點(diǎn)大致均勻、隨機(jī)取樣的原則布置采樣點(diǎn)(圖1)。每個(gè)樣點(diǎn)以GPS定位點(diǎn)為中心,5 m為半徑的樣方取樣,采用土鉆隨機(jī)采集5~8個(gè)表層土樣(0~20 cm),混勻作為一個(gè)土樣,共采集601個(gè)土壤樣品。所有土樣置于室內(nèi)通風(fēng)處自然風(fēng)干,并剔除石子、植物根系等。風(fēng)干土樣過0.25 mm篩后供SOC含量的測(cè)定。具體的土壤采樣與分析方法詳見劉歡瑤等[11]的研究。

        圖1 研究區(qū)域與采樣點(diǎn)分布Fig. 1 Study area and distribution of sampling points

        1.3 環(huán)境變量的選擇與提取

        本研究選取地形、氣候和植被三類環(huán)境變量作為模型輸入?yún)?shù)。地形變量包括海拔、坡度、地形濕度指數(shù)等。由于氣溫隨海拔和坡度坡向的改變呈現(xiàn)較大的差異,而降雨量在流域內(nèi)差異不大,因此本研究將氣溫作為氣候變量納入環(huán)境變量指標(biāo)。植被變量包括歸一化植被指數(shù),相對(duì)植被指數(shù)等。所有環(huán)境變量的提取來源于從中國(guó)科學(xué)院地理科學(xué)與資源研究所(https://www.resdc.cn/Default.aspx)下載的數(shù)據(jù)和從美國(guó)地質(zhì)調(diào)查局(https://earthexplorer.usgs.gov)下載的landsat 5衛(wèi)星圖像數(shù)據(jù)。除氣溫的精度是100 m外,其他環(huán)境變量的精度都是30 m。使用ArcGis 10.8對(duì)氣溫變量進(jìn)行重采樣至30 m。除了相對(duì)植被指數(shù)(RVI)外,所有下載的環(huán)境變量數(shù)據(jù)經(jīng)ArcGis 10.8處理后,采用近鄰抽樣法提取到樣點(diǎn)所在位置的變量。Hengl等[12]的研究描述了所有環(huán)境變量的提取方法。具體環(huán)境變量的使用情況與介紹見表1。

        表1 樣本變量特征表述Table 1 Description of sample variable characteristics

        RVI最早由Jordan[13]提出,其計(jì)算方法為:

        式中:NIR為紅外波段值,RED為紅色波段值。

        1.4 機(jī)器學(xué)習(xí)模型

        本研究采用XGBoost和lightGBM兩種機(jī)器學(xué)習(xí)模型進(jìn)行SOC預(yù)測(cè),并與傳統(tǒng)的RF模型和SVR非集成學(xué)習(xí)模型進(jìn)行對(duì)比。所有模型均基于python3.7實(shí)現(xiàn),其中RF和SVR模型來自于sklearn包,XGBoost模型來自于xgboost包,LightGBM模型自于lightgbm包。

        RF是基于決策樹的機(jī)器學(xué)習(xí)算法[14],常用于回歸分析問題。該模型是由多個(gè)決策樹組成的集成學(xué)習(xí)模型,通過對(duì)每個(gè)決策樹的預(yù)測(cè)結(jié)果進(jìn)行平均或加權(quán)平均來得出最終的預(yù)測(cè)結(jié)果。隨機(jī)森林回歸在構(gòu)建每個(gè)決策樹時(shí),會(huì)隨機(jī)選擇一部分訓(xùn)練樣本和一部分特征進(jìn)行訓(xùn)練,以此來避免決策樹的過擬合問題,提高模型的泛化能力。

        SVR是一種基于統(tǒng)計(jì)學(xué)習(xí)理論的回歸分析方法,通過尋找最優(yōu)超平面,將數(shù)據(jù)映射到高維空間中進(jìn)行非線性回歸預(yù)測(cè)。SVR的核心思想是通過尋找最優(yōu)超平面來最小化預(yù)測(cè)誤差。在SVR中,最優(yōu)超平面是指能夠?qū)㈩A(yù)測(cè)值與真實(shí)值之間的誤差最小化的超平面[15]。

        XGBoost是一種基于決策樹的梯度提升(GBDT)算法[16-17],GBDT在訓(xùn)練新的基學(xué)習(xí)器時(shí)只使用了損失函數(shù)的一階導(dǎo)數(shù),而XGBoost則對(duì)損失函數(shù)進(jìn)行二階泰勒展開,同時(shí)使用損失函數(shù)的一階導(dǎo)數(shù)和二階導(dǎo)數(shù),此外,XGBoost還在損失函數(shù)中加入了正則項(xiàng)來控制模型的復(fù)雜度,有利于防止過擬合。XGboost可以自動(dòng)處理缺失值、自動(dòng)調(diào)整每個(gè)弱學(xué)習(xí)器的參數(shù)、自動(dòng)調(diào)整每個(gè)弱學(xué)習(xí)器的深度,以便模型更好地?cái)M合數(shù)據(jù)。

        LightGBM是一種基于決策樹的高效算法,是一種梯度提升機(jī)(GBM)的改進(jìn)版本,用于提高機(jī)器學(xué)習(xí)算法的準(zhǔn)確性和效率[18]。LightGBM的工作原理如下:使用基于樹的算法來構(gòu)建模型,并使用梯度提升算法來優(yōu)化模型的準(zhǔn)確性。LightGBM支持并行訓(xùn)練,可以更快地構(gòu)建模型;支持自動(dòng)調(diào)整參數(shù),可以自動(dòng)調(diào)整模型的參數(shù),以獲得更好的性能;支持多種數(shù)據(jù)類型,可以處理稀疏數(shù)據(jù)以及類別特征。

        1.5 數(shù)據(jù)集切分

        在進(jìn)行實(shí)驗(yàn)之前,對(duì)601個(gè)樣本進(jìn)行了處理,剔除掉無效樣本和異常值,最后剩下401個(gè)樣本點(diǎn)作為輸入。為了評(píng)估不同模型對(duì)SOC預(yù)測(cè)的適用性,基于sklearn軟件包將數(shù)據(jù)集隨機(jī)分為訓(xùn)練集(80%)和測(cè)試集(20%)。每個(gè)模型都用訓(xùn)練數(shù)據(jù)進(jìn)行擬合,用實(shí)驗(yàn)數(shù)據(jù)進(jìn)行驗(yàn)證。每個(gè)模型的訓(xùn)練數(shù)據(jù)集都采用10倍的交叉驗(yàn)證。

        1.6 模型參數(shù)調(diào)整與模型評(píng)估

        模型的超參數(shù)優(yōu)化采用RandomSearch[19],在超參數(shù)的組合空間中進(jìn)行隨機(jī)采樣和搜索,其搜索能力取決于設(shè)定的采樣次數(shù)(n_iter參數(shù))。RandomSearch的搜索過程如下:對(duì)于搜索范圍為分布的超參數(shù),按照給定的分布隨機(jī)采樣;對(duì)于搜索范圍為列表的超參數(shù),在給定的列表中以中等概率采樣;如果給定的搜索范圍為全部列表,則不放回采樣n_iter次數(shù)。

        模型評(píng)估采用決定系數(shù)(R2)、平均絕對(duì)誤差(MAE)、均方根誤差(RMSE)和林氏一致性相關(guān)系數(shù)(Lin’s Concordance Correlation Coefficient,LCCC)四個(gè)指標(biāo)來確定模型的模擬性能。R2反應(yīng)了因變量的波動(dòng)有多少百分比能被自變量的波動(dòng)所描述,R2接近1表示模型完美,即100%的變異被模型解釋,大于0.75時(shí)表示良好預(yù)測(cè),0.50~0.75之間表示可接受的預(yù)測(cè),小于0.50表示不可接受的預(yù)測(cè)[20]。MAE可以避免正負(fù)誤差相加出現(xiàn)相互抵消的問題,因而可以準(zhǔn)確反映預(yù)測(cè)誤差的大小。MAE值越接近0,說明模型的預(yù)測(cè)能力越好。RMSE可以評(píng)價(jià)數(shù)據(jù)的變化程度,RMSE值越接近0,說明模型的預(yù)測(cè)能力越好。LCCC結(jié)合了精度和偏差兩個(gè)度量。LCCC的取值在(-1, +1)之間,+1表示完全一致,大于0.9表示接近完全一致,0.8~0.9之間表示實(shí)質(zhì)性一致,0.65~0.8之間表示中等一致,小于0.65表示差一致[21]。四個(gè)指標(biāo)的計(jì)算方法為:

        式中:n表示樣本量,ai為第i個(gè)樣本的SOC含量預(yù)測(cè)值,bi是第i個(gè)樣本的SOC含量實(shí)測(cè)值,k是所有n個(gè)樣本預(yù)測(cè)值的平均值,h是所有n個(gè)樣本實(shí)測(cè)值的平均值,θa和θb分別是n個(gè)樣本預(yù)測(cè)值和實(shí)測(cè)值的變異系數(shù),r是實(shí)測(cè)值和預(yù)測(cè)值之間的皮爾遜相關(guān)系數(shù)。

        2 結(jié)果與分析

        2.1 土壤有機(jī)碳數(shù)據(jù)集統(tǒng)計(jì)特征

        根據(jù)實(shí)測(cè)的SOC數(shù)據(jù)分析顯示,SOC含量變化范圍介于1.47~39.37 g/kg,平均值為12.27 g/kg,標(biāo)準(zhǔn)差為6.62 g/kg。偏度為0.99,峰度為1.57(表2),整體分布近似于正態(tài)分布,適合訓(xùn)練機(jī)器學(xué)習(xí)模型。SOC的變異系數(shù)為54%,屬于中等變異性類。由于研究區(qū)域地形多變,區(qū)域植被呈現(xiàn)一定的垂直分布特點(diǎn),此外土地利用方式也存在差異,導(dǎo)致樣本點(diǎn)的SOC變異系數(shù)偏高。

        表2 土壤有機(jī)碳實(shí)測(cè)數(shù)據(jù)樣本集統(tǒng)計(jì)特征Table 2 Statistical characteristics of the sample set of SOC measurement data

        2.2 模型的評(píng)價(jià)與比較分析

        對(duì)SVR、RF、XGBoost和LightGBM四種機(jī)器學(xué)習(xí)算法預(yù)測(cè)亞熱帶丘陵區(qū)小流域SOC的性能進(jìn)行統(tǒng)計(jì)分析,根據(jù)R2、MAE、RMSE和LCCC四個(gè)指標(biāo)的比較,結(jié)果顯示,RF模型的預(yù)測(cè)誤差相對(duì)最低,其MAE值和RMSE值分別為3.323和4.464,且R2值為最高(0.540),LCCC值(0.672)僅次于XGBoost(表3),具有相對(duì)最優(yōu)的模型預(yù)測(cè)效果,其原因?yàn)镽F采用自助采樣法和隨機(jī)特征選擇的方式生成多棵決策樹,以此來降低方差,防止過擬合,提高泛化能力。XGBoost是一種基于樹的集成學(xué)習(xí)算法,通過優(yōu)化的損失函數(shù)和正則化技術(shù)來提高模型的泛化能力。在本研究中,XGBoost模型亦能較好地模擬SOC分布,其預(yù)測(cè)誤差MAE值(3.416)和RMSE值(4.523)略高于RF模型,R2值略低(0.528),但是LCCC值(0.676)卻為最高。排在第三位的LightGBM模型的預(yù)測(cè)誤差值略高于XGBoost,模擬精度略低。而SVR模型具有相對(duì)最高的預(yù)測(cè)誤差,MAE值和RMSE值分別達(dá)到3.698和4.982,且R2值(0.427)和LCCC值(0.537)為最低,低于模型預(yù)測(cè)精度的最低可接受值(0.50),模型表現(xiàn)最差,究其原因?yàn)镾VR算法對(duì)數(shù)據(jù)的線性可分性要求比較高,如果數(shù)據(jù)集中存在復(fù)雜的非線性關(guān)系,SVR算法的擬合度可能會(huì)降低。

        表3 四種機(jī)器學(xué)習(xí)模型的精度對(duì)比Table 3 Comparison of prediction accuracy of four machine learning models

        2.3 環(huán)境變量的相對(duì)重要性分析

        圖2給出了RF、XGBoost和LightGBM三種模型的環(huán)境變量特征重要性分布(SVR未給出,所使用的sklearn包不提供SVR顯示特征重要性的功能)。由于RF、XGBoost和LightGBM采用不同的方法評(píng)估環(huán)境變量重要性,可能會(huì)導(dǎo)致不同環(huán)境變量的重要性呈現(xiàn)一定的差異。RF算法采用隨機(jī)特征選擇的方式生成多棵決策樹,每棵決策樹只使用部分特征進(jìn)行劃分,通過計(jì)算每個(gè)環(huán)境變量在所有決策樹中出現(xiàn)的次數(shù)來評(píng)估其重要性。在RF模型中,各環(huán)境變量的重要性從高到低分別為海拔(30.49%)、氣溫(21.93%)、坡度(13.97%),植被指數(shù)(12.64%)、landsat 5第四波段(10.01%)、相對(duì)植被指數(shù)(6.89%)和地形濕度指數(shù)(4.07%)。XGBoost則是通過計(jì)算每個(gè)環(huán)境變量在每棵樹中的分裂貢獻(xiàn)度來評(píng)估特征的重要性。分裂貢獻(xiàn)度是指每個(gè)環(huán)境變量在樹的每個(gè)分裂點(diǎn)上的增益值之和。在本研究中,XGBoost模型環(huán)境變量重要性分布與RF相同,各變量重要性占比從高到低分別為海拔(32.84%)、氣溫(22.11%)、坡度(18.99%)、植被指數(shù)(11.00%)、landsat 5第四波段(8.83%)、相對(duì)植被指數(shù)(3.51%)和地形濕度指數(shù)(2.71%)。LightGBM的環(huán)境變量重要性計(jì)算則是通過計(jì)算每個(gè)環(huán)境變量在每個(gè)葉子節(jié)點(diǎn)上的樣本數(shù)來評(píng)估特征的重要性。因此LightGBM的環(huán)境變量特征重要性分布與RF和XGBoost存在較大差異,從高到低分別為海拔(20.61%)、地形濕度指數(shù)(16.36%)、植被指數(shù)(14.89%)、坡度(13.83%)、landsat 5第四波段(12.50%)、溫度(11.30%)和相對(duì)植被指數(shù)(10.51%)。上述結(jié)果顯示,所選幾類環(huán)境變量中以海拔對(duì)三種模型的預(yù)測(cè)最為重要,說明在亞熱帶丘陵地區(qū)海拔對(duì)模型預(yù)測(cè)SOC含量的高低起顯著作用。

        圖2 環(huán)境變量在三種模型預(yù)測(cè)SOC中的相對(duì)重要性Fig. 2 Relative importance of environmental variables for SOC prediction by three models

        通過對(duì)上述7種環(huán)境變量按表1歸類為地形變量、氣候變量和植被變量三類。在RF模型中,上述三類變量的重要性占比分別為48.53%、21.93%和29.60%。在XGBoost模型中,各變量的重要性占比分別為54.54%、22.11%和23.34%。而在LightGBM中,地形、氣候和植被變量的重要性占比分別為50.8%、11.3%和37.99%。三種模型地形變量類別的重要性均以地形排在第一位。此外,RF和XGBoost在變量類別的重要性分布上表現(xiàn)一致。而LightGBM呈現(xiàn)出一定的差異性,其植被變量的重要性明顯偏高,比RF高出8.39個(gè)百分點(diǎn),比XGBoost高出14.65個(gè)百分點(diǎn),而氣候變量的重要性分別比RF低10.63個(gè)百分點(diǎn),比XGBoost低10.81個(gè)百分點(diǎn)。

        2.4 土壤有機(jī)碳空間分布的預(yù)測(cè)模擬

        通過RF、SVR、XGBoost和LightGBM四種機(jī)器學(xué)習(xí)方法預(yù)測(cè)的SOC含量范圍分別為5.35~21.72 g/kg、5.31~19.18 g/kg、3.57~20.42 g/kg和6.08~22.09 g/kg(圖3)。盡管不同模型的總體分布特征相似,但SOC含量的高低卻有較為明顯的差異。其中LightGBM模型預(yù)測(cè)的SOC含量最低值和最高值均高于其他模型,而XGBoost模型預(yù)測(cè)的SOC含量最低值在所有模型中為最低。

        圖3 四種機(jī)器學(xué)習(xí)模型的SOC的空間預(yù)測(cè)結(jié)果Fig. 3 Spatial prediction of SOC by four machine learning models

        將四種模型預(yù)測(cè)的SOC含量通過ArcGIS 10.8制圖后顯示,SOC空間分布呈現(xiàn)出相同的規(guī)律,即北部大部分區(qū)域、西南方邊緣區(qū)域和東南方的邊緣區(qū)域SOC含量高,中部SOC含量普遍偏低。SVR模型預(yù)測(cè)的東南部和西南部的SOC含量值明顯高于其他模型的預(yù)測(cè)值。SOC含量高低的空間分布與海拔的高低分布具有一致性(圖1、圖3),再次證明了海拔對(duì)于SOC含量的預(yù)測(cè)起顯著作用,即在地貌復(fù)雜多變且耕地較少的區(qū)域,地形及其相關(guān)環(huán)境變量對(duì)SOC的空間分布具有重要影響。

        3 討論

        本研究中幾種模型模擬SOC含量的預(yù)測(cè)精度存在一定的差異(表3)。RF、LightGBM和XGBoost均表現(xiàn)出較好的適用性,以RF模型的性能相對(duì)最好,其預(yù)測(cè)SOC含量的R2(0.540)亦略高于LightGBM和XGBoost模型,而SVR模型并不適用于亞熱帶丘陵區(qū)復(fù)雜地形的SOC含量預(yù)測(cè)。就四種模型對(duì)比而言,RF可以作為亞熱帶丘陵區(qū)景觀單元SOC含量預(yù)測(cè)的最佳適用模型。但是,F(xiàn)athololoumi等[22]應(yīng)用RF和Cubist模型對(duì)伊朗北部復(fù)雜地形山區(qū)SOC 等土壤屬性的預(yù)測(cè)表明,不同預(yù)測(cè)模型的預(yù)測(cè)精度存在差異,相比于RF模型,Cubist模型非平坦區(qū)域擁有更高的模擬精度,表現(xiàn)出較好的適用性。Emadi等[6]對(duì)伊朗北部山地SOC的模擬結(jié)果表明,深度神經(jīng)網(wǎng)絡(luò)模型相較于其他模型(SVR、人工神經(jīng)網(wǎng)絡(luò)、RF和XGBoost)更具有優(yōu)勢(shì)。這與本文的研究結(jié)果存在差異。原因可能是不同區(qū)域土壤性質(zhì)與其他主導(dǎo)SOC空間分布的環(huán)境因素相差太大,故數(shù)據(jù)集的特征會(huì)產(chǎn)生較大偏差。由此可見,不同區(qū)域SOC模擬的最適模型也存在差異,在開展SOC模擬預(yù)測(cè)時(shí),應(yīng)根據(jù)特定的區(qū)域環(huán)境特點(diǎn)篩選合適的模擬模型以提升SOC空間模擬的精度。未來可以嘗試更多模型或進(jìn)行模型融合,以探究適合更為廣泛區(qū)域尺度的SOC模擬模型。

        就同一模型的模擬精度而言,本研究中RF模型預(yù)測(cè)SOC含量的R2值高于Zeraatpisheh等[23]在伊朗南部半干旱地區(qū)達(dá)拉布平原農(nóng)業(yè)用地使用237個(gè)樣本結(jié)合RF算法進(jìn)行SOC含量預(yù)測(cè)的R2值(0.29),也略高于Yang等[24]使用49個(gè)樣本點(diǎn)作為訓(xùn)練集對(duì)中國(guó)安徽省某地區(qū)農(nóng)田SOC含量進(jìn)行RF預(yù)測(cè)的R2值(0.51)。其原因可能跟本研究的土壤采樣密度較高,模型預(yù)測(cè)的樣本量較多有關(guān)。較高的樣本量條件下模型能得到更加充分的訓(xùn)練,因此具有相對(duì)較高的模擬精度。盡管本研究所用SOC的樣本數(shù)較已有研究稍多,但在數(shù)量上仍然不足。如Malone等[25]所述,機(jī)器學(xué)習(xí)模型預(yù)測(cè)SOC含量的一個(gè)主要誤差來源是樣本數(shù)據(jù)的稀少,因此可將樣本數(shù)不足歸為本研究機(jī)器學(xué)習(xí)模型預(yù)測(cè)SOC含量的高不確定性的主要原因。此外,此前的研究已經(jīng)證明高精度的環(huán)境變量數(shù)據(jù)對(duì)于土壤屬性預(yù)測(cè)的有效性[26],但從已有的小流域尺度的研究來看,高精度的環(huán)境變量數(shù)據(jù)的應(yīng)用缺乏關(guān)注。本研究也缺乏更高精度的環(huán)境變量數(shù)據(jù),這也是模型精度不高的另一個(gè)原因。后續(xù)可以考慮擴(kuò)大樣本數(shù)量與范圍,提高環(huán)境變量的分辨率(目前使用的一般是30 m ×30 m或100 m × 100 m的分辨率),探尋更好的樣本降噪方法,使機(jī)器學(xué)習(xí)模型具有更充分的訓(xùn)練空間,可能會(huì)進(jìn)一步提升機(jī)器學(xué)習(xí)模型對(duì)于復(fù)雜地形區(qū)土壤有機(jī)碳的預(yù)測(cè)精度。

        此外,所選幾種模型環(huán)境變量的相對(duì)重要性也存在差異。XGBoost模型中環(huán)境變量的相對(duì)重要性分布與RF相似。但是LightGBM與RF和XGBoost模型在環(huán)境變量的特征重要性排序上差異較大,表現(xiàn)為植被變量高于上述二者10%左右且氣候變量低10%左右。盡管如此,三種模型均以地形(主要為海拔)作為解釋模型擬合度的最重要的環(huán)境變量。這可能跟亞熱帶丘陵區(qū)地形地貌復(fù)雜有關(guān),地形相較于其他環(huán)境變量具有更高的空間異質(zhì)性。因此,幾種機(jī)器學(xué)習(xí)模型預(yù)測(cè)的SOC含量的空間分布格局相似(圖3),均以高海拔的北部、東南部和西南部地區(qū)的SOC含量較高,該區(qū)域植被覆蓋密集,土壤相對(duì)肥沃,植被的固土能力強(qiáng),不易發(fā)生養(yǎng)分流失,另外林木茂密為動(dòng)物們提供了很好的棲息所,生物多樣性高,枯枝落葉和動(dòng)物糞便尸體等均貢獻(xiàn)于土地肥力。張厚喜等[27]和鐘兆全[28]分別運(yùn)用不同模型預(yù)測(cè)福建省SOC含量,發(fā)現(xiàn)高程是影響SOC含量的重要因子,且SOC含量隨海拔的升高而增加。即在地貌復(fù)雜多變且耕地較少的區(qū)域,地形及其相關(guān)環(huán)境變量往往對(duì)SOC的空間分布有關(guān)鍵性的影響。而在小流域尺度內(nèi),沒有了降雨這一氣候因素的作用,地形地貌對(duì)于SOC的空間分布的影響更為突出。Zeraatpisheh等[29]對(duì)沙漠地區(qū)SOC的模擬研究顯示,海拔和地形濕度指數(shù)均是預(yù)測(cè)沙漠地區(qū)SOC含量的重要參數(shù),而本研究結(jié)果顯示地形濕度指數(shù)對(duì)亞熱帶丘陵區(qū)SOC的模型預(yù)測(cè)貢獻(xiàn)不大。John等[7]的研究顯示,在濱海平原區(qū),地形對(duì)于機(jī)器學(xué)習(xí)模型的SOC預(yù)測(cè)貢獻(xiàn)不大,而土壤理化性質(zhì)是最重要的環(huán)境變量,因?yàn)樵谄皆瓍^(qū)海拔幾乎沒有差異,海拔對(duì)于模型學(xué)習(xí)的過程貢獻(xiàn)不高。因此,可以針對(duì)不同研究區(qū)域的主導(dǎo)環(huán)境變量特點(diǎn)選取模型的重要環(huán)境參數(shù)。

        本研究所選的亞熱帶丘陵區(qū)典型小流域,不僅具有復(fù)雜的地形地貌特點(diǎn),也受到強(qiáng)烈的人類活動(dòng)影響。但是在環(huán)境變量的選取方面僅選擇了容易獲取的地形變量、氣候變量、植被變量參與模型構(gòu)建并預(yù)測(cè)SOC含量,并未加入人類活動(dòng)對(duì)SOC含量的影響。有研究表明農(nóng)業(yè)活動(dòng)(如輪作、灌溉、施肥等)對(duì)SOC尤其是土壤表層SOC含量產(chǎn)生重要影響,從而可能影響氣候等自然環(huán)境變量與SOC的關(guān)系[30-31]。除此之外,有研究報(bào)道土地利用、土壤母質(zhì)、土壤養(yǎng)分指標(biāo)等也與SOC關(guān)系密切[32-33]。因此,未來應(yīng)尋找更多與SOC相關(guān)性強(qiáng)的輔助變量以及能代表人類活動(dòng)的替代因子作為模型輸入?yún)?shù),從而提升模型的泛化性能和魯棒性。后續(xù)研究可以擴(kuò)展環(huán)境預(yù)測(cè)因子(如土壤理化性質(zhì)和人類活動(dòng)),并涵蓋更為廣泛區(qū)域的土壤類型,提高機(jī)器學(xué)習(xí)模型的預(yù)測(cè)精度與廣泛適應(yīng)性,實(shí)現(xiàn)更高精度和更大區(qū)域尺度的SOC含量的預(yù)測(cè)。

        4 結(jié)論

        在具有復(fù)雜地形的亞熱帶丘陵地區(qū),RF、LightGBM和XGBoost模型均能較為有效地預(yù)測(cè)SOC含量,以隨機(jī)森林的模擬性能相對(duì)較優(yōu),可以應(yīng)用于亞熱帶丘陵區(qū)的SOC空間分布預(yù)測(cè)研究。而SVR模型的模擬精度最低,不適用于亞熱帶丘陵區(qū)SOC的空間預(yù)測(cè)研究。在環(huán)境變量重要性上,幾種模型均以地形(主要為海拔)作為SOC空間分布預(yù)測(cè)的最重要的影響因子,其余環(huán)境變量的重要性在不同模型之間存在較大差異。幾種模型預(yù)測(cè)的SOC含量結(jié)果具有相似的空間分布格局和顯著的空間異質(zhì)性,總體表現(xiàn)為北部、西南方邊緣區(qū)域和東南方邊緣區(qū)域的高海拔區(qū)SOC含量高于中部低海拔區(qū)。

        猜你喜歡
        環(huán)境變量機(jī)器重要性
        基于最大熵模型的云南思茅松潛在分布區(qū)
        機(jī)器狗
        機(jī)器狗
        “0”的重要性
        論七分飽之重要性
        從桌面右鍵菜單調(diào)用環(huán)境變量選項(xiàng)
        幼兒教育中閱讀的重要性
        甘肅教育(2020年21期)2020-04-13 08:09:24
        徹底弄懂Windows 10環(huán)境變量
        未來機(jī)器城
        電影(2018年8期)2018-09-21 08:00:06
        讀《邊疆的重要性》有感
        鸭子tv国产在线永久播放| 亚洲性码不卡视频在线| 亚洲精品国产二区在线观看| 一区二区二区三区亚洲 | 久久久久亚洲av无码麻豆| 国产精品毛片无码| 国产成人cao在线| 亚洲男女视频一区二区| 日本美女在线一区二区| 美国少妇性xxxx另类| 99精品欧美一区二区三区| 国产白丝网站精品污在线入口| 久久午夜伦鲁鲁片免费| 国产激情一区二区三区不卡av| 精品精品国产高清a毛片| 精品成人av一区二区三区| 久久九九有精品国产尤物| 在线亚洲精品国产成人二区| 91精品国产九色综合久久香蕉| 国产精品美女一区二区视频| 黄瓜视频在线观看| 久久精品免费无码区| 亚洲国产综合性感三级自拍| 青青草成人免费在线观看视频| 中文字幕亚洲综合久久菠萝蜜| 亚洲日韩v无码中文字幕| 无码人妻丝袜在线视频| 日本特殊按摩在线观看| 国产成人自拍高清在线| 巨茎中出肉欲人妻在线视频| 亚洲av国产av综合av| 国产人妖一区二区在线| 日本按摩偷拍在线观看| 中文字幕亚洲综合久久菠萝蜜| 亚洲最大av资源站无码av网址| 中文国产成人精品久久一区| 日本大片一区二区三区| 精品露脸国产偷人在视频| 内射囯产旡码丰满少妇| 久久99精品这里精品动漫6| 蓝蓝的天空,白白的云|