亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于距離相關(guān)系數(shù)和Catboost方法的森林蓄積量估測

        2023-07-05 09:50:14胡建錦方陸明吳達勝
        關(guān)鍵詞:方法模型

        胡建錦,熊 偉,方陸明,吳達勝

        (1. 浙江農(nóng)林大學(xué) a. 數(shù)學(xué)與計算機科學(xué)學(xué)院;b. 浙江省林業(yè)智能監(jiān)測與信息技術(shù)研究重點實驗室;c. 林業(yè)感知技術(shù)與智能裝備國家林業(yè)和草原局重點實驗室,浙江 杭州 311300;2. 龍泉市林業(yè)局,浙江 龍泉 610100)

        森林蓄積量作為林業(yè)科學(xué)研究和森林環(huán)境評價的重要指標(biāo),在點評森林資源總量與品質(zhì)以及對森林運營管理和環(huán)境保護中都起到關(guān)鍵作用[1-2]。應(yīng)對當(dāng)前氣候變化,我國提出到2030年前二氧化碳排放量達到高峰,爭取2060年前達到碳中和,其中,森林蓄積量將比2005年增加60 億m3,蓄積量的增加也提高了森林碳匯能力。所以,精準(zhǔn)地估測森林蓄積量是實現(xiàn)我國“雙碳”目標(biāo)的一個重要理論依據(jù)。目前森林蓄積量評估大多數(shù)是由人工測量得到,估測成本比較大。Landsat-8 是由NASA 發(fā)射于2013年具有高分辨率的新型遙感衛(wèi)星,帶有兩個傳感器(陸地成像儀傳感器和熱紅外傳感器),是目前應(yīng)用比較普遍的遙感衛(wèi)星之一。當(dāng)前,隨著衛(wèi)星遙感技術(shù)的不斷發(fā)展,結(jié)合地面測量的數(shù)據(jù)用機器學(xué)習(xí)模型估測森林蓄積量,是未來森林蓄積量的主流估測方法之一。衛(wèi)星遙感技術(shù)估測森林蓄積量的研究常有兩個方面的應(yīng)用:一是用不同的衛(wèi)星圖像源來做森林蓄積量的估測[3-4];二是使用不同的估測模型,比較成熟的有線性模型算法和非線性模型算法(如人工神經(jīng)網(wǎng)絡(luò)[5-6]、隨機森林[7-8]、KNN[9]、梯度提升[10]等)。Catboost 算法[11-13]是2017年國際上提出的一個新的開源的機器學(xué)習(xí)庫[14-15],在魯棒性方面表現(xiàn)優(yōu)越,它主要減少了對很多超參數(shù)調(diào)優(yōu)的需求,并降低了過度擬合的機會,這也使得模型變得更加具有通用性。該算法常應(yīng)用在工業(yè)界,在林業(yè)科學(xué)領(lǐng)域中的研究還較少。

        本研究基于距離相關(guān)系數(shù)的特征提取方法,采用多源數(shù)據(jù),包括Landsat-8 遙感衛(wèi)星影像數(shù)據(jù)、森林資源二類調(diào)查數(shù)據(jù)以及數(shù)字高程模型(DEM)3 種數(shù)據(jù)結(jié)合,運用Catboost 模型對龍泉市[16-18]區(qū)域進行森林蓄積量的估測,在森林蓄積量中給出一種新的估測模型,能為我國實現(xiàn)“雙碳”目標(biāo)提供一定的理論依據(jù)。

        1 材料與方法

        1.1 研究區(qū)概況

        龍泉市(27°42'~28°20'N,118°42'~119°25'E)是我國著名的青瓷之都、寶劍之邦、靈芝第一鄉(xiāng),也是世界香菇栽培發(fā)源地,轄4 個街道8 個鎮(zhèn)7 個鄉(xiāng),人口29 萬(2017年統(tǒng)計),東西寬約70.25 km,南北長約70.80 km,總面積3 059 km2左右,浙江第二大縣級市,還是國家歷史文化名城。森林的覆蓋率達到84.3%,覆蓋面積將近25.72 hm2,森林蓄積量也高達1 912 萬m3,生態(tài)環(huán)境質(zhì)量上乘。

        1.2 研究數(shù)據(jù)

        本研究采用龍泉市多源數(shù)據(jù),包括2017年11月份的Landsat-8 對地觀測衛(wèi)星影像數(shù)據(jù)以及2017年森林資源二類調(diào)查數(shù)據(jù),還有2009年的數(shù)字高程模型(DEM)數(shù)據(jù)。

        本研究把單位蓄積量作為估測指標(biāo),森林資源小班作為研究單元,運用前人的研究方法[19-21],把Landsat-8 衛(wèi)星遙感影像數(shù)據(jù)進行6 個步驟的預(yù)處理(輻射定標(biāo)、大氣校正、正射校正、幾何校正、圖像融合、鑲嵌剪裁),處理結(jié)果如圖1 所示。

        圖1 龍泉市Landsat-8 遙感影像預(yù)處理結(jié)果Fig. 1 Remote sensing in Longquan city

        首先從Landsat-8 遙感影像中提取共11 個自變量因子,包含6 個波段數(shù)據(jù)(B2、B3、B4、B5、B6、B7),以及通過波段計算獲得5 個指數(shù)數(shù)據(jù)(歸一化植被指數(shù)、增強型植被指數(shù)、差值植被指數(shù)、紅色指數(shù)、比值植被指數(shù))(表1)。由于第1 波段屬于海岸觀測波段,在本研究中并不適用且影響作用很小;第8 波段是全色波段紋理數(shù)據(jù),不予考慮;第9 波段屬于卷云波段,而研究區(qū)所使用的一景Landsat-8 影像云量為0,對本研究影響非常小,促使該波段灰度值趨于0。所以將B1、B8、B9 剔除出自變量因子選擇的范圍。然后從二調(diào)數(shù)據(jù)中獲取4 個自變量因子,包括腐殖質(zhì)厚度、土層厚度、年齡和郁閉度(FU_ZHI_HD、TU_CENG_HD、NL、YU_BI_DU); 最后從DEM 數(shù)據(jù)中提取3 個自變量因子,分別是坡度、坡向和海拔(PO_DU、PO_XIANG、HAI_BA)。

        表1 植被指數(shù)計算公式Table 1 Formulas of the vegetation index

        將收集的18 個自變量因子作為候選數(shù)據(jù),加入森林小班樣本記錄中,選取在數(shù)據(jù)中占比最多的杉木、針葉混交林、馬尾松3 個優(yōu)勢樹種作為估測樣本。過濾掉蓄積量為0、RVI 指數(shù)大于30、EVI 小于0 的小班點以及其他缺少需要信息數(shù)據(jù)的小班點等,最終剩余23 499 個小班數(shù)據(jù),參與之后的估測算法試驗。之后隨機按照9∶1 的比例對訓(xùn)練集和測試集進行劃分,21 349 個小班數(shù)據(jù)作為訓(xùn)練樣本,剩余的2 150 個小班數(shù)據(jù)作為測試樣本進行模型的估測。

        1.3 基于距離相關(guān)系數(shù)特征的選擇方法

        假如將全部的候選自變量都用來練習(xí)模型,則會造成信息冗余,而且促使模型的可解釋性減少,因而要對所獲取的建模因子進行合理挑選。

        當(dāng)前普遍作為數(shù)據(jù)特征提取的方法為Pearson相關(guān)系數(shù)法。但它有一個明顯缺陷是作為特征排序機制時,只對線性關(guān)系敏感。如果關(guān)系是非線性的,即便兩個變量具有一一對應(yīng)的關(guān)系,Pearson 相關(guān)性也可能會接近0。所以,本次研究使用距離相關(guān)系數(shù)(DC)特征選擇方法來提取出優(yōu)勢的特征因子。它不管對變量間線性還是非線性都非常適合,也不受其他參數(shù)或者模型的限制。距離相關(guān)系數(shù)的公式如式(1)所示:

        同理計算dcov(u,u)和dcov(v,v)。

        1.4 算法模型

        KNN 算法是非常成熟的非線性算法之一。該算法通過數(shù)據(jù)對特征向量空間進行劃分,計算出新數(shù)據(jù)與數(shù)據(jù)集中心點的距離,該距離是指歐式距離或者曼哈頓距離,根據(jù)距離遞增次序進行排序,返回K個點的加權(quán)值作為預(yù)測值。

        Bagging 是集成算法中的一個分支,該算法對于回歸分析問題,通常使用簡單平均法,再對結(jié)果進行算術(shù)平均得到最終的模型輸出。主要思路是:給定大小為M的訓(xùn)練集S,算法從S中自助抽樣取出m個大小為M的子集Si作為新的訓(xùn)練集。這m個訓(xùn)練集分布訓(xùn)練出結(jié)果,最后取所有結(jié)果的平均值或多數(shù)投票等策略算出結(jié)果。目前,Bagging 算法在機器學(xué)習(xí)領(lǐng)域已經(jīng)獲得較好的應(yīng)用表現(xiàn)。

        LGBM 集成算法是GBDT 算法實現(xiàn)框架之一。優(yōu)點是高效率的并行訓(xùn)練,而且訓(xùn)練速度快、內(nèi)存消耗少、準(zhǔn)確率高、支持分布式等。LGBM 在傳統(tǒng)的GBDT 算法上進行如下改進:第一,計算是基于Histogram 的決策樹;第二,使用單邊梯度采樣(GOSS),這樣降低許多只存在于小梯度上彌散的樣本數(shù)據(jù),減少時空上的浪費;第三,帶深度限制的leaf-wise 的葉子生長策略;第四,直接支持類別特性;第五,支持高效并行和cache 命中率優(yōu)化等。

        Catboost 是GBDT 算法中一種新型的機器學(xué)習(xí)模型,以對稱樹為弱學(xué)習(xí)器,使用GBDT 進行分類。對比之前的GBDT 相關(guān)算法,如Gboost 和Adaboost 等,Catboost 算法在準(zhǔn)確性和泛化能力方面都有顯著提升,特別是在處理大量數(shù)據(jù)和特征的時候。假設(shè)把每次迭代的目標(biāo)函數(shù)定義為:

        1)把訓(xùn)練集中每個樣本Ni,去掉Ni的訓(xùn)練集獨自訓(xùn)練一個模型Mi;

        2)用模型Mi計算樣本Ni上的梯度估計;

        3)提取新模型重新對樣本Ni估測,從而得出基學(xué)習(xí)器;

        4)對基學(xué)習(xí)器加權(quán)反復(fù)計算,從而獲得強學(xué)習(xí)器。反復(fù)進行迭代,目的是減小目標(biāo)函數(shù)hk關(guān)于訓(xùn)練數(shù)據(jù)的損失,即減小模型在訓(xùn)練集的預(yù)誤差,從而對抗訓(xùn)練集中的噪聲點,進而解決預(yù)測偏移的問題。

        1.5 模型評價指標(biāo)

        本研究運用10 折交叉驗證法(10-fold Cross Validation)來評估精度。采用決定系數(shù)、平均百分比誤差、估測精度、均方誤差、平均絕對誤差(R2、MAPE、P、MSE、MAE)5 個指標(biāo)來評價模型。

        2 結(jié)果與分析

        2.1 距離相關(guān)系數(shù)特征的選擇結(jié)果

        本試驗依靠蓄積量和各個特征之間的距離相關(guān)系數(shù)(DC)關(guān)系將所有特征因子進行排序,從首個特征因子開始逐步加入KNN 模型中估測,選取該模型的決定系數(shù)(R2)最大時候的特征因子組合。最終結(jié)果由8 個特征因子組合,結(jié)果見表2。

        表2 變量選擇結(jié)果Table 2 Variable selection results

        2.2 蓄積量建模與估測結(jié)果分析

        2.2.1 4 種方法結(jié)果分析

        基于距離相關(guān)系數(shù)篩選的特征因子組合數(shù)據(jù)作為模型的輸入,并且數(shù)據(jù)都經(jīng)過歸一化處理,單位蓄積量作為模型的輸出。在估測評估中,采用KNN 方法、Bagging 方法、LGBM 方法與Catboost 方法進行對比,建模結(jié)果見表3 和圖2,估測結(jié)果見表4 和圖3。

        表3 4 種方法的蓄積量建模評價指標(biāo)Table 3 Stock volume modeling evaluation index of the four methods

        表4 4 種方法的蓄積量估測評價指標(biāo)Table 4 Stock volume estimating evaluation index of the four methods

        圖2 4 種方法的蓄積量建模結(jié)果Fig. 2 Volumetric modeling results of the four methods

        圖3 4 種方法的蓄積量估測結(jié)果Fig. 3 Predicted volume results of the four methods

        圖2d 和圖3d 是Catboost 蓄積量建模和估測得到的結(jié)果模型。由表3 ~4 可知,Catboost 蓄積量建模模型的精度P與估測模型的精度P在這次研究中最佳,分別是81.43%和76.74%。Bagging 方法以及LGBM 方法的建模精度P和估測精度P也非常好,分別達到了71.83%和70.24%與72.63%和70.11%,并且建模精度與估測精度都比傳統(tǒng)的KNN 方法表現(xiàn)得更好。與KNN 方法、Bagging 方法、LGBM 3 種模型對比,基于Catboost 方法的森林蓄積量估測在建模和估測結(jié)果中的決定系數(shù)R2都高于其他3 種模型,分別達到了0.70 和0.69。其中2 種非線性集成算法Bagging 方法的精度P是70.24%,LBGM 算法的精度P是70.11%,最低的是常用模型KNN 方法的精度P(62.02%),說明非線性集成算法在森林蓄積量估測中效果表現(xiàn)更好,特別是Catboost 模型算法在森林蓄積量估測中表現(xiàn)最佳。在模型估測中,4 種方法中3 種集成算法的精度P值都高于70%,對龍泉市的森林蓄積量的估測有較大的實際參考意義。

        與前人研究對比,Catboost 方法建模最高精度達到81.43%,估測最高精度達到76.74%,比文獻[22]基于SVM 方法的高山松林蓄積量遙感估測研究的估測精度為76.6%和文獻[23]基于Landsat-8 遙感影像的森林蓄積量估測的精度74.42%都要高;其中最重要的性能指標(biāo)的決定系數(shù)R2,Catboost建模模型達到0.70,比文獻[24]基于Landsat-8 遙感影像的旺業(yè)甸林場蓄積量估測模型研究中的隨機森林模型的決定系數(shù)R2(0.66)更高。

        2.2.2 Catboost 方法進行蓄積量建模與估測結(jié)果分析

        本研究的樣本共23 499 個小班數(shù)據(jù),按3 種優(yōu)勢樹種杉木、針葉混交林和馬尾松來劃分,獲得13 608 個杉木數(shù)據(jù)、7 567 個針葉混交林?jǐn)?shù)據(jù)、2 324 個馬尾松數(shù)據(jù)。之后3 種優(yōu)勢樹種分別隨機按照9∶1 的比例進行劃分訓(xùn)練集和測試集,選取之前表現(xiàn)最好的Catboost 算法模型進行估測,再與未劃分樹種情況下的最好估測結(jié)果進行對比。Catboost 方法建模結(jié)果見表5 和圖4,估測結(jié)果見表6 和圖5。

        表5 3 個樹種基于 Catboost 的蓄積量建模性能指標(biāo)Table 5 The forest stock estimation performance index of Catboost-based modelling of the three tree species

        表6 3 種樹種基于Catboost 的蓄積量估測性能指標(biāo)Table 6 The forest stock estimation performance index of Catboost-based modelling of the three tree species

        圖4 劃分杉木、針葉混交林、馬尾松情況下的基于Catboost 的蓄積量建模結(jié)果Fig. 4 Catboost-based modelling results of estimating forest stock by distinguishing Chinese fir and coniferous mixed forest and Masson pine

        圖5 劃分杉木、針葉混交林、馬尾松情況下的基于Catboost 的蓄積量估測結(jié)果Fig. 5 Catboost-based estimation results of forest stock by distinguishing Chinese fir and coniferous mixed forest and Masson pine

        由于3 種優(yōu)勢樹種樣本量不同,模型的建模精度和估測精度按數(shù)量權(quán)重相加得出。其中3 種樹種集合的建模精確度為81.43%(表3),估測精度為76.74%(表4)。而分樹種各自估測按數(shù)量權(quán)重相加后建模精度為81.85%,估測精確度為77.75%。區(qū)分3 個優(yōu)勢樹種情況下,按數(shù)量權(quán)重相加后建模精確度提升不明顯,但是估測精確度提高了1.01%。其中建模精確度表現(xiàn)最好的是馬尾松,達到了90.11%,但是估測精確度表現(xiàn)最好的是針葉混交林,達到了82.56%。杉木和馬尾松的估測效果稍微差些,這可能是在總樣本中3 個優(yōu)勢樹種選擇的樣本分布不一致所導(dǎo)致的。

        3 結(jié)論與討論

        3.1 結(jié) 論

        本研究基于龍泉市2017年森林二調(diào)小班數(shù)據(jù)和landsat-8 遙感影像、數(shù)字高程模型(DEM)數(shù)據(jù),使用距離相關(guān)系數(shù)方法進行特征提取,并且結(jié)合K 最鄰近(KNN)方法、裝袋(Bagging)方法、決策樹梯度提升(LGBM)方法和梯度增強集成分類器(Catboost)方法估測森林蓄積量模型。結(jié)果表明,基于距離相關(guān)系數(shù)的特征提取方法結(jié)合Catboost 模型估測森林蓄積量是可行的,并且建模和估測的精確度較KNN 方法、Bagging 方法和LGBM 方法提高顯著,進一步表明非線性集成算法和衛(wèi)星遙感影像結(jié)合是對森林蓄積量估測的有效方法之一。其中未區(qū)分樹種情況下建模精度為81.43%,估測精度為76.74%。而在不同樹種按數(shù)量權(quán)重相加計算情況下,建模精度差別不大,估測精度提高了1.01%,其中針葉混交林表現(xiàn)最好,估測精度達到了82.56%。

        3.2 討 論

        運用Catboost 算法作為區(qū)域的森林蓄積量估測模型,采用森林資源二類調(diào)查數(shù)據(jù)和Landsat-8遙感影像數(shù)據(jù)以及數(shù)字高程模型,結(jié)合距離相關(guān)系數(shù)方法進行特征提取,可以表現(xiàn)出更好的估測效果,也能更進一步說明非線性的集成算法結(jié)合高分遙感影像數(shù)據(jù)在森林蓄積量估測方面比傳統(tǒng)的線性算法有更好的效果。Catboost 模型在實踐估測中容易使用,也能在短時間內(nèi)給森林蓄積量預(yù)測提供一種高準(zhǔn)確率的可能性,但是每種算法都有優(yōu)點與不足,本試驗只是選取了4種算法作對比,并且本次研究數(shù)據(jù)只局限在單一的縣區(qū),之后可以嘗試加入更多的特征因子來作篩選(比如紋理因子等)。后續(xù)將基于距離相關(guān)系數(shù)的特征選擇的Catboost 模型算法進行不同地區(qū)的森林蓄積量估測,以此來研究驗證此方法的普適性,以便更好地指導(dǎo)林業(yè)生產(chǎn)實踐。

        猜你喜歡
        方法模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        學(xué)習(xí)方法
        可能是方法不對
        3D打印中的模型分割與打包
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        賺錢方法
        亚洲精品国产福利在线观看 | 久久综合九色综合欧美狠狠| 国产亚洲精品aaaa片app| 99久久国产综合精品五月天| 亚洲综合无码| 伊人婷婷色香五月综合缴激情| 少妇又紧又色又爽又刺| 国产乱淫h侵犯在线观看| 人人妻人人澡人人爽国产一区| 国偷自产一区二区免费视频| 精品久久综合亚洲伊人| 无码熟妇人妻av在线c0930| 不卡视频在线观看网站| 一本色道久久88亚洲精品综合| 精品国产黑色丝袜高跟鞋| 久久久国产精品免费无卡顿| 亚洲国产av剧一区二区三区| 亚洲天堂亚洲天堂亚洲色图| 九九九免费观看视频| 怡红院免费的全部视频| 成年人黄视频大全| 在线亚洲精品国产成人二区| 91快射视频在线观看| 中文字幕日韩欧美一区二区三区 | 国产丝袜无码一区二区三区视频 | 亚洲国产日韩在线人成蜜芽| 中文字幕文字幕一区二区| 国产剧情一区二区三区在线 | 欧美疯狂性xxxxxbbbbb| jk制服黑色丝袜喷水视频国产| 亚洲精品国产av日韩专区| 欧美男生射精高潮视频网站| 国产全肉乱妇杂乱视频| 欧美日韩国产高清| 三上悠亚亚洲精品一区| 亚洲熟妇无码av在线播放| 亚洲日韩国产精品第一页一区| 亚洲蜜芽在线精品一区| 国产性虐视频在线观看| 亚洲精品乱码久久久久久金桔影视| 激情内射亚洲一区二区三区爱妻|