亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        分類梯度提升算法(CatBoost)與蝙蝠算法(Bat)耦合建模預(yù)測(cè)中國(guó)西北部地區(qū)水面蒸發(fā)量

        2021-02-25 08:36:28董力銘曾文治雷國(guó)慶
        節(jié)水灌溉 2021年2期
        關(guān)鍵詞:水面蒸發(fā)蒸發(fā)量蝙蝠

        董力銘,曾文治,雷國(guó)慶

        (武漢大學(xué)水資源與水電工程科學(xué)國(guó)家重點(diǎn)實(shí)驗(yàn)室,武漢430072)

        0 引 言

        蒸發(fā)是氣象科學(xué)、水資源評(píng)價(jià)和水循環(huán)的重要內(nèi)容[1,2]。精準(zhǔn)的預(yù)測(cè)水面蒸發(fā)對(duì)于干旱、半干旱地區(qū)的水資源合理規(guī)劃、農(nóng)業(yè)節(jié)水灌溉及水資源評(píng)價(jià)具有重要意義和價(jià)值[3,4]。預(yù)測(cè)水面蒸發(fā)量的方法大致分為2 類:實(shí)地測(cè)量法及模型估計(jì)法。其中,實(shí)地測(cè)量法如蒸發(fā)皿測(cè)量法,雖然可以得到較為精確的結(jié)果,但十分容易受到田間狀況、人工成本、極端天氣情況等因素的限制,制約了其應(yīng)用的范圍[5,6]。同時(shí),由于蒸發(fā)過(guò)程具有高度非線性、復(fù)雜性和不穩(wěn)定性等特點(diǎn),較難建立包含所有相關(guān)因素的,具有較強(qiáng)普適性的經(jīng)驗(yàn)數(shù)學(xué)模型[7?9]。

        近年來(lái),隨著機(jī)器學(xué)習(xí)及啟發(fā)式搜索算法的快速發(fā)展及其在解決非線性復(fù)雜問(wèn)題上的巨大優(yōu)勢(shì),已有許多學(xué)者將機(jī)器學(xué)習(xí)如人工神經(jīng)網(wǎng)絡(luò)(ANN)[10,11]、多元自適應(yīng)回歸曲線(MARS)[6,12]、 隨 機(jī) 森 林(RF)[13]、 分 類 梯 度 提 升(CatBoost)[14]等算法應(yīng)用于蒸散發(fā)、水面蒸發(fā)等方面的模擬并得到較為準(zhǔn)確的水面蒸發(fā)預(yù)測(cè)精度。其中,CatBoost模型以其強(qiáng)大的特征分類能力及高準(zhǔn)確度,受到學(xué)者們的廣泛關(guān)注。Huang[14]將CatBoost模型與SVM模型和RF模型在估算中國(guó)濕潤(rùn)地區(qū)ET0時(shí)進(jìn)行了對(duì)比,發(fā)現(xiàn)CatBoost模型不僅在精度和穩(wěn)定性方面具有顯著優(yōu)勢(shì),在計(jì)算時(shí)間和內(nèi)存使用方面也同樣更為優(yōu)越。然而CatBoost模型需要設(shè)置的參數(shù)較多,增加了陷入局部最優(yōu)解的可能性。為此,利用具有強(qiáng)大搜索功能的蝙蝠算法進(jìn)行耦合,提升CatBoost模型處理參數(shù)的能力,進(jìn)而增強(qiáng)模型預(yù)測(cè)準(zhǔn)確度及魯棒性是一種可行且有效的辦法[15]。

        本文針對(duì)我國(guó)西北部干旱地區(qū)的水面蒸發(fā)量預(yù)測(cè),建立耦合蝙蝠算法的改進(jìn)CatBoost模型(Bat?CB),測(cè)試其預(yù)測(cè)能力,并與原CatBoost模型及較為常用的隨機(jī)森林模型(RF)進(jìn)行對(duì)比,進(jìn)而提出適用于干旱、半干旱地區(qū)的水面蒸發(fā)模型。

        1 材料與方法

        1.1 隨機(jī)森林法(RF)

        隨機(jī)森林法是基于分類和回歸樹,利用自動(dòng)聚集(bootstrapping)及“bagging”方法等集成策略來(lái)處理高維回歸問(wèn)題的算法[16]。隨機(jī)森林通過(guò)bootstrap 重抽樣方法從原始數(shù)據(jù)集中隨機(jī)抽取子訓(xùn)練集,并在采集后將其放回,直到達(dá)到指定的節(jié)點(diǎn)數(shù)。沒(méi)有被采集的數(shù)據(jù)稱為“箱外數(shù)據(jù)”,用來(lái)計(jì)算泛化無(wú)偏誤差并提高精度。最后,通過(guò)對(duì)決策樹投票或取平均值的方式做綜合評(píng)價(jià),生成最終結(jié)果[17]。目前,隨機(jī)森林算法已廣泛應(yīng)用于模型預(yù)測(cè)的領(lǐng)域,本文也因此選擇隨機(jī)森林作為對(duì)比的對(duì)象,探究水面蒸發(fā)模型的預(yù)測(cè)能力。

        1.2 分類梯度提升算法(CatBoost)

        CatBoost 是一種基于梯度增強(qiáng)決策樹(gradient boosting decision tree,GBDT)算法的新型機(jī)器學(xué)習(xí)算法。相對(duì)于其他的早期GBDT 算法如XGBoost 和LightGBM,CatBoost 在很多方面都有較大提升,特別是在處理大量數(shù)據(jù)和特征的時(shí)候。CatBoost 功能的增強(qiáng)主要體現(xiàn)在3個(gè)方面。首先,CatBoost 采用“有序原則”的方式避免了GBDT算法的迭代過(guò)程中固有存在的條件位移問(wèn)題,并使其可以利用整個(gè)數(shù)據(jù)集進(jìn)行訓(xùn)練和學(xué)習(xí)。其次,CatBoost 將傳統(tǒng)的梯度增強(qiáng)算法轉(zhuǎn)化為有序增強(qiáng)(Ordered Boosting)算法,解決了迭代過(guò)程中梯度偏移這一不可避免的問(wèn)題,提高了泛化能力,降低了模型過(guò)擬合的可能,增強(qiáng)了模型的魯棒性[18]。最后,CatBoost 通過(guò)貪婪策略(Greedy Strategy)構(gòu)造分類特征的組合,并將這些組合作為附加特征,這有助于模型更容易地捕獲高階依賴關(guān)系,進(jìn)一步提高預(yù)測(cè)精度。此外,CatBoost 選擇健忘決策樹(Oblivious Decision Trees)作為基礎(chǔ)預(yù)測(cè)期,降低了過(guò)擬合的可能并加快了模型的執(zhí)行速度。

        1.3 耦合蝙蝠算法的CatBoost模型(Bat-CB)

        蝙蝠算法是由Yang[19]提出,仿生蝙蝠覓食行為,利用每只微型蝙蝠發(fā)出高頻脈沖來(lái)搜索目標(biāo),并分析其獨(dú)特的回聲信息特征來(lái)定位目標(biāo)的元啟發(fā)式算法。在數(shù)學(xué)上,它的實(shí)現(xiàn)方法如下面步驟所示。

        第1步:創(chuàng)建蝙蝠數(shù)量,賦予每只蝙蝠初始速度vi、頻率fi和位置xi。

        第2步:在每一次迭代過(guò)程中,在t時(shí)刻將3個(gè)特征按下面公式更新:

        式中:β∈(0,1)為正態(tài)分布的一個(gè)隨機(jī)向量;和為蝙蝠在時(shí)刻t更新的位置和速度;x*是當(dāng)前最佳位置(解決方案)。

        第3步:生成一個(gè)隨機(jī)數(shù)rand用以判斷當(dāng)前位置是否需要改進(jìn),若rand>At,則蝙蝠通過(guò)rand步長(zhǎng)來(lái)更新自己的最佳位置:

        式中:rand∈[?1,1];At為t時(shí)刻所有蝙蝠的平均響度。

        第4步:生成另一個(gè)隨機(jī)數(shù),如果rand

        式中:α和c均為常量,0<α<1且c>0。

        第2步至第4步的迭代過(guò)程將一直持續(xù)到達(dá)到最大迭代次數(shù)或要求的精度為止。最后,對(duì)所有蝙蝠的適應(yīng)度進(jìn)行排序,得到最佳位置(最優(yōu)解)

        在本文中,使用蝙蝠算法優(yōu)化了CatBoost模型的3個(gè)最為關(guān)鍵的參數(shù),分別為決策樹的數(shù)量(nrounds)、學(xué)習(xí)速率(eta)和樹的最大深度(depth)。理論上可以強(qiáng)化梯度增強(qiáng)功能,顯著提高預(yù)測(cè)能力。

        1.3 試驗(yàn)區(qū)概況

        試驗(yàn)區(qū)為中國(guó)的西北部干旱及半干旱地區(qū)的45個(gè)氣象站所形成的區(qū)域,約占中國(guó)總面積的1/6(見圖1)。該地區(qū)屬于典型的溫帶大陸性氣候,酷熱、干燥、日照充足、降水稀少,并且蒸發(fā)量隨季節(jié)變化較大,夏季的蒸發(fā)量是春季和冬季的10~30倍。水面蒸發(fā)實(shí)測(cè)值作為校核模型預(yù)測(cè)能力的基準(zhǔn),由西北45個(gè)氣象站以蒸發(fā)皿測(cè)量得到。而數(shù)據(jù)集則由西北45個(gè)氣象站2006?2017年間包括最低氣溫、最高氣溫、相對(duì)濕度、風(fēng)速及太陽(yáng)輻射5個(gè)因素的逐日長(zhǎng)系列數(shù)據(jù)構(gòu)成。另外,由于研究區(qū)內(nèi)可直接測(cè)量輻射參數(shù)的氣象站有限,太陽(yáng)輻射的數(shù)據(jù)不足,因此,根據(jù)Fan[20]采用經(jīng)驗(yàn)Angstrom?Prescott模型(A?P模型),利用日照天數(shù)(R0)和日照時(shí)間(N,h)來(lái)計(jì)算全球太陽(yáng)輻射這一參數(shù)。此外,數(shù)據(jù)分為2 組,一組(2006?2013)用于開發(fā)和訓(xùn)練3個(gè)模型,另一組(2014?2017)用于模型測(cè)試。氣象數(shù)據(jù)見表1。

        圖1 45個(gè)研究站點(diǎn)分布圖

        1.4 統(tǒng)計(jì)指標(biāo)

        本文采用均方根誤差(RMSE)、平均絕對(duì)誤差(MAE)、納什系數(shù)(NSE)和平均絕對(duì)誤差百分比(MAPE)評(píng)價(jià)模型的訓(xùn)練與測(cè)試精度。4種統(tǒng)計(jì)學(xué)評(píng)價(jià)指標(biāo)的具體計(jì)算方法如下:

        式中:YEST,i和YOBS,i分別表示水面蒸發(fā)的預(yù)測(cè)值和觀測(cè)值;YOBS,i,MEAN表示水面蒸發(fā)觀測(cè)值的平均值。

        2 結(jié)果與分析

        為檢驗(yàn)上述3種模型對(duì)于試驗(yàn)區(qū)域水面蒸發(fā)的預(yù)測(cè)能力,本文采用4個(gè)常用的統(tǒng)計(jì)指標(biāo),分別為均方根誤差(RMSE)、平均絕對(duì)誤差(MAE)、納什系數(shù)(NSE)及平均絕對(duì)百分比誤差(MAPE)。模型在訓(xùn)練階段及測(cè)試階段的統(tǒng)計(jì)指標(biāo)見表2。

        在模型的訓(xùn)練階段,3種模型在不同的各項(xiàng)統(tǒng)計(jì)指標(biāo)中表現(xiàn)出結(jié)果的高度一致性。RF模型(RMSE: 0.127~0.528 mm/d;MAE: 0.077~0.353 mm/d;NSE: 0.981~0.995;MAPE:0.042~0.081)的各項(xiàng)指標(biāo)均優(yōu)于CB模型及Bat?CB模型。而Bat?CB(RMSE:0.288~1.125 mm/d;MAE:0.166~0.846 mm/d;NSE: 0.908~0.952;MAPE: 0.115~0.167)模型略優(yōu)于CB 模 型(RMSE: 0.300~1.322 mm/d;MAE: 0.180~0.851 mm/d;NSE: 0.894?0.950;MAPE: 0.131~0.181)。但在模型的測(cè)試階段,RF模型的預(yù)測(cè)能力顯著弱于Bat?CB模型及CB模型,這說(shuō)明RF模型在3個(gè)模型中存在著最嚴(yán)重的過(guò)擬合問(wèn)題,這與Zhang[21]在探究CatBoost、RF 和GRNN 3種模型在ET0預(yù)測(cè)上的研究結(jié)果一致。而Bat?CB模型在測(cè)試階段依舊強(qiáng)于CB模型,并且在最大值(Max)及標(biāo)準(zhǔn)差(SD)這2個(gè)指標(biāo)上提升最為明顯。這說(shuō)明改進(jìn)的Bat?CB模型在總體上降低了CB模型存在的過(guò)擬合問(wèn)題的影響,并提升了模型的整體性能和預(yù)測(cè)能力。胡夢(mèng)月等[22]利用改進(jìn)的蝙蝠算法優(yōu)化KELM模型的2個(gè)參數(shù),證明了利用蝙蝠算法的搜索功能可有效提升KELM模型預(yù)測(cè)能力。綜上所述,改進(jìn)的Bat?CB模型的預(yù)測(cè)能力優(yōu)于CB模型及RF模型。

        此外,由于難以將45個(gè)站點(diǎn)中每一個(gè)站點(diǎn)的模擬情況全部展示出來(lái),故本文隨機(jī)從45個(gè)站點(diǎn)中隨機(jī)選取6個(gè)分散的站點(diǎn)進(jìn)行散點(diǎn)圖的繪制,進(jìn)一步檢驗(yàn)?zāi)P偷念A(yù)測(cè)能力,結(jié)果見圖2。

        圖2表明,當(dāng)蒸發(fā)量較小時(shí)3個(gè)模型均有較好的預(yù)測(cè)結(jié)果。但當(dāng)蒸發(fā)量大于4 mm/d時(shí),RF模型的預(yù)測(cè)值與實(shí)測(cè)值的偏離明顯變大,逐漸偏離1∶1 線。考慮到試驗(yàn)區(qū)域每年大部分時(shí)間蒸發(fā)量較大,RF模型在干旱、半干旱地區(qū)的實(shí)用性和準(zhǔn)確度總體上明顯弱于Bat?CB模型及CB模型。而相對(duì)于CB模型,改進(jìn)的Bat?CB模型在全部6個(gè)點(diǎn)的精度更高,尤其是在51567 站點(diǎn)及51704 站點(diǎn)上。因此,在蒸發(fā)量較大的情況下,Bat?CB模型相對(duì)于RF模型和CB模型具有更高的準(zhǔn)確度和穩(wěn)定性。

        在評(píng)估模型整體預(yù)測(cè)能力時(shí),使用預(yù)測(cè)值與實(shí)測(cè)值之間絕對(duì)誤差的頻率分布圖是一種常用且有說(shuō)服力的方法之一。本文繪制了以上6個(gè)站點(diǎn)的絕對(duì)誤差分布直方圖,見圖3。

        在以上6個(gè)站點(diǎn)中,3種不同的模型在預(yù)測(cè)水面蒸發(fā)量時(shí),都有大約50%的站點(diǎn)的絕對(duì)誤差低于0.4 mm/d,并且絕對(duì)誤差從0 到2 mm/d 增加過(guò)程中對(duì)應(yīng)站點(diǎn)的所占比例逐漸降低。在3個(gè)模型中,Bat?CB模型在全部站點(diǎn)的絕對(duì)誤差值中,都有著最高比例小于0.4 mm/d 的分布及最低比例大于2 mm/d的分布。但RF模型在大多數(shù)站點(diǎn)中的表現(xiàn)劣于Bat?CB模型及CB模型。同時(shí),從總體上看,改進(jìn)的Bat?CB模型相對(duì)于CB模型,各個(gè)站點(diǎn)的預(yù)測(cè)能力均有所提升,在蒸發(fā)量較大的情況下,提升更為明顯。因此,Bat?CB模型的整體性能和預(yù)測(cè)能力強(qiáng)于CB模型和RF模型。

        最后,針對(duì)我國(guó)西北部干旱、半干旱地區(qū)較大蒸發(fā)量的氣候狀況,本文分析了水面蒸發(fā)的季節(jié)性變化對(duì)于模型預(yù)測(cè)能力及穩(wěn)定性的影響。3種模型預(yù)測(cè)指標(biāo)的月平均值見表3。

        目前,大多數(shù)機(jī)器學(xué)習(xí)模型在預(yù)測(cè)非平衡或有極大數(shù)值的數(shù)據(jù)集時(shí)經(jīng)常表現(xiàn)出脆弱性和不穩(wěn)定性[23]。由表3可知,在11月至3月,試驗(yàn)區(qū)域的蒸發(fā)量較小,3種模型的性能相差不大,但在每年的4月至10月,Bat?CB模型相對(duì)于CB模型及RF模型的優(yōu)勢(shì)逐漸顯露出來(lái)。RF模型在處理不平衡數(shù)據(jù)集時(shí)適應(yīng)性較差的特點(diǎn),在蒸發(fā)量季節(jié)性變化的預(yù)測(cè)之中體現(xiàn)得較為明顯。而從平均絕對(duì)百分比誤差(MAPE)指標(biāo)上來(lái)看,Bat?CB模型在不同月份間沒(méi)有明顯差異,體現(xiàn)出較強(qiáng)的均衡性及穩(wěn)定性。

        表1 本文所選45個(gè)氣象站點(diǎn)的地理及氣象信息Tab.1 Geographical and meteorological information of the 45 stations selected for this study

        表2 3種模型在中國(guó)西北部水面蒸發(fā)預(yù)測(cè)中的統(tǒng)計(jì)指標(biāo)表現(xiàn)Tab.2 Statistical indicators of three machine learning models for predicting the pan evaporation in northwest China

        圖2 隨機(jī)6個(gè)站點(diǎn)中水面蒸發(fā)量的實(shí)測(cè)值(OBS)及3個(gè)模型的預(yù)測(cè)值(FOR)繪制的散點(diǎn)圖

        因此,綜合上述全部方面,Bat?CB模型整體上表現(xiàn)顯著優(yōu)于CB模型及RF模型,并且在有較大變化的數(shù)據(jù)集中學(xué)習(xí)和訓(xùn)練的過(guò)程中更為精確和穩(wěn)定,適用于類似于干旱、半干旱地區(qū)水面蒸發(fā)量等有較大變化或季節(jié)性改變的預(yù)測(cè)領(lǐng)域。

        3 結(jié) 論

        本研究建立了一種新型的耦合了蝙蝠算法的CatBoost機(jī)器學(xué)習(xí)模型(Bat?CB),并評(píng)價(jià)了該模型在西北干旱、半干旱地區(qū)水面蒸發(fā)量預(yù)測(cè)中的應(yīng)用。結(jié)果表明,Bat?CB模型在干旱和半干旱地區(qū)具有較好的準(zhǔn)確性和穩(wěn)定性,總體上明顯優(yōu)于CatBoost模型和RF模型。CatBoost模型與RF模型相比具有非常小的優(yōu)勢(shì),并且RF模型對(duì)干旱地區(qū)的水面蒸發(fā)等不穩(wěn)定變化的數(shù)據(jù)集的處理能力較差。與原CatBoost模型相比,耦合蝙蝠算法顯著提升了模擬精度。在季節(jié)性分析中,Bat?CB模型在不同月份中具有較好的均衡性,在4月至10月期間較RF模型和CatBoost模型表現(xiàn)出更強(qiáng)的準(zhǔn)確度和穩(wěn)定性。然而,本研究沒(méi)有考慮氣象輸入和更多氣候類型的參數(shù)組合,此外在極端氣候條件以及氣象資料缺失條件下的模型應(yīng)用扔有待于進(jìn)一步研究。

        圖3 3種模型絕對(duì)誤差頻率分布直方圖

        表3 測(cè)試階段3個(gè)模型統(tǒng)計(jì)指標(biāo)的月平均值匯總Tab.3 Monthly average values of statistical indicators generated from the three machine learning models during the testing period

        猜你喜歡
        水面蒸發(fā)蒸發(fā)量蝙蝠
        1958—2013年沽源縣蒸發(fā)量變化特征分析
        1981—2010年菏澤市定陶區(qū)蒸發(fā)量變化特征分析
        新疆于田縣地表水面蒸發(fā)與干旱指數(shù)分析
        新疆民豐縣地表水面蒸發(fā)量分析
        河北東光縣33年來(lái)水面蒸發(fā)特性分析
        蝙蝠
        達(dá)孜縣夏秋季大小型蒸發(fā)量特征、影響因子與差異分析
        地球(2016年7期)2016-08-23 03:01:35
        干旱區(qū)影響水面蒸發(fā)的氣象因素多元回歸分析
        蝙蝠女
        蝙蝠在黑暗處如何捕食
        精品人妻一区二区三区蜜桃 | 国产乱人视频在线播放| 亚洲国产成人久久综合一区77 | 国产精品激情自拍视频| 2018国产精华国产精品| 国产尤物精品自在拍视频首页| 手机在线中文字幕国产| 亚洲精品国产亚洲av| 欧美熟妇另类久久久久久不卡| 久久发布国产伦子伦精品| 一区二区三区内射视频在线观看| av免费网站不卡观看| 国产精品18久久久白浆| 在熟睡夫面前侵犯我在线播放| 欧美va免费精品高清在线| 国产精品专区一区二区av免费看| 媚药丝袜美女高清一二区| 极品少妇一区二区三区四区| 国产亚洲精品自在久久蜜tv | 成人无码av一区二区| 亚洲av色无码乱码在线观看| 涩涩国产在线不卡无码| 91一区二区三区在线观看视频| 少妇熟女天堂网av| 色婷婷日日躁夜夜躁| 日韩精品一区二区三区中文9| 中文字幕中文字幕在线中二区| 18禁无遮拦无码国产在线播放| 国产精品无需播放器| 日韩狼人精品在线观看| 免费国产在线精品一区二区三区免| 东京热人妻一区二区三区| 久久精品无码一区二区三区蜜费 | 国产小屁孩cao大人| 国产精品国产三级国a| 久久99亚洲精品久久久久| 久久久久99精品成人片试看| 亚洲AV无码乱码精品国产草莓| 91久久国产香蕉熟女线看| 人妻少妇乱子伦精品无码专区电影| 99热免费观看|