亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于集成學(xué)習(xí)的近實(shí)時(shí)FY-4A反演降水快速訂正方法

        2024-04-17 05:28:30呂毅雍斌沈哲輝李季梅俊
        遙感學(xué)報(bào) 2024年3期
        關(guān)鍵詞:模型

        呂毅,雍斌,沈哲輝,李季,梅俊

        1.河海大學(xué) 水災(zāi)害防御全國(guó)重點(diǎn)實(shí)驗(yàn)室,南京 210098;

        2.河海大學(xué) 水文水資源學(xué)院,南京 210098

        1 引言

        降水是全球水循環(huán)系統(tǒng)的重要組成部分,其時(shí)空分布的變化深刻影響著陸地水文變化過(guò)程(張建云,2010)。獲取高時(shí)空分辨率降水信息,尤其是近實(shí)時(shí)降水?dāng)?shù)據(jù),對(duì)徑流預(yù)報(bào)、洪水預(yù)警、水庫(kù)調(diào)度等與人民群眾生命財(cái)產(chǎn)安全息息相關(guān)的重大科學(xué)問(wèn)題起著關(guān)鍵作用(劉蘇峽等,2005),進(jìn)一步深入影響著社會(huì)經(jīng)濟(jì)的穩(wěn)定發(fā)展(劉志雨,2009)。

        衛(wèi)星反演具有不受下墊面限制、快速獲取大范圍降水信息、時(shí)空分辨率高的優(yōu)點(diǎn)(劉元波等,2011;唐國(guó)強(qiáng)等,2015)。目前,新一代全球多衛(wèi)星聯(lián)合反演降水計(jì)劃GPM(Global Precipitation Measurement)能提供整體質(zhì)量好、時(shí)空分辨率高、應(yīng)用途徑廣泛的衛(wèi)星反演降水估計(jì)產(chǎn)品(陳曉宏等,2017)。IMERG(Integrated Multi-satellitE Retrievals for GPM)作為GPM 的核心產(chǎn)品之一,在中國(guó)大陸上已經(jīng)多次被驗(yàn)證其具有較好的精度(任英杰等,2019;張茹等,2021)?!比欢?,由于中國(guó)未被列入GPM 計(jì)劃的核心研發(fā)成員國(guó),國(guó)內(nèi)科研人員難以獲取GPM 的底層觀測(cè)信息和反演算法。

        風(fēng)云四號(hào)系列衛(wèi)星是中國(guó)自主研發(fā)的新一代靜止軌道運(yùn)行的氣象衛(wèi)星(董瑤海,2016)。2016年,搭載著性能位于國(guó)際前列的靜止軌道輻射成像儀AGRI(Advanced Geosynchronous Radiation Imager)的風(fēng)云四號(hào)A 星(FY-4A)成功發(fā)射并投入使用(唐世浩和毛凌野,2020)。AGRI 可通過(guò)搭載的雙掃描鏡進(jìn)行二維指向,首次實(shí)現(xiàn)了分鐘級(jí)的區(qū)域快速掃描,可高頻獲取14 個(gè)波段以上的地球云圖(王淦泉,2004)。不再受限于單一可見(jiàn)光通道,F(xiàn)Y-4A 首次回傳了更高質(zhì)量的彩色衛(wèi)星云圖(陸風(fēng)等,2017)。

        AGRI 獲取到的反照率、云頂亮溫等數(shù)據(jù),也為風(fēng)云系列衛(wèi)星降水反演提供了重要依據(jù)(鐘宇璐,2021a)。從2018年3月起,國(guó)家氣象中心(http://www.nsmc.org.cn/[2022-11-15])開(kāi)始提供降水估計(jì)實(shí)時(shí)產(chǎn)品:FY-4A REGC(中國(guó)區(qū)域近實(shí)時(shí)降水估計(jì)產(chǎn)品)和FY-4A DISK(全圓盤近實(shí)時(shí)降水估計(jì)產(chǎn)品)。相較于FY-4A DISK 覆蓋整個(gè)亞洲地區(qū),F(xiàn)Y-4A REGC 僅覆蓋中國(guó)大陸區(qū)域,但有著更高的掃描頻率(田昊,2021)。此外,F(xiàn)Y-4A REGC 沒(méi)有融合雨量計(jì)信息,更能反映衛(wèi)星反演降水的真實(shí)能力。GPM 計(jì)劃中,與FY-4A REGC 對(duì)標(biāo)的產(chǎn)品是IMERG 的近實(shí)時(shí)版本IMERGEarly(鐘宇璐,2021b)。迄今,部分研究已經(jīng)評(píng)估了FY-4A REGC 和IMERG-Early 在中國(guó)區(qū)域近實(shí)時(shí)估計(jì)的精度,發(fā)現(xiàn)FY-4A REGC 雖然較上代產(chǎn)品有了明顯提升,但相較于IMERG-Early 仍有差距。這主要因?yàn)镮MERG-Early 掃描時(shí)間更長(zhǎng)、數(shù)據(jù)源更多、反演算法更成熟(高浩等,2021)。與應(yīng)用于氣候研究的多源融合降水產(chǎn)品不同,近實(shí)時(shí)產(chǎn)品更多運(yùn)用于水文預(yù)報(bào)、災(zāi)害預(yù)警等領(lǐng)域,對(duì)時(shí)效性要求高(龍柯吉等,2020)。因此,如何快速訂正FY-4A REGC,使其具有媲美IMERGEarly的精度,成為了亟待解決的問(wèn)題。

        目前,訂正衛(wèi)星反演降水產(chǎn)品的方法主要思路是建立歷史衛(wèi)星測(cè)雨估計(jì)與歷史降水真值(一般是雨量計(jì)或雷達(dá)測(cè)量值)之間的線性先驗(yàn)關(guān)系模型。當(dāng)獲取到新的觀測(cè)信息后,再利用上述關(guān)系反推訂正后的降水(王超,2019)。然而,大量研究表明單純的線性模型很難精準(zhǔn)刻畫(huà)衛(wèi)星測(cè)雨與降水真值間的關(guān)系(魏義熊,2022;李昕潼等,2023)。

        集成學(xué)習(xí)是一種將幾種元機(jī)器學(xué)習(xí)模型組合成一個(gè)模型的非線性算法(陳凱和朱鈺,2007;何清等,2014)。作為傳統(tǒng)機(jī)器學(xué)習(xí)的凝練和提升,集成學(xué)習(xí)在偏差訂正、方差減少、預(yù)測(cè)改進(jìn)等領(lǐng)域取得了較大發(fā)展(徐繼偉和楊云,2018)。其中,專注于偏差訂正的Boosting 算法或有潛力應(yīng)用于衛(wèi)星降水領(lǐng)域,這已經(jīng)在宋蕾(2015)、陳浩等(2017)、王超(2019)、鐘宇璐(2021a)的研究中有所體現(xiàn)。Boosting 算法根據(jù)上一次訓(xùn)練得到的子模型結(jié)果,調(diào)整數(shù)據(jù)集樣本分布,而后生成下一個(gè)子模型(于玲和吳鐵軍,2004)。每個(gè)子模型的重要度作為模型輸出結(jié)果的權(quán)重,通過(guò)迭代的方式加權(quán)計(jì)算得出最終結(jié)果。根據(jù)模型結(jié)構(gòu)設(shè)計(jì)的不同,產(chǎn)生了GBDT(Friedman,2001;Gradient Boosting Decision Tree,梯度提升決策樹(shù))、LightGBM(Ke等,2017;Light Gradient Boosting Machine,輕量級(jí)梯度提升機(jī))、XGBoost(Chen 和Guestrin,2016;eXtreme Gradient Boosting,極限梯度提升樹(shù))等重要分支算法,這些算法各有優(yōu)勢(shì),在眾多科學(xué)問(wèn)題中都發(fā)揮了重要作用。

        相較于深度學(xué)習(xí),集成學(xué)習(xí)算法的模型訓(xùn)練速度更快、所需數(shù)據(jù)量更少、模型穩(wěn)定性強(qiáng)(Shinde 和Shah,2018;Chauhan 和Singh,2018;Nguyen等,2019),更適合于近實(shí)時(shí)降水的研究。因此,本研究借助極具潛力的集成學(xué)習(xí)理論,選取并比較典型的集成學(xué)習(xí)模型LightGBM、XGBoost和Random Forest,從而快速高效地訂正近實(shí)時(shí)FY-4A降水?dāng)?shù)據(jù)。

        2 研究區(qū)、研究數(shù)據(jù)和評(píng)估方法

        2.1 研究區(qū)

        研究區(qū)域?yàn)橹袊?guó)(香港、澳門、臺(tái)灣數(shù)據(jù)缺失)。研究區(qū)地處亞歐大陸東部,太平洋西岸,南北跨度近50°,地勢(shì)西高東低且地形復(fù)雜。研究區(qū)降水的空間分布不均勻,年平均降水量呈現(xiàn)由東南沿海向西北內(nèi)陸遞減的趨勢(shì)(左洪超等,2004)。由于對(duì)季風(fēng)活動(dòng)響應(yīng)較強(qiáng),中國(guó)的降水季節(jié)性變化顯著,呈現(xiàn)出冬季降水少,夏季降水多的特性(翟盤茂和潘曉華,2003),其中夏季降水是造成中國(guó)洪澇災(zāi)害的主要原因。

        2.2 研究數(shù)據(jù)

        2.2.1 FY-4A REGC

        風(fēng)云四號(hào)A星是風(fēng)云二號(hào)C星(中國(guó)第一代靜止氣象衛(wèi)星第一顆業(yè)務(wù)衛(wèi)星)的迭代產(chǎn)品。除了具有通過(guò)靜止軌道觀測(cè)云、水汽、植被、地表的基礎(chǔ)功能,F(xiàn)Y-4A 還具備了捕捉氣溶膠、雪的能力,并且能清晰區(qū)分云的不同相態(tài)和中、高層水汽(范存群等,2018)。FY-4A的AGRI每小時(shí)完成一次全圓盤觀測(cè),每15 min 在觀測(cè)空隙進(jìn)行定位定標(biāo)觀測(cè),覆蓋范圍為亞太地區(qū);當(dāng)無(wú)全圓盤觀測(cè)時(shí)每5 min進(jìn)行一次中國(guó)區(qū)域觀測(cè),覆蓋范圍為3°N—55°N,60°E—137°E(張環(huán)宇和唐伯惠,2021)。

        國(guó)家氣象中心于2018年3月12 日發(fā)布降水反演產(chǎn)品FY-4A REGC 和FY-4A DISK。本研究使用FY-4A REGC 作為模型輸入。FY-4A REGC 的原始時(shí)空分辨率為5 min(不連續(xù))/4 km。在本研究中,將FY-4A REGC的時(shí)空分辨率重采樣至1 h/0.1°以匹配地面觀測(cè)分辨率。數(shù)據(jù)的時(shí)間范圍為2018年6月1 日至2019年9月30日,覆蓋兩年的夏季(6、7、8月)。

        2.2.2 IMERG-Early

        IMERG 是全球衛(wèi)星降水觀測(cè)計(jì)劃GPM 的代表性衛(wèi)星反演降水產(chǎn)品之一,其核心衛(wèi)星上搭載的微波成像儀(GMI)和支持Ku 波段(13.6 GHz)和Ka 波段(35.5 GHz)的雙頻降雨雷達(dá)(DPR)提供了時(shí)空采樣更精密的信息源,再通過(guò)其反演算法得到滿足不同時(shí)效和質(zhì)量需求的全球降水?dāng)?shù)據(jù)集(Smith等,2007)。作為GPM 時(shí)代的重要成果,IMERG 使用的算法由TRMM(Tropical Rainfall Measuring Mission)時(shí)代3 套主流的降水反演算法(TMPA、GSMaP 和PERSIANN)融合發(fā)展而產(chǎn)生,它同時(shí)引進(jìn)了卡爾曼濾波和云移動(dòng)矢量傳播兩種算法(Draper等,2015)。IMERG 系統(tǒng)在近實(shí)時(shí)階段運(yùn)行兩次,先后得到IMERG-Early 和IMERG-Late(Skofronick-Jackson等,2017)。其中IMERG-Early僅使用了云移動(dòng)矢量傳播算法中的前向傳播算法以相對(duì)快速地提供結(jié)果。IMERG-Early的原始時(shí)空分辨率為30 min/0.1°。為與地面參考、FY-4A 降水?dāng)?shù)據(jù)匹配,將IMERG-Early 的時(shí)間分辨率重采樣到1 h。

        2.2.3 CMPA

        CMPA(中國(guó)自動(dòng)站與CMORPH融合的逐時(shí)降雨量0.1°網(wǎng)格數(shù)據(jù)集)使用地面和衛(wèi)星兩個(gè)來(lái)源的降雨數(shù)據(jù):地面觀測(cè)降雨資料來(lái)自全國(guó)3萬(wàn)多個(gè)自動(dòng)觀測(cè)站(包括國(guó)家級(jí)自動(dòng)站和區(qū)域自動(dòng)站)逐時(shí)降雨量,衛(wèi)星反演降雨產(chǎn)品選用由美國(guó)環(huán)境預(yù)測(cè)中心開(kāi)發(fā)的實(shí)時(shí)衛(wèi)星反演降雨產(chǎn)品,應(yīng)用了概率密度匹配和最優(yōu)插值算法分兩步融合數(shù)據(jù)(張強(qiáng)等,2007)。在本研究中,僅使用地面自動(dòng)站觀測(cè)數(shù)據(jù),將其作為衛(wèi)星降水?dāng)?shù)據(jù)質(zhì)量檢驗(yàn)的真值。以上3套數(shù)據(jù)的信息已在表1中給出。

        表1 研究使用數(shù)據(jù)Table 1 Data used in this research

        2.3 評(píng)估方法

        本研究為定量評(píng)估訂正結(jié)果的表現(xiàn)采用了3種常用的精度指標(biāo)(廖榮偉等,2015;曾歲康和雍斌,2019),其中包括:(1)相關(guān)系數(shù)CC(Correlation Coefficient)用于量化降水?dāng)?shù)據(jù)與實(shí)測(cè)數(shù)據(jù)之間的線性相關(guān)程度,最優(yōu)值為1;(2)均方根誤差RMSE(Root Mean Square Error)用于量化降水?dāng)?shù)據(jù)與實(shí)測(cè)數(shù)據(jù)之間的離散程度,最優(yōu)值為0;(3)相對(duì)偏差Bias(relative Bias)用于反映衛(wèi)星降水?dāng)?shù)據(jù)與實(shí)測(cè)數(shù)據(jù)之間的偏差程度,最優(yōu)值為0。各指標(biāo)計(jì)算表達(dá)式和最優(yōu)值見(jiàn)表2。

        表2 統(tǒng)計(jì)評(píng)估參數(shù)Table 2 Statistical evaluation parameters

        3 基于集成學(xué)習(xí)的快速訂正算法

        3.1 LightGBM

        LightGBM 是集成學(xué)習(xí)中經(jīng)典Boosting 方法GBDT的改進(jìn)。LightGBM在傳統(tǒng)的梯度提升樹(shù)的基礎(chǔ)上引入直方圖決策算法、單邊梯度采樣和互斥特征捆綁算法(Lundberg等,2019)。在樣本數(shù)據(jù)量和特征量增長(zhǎng)的情況下,LightGBM 的精度卻不受影響,并且能夠有效提升模型訓(xùn)練速度。

        直方圖決策算法通過(guò)構(gòu)建直方圖得到分集。將連續(xù)的輸入值離散化成k個(gè)整數(shù)并構(gòu)造一個(gè)寬度為k的直方圖,遍歷直方圖的值以找最優(yōu)分割點(diǎn),有效減少了候選分裂點(diǎn)數(shù)量。由于目標(biāo)函數(shù)增益主要來(lái)自于梯度絕對(duì)值較大的樣本,因此單邊梯度采樣只考慮梯度絕對(duì)值小于一定閾值的樣本,保留絕對(duì)值較大的樣本。互斥特征捆綁算法則可以通過(guò)對(duì)某些特征的取值重新編碼,將多個(gè)互斥的特征綁定為一個(gè)新特征,以降低計(jì)算復(fù)雜度(Ke等,2017)。這使得該算法在保證訓(xùn)練精度的同時(shí),極大提升了算法的運(yùn)行速度。

        3.2 XGBoost

        XGBoost 是經(jīng)典Boosting 方法GBDT 的另一種改進(jìn)。相較于GBDT,XGBoost 基于二階泰勒公式并引入了正則化方法。對(duì)于一般模型,目標(biāo)函數(shù)可以表示為

        式中,L(θ)是訓(xùn)練損失函數(shù),Ω(θ)是正則化項(xiàng)。L(θ)的常見(jiàn)選擇是均方根誤差,它由下式給出:

        式中,yi是樣本,是樣本均值。

        正則化方法定義了模型復(fù)雜度:

        式中,T是決策樹(shù)的葉子數(shù),γ是折算系數(shù),是葉子結(jié)點(diǎn)對(duì)應(yīng)的值向量的L2范數(shù)。

        XGBoost 運(yùn)行的一般步驟是:首先,從深度為0 的樹(shù)開(kāi)始,對(duì)每個(gè)葉子節(jié)點(diǎn)枚舉所有可用特征。其次,針對(duì)每個(gè)特征,把屬于該節(jié)點(diǎn)的訓(xùn)練樣本根據(jù)該特征值升序排列,通過(guò)線性掃描的方式來(lái)決定該特征的最佳分裂點(diǎn),并記錄該特征的最大收益。然后,選擇收益最大的特征作為分裂特征,用該特征的最佳分裂點(diǎn)作為分裂位置,并為每個(gè)新節(jié)點(diǎn)關(guān)聯(lián)對(duì)應(yīng)的樣本集。最后,反復(fù)遞歸執(zhí)行到滿足特定條件為止(Chen和Guestrin,2016)。

        3.3 Random Forest

        Random Forest 是集成學(xué)習(xí)中Bagging 方法的代表模型之一。其一般步驟是:從訓(xùn)練集中有放回地抽樣,取樣多次形成一個(gè)新訓(xùn)練用子集D,隨機(jī)選擇m個(gè)特征。使用新的訓(xùn)練集D和m個(gè)特征,學(xué)習(xí)出一個(gè)完整的決策樹(shù),反復(fù)進(jìn)行多次,最后得到隨機(jī)森林(Breiman,2001)。

        與GBDT 相比:Random Forest 是并行生成的,而GBDT是串行生成的;Random Forest的結(jié)果是多數(shù)表決形成的,而GBDT的結(jié)果則是多棵樹(shù)累加所得。本研究中,主要使用Random Forest 與兩種Boosting方法模型LightGBM 和XGBoost對(duì)比。

        3.4 算法流程

        本研究提出的基于集成機(jī)器學(xué)習(xí)的快速訂正算法如圖1(a)所示。具體可分為4個(gè)步驟。

        圖1 基于集成學(xué)習(xí)的快速訂正算法Fig.1 Fast correction algorithm based on ensemble machine learning

        步驟一,數(shù)據(jù)處理。本步驟首先將FY-4A REGC和IMERG-Early 的時(shí)空分辨率重采樣至0.1°/1 h,以匹配CMPA的自動(dòng)站觀測(cè)數(shù)據(jù)。為確保在沒(méi)有其他氣象(降水)數(shù)據(jù)輸入的情況下仍能完成訂正任務(wù),本研究?jī)H針對(duì)FY-4A REGC 估計(jì)有雨時(shí)的數(shù)據(jù)。與此同時(shí),CMPA 則僅使用有自動(dòng)觀測(cè)站點(diǎn)的格點(diǎn)。在本研究中,我們選取了80%的FY-4A REGC 作為訓(xùn)練集的輸入,并將IMERG-Early 作為訓(xùn)練數(shù)據(jù)集標(biāo)定。然后,訓(xùn)練集將按不同數(shù)量級(jí)進(jìn)一步分割,具體分割方式如圖1(b)所示。不同的分割方法將產(chǎn)生不同的模型參數(shù)和運(yùn)行時(shí)間。此處,220個(gè)樣本數(shù)量級(jí)約包含3 h 的數(shù)據(jù)特征,而225個(gè)樣本數(shù)量級(jí)約包含4 d 的數(shù)據(jù)特征。分割后,剩余的20%的FY-4A REGC 將用作驗(yàn)證集,輸入訓(xùn)練完成的模型以獲得訂正結(jié)果。此外,研究未打亂輸入數(shù)據(jù)的時(shí)間順序。因此訓(xùn)練集大約對(duì)應(yīng)2018年6月1 日至2019年6月30日,而驗(yàn)證集大約對(duì)應(yīng)2018年7月1 日至2019年9月30 日。最后將CMPA中的自動(dòng)站觀測(cè)數(shù)據(jù)用作驗(yàn)證真值,以評(píng)估訂正效果。評(píng)估結(jié)果的時(shí)間范圍與驗(yàn)證集相同。

        步驟二,模型比較。本研究選取了兩種Boosting方法模型LightGBM 和XGBoost以及一種Bagging方法模型Random Forest。本研究通過(guò)綜合評(píng)估回歸準(zhǔn)確率、時(shí)間復(fù)雜度與輸入數(shù)據(jù)量的關(guān)系,獲取在默認(rèn)參數(shù)設(shè)置下,最適合當(dāng)前任務(wù)的集成學(xué)習(xí)模型。一旦確定被選模型,我們將使用網(wǎng)格搜索方法對(duì)其超參數(shù)進(jìn)行進(jìn)一步優(yōu)化。

        圖2 使用泰勒?qǐng)D比較了FY-4A REGC 和IMERG-Early在2018年夏季和2019年夏季的表現(xiàn)。在泰勒?qǐng)D中,估計(jì)點(diǎn)距離“觀測(cè)值”越近,說(shuō)明數(shù)據(jù)集越接近觀測(cè)值。結(jié)果顯示,IMERG-Early在2018年夏季和2019年夏季的表現(xiàn)幾乎相同,而FY-4A REGC 則有明顯不同:2019年夏季點(diǎn)與觀測(cè)點(diǎn)的距離較2018年夏季更小。這表明FY-4A REGC 的數(shù)據(jù)質(zhì)量隨著時(shí)間的推移有明顯的提升。這主要是由于官方對(duì)反演算法和定標(biāo)結(jié)果進(jìn)行了調(diào)整。為了使模型能夠清晰反映FY-4A REGC 和IMERG-Early之間的隱含關(guān)系,我們提出了一種滾動(dòng)輸入最新數(shù)據(jù)并不斷更新模型參數(shù)的運(yùn)行方法。

        圖2 2018年、2019年夏季3套產(chǎn)品統(tǒng)計(jì)性能泰勒?qǐng)DFig.2 Taylor diagram of statistical performance for three datasets of products in the summers of 2018 and 2019

        步驟三,模型運(yùn)行。首先,固定模型及其超參數(shù),確定模型訓(xùn)練合適的輸入數(shù)據(jù)量2N(N為待確定值)。其次,訓(xùn)練模型并獲得T1時(shí)刻下2N對(duì)應(yīng)的模型參數(shù)并記錄到歷史參數(shù)庫(kù)。然后,當(dāng)獲取到新數(shù)據(jù)時(shí),記為T2時(shí)刻。此時(shí)刪除最舊的數(shù)據(jù)并加入新數(shù)據(jù),始終保持?jǐn)?shù)據(jù)總量為2N。重復(fù)訓(xùn)練模型的過(guò)程。最后,獲得模型參數(shù)庫(kù),加載最接近參數(shù)庫(kù)所載時(shí)間Ti(i=1,2,3,…)的模型參數(shù)以運(yùn)行模型。

        圖3展示了隨著時(shí)間推移,在訓(xùn)練集上不同模型參數(shù)更新后的輸出結(jié)果評(píng)估對(duì)比。結(jié)果顯示,隨著時(shí)段數(shù)的增加,輸出結(jié)果的評(píng)估效果明顯改善。

        圖3 模型內(nèi)不同參數(shù)隨時(shí)段變化輸出結(jié)果的評(píng)估對(duì)比(基于訓(xùn)練集和CMPA)Fig.3 Evaluation comparison of model output with different parameters varied across time periods(based on training datasets and CMPA)

        步驟四,結(jié)果驗(yàn)證。我們固定模型并輸入驗(yàn)證集,將模型輸出的數(shù)據(jù)作為輸出訂正數(shù)據(jù)集FY-4A Adj(時(shí)空分辨率為1 h/0.1°)。最后,通過(guò)計(jì)算CC、RMSE、Bias等指標(biāo)以評(píng)估模型效果。

        4 結(jié)果與討論

        4.1 模型的選取

        鑒于FY-4A REGC 的數(shù)據(jù)質(zhì)量隨著時(shí)間推移有明顯提升的特性,滾動(dòng)輸入新觀測(cè)信息以更新模型的最優(yōu)參數(shù)有其必要性。此外,F(xiàn)Y-4A REGC是近實(shí)時(shí)降水反演產(chǎn)品,更新訂正模型參數(shù)的過(guò)程必須考慮時(shí)效性。因此,挑選一種在輸入數(shù)據(jù)量級(jí)逐步提升條件下,仍能兼顧運(yùn)行時(shí)間和訂正精度的模型成了本研究的首要問(wèn)題。圖4通過(guò)熱力圖的形式,給出了每種集成學(xué)習(xí)模型運(yùn)行各數(shù)據(jù)量級(jí)的輸入數(shù)據(jù)后,訓(xùn)練模型的回歸精度和所需時(shí)間(運(yùn)行平臺(tái)如表3 所示)。需要指出的是,模型使用默認(rèn)超參數(shù)且運(yùn)行同一模型時(shí)僅改變輸入數(shù)據(jù)的量級(jí)。

        圖4 3種模型不同數(shù)量級(jí)數(shù)據(jù)輸入下的回歸精度和運(yùn)行時(shí)間Fig.4 Regression accuracy and execution time of three models with varying magnitudes of data input

        表3 實(shí)驗(yàn)平臺(tái)Table 3 Experiment platform

        根據(jù)訓(xùn)練精度表現(xiàn)可知,在數(shù)據(jù)量提升至223之前,代表Bagging 算法的Random Forest 模型要優(yōu)于代表Boosting 算法的XGBoost 和LightGBM 模型,但當(dāng)XGBoost 和LightGBM 在223數(shù)據(jù)輸入時(shí),它們的訓(xùn)練效果與Random Forest 持平。從訓(xùn)練時(shí)間方面來(lái)看,盡管3種模型獲得了類似的訓(xùn)練效果,但XGBoost 在220的訓(xùn)練時(shí)間為L(zhǎng)ightGBM 的4.4倍,而Random Forest 所需的訓(xùn)練時(shí)間更是為L(zhǎng)ightGBM 的21.5 倍。在數(shù)據(jù)量進(jìn)一步增加至225后,所需時(shí)間更是增長(zhǎng)到了LightGBM的39.5倍。

        經(jīng)過(guò)上述分析,可以得出以下結(jié)論:隨著訓(xùn)練數(shù)據(jù)量的增加,所有集成學(xué)習(xí)模型的訓(xùn)練時(shí)間都呈線性增長(zhǎng)趨勢(shì)。訓(xùn)練精度相對(duì)穩(wěn)定,受訓(xùn)練數(shù)據(jù)量級(jí)的影響不大。Bagging 算法在數(shù)據(jù)量較少時(shí)略好于Boosting 算法,但隨著數(shù)據(jù)量的增加,Bagging 算法的運(yùn)行復(fù)雜度顯著增加,而B(niǎo)oosting算法則只需要延拓部分誤差傳播模型即可。在Boosting 算法中,LightGBM 的直方圖決策算法、單邊梯度采樣和互斥特征捆綁算法對(duì)維持訓(xùn)練精度和提升訓(xùn)練速度起到了顯著作用。在樣本數(shù)據(jù)量和特征量增長(zhǎng)的情況下,LightGBM 不但能保持訓(xùn)練精度,而且模型訓(xùn)練速度明顯更快。因此,當(dāng)數(shù)據(jù)量較少時(shí),更推薦使用包括Random Forest 模型在內(nèi)的Bagging 算法,而當(dāng)數(shù)據(jù)量較大時(shí),更推薦使用Boosting 算法,尤其是LightGBM 模型,因?yàn)樗梢约骖櫽?xùn)練精度和訓(xùn)練時(shí)間。在本研究中,我們將選取LightGBM 作為快速訂正近實(shí)時(shí)降水反演產(chǎn)品FY-4A REGC的主要方法。

        4.2 分割輸入量級(jí)的選取

        此外,對(duì)新生成的產(chǎn)品FY-4A Adj 進(jìn)行了分析,該產(chǎn)品是未參與訓(xùn)練的驗(yàn)證集數(shù)據(jù),輸入經(jīng)過(guò)網(wǎng)格搜索法調(diào)參后的LightGBM 模型產(chǎn)生的輸出結(jié)果。我們將FY-4A Adj與CMPA 觀測(cè)資料進(jìn)行比較,以確定最適合的輸入量級(jí)。表4列出了網(wǎng)格搜索法調(diào)整的超參數(shù)。圖5 則展示了訓(xùn)練結(jié)果與IMERG-Early計(jì)算所得的均方根誤差值RMSE。

        圖5 各數(shù)量級(jí)輸入導(dǎo)致評(píng)估結(jié)果(藍(lán)色代表優(yōu)選數(shù)據(jù)量)Fig.5 Performance changing trends(The blue areas represent the best)

        表4 網(wǎng)格搜索法調(diào)整超參數(shù)Table 4 Grid search for hyper-parameters tuning

        如圖5 所示,我們展示了不同輸入量級(jí)下FY-4A Adj 對(duì)比驗(yàn)證真值的評(píng)估結(jié)果??傮w而言,隨著輸入量級(jí)的增加,相關(guān)系數(shù)CC 下降,均方根誤差RMSE 波動(dòng)上升,偏差Bias 輕微下降。這表明,在相似的模型結(jié)構(gòu)和參數(shù)設(shè)置下,當(dāng)數(shù)據(jù)輸入量過(guò)多時(shí),模型的泛化能力可能會(huì)降低。這主要是由于Boosting 算法框架下,模型誤差是通過(guò)生成和累積決策樹(shù)來(lái)實(shí)現(xiàn)的。輸入量級(jí)的增加可能會(huì)導(dǎo)致決策樹(shù)結(jié)構(gòu)更加復(fù)雜,從而產(chǎn)生更多的不確定性。因此,集成模型需要考慮數(shù)據(jù)輸入量以獲得更好的效果。這與深度學(xué)習(xí)要求更多的數(shù)據(jù)輸入相反(Bottou和Bousquet,2007)。

        圖5中用藍(lán)色標(biāo)識(shí)的部分,是總體表現(xiàn)最好的模型。因此,本研究將使用由221作為分割輸入數(shù)量級(jí)以訓(xùn)練生成的模型。

        4.3 訂正產(chǎn)品FY-4A Adj的空間分布

        圖6展示了FY-4A Adj、FY-4A REGC、IMERGEarly 等3 種降水估計(jì)產(chǎn)品在中國(guó)大陸各區(qū)域空間分布表現(xiàn)??梢园l(fā)現(xiàn),這3種產(chǎn)品的降水分布趨勢(shì)大致相似,均能反映出雨季的降水地域性分異特征。其中,IMERG-Early的表現(xiàn)整體更加精細(xì),而FY-4A 系列產(chǎn)品則表現(xiàn)出明顯的插值特征。在中國(guó)東南部地區(qū),F(xiàn)Y-4A REGC和IMERG-Early的降水估計(jì)存在明顯的差異,F(xiàn)Y-4A REGC 相比IMERG-Early有顯著的高估現(xiàn)象。在中國(guó)西北部地區(qū),兩者的表現(xiàn)差異不大。

        圖6 中國(guó)東南部、中國(guó)中部、中國(guó)東北部、中國(guó)西北部各區(qū)域上FY-4A Adj,F(xiàn)Y-4A REGC,IMERG-Early,F(xiàn)Y-4A Adj減去FY-4A REGC的小時(shí)平均降水量(時(shí)間范圍:2019年7月1日至2019年9月30日,即驗(yàn)證集)Fig.6 Southeast China,Central China,Northwest China,Northwest China:Average hourly precipitation of FY-4A Adj,F(xiàn)Y-4A REGC,IMERG-Early,F(xiàn)Y-4A Adj minus FY-4A REGC in other regions of China(Time range:July 1,2019 to September 30,2019,i.e.based on validation datasets)

        由于算法只考慮FY-4A REGC 估計(jì)有降水的區(qū)域,而降水事件數(shù)量遠(yuǎn)少于非降水事件,因此在平均小時(shí)降水尺度上很難反映兩套產(chǎn)品的差距。圖6 中所示的FY-4A Adj 和FY-4A REGC 降水空間分布較為相似。因此,本研究還提供了FY-4A Adj減去FY-4A REGC 的結(jié)果,如圖6 所示??梢钥闯?,在與IMERG-Early 的估計(jì)有較大分歧的地區(qū),F(xiàn)Y-4A Adj幾乎都進(jìn)行了降水量上的調(diào)整,使其更接近IMERG-Early。整體而言,F(xiàn)Y-4A Adj 進(jìn)行了許多正向的調(diào)整:在中國(guó)中部和北部進(jìn)行了一些上調(diào);而在中國(guó)的西部,進(jìn)行了輕微的下調(diào)。在中國(guó)的東南部,F(xiàn)Y-4A Adj 進(jìn)行了較大程度的下調(diào),使其更加接近IMERG-Early。

        4.4 訂正產(chǎn)品FY-4A Adj的地面驗(yàn)證

        圖7展示了FY-4A Adj、FY-4A REGC、IMERGEarly和CMPA 自動(dòng)站數(shù)據(jù)之間的散點(diǎn)關(guān)系圖。從圖7(b)和圖7(c)可以看出:在研究時(shí)間段內(nèi),IMERG-Early和FY-4A REGC估計(jì)的小時(shí)降水主要分布在0—5 mm,且分布相對(duì)均勻,接近45°線。然而,IMERG-Early的表現(xiàn)明顯優(yōu)于FY-4A REGC,因?yàn)镕Y-4A REGC 有更多的數(shù)據(jù)點(diǎn)分布在接近坐標(biāo)軸的區(qū)域,這意味著CMPA 觀測(cè)到的降水量較FY-4A REGC 估計(jì)的降水量偏移較多。此外,在45°線上,IMERG-Early 有更多的數(shù)據(jù)點(diǎn),呈現(xiàn)出“凸型”,而FY-4A REGC 則較為分散,呈現(xiàn)出“凹型”。從精度指標(biāo)來(lái)看,IMERG-Early 的CC 和RMSE 都明顯優(yōu)于FY-4A REGC,這與散點(diǎn)圖的結(jié)果一致。

        圖7 FY-4A Adj、FY-4A REGC、IMERG-Early和CMPA小時(shí)降水散點(diǎn)對(duì)比及評(píng)估結(jié)果(2019年7月1日至2019年9月30日,即基于驗(yàn)證集)Fig.7 Scatter comparison and evaluation results of FY-4A Adj、FY-4A REGC、IMERG-Early and CMPA about hourly precipitation(From July 1,2019 to July 30,2019,i.e.based on validation dataset)

        圖7(a)展示了FY-4A Adj和CMPA自動(dòng)站數(shù)據(jù)之間的散點(diǎn)關(guān)系圖。值得注意的是,經(jīng)過(guò)訂正后,更多的數(shù)據(jù)點(diǎn)集中在45°線上(尤其是在0—2 mm降水區(qū)間范圍內(nèi)),這表明本方法對(duì)FY-4A REGC的訂正在雨強(qiáng)較小時(shí)效果顯著。

        然而,當(dāng)降水強(qiáng)度超過(guò)6 mm時(shí),散點(diǎn)圖中出現(xiàn)了部分“斷層”。這主要是因?yàn)樵谥?、高雨?qiáng)下,輸入的訓(xùn)練樣本過(guò)少,導(dǎo)致模型會(huì)籠統(tǒng)地把一定范圍內(nèi)的輸入都映射到同一個(gè)標(biāo)定值附近。因此,需要對(duì)中、高雨強(qiáng)的樣本進(jìn)行強(qiáng)化訓(xùn)練。但由于中、高雨強(qiáng)仍然占少數(shù),因此上述因素對(duì)訂正結(jié)果的質(zhì)量影響有限。從另一方面來(lái)看,盡管對(duì)中、高雨強(qiáng)的訂正仍有明顯缺陷,但經(jīng)本方法訂正后的FY-4A 降水?dāng)?shù)據(jù)更接近IMERG-Early的質(zhì)量,證明了本方法的潛力。此外,整個(gè)降水分布出現(xiàn)了一定的“傾斜”現(xiàn)象,說(shuō)明本算法對(duì)整體降水估計(jì)進(jìn)行了調(diào)整。這樣的調(diào)整有利于訂正結(jié)果,使得FY-4A Adj對(duì)于降水總量的估計(jì)更加準(zhǔn)確(Bias由14.15%降至3.70%,超過(guò)IMERG-Early)。

        5 結(jié)論

        本研究提出了一種基于集成學(xué)習(xí)的快速訂正算法,實(shí)現(xiàn)了基于地面站點(diǎn)觀測(cè)的近實(shí)時(shí)FY-4A衛(wèi)星反演降水?dāng)?shù)據(jù)的快速校正。經(jīng)評(píng)估分析表明,該方法能夠有效且快速地提升FY-4A REGC 的精度,使其達(dá)到了全球降水觀測(cè)計(jì)劃近實(shí)時(shí)產(chǎn)品IMERG-Early的數(shù)據(jù)質(zhì)量。具體結(jié)論如下:

        (1)FY-4A Adj 相較于FY-4A REGC,評(píng)估指標(biāo)CC、RMSE 和Bias 值有明顯提升,有效降低了FY-4A REGC 在中國(guó)南部的顯著高估,改善了風(fēng)云衛(wèi)星反演降水估計(jì)的準(zhǔn)確性。

        (2)集成學(xué)習(xí)算法的選取會(huì)受到輸入數(shù)據(jù)量級(jí)的影響。對(duì)于數(shù)據(jù)量較少的情況,建議使用Bagging 算法,如Random Forest;而對(duì)于數(shù)據(jù)量較大的情況,建議使用Boosting 算法,如LightGBM模型,以兼顧精度和運(yùn)行時(shí)間。

        (3)輸入訓(xùn)練集數(shù)據(jù)數(shù)量的增加并不一定能夠提高集成學(xué)習(xí)模型的精度。在本研究中,221個(gè)樣本量是訓(xùn)練模型參數(shù)的最佳數(shù)量級(jí)。

        (4)由于缺乏中高雨強(qiáng)的樣本數(shù)據(jù),本算法對(duì)于此類情況的預(yù)測(cè)存在偏向同一值的問(wèn)題。在獲取更多樣本數(shù)據(jù)后,可以考慮使用強(qiáng)化學(xué)習(xí)算法對(duì)中、高雨強(qiáng)的情況進(jìn)行訓(xùn)練,以提高模型的準(zhǔn)確性。

        猜你喜歡
        模型
        一半模型
        一種去中心化的域名服務(wù)本地化模型
        適用于BDS-3 PPP的隨機(jī)模型
        提煉模型 突破難點(diǎn)
        函數(shù)模型及應(yīng)用
        p150Glued在帕金森病模型中的表達(dá)及分布
        函數(shù)模型及應(yīng)用
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        3D打印中的模型分割與打包
        一区二区三区四区国产99| 日本a在线播放| 亚洲精品一区二区在线播放 | 91精品国产自拍视频| 四虎影在永久在线观看| 国产精品igao视频网| 无码成人片一区二区三区| 亚洲av一区二区网址| 国产毛片黄片一区二区三区| 凹凸在线无码免费视频| 亚洲色图视频在线| 女同av免费在线播放| av日韩一区二区三区四区| 伊人久久大香线蕉亚洲五月天| 亚洲成在人线久久综合| 中文字幕在线一区乱码| 亚洲综合第一页中文字幕| 国产精品毛片完整版视频| 中文字幕在线码一区| av成人资源在线播放| 狠狠综合久久av一区二区蜜桃| 在线亚洲+欧美+日本专区| 91国在线啪精品一区| 国产二区中文字幕在线观看| 国产精品久久久亚洲| 成人免费视频在线观看| 女人被躁到高潮嗷嗷叫免费软| 麻豆人妻性色av专区0000| 人人色在线视频播放| 五月婷婷激情综合| 亚洲一区二区三区av无| 日韩精品人妻中文字幕有码| 人妻无码久久一区二区三区免费| 久久久久久久久高潮无码| 色播视频在线观看麻豆| 亚洲精品国产美女久久久| 香蕉视频毛片| 天堂av一区二区麻豆| 亚洲无码在线播放| 红杏亚洲影院一区二区三区| 极品美女销魂一区二区三|