亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

機器學(xué)習(xí)中混合特征選擇對模式預(yù)報廣西春夏氣溫的訂正研究

2023-10-28 07:30:14李德倫肖志祥謝寧新

成都信息工程大學(xué)學(xué)報 2023年5期

李德倫, 肖志祥, 謝寧新, 龔榮

(1.廣西民族大學(xué)電子信息學(xué)院,廣西南寧 530000;2.廣西壯族自治區(qū)氣象科學(xué)研究所,廣西南寧 530022;3.廣西民族大學(xué)人工智能學(xué)院,廣西南寧 530000)

0 引言

近年來數(shù)值計算方法和高性能計算技術(shù)的迅速發(fā)展,數(shù)值模式已成為現(xiàn)代天氣預(yù)報的基礎(chǔ),但其受地形、模式初始場、參數(shù)的不確定性等諸多因素的影響存在著一定的誤差[1]。氣溫是最重要的預(yù)報要素之一,對它的精確度和精細(xì)化預(yù)報也有更高的要求。因此,開展數(shù)值模式訂正技術(shù)研究,提升溫度的預(yù)報精度不僅能提高社會經(jīng)濟效益,還為日常生產(chǎn)活動帶來便利。

當(dāng)前對數(shù)值模式氣溫的訂正主要有傳統(tǒng)統(tǒng)計和機器學(xué)習(xí)兩種方法。傳統(tǒng)統(tǒng)計方法主要包括滑動周期法[2]、雙線性插值法[3]、一元或多元線性回歸法[4-5]、遞減平均法[6]和卡爾曼濾波法[7]等。這些統(tǒng)計方法經(jīng)過長足的發(fā)展,對數(shù)值模式氣溫預(yù)報準(zhǔn)確率的提升有巨大的推動作用。但隨著海量數(shù)值模式數(shù)據(jù)的出現(xiàn)以及對氣溫預(yù)報精細(xì)化要求的不斷提高,大氣系統(tǒng)高度非線性特征使得傳統(tǒng)的線性氣溫訂正模型難以進一步提升預(yù)報效果。

機器學(xué)習(xí)方法對非線性問題和大數(shù)據(jù)的處理具有獨特的優(yōu)勢,已被廣泛應(yīng)用于數(shù)值模式的訂正。有研究表明,RF、XGBoost、LightGBM 等機器學(xué)習(xí)算法能有效降低數(shù)值模式氣溫預(yù)報的誤差[8-11]。特征選擇是機器學(xué)習(xí)領(lǐng)域一個重要的預(yù)處理步驟。在不弱化算法能力的基礎(chǔ)上,從原始特征中選擇出最有效的特征,可簡化學(xué)習(xí)任務(wù),大大縮減算法的運行時間,提升模型效率并增強可解釋性[12-13]。常用的特征選擇方法主要有3種:過濾法,具有簡單高效的優(yōu)點,但其存在跟后續(xù)學(xué)習(xí)算法不關(guān)聯(lián)的弊端,導(dǎo)致無法針對性的選出相應(yīng)模型合適的特征集合,如Spearman 相關(guān)系數(shù)法[14-15];包裹法,其選出的特征集合性能較好,但通用性較差且計算復(fù)雜度高、開銷大,如遞歸特征消除法[16-17];嵌入法,性能較好,但一定程度上依賴于參數(shù)調(diào)整,結(jié)果穩(wěn)定性相對較差,計算復(fù)雜度介于過濾式和包裹式之間,如XGBoost 特征選擇法[18-19]。

單一的特征選擇方法在特征選擇過程中可能會過濾掉一些潛在信息,導(dǎo)致結(jié)果穩(wěn)定性差,而通過組合不同的特征選擇方法,發(fā)揮各自優(yōu)勢,通?？梢蕴岣咝阅躘20]。 Spearman 相關(guān)系數(shù)和XGBoost 特征重要性是機器學(xué)習(xí)中最常用的兩種特征選擇方法,但優(yōu)缺點同樣明顯。本文融合兩種方法的優(yōu)勢,提出了SpearmanXgb 混合特征選擇方法,并結(jié)合預(yù)測性能和泛化能力較好的RF、XGBoost、LightGBM 3 種常用機器學(xué)習(xí)算法[21-22]對廣西地區(qū)ECMWF 近地面2 m氣溫模式格點預(yù)報進行誤差訂正,為提升模型訂正效果、實現(xiàn)氣溫的精準(zhǔn)預(yù)報提供一種新的嘗試。

1 數(shù)據(jù)和方法

1.1 數(shù)據(jù)

使用的數(shù)據(jù)來源于歐洲中期天氣預(yù)報中心(european centre for medium-range weather forecasts,ECMWF)網(wǎng)站(https:/ /www. ecmwf. int/en/research/projects/tigge)公開的TIGGE 數(shù)值模式數(shù)據(jù)。數(shù)據(jù)包含逐日00:00 時的分析場(0 時刻場)和預(yù)報時效為24 ～240 h 的預(yù)報場。數(shù)據(jù)時間范圍為2015-2020 年的春季和夏季(3-8月),空間范圍為20 °N～27 °N,104 °E～113 °E,水平分辨率為0.5°×0.5°,共285 個格點。 ECMWF 模式輸出數(shù)據(jù)總共24 個氣象要素,除近地面2 m氣溫外其余的23個要素作為模型特征(表1)。

表1 ECMWF 數(shù)值預(yù)報的23 個氣象要素

ECMWF 模式的分析場由其觀測的氣象數(shù)據(jù)通過模型預(yù)測和數(shù)據(jù)同化得來,廣泛應(yīng)用于相關(guān)研究[23-24]。本文將近地面2 m氣溫的00:00 時的分析場作為機器學(xué)習(xí)模型的標(biāo)簽,將標(biāo)簽所處時刻模式預(yù)報的23 個要素作為機器學(xué)習(xí)模型的特征,以此對ECMWF 模式的近地面2 m氣溫進行訂正。

1.2 方法

1.2.1 特征選擇

(1)Spearman 相關(guān)系數(shù)

Spearman 相關(guān)系數(shù)也被稱為等級相關(guān)系數(shù),反映特征之間的關(guān)聯(lián)程度,并且它不依賴于樣本的分布。公式[24]如下:

式中,di=x′i-y′i,x′i表示觀測值xi的等級,y′i表示觀測值yi的等級,n為樣本數(shù)量。

Spearman 相關(guān)系數(shù)絕對值在0.8 ～1.0 表明相關(guān)性極強,在0.6 ～0.8表明有較強相關(guān)性,在0.4 ～0.6表明相關(guān)性中等,在0.2 ～0.4表明相關(guān)性較弱,在0～0.2表明相關(guān)性極弱或不相關(guān)[25]。

(2)XGBoost 特征重要性

XGBoost 是Chen 等[26]在2016 年提出的基于梯度下降決策樹改進的機器學(xué)習(xí)模型,使用的特征重要性計算方法是信息增益,公式如下:

Spearman 相關(guān)系數(shù)法能夠在模型建立前快速過濾掉一些相關(guān)性差的特征,方法簡單快速,但缺點是可能會選入冗余特征或剔除有用特征,得到的不是最優(yōu)特征子集,造成模型預(yù)測性能不佳。而XGBoost 特征重要性法其特征選擇過程與模型訓(xùn)練是同步完成的,通常所選的特征子集能得到比Spearman 特征選擇更好的模型回歸效果,但計算復(fù)雜度高、耗時長且容易過擬合。因此,本文提出混合特征選擇(SpearmanXgb)方法,充分發(fā)揮二者的優(yōu)勢,即先通過Spearman 相關(guān)系數(shù)法快速剔除一些特征,降低數(shù)據(jù)規(guī)模,從而加速XGBoost 特征重要性的計算過程,得到最優(yōu)特征子集,提升模型預(yù)測性能。

1.2.2 3 種機器學(xué)習(xí)方法

(1)RF

隨機森林是Leo Breiman[27]在2001 年提出的基于決策樹的集成學(xué)習(xí)算法。其構(gòu)建過程如下:

(i)從輸入樣本中以隨機且有放回的方式抽取與輸入同等數(shù)量的樣本,構(gòu)建k棵決策樹。

(ii)在對決策樹的每個節(jié)點進行分裂時,從全部N個特征中隨機抽取n個特征(n

(iii)將生成的k棵決策樹組合成森林,其平均值作為模型的最終輸出結(jié)果。

(2)XGBoost

XGBoost 是基于CART 樹的一種集成學(xué)習(xí)算法。假定有k棵CART 樹,則XGBoost 算法的預(yù)測值為k棵CART 樹的預(yù)測值總和,公式如下:

式中,fk(xi)表示第k棵CART 樹的輸出結(jié)果,^yi表示XGBoost 算法對第i個樣本的預(yù)測結(jié)果。

(3)LightGBM

LightGBM 是一個基于決策樹的GBDT 算法框架,它在GBDT 算法的基礎(chǔ)上主要進行了直方圖算法和按葉子生長策略等優(yōu)化[28]。直方圖算法是指把連續(xù)的浮點特征值轉(zhuǎn)化成k個離散值,并構(gòu)造一個以k為寬度的直方圖,然后根據(jù)直方圖的離散值來作為特征最優(yōu)分裂點的選取方式,能達到減少內(nèi)存開銷的效果;按葉子生長策略是指決策樹是帶有深度限制的按葉子生長,區(qū)別于大部分GBDT 算法的按層生長策略。在分裂次數(shù)相等的情況下,按葉子生長策略能夠得到更好的精度。

2 預(yù)測模型構(gòu)建

采用RF、XGBoost 和LightGBM 3 種機器學(xué)習(xí)算法分別對近地面2 m氣溫進行預(yù)報。基于機器學(xué)習(xí)的氣溫預(yù)報模型流程圖如圖1 所示。

圖1 機器學(xué)習(xí)氣溫預(yù)測流程圖

(1)數(shù)據(jù)預(yù)處理:對數(shù)據(jù)集中損壞的數(shù)據(jù)進行剔除。按模式數(shù)據(jù)起報時間將數(shù)據(jù)分為訓(xùn)練集(2015-2019 年的3-8 月)和測試集(2020 年的3-8 月)。

(2)特征選擇:計算23 個特征與標(biāo)簽之間的Spearman 相關(guān)系數(shù),剔除相關(guān)性弱(0 ～0.2)的N個特征,將剩余特征輸入XGBoost 算法;然后計算剩余特征的特征重要性權(quán)重,按從大到小排序,得到1,2,…,23-N的特征排序,并依次輸入XGBoost 算法。當(dāng)XGBoost 模型的均方根誤差(RMSE)下降幅度很小且開始趨于收斂時,此時的特征子集則為最優(yōu)特征子集。

(3)將最優(yōu)特征子集分別輸入RF、XGBoost 和LightGBM 進行訓(xùn)練,得到3 種預(yù)報模型。

(4)將測試集輸入訓(xùn)練好的模型,得到訂正后的氣溫預(yù)測值,評估模型的預(yù)報性能。

(5)使用SHAP 值并結(jié)合訂正后的氣溫預(yù)測值對機器學(xué)習(xí)模型進行分析。

經(jīng)過Spearman 相關(guān)系數(shù)特征選擇后,預(yù)報時效24 h和48 h分別有6 個特征,72 ～240 h分別有7 個特征因相關(guān)系數(shù)小于0.2 被首先剔除。然后通過XGBoost 特征重要性由高到低排序來確定特定數(shù)量的特征組合下的10 個預(yù)報時效的平均RMSE 隨特征數(shù)量的變化(圖2)。當(dāng)特征數(shù)量為13 時,XGBoost 模型的平均RMSE 下降幅度很小,并開始趨于平穩(wěn),表明此時的特征子集使得模型的效率和精度達到了平衡點。因此,該特征子集即為模型最優(yōu)特征子集。

圖2 XGBoost 特征選擇

由于不同預(yù)報時效選擇的特征不同,本文以預(yù)報時效24 h為例(圖3)。經(jīng)過3 種特征選擇方法選擇后的13 個特征各有差異,但也有相似之處。 3 種方法篩選后最重要的前4 個特征均為過去6 h 2 m最高溫度、地表溫度、2 m露點溫度和土壤溫度,表明2 m氣溫與過去6 h 2 m最高溫度、地表溫度、2 m露點溫度和土壤溫度之間關(guān)聯(lián)性最強。

圖3 3 種方法的特征選擇結(jié)果

RF、XGBoost 和LightGBM 在特征選擇后平均訓(xùn)練時間均有較大幅度的縮短。其中,經(jīng)過混合特征選擇后平均訓(xùn)練時間縮短的幅度最大,RF、XGBoost 和LightGBM 的訓(xùn)練時間分別縮短了57.3%,60.7% 和51.4%(表2)。 SpearmanXgb 方法使XGBoost 模型的RMSE 略微下降,RF 和LightGBM 的RMSE 略微上升(不到1%),其余兩種特征選擇方法都使3 種機器學(xué)習(xí)模型的平均RMSE 略微增大(圖4)。結(jié)果充分表明特征選擇能夠篩選出對氣溫有關(guān)的主要特征。另一方面,SpearmanXgb 特征選擇方法的平均RMSE 相對Spearman 和XGB 分別下降了0.94%和0.64%。從訓(xùn)練時間和均方根誤差上,SpearmanXgb 混合特征選擇方法都要優(yōu)于單一的特征選擇方法。因此,本文主要對SpearmanXgb 特征選擇方法的結(jié)果進行分析。

圖4 3 種特征選擇方法10 個預(yù)報時效平均RMSE 對比

表2 3 種特征選擇方法平均訓(xùn)練時間對比單位:s

3 結(jié)果與分析

3.1 各預(yù)報時效訂正

分別采用RF、XGBoost 和LightGBM 3 種機器學(xué)習(xí)算法,對預(yù)報的廣西近地面2 m氣溫進行訂正。為分析機器學(xué)習(xí)算法隨著預(yù)報時效的增加對模式氣溫訂正的整體趨勢和變化,對3 種機器學(xué)習(xí)模型和模式的預(yù)報結(jié)果進行評估(圖5)。

圖5 3 種機器學(xué)習(xí)模型及ECMWF 的RMSE 隨預(yù)報時效的變化

從圖5 可以看出,3 種模型的RMSE 均小于ECMWF,表明3 種機器學(xué)習(xí)模型的預(yù)報效果均優(yōu)于ECMWF。隨著預(yù)報時效的增大,3 種訂正方法和ECMWF的均方根誤差都呈現(xiàn)上升趨勢且上升幅度相似。 10個預(yù)報時效的平均預(yù)報效果最好的是XGBoost,其平均RMSE 為1.2112 ℃,其次是LightGBM,RF 和ECMWF,平均 RMSE 分別為1.2125 ℃、 1.2169 ℃和1.3090 ℃。 3 個模型的平均RMSE 相比ECMWF 分別降低了7.04%、7.47%和7.37%。 3 種機器學(xué)習(xí)算法的訂正效果較接近,但又有差異。在預(yù)報前期(24～96 h),XGBoost 的表現(xiàn)最好,其次是LightGBM 和RF;在預(yù)報中后期(120 ～240 h),LightGBM 的預(yù)報效果最優(yōu),然后是XGBoost 和RF。

3.2 2 m 氣溫的季節(jié)差異

3 個模型和ECMWF 對氣溫的預(yù)報具有顯著的季節(jié)差異(圖6),夏季(6-8 月)的預(yù)報效果比春季(3-5月)好。在夏季,RF、XGBoost、LightGBM 和ECMWF 10個預(yù)報時效的平均 RMSE 分別為0.8402 ℃,0.8358 ℃,0.8410 ℃和0.9271 ℃,其中XGBoost 訂正效果最好。在春季,RF、XGBoost、LightGBM 和ECMWF 的平均均方根誤差分別為1.6091 ℃、1.6024 ℃、1.6008 ℃和1.7096 ℃,LightGBM 訂正效果最好。

圖6 3 種機器學(xué)習(xí)模型和ECMWF 的RMSE 時間序列

3.3 2 m 氣溫的空間差異

以預(yù)報時效48 h、144 h、216 h為例。從氣溫預(yù)報效果的空間分布上看(圖7),3 種訂正方法和ECMWF的RMSE 在空間上呈現(xiàn)出相似的分布,但在模式誤差較大的地方,機器學(xué)習(xí)方法的訂正效果更明顯。預(yù)報時效48 h和144 h,廣西地區(qū)的東南部的RMSE 相對較高,其余格點RMSE 較低;預(yù)報時效216 h,廣西地區(qū)東北部的RMSE 最高,西部和東南部的RMSE 較低。總體而言,廣西地區(qū)中部地形以盆地、平原為主,RMSE較低,訂正效果好;東南部和東北部地形以山地、丘陵為主,更容易受到臺風(fēng)、前汛期降水等復(fù)雜天氣過程的影響,氣溫變化幅度較大,訂正效果要差一點。

圖7 預(yù)報時效48 h、144 h、168 h 的ECMWF、RF、XGB 和LGB 的RMSE 空間分布

3.4 SHAP 模型分析

Lundberg 等[29]在2017 年提出基于SHAP(shapley additive exPlanations)值的可解釋模型,以提高機器學(xué)習(xí)模型的可解釋性。其基本思想是把單個特征在所有特征序列的邊際貢獻的均值作為該特征的SHAP 值,通過它來解釋特征做出相應(yīng)預(yù)測的內(nèi)在邏輯,已被廣泛應(yīng)用于企業(yè)投資策略[30]、新能源汽車電荷預(yù)測[31]、醫(yī)學(xué)臨床治療[32]等領(lǐng)域。因此,本文采用SHAP 值對機器學(xué)習(xí)模型中影響氣溫的特征進行分析。根據(jù)氣溫預(yù)報的空間分布結(jié)果,預(yù)報前期廣西東南地區(qū)誤差較大,預(yù)報后期東北地區(qū)誤差較大,這是機器學(xué)習(xí)模型和ECMWF 模式預(yù)報的共同特點。因此,本文對預(yù)報時效72 h的其中一個模型(XGBoost)的結(jié)果進行分析(圖8)。

圖8 XGBoost 模型預(yù)報的72 h 氣溫各特征SHAP 值

圖8 表示模型每個特征所有樣本的情況,一個點代表一個樣本。縱坐標(biāo)為經(jīng)過重要性排序的特征子集,即過去6 h 2 m最高溫度(mx2t6)重要性程度最高;橫坐標(biāo)為SHAP 值,顏色越紅表示該特征數(shù)值越大則模型預(yù)測的氣溫越高,藍(lán)色含義相反。在這個模型中,mx2t6 的SHAP 值范圍很廣,說明mx2t6 的大小變化對模型的預(yù)報結(jié)果有很大的影響:即較大的mx2t6 取值會增大氣溫的預(yù)測值,較小的取值則會減小氣溫的預(yù)測值。而海陸分布(lsm)除了對該時效模型的貢獻較小外,其SHAP 值分布范圍極小,說明該模型的預(yù)報結(jié)果對海陸分布的取值不敏感。

由于重要性最高的mx2t6 沒有00:00 時的分析場數(shù)據(jù),所以選擇重要性排第二的地表溫度(skt)進行分析。將XGBoost 模型中地表溫度的預(yù)報場數(shù)據(jù)替換為分析場數(shù)據(jù),并對比替換前后結(jié)果(圖9)。

圖9 ECMWF 和XGBoost 模型RMSE 的空間分布

從圖9 可以看出,ECMWF 預(yù)報的氣溫、地表溫度和XGBoost 模型預(yù)報的氣溫空間誤差分布非常相似,誤差中心都集中在廣西南部邊緣地區(qū)。說明地表溫度的誤差對模型的預(yù)報效果有很大影響,如果改善模式中地表溫度的預(yù)報效果,是否可以提升對氣溫的預(yù)報效果。在實驗中把地表溫度的預(yù)報場數(shù)據(jù)替換為分析場數(shù)據(jù),而模型中的其他特征保持不變,重新放入XGBoost 模型,替換前后結(jié)果如圖9(c ～d),替換前模型預(yù)測的 RMSE 為1.4940 ℃, 替換后 RMSE 降為1.1382 ℃。可以看出替換后模型預(yù)報的溫度誤差明顯下降,尤其是誤差較大的東南部地區(qū)。這說明ECMWF 模式預(yù)報的空間誤差很大程度上是由于地表溫度預(yù)報的空間誤差所造成的。

考慮到地表溫度與2 m氣溫具有很大的相關(guān)性,因此選擇與2 m氣溫相關(guān)性弱但特征重要性相對較高的平均海平面氣壓(msl)進一步檢驗。結(jié)果表明,替換前模型預(yù)測的RMSE 為1.4940 ℃,替換后RMSE 降為1.4864 ℃,同樣能改善模型的預(yù)報效果,但相比特征重要性較高的地表溫度改善效果弱一點。通過SHAP 值分析找出影響模式預(yù)報效果的要素并對其進行檢驗,從而為改善模式氣溫預(yù)報效果提供一些思路。

4 結(jié)論

(1)SpearmanXgb 混合特征選擇方法在訓(xùn)練時間和均方根誤差兩方面,均優(yōu)于單一的特征選擇方法,對大型數(shù)據(jù)集能夠發(fā)揮更大作用。

(2)從10 個預(yù)報時效(24 ～240 h)的平均RMSE看,RF、XGBoost 和LightGBM 的平均RMSE 相比ECMWF 分別降低了7.04%、7.47%、7.37%。 3 種機器學(xué)習(xí)算法的訂正效果差別較小,但均優(yōu)于ECMWF。在預(yù)報前期(24 ～96 h),XGBoost 的預(yù)報效果最好,其次是LightGBM 和RF;在預(yù)報中后期(120 ～ 240 h),LightGBM 的預(yù)報效果較好,其次是XGBoost 和RF。

(3)模型的預(yù)報效果受模式本身的預(yù)報誤差影響很大。 ECMWF 的預(yù)報場在春季的誤差較大,夏季的誤差較小,機器學(xué)習(xí)算法受此影響,春季的預(yù)報效果相比夏季要差一些。由于廣西地處云貴高原往兩廣丘陵的過渡地帶,桂東南部和桂東北地形以山地、丘陵為主,地形較為復(fù)雜,且是臺風(fēng)、華南前汛期等復(fù)雜天氣過程影響的前沿陣地,氣溫變化幅度較大,模式的預(yù)報效果較差,因此模型的訂正效果也較差。

(4)利用SHAP 值揭示了各個特征取值對預(yù)測結(jié)果的正負(fù)效應(yīng),很好地解釋了機器學(xué)習(xí)模型做出相應(yīng)預(yù)測的內(nèi)在邏輯。通過對入選特征進行檢驗為改善模式對氣溫的預(yù)報提供一些思路。