譚江紅 陳偉亮 王珊珊
(1 荊州市氣象局,荊州 434020;2 江漢平原生態(tài)氣象遙感監(jiān)測技術(shù)協(xié)同創(chuàng)新中心,荊州 434025;3 武漢中心氣象臺,武漢 430074)
機器學(xué)習(xí)是人工智能的重要解決方案,包括監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)[1]。天氣預(yù)報中的很多問題都可以轉(zhuǎn)化為標(biāo)簽已知的監(jiān)督學(xué)習(xí)問題:標(biāo)簽即待預(yù)報量,機器學(xué)習(xí)中的特征即預(yù)報因子。機器學(xué)習(xí)模型具有一定黑盒性,但其使用效果經(jīng)常出乎意料。
經(jīng)驗表明,代表全球數(shù)值模式最高水平的歐洲中期天氣預(yù)報中心(以下簡稱“歐洲中心”)在形勢預(yù)報方面日益進步,達到了非常高的可用水平,預(yù)報員在訂正形勢預(yù)報方面操作空間很小,但數(shù)值預(yù)報的要素誤差仍有較大訂正空間。隨著人工智能浪潮的來臨,客觀化智能化預(yù)報是未來天氣預(yù)報的發(fā)展方向。2017年湖北省氣象局開始開展智能網(wǎng)格預(yù)報業(yè)務(wù)。在湖北地區(qū),黃治勇等[2]使用了帶海拔高度的距離權(quán)重溫度插值方法和灰色預(yù)測模型來預(yù)報湖北溫度。另外一些見諸文獻的方法還包括卡爾曼濾波訂正模式溫度預(yù)報[3]、神經(jīng)網(wǎng)絡(luò)方法中的BP網(wǎng)絡(luò)[4]、Barnes插值[5]、時效偏差消除[6]、統(tǒng)計降尺度[7]等。
在溫度預(yù)報中使用的線性方法主要包括多元線性回歸、逐步線性回歸、最優(yōu)子集回歸,但由于天氣演變的非線性特征、預(yù)報量與預(yù)報因子關(guān)系的非線性特征,線性方法的局限性較大。除了神經(jīng)網(wǎng)絡(luò)外,非線性方法還包括支持向量機、相似預(yù)報理論等[8]。預(yù)報員的思維一般是基于歷史經(jīng)驗,本質(zhì)上也是一種相似預(yù)報的主觀方法,只不過是基于抽象經(jīng)驗,難以通過生物神經(jīng)系統(tǒng)準(zhǔn)確記住海量歷史個例,故難以客觀量化,而通過機器學(xué)習(xí)方法進行數(shù)據(jù)挖掘正是從歷史數(shù)據(jù)中挖掘規(guī)律,本質(zhì)是一種基于歷史相似樣本的客觀定量方法。數(shù)據(jù)挖掘技術(shù)也早已在精細化溫度預(yù)報中的得到探索[9],前人研究多為BP神經(jīng)網(wǎng)絡(luò)、時間序列數(shù)據(jù)挖掘方法,近年來改進并興起的樹類機器學(xué)習(xí)方法暫未得到廣泛使用。本文探索和引入了數(shù)據(jù)挖掘中比較年輕的樹類集成數(shù)據(jù)挖掘方法在歷史數(shù)據(jù)集上進行預(yù)報應(yīng)用,并在預(yù)報實踐中檢驗其效果。
本文使用的資料為2015—2017年湖北89個氣象站地面觀測溫度,時間為每天逐3 h正點觀測時間(北京時間20,23,02,05,08,11,14,17,20時),數(shù)據(jù)來源為自動站數(shù)據(jù)庫,歐洲中心(EC)再分析資料、0~12 h預(yù)報場(每天08、20時2次)。最優(yōu)訓(xùn)練期方案[10-11]證明,樣本時間尺度的選擇對于溫度預(yù)報的影響較大。選取的時間尺度足夠長,才能優(yōu)于傳統(tǒng)的季節(jié)固定期分類,才能更好地衡量不同天氣條件下的各類不同情形。通俗地說,機器學(xué)習(xí)需要“大數(shù)據(jù)”支持,足夠多的樣本才能使模型“見多識廣”,例如,建模數(shù)據(jù)不包括臺風(fēng)過程,在預(yù)報時段出現(xiàn)臺風(fēng),模型很可能無法識別罕見低氣壓的意義,無從知道臺風(fēng)低壓會造成何種結(jié)果。
LightGBM是微軟于2016年開源的一種以決策樹作為基學(xué)習(xí)器的的梯度提升(boosting)機器學(xué)習(xí)框架,較以往的樹類集成學(xué)習(xí)方法(如隨機森林、XGBoost[12])有明顯優(yōu)勢,LightGBM算法相關(guān)文獻[13]有詳細介紹。與之前的梯度提升類決策樹相比,LightGBM具有更快的訓(xùn)練效率、低內(nèi)存使用、更高的準(zhǔn)確率、支持并行化學(xué)習(xí)等很多優(yōu)點,其基學(xué)習(xí)器決策樹[14]的思想本質(zhì)是一系列if-then條件判斷的嵌套集合,與預(yù)報員的思路不謀而合:預(yù)報員正是基于各種因子(比如災(zāi)害性天氣的形成的水汽、動力、熱力條件)對結(jié)果進行分析,從而判斷各條件的組合是否會產(chǎn)生特定的天氣現(xiàn)象。
由于決策樹具有高度非線性的特點,所以可以解決非線性很強的天氣預(yù)報問題。單一的決策樹往往效果一般,但包括隨機森林、XGBoost在內(nèi)的樹類集成機器學(xué)習(xí)方法在結(jié)構(gòu)化數(shù)據(jù)挖掘方面有非常廣泛的應(yīng)用,特別是近年來,XGBoost、LightGBM在數(shù)據(jù)挖掘競賽中應(yīng)用非常廣泛,被譽為冠軍選手的“殺器”,同時這些方法在工業(yè)預(yù)測領(lǐng)域也有了大量相關(guān)應(yīng)用[15-25],應(yīng)該借鑒到氣象預(yù)報中。而在預(yù)報領(lǐng)域,集合預(yù)報與集成預(yù)報的思路同樣廣為應(yīng)用,已經(jīng)有大量溫度預(yù)報客觀方法采用了集成MOS方法[3,26-28],隨機森林、XGBoost、LightGBM等集成方法正是構(gòu)建“多棵樹”作為基預(yù)測器實現(xiàn)集成效果,相當(dāng)于擁有多個預(yù)報成員。
大多數(shù)機器學(xué)習(xí)工具都無法直接支持類別特征作為輸入,一般需要進行one-hot碼,轉(zhuǎn)換成多維特征。LightGBM增加的針對類別特征的決策規(guī)則在處理溫度預(yù)報時很有用,因為預(yù)報實踐證明地形氣候、觀測環(huán)境在氣象要素預(yù)報中是不可忽略的,正是地形因素使模式溫度預(yù)報在山區(qū)經(jīng)常與站點觀測存在較大差異(模式很好地處理了物理過程,而對地形的處理仍有缺陷),因而需要分站點建模以區(qū)分局地因子的差異,這里以站號來區(qū)分不同站點,作為預(yù)報因子輸入,使模型自動學(xué)習(xí)不同站點,相當(dāng)于考慮了不同站點的預(yù)報要素與因子之間的統(tǒng)計關(guān)系差異。由于該方法是最新開源的樹類機器學(xué)習(xí)框架,暫未見集成決策樹類相關(guān)模型在溫度預(yù)報中應(yīng)用的中文文獻(黎光智[29]在“透過網(wǎng)頁內(nèi)容預(yù)測新聞熱門程度”研究中使用了LightGBM方法),因此在天氣預(yù)報領(lǐng)域的應(yīng)用具有一定示范性。
之所以選取模式0~12 h預(yù)報進行建模是由于以下兩個原因:1)模式時效越近,模式的預(yù)報效果越好,更容易反映大氣的真實情況。這本質(zhì)上是一種更接近PP法的MOS預(yù)報方法,回歸出的預(yù)報關(guān)系比較可靠,這樣可以盡量避免模式重大的性能調(diào)整帶來的回歸關(guān)系誤差。2)使用模式要素進行MOS建模,相比PP法,其預(yù)報因子更加豐富:模式同化了包括衛(wèi)星資料在內(nèi)的大量氣象觀測資料,彌補了建模的時空分辨率,也有大量二次計算加工的物理量,同時可以更方便地直接利用模式輸出資料進行任意時效的預(yù)報應(yīng)用,由于相同的數(shù)據(jù)格式,無需額外的數(shù)據(jù)處理,對于一線業(yè)務(wù)預(yù)報非常實用。
特征工程相當(dāng)于描述了機器學(xué)習(xí)模型的內(nèi)在構(gòu)成因子,所以特征工程與數(shù)據(jù)質(zhì)量決定了機器學(xué)習(xí)模型效果的上限,此步驟尤為重要,需要確保不丟失重要特征的基礎(chǔ)上避免冗余特征、無關(guān)特征和維數(shù)災(zāi)害[1],即選取與待預(yù)測量相關(guān)性最強的影響因子是必要的,否則無法學(xué)習(xí)到數(shù)據(jù)之間的內(nèi)在客觀規(guī)律,而選取的因子過多也可能會引起機器的無效學(xué)習(xí)或陷入過擬合,增加計算開銷和學(xué)習(xí)難度,需要一定理論知識和業(yè)務(wù)經(jīng)驗。根據(jù)天氣學(xué)原理[30],局地溫度的變化主要取決于溫度平流(大氣內(nèi)部的熱量交換)和非絕熱因子(大氣與外部的熱量交換)。本項目選取的特征如下:風(fēng)場包括10 m、925 hPa、850 hPa、700 hPa,一定程度上體現(xiàn)了影響某地的天氣系統(tǒng)和冷暖空氣活動狀態(tài)(例如吹南風(fēng)和吹北風(fēng)的熱力性質(zhì)是不一樣的)。實踐經(jīng)驗表明,相對濕度越大,水汽凝結(jié)傾向越高,相對濕度是否超過80%與該層的云量狀況直接相關(guān),例如工作經(jīng)驗表明,模式預(yù)報地面相對濕度超過95%時,大概率有霧出現(xiàn),故選取1000~100hPa(1000,925,850,700,600,500,400,300,200,100 hPa)各層相對濕度,用于體現(xiàn)當(dāng)?shù)厣峡盏奶炜諣顩r以衡量輻射因子。溫度方面,選取了1000~850 hPa溫度,以體現(xiàn)大氣的基本冷暖狀態(tài),不僅考慮了天氣尺度的時空差異,也相當(dāng)于考慮了季節(jié)因素,而已經(jīng)有研究表明,聚類分析方法進行季節(jié)劃分可改善極端溫度預(yù)報效果[11]。這些層次接近地面,與地面溫度相關(guān)性高。此外還選取了海平面氣壓以及變壓,用于衡量冷空氣的強度及其活動。選取模式本身輸出的2 m溫度作為基準(zhǔn)量,選取站號和時間作為分類變量。矢量場分解為u,v分量,共計26個因子。數(shù)值預(yù)報格點的經(jīng)緯距分辨率為0.125°~0.25°,取值方式采用站點最鄰近格點方式。
該特征工程選取溫、壓、濕、風(fēng)等基本氣象要素來衡量大氣的基本狀態(tài)(其他派生量實際上也均可通過基本量計算得到),從物理上體現(xiàn)出了影響溫度的主要因子,其基本思想是,建立統(tǒng)計機器學(xué)習(xí)回歸模型,用于學(xué)習(xí)大氣不同狀態(tài)下模式本身的2 m溫度預(yù)報誤差,其本質(zhì)是基于歷史相似數(shù)據(jù)分布或排列組合進行相似訂正從而做出最終預(yù)報。通過數(shù)據(jù)處理,形成了預(yù)報因子和實況數(shù)據(jù)對應(yīng)的建模樣本矩陣數(shù)據(jù)庫。
本文利用Python進行機器學(xué)習(xí)建模,為避免過擬合采用5折CV交叉驗證,給定參數(shù)列表字典通過遺傳進化算法進行參數(shù)搜索完成機器學(xué)習(xí)超參數(shù)尋優(yōu),最終形成了LightGBMRgressor模型,并保存模型用于預(yù)測。相關(guān)使用方法和原理可參考LightGBM[12]、scikitlearn[31]、tpot[32]等項目文檔,最終使用的模型參數(shù)見表1。使用scikit-learn隨機選取模型1%的樣本數(shù)進行擬合效果評估,模型的誤差見表2,可以看出模式的均方根誤差RMSE和平均絕對誤差MAE較小,而衡量回歸效果的決定系數(shù)很高,正負(fù)誤差樣本數(shù)基本相同,表明了模型預(yù)報能力的平衡性。
表1 模型主要參數(shù)Table 1 Main parameters of LightGBM
表2 模型擬合效果評價Table 2 Goodness of fitting using regression
圖1 特征重要性排名Fig. 1 The feature importances
圖1是模型給出的特征重要性排名,從大到?。▓D1從右至左)依次為:站點、模式2 m溫度、100hPa相對濕度、海平面氣壓、925 hPa溫度、700hPa相對濕度、200 hPa相對濕度、850 hPa溫度、時間、700 hPa經(jīng)向風(fēng)速v、700 hPa緯向風(fēng)速u、600hPa相對濕度、850 hPa相對濕度、1000 hPa相對濕度、300 hPa相對濕度、500 hPa相對濕度、1000 hPa溫度、400 hPa相對濕度、850 hPav風(fēng)速、850 hPau風(fēng)速、925 hPa相對濕度、3 h變壓、925 hPav風(fēng)速、925hPau風(fēng)速、10 mv風(fēng)速、10 mu風(fēng)速。
可見在溫度預(yù)報方面,站點的因素排位第一,即需首要考慮觀測環(huán)境不同導(dǎo)致的模式預(yù)報誤差的不同,充分證明了特征工程設(shè)計的合理性。模式2 m溫度排名第二,意味著溫度預(yù)報最重要的參考資料仍然是模式輸出的2 m溫度,排名第三位的是100 hPa相對濕度,當(dāng)100 hPa濕度較大的時候,往往意味著云層的伸展高度較高(較厚),這是影響溫度的輻射因子的重要體現(xiàn)。排名第四位的是海平面氣壓,與冷空氣的活動相關(guān)性很大??梢钥闯觯瑱C器學(xué)習(xí)的結(jié)果與天氣學(xué)原理和實際預(yù)報經(jīng)驗是一致的。排名三位以下的因子的特征重要性在數(shù)量級上相差不大,但并不一定意味著這些特征并不重要,因為這是以單一因子進行度量,而實際情況是這些因子排列組合起來的結(jié)果,如上所述,各層相對濕度就與云高云厚有對應(yīng)關(guān)系,進而影響光照或長波輻射。
利用2018年獨立樣本進行預(yù)報檢驗,并與現(xiàn)行智能網(wǎng)格預(yù)報結(jié)果進行對比,其檢驗效果如圖2。可以看出模型的預(yù)報和實況變化趨勢一致,經(jīng)計算其決定系數(shù)高達0.97。平均絕對誤差1.1 ℃,而相同樣本歐洲模式2 m溫度預(yù)報誤差為1.8 ℃。2 ℃以內(nèi)的預(yù)報準(zhǔn)確率由歐洲數(shù)值預(yù)報本身的65.9%提高到86.6%,而同期省臺智能網(wǎng)格客觀產(chǎn)品12 h以內(nèi)的定時氣溫預(yù)報準(zhǔn)確率約為70.1%。例如,對57453站2018年1月9日08時的預(yù)報,歐洲中心數(shù)值預(yù)報為-12.3 ℃,而模型預(yù)報為1.6℃,實況為0.4 ℃,預(yù)報絕對誤差由歐洲中心的12.7 ℃下降到模型的1.2 ℃。又如表3,相比歐洲中心模式,2018年3月10日05時,LightGBM模型大部分站點預(yù)報誤差都在2 ℃以內(nèi)(現(xiàn)行業(yè)務(wù)準(zhǔn)確率評價標(biāo)準(zhǔn)),相比數(shù)值預(yù)報本身模型降低預(yù)報誤差的趨勢明顯,僅僅57256站出現(xiàn)了預(yù)報錯誤。
圖2 預(yù)報與實況對比檢驗(a:誤差頻數(shù)分布直方圖;b:散點及其密度和趨勢圖)Fig. 2 Inspection of forecast in contrast to the observed data(a: frequency distribution; b: scatterplot and its density and tend line)
表3 2018年3月10日05時模型預(yù)報示例(單位:℃)Table 3 Examples of model forecast at 5:00AM on March 10, 2018 (℃)
本模型現(xiàn)已接入了武漢中心氣象臺智能網(wǎng)格預(yù)報平臺進行業(yè)務(wù)化應(yīng)用,日常業(yè)務(wù)一般檢驗的是最高、最低氣溫,由于本模型預(yù)報的是定時氣溫,所以初步產(chǎn)品只是簡單地從24 h內(nèi)8個定時氣溫中挑選出最高、最低溫度作為高、低溫預(yù)報。對2018年2—6月預(yù)報產(chǎn)品進行評分(表4),該模型的高、低溫預(yù)報位居所有客觀預(yù)報產(chǎn)品前列(其中省臺產(chǎn)品是預(yù)報員最后主觀訂正后的產(chǎn)品),特別是24 h低溫預(yù)報準(zhǔn)確率高達91.4%,位居所有預(yù)報產(chǎn)品第一位,但分析其平均誤差,發(fā)現(xiàn)高溫預(yù)報有系統(tǒng)性偏低,低溫預(yù)報有系統(tǒng)性偏高,這是不難理解的:由于建模和預(yù)報使用的是定時氣溫,從定時氣溫中挑選出的最大、最小值實際上仍不能完全代表日極端值,例如,在晴朗天氣下,高溫常常比14時氣溫要高,經(jīng)常出現(xiàn)在15時左右,可以推測,針對日最高、最低氣溫直接建模應(yīng)該可以獲得更大提升空間,后期可以繼續(xù)探索,優(yōu)化模型。
表4 2018年2—6月高、低溫預(yù)報評分Table 4 Maximum and minimum temperature forecast score from February to June, 2018
1)機器學(xué)習(xí)模型的決策過程有一定的黑盒性,但使用效果好(0~24 h氣溫預(yù)報模型相比數(shù)值模式準(zhǔn)確率可提高10%以上),可以將預(yù)報員的主觀預(yù)報經(jīng)驗進行高效地客觀定量化,具備廣闊的應(yīng)用前景。
2)由于不同時間輻射狀況不同,模式誤差不同;不同站點小氣候特點(例如海拔)不同,模式誤差也不同,需要將相對標(biāo)準(zhǔn)化的模式輸出進行系統(tǒng)訂正,而LightGBM可以直接處理數(shù)值本身沒有意義的分類變量,無需離散編碼,從而相當(dāng)于針對不同時次和站點進行建模,效率有很大的進步。
3)由于LightGBMRgressor葉子數(shù)、學(xué)習(xí)率等超參數(shù)尋優(yōu)需要一定的經(jīng)驗,更好的模型效果需要更多的試驗,由于超參數(shù)尋優(yōu)的專業(yè)性和計算密集型,具備一定的硬軟件要求和難度,需要進一步探索和專業(yè)硬軟件支持。
4)由于不同時效的數(shù)據(jù)格式相同,業(yè)務(wù)化簡便易行,在模式分析場質(zhì)量不劇烈變化、模式性能、模式不同時效基本形勢的預(yù)報沒有明顯改變,即預(yù)報穩(wěn)定時,該模型不同時效的溫度預(yù)報能力是相同的。
Advances in Meteorological Science and Technology2018年5期