武 楊 李晴嵐
(中國科學(xué)院深圳先進(jìn)技術(shù)研究院 深圳 518055)
深圳地區(qū)日極值氣溫的降尺度研究
武 楊 李晴嵐
(中國科學(xué)院深圳先進(jìn)技術(shù)研究院 深圳 518055)
氣象與人類日常生活的關(guān)系十分密切,氣象預(yù)報(bào)一直是人類社會(huì)高度關(guān)注的問題。隨著經(jīng)濟(jì)的發(fā)展和社會(huì)的進(jìn)步,人類對(duì)天氣預(yù)報(bào)的準(zhǔn)確性提出了越來越高的要求,迫切希望實(shí)現(xiàn)氣象要素精細(xì)化預(yù)報(bào)。獲取詳細(xì)準(zhǔn)確的區(qū)域氣象資料是實(shí)現(xiàn)氣象精細(xì)化預(yù)報(bào)的首要條件,全球大氣環(huán)流模式是目前預(yù)估大尺度未來全球氣候變化最重要的模式,能較好地模擬出大尺度的平均特征。但是模式預(yù)報(bào)輸出的空間分辨率較低,無法獲取精細(xì)的區(qū)域氣象資料,很難對(duì)區(qū)域天氣情景變化做出詳細(xì)的預(yù)測(cè),而降尺度方法可用于彌補(bǔ)這方面的缺陷。文章的研究工作主要是利用統(tǒng)計(jì)降尺度的多元線性回歸方法和 BP 神經(jīng)網(wǎng)絡(luò)方法對(duì)深圳地區(qū)近十年的日最低溫度和最高溫度進(jìn)行降尺度分析研究。采用的數(shù)據(jù)是美國國家環(huán)境預(yù)報(bào)中心/美國國家大氣研究中心提供的 FNL 全球分析資料和深圳國家基本觀測(cè)站——竹子林站的實(shí)際觀測(cè)數(shù)據(jù),重點(diǎn)研究了基于 BP 神經(jīng)網(wǎng)絡(luò)方法和多元線性回歸方法的統(tǒng)計(jì)降尺度模型的設(shè)計(jì)與實(shí)現(xiàn)過程,并對(duì)兩種方法的結(jié)果進(jìn)行了比較,為區(qū)域站點(diǎn)的統(tǒng)計(jì)降尺度應(yīng)用提供了設(shè)計(jì)方法和參考。
統(tǒng)計(jì)降尺度; 日極值氣溫;多元線性回歸;BP 神經(jīng)網(wǎng)絡(luò);深圳
隨著經(jīng)濟(jì)的發(fā)展和社會(huì)的進(jìn)步,天氣對(duì)社會(huì)的發(fā)展和人們的生產(chǎn)生活影響越來越大。氣象信息在農(nóng)業(yè)生產(chǎn)、交通運(yùn)輸、資源開發(fā)、旅游商務(wù)和軍事安全等各個(gè)領(lǐng)域中的指導(dǎo)作用也越來越重要。因此,社會(huì)的發(fā)展不僅要求氣象預(yù)報(bào)部門能夠提供傳統(tǒng)常規(guī)的天氣預(yù)報(bào)服務(wù),而且還需要獲取高分辨率的氣象預(yù)報(bào)信息。降尺度方法是目前實(shí)現(xiàn)精細(xì)化預(yù)報(bào)、獲取高分辨率氣象信息的重要技術(shù)手段,主要可以分為基于發(fā)展更高分辨率數(shù)值預(yù)報(bào)模式的動(dòng)力降尺度方法和基于已有大尺度預(yù)報(bào)產(chǎn)品的統(tǒng)計(jì)降尺度方法[1]。這兩種方法各有優(yōu)缺點(diǎn):動(dòng)力降尺度方法物理意義較為明確,是未來氣象預(yù)報(bào)領(lǐng)域長期發(fā)展的方向,但其計(jì)算量很大,模擬和適用范圍受限制;統(tǒng)計(jì)降尺度方法是通過統(tǒng)計(jì)學(xué)手段建立大尺度和小尺度之間的尺度轉(zhuǎn)換,計(jì)算量較小,經(jīng)濟(jì)實(shí)用,并且不受區(qū)域限制。所以,統(tǒng)計(jì)降尺度方法十分適合基層氣象站點(diǎn)的推廣使用,是實(shí)現(xiàn)精細(xì)化預(yù)報(bào)相對(duì)直接有效的手段[2]。
Kidson 等[3]運(yùn)用了逐步回歸的統(tǒng)計(jì)降尺度方法對(duì)新西蘭地區(qū)的日最高氣溫和日最低氣溫進(jìn)行了預(yù)測(cè)分析,同時(shí)也對(duì)同樣的數(shù)據(jù)資料使用了耦合 RAMS 區(qū)域模式的動(dòng)力降尺度方法,但兩種不同的降尺度方法的結(jié)果差別不大;Murphy[4]也使用同樣的方法對(duì)所在區(qū)域進(jìn)行了對(duì)比研究,得出了基本相同的結(jié)論。這說明了動(dòng)力降尺度雖然耗時(shí)很大,但是在目前發(fā)展?fàn)顩r下并沒有取得較統(tǒng)計(jì)降尺度具有明顯優(yōu)勢(shì)的效果。Sailor[5]對(duì)美國氣象觀測(cè)站點(diǎn)的氣溫進(jìn)行了多元線性回歸的統(tǒng)計(jì)降尺度研究;Murphy[6]也使用了相同的方法對(duì)歐洲若干站點(diǎn)的氣溫觀測(cè)值進(jìn)行了模擬,其預(yù)測(cè)均取得了一定的效果;Hellstrm 等[7]對(duì)瑞士的降水情況進(jìn)行了研究,其結(jié)果相比原始的模式預(yù)報(bào)精確了很多,但是在不同季節(jié)時(shí)間存在一定的誤差;范麗軍[8]使用了逐步回歸的方法對(duì)中國華北地區(qū) 49 個(gè)氣象觀測(cè)站的資料進(jìn)行了分析,并對(duì)各個(gè)氣象觀測(cè)站的月平均溫度進(jìn)行了預(yù)測(cè),與實(shí)際觀測(cè)對(duì)比后反映預(yù)測(cè)值與實(shí)際值有比較一致的趨勢(shì),但是仍然存在部分時(shí)間段和部分氣象觀測(cè)點(diǎn)差別較大的現(xiàn)象。Huth 等[9]對(duì)歐洲 8 個(gè)氣象觀測(cè)站秋冬季逐日溫度進(jìn)行統(tǒng)計(jì)降尺度研究,使用了多元線性回歸方法并從多個(gè)角度進(jìn)行評(píng)價(jià),證明了線性方法在一般情況下也可以取得較好的降尺度效果,但是在跨月變化時(shí)會(huì)存在較大誤差,Paulin[10]使用了 SDSM(Statistical Downscaling Model)對(duì)加拿大東南部日極端氣溫進(jìn)行降尺度分析也存在這樣的現(xiàn)象。
大氣運(yùn)動(dòng)是非線性的[11],因此,多元線性回歸方法描述大氣運(yùn)動(dòng)在理論上存在不足。為了反映大氣的非線性特征,非線性的降尺度方法,如神經(jīng)網(wǎng)絡(luò)方法,也被應(yīng)用到氣溫的降尺度分析中。
美國 Neural Ware 公司是較早開展利用神經(jīng)網(wǎng)絡(luò)進(jìn)行氣象預(yù)報(bào)研究的[12],1987 年,該公司研究并設(shè)計(jì)了一套該地區(qū)基于人工神經(jīng)網(wǎng)絡(luò)的晴雨預(yù)測(cè)系統(tǒng),該系統(tǒng)的輸入是地面氣壓和風(fēng)向資料,輸出為逐日的晴雨預(yù)報(bào),結(jié)果經(jīng)過檢驗(yàn)準(zhǔn)確率略高于當(dāng)?shù)仡A(yù)報(bào)員的水平;Baik 等[13]應(yīng)用神經(jīng)網(wǎng)絡(luò)方法對(duì)熱帶氣旋強(qiáng)度進(jìn)行了預(yù)報(bào),并與多元線性回歸的結(jié)果進(jìn)行了比較,結(jié)果表明神經(jīng)網(wǎng)絡(luò)方法效果要好于多元回歸方法;美國的 David等[14]采用 BP 神經(jīng)網(wǎng)絡(luò)模型對(duì)加利福尼亞地區(qū)的降水進(jìn)行了研究,建立加利福尼亞 7 個(gè)不同區(qū)域的預(yù)報(bào)模型,經(jīng)過分析后預(yù)報(bào)結(jié)果與實(shí)際分布基本保持一致。
天氣對(duì)人類日常生活影響很大,尤其是氣溫。氣溫的高低直接影響人們的感官感受。氣溫預(yù)報(bào)的準(zhǔn)確性對(duì)農(nóng)業(yè)的生產(chǎn)影響極為重要,對(duì)社會(huì)的經(jīng)濟(jì)發(fā)展建設(shè)、防災(zāi)減災(zāi)有著十分重要的意義。同時(shí),氣溫作為最基本的氣象要素,它的預(yù)報(bào)準(zhǔn)確性直接關(guān)系到其他氣象要素和天氣現(xiàn)象的預(yù)報(bào)準(zhǔn)確性,特別是災(zāi)害性天氣往往和氣溫的變化有著密切的聯(lián)系。然而,提高氣溫預(yù)報(bào)的精細(xì)化程度十分困難,目前中國的氣象要素預(yù)報(bào)只能達(dá)到縣地區(qū)級(jí)別的預(yù)報(bào),不能滿足更小范圍甚至某個(gè)站點(diǎn)的更為精細(xì)化預(yù)報(bào)需求。
基于以上背景,本文主要利用美國國家環(huán)境預(yù)報(bào)中心(NCEP)/國家大氣中心(NCAR)提供的 FNL 全球再分析資料(Final Operational Global Analysis)以及深圳市氣象局實(shí)際每日溫度觀測(cè)數(shù)據(jù),應(yīng)用多元線性回歸以及神經(jīng)網(wǎng)絡(luò)方法構(gòu)建深圳地區(qū)日氣溫最高值及最低值的統(tǒng)計(jì)降尺度模型。旨在比較這兩種方法在降尺度研究中的表現(xiàn),并提高深圳地區(qū)大氣數(shù)值產(chǎn)品的釋用,生成較高分辨率的氣溫預(yù)報(bào)資料,從而改善實(shí)際預(yù)報(bào)中的預(yù)報(bào)精確度。
2.1 資 料
本文構(gòu)建統(tǒng)計(jì)降尺度模型使用的大尺度大氣環(huán)流資料為 2000~2012 年美國國家環(huán)境預(yù)報(bào)中心(NCEP)/國家大氣中心(NCAR)提供的 FNL全球再分析資料。NCEP 的 FNL 數(shù)據(jù)產(chǎn)品格式和 NCEP 使用的全球預(yù)報(bào)系統(tǒng)(Global Forecast System,GFS)數(shù)據(jù)格式是一致的,采用了表格驅(qū)動(dòng)編碼的 GRIB1 版本編碼格式[15]。NCEP FNL數(shù)據(jù)的空間分辨率為 1°×1°,時(shí)間間隔為 6 h(即每天 4 次,國際時(shí)刻 00、06、12、18 時(shí)),數(shù)據(jù)中包含了地表以及 26 個(gè)標(biāo)準(zhǔn)等壓層(1000 mb~10 mb)、地表邊界層(部分為 sigma 層)和對(duì)流頂層等的要素信息。NCEP 再分析資料由于充分同化了盡可能全面的觀測(cè)資料,與其他資料相比較,是目前最為全面和可靠準(zhǔn)確的全球大氣大尺度網(wǎng)格數(shù)據(jù)[16]。
本文使用的小尺度變量是深圳國家基本氣象站——竹子林站(區(qū)站號(hào)為 59493)2000 年~2012年的實(shí)際氣溫觀測(cè)數(shù)據(jù)。竹子林站位于北緯22°32′、東經(jīng) 114°00′、海拔 63 米,竹子林站具有 50 多年資料積累,觀測(cè)和資料審核嚴(yán)格執(zhí)行國家相關(guān)規(guī)范,單點(diǎn)資料代表深圳參加全國氣象資料交換,資料通過中國氣象局認(rèn)定。
2.2 方 法
統(tǒng)計(jì)降尺度方法主要依賴于小尺度區(qū)域數(shù)年的實(shí)際氣象要素的觀測(cè)資料。通過統(tǒng)計(jì)學(xué)原理建立實(shí)際觀測(cè)的氣象要素與大尺度大氣環(huán)流因子之間的關(guān)系,然后把全球大氣環(huán)流模式模擬的大尺度預(yù)測(cè)環(huán)流因子信息作為這種關(guān)系的輸入,得到小尺度區(qū)域氣象要素變量,例如氣溫等的變化趨勢(shì)[17]。
統(tǒng)計(jì)降尺度的關(guān)鍵在于利用統(tǒng)計(jì)學(xué)方法建立大尺度大氣環(huán)流預(yù)報(bào)因子和區(qū)域氣象要素預(yù)報(bào)變量之間的映射關(guān)系 Y=F(X),其中 X 表示大尺度大氣環(huán)流預(yù)報(bào)因子,Y 表示區(qū)域氣象要素預(yù)報(bào)變量。F 則表示了從多年區(qū)域的實(shí)際觀測(cè)資料中提取出來的表達(dá)區(qū)域地形、下墊面等區(qū)域獨(dú)特的地理環(huán)境特征,以及小尺度區(qū)域受到大尺度網(wǎng)格的大氣環(huán)流影響的特征等復(fù)雜信息。統(tǒng)計(jì)降尺度法的優(yōu)點(diǎn)主要是能夠糾正大氣環(huán)流模式(General Circulation Model,GCM)的系統(tǒng)誤差,根據(jù)區(qū)域氣候信息的特征將全球大氣環(huán)流模式中相關(guān)性較大,物理意義較明顯,預(yù)測(cè)較為準(zhǔn)確的大氣環(huán)流因子篩選出來用于統(tǒng)計(jì)模型中,因而不必考慮邊界初值條件的影響[8]。本文將采用多元線性回歸的方法和 BP 神經(jīng)網(wǎng)絡(luò)的方法來建立映射關(guān)系。
2.2.1 多元線性回歸方法
假設(shè) y 是深圳地區(qū)日氣溫值,表示可觀測(cè)的隨機(jī)變量,它受到 p 個(gè)大尺度大氣環(huán)流因子 x1, x2,…, xp和隨機(jī)因素 ε 的影響,若 y 與 x1, x2,…, xp有如下線性關(guān)系:
根據(jù)多年的實(shí)際氣溫觀測(cè)數(shù)據(jù)和對(duì)應(yīng)的NCEP FNL 資料,得到 n 組樣本數(shù)據(jù)(xi1, xi2,…, xip; yi) ,i=1,2,…, n,他們滿足式(1),即有
其中 ε1, ε2,…, εn相互獨(dú)立且都服從 N(0, σ2)。采用最小二乘法來估計(jì)多元線性回歸方程中的未知參數(shù) β0, β1,…, βp,即選擇 β=(β0, β1,…, βp)T使誤差平方和
達(dá)到最小。從而可以得到多元線性回歸方程[18,19]。
2.2.2 BP 神經(jīng)網(wǎng)絡(luò)方法
相對(duì)于多元線性回歸方法,BP 神經(jīng)網(wǎng)絡(luò)模型屬于一種高度非線性映射,目前證明一個(gè)三層神經(jīng)網(wǎng)絡(luò)可以實(shí)現(xiàn)任一連續(xù)函數(shù)或映射。BP 網(wǎng)絡(luò)模型結(jié)構(gòu)見圖 1[20]。
BP 算法的過程如下[21,22]:
(1)通過網(wǎng)絡(luò)將輸入向前傳播:
(4)考慮到最速下降法更新權(quán)值和偏置值的速度很慢且容易陷入最小局部點(diǎn),本文采用牛頓法的速度和保證收斂的最速下降法的一個(gè)折中,Levenberg-Marquardt 算法,采用[23]
來改進(jìn) BP 神經(jīng)網(wǎng)絡(luò)[24,25]。
3.1 模型的建立流程
統(tǒng)計(jì)降尺度模型的構(gòu)建首先建立全球大氣大尺度網(wǎng)格點(diǎn)的環(huán)流因子和地面觀測(cè)站氣象要素變量之間的降尺度統(tǒng)計(jì)關(guān)系,然后利用模式輸出的格點(diǎn)預(yù)測(cè)數(shù)據(jù)和已經(jīng)建立的統(tǒng)計(jì)關(guān)系,得到未來情景下地面測(cè)站的變量預(yù)測(cè)值。整個(gè)降尺度方法的過程為:
圖 1 BP 網(wǎng)絡(luò)模型結(jié)構(gòu)圖Fig.1. Structure of BP neural network model
(1)選擇預(yù)報(bào)變量
根據(jù)降尺度的目的,確定所要降尺度的地理區(qū)域和預(yù)報(bào)變量。收集該地理區(qū)域?qū)嶋H的觀測(cè)資料,并且分析預(yù)報(bào)變量資料的質(zhì)量狀況,修補(bǔ)和訂正數(shù)據(jù)的缺漏和錯(cuò)誤。本文選擇深圳市國家基本觀測(cè)站——竹子林站的實(shí)際觀測(cè)數(shù)據(jù),分析和預(yù)測(cè)的氣象變量是日氣溫的最高值和最低值。
(2)選擇預(yù)測(cè)因子
這是降尺度過程中最為重要的步驟之一,因?yàn)檫x擇的預(yù)測(cè)因子的好壞直接關(guān)系到模型的成功與否。因此,本文通過分析影響氣溫變化的物理原理和運(yùn)用相關(guān)分析的方法去篩選大氣環(huán)流因子作為降尺度的預(yù)測(cè)因子。
(3)降尺度的方法選擇
統(tǒng)計(jì)降尺度的方法有很多,不同的方法所取得的效果也是不同的,尤其是針對(duì)不同的預(yù)報(bào)變量。本文將采用逐步多元回歸的方法和 BP 神經(jīng)網(wǎng)絡(luò)的方法進(jìn)行研究和比較。
(4)模型的建立和檢驗(yàn)
通過訓(xùn)練樣本的數(shù)據(jù)輸入到降尺度選擇的方法中,建立起降尺度模型。對(duì)模型的檢驗(yàn)包括原有訓(xùn)練樣本數(shù)據(jù)的輸入擬合狀況檢驗(yàn)及驗(yàn)證樣本數(shù)據(jù)的擬合狀況,其中最主要的是對(duì)驗(yàn)證樣本數(shù)據(jù)的檢驗(yàn),這是考察建立的模型泛化能力是否良好的關(guān)鍵。如果模型的泛化能力不好就要考慮重新選擇降尺度的方法或者重新建立模型。
(5)應(yīng)用模型
將 GCM 輸出的未來大氣環(huán)流因子應(yīng)用到建立好的模型中,生成預(yù)報(bào)變量的預(yù)測(cè)結(jié)果,然后再進(jìn)行結(jié)果的分析討論。
3.2 預(yù)報(bào)變量的劃分
模型的訓(xùn)練樣本與檢測(cè)樣本屬于同分布數(shù)據(jù)是統(tǒng)計(jì)降尺度分析的前提條件。只有訓(xùn)練樣本和檢測(cè)樣本屬于同分布的數(shù)據(jù),模型通過訓(xùn)練樣本學(xué)習(xí)到的內(nèi)在規(guī)律才值得推廣,才會(huì)具有較好的泛化能力和預(yù)測(cè)能力。假如訓(xùn)練樣本與預(yù)測(cè)樣本不屬于同一分布,這兩個(gè)樣本的內(nèi)在規(guī)律本身就不同,通過訓(xùn)練樣本學(xué)習(xí)到的規(guī)律與預(yù)測(cè)樣本本身的規(guī)律也就不相同,應(yīng)用不相同的規(guī)律去做預(yù)測(cè)其結(jié)果必然差別很大。
因此,本文采用“分而治之”的思想對(duì)研究對(duì)象按照分布特征的規(guī)律不同劃分不同的集合分別進(jìn)行研究。氣象學(xué)上普遍認(rèn)為,某一區(qū)域多年同月份的氣候狀況是具有相似性的??紤]到日最高溫度和最低溫度也屬于不同的類別,本文將采用按月份建立日最高溫度和最低溫度統(tǒng)計(jì)降尺度模型的劃分方法。這樣的劃分可以減小研究對(duì)象內(nèi)在規(guī)律的復(fù)雜程度,使得模型只學(xué)習(xí)屬于同月份分布的樣本,學(xué)習(xí)目的明確,不會(huì)受到其他不同月份分布樣本規(guī)律的影響。
將 2000~2012 年共 13 年的數(shù)據(jù)按月份和日最高最低溫度的不同劃分為 24 個(gè)數(shù)據(jù)子集合,即深圳地區(qū) 2000~2012 年 1 月份日最高氣溫?cái)?shù)據(jù)集,2000~2012 年 1 月份日最低氣溫?cái)?shù)據(jù)集,2000~2012 年 2 月份日最高氣溫?cái)?shù)據(jù)集,2000~2012 年 2 月份日最低氣溫?cái)?shù)據(jù)集,依次類推至 2000~2012 年 12 月份日最高氣溫?cái)?shù)據(jù)集,2000~2012 年 12 月份日最低氣溫?cái)?shù)據(jù)集等共 24 個(gè)集合。從而達(dá)到了對(duì)原有大規(guī)模數(shù)據(jù)樣本“分而治之”的目的。劃分為較小的數(shù)據(jù)集合之后每個(gè)集合還需要?jiǎng)澐譃橛?xùn)練集合和測(cè)試集合。這 24 個(gè)數(shù)據(jù)集合中每個(gè)集合都包含了 13 年的氣溫?cái)?shù)據(jù),考慮到模型的建立需要足夠多的訓(xùn)練樣本才能夠較好地掌握其中的規(guī)律,因此采用2000~2009 年共 10 年的數(shù)據(jù)作為訓(xùn)練樣本集去訓(xùn)練網(wǎng)絡(luò),2010~2012 年共 3 年的數(shù)據(jù)則作為測(cè)試樣本集合來驗(yàn)證神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)情況。
3.3 預(yù)報(bào)因子的篩選
適當(dāng)?shù)念A(yù)報(bào)因子是統(tǒng)計(jì)預(yù)報(bào)好壞的關(guān)鍵因素。雖然影響預(yù)報(bào)對(duì)象的因素很多,但不同因素對(duì)預(yù)報(bào)對(duì)象的影響程度大小亦相差很大,因此我們必須分析出其中的主要因素,篩選出高質(zhì)量的預(yù)報(bào)因子,來獲取足夠多的預(yù)報(bào)信息。
某種氣象現(xiàn)象的產(chǎn)生、氣象要素的變化是由其物理機(jī)制所決定的,因此首先應(yīng)當(dāng)考慮從預(yù)報(bào)對(duì)象產(chǎn)生的物理機(jī)制及變化的物理過程中尋找預(yù)報(bào)因子[26]。
局地溫度變化的物理過程可以用熱流量方程表示:
通過以上的分析,我們根據(jù) F 達(dá)到 0.05 相關(guān)顯著水平的標(biāo)準(zhǔn)以及影響氣溫變化物理過程的因素,從 NCEP FNL 資料提供的 137 個(gè)大氣環(huán)流因子中選擇出 23 個(gè)與氣溫最相關(guān)的因子作為備選因子,具體如表 1 所示。
這 23 個(gè)備選因子是與預(yù)報(bào)量有一定物理聯(lián)系且存在著相關(guān)的備選因子。這些因子對(duì)預(yù)報(bào)量都有一定的方差貢獻(xiàn),但是,這并不意味著輸入模型的因子越多越好。而備選因子之間存在或多或少的交叉關(guān)系,因此它們對(duì)預(yù)報(bào)量的貢獻(xiàn)多少也存在著交叉現(xiàn)象。并且考慮到直接將 23 個(gè)變量輸入到降尺度模型中仍然存在太多變量,相關(guān)性不好,冗余信息過多等問題。需要按月份和最低最高溫度的不同,進(jìn)一步將這 23 個(gè)變量進(jìn)行篩選,尋求最優(yōu)合適的因子。
表 1 NCEP 數(shù)據(jù)輸出變量列表Table. 1 List of NCEP data variables
逐步回歸方法是最簡便和傳統(tǒng)的篩選方法。下面給出使用逐步回歸方法從 23 個(gè)備選因子中篩選出對(duì)應(yīng) 12 個(gè)月的最高溫度和最低溫度模型的最顯著相關(guān)因子。逐步回歸通過引入所有 23個(gè)備選因子,之后測(cè)試每一個(gè)備選因子的顯著統(tǒng)計(jì)學(xué)大小,通過的大小來決定是刪除還是保留該變量[27]。
我們得到的 12 個(gè)月的 Tmax和 Tmin最顯著相關(guān)的因子如下表 2 和表 3 所示。
從表 2 和表 3 可以看出,12 個(gè)月的最高溫度和 12 個(gè)月的最低溫度的最顯著相關(guān)因子有很大區(qū)別,但是也存在一些共同的特點(diǎn):
(1)在 12 個(gè)月最高溫度和 12 個(gè)月最低溫度最顯著相關(guān)因子中,其中比濕、相對(duì)濕度 Surface是影響每個(gè)月份最高溫度和最低溫度最重要的相關(guān)因子;
表 2 深圳各月最高氣溫變量選擇表Table 2. Significant predictors for daily Tmaxin 12 months
表 3 深圳各月最低氣溫變量選擇表Table 3. Significant predictors for daily Tminin 12 months
(2)除了(1)中的兩個(gè)因子外,影響 12 個(gè)月的最高溫度最顯著相關(guān)因子是相對(duì)濕度 850 hpa;影響 12 個(gè)月最低溫度最顯著相關(guān)因子是850 hpa 風(fēng)強(qiáng);
(3)影響 7 月、8 月、9 月最低溫度和最高溫度最顯著相關(guān)因子還有位勢(shì)高度 500 hpa,相對(duì)濕度 500 hpa;
(4)12 個(gè)月中,除了 7 月、8 月和 9 月外,其他月份最低溫度和最高溫度最顯著影響相關(guān)因子還有位勢(shì)高度 850 hpa,位勢(shì)高度 Surface。
3.4 統(tǒng)計(jì)降尺度模型的建立
本節(jié)建立的統(tǒng)計(jì)降尺度模型是基于 3.1 節(jié)的流程分析和 3.2 節(jié)、3.3 節(jié)對(duì)預(yù)報(bào)變量的劃分和預(yù)報(bào)因子的篩選結(jié)果。采用的降尺度方法主要是BP 神經(jīng)網(wǎng)絡(luò)方法和逐步多元線性回歸方法。
3.4.1 逐步多元回歸方法
逐步多元回歸方法根據(jù)表 2 和表 3 的篩選因子結(jié)果,分別建立最高溫度和最低溫度對(duì)應(yīng)的多元線性回歸方程,模型的參數(shù)由最小二乘方法解方程得到。此處列出 1 月和 7 月的最低溫度、最高溫度的回歸方程作為例子。
3.4.2 BP 神經(jīng)網(wǎng)絡(luò)方法
同時(shí),為了研究非線性方法在該領(lǐng)域的應(yīng)用效果,采用逐步回歸篩選因子組合 BP 神經(jīng)網(wǎng)絡(luò)的方法[28]建立新的統(tǒng)計(jì)降尺度模型。
(1)歸一化處理
該模型將逐步回歸篩選出來的預(yù)測(cè)因子作為神經(jīng)網(wǎng)絡(luò)的輸入變量,考慮到每種大氣環(huán)流因子都具有不同的物理意義和不同的量綱,比如絕對(duì)渦度分量在 10—6~10—4范圍內(nèi)變化,地表面壓力分量則在 104~106范圍內(nèi)變化。如此大的數(shù)量級(jí)差別直接輸入網(wǎng)絡(luò)會(huì)使網(wǎng)絡(luò)在學(xué)習(xí)過程中權(quán)值的變化不均勻,容易出現(xiàn)網(wǎng)絡(luò)的不穩(wěn)定和提前進(jìn)入訓(xùn)練結(jié)束狀態(tài)。必須通過變換處理將網(wǎng)絡(luò)的輸入輸出數(shù)據(jù)限制在[—1,1]區(qū)間內(nèi),使每個(gè)輸入分量對(duì)網(wǎng)絡(luò)的影響處在相同重要的地位,從而避免權(quán)值變化不均勻的情況出現(xiàn)。
因此采用如下區(qū)間變換式將輸入-輸出數(shù)據(jù)變換為[—1,1]:
按上述的方法變換后,x 序列的最大值變?yōu)榱?1,最小值變?yōu)榱?—1。
(2)隱含層節(jié)點(diǎn)的設(shè)計(jì)
理論分析證明,三層 BP 神經(jīng)網(wǎng)絡(luò)足以映射所有連續(xù)的函數(shù),只有當(dāng)需要映射的函數(shù)很復(fù)雜或者不連續(xù)的時(shí)候才需要兩個(gè)及以上的隱含層,所以,為了避免網(wǎng)絡(luò)過于復(fù)雜,本文考慮設(shè)置一個(gè)隱含層。
對(duì)于隱含層節(jié)點(diǎn)數(shù)的確定問題,至今仍無法用一個(gè)解析式精確求得,因此,1990 年,Eberhart 等[29]總結(jié)說“隱節(jié)點(diǎn)的選擇是一門藝術(shù)”是非常準(zhǔn)確的。隱含層節(jié)點(diǎn)的作用是存儲(chǔ)從訓(xùn)練樣本中不斷學(xué)習(xí)到的內(nèi)在規(guī)律,隱含層節(jié)點(diǎn)的權(quán)值能夠增強(qiáng)網(wǎng)絡(luò)映射的能力。如果加入隱含層節(jié)點(diǎn)較少,那么網(wǎng)絡(luò)比較簡單,對(duì)于較為復(fù)雜的問題就很難從樣本的學(xué)習(xí)過程中掌握足夠的信息,學(xué)習(xí)到其中的規(guī)律;但若隱含層節(jié)點(diǎn)的數(shù)量過多,網(wǎng)絡(luò)將變得很復(fù)雜,泛化能力反倒會(huì)降低,網(wǎng)絡(luò)在學(xué)習(xí)過程中對(duì)于訓(xùn)練樣本的全部內(nèi)容包括非主要的規(guī)律甚至噪聲的干擾也記住,在對(duì)訓(xùn)練樣本外的數(shù)據(jù)進(jìn)行仿真時(shí)效果并不好。
因此,設(shè)置多少個(gè)隱含層節(jié)點(diǎn)是比較復(fù)雜的問題,也是神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)的困難所在之處,主要影響的因素有映射的問題復(fù)雜程度、訓(xùn)練樣本的劃分情況以及輸入輸出個(gè)數(shù)等。一般來說,需要描述的問題越復(fù)雜,規(guī)模越龐大,網(wǎng)絡(luò)需要的隱含層節(jié)點(diǎn)越多,甚至需要增加隱含層的數(shù)目來增強(qiáng)其映射能力。
表 4 深圳各月最優(yōu)隱含層神經(jīng)網(wǎng)絡(luò)節(jié)點(diǎn)數(shù)列表Table 4. Optimal number of the hidden layer of neural network for 12 months
目前,確定最佳隱含節(jié)點(diǎn)數(shù)可以根據(jù)一些經(jīng)驗(yàn)公式作為參考,下面的公式是一些計(jì)算隱含層節(jié)點(diǎn)數(shù)的經(jīng)驗(yàn)公式:
其中 k 為樣本數(shù),如果 i>n1,式中 m為隱含層節(jié)點(diǎn),n 為輸入層節(jié)點(diǎn)數(shù),l 為輸出層節(jié)點(diǎn)數(shù),a 為 1~10 之間的常數(shù)。本節(jié)根據(jù)經(jīng)驗(yàn)公式算出隱含層節(jié)點(diǎn)個(gè)數(shù)大致范圍,主要采用試湊的辦法,通過設(shè)置較小的隱含層節(jié)點(diǎn),然后逐步增加個(gè)數(shù),通過同一樣本集的反復(fù)訓(xùn)練得出表現(xiàn)最優(yōu)的節(jié)點(diǎn)個(gè)數(shù)。表 4 所示為各個(gè)月份最低溫度和最高溫度模型的最優(yōu)節(jié)點(diǎn)個(gè)數(shù)。
(3)網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)計(jì)
通過以上的分析,以 1 月份最低氣溫模型對(duì)應(yīng)的網(wǎng)絡(luò)設(shè)計(jì)為例,網(wǎng)絡(luò)采用輸入層為 8 個(gè)神經(jīng)元,中間層經(jīng)過黃金分割點(diǎn)算法的計(jì)算確定最優(yōu)節(jié)點(diǎn)數(shù)為 10 個(gè)神經(jīng)元,輸出層為 1 個(gè)神經(jīng)元。因此,網(wǎng)絡(luò)應(yīng)該為 8×10×1 的結(jié)構(gòu),訓(xùn)練的算法采用 Levenberg-Marquardt 算法,中間層神經(jīng)元傳遞函數(shù)采用雙曲正切 S 型傳遞函數(shù) tansig,輸出層神經(jīng)元傳遞函數(shù)采用線性傳遞函數(shù),前 10年的數(shù)據(jù)作為訓(xùn)練樣本,后 3 年的數(shù)據(jù)作為檢驗(yàn)樣本。本文采用 matlab 平臺(tái)來實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò)的構(gòu)建,設(shè)計(jì)好的網(wǎng)絡(luò)結(jié)構(gòu)如下圖 2 所示。
圖 2 BP 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖Fig. 2. Structure of BP neural network
無論是神經(jīng)網(wǎng)絡(luò)模型還是多元線性回歸模型,對(duì)模型的評(píng)價(jià)主要分為兩部分,第一部分:對(duì)訓(xùn)練樣本集的模擬狀況,可以檢驗(yàn)?zāi)P蛯?duì)訓(xùn)練樣本的學(xué)習(xí)狀況,如果訓(xùn)練樣本集擬合得較好說明模型對(duì)于訓(xùn)練樣本作為先驗(yàn)經(jīng)驗(yàn),學(xué)習(xí)掌握了隱含在其中的主要規(guī)律和知識(shí);第二部分:對(duì)測(cè)試樣本集的預(yù)測(cè)狀況,這是檢驗(yàn)預(yù)測(cè)模型是否具有泛化能力的關(guān)鍵。因?yàn)闇y(cè)試樣本是未被模型學(xué)習(xí)過的數(shù)據(jù)集,這部分?jǐn)?shù)據(jù)集與訓(xùn)練樣本具有同分布狀態(tài),只有具有泛化能力的模型才能對(duì)這部分?jǐn)?shù)據(jù)做出較好的預(yù)測(cè)。因此,檢驗(yàn)降尺度模型的好壞關(guān)鍵是對(duì)測(cè)試樣本集預(yù)測(cè)狀況的評(píng)價(jià)分析。本節(jié)采用同一評(píng)價(jià)標(biāo)準(zhǔn)對(duì)多元線性回歸模型和神經(jīng)網(wǎng)絡(luò)模型結(jié)果進(jìn)行評(píng)價(jià)分析。
采用的評(píng)判系數(shù)為:
(1)相關(guān)系數(shù)平方:
該參數(shù)是相關(guān)系數(shù) R2描述了預(yù)測(cè)值和實(shí)際值的擬合程度。R2被定義為回歸平方和(Regression Sum of Squares,SSR)與總平方和(Total Sum of Squares,SST)的比值。R2可以取值在[0,1]之間,越接近 1 越好,比如 R2=0.85表示預(yù)測(cè)數(shù)據(jù)的效果,平均解釋了原始數(shù)據(jù) 85%的方差狀況。
(2)平均絕對(duì)誤差:
(3)均方根誤差:
記神經(jīng)網(wǎng)絡(luò)模型為模 A,多元線性回歸模型為模 B,這兩種模型對(duì)訓(xùn)練樣本的擬合情況通過參數(shù)比較如表 5 和表 6 所示。
檢驗(yàn)樣本集的檢驗(yàn)參數(shù)比較如表 7 和表 8所示。
表 5 深圳最低氣溫兩種模型訓(xùn)練樣本參數(shù)比較Table 5. Performance comparison between two models for calibrated simulation of daily Tmin
表 6 深圳最高氣溫兩種模型訓(xùn)練樣本參數(shù)比較Table 6. Performance comparison between two models for calibrated simulation of daily Tmax
表 7 深圳最低氣溫兩種模型檢驗(yàn)樣本參數(shù)比較Table 7. Performance comparison between two models for validated simulation of daily Tmin
表 8 深圳最高氣溫兩種模型檢驗(yàn)樣本參數(shù)比較Table 8. Performance comparison between two models for validated simulation of daily Tmax
2012 年的具體預(yù)測(cè)結(jié)果如圖 3、圖 4 所示。
圖 3 2012 年日極值溫度多元回歸模擬與觀測(cè)比較圖Fig. 3. Comparison between the observed daily temperature extremums in 2012 and the simulated temperature by the multiple linear regression model
圖 4 2012 年日極值溫度 BP 神經(jīng)網(wǎng)絡(luò)模擬與觀測(cè)比較圖Fig. 4. Comparison between the observed daily temperature extremums in 2012 and the simulated temperature by BP neural network model
通過以上數(shù)據(jù)表格和圖的分析,可以得出以下結(jié)論:
(1)神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練樣本擬合情況要好于多元線性回歸,但是檢驗(yàn)樣本的擬合情況卻相反。
這說明了在統(tǒng)計(jì)降尺度領(lǐng)域,神經(jīng)網(wǎng)絡(luò)并不具有比多元線性回歸更好的優(yōu)勢(shì),盡管神經(jīng)網(wǎng)絡(luò)在訓(xùn)練樣本擬合的相當(dāng)好,但是,神經(jīng)網(wǎng)絡(luò)的過擬合問題卻比多元回歸突出很多,其非線性擬合能力并沒有很好的發(fā)揮出來。
(2)兩種模型對(duì)最低溫度和擬合效果要好于對(duì)最高溫度的擬合效果,可以得出最高溫度受到的高空環(huán)流因子影響因素較最低溫度受到的影響更為復(fù)雜。
(3)兩種模型普遍對(duì)于冬季的氣溫模擬的效果好于夏季的氣溫,主要是由于夏季深圳地區(qū)多受臺(tái)風(fēng)的影響,天氣變化很劇烈,因此模型對(duì)于更為復(fù)雜的問題學(xué)習(xí)效果有待提高,需要對(duì)數(shù)據(jù)做進(jìn)一步的處理或者引入臺(tái)風(fēng)影響等其他相關(guān)因子。
[1] Dibike YB, Coulibaly P. Validation of hydro-logic models for climate scenario simulation: the case of Saguenay watershed in Quebec [J]. Hydrological Processes, 2007, 21(23): 3123-3235.
[2] Wilby RL, Charles SP, Zorita E, et al. Guidelines for use of climate scenarios developed from statistical downscaling methods [OL]. http://scholar. google.ca/scholar?cluster=8727505470784486273 &hl=zh-CN&as_sdt=0,5, 2004.
[3] Kidson JW, Thompson CS. A comparison of statistical and model-based downscaling techniques for estimating local climate variations [J]. Journal of Climate, 1998, 11(4): 735-753.
[4] Murphy J. An evaluation of statistical and dynamical techniques for downscaling local climate [J]. Journal of Climate, 1999, 12(8): 1156-2284.
[5] Sailor DJ, Li XS. A semiempirical downscaling approach for predicting regional temperature impacts associated with climatic change [J]. Journal of Climate, 1999, 12(1): 103-114.
[6] Murphy J. Prediction of climate change overEurope using statistical and dynamical downscaling techniques [J]. International Journal of Climatology, 2000, 20 (5): 489-501.
[7] Hellstrōm C, Chen DL, Achberger C, et al. Comparison of climate change scenarios for Sweden based on statistical and dynamical downscaling of monthly precipitation [J]. Climate Research, 2001, 19(1): 45-55.
[8] 范麗軍, 符淙斌, 陳德亮. 統(tǒng)計(jì)降尺度法對(duì)華北地區(qū)未來區(qū)域氣溫變化情景的預(yù)估 [J]. 大氣科學(xué), 2007, 131(15): 887-897.
[9] Huth R. Statistical downscaling in central Europe: evaluation of methods and potential predictor [J]. Climate Research, 1999, 13: 91-101.
[10] Paulin C. Downscaling daily extreme temperatures with genetic programming [J]. Geophysical Research Letters, 2004, 31(16): L16203.
[11] Hakami A, Odman MT, Russell AG. Nonlinearity in atmospheric response: a directsensitivity analysis approach [J]. Journal of Geiphysical Research: Atmospheres, 2004, 109(D15), doi: 10.1029/2003JD004502.
[12] 金龍. 神經(jīng)網(wǎng)絡(luò)氣象預(yù)報(bào)建模理論方法和應(yīng)用 [M].北京: 氣象出版社, 2005.
[13] Baik LJ, Hwang HS. Tropical cyclone intensity prediction using regression method and neural network [J]. Journal of the Meteorology Society of Japan, 1998, 76(5): 711-717.
[14] Silverman D, Dracup JA. Artificial neural network and long range precipitation in California [J]. Journal of Applied Meteorology, 2000, 39(1): 57-66.
[15] 孫修貴. 表格驅(qū)動(dòng)碼編碼手冊(cè)—BUFR GRIB 和CREX編碼 [M]. 北京: 氣象出版社, 2010.
[16] Kalney E, Kanamitsu M, Kistler R, et al. The NCEP/NCAR 40-year reanalysis project [J]. Bulletin of the America Meteorological Society, 1996: 437-471.
[17] Benestad RE, Inger HB, Chen DL. Empirical-Statistical Downscaling [M]. World Scientific, 2008.
[18] Kleinbaum DG, Kupper LL, Muller KE, et al. Applied Regression Analysis and Other Multivariable Methods (third edition) [M]. 北京: 機(jī)械工業(yè)出版社, 2003, 250-251.
[19] Montgomery DC, Peck EA. Introduction to Linear Regression Analysis [M]. John Wiley&Sons, 1982.
[20] Hagan MT, Demuth HB, Beale MH. Neural Network Design [M]. Stillwater: Martin Hagan, 1996.
[21] Rumelhart DE, Hinton GE. Williams RJ. Learning representations by back-propagating errors [J]. Nature, 1986, 323: 533-536.
[22] Rumelhart DE, McClelland JL. Parallel Disributed Processing: Explorations in the Microstructure of Cognition [M]. Cambridge: MIT Press, 1986.
[23] Hagan MT, Menhaj MB. Training feedforward networks with the Marquardt algorithm [J]. IEEE Tansactions on Neural Networks, 1994, 5(6): 989-993.
[24] Scales LE. Introduction to Non-linear Optimization [M]. New York: Springer-Verlag, 1985.
[25] Miller WT, Sutton RS, Werbos PJ. Neural Networks for Control [M]. Cambridge: MIT Press, 1990: 171-178.
[26] 朱乾根, 林錦瑞, 壽紹文, 等. 天氣學(xué)原理和方法(第四版)[M]. 北京: 氣象出版社, 2007.
[27] Lomax RG, Hahs-Vaughn DL. Statistical Concepts: a Second Course(third edition) [M]. Routledge Academic Press, 2007.
[28] Zhang DD. Neural Networks System Design Methodology [M]. Beijing: TsingHua University Press, 1996.
[29] Eberhart EC. Neural Network PC Tools: a Practical Guide Russell [M]. New York: Academic Press, 1990.
A Downscaling Study on the Daily Temperature Extremums in Shenzhen
WU Yang LI Qinglan
( Shenzhen Institutes of Advanced Technology, Chinese Academy of Sciences, Shenzhen 518055, China )
The weather has a profound influence on human’s daily life and the weather forecasting has always been a topic of great concern. With the economic development and social progress, people’s requirements for daily weather forecasting has become higher and higher. Information provided by the general circulation models (GCMs) can describe well some of the weather parameters at a large scale, but GCMs fail to provide detailed weather information at a regional or local scale for impact assessment studies. Outputs from GCMs are usually of low spatial resolutions. A common approach to bridge the scale mismatch is downscaling. In the present study, two methods, i.e., the statistical multiple linear regression and the BP neural network, were proposed to downscale large scale reanalysis data to daily temperature extremums at a local point, Shenzhen national meteorological station. The data used in this study are NCEP/NCAR (National Centers for Environmental Prediction/National Centre for Atmospheric Research) reanalysis dataset for the 2000~2012 period and daily observations of maximum temperature and minimum temperature at Shenzhen station for the same period. The two methods were compared in this study. Results show that both methods can simulate well the daily temperature extremums at Shenzhen station, but the performance of the statistical downscaling method is more stable than the BP neural network.
statistical downscaling; daily temperature extreme; multiple linear regression; BP neural network; Shenzhen
TG 156
A
2013-12-30
深圳市科技研發(fā)資金項(xiàng)目(JCYJ20120617115926138)。
武楊,碩士研究生,研究方向?yàn)橛?jì)算機(jī)應(yīng)用;李晴嵐(通訊作者),博士,副研究員,研究方向?yàn)闅夂蜃兓?、天氣預(yù)報(bào)和臺(tái)風(fēng)模擬與影響評(píng)估,E-mail:ql.li@siat.ac.cn。