高佳琦,李東宇,朱曉晨*,王燦月
(1.南京水利科學(xué)研究院,南京 210017;2.水利部南京水利水文自動化研究所,南京 210012;3.南京信息工程大學(xué)應(yīng)用氣象學(xué)院,南京 210044)
梅雨是東亞地區(qū)獨特的天氣氣候現(xiàn)象,在中國主要于每年6、7月發(fā)生在江淮流域[1],常年平均降水量可達200 mm以上,占該區(qū)域夏季降水總量的40%以上[2]。在氣候變化背景下,極端降水事件發(fā)生期顯著延長,與國民經(jīng)濟發(fā)展和人民生活關(guān)系更為密切[3]。學(xué)術(shù)界對梅雨的早期研究著眼于鋒和氣團[4],后期開始重視梅雨與環(huán)流背景的聯(lián)系尤其是副熱帶高壓的作用,陸續(xù)有學(xué)者提出長江中下游梅雨與副熱帶高壓脊線、副熱帶高壓單體分布和西南氣流等有關(guān)。陳隆勛等[5]數(shù)值模擬指出,青藏高原熱源是形成梅雨的主要因子。王裁云[6]分析認為南海高壓強度可用于梅雨量預(yù)報。費建芳等[7]研究表明,江淮梅雨受夏季印度熱帶季風(fēng)環(huán)流、東亞熱帶環(huán)流及副熱帶環(huán)流系統(tǒng)相互作用。徐海明等[8]研究發(fā)現(xiàn),北半球冬季大型環(huán)流顯著影響入梅早晚。李曾中等[9]研究認為,越赤道氣流異常是造成梅雨期暴雨的主要原因。侯建華等[10]研究認為ENSO(El Nino Southern Oscillation)事件會使皖西地區(qū)當(dāng)年春夏季降水增加超過50%。
21世紀以來,學(xué)術(shù)界普遍采用先進信息技術(shù)與降水相關(guān)研究結(jié)合的方法。王坤等[11]利用綜合采樣人工合成數(shù)據(jù)算法(SMOTE)和邏輯回歸模型算法建立短時強降水潛勢預(yù)報模型。劉全金等[12]將基于遺傳算法的BP(back propagation)網(wǎng)絡(luò)應(yīng)用于安徽安慶市區(qū)的梅雨量預(yù)測。朱天一等[13]利用支持向量機(support vector machines,SVM)結(jié)合多種算法進行梅雨量預(yù)測研究。霍鳳嵐等[14]將隱馬爾可夫鏈應(yīng)用于安徽降水特征研究。宋星原等[15]將小波分析-支持向量機組合模型應(yīng)用于流域降水量預(yù)測研究。
自組織映射(self-organizing map, SOM)是基于無監(jiān)督神經(jīng)網(wǎng)絡(luò)的客觀分型方法,它能在保持高維數(shù)據(jù)拓撲結(jié)構(gòu)的同時將其映射到低維空間,實現(xiàn)降維的作用[16],不僅可以對氣象數(shù)據(jù)進行聚類,還可以反映不同聚類的氣象數(shù)據(jù)典型特點,結(jié)合理論實際得出氣象數(shù)據(jù)與實際天氣特征的內(nèi)在聯(lián)系。Elizabeth等[17]將其應(yīng)用于極地地區(qū)大氣環(huán)流分型。Skific等[18]基于SOM算法討論北極大氣水汽輸送與地面環(huán)流的關(guān)系。閔晶晶等[19]利用SOM將京津冀地區(qū)強對流天氣形勢分為四類,并具體分析了各個分型下強對流天氣發(fā)生的基本特征。吳勝男等[20]分析得出長江中下游夏季25種地面天氣型及其系統(tǒng)演變特征。周璞等[21]用SOM降尺度方法進行了江淮流域逐日降水的模擬與預(yù)估,但該算法在西太副高與梅雨相關(guān)的研究尚屬空白。
鑒于此,利用1951—2016年西太平洋副熱帶高壓(Western Pacific subtropical high,WPSH,簡稱西太副高)西伸脊點和脊線位置數(shù)據(jù),采用SOM算法進行聚類分析,并利用中國雨季歷年信息表梅雨監(jiān)測數(shù)據(jù)、國家青藏高原科學(xué)數(shù)據(jù)中心中國1 km分辨率逐月降水量數(shù)據(jù)集[22-25]結(jié)合分析不同副高分型下的梅雨降水特征,研究梅雨期西太副高的變化特征及其對梅雨降水的影響,分析不同類型副高與梅雨降水特征的對應(yīng)關(guān)系,有助于開展梅雨形勢預(yù)測研究。
SOM網(wǎng)絡(luò),是最早由赫爾辛基理工大學(xué)教授Teuvo Kohonen提出的一種由全連接神經(jīng)元組成的無監(jiān)督網(wǎng)絡(luò)[26-29]。生物學(xué)研究指出,人腦細胞具有自組織性,在接收相似信息時,大腦皮層對應(yīng)的區(qū)域會連續(xù)興奮,而不同區(qū)域則對應(yīng)著不同類型的信息。SOM網(wǎng)絡(luò)應(yīng)用了自組織性的生物學(xué)基礎(chǔ),常被用于無監(jiān)督的聚類計算。
經(jīng)典的SOM網(wǎng)絡(luò)拓撲結(jié)構(gòu)[29]如圖1所示,由輸入層和競爭層組成,競爭層即是輸出層。輸入層的節(jié)點為n維向量X=(X1,X2,…,Xn),對應(yīng)n個輸入神經(jīng)元,競爭層是由a×b=m個神經(jīng)元構(gòu)成的二維平面,其中a、b分別為競爭層二維平面神經(jīng)元的行列數(shù)。輸入與輸出神經(jīng)元之間通過權(quán)值向量相連,近鄰的輸出神經(jīng)元之間也通過權(quán)值向量相連。
圖1 SOM網(wǎng)絡(luò)結(jié)構(gòu)
SOM網(wǎng)絡(luò)的訓(xùn)練步驟[30]如下。
步驟1輸入向量。輸入n維向量X=(x1,x2,…,xn)以及輸入神經(jīng)元i與m個輸出神經(jīng)元之間的權(quán)值向量Wi(k)=[ωi1(k),ωi2(k),…,ωim(k)],其中k為訓(xùn)練次數(shù),初始值為0。
步驟2初始化。權(quán)值使用生成隨機值的方式進行初始化,隨機值取值范圍為[0,1],并對輸入向量和權(quán)值向量進行歸一化,可分別表示為
(1)
(2)
向量a的歐幾里得范數(shù)可表示為
(3)
選取與輸出神經(jīng)元j鄰域值為d的鄰域神經(jīng)元,如圖2所示。以Sj(k)表示k時刻神經(jīng)元j的鄰域神經(jīng)元集合,隨著訓(xùn)練次數(shù)的增加,鄰域值d會逐漸降低,集合Sj(k)也會逐漸減小。
白色圓圈為鄰域神經(jīng)元
除初始化輸入和權(quán)值向量之外,還需要初始化學(xué)習(xí)率η(k),并設(shè)定最大訓(xùn)練次數(shù)km,初始學(xué)習(xí)率取值范圍為0<η(0)<1。
步驟3內(nèi)積競爭。在競爭層,計算各神經(jīng)元權(quán)值向量和輸入向量的內(nèi)積,內(nèi)積最大的輸出神經(jīng)元為獲勝神經(jīng)元。對于已經(jīng)歸一化的數(shù)據(jù),求內(nèi)積最大等價于求歐氏距離最小,即兩向量之差D的歐幾里得范數(shù)最小,其表達式為
(4)
標(biāo)記歐氏距離最小的神經(jīng)元為獲勝神經(jīng)元,即輸出神經(jīng)元,記為j*,并給出其鄰域神經(jīng)元集合。
步驟4更新參數(shù)。更新輸出神經(jīng)元j*及其鄰域神經(jīng)元的權(quán)值,可表示為
ωij(k+1)=ωij(k)+η(k)[xi(k)-ωij(k)]
(5)
式(5)中:ωij為權(quán)值向量;學(xué)習(xí)率η(k)為隨著訓(xùn)練次數(shù)k增加而逐漸下降到0的函數(shù),可表示為
(6)
更新鄰域神經(jīng)元集合Sj(k),并對訓(xùn)練后的權(quán)值重新歸一化
步驟5判斷退出條件。判斷訓(xùn)練次數(shù)k是否達到預(yù)設(shè)的最大值,若沒有則跳轉(zhuǎn)到步驟3,否則結(jié)束訓(xùn)練。
研究區(qū)域基于《梅雨監(jiān)測指標(biāo)》(GB/T 33671—2017)規(guī)定的梅雨監(jiān)測區(qū),由南到北分為江南區(qū)(Ⅰ)、長江中下游區(qū)(Ⅱ)和江淮區(qū)(Ⅲ)。區(qū)域內(nèi)共277個各級氣象觀測站,如圖3所示。其中江南區(qū)65站,長江中下游區(qū)157站,江淮區(qū)55站。提取其代表氣象站所在市級行政區(qū)合成作為研究的梅雨區(qū),區(qū)域橫跨7個省份,包含58個市(地級市、直轄市和省直轄市)。
圖3 梅雨區(qū)及氣象站位置示意圖
梅雨監(jiān)測信息采用國家氣候中心(東亞季風(fēng)活動中心)編寫的《東亞季風(fēng)年鑒》的中國雨季歷年信息表[31],將江淮梅雨3個監(jiān)測區(qū)1951—2016年梅雨期、雨量、梅雨強度及空梅情況匯總,如圖4所示。降水?dāng)?shù)據(jù)采用國家青藏高原科學(xué)數(shù)據(jù)中心提供的中國1 km分辨率逐月降水量數(shù)據(jù)集(1901—2020年),按梅雨區(qū)提取1951—2016年6月、7月降水量數(shù)據(jù),每幅柵格圖像共計746 980個降水格點,如圖5所示。
白色方框為空梅
圖5 1951—2016年6月、7月平均降水量分布
國家氣候中心氣候系統(tǒng)診斷預(yù)測室提供的74項環(huán)流指數(shù)中,與西北太平洋副熱帶高壓有關(guān)的監(jiān)測指標(biāo)有面積指數(shù)(GM)、強度指數(shù)(GQ)、脊線指數(shù)、北界指數(shù)和西伸脊點指數(shù),分別定義[32]如下。
(1)面積指數(shù)(GM)。描述西太副高范圍大小的指標(biāo),以500 hPa天氣圖上,10°N以北的110°E~180°E范圍內(nèi)588位勢什米等值線包圍區(qū)域相對面積表示。
(2)強度指數(shù)(GQ)。描述西太副高強弱程度的指標(biāo),以500 hPa天氣圖上,10°N以北的110°E~180°E范圍內(nèi)位勢高度大于588位勢什米等高度面為底的副熱帶高壓體的相對體積表示。
(3)脊線指數(shù)。描述西太副高南北位置的指標(biāo),以500 hPa天氣圖上,10°N以北的110°E~150°E范圍內(nèi)位勢高度大于588位勢什米等值線的西太副高內(nèi)緯向風(fēng)切邊線的緯度平均值表示。
(4)北界指數(shù)。描述西太副高北部邊緣位置的指標(biāo),以500 hPa天氣圖上,10°N以北的110°E~150°E范圍內(nèi)西太副高脊線以北位勢高度為588位勢什米等值線的緯度平均值表示。
(5)西伸脊點。描述西太副高最西點位置的指標(biāo),以500 hPa天氣圖上,10°N以北的90°E~180°E范圍內(nèi)以西太副高西側(cè)位勢高度為588位勢什米的最西點經(jīng)度值表示。
由2.3節(jié)中西太副高監(jiān)測指數(shù)的定義可知,面積指數(shù)、強度指數(shù)、脊線位置、西伸脊點以及北界位置存在著部分趨同和相關(guān)特征。如北界指數(shù)表征西太副高最北邊緣緯度位置,脊線指數(shù)以西太副高北部緯向風(fēng)切邊線位置的緯度平均定義。一般而言副高北部邊緣位置越偏北,北部緯向切變線理應(yīng)同樣偏北,即北界指數(shù)和脊線指數(shù)可能存在某種相關(guān)性。由于預(yù)報因子的重復(fù)輸入會造成聚類結(jié)果誤差增大,因而需要提取代表因子以避免預(yù)報因子之間的相關(guān)性影響聚類結(jié)果。
參考趙俊虎等[33]的研究方法,對66年(1951—2016年)6月、7月平均的西太副高相關(guān)指數(shù)進行相關(guān)分析,計算結(jié)果如表1所示。結(jié)果表明:西伸脊點與強度指數(shù)和面積指數(shù)的相關(guān)性達到了-0.7以上,且均通過了顯著性檢驗,而脊線與北界位置相關(guān)系數(shù)為0.738,且通過了0.01的顯著性檢驗。因此,采用6月、7月西北太平洋副熱帶高壓西伸脊點和脊線位置作為西太副高的代表指標(biāo)進行SOM聚類,進而研究不同副高分型下的梅雨降水特點。
表1 1951—2016年6月、7月平均西太副高指數(shù)相關(guān)系數(shù)
將西伸脊點作為經(jīng)度參數(shù),脊線位置作為緯度參數(shù),對1951—2016年6月、7月西太副高西伸脊點、脊線指數(shù)作時間序列如圖6所示,可以看出,年際變化上,4組數(shù)據(jù)均表現(xiàn)出較大波動性,可見西太副高歷年位置變動波動較大,且會對梅雨降水產(chǎn)生重要影響。
月際變化上,如圖6所示,西伸脊點6月、7月平均值分別為118°E和120.8°E,方差分析得F值為1.375,查表得P=0.243,故在0.05顯著性水平下,二者總體均值并非顯著地不同,即西太副高6—7月的東移趨勢不顯著。脊線指數(shù)6月、7月平均值分別為20.5°N和25.4°N,方差分析得F值為165.334,查表得P<0.01,故在0.01顯著性水平下,二者總體均值是顯著不同的,即西太副高6—7月具有明顯的北跳特征。西太副高在同一年間6—7月的位置變化,尤其是緯向變化會對梅雨降水產(chǎn)生重要影響。
圖6 1951—2016年6月、7月西伸脊點、脊線指數(shù)年際變化
SOM算法要求提前確定分型數(shù)目,分型數(shù)目過多會造成各個分型所含的樣本過少,各分型之間失去區(qū)分度;分型數(shù)目過少則會加大同一分型內(nèi)部的差異,降低分型的代表性。結(jié)合前人對副高分型研究和多次數(shù)值實驗后,選取分型數(shù)目為3×3。以6月、7月副高西伸脊點與脊線位置為輸入?yún)⒘?,?951—2016年梅雨期副高SOM建立分型模型,計算結(jié)果如表2所示,其中輸出的SOM分型1-9型只表示類別,與具體的副高指數(shù)大小無關(guān)。
表2 1951—2016年6月、7月西太副高SOM分型
采用輪廓系數(shù)法[34]分析聚類分型結(jié)果,輪廓系數(shù)越接近于1,說明簇內(nèi)樣本相似性好,且不同簇樣本差異性好,聚類結(jié)果就越好。將1951—2016年6月、7月西太副高西伸脊點、脊線指數(shù)歸一化后針對分型結(jié)果計算輪廓系數(shù),如圖7所示。
圖7 不同SOM分型下輪廓系數(shù)圖
每個分型均包含輪廓系數(shù)大于0.5的樣本,過半數(shù)樣本輪廓系數(shù)大于0.4的分型有1型、3型、4型、5型、6型、8型。說明利用SOM算法對66年間(1951—2016年)梅雨區(qū)西太副高分型具有合理性,可以進行進一步研究。取各分型中輪廓系數(shù)最高樣本作為該分型典型年,如表3所示。
表3 西太副高不同分型典型年
將西伸脊點作為經(jīng)度參數(shù),脊線位置作為緯度參數(shù),將9種分型典型年6月、7月西伸脊點和脊線位置分別投影到橫縱坐標(biāo)繪圖如圖8所示。
數(shù)字為SOM分型
如圖8所示,SOM分型結(jié)果在空間上具有一定的規(guī)律性:1型西太副高偏東南且7月份北跳幅度較小,有明顯的東移;2型北跳幅度大,東西位置居中;3型偏中西部,北跳幅度小;4型居中,移動幅度??;5型偏中西部,北跳幅度??;6型偏西且遠離其他年份,北跳幅度大;7型6月份偏西北,7月有明顯西進;8型位于東北部,北跳東移幅度大;9型偏西,北跳幅度大。9種西太副高分型呈現(xiàn)不同位置和變化特點。
按梅雨區(qū)提取1951—2016年6月、7月降水格點數(shù)據(jù),并分別計算6月、7月降水距平百分率,取各分型典型年6月、7月降水距平百分率圖代表本分型。
由圖9可知,9種副高分型下均對應(yīng)呈現(xiàn)出不同的降水特點。結(jié)合不同分型的西太副高位置及變動分析,說明6月、7月西太副高的SOM分型對梅雨期降水研究和預(yù)測具有一定的指示作用,緯向上,當(dāng)西太副高偏東時,梅雨區(qū)降水強度偏低(如1型7月、7型6月、8型7月),西太副高偏西時降水強度偏高(如3型)。可能的機理是:西太副高偏西偏強年份,副高外環(huán)流水汽輸送強,同時經(jīng)向環(huán)流偏強冷空氣活躍,形成梅雨區(qū)普遍多雨;副高偏東偏弱年份,水汽輸送弱,冷空氣缺少,導(dǎo)致梅雨區(qū)普遍少雨。經(jīng)向上,在西太副高主體位于中國陸地的前提下,西太副高偏北(脊線指數(shù)超過25°N)時,梅雨區(qū)大部被副熱帶高壓控制,整體降水偏少或在靠近北部、西部邊緣時降水增多(如6型7月、7型7月、9型);西太副高偏南時,副高控制區(qū)位于梅雨區(qū)南部邊緣及以南地區(qū),此時降水整體偏多,或整體降水多帶有南部邊緣偏少,或降水呈現(xiàn)南多北少特點(如2型7月、3型7月)。可能的機理是受副高外圍風(fēng)場水汽輸送影響,整體降水偏多,而當(dāng)副高控制南部邊緣地區(qū)時就會造成對應(yīng)位置高溫少雨,當(dāng)副高位于更南位置時,梅雨區(qū)北部受副高外圍風(fēng)場輸送作用弱,受其他因素影響會造成北部降水偏少。
圖9 不同分型下6月、7月降水量
分析利用西太副高五項監(jiān)測指標(biāo),構(gòu)建梅雨期西太副高SOM分型模型,得到9種西太副高SOM分型,并利用中國1 km分辨率逐月降水量數(shù)據(jù)集和中國雨季歷年信息表體現(xiàn)的降水特征進行不同西太副高分型下梅雨降水的特征分析。得出如下結(jié)論。
(1)66年間(1951—2016年)西太副高位置跳動頻繁,造成梅雨降水特點變化多:西太副高偏東時,梅雨區(qū)降水強度偏低,反之則強度偏高,副高控制梅雨區(qū)大部時,整體降水偏少,副高控制梅雨區(qū)南側(cè)時,水汽輸送導(dǎo)致梅雨偏強。
(2)相較于前人對西太副高與梅雨特征的研究,使用SOM 方法對西太副高進行聚類,既能對研究數(shù)據(jù)進行有效降維分析,又有得到比傳統(tǒng)分類方法更客觀的分型結(jié)果。在梅雨預(yù)測研究等方面仍有較大提升空間,如使用西伸脊點和脊線指數(shù)完全表征西太副高特征的精度有限,未來可以結(jié)合海溫、ENSO指數(shù)多種梅雨影響因子建立SOM梅雨特征預(yù)報模型,用于梅雨形勢預(yù)測等研究。