劉 娜 熊安元 張 強(qiáng) 劉雨佳 戰(zhàn)云健 劉一鳴
(國(guó)家氣象信息中心,北京 100081)
近20年,隨著氣象觀測(cè)技術(shù)和數(shù)值預(yù)報(bào)技術(shù)的快速發(fā)展,天氣預(yù)報(bào)水平取得了明顯進(jìn)步,歐洲中期天氣預(yù)報(bào)中心(European Centre for Medium-Range Weather Forecasts,ECMWF)和中國(guó)的全球環(huán)流形勢(shì)預(yù)報(bào)可用時(shí)效(以500 hPa位勢(shì)高度距平相關(guān)系數(shù)高于0.6為標(biāo)準(zhǔn))已分別達(dá)到8.5 d和7.2 d,中國(guó)24 h晴雨預(yù)報(bào)準(zhǔn)確率已穩(wěn)定在80%以上。強(qiáng)對(duì)流天氣由于具有持續(xù)時(shí)間短、空間尺度小等特點(diǎn),常規(guī)氣象觀測(cè)系統(tǒng)監(jiān)測(cè)難度大,數(shù)值天氣預(yù)報(bào)模式也難以準(zhǔn)確描述其物理過(guò)程。中國(guó)中央氣象臺(tái)對(duì)雷暴大風(fēng)和冰雹的6~24 h預(yù)報(bào)2010—2015年TS評(píng)分(threat score,風(fēng)險(xiǎn)評(píng)分)為0.01~0.07[1],預(yù)報(bào)水平遠(yuǎn)不能滿(mǎn)足服務(wù)需求,且6年間預(yù)報(bào)水平提高幅度有限。美國(guó)強(qiáng)風(fēng)暴預(yù)報(bào)中心對(duì)雷暴天氣6 h預(yù)報(bào)TS評(píng)分僅為0.155~0.213[2-3]。因此,中尺度災(zāi)害性天氣預(yù)報(bào)問(wèn)題是目前亟待攻克的科學(xué)難題。
隨著高性能計(jì)算能力不斷提升,基于數(shù)據(jù)驅(qū)動(dòng)的機(jī)器學(xué)習(xí)技術(shù)在多個(gè)領(lǐng)域取得突破性應(yīng)用成果。機(jī)器學(xué)習(xí)是人工智能的一個(gè)分支,是計(jì)算機(jī)在一定的數(shù)學(xué)模型框架下,自動(dòng)學(xué)習(xí)大量輸入樣本的數(shù)據(jù)結(jié)構(gòu)和內(nèi)在規(guī)律,建立輸入數(shù)據(jù)與標(biāo)簽數(shù)據(jù)間的數(shù)學(xué)關(guān)聯(lián),從而對(duì)新樣本進(jìn)行智能識(shí)別,實(shí)現(xiàn)對(duì)未來(lái)預(yù)測(cè)。因此,機(jī)器學(xué)習(xí)技術(shù)被認(rèn)為在基于數(shù)據(jù)驅(qū)動(dòng)的天氣預(yù)報(bào)領(lǐng)域具有廣泛的應(yīng)用前景[4],特別是數(shù)值天氣預(yù)報(bào)尚不能解決的一些中小尺度的強(qiáng)對(duì)流天氣預(yù)報(bào)問(wèn)題。一些基于傳統(tǒng)的機(jī)器學(xué)習(xí)算法,分別利用地面、高空等各類(lèi)觀測(cè)數(shù)據(jù)和中尺度數(shù)值預(yù)報(bào)產(chǎn)品對(duì)雷暴[5]、直線型強(qiáng)風(fēng)[6]、冰雹[7-8]、龍卷[9]、對(duì)流初生[10]等強(qiáng)對(duì)流天氣過(guò)程均表現(xiàn)出較強(qiáng)的預(yù)報(bào)能力?;跁r(shí)序記憶特征的循環(huán)卷積神經(jīng)網(wǎng)絡(luò)模型也在天氣預(yù)報(bào)領(lǐng)域表現(xiàn)出較好的應(yīng)用潛力[11],如利用二維或三維雷達(dá)反射率因子預(yù)報(bào)未來(lái)0~2 h雷達(dá)回波強(qiáng)度(或降水)的深度學(xué)習(xí)模型ConvLSTM(convolutional long short-term memory,卷積長(zhǎng)短期記憶力模型)[12]、TrajGRU(trajectory gated recurrent unit,軌跡門(mén)控遞歸單元模型)[13]和MLC-LSTM(multi-level correlation long short-term memory,多層次相關(guān)長(zhǎng)短期記憶力模型)[14],表現(xiàn)出較傳統(tǒng)雷達(dá)外推技術(shù)更高的預(yù)報(bào)水平。利用數(shù)值預(yù)報(bào)模式產(chǎn)品導(dǎo)出物理量預(yù)報(bào)雷暴、短時(shí)強(qiáng)降水、冰雹和雷暴大風(fēng)等強(qiáng)對(duì)流天氣的深度CNN(convolutional neural networks,卷積神經(jīng)網(wǎng)絡(luò))模型,預(yù)報(bào)的TS評(píng)分也較高[15]。
機(jī)器學(xué)習(xí)的核心過(guò)程主要包括訓(xùn)練數(shù)據(jù)集構(gòu)建和算法的優(yōu)化調(diào)整。其中,訓(xùn)練數(shù)據(jù)集的數(shù)量和質(zhì)量是關(guān)鍵,高質(zhì)量的標(biāo)簽數(shù)據(jù)是核心[16]。美國(guó)普林斯頓大學(xué)研發(fā)了1400多萬(wàn)幅、包含21841個(gè)類(lèi)別標(biāo)簽的圖像數(shù)據(jù)集ImageNet,并成為自2010年以來(lái)國(guó)際歷年目標(biāo)物識(shí)別大賽的基準(zhǔn)數(shù)據(jù)集[17]。美國(guó)斯坦福大學(xué)、普林斯頓大學(xué)和德國(guó)慕尼黑工業(yè)大學(xué)聯(lián)合研制的ScanNet[18]數(shù)據(jù)集包含了250萬(wàn)個(gè)視圖和1513個(gè)場(chǎng)景的三維相機(jī)姿態(tài)、曲面重建和語(yǔ)義注釋的三維RGB-D視頻,同ImageNet在二維圖像識(shí)別中的價(jià)值相似,被應(yīng)用于基于監(jiān)督分類(lèi)的深度學(xué)習(xí)算法模型訓(xùn)練,自動(dòng)識(shí)別室內(nèi)三維物體類(lèi)別。ImageNet和ScanNet的建立,有力促進(jìn)了國(guó)際上目標(biāo)物智能識(shí)別領(lǐng)域的發(fā)展。
利用人工智能技術(shù)對(duì)災(zāi)害性天氣進(jìn)行識(shí)別和預(yù)報(bào),就是利用大量歷史樣本數(shù)據(jù),尋找各種觀測(cè)數(shù)據(jù)與災(zāi)害性天氣過(guò)程的關(guān)聯(lián)關(guān)系,建立機(jī)器學(xué)習(xí)模型,實(shí)現(xiàn)災(zāi)害性天氣的智能識(shí)別和預(yù)報(bào)。其中,訓(xùn)練數(shù)據(jù)的多樣性和大樣本是關(guān)鍵。強(qiáng)對(duì)流天氣人工智能應(yīng)用訓(xùn)練基礎(chǔ)數(shù)據(jù)集(Severe Convective Weather DataSet for AI application,SCWDS),盡可能收集與強(qiáng)對(duì)流災(zāi)害性天氣發(fā)生發(fā)展有關(guān)聯(lián)的多種類(lèi)型氣象數(shù)據(jù),包括2012—2019年中國(guó)大陸區(qū)域雷暴、雷暴大風(fēng)、短時(shí)強(qiáng)降水、冰雹、龍卷等歷次強(qiáng)對(duì)流天氣過(guò)程及其對(duì)應(yīng)時(shí)空窗口范圍的地面觀測(cè)數(shù)據(jù)、探空探空數(shù)據(jù)、閃電地位數(shù)據(jù)、雷達(dá)基數(shù)據(jù)、衛(wèi)星多通道數(shù)據(jù)和再分析產(chǎn)品等。
本文選取2012—2019年中國(guó)大陸區(qū)域雷暴、雷暴大風(fēng)、短時(shí)強(qiáng)降水、冰雹和龍卷5種強(qiáng)對(duì)流天氣類(lèi)型,研發(fā)面向人工智能識(shí)別和預(yù)報(bào)應(yīng)用的訓(xùn)練基礎(chǔ)數(shù)據(jù)集,包括歷次強(qiáng)對(duì)流天氣過(guò)程及其對(duì)應(yīng)的地面觀測(cè)數(shù)據(jù)、探空數(shù)據(jù)、閃電定位數(shù)據(jù)、雷達(dá)基數(shù)據(jù)、衛(wèi)星多通道數(shù)據(jù)和再分析產(chǎn)品。強(qiáng)對(duì)流天氣過(guò)程來(lái)源于國(guó)家氣象信息中心存檔的2413個(gè)國(guó)家級(jí)地面氣象站的強(qiáng)對(duì)流天氣過(guò)程記錄、中國(guó)氣象局災(zāi)情直報(bào)系統(tǒng)收集的氣象災(zāi)情信息以及互聯(lián)網(wǎng)媒體采集信息。雷暴、雷暴大風(fēng)、短時(shí)強(qiáng)降水和冰雹臺(tái)站觀測(cè)記錄占比分別為99%,98%,97%和79%;龍卷天氣過(guò)程通過(guò)中國(guó)氣象局災(zāi)情直報(bào)系統(tǒng)和互聯(lián)網(wǎng)媒體采集獲取,未收集到有效臺(tái)站觀測(cè)記錄。地面觀測(cè)數(shù)據(jù)來(lái)源于2413個(gè)國(guó)家級(jí)地面氣象觀測(cè)站,探空數(shù)據(jù)來(lái)源于120個(gè)高空氣象探測(cè)站,閃電定位數(shù)據(jù)來(lái)源于中國(guó)氣象局閃電定位系統(tǒng)以及中國(guó)科學(xué)院電工研究所三維雷電定位系統(tǒng)監(jiān)測(cè)的地閃和云閃數(shù)據(jù),雷達(dá)基數(shù)據(jù)來(lái)源于全國(guó)201個(gè)天氣雷達(dá)站,衛(wèi)星多通道數(shù)據(jù)來(lái)源于氣象衛(wèi)星FY-2E(2012年1月1日—2019年12月31日)、FY-2D(2012年1月1日—2015年6月30日)、FY-2G(2015年7月1日—2019年12月31日)的可見(jiàn)光通道反射率數(shù)據(jù)以及紅外和水汽通道亮溫?cái)?shù)據(jù),再分析產(chǎn)品用于記錄天氣過(guò)程發(fā)生前后環(huán)境條件,來(lái)源于ECMWF的逐小時(shí)ERA5再分析產(chǎn)品[19](https:∥cds.climate.copernicus.eu/)。
強(qiáng)對(duì)流天氣過(guò)程定義為由于中小尺度對(duì)流性天氣系統(tǒng)導(dǎo)致地面可觀測(cè)到雷暴、雷暴大風(fēng)、短時(shí)強(qiáng)降水、冰雹和龍卷等天氣現(xiàn)象的深厚濕對(duì)流天氣過(guò)程[20],這些天氣現(xiàn)象依照中國(guó)地面氣象觀測(cè)規(guī)范[21]進(jìn)行定義(表1)。雷暴、雷暴大風(fēng)、冰雹和龍卷是通過(guò)人工觀測(cè)并記錄的天氣現(xiàn)象,短時(shí)強(qiáng)降水是基于地面分鐘觀測(cè)降水統(tǒng)計(jì)的連續(xù)60 min降水超過(guò)20 mm閾值的天氣過(guò)程。對(duì)于由非對(duì)流性天氣系統(tǒng)產(chǎn)生的數(shù)據(jù),在數(shù)據(jù)清洗過(guò)程中盡可能剔除。數(shù)據(jù)集記錄的強(qiáng)對(duì)流天氣過(guò)程均包括開(kāi)始時(shí)間、結(jié)束時(shí)間、發(fā)生位置、發(fā)生強(qiáng)度以及過(guò)程影響描述信息。
由于機(jī)器學(xué)習(xí)更關(guān)注多元數(shù)據(jù)之間的聯(lián)系,是基于多種輸入數(shù)據(jù)和標(biāo)簽數(shù)據(jù)組成的大量樣本進(jìn)行學(xué)習(xí),因此,SCWDS是以觀測(cè)到的強(qiáng)對(duì)流天氣發(fā)生時(shí)間點(diǎn)和空間點(diǎn)為中心,由基于單站(或單點(diǎn))發(fā)生的強(qiáng)對(duì)流天氣過(guò)程,以及對(duì)應(yīng)時(shí)間窗口和空間窗口范圍內(nèi)的反映天氣過(guò)程發(fā)生發(fā)展特征的天氣條件數(shù)據(jù)組成,天氣條件數(shù)據(jù)時(shí)間窗和空間窗定義見(jiàn)表2。如果一次影響范圍較大的強(qiáng)對(duì)流天氣過(guò)程同時(shí)被多個(gè)臺(tái)站(或地點(diǎn))記錄,則數(shù)據(jù)集定義其為基于多個(gè)站點(diǎn)的多次過(guò)程。如果一次天氣過(guò)程包含若干種強(qiáng)對(duì)流天氣現(xiàn)象,則數(shù)據(jù)集定義其為多種不同的強(qiáng)對(duì)流天氣過(guò)程。圖1給出2018年6月28日06:21—08:49(北京時(shí),下同)發(fā)生在安徽省合肥市長(zhǎng)豐縣的一次短時(shí)強(qiáng)降水天氣過(guò)程及其所對(duì)應(yīng)的各類(lèi)天氣條件數(shù)據(jù)的空間窗范圍,該過(guò)程對(duì)應(yīng)的時(shí)間窗口為2018年6月28日04:21—10:49,樣本數(shù)據(jù)包含該時(shí)間窗和空間窗范圍內(nèi)的地面觀測(cè)數(shù)據(jù)、探空數(shù)據(jù)、閃電定位數(shù)據(jù)、雷達(dá)基數(shù)據(jù)、衛(wèi)星多通道數(shù)據(jù)和再分析產(chǎn)品。
表1 強(qiáng)對(duì)流天氣類(lèi)型定義Table 1 Definition of severe convective weather events
表2 強(qiáng)對(duì)流天氣過(guò)程對(duì)應(yīng)的天氣條件數(shù)據(jù)時(shí)間窗和空間窗定義(時(shí)間窗的負(fù)數(shù)表示過(guò)程開(kāi)始前時(shí)長(zhǎng),正數(shù)表示過(guò)程結(jié)束后時(shí)長(zhǎng))Table 2 Temporal and spatial window definition of weather condition for severe convective weather events(negative represents hours before the event beginning,positive represents hours after the event ending)
圖1 一次強(qiáng)對(duì)流天氣過(guò)程的空間窗定義及所包含觀測(cè)數(shù)據(jù)示例(藍(lán)色圓圈表示200 km半徑范圍,紅色圓圈表示500 km半徑范圍,填色表示FY-2E氣象衛(wèi)星長(zhǎng)波紅外通道亮溫)Fig.1 An example of spatial window definition and corresponding observation composition for a severe convective weather event(the blue circle for 200 km and the red circle for 500 km are spatial windows,the shaded denotes FY-2E long-wave infrared channel brightness temperature)
高質(zhì)量數(shù)據(jù)是應(yīng)用的基礎(chǔ),為確保訓(xùn)練數(shù)據(jù)集的質(zhì)量,本數(shù)據(jù)集收集整編的地面觀測(cè)數(shù)據(jù)、探空數(shù)據(jù)、雷達(dá)基數(shù)據(jù)均經(jīng)過(guò)質(zhì)量控制。地面觀測(cè)氣溫、氣壓、風(fēng)速(平均風(fēng)速、最大風(fēng)速、極大風(fēng)速)、降水?dāng)?shù)據(jù)經(jīng)過(guò)界限值檢查、時(shí)間一致性檢查、內(nèi)部一致性檢查及空間一致性檢查[23-26]。高空標(biāo)準(zhǔn)等壓面的溫度、露點(diǎn)、位勢(shì)高度、風(fēng)觀測(cè)數(shù)據(jù)經(jīng)過(guò)界限值檢查、內(nèi)部一致性檢查、垂直一致性檢查、對(duì)流層頂合理性檢查、溫度超絕熱遞減率檢查、風(fēng)切變檢查、時(shí)間一致性檢查和綜合靜力學(xué)檢查[27-28]。雷達(dá)基數(shù)據(jù)經(jīng)過(guò)噪點(diǎn)(孤立點(diǎn))濾除、徑向電磁干擾回波消除、地物/超折射回波消除、晴空回波消除、海浪回波消除、速度退模糊等質(zhì)量控制[29-34]。經(jīng)過(guò)質(zhì)量控制后的地面數(shù)據(jù)共17567032站次,高空數(shù)據(jù)共2832164站次,雷達(dá)數(shù)據(jù)共21084605站次。
數(shù)據(jù)清洗在對(duì)觀測(cè)數(shù)據(jù)進(jìn)行質(zhì)量控制后,從數(shù)據(jù)集應(yīng)用角度對(duì)數(shù)據(jù)進(jìn)行重新審查和校驗(yàn),從數(shù)據(jù)完整性、數(shù)據(jù)一致性、時(shí)間連續(xù)性、邏輯關(guān)系合理性、非對(duì)流性天氣過(guò)程過(guò)濾以及互聯(lián)網(wǎng)數(shù)據(jù)驗(yàn)證等角度對(duì)5種強(qiáng)對(duì)流天氣過(guò)程進(jìn)行數(shù)據(jù)清洗,剔除重復(fù)信息、時(shí)空屬性不完整信息、要素間邏輯關(guān)系錯(cuò)誤信息、時(shí)間不連續(xù)信息以及非對(duì)流性因素引起的天氣過(guò)程信息,確保數(shù)據(jù)集多源訓(xùn)練樣本的有效性和正確性,數(shù)據(jù)清洗方法見(jiàn)表3。
表3 強(qiáng)對(duì)流天氣過(guò)程數(shù)據(jù)清洗方法描述Table 3 Description of data cleaning methods for severe convective weather events
1.5.1 雷暴過(guò)程數(shù)據(jù)清洗
雷暴過(guò)程數(shù)據(jù)清洗包括不完整數(shù)據(jù)清洗和不連續(xù)數(shù)據(jù)清洗:①若雷暴發(fā)生時(shí)間、發(fā)生位置缺失,按缺失數(shù)據(jù)剔除處理。②若雷暴持續(xù)時(shí)間不超過(guò)5 min,按缺失數(shù)據(jù)剔除處理;若同一地點(diǎn)兩次雷暴過(guò)程時(shí)間間隔不超過(guò)15 min,按同一過(guò)程進(jìn)行合并處理,否則按兩個(gè)或多個(gè)獨(dú)立過(guò)程處理[21]。
1.5.2 雷暴大風(fēng)過(guò)程數(shù)據(jù)清洗
雷暴大風(fēng)過(guò)程數(shù)據(jù)清洗包括不完整數(shù)據(jù)清洗、不一致數(shù)據(jù)清洗、不連續(xù)數(shù)據(jù)清洗、邏輯關(guān)系錯(cuò)誤數(shù)據(jù)清洗和非對(duì)流性天氣過(guò)程清洗:①若雷暴大風(fēng)發(fā)生時(shí)間、發(fā)生位置缺失,按缺失數(shù)據(jù)剔除處理。②若雷暴大風(fēng)過(guò)程的極大風(fēng)速或最大風(fēng)速缺失,按空間一致性統(tǒng)計(jì)方法,利用最鄰近臺(tái)站同一觀測(cè)時(shí)間極大風(fēng)速或最大風(fēng)速補(bǔ)充極大風(fēng)速或最大風(fēng)速屬性值。③多源雷暴大風(fēng)過(guò)程對(duì)風(fēng)力強(qiáng)度屬性的描述方式不同,中國(guó)氣象局災(zāi)情直報(bào)系統(tǒng)和互聯(lián)網(wǎng)收集的雷暴大風(fēng)最大風(fēng)速、極大風(fēng)速單位為風(fēng)力等級(jí),參照《地面氣象觀測(cè)規(guī)范》[21](2003)風(fēng)力等級(jí)對(duì)照表,按照風(fēng)力等級(jí)對(duì)應(yīng)的風(fēng)速中數(shù)作為風(fēng)速值進(jìn)行統(tǒng)一轉(zhuǎn)換。④若雷暴大風(fēng)過(guò)程持續(xù)時(shí)間不超過(guò)1 min,按不連續(xù)數(shù)據(jù)剔除處理;若同一地點(diǎn)兩次雷暴大風(fēng)過(guò)程時(shí)間間隔不超過(guò)15 min,按同一個(gè)過(guò)程進(jìn)行合并處理,否則按兩個(gè)或多個(gè)獨(dú)立過(guò)程處理。⑤若極大風(fēng)速低于17.0 m·s-1,按邏輯關(guān)系錯(cuò)誤數(shù)據(jù)剔除處理。⑥若大風(fēng)過(guò)程發(fā)生地200 km空間窗、±2 h時(shí)間窗內(nèi)無(wú)閃電發(fā)生,按非對(duì)流性因素影響引起的大風(fēng)過(guò)程剔除處理,由于閃電觀測(cè)數(shù)據(jù)在空間覆蓋上的不完整性,可能剔除了一些真實(shí)的雷暴大風(fēng)過(guò)程,本研究共剔除10099個(gè)被認(rèn)為是非對(duì)流性因素引起的大風(fēng)過(guò)程(圖2)。
圖2 剔除非對(duì)流性因素引起的雷暴大風(fēng)個(gè)例數(shù)量(a)及占比(b)Fig.2 Number(a)and proportion(b)of eliminated gale caused by non-convective weather factors
1.5.3 短時(shí)強(qiáng)降水過(guò)程數(shù)據(jù)清洗
短時(shí)強(qiáng)降水過(guò)程數(shù)據(jù)清洗包括不完整數(shù)據(jù)清洗、不連續(xù)數(shù)據(jù)清洗、非對(duì)流性天氣過(guò)程清洗以及針對(duì)互聯(lián)網(wǎng)收集數(shù)據(jù)的驗(yàn)證。①若短時(shí)強(qiáng)降水過(guò)程時(shí)空屬性或過(guò)程降水量缺失,按缺失數(shù)據(jù)剔除處理。②若同一地點(diǎn)兩次短時(shí)強(qiáng)降水過(guò)程時(shí)間間隔不超過(guò)60 min,按同一個(gè)過(guò)程進(jìn)行合并處理,否則按兩個(gè)或多個(gè)獨(dú)立過(guò)程處理。③距離臺(tái)風(fēng)路徑400 km以?xún)?nèi)的短時(shí)強(qiáng)降水過(guò)程按剔除處理,共剔除5576個(gè)短時(shí)強(qiáng)降水過(guò)程(圖3)。④互聯(lián)網(wǎng)收集的114個(gè)短時(shí)強(qiáng)降水過(guò)程,共101個(gè)過(guò)程通過(guò)真實(shí)性驗(yàn)證,其中《中國(guó)氣象災(zāi)害年鑒》記錄71個(gè),國(guó)家級(jí)地面觀測(cè)站記錄30個(gè)。
圖3 剔除臺(tái)風(fēng)造成的短時(shí)強(qiáng)降水個(gè)例數(shù)量(a)及占比(b)Fig.3 Number(a)and proportion(b)of eliminated short-time heavy rain caused by typhoon
1.5.4 冰雹過(guò)程數(shù)據(jù)清洗
冰雹過(guò)程數(shù)據(jù)清洗包括不完整數(shù)據(jù)清洗、不連續(xù)數(shù)據(jù)清洗以及針對(duì)互聯(lián)網(wǎng)收集數(shù)據(jù)的驗(yàn)證:①若冰雹過(guò)程時(shí)空屬性缺失,按缺失數(shù)據(jù)剔除處理。②若同一地點(diǎn)兩次冰雹過(guò)程時(shí)間間隔不超過(guò)60 min,按同一個(gè)過(guò)程進(jìn)行合并處理,否則按兩個(gè)或多個(gè)獨(dú)立過(guò)程處理。③互聯(lián)網(wǎng)收集的388個(gè)冰雹過(guò)程,共265個(gè)過(guò)程通過(guò)真實(shí)性驗(yàn)證,其中《中國(guó)氣象災(zāi)害年鑒》記錄228個(gè),國(guó)家級(jí)地面觀測(cè)站記錄33個(gè),中國(guó)氣象局災(zāi)情直報(bào)系統(tǒng)記錄4個(gè)。
1.5.5 龍卷過(guò)程數(shù)據(jù)清洗
SCWDS收集到的龍卷過(guò)程共37個(gè),均通過(guò)中國(guó)氣象局災(zāi)情直報(bào)系統(tǒng)、中國(guó)氣象災(zāi)害年鑒或互聯(lián)網(wǎng)收集,未收集到國(guó)家級(jí)地面觀測(cè)臺(tái)站的龍卷天氣過(guò)程有效記錄。本數(shù)據(jù)集收錄的龍卷過(guò)程均包含發(fā)生地點(diǎn)和精確到小時(shí)的起止時(shí)間。龍卷過(guò)程數(shù)據(jù)清洗包括不完整數(shù)據(jù)清洗、不連續(xù)數(shù)據(jù)清洗以及針對(duì)互聯(lián)網(wǎng)收集數(shù)據(jù)的驗(yàn)證:①若時(shí)空屬性缺失,按缺失數(shù)據(jù)剔除處理,大量龍卷過(guò)程記錄,由于缺少具體發(fā)生時(shí)間,無(wú)法收錄于本數(shù)據(jù)集。②若同一地點(diǎn)兩次過(guò)程時(shí)間間隔不超過(guò)5 min,按同一個(gè)過(guò)程進(jìn)行合并處理,否則按照兩個(gè)或多個(gè)獨(dú)立過(guò)程處理。③對(duì)從互聯(lián)網(wǎng)收集的19個(gè)龍卷過(guò)程進(jìn)行真實(shí)性驗(yàn)證,共14個(gè)過(guò)程通過(guò)真實(shí)性驗(yàn)證,均為《中國(guó)氣象災(zāi)害年鑒》記錄。
為便于機(jī)器學(xué)習(xí)模型訓(xùn)練的應(yīng)用,SCWDS以每種強(qiáng)對(duì)流天氣過(guò)程為單元,每個(gè)天氣過(guò)程數(shù)據(jù)由該過(guò)程對(duì)應(yīng)時(shí)間窗口范圍內(nèi)的若干樣本組成。經(jīng)過(guò)清洗的強(qiáng)對(duì)流天氣過(guò)程數(shù)據(jù)共包含2012—2019年中國(guó)大陸區(qū)域范圍內(nèi)的雷暴、雷暴大風(fēng)、短時(shí)強(qiáng)降水、冰雹、龍卷5種強(qiáng)對(duì)流天氣共184865個(gè)個(gè)例(9256405個(gè)樣本),其中雷暴83259個(gè)個(gè)例(4162581個(gè)樣本),雷暴大風(fēng)10426個(gè)個(gè)例(545359個(gè)樣本),短時(shí)強(qiáng)降水82896個(gè)個(gè)例(4175946個(gè)樣本),冰雹8247個(gè)個(gè)例(370281個(gè)樣本),龍卷37個(gè)個(gè)例(2238個(gè)樣本)。
每個(gè)樣本包含用于模型輸入的天氣過(guò)程發(fā)生地點(diǎn)、發(fā)生時(shí)間、發(fā)生強(qiáng)度等標(biāo)注數(shù)據(jù)以及發(fā)生過(guò)程時(shí)間和空間窗范圍內(nèi)的地面觀測(cè)數(shù)據(jù)、探空數(shù)據(jù)、閃電定位數(shù)據(jù)、雷達(dá)基數(shù)據(jù)、衛(wèi)星多通道數(shù)據(jù)和再分析產(chǎn)品,數(shù)據(jù)集個(gè)例組織結(jié)構(gòu)見(jiàn)圖4。其中地面觀測(cè)數(shù)據(jù)包括氣溫、氣壓、2 min平均風(fēng)速及其風(fēng)向、最大風(fēng)速及其風(fēng)向、極大風(fēng)速及其風(fēng)向、降水、相對(duì)濕度要素;探空數(shù)據(jù)包括標(biāo)準(zhǔn)等壓面的位勢(shì)高度、溫度、露點(diǎn)溫度和風(fēng)觀測(cè)數(shù)據(jù);閃電定位數(shù)據(jù)包括云間閃、云地閃的雷電地理位置、電流強(qiáng)度和電流陡度數(shù)據(jù);雷達(dá)基數(shù)據(jù)包括描述反射率因子、徑向速度和速度譜寬的數(shù)據(jù);衛(wèi)星多通道數(shù)據(jù)包括逐30 min可見(jiàn)光(0.55~0.75 μm)通道反射率數(shù)據(jù)以及中紅外(3.5~4.0 μm)、長(zhǎng)波紅外(紅外1:11.5~12.5 μm;紅外2:10.3~11.3 μm)和水汽(6.3~7.6 μm)通道亮溫?cái)?shù)據(jù)。
圖4 強(qiáng)對(duì)流天氣人工智能應(yīng)用訓(xùn)練基礎(chǔ)數(shù)據(jù)集個(gè)例組織結(jié)構(gòu)Fig.4 Case structure of severe convective weather training dataset for artificial intelligence
基于SCWDS收集的2012—2019年強(qiáng)對(duì)流天氣過(guò)程對(duì)中國(guó)強(qiáng)對(duì)流天氣的時(shí)空分布特征進(jìn)行初步分析。由于龍卷樣本量不足,有關(guān)龍卷的分析結(jié)果僅作為參考。
3.1.1 季節(jié)變化
受東亞季風(fēng)影響,中國(guó)大陸區(qū)域的強(qiáng)對(duì)流天氣過(guò)程具有明顯的季節(jié)變化特征(圖5)。本數(shù)據(jù)集收集的各類(lèi)強(qiáng)對(duì)流天氣過(guò)程主要集中在3—10月,其他月份較少。雷暴、短時(shí)強(qiáng)降水、冰雹發(fā)生以夏季6—8月最為集中,雷暴、短時(shí)強(qiáng)降水、冰雹累計(jì)發(fā)生(總站次占比)分別為51081站次(61%)、57382站次(69%)、4669站次(57%)。雷暴大風(fēng)以春季的4—5月發(fā)生最多,累計(jì)發(fā)生(總站次占比)為4435站次(43%)。龍卷以夏季6-8月和春季4月發(fā)生較多。
圖5 強(qiáng)對(duì)流天氣過(guò)程發(fā)生站次年變化Fig.5 Annual frequency variation of severe convective weather events
續(xù)圖5
3.1.2 日變化
統(tǒng)計(jì)5種強(qiáng)對(duì)流天氣過(guò)程日變化特征(圖6),短時(shí)強(qiáng)降水白天和夜間發(fā)生站次基本相當(dāng),平均為3454站次·h-1,略呈現(xiàn)03:00—04:00和15:00—16:00時(shí)段偏多的雙峰特征。雷暴、雷暴大風(fēng)、冰雹、龍卷呈現(xiàn)相同的日變化規(guī)律,一日之內(nèi)發(fā)生雷暴、雷暴大風(fēng)、冰雹、龍卷的高頻時(shí)段是午后至傍晚時(shí)段(13:00—19:00),14:00—16:00時(shí)段出現(xiàn)站次最多,該時(shí)段內(nèi)雷暴、雷暴大風(fēng)、冰雹出現(xiàn)站次(總站次占比)分別為30990站次(38.1%)、3703站次(35.6%)、3441站次(41.7%),20:00后大幅減少,夜間較少發(fā)生。分析其原因,考慮大氣環(huán)境條件,午后到傍晚是一日中熱力條件和不穩(wěn)定條件最佳時(shí)段,有利于風(fēng)暴的形成和發(fā)展,夜間至凌晨,熱力條件不足,風(fēng)暴多難以形成和發(fā)展;考慮觀測(cè)業(yè)務(wù)規(guī)定影響,2413個(gè)國(guó)家級(jí)臺(tái)站中,838個(gè)原國(guó)家基準(zhǔn)和基本站晝夜守班,全天有天氣現(xiàn)象人工觀測(cè)記錄,其余1575個(gè)一般氣象站20:00—次日08:00時(shí)段可不進(jìn)行天氣現(xiàn)象人工記錄,但統(tǒng)計(jì)分析表明,838個(gè)原國(guó)家基準(zhǔn)基本站和2413個(gè)國(guó)家級(jí)臺(tái)站的雷暴、雷暴大風(fēng)和冰雹天氣過(guò)程日變化規(guī)律基本相同(圖略),圖6反映的日變化規(guī)律未受人工觀測(cè)時(shí)間的影響。
圖6 強(qiáng)對(duì)流天氣過(guò)程發(fā)生站次日變化Fig.6 Daily frequency variation of severe convective weather events
受氣候、地理、地形等因素影響,強(qiáng)對(duì)流天氣過(guò)程發(fā)生次數(shù)具有較大的空間變化特征。5種強(qiáng)對(duì)流天氣過(guò)程的空間分布特征如圖7所示。雷暴發(fā)生南北差異較大,自南向北逐漸減少,主要分布于華南、江南地區(qū)以及青藏高原、云貴高原區(qū)域,單站發(fā)生普遍超過(guò)40次,局地超過(guò)100次。雷暴大風(fēng)主要分布于華北北部以及江南沿海區(qū)域,單站發(fā)生普遍超過(guò)10次,其他區(qū)域大多低于6次。短時(shí)強(qiáng)降水主要分布于西南、華南、江南以及黃淮江淮地區(qū),單站發(fā)生普遍超過(guò)100次,青藏高原以及西北地區(qū)較少,不超過(guò)20次。冰雹主要分布于青藏高原、云貴高原以及華北北部等地,單站發(fā)生普遍超過(guò)6次,黃淮、江淮、江南、華南以及西南地區(qū)北部冰雹發(fā)生較少,普遍低于2次。龍卷主要分布于江蘇、廣東以及瓊州海峽等地。
圖7 強(qiáng)對(duì)流天氣過(guò)程發(fā)生次數(shù)空間分布Fig.7 Frequency distribution of severe convective weather events
隨著機(jī)器學(xué)習(xí)技術(shù)在氣象領(lǐng)域中的深度應(yīng)用,利用人工智能技術(shù)挖掘多源觀測(cè)數(shù)據(jù)和數(shù)值模式預(yù)報(bào)產(chǎn)品中尚未被認(rèn)識(shí)的強(qiáng)對(duì)流發(fā)生發(fā)展有效信息已成為必然趨勢(shì),SCWDS將是利用機(jī)器學(xué)習(xí)技術(shù)進(jìn)行強(qiáng)對(duì)流天氣智能識(shí)別和預(yù)報(bào)的基礎(chǔ)數(shù)據(jù)支撐。強(qiáng)對(duì)流天氣識(shí)別和預(yù)報(bào)的應(yīng)用場(chǎng)景千差萬(wàn)別,不同研究人員對(duì)影響強(qiáng)對(duì)流天氣發(fā)生發(fā)展因素的認(rèn)識(shí)各不相同,在進(jìn)行機(jī)器學(xué)習(xí)模型訓(xùn)練時(shí),可能選擇不同的數(shù)據(jù)作為模型的輸入樣本,可利用SCWDS研發(fā)針對(duì)不同應(yīng)用場(chǎng)景的有監(jiān)督機(jī)器學(xué)習(xí)專(zhuān)項(xiàng)應(yīng)用訓(xùn)練數(shù)據(jù)集。
有監(jiān)督機(jī)器學(xué)習(xí)模型包括淺層學(xué)習(xí)模型和深度學(xué)習(xí)模型。淺層機(jī)器學(xué)習(xí)模型(如決策樹(shù)、支持向量機(jī)、隨機(jī)森林等分類(lèi)算法),需要根據(jù)專(zhuān)家經(jīng)驗(yàn)在模型訓(xùn)練前確定輸入特征,模型只負(fù)責(zé)分類(lèi)或預(yù)測(cè)。如利用數(shù)值模式產(chǎn)品進(jìn)行冰雹潛勢(shì)預(yù)報(bào),可從SCWDS中選擇冰雹個(gè)例(是否出現(xiàn),冰雹直徑大小)作為標(biāo)簽數(shù)據(jù),基于數(shù)值模式產(chǎn)品計(jì)算對(duì)冰雹發(fā)生發(fā)展有指示意義的天氣環(huán)境物理量作為輸入特征參數(shù),組成訓(xùn)練數(shù)據(jù)集,通過(guò)機(jī)器學(xué)習(xí)模型訓(xùn)練獲得預(yù)報(bào)冰雹是否發(fā)生及發(fā)生強(qiáng)度的智能預(yù)報(bào)模型。端到端的深度學(xué)習(xí)模型,主要基于多隱層機(jī)器學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)和海量訓(xùn)練數(shù)據(jù),自動(dòng)抽取刻畫(huà)數(shù)據(jù)信息的有用特征,進(jìn)而進(jìn)行分類(lèi)或預(yù)測(cè)。如利用雷達(dá)產(chǎn)品、衛(wèi)星產(chǎn)品和再分析產(chǎn)品開(kāi)展有限區(qū)域雷暴大風(fēng)0~2 h 短時(shí)臨近預(yù)報(bào),可從SCWDS中選擇雷暴大風(fēng)天氣過(guò)程對(duì)應(yīng)時(shí)空窗口范圍的雷達(dá)基數(shù)據(jù)、衛(wèi)星多通道數(shù)據(jù)、再分析產(chǎn)品分別計(jì)算對(duì)雷暴大風(fēng)有指示意義的雷達(dá)特征、衛(wèi)星特征及天氣環(huán)境物理特征二維網(wǎng)格數(shù)據(jù),并選擇SCWDS中雷暴大風(fēng)天氣過(guò)程對(duì)應(yīng)時(shí)空窗口范圍的地面極大風(fēng)數(shù)據(jù)生成標(biāo)簽二維網(wǎng)格數(shù)據(jù),組成訓(xùn)練數(shù)據(jù)集,采用多隱層深度學(xué)習(xí)模型進(jìn)行訓(xùn)練,獲得該區(qū)域范圍內(nèi)雷暴大風(fēng)的短時(shí)臨近智能預(yù)報(bào)模型。
圍繞基于機(jī)器學(xué)習(xí)的強(qiáng)對(duì)流天氣識(shí)別和預(yù)報(bào)對(duì)訓(xùn)練數(shù)據(jù)集的需求,構(gòu)建中國(guó)大陸區(qū)域強(qiáng)對(duì)流天氣人工智能應(yīng)用訓(xùn)練基礎(chǔ)數(shù)據(jù)集SCWDS。數(shù)據(jù)集研制過(guò)程中從數(shù)據(jù)完整性、數(shù)據(jù)一致性、時(shí)間連續(xù)性、邏輯關(guān)系合理性、非對(duì)流性天氣過(guò)程過(guò)濾以及互聯(lián)網(wǎng)數(shù)據(jù)驗(yàn)證等角度進(jìn)行數(shù)據(jù)清洗,對(duì)表征天氣條件的氣象觀測(cè)數(shù)據(jù)進(jìn)行質(zhì)量控制。數(shù)據(jù)集主要特征如下:
1)SCWDS以天氣過(guò)程為單元,每個(gè)天氣過(guò)程數(shù)據(jù)由該過(guò)程對(duì)應(yīng)時(shí)間窗口范圍內(nèi)的若干樣本組成,每個(gè)樣本包含用于模型輸入的天氣過(guò)程發(fā)生地點(diǎn)、發(fā)生時(shí)間、發(fā)生強(qiáng)度標(biāo)注數(shù)據(jù)以及發(fā)生過(guò)程對(duì)應(yīng)時(shí)空窗口范圍的地面觀測(cè)數(shù)據(jù)、探空數(shù)據(jù)、閃電定位數(shù)據(jù)、雷達(dá)基數(shù)據(jù)、衛(wèi)星多通道數(shù)據(jù)和再分析產(chǎn)品。
2)SCWDS共包含2012—2019年中國(guó)大陸區(qū)域的雷暴、雷暴大風(fēng)、短時(shí)強(qiáng)降水、冰雹、龍卷5種強(qiáng)對(duì)流天氣共184865個(gè)個(gè)例(9256405個(gè)樣本),其中雷暴83259個(gè)個(gè)例(4162581個(gè)樣本),雷暴大風(fēng)10426個(gè)個(gè)例(545359個(gè)樣本),短時(shí)強(qiáng)降水82896個(gè)個(gè)例(4175946個(gè)樣本),冰雹8247個(gè)個(gè)例(370281個(gè)樣本),龍卷37個(gè)個(gè)例(2238個(gè)樣本)。
3)SCWDS強(qiáng)對(duì)流天氣過(guò)程發(fā)生具有明顯的季節(jié)變化特征和日變化特征。雷暴、短時(shí)強(qiáng)降水、冰雹以6—8月最多,雷暴大風(fēng)以4—5月最多,龍卷以6—8月和4月較多;短時(shí)強(qiáng)降水發(fā)生時(shí)間呈15:00—16:00和03:00—04:00時(shí)段偏多的雙峰特征,雷暴、雷暴大風(fēng)、冰雹、龍卷的高頻時(shí)段是午后至傍晚時(shí)段(13:00—19:00),以14:00—16:00時(shí)段最多。
4)SCWDS強(qiáng)對(duì)流天氣過(guò)程發(fā)生次數(shù)呈現(xiàn)較大的空間變化特征。雷暴主要分布于華南、江南及青藏高原、云貴高原區(qū)域,單站發(fā)生普遍超過(guò)40次,局地超過(guò)100次;雷暴大風(fēng)主要分布于華北北部及江南沿海區(qū)域,單站發(fā)生普遍超過(guò)10次;短時(shí)強(qiáng)降水主要集中在西南、華南、江南及黃淮江淮地區(qū),單站發(fā)生普遍超過(guò)100次。冰雹主要分布于青藏高原、云貴高原及華北北部等地,單站發(fā)生普遍超過(guò)6次;龍卷主要分布于江蘇、廣東及瓊州海峽等地。
訓(xùn)練基礎(chǔ)數(shù)據(jù)集的樣本數(shù)量和質(zhì)量是影響機(jī)器學(xué)習(xí)模型性能的關(guān)鍵因素。由于大量強(qiáng)對(duì)流天氣未被有效觀測(cè),同時(shí)為保證訓(xùn)練樣本準(zhǔn)確性,數(shù)據(jù)清洗過(guò)程過(guò)濾了大量不確定的訓(xùn)練樣本,造成SCWDS部分強(qiáng)對(duì)流天氣樣本量不足。此外低渦、切變線天氣尺度系統(tǒng)造成的強(qiáng)降水過(guò)程可能未被剔除,進(jìn)而影響SCWDS短時(shí)強(qiáng)降水樣本準(zhǔn)確性。后續(xù)將通過(guò)豐富樣本數(shù)量、優(yōu)化數(shù)據(jù)清洗技術(shù),提高訓(xùn)練樣本完整性和準(zhǔn)確性,不斷提升數(shù)據(jù)集的科學(xué)和應(yīng)用價(jià)值。