王 興,呂晶晶,周 可,詹少偉
(1.南京信息工程大學(xué) 大氣科學(xué)與環(huán)境氣象國(guó)家級(jí)實(shí)驗(yàn)教學(xué)示范中心,江蘇 南京210044;2.南京信大氣象科學(xué)技術(shù)研究院,江蘇 南京 210044)
下?lián)舯┝魇且环N局地災(zāi)害性天氣現(xiàn)象,它形成于強(qiáng)對(duì)流云團(tuán)內(nèi),是急速下沉的氣流在到達(dá)地面時(shí)形成強(qiáng)烈的輻散性直線強(qiáng)風(fēng)。盡管其發(fā)生的概率和影響的地理范圍不如常見(jiàn)的雷暴、短時(shí)強(qiáng)降水等極端天氣,然而一旦發(fā)生,其造成的危害往往是巨大的。下?lián)舯┝鳟a(chǎn)生時(shí),會(huì)引發(fā)局地的風(fēng)速劇增和強(qiáng)烈的風(fēng)切變,當(dāng)飛機(jī)穿越該區(qū)域時(shí)很可能失去平衡,甚至失速墜機(jī)。下?lián)舯┝鞯竭_(dá)地面的風(fēng)力可達(dá)15級(jí),受其影響地區(qū)極易發(fā)生房屋倒塌、植被破壞,進(jìn)而造成巨大的經(jīng)濟(jì)損失和人員傷亡事故。我國(guó)“東方之星”號(hào)客輪翻沉事件就是一起由下?lián)舯┝鲗?dǎo)致的重大災(zāi)難性事件。
長(zhǎng)期以來(lái),氣象、空管和航運(yùn)等部門都高度重視對(duì)各類災(zāi)害性天氣的監(jiān)測(cè)、預(yù)測(cè)和預(yù)警。不斷革新的探測(cè)手段和急速提升的計(jì)算機(jī)性能為下?lián)舯┝飨嚓P(guān)研究和業(yè)務(wù)應(yīng)用提供強(qiáng)有力的支撐。近年來(lái),相關(guān)研究主要是從下?lián)舯┝鞯男纬蓹C(jī)理、下?lián)舯┝魅芷谠谔鞖饫走_(dá)上表現(xiàn)出的圖像形態(tài)特征,以及利用精細(xì)化數(shù)值模式進(jìn)行物理量預(yù)報(bào)等方面展開。但由于下?lián)舯┝餍纬傻目臻g尺度極小,且生消發(fā)展速度極快,當(dāng)前主流的多普勒天氣雷達(dá)在SA工作模式下,往往只有1~2次體掃能相對(duì)清楚地捕捉到下?lián)舯┝鞯娜舾傻湫吞卣?,如果氣象業(yè)務(wù)人員此時(shí)沒(méi)有緊盯屏幕,往往會(huì)錯(cuò)過(guò)對(duì)其的分析和判讀。而事實(shí)上,隨著氣象信息化程度的不斷提升,每天數(shù)以百GB的數(shù)據(jù)量已然超出氣象工作者主觀研讀的能力。因此,亟需借助計(jì)算機(jī)智能識(shí)別相關(guān)技術(shù),實(shí)現(xiàn)對(duì)下?lián)舯┝鞯雀呶!⒏哂绊懱鞖獾目焖僮R(shí)別和準(zhǔn)確預(yù)報(bào)。
將深度學(xué)習(xí)技術(shù)應(yīng)用到對(duì)下?lián)舯┝鞯淖R(shí)別和預(yù)報(bào)是一些研究人員努力的目標(biāo),但由于下?lián)舯┝靼l(fā)生發(fā)展過(guò)程在雷達(dá)產(chǎn)品等資料中所表現(xiàn)出的一些典型特征并不是一直存在,而且一些關(guān)鍵性特征又難以量化,使得不論采用圖像模式識(shí)別還是機(jī)器學(xué)習(xí)算法識(shí)別,都難以有效實(shí)施應(yīng)用。為了克服上述困難,本文提出一種以深度神經(jīng)網(wǎng)絡(luò)為模型,以雷達(dá)回波圖像和徑向速度場(chǎng)圖像為輸入,融合雷達(dá)回波時(shí)空序列多種特征的下?lián)舯┝髦悄茏R(shí)別方法。
下?lián)舯┝鞯母拍钍?0世紀(jì)70年代由氣象學(xué)家Fujita提出的。當(dāng)時(shí),全球民航先后發(fā)生多起因局地性切變大風(fēng)造成的災(zāi)難性事故。此后的數(shù)十年間,人們對(duì)下?lián)舯┝鞯难芯恳恢睕](méi)有停止。當(dāng)前很多研究表明,一次典型的下?lián)舯┝鬟^(guò)程通常在雷達(dá)圖像上表現(xiàn)出以下特征:在形成階段,強(qiáng)對(duì)流單體合并加強(qiáng)形成弓狀回波;在弓狀回波前沿,反射率因子梯度大值區(qū)易發(fā)生下?lián)舯┝?,風(fēng)暴中心持續(xù)上升再急速下降。結(jié)合探空?qǐng)?bào)等資料可計(jì)算分析出,強(qiáng)對(duì)流系統(tǒng)在發(fā)展階段,底層有較強(qiáng)的暖濕入流,高層有明顯的上層出流,中層以上升氣流為主。風(fēng)暴中心下降過(guò)程中,中層以上存在強(qiáng)度不斷增大的徑向風(fēng)輻合,在雷達(dá)徑向速度圖上呈現(xiàn)為一對(duì)“正負(fù)速度對(duì)”。下?lián)舯┝靼l(fā)生時(shí),底層會(huì)出現(xiàn)相應(yīng)的徑向風(fēng)輻散,即與中層位置大致相反的“正負(fù)速度對(duì)”。在垂直方向上,高低層存在垂直切變。
盡管上述特征是下?lián)舯┝鞯墓残蕴卣?,但又有一些研究指出,這些特征并不是一直存在的。例如,陶嵐等認(rèn)為識(shí)別下?lián)舯┝髯羁煽康奶卣魇堑孛孑椛ⅲ趫D像上表現(xiàn)為雷達(dá)徑向上的“牛眼”回波,即“正負(fù)速度對(duì)”,但由于環(huán)境風(fēng)場(chǎng)的影響,這種特征并不總是存在,“正負(fù)速度對(duì)”往往并不對(duì)稱;而且,依靠雷達(dá)識(shí)別出的強(qiáng)對(duì)流天氣有很多特征與下?lián)舯┝魇窍嗨频摹_@些因素都對(duì)下?lián)舯┝鞯臏?zhǔn)確識(shí)別造成了極大的干擾。
要實(shí)現(xiàn)對(duì)下?lián)舯┝鞯淖詣?dòng)識(shí)別預(yù)警,關(guān)鍵需要解決兩方面問(wèn)題:一是要確保用于對(duì)下?lián)舯┝鞅O(jiān)測(cè)、預(yù)測(cè)等氣象業(yè)務(wù)的實(shí)時(shí)探測(cè)數(shù)據(jù)的可靠性;二是要確保風(fēng)暴識(shí)別追蹤相關(guān)算法模型的可靠性。國(guó)際上主要是通過(guò)反射率因子核的下降以及若干環(huán)境因子的計(jì)算結(jié)果分析,來(lái)進(jìn)行下?lián)舯┝鞯念A(yù)報(bào)預(yù)警。但起關(guān)鍵性作用的雷達(dá)資料,其波束寬度約為1°(WSR-88D),由于下?lián)舯┝鞯某叨刃?,受雷達(dá)探測(cè)分辨率的限制,其有效探測(cè)半徑僅有約50 km。并且,環(huán)境因子依賴于探空?qǐng)?bào)等資料,而這些資料的觀測(cè)頻次低且空間間隔距離大,因此難以在實(shí)際業(yè)務(wù)中推廣應(yīng)用。如何有效提升對(duì)下?lián)舯┝髯詣?dòng)識(shí)別的準(zhǔn)確率當(dāng)前仍是一項(xiàng)技術(shù)難題。
隨著GPU和眾核技術(shù)的普及,深度神經(jīng)網(wǎng)絡(luò)在圖像分類、識(shí)別和物體檢測(cè)等領(lǐng)域得到廣泛深入的研究,尤其是圖像智能識(shí)別技術(shù)的不斷成熟,極大地促進(jìn)了醫(yī)學(xué)診斷、人體行為識(shí)別和生態(tài)環(huán)境監(jiān)控等行業(yè)應(yīng)用的智能化,并且這種智能化水平仍在不斷提升。
與傳統(tǒng)針對(duì)雷達(dá)圖像特征識(shí)別的技術(shù)相比,運(yùn)用深度神經(jīng)網(wǎng)絡(luò)相關(guān)技術(shù)進(jìn)行下?lián)舯┝髯R(shí)別的最大優(yōu)勢(shì)在于不需要針對(duì)不同地區(qū)、不同季節(jié)的雷達(dá)回波和徑向速度場(chǎng)圖像,分別設(shè)計(jì)總結(jié)出一套發(fā)生規(guī)律或特征。只要輸入神經(jīng)網(wǎng)絡(luò)的樣本數(shù)量足夠多,且樣本的時(shí)間分布和地理空間分布相對(duì)均衡,再結(jié)合一些模型優(yōu)化技術(shù),即能通過(guò)神經(jīng)網(wǎng)絡(luò)模型完成對(duì)下?lián)舯┝骼走_(dá)圖像特征的準(zhǔn)確識(shí)別。并且,由于下?lián)舯┝鞯目臻g尺度很小,在雷達(dá)回波圖像上往往只表現(xiàn)為幾個(gè)或十幾個(gè)像素寬度的高亮色塊,基于深度神經(jīng)網(wǎng)絡(luò)的圖像識(shí)別并不需要人為定義這些色塊的形狀特征,這將比人工判讀或基于傳統(tǒng)圖像形態(tài)的識(shí)別更加有效。
本文算法的總體技術(shù)路線如圖1所示。
圖1 總體技術(shù)路線
本文算法的目標(biāo)是以深度神經(jīng)網(wǎng)絡(luò)模型為基礎(chǔ),尋找“雷達(dá)回波時(shí)序圖像和徑向速度場(chǎng)時(shí)序圖像”與“是否發(fā)生下?lián)舯┝魈鞖猬F(xiàn)象”之間的一個(gè)函數(shù)映射關(guān)系。
算法的深度神經(jīng)網(wǎng)絡(luò)主要以卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)為基本單元,同時(shí)借鑒了LeNet和GoogLeNet的技術(shù)思路,構(gòu)建一套適用于處理雷達(dá)回波時(shí)序圖像和徑向速度場(chǎng)時(shí)序圖像的網(wǎng)絡(luò)模型。上述兩種雷達(dá)圖像可通過(guò)專業(yè)軟件或公開的算法生成,而客觀判定是否發(fā)生了下?lián)舯┝鲃t需要通過(guò)實(shí)況觀測(cè)資料加以分析,其中最直接有效的一種觀測(cè)資料是地面氣象站的測(cè)風(fēng)數(shù)據(jù)。圖1中的,-1和分別表示不同時(shí)刻的雷達(dá)圖像,這些圖像記錄了大氣中水汽等粒子在時(shí)間和空間上的一些特征。將預(yù)處理后的局部雷達(dá)圖像與自動(dòng)站的氣象數(shù)據(jù)通過(guò)經(jīng)緯度信息結(jié)合起來(lái),生成用來(lái)訓(xùn)練和測(cè)試的數(shù)據(jù)集。訓(xùn)練過(guò)程包括數(shù)據(jù)預(yù)處理、識(shí)別模型的構(gòu)建、數(shù)據(jù)增強(qiáng)優(yōu)化、損失函數(shù)優(yōu)化和折交叉驗(yàn)證等。檢驗(yàn)過(guò)程為:通過(guò)客觀量化的評(píng)價(jià)指標(biāo)統(tǒng)計(jì)每種優(yōu)化技術(shù)產(chǎn)生的效果,并對(duì)結(jié)果加以分析。
數(shù)據(jù)預(yù)處理的主要任務(wù)是生成一段時(shí)間內(nèi)兩種雷達(dá)圖像(回波圖像和徑向速度場(chǎng)圖像)序列與下?lián)舯┝靼l(fā)生與否的標(biāo)簽之間的“數(shù)據(jù)對(duì)”。
雷達(dá)圖像的生成主要有兩種方式:一種為PPI(平面位置顯示),它是雷達(dá)在某個(gè)仰角上掃描一圈得到的數(shù)據(jù);另一種為CAPPI(等高平面位置顯示),它是在某一等高位置上的雷達(dá)數(shù)據(jù),通常是由PPI數(shù)據(jù)通過(guò)空間插值計(jì)算得到。CAPPI對(duì)于主觀分析雷達(dá)圖像更具優(yōu)勢(shì)。考慮到CAPPI是PPI的次級(jí)產(chǎn)品,在插值計(jì)算時(shí)數(shù)值存在失真,因此,本文算法以我國(guó)S波段多普勒天氣雷達(dá)在VCP21工作方式下生成的雷達(dá)資料為例,采用雷達(dá)的PPI回波圖像和徑向速度場(chǎng)圖像作為模型的輸入。單個(gè)時(shí)刻的雷達(dá)圖像如圖2所示。
圖2 本文算法使用的單個(gè)時(shí)刻的雷達(dá)圖像示例
圖2中前兩行是同一時(shí)刻9個(gè)仰角面的雷達(dá)回波圖像,最后一張是回波強(qiáng)度色標(biāo)圖;后兩行是相同時(shí)刻9個(gè)仰角面的徑向速度場(chǎng)圖像,最后一張是速度大小色標(biāo)圖。各圖像所對(duì)應(yīng)的雷達(dá)探測(cè)仰角依次升高。
下?lián)舯┝靼l(fā)生與否的標(biāo)簽是通過(guò)基本臺(tái)站和加密自動(dòng)氣象站記錄的風(fēng)速數(shù)據(jù),經(jīng)下述規(guī)則判定得到:
1)瞬時(shí)風(fēng)速達(dá)到或超過(guò)17.2 m/s(8級(jí)風(fēng)力);
2)過(guò)去10 min內(nèi),風(fēng)速變化超過(guò)11.7 m/s;
3)在氣象站觀測(cè)風(fēng)速的最近1 h內(nèi),從各時(shí)次雷達(dá)探測(cè)資料中識(shí)別到風(fēng)暴核心(強(qiáng)回波中心)存在急速下降的現(xiàn)象。
當(dāng)這3項(xiàng)條件均滿足時(shí),標(biāo)記此時(shí)發(fā)生了下?lián)舯┝鳎黄渌闆r下,均標(biāo)記為無(wú)下?lián)舯┝?。由于氣象站風(fēng)速觀測(cè)的時(shí)間周期與雷達(dá)探測(cè)的周期不同,因此,還需要對(duì)上述資料進(jìn)行時(shí)間規(guī)整和質(zhì)量控制。由于雷達(dá)中心位置的經(jīng)緯度坐標(biāo)可查,雷達(dá)探測(cè)的空間分辨率固定,因此,通過(guò)數(shù)學(xué)方法可以建立起雷達(dá)中心位置與地面氣象站之間的空間位置關(guān)系。
由于引發(fā)下?lián)舯┝鞯娘L(fēng)暴核心通常能達(dá)到的最高高度不超過(guò)15 km,而隨著PPI圖像上探測(cè)點(diǎn)遠(yuǎn)離雷達(dá)中心,其高度不斷增加,距離雷達(dá)中心點(diǎn)50 km以外的高仰角的雷達(dá)回波高度已高于15 km,因此,對(duì)所有圖像統(tǒng)一截取以雷達(dá)中心點(diǎn)為中心,長(zhǎng)、寬均為100像素的圖像作為網(wǎng)絡(luò)模型所輸入的單幀圖像。此外,考慮到9個(gè)仰角中,最高仰角的信息量往往很少,對(duì)下?lián)舯┝鞯淖R(shí)別意義不大。因此,輸入圖像時(shí)剔除了1個(gè)最高仰角的回波圖像和徑向速度場(chǎng)圖像。
綜上所述,本算法輸入到深度網(wǎng)絡(luò)模型的數(shù)據(jù)是一個(gè)100×100×(8+8)×的四維向量,其中,表示選取的雷達(dá)時(shí)序資料的時(shí)刻數(shù)。以體掃周期6 min為例,選取近30 min的雷達(dá)時(shí)序資料,取值為6。
采用CNN模型對(duì)圖像進(jìn)行智能分類識(shí)別,是當(dāng)前較為常用的一種技術(shù)手段。在此基礎(chǔ)上,衍生出了很多卓有成效的模型,如VGGNet、LeNet和AlexNet等。本算法的網(wǎng)絡(luò)模型借鑒了LeNet和GoogLeNet的技術(shù)思路,同時(shí)做出一些改進(jìn)以適用于四維雷達(dá)時(shí)空向量的訓(xùn)練。下?lián)舯┝髦悄茏R(shí)別的網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。
圖3 下?lián)舯┝髦悄茏R(shí)別的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
如圖3所示,模型首先將數(shù)據(jù)集拆解成雷達(dá)回波時(shí)序圖像和徑向速度場(chǎng)時(shí)序圖像,每一組包括8個(gè)仰角面、6個(gè)相鄰時(shí)刻的圖像,圖像大小為100×100像素。對(duì)雷達(dá)回波圖像的處理,首先設(shè)計(jì)了一個(gè)4通道的稀疏網(wǎng)絡(luò)結(jié)構(gòu)來(lái)生成稠密數(shù)據(jù),每個(gè)通道又包含1~2個(gè)卷積層,卷積核的大小為1×1,3×3和5×5。通過(guò)這種結(jié)構(gòu)來(lái)抽取不同時(shí)間尺度下的回波強(qiáng)度空間信息,4個(gè)通道均采用合適的填充(Padding)來(lái)保持輸入與輸出的圖像大小一致。然后,將每個(gè)通道的輸出在通道維上連結(jié),得到100×100×8×1的四維向量,并輸入到后續(xù)層中,這些層的結(jié)構(gòu)如圖4所示。
圖4中,Conv表示卷積層,括號(hào)中數(shù)值表示卷積核的窗口大小或輸出數(shù)。輸入層是一個(gè)四維向量,其他各層的作用與英文名稱的含義相一致,其中,Dropout層采用0.75為參數(shù)值。
圖4 下?lián)舯┝髦悄茏R(shí)別的網(wǎng)絡(luò)結(jié)構(gòu)
采用相同的網(wǎng)絡(luò)模型對(duì)徑向速度場(chǎng)時(shí)序圖像進(jìn)行處理,直到兩者分別經(jīng)過(guò)最后一次卷積Conv(3×3×64)和Dropout后,再進(jìn)行Flatten和全連接,最終輸出為2分類one-hot編碼的數(shù)據(jù)形式。除了圖3所示的各個(gè)神經(jīng)元層外,卷積層和全連接層所采用的激活函數(shù)均為Relu函數(shù)。此外,在輸入層后還增加了批規(guī)范化層(Batch Normalization),用于提升該模型訓(xùn)練的魯棒性。
盡管采用CNN構(gòu)建的深度學(xué)習(xí)模型理論上具有良好的泛化能力,但考慮到下?lián)舯┝鬟@類災(zāi)害性天氣的發(fā)生屬于小概率事件,如果直接將大量歷史氣象數(shù)據(jù)按上述預(yù)處理方法處理后,輸入模型進(jìn)行訓(xùn)練,很可能會(huì)出現(xiàn)訓(xùn)練結(jié)果偏向于大概率事件,即沒(méi)有下?lián)舯┝鞯陌l(fā)生。這種“數(shù)據(jù)不均衡”問(wèn)題勢(shì)必影響模型對(duì)下?lián)舯┝髯R(shí)別預(yù)警的準(zhǔn)確性。
為了克服上述問(wèn)題,本文采用一種基于低概率訓(xùn)練樣本重采樣的數(shù)據(jù)增強(qiáng)方法,將可能存在下?lián)舯┝魈卣鞯睦走_(dá)圖像通過(guò)小幅度的平移、旋轉(zhuǎn)、變形和增加噪聲等方式,生成一批新的訓(xùn)練樣本,使得數(shù)據(jù)樣本中發(fā)生下?lián)舯┝鞯谋壤兴黾?,進(jìn)而降低數(shù)據(jù)不均衡對(duì)模型訓(xùn)練的影響。由于雷達(dá)圖像上各個(gè)像素點(diǎn)的經(jīng)緯度坐標(biāo)可通過(guò)數(shù)學(xué)方法計(jì)算得到,因此發(fā)生形變后,與雷達(dá)圖像相對(duì)應(yīng)的地面站資料的經(jīng)緯度坐標(biāo)也可做相同的轉(zhuǎn)換處理,使得兩種雷達(dá)圖像與下?lián)舯┝靼l(fā)生與否的標(biāo)簽在地理位置上依然保持一致。圖5為6幅雷達(dá)回波圖像,第1幅為局部原圖,后5幅分別做了順時(shí)針旋轉(zhuǎn)、逆時(shí)針旋轉(zhuǎn)、縮小、放大和放大旋轉(zhuǎn)。
圖5 數(shù)據(jù)增強(qiáng)示例
與所有“有監(jiān)督學(xué)習(xí)”一樣,深度學(xué)習(xí)模型本身并不能解決圖像識(shí)別和分類的問(wèn)題,而是需要通過(guò)大量歷史樣本“數(shù)據(jù)對(duì)”由計(jì)算機(jī)不斷學(xué)習(xí)和自我校正,逐步構(gòu)建和完善分類識(shí)別模型的若干參數(shù)和權(quán)重,以做出準(zhǔn)確識(shí)別和分類。為了進(jìn)一步解決樣本數(shù)據(jù)不平衡的問(wèn)題,在損失函數(shù)中引入類別權(quán)重,賦予實(shí)際存在下?lián)舯┝鞯P妥R(shí)別為不存在下?lián)舯┝鬟@種情況更大的懲罰項(xiàng)。改進(jìn)后的損失函數(shù)為:
式中:y 是下?lián)舯┝魈鞖獾氖拘院瘮?shù);t 是模型對(duì)應(yīng)于下?lián)舯┝魈鞖獾妮敵?,表示該區(qū)域被識(shí)別為下?lián)舯┝魈鞖獾母怕?;是判定?quán)重項(xiàng),即懲罰項(xiàng)。值越大,模型會(huì)將更多的雷達(dá)圖像判定為存在下?lián)舯┝?,進(jìn)而造成更高的誤報(bào)率,但相應(yīng)地,識(shí)別的成功率也會(huì)提升。很顯然,的取值將對(duì)模型識(shí)別結(jié)果產(chǎn)生重要影響,具體取值將在實(shí)驗(yàn)與結(jié)果分析部分進(jìn)行論證。
由于下?lián)舯┝鞯陌l(fā)生具有一定的季節(jié)特征,而基于大量歷史氣象資料的數(shù)據(jù)集是按時(shí)間先后順序組織的。為提升模型泛化性能,并在相近訓(xùn)練時(shí)間找到更優(yōu)的網(wǎng)絡(luò)參數(shù),提出采用折交叉驗(yàn)證的方法進(jìn)一步優(yōu)化上述網(wǎng)絡(luò)模型。所謂折,即是將原有數(shù)據(jù)集拆分成份,其中-1份作為訓(xùn)練集,剩下的一份作為驗(yàn)證集。具體步驟為:
1)如圖6所示,將原有數(shù)據(jù)集隨機(jī)地拆分為份;
圖6 K折交叉驗(yàn)證示例
2)挑選任意一份作為驗(yàn)證集,剩余均作為訓(xùn)練集,用于模型的訓(xùn)練。通過(guò)該訓(xùn)練集訓(xùn)練后得到一個(gè)帶有網(wǎng)絡(luò)參數(shù)的模型,用此模型在驗(yàn)證集上進(jìn)行測(cè)試,并保存模型的評(píng)價(jià)指標(biāo)E;
3)重復(fù)第2步次,以確保所有子集都有且僅有一次機(jī)會(huì)作為驗(yàn)證集;
4)將各組評(píng)價(jià)指標(biāo)的均值作為模型精度的估計(jì),并將其作為當(dāng)前折交叉驗(yàn)證下網(wǎng)絡(luò)模型的綜合評(píng)價(jià)指標(biāo):
通常對(duì)于原數(shù)據(jù)集的拆分采取的是均分方式,為了更好地均衡下?lián)舯┝鲗?shí)際發(fā)生在數(shù)據(jù)集中的分布,可以采取進(jìn)一步的策略使每組內(nèi)的有無(wú)發(fā)生下?lián)舯┝鞯恼急扰c總體數(shù)據(jù)集中占比近似一致。該方法的優(yōu)勢(shì)在于,可從有限的數(shù)據(jù)集中獲得盡可能多的有效信息,避免陷入局部的極值,同時(shí)尋求最優(yōu)參數(shù),進(jìn)而提升模型識(shí)別的準(zhǔn)確率和穩(wěn)定性。
為了檢驗(yàn)上述方法識(shí)別下?lián)舯┝鞯男Ч緦?shí)驗(yàn)準(zhǔn)備了2018年全年南京地區(qū)雷達(dá)和江蘇、安徽兩省的地面氣象站資料作為數(shù)據(jù)集。該雷達(dá)體掃周期為6 min,收集到有效探測(cè)數(shù)據(jù)共58173個(gè)。地面氣象站資料剔除了超出雷達(dá)圖像覆蓋范圍的站點(diǎn),站點(diǎn)記錄的氣象要素包括溫度、濕度、風(fēng)向和風(fēng)速等,觀測(cè)記錄的頻率主要為60 s/次。采用第2.2節(jié)所述方法對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,得到25137組由雷達(dá)探測(cè)資料(回波時(shí)序圖像和徑向速度場(chǎng)時(shí)序圖像)和下?lián)舯┝靼l(fā)生與否的標(biāo)簽構(gòu)成的“數(shù)據(jù)對(duì)”。
首先,定義如表1所示的4類事件。
表1 事件定義
然后,采用擊中率(POD)、誤識(shí)率(FAR)兩個(gè)量化指標(biāo)來(lái)評(píng)價(jià)下?lián)舯┝髯R(shí)別的效果。其中,POD表示采用本文所述算法識(shí)別到下?lián)舯┝?,并且?shí)際發(fā)生下?lián)舯┝鞯臄?shù)量占實(shí)際發(fā)生下?lián)舯┝骺倲?shù)的比例;FAR表示采用本文所述算法識(shí)別到下?lián)舯┝?,但?shí)際未發(fā)生下?lián)舯┝鞯臄?shù)量占本算法識(shí)別為下?lián)舯┝骺倲?shù)的比例。計(jì)算方法如下:
首先,采用第2.4節(jié)所述方法將數(shù)據(jù)集擴(kuò)充到66898組“數(shù)據(jù)對(duì)”,增加客觀存在下?lián)舯┝魈鞖獾挠美跀?shù)據(jù)集中的比重。
然后,按照第2.5節(jié)所述方法,定義3個(gè)懲罰項(xiàng)參數(shù)={1,1.5,2},分別用于數(shù)據(jù)檢驗(yàn)。
再按照第2.6節(jié)所述方法,采用10折(=10)交叉驗(yàn)證,將數(shù)據(jù)集拆分為10份依次進(jìn)行模型的迭代訓(xùn)練。
最后,采用第2.3節(jié)所述網(wǎng)絡(luò)模型,將數(shù)據(jù)集應(yīng)用于該模型進(jìn)行訓(xùn)練和檢驗(yàn)。為了檢驗(yàn)數(shù)據(jù)增強(qiáng)優(yōu)化和損失函數(shù)優(yōu)化的效果,實(shí)驗(yàn)實(shí)施和結(jié)果分析時(shí),也列出了不做相關(guān)優(yōu)化的統(tǒng)計(jì)數(shù)據(jù)。
首先統(tǒng)計(jì)不做任何優(yōu)化的深度神經(jīng)網(wǎng)絡(luò)模型識(shí)別下?lián)舯┝鞯男Ч?。直接將最初?5137組“數(shù)據(jù)對(duì)”拆分成9∶1份,其中9份用于模型的訓(xùn)練,剩下1份用于檢驗(yàn)。分別進(jìn)行了6次相互獨(dú)立的訓(xùn)練和檢驗(yàn),統(tǒng)計(jì)出4種事件和POD、FAR的值,如表2所示。
表2 未做優(yōu)化的檢驗(yàn)結(jié)果
從表2的6次檢驗(yàn)結(jié)果可以看出:未做優(yōu)化的下?lián)舯┝髯R(shí)別模型識(shí)別擊中率接近或超過(guò)80%,最高成績(jī)?yōu)?5.1%;但誤識(shí)率普遍超過(guò)60%,最大達(dá)68.8%。每次檢驗(yàn)得到的POD和FAR指標(biāo)懸殊較大,距平分別達(dá)到7.5%和8.9%。這可能是因?yàn)橄聯(lián)舯┝鞯陌l(fā)生存在一定的季節(jié)性,而檢驗(yàn)數(shù)據(jù)集是從25137組“數(shù)據(jù)對(duì)”中隨機(jī)抽取,從而增加了檢驗(yàn)結(jié)果的波動(dòng)性。
將上述6次檢驗(yàn)得到的評(píng)價(jià)指標(biāo)的平均值,即POD=85.5%和FAR=63.7%作為基準(zhǔn),用于評(píng)估各項(xiàng)優(yōu)化產(chǎn)生的效果。圖7給出了幾個(gè)優(yōu)化方法及組合優(yōu)化方法檢驗(yàn)結(jié)果的統(tǒng)計(jì)數(shù)據(jù)。
圖7 模型優(yōu)化效果統(tǒng)計(jì)
從圖7可以看出:第1項(xiàng)優(yōu)化“數(shù)據(jù)增強(qiáng)&=1”相當(dāng)于僅采取了數(shù)據(jù)增強(qiáng)優(yōu)化,該優(yōu)化使得FAR指標(biāo)顯著下降了8.3%,但對(duì)于POD的提升僅有1.7%;而隨著懲罰項(xiàng)取值的提高,POD提升并不明顯,但FAR不降反增。這說(shuō)明賦予“實(shí)際存在下?lián)舯┝鞯P妥R(shí)別為不存在下?lián)舯┝鳌边@種情況較大的懲罰值,能夠小幅度提高模型對(duì)下?lián)舯┝髯R(shí)別的成功率,但造成的弊端是誤識(shí)率顯著上升。后3項(xiàng)優(yōu)化是在前3項(xiàng)的基礎(chǔ)上增加了折交叉檢驗(yàn),可看出,采用“數(shù)據(jù)增強(qiáng)&=2&折交叉”組合優(yōu)化方案的POD最高,識(shí)別成功率達(dá)到95.7%,但存在同樣的問(wèn)題,該方案的FAR比不做任何優(yōu)化還高出1.9%。相較而言,第4項(xiàng)“數(shù)據(jù)增強(qiáng)&=1&折交叉”是相對(duì)最佳的優(yōu)化方案,既保證了識(shí)別的擊中率又將誤識(shí)率控制在相對(duì)低的水平。此外,實(shí)驗(yàn)過(guò)程中還發(fā)現(xiàn),設(shè)置較大的值,在模型訓(xùn)練的初期,誤差收斂的速度相對(duì)更快,而到了模型訓(xùn)練的后期,這一速度優(yōu)勢(shì)并不能帶來(lái)識(shí)別準(zhǔn)確率的顯著提高。
由于整個(gè)數(shù)據(jù)集中發(fā)生下?lián)舯┝魈鞖獾恼急群苄?,而下?lián)舯┝靼l(fā)生時(shí)其在雷達(dá)圖像上的特征復(fù)雜多樣,使得上述優(yōu)化技術(shù)在努力提升識(shí)別成功率的前提下,放大了誤識(shí)的概率。造成FAR指標(biāo)居高不下的另一個(gè)重要原因是,在構(gòu)建數(shù)據(jù)集時(shí),對(duì)于“是否發(fā)生下?lián)舯┝鞯臉?biāo)簽”的定義,主要是依靠地面氣象站觀測(cè)到的風(fēng)速,采用第2.2節(jié)所述的預(yù)處理方法進(jìn)行判定。由于加密自動(dòng)氣象站的數(shù)量多,部分風(fēng)速記錄存在較大的誤差甚至錯(cuò)誤值,使得本為正常的天氣被錯(cuò)誤地標(biāo)記為“存在下?lián)舯┝魈鞖狻保@樣的“數(shù)據(jù)對(duì)”輸入深度網(wǎng)絡(luò)模型后,增加了對(duì)下?lián)舯┝髡`識(shí)別的概率。
本文提出一種基于深度學(xué)習(xí)技術(shù)的下?lián)舯┝髦悄茏R(shí)別方法,將雷達(dá)回波時(shí)序圖像和徑向速度場(chǎng)時(shí)序圖像的四維時(shí)空特征融合到深度神經(jīng)網(wǎng)絡(luò)模型中進(jìn)行訓(xùn)練。該方法能夠?qū)⒁酝拘枰蓺庀髮I(yè)人員主觀分析、判讀雷達(dá)圖像的工作自動(dòng)化、客觀化,提高了對(duì)下?lián)舯┝魈鞖庾R(shí)別、預(yù)警相關(guān)業(yè)務(wù)的準(zhǔn)確性和時(shí)效性。
由于大風(fēng)的成因,不僅是下?lián)舯┝?,還可能受到臺(tái)風(fēng)的影響,而單純由下?lián)舯┝饕l(fā)的大風(fēng)又很難逐一界定,因此,本文對(duì)于下?lián)舯┝髯R(shí)別效果的檢驗(yàn)主要是通過(guò)對(duì)擊中率POD和誤識(shí)率FAR的對(duì)比分析得到。
下?lián)舯┝鞑⒉皇墙?jīng)常發(fā)生,然而一旦遭遇,所造成的危害是巨大的。本文方法不僅適用于下?lián)舯┝鞯淖R(shí)別,也適用于小尺度天氣系統(tǒng)中對(duì)能量相對(duì)較小且下沉氣流輻散所形成的大風(fēng)的識(shí)別。