修媛媛,韓 雷,馮海磊
(中國海洋大學(xué) 信息科學(xué)與工程學(xué)院,山東 青島 266100)
基于機(jī)器學(xué)習(xí)方法的強(qiáng)對流天氣識別研究
修媛媛,韓 雷,馮海磊
(中國海洋大學(xué) 信息科學(xué)與工程學(xué)院,山東 青島266100)
用機(jī)器學(xué)習(xí)中有監(jiān)督學(xué)習(xí)模型支持向量機(jī)SVM來進(jìn)行強(qiáng)對流天氣的識別和預(yù)報(bào)。強(qiáng)對流天氣的發(fā)生可以看作是小概率事件,因此強(qiáng)對流天氣的預(yù)警問題可以作為不平衡數(shù)據(jù)分類問題來處理。在SVM的應(yīng)用上結(jié)合判別準(zhǔn)則來對不平衡數(shù)據(jù)進(jìn)行處理,更好的對強(qiáng)對流天氣進(jìn)行預(yù)警。本文從數(shù)據(jù)的獲取、訓(xùn)練算法的選擇、算法的應(yīng)用、實(shí)驗(yàn)結(jié)果的評估幾個(gè)方面進(jìn)行了詳細(xì)的描述。通過采用丹佛地區(qū)的數(shù)據(jù)進(jìn)行大量試驗(yàn),排除了不平衡數(shù)據(jù)對分類的干擾,提高了強(qiáng)對流天氣識別的準(zhǔn)確度。
強(qiáng)對流天氣預(yù)警;SVM;不平衡數(shù)據(jù)分類;機(jī)器學(xué)習(xí)
強(qiáng)對流天氣[1]是常見的一種氣象災(zāi)害,具有生命史短暫、發(fā)展移動速度快的特點(diǎn),往往會給人民的工作生活帶來不便,對農(nóng)業(yè)生產(chǎn)、國家財(cái)產(chǎn)等造成威脅。多普勒雷達(dá)資料以其較高的時(shí)空分辨率在臨近預(yù)報(bào)及天氣預(yù)警方面具有獨(dú)特的優(yōu)勢,氣象業(yè)務(wù)上強(qiáng)對流天氣預(yù)警主要依賴于雷達(dá)的實(shí)時(shí)監(jiān)測[2]。NCAR(National Center for Atmospheric Research國家大氣研究中心)研究出的多普勒雷達(dá)四維變分分析系統(tǒng)[3](The four-dimensional Variational Doppler Radar Analysis System,VDRAS)能夠給出反映低層大氣熱動力特征的實(shí)時(shí)分析場,是強(qiáng)對流行天氣臨近預(yù)報(bào)的有力工具。
目前的氣象臨近預(yù)報(bào)方法[4]主要有概念模型預(yù)報(bào)[5]、數(shù)值模式預(yù)報(bào)[6]、外推法預(yù)報(bào)[7]等。概念模型預(yù)報(bào)技術(shù)主要是通過綜合分析多種觀測資料,包括常規(guī)探測資料和遙感資料等在此基礎(chǔ)上建立雷暴發(fā)生、發(fā)展、消亡的概念模型,再結(jié)合數(shù)值模式預(yù)報(bào)和其他外推方法的結(jié)果,最終建立對流性天氣的臨近預(yù)報(bào)專家系統(tǒng),如NCAR的ANC(Auto Nowcaster)預(yù)報(bào)系統(tǒng)[8]。精細(xì)化的數(shù)值天氣預(yù)報(bào)技術(shù)是未來強(qiáng)對流天氣短時(shí)臨近預(yù)報(bào)的重要發(fā)展方向[9]。利用多普勒雷達(dá)資料和其他常規(guī)觀測資料進(jìn)行數(shù)值模式初始化進(jìn)而預(yù)報(bào)中尺度對流系統(tǒng)的發(fā)生、發(fā)展和消亡已經(jīng)取得了重要進(jìn)展。
文中使用VDRAS模式實(shí)時(shí)反演的低層大氣分析場數(shù)據(jù),結(jié)合機(jī)器學(xué)習(xí)中的基于統(tǒng)計(jì)學(xué)習(xí)理論的支持向量機(jī)方法[10],針對強(qiáng)對流天氣進(jìn)行臨近預(yù)報(bào)。首先用VDRAS系統(tǒng)反演得到對流天氣的數(shù)值模式數(shù)據(jù)和雷達(dá)組合反射率,然后用SVM對不平衡數(shù)據(jù)[11]進(jìn)行預(yù)報(bào),最后通過評分準(zhǔn)則來解決不平衡數(shù)據(jù)造成的預(yù)測結(jié)果不均衡。
文中使用美國國家大氣研究中心(NCAR)的VDRAS模式輸出的高時(shí)空分辨率的實(shí)時(shí)分析場數(shù)據(jù),構(gòu)建基于box的特征,以美國NEXRAD[12]多普勒雷達(dá)數(shù)據(jù)作為驗(yàn)證的真值,然后利用SVM算法進(jìn)行訓(xùn)練和預(yù)測。
1.1數(shù)據(jù)的選擇
VDRAS系統(tǒng)反演得到的物理量有46個(gè),根據(jù)其物理意義和多次實(shí)驗(yàn)選出能有效強(qiáng)對流預(yù)警的特征(預(yù)報(bào)因子)。文中所用的預(yù)報(bào)因子有6個(gè),分別為:rh(relative humidity相對濕度),w(wind垂直風(fēng)速度),div(divergence輻合抬升),byc (bouyance距平溫度),sh(shear風(fēng)切變),gsh(gshear梯度風(fēng)切變)。
本論文中所用的VDRAS系統(tǒng)、數(shù)據(jù)資料均來自NCAR,研究區(qū)域?yàn)槊绹し鸬貐^(qū)。由于風(fēng)暴是運(yùn)動的,所以沒有采用點(diǎn)對點(diǎn)的預(yù)報(bào),而是采取劃分子塊的方式,以6km*6km大小的方塊為單位(1個(gè)box,即一個(gè)box中的所有特征為一個(gè)樣本),選取方塊中的最大值作為該子塊的值寫入數(shù)據(jù)。采取這種方式的原因有兩個(gè),一是如果采取點(diǎn)對點(diǎn)的方式進(jìn)行數(shù)據(jù)讀取,會造成數(shù)據(jù)資料過多,會產(chǎn)生許多冗余信息,最終會導(dǎo)致計(jì)算量過大,速度過慢;二是因?yàn)榭紤]到實(shí)際的強(qiáng)對流天氣并不會僅僅只是發(fā)生在某一個(gè)點(diǎn)上。因此,采用劃分子塊的方式選是可行的。
1.2數(shù)據(jù)的預(yù)處理
將上述6個(gè)預(yù)報(bào)因子作為樣本的屬性特征,并利用30 min后的雷達(dá)組合反射率(radar composite)作為樣本的標(biāo)簽。設(shè)定標(biāo)簽(label)的基本思想為:將雷達(dá)組合反射率的值大于等于35 dbz的樣本記為正類(label值為+1),小于35 dbz的樣本記為負(fù)類(label值為-1)。
樣本數(shù)據(jù)的預(yù)處理(不包括radar composite)主要分為兩步:差分和歸一化[13]。
差分:在天氣的變化過程中,相鄰時(shí)刻的數(shù)據(jù)在物理意義上是有關(guān)聯(lián)的。隨著時(shí)間的推移,數(shù)據(jù)的變化反映了天氣的變化。而相鄰時(shí)刻數(shù)據(jù)的差值能反映出天氣的變化趨勢,知道變化趨勢能更好的對CI預(yù)報(bào),因此本文用向后差分來記錄下時(shí)間增量信息。具體差分公式如下:
歸一化:由于本實(shí)驗(yàn)樣本數(shù)較多,且數(shù)據(jù)分布較為發(fā)散。通過歸一化讓權(quán)重變?yōu)榻y(tǒng)一,且歸一化后可以加快梯度下降求最優(yōu)解的速度,也有可能提高精度。目前,主流的歸一化方法有兩種。通過實(shí)驗(yàn),發(fā)現(xiàn)線性函數(shù)歸一化能使預(yù)報(bào)更加準(zhǔn)確。因此本文使用的是線性函數(shù)歸一化。具體公式如下:
1.3算法的設(shè)計(jì)
1.3.1算法的設(shè)計(jì)
不平衡數(shù)據(jù)問題,即在分類問題中正負(fù)樣本的比例相差很大。在強(qiáng)對流天氣預(yù)警問題中,強(qiáng)對流天氣是屬于個(gè)別天氣,是少數(shù)類。因此,可以作為不平衡數(shù)據(jù)分類問題來處理。目前不平衡數(shù)據(jù)分類的相關(guān)解決方法主要從數(shù)據(jù)層面(改變數(shù)據(jù)的分類)、算法層面(設(shè)計(jì)新的分類方法)和判別準(zhǔn)則(設(shè)計(jì)新的分類器性能評價(jià)準(zhǔn)則)3個(gè)不同層面進(jìn)行研究。
分類問題中,基于統(tǒng)計(jì)學(xué)習(xí)理論的支持向量機(jī)(Support Vector Machine,SVM)方法逐漸成為機(jī)器學(xué)習(xí)的重要研究方向。與傳統(tǒng)的基于經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化原則的學(xué)習(xí)方法不同,支持向量機(jī)基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化,能在訓(xùn)練誤差和分類器容量之間達(dá)到一個(gè)較好的平衡,它具有全局最優(yōu)、適應(yīng)性強(qiáng)、推廣能力強(qiáng)等優(yōu)點(diǎn)。文中選用機(jī)器學(xué)習(xí)中常用的SVM算法作為分類器。
強(qiáng)對流天氣的發(fā)生可以看作是小概率事件,因此強(qiáng)對流天氣預(yù)警問題可以作為不平衡分類問題來處理。而現(xiàn)在機(jī)器學(xué)習(xí)大部分的學(xué)習(xí)算法是基于一個(gè)平衡的訓(xùn)練集而設(shè)計(jì)的(包括SVM)。為了解決此類問題,文中將SVM和不平衡數(shù)據(jù)分類方法中的判別準(zhǔn)則結(jié)合,用來對強(qiáng)對流天氣預(yù)警。
1.3.2評估方法
評價(jià)一個(gè)分類器的性能的好壞的一個(gè)關(guān)鍵因素是評分標(biāo)準(zhǔn),評分標(biāo)準(zhǔn)將指導(dǎo)分類器模型的建立。在兩分類問題中,混淆矩陣(見表1)中記錄的是每一個(gè)類的正確和錯誤識別的結(jié)果。
表1 二分類問題下的混淆矩陣
由于在氣象預(yù)報(bào)領(lǐng)域和機(jī)器學(xué)習(xí)領(lǐng)域中各自存在不同的評分標(biāo)準(zhǔn),本論文通過結(jié)合兩類評分標(biāo)準(zhǔn)以及不平衡數(shù)據(jù)分類的特點(diǎn)挑選出了合理的評分標(biāo)準(zhǔn)[14],做如下定義:
1.4算法的實(shí)現(xiàn)
文中通過用SVM分類器進(jìn)行分類,然后對預(yù)測樣本輸出概率置信度,將其重新調(diào)整,從而獲得最優(yōu)的分類結(jié)果。具體步驟如下:
1)從VDRAS中獲取實(shí)驗(yàn)所需的數(shù)據(jù);
2)對數(shù)據(jù)進(jìn)行預(yù)處理;
本文中的預(yù)處理包括對原始數(shù)據(jù)進(jìn)行差分和歸一化,并將所有的樣本數(shù)據(jù)分為訓(xùn)練集和測試集兩部分。
3)用SVM對訓(xùn)練集進(jìn)行訓(xùn)練,得到模型;
4)用3)所得的模型,對測試集進(jìn)行預(yù)測,獲得每個(gè)樣本的置信度;
置信度(confidence)是一個(gè)概率值,下面的步驟會根據(jù)置信度將樣本預(yù)測為正類或者預(yù)測為負(fù)類。將此樣本劃分為正類的概率值稱為正例置信度。
5)通過調(diào)整閾值解決本實(shí)驗(yàn)中所用的數(shù)據(jù)不均衡的問題。
文中的閾值亦為臨界值。由于SVM主要是應(yīng)用于平衡數(shù)據(jù)集的分類,其默認(rèn)的概率閾值為0.5,即當(dāng)預(yù)測概率結(jié)果中正例置信度大于等于0.5的時(shí)候,分類為正樣本,小于0.5的時(shí)候分類為負(fù)樣本。由于本實(shí)驗(yàn)的數(shù)據(jù)為非平衡數(shù)據(jù),因此進(jìn)行分類時(shí),為獲得最優(yōu)的分類結(jié)果,對概率閾值進(jìn)行了調(diào)整,分別采用不同的閾值進(jìn)行分類,并計(jì)算相應(yīng)的評價(jià)指標(biāo),最后選取最優(yōu)的評價(jià)指標(biāo)。
文中主要應(yīng)用的評價(jià)指標(biāo)為POD、FAR、CSI。不同的閾值下評價(jià)指標(biāo)結(jié)果不同,考慮到CI預(yù)警具有的實(shí)際意義,POD達(dá)到0.6的時(shí)候才具有實(shí)際應(yīng)用價(jià)值,所以在選取評價(jià)指標(biāo)結(jié)果的時(shí)候按照以下標(biāo)準(zhǔn)進(jìn)行:因CSI指標(biāo)綜合考慮召回率(POD)和虛警率(FAR),故首先觀察該指標(biāo),即不同置信度下,若CSI的指達(dá)到最大且POD的值大于等于0.6,則選擇該置信度下的評級指標(biāo)結(jié)果;若CSI達(dá)到最大時(shí)POD的值小于0.6,則重新觀察不同置信度下POD的值,選擇POD達(dá)到0.6時(shí),對應(yīng)的置信度下的評價(jià)指標(biāo)結(jié)果。
6)用feature selection分析預(yù)報(bào)因子的重要性
前面經(jīng)過分析選取了6個(gè)預(yù)報(bào)因子,這6個(gè)預(yù)報(bào)因子連同其差分(12個(gè)特征)又進(jìn)行了特征選擇實(shí)驗(yàn),主要用來獲取最重要的特征。具體實(shí)驗(yàn)描述如下:依次去掉每個(gè)特征值和其對應(yīng)的差分,用剩下的10個(gè)特征值進(jìn)行訓(xùn)練和預(yù)測,然后觀察每次的結(jié)果表現(xiàn)。實(shí)驗(yàn)結(jié)果如圖1所示。
圖1 feature-selection實(shí)驗(yàn)結(jié)果
圖1表明,當(dāng)去掉byc及其差分dbyc的時(shí)候,CSI、P(這里的P為精確度,值的大小為1-FAR)和POD值都下降很多,由此可得出結(jié)論byc在整個(gè)預(yù)報(bào)過程中起重要作用。則,預(yù)報(bào)因子的貢獻(xiàn)率由高到低依次為:byc、w、gsh、div、sh、rh。
針對feature selection結(jié)果和在實(shí)際中特征值的物理意義,最終選取如下特征組合進(jìn)行實(shí)驗(yàn):1)byc+dbyc 2)w+dw+ byc+dbyc 3)所有12個(gè)特征值。
2.1實(shí)驗(yàn)結(jié)果
下面是所做各種組合的實(shí)驗(yàn)結(jié)果:(注:文中所用的POD 和CSI值是越大越好,而FAR越小越好 )
表2 SVM各種特征組合實(shí)驗(yàn)結(jié)果表
由表2的實(shí)驗(yàn)1、2、3結(jié)果可以看出在1個(gè)box試驗(yàn)中byc+dbyc組合的實(shí)驗(yàn)結(jié)果是最好的,它的CSI值為0.3404,而w+dw+byc+dbyc組合的CSI值為0.2916,12個(gè)特征的效果更差CSI為0.1758。
下面的結(jié)果顯示就是將實(shí)驗(yàn)效果最好的組合 (實(shí)驗(yàn)1:1box byc+dbyc組合和實(shí)驗(yàn)2:9box w+dw+byc+dbyc組合)用CIDD[15]顯示出來,可以進(jìn)一步觀察分類器的好壞。
2.2分析
論文主要是利用30 min后雷達(dá)組合反射率來標(biāo)記標(biāo)簽,對30 min后的天氣進(jìn)行CI預(yù)報(bào)。本文實(shí)驗(yàn)所用的是2012年前的5個(gè)案例做訓(xùn)練集,2012年的2個(gè)案例做測試集,具體的預(yù)測結(jié)果可通過氣象中的VDRAS系統(tǒng)中的CIDD以圖像的方式顯示出來。下面對所用的結(jié)果預(yù)報(bào)圖和結(jié)果顯示圖進(jìn)行分別說明:
1)結(jié)果預(yù)報(bào)圖:即,所用的背景雷達(dá)圖像是當(dāng)前時(shí)刻的雷達(dá)圖像,而所用的預(yù)報(bào)結(jié)果是30 min之后的。圖中的白框表示當(dāng)前時(shí)刻此處有強(qiáng)對流天氣的現(xiàn)象;黑框表示當(dāng)前時(shí)刻存在強(qiáng)對流天氣,30 min后也存在強(qiáng)對流天氣;灰框表示的是本算法所預(yù)測出30 min后會出現(xiàn)強(qiáng)對流天氣,能很好的描述出強(qiáng)對流天氣的運(yùn)動趨勢和發(fā)展方向。
2)結(jié)果顯示圖:即,所用的雷達(dá)圖像是30 min之后的,預(yù)報(bào)結(jié)果也是30 min之后的。圖像中的3種不同的框與結(jié)果預(yù)報(bào)圖中的表示有所不同:白色表示漏報(bào),黑色表示預(yù)報(bào)正確,灰色表示的是誤報(bào)。此圖用來說明預(yù)報(bào)的是否準(zhǔn)確。
結(jié)果分析:本實(shí)驗(yàn)中用1個(gè)box byc+dbyc組合的樣本來訓(xùn)練。在此實(shí)驗(yàn)中,選取最優(yōu)的閾值為0.074 56,評分結(jié)果如下:
POD為0.600 7;FAR為0.560 0;CSI為0.340 4;
1)圖2為2012年6月6日20時(shí)55分的預(yù)測結(jié)果的CIDD顯示圖(當(dāng)前時(shí)刻為20時(shí)55分,預(yù)報(bào)為30分鐘之后的),圖(a)是結(jié)果預(yù)報(bào)圖,圖(b)是結(jié)果顯示圖。
由圖(a)看灰色框可以看出該天氣的運(yùn)動趨勢,向圖所示的右上方發(fā)展。而在圖(b)的整個(gè)顯示區(qū)域中,黑框很好的展現(xiàn)出了預(yù)報(bào)結(jié)果,還是挺準(zhǔn)確的。
2)圖3為2012年6月6日22時(shí)10分的預(yù)測結(jié)果的CIDD顯示圖,圖(a)是結(jié)果預(yù)報(bào)圖,圖(b)是結(jié)果顯示圖。
圖(a)中可以看出,此強(qiáng)對流天氣處于產(chǎn)生、發(fā)展、消亡中的發(fā)展階段。從整個(gè)3-2來看,研究區(qū)域中給出的預(yù)報(bào)結(jié)果基本上都覆蓋了出現(xiàn)強(qiáng)對流天氣的地方,雖然會出現(xiàn)少量誤報(bào),但是整個(gè)區(qū)域的基本形狀還原程度還是比較高的。給出的預(yù)報(bào)結(jié)果與實(shí)際情況非常吻合。
3)圖4為2012年7月7日21時(shí)10分的預(yù)測結(jié)果的CIDD顯示圖,本圖為結(jié)果顯示圖。
這個(gè)是預(yù)測失敗的個(gè)例,由圖可以看出,本次的預(yù)測結(jié)果有些偏離強(qiáng)對流天氣發(fā)生的位置。圖的右下角區(qū)域還是可以預(yù)報(bào)出整個(gè)強(qiáng)對流天氣的大體位置,但周圍會出現(xiàn)一些的漏報(bào)和誤報(bào);在圖的左上角區(qū)域不是漏報(bào)就是誤報(bào),而左下角更是出現(xiàn)大片的誤報(bào)。出現(xiàn)這種預(yù)報(bào)結(jié)果,說明本文提出的預(yù)警算法還是有待于進(jìn)一步完善。
圖2 2012年6月6日20時(shí)55分結(jié)果圖
圖3 2012年6月6日22時(shí)10分結(jié)果圖
圖4 2012年7月7日結(jié)果顯示圖3
文中主要用VDRAS的數(shù)值模式數(shù)據(jù),結(jié)合機(jī)器學(xué)習(xí)中的SVM,針對強(qiáng)對流天氣進(jìn)行臨近預(yù)報(bào)。首先用VDRAS系統(tǒng)反演得到實(shí)驗(yàn)所需的數(shù)據(jù)并將數(shù)據(jù)做預(yù)處理;然后用SVM對不平衡數(shù)據(jù)進(jìn)行訓(xùn)練和預(yù)報(bào);最后通過調(diào)整閾值(即修改評分準(zhǔn)則)來解決不平衡數(shù)據(jù)造成的預(yù)測結(jié)果不均衡。為了直觀的觀察實(shí)驗(yàn)結(jié)果的好壞,本文通過CIDD將預(yù)報(bào)結(jié)果直觀的展示出來。分析實(shí)驗(yàn)結(jié)果,發(fā)現(xiàn)本文提供的算法在一定程度上提高了識別的精度,降低了虛假警報(bào)發(fā)生的概率。表明,該方法能很好地實(shí)現(xiàn)強(qiáng)對流天氣的臨近預(yù)報(bào),但是本算法還有些缺陷需要改進(jìn),這也將是我們下一步的工作目標(biāo)。例如:只能人工選取預(yù)報(bào)因子,這就增加了實(shí)驗(yàn)的不確定性;劃分子塊上,文中用每個(gè)子塊區(qū)域中6*6格子中的最大值作為該子塊的值,雖然有效減少了計(jì)算量,但是也丟棄了一部分信息,因此應(yīng)該由更加完善的做法在減少計(jì)算量的同時(shí)也保留信息。
[1]韓雷,俞小鼎,鄭永光,等.京津及鄰近地區(qū)暖季強(qiáng)對流風(fēng)暴的氣候分布特征[J].科學(xué)通報(bào),2009,54(11):1585-1590.
[2]趙暢.多普勒雷達(dá)及多源資料在局地短臨預(yù)報(bào)中的應(yīng)用[D].南京:南京信息工程大學(xué),2014.
[3]Sun J,Crook N A.Dynamical and microphysical retrieval from Doppler radar observations using a cloud model and its adjoint[J].Model development and simulated data experiments. J.Atmos.Sci.,1997(54):1642-1661.
[4]程叢蘭,陳明軒,王建捷,等.基于雷達(dá)外推臨近預(yù)報(bào)和中尺度數(shù)值預(yù)報(bào)融合技術(shù)的短時(shí)定量降水預(yù)報(bào)試驗(yàn) [J].氣象學(xué)報(bào),2013,71(3):397-415.
[5]劉國忠,黃開剛,羅建英,等.基于概念模型及配料法的持續(xù)性暴雨短期預(yù)報(bào)技術(shù)探究[J].氣象,2013,39(1):20~27.
[6]王啟光,丑紀(jì)范,封國林.數(shù)值模式延伸期可預(yù)報(bào)分量提取及預(yù)報(bào)技術(shù)研究[J].中國科學(xué),2014,44(2):343-354.
[7]陳雷,戴建華,徐強(qiáng)君.基于雷達(dá)回波外推技術(shù)的閃電臨近預(yù)報(bào)方法研究[C]//第九屆長三角氣象科技論壇論文集,2012.
[8]Wilson JW,Crook N A,Muller C K,et al.Nowcasting thunderstorms:a status report[J].Bull Amer Meteor Soc,1998,79 (10):2079-2099.
[9]鄭永光,張小玲,周慶亮,等.強(qiáng)對流天氣短時(shí)臨近預(yù)報(bào)業(yè)務(wù)技術(shù)進(jìn)展與挑戰(zhàn)[J].氣象,2010,36(7):33-42.
[10]鄧乃揚(yáng),田英杰.數(shù)據(jù)挖掘中的新方法-支持向量機(jī)[M].北京:科學(xué)出版社,2004.
[11]葉志飛,文益民,呂寶糧.不平衡分類問題研究綜述[J].智能系統(tǒng)學(xué)報(bào),2009,4(2):148-156.
[12]Bieringer P,P S Ray.A Compari son of tornado warning lead timeswithandwithoutNEXRADDopplerRadar[J]. WeaForecasting,1996(11):47-52.
[13]XIAO Han-guang,CAI Cong-zhong.Comparison study of normalization of feature vector[J].Computer Engineering and Applications,2009,45(22):117-119.
[14]石璐.基于數(shù)值模式和雷達(dá)數(shù)據(jù)的對流初生預(yù)警技術(shù)研究[D].青島:中國海洋大學(xué),2015.
[15]陳明軒,俞小鼎,譚曉光,等.對流天氣臨近預(yù)報(bào)技術(shù)的發(fā)展與研究進(jìn)展[J].應(yīng)用氣象學(xué)報(bào),2004,15(6):754-766.
The identification of strong convective weather based on machine learning methods
XIU Yuan-yuan,HAN Lei,F(xiàn)ENG Hai-lei
(School of Information Science and Engineering,Ocean University of China,Qingdao 266100,China)
The present study was designed to use a supervised learning method-support vector machines SVM of machine learning to recognize and forecast the strong convective weather.The occurrence of strong convective weather can be seen as a small probability event,so this problems can be handled as imbalanced data classification.To make better forecast,on the application of SVM we proposed a new criterion for processing data on imbalances.This paper described the algorithm in several aspects:the data obtained,the training algorithm,the application of the algorithm,the assessment results.This paper used Denver area data,eliminated the interference of imbalanced data classification,and improved the accuracy of recognition of severe convective weather.
strong convective weather warning;SVM;unbalanced data classification;machine learning
TN957.52
A
1674-6236(2016)09-0004-04
2015-11-19稿件編號:201511181
國家自然科學(xué)基金(41005024)
修媛媛(1991—),女,山東聊城人,碩士研究生。研究方向:人工智能。