胡邦輝 劉善亮 席 巖 王學(xué)忠 游大鳴 張惠君
1)(解放軍理工大學(xué)氣象海洋學(xué)院,南京 211101)2)(中國人民解放軍61741部隊,北京 100081) 3)(南京軍區(qū)氣象水文中心,南京 210016)
?
一種Bayes降水概率預(yù)報的最優(yōu)子集算法
胡邦輝1)*劉善亮2)席 巖3)王學(xué)忠1)游大鳴1)張惠君3)
1)(解放軍理工大學(xué)氣象海洋學(xué)院,南京 211101)2)(中國人民解放軍61741部隊,北京 100081)3)(南京軍區(qū)氣象水文中心,南京 210016)
MOS預(yù)報最優(yōu)子集模型,通過消除數(shù)值模式系統(tǒng)性誤差,可最大程度地提高其預(yù)報技巧。為了建立Na?ve Bayes降水最優(yōu)模型,利用2008—2011年T511數(shù)值預(yù)報產(chǎn)品和單站觀測資料,對介休、運城、豐寧3個站Na?ve Bayes降水概率分級預(yù)報模型進行研究。通過設(shè)計恰當?shù)倪m應(yīng)度函數(shù),提出了一種用遺傳算法搜尋Na?ve Bayes模型最優(yōu)子集的計算方案,得到了3個站的最優(yōu)子集模型。結(jié)果表明:最優(yōu)子集的擬合效果明顯高于普通初始子集,能夠顯著提升數(shù)值模式在單站的預(yù)報技巧。最優(yōu)子集模型主要通過降低數(shù)值模式空報率提高單站晴雨、小雨預(yù)報效果,通過小幅提高正確次數(shù)和降低空報次數(shù)改善對中雨預(yù)報效果。
遺傳算法; 樸素貝葉斯分類器; 單站降水預(yù)報; 預(yù)報技巧
MOS原理下的不同預(yù)報模型,通過消除數(shù)值模式系統(tǒng)性誤差,可以一定程度提高其預(yù)報技巧[1-5]。Na?ve Bayes 分類器是一種近30年興起的分類技術(shù),其主要特點是概率化分類,與事件概率(全概率)不易考慮預(yù)報因子的影響不同,通過預(yù)報因子與條件概率之間的關(guān)系,可方便地計算出天氣事件的后驗概率,因而在歐美等氣象技術(shù)先進國家得到廣泛應(yīng)用[6-7]。我國的氣象工作者也相繼開展Na?ve Bayes 分類器的應(yīng)用研究,2001年Liu等[8]利用1984—1992年香港地區(qū)的氣象資料,采用Na?ve Bayes分類、決策樹分類和遺傳算法相結(jié)合的方法,對降雨進行預(yù)報,取得了較好的效果。2007年王開宇等[9]利用北京地區(qū)4個站和南方地區(qū)3個站的30年的歷史地面觀測資料,分別建立兩種Bayes分類器預(yù)報模型,并根據(jù)模型試報結(jié)果,分析了兩種分類器不同地區(qū)準確性和穩(wěn)定性差異。利用衛(wèi)星資料和數(shù)值預(yù)報產(chǎn)品,郭雅芬等[10]將貝葉斯分類法有效地運用于預(yù)測青藏高原上中尺度對流系統(tǒng)的移動路徑。蘇君毅等[11]在樸素貝葉斯分類的基礎(chǔ)上建立了一種增強型分類器系統(tǒng),在中尺度對流系統(tǒng)預(yù)測的同時,對其移動方向與周邊環(huán)境物理量場的分布特征進行分類研究,取得了較好效果。
最優(yōu)子集回歸(Optimal Subset Regression,OSR)[12]可以從預(yù)報因子所有可能的子集回歸中以某種準則確定出一個最優(yōu)回歸方程,在天氣預(yù)報和氣候預(yù)測中應(yīng)用廣泛。谷德軍等[13]利用多尺度最優(yōu)子集回歸方法預(yù)測南海夏季風(fēng)爆發(fā)的日期,最大誤差為8.5 d,取得了較好效果??伦诮ǖ萚12]利用OSR方法對中國區(qū)域的季節(jié)降水進行降尺度預(yù)報,比較其與多模式集合預(yù)報的技巧,表明對中國區(qū)域冬夏降水預(yù)報均有改進。李玲萍等[14]利用歐洲中心格點資料,用最優(yōu)子集回歸建立0~72 h高溫預(yù)報方程,2008年投入業(yè)務(wù)應(yīng)用,預(yù)報效果較好。
Nav?e Bayes分類器技術(shù)雖然先進,但其預(yù)報模型效果還與模型的預(yù)報因子有關(guān),要求使用相關(guān)性高、物理意義明確的預(yù)報因子,但這類因子有多種,以降水預(yù)報為例,有模式輸出降水量,各層的垂直速度、水汽、水汽通量、渦度平流等幾十個,而預(yù)報模型因子數(shù)目以4~7個為宜,否則不能夠充分反映降水信息或累積誤差過大。如何從這幾十個因子中選出4~7個因子,并使模型預(yù)報效果最好,成為建立Na?ve Bayes預(yù)報模型面臨的主要問題。但Na?ve Bayes分類器顯然不具備最優(yōu)子集回歸的算法體系,如果要逐一建模和比對,工作量過大。遺傳算法(Genetic Algorithm, GA)的出現(xiàn),使上述問題的解決成為可能。遺傳算法借鑒生物界自然選擇和基因遺傳學(xué)原理,通過生物繁衍時基因的選擇、交叉和變異與適應(yīng)度的關(guān)系,刻畫出生物群體、個體的進化過程,并形成了完整的理論和全局搜索算法體系[15]。本文嘗試用遺傳算法,搜尋Na?ve Bayes模型的最優(yōu)子集,以提高單站降水分級預(yù)報的效果。
1.1 資 料
數(shù)值預(yù)報產(chǎn)品:2008—2011年6—9月T511L60模式下發(fā)產(chǎn)品。產(chǎn)品包括溫度、降水量等40個物理量,1000,925,850,700,500,400,300,250,200 hPa共9個層次。選用范圍為15°~60°N,70°~140°E,水平分辨率為1°× 1°。起報時次為20:00(北京時,下同),預(yù)報間隔為6 h,預(yù)報時效為10 d。
單站降水量資料:介休、運城、豐寧3個站12 h降水量,時間同數(shù)值預(yù)報產(chǎn)品。
單站降水預(yù)報包括晴雨和降水量等級。其中,降水量等級根據(jù)12 h降水級別標準[16]劃分,具體為小雨(0.1~4.9 mm)、中雨(5.0~14.9 mm)、大雨(15.0~29.9 mm)、暴雨(不低于30 mm)。
1.2 預(yù)報因子
利用T511數(shù)值預(yù)報產(chǎn)品,分別計算單層或多層格點上的沙氏指數(shù)、對流有效位能等診斷量[17-18],再根據(jù)物理意義及與預(yù)報對象的相關(guān)性,從相對濕度、比濕、地面溫度、2 m溫度、溫度、溫度露點差、水汽通量、水汽通量散度、地面氣壓、海平面氣壓、風(fēng)向、垂直速度、渦度、散度、Q矢量渦度、Q矢量散度、螺旋度、位溫、假相當位溫、降水量、土壤濕度、總云量、24 h變溫、條件性穩(wěn)定度指數(shù)、濕理查森數(shù)、底層風(fēng)速、對流有效位能、對流抑制能量和沙氏指數(shù)30個物理量中,選取22個預(yù)報因子。
1.3 消空處理
暴雨是小概率天氣事件,在大部分樣本中不會發(fā)生。為了提高預(yù)報效率,有必要在建模和預(yù)報前,依據(jù)暴雨發(fā)生條件,對樣本集進行消空操作。消空條件為垂直速度小于0 m·s-1、比濕小于5 g·kg-1,消空處理的樣本分兩種情況:第1種針對建模樣本,若不滿足上述條件,則剔除該個例,否則保留;第2種針對試報樣本,若不滿足條件,則直接預(yù)報無暴雨發(fā)生,否則代入預(yù)報模型運算。
2.1 Na?ve Bayes原理簡介
降水分為4類,依次用類別變量(C1,C2,C3,C4)代表小雨、中雨、大雨、暴雨。這里以小雨為例,假定選出T511數(shù)值預(yù)報產(chǎn)品的相對濕度、比濕、地面溫度、2 m溫度、溫度和降水量6個預(yù)報因子(x1,x2,…,x6)和水汽通量、水汽通量散度、地面氣壓、海平面氣壓、風(fēng)向、垂直速度6個預(yù)報因子(y1,y2,…,y6)作為代入Na?ve Bayes分類器的2個預(yù)報因子組合,進行小雨預(yù)報。貝葉斯最大后驗準則通過比較兩組后驗概率(P(C1|x1,x2,…,x6),P(C1|y1,y2,…,y6))大小,決定哪組預(yù)報因子組合用來進行小雨預(yù)報,并將此組預(yù)報因子作為小雨預(yù)報的標簽[19]。以第1組為例,根據(jù)貝葉斯定理,后驗概率表示為
P(C1|x1,x2,…,x6)=P(x1,x2,…,x6|C1)·
P(C1)/P(x1,x2,…,x6)。
(1)
式(1)中,P(x1,x2,…,x6|C1)為預(yù)報因子組合(x1,x2,…,x6)在小雨中出現(xiàn)的條件概率,P(C1)為小雨的先驗概率,P(x1,x2,…,x6)為(x1,x2,…,x6)都出現(xiàn)的概率。
Na?ve Bayes假定預(yù)報因子之間相對于類別變量是條件獨立的,每個預(yù)報因子只與類別變量相關(guān)聯(lián),所以條件概率又可表示為
(2)
則后驗概率又可表示為
P(C1|x1,x2,…,x6)=
P(x1,x2,…,x6|C1)·P(C1)/
P(x1,x2,…,x6)=
(3)
其中,α=1/P(x1,x2,…,x6),是與小雨無關(guān)的參數(shù)。
2.2 遺傳算法
遺傳算法[20]模擬生物進化過程中的自然選擇和遺傳機制,形成一個具有生成和檢驗特征的搜索算法。它以種群為進化基礎(chǔ),以適應(yīng)度函數(shù)為評價依據(jù),通過種群中個體的遺傳操作實現(xiàn)選擇和遺傳機制,建立起一個迭代過程。使新一代的基因(位串)集合優(yōu)于老一代的基因集合,實現(xiàn)種群中個體的不斷進化。遺傳算法的基本流程如下:①根據(jù)問題確定基因位串,生成初始種群;②定義適應(yīng)度函數(shù),并計算所有個體的適應(yīng)度;③確定遺傳策略,運用選擇、交叉和變異算子作用于群體,形成下一代新群體;④判斷新群體性能是否滿足要求,若不滿足則返回步驟③,否則算法結(jié)束。
3.1 遺傳算法的初始化
3.1.1 確定基因位串和種群
為了從22個因子中搜尋4~6個因子組成Na?ve Bayes模型的最優(yōu)子集,采用二進制編碼構(gòu)建基因位串,入選模型的因子用“1”代表,否則用“0”代表,形成一個22位的二進制基因位串。每個基因位串代表1個個體,考慮到氣象問題的特殊性,確定1個個體構(gòu)成1個種群。同理,可以構(gòu)造其他種群。遺傳算法中,種群規(guī)模越大,個體越具有多樣性,陷入局部收斂的危險就越小[21-22],但計算量會顯著增加,而群體規(guī)模太小,搜索空間會受限制,故種群確定為30個。
3.1.2 定義適應(yīng)度函數(shù)
降水預(yù)報模型的擬合結(jié)果,需要適應(yīng)度函數(shù)進行評估。具體采用兩種適應(yīng)度函數(shù):F1=N1/(N1+N3),其中,N1為對象發(fā)生時預(yù)報正確的次數(shù),N3為對象發(fā)生時漏報的次數(shù);F2=ST,即與TS評分一致。兩種適應(yīng)度函數(shù)評估后得到的模型分別稱為GA-NB1和GA-NB2。
3.2 晴雨預(yù)報Na?ve Bayes概率分類過程及遺傳算法搜尋最優(yōu)子集
將2008—2010年的6—9月的資料定為建模樣本集,采用Na?ve Bayes方法,構(gòu)建單站13—24 h晴雨預(yù)報模型,并采用遺傳算法搜尋預(yù)報模型的最優(yōu)子集。
①計算先驗概率。將單站相應(yīng)時間的降水樣本分為無(g=1,1代表無降水)和有(g=2,2代表有降水)兩類,它們的先驗概率f1和f2分別為
(4)
式(4)中,n1,n2分別是無雨和有雨的樣本量。
②計算條件概率。分別將樣本集中22個預(yù)報因子(X=[x1,x2,x3,…,x21,x22]),采用下式進行標準化。
g=1,2。
(5)
式(5)中,μk,g,σk,g分別是第k個預(yù)報因子在g類樣本中平均值和均方差。
假定各預(yù)報因子服從正態(tài)分布,計算22個預(yù)報因子在降水有、無中的條件概率rk,1和rk,2。
(6)
③樣本分類。在建模樣本集中,隨機構(gòu)建30個個體基因位串,每個個體中為“1”的基因保持在4~6個,將這些個體基因位串,作為Na?ve Bayes分類器的預(yù)報因子,依據(jù)式(3)建立判別方程組:
(7)
將前面得到的f1,f2,rk,g分別代入到式(7)中,得到判別值q1和q2(即降水有無的后驗概率)。比較兩者的大小,進而判別此次樣本是否有降水發(fā)生。樣本集中全部樣本分類完畢,記為迭代1次。
④計算適應(yīng)度函數(shù)及用遺傳操作搜尋最優(yōu)子集。第1次分類結(jié)束后,根據(jù)分類結(jié)果,分別計算適應(yīng)度函數(shù)F1和F2。然后將隨機得到的30個個體根據(jù)遺傳算法進行擇優(yōu)運算,最終找到最優(yōu)個體,即晴雨預(yù)報最優(yōu)個體子集。遺傳操作中,首先,采用算法輪盤賭策略選擇父輩個體;然后,這些父輩個體兩兩配對,實現(xiàn)基因的交叉互換,得到子輩個體,交叉率為0.8;再將少部分子輩個體賦予全新的隨機基因,實現(xiàn)變異操作,變異率為0.01;最后,重新計算子輩個體適應(yīng)度,進入下一代遺傳操作,循環(huán)往復(fù),一直到適應(yīng)度函數(shù)收斂或最大迭代步數(shù)(取50)為止。
每一代的遺傳操作完成后,基因位串中會出現(xiàn)入選因子小于4或大于6的個體,這不符合入選因子為4~6個的要求。以基因位串中有7個因子的個體為例,需要剔除1個因子,采用以下步驟實施:依次剔除(將位串的1改為0)每一個因子,形成7個具有6個因子的基因位串個體;分別計算這7個個體的適應(yīng)度,選擇適應(yīng)度最大的個體取代原個體;對基因位串中會入選因子小于4的個體,也要進行類似替換。
⑤測試分類。根據(jù)得到最優(yōu)個體,選入構(gòu)建Na?ve Bayes分類器的預(yù)報因子,對測試集進行樣本分類,獲取晴雨預(yù)報結(jié)果,并記錄測試集中降水發(fā)生的樣本序號。
降水等級預(yù)報的Na?ve Bayes概率分類過程除⑤測試分類外,其他部分與晴雨預(yù)報分類過程類似。在測試分類中,小雨預(yù)報模型對降水發(fā)生的樣本進行預(yù)報,其他雨型預(yù)報模型中,排除已預(yù)報出的樣本,對剩下晴雨預(yù)報有雨的樣本進行預(yù)報。
3.3 試報和評分
當GA-NB1和GA-NB2的最優(yōu)子集確定后,用于Na?ve Bayes分類器的預(yù)報因子,然后用2011年6月27日—9月30日的90個樣本(7月7日與7月13日樣本缺失)作為測試集進行樣本分類。類似地還可建立小雨、中雨、大雨和暴雨的預(yù)報模型。
(8)
(9)
其中,N1為對象發(fā)生時預(yù)報正確的次數(shù),N2為對象不發(fā)生時預(yù)報正確的次數(shù),N3為對象發(fā)生時漏報的次數(shù),N4為對象不發(fā)生時空報次數(shù),j為降水分類級別。
4.1 最優(yōu)子集分析
任何個體最優(yōu)子集的適應(yīng)度都具有前低后高的共性,以介休站晴雨預(yù)報為例,分析其最優(yōu)子集的適應(yīng)度值在遺傳過程中的演變特點。圖1給出了介休站GA-NB1和GA-NB2晴雨預(yù)報模型擬合適應(yīng)度曲線。GA-NB1的適應(yīng)度函數(shù)為F1,用實線表示,其含義類似于準確率,但未考慮天晴并報對的情況。
圖1 介休站晴雨預(yù)報GA-NB1與GA-NB2擬合適應(yīng)度曲線Fig.1 The simulated precipitation occurrence prediction fitness functions of GA-NB1 and GA-NB2 at Jiexiu Station
GA-NB2的適應(yīng)度函數(shù)為F2,與TS評分的含義一致,用虛線表示。由圖1可以看出,第12步迭代后,兩種適應(yīng)度函數(shù)進入收斂狀態(tài),分別是0.692和0.544。GA-NB1的適應(yīng)度函數(shù)值在第10步后進入收斂狀態(tài),由初始的0.50,提升到0.69,升幅約0.19。GA-NB2的適應(yīng)度函數(shù)值在第12步后進入收斂狀態(tài),由初始的0.42提升到0.54,升幅約0.12。可見最優(yōu)子集的Na?ve Bayes模型擬合效果,比普通子集有較大提高。
表1給出了介休站GA-NB1和GA-NB2晴雨預(yù)報模型的最優(yōu)子集中因子的構(gòu)成情況。由表1可見,兩個子集的主因子為模式輸出的降水量,屬于強制入選,這樣在MOS原理下,可消除模式的系統(tǒng)性誤差,其余共同的因子為地面溫度、溫度露點差和假相當位溫。兩子集因子數(shù)均為6個,反映了對于該站該時次,用2~4個因子糾正模式輸出的降水量,尚不能形成最優(yōu)子集。
表1 介休站根據(jù)兩種適應(yīng)度函數(shù)GA選出的晴雨預(yù)報因子最優(yōu)組合Table 1 The best optimal subsets of precipitation occurrence predictors selectedby two kinds of fitness functions at Jiexiu Station
4.2 試報效果檢驗
圖2給出了GA-NB1模型對介休站2011年7—9月13~24 h(即次日08:00—20:00)的預(yù)報結(jié)果,并與模式輸出及實況進行對比,圖2中對于實際無雨且兩種預(yù)報方法均預(yù)報無雨的樣本,給予剔除。由圖2可以看出,GA-NB1顯著減少了T511模式小雨的空報次數(shù),共減少24次,對中雨的空報次數(shù)也有一定減少,GA-NB1預(yù)報8次正確5次,T511預(yù)報11次,正確3次,對大雨和暴雨的預(yù)報,由于樣本太少,具有偶然性,不能說明問題。
從上面的結(jié)果還可知,T511模式的預(yù)報效果要明顯低于GA-NB1模型,其主要原因在于評分方式不一樣。數(shù)值預(yù)報降水TS評分方法為若預(yù)報某區(qū)域某時次有雨時,以該區(qū)域的格點為中心,以適當?shù)陌霃竭M行掃描,若掃描半徑內(nèi)有1個測站觀測有雨,則預(yù)報正確,否則預(yù)報錯誤。顯然,數(shù)值預(yù)報側(cè)重于區(qū)域降水預(yù)報結(jié)果,允許有一定的掃描半徑。而本試驗基于單站展開,為了比較預(yù)報效果提高情況,需要對T511模式降水預(yù)報采用單站評分方式。因此,T511模式降水預(yù)報單站評分可能不高,不代表其區(qū)域降水評分不好。
圖2 2011年7—9月介休站GA-NB1模型13~24 h的降水分級預(yù)報結(jié)果Fig.2 The observed, GA-NB1 and T511 predicted 13-24-hour classificatory precipitation at Jiexiu Station from Jul to Sep in 2011
表2給出了介休、運城、豐寧3個站2011年7—9月13~24 h的預(yù)報結(jié)果。由表2可見,兩種GA-NB模型預(yù)報結(jié)果均好于T511模式。其中,晴雨預(yù)報:GA-NB1模型3個站預(yù)報準確率平均為87.40%,最高為介休站和豐寧站(90.0%),最低為運城站(82.2%);GA-NB2模型3個站預(yù)報準確率平均為86.30%,最高為介休站(90.0%),最低為運城站(81.1%),GA-NB1模型預(yù)報準確率平均值略高于GA-NB2模型;T511模式3個站預(yù)報準確率平均為67.03%,最高為豐寧站(78.9%),最低為運城站(57.8%),T511模式平均預(yù)報準確率明顯低于GA-NB1和GA-NB2模型。小雨預(yù)報:GA-NB1模型3個站TS評分平均為0.410,GA-NB2模型TS評分為0.367,T511模式預(yù)報TS評分為0.207,可見兩種GA-NB模型比T511模式提高了0.16以上。中雨預(yù)報:GA-NB1模型3個站TS評分平均為0.443,GA-NB2模型為0.267,T511模式預(yù)報為0.143, GA-NB1模型效果好于GA-NB2模型和 T511模式。大雨和暴雨的預(yù)報因樣本過少,不做評述。
表2 介休站、運城站、豐寧站2011年7—9月13~24 h降水分級預(yù)報結(jié)果Table 2 The prediction evaluation of 13-24-hour classificatory precipitation at Jiexiu, Yuncheng and Fengning stations from Jul to Sep in 2011
從上面的試驗結(jié)果可知:GA-NB模型可顯著提升晴雨預(yù)報的準確率和小雨、中雨的TS評分,且GA-NB1模型好于GA-NB2模型。以下從漏報和空報的角度,分析GA-NB模型效果提升的原因。晴雨預(yù)報GA-NB1模型、GA-NB2模型和T511模式3個站平均正確次數(shù)分別為17.0,16.7,19.3,漏報次數(shù)分別為4.3,4.7,2.0,空報次數(shù)分別為8.0,8.0,27.7。其中,T511模式預(yù)報正確次數(shù)最多,漏報最少,空報最多,GA-NB模型與T511模式相比,正確次數(shù)略降(GA-NB1模型,GA-NB2模型平均降2.3)和漏報次數(shù)略升(平均升2.7),而空報次數(shù)有顯著下降(平均降19.7)。因此,GA-NB模型提升晴雨預(yù)報準確率的原因在于能有效降低模式的空報率。小雨預(yù)報GA-NB1模型、GA-NB2模型和T511模式3站平均正確次數(shù)分別為9.0,8.7,8.0,漏報次數(shù)分別為6.0,6.3,7.0,空報次數(shù)分別為7.0,9.0,24.7。也能得到與晴雨預(yù)報類似的結(jié)論。中雨預(yù)報則不同,GA-NB1模型、GA-NB2模型和T511模式3站平均正確次數(shù)分別為3.7,2.7,2.0,漏報次數(shù)分別為1.3,2.7,3.0,空報次數(shù)分別為3.7,8.7,2.3??梢?,GA-NB模型比模式正確率略微提升,漏報略降,空報率反而升高。
為了搜尋Na?ve Bayes降水概率預(yù)報模型的最優(yōu)子集,利用2008—2010年T511數(shù)值預(yù)報產(chǎn)品和單站觀測資料,采用遺傳算法,對介休、運城、豐寧3個站Na?ve Bayes降水概率13~24 h分級預(yù)報模型進行研究,提出了遺傳算法搜尋Na?ve Bayes模型最優(yōu)子集的方案,得到GA-NB1和GA-NB2兩種不同適應(yīng)度函數(shù)的最優(yōu)子集模型,并利用2011年7—9月的資料,對模型效果進行檢驗。結(jié)論如下:
1) 最優(yōu)子集的擬合效果明顯高于普通初始子集。以介休站為例,在所有子集中規(guī)定數(shù)值模式輸出降水量因子必須入選的情況下,GA-NB1模型的適應(yīng)度函數(shù)初始值為0.50,收斂值為0.692,升幅約0.19;GA-NB2模型的適應(yīng)度函數(shù)初始值為0.42,收斂值為0.54,升幅約0.12。
2) 最優(yōu)子集模型能夠顯著提高數(shù)值模式在單站的預(yù)報效果。GA-NB1模型、GA-NB2模型和T511模式3個站平均晴雨預(yù)報準確率分別為87.40%,86.30%,67.03%,小雨預(yù)報TS評分分別為0.410,0.367,0.207,中雨預(yù)報TS評分分別為0.443,0.267,0.143。兩種模型晴雨預(yù)報準確率比T511模式提高了19%以上,小雨、中雨預(yù)報TS評分分別提高了0.16和0.13以上。GA-NB1模型效果好于GA-NB2模型。
3) 最優(yōu)子集模型對晴雨、小雨預(yù)報效果提高原因是有效降低了數(shù)值模式的空報率,3個站空報次數(shù),GA-NB1模型和GA-NB2模型比T511模式均降低了19次以上。而最優(yōu)子集模型對中雨預(yù)報效果提高原因,是能夠小幅提高正確次數(shù)和降低空報次數(shù)。
采用遺傳算法求Na?ve Bayes模型的最優(yōu)子集要花費較長時間建模,利用主頻2.4 GHz以上微機1次計算時間約為15 s,遠低于建1次窮盡所有組合的最優(yōu)子集所需的時間。從理論上講,遺傳算法還可應(yīng)用于多數(shù)其他方法(不具備最優(yōu)子集算法體系的方法),具有一定的推廣性。本文利用華北雨季(6—9月)資料研究大雨和暴雨預(yù)報效果,個例數(shù)偏少,有待于積累更長的試報樣本進行檢驗。
[1] 閔晶晶,孫景榮,劉還珠,等.一種改進的BP算法及在降水預(yù)報中的應(yīng)用.應(yīng)用氣象學(xué)報,2010,21(1):55-62.
[2] 劉還珠,趙聲蓉,陸志善,等.國家氣象中心氣象要素的客觀預(yù)報——MOS系統(tǒng).應(yīng)用氣象學(xué)報,2004,15(2):181-191.
[3] 劉愛鳴,潘寧,鄒燕,等.福建前汛期區(qū)域暴雨客觀預(yù)報模型研究.應(yīng)用氣象學(xué)報,2003,14(4):420-429.
[4] 趙聲蓉,裴海瑛.客觀定量預(yù)報中降水的預(yù)處理.應(yīng)用氣象學(xué)報,2007,18(1):21-28.
[5] 燕東渭,孫田文,楊艷,等.支持向量機數(shù)據(jù)描述在西北暴雨預(yù)報中的應(yīng)用試驗.應(yīng)用氣象學(xué)報,2007,18(5):676-681.
[6] Raftery A E,Gneiting T,Balandaoui F,et al.Using Bayesian model averaging to calibrate forecast ensembles.MonWeaRev,2005,133:1155-1174.
[7] Sloughter J M,Raftery A E,Gneiting T,et al.Probabilistic quantitative precipitation forecasting using Bayesian model averaging.MonWeaRev,2007,135:3209-3220.
[8] Liu J N K,Li B N L,Dillon T S.An improved Naive Bayesian classifier technique coupled with a novel input solution method.IEEETransactiononSystem,Man,andCybernetics-PartC:ApplicationandReviews,2001,31(2):249-256.
[9] 王開宇,趙瑞星,翟宇梅.樸素貝葉斯分類器在降水預(yù)報中的應(yīng)用.軍事氣象水文,2007,31(3):41-44.
[10] 郭雅芬,過仲陽,蘇君毅,等.貝葉斯分類法在MCS移動路徑預(yù)測中的應(yīng)用.地球信息科學(xué),2007,9(2):20-23.
[11] 蘇君毅,邱潔,過仲陽,等.基于貝葉斯方法的中尺度對流系統(tǒng)移動方向研究.華東師范大學(xué)學(xué)報:自然科學(xué)版,2006,6:41-46.
[12] 柯宗建,張培群,董文杰,等.最優(yōu)子集回歸方法在季節(jié)氣候預(yù)測中的應(yīng)用.大氣科學(xué),2009,33(5):994-1002.
[13] 谷德軍,紀忠萍,李春暉.南海夏季風(fēng)爆發(fā)日期與海溫的多尺度關(guān)系及最優(yōu)子集回歸預(yù)測.海洋學(xué)報,2011,33(6):55-63.
[14] 李玲萍,尚可政,錢莉,等.最優(yōu)子集回歸在夏季高溫極值預(yù)報中的應(yīng)用,蘭州大學(xué)學(xué)報:自然科學(xué)版,2010,46(6):54-58.
[15] Nawaz M,Enscore E,Ham I.A Heuristic algorithm for the machine,n job flowshop.TheInternationalJournalofManagementSciences,1983,11(1):91-95.
[16] 趙凱,孫燕,張備,等.T213數(shù)值預(yù)報產(chǎn)品在本地降水預(yù)報中的釋用.氣象科學(xué),2008,28(2):217-220.
[17] 劉建文,郭虎,李耀東,等.天氣分析預(yù)報物理量計算基礎(chǔ).北京:氣象出版社,2005:1-253.
[18] 王學(xué)忠,胡邦輝,呂梅,等.沙瓦特指數(shù)的一種迭代算法.應(yīng)用氣象學(xué)報,2009,20(4):486-491.
[19] Zhou Lina,Feng Jinjuan,Sears A,et al.Applying the Na?ve Bayes Classifier to Assist Users in Detecting Speech Recognition Errors.Big land,Hawaii:System Sciences,Proceedings of the 38th Annual Hawaii International Conference,2005:183.
[20] 韓瑞峰.遺傳算法原理與應(yīng)用實例.北京:兵器工業(yè)出版社,2010:1-443.
[21] 夏祥華,孫漢文.基于遺傳算法的曲線擬合方法用于重疊熒光光譜的定量解析.光譜學(xué)與光譜分析,2012,32(8):2157-2161.
[22] 王雙成.貝葉斯網(wǎng)絡(luò)學(xué)習(xí)、推理與應(yīng)用.上海:立信會計出版社,2010:1-291.
An Algorithm of Optimal Subset for Bayes Precipitation Probability Prediction Model
Hu Banghui1)Liu Shanliang2)Xi Yan3)Wang Xuezhong1)You Daming1)Zhang Huijun3)
1)(InstituteofMeteorologyandOceanography,PLAUST,Nanjing211101)2)(UnitNo. 61741ofPLA,Beijing100081)3)(MeteorologicalandHydrologicalCenterofMilitaryAreaCommandofNanjing,Nanjing210016)
Based on numerical prediction products, a model output statistic (MOS) for precipitation forecast of an observatory is set up which contains the model output rainfall as one of predictors. The model can remove the systemic error of numerical prediction on precipitation, so it improves the precipitation prediction skill to certain degree. But for a given amount of predictors, a problem to solve is how to select the optimal subset to improve the prediction skill especially in operational weather forecast. In order to construct a Na?ve Bayes precipitation probability prediction model on the precondition of the best performance from optimal subsets, using T511 model products and their 13-hour to 24-hour forecast corresponding observation of precipitation from 2008 to 2010 at three observatories, namely Jiexiu, Yuncheng and Fengning, the classificatory Na?ve Bayes models on precipitation probability are developed and valuated. Different from the treatment of classic optimal subsets regression which enumerates the optimal subset one by one under the rule of couple score criterion (CSC), a Na?ve Bayes model using genetic algorithm to search the optimal subset from a great many of subsets is presented. Model follows artificial intelligence searching characteristics. The genetic algorithm is established through the construction of gene bit-series from binary encoding method, and the introduction of a fitness function with cause. Considering the elimination of non-existing affair samples for the weather of low probability, two models are built based on genetic algorithm and Na?ve Bayes model. The essential difference between two kinds of models is the fitness functions they use: One uses the accuracy of precipitation as fitness function, and it is called genetic algorithm-Na?ve Bayes forecasting model type 1, GA-NB1 in brief; the other one uses threat score as fitness function, and is called GA-NB2 accordingly. The models are evaluated by prediction tests with dataset ranging from July to September in 2011. Results indicate that simulated results of optimal subset are much superior to those of ordinary initial subsets. Both GA-NB1 and GA-NB2 can improve T511 model precipitation accuracy by 19% on precipitation occurrence, threat scores are improved by 0.16 and 0.13 on drizzle and moderate precipitation, respectively. The prediction for precipitation occurrence and drizzle is enhanced by the optimal subset model because they effectively reduce the false alarm rate of numerical model, by more than 19 times during the period. The cause for improving moderate rain prediction includes two aspects: A slight increase in the amount of correct forecast and decrease of false alarms.
genetic algorithm; Na?ve Bayes classifier; station precipitation forecast; prediction skill
國家自然科學(xué)基金項目(41330420,41275099)
2014-08-31收到, 2015-01-04收到再改稿。
* email: hubanghui@126.com