陸冰鑒 周 鵬 王 興, 周 可
1(南京信大氣象科學(xué)技術(shù)研究院 江蘇 南京 210044)2(南京信息工程大學(xué)大氣科學(xué)與環(huán)境氣象國(guó)家級(jí)實(shí)驗(yàn)教學(xué)示范中心 江蘇 南京 210044)
大氣能見(jiàn)度(Visibility)是反映大氣透明度的一個(gè)指標(biāo)。一般定義為具有正常視力的人在當(dāng)時(shí)的天氣條件下還能夠看清楚目標(biāo)輪廓的最大地面水平距離。大氣能見(jiàn)度是氣象監(jiān)測(cè)中的一項(xiàng)重要指標(biāo),在道路通行、航海、航空和環(huán)境保護(hù)監(jiān)測(cè)等領(lǐng)域應(yīng)用較廣[1]。20世紀(jì)60年代第二次工業(yè)革命以來(lái),隨著人類生產(chǎn)生活對(duì)化石能源的消耗劇增,排放到大氣中的顆粒物如PM2.5、PM10越來(lái)越多,這些顆粒物凝結(jié)核形成的氣溶膠降低了大氣能見(jiàn)度,影響了交通運(yùn)輸業(yè)的安全運(yùn)行,是導(dǎo)致交通事故的主要?dú)庀笥绊懸蜃印T诤Q蠛蛢?nèi)河運(yùn)輸業(yè)中,大約三分之一的船舶相撞事故都是由能見(jiàn)度低導(dǎo)致的。雖然現(xiàn)代航船上有先進(jìn)的導(dǎo)航系統(tǒng),但低能見(jiàn)度仍然是一個(gè)不可忽視的隱患[2]。例如:2018年1月16日8:00“豐海18”輪與“惠豐6799”輪發(fā)生碰撞,“惠豐6799”輪沉沒(méi),后又有5艘船舶與“惠豐6799”輪相撞,據(jù)調(diào)查最主要是因?yàn)殪F霾籠罩,水域能見(jiàn)度不良。所幸此次事故無(wú)人員傷亡,但是也造成了重大經(jīng)濟(jì)損失。因此,對(duì)于大氣能見(jiàn)度的預(yù)測(cè)顯得尤為重要。
當(dāng)前,能見(jiàn)度預(yù)報(bào)仍以天氣圖分析預(yù)報(bào)、經(jīng)驗(yàn)預(yù)報(bào)和數(shù)值預(yù)報(bào)為主。隨著數(shù)值預(yù)報(bào)的發(fā)展,現(xiàn)在也有數(shù)值釋用和霧模式預(yù)報(bào)等。數(shù)值釋用要先了解污染物濃度和變化規(guī)律,再計(jì)算能見(jiàn)度。由于影響污染物濃度變化的因素和變化規(guī)律較難掌握,加上計(jì)算量較大,該方法在業(yè)務(wù)應(yīng)用中開(kāi)展緩慢[3]。而霧模式僅有一定的機(jī)理分析用途,難以進(jìn)行實(shí)際預(yù)報(bào)[4]。近年來(lái),學(xué)者們引入了神經(jīng)網(wǎng)絡(luò)[5]、支持向量機(jī)、線性與非線性回歸[6]等方法。如梁之彥等[7]分別以徑向神經(jīng)網(wǎng)絡(luò)和統(tǒng)計(jì)回歸預(yù)報(bào)方程預(yù)報(bào)能見(jiàn)度,驗(yàn)證了徑向神經(jīng)網(wǎng)絡(luò)在能見(jiàn)度低于10 km時(shí)預(yù)報(bào)準(zhǔn)確率更高。由于能見(jiàn)度的影響因素有多種,需要尋找多元要素與能見(jiàn)度的關(guān)系,如蔡仁等[8]利用大氣溫度、相對(duì)濕度、風(fēng)速等要素應(yīng)用SVM和Elman神經(jīng)網(wǎng)絡(luò)方法分別建立烏魯木齊市3 h能見(jiàn)度預(yù)報(bào)模型;馬楚焱等[9]將7種氣象因子和6種污染物濃度因子首先做主成分分析,再基于遺傳神經(jīng)網(wǎng)絡(luò)模型預(yù)測(cè)輸出8:00和14:00的能見(jiàn)度。這些方法改進(jìn)能見(jiàn)度預(yù)報(bào),但應(yīng)用成果尚不理想,且在低能見(jiàn)度天氣的預(yù)報(bào)上仍然薄弱。
為了解決樣本不均衡、低能見(jiàn)度預(yù)報(bào)不準(zhǔn)確等問(wèn)題,本文提出一種基于相關(guān)性分析和數(shù)據(jù)均衡的能見(jiàn)度分層預(yù)測(cè)模型,主要通過(guò)相關(guān)性分析挑選主要相關(guān)因子,去除不相關(guān)因子的干擾;通過(guò)隨機(jī)下采樣進(jìn)行數(shù)據(jù)均衡,通過(guò)先分類再回歸的分層思想預(yù)測(cè)能見(jiàn)度。提高了網(wǎng)絡(luò)的泛化能力,從而提高能見(jiàn)度類別預(yù)測(cè)的準(zhǔn)確率,降低能見(jiàn)度預(yù)測(cè)的誤差。
本文研究數(shù)據(jù)來(lái)自江蘇省區(qū)域地面氣象觀測(cè)站,采用2000年1月至2018年12月逐日的觀測(cè)數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù),其中,將2018年之前的數(shù)據(jù)用作訓(xùn)練,將2018年的數(shù)據(jù)用作測(cè)試。其實(shí)驗(yàn)數(shù)據(jù)的主要組成如表1所示。其中數(shù)據(jù)要素主要包含45項(xiàng)輸入因子和一項(xiàng)輸出,45項(xiàng)輸入因子主要包含地面因子、近地面因子和主觀因子三類。
表1 數(shù)據(jù)總體構(gòu)成
在本文數(shù)據(jù)總體構(gòu)成中,采用45項(xiàng)因子作為輸入項(xiàng)。但是考慮到在45項(xiàng)因子中,存在與輸出項(xiàng)相關(guān)性很小或者不相關(guān)的因子,這些因子會(huì)干擾網(wǎng)絡(luò)的學(xué)習(xí),最終影響網(wǎng)絡(luò)預(yù)測(cè)結(jié)果。因此增加對(duì)所有因子項(xiàng)和能見(jiàn)度做相關(guān)性分析,通過(guò)相關(guān)性分析結(jié)果,挑選出顯著相關(guān)的因子作為輸入項(xiàng)。
本文的相關(guān)性分析是通過(guò)SPSS軟件計(jì)算Pearson相關(guān)系數(shù)分析得出,其Pearson相關(guān)系數(shù)計(jì)算結(jié)果如表2所示。表2中各要素縮寫(xiě)含義如表3所示。表2中數(shù)字后面帶有*和**的表示顯著相關(guān),**在0.01水平(雙側(cè))上顯著相關(guān),*在0.05水平(雙側(cè))上顯著相關(guān)。因此,挑選這樣的因子作為輸入因子,最后總共挑選出輸入項(xiàng)34項(xiàng)。
表2 各項(xiàng)輸入因子與能見(jiàn)度的Pearson相關(guān)系數(shù)
續(xù)表2
表3 各項(xiàng)英文縮寫(xiě)含義
由于在多數(shù)類樣本中存在大量重復(fù)信息,一方面影響了樣本的平衡,另一方面影響分類器的分類效果,因此需要剔除多數(shù)類樣本中的冗余樣本。本文采用隨機(jī)下采樣算法隨機(jī)地選取一些多數(shù)類樣本,再將這些樣本從多數(shù)類中剔除,從而起到均衡原始數(shù)據(jù)的作用。
對(duì)采集的江蘇省區(qū)域內(nèi)各氣象站點(diǎn)的樣本數(shù)據(jù)進(jìn)行統(tǒng)計(jì),統(tǒng)計(jì)標(biāo)準(zhǔn)及統(tǒng)計(jì)結(jié)果如表4所示。
表4 能見(jiàn)度統(tǒng)計(jì)標(biāo)準(zhǔn)及結(jié)果
可以看出,能見(jiàn)度的各個(gè)范圍的數(shù)據(jù)是嚴(yán)重不均衡的,這種不均衡會(huì)使得網(wǎng)絡(luò)分類結(jié)果偏向于數(shù)量較大的那一類,影響預(yù)測(cè)準(zhǔn)確性。因此,對(duì)總體數(shù)據(jù)樣本進(jìn)行均衡,即對(duì)第2和第3類樣本進(jìn)行隨機(jī)下采樣,使得第2、第3類的樣本個(gè)數(shù)與第一類的樣本個(gè)數(shù)相對(duì)均衡。實(shí)驗(yàn)中,第2和第3類樣本下采樣后的樣本個(gè)數(shù)為20 000。
LSTM是一種特殊的RNN類型,是由Hochreither等[10]提出的長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò),采用記憶單元代替RNN隱含層的神經(jīng)單元,用于解決RNN梯度消失的問(wèn)題。LSTM記憶單元的內(nèi)部結(jié)構(gòu)如圖1所示,包含輸入門(mén)(Input gate)、輸出門(mén)(Output gate)、遺忘門(mén)(Forget gate)和記憶細(xì)胞(Memory cell)。
圖1 LSTM記憶單元結(jié)構(gòu)
圖1中,xt、ht分別為t時(shí)刻網(wǎng)絡(luò)的輸入和輸出。LSTM記憶單元通過(guò)以下公式迭代計(jì)算輸出:
ft=σ(Wf·[ht-1,xt]+bf)
(1)
it=σ(Wi·[ht-1,xt]+bi)
(2)
ot=σ(Wo·[ht-1,xt]+bo)
(3)
Ct=ft×Ct-1+it×tanh(WC·[ht-1,xt]+bC)
(4)
ht=ot×tanh(Ct)
(5)
式中:ft、it、ot和Ct分別為遺忘門(mén)、輸入門(mén)、輸出門(mén)和記憶細(xì)胞的輸出;Wf、Wi、Wo和WC分別為遺忘門(mén)、輸入門(mén)、輸出門(mén)和記憶細(xì)胞的權(quán)重矩陣;bf、bi、bo和bC分別為遺忘門(mén)、輸入門(mén)、輸出門(mén)和記憶細(xì)胞的偏置;σ為Sigmoid函數(shù)。
2.4.1模型總體設(shè)計(jì)
本文搭建了基于相關(guān)性分析和數(shù)據(jù)均衡的能見(jiàn)度分層預(yù)測(cè)模型,通過(guò)相關(guān)性分析挑選主要相關(guān)因子,去除不相關(guān)因子的干擾;通過(guò)隨機(jī)下采樣進(jìn)行數(shù)據(jù)均衡,再通過(guò)先分類再回歸的方法預(yù)測(cè)能見(jiàn)度。模型的第一層是基于LSTM的分類模型,第二層是基于LSTM的回歸模型。該模型的總體結(jié)構(gòu)如圖2所示。
圖2 基于LSTM的能見(jiàn)度分層預(yù)測(cè)模型結(jié)構(gòu)
具體建模流程如下:
(1) 采集江蘇省區(qū)域內(nèi)氣象站觀測(cè)數(shù)據(jù),處理為45項(xiàng)輸入項(xiàng)及能見(jiàn)度輸出項(xiàng),并將2017年及以前的數(shù)據(jù)用作訓(xùn)練,2018年的數(shù)據(jù)用作測(cè)試,各因子如表1所示。
(2) 對(duì)45項(xiàng)輸入項(xiàng)及能見(jiàn)度輸出項(xiàng)做相關(guān)性分析,挑選出與能見(jiàn)度相關(guān)性較大的因子,其相關(guān)性分析如2.1節(jié)。
(3) 對(duì)上述處理后的樣本,按照類別劃分標(biāo)準(zhǔn)進(jìn)行統(tǒng)計(jì)分析,通過(guò)隨機(jī)下采樣的方法均衡各類樣本。
(4) 通過(guò)第一層長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)(LSTM)分類模型進(jìn)行樣本分類。
(5) 將分類結(jié)果及對(duì)應(yīng)的類別訓(xùn)練樣本輸入第二層基于LSTM的回歸模型中,選擇每類對(duì)應(yīng)的子類樣本,最終回歸出能見(jiàn)度。
2.4.2分 類
將2017年及以前的數(shù)據(jù)做相關(guān)性分析后,提取相關(guān)因子,將原始數(shù)據(jù)形成如式(6)所示數(shù)據(jù)樣本。
fi=[xi1,xi2,…,xi34,xi35]
(6)
式中:i表示樣本個(gè)數(shù);xi1,xi2,…,xi34表示第i個(gè)樣本的34個(gè)輸入項(xiàng);xi35表示第i個(gè)樣本的輸出項(xiàng)。
根據(jù)能見(jiàn)度的分類標(biāo)準(zhǔn),將上述數(shù)據(jù)樣本處理成分類所需樣本,如式(7)所示。
(7)
式中:Xi是輸入項(xiàng),Yi是類別標(biāo)簽。yi由式(8)得出。
(8)
將上述樣本中2016年及以前的數(shù)據(jù)確定為訓(xùn)練樣本:
S={(X1,Y1),(X2,Y2),…,(Xm,Ym)}
(9)
2017年的數(shù)據(jù)確定為測(cè)試樣本:
S′={(Xm+1,Ym+1),(Xm+2,Ym+2),…,(Xi,Yi)}
(10)
式中:Xi表示第i個(gè)樣本;Yi表示第i個(gè)樣本的標(biāo)簽,即能見(jiàn)度的類別。
按照能見(jiàn)度類別,對(duì)訓(xùn)練樣本進(jìn)行隨機(jī)下采樣,均衡各類樣本數(shù)量,使得各類樣本數(shù)量相對(duì)均衡,此時(shí)訓(xùn)練樣本如下(n S={(X1,Y1),(X2,Y2),…,(Xn,Yn)} (11) 本文采用LSTM建立能見(jiàn)度分類模型,其分類模型如圖3所示。 圖3 基于LSTM的能見(jiàn)度分類模型 該網(wǎng)絡(luò)模型隱含層包含2個(gè)LSTM層和一個(gè)Dense層。采用堆疊的LSTM結(jié)構(gòu)是為了防止過(guò)擬合,提高網(wǎng)絡(luò)泛化能力。再通過(guò)Dense層可以了解特征數(shù)據(jù)與預(yù)測(cè)結(jié)果之間的函數(shù)關(guān)系。經(jīng)過(guò)隱含層運(yùn)算后得到該隱含層的輸出hDt。網(wǎng)絡(luò)的輸出為能見(jiàn)度的類別,即: yt=softmax(Wyh·hDt+b) (12) 式中:Wyh為隱含層和輸出層之間的權(quán)重矩陣;b為輸出層的偏置量。 2.4.3回 歸 基于LSTM的能見(jiàn)度回歸模型,根據(jù)能見(jiàn)度的不同類別,分別訓(xùn)練了三種不同的回歸模型用于三類能見(jiàn)度的回歸。本文基于LSTM的能見(jiàn)度回歸模型結(jié)構(gòu)與分類模型的結(jié)構(gòu)基本一致,輸出層的激活函數(shù)采用Sigmoid,即第c類的網(wǎng)絡(luò)輸出為: yct=sigmoid(Wcyh·hcDt+bc) (13) 式中:c表示類別,c=0,1,2;Wcyh為c類回歸模型隱含層和輸出層之間的權(quán)重矩陣;hcDt為c類回歸模型中經(jīng)隱含層運(yùn)算后得到該隱含層的輸出;bc為c類回歸模型輸出層的偏置量;yct為回歸出的c類能見(jiàn)度。 本次實(shí)驗(yàn)采用江蘇省區(qū)域內(nèi)氣象站2018年的觀測(cè)數(shù)據(jù)作為測(cè)試數(shù)據(jù),去除缺失站點(diǎn)數(shù)據(jù),總共樣本為21 944個(gè)。分別進(jìn)行了SVM模型、LSTM模型、引入相關(guān)性分析和引入下采樣均衡數(shù)據(jù)四個(gè)實(shí)驗(yàn),統(tǒng)計(jì)了分類結(jié)果的準(zhǔn)確數(shù)、空?qǐng)?bào)數(shù)和漏報(bào)數(shù),計(jì)算了每種方法每個(gè)類別的TS評(píng)分。四個(gè)實(shí)驗(yàn)的對(duì)比結(jié)果如表5所示。表5中,準(zhǔn)確數(shù)、空?qǐng)?bào)數(shù)、漏報(bào)數(shù)及TS評(píng)分是本次實(shí)驗(yàn)結(jié)果的評(píng)價(jià)指標(biāo)。準(zhǔn)確數(shù)表示實(shí)際結(jié)果和預(yù)測(cè)結(jié)果同為c類的個(gè)數(shù)Right_c;空?qǐng)?bào)數(shù)表示實(shí)際非c類預(yù)測(cè)為c類的個(gè)數(shù)Empty_c;漏報(bào)數(shù)表示實(shí)際為c類預(yù)測(cè)為非c類的個(gè)數(shù)Missing_c。c類的TS評(píng)分的計(jì)算公式為: (14) 表5 基于LSTM的能見(jiàn)度分類結(jié)果 表5中,方法1為SVM,方法2為L(zhǎng)STM,方法3為相關(guān)性分析及LSTM,方法4為相關(guān)性分析、數(shù)據(jù)均衡及LSTM。對(duì)比發(fā)現(xiàn),相關(guān)性分析后,提取相關(guān)性較大的因子作為輸入因子能夠改善網(wǎng)絡(luò)預(yù)測(cè)結(jié)果,但由于數(shù)據(jù)不均衡,效果還是不好。當(dāng)通過(guò)下采樣的方式進(jìn)行數(shù)據(jù)均衡后,可明顯看出效果提升,雖然1.5 km~10 km的準(zhǔn)確率降低了,但是數(shù)據(jù)均衡后,1.5 km~10 km的訓(xùn)練樣本大幅度減少,預(yù)報(bào)準(zhǔn)確的個(gè)數(shù)肯定會(huì)有所下降,即漏報(bào)會(huì)增多,但同時(shí)會(huì)增加另外兩類的準(zhǔn)確數(shù),從而均衡了三類的結(jié)果,提高整體的預(yù)測(cè)效果。尤其是在0~1.5 km的低能見(jiàn)度天氣的預(yù)測(cè)上,TS準(zhǔn)確率能達(dá)到0.29。 本次實(shí)驗(yàn)采用江蘇省區(qū)域內(nèi)氣象站2018年的觀測(cè)數(shù)據(jù)作為測(cè)試數(shù)據(jù),去除缺失站點(diǎn)數(shù)據(jù),總共樣本為21 944個(gè)。分別進(jìn)行了基于LSTM的能見(jiàn)度回歸預(yù)測(cè)模型和基于LSTM的能見(jiàn)度分層預(yù)測(cè)模型兩個(gè)實(shí)驗(yàn),圖4和圖5是江蘇省區(qū)域內(nèi)某站點(diǎn)2017年的測(cè)試結(jié)果。 圖4 站點(diǎn)1能見(jiàn)度兩種方法測(cè)試結(jié)果 可以看出,當(dāng)觀測(cè)值為低能見(jiàn)度時(shí),采用分類回歸(分層)預(yù)測(cè)的結(jié)果與觀測(cè)值更接近。同時(shí),采用分類回歸(分層)預(yù)測(cè)方法,對(duì)于能見(jiàn)度的峰值和谷值的預(yù)測(cè)結(jié)果更加準(zhǔn)確。而采用直接回歸方法預(yù)測(cè)在峰值和谷值處表現(xiàn)不佳,尤其是低能見(jiàn)度。 本文對(duì)江蘇省區(qū)域所有站點(diǎn)2018年數(shù)據(jù)進(jìn)行測(cè)試,統(tǒng)計(jì)了兩種方法分類結(jié)果的TS評(píng)分及誤差。兩個(gè)實(shí)驗(yàn)的對(duì)比結(jié)果如表6所示。 可以看出,采用分層的方法在能見(jiàn)度0~1.5 km的預(yù)測(cè)準(zhǔn)確率提升0.13,在大于10 km的預(yù)測(cè)準(zhǔn)確率提升0.06,僅在1.5~10 km的區(qū)間內(nèi)有所下降,這是因?yàn)榉謱宇A(yù)測(cè)模型提高了直接回歸模型的泛化能力,一定程度上優(yōu)化了0~1.5 km和大于10 km區(qū)間的預(yù)測(cè)準(zhǔn)確率,犧牲了1.5~10 km的準(zhǔn)確率。 采用分層預(yù)測(cè)方法在能見(jiàn)度0~1.5 km的誤差比直接回歸的結(jié)果降低了0.92 km,在大于10 km的誤差降低了0.34 km。僅在1.5~10 km的區(qū)間內(nèi)增大了0.56 km??梢?jiàn),該方法一定程度上減小了預(yù)測(cè)的平均絕對(duì)誤差,尤其在低能見(jiàn)度的表現(xiàn)上更好。 由于能見(jiàn)度的影響因素有多種,因氣象場(chǎng)、排放源等因素的影響,傳統(tǒng)模式預(yù)測(cè)能見(jiàn)度與實(shí)況存在較大誤差,尤其是對(duì)低能見(jiàn)度的預(yù)測(cè),準(zhǔn)確率普遍不高。本文將傳統(tǒng)氣象統(tǒng)計(jì)預(yù)報(bào)方法與人工智能技術(shù)相結(jié)合,提出一種基于相關(guān)性分析和數(shù)據(jù)均衡的能見(jiàn)度分層預(yù)測(cè)模型,并通過(guò)實(shí)驗(yàn)得出以下結(jié)論: (1) 改進(jìn)的能見(jiàn)度分層預(yù)測(cè)模型能夠較好地?cái)M合實(shí)際能見(jiàn)度,驗(yàn)證了本文方法的有效性。 (2) 改進(jìn)的能見(jiàn)度分層預(yù)測(cè)模型改善了樣本不均衡問(wèn)題的影響,提高了模型的泛化能力,防止了模型過(guò)擬合現(xiàn)象對(duì)于能見(jiàn)度預(yù)測(cè)的不利影響,預(yù)測(cè)結(jié)果更接近實(shí)際能見(jiàn)度,具有更小的誤差,有較高的應(yīng)用價(jià)值。 該模型受神經(jīng)網(wǎng)絡(luò)機(jī)理的限制,盡管能夠有效提高各個(gè)預(yù)報(bào)時(shí)效內(nèi)的能見(jiàn)度均值,但對(duì)于能見(jiàn)度的峰值及谷值的預(yù)報(bào),其準(zhǔn)確性還有待提高,在進(jìn)一步的研究中,考慮加入能見(jiàn)度空間特性及污染物濃度特征。3 實(shí)驗(yàn)與結(jié)果分析
3.1 改進(jìn)分類方法效果對(duì)比
3.2 回歸與分類回歸(分層)結(jié)果對(duì)比
4 結(jié) 語(yǔ)