陳靖宇,湯德佑,伍光勝,胡鵬
(1.華南理工大學(xué),廣東 廣州510006;2.廣州市突發(fā)事件預(yù)警信息發(fā)布中心,廣東 廣州511430)
雷電是一種伴隨著劇烈的放電過程的強(qiáng)對(duì)流天氣現(xiàn)象,一直以來都嚴(yán)重威脅著公共安全和人民生命財(cái)產(chǎn)安全[1],雷電災(zāi)害已被聯(lián)合國(guó)列為“最嚴(yán)重的十種自然災(zāi)害之一”。伴隨著電子產(chǎn)品的廣泛應(yīng)用,社會(huì)對(duì)雷電災(zāi)害的監(jiān)測(cè)和預(yù)防的需求也逐漸增大[2]。
雷電最典型的例子就是雷暴云層產(chǎn)生的對(duì)地閃電,目前利用大氣電場(chǎng)數(shù)據(jù)進(jìn)行雷電預(yù)警的方法多以預(yù)警閾值[3-5]和預(yù)測(cè)方程的方法[6-7]為主。主要的方法是針對(duì)電場(chǎng)的快速抖動(dòng)和閃電發(fā)生的0—1對(duì)應(yīng)關(guān)系,對(duì)電場(chǎng)數(shù)據(jù)進(jìn)行分解并從中提取預(yù)測(cè)因子,根據(jù)經(jīng)驗(yàn)數(shù)據(jù)分析得出閾值點(diǎn)或建立多元回歸的預(yù)測(cè)方程。這些方法準(zhǔn)確率較高,但在針對(duì)不同地區(qū)、不同季節(jié)需要人工進(jìn)行閾值、權(quán)重等參數(shù)調(diào)整。且由于雷電的生成機(jī)理復(fù)雜,具有一定的非線性特征,定量分析預(yù)測(cè)因子的過程十分繁瑣且不具備泛用性,應(yīng)用性較局限。
為了解決非線性問題并建立具有適應(yīng)性和容錯(cuò)性的模型,也有人嘗試采用機(jī)器學(xué)習(xí)的方法進(jìn)行氣象特征對(duì)事件的映射從而預(yù)警雷電:呂偉濤等[8]集成了決策樹和區(qū)域識(shí)別的方法,建立了雷電臨近預(yù)測(cè)系統(tǒng)。周明薇等[9]采用了支持向量機(jī)對(duì)NCEP資料建立了雷電潛勢(shì)預(yù)警模型,應(yīng)用相關(guān)系數(shù)大于0.3的特征,并與其他分類模型進(jìn)行了比較。陳勇偉等[10]提取了對(duì)流參數(shù)作為神經(jīng)網(wǎng)絡(luò)的輸入因子,預(yù)測(cè)了雷電活動(dòng)的潛勢(shì)。田浩等[11]運(yùn)用BP神經(jīng)網(wǎng)絡(luò),提取以30分鐘為時(shí)間片的大氣電場(chǎng)特征,預(yù)警未來的雷電發(fā)生事件。
目前運(yùn)用在雷電預(yù)警的機(jī)器學(xué)習(xí)方法大多采用單一分類器,而使用集成學(xué)習(xí)的方法較少?;谏鲜龇治?,本文提出基于大氣電場(chǎng)數(shù)據(jù)和閃電定位數(shù)據(jù),通過挖掘提取有關(guān)特征和集成基分類器的方法提高預(yù)測(cè)模型的精度,為雷電預(yù)警提供可參考的新方法。
廣東省屬于熱帶和亞熱帶季風(fēng)氣候,處于雷電高發(fā)區(qū),雷電發(fā)生頻率位于全國(guó)第二位[12],研究廣東地區(qū)的雷電預(yù)警有重要意義。本文利用來自廣州市氣象局的2019年和2020年廣州市黃埔區(qū)的大氣電場(chǎng)儀資料和全閃雷電監(jiān)測(cè)系統(tǒng)提供的組網(wǎng)地閃資料,提取其中有顯著雷電發(fā)生的數(shù)據(jù)。大氣電場(chǎng)儀的地理分布如圖1所示。
大氣電場(chǎng)儀是通過導(dǎo)體在電場(chǎng)中產(chǎn)生感應(yīng)來測(cè)量電場(chǎng)強(qiáng)度,當(dāng)電場(chǎng)儀探知大氣中電場(chǎng)發(fā)生變化時(shí),可反演雷暴云中的電場(chǎng)變化,從而對(duì)雷電的發(fā)生進(jìn)行預(yù)警。大氣電場(chǎng)數(shù)據(jù)提供了探測(cè)范圍內(nèi)基于時(shí)間序列的大氣電場(chǎng)強(qiáng)度,單位為kV/m。如圖1所示,在廣州市黃埔區(qū)共有5臺(tái)大氣電場(chǎng)儀同時(shí)進(jìn)行觀測(cè)試驗(yàn),圖中的5個(gè)圓為大氣電場(chǎng)的探測(cè)范圍,半徑均為15 km,它們的中心是大氣電場(chǎng)儀布置的位置。
圖1 大氣電場(chǎng)儀站點(diǎn)分布圖
地閃資料來源于閃電定位儀獲取的組網(wǎng)全閃資料,探測(cè)范圍覆蓋全廣東省,它是一種自動(dòng)化雷電監(jiān)測(cè)設(shè)備,能夠有效捕捉云層放電產(chǎn)生的電磁波,從而形成易于分析的地閃資料。地閃資料具有精準(zhǔn)度高、探測(cè)范圍廣等特點(diǎn),提供了包含閃電發(fā)生時(shí)間、雷擊的經(jīng)緯度位置等閃電信息。在本文中,地閃資料一方面反映當(dāng)前的雷電特征,另一方面也反映未來是否有雷電事件作為標(biāo)簽,使得特征和標(biāo)簽之間的緊密型更強(qiáng)。
考慮到雷電云層的移動(dòng)速度,統(tǒng)計(jì)一個(gè)以30分鐘為時(shí)間片內(nèi)大氣電場(chǎng)儀接收的大氣電場(chǎng)數(shù)據(jù)和其探測(cè)范圍內(nèi)的地閃數(shù)據(jù)為一個(gè)樣本。本文采集了2019年的樣本數(shù)量共14723條,并以7:3的比例隨機(jī)劃分出訓(xùn)練集和驗(yàn)證集,再采集2020年的部分樣本作為測(cè)試集進(jìn)行對(duì)模型的評(píng)價(jià)。
大氣電場(chǎng)儀在一段時(shí)間內(nèi)得到的電場(chǎng)時(shí)間序列包含了電場(chǎng)波形變化特征,本文的試驗(yàn)中先進(jìn)行特征分析與挖掘,得到能夠映射雷電發(fā)生事件的預(yù)測(cè)因子,再進(jìn)行建模。本文采用集成學(xué)習(xí)的方法對(duì)雷電預(yù)警進(jìn)行試驗(yàn)研究。集成是一種把多個(gè)學(xué)習(xí)器組合起來,捕獲數(shù)據(jù)中線性和非線性關(guān)系的方法,能更有效地描述特征和雷電之間的關(guān)系,能夠降低模型的方差或偏差,使得模型更加穩(wěn)定,并在一定程度上降低過擬合。
3.1.1 預(yù)測(cè)量分析
本文的試驗(yàn)利用閃電定位數(shù)據(jù)中的地閃資料來確定雷電過程。首先確定以30分鐘為一個(gè)時(shí)間片,接著采集一個(gè)時(shí)間片內(nèi)的數(shù)據(jù)特征作為預(yù)測(cè)因子,預(yù)測(cè)量則是在緊接著的下一個(gè)時(shí)間片中,以大氣電場(chǎng)儀為中心,15 km為半徑的圓內(nèi)的閃電事件,預(yù)測(cè)因子和預(yù)測(cè)量的關(guān)系是特征值到事件的映射。將預(yù)測(cè)量作為模型的輸入標(biāo)簽,發(fā)生閃電事件,預(yù)測(cè)量標(biāo)簽為1;不發(fā)生閃電事件,預(yù)測(cè)量標(biāo)簽為0。
3.1.2 預(yù)測(cè)因子分析
為了準(zhǔn)確預(yù)測(cè)雷電的發(fā)生,國(guó)內(nèi)外研究人員提出了許多基于大氣電場(chǎng)和閃電定位數(shù)據(jù)的參數(shù)因子[10,13],本文對(duì)兩種數(shù)據(jù)進(jìn)行預(yù)處理提取有關(guān)特征,并根據(jù)大氣電場(chǎng)的性質(zhì)重新進(jìn)行特征的分析與篩選。
大氣電場(chǎng)儀提供的數(shù)據(jù)根據(jù)樣本的設(shè)置是切分在大小為30分鐘的時(shí)間片中,內(nèi)容為大氣電場(chǎng)強(qiáng)度值的時(shí)間序列。若將時(shí)間片內(nèi)所有電場(chǎng)強(qiáng)度值作為特征輸入到模型,會(huì)造成信息冗余,因此從每個(gè)時(shí)間片中提取最大值、最小值、方差、反轉(zhuǎn)次數(shù)等能夠反映時(shí)間序列的聚合特征。為了更有效地分析波動(dòng)現(xiàn)象的曲線,對(duì)大氣電場(chǎng)序列進(jìn)行一階差分處理,一階差分是指在序列中用連續(xù)相鄰的兩項(xiàng)做差,達(dá)到近似導(dǎo)數(shù)的效果,從而減輕了數(shù)據(jù)間不規(guī)律的波動(dòng),使曲線更加平穩(wěn),它更多的提供包含其趨勢(shì)性、窗口差異性、自相關(guān)性的復(fù)合特征。
對(duì)提取的特征進(jìn)行了相關(guān)性分析,用于分析這些預(yù)測(cè)因子與作為預(yù)測(cè)量的下一時(shí)間片內(nèi)閃電事件的相關(guān)性,計(jì)算預(yù)測(cè)因子X與預(yù)測(cè)量Y的協(xié)方差和標(biāo)準(zhǔn)差,運(yùn)用下式計(jì)算出皮爾森相關(guān)性系數(shù),其系數(shù)值在-1.0~1.0之間:
經(jīng)過對(duì)每個(gè)預(yù)測(cè)因子和預(yù)測(cè)量對(duì)應(yīng)的相關(guān)性計(jì)算后,結(jié)果表明電場(chǎng)探測(cè)量、電場(chǎng)全距、極性反轉(zhuǎn)、電場(chǎng)值差分全距、電場(chǎng)值差分最大值、電場(chǎng)值差分絕對(duì)值均值、接近閃電這7個(gè)預(yù)測(cè)因子的相關(guān)性系數(shù)達(dá)到0.3以上,可認(rèn)為是與閃電事件有相關(guān)性,因而選取這7個(gè)預(yù)測(cè)因子作為模型的輸入特征。預(yù)測(cè)因子的分析結(jié)果見表1。
表1 預(yù)測(cè)因子及其相關(guān)性分析
3.1.3 歸一化處理
預(yù)測(cè)因子的量級(jí)、單位不統(tǒng)一,若直接采用原始數(shù)據(jù),可能會(huì)在模型的迭代過程中導(dǎo)致梯度消失或梯度爆炸,從而嚴(yán)重影響模型的性能。為了防止預(yù)測(cè)因子之間的量級(jí)差異過大,需要對(duì)預(yù)測(cè)因子進(jìn)行歸一化處理,將數(shù)據(jù)特征值映射到范圍為[0,1]的區(qū)間內(nèi),使得模型能夠?qū)Σ煌A(yù)測(cè)因子進(jìn)行加權(quán)運(yùn)算。歸一化表達(dá)式如下:
神經(jīng)網(wǎng)絡(luò)是集成學(xué)習(xí)中的同質(zhì)模型較常用的分類器,并且也是在雷電及相關(guān)領(lǐng)域較常用的模型之一[14-16]。本文中采用的神經(jīng)網(wǎng)絡(luò)是BP神經(jīng)網(wǎng)絡(luò)(Back Propagation Neuron Net Wok)。BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)上與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)一樣,包括輸入層、隱含層和輸出層,每層的神經(jīng)元都與下一層的神經(jīng)元完全相連(圖2)。
圖2 BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
BP神經(jīng)網(wǎng)絡(luò)的特點(diǎn)是信號(hào)正向傳播,誤差反向傳播,它通過誤差反饋不斷地調(diào)整網(wǎng)絡(luò)的權(quán)值和閾值,使得輸出結(jié)果的誤差逐漸降低,從而逼近期望輸出。BP神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程主要分兩步。
步驟一:正向傳播。從輸入層導(dǎo)入訓(xùn)練樣本,計(jì)算各層的輸入和輸出:
式(3)和式(4)分別是輸入層到隱含層、隱含層到輸出層的傳播關(guān)系,其中X是輸入層樣本,H是隱含層的值,Y是輸出層的值,其下標(biāo)分別是該層對(duì)應(yīng)的神經(jīng)元編號(hào);W是神經(jīng)元之間的連接權(quán)值,B是神經(jīng)元的閾值。
步驟二:逆向反饋。計(jì)算在輸出層得到的數(shù)據(jù)與訓(xùn)練樣本之間的誤差,反向傳播到輸入層和隱含層,通過梯度下降的方式修正連接權(quán)值和閾值:
式(5)是計(jì)算每個(gè)神經(jīng)元的誤差,S是訓(xùn)練樣本,Y是輸出層的值;式(6)和式(7)是對(duì)連接權(quán)值和閾值的修正,λ表示學(xué)習(xí)速率。
Bagging和Boosting是兩種集成學(xué)習(xí)應(yīng)用在同質(zhì)弱分類器常用的方法,將弱分類器融合形成精確度更高、魯棒性更好的強(qiáng)分類器。
3.3.1 Bagging
Bagging也可稱為“套袋法”,通過并行訓(xùn)練多個(gè)基分類器,使用投票的方式統(tǒng)計(jì)它們的預(yù)測(cè)結(jié)果,從而有效提高模型整體的準(zhǔn)確率。具體的流程為:(1)有放回地隨機(jī)抽取n個(gè)樣本,重復(fù)k次,得到k個(gè)訓(xùn)練集;(2)每個(gè)訓(xùn)練集訓(xùn)練一個(gè)基分類器,共得到k個(gè)模型;(3)上述的k個(gè)模型擁有相同的權(quán)值比重,采用投票法得到分類器結(jié)果。
3.3.2 Adaboost
Boosting與可并行的Bagging不同,它是通過串行訓(xùn)練弱分類器,再進(jìn)行集成。其中Adaboost是最具代表性的Boosting方法,它能夠自適應(yīng)弱分類器的訓(xùn)練誤差率,通過把每個(gè)弱分類器的學(xué)習(xí)經(jīng)驗(yàn)傳遞到下一個(gè)弱分類器。具體的流程為:(1)初始化所有樣本的權(quán)重都相同;(2)利用樣本訓(xùn)練基分類器,計(jì)算訓(xùn)練誤差率;(3)根據(jù)訓(xùn)練誤差率調(diào)整樣本的權(quán)重分布,被誤分的樣本權(quán)重增大,分類正確的樣本權(quán)重降低;(4)迭代(2)、(3)過程k次,基分類器的權(quán)重隨著迭代次數(shù)增加而增大,最后將k個(gè)基分類器按權(quán)重組合得到強(qiáng)分類器。
由于本文中的模型是一個(gè)二分類模型,因此可采用混淆矩陣(confusion matrix)及其相關(guān)指標(biāo)來幫助評(píng)價(jià)模型并進(jìn)行對(duì)比?;煜仃囍?,列為真實(shí)值的正負(fù)標(biāo)簽,行為預(yù)測(cè)值的正負(fù)標(biāo)簽,矩陣中的值是用于統(tǒng)計(jì)分類模型的歸類正負(fù)的數(shù)量(表2)。
表2 混淆矩陣
基于混淆矩陣,可得出精確率、召回率和F1值三個(gè)指標(biāo)。
精確率(Precision),即正確預(yù)測(cè)為真值占所有預(yù)測(cè)為真值的比例,是針對(duì)預(yù)測(cè)結(jié)果,同時(shí)也可用于得到更易于解釋的誤報(bào)率(FPR)。公式如下:
召回率(Recall),即正確預(yù)測(cè)為真值占所有真實(shí)為真值的比例,是針對(duì)原始樣本,同時(shí)也可用于得到更易于解釋的漏報(bào)率(FNR)。公式如下:
F1值是精確率和召喚率的調(diào)和平均值,公式如下:
4.2.1 特征提取對(duì)比試驗(yàn)
本文利用特征分析后重新選擇的特征與田浩等[11]采用的大氣電場(chǎng)6項(xiàng)特征進(jìn)行對(duì)比試驗(yàn),通過訓(xùn)練相同的樣本和采用BP神經(jīng)網(wǎng)絡(luò)作為模型,并以2020年的部分樣本作為測(cè)試,圖3的柱狀圖是兩種不同特征采樣在誤報(bào)率、漏報(bào)率和F1值上的結(jié)果。
從圖3可看出,6項(xiàng)特征的誤報(bào)率和漏報(bào)率較高,不適用于本文試驗(yàn)中的數(shù)據(jù)。在經(jīng)過重新采集特征后,BP神經(jīng)網(wǎng)絡(luò)模型的誤報(bào)率降低了16.83%,漏報(bào)率降低了15.19%,證明了經(jīng)過特征分析后選取的預(yù)測(cè)因子更適合廣州地區(qū)的電場(chǎng)與地閃資料進(jìn)行雷電預(yù)警。
4.2.2 集成學(xué)習(xí)對(duì)比試驗(yàn)
在經(jīng)過特征的分析與篩選的前提下,本文的試驗(yàn)采用BP神經(jīng)網(wǎng)絡(luò)作為基分類器,與其用Bagging和Adaboost集成后的強(qiáng)分類器作對(duì)比,通過利用同樣的訓(xùn)練樣本訓(xùn)練模型,測(cè)試驗(yàn)證樣本計(jì)算評(píng)價(jià)指標(biāo)。圖4是在訓(xùn)練樣本、驗(yàn)證樣本和其他條件與4.2.1節(jié)相同的情況下,BP神經(jīng)網(wǎng)絡(luò)和分別與Baggging、Adaboost集成模型指標(biāo)上的結(jié)果,同樣展示其誤報(bào)率、漏報(bào)率和F1值。
從圖4中可看出,BP神經(jīng)網(wǎng)絡(luò)集成后,其模型的準(zhǔn)確率有所提升。其中Bagging的方法提升幅度相對(duì)較小,Adaboost的方法提升幅度相對(duì)較大。在上述所有集成方法和單一弱分類器的對(duì)比中,平均的誤報(bào)率降低了11.46%,平均的漏報(bào)率降低了4.73%。
圖4 BP神經(jīng)網(wǎng)絡(luò)與使用集成模型后的對(duì)比
綜合考慮上述模型中預(yù)警雷電的誤報(bào)率和漏報(bào)率,BP神經(jīng)網(wǎng)絡(luò)的Adaboost集成模型的F1值最高,其值為73.89%,比集成前提高了9.25%,對(duì)應(yīng)的誤報(bào)率降低了12.19%,漏報(bào)率降低了5.19%。
從數(shù)據(jù)中可分析得出,使用集成方法后對(duì)比原始的基分類器在預(yù)測(cè)準(zhǔn)確率上有較好的提升,這是得益于集成模型能有效捕獲到數(shù)據(jù)的線性和非線性關(guān)系,從而學(xué)習(xí)到雷電事件發(fā)生的規(guī)律,并集合多個(gè)基分類器修正預(yù)測(cè)結(jié)果,使模型擁有更好的容錯(cuò)性。但同時(shí)也可見模型的漏報(bào)率降低幅度較小,可能的原因是數(shù)據(jù)的來源只有大氣電場(chǎng)資料和閃電定位資料,缺乏其他能影響雷電天氣變化的氣象特征,從而限制了集成模型的提升。
(1)大氣電場(chǎng)資料和地閃數(shù)據(jù)與大氣電場(chǎng)儀探測(cè)范圍內(nèi)的雷電事件有一定的相關(guān)性,通過挖掘其中的特征能更有效地提取預(yù)測(cè)因子,結(jié)合規(guī)定好以30分鐘為單位的時(shí)間片作為預(yù)測(cè)量,能直接應(yīng)用于常用的BP神經(jīng)網(wǎng)絡(luò)模型中。經(jīng)過特征分析和選擇后的預(yù)測(cè)因子在廣州市黃埔地區(qū)的電場(chǎng)和地閃資料上表現(xiàn)得更好,試驗(yàn)結(jié)果比當(dāng)前研究采取的6項(xiàng)特征誤報(bào)率降低了16.83%,漏報(bào)率降低了15.19%。
(2)采取了在雷電預(yù)警常用的基分類模型BP神經(jīng)網(wǎng)絡(luò),分別利用Bagging和Adaboost的方法分別集成的強(qiáng)分類模型進(jìn)行訓(xùn)練與預(yù)測(cè),通過相關(guān)指標(biāo)來評(píng)價(jià)它們的結(jié)果。結(jié)果表明利用集成學(xué)習(xí)后預(yù)測(cè)性能都有所提升,其中以Adaboost方法最顯著,其最高的F1值能達(dá)到73.89%,對(duì)應(yīng)的誤報(bào)率降低了12.19%,漏報(bào)率降低了5.19%。
本文提出的集成方法通過試驗(yàn)證明了集成模型在雷電預(yù)警中的有效性和可靠性,并為不同的基分類器的集成提供了指導(dǎo)方向。但本文的方法是以廣州市黃埔區(qū)的大氣電場(chǎng)資料和地閃資料為對(duì)象進(jìn)行分析與探討,在實(shí)際的應(yīng)用中需要收集足夠多的樣本,并根據(jù)地區(qū)差異調(diào)整模型參數(shù)進(jìn)行驗(yàn)證。