彭宇翔,文繼芬,李 皓,劉 濤,唐辟如,郭 茜
(1.貴州省人工影響天氣辦公室,貴州 貴陽(yáng) 550081;2.貴州省氣象災(zāi)害防御技術(shù)中心,貴州 貴陽(yáng) 550081;3.貴州省氣象信息中心,貴州 貴陽(yáng) 550002)
FY-2G衛(wèi)星觀測(cè)資料是目前我國(guó)人工影響天氣業(yè)務(wù)主要使用的衛(wèi)星資料,中國(guó)氣象局人工影響天氣中心基于FY-2G衛(wèi)星提供的云頂高度、云頂溫度、過(guò)冷層厚度、光學(xué)厚度、有效粒子半徑、液水路徑、黑體亮溫等7項(xiàng)反演產(chǎn)品在我國(guó)人工影響天氣監(jiān)測(cè)預(yù)警業(yè)務(wù)中發(fā)揮了重要作用。
近年來(lái),很多學(xué)者利用衛(wèi)星紅外云圖、可見(jiàn)光、中波紅外等資料針對(duì)對(duì)流云的識(shí)別開(kāi)展了研究[1-5],倪煜淮等[3]利用FY-2D逐小時(shí)亮溫資料對(duì)2019年一次冰雹天氣過(guò)程進(jìn)行了分析研究;針對(duì)衛(wèi)星反演產(chǎn)品也有相關(guān)研究,安曉存等[5]分析了云頂亮溫、云頂亮溫梯度特征與冰雹的關(guān)系;孫玉穩(wěn)等[7]分析了1987年5次降雹個(gè)例的云系的云頂溫度與地面雹雨分布特征;劉小艷等[8]利用CPAS系統(tǒng)統(tǒng)計(jì)分析了冰雹個(gè)例中FY-2G衛(wèi)星反演產(chǎn)品的特征參數(shù)及其時(shí)間變化。但是,現(xiàn)階段還沒(méi)有學(xué)者利用FY-2G衛(wèi)星反演產(chǎn)品進(jìn)行降雹識(shí)別研究。FY-2G衛(wèi)星提供的反演產(chǎn)品雖已用于貴州人工影響天氣監(jiān)測(cè)預(yù)警業(yè)務(wù),但針對(duì)冰雹云的監(jiān)測(cè)還主要是依靠地面雷達(dá),衛(wèi)星反演產(chǎn)品主要是對(duì)全省云系發(fā)展進(jìn)行較大范圍的宏觀監(jiān)測(cè),且主要是依靠個(gè)人經(jīng)驗(yàn)進(jìn)行主觀定性判斷,針對(duì)反演產(chǎn)品對(duì)降雹是否具有實(shí)質(zhì)性的指示作用還沒(méi)有進(jìn)行過(guò)深入研究。因此,本研究主要基于FY-2G衛(wèi)星反演產(chǎn)品,建立決策樹(shù)降雹識(shí)別模型,驗(yàn)證衛(wèi)星反演產(chǎn)品對(duì)冰雹的識(shí)別作業(yè)。
本文以FY-2G衛(wèi)星的反演產(chǎn)品為輸入?yún)?shù)建立決策樹(shù)模型,利用檢驗(yàn)集數(shù)據(jù)檢驗(yàn)?zāi)P妥R(shí)別效果,檢驗(yàn)衛(wèi)星反演產(chǎn)品對(duì)降雹識(shí)別研究的有效性。
FY-2G是風(fēng)云二號(hào)(03批)衛(wèi)星中的第二顆衛(wèi)星,于2014年12月31日成功發(fā)射,自2015年7月1日開(kāi)始定位于105°E赤道上空,并提供觀測(cè)服務(wù),是目前我國(guó)人工影響天氣業(yè)務(wù)主要使用的衛(wèi)星資料,中國(guó)氣象局人工影響天氣中心基于FY-2G衛(wèi)星提供的云頂高度、云頂溫度、過(guò)冷層厚度、光學(xué)厚度、有效粒子半徑、液水路徑、黑體亮溫等7項(xiàng)反演產(chǎn)品在我國(guó)人工影響天氣監(jiān)測(cè)預(yù)警業(yè)務(wù)中發(fā)揮了重要作用。
本文收集了2020年3—5月11個(gè)冰雹日136組FY-2G衛(wèi)星反演產(chǎn)品數(shù)據(jù),其中包括了68個(gè)降雹點(diǎn)數(shù)據(jù)和68個(gè)未降雹點(diǎn)數(shù)據(jù),每個(gè)降雹點(diǎn)選取降雹時(shí)段之前或者之后15 min內(nèi)的反演產(chǎn)品作為該時(shí)段的反演數(shù)據(jù),選取該11個(gè)冰雹日中未降雹點(diǎn)的反演數(shù)據(jù)作為對(duì)比。將該數(shù)據(jù)集分為模型訓(xùn)練集和模型檢驗(yàn)集。從中隨機(jī)選取116組數(shù)據(jù)作為模型訓(xùn)練集用于訓(xùn)練模型(其中包括58組降雹點(diǎn)和58組未降雹點(diǎn)數(shù)據(jù)),剩余20組數(shù)據(jù)作為模型檢驗(yàn)集(其中包括10組降雹點(diǎn)和10組未降雹點(diǎn)數(shù)據(jù))。
決策樹(shù)是一個(gè)預(yù)測(cè)模型,他代表的是對(duì)象屬性與對(duì)象值之間的一種映射關(guān)系。樹(shù)中每個(gè)節(jié)點(diǎn)表示某個(gè)對(duì)象,每個(gè)分叉路徑代表某個(gè)可能的屬性值,每個(gè)葉結(jié)點(diǎn)對(duì)應(yīng)從根節(jié)點(diǎn)到該葉節(jié)點(diǎn)所經(jīng)歷的路徑所表示的對(duì)象的值。決策樹(shù)僅有單一輸出,若欲有復(fù)數(shù)輸出,可以建立獨(dú)立的決策樹(shù)以處理不同輸出。數(shù)據(jù)挖掘中決策樹(shù)是一種經(jīng)常要用到的技術(shù),可以用于分析數(shù)據(jù),同樣也可以用來(lái)作預(yù)測(cè)。
圖1 決策樹(shù)模型示意圖Fig.1 Schematic diagram of decision tree model
從數(shù)據(jù)產(chǎn)生決策樹(shù)的機(jī)器學(xué)習(xí)技術(shù)叫做決策樹(shù)學(xué)習(xí)。每個(gè)決策樹(shù)都表述了一種樹(shù)型結(jié)構(gòu),由它的分支來(lái)對(duì)該類(lèi)型的對(duì)象依靠屬性進(jìn)行分類(lèi)。每個(gè)決策樹(shù)可以依靠對(duì)源數(shù)據(jù)庫(kù)的分割進(jìn)行數(shù)據(jù)測(cè)試。決策樹(shù)如果依靠數(shù)學(xué)的計(jì)算方法可以取得更加理想的效果。
在2020年3—5月11個(gè)冰雹日136組FY-2G衛(wèi)星反演產(chǎn)品數(shù)據(jù)中隨機(jī)選取116組數(shù)據(jù)作為模型訓(xùn)練集用于訓(xùn)練模型(其中包括58組降雹點(diǎn)和58組未降雹點(diǎn)數(shù)據(jù)),利用MATLAB軟件完成決策樹(shù)模型建立。
2020年3—5月11個(gè)冰雹日136組FY-2G衛(wèi)星反演產(chǎn)品數(shù)據(jù)中建模隨機(jī)選取116組數(shù)據(jù)后剩余的20組數(shù)據(jù)作為模型檢驗(yàn)集(其中包括10組降雹點(diǎn)和10組未降雹點(diǎn)數(shù)據(jù))對(duì)模型識(shí)別效果進(jìn)行檢驗(yàn),結(jié)果顯示:所建決策樹(shù)模型對(duì)訓(xùn)練集中10個(gè)降雹點(diǎn)準(zhǔn)確識(shí)別了7個(gè),3個(gè)降雹點(diǎn)被識(shí)別為未降雹點(diǎn);對(duì)10個(gè)未降雹點(diǎn)準(zhǔn)確識(shí)別了9個(gè),1個(gè)未降雹點(diǎn)被識(shí)別為了降雹點(diǎn)。
可見(jiàn),所建決策樹(shù)模型對(duì)降雹與未降雹點(diǎn)總的識(shí)別準(zhǔn)確率為80%,其中對(duì)10個(gè)未降雹點(diǎn)識(shí)別準(zhǔn)確率為90%,對(duì)10個(gè)降雹點(diǎn)識(shí)別準(zhǔn)確率為70%。這表明該模型對(duì)所建立數(shù)據(jù)集中的未降雹點(diǎn)識(shí)別準(zhǔn)確率高于降雹點(diǎn)的識(shí)別準(zhǔn)確率;將降雹點(diǎn)識(shí)別為未降雹會(huì)導(dǎo)致實(shí)際業(yè)務(wù)中的漏報(bào),而將未降雹點(diǎn)識(shí)別為降雹點(diǎn)會(huì)導(dǎo)致空?qǐng)?bào),因此,所建立的模型空?qǐng)?bào)率為10%,漏報(bào)率為30%,空?qǐng)?bào)率低于漏報(bào)率。
本文以FY-2G衛(wèi)星的反演產(chǎn)品為輸入?yún)?shù)建立決策樹(shù)模型,對(duì)2020年貴州冰雹云進(jìn)行識(shí)別研究,所使用的7項(xiàng)反演產(chǎn)品包括:云頂高度、云頂溫度、過(guò)冷層厚度、光學(xué)厚度、有效粒子半徑、液水路徑、黑體亮溫。將收集的2020年3—5月11個(gè)冰雹日136組FY-2G衛(wèi)星反演產(chǎn)品數(shù)據(jù),其中包括了68個(gè)降雹點(diǎn)數(shù)據(jù)和68個(gè)未降雹點(diǎn)數(shù)據(jù)分為模型訓(xùn)練集和模型檢驗(yàn)集。從中隨機(jī)選取116組數(shù)據(jù)作為模型訓(xùn)練集用于訓(xùn)練模型,完成決策樹(shù)模型建立,利用剩余20組數(shù)據(jù)作為模型檢驗(yàn)集,驗(yàn)證模型識(shí)別效果。結(jié)果表明,所建模型冰雹識(shí)別準(zhǔn)確率為80%,其中對(duì)10個(gè)降雹點(diǎn)識(shí)別準(zhǔn)確率為70%,對(duì)10個(gè)未降雹點(diǎn)識(shí)別準(zhǔn)確率為90%,這表明該模型對(duì)所建立數(shù)據(jù)集中的未降雹點(diǎn)識(shí)別準(zhǔn)確率高于降雹點(diǎn)的識(shí)別準(zhǔn)確率。將降雹點(diǎn)識(shí)別為未降雹會(huì)導(dǎo)致實(shí)際業(yè)務(wù)中的漏報(bào),而將未降雹點(diǎn)識(shí)別為降雹點(diǎn)會(huì)導(dǎo)致空?qǐng)?bào),所建立的模型空?qǐng)?bào)率(10%)低于漏報(bào)率(30%),這表明該模型如果投入人工影響天氣冰雹識(shí)別業(yè)務(wù),則該模型的空?qǐng)?bào)率較低,但存在一定程度的漏報(bào)。