卓健,廖勝石,陳少斌,韓宇龍,奉意杰
(崇左市氣象局,崇左 532200)
雷達資料大量應用于短時臨近預報業(yè)務中,對天氣雷達資料的應用已積累了大量經(jīng)驗,但是在雷達資料自動識別領域研究相對較少,使用的方法較復雜,不適用于對海量雷達數(shù)據(jù)進行處理。例如在雷達回波外推業(yè)務中,需要對外推結(jié)果進行評估,不少學者在這方面開展了研究。曾小團等[1]將外推得到的雷達產(chǎn)品與實況產(chǎn)品采用格點對格點逐一檢驗,計算出各點外推結(jié)果與實況的偏離程度。曹春燕等[2]方法基本相同,標準簡化到是否出現(xiàn)回波。張蕾等[3]將出現(xiàn)閾值以上為活躍點,某點預報與實況均為活躍則記為正確。這一類方法我們稱之為重疊區(qū)域比較法。重疊區(qū)域比較法的優(yōu)點是定義明確,計算結(jié)果清晰,對于大面積少變化的回波容易獲得較高的評分。重疊區(qū)域比較法也有不便之處,例如對同一時次的同一塊回波,在不同雷達的產(chǎn)品中由于作為觀測者的雷達站與回波相對位置不同,若只根據(jù)產(chǎn)品圖片,重疊區(qū)域比較法無法將其識別出來。對于不同過程,但是相似度非常高的回波,若僅有旋轉(zhuǎn)角度的差異,重疊區(qū)域比較法即使能將其判別出來計算量也非常巨大。在查詢雷達回波與歷史過程的相似應用中,使用重疊區(qū)域比較法每次查閱比對都需要把要比對的歷史數(shù)據(jù)重新讀取計算一次。以上種種不便,需要我們引入一種高效、快速的計算手段。
對回波外推結(jié)果的判別和查找歷史相似,都可以看作回波相似度的判別。在計算機對新聞的自動分類時[4],根據(jù)稿件中主題詞的使用頻率作為特征向量,使用兩個特征向量的夾角定量衡量它們之間的相似性,本文參照這一思路,根據(jù)雷達回波特點,提出雷達回波特征向量這一概念。
雷達回波特征向量使得兩兩雷達回波圖像比較可以使用計算的方法進行,在業(yè)務實際運用中,這一方法可以用來尋找海量雷達回波產(chǎn)品中受干擾的樣本,也可以在實時業(yè)務中用于自動監(jiān)控,發(fā)現(xiàn)受干擾的雷達回波,降低人工勞動強度。
雷達回波特征向量還可以應用在雷達資料的聚類分析上,聚類分析是數(shù)據(jù)挖掘中解決其他問題的起點,特征分析與聚類技術(shù)在氣象系統(tǒng)內(nèi)多有研究[5-7],但是將聚類分析應用在雷達資料應用領域則比較少見,雷達回波特征向量的提出,使雷達數(shù)據(jù)可以利用聚類分析方法劃分成有意義和有用的蔟,本文采用k-means算法進行雷達回波圖像的聚類研究。
假設有如圖1(見彩頁)所示一組雷達組合反射率產(chǎn)品,對于源圖(圖1,見彩頁)和用于比較的三幅對比圖像(圖1b,c,d,見彩頁),人們可以輕易的區(qū)分出圖1d 有明顯區(qū)別,但是圖1b 與圖1c 則很難區(qū)分出誰更接近源圖。當有兩個不同的方法外推出的結(jié)果分別是圖1b和圖1c,需要研究一種客觀統(tǒng)一的標準評價標準,這種評價方法還要具有快速、節(jié)省空間的特點,以適應數(shù)據(jù)挖掘技術(shù)的需求。
根據(jù)經(jīng)典Z-I 關(guān)系公式Z=aIb,降水只與回波強度有關(guān),所以不同強度的回波可以看成對降水貢獻度不一致的因素,把每個體掃雷達產(chǎn)品中各個強度回波出現(xiàn)的次數(shù)分別統(tǒng)計并依次排列,就得到這個雷達產(chǎn)品的一個向量,我們用這個向量代表這個時次的回波,稱為雷達回波的特征向量(Feature Vector),向量中每一個維度的大小代表這個等級強度的回波對降水貢獻度。圖1為雷達組合反射率產(chǎn)品(單位為dBZ),數(shù)據(jù)包括無回波,從-5dB 開始每級間隔5dBZ 一直到65dBZ 及以上,共分為16 級。較強的回波才是對天氣變化的主要影響因素,所以我們只統(tǒng)計強度大于10dBZ 的回波,由此可以得到組合反射率產(chǎn)品一個12維的向量。每一時次雷達回波都可以對應這樣一個特征向量。當雷達回波用特征向量表示,就可以通過計算得到雷達回波相似度。
假設這樣一種情況,某次雷達產(chǎn)品回波面積只有1 個像素,回波強度為10dBZ,另一次同等強度回波面積為10 像素×10 像素,計算特征向量夾角,發(fā)現(xiàn)兩塊回波向量夾角余弦等于1,從這個例子可以看出特征向量夾角是一種無尺度的度量,它只是表明了要度量的兩個目標組成成分的比例差異。雖然雷達回波特征向量夾角與尺度無關(guān),但是本身的信息已經(jīng)包含了部分尺度信息,如圖形圖像學中的面積,對于成分比例基本一致,但是尺度差異較大的回波,可以在不增加信息量的情況進行區(qū)分。
對于雷達回波外推比較這種應用,由于是進行短時間外推,可以默認為兩個時次回波的尺度差異不大,所以對于這種應用直接使用特征向量距離進行判斷。
雷達產(chǎn)品受干擾產(chǎn)生突變或者雷達資料的聚類分析,都可以歸類為雷達資料相似度的比較,雷達回波特征向量在這一應用場景可以得到發(fā)揮。
本文使用雷達組合反射率產(chǎn)品來源全國綜合氣象信息共享平臺(CIMISS),使用氣象數(shù)據(jù)統(tǒng)一服務接口(MUSIC:Meteorological Unified Service Interface Community)獲取的RADA_L3_PUP_CREF 產(chǎn)品,選用南寧雷達站產(chǎn)品(站號Z9771),時間跨度從2016年8 月至2017 年9 月,共57228 個體掃文件。為后面計算方便,先對資料進行預處理,從開始時間逐個讀取雷達組合反射率產(chǎn)品,按照特征向量定義將編號、雷達產(chǎn)品時間和12 個特征向量維度統(tǒng)計值存入特征向量表(表1)。
表1 組合反射率回波特征向量
雷達產(chǎn)品有些時候會受到各種干擾,比如表現(xiàn)為圖片出現(xiàn)“麻點”,由于k-means 算法對噪聲點比較敏感,所以首先需要對噪聲進行識別剔除,若需人工手段從海量的數(shù)據(jù)中找出受干擾的產(chǎn)品是很難實現(xiàn)的問題,機器識別技術(shù)在這一方面就可以派上用場。
3.2.1 降維
人類比較容易理解二、三維的圖形,我們將雷達回波特征向量的12 個維度進行降維處理,轉(zhuǎn)換為2個維度以便觀察,用雷達掃描范圍內(nèi)笛卡爾坐標系上方最強回波反射率因子的合計值,以及這些回波占掃描范圍的百分比,這可以看作使用反射率因子總量和面積比例對雷達回波產(chǎn)品的一種全局性描述方法。
3.2.2 結(jié)果分析
將特征轉(zhuǎn)換得到的結(jié)果使用散點圖表示(圖略),發(fā)現(xiàn)右下紅圈位置有一明顯的離群點,根據(jù)編號查看對應的產(chǎn)品(圖略),發(fā)現(xiàn)這一體掃時次的產(chǎn)品包含大量強度大于45dBZ 的麻點,最強點回波強度達81dBZ,對比前后時次的同樣產(chǎn)品都不存在如此強度的回波,再使用相鄰時次向量余弦夾角時間序列變化觀察,發(fā)現(xiàn)在這一時次向量余弦夾角出現(xiàn)突變(圖略),其后恢復正常,查看強回波的分布形狀散亂無序,綜合以上因素,判斷這張圖片受到干擾,在下一步的試驗中做剔除處理。從近6 萬張的產(chǎn)品圖片找出僅有的一張受干擾圖片,由于已提前做過數(shù)據(jù)預處理,用特征轉(zhuǎn)換方法找出受干擾圖片幾乎不費時間雷達回波與降水的研究中,認為不同的天氣系統(tǒng)造成的降雨使用的Z-I 關(guān)系法的a,b 系數(shù)不同[8,9],但是如何自動識別出不同的天氣系統(tǒng)是個難題,本文嘗試研究一種方法,將回波分成幾個大的類型,這種方法可以為機器識別雷達回波對應的天氣系統(tǒng)打下基礎。
3.2.3 k-means聚類
雖然對于雷達回波與天氣系統(tǒng)的關(guān)系已經(jīng)有一定的研究,但是這些研究一般僅使用少量天氣過程的樣本,并沒有建立起一套完善的雷達回波分類定義,所以很難使用KNN(K-Nearest Neighbor)等算法將海量的雷達數(shù)據(jù)進行分類。若使用人工手段,對所有雷達資料進行類別標注的成本太高,這時候使用聚類方法是一個好的選擇,通過聚類,可以達到以下目的:
(1)從龐大的樣本集合中選出一些具有代表性的由專家加以標注;
(2)在無類別信息情況下,尋找好的特征。
聚類屬于機器學習的無監(jiān)督學習,傳統(tǒng)的聚類算法有劃分方法(partitioning method)、層次方法(hierarchical methods)、基于密度的方法(density-based methods)、基于網(wǎng)格的方法(grid-based methods)、基于模型的方法(model-based methods)。本文使用無監(jiān)督學習的k-means方法進行研究,k-means方法屬于劃分方法,它把n個對象根據(jù)他們的屬性分為k個聚類,使得所獲得的聚類滿足:同一聚類中的對象相似度較高;而不同聚類中的對象相似度較小。
3.2.4 試驗結(jié)果
試驗取k=10,隨機選擇10張雷達回波產(chǎn)品作為初始質(zhì)心,按照k-means方法迭代5000次,得到分為10 簇的回波,按聚類得到各簇的數(shù)量降序排列(圖略),取迭代結(jié)束后得到的簇心距離最近的一個時次圖像作為該簇代表圖像(圖略),可以看出各簇的代表圖像區(qū)別程度較大。試驗進行了多次,每次試驗所分得的簇代表圖像也接近,各輪次同類型簇大小基本一致,各簇簇內(nèi)數(shù)量差異度<2%,可見的雷達回波特征向量適合k-means聚類方法。
按聚類得到各簇的回波類型約占原始數(shù)據(jù)的一半,這類回波即弱切面積小,對應的天氣現(xiàn)象也基本一致,在進一步應用中,這類回波無須進一步分類,簡單的歸為一類即可。如對應的回波類型面積雖然比較大,但是回波并不強,可以考慮合并為同一類回波,如回波均有較大面積的強回波,兩類圖像總量6086 張,雖然數(shù)量還是比較大,但是已經(jīng)比原始數(shù)據(jù)小了很多,假如需要有效區(qū)分出更細致的強回波的類型,可以再引入其他特征向量進一步細分,同時可以使用人機結(jié)合的方法,將細分的小類交由專家給其打上標簽,值得注意的是,由于k-means算法的特點,比代表圖像強回波面積更大、強度更強的回波都被歸類到這兩類回波中,這兩類回波都是對強對流天氣深入研究的重點。如對應的回波的特點是有小范圍強度較大的回波,由于地面觀測站點比較稀疏,這類回波造成的降水等天氣現(xiàn)象不一定能被自動站觀測到,所以這類回波是否會造成局地強降水也是需要重點研究的地方。如回波面積不大,強度也不強,可以考慮合并為同一類回波。
程序使用一臺普通圖形工作站,主要配置:CPU Intel i5-4460S 2.90GHz,內(nèi)存12G。數(shù)據(jù)預處理部分共運算32min,使用預處理好的數(shù)據(jù)進行k-means聚類,每輪迭代5000次約耗時70min。
本文從雷達資料相似度判斷角度出發(fā),為處理海量雷達數(shù)據(jù),提出雷達回波特征向量這一概念,通過數(shù)學建模的方法,將復雜的相似度計算簡化成矢量計算。通過對特征向量的提取,將復雜圖像的特征信息簡化成一串數(shù)值串,便于存儲與計算。
在受干擾圖像自動識別實驗中,根據(jù)特征向量進行特征轉(zhuǎn)換可快速發(fā)現(xiàn)離群點,通過噪聲圖像產(chǎn)生前后雷達回波特征向量余弦夾角變化的時間變化序列,可以看出雷達回波特征向量余弦夾角可以應用在實時業(yè)務系統(tǒng)中,用于監(jiān)控回波的突變。
在雷達產(chǎn)品的聚類試驗中,對五萬多張雷達產(chǎn)品的多次聚類試驗表明,由于雷達回波特征向量的使用,使得雷達回波圖像的聚類分析可用計算的方法進行,計算快速,聚類效果良好。
本文的試驗表明雷達回波特征向量的引入使得處理海量雷達產(chǎn)品有了簡明、高效和可行的方法,是一種有益的嘗試,具有良好應用前景。