梁曉妮 任晨平 王志 陳仲瑜 柳婧 宋建洋
1 浙江省氣象服務中心,杭州 310017
2 中國氣象局公共氣象服務中心,北京 100081
能見度是表征大氣透明程度的重要物理量,與人類社會生產(chǎn)生活息息相關,當能見度過低時,會造成航班延誤、公路封閉、交通事故增多。目前,對低能見度出現(xiàn)的原因和預報模擬已經(jīng)有了大量的工作。常軍等(2007)對河南省45年的大霧日數(shù)進行分析研究,發(fā)現(xiàn)存在2~4年、8~10年和19~22年的周期變化。宗晨等(2019)利用連續(xù)的地面觀測數(shù)據(jù)分析研究了江蘇省夏季濃霧的時空分布特征及影響因子。朱承瑛等(2018)對江蘇省2013~2016年出現(xiàn)的4個強濃霧個例進行分析,得出了霧爆發(fā)增強的各種時間特征及微物理特征,并給出了爆發(fā)增強的本質(zhì)及爆發(fā)增強的觸發(fā)因子。王博妮等(2016)探討了江蘇省沿海高速公路的濃霧過程的氣候特征、氣象要素閾值以及主要的環(huán)流背景,萬齊林等(2004)研究了小地形動力作用對霧的重要影響。張利娜等(2008)、何立富等(2006)、張禮春等(2013)對大霧、濃霧過程的物理成因和環(huán)流特征進行了研究。吳兌等(2006)對珠江三角洲地區(qū)氣溶膠云造成的空氣質(zhì)量和能見度下降問題進行了研究。
而大霧有效服務的前提是對霧的準確監(jiān)測,常規(guī)的監(jiān)測方法是通過布設站點進行人工或儀器自動觀測,不僅耗費大量的人力物力,而且觀測站點的密度也難以滿足交通部門需要,氣象衛(wèi)星觀測資料具有覆蓋范圍廣、時空分辨率高的特點,使得其在監(jiān)測霧的生消動態(tài)方面具有獨特的優(yōu)勢。
劉年慶等(2007)使用風云1D的1、2、4、6、7、10這6個通道組合的支持向量機方法對大霧的判識正確率評分為74%。史達偉等(2018)利用幾種有監(jiān)督機器學習算法,針對連云港大霧天氣背景下的特強濃霧特征建立了診斷模型,其中LSVM(線性支持向量機) 算法對于特強濃霧的診斷模型測試效果最好,但算法可理解度較低、復雜度較高,不如CART(決策樹)算法易于使用。李亞春等(2000)利用低層云霧與陸地及洋面在長波紅外通道和短波紅外通道上亮溫的差異,來識別夜間的低層云霧,取得了一定的效果。李文娟等(2017)利用可見光和紅外通道雙通道閾值相結(jié)合,基本可以濾除海區(qū)、地表、冷云、厚云,在此基礎上,結(jié)合自動站相對濕度 92% 的閾值設定,濾除低濕區(qū),進一步細判識霧區(qū),識別效果優(yōu)于固定閾值,TS評分(Threat Score)達到62。王堅紅等(2019)利用FY-3A(風云三號A星)資料進行夜間大霧低能見度分布反演計算, 認為反演的低能見度區(qū)范圍及強度合理。并運用美國LAPS(局地分析與預報系統(tǒng)),與FNL(Final Operatinal Global Analysis)再分析資料多要素反演數(shù)據(jù)進行多源要素融合分析,結(jié)果表明融合效果對單來源資料反演的大霧低能見度分布有較好的改善。劉健等(1999)探討了用氣象衛(wèi)星的可見光和紅外探測通道分析云和霧中粒子大小分布的可行性,分析出具有通道3反射率小值的云中大粒子區(qū)與可降水區(qū)間存在有一定的關系,以及具有通道3反射率大值區(qū)與大霧覆蓋區(qū)之間具有良好對應性。劉建朝和周毓荃(2011)選用風云靜止衛(wèi)星反演的云光學厚度、云頂溫度、云頂高度、云有效粒子半徑作為特征分量,以Micaps (氣象信息綜合處理系統(tǒng))1 h雨量資料作為是否降水的類別標簽,建立預測降水與非降水的分類模型,降水類的預測準確率在40%~60%,非降水類的預測準確率在90%以上。王宏斌等(2018)利用葵花8號靜止衛(wèi)星的3.9 μm與11.2 μm通道亮溫差和3.9 μm偽比輻射率開展中國地區(qū)夜間霧的等級識別,結(jié)果表明識別1000 m以下霧的擊中率HR、虛警率FAR和KSS(Hanssen-Kuiper Skill Score)評分平均值分別是0.71、0.27和0.44;能見度小于500 m的擊中率HR、虛警率FAR和KSS評分平均值分別是0.78、0.25和0.53。
本文將結(jié)合地面觀測和FY-4(風云四號)衛(wèi)星觀測數(shù)據(jù),選取利用機器學習分類算法,進行浙江省能見度識別,并將結(jié)果插值到高速公路沿線交通站,針對高速公路大霧進行識別檢驗。
浙江省金麗溫高速公路金華段上布設有兩個交通氣象站(圖1),本文選取離這兩個站點最近的7個常規(guī)氣象站(金華、永康、武義、縉云、義烏、東陽和蘭溪)和FY-4衛(wèi)星數(shù)據(jù),進行機器學習分析。
圖1 浙江全省常規(guī)氣象站和金麗溫高速金華段交通氣象站分布Fig. 1 Distribution of meteorology observation stations in Zhejiang and traffic meteorological sations of Jinhua section of Jinliwen Expressway
氣象站數(shù)據(jù)選取2014~2018年上述7個氣象站5年的逐小時氣象要素,包括降雨量、風速、風向、相對濕度、氣溫、最高氣溫、最低氣溫、小時最高最低溫差、水汽壓、最大風速、前1 h最大風速、本站氣壓、露點溫度、最大風風向、10 m風速、10 m風向、前24 h最高最低溫差、前6 h最高最低溫差共18 h觀測要素值。對缺測值和異常值進行了修正,分別得到43824個有效數(shù)據(jù)樣本。
FY-4衛(wèi)星數(shù)據(jù)選取2018年全年中國區(qū)域的4 km分辨率的13個通道的逐小時數(shù)據(jù),分別為0.47 μm、0.65 μm、0.83 μm、1.37 μm、1.61 μm、2.22 μm、3.72 μm、6.25 μm、7.1 μm、8.5 μm、10.8 μm、12 μm、13.5 μm這13個通道數(shù)據(jù),其中可見光通道2個,紅外通道11個,水平分辨率為4 km的數(shù)據(jù),并利用定標表進行定標。利用反距離權(quán)重插值到地面7個氣象站點所在位置,獲得7個氣象站的FY-4衛(wèi)星13個通道的全年數(shù)據(jù)。由于僅有1年的數(shù)據(jù),因此將7個氣象站的數(shù)據(jù)合并進行機器學習訓練,得到61320條有效數(shù)據(jù)。
本文將能見度劃分為4個等級進行分類學習訓練,分別為小于500 m,大于500 m且小于1000 m,大于等于1000 m且小于10000 m和大于等于10000 m共4個等級(表1)。
表1 依據(jù)能見度大小進行4個等級分類Table 1 Four classifications based on visibility
由于這4個分類數(shù)據(jù)存在不均衡的情況,因此采用過采樣和欠采樣的方法對不均衡樣本進行重新處理。其中過采樣的算法采用SMOTE(Synthetic Minority Oversampling Technique)算法,欠采樣算法采用隨機欠采樣函數(shù)(random under sampler)。
SMOTE過采樣算法不是簡單的復制已有的數(shù)據(jù),而是基于距離度量的方式計算兩個或多個稀有類樣本之間的相似性。其基本原理是在近鄰少數(shù)類樣本間進行線性差值,合成新的樣本。具體為:假設過采樣倍數(shù)為N,首先從每個少數(shù)類樣本的K個同類最近鄰中隨機選擇N個樣本,然后將每個少數(shù)樣本分別與選中的N個樣本按照公式(1)合成N個少數(shù)類新樣本,最后將新樣本添加至原始訓練集中,形成新的訓練樣本集。
其中,i=1, 2, …,N,rand[0,1]表示0到1之間的一個隨機數(shù),xnew表示合成的新樣本,x表示少數(shù)類樣本,y[i]表示x的第i個近鄰樣本(王超學等,2014)。通過上述處理,氣象站數(shù)據(jù)的4個分類的樣本數(shù)分別為1500、3000、7000和10000,衛(wèi)星數(shù)據(jù)的樣本數(shù)分別為500、1000、3000和7000。
本文將采用3種評估方法對各能見度識別模型效果進行評估分析,3種方法分別為準確率評分法、分類報告方法、ROC(Receiver Operating Characteristic)曲線方法。
首先對于一個簡單的二分類問題,會出現(xiàn)4種情況:如果一個實例是正類并且被預測為正類,則為真正類(TP),如果實例是負類卻被預測為正類,則為假正類(FP),相反地,如果實例是負類被預測為負類,則為真負類(TN),若為正類被預測為負類,稱為假負類(FN)。
準確率Acy評分法定義為
其中,P為所有正類,N為所有負類。準確率評分法具有一定的局限性,尤其在不平衡數(shù)據(jù)集中,張曉龍等(2007)發(fā)現(xiàn)大數(shù)據(jù)樣本的得分會稀釋小數(shù)據(jù)樣本的得分,因此本文還將采用分類報告(如表2)評估結(jié)果效果。
表2 二分類問題的分類報告Table 2 Classification report of binary classification problems
準確率Acy、精確率Pre、負正類率FPR和召回率Rre(也即真正類率TPR的計算公式如下:
F1值是精確率和召回率的平均。精確率、召回率和F1值這3個量較準確率更多地考慮了對小數(shù)據(jù)樣本的評估,因而可作為算法評估的又一重要指標。
Drummond and Holte(2004)、Clearwater andStern (1991)、Caruana and Niculescu-Mizil (2004)分析認為ROC曲線具有更客觀的評價能力,其以FPR為橫坐標,以TPR為縱坐標,因此本文還利用了這一評價方法對模型進行評分。
利用隨機森林算法對前述降雨量、風速、風向、相對濕度、氣溫、最高氣溫、最低氣溫、小時最高最低溫差等18個變量的特征重要性進行排序,通過計算發(fā)現(xiàn)7個氣象站的排序結(jié)果基本一致,以金華站為例(圖2),從圖上可以看到,相對濕度、小時最低氣溫、前24 h溫差、前6 h溫差、氣溫等幾個變量的特征重要性較高。
圖2 金華站18個氣象變量的特征重要性排序Fig. 2 Importance ranking of the 18 meteorological variables at Jinhua station
計算7個氣象站的能見度與上述18個氣象要素的相關系數(shù),所得結(jié)果基本一致,表3顯示為金華站的結(jié)果。
表3 金華站能見度與18個氣象要素的相關系數(shù)Table 3 Correlation coefficient between visibility and the 18 meteorological factors at Jinhua station
從表3中可以看到相對濕度、氣溫、風速、最高氣溫、最低氣溫、最大風速、前1 h最大風速、本站氣壓、前6 h最高最低溫差和10 m風速與能見度的相關系數(shù)均大于0.38,且超過了0.001的顯著性檢驗。
圖3繪制了金華站2014~2018年能見度的日變化情況,可以看出能見度有著較為明顯日變化,白天能見度好于夜間,能見度最大值出現(xiàn)在14:00(北京時間,下同)左右,最低值出現(xiàn)于凌晨05:00前后。通過對不同范圍能見度出現(xiàn)頻次的統(tǒng)計(圖4a、圖4b),也說明了這一規(guī)律,低能見度出現(xiàn)的頻次均出現(xiàn)在后半夜。
圖3 2014~2018年金華地區(qū)能見度及其相關系數(shù)最高的10個氣象因子的日變化Fig. 3 Daily variation of visibility and ten meteorological factors with the highest visibility correlation coefficient in Jinhua region from 2014 to 2018
圖4 2014~2018年金華地區(qū)(a)500~1000 m、(b)200~500 m能見度出現(xiàn)頻次的日變化Fig. 4 Daily variation of visibility frequency (a) from 500 to 1000 m and (b) from 200 to 500 m in Jinhua region from 2014 to 2018
相對濕度、氣溫、風速等要素與能見度相關系數(shù)最大,其與能見度的日變化也密切相關。一般而言,白天氣溫高,相對濕度小,夜間氣溫下降,相對濕度增大。而溫度越高,混合層高度越高,則大氣對流運動越強烈,越有利于大霧擴散;相對濕度則影響微粒粒徑,當相對濕度較大時,粒子粒徑明顯增大(白永清等, 2016),根據(jù)米散射理論(Bohren and Huffman, 2008)散射效率增大,大氣透明度降低,能見度變差。而對于風速而言,在沒有明顯天氣系統(tǒng)影響下,一般由于溫度不均勻?qū)е乱归g風力變大,對于平流霧、鋒面霧及混合霧需要一定的風速維持。
根據(jù)以上分析結(jié)果,最終模型選擇特征重要性和相關系數(shù)比較大的10個變量進行機器學習。這10個變量分別是相對濕度、氣溫、風速、最高氣溫、最低氣溫、最大風速、前1 h最大風速、本站氣壓、前6 h最高最低溫差和10 m風速。
選取6種機器學習算法進行模型訓練,分別是邏輯回歸(LR)、線性判別(LDA)、K近鄰算法(KNN)、決策樹(CART)、高斯貝葉斯(NB)、支持向量機(SVM)。同時將數(shù)據(jù)以8:2的比例分離為訓練數(shù)據(jù)集和評估數(shù)據(jù)集,在訓練模型中采用了10折交叉驗證方法。分別對7個氣象站進行機器學習訓練,所得結(jié)果相差不大,均以金華站結(jié)果為例,如圖5顯示了金華站的6種機器學習方法的得分,基本反映了整體情況。
圖5 金華站6種機器學習方法訓練集準確率得分比較Fig. 5 Comparison of training set scores of six machine learning methods at Jinhua station
由圖5的箱線圖可以看到訓練集評估得分較高的機器學習方法是SVM,最高得分0.797分,平均得分0.795分。由于SVM方法模擬效果較好,以SVM方法為代表將訓練好的模型計算金華站的評估數(shù)據(jù)集的精確率、召回率和F1值,計算結(jié)果如表4,從表中可以看到SVM方法對各分類數(shù)據(jù)都具有較好的學習效果,尤其是在分類標簽為0的分類,即能見度小于500米的分類中精確率和召回率的得分也較高。
表4 金華站SVM方法的能見度評估數(shù)據(jù)集分類報告Table 4 Classification report of evaluation data set of visibility using SVM method by weather station model at Jinhua station
繪制金華站SVM算法的ROC曲線,同時將kernel參數(shù)設置為RBF(徑向基核函數(shù))。圖6中給出了每一分類的ROC曲線,且area為計算的AUC指標,AUC指ROC曲線下的面積與單位面積的比,值越大預示著具有較好的性能。
圖6 金華站SVM方法的ROC曲線Fig. 6 ROC (Receiver Operating Characteristic) curve of SVM(Support Vector Machine) method at Jinhua
從圖6我們也可以看到與表4類似的結(jié)果,SVM方法對4個分類的性能排序為第一分類優(yōu)于第二分類優(yōu)于第四分類優(yōu)于第三分類,也就是對能見度小于500 m和能見度在500 m到1000 m之間的性能是最佳的,且其AUC值也最大,說明SVM方法不僅能預測出低能見度事件同時漏報事件也較少,這在實際應用中是比較可靠的結(jié)果。
采用與氣象站機器學習訓練相同的算法和評估方法,如圖7為6種機器學習算法的準確率得分比較,圖8a–8c分別對應為KNN、CART和SVM算法的ROC曲線。
圖7 FY-4衛(wèi)星6種機器學習方法訓練集準確率得分比較Fig. 7 Comparison of training set scores of the six machine learning methods of Fengyun-4 satellite
圖8 FY-4衛(wèi)星(a)SVM算法、(b)CART算法、(c)KNN算法的ROC曲線Fig. 8 ROC curve of (a) SVM method, (b) CART method, and (c)KNN (K-Nearest Neighbor algorithm) method about Fengyun-4 satellite
從圖7可以看到KNN算法效果最好,平均得分0.77,其次是CART和SVM,分別對這3種算法再繪制ROC曲線,如圖8a–8c。從ROC曲線中看到SVM算法的效果最好,且對第一和第二分類的學習效果是最好的。
再對評估數(shù)據(jù)集計算SVM方法的分類報告數(shù)據(jù),如表5,也可以得到與ROC曲線所示基本一致的結(jié)論。對第一分類和第二分類的精確率和召回率的計算結(jié)果好于第三分類和第四分類,這將非常有助于對高速公路上大霧、濃霧天氣的識別和短臨預警。
表5 衛(wèi)星SVM方法的能見度評估數(shù)據(jù)集分類報告Table 5 Classification report of evaluation data set of visibility using SVM method by satellite model
從以上分析可以看到,F(xiàn)Y-4衛(wèi)星對低能見度天氣也具有較好的機器學習能力,與地面氣象站的結(jié)果基本一致,能較好地彌補地面氣象站不足的問題,可作為低能見度天氣識別的有效補充。
上述結(jié)果將13個通道的數(shù)據(jù)都加入了機器學習進行訓練,但從衛(wèi)星各通道數(shù)據(jù)的重要性排序結(jié)果上看(圖略),在白天和夜間,不同通道對能見度識別結(jié)果的貢獻是不一樣的。下一節(jié)將選取特征重要性更高的要素并結(jié)合地面觀測和衛(wèi)星數(shù)據(jù)分時段建立大霧識別模型,進一步討論識別效果。
結(jié)合地面觀測數(shù)據(jù)和衛(wèi)星通道數(shù)據(jù)分白天和夜間兩個時段建立大霧識別模型。首先,運用隨機森林算法對所有要素進行重要性排序,如圖9可見,在白天時段特征重要性較高的前14個要素分別是:相對濕度、最低氣溫、氣溫、前6 h最高最低溫差、最高氣溫、本站氣壓、前1 h最大風速、通道4、通道9、通道10、通道11、通道5、通道13和通道1。夜間時段特征重要性較高的前14個要素分別是相對濕度、最高氣溫、前6 h最高最低溫差、氣溫、本站氣壓、最低氣溫、通道9、前1 h最大風速、最大風速、通道10、通道4、通道13、通道8、通道11等。
圖9 結(jié)合(a)白天、(b)夜間地面觀測和衛(wèi)星通道數(shù)據(jù)的特征重要性排序Fig. 9 Importance ranking of ground observation and satellite of (a) day time and (b) night time variables
通過查看衛(wèi)星各通道數(shù)據(jù),發(fā)現(xiàn)衛(wèi)星數(shù)據(jù)幾個通道的特征重要性與通道的數(shù)據(jù)質(zhì)量有較大關系。在兩個可見光通道中,通道1的數(shù)據(jù)質(zhì)量好于通道2,所以在白天的特征重要性中,只有通道1的排序較靠前,對于通道4、通道9、通道10、通道11、通道13幾個通道數(shù)據(jù),其缺測和異常值均較少,因而在白天和夜間的重要性排序中均排名較前。
選取白天和夜間時段特征重要性較高的不同要素建立各自的識別模型,如圖10a和圖10b的箱線圖,白天時段的識別模型效果最好的KNN算法準確率平均得分可達0.83,夜間時段建立的識別模型效果最好的也是KNN算法,準確率平均得分為0.825。
圖10 結(jié)合地面觀測站和衛(wèi)星數(shù)據(jù)建立能見度(a)白天、(b)夜間識別模型的6種方法比較Fig. 10 Comparison of training set scores of the six machine learning methods of combining ground and satellite (a) day time and (b) night time data
綜合來看,結(jié)合地面觀測和衛(wèi)星通道數(shù)據(jù)建立的識別模型均優(yōu)于單獨數(shù)據(jù)源建立的識別模型。
基于實況的短臨預警中,高速公路交通管理部門更關注濃霧和強濃霧,本文將能見度再細分為500~1000 m、200~500 m和0~200 m 3個等級進行識別模型的建立。由于特強濃霧(能見度小于50 m)出現(xiàn)較少,對應的數(shù)據(jù)難以支持機器學習所需要的數(shù)據(jù)量,因此沒有對0~200 m范圍內(nèi)的數(shù)據(jù)再進行細分。
圖11a為利用地面觀測數(shù)據(jù)所做的識別結(jié)果得分,圖11b為利用衛(wèi)星通道數(shù)據(jù)所做的識別結(jié)果得分,圖11c為結(jié)合地面和通道數(shù)據(jù)所做的識別結(jié)果得分。僅地面站數(shù)據(jù)建立的識別模型中,效果最好的是SVM方法,平均準確率為0.72,僅衛(wèi)星數(shù)據(jù)建立的識別模型中,效果最好為SVM方法,平均準確率為0.65;LR方法、LDA方法和KNN方法平均準確率基本一致,約為0.63。結(jié)合地面站和衛(wèi)星數(shù)據(jù)建立的識別模型中,效果最好為KNN方法,平均準確率為0.88,優(yōu)于僅地面站和僅衛(wèi)星通道數(shù)據(jù)建立的識別模型。
圖11 (a)地面觀測站、(b)通道數(shù)據(jù)、(c)地面站和通道數(shù)據(jù)建立濃霧識別模型的6種方法比較Fig. 11 Comparison of training set scores of six machine learning methods of dense fog recognition with (a) ground observation,(b) satellite data, and (c) ground and satellite data
利用pickle方法分別將地面氣象站學習結(jié)果和FY-4衛(wèi)星數(shù)據(jù)學習結(jié)果進行模型序列化和反序列化加載,選取金麗溫高速金華段的大霧天氣進行模擬。針對氣象站模型采取交通站觀測數(shù)據(jù)(該設備能見度觀測上限為2000 m)代入7個氣象站SVM模型并平均的結(jié)果,針對衛(wèi)星數(shù)據(jù)采取反距離權(quán)重的方法插值到交通站所在經(jīng)緯度并代入SVM模型的結(jié)果,結(jié)合地面和衛(wèi)星數(shù)據(jù)的模型采用KNN模型。
2019年1月18日凌晨到上午金麗溫高速金華段出現(xiàn)了一次較明顯的大霧天氣,對這一次大霧天氣過程進行識別結(jié)果如表6所示。
表6 氣象站和衛(wèi)星模型對金麗溫高速金華段2019年1月18日一次大霧過程識別結(jié)果Table 6 Recognition results of a heavy fog on Jinhua section of Jinliwen Expressway in 18 January 2019 by weather station and satellite model
從表6可以看到,站點識別和衛(wèi)星識別結(jié)果互有好壞,但基本都能夠反映出一次低能見度過程,對過程的開始和結(jié)束也能較好把握。
利用站點資料和衛(wèi)星資料能把大霧天氣過程識別出來,同時氣象站識別和衛(wèi)星識別結(jié)果能較好的互為補充,也就是其中一種方法若識別出現(xiàn)了大霧可以認為實際情況也很可能出現(xiàn)了大霧。同時,與前文分析結(jié)果相一致的是,結(jié)合地面觀測和衛(wèi)星通道數(shù)據(jù)建模的大霧識別效果一般略好于單一數(shù)據(jù)模型的識別效果。但是3種模型的結(jié)果都不能很好的把大霧開始的時次反映出來,對大霧結(jié)束以后的反映基本可信。
從文中結(jié)果可以看到,單獨利用氣象觀測站的數(shù)據(jù)和利用FY-4衛(wèi)星通道數(shù)據(jù)建立的機器學習識別模型對低能見度能進行一定程度的識別,其中支持向量機(SVM)方法的建模效果普遍較好。再進一步結(jié)合地面觀測數(shù)據(jù)和通道數(shù)據(jù)建立識別模型,效果優(yōu)于單一數(shù)據(jù)建模,一般以KNN算法效果較好,白天時段的準確率得分為0.83,夜間時段的準確率得分為0.825,且在對濃霧、強濃霧的識別中,也是結(jié)合地面和通道數(shù)據(jù)的KNN算法識別效果更好,準確率得分可達0.88。對于以上結(jié)果,我們可以梳理出以下幾個結(jié)論:
(1)利用高速公路附近氣象站數(shù)據(jù)、衛(wèi)星通道數(shù)據(jù),可以進行能見度識別建模,這很大程度解決了高速公路沿線氣象觀測站少的問題;
(2)FY-4衛(wèi)星在輻射成像通道數(shù)量和時空分辨率上都是我國最領先的靜止衛(wèi)星,利用FY-4通道數(shù)據(jù)建模識別大霧,具有覆蓋范圍廣,信息量豐富,時空分辨率高等諸多優(yōu)勢,對于沒有地面觀測尤其是沒有能見度觀測的區(qū)域,可以利用FY-4衛(wèi)星在時空觀測上的優(yōu)勢,對高速公路上的大霧監(jiān)測起到有效補充。
(3)機器學習算法相比于天氣學方法、統(tǒng)計模型等具有高效、泛化能力強等特點,能夠較好的處理大氣非線性運動,在實時業(yè)務中,可以省去天氣形勢分析、氣象要素閾值調(diào)整等環(huán)節(jié),機器學習算法的高度非線性變換能力(陳永義等, 2004; 陳錦鵬等, 2021)能夠依靠數(shù)據(jù)的內(nèi)在函數(shù)關系完成結(jié)果輸出,因此特別需要做好輸入變量選擇和清洗的預處理工作。
(4)文中的模型識別結(jié)果均顯示在500 m以下的濃霧階段準確率更高,反映了濃霧發(fā)生時,低能見度與濕度、氣溫、溫差、風速等的強相關關系,對于影響高速公路運行和安全的濃霧及以下的識別結(jié)果更具參考意義,可對高速交通部門和運營單位的管控調(diào)度提供參考依據(jù)。
由于目前用于機器學習訓練的樣本還不是很多,尤其是FY-4衛(wèi)星僅使用了2018年一年的數(shù)據(jù),導致對濃霧、大霧事件缺乏真實的訓練樣本支持,因而下一步還可以獲取更多的樣本進行訓練,以提高模型識別效果。文中針對金麗溫高速公路選取距離相近的氣象觀測站點進行機器學習,但是浙江省大霧多發(fā)區(qū)地形復雜多變,如浙江沿海地區(qū)也是大霧多發(fā)區(qū),有必要針對不同的地形特征,再按照地形劃分建立全省不同地形的能見度識別模型,建立覆蓋全省范圍的大霧識別模型,可以更好地把握大霧生消的時空演變過程。