郭佳賓 程麗丹 金雙根
全球衛(wèi)星導航系統(tǒng)(GNSS)無線電掩星技術利用導航衛(wèi)星與低軌衛(wèi)星之間的信號延遲來反演全球高精度大氣參數(shù),在大氣探測和氣象預報中具有重要的應用前景[1].1995年,美國成功進行了GPS/MET探測計劃,首次證明了大氣掩星探測的可行性[2].2001年,德國發(fā)射了CHAMP衛(wèi)星,該衛(wèi)星搭載的掩星載荷更為先進,在掩星資料的數(shù)量以及資料精度上都有了較大改進[3-4].2006年,中國臺灣和美國聯(lián)合研制的COSMIC衛(wèi)星成功發(fā)射,該星座共有在軌衛(wèi)星6顆[5].2012年9月,歐洲氣象衛(wèi)星組織正式發(fā)射了METOP-B星[6].2013年8月,韓國發(fā)射了KOMPSAT-5衛(wèi)星[7].2018年11月,歐洲氣象衛(wèi)星組織又再次發(fā)射了METOP-C星.在COSMIC取得巨大成功后,美國與中國臺灣再次合作,開展了COSMIC-2計劃,并于2019年6月下旬發(fā)射[8].2013年9月,我國發(fā)射了FY-3C衛(wèi)星.FY-3C星上新增的GNOS載荷是國內第一個星上GNSS無線電掩星探測儀,該載荷可以同時接收北斗與GPS信號,從而大大提升了探測能力[9].
GNSS掩星探測技術擁有全天時、高精度、高分辨率等優(yōu)勢,但搭載低軌衛(wèi)星數(shù)量少,數(shù)據(jù)空間分辨率低于傳統(tǒng)再分析資料,且在較低高度上,由于水汽以及折射、超折射現(xiàn)象的存在,導致掩星數(shù)據(jù)質量較差.廖蜜等[10]研究證明了FY-3C的中性大氣折射率產(chǎn)品的精度基本能夠達到預定目標;徐曉華等[11]將FY-3C掩星數(shù)據(jù)與IGRA2 探空資料進行比較,證明了兩種資料的一致性,但存在一定的差異;魏晉德[12]通過對FY-3C的掩星產(chǎn)品質量進行研究,證明了產(chǎn)品的可靠性,并使用相關產(chǎn)品對對流層頂特征進行了相關研究.上述文獻均指出了FY-3C掩星數(shù)據(jù)的質量問題,但并未提出對數(shù)據(jù)質量進行改進的方法.GNSS掩星數(shù)據(jù)量大,對其精度進行分析時,通常是一個統(tǒng)計平均的結果.因此可以使用機器學習方法對掩星廓線數(shù)據(jù)進行修正.本文將FY-3C的溫度廓線數(shù)據(jù)與ERA5再分析數(shù)據(jù)作為輸入值,分別使用神經(jīng)網(wǎng)絡方法和隨機森林回歸算法對其進行修正,并對修正結果做出評價.
1.1.1 GNSS掩星數(shù)據(jù)
本文所采用的數(shù)據(jù)是由風云數(shù)據(jù)網(wǎng)提供的2017年1月1日—12月31日FY-3C的L2溫度廓線數(shù)據(jù),其中6月1—31日沒有數(shù)據(jù).圖1展示了2017年3月1—7日的掩星事件在中國區(qū)域的分布狀況.
圖1 2017年3月1日與3月1—7日掩星事件在中國區(qū)域分布狀況Fig.1 Distribution ofradio occultation events in China on March 1,2017 and during March 1-7,2017
1.1.2 ERA5再分析數(shù)據(jù)
ERA5再分析數(shù)據(jù)的前身是ERA-Interim[13-14],是由歐盟提供資助、ECMWF(歐洲中期天氣預報中心)進行運營的新一代再分析資料[15].在此之前,再分析資料已經(jīng)歷經(jīng)了FGGE、ERA-15、ERA-40等產(chǎn)品[16].ERA5再分析數(shù)據(jù)水平分辨率為0.25°×0.25°,垂直分辨率為37層,時間分辨率為1 h.本文使用的是150 hPa的ERA5數(shù)據(jù),其高度在10 km左右.
1.2.1 神經(jīng)網(wǎng)絡方法
BP神經(jīng)網(wǎng)絡方法可以學習與存儲較多的輸入-輸出模式的映射關系,且無需事先知道這種映射關系的數(shù)學方程.BP神經(jīng)網(wǎng)絡的拓撲結構中包括輸入層、隱層以及輸出層.首先在輸入層輸入學習樣本,然后使用反向傳播方法,不斷地計算每個節(jié)點的權值與偏差,并進行調整,使輸出層的值與預期值盡可能靠攏.當輸出值與預期值滿足設定條件時,保存整個網(wǎng)絡的權值與偏差[17].本文的輸入層、隱層以及輸出層關系如圖2所示.
圖2 神經(jīng)網(wǎng)絡方法原理Fig. 2 Principle of neural network algorithm
1.2.2 隨機森林
隨機森林是指利用多棵樹對樣本進行訓練,并預測的一種分類器.隨機森林回歸算法對于多種資料,可以產(chǎn)生高準確度的分類器,可以處理大量的輸入變數(shù).在存在N個數(shù)據(jù)的樣本集中,每個樣本的輸入特征向量都有k個特征,通過依次有放回的抽樣得到它們的子樣本集,將子樣本集帶入決策樹中,這樣每棵決策回歸樹會隨機選取特征,進而通過訓練得到一系列回歸結果,再對這些回歸結果取平均得到最終的回歸結果[18],以此來降低回歸方差.隨機森林回歸算法結構如圖3所示.
圖3 隨機森林回歸算法結構示意Fig. 3 Structure of random forest regression algorithm
1.3.1 GNSS掩星數(shù)據(jù)與再分析資料處理
使用機器學習算法對掩星數(shù)據(jù)修正前,要對掩星數(shù)據(jù)和再分析數(shù)據(jù)的時空特征進行匹配,生成若干組數(shù)據(jù)對.具體匹配規(guī)則為:時間間隔1 h;空間上選擇距離掩星點最近點的ERA5溫度數(shù)據(jù).將經(jīng)緯度、時間等數(shù)據(jù)進行歸一化處理[19],處理規(guī)則如下:
(1)
(2)
(3)
其中:Ilat,ro為掩星事件的緯度信息;Ilat為歸一化的掩星事件的緯度信息;Ilon,ro為掩星事件的經(jīng)度信息;Ilon為歸一化的掩星事件的經(jīng)度信息;Itime,ro為掩星事件的時間信息;Itime為歸一化的掩星事件的時間信息.
圖5 不同緯度帶平均絕對誤差差值與均方誤差差值Fig. 5 Differences of MAE and MSE at different latitudes
1.3.2 機器學習參數(shù)設置
在經(jīng)過數(shù)據(jù)時空特征匹配后,隨機選取80%的數(shù)據(jù)對組成訓練集,剩下的20%數(shù)據(jù)對組成測試集.從圖4可以看到,訓練集與測試集具有相似的緯度分布特征.
圖4 掩星數(shù)據(jù)訓練集與測試集緯度特征分布Fig. 4 Latitude distribution of training set and test set of radio occultation data
神經(jīng)網(wǎng)絡模型選擇5層全連接的神經(jīng)網(wǎng)絡,每個隱藏層設置10個神經(jīng)元,損失函數(shù)設置為mse,參數(shù)更新采用Adam方法.隨機森林回歸模型中設置了100棵樹,且不限制每棵決策樹的樹最大深度和最大葉節(jié)點數(shù)目,將決策樹放入隨機森林避免過擬合.
將全球化分為18×18個網(wǎng)格,即10°(lat)×10°(lon).計算每一個網(wǎng)格的平均絕對誤差與均方誤差.
(4)
(5)
式中:Tmae是該網(wǎng)格的溫度平均絕對誤差;Tmse是該網(wǎng)格的溫度的均方誤差;Tro,t是網(wǎng)格內任一掩星廓線的溫度值;Trea5,t為對應的再分析資料的溫度值;N為該網(wǎng)格內數(shù)據(jù)對的個數(shù).
ΔTmae=Tmae,ro-ec-Tmae,pre-ec,
(6)
ΔTmse=Tmse,ro-ec-Tmse,pre-ec,
(7)
式中:Tmae,ro-ec為網(wǎng)格內未修正前的掩星數(shù)據(jù)與再分析數(shù)據(jù)的平均絕對誤差;Tmae,pre-ec為使用相應方法修正后的掩星數(shù)據(jù)與再分析數(shù)據(jù)的平均絕對誤差;Tmse,ro-ec為網(wǎng)格內未修正前的掩星數(shù)據(jù)與再分析數(shù)據(jù)的均方誤差;Tmse,pre-ec為使用相應方法修正后的掩星數(shù)據(jù)與再分析數(shù)據(jù)的均方誤差;ΔTmse為修正前后均方誤差的差值,該值越大表明修正效果越好,反之則修正效果越差;ΔTmae為修正前后平均絕對誤差的差值,該值越大表明修正效果越好,反之則修正效果越差.
圖5為不同緯度帶上神經(jīng)網(wǎng)絡方法與隨機森林回歸算法對FY-3C掩星數(shù)據(jù)的修正結果.可以看到,在全球范圍內,兩種方法都可以對掩星數(shù)據(jù)進行修正,且隨機森林算法的修正效果遠勝神經(jīng)網(wǎng)絡方法.
兩種方法在中緯度地區(qū)的修正效果要優(yōu)于其他兩個緯度帶.北半球的修正效果略優(yōu)于南半球的修正效果,這是FY-3C星自身原因造成的:北半球的廓線數(shù)據(jù)略多于南半球,更多的數(shù)據(jù)意味著更多的樣本與特征,能讓模型對經(jīng)緯度參數(shù)更加敏感.
從表1可以看出,在高緯度地區(qū),使用神經(jīng)網(wǎng)絡方法修正后的溫度數(shù)據(jù)均方誤差與平均絕對誤差,北半球的正向收益均大于南半球.隨機森林回歸算法的南北半球修正結果較為一致.
表1 高緯度地區(qū)兩種方法修正結果
從圖6、7得知,在高緯度地區(qū)的108個網(wǎng)格中,經(jīng)過神經(jīng)網(wǎng)絡與隨機森林修正后的掩星溫度數(shù)據(jù)大部分具有正向收益,且隨機森林回歸算法的修正效果遠高于神經(jīng)網(wǎng)絡方法.神經(jīng)網(wǎng)絡與隨機森林回歸算法對平均絕對誤差的正向修正率分別為74.07%與96.3%,對均方誤差的正向修正率分別為66.67%與90.74%.
圖6 高緯度地區(qū)神經(jīng)網(wǎng)絡方法對平均絕對誤差與均方誤差的修正結果Fig. 6 Correction of MAE and MSE by neural network in high latitudes
圖7 高緯度地區(qū)隨機森林回歸算法對平均絕對誤差與均方誤差的修正結果Fig. 7 Correction of MAE and MSE by random forest regression in high latitudes
從表2可以看出,在中緯度地區(qū),兩種方法的修正結果都具有正向收益.在每項修正指標中,隨機森林回歸算法的修正效果約為神經(jīng)網(wǎng)絡方法的10倍.
表2 中緯度地區(qū)兩種方法修正結果
從圖8可以看到,均方誤差和平均絕對誤差的差值范圍集中在-0.4~0.6 K2與-0.1~0.15 K之間,相比于修正前的結果提升不大.對均方誤差與平均絕對誤差的修正率分別為70.37%與80.55%.
圖8 中緯度地區(qū)神經(jīng)網(wǎng)絡方法對平均絕對誤差與均方誤差的修正結果Fig. 8 Correction of MAE and MSE by neural network in middle latitudes
從圖9可以看到,使用隨機森林回歸算法后,均方誤差與平均絕對誤差的差值范圍分別集中于0~2.5 K2與0~0.6 K.對均方誤差與平均絕對誤差的修正率分別為92.59%與98.15%.
美國卡內基·梅隆大學計算機科學系主任周以真教授在2006 年提出的“計算思維”(Computational Thinking),認為:計算思維是運用計算機科學的基礎概念進行問題求解、系統(tǒng)設計以及人類行為理解的思維活動[2]。
圖9 中緯度地區(qū)隨機森林回歸算法對平均絕對誤差與均方誤差的修正結果Fig. 9 Correction of MAE and MSE by random forest regression in middle latitudes
從圖10可以看到,對均方誤差與平均絕對誤差的修正率分別為66.67%與72.22%,且在某一塊區(qū)域整體呈現(xiàn)為正向收益與負向收益.如5°S~5°N處大部分表現(xiàn)為負收益,25°S與25°N處表現(xiàn)為正收益.低緯度地區(qū)兩種方法修正結果如表3所示.
圖10 低緯度地區(qū)神經(jīng)網(wǎng)絡方法對平均絕對誤差與均方誤差的修正結果Fig. 10 Correction results of MAE and MSE by neural network in low latitudes
表3 低緯度地區(qū)兩種方法修正結果
從圖11可以看到,在低緯度地區(qū),隨機森林回歸算法對均方誤差與平均絕對誤差的修正率分別為95.37%與98.15%,且隨機森林回歸算法的正向收益與負向收益的分布沒有明顯的分布規(guī)律.
圖11 低緯度地區(qū)隨機森林回歸算法對平均絕對誤差與均方誤差的修正結果Fig. 11 Correction of MAE and MSE by random forest regression in low latitudes
本文采用神經(jīng)網(wǎng)絡方法和隨機森林回歸算法對2017年FY-3C掩星廓線的溫度數(shù)據(jù)進行修正和評估,按照10°×10°將全球劃分為324個網(wǎng)格計算有效修正率,對兩種修正效果的空間分布特征進行研究,得到如下結論:
1)神經(jīng)網(wǎng)絡方法與隨機森林回歸算法均可以對FY-3C掩星溫度數(shù)據(jù)進行修正,其中隨機森林回歸算法對平均絕對誤差與均方誤差的正向修正率超過90%,神經(jīng)網(wǎng)絡方法對平均絕對誤差與均方誤差的正向修正率超過66.67%.
2)將修正結果按照高中低三個緯度劃分,隨機森林回歸算法對三個緯度帶的平均絕對誤差的正向修正率分別為96.3%、98.15%和98.15%;均方誤差的正向修正率分別為90.74%、92.59%和95.37%.神經(jīng)網(wǎng)絡方法對三個緯度帶的平均絕對誤差的正向修正率分別為74.07%、80.55%和72.22%;均方誤差的正向修正率分別為66.67%、70.37%和66.67%.
3)神經(jīng)網(wǎng)絡方法和隨機森林回歸算法在北半球GNSS掩星溫度剖面修正效果略優(yōu)于南半球.