楊向陽,舒紅,吳凱,聶磊
(武漢大學測繪遙感信息工程國家重點實驗室,湖北 武漢 430079)
與常規(guī)觀測儀器相比,遙感衛(wèi)星能夠全天候、全天時地獲取全球范圍的數(shù)據(jù),已成為同化系統(tǒng)中觀測資料的主體。遙感衛(wèi)星資料在業(yè)務(wù)系統(tǒng)中的應(yīng)用是數(shù)值預報質(zhì)量提高的重要原因[1]。由于模型誤差、觀測資料中存在離群數(shù)據(jù)等原因,會使得觀測數(shù)據(jù)與輻射傳輸模型模擬數(shù)據(jù)差別較大。同化這些與模擬數(shù)據(jù)不一致的觀測數(shù)據(jù)可能導致分析值不平衡,喪失同化效果,甚至導致系統(tǒng)崩潰[2]。因此,在數(shù)據(jù)同化前應(yīng)先對觀測資料進行質(zhì)量控制。
相對于紅外和可見光,微波波長相對較長,具有更強的穿透性,受云和大氣的影響較小。此外,微波亮溫數(shù)據(jù)是由衛(wèi)星接收的信號經(jīng)過信號轉(zhuǎn)換、輻射定標等操作后生成的一級產(chǎn)品,是衛(wèi)星各級產(chǎn)品反演的基礎(chǔ)。相比于遙感反演產(chǎn)品,亮溫數(shù)據(jù)信息損失較少。亮溫直接同化還能夠避免多數(shù)線性反演模型(算法)誤差,亮溫直接同化比間接同化更具有價值。因此,亮溫數(shù)據(jù)在遙感數(shù)據(jù)中具有重要地位,而亮溫數(shù)據(jù)的質(zhì)量控制也顯得尤為重要。
目前,不同傳感器使用的數(shù)據(jù)質(zhì)量控制方案不同,即使是同一傳感器質(zhì)量控制方案也有差別。本文依據(jù)國內(nèi)外的相關(guān)研究,分析了直接同化中亮溫數(shù)據(jù)的誤差來源及分類,并對不同亮溫數(shù)據(jù)的質(zhì)量控制方案進行了深入分析,然后以穩(wěn)健性較強的雙權(quán)重算法為例,進行了亮溫數(shù)據(jù)質(zhì)量控制的實例分析,最后,針對亮溫數(shù)據(jù)質(zhì)量控制的不足提出幾點展望。
微波輻射資料同化的誤差主要由兩方面組成:一是輻射傳輸模型模擬亮溫不精確產(chǎn)生的誤差;二是觀測資料誤差[3]。輻射傳輸模型是對現(xiàn)實環(huán)境電磁交互作用過程的數(shù)學模擬,本身就具有誤差,并且輸入輻射傳輸模型的數(shù)據(jù)也具有誤差;例如,輻射傳輸模型尚不能準確表達云和降水粒子的發(fā)射和散射過程,對它們的模擬誤差較大[3]。對于觀測數(shù)據(jù),觀測儀器自身故障會導致觀測數(shù)據(jù)缺失或誤差較大,相關(guān)部門會定期發(fā)布傳感器的工作狀態(tài),可根據(jù)狀態(tài)判斷數(shù)據(jù)的可用性。另外,觀測數(shù)據(jù)受傳感器的靈敏度、定標以及云的影響也包含誤差。在L波段(1~2GHz),觀測數(shù)據(jù)還受到RFI(無線電干擾)的影響。未經(jīng)授權(quán)的電視、調(diào)頻廣播電臺在L波段的發(fā)射以及相鄰波段過多的無用發(fā)射會造成L波段數(shù)據(jù)嚴重污染[4]。從分類角度講觀測資料的誤差可分為:系統(tǒng)誤差、隨機誤差、過失誤差。系統(tǒng)誤差主要為儀器標尺偏移或未考慮持久性因素影響所引起的誤差,能夠應(yīng)用統(tǒng)計方法或經(jīng)驗確定并使用偏差訂正進行改正;隨機誤差,源于觀測條件的不可控性,是任何資料中都存在且不可避免的,通常認為其服從高斯分布;過失誤差由于機器故障或人為原因的錯誤觀測、讀寫和計算造成的誤差,不具有氣象意義,雖然數(shù)量很少,但對數(shù)值預報影響嚴重。
觀測資料的質(zhì)量控制是指在對觀測數(shù)據(jù)進行客觀分析或同化前對資料進行檢查并剔除錯誤觀測資料的過程[5]。觀測資料的質(zhì)量控制首先檢查數(shù)據(jù)的合理性,剔除不符合常理的數(shù)據(jù);其次,進行離群數(shù)據(jù)檢測與剔除。離群數(shù)據(jù)剔除之后,通常不滿足同化系統(tǒng)對觀測數(shù)據(jù)誤差高斯分布的要求,因此需要進行偏差校正;此外,變分同化系統(tǒng)中有針對觀測數(shù)據(jù)誤差非高斯分布的變分質(zhì)量控制。
氣象要素應(yīng)在允許值范圍和氣候?qū)W界限值范圍內(nèi)。超過允許值范圍和氣候?qū)W界限值的氣象要素被認為是不合理的,應(yīng)進行剔除。亮溫數(shù)據(jù)與地面溫度和地物發(fā)射率有關(guān),滿足關(guān)系式Tb=εT,其中Tb表示亮溫,ε表示發(fā)射率,值小于1,T為地面物理溫度。由于地面最高溫度從未超過77℃(350 K),因此將亮溫界限值設(shè)置為 350 K是比較保守的[6]。亮溫界限值也可根據(jù)研究區(qū)域的歷史溫度最大值設(shè)置。
離群數(shù)據(jù)可以通過研究大量觀測資料本身以及觀測增量(觀測資料與模式模擬數(shù)據(jù)間差別)的統(tǒng)計特征和統(tǒng)計分布結(jié)構(gòu)來分辨[7]。因此,離群數(shù)據(jù)檢測方法可分為兩種:一是基于觀測數(shù)據(jù)本身,二是基于觀測增量。
(1)基于觀測數(shù)據(jù)本身的離群值剔除
利用圖像梯度信息進行離群數(shù)據(jù)檢測。圖像的梯度信息能夠檢測出數(shù)值突變的像元,即與周圍像元值差別較大的像元。由于亮溫數(shù)據(jù)具有空間自相關(guān)性,因此數(shù)值突變的像元可認為是離群數(shù)據(jù)。當梯度值大于給定閾值時剔除相應(yīng)的數(shù)據(jù)。王云峰等人[10]提出了時空梯度信息同化方法,消除了觀測資料的系統(tǒng)誤差。馬剛等人[11]利用梯度信息對AMSU-A亮溫數(shù)據(jù)進行質(zhì)量控制,并模擬臺風路徑,結(jié)果表明該質(zhì)量控制方案改善了臺風路徑的模擬。
利用主成分分析法進行離群數(shù)據(jù)檢測。多通道傳感器不同通道觀測的亮溫具有較高的相關(guān)性,但是噪音的存在會降低這種相關(guān)性。因此,對各通道亮溫數(shù)據(jù)進行主成分分析,去掉主成分數(shù)據(jù)后的低相關(guān)部分認為是被噪音污染的數(shù)據(jù),即誤差較大的數(shù)據(jù)。鄒曉蕾等[12]運用主成分分析方法去除了FY-3B觀測資料中的噪音。Zhao等人[13]提出了雙主成分分析方法(DPCA)來識別RFI輻射信息,并使用WindSat數(shù)據(jù)成功識別出南極和格陵蘭島的RFI信號分布。馮呈呈等人[14]借鑒Zhao的方案,利用FY-3B數(shù)據(jù)有效識別了海洋上的RFI信號。
(2)基于觀測增量的離群值剔除
模擬數(shù)據(jù)是指通過輻射傳輸模型生成的亮溫數(shù)據(jù)。理論上,衛(wèi)星觀測數(shù)據(jù)與模型模擬數(shù)據(jù)具有較高的相關(guān)性,并且同化系統(tǒng)中觀測數(shù)據(jù)與模擬數(shù)據(jù)之間不應(yīng)相差太大,否則會導致分析值不平衡,喪失同化效果,甚至會導致系統(tǒng)崩潰。由于離群數(shù)據(jù)的存在會增大兩者差距,因此可以對比觀測數(shù)據(jù)與模擬數(shù)據(jù)進行質(zhì)量控制。觀測數(shù)據(jù)與模擬數(shù)據(jù)之差稱為觀測增量,通常以觀測增量為研究對象進行離群數(shù)據(jù)的判別。
傳統(tǒng)統(tǒng)計方法通過計算觀測增量的平均值和標準差進行離群數(shù)據(jù)的判別,當觀測增量超過平均值3個標準差時認為是離群數(shù)據(jù)。但是傳統(tǒng)統(tǒng)計方法計算的平均值與標準差包含了離群數(shù)據(jù)信息,離群數(shù)據(jù)對平均值和標準差的計算產(chǎn)生較大偏移,降低了數(shù)據(jù)估計的準確度。因此,Lanzante[15]提出了雙權(quán)重算法。雙權(quán)重算法在計算新定義的雙權(quán)均值和雙權(quán)標準差時,賦予每個樣本一個權(quán)重,使得樣本距離分布中心越遠權(quán)重越小,減弱了離群數(shù)據(jù)對整體數(shù)據(jù)統(tǒng)計計算的影響。Zou等人[16]使用雙權(quán)重算法對GPS掩星數(shù)據(jù)進行質(zhì)量控制,效果較好。王葉慧等人[17]利用雙權(quán)重算法對FY-3數(shù)據(jù)進行質(zhì)量控制,質(zhì)量控制后觀測增量的標準差有了較大改善,并且標準差隨時間變化更穩(wěn)定。
對錯誤的資料進行訂正也是對一個成熟的質(zhì)量控制方案的要求[5]。衛(wèi)星資料的同化要求亮溫觀測數(shù)據(jù)與模擬數(shù)據(jù)偏差符合高斯分布。由于誤差不只包含隨機誤差(見第2節(jié)),因此誤差并非嚴格滿足高斯分布。如果在無偏的模式中同化有偏的觀測資料,則會在同化過程中引起偏差[18]。因此在進行同化前,要先對資料進行偏差修正,使得訂正后的亮溫觀測數(shù)據(jù)與模擬數(shù)據(jù)偏差符合高斯分布。
Eyre[19]提出衛(wèi)星資料偏差訂正可分為兩個步驟:掃描偏差訂正和氣團偏差訂正。掃描偏差是指臨邊測量相對于星下點測量的系統(tǒng)偏差[20]。越遠離星下點,掃描角越大,從而輻射信號穿過的大氣光學厚度增加,因此需要進行掃描偏差訂正。Eyre[19]根據(jù)掃描角信息來計算每個掃描位置相對于中心位置的全球或區(qū)域平均差,但是方案中沒有考慮不同緯度對掃描偏差的影響。而Harris和Kelly[21]認為掃描偏差訂正與緯度有關(guān),并以每10°緯度為一個帶將地球劃分為18個緯度帶,并對每個緯度帶分別進行掃描偏差訂正。之后的學者對衛(wèi)星資料進行掃描偏差訂正時,都基于Harris的方案。氣團偏差是指由不精確的輻射傳輸模型計算透過率系數(shù)導致的前向模式中的偏差有隨氣團和表面特征變化的趨向[18]。氣團偏差訂正主要根據(jù)當時的天氣條件進行訂正,天氣條件通常使用預報因子定量表示[20]。氣團偏差訂正假設(shè)氣團偏差與預報因子是線性關(guān)系,使用一組偏差預報因子的線性組合來計算每個通道的氣團偏差。線性回歸系數(shù)利用大量樣本(通常需兩周數(shù)據(jù))通過最小二乘法擬合求得。氣團偏差訂正的關(guān)鍵是預報因子的選擇[5]。預報因子可分為兩類,第一種基于“觀測空間”,以觀測數(shù)據(jù)或模擬數(shù)據(jù)作為預報因子;第二種基于“模式空間”,從背景場中提取的信息作為預報因子。相比于觀測或模擬數(shù)據(jù),背景場中提取的信息更能反映氣團和地表性質(zhì),因此使用背景場中提取的信息作為預報因子更為合理[20]。常用的預報因子有 1 000 hpa~300 hpa的厚度、200 hpa~50 hpa的厚度、50 hpa~5 hpa的厚度、10 hpa~1 hpa的厚度、模式地表溫度、水汽總量、近地面風速等[20]。不同的儀器、選擇的輻射傳輸模型以及模型參數(shù)的設(shè)置等因素都會對偏差產(chǎn)生影響。因此,不同的儀器和通道,使用的預報因子組合有所不同。
在傳統(tǒng)變分同化系統(tǒng)中假設(shè)觀測誤差服從高斯分布,但是大量的統(tǒng)計結(jié)果表明,實際觀測誤差并非嚴格服從高斯分布[22]。觀測誤差的實際分布比高斯分布的尾部更長,這是由于離群數(shù)據(jù)導致的長尾(long-tail)分布。顯然,假設(shè)的觀測誤差分布模型與其實際分布不符,這將導致參數(shù)估計的效率大大降低,甚至參數(shù)估計錯誤。20世紀80年代Lorenc[23]和Purser提出了采用非高斯分布誤差方法進行觀測資料的質(zhì)量控制。之后Lorenc等人[24]提出了變分質(zhì)量控制的理論。
變分質(zhì)量控制是以變分同化系統(tǒng)為基礎(chǔ)的質(zhì)量控制方法。觀測誤差的非高斯分布稱為污染高斯分布,可表示為高斯分布與其他干擾分布之和,即G=(1-ε)N+εF。其中,ε為過失誤差概率,N表示高斯分布,F(xiàn)指干擾分布。統(tǒng)計顯示過失誤差概率ε在1%~10%。在確定觀測誤差的概率密度函數(shù)后,根據(jù)貝葉斯概率理論[23]推導出變分同化迭代過程。變分質(zhì)量控制能夠考慮觀測誤差非高斯分布的影響,在變分同化系統(tǒng)極小化迭代過程中能夠根據(jù)觀測偏差的大小賦予觀測不同的權(quán)重。在國外,變分質(zhì)量控制方法在歐洲天氣預報中心(ECMWF)、美國國家環(huán)境預報中心(NCEP)、加拿大氣象中心(CMC)等的數(shù)值預報系統(tǒng)中都有應(yīng)用,并在業(yè)務(wù)預報中獲得良好的效果[25,26]。在國內(nèi),和杰[27]討論了“高斯分布+高斯分布”、“高斯分布+均勻分布”、“高斯分布+拉普拉斯分布”三種誤差分布模型。馬旭林等[28]假定誤差分布服從“高斯分布+均勻分布”并對資料進行變分質(zhì)量控制,結(jié)果表明變分質(zhì)量控制對提高數(shù)值預報模式的預報水平具有正面效果。Duan等人[22]利用Huber函數(shù)對風場進行了變分質(zhì)量控制,改善了臺風路徑預報結(jié)果。王根等人[29]利用不同M估計法對FY3B/IRAS資料進行變分質(zhì)量控制,結(jié)果表明在M估計法中Huber函數(shù)表現(xiàn)較好,并指出Huber權(quán)重函數(shù)公式簡單且具有經(jīng)典和穩(wěn)健變分反演的優(yōu)點。
圖1 2016年1月1日亮溫數(shù)據(jù)z分數(shù)分布情況
圖2 質(zhì)量控制前后標準差變化情況(a)和相關(guān)系數(shù)變化情況(b)
提高輻射傳輸模型模擬的精度是質(zhì)量控制的關(guān)鍵。輻射傳輸模型中的參數(shù)一般是預設(shè)好的常量,但是預設(shè)的參數(shù)可能并不完全適用于所有地區(qū)。因此,需要根據(jù)各地氣候特征進行模型參數(shù)率定以提高模型模擬精度。
L波段受RFI影響嚴重,亞歐區(qū)域更為明顯。比如,SMOS數(shù)據(jù)在中國境內(nèi)數(shù)據(jù)大量污染,質(zhì)量控制后數(shù)據(jù)缺失嚴重。有效的解決方案是對RFI輻射源檢測、定位并關(guān)閉以消除RFI的影響,歐洲航天局一直致力于這項工作[4]。目前檢測和定位算法精度逐漸成熟:Oliva[6]等人已將RFI輻射源定位精確到 4 km以內(nèi)。但是對于RFI輻射源的關(guān)閉工作重點在于各國相關(guān)部門的配合。Daganzo[4]等人指出在國際合作方面仍需努力,此外無線電發(fā)射也要自覺遵守國際電信聯(lián)盟無線電通信組(ITU-R)通過的第750號決議。
多源數(shù)據(jù)融合是將多個傳感器獲取的數(shù)據(jù)進行綜合,消除多傳感器數(shù)據(jù)之間存在的冗余和矛盾,降低數(shù)據(jù)的不確定性,獲得對物體或環(huán)境一致性描述的過程。數(shù)據(jù)融合方法已在遙感數(shù)據(jù)中有所應(yīng)用:許劍輝[30]等利用Triple-Collocation方法對三種雪深數(shù)據(jù)進行融合生成了精度更高的雪深數(shù)據(jù)。但是,還沒有學者對亮溫數(shù)據(jù)進行融合。目前的亮溫數(shù)據(jù)產(chǎn)品時間分辨率較低,難以達到一天全球覆蓋;并且掃描帶之間有間隙,造成數(shù)據(jù)缺失。而不同傳感器的亮溫數(shù)據(jù)覆蓋范圍不同,數(shù)據(jù)缺失部分有所互補,數(shù)據(jù)重疊部分能夠利用融合算法降低數(shù)據(jù)不確定性。因此,可以利用數(shù)據(jù)融合算法生成覆蓋范圍廣、精度高的亮溫數(shù)據(jù),以便于后續(xù)的同化工作。
同化系統(tǒng)通過同化觀測數(shù)據(jù)為數(shù)值預報系統(tǒng)提供高精度初值,而在數(shù)據(jù)同化前對觀測數(shù)據(jù)進行質(zhì)量控制可以提高同化系統(tǒng)的穩(wěn)定性,有利于數(shù)據(jù)同化的進行,進而影響天氣預報的初值和預報精度。因此,觀測資料質(zhì)量控制在數(shù)據(jù)同化中具有至關(guān)重要的作用。本文針對亮溫數(shù)據(jù),分析了數(shù)據(jù)同化中亮溫數(shù)據(jù)的誤差來源;對合理性檢驗、離群數(shù)據(jù)剔除、偏差訂正和變分質(zhì)量控制等亮溫數(shù)據(jù)質(zhì)量控制方法進行了全面分析;并以雙權(quán)重算法為例,進行了亮溫數(shù)據(jù)質(zhì)量控制的實例分析;最后進行了遙感觀測質(zhì)量控制優(yōu)化討論,這些研究有助于開展具體數(shù)據(jù)同化輻射資料質(zhì)量控制工作。