亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        兩種面向數(shù)值同化的風(fēng)廓線雷達(dá)資料質(zhì)量控制方法比較分析

        2022-10-18 10:17:38汪學(xué)淵林銀杰劉德強(qiáng)林立崢
        氣象科學(xué) 2022年4期
        關(guān)鍵詞:風(fēng)廓峰度離群

        汪學(xué)淵 林銀杰 劉德強(qiáng) 林立崢

        (1 廈門市氣象局 海峽氣象開放實(shí)驗(yàn)室,福建 廈門 361012;2 福建省災(zāi)害天氣重點(diǎn)實(shí)驗(yàn)室,福州 350001;3 福建省大氣探測(cè)技術(shù)保障中心,福州 350001;4 福建省南平市氣象局,福建 南平 353000;5 福建省氣象臺(tái),福州 350001)

        引 言

        風(fēng)廓線雷達(dá)是利用大氣湍流對(duì)電磁波的散射作用進(jìn)行探測(cè)的遙感設(shè)備,可以提供探測(cè)高度范圍內(nèi)的大氣水平風(fēng)速、風(fēng)向、垂直氣流、大氣折射率結(jié)構(gòu)常數(shù)等氣象要素的觀測(cè),具有較高的時(shí)空分辨率,彌補(bǔ)了常規(guī)探空觀測(cè)時(shí)空密度不足的缺陷。目前,風(fēng)廓線雷達(dá)數(shù)據(jù)在監(jiān)測(cè)預(yù)警、預(yù)報(bào)和數(shù)值同化中應(yīng)用較為廣泛,且取得了豐碩的成果。美國(guó)和日本的業(yè)務(wù)應(yīng)用表明:風(fēng)廓線雷達(dá)資料的同化對(duì)于數(shù)值模式0~12 h,尤其是3~6 h的預(yù)報(bào)具有正效果[1-2];北京、廣東等地都初步開展了一些同化應(yīng)用的個(gè)例試驗(yàn),結(jié)果表明:在同化了經(jīng)過質(zhì)量控制處理的風(fēng)廓線資料后,區(qū)域模式的預(yù)報(bào)效果取得了顯著的改善,其中完善的質(zhì)量控制流程則是資料得到有效同化應(yīng)用的關(guān)鍵[3-5]。

        近年來,中國(guó)氣象局氣象探測(cè)中心建立了完善的風(fēng)廓線雷達(dá)資料質(zhì)量控制和評(píng)估業(yè)務(wù),分為臺(tái)站級(jí)和國(guó)家級(jí)質(zhì)控體系,臺(tái)站級(jí)主要對(duì)功率譜資料進(jìn)行質(zhì)控,國(guó)家級(jí)主要對(duì)徑向數(shù)據(jù)質(zhì)控,為風(fēng)廓線雷達(dá)資料的同化應(yīng)用奠定了基礎(chǔ)。采用變分方法進(jìn)行資料同化時(shí),觀測(cè)誤差和模式背景誤差都必須要滿足高斯分布的假設(shè)[4]。因此,在同化應(yīng)用之前,必須識(shí)別和消除觀測(cè)數(shù)據(jù)中不可靠或包含不能滿足數(shù)據(jù)同化要求的離群值,確保觀測(cè)場(chǎng)與背景場(chǎng)的差值(觀測(cè)增量)近似與高斯分布相一致。

        大氣中的各氣象要素基本上都是一維觀測(cè)向量,目前針對(duì)單一要素(如溫度、濕度等)的質(zhì)量控制普遍采用了雙權(quán)重標(biāo)準(zhǔn)差(Biweight Standard Deviation, BSD)方法,它通過給定的閾值來剔除離群值,質(zhì)控效果較好[6-8]。然而,對(duì)于水平風(fēng)場(chǎng)(u/v)而言,BSD方法無法實(shí)現(xiàn)對(duì)二維觀測(cè)向量的同時(shí)質(zhì)控。迭代加權(quán)最小協(xié)方差行列式(the Iterated Reweighted Minimum Covariance Determinant,IRMCD)[9]是在最小協(xié)方差行列式(MCD)[10-11]基礎(chǔ)上發(fā)展起來的方法。MCD是應(yīng)用穩(wěn)健統(tǒng)計(jì)中最早的仿射同變和高魯棒性多元離群點(diǎn)檢測(cè)規(guī)則之一。自從引入計(jì)算效率較快的fast-MCD算法以來[12],MCD已被應(yīng)用于醫(yī)學(xué),金融,圖像分析和化學(xué)等領(lǐng)域。然而,由于傳統(tǒng)MCD方法在檢測(cè)離群值時(shí)存在一定量的誤判,Cerioli[9]在其基礎(chǔ)上引入了防“假陽性”機(jī)制以減少誤判,應(yīng)用于多元變量離群點(diǎn)檢測(cè)。IRMCD可以對(duì)多維向量同時(shí)進(jìn)行處理,ZHANG, et al[13]將IRMCD方法用于風(fēng)廓線雷達(dá)水平風(fēng)離群值檢測(cè)發(fā)現(xiàn):IRMCD對(duì)于二維風(fēng)廓線雷達(dá)水平風(fēng)觀測(cè)資料的質(zhì)控效果要好于BSD方法。研究從實(shí)際應(yīng)用角度加深了對(duì)這兩種質(zhì)控方法的認(rèn)識(shí)。然而,由于IRMCD依賴于形狀分布參數(shù),這些參數(shù)隨數(shù)據(jù)集的大小而變化,ZHANG, et al[13]沒有就這些參數(shù)對(duì)于質(zhì)控效果的影響進(jìn)行深入討論。此外也沒有給出晴雨條件下兩種方法質(zhì)控效果的對(duì)比研究。

        為了進(jìn)一步全面深入考察兩種方法的差異性,本文將從統(tǒng)計(jì)指標(biāo)、波形指標(biāo)、概率密度分布、離群值分布多方面對(duì)IRMCD和BSD方法處理風(fēng)廓線雷達(dá)資料離群值的能力和效果進(jìn)行更深入的對(duì)比分析,揭示兩種方法的差異性和優(yōu)異性。

        1 資料和方法

        1.1 資料

        風(fēng)廓線資料挑選了福建省運(yùn)行比較可靠的9部CFL-06型號(hào)的雷達(dá)資料,分別是:建甌(58737)、建寧(58822)、羅源(58845)、連城(58912)、武平(58917)、德化(58935)、秀嶼(58938)、平和(59125)和翔安(59140)。由于本文的重點(diǎn)在于考察IRMCD方法與BSD方法在混合雷達(dá)站點(diǎn)資料處理離群值過程中的性能和效果,所以將生成的風(fēng)場(chǎng)小時(shí)數(shù)據(jù)作為原始觀測(cè)數(shù)據(jù)。前期關(guān)于臺(tái)站級(jí)和國(guó)家級(jí)質(zhì)量控制有關(guān)部門和學(xué)者已做了大量研究,并取得了積極的研究成果,不再贅述。

        利用9部風(fēng)廓線雷達(dá)2018年2月2—11日10 d的小時(shí)風(fēng)場(chǎng)數(shù)據(jù)作為原始觀測(cè)數(shù)據(jù),將觀測(cè)數(shù)據(jù)分為降水和非降水天氣,在這里降水和非降水的判定準(zhǔn)則按照風(fēng)廓線雷達(dá)垂直速度w≥2 m·s-1判定為降水,獲得了65 000個(gè)非降水觀測(cè)數(shù)據(jù)并在其中隨機(jī)抽取5 000、10 000、30 000、60 000個(gè)觀測(cè)數(shù)據(jù);同時(shí)也獲得了12 750個(gè)降水觀測(cè)數(shù)據(jù)并在其中抽取5 000、12 750個(gè)觀測(cè)數(shù)據(jù),以考察IRMCD方法和BSD方法處理不同天氣情況下不同觀測(cè)樣本量在統(tǒng)計(jì)指標(biāo)和波形指標(biāo)上是否有較大差異。

        模式背景場(chǎng)數(shù)據(jù)選取了歐洲數(shù)值預(yù)報(bào)中心(ECWMF)哥白尼CS35數(shù)據(jù)庫(kù)中高空u/v分量的小時(shí)再分析數(shù)據(jù),并對(duì)模式背景數(shù)據(jù)在垂直和水平方向進(jìn)行了插值處理,以獲得與觀測(cè)數(shù)據(jù)相同高度的背景場(chǎng)u/v分量,因此,u/v分量觀測(cè)增量可以定義為:

        ombu(i)=obsu(i)-mu(i),

        (1)

        ombv(i)=obsv(i)-mv(i),

        (2)

        其中:i=1,2,....n,n表示風(fēng)觀測(cè)數(shù)據(jù)總量;u,v分別表示風(fēng)在水平方向兩個(gè)分量。ombu(i)表示u分量的觀測(cè)增量;ombv(i)表示v分量的觀測(cè)增量;obsu(i)表示u分量的觀測(cè)值,由OOBS產(chǎn)品文件中的風(fēng)速V和風(fēng)向θ根據(jù)-V×sinθ計(jì)算公式獲得;obsv(i)表示v分量的觀測(cè)值,由OOBS產(chǎn)品文件中的風(fēng)速V和風(fēng)向θ根據(jù)-V×cosθ計(jì)算公式獲得;mu(i)表示u分量的模式背景值,mv(i)表示v分量的模式背景值。以下所有指標(biāo)和參數(shù)的計(jì)算都是基于u/v分量的觀測(cè)增量進(jìn)行運(yùn)算,如果觀測(cè)增量判定為離群值,那么對(duì)應(yīng)的原始觀測(cè)數(shù)據(jù)定義為離群值。

        1.2 迭代權(quán)重的最小協(xié)方差矩陣方法(IRMCD)

        假設(shè)n個(gè)樣本p個(gè)維度的數(shù)據(jù)集可以表示為:

        Y=[y(1)......y(n)]T,

        (3)

        那么y(i)=(yi1......yip)T為第i個(gè)樣本點(diǎn),矩陣Y的平均值μ和協(xié)方差矩陣∑,如果Y中存在離群值,那么μ和∑已經(jīng)被離群值污染。本文應(yīng)用穩(wěn)健統(tǒng)計(jì)分析方法,通過檢測(cè)每個(gè)觀測(cè)值魯棒距離的平方與χp,1-α分布相差較大的距離定義為Y中的離群值,可以得到μ和∑的穩(wěn)健估計(jì)值。其中1-α為χ分布的分位數(shù),α一般取0.025。IRMCD是一種基于重加權(quán)MCD估計(jì)值而發(fā)展起來的穩(wěn)健估計(jì)方法[14-15]。對(duì)于有限樣本離群值檢測(cè)的IRMCD方法的步驟如下:

        (1)在樣本Y中,如果h(n/2≤h

        (4)

        協(xié)方差估計(jì)為:

        ,(5)

        其中:C0為比例常數(shù)[9]。

        (2)在Y中,y(i)的魯棒距離的平方可以定義為:

        ,(6)

        它測(cè)量了觀測(cè)值到假定非離群值的中心位置的距離。樣本Y中所有觀測(cè)值的權(quán)重系數(shù)可以通過DIS的值確定:

        (7)

        (3)為了增強(qiáng)效率,對(duì)y(i)進(jìn)行加權(quán)步驟:

        (8)

        [y(i)-μRMCD]T,

        (9)

        那么重新加權(quán)后魯棒距離的平方為:

        (10)

        (4)參考文獻(xiàn)[9]中,

        (12)

        那么數(shù)據(jù)集Y中沒有離群值。

        按照上述步驟,使用預(yù)設(shè)的γ值,可以檢測(cè)多變量數(shù)據(jù)集Y中的離群值。

        1.3 雙權(quán)重標(biāo)準(zhǔn)差方法(BSD)

        雙權(quán)重離群值判別計(jì)算方法(簡(jiǎn)稱雙權(quán)重標(biāo)準(zhǔn)法,又稱 Z-Score 法)如下:設(shè)有n個(gè)樣本(xi,i=1,2,...n)

        (1)計(jì)算每個(gè)樣本量xi(i=1,2,..,n)的權(quán)重函數(shù):

        (13)

        其中:C為“敏感參數(shù)”,取C=7.5,當(dāng)|wi|>1.0時(shí),設(shè)定wi為1,M為樣本量的中位數(shù),MAD為絕對(duì)偏差中位數(shù),即|xi-M|的中位數(shù)。

        (14)

        計(jì)算雙權(quán)重標(biāo)準(zhǔn)差(BSD):

        (15)

        對(duì)每一個(gè)xi計(jì)算Z-Score值:

        (16)

        如果Zi>Zthresh,那么xi被認(rèn)定為離群值[16],Zthresh為設(shè)定好的閾值,一般取2~4。

        2 結(jié)果分析

        2.1 基于正態(tài)波形指標(biāo)的最優(yōu)參數(shù)判定準(zhǔn)則和指標(biāo)分析

        這里引入了峰度和偏度兩個(gè)統(tǒng)計(jì)指標(biāo)來形容觀測(cè)增量數(shù)據(jù)的波形是否符合正態(tài)分布情況,峰度(Kurtosis)是描述總體中所有取值分布形態(tài)陡緩程度的統(tǒng)計(jì)量,峰度為0表示該總體數(shù)據(jù)分布與正態(tài)分布的陡緩程度相同;偏度(Skewness)是統(tǒng)計(jì)數(shù)據(jù)分布偏斜方向和程度的度量,當(dāng)偏度接近0則可認(rèn)為分布對(duì)稱。兩個(gè)指標(biāo)都是以接近0值為最優(yōu)值,因此可以組合峰偏值KS指標(biāo),表示如下:

        KS=|Ku|+|Kv|+|Su|+|Sv|,

        (17)

        其中:Ku,Kv表示u,v分量的峰度;Su,Sv表示u,v分量的偏度。

        那么當(dāng)IRMCD和BSD方法分別取不同的參數(shù)γ和Zthresh時(shí),質(zhì)控后的觀測(cè)增量的KS值應(yīng)該具有最小值,KS取最小值所對(duì)應(yīng)的參數(shù)γ和Zthresh值就是兩種方法的最優(yōu)解,就是本文所需要的最優(yōu)觀測(cè)增量數(shù)據(jù)。在以往的研究中,γ參數(shù)的典型取值為0.025[17-18],表示在樣本集中期望2.5%比例的離群值,本文設(shè)定γ范圍為0.080~0.001[13],每0.001的間隔考察KS值是否達(dá)到最小值,KS最小值所對(duì)應(yīng)的γ值就是IRMCD處理此次觀測(cè)樣本增量的最優(yōu)解;以同樣的方式對(duì)Zthresh的取值范圍設(shè)定在4.0~1.0,每0.01的間隔考察KS值是否達(dá)到最小值,KS最小值所對(duì)應(yīng)的Zthresh值就是BSD處理此次觀測(cè)樣本增量的最優(yōu)解。從總樣本中隨機(jī)抽取了無降水樣本60 000個(gè)和降水樣本12 000個(gè),分別繪制了KS值隨γ參數(shù)和Z閾值變化曲線(圖1、2),無降水樣本用藍(lán)色表示,降水用紅色表示,γ參數(shù)以0.001的間隔在0.080~0.001取值對(duì)應(yīng)一個(gè)KS值,從圖1中可以看出,KS值的變化曲線呈現(xiàn)不規(guī)則拋物線形狀,有且僅有一個(gè)最低點(diǎn),所對(duì)應(yīng)γ參數(shù)就是IRMCD方法所需的最優(yōu)解,當(dāng)然對(duì)于不同的數(shù)據(jù)集KS最小值以及γ參數(shù)都會(huì)有所不同;同樣,Zthresh以0.1的間隔在4.0~1.0取值對(duì)應(yīng)一個(gè)KS值,從圖2中可以看出,KS值的變化曲線同樣呈現(xiàn)不規(guī)則拋物線形狀,總能找到KS最小值,所對(duì)應(yīng)Zthresh就是BSD方法所需的最優(yōu)解。這說明所制定的通過峰偏值KS指標(biāo)判定數(shù)據(jù)達(dá)到最優(yōu)正態(tài)分布的合理性。

        圖1 KS值隨γ參數(shù)變化曲線

        圖2 KS值隨Z閾值變化曲線

        從樣本數(shù)據(jù)中隨機(jī)抽取5 000、10 000、30 000、60 000個(gè)非降水觀測(cè)數(shù)據(jù)和5 000和12 750個(gè)降水觀測(cè)數(shù)據(jù),分別利用IRMCD和BSD兩種方法通過調(diào)整γ和Zthresh使KS值達(dá)到最小值,各個(gè)參數(shù)值如表1所示,其中Ku表示原始觀測(cè)u分量增量數(shù)據(jù)峰度指標(biāo),Ku′表示經(jīng)過IRMCD或BSD方法質(zhì)控后的u分量增量數(shù)據(jù)峰度指標(biāo),以此類推。從峰度和偏度指標(biāo)來看,在非降水樣本中u分量的峰度Ku值保持在7.2左右,經(jīng)過質(zhì)控后Ku′下降到0.01左右,v分量的峰度Kv值保持在25左右,經(jīng)過質(zhì)控后Kv′下降到0.15左右;u分量的偏度Su值保持在-1.6左右,經(jīng)過質(zhì)控后Su′下降到0.1左右,v分量的偏度Sv值保持在-4.3左右,經(jīng)過質(zhì)控后Sv′下降到0.2左右。從波形指標(biāo)上看,兩種方法都起到很好的質(zhì)控效果,在降水天氣下峰度和偏度指標(biāo)有著類似的趨勢(shì)。但是從KS指標(biāo)和離群值的數(shù)量來看,IRMCD始終比BSD方法的質(zhì)控效果更好。圖3展示了KS指標(biāo)在不同樣本下的變化曲線,IRMCD方法始終在0.4左右,而BSD方法始終在0.5左右,兩者之間相差0.1,說明IRMCD方法質(zhì)控后的數(shù)據(jù)更符合高斯或正態(tài)分布;從離群值的數(shù)量上來看,IRMCD方法始終比BSD方法判斷的離群值要多,由表2可見,兩種方法能夠判別離群值占總樣本的比例在11%~13%之間,但前者比后者要多0.6%,Avgu和Sdu分別代表u分量的絕對(duì)平均值和標(biāo)準(zhǔn)差,以此類推,經(jīng)過兩種方法的處理后,相對(duì)于原始數(shù)據(jù)都有極大的改進(jìn),質(zhì)控后的Sdu基本保持在2.1~2.3,總體上IRMCD在絕對(duì)平均值和標(biāo)準(zhǔn)差指標(biāo)都優(yōu)于BSD方法。說明IRMCD方法無論在波形指標(biāo)、統(tǒng)計(jì)指標(biāo)和離群值數(shù)量上都優(yōu)異于BSD方法,而且兩種方法在樣本的數(shù)量多少以及是否降水天氣都不影響各自離群值判斷能力。

        表2 IRMCD和BSD不同采樣統(tǒng)計(jì)指標(biāo)表

        圖3 兩種方法的KS指標(biāo)對(duì)比曲線

        2.2 兩種方法的概率密度和散點(diǎn)分布差異

        一般來說,IRMCD和BSD方法在判定離群值的本質(zhì)上是等價(jià)的:給定一個(gè)穩(wěn)健的均值和標(biāo)準(zhǔn)差,數(shù)據(jù)集向量Y中的離群值通過它們與穩(wěn)健擬合存在較大距離來識(shí)別。以非降水天氣下60 000樣本為例,圖4、5分別為u/v分量的觀測(cè)增量在不同方法處理后的概率密度和分位數(shù)—分位數(shù)(Q-Q)圖,其中U-質(zhì)控前表示u分量原始觀測(cè)增量;U-IRMCD表示u分量觀測(cè)增量經(jīng)過IRMCD質(zhì)控后的觀測(cè)增量;U-BSD表示u分量觀測(cè)增量經(jīng)過BSD質(zhì)控后的觀測(cè)增量,以此類推。這能反映觀測(cè)增量數(shù)據(jù)的分布情況,U-質(zhì)控前和V-質(zhì)控前的概率密度分布類似于高斯分布,但不是嚴(yán)格的高斯分布,可以看出陡峭的峰值和左右兩側(cè)分布的不對(duì)稱存在異常值。更準(zhǔn)確地說,在相對(duì)應(yīng)Q-Q散射的兩端存在較大差異,與其相對(duì)應(yīng)的u/v觀測(cè)增量的峰度值分別為7.35/25.09以及偏度值分別為-1.62/-4.29都說明原始觀測(cè)增量數(shù)據(jù)分布嚴(yán)重偏離正態(tài)分布。從U-IRMCD和V-IRMCD的概率密度分布和Q-Q散點(diǎn)可以看出質(zhì)控后的概率密度分布更接近于標(biāo)準(zhǔn)正態(tài)分布,Q-Q散點(diǎn)幾乎以直線收斂,表明幾乎所有離群點(diǎn)已被剔除,從相對(duì)應(yīng)u/v觀測(cè)增量的峰度值分別為0.0/-0.13以及偏度值分別為-0.07/-0.17,從數(shù)值上也說明質(zhì)控后的數(shù)據(jù)逼近標(biāo)準(zhǔn)正態(tài)分布。同樣的U-BSD和V-BSD的概率密度分布和Q-Q散點(diǎn)以及相對(duì)應(yīng)的峰度值分別為-0.01/-0.21以及偏度值分別為-0.09/-0.20能得到相同的結(jié)論,說明兩種方法在剔除離群值后都具有較好的正態(tài)分布,但是從峰度值、偏度值、峰偏值和標(biāo)準(zhǔn)差的指標(biāo)對(duì)比來看,明顯IRMCD方法的指標(biāo)優(yōu)于BSD方法,從概率密度直方圖的底部?jī)蓚?cè)還是能看出IRMCD比BSD來得更加平緩;Q-Q散點(diǎn)兩側(cè)IRMCD比BSD更加靠近中線位置。值得注意的是,表1的兩種方法的v分量偏度值始終保持在0.2左右,仍然需要最后的偏倚校正[13]。

        表1 IRMCD和BSD不同采樣數(shù)量波形指標(biāo)表

        圖4 u增量概率密度直方圖和相對(duì)應(yīng)的Q-Q分布

        圖5 v增量概率密度直方和相對(duì)應(yīng)的Q-Q分布

        圖6、7為u/v分量離群和非離群值散點(diǎn)分布,將進(jìn)一步理清兩種方法的差異之處。其中“+”表示非離群值,“.”表示離群值,并以不同的顏色代表觀測(cè)值所在的高度,為了更加清晰地表示離群值和非離群值,在4~7 km的非離群值用藍(lán)色表示,4~7 km的離群值青藍(lán)色表示,可以看出0~2 km的離群值以綠色實(shí)心圓分布,表明v分量的觀測(cè)值大于模式值,4~7 km的離群值以青藍(lán)色實(shí)心圓分布,表明v分量的觀測(cè)值小于模式值為主,在所有的離群值中4~7 km占據(jù)了一半以上,這是因?yàn)?月的溫度與濕度低造成風(fēng)廓線雷達(dá)的有效探測(cè)高度在6 km以下,在有效探測(cè)高度以上信噪比越來越弱,生成的風(fēng)場(chǎng)可靠性降低,造成大量的離群值,同時(shí)也可以看到7 km以上存在很少的離群值,因?yàn)?月探測(cè)高度很少能達(dá)到7 km以上。從整體上來看,很明顯,IRMCD和BSD兩者最大的不同在非離群值聚集的形狀上,BSD的非離群值更趨向于“方形”,而IRMCD的非離群值更趨向于“橢圓形”,這是由各自的算法所決定,BSD方法只能處理單向量,根據(jù)觀測(cè)點(diǎn)偏離標(biāo)準(zhǔn)差的倍數(shù)來決定是否為離群值,而IRMCD方法能同時(shí)處理二維向量,通過二維向量距離最小協(xié)方差矩陣中心的距離是否滿足特定分布來判定是否為離群值,這也是IRMCD方法的優(yōu)勢(shì)所在。

        圖6 u/v增量BSD離群和非離群值散點(diǎn)

        圖7 u/v增量IRMCD離群和非離群值散點(diǎn)

        為了更進(jìn)一步地理清兩種方法在判定離群值的不同之處,將兩種方法進(jìn)行對(duì)比(圖8),在非降水情況下兩種方法都判定為離群值用紅色表示,都判定為非離群值用藍(lán)色表示,僅僅IRMCD方法為離群值但BSD方法為非離群值用綠色表示,僅僅BSD方法為離群值但I(xiàn)RMCD方法為非離群值用黑色表示,可以看出,紅色點(diǎn)離群值所占比例為11.55%,IRMCD方法判定的離群值所占比例為12.41%,BSD方法判定的離群值所占比例為12.24%,因此大部分離群值兩種方法都能識(shí)別,不同的是僅IRMCD方法的非離群值分布更趨向于0值軸附近,在圖8中用綠色部分表示,僅BSD方法判定非離群值分布更趨向于“方形”對(duì)角線附近,在圖8中用黑色部分表示,明顯看出黑色點(diǎn)在4個(gè)角處且必然存在著離群值,但是BSD方法并沒有識(shí)別出來,造成對(duì)非離群值的污染,而IRMCD方法識(shí)別的非離群值顯得更加的平滑,雖然IRMCD方法也有存在錯(cuò)誤識(shí)別離群值的可能性,但是相對(duì)于離群值來說小得多,幾乎可以忽略不計(jì)。在降水情況下,如圖9所示,展示了如上所述相近的分布,僅僅BSD識(shí)別出的離群值聚集在“方形”的對(duì)角線附近,而僅僅IRMCD識(shí)別的離群值聚集在0值軸附近。

        圖8 u/v增量無降水BSD和IRMCD散點(diǎn)

        圖9 u/v增量降水BSD和IRMCD散點(diǎn)

        2.3 IRMCD方法質(zhì)控前后風(fēng)場(chǎng)變化

        為了更好地展示原始觀測(cè)風(fēng)場(chǎng)和質(zhì)控后數(shù)據(jù)的變化,圖10、11分別用風(fēng)羽圖展示了雷達(dá)站點(diǎn)(58944)的風(fēng)廓線,2018年2月8日08時(shí)(北京時(shí),下同)至9日14時(shí)共計(jì)30 h的原始風(fēng)場(chǎng)和IRMCD質(zhì)控后的小時(shí)水平風(fēng)廓線,對(duì)比發(fā)現(xiàn),原始數(shù)據(jù)最大探測(cè)高度在7 200 m,質(zhì)控后探測(cè)高度在5 000 m,圖11風(fēng)場(chǎng)廓線顯示明顯比圖10干凈、整潔、有規(guī)律,可見離群值主要分布在高空(4.5~7.5 km)和低空(0~0.5 km),原因是風(fēng)廓線雷達(dá)在4.5 km以上接收到的回波信號(hào)很弱,幾乎淹沒在噪聲信號(hào)中,造成功率譜信號(hào)識(shí)別錯(cuò)誤,就會(huì)生成錯(cuò)誤的水平風(fēng);同時(shí)由于風(fēng)廓線雷達(dá)低空接收到的回波信號(hào)容易受地物雜波的干擾,這些在零頻位置很強(qiáng)地物信號(hào)完全將大氣湍流回波信號(hào)淹沒,因此生成的水平風(fēng)風(fēng)速很小,方向雜亂沒有規(guī)律。從圖11中可以看出,IRMCD方法剔除離群值的能力優(yōu)異,這里不再展示BSD方法處理后的廓線,因?yàn)樘幚砗髱缀跖c圖11一樣,在這么小的樣本情況下幾乎只有2~3個(gè)點(diǎn)的區(qū)別,這也能從前面表1的指標(biāo)也能看出。

        圖10 2018年2月8—9日風(fēng)廓線原始小時(shí)水平風(fēng)廓線

        圖11 2018年2月8—9日IRMCD質(zhì)控后小時(shí)水平風(fēng)廓線

        因此,這兩種方法在3個(gè)方面有所不同:

        (1)在雙權(quán)重標(biāo)準(zhǔn)差檢查中,Y必須是單變量數(shù)據(jù)集。當(dāng)應(yīng)用于多變量觀測(cè)(如風(fēng)數(shù)據(jù))時(shí),需要分別對(duì)u/v分量進(jìn)行異常值檢查,當(dāng)其中一個(gè)向量被認(rèn)定為離群值,則該樣本二維向量被處理為離群值;另一方面,IRMCD作為一種多變量離群點(diǎn)檢測(cè)方法,可以直接應(yīng)用于多變量數(shù)據(jù)集Y,即可以同時(shí)檢測(cè)u/v分量的離群點(diǎn),在用于風(fēng)廓線雷達(dá)小時(shí)觀測(cè)增量數(shù)據(jù)后,從波形指標(biāo)、統(tǒng)計(jì)指標(biāo)和離群值數(shù)量上都表明IRMCD更有效。

        (2)它們的穩(wěn)健均值和標(biāo)準(zhǔn)差是以不同的方式計(jì)算的,它們的識(shí)別規(guī)則也是如此。在IRMCD中,通過比較穩(wěn)健距離的平方與具有形狀參數(shù)分布的參考值進(jìn)行比較,這些參數(shù)隨著應(yīng)用IRMCD的不同數(shù)據(jù)集而變化,獲得的非離群值的分布近似“橢圓形”。在雙權(quán)重檢查中,設(shè)定距離雙權(quán)重標(biāo)準(zhǔn)差的預(yù)定倍數(shù)作為識(shí)別離群值的閾值,獲得的非離群值分布近似“方形”,這其中必然存在一定量的誤判,也表明IRMCD比BSD方法有優(yōu)勢(shì)。

        (3)IRMCD具有防止假陽性的機(jī)制。在IRMCD中,測(cè)試的第四步(公式12)是專門設(shè)計(jì)來防止在任何好的數(shù)據(jù)集中出現(xiàn)錯(cuò)誤判定離群值情況[9],因?yàn)檎`報(bào)是傳統(tǒng)MCD規(guī)則的明顯缺點(diǎn)。在沒有步驟4的情況下,IRMCD相當(dāng)于正常的有限樣本重加權(quán)MCD,直接執(zhí)行第五步會(huì)導(dǎo)致錯(cuò)誤地識(shí)別正確的數(shù)據(jù)集,因此,傳統(tǒng)MCD和雙權(quán)重標(biāo)準(zhǔn)差都存在著同樣的缺陷。即使對(duì)于一個(gè)完美的數(shù)據(jù)集,離群值也或多或少被錯(cuò)誤地檢測(cè)到。這一點(diǎn)在ZHANG,et al[13]中已經(jīng)有所驗(yàn)證,但是在本次樣本執(zhí)行同樣的過程發(fā)現(xiàn),利用兩種方法都能識(shí)別出的非離群值進(jìn)行試驗(yàn)發(fā)現(xiàn)兩種方法都不能再識(shí)別出額外的離群值,因此,并不能完全通過這種方式來說明IRMCD方法比BSD方法更有效果,對(duì)于不同的數(shù)據(jù)集可能會(huì)呈現(xiàn)不同效果。

        3 結(jié)論

        本文選取了2018年2月2—11日福建9部風(fēng)廓線雷達(dá)的小時(shí)水平風(fēng)觀測(cè)數(shù)據(jù)與相應(yīng)的模式數(shù)據(jù)之差,即觀測(cè)增量,利用IRMCD和BSD兩種方法分別進(jìn)行質(zhì)量控制,并對(duì)質(zhì)量控制結(jié)果以不同的形式進(jìn)行比較分析。主要總結(jié)如下:

        (1)制定了IRMCD和BSD質(zhì)控方法獲得最優(yōu)解的判定指標(biāo)峰偏值KS,同時(shí)通過KS指標(biāo)的大小判斷兩種方法的優(yōu)劣性,IRMCD的KS指標(biāo)明顯小于BSD方法的KS指標(biāo),說明IRMCD比BSD方法更接近正態(tài)分布。

        (2)IRMCD方法可以同時(shí)應(yīng)用在多維變量的離群值檢測(cè),而BSD方法只能應(yīng)用在一維變量的離群值檢測(cè)中,BSD應(yīng)用在二維變量離群值檢測(cè)的時(shí)候必須分別進(jìn)行離群值檢測(cè),對(duì)于具有相關(guān)性的兩個(gè)變量是不利的。從波形指標(biāo)、統(tǒng)計(jì)指標(biāo)和離群值數(shù)量上都說明IRMCD比BSD更有優(yōu)越。

        (3)IRMCD和BSD的穩(wěn)健均值和標(biāo)準(zhǔn)差是以不同的方式計(jì)算的,它們的識(shí)別規(guī)則也是如此。在IRMCD中,通過比較穩(wěn)健距離的平方與具有形狀參數(shù)分布的參考值進(jìn)行比較,這些參數(shù)隨著應(yīng)用IRMCD的不同數(shù)據(jù)集而變化,獲得的非離群值的分布近似“橢圓形”。在雙權(quán)重檢查中,設(shè)定距離雙權(quán)重標(biāo)準(zhǔn)差的預(yù)定倍數(shù)作為識(shí)別離群值的閾值,獲得的非離群值分布近似“方形”,這其中必然存在一定量的誤判,同時(shí)IRMCD具有防止假陽性的機(jī)制,這也減少了離群值的誤判,也表明IRMCD比BSD方法有優(yōu)勢(shì)。

        從多個(gè)方面都表明了IRMCD的在風(fēng)廓線數(shù)據(jù)質(zhì)量控制的優(yōu)勢(shì),特別是對(duì)于二維向量離群值檢測(cè)具有普遍意義,也可以應(yīng)用在激光測(cè)風(fēng)雷達(dá)、探空雷達(dá)、天氣雷達(dá)等設(shè)備的風(fēng)場(chǎng)離群值檢測(cè)。也將為下一步在同化業(yè)務(wù)應(yīng)用中提供了依據(jù),同時(shí)今后也將該方法質(zhì)控后同化應(yīng)用于福建區(qū)域數(shù)值預(yù)報(bào)模式中,是否能改進(jìn)數(shù)值預(yù)報(bào)效果,也是下一步的工作目標(biāo)。

        猜你喜歡
        風(fēng)廓峰度離群
        高郵邊界層風(fēng)廓線雷達(dá)數(shù)據(jù)獲取率分析
        一種綜合的風(fēng)廓線雷達(dá)數(shù)據(jù)質(zhì)量控制方法
        用L波段探空測(cè)風(fēng)雷達(dá)評(píng)估風(fēng)廓線雷達(dá)測(cè)風(fēng)準(zhǔn)確性
        擴(kuò)散峰度成像技術(shù)檢測(cè)急性期癲癇大鼠模型的成像改變
        磁共振擴(kuò)散峰度成像在肝臟病變中的研究進(jìn)展
        四川盆地風(fēng)廓線雷達(dá)大氣折射率結(jié)構(gòu)常數(shù)特征分析
        基于自動(dòng)反相校正和峰度值比較的探地雷達(dá)回波信號(hào)去噪方法
        磁共振擴(kuò)散峰度成像MK值、FA值在鑒別高級(jí)別膠質(zhì)瘤與轉(zhuǎn)移瘤的價(jià)值分析
        離群數(shù)據(jù)挖掘在發(fā)現(xiàn)房產(chǎn)銷售潛在客戶中的應(yīng)用
        離群的小雞
        浪荡少妇一区二区三区| 久久精品国产字幕高潮| 久久精品夜色国产亚洲av| 国产无遮挡a片又黄又爽| 国产高清a| 青青草是针对华人绿色超碰| 午夜视频在线观看一区二区小| 国产乱码精品一区二区三区四川人 | 国产激情视频在线观看首页 | 日本艳妓bbw高潮一19| 国产精品亚洲日韩欧美色窝窝色欲| 亚洲欧美变态另类综合| 亚洲免费精品一区二区| 国产精品久免费的黄网站| 精品亚洲欧美无人区乱码| av资源在线看免费观看| 亚洲不卡av二区三区四区| 无码aⅴ精品一区二区三区| 日本老熟欧美老熟妇| 天天澡天天揉揉AV无码人妻斩| 中文字幕午夜精品一区二区三区| 欧洲多毛裸体xxxxx| 亚洲 欧美 激情 小说 另类| 国产成人精品视频网站| 蜜桃高清视频在线看免费1| 97se亚洲国产综合在线| 国产美女在线精品免费观看网址 | 国内少妇偷人精品视频免费| 蜜臀av中文人妻系列| 亚洲av男人的天堂一区| 玩弄丰满奶水的女邻居| 猫咪www免费人成网最新网站 | 中文字幕喷水一区二区| 中文字幕成人乱码亚洲| 日本中文字幕有码网站| 日本无码人妻波多野结衣| 2021国产最新在线视频一区| 精品国产污黄网站在线观看| 五月色婷婷丁香无码三级| 国产无遮挡无码视频免费软件 | 五月婷婷六月激情|