亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于數(shù)據(jù)統(tǒng)計(jì)診斷的截面數(shù)據(jù)診斷方法

        2012-07-25 08:35:52杜聰慧崔永偉李子奈
        統(tǒng)計(jì)與決策 2012年10期
        關(guān)鍵詞:比法極差總體

        杜聰慧,崔永偉,李子奈

        0 引言

        由于計(jì)量經(jīng)濟(jì)學(xué)是利用樣本建立、估計(jì)、檢驗(yàn)?zāi)P偷?,樣本?shù)據(jù)質(zhì)量好壞是決定模型質(zhì)量的關(guān)鍵因素,所以,拿到數(shù)據(jù)后,首先要檢查數(shù)據(jù)質(zhì)量。針對時(shí)間序列數(shù)據(jù)的診斷很多學(xué)者對此已做了研究,并找到了好的方法進(jìn)行鑒別,而對截面數(shù)據(jù)的診斷研究甚少,因?yàn)橐慌l(fā)生在同一時(shí)間截面上的截面數(shù)據(jù)大多是通過調(diào)查而得到的,能夠得到數(shù)據(jù)已經(jīng)不易,很少有人對數(shù)據(jù)的質(zhì)量進(jìn)行診斷。而在利用截面數(shù)據(jù)進(jìn)行計(jì)量分析中,只有當(dāng)數(shù)據(jù)是在截面總體中由隨機(jī)抽樣得到的樣本觀測值,并且被解釋變量具有連續(xù)的隨機(jī)分布時(shí),才能夠?qū)⒛P皖愋驮O(shè)定為經(jīng)典的計(jì)量經(jīng)濟(jì)學(xué)模型,由此可見,經(jīng)典計(jì)量經(jīng)濟(jì)學(xué)模型對截面數(shù)據(jù)存在著很強(qiáng)的依賴性。根據(jù)近代回歸分析中的數(shù)據(jù)診斷理論,探索對統(tǒng)計(jì)推斷(如參數(shù)估計(jì)、預(yù)測)有較大影響的觀測數(shù)據(jù)稱為是數(shù)據(jù)統(tǒng)計(jì)診斷[1]。基于此,本文擬從數(shù)據(jù)統(tǒng)計(jì)診斷角度嘗試探討診斷截面數(shù)據(jù)的方法,以期將混擬在其中的異常數(shù)據(jù)尋找出來,從而增加計(jì)量經(jīng)濟(jì)分析結(jié)果的可靠性。

        1 反常結(jié)果判別法

        反常結(jié)果是數(shù)理統(tǒng)計(jì)學(xué)中的概念。它是指某一變量的觀測數(shù)據(jù)中有時(shí)出現(xiàn)個(gè)別相對特別大或特別小的數(shù)據(jù),這些數(shù)據(jù)稱為反常結(jié)果。一個(gè)反常結(jié)果可能只是數(shù)據(jù)中內(nèi)在的隨機(jī)變異性的一個(gè)極端表現(xiàn),也可能是因?yàn)橛^測錯(cuò)誤、記錄錯(cuò)誤等非隨機(jī)因素造成的。如果是前一種情況,它就必須保留下來與其它數(shù)據(jù)接受同樣的處理;如果是后一種情況,在分析問題時(shí)就必須舍棄這些數(shù)據(jù)。保留或舍棄一個(gè)反常數(shù)據(jù)都需要經(jīng)過檢驗(yàn)來決定。其檢驗(yàn)方法稱為反常結(jié)果判斷法。

        反常結(jié)果判斷法包括方差比法、極值偏差法和極差比法(即Dixon準(zhǔn)則)等三種基本方法。通常的數(shù)據(jù)統(tǒng)計(jì)整理方法往往都對樣本數(shù)據(jù)有一個(gè)前提假設(shè),即樣本數(shù)據(jù)來自同一個(gè)總體。這里假設(shè)總體分布為正態(tài)分布N(μ,σ2),樣本容量大小為n,先將數(shù)據(jù)按從小到大的次序排序,記成

        1.1 方差比法[2]

        1.2 極值偏差法[2]

        首先構(gòu)造統(tǒng)計(jì)量

        其中En(或E1)是n個(gè)數(shù)據(jù)結(jié)果中,剔除可疑數(shù)據(jù)x(n)(或x(1))后所得的總體中間誤差E的估計(jì),即

        對于n個(gè)數(shù)據(jù)結(jié)果,給定顯著水平α,由Q分布臨界表中查出Qα,若Q>Qα,則可認(rèn)為 x(n)(或 x(1))為異常值。

        1.3 極差比法[3]

        (1)半極差型

        如果x(n)(或x(1))是異常數(shù)據(jù),則它們應(yīng)遠(yuǎn)離其均值,于是利用統(tǒng)計(jì)量或,其中,這兩種情形下的統(tǒng)計(jì)量均為單側(cè)檢驗(yàn)統(tǒng)計(jì)量,若不知異常數(shù)據(jù)在上側(cè)還是在下側(cè),則需進(jìn)行雙側(cè)檢驗(yàn),其統(tǒng)計(jì)量為

        (2)極差型

        如果樣本數(shù)據(jù)存在異常數(shù)據(jù),則極差x(n)-x(1)比起σ或S來,會(huì)過分的偏大,于是可用統(tǒng)計(jì)量來檢驗(yàn)數(shù)據(jù)中是否存在異常數(shù)據(jù)。但這種方法的缺點(diǎn)在于當(dāng)判斷出樣本中存在異常數(shù)據(jù)時(shí),卻沒能判別出x(1)和x(n)中到底是哪一個(gè)為異常數(shù)據(jù)。

        (3)鄰差型(狄克遜準(zhǔn)則)

        在樣本中,若x(n)是異常數(shù)據(jù),那么以其標(biāo)準(zhǔn)差σ(當(dāng)σ未知時(shí)以σ的估計(jì)S)為刻度,它應(yīng)離鄰近的數(shù)據(jù)x(n-1)較

        由于當(dāng)樣本數(shù)n較大時(shí),極差x(n)-x(1)中包含的σ的信息較少,使得檢驗(yàn)功效降低,于是可用擬極差x(n)-x(2),x(n)-x(3)來代替。一般認(rèn)為當(dāng)3≤n≤7時(shí),以,當(dāng) σ未為佳;當(dāng)8≤n≤10時(shí),以為佳;當(dāng)11≤n≤13時(shí),以為佳;當(dāng)14≤n≤30時(shí),以為佳。

        具體檢驗(yàn)時(shí),當(dāng)Tn大于某個(gè)常數(shù)C2n時(shí),就判斷x(n)是異常數(shù)據(jù),其中C2n滿足P{Tn>C2n}=α,當(dāng)概率值小于給定的α?xí)r,就認(rèn)為x(n)是異常數(shù)據(jù);否則認(rèn)為不是。

        在實(shí)際應(yīng)用中,半極差模型和鄰差模型檢驗(yàn)法用的較多,鄰差模型檢驗(yàn)法是一種較好的方法。

        2 利用跳躍度來檢驗(yàn)異常值

        先引入跳躍度的概念。設(shè)X(1),X(2),…,X(n)為來自總體分布F(X;θ)的樣本容量為n的次序統(tǒng)計(jì)量,為僅依賴于X(1),X(2),…,X(k)的期望μ的點(diǎn)估計(jì),則稱為在點(diǎn)k的跳躍度(簡稱k點(diǎn)的跳躍度)[4]。

        任何一組n個(gè)數(shù)據(jù)都可以看作是來自某一總體樣本容量為n的樣本觀察值,將它們進(jìn)行由小到大的排序后異常值必居于數(shù)據(jù)所組成的數(shù)列兩端。且異常值的存在必使期望的點(diǎn)估計(jì)產(chǎn)生跳躍,因而期望點(diǎn)估計(jì)的最大跳躍點(diǎn)(跳躍度最大的點(diǎn))最有可能是異常數(shù)據(jù)的起始點(diǎn)。具體做法如下:

        (1)將各數(shù)據(jù)按由小到大的次序進(jìn)行排列,并計(jì)算出各點(diǎn)的跳躍度;

        (2)找出兩端跳躍度的最大值點(diǎn);

        (3)進(jìn)行比較分析,若跳躍度的最大值與相鄰跳躍度確有明顯差異,那以左側(cè)對應(yīng)的統(tǒng)計(jì)數(shù)據(jù)為最大的異常小值,右側(cè)對應(yīng)的統(tǒng)計(jì)數(shù)據(jù)為最小的異常大值。這樣,就可較方便地把混雜在數(shù)據(jù)中的異常值剔去。

        利用跳躍度來檢驗(yàn)出異常值后,即可利用剩余下的正常數(shù)據(jù)由經(jīng)典統(tǒng)計(jì)的方法進(jìn)行統(tǒng)計(jì)分析,但值得注意的是,在理論上被剔除的異常值是相對于一定的精度而言的,畢竟這些異常數(shù)據(jù)和其它數(shù)據(jù)一樣也來自于同一總體,因此或多或少的會(huì)帶來一些總體的信息。為提高統(tǒng)計(jì)分析的可靠性,如果有先驗(yàn)信息可用的話,在進(jìn)行統(tǒng)計(jì)分析時(shí)用貝葉斯方法效果會(huì)更好些。

        3 預(yù)測區(qū)間判斷法與羅曼諾夫斯基準(zhǔn)則

        3.1 預(yù)測區(qū)間判斷法[5]

        對同一變量對不同的對象進(jìn)行測量,測量數(shù)據(jù)一般符合正態(tài)分布,設(shè)x1,x2,…,xn是來自X的一個(gè)樣本值,并且它們獨(dú)立同分布,且X~N(μ,σ2),根據(jù)期望與方差的點(diǎn)估計(jì)理論,構(gòu)造統(tǒng)計(jì)量,對于給定的α,查t分布表,的的值,得 μ的置信度是1-α的置信區(qū)間,而μ落在該區(qū)間之外的概率很小,屬于小概率事件,在正常的測量過程中不會(huì)發(fā)生。因此取為 臨 界 值 ,若 xi(i=1,2,…n)滿 足,則xi可判斷為是異常數(shù)據(jù)。

        3.2 羅曼諾夫斯基準(zhǔn)則

        一般處理數(shù)據(jù)前,認(rèn)為數(shù)據(jù)服從正態(tài)分布,但是數(shù)理統(tǒng)計(jì)學(xué)可以證明,在測量次數(shù)較少的情況下,t分布更符合實(shí)際分布,在吳天鵬(1995)提出了一個(gè)新的準(zhǔn)則,該準(zhǔn)則就是以t分布為依據(jù)建立的,在一定測量次數(shù)n下,設(shè)獨(dú)立測得的一組x1,x2,…,xn,若對某一數(shù)據(jù)xk有懷疑,可按照以下步驟判別[11]:

        (1)先將懷疑數(shù)據(jù)xk去掉,計(jì)算出不包含xk的數(shù)據(jù)的算術(shù)平均值

        (2)計(jì)算出不包含xk的殘差在內(nèi)的標(biāo)準(zhǔn)差

        (3)根據(jù)選定的顯著性水平α和數(shù)據(jù)的個(gè)數(shù)n,在t分布表中查出檢驗(yàn)系數(shù) K(α,n),δ=K(α,n)s′;

        文獻(xiàn)[11]將預(yù)測區(qū)間判斷法與羅曼諾夫斯基準(zhǔn)則剔除異常數(shù)據(jù)做了比較,發(fā)現(xiàn)預(yù)測區(qū)間判別法診斷出的異常數(shù)據(jù)多于羅曼諾夫斯基準(zhǔn)則。羅曼諾夫斯基準(zhǔn)則是比較成熟的判斷準(zhǔn)則,它建立的基礎(chǔ)符合數(shù)理統(tǒng)計(jì)理論的有關(guān)的結(jié)論,剔除異常數(shù)據(jù)時(shí)比較謹(jǐn)慎,在測量次數(shù)較少(n≤10)時(shí),使用此準(zhǔn)則比較可靠。

        4 結(jié)束語

        基于數(shù)據(jù)統(tǒng)計(jì)的診斷方法是對給定的數(shù)據(jù)集合假設(shè)一個(gè)分布或概率模型(例如一個(gè)正態(tài)分布),然后根據(jù)模型采用不一致檢驗(yàn)來確定異常。而在大多數(shù)情況下,數(shù)據(jù)集合參數(shù)分布可能是未知的,所以,當(dāng)沒有特定的檢驗(yàn)時(shí),基于統(tǒng)計(jì)的這些檢驗(yàn)方法不能確保發(fā)現(xiàn)所有的異常,或者觀測到的分布不能恰當(dāng)?shù)乇蝗魏螛?biāo)準(zhǔn)的分布來模擬。

        在診斷出異常點(diǎn)以后,不要簡單地將異常數(shù)據(jù)刪除,因?yàn)檫@樣做可能將異常點(diǎn)攜帶的一些有用的信息丟失,如在經(jīng)濟(jì)領(lǐng)域,異常值的出現(xiàn)可能是某種預(yù)警信息的表現(xiàn)等,所以應(yīng)該對不同情況的異常點(diǎn)給予不同處理。如果證實(shí)是數(shù)據(jù)錄入錯(cuò)誤,可以刪除。保留或舍棄刪除一個(gè)異常數(shù)據(jù)都需要經(jīng)過檢驗(yàn)來決定。

        [1] 石磊.多水平模型及其統(tǒng)計(jì)診斷[M].北京:科學(xué)出版社,2008.

        [2] 趙崮巍.異常數(shù)據(jù)的判定方法及結(jié)果處理[J].現(xiàn)代商檢科技,1993,(3).

        [3] 杭愛明.如何處理統(tǒng)計(jì)數(shù)據(jù)中的異常值問題[J].上海統(tǒng)計(jì),1994.

        [4] 張德然.統(tǒng)計(jì)數(shù)據(jù)中異常值的檢驗(yàn)方法[J].統(tǒng)計(jì)研究,2003,(5).

        [5] 邵婷婷等.兩種剔除異常數(shù)據(jù)的方法比較[J].現(xiàn)代電子技術(shù),2008,(24).

        猜你喜歡
        比法極差總體
        化虛為實(shí) 觸摸物理——物理方法之類比法
        加權(quán)譜比法Q值估計(jì)
        物理方法之類比法
        用樣本估計(jì)總體復(fù)習(xí)點(diǎn)撥
        2020年秋糧收購總體進(jìn)度快于上年
        最好的比較
        外匯市場運(yùn)行有望延續(xù)總體平穩(wěn)發(fā)展趨勢
        中國外匯(2019年6期)2019-07-13 05:44:06
        二次函數(shù)極差的規(guī)律與應(yīng)用
        直擊高考中的用樣本估計(jì)總體
        在分位數(shù)回歸中結(jié)構(gòu)突變的經(jīng)驗(yàn)極差檢驗(yàn)
        97人妻碰免费视频| 精品亚洲一区二区区别在线观看| 国产亚洲aⅴ在线电影| 国产激情小视频在线观看| 91精品国产综合久久久蜜| 深夜福利啪啪片| 亚洲av无码不卡久久| av无码久久久久不卡网站下载| 国产精品大屁股1区二区三区| 青青手机在线视频观看| av免费在线观看网站大全| 日本一本一道久久香蕉男人的天堂| 亚洲欧洲成人a∨在线观看| 最近最新中文字幕| 精品国产福利片在线观看| 成人性生交大片免费看7| 久久久精品国产老熟女| 中文字幕av高清人妻| 狠狠色综合7777久夜色撩人| 抽插丰满内射高潮视频| 国产熟女自拍视频网站| 成人免费播放视频影院| 在线视频夫妻内射| 国产最新进精品视频| 窄裙美女教师在线观看视频| 97久久国产精品成人观看| 91丝袜美腿亚洲一区二区| 狠狠色婷婷久久一区二区三区 | 粗大猛烈进出高潮视频大全| 激情综合色综合啪啪五月丁香| 亚洲产在线精品亚洲第一站一| 日韩在线中文字幕一区二区三区| 日本免费三级一区二区| 免费日本一区二区三区视频| 三叶草欧洲码在线| 综合色久七七综合尤物| 中文字幕一区二区三在线| 亚洲av手机在线网站| 亚洲va无码va在线va天堂| 狠狠久久精品中文字幕无码| 色偷偷亚洲女人的天堂|