亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        輔助信息在數(shù)據(jù)缺失時(shí)的應(yīng)用

        2012-03-15 00:23:08曾瓊軍
        統(tǒng)計(jì)與決策 2012年24期
        關(guān)鍵詞:估計(jì)量均值輔助

        羅 薇,曾瓊軍

        (1.暨南大學(xué) 經(jīng)濟(jì)學(xué)院,廣州 510632;2.廣東工業(yè)大學(xué) 管理學(xué)院,廣州 510520)

        1 問(wèn)題的提出

        數(shù)據(jù)缺失是幾乎所有的抽樣調(diào)查都無(wú)法避免的問(wèn)題,一般來(lái)說(shuō),數(shù)據(jù)缺失主要由以下幾方面的原因造成:抽樣框沒(méi)能覆蓋目標(biāo)總體中的全部單元;樣本單元沒(méi)有參與調(diào)查;樣本單元沒(méi)有回答某些調(diào)查項(xiàng)目;或者出現(xiàn)一些明顯不合邏輯、有意造假的數(shù)據(jù)。數(shù)據(jù)缺失不但減少了接受調(diào)查者的實(shí)際單位數(shù),而且可能擴(kuò)大估計(jì)量方差,嚴(yán)重時(shí)還會(huì)帶來(lái)估計(jì)量偏差,甚至造成抽樣的無(wú)效。在數(shù)據(jù)收集過(guò)程中,有許多方法可以用來(lái)處理缺失數(shù)據(jù)。這些方法的共同目的都是要將缺失的數(shù)據(jù)尋找回來(lái)。例如對(duì)無(wú)回答樣本進(jìn)行重新調(diào)查,但是由于成本或其他種種原因的限制無(wú)法進(jìn)行重新調(diào)查,或者重新調(diào)查也不能獲得回答。此時(shí),我們就要關(guān)注數(shù)據(jù)處理階段對(duì)無(wú)回答的補(bǔ)救,如采用輔助抽樣框?qū)⑷笔?shù)據(jù)與抽樣總體單元進(jìn)行某種方式的聯(lián)接,或者利用有關(guān)輔助資料對(duì)缺失數(shù)據(jù)進(jìn)行推算,計(jì)算缺失數(shù)據(jù)帶來(lái)估計(jì)量偏差的影響程度。上述問(wèn)題的解決都有賴于輔助信息運(yùn)用。本文僅討論項(xiàng)目無(wú)回答背景下的處理,但其方法對(duì)單位無(wú)回答情況有參考意義。

        設(shè)目標(biāo)總體為U,包含N個(gè)抽樣單元,Y為目標(biāo)變量,X為與目標(biāo)變量Y存在較高相關(guān)性的輔助變量,則有:

        Xi為第i個(gè)調(diào)查單元的已知輔助信息,q為輔助變量的個(gè)數(shù),εi為殘差,其均值為零,與Xi相互獨(dú)立。

        上式可以化為:

        2 輔助信息在加權(quán)調(diào)整法中的應(yīng)用

        保證回答集中輔助變量的加權(quán)總值等于實(shí)際輔助變量的總體總值:

        (2)利用輔助信息,調(diào)整樣本的初始權(quán)數(shù)di,使得di=ωi,即在等式(4)約束下,使得di與ωi的距離最小,下面采用較為簡(jiǎn)單的線性校準(zhǔn)估計(jì),距離函數(shù)表達(dá)為:

        利用拉格朗日定理求解線性距離最小化得:

        解得:

        即:

        從而校準(zhǔn)估計(jì)量為:

        即:

        校準(zhǔn)估計(jì)的方差估計(jì)量為:

        其中:

        上述情形為總體輔助信息已知。如果只有樣本輔助信息,在項(xiàng)目無(wú)回答發(fā)生時(shí),校準(zhǔn)估計(jì)可以利用樣本輔助信息調(diào)整無(wú)回答集的分布,使得回答單位集輔助信息的分布與樣本輔助信息的分布較為一致,從而減少無(wú)回答誤差,此時(shí),校準(zhǔn)估計(jì)的條件約束方程組為:

        則校準(zhǔn)估計(jì)量為:

        3 利用輔助信息進(jìn)行插補(bǔ)

        插補(bǔ)的基本原理是用已有的數(shù)據(jù)替代調(diào)查中的缺失數(shù)據(jù),然后利用調(diào)查所收集的數(shù)據(jù)或模擬出缺失數(shù)據(jù)對(duì)總體參數(shù)進(jìn)行估計(jì)。已有的數(shù)據(jù)可以通過(guò)兩種方法獲得:一是以前進(jìn)行過(guò)類似的調(diào)查,或存在與缺失數(shù)據(jù)相關(guān)的輔助信息,如果變量之間存在函數(shù)關(guān)系,建立起反映數(shù)據(jù)之間相互關(guān)系的模型,則可以對(duì)缺失數(shù)據(jù)進(jìn)行推算估計(jì)。但是變量之間往往不存在函數(shù)關(guān)系,這就限制了這一方法在實(shí)際中的應(yīng)用。二是利用當(dāng)前正在進(jìn)行的調(diào)查數(shù)據(jù),即利用樣本中回答數(shù)據(jù)模擬缺失數(shù)據(jù)的樣本單位,如均值插補(bǔ)、隨機(jī)插補(bǔ)、熱卡和冷卡插補(bǔ)、距離函數(shù)配對(duì)法、回歸估計(jì)插補(bǔ),而這類方法可能會(huì)人為地扭曲數(shù)據(jù)的真實(shí)分布。而在相關(guān)的輔助信息下,模擬的精度往往得以提高。

        sr是對(duì)目標(biāo)變量y回答單元的集合,sm是對(duì)目標(biāo)變量y數(shù)據(jù)缺失單元的集合,為補(bǔ)上缺失數(shù)據(jù)yi而造出的插補(bǔ)值,下面將討論不同插補(bǔ)方法。

        (1)均值插補(bǔ)法

        (2)隨機(jī)插補(bǔ)法

        為了避免均值插補(bǔ)中插補(bǔ)值形成一個(gè)人造“峰值”的缺陷,我們按照某種概率抽樣的方法從回答單位數(shù)據(jù)中隨機(jī)抽取插補(bǔ)單位,以抽取的插補(bǔ)單位的實(shí)際回答值代替缺失值。即在樣本回答集中,在r個(gè)回答單元中隨機(jī)抽取m個(gè)回答單元,替代m個(gè)缺失數(shù)據(jù),若j∈sr使得p(=yj) =1 r,則=yj。這一方法彌補(bǔ)了均值插補(bǔ)中插補(bǔ)值過(guò)分集中的缺點(diǎn),但是增加了一個(gè)再抽樣的過(guò)程,必然導(dǎo)致方差的增加。如果能利用相關(guān)輔助信息對(duì)樣本單位進(jìn)行事后分層,再在每層中進(jìn)行隨機(jī)插補(bǔ),則調(diào)整效果較好。

        (3)熱卡和冷卡插補(bǔ)法

        熱卡插補(bǔ)就是先根據(jù)輔助變量的信息將樣本分為若干層,使得層內(nèi)各單位特征盡可能相似,然后按照某種概率抽樣的方法,從當(dāng)前正在進(jìn)行調(diào)查的同層回答單位中抽取與無(wú)回答單位數(shù)量相同的樣本,以抽取的樣本單位數(shù)據(jù)作為缺失數(shù)據(jù)的插補(bǔ)值。由于熱卡插補(bǔ)抽取的數(shù)據(jù)與缺失數(shù)據(jù)具有相似性,所以插補(bǔ)出的數(shù)據(jù)比較準(zhǔn)確,且插補(bǔ)后仍可以保持?jǐn)?shù)據(jù)的回答分布形式。如果缺失數(shù)據(jù)由當(dāng)前調(diào)查外的其他信息,如歷史數(shù)據(jù)進(jìn)行插補(bǔ),則稱為冷卡插補(bǔ)。

        (4)距離函數(shù)配對(duì)法

        采用離缺失數(shù)據(jù)最近的回答數(shù)據(jù)作為插補(bǔ)值,若j∈sr使mindist(xi,xj)則=yj。距離函數(shù)一般是輔助變量的函數(shù),所選擇的輔助變量在性質(zhì)上應(yīng)與目標(biāo)變量相似,且兩者應(yīng)具有密切關(guān)系。

        (5)回歸插補(bǔ)法

        回歸插補(bǔ)法需要完整的輔助變量x1,…xq和目標(biāo)變量估計(jì)目標(biāo)變量y對(duì)線性關(guān)系建立回歸方程,則:

        此時(shí)的插補(bǔ)值是通過(guò)標(biāo)準(zhǔn)方法(如最小平方法)計(jì)算出來(lái)的預(yù)測(cè)值,它所產(chǎn)生的插補(bǔ)值比均值法得到的插補(bǔ)值更為穩(wěn)定。往往可以采用前期數(shù)據(jù)作為輔助變量來(lái)預(yù)測(cè)現(xiàn)期數(shù)據(jù)。而當(dāng)輔助信息x1,…xq相同時(shí),得到的插補(bǔ)值也一樣,同樣會(huì)產(chǎn)生樣本扭曲的問(wèn)題。

        4 利用輔助信息構(gòu)造間接估計(jì)量

        由于缺失數(shù)據(jù)的分布一般來(lái)說(shuō)是隨機(jī)的,所以采用插補(bǔ)法推算缺失數(shù)據(jù),樣本方差將增大,估計(jì)量也是有偏的,同時(shí),上述各插補(bǔ)方法也要求完整的輔助信息。下面研究在一般情況下,即在一些目標(biāo)變量數(shù)據(jù)和一些輔助信息都缺失的情況下,利用回答數(shù)據(jù)和已知輔助信息構(gòu)造間接估計(jì)量來(lái)處理無(wú)回答。

        設(shè)目標(biāo)總體U的樣本為s,第i個(gè)單位的包含概率為πi[1],將樣本分成三個(gè)不相交的子集:s1表示目標(biāo)變量和對(duì)應(yīng)輔助信息都完整的集合,s2表示目標(biāo)變量無(wú)回答但輔助信息存在的集合,s3表示目標(biāo)變量存在但輔助變量不存的目標(biāo)變量的集合,其對(duì)應(yīng)的樣本量分別為n1,n2,n3,且1≤n2,n3≤n/2[2]。要估計(jì)總體均值,一方面可以先對(duì)各子樣本考慮估計(jì)量,然后進(jìn)行加權(quán)平均或相加,求得總體均值的估計(jì)量。令總體均值為:

        如果β未知,利用廣義最小二乘法,固定樣本下β的最小線性無(wú)偏估計(jì)量即為樣本回歸系數(shù),則為的線性無(wú)偏估計(jì)量。而未抽中單元均值估計(jì)量為=,所以:

        另外,根據(jù)樣本的結(jié)構(gòu),也可以利用所有已知目標(biāo)變量和輔助變量來(lái)推斷缺失數(shù)據(jù),估計(jì)總體參數(shù)。子樣本s1,s2,s3的Horvitz-Thompson估計(jì)量為:

        則目標(biāo)變量Y和輔助信息X的總體總量估計(jì)分別為:

        相應(yīng)的比估計(jì)量和回歸估計(jì)量為:

        其中,X是輔助變量的總體總量,如果b未知,取b=cov(x,y)/var(x)。M.M.Rueda,S.Gonza′lez和A.Arcos的數(shù)據(jù)模擬研究證明,與簡(jiǎn)單回歸估計(jì)插補(bǔ)相比,上述間接估計(jì)量的精度可以大大地提高[4]。

        5 結(jié)論

        綜合上述各種方法不難發(fā)現(xiàn),利用輔助信息,加權(quán)校準(zhǔn)估計(jì)能調(diào)整樣本回答集的發(fā)布,使其更好地代表總體的分布,提高估計(jì)量的精度。采用輔助信息模擬缺失數(shù)據(jù)的插值法,簡(jiǎn)單易明,能夠減少估計(jì)量的偏差。但傳統(tǒng)的插值法也存在這樣或那樣的缺點(diǎn),如扭曲樣本的分布,低估方差,穩(wěn)定性較差,需要完整的輔助信息。而利用間接估計(jì)量進(jìn)行插補(bǔ),方法雖較為復(fù)雜,但是在一部分目標(biāo)變量和一部分輔助信息缺失的情況下,利用所有已知的目標(biāo)變量和輔助信息,能夠提高估計(jì)量的精度。

        [1]劉建平等.輔助信息在抽樣調(diào)查中的應(yīng)用模型與方法[M].北京:中國(guó)統(tǒng)計(jì)出版社,2008.

        [2]Valliant,A.H,Dorfman,R.M.Royall.Finite Population Sampling and Inference[M].London:John Wiley,2000.

        [3]H.Toutenburg,V.K.Srivastava.Efficient Estimation of Population Mean Using Incomplete Survey Data on Study and Auxiliary Characteristics,Sonderforschungsbereich[C].Discussion Paper179,2000.

        [4]M.M.Rueda,S.González,A.Arcos.Indirect Methods of Imputation of Missing Data Based on Available Units[J].Applied Mathematics and Computation,2009,(175).

        [5]金勇進(jìn).非抽樣誤差分析[M].北京:中國(guó)統(tǒng)計(jì)出版社,1996.

        猜你喜歡
        估計(jì)量均值輔助
        小議靈活構(gòu)造輔助函數(shù)
        倒開水輔助裝置
        淺談估計(jì)量的優(yōu)良性標(biāo)準(zhǔn)
        減壓輔助法制備PPDO
        均值不等式失效時(shí)的解決方法
        均值與方差在生活中的應(yīng)用
        提高車輛響應(yīng)的轉(zhuǎn)向輔助控制系統(tǒng)
        汽車文摘(2015年11期)2015-12-02 03:02:53
        基于配網(wǎng)先驗(yàn)信息的諧波狀態(tài)估計(jì)量測(cè)點(diǎn)最優(yōu)配置
        關(guān)于均值有界變差函數(shù)的重要不等式
        對(duì)偶均值積分的Marcus-Lopes不等式
        丰满人妻被黑人中出849| 亚洲精品一区三区三区在线| 亚洲欧洲国产码专区在线观看| 亚洲 精品 综合 精品 自拍| 日本午夜国产精彩| 中文字幕中文字幕人妻黑丝| 亚洲国产美女高潮久久久| 久久精品国产色蜜蜜麻豆| japanese无码中文字幕| 亚洲国产综合精品久久av| 中美日韩在线一区黄色大片| 毛片免费视频在线观看| 2021国产视频不卡在线| 日韩精品免费在线视频| 亚洲女同恋av中文一区二区| 色天使综合婷婷国产日韩av| 中国一级毛片在线观看| 日韩精品极品视频在线免费| 变态另类手机版av天堂看网 | 免费看黄色电影| 自拍 另类 综合 欧美小说| 在线视频免费自拍亚洲| 综合五月激情二区视频| 日韩精品无码av中文无码版| 美女裸体无遮挡黄污网站| 日本在线观看一二三区| 国产日产精品一区二区三区四区的特点 | 插插射啊爱视频日a级| 久久久精品人妻久久影视| 国产目拍亚洲精品一区二区| 男女啪啪在线视频网站| 亚洲 中文 欧美 日韩 在线| 亚洲成a人片在线看| 国产av在线观看91| 国产午夜av秒播在线观看| 婷婷五月综合缴情在线视频| 7777色鬼xxxx欧美色妇| 这里有精品可以观看| 男女性搞视频网站免费| 久久日日躁夜夜躁狠狠躁| 亚洲人成色777777老人头|