亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

抽樣調(diào)查中基于模型的穩(wěn)健預(yù)測方法

2012-03-15 00:23:38鞏紅禹賀本嵐王麗艷

統(tǒng)計(jì)與決策 2012年16期

鞏紅禹，賀本嵐，王麗艷

(1.內(nèi)蒙古財(cái)經(jīng)學(xué)院，呼和浩特010051；2.中國人民大學(xué) 統(tǒng)計(jì)學(xué)院，北京100872；3.內(nèi)蒙古岱海發(fā)電有限責(zé)任公司,內(nèi)蒙古烏蘭察布 013700)

0 引言

在實(shí)際的抽樣調(diào)查中，通常關(guān)注總體的某些特征，如總量、均值、比例等?；谠O(shè)計(jì)推斷和基于模型的推斷（Fuller,2009;Bolfarine,Zacks,1992;Cassel,Sarndal,Wretman, 1977）是推斷有限總體特征的兩種不同途徑?；谠O(shè)計(jì)推斷通常假定總體固定和有限的，根據(jù)樣本觀測結(jié)果推斷總體的參數(shù)。調(diào)查者根據(jù)某種抽樣設(shè)計(jì)從總體中隨機(jī)獲取樣本，樣本中每個(gè)樣本單元的權(quán)數(shù)是它包含概率的倒數(shù)?；谀Ｐ屯茢喾椒ㄋ枷胧羌僭O(shè)有限總體是某個(gè)超總體或者某個(gè)概率分布的一次隨機(jī)實(shí)現(xiàn)，估計(jì)量是基于這個(gè)超總體模型作出的。在特定的超總體模型下尋找最優(yōu)估計(jì)是理想的情形，實(shí)踐中很難找到嚴(yán)格服從某一特定分布的觀測數(shù)據(jù)，于是在假定模型下尋找穩(wěn)健估計(jì)。估計(jì)量的穩(wěn)健性是指，當(dāng)模型發(fā)生微小變化時(shí)，對估計(jì)量的影響也相對較小。

一直以來，抽樣技術(shù)領(lǐng)域中估計(jì)量的穩(wěn)健性問題始終受到關(guān)注，統(tǒng)計(jì)學(xué)家從兩種途徑研究這類問題，一類是討論樣本中有代表性異常點(diǎn)情形，比如和Chambers（1986）和Gwet、Rivest（1992）討論了樣本中有異常點(diǎn)時(shí)總量穩(wěn)健的比率估計(jì),Kuk(2001)給出異常點(diǎn)情形下均值的穩(wěn)健估計(jì)；一類是討論當(dāng)模型識別錯誤時(shí)，選擇模型下估計(jì)量的穩(wěn)健性問題（Royall,Herson,1973；Scott,Brewer,1978；Royall, Pfeffermann 1982;Rodrigues 1985;Bolfarine,Pereira 1987；tam,1995）。本文擬從后一角度討論?？傮w總量的比率估計(jì)和擴(kuò)張估計(jì)在簡單平衡樣本下是穩(wěn)健的，也就是說，比率估計(jì)和擴(kuò)張估計(jì)的無偏性不受模型識別錯誤的影響。

1 最優(yōu)無偏估計(jì)BLU

設(shè)U={1,2,…,N}表示容量為N的有限總體，yk為U中第k個(gè)單元的未知觀測值；xk1,xk2,…,xkp為第k個(gè)單元已知的p個(gè)輔助觀測值；k=1,2,…,N。假定超總體回歸模型M

其中，X=(x1,…,xN)T，xTk=(1,xk1,…,xkp)是已知矩陣，β=(β0,β1,…,βp)T是未知的常量向量，var(e)=V =diag(v1,…,vN)是對角矩陣，第k個(gè)對角元素是已知的非負(fù)常量。輔助向量值xk是已知的。

超總體回歸模型引入了一種新的隨機(jī)性——總體的隨機(jī)性，有限總體y=(y1,y2,…,yN)T視為獨(dú)立隨機(jī)向量Y=(Y1,Y2,…,YN)T的一個(gè)隨機(jī)樣本。

其中：

當(dāng)僅有一個(gè)輔助變量與目標(biāo)變量相關(guān)時(shí)，通常考慮多項(xiàng)式模型

2 基于簡單平衡的穩(wěn)健估計(jì)

為說明問題的方便，這里正式引入簡單平衡樣本的概念。記s(J)為滿足下面條件的樣本，對于j=1,…,J，有

當(dāng)β0＞0時(shí)，若前n最大的x值入樣，估計(jì)量將會產(chǎn)生最大的負(fù)偏倚。如果xˉs=xˉ，比率估計(jì)在這個(gè)模型下是無偏的。從這里看出，如果總體的ξ*是比率估計(jì)模型，抽取前n個(gè)最大的x值會使模型方差達(dá)到最小，但如果總體的ξ*是含常數(shù)項(xiàng)的一次回歸模型，這種抽樣策略卻使估計(jì)產(chǎn)生最大的負(fù)偏倚。

比較（8）與（9）式，若

即使在模型發(fā)生微小變化的情形下，采用比率估計(jì)不會造成均方誤差大的波動。如果樣本是平衡的，二者的模型均方誤差相同，這時(shí)比率估計(jì)不失為好的估計(jì)方法。

進(jìn)一步思考，若總體的ξ*是多項(xiàng)式模型，平衡樣本能否使得比率估計(jì)與擴(kuò)張估計(jì)穩(wěn)健呢？采用擴(kuò)張估計(jì)的偏倚是

采用比率估計(jì)的偏倚是

其中，j≠1（j=1時(shí)，（12）式為0）。

如果s=s(J)，那么擴(kuò)張估計(jì)偏倚和比率估計(jì)偏倚都是0。滿足多項(xiàng)式模型，采用簡單平衡抽樣設(shè)計(jì)，比率估計(jì)和擴(kuò)張估計(jì)都是無偏估計(jì)。這意味著，對于滿足多項(xiàng)式模型的總體，采用簡單平衡抽樣設(shè)計(jì)，總量比率估計(jì)和簡單估計(jì)是能夠消除偏倚的穩(wěn)健估計(jì)。

在簡單平衡抽樣設(shè)計(jì)下，總量估計(jì)和比率估計(jì)既然都是無偏的，我們應(yīng)該選擇哪個(gè)估計(jì)呢？有兩點(diǎn)理由選擇比率估計(jì)。（1）比率估計(jì)充分利用了總體的輔助信息，特別在樣本量很小時(shí)，擴(kuò)張估計(jì)的結(jié)果容易受人質(zhì)疑，比率估計(jì)要明顯優(yōu)于擴(kuò)張估計(jì)；（2）實(shí)踐當(dāng)中，樣本是很難實(shí)現(xiàn)精確平衡的，只能獲得近似簡單平衡的樣本。很多數(shù)值分析表明，對不同偏離平衡程度的樣本，擴(kuò)張估計(jì)同比率估計(jì)相比要更加敏感。

3 平衡樣本下比率估計(jì)的有效性

如果超總體模型是M(0,1:x)，比率估計(jì)的均方誤差是（9）式。最優(yōu)樣本滿足條件

這時(shí)均方誤差是最小的，比率估計(jì)是最有效的。但如果超總體模型是M(1,1:x)，采用平衡抽樣設(shè)計(jì)消除比率估計(jì)的偏倚，這時(shí)誤差均方誤差是

4 約束的簡單隨機(jī)抽樣

那么，就認(rèn)為這個(gè)樣本是近似平衡的。這個(gè)過程可按如下操作：

(1)指定常量E。

(2)采用無放回簡單隨機(jī)抽樣。

(3)如果滿足條件（16），保留樣本；否則將樣本放回總體，重復(fù)步驟（2）。

E的選擇是任意的，當(dāng)E=∞,是無約束的簡單隨機(jī)抽樣。大樣本時(shí)e(s)是近似服從標(biāo)準(zhǔn)正態(tài)分布的。當(dāng)e(s)＞1.96或者e(s)＜-1.96時(shí)，將以0.05的顯著性水平拒絕xˉs=xˉ，即認(rèn)為樣本是不平衡的。

這里采用S_PLUS軟件模擬平衡抽樣設(shè)計(jì)樣本的結(jié)果（圖1）。

圖1

這個(gè)總體中，總體單元數(shù)是N=393，xˉ=274.6972，我們分別采用簡單隨機(jī)抽樣和約束隨機(jī)抽樣（e(s)=0.01）從中抽取樣本量為50的樣本。圖1中，從左至右依次為總體x值、簡單隨機(jī)樣本x、約束簡單隨機(jī)樣本x的箱線圖，簡單隨意樣本均值為 xˉ1=236，約束隨機(jī)樣本均值為xˉ2=274.6972。從圖中看出，由約束簡單隨機(jī)抽樣獲取的樣本與總體的分布是很相似的。

5 樣本量的確定

如果樣本是簡單平衡的，樣本量可以通過變異系數(shù)確定。

基于模型總量的變異系數(shù)定義為：

cv是無單位測度，通常認(rèn)為相對合理的變異系數(shù)cv≤10%。cv的平方稱為相對方差。為確定樣本規(guī)模，需要事先設(shè)定cv的值。

若總體的真實(shí)模型是多項(xiàng)式模型M(δ0,δ1,…,δj:v)，選擇模型是M(1:1)，簡單平衡樣本使得T＾(1:1)是無偏的，其對應(yīng)的方差為：

相對方差：

確定樣本規(guī)模需要事先知道合適的變異系數(shù)k、總體均值μ和方差σ2。

確定樣本規(guī)模需要事先知道合適的變異系數(shù)k、總體均值xˉ和方差σ2。

6 結(jié)論

有限總體認(rèn)為是超總體的一次隨機(jī)實(shí)現(xiàn)，并假定樣本分布與超總體的分布是一致的，如果違背模型假定，基于模型作出有限總體參數(shù)的推斷受人質(zhì)疑，因此需要考慮基于模型估計(jì)量的穩(wěn)健性問題。本文考慮為了消除估計(jì)量的偏倚，假定多項(xiàng)式模型成立條件下，可以對樣本進(jìn)行平衡抽樣設(shè)計(jì)，這時(shí)比率估計(jì)和擴(kuò)張估計(jì)是無偏估計(jì)。

簡單平衡樣本視為樣本單元的權(quán)重是相同的，即每個(gè)樣本單元都代表相同數(shù)目的總體單元。事實(shí)上，每個(gè)單元目標(biāo)變量的變異并不相同，可能與輔助信息有關(guān)，比如醫(yī)院接納病人能力的不確定性與病床數(shù)相關(guān)，消費(fèi)能力的不確定性與收入有關(guān)等。不同變異程度樣本單元的權(quán)重應(yīng)該是不同的，即每個(gè)樣本單元代表總體單元的數(shù)目不同。因此，基于模型的抽樣設(shè)計(jì)一種合理的假設(shè)是樣本單元的權(quán)數(shù)與方差的平方根成正比，它涉及到權(quán)平衡的概念。這是筆者今后面將要研究的問題。

[1]Anthony Y.C.Kuk,A.H.Welsh.Robust Estimation for Finite Populations Based on a Working Model[J].Journal of the Royal Statistical Society,Series B(Statistical Methodology),2001,2(63).

[2]A.J.Scott,K.R.W.Brewer,E.W.H.Ho.Finite Population Sampling and Robust Estimation[J].Journal of the American Statistical Association,1978,6(73).

[3]Claes-Magnus Cassel,Carl-erik Sarndal,Jan Hakan Wretman.Foundatations ofInference in Survey Sampling[M].New York:John Wiley&Sons,1977.

[4]Carlos Alberto de Bragan?a Pereira,Josemar Rodrigues.Robust Linear Prediction in Finite Populations[J].International Statistical Review/Revue Internationale de Statistique,1983,3(51).

[5]Heleno Bolfarine,Shelemyahu Zacks.Prediction Theory for Finite Populations[M].New York:Springer-verg,1992.

[6]Josemar Rodrigues,Heleno Bolfarine,André Rogatko.A General Theory of Prediction in Finite Populations[J].International Statistical Review/Revue Internationale de Statistique,1985,3(53).

[7]Jean-Philippe Gwet,Louis-Paul Rivest.Outlier Resistant Alternatives to the Ratio Estimator[J].Journal of the American Statistical Association,1992,12(87).

[8]Raymond L.Chambers.Outlier Roubust Finite Population Estimation [J].Journal of the American Statistical Association,1986,12(81).

[9]Richard M.Royall,Dany Pfeffermann.Balanced Samples and Robust Bayesian Inference in Finite Population Sampling[J].Biometrika, 1982,2(69).

[10]WayneA.Fuller.SamplingStatistics[M].NewYork:JohnWiley&Sons, 2009.