鞏紅禹,賀本嵐,王麗艷
(1.內(nèi)蒙古財(cái)經(jīng)學(xué)院,呼和浩特010051;2.中國人民大學(xué) 統(tǒng)計(jì)學(xué)院,北京100872;3.內(nèi)蒙古岱海發(fā)電有限責(zé)任公司,內(nèi)蒙古 烏蘭察布 013700)
在實(shí)際的抽樣調(diào)查中,通常關(guān)注總體的某些特征,如總量、均值、比例等?;谠O(shè)計(jì)推斷和基于模型的推斷(Fuller,2009;Bolfarine,Zacks,1992;Cassel,Sarndal,Wretman, 1977)是推斷有限總體特征的兩種不同途徑?;谠O(shè)計(jì)推斷通常假定總體固定和有限的,根據(jù)樣本觀測結(jié)果推斷總體的參數(shù)。調(diào)查者根據(jù)某種抽樣設(shè)計(jì)從總體中隨機(jī)獲取樣本,樣本中每個(gè)樣本單元的權(quán)數(shù)是它包含概率的倒數(shù)?;谀P屯茢喾椒ㄋ枷胧羌僭O(shè)有限總體是某個(gè)超總體或者某個(gè)概率分布的一次隨機(jī)實(shí)現(xiàn),估計(jì)量是基于這個(gè)超總體模型作出的。在特定的超總體模型下尋找最優(yōu)估計(jì)是理想的情形,實(shí)踐中很難找到嚴(yán)格服從某一特定分布的觀測數(shù)據(jù),于是在假定模型下尋找穩(wěn)健估計(jì)。估計(jì)量的穩(wěn)健性是指,當(dāng)模型發(fā)生微小變化時(shí),對估計(jì)量的影響也相對較小。
一直以來,抽樣技術(shù)領(lǐng)域中估計(jì)量的穩(wěn)健性問題始終受到關(guān)注,統(tǒng)計(jì)學(xué)家從兩種途徑研究這類問題,一類是討論樣本中有代表性異常點(diǎn)情形,比如和Chambers(1986)和Gwet、Rivest(1992)討論了樣本中有異常點(diǎn)時(shí)總量穩(wěn)健的比率估計(jì),Kuk(2001)給出異常點(diǎn)情形下均值的穩(wěn)健估計(jì);一類是討論當(dāng)模型識別錯誤時(shí),選擇模型下估計(jì)量的穩(wěn)健性問題(Royall,Herson,1973;Scott,Brewer,1978;Royall, Pfeffermann 1982;Rodrigues 1985;Bolfarine,Pereira 1987;tam,1995)。本文擬從后一角度討論??傮w總量的比率估計(jì)和擴(kuò)張估計(jì)在簡單平衡樣本下是穩(wěn)健的,也就是說,比率估計(jì)和擴(kuò)張估計(jì)的無偏性不受模型識別錯誤的影響。
設(shè)U={1,2,…,N}表示容量為N的有限總體,yk為U中第k個(gè)單元的未知觀測值;xk1,xk2,…,xkp為第k個(gè)單元已知的p個(gè)輔助觀測值;k=1,2,…,N。假定超總體回歸模型M
其中,X=(x1,…,xN)T,xTk=(1,xk1,…,xkp)是已知矩陣,β=(β0,β1,…,βp)T是未知的常量向量,var(e)=V =diag(v1,…,vN)是對角矩陣,第k個(gè)對角元素是已知的非負(fù)常量。輔助向量值xk是已知的。
超總體回歸模型引入了一種新的隨機(jī)性——總體的隨機(jī)性,有限總體y=(y1,y2,…,yN)T視為獨(dú)立隨機(jī)向量Y=(Y1,Y2,…,YN)T的一個(gè)隨機(jī)樣本。
其中:
當(dāng)僅有一個(gè)輔助變量與目標(biāo)變量相關(guān)時(shí),通常考慮多項(xiàng)式模型
為說明問題的方便,這里正式引入簡單平衡樣本的概念。記s(J)為滿足下面條件的樣本,對于j=1,…,J,有
當(dāng)β0>0時(shí),若前n最大的x值入樣,估計(jì)量將會產(chǎn)生最大的負(fù)偏倚。如果xˉs=xˉ,比率估計(jì)在這個(gè)模型下是無偏的。從這里看出,如果總體的ξ*是比率估計(jì)模型,抽取前n個(gè)最大的x值會使模型方差達(dá)到最小,但如果總體的ξ*是含常數(shù)項(xiàng)的一次回歸模型,這種抽樣策略卻使估計(jì)產(chǎn)生最大的負(fù)偏倚。
比較(8)與(9)式,若
即使在模型發(fā)生微小變化的情形下,采用比率估計(jì)不會造成均方誤差大的波動。如果樣本是平衡的,二者的模型均方誤差相同,這時(shí)比率估計(jì)不失為好的估計(jì)方法。
進(jìn)一步思考,若總體的ξ*是多項(xiàng)式模型,平衡樣本能否使得比率估計(jì)與擴(kuò)張估計(jì)穩(wěn)健呢?采用擴(kuò)張估計(jì)的偏倚是
采用比率估計(jì)的偏倚是
其中,j≠1(j=1時(shí),(12)式為0)。
如果s=s(J),那么擴(kuò)張估計(jì)偏倚和比率估計(jì)偏倚都是0。滿足多項(xiàng)式模型,采用簡單平衡抽樣設(shè)計(jì),比率估計(jì)和擴(kuò)張估計(jì)都是無偏估計(jì)。這意味著,對于滿足多項(xiàng)式模型的總體,采用簡單平衡抽樣設(shè)計(jì),總量比率估計(jì)和簡單估計(jì)是能夠消除偏倚的穩(wěn)健估計(jì)。
在簡單平衡抽樣設(shè)計(jì)下,總量估計(jì)和比率估計(jì)既然都是無偏的,我們應(yīng)該選擇哪個(gè)估計(jì)呢?有兩點(diǎn)理由選擇比率估計(jì)。(1)比率估計(jì)充分利用了總體的輔助信息,特別在樣本量很小時(shí),擴(kuò)張估計(jì)的結(jié)果容易受人質(zhì)疑,比率估計(jì)要明顯優(yōu)于擴(kuò)張估計(jì);(2)實(shí)踐當(dāng)中,樣本是很難實(shí)現(xiàn)精確平衡的,只能獲得近似簡單平衡的樣本。很多數(shù)值分析表明,對不同偏離平衡程度的樣本,擴(kuò)張估計(jì)同比率估計(jì)相比要更加敏感。
如果超總體模型是M(0,1:x),比率估計(jì)的均方誤差是(9)式。最優(yōu)樣本滿足條件
這時(shí)均方誤差是最小的,比率估計(jì)是最有效的。但如果超總體模型是M(1,1:x),采用平衡抽樣設(shè)計(jì)消除比率估計(jì)的偏倚,這時(shí)誤差均方誤差是
那么,就認(rèn)為這個(gè)樣本是近似平衡的。這個(gè)過程可按如下操作:
(1)指定常量E。
(2)采用無放回簡單隨機(jī)抽樣。
(3)如果滿足條件(16),保留樣本;否則將樣本放回總體,重復(fù)步驟(2)。
E的選擇是任意的,當(dāng)E=∞,是無約束的簡單隨機(jī)抽樣。大樣本時(shí)e(s)是近似服從標(biāo)準(zhǔn)正態(tài)分布的。當(dāng)e(s)>1.96或者e(s)<-1.96時(shí),將以0.05的顯著性水平拒絕xˉs=xˉ,即認(rèn)為樣本是不平衡的。
這里采用S_PLUS軟件模擬平衡抽樣設(shè)計(jì)樣本的結(jié)果(圖1)。
圖1
這個(gè)總體中,總體單元數(shù)是N=393,xˉ=274.6972,我們分別采用簡單隨機(jī)抽樣和約束隨機(jī)抽樣(e(s)=0.01)從中抽取樣本量為50的樣本。圖1中,從左至右依次為總體x值、簡單隨機(jī)樣本x、約束簡單隨機(jī)樣本x的箱線圖,簡單隨意樣本均值為 xˉ1=236,約束隨機(jī)樣本均值為xˉ2=274.6972。從圖中看出,由約束簡單隨機(jī)抽樣獲取的樣本與總體的分布是很相似的。
如果樣本是簡單平衡的,樣本量可以通過變異系數(shù)確定。
基于模型總量的變異系數(shù)定義為:
cv是無單位測度,通常認(rèn)為相對合理的變異系數(shù)cv≤10%。cv的平方稱為相對方差。為確定樣本規(guī)模,需要事先設(shè)定cv的值。
若總體的真實(shí)模型是多項(xiàng)式模型M(δ0,δ1,…,δj:v),選擇模型是M(1:1),簡單平衡樣本使得T^(1:1)是無偏的,其對應(yīng)的方差為:
相對方差:
確定樣本規(guī)模需要事先知道合適的變異系數(shù)k、總體均值μ和方差σ2。
確定樣本規(guī)模需要事先知道合適的變異系數(shù)k、總體均值xˉ和方差σ2。
有限總體認(rèn)為是超總體的一次隨機(jī)實(shí)現(xiàn),并假定樣本分布與超總體的分布是一致的,如果違背模型假定,基于模型作出有限總體參數(shù)的推斷受人質(zhì)疑,因此需要考慮基于模型估計(jì)量的穩(wěn)健性問題。本文考慮為了消除估計(jì)量的偏倚,假定多項(xiàng)式模型成立條件下,可以對樣本進(jìn)行平衡抽樣設(shè)計(jì),這時(shí)比率估計(jì)和擴(kuò)張估計(jì)是無偏估計(jì)。
簡單平衡樣本視為樣本單元的權(quán)重是相同的,即每個(gè)樣本單元都代表相同數(shù)目的總體單元。事實(shí)上,每個(gè)單元目標(biāo)變量的變異并不相同,可能與輔助信息有關(guān),比如醫(yī)院接納病人能力的不確定性與病床數(shù)相關(guān),消費(fèi)能力的不確定性與收入有關(guān)等。不同變異程度樣本單元的權(quán)重應(yīng)該是不同的,即每個(gè)樣本單元代表總體單元的數(shù)目不同。因此,基于模型的抽樣設(shè)計(jì)一種合理的假設(shè)是樣本單元的權(quán)數(shù)與方差的平方根成正比,它涉及到權(quán)平衡的概念。這是筆者今后面將要研究的問題。
[1]Anthony Y.C.Kuk,A.H.Welsh.Robust Estimation for Finite Populations Based on a Working Model[J].Journal of the Royal Statistical Society,Series B(Statistical Methodology),2001,2(63).
[2]A.J.Scott,K.R.W.Brewer,E.W.H.Ho.Finite Population Sampling and Robust Estimation[J].Journal of the American Statistical Association,1978,6(73).
[3]Claes-Magnus Cassel,Carl-erik Sarndal,Jan Hakan Wretman.Foundatations ofInference in Survey Sampling[M].New York:John Wiley&Sons,1977.
[4]Carlos Alberto de Bragan?a Pereira,Josemar Rodrigues.Robust Linear Prediction in Finite Populations[J].International Statistical Review/Revue Internationale de Statistique,1983,3(51).
[5]Heleno Bolfarine,Shelemyahu Zacks.Prediction Theory for Finite Populations[M].New York:Springer-verg,1992.
[6]Josemar Rodrigues,Heleno Bolfarine,André Rogatko.A General Theory of Prediction in Finite Populations[J].International Statistical Review/Revue Internationale de Statistique,1985,3(53).
[7]Jean-Philippe Gwet,Louis-Paul Rivest.Outlier Resistant Alternatives to the Ratio Estimator[J].Journal of the American Statistical Association,1992,12(87).
[8]Raymond L.Chambers.Outlier Roubust Finite Population Estimation [J].Journal of the American Statistical Association,1986,12(81).
[9]Richard M.Royall,Dany Pfeffermann.Balanced Samples and Robust Bayesian Inference in Finite Population Sampling[J].Biometrika, 1982,2(69).
[10]WayneA.Fuller.SamplingStatistics[M].NewYork:JohnWiley&Sons, 2009.