閆在在,常 帥,郝曉彤,湯 榮
(內(nèi)蒙古工業(yè)大學(xué) 理學(xué)院,呼和浩特 010051)
抽樣調(diào)查是實踐中主要的數(shù)據(jù)收集工具,它的應(yīng)用領(lǐng)域,如官方統(tǒng)計、質(zhì)量控制、市場分析、資源統(tǒng)計等的基石。合適的抽樣設(shè)計是獲取高質(zhì)量調(diào)查結(jié)果的本質(zhì),它直接影響調(diào)查成本和調(diào)查精度。應(yīng)用中常使用不等概率抽樣設(shè)計包括放回地與單元大小成比例的PPS抽樣和不放回地與單元大小成比例的πPS抽樣,由于πPS抽樣設(shè)計不會出現(xiàn)重復(fù)的樣本單元,在實際中更受重視。如何構(gòu)造和實施πPS抽樣設(shè)計是一個公開問題[1-12]。Brewer,Early和Joyce(1972)[17]提出一種稱為配置抽樣的嚴(yán)格πPS抽樣設(shè)計,其樣本容量n也是隨機的,配置抽樣先給每個單元賦予一個預(yù)定的入樣概率pi,然后等概率地給總體單元配置一組序號 (L1,L2,…,LN),它是 (1,2,…,N)的一個隨機排列。在[0,1]中抽取一個隨機數(shù)r,令ri=(Li+r-1)/N。若ri<pi,則i單元入樣,否則,該單元不入樣。對所有單元均按上述準(zhǔn)則確定其是否入樣,構(gòu)成一輪配置抽樣。
Brewer,Early,Joyce(1972)[13]和Brewer,Early,Hanif(1984)[14]建立了配置抽樣設(shè)計的基本理論,并與泊松抽樣比較說明配置抽樣的優(yōu)良性,受條件泊松抽樣設(shè)計思想啟發(fā),本文提出通過不斷產(chǎn)生配置樣本,直到其樣本量實現(xiàn)預(yù)定容量n時樣本才被接受的條件配置抽樣。
考慮從目標(biāo)總體(Y1,Y2,...,YN)中采用不放回不等概率抽樣的方法抽取一個容量為n的樣本來估計總體總值Y。在估計量構(gòu)造和評價階段,必須使用總體中單元i被包含到樣本中的一階包含概率πi=Pr(i)以及任意兩個單元i和j都包含到樣本中的二階包含概率πij=Pr(i,j),對于固定的n,滿足見文獻(xiàn)[15]。Horvitz與 Thompson(1952)提出了著名的總體總和的H-T估計量:
引理1:若 πi>0(i=1,2,…,N),則Horvitz-Thompson估計是Y的無偏估計,其方差為:
當(dāng)n固定時,又有:
引 理 2 :若 所 有 的 πi>0,πij>0,(i,j=1,2,...,N;i≠j),則:
針對配置抽樣只能得到隨機容量樣本的缺點,受泊松抽樣發(fā)展到條件泊松抽樣的啟發(fā),本文發(fā)展了一種固定樣本容量的近似πPS抽樣設(shè)計,其實施方法:預(yù)定樣本容量n,目標(biāo)包含概率pi與輔助變量xi成正比。按如下設(shè)計進(jìn)行抽樣:
(1)利用包含概率pi實施配置抽樣,抽取一個初始樣本s0。
(2)如果s0的樣本容量滿足:ns0=n,則最終的樣本s=s0,否則,重復(fù)第一步。
稱上述設(shè)計為條件配置抽樣。它實現(xiàn)了樣本容量固定,但其一階包含概率 πi≈pi,i=1,2,…,N。因此該設(shè)計為樣本容量固定的近似πPS抽樣。
根據(jù)條件泊松抽樣、2PπPS抽樣得到包含概率理論表達(dá)式的思想,得出一階、二階包含概率表達(dá)式:
一旦實現(xiàn)一階、二階包含概率的解析計算。就可以構(gòu)造總體總值的Horvitz-Thompson型估計量:
以及估計量的方差:
需要指出的是,實際上式(6)和式(7)只是一、二階包含概率理論上的形式表達(dá),并不能真正實現(xiàn)一、二階包含概率的計算。與條件泊松抽樣、2PπPS抽樣設(shè)計計算包含概率比較,瓶頸在于條件泊松抽樣、2PπPS抽樣設(shè)計下使用的初始泊松樣本具有樣本個體獨立的性質(zhì);而條件配置抽樣設(shè)計下使用的初始配置樣本個體間不獨立;如何實現(xiàn)理論上計算條件配置抽樣的包含概率有待研究,本文作為一個公開問題提出。擬數(shù)值上給出計算包含概率的方法并評價了提出設(shè)計的優(yōu)良性。
由于上述包含概率的表達(dá)式還沒有得出,即使有也比較復(fù)雜或者為遞歸公式,理論上給出設(shè)計的優(yōu)良性或方案間的比較非常困難,因此,數(shù)值模擬具有重要的意義。本文在小總體和小樣本時,基于超總體模型下的總體,借助Monte-Carlo方法數(shù)值模擬求解包含概率,進(jìn)而分析條件配置抽樣與條件泊松抽樣、簡單隨機抽樣間的差別。調(diào)查變量根據(jù)線性超總體模型產(chǎn)生。計算時,采用超總體Y=1+2(X-0.5)+ε,輔助變量擾動變量為了保持調(diào)查變量Y與輔助變量X的主要回歸關(guān)系,正態(tài)擾動變量的方差的大小選擇為1/5調(diào)查變量Y的方差。使用條件配置抽樣設(shè)計和條件泊松抽樣設(shè)計產(chǎn)生容量為n的樣本,實施10000輪模擬抽樣,計算每種抽樣方法對應(yīng)的方差。算法如下:
(1)使用上述模型產(chǎn)生目標(biāo)變量Y,輔助變量X,計算入樣概率pi,i=1,2,…,N。
(2)按照配置抽樣的要求產(chǎn)生對應(yīng)的r,Li,ri。如果ri<pi,則第i個單元入樣,否則,該單元不入樣。這一樣本記為s0,如果s0的樣本容量滿足:ns0=n,則作為最終的條件配置樣本s=s0,否則,重新抽樣。
(3)以pi為入樣概率進(jìn)行泊松抽樣,如果成功,則第i個單元入樣,否則,該單元不入樣。這一樣本記為s0,如果s0的樣本容量滿足:ns0=n,則作為最終的條件泊松樣本s=s0,否則,重新抽樣。
(4)分別按照第2步和第3步實施10000次模擬抽樣,得到10000個條件配置和條件泊松樣本。
(6)采用樣本容量n固定的Horvitz-Thompson方差公式:
分別計算條件配置抽樣與條件泊松抽樣的方差。
下面給出線性超總體模型下,條件泊松(CP),條件配置(CC),簡單隨機不放回(SRS)抽樣設(shè)計的方差比較。
線性模型下,CP,CC設(shè)計獲得合格樣本所需抽樣次數(shù)比較結(jié)果見表1所示。抽樣設(shè)計精度比較結(jié)果見表2和表3所示。
表2 線性模型下不同估計量的方差(固定n=6)
表3 線性模型下不同估計量的方差(固定N=30)
從上面數(shù)值計算可以看出,線性模型下提出的條件配置抽樣精度高于經(jīng)典的條件泊松抽樣;條件泊松抽樣精度高于簡單隨機抽樣。
實例:為了分析條件配置抽樣的性能,并和已有的結(jié)果(見文獻(xiàn)[16])作比較??紤]文獻(xiàn)[20]中的一個總體數(shù)據(jù)。
y:Percentage of hives affected by disease
x:Mean January temperature
表4 實例中預(yù)定包含概率及AP,2Pπps,CP,Pareto,CC設(shè)計下一階包含概率(N=10,n=4)
表5 實例中CC設(shè)計下二階包含概率(N=10,n=4)
表6 實例中CC,AP,2Pπps,CP,Pareto,SRSWOR設(shè)計的方差(N=10,n=4)
因此,本文建議的條件配抽樣不僅實施簡單,也容易通過Monte-Carlo模擬計算一階、二階包含概率,而且當(dāng)研究變量和輔助變量線性相關(guān)比較顯著時(實例中相關(guān)系數(shù)ρ=0.79655),從表6可以看出,條件配置抽樣的方差較其他抽樣的方差明顯的小。
本文提出了一種新的不等概率抽樣設(shè)計.從數(shù)值模擬分析得出提出的條件配置抽樣優(yōu)于經(jīng)典的,在調(diào)查中被廣泛使用的條件泊松抽樣。以總體參數(shù)估計的方差作為抽樣設(shè)計精度的度量,從表2和表3中可以看出在線性趨勢模型下提出的條件配置抽樣設(shè)計精度上優(yōu)于條件泊松抽樣和簡單隨機不放回抽樣設(shè)計。表1比較了條件泊松抽樣和條件配置抽樣得到合格樣本所需抽樣次數(shù)的方差,提出的設(shè)計其成功抽取樣本所需的試驗次數(shù)少,比泊松抽樣省時。說明條件配置抽樣更容易實施。當(dāng)研究總體中目標(biāo)變量與輔助變量相關(guān)性較顯著時,條件配置抽樣的精度呈現(xiàn)出優(yōu)越性,所以提出的方法具有潛在的實際應(yīng)用的價值。