一、引言
對(duì)復(fù)雜樣本按照理論直接推導(dǎo)出方差估計(jì)一則十分困難,二則從節(jié)約費(fèi)用和時(shí)間的角度考慮代價(jià)也很大。通常采用的替代方法主要有隨機(jī)組法、平衡半樣本方法、刀切法和自助法等。本文研究采用基于逆抽樣設(shè)計(jì)的方法對(duì)復(fù)雜樣本進(jìn)行方差估計(jì),并將該方法與傳統(tǒng)方法進(jìn)行比較,探討其適用條件。
二、逆抽樣設(shè)計(jì)方法簡介
逆抽樣設(shè)計(jì)(Inverse Sampling Design,簡稱ISD方法)的思想由Hinkins等提出,Rao等研究了該方法的一些理論性質(zhì)。該方法的基本思想是,通過選擇一個(gè)抽樣機(jī)制,對(duì)調(diào)查得到的復(fù)雜樣本進(jìn)行二次抽樣。二次抽樣機(jī)制的設(shè)計(jì)抵消了初始復(fù)雜樣本中的分層、整群抽樣等效應(yīng),使得按照該抽樣機(jī)制抽選出來的子樣本具有簡單隨機(jī)樣本結(jié)構(gòu),后續(xù)分析基于這些具有簡單隨機(jī)樣本結(jié)構(gòu)的子樣本進(jìn)行。下圖為該方法的流程示意圖:
用數(shù)學(xué)符號(hào)來表示,假設(shè)進(jìn)行某項(xiàng)調(diào)查,按照某種復(fù)雜抽樣設(shè)計(jì)從一有限總體中抽出了一個(gè)大小為n的初始樣本Sp,其中下標(biāo)p(primary)表示初始樣本?,F(xiàn)希望從Sp中抽出一個(gè)大小為n'的子樣本s',使得s'被抽中的無條件概率p(s')和簡單隨機(jī)抽樣匹配,也即
由于抽取子樣本s'是一個(gè)兩步的過程,由全概率公式,有
其中,p(sp)為初始樣本sp被抽中的概率,為sp已被抽選出來的前提下,s'被抽中的條件概率。
如果不依賴于sp,則由(1)式,有
(2)式即為從初始樣本sp中選擇s'的抽樣機(jī)制。
逆抽樣設(shè)計(jì)方法包括了如下基本的三個(gè)步驟:
(1)逆掉初始樣本的復(fù)雜抽樣設(shè)計(jì),使得能夠產(chǎn)生具有簡單隨機(jī)樣本結(jié)構(gòu)的子樣本;
(2)重復(fù)執(zhí)行逆抽樣設(shè)計(jì),以產(chǎn)生多個(gè)這樣的子樣本;
(3)基于每一個(gè)子樣本數(shù)據(jù)進(jìn)行分析,最后再以適當(dāng)?shù)姆绞竭M(jìn)行合并。
三、逆抽樣設(shè)計(jì)方法下的估計(jì)量構(gòu)造
假設(shè)總體目標(biāo)參數(shù)為θ,基于某復(fù)雜抽樣設(shè)計(jì)p(sp),調(diào)查得到一個(gè)復(fù)雜樣本sp。若存在對(duì)應(yīng)于該復(fù)雜抽樣設(shè)計(jì)p(sp) 的逆抽樣設(shè)計(jì),并將該逆抽樣設(shè)計(jì)獨(dú)立地重復(fù)執(zhí)行B次,得到了B個(gè)具有簡單隨機(jī)樣本結(jié)構(gòu)的子樣本(=1,2,#8943;,B)。令和表示由第個(gè)子樣本得到的總體參數(shù)估計(jì)和該估計(jì)量的方差估計(jì),則θ的估計(jì)可構(gòu)造為
如果是θ的無偏估計(jì),那么也同樣會(huì)是θ的無偏估計(jì)。
將基于初始復(fù)雜樣本Sp的總體參數(shù)θ的估計(jì)記為,則的方差估計(jì)可構(gòu)造為:
由(4)式,如果無偏,則也是無偏的。
四、與傳統(tǒng)方法的比較研究
作為一種新的復(fù)雜樣本方差估計(jì)方法,與現(xiàn)有方法相比較有哪些特征?本文用一個(gè)基于實(shí)際調(diào)查數(shù)據(jù)的模擬,對(duì)這些問題進(jìn)行分析。
(一)數(shù)據(jù)說明
模擬分析的數(shù)據(jù)取自2007中國公民科學(xué)素質(zhì)調(diào)查,為全國數(shù)據(jù)。中國公民科學(xué)素質(zhì)調(diào)查是通過全國性的抽樣調(diào)查,來了解分析我國18—69周歲的公民對(duì)科學(xué)的理解和對(duì)科學(xué)技術(shù)的態(tài)度等與公民科學(xué)素質(zhì)相關(guān)問題的狀況。調(diào)查的核心指標(biāo)是中國公民在科學(xué)術(shù)語、科學(xué)觀點(diǎn)、科學(xué)方法和科學(xué)與社會(huì)關(guān)系四個(gè)方面的具備比例和對(duì)應(yīng)的得分。在對(duì)這四個(gè)方面的具備比例和對(duì)應(yīng)的得分進(jìn)行適當(dāng)加權(quán)之后,得到一個(gè)總的科學(xué)素質(zhì)具備比例和得分。調(diào)查的總樣本量是10080,通過對(duì)出現(xiàn)單元無回答的問卷進(jìn)行刪除處理,最終得到的有效問卷共10059份。
以該數(shù)據(jù)集作為模擬總體,將各省份數(shù)據(jù)按照東、中、西部地區(qū)劃分成三層,東、中、西部的劃分情況如下:東部地區(qū)包括北京、天津、河北、遼寧、上海、江蘇、浙江、福建、山東、廣東、廣西、海南12個(gè)省、自治區(qū)、直轄市;中部地區(qū)包括山西、內(nèi)蒙古、吉林、黑龍江、安徽、江西、河南、湖北、湖南9個(gè)省、自治區(qū);西部地區(qū)包括重慶、四川、貴州、云南、西藏、陜西、甘肅、寧夏、青海、新疆10個(gè)省、自治區(qū)。將這三層以按比例分配的方式從這個(gè)模擬總體中抽出5%的樣本。關(guān)注的指標(biāo)有兩個(gè),一個(gè)是總體均值,為科學(xué)素質(zhì)指數(shù)的總平均得分,用來表示;另一個(gè)是總體比率,為科學(xué)方法項(xiàng)平均得分與總平均得分之比,用來表示,其中為科學(xué)素質(zhì)指數(shù)科學(xué)方法項(xiàng)的平均得分。模擬總體的層結(jié)構(gòu)及各層抽取的樣本量等信息如表1所示:
(二)抽樣方法的逆設(shè)計(jì)
由于采用分層抽樣從模擬總體中抽取了一個(gè)初始樣本,由逆抽樣設(shè)計(jì)方法的三個(gè)步驟,首先需要逆掉產(chǎn)生初始樣本的分層抽樣設(shè)計(jì)。
對(duì)于本例,
Nh和nh分別表示第h層中的總體和樣本單元數(shù),h=1,2,3。我們的目的是要從sp中抽取一個(gè)大小為n'的子樣本s',使得,其中。顯然,n'不能大于min(nh),因?yàn)樽訕颖緎'可能會(huì)全部來自于h層中的某一層。令n=(,,)T表示子樣本s'中各層的樣本單元數(shù),其中0≤≤n',,則由(2)式,有:觀察(5)式背后的概率機(jī)制,得出所采用的分層抽樣方法的逆設(shè)計(jì)步驟如下:
(1)決定所要抽取的子樣本大小n',n'最大不能超過min(nh);
(2)從超幾何分布中產(chǎn)生3個(gè)隨機(jī)數(shù){,,},其中++=n',且,,≥0;
(3)在第h層內(nèi),從nh個(gè)初始樣本中以不放回簡單隨機(jī)抽樣的方式抽出一個(gè)大小為的子樣本,各層之間的抽取相互獨(dú)立;
(4)合并從各層中抽得的子樣本。如此便從初始樣本sp中抽得了一個(gè)大小為n'、完全意義上的簡單隨機(jī)樣本,從而實(shí)現(xiàn)了初始抽樣的逆設(shè)計(jì)。
(三)對(duì)應(yīng)的ISD估計(jì)量
設(shè)將上述分層抽樣的逆設(shè)計(jì)獨(dú)立地重復(fù)執(zhí)行了B次,得到了B個(gè)大小為n'的子樣本(=1,2,#8943;,B)。則總體均值的ISD估計(jì)為
的方差估計(jì)為
其中,和分別表示抽出的第個(gè)子樣本中X的均值和方差。
總體比率R的ISD估計(jì)為
的方差估計(jì)為
其中,和的定義如前所述,和分別表示第個(gè)子樣本中Y的均值和方差,則表示第個(gè)子樣本中X和Y的協(xié)方差。
(四)模擬比較
從四個(gè)方面將逆抽樣設(shè)計(jì)方法與傳統(tǒng)復(fù)雜樣本的方差估計(jì)方法進(jìn)行對(duì)比:精度、靈活性、管理因素和泄密控制。對(duì)比的方法有:隨機(jī)組法(Random Group)、刀切法(Jackkinfe)和自助法(Bootstrap)。實(shí)際中泰勒級(jí)數(shù)法和平衡半樣本方法也有廣泛的應(yīng)用,但泰勒級(jí)數(shù)法本身并不能單獨(dú)使用,需要結(jié)合其它方法;而平衡半樣本方法則最常用于分層的、每層抽兩個(gè)單元的設(shè)計(jì),這與本文模擬分析所采用的抽樣設(shè)計(jì)并不一致,因而這里沒有將泰勒級(jí)數(shù)和平衡半樣本方法納入比較范圍。
1.精度
從模擬總體中抽出大小為503的樣本,基于此樣本,用不同方法對(duì)研究變量進(jìn)行方差估計(jì)。為了更好地對(duì)不同方法的效果進(jìn)行對(duì)比,盡量避免由于抽樣的隨機(jī)性造成的影響,進(jìn)行100次獨(dú)立重復(fù)抽取,最后將結(jié)果進(jìn)行平均。
對(duì)于逆抽樣設(shè)計(jì)方法,抽取的子樣本大小n'定為min(nh)=133,子樣本的抽取個(gè)數(shù)B定為1000;對(duì)于隨機(jī)組法和刀切法,需要進(jìn)行隨機(jī)組的劃分,隨機(jī)組的個(gè)數(shù)定為20,每層中隨機(jī)組的大小分別為11、7和6;對(duì)于自助法,采用Rao和Wu給出的方法,從每層中有放回地抽取容量為nh-1的簡單隨機(jī)樣本,抽取次數(shù)和逆抽樣設(shè)計(jì)方法一樣,定為1000次。主要以偏倚作為精度的度量標(biāo)準(zhǔn),表2列出了模擬分析的結(jié)果:
由表2中的結(jié)果,對(duì)于均值、比率的估計(jì)以及均值估計(jì)的方差估計(jì),逆抽樣設(shè)計(jì)方法都取得了比較好的效果。對(duì)于比率估計(jì)的方差估計(jì),四種方法中逆抽樣設(shè)計(jì)方法的偏倚最大。原因可能在于,消除比率估計(jì)的偏倚通常需要較大的樣本量,而采用逆抽樣設(shè)計(jì)方法,通常只能抽取相比初始樣本小得多的子樣本。
2.靈活性
靈活性可以從兩個(gè)方面來考察。從適用的估計(jì)量來看,逆抽樣設(shè)計(jì)方法和隨機(jī)組、自助法一樣,幾乎適用于任何估計(jì)量。刀切法則不適用于如分位數(shù)等的一些統(tǒng)計(jì)量。從適用的抽樣設(shè)計(jì)來看,逆抽樣設(shè)計(jì)方法有其局限性。原因在于,一方面,對(duì)于部分抽樣設(shè)計(jì),精確的逆抽樣設(shè)計(jì)不存在,而只能采用近似的方法;另一方面,逆抽樣設(shè)計(jì)方法目前尚不適用于對(duì)數(shù)據(jù)進(jìn)行了加權(quán)調(diào)整的情形。而其它三種方法則適用于幾乎任何抽樣設(shè)計(jì),同時(shí)也適用于加權(quán)調(diào)整后的情形。
3.管理因素
管理因素主要體現(xiàn)在費(fèi)用、時(shí)間和操作的簡便性等方面。隨機(jī)組和自助法的處理費(fèi)用都相對(duì)較低,因?yàn)閷?duì)這兩種方法都有現(xiàn)成的軟件可用,而刀切法和逆抽樣設(shè)計(jì)方法則需要編制相應(yīng)的軟件程序。逆抽樣設(shè)計(jì)方法和自助法由于需要重復(fù)抽取子樣本,計(jì)算量較大,耗費(fèi)的時(shí)間也比較長。以本次模擬分析為例,執(zhí)行隨機(jī)組法和刀切法所對(duì)應(yīng)的計(jì)算機(jī)程序,所耗費(fèi)的CPU時(shí)間不相上下,而逆抽樣設(shè)計(jì)方法和自助法所耗費(fèi)的CPU時(shí)間則分別是隨機(jī)組法的11倍和32倍。從操作的簡便性來看,逆抽樣設(shè)計(jì)方法則優(yōu)于隨機(jī)組、刀切法和自助法。
4.泄密控制
采用逆抽樣設(shè)計(jì)方法則能有效地控制數(shù)據(jù)的歸屬泄密的問題。由(4)式,用逆抽樣設(shè)計(jì)的方法估計(jì)方差,不需要利用抽樣權(quán)重、層、群標(biāo)識(shí)等信息,因而在一些涉及受訪者隱私數(shù)據(jù)的調(diào)查中,逆抽樣設(shè)計(jì)方法可能是一種行之有效的方差估計(jì)方法。
五、總結(jié)
對(duì)復(fù)雜樣本進(jìn)行方差估計(jì),通常采用的是隨機(jī)組、刀切法等方法,本文提出將逆抽樣設(shè)計(jì)方法應(yīng)用于復(fù)雜樣本的方差估計(jì)。模擬分析的結(jié)果表明,ISD估計(jì)具有較好的收斂性,且對(duì)于線性總體參數(shù)的估計(jì)和方差估計(jì),逆抽樣設(shè)計(jì)方法的效果都較為理想。
通過將逆抽樣設(shè)計(jì)方法與傳統(tǒng)方差估計(jì)方法進(jìn)行多角度比較,本文也探討了該方法的適用條件。對(duì)比分析的結(jié)果表明,逆抽樣設(shè)計(jì)方法在靈活性、操作的簡便性和數(shù)據(jù)的泄密控制等方面特點(diǎn)突出,有其可取之處。實(shí)際中,可權(quán)衡精度、費(fèi)用、靈活性等諸多因素,有針對(duì)性地設(shè)計(jì)抽樣調(diào)查方案,以便采用逆抽樣設(shè)計(jì)方法進(jìn)行方差估計(jì)。
■ 參考文獻(xiàn)
1.Susan Hinkins, H. Lock Oh and Fritz Scheuren. Inverse Sampling Design Algorithms[J]. Survey Methodology, 1997, 23(1): 11-21.
2.J.N.K. Rao, A.J. Scott and E. Benhin. Undoing Complex Survey Data Structures: Some Theory and Applications of Inverse Sampling[J]. Survey Methodology, 2003, 29(2): 107-128.
3.J.N.K. Rao, C.F.J. Wu. Resampling Inference With Complex Survey Data[J]. Journal of the American Statistical Association, 1988, 83(401): 231-241.
4.倪加勛。調(diào)查概論[M]。北京:中國財(cái)政經(jīng)濟(jì)出版社。2004:253-258。
5.Kirk M. Wolter著,王吉利、李毅譯。方差估計(jì)引論[M]。北京:中國統(tǒng)計(jì)出版社。1998:367-381。