羅 薇
(廣東工業(yè)大學(xué) a.管理學(xué)院;b.大數(shù)據(jù)戰(zhàn)略研究院,廣東 廣州 510006)
自1965年Kish最早提出設(shè)計(jì)效應(yīng)的概念以來(lái),設(shè)計(jì)效應(yīng)在復(fù)雜樣本設(shè)計(jì)階段起著非常重要的作用,通常利用設(shè)計(jì)效應(yīng)和簡(jiǎn)單隨機(jī)抽樣下的方差來(lái)估計(jì)給定精度要求下的樣本量[1]257-263。設(shè)計(jì)效應(yīng)越大,意味所需的樣本量越大才能達(dá)到簡(jiǎn)單隨機(jī)抽樣的效果,所以控制樣本的設(shè)計(jì)效應(yīng),使得預(yù)計(jì)的樣本量滿(mǎn)足成本和精度的要求,是抽樣設(shè)計(jì)領(lǐng)域的研究熱點(diǎn)。實(shí)證研究發(fā)現(xiàn),不同國(guó)家進(jìn)行的相似調(diào)查中類(lèi)似調(diào)查變量的設(shè)計(jì)效應(yīng)值相近[2];同一調(diào)查中樣本均值和復(fù)雜分析統(tǒng)計(jì)量的設(shè)計(jì)效應(yīng)值有一定關(guān)聯(lián)[3],這意味著可以將以往調(diào)查中某些調(diào)查變量的設(shè)計(jì)效應(yīng)移植到新調(diào)查的類(lèi)似調(diào)查變量中,將一些調(diào)查統(tǒng)計(jì)量的設(shè)計(jì)效應(yīng)推廣到同一調(diào)查的其它調(diào)查統(tǒng)計(jì)量上,在連續(xù)性調(diào)查中使用前期調(diào)查的設(shè)計(jì)效應(yīng)信息來(lái)輔助現(xiàn)行調(diào)查設(shè)計(jì)。然而,另一些實(shí)證研究卻發(fā)現(xiàn),同一調(diào)查中的不同調(diào)查變量,以及連續(xù)性調(diào)查中同一調(diào)查變量的設(shè)計(jì)效應(yīng)值可能存在較大的差異[2],表明設(shè)計(jì)效應(yīng)的直接擴(kuò)展受到一定的局限。顯然,如何將前期調(diào)查的設(shè)計(jì)效應(yīng)信息用于現(xiàn)行調(diào)查設(shè)計(jì),進(jìn)而在抽樣設(shè)計(jì)階段根據(jù)設(shè)計(jì)效應(yīng)來(lái)選擇抽樣方法,是設(shè)計(jì)效應(yīng)應(yīng)用于復(fù)雜樣本設(shè)計(jì)的核心問(wèn)題,而目前對(duì)此并沒(méi)有進(jìn)行系統(tǒng)的研究。為了彌補(bǔ)這一不足,本文對(duì)構(gòu)成復(fù)雜樣本的抽樣方法進(jìn)行分解,從單項(xiàng)抽樣方法要素的視角來(lái)建立各種設(shè)計(jì)效應(yīng)模型,分析單項(xiàng)要素對(duì)復(fù)雜樣本設(shè)計(jì)效率的影響及應(yīng)用局限性,推導(dǎo)要素組合的綜合設(shè)計(jì)效應(yīng)模型,基于設(shè)計(jì)效應(yīng)模型的框架建立一套簡(jiǎn)單實(shí)用的復(fù)雜樣本設(shè)計(jì)方法,進(jìn)而研究設(shè)計(jì)效應(yīng)在子群、不同調(diào)查變量、不同統(tǒng)計(jì)量間的擴(kuò)展。在應(yīng)用上,將上述設(shè)計(jì)效應(yīng)模型應(yīng)用于住戶(hù)調(diào)查的樣本設(shè)計(jì),在樣本設(shè)計(jì)階段選擇合理的抽樣方法,使得估計(jì)的樣本量能滿(mǎn)足總體、域、子群的調(diào)查精度要求。
根據(jù)Kish提出的設(shè)計(jì)效應(yīng)概念,對(duì)于調(diào)查變量θ,Vc(θ)表示采用復(fù)雜抽樣設(shè)計(jì)的估計(jì)量方差,Vsrs(θ)表示相同樣本量下簡(jiǎn)單隨機(jī)抽樣的估計(jì)量方差,θ的設(shè)計(jì)效應(yīng)為[1]257-263:
D2(θ)=Vc(θ)/Vsrs(θ)
(1)
(2)
為了明確復(fù)雜樣本設(shè)計(jì)下哪些要素會(huì)導(dǎo)致設(shè)計(jì)效應(yīng),梳理復(fù)雜樣本的基本特征如下:一是不同的抽樣方式;二是被調(diào)查單位有不同的權(quán)數(shù);三是不同子群的抽樣比有差異[4]。同時(shí)依據(jù)聯(lián)合國(guó)統(tǒng)計(jì)司的建議,將影響復(fù)雜樣本設(shè)計(jì)的單項(xiàng)要素分為分層、類(lèi)集(包括整群、二階及多階抽樣)、加權(quán)調(diào)整三類(lèi)[5]95-122。
1.分層的設(shè)計(jì)效應(yīng)
對(duì)一階分層抽樣,忽略有限總體校正因子時(shí),調(diào)查變量y的分層設(shè)計(jì)效應(yīng)可以表示為[5]95-122:
(3)
其中,從總體單位數(shù)N中抽取樣本量n=∑nh,從單位數(shù)為Nh的第h層中抽取樣本量為nh的總體單位,Wh=Nh/N為第h層的層權(quán)。
(4)
(5)
其中,wh=Nh/nh為初始權(quán)數(shù)。
一般來(lái)說(shuō),由于分層樣本分布更為均勻,分層能減少樣本中總體單位的相關(guān)性,從而減小方差,進(jìn)而減小設(shè)計(jì)效應(yīng)。但是,若各層均值大致相等,分層帶來(lái)的精度改進(jìn)較少,此時(shí)分層設(shè)計(jì)效應(yīng)雖然小于1,但接近1。
2.類(lèi)集的設(shè)計(jì)效應(yīng)
(6)
其中,δ稱(chēng)為組內(nèi)同質(zhì)系數(shù),描述初級(jí)抽樣單元內(nèi)變量y的同質(zhì)性。實(shí)際中,初級(jí)抽樣單元中總體單位的各個(gè)調(diào)查變量都有一定的相似性,但這種相似性往往較低,所以δ幾乎總是數(shù)值較小的正數(shù)[5]。
(7)
通過(guò)對(duì)同質(zhì)系數(shù)δ的演繹,可以將式(7)應(yīng)用于PPS抽樣和各種子樣本設(shè)計(jì)方法組合的均等選擇概率設(shè)計(jì)下類(lèi)集設(shè)計(jì)效應(yīng)的計(jì)算。
現(xiàn)實(shí)中由于初級(jí)抽樣單元的規(guī)模不等以及規(guī)模信息不準(zhǔn)確,往往采用與估計(jì)規(guī)模成比例的概率抽樣方法(Probability to Proportional to Estimated Size,簡(jiǎn)稱(chēng)PPES)抽取初級(jí)抽樣單元,此時(shí)要滿(mǎn)足均等選擇概率樣本的要求,則從各樣本初級(jí)抽樣單元中抽取的總體單位數(shù)b不等。當(dāng)各個(gè)子樣本規(guī)模差異不大時(shí),式(7)仍可以計(jì)算類(lèi)集的設(shè)計(jì)效應(yīng),但是b表示平均子樣本規(guī)模,即:
(8)
(9)
由于同質(zhì)系數(shù)δ是正數(shù),所以類(lèi)集的設(shè)計(jì)效應(yīng)總是大于1。在實(shí)際工作中,出于成本的考慮,類(lèi)集規(guī)模b不適宜設(shè)計(jì)較小,導(dǎo)致類(lèi)集的設(shè)計(jì)效應(yīng)一般較大。上述分析還展示出各階段抽樣方法的選擇如何影響到δ和b的確定,進(jìn)而引起類(lèi)集設(shè)計(jì)效應(yīng)的變化。其中,δ是內(nèi)生的。經(jīng)驗(yàn)研究表明,調(diào)查變量和初級(jí)抽樣單元相同或相似時(shí),δ值具有較好的移植性[2],可以通過(guò)以往調(diào)查中相同或類(lèi)似變量以及初級(jí)抽樣單元的信息來(lái)估計(jì)δ。但直接將歷史調(diào)查的類(lèi)集設(shè)計(jì)效應(yīng)用于新的調(diào)查設(shè)計(jì)并不合理,因?yàn)槊總€(gè)調(diào)查變量的δ值都不一樣,b較大時(shí),各個(gè)調(diào)查變量的δ值即使只有細(xì)微的差別,也會(huì)引起類(lèi)集設(shè)計(jì)效應(yīng)的較大差異。例如,δ=0.05,b=30時(shí),類(lèi)集的設(shè)計(jì)效應(yīng)值為2.45;δ=0.08,b=30時(shí),類(lèi)集的設(shè)計(jì)效應(yīng)值高達(dá)3.32。
3.加權(quán)調(diào)整的設(shè)計(jì)效應(yīng)
上文的設(shè)計(jì)效應(yīng)分析基本上限于均等選擇概率抽樣設(shè)計(jì),最終抽樣單元的權(quán)數(shù)相等,然而不均等選擇概率的情形也存在,當(dāng)抽樣設(shè)計(jì)偏離均等選擇概率,需要對(duì)初始權(quán)數(shù)(抽樣概率的倒數(shù))進(jìn)行規(guī)模調(diào)整或是結(jié)構(gòu)調(diào)整,此時(shí)最終權(quán)數(shù)在某種程度上總是有差異的[9]。
(10)
由于特殊因素、無(wú)回答、抽樣框缺陷等情形對(duì)權(quán)數(shù)變動(dòng)的影響是偶然的、隨機(jī)的,總體單位權(quán)數(shù)wj(j=1,2,…,n)將會(huì)帶來(lái)精度的損失,這個(gè)損失可以用權(quán)數(shù)wj的相對(duì)方差來(lái)表示,得出比式(10)更一般的形式:
=1+cv2(wj)
(11)
如果權(quán)數(shù)和調(diào)查變量無(wú)關(guān),則式(11)表示的不均等加權(quán)的設(shè)計(jì)效應(yīng),可以從一個(gè)調(diào)查變量擴(kuò)展到其它調(diào)查變量。但是,如果權(quán)數(shù)通過(guò)事后分層或是根據(jù)某些外部來(lái)源的已知控制總量的校準(zhǔn)獲得時(shí),當(dāng)目標(biāo)變量與這些控制總量高度相關(guān),則權(quán)數(shù)的調(diào)整顯然可以改進(jìn)精度,而式(11)卻表現(xiàn)出精度的損失,將高估權(quán)數(shù)調(diào)整的設(shè)計(jì)效應(yīng),這時(shí)式(11)不再適用。
1.分層和類(lèi)集的組合
(12)
(13)
(14)
(15)
2.類(lèi)集和加權(quán)調(diào)整的組合
在類(lèi)集和不等概率抽樣方法組合的復(fù)雜樣本中,Kish提出在權(quán)數(shù)隨機(jī)或近似隨機(jī)的情況下設(shè)計(jì)效應(yīng)模型近似為[10]:
(16)
3.分層、類(lèi)集和加權(quán)調(diào)整的組合
在分層、類(lèi)集和不等概率抽樣方法組合的復(fù)雜樣本中,總體均值的加權(quán)估計(jì)量可以表示為:
(17)
其中,從第h層抽取a個(gè)類(lèi)集,bhβ是第ahα個(gè)類(lèi)集的總體單位數(shù)。Gabler等在各小域方差相等,但各小域同質(zhì)系數(shù)不等的假設(shè)下推導(dǎo)出不重疊的完備域的設(shè)計(jì)效應(yīng)[11],本文用層替代小域,則可以得到式(17)的設(shè)計(jì)效應(yīng):
(18)
(19)
(20)
將以上種種綜合起來(lái),可用圖1示之。
圖1 設(shè)計(jì)效應(yīng)的分解與組合圖
許多調(diào)查會(huì)深入到子群,因而需要計(jì)算子群描述性統(tǒng)計(jì)量以及復(fù)雜分析性統(tǒng)計(jì)量的設(shè)計(jì)效應(yīng),這些設(shè)計(jì)效應(yīng)都可以由樣本均值(比例)的設(shè)計(jì)效應(yīng)來(lái)進(jìn)行擴(kuò)展。
根據(jù)子群在初級(jí)抽樣單元中的分布情況,可以將子群分為兩類(lèi):第一,子群在初級(jí)抽樣單元中均勻分布,稱(chēng)為交叉類(lèi)(Cross Classes),人口、社會(huì)、經(jīng)濟(jì)的眾多分類(lèi)都屬于交叉類(lèi),如年齡、性別、教育程度、職業(yè)子群。第二,子群集中在由若干個(gè)初級(jí)抽樣單元構(gòu)成的集合中,稱(chēng)為分割類(lèi),如行政區(qū)子群、農(nóng)村和城市子群。
如果子群中權(quán)數(shù)的分布近似總樣本,則可以直接從總樣本來(lái)推導(dǎo)子群估計(jì)量的加權(quán)調(diào)整設(shè)計(jì)效應(yīng),即交叉類(lèi)和總樣本的加權(quán)調(diào)整設(shè)計(jì)效應(yīng)幾乎一樣,所以下面只考慮子群的類(lèi)集設(shè)計(jì)效應(yīng)。
1.交叉類(lèi)的設(shè)計(jì)效應(yīng)
(21)
(22)
其中kd>1,且隨著交叉類(lèi)規(guī)模變化。由于社會(huì)經(jīng)濟(jì)子群比人口子群的變化大些,更容易聚集,同質(zhì)性系數(shù)也大些,Kish通過(guò)總結(jié)大量的調(diào)查實(shí)踐,建議kd值取1.2(人口子群)或1.3(社會(huì)經(jīng)濟(jì)子群)[3]。
2.分割類(lèi)的設(shè)計(jì)效應(yīng)
1.子群均值之差的設(shè)計(jì)效應(yīng)
隨著調(diào)查數(shù)據(jù)質(zhì)量的提高,對(duì)分析統(tǒng)計(jì)量的關(guān)注越來(lái)越多,最常見(jiàn)的分析統(tǒng)計(jì)量即兩個(gè)子群的均值(比例)差或比值。下文先分析兩個(gè)獨(dú)立樣本均值之差的設(shè)計(jì)效應(yīng):
(23)
如果兩個(gè)樣本均值的設(shè)計(jì)效應(yīng)、樣本量類(lèi)似,則它們差的設(shè)計(jì)效應(yīng)等于它們各自設(shè)計(jì)效應(yīng)的加權(quán)平均,ni(i=1,2)表示樣本量,對(duì)應(yīng)的權(quán)數(shù)為1/ni,當(dāng)兩個(gè)樣本來(lái)自同一調(diào)查的不同時(shí)期,兩個(gè)樣本間的協(xié)方差將降低其差的設(shè)計(jì)效應(yīng):
(24)
當(dāng)兩個(gè)樣本來(lái)自相同類(lèi)集(如初級(jí)抽樣單元、次級(jí)抽樣單元、最終抽樣單元),則式(24)中協(xié)方差為正,使得均值之差的設(shè)計(jì)效應(yīng)變小。Kish研究發(fā)現(xiàn),兩個(gè)子群均值之差的設(shè)計(jì)效應(yīng)大于1,但是小于假設(shè)兩個(gè)子群均值獨(dú)立時(shí)的設(shè)計(jì)效應(yīng)[3]。將上述結(jié)論表示成方差形式有:
(25)
當(dāng)子群是交叉類(lèi)時(shí),式(25)正協(xié)方差效應(yīng)使得均值之差的設(shè)計(jì)效應(yīng)變小,實(shí)證研究表明,協(xié)方差的影響作用相當(dāng)大,使得交叉類(lèi)子群均值之差的設(shè)計(jì)效應(yīng)只比1大些許[3]。當(dāng)子群是分割類(lèi)時(shí),協(xié)方差的效應(yīng)不明顯,假設(shè)兩個(gè)子群總體單位方差相等,則式(25)簡(jiǎn)化為:
(26)
2.其它復(fù)雜分析統(tǒng)計(jì)量的設(shè)計(jì)效應(yīng)
其它分析統(tǒng)計(jì)量,如均值比、中位數(shù)、分位數(shù)、線(xiàn)性回歸系數(shù)等,直接計(jì)算其設(shè)計(jì)效應(yīng)相當(dāng)困難,但是根據(jù)一系列分析統(tǒng)計(jì)量設(shè)計(jì)效應(yīng)的實(shí)證研究(見(jiàn)表1)可以歸納出一些規(guī)律[12]。
表1 三個(gè)復(fù)雜樣本中5種估計(jì)量的設(shè)計(jì)效應(yīng)值
注:數(shù)據(jù)來(lái)源于Kish和Frankel[12]。
(27)
第一步,明確各省的樣本量分配。表2給出了3種樣本分配方案:比例分配、常數(shù)分配、折中分配。由于各省規(guī)模差異較大,3種樣本分配方案截然不同。比例分配下,小省的樣本量太少,難以產(chǎn)生可靠的估計(jì)值;而常數(shù)分配則降低了全國(guó)估計(jì)的精度;折中分配與比例分配相比,小省的樣本量增加了,但是沒(méi)有按常數(shù)分配增加得多。采用比例分配時(shí),分層的設(shè)計(jì)效應(yīng)為0.99;由于全國(guó)大型住戶(hù)調(diào)查中,層方差、層均值大致相等的假設(shè)是合理的[5],由式(3)得到常數(shù)分配的分層設(shè)計(jì)效應(yīng)為1.93;由式(5),折中分配產(chǎn)生的不等概率加權(quán)設(shè)計(jì)效應(yīng)為1.21。
表2 三種樣本分配下各省樣本量分配情況
第三步,綜合考慮類(lèi)集設(shè)計(jì)效應(yīng)和各省樣本量非比例分配的設(shè)計(jì)效應(yīng)。根據(jù)式(16),采用折中分配時(shí),全國(guó)樣本的設(shè)計(jì)效應(yīng)即1.21×1.95=2.36,則全國(guó)有效樣本量為10 000/2.36=4 237,全國(guó)社保未覆蓋率估計(jì)量的變異系數(shù)為0.027,顯然,全國(guó)估計(jì)量的樣本量超過(guò)給定的精度要求;采用常數(shù)分配時(shí),設(shè)計(jì)效應(yīng)為1.93×1.95=3.76,有效樣本量為2 660,全國(guó)社保未覆蓋率估計(jì)量的變異系數(shù)為0.034,不能滿(mǎn)足樣本設(shè)計(jì)全國(guó)估計(jì)量變異系數(shù)的要求。
按照上述思路可以計(jì)算出關(guān)鍵調(diào)查變量的可能精度,依據(jù)設(shè)計(jì)要求修改樣本量。如果存在無(wú)回答、覆蓋不足的情況,還要考慮調(diào)整權(quán)數(shù)對(duì)設(shè)計(jì)效應(yīng)的影響,例如全國(guó)的回答率大約為90%,則樣本量還需要增加11%。
表3 抽樣方法組合設(shè)計(jì)效應(yīng)的比較結(jié)果
比較表3數(shù)據(jù)的模擬結(jié)果可發(fā)現(xiàn),按比例分層兩階段PPS樣本的設(shè)計(jì)效應(yīng)最小,0.99×1.95≈1.93,但這種分配方式對(duì)規(guī)模較小的省份不利,例如第10個(gè)省份在比例分配下,100戶(hù)的有效樣本量為100/1.93≈52,該省社保未覆蓋率的變異系數(shù)為0.24,遠(yuǎn)不能達(dá)到分省變異系數(shù)的要求;采用常數(shù)分配所產(chǎn)生的非比例分層的設(shè)計(jì)效應(yīng)較大,與類(lèi)集設(shè)計(jì)效應(yīng)組合后,綜合設(shè)計(jì)效應(yīng)為3.76,相應(yīng)的有效樣本量?jī)H僅為2 660戶(hù),變異系數(shù)不能滿(mǎn)足全國(guó)要求;而介于比例分配和常數(shù)分配之間的折中分配,即使考慮無(wú)回答、不覆蓋所導(dǎo)致的加權(quán)調(diào)整設(shè)計(jì)效應(yīng),仍可能滿(mǎn)足全國(guó)和分省估計(jì)量的精度要求;對(duì)于總體的交叉類(lèi)子群,由于類(lèi)集設(shè)計(jì)效應(yīng)的顯著降低,折中分配分層兩階段PPS 樣本下的有效樣本量仍可以為子群提供較為精確的估計(jì)。
本文將影響復(fù)雜樣本設(shè)計(jì)的單項(xiàng)要素分為分層、類(lèi)集、加權(quán)調(diào)整三類(lèi),以此為基礎(chǔ),將綜合設(shè)計(jì)效應(yīng)分解成要素的設(shè)計(jì)效應(yīng),研究結(jié)論表明復(fù)雜樣本設(shè)計(jì)導(dǎo)致總體單位間相關(guān)性的變化,進(jìn)而影響總體方差及設(shè)計(jì)效應(yīng):分層設(shè)計(jì)帶來(lái)的總體單位間負(fù)相關(guān)性將減少方差及設(shè)計(jì)效應(yīng),但是總體單位分層帶來(lái)的精度改進(jìn)十分有限,而各層樣本量的非比例分配引起的權(quán)數(shù)差異將引起設(shè)計(jì)效應(yīng)的增加;類(lèi)集設(shè)計(jì)帶來(lái)較大及正的總體單位間相關(guān)將引起設(shè)計(jì)效應(yīng)的顯著增加,由于影響類(lèi)集設(shè)計(jì)效應(yīng)的同質(zhì)系數(shù)具有一定的擴(kuò)展性,類(lèi)集設(shè)計(jì)效應(yīng)可以擴(kuò)展到不同子樣本抽樣方法、子群、復(fù)雜分析統(tǒng)計(jì)量設(shè)計(jì)效應(yīng)的計(jì)算;當(dāng)權(quán)數(shù)和調(diào)查變量無(wú)關(guān),不均等加權(quán)的設(shè)計(jì)效應(yīng)也可以從一個(gè)調(diào)查變量擴(kuò)展到其它調(diào)查變量;對(duì)于子群均值及其差值、復(fù)雜分析統(tǒng)計(jì)量,各種抽樣方法引起的總體單位間相關(guān)性減弱,所以其設(shè)計(jì)效應(yīng)也相對(duì)較小。
本文得出啟示:第一,由于綜合設(shè)計(jì)效應(yīng)反映了多種抽樣方法結(jié)合的影響,應(yīng)用時(shí)要分解為單項(xiàng)要素設(shè)計(jì)效應(yīng);第二,由于各種抽樣方法通過(guò)影響總體單位的相關(guān)性來(lái)影響設(shè)計(jì)效應(yīng),描述群內(nèi)相關(guān)性的同質(zhì)系數(shù)非常重要,在樣本設(shè)計(jì)階段使用設(shè)計(jì)效應(yīng)模型就需要估計(jì)出同質(zhì)系數(shù),鑒于同質(zhì)系數(shù)的可移植性,往往用歷史調(diào)查中相同或類(lèi)似變量以及初級(jí)抽樣單元的信息來(lái)估計(jì)關(guān)鍵目標(biāo)變量的δ值;第三,設(shè)計(jì)效應(yīng)在樣本設(shè)計(jì)階段中發(fā)揮重要作用,理解非比例分配和類(lèi)集設(shè)計(jì)對(duì)調(diào)查變量精度的影響是進(jìn)行有效樣本設(shè)計(jì)的關(guān)鍵。