葉桂芳
(暨南大學(xué) 經(jīng)濟(jì)學(xué)院,廣州 510632)
在實(shí)際社會(huì)經(jīng)濟(jì)中,為了研究社會(huì)經(jīng)濟(jì)現(xiàn)象隨時(shí)間的動(dòng)態(tài)變化趨勢(shì),傳統(tǒng)的一次性調(diào)查已不能滿足人們對(duì)統(tǒng)計(jì)信息的有效需求。為了能夠及時(shí)反映調(diào)查總體的變化和發(fā)展,取而代之的是連續(xù)性抽樣調(diào)查,比如美國(guó)的現(xiàn)時(shí)人口調(diào)查、加拿大的勞動(dòng)力調(diào)查、我國(guó)的城市住戶和農(nóng)村住戶調(diào)查等。作為使用最為廣泛的樣本輪換抽樣方法,幾乎可適用于所有的長(zhǎng)期連續(xù)性抽樣調(diào)查。在連續(xù)性樣本輪換的抽樣調(diào)查研究中有兩個(gè)問題居于中心地位:一個(gè)是樣本輪換率的確定;另一個(gè)是樣本輪換模式下估計(jì)量的構(gòu)造。由于影響樣本輪換率的因素很多,如調(diào)查的目的、調(diào)查總體的變化速度、被調(diào)查者的心里接受程度、調(diào)查費(fèi)用、調(diào)查精度等等。國(guó)內(nèi)外學(xué)者在舍棄不可量化的影響因素后,對(duì)樣本輪換率問題進(jìn)行了大量的研究。
樣本輪換的構(gòu)想,最早是由美國(guó)統(tǒng)計(jì)學(xué)家杰R.J.Jessen(1942)在收集農(nóng)場(chǎng)調(diào)查數(shù)據(jù)時(shí)提出的。W.G.Cochran(1985)歸納總結(jié)了前人的研究結(jié)果,討論了在不考慮影響樣本輪換率的一些不可量化的因素下,分別對(duì)考慮調(diào)查費(fèi)用和不考慮調(diào)查費(fèi)用的簡(jiǎn)單隨機(jī)抽樣下的樣本輪換率進(jìn)行了研究。A.R.Sen(1973)利用前期和現(xiàn)期樣本拼配部分的輔助信息構(gòu)造合適的估計(jì)量,馮士雍,鄒國(guó)華(1996)不僅利用前期和現(xiàn)期樣本拼配部分的輔助信息還考慮拼配樣本以外的樣本單元的輔助信息對(duì)Sen提出的估計(jì)量進(jìn)行了改進(jìn)。G.N.Singh(2001)利用現(xiàn)期的輔助信息和前期的樣本信息提出兩階段連續(xù)性抽樣下的估計(jì)量,2003年拓展到多階段連續(xù)性抽樣下的估計(jì)量,充分利用前期輔助信息進(jìn)一步提高了估計(jì)精度。徐國(guó)祥,王芳(2011)從調(diào)查總體的特征出發(fā),討論了分層抽樣下的最優(yōu)樣本輪換率和輪換效果問題,從實(shí)證角度對(duì)上海市城鎮(zhèn)住房空置率抽樣調(diào)查數(shù)據(jù)進(jìn)行分析。本文在前人研究的基礎(chǔ)上,依據(jù)連續(xù)性抽樣中相鄰兩期樣本單元之間的相關(guān)性和研究變量的輔助信息構(gòu)造使得均方誤差最小的指數(shù)形式的回歸組合估計(jì)量,在保證估計(jì)精度的前提下求得最優(yōu)樣本輪換率,盡可能的節(jié)約調(diào)查成本,最后通過設(shè)定模型參數(shù)產(chǎn)生一系列模擬數(shù)據(jù)進(jìn)行數(shù)值分析。
Cov(y0m,y1m):研究變量y0(y1)中拼配樣本的協(xié)方差;
Cov(y0,y1):研究變量 y0(y1)的總體協(xié)方差;
ρy0y1,ρy1z,ρy0z:表示各研究變量、輔助變量之間的相關(guān)系數(shù)。
本文的目的在于利用前期的樣本信息和總體的輔助信息構(gòu)造一個(gè)合適的估計(jì)量并計(jì)算出使得現(xiàn)期均方誤差最小的樣本輪換率 μ 。由Bahl,S.and Tuteja,R.K.(1991)的理論知當(dāng)研究變量與輔助變量的相關(guān)性未知或較低時(shí),利用總體單元的輔助信息對(duì)非拼配樣本構(gòu)造如下指數(shù)形式的比率估計(jì)量比其他形式的估計(jì)量更精確:
為了對(duì)比該抽樣估計(jì)方法的有效性,現(xiàn)通過設(shè)定模擬參數(shù)得出一系列模擬數(shù)據(jù)進(jìn)行理論驗(yàn)證。假設(shè)總體單位N=5000,樣本容量 n=1000,ρy0y1,ρy0z,ρy1z可分別取0.5,0.7,0.9。由R語言編程可得表1:
表1
為了比較樣本量的多少對(duì)估計(jì)效果的影響,另外取N=5000,n=500 ,ρy0y1,ρy0z,ρy1z分別取0.5,0.7,0.9。得到表2:
表2
由表1知前后期研究變量的相關(guān)性ρy0y1越大,樣本輪換率就越小,這與實(shí)際是相符的,即前后期相關(guān)性較大時(shí)可減少樣本輪換的數(shù)量,充分利用輔助信息的相關(guān)性,減少調(diào)查對(duì)象;當(dāng)現(xiàn)期研究變量與輔助變量的相關(guān)性ρy1z越大時(shí),樣本輪換率越小,而相對(duì)有效性E1,E2的值卻越大,這也是與實(shí)際情況相符合的,即輔助信息的應(yīng)用可在保證估計(jì)精度的前提下減少樣本輪換的數(shù)量達(dá)到節(jié)約成本的目的。
從兩表中還可看出當(dāng)相鄰兩期的研究指標(biāo)相關(guān)性較高且輔助變量選擇合適時(shí),最大的樣本輪換率為0.5096,意味著只要輪換約50%的樣本就可以較精確地估計(jì)出總體的均值。所以不管是從成本節(jié)約還是從精度要求角度看,該方法可以大大減輕基層數(shù)據(jù)調(diào)查的負(fù)擔(dān),有著廣泛的應(yīng)用前景。
本文假定各研究變量之間的相關(guān)性均大于0.5,此時(shí)有比較好的估計(jì)效果,當(dāng)相關(guān)性較小時(shí),此時(shí)樣本輪換率會(huì)很大。
根據(jù)本文的理論和模擬數(shù)據(jù)分析,對(duì)連續(xù)性抽樣調(diào)查進(jìn)行部分樣本輪換,由于樣本存在老化現(xiàn)象,新樣本的加入可消除此類問題。同時(shí)文章根據(jù)相鄰兩期的相關(guān)性,利用前期保留下來的樣本信息和與前后期總體相關(guān)的輔助信息,構(gòu)造指數(shù)形式的回歸組合估計(jì)量,以最優(yōu)化方法求得最優(yōu)樣本輪換率和最優(yōu)權(quán)重系數(shù),使得估計(jì)量的均方誤差最小,無論對(duì)于保證估計(jì)量的精度還是對(duì)于節(jié)約調(diào)查成本,都是一個(gè)不錯(cuò)的選擇。
最后應(yīng)該指出的是本文還可以在此基礎(chǔ)上進(jìn)行更加深入的研究。可以研究連續(xù)兩個(gè)以上不同時(shí)間的抽樣估計(jì)問題,充分利用前期的樣本信息,還可考慮添加多個(gè)輔助變量進(jìn)一步提高抽樣估計(jì)的精度。本文僅采用模擬數(shù)據(jù)進(jìn)行分析,可進(jìn)一步采用實(shí)際生活中抽樣數(shù)據(jù)進(jìn)行理論驗(yàn)證和應(yīng)用。
[1]Jessen R J.Statistical Investigation of a Farm Survey for Obtaining Farm Facts[J].Iowa Agricultural Station Research Bulletin,1942,(3).
[2]Patterson H D.Sampling on Successive Occasions with Partial Replacement of Units[J].Journal of the Royal Statistical Society,1950,(2).
[3]科克倫.抽樣技術(shù)[M].北京:中國(guó)統(tǒng)計(jì)出版社,1985.
[4]Wolter K M.Composite Estimation in Finite Populations[J].Journal of the American Statistical Association,1979,(4).
[5]Sen A R.Successive Sampling with two Auxiliary Variables[J].Sankhya Ser.1971,(33).
[6]SinghV K,Singh.G N Chain-type Regression Estimators with two Auxiliary Variables Under Double Sampling Scheme[J].Metron,1991,(49).
[7]Singh G N,Singh V K On the Use of Auxiliary Information in Successive Sampling[J].Indian Soc.Agric.Stat,2001,54(1).
[8]Biradar R S,Singh.H P Successive Sampling Using Auxiliary Information on both Occasions[J].Calcutta Stat.Assoc.Bull,2001,51(23).
[9]Singh G N,Priyanka K On the use of Auxiliary Information in Search of Good Rotation Patterns on Successive Occasions[J].Bull.Stat.Econ,2007,1(7).
[10]Singh G N,Karna J P.Search of Efficient Rotation Patterns in Presence of Auxiliary Information in Successive Sampling Over two Occasions[J].StatTransition New Ser,2009,10(1).
[11]Singh G N,Prasad S.Some Estimators of Population Mean in two-occasion Rotation Patterns[J].Modeling Simulation Techniques Enterprises,2010,12(1).
[12]馮士雍,鄒國(guó)華.有輔助信息可利用時(shí)的樣本輪換方法[J].統(tǒng)計(jì)研究,1996,(3).
[13]馬樹才,楊旭東.分層部分樣本輪換抽樣下的混合估計(jì)[J].遼寧大學(xué)學(xué)報(bào)(自然科學(xué)版),1997,24(3).
[14]徐國(guó)祥,王芳.連續(xù)性抽樣調(diào)查中的樣本輪換研究[J].統(tǒng)計(jì)研究,2011(5).
[15]Ball S,Tuteja R K.Ratio and Product Type Exponential Estimator[J].Information and Optimization Science,1991,12.
[16]Singh G N,Homa F.Effective Rotation Patterns in Successive Sampling over two Occasions[J].Journal of statistical theory and practice,2012,(7).
[17]Sukhatme P V,Sukhatme B V,Ashok C.Sampling theory of Surveys with Applications[M].3rd ed.Ames,IA,Iowa State University Press,1984.