桑小峰 ,凌 亢 ,白先春
(1.南京財(cái)經(jīng)大學(xué) 經(jīng)濟(jì)學(xué)院統(tǒng)計(jì)系,南京 210046;2.南京人口管理干部學(xué)院,南京 210042)
在抽樣調(diào)查中,調(diào)查指標(biāo)的樣本信息是不可或缺的必用信息。在實(shí)際工作中,有時(shí)我們常可擁有或獲得與調(diào)查指標(biāo)具有高度正相關(guān)性的輔助指標(biāo)的信息,這類(lèi)輔助信息盡管不是抽樣調(diào)查的必用信息,但對(duì)提高估計(jì)精度有積極作用,因?yàn)檩o助信息的使用使總的可用信息量增大了,從而在不擴(kuò)大調(diào)查規(guī)模的前提下減小了由抽樣的隨機(jī)性帶來(lái)的不確定性。盡可能應(yīng)用一切可利用的相關(guān)性輔助信息提高估計(jì)精度是抽樣設(shè)計(jì)必須考慮的一個(gè)問(wèn)題。基于這種考慮的比估計(jì)法常被用于抽樣設(shè)計(jì),例如將比估計(jì)與簡(jiǎn)單隨機(jī)抽樣、分層隨機(jī)抽樣、整群抽樣進(jìn)行匹配,在一定條件下可大大提高抽樣設(shè)計(jì)的效率。
設(shè)我們關(guān)心的主要變量為Y,另一個(gè)與Y高度正相關(guān)的變量為X,X的總體總值是已知的。在實(shí)際抽樣調(diào)查中,X這樣的變量稱(chēng)為輔助變量,一般有以下幾種常見(jiàn)情況:
(1)同一個(gè)變量的前一期調(diào)查結(jié)果,往往隱含著當(dāng)期與前一期相比變化不會(huì)太大的假設(shè);
(2)與主要變量之間整體上存在某種比值關(guān)系,即隱含著兩者比值關(guān)系的變化不會(huì)太大的假設(shè)。
定義主要變量的總體均值Y的比率估計(jì)量為:
定義主要變量的總體總值Y的比率估計(jì)量為:
分層抽樣是將抽樣單元按某種特征或某種規(guī)則劃分為不同的層,然后從不同的層中獨(dú)立、隨機(jī)地抽取樣本,將各層的樣本結(jié)合起來(lái),對(duì)總體的目標(biāo)量進(jìn)行估計(jì)。分層抽樣保證了樣本中包含有各種特征的抽樣單元,樣本的結(jié)構(gòu)與總體的結(jié)構(gòu)比較相近,從而可以有效地提高估計(jì)的精度,同時(shí)分層抽樣在一定條件下為組織實(shí)施調(diào)查提供了方便。
將比估計(jì)的思想和技術(shù)用于分層隨機(jī)樣本時(shí),對(duì)總體參數(shù)的估計(jì)有兩種途徑:一種是對(duì)每層樣本分別考慮比估計(jì)量,然后對(duì)各層的比估計(jì)量進(jìn)行加權(quán)平均,即“先比,后加權(quán)”,這種情形稱(chēng)為分別比估計(jì);另一種是對(duì)比率的分子和分母分別加權(quán)計(jì)算出總體均值或總體總量的分層估計(jì)量,然后用對(duì)應(yīng)的分層估計(jì)量來(lái)構(gòu)造比估計(jì),即“先加權(quán),后比”,稱(chēng)為聯(lián)合比估計(jì)。本研究在分別運(yùn)用分別比估計(jì)和聯(lián)合比估計(jì)進(jìn)行分析的同時(shí),與簡(jiǎn)單線(xiàn)性回歸估計(jì)進(jìn)行比較研究。
總體包括江蘇省的106個(gè)縣(縣級(jí)市、地級(jí)市市區(qū)),擬對(duì)其中的10個(gè)縣(縣級(jí)市、地級(jí)市市區(qū))進(jìn)行實(shí)地人口調(diào)查,因此總樣本量n=10。
按江蘇省不同地理位置,將總體劃分為3個(gè)層N1、N2和N3,分別對(duì)應(yīng)蘇南、蘇中和蘇北,其中蘇南包括南京、無(wú)錫、蘇州、常州、鎮(zhèn)江,蘇中包括南通、揚(yáng)州、泰州,蘇北包括徐州、連云港、淮安、鹽城、宿遷。
采用比例分配的原則確定各層的樣本量,根據(jù)各層的大小N1、N2和N3,在總樣本量的基礎(chǔ)上進(jìn)一步得到各層樣本量為:n1=4,n2=2,n3=4。
按照隨機(jī)抽樣的準(zhǔn)則,在各層內(nèi)隨機(jī)地抽取縣(縣級(jí)市、地級(jí)市市區(qū))進(jìn)行實(shí)地人口調(diào)查,最終入選的10個(gè)樣本點(diǎn)分別對(duì)應(yīng)為:南京市秦淮區(qū)、無(wú)錫市崇安區(qū)、徐州市鼓樓區(qū)、常州市金壇市、蘇州市平江區(qū)、南通市港閘區(qū)、連云港市灌云縣、淮安市盱眙縣、泰州市姜堰市和宿遷市沭陽(yáng)縣。對(duì)上述10個(gè)樣本點(diǎn)進(jìn)行數(shù)據(jù)搜集,得表1。其中yhi代表第h層的第i個(gè)樣本縣(縣級(jí)市、地級(jí)市市區(qū))的實(shí)際調(diào)查人口數(shù),xhi代表該縣(縣級(jí)市、地級(jí)市市區(qū))登記在冊(cè)的人口數(shù)。
表1 人口調(diào)查樣本數(shù)據(jù)表
對(duì)搜集到的數(shù)據(jù)進(jìn)行計(jì)算、歸并,整理結(jié)果見(jiàn)表2。表中的部分指標(biāo)解釋如下:h代表層號(hào),Xh為各層年初登記在冊(cè)的人口數(shù),s2為方差,r(0<r<1)為相關(guān)系數(shù),其中
表2 中間計(jì)算結(jié)果
sxyh=rhsyhsxh為樣本協(xié)方差,用于估計(jì)層協(xié)方差Sxyh=ρhSyhSxh。
基于上述數(shù)據(jù)整理的結(jié)果,依次采用分層隨機(jī)抽樣的簡(jiǎn)單線(xiàn)性估計(jì)、分別比估計(jì)及聯(lián)合比估計(jì)對(duì)總體總值做出估計(jì)。
(1)分層隨機(jī)抽樣的簡(jiǎn)單線(xiàn)性估計(jì)
(2)分層隨機(jī)抽樣的分別比估計(jì)
(3)分層隨機(jī)抽樣的聯(lián)合比估計(jì)
因此,運(yùn)用三種方法對(duì)總體總值進(jìn)行估計(jì),得到的估計(jì)量分別為:簡(jiǎn)單線(xiàn)性估計(jì)為6601.3938,分別比估計(jì)為8061.1297,聯(lián)合比估計(jì)為7514.4689。
將總體總值的估計(jì)結(jié)果與調(diào)查年度年底登記在冊(cè)的人口數(shù)進(jìn)行比較,對(duì)以上三種方法的估計(jì)精度做出大致的判斷,結(jié)果見(jiàn)表3。
表3 誤差分析表
可見(jiàn),聯(lián)合比估計(jì)的誤差最小,僅為0.53%;其次是分別比估計(jì),誤差為7.85%;簡(jiǎn)單線(xiàn)性估計(jì)的精度最差,誤差達(dá)到了11.68%。另外從估計(jì)量的標(biāo)準(zhǔn)差來(lái)看,簡(jiǎn)單線(xiàn)性估計(jì)也顯著地高于分別比估計(jì)和聯(lián)合比估計(jì),而分別比估計(jì)與聯(lián)合比估計(jì)的差異不大。因此,在本項(xiàng)研究中,聯(lián)合比估計(jì)的精度最好,為選取的最優(yōu)方法。
本文采用分層隨機(jī)抽樣方法抽取了江蘇省10個(gè)樣本縣(縣級(jí)市、地級(jí)市市區(qū)),然后在樣本區(qū)進(jìn)行實(shí)地的人口調(diào)查,運(yùn)用統(tǒng)計(jì)方法中的非線(xiàn)性比估計(jì)法,充分利用前一年政府的公開(kāi)統(tǒng)計(jì)數(shù)字所提供的輔助信息,對(duì)總體做出了有效估計(jì)。在本項(xiàng)調(diào)查研究中,相比簡(jiǎn)單線(xiàn)性回歸估計(jì)而言,比估計(jì)法的誤差更小,估計(jì)的精度更高,具有更高的可信度。這為今后基于人口抽樣調(diào)查的樣本數(shù)據(jù)進(jìn)行總體估計(jì)提供了一條新的優(yōu)化技術(shù)路線(xiàn),即充分利用可以得到的輔助信息,巧妙借助比估計(jì)法,提高抽樣調(diào)查總體估計(jì)的精確性和可靠性。
本項(xiàng)調(diào)查研究中,各層的樣本量都不大(4,2,4),結(jié)果顯示聯(lián)合比估計(jì)的精度最高,這也印證了已有的結(jié)論:如果各層的樣本量都比較大,同時(shí)各層的比率之間差異較大,則分別比估計(jì)優(yōu)于聯(lián)合比估計(jì);如果各層的樣本量不大,或者各層的比率之間差異較小,則聯(lián)合比估計(jì)優(yōu)于分別比估計(jì)。在實(shí)際的抽樣調(diào)查中,應(yīng)重視這個(gè)理論前提,根據(jù)具體情況合理選擇分別比估計(jì)或聯(lián)合比估計(jì)的方法,以提高估計(jì)的精度和可靠性。
[1]2005年江蘇省1%人口抽樣調(diào)查資料[M].北京:中國(guó)統(tǒng)計(jì)出版社,2005.
[2]金勇進(jìn),杜子芳,蔣妍.抽樣技術(shù)[M].北京:中國(guó)人民大學(xué)出版社,2008.
[3]杜子芳.抽樣技術(shù)及其應(yīng)用[M].北京:清華大學(xué)出版社,2005.
[4]馮士雍,倪加勛,鄒國(guó)華.抽樣調(diào)查理論與方法[M].北京:中國(guó)統(tǒng)計(jì)出版社,1998.
[5]張勇,金勇進(jìn),汪飛星.PPS抽樣設(shè)計(jì)的比估計(jì)及其模擬分析[J].統(tǒng)計(jì)教育,2004,(3).
[6]楊芳芳,唐德善,楊娟.比估計(jì)法在節(jié)水工程節(jié)水量計(jì)算中的應(yīng)用[J].水利科技與經(jīng)濟(jì),2007,(4).
[7]俞純權(quán).二階抽樣下的比估計(jì)與回歸估計(jì)[J].統(tǒng)計(jì)與決策,2006,(1).