黃正棟 江雪龍
(1江蘇省蘇州市統(tǒng)計局、2江蘇省昆山市統(tǒng)計局/1局長、2局長,江蘇蘇州、昆山215004、215300)
抽樣調(diào)查和區(qū)域調(diào)查法比較研究
——昆山市經(jīng)濟普查資料實證分析
黃正棟1江雪龍2
(1江蘇省蘇州市統(tǒng)計局、2江蘇省昆山市統(tǒng)計局/1局長、2局長,江蘇蘇州、昆山215004、215300)
依照朱震葆研究員提出的“人口密度理論和區(qū)域調(diào)查方法”,對昆山市第二次經(jīng)濟普查資料,分別采用抽樣調(diào)查和區(qū)域調(diào)查方法進行實證研究,結(jié)論是:區(qū)域調(diào)查法比抽樣調(diào)查法優(yōu)越。
抽樣調(diào)查;區(qū)域調(diào)查;人口密度
抽樣調(diào)查對于不同的調(diào)查對象需要建立不同的樣本框,彼此互不兼容,為此需要投入大量的社會成本。即便如此,對于某次抽樣調(diào)查,也無法了解和控制抽樣標志以外調(diào)查資料的準確程度和偏差。既然如此,朱震葆研究員設(shè)想:如果能夠抽取一部分社區(qū)(居委會和村委會)作為調(diào)查對象(樣本框),使其與該縣(市區(qū))總體社會經(jīng)濟發(fā)展水平相當,來推測全縣(市區(qū))的社會經(jīng)濟發(fā)展水平,來替代一個個不同主題的樣本框,如果能夠?qū)崿F(xiàn),即可大大節(jié)省調(diào)查投入的人力、物力、財力和時間。我們根據(jù)其提出的“人口密度理論”和“區(qū)域調(diào)查方法”,依托第二次經(jīng)濟普查資料,分別采取抽樣調(diào)查和區(qū)域調(diào)查方法進行測算,以檢驗其理論和方法的有效性和可行性。
人口密度理論是區(qū)域調(diào)查法的理論基礎(chǔ),它有一個假設(shè):在一個國家的行政區(qū)域內(nèi),一個地區(qū)的人口密度與社會經(jīng)濟發(fā)展水平正相關(guān)。所以抽取的社區(qū)人口密度必須與全市(縣、區(qū))人口密度相等或者盡可能接近,這是一個約束條件。為了簡便,本文將城區(qū)社區(qū)居委會和鄉(xiāng)村村委會統(tǒng)一以“社區(qū)”稱之。以下是全市各社區(qū)人口密度和行業(yè)門類資料。
為了比較抽樣調(diào)查和區(qū)域調(diào)查,分別按照“年末從業(yè)人員”、“主營業(yè)務(wù)收入”和“人口密度”抽取樣本框。
區(qū)域調(diào)查法與抽樣調(diào)查法結(jié)果比較(1/4樣本),是按全市300個社區(qū)的四分之一對稱等距抽取,是75個社區(qū)匯總資料;抽樣調(diào)查法與區(qū)域調(diào)查法比較(1/6樣本),是按全市300個社區(qū)的六分之一對稱等距抽取,是50個社區(qū)匯總資料(表1)。
昆山市第二次經(jīng)濟普查資料
昆山市經(jīng)濟普查區(qū)域調(diào)查法與抽樣調(diào)查法結(jié)果比較(1/4樣本)
我們先看區(qū)域調(diào)查法與抽樣調(diào)查法結(jié)果比較(1/4樣本)表。每組都是經(jīng)濟普查最主要的三列數(shù)據(jù),即“年末從業(yè)人員”、“主營業(yè)務(wù)收入”和“主營業(yè)務(wù)成本”。
第一行組是用抽樣調(diào)查法,按照主營業(yè)務(wù)收入為標識排序后,按對稱等距抽取后匯總的數(shù)據(jù),可以獲取四組不同的樣本框,其中誤差最小的是第二組(按隨機原則,選中這組的機會只有25%),與第一次經(jīng)濟普查資料相比,主營業(yè)務(wù)收入增長率是240.23%,與全市第二次經(jīng)濟普查結(jié)果相比,絕對誤差是-71.12%,相對誤差是-22.84%。
第二行組是用抽樣調(diào)查法,按照年末從業(yè)人員為標識排序后,按對稱等距抽取后匯總的數(shù)據(jù),可以獲取四組不同的樣本框,其中誤差最小的是第三組(按隨機原則,選中這組的機會只有25%),與第一次經(jīng)濟普查資料相比,年末從業(yè)人員增長率是179.34%,與全市第二次經(jīng)濟普查結(jié)果相比,絕對誤差是-7.55%,相對誤差是-4.04%。
第三行組是用區(qū)域調(diào)查法,按照人口密度為標識排序后,按照對稱等距抽取后匯總的數(shù)據(jù),與第一次經(jīng)濟普查資料相比,年末從業(yè)人員增長率是177.47%,與全市第二次經(jīng)濟普查結(jié)果相比絕對誤差是-9.42%,相對誤差是-5.04%。可以看到,比抽樣調(diào)查法按照年末從業(yè)人員為標識抽取的結(jié)果誤差大1個百分點。不過,主營業(yè)務(wù)收入和主營業(yè)務(wù)成本比抽樣調(diào)查結(jié)果誤差要小,尤其是主營業(yè)務(wù)成本,抽樣調(diào)查法相對誤差為-5.94%,而區(qū)域調(diào)查法為-2.72%,比抽樣調(diào)查法小了一半還多。
再看,將抽樣調(diào)查法二組作一下比較,分別按照主營業(yè)務(wù)收入和年末從業(yè)人員為標識,抽取的結(jié)果大相徑庭,誤差可以高達10倍以上。分析原因,按照年末從業(yè)人員為標識抽取的誤差,要比按照主營業(yè)務(wù)收入為標識抽取的要小許多,因為主營業(yè)務(wù)收入涉及到企業(yè)的核心經(jīng)濟利益,而年末從業(yè)人員不涉及到企業(yè)的核心利益,而且核查起來要容易。
由于主營業(yè)務(wù)收入和主營業(yè)務(wù)成本數(shù)據(jù)準確性和可靠性比年末從業(yè)人員指標要差,所以,我們以下在作抽樣調(diào)查法和區(qū)域調(diào)查法比較時,就分別以年末從業(yè)人員與人口密度為標識(表2)。
昆山市經(jīng)濟普查抽樣調(diào)查法與區(qū)域調(diào)查法比較(1/6樣本)
這張表是六分之一樣本匯總資料。抽樣調(diào)查法是用年末從業(yè)人員為標識按照對稱等距抽取,可以獲取六組不同的樣本框,誤差最小的是第四組(按隨機原則,選中這組的機會只有16.67%)。第二次經(jīng)濟普查年末從業(yè)人員數(shù)與第一次經(jīng)濟普查比較,增長率為197.75%,與全市第二次經(jīng)濟普查結(jié)果相比,絕對誤差為10.86%,相對誤差為5.81%。
區(qū)域調(diào)查法用人口密度為標識抽取六分之一樣本匯總資料,第二次經(jīng)濟普查年末從業(yè)人員數(shù)與第一次經(jīng)濟普查比較,增長率為181.03%,與全市第二次經(jīng)濟普查結(jié)果相比,絕對誤差為-5.86%,相對誤差為-3.14%。二種方法比較,區(qū)域調(diào)查法誤差為抽樣調(diào)查法的54%,將近一半。
需特別說明的是:抽樣調(diào)查法是用年末從業(yè)人員為標識的,應(yīng)該在全部調(diào)查項目中,誤差是最小的。而區(qū)域調(diào)查法是用人口密度為標識的,抽取的只是與全市社會經(jīng)濟發(fā)展水平相當?shù)纳鐓^(qū)樣本框,不涉及到哪一個具體社會經(jīng)濟指標,它代表的只是社會經(jīng)濟發(fā)展水平與總體(全市)相一致,也就是說,人口密度是廣義的社會經(jīng)濟指標,用它為標識抽取的社區(qū)樣本框,可以為絕大多數(shù)的抽樣調(diào)查提供樣本框。
區(qū)域調(diào)查法是隨機抽樣和有意抽樣相結(jié)合的一種方法,“有意抽樣有時可以得到比隨機抽樣更有代表性的結(jié)果”。1不過,由于我們這次按照人口密度抽取的樣本框,已經(jīng)包括我市全部17個門類的行業(yè),沒有對一個社區(qū)進行調(diào)整,因而是一次完全意義上的隨機抽樣,只是抽樣標識用的是人口密度,抽樣對象是社區(qū)。所以,隨機抽樣的誤差控制理論和方法,對于我們這次區(qū)域調(diào)查法完全適用。
為了簡便起見,本文只提供全市和樣本(1/6樣本)的人口密度計算資料。
1.均值
全市X=2363人/平方千米樣本X0=2405人/平方千米
2.極值
全市:最大值=78743人/平方千米最小值=203人/平方千米
樣本:最大值=78743人/平方千米最小值=203人/平方千米
3.中位數(shù)
全市=1946人/平方千米樣本=1952人/平方千米
4.標準誤差
全市S=149.5樣本s=34.65
由此可見,用人口密度為標識抽出的樣本波動比全市總體要小,穩(wěn)定性要高。
5.頻數(shù)
組距為5000時,全市和樣本都是16個分組
全市和樣本頻數(shù)最大值都在200-5000組,全市=225,樣本=37
組距為1000時,全市和樣本都是79個分組
全市和樣本頻數(shù)最大值都在200-1000組,全市=107,樣本=18
組距為100時,全市和樣本都是786個分組
全市和樣本頻數(shù)最大值都在500-600組,全市=27,樣本=4
由此可見,隨著分組加密,頻數(shù)由二項分布,轉(zhuǎn)化為左偏正態(tài)分布。用人口密度為標識抽出的樣本頻數(shù)分布與全市總體頻數(shù)分布完全一致。
我們用區(qū)間估計概率為95%時,k=1.96
1.抽樣調(diào)查法對年末從業(yè)人員作區(qū)間估計
z 0-k v 3624-1.96*34.6482 3556 2.區(qū)域調(diào)查法對人口密度作區(qū)間估計 x 0-k s 2405-1.96*34.65 2337 二者比較可以看出,用人口密度作為抽樣標識,其穩(wěn)定性要好于以年末從業(yè)人員為抽樣標識的結(jié)果。 1.代表性檢驗 以人口密度為標識抽取的樣本框,完全遵照抽樣技術(shù)對稱等距隨機抽取,其過程與通常抽樣調(diào)查別無二致,其代表性與抽樣技術(shù)抽取的樣本沒有任何差別。 同時,由于抽取的樣本包括全市總體全部17個行業(yè)門類,從經(jīng)濟類型代表性上看與總體相同。 2.無偏性檢驗 我們用u檢驗樣本的無偏性。我們假設(shè)樣本人口密度發(fā)生顯著改變。 由于1.9865小于2.576,所以假設(shè)被否定,我們認為樣本與總體沒有顯著差異。 需要說明一下,在社會經(jīng)濟領(lǐng)域,要滿足E x=X是很難得到滿足的,基本上都是帶有偏差的,“有時某個統(tǒng)計量對待估參數(shù)雖然有微小偏誤,但卻有其他顯著優(yōu)點,仍然可考慮選為估計量”2 3.穩(wěn)定性檢驗 由于用人口密度抽取的樣本,標準差s=34.65僅為總體S=149.5的九分之二。并且人口密度與其他經(jīng)濟指標相比,在短時間內(nèi)變動要小的多。所以,我們用人口密度抽取的樣本框穩(wěn)定性是有保障的。 4.一致性檢驗 因為我們抽樣過程嚴格遵照抽樣技術(shù)的要求進行,所以根據(jù)抽樣理論可知,一致性原則通常均能得到滿足。 5.相關(guān)性檢驗 用人口密度抽取的樣本,除了應(yīng)該包括總體(昆山市)全部17個經(jīng)濟類型(門類)以外,其值分布也必需與總體相關(guān),這樣抽取的樣本才真正具有經(jīng)濟上的代表性。為此,我們繼續(xù)用年末從業(yè)人員數(shù)進行相關(guān)性檢驗。 經(jīng)計算,得到相關(guān)系數(shù)r=0.9668>0.606(=1%)。 由此可見,用人口密度抽取的樣本不僅在經(jīng)濟類型上與總體完全一樣,而且其數(shù)值分布上也與總體高度一致,所以其經(jīng)濟代表性可以得到滿足。 從表1看,抽樣調(diào)查法以主營業(yè)務(wù)收入為標識,按照四分之一抽取樣本,誤差最小的第二組,主營業(yè)務(wù)收入也高達-22.84%,對于年末從業(yè)人員和主營業(yè)務(wù)成本誤差也高達-12.46%和-22.56%,因此,整群抽樣在此已經(jīng)失效。 再看,抽樣調(diào)查法如果以年末從業(yè)人員為標識,按照四分之一抽取樣本,誤差最小的第三組,年末從業(yè)人員誤差為-4.04%,主營業(yè)務(wù)收入和主營業(yè)務(wù)成本分別為-4.26%和-5.94%。 區(qū)域調(diào)查法以人口密度為標識,按照四分之一抽取樣本,年末從業(yè)人員誤差為-5.04%,比抽樣法大1個百分點,主營業(yè)務(wù)收入和主營業(yè)務(wù)成本誤差為-4.04%和-2.72%,則要小于抽樣法。 從表2看,抽樣調(diào)查法以年末從業(yè)人員為標識,按照六分之一抽取樣本,誤差最小的第四組,年末從業(yè)人員誤差為5.81%。 區(qū)域調(diào)查法以人口密度為標識,按照六分之一抽取樣本,年末從業(yè)人員誤差為-3.14%,比抽樣法小了將近2.7個百分點。 由此可見,區(qū)域調(diào)查法即使不以具體經(jīng)濟統(tǒng)計指標(比如,這兒的“主營業(yè)務(wù)收入”和“年末從業(yè)人員”)作為標識,同樣可以得到不比抽樣調(diào)查法差的樣本框,而且得到的是廣義樣本框。 抽樣調(diào)查通常都是多目標調(diào)查,現(xiàn)行的國家統(tǒng)計抽樣調(diào)查制度近50來個,其中調(diào)查項目最少的是“規(guī)模以下工業(yè)企業(yè)抽樣調(diào)查制度”,有8項經(jīng)濟統(tǒng)計指標,即8項目標。操作過程是以“產(chǎn)品銷售收入”作為抽樣調(diào)查的標識,同時開展對全部從業(yè)人員年末數(shù)、工業(yè)總產(chǎn)值、成交稅金、所得稅、營業(yè)利潤、應(yīng)付工資和折舊等7項指標的調(diào)查。由于至今數(shù)學(xué)理論上沒有解決在以一個目標作為標識時,同時保證其他調(diào)查項目的代表性問題。因而,在用這些非標識指標推算總體時,它們的代表性、準確性、可靠性和可信性都出了問題!所以,抽樣技術(shù)在實際應(yīng)用中,遇到多目標調(diào)查時,只對作為標識的主要社會經(jīng)濟統(tǒng)計指標有代表性,也就是說,目前正在貫徹執(zhí)行的國家統(tǒng)計抽樣調(diào)查制度在理論上存上缺陷。 而區(qū)域調(diào)查法只以一個“人口密度”社會指標作為標識,對社區(qū)(居委會和村委會)進行整群抽樣(我們這次是等群抽樣),是名副其實的單目標抽樣,從而繞過了多目標“代表性泥淖”。 在當前社會經(jīng)濟發(fā)展極其迅速的今天,尤其是對于像我國這樣的發(fā)展中大國,社會日新月異,經(jīng)濟超常發(fā)展,還沒有等普查資料整理出來(我國一項大規(guī)模普查,資料的整理到發(fā)布最少需要一年以上,國外需要2-3年以上),社會經(jīng)濟狀況已經(jīng)面目全非,許許多多企業(yè)已經(jīng)消失得無影無蹤,但是它們還存在在我們的樣本框里。即使是直接管理它們的工商局和稅務(wù)局,到年末也無法統(tǒng)一它們的企業(yè)統(tǒng)計數(shù)字。因此,一年前抽樣調(diào)查建立起來的樣本框的可靠性存在問題。 相比在非不可知因素(比如,戰(zhàn)爭、大規(guī)模災(zāi)變、大規(guī)模疾病流行等)不存在的情況下,人口出生率、人口死亡率和人口流動性在一段時間內(nèi)比較穩(wěn)定,從而保證了區(qū)域內(nèi)人口密度的穩(wěn)定,只要我們行政區(qū)劃發(fā)生變更時,能夠及時調(diào)整,統(tǒng)計口徑上不會產(chǎn)生任何問題。所以,應(yīng)用人口密度抽取的樣本框,通常只需要逢到人口普查和人口抽樣調(diào)查的年份,每5年作一次性重新抽樣即可。 由此可見,人口密度抽取的樣本框穩(wěn)定性,顯然要高于用經(jīng)濟指標作為標識抽取的樣本框。 區(qū)域調(diào)查法是以社區(qū)(城鎮(zhèn)居委會和農(nóng)村村委會合稱)為抽樣對象的整群抽樣。通常以縣(縣級市和城區(qū))為總體,抽樣單位為社區(qū),樣本量,按照昆山市的經(jīng)驗,占一個縣的六分之一左右適宜,各地也可以根據(jù)情況設(shè)八分之一或者十二分之一。社區(qū)無論是居委會還是村委會通常都設(shè)會計一名,會計同時兼統(tǒng)計業(yè)務(wù)。市縣統(tǒng)計局只需要對這些會計作一些業(yè)務(wù)培訓(xùn),提高他們的榮譽感、使命感、責(zé)任心和業(yè)務(wù)能力,就可以為我們提供很好的服務(wù)。由于區(qū)域調(diào)查法抽中的社區(qū),通常5年才會變更一次,這些會計絕大多數(shù)會成為業(yè)務(wù)熟練的優(yōu)秀調(diào)查員。就我們統(tǒng)計部門來說,不需要再為每項抽樣調(diào)查配置調(diào)查員了。 根據(jù)昆山市這次實例,區(qū)域調(diào)查法實際上是二階段過程。 第一階段,抽取以社區(qū)為調(diào)查單位的樣本框。這一階段只需要社區(qū)人口和面積二項指標,計算出人口密度。為了使抽中的社區(qū)包括全市全部經(jīng)濟門類,以增加樣本的代表性,在收集社區(qū)人口密度的同時,提供社區(qū)的經(jīng)濟門類資料,這次經(jīng)濟普查已經(jīng)包括這些資料,這些社區(qū)樣本框,每5年調(diào)整一次。 第二階段,就是根據(jù)每次抽樣調(diào)查的項目,由社區(qū)提供相應(yīng)的資料。比如,如果我們需要規(guī)模以下服務(wù)業(yè)的資料,就由這些社區(qū)提供相應(yīng)的規(guī)模以下服務(wù)業(yè)資料,根據(jù)這些社區(qū)占全市的比重(以這次經(jīng)濟普查為基年)和增長率,就可以推算出全市總體的數(shù)據(jù)了。非特殊原因,基年資料每5年調(diào)整一次。 區(qū)域調(diào)查法以縣(市區(qū))為總體、以社區(qū)(居委會和村委會)為抽樣對象的,不需要經(jīng)過街道和鄉(xiāng)鎮(zhèn)一級的直報制度,由此可以減少外界的干預(yù)。 (責(zé)任編輯:倪進) 10.3969/j.issn.1674-8905.2010.05.021 1《統(tǒng)計大辭典》.鄭家亨主編,中國統(tǒng)計出版社,1995年3月版P 192。 2《實用推斷統(tǒng)計方法》.周銘主編,寧夏人民出版社,P 71。(三)幾項重要的檢驗
四、幾點結(jié)論
1.區(qū)域調(diào)查法可以得到廣義樣本框
2.區(qū)域調(diào)查法不受多目標代表性問題困擾
3.區(qū)域調(diào)查法樣本框穩(wěn)定
4.區(qū)域調(diào)查法是經(jīng)濟廉價的調(diào)查方法
5.區(qū)域調(diào)查法是簡便易行的調(diào)查方法
6.區(qū)域調(diào)查法是抗干擾的調(diào)查方法