胡桂華,范署姍,吳 婷
(重慶工商大學(xué) a.數(shù)學(xué)與統(tǒng)計(jì)學(xué)院;b.經(jīng)濟(jì)社會(huì)應(yīng)用統(tǒng)計(jì)重慶市重點(diǎn)實(shí)驗(yàn)室,重慶 400067)
1949年新中國(guó)成立后,分別于1953年、1964年、1982年、1990年、2000年和2010年進(jìn)行過六次全國(guó)人口普查。從1982年起,中國(guó)正式采取質(zhì)量評(píng)估調(diào)查開展人口普查質(zhì)量評(píng)估工作[1]。聯(lián)合國(guó)統(tǒng)計(jì)司建議各國(guó)使用質(zhì)量評(píng)估調(diào)查估計(jì)人口普查覆蓋誤差及內(nèi)容誤差[2]。覆蓋誤差是由于普查多報(bào)與漏報(bào)引起的總體實(shí)際人口數(shù)與總體普查人口數(shù)之差。內(nèi)容誤差指由于普查多報(bào)與漏報(bào)及普查項(xiàng)目填寫錯(cuò)誤引起的類別實(shí)際人口數(shù)與類別普查人口數(shù)之差[3]。
質(zhì)量評(píng)估調(diào)查屬于大規(guī)模抽樣調(diào)查,采取分層整群抽樣或多重抽樣[4]。至于具體采取哪種抽樣方法,要結(jié)合本國(guó)的實(shí)際情況而定。中國(guó)、南非和烏干達(dá)等發(fā)展中國(guó)家采用分層整群抽樣,抽樣單位為普查小區(qū)或普查區(qū),抽樣框是上次普查地址碼庫。中國(guó)普查小區(qū)平均包括80個(gè)住房單元,250人。這樣規(guī)定的理由是便于合理安排一個(gè)調(diào)查員的工作量,確保各個(gè)樣本小區(qū)的數(shù)據(jù)采集工作同時(shí)完成。中國(guó)小區(qū)規(guī)模大致相當(dāng),按照小區(qū)規(guī)模對(duì)小區(qū)分層體現(xiàn)不出層與層之間的差異,失去分層意義。美國(guó)2000年質(zhì)量評(píng)估調(diào)查采取分層二重整群抽樣[5]。美國(guó)街區(qū)群之間規(guī)模差異較大,有的街區(qū)群包括住房單元0~2個(gè),也有的包括住房單元3~79個(gè),還有的街區(qū)群包括住房單元80個(gè)及以上。于是美國(guó)普查局在每一個(gè)州的第一重抽樣之前按照規(guī)模對(duì)街區(qū)群分層。中國(guó)按照城鄉(xiāng)分層各個(gè)省份的普查小區(qū),在城市和鄉(xiāng)村層,以小區(qū)為抽樣單位簡(jiǎn)單隨機(jī)或等距抽樣或不等概率抽取普查小區(qū)樣本。
人口普查質(zhì)量評(píng)估調(diào)查工作的最初環(huán)節(jié)是測(cè)算和分配全國(guó)樣本量[6]。然而在政府統(tǒng)計(jì)部門發(fā)布的人口普查質(zhì)量評(píng)估研究報(bào)告中,很少見到樣本量測(cè)算與分配的相關(guān)內(nèi)容,代表當(dāng)今人口普查質(zhì)量評(píng)估最高水平的美國(guó)也是如此。一些國(guó)家的政府統(tǒng)計(jì)部門往往是憑經(jīng)驗(yàn)、主觀感覺確定全國(guó)樣本總量,根據(jù)調(diào)查經(jīng)費(fèi)和調(diào)查便利程度分配全國(guó)樣本量。這與政府統(tǒng)計(jì)部門不重視質(zhì)量評(píng)估調(diào)查樣本量測(cè)算有關(guān)。聯(lián)合國(guó)統(tǒng)計(jì)司組織世界人口普查質(zhì)量評(píng)估專家撰寫的人口普查質(zhì)量評(píng)估操作指南也未涉及樣本量測(cè)算問題。中國(guó)在2010年及以前的人口普查質(zhì)量評(píng)估調(diào)查中一直未能從理論上解決樣本量測(cè)算與分配問題。抽樣理論說明樣本量測(cè)算與分配對(duì)總體指標(biāo)估計(jì)精度有直接影響。在人口普查質(zhì)量評(píng)估調(diào)查中重視這一工作,有助于減小人口普查覆蓋誤差及提高內(nèi)容誤差估計(jì)精度。
測(cè)算質(zhì)量評(píng)估調(diào)查樣本量有兩種方法,一是直接測(cè)算法,二是間接測(cè)算法。直接測(cè)算法是指給出既定抽樣方法的估計(jì)量抽樣方差公式,同時(shí)給出估計(jì)量的精度要求,即估計(jì)量抽樣方差的控制值。用方差公式表示以樣本量為未知數(shù)的方程式,解這個(gè)方程得到所需要的樣本總量。只要有條件這樣做,毫無疑問就應(yīng)該采用這種方法。但是,有的時(shí)候沒有條件使用直接的方法來測(cè)算樣本量。例如,抽樣設(shè)計(jì)方案和估計(jì)量的構(gòu)造形式復(fù)雜,難以直接寫出估計(jì)量方差的數(shù)學(xué)表達(dá)式和列出樣本量方程式,這時(shí)就只好使用間接法[7]。人口普查質(zhì)量評(píng)估調(diào)查就屬于這種情況。
中國(guó)國(guó)家統(tǒng)計(jì)局已確定在2020年人口普查質(zhì)量評(píng)估調(diào)查中使用間接法測(cè)算樣本量。下面以中國(guó)為例,討論間接方法的具體測(cè)算步驟[8-10]。第一步,計(jì)算2020年實(shí)際抽樣方案的設(shè)計(jì)效應(yīng)。它為2020年實(shí)際抽樣方案總體實(shí)際人口數(shù)估計(jì)量的抽樣方差與簡(jiǎn)單隨機(jī)抽樣總體實(shí)際人口數(shù)估計(jì)量的抽樣方差之比。顯然,為了計(jì)算2020年設(shè)計(jì)效應(yīng),要設(shè)計(jì)兩個(gè)抽樣方案:實(shí)際采用的抽樣方案稱之為A方案;簡(jiǎn)單隨機(jī)抽樣方案稱之為B方案。中國(guó)2020年A方案包含兩個(gè)要點(diǎn):使用分層整群抽樣抽取樣本和利用該樣本資料構(gòu)造三系統(tǒng)估計(jì)量估計(jì)全國(guó)實(shí)際人口數(shù)。三系統(tǒng)估計(jì)量很復(fù)雜,其抽樣方差使用分層刀切抽樣方差估計(jì)量近似估計(jì)。B方案的要點(diǎn)是:首先給出抽樣估計(jì)精度要求,它是實(shí)際人口數(shù)估計(jì)量方差的一個(gè)控制值。然后依照這個(gè)控制值,如果以普查小區(qū)為抽樣單位,在全國(guó)不分層抽取簡(jiǎn)單隨機(jī)樣本,構(gòu)造全國(guó)實(shí)際人口數(shù)的簡(jiǎn)單均值估計(jì)量及其抽樣方差估計(jì)量。第二步,根據(jù)精度要求,計(jì)算B方案全國(guó)需要的樣本總量。第三步,將2020年A方案的設(shè)計(jì)效應(yīng)乘以B方案2020年全國(guó)樣本總量,得到A方案2020年全國(guó)樣本總量。這里需要注意的是,2020年A方案尚未實(shí)施,還無法計(jì)算A方案的抽樣方差,2020年A方案的設(shè)計(jì)效應(yīng)自然也就算不出來。
如果2010年質(zhì)量評(píng)估調(diào)查采用A方案(當(dāng)時(shí)自然已經(jīng)算出了該方案中估計(jì)量的方差),那么只要再用2010年樣本資料計(jì)算B方案的抽樣方差,把這兩個(gè)方差相除得到2010年A方案的設(shè)計(jì)效應(yīng)。把這個(gè)設(shè)計(jì)效應(yīng)拿到2020年使用應(yīng)該沒有問題。但問題是2010年質(zhì)量評(píng)估調(diào)查可能沒有使用A方案。由2010年的樣本資料可以制造出來一個(gè)A*方案,其特點(diǎn)是:抽取樣本的方式與A方案相同(事實(shí)上,中國(guó)2010年和2020年質(zhì)量評(píng)估調(diào)查都采取分層整群抽樣),使用估計(jì)實(shí)際人口數(shù)的雙系統(tǒng)估計(jì)量[11-12],而不是三系統(tǒng)估計(jì)量[13]。
中國(guó)2010年沒有使用雙系統(tǒng)估計(jì)量估計(jì)全國(guó)實(shí)際人口數(shù),并據(jù)此估計(jì)全國(guó)普查凈誤差率,而是通過比對(duì)樣本普查小區(qū)的普查人口名單和質(zhì)量評(píng)估調(diào)查人口名單估計(jì)樣本普查小區(qū)的普查凈誤差率。
雖然中國(guó)在2010年沒有使用雙系統(tǒng)估計(jì)量估計(jì)全國(guó)實(shí)際人口數(shù),但它采集了應(yīng)用雙系統(tǒng)估計(jì)量及其分層刀切抽樣方差估計(jì)量所需要的樣本數(shù)據(jù)資料,即擁有2010年全國(guó)416個(gè)樣本普查小區(qū)的普查人口名單和質(zhì)量評(píng)估調(diào)查人口名單及這兩份人口名單的匹配人口名單資料。因此,中國(guó)國(guó)家統(tǒng)計(jì)局積累了2010年質(zhì)量評(píng)估調(diào)查應(yīng)用雙系統(tǒng)估計(jì)量的實(shí)際數(shù)據(jù)資料。也就是說,雖然中國(guó)國(guó)家統(tǒng)計(jì)局沒有使用雙系統(tǒng)估計(jì)量,但積累了使用雙系統(tǒng)估計(jì)量所需要的數(shù)據(jù)資料。這些實(shí)際資料可以用來計(jì)算2010年設(shè)計(jì)效應(yīng),我們并沒有獲得這些實(shí)際數(shù)據(jù)資料,是基于對(duì)中國(guó)質(zhì)量評(píng)估調(diào)查的了解及長(zhǎng)期研究,模擬了一套與實(shí)際數(shù)據(jù)基本吻合的微觀數(shù)據(jù)。下面依據(jù)模擬的微觀數(shù)據(jù)計(jì)算2010年A*方案的設(shè)計(jì)效應(yīng),并作為2020年A方案的設(shè)計(jì)效應(yīng)[14]。
雙系統(tǒng)估計(jì)量與三系統(tǒng)估計(jì)量的原理基本相同。不同的是,雙系統(tǒng)估計(jì)量只用普查人口名單、質(zhì)量評(píng)估調(diào)查人口名單的信息綜合在一起構(gòu)造估計(jì)量。與三系統(tǒng)估計(jì)量相比,缺少了行政記錄人口名單(戶籍人口名單)信息。由于缺少這個(gè),雙系統(tǒng)估計(jì)量的精度可能會(huì)比三系統(tǒng)估計(jì)量差一些。相應(yīng)地,在一定精度要求下用A*方案的設(shè)計(jì)效應(yīng)算得的2020年樣本量會(huì)比實(shí)際需要的樣本量大一些。這樣的結(jié)果還是可以接受的,畢竟兩種估計(jì)量屬于同一個(gè)理論范疇,二者精度不會(huì)相差太多。
在人口普查質(zhì)量評(píng)估領(lǐng)域,樣本量測(cè)算與分配的研究成果較少。相比國(guó)內(nèi)外發(fā)表的為數(shù)不多的相關(guān)論文,我們的創(chuàng)新工作體現(xiàn)在以下幾個(gè)方面。一是將雙系統(tǒng)估計(jì)量納入設(shè)計(jì)效應(yīng)計(jì)算中,豐富了設(shè)計(jì)效應(yīng)理論;二是增加了數(shù)據(jù)分析環(huán)節(jié),為政府統(tǒng)計(jì)部門設(shè)計(jì)質(zhì)量評(píng)估調(diào)查樣本量測(cè)算與分配方案提供了具體方法。受設(shè)計(jì)效應(yīng)公式復(fù)雜及獲取相關(guān)數(shù)據(jù)較難的限制,現(xiàn)有相關(guān)文獻(xiàn)只是從理論角度研究質(zhì)量評(píng)估調(diào)查樣本量的測(cè)算與分配,而未進(jìn)行數(shù)據(jù)模擬或?qū)嵶C分析。這不便于讀者理解及成果推廣應(yīng)用;三是與中國(guó)國(guó)家統(tǒng)計(jì)局人口普查質(zhì)量評(píng)估工作的一貫方法保持一致。現(xiàn)有相關(guān)文獻(xiàn)討論設(shè)計(jì)效應(yīng)時(shí),使用分層二重抽樣或多階段抽樣抽取樣本,而中國(guó)人口普查質(zhì)量評(píng)估調(diào)查使用分層整群抽樣抽取樣本?;谶@一現(xiàn)實(shí)情況,我們使用基于分層整群抽樣的雙系統(tǒng)估計(jì)量和基于簡(jiǎn)單隨機(jī)抽樣的簡(jiǎn)單均值估計(jì)量的抽樣方差計(jì)算設(shè)計(jì)效應(yīng)。
在2010年質(zhì)量評(píng)估調(diào)查中,中國(guó)采取分層整群隨機(jī)抽樣,抽樣單位為普查小區(qū)[15]。首先,按省份把全國(guó)分為31層,其次,每層按照城—鄉(xiāng)分為兩層,即城鎮(zhèn)層和鄉(xiāng)村層??紤]到西藏人口少,其樣本量單獨(dú)確定。這樣全國(guó)小區(qū)共分在60個(gè)抽樣層。抽樣層用h表示,h=1,2,…,60,抽樣層的小區(qū)數(shù)及樣本小區(qū)數(shù)分別用Nh和nh表示。
(1)
在討論式(1)之前,先構(gòu)造雙系統(tǒng)估計(jì)量和簡(jiǎn)單均值估計(jì)量及其抽樣方差估計(jì)量。雙系統(tǒng)估計(jì)量依據(jù)普查人口名單和質(zhì)量評(píng)估調(diào)查人口名單構(gòu)造,而簡(jiǎn)單均值估計(jì)量依據(jù)質(zhì)量評(píng)估調(diào)查人口名單建立。
1.雙系統(tǒng)估計(jì)量及其抽樣方差估計(jì)量。質(zhì)量評(píng)估調(diào)查日與普查日之間不可避免有人口移動(dòng)。為便于討論,忽略人口移動(dòng),構(gòu)造無人口移動(dòng)的雙系統(tǒng)估計(jì)量。相關(guān)資料顯示,雙系統(tǒng)估計(jì)量來源于最初估計(jì)封閉動(dòng)物總體規(guī)模的捕獲-再捕獲模型。雙系統(tǒng)是指普查人口名單及質(zhì)量評(píng)估調(diào)查人口名單,分別對(duì)應(yīng)于捕獲-再捕獲模型的第一次和第二次捕獲。該模型為第一次和第二次捕獲的動(dòng)物數(shù)量乘積除以同時(shí)在兩次捕獲中的動(dòng)物數(shù)目。這啟發(fā)我們構(gòu)造雙系統(tǒng)估計(jì)量須比對(duì)這兩份人口名單,找出同時(shí)登記在兩份人口名單的人口。此外還要注意的是,捕獲-再捕獲模型須在同質(zhì)動(dòng)物總體構(gòu)造及使用。同質(zhì)動(dòng)物大多居住在一起(猴子等),而不同質(zhì)動(dòng)物分開居住,因而捕獲-再捕獲模型所需要的同質(zhì)性條件較易得到滿足。但人在年齡、性別、居住環(huán)境和居住位置等方面存在較大差異,不具備同質(zhì)性。相應(yīng)地,在將捕獲-再捕獲模型移植到人類總體構(gòu)造雙系統(tǒng)估計(jì)量時(shí),應(yīng)該按照年齡、性別、文化程度、婚姻狀況、是否有屬于自己的房子等變量將總體人口分層,把變量值相同或大致相同的人放在同一層,稱之為事后層或等概率人口層,用v表示[16]。顯然,用于分層的變量越多,層v人口的同質(zhì)性越強(qiáng)。但在樣本規(guī)模一定情形下,層v的樣本人口數(shù)就越少,在事后層建立的雙系統(tǒng)估計(jì)量估計(jì)的實(shí)際人口數(shù)的抽樣誤差就越大。為計(jì)算方便,使用性別對(duì)總體人口分層,共分為兩個(gè)事后層,即男性層和女性層。匯總所有事后層的雙系統(tǒng)估計(jì)量,得到估計(jì)總體實(shí)際人口數(shù)的雙系統(tǒng)估計(jì)量。
為什么在總體人口數(shù)估計(jì)中使用由普查人口名單及質(zhì)量評(píng)估調(diào)查人口名單構(gòu)造的雙系統(tǒng)估計(jì)量,而不使用由這兩份人口名單之一構(gòu)造的單系統(tǒng)估計(jì)量呢?根本原因在于雙系統(tǒng)估計(jì)量對(duì)總體人口的覆蓋范圍大于單系統(tǒng)估計(jì)量,所估計(jì)的人口數(shù)自然接近于總體實(shí)際人口數(shù)。南非2011年使用雙系統(tǒng)估計(jì)量估計(jì)的全國(guó)人口數(shù)為49.79百萬人,而采用依據(jù)普查人口名單構(gòu)造的單系統(tǒng)估計(jì)量估計(jì)的全國(guó)人口數(shù)為42.08百萬人,使用依據(jù)質(zhì)量評(píng)估調(diào)查人口名單構(gòu)造的單系統(tǒng)估計(jì)量估計(jì)的全國(guó)人口數(shù)為40.62百萬人。南非2011年全國(guó)普查人口數(shù)為51.77百萬人。使用三系統(tǒng)估計(jì)量估計(jì)的南非2011年全國(guó)人口數(shù)會(huì)更加接近于該年的全國(guó)普查人口數(shù)。
(2)
(3)
whi=Nh/nh
(4)
從式(3)和(4)可以看出,式(2)是一個(gè)復(fù)雜估計(jì)量,應(yīng)該使用分層刀切抽樣方差估計(jì)量近似計(jì)算其抽樣方差[17]。雙系統(tǒng)估計(jì)量的抽樣方差為:
(5)
(6)
(7)
(8)
總體實(shí)際人口數(shù)的雙系統(tǒng)估計(jì)量為:
(9)
在計(jì)算總體實(shí)際人口數(shù)雙系統(tǒng)估計(jì)量的抽樣方差估計(jì)量時(shí),由于各事后層之間并不是相互獨(dú)立,因此不僅需要計(jì)算各事后層的方差,還需要計(jì)算事后層之間的協(xié)方差。
(10)
V為事后層的總層數(shù)。
2.簡(jiǎn)單均值估計(jì)量及其抽樣方差估計(jì)量。公式如下:
(11)
(12)
(13)
(14)
(15)
(16)
(17)
我們要求2020年總體實(shí)際人口數(shù)估計(jì)量的抽樣方差不超過指定值V。如果用抽樣誤差范圍d和置信概率95%表示精度要求,那么由于估計(jì)量近似服從正態(tài)分布,當(dāng)置信概率為95%時(shí),標(biāo)準(zhǔn)正態(tài)分布雙側(cè)臨界值的絕對(duì)值是1.96,這時(shí)有V=(d/1.96)2。如果用相對(duì)抽樣誤差范圍δ和置信概率表示精度要求,這時(shí)V=(δY/1.96)2,其中Y為2020年全國(guó)實(shí)際人口數(shù)的真值,用2019年1‰人口抽樣調(diào)查全國(guó)實(shí)際人口數(shù)估計(jì)值來代替。
在該精度要求下,假若2020年在全國(guó)范圍內(nèi)以普查小區(qū)為單位,簡(jiǎn)單隨機(jī)抽取樣本,構(gòu)造簡(jiǎn)單均值估計(jì)量估計(jì)全國(guó)人口數(shù),計(jì)算所需要的樣本量。這里需要用到2020年普查小區(qū)之間人口數(shù)的總體方差S2(用2010年質(zhì)量評(píng)估調(diào)查估計(jì)的全國(guó)小區(qū)人口數(shù)之間的總方差代替)、2020年全國(guó)小區(qū)數(shù)N和估計(jì)精度V。使用式(18)求出全國(guó)樣本小區(qū)數(shù)目nSRS:
(18)
如果2020年采用與2010年相同的抽樣方法,構(gòu)造相同形式的估計(jì)量(雙系統(tǒng)估計(jì)量),那么樣本中應(yīng)含有的普查小區(qū)數(shù)nA*為:
(19)
如果在2020年采用比2010年更優(yōu)越的抽樣方法,將分層整群抽樣換為分層二重整群抽樣,雙系統(tǒng)估計(jì)量換成三系統(tǒng)估計(jì)量估計(jì)全國(guó)人口數(shù),所需要的樣本含量(普查小區(qū)數(shù)),會(huì)低于式(19)計(jì)算的結(jié)果。
這包括兩個(gè)層次,一是全國(guó)樣本量在除西藏之外的30個(gè)省份分配,二是各個(gè)省份在抽樣層之間的分配。一般按照各省份或抽樣層最新普查小區(qū)數(shù)(或人口數(shù))或上次普查小區(qū)數(shù)(人口數(shù))比例分配。用n1A*,…,n30A*分別表示各個(gè)省份分配的普查小區(qū)數(shù),計(jì)算公式為:
(20)
其中,k=1,2,…,30,Tk為第k省普查小區(qū)數(shù)或人口數(shù),T為全國(guó)上次或本次普查小區(qū)數(shù)或人口數(shù)。用nklA表示抽樣層l從nkA分配的普查小區(qū)數(shù),l=1,2,…,60,計(jì)算公式為:
(21)
其中,Tkl為第k省的第l抽樣層的人口數(shù)或普查小區(qū)數(shù)。
西藏人口稀少,在2010年質(zhì)量評(píng)估調(diào)查中,城鄉(xiāng)各指定1個(gè)樣本普查小區(qū)。從人口普查凈誤差估計(jì)、普查漏報(bào)估計(jì)、普查多報(bào)估計(jì),以及普查內(nèi)容誤差估計(jì)的角度來看,每個(gè)抽樣層的樣本量應(yīng)該大于1。這是因?yàn)橛糜诠烙?jì)這些誤差的雙系統(tǒng)估計(jì)量、三系統(tǒng)估計(jì)量、普查漏報(bào)合成估計(jì)量、普查多報(bào)比率估計(jì)量、內(nèi)容誤差估計(jì)量屬于復(fù)雜估計(jì)量。對(duì)于復(fù)雜估計(jì)量,抽樣方差通常使用分層刀切抽樣方差估計(jì)量近似計(jì)算。該抽樣方差估計(jì)量的復(fù)制權(quán)數(shù)的分母為抽樣層的樣本量與1的差。在2020年質(zhì)量評(píng)估調(diào)查中,中國(guó)全國(guó)樣本普查小區(qū)數(shù)量將從2000年的602個(gè)和2010年的402個(gè)增加到1 000個(gè)。相應(yīng)地,西藏最低樣本量可規(guī)定為4個(gè)普查小區(qū),其中城鄉(xiāng)各兩個(gè)樣本小區(qū)。
如果能夠獲得2010年中國(guó)每個(gè)省份城市和鄉(xiāng)村的普查小區(qū)數(shù)目、城鄉(xiāng)的樣本小區(qū)數(shù)目、全國(guó)每個(gè)小區(qū)的人數(shù)和2020年全國(guó)每個(gè)小區(qū)的人口數(shù),就可以進(jìn)行實(shí)證分析。盡管我們?yōu)橹袊?guó)國(guó)家統(tǒng)計(jì)局制訂2020年人口普查質(zhì)量評(píng)估方案,包括樣本總量測(cè)算與分配方案,但受微觀數(shù)據(jù)保密性所限,依然無法從國(guó)家統(tǒng)計(jì)局獲得所需要的實(shí)際微觀數(shù)據(jù)。不得已只能做模擬分析。2010年中國(guó)各省份的普查小區(qū)總數(shù)及樣本小區(qū)總數(shù)可以從國(guó)家統(tǒng)計(jì)局網(wǎng)站或我們與國(guó)家統(tǒng)計(jì)局于2012年合作撰寫的《人口普查的事后質(zhì)量抽查報(bào)告》中得到,這便是實(shí)際數(shù)據(jù)。但該年各省份的城市和鄉(xiāng)村各自的普查小區(qū)數(shù)及樣本小區(qū)數(shù)沒有得到,于是采用城鄉(xiāng)人口數(shù)比例間接推算,這便是模擬數(shù)據(jù)。至于各個(gè)小區(qū)的住戶數(shù)或人口數(shù),則是模擬的。模擬分析中的表1~6的數(shù)據(jù)都是模擬的。
中國(guó)在2010年質(zhì)量評(píng)估調(diào)查中,從全國(guó)(西藏除外)30個(gè)省份的城鄉(xiāng)60個(gè)層中抽取樣本普查小區(qū)400個(gè),西藏城鄉(xiāng)小區(qū)各1個(gè)。表1列示各層普查小區(qū)總數(shù)及樣本普查小區(qū)數(shù)。
表1 2010年全國(guó)人口普查質(zhì)量評(píng)估調(diào)查樣本量
為了使用簡(jiǎn)單均值估計(jì)量估計(jì)全國(guó)實(shí)際人口數(shù),需要獲得每一個(gè)樣本普查小區(qū)的人口數(shù),具體見表2。利用表1~2的數(shù)據(jù),使用式(11)~(17),得到簡(jiǎn)單均值估計(jì)量(除西藏外)估計(jì)的實(shí)際人口數(shù)及抽樣方差估計(jì)值分別為:
全國(guó)實(shí)際人口數(shù)估計(jì)值為:
總體方差估計(jì)量為:
=35 344 370 519 033
為使用雙系統(tǒng)估計(jì)量估計(jì)全國(guó)(除西藏外)實(shí)際人口數(shù),除了需要獲得表1數(shù)據(jù)外,還需要獲得每一個(gè)樣本普查小區(qū)的普查正確登記人數(shù)、質(zhì)量評(píng)估調(diào)查人數(shù),以及它們的匹配人數(shù)。這里只列出北京市20個(gè)樣本普查小區(qū)的人口數(shù),見表3。
利用表1和表3數(shù)據(jù),使用式(2)~(4)及式(9)得到雙系統(tǒng)估計(jì)量估計(jì)的全國(guó)實(shí)際人口數(shù)為:
為計(jì)算雙系統(tǒng)估計(jì)量的抽樣方差,一項(xiàng)核心工作是使用式(8)計(jì)算每刀切掉每一層的每一個(gè)樣本普查小區(qū)后,所有樣本普查小區(qū)的復(fù)制權(quán)數(shù),被刀切小區(qū)的復(fù)制權(quán)數(shù)為0。模擬研究需刀切400個(gè)普查小區(qū),因此,最后的結(jié)果是400×400的矩陣,如表4。每刀切一個(gè)樣本普查小區(qū)后重新計(jì)算的所有樣本小區(qū)的復(fù)制權(quán)數(shù)之和為全國(guó)總普查小區(qū)數(shù)(5 520 099)。
表2 樣本普查小區(qū)人數(shù) 單位:人
利用表3和表4數(shù)據(jù),以及式(5)~(8)及式(10)得到全國(guó)雙系統(tǒng)估計(jì)值的抽樣方差:
使用式(1)和算得的均值單元估計(jì)值和雙系統(tǒng)估計(jì)值的抽樣方差,得到2010年質(zhì)量評(píng)估調(diào)查方案A*的設(shè)計(jì)效應(yīng)為:
=0.771 9
如果要求2020年全國(guó)實(shí)際人口數(shù)估計(jì)值與實(shí)際值的誤差范圍為7 468 267人,并假定2020年全國(guó)普查小區(qū)數(shù)與2010年相同,為5 520 099個(gè),2020年全國(guó)普查小區(qū)人口數(shù)總體方差與2010年相同,為464,那么使用式(18)得到2020年采取簡(jiǎn)單隨機(jī)抽樣全國(guó)樣本總量為:
如果2020年采取與2010年同樣的抽樣方法和雙系統(tǒng)估計(jì)量,那么使用式(19)得到2020年全國(guó)樣本普查小區(qū)數(shù)為:
如果2020年采取更優(yōu)的抽樣方法和估計(jì)量,如分層二重抽樣和三系統(tǒng)估計(jì)量,那么使用式(19)得到2020年全國(guó)樣本普查小區(qū)數(shù)應(yīng)該比751小,如700個(gè)。
表3 北京城鄉(xiāng)樣本小區(qū)普查人數(shù)、質(zhì)量評(píng)估調(diào)查人數(shù)及匹配人數(shù) 單位:人
表4 樣本小區(qū)復(fù)制權(quán)數(shù)
假定2020年最終確定的全國(guó)樣本普查小區(qū)數(shù)700個(gè)。利用表1數(shù)據(jù),使用式(20)~(21),得到全國(guó)各個(gè)省份及城鄉(xiāng)抽樣層按普查小區(qū)數(shù)或人口數(shù)比例分配的樣本普查小區(qū)數(shù),見表5和表6。
表5 基于小區(qū)數(shù)比例的2020年全國(guó)樣本量分配結(jié)果
表5中的數(shù)據(jù)基本上按照式(20)~(21)分配??紤]到北京、天津、上海、寧夏和青海普查小區(qū)比例較小,適當(dāng)增加了樣本普查小區(qū)數(shù),這與中國(guó)人口普查質(zhì)量評(píng)估調(diào)查的一貫做法一致。
表6 基于人口數(shù)比例的2020年全國(guó)樣本量分配結(jié)果
從表5和表6可以看出,采用2010年抽樣層的普查小區(qū)數(shù)或人口數(shù)比率分配的樣本量差異不明顯。如遼寧、江蘇、福建和云南,城鎮(zhèn)和鄉(xiāng)村無差異。但少數(shù)省份或其城鄉(xiāng),采用普查小區(qū)數(shù)或人口數(shù)分配有明顯差異,如河南鄉(xiāng)村樣本量相差4個(gè)普查小區(qū),四川城鎮(zhèn)樣本量相差5個(gè)小區(qū)及鄉(xiāng)村樣本量相差11個(gè)小區(qū)。這表明中國(guó)各個(gè)普查小區(qū)的人口數(shù)差異很少。事實(shí)上,中國(guó)樣本普查小區(qū)是按照250個(gè)常住人口來確定的。
第一,在人口普查質(zhì)量評(píng)估調(diào)查樣本總量測(cè)算中,使用總體實(shí)際人口數(shù)估計(jì)精度計(jì)算設(shè)計(jì)效應(yīng)[18]。這與人口普查質(zhì)量評(píng)估的主要目標(biāo)一致,即估計(jì)普查時(shí)點(diǎn)的總體實(shí)際人口數(shù)及普查凈誤差。設(shè)計(jì)效應(yīng)的分子是總體雙系統(tǒng)估計(jì)量的抽樣方差,分母是簡(jiǎn)單均值估計(jì)量的抽樣方差。
第二,參照中國(guó)2000年和2010年普查凈誤差估計(jì)值,以及美國(guó)、烏干達(dá)和南非等國(guó)凈誤差估計(jì)值,綜合確定中國(guó)2020年總體實(shí)際人口數(shù)估計(jì)值的誤差范圍。
第三,計(jì)算簡(jiǎn)單均值估計(jì)量的抽樣方差,需要全國(guó)普查小區(qū)之間人口數(shù)的方差。該方差計(jì)算資料可以是2010年質(zhì)量評(píng)估調(diào)查每個(gè)樣本普查小區(qū)的人口數(shù),或2010年全國(guó)每個(gè)普查小區(qū)的人口數(shù),也可以是2019年全國(guó)1‰人口抽樣調(diào)查資料。
第四,應(yīng)用設(shè)計(jì)效應(yīng)測(cè)算全國(guó)質(zhì)量評(píng)估調(diào)查樣本總量的前提是2020年采用與2010年同樣的抽樣方法和估計(jì)量。如果2020年采用優(yōu)于2010年的抽樣方法(分層二重抽樣)和估計(jì)量(三系統(tǒng)估計(jì)量),那么2020年所需要的樣本總量會(huì)比同樣抽樣方法和同樣估計(jì)量時(shí)的要少一些。此時(shí),可以根據(jù)2020年質(zhì)量評(píng)估調(diào)查的人力、物力、財(cái)力、時(shí)間及對(duì)普查覆蓋誤差和內(nèi)容誤差估計(jì)精度的要求,綜合確定2020年全國(guó)質(zhì)量評(píng)估調(diào)查的樣本總量。
第五,全國(guó)樣本總量確定之后,按照人口數(shù)或普查小區(qū)數(shù)比例分配全國(guó)樣本總量。對(duì)人口數(shù)特別少的省份或抽樣層,為避免因樣本量嚴(yán)重不足而影響估計(jì)精度,單獨(dú)確定樣本量或適當(dāng)增加樣本量。