亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于設(shè)計(jì)效應(yīng)的人口普查質(zhì)量評(píng)估調(diào)查樣本量測(cè)算

2020-10-12 13:03:54胡桂華范署姍

統(tǒng)計(jì)與信息論壇 2020年10期

胡桂華，范署姍，吳婷

(重慶工商大學(xué) a.數(shù)學(xué)與統(tǒng)計(jì)學(xué)院；b.經(jīng)濟(jì)社會(huì)應(yīng)用統(tǒng)計(jì)重慶市重點(diǎn)實(shí)驗(yàn)室，重慶 400067)

一、引言

1949年新中國(guó)成立后，分別于1953年、1964年、1982年、1990年、2000年和2010年進(jìn)行過六次全國(guó)人口普查。從1982年起，中國(guó)正式采取質(zhì)量評(píng)估調(diào)查開展人口普查質(zhì)量評(píng)估工作[1]。聯(lián)合國(guó)統(tǒng)計(jì)司建議各國(guó)使用質(zhì)量評(píng)估調(diào)查估計(jì)人口普查覆蓋誤差及內(nèi)容誤差[2]。覆蓋誤差是由于普查多報(bào)與漏報(bào)引起的總體實(shí)際人口數(shù)與總體普查人口數(shù)之差。內(nèi)容誤差指由于普查多報(bào)與漏報(bào)及普查項(xiàng)目填寫錯(cuò)誤引起的類別實(shí)際人口數(shù)與類別普查人口數(shù)之差[3]。

質(zhì)量評(píng)估調(diào)查屬于大規(guī)模抽樣調(diào)查，采取分層整群抽樣或多重抽樣[4]。至于具體采取哪種抽樣方法，要結(jié)合本國(guó)的實(shí)際情況而定。中國(guó)、南非和烏干達(dá)等發(fā)展中國(guó)家采用分層整群抽樣，抽樣單位為普查小區(qū)或普查區(qū)，抽樣框是上次普查地址碼庫。中國(guó)普查小區(qū)平均包括80個(gè)住房單元，250人。這樣規(guī)定的理由是便于合理安排一個(gè)調(diào)查員的工作量，確保各個(gè)樣本小區(qū)的數(shù)據(jù)采集工作同時(shí)完成。中國(guó)小區(qū)規(guī)模大致相當(dāng)，按照小區(qū)規(guī)模對(duì)小區(qū)分層體現(xiàn)不出層與層之間的差異，失去分層意義。美國(guó)2000年質(zhì)量評(píng)估調(diào)查采取分層二重整群抽樣[5]。美國(guó)街區(qū)群之間規(guī)模差異較大，有的街區(qū)群包括住房單元0～2個(gè)，也有的包括住房單元3～79個(gè)，還有的街區(qū)群包括住房單元80個(gè)及以上。于是美國(guó)普查局在每一個(gè)州的第一重抽樣之前按照規(guī)模對(duì)街區(qū)群分層。中國(guó)按照城鄉(xiāng)分層各個(gè)省份的普查小區(qū)，在城市和鄉(xiāng)村層，以小區(qū)為抽樣單位簡(jiǎn)單隨機(jī)或等距抽樣或不等概率抽取普查小區(qū)樣本。

人口普查質(zhì)量評(píng)估調(diào)查工作的最初環(huán)節(jié)是測(cè)算和分配全國(guó)樣本量[6]。然而在政府統(tǒng)計(jì)部門發(fā)布的人口普查質(zhì)量評(píng)估研究報(bào)告中，很少見到樣本量測(cè)算與分配的相關(guān)內(nèi)容，代表當(dāng)今人口普查質(zhì)量評(píng)估最高水平的美國(guó)也是如此。一些國(guó)家的政府統(tǒng)計(jì)部門往往是憑經(jīng)驗(yàn)、主觀感覺確定全國(guó)樣本總量，根據(jù)調(diào)查經(jīng)費(fèi)和調(diào)查便利程度分配全國(guó)樣本量。這與政府統(tǒng)計(jì)部門不重視質(zhì)量評(píng)估調(diào)查樣本量測(cè)算有關(guān)。聯(lián)合國(guó)統(tǒng)計(jì)司組織世界人口普查質(zhì)量評(píng)估專家撰寫的人口普查質(zhì)量評(píng)估操作指南也未涉及樣本量測(cè)算問題。中國(guó)在2010年及以前的人口普查質(zhì)量評(píng)估調(diào)查中一直未能從理論上解決樣本量測(cè)算與分配問題。抽樣理論說明樣本量測(cè)算與分配對(duì)總體指標(biāo)估計(jì)精度有直接影響。在人口普查質(zhì)量評(píng)估調(diào)查中重視這一工作，有助于減小人口普查覆蓋誤差及提高內(nèi)容誤差估計(jì)精度。

測(cè)算質(zhì)量評(píng)估調(diào)查樣本量有兩種方法，一是直接測(cè)算法，二是間接測(cè)算法。直接測(cè)算法是指給出既定抽樣方法的估計(jì)量抽樣方差公式，同時(shí)給出估計(jì)量的精度要求，即估計(jì)量抽樣方差的控制值。用方差公式表示以樣本量為未知數(shù)的方程式，解這個(gè)方程得到所需要的樣本總量。只要有條件這樣做，毫無疑問就應(yīng)該采用這種方法。但是，有的時(shí)候沒有條件使用直接的方法來測(cè)算樣本量。例如，抽樣設(shè)計(jì)方案和估計(jì)量的構(gòu)造形式復(fù)雜，難以直接寫出估計(jì)量方差的數(shù)學(xué)表達(dá)式和列出樣本量方程式，這時(shí)就只好使用間接法[7]。人口普查質(zhì)量評(píng)估調(diào)查就屬于這種情況。

中國(guó)國(guó)家統(tǒng)計(jì)局已確定在2020年人口普查質(zhì)量評(píng)估調(diào)查中使用間接法測(cè)算樣本量。下面以中國(guó)為例，討論間接方法的具體測(cè)算步驟[8-10]。第一步，計(jì)算2020年實(shí)際抽樣方案的設(shè)計(jì)效應(yīng)。它為2020年實(shí)際抽樣方案總體實(shí)際人口數(shù)估計(jì)量的抽樣方差與簡(jiǎn)單隨機(jī)抽樣總體實(shí)際人口數(shù)估計(jì)量的抽樣方差之比。顯然，為了計(jì)算2020年設(shè)計(jì)效應(yīng)，要設(shè)計(jì)兩個(gè)抽樣方案：實(shí)際采用的抽樣方案稱之為A方案；簡(jiǎn)單隨機(jī)抽樣方案稱之為B方案。中國(guó)2020年A方案包含兩個(gè)要點(diǎn)：使用分層整群抽樣抽取樣本和利用該樣本資料構(gòu)造三系統(tǒng)估計(jì)量估計(jì)全國(guó)實(shí)際人口數(shù)。三系統(tǒng)估計(jì)量很復(fù)雜，其抽樣方差使用分層刀切抽樣方差估計(jì)量近似估計(jì)。B方案的要點(diǎn)是：首先給出抽樣估計(jì)精度要求，它是實(shí)際人口數(shù)估計(jì)量方差的一個(gè)控制值。然后依照這個(gè)控制值，如果以普查小區(qū)為抽樣單位，在全國(guó)不分層抽取簡(jiǎn)單隨機(jī)樣本，構(gòu)造全國(guó)實(shí)際人口數(shù)的簡(jiǎn)單均值估計(jì)量及其抽樣方差估計(jì)量。第二步，根據(jù)精度要求，計(jì)算B方案全國(guó)需要的樣本總量。第三步，將2020年A方案的設(shè)計(jì)效應(yīng)乘以B方案2020年全國(guó)樣本總量，得到A方案2020年全國(guó)樣本總量。這里需要注意的是，2020年A方案尚未實(shí)施，還無法計(jì)算A方案的抽樣方差，2020年A方案的設(shè)計(jì)效應(yīng)自然也就算不出來。

如果2010年質(zhì)量評(píng)估調(diào)查采用A方案(當(dāng)時(shí)自然已經(jīng)算出了該方案中估計(jì)量的方差)，那么只要再用2010年樣本資料計(jì)算B方案的抽樣方差，把這兩個(gè)方差相除得到2010年A方案的設(shè)計(jì)效應(yīng)。把這個(gè)設(shè)計(jì)效應(yīng)拿到2020年使用應(yīng)該沒有問題。但問題是2010年質(zhì)量評(píng)估調(diào)查可能沒有使用A方案。由2010年的樣本資料可以制造出來一個(gè)A*方案，其特點(diǎn)是：抽取樣本的方式與A方案相同(事實(shí)上，中國(guó)2010年和2020年質(zhì)量評(píng)估調(diào)查都采取分層整群抽樣)，使用估計(jì)實(shí)際人口數(shù)的雙系統(tǒng)估計(jì)量[11-12]，而不是三系統(tǒng)估計(jì)量[13]。

中國(guó)2010年沒有使用雙系統(tǒng)估計(jì)量估計(jì)全國(guó)實(shí)際人口數(shù)，并據(jù)此估計(jì)全國(guó)普查凈誤差率，而是通過比對(duì)樣本普查小區(qū)的普查人口名單和質(zhì)量評(píng)估調(diào)查人口名單估計(jì)樣本普查小區(qū)的普查凈誤差率。

雖然中國(guó)在2010年沒有使用雙系統(tǒng)估計(jì)量估計(jì)全國(guó)實(shí)際人口數(shù)，但它采集了應(yīng)用雙系統(tǒng)估計(jì)量及其分層刀切抽樣方差估計(jì)量所需要的樣本數(shù)據(jù)資料，即擁有2010年全國(guó)416個(gè)樣本普查小區(qū)的普查人口名單和質(zhì)量評(píng)估調(diào)查人口名單及這兩份人口名單的匹配人口名單資料。因此，中國(guó)國(guó)家統(tǒng)計(jì)局積累了2010年質(zhì)量評(píng)估調(diào)查應(yīng)用雙系統(tǒng)估計(jì)量的實(shí)際數(shù)據(jù)資料。也就是說，雖然中國(guó)國(guó)家統(tǒng)計(jì)局沒有使用雙系統(tǒng)估計(jì)量，但積累了使用雙系統(tǒng)估計(jì)量所需要的數(shù)據(jù)資料。這些實(shí)際資料可以用來計(jì)算2010年設(shè)計(jì)效應(yīng)，我們并沒有獲得這些實(shí)際數(shù)據(jù)資料，是基于對(duì)中國(guó)質(zhì)量評(píng)估調(diào)查的了解及長(zhǎng)期研究，模擬了一套與實(shí)際數(shù)據(jù)基本吻合的微觀數(shù)據(jù)。下面依據(jù)模擬的微觀數(shù)據(jù)計(jì)算2010年A*方案的設(shè)計(jì)效應(yīng)，并作為2020年A方案的設(shè)計(jì)效應(yīng)[14]。

雙系統(tǒng)估計(jì)量與三系統(tǒng)估計(jì)量的原理基本相同。不同的是，雙系統(tǒng)估計(jì)量只用普查人口名單、質(zhì)量評(píng)估調(diào)查人口名單的信息綜合在一起構(gòu)造估計(jì)量。與三系統(tǒng)估計(jì)量相比，缺少了行政記錄人口名單(戶籍人口名單)信息。由于缺少這個(gè)，雙系統(tǒng)估計(jì)量的精度可能會(huì)比三系統(tǒng)估計(jì)量差一些。相應(yīng)地，在一定精度要求下用A*方案的設(shè)計(jì)效應(yīng)算得的2020年樣本量會(huì)比實(shí)際需要的樣本量大一些。這樣的結(jié)果還是可以接受的，畢竟兩種估計(jì)量屬于同一個(gè)理論范疇，二者精度不會(huì)相差太多。

在人口普查質(zhì)量評(píng)估領(lǐng)域，樣本量測(cè)算與分配的研究成果較少。相比國(guó)內(nèi)外發(fā)表的為數(shù)不多的相關(guān)論文，我們的創(chuàng)新工作體現(xiàn)在以下幾個(gè)方面。一是將雙系統(tǒng)估計(jì)量納入設(shè)計(jì)效應(yīng)計(jì)算中，豐富了設(shè)計(jì)效應(yīng)理論；二是增加了數(shù)據(jù)分析環(huán)節(jié)，為政府統(tǒng)計(jì)部門設(shè)計(jì)質(zhì)量評(píng)估調(diào)查樣本量測(cè)算與分配方案提供了具體方法。受設(shè)計(jì)效應(yīng)公式復(fù)雜及獲取相關(guān)數(shù)據(jù)較難的限制，現(xiàn)有相關(guān)文獻(xiàn)只是從理論角度研究質(zhì)量評(píng)估調(diào)查樣本量的測(cè)算與分配，而未進(jìn)行數(shù)據(jù)模擬或?qū)嵶C分析。這不便于讀者理解及成果推廣應(yīng)用；三是與中國(guó)國(guó)家統(tǒng)計(jì)局人口普查質(zhì)量評(píng)估工作的一貫方法保持一致。現(xiàn)有相關(guān)文獻(xiàn)討論設(shè)計(jì)效應(yīng)時(shí)，使用分層二重抽樣或多階段抽樣抽取樣本，而中國(guó)人口普查質(zhì)量評(píng)估調(diào)查使用分層整群抽樣抽取樣本?；谶@一現(xiàn)實(shí)情況，我們使用基于分層整群抽樣的雙系統(tǒng)估計(jì)量和基于簡(jiǎn)單隨機(jī)抽樣的簡(jiǎn)單均值估計(jì)量的抽樣方差計(jì)算設(shè)計(jì)效應(yīng)。

二、全國(guó)樣本總量測(cè)算

(一)計(jì)算全國(guó)2010年設(shè)計(jì)效應(yīng)

在2010年質(zhì)量評(píng)估調(diào)查中，中國(guó)采取分層整群隨機(jī)抽樣，抽樣單位為普查小區(qū)[15]。首先，按省份把全國(guó)分為31層，其次，每層按照城—鄉(xiāng)分為兩層，即城鎮(zhèn)層和鄉(xiāng)村層?？紤]到西藏人口少，其樣本量單獨(dú)確定。這樣全國(guó)小區(qū)共分在60個(gè)抽樣層。抽樣層用h表示，h=1，2，…，60，抽樣層的小區(qū)數(shù)及樣本小區(qū)數(shù)分別用Nh和nh表示。

(1)

在討論式(1)之前，先構(gòu)造雙系統(tǒng)估計(jì)量和簡(jiǎn)單均值估計(jì)量及其抽樣方差估計(jì)量。雙系統(tǒng)估計(jì)量依據(jù)普查人口名單和質(zhì)量評(píng)估調(diào)查人口名單構(gòu)造，而簡(jiǎn)單均值估計(jì)量依據(jù)質(zhì)量評(píng)估調(diào)查人口名單建立。

1.雙系統(tǒng)估計(jì)量及其抽樣方差估計(jì)量。質(zhì)量評(píng)估調(diào)查日與普查日之間不可避免有人口移動(dòng)。為便于討論，忽略人口移動(dòng)，構(gòu)造無人口移動(dòng)的雙系統(tǒng)估計(jì)量。相關(guān)資料顯示，雙系統(tǒng)估計(jì)量來源于最初估計(jì)封閉動(dòng)物總體規(guī)模的捕獲-再捕獲模型。雙系統(tǒng)是指普查人口名單及質(zhì)量評(píng)估調(diào)查人口名單，分別對(duì)應(yīng)于捕獲-再捕獲模型的第一次和第二次捕獲。該模型為第一次和第二次捕獲的動(dòng)物數(shù)量乘積除以同時(shí)在兩次捕獲中的動(dòng)物數(shù)目。這啟發(fā)我們構(gòu)造雙系統(tǒng)估計(jì)量須比對(duì)這兩份人口名單，找出同時(shí)登記在兩份人口名單的人口。此外還要注意的是，捕獲-再捕獲模型須在同質(zhì)動(dòng)物總體構(gòu)造及使用。同質(zhì)動(dòng)物大多居住在一起(猴子等)，而不同質(zhì)動(dòng)物分開居住，因而捕獲-再捕獲模型所需要的同質(zhì)性條件較易得到滿足。但人在年齡、性別、居住環(huán)境和居住位置等方面存在較大差異，不具備同質(zhì)性。相應(yīng)地，在將捕獲-再捕獲模型移植到人類總體構(gòu)造雙系統(tǒng)估計(jì)量時(shí)，應(yīng)該按照年齡、性別、文化程度、婚姻狀況、是否有屬于自己的房子等變量將總體人口分層，把變量值相同或大致相同的人放在同一層，稱之為事后層或等概率人口層，用v表示[16]。顯然，用于分層的變量越多，層v人口的同質(zhì)性越強(qiáng)。但在樣本規(guī)模一定情形下，層v的樣本人口數(shù)就越少，在事后層建立的雙系統(tǒng)估計(jì)量估計(jì)的實(shí)際人口數(shù)的抽樣誤差就越大。為計(jì)算方便，使用性別對(duì)總體人口分層，共分為兩個(gè)事后層，即男性層和女性層。匯總所有事后層的雙系統(tǒng)估計(jì)量，得到估計(jì)總體實(shí)際人口數(shù)的雙系統(tǒng)估計(jì)量。

為什么在總體人口數(shù)估計(jì)中使用由普查人口名單及質(zhì)量評(píng)估調(diào)查人口名單構(gòu)造的雙系統(tǒng)估計(jì)量，而不使用由這兩份人口名單之一構(gòu)造的單系統(tǒng)估計(jì)量呢？根本原因在于雙系統(tǒng)估計(jì)量對(duì)總體人口的覆蓋范圍大于單系統(tǒng)估計(jì)量，所估計(jì)的人口數(shù)自然接近于總體實(shí)際人口數(shù)。南非2011年使用雙系統(tǒng)估計(jì)量估計(jì)的全國(guó)人口數(shù)為49.79百萬人，而采用依據(jù)普查人口名單構(gòu)造的單系統(tǒng)估計(jì)量估計(jì)的全國(guó)人口數(shù)為42.08百萬人，使用依據(jù)質(zhì)量評(píng)估調(diào)查人口名單構(gòu)造的單系統(tǒng)估計(jì)量估計(jì)的全國(guó)人口數(shù)為40.62百萬人。南非2011年全國(guó)普查人口數(shù)為51.77百萬人。使用三系統(tǒng)估計(jì)量估計(jì)的南非2011年全國(guó)人口數(shù)會(huì)更加接近于該年的全國(guó)普查人口數(shù)。

(2)

(3)

whi=Nh/nh

(4)

從式(3)和(4)可以看出，式(2)是一個(gè)復(fù)雜估計(jì)量，應(yīng)該使用分層刀切抽樣方差估計(jì)量近似計(jì)算其抽樣方差[17]。雙系統(tǒng)估計(jì)量的抽樣方差為：

(5)

(6)

(7)

(8)

總體實(shí)際人口數(shù)的雙系統(tǒng)估計(jì)量為：

(9)

在計(jì)算總體實(shí)際人口數(shù)雙系統(tǒng)估計(jì)量的抽樣方差估計(jì)量時(shí)，由于各事后層之間并不是相互獨(dú)立，因此不僅需要計(jì)算各事后層的方差，還需要計(jì)算事后層之間的協(xié)方差。

(10)

V為事后層的總層數(shù)。

2.簡(jiǎn)單均值估計(jì)量及其抽樣方差估計(jì)量。公式如下：

(11)

(12)

(13)

(14)

(15)

(16)

(17)

(二)計(jì)算全國(guó)2020年樣本量

我們要求2020年總體實(shí)際人口數(shù)估計(jì)量的抽樣方差不超過指定值V。如果用抽樣誤差范圍d和置信概率95%表示精度要求，那么由于估計(jì)量近似服從正態(tài)分布，當(dāng)置信概率為95%時(shí)，標(biāo)準(zhǔn)正態(tài)分布雙側(cè)臨界值的絕對(duì)值是1.96，這時(shí)有V=(d/1.96)2。如果用相對(duì)抽樣誤差范圍δ和置信概率表示精度要求，這時(shí)V=(δY/1.96)2，其中Y為2020年全國(guó)實(shí)際人口數(shù)的真值，用2019年1‰人口抽樣調(diào)查全國(guó)實(shí)際人口數(shù)估計(jì)值來代替。

在該精度要求下，假若2020年在全國(guó)范圍內(nèi)以普查小區(qū)為單位，簡(jiǎn)單隨機(jī)抽取樣本，構(gòu)造簡(jiǎn)單均值估計(jì)量估計(jì)全國(guó)人口數(shù)，計(jì)算所需要的樣本量。這里需要用到2020年普查小區(qū)之間人口數(shù)的總體方差S2(用2010年質(zhì)量評(píng)估調(diào)查估計(jì)的全國(guó)小區(qū)人口數(shù)之間的總方差代替)、2020年全國(guó)小區(qū)數(shù)N和估計(jì)精度V。使用式(18)求出全國(guó)樣本小區(qū)數(shù)目nSRS：

(18)

如果2020年采用與2010年相同的抽樣方法，構(gòu)造相同形式的估計(jì)量(雙系統(tǒng)估計(jì)量)，那么樣本中應(yīng)含有的普查小區(qū)數(shù)nA*為：

(19)

如果在2020年采用比2010年更優(yōu)越的抽樣方法，將分層整群抽樣換為分層二重整群抽樣，雙系統(tǒng)估計(jì)量換成三系統(tǒng)估計(jì)量估計(jì)全國(guó)人口數(shù)，所需要的樣本含量(普查小區(qū)數(shù))，會(huì)低于式(19)計(jì)算的結(jié)果。

三、全國(guó)樣本總量分配

這包括兩個(gè)層次，一是全國(guó)樣本量在除西藏之外的30個(gè)省份分配，二是各個(gè)省份在抽樣層之間的分配。一般按照各省份或抽樣層最新普查小區(qū)數(shù)(或人口數(shù))或上次普查小區(qū)數(shù)(人口數(shù))比例分配。用n1A*，…，n30A*分別表示各個(gè)省份分配的普查小區(qū)數(shù)，計(jì)算公式為：

(20)

其中，k=1，2，…，30，Tk為第k省普查小區(qū)數(shù)或人口數(shù)，T為全國(guó)上次或本次普查小區(qū)數(shù)或人口數(shù)。用nklA表示抽樣層l從nkA分配的普查小區(qū)數(shù)，l=1，2，…，60，計(jì)算公式為：

(21)

其中，Tkl為第k省的第l抽樣層的人口數(shù)或普查小區(qū)數(shù)。

西藏人口稀少，在2010年質(zhì)量評(píng)估調(diào)查中，城鄉(xiāng)各指定1個(gè)樣本普查小區(qū)。從人口普查凈誤差估計(jì)、普查漏報(bào)估計(jì)、普查多報(bào)估計(jì)，以及普查內(nèi)容誤差估計(jì)的角度來看，每個(gè)抽樣層的樣本量應(yīng)該大于1。這是因?yàn)橛糜诠烙?jì)這些誤差的雙系統(tǒng)估計(jì)量、三系統(tǒng)估計(jì)量、普查漏報(bào)合成估計(jì)量、普查多報(bào)比率估計(jì)量、內(nèi)容誤差估計(jì)量屬于復(fù)雜估計(jì)量。對(duì)于復(fù)雜估計(jì)量，抽樣方差通常使用分層刀切抽樣方差估計(jì)量近似計(jì)算。該抽樣方差估計(jì)量的復(fù)制權(quán)數(shù)的分母為抽樣層的樣本量與1的差。在2020年質(zhì)量評(píng)估調(diào)查中，中國(guó)全國(guó)樣本普查小區(qū)數(shù)量將從2000年的602個(gè)和2010年的402個(gè)增加到1 000個(gè)。相應(yīng)地，西藏最低樣本量可規(guī)定為4個(gè)普查小區(qū)，其中城鄉(xiāng)各兩個(gè)樣本小區(qū)。

四、模擬分析

如果能夠獲得2010年中國(guó)每個(gè)省份城市和鄉(xiāng)村的普查小區(qū)數(shù)目、城鄉(xiāng)的樣本小區(qū)數(shù)目、全國(guó)每個(gè)小區(qū)的人數(shù)和2020年全國(guó)每個(gè)小區(qū)的人口數(shù)，就可以進(jìn)行實(shí)證分析。盡管我們?yōu)橹袊?guó)國(guó)家統(tǒng)計(jì)局制訂2020年人口普查質(zhì)量評(píng)估方案，包括樣本總量測(cè)算與分配方案，但受微觀數(shù)據(jù)保密性所限，依然無法從國(guó)家統(tǒng)計(jì)局獲得所需要的實(shí)際微觀數(shù)據(jù)。不得已只能做模擬分析。2010年中國(guó)各省份的普查小區(qū)總數(shù)及樣本小區(qū)總數(shù)可以從國(guó)家統(tǒng)計(jì)局網(wǎng)站或我們與國(guó)家統(tǒng)計(jì)局于2012年合作撰寫的《人口普查的事后質(zhì)量抽查報(bào)告》中得到，這便是實(shí)際數(shù)據(jù)。但該年各省份的城市和鄉(xiāng)村各自的普查小區(qū)數(shù)及樣本小區(qū)數(shù)沒有得到，于是采用城鄉(xiāng)人口數(shù)比例間接推算，這便是模擬數(shù)據(jù)。至于各個(gè)小區(qū)的住戶數(shù)或人口數(shù)，則是模擬的。模擬分析中的表1～6的數(shù)據(jù)都是模擬的。

(一)計(jì)算全國(guó)樣本總量

中國(guó)在2010年質(zhì)量評(píng)估調(diào)查中，從全國(guó)(西藏除外)30個(gè)省份的城鄉(xiāng)60個(gè)層中抽取樣本普查小區(qū)400個(gè)，西藏城鄉(xiāng)小區(qū)各1個(gè)。表1列示各層普查小區(qū)總數(shù)及樣本普查小區(qū)數(shù)。

表1 2010年全國(guó)人口普查質(zhì)量評(píng)估調(diào)查樣本量

為了使用簡(jiǎn)單均值估計(jì)量估計(jì)全國(guó)實(shí)際人口數(shù)，需要獲得每一個(gè)樣本普查小區(qū)的人口數(shù)，具體見表2。利用表1～2的數(shù)據(jù)，使用式(11)～(17)，得到簡(jiǎn)單均值估計(jì)量(除西藏外)估計(jì)的實(shí)際人口數(shù)及抽樣方差估計(jì)值分別為：

全國(guó)實(shí)際人口數(shù)估計(jì)值為：

總體方差估計(jì)量為：

=35 344 370 519 033

為使用雙系統(tǒng)估計(jì)量估計(jì)全國(guó)(除西藏外)實(shí)際人口數(shù)，除了需要獲得表1數(shù)據(jù)外，還需要獲得每一個(gè)樣本普查小區(qū)的普查正確登記人數(shù)、質(zhì)量評(píng)估調(diào)查人數(shù)，以及它們的匹配人數(shù)。這里只列出北京市20個(gè)樣本普查小區(qū)的人口數(shù)，見表3。

利用表1和表3數(shù)據(jù)，使用式(2)～(4)及式(9)得到雙系統(tǒng)估計(jì)量估計(jì)的全國(guó)實(shí)際人口數(shù)為：

為計(jì)算雙系統(tǒng)估計(jì)量的抽樣方差，一項(xiàng)核心工作是使用式(8)計(jì)算每刀切掉每一層的每一個(gè)樣本普查小區(qū)后，所有樣本普查小區(qū)的復(fù)制權(quán)數(shù)，被刀切小區(qū)的復(fù)制權(quán)數(shù)為0。模擬研究需刀切400個(gè)普查小區(qū)，因此，最后的結(jié)果是400×400的矩陣，如表4。每刀切一個(gè)樣本普查小區(qū)后重新計(jì)算的所有樣本小區(qū)的復(fù)制權(quán)數(shù)之和為全國(guó)總普查小區(qū)數(shù)(5 520 099)。

表2 樣本普查小區(qū)人數(shù) 單位：人

利用表3和表4數(shù)據(jù)，以及式(5)～(8)及式(10)得到全國(guó)雙系統(tǒng)估計(jì)值的抽樣方差：

使用式(1)和算得的均值單元估計(jì)值和雙系統(tǒng)估計(jì)值的抽樣方差，得到2010年質(zhì)量評(píng)估調(diào)查方案A*的設(shè)計(jì)效應(yīng)為：

=0.771 9

如果要求2020年全國(guó)實(shí)際人口數(shù)估計(jì)值與實(shí)際值的誤差范圍為7 468 267人，并假定2020年全國(guó)普查小區(qū)數(shù)與2010年相同，為5 520 099個(gè)，2020年全國(guó)普查小區(qū)人口數(shù)總體方差與2010年相同，為464，那么使用式(18)得到2020年采取簡(jiǎn)單隨機(jī)抽樣全國(guó)樣本總量為：

如果2020年采取與2010年同樣的抽樣方法和雙系統(tǒng)估計(jì)量，那么使用式(19)得到2020年全國(guó)樣本普查小區(qū)數(shù)為：

如果2020年采取更優(yōu)的抽樣方法和估計(jì)量，如分層二重抽樣和三系統(tǒng)估計(jì)量，那么使用式(19)得到2020年全國(guó)樣本普查小區(qū)數(shù)應(yīng)該比751小，如700個(gè)。

表3 北京城鄉(xiāng)樣本小區(qū)普查人數(shù)、質(zhì)量評(píng)估調(diào)查人數(shù)及匹配人數(shù) 單位：人

表4 樣本小區(qū)復(fù)制權(quán)數(shù)

(二)全國(guó)樣本總量分配

假定2020年最終確定的全國(guó)樣本普查小區(qū)數(shù)700個(gè)。利用表1數(shù)據(jù)，使用式(20)～(21)，得到全國(guó)各個(gè)省份及城鄉(xiāng)抽樣層按普查小區(qū)數(shù)或人口數(shù)比例分配的樣本普查小區(qū)數(shù)，見表5和表6。

表5 基于小區(qū)數(shù)比例的2020年全國(guó)樣本量分配結(jié)果

表5中的數(shù)據(jù)基本上按照式(20)～(21)分配?？紤]到北京、天津、上海、寧夏和青海普查小區(qū)比例較小，適當(dāng)增加了樣本普查小區(qū)數(shù)，這與中國(guó)人口普查質(zhì)量評(píng)估調(diào)查的一貫做法一致。

表6 基于人口數(shù)比例的2020年全國(guó)樣本量分配結(jié)果

從表5和表6可以看出，采用2010年抽樣層的普查小區(qū)數(shù)或人口數(shù)比率分配的樣本量差異不明顯。如遼寧、江蘇、福建和云南，城鎮(zhèn)和鄉(xiāng)村無差異。但少數(shù)省份或其城鄉(xiāng)，采用普查小區(qū)數(shù)或人口數(shù)分配有明顯差異，如河南鄉(xiāng)村樣本量相差4個(gè)普查小區(qū)，四川城鎮(zhèn)樣本量相差5個(gè)小區(qū)及鄉(xiāng)村樣本量相差11個(gè)小區(qū)。這表明中國(guó)各個(gè)普查小區(qū)的人口數(shù)差異很少。事實(shí)上，中國(guó)樣本普查小區(qū)是按照250個(gè)常住人口來確定的。

五、結(jié) 論

第一，在人口普查質(zhì)量評(píng)估調(diào)查樣本總量測(cè)算中，使用總體實(shí)際人口數(shù)估計(jì)精度計(jì)算設(shè)計(jì)效應(yīng)[18]。這與人口普查質(zhì)量評(píng)估的主要目標(biāo)一致，即估計(jì)普查時(shí)點(diǎn)的總體實(shí)際人口數(shù)及普查凈誤差。設(shè)計(jì)效應(yīng)的分子是總體雙系統(tǒng)估計(jì)量的抽樣方差，分母是簡(jiǎn)單均值估計(jì)量的抽樣方差。

第二，參照中國(guó)2000年和2010年普查凈誤差估計(jì)值，以及美國(guó)、烏干達(dá)和南非等國(guó)凈誤差估計(jì)值，綜合確定中國(guó)2020年總體實(shí)際人口數(shù)估計(jì)值的誤差范圍。

第三，計(jì)算簡(jiǎn)單均值估計(jì)量的抽樣方差，需要全國(guó)普查小區(qū)之間人口數(shù)的方差。該方差計(jì)算資料可以是2010年質(zhì)量評(píng)估調(diào)查每個(gè)樣本普查小區(qū)的人口數(shù)，或2010年全國(guó)每個(gè)普查小區(qū)的人口數(shù)，也可以是2019年全國(guó)1‰人口抽樣調(diào)查資料。

第四，應(yīng)用設(shè)計(jì)效應(yīng)測(cè)算全國(guó)質(zhì)量評(píng)估調(diào)查樣本總量的前提是2020年采用與2010年同樣的抽樣方法和估計(jì)量。如果2020年采用優(yōu)于2010年的抽樣方法(分層二重抽樣)和估計(jì)量(三系統(tǒng)估計(jì)量)，那么2020年所需要的樣本總量會(huì)比同樣抽樣方法和同樣估計(jì)量時(shí)的要少一些。此時(shí)，可以根據(jù)2020年質(zhì)量評(píng)估調(diào)查的人力、物力、財(cái)力、時(shí)間及對(duì)普查覆蓋誤差和內(nèi)容誤差估計(jì)精度的要求，綜合確定2020年全國(guó)質(zhì)量評(píng)估調(diào)查的樣本總量。

第五，全國(guó)樣本總量確定之后，按照人口數(shù)或普查小區(qū)數(shù)比例分配全國(guó)樣本總量。對(duì)人口數(shù)特別少的省份或抽樣層，為避免因樣本量嚴(yán)重不足而影響估計(jì)精度，單獨(dú)確定樣本量或適當(dāng)增加樣本量。