胡桂華,薛 婷
(重慶工商大學 數(shù)學與統(tǒng)計學院,重慶 400067)
為了及時了解人口的動態(tài)變化,美國、北歐等西方發(fā)達國家和部分非洲國家的政府行政機構建立起類似于中國戶籍登記系統(tǒng)的民事登記系統(tǒng),如全國人口登記冊、就業(yè)登記冊、學歷學位登記冊、學生入學登記冊等[1]。這種系統(tǒng)通過登記人口的出生、死亡、遷移等人口事件獲得某個時點上的總體或其子總體的人口數(shù)。由于主客觀原因,民事登記系統(tǒng)可能多登、少登或滯后登記人口[2]。聯(lián)合國統(tǒng)計司要求各國政府統(tǒng)計部門使用雙系統(tǒng)估計量估計民事登記系統(tǒng)的凈誤差率,把通過凈誤差率調(diào)整后的民事登記系統(tǒng)作為人口統(tǒng)計數(shù)據(jù)來源[3]。凈誤差率定義為總體實際人數(shù)與民事登記系統(tǒng)人數(shù)之差除以前者的比值。可見,民事登記系統(tǒng)凈誤差率估計的關鍵是總體實際人數(shù)的估計。
中國、朝鮮和貝寧未建立民事登記系統(tǒng),而是建立戶籍登記系統(tǒng)。戶籍登記系統(tǒng)的宗旨與民事登記系統(tǒng)不同,它是一種行政管理手段,目的是實現(xiàn)對人口的管理,而不是提供準確的人口數(shù)。盡管中國戶籍登記制度規(guī)定,每個人都有資格申報戶口,每個出生者應該在規(guī)定時間申報戶口且只能申報一個戶口,每個死亡者應該及時注銷戶口,但在現(xiàn)實中并未得到嚴格執(zhí)行。中國“六普”前的戶籍整頓結(jié)果顯示,戶籍系統(tǒng)由于長期計劃生育政策的實施或受其他因素的制約而存在一定比例的一人多戶、死亡未注銷戶口、超生嬰兒未入戶等現(xiàn)象。從短期內(nèi)來看,這些現(xiàn)象還難以消除。以上事實表明,雖然從戶籍系統(tǒng)能夠如民事登記系統(tǒng)一樣獲得某個時點的人口數(shù),但這個人口數(shù)是有偏差的[4]。為了確?;谶@個人口數(shù)所做計劃或決策的科學性,對戶籍登記系統(tǒng)進行質(zhì)量評估是必要的。根據(jù)評估得到的凈誤差率來判斷這種偏離的程度,從而決定是否使用及如何使用它提供的人口數(shù)。
在民事登記系統(tǒng)覆蓋評估中,依據(jù)同一樣本普查小區(qū)相互獨立的民事登記系統(tǒng)和人口普查(或人口抽樣調(diào)查)資料構造的基于兩次捕獲模型的雙系統(tǒng)估計量是目前估計民事登記系統(tǒng)實際人口數(shù)及其凈誤差率的主流方法[5]。然而,雙系統(tǒng)估計量有一個重要的限制條件,那就是它要求兩個資料系統(tǒng)必須獨立。如果不能滿足這個條件,就會產(chǎn)生交互作用偏差而導致估計量有偏[6]。在人口普查質(zhì)量評估工作中,用人口普查資料和人口普查質(zhì)量評估時的人口登記資料構造雙系統(tǒng)估計量,由于很難保證這兩個資料系統(tǒng)獨立,所以用這個估計量來估計實際人口數(shù)是有偏的。正是由于這個問題,有學者曾撰文建議在人口普查質(zhì)量評估工作中估計實際人口數(shù)時,舍棄雙系統(tǒng)估計量,而用三系統(tǒng)估計量來取代它[7]?,F(xiàn)在情況有所不同。本文是用民事登記系統(tǒng)與人口普查登記資料來構造雙系統(tǒng)估計量。從直觀上來分析,這兩個資料系統(tǒng)非獨立的風險似乎較前者要小些,用來估計實際人口數(shù)的雙系統(tǒng)估計量有偏的風險也會小些[8]。但是,我們還是建議用三系統(tǒng)估計量來取代它。這是因為雙系統(tǒng)估計量只是利用了人口普查登記資料這一種輔助信息。抽樣調(diào)查理論中,在構造估計量的時候,利用的輔助信息越多,估計量的精度也會越高。在上述兩個系統(tǒng)的基礎上,如果把人口普查質(zhì)量評估時所做的人口登記資料添加進來,構造基于三次捕獲模型的三系統(tǒng)估計量,就會比雙系統(tǒng)估計量更充分地利用了輔助信息,因而可進一步提高總體實際人口數(shù)估計的精度[9-10]。
雖然三系統(tǒng)估計量的理論基礎是三次捕獲模型,但它們之間有本質(zhì)區(qū)別。第一,三次捕獲模型利用三次全面捕獲資料估計動物總體規(guī)模,而三系統(tǒng)估計量利用三次抽樣資料估計人類總體規(guī)模。換句話說,所構造的三系統(tǒng)估計量,應該是基于全面調(diào)查總體值的三系統(tǒng)估計量的估計量。第二,三次捕獲模型在靈敏性、生活習性、體型、年歲等諸多方面大致相同的動物總體內(nèi)估計動物數(shù)目。國外學者在使用三次捕獲模型時,都未曾考慮過對總體中的動物分層,在默認動物總體中的動物具有同樣特性這種背景下研究和使用三次捕獲模型。在構造三系統(tǒng)估計量時要求總體中的人口在人口普查及其質(zhì)量評估調(diào)查、戶籍登記系統(tǒng)中各自的登記概率相同。但事實上,在進行上述每一種登記的時候,都會由于某些人口統(tǒng)計特征變量的影響,使得總體中的人口在進行此種登記時,登記的概率有所差別。于是就需要把影響每一種登記概率的特征變量找出來,用所有變量對總體中的人口交叉分層[11],使得分在同一交叉層中的人口進行每一種登記時都具有相同的登記概率,在這樣的層中構造三系統(tǒng)估計量,然后再將各層的估計量在整個總體合成。第三,三次捕獲模型未考慮各次捕獲之間動物的移動,采用較為簡單的無移動模型估計動物總體數(shù)目。三系統(tǒng)估計量則需要考慮各個系統(tǒng)之間在不同時間上人口的移動,構造人口移動的三系統(tǒng)估計量,從而完成總體實際人口數(shù)估計的任務。第四,計算三次捕獲模型與三系統(tǒng)估計量的抽樣方差公式不一樣,其中后者通常使用復制抽樣方差估計量近似計算所估計人口數(shù)的抽樣方差估計值。該抽樣方差估計量用來解決復雜估計量的抽樣方差計算,在西方抽樣領域應用廣泛,但在中國應用甚少。復制抽樣方差估計量要求每一層的第一重樣本不少于5個抽樣單位,否則高估總體參數(shù)估計量的抽樣方差。第五,根據(jù)三次捕獲之間的各種統(tǒng)計關系構造與之相適應的三次捕獲模型,將既定數(shù)據(jù)代入各種三次捕獲模型,使用皮爾遜卡方檢驗統(tǒng)計量或?qū)?shù)似然比估計量完成最佳三次捕獲模型的選擇。但是三系統(tǒng)估計量中的三個系統(tǒng)(人口普查、人口普查的質(zhì)量評估調(diào)查和戶籍登記系統(tǒng))在現(xiàn)實中的統(tǒng)計關系是客觀固定的,能夠分析出哪一種統(tǒng)計關系最可能發(fā)生,并構造與之相應的三系統(tǒng)估計量,無需進行各種統(tǒng)計關系下的三系統(tǒng)估計量選擇。
從以上分析可以看出,使用三系統(tǒng)估計量需要具備如下條件或做好以下工作。首先,對總體使用反映人口在三個系統(tǒng)登記概率的變量對總體人口分層,在等概率人口層構造三系統(tǒng)估計量。其次,先構造三個系統(tǒng)對總體全面登記的三系統(tǒng)估計量,然后使用有限總體概率樣本構造上述三系統(tǒng)估計量的每一個構成部分的線性估計量,得到三個系統(tǒng)對總體抽樣登記的三系統(tǒng)估計量。然后,在人口普查、戶籍登記系統(tǒng)與質(zhì)量評估調(diào)查之間,總體人口會從一個普查小區(qū)移動到另外一個普查小區(qū)。為了適應這一情況,需要構造人口移動的三系統(tǒng)估計量。最后,獲取同一普查小區(qū)三個系統(tǒng)人口登記的微觀資料,這是一項十分困難的工作。
國外學者在一些人群或地區(qū)做三系統(tǒng)估計量試點工作[12],取得了較為理想的估計結(jié)果,為在民事(戶籍)登記系統(tǒng)的覆蓋率評估中應用三系統(tǒng)估計量奠定了基礎。國外學者在這些試點中使用的是三個系統(tǒng)對總體全面登記的三系統(tǒng)估計量。在民事(戶籍)登記質(zhì)量覆蓋評估中,三系統(tǒng)資料是經(jīng)過有限總體概率抽樣所抽出的各個普查小區(qū)的三種人口的登記名單。在中國戶籍登記系統(tǒng)覆蓋評估中想要借鑒外國學者在試點工作中構造的三系統(tǒng)估計量的經(jīng)驗時,須對有關的研究成果做進一步的拓展,使其適用于民事(戶籍)登記質(zhì)量覆蓋評估[13]。
根據(jù)中國人口統(tǒng)計調(diào)查的實際情況,對戶籍登記系統(tǒng)的覆蓋評估可以在人口普查年或非人口普查年實施。如果安排在人口普查年,就構造人口普查、人口普查的質(zhì)量評估調(diào)查及戶籍登記系統(tǒng)資料的三系統(tǒng)估計量估計總體實際人口數(shù)。如果安排在非人口普查年,就構造人口抽樣調(diào)查、人口抽樣調(diào)查的質(zhì)量評估調(diào)查及戶籍登記系統(tǒng)的三系統(tǒng)估計量估計戶籍登記系統(tǒng)凈誤差率。本文只研究人口普查年戶籍登記系統(tǒng)的覆蓋評估。
迄今,中國尚未開展戶籍登記系統(tǒng)覆蓋評估工作?!吨袊y(tǒng)計年鑒》每年提供存在一定誤差的戶籍人口數(shù)。我們應該改變這一狀況,盡早開展戶籍登記系統(tǒng)覆蓋評估工作,為未來實施以戶籍登記系統(tǒng)為核心的行政記錄式人口普查創(chuàng)造條件。
三系統(tǒng)估計量建立基礎為最初用來估計動物總體規(guī)模的三次捕獲模型。沒有三次捕獲模型就沒有三系統(tǒng)估計量。在三次捕獲模型發(fā)展歷史上,國外學者做出了突出貢獻。他們通過對同一動物總體的三次全面捕獲,以及三次捕獲之間的統(tǒng)計關系(獨立還是相關),使用對數(shù)線性模型和最大似然估計等方法構造了各種統(tǒng)計關系的三次捕獲模型。將三次捕獲模型移植到人類總體構造三系統(tǒng)估計量,我們需要了解和掌握三次捕獲模型[14]。
三次捕獲模型由兩次捕獲模型拓展而來。從兩次捕獲模型入手有助于三次捕獲模型的理解,解決三次捕獲模型構建中的疑難問題。二維列聯(lián)表是分析和構造兩次捕獲模型的重要工具。把每一次捕獲的動物總體中的動物數(shù)目及通過比對兩次捕獲的動物名單得到的同時出現(xiàn)在兩次捕獲中的動物數(shù)目填入二維列聯(lián)表,見表1。用{xij}表示每個單元(ij)的觀察值。第一,x11,x10,x1+分別表示同時在兩次捕獲中捕獲到的動物數(shù)目,在第一次捕獲中捕獲到但未在第二次捕獲中捕獲到的動物數(shù)目,在第一次捕獲中捕獲到的動物數(shù)目(x1+=x11+x10);第二,x01,x00,x0+分別表示未在第一次捕獲中捕獲到但在第二次捕獲中捕獲到的動物數(shù)目,兩次捕獲中均未捕獲到的動物數(shù)目(未知,需要估計),未在第一次捕獲中捕獲到的動物數(shù)目(x0+=x01+x00);第三,x+1,x+0,N分別表示在第二次捕獲中捕獲到的動物數(shù)目(x+1=x11+x01),未在第二次捕獲中捕獲到的動物數(shù)目(x+0=x10+x00),動物總數(shù)目(未知,需要估計)。N=n+x00,n=x11+x10+x01為在兩次捕獲中捕獲到的動物數(shù)目,是已知的。現(xiàn)在所要做的工作是,構造N和x00的估計量。它們分別為:
(1)
(2)
式(1)或式(2)成立的前提條件是兩次捕獲相互獨立。下面將要討論的三次捕獲模型則不受各次捕獲之間是否獨立的限制。討論三次捕獲模型的工具是三維列聯(lián)表,見表2。
表2 三次捕獲的三維列聯(lián)表
(3)
(4)
前面探討的8種三次捕獲模型是針對三次捕獲之間可能發(fā)生的統(tǒng)計關系構造的,而不是針對某個特定統(tǒng)計關系構建的。在將三次捕獲模型移植到人類總體構造三系統(tǒng)估計量時,并不需要構造8種三系統(tǒng)估計量,而是要根據(jù)研究的特定對象,選擇1種與研究對象有關的三次捕獲模型來構造三系統(tǒng)估計量。
本文討論的三系統(tǒng)估計量中的三個系統(tǒng)為普查年的人口普查、人口普查的質(zhì)量評估調(diào)查及戶籍登記系統(tǒng),也就是說,要討論人口普查年的戶籍登記系統(tǒng)覆蓋評估問題。
在決定使用哪一種三次捕獲模型構造三系統(tǒng)估計量時,要分析這三個系統(tǒng)之間的統(tǒng)計關系,從中選擇最可能發(fā)生的統(tǒng)計關系,使用與這種統(tǒng)計關系相一致的三次捕獲模型構造該種統(tǒng)計關系的三系統(tǒng)估計量。
人口普查、人口普查的質(zhì)量評估調(diào)查及戶籍登記系統(tǒng)可能的統(tǒng)計關系有8種:第一,人口普查、質(zhì)量評估調(diào)查及戶籍登記系統(tǒng)相互獨立;第二,人口普查與質(zhì)量評估調(diào)查相關,分別與戶籍登記系統(tǒng)獨立;第三,人口普查與戶籍登記系統(tǒng)相關,分別與質(zhì)量評估調(diào)查獨立;第四,質(zhì)量評估調(diào)查與戶籍登記系統(tǒng)相關,分別與人口普查獨立;第五,人口普查與質(zhì)量評估調(diào)查相關,戶籍登記系統(tǒng)與質(zhì)量評估調(diào)查相關,人口普查與戶籍登記系統(tǒng)獨立;第六,質(zhì)量評估調(diào)查與人口普查相關,戶籍登記系統(tǒng)與人口普查相關,質(zhì)量評估調(diào)查與戶籍登記系統(tǒng)獨立;第七,人口普查與戶籍登記系統(tǒng)相關,質(zhì)量評估調(diào)查與戶籍登記系統(tǒng)相關,人口普查與質(zhì)量評估調(diào)查獨立;第八,人口普查與質(zhì)量評估調(diào)查相關,質(zhì)量評估調(diào)查與戶籍登記系統(tǒng)相關,人口普查與戶籍登記系統(tǒng)相關。
在上述8種關系中,現(xiàn)實中最可能發(fā)生的是第2種統(tǒng)計關系。包括美國和中國在內(nèi)的許多國家的人口普查及其質(zhì)量評估調(diào)查工作都是由各國的政府統(tǒng)計部門統(tǒng)一組織開展的,其工作目標也都是為了獲得普查標準時點上的全國及各個地區(qū)的人口總數(shù)。另外,為了節(jié)約調(diào)查員的培訓時間和調(diào)查經(jīng)費,在質(zhì)量評估調(diào)查中,往往使用本次的優(yōu)秀普查員,充其量只是將他們派往到不同于普查時的調(diào)查小區(qū)做質(zhì)量評估工作。這就決定了人口普查與質(zhì)量評估調(diào)查是統(tǒng)計相關,而不是統(tǒng)計獨立。中國戶籍登記系統(tǒng)的登記機構是公安局下屬的戶籍科,登記目標是人口管理。這表明戶籍登記系統(tǒng)與人口普查或質(zhì)量評估調(diào)查是統(tǒng)計獨立,而不是統(tǒng)計相關。也就是說,這種統(tǒng)計關系在現(xiàn)實中成立的依據(jù)很充分,在構造三系統(tǒng)估計量時應該予以重點關注。有鑒于此,只討論這種統(tǒng)計關系的三系統(tǒng)估計量構造方法。美國當今三系統(tǒng)估計量研究著名學者Griffin也只是構造這種統(tǒng)計關系的三系統(tǒng)估計量。相應地,只需要構造第2種統(tǒng)計關系下的三系統(tǒng)估計量。
在將三次捕獲模型移植到人類總體構造三系統(tǒng)估計量時,還需要考慮的一個重要問題是,如何使得總體中的人口如同動物總體中的動物那樣具有同樣的捕獲概率??傮w中的人口由于這樣或那樣的原因,在人口普查或質(zhì)量評估調(diào)查或戶籍系統(tǒng)中的登記概率存在差異。這就需要選擇反映登記概率大小的變量對總體中的人口等概率分層,在等概率層(用l表示)構造三系統(tǒng)估計量。
在人口普查、質(zhì)量評估調(diào)查、戶籍系統(tǒng)對總體全面登記假定條件下,依據(jù)式(3)的三次捕獲模型構造的等概率層l的未知單元{000}的三系統(tǒng)估計量為:
(5)
(6)
其中,xl=x111,l+x101,l+x110,l+x100,l+x011,l+x001,l+x010,l。
為區(qū)別于下面的三系統(tǒng)估計量,把式(5)或式(6)稱為三個系統(tǒng)對總體全面登記的、無人口移動的三系統(tǒng)估計量。這樣的三系統(tǒng)估計量是三個系統(tǒng)對總體全面登記的、人口移動的三系統(tǒng)估計量及三個系統(tǒng)對總體抽樣登記的、人口移動的三系統(tǒng)估計量的基礎。
=[(x001n,l+x001o,l)(x110n,l+x110o,l+
x100n,l+x100o,l+x010n,l+x010o,l)]/
[x111n,l+x111o,l+x101n,l+x101o,l+
x011n,l+x011o,l]
(7)
由于在普查標準時點和質(zhì)量評估調(diào)查時點之間遷出本小區(qū)的向外移動者不可能登記在本小區(qū)的質(zhì)量評估調(diào)查人口名單中,即x111o,l=x011o,l=x110o,l=x010o,l=0。把這些數(shù)據(jù)代入式(7)得到式(8):
(8)
xn,o,l=x111n,l+x101n,l+x101o,l+x110n,l+x100n,l+
x100o,l+x011n,l+x001n,l+x001o,l+x010n,l
(9)
(10)
2.等概率人口層l的三個系統(tǒng)對總體抽樣登記的、人口移動的三系統(tǒng)估計量。這樣的三系統(tǒng)估計量適合于人口普查年的戶籍登記系統(tǒng)覆蓋率估計。人口普查和戶籍登記系統(tǒng)是對全國所有調(diào)查小區(qū)的人口登記,而質(zhì)量評估調(diào)查是對全國樣本調(diào)查小區(qū)的人口登記。三次捕獲模型建立的前提條件是,三次捕獲都是對總體的全部動物捕獲。人口普查與戶籍登記系統(tǒng)是對全國人口的全面登記,這一點無法改變。為了依據(jù)三次捕獲模型構造三系統(tǒng)估計量,只能假設質(zhì)量評估調(diào)查是對全國人口的全面登記,并在這樣的假設條件下構造基于三次捕獲模型的三系統(tǒng)估計量。這種假設是有科學依據(jù)的。首先,統(tǒng)計理論模型大多建立在一些假設條件基礎上。其次,質(zhì)量評估調(diào)查理論上可以對總體人口進行全面登記,只是為了節(jié)約成本開支及時間才采取抽樣登記方式。再次,包括美國、瑞士在內(nèi)的許多國家在構造雙系統(tǒng)估計量時也是假設質(zhì)量評估調(diào)查是對總體人口的全面登記,三系統(tǒng)估計量是雙系統(tǒng)估計量的自然延伸,對雙系統(tǒng)估計量所做假設自然適合于三系統(tǒng)估計量??紤]到質(zhì)量評估調(diào)查實際上是對總體人口的抽樣登記,因而需要用有限總體概率樣本表示三個系統(tǒng)對總體全面登記的三系統(tǒng)估計量的各個構成元素,使其成為三個系統(tǒng)對總體抽樣登記的三系統(tǒng)估計量。包括美國普查局在內(nèi)的所有政府統(tǒng)計機構和其他相關研究人員迄今尚未構造出三個系統(tǒng)對總體抽樣登記的、人口移動的三系統(tǒng)估計量,他們只是構造了基于三次捕獲模型的三個系統(tǒng)對總體全面登記的三系統(tǒng)估計量。
構造三個系統(tǒng)對總體抽樣登記的三系統(tǒng)估計量,只需要將式(8)或式(9)中的每一個單元用估計量的形式表示即可,結(jié)果見式(11)或式(12):
(11)
(12)
(13)
為了構造式(11)、式(12)等式右邊的每一個估計量,需要先了解質(zhì)量評估調(diào)查的抽樣方法。在大規(guī)模質(zhì)量評估抽樣調(diào)查中,通常使用二重抽樣法抽取樣本[15-18]。相比一重抽樣,二重抽樣的優(yōu)勢是,在同樣的成本下,總體參數(shù)估計量的抽樣方差較小。應用二重抽樣的一個前提條件是,在對第一重樣本普查小區(qū)的現(xiàn)場觀察中發(fā)現(xiàn)了較多的住房單元地址登記誤差或者其他對第一重樣本進一步分層的變量,以便抽取代表性更大的第二重樣本。另外一個條件是,發(fā)現(xiàn)第一重樣本的規(guī)模過大,為節(jié)省調(diào)查經(jīng)費或減少調(diào)查誤差而壓縮其規(guī)模。二重抽樣在以美國為代表的發(fā)達國家政府統(tǒng)計部門應用廣泛。迄今中國國家統(tǒng)計局尚未將二重抽樣應用于人口統(tǒng)計調(diào)查。
在抽取第一重樣本之前,為提高樣本對總體的代表性及便于編制抽樣框,按照規(guī)模對普查小區(qū)分層,分為兩層(H=2):80個及以上住房單元的普查小區(qū)層(h=1);80個以下住房單元的普查小區(qū)層(h=2)。每一層的普查小區(qū)總數(shù)用Nh表示。在每一層,以普查小區(qū)為抽樣單位,采取簡單隨機不重復抽樣方式抽取普查小區(qū),抽取的普查小區(qū)數(shù)用nh表示。每一h層的第i普查小區(qū)的抽樣權數(shù)用whi表示。hi樣本普查小區(qū)人口分配到等概率人口層l的人口數(shù)用ylhi表示。對抽取的第一步樣本普查小區(qū),現(xiàn)場了解每一個樣本普查小區(qū)住房單元所在街道、建筑物類型、門牌號碼、家庭成員等輔助信息,并把它們作為第二重抽樣的輔助變量,對第一重抽樣每一層的樣本普查小區(qū)重新分層。按照戶籍人口占全部人口比例對普查小區(qū)分層,分為兩層(G=2):戶籍人口比例不足50%的普查小區(qū)層(g=1),戶籍人口比例超過50%的普查小區(qū)層(g=2)。每一新g層的普查小區(qū)總數(shù)用Mhg表示。從每一新層,以普查小區(qū)為抽樣單位,采取簡單隨機不重復抽樣方式抽取第二重樣本普查小區(qū),抽取的普查小區(qū)數(shù)用mhg表示。層hg的hgi小區(qū)在層l的人口數(shù)用ylhgi表示。
(14)
式(14)中,如果hi普查小區(qū)屬于g層,xhgi=1,否則xhgi=0;如果hi普查小區(qū)進入第二重樣本,Ihgi=1,否則Ihgi=0;αhgi是hi樣本調(diào)查小區(qū)經(jīng)過兩重抽樣的抽樣權數(shù),如果這兩重抽樣都是簡單隨機抽樣,那么αhgi=(Nh/nh)(Mhg/mhg)。
(15)
(16)
式(16)中:
(17)
(18)
(19)
根據(jù)上面的討論,寫出hgi普查小區(qū)復制權數(shù)的完整計算公式:
(20)
3.總體的三個系統(tǒng)對總體抽樣登記的、人口移動的三系統(tǒng)估計量。在構造了等概率人口層l的三系統(tǒng)估計量后,只需要進行簡單的合成操作,即可得到總體的三系統(tǒng)估計量及其抽樣方差估計量[20]。
(21)
(22)
(23)
4.總體戶籍登記系統(tǒng)凈誤差率估計量。分別用TCR和THR表示總體戶籍登記系統(tǒng)凈誤差率及戶籍登記系統(tǒng)人口數(shù)。根據(jù)前面的凈誤差率定義,以及式(21)和式(22)寫出TCR估計量及其抽樣方差估計量。
(24)
(25)
實證調(diào)查的范圍為重慶市南岸區(qū)管轄下的銅元局街道、花園路街道、南坪街道、海棠溪街道、龍門浩街道、彈子石街道、南山街道和涂山鎮(zhèn)。為敘述便利,統(tǒng)一稱為重慶市南岸區(qū)部分街道,共有普查小區(qū)2 200個,并估計其2017年6月1日戶籍登記系統(tǒng)的凈誤差率。
實證研究的目標是:發(fā)現(xiàn)理論與方法闡述中的紕漏,從而及時更正;驗證理論和方法的合理性和實用性;幫助讀者更加直觀地了解三系統(tǒng)估計量的計算方法;向國家統(tǒng)計局提交2016年立項的重點課題《我國戶籍登記系統(tǒng)覆蓋評估研究》研究報告,作為制訂中國2020年及以后戶籍登記系統(tǒng)覆蓋評估方案的重要參考。
迄今所有國家都未在戶籍登記系統(tǒng)覆蓋評估中使用三個系統(tǒng)對總體抽樣登記的、人口移動的三系統(tǒng)估計量。因此,實證分析資料無法從各國政府統(tǒng)計部門獲得。即使各國政府統(tǒng)計部門在戶籍登記系統(tǒng)覆蓋評估中使用過三系統(tǒng)估計量,從他們那里獲得樣本普查小區(qū)的三個系統(tǒng)的住戶及個人微觀資料也很困難。
在樓棟長的幫助下,我們獲得了重慶市南岸區(qū)部分街道8個樣本普查小區(qū)的三份人口登記名單,依次稱為第一次調(diào)查人口登記名單、第二次調(diào)查人口登記名單,戶籍登記系統(tǒng)人口名單。其中,第一次調(diào)查人口登記名單相當于人口普查中人口登記名單、第二次調(diào)查人口登記名單相當于人口普查的質(zhì)量評估調(diào)查人口登記名單。
獲取這些人口登記名單的具體步驟是:第一步,由我們所在單位開具介紹信,與所要獲取的樣本普查小區(qū)的樓棟長取得聯(lián)系,詢問獲得人口登記名單的可能性,以及可能存在的問題,如部分家庭拒絕入戶。在初步取得他們的同意后,明確具體提出需要他們提供哪些信息,并告知支付數(shù)據(jù)采集費。第二步,與樓棟長簽訂數(shù)據(jù)采集及使用保密協(xié)議。協(xié)議中規(guī)定支付費用的金額、時間及支付方式。我們只能在指定的地方及規(guī)定的時間內(nèi)使用這些家庭及個人微觀數(shù)據(jù)。具體來說,就是我們不能將這些涉及個人隱私的數(shù)據(jù)帶回家中,只能在樓棟長的監(jiān)督下按照研究任務的需要比對和匯總這些原始數(shù)據(jù)。匯總數(shù)據(jù)可以帶回用于研究,原始數(shù)據(jù)樓棟長收回。這確保了個人涉密數(shù)據(jù)不外泄,打消了樓棟長及住戶或個人的后顧之憂。第三步,設計問卷。其中,第一次調(diào)查問卷的項目涉及姓名、性別、出生年月、戶籍所在地、目前所在地、婚姻關系、文化程度、與戶主關系、一年前居住地,等等。第二次調(diào)查問卷的調(diào)查項目有每個家庭的詳細地址、門牌號碼、人口數(shù)、每個人的姓名及其性別、年齡等人口統(tǒng)計特征,每個家庭成員普查日居住在本樣本普查小區(qū)還是其他普查小區(qū)。如果居住在其他普查小區(qū),確定居住的準確地點;普查日居住在本樣本普查小區(qū)某個住房單元的人的去向,等等。第四步,將設計好的問卷通過樓棟長交給家庭戶主或其他家庭成員,由其填寫問卷中要求填寫的每一個項目。
對獲得的三份人口登記名單,首先,剔除不屬于本小區(qū)的人口(死亡人口、遷出人口及重復登記人口),確保每份人口名單中的人口都屬于本小區(qū),滿足三系統(tǒng)估計量對每份名單允許有遺漏而不能錯誤包括人口的要求;其次,為了確保三份人口登記名單均是對同一總體同一時點上的人口登記,考慮到戶籍系統(tǒng)往往滯后登記人口這一現(xiàn)實情況,將滯后登記的人口使用追索方法補充到戶籍人口名單(新出生人口和遷入人口);最后,對名單中人口統(tǒng)計特征或居住地點信息登記不完整者,通過后續(xù)調(diào)查或估算方法補充完整,以確保三份人口登記名單之間的人口比對工作順利進行,提高比對效率和減少比對誤差。
在準備好三份人口登記名單后,緊接著是名單之間的人口比對。比對安排在人口普查質(zhì)量評估調(diào)查數(shù)據(jù)采集結(jié)束后。比對的目標是查找三份名單之間的匹配者,即同時在兩份名單或三份名單中登記的人口。這需要對一份名單中的每個人,查找其是否也在另外一份或二份名單中,若在另外一份或二份名單中找到了這個人,則稱其為匹配者。欲確認三份名單中的兩個登記或三個登記是否為同一個人,需要比對這兩個或三個登記所填寫的姓名、性別、年齡、與戶主關系、婚姻狀況、學歷學位、出生地、戶籍所在地、目前居住地點等項目。如果這兩個登記或三個登記所填寫的這些項目的內(nèi)容全都對應相同,則可以斷定這兩個登記或三個登記為同一個人。除此之外,余下的有三種情況:第一,從兩個登記或三個登記的人口統(tǒng)計特征項目的信息中可以沒有疑問地斷定這兩個登記或三個登記不是同一個人;第二,兩個登記或三個登記的大部分人口統(tǒng)計特征項目對應相同,只是有個別的項目不相對應,懷疑是否有登記錯誤;第三,所做登記的人口統(tǒng)計特征項目填寫不全。對于第二、第三兩種情況,稱其為匹配狀態(tài)懸而未決者,需要收集新信息再次比對。經(jīng)過比對和再次比對后,同一樣本普查小區(qū)的人口分為8種,即在三份名單登記人口(1種)、在兩份名單登記人口(3種)、在一份名單登記人口(3種)、未在任何名單登記人口(1種)。
為滿足三系統(tǒng)估計量在登記概率大致相等的人口層建立及使用的要求,將樣本普查小區(qū)人口在比對后劃分到登記概率大致相等的人口層中。為此,使用性別、年齡、房屋所有權、居住位置及地點、普查表回收率、種族、民族等變量對總體人口分層。每一個等概率人口層由上述變量交叉形成。一方面,增加一個分層變量,交叉層就相應增加,分配到每一個交叉層的樣本量就少,使用三系統(tǒng)估計量估計的人口數(shù)抽樣誤差大;另一方面,研究目標并不是分層變量的選擇及交叉層的構造,而是讓讀者理解和掌握三系統(tǒng)估計量及其抽樣方差估計量的計算過程。因此,只是選擇性別對總體人口分層:男性層及女性層,用l表示。
需要特別說明的是,本文為何不以全國(或是重慶市整個區(qū)域)為實證研究對象?一方面收集全國(或是重慶市整個區(qū)域)三個系統(tǒng)的三份人口登記名單將是一項我們無法完成的任務,就算是國家統(tǒng)計局或重慶市統(tǒng)計局做這項工作也需要周密的部署與安排,投入大量的人力、物力和財力;另一方面比對全國(或是重慶市整個區(qū)域)三份人口登記名單及對比對結(jié)果懸而未決的處理也是一項極其復雜、技術含量很高的工作,需要大量受過專門訓練的計算機人員和比對人員參與,無論是國家統(tǒng)計局,還是重慶市統(tǒng)計局目前都沒有能力完成這項工作。然而,不可否認的是,三系統(tǒng)估計量對研究區(qū)域有很好的適應性,可在城市、鄉(xiāng)村,行政區(qū)(鎮(zhèn)、縣、省)或全國使用。當然,為了積累經(jīng)驗,往往應該先在地理區(qū)域較小的范圍使用三系統(tǒng)估計量,然后逐步擴大其應用范圍。美國普查局就是遵循這一思路。他們曾經(jīng)在縣里的黑人居民區(qū)使用三個系統(tǒng)對總體全面登記的三系統(tǒng)估計量評估人口普查計數(shù)質(zhì)量。在2020年,美國普查局計劃在全國和各個州使用三系統(tǒng)估計量估計人口普查凈誤差率。我們所提出的適合于戶籍登記系統(tǒng)覆蓋評估的三個系統(tǒng)對總體抽樣登記的、人口移動的三系統(tǒng)估計量完全可以移植到全國或重慶市的戶籍登記系統(tǒng)覆蓋評估中。
采用前面敘述的二重抽樣方法,按照住房單元數(shù)目將重慶市南岸區(qū)部分街道的所有普查小區(qū)分為兩層,分別用符號h=1和h=2表示,每一層的普查小區(qū)數(shù)及樣本小區(qū)數(shù)分別用Nh和nh表示。對第一重樣本小區(qū)按照戶籍人口占全部人口比例進一步分為兩個新層,分別用符號g=1和g=2表示,每一新層的小區(qū)總數(shù)及樣本數(shù)分別用Mhg和mhg表示。樣本形成過程如表3所示。
表3 樣本形成表
注:為便于計算,對抽樣權數(shù)四舍五入。
在獲得三份人口登記名單、完成三份名單比對、對總體人口等概率分層(男性層、女性層,分別用l=m和l=w表示)、將比對結(jié)果劃分到等概率人口層后,8個樣本調(diào)查小區(qū)(分別用符號1~8表示)在男性層和女性層的樣本人口數(shù)xijk見表4和表5。
表4 男性層(l=m)樣本人數(shù)表
表5 女性層(l=w)樣本人數(shù)表
表6 等概率人口層的人數(shù)估計值表 單位:人
從表6可以看出,重慶市南岸區(qū)部分街道的男性層的人口數(shù)估計值為297 242人,而女性層的人口數(shù)估計值為265 674人。
使用式(20)計算在輪流刀切第一重樣本(共13個樣本普查小區(qū),共刀切13次)情況下,進入第二重樣本(共8個樣本普查小區(qū))的每一個樣本普查小區(qū)的復制權數(shù),計算結(jié)果見表7。
表7 樣本普查小區(qū)復制權數(shù)表
利用表8和表9數(shù)據(jù),使用式(15)和式(23)計算重慶市南岸區(qū)部分街道的男性層及女性層人數(shù)估計值的抽樣方差,以及它們之間的協(xié)方差。具體計算過程及其結(jié)果見表10、表11和表12。
表8 男性層(l=m)人口數(shù)復制值表
表9 女性層(l=w)人口數(shù)復制值表
表10 男性層(l=m)抽樣方差計算表
表10表明,重慶市南岸區(qū)部分街道男性層的人口數(shù)的抽樣方差為18 515 639,標準誤差為4 302人。
表11表明,重慶市南岸區(qū)部分街道女性層的人口數(shù)的抽樣方差為39 817 523,標準誤差為6 310人。
表11 女性層(l=w)抽樣方差計算表
表12 男性層(l=m)與女性層(l=w)協(xié)方差計算表
從表12可以看出,重慶市南岸區(qū)部分街道的男性層與女性層之間的協(xié)方差為-23 504 964,表明這兩個等概率人口層負相關。
使用式(21)~式(23),利用表6、表10~表12數(shù)據(jù),得到重慶市南岸區(qū)部分街道的人口數(shù)及抽樣誤差分別為:
=562 916(人)
39 817 523-2×23 504 964=11 323 234
重慶市南岸區(qū)部分街道的戶籍人口數(shù)為556 161人。根據(jù)式(24)和式(25)得到其戶籍登記系統(tǒng)的凈誤差率及其抽樣標準誤差分別為:
從以上計算結(jié)果可以看出,2017年6月1日,重慶市南岸區(qū)部分街道的總?cè)藬?shù)為562 916人(抽樣標準誤差為3 365人),其中男性297 242人(抽樣標準誤差為4 302人)、女性265 674人(抽樣標準誤差為6 310人),戶籍登記系統(tǒng)凈誤差率為1.2%(抽樣標準誤差為0.0 059 778)。
本文從理論層面和實際操作層面詳細討論了用于戶籍登記系統(tǒng)覆蓋評估的三系統(tǒng)估計量及其基于分層刀切方差估計量的抽樣方差估計量。通過實際案例演示了樣本抽取、樣本數(shù)據(jù)采集與處理、樣本普查小區(qū)抽樣權數(shù)、復制權數(shù)、男女人口層、總體實際人口數(shù)計算等工作步驟,為中國未來戶籍登記系統(tǒng)評估提供了具體的估計方法。在此基礎上得到如下結(jié)論,并提出相應對策建議。
戶籍登記系統(tǒng)作為中國最重要人口行政記錄,本身用于行政管理目的而不是用于統(tǒng)計目的。這決定了它的人口登記方法、登記時間和登記范圍與統(tǒng)計的要求不一致。這種不一致必然導致戶籍人口數(shù)偏離實際人口數(shù)。改變這一狀況的根本方法是事后對其完整性進行評估。根據(jù)評估的結(jié)果將戶籍人口數(shù)調(diào)整為實際人口數(shù)。如果建立戶籍登記系統(tǒng)的公安部門引入三系統(tǒng)估計量評估方法,就能夠為國家統(tǒng)計局提供高精度的人口行政記錄數(shù)據(jù)。這么做的前提是,國家統(tǒng)計局與公安部門建立密切的數(shù)據(jù)共享合作關系。
為獲得真實可靠的戶籍登記系統(tǒng)凈誤差率估計值,總體人口數(shù)與戶籍登記系統(tǒng)人口數(shù)在口徑上必須一致。戶籍登記系統(tǒng)提供的是具有本地戶籍的人口數(shù),所估計的總體實際人口數(shù)也應該是具有本地戶籍的總體人口數(shù)。為了做到這一點,對每一個樣本普查小區(qū)的三份人口登記名單,要仔細審查其中的每份名單中的人口是否具有本地戶籍。對有本地戶籍者予以保留,對不具有本地戶籍者予以剔除。對沒有本地戶籍,在其他地區(qū)有戶籍的人口,作為其他地區(qū)人口數(shù)估計的范圍。
三系統(tǒng)估計量是估計戶籍登記系統(tǒng)凈誤差率或覆蓋率的前沿方法。與作為目前民事登記系統(tǒng)覆蓋評估主流方法的獨立雙系統(tǒng)估計量相比,一方面,三系統(tǒng)估計量除了利用戶籍登記系統(tǒng)這一輔助信息外,還利用了與總體實際人口數(shù)密切相關的本次人口普查輔助信息,而且對這種輔助信息的使用是建立在具有科學依據(jù)的捕獲-再捕獲-再捕獲模型的基礎上,因此在估計精度上自然會有所提高。另一方面,小規(guī)模實證研究表明,即使不考慮同時未在三個系統(tǒng)登記的人口數(shù),三系統(tǒng)估計量比獨立雙系統(tǒng)估計量的估計結(jié)果還是要更加接近于實際一些。
不能把用來估計動物總體規(guī)模的三次捕獲模型等同于用來估計人口總體規(guī)模的三系統(tǒng)估計量。在應用三次捕獲模型構造三系統(tǒng)估計量時,需要解決總體人口分層問題、人口移動問題、有限總體概率抽樣及估計問題。只有解決了這些問題,才能構造出適合于戶籍登記系統(tǒng)覆蓋評估的三個系統(tǒng)對總體抽樣登記的、人口移動的三系統(tǒng)估計量。在構造三系統(tǒng)估計量時,還有一個特別需要注意的問題,那就是每個系統(tǒng)只允許遺漏人口,而不能錯誤登記人口(即把不屬于總體的人口納入系統(tǒng)中)。
國家統(tǒng)計局應盡快著手建立對中國戶籍登記系統(tǒng)覆蓋狀況的定期評估工作。一是以此為線索,查找戶籍登記工作中存在的漏洞,尤其是一人多戶和死亡者未注銷戶口問題;二是在使用戶籍登記系統(tǒng)提供的人口數(shù)字時要做適當調(diào)整,不能直接使用,否則影響依據(jù)戶籍人口數(shù)所做決策或計劃的科學性。
上述評估工作宜每年進行一次。在人口普查年,隨同人口普查質(zhì)量評估工作一起進行。把人口普查的標準時點定為戶籍登記系統(tǒng)覆蓋評估的標準時點;用人口普查質(zhì)量評估樣本作為戶籍登記系統(tǒng)覆蓋評估的樣本。在非人口普查年,隨同人口抽樣調(diào)查質(zhì)量評估工作一起進行。把人口抽樣調(diào)查的標準時點定為戶籍登記系統(tǒng)覆蓋評估的標準時點;用人口抽樣調(diào)查質(zhì)量評估樣本作為戶籍登記系統(tǒng)覆蓋評估的樣本。
國家統(tǒng)計局在制訂戶籍登記系統(tǒng)覆蓋評估方案時,可嘗試使用三系統(tǒng)估計量這一前沿理論研究成果。如果等到前沿理論被完全掌握再使用它,那將總是落后于美國等其他國家。為了盡快掌握前沿理論,國家統(tǒng)計局可以組織培訓,聘請專家講授三系統(tǒng)估計量及其抽樣方差估計量。