亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

人口普查遺漏的組合式估計方法

2024-02-04 02:49:42胡桂華LPEZCARRDavid黃艷華

統(tǒng)計與信息論壇 2024年2期

胡桂華,LPEZ-CARR David,黃艷華,吳笛

(1.重慶工商大學 a.數(shù)學與統(tǒng)計學院,b.成渝地區(qū)雙城經(jīng)濟圈建設(shè)研究院,重慶 400067;2.加州大學圣芭芭拉分校地理系,加利福尼亞圣芭芭拉,93106)

一、引言

人口普查不可避免發(fā)生遺漏,導致普查登記人口數(shù)低于實際人口數(shù)。人口普查遺漏指應(yīng)該在普查中登記卻未能登記在人口普查表中,要估計普查遺漏人口數(shù),需要使用其他資料(如覆蓋調(diào)查資料等),通過比對其他資料與人口普查資料來發(fā)現(xiàn)遺漏人口,或者在某假設(shè)條件下利用已有資料構(gòu)造遺漏估計量。

人口普查質(zhì)量評估實踐表明,遺漏在整個人群中的分布并非均勻。不同人口群體或地區(qū)之間的遺漏率差異較大,美國2010年人口普查遺漏估計結(jié)果顯示[1],西班牙裔少數(shù)民族的遺漏率高于非西班牙族白人;租房者遺漏率(8.5%)比有房者(3.7%)遺漏率高;在各州中,遺漏率從愛荷華州的2.6%到密西西比州的8.9%不等;大城市的遺漏率往往高于其他地區(qū)的普查遺漏率。

每次人口普查后,政府統(tǒng)計部門需要估計總?cè)丝诘倪z漏及各類別人口的遺漏。與遺漏相關(guān)的一個概念是凈遺漏。雖然遺漏和凈遺漏都反映了人口普查數(shù)據(jù)準確性的各個方面,但揭示的內(nèi)容不同,遺漏反映的是本應(yīng)在本次人口普查中登記卻未登記的人數(shù);凈遺漏率反映的是遺漏人數(shù)的百分比與在普查中重復登記人數(shù)的百分比之差。比如,美國2010年全國的遺漏率為5.3%,而凈遺漏率為0.01%。

造成人口普查遺漏的原因較多,有些受訪者認為不應(yīng)該將幼兒填寫在人口普查表中[2]。美國2010年的一項專項調(diào)查結(jié)果表明,在低收入家庭的人口普查登記中,只有82%的家庭將幼兒填寫在人口普查表中,另外18%的家庭認為幼兒不應(yīng)該納入人口普查登記范圍。雖然人口普查操作指南手冊明確規(guī)定應(yīng)該登記普查日前出生的幼兒和收養(yǎng)的棄嬰,但實際上并未嚴格遵守,從而導致遺漏幼兒。在人口普查登記期間,有些住戶成員外出經(jīng)商、旅游或?qū)W習,當普查員多次上門登記時不在家,從而造成遺漏;有些居民住宅修建在偏遠地區(qū),造成普查員登記困難,在普查表中未登記這樣的住宅及其家庭成員;有些普查員不適當?shù)貙⒕幼∮米≌斪魃虡I(yè)用房,從而未登記居住在其中的家庭和個人造成遺漏;多個家庭共用同一個地址和同一個門牌號碼,普查員只登記了這個地址上的一個家庭,而未登記該地址上其他應(yīng)該登記的家庭等。這些情況和其他尚未列舉的情況表明,人口普查遺漏客觀存在,有必要開展相關(guān)研究。

筆者研究過普查人口名單及覆蓋調(diào)查人口名單情形下的完整遺漏估計量,以及這兩項調(diào)查人口名單和行政記錄人口名單情形下的合成遺漏估計量。完整遺漏估計量由一個單重遺漏估計量和兩個雙重遺漏估計量構(gòu)成[2];合成遺漏估計量包括兩個單重遺漏估計量、一個雙重遺漏估計量和一個三重遺漏估計量[3]。這兩種遺漏估計量適合于人口普查質(zhì)量評估水平較高的發(fā)達國家使用。本文研究的組合式遺漏估計量包括一個單重遺漏估計量和一個雙重遺漏估計量,適合于人口普查質(zhì)量評估水平相對較低的發(fā)展中國家使用。

本文研究目標是,使用所提出的組合式遺漏估計量替代目前聯(lián)合國統(tǒng)計司建議各國使用的單重遺漏估計量,以解決后者低估總體人口普查遺漏人口數(shù)的問題。

研究具有一定的理論意義與現(xiàn)實意義。理論意義表現(xiàn)在兩個方面:一方面,組合式遺漏估計量由單重遺漏估計量和統(tǒng)計獨立的雙重遺漏估計量構(gòu)成,雙重遺漏估計量的理論基礎(chǔ)是捕獲—再捕獲模型。為滿足該模型等概率要求,需要使用體現(xiàn)人口在普查中登記概率大小的人口統(tǒng)計特征變量和居住位置變量對總體人口分層。在等概率層構(gòu)造雙重遺漏估計量,否則產(chǎn)生異質(zhì)性偏差。在分層二重抽樣下,雙重遺漏估計量的構(gòu)成要素使用再加權(quán)擴張估計量構(gòu)造。另一方面,組合式遺漏估計量較為復雜,其抽樣方差使用分層刀切抽樣方差估計量近似估計,組合式遺漏估計量有偏,因此需估計其偏差。

現(xiàn)實意義表現(xiàn)在三個方面。第一,組合式遺漏估計量除了包括未登記在普查人口名單但登記在覆蓋調(diào)查人口名單的單重遺漏人口外,還包括了雙重遺漏人口,即同時遺漏于這兩份人口名單的人口,因而覆蓋了總體絕大部分遺漏人口(未包括覆蓋調(diào)查與普查非獨立情況下的雙重遺漏估計量)。未包括這類雙重遺漏估計量基于兩點考慮,一是筆者已經(jīng)研究過這類雙重遺漏估計量,二是估計這類雙重遺漏人口數(shù)需要雙系統(tǒng)估計量和人口統(tǒng)計分析模型估計的總體實際人口數(shù),以及覆蓋調(diào)查數(shù)據(jù)處理誤差數(shù)據(jù)。中國目前缺少這些數(shù)據(jù),而本文為未來中國使用組合式遺漏估計量提供參考;第二,為構(gòu)造組合式遺漏估計量,需要比對兩份人口名單,在比對過程中,可查明遺漏者特征、遺漏原因、遺漏程度及遺漏在總體中的分布情況;第三,組合式遺漏估計量利用了普查人口名單輔助信息,使用高質(zhì)量的、相關(guān)程度高的輔助信息是統(tǒng)計推斷的一個重要原則。這三個方面的情況表明,組合式遺漏估計量有望提高人口普查遺漏估計精度,應(yīng)用于政府統(tǒng)計部門人口普查遺漏估計。

本文的創(chuàng)新體現(xiàn)在兩個方面,一是使用樣本普查小區(qū)的普查人口名單和覆蓋調(diào)查人口名單的原始數(shù)據(jù),全面演示了組合式遺漏估計量的計算過程;二是討論了組合式遺漏估計量的統(tǒng)計性質(zhì)。尚未發(fā)現(xiàn)政府統(tǒng)計部門和國內(nèi)外其他學者研究人口普查遺漏估計量的統(tǒng)計性質(zhì)。

二、文獻綜述

估計人口普查遺漏的方法較多,如剩余法、行政記錄比較法和覆蓋調(diào)查法等[2]?；谑Ｓ喾ǖ钠詹檫z漏估計量為雙系統(tǒng)估計量與基于比率估計量的普查正確登記人口數(shù)估計量之差[4-7]。普查正確登記人口數(shù)估計量為最終普查登記人口數(shù)與普查正確登記率的乘積。普查正確登記率為普查正確登記人口數(shù)估計量與至少填寫了姓名和兩個調(diào)查項目的普查登記人口數(shù)估計量之比。剩余法的優(yōu)勢是能夠利用已經(jīng)算出的結(jié)果快速取得普查遺漏估計值,劣勢是無法分析遺漏者的人口統(tǒng)計特征。行政記錄比較法的基本思想是,將總體中的相關(guān)人口行政記錄合并為一份名單,以家庭為抽樣單位,從這份名單中抽取若干家庭,并與人口普查微觀記錄進行比較。如果某人被登記在這份名單,而未登記在普查記錄中,收判斷這個人在普查中遺漏。這種方法的優(yōu)勢是確保了行政記錄人口名單獨立于人口普查,而且無需花費數(shù)據(jù)采集成本,劣勢是獲取行政記錄人口名單難度大,另外還需要剔除行政記錄人口名單中的重復人口,以及定期更新行政記錄人口名單。覆蓋調(diào)查是為了估計普查遺漏和其他指標在人口普查之后進行的一項抽樣調(diào)查,其抽樣單位不是人或住房單元,而是小范圍的地理區(qū)域,例如中國的某一普查小區(qū)。在覆蓋調(diào)查中,一方面可以得到樣本普查小區(qū)的普查人口名單,另一方面還可以獲得覆蓋調(diào)查人口名單。普查人口名單由樣本普查小區(qū)每個住房單元填寫的普查表匯編而成,覆蓋調(diào)查人口名單由樣本普查小區(qū)每個住房單元填寫的覆蓋調(diào)查表編制而成,依據(jù)這兩份調(diào)查人口名單可以構(gòu)造單重遺漏估計量、雙重遺漏估計量和組合式遺漏估計量。覆蓋調(diào)查的優(yōu)勢是,可以構(gòu)造多種形式的遺漏估計量,劣勢是需要采取措施確保普查與覆蓋調(diào)查之間的獨立性,否則據(jù)此構(gòu)造的遺漏估計量存在交互作用偏差。

單重遺漏估計量是目前許多國家估計普查遺漏的主要方法[8-10]。除美國和加拿大等少數(shù)國家和地區(qū)外,包括中國、南非和盧旺達在內(nèi)的許多國家使用此方法[11-12]。單重遺漏估計量為樣本普查小區(qū)的未匹配人口與其抽樣權(quán)數(shù)的線性估計量。未匹配人口是指登記在覆蓋調(diào)查人口名單而未登記在普查人口名單的遺漏人口[13],這里有一個假設(shè),即樣本普查小區(qū)的覆蓋調(diào)查人口名單本身未遺漏人口。如果這一假設(shè)不成立,那就意味著,有些人同時遺漏于這兩份調(diào)查人口名單(稱為雙重遺漏人口)。單重遺漏估計量未包括雙重遺漏人口,因而低估遺漏人口數(shù)。雖然覆蓋調(diào)查規(guī)模比普查小許多,而且調(diào)查員比普查員專業(yè)性更強,但覆蓋調(diào)查依然可能遺漏人口。美國人口普查局設(shè)計的2000年、2010年和2020年人口普查質(zhì)量評估方案中均有一章專門論述覆蓋調(diào)查遺漏人口的處理方法。中國2000年、2010年和2020年覆蓋調(diào)查樣本規(guī)模分別為602個、402個和406個普查小區(qū)。如此小的樣本規(guī)模,原則上應(yīng)該做到無人口遺漏,然而實際上覆蓋調(diào)查難以100%登記人口,這意味著,當構(gòu)造普查遺漏估計量時,不能想當然認為覆蓋調(diào)查不遺漏人口,而應(yīng)該包括雙重遺漏人口。與單重遺漏人口所不同的是,雙重遺漏人口既未登記在普查人口名單,也未登記在覆蓋調(diào)查人口名單,因此找到雙重遺漏人口難度更大。要找到雙重遺漏人口,首先,要估計研究區(qū)域內(nèi)的雙重遺漏人口數(shù),如果估計結(jié)果為零,就放棄尋找雙重遺漏人口;其次,如果估計結(jié)果不為零,就通過社區(qū)負責人篩選可能的雙重遺漏人口,一般來說,雙重遺漏人口主要是本社區(qū)的無固定住所者、犯罪人員、在逃人員、獨住者和不關(guān)心國家大事者;最后,在確定雙重遺漏人口后,通過面訪調(diào)查或者人口行政資料(如戶籍資料)獲得其姓名、性別、年齡、文化程度、婚姻狀況、職業(yè)等人口特征。

三、人口普查遺漏估計理論

(一)組合式遺漏估計量及其方差估計

為便于計算,將組合式遺漏估計量(Combined Omission Estimator,COE)的單重遺漏估計量和統(tǒng)計獨立情況下的雙重遺漏估計量放在同一等概率人口層(用v表示)建立,盡管單重遺漏估計量無需在等概率人口層構(gòu)造,等概率人口層是通過對總體按照體現(xiàn)人口在普查中登記概率大小的變量進行分層得到的。變量值相同或大致相同的人在同一層,分層在覆蓋調(diào)查樣本抽取后實施,以確保樣本中的每一個人有一個對應(yīng)的層。分層目標是減少組合式遺漏估計量的異質(zhì)性偏差[14]。分層變量越多,層內(nèi)的同質(zhì)性越強,異質(zhì)性偏差越小,每一層的覆蓋調(diào)查樣本量也越少,估計遺漏人口數(shù)的抽樣方差越大,因此,在確定對總體人口等概率分層變量及其變量值時,要綜合考慮層內(nèi)的異質(zhì)性偏差、抽樣方差及覆蓋調(diào)查的樣本規(guī)模。

為構(gòu)造組合式遺漏估計量,引入不完整二維列聯(lián)表,將同一樣本普查小區(qū)的普查人口名單和覆蓋調(diào)查人口名單的比對結(jié)果填入該表,見表1。

表1 等概率人口層v的不完整二維列聯(lián)表

比對通常在同一樣本普查小區(qū)內(nèi)進行,其目標之一是查找登記在覆蓋調(diào)查人口名單的人是否也登記在普查人口名單。如果未登記在普查人口名單,就判斷這個人在普查中遺漏。為避免虛增遺漏,兩份名單的比對范圍應(yīng)由此樣本普查小區(qū)擴大到周圍區(qū)域,即搜索區(qū)域(2)最理想的比對范圍是全國普查微觀記錄數(shù)據(jù)庫。在這個數(shù)據(jù)庫搜索覆蓋調(diào)查人口名單的人口,確定其是否在普查人口名單中登記。如果未登記,則作為普查遺漏人口。,判斷是否能夠在搜索區(qū)域的普查人口名單找到與覆蓋調(diào)查人口名單一致的人,如果未找到則判作覆蓋調(diào)查人口名單的這個人在普查中遺漏,如果找到了則不能夠判作遺漏,有些人在普查中并未登記在所屬的樣本普查小區(qū),而是登記在其搜索區(qū)域。在這種情況下,如果只是將比對范圍局限在此樣本普查小區(qū),勢必虛增遺漏人口。

(1)

(2)

(3)

(4)

表明,在普查中登記的人認為已經(jīng)答復了普查問題,因而相比未參加普查的人,更加不愿意參加覆蓋調(diào)查,使Y11v的人口數(shù)減少,從而高估等概率人口層v的實際人口數(shù)。

(5)

意味著,在普查中登記的人相比未登記的人更加意識到普查的重要性,從而更加愿意參加覆蓋調(diào)查,使Y11v的人口數(shù)增加,從而低估等概率人口層v的實際人口數(shù)。本文構(gòu)造的雙重遺漏估計量為式(3)。

如果采取第二種方法,在同時滿足兩個假設(shè)條件的情況下(覆蓋調(diào)查與普查獨立,通過在這兩項調(diào)查中使用不同的調(diào)查方法、不同的調(diào)查員和不同組織機構(gòu)實現(xiàn);總體中的每一個人有同樣的概率登記在普查或覆蓋調(diào)查中,通過對總體人口等概率分層來實現(xiàn)),(Yv,p1+v,p+1v)的最大似然函數(shù)為:

(6)

式(6)中的p1+v,p+1v分別為等概率人口層的人在普查和覆蓋調(diào)查中登記的邊際概率。

依據(jù)最大似然估計方法,得到式(6)中的Yv,P1+v,P+1v的最大似然估計量為:

(7)

考慮到覆蓋調(diào)查實際為抽樣調(diào)查,式(1)可寫作式(8):

(8)

(9)

式(9)中,h表示第一重抽樣層的任意層,h=1,2,…,H;g是對第一重樣本進一步分的任意層,g=1,2,…,Gh。如果第一重樣本小區(qū)i進入層g,那么xhgi=1,否則為0;如果繼續(xù)進入第二重樣本,那么shgi=1,否則為0;yhgiv為第二重樣本普查小區(qū)hgi在等概率人口層v的觀察值;αhgi為經(jīng)過兩重抽樣后樣本普查小區(qū)hgi的抽樣權(quán)數(shù),其功能是將樣本指標擴張到總體指標。

式(8)為復雜估計量,采用分層刀切抽樣方差估計量近似計算其抽樣方差,表示為:

(10)

(11)

(12)

(13)

式(13)中,Chg,chg分別表示交叉層hg的普查小區(qū)集合和樣本普查小區(qū)集合;Nh,nh分別是層h的普查小區(qū)總數(shù)目和樣本普查小區(qū)數(shù)目;Mhg,mhg分別是層hg的普查小區(qū)總數(shù)目和樣本普查小區(qū)數(shù)目。

(14)

(15)

式(15)中的協(xié)方差計算公式如下:

(16)

(二)組合式遺漏估計量的統(tǒng)計性質(zhì)

1.無偏性

關(guān)于估計量的無偏性,應(yīng)該從理論上證明[21]。如果估計量相對簡單,那么完成其無偏性理論證明較容易,例如,簡單隨機抽樣下樣本均值是總體均值的無偏估計量,但當估計量復雜時,完成其無偏性的理論證明則會遇到較大困難。從式(8)和式(9)可以看出,要從理論上證明組合式遺漏估計量的無偏性是一項較難完成的工作。首先,這兩個估計量的概率分布無從知曉;其次,在分層二重抽樣下,采用雙重擴張估計量構(gòu)造,尤其是組合式遺漏估計量中的雙重遺漏估計量是一個分數(shù)估計量,而且分母與分子都是依據(jù)雙重擴張估計量構(gòu)造[22]。鑒于這兩個遺漏估計量難以從理論上進行無偏性證明,于是本文采用模擬的方法予以討論。首先,根據(jù)抽樣方法確定可能的樣本個數(shù),計算每個樣本的組合式遺漏估計值;其次,計算所有可能樣本的組合式遺漏估計值的平均值,將其作為組合式遺漏估計量的數(shù)學期望;最后,將組合式遺漏估計量的估計值作為其真實值,依據(jù)偏差公式(估計量的均值與真實值之差)計算這兩個估計量的偏差,如果偏差為0,則為無偏估計量,反之為有偏估計量。組合式遺漏估計量可能為有偏估計量,需計算其均方誤差。

2.有效性

有效性是指估計量與總體參數(shù)的離散程度。如果兩個估計量都是無偏的,那么離散程度較小的估計量相對來說是有效的,離散程度用方差來衡量。從數(shù)理統(tǒng)計理論來看,討論估計量有效性的前提條件是這兩個估計量均為無偏估計量。單重遺漏估計量和組合式遺漏估計量是同一總體人口普查遺漏參數(shù)的兩個估計量。在后面的模擬研究中,發(fā)現(xiàn)這兩個遺漏估計量的偏差均不為零,即它們?yōu)橛衅烙嬃?。然?并不意味著對這兩個有偏估計量就不能進行有效性比較,仍可以使用均方誤差來比較它們的有效性。

3.一致性

一致性是指隨著樣本規(guī)模的增大,估計量越來越接近總體參數(shù)的真值。在人口普查質(zhì)量評估中,覆蓋調(diào)查的樣本規(guī)模受到嚴格限制,達不到一致性所要求的樣本規(guī)模。因此,單重遺漏估計量和組合式遺漏估計量不具備一致性。

4.充分性

如果一個估計量利用了需要估計的總體參數(shù)的全部信息,則稱其具有充分性。從理論角度論證估計量的充分性有兩種方法,一是從充分估計量的定義出發(fā),確定既定估計量取值后樣本的條件分布;二是使用因子分解定理證明,使用這兩種方法的前提條件是總體的概率函數(shù)已知,然而,要從理論上論證單重遺漏估計量和組合式遺漏估計量是否為充分估計量十分困難。困難之處在于,人口普查標準時點上的人口總體的概率函數(shù)未知,既無法確定條件分布,也無法使用因子分解定理,因此,在這里只從直觀上討論單重遺漏估計量和組合式遺漏估計量的充分性。在兩份名單獨立的情況下,為了估計總體遺漏,應(yīng)該用到的全部信息包括登記在覆蓋調(diào)查人口名單但未登記在普查人口名單的人,同時未登記在這兩份調(diào)查人口名單的人。單重遺漏估計量利用了第一種信息,雙重遺漏估計量利用了第二種信息,組合式遺漏估計量則同時利用了第一種和第二種信息,可見,單重遺漏估計量并沒有利用全部信息,不具備充分性,而組合式遺漏估計量利用了全部信息,具有充分性。因此,從充分性看,組合式遺漏估計量優(yōu)于單重遺漏估計量和雙重遺漏估計量。

相較于對估計量統(tǒng)計性質(zhì)的重視,政府統(tǒng)計部門更關(guān)注估計量是否覆蓋了研究總體。在人口普查凈誤差估計中,盡管用來估計總體實際人口數(shù)的雙系統(tǒng)估計量是一個有偏估計量,但1980年以來,部分國家一直使用雙系統(tǒng)估計量[23-25]。美國在人口普查質(zhì)量評估報告均未討論雙系統(tǒng)估計量的統(tǒng)計性質(zhì),主要原因在于不僅工作難度大,而且對實際工作并無多大益處。

四、實證與模擬

第一部分為實證分析,為政府統(tǒng)計部門提供組合式遺漏估計量及其抽樣方差、偏差和均方誤差估計量完整的計算程序,推廣組合式遺漏估計量;第二部分為模擬分析,討論單重遺漏估計量和組合式遺漏估計量的無偏性。

(一)實證分析

1.基本情況及數(shù)據(jù)來源

以XXX省級單位XXX市XXX區(qū)XXX街道為實證范圍,估計該街道2010年普查遺漏人口數(shù)。采取分層二重抽樣,抽樣單位為普查小區(qū),從街道的100個普查小區(qū)中抽取8個。在第一重抽樣中,按城鄉(xiāng)屬性,將普查小區(qū)分為兩層,即城市層(h=1)和鄉(xiāng)村層(h=2),使用Nh表示層h的普查小區(qū)總數(shù),nh為從層h抽取的第一重樣本普查小區(qū)數(shù);在第二重抽樣中,對抽取的第一重樣本普查小區(qū),按照住房單元數(shù)目進一步分為兩層,即70～90個層(g=1),以及70個以下和90個以上層(g=2),Mhg和mhg分別表示層hg的普查小區(qū)總數(shù)和樣本普查小區(qū)數(shù)。

采用較為簡單的2X2分層模式有兩個原因。一是實證對象為郊區(qū),既有城市普查小區(qū),也有鄉(xiāng)村普查小區(qū),因此選擇城鄉(xiāng)屬性對普查小區(qū)分層具有合理性,中國國家統(tǒng)計局一直按照城鄉(xiāng)對普查小區(qū)分層;二是中國一個普查小區(qū)平均包括80個住房單元,根據(jù)普查小區(qū)實際規(guī)模對第一重樣本普查小區(qū)分為上面的兩個新g層,也具有一定合理性。實際中,采取何種分層模式與數(shù)據(jù)的可得性有直接關(guān)系。

在覆蓋調(diào)查樣本普查小區(qū)抽取之后和使用組合式遺漏估計量估計普查遺漏人口數(shù)之前,需要做的一項工作是對總體人口使用性別、年齡、戶籍所在地、文化程度、民族等變量進行等概率分層。不難看出,分層變量越多,等概率人口層內(nèi)部的同質(zhì)性就越強,但是,在覆蓋調(diào)查樣本規(guī)模一定的情況下,分層變量過多會導致有些等概率人口層的抽樣方差過大,為避免抽樣方差過大,本文只選擇性別對總體人口分層。

有關(guān)抽樣及其結(jié)果和樣本數(shù)據(jù),見表2和表3。

表2 抽樣層、樣本和抽樣權(quán)數(shù)

表3 層及樣本數(shù)據(jù)

表2中的數(shù)據(jù)有兩個用途,一是用來計算表4中的單元的加權(quán)人數(shù),以及表5的遺漏估計值;二是用來計算表6進入第二重樣本的每個樣本普查小區(qū)的復制權(quán)數(shù),以及表7的單重遺漏估計值和組合式遺漏估計值的抽樣方差。

表4 等概率人口層的單元加權(quán)人數(shù)

表5 等概率人口層及總體的遺漏估計值

表6 第二重樣本普查小區(qū)復制權(quán)數(shù)

表7 基于抽樣方差的變異系數(shù)估計值

表3中的y10v,y01v,y11v是在比對同一樣本普查小區(qū)的普查人口名單和覆蓋調(diào)查人口名單,以及將比對結(jié)果劃分到男性層和女性層的結(jié)果。為提高匹配人口數(shù)y11v,比對范圍至少應(yīng)該擴大到樣本普查小區(qū)的鄰近小區(qū)。由于沒有獲得鄰近普查小區(qū)的這兩份人口名單,比對只在樣本普查小區(qū)內(nèi)進行,y11v可能偏低。

2.估計結(jié)果

根據(jù)式(9)和表2～3樣本數(shù)據(jù),計算式(8)等號右邊每個單元的加權(quán)人口數(shù),計算結(jié)果見表4:

依據(jù)式(8)和表4計算男性層和女性層及總體的普查遺漏人口數(shù),計算結(jié)果見表5:

從表5可以看出:(1)存在雙重遺漏人口。這便是提出組合式遺漏估計量的原因,雙重遺漏人口大多在普查和覆蓋調(diào)查期間外出經(jīng)商或旅游,或者故意躲避調(diào)查員。(2)如果采取組合式遺漏估計量,估計的總體遺漏人口數(shù)為173人;如果采取單重遺漏估計量,估計的總體遺漏人口數(shù)為170人?？梢?單重遺漏估計量低估總體遺漏人口數(shù)3人。(3)無論是采取單重遺漏估計量還是組合式遺漏估計量,男性遺漏人口數(shù)均多于女性遺漏人口數(shù),例如,如果采取組合式遺漏估計量,男性遺漏人口數(shù)為107人,而女性只有66人,可見,相比女性,男性更容易在普查中遺漏,這源于兩方面的原因:一方面,男性外出經(jīng)商、務(wù)工的人數(shù)多于女性,男性是流動人口的主要人群,普查員上門登記時,難以遇到他們,因此男性比女性更容易在普查中遺漏;另一方面,男性對人口普查的重視程度不及女性,認為人口普查與自身利益關(guān)系不大,因而不愿意抽出專門時間接受普查員調(diào)查,有意或無意躲避普查,造成遺漏,而女性比起男性更愿意接受調(diào)查。以上情況表明,在制定人口普查方案時,對男性應(yīng)該給予足夠的重視,采取有效措施防止男性普查遺漏。

計算遺漏估計值的抽樣方差。使用表2和式(13)計算復制權(quán)數(shù),結(jié)果見表6:

基于式(10)和式(15)以及表4～6數(shù)據(jù),得到等概率人口層及總體的單重和組合式遺漏估計值的抽樣方差等,結(jié)果見表7:

從表7可以看出,使用單重遺漏估計量估計的男性層、女性層及總體的變異系數(shù)分別為0.18、0.34、0.20;使用組合式遺漏估計量估計的變異系數(shù)分別為0.19、0.33、0.19。除男性層外,使用組合式遺漏估計量得到的女性和總體的遺漏人口數(shù)估計值的變異系數(shù)均小于相應(yīng)的單重遺漏估計量,表明組合式遺漏估計量的估計精度高于單重遺漏估計量。因此,應(yīng)該選擇組合式遺漏估計量。

(二)模擬分析

為了進一步比較單重遺漏估計量和組合式遺漏估計量的抽樣估計精度,對這兩個有偏估計量,要考慮其偏差,不能只依據(jù)其抽樣方差來判斷其抽樣估計精度,而要使用均方誤差表示其抽樣估計精度,采用模擬方法實現(xiàn)這個目標。根據(jù)前文理論中模擬分析的步驟,計算單重遺漏估計量和組合式遺漏估計量的偏差,討論單重遺漏估計量和組合式遺漏估計量的無偏性問題。

由于單重漏登估計量及雙重漏登估計量的偏差均不為零,需進一步計算其均方誤差及變異系數(shù)。結(jié)果見表8。單重遺漏估計量男性層、女性層、總體的均方誤差分別為546.03、579.63、1 629.7;組合式遺漏估計量男性層、女性層、總體的均方誤差分別為496.89、551.81、1 456.82。單重遺漏估計量男性層、女性層、總體的變異系數(shù)分別為0.198、0.321、0.209;組合式遺漏估計量男性層、女性層、總體的變異系數(shù)分別為0.191、0.317、0.200。

表8 基于均方誤差的變異系數(shù)估計值

表8表明三點重要信息,一是單重遺漏估計量及組合式遺漏估計量,其偏差均不為零,因而它們都是有偏估計量,應(yīng)使用均方誤差表示其抽樣估計精度;二是無論是男性層、女性層以及總體,使用單重遺漏估計量的偏差均大于組合式遺漏估計量的偏差,例如,男性層使用單重遺漏估計量的偏差為13人,組合式遺漏估計量的偏差為10人,與其未包括雙重遺漏估計量有直接關(guān)系,導致估計結(jié)果與真實值差距較大;三是基于均方誤差計算的變異系數(shù)來看,單重遺漏估計量估計的男性層、女性層及總體的變異系數(shù)分別為0.198、0.321、0.209,而組合式遺漏估計量的變異系數(shù)分別為0.191、0.317、0.200,可見組合式遺漏估計量的變異系數(shù)均小于單重遺漏估計量,表明采用均方誤差表示抽樣估計精度,組合式遺漏估計量仍然優(yōu)于單重遺漏估計量。

五、結(jié) 語

雖然政府統(tǒng)計部門設(shè)法在人口普查中登記完全,但普查遺漏無法避免,當遺漏的人口數(shù)比重復登記的人口數(shù)多時,表現(xiàn)為凈遺漏,當在普查中重復登記的人口數(shù)多于遺漏的人口數(shù)時,表現(xiàn)為凈多報。遺漏是凈遺漏的主要構(gòu)成部分,由于重復登記可能抵消遺漏,所以遺漏比起凈遺漏更能反映普查數(shù)據(jù)的質(zhì)量。凈遺漏為零,可能意味著沒有一個人遺漏,也沒有一個人重復登記,或者是遺漏和重復登記相互抵消,也就是說,從凈遺漏中無法區(qū)分出遺漏和重復登記數(shù)量。政府統(tǒng)計部門組織人口普查質(zhì)量評估工作的目標主要是通過估計的遺漏和重復登記數(shù)目來發(fā)現(xiàn)人口普查登記工作中的漏洞,從而更好地完成下次人口普查登記工作任務(wù)。

使用組合式遺漏估計量替代單重遺漏估計量有其必然性,然而,由于它需要對總體人口等概率分層,所以完成這種替代需要政府統(tǒng)計部門根據(jù)本國人口特點和覆蓋調(diào)查樣本規(guī)模設(shè)計相適應(yīng)的分層方案,以減少其異質(zhì)性偏差。

組合式遺漏估計量優(yōu)勢明顯。首先,除了包括登記在覆蓋調(diào)查而未登記在普查中的單重遺漏人口外,還包括同時遺漏于這兩項調(diào)查的雙重遺漏人口,因而估計值更接近真實值;其次,它不只能夠查明單重遺漏人口的特征、居住位置及其遺漏程度,還能查明雙重遺漏人口的這些情況,這對未來普查操作方案的改進具有重要意義。單重遺漏人口信息登記在覆蓋調(diào)查表,檢查該調(diào)查表可以知悉其姓名、性別、年齡、受教育程度、與戶主關(guān)系、普查時點居住地、覆蓋調(diào)查時點居住地、戶籍所在地。通過研究區(qū)域內(nèi)的負責人組織的入戶調(diào)查等手段可以查找到雙重遺漏人口,并獲悉其人口統(tǒng)計特征變量值和居住位置變量值。

組合式遺漏估計量由單重遺漏估計量和覆蓋調(diào)查與普查相互獨立情況下的雙重遺漏估計量組成。單重遺漏估計量構(gòu)造的關(guān)鍵是這兩項調(diào)查名單的比對質(zhì)量。如果比對程序不合理,或者兩項調(diào)查名單登記的人口信息不完整,就可能影響比對效果,錯誤地將匹配人口當作未匹配人口,或者將未匹配人口當作匹配人口,從而產(chǎn)生比對誤差。雙重遺漏估計量建立的前提是覆蓋調(diào)查與普查獨立,否則產(chǎn)生交互作用偏差。交互作用偏差源于普查與覆蓋調(diào)查之間的因果相關(guān)性以及等概率人口層中的人口在普查與覆蓋調(diào)查中登記概率的異質(zhì)性。因此,在使用組合式遺漏估計量之前,要考慮到比對誤差和交互作用偏差是否存在,如果存在,則要采取恰當方法將其列入,否則將低估或高估總體普查遺漏人口數(shù)。

統(tǒng)計與信息論壇2024年2期

統(tǒng)計與信息論壇的其它文章: 獨立監(jiān)管、激勵協(xié)同:糧食社會責任儲備管理研究; 數(shù)字普惠金融與農(nóng)村居民共同富裕:影響效應(yīng)與作用機制; 現(xiàn)代產(chǎn)業(yè)鏈韌性評價及提升路徑; 中國城市碳排放績效:動態(tài)分解、空間差異與影響因素; 中國金融周期與經(jīng)濟周期的非對稱波動特征及聯(lián)動關(guān)系研究; 中國高等教育治理研究的多元特征、演進體系與前沿趨勢