胡桂華,LPEZ-CARR David,黃艷華,吳 笛
(1.重慶工商大學(xué) a.數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,b.成渝地區(qū)雙城經(jīng)濟(jì)圈建設(shè)研究院,重慶 400067;2.加州大學(xué)圣芭芭拉分校 地理系,加利福尼亞 圣芭芭拉,93106)
人口普查不可避免發(fā)生遺漏,導(dǎo)致普查登記人口數(shù)低于實(shí)際人口數(shù)。人口普查遺漏指應(yīng)該在普查中登記卻未能登記在人口普查表中,要估計(jì)普查遺漏人口數(shù),需要使用其他資料(如覆蓋調(diào)查資料等),通過(guò)比對(duì)其他資料與人口普查資料來(lái)發(fā)現(xiàn)遺漏人口,或者在某假設(shè)條件下利用已有資料構(gòu)造遺漏估計(jì)量。
人口普查質(zhì)量評(píng)估實(shí)踐表明,遺漏在整個(gè)人群中的分布并非均勻。不同人口群體或地區(qū)之間的遺漏率差異較大,美國(guó)2010年人口普查遺漏估計(jì)結(jié)果顯示[1],西班牙裔少數(shù)民族的遺漏率高于非西班牙族白人;租房者遺漏率(8.5%)比有房者(3.7%)遺漏率高;在各州中,遺漏率從愛(ài)荷華州的2.6%到密西西比州的8.9%不等;大城市的遺漏率往往高于其他地區(qū)的普查遺漏率。
每次人口普查后,政府統(tǒng)計(jì)部門(mén)需要估計(jì)總?cè)丝诘倪z漏及各類別人口的遺漏。與遺漏相關(guān)的一個(gè)概念是凈遺漏。雖然遺漏和凈遺漏都反映了人口普查數(shù)據(jù)準(zhǔn)確性的各個(gè)方面,但揭示的內(nèi)容不同,遺漏反映的是本應(yīng)在本次人口普查中登記卻未登記的人數(shù);凈遺漏率反映的是遺漏人數(shù)的百分比與在普查中重復(fù)登記人數(shù)的百分比之差。比如,美國(guó)2010年全國(guó)的遺漏率為5.3%,而凈遺漏率為0.01%。
造成人口普查遺漏的原因較多,有些受訪者認(rèn)為不應(yīng)該將幼兒填寫(xiě)在人口普查表中[2]。美國(guó)2010年的一項(xiàng)專項(xiàng)調(diào)查結(jié)果表明,在低收入家庭的人口普查登記中,只有82%的家庭將幼兒填寫(xiě)在人口普查表中,另外18%的家庭認(rèn)為幼兒不應(yīng)該納入人口普查登記范圍。雖然人口普查操作指南手冊(cè)明確規(guī)定應(yīng)該登記普查日前出生的幼兒和收養(yǎng)的棄嬰,但實(shí)際上并未嚴(yán)格遵守,從而導(dǎo)致遺漏幼兒。在人口普查登記期間,有些住戶成員外出經(jīng)商、旅游或?qū)W習(xí),當(dāng)普查員多次上門(mén)登記時(shí)不在家,從而造成遺漏;有些居民住宅修建在偏遠(yuǎn)地區(qū),造成普查員登記困難,在普查表中未登記這樣的住宅及其家庭成員;有些普查員不適當(dāng)?shù)貙⒕幼∮米≌?dāng)作商業(yè)用房,從而未登記居住在其中的家庭和個(gè)人造成遺漏;多個(gè)家庭共用同一個(gè)地址和同一個(gè)門(mén)牌號(hào)碼,普查員只登記了這個(gè)地址上的一個(gè)家庭,而未登記該地址上其他應(yīng)該登記的家庭等。這些情況和其他尚未列舉的情況表明,人口普查遺漏客觀存在,有必要開(kāi)展相關(guān)研究。
筆者研究過(guò)普查人口名單及覆蓋調(diào)查人口名單情形下的完整遺漏估計(jì)量,以及這兩項(xiàng)調(diào)查人口名單和行政記錄人口名單情形下的合成遺漏估計(jì)量。完整遺漏估計(jì)量由一個(gè)單重遺漏估計(jì)量和兩個(gè)雙重遺漏估計(jì)量構(gòu)成[2];合成遺漏估計(jì)量包括兩個(gè)單重遺漏估計(jì)量、一個(gè)雙重遺漏估計(jì)量和一個(gè)三重遺漏估計(jì)量[3]。這兩種遺漏估計(jì)量適合于人口普查質(zhì)量評(píng)估水平較高的發(fā)達(dá)國(guó)家使用。本文研究的組合式遺漏估計(jì)量包括一個(gè)單重遺漏估計(jì)量和一個(gè)雙重遺漏估計(jì)量,適合于人口普查質(zhì)量評(píng)估水平相對(duì)較低的發(fā)展中國(guó)家使用。
本文研究目標(biāo)是,使用所提出的組合式遺漏估計(jì)量替代目前聯(lián)合國(guó)統(tǒng)計(jì)司建議各國(guó)使用的單重遺漏估計(jì)量,以解決后者低估總體人口普查遺漏人口數(shù)的問(wèn)題。
研究具有一定的理論意義與現(xiàn)實(shí)意義。理論意義表現(xiàn)在兩個(gè)方面:一方面,組合式遺漏估計(jì)量由單重遺漏估計(jì)量和統(tǒng)計(jì)獨(dú)立的雙重遺漏估計(jì)量構(gòu)成,雙重遺漏估計(jì)量的理論基礎(chǔ)是捕獲—再捕獲模型。為滿足該模型等概率要求,需要使用體現(xiàn)人口在普查中登記概率大小的人口統(tǒng)計(jì)特征變量和居住位置變量對(duì)總體人口分層。在等概率層構(gòu)造雙重遺漏估計(jì)量,否則產(chǎn)生異質(zhì)性偏差。在分層二重抽樣下,雙重遺漏估計(jì)量的構(gòu)成要素使用再加權(quán)擴(kuò)張估計(jì)量構(gòu)造。另一方面,組合式遺漏估計(jì)量較為復(fù)雜,其抽樣方差使用分層刀切抽樣方差估計(jì)量近似估計(jì),組合式遺漏估計(jì)量有偏,因此需估計(jì)其偏差。
現(xiàn)實(shí)意義表現(xiàn)在三個(gè)方面。第一,組合式遺漏估計(jì)量除了包括未登記在普查人口名單但登記在覆蓋調(diào)查人口名單的單重遺漏人口外,還包括了雙重遺漏人口,即同時(shí)遺漏于這兩份人口名單的人口,因而覆蓋了總體絕大部分遺漏人口(未包括覆蓋調(diào)查與普查非獨(dú)立情況下的雙重遺漏估計(jì)量)。未包括這類雙重遺漏估計(jì)量基于兩點(diǎn)考慮,一是筆者已經(jīng)研究過(guò)這類雙重遺漏估計(jì)量,二是估計(jì)這類雙重遺漏人口數(shù)需要雙系統(tǒng)估計(jì)量和人口統(tǒng)計(jì)分析模型估計(jì)的總體實(shí)際人口數(shù),以及覆蓋調(diào)查數(shù)據(jù)處理誤差數(shù)據(jù)。中國(guó)目前缺少這些數(shù)據(jù),而本文為未來(lái)中國(guó)使用組合式遺漏估計(jì)量提供參考;第二,為構(gòu)造組合式遺漏估計(jì)量,需要比對(duì)兩份人口名單,在比對(duì)過(guò)程中,可查明遺漏者特征、遺漏原因、遺漏程度及遺漏在總體中的分布情況;第三,組合式遺漏估計(jì)量利用了普查人口名單輔助信息,使用高質(zhì)量的、相關(guān)程度高的輔助信息是統(tǒng)計(jì)推斷的一個(gè)重要原則。這三個(gè)方面的情況表明,組合式遺漏估計(jì)量有望提高人口普查遺漏估計(jì)精度,應(yīng)用于政府統(tǒng)計(jì)部門(mén)人口普查遺漏估計(jì)。
本文的創(chuàng)新體現(xiàn)在兩個(gè)方面,一是使用樣本普查小區(qū)的普查人口名單和覆蓋調(diào)查人口名單的原始數(shù)據(jù),全面演示了組合式遺漏估計(jì)量的計(jì)算過(guò)程;二是討論了組合式遺漏估計(jì)量的統(tǒng)計(jì)性質(zhì)。尚未發(fā)現(xiàn)政府統(tǒng)計(jì)部門(mén)和國(guó)內(nèi)外其他學(xué)者研究人口普查遺漏估計(jì)量的統(tǒng)計(jì)性質(zhì)。
估計(jì)人口普查遺漏的方法較多,如剩余法、行政記錄比較法和覆蓋調(diào)查法等[2]?;谑S喾ǖ钠詹檫z漏估計(jì)量為雙系統(tǒng)估計(jì)量與基于比率估計(jì)量的普查正確登記人口數(shù)估計(jì)量之差[4-7]。普查正確登記人口數(shù)估計(jì)量為最終普查登記人口數(shù)與普查正確登記率的乘積。普查正確登記率為普查正確登記人口數(shù)估計(jì)量與至少填寫(xiě)了姓名和兩個(gè)調(diào)查項(xiàng)目的普查登記人口數(shù)估計(jì)量之比。剩余法的優(yōu)勢(shì)是能夠利用已經(jīng)算出的結(jié)果快速取得普查遺漏估計(jì)值,劣勢(shì)是無(wú)法分析遺漏者的人口統(tǒng)計(jì)特征。行政記錄比較法的基本思想是,將總體中的相關(guān)人口行政記錄合并為一份名單,以家庭為抽樣單位,從這份名單中抽取若干家庭,并與人口普查微觀記錄進(jìn)行比較。如果某人被登記在這份名單,而未登記在普查記錄中,收判斷這個(gè)人在普查中遺漏。這種方法的優(yōu)勢(shì)是確保了行政記錄人口名單獨(dú)立于人口普查,而且無(wú)需花費(fèi)數(shù)據(jù)采集成本,劣勢(shì)是獲取行政記錄人口名單難度大,另外還需要剔除行政記錄人口名單中的重復(fù)人口,以及定期更新行政記錄人口名單。覆蓋調(diào)查是為了估計(jì)普查遺漏和其他指標(biāo)在人口普查之后進(jìn)行的一項(xiàng)抽樣調(diào)查,其抽樣單位不是人或住房單元,而是小范圍的地理區(qū)域,例如中國(guó)的某一普查小區(qū)。在覆蓋調(diào)查中,一方面可以得到樣本普查小區(qū)的普查人口名單,另一方面還可以獲得覆蓋調(diào)查人口名單。普查人口名單由樣本普查小區(qū)每個(gè)住房單元填寫(xiě)的普查表匯編而成,覆蓋調(diào)查人口名單由樣本普查小區(qū)每個(gè)住房單元填寫(xiě)的覆蓋調(diào)查表編制而成,依據(jù)這兩份調(diào)查人口名單可以構(gòu)造單重遺漏估計(jì)量、雙重遺漏估計(jì)量和組合式遺漏估計(jì)量。覆蓋調(diào)查的優(yōu)勢(shì)是,可以構(gòu)造多種形式的遺漏估計(jì)量,劣勢(shì)是需要采取措施確保普查與覆蓋調(diào)查之間的獨(dú)立性,否則據(jù)此構(gòu)造的遺漏估計(jì)量存在交互作用偏差。
單重遺漏估計(jì)量是目前許多國(guó)家估計(jì)普查遺漏的主要方法[8-10]。除美國(guó)和加拿大等少數(shù)國(guó)家和地區(qū)外,包括中國(guó)、南非和盧旺達(dá)在內(nèi)的許多國(guó)家使用此方法[11-12]。單重遺漏估計(jì)量為樣本普查小區(qū)的未匹配人口與其抽樣權(quán)數(shù)的線性估計(jì)量。未匹配人口是指登記在覆蓋調(diào)查人口名單而未登記在普查人口名單的遺漏人口[13],這里有一個(gè)假設(shè),即樣本普查小區(qū)的覆蓋調(diào)查人口名單本身未遺漏人口。如果這一假設(shè)不成立,那就意味著,有些人同時(shí)遺漏于這兩份調(diào)查人口名單(稱為雙重遺漏人口)。單重遺漏估計(jì)量未包括雙重遺漏人口,因而低估遺漏人口數(shù)。雖然覆蓋調(diào)查規(guī)模比普查小許多,而且調(diào)查員比普查員專業(yè)性更強(qiáng),但覆蓋調(diào)查依然可能遺漏人口。美國(guó)人口普查局設(shè)計(jì)的2000年、2010年和2020年人口普查質(zhì)量評(píng)估方案中均有一章專門(mén)論述覆蓋調(diào)查遺漏人口的處理方法。中國(guó)2000年、2010年和2020年覆蓋調(diào)查樣本規(guī)模分別為602個(gè)、402個(gè)和406個(gè)普查小區(qū)。如此小的樣本規(guī)模,原則上應(yīng)該做到無(wú)人口遺漏,然而實(shí)際上覆蓋調(diào)查難以100%登記人口,這意味著,當(dāng)構(gòu)造普查遺漏估計(jì)量時(shí),不能想當(dāng)然認(rèn)為覆蓋調(diào)查不遺漏人口,而應(yīng)該包括雙重遺漏人口。與單重遺漏人口所不同的是,雙重遺漏人口既未登記在普查人口名單,也未登記在覆蓋調(diào)查人口名單,因此找到雙重遺漏人口難度更大。要找到雙重遺漏人口,首先,要估計(jì)研究區(qū)域內(nèi)的雙重遺漏人口數(shù),如果估計(jì)結(jié)果為零,就放棄尋找雙重遺漏人口;其次,如果估計(jì)結(jié)果不為零,就通過(guò)社區(qū)負(fù)責(zé)人篩選可能的雙重遺漏人口,一般來(lái)說(shuō),雙重遺漏人口主要是本社區(qū)的無(wú)固定住所者、犯罪人員、在逃人員、獨(dú)住者和不關(guān)心國(guó)家大事者;最后,在確定雙重遺漏人口后,通過(guò)面訪調(diào)查或者人口行政資料(如戶籍資料)獲得其姓名、性別、年齡、文化程度、婚姻狀況、職業(yè)等人口特征。
為便于計(jì)算,將組合式遺漏估計(jì)量(Combined Omission Estimator,COE)的單重遺漏估計(jì)量和統(tǒng)計(jì)獨(dú)立情況下的雙重遺漏估計(jì)量放在同一等概率人口層(用v表示)建立,盡管單重遺漏估計(jì)量無(wú)需在等概率人口層構(gòu)造,等概率人口層是通過(guò)對(duì)總體按照體現(xiàn)人口在普查中登記概率大小的變量進(jìn)行分層得到的。變量值相同或大致相同的人在同一層,分層在覆蓋調(diào)查樣本抽取后實(shí)施,以確保樣本中的每一個(gè)人有一個(gè)對(duì)應(yīng)的層。分層目標(biāo)是減少組合式遺漏估計(jì)量的異質(zhì)性偏差[14]。分層變量越多,層內(nèi)的同質(zhì)性越強(qiáng),異質(zhì)性偏差越小,每一層的覆蓋調(diào)查樣本量也越少,估計(jì)遺漏人口數(shù)的抽樣方差越大,因此,在確定對(duì)總體人口等概率分層變量及其變量值時(shí),要綜合考慮層內(nèi)的異質(zhì)性偏差、抽樣方差及覆蓋調(diào)查的樣本規(guī)模。
為構(gòu)造組合式遺漏估計(jì)量,引入不完整二維列聯(lián)表,將同一樣本普查小區(qū)的普查人口名單和覆蓋調(diào)查人口名單的比對(duì)結(jié)果填入該表,見(jiàn)表1。
表1 等概率人口層v的不完整二維列聯(lián)表
比對(duì)通常在同一樣本普查小區(qū)內(nèi)進(jìn)行,其目標(biāo)之一是查找登記在覆蓋調(diào)查人口名單的人是否也登記在普查人口名單。如果未登記在普查人口名單,就判斷這個(gè)人在普查中遺漏。為避免虛增遺漏,兩份名單的比對(duì)范圍應(yīng)由此樣本普查小區(qū)擴(kuò)大到周?chē)鷧^(qū)域,即搜索區(qū)域(2)最理想的比對(duì)范圍是全國(guó)普查微觀記錄數(shù)據(jù)庫(kù)。在這個(gè)數(shù)據(jù)庫(kù)搜索覆蓋調(diào)查人口名單的人口,確定其是否在普查人口名單中登記。如果未登記,則作為普查遺漏人口。,判斷是否能夠在搜索區(qū)域的普查人口名單找到與覆蓋調(diào)查人口名單一致的人,如果未找到則判作覆蓋調(diào)查人口名單的這個(gè)人在普查中遺漏,如果找到了則不能夠判作遺漏,有些人在普查中并未登記在所屬的樣本普查小區(qū),而是登記在其搜索區(qū)域。在這種情況下,如果只是將比對(duì)范圍局限在此樣本普查小區(qū),勢(shì)必虛增遺漏人口。
(1)
(2)
(3)
(4)
表明,在普查中登記的人認(rèn)為已經(jīng)答復(fù)了普查問(wèn)題,因而相比未參加普查的人,更加不愿意參加覆蓋調(diào)查,使Y11v的人口數(shù)減少,從而高估等概率人口層v的實(shí)際人口數(shù)。
(5)
意味著,在普查中登記的人相比未登記的人更加意識(shí)到普查的重要性,從而更加愿意參加覆蓋調(diào)查,使Y11v的人口數(shù)增加,從而低估等概率人口層v的實(shí)際人口數(shù)。本文構(gòu)造的雙重遺漏估計(jì)量為式(3)。
如果采取第二種方法,在同時(shí)滿足兩個(gè)假設(shè)條件的情況下(覆蓋調(diào)查與普查獨(dú)立,通過(guò)在這兩項(xiàng)調(diào)查中使用不同的調(diào)查方法、不同的調(diào)查員和不同組織機(jī)構(gòu)實(shí)現(xiàn);總體中的每一個(gè)人有同樣的概率登記在普查或覆蓋調(diào)查中,通過(guò)對(duì)總體人口等概率分層來(lái)實(shí)現(xiàn)),(Yv,p1+v,p+1v)的最大似然函數(shù)為:
(6)
式(6)中的p1+v,p+1v分別為等概率人口層的人在普查和覆蓋調(diào)查中登記的邊際概率。
依據(jù)最大似然估計(jì)方法,得到式(6)中的Yv,P1+v,P+1v的最大似然估計(jì)量為:
(7)
考慮到覆蓋調(diào)查實(shí)際為抽樣調(diào)查,式(1)可寫(xiě)作式(8):
(8)
(9)
式(9)中,h表示第一重抽樣層的任意層,h=1,2,…,H;g是對(duì)第一重樣本進(jìn)一步分的任意層,g=1,2,…,Gh。如果第一重樣本小區(qū)i進(jìn)入層g,那么xhgi=1,否則為0;如果繼續(xù)進(jìn)入第二重樣本,那么shgi=1,否則為0;yhgiv為第二重樣本普查小區(qū)hgi在等概率人口層v的觀察值;αhgi為經(jīng)過(guò)兩重抽樣后樣本普查小區(qū)hgi的抽樣權(quán)數(shù),其功能是將樣本指標(biāo)擴(kuò)張到總體指標(biāo)。
式(8)為復(fù)雜估計(jì)量,采用分層刀切抽樣方差估計(jì)量近似計(jì)算其抽樣方差,表示為:
(10)
(11)
(12)
(13)
式(13)中,Chg,chg分別表示交叉層hg的普查小區(qū)集合和樣本普查小區(qū)集合;Nh,nh分別是層h的普查小區(qū)總數(shù)目和樣本普查小區(qū)數(shù)目;Mhg,mhg分別是層hg的普查小區(qū)總數(shù)目和樣本普查小區(qū)數(shù)目。
(14)
(15)
式(15)中的協(xié)方差計(jì)算公式如下:
(16)
1.無(wú)偏性
關(guān)于估計(jì)量的無(wú)偏性,應(yīng)該從理論上證明[21]。如果估計(jì)量相對(duì)簡(jiǎn)單,那么完成其無(wú)偏性理論證明較容易,例如,簡(jiǎn)單隨機(jī)抽樣下樣本均值是總體均值的無(wú)偏估計(jì)量,但當(dāng)估計(jì)量復(fù)雜時(shí),完成其無(wú)偏性的理論證明則會(huì)遇到較大困難。從式(8)和式(9)可以看出,要從理論上證明組合式遺漏估計(jì)量的無(wú)偏性是一項(xiàng)較難完成的工作。首先,這兩個(gè)估計(jì)量的概率分布無(wú)從知曉;其次,在分層二重抽樣下,采用雙重?cái)U(kuò)張估計(jì)量構(gòu)造,尤其是組合式遺漏估計(jì)量中的雙重遺漏估計(jì)量是一個(gè)分?jǐn)?shù)估計(jì)量,而且分母與分子都是依據(jù)雙重?cái)U(kuò)張估計(jì)量構(gòu)造[22]。鑒于這兩個(gè)遺漏估計(jì)量難以從理論上進(jìn)行無(wú)偏性證明,于是本文采用模擬的方法予以討論。首先,根據(jù)抽樣方法確定可能的樣本個(gè)數(shù),計(jì)算每個(gè)樣本的組合式遺漏估計(jì)值;其次,計(jì)算所有可能樣本的組合式遺漏估計(jì)值的平均值,將其作為組合式遺漏估計(jì)量的數(shù)學(xué)期望;最后,將組合式遺漏估計(jì)量的估計(jì)值作為其真實(shí)值,依據(jù)偏差公式(估計(jì)量的均值與真實(shí)值之差)計(jì)算這兩個(gè)估計(jì)量的偏差,如果偏差為0,則為無(wú)偏估計(jì)量,反之為有偏估計(jì)量。組合式遺漏估計(jì)量可能為有偏估計(jì)量,需計(jì)算其均方誤差。
2.有效性
有效性是指估計(jì)量與總體參數(shù)的離散程度。如果兩個(gè)估計(jì)量都是無(wú)偏的,那么離散程度較小的估計(jì)量相對(duì)來(lái)說(shuō)是有效的,離散程度用方差來(lái)衡量。從數(shù)理統(tǒng)計(jì)理論來(lái)看,討論估計(jì)量有效性的前提條件是這兩個(gè)估計(jì)量均為無(wú)偏估計(jì)量。單重遺漏估計(jì)量和組合式遺漏估計(jì)量是同一總體人口普查遺漏參數(shù)的兩個(gè)估計(jì)量。在后面的模擬研究中,發(fā)現(xiàn)這兩個(gè)遺漏估計(jì)量的偏差均不為零,即它們?yōu)橛衅烙?jì)量。然而,并不意味著對(duì)這兩個(gè)有偏估計(jì)量就不能進(jìn)行有效性比較,仍可以使用均方誤差來(lái)比較它們的有效性。
3.一致性
一致性是指隨著樣本規(guī)模的增大,估計(jì)量越來(lái)越接近總體參數(shù)的真值。在人口普查質(zhì)量評(píng)估中,覆蓋調(diào)查的樣本規(guī)模受到嚴(yán)格限制,達(dá)不到一致性所要求的樣本規(guī)模。因此,單重遺漏估計(jì)量和組合式遺漏估計(jì)量不具備一致性。
4.充分性
如果一個(gè)估計(jì)量利用了需要估計(jì)的總體參數(shù)的全部信息,則稱其具有充分性。從理論角度論證估計(jì)量的充分性有兩種方法,一是從充分估計(jì)量的定義出發(fā),確定既定估計(jì)量取值后樣本的條件分布;二是使用因子分解定理證明,使用這兩種方法的前提條件是總體的概率函數(shù)已知,然而,要從理論上論證單重遺漏估計(jì)量和組合式遺漏估計(jì)量是否為充分估計(jì)量十分困難。困難之處在于,人口普查標(biāo)準(zhǔn)時(shí)點(diǎn)上的人口總體的概率函數(shù)未知,既無(wú)法確定條件分布,也無(wú)法使用因子分解定理,因此,在這里只從直觀上討論單重遺漏估計(jì)量和組合式遺漏估計(jì)量的充分性。在兩份名單獨(dú)立的情況下,為了估計(jì)總體遺漏,應(yīng)該用到的全部信息包括登記在覆蓋調(diào)查人口名單但未登記在普查人口名單的人,同時(shí)未登記在這兩份調(diào)查人口名單的人。單重遺漏估計(jì)量利用了第一種信息,雙重遺漏估計(jì)量利用了第二種信息,組合式遺漏估計(jì)量則同時(shí)利用了第一種和第二種信息,可見(jiàn),單重遺漏估計(jì)量并沒(méi)有利用全部信息,不具備充分性,而組合式遺漏估計(jì)量利用了全部信息,具有充分性。因此,從充分性看,組合式遺漏估計(jì)量?jī)?yōu)于單重遺漏估計(jì)量和雙重遺漏估計(jì)量。
相較于對(duì)估計(jì)量統(tǒng)計(jì)性質(zhì)的重視,政府統(tǒng)計(jì)部門(mén)更關(guān)注估計(jì)量是否覆蓋了研究總體。在人口普查凈誤差估計(jì)中,盡管用來(lái)估計(jì)總體實(shí)際人口數(shù)的雙系統(tǒng)估計(jì)量是一個(gè)有偏估計(jì)量,但1980年以來(lái),部分國(guó)家一直使用雙系統(tǒng)估計(jì)量[23-25]。美國(guó)在人口普查質(zhì)量評(píng)估報(bào)告均未討論雙系統(tǒng)估計(jì)量的統(tǒng)計(jì)性質(zhì),主要原因在于不僅工作難度大,而且對(duì)實(shí)際工作并無(wú)多大益處。
第一部分為實(shí)證分析,為政府統(tǒng)計(jì)部門(mén)提供組合式遺漏估計(jì)量及其抽樣方差、偏差和均方誤差估計(jì)量完整的計(jì)算程序,推廣組合式遺漏估計(jì)量;第二部分為模擬分析,討論單重遺漏估計(jì)量和組合式遺漏估計(jì)量的無(wú)偏性。
1.基本情況及數(shù)據(jù)來(lái)源
以XXX省級(jí)單位XXX市XXX區(qū)XXX街道為實(shí)證范圍,估計(jì)該街道2010年普查遺漏人口數(shù)。采取分層二重抽樣,抽樣單位為普查小區(qū),從街道的100個(gè)普查小區(qū)中抽取8個(gè)。在第一重抽樣中,按城鄉(xiāng)屬性,將普查小區(qū)分為兩層,即城市層(h=1)和鄉(xiāng)村層(h=2),使用Nh表示層h的普查小區(qū)總數(shù),nh為從層h抽取的第一重樣本普查小區(qū)數(shù);在第二重抽樣中,對(duì)抽取的第一重樣本普查小區(qū),按照住房單元數(shù)目進(jìn)一步分為兩層,即70~90個(gè)層(g=1),以及70個(gè)以下和90個(gè)以上層(g=2),Mhg和mhg分別表示層hg的普查小區(qū)總數(shù)和樣本普查小區(qū)數(shù)。
采用較為簡(jiǎn)單的2X2分層模式有兩個(gè)原因。一是實(shí)證對(duì)象為郊區(qū),既有城市普查小區(qū),也有鄉(xiāng)村普查小區(qū),因此選擇城鄉(xiāng)屬性對(duì)普查小區(qū)分層具有合理性,中國(guó)國(guó)家統(tǒng)計(jì)局一直按照城鄉(xiāng)對(duì)普查小區(qū)分層;二是中國(guó)一個(gè)普查小區(qū)平均包括80個(gè)住房單元,根據(jù)普查小區(qū)實(shí)際規(guī)模對(duì)第一重樣本普查小區(qū)分為上面的兩個(gè)新g層,也具有一定合理性。實(shí)際中,采取何種分層模式與數(shù)據(jù)的可得性有直接關(guān)系。
在覆蓋調(diào)查樣本普查小區(qū)抽取之后和使用組合式遺漏估計(jì)量估計(jì)普查遺漏人口數(shù)之前,需要做的一項(xiàng)工作是對(duì)總體人口使用性別、年齡、戶籍所在地、文化程度、民族等變量進(jìn)行等概率分層。不難看出,分層變量越多,等概率人口層內(nèi)部的同質(zhì)性就越強(qiáng),但是,在覆蓋調(diào)查樣本規(guī)模一定的情況下,分層變量過(guò)多會(huì)導(dǎo)致有些等概率人口層的抽樣方差過(guò)大,為避免抽樣方差過(guò)大,本文只選擇性別對(duì)總體人口分層。
有關(guān)抽樣及其結(jié)果和樣本數(shù)據(jù),見(jiàn)表2和表3。
表2 抽樣層、樣本和抽樣權(quán)數(shù)
表3 層及樣本數(shù)據(jù)
表2中的數(shù)據(jù)有兩個(gè)用途,一是用來(lái)計(jì)算表4中的單元的加權(quán)人數(shù),以及表5的遺漏估計(jì)值;二是用來(lái)計(jì)算表6進(jìn)入第二重樣本的每個(gè)樣本普查小區(qū)的復(fù)制權(quán)數(shù),以及表7的單重遺漏估計(jì)值和組合式遺漏估計(jì)值的抽樣方差。
表4 等概率人口層的單元加權(quán)人數(shù)
表5 等概率人口層及總體的遺漏估計(jì)值
表6 第二重樣本普查小區(qū)復(fù)制權(quán)數(shù)
表7 基于抽樣方差的變異系數(shù)估計(jì)值
表3中的y10v,y01v,y11v是在比對(duì)同一樣本普查小區(qū)的普查人口名單和覆蓋調(diào)查人口名單,以及將比對(duì)結(jié)果劃分到男性層和女性層的結(jié)果。為提高匹配人口數(shù)y11v,比對(duì)范圍至少應(yīng)該擴(kuò)大到樣本普查小區(qū)的鄰近小區(qū)。由于沒(méi)有獲得鄰近普查小區(qū)的這兩份人口名單,比對(duì)只在樣本普查小區(qū)內(nèi)進(jìn)行,y11v可能偏低。
2.估計(jì)結(jié)果
根據(jù)式(9)和表2~3樣本數(shù)據(jù),計(jì)算式(8)等號(hào)右邊每個(gè)單元的加權(quán)人口數(shù),計(jì)算結(jié)果見(jiàn)表4:
依據(jù)式(8)和表4計(jì)算男性層和女性層及總體的普查遺漏人口數(shù),計(jì)算結(jié)果見(jiàn)表5:
從表5可以看出:(1)存在雙重遺漏人口。這便是提出組合式遺漏估計(jì)量的原因,雙重遺漏人口大多在普查和覆蓋調(diào)查期間外出經(jīng)商或旅游,或者故意躲避調(diào)查員。(2)如果采取組合式遺漏估計(jì)量,估計(jì)的總體遺漏人口數(shù)為173人;如果采取單重遺漏估計(jì)量,估計(jì)的總體遺漏人口數(shù)為170人??梢?jiàn),單重遺漏估計(jì)量低估總體遺漏人口數(shù)3人。(3)無(wú)論是采取單重遺漏估計(jì)量還是組合式遺漏估計(jì)量,男性遺漏人口數(shù)均多于女性遺漏人口數(shù),例如,如果采取組合式遺漏估計(jì)量,男性遺漏人口數(shù)為107人,而女性只有66人,可見(jiàn),相比女性,男性更容易在普查中遺漏,這源于兩方面的原因:一方面,男性外出經(jīng)商、務(wù)工的人數(shù)多于女性,男性是流動(dòng)人口的主要人群,普查員上門(mén)登記時(shí),難以遇到他們,因此男性比女性更容易在普查中遺漏;另一方面,男性對(duì)人口普查的重視程度不及女性,認(rèn)為人口普查與自身利益關(guān)系不大,因而不愿意抽出專門(mén)時(shí)間接受普查員調(diào)查,有意或無(wú)意躲避普查,造成遺漏,而女性比起男性更愿意接受調(diào)查。以上情況表明,在制定人口普查方案時(shí),對(duì)男性應(yīng)該給予足夠的重視,采取有效措施防止男性普查遺漏。
計(jì)算遺漏估計(jì)值的抽樣方差。使用表2和式(13)計(jì)算復(fù)制權(quán)數(shù),結(jié)果見(jiàn)表6:
基于式(10)和式(15)以及表4~6數(shù)據(jù),得到等概率人口層及總體的單重和組合式遺漏估計(jì)值的抽樣方差等,結(jié)果見(jiàn)表7:
從表7可以看出,使用單重遺漏估計(jì)量估計(jì)的男性層、女性層及總體的變異系數(shù)分別為0.18、0.34、0.20;使用組合式遺漏估計(jì)量估計(jì)的變異系數(shù)分別為0.19、0.33、0.19。除男性層外,使用組合式遺漏估計(jì)量得到的女性和總體的遺漏人口數(shù)估計(jì)值的變異系數(shù)均小于相應(yīng)的單重遺漏估計(jì)量,表明組合式遺漏估計(jì)量的估計(jì)精度高于單重遺漏估計(jì)量。因此,應(yīng)該選擇組合式遺漏估計(jì)量。
為了進(jìn)一步比較單重遺漏估計(jì)量和組合式遺漏估計(jì)量的抽樣估計(jì)精度,對(duì)這兩個(gè)有偏估計(jì)量,要考慮其偏差,不能只依據(jù)其抽樣方差來(lái)判斷其抽樣估計(jì)精度,而要使用均方誤差表示其抽樣估計(jì)精度,采用模擬方法實(shí)現(xiàn)這個(gè)目標(biāo)。根據(jù)前文理論中模擬分析的步驟,計(jì)算單重遺漏估計(jì)量和組合式遺漏估計(jì)量的偏差,討論單重遺漏估計(jì)量和組合式遺漏估計(jì)量的無(wú)偏性問(wèn)題。
由于單重漏登估計(jì)量及雙重漏登估計(jì)量的偏差均不為零,需進(jìn)一步計(jì)算其均方誤差及變異系數(shù)。結(jié)果見(jiàn)表8。單重遺漏估計(jì)量男性層、女性層、總體的均方誤差分別為546.03、579.63、1 629.7;組合式遺漏估計(jì)量男性層、女性層、總體的均方誤差分別為496.89、551.81、1 456.82。單重遺漏估計(jì)量男性層、女性層、總體的變異系數(shù)分別為0.198、0.321、0.209;組合式遺漏估計(jì)量男性層、女性層、總體的變異系數(shù)分別為0.191、0.317、0.200。
表8 基于均方誤差的變異系數(shù)估計(jì)值
表8表明三點(diǎn)重要信息,一是單重遺漏估計(jì)量及組合式遺漏估計(jì)量,其偏差均不為零,因而它們都是有偏估計(jì)量,應(yīng)使用均方誤差表示其抽樣估計(jì)精度;二是無(wú)論是男性層、女性層以及總體,使用單重遺漏估計(jì)量的偏差均大于組合式遺漏估計(jì)量的偏差,例如,男性層使用單重遺漏估計(jì)量的偏差為13人,組合式遺漏估計(jì)量的偏差為10人,與其未包括雙重遺漏估計(jì)量有直接關(guān)系,導(dǎo)致估計(jì)結(jié)果與真實(shí)值差距較大;三是基于均方誤差計(jì)算的變異系數(shù)來(lái)看,單重遺漏估計(jì)量估計(jì)的男性層、女性層及總體的變異系數(shù)分別為0.198、0.321、0.209,而組合式遺漏估計(jì)量的變異系數(shù)分別為0.191、0.317、0.200,可見(jiàn)組合式遺漏估計(jì)量的變異系數(shù)均小于單重遺漏估計(jì)量,表明采用均方誤差表示抽樣估計(jì)精度,組合式遺漏估計(jì)量仍然優(yōu)于單重遺漏估計(jì)量。
雖然政府統(tǒng)計(jì)部門(mén)設(shè)法在人口普查中登記完全,但普查遺漏無(wú)法避免,當(dāng)遺漏的人口數(shù)比重復(fù)登記的人口數(shù)多時(shí),表現(xiàn)為凈遺漏,當(dāng)在普查中重復(fù)登記的人口數(shù)多于遺漏的人口數(shù)時(shí),表現(xiàn)為凈多報(bào)。遺漏是凈遺漏的主要構(gòu)成部分,由于重復(fù)登記可能抵消遺漏,所以遺漏比起凈遺漏更能反映普查數(shù)據(jù)的質(zhì)量。凈遺漏為零,可能意味著沒(méi)有一個(gè)人遺漏,也沒(méi)有一個(gè)人重復(fù)登記,或者是遺漏和重復(fù)登記相互抵消,也就是說(shuō),從凈遺漏中無(wú)法區(qū)分出遺漏和重復(fù)登記數(shù)量。政府統(tǒng)計(jì)部門(mén)組織人口普查質(zhì)量評(píng)估工作的目標(biāo)主要是通過(guò)估計(jì)的遺漏和重復(fù)登記數(shù)目來(lái)發(fā)現(xiàn)人口普查登記工作中的漏洞,從而更好地完成下次人口普查登記工作任務(wù)。
使用組合式遺漏估計(jì)量替代單重遺漏估計(jì)量有其必然性,然而,由于它需要對(duì)總體人口等概率分層,所以完成這種替代需要政府統(tǒng)計(jì)部門(mén)根據(jù)本國(guó)人口特點(diǎn)和覆蓋調(diào)查樣本規(guī)模設(shè)計(jì)相適應(yīng)的分層方案,以減少其異質(zhì)性偏差。
組合式遺漏估計(jì)量?jī)?yōu)勢(shì)明顯。首先,除了包括登記在覆蓋調(diào)查而未登記在普查中的單重遺漏人口外,還包括同時(shí)遺漏于這兩項(xiàng)調(diào)查的雙重遺漏人口,因而估計(jì)值更接近真實(shí)值;其次,它不只能夠查明單重遺漏人口的特征、居住位置及其遺漏程度,還能查明雙重遺漏人口的這些情況,這對(duì)未來(lái)普查操作方案的改進(jìn)具有重要意義。單重遺漏人口信息登記在覆蓋調(diào)查表,檢查該調(diào)查表可以知悉其姓名、性別、年齡、受教育程度、與戶主關(guān)系、普查時(shí)點(diǎn)居住地、覆蓋調(diào)查時(shí)點(diǎn)居住地、戶籍所在地。通過(guò)研究區(qū)域內(nèi)的負(fù)責(zé)人組織的入戶調(diào)查等手段可以查找到雙重遺漏人口,并獲悉其人口統(tǒng)計(jì)特征變量值和居住位置變量值。
組合式遺漏估計(jì)量由單重遺漏估計(jì)量和覆蓋調(diào)查與普查相互獨(dú)立情況下的雙重遺漏估計(jì)量組成。單重遺漏估計(jì)量構(gòu)造的關(guān)鍵是這兩項(xiàng)調(diào)查名單的比對(duì)質(zhì)量。如果比對(duì)程序不合理,或者兩項(xiàng)調(diào)查名單登記的人口信息不完整,就可能影響比對(duì)效果,錯(cuò)誤地將匹配人口當(dāng)作未匹配人口,或者將未匹配人口當(dāng)作匹配人口,從而產(chǎn)生比對(duì)誤差。雙重遺漏估計(jì)量建立的前提是覆蓋調(diào)查與普查獨(dú)立,否則產(chǎn)生交互作用偏差。交互作用偏差源于普查與覆蓋調(diào)查之間的因果相關(guān)性以及等概率人口層中的人口在普查與覆蓋調(diào)查中登記概率的異質(zhì)性。因此,在使用組合式遺漏估計(jì)量之前,要考慮到比對(duì)誤差和交互作用偏差是否存在,如果存在,則要采取恰當(dāng)方法將其列入,否則將低估或高估總體普查遺漏人口數(shù)。