喬曉春
(北京大學(xué) 人口研究所,北京 100871)
每年年初國家統(tǒng)計局都會在《國民經(jīng)濟和社會發(fā)展統(tǒng)計公報》上發(fā)布上一年年末全國總?cè)丝?、上一年全年出生人口、死亡人口、出生率、死亡率和自然增長率。除了人口普查年份外,公布的歷年數(shù)據(jù)均是通過當(dāng)年全國人口抽樣調(diào)查結(jié)果推算得出。
一些基層計劃生育工作者在上個世紀80年代和90年代都發(fā)現(xiàn)出生人口存在嚴重漏報(傅世珍,1989;孫學(xué)禮等,1993)。1990年人口普查結(jié)束后國家統(tǒng)計局發(fā)現(xiàn)1982年以來根據(jù)歷次人口變動抽樣調(diào)查得出的出生人口存在很大程度的漏報,從而基于普查數(shù)據(jù)對1983年到1989年期間歷年曾經(jīng)公布過的出生率進行了重新調(diào)整,比如將1983年出生率從18.22‰調(diào)整到20.19‰,1986年從20.77‰提高到22.43‰,1989年的從20.83‰調(diào)整到21.58‰(1)1990年人口普查之前公布的出生率參見國家統(tǒng)計局人口統(tǒng)計司編:《中國人口統(tǒng)計年鑒(1990)》,北京:科學(xué)技術(shù)文獻出版社,1991年,第612-613頁;調(diào)整后的出生率參見國家統(tǒng)計局人口統(tǒng)計司編:《中國人口統(tǒng)計年鑒(1991)》,北京:中國統(tǒng)計出版社,1992年,第369頁。。
正是由于1990年人口普查發(fā)現(xiàn)1980年代調(diào)查出生人口漏報率非常嚴重,1990年以后國家統(tǒng)計局接受了之前的教訓(xùn),不再等到下次普查結(jié)束后再重新修訂之前公布的數(shù)據(jù),而是在當(dāng)年數(shù)據(jù)公布之前就先行進行調(diào)整。比如,1993年和1994年人口變動抽樣調(diào)查結(jié)束后,根據(jù)事后質(zhì)量抽查發(fā)現(xiàn)1993年和1994年出生漏報率分別為6.9%和6.4%,分別影響出生率1.12和0.98個千分點。然而,由于“感到”出生人口調(diào)查難度逐年加大,瞞報和漏報越來越嚴重,統(tǒng)計局在考慮事后質(zhì)量抽查估計誤差基礎(chǔ)上,進一步選取調(diào)查誤差和抽樣誤差的上限進行修正,“盡了最大(努力提升)上調(diào)幅度”,將1993和1994年出生率在直接調(diào)查結(jié)果的基礎(chǔ)上分別上調(diào)了2.51和2.38個千分點(賈同金等,1995),從而將1993和1994年出生率從調(diào)查得到的15.58‰和15.32‰,直接提升到了公布時的18.09‰和17.70‰(見表1)。根據(jù)1995年1%人口抽樣調(diào)查直接計算得到的1994年10月1日至1995年9月30日出生率為13.53‰,總和生育率為1.46(2)這兩個數(shù)據(jù)是通過《中國人口統(tǒng)計年鑒1996》第二部分“1995年全國1%人口抽樣調(diào)查數(shù)據(jù)”中第108頁表2-18和第76頁表2-6的(樣本)總?cè)丝谟嬎愕玫降?。。這些結(jié)果無論與統(tǒng)計局1993年和1994年公布的出生率比,還是與1990年人口普查得出的2.31的總和生育率比,都顯得過低了。最終,統(tǒng)計局將1995年的出生率調(diào)整為17.12‰,提升了3.6個千分點,但并未對外給出總和生育率的估計。按照這樣的上調(diào)幅度,整個90年代平均每年補進了200多萬的出生人口,估計十年中累計補了2000多萬出生人口。
在2000年第五次人口普查開始之前,盡管政府各部門都期望能把出生人口和生育率搞準,但各部門都有自己的擔(dān)心。統(tǒng)計部門擔(dān)心真實調(diào)查結(jié)果得不出人為上調(diào)進去的2000多萬出生人口;計劃生育部門則害怕突然多出2000多萬出生孩子(喬曉春,1999),因為在計劃生育的統(tǒng)計數(shù)據(jù)中并不存在多生的這2000多萬人(3)因為如果真的在人口普查時多出2000多萬的出生人口,則意味著計劃生育部門工作的失職或失敗。為了在2000年普查開始之前摸清出生人口底數(shù),國家計生委于1998年在全國范圍內(nèi)開展了出生人口的“清理清查”工作,但并未發(fā)現(xiàn)存在大量漏報的出生人口。。普查結(jié)果出來后,這2000多萬補進去的出生人口人并沒有出現(xiàn)。然而,由于以往歷年人口數(shù)據(jù)已經(jīng)公布,不允許將已經(jīng)公布的總?cè)丝谥匦陆迪聛恚罱K將多出的這部分人以普查登記漏報的名義補充到了公布的全國總?cè)丝谥?喬曉春,2002)。最終國家統(tǒng)計局也承認,2000年人口普查全國共計漏掉了2322萬人(4)在國家統(tǒng)計局于2002年8月份出版的《中國2000年人口普查資料》(中國統(tǒng)計出版社)編輯說明中明確指出:“本資料總?cè)丝?即通過個案數(shù)據(jù)匯總后得到的人口)為124261萬人,比國家統(tǒng)計局根據(jù)快速匯總(或2000年第五次全國人口普查主要數(shù)據(jù)公報)發(fā)布的總?cè)丝?26583萬人少2322萬人”。。此時,官方并未承認“這2000多萬出生人口實際上并不存在”,而是認為這2000多萬人被人口普查漏掉了。
2000年第五次全國人口普查短表中得到的出生人口為1411.5萬人,總?cè)丝跒?24261.2萬,出生率為11.39‰;從長表中得到的樣本出生人口為118.2萬,樣本總?cè)丝跒?1806.7萬人,直接計算的出生率為10.03‰,樣本計算結(jié)果比總體計算結(jié)果低了1.4個千分點。即使使用總體計算結(jié)果,出生率仍然很低,因為普查之前已經(jīng)公布的1999年出生率為14.64‰,出生人數(shù)為1834萬。而用樣本數(shù)據(jù)直接計算得出的總和生育率更是遠遠低于人們的預(yù)期,只有1.22。國家統(tǒng)計局有關(guān)人員認為“總和生育率低于計劃生育政策水平,……,似乎難以解釋”,并認為“普查實際登記的0-9歲人口存在一定程度的漏報”(張為民等,2003)。
表1 官方公布的1984到2020年年末全國總?cè)丝?、出生率和出生人?萬人,‰)
上世紀80和90年代形成的“調(diào)查出生人口嚴重漏報”的觀念在2000年人口普查繼續(xù)被強化了,并在官方和學(xué)者的頭腦中固化了。從2000年以后統(tǒng)計局仍然不公布每年人口抽樣調(diào)查直接得出的出生率,而是跟普查之前一樣,經(jīng)過上調(diào)后才公布。比如,官方公布的2001年和2002年出生率分別為13.38‰和12.86‰,均比直接計算得出的結(jié)果高出了2個千分點左右(5)根據(jù)2002和2003年發(fā)布的《中國人口統(tǒng)計年鑒》中2001年和2002年全國人口抽樣調(diào)查數(shù)據(jù),2001年直接調(diào)查得到的樣本出生人口為13853人,全部樣本人口為1220559人;2002年調(diào)查到的樣本出生人口為13668人,樣本總?cè)丝跒?258951人。用樣本出生人口除以樣本總?cè)丝诙叻謩e為11.35‰和10.86‰?!赌觇b》的編輯說明中提到,公布的出生率是“經(jīng)加權(quán)后匯總”得出的結(jié)果。盡管加權(quán)后的結(jié)果會與直接計算的結(jié)果有所不同,但差異不會這樣大,而且不會全部偏向同一個方向,且偏離的程度基本一致。。這里存在的一個問題是,盡管認為出生存在漏報,但是漏報率并不是一成不變的,官方在調(diào)查數(shù)據(jù)基礎(chǔ)上上調(diào)出生人口或出生率時肯定會對漏報率給出判斷,但這種判斷是否準確是不得而知的。
表1給出的是2020年國家統(tǒng)計局公布的數(shù)據(jù),從中可以看出,出生率從1987年達到最高值后逐年開始下降,在個別年份存在小的波動,到2010年達到最低值。這意味著官方認為在計劃生育的作用下中國人口出生率一直是持續(xù)下降的。2010年以后出生率和出生人數(shù)開始出現(xiàn)小幅上升,只是在2013年底出臺的“單獨二孩”政策和2015年底出臺的“全面二孩”政策后的2014年和2016年出生率和出生人口均有一定的提升,隨后的一年又開始下降。
2020年第七次全國人口普查結(jié)束以后,國家統(tǒng)計局對2011年到2019年這十年公布的出生率再次進行了調(diào)整,并對初期的結(jié)果進行了大幅度的上調(diào),同時也對政策調(diào)整后1-2年的出生人口進行了大幅度的上調(diào)(喬曉春,2021),國家統(tǒng)計局于2021年在《2021中國統(tǒng)計摘要》中公布了調(diào)整后的結(jié)果(中國統(tǒng)計出版社,2021)。
“七普”數(shù)據(jù)發(fā)布后,官方公開承認人口普查得出的1.3的總和生育率是準確的,登記的1200萬出生人口是準確的,這是三十年來官方第一次承認普查登記的出生人口和總和生育率是正確的。官方也公布了普查漏報率,只有0.05%(6)本次普查漏報率低主要有以下幾個原因:一是將現(xiàn)有人口和戶籍人口同時登記,從而讓人戶分離人口在現(xiàn)住地和戶籍地都進行登記,大大避免了人戶分離人口的漏登;二是以往普查人們由于擔(dān)心計劃生育超生處罰,出生人口和嬰幼兒漏報非常嚴重,而本次普查是在已經(jīng)全面放開二孩政策或計劃生育處罰幾乎已經(jīng)消失的情況下進行的,從而導(dǎo)致出生漏報會大大降低;三是本次普查第一次登記了身份證號,從而可以將普查登記人口與公安身份證登記系統(tǒng)數(shù)據(jù)進行比對,大大避免了人頭的丟失;四是第一次使用大數(shù)據(jù)手段將普查登記數(shù)據(jù)與政府相關(guān)數(shù)據(jù)和互聯(lián)網(wǎng)數(shù)據(jù)進行比對。盡管以上四個原因會在很大程度上保證本次普查數(shù)據(jù)相對以往普查更為準確,但并不能保證數(shù)據(jù)絕對準確。這里講的只是“相對準確”。,這意味著普查整體上數(shù)據(jù)質(zhì)量較高,這為我們估計以往的出生人口提供了好的基礎(chǔ)和條件。本文的目的就是利用本次人口普查數(shù)據(jù),結(jié)合2000年和2010年第五和第六次全國人口普查數(shù)據(jù),對以往三十多年來中國歷年的出生人口(7)本文沒有估計(粗)出生率,原因是出生率不僅由出生人口決定,還與總?cè)丝谝?guī)模有關(guān)。對出生人口的重新估計隱含著總?cè)丝谝矔S之變化。因為本文不涉及對總?cè)丝跀?shù)的估計,所以也不會涉及對出生率的估計。進行重新估計。
本文將主要使用2000、2010和2020年三次全國人口普查包括現(xiàn)役軍人的分性別和年齡人口數(shù)據(jù);為了計算隊列存活率,本研究還使用了這三次人口普查分性別和年齡死亡率,用來估計隊列存活率;為了將跨年出生隊列轉(zhuǎn)為日歷年內(nèi)出生隊列,還利用了三次人口普查出生人口在出生月份上的分布數(shù)據(jù)。
三次普查的漏登率分別為1.81%,0.12%和0.05%。單純從漏登率上可以大體判斷,2020年第七次人口普查準確性最高,其次是2010年第六次人口普查,2000年第五次人口普查登記質(zhì)量會相對差一些(8)因為2000年人口普查給出的漏登率并不是事后質(zhì)量抽查得出的漏登率,而是基于以往各年公布的人口總數(shù)推算出的人口普查總?cè)丝诤推詹閷嶋H登記總?cè)丝诘牟町愑嬎愠鰜淼?,所以這一結(jié)果并不能真實反映普查的登記質(zhì)量。。這樣,本文對三次普查分性別和年齡人口數(shù)據(jù)準確性的判斷,與普查整體質(zhì)量高低的判斷基本一致。
本文對出生人口數(shù)的估計是分性別和分隊列進行的。估計的思路很簡單,即使用逆存活率方法回推各隊列人口出生人數(shù),再將隊列出生人口轉(zhuǎn)換為年度出生人口。這里假定中國人口是封閉的,至少2020年時0-34歲男性和女性各年齡人口在之前的年份不存在萬人以上的國際凈遷移(9)因為本文使用的不同性別、不同年齡人口以萬人為單位,而不是以個人為單位,所以萬位以下的數(shù)據(jù)波動對估計結(jié)果沒有影響。。
如果t表示觀測時間(一般為三次普查的標準時點),x表示年齡,B(t-x)表示t年x歲隊列人口在t-x時間出生時的人口數(shù),Px(t)表示人口普查時t年x歲人口數(shù),l0/Lx(t)為生命表上出生人口活到x歲時的逆存活率。這樣可以根據(jù)下面的公式來估計t年x歲人口Px(t)在出生時的人數(shù),即:
(1)
因為三次人口普查標準時點都是11月1日0時,所以2000年普查時點上x歲人口與2010年x+10歲人口和2020年x+20歲人口為同一隊列。如果要估計1992年11月1日到1993年10月31日出生隊列的孩子數(shù),在同一隊列可以找到三個對應(yīng)的數(shù)據(jù),即2000年普查時7歲人口、2010普查時17歲人口和2020年普查時27歲人口。我們需要在這三個人口數(shù)中選一個“基準人口”,即相對更為準確的人口,依此來反推該隊列的出生人口。
圖1 跨越三次普查的人口出生隊列圖(注:橫軸為出生時間,縱軸為年齡)
這樣,出生隊列可以分為三段(見圖1)。一是估計2010年11月到2020年10月之間出生的人口,只能依靠2020年普查0-9歲的“一點數(shù)據(jù)”;二是估計2000年11月到2010年 10月出生的人口,可以在2010年普查和2020年普查找到“兩點數(shù)據(jù)”;三是估計2000年10月之前的出生人口,可以借助2000年、2010年和2020年普查的“三點數(shù)據(jù)”。如果只有“一點數(shù)據(jù)”,該數(shù)據(jù)只能作為“基準人口”,如果有兩點或三點數(shù)據(jù),則需要從中確定一個“基準人口”。
確定基準人口將依據(jù)三個假設(shè):(1)盡管普查時任何一個年齡人口都同時存在漏報和重報,但我們假定漏報的程度遠遠大于重報的程度;(2)同一隊列兩點數(shù)據(jù)之間的一致性程度越強,意味著數(shù)據(jù)越準確;(3)2020年第七次人口普查分性別和年齡人口數(shù)據(jù)的準確性程度好于2000年和2010年普查。
要想利用公式(1)來估計出生人口,還需要求出各個時間段上人口從0歲活到x歲、從x歲活到x+10歲和從x+10歲活到x+20歲的隊列存活率。我們將參照國家統(tǒng)計局公布的全國分性別人口預(yù)期壽命,結(jié)合統(tǒng)計局公布的2000、2010和2020年分性別和年齡死亡率,以及聯(lián)合國給出的(西區(qū))模型生命表,估計出修正的三次普查生命表,并將相鄰兩次普查的生存人年數(shù)進行平均,作為普查間隊列存活率的估計;將2000、2010和2020年生命表中0到x歲存活率作為普查時點前x年出生人口估計時使用的存活率。由于各時間段的“隊列存活率”是間斷的,我們通過回歸將各段存活率進行整合后得出三個普查時點上出生人口活到x歲的逆存活率,并依此反推隊列出生人口。
按照同一出生隊列在2000、2010和2020年三個普查時點上給出相應(yīng)的分性別和年齡人口數(shù)(見表2)。在這里,201811-201910指的是從2018年11月1日到2019年10月31日出生的人口隊列(其余類推)。
在全國人口處于封閉狀態(tài)假設(shè)下,同一出生隊列人口也是“封閉”的。如果每次普查涵蓋完整、準確的全國分性別、分年齡人口,即不存在性別和年齡漏報、重報和錯報的話,同一隊列人口數(shù)量變化只受存活率的影響。因為存活率總是小于1的,所以隊列人口數(shù)會隨著時間推移、在經(jīng)歷各次人口普查時不斷減少。這樣的話,每個隊列人口從出生到經(jīng)歷第一次普查時的x歲,到第二次普查時的x+10歲,再到第三次普查時的x+20歲,每一間隔存活率是可以計算出來的,而且各段存活率的乘積就是從出生到2020年x+20歲時完整隊列存活率。然而,由于普查存在漏報、重報和錯報,準確的存活率不能直接從歷次普查分年齡人口數(shù)據(jù)中得出,但可以利用各次普查獲得的死亡人口或死亡率,通過生命表的形式估計出來。
表2 按出生年月、普查年份、性別和年齡分的隊列人口數(shù)(萬人)
從人口普查中能夠拿到的數(shù)據(jù)是分性別和年齡死亡率或存活率。使用三次普查給出的普查時點前一年全國分性別和年齡死亡率直接計算簡略生命表,得出的分性別人口預(yù)期壽命與國家統(tǒng)計局公布的預(yù)期壽命差異很大(見表3)。這意味著普查登記的死亡人口有明顯的漏報。為此,需要對死亡率進行調(diào)整,使其得出的預(yù)期壽命與國家公布的預(yù)期壽命盡可能一致。
生命表的具體調(diào)整方法是,將國家公布的分年齡死亡率與聯(lián)合國發(fā)布的西區(qū)模型生命表(10)United Nations Population Division,https://www.un.org/development/desa/ pd/data/model-life-tables中預(yù)期壽命與統(tǒng)計局公布預(yù)期壽命對應(yīng)的生命表死亡率進行比較,并計算各年齡組死亡率的相對差值,即:
死亡率相對差值 =(模型死亡率-普查死亡率)/普查死亡率
用字母表示為:
(2)
這里Dx表示x歲死亡率相對差值,Mx表示x歲模型死亡率,Sx表示x歲普查死亡率。
表3 直接計算、國家公布和作者估計的三次普查分性別預(yù)期壽命(歲)
對死亡率分兩段進行調(diào)整,第一段是對低年齡死亡率調(diào)整,即0、1和5歲三個年齡,結(jié)合國家公布的當(dāng)時嬰兒死亡率和5歲以下兒童死亡率和模型生命表相應(yīng)年齡死亡率進行調(diào)整;第二段對10歲以后各個年齡組的Dx進行擬合。在這里將確切年齡x作為自變量,死亡率相對差值Dx作為因變量,通過多個函數(shù)擬合(包括線性、對數(shù)、二次、三次、復(fù)合和增長函數(shù)),選取確定性系數(shù)R2值最高的三次(cubic)函數(shù)作為擬合函數(shù),計算分年齡死亡率相對差值的估計值(用字母dx表示)。再根據(jù)公式(2),求出分年齡死亡率的估計值(用mx表示)mx=(dx+ 1)Sx,這個估計值得出的是確切年齡x=10、15、20、....、100歲的各年齡死亡率。
同樣,根據(jù)表2給出的隊列人口數(shù),用同一隊列后一次普查年齡為x+10歲人口除以前一次普查x歲人口,或用2020年普查x+20歲人口除以2000年普查x歲人口,我們稱為“實際存活率”(12)這里的“實際存活率”并不意味著是真實的存活率,而是用實際數(shù)據(jù)、按計算存活率的方法得出的結(jié)果。。因為要計算實際隊列存活率,同一隊列必須至少有兩個觀測值,而2020年普查時0到9歲人口只有一個觀測值,所以無法計算隊列存活率。這樣就只能計算2020年10歲以上人口隊列的實際存活率。這樣的話,2020年10歲到19歲隊列每個隊列可以計算一個實際存活率;2020年20歲及以上的每個隊列可以計算三個隊列存活率,一個是從2000年到2010年存活率,另一個是從2010年到2020年存活率,還有一個是2000年到2020年存活率(男性見表4,女性見表5)。
將實際存活率與理論存活率進行比較,可以做隊列人口實際存活率和理論人口存活率的一致性檢驗,這里我們定義了“隊列一致性系數(shù)”,它是用實際存活率除以理論存活率再減去1,具體計算公式為:
(3)
在這里rx值越接近0,意味著隊列的一致性越好,離0的距離越遠意味著一致性越差;如果rx大于0意味著后一次普查人數(shù)相對多一些,小于0意味著后一次普查人數(shù)相對少一些。
表4 男性按隊列分的理論存活率、實際存活率和一致性系數(shù)
從經(jīng)驗上看,人口普查數(shù)據(jù)誤差有以下幾個特點:(1)嬰幼兒漏報率比較嚴重,而且隨著年齡增長漏報率會迅速下降,而且絕大多數(shù)漏報人口在10年后會出現(xiàn)(13)這里假定不存在流動人口的漏報。;(2)女性嬰幼兒的漏報比男性嬰幼兒更嚴重;(3)流動人口存在一定程度漏報,但隨著登記對象的改變(14)這里指的是普查登記對象從2000年以前登記常住人口改為之后普查按現(xiàn)有人口和戶籍人口同時登記。,2010年和2020年普查流動人口漏報率大幅度降低,特別是2020年普查流動人口幾乎不存在漏報。流動人口年齡通常分布在16-52歲,30歲為最高值,如果存在漏報,會影響到這些年齡;(4)整體上看數(shù)據(jù)質(zhì)量最好、漏報率最低的是2020年普查,其次是2010年普查,相對差一些的是2000年普查。
表5 女性按隊列分的理論存活率、實際存活率和一致性系數(shù)
結(jié)合一致性系數(shù)和普查數(shù)據(jù)誤差的特點,如果一致性系數(shù)為正值的,可以理解為前一次普查存在一定程度的漏報,因為后一次普查比前一次普查漏報率低,而且通常年齡越大漏報率越低(特別是嬰幼兒階段),所以可以假定后一次普查數(shù)據(jù)是準確的。如果一致性系數(shù)為負值,基本上都是同一隊列前一次普查人數(shù)多于后一次普查人數(shù)。產(chǎn)生這種情況往往比較難理解,也很難給出確切的判斷。盡管認為后一次普查比前一次普查數(shù)據(jù)更準,但通常情況下前一次普查存在大量重報的可能性也并不大,此時很大可能還是后一次普查在這些年齡上存在漏報(15)這個判斷只適用于一般情況,在特殊情況或特定年齡段也會出現(xiàn)前一次普查重報比較嚴重的情況。比如,2010-2020年男性15-25到21-31這7個隊列和女性15-25到24-34這10個隊列的一致性系數(shù)均為負值,或者說前一次普查人數(shù)明顯多于后一次普查人數(shù),這里很大可能是2010年普查相應(yīng)年齡存在重報,而不是漏報。原因是如果看2000年到2020年男性5-25歲到11-31歲,女性5-25歲到13-34歲隊列數(shù)據(jù)的一致性非常高,而恰恰2010年數(shù)據(jù)與相鄰兩次普查數(shù)據(jù)不一致,這說明2010年普查數(shù)據(jù)很大可能存在問題。。如果是三點數(shù)據(jù),因為同一隊列會有三個一致性系數(shù),我們可以兩兩進行比較,做一致性的相互認證,這樣一致性比較強的數(shù)據(jù)可能更為真實或準確。用隊列一致性系數(shù)來檢驗同一隊列不同時間上數(shù)據(jù)的一致性,最終目的是要判斷哪個時點上的數(shù)據(jù)相對更準確一些,并將這個相對準確的數(shù)據(jù)定義為“基準人口”。在給定的假設(shè)下來判斷數(shù)據(jù)漏報或重報,存在一定的風(fēng)險。為了“安全”起見,我們設(shè)置多種可能性,即給出多個“基準人口”的選項。如果一個隊列只有一個觀測數(shù)據(jù),則該數(shù)據(jù)本身就是基準人口。下面設(shè)定三類基準人口:
基準人口1:假定普查數(shù)據(jù)只存在漏報、不存在重報或漏報大于重報,那么在只有兩個觀測數(shù)據(jù)的同一隊列上,如果一致性系數(shù)大于0,選擇期末人口;如果一致性系數(shù)小于0,選擇期初人口。若同一隊列有三個數(shù)據(jù),則選取一致性系數(shù)絕對值最大的;如果該值為正值則選期末人口、該值為負值選期初人口;如果只有一個觀測數(shù)據(jù),這個數(shù)據(jù)本身就是基準人口?;鶞嗜丝?基本上是同一隊列中人口數(shù)最多的那個數(shù)(16)理論上講,存在最大數(shù)并不是基準人口的情況,但這種情況發(fā)生的可能性小,至少本數(shù)據(jù)中不存在。。
基準人口2:三個觀測數(shù)據(jù)中的一致性最高(即一致性系數(shù)絕對值最小)的一對數(shù)據(jù),如果系數(shù)大于0,取期末人口;系數(shù)小于0,取期初人口,基本上也是人口最多的的那個數(shù);若為兩個觀測數(shù)據(jù),同樣是一致性系數(shù)大于0,選擇期末人口;一致性系數(shù)小于0,選擇期初人口,或取二者的最大值;一個觀測數(shù)據(jù)的隊列取該數(shù)據(jù)本身?;鶞嗜丝?只是在針對三個觀測點數(shù)據(jù)進行選取時,與基準人口1不一樣?;鶞嗜丝?實際上選出的是一致性最好的一對數(shù)據(jù)中數(shù)值最大的數(shù)。
基準人口3:以2020年數(shù)據(jù)為基準人口。這實際上相當(dāng)于假定2020年數(shù)據(jù)最為準確的。
以上每一種基準人口選取方法對應(yīng)一個估計結(jié)果,但三種方法里絕大多數(shù)的基準人口是一致的,只有個別隊列是不一致的。針對不一致的基準人口,同一隊列可以估計出不同的出生人口,這相當(dāng)于存在一個“波動區(qū)間”,當(dāng)然這不是統(tǒng)計意義上的置信區(qū)間。
同一出生隊列只要選定一個基準人口,就可以通過逆存活率方法推出該對列出生人口,使用的一般公式為:
比如2010年5歲基準人口為Px(t)= P5(2010),出生時人口為B(2010-5)=B(2005)。此時,逆存活率為100000/L5(2010),出生人口計算公式為:
實際上,這里的0-5歲存活率L5(2010)/l0(2010)只是2010年生命表人口存活率,而不是隊列存活率,因此將其作為隊列存活率則存在一定的誤差。
如果基準人口是2020年15歲人口,此時對B(2005)的估計公式就要改為:
同樣道理,如果基準人口為2020年28歲人口,該人口在2000年為8歲,2010年為18歲,出生人口的估計公式為:
在這里,三個逆存活率中后兩項均為兩次普查生命表平均存活率,而第一項則是2000年普查存活率。之所以第一項用的是2000年普查存活率,而不是兩次普查平均存活率的原因是本文并未估計1990年普查生命表。這是因為1990年普查時點為7月1日,與2000年普查時點11月1日不一致,所以1990年普查x歲人口與2000年普查x+10歲人口并不是同一隊列,這樣無法計算隊列存活率。但是,這里用2000年普查數(shù)據(jù)計算逆存活率存在的一個最大問題是,反推的時間越長,存活率的誤差也會越大。好在,后面我們會對這里計算出的逆存活率做進一步的修正。
這里還需要注意的是,三個逆存活率仍然是假定的隊列存活率,而不是真實隊列存活率。
如果將2020年所有分年齡人口作為基準人口來反推出生人口,則需要計算2020年年齡為0-34歲人口從出生活到x歲的逆存活率l0/Lx,此時需要計算三個分段函數(shù):
1.2020年年齡為0-9歲隊列逆存活率 =l0/Lx(2020),x = 0,1,2,....,9
2.2020年年齡為10-19歲隊列逆存活率等于:
3.2020年年齡為20-34歲隊列逆存活率等于:
把三段整合在一起就得到了2020年所有0到34歲人口從出生活到2020年時的逆存活率(見表6的計算值)。仔細分析逆存活率的變化會發(fā)現(xiàn)3段逆存活率并不是連續(xù)的,而是存在明顯的跳躍或間斷,這是因為我們是用三個普查年份生命表存活率得出的結(jié)果,而且三段逆存活率反映出了時期存活率的特點,即內(nèi)部一致性很強,而外部一致性很差。為此,為了保證隊列的一致性,我們用三次函數(shù)進行了擬合(見圖2上面的兩個圖),擬合效果也非常好,其中男性擬合函數(shù)的確定性系數(shù)為0.981,女性為0.971,并得出了擬合函數(shù)的估計結(jié)果。由于2020年生命表直接計算的0歲、1歲和2歲逆存活率隊列結(jié)果和時期結(jié)果時間較近,所以差異不大,因此在估計的逆存活率中保留了計算值結(jié)果,而未采用估計值(見表6中2020年0-x歲逆存活率的估計值)。
表6 從出生存活到三個普查年份相應(yīng)年齡逆存活率的計算值和估計值
(續(xù)表6)
圖2 按性別分的從出生存活到2010和2020年x歲的逆存活率擬合結(jié)果 數(shù)據(jù)來源:表6中的計算值
按照同樣思路也得出了2010年各年齡人口反推出生人口時的逆存活率,點的分布同樣存在間斷。我們用二次函數(shù)進行了擬合(圖2中下方兩個圖),擬合得出的男性確定性系數(shù)為0.957,女性為0.940,并用擬合函數(shù)得出估計結(jié)果。同樣在估計結(jié)果中保留了0、1、2歲的原始計算值。
如果用2000年生命表直接計算時期逆存活率,很明顯它會與隊列逆存活率存在差異,我們根據(jù)2010年的擬合結(jié)果,按照同樣的相對增量調(diào)整了2000年的逆存活率,并將其作為隊列逆存活率(見表6)。
根據(jù)以上給出的計算公式,一旦給定了基準人口和相應(yīng)的逆存活率,就可以估計出所有隊列的出生人口。表7給出的是按基準人口1估計的隊列出生人口。表8給出的是按基準人口2和3估計的隊列出生人口數(shù),這里刨除了與表7相同的隊列。
表7 按基準人口1估計的隊列出生人口數(shù)(萬人)
(續(xù)表7)
表8 按基準人口2和基準人口3估計的隊列出生人口數(shù)(萬人)
現(xiàn)在需要將隊列出生人口轉(zhuǎn)換為年度出生人口。轉(zhuǎn)換的辦法是將每一隊列出生人口在前一年11月和12月份出生的人與在當(dāng)年1月到10月份出生的人分離開來,然后將每個隊列11月和12月出生人口與上一個隊列同一年1月到10月出生人口合并,得到一個完整日歷年出生人口。這里的關(guān)鍵是如何將11月和12月份出生的人從隊列出生人口中分離出來。
圖3 四次普查11和12兩個月出生人口占一年內(nèi)出生人口的比例(單位為1) 數(shù)據(jù)來源:中國統(tǒng)計出版社出版的1990、2000、2010和2020年《人口普查資料》
首先,給出1990、2000、2010和2020年四次全國人口普查出生人口在月份上的分布。在這里,2000、2010和2020年人口普查出生人口均為普查前一年11月1日到普查當(dāng)年10月31日出生的嬰兒,而1990年普查是1989年1月到12月的出生人口。根據(jù)這個數(shù)據(jù)分性別計算11月和12月出生人口占普查統(tǒng)計的一年出生人口的比例(見圖3)。如果出生人口在一年內(nèi)各個月份分布均勻的話,每兩個月出生的人口應(yīng)該占全部人口的1/6,即16.7%。很明顯,11和12兩個月出生占比明顯高于平均占比,特別是2000年普查得出的這兩個月出生人口占全部出生人口的四分之一還多。我們在這四個時間點上做線性內(nèi)插得出這期間所有各日歷年11和12月份出生人口所占比例。1990年之前幾年的比例是用線性外推得到的。
根據(jù)估計出來的11和12月出生人口占比,將其應(yīng)用到由基準人口1估計出的隊列出生人口,按照日歷年將其分解為前一年11和12月份出生人口和當(dāng)年1到10月份出生人口兩部分,然后再將同一年兩部分人口相加,得到男性和女性全年出生人口(見表9)。
表9 按照日歷年份和基準人口1估計的分性別出生人口(萬人,%)
(續(xù)表9)
同樣,針對基準人口2和基準人口3計算出分性別的隊列出生人口。使用同樣的分解比例,得到按日歷年分的出生人口(見表10)。
根據(jù)以上的估計過程和假設(shè),我們可以看出三個基準人口估計出的出生人口在1986-1995年期間存在一定的差異,在1995年以后是完全一致的。我們認為基準人口2估計出的結(jié)果更為可信,因為它是選擇多點數(shù)據(jù)中一致性最強的數(shù)據(jù)作為基準人口。跟基準人口1相比,基準人口2估計出的出生人口數(shù)更少一些;跟基準人口3比,基準人口2和基準人口3估計出的結(jié)果差異也非常小(只有1992年二者相差的略多一些)。從估計結(jié)果的準確度看,對早期出生人口的估計,由于逆存活率時間跨度長,誤差會更大一些,但因為同一隊列有三個點數(shù)據(jù)可以做一致性認證,所以由此選取的基準人口更為準確;相反對近期出生人口的估計,盡管逆存活率誤差小,但因為不能做多個數(shù)據(jù)的一致性檢驗,往往基準人口的不確定性會更大一些。好在本次普查數(shù)據(jù)準確性還是比較高,從而導(dǎo)致基準人口的偏差(特別是漏報)不會太大。
為了方便將估計的出生人口與國家公布數(shù)據(jù)進行比較,表10也給出了官方公布的出生人口(17)這實際上是由官方公布的出生率推出的出生人口。,圖4給出了官方公布的歷年出生人口和按基準人口2估計的出生人口。從中可以看出,估計的出生人口從1986到1990年一直處在高位。盡管1990年第四次人口普查以后,官方已經(jīng)大幅度上調(diào)了1980年代的出生率,但從估計的結(jié)果看,上調(diào)的幅度還遠遠不夠,其中官方估計的1986到1988年出生人口比本文估計的出生人口少了100多萬,1989和1990年少了200到300萬人。正是由于1990年人口普查時才發(fā)現(xiàn)1980年代調(diào)查出生人口漏報率非常嚴重,最終導(dǎo)致統(tǒng)計局從1991年開始每年都大幅度上調(diào)出生率。
不幸的是,從1991年以后實際出生人口并沒有像官方上調(diào)的幅度那樣大,而是出現(xiàn)了大幅度下降,從而導(dǎo)致官方公布的出生人口大大高于本文估計的結(jié)果,其中1991年多出了73萬,1992年多出了118萬,最高值出現(xiàn)在1997年,當(dāng)年公布的出生人口比本文估計的出生人口多了近400萬。盡管學(xué)術(shù)界普遍認為,從1990年以后出生率和生育率都出現(xiàn)大幅度下降,而且統(tǒng)計局公布的出生率確實也表現(xiàn)出“大幅度下降”,但出生人口下降幅度如此之大,是我們之前沒有預(yù)料到的。
表10 按不同基準人口估計的1986-2020各年出生人口和出生性別比
圖4 1986-2020官方公布的出生人口和按基準人口2估計的出生人口差異比較 數(shù)據(jù)來源:見表10
實際上,2000年普查結(jié)果可以證明這一點。2000年普查短表登記的出生人口為1412萬人,統(tǒng)計局公布的出生人口為1771萬人,如果當(dāng)時認為統(tǒng)計局公布的數(shù)據(jù)是準確的,意味著人口普查出生人口漏報率為25.4%,這實際上表現(xiàn)出了官方對當(dāng)時出生漏報水平的認識。本文估計的人數(shù)為1524萬人,比實際登記出生人口多了112萬人,比統(tǒng)計局公布結(jié)果少了247萬。如果說本文估計的結(jié)果是準確的,則意味著普查出生漏報率為7.3%(=112/1524)。在這里,盡管官方公布的結(jié)果和本文估計的結(jié)果均比2000年普查登記的出生人口數(shù)要多,但官方給出的漏報率為20.3%,遠遠超出了“真實”的漏報率。
相對本文估計結(jié)果,從1991年到2000年的十年間,官方公布的出生人口累計多出了2688萬人,這也進一步證實了2000年人口普查時全國總?cè)丝诓⒉幌窆嫉哪菢佣啵鴮嶋H登記人口數(shù)應(yīng)該比公布的全國總?cè)丝跀?shù)更為準確(18)2000年第五次全國人口普查主要數(shù)據(jù)公報公布的全國總?cè)丝跒?26583萬人,而實際登記人口為124261萬人,如果加上250萬的現(xiàn)役軍人人口,共計登記了124511萬人(參見《中國2000年人口普查資料》編輯說明)。。從估計結(jié)果看,1991年到2005年國家公布的出生人口均高于本文估計的出生人口,這意味著在這15年的時間里,官方對出生人口數(shù)量一直存在著高估。有意思的是,從2006年開始則出現(xiàn)了對出生人口的低估,而且這種低估一直持續(xù)到2017年。表10給出的2011-2019年出生人口是官方在普查之后修正過的結(jié)果,而普查之前歷年《國民經(jīng)濟和社會發(fā)展統(tǒng)計公報》公布的2011到2017年的出生人口(見表1)分別是:1604萬、1635萬、1640萬、1687萬、1655萬、1786萬、1723萬,這些結(jié)果大大低于本文估計的結(jié)果。與本文估計的結(jié)果比,2011年少了240萬,2012年少了近300萬。而官方修正以后的結(jié)果與本文估計的結(jié)果相近。
總之,由于早期受計劃生育工作、特別是“一票否決”制度的干擾,上世紀八十年代調(diào)查出生人口確實存在大幅度漏報,從而導(dǎo)致官方在公布出生數(shù)據(jù)前都會對調(diào)查結(jié)果做一些調(diào)整。從本文的估計結(jié)果看,1991年到2005年官方公布的出生率存在明顯的高估,甚至影響到了2000年第五次全國人口普查總?cè)丝诘臏蚀_性;從2005年以后則出現(xiàn)了明顯的低估。2020年普查以后官方及時地對近十年來公布的出生率進行了調(diào)整,調(diào)整結(jié)果是合理的。從本文的估計結(jié)果中可以看出,從1990年以后,我們對人口形勢一直存在著嚴重的誤判。換句話說,如果我們真的當(dāng)時就知道1990年后中國出生人口就已經(jīng)出現(xiàn)了大幅度下降,生育政策的調(diào)整在那個時候就可能提到了議事日程,“二孩政策”在2000年之前就可能出臺了。這意味著,政府調(diào)整生育政策至少晚了15年。