梅 麗,王麗娜,姜全保
(西安交通大學(xué) 公共政策與管理學(xué)院,陜西 西安 710049)
隨著生育水平的下降和人口預(yù)期壽命的延長,中國人口老齡化趨勢加劇?!兜谄叽稳珖丝谄詹楣珗蟆凤@示2020年中國65歲及以上人口的數(shù)量達(dá)到1.91億,比例為13.50%,比2010年的1.19億增加了7 180萬人,提高了4.63個百分點(diǎn)。根據(jù)2000年和2010年人口普查數(shù)據(jù)計算,65歲時老年人口的預(yù)期壽命分別為15.25歲和17.53歲。老年人口數(shù)量增加、比例上升和預(yù)期壽命的延長加深了中國人口老齡化程度。對老年人口死亡水平、死亡模式和預(yù)期壽命的研究有助于對人口老齡化水平的理解。
已經(jīng)有很多學(xué)者用數(shù)學(xué)模型描述和擬合老年階段的死亡模式。比較經(jīng)典的包括岡泊茨(Gompertz)模型、[1]岡泊茨-麥克漢姆(Gompertz-Makeham)模型、[2]比爾德(Beard)模型、[3]莰尼斯托(Kannisto)模型,[4]這些模型是邏輯斯蒂(Logistic)模型[5]的特殊情況。還有冪函數(shù)形式的威布爾(Weibull)模型[6]和二次方程式(Quadratic)模型[7]等。比爾德嘗試使用一種含伽瑪(Gamma)分布的個體風(fēng)險的人口異質(zhì)性模型解釋高齡人口死亡率趨勢。[8]近年來,基于極值理論的統(tǒng)計建模方法也開始應(yīng)用于高齡人口死亡率的研究。[9-12]Watts 等人使用廣義帕累托(Generalized pareto)分布和廣義極值(Generalized extreme value)分布研究加拿大和日本人口壽命的上尾分布。[9]Li 等人利用極值理論提出了使用門限生命表(Threshold life table)對高齡人口死亡率進(jìn)行建模分析。[10]段白鴿和孫佳美基于門限生命表方法,使用岡泊茨分布和廣義帕累托分布研究了我國高齡人口死亡率變化特征。[11]段白鴿和石磊將高齡人口死亡率的極值建模方法和分層建模技術(shù)納入動態(tài)死亡率建模中,度量壽命分布的尾部風(fēng)險特征。[12]
這些參數(shù)模型具有形式簡潔、概括性強(qiáng)的優(yōu)點(diǎn),但因模型中參數(shù)較少,會降低模型的適應(yīng)范圍。例如,岡泊茨模型[1]低估了40 歲以下年輕成年人口死亡率,高估了80 歲及以上老年人口死亡率。[13]麥克漢姆提出在岡泊茨模型的基礎(chǔ)上增加一個常數(shù)項,該方法改善了年輕成年人口死亡率的擬合,但未解決高齡老年人口死亡率高估的問題。[2]解決岡泊茨模型高估高齡老年人口死亡率問題的一種簡單有效的模型是邏輯斯蒂模型。[14-17]Horiuchi 和Wilmoth 建議使用邏輯斯蒂模型來擬合85 歲及以上年齡別人口死亡率。[14]Thatcher 等人使用岡泊茨、威布爾、二次方程式、邏輯斯蒂和莰尼斯托五種模型擬合了13 個國家80-120 歲年齡別人口死亡率,發(fā)現(xiàn)莰尼斯托模型擬合效果最好。[15]Zeng 和Vaupel 使用岡泊茨、威布爾、二次方程式、海力戈曼-樸拉德(Heligman-Pollard)、邏輯斯蒂和莰尼斯托六種模型對我國1990年80-96歲年齡別人口死亡率進(jìn)行了估計,發(fā)現(xiàn)莰尼斯托模型對我國高齡人口死亡率的擬合效果比較好。[17]
鑒于已有研究對中國老年人口死亡水平和模式的關(guān)注較少,本文嘗試使用相關(guān)死亡模型,使用MATLAB R2019b 軟件實(shí)現(xiàn)對65 歲及以上老年人口死亡累計概率的擬合,檢驗(yàn)死亡模型的適用性。因此,本文使用不同年份、分城鎮(zhèn)鄉(xiāng)以及分性別數(shù)據(jù),分析并選擇出適合老年人口死亡模式的模型,并對死亡最高年齡組進(jìn)行拓展,以進(jìn)一步驗(yàn)證模型適用性。希望通過本文分析,能較為準(zhǔn)確地選擇適合中國老年人口的死亡模型,為相關(guān)研究提供方法借鑒。
目前使用特定模型擬合觀測的累計比例在人口學(xué)研究中應(yīng)用廣泛。[15][17-18]本文使用10 種累計概率分布來擬合65歲及以上人口累計死亡概率。把累計死亡概率作為一個累計分布函數(shù)(CDF),為了得到累計分布函數(shù),通過人口普查死亡數(shù)據(jù)中得到年齡別死亡率(mx),然后計算得到年齡別死亡概率,可表示為qx=;以65歲年齡為基點(diǎn),通過年齡別死亡概率計算得到年齡別存活概率,可表示為;通過年齡別存活概率,進(jìn)一步計算得到累計死亡概率L65x=1-S65x,以此作為累計分布函數(shù)。在模型中,統(tǒng)一使用θ表示尺度參數(shù),κ表示形狀參數(shù),μ表示位置參數(shù)。模型中設(shè)定死亡的起始年齡為sa,文中的年齡數(shù)字統(tǒng)一減去起始年齡,從而擬合的曲線是從0 歲開始,但實(shí)際描述的是從年齡65 歲開始的情況。具體使用的累計分布函數(shù)和公式如下:
指數(shù)分布(Exponential distribution):
伽瑪分布(Gamma distribution):
其中,γ(κ,x)是下不完全伽瑪函數(shù)(The lower incomplete gamma f unction),定義為:
岡泊茨分布(Gompertz distribution):
岡泊茨-麥克漢姆分布(Gompertz-Makeham distribution):
廣義極值分布(Generalized extreme value distribution):
逆高斯分布(Inverse Gaussian distribution):
邏輯斯蒂分布(Logistic distribution):
對數(shù)-邏輯斯蒂分布(Log-logistic distribution):
對數(shù)-正態(tài)分布(Log-normal distribution):
威布爾分布(Weibull distribution):
中國有多個部門登記死亡人口信息。國家衛(wèi)生健康委員會的人口死亡登記系統(tǒng)(負(fù)責(zé)開具和收集死亡醫(yī)學(xué)證明信息)、全員人口系統(tǒng)和全國婦幼保健機(jī)構(gòu)監(jiān)測信息系統(tǒng);公安部負(fù)責(zé)戶籍登記系統(tǒng)(公民死亡要在戶籍系統(tǒng)中注銷戶口);民政部的殯葬服務(wù)等登記死亡信息數(shù)據(jù)庫;國家統(tǒng)計局的人口普查資料和人口變動情況抽樣調(diào)查數(shù)據(jù)也調(diào)查死亡人口信息。不同來源的數(shù)據(jù)由于登記部門不同,目的不同,搜集方法不同,數(shù)據(jù)之間會存在差異。[19]
國家統(tǒng)計局公布的1982 年、1990 年、2000 年、2010 年四次人口普查資料中老年人口死亡數(shù)據(jù)漏報程度較輕,但存在老年人口死亡之后不愿申報或者延遲申報等問題。[20-22]許多學(xué)者對普查數(shù)據(jù)進(jìn)行了修正和調(diào)整,李成等使用DCMD 模型生命表系統(tǒng)發(fā)現(xiàn)2010 年男性老年人口漏報率男性為2.3%、女性為7.0%。[20]王金營和戈艷霞通過年齡移算方法得出2010 年老年人口的死亡漏報平均在5%以上。[21]崔紅艷等使用人口分析技術(shù)和與歷史數(shù)據(jù)、行政記錄資料比較等方法發(fā)現(xiàn)老年人口登記的完整性較高。[22]學(xué)者對單獨(dú)或者分別對某一次或兩次普查數(shù)據(jù)進(jìn)行研究,或者是使用不同的修正方法,很難有較統(tǒng)一的標(biāo)準(zhǔn)判斷人口死亡情況。[21][23]因此,本文直接使用1982 年、1990 年、2000 年和2010 年全國人口普查資料中65 歲及以上老年人口死亡數(shù)據(jù)以及2010 年分城鎮(zhèn)鄉(xiāng)、分性別的死亡數(shù)據(jù),計算老年人口死亡率、死亡概率和累計死亡概率等指標(biāo),選擇累計死亡概率作為累計分布函數(shù),通過lsqcurvefit函數(shù)對累計分布函數(shù)進(jìn)行擬合,得到死亡模型擬合結(jié)果。
我們通過MATLAB R2019b 軟件擬合1982 年、1990 年、2000 年和2010年65歲及以上老年人口累計死亡概率,得到模型參數(shù)和擬合結(jié)果的殘差平方(SSE)和擬合優(yōu)度(AdjustedR2)。表1至表4為10 種參數(shù)模型對65 歲及以上老年人口累計死亡概率擬合的參數(shù)結(jié)果。從擬合效果來看,岡泊茨、岡泊茨-麥克漢姆、廣義極值、邏輯斯蒂和威布爾五種模型擬合結(jié)果中SSE 較小,AdjustedR2更接近于1,擬合效果比較好。而指數(shù)模型、伽瑪模型的SSE較大,AdjustedR2較小,擬合效果較差。
表1 1982年模型參數(shù)估計值
表2 1990年模型參數(shù)估計值
表3 2000年模型參數(shù)估計值
表4 2010年模型參數(shù)估計值
通過多種參數(shù)模型擬合1982 年、1990 年、2000 年和2010 年四次普查數(shù)據(jù)老年人口累計死亡概率(見圖1)。淺藍(lán)色曲線表示由歷次人口普查死亡數(shù)據(jù)計算得到的累計死亡率概率,稱之為觀測值;其他顏色表示10 種參數(shù)模型的擬合結(jié)果,稱為擬合值。考慮SSE、AdjustedR2和擬合曲線,1982 年、2000年和2010年三次普查的擬合結(jié)果有相同趨勢,結(jié)果如下:
擬合結(jié)果較好的是邏輯斯蒂、岡泊茨-麥克漢姆、威布爾和廣義極值四種模型,模型擬合值與觀測值之間的差異絕對值較小。邏輯斯蒂模型的擬合值更接近觀測值,擬合值和觀測值之間差異的絕對值最小,在65-70歲和80-90歲之間擬合值高于觀測值,其他年齡的擬合值低于觀測值;岡泊茨-麥克漢姆、威布爾和廣義極值3 種模型的擬合值與觀測值之間的差異值變化一致,大致在65-75 歲和88-100歲之間擬合值低于觀測值,76-87歲之間擬合值高于觀測值。
擬合結(jié)果一般的是岡泊茨、逆高斯、對數(shù)-邏輯斯蒂、對數(shù)-正態(tài)四種模型,模型擬合值和觀測值之間差異大于上面模型。逆高斯、對數(shù)-邏輯斯蒂、對數(shù)-正態(tài)三種模型的擬合結(jié)果在65-75 歲和87-100 歲之間低于觀測值,76-86 歲之間高于觀測值;而岡泊茨模型擬合值和觀測值之間差異的變化與其他三種模型相反,岡泊茨模型在85 歲之后擬合值高于觀測值,例如,1982 年模型擬合結(jié)果在95歲時為0.997 9,99歲則達(dá)到1。
擬合結(jié)果較差的是指數(shù)模型和伽瑪模型,模型擬合值和觀測值之間的差異較大。指數(shù)模型的擬合值在65-83 歲之間高于觀測值,84-100 歲之間低于觀測值;而伽瑪分布在65-78 歲和90-100 歲之間的擬合值低于觀測值,79-89歲之間的擬合值高于觀測值。
相比其他三次人口普查資料中統(tǒng)計的最高死亡年齡是100歲,1990年人口普查資料中最高死亡年齡為90歲,其參數(shù)模型擬合結(jié)果也發(fā)生變化。按照模型擬合值與觀測值之間差異大小,1990年參數(shù)模型擬合結(jié)果的順序依次是岡泊茨-麥克漢姆模型、威布爾模型、廣義極值模型、邏輯斯蒂模型、逆高斯模型、對數(shù)-邏輯斯蒂模型、對數(shù)-正態(tài)模型、岡泊茨模型、指數(shù)模型和伽瑪模型。
使用參數(shù)模型對2010年分城鎮(zhèn)鄉(xiāng)的65歲及以上老年人口累計死亡概率進(jìn)行擬合(見圖2)。
圖2 2010年分城鄉(xiāng)模型擬合結(jié)果
模型擬合結(jié)果較好的是岡泊茨-麥克漢姆、廣義極值、邏輯斯蒂和威布爾四種模型,模型擬合值與觀測值之間差異絕對值較小。岡泊茨-麥克漢姆模型在城市和城鎮(zhèn)老年人口的擬合值更接近觀測值,在65-75歲和86-95歲之間的擬合值低于觀測值,其他年齡的擬合值高于觀測值。在農(nóng)村老年人口中,岡泊茨-麥克漢姆模型與威布爾模型、廣義極值模型的擬合值與觀測值之間差異變化一致。而在城市和城鎮(zhèn)老年人口中,岡泊茨-麥克漢姆、廣義極值、邏輯斯蒂和威布爾四種模型擬合值與觀測值之間差異的變化趨勢均不相同,廣義極值模型在65-69 歲、79-88 歲和97-100 歲之間的擬合值均高于觀測值;威布爾模型在65-78 歲和91-100 歲之間的擬合值低于觀測值,79-90 歲之間的擬合值高于觀測值;邏輯斯蒂模型在65-70歲和83-91歲之間的擬合值高于觀測值,71-82歲和92-100歲之間的擬合值低于觀測值。
模型擬合結(jié)果一般的是岡泊茨、逆高斯、對數(shù)-邏輯斯蒂和對數(shù)-正態(tài)四種模型,模型擬合值與觀測值之間差異絕對值大于上面模型。逆高斯、對數(shù)-邏輯斯蒂和對數(shù)-正態(tài)三種模型的擬合值與觀測值之間差異的變化是一致的,在65-79 歲和91-100 歲之間的擬合值均低于觀測值,80-90 歲之間的擬合值均高于觀測值;而岡泊茨模型擬合值和觀測值之間差異的變化與其他三種模型相反。
模型擬合結(jié)果較差的是指數(shù)模型和伽瑪模型,模型擬合值和觀測值之間差異絕對值較大。指數(shù)模型的擬合值在65-86 歲之間高于觀測值,87-100 歲之間低于觀測值。而伽瑪模型的擬合結(jié)果在65-82歲和94-100歲之間低于觀測值,83-93歲之間高于觀測值。
本文使用模型對2010年分性別的65歲及以上老年人口累計死亡概率進(jìn)行擬合(見圖3)。
圖3 2010年分性別模型擬合結(jié)果
擬合結(jié)果較好的是岡泊茨-麥克漢姆模型、威布爾模型、邏輯斯蒂模型和廣義極值模型,模型擬合值與觀測值之間差異絕對值較小。岡泊茨-麥克漢姆模型在女性老年人口的擬合值更接近觀測值。同時,在男性老年人口和女姓老年人口中,岡泊茨-麥克漢姆、威布爾和廣義極值三種模型的擬合值與觀測值之間差異變化一致,在65-75 歲和87-100 歲之間的擬合值低于觀測值,其他年齡的擬合值低于觀測值;邏輯斯蒂模型在65-70歲和82-91歲之間的擬合值高于觀測值,71-81歲和92-100歲之間的擬合值低于觀測值。
擬合結(jié)果一般的是岡泊茨模型、對數(shù)-邏輯斯蒂模型、對數(shù)-正態(tài)模型和逆高斯模型,模型擬合值與觀測值之間差異絕對值大于上面模型。逆高斯、對數(shù)-邏輯斯蒂、對數(shù)-正態(tài)三種模型的擬合結(jié)果在65-76歲和89-100歲之間低于觀測值,77-88歲之間高于觀測值;而岡泊茨模型的擬合結(jié)果在65-73歲和87-100歲之間高于觀測值,74-86歲之間低于觀測值。
模型結(jié)果較差的是指數(shù)模型和伽瑪模型,模型擬合值與觀測值之間差異絕對值較大。指數(shù)模型的擬合值在65-84歲之間高于觀測值,85-100歲之間低于觀測值。而伽瑪模型的擬合值在65-79歲和91-100歲之間低于觀測值,80-90歲之間高于觀測值。
由于中國人口普查的最高年齡組是100 歲,無法知道100 歲之后存活情況。由于聯(lián)合國模型生命表和寇爾緒曼模型生命表的年齡組拓展到130歲,因此本文將最高年齡組由100歲拓展至130歲。
本文使用2010 年人口普查數(shù)據(jù)中65 歲及以上累計死亡概率,采用不同模型預(yù)測101-130 歲的累計死亡概率,檢驗(yàn)10 種模型的擬合效果(見圖4)??梢钥闯鲋笖?shù)模型預(yù)測的累計死亡概率到130歲達(dá)到0.96,即130歲之后超過4%的人口存活,這說明指數(shù)模型低估了中國高齡老年人口累計死亡概率。伽瑪模型和岡泊茨模型預(yù)測值在100 歲之后保持不變,分別為0.86 和1,不符合人口死亡規(guī)律。岡泊茨-麥克漢姆、威布爾、邏輯斯蒂、廣義極值、逆高斯、對數(shù)-邏輯斯蒂和對數(shù)-正態(tài)七種模型中,邏輯斯蒂模型和威布爾模型,在101 歲的時候達(dá)到0.97,之后預(yù)測值隨著老年人口年齡緩慢上升,接近中國老年人口死亡規(guī)律。其他幾種模型在100 歲時的累計死亡概率較低,可能低估了死亡水平。
圖4 2010年10種模型預(yù)測結(jié)果
本文使用10種統(tǒng)計模型擬合1982年、1990年、2000年和2010年人口普查中65歲及以上老年人口累計死亡概率,分析了不同模型擬合結(jié)果以及模型擬合值與觀測值之間的差異,得到結(jié)論如下:
從模型擬合結(jié)果來看,邏輯斯蒂、岡泊茨-麥克漢姆、威布爾和廣義極值四種模型擬合結(jié)果較好。已有的研究也表明邏輯斯蒂模型可以較好地擬合老年人口死亡率,[14-15][17][24-25]廣義極值模型也能很好地反映中國高齡老年人口死亡率曲線,[11-12]岡泊茨-麥克漢姆模型相比岡泊茨模型能更好擬合老年人口死亡模式,但未解決高估高齡老年人口死亡率問題。[2][13]指數(shù)模型和伽瑪模型擬合累計分布函數(shù)效果較差,不適合擬合老年人口累計死亡概率。
從模型擬合值與觀測值之間的差異分析,發(fā)現(xiàn)不同模型的擬合值在不同年齡段存在高于或者低于觀測值的問題。岡泊茨-麥克漢姆、廣義極值、逆高斯、對數(shù)-邏輯斯蒂、對數(shù)-正態(tài)和威布爾六種模型的擬合結(jié)果大致在低齡老年階段和高齡老年階段低于觀測值,在中齡老年階段高于觀測值。岡泊茨模型在低齡老年階段和高齡老年階段的擬合值高于觀測值,并且擬合值與觀測值之間的差異較大。邏輯斯蒂模型的擬合結(jié)果與觀測值之間的差異值高于岡泊茨-麥克漢姆模型,其差異值在低中高老年階段呈波動式的變化,能較好地體現(xiàn)中國老年人口死亡模式。[15][17]2010 年城市、城鎮(zhèn)和女性老年人口中,岡泊茨-麥克漢姆模型的擬合值與觀測值之間差異的絕對值最小,說明岡泊茨-麥克漢姆模型對城市、城鎮(zhèn)和女性死亡數(shù)據(jù)的擬合結(jié)果最好。
使用各種模型將2010年人口普查最高年齡組由100歲拓展到130歲,預(yù)測結(jié)果發(fā)現(xiàn)指數(shù)模型和伽瑪模型低估了高齡老年人口累計死亡概率,岡泊茨模型高估了高齡老年人口累計死亡概率,邏輯斯蒂和威布爾模型預(yù)測結(jié)果較好。
本文也存在一定的局限。首先,本文使用不同的模型擬合了老年人口累計死亡概率,雖然可以平滑累計死亡概率曲線,但是不能對死亡數(shù)據(jù)的漏報做出修正。其次,本文依據(jù)時期死亡指標(biāo)計算得到的累計死亡概率,一定程度上會受到死亡漏報等事件的影響。例如,100歲時老年人口累計死亡概率為0.97,而現(xiàn)實(shí)情況中百歲老人的存活率不超過3%。因此,模型擬合結(jié)果可能會因?yàn)樗劳雎﹫蟮拇嬖诙霈F(xiàn)一定偏差。再次,就各種模型來說,針對不同的數(shù)據(jù)可能有不同的擬合效果,因此,不同的數(shù)據(jù)需要選擇不同的模型。最后,本文使用的是概率分布模型,更多的是認(rèn)識和應(yīng)用模型,了解模型的適用性,還需要從更多視角例如分年齡段模型等探討老年人口死亡模式。