玉婻寶 隋曉雪 霍帥
摘要:本文中應用普通的線性回歸--最小二乘法和廣義線性模型對我國人口死亡率的預測模型進行研究,得出死亡率預測模型,分析結(jié)果,從結(jié)果中可為制定中國人口政策提供一定的依據(jù)。
關鍵詞:負二項回歸;死亡率預測
1.研究背景
人口老齡化是指總?cè)丝谥幸蚰贻p人口數(shù)量減少、年長人口數(shù)量增加而導致的老年人口比例相應增長的動態(tài)。按照這個標準,我國已于1999年進入老齡社會。人口老齡化產(chǎn)生的原因:出生率下降、人口壽命提高。近年來我國為防止老齡化更加嚴重,出臺的“二孩”政策。但在有些專家提出“二孩”政策并不能真正改善老齡化問題,只是一個緩解的過程。人口老齡化問題關乎我國未來經(jīng)濟社會的長遠發(fā)展,必須對當前我國人口老齡化的趨勢及可能帶來的影響進行深入分析,以便及時調(diào)整相應的政策和措施加以應對。因此研究我國人口死亡率模型,建立預測模型是非常有必要的。
2.數(shù)據(jù)的處理與描述
2.1 數(shù)據(jù)的描述
對數(shù)據(jù)進行描述性統(tǒng)計分析,研究各數(shù)據(jù)指標之間的關系,分析出男性生存人口數(shù)、死亡人數(shù)、死亡率隨年齡有一定的規(guī)律變化。為使變量之間的分布波動相對穩(wěn)定,呈現(xiàn)的分布更明顯,考慮對男性生存人口數(shù)、死亡人數(shù)、死亡率三個變量進行對數(shù)變換,畫出散點圖??傻贸鲇嘘P男性生存人口數(shù)、死亡人數(shù)、死亡率的對數(shù)隨年齡變化的大致規(guī)律。
(1)死亡率對數(shù)在0至10歲這個區(qū)間呈遞減趨勢,從10歲開始,男性死亡率隨年齡的增加而增加。
(2)男性死亡人口數(shù)的對數(shù)總體趨勢是隨著年齡的增加而增加,但在0至10歲之間是呈遞減趨勢,隨后增加,直到75歲之后又遞減。
(3)男性生存人口數(shù)總體趨勢是隨著年齡的增加而減少,在0至50歲之間有波動性。
2.2 響應變量分布的研究
由死亡人數(shù)對數(shù)直方圖可根據(jù)橫軸將數(shù)據(jù)分為兩部分,以log(男性死亡人口數(shù))=10為分界點。采用KS檢驗對雙峰分布擬合效果進行檢驗, 值小于顯著性水平 ,拒絕原假設,認為擬合的雙峰分布不能確切地描述死亡率對數(shù)的分布情況。不能從分布情況來建立預測模型,考慮從變量之間的關系來建立模型。
3.人口死亡率的模型建立及結(jié)果分析
3.1模型建立
利用最小二乘法擬合死亡人數(shù)。模型建立: ,響應變量Y為死亡人數(shù)?;貧w變量X包含年份、年齡和生存人口數(shù)對數(shù)。檢驗模型顯著性,利用R軟件實現(xiàn),比較P值與預設α值0.05后,可認為所有變量在顯著性水平為0.05下具有顯著性。但擬合優(yōu)度的值為0.6486,修正后的擬合優(yōu)度為0.6476,擬合程度不高。
3.2 模型分析
對模型進行殘差分析,畫出殘差對擬合值散點圖、殘差的正態(tài)QQ圖、位置尺度圖、學生化殘差與杠桿值圖,曲線點表明存在非線性,可能意味著響應變量和回歸變量之間不是線性的。說明用最小二乘方法來建立死亡人數(shù)的預測模型是不適合的??紤]建立用廣義線性模型來建立模型。
3.3 負二項廣義線性模型
3.3.1 模型建立
在建立中國死亡人數(shù)模型時,設 為年齡i,年份j的死亡人數(shù), 為年齡i,年份j的生存人數(shù), 表示包括常數(shù)項和年齡i、年份j的解釋變量對應的設計向量,向量 為模型中的待估參數(shù)。
連接函數(shù)為
因此對中國死亡人數(shù)建立的負二項廣義線性模型為:
利用R語言實現(xiàn)模型,得出的結(jié)果如下所示
Null deviance: 43790.1 Residual deviance: 1014.5 AIC: 20786
在顯著性水平α=0.05、α=0.1下,兩個解釋變量的分量都是顯著的。由 ,得出包括年齡、年份解釋變量的偏差統(tǒng)計量的值遠遠小于不包括年齡、年份解釋變量的偏差統(tǒng)計量的值,故建立死亡人數(shù)預測模型應考慮年齡、年份兩個因子水平。
3.3.2 模型分析
去掉異常值,重新建立模型后,Null deviance,Residual deviance,AIC的值都減小,說明模型擬合的效果更好。
為了進一步說明用負二項廣義線性模型建立中國死亡人數(shù)預測模型具有一定的優(yōu)勢性,此處用泊松回歸模型進行建立模型。對兩個模型進行比較,負二項回歸模型中Null deviance、Residual deviance、AIC的值都遠遠小于泊松回歸模型的三個項目的值。
3.4 結(jié)果分析
本文至此已經(jīng)建立中國人口死亡人數(shù)的預測模型,那么現(xiàn)在要轉(zhuǎn)換回建立中國人口死亡率預測模型的問題,由建立好的中國人口人數(shù)預測模型中年份、年齡與死亡人數(shù)之間的關系,以及死亡率的公式,得出預測的死亡率??僧嫵鏊劳雎孰S年齡變化的散點圖進行分析,年齡因子對死亡率影響比較大,因此找到死亡率隨年齡變化的模式對預測非常重要。此外,隨著時間的推移,死亡率初步呈現(xiàn)下降趨勢,導致人口老齡化的形成。
4.結(jié)論
通過研究分析,得出死亡率預測模型,分析死亡率隨年齡、年份的變化模式,可為實施中國人口政策提供一定的依據(jù)。在本文中,發(fā)現(xiàn)最小二乘法不適用于建立死亡率預測模型,而負二項回歸相對于泊松回歸擬合結(jié)果比較好。從建立的模型中看死亡率隨年份變化的模式中,可知死亡率逐漸下降,導致老齡化社會的形成。但本文中建立的死亡率預測模型還有不足之處,有待改進。在用負二項回歸建立模型時,還可再改進,如選取主要的因子,可能建立的模型具有更優(yōu)的擬合優(yōu)度性。
參考文獻:
[1]李詩羽, 張飛, 王正林. 數(shù)據(jù)分析:R語言實踐[M]. 北京:電子工業(yè)出版社, 2014. 243-259.
[2]Douglas C.Montgomery, Elizabeth A.Peck, G.Geoffrey Vining. Introduction to Linear Regression Analysis, Fifth Edition[M]. 北京:機械工業(yè)出版社, 2016. 326-335.
[3]張連增, 段白鴿. 廣義線性模型在生命表死亡率修勻中的應用[J]. 人口研究, 2012, (3): 89-103.
[4]陳卓恒.負二項分布的廣義線性模型及其應用[J].華僑大學學報,2011,32(2).
[5]徐業(yè)峰. 負二項回歸模型的統(tǒng)計推斷[D]. 揚州大學, 2014.