孫鑫鑫 高 燕 袁 汐 王增相
( 1)山東師范大學(xué)數(shù)學(xué)與統(tǒng)計學(xué)院,250358,濟南; 2)阿薩巴斯卡大學(xué)商學(xué)院,T9S3A3,艾伯塔,加拿大 )
我國是一個人口大國,人口問題一直是關(guān)乎國計民生的熱門話題.根據(jù)人口出生率的統(tǒng)計數(shù)據(jù),可以發(fā)現(xiàn)全國人口出生率近年來總體呈現(xiàn)下降的趨勢,尤其是近十年來的人口出生率一直維持在12‰左右,如果人口出生率一直保持在較低的水平勢必會給社會帶來許多問題.2016年二胎政策全面放開,文獻[1]曾提出全面實施二胎政策可能會緩解人口出生率下降的趨勢.事實上2016年和2017年這兩年的全國人口出生率較之前確實有所上升,分別達到了12.95‰和12.43‰,但這可能只是短期效應(yīng),未來會怎樣發(fā)展還需通過嚴謹科學(xué)的研究進行預(yù)測,只有這樣才能更客觀清晰地了解未來我國人口出生率的趨勢.
本文對我國從1949年到2017年的人口出生率進行分析,建立時間序列模型預(yù)測未來5年我國的人口出生率是繼續(xù)呈下降趨勢還是會達到一個平穩(wěn)的狀態(tài).由于影響出生率的因素非常多,因此在建模過程中可能會出現(xiàn)很多諸如平穩(wěn)性檢驗、白噪聲檢驗不通過或者模型擬合情況不好等問題,本文旨在解決這些問題,最終使殘差變成白噪聲序列,并且建立一個合理的模型對未來五年我國的人口出生率進行預(yù)測.
2.1數(shù)據(jù)來源從《中國統(tǒng)計年鑒》中選取自1949至2017年全國的人口出生率作為原始數(shù)據(jù),并選擇最合適的預(yù)測方法預(yù)測未來5年的全國人口出生率(表1).
2.2數(shù)據(jù)特征分析將1949-2017年的全國人口出生率繪制成折線圖,如圖1所示.
圖1 全國人口出生率折線圖
表1 1949-2017全國人口出生率統(tǒng)計
從圖1可以看出,我國的人口出生率大致可以分為五個階段:早期的高出生率階段,20世紀70年代出生率大幅下降階段,20世紀80年代出生率有所反彈階段,20世紀90年代出生率持續(xù)下降階段和近年來低出生率階段.根據(jù)國家統(tǒng)計局人口普查數(shù)據(jù),可以得到如下結(jié)論.
1) 1949-1970年的高出生率階段.這個階段的人口出生率平均值在30‰左右,新中國成立后,社會安定,經(jīng)濟發(fā)展,人們的生活水平和醫(yī)療條件都不斷改善,因此在這個階段總體上保持著高出生率.2) 1971-1979年出生率大幅度下降階段.這個階段人口出生率大幅度下降至17.82‰ ,這是因為人口高速增長帶來了巨大的壓力,人們認識到控制人口已迫在眉睫,在全國發(fā)出了實行計劃生育的號召,并制定和完善了計劃生育政策,導(dǎo)致這個階段出生率呈現(xiàn)出大幅下降趨勢.3) 1980-1987年出生率小幅度的反彈階段.這個階段人口出生率回升至23.33‰,這是因為在20世紀60年代初“第二次人口生育高峰”中出生的人口陸續(xù)進入生育年齡,使得人口出生率出現(xiàn)回升.4) 1988-2004年持續(xù)的下降階段.這個階段人口出生率下降到了12.29‰,主要是受到了計劃生育政策不斷加強和完善的影響.5) 2005-2018年人口低出生率階段.這個階段的人口出生率平均值在12.10‰左右,這個階段仍然受計劃生育政策的影響,加之養(yǎng)育孩子的成本增大,女性的生育觀念發(fā)生轉(zhuǎn)變等因素,使得出生率保持在較低水平.
3.1時間序列分析基本步驟時間序列分析是常用的定量預(yù)測方法之一.應(yīng)用時間序列分析建模可以尋找出序列值之間相關(guān)關(guān)系的統(tǒng)計規(guī)律,并擬合出適當?shù)臄?shù)學(xué)模型來描述這種規(guī)律,進而利用這個擬合模型預(yù)測序列未來的走勢.
建立時間序列分析模型首先要對數(shù)據(jù)進行平穩(wěn)性檢驗以及純隨機性檢驗,然后計算樣本自相關(guān)系數(shù)和偏自相關(guān)系數(shù).依據(jù)計算出來的自相關(guān)系數(shù)和偏自相關(guān)系數(shù),按照ARMA模型定階的基本原則對模型進行定階.時間序列分析的基本模型如下[2-4]:
1) 自回歸模型(AR模型).一般的p階自回歸模型記為AR(p),它有如下結(jié)構(gòu):
(1)
該模型的基本假設(shè)如下:
H1模型最高階數(shù)為p階;
H2隨機干擾項序列{εt}為零均值白噪聲序列;
H3現(xiàn)在的隨機干擾與過去的序列值不相關(guān).
2) 移動平均模型(MA模型).一般的q階移動平均模型記為MA(q),它有如下結(jié)構(gòu):
(2)
該模型的基本假設(shè)如下:
H4模型最高階數(shù)為q階.
H5隨機干擾項序列{εt}為零均值白噪聲序列.
3) 自回歸移動平均模型(ARMA模型).一般的自回歸移動平均模型記為ARMA(p,q),它有如下結(jié)構(gòu):
(3)
該模型基本假設(shè)是AR(p)模型基本假設(shè)和MA(q)模型基本假設(shè)的結(jié)合.
4) 求和自回歸移動平均模型(ARIMA模型).一般的求和自回歸移動平均模型記為ARIMA(p,d,q),它有如下結(jié)構(gòu):
(4)
當d=0時,ARIMA(p,d,q)模型實質(zhì)上就是ARMA(p,q)模型,因此,差分運算結(jié)合ARMA模型其實就是ARIMA模型.
3.2數(shù)據(jù)預(yù)處理建立時間序列模型之前,首先要對人口出生率序列進行平穩(wěn)性和純隨機性檢驗.
1) 平穩(wěn)性檢驗及平穩(wěn)化處理.首先畫出原始數(shù)據(jù)的時序圖,如圖2所示.
圖2 1949-2017全國人口出生率時序圖
由圖2可以明顯看出原始數(shù)據(jù)序列為非平穩(wěn)序列,但是為了保證結(jié)果的客觀性,還需對全國人口出生率采用Eviews軟件進行單位根檢驗,判斷其是否平穩(wěn),結(jié)果顯示單位根統(tǒng)計量ADF=-1.660 242,大于Eviews軟件給出的顯著性水平(1%~10%)對應(yīng)的ADF臨界值,這就說明該序列是非平穩(wěn)的.為了可以對序列進行分析,要采取措施使其平穩(wěn)化.讓序列變平穩(wěn)的方法有兩種,分別是對數(shù)法和差分法.應(yīng)用對數(shù)法可以繪制出1949年到2017年全國人口出生率自然對數(shù)的時序圖(圖3).
圖3顯示取對數(shù)之后的序列保持了原序列的變化趨勢,運用Eviews軟件對取對數(shù)之后的人口出生率序列進行單位根檢驗,結(jié)果顯示單位根統(tǒng)計量ADF=-1.147 253,大于Eviews軟件給出的顯著性水平(1%~10%)對應(yīng)的ADF臨界值,這說明該序列仍是非平穩(wěn)的.上述全國人口出生率對數(shù)序列含有曲線趨勢,通常二階差分就可以提取出曲線趨勢的特征值,因此接下來對原始數(shù)據(jù)取對數(shù)后的序列進行二階差分,檢驗其是否平穩(wěn)(圖4).
圖4 1949-2017全國人口出生率取對數(shù)后二階差分時序圖
由圖4可以看出,該序列始終在0點左右隨機波動,并且波動的范圍有界,因此能夠確定原始數(shù)據(jù)取對數(shù)再進行二階差分之后的序列平穩(wěn).但是這樣判斷數(shù)據(jù)的平穩(wěn)性有主觀色彩,為了保證客觀,在此采用Eviews軟件對取對數(shù)后二階差分的數(shù)據(jù)進行單位根檢驗,判斷其是否平穩(wěn).結(jié)果顯示單位根統(tǒng)計量ADF=-7.921 190,小于Eviews軟件給出的顯著性水平(1%~10%)對應(yīng)的ADF臨界值,這就說明該序列是平穩(wěn)的.因此,應(yīng)該建立ARIMA模型,且差分的階數(shù)d等于2.
2) 純隨機性檢驗.在將數(shù)據(jù)平穩(wěn)化之后,為了確定平穩(wěn)序列是否值得繼續(xù)分析,還需要對得到的平穩(wěn)序列進行純隨機性檢驗.純隨機性檢驗也叫白噪聲檢驗,它是用來檢驗平穩(wěn)序列是否為純隨機序列的一種方法,若得到的平穩(wěn)序列為非白噪聲序列,則可以進行模型擬合.
純隨機性檢驗的原假設(shè):延遲期數(shù)小于或等于m期的序列值之間相互獨立.
純隨機性檢驗的備擇假設(shè):延遲期數(shù)小于或等于m期的序列值之間有相關(guān)性.
純隨機性檢驗的檢驗統(tǒng)計量為
(5)
當p>α?xí)r,不能拒絕原假設(shè),需要停止對該序列的統(tǒng)計分析.
P<α?xí)r,拒絕原假設(shè),可以繼續(xù)進行建模.
取置信水平α=0.05,采用SAS軟件進行白噪聲檢驗[5,6],其結(jié)果如表2所示.
表2 白噪聲的自相關(guān)檢驗
由表2顯示的純隨機性檢驗的結(jié)果可以看出,LB統(tǒng)計量的P值小于置信水平α=0.05,因此可以判定取對數(shù)再二階差分后的序列是非白噪聲序列,可以利用該序列值進行模型擬合.
3.3模型的識別通過觀察平穩(wěn)序列的自相關(guān)結(jié)果和偏自相關(guān)結(jié)果來選擇階數(shù)適當?shù)哪P瓦M行擬合, 用SAS軟件可以得到序列的自相關(guān)結(jié)果和偏自相關(guān)結(jié)果(表3、表4).
表3 自相關(guān)
表4 偏自相關(guān)
從表3中可以看出,除了延遲0階和1階的自相關(guān)系數(shù)在2倍標準差范圍之外,其余階數(shù)的自相關(guān)系數(shù)都在2倍標準差范圍內(nèi)來回波動.依據(jù)自相關(guān)系數(shù)的這個特點可以判斷該序列有短期相關(guān)性,從而進一步說明該序列是平穩(wěn)的.同時,可以認為該序列自相關(guān)系數(shù)為2階截尾.表4中偏自相關(guān)系數(shù)呈現(xiàn)出拖尾的性質(zhì).
結(jié)合自相關(guān)系數(shù)和偏自相關(guān)系數(shù)的性質(zhì),初步為擬合模型定階為MA(2),建立的模型為ARIMA(0,2,2),模型公式如下:
(6)
3.4參數(shù)估計確定好模型的階數(shù)之后,應(yīng)該對擬合的模型進行參數(shù)估計,本文使用條件最小二乘估計方法對初步擬合的ARIMA(0,2,2)模型進行參數(shù)估計(表5).
表5 條件最小二乘估計
由表5可以看出MU不顯著,而其他參數(shù)都是顯著的.接下來要去掉常數(shù)項再次估計未知參數(shù),其結(jié)果如表6所示,由表6可以看出兩個未知參數(shù)均顯著.
表6 條件最小二乘估計
3.5模型檢驗?zāi)P偷娘@著性檢驗主要檢驗?zāi)P驼w的有效性.一個好的擬合模型可以提取觀察值序列中幾乎所有與樣本相關(guān)的信息,也就是說殘差序列應(yīng)該為白噪聲序列.因此模型的顯著性檢驗也被稱為殘差序列的白噪聲檢驗.
模型檢驗原假設(shè):ρ1=ρ2=…=ρm=0,?m≥1.
模型檢驗備擇假設(shè):至少存在某個ρk≠0,?m≥1,k≤m.
模型檢驗統(tǒng)計量為
(7)
假如拒絕原假設(shè),這說明殘差序列中還留有相關(guān)信息,擬合的模型ARIMA(0,2,2)不顯著,模型的顯著性檢驗不通過;假如不能拒絕原假設(shè),就認為該擬合模型是顯著有效的,模型的顯著性檢驗通過.模型的顯著性檢驗結(jié)果如表7所示.
表7 殘差白噪聲檢驗
從表7可以看出,延遲6階、12階、18階、24階的LB統(tǒng)計量的P值均大于α=0.05,可知殘差序列通過了白噪聲檢驗,也就是說殘差序列為白噪聲序列.該擬合模型ARIMA(0,2,2)顯著成立,可以表示為
2lnxt=(1+1.231 29B+0.250 16B2)εt.
(8)
3.6模型的優(yōu)化當擬合模型為ARIMA(0,2,2)時,AIC的值為-100.27,對模型重新進行定階,嘗試是否有其他合適的模型AIC的值小于-100.27.經(jīng)過嘗試后,發(fā)現(xiàn)當擬合模型為ARIMA(1,2,2)時,AIC的值更小,為-100.793,根據(jù)AIC準則,更優(yōu)的模型為ARIMA(1,2,2).當擬合模型為ARIMA(1,2,2)時,其參數(shù)估計的結(jié)果如表8所示.由表8中的P值可以看出參數(shù)估計均顯著,其模型檢驗結(jié)果如表9所示.
表8 優(yōu)化后條件最小二乘估計
表9 優(yōu)化后殘差白噪聲檢驗
由表9可以看出殘差序列為白噪聲序列,最終擬合模型ARIMA(1,2,2)顯著成立.該模型得到的擬合結(jié)果的輸出形式可以表示為
(1+0.457 84B)2lnxt=(1+1.692 47B+0.708 18B2)εt.
(9)
采用建立的ARIMA(1,2,2)模型對未來5年的全國人口出生率進行預(yù)測[7-11],結(jié)果如表10所示.
表10 預(yù)測結(jié)果
圖5 擬合與預(yù)測圖
圖5中黑色星號表示全國人口出生率對數(shù)序列觀察值,紅色連續(xù)曲線表示擬合序列曲線,綠色曲線表示擬合序列的95%上下置信限.根據(jù)圖5可以初步判斷模型的擬合效果較好,接下來利用2018年的真實數(shù)據(jù)與預(yù)測數(shù)據(jù)進行比較,進一步驗證模型的有效性.
本文以1949-2017年的數(shù)據(jù)為基礎(chǔ)建立時間序列模型,預(yù)測出了2018-2022年的全國人口出生率,其中預(yù)測的2018年人口出生率對數(shù)為2.498 1,它的95%置信區(qū)間為(2.279 4,2.716 8),而2018年人口出生率的真實值為10.94‰,取對數(shù)后為2.39,真實值在置信區(qū)間范圍內(nèi),證明模型擬合效果良好,該模型得到的數(shù)據(jù)可信.
由于建立ARIMA(1,2,2)模型時采用的序列是原始數(shù)據(jù)取對數(shù)之后的數(shù)據(jù),因此得到的預(yù)測結(jié)果也是取對數(shù)之后的形式,還需要對得到的結(jié)果進行變換,才能最終得到未來五年的全國人口出生率(表11).
表11 未來五年全國人口出生率預(yù)測值
通過對1949-2017年全國人口出生率的原始數(shù)據(jù)進行時間序列分析,建立了ARIMA(1,2,2)模型,對未來五年的全國人口出生率進行預(yù)測,得到未來五年全國人口出生率分別為12.16‰、12.23‰、12.25‰、12.19‰、12.27‰.從數(shù)據(jù)可以看出2016年和2017年人口出生率確實是有所提高,但是預(yù)測結(jié)果顯示未來5年仍然保持低人口出生率,這個結(jié)果與引言中二胎政策放開使得2016年和2017年出生率短暫提高是一致的.
針對人口出生率維持較低水平這一現(xiàn)狀,提出以下建議:
1) 完善二胎政策.全面實施二胎政策的計劃剛剛起步,仍存在許多沒有考慮到的細節(jié).因此要積極完善二胎政策,既不能造成大眾都不響應(yīng)該政策,又不能導(dǎo)致出生率突然增大影響國家其他方面的發(fā)展.
2) 建立健全社會保障制度.比如為老人開辦養(yǎng)老保險;為生育二胎的家庭提供補助;加強對公共托幼服務(wù)的職業(yè)培訓(xùn)和政府監(jiān)督等.
3) 為女性提供更多就業(yè)支持.女性擔(dān)心生育之后找工作難度加大,因此為女性提供更多就業(yè)支持有助于提高人口出生率,就業(yè)環(huán)境越寬松,女性才能越放心地去生育.
4) 人口政策應(yīng)該致力于改變趨勢性的斜率.本文所建立的二階差分模型表示人口出生率帶有與時間相關(guān)聯(lián)的趨勢性,二階差分之后所獲得的時間序列實際上描述了出生率趨勢之斜率隨時間的變動情況.具體來說,如果希望人口增長提速 (如用來彌補勞動力短缺),應(yīng)該維持趨勢性的斜率為正來促使人口加速增長.