吳曉坤,李姚潔
(華北電力大學(xué)數(shù)理學(xué)院,河北保定071003)
Lee-Carter模型外推預(yù)測(cè)死亡率及偏差糾正
吳曉坤,李姚潔
(華北電力大學(xué)數(shù)理學(xué)院,河北保定071003)
Lee一Carter模型是人口死亡率預(yù)測(cè)的常用模型,泊松最大似然估計(jì)法是該模型參數(shù)估計(jì)廣為采納的方法,模型中與時(shí)間相關(guān)的因子可建立時(shí)間序列模型并進(jìn)行外推,進(jìn)而實(shí)現(xiàn)死亡率的預(yù)測(cè)。由于時(shí)間因子與死亡率之間的非線性性,簡(jiǎn)單的外推會(huì)帶來死亡率預(yù)測(cè)的低估偏差。這個(gè)偏差可以通過對(duì)數(shù)正態(tài)分布的性質(zhì)進(jìn)行糾正或者隨機(jī)模擬方法進(jìn)行無偏預(yù)測(cè)。
Lee一Carter模型;死亡率預(yù)測(cè);對(duì)數(shù)正態(tài)分布;隨機(jī)模擬;偏差
Lee和Carter(1992)[1]提出的形式簡(jiǎn)潔、適用廣泛的死亡率模型:
稱為L(zhǎng)ee-Carter模型。在Lee和Carter(1992)[1]后有很多學(xué)者對(duì)其進(jìn)行了改進(jìn)與完善,現(xiàn)在已經(jīng)成為世界各國(guó)預(yù)測(cè)死亡率的常用模型。國(guó)內(nèi)的很多研究者也將Lee-Carter模型用于中國(guó)人口死亡率的預(yù)測(cè)[2-5]。
國(guó)內(nèi)外很多的研究與應(yīng)用在利用人口數(shù)據(jù)建立模型并估計(jì)其中的未知參數(shù)后,利用指數(shù)?對(duì)數(shù)互為逆變換的性質(zhì)得死亡率本身的預(yù)測(cè),這對(duì)變換在確定性數(shù)值間運(yùn)算是正確的,但是在隨機(jī)情形下卻并不合適,將產(chǎn)生系統(tǒng)性的預(yù)測(cè)偏差。
在形如式(1)的Lee-Carter模型中X表示X歲,t表示t時(shí)期,μx(t)為t時(shí)期X歲的死亡力,建模時(shí)常直接使用中心死亡率mx(t),mx(t)=dxt/e trxt,其中dxt為死亡人數(shù),e trxt為平均年中人口數(shù);αx為特定年齡x的總體死亡率因子; βx為年齡別x的死亡率變化因子,度量x歲人的死亡率隨時(shí)間的變化強(qiáng)度;κt為時(shí)間因子,度量t時(shí)期所有年齡死亡率的改善水平;εxt為誤差項(xiàng)。
本文利用《中國(guó)人口統(tǒng)計(jì)年鑒》和《中國(guó)人口和就業(yè)統(tǒng)計(jì)年鑒》提供的數(shù)據(jù),整理出從1994年到2010年中國(guó)人口分年齡性別的死亡數(shù)據(jù),年齡組從0歲(每一年齡一組)到90歲以上組。依據(jù)這些基礎(chǔ)數(shù)據(jù)建立中國(guó)人口死亡率Lee-Carter模型,估計(jì)方法采用泊松最大似然方法。由于模型參數(shù)眾多,并呈非線性關(guān)系,這里采用牛頓-拉夫遜算法(具體估計(jì)與計(jì)算方法可見于(Pitacco,Denuit和Haberman etal)[6]),并借助統(tǒng)計(jì)軟件R實(shí)現(xiàn)。
利用最大似然方法估計(jì)參數(shù)首先要設(shè)定死亡人數(shù)的分布,本文假定死亡人數(shù)服從泊松分布,這是最為常見的一種假定,在此設(shè)定下參數(shù)的對(duì)數(shù)似然函數(shù)為:
其中,λxt=erxtexp(αx+βxκt)。根據(jù)最大似然估計(jì)原理與牛頓-拉夫遜算法,參數(shù)的最大似然估計(jì)迭代算法為:
其中,θ(i)代表參數(shù)θ的第i步的迭代值,θ(i)可以是似然函數(shù)中的任意參數(shù)或參數(shù)向量。在本文的問題中,令,代入具體的參數(shù)得參數(shù)的最大似然估計(jì)迭代算法,可以參考Pitacco,Denuit和Haberman et al[6]:
每一步計(jì)算后都要對(duì)參數(shù)進(jìn)行調(diào)整,以確保所估計(jì)參數(shù)具有可識(shí)別性:
參數(shù)估計(jì)的結(jié)果如圖1和圖2所示。
圖1 男性模型參數(shù)估計(jì)
圖2 女性模型參數(shù)估計(jì)
模型參數(shù)中κt是死亡率中與時(shí)間相關(guān)部分,在觀測(cè)時(shí)期t1,t2,...,tn,對(duì)應(yīng)的參數(shù)κt的估計(jì)值構(gòu)成一個(gè)時(shí)間序列,建立時(shí)間序列ARIMA模型,則可以根據(jù)模型對(duì)未來的κt進(jìn)行預(yù)測(cè)。Lee和Carter(1992)[1]以及之后的許多研究者發(fā)現(xiàn)帶漂移項(xiàng)的隨機(jī)游走適合序列κt的建模,即:
這里d為漂移項(xiàng),ξt~N(0,σ2)為誤差項(xiàng),服從均值為0、方差為σ2的正態(tài)分布。
對(duì)κt的估計(jì)值建立時(shí)間序列模型并進(jìn)行外推預(yù)測(cè),可以得到:
簡(jiǎn)單外推預(yù)測(cè)之所以存在偏差是因?yàn)樗劳雎逝c時(shí)間序列因子κt之間的非線性關(guān)系。由于它們之間的非線性關(guān)系,導(dǎo)致無法由κt的無偏估計(jì)經(jīng)簡(jiǎn)單的κt與μxtn之間的函數(shù)關(guān)系得到死亡率μxtn,μx(tn+m)等的無偏估計(jì)。這是因?yàn)?
如果μxtn為已知數(shù),則式(13)服從參數(shù)為(lnμxtn+的對(duì)數(shù)正態(tài)分布。其均值為:
可以用
來估計(jì)tn+m時(shí)的死亡率,?與一般可以為d與σ2無偏估計(jì),其中:
估計(jì)式(15)與式(12)明顯的區(qū)別在于式(15)包含隨
機(jī)誤差項(xiàng)ξt的方差,而式(15)是根據(jù)死亡率的統(tǒng)計(jì)分布的均值式(14)得到的,所以具有無偏性。而式(12)是有系統(tǒng)偏差的,即使μxtn為常數(shù),式(12)仍然有偏差。對(duì)于未來tn+m時(shí)的死亡率的預(yù)測(cè),本文建議使用不存在系統(tǒng)偏差的式(15)。
本文比較了有偏差預(yù)測(cè)與無偏差預(yù)測(cè),其結(jié)果詳見圖3與圖4。這里分別使用式(12)與式(15)對(duì)2020年的死亡率進(jìn)行預(yù)測(cè),以對(duì)數(shù)形式及真實(shí)值形式進(jìn)行結(jié)果比較。圖3為男性的預(yù)測(cè)結(jié)果,其中的點(diǎn)線代表的是有偏差的式(12)的預(yù)測(cè)結(jié)果,從圖形中可以看出預(yù)測(cè)結(jié)果偏低。相應(yīng)的對(duì)于以上兩種預(yù)測(cè)的出生整值預(yù)期壽命分別為76.77與77.04,帶系統(tǒng)偏差的預(yù)測(cè)要高出無偏預(yù)測(cè)大約0.27歲。
圖3 預(yù)測(cè)2020年男性死亡率
圖4 預(yù)測(cè)2020年女性死亡率
對(duì)于女性,相應(yīng)的預(yù)測(cè)結(jié)果是類似的,只是偏差更小一些。兩種預(yù)測(cè)方法下,出生整值預(yù)期壽命分別為81.76與81.85,相差大約0.09歲。不管是男性還是女性,總的來說,帶系統(tǒng)偏差的預(yù)測(cè)會(huì)低估死亡率,這在養(yǎng)老金領(lǐng)域的預(yù)測(cè)中經(jīng)常被忽視,因?yàn)榈凸浪劳雎蕰?huì)增加預(yù)期壽命,會(huì)使人們面對(duì)老年危機(jī)的時(shí)候更加謹(jǐn)慎。然而,死亡率預(yù)測(cè)并不是僅僅供養(yǎng)老保險(xiǎn)領(lǐng)域應(yīng)用,所以有必要對(duì)預(yù)測(cè)的偏差進(jìn)行糾正。
根據(jù)前面表達(dá)式可以對(duì)未來任意年份的死亡率進(jìn)行預(yù)測(cè),在此不再一一給出結(jié)果。
不管是男性還是女性,從圖3和圖4直觀上看,帶系統(tǒng)偏差的預(yù)測(cè)低估的死亡率并不明顯,這可能也是具有系統(tǒng)性偏差預(yù)測(cè)能夠被接受的一個(gè)原因。其實(shí)不然,這是因?yàn)樗劳雎时旧碓诮^大多數(shù)年齡都很小,所以造成了這樣的感覺。在下文中給出另一種無偏預(yù)測(cè)方法的同時(shí)采用另一種度量差異的方式來比較不同預(yù)測(cè)的不同,就可以看出其中明顯的差異。
另外一種得到無偏估計(jì)的方法是隨機(jī)模擬法,利用計(jì)算機(jī)隨機(jī)模擬技術(shù)不但可以得到死亡率的均值,當(dāng)模擬次數(shù)足夠大時(shí)可以認(rèn)為模擬所得到的死亡率的隨機(jī)樣本的分布為死亡率總體的分布。根據(jù)式(13),如果有了μxtn或者其估計(jì)值,利用估計(jì)的βx和d值,每模擬一個(gè)ξt就會(huì)得到一個(gè)μx(tn+m),只要模擬的次數(shù)足夠大,就可以利用模擬得到的所有μx(tn+m)值的平均值代替它的理論均值。這種方法思路簡(jiǎn)單易懂,其中復(fù)雜的模擬計(jì)算過程由計(jì)算機(jī)完成。在具體的模擬過程中在式(13)中取m值為10(這樣可以預(yù)測(cè)得到2020年的死亡率,類似的,取不同的m值可以得到其它任意年份的死亡率);βx與d需要把數(shù)據(jù)代入模型根據(jù)最大似然估計(jì)算法和外推算法(式(4)—式(9)和式(16))進(jìn)行估計(jì)得到中的σ2也需要估計(jì)得到(式(16))。首先模擬產(chǎn)生正態(tài)變量每產(chǎn)生一個(gè)模擬值代入式(13)就可以得到一個(gè)模擬的預(yù)測(cè)值,為了保證最后結(jié)果的穩(wěn)定性,一般需要模擬的次數(shù)很大,比如1萬次、10萬次等。最終對(duì)模擬值求平均就得到所隨機(jī)模擬預(yù)測(cè)的死亡率。在模擬次數(shù)很大時(shí),模擬結(jié)果與無偏估計(jì)式計(jì)算所得結(jié)果非常接近。這里不再與簡(jiǎn)單估計(jì)結(jié)果進(jìn)行直接的比較,本文計(jì)算了模擬預(yù)測(cè)與簡(jiǎn)單預(yù)測(cè)之差,同時(shí)也計(jì)算了進(jìn)行糾正的無偏預(yù)測(cè)與簡(jiǎn)單預(yù)測(cè)之差,這兩個(gè)差值本文稱之為低估量;另外也分別計(jì)算了這兩個(gè)低估量與糾正的無偏預(yù)測(cè)和模擬預(yù)測(cè)之比,本文稱之為相對(duì)低估量。結(jié)果詳見圖5和圖6。
從圖5左圖中可以看出男性人口死亡率預(yù)測(cè)中簡(jiǎn)單預(yù)測(cè)在高齡組會(huì)低估死亡率0.001到0.002,在0歲低估量接近0.001,其余低估量低于0.001;從圖5右圖中可以看出低齡組(0~10歲)的低估死亡率百分比在15%~5%之間,在10~30歲左右和60歲以上低估量百分比大約在2%~5%之間,其余年齡低估百分比較低。雖然簡(jiǎn)單外推預(yù)測(cè)的絕對(duì)低估量不高,最大0.002左右,尤其在0歲外的低齡組更是非常接近于0,但是從相對(duì)低估量來看則是低齡組偏高,最高可達(dá)15%。因?yàn)樗劳雎时旧淼慕^對(duì)水平很低,所以絕對(duì)低估量也很低,但高達(dá)5%~15%的相對(duì)低估偏差卻是不能忽視的。
圖5 預(yù)測(cè)2020年男性死亡率偏差比較
圖6 預(yù)測(cè)2020年女性死亡率偏差比較
圖6 是女性預(yù)測(cè)結(jié)果,由于女性死亡率比男性更低一些,在絕對(duì)偏差圖中所顯示偏差為真實(shí)偏差的10倍。女性死亡率預(yù)測(cè)中定性的結(jié)果與男性類似,只是不管是絕對(duì)量還是相對(duì)量都低于男性,但相對(duì)低估量在一些年齡仍可高達(dá)6%,大多數(shù)年齡在2%左右。因此我們應(yīng)該糾正簡(jiǎn)單外推的低估偏差。
利用人口統(tǒng)計(jì)數(shù)據(jù)建立Lee-Carter死亡率模型后,在利用模型進(jìn)行死亡率的單值預(yù)測(cè)時(shí),常用的簡(jiǎn)單外推預(yù)測(cè)存在系統(tǒng)的低估偏差。這個(gè)偏差可以通過對(duì)數(shù)正態(tài)分布的性質(zhì)或者運(yùn)用隨機(jī)模擬的方法進(jìn)行糾正。通過理論分析與模擬計(jì)算發(fā)現(xiàn):死亡率本身的值很小導(dǎo)致低估量的絕對(duì)值很小,但是相對(duì)量卻不容忽視。因此建議利用Lee-Carter模型進(jìn)行死亡率的單值預(yù)測(cè)時(shí)使用糾正的無偏預(yù)測(cè)或模擬預(yù)測(cè)。
[1]Lee R D,Carter L R.Modeling and Forecasting USMortality[J].Journalof the American Statistical Association,1992,87(419).
[2]韓猛,王曉軍.Lee一Carter模型在中國(guó)城市人口死亡率預(yù)測(cè)中的應(yīng)用與改進(jìn)[J].保險(xiǎn)研究,2010,(10).
[3]李志生,劉恒甲.Lee一Carter死亡率模型的估計(jì)與應(yīng)用——基于中國(guó)人口數(shù)據(jù)的分析[J].中國(guó)人口科學(xué),2010,(3).
[4]盧仿先,尹莎.Lee一Carter方法在預(yù)測(cè)中國(guó)人口死亡率中的應(yīng)用[J].保險(xiǎn)職業(yè)學(xué)院學(xué)報(bào),2005,(6).
[5]王曉軍,黃順林.中國(guó)人口死亡率隨機(jī)預(yù)測(cè)模型的比較與選擇[J].人口與經(jīng)濟(jì),2011,(1).
[6]Pitacco E,DenuitM,Haberman S,etal.Modelling Longevity Dynamics for Pensions and Annuity Business[M].UK:Oxford University Press,2009.
(責(zé)任編輯/易永生)
C921
A
1002-6487(2016)20-0019-03
國(guó)家社會(huì)科學(xué)基金重大項(xiàng)目(13&ZD164);教育部人文社科青年基金資助項(xiàng)目(15y JCZH186);中央高?;究蒲袠I(yè)務(wù)費(fèi)專項(xiàng)資金資助項(xiàng)目(2014MS163;2014ZD47);河北省社會(huì)科學(xué)基金資助項(xiàng)目(HB15LJ005)
吳曉坤(1978—),男,河北灤南人,博士,講師,研究方向:統(tǒng)計(jì)與保險(xiǎn)精算。