蔣 彧
(南京大學(xué) 商學(xué)院,南京 210093)
在精算領(lǐng)域和保險(xiǎn)實(shí)務(wù)中,在為保單組的總索賠額建模時(shí),通常不是直接對(duì)總索賠額進(jìn)行建模,而是對(duì)索賠次數(shù)和個(gè)體索賠額分別建模,進(jìn)而運(yùn)用索賠次數(shù)和個(gè)體索賠額分布的信息來(lái)得到總索賠額分布的信息。Klugman等(2004)指出對(duì)索賠次數(shù)和個(gè)體索賠額分別建模的優(yōu)勢(shì)在于:(1)可以單獨(dú)考察業(yè)務(wù)量的增長(zhǎng)對(duì)索賠次數(shù)以及總索賠額的影響,提高對(duì)下一年總索賠額預(yù)測(cè)的精確度;(2)個(gè)體保單條款的更改以及通貨膨脹對(duì)個(gè)體索賠額的影響將更容易得到研究;(3)可以構(gòu)造出更準(zhǔn)確、更靈活的模型。因此,相比于僅對(duì)總索賠額進(jìn)行分析,對(duì)索賠次數(shù)和個(gè)體索賠額都有所了解,可以更加深入地理解與承保相關(guān)的各種因素,并有助于保險(xiǎn)公司根據(jù)實(shí)際數(shù)據(jù)對(duì)保單條款進(jìn)行修改。
在總索賠額模型中,通常用于描述個(gè)體索賠額的分布為非負(fù)的連續(xù)分布,用于描述索賠次數(shù)的分布為在非負(fù)整數(shù)值上具有概率的離散分布。標(biāo)準(zhǔn)連續(xù)分布的種類眾多,如對(duì)數(shù)正態(tài)分布、Pareto分布、Gamma分布等,因此,在保險(xiǎn)實(shí)務(wù)中可以根據(jù)個(gè)體索賠額的樣本信息,選擇具有類似特征的標(biāo)準(zhǔn)分布,以實(shí)現(xiàn)對(duì)個(gè)體索賠額分布較好的估計(jì)效果。然而,用于描述索賠次數(shù)的標(biāo)準(zhǔn)分布并不是太多,主要為泊松分布、二項(xiàng)分布和負(fù)二項(xiàng)分布。Panjer(2006)認(rèn)為這三類分布往往不能較好地對(duì)實(shí)際索賠次數(shù)進(jìn)行擬合,其原因在于不能較好地?cái)M合索賠次數(shù)分布的形態(tài),尤其是不能很好地對(duì)索賠次數(shù)分布的左右尾部進(jìn)行擬合。
索賠次數(shù)的取值范圍為非負(fù)整數(shù),索賠次數(shù)的分布左尾部指的是索賠次數(shù)為零的概率,即一份保單在保險(xiǎn)期限內(nèi)沒有索賠發(fā)生的概率。在保險(xiǎn)實(shí)務(wù)中,由于事故發(fā)生的概率通常較低以及多數(shù)保單設(shè)有免賠額條款,因此,實(shí)際引發(fā)索賠的概率會(huì)很低,這就導(dǎo)致索賠次數(shù)的分布在零點(diǎn)具有較大的概率值。運(yùn)用以上三種標(biāo)準(zhǔn)分布對(duì)索賠次數(shù)進(jìn)行估計(jì)時(shí),如果參數(shù)估計(jì)較好地?cái)M合了零點(diǎn)的高概率,則估計(jì)結(jié)果將大大降低索賠次數(shù)分布右尾部的概率;如果對(duì)右尾部的擬合較好,則對(duì)零點(diǎn)概率的估計(jì)將遠(yuǎn)低于實(shí)際情況。因此,Klugman等(2004)認(rèn)為需要對(duì)于索賠次數(shù)在零點(diǎn)的概率估計(jì)給予特殊的處理,其方法是對(duì)現(xiàn)有標(biāo)準(zhǔn)分布在零點(diǎn)的概率進(jìn)行修正,修正后的分布即為零點(diǎn)修正分布。
假設(shè)離散型非負(fù)整數(shù)隨機(jī)變量N的分布的概率函數(shù)為:
其中,θ是概率函數(shù)的參數(shù)。對(duì)N的分布進(jìn)行零點(diǎn)修正,得到新的隨機(jī)變量NM。定義NM在零點(diǎn)的概率為①當(dāng)=0時(shí),零點(diǎn)修正分布亦稱為零點(diǎn)截?cái)喾植?。零點(diǎn)截?cái)嚯S機(jī)變量的最小取值為1。,在非零點(diǎn)的概率定義為:
由于:
由此得到:
因此,NM服從基于隨機(jī)變量N的零點(diǎn)修正分布②零點(diǎn)修正分布屬于(a,b,1)類分布族,概率函數(shù)滿足遞推關(guān)系式pk=(a+b/k)pk-1(k≥2),其中a、b為常數(shù)。,其概率函數(shù)為:
早期關(guān)于零點(diǎn)修正或零點(diǎn)截?cái)喾植嫉膽?yīng)用多集中于生物統(tǒng)計(jì)領(lǐng)域。近年來(lái),零點(diǎn)修正分布逐漸被運(yùn)用于計(jì)量經(jīng)濟(jì)學(xué),醫(yī)學(xué)、社會(huì)學(xué)等。特別是隨著保險(xiǎn)市場(chǎng)和精算學(xué)的快速發(fā)展,零點(diǎn)修正分布被廣泛應(yīng)用于對(duì)索賠次數(shù)分布的估計(jì)。Panjer和Willmot(1992)首先在保險(xiǎn)風(fēng)險(xiǎn)模型中引入了零點(diǎn)修正分布的概念。Klugman等(2004)將零點(diǎn)修正分布應(yīng)用于汽車保險(xiǎn)索賠次數(shù)分布的估計(jì),發(fā)現(xiàn)零點(diǎn)修正分布較原始分布有著更好的擬合效果和估計(jì)精度。Lord等(2005)運(yùn)用零點(diǎn)修正的泊松分布和零點(diǎn)修正的負(fù)二項(xiàng)分布,對(duì)機(jī)動(dòng)車輛碰撞次數(shù)進(jìn)行了建模。此外,零點(diǎn)修正分布還可以應(yīng)用于計(jì)數(shù)數(shù)據(jù)的廣義線性回歸模型,通過對(duì)零點(diǎn)概率的修正,可以提高回歸模型的準(zhǔn)確度。
現(xiàn)有文獻(xiàn)中均采用極大似然法對(duì)零點(diǎn)修正分布的參數(shù)進(jìn)行估計(jì),缺少關(guān)于其他估計(jì)方法以及估計(jì)結(jié)果優(yōu)劣的討論。因此,本文將介紹三種零點(diǎn)修正分布的參數(shù)估計(jì)方法,并對(duì)估計(jì)效果進(jìn)行比較分析。
假設(shè)關(guān)于索賠次數(shù)的樣本為 n=(n0,n1,n2,…)′,其中nk(k=0,1,2,…)表示樣本中索賠次數(shù)為k次的觀測(cè)數(shù),表示樣本的總觀測(cè)數(shù)。根據(jù)索賠次數(shù)的樣本數(shù)據(jù),本文介紹三種零點(diǎn)修正分布的參數(shù)估計(jì)方法,分別為極大似然估計(jì)、貝葉斯估計(jì)和矩方法。
根據(jù)索賠次數(shù)樣本和零點(diǎn)修正分布的概率函數(shù),似然函數(shù)的表達(dá)式如下:
相應(yīng)的對(duì)數(shù)似然函數(shù)為:
對(duì)數(shù)似然函數(shù)(3)關(guān)于參數(shù) pM0的一階條件為:
其具體形式由N的概率函數(shù)決定。參數(shù)θ的極大似然估計(jì)θ即為式(6)的解。
下文將以零點(diǎn)修正的泊松分布和零點(diǎn)修正的幾何分布為例,介紹參數(shù)θ估計(jì)的具體方法。假設(shè)N服從參數(shù)為λ的泊松分布,則其概率函數(shù)為:
此時(shí),θ=λ,關(guān)于參數(shù)λ的一階條件(6)為:
假設(shè)N服從參數(shù)為p的幾何分布,則其概率函數(shù)為:
此時(shí),θ=p,關(guān)于參數(shù) p的一階條件(6)為:
參數(shù)p的極大似然估計(jì)為:
參數(shù)θ的先驗(yàn)分布將根據(jù)N分布中參數(shù)θ的要求而進(jìn)行選擇,假設(shè)其密度函數(shù)為 f(θ)。因此,參數(shù)和θ的聯(lián)合后驗(yàn)密度函數(shù)為:
參數(shù)θ的后驗(yàn)密度核為:
其具體形式由N的概率函數(shù)和θ先驗(yàn)分布的密度函數(shù)共同決定。
假設(shè)N服從參數(shù)為λ的泊松分布,此時(shí)λ>0,先驗(yàn)分布可選擇為Gamma分布:
根據(jù)式(7)、式(16)和式(17),λ的后驗(yàn)密度核為:
由于式(18)不是已知標(biāo)準(zhǔn)分布的密度核,λ后驗(yàn)分布可以運(yùn)用Metropolis-Hastings算法進(jìn)行抽樣。獲取λ后驗(yàn)分布M次抽樣的算法如下:
(1)根據(jù)先驗(yàn)分布式(17),獲得初始抽樣 λ(0);
(2)當(dāng) 1≤m≤M 時(shí),抽取候選抽樣 λ*~N(λ(m-1),ν),ν>0;
(3)根據(jù)式(18),計(jì)算 α(λ*|λ(m-1))=min[f(λ*|n)/f(λ(m-1)|n),1];
(4)以 α(λ*|λ(m-1))為概率接受 λ(m)=λ*,否則 λ(m)=λ(m-1);
(5)重復(fù)步驟2至步驟4,直至獲得M次抽樣。
假設(shè)N服從參數(shù)為 p的幾何分布,此時(shí) p∈[0,1],先驗(yàn)分布可選擇為Beta分布:
根據(jù)式(9)、式(17)和式(19),p的后驗(yàn)密度核為:
根據(jù)式(20),p的后驗(yàn)分布為:
根據(jù)零點(diǎn)修正分布的概率函數(shù)式(1),零點(diǎn)修正分布隨機(jī)變量NM的i階原點(diǎn)矩為:
假設(shè)N服從參數(shù)為λ的泊松分布,零點(diǎn)修正的泊松分布的參數(shù)為和λ。此時(shí),求解以下關(guān)于參數(shù)和λ的方程組得到矩方法估計(jì)和:
表1列出了某保險(xiǎn)公司某年機(jī)動(dòng)車輛保險(xiǎn)索賠次數(shù)的樣本①數(shù)據(jù)來(lái)源于Klugman等(2004)。。在1875位被保險(xiǎn)人中,在保單期限內(nèi)索賠次數(shù)的可能取值分別為0至4次,其中沒有索賠發(fā)生的人數(shù)達(dá)到1663人。
表1 機(jī)動(dòng)車輛保險(xiǎn)索賠次數(shù)的樣本數(shù)據(jù)
根據(jù)以上樣本數(shù)據(jù),運(yùn)用前文介紹的極大似然估計(jì)、貝葉斯估計(jì)②先驗(yàn)分布的參數(shù)取值為 =9,=1,=2, =8,=9,=1。以及矩方法,對(duì)零點(diǎn)修正的泊松分布和零點(diǎn)修正的幾何分布的參數(shù)進(jìn)行了估計(jì)。表2給出了參數(shù)的估計(jì)結(jié)果以及相應(yīng)的對(duì)數(shù)似然函數(shù)值,同時(shí)表2還給出了泊松分布和幾何分布的結(jié)果作為參考。表3列出了以貝葉斯估計(jì)為例的索賠次數(shù)分布的估計(jì)觀測(cè)數(shù),即樣本容量與索賠次數(shù)概率估計(jì)值的乘積。
表2 零點(diǎn)修正分布的參數(shù)估計(jì)結(jié)果和對(duì)數(shù)似然函數(shù)值
根據(jù)表2和表3中的結(jié)果,可以發(fā)現(xiàn)以下結(jié)論:
(1)無(wú)論是泊松分布還是幾何分布,零點(diǎn)修正后的分布的擬合效果明顯優(yōu)于原始分布的擬合效果,其原因主要在于原始分布對(duì)于零點(diǎn)的擬合較差。以表3中的貝葉斯估計(jì)為例,泊松分布在零點(diǎn)的估計(jì)觀測(cè)數(shù)為1628.09,幾何分布在零點(diǎn)的估計(jì)觀測(cè)數(shù)為1643.81,均小于實(shí)際樣本中索賠次數(shù)為0的觀測(cè)數(shù)1663。
(2)無(wú)論是哪種分布情況,由于貝葉斯估計(jì)的對(duì)數(shù)似然函數(shù)值最大,因此,貝葉斯估計(jì)的擬合效果優(yōu)于極大似然估計(jì)和矩方法估計(jì)的擬合效果。由于為分布的參數(shù)引入了先驗(yàn)分布,因此貝葉斯估計(jì)較其他兩種估計(jì)方法在可操作性上具有更大的靈活性,但需要指出的是如果先驗(yàn)分布選取不當(dāng),可能會(huì)造成其在估計(jì)上的誤差。
(3)針對(duì)表1中的樣本數(shù)據(jù),零點(diǎn)修正幾何分布的擬合效果優(yōu)于零點(diǎn)修正泊松分布的擬合效果,其原因在于前者對(duì)于樣本右尾部的擬合優(yōu)于后者。以表3中的貝葉斯估計(jì)為例,零點(diǎn)修正幾何分布中索賠次數(shù)為4次的期望值是1.24,零點(diǎn)修正泊松分布中索賠次數(shù)為4次的期望值是0.60,而實(shí)際樣本中索賠次數(shù)為4次的觀測(cè)值則是2。
表3 樣本的實(shí)際觀測(cè)數(shù)與分布的估計(jì)觀測(cè)數(shù)(貝葉斯估計(jì))
在保險(xiǎn)實(shí)務(wù)中,發(fā)生事故或索賠的概率通常較低,因此存在大量無(wú)索賠發(fā)生的保單,從而導(dǎo)致索賠次數(shù)的分布在零點(diǎn)的概率較大。傳統(tǒng)用于描述索賠次數(shù)分布的標(biāo)準(zhǔn)分布往往無(wú)法對(duì)零點(diǎn)概率進(jìn)行較好的估計(jì),進(jìn)而產(chǎn)生較大的估計(jì)誤差。因此,需要對(duì)標(biāo)準(zhǔn)分布在零點(diǎn)的概率進(jìn)行修正,由此產(chǎn)生新的分布族,即為零點(diǎn)修正分布。本文首先介紹了零點(diǎn)修正分布的定義,然后提出了三種零點(diǎn)修正分布參數(shù)的估計(jì)方法:極大似然估計(jì)、貝葉斯估計(jì)以及矩方法,最后以一組汽車保險(xiǎn)索賠次數(shù)的實(shí)例對(duì)三種估計(jì)方法進(jìn)行了比較。結(jié)果表明零點(diǎn)修正分布比傳統(tǒng)的標(biāo)準(zhǔn)分布具有更好的估計(jì)效果,而在這三種方法中貝葉斯估計(jì)具有最好的擬合效果。
[1]Panjer H.Zero-Modified Frequency Distributions[M].New Jer?sy:Wiley,2006.
[2]Klugman S,Panjer H,Willmot G.Loss Models:From Data to Decisions(2nd edition)[M].New Jersey:Wiley Series in Proba?bility and Statistics,2004.
[3]David N,Johnson T.The Truncated Poisson[J].Biometrics,1952,(8).
[4]Cohen A C.An Extension of A Truncated Poisson Distribution[J].Bio?metrics,1960,(16).
[5]Ridout M,Demetrio C,Hinde J.Models for Count Data With Many Zeros[J].Proceedings of the XIX International Biometric Conference,1998.
[6]Cheung Y B.Zero-inflated Models for Regression Analysis of Count Data:A Study of Growth and Development[J].Statistics in Medicine,[J].2002,(21).
[7]Lambert D.Zero-inflated Poisson Regression,With an Application to Defects in Manufacturing[J].Technometrics,1992,(34).
[8]Panjer H.Willmot G.Insurance Risk Models[M].Schaumburg:Society of Actuaries,1992.
[9]Lord D.Washington S P,Ivan J N.Poisson,Poisson-gamma and Ze?ro-inflated Regression Models for Motor Vehicle Crashes Balancing Statistical Fit and Theory[J].Accident Analysis and Prevention,2005,(37).
[10]Boucher J P,Denuit M,Guillen M.Risk Classification for Claim Counts:A Comparative Analysis of Various Zero-inflated Mixed Poisson and Hurdle Models[J].North American Actuarial Journal,2008,(11).