徐 昕,郭念國(guó)
(1.首都經(jīng)濟(jì)貿(mào)易大學(xué)金融學(xué)院,北京100070;2.河南工業(yè)大學(xué)理學(xué)院,河南鄭州450001)
在擬合汽車(chē)保險(xiǎn)索賠次數(shù)的模型中,泊松分布模型是擬合索賠次數(shù)的最簡(jiǎn)單且常用的模型,具有均值與方差相等的特性。而索賠次數(shù)模型往往具有方差大于均值的性質(zhì),此時(shí)如果繼續(xù)使用泊松分布模型會(huì)低估參數(shù)的標(biāo)準(zhǔn)誤差,高估其顯著性水平,導(dǎo)致多余的解釋變量保留在預(yù)測(cè)模型中,最終導(dǎo)致不合理的保費(fèi)。
對(duì)于此類(lèi)問(wèn)題,研究人員通常利用各種不同的混合泊松模型來(lái)預(yù)測(cè)索賠次數(shù)。Ruohonen[1]提出結(jié)構(gòu)函數(shù)為三參數(shù)伽瑪函數(shù)的泊松分布,同時(shí)用實(shí)際損失數(shù)據(jù)與兩參數(shù)結(jié)構(gòu)函數(shù)泊松模型即負(fù)二項(xiàng)模型進(jìn)行了比較,得到了比較滿意的結(jié)果。Panjer[2]運(yùn)用廣義poisson-pascal分布(即Hofmann分布,含三個(gè)參數(shù))來(lái)建立汽車(chē)索賠次數(shù)模型,擬合效果也比較理想。Norison Ismail和 Aziz Jemain[3]討論了負(fù)二項(xiàng)回歸模型和廣義泊松回歸模型的參數(shù)估計(jì)及其在索賠頻率預(yù)測(cè)中的應(yīng)用,而Denuit Michel[4]等人應(yīng)用負(fù)二項(xiàng)回歸、泊松-逆高斯回歸和泊松-對(duì)數(shù)正態(tài)回歸對(duì)汽車(chē)保險(xiǎn)的索賠頻率進(jìn)行了實(shí)證研究。國(guó)內(nèi)關(guān)于索賠頻率模型的研究主要有孟生旺和袁衛(wèi)[5]用混合Poisson模型研究了非同質(zhì)風(fēng)險(xiǎn)的索賠分布。高洪忠、任燕燕[6]研究了一類(lèi)更廣泛的分布,即GPSJ類(lèi)分布,這類(lèi)分布描述了一次風(fēng)險(xiǎn)事件多種索賠結(jié)果的情況。毛澤春和劉錦蕚[7]分析了免賠額及NCD賠付條件對(duì)索賠次數(shù)分布的影響,通過(guò)比較風(fēng)險(xiǎn)事件與索賠事件的差異引出了一類(lèi)同質(zhì)集合保單索賠次數(shù)的分布(Poisson-Gamma)。毛澤春和劉錦蕚[8]引出了一類(lèi)指數(shù)類(lèi)混合型索賠次數(shù)的分布并研究了其散度(dispersion)的性質(zhì),同時(shí)給出了擬合類(lèi)分布的矩估計(jì)方法。徐昕、袁衛(wèi)、孟生旺[9]將兩參數(shù)負(fù)二項(xiàng)回歸模型推廣到三參數(shù)情況,并利用新模型對(duì)Yip和Yau[10]中的汽車(chē)保險(xiǎn)損失數(shù)據(jù)進(jìn)行了擬合,得到了較好的效果,提出了解決過(guò)離散問(wèn)題的一種新辦法。
學(xué)者們的研究大多數(shù)集中在混合泊松分布模型上,而雙泊松分布模型也是一類(lèi)離散型分布模型,具有方差大于均值的特性,但關(guān)于利用雙泊松回歸模型預(yù)測(cè)汽車(chē)保險(xiǎn)索賠次數(shù)的文獻(xiàn)并不多見(jiàn)。本文將在下面內(nèi)容中詳細(xì)介紹雙泊松回歸模型的性質(zhì)及參數(shù)估計(jì),并且利用該模型來(lái)擬合一組實(shí)際的汽車(chē)保險(xiǎn)索賠數(shù)據(jù),并將其結(jié)果與泊松回歸模型的擬合進(jìn)行比較分析。
為便于討論,假設(shè)共有p個(gè)分類(lèi)變量,將所有保單分為n個(gè)風(fēng)險(xiǎn)類(lèi)別,其中第i個(gè)風(fēng)險(xiǎn)類(lèi)別在p個(gè)分類(lèi)變量上的取值用xi=(xi1,xip)T表示,T表示轉(zhuǎn)置。用wi表示第i個(gè)類(lèi)別包含的風(fēng)險(xiǎn)單位數(shù)(如汽車(chē)保險(xiǎn)中的車(chē)年數(shù))。
令Yi表示第i個(gè)風(fēng)險(xiǎn)類(lèi)別的索賠次數(shù)隨機(jī)變量,i=1,2…,n。如果Yi服從泊松分布,則其概率函數(shù)為:
泊松分布的均值與方差相等,即E(Yi)=Var(Yi)=λi。若令 λi=wiexp(xTiβ),即可得到泊松回歸模型,其中β是p×1階的參數(shù)向量。容易求得泊松回歸模型的對(duì)數(shù)似然函數(shù)為:
回歸參數(shù)β的極大似然估計(jì)可以通過(guò)下述似然方程組求得:
為了求得參數(shù)估計(jì)的標(biāo)準(zhǔn)誤差,首先需要計(jì)算Hessian矩陣,其中的元素是關(guān)于對(duì)數(shù)似然函數(shù)的二階偏導(dǎo)數(shù),即
因此信息矩陣的元素為
對(duì)信息矩陣對(duì)角線上的元素先求導(dǎo)數(shù),然后再開(kāi)方,即可得到參數(shù)估計(jì)的標(biāo)準(zhǔn)誤差。
雖然無(wú)法確定雙泊松分布是否也是一種混合泊松分布,但由于其具有方差大于均值的特征,因此也可以用于過(guò)離散數(shù)據(jù)的處理。雙泊松分布的概率函數(shù)可以表示為:
此處對(duì)雙泊松分布形式不同于Yip和Yau文獻(xiàn)中的雙泊松回歸模型。這樣做的目的是使其均值正好等于λi,與其他分布保持一致。如果采用其他的參數(shù)形式,譬如,如果參數(shù)的形式使得雙泊松分布的均值正好為λi/θ(參見(jiàn)Yip和Yau),則截距項(xiàng)的估計(jì)值將發(fā)生變化,但索賠頻率的預(yù)測(cè)值不會(huì)受到影響。
從上述方差和均值的關(guān)系可以看出,當(dāng)θ在區(qū)間(0,1)之間變化時(shí),θ越小,雙泊松分布的過(guò)離散程度越嚴(yán)重,因此我們將g=q定義為雙泊松分布的離散參數(shù)。當(dāng)θ→1時(shí),雙泊松分布退化為泊松分布。容易求得雙泊松回歸的對(duì)數(shù)似然函數(shù)為:
對(duì)上式求偏導(dǎo),可以得到模型的似然方程組為:
雙泊松回歸的Hessian矩陣H的元素也很容易求得:
因此雙泊松回歸的信息矩陣的元素為
對(duì)于索賠數(shù)據(jù)是否具有過(guò)離散的特征,通常利用兩種方法來(lái)判斷。一是在普通最小二乘回歸模型的基礎(chǔ)上建立的統(tǒng)計(jì)量(Cameron 和 Trivedi[11]),滿足下述條件
其中的λi=exp(xiβ),ei是隨機(jī)誤差項(xiàng)。如果系數(shù)α的t統(tǒng)計(jì)量顯著,說(shuō)明存在過(guò)離散特征。
另外一種方法是拉格朗日乘法(Lagrange Multiplier)檢驗(yàn)(Greene[12]提出的)。LM 統(tǒng)計(jì)量可以簡(jiǎn)單表示為
其中的 λ =(λ1,…,λn)',λi=exp(xiβ),e=y -λ,y=(y1,…,yn)。在零假設(shè)為泊松分布的條件下,LM統(tǒng)計(jì)量服從自由度為1的x2分布。
對(duì)模型擬合優(yōu)度進(jìn)行評(píng)價(jià)可以使用Akaike Information Criteria(AIC)統(tǒng)計(jì)量和Bayesian Schwartz Criteria(BIC)統(tǒng)計(jì)量。AIC 統(tǒng)計(jì)量定義為(Akaike[13]):
其中l(wèi)表示對(duì)數(shù)似然值,p為參數(shù)的個(gè)數(shù)。AIC的值越小,表明模型的擬合越好。
BIC 統(tǒng)計(jì)量定義為(Schwartz[14]):
其中的l也表示對(duì)數(shù)似然值,p為模型的參數(shù)個(gè)數(shù),n為觀測(cè)值的個(gè)數(shù),BIC的值越小,模型擬合越好。
本節(jié)選用一組來(lái)自SAS Enterprise Miner數(shù)據(jù)庫(kù)中的汽車(chē)保險(xiǎn)數(shù)據(jù)。原始數(shù)據(jù)中有10303個(gè)觀測(cè)值,其中大約有6%的缺失,數(shù)據(jù)包含索賠概況、駕駛記錄、保單信息、被保險(xiǎn)人個(gè)人信息。索賠概況記錄了被保險(xiǎn)人的索賠頻數(shù)、索賠額、索賠時(shí)間等信息;駕駛記錄包括駕駛?cè)说姆謹(jǐn)?shù)、過(guò)去7年中是否被吊銷(xiāo)駕駛執(zhí)照;保單信息有被保險(xiǎn)車(chē)輛的行駛區(qū)域、行駛時(shí)間、汽車(chē)價(jià)格、顏色、用途等;被保險(xiǎn)人的個(gè)人信息有年齡、性別、教育程度、工作類(lèi)型、婚姻狀況、年收入等。選取與Yip和Yau相同的費(fèi)率因子(見(jiàn)表1),其中收入為連續(xù)變量,其余為屬性變量,從10303個(gè)客戶(hù)中隨機(jī)抽取了4412個(gè)有效記錄。
表1 費(fèi)率因子
首先依據(jù)第一種方法利用統(tǒng)計(jì)軟件SAS的回歸模塊(即PROC REG)得到結(jié)果見(jiàn)下表2,很明顯預(yù)測(cè)變量的P值顯著。
表2 預(yù)測(cè)值的估計(jì)結(jié)果
表2 預(yù)測(cè)值的估計(jì)結(jié)果
?
同樣,利用拉格朗日乘法(Lagrange Multiplier),利用SAS中IML模塊求得LM值為128.47816,并且顯著。
從兩種檢驗(yàn)方法可以判定,損失數(shù)據(jù)存在過(guò)離散問(wèn)題。
從下表3中的回歸模型擬合結(jié)果來(lái)看,雙泊松回歸模型和泊松回歸模型的參數(shù)估計(jì)值差別不大,顯著性水平因子也相同。但由前面判斷,此數(shù)據(jù)存在過(guò)離散特性,泊松回歸模型費(fèi)率因子參數(shù)估計(jì)標(biāo)準(zhǔn)誤差明顯小于雙泊松回歸模型。從整體上看,無(wú)論是AIC還是BIC,對(duì)于該組索賠數(shù)據(jù)而言,雙泊松回歸模型的擬合效果要明顯優(yōu)于普通泊松回歸模型。
表3 回歸模型擬合結(jié)果
雙泊松分布模型雖然不能歸為混合泊松模型,但雙泊松分布模型同樣具有方差大于均值特性,從本文中的實(shí)證分析也可以看出,對(duì)于處理具有過(guò)離散特征的損失數(shù)據(jù),雙泊松分布可以看做為一種解決辦法,也同樣可以達(dá)到改善擬合結(jié)果的效果。
[1] Ruohonen,M..On amodel for claim number process[J].Astin Bulletin,1987(18):57-68.
[2]Panjer,H.H.,Recursive Evaluation of a Family of Compound Distributions[J].Astin Bulletin,1981(12):22 - 26.
[3] Noriszura,I.,&Abdul,A.J..Handling Overdispersion with Negative Binomial and Generalized Poisson Regression Models,2007 CAS Ratemaking Call Papers,2007:103 - 158.www.casact.org/pubs/forum/07wforum/07w109.pdf
[4] Denuit,M.,Marechal,=.,Pitrebois,S.,&Walhin J.F..Actuarial Modeling of Claim Counts:Risk Classification,Credibility and Bonus- Mallus Scales[M].NewYork:Wilely,2007.
[5] 孟生旺,袁衛(wèi).汽車(chē)保險(xiǎn)的精算模型及其應(yīng)用[J].數(shù)理統(tǒng)計(jì)與管理,2001,20(3):60 -65.
[6] 高洪忠,任燕燕.二維GPSJ類(lèi)分布及其在保險(xiǎn)中的應(yīng)用[J].中國(guó)管理科學(xué),2004,12(4):30 -34.
[7] 毛澤春,劉錦蕚.免賠額和NCD賠付條件下保險(xiǎn)索賠次數(shù)的分布[J].中國(guó)管理科學(xué),2005,13(5):1 -5.
[8] 毛澤春,劉錦萼.指數(shù)類(lèi)混合型索賠次數(shù)的分布及其應(yīng)用[J].應(yīng)用概率統(tǒng)計(jì),2008,24(1):1 -11.
[9] 徐昕,袁衛(wèi),孟生旺.負(fù)二項(xiàng)回歸模型的推廣及其在分類(lèi)費(fèi)率厘定中的應(yīng)用[J].數(shù)理統(tǒng)計(jì)與管理,2010,29(4):656 -661.
[10] Yip,K.C.H.,Yau,K.K.W.On Modeling Claim Frequency Data in General Insurance with Extra Zeros[J].Insurance:Mathematics and Economics.2005 ,Vol 36,153-163.
[11] Cameron,A.C.and Trivedi,P.K.Count Data Models for Financial Data[J].Handbook of Statistics,Statistical Methods in Finance,1996,Vol 14,363-392,Amsterdam,North-Holland.
[12] Greene,W.Econometric Analysis(6th edition)[M].Prentice Hall:Englewood Cliffs.
[13] H.Akaike.Information Theory and an Extension of the Maximum Likelihood Principle[J].Proceedings of the 2nd International Symposium on Information Theory,Akademiai Kiade,Budapest,1973,267 -281.
[14] G.Schwartz.Estimating the Dimension ofa Model[J].Annals of Statistics,1978,Vol 6,461 -464.
[15] SAS Institute Inc.Solving business problems using SA Senter prise miners of eware[J].SAS Institute White Paper.1998,(Cary,NC:SAS Institute Inc.).