羅丹娜, 王達(dá)布希拉圖
(廣州大學(xué) 經(jīng)濟(jì)與統(tǒng)計(jì)學(xué)院, 廣東 廣州 510006)
在非壽險(xiǎn)中,對(duì)保單總損失進(jìn)行估計(jì)是一項(xiàng)重要的精算任務(wù).一方面,非壽險(xiǎn)產(chǎn)品的保費(fèi)由保單的期望損失來(lái)制定,對(duì)損失估計(jì)的準(zhǔn)確與否將給保險(xiǎn)費(fèi)率的厘定帶來(lái)直接影響.另一方面,保險(xiǎn)準(zhǔn)備金的計(jì)提也與保單的期望損失有關(guān).因此,保單損失的估計(jì)對(duì)保險(xiǎn)公司的風(fēng)險(xiǎn)管理也具有至關(guān)重要的意義.
在傳統(tǒng)的總損失預(yù)測(cè)模型中,通常對(duì)索賠頻率和索賠強(qiáng)度分別進(jìn)行預(yù)測(cè),即常見(jiàn)的頻率-強(qiáng)度模型,將索賠頻率和索賠強(qiáng)度的預(yù)測(cè)值相乘即得總損失的預(yù)測(cè)值.對(duì)索賠頻率和索賠強(qiáng)度分別建立預(yù)測(cè)模型可以揭示索賠頻率和索賠強(qiáng)度的不同影響因素,從而有利于風(fēng)險(xiǎn)的識(shí)別和管理.然而,該方法隱含著一個(gè)重要的假設(shè),即索賠頻率和索賠強(qiáng)度是相互獨(dú)立的[1],而這種獨(dú)立性假設(shè)并不可能總是成立.例如,Gschl??l等[2]使用完整的貝葉斯方法分析了綜合的汽車(chē)保險(xiǎn)數(shù)據(jù)集,并檢測(cè)到索賠強(qiáng)度與索賠次數(shù)有一定的相依關(guān)系.此外,獨(dú)立性的假設(shè)過(guò)于嚴(yán)格,會(huì)導(dǎo)致對(duì)保單損失的系統(tǒng)性高估或低估,這顯然影響了保險(xiǎn)組合損失估計(jì)的準(zhǔn)確性.
盡管如此,現(xiàn)有的關(guān)于放松獨(dú)立性假設(shè)的研究仍然很少.截至目前,關(guān)于索賠頻率和索賠強(qiáng)度相依關(guān)系的模型可以分為四類(lèi):Copula相依模型[3]、條件相依模型[2,4-5]、共同隨機(jī)效應(yīng)模型[6-7]以及相依性調(diào)整模型[8].
關(guān)于索賠變量間的相依性度量研究中,Czado等[9]及Kr?mer等[3]利用Copula回歸模型使索賠相依性深入到復(fù)雜協(xié)變量中,但其對(duì)變量的邊際分布往往主觀直取,缺乏一定的客觀性.為進(jìn)一步完善其建模方法,本文基于一組實(shí)際數(shù)據(jù),用變量篩選和模型選擇的相關(guān)方法對(duì)邊際分布做出客觀選擇.本文選擇二元Frank Copula函數(shù)聯(lián)合索賠次數(shù)和索賠強(qiáng)度的邊際分布,給出保單總損失的擬合分布,并進(jìn)行相應(yīng)的實(shí)證分析.
Copula是具有均勻邊際的多元分布函數(shù),為構(gòu)造多元分布提供了自然的方法.其中,一個(gè)二元Copula C:[0,1]×[0,1]→[0,1]是[0,1]×[0,1]上具有均勻邊際分布函數(shù)的二元累積分布函數(shù)[3]. Sklar[10]證明了Copula的存在性.
Sklar定理(在二元情況下) 對(duì)于具有一元邊際分布函數(shù)FX和FY的二元隨機(jī)變量(X,Y)的每個(gè)聯(lián)合分布函數(shù)FX,Y,都存在一個(gè)二元Copula C,使得
FX,Y(x,y)=C(FX(x),FY(y))
(1)
如果X和Y是連續(xù)隨機(jī)變量,則Copula C是唯一的.反之,如果C是Copula,則上式定義具有邊際分布函數(shù)FX和FY的二元聯(lián)合分布.
依Sklar定理,Copula模型的建立主要分為兩步:①確定邊際分布;②選取一個(gè)適當(dāng)?shù)腃opula函數(shù)C,以便建立隨機(jī)變量間的聯(lián)合分布.
本文考慮索賠強(qiáng)度X和索賠次數(shù)Y的聯(lián)合分布,由索賠變量本身的特點(diǎn)可知(X,Y)是一對(duì)取值均為正值的連續(xù)-離散型隨機(jī)變量.
對(duì)索賠強(qiáng)度X,本文初步假定服從某分布,如對(duì)數(shù)正態(tài)分布LOGNO(μ,σ2),其密度函數(shù)為
fX(x|μ,σ)=
其中,x>0,μ>0,σ>0.分布的期望和方差分別為
Var(X)=(eσ2-1)e2μ+σ2.
而對(duì)索賠次數(shù)Y,本文初步假定服從某分布,如零截?cái)嗖此煞植糧TP(λ),其密度函數(shù)為
其中,y=1,2,…,λ>0.零截?cái)嗖此煞植嫉钠谕头讲罘謩e為
沿用文獻(xiàn)[3,9]的做法,引入廣義線性模型.設(shè)μi=h(xi)為對(duì)數(shù)正態(tài)分布的均值參數(shù),λi=λ(xi)vi為零截?cái)嗖此煞植嫉木祬?shù),i(i=1,2,…)表示第i個(gè)保單持有人,vi為第i個(gè)保單持有人的風(fēng)險(xiǎn)暴露量,對(duì)特征空間ri∈p,si∈q,定義回歸函數(shù)h:X→+,λ:X→+,則
(2)
(3)
協(xié)變量矩陣ri和si在兩個(gè)模型中可以不同.
所謂Copula回歸模型,即基于一組協(xié)變量,將廣義線性模型應(yīng)用于邊際分布的均值回歸中,再用Copula函數(shù)對(duì)邊際分布進(jìn)行連接.
注意到在作者及相關(guān)文獻(xiàn)中鮮有研究邊際分布選擇方法的報(bào)道,本文對(duì)此缺失進(jìn)行補(bǔ)充,從而在客觀上分別給出較為合適的索賠強(qiáng)度和索賠次數(shù)的擬合分布.具體做法有以下兩點(diǎn).
(1)回歸變量的篩選
結(jié)合特征成分的相關(guān)性分析以及逐步回歸法對(duì)回歸變量進(jìn)行篩選,根據(jù)AIC準(zhǔn)則,選取關(guān)鍵的變量以減少模型的多重共線性.
(2)回歸模型的選擇
根據(jù)索賠強(qiáng)度和索賠次數(shù)各自分布的特點(diǎn),本文分別考慮常用的幾種分布來(lái)對(duì)回歸模型(2)和(3)進(jìn)行擬合.為了檢驗(yàn)?zāi)P偷念A(yù)測(cè)性能,首先將數(shù)據(jù)集劃分為兩個(gè)集合:用D表示訓(xùn)練數(shù)據(jù)集(90%)、用T表示測(cè)試數(shù)據(jù)集(10%).
為了擬合單個(gè)模型,本文只使用訓(xùn)練數(shù)據(jù)集.通常情況下,這是通過(guò)最小化樣本內(nèi)損失(in-sample loss)來(lái)實(shí)現(xiàn)的.由于樣本內(nèi)損失容易過(guò)擬合,故本文綜合計(jì)算測(cè)試數(shù)據(jù)集的樣本外損失(out-of-sample loss)來(lái)進(jìn)行模型比較和性能分析.樣本內(nèi)損失和樣本外損失的明確定義見(jiàn)式(4)和式(5)[11].
(4)
(5)
最后,綜合考慮AIC、樣本內(nèi)損失和樣本外損失這三個(gè)統(tǒng)計(jì)量,確定索賠強(qiáng)度X和索賠次數(shù)Y的邊際分布.
在常用的阿基米德Copula函數(shù)中,F(xiàn)rank Copula的密度分布呈“U”字形,可以用于描述具有對(duì)稱(chēng)厚尾結(jié)構(gòu)變量的耦合關(guān)系, 并且囊括正負(fù)相關(guān)結(jié)構(gòu).Frank Copula函數(shù)如下:
C(u,v|θ)=
(6)
由Sklar定理,索賠強(qiáng)度X和索賠次數(shù)Y的聯(lián)合分布可以通過(guò)含有參數(shù)θ的Copula函數(shù)C(·,·|θ)來(lái)定義,即索賠強(qiáng)度和索賠次數(shù)(X,Y)的聯(lián)合分布為
FX,Y|θ(x,y)=C(FX(x),FY(y)|θ)
(7)
fX,Y(x,y|θ)=fX(x)(D1(FX(x),FY(y)|θ)-
D1(FX(x),FY(y-1)|θ))
(8)
為簡(jiǎn)便,將二維隨機(jī)變量記為(L,Y)T∈+×{1,2,…}.由X=L/Y得
(9)
對(duì)聯(lián)合密度函數(shù)fL,Y(l,y)求L的邊際分布函數(shù),最終保單總損失的密度函數(shù)為
fL(l|μ,σ,λ,θ)=
(10)
(1)構(gòu)造對(duì)數(shù)似然函數(shù)
(11)
這里x=(x1,…,xn)T∈n,y=(y1,…,yn)T∈n.
(2)極大化對(duì)數(shù)似然函數(shù)
極大似然估計(jì)量可以由下式給出:
(12)
本文基于一組法國(guó)汽車(chē)第三者責(zé)任保險(xiǎn)數(shù)據(jù)進(jìn)行實(shí)證分析.該數(shù)據(jù)來(lái)源于R包CASdatasets中的freMTPL2freq和freMTPL2sev兩個(gè)數(shù)據(jù)集,見(jiàn)文獻(xiàn)[12].其主要收集了678 013份汽車(chē)第三者責(zé)任保單的風(fēng)險(xiǎn)特征(主要觀察期為一年).由于本文對(duì)非零索賠的保單數(shù)據(jù)進(jìn)行建模,所以首先根據(jù)保單ID將這兩個(gè)數(shù)據(jù)集進(jìn)行合并(此操作剔除了零索賠的保單數(shù)據(jù)),合并后的數(shù)據(jù)集含有26 444份非零索賠的保單,每份保單含有13個(gè)變量,變量描述如表1所示.
表1 法國(guó)汽車(chē)第三者責(zé)任保險(xiǎn)數(shù)據(jù)集變量
首先,為保證模型的穩(wěn)健性,將索賠金額大于10萬(wàn)的41份保單數(shù)據(jù)作為異常值刪除,最終保留26 403份非零索賠保單數(shù)據(jù).其次,由圖2,索賠次數(shù)不小于4的保單數(shù)甚少,可以考慮將這些保單歸為一類(lèi),即“索賠次數(shù)=4”這一類(lèi).圖3提供了風(fēng)險(xiǎn)暴露量的柱狀圖,可以發(fā)現(xiàn),許多風(fēng)險(xiǎn)暴露量小于1年,實(shí)際上只有54份保單的風(fēng)險(xiǎn)暴露量大于1年,最小值為1天.筆者認(rèn)為所有觀察結(jié)果都應(yīng)在一個(gè)會(huì)計(jì)年度內(nèi),對(duì)超過(guò)一年的Exposure進(jìn)行修正(將其設(shè)置為1).最后,本文根據(jù)圖1對(duì)法國(guó)地區(qū)代號(hào)進(jìn)行簡(jiǎn)化,例如用R24表示“Centre”,R93表示“Provence-Alpes-Cotes-D’Azur”.
圖1 法國(guó)22個(gè)地區(qū)
圖2 索賠次數(shù)直方圖
圖3 風(fēng)險(xiǎn)暴露量柱狀圖
若不考慮協(xié)變量的影響,在索賠發(fā)生的條件下,索賠次數(shù)觀察值與索賠強(qiáng)度觀察值之間的Pearson相關(guān)系數(shù)為-0.058 5,Kendall秩相關(guān)系數(shù)為-0.206,Spearman等級(jí)相關(guān)系數(shù)為-0.248,相關(guān)性檢驗(yàn)的P值都顯著不為0.這就意味著,該組數(shù)據(jù)的索賠次數(shù)與索賠強(qiáng)度之間確實(shí)存在一定程度的負(fù)相關(guān)關(guān)系,但相關(guān)系數(shù)的絕對(duì)值較小.表2給出部分特征成分相應(yīng)的Pearson相關(guān)系數(shù)和Spearman相關(guān)系數(shù).該部分可為下文的變量選擇提供參考.
表2 數(shù)值特征成分的相關(guān)性*
(1)索賠次數(shù)
首先,用逐步回歸的思想來(lái)挑選用于索賠次數(shù)擬合的變量.通過(guò)選擇最小的AIC信息統(tǒng)計(jì)量,最終得到索賠次數(shù)的協(xié)變量:VehPowerGLM、VehAgeGLM、VehGas、Region、DrivAgeGLM、BonusMalusGLM、VehBrand和AreaGLM.
由于索賠次數(shù)是計(jì)數(shù)數(shù)據(jù),因此,本文主要考慮常用的泊松分布、負(fù)二項(xiàng)分布、零截?cái)嗖此煞植家约傲憬財(cái)嘭?fù)二項(xiàng)分布,分別對(duì)模型(5)進(jìn)行擬合,擬合結(jié)果如表3所示.
表3 不同分布假設(shè)的擬合結(jié)果
從表3中AIC及樣本內(nèi)、外損失三個(gè)統(tǒng)計(jì)量來(lái)看,零截?cái)嗖此煞植紝?duì)索賠次數(shù)的擬合效果最優(yōu).原因如下:
①該數(shù)據(jù)集只考慮非零索賠的保單,因此,索賠次數(shù)數(shù)據(jù)取值范圍為正值,故從本質(zhì)上講采用零截?cái)喾植紒?lái)擬合更合適.
②從E(ClaimNb)=1.122 5>var(ClaimNb)=0.142 32的角度看,該索賠次數(shù)數(shù)據(jù)不存在過(guò)離散現(xiàn)象,因此,使用零截?cái)嗖此煞植嫉臄M合效果略?xún)?yōu)于零截?cái)嘭?fù)二項(xiàng)分布.
(2)索賠強(qiáng)度
同樣地,用逐步回歸的思想來(lái)挑選用于索賠強(qiáng)度擬合的變量.最終在所有變量的基礎(chǔ)上剔除VehPowerGLM、AreaGLM及Region這三個(gè)變量.
圖4的直方圖描述了非零索賠保單在保險(xiǎn)期間的索賠金額.為使圖示更加清晰,該圖僅呈現(xiàn)索賠金額小于15 000元的數(shù)據(jù).可以看出,經(jīng)驗(yàn)索賠金額呈現(xiàn)出明顯的右偏特性.圖5表明索賠金額的對(duì)數(shù)存在比較明顯的對(duì)稱(chēng)特性.
圖4 索賠金額直方圖
圖5 對(duì)數(shù)索賠次數(shù)直方圖
表4給出了非零索賠的26 403份保單索賠強(qiáng)度的描述性統(tǒng)計(jì).該表顯示,個(gè)體保單的平均索賠強(qiáng)度為1 599,觀察到的最大索賠強(qiáng)度為96 422,該值遠(yuǎn)遠(yuǎn)大于所有個(gè)體保單索賠強(qiáng)度之和的0.01%.因此,索賠強(qiáng)度的分布初步判定為厚尾分布, 如伽馬分布和對(duì)數(shù)正態(tài)分布.
表4 索賠強(qiáng)度的數(shù)字特征
不同分布假設(shè)的擬合結(jié)果見(jiàn)表5.
表5 不同分布假設(shè)的擬合結(jié)果
從表5的擬合結(jié)果來(lái)看,伽馬分布的樣本內(nèi)損失略小于對(duì)數(shù)正態(tài)分布,但對(duì)數(shù)正態(tài)分布卻在AIC及樣本外損失這兩個(gè)統(tǒng)計(jì)量上表現(xiàn)出對(duì)索賠強(qiáng)度較好的擬合效果.原因如下:
①無(wú)論是索賠金額(ClaimAmount)還是索賠強(qiáng)度(ClaimSize),它們的直方圖都呈現(xiàn)明顯的右偏、尖峰厚尾的特性,對(duì)它們?nèi)?duì)數(shù)后的直方圖都較為對(duì)稱(chēng).此外,本文計(jì)算得出的索賠強(qiáng)度的偏度和峰度分別為12.18和196.51,也佐證了右偏和尖峰厚尾的結(jié)論.
②資料顯示,對(duì)數(shù)正態(tài)分布適用于右偏數(shù)據(jù)[13].因此,最終采用對(duì)數(shù)正態(tài)分布來(lái)擬合索賠強(qiáng)度數(shù)據(jù).
至此,本文分別選取零截?cái)嗖此煞植?ZTP)以及對(duì)數(shù)正態(tài)分布(LOGNO)為索賠次數(shù)和索賠強(qiáng)度的擬合邊際分布.
圖6 ClaimNb=1時(shí)保單總損失的擬合分布
由圖6可看出,保單總損失的擬合密度函數(shù)呈現(xiàn)右偏、尖峰厚尾的特點(diǎn).這一結(jié)論與前文關(guān)于索賠強(qiáng)度的數(shù)據(jù)描述相吻合.為了更加直觀地展示該擬合結(jié)果的準(zhǔn)確性,本文選取了與圖6來(lái)自同批數(shù)據(jù)的ClaimAmount變量作直方圖,如圖7所示.可以看出,兩者具有一定的相似性:①兩者都呈現(xiàn)右偏、尖峰厚尾的特點(diǎn);②從擬合的密度函數(shù)來(lái)看,保單的總損失主要集中在[0,5 000]區(qū)間上,與圖7的索賠總額區(qū)間大體一致.這在一定程度上體現(xiàn)了基于零截?cái)嗖此?對(duì)數(shù)正態(tài)分布的Frank Copula回歸模型的總損失估計(jì)的準(zhǔn)確性.特別指出的是,考慮索賠次數(shù)和索賠強(qiáng)度相依性的擬合密度函數(shù)對(duì)保單的總損失做出了較為保守的估計(jì),這主要體現(xiàn)在擬合分布的尾部特征上.因此,有理由認(rèn)為,考慮相依性的保單總損失Copula回歸模型可以較為正確地評(píng)估汽車(chē)保險(xiǎn)中某些從人、從車(chē)等風(fēng)險(xiǎn),從而產(chǎn)生更為合理的保費(fèi)評(píng)級(jí),這也是對(duì)該數(shù)據(jù)集進(jìn)行研究的初衷.
圖7 索賠總額≤15 000的直方圖
在非壽險(xiǎn)損失預(yù)測(cè)模型中,傳統(tǒng)的定價(jià)方法通常假定索賠次數(shù)和索賠強(qiáng)度相互獨(dú)立.然而,本文從理論以及實(shí)證兩個(gè)角度出發(fā),推斷出法國(guó)第三者責(zé)任保險(xiǎn)數(shù)據(jù)中索賠次數(shù)與索賠強(qiáng)度存在一定的負(fù)相依關(guān)系.
基于Copula回歸模型對(duì)保單總損失進(jìn)行估計(jì)的方法其優(yōu)勢(shì)是能夠?qū)⒁恍┲匾娘L(fēng)險(xiǎn)管理信息考慮進(jìn)模型中,且用一種靈活的相依結(jié)構(gòu)來(lái)刻畫(huà)變量間的相依性.本文主要從選取邊際分布的角度出發(fā),結(jié)合變量篩選和模型選擇的相關(guān)方法對(duì)索賠次數(shù)和索賠強(qiáng)度的邊際分布進(jìn)行選取,并利用Frank Copula的特性對(duì)邊際分布函數(shù)進(jìn)行連接,最終給出保單總損失的擬合分布.
事實(shí)證明,考慮索賠強(qiáng)度與索賠次數(shù)客觀邊際分布及兩者間相依結(jié)構(gòu)特點(diǎn)的保單總損失估計(jì)模型將產(chǎn)生更為保守的保費(fèi),對(duì)保險(xiǎn)公司制定合理的費(fèi)率有一定的參考意義.這也是遵從精算謹(jǐn)慎原則,使保險(xiǎn)公司減少遭受過(guò)大損失甚至破產(chǎn)的風(fēng)險(xiǎn).