亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

一類(lèi)基于車(chē)險(xiǎn)數(shù)據(jù)的改進(jìn)Copula回歸模型

2020-06-18 06:10:10羅丹娜王達(dá)布希拉圖

廣州大學(xué)學(xué)報(bào)(自然科學(xué)版) 2020年6期

羅丹娜，王達(dá)布希拉圖

(廣州大學(xué) 經(jīng)濟(jì)與統(tǒng)計(jì)學(xué)院，廣東廣州 510006)

在非壽險(xiǎn)中，對(duì)保單總損失進(jìn)行估計(jì)是一項(xiàng)重要的精算任務(wù).一方面，非壽險(xiǎn)產(chǎn)品的保費(fèi)由保單的期望損失來(lái)制定，對(duì)損失估計(jì)的準(zhǔn)確與否將給保險(xiǎn)費(fèi)率的厘定帶來(lái)直接影響.另一方面，保險(xiǎn)準(zhǔn)備金的計(jì)提也與保單的期望損失有關(guān).因此，保單損失的估計(jì)對(duì)保險(xiǎn)公司的風(fēng)險(xiǎn)管理也具有至關(guān)重要的意義.

在傳統(tǒng)的總損失預(yù)測(cè)模型中，通常對(duì)索賠頻率和索賠強(qiáng)度分別進(jìn)行預(yù)測(cè),即常見(jiàn)的頻率-強(qiáng)度模型，將索賠頻率和索賠強(qiáng)度的預(yù)測(cè)值相乘即得總損失的預(yù)測(cè)值.對(duì)索賠頻率和索賠強(qiáng)度分別建立預(yù)測(cè)模型可以揭示索賠頻率和索賠強(qiáng)度的不同影響因素，從而有利于風(fēng)險(xiǎn)的識(shí)別和管理.然而，該方法隱含著一個(gè)重要的假設(shè)，即索賠頻率和索賠強(qiáng)度是相互獨(dú)立的[1]，而這種獨(dú)立性假設(shè)并不可能總是成立.例如，Gschl??l等[2]使用完整的貝葉斯方法分析了綜合的汽車(chē)保險(xiǎn)數(shù)據(jù)集，并檢測(cè)到索賠強(qiáng)度與索賠次數(shù)有一定的相依關(guān)系.此外，獨(dú)立性的假設(shè)過(guò)于嚴(yán)格，會(huì)導(dǎo)致對(duì)保單損失的系統(tǒng)性高估或低估，這顯然影響了保險(xiǎn)組合損失估計(jì)的準(zhǔn)確性.

盡管如此，現(xiàn)有的關(guān)于放松獨(dú)立性假設(shè)的研究仍然很少.截至目前，關(guān)于索賠頻率和索賠強(qiáng)度相依關(guān)系的模型可以分為四類(lèi)：Copula相依模型[3]、條件相依模型[2,4-5]、共同隨機(jī)效應(yīng)模型[6-7]以及相依性調(diào)整模型[8].

關(guān)于索賠變量間的相依性度量研究中，Czado等[9]及Kr?mer等[3]利用Copula回歸模型使索賠相依性深入到復(fù)雜協(xié)變量中，但其對(duì)變量的邊際分布往往主觀直取，缺乏一定的客觀性.為進(jìn)一步完善其建模方法，本文基于一組實(shí)際數(shù)據(jù)，用變量篩選和模型選擇的相關(guān)方法對(duì)邊際分布做出客觀選擇.本文選擇二元Frank Copula函數(shù)聯(lián)合索賠次數(shù)和索賠強(qiáng)度的邊際分布，給出保單總損失的擬合分布，并進(jìn)行相應(yīng)的實(shí)證分析.

1 Copula回歸模型

1.1 二元Copula模型

Copula是具有均勻邊際的多元分布函數(shù)，為構(gòu)造多元分布提供了自然的方法.其中，一個(gè)二元Copula C:[0,1]×[0,1]→[0,1]是[0,1]×[0,1]上具有均勻邊際分布函數(shù)的二元累積分布函數(shù)[3]. Sklar[10]證明了Copula的存在性.

Sklar定理(在二元情況下) 對(duì)于具有一元邊際分布函數(shù)FX和FY的二元隨機(jī)變量(X,Y)的每個(gè)聯(lián)合分布函數(shù)FX,Y，都存在一個(gè)二元Copula C，使得

FX,Y(x,y)=C(FX(x),FY(y))

(1)

如果X和Y是連續(xù)隨機(jī)變量，則Copula C是唯一的.反之，如果C是Copula，則上式定義具有邊際分布函數(shù)FX和FY的二元聯(lián)合分布.

依Sklar定理，Copula模型的建立主要分為兩步：①確定邊際分布；②選取一個(gè)適當(dāng)?shù)腃opula函數(shù)C，以便建立隨機(jī)變量間的聯(lián)合分布.

1.2 邊際分布的確定

本文考慮索賠強(qiáng)度X和索賠次數(shù)Y的聯(lián)合分布，由索賠變量本身的特點(diǎn)可知(X,Y)是一對(duì)取值均為正值的連續(xù)-離散型隨機(jī)變量.

對(duì)索賠強(qiáng)度X，本文初步假定服從某分布，如對(duì)數(shù)正態(tài)分布LOGNO(μ,σ2)，其密度函數(shù)為

fX(x|μ,σ)=

其中，x>0,μ>0,σ>0.分布的期望和方差分別為

Var(X)=(eσ2-1)e2μ+σ2.

而對(duì)索賠次數(shù)Y，本文初步假定服從某分布，如零截?cái)嗖此煞植糧TP(λ)，其密度函數(shù)為

其中，y=1,2,…,λ>0.零截?cái)嗖此煞植嫉钠谕头讲罘謩e為

沿用文獻(xiàn)[3,9]的做法，引入廣義線性模型.設(shè)μi=h(xi)為對(duì)數(shù)正態(tài)分布的均值參數(shù)，λi=λ(xi)vi為零截?cái)嗖此煞植嫉木祬?shù)，i(i=1,2,…)表示第i個(gè)保單持有人，vi為第i個(gè)保單持有人的風(fēng)險(xiǎn)暴露量，對(duì)特征空間ri∈p,si∈q,定義回歸函數(shù)h:X→+,λ:X→+,則

(2)

(3)

協(xié)變量矩陣ri和si在兩個(gè)模型中可以不同.

所謂Copula回歸模型,即基于一組協(xié)變量，將廣義線性模型應(yīng)用于邊際分布的均值回歸中，再用Copula函數(shù)對(duì)邊際分布進(jìn)行連接.

注意到在作者及相關(guān)文獻(xiàn)中鮮有研究邊際分布選擇方法的報(bào)道，本文對(duì)此缺失進(jìn)行補(bǔ)充，從而在客觀上分別給出較為合適的索賠強(qiáng)度和索賠次數(shù)的擬合分布.具體做法有以下兩點(diǎn).

(1)回歸變量的篩選

結(jié)合特征成分的相關(guān)性分析以及逐步回歸法對(duì)回歸變量進(jìn)行篩選，根據(jù)AIC準(zhǔn)則，選取關(guān)鍵的變量以減少模型的多重共線性.

(2)回歸模型的選擇

根據(jù)索賠強(qiáng)度和索賠次數(shù)各自分布的特點(diǎn)，本文分別考慮常用的幾種分布來(lái)對(duì)回歸模型(2)和(3)進(jìn)行擬合.為了檢驗(yàn)?zāi)Ｐ偷念A(yù)測(cè)性能，首先將數(shù)據(jù)集劃分為兩個(gè)集合：用D表示訓(xùn)練數(shù)據(jù)集(90%)、用T表示測(cè)試數(shù)據(jù)集(10%).

為了擬合單個(gè)模型，本文只使用訓(xùn)練數(shù)據(jù)集.通常情況下，這是通過(guò)最小化樣本內(nèi)損失(in-sample loss)來(lái)實(shí)現(xiàn)的.由于樣本內(nèi)損失容易過(guò)擬合，故本文綜合計(jì)算測(cè)試數(shù)據(jù)集的樣本外損失(out-of-sample loss)來(lái)進(jìn)行模型比較和性能分析.樣本內(nèi)損失和樣本外損失的明確定義見(jiàn)式(4)和式(5)[11].

(4)

(5)

最后，綜合考慮AIC、樣本內(nèi)損失和樣本外損失這三個(gè)統(tǒng)計(jì)量，確定索賠強(qiáng)度X和索賠次數(shù)Y的邊際分布.

1.3 Copula函數(shù)的選擇

在常用的阿基米德Copula函數(shù)中，F(xiàn)rank Copula的密度分布呈“U”字形，可以用于描述具有對(duì)稱(chēng)厚尾結(jié)構(gòu)變量的耦合關(guān)系, 并且囊括正負(fù)相關(guān)結(jié)構(gòu).Frank Copula函數(shù)如下：

C(u,v|θ)=

(6)

1.4 保單總損失的分布[3]

由Sklar定理，索賠強(qiáng)度X和索賠次數(shù)Y的聯(lián)合分布可以通過(guò)含有參數(shù)θ的Copula函數(shù)C(·,·|θ)來(lái)定義，即索賠強(qiáng)度和索賠次數(shù)(X,Y)的聯(lián)合分布為

FX,Y|θ(x,y)=C(FX(x),FY(y)|θ)

(7)

fX,Y(x,y|θ)=fX(x)(D1(FX(x),FY(y)|θ)-

D1(FX(x),FY(y-1)|θ))

(8)

為簡(jiǎn)便，將二維隨機(jī)變量記為(L,Y)T∈+×{1,2,…}.由X=L/Y得

(9)

對(duì)聯(lián)合密度函數(shù)fL,Y(l,y)求L的邊際分布函數(shù),最終保單總損失的密度函數(shù)為

fL(l|μ,σ,λ,θ)=

(10)

2 模型的參數(shù)估計(jì)[3]

(1)構(gòu)造對(duì)數(shù)似然函數(shù)

(11)

這里x=(x1,…,xn)T∈n，y=(y1,…,yn)T∈n.

(2)極大化對(duì)數(shù)似然函數(shù)

極大似然估計(jì)量可以由下式給出:

(12)

3 實(shí)證分析

3.1 數(shù)據(jù)描述

本文基于一組法國(guó)汽車(chē)第三者責(zé)任保險(xiǎn)數(shù)據(jù)進(jìn)行實(shí)證分析.該數(shù)據(jù)來(lái)源于R包CASdatasets中的freMTPL2freq和freMTPL2sev兩個(gè)數(shù)據(jù)集，見(jiàn)文獻(xiàn)[12].其主要收集了678 013份汽車(chē)第三者責(zé)任保單的風(fēng)險(xiǎn)特征(主要觀察期為一年).由于本文對(duì)非零索賠的保單數(shù)據(jù)進(jìn)行建模，所以首先根據(jù)保單ID將這兩個(gè)數(shù)據(jù)集進(jìn)行合并(此操作剔除了零索賠的保單數(shù)據(jù))，合并后的數(shù)據(jù)集含有26 444份非零索賠的保單，每份保單含有13個(gè)變量，變量描述如表1所示.

表1 法國(guó)汽車(chē)第三者責(zé)任保險(xiǎn)數(shù)據(jù)集變量

3.2 數(shù)據(jù)預(yù)處理[11]

首先，為保證模型的穩(wěn)健性，將索賠金額大于10萬(wàn)的41份保單數(shù)據(jù)作為異常值刪除，最終保留26 403份非零索賠保單數(shù)據(jù).其次，由圖2，索賠次數(shù)不小于4的保單數(shù)甚少，可以考慮將這些保單歸為一類(lèi)，即“索賠次數(shù)=4”這一類(lèi).圖3提供了風(fēng)險(xiǎn)暴露量的柱狀圖，可以發(fā)現(xiàn)，許多風(fēng)險(xiǎn)暴露量小于1年，實(shí)際上只有54份保單的風(fēng)險(xiǎn)暴露量大于1年，最小值為1天.筆者認(rèn)為所有觀察結(jié)果都應(yīng)在一個(gè)會(huì)計(jì)年度內(nèi)，對(duì)超過(guò)一年的Exposure進(jìn)行修正(將其設(shè)置為1).最后，本文根據(jù)圖1對(duì)法國(guó)地區(qū)代號(hào)進(jìn)行簡(jiǎn)化，例如用R24表示“Centre”，R93表示“Provence-Alpes-Cotes-D’Azur”.

圖1 法國(guó)22個(gè)地區(qū)

圖2 索賠次數(shù)直方圖

圖3 風(fēng)險(xiǎn)暴露量柱狀圖

3.3 描述性分析

若不考慮協(xié)變量的影響，在索賠發(fā)生的條件下，索賠次數(shù)觀察值與索賠強(qiáng)度觀察值之間的Pearson相關(guān)系數(shù)為-0.058 5，Kendall秩相關(guān)系數(shù)為-0.206，Spearman等級(jí)相關(guān)系數(shù)為-0.248，相關(guān)性檢驗(yàn)的P值都顯著不為0.這就意味著，該組數(shù)據(jù)的索賠次數(shù)與索賠強(qiáng)度之間確實(shí)存在一定程度的負(fù)相關(guān)關(guān)系，但相關(guān)系數(shù)的絕對(duì)值較小.表2給出部分特征成分相應(yīng)的Pearson相關(guān)系數(shù)和Spearman相關(guān)系數(shù).該部分可為下文的變量選擇提供參考.

表2 數(shù)值特征成分的相關(guān)性*

3.4 邊際分布的選擇

(1)索賠次數(shù)

首先，用逐步回歸的思想來(lái)挑選用于索賠次數(shù)擬合的變量.通過(guò)選擇最小的AIC信息統(tǒng)計(jì)量，最終得到索賠次數(shù)的協(xié)變量:VehPowerGLM、VehAgeGLM、VehGas、Region、DrivAgeGLM、BonusMalusGLM、VehBrand和AreaGLM.

由于索賠次數(shù)是計(jì)數(shù)數(shù)據(jù)，因此，本文主要考慮常用的泊松分布、負(fù)二項(xiàng)分布、零截?cái)嗖此煞植家约傲憬財(cái)嘭?fù)二項(xiàng)分布，分別對(duì)模型(5)進(jìn)行擬合，擬合結(jié)果如表3所示.

表3 不同分布假設(shè)的擬合結(jié)果

從表3中AIC及樣本內(nèi)、外損失三個(gè)統(tǒng)計(jì)量來(lái)看,零截?cái)嗖此煞植紝?duì)索賠次數(shù)的擬合效果最優(yōu).原因如下：

①該數(shù)據(jù)集只考慮非零索賠的保單，因此，索賠次數(shù)數(shù)據(jù)取值范圍為正值，故從本質(zhì)上講采用零截?cái)喾植紒?lái)擬合更合適.

②從E(ClaimNb)=1.122 5>var(ClaimNb)=0.142 32的角度看，該索賠次數(shù)數(shù)據(jù)不存在過(guò)離散現(xiàn)象，因此，使用零截?cái)嗖此煞植嫉臄M合效果略?xún)?yōu)于零截?cái)嘭?fù)二項(xiàng)分布.

(2)索賠強(qiáng)度

同樣地，用逐步回歸的思想來(lái)挑選用于索賠強(qiáng)度擬合的變量.最終在所有變量的基礎(chǔ)上剔除VehPowerGLM、AreaGLM及Region這三個(gè)變量.

圖4的直方圖描述了非零索賠保單在保險(xiǎn)期間的索賠金額.為使圖示更加清晰，該圖僅呈現(xiàn)索賠金額小于15 000元的數(shù)據(jù).可以看出，經(jīng)驗(yàn)索賠金額呈現(xiàn)出明顯的右偏特性.圖5表明索賠金額的對(duì)數(shù)存在比較明顯的對(duì)稱(chēng)特性.

圖4 索賠金額直方圖

圖5 對(duì)數(shù)索賠次數(shù)直方圖

表4給出了非零索賠的26 403份保單索賠強(qiáng)度的描述性統(tǒng)計(jì).該表顯示，個(gè)體保單的平均索賠強(qiáng)度為1 599，觀察到的最大索賠強(qiáng)度為96 422，該值遠(yuǎn)遠(yuǎn)大于所有個(gè)體保單索賠強(qiáng)度之和的0.01%.因此，索賠強(qiáng)度的分布初步判定為厚尾分布, 如伽馬分布和對(duì)數(shù)正態(tài)分布.

表4 索賠強(qiáng)度的數(shù)字特征

不同分布假設(shè)的擬合結(jié)果見(jiàn)表5.

表5 不同分布假設(shè)的擬合結(jié)果

從表5的擬合結(jié)果來(lái)看，伽馬分布的樣本內(nèi)損失略小于對(duì)數(shù)正態(tài)分布，但對(duì)數(shù)正態(tài)分布卻在AIC及樣本外損失這兩個(gè)統(tǒng)計(jì)量上表現(xiàn)出對(duì)索賠強(qiáng)度較好的擬合效果.原因如下：

①無(wú)論是索賠金額(ClaimAmount)還是索賠強(qiáng)度(ClaimSize)，它們的直方圖都呈現(xiàn)明顯的右偏、尖峰厚尾的特性，對(duì)它們?nèi)?duì)數(shù)后的直方圖都較為對(duì)稱(chēng).此外，本文計(jì)算得出的索賠強(qiáng)度的偏度和峰度分別為12.18和196.51，也佐證了右偏和尖峰厚尾的結(jié)論.

②資料顯示，對(duì)數(shù)正態(tài)分布適用于右偏數(shù)據(jù)[13].因此，最終采用對(duì)數(shù)正態(tài)分布來(lái)擬合索賠強(qiáng)度數(shù)據(jù).

至此，本文分別選取零截?cái)嗖此煞植?ZTP)以及對(duì)數(shù)正態(tài)分布(LOGNO)為索賠次數(shù)和索賠強(qiáng)度的擬合邊際分布.

3.5 保單總損失的擬合

圖6 ClaimNb=1時(shí)保單總損失的擬合分布

由圖6可看出，保單總損失的擬合密度函數(shù)呈現(xiàn)右偏、尖峰厚尾的特點(diǎn).這一結(jié)論與前文關(guān)于索賠強(qiáng)度的數(shù)據(jù)描述相吻合.為了更加直觀地展示該擬合結(jié)果的準(zhǔn)確性，本文選取了與圖6來(lái)自同批數(shù)據(jù)的ClaimAmount變量作直方圖，如圖7所示.可以看出，兩者具有一定的相似性：①兩者都呈現(xiàn)右偏、尖峰厚尾的特點(diǎn)；②從擬合的密度函數(shù)來(lái)看，保單的總損失主要集中在[0，5 000]區(qū)間上，與圖7的索賠總額區(qū)間大體一致.這在一定程度上體現(xiàn)了基于零截?cái)嗖此?對(duì)數(shù)正態(tài)分布的Frank Copula回歸模型的總損失估計(jì)的準(zhǔn)確性.特別指出的是，考慮索賠次數(shù)和索賠強(qiáng)度相依性的擬合密度函數(shù)對(duì)保單的總損失做出了較為保守的估計(jì)，這主要體現(xiàn)在擬合分布的尾部特征上.因此，有理由認(rèn)為，考慮相依性的保單總損失Copula回歸模型可以較為正確地評(píng)估汽車(chē)保險(xiǎn)中某些從人、從車(chē)等風(fēng)險(xiǎn)，從而產(chǎn)生更為合理的保費(fèi)評(píng)級(jí)，這也是對(duì)該數(shù)據(jù)集進(jìn)行研究的初衷.

圖7 索賠總額≤15 000的直方圖

4 結(jié) 論

在非壽險(xiǎn)損失預(yù)測(cè)模型中，傳統(tǒng)的定價(jià)方法通常假定索賠次數(shù)和索賠強(qiáng)度相互獨(dú)立.然而，本文從理論以及實(shí)證兩個(gè)角度出發(fā)，推斷出法國(guó)第三者責(zé)任保險(xiǎn)數(shù)據(jù)中索賠次數(shù)與索賠強(qiáng)度存在一定的負(fù)相依關(guān)系.

基于Copula回歸模型對(duì)保單總損失進(jìn)行估計(jì)的方法其優(yōu)勢(shì)是能夠?qū)⒁恍┲匾娘L(fēng)險(xiǎn)管理信息考慮進(jìn)模型中，且用一種靈活的相依結(jié)構(gòu)來(lái)刻畫(huà)變量間的相依性.本文主要從選取邊際分布的角度出發(fā)，結(jié)合變量篩選和模型選擇的相關(guān)方法對(duì)索賠次數(shù)和索賠強(qiáng)度的邊際分布進(jìn)行選取，并利用Frank Copula的特性對(duì)邊際分布函數(shù)進(jìn)行連接，最終給出保單總損失的擬合分布.

事實(shí)證明，考慮索賠強(qiáng)度與索賠次數(shù)客觀邊際分布及兩者間相依結(jié)構(gòu)特點(diǎn)的保單總損失估計(jì)模型將產(chǎn)生更為保守的保費(fèi)，對(duì)保險(xiǎn)公司制定合理的費(fèi)率有一定的參考意義.這也是遵從精算謹(jǐn)慎原則,使保險(xiǎn)公司減少遭受過(guò)大損失甚至破產(chǎn)的風(fēng)險(xiǎn).