楊小藜 孫 榮
(1.重慶工商大學(xué) 數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,重慶 400067;2.重慶工商大學(xué) 社會(huì)經(jīng)濟(jì)應(yīng)用統(tǒng)計(jì)重慶市重點(diǎn)實(shí)驗(yàn)室,重慶 400067)
2020年9月,車(chē)險(xiǎn)綜合改革正式開(kāi)啟,進(jìn)一步提高了車(chē)險(xiǎn)費(fèi)率的市場(chǎng)化程度。雖然車(chē)險(xiǎn)費(fèi)改有良好的發(fā)展勢(shì)頭,但車(chē)險(xiǎn)市場(chǎng)仍然存在諸多問(wèn)題。在車(chē)險(xiǎn)費(fèi)率逐漸放開(kāi)的背景下,市場(chǎng)對(duì)財(cái)險(xiǎn)公司的定價(jià)能力和產(chǎn)品創(chuàng)新能力提出了更高要求,車(chē)險(xiǎn)費(fèi)率市場(chǎng)化改革已經(jīng)成為當(dāng)前監(jiān)管和研究的一大熱門(mén),如何運(yùn)用精算方法優(yōu)化車(chē)險(xiǎn)費(fèi)率厘定模式,使其更加科學(xué)精準(zhǔn),成為研究者的關(guān)注點(diǎn)。在非壽險(xiǎn)精算領(lǐng)域,人們普遍采用的是廣義線(xiàn)性模型(GLM),該模型的基本結(jié)構(gòu)涵蓋了隨機(jī)成分、系統(tǒng)成分以及連接函數(shù),隨機(jī)成分的特點(diǎn)是在滿(mǎn)足獨(dú)立的條件下突破傳統(tǒng)的觀測(cè)變量屬于正態(tài)分布的假設(shè),從而擴(kuò)展到更通用的指數(shù)分布族。系統(tǒng)成分是指解釋變量的線(xiàn)性組合形式,再通過(guò)連接函數(shù)創(chuàng)建響應(yīng)變量的均值參數(shù)和解釋變量間的線(xiàn)性聯(lián)系。廣義線(xiàn)性混合模型(GLMM)能夠通過(guò)加入隨機(jī)效應(yīng)從而對(duì)不同觀測(cè)之間的相關(guān)性和因?yàn)闆](méi)有觀測(cè)到的特征引起的異質(zhì)性問(wèn)題加以解釋。廣義線(xiàn)性模型(GLM)的另一個(gè)發(fā)展方向是廣義可加模型(GAM),該模型的主要不同點(diǎn)是在系統(tǒng)成分中有個(gè)別解釋變量可以用非參數(shù)等方法,進(jìn)而通過(guò)平滑處理、樣條展開(kāi)等形式對(duì)因變量的均值函數(shù)加以解釋。這類(lèi)模型主要用于實(shí)際工作中需要分析連續(xù)型變量的情況,該模型相較于傳統(tǒng)的GLM模型可以?xún)?yōu)化建模效果,更好地解釋各變量對(duì)因變量的影響。
基于位置、尺度和形狀參數(shù)的廣義可加模型(GAMLSS)由Rigby和Stasinopoulos在2005年提出。拓展的廣義可加模型相較于GLM、GLMM和GAM模型具有更突出的優(yōu)勢(shì):一是在隨機(jī)成分方面,觀測(cè)值分布族不再局限于指數(shù)分布族,可以擴(kuò)展到更一般的高度偏斜、連續(xù)型或離散型分布,類(lèi)似零調(diào)整伽馬分布等。二是在系統(tǒng)成分中,涵蓋了解釋變量的參數(shù)形式和非參數(shù)形式,同時(shí)設(shè)置隨機(jī)效應(yīng)解釋異質(zhì)性等問(wèn)題。三是在連接函數(shù)方面,通過(guò)連接函數(shù),可以實(shí)現(xiàn)對(duì)因變量分布的包括尺度和形狀參數(shù)在內(nèi)的所有參數(shù)建立回歸模型。由此可見(jiàn),在當(dāng)前進(jìn)行精算領(lǐng)域研究中,GAMLSS模型擁有突出的優(yōu)勢(shì)。GAMLSS模型允許將響應(yīng)變量分布的所有參數(shù)建模為解釋變量的線(xiàn)性、非線(xiàn)性或者平滑函數(shù)[1]。
GAMLSS模型是包含GLM、GAM、GLMM模型的更一般的模型,除此以外還包括零調(diào)整逆高斯模型[2]和離散參數(shù)模型[3]在內(nèi)的其他拓展模型。Klein和Denuit(2014)[4]通過(guò)一組比利時(shí)汽車(chē)保險(xiǎn)組合的詳細(xì)案例,分別利用負(fù)二項(xiàng)和零膨脹泊松分布擬合索賠頻率,通過(guò)基于零調(diào)整建立對(duì)數(shù)正態(tài)和逆高斯分布依次對(duì)索賠額進(jìn)行建模。呂定海和黃大慶(2013)[5]基于國(guó)外一組損失數(shù)據(jù)率先探討GAMLSS模型在索賠頻率和索賠額方面的應(yīng)用,將其結(jié)果和GLM模型對(duì)比,得出了GLM模型在考慮混合、截?cái)喾植嫉确矫姹憩F(xiàn)乏力的結(jié)論。孫維偉和陳偉珂(2016)[6]主要考慮了零值存在的影響,故對(duì)索賠次數(shù)和索賠額各自在零膨脹、零調(diào)整有限混合分布的假設(shè)下建立GAMLSS模型,用EM算法進(jìn)行參數(shù)估計(jì)。劉新紅和馮媛等(2017)[7]針對(duì)縱向數(shù)據(jù)通常存在異質(zhì)性問(wèn)題進(jìn)行重點(diǎn)討論,證實(shí)了加入隨機(jī)效應(yīng)的GAMLSS模型可以更加靈活地解釋個(gè)體保單的差異性,同時(shí)不同時(shí)期的同一個(gè)體的相關(guān)結(jié)構(gòu)保持不變。王選鶴和孟生旺等(2017)[8]對(duì)損失分布的尾部特征運(yùn)用密度函數(shù)極限法進(jìn)行刻畫(huà),考慮二型廣義貝塔(GB2)分布假設(shè)下的GAMLSS定價(jià)模型并將其運(yùn)用到索賠額模型中。
與廣義線(xiàn)性模型、廣義線(xiàn)性混合模型和廣義可加模型不同,基于位置、尺度和形狀參數(shù)的廣義可加模型(GAMLSS)是更有一般性、概括性的模型,該模型擁有拓展響應(yīng)變量的分布族范圍的功能,從而更有利于描述具有偏度和高峰度、過(guò)離散等特征在內(nèi)的索賠數(shù)據(jù)。GAMLSS模型的另一項(xiàng)功能是可以同時(shí)對(duì)位置、尺度和形狀參數(shù)建立回歸模型,使模型更加全面精確地刻畫(huà)數(shù)據(jù)特征,理論和實(shí)踐方面都比傳統(tǒng)的GLM模型等更加精細(xì)和科學(xué)。
GAMLSS模型假設(shè)響應(yīng)變量y=(y1,y2,…,yn)Τ各自相互獨(dú)立,參數(shù)向量為θi=(θi1,…,θip)Τ,觀測(cè)值響應(yīng)變量的密度函數(shù)為f(yi|θi),通過(guò)連接函數(shù)gk(·)表示分布參數(shù)與解釋變量間的關(guān)系:
其中,θk和ηk為n維隨機(jī)向量,Xk和Zjk均是已知的設(shè)計(jì)矩陣,參數(shù)向量βk=(β1k,…,βJ'kk)Τ,變量γjk來(lái)自多維正態(tài)分布。
根據(jù)以上結(jié)構(gòu)形式,可以建立的各個(gè)分布參數(shù)的模型為:
式中,μ、σ、ν、τ分別代表位置參數(shù)、尺度參數(shù)、偏度和峰度參數(shù)。
負(fù)二項(xiàng)分布是泊松與伽馬分布的混合分布,其概率密度函數(shù)為:
當(dāng)計(jì)數(shù)數(shù)據(jù)中不含零值時(shí)稱(chēng)該現(xiàn)象為零截?cái)?,相?yīng)的零截?cái)嘭?fù)二項(xiàng)分布的密度函數(shù)形式如下:
指數(shù)分布族中包含了常見(jiàn)的伽馬分布,通常該分布用于擬合索賠額等連續(xù)型變量,其概率函數(shù)形式如下:
逆高斯分布同樣主要用于擬合索賠額大于零的連續(xù)型變量,通過(guò)圖1可以看出當(dāng)均值和方差都相同時(shí),如果索賠數(shù)據(jù)呈現(xiàn)尖峰厚尾型狀態(tài),那么逆高斯分布比伽馬分布更適合刻畫(huà)索賠數(shù)據(jù),它的概率密度函數(shù)如下:
圖1 相同條件下的伽馬和逆高斯分布圖
本文數(shù)據(jù)集源于瑞典第三方汽車(chē)保險(xiǎn)索賠數(shù)據(jù)(數(shù)據(jù)來(lái)源:www.statsci.org)。該數(shù)據(jù)集整體包含7個(gè)變量,其中有風(fēng)險(xiǎn)暴露數(shù)(Insured)、索賠次數(shù)(Claims)、總索賠額(Payment);4個(gè)影響因素分別是每年駕駛的公里數(shù)(Kilometres,分5類(lèi))、行駛地區(qū)(Zone,分7類(lèi))、無(wú)賠款折扣等級(jí)(Bonus,分7類(lèi))、車(chē)型(Make,分9類(lèi))。
原始數(shù)據(jù)中共有2182個(gè)風(fēng)險(xiǎn)等級(jí),為了方便對(duì)索賠強(qiáng)度建模,首先篩除索賠次數(shù)為0的風(fēng)險(xiǎn)等級(jí),這樣一共包含了1797個(gè)風(fēng)險(xiǎn)等級(jí),并基于此數(shù)據(jù)集展開(kāi)索賠頻率和索賠強(qiáng)度的建模。通過(guò)初步分析,將各個(gè)影響因子中觀測(cè)值個(gè)數(shù)較多的風(fēng)險(xiǎn)等級(jí)設(shè)為基準(zhǔn)風(fēng)險(xiǎn)類(lèi)別,各個(gè)因子的基準(zhǔn)風(fēng)險(xiǎn)等級(jí)分別為Kilometres=2、Zone=4、Bonus=7、Make=9。
圖2 索賠頻率分布圖
圖3 索賠強(qiáng)度分布圖
構(gòu)建響應(yīng)變量的模型時(shí),將索賠次數(shù)作為因變量,將風(fēng)險(xiǎn)暴露數(shù)的對(duì)數(shù)作為調(diào)整項(xiàng)建立索賠頻率模型。由各個(gè)風(fēng)險(xiǎn)類(lèi)別的索賠額與索賠次數(shù)之比求得索賠強(qiáng)度的值,即平均每次的賠款金額。針對(duì)索賠頻率,分別考慮傳統(tǒng)的泊松分布、負(fù)二項(xiàng)分布和零截?cái)喾植?,從而建立相?yīng)的廣義線(xiàn)性模型(GLM)和拓展的廣義可加模型(GAMLSS)。針對(duì)索賠強(qiáng)度模型,分別考慮伽馬分布和逆高斯分布,通過(guò)GAMLSS模型建立只含均值參數(shù)的模型和含有所有參數(shù)的模型,并比較它們的擬合效果。
利用AIC和BIC最小信息準(zhǔn)則以及分位殘差QQ圖,對(duì)模型效果進(jìn)行診斷和篩選。AIC和BIC度量模型中的損失信息量,所以這兩項(xiàng)值都應(yīng)該越小越好,即值越小,模型的精確度越高。分位殘差QQ圖中,用對(duì)角線(xiàn)近似擬合樣本數(shù)據(jù),即觀測(cè)數(shù)據(jù)與對(duì)角線(xiàn)越貼近說(shuō)明模型的擬合效果越可靠。綜合考慮信息準(zhǔn)則和QQ圖的情況,能夠使模型選擇更加可靠、科學(xué)。
表1 索賠頻率
表2 索賠強(qiáng)度
圖4 泊松分布GLM模型
圖5 零截?cái)嗖此煞植糋AMLSS模型
圖6 負(fù)二項(xiàng)分布GLM模型
圖7 零截?cái)嘭?fù)二項(xiàng)分布GAMLSS模型
圖8 伽馬分布GAMLSS模型
圖9 逆高斯分布GAMLSS模型
模型選擇方面,通過(guò)比較AIC、BIC以及分位殘差圖,可以得出以下結(jié)論:對(duì)于索賠頻率模型,基于負(fù)二項(xiàng)分布的廣義線(xiàn)性模型優(yōu)于泊松廣義線(xiàn)性模型;而考慮零截?cái)嘭?fù)二項(xiàng)模型后,發(fā)現(xiàn)該模型的綜合表現(xiàn)最為突出,即選擇零截?cái)嘭?fù)二項(xiàng)分布的GAMLSS模型擬合索賠頻率。對(duì)于索賠強(qiáng)度模型,不論是伽馬分布還是逆高斯分布,考慮位置、尺度參數(shù)的GAMLSS模型都比只含有位置參數(shù)的GLM模型更精確可靠。最終選擇基于逆高斯分布的GAMLSS模型擬合索賠強(qiáng)度。
通過(guò)參數(shù)估計(jì)結(jié)果可以發(fā)現(xiàn),對(duì)于索賠頻率模型,零截?cái)嘭?fù)二項(xiàng)分布的GAMLSS模型有良好的擬合效果,大部分變量在分布參數(shù)下表現(xiàn)顯著。對(duì)于索賠強(qiáng)度模型,各個(gè)影響因子對(duì)位置、尺度參數(shù)的影響大部分顯著性較高,說(shuō)明能夠估計(jì)所有分布參數(shù)的GAMLSS模型更具優(yōu)勢(shì)?;貧w系數(shù)中,行駛里程數(shù)對(duì)索賠頻率有正向影響,即行駛里程數(shù)越大,發(fā)生索賠的概率越大。在所有地區(qū)中,大城市比農(nóng)村地區(qū)、小城市更易發(fā)生事故,這與大城市車(chē)流量、人流量更大,道路更加擁堵有關(guān)。對(duì)于無(wú)折扣賠款因子,無(wú)折扣賠款等級(jí)越高,對(duì)應(yīng)的索賠發(fā)生概率越低。車(chē)型因子方面,索賠頻率最高的是車(chē)型5,最低的是車(chē)型4;車(chē)型8的索賠強(qiáng)度最高,車(chē)型4的索賠強(qiáng)度最低。通過(guò)各個(gè)風(fēng)險(xiǎn)等級(jí)對(duì)索賠頻率和索賠強(qiáng)度的回歸系數(shù)可以發(fā)現(xiàn),這些因子對(duì)索賠頻率和索賠強(qiáng)度的影響不一致,即兩者可能存在負(fù)相關(guān)關(guān)系;在索賠強(qiáng)度模型中,各個(gè)因子對(duì)位置參數(shù)和尺度參數(shù)的影響幾乎相反。
表3 參數(shù)估計(jì)結(jié)果
(續(xù)表)
當(dāng)行駛里程數(shù)為1、地區(qū)為1、無(wú)賠款折扣等級(jí)為1、車(chē)型為1時(shí),對(duì)應(yīng)索賠頻率的期望為0.169,索賠強(qiáng)度的期望為4447.067,從而對(duì)應(yīng)的純保費(fèi)應(yīng)為751.554。
基于位置、尺度和形狀參數(shù)的廣義可加模型(GAMLSS)突破了常見(jiàn)的指數(shù)分布族,拓展了因變量的分布類(lèi)型,使模型更加適用實(shí)際數(shù)據(jù)需求。GAMLSS模型的另一個(gè)突出特點(diǎn)是,可以對(duì)分布族中涉及的所有參數(shù)分別創(chuàng)建回歸模型,這比以往只能估計(jì)均值參數(shù)的模型更加符合理論基礎(chǔ),從而體現(xiàn)該模型的可靠性。本文基于GLM和GAMLSS模型,依次對(duì)索賠頻率和索賠強(qiáng)度進(jìn)行分析,按照信息準(zhǔn)則和殘差QQ圖對(duì)模型加以診斷和選擇,通過(guò)對(duì)比發(fā)現(xiàn),基于零截?cái)嘭?fù)二項(xiàng)分布的GAMLSS模型能較好地?cái)M合索賠頻率,基于逆高斯分布的GAMLSS模型能較好地?cái)M合索賠強(qiáng)度。同時(shí),對(duì)因變量的所有分布參數(shù)建立GAMLSS模型的表現(xiàn)明顯優(yōu)于只有位置參數(shù)的模型,由此說(shuō)明對(duì)所有參數(shù)建立GAMLSS模型得到的效果會(huì)更加科學(xué)、精確。
統(tǒng)計(jì)理論與實(shí)踐2022年11期