張琳,黎星言
(湖南大學金融與統(tǒng)計學院,長沙 410082)
2020年9月19日,銀保監(jiān)會印發(fā)的《關于實施車險綜合改革的指導意見》,明確了機動車輛保險綜合改革的主要原則和基本目標:以“保障提升消費者權益”為目標,健全市場化條款費率形成機制,支持車險產品的創(chuàng)新與優(yōu)化。自2020年車險綜合改革實施至2021年2月,全國車險綜合費用率同比下降9.39%,手續(xù)費率同比下降6.75%。改革至今,89%的保單簽單保費降低,其中64%的保單保費降幅多于30%;第三者責任險平均保額同比上升49%;車險改革目標已初顯成效。然而,保險公司由于讓利于消費者,保費收入受到負面影響,平安車險保費收入同比下滑8.83%;中國人保車險保費收入同比下滑6.7%。
實施車險綜合改革后,財險公司面臨更加激烈的市場競爭,經營模式粗放、管理效率低下、車險產品單一、理賠要求復雜、業(yè)務數(shù)據(jù)缺失等市場問題亟待解決。其中,精細定價是車險綜合改革的核心問題,各公司應基于精算模型進行風險定價。市場化的車險經營模式,意味著公司進行自主費率制定,根據(jù)被保人的駕駛行為、年齡等費率因子,進行精細定價。靈活使用精算模型,以保證定價的科學性和合理性。廣義線性模型被廣泛用于保險精算模型的構建中,然而,我國商業(yè)車險市場中頻繁出現(xiàn)“高保低賠”、“理賠糾紛”等現(xiàn)象,說明以車型為核心的費率厘定方式有待改進。為幫助保險公司實現(xiàn)盈利,本文將采用拓展的GLM模型,并納入中國保險汽車安全指數(shù)測評結果作為從車因子,以提高費率厘定的科學性。NELDER等提出GLM模型,將函數(shù)分布擴展至指數(shù)族分布,為風險因子在保險中的應用奠定基礎。FINGER提出索賠頻率受到車齡、車型、車輛用途、駕駛人年齡、性別、婚姻等風險因素影響。CERCHIARA等運用GLM,研究保險種類、風險暴露日歷年、承保年限、投保人年齡等風險因子對壽險續(xù)保率的影響。OHLSSON等介紹了如何使用費率風險因子通過GLM預測非壽險保費。隨著數(shù)據(jù)的可用性增加和統(tǒng)計技術的發(fā)展,保險中的精算模型也得到發(fā)展。傳統(tǒng)的GLM模型對連續(xù)型變量的解釋性較差,為解決此問題,HASTIE等在線性預測的基礎上引入非參光滑函數(shù),得到廣義線性可加模型。DENUIT等研究車險定價時,考慮了離散、連續(xù)、分類以及空間變量,并基于GAM使用密集型仿真方法進行統(tǒng)計推斷。ZUUR等使用單調P樣條函數(shù)作為GAM模型中的非線性預測函數(shù),研究圣保羅呼吸疾病對死亡率的影響。
我國保險精算業(yè)近年來借鑒國外的先進研究方法,結合實際情況制定純風險保費。孟生旺說明了廣義線性模型在車輛保險定價中的具體應用以及注意事項。徐昕等針對零膨脹的保險數(shù)據(jù),建立零膨脹廣義模型-ZIGP,擬合結果表明:該模型能有效提高費率厘定的科學性。徐昕等建立三參數(shù)形式負二項分布以改善費率厘定中的過離散問題。孟生旺等對于非壽險定價中的多水平費率因子,使用3種不同廣義線性模型擬合,試驗結果顯示,廣義線性混合模型效果最優(yōu)。童麗娟通過保險數(shù)據(jù)擬合結果表明:GAM對具有非線性影響的解釋變量擬合效果更好,同時結合馬爾可夫蒙特卡洛與貝葉斯理論進行參數(shù)估計。張連增等使用GAM研究省份、車齡、公路里程數(shù)、年齡以及車重等對索賠頻率的影響,發(fā)現(xiàn)除車型因子外,其余因子都顯著影響索賠頻率,且車齡、年齡、車重對其具有非線性影響。
GAM由兩部分組成:解釋變量部分、響應變量與聯(lián)結函數(shù)。
解釋變量部分:預測變量進行一系列平滑處理后的線性組合。
式中:=(,,,,…)為解釋變量;為截距項;f (·)為多種基函數(shù)組合形成的平滑函數(shù),包括多項式函數(shù)、三次樣條函數(shù)、薄板樣條函數(shù)、B樣條函數(shù)、P樣條函數(shù)等,同時由懲罰函數(shù)控制非參數(shù)函數(shù)的平滑程度。GAM模型估計平滑參數(shù)的方法包括GCV、REML、GACV、UBRE等,利用最小二乘懲罰法和擬極大似然懲罰法估計系數(shù)β。
響應變量與連接函數(shù):觀測值相互獨立,且服從指數(shù)族分布,并通過單調可導聯(lián)結函數(shù)與解釋變量部分進行聯(lián)系,即:
式中:函數(shù)(·)和(·)根據(jù)的分布決定;為尺度參數(shù);為自然參數(shù);為響應變量的均值;(·)為聯(lián)結函數(shù),如identity、logit、inverse、log等。
GAM模型中響應變量服從指數(shù)族分布,其方差為均值的函數(shù)。其次,GAM將解釋變量的可加線性與非線性結構進行聯(lián)結函數(shù)逆處理,然后用來表示響應變量的均值,解釋變量部分由于非參預測函數(shù)的引入,使該模型具有靈活性。
AIC作為衡量模型復雜程度與擬合優(yōu)度的指標之一,其公式為AIC=-2ln()+2,其中為模型的似然函數(shù),表示參數(shù)個數(shù),被廣泛用于模型的選取判斷。AIC值越小,意味著模型在擬合性與一般性中達到更優(yōu)的平衡。在GAM中,較小的UBRE值代表較好的擬合效果。
本文采取的數(shù)據(jù)集包括“保險公司2018年至2020年的35 666條承保理賠數(shù)據(jù)”與“中保研、中國汽研聯(lián)合發(fā)布的52款車型碰撞測試指標”。該數(shù)據(jù)的解釋變量有,車齡(共3類)、年齡(共4類)、性別(男、女)、耐撞性與維修經濟性等級,其余變量有分組與連續(xù)型兩種形式,如耐撞性得分、NCD系數(shù)、新車上市價_萬、耐撞性與維修經濟性得分、維修比、維修經濟性得分;響應變量為索賠次數(shù)。具體數(shù)據(jù)見表1。
表1 數(shù)據(jù)集變量說明
不同汽車在低速行駛狀況下發(fā)生刮擦或碰撞事故的損失不同。中國保險汽車安全指數(shù)(C-IASI)發(fā)布了多項指標,其中耐撞性分數(shù)是用以量化車輛承受碰撞力的能力,車輛吸收碰撞過程中對于物理位移及形變的控制能力以及對結構和高價零件損傷的保護能力。維修比是車輛發(fā)生碰撞事故后,將車輛恢復到正常狀態(tài)在當前社會平均生產力狀態(tài)下所需維修費用與車輛廠家指導價格的比值。維修經濟性是車輛發(fā)生碰撞事故后,將車輛恢復到正常狀態(tài)所需的經濟成本高低評價指標。而綜合指標“耐撞性與維修經濟性”從車輛的耐撞性、可維修性、維修經濟性和碰撞兼容性對車輛進行多維度評價,其結果為等級G、A、M、P或數(shù)值得分的形式。
選取索賠次數(shù)作為響應變量,該變量為離散變量,因此,常用的分布族有負二項分布、泊松分布。假設響應變量服從泊松分布,將log設為GLM模型中的聯(lián)結函數(shù)。索賠次數(shù)在GLM、GAM中的表達形式分別為:
式中:=(,,…)為解釋變量;=(|)是的條件期望值;β(=0,1,2,…)為待估參數(shù);f (·)為GAM模型中的非線性平滑函數(shù)。
本文自變量中的車齡、年齡、性別、耐撞性與維修經濟性等級為分類或等級變量,屬于模型的線性預測部分。其余解釋變量:耐撞性得分、NCD系數(shù)、新車上市價_萬、耐撞性與維修經濟性得分、維修比、維修經濟性得分本身為連續(xù)型變量,它們屬于線性或非線性預測部分還需要通過擬合結果來決定。同時,某些安全指數(shù)指標由于具有相關性,可能會降低模型的精確度,所以也需要通過模型結果篩選出解釋性強的指標組合引入模型。所有解釋變量都為離散變量時,構造廣義線性模型,從人因素有性別、年齡、NCD系數(shù),從車因素有車齡、新車上市價,已選測試因子:耐撞性得分。待選測試因子為耐撞性與維修經濟性等級,耐撞性與維修經濟性得分以及維修比、維修經濟性得分。建立的3種泊松GLM都含有從人、從車、已選測試因子。而GLM1在待選因子中選取維修經濟得分;GLM2選擇維修比;GLM3包括耐撞性與維修經濟性等級。當GLM模型中有些變量顯著性較差,或個別組別不顯著時,可以利用GAM模型,選擇平滑函數(shù)擬合連續(xù)型變量的非線性影響。
建立GLM模型后,通過R軟件,得到3種回歸模型的參數(shù)估計結果與AIC值。GLM2將GLM1中的維修經濟性得分換為維修比,GLM3使用總分-耐撞性與維修經濟性等級代替GLM2中的維修比與耐撞性得分。從表2的分析來看,常數(shù)項和性別、車齡的所有組別在3種模型中顯著。年齡除[25-28]組別,NCD除[0.48-0.8]在所有模型中不顯著,其余區(qū)間全顯著;新車上市價與耐撞性與維修經濟性在3組中預測效果較差,至多一組在獨立模型內顯著;耐撞性得分與維修經濟性得分或維修比組合形成GLM1或GLM2時,所有組別系數(shù)皆顯著。模型的AIC升序排列為:GLM2(26 343.1)<GLM3(26 346.97)<GLM1(26 351.67),GLM2的AIC最小,估計結果更準確,GLM2考慮“維修比”與“耐撞性分數(shù)”量化汽車碰撞的影響。
表2 GLM模型回歸結果
由于上述3種GLM模型中有些變量顯著性較差,存在個別組別不顯著的現(xiàn)象,所以引入GAM模型的非線性預測方法解決這些問題。首先,將GLM中的NCD系數(shù)以及新車上市價替換成連續(xù)型變量,然后將GLM1、GLM2中的分組變量,維修經濟性得分或維修比與耐撞性得分,換為連續(xù)型數(shù)值,再將GLM3中耐撞性與維修經濟性等級換為耐撞性與維修經濟性得分,最后性別、年齡、車齡依舊作為分類變量代入模型中,得到3種GAM模型,記為:GAM1、GAM2、GAM3。
表3記錄所有GLM與GAM的AIC值,序號相同代表兩模型選擇的變量種類相同,但GAM在GLM基礎上引入非線性函數(shù)處理某些連續(xù)變量。由AIC結果可知:本文構造的GAM擬合度要優(yōu)于GLM模型,所有GAM模型中AIC最大值小于GLM模型中的最小值,相差范圍[152.18,193.76];GAM模型中GAM1的AIC最小,為26 157.91,比GAM2低7.78,因此GAM2擬合效果較好。
表3 GLM與GAM模型的AIC值
表4~5分別顯示GAM模型中的連續(xù)變量(表4)與分組變量(表5)的回歸顯著性。每個GAM所選擇的連續(xù)型變量都顯著,但僅GAM1的所有分組變量的參數(shù)估計結果較理想,同時GAM1模型的UBRE值為-0.480 7,比GAM2小0.000 2,所以本文使用GAM1進行數(shù)據(jù)擬合。
表4 GAM模型非線性回歸結果
表5 GAM模型線性回歸結果
利用GAM1模型對數(shù)據(jù)進行擬合,得到索賠次數(shù)統(tǒng)計特征見表6,平均索賠次數(shù)為0.118 57,范圍為0.018 06~0.714 99。由圖1可知,NCD與索賠次數(shù)的同向關系,即隨著NCD的增加,索賠次數(shù)也隨之增加。由圖2可知,新車上市價對索賠次數(shù)的影響波動較大。新車上市價在20~30萬元之間時,整體索賠次數(shù)較高,在27萬元左右達到峰值,37萬元為其最低點。
表6 索賠次數(shù)預測值
圖1 NCD的影響效應
圖2 新車上市價的影響效應
由圖3可知,女性的平均索賠次數(shù)高于男性。圖4為車齡與索賠次數(shù)的關系圖,由圖可知,隨著車齡的增長,索賠次數(shù)隨之降低,可能是因為車齡大的車主行駛年份久,駕駛經驗較豐富,因此索賠次數(shù)較少。圖5表示索賠次數(shù)隨年齡增加而降低,年齡超過28歲以上索賠次數(shù)相差不大,一般年齡小的人開車時間也不長,屬于容易發(fā)生事故的高風險人群;而到達一定歲數(shù)后,行駛經驗對索賠次數(shù)的抑制作用大致不變。
圖3 性別與索賠次數(shù)
圖4 車齡與索賠次數(shù)
圖5 年齡與索賠次數(shù)
本文使用C-IASI指標和車損數(shù)據(jù),研究廣義線性模型與廣義線性可加模型在車險索賠次數(shù)中的建模應用。首先利用GLM模型嘗試多種費率因子的組合,并對其進行篩選,得到非線性預測因子,即將離散型變量轉換為連續(xù)型變量,從而構建GAM模型。實證結果表明,索賠次數(shù)受到年齡、車齡、性別的線性影響,新車上市價、NCD對其具有非線性影響;相比于其他C-IASI指標的選取,維修經濟性得分與耐撞性得分組合對索賠次數(shù)的預測效果較好。預測結果表明,年齡或車齡與索賠次數(shù)呈負相關,年齡(或車齡)越大,索賠次數(shù)越小。女性索賠次數(shù)高于男性。非線性預測部分:NCD與索賠次數(shù)具有正相關關系,即索賠次數(shù)隨NCD的增加而增長,新車上市價對索賠次數(shù)的影響波動性大,27萬元左右達到最高點,37萬元左右降至最低點。