張連增 江璐嘉
車險定價一直是非壽險精算定價中的一個研究熱點,已有文獻較多(Denuit 等,2007[1];Klein 等,2014[2];孟生旺等,2017[3])。保險公司經營的核心目標是盈利,科學的風險管理技術可以為保險公司的持續(xù)運營提供保障。精算定價人員構造風險保費類別(insurance tariff classes),將風險狀況相似的保戶歸入同一類別,收取相同的保費,使保費與類別的風險相匹配。風險狀況由不同的變量(variables)組合來定義,根據變量的數(shù)值特性,可以分為分類型變量(如性別、地區(qū))和連續(xù)型變量(如駕駛員年齡、車齡)。
Denuit和Lang(2004)[4]指出,變量的不同類型會影響風險保費類別的構造:分類型變量構建風險保費類別直接明了,每一定價類別都代表了分類變量的特定組合;連續(xù)型變量由于其數(shù)值連續(xù)性,在一定程度上可以被理解為具有很多不同水平的分類型變量。Ohlsson和Johansson(2010)[5]指出,如果考慮將連續(xù)變量中的每一個數(shù)值都定義為一個水平(level),會導致同一個變量有很多水平,且每一個水平下的樣本數(shù)量都不多,但這樣并不利于定價模型的擬合。一種更好的方法是連續(xù)變量離散化,把連續(xù)型變量的某個區(qū)間合并為一個水平,從而轉化為包括少數(shù)水平的分類變量。
將連續(xù)變量離散化的方法被稱為分箱法(binning),該術語是由Kuhn和Johnson (2013)[6]提出的。本文將介紹一種由數(shù)據驅動(data driven)的分箱方法,將連續(xù)型變量轉化為包括幾個水平的分類變量,由此構造風險保費類別。本文使用回歸樹(regression tree)作為分箱方法,因為回歸樹模型會產生直觀的連續(xù)分割,符合我們對連續(xù)變量連續(xù)值分箱的要求。在回歸樹模型中,我們選擇采用進化樹模型(evolutionary tree),因為進化算法可以達到全局最優(yōu)的分箱效果。Grubinger 等(2014)[7]設計的R軟件包evtree可以實現(xiàn)相關功能。
在車險定價中,通過大量歷史索賠數(shù)據,可以估計出不同風險保費類別的保險成本,進而計算相應的純保費(pure premium)。Frees 等(2014)[8]提出純保費的計算從兩個方面分別進行:索賠頻數(shù)(claim frequency)和索賠強度(claim severity)。通常應用廣義線性模型(GLMs)進行車險索賠頻數(shù)和索賠強度的擬合與預測。在索賠頻數(shù)和索賠強度相互獨立的假設下,保單的純保費可以用索賠頻數(shù)的估計值乘以索賠強度的估計值得到。在純保費的基礎上,再考慮附加費用,就構成了保險產品的價格。
在GLMs中,當存在連續(xù)型變量時,GLMs不能捕捉連續(xù)型變量的非線性效應。此時,通??紤]應用更加靈活的廣義可加模型(GAMs)(James等,2013[9])。廣義可加模型本質上是一種特殊的廣義線性模型,對連續(xù)型變量,對應的樣條函數(shù)可表示為一些基本樣條函數(shù)的線性組合。在GAMs中,可通過對連續(xù)型變量引入樣條函數(shù),使模型的擬合效果更加平滑,反映非線性效應。
在模型擬合中,一直存在著“擬合效果”(fitting effect)與“可解釋性”(interpretability)之間的權衡。顯而易見,廣義線性模型的可解釋性要優(yōu)于廣義可加模型,而廣義可加模型的擬合效果更優(yōu)。為在兩者中找到一個平衡,在本文中,我們先運用GAMs構造一組索賠頻數(shù)和索賠強度預測模型;然后運用進化樹分箱方法,將連續(xù)型變量離散化為分類變量,最終運用GLMs構造另一組索賠頻數(shù)和索賠強度預測模型;將GAMs和GLMs的預測結果進行比較,找到最優(yōu)的定價預測模型。
本文后面的結構如下:第二節(jié)是數(shù)據描述和數(shù)據預處理;第三節(jié)是GLMs和GAMs的基本介紹;第四節(jié)是GAMs在車險定價中的應用;第五節(jié)是數(shù)據驅動分箱構建風險保費類別;第六節(jié)構建GLMs,并與GAMs進行模型整體性能的比較;第七節(jié)是總結。
本文運用的數(shù)據集是法國汽車第三者責任險(簡稱“三責險”)理賠數(shù)據freMTPL2freq和freMTPL2sev(1)freMTPL2freq里面包含了很多特征(變量),但不包含索賠金額ClaimAmount變量;freMTPL2sev里面只有保單信息IDpol和索賠金額ClaimAmount這兩個變量。共有的變量IDpol將freMTPL2freq和freMTPL2sev兩個數(shù)據集的保單信息連接起來。,這兩個數(shù)據集都可以在R軟件包CASdatasets里找到。freMTPL2freq里包含了678 013條法國三責險的索賠次數(shù)數(shù)據,freMTPL2sev里包含了26 639條法國汽車三責險的索賠強度數(shù)據。
為了擬合索賠強度模型,我們選取FF數(shù)據集中索賠強度大于0且小于20 000(2)FF數(shù)據集中包含一些損失特別大的極端數(shù)據,會對模型擬合產生影響。區(qū)間(0,20 000)包含了92.80%的索賠強度數(shù)據量,為此我們挑選這部分數(shù)據來進行模型擬合。的保單信息,組合成了一個新的數(shù)據集FF.sev,新的FF.sev數(shù)據(24 743行、16列)共有24 743個保單數(shù)據信息。
表1 FF數(shù)據集變量描述
根據以上描述我們知道,F(xiàn)F.sev是FF數(shù)據集的一個子集。下面我們描述FF數(shù)據集的基本數(shù)據特征,圖1是FF數(shù)據集中的一些特征(變量)展示。
在FF數(shù)據集中,對索賠次數(shù)(ClaimNb),有94.98%的保單沒有提出索賠(即ClaimNb=0),有4.75%的保單提出了一次索賠,剩下的0.27%的保單提出多次索賠。對風險暴露(Exposure),24.18%的保單保障期間是1年,剩下的75.82%保單的風險暴露分布于0~1之間。在索賠金額(ClaimAmount)方面,有88.93%的索賠金額位于0~5 000區(qū)間中,剩下的11.07%索賠金額高于5 000。
圖1展現(xiàn)了FF數(shù)據集中的兩個分類型變量:汽油類型(VehGas)和汽車品牌(VehBrand)。在汽油類型方面,48.99%的汽車使用柴油(Diesel),剩下的51.01%汽車使用其他類型。在汽車品牌方面,B12(24.49%)、B1(24.00%)和B2(23.58%)是占比最多的三種車型,剩下的27.93%是其他類型的汽車。
FF數(shù)據中的四個連續(xù)型變量:車齡(VehAge)、駕駛員年齡(DrivAge)、獎懲系統(tǒng)(BonusMalus)和對數(shù)人口密度(logDensity)也在圖1中呈現(xiàn)。在車齡方面,72.60%的保單車齡集中于0~10年,剩下的27.40%保單車齡超過10年。在駕駛員年齡方面,15.41%的駕駛員年齡在18~30歲之間,76.99%的駕駛員年齡在30~65歲之間,7.60%的駕駛員年齡高于65歲。在法國,獎懲系統(tǒng)的基準是100,低于100是獎勵(bonus),高于100是懲罰(malus)。在FF數(shù)據中,有98.85%的保單是獎勵狀態(tài),只有1.15%的保單是懲罰狀態(tài)。在對數(shù)人口密度中,79.19%聚集于2.5~8區(qū)間之內,剩下的20.81%分布在其他區(qū)間。
圖1 FF數(shù)據部分特征展示
在車險定價中,精算師根據已有的歷史索賠數(shù)據,預測出潛在損失,由此計算出保單純保費πi。保單純保費可以由索賠頻數(shù)和索賠強度分別計算得到,即πi=E(Fi)×E(Si),其中E(Fi)是索賠頻數(shù)預測的均值,E(Si)是索賠強度預測的均值。索賠頻數(shù)是單位風險暴露(risk exposure)下保單的索賠次數(shù);索賠強度是指在索賠發(fā)生條件下的平均單次索賠額度。
在本文中,我們假設索賠頻數(shù)和索賠強度相互獨立。使用數(shù)據集FF中所有保單的索賠次數(shù)歷史,為Fi構建模型;使用數(shù)據集FF.sev中提出索賠的保單持有人的索賠歷史,為Si構建模型。對每份保單的純保費πi再加總求和,可以得到整體純保費。
在本文中,我們考慮運用GAMs和GLMs來構建兩組回歸預測模型。
傳統(tǒng)的線性回歸模型形式如下:
(1)
其中Yi是響應變量,xij是自變量,p為自變量的個數(shù)。
一般的廣義線性模型形式如下:
(2)
其中,μi=E(Yi)是響應變量的均值,g(·) 是連接函數(shù)(link function),xij是自變量,p為自變量的個數(shù)。
GAM本質上是一種特殊的GLM,通過允許自變量存在非線性的平滑效應(smooth effect),同時保持可加性來擴展線性模型。在GAM中,單個自變量的非線性平滑效應可用樣條函數(shù)fj(xij)表示,它可表示為基本樣條函數(shù)的線性組合,代替GLM中的βjxij;兩個自變量之間也可能存在非線性交互效應,用樣條函數(shù)fj(xij,zij)來表示自變量之間的非線性交互效應。GAM的形式為:
(3)
在本節(jié),我們運用GAM對索賠頻數(shù)和索賠強度分別構建回歸預測模型,R里的軟件包mgcv可以用來實現(xiàn)GLM和GAM。在最優(yōu)模型選擇方面,我們考慮使用AIC(Akaike Information Criterion)和BIC(Bayesian Information Criterion)兩個指標。這兩個指標都同時考慮了模型的擬合優(yōu)度(goodness of fit)和復雜度(complexity),它們的定義如下:
AIC=-2(log-likelihood)+2·r
BIC=-2(log-likelihood)+log(n)·r
(4)
其中,log-likelihood是模型的對數(shù)似然值(擬合優(yōu)度的度量),r是模型的參數(shù)個數(shù)(復雜度的度量),n是數(shù)據集的樣本個數(shù)。AIC和BIC的值越低表示模型越好。與AIC相比,BIC對模型復雜度的懲罰效果更大,為此在GAMs的模型擬合中,我們選用BIC作為最優(yōu)模型選擇指標。
+β1VehGasRegular
+f2(DrivAge)+f3(BonusMalus)
+f4(logDensity)
(5)
上述模型中包含了兩個分類變量:汽油類型(VehGas)和汽車類型(VehBrand),以及四個連續(xù)型變量:車齡(VehAge)、駕駛員年齡(DrivAge)、獎懲系統(tǒng)(BonusMalus)和對數(shù)人口密度(logDensity)。
由此得到索賠頻數(shù)的最終預測模型形式為:
+f1(VehAge)+f2(DrivAge)
+f3(BonusMalus)+f4(logDensity)
+f5(VehAge,BonusMalus)
(6)
索賠頻數(shù)模型的具體擬合情況見表2。
表2 索賠頻數(shù)模型(GAM)的參數(shù)估計
根據圖2,在車齡(VehAge)方面:當汽車處于 [0,2]的年齡區(qū)間時,剛買新車的平滑效應最大,隨著車齡增大,平滑效應在不斷下降。當車齡位于 [2,5]區(qū)間時,隨著車齡增大,平滑效應增加。當車齡處于 [5,20]區(qū)間時,平滑效應再次呈現(xiàn)下降趨勢,并在20年時達到了最低谷,說明駕駛員車齡越大,駕駛技術越熟練,預估索賠頻數(shù)降低。
在駕駛員年齡(DrivAge)方面:當駕駛員年齡處于 [18,30]區(qū)間時,隨著年齡增大,平滑效應在不斷下降,在30歲達到最低谷。當駕駛員年齡處于 [30,40]區(qū)間時,隨著年齡增大,平滑效應不斷增加,但整體數(shù)值小于0。在 [40,50]區(qū)間內,隨著年齡增大,平滑效應在不斷增加,并且大于0。[50,60]區(qū)間內平滑效應有一個小幅下降。60歲以后,再次呈現(xiàn)增加趨勢。
獎懲系統(tǒng)(BonusMalus)的平滑效應隨著獎懲水平的提高呈現(xiàn)增長趨勢,這與我們的直覺相一致:BonusMalus越低表明駕駛員的索賠歷史記錄越好,越高表明索賠越多。
圖2 索賠頻數(shù)模型(GAM)的平滑效應展示
對數(shù)人口密度(logDensity)的平滑效應隨著人口密度的增加呈現(xiàn)穩(wěn)定的增長趨勢,這也十分直觀:人口密度越大,該地區(qū)發(fā)生交通事故的可能性也越大,索賠次數(shù)也就越多。
車齡-獎懲系統(tǒng)(VehAge-BonusMalus)的效應區(qū)域圖中淺灰色表示負相關性,深灰色表示正相關性。高車齡-低獎懲系統(tǒng)、低車齡-低獎懲系統(tǒng)和低車齡-高獎懲系統(tǒng)組合的風險更低一些,而高車齡-高獎懲系統(tǒng)的風險更高。
+g2(BonusMalus)
+g3(DrivAge,BonusMalus)
(7)
表3 索賠強度模型(GAM)的參數(shù)估計
圖3 索賠強度GAM平滑效應展示
從駕駛員年齡(DrivAge)角度:在 [18,50]的年齡區(qū)間,隨著駕駛員年齡增加,索賠強度平滑效應整體呈現(xiàn)增加趨勢。年齡處于 [18,40]區(qū)間時,平滑效應小于0。[40,50]區(qū)間內,效應大于0。在 [50,60]區(qū)間,平滑效應有一個下降趨勢。60歲以后,隨著駕駛員年齡增加,平滑效應再次呈現(xiàn)上升趨勢。
獎懲系統(tǒng)(BonusMalus)的平滑效應隨著獎懲水平的提高呈現(xiàn)增長趨勢,這與我們的直覺相一致:BonusMalus越低表明駕駛員的索賠歷史記錄越好,越高表明索賠越多。
由圖3可知,在駕駛員年齡-獎懲系統(tǒng)(DrivAge-BonusMalus)方面:低駕駛員年齡-低獎懲系統(tǒng)和高駕駛員年齡-高獎懲系統(tǒng)組合的平滑效應要低于低駕駛員年齡-高獎懲系統(tǒng)和高駕駛員年齡-低獎懲系統(tǒng)組合的平滑效應,其中低駕駛員年齡-高獎懲系統(tǒng)組合的平滑效應最高。
在模型擬合中,一直存在著“擬合效果——可解釋性”之間的權衡。上一節(jié)GAMs的構建中包含一些針對連續(xù)型變量的平滑函數(shù),可以捕捉到一些連續(xù)型變量的非線性效應,使得擬合效果更好,預測更加精確,但也讓模型變得更加復雜和難以解釋。相比于GAMs,GLMs只包含線性形式,直觀簡單,易于理解,但模型的擬合效果在一定程度上會有不足。在實務定價中,定價人員更加傾向于使用分類變量進行定價。在本節(jié)中,我們基于前面GAMs得到的回歸預測模型,運用數(shù)據驅動的分箱方法,將連續(xù)型變量離散化,將其轉化為包含少數(shù)水平的分類變量,從而構造風險保費類別。
1.回歸樹的基本介紹。
本文使用決策樹進行分箱,將連續(xù)變量離散化。決策樹模型是一種常用的分類與回歸方法,分類樹輸出的結果是分類型變量,回歸樹輸出的結果是連續(xù)型變量。本文使用回歸樹模型,一方面因為索賠頻數(shù)和強度都是連續(xù)型變量,另一方面回歸樹模型對連續(xù)型變量會產生直觀的連續(xù)分割,符合我們對連續(xù)變量連續(xù)值分箱的要求。
常用的回歸二叉樹(binary tree)方法,如CART(Classification And Regression Tree)算法等,都是以逐步向前搜索的方式建立模型的遞歸分割。這種方法由來已久,但CART算法的結果只是局部最優(yōu)的,因為節(jié)點的選擇(從而產生葉子)是在上一步的基礎上,最大化下一步的結果。每個內部節(jié)點的分割規(guī)則是為了最大化其子節(jié)點的同質性,而不考慮回歸樹上更下一層的節(jié)點,由此只產生局部最優(yōu)的樹。另一種在樹的參數(shù)空間上搜索的方法是使用全局最優(yōu)方法,如進化算法,對應的回歸樹被稱為進化樹。
2.進化樹。
進化算法的思路來自達爾文的自然進化思想:物競天擇,適者生存。進化算法是以種群(population)為基礎,是個體(individual)的集合,在每一代進化過程中,個體之間彼此競爭,以評估函數(shù)(evaluation function)為指標,保留高質量的個體,淘汰低質量的個體,如此循環(huán)往復,種群的質量隨著時間的推移而不斷增加,得以進化。
在進化遞歸的每一次進程中,首先,整合上一次進化過程得到的所有個體,這些個體在該次進化過程中被稱為父母個體(parent individuals)。隨后,變異算子(variation operator)作用于種群中的父母個體,改變個體的結構,被改變后的個體被稱為新的解決方案(solutions),也被稱為子代個體(offspring individuals)。最后,生存者選擇過程依據評估函數(shù)指標來衡量這些個體的質量,保留優(yōu)質個體,淘汰劣質個體,得以進化。在我們的模型中,在每一代,初始的父母個體要與經過變異算子作用后產生的子代個體同時競爭,優(yōu)勝劣汰,保證每一代種群的個體總數(shù)不改變。在這個進化過程中,種群的整體質量不斷優(yōu)化,進化算法的具體思路如表4所示。
表4 進化算法
當進化算法與決策樹模型相結合時,一棵樹即是個體,多棵樹組成的整體是種群。進化樹中共有五種變異算子:四種突變算子(mutation operators,針對單一個體)和一種交叉算子(crossover operator,針對多個不同個體)。在進化過程中,變異算子隨機作用于個體,修改樹的結構,產生新的后代。根據Grubinger 等(2014)[7]的做法,五種變異算子如下:
(1)分叉(split)。
隨機選擇一個葉子節(jié)點T,并為其分配一個有效的、隨機生成的分叉規(guī)則,分叉規(guī)則由相應的分割變量x(r)和分割數(shù)值s(r)來定義。由此,被選中的葉子節(jié)點成為內部節(jié)點r,并生成兩個新的葉子節(jié)點T1和T2。
(2)修剪(prune)。
隨機選擇一個內部節(jié)點r,它有兩個葉子節(jié)點作為子節(jié)點,剪去這兩個葉子節(jié)點,將內部節(jié)點r修剪成葉子節(jié)點Tr。
(3)大分割規(guī)則突變(major split rule mutation)。
隨機選擇一個內部節(jié)點r并改變其分叉規(guī)則,其中以50%的概率,內部節(jié)點r的分割變量x(r)由原特征空間X={x1,x2,…,xn}中的其他特征變量替代;如分割變量保持不變,則其分割數(shù)值s(r)發(fā)生變化。
(4)小分割規(guī)則突變(minor split rule mutation)。
與大分割規(guī)則突變運算類似,但它并不改變分割變量x(r),而只是將分割數(shù)值s(r)改變一個小的幅度。
(5)交叉(crossover)。
樹在被變異算子作用后,需要對其質量進行衡量,我們使用的評估函數(shù)的表達式如下:
n·log(MSE)+4·α·(m+1)·log(n)
(8)
本節(jié),我們將考慮使用前面介紹的進化樹方法,對八個平滑效應進行分箱處理,得到包含少數(shù)水平的分類型變量,構造風險保費類別。
關于索賠頻數(shù)和索賠強度的平滑效應分箱,我們需要分別進行估計。對于索賠頻數(shù)來說,觀測值的數(shù)量nfreq=678 013;對于索賠強度來說,觀測值nsev=24 743。調試變量α是模型預測精度和復雜度之間的調和值,針對不同的模型,調試參數(shù)取值不同。在α選擇方面,我們也是對索賠頻數(shù)αfreq和索賠強度αsev模型分別計算。參考Henckaerts(2018)[11]的做法,我們對αfreq和αsev分別取不等距集合{1,1.5,2,…,9.5,10,20,30,…,90,100,150,200,…,1 200}中的值,再分別代入模型中,以BIC為指標,找到使得模型BIC最低的αfreq= 1 100,αsev=200。
圖4 索賠頻數(shù)模型平滑效應分箱
圖5 索賠強度模型平滑效應分箱
上一節(jié)我們運用了R軟件包中的evtree對幾個連續(xù)平滑效應進行了分箱處理,根據以上索賠頻數(shù)和索賠強度的分箱結果,我們得到了連續(xù)變量分箱后的分類變量。應用這些分類變量構造GLMs,由此得到了兩個模型的參數(shù)估計,見表5和表6(3)受篇幅限制,文中無法列出表5和表6的全部內容,僅列出部分參數(shù)估計,感興趣的讀者可聯(lián)系作者索取。。
表5 索賠頻數(shù)模型(GLM)的參數(shù)估計
表6 索賠強度模型(GLM)的參數(shù)估計
在最優(yōu)模型選擇方面,以同時衡量模型擬合效果和復雜度的AIC和BIC為指標。表7列舉了GAMs和GLMs下的索賠頻數(shù)和索賠強度模型對應的AIC和BIC的值,從表7可知:不管是索賠頻數(shù)模型,還是索賠強度模型,對應的AIC和BIC很相近。
表7 GAMs和GLMs的AIC和BIC比較
為每一份保單i計算純保費πi,純保費πi的公式如下:
πi=E(Fi)×E(Si)
(9)
其中E(Fi)是保單i索賠頻數(shù)的期望值,E(Si)是保單i索賠強度的期望值。
在保費預測時,我們再次對數(shù)據進行了處理,刪去了那些損失特別大的極端數(shù)據,以免對模型預測產生極端影響。最終我們新生成了預測數(shù)據集FF.pred,里面包含了677 499個保單持有人的損失數(shù)據(原數(shù)據FF中包含了678 013個數(shù)據(4)為避免極端值對模型預測產生影響,我們從FF數(shù)據集中刪去那些損失額大于10 000的數(shù)據,總共刪去了514個數(shù)據量,新生成的FF.pred包含677 499個數(shù)據量,用于純保費的估計。)。此時,對預測數(shù)據集FF.pred,根據以上模型,最終求得的GAM純保費為33 942 460,GLM的純保費為33 864 103,GLM預測的純保費比GAM低了78 357,占比0.231%,這兩個估計都略高于實際的總損失33 742 058。
就純保費預測精度而言,GAMs和GLMs兩者表現(xiàn)相當。就模型解釋性而言,GLMs有直觀的風險保費類別,更易于理解和解釋;而GAMs有非線性的平滑效應,在解釋方面較為復雜。
根據以上整體分析,分箱后的GLMs在擬合效果上近似于GAMs,解釋性優(yōu)于GAMs,以進化樹分箱來構造車險風險保費類別的方法可以從多角度來優(yōu)化GAMs。
在車險定價中,廣義線性模型(GLM)已經成為標準方法。對連續(xù)型自變量,很多情況下,直接應用廣義線性模型,會忽略自變量的非線性效應。作為傳統(tǒng)的廣義線性模型的推廣,通過引入變量的樣條函數(shù),廣義可加模型(GAM)能很好地考慮到非線性效應。廣義可加模型的預測精度更好,但不足之處是在實務應用中,模型的可解釋性變差。在實務中傳統(tǒng)的做法是:對連續(xù)型自變量,直接劃分為分類變量,再應用廣義線性模型。但這樣做的不足之處在于,主觀性較強,理論依據顯得不足。
本文運用了數(shù)據驅動的分箱方法,對連續(xù)型變量進行分箱處理,目的是更好地建立車險定價中的風險保費類別。我們對索賠頻數(shù)和索賠強度這兩個響應變量,在分箱處理前后,分別建立了廣義可加模型(GAM)和廣義線性模型(GLM),結合這兩個模型的預測值,預測了純保費,結果發(fā)現(xiàn)分箱后的GLM可以用來優(yōu)化GAM。
本文的思路是先對法國三責險數(shù)據freMTPL2freq和freMTPL2sev進行處理,得到索賠頻數(shù)和索賠強度模型擬合的數(shù)據集FF和FF.sev。再以GAM框架為起點,構建了一組索賠頻數(shù)-索賠強度模型。隨后,運用決策樹中的進化樹算法,對連續(xù)型變量進行分箱處理,將連續(xù)型變量轉化為分類變量,再構造新的GLM,得到了一組新的索賠頻數(shù)-索賠強度模型,由此構造了車險風險保費類別。
模型擬合一直存在著擬合精度和可解釋性之間的權衡,不斷優(yōu)化模型的目的之一,是用更簡單的模型達到更好的擬合精度,分箱后的廣義線性模型比廣義可加模型更簡單、更直觀、易解釋。經過模型預測,我們得出由廣義線性模型計算出的保費,與由廣義可加模型得到的結論非常接近。由此,本文研究得到了一個更簡單直接的模型,可作為實務中更復雜車險定價模型的較好替代。
本文的研究結果中,模型里的定價類別并沒有加入地區(qū)(Area)等空間因素自變量,但是在Fahrmeir 等(2007)[12]、Tufvesson 等(2019)[13]中考慮了地理空間因素在車險風險保費類別構造中的影響。此外,模型最終擬合中沒有加入汽車動力(VehPower)自變量,而在Wüthrich(2020)[14]車險定價模型中包含了這個自變量。
本文使用的進化樹算法是一種近幾年才出現(xiàn)的機器學習算法,作者查閱了國內相關文獻,未發(fā)現(xiàn)將進化樹算法應用于車險定價的論文,本文重點介紹了進化樹算法的原理及其精算應用。
近年來,大數(shù)據和機器學習技術快速發(fā)展,本文的數(shù)據驅動進化樹算法不僅可應用于車險定價領域,今后也必會應用于其他領域來處理預測建模問題。數(shù)據科學對保險業(yè)的沖擊和促進是必然趨勢,相信在不遠的未來,會有越來越多的機器學習方法被應用于精算領域。