李浩男
(南開大學(xué)金融學(xué)院,天津300350)
車險定價一直以來都是研究的熱點,2020年9月19日啟動的商業(yè)車險綜合改革,對車險定價的精確性和合理性提出更高的要求,是我國車險高質(zhì)量發(fā)展的重要契機。廣義線性模型作為車險索賠的建模分析重要手段之一,自1972年Nelder J A和Wedderburn R 首次給出定義以來,學(xué)術(shù)界不斷為該方法增加新元素,例如Anderson等(2004)[1]對指數(shù)分布族的深入討論;同時國內(nèi)外相關(guān)的著作也越來越豐富,如Frees(2010)[2]、孟生旺等(2015)[3]。
由于免賠額與無賠款優(yōu)待等條款的存在,實務(wù)中車險索賠數(shù)據(jù)存在大量的零次索賠,傳統(tǒng)的廣義線性模型無法解決索賠數(shù)據(jù)零膨脹、過離散以及異質(zhì)性的特征。此時,解決零膨脹的一個有效的方法是將模型分為零點概率和計數(shù)分布兩個部分,即(a,b,1)型的零膨脹模型。Yip 和Yau(2005)[4]首次使用零膨脹模型分析了車險索賠次數(shù),分別討論了泊松分布與負二項分布下的零膨脹模型。為了提升擬合結(jié)果,進一步完善零膨脹模型一直是研究熱點。孟生旺和楊亮(2015)[5]基于傳統(tǒng)零膨脹模型增加了隨機效應(yīng),以此分析索賠數(shù)據(jù)組內(nèi)的相依性。張連增和王締(2019)[6]對比零膨脹模型與Hurdle 模型,實證結(jié)果顯示零膨脹負二項模型更好。徐昕(2020)[7]探討了零膨脹廣義泊松模型的推廣形式,并給出了模型和參數(shù)估計方法。
為了進一步解決零膨脹特征導(dǎo)致的過離散和異質(zhì)性問題,在零膨脹模型的基礎(chǔ)上提出了混合泊松模型(Mixed Poisson, MP)。 Joe 和Zhu(2005)[8]、Nikoloulopoulos和Karlis(2008)[9]先后對比了不同的混合泊松模型,分析了索賠頻率數(shù)據(jù)的零膨脹、過離散以及厚尾特征。王選鶴等(2018)[10]研究了零膨脹混合泊松的有限混合模型,實證結(jié)果表明該模型有助于改進對索賠次數(shù)的估計結(jié)果;殷崔紅等(2019)[11]討論了開放式的混合泊松模型,提升了模型的自適應(yīng)性。
綜合已有研究可以發(fā)現(xiàn),學(xué)者們大多使用混合泊松或零膨脹泊松來研究索賠次數(shù),在一定程度上可以解決零膨脹、過離散和尾部概率的問題。但是在應(yīng)用層面,此類模型計算復(fù)雜、模型求解比較困難,同時參數(shù)難以直觀解釋;另一方面,確定混合泊松模型的混合個數(shù)時仍包含較大的主觀性。索賠次數(shù)的零膨脹問題可以視為(a,b,0)型計數(shù)模型的“后遺癥”,因為不同次數(shù)之間的發(fā)生概率需滿足遞推關(guān)系(Panjer,1981)[12],使用極大似然估計方法會受到該遞推關(guān)系的影響。大量零次索賠的存在將迫使模型給予零點概率過高的權(quán)重,從而“拉偏”了對尾部風(fēng)險的估計,導(dǎo)致模型結(jié)果并不理想。
為了避免計數(shù)分布遞推關(guān)系對模型的影響,已有學(xué)者使用二元Logistic 回歸研究車險索賠次數(shù)(張連增和孫維偉,2012;Duan等,2018)[13,14],但是這些討論僅限于是否發(fā)生索賠,只使用了索賠次數(shù)中的部分信息。本文將索賠次數(shù)視為有序分類變量,引入多元有序Logistic 回歸模型(Ordered Lo?gistic Regression,OLR),該模型作為Logistic模型的一個重要分類,其較多應(yīng)用于醫(yī)學(xué)分析中,如Kanbayashi 等(2018)[15]利用OLR 模型探究了不同程度膽堿能綜合征的發(fā)病因素。在保險領(lǐng)域,劉威和劉昌平(2018)[16]使用該模型分析了社保對農(nóng)村老年人健康狀況的影響,討論了模型異質(zhì)性。
本文采用OLR 模型分析索賠頻率數(shù)據(jù)。首先,參考Agresti(2003)[17]對OLR 連接函數(shù)的討論,選擇了3種不同的連接函數(shù)建立OLR模型;其次,基于OLR模型的概率意義,定義了相對風(fēng)險系數(shù),以分析風(fēng)險因素變動引起的索賠概率的相對變化;最后,利用一組車險索賠數(shù)據(jù),實證分析的結(jié)果驗證了該方法在車險索賠領(lǐng)域的實用價值。OLR模型相較于已有方法在模型構(gòu)建、參數(shù)估計、結(jié)果分析上都更為容易。
傳統(tǒng)的(a,b,0)型計數(shù)分布必須滿足式(1)(Panjer,1981)[12]:
上式中只有a、b兩個參數(shù),3 個概率值構(gòu)成的兩個方程即可完全確定分布。使用傳統(tǒng)分布估計時,當(dāng)索賠次數(shù)超過3 次以后,索賠次數(shù)估計值會出現(xiàn)較大偏差(薛智雯,2018)[18]。即使是將零點概率單獨剝離出來的零膨脹模型,也仍然沒有擺脫這種遞推關(guān)系,模型估計的靈活性同樣受到限制。零膨脹混合泊松模型通過多個分布的混合擴展了參數(shù)的個數(shù),提升了模型估計的準(zhǔn)確性,但是一方面,混合模型降低了參數(shù)的可解釋性,另一方面,混合個數(shù)的確定包含了過多的主觀性。
為了避免計數(shù)分布遞推關(guān)系的影響,本文將索賠次數(shù)作為分類變量,應(yīng)用多元有序Logistic 回歸模型,該模型可拓展性較強,并且結(jié)果具有概率意義,解釋力更強。索賠次數(shù)的高低可以反映駕駛員風(fēng)險等級的排序,所以將索賠次數(shù)視作分類變量在實際意義上是合理的。
OLR 模型作為廣義線性模型的一個重要分支,其連接函數(shù)是累積概率的轉(zhuǎn)換形式。本文實證結(jié)果表明,不同的連接函數(shù)對模型的預(yù)測結(jié)果影響很小,故選擇更為平滑的Logit 連接函數(shù),構(gòu)建的OLR模型如下:
其中pi= Pr(Y=i|X)是索賠次數(shù)為i次的概率,K為索賠次數(shù)最大值。根據(jù)式(2),可以推出索賠k次的概率pk,即:
同時考慮概率的規(guī)范性約束:
Mccullagh(1980)[19]證明了當(dāng)樣本數(shù)n足夠大時,極大似然法得到的有序模型是唯一確定的。將模型參數(shù)的估計值代入式(3)和(4),可以計算出不同索賠次數(shù)的發(fā)生概率。
Logistic模型的結(jié)果具有概率意義,駕駛員或車輛信息發(fā)生變化時,將引起索賠概率的變動,從而影響預(yù)期索賠頻率。定義相對風(fēng)險系數(shù)I來分析解釋變量變動對預(yù)期索賠頻率的影響,計算公式為:
其中xb為解釋變量的基礎(chǔ)類別。
為了客觀評價OLR 模型的預(yù)測能力,將OLR模型與泊松模型(Poisson)、零膨脹泊松模型(ZIP)和零膨脹負二項模型(ZINB)相比較,選用相同的解釋變量訓(xùn)練模型。由于這些模型之間不存在嵌套關(guān)系,赤池信息準(zhǔn)則(AIC)、貝葉斯信息準(zhǔn)則(BIC)和偏差(Deviance)等模型評價指標(biāo)并不能客觀地反映模型的優(yōu)劣(Kuha,2004)[20]。另一方面,由于數(shù)據(jù)集本身的“零膨脹”特點,如果按照最小化貝葉斯誤差來確定分類,那么所有駕駛員的索賠次數(shù)都將被預(yù)測為0次,所以比較預(yù)測的準(zhǔn)確率也沒有任何實際意義。
一個保險合同組中不同索賠次數(shù)的情況往往更值得關(guān)注,參考殷崔紅等(2019)[11]使用的模型比較方法,本文選擇卡方檢驗來評價模型對合同組的預(yù)測能力,卡方統(tǒng)計量定義為:
上式中,Oi為實際觀測到索賠i次的樣本數(shù),Ei為索賠i次樣本數(shù)的預(yù)測值。
本文以國內(nèi)2017年某車險數(shù)據(jù)為分析樣本,包含172254 條有效數(shù)據(jù)①。原數(shù)據(jù)中包含索賠次數(shù)和17個解釋變量,本文從泊松回歸模型出發(fā),根據(jù)AIC 準(zhǔn)則,使用向前向后逐步回歸,確定最終模型包含8 個解釋變量,如表1。在使用OLR 模型時,本文將被解釋變量索賠次數(shù)視為分類變量。
表1 變量符號及說明
連續(xù)變量描述統(tǒng)計如表2,分類變量頻數(shù)統(tǒng)計如表3。
表2 連續(xù)變量描述統(tǒng)計
表3 分類變量頻數(shù)統(tǒng)計
數(shù)據(jù)集中零次索賠的占比約為94.8%,索賠次數(shù)有明顯的“零膨脹”特征。為了保證數(shù)據(jù)結(jié)構(gòu)的一致性,本文根據(jù)索賠次數(shù)隨機分層抽樣,將樣本數(shù)據(jù)分為訓(xùn)練集(70%,樣本數(shù)為120578)和測試集(30%,樣本數(shù)為51676)。
為了對比OLR 模型與泊松模型、ZIP 模型和ZINB模型的差異,所有模型使用相同的解釋變量,差異僅為索賠次數(shù)的變量類型。本文將分類變量中頻數(shù)最多的分類視為基礎(chǔ)類別,使用R軟件得到OLR模型極大似然估計結(jié)果,如表4。
表4 極大似然估計結(jié)果(連接函數(shù)為Logit)
CarKindOthers Age CarAge NonDeductible0 LYClaim1截距項0|1 1|2 2|3 3|4 4|5-10.0339 0.0056 0.0439-0.5588 0.2290 3.1003 5.7936 8.7370 10.5142 11.3963 0.0000 0.0031 0.0096 0.0393 0.0836 0.1273 0.1442 0.3303 0.7531 1.1610-4.68E+07 1.8084 4.5935-14.2190 2.7396 24.3522 40.1710 26.4488 13.9606 9.8159 0.0000 0.0706 0.0000 0.0000 0.0062 0.0000 0.0000 0.0000 0.0000 0.0000解釋變量Estimate 標(biāo)準(zhǔn)誤 t統(tǒng)計量P值
使用似然比檢驗對整個模型進行檢驗,p值顯著小于0.05,模型整體有意義,如表5。
表5 模型整體檢驗(原假設(shè)為模型僅包含截距項)
參考Agresti(2003)[17]對連接函數(shù)的討論,本文分別選擇Logit、Probit 和負雙對數(shù)(Nloglog)三種連接函數(shù)建立OLR 模型,并與Poisson、ZIP 和ZINB模型相比較,索賠次數(shù)預(yù)測結(jié)果如表6。
表6 測試集索賠次數(shù)預(yù)測結(jié)果比較
由表6可以發(fā)現(xiàn),泊松模型完全未考慮數(shù)據(jù)中的零膨脹、過離散和異質(zhì)性,其卡方值為863.19,顯著高于其他5個模型,尾部概率的估計明顯偏離實際值。ZIP 和ZINB 的卡方值非常接近,一定程度上解決了零膨脹問題,但是當(dāng)索賠次數(shù)超過3 次后,預(yù)測效果明顯降低。OLR模型的卡方值最小,并且對尾部風(fēng)險的預(yù)測效果更好。其中,以Probit為連接函數(shù)的OLR 模型預(yù)測結(jié)果最優(yōu),但是三個OLR 模型的卡方值屬于同一個量級,差異可能來源于隨機性,所以無法在統(tǒng)計意義上確定哪一種連接函數(shù)的OLR模型更好。
估計索賠頻率是車險精算建模的重要工作,因為廣義線性模型的分析基于被解釋變量的均值(王選鶴等,2018)[10],所以不同模型對索賠頻率的估計差異較小,如下表。
表7 測試集索賠頻率估計及誤差
OLR 模型整體上優(yōu)于泊松模型和零膨脹模型,以Probit 為連接函數(shù)的OLR模型的誤差最小,僅為0.002583。
不同連接函數(shù)的OLR 模型差異較小,本文選擇更平滑且更常用的Logit 作為連接函數(shù),進行下一步分析。按照OLR 模型的思路,分析某一變量對于不同索賠次數(shù)發(fā)生概率的影響,本文以車型(CarKind)為例,討論不同車型索賠概率的差異。
固定其他條件不變,設(shè)定連續(xù)變量取值為平均值,分類變量取值為基礎(chǔ)類別,計算不同車型的索賠概率,結(jié)果如圖1。樣本數(shù)據(jù)中,車型為Others的索賠次數(shù)全為0,所以圖1中Others類別的車型0次索賠概率接近1,其他次數(shù)索賠幾乎為0。
圖1 不同車型索賠概率對比
由于Others 樣本數(shù)僅為96,考慮到統(tǒng)計顯著性,主要分析其他三種車型相對風(fēng)險關(guān)系。在3種車型中Type2索賠的概率最高,而Type3發(fā)生索賠的概率最低。另外,索賠1-5 次的圖形具有極高的相關(guān)性,在發(fā)生索賠的條件下,不同車型的相對風(fēng)險關(guān)系是穩(wěn)定的,也就是說索賠次數(shù)的大小,并沒有影響解釋變量與被解釋變量之間的相關(guān)關(guān)系。使用相對風(fēng)險系數(shù)I來評估不同車型對索賠頻率的影響,結(jié)果如表8。
表8 不同車型相對風(fēng)險系數(shù)
就這3 種車型而言,Type3 的相對風(fēng)險系數(shù)為Type2 的0.7745 倍。如果僅考慮這一樣本集的經(jīng)驗數(shù)據(jù),在其他條件一樣的情況下,Type3 車型保單的純保費應(yīng)為Type2的0.7745倍。類似地,可以根據(jù)不同投保人的特征計算對應(yīng)的相對風(fēng)險系數(shù),為差異化定價提供參考。
為解決車險索賠次數(shù)建模面臨的零膨脹等一系列問題,本文選擇了多元有序Logistic 回歸模型,分別使用Logit、Probit和Nloglog三種連接函數(shù)建立OLR 模型,并與泊松模型、ZIP 模型和ZINB模型相比較。OLR模型解決了部分“零膨脹”帶來的問題,該模型顯著優(yōu)于現(xiàn)有的泊松模型、ZIP 模型和ZINB模型,以Probit作為連接函數(shù)的OLR模型卡方值最小。特別是,OLR 模型克服了傳統(tǒng)計數(shù)分布的限制,參數(shù)估計更靈活,對尾部概率的預(yù)測也更準(zhǔn)確。但是不同連接函數(shù)的OLR模型的預(yù)測能力相近,卡方值的差異可能來源于隨機因素,所以無法從統(tǒng)計意義上確定使用哪種連接函數(shù)的OLR模型更適合分析車險索賠次數(shù)。
在保險實務(wù)中,不同風(fēng)險因素對索賠概率的影響是關(guān)注的重點,而模型的預(yù)測能力與解釋性呈反比關(guān)系,現(xiàn)有的混合泊松模型已經(jīng)開始面臨參數(shù)解釋性差的難題,復(fù)雜的混合分布讓風(fēng)險來源更加難以識別。OLR 模型不僅具有很好的預(yù)測能力,并且結(jié)果具有概率意義,所以較好的解釋力是其與生俱來的優(yōu)勢。在解決“零膨脹”問題的基礎(chǔ)上,OLR模型可以分析不同風(fēng)險因素變動對索賠概率的影響。例如,本文對車型(CarKind)的分析,不同車型的相對風(fēng)險系數(shù)可以作為車險定價的參考。另外,在模型應(yīng)用過程中,當(dāng)研究不同索賠次數(shù)的發(fā)生概率時,解釋變量與索賠次數(shù)之間的相關(guān)關(guān)系是不變的。
上述結(jié)論證明OLR模型可以合理應(yīng)用于承保核保等一系列環(huán)節(jié),能幫助險企綜合考慮人、車等多個因素,以實現(xiàn)風(fēng)險識別,選擇目標(biāo)客戶群體。
[注 釋]
①本文的數(shù)據(jù)來自國內(nèi)某財產(chǎn)保險公司2017年的機動車輛保險業(yè)務(wù),車輛類型為貨車。原數(shù)據(jù)共有173335 條保單數(shù)據(jù),剔除了“賠付金額”為負的8 條數(shù)據(jù)和“NCD 滿期基準(zhǔn)保費”為負的1073 條數(shù)據(jù),保留了172254 條有效數(shù)據(jù)。