趙曉兵, 劉 偉
(浙江財經(jīng)大學數(shù)學與統(tǒng)計學院,浙江 杭州 310018)
?
均值計數(shù)模型下汽車保險索賠頻數(shù)的估計方法
趙曉兵, 劉 偉
(浙江財經(jīng)大學數(shù)學與統(tǒng)計學院,浙江 杭州 310018)
汽車保險的索賠頻數(shù)預測問題是非壽險精算理論和應用研究的一個重要內(nèi)容。但是,在含有高維附加信息的情形下,傳統(tǒng)的估計方法就不再適用。本文在均值計數(shù)模型基礎上,利用凸懲罰函數(shù)進行變量選擇,找到影響車險索賠頻數(shù)的顯著性因子,并通過模擬和實例分析來評價該模型和所提出的方法的可行性。
汽車保險;均值計數(shù)模型;凸懲罰;變量選擇;估計方程
汽車商業(yè)保險是對機動車輛由于自然災害或意外事故所造成的人身傷亡或財產(chǎn)損失承擔賠償責任的一種保險業(yè)務。隨著汽車數(shù)量的猛增,車險市場呈現(xiàn)出快速發(fā)展的態(tài)勢。汽車保險更是財產(chǎn)保險的第一大險種,部分公司的汽車保險保費收入占其財產(chǎn)保險總保費收入的60%以上。關于汽車保險定價方法的研究一直以來都是非壽險精算理論及應用研究的重點內(nèi)容。
在目前的汽車保險定價實務中,對車險索賠頻率和索賠強度的預測是兩個主要研究問題,流行的研究方法是利用廣義線性模型方法[1][2]。雖然廣義線性模型有現(xiàn)成的統(tǒng)計軟件可用,也可以對參數(shù)估計的結果進行直觀的解釋,但是,該方法需要假定已知因變量和解釋變量之間的某種聯(lián)系函數(shù),而目前采用的函數(shù)形式卻比較有限。隨著現(xiàn)代統(tǒng)計方法的大量出現(xiàn),以及數(shù)據(jù)收集方式的更新,使得新類型的數(shù)據(jù)往往包含大范圍的附加信息,即所謂的“高維協(xié)變量”[3]。在這種背景下,傳統(tǒng)的廣義線性模型往往不再適用。而且由于廣義線性模型不能自動識別解釋變量之間的交互作用,導致建模過程比較耗時。除廣義線性模型之外,神經(jīng)網(wǎng)絡模型也是研究汽車保險索賠問題的常用研究方法之一。但神經(jīng)網(wǎng)絡模型的計算較為復雜,同時也很難對協(xié)變量的回歸系數(shù)給出直觀的解釋(Faraway,2006;Werner and Modlin,2010;孟生旺,2007)[4][5][6]。
針對現(xiàn)有汽車保險索賠頻數(shù)估計方法中存在的局限,本文基于澳大利亞MAA公司(The Motor Accidents Authority)的一組綜合險(comprehensive insurance)索賠數(shù)據(jù),將Wang、Qin and Chiang(2001)[7]以及Huang and Wang(2004)[8]的模型推廣到允許含有高維協(xié)變量存在的情形,在此基礎上提出一個新的評估方法。該模型有兩個顯著特點:一是允許高維協(xié)變量的存在,可以通過變量選擇得到模型的稀疏表達,找到影響索賠頻數(shù)的顯著性因子,提高模型整體的預測精度。二是對未知的基準函數(shù)不進行任何參數(shù)假定,并且在降維的過程中不需要知道基準函數(shù)的具體形式,以便對車險索賠頻數(shù)做出更穩(wěn)健的估計。
在索賠頻數(shù)或者復發(fā)事件研究中,我們常常采用Cox型強度函數(shù)的計數(shù)過程。假定因變量Ni(i=1,2,…,n)為汽車保險索賠頻數(shù),解釋變量Xi1,Xi2,…,Xip為影響車險索賠頻數(shù)的風險因子。為了分析該索賠數(shù)據(jù),Huang and Wang(2004)[8]提出了如下模型:
(1)
其中,Xi=(Xi1,Xi2,…,Xip)T,βi=(β1,β2,…,βp)T,t=Yi∧τ為觀測時間,Yi為刪失時間,τ為觀測的終止時間,λ0(t)是未知的基準函數(shù)(baseline),λ(t|Xi)是強度率函數(shù)。上述模型常常被稱為Cox型比例危險模型。
然而此模型也存在一些局限,例如,我們常常需要假定其協(xié)變量是低維的。當含有高維協(xié)變量時,該模型往往不再適用?;诖?本文對該模型進行一般化推廣,即允許有高維協(xié)變量的存在。Zhao and Zhou(2014)[9]對含有高維協(xié)變量的Cox模型下的系數(shù)估計方法進行了深入研究,提出如下的多指標模型:
(2)
其中,Ψ為完全未知的聯(lián)系函數(shù)。首先利用非參數(shù)方法對未知的基準函數(shù)Λ0(t)做出估計,其次使用充分降維(sufficient dimension reduction-SDR)獲得協(xié)變量的中心降維子空間的結構維數(shù)和基方向,最后通過局部回歸估計完全未知的聯(lián)系函數(shù)Ψ。
注意到Zhao and Zhou(2014)[9]對Λ0(t)的估計需要使用每次索賠發(fā)生的具體時間數(shù)據(jù),而在目前的精算實務中,保險精算數(shù)據(jù)往往只含有累積的索賠次數(shù),而并不特別關心每次索賠具體發(fā)生的時間點。因此,在本文中,我們只需要對協(xié)變量進行降維,而不再關注基準函數(shù)Λ0(t)的估計。假設一個均值計數(shù)模型,即假設到時刻t為止的累積索賠次數(shù)Ni(t)有如下的均值計數(shù)結構:
(3)
另外,SDR可以有效克服高維協(xié)變量情形下“維數(shù)禍根”的影響,且不需要對模型有任何參數(shù)假定,在降維的過程中也充分考慮了響應變量的因素,保留了更多的回歸信息。但類似于主成分分析,SDR是通過尋找自變量的若干線性組合來達到降維目的的,因此我們不易得到降維系數(shù)的直觀解釋。為了找到影響汽車保險索賠頻數(shù)的顯著性因子,賦予模型以直觀的解釋,同時提高模型整體的預測精度,本文考慮另一種方法,即通過優(yōu)化一個帶“懲罰”函數(shù)的“損失”來達到變量選擇的目的,該方法也是目前文獻中另外一個受到廣泛重視的解決高維協(xié)變量問題的有效方法。受Fan and Li(2001)[10]懲罰對數(shù)似然函數(shù)思想的啟發(fā),本文在模型(3)的基礎上,對Sun and Wei(2000)[11]提出的估計方程做出懲罰,以得到β的稀疏估計。本文的顯著優(yōu)點在于:一是可以允許有高維協(xié)變量的存在,二是通過懲罰函數(shù)挑選顯著性變量時不需要依賴基準函數(shù)baseline。
注意到模型(1)和(3)雖有上述數(shù)學表達式上的聯(lián)系,但實際上它們卻有很大的差別。模型(1)是一個基于非平穩(wěn)泊松分布的計數(shù)過程,模型(3)則為不需要關于分布作任何假設的均值計數(shù)模型。另外,在估計方法上,模型(1)和(2)均需要知道每次索賠發(fā)生的具體時間點,而模型(3)卻允許索賠發(fā)生的時間點完全未知。因此無論是在統(tǒng)計建模還是估計方法上,模型(3)比模型(1)都更具靈活性和更一般化。
本節(jié)將利用凸懲罰函數(shù)方法來進行變量選擇,得到影響車險索賠頻數(shù)的顯著性因子及相應的系數(shù)估計。在模型(3)基礎上,為了得到參數(shù)向量β的估計,Sun and Wei(2000)[11]提出了如下的無偏估計方程,該方法的最大特點是不涉及未知的基準函數(shù)Λ0(t),從而不需要每次索賠的具體發(fā)生時間點。中心化協(xié)變量Xi后,該估計方程定義如下:
為了得到β的估計,Tong and He等(2009)[12]提出如下的迭代公式:
β(l+1)=β(l)+{nA(β(l))+n∑(βl)}-1Q(β)
(4)
其中,βj為第l次迭代β(l)的第j個分量。為了得到調(diào)整參數(shù),我們在以上每一次迭代中都使用廣義交叉驗證方法,其定義為:
e(λ1,…,λd)=tr[{A(β)+∑(β)}-1A(β)]
其中,tr為求矩陣的跡,即矩陣主對角線元素之和。則調(diào)整參數(shù)(λ1,…,λd)可以定義為如下統(tǒng)計量的最小值:
將初值β(0)帶入GCV,在得到λ1,λ2,…,λd后,即可計算A(β)與∑(β),再帶入(4)式,迭代至收斂,即可得到β的懲罰估計。
(一)維數(shù)為6的數(shù)值模擬
表1 β的估計值
(二)維數(shù)為10的數(shù)值模擬
表2 β的估計值
本節(jié)基于澳大利亞MAA公司(TheMotor Accidents Authority)的一組綜合險的索賠數(shù)據(jù),研究車險索賠頻數(shù)對影響因素的響應關系。該組數(shù)據(jù)共含有1446位投保人在1993年度的索賠信息,Jong and Heller(2008)[14]利用Copula模型分析過該組數(shù)據(jù)。本文將利用模型(3)再次來分析該組數(shù)據(jù),我們將通過懲罰函數(shù)來挑選顯著性因數(shù)變量,從而達到降維目的。
以一份汽車保險合同在一個固定保險期內(nèi)(一個保險期)的最終索賠頻數(shù)為因變量,影響因素為所有可能的變量,共17個變量。幾個比較重要的變量如下:
(1)被保險人在該保險合同以前(不包括該保險合同期內(nèi)的)的索賠金額;
(2)被保險人性別(0表示男性,1表示女性);
(3)保單維持期(以一年為一個保單合同期,表示被保險人在保險公司的合同連續(xù)維持了幾年);
(4)婚否(即被保險人在觀測期內(nèi)是否結婚,0表示未婚,1表示已婚);
(5)父母健在(0表示父母去世,1表示父母健在);
(6)居住時間(以年為單位,表示被保險人在同一處所居住的最長時間);
(7)延誤(即處理完索賠的耽誤時間);
(8)觀測期數(shù)(即連續(xù)觀測了多少時間,以年為單位,一年為一期)。
表4 系數(shù)估計的值
由表4可以看出,對索賠頻數(shù)影響較大的變量主要有:前期的索賠金額、被保險人性別、被保險人婚否、被保險人父母是否健在以及最高受教育程度。通過以上估計,我們可以得到如下結論:
(1)前期的索賠金額。在變量選擇得到的系數(shù)估計中,前期索賠金額的系數(shù)為0.1658,由此我們可知,該變量對索賠頻數(shù)有顯著性影響。這主要是由于,在正常情況下,被保險人在過去的行為會自覺延續(xù)到現(xiàn)在,這與行為經(jīng)濟學的基本假設相吻合。
(2)被保險人性別。在變量選擇得到的系數(shù)估計中,性別的系數(shù)為0.5047,這說明性別對交通事故的發(fā)生有較為顯著的影響,這主要是由于男女性格差異、行為模式等的不同造成男女在交通事故的發(fā)生次數(shù)及嚴重程度上有明顯的區(qū)別。
(3)被保險人是否結婚。在表4中,婚否對索賠頻數(shù)的影響系數(shù)為0.4783,這說明是否結婚對因變量有較為顯著的影響,這主要是由于結婚使被保險者的家庭責任感上升,從而自覺遵守交通規(guī)則,減少交通事故的發(fā)生以及汽車保險的索賠次數(shù)。
(4)父母健在。從懲罰估計的結果來看,該變量的系數(shù)估計為0.2167,這與我們直觀上的感覺并不一致,同被保險人是否已婚相同,這主要是因為父母的健在使被保險人有更多的歸屬感及家庭責任感,從而影響到交通事故的發(fā)生及汽車保險的索賠。
(6)最高受教育程度。從表4可以看出,最高受教育程度對索賠次數(shù)有非常顯著的影響。這是因為隨著受教育程度的提高,更高素質(zhì)的被保險人會更加自覺地遵守交通法規(guī),從而對索賠次數(shù)的減少產(chǎn)生積極的影響。
(5)保單維持期。理論上,保單維持期越長,索賠次數(shù)越大,保險理賠越高。然而,被保險人性別、婚否、受教育程度等也對索賠次數(shù)有很大的影響,從而使得保單維持期對索賠次數(shù)的影響不是那么顯著。另外一個解釋是,由于汽車保險獎懲系統(tǒng)(Bonus-Malus System-BMS)的存在,留在同一保險公司的長期客戶都是“表現(xiàn)良好”的客戶。
本文中,我們提議了一個汽車保險索賠頻數(shù)的均值計數(shù)模型,該模型允許每次索賠具體發(fā)生時間點缺失,同時也允許有高維協(xié)變量的存在。該方法無論從模型建立還是統(tǒng)計方法上講都更具一般性和靈活性。我們利用凸懲罰變量選擇方法對高維協(xié)變量進行降維,得到回歸系數(shù)的稀疏估計,該方法提供了一種處理高維情形下車險索賠數(shù)據(jù)的另外一種選擇。在本文中,我們主要研究了汽車保險的索賠次數(shù),而沒有考慮每次索賠的具體金額,這將是我們以后要繼續(xù)研究的問題。
[1] Lin D Y. Linear regression analysis of censored medical costs[J]. Biostatistics,2000,1(1):35-47.
[2] Lin D Y. Regression analysis of incomplete medical cost data[J].Statistics in Medicine,2003,22(7):1181-1200.
[3] 趙曉兵,王偉偉.高維附加信息下的商業(yè)醫(yī)療保險費用評估模型和方法[J].財經(jīng)論叢,2013,(4):58-65.
[4] Faraway J. Extending the Linear Model with R[M]. Chapman & Hall/CRC,2006.
[5] Werner G., Modlin C. Basic Ratemaking[M]. Casualty Actuarial Society,2010.
[6] 孟生旺.廣義線性模型在汽車保險定價中的應用[J].數(shù)理統(tǒng)計與管理,2007,(1):24-29.
[7] Wang MC, Qin J and Chiang CT. Analyzing recurrent event data with informative censoring[J]. Journal of the American Statistical Association,2001,(96):455-464.
[8] Huang CY, Wang MC. Joint modeling and estimation of recurrent event processes and failure time data[J]. Journal of the American Statistical Association,2004,(99):1153-1165.
[9] Zhao XB, Zhou X. Sufficient dimension reduction on the mean and rate functions of recurrent events[J]. Statistics in Medicine,2014,33(21),3693-3709.
[10] Fan JQ, Li RZ. Variable selection via nonconcave penalized likelihood and its oracle properties[J]. Journal of the American Statistical Association,2001,(96):1348-1360.
[11] Sun JG, Wei L. Regression analysis of panel count data with covariate-dependent observation and censoring times[J]. Journal of the Royal Statistical Society: Series B,2000,(62):293-302.
[12] Tong XW, He X, Sun LQ, Sun JG. Variable selection for panel count data via non-concave penalized estimating function[J]. Scandinavian Journal of Statistics,2009,(36):620-635.
[13] Li RZ, Liang, H. Variable selection in semiparametric regression modeling[J]. The Annals of Statistics,2008,(36):261-286.
[14] Jong, P. and Heller, G. Z. Generalized Linear Models for Insurance Data (International Series on Actuarial Science)[M]. Cambridge,2008.
(責任編輯:原 蘊)
Estimation of Car Insurance Claim Frequency under the Mean Count Model
ZHAO Xiao-bing, LIU Wei
(School of Mathematics & Statistics, Zhejiang University of Finance & Economics, Hangzhou 310018, China)
Prediction of car insurance claim frequency is a focus of theoretical and empirical research of non-life actuarial studies. However, owing to the high-dimensional information involved, traditional models and estimation methods no longer apply. In this paper, some significant factors of car insurance claim frequency are identified through the variable selection method with convex penalty function based on the mean count model. A small simulation and a real data analysis are conducted to assess the feasibility of the proposed model and methods.
car insurance; mean count model; convex penalty; variable selection; estimate function
2014-08-27
國家自然科學基金資助項目(11271317);浙江省自然科學基金資助項目(LY14A010022);浙江省哲學與社會科學規(guī)劃資助項目(12JCJJ17YB)
趙曉兵(1968-),男,四川平昌人,浙江財經(jīng)大學數(shù)學與統(tǒng)計學院教授;劉偉(1987-),男,山東泰安人,浙江財經(jīng)大學數(shù)學與統(tǒng)計學院碩士生。
F840.6
A
1004-4892(2015)02-0044-06