亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

車險費率厘定的索賠概率預測模型及其比較分析

2017-07-17 01:22:00盧志義蔡靜

河北工業(yè)大學學報 2017年3期

關鍵詞：車險費率因變量

盧志義，蔡靜

（天津商業(yè)大學理學院，天津300134）

車險費率厘定的索賠概率預測模型及其比較分析

盧志義，蔡靜

（天津商業(yè)大學理學院，天津300134）

廣義線性模型和廣義可加模型作為經(jīng)典線性模型的擴展，近年來在非壽險精算中得到了廣泛的應用．本文在對2種模型進行簡介的基礎上，將駕駛員的性別、車型等8個變量作為費率因子，分別建立了車險索賠發(fā)生概率估計的廣義線性模型和廣義可加模型，并選取瑞典瓦薩（Wasa）保險公司的車險數(shù)據(jù)對2種模型的估計效果進行比較分析．結果表明，對于離散型費率因子占絕大多數(shù)的車險數(shù)據(jù)，廣義可加模型并不具有明顯的優(yōu)勢．因此，在車險費率厘定實務中，若離散型費率因子較多，應選擇結構相對簡單的廣義線性模型．

廣義線性模型；廣義可加模型；索賠概率；Logit聯(lián)結函數(shù)；比較分析

0 引言

對非壽險產(chǎn)品進行分類費率厘定的傳統(tǒng)方法包括單項分析法、最小偏差法以及多元回歸模型．單項分析法是最早出現(xiàn)的分類費率模型，屬確定性模型，其優(yōu)點是直觀易懂，計算方便，而其主要缺陷是當各個費率因子存在相依關系時，單項分析法得到的結論不可靠．最小偏差法最早是由Bailey R和Simon L于20世紀60年代首先提出的[1]，包括邊際總和法、最小二乘法、最小χ2法、最大似然法等，其思想是設定一個目標函數(shù)，并在目標函數(shù)達到最優(yōu)時得到相對費率的估計．最小偏差法可通過迭代公式求解，簡便易行，因而也稱為迭代法．最小偏差法雖然克服了單項分析法的不足，但和單項分析法一樣，仍然缺少一個完整的統(tǒng)計分析框架對模型進行分析和評價[2]．作為統(tǒng)計模型，多元回歸模型克服了以上2種方法的缺點，在非壽險分類費率厘定中得到了較多的應用，但其嚴格的假設條件通常無法滿足[2-3]．

1972年，Nelder對經(jīng)典線性回歸模型作了進一步推廣，建立了統(tǒng)一的理論和計算框架，對回歸模型的應用產(chǎn)生了重要影響，這種新的統(tǒng)計模型稱作廣義線性模型．與古典線性模型相比，廣義線性模型將因變量的分布假設從正態(tài)分布擴展到包括正態(tài)分布在內(nèi)的指數(shù)型分布，其方差隨著均值的變化而變化，解釋變量通過線性關系對因變量的期望值的某種變換產(chǎn)生影響．由于廣義線性模型的模型假設滿足了保險數(shù)據(jù)中特別是非壽險數(shù)據(jù)中非對稱分布、非常值方差、非線性影響的典型特征，因而從其誕生起，便被廣泛地用于包括費率厘定、準備金估計等非壽險精算的各個領域．廣義線性模型理論的建立，極大地推動了以統(tǒng)計方法為基石的精算學的發(fā)展．近年來，廣義線性模型在許多國家的保險實踐中得到了廣泛的應用，并逐漸成為行業(yè)標準模型．

McCullagh和Nelder在文獻[4]中首次對廣義線性模型進行了全面的總結，并將其應用于一組汽車保險損失數(shù)據(jù)的分析．文獻[5-7]介紹了廣義線性模型及其在精算中的應用．文獻[8]是最早討論廣義線性模型在非壽險費率厘定中應用的文獻．文獻[9]詳細討論了廣義線性模型在費率厘定中的應用問題，該文分別討論了對索賠概率（Claim frequency）和索賠額度（Claim severity）進行估計時，因變量的分布及聯(lián)系函數(shù)（Link function）的選取等問題．文獻[10]是關于廣義線性模型在非壽險定價中應用的第1部專著．較早的文獻中，都是假設索賠頻率與索賠額度相互獨立．在此假設下，純保費就是索賠頻率與索賠額度期望的乘積．大部分模型都對索賠頻率與索賠額度分別建立模型進行估計，而文獻[11-12]則通過建立基于Tweedie類分布的廣義線性模型對總賠付額進行估計，但此類模型隱含了索賠頻率與索賠額度之間是獨立的假設．然而，在實務中，許多情況下索賠頻率與索賠額度是不獨立的．為了在模型中反映二者之間的相依性，學者提出了2類模型．一類是在建立平均索賠額的估計模型中將索賠次數(shù)作為解釋變量而反映二者之間的相依關系，此方面的研究見文獻[13-16]；另一類方法則分別對索賠頻率與索賠額度建立模型，然后通過Copulas將二者聯(lián)結起來，如文獻[17-18]．文獻[19]對以上2種方法的估計進行了對比分析．

廣義線性模型是經(jīng)典線性回歸模型的延伸和擴展，它將線性模型中的分布從正態(tài)分布推廣到指數(shù)分布族，從而使模型的適用條件和范圍得到了極大的擴展．然而，廣義線性模型的一個主要缺陷是，其解釋變量是以線性預測量的形式出現(xiàn)的．對于連續(xù)型的解釋變量，當其對因變量存在非線性效應時，只有對其進行了適當?shù)淖儞Q，才能使其非線性效應得到體現(xiàn)．但是，采取何種變換才能反映出這種效應是一個較難解決的問題．可加模型也是經(jīng)典線性回歸模型的擴展，它將線性回歸模型中的預測變量的參數(shù)形式改為非參數(shù)的形式．可加模型在預測變量的效應上是可加的，為分別檢驗預測變量的效應提供了條件，并且克服了高維度帶來的問題．廣義可加模型是廣義線性模型與可加模型的結合，它集成了二者的優(yōu)點，因此是處理非線性關系的一種更加靈活而有效的工具．廣義可加模型是由Hastie和Tibshirani于1990年提出的，文獻[20]對廣義可加模型進行了詳細的介紹．文獻[10]對廣義可加模型在非壽險費率厘定中的應用進行了討論．為了同時在模型中納入離散型、連續(xù)型、分類變量以及空間效應因子，文獻[21]采用更加靈活的Bayesian廣義可加模型分別對索賠頻率和索賠額度進行了預測．

從經(jīng)典線性模型擴展到廣義線性模型，是非壽險費率厘定的一大進步．而廣義可加模型又在廣義線性模型的基礎上，引入了非參數(shù)光滑技術，從而使模型的擬合具有更小的偏差和更大的靈活性．但是，對于車險費率的厘定，由于其風險因子大多是分類變量，使得廣義可加模型的優(yōu)勢并不能得到充分發(fā)揮．因而，一個自然的問題是，在非壽險分類費率厘定中，廣義可加模型是否比廣義線性模型具有更大的適用性？本文擬在實證分析的基礎上對這一問題進行探討．由于對索賠概率和索賠額度分別建立的廣義線性（可加）模型在模型結構上基本相同，因而本文只對索賠概率的廣義線性模型和廣義可加模型的估計效果進行討論．本研究的著眼點在于不同模型預測效果的比較分析，因而在研究視角與研究內(nèi)容上與前述文獻有著本質(zhì)的區(qū)別．

本文在對廣義線性模型和廣義可加模型進行介紹的基礎上，采用瑞典瓦薩（Wasa）保險公司的車險索賠數(shù)據(jù)，建立了索賠發(fā)生概率的廣義線性模型和廣義可加模型，并對2種模型進行了比較分析．研究表明，與廣義線性模型相比，雖然對于連續(xù)型變量的非線性部分的擬合，廣義可加模型具有其自身的優(yōu)點，但對于離散型費率因子占絕大部分的車險數(shù)據(jù)，廣義可加模型并沒有特別明顯的優(yōu)勢．因此，根據(jù)模型的簡約性原則（Principle of parsimony.簡約性原則是指在統(tǒng)計建模中，應通過較少的假設和較少的變量達到較大的解釋和預測能力[22]）.在車險費率厘定實務中，若離散型費率因子較多，應選擇結構相對簡單的廣義線性模型．

1 廣義線性模型與廣義可加模型

1.1 廣義線性模型

廣義線性模型假設因變量服從指數(shù)型分布族，其方差隨著均值的變化而變化，解釋變量通過線性相加關系對因變量的期望值的某種變換產(chǎn)生影響．廣義線性模型包括3個部分.

1）隨機成分，即因變量Y或誤差項的概率分布．因變量Y的每個觀察值yi相互獨立且服從指數(shù)型分布族中的某一分布．

指數(shù)型分布族的概率密度函數(shù)可以表示為

其中：yi表示第i個觀察值；a（φ），b（θi），c（yi，φ）為已知函數(shù)．

2）系統(tǒng)成分，即解釋變量的線性組合，表示為η=β1x1+β2x2+…βpxp．系統(tǒng)成分與古典線性模型沒有區(qū)別．

3）聯(lián)結函數(shù)，聯(lián)結函數(shù)g單調(diào)且可導，它建立了隨機成分與系統(tǒng)成分之間的非線性關系，即g（μ）=η或E（Y）=μ=g-1（η）．

上式表明，在廣義線性模型中，對解釋變量的線性組合（ηi）通過函數(shù)g-1的變換之后即得對因變量的預測值．

常用的聯(lián)結函數(shù)包括恒等函數(shù)、對數(shù)函數(shù)、指數(shù)函數(shù)、logit函數(shù)等[4]．顯然，在正態(tài)分布假設和恒等聯(lián)結函數(shù)下，廣義線性模型等價于古典線性回歸模型．

需要強調(diào)的的，廣義線性模型采用的是線性結構來描述解釋變量對連結函數(shù)作用后的響應變量均值的影響，它雖然也體現(xiàn)了二者之間的非線性關系，但其函數(shù)形式有限．當解釋變量以更加復雜的非線性影響形式存在時，就會極大地限制廣義線性模型的應用，特別是當解釋變量為連續(xù)型變量時．

1.2 廣義可加模型

廣義可加模型是廣義線性模型的擴展，它保留了廣義線性模型的基本框架，只是在模型的參數(shù)估計中植入了非參數(shù)光滑技術，從而使部分解釋變量的影響表示成非參數(shù)函數(shù)形式．與廣義線性模型相類似，廣義可加模型也是由隨機部分、系統(tǒng)部分和聯(lián)結函數(shù)3部分組成，具體形式如下：

設Y為反應變量，服從指數(shù)族分布，X1，X2，…，XP為解釋變量，廣義可加模型一般可表示為如下形式：

其中：μ=E（Y|X1，…，XP）；g（·）是聯(lián)結函數(shù)；sj（·）是變量Xj的非參數(shù)光滑函數(shù)，并且假設sj（·）的二次導數(shù)存在且連續(xù)．實務中比較常用的模型是

光滑函數(shù)可以采用各種類型的函數(shù)，如光滑樣條函數(shù)、局部回歸函數(shù)、自然三次樣條函數(shù)、B－樣條函數(shù)和多項式函數(shù)等．實務中常采用多項式函數(shù)反映非線性效應．但多項式函數(shù)的缺陷是當其次數(shù)較小時，模型不能靈活地反映數(shù)據(jù)的變化趨勢；而次數(shù)較大又會導致估計的不穩(wěn)健，特別是對于xj左右兩邊的極端點．因而最常用的就是樣條函數(shù)．廣義可加模型不僅體現(xiàn)了解釋變量的線性影響，也包含了非線性影響，并且對解釋變量的具體函數(shù)形式不作具體規(guī)定，體現(xiàn)了模型的靈活性．

光滑函數(shù)sj（xj）可以根據(jù)實際情況采用任何形式，一般可使用光滑樣條函數(shù)來進行擬合．對于光滑樣條函數(shù)來說，一般采用懲罰最小二乘法來求解，也可以通過懲罰極大似然法求解．光滑樣條的求解結合了粗糙度懲罰的思想，即找到合適的sj（xj）使得懲罰最小二乘函數(shù)或者懲罰極大似然函數(shù)最小化．其數(shù)學形式為：

2 索賠概率預測模型及其比較分析

2.1 數(shù)據(jù)及變量

本文采用文[10]中的數(shù)據(jù)進行實證分析，該數(shù)據(jù)是1994-1998年瑞典瓦薩（Wasa）保險公司的車險數(shù)據(jù)．數(shù)據(jù)包含64 548個觀測值，在觀察期間，至少發(fā)生一次索賠的有670個，其中有27個索賠次數(shù)為2次，最大索賠額為365 347．數(shù)據(jù)包括9個變量，每個變量的含義如表1所示.文[8]采用此數(shù)據(jù)建立廣義線性模型對索賠次數(shù)和索賠強度進行估計，并得出相對費率．本文分別建立廣義線性模型和廣義可加模型對索賠概率進行估計，并對2種模型的擬合效果進行對比分析．

表1 變量釋義Tab.1 Variable definitions

2.2 索賠概率的預測模型

為估計索賠概率，本文仍采用常用的Logistic回歸模型，即假設因變量服從二項分布，使用Logit聯(lián)結函數(shù)．為了得到良好的估計效果，對于連續(xù)型費率因子，可采用多項式回歸的思想，將費率因子的高次項加入線性預測部分．對于本文的數(shù)據(jù)，通過繪制散點圖，發(fā)現(xiàn)索賠頻率的logit函數(shù)與年齡呈非線性關系，于是，根據(jù)散點圖，考慮將年齡的二次方項加入線性預測量，建立如下廣義線性模型：

采用SAS的GENMOD過程進行分析，輸出結果見表2～表4.

表2 擬合優(yōu)度標準Tab.2 Tests of goodness of fit

由表3和表4可知，7個費率因子變量總體效應是顯著的，且各變量的等級因子大部分都通過了參數(shù)的顯著性檢驗．

表3 Type 3分析Tab.3 Analysis of Type 3

表4 參數(shù)估計及檢驗Tab.4 Parameter estimation and test

以下采用廣義可加模型對索賠概率進行擬合．同廣義線性模型相同，在用廣義可加模型擬合索賠發(fā)生概率時，假設因變量服從二項分布，使用Logit聯(lián)結函數(shù)．考慮將駕駛員的年齡、性別、所在區(qū)域、車型、車齡、折扣以及保單持有期作為解釋變量，索賠概率作為因變量，建立如下模型：

其中，s（·）表示光滑函數(shù)．利用SAS軟件進行數(shù)據(jù)擬合，程序運行結果見表5～表7.

由此可知，所建立的廣義可加模型的非參數(shù)部分的擬合優(yōu)度較好，大部分分類變量的等級因子是顯著的．

2.32 種模型的比較分析

考慮到2種模型在模型評價指標上的差異性和非一致性，本文主要采用模型的偏差（Deviance）對所建立的2種模型進行評價和比較．本例中，廣義可加模型的偏差為6 659.04，而廣義線性模型的偏差為6 699.54，由此可知廣義可加模型的擬合結果稍好．這說明，較廣義線性模型而言，廣義可加模型的非參數(shù)特性增加了模型的靈活性和適應性，具有較好的擬合效果和更大的適用范圍．但是，從數(shù)據(jù)可以看出，兩模型的偏差并無明顯的差別，因而廣義可加模型比廣義線性模型并未體現(xiàn)出明顯的優(yōu)勢．事實上，廣義可加模型也有其局限性，在樣本量不變的情況下，當模型中的解釋變量較多時，廣義可加模型會因為“維度的災難（curse of dimensionality）”而使方差急劇增加，從而導致擬合效果的下降．另外，雖然對連續(xù)型解釋變量的非線性部分來說，廣義可加模型具有更好的擬合優(yōu)度和更大的靈活性．但是，車險數(shù)據(jù)大都比較復雜，既有只取少數(shù)幾個值的分類變量，也有連續(xù)型的變量，并且一般情況下分類變量較多．對分類變量占

絕大多數(shù)的車險數(shù)據(jù)進行擬合，采用對于連續(xù)變量非線性擬合有極強能力的廣義可加模型并不是最佳的選擇．因而，在實務中，應將2種模型結合使用，互相映襯．如可以采用兩階段法進行建模，即在第1階段采用廣義可加模型對各費率因子進行探索性研究，找出對具有非線性影響的費率因子及其影響形式；第2階段，將不同類型（線性影響和非線性影響）的費率因子以不同的形式納入模型，建立廣義可加模型，并將其與廣義線性模型的擬合效果進行對比，在兼顧模型復雜程度與擬合效果的基礎上選擇較好的模型．

表5 迭代情況Tab.5 The information of iterations

表6 參數(shù)估計Tab.6 Parameter estimation

表7 偏差分析Tab.7 Deviance analyses

[1]孟生旺，劉樂平．非壽險精算學[M]．第2版.北京：中國人民大學出版社，2011．

[2]孟生旺．廣義線性模型在汽車保險定價中的應用[J]．數(shù)理統(tǒng)計與管理，2007，26（1）：24-28．

[3]孟生旺．非壽險定價[M]．北京：中國財政經(jīng)濟出版社，2011．

[4]McCullagh P，Nelder J．Generalized linear models[M]．London：Chapman and Hall，1983．

[5]De Jong P，Heller G．Generalized linear models for insurance data[M]．New York：Cambridge University Press，2008．

[6]Haberman S，Renshaw A E．Generalized linear models and actuarial science[J]．The Statistician，1996，45：407-436．

[7]盧志義，劉樂平．廣義線性模型在非壽險精算中的應用及其研究進展[J]．統(tǒng)計與信息論壇，2007，22（4）：26-31．

[8]Brockman M J，Wright T S．Statistical motor rating:making effective use of your data[J].Journal of the Institute of Actuaries，1992，119：457-543．

[9]Renshaw A E．Modeling the claims process in the presence of covariates[J]．ASTIN Bulletin，1994，24：265-285．

[10]Johansson B，Ohlsson E．Non-Life insurance pricing with Generalized Linear Models[M]．Springer，2010．

[11]JorgensenB，deSouzaMCP．FittingTweedie’scompoundPoissonmodeltoinsuranceclaimsdata[J]．ScandinavianActuarialJournal，1994，1：69-93．

[12]Quijano-XacurOA，GarridoJ．Generalisedlinearmodelsforaggregateclaims:ToTweedieornot[J].EuropeanActuarialJournal，2015，5（1）：181-202．

[13]Frees E W，Wang P．Copula credibility for aggregate loss models[J]．Insurance Mathematics and Economics，2006，38（2）：360-373．

[14]Gschlubl S，Czado C．Spatial modelling of claim frequency and claim size in non-life insurance[J]．Scandinavian Actuarial Journal，2007，3：202-225．

[15]Frees E W，Gao J，Rosenberg M A．Predicting the frequency and amount of health care expenditures[J]．North American Actuarial Journal，2002，15（3）：377-392．

[16]Garrido J，Genest C，Schulz J．Generalized linear models for dependent frequency and severity of insurance claims[J]．Insurance:Mathematics and Economics，2016，70：205-215．

[17]Czado C，Kastenmeier R，Brechmann E C，Min A．A mixed copula model for insurance claims and claim sizes[J]．Scandinavian Actuarial Journal，2012，4：278-305．

[18]Kramer N，Brechmann E C，Silvestrini D，et al．Total loss estimation using copula-based regression models[J]．Insurance:Mathematics and Economics，2013，53（3）：829-839．

[19]Shi P，F(xiàn)eng X，Ivantsova A．Dependent frequency-severity modeling of insurance claims[J].Insurance:Mathematics and Economics，2015，64：417-428．

[20]Wood S．Generalized Additive Models：an introduction with R[M]．Chapman&Hall，2006．

[21]Denuit M，Lang S．Non-life rate-making with Bayesian GAMs[J]．Insurance:Mathematics and Economics，2004，35（3）：627-647．

[22]Spirer H F，Spirer L．Misused Statistics[M]．2nd edition.CRC Press，1998．

[責任編輯楊屹]

A comparative analysis of two predictive models of the probability of claim in automobile insurance ratemaking

LU Zhiyi，CAI Jing
（School of Science,Tianjin University of Commerce,Tianjin 300134,China）

As extensions of classical linear model,Generalized linear models and Generalized additive models recently have been widely used in non-life actuarial science.In this paper,by using eight variables including gender and vehicle type as the rating factors,the probability of claim is modeled applying Generalized linear models and Generalized additive models respectively.Furthermore，the estimation effects between the two models are compared by applying the data of Wasa insurance company of Swedish.It is shown that Generalized additive models does not has clear advantage in fitting the data of automobile insurance because of the existence of more discrete covariables.Therefore,Generalized linear models should be adopt in insurance practice when there are more discrete risk factors.

Generalized linear models;Generalized additive models;the probability of claim;Logit link function;comparative analysis

1007-2373（2017）03-0056-07

10.14081/j.cnki.hgdxb.2017.03.010

F224.7；O212

2016-12-14

國家自然科學基金（71371138）；全國統(tǒng)計科學研究計劃項目（2012LY107）

盧志義（1973-），男，副教授，博士.