亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        多元有序Logistic模型在車險索賠次數預測中的應用

        2022-01-18 07:02:30李浩男
        保險職業(yè)學院學報 2021年6期
        關鍵詞:分析模型

        李浩男

        (南開大學金融學院,天津300350)

        一、引言

        車險定價一直以來都是研究的熱點,2020年9月19日啟動的商業(yè)車險綜合改革,對車險定價的精確性和合理性提出更高的要求,是我國車險高質量發(fā)展的重要契機。廣義線性模型作為車險索賠的建模分析重要手段之一,自1972年Nelder J A和Wedderburn R 首次給出定義以來,學術界不斷為該方法增加新元素,例如Anderson等(2004)[1]對指數分布族的深入討論;同時國內外相關的著作也越來越豐富,如Frees(2010)[2]、孟生旺等(2015)[3]。

        由于免賠額與無賠款優(yōu)待等條款的存在,實務中車險索賠數據存在大量的零次索賠,傳統(tǒng)的廣義線性模型無法解決索賠數據零膨脹、過離散以及異質性的特征。此時,解決零膨脹的一個有效的方法是將模型分為零點概率和計數分布兩個部分,即(a,b,1)型的零膨脹模型。Yip 和Yau(2005)[4]首次使用零膨脹模型分析了車險索賠次數,分別討論了泊松分布與負二項分布下的零膨脹模型。為了提升擬合結果,進一步完善零膨脹模型一直是研究熱點。孟生旺和楊亮(2015)[5]基于傳統(tǒng)零膨脹模型增加了隨機效應,以此分析索賠數據組內的相依性。張連增和王締(2019)[6]對比零膨脹模型與Hurdle 模型,實證結果顯示零膨脹負二項模型更好。徐昕(2020)[7]探討了零膨脹廣義泊松模型的推廣形式,并給出了模型和參數估計方法。

        為了進一步解決零膨脹特征導致的過離散和異質性問題,在零膨脹模型的基礎上提出了混合泊松模型(Mixed Poisson, MP)。 Joe 和Zhu(2005)[8]、Nikoloulopoulos和Karlis(2008)[9]先后對比了不同的混合泊松模型,分析了索賠頻率數據的零膨脹、過離散以及厚尾特征。王選鶴等(2018)[10]研究了零膨脹混合泊松的有限混合模型,實證結果表明該模型有助于改進對索賠次數的估計結果;殷崔紅等(2019)[11]討論了開放式的混合泊松模型,提升了模型的自適應性。

        綜合已有研究可以發(fā)現(xiàn),學者們大多使用混合泊松或零膨脹泊松來研究索賠次數,在一定程度上可以解決零膨脹、過離散和尾部概率的問題。但是在應用層面,此類模型計算復雜、模型求解比較困難,同時參數難以直觀解釋;另一方面,確定混合泊松模型的混合個數時仍包含較大的主觀性。索賠次數的零膨脹問題可以視為(a,b,0)型計數模型的“后遺癥”,因為不同次數之間的發(fā)生概率需滿足遞推關系(Panjer,1981)[12],使用極大似然估計方法會受到該遞推關系的影響。大量零次索賠的存在將迫使模型給予零點概率過高的權重,從而“拉偏”了對尾部風險的估計,導致模型結果并不理想。

        為了避免計數分布遞推關系對模型的影響,已有學者使用二元Logistic 回歸研究車險索賠次數(張連增和孫維偉,2012;Duan等,2018)[13,14],但是這些討論僅限于是否發(fā)生索賠,只使用了索賠次數中的部分信息。本文將索賠次數視為有序分類變量,引入多元有序Logistic 回歸模型(Ordered Lo?gistic Regression,OLR),該模型作為Logistic模型的一個重要分類,其較多應用于醫(yī)學分析中,如Kanbayashi 等(2018)[15]利用OLR 模型探究了不同程度膽堿能綜合征的發(fā)病因素。在保險領域,劉威和劉昌平(2018)[16]使用該模型分析了社保對農村老年人健康狀況的影響,討論了模型異質性。

        本文采用OLR 模型分析索賠頻率數據。首先,參考Agresti(2003)[17]對OLR 連接函數的討論,選擇了3種不同的連接函數建立OLR模型;其次,基于OLR模型的概率意義,定義了相對風險系數,以分析風險因素變動引起的索賠概率的相對變化;最后,利用一組車險索賠數據,實證分析的結果驗證了該方法在車險索賠領域的實用價值。OLR模型相較于已有方法在模型構建、參數估計、結果分析上都更為容易。

        二、模型構建與評價

        傳統(tǒng)的(a,b,0)型計數分布必須滿足式(1)(Panjer,1981)[12]:

        上式中只有a、b兩個參數,3 個概率值構成的兩個方程即可完全確定分布。使用傳統(tǒng)分布估計時,當索賠次數超過3 次以后,索賠次數估計值會出現(xiàn)較大偏差(薛智雯,2018)[18]。即使是將零點概率單獨剝離出來的零膨脹模型,也仍然沒有擺脫這種遞推關系,模型估計的靈活性同樣受到限制。零膨脹混合泊松模型通過多個分布的混合擴展了參數的個數,提升了模型估計的準確性,但是一方面,混合模型降低了參數的可解釋性,另一方面,混合個數的確定包含了過多的主觀性。

        為了避免計數分布遞推關系的影響,本文將索賠次數作為分類變量,應用多元有序Logistic 回歸模型,該模型可拓展性較強,并且結果具有概率意義,解釋力更強。索賠次數的高低可以反映駕駛員風險等級的排序,所以將索賠次數視作分類變量在實際意義上是合理的。

        (一)模型構建

        OLR 模型作為廣義線性模型的一個重要分支,其連接函數是累積概率的轉換形式。本文實證結果表明,不同的連接函數對模型的預測結果影響很小,故選擇更為平滑的Logit 連接函數,構建的OLR模型如下:

        其中pi= Pr(Y=i|X)是索賠次數為i次的概率,K為索賠次數最大值。根據式(2),可以推出索賠k次的概率pk,即:

        同時考慮概率的規(guī)范性約束:

        Mccullagh(1980)[19]證明了當樣本數n足夠大時,極大似然法得到的有序模型是唯一確定的。將模型參數的估計值代入式(3)和(4),可以計算出不同索賠次數的發(fā)生概率。

        Logistic模型的結果具有概率意義,駕駛員或車輛信息發(fā)生變化時,將引起索賠概率的變動,從而影響預期索賠頻率。定義相對風險系數I來分析解釋變量變動對預期索賠頻率的影響,計算公式為:

        其中xb為解釋變量的基礎類別。

        (二)模型評價

        為了客觀評價OLR 模型的預測能力,將OLR模型與泊松模型(Poisson)、零膨脹泊松模型(ZIP)和零膨脹負二項模型(ZINB)相比較,選用相同的解釋變量訓練模型。由于這些模型之間不存在嵌套關系,赤池信息準則(AIC)、貝葉斯信息準則(BIC)和偏差(Deviance)等模型評價指標并不能客觀地反映模型的優(yōu)劣(Kuha,2004)[20]。另一方面,由于數據集本身的“零膨脹”特點,如果按照最小化貝葉斯誤差來確定分類,那么所有駕駛員的索賠次數都將被預測為0次,所以比較預測的準確率也沒有任何實際意義。

        一個保險合同組中不同索賠次數的情況往往更值得關注,參考殷崔紅等(2019)[11]使用的模型比較方法,本文選擇卡方檢驗來評價模型對合同組的預測能力,卡方統(tǒng)計量定義為:

        上式中,Oi為實際觀測到索賠i次的樣本數,Ei為索賠i次樣本數的預測值。

        三、實證分析

        本文以國內2017年某車險數據為分析樣本,包含172254 條有效數據①。原數據中包含索賠次數和17個解釋變量,本文從泊松回歸模型出發(fā),根據AIC 準則,使用向前向后逐步回歸,確定最終模型包含8 個解釋變量,如表1。在使用OLR 模型時,本文將被解釋變量索賠次數視為分類變量。

        表1 變量符號及說明

        連續(xù)變量描述統(tǒng)計如表2,分類變量頻數統(tǒng)計如表3。

        表2 連續(xù)變量描述統(tǒng)計

        表3 分類變量頻數統(tǒng)計

        數據集中零次索賠的占比約為94.8%,索賠次數有明顯的“零膨脹”特征。為了保證數據結構的一致性,本文根據索賠次數隨機分層抽樣,將樣本數據分為訓練集(70%,樣本數為120578)和測試集(30%,樣本數為51676)。

        (一)模型估計

        為了對比OLR 模型與泊松模型、ZIP 模型和ZINB模型的差異,所有模型使用相同的解釋變量,差異僅為索賠次數的變量類型。本文將分類變量中頻數最多的分類視為基礎類別,使用R軟件得到OLR模型極大似然估計結果,如表4。

        表4 極大似然估計結果(連接函數為Logit)

        CarKindOthers Age CarAge NonDeductible0 LYClaim1截距項0|1 1|2 2|3 3|4 4|5-10.0339 0.0056 0.0439-0.5588 0.2290 3.1003 5.7936 8.7370 10.5142 11.3963 0.0000 0.0031 0.0096 0.0393 0.0836 0.1273 0.1442 0.3303 0.7531 1.1610-4.68E+07 1.8084 4.5935-14.2190 2.7396 24.3522 40.1710 26.4488 13.9606 9.8159 0.0000 0.0706 0.0000 0.0000 0.0062 0.0000 0.0000 0.0000 0.0000 0.0000解釋變量Estimate 標準誤 t統(tǒng)計量P值

        使用似然比檢驗對整個模型進行檢驗,p值顯著小于0.05,模型整體有意義,如表5。

        表5 模型整體檢驗(原假設為模型僅包含截距項)

        (二)模型評價

        參考Agresti(2003)[17]對連接函數的討論,本文分別選擇Logit、Probit 和負雙對數(Nloglog)三種連接函數建立OLR 模型,并與Poisson、ZIP 和ZINB模型相比較,索賠次數預測結果如表6。

        表6 測試集索賠次數預測結果比較

        由表6可以發(fā)現(xiàn),泊松模型完全未考慮數據中的零膨脹、過離散和異質性,其卡方值為863.19,顯著高于其他5個模型,尾部概率的估計明顯偏離實際值。ZIP 和ZINB 的卡方值非常接近,一定程度上解決了零膨脹問題,但是當索賠次數超過3 次后,預測效果明顯降低。OLR模型的卡方值最小,并且對尾部風險的預測效果更好。其中,以Probit為連接函數的OLR 模型預測結果最優(yōu),但是三個OLR 模型的卡方值屬于同一個量級,差異可能來源于隨機性,所以無法在統(tǒng)計意義上確定哪一種連接函數的OLR模型更好。

        估計索賠頻率是車險精算建模的重要工作,因為廣義線性模型的分析基于被解釋變量的均值(王選鶴等,2018)[10],所以不同模型對索賠頻率的估計差異較小,如下表。

        表7 測試集索賠頻率估計及誤差

        OLR 模型整體上優(yōu)于泊松模型和零膨脹模型,以Probit 為連接函數的OLR模型的誤差最小,僅為0.002583。

        (三)模型應用

        不同連接函數的OLR 模型差異較小,本文選擇更平滑且更常用的Logit 作為連接函數,進行下一步分析。按照OLR 模型的思路,分析某一變量對于不同索賠次數發(fā)生概率的影響,本文以車型(CarKind)為例,討論不同車型索賠概率的差異。

        固定其他條件不變,設定連續(xù)變量取值為平均值,分類變量取值為基礎類別,計算不同車型的索賠概率,結果如圖1。樣本數據中,車型為Others的索賠次數全為0,所以圖1中Others類別的車型0次索賠概率接近1,其他次數索賠幾乎為0。

        圖1 不同車型索賠概率對比

        由于Others 樣本數僅為96,考慮到統(tǒng)計顯著性,主要分析其他三種車型相對風險關系。在3種車型中Type2索賠的概率最高,而Type3發(fā)生索賠的概率最低。另外,索賠1-5 次的圖形具有極高的相關性,在發(fā)生索賠的條件下,不同車型的相對風險關系是穩(wěn)定的,也就是說索賠次數的大小,并沒有影響解釋變量與被解釋變量之間的相關關系。使用相對風險系數I來評估不同車型對索賠頻率的影響,結果如表8。

        表8 不同車型相對風險系數

        就這3 種車型而言,Type3 的相對風險系數為Type2 的0.7745 倍。如果僅考慮這一樣本集的經驗數據,在其他條件一樣的情況下,Type3 車型保單的純保費應為Type2的0.7745倍。類似地,可以根據不同投保人的特征計算對應的相對風險系數,為差異化定價提供參考。

        四、小結

        為解決車險索賠次數建模面臨的零膨脹等一系列問題,本文選擇了多元有序Logistic 回歸模型,分別使用Logit、Probit和Nloglog三種連接函數建立OLR 模型,并與泊松模型、ZIP 模型和ZINB模型相比較。OLR模型解決了部分“零膨脹”帶來的問題,該模型顯著優(yōu)于現(xiàn)有的泊松模型、ZIP 模型和ZINB模型,以Probit作為連接函數的OLR模型卡方值最小。特別是,OLR 模型克服了傳統(tǒng)計數分布的限制,參數估計更靈活,對尾部概率的預測也更準確。但是不同連接函數的OLR模型的預測能力相近,卡方值的差異可能來源于隨機因素,所以無法從統(tǒng)計意義上確定使用哪種連接函數的OLR模型更適合分析車險索賠次數。

        在保險實務中,不同風險因素對索賠概率的影響是關注的重點,而模型的預測能力與解釋性呈反比關系,現(xiàn)有的混合泊松模型已經開始面臨參數解釋性差的難題,復雜的混合分布讓風險來源更加難以識別。OLR 模型不僅具有很好的預測能力,并且結果具有概率意義,所以較好的解釋力是其與生俱來的優(yōu)勢。在解決“零膨脹”問題的基礎上,OLR模型可以分析不同風險因素變動對索賠概率的影響。例如,本文對車型(CarKind)的分析,不同車型的相對風險系數可以作為車險定價的參考。另外,在模型應用過程中,當研究不同索賠次數的發(fā)生概率時,解釋變量與索賠次數之間的相關關系是不變的。

        上述結論證明OLR模型可以合理應用于承保核保等一系列環(huán)節(jié),能幫助險企綜合考慮人、車等多個因素,以實現(xiàn)風險識別,選擇目標客戶群體。

        [注 釋]

        ①本文的數據來自國內某財產保險公司2017年的機動車輛保險業(yè)務,車輛類型為貨車。原數據共有173335 條保單數據,剔除了“賠付金額”為負的8 條數據和“NCD 滿期基準保費”為負的1073 條數據,保留了172254 條有效數據。

        猜你喜歡
        分析模型
        一半模型
        隱蔽失效適航要求符合性驗證分析
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權M-估計的漸近分布
        電力系統(tǒng)不平衡分析
        電子制作(2018年18期)2018-11-14 01:48:24
        電力系統(tǒng)及其自動化發(fā)展趨勢分析
        3D打印中的模型分割與打包
        FLUKA幾何模型到CAD幾何模型轉換方法初步研究
        中西醫(yī)結合治療抑郁癥100例分析
        在線教育與MOOC的比較分析
        国产成人福利在线视频不卡| 无码人妻久久一区二区三区免费 | 91露脸半推半就老熟妇| 激情五月六月婷婷俺来也| 国产一区二区黄色录像| 人人爽久久涩噜噜噜av| 午夜三级网| 日韩人妖一区二区三区| 国产三a级三级日产三级野外 | 精品熟女日韩中文十区| 99久久99久久精品免观看| 国产诱惑人的视频在线观看| 欧美激情肉欲高潮视频| 最近免费中文字幕| 中国人妻沙发上喷白将av| 亚洲女同av在线观看| 国产成人亚洲综合无码品善网| 国产人妻黑人一区二区三区| 精品久久免费一区二区三区四区| 91九色中文视频在线观看| 野外亲子乱子伦视频丶| 国产成人久久综合热| 毛片色片av色在线观看| 成人一区二区三区激情视频| 国产欧美成人一区二区a片| 99亚洲精品久久久99| 视频一区视频二区亚洲免费观看 | 久久夜色精品国产噜噜噜亚洲av| 国产精品自拍盗摄自拍| 久久精品国产精品青草| 中文字幕在线亚洲一区二区三区| av福利资源在线观看| 亚洲一区二区二区视频| 色婷婷久久一区二区三区麻豆| 国产精品女同久久免费观看| 在线精品国产亚洲av麻豆| 免费无码又黄又爽又刺激| 伊香蕉大综综综合久久| 中文字幕日本在线乱码 | 亚洲精品久久久久久久久av无码| 中文字幕久久精品波多野结百度 |