亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        集成學(xué)習(xí)方法的應(yīng)用與比較

        2023-12-29 10:10:50佩,孟
        統(tǒng)計與決策 2023年23期
        關(guān)鍵詞:交強(qiáng)險保單車險

        成 佩,孟 勇

        (山西財經(jīng)大學(xué)a.應(yīng)用數(shù)學(xué)學(xué)院;b.財政與公共經(jīng)濟(jì)學(xué)院;c.資源型經(jīng)濟(jì)轉(zhuǎn)型發(fā)展研究院,太原 030006)

        0 引言

        機(jī)器學(xué)習(xí)方法在處理復(fù)雜數(shù)據(jù)、構(gòu)建高精度模型方面具有顯著優(yōu)勢,在不同領(lǐng)域的研究中都得到了廣泛應(yīng)用[1]。在車險損失的預(yù)測中,已有很多學(xué)者利用不同的機(jī)器學(xué)習(xí)方法對車險損失進(jìn)行預(yù)測[2—4],并將預(yù)測結(jié)果與廣義線性模型(Generalized Linear Models,GLM)作了比較,這些文獻(xiàn)表明,機(jī)器學(xué)習(xí)方法中的神經(jīng)網(wǎng)絡(luò)、裝袋法、梯度提升樹等模型提高了對車險損失的預(yù)測精度。還有學(xué)者對比了不同機(jī)器學(xué)習(xí)方法對車險損失的預(yù)測結(jié)果。如孟生旺等(2017)[5]將支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)、梯度提升樹等多種機(jī)器學(xué)習(xí)方法應(yīng)用于車險損失的預(yù)測中,采用均方根誤差和KL 散度指標(biāo)評價了各模型對累積賠款的預(yù)測效果,結(jié)果表明支持向量機(jī)和梯度提升樹在不同評價指標(biāo)上表現(xiàn)均相對優(yōu)越。有學(xué)者收集了包含國內(nèi)外車險數(shù)據(jù)的七個數(shù)據(jù)集,比較了五種流行的機(jī)器學(xué)習(xí)方法和廣義線性模型的預(yù)測能力,發(fā)現(xiàn)除了神經(jīng)網(wǎng)絡(luò)之外的四種機(jī)器學(xué)習(xí)方法的預(yù)測效果均優(yōu)于廣義線性模型,但無法在隨機(jī)森林、梯度提升樹、深度神經(jīng)網(wǎng)絡(luò)三種方法中得到統(tǒng)一的最優(yōu)預(yù)測模型。以上研究表明,在車險損失的預(yù)測中,裝袋法、隨機(jī)森林、梯度提升樹等集成學(xué)習(xí)方法均表現(xiàn)出一定的優(yōu)越性,但基于常用的評價指標(biāo)無法比較哪種模型更適用于預(yù)測車險損失。

        此外,現(xiàn)有文獻(xiàn)的研究大多關(guān)注車險損失的預(yù)測精度,而缺少對影響車險損失的風(fēng)險變量重要性測度的研究。張碧怡等(2019)[6]基于XGBoost和隨機(jī)森林對車險風(fēng)險因子重要性測度作了比較研究,表明排在前三位的重要變量基本一致。但關(guān)于影響商業(yè)車險和交強(qiáng)險的風(fēng)險因子的重要性測度對比分析目前還未有研究。

        為了探析哪一種集成學(xué)習(xí)方法對車險損失的預(yù)測更有效,本文在常用的評價模型預(yù)測水平的平均絕對誤差和均方根誤差的基礎(chǔ)上,提出了綜合平均誤差及穩(wěn)定性指標(biāo),分別用于評價不同集成學(xué)習(xí)方法的預(yù)測效果及穩(wěn)定性,從而在多個預(yù)測模型中選出最優(yōu)車險損失預(yù)測模型。另外,為了對比影響不同險種的重要風(fēng)險變量,本文分別以商業(yè)車險和交強(qiáng)險累積索賠額為被解釋變量建立預(yù)測模型,進(jìn)而分析比較影響不同險種損失的風(fēng)險變量的重要性,以期為承保公司對個體風(fēng)險進(jìn)行分類提供依據(jù),以提升不同險種定價的合理性。

        1 集成學(xué)習(xí)預(yù)測模型

        集成學(xué)習(xí)是通過采用某種策略將多個“基學(xué)習(xí)器”組合成一個預(yù)測效果優(yōu)良的“強(qiáng)學(xué)習(xí)器”來完成學(xué)習(xí)任務(wù)的,通常集成以后可以獲得比單個“基學(xué)習(xí)器”顯著優(yōu)越的泛化性能。裝袋法、隨機(jī)森林和梯度提升樹是典型的集成學(xué)習(xí)方法,決策樹是最常見的“基學(xué)習(xí)器”。

        下面主要介紹決策樹及裝袋法、隨機(jī)森林和梯度提升樹這三種集成學(xué)習(xí)方法建立的車險累積索賠額預(yù)測模型、生成規(guī)則及主要參數(shù)。

        假設(shè)數(shù)據(jù)集D={(xi,yi),i=1,2,…,n} 由n份保單構(gòu)成,其中表示第i份保單有p個特征變量(如車價、車齡等),yi表示第i份保單的累積索賠額。

        1.1 決策樹(Tree)

        數(shù)學(xué)模型:

        其中,M表示生成的決策樹有M個葉節(jié)點,分別用L1,L2,…,LM表示;為第m個葉節(jié)點Lm中所含保單的平均累積索賠額;示性函數(shù)I(xi∈Lm)表示生成的決策樹對第i份保單累積索賠額的預(yù)測值。

        生成規(guī)則:預(yù)測累積索賠額決策樹在每次分裂生長過程中,從所有特征變量中任意選擇第j個特征變量x(j)及臨界值s,將當(dāng)前節(jié)點分成兩個對應(yīng)子節(jié)點,分別為R1(j,,進(jìn)一步計算分裂后兩個子節(jié)點離差平方和之和,即:

        其中,=ave(yi|(xi,yi)∈R1(j,s))表示R1(j,s)中所含保單的平均累積索賠額,=ave(yi|(xi,yi)∈R2(j,s))表示R2(j,s)中所含保單的平均累積索賠額。遍歷所有特征變量和臨界值,選擇使式(2)達(dá)到最小的特征變量和臨界值作為最優(yōu)分裂變量和最優(yōu)臨界值,對當(dāng)前節(jié)點進(jìn)行分裂。如此遞歸,直至滿足條件才停止分裂,得到葉節(jié)點,這樣就生成了一棵決策樹。

        1.2 裝袋法(Bootstrap aggregating,簡記為Bagging)

        數(shù)學(xué)模型:

        其中,B表示最優(yōu)決策樹的數(shù)量;表示第b棵最優(yōu)決策樹對第i份保單累積索賠額的預(yù)測結(jié)果;表示Bagging 模型對第i份保單累積索賠額的預(yù)測結(jié)果。

        Bagging 模型中B棵最優(yōu)決策樹的生成規(guī)則:采用自助抽樣法對數(shù)據(jù)集D={(xi,yi),i=1,2,…,n}進(jìn)行有放回的再抽樣,得到B個自助樣本,第b(b=1,2,…,B)個自助樣本可以表示為,每個自助樣本都包含n份保單。第b棵最優(yōu)決策樹是基于第b個自助樣本D*b中的n份保單按模型(1)自然形成的,其中每個內(nèi)部節(jié)點分裂時,是從所有特征變量及臨界值中選擇使式(2)最小的變量和臨界值,無須剪枝。

        Bagging模型的主要參數(shù)包含決策樹的數(shù)量(B)、葉節(jié)點最小樣本點(nodesize)。

        與單棵決策樹相比,Bagging 的優(yōu)點是降低了測試誤差。Bagging 將多棵決策樹的預(yù)測結(jié)果進(jìn)行平均,降低了估計量的方差。每棵樹盡情生長不需要剪枝,降低了每棵決策樹的偏差。

        1.3 隨機(jī)森林(Random Forest)

        數(shù)學(xué)模型:

        其中,B表示最優(yōu)決策樹的數(shù)量;表示第b棵最優(yōu)決策樹對第i份保單累積索賠額的預(yù)測結(jié)果;表示Random Forest對第i份保單累積索賠額的預(yù)測結(jié)果。

        Random Forest 模型中B棵最優(yōu)決策樹的生成規(guī)則:采用自助抽樣法得到B個自助樣本。與Bagging模型不同的是,在基于第b個自助樣本n}按模型(1)形成第b棵決策樹的過程中,每個內(nèi)部節(jié)點依據(jù)式(2)最小原則進(jìn)行分裂時,是從所有特征變量中隨機(jī)選取一部分變量作為分裂候選特征變量。

        Random Forest參數(shù)有決策樹的數(shù)量(B)、葉節(jié)點最小樣本點(nodesize)、備選特征變量個數(shù)(mtry)。

        Random Forest 與Bagging 數(shù)學(xué)模型相似,但為了降低最優(yōu)決策樹之間的相關(guān)性,每棵最優(yōu)決策樹的生成過程有所不同。例如,如果車價是所有特征變量中影響累積索賠額的最主要變量,那么Bagging 模型中大多數(shù)樹都會在最初節(jié)點分裂中選擇車價作為最優(yōu)分裂變量,從而導(dǎo)致Bagging 模型中決策樹之間存在較高的相關(guān)性。Random Forest在不同節(jié)點僅采用隨機(jī)選取的部分特征變量作為候選分裂變量,從而可以保證至少有一些樹在最初節(jié)點分裂中選擇了除車價之外的其他變量作為最優(yōu)分裂變量,降低了B棵最優(yōu)決策樹之間的相關(guān)性,進(jìn)而有效降低了估計量方差。另外,由于在每個節(jié)點分裂時未使用全部信息,因此會增大偏差。

        1.4 梯度提升樹(Gradient Boosting Tree,簡記為GBT)

        數(shù)學(xué)模型:

        GBT生成過程如下:

        (1)利用所有保單構(gòu)成的數(shù)據(jù)集D={(xi,yi),i=1,2,…,n}生成一棵僅有一個葉節(jié)點的決策樹:

        對任意xi(i=1,2,…,n),有:

        (2)第b(b=1,2,…,B)棵決策樹的生成迭代過程如下:

        利用損失函數(shù)沿負(fù)梯度方向下降最快的原理,計算損失函數(shù)的負(fù)梯度在當(dāng)前模型的值=yi-fb-1(xi)(i=1,2, …,n),即當(dāng)前模型對第i份保單累積索賠額的預(yù)測誤差;由第i份保單xi及其對應(yīng)的誤差構(gòu)成新數(shù)據(jù)集在Db下利用模型(1)擬合第b棵決策樹f?b(tree)(·),其中每個內(nèi)部節(jié)點依據(jù)式(2)最小原則選擇分裂變量和臨界值進(jìn)行分裂。

        以學(xué)習(xí)率ηb為步長更新當(dāng)前模型fb(xi)=fb-1(xi)+ηb,進(jìn)入上述迭代過程。直至第B棵決策樹生成,迭代停止,這就形成了GBT模型。

        GBT模型參數(shù)包括決策樹的數(shù)量(B)、樹的交互深度(depth)、葉節(jié)點最小樣本數(shù)(nodesize)、學(xué)習(xí)率(shrinkage)。

        GBT的基本思想是通過擬合之前決策樹的殘差,使以后生成的決策樹修正之前決策樹的錯誤。與Bagging 和Random Forest 相比,GBT 模型中的B棵決策樹是依次而種,相對位置不能隨意更改。由于每棵樹糾正了上一棵樹的錯誤,因此可以有效降低偏差。

        從上述四種機(jī)器學(xué)習(xí)方法的數(shù)學(xué)模型可以看出,機(jī)器學(xué)習(xí)方法無須設(shè)定模型的函數(shù)形式,且可以從車險數(shù)據(jù)中自動識別變量存在的交互效應(yīng)及非線性關(guān)系,因此更具靈活性。另外,從模型的作用機(jī)制可以分析出,Bagging、Random Forest、GBT 這三種集成學(xué)習(xí)的預(yù)測效果優(yōu)于單棵決策樹,但從理論上無法判斷哪種方法具有絕對的優(yōu)勢。

        2 集成學(xué)習(xí)預(yù)測模型的評價

        常用的評價不同集成學(xué)習(xí)方法預(yù)測性能的指標(biāo)主要有平均絕對誤差、均方誤差、均方根誤差,除此之外,本文還提出了綜合平均誤差和度量模型穩(wěn)定性的σ2。

        (1)平均絕對誤差(Mean Absolute Error,MAE)

        (2)均方誤差(Mean Square Error,MSE)

        (3)均方根誤差(Root Mean Square Error,RMSE)

        以上是目前通常采用的評價預(yù)測模型的指標(biāo),與MSE相比,MAE和RMSE的計算結(jié)果與目標(biāo)變量的量綱保持一致,因此更常用,但兩者又存在一些缺陷。MAE選擇的最優(yōu)模型對離群點不敏感,RMSE選擇的最優(yōu)模型則是以犧牲正常點的擬合效果為代價,對離群點容易產(chǎn)生過擬合。本文以車險損失數(shù)據(jù)為實證分析對象,但車險損失數(shù)據(jù)中僅有少數(shù)數(shù)據(jù)屬于離群點,絕大多數(shù)車險損失為0,數(shù)據(jù)具有極不平衡的特點。若采用某種單一指標(biāo)評價車險損失的預(yù)測模型,則可能導(dǎo)致預(yù)測結(jié)果偏大或偏小。針對研究問題的特殊性及MAE、RMSE 兩個指標(biāo)的特點,本文構(gòu)造了一個新指標(biāo),即綜合平均誤差。

        (4)綜合平均誤差(Composite Mean Error,CME)

        該指標(biāo)是MAE 和RMSE 的等權(quán)重平均值,對兩者在離群點和正常點的懲罰權(quán)重做了平滑處理。采用CME評價預(yù)測模型,既考慮了異常損失帶來的重要風(fēng)險影響,又不會產(chǎn)生對離群點過擬合的結(jié)果,使得預(yù)測結(jié)果更準(zhǔn)確。因此本文采用該指標(biāo)對比不同機(jī)器學(xué)習(xí)方法在車險損失預(yù)測方面的效果。

        (5)模型穩(wěn)定性σ2

        考慮到在集成學(xué)習(xí)方法中,Bagging、Random Forest 及GBT均是以決策樹作為“基學(xué)習(xí)器”,其中決策樹的生長存在分裂方式上的不唯一性,即在最優(yōu)參數(shù)下,得到的最優(yōu)模型具有一定的隨機(jī)性。因此,需要提出一個指標(biāo)來衡量最優(yōu)模型的波動性水平。為了討論這三種機(jī)器學(xué)習(xí)算法的穩(wěn)定性,本文提出了σ2指標(biāo)。

        3 數(shù)據(jù)介紹及模型最優(yōu)參數(shù)

        3.1 數(shù)據(jù)介紹

        本文選取了國內(nèi)某保險公司2018—2020年的商業(yè)車險和交強(qiáng)險損失數(shù)據(jù),數(shù)據(jù)的分布情況見表1。

        表1 保單在各保險年度出險的數(shù)據(jù)分布

        從表1中不難發(fā)現(xiàn),2018—2020年商業(yè)車險的出險比例均高于交強(qiáng)險,說明商業(yè)車險發(fā)生索賠的可能性要高于交強(qiáng)險。對于出險的保單,商業(yè)車險的平均索賠強(qiáng)度要高于交強(qiáng)險,這主要是因為商業(yè)車險保障范圍及保障強(qiáng)度都大于交強(qiáng)險。由此可提出假設(shè),風(fēng)險變量對不同類別車險未來累積索賠額的影響程度不一樣。因此,本文分別對商業(yè)車險和交強(qiáng)險進(jìn)行預(yù)測建模,探索在不同保險類別中風(fēng)險變量對累積索賠額的影響。

        數(shù)據(jù)集共有9 個變量,其中被解釋變量是累積索賠額,解釋變量有8個,具體如下頁表2所示。

        表2 數(shù)據(jù)集的變量列表

        3.2 數(shù)據(jù)預(yù)處理及數(shù)據(jù)集劃分

        從表1中可以看出,數(shù)據(jù)集中出險保單與未出險保單的比例嚴(yán)重失衡,說明樣本數(shù)據(jù)是不平衡的。在實際應(yīng)用中,針對不平衡數(shù)據(jù)進(jìn)行調(diào)整的方法主要有兩種:一種是欠抽樣,減少未出險保單的數(shù)量,使之與出險保單數(shù)量相當(dāng),兩者合并得到一個較為平衡的樣本;另一種是過抽樣,通過增加出險保單的比例來實現(xiàn)樣本平衡。由于本文選取的數(shù)據(jù)集規(guī)模并不是很大,因此采用過抽樣的方法調(diào)整不平衡,避免因刪除一部分?jǐn)?shù)據(jù)產(chǎn)生信息損失問題。

        將處理后的數(shù)據(jù)集按7:3 劃分為訓(xùn)練集和測試集。利用訓(xùn)練集訓(xùn)練模型,并基于交叉驗證調(diào)節(jié)最優(yōu)參數(shù),在測試集上檢驗最優(yōu)參數(shù)下模型的預(yù)測水平。

        3.3 模型最優(yōu)參數(shù)選擇

        由于Bagging、Random Forest 及GBT 模型中含有多個參數(shù),因此為了得到最優(yōu)擬合模型,需要對各模型的參數(shù)進(jìn)行網(wǎng)格搜索,并通過交叉驗證得到最優(yōu)參數(shù)。表3顯示了參數(shù)調(diào)優(yōu)的選擇范圍及得到的最優(yōu)參數(shù)。表3 中最后一列是在2018年商業(yè)車險數(shù)據(jù)集上得到的各模型對應(yīng)參數(shù)的最優(yōu)取值。

        表3 參數(shù)調(diào)優(yōu)的選擇范圍及最優(yōu)參數(shù)

        4 實證結(jié)果

        本文采用廣義線性模型、決策樹、裝袋法、隨機(jī)森林及梯度提升樹分別對2018—2020年商業(yè)車險和交強(qiáng)險單位風(fēng)險的累積索賠額進(jìn)行預(yù)測建模。

        4.1 預(yù)測效果比較

        在比較不同模型的預(yù)測效果時,采用了常用的MSE、RMSE和MAE,以及本文構(gòu)造的CME和σ2,這些指標(biāo)的取值越小,說明模型預(yù)測效果越好。

        表4 至表6 為各模型在2018—2020 年商業(yè)車險數(shù)據(jù)集上的預(yù)測結(jié)果??梢钥闯?,在商業(yè)車險累積索賠額的預(yù)測模型中,四種機(jī)器學(xué)習(xí)方法的預(yù)測效果均表現(xiàn)得更好,其中單棵決策樹的預(yù)測效果稍差一些。在三種集成學(xué)習(xí)方法中,以MSE 和RMSE 作為評價指標(biāo),2018—2019 年數(shù)據(jù)集上GBT 模型預(yù)測效果最好,2020 年數(shù)據(jù)集上Random Forest 模型預(yù)測效果最好;以MAE 作為評價指標(biāo),Bagging模型表現(xiàn)最好。

        表4 2018年商業(yè)車險各模型預(yù)測結(jié)果對比

        表5 2019年商業(yè)車險各模型預(yù)測結(jié)果對比

        表6 2020年商業(yè)車險各模型預(yù)測結(jié)果對比

        圖1 展示了采用CME 指標(biāo)對比不同模型對商業(yè)車險累積索賠額的預(yù)測效果。直方圖的高度是以GLM模型的CME 為基準(zhǔn),不同模型與之相比預(yù)測效果提升的程度。高度越高,提升的程度越大,說明預(yù)測效果越好。

        圖1 商業(yè)車險中機(jī)器學(xué)習(xí)與GLM關(guān)于CME指標(biāo)的比較

        將CME 作為評價指標(biāo),結(jié)合圖1 可以看出,機(jī)器學(xué)習(xí)方法的預(yù)測效果比GLM 模型提高了不少,其中三種集成學(xué)習(xí)方法的提高幅度都超過了50%。在2018年數(shù)據(jù)集上GBT模型預(yù)測效果最好,相比另外兩種集成學(xué)習(xí)方法優(yōu)越性較突出,在2019 年和2020 年數(shù)據(jù)集上,分別是GBT 和Random Forest模型表現(xiàn)最優(yōu),但三種集成學(xué)習(xí)方法的預(yù)測效果相差并不明顯;將三種集成學(xué)習(xí)方法3年數(shù)據(jù)集上的CME指標(biāo)進(jìn)行平均,發(fā)現(xiàn)GBT模型的對應(yīng)值最小,即GBT模型的平均預(yù)測效果最好。對比三種集成學(xué)習(xí)方法的穩(wěn)定性,表4至表6中一致認(rèn)為GBT模型的預(yù)測波動方差最小、最穩(wěn)定。因此與其他模型相比,GBT 模型對商業(yè)車險累積索賠額的預(yù)測效果要更好。

        表7 至表9 比較了各模型在2018—2020 年交強(qiáng)險數(shù)據(jù)集上的預(yù)測效果。

        表7 2018年交強(qiáng)險各模型預(yù)測結(jié)果對比

        表8 2019年交強(qiáng)險各模型預(yù)測結(jié)果對比

        表9 2020年交強(qiáng)險各模型預(yù)測結(jié)果對比

        可以看出,集成學(xué)習(xí)方法預(yù)測效果要優(yōu)于單棵決策樹和GLM 模型。三種集成學(xué)習(xí)方法中,以MSE 和RMSE 作為評價指標(biāo),在2018—2020 年數(shù)據(jù)集上預(yù)測效果最好的模型分別是Random Forest、Bagging、GBT。以MAE作為評價指標(biāo),在2018—2019年數(shù)據(jù)集上GBT模型表現(xiàn)最好,在2020年數(shù)據(jù)集上Bagging模型表現(xiàn)更好。

        圖2 展示了采用CME 指標(biāo)評價不同機(jī)器學(xué)習(xí)方法對交強(qiáng)險累積索賠額的預(yù)測效果,直方圖的高度說明同圖1。

        圖2 交強(qiáng)險中機(jī)器學(xué)習(xí)與GLM關(guān)于CME指標(biāo)的比較

        將CME 作為評價指標(biāo),結(jié)合圖2 可以看出,在2018—2019 年數(shù)據(jù)集上GBT 模型預(yù)測效果最優(yōu),尤其是在2018年數(shù)據(jù)集上其與Bagging 模型相比優(yōu)越性較突出,在2020年數(shù)據(jù)集上Bagging 模型預(yù)測效果更優(yōu),但GBT 模型的預(yù)測效果和Bagging 模型的差距并不明顯;將三種集成學(xué)習(xí)方法3年數(shù)據(jù)集上的CME指標(biāo)進(jìn)行平均,發(fā)現(xiàn)GBT模型的對應(yīng)值最小,即GBT 模型的平均預(yù)測效果最好。對比三種集成學(xué)習(xí)方法的穩(wěn)定性,表7至表9一致認(rèn)為GBT模型的波動方差最小、最穩(wěn)定。因此整體上GBT 模型對交強(qiáng)險累積索賠額的預(yù)測效果最好。

        4.2 不同險種的變量重要性排序

        集成學(xué)習(xí)方法在預(yù)測不同險種的累積索賠額時,雖然無法像GLM 模型一樣給出擬合模型的顯性函數(shù)表達(dá)式,但可以度量不同風(fēng)險變量對累積索賠額的影響程度。通過在所有數(shù)據(jù)集上比較CME 和σ2兩個指標(biāo)可以發(fā)現(xiàn),GBT 模型的預(yù)測效果更好。因此本文基于GBT 模型的預(yù)測結(jié)果,分別在商業(yè)車險和交強(qiáng)險兩類不同險種下,討論各風(fēng)險變量的相對重要性。在R 中,GBT 模型通過summary()可以得到各個風(fēng)險變量相對影響的百分比,取值越大,說明該變量對累積索賠額的影響效應(yīng)越大。。

        通過圖3可以看出,在2018—2020年商業(yè)車險數(shù)據(jù)集上,一致認(rèn)為排在前三位的重要變量分別是保費、車價、車齡。其中,保費和車價對商業(yè)車險累積索賠額的影響程度要明顯強(qiáng)于其他變量,車齡和NCD有一定的影響作用,其他變量的影響效應(yīng)相對微弱。

        圖3 影響商業(yè)車險累積索賠額的變量重要性排序

        下頁圖4 描述了影響交強(qiáng)險保單累積索賠額的變量重要性排序。在2018—2019 年數(shù)據(jù)集上,一致認(rèn)為排在前三位的重要變量分別是車價、車齡、保費,在剩余變量中,NCD的影響效應(yīng)相對較強(qiáng),其他變量的影響不明顯。在2020年數(shù)據(jù)集上,變量重要性順序發(fā)生了很大變化,排在前三位的變量分別是車價、車別、車齡,其中車價的影響程度較前兩年有所上升,車齡的影響效應(yīng)較前兩年則有所下降。

        圖4 影響交強(qiáng)險累積索賠額的變量重要性測度

        下頁圖5 至圖7 分別比較了在2018—2020 年數(shù)據(jù)集上,同一風(fēng)險變量對商業(yè)車險和交強(qiáng)險這兩個不同險種的重要性。從圖5至圖7可以看出,同一風(fēng)險變量對不同險種累積索賠額的影響效應(yīng)是不同的,尤其是排序靠前的風(fēng)險變量對不同險種累積索賠額的影響效應(yīng)差異性很大。其中,保費對商業(yè)車險累積索賠額的影響明顯強(qiáng)于交強(qiáng)險;車價對交強(qiáng)險累積索賠額的影響顯著高于商業(yè)車險;車齡對交強(qiáng)險累積索賠額的影響更大,但對兩者影響的差距隨時間推移逐漸縮小;NCD對商業(yè)車險累積索賠額的影響要大于交強(qiáng)險;車別對兩種保險累積索賠額的影響隨時間推移差距逐漸擴(kuò)大。

        圖5 風(fēng)險變量對2018年商業(yè)車險和交強(qiáng)險累積索賠額的影響效應(yīng)比較

        圖6 風(fēng)險變量對2019年商業(yè)車險和交強(qiáng)險累積索賠額的影響效應(yīng)比較

        圖7 風(fēng)險變量對2020年商業(yè)車險和交強(qiáng)險累積索賠額的影響效應(yīng)比較

        5 結(jié)論

        本文通過使用2018—2020年商業(yè)車險和交強(qiáng)險數(shù)據(jù)集,基于廣義線性模型、決策樹、裝袋法、隨機(jī)森林及梯度提升樹分別對商業(yè)車險和交強(qiáng)險單位風(fēng)險的累積索賠額進(jìn)行建模預(yù)測,發(fā)現(xiàn)在三種集成學(xué)習(xí)方法中,梯度提升樹適合在車險領(lǐng)域建立損失預(yù)測模型,其不僅能提高對未來累積索賠額的預(yù)測精度,還具有較高的穩(wěn)定性。進(jìn)一步利用該模型對比了影響商業(yè)車險和交強(qiáng)險累積索賠額的重要風(fēng)險變量,發(fā)現(xiàn)不同險種的重要風(fēng)險變量排序不同,且排序靠前的重要風(fēng)險變量對兩種險種未來累積索賠額的影響效應(yīng)有明顯差異,對改善不同險種的保費厘定結(jié)構(gòu)具有重要的應(yīng)用價值。

        猜你喜歡
        交強(qiáng)險保單車險
        人身險保單貼現(xiàn)制度本土化法律問題研究
        上海保險(2023年11期)2023-12-15 07:55:26
        消費者要的是保單貼現(xiàn)而不是保單轉(zhuǎn)換
        基于改進(jìn)DeepFM的車險索賠預(yù)測模型的研究
        一種基于5G網(wǎng)絡(luò)平臺下的車險理賠
        無法投保交強(qiáng)險的電動四輪車發(fā)生交通事故,責(zé)任人如何承擔(dān)賠償責(zé)任?
        分憂(2017年4期)2017-04-08 17:27:41
        一季度車險費率下降0.07% 保費收入1500多億
        基于 Tweedie 類分布的廣義可加模型在車險費率厘定中的應(yīng)用
        車子沒買交強(qiáng)險撞傷行人要全賠嗎?
        人民交通(2014年8期)2014-03-18 03:38:20
        保單貼現(xiàn)在我國壽險實務(wù)中的運(yùn)作機(jī)制
        保單貼現(xiàn)在我國壽險實務(wù)中的運(yùn)作機(jī)制
        精品久久久少妇一区二区| 日韩无码电影| 手机在线观看亚洲av| 国产在线网址| 亚洲综合色婷婷久久| 亚洲一区二区三区av天堂| 少妇无套裸按摩呻吟无呜| 国产成人无码免费视频在线| 久久99欧美| 亚洲av日韩一区二三四五六七| 亚洲国产一区二区三区| 欧美俄罗斯40老熟妇| 亚洲人成绝费网站色www| 欧美日本亚洲国产一区二区| 国产在线观看网址不卡一区| 国产av麻豆精品第一页| 狼人伊人影院在线观看国产| 中文字幕乱码无码人妻系列蜜桃| 日本精品一区二区三区在线视频| 亚洲AV无码专区国产H小说| 日本av一区二区三区四区| 一本大道av伊人久久综合| 欧美成人片在线观看| 激情久久av一区av二区av三区 | 极品少妇被猛的白浆直喷白浆| 在线视频99| 久久国产精品av在线观看| 高清国产国产精品三级国产av| 手机看片自拍偷拍福利| 国语精品一区二区三区| 中文字幕一区二区三区久久网站| 挑战亚洲美女视频网站| 国家一级内射高清视频| 久久无码高潮喷水抽搐| 又污又爽又黄的网站| 91精品国产91久久综合桃花| 日本一级二级三级在线| 性色av色香蕉一区二区蜜桃| 中文字幕久久久人妻无码| 亚洲成av人片无码不卡播放器| 亚洲天堂中文字幕君一二三四|