朱倩倩 吳學(xué)寧 劉英男
摘 要:隨著機器學(xué)習(xí)技術(shù)的快速發(fā)展,越來越多的保險公司開始應(yīng)用機器學(xué)習(xí)方法來改進車險定價策略。車險定價因素的重要性測度對于保險公司和車主來說具有重要意義,它可以揭示不同因素對保險費的影響程度,幫助制定更準(zhǔn)確和個性化的保險策略。本研究旨在比較不同機器學(xué)習(xí)方法在車險定價因素重要性測度方面的表現(xiàn),重點關(guān)注廣義線性模型(GLM)、隨機森林、XGBoost等常用方法,并基于2組真實的車險數(shù)據(jù)集進行實證研究。通過實驗和數(shù)據(jù)分析,我們發(fā)現(xiàn)不同算法模型在車險定價因素重要性測度方面存在一致性和差異性。某些因素在不同模型中的重要性測度結(jié)果一致,例如獎懲系數(shù)和廠商指導(dǎo)價。然而,也存在部分因素在不同模型中的重要性測度結(jié)果不一致的情況,這可能是由于模型算法和數(shù)據(jù)特征的不同所導(dǎo)致的。這些測度結(jié)果為保險公司提供了重要的參考,并為進一步改進車險定價模型和方法提供了指導(dǎo)。
關(guān)鍵詞:機器學(xué)習(xí) 車險定價 重要性測度
1 引言
車險是保險行業(yè)的重要領(lǐng)域之一,其定價準(zhǔn)確性和公正性對保險公司和車主都具有重要意義。隨著機器學(xué)習(xí)技術(shù)的快速發(fā)展和大數(shù)據(jù)的廣泛應(yīng)用,越來越多的保險公司開始采用機器學(xué)習(xí)算法來進行車險定價。機器學(xué)習(xí)具有從大量數(shù)據(jù)中學(xué)習(xí)和發(fā)現(xiàn)模式的能力,可以更準(zhǔn)確地捕捉車險定價中的復(fù)雜關(guān)系和非線性特征。然而,隨著機器學(xué)習(xí)算法的不斷增多,如何選擇合適的算法并評估不同因素對保險費的重要性成為一個關(guān)鍵問題。因此,本研究旨在通過比較不同的機器學(xué)習(xí)方法,對車險定價因子的重要性進行測度,以提供更準(zhǔn)確、可靠的車險定價模型。
文章的目標(biāo)是通過比較不同的機器學(xué)習(xí)方法,研究車險定價因子的重要性測度。具體來說,文章將進行以下工作:首先,收集真實的車險數(shù)據(jù)集,并進行數(shù)據(jù)預(yù)處理和特征選擇,以保證數(shù)據(jù)的質(zhì)量和可靠性。其次,選擇一組代表性的機器學(xué)習(xí)算法,文章主要應(yīng)用集成學(xué)習(xí)方法中的隨機森林和XGBoost,使用這些算法對車險數(shù)據(jù)集進行建模和訓(xùn)練,并以廣義線性模型為基準(zhǔn),測度不同車險定價因子的重要性。最后,通過對比不同算法的結(jié)果,評估它們在車險定價因子重要性測度上的表現(xiàn),并提供實際應(yīng)用和決策的參考依據(jù)。本研究的意義在于為保險公司提供更科學(xué)、精確的車險定價模型,提高保險費的準(zhǔn)確性和公平性。同時,通過比較不同機器學(xué)習(xí)算法的性能,可以為保險行業(yè)選擇合適的算法提供參考,促進機器學(xué)習(xí)在車險定價領(lǐng)域的應(yīng)用和發(fā)展。
2 研究方法
2.1 傳統(tǒng)車險定價方法
傳統(tǒng)的車險定價方法主要基于統(tǒng)計分析和經(jīng)驗法則。這些方法通常依賴于歷史數(shù)據(jù)和專業(yè)經(jīng)驗,通過建立數(shù)學(xué)模型來預(yù)測保險費。其中常見的方法包括廣義線性模型、貝葉斯統(tǒng)計等。盡管傳統(tǒng)的車險定價方法在一定程度上可以提供有用的結(jié)果,但由于其局限性和假設(shè)的限制,往往無法充分利用大規(guī)模數(shù)據(jù)和復(fù)雜模式的學(xué)習(xí)能力。
2.1.1 廣義線性模型
廣義線性模型是一種對線性回歸的擴展,能夠處理更復(fù)雜的因變量和自變量之間的關(guān)系。在車險定價中,廣義線性模型可以允許因變量具有非線性的關(guān)系,并使用不同的鏈接函數(shù)來建模。例如,可以使用泊松分布來建模保險事故的發(fā)生率,然后利用對數(shù)鏈接函數(shù)將發(fā)生率轉(zhuǎn)化為保險費。通過最大似然估計等方法,可以擬合廣義線性模型,并得到各個因素的影響程度。通過引入鏈接函數(shù)和非線性變換,廣義線性模型能夠更好地擬合數(shù)據(jù),但仍受限于人為選擇的模型形式和假設(shè)。
廣義線性模型在車險定價中,可以表示為:
g(E[Y])=β0+β1X1+β2X2+…+βnX
其中,g(·)是鏈接函數(shù)(link function),用于將因變量的線性組合映射到特定的分布上。E[Y]表示因變量Y的期望值,X1,X2,…,Xn表示駕駛員信息和車輛屬性等因素,β0,β1,β2,…,βn表示模型的系數(shù)。通過最大似然估計等方法,可以估計出系數(shù)β0,β1,β2,…,βn。
2.1.2 貝葉斯統(tǒng)計
貝葉斯統(tǒng)計方法是一種基于概率模型的車險定價方法,在車險定價中有著廣泛的應(yīng)用。貝葉斯方法通過引入先驗分布和后驗分布,將參數(shù)估計問題轉(zhuǎn)化為概率推斷問題。在車險定價中,可以使用貝葉斯方法來建立概率模型,估計參數(shù)的后驗分布,并根據(jù)后驗分布預(yù)測保險費。然而,貝葉斯統(tǒng)計方法在計算復(fù)雜度和數(shù)據(jù)要求上具有一定挑戰(zhàn)性。
貝葉斯統(tǒng)計方法在車險定價中,可以表示為:
P(θ|D)=P(D|θ)*P(θ)/P(D)
其中,P(θ|D)表示參數(shù)θ給定數(shù)據(jù)D的后驗分布,P(D|θ)表示在給定參數(shù)θ的情況下觀測到數(shù)據(jù)D的概率,P(θ)表示參數(shù)θ的先驗分布,P(D)表示數(shù)據(jù)D的邊緣概率。通過貝葉斯定理,可以根據(jù)先驗分布和似然函數(shù)計算后驗分布,并用于參數(shù)估計和預(yù)測。
2.2 機器學(xué)習(xí)在車險定價中的應(yīng)用
隨著機器學(xué)習(xí)技術(shù)的發(fā)展,保險公司開始廣泛應(yīng)用機器學(xué)習(xí)方法來改進車險定價。其中,集成學(xué)習(xí)方法是一種強大而受歡迎的技術(shù),它通過結(jié)合多個模型的預(yù)測結(jié)果,能夠提高預(yù)測準(zhǔn)確性和穩(wěn)定性。本部分將介紹文章應(yīng)用的兩種集成學(xué)習(xí)方法:隨機森林和XGBoost。
2.2.1 隨機森林
隨機森林是一種基于決策樹的集成學(xué)習(xí)方法。它由多個決策樹組成,每個決策樹都是獨立訓(xùn)練的,并通過投票或平均等方式綜合它們的預(yù)測結(jié)果。隨機森林通過引入隨機性,如隨機抽樣和隨機特征選擇,來增加模型的多樣性,減少過擬合的風(fēng)險。在車險定價中,隨機森林可以根據(jù)駕駛員信息、車輛屬性和歷史索賠數(shù)據(jù)等因素來構(gòu)建模型。它能夠自動處理缺失值和異常值,并具有良好的魯棒性。隨機森林還可以提供各個因素的重要性評估,幫助保險公司理解各個因素對保險費的影響程度。
假設(shè)有一個包含N個樣本的訓(xùn)練集,每個樣本有D個特征。隨機森林的數(shù)學(xué)公式可以表示為:
F(x)=\frac{1}{N}\sum_{i=1}^{N}f(x,\Theta_i)
其中,F(xiàn)(x)表示隨機森林的預(yù)測結(jié)果,N表示森林中決策樹的數(shù)量,f(x,\Theta_i)表示第i棵決策樹對樣本的預(yù)測結(jié)果,\Theta_i表示第i棵決策樹的參數(shù)。隨機森林的預(yù)測結(jié)果可以通過投票或平均等方式綜合所有決策樹的預(yù)測結(jié)果。每棵決策樹的訓(xùn)練過程是通過隨機抽樣的訓(xùn)練數(shù)據(jù)集和隨機選擇的特征進行訓(xùn)練的。
2.2.2 XGBoost
XGBoost是一種梯度提升框架,它通過迭代訓(xùn)練多個弱學(xué)習(xí)器(通常是決策樹),并通過梯度下降優(yōu)化算法逐步提升模型的預(yù)測性能。XGBoost具有高度靈活性和可擴展性,能夠處理大規(guī)模數(shù)據(jù)集和復(fù)雜的非線性關(guān)系。在車險定價中,XGBoost可以應(yīng)用于建立一個強大的預(yù)測模型。它能夠自動處理缺失值、處理不平衡數(shù)據(jù)和進行特征選擇,同時提供了豐富的超參數(shù)調(diào)優(yōu)選項。XGBoost具有較快的訓(xùn)練速度和較高的預(yù)測準(zhǔn)確性,能夠更好地適應(yīng)車險定價問題的復(fù)雜性。
XGBoost的數(shù)學(xué)公式可以表示為:
F(x)=\sum_{m=0}^{M}f_m(x)
其中,F(xiàn)(x)表示XGBoost的預(yù)測結(jié)果,M表示迭代的輪數(shù),f_m(x)表示第m輪迭代中弱學(xué)習(xí)器的預(yù)測結(jié)果。XGBoost的訓(xùn)練過程是通過最小化目標(biāo)函數(shù)來優(yōu)化模型的參數(shù),目標(biāo)函數(shù)包括損失函數(shù)和正則化項。梯度下降優(yōu)化算法被用于迭代地更新模型的參數(shù),使得損失函數(shù)逐步減小。
2.3 變量重要性測度
文章這一部分將介紹GLM和兩種集成學(xué)習(xí)方法隨機森林和XGBoost的變量重要性測度方法。
2.3.1 GLM變量重要性測度
在廣義線性模型(GLM)中,變量重要性的測度通常基于估計參數(shù)的顯著性或系數(shù)的大小。下面介紹兩種常見的GLM變量重要性測度方法。
參數(shù)顯著性,在GLM中,每個變量的系數(shù)表示其對響應(yīng)變量的影響。通常,使用假設(shè)檢驗來評估參數(shù)的顯著性。如果某個變量的系數(shù)具有統(tǒng)計顯著性(即假設(shè)檢驗中的p-value小于預(yù)設(shè)的顯著性水平),則可以認(rèn)為該變量對車險定價具有重要性。具有顯著性的變量表明其對響應(yīng)變量有顯著的線性關(guān)系。
另一種衡量變量重要性的方法是考慮GLM中變量的系數(shù)大小。系數(shù)的絕對值越大,表示變量對車險定價的影響越大。通過比較不同變量的系數(shù)大小,可以確定它們對車險定價的相對重要性。具體公式為:
Variable Importance=|Coefficient|
其中,Variable Importance表示變量的重要性,Coefficient表示變量的系數(shù)。
2.3.2 隨機森林變量重要性測度
通過隨機森林,可以計算每個變量在訓(xùn)練過程中對模型準(zhǔn)確率的貢獻(xiàn),從而評估其重要性。常用的變量重要性測度方法包括平均準(zhǔn)確率減少和Gini重要性。這些方法可以提供關(guān)于每個變量對隨機森林模型的預(yù)測性能的相對重要性排序。
平均準(zhǔn)確率減少是一種通過評估特征對模型準(zhǔn)確率的影響來測量變量重要性的方法。它的基本思想是在訓(xùn)練過程中,隨機打亂某個特征的值,然后計算模型在打亂后的數(shù)據(jù)上的準(zhǔn)確率與原始數(shù)據(jù)上的準(zhǔn)確率之差。較大的準(zhǔn)確率減少值意味著該特征對模型的準(zhǔn)確性有較大的影響,因此該特征的重要性較高。
Gini重要性是一種基于基尼不純度(Gini impurity)的測量方法。它衡量了在每個決策樹中使用某個特征進行劃分時,該特征對結(jié)果分類的純度提升程度。具體來說,Gini重要性是通過計算在所有決策樹中使用該特征進行劃分時,基尼不純度的平均減少量來評估特征的重要性。較大的Gini重要性值表示該特征對于降低基尼不純度、提高分類純度的貢獻(xiàn)較大,因此該特征的重要性較高。
2.3.3 XGBoost重要性測度
在XGBoost中,可以使用兩種常見的變量重要性測度方法來評估車險定價中的變量重要性。這些方法是基于增益(Gain)和覆蓋度(Cover)的重要性測度。
增益重要性衡量了每個變量對于模型的增益(Gain)的貢獻(xiàn),其中增益表示模型中使用該變量時的預(yù)測性能改善程度。具體計算公式如下:
Gain Importance=sum(Gain)/sum(Total Gain)
其中,sum(Gain)表示所有樹中該變量的增益之和,sum(Total Gain)表示所有樹的總增益之和。增益越大,表示該變量對車險定價的影響越大。
覆蓋度重要性測度衡量了每個變量在模型中的覆蓋度(Cover)的貢獻(xiàn),其中覆蓋度表示該變量被選擇作為分裂節(jié)點的次數(shù)。具體計算公式如下:
Cover Importance=sum(Cover)/sum(Total Cover)
其中,sum(Cover)表示所有樹中該變量的覆蓋度之和,sum(Total Cover)表示所有樹的總覆蓋度之和。覆蓋度越大,表示該變量在模型中被使用的頻率越高,對車險定價具有較高的重要性。
3 實證分析
3.1 數(shù)據(jù)描述
3.1.1 數(shù)據(jù)來源
文章選取了1組國外車險數(shù)據(jù)以及1組自行收集的車險數(shù)據(jù),對索賠強度進行建模并分析風(fēng)險因子重要性,2組數(shù)據(jù)的情況見下表1。
第一組數(shù)據(jù)如下表2所示,來源于R包CASdatasets,其主要收集了678013份汽車第三者責(zé)任保單的風(fēng)險特征。FreMTPL2freq和FreMTPL2sev合并后的數(shù)據(jù)集含有26444份非零索賠保單,每份保單含有13個變量,對應(yīng)的變量描述如表2所示。
第二組數(shù)據(jù)如下表3所示,來源于自行收集的車輛及對應(yīng)的理賠信息數(shù)據(jù),數(shù)據(jù)集主要覆蓋車輛相關(guān)信息,包括車輛類型、車輛配置信息等。包含變量高達(dá)36個,對應(yīng)的變量描述如表3所示。
3.1.2 數(shù)據(jù)預(yù)處理
接下來,對數(shù)據(jù)進行預(yù)處理。包括數(shù)據(jù)清洗、缺失值處理和異常值檢測等。數(shù)據(jù)清洗主要是去除重復(fù)數(shù)據(jù)、處理錯誤數(shù)據(jù)和無效數(shù)據(jù),確保數(shù)據(jù)的準(zhǔn)確性和一致性。缺失值處理采用插補方法,如均值填充或模型預(yù)測。異常值檢測使用統(tǒng)計方法或基于機器學(xué)習(xí)的離群點檢測算法。
預(yù)處理完成后,對數(shù)據(jù)進行特征工程。特征工程旨在選擇和構(gòu)造對保險費預(yù)測有用的特征。這涉及到特征選擇、特征變換和特征組合等技術(shù)。使用的特征選擇方法包括相關(guān)系數(shù)、方差閾值和基于模型的特征選擇。特征變換使用標(biāo)準(zhǔn)化、離散化或多項式變換等方法。
3.1.3 數(shù)據(jù)集劃分
本研究采用8:2的比例分別將原始數(shù)據(jù)隨機劃分未訓(xùn)練集和測試集,其中訓(xùn)練集用于模型的訓(xùn)練和參數(shù)優(yōu)化,測試集用于評估模型的性能和泛化能力。
3.2 模型設(shè)置
3.2.1 模型評估指標(biāo)
在模型訓(xùn)練和評估過程中,我們使用了常見的評估指標(biāo)均方根誤差(RMSE)來衡量模型的預(yù)測性能和擬合程度。其計算公式如下:
其中,n表示樣本數(shù)量,yi表示真實值,表示對應(yīng)的預(yù)測值。表示對所有樣本求和的操作。RMSE的計算結(jié)果越小,表示模型的預(yù)測性能越好,與真實值的差異越小。
3.2.2 模型設(shè)置
針對每個算法,需要實現(xiàn)相應(yīng)的模型??梢允褂肞ython等常見的機器學(xué)習(xí)庫和框架,如Scikit-learn、XGBoost等,來構(gòu)建和訓(xùn)練模型。
(1)GLM模型設(shè)置。
文章在索賠強度建模中使用GLM函數(shù)創(chuàng)建基于伽馬分布作為誤差分布模型對象。模型訓(xùn)練完成,通過summary方法輸出模型的統(tǒng)計摘要,包括各個預(yù)測因子的系數(shù)、標(biāo)準(zhǔn)誤差、顯著性等信息。根據(jù)系數(shù)的大小和顯著性,判斷預(yù)測因子對索賠強度的重要性。通過對系數(shù)進行排序和分析,可以確定對索賠強度具有較大影響的風(fēng)險因子。
(2)XGBoost模型設(shè)置。
在python語言中,使用XGBoost庫,創(chuàng)建XGBoost模型對象,并設(shè)置合適的參數(shù),如學(xué)習(xí)率、樹的數(shù)量、深度等。模型訓(xùn)練完成,對于風(fēng)險因子的重要性輸出,XGBoost提供了一種特征重要性的度量方法。通過訪問訓(xùn)練好的模型對象的feature_importances_屬性,可以獲取每個預(yù)測因子的重要性分?jǐn)?shù)。這些重要性分?jǐn)?shù)可以通過排序來確定各個因子的重要性,越高的分?jǐn)?shù)表示對索賠強度的影響越大。
(3)隨機森林模型設(shè)置。
在Python語言中,使用scikit-learn庫進行隨機森林模型的索賠強度建模。
同樣通過訪問模型對象的feature_importances_屬性,獲取各個預(yù)測因子的重要性分?jǐn)?shù)。
4 結(jié)果分析
在車險索賠強度預(yù)測中,如果能較好地識別重要的風(fēng)險因子,保險公司可以更好地理解索賠強度的驅(qū)動因素,為車險定價和風(fēng)險管理提供決策支持,從而提高業(yè)務(wù)效益和客戶滿意度。下面將分別對比兩個數(shù)據(jù)集在不同模型變量重要性結(jié)果。
下表4為法國數(shù)據(jù)集在不同模型中的因子重要性排序。
根據(jù)表中的結(jié)果,我們可以觀察到獎懲系數(shù)在車險定價中是最重要的自變量,這與車險定價的常識相符合。獎懲系數(shù)是指根據(jù)駕駛員的行為和事故記錄所確定的系數(shù),它可以反映出駕駛員的風(fēng)險水平。因此,在車險定價中,獎懲系數(shù)被賦予了重要的權(quán)重,以便更準(zhǔn)確地反映駕駛員的風(fēng)險程度,并相應(yīng)地確定保險費率。通過本研究的結(jié)果,我們進一步驗證了獎懲系數(shù)在車險定價中的重要性,并為保險公司在制定保險策略和定價方案時提供了重要的參考依據(jù)。
此外,車齡和汽車品牌這兩個變量在不同模型中的重要性具有一致性,這一一致性結(jié)果進一步加強了這兩個變量在車險定價中的重要性。車齡作為一個重要的變量,反映了車輛的使用年限。汽車品牌作為另一個重要變量,反映了車輛的制造商和品質(zhì)。
下表5為自行收集的國內(nèi)數(shù)據(jù)集在不同模型中的因子重要性排序。
根據(jù)表中的結(jié)果,我們可以觀察到廠商指導(dǎo)價在車險定價中是最重要的自變量。廠商指導(dǎo)價是指汽車制造商建議的車輛零售價格,它反映了車輛的價值和成本,能夠反映車輛的質(zhì)量、安全性和可靠性等因素。因此,保險公司通常會將廠商指導(dǎo)價作為重要的參考因素,以確定保險費率。同時,廠商指導(dǎo)價的重要性還提醒車主在購買車輛時要考慮車輛的價值和保險費用,以做出明智的決策。
除了廠商指導(dǎo)價,我們還可以觀察到在不同模型中,車輛年款和最高車速等變量的重要性具有一致性。車輛年款是指車輛的生產(chǎn)年份。不同年款的車輛可能存在著不同的技術(shù)水平、安全性能和可靠性。較新的年款車輛往往具有更先進的技術(shù)和更好的安全性能,而較舊的年款車輛可能存在更多的技術(shù)問題和安全隱患。最高車速是指車輛能夠達(dá)到的最高速度。較高的最高車速可能意味著較高的駕駛風(fēng)險和事故發(fā)生概率。
然而,我們也觀察到在某些因素上存在模型之間的差異,其重要性測度結(jié)果不一致。這可能是由于不同模型對數(shù)據(jù)的處理方式、算法的特性以及樣本特征的差異所導(dǎo)致的。也可能是由于不同的機器學(xué)習(xí)算法在車險定價中具有的不同表現(xiàn)。
5 總結(jié)
本論文主要研究了車險定價中的重要因素,并比較了廣義線性模型(GLM)、與隨機森林、XGBoost等機器學(xué)習(xí)方法在車險定價因子重要性測度方面的應(yīng)用。通過實驗和結(jié)果分析,我們發(fā)現(xiàn)不同的機器學(xué)習(xí)方法在車險定價因子的重要性測度上存在一致性的同時也存在部分差異。這表明在使用機器學(xué)習(xí)模型進行車險定價時,選擇合適的機器學(xué)習(xí)算法和重要性測度方法是至關(guān)重要的。此外,本研究的結(jié)果也為保險公司提供了指導(dǎo)和決策的依據(jù),以改進車險定價模型的準(zhǔn)確性和可靠性。然而,本研究也存在一些局限性,如數(shù)據(jù)集的選擇和算法的局限性,這些可以作為未來研究的方向進行深入探索。
綜上所述,通過實驗結(jié)果和分析,我們可以比較不同機器學(xué)習(xí)算法在車險定價中的性能差異,了解車險定價因子的相對重要性,并為保險公司提供決策支持和參考依據(jù)。這些研究成果有助于提高車險定價的準(zhǔn)確性和效率,同時推動機器學(xué)習(xí)在保險行業(yè)的應(yīng)用和發(fā)展。
參考文獻(xiàn):
[1]Dobson, A.J.,& Barnett, A. G.(2018).An introduction to generalized linear models. CRC press.
[2]Nelder,J. A., & Wedderburn, R. W. (1972). Generalized linear models.Journal of the Royal Statistical Society Series A:Statistics in Society,135(3),370-384.
[3]Wang,H.D.(2020).Research on the features of car insurance data based on machine learning.Procedia Computer Science,166,582-587.
[4]Fauzan,M. A.,& Murfi,H.(2018). The accuracy of XGBoost for insurance claim prediction. Int. J. Adv. Soft Comput. Appl,10(2),159-171.
[5]Kafková,S., & K?ivánková, L. (2014). Generalized linear models in vehicle insurance. Acta Universitatis Agriculturae et Silviculturae Mendelianae Brunensis,62(2), 383-388.
[6]Yitzhaki, S., & Schechtman, E. (2013). The Gini methodology: a primer on a statistical methodology(pp. 11-31).New York: Springer.
[7]Shi,X.,Wong,Y.D.,Li,M.Z. F.,Palanisamy,C.,& Chai,C.(2019).A feature learning approach based on XGBoost for driving assessment and risk prediction.Accident Analysis & Prevention,129,170-179.