摘 要:在過(guò)去的十年中,新能源汽車的普及率呈現(xiàn)出顯著的增長(zhǎng)趨勢(shì),表現(xiàn)為市場(chǎng)份額的增加和多樣化的技術(shù)進(jìn)步。新能源汽車,如電動(dòng)汽車、混合動(dòng)力汽車和氫燃料電池汽車,已經(jīng)逐漸成為現(xiàn)代交通的重要組成部分。但與此同時(shí),其獨(dú)特的技術(shù)特性、使用模式和維護(hù)需求也為保險(xiǎn)行業(yè)帶來(lái)了新的挑戰(zhàn)。新能源車在動(dòng)力系統(tǒng)、車身構(gòu)造等方面與傳統(tǒng)燃油車存在很大區(qū)別,導(dǎo)致新能源汽車在出險(xiǎn)率、案均賠款等方面遠(yuǎn)遠(yuǎn)高于燃油車。保險(xiǎn)公司傳統(tǒng)上主要依賴歷史事故數(shù)據(jù)、車輛類型和駕駛員記錄來(lái)評(píng)估風(fēng)險(xiǎn)和確定保費(fèi),傳統(tǒng)車險(xiǎn)定價(jià)模式將難以精準(zhǔn)識(shí)別新能源車的風(fēng)險(xiǎn)。
關(guān)鍵詞:新能源汽車 車聯(lián)網(wǎng) 車險(xiǎn)
0 引言
隨著車聯(lián)網(wǎng)技術(shù)的逐步發(fā)展和普及,我們現(xiàn)在可以獲取到車輛的實(shí)時(shí)數(shù)據(jù),這為新能源汽車的風(fēng)險(xiǎn)評(píng)估提供了新的視角和工具。尤其是引入的32960國(guó)標(biāo)(GB/T 32960),這一標(biāo)準(zhǔn)為電動(dòng)汽車的數(shù)據(jù)遠(yuǎn)程傳輸提供了明確的指導(dǎo),使得數(shù)據(jù)的收集和分析變得更為標(biāo)準(zhǔn)化和系統(tǒng)化。這為保險(xiǎn)公司在風(fēng)險(xiǎn)評(píng)估、定價(jià)策略和保險(xiǎn)產(chǎn)品創(chuàng)新方面提供了新的機(jī)會(huì)。
本文旨在探討如何利用車聯(lián)網(wǎng)數(shù)據(jù)對(duì)新能源汽車的保險(xiǎn)風(fēng)險(xiǎn)進(jìn)行評(píng)估,以期為保險(xiǎn)公司新能源汽車提供更加精確、客觀和高效的風(fēng)險(xiǎn)評(píng)估方法。
1 數(shù)據(jù)來(lái)源和處理
1.1 車聯(lián)網(wǎng)數(shù)據(jù)來(lái)源
新能源汽車配備了大量的傳感器,用于監(jiān)測(cè)車輛的各種狀態(tài)。32960國(guó)標(biāo)是關(guān)于電動(dòng)汽車數(shù)據(jù)遠(yuǎn)程傳輸?shù)闹袊?guó)國(guó)家標(biāo)準(zhǔn)。此標(biāo)準(zhǔn)為電動(dòng)汽車和相關(guān)的數(shù)據(jù)平臺(tái)提供了一個(gè)統(tǒng)一的數(shù)據(jù)交換格式[1]。該標(biāo)準(zhǔn)主要涵蓋了電動(dòng)汽車在行駛和充電過(guò)程中產(chǎn)生的各種數(shù)據(jù),包括但不限于電池狀態(tài)、充電信息、車輛狀態(tài)、故障信息等。主要數(shù)據(jù)字段如下表1所示。
1.2 數(shù)據(jù)預(yù)處理
1.2.1 數(shù)據(jù)清洗
基于32960國(guó)標(biāo)的數(shù)據(jù),首先需要對(duì)原始數(shù)據(jù)進(jìn)行清洗,確保數(shù)據(jù)的完整性和準(zhǔn)確性。包括檢查數(shù)據(jù)包的完整性、數(shù)據(jù)的時(shí)間戳是否連續(xù)等。
1.2.2 缺失值處理
由于多種原因,如通信中斷、傳感器故障等,數(shù)據(jù)中可能存在缺失值。對(duì)于這些缺失值,選擇刪除、填充或使用統(tǒng)計(jì)方法進(jìn)行估計(jì)。
1.2.3 異常值檢測(cè)
基于國(guó)標(biāo)的數(shù)據(jù)特點(diǎn),定義某些閾值或規(guī)則來(lái)檢測(cè)異常值。使用滑動(dòng)窗口的方法,如果某個(gè)時(shí)間點(diǎn)的電池電壓或電流與前后幾個(gè)時(shí)間點(diǎn)的平均值相差超過(guò)設(shè)定的閾值(如10%),則標(biāo)記為異常值。
2 保險(xiǎn)風(fēng)險(xiǎn)因子篩選
在獲得經(jīng)過(guò)預(yù)處理的數(shù)據(jù)后,我們進(jìn)入到模型建立和驗(yàn)證階段。在這一部分,將詳細(xì)探討如何利用這些數(shù)據(jù)構(gòu)建、訓(xùn)練和驗(yàn)證風(fēng)險(xiǎn)評(píng)估模型。
2.1 特征工程
在現(xiàn)代保險(xiǎn)風(fēng)險(xiǎn)評(píng)估中,特征的選擇顯得尤為關(guān)鍵。這是因?yàn)檫x擇的特征將直接決定模型的預(yù)測(cè)能力和準(zhǔn)確性[2]。對(duì)于傳統(tǒng)汽車,許多常規(guī)特征,如駕駛員的年齡、駕駛經(jīng)驗(yàn)和歷史事故記錄,已經(jīng)被廣泛研究和應(yīng)用。但對(duì)于新能源汽車,尤其是在車聯(lián)網(wǎng)技術(shù)的支持下,我們有機(jī)會(huì)獲取更為豐富和細(xì)致的數(shù)據(jù),從而提取更多與保險(xiǎn)風(fēng)險(xiǎn)相關(guān)的特征。基于車聯(lián)網(wǎng)數(shù)據(jù),本文對(duì)原始數(shù)據(jù)進(jìn)行分析研究,探討了以下關(guān)鍵特征及其與風(fēng)險(xiǎn)的關(guān)系:
2.1.1 行駛里程
行駛里程是其中的一個(gè)基本但非常有價(jià)值的特征。汽車在一定時(shí)間內(nèi)的行駛距離能夠反映其使用頻率。長(zhǎng)時(shí)間、高頻率的駕駛可能會(huì)導(dǎo)致駕駛員疲勞,增加事故的風(fēng)險(xiǎn)。此外,長(zhǎng)時(shí)間的駕駛還可能加速車輛部件的磨損,從而影響車輛的性能和安全性。
2.1.2 出行次數(shù)
出行次數(shù)則為我們提供了汽車的使用模式。頻繁的短途出行可能意味著汽車主要在城市內(nèi)行駛,這樣的環(huán)境中,交通狀況復(fù)雜,事故的可能性相對(duì)較高。另一方面,少量的長(zhǎng)途出行可能意味著更多的高速公路駕駛,這種情況下,雖然事故的發(fā)生率可能較低,但一旦發(fā)生,可能會(huì)更為嚴(yán)重。
2.1.3 充電次數(shù)
充電次數(shù)與新能源汽車的特性密切相關(guān)。頻繁的充電可能意味著電池容量下降,需要更頻繁地充電。這可能與電池的健康狀況、使用年限或者駕駛習(xí)慣有關(guān)。電池狀態(tài)對(duì)于電動(dòng)汽車的安全性至關(guān)重要,因?yàn)殡姵貑?wèn)題可能導(dǎo)致動(dòng)力中斷或更為嚴(yán)重的安全隱患。
2.1.4 車輛故障記錄
車輛故障記錄是反映汽車健康狀況的另一個(gè)重要特征。頻繁的故障可能表明車輛的維護(hù)不當(dāng),或者某些關(guān)鍵部件存在問(wèn)題。這不僅可能增加事故的風(fēng)險(xiǎn),還可能影響到事故后的維修成本和復(fù)雜性。
這些特征為我們提供了一個(gè)關(guān)于新能源汽車使用和狀態(tài)的多角度、全面的視圖。有了這些數(shù)據(jù),保險(xiǎn)公司可以更為精確地評(píng)估每輛汽車的風(fēng)險(xiǎn),并據(jù)此定制保險(xiǎn)產(chǎn)品和定價(jià)策略。在后續(xù)的研究中,我們將結(jié)合這些特征,構(gòu)建和驗(yàn)證預(yù)測(cè)模型,希望能為新能源汽車的保險(xiǎn)風(fēng)險(xiǎn)評(píng)估提供更為科學(xué)和合理的方法。
2.2 風(fēng)險(xiǎn)特征因子篩選
在新能源汽車的保險(xiǎn)風(fēng)險(xiǎn)評(píng)估中,特征工程是決定模型性能的關(guān)鍵步驟。盡管我們從車聯(lián)網(wǎng)數(shù)據(jù)中提取了大量的特征,但并不是所有的特征都與風(fēng)險(xiǎn)評(píng)估直接相關(guān)。冗余或無(wú)關(guān)的特征可能會(huì)導(dǎo)致模型過(guò)擬合,降低模型的泛化能力。因此,對(duì)這些特征進(jìn)行篩選,只保留有影響力的風(fēng)險(xiǎn)因子,對(duì)于提高模型的預(yù)測(cè)準(zhǔn)確性至關(guān)重要。
為了進(jìn)行有效的風(fēng)險(xiǎn)因子篩選,我們選用XGBoost進(jìn)行特征篩選。XGBoost不僅是一個(gè)強(qiáng)大的分類和回歸模型,而且它內(nèi)置了特征重要性評(píng)估的功能,這使得它成為特征篩選的理想工具。
第一步:保險(xiǎn)數(shù)據(jù)與車聯(lián)網(wǎng)數(shù)據(jù)關(guān)聯(lián)匹配。首先,收集車輛理賠數(shù)據(jù),這些數(shù)據(jù)為我們提供了關(guān)于車輛事故和其他相關(guān)事件的信息。其次,使用車輛的唯一標(biāo)識(shí)符VIN碼,將理賠數(shù)據(jù)與車聯(lián)網(wǎng)數(shù)據(jù)進(jìn)行匹配。這樣,我們可以為每輛汽車獲取完整的歷史記錄,包括其過(guò)去一年的運(yùn)行數(shù)據(jù)與理賠結(jié)果數(shù)據(jù)。
第二步:XGBoost因子篩選。一旦完成了數(shù)據(jù)匹配,我們可以利用XGBoost進(jìn)行因子篩選。首先,我們使用完整的特征集對(duì)XGBoost模型進(jìn)行訓(xùn)練。其次,使用XGBoost內(nèi)置的工具,用于評(píng)估每個(gè)特征的重要性。最后,基于特征的重要性得分,本文選擇了得分前10的特征,主要特征示例如表2所示。
以下是每個(gè)特征的需求描述:
(1)日均行駛里程,以總里程除以實(shí)際出車天數(shù)計(jì)算得到日均行駛里程指標(biāo);(2)夜間形式里程占比,以0:00-6:00點(diǎn)內(nèi)行駛的時(shí)間與總行駛時(shí)間的比值作為夜間行駛占比;(3)額定最高時(shí)速,車輛在額定速度下的最高速度;(4)千公里疲勞駕駛次數(shù),以單次行駛超過(guò)10個(gè)小時(shí)的趟次數(shù);(5)總充電次數(shù),采集點(diǎn)車輛累計(jì)充電次數(shù)。
3 保險(xiǎn)風(fēng)險(xiǎn)評(píng)估方法
隨著風(fēng)險(xiǎn)特征因子的篩選完畢,接下來(lái)的核心工作就是如何利用這些篩選出的特征對(duì)新能源汽車的保險(xiǎn)風(fēng)險(xiǎn)進(jìn)行評(píng)估。這一步需要構(gòu)建適當(dāng)?shù)脑u(píng)估模型,對(duì)數(shù)據(jù)進(jìn)行訓(xùn)練、驗(yàn)證并對(duì)模型的性能進(jìn)行評(píng)估。本文分別選取基于廣義線性模型、機(jī)器學(xué)習(xí)模型開(kāi)展保險(xiǎn)風(fēng)險(xiǎn)評(píng)估。
3.1 風(fēng)險(xiǎn)評(píng)估模型
3.1.1 廣義線性模型 (GLM)
廣義線性模型(GLM)是一種廣泛用于保險(xiǎn)定價(jià)和風(fēng)險(xiǎn)評(píng)估的方法,主要是用來(lái)分析解釋變量與被解釋變量相關(guān)關(guān)系的一種模型,對(duì)于最小偏差法能夠適用于響應(yīng)變量的分布類型更加復(fù)雜的情況,其假設(shè)響應(yīng)變量服從指數(shù)族分布(Exponential Family of Distributions),能夠應(yīng)用于車險(xiǎn)索賠中的多種費(fèi)率厘定場(chǎng)景,因此該模型在車險(xiǎn)費(fèi)率厘定領(lǐng)域被廣泛應(yīng)用[3]。在這一部分,我們專注于使用GLM對(duì)新能源汽車的純風(fēng)險(xiǎn)保費(fèi)進(jìn)行建模。
目標(biāo)變量:車輛純風(fēng)險(xiǎn)保費(fèi)。這是一個(gè)連續(xù)的響應(yīng)變量,表示保險(xiǎn)公司為車輛所承擔(dān)的風(fēng)險(xiǎn)所需的預(yù)期支付。
特征變量:基于車聯(lián)網(wǎng)數(shù)據(jù),我們已經(jīng)篩選出了與保險(xiǎn)風(fēng)險(xiǎn)相關(guān)的特征,如日均行駛里程、夜間行駛里程占比、額定最高時(shí)速、千公里疲勞駕駛次數(shù)和總充電次數(shù)等。
模型構(gòu)建:廣義線性模型由三個(gè)部分組成:隨機(jī)成分、系統(tǒng)成分和連接函數(shù)[4]。
1:隨機(jī)成分
則稱響應(yīng)變量 y 服從指數(shù)族分布,其中, θ 為自然參數(shù),? 為尺度參數(shù); b(?) 與 c (?) 為不同指數(shù)族分布對(duì)應(yīng)的已知函數(shù)。
2:系統(tǒng)成分
系統(tǒng)成分與自變量存在線性相關(guān)關(guān)系,這表明模型的系統(tǒng)成分可以表示為自變量的線性組合。其中為模型待估計(jì)的參數(shù),為每個(gè)自變量的影響系數(shù)。
3:連接函數(shù)
連接函數(shù)是用來(lái)建立系統(tǒng)成分與隨機(jī)成分之間關(guān)系的函數(shù),其中 g (.) 必須是光滑且單調(diào)的函數(shù),即需要存在足夠階數(shù)的導(dǎo)數(shù),而 μ 表示響應(yīng)變量 y 的均值,即.
廣義線性模型在車險(xiǎn)保費(fèi)厘定領(lǐng)域應(yīng)用很廣泛,例如:可以通過(guò)邏輯回歸模型分析出險(xiǎn)的概率,通過(guò)泊松回歸預(yù)測(cè)出險(xiǎn)的頻次,通過(guò)伽馬回歸分析每次出險(xiǎn)的索賠強(qiáng)度,還可以通過(guò) Tweedie 類分布分析用戶出險(xiǎn)的純保費(fèi)[5]。本章就使用廣義線性模型對(duì)車輛出險(xiǎn)的概率和純保費(fèi)進(jìn)行了分析。
3.1.2 XGBoost
XGBoost是一種機(jī)器學(xué)習(xí)模型,適用于分類和回歸問(wèn)題。它的主要優(yōu)勢(shì)是可以處理非線性關(guān)系和高維數(shù)據(jù)[6]。
模型構(gòu)建:與GLM類似,我們也使用篩選出的特征和響應(yīng)變量來(lái)構(gòu)建XGBoost模型。在車險(xiǎn)風(fēng)險(xiǎn)預(yù)測(cè)過(guò)程中,這些決策樹之間是相互依賴而不是獨(dú)立的對(duì)篩選出的特征進(jìn)行預(yù)測(cè),后一棵決策樹是在前一輪預(yù)測(cè)結(jié)果的基礎(chǔ)上,對(duì)其誤差進(jìn)行學(xué)習(xí),從而提高損失預(yù)測(cè)模型的精確度。
XGBoost模型的具體建模步驟如下 :
通過(guò)決策樹的集成可以得到XGBoost算法,則K棵樹的集合的輸出為:
式中:是第K棵決策樹的輸出。類似的,集成樹的復(fù)雜度可表示為:
其中:一個(gè)正規(guī)化參數(shù); 是葉子的質(zhì)量,是學(xué)習(xí)速度。
(2)設(shè)定目標(biāo)函數(shù)。XGBoost算法的目標(biāo)函數(shù)在第t步的迭代可以表示為:
其中, 為誤差函數(shù); 、分別為真實(shí)值、預(yù)測(cè)值,以此來(lái)對(duì)預(yù)測(cè)值和真實(shí)值的誤差進(jìn)行計(jì)算。已知:
式中:為第t步迭代的預(yù)測(cè)值;為第t-1步的預(yù)測(cè)值;為第t輪需要學(xué)習(xí)的決策樹。因此,公式中目標(biāo)函數(shù)可轉(zhuǎn)化為:
模型訓(xùn)練與驗(yàn)證:利用部分?jǐn)?shù)據(jù)進(jìn)行模型訓(xùn)練,然后使用其余數(shù)據(jù)進(jìn)行驗(yàn)證。
3.2 模型評(píng)估
模型的預(yù)測(cè)性能是評(píng)估其有效性的關(guān)鍵。在選定重要的特征因子并構(gòu)建風(fēng)險(xiǎn)評(píng)估模型后,針對(duì)新能源汽車的保險(xiǎn)風(fēng)險(xiǎn)評(píng)估建立2種模型。
損失函數(shù):例如均方誤差 (MSE) 或?qū)?shù)損失,用于衡量模型的預(yù)測(cè)誤差。均方誤差是衡量“平均誤差”的一種較方便的方法,均方誤差可以評(píng)價(jià)數(shù)據(jù)的變化程度,均方誤差的值越小,說(shuō)明預(yù)測(cè)模型描述實(shí)驗(yàn)數(shù)據(jù)具有更好的精確度[7]。
對(duì)數(shù)損失更好地評(píng)估模型的分類性能,并用于模型參數(shù)的優(yōu)化。 對(duì)數(shù)損失函數(shù)(Log Loss)在機(jī)器學(xué)習(xí)中是一種常用的損失函數(shù),特別適用于二分類問(wèn)題。用于衡量分類問(wèn)題中模型預(yù)測(cè)概率分布與實(shí)際標(biāo)簽之間的差異[8]。
交叉驗(yàn)證:為了防止過(guò)擬合,使用交叉驗(yàn)證技術(shù)在不同的數(shù)據(jù)子集上評(píng)估模型的性能。并且可以從有限的數(shù)據(jù)中獲取盡可能多的有效信息。
模型對(duì)比:比較GLM、XGBoost和融合模型的預(yù)測(cè)性能,選擇最佳模型。
3.3 結(jié)果分析
經(jīng)過(guò)詳細(xì)的模型構(gòu)建、訓(xùn)練、驗(yàn)證和評(píng)估,我們得到了一個(gè)針對(duì)新能源汽車的保險(xiǎn)風(fēng)險(xiǎn)評(píng)估模型。這個(gè)模型不僅考慮了車聯(lián)網(wǎng)數(shù)據(jù)中的關(guān)鍵風(fēng)險(xiǎn)因子,而且結(jié)合了傳統(tǒng)統(tǒng)計(jì)方法和現(xiàn)代機(jī)器學(xué)習(xí)技術(shù),為保險(xiǎn)公司提供了一個(gè)既準(zhǔn)確又可靠的風(fēng)險(xiǎn)評(píng)估工具。
通過(guò)一維分析,車聯(lián)網(wǎng)因子提供新的信息視角,能夠在使用傳統(tǒng)風(fēng)險(xiǎn)因子的基礎(chǔ)上,進(jìn)一步實(shí)現(xiàn)風(fēng)險(xiǎn)區(qū)分。通過(guò)因子重要性排序等方法,該研究重排名較前的因子有日均行駛里程、夜間行駛里程占比等。
通過(guò)對(duì)比多種模型,我們發(fā)現(xiàn)結(jié)合車聯(lián)網(wǎng)數(shù)據(jù)的XGBoost模型在風(fēng)險(xiǎn)評(píng)估中展現(xiàn)出最佳的性能,尤其在處理高維、非線性關(guān)系時(shí)表現(xiàn)出色。使用機(jī)器學(xué)習(xí)方法還揭示了一些傳統(tǒng)統(tǒng)計(jì)方法可能忽視的隱藏風(fēng)險(xiǎn)因子。
4 總結(jié)
本文對(duì)基于車聯(lián)網(wǎng)數(shù)據(jù)的新能源車保險(xiǎn)風(fēng)險(xiǎn)評(píng)估進(jìn)行了研究。利用廣義線性模型GLM和XGBoost機(jī)器學(xué)習(xí)方法研究了在車聯(lián)網(wǎng)數(shù)據(jù)的新能源車方面的應(yīng)用。通過(guò)實(shí)驗(yàn)和結(jié)果分析,我們得到了一個(gè)針對(duì)新能源汽車的保險(xiǎn)風(fēng)險(xiǎn)評(píng)估模型。此外,本研究模型也為保險(xiǎn)公司提供了指導(dǎo)和決策的依據(jù),以為新能源汽車定價(jià)提供更準(zhǔn)確性和可靠性。然而,本研究也存在一些局限性,如數(shù)據(jù)集的選擇和算法的局限性,隨著車聯(lián)網(wǎng)技術(shù)的進(jìn)一步發(fā)展和新能源汽車市場(chǎng)的不斷擴(kuò)大,我們預(yù)期將有更多的數(shù)據(jù)和技術(shù)可供利用。未來(lái)的研究可以進(jìn)一步探索其他潛在的風(fēng)險(xiǎn)因子,以及利用更為先進(jìn)的模型和算法進(jìn)行風(fēng)險(xiǎn)評(píng)估。
參考文獻(xiàn)
[1]Chen, F., Zhang, H., Li, S., Yuan, Y., Wang, J., Wu, Z., & Feng, H. Lithium-ion Battery Risk Assessment for New Energy Vehicles Based on Bayesian Network. In 2021 6th International Conference on Transportation Information and Safety (ICTIS)IEEE,2021,10:1490-1495.
[2]Dong, G., & Liu, H. Eds. Feature engineering for machine learning and data analytics. CRC press,2018.
[3]Pekár, S., & Brabec, M. Generalized estimating equations: A pragmatic and flexible approach to the marginal GLM modelling of correlated data in the behavioural sciences. Ethology,2018,124(2), 86-93.
[4]Dobson, A. J., & Barnett, A. G. (2018). An introduction to generalized linear models. CRC press.
[5]Duan, Z., Chang, Y., Wang, Q., Chen, T., & Zhao, Q.A logistic regression based auto insurance rate-making model designed for the insurance rate reform. International Journal of Financial Studies,2018,6(1):18.
[6]Pesantez-Narvaez, J., Guillen, M., & Alca?iz, M.Predicting motor insurance claims using telematics data—XGBoost versus logistic regression. Risks,2019,7(2):70.
[7]Willmott,C.J.On the validation of models.Physical geography,1981,2(2):184-194..
[8]Vovk, V. The fundamental nature of the log loss function.Fields of logic and computation II: Essays dedicated To Yuri Gurevich on the Occasion of His 75th Birthday,2015:307-318.