亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于多模型融合Stacking 集成學習保險欺詐預測

2023-09-05 06:00:04繆智偉韋才敏

汕頭大學學報(自然科學版) 2023年3期

繆智偉，韋才敏

（汕頭大學數(shù)學系，廣東汕頭 515063）

0 引言

顧客購買保險產(chǎn)品的最終目的是通過轉(zhuǎn)移風險來增強自身面對未來不確定事件的能力.現(xiàn)今，我國大部分公民都具有通過購買保險來防范未來不確定事件風險的意識，比如我們看病會用醫(yī)療險，在購買車之后往往會投保車險等.這些在我們真正遇到相應事故的時候，都可以幫助我們將風險轉(zhuǎn)嫁給保險公司，降低自身的經(jīng)濟壓力，是一種很好的提前預防的保險方式.任何一種從大眾中籌集的巨額資金，然后通過一定的規(guī)則重新分配到部分人的金融機制，在這個過程很容易出現(xiàn)信用、道德危機.保險也不例外.

保險欺詐行為識別面臨較大挑戰(zhàn).傳統(tǒng)保險公司主要依靠內(nèi)部定性判別方式和專家的經(jīng)驗判斷進行保險欺詐行為的識別.但是由于保險欺詐手段多樣化、數(shù)據(jù)量大且復雜等原因，如果單靠以往傳統(tǒng)的保險欺詐識別方法進行識別，不僅難以精準地識別出騙保行為，而且還會產(chǎn)生大量的人工成本.

現(xiàn)今，在精準識別保險欺詐行為的問題上，許多保險公司通過搜集、整理被保人的個人信息以及理賠事故信息，形成一套屬于自己公司的數(shù)據(jù)庫，并且聘請高級數(shù)據(jù)工程師來構(gòu)建屬于自己公司的保險騙保行為的檢測系統(tǒng).雖然使用大數(shù)據(jù)手段進行保險欺詐行為的識別，可以提高檢測的準確性和效率，但是也面臨一些問題.首先是數(shù)據(jù)不平衡：保險欺詐行為在數(shù)據(jù)中的比例相對較小，這導致了數(shù)據(jù)的不平衡.因此，在訓練深度學習模型時，需要采取一些措施來平衡數(shù)據(jù)，以避免模型對少數(shù)類別的識別性能下降.其次，可解釋性：深度學習模型通常被視為黑盒模型，難以解釋其預測結(jié)果的原因.在保險欺詐行為的識別中，可解釋性是非常重要的，因為保險公司需要知道模型是如何判斷被保人是否存在欺詐行為的，以便更好地制定反欺詐策略.最后是，模型選擇和優(yōu)化：在深度學習中，模型的選擇和優(yōu)化是關(guān)鍵，但是不同的模型需要不同的參數(shù)設(shè)置和訓練方式，需要耗費大量的時間和計算資源.

因此，針對以上保險欺詐識別系統(tǒng)的不足，本文提出基于XGBoost 與LightGBM的Stacking 模型融合集成學習模型.文章第一部分對LightGBM、XGBoost 進行算法機理的介紹與推導，第二部分將詳細描述基于多模型融合Stacking 集成學習方式的保險欺詐識別模型的原理和構(gòu)建方法，第三部分用阿里云天池保險欺詐行為數(shù)據(jù)集對構(gòu)建的模型進行實證檢驗，第四部分是結(jié)論.

XGBoost 和LightGBM 都是目前應用較為廣泛的集成學習算法，它們的主要特點是具有高效性、準確性和可擴展性.這些特性使得它們在數(shù)據(jù)挖掘、預測分析、自然語言處理、圖像識別等領(lǐng)域得到廣泛應用.

本文選擇了基于XGBoost 與LightGBM 的Stacking 模型融合集成學習模型，主要是因為這兩個模型具有以下特點：1.XGBoost 和LightGBM 是當前最流行和最優(yōu)秀的梯度提升樹模型，能夠高效地處理大規(guī)模的高維數(shù)據(jù)，并具有很好的預測性能. 2. 在Stacking 模型融合中，XGBoost 和LightGBM 作為基礎(chǔ)模型可以很好地利用其優(yōu)點，如高準確性、良好的魯棒性、高效性等，同時通過融合可以進一步提高模型的預測性能.3.XGBoost 和LightGBM 模型都具有很好的可解釋性和可視化性，能夠幫助分析人員更好地理解模型的預測結(jié)果和特征重要性.

1 算法理論介紹

1.1 LightGBM 算法機理

LightGBM（Light Gradient Boosting Machine）是一種以高效率的并行訓練計算的方式實現(xiàn)GBDT 算法，總結(jié)其優(yōu)點：訓練的速度比初始訓練框架要快，占用的內(nèi)存空間更小，獲得更高的精確度，可以以較快的速度處理海量的數(shù)據(jù).

GBDT 二元分類算法基本步驟：

對于二元分類GBDT，如果用類似于Logistic 回歸的對數(shù)損失函數(shù)，則損失函數(shù)為：

其中y∈{－1，＋1}.則此時的負梯度誤差為

對于新生成的決策樹，計算各個葉子節(jié)點處的最優(yōu)殘差擬合值為

由于上述方程比較難進行計算，一般我們采用近似值來代替

1.2 XGBoost 算法機理

XGBoost 的Gradient Boosting 方法是通過對損失函數(shù)、正則化處理、切分點搜索和并行化結(jié)構(gòu)設(shè)計等進行改進，從而加快了模型的訓練計算速度.舉例，在傳統(tǒng)的GBDT算法實現(xiàn)的時候，模型在訓練計算第n 棵決策樹的時候需要使用到前面n-1 棵樹的殘值計算值，這一步驟需要較大的算力和內(nèi)存空間，從而導致面對海量數(shù)據(jù)的時候，該算法難以實現(xiàn)并行.而XGBoost 通過將求解的目標函數(shù)進行二階泰勒展開，這樣模型在計算求解的時候每一個數(shù)據(jù)點上的損失函數(shù)只需要計算出一階導和二階導，進而可以提高算法并行的速率.

與傳統(tǒng)GBDT 相比，XGBoost 算法在推導中以一種新的方式進行構(gòu)造新樹.這里主要介紹XGBoost 構(gòu)造新樹的方法.將ft和Ω 的表達式帶入近似求解的目標函數(shù)中，忽略與ft無關(guān)的常量，可以得到：

最后一式中的Gj和Hj定義為：

因為求解目標函數(shù)可以看做一個是關(guān)于N 個相互獨立的變量ωj的二次目標函數(shù)，可以直接通過計算求解得到極小值點：

然后將極小值點帶入到目標函數(shù)，求解出目標函數(shù)值.

緊接著，開始構(gòu)造新樹的結(jié)構(gòu).上面式子中Obj*表示當我們確定了一顆樹的時候，可以在其目標函數(shù)上確定最多可以減去多少值，因子我們可以把它們叫做樹的結(jié)構(gòu)得分.Obj*越小說明新樹的結(jié)構(gòu)就越好，然后應用貪心算法列舉出不同的新樹結(jié)構(gòu)，篩選出結(jié)構(gòu)得數(shù)最小的樹.

在每一次進行計算的時候，都要對已有新樹的葉子引入分割計算，都要通過下面的計算式子.

采用分割計算并不會影響目標函數(shù)的值，因為在對新的葉子進行分割計算的時候，會對新的葉子進行一定懲罰，這個操作可以對樹的減枝進行優(yōu)化.若引入分割計算所產(chǎn)生的增益效果小于一個給定的閾值時，我們可以去除掉這個分割.通過這樣的方式就可以重新確定了新樹的結(jié)構(gòu).

2 基于多模型融合Stacking 集成學習方式的保險欺詐識別模型

2.1 基于Stacking 的集成學習原理

Stacking 是近幾年在人工智能領(lǐng)域比較流行的集成學習的框架.通常，Stacking 的大框架是一個多層嵌套的模型，第一層我們可以稱做特征學習層，里面包含了n 個不同類型的模型，可以是支持向量機、多元回歸模型、神經(jīng)網(wǎng)絡(luò)等，將不同模型預測結(jié)果整理合并成一個新的特征集，并作為最后一層模型輸入，最后一層模型再根據(jù)所給的數(shù)據(jù)標簽，進行訓練計算，這樣就得到一個基礎(chǔ)Stacking 集成學習框架.[16-17]

圖1 Stacking 集成學習示意圖

為使訓練出來的新的特征集充分代表原始訓練數(shù)據(jù)的特征，我們會在第一層的模型里面采用擬合度較高的訓練模型，例如XGBoost、神經(jīng)網(wǎng)絡(luò)、SVM 等.值得注意的是，第一層的模型框架里面涵蓋了許多不同模型，不同模型計算原理有所差別，第一層模型的主要目的是自動有效地提取出原始數(shù)據(jù)的非線性變化的特征，但是這樣很容易出現(xiàn)過擬合的問題.

因此，為了更好地解決過擬合的問題，我們通常會在第二層使用一些比較簡單的預測模型.如果第二層模型在使用復雜的神經(jīng)網(wǎng)絡(luò)訓練模型，極大概率會加大預測結(jié)果出現(xiàn)過擬合的嫌疑.

從上述的分析可以得出，一個優(yōu)秀的Stacking 預測模型的關(guān)鍵在于第一層的訓練模型是否能夠有效地提取出原始數(shù)據(jù)之間的非線性變化的關(guān)系，然后在通過最后一層的簡單學習，能夠在第一層的基礎(chǔ)上，結(jié)合簡單模型結(jié)構(gòu)，使得模型在預測的時候具有一定的泛化能力和準確率.

2.2 從傳統(tǒng)的Stacking 到改進的Stacking

2.2.1 傳統(tǒng)的Stacking

首先，如圖2 所示，是一個傳統(tǒng)的Stacking 集成學習模型結(jié)構(gòu)示意圖.圖中，第一次模型結(jié)構(gòu)中分別使用不同類型的預測模型去訓練同一批次的訓練集數(shù)據(jù)，這樣做可以有助于模型能夠利用不同基礎(chǔ)學習器的優(yōu)點然后去訓練出不同特征之間的非線性關(guān)系，得到具有代表性的新生成的特征值.其次，再通過第二層模型結(jié)構(gòu)中簡單的預測模型——邏輯回歸，訓練預測得到最終的預測值.

圖2 傳統(tǒng)Stacking 集成學習示意圖

2.2.2 改進的Stacking

本文使用的是一種改進的集成學習框架，如圖3 所示，框架的第一層不僅使用不同的模型，還使用有差異的訓練數(shù)據(jù)，這進一步增大了模型輸出值之間的差異性（相關(guān)性低），這樣的差異性往往適用于訓練數(shù)據(jù)和預測數(shù)據(jù)不是同分布的領(lǐng)域，可以增強預測的穩(wěn)定性.

圖3 改進Stacking 集成學習示意圖

并且我們將第一層Stacking 生成的新的特征和原有的特征進行合并作為第二層的輸入，這樣做可以有效地防止出現(xiàn)過擬合.在第二層框架中選擇采用多種分類預測算法，包括邏輯回歸、K 近鄰、高斯貝葉斯、決策樹、集成學習分類模型，其中集成學習分類模型有隨機森林、Bagging、LightGBM、XGBoost.

2.2.3 改進Stacking 模型的構(gòu)建過程

下面舉例進一步說明：

1）首先將數(shù)據(jù)集劃分為訓練集和測試集兩組數(shù)據(jù)，并將訓練集隨機分成5 份train1到train5 這五個部分.

2）選定基礎(chǔ)學習模型.本文示例中選擇了XGBoost，LightGBM，隨機森林作為基礎(chǔ)學習模型.以隨機森林解釋例子，依次選用劃分后5 份訓練集中的四份作為訓練集，然后使用5 折交叉驗證的方法進行模型訓練，最后在測試集上進行預測結(jié)果. 這樣會得到在訓練集上由隨機森林模型訓練出來的5 份預測結(jié)果和在測試集上的1 份預測值B1，然后將5 份預測結(jié)果縱向重疊拼接成新的A1 特征.LightGBM 模型和隨機森林模型部分也采用相同的方法進行模型預測，生成新的預測特征.如圖4 所示.

圖4 改進Stacking 集成學習模型構(gòu)建示意圖

3）在三個基礎(chǔ)模型訓練完畢后，將其在訓練集上的預測值分別作為3 個“特征”A1，A2，A3，然后使用LR 模型進行訓練并建立LR 模型.

4）利用訓練好的Logistic 分類模型來預測測試集，在模型的第一部分的三個基礎(chǔ)學習模型上會生成新的三個特征，Logistic 在進行預測的時候通過利用新生成的三個特征以及原始數(shù)據(jù)的特征，通過訓練得出分類預測結(jié)果.

5）在做Stacking 的過程中，如果將第一層模型的預測值和原始特征合并加入第二層模型的訓練中，則可以使模型的效果更好，還可以防止模型的過擬合嫌疑.

3 算例驗證與分析

3.1 算例數(shù)據(jù)

為驗證本文所構(gòu)建模型的科學性和可靠性，本文實驗使用基于阿里云天池保險反欺詐公開信息作為數(shù)據(jù)集.數(shù)據(jù)集中標簽——是否存在欺詐行為（fraud），若該被保人的理賠事件存在欺詐行為取1，否則取0.

本文的特征工程包括以下三類（共43 個特征，僅列出部分重要特征，見表1）：項目基本信息包括年齡、每年的保費、保險責任上限.被保人基本信息包括被保人學歷、被保人職業(yè)、被保人興趣愛好、資本收益、資本損失.被保人理賠事故基本信息包括碰撞類型、出險類型、目擊證人、是否有警察記錄的報告、整體索賠金額等.

表1 特征工程匯總

3.2 評價指標

查準率（precision）：模型對保險事件的信息進行預測，預測結(jié)果中存在保險欺詐行為的樣本有N 個，樣本中真實存在保險欺詐行為的樣本有M 個，即precision＝M/N.

3.3 Stacking 模型融合

3.3.1 基于遺傳算法的模型融合參數(shù)優(yōu)化

以XGBoost 模型為例，此處使用遺傳算法，在有限的數(shù)值空間內(nèi)搜索最優(yōu)的學習率ε 與樹的最大深度Z 參數(shù)使訓練得到的模型具有較強的泛化能力和準確率.

3.3.2 預測結(jié)果對比分析

本節(jié)對比所提方法與傳統(tǒng)機器學習模型及其模型融合系統(tǒng)的預測性能.首先，測試單一分類預測模型，包括邏輯回歸、高斯貝葉斯、決策樹、集成學習分類模型，其中集成學習分類模型有Bagging、LightGBM、XGBoost. 其次，分別設(shè)置兩組，一組是XGBoost 算法與LightGBM，另一組是隨機森林與支持向量機，兩組進行Stacking 模型融合生成新的兩個特征，新生成的兩個特征和原有的40 個特征合并作為第二層Stacking訓練模型的輸入，在Stacking 的第二層中選擇使用多種分類學習模型，包括Bagging、LightGBM、XGBoost 等，以檢驗改進的Stacking 模型融合方法的預測性能.各模型的參數(shù)均由遺傳算法優(yōu)化得到.最終預測結(jié)果如表2 所示.

表2 預測結(jié)果對比 %

根據(jù)表2 的預測結(jié)果可得如下結(jié)論.

（1）總體而言，基于XGBoost 模型與LightGBM 的Stacking 模型融合預測精度高于未進行模型融合的預測精度.主要是因為XGBoost 和LightGBM 在第一層的模型中有效地提取了保險欺詐數(shù)據(jù)集中不同特征之間的非線性關(guān)系，然后再通過最后一層簡單模型訓練，使得集成學習器的錯誤率呈指數(shù)級下降，最終趨于零.通過融合可以達到“取長補短”的效果，綜合個體學習器的優(yōu)勢是能降低預測誤差、優(yōu)化整體模型性能. 而且，如果單個基學習器對非線性關(guān)系的捕捉、預測的精度越高、模型的多樣性越大，Stacking 模型融合預測效果就會越好.

（2）單一模型預測結(jié)果里面XGBoost 的準確率最高，其次是GBDT. 結(jié)合前文XGBoost 的推導內(nèi)容，可以知道傳統(tǒng)GBDT 在優(yōu)化時只計算了損失函數(shù)的一階導數(shù)，而XGBoost 通過將求解的目標函數(shù)進行二階泰勒展開，這樣模型在計算求解的時候每一個數(shù)據(jù)點上的損失函數(shù)只需要計算出一階導和二階導，進而可以提高算法并行的速率.為了更好地降低模型預測結(jié)果的方差和控制模型的復雜程度，XGBoost 在損失函數(shù)里加入了正則項.正則項降低了模型預測結(jié)果的方差，使訓練得出的模型更加簡單，能很好地防止過擬合，這也是XGBoost優(yōu)于傳統(tǒng)GBDT 的一個特性.

（3）通過對比有無模型融合預測準確率，可以發(fā)現(xiàn)在Stacking 的第二層模型訓練中使用決策樹分類器的準確率是最高的，其次是XGBoost，并且也可以得出不同基礎(chǔ)分類器，得到預測準確率有明顯的差異.

（4）通過對比XGBoost 算法與LightGBM、隨機森林與支持向量機兩組實驗結(jié)果，可以發(fā)現(xiàn)，XGBoost 算法與LightGBM 大部分的實驗具有較高的預測準確率，這說明了在Stacking 模型第一層中使用XGBoost 算法與LightGBM 可以很好提取數(shù)據(jù)特征的非線性關(guān)系，進而提高模型的預測性能.相比之下，支持向量機和隨機森林也是常用的分類算法，但相對于XGBoost 和LightGBM，在處理大規(guī)模數(shù)據(jù)和非線性問題時可能會存在一些瓶頸，對于參數(shù)調(diào)節(jié)和特征處理等方面的要求也更高一些.同時，XGBoost 和LightGBM 都是基于梯度提升的算法，能夠自適應地學習到數(shù)據(jù)中的復雜關(guān)系，相對于支持向量機和隨機森林更具有優(yōu)勢.

3.4 特征重要性

特征重要性（Feature Importance）的核心思想是計算依據(jù)某個特征進行決策樹分裂時分裂前后的信息增益，信息增益越大，該特征越重要.通過計算出模型中特征的重要性可以直觀得出具體哪一個特征對于預測結(jié)果具有較大的影響力，可以從定量的角度去解釋機器學習的預測結(jié)果.下面打印出最高準確率的Stacking 模型的特征重要性，其模型結(jié)構(gòu)為在第一層模型中使用XGBoost 模型與LightGBM 來預測新特征，然后在第二層中采用決策樹分類器.如圖5.

圖5 最優(yōu)Staking 集成學習模型特征重要性

觀察圖3，可以知道Stacking 模型融合下，被保人的職業(yè)、發(fā)生保險事故的城市、發(fā)生保險事故的地區(qū)、資本收益、資本虧損是比較重要的分類特征.根據(jù)此結(jié)果，本文向保險行業(yè)建議在對被保人保險欺詐行為核查的時候重點關(guān)注這些重要的特征，并且通過海量的大數(shù)據(jù)挖掘出保險欺詐行為在這些特征的潛在規(guī)律.

4 結(jié)語

保險行業(yè)中，被保人通過欺詐進行騙保，不僅對保險行業(yè)造成巨大損失，更會制約我國保險業(yè)的發(fā)展.長期來看，如果我國能夠構(gòu)建一個信息可信度高、數(shù)據(jù)庫范圍廣、信息層次更豐富的征信體系，這將會為我國的保險行業(yè)提供一個更加有保障、有活力的生態(tài)空間.短期而言，最有效的方法是保險公司基于海量的用戶數(shù)據(jù)，構(gòu)建識別準確、性能穩(wěn)定的保險欺詐行為識別模型.本文結(jié)合人工智能的前沿理論研究，提出一種基于改進XGBoost 與LightGBM 模型融合的Stacking 集成學習方式的保險欺詐行為預測模型，對保險公司被保人保險欺詐行為的識別具有啟示意義，有助于保險公司更好地識別被保人的騙保行為，強化自身風控體系.經(jīng)過對阿里云天池挑戰(zhàn)賽公開的保險欺詐數(shù)據(jù)集的驗證與測試，結(jié)果表明，相比傳統(tǒng)機器分類模型，本文提出的基于XGBoost 與LightGBM 模型融合的Stacking 集成學習模型在欺詐行為識別方面具有更高的預測性能與準確性，這得益于本文所提出的特征工程和模型融合方法，以及使用多種分類學習模型進行訓練和參數(shù)優(yōu)化的策略.同時，本研究通過計算并可視化出最優(yōu)分類模型不同特征的重要性結(jié)果，發(fā)現(xiàn)被保人的職業(yè)、發(fā)生保險事故的城市、發(fā)生保險事故的地區(qū)、資本收益、資本虧損是識別保險欺詐行為的重要特征.這些結(jié)果不僅對保險公司提供了重要的參考和指導，也為相關(guān)研究提供了寶貴的經(jīng)驗和啟示.