王飛躍 黃 濤 黃 磊 中國(guó)太平洋人壽保險(xiǎn)股份有限公司
《反保險(xiǎn)欺詐指引》實(shí)施以來(lái),要求保險(xiǎn)公司建立欺詐風(fēng)險(xiǎn)識(shí)別機(jī)制,通過(guò)欺詐因子篩選、要素分析、風(fēng)險(xiǎn)調(diào)查等方法,發(fā)現(xiàn)風(fēng)險(xiǎn)因素。如何對(duì)欺詐風(fēng)險(xiǎn)進(jìn)行及時(shí)識(shí)別,是保險(xiǎn)行業(yè)實(shí)踐中亟待探討解決的問題和挑戰(zhàn)。本文通過(guò)探討綜合運(yùn)用探索性數(shù)據(jù)分析(EDA)和梯度提升決策樹(GBDT)方法,在已知問題賠案數(shù)據(jù)較少的情況下,可以較為有效地識(shí)別人身保險(xiǎn)領(lǐng)域欺詐案件,為行業(yè)和同業(yè)公司保險(xiǎn)欺詐風(fēng)險(xiǎn)識(shí)別提供參考。
保險(xiǎn)欺詐(Insurance Fraud)是指故意制造保險(xiǎn)事故、謊稱發(fā)生保險(xiǎn)事故或夸大索賠以騙取保險(xiǎn)金的行為,它以不當(dāng)?shù)美麨槟康?,?yán)重?fù)p害保險(xiǎn)公司利益。欺詐導(dǎo)致的額外成本最終將通過(guò)后續(xù)保費(fèi)上漲轉(zhuǎn)嫁給誠(chéng)實(shí)投保人,嚴(yán)重侵蝕保險(xiǎn)市場(chǎng)賴以運(yùn)作的公平保費(fèi)理論。近年來(lái),保險(xiǎn)欺詐團(tuán)伙化、專業(yè)化、職業(yè)化特點(diǎn)愈發(fā)突出,不僅損害誠(chéng)實(shí)守信的保險(xiǎn)消費(fèi)者利益,侵蝕保險(xiǎn)公司經(jīng)營(yíng)成本,甚至影響保險(xiǎn)業(yè)的健康穩(wěn)定發(fā)展及社會(huì)誠(chéng)信體系的構(gòu)建?!斗幢kU(xiǎn)欺詐指引》第二十六條明確要求,保險(xiǎn)機(jī)構(gòu)應(yīng)建立欺詐風(fēng)險(xiǎn)識(shí)別機(jī)制,對(duì)關(guān)鍵業(yè)務(wù)單元面臨的欺詐風(fēng)險(xiǎn)進(jìn)行收集、發(fā)現(xiàn)、辨識(shí)和描述,形成風(fēng)險(xiǎn)清單。其中包括通過(guò)欺詐因子篩選、要素分析、風(fēng)險(xiǎn)調(diào)查等方法,發(fā)現(xiàn)風(fēng)險(xiǎn)因素。如何對(duì)人身保險(xiǎn)欺詐領(lǐng)域開展有效的識(shí)別和預(yù)警,是保險(xiǎn)公司保險(xiǎn)欺詐研究的核心內(nèi)容。
目前保險(xiǎn)公司傳統(tǒng)的反欺詐分析依賴相關(guān)人員的經(jīng)驗(yàn)和其能獲取數(shù)據(jù)的程度。受人力、物力所限,保險(xiǎn)欺詐案件大多憑借理賠人員和風(fēng)險(xiǎn)監(jiān)測(cè)人員的直覺從大量的案件中抽取出來(lái)進(jìn)行分析。識(shí)別規(guī)則主要依靠一些固定標(biāo)準(zhǔn)和人員的長(zhǎng)期經(jīng)驗(yàn)篩選可疑案例,調(diào)查的質(zhì)量主要依賴于理賠人員的個(gè)人素質(zhì)以及與業(yè)內(nèi)其他公司、部門的個(gè)人關(guān)系。在保險(xiǎn)業(yè)信息化發(fā)展的大背景下,客戶各種信息的數(shù)字化、業(yè)務(wù)電子商務(wù)化、理賠流程系統(tǒng)化、事故現(xiàn)場(chǎng)的影像化,一方面為保險(xiǎn)公司積累了大量的數(shù)據(jù),另一方面也使傳統(tǒng)的以實(shí)物為基礎(chǔ)的反保險(xiǎn)欺詐模式受到極大的挑戰(zhàn),因此迫切需要建立以大數(shù)據(jù)為基礎(chǔ)的反保險(xiǎn)欺詐的新模式,提高對(duì)保險(xiǎn)欺詐風(fēng)險(xiǎn)識(shí)別的技術(shù)水平。
反保險(xiǎn)欺詐的大數(shù)據(jù)分析流程主要包括五個(gè)層面的工作流程:風(fēng)險(xiǎn)分析、構(gòu)建規(guī)則模型、篩選可疑數(shù)據(jù)、進(jìn)行驗(yàn)證核實(shí)、后續(xù)優(yōu)化等,形成完整的、閉環(huán)運(yùn)作的反保險(xiǎn)欺詐數(shù)據(jù)分析體系。關(guān)于模型選擇目前存在定性分析法、決策樹/風(fēng)險(xiǎn)樹、評(píng)分卡、復(fù)制模型、人工智能和知識(shí)圖譜等方法,但都難以單獨(dú)解決在已知較小樣本基礎(chǔ)上準(zhǔn)確識(shí)別未知欺詐案件。
探索性數(shù)據(jù)分析(EDA)是指對(duì)現(xiàn)有數(shù)據(jù)(特別是調(diào)查或觀察得來(lái)的原始數(shù)據(jù))在盡量少的先驗(yàn)假定下進(jìn)行探索,通過(guò)作圖、制表、方程擬合、計(jì)算特征量等手段探索數(shù)據(jù)的結(jié)構(gòu)、規(guī)律或異常值的一種數(shù)據(jù)分析方法。梯度提升決策樹(GBDT)是一種集成學(xué)習(xí)的方法,通過(guò)集成多個(gè)學(xué)習(xí)器來(lái)構(gòu)建最終預(yù)測(cè)模型,即對(duì)于一個(gè)復(fù)雜任務(wù)來(lái)說(shuō),將多個(gè)學(xué)習(xí)器(專家)的判斷進(jìn)行適當(dāng)綜合所得出的判斷,比其中任何一個(gè)學(xué)習(xí)器(專家)單獨(dú)做出的判斷要好。梯度提升決策樹算法經(jīng)過(guò)多輪迭代,每次迭代生成一棵新的決策樹,并將新的決策樹添加到模型中匯總,不斷提升預(yù)測(cè)模型的精度,并形成最終的模型。本次已知問題賠案數(shù)量較少,共28條,待檢查的賠案數(shù)據(jù)為4000條。因此,擬首先運(yùn)用探索性數(shù)據(jù)分析(EDA)對(duì)已知人身保險(xiǎn)欺詐案件特征進(jìn)行分析;其次運(yùn)用梯度提升決策樹(GBDT)建立大數(shù)據(jù)分析模型,通過(guò)對(duì)比各個(gè)賠案的評(píng)分,分析評(píng)分相近的賠案,對(duì)比賠案之間的特征,發(fā)現(xiàn)疑似案件;最后通過(guò)現(xiàn)場(chǎng)復(fù)勘評(píng)估風(fēng)險(xiǎn)識(shí)別的準(zhǔn)確性。
以賠案號(hào)為唯一標(biāo)識(shí)將“問題賠案數(shù)據(jù)”和“待核實(shí)賠案數(shù)據(jù)”兩部分?jǐn)?shù)據(jù)進(jìn)行整合。結(jié)合保險(xiǎn)欺詐案件的常規(guī)特征和本次問題賠案的特點(diǎn),初步選擇出一些典型的字段,并通過(guò)分析,明確字段對(duì)應(yīng)的規(guī)則。從業(yè)務(wù)的角度對(duì)選取字段和規(guī)則的合理性進(jìn)行初步驗(yàn)證。
?表1 字段、規(guī)則、業(yè)務(wù)場(chǎng)景梳理結(jié)果
運(yùn)用探索性數(shù)據(jù)分析方法對(duì)整合數(shù)據(jù)進(jìn)行分析,發(fā)現(xiàn)問題賠案的特征變量與待核實(shí)賠案有顯著差別,包括保費(fèi)、賠款總額、賠款總額與保費(fèi)比例、被保險(xiǎn)人年齡、被保人身份證所在地區(qū)與銷售地點(diǎn)等特征變量等,最終確定將保費(fèi)總額、賠款總額、被保險(xiǎn)人年齡、醫(yī)院、疾病、賠款總額與保費(fèi)比例、被保人身份證所在地區(qū)與銷售地點(diǎn)是否一致等作為用于后續(xù)測(cè)算的特征變量。分析方法如下:
(一)利用關(guān)系網(wǎng)絡(luò)進(jìn)行分析,發(fā)現(xiàn)業(yè)務(wù)員、上級(jí)主管、醫(yī)院和疾病之間存在關(guān)聯(lián)關(guān)系。在圖1中,線條的粗細(xì)代表關(guān)聯(lián)關(guān)系的強(qiáng)弱。在問題賠案中,有多個(gè)業(yè)務(wù)員的上級(jí)主管均為“石XX”,而“石XX”和醫(yī)院“A省B市醫(yī)院”有非常強(qiáng)的關(guān)聯(lián)關(guān)系;醫(yī)院“A省B市醫(yī)院”和兩種疾病“腦梗塞”和“腔隙性腦梗塞”有較強(qiáng)的關(guān)聯(lián)性(詳見圖1)。
(二)問題賠案的保費(fèi)多集中在1000—4000元之間,而待核實(shí)賠案的保費(fèi)主要集中在1400—7000元之間,并且問題賠案的保費(fèi)普遍較低(詳見圖2)。
(三)問題賠案的賠款總額多集中在25000—60000元之間,而待核實(shí)賠案的賠款總額主要集中在0—35000元之間,并且問題賠案的賠款總額更為集中(詳見圖3)。
?圖1 業(yè)務(wù)員、上級(jí)主管、醫(yī)院及疾病的關(guān)系網(wǎng)絡(luò)圖
(四)問題賠案的賠款總額與保費(fèi)比例趨勢(shì)線(紅線)呈上升趨勢(shì),即問題賠案的賠款總額與保費(fèi)比例隨著賠款總額的上升而上升,主要由于問題賠案的保費(fèi)較低、繳費(fèi)次數(shù)較少,且不隨賠款總額的變化而變化(詳見圖4)。
(五)經(jīng)過(guò)分析對(duì)比待核實(shí)賠案中被保險(xiǎn)人身份證所在地區(qū)與銷售網(wǎng)點(diǎn)所在地區(qū)發(fā)現(xiàn),大部分賠案的被保險(xiǎn)人的身份證與銷售網(wǎng)點(diǎn)在同一地區(qū)(黑色直線劃出部分),同時(shí)也存在被保險(xiǎn)人的身份證與銷售網(wǎng)點(diǎn)不在同一區(qū)域(異地投保)的現(xiàn)象。在異地投保中,有五處較為集中的異地投保區(qū)域包括1號(hào)區(qū)域、2號(hào)區(qū)域、3號(hào)區(qū)域、4號(hào)區(qū)域、5號(hào)區(qū)域(詳見圖5)。
(六)從被保險(xiǎn)人年齡段來(lái)看,35歲—40歲年齡段的問題賠案件數(shù)占比最高,50歲—55歲年齡段的問題賠案件數(shù)最多。在待核實(shí)賠案中,被保險(xiǎn)人年齡超過(guò)65歲的賠案有376件(詳見圖6)。
?圖2 保費(fèi)對(duì)比分析
?圖4 賠款總額與保費(fèi)比例的對(duì)比分析
?圖3 賠款總額對(duì)比分析
?圖5 被保人身份證所在地區(qū)與銷售地點(diǎn)對(duì)比分析散點(diǎn)圖
?圖6 在不同被保險(xiǎn)人年齡段的問題賠案在待核實(shí)賠案中的件數(shù)占比
首先,運(yùn)用梯度提升決策樹方法對(duì)特征變量進(jìn)行測(cè)算分析并得到對(duì)每一個(gè)賠案的評(píng)分,發(fā)現(xiàn)醫(yī)院和疾病是兩個(gè)具有顯著影響的特征變量,對(duì)本次評(píng)分起到?jīng)Q定性作用,賠款總額與保費(fèi)的比例、被保人身份證所在地區(qū)與銷售地點(diǎn)是否一致、保費(fèi)總額、賠款總額和被保險(xiǎn)人年齡等特征變量均會(huì)對(duì)評(píng)分,發(fā)現(xiàn)醫(yī)院和疾病是兩個(gè)具有顯著影響的特征變量,對(duì)本次評(píng)分起到?jīng)Q定性作用,賠款總額與保費(fèi)比例、被保人身份證所在地區(qū)與銷售地點(diǎn)是否一致、保費(fèi)總額、賠款總額和被保險(xiǎn)人年齡等特征變量均會(huì)對(duì)評(píng)分產(chǎn)生影響。
其次,根據(jù)評(píng)分對(duì)待核實(shí)賠案進(jìn)行分組,評(píng)分結(jié)果相近的分在一組,在每組內(nèi)通過(guò)對(duì)比問題賠案和待核實(shí)賠案的特征,分析出在待核實(shí)賠案中的疑似問題賠案。通過(guò)對(duì)比待核實(shí)賠案信息(特征)和問題賠案信息(特征)之間的相似程度,從醫(yī)院、疾病、地域、保費(fèi)、賠付金額等角度進(jìn)行分析,發(fā)現(xiàn)以下賠案與問題賠案高度相似(后稱此類賠案為“疑似問題賠案”)。通過(guò)對(duì)比各個(gè)賠案的評(píng)分,分析評(píng)分相近的賠案,對(duì)比賠案之間的特征,發(fā)現(xiàn)疑似案件:WUH****00015940、WUH****00015940、 WUH****00015940、WUH****00006798、 WUH****00017324、WUH****00005689、 WUH****00020195、WUH****00006301、WUH****0000526等上述疑似問題賠案的醫(yī)院名、疾病名與問題賠案完全一致,被保險(xiǎn)人身份證所在區(qū)域與部分問題賠案的區(qū)域相同,符合問題賠案保費(fèi)金額低并且賠款總金額不高的特征;其余五個(gè)賠案與問題賠案的醫(yī)院名、疾病名、所在地區(qū)等特征相似(詳見圖7)。
?圖7 疑似問題賠案分析結(jié)果
最后,將上述可疑賠案發(fā)送至分公司進(jìn)行復(fù)勘。經(jīng)核實(shí),除賠案號(hào)WUH****00005260外,其余8件賠案均確認(rèn)為欺詐案件,準(zhǔn)確率為88.9%。
本文探索了在已知問題賠案數(shù)據(jù)較少的情況下對(duì)人身保險(xiǎn)領(lǐng)域未知欺詐風(fēng)險(xiǎn)的一種識(shí)別方法。首先運(yùn)用探索性數(shù)據(jù)分析(EDA)對(duì)已知人身保險(xiǎn)欺詐案件特征進(jìn)行分析,其次運(yùn)用檢驗(yàn)梯度提升決策樹(GBDT)建立大數(shù)據(jù)分析模型,通過(guò)對(duì)比待核實(shí)賠案信息(特征)和問題賠案信息(特征)之間的相似程度,從醫(yī)院、疾病、地域、保費(fèi)、賠付金額等角度對(duì)待核實(shí)欺詐數(shù)據(jù)進(jìn)行分析,發(fā)現(xiàn)可疑賠案,最后針對(duì)重點(diǎn)可疑賠案進(jìn)行復(fù)勘確認(rèn),得到了較好的識(shí)別效果。
?表2 特征變量對(duì)篩選問題賠案的貢獻(xiàn)度分析結(jié)果
?表3 疑似問題賠案分析結(jié)果