張旭升
摘 要: 近些年,保險(xiǎn)行業(yè)得到迅猛發(fā)展,同時(shí),保險(xiǎn)欺詐活動(dòng)應(yīng)運(yùn)而生。面對(duì)保險(xiǎn)欺詐,很多保險(xiǎn)公司往往一籌莫展,導(dǎo)致騙賠猖獗。如何從以往的拒賠案件信息中,抽取有效識(shí)別欺詐案件的模式,促進(jìn)保險(xiǎn)業(yè)持續(xù)健康發(fā)展,成為保險(xiǎn)行業(yè)研究的關(guān)鍵。數(shù)據(jù)挖掘在處理大批量數(shù)據(jù),挖掘潛在關(guān)系方面具有無可比擬的優(yōu)勢(shì)。本文提出利用神經(jīng)網(wǎng)絡(luò)算法,從歷史賠案信息中訓(xùn)練出識(shí)別欺詐案件的模型,并抽取賠案數(shù)據(jù)進(jìn)行模型效果測(cè)試。實(shí)驗(yàn)證明,通過此模型篩選出的高理賠用戶群具有較高準(zhǔn)確率,此數(shù)據(jù)對(duì)保險(xiǎn)工作人員具有一定的指導(dǎo)作用。
關(guān)鍵詞: 高風(fēng)險(xiǎn)理賠 神經(jīng)網(wǎng)絡(luò)算法 數(shù)據(jù)挖掘
1.引言
目前,我國(guó)保險(xiǎn)業(yè)正處在發(fā)展的重要時(shí)期。一方面,保險(xiǎn)業(yè)務(wù)和保險(xiǎn)產(chǎn)品在社會(huì)上有一定量的需求,保險(xiǎn)業(yè)已經(jīng)成為國(guó)家的一個(gè)重要行業(yè),并正處于朝氣蓬勃的發(fā)展階段。另一方面,保險(xiǎn)業(yè)的發(fā)展出現(xiàn)諸多問題,尤其是保險(xiǎn)欺詐問題日益嚴(yán)重。在過去十多年中,各種各樣的保險(xiǎn)欺詐案急劇上升。據(jù)《中國(guó)保險(xiǎn)報(bào)》報(bào)道,某些保險(xiǎn)險(xiǎn)種因被欺詐導(dǎo)致的賠款支出最高可達(dá)保費(fèi)收入的50%,全部業(yè)務(wù)被欺詐導(dǎo)致的賠款支出估計(jì)約為10%~30%[1]。中國(guó)人民大學(xué)統(tǒng)計(jì)分析和數(shù)據(jù)挖掘和商業(yè)智能應(yīng)用研究小組就某保險(xiǎn)公司1998~2002年的理賠數(shù)據(jù)分析,高危人群理賠率為12.73%,遠(yuǎn)遠(yuǎn)大于總體比例的受理賠率3.66%[2]。面對(duì)日益猖獗的保險(xiǎn)欺詐,我國(guó)部分商業(yè)保險(xiǎn)公司還沒有采取行之有效的措施。他們把研究該問題的關(guān)鍵集中在擴(kuò)大保險(xiǎn)費(fèi)收入總量上,沒有意識(shí)到保險(xiǎn)欺詐給保險(xiǎn)公司及當(dāng)事人帶來的嚴(yán)重危害。處理海量數(shù)據(jù)時(shí),數(shù)據(jù)挖掘技術(shù)具有無可比擬的優(yōu)勢(shì)。近年來,國(guó)內(nèi)外很多文章從多方面專門探討數(shù)據(jù)挖掘在不同保險(xiǎn)行業(yè)中的應(yīng)用。
從一個(gè)全新角度切入,數(shù)據(jù)挖掘技術(shù)為保險(xiǎn)公司提供可以處理海量信息的方法,將收集到的海量數(shù)據(jù)通過該技術(shù),了解擁有的客戶的具體類型,以及其中什么特征的客戶存在高風(fēng)險(xiǎn)。由數(shù)據(jù)挖掘結(jié)果可以更清楚地知道未來目標(biāo)客戶群在哪里,針對(duì)該客戶群推薦保險(xiǎn)理賠產(chǎn)品進(jìn)而獲得更大效益。
我國(guó)壽險(xiǎn)行業(yè)經(jīng)過近二十年的發(fā)展,積累了大量客戶數(shù)據(jù)及大量理賠用戶數(shù)據(jù)。
本文引入神經(jīng)網(wǎng)絡(luò)算法,分析大量理賠用戶數(shù)據(jù),把這些高危理賠人員分離出來,集中分析,同時(shí)找到保單中風(fēng)險(xiǎn)較大的區(qū)域,從而得到一些實(shí)用的控制風(fēng)險(xiǎn)的規(guī)則,以便對(duì)保險(xiǎn)公司的工作起到指導(dǎo)作用。
2.神經(jīng)網(wǎng)絡(luò)算法
神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)是由多個(gè)簡(jiǎn)單處理單元彼此按某種方式相互連接而形成的一種計(jì)算機(jī)系統(tǒng),通過對(duì)連續(xù)或斷續(xù)式的輸入做狀態(tài)響應(yīng),該系統(tǒng)能夠進(jìn)行信息處理。盡管每個(gè)神經(jīng)元的結(jié)構(gòu)和功能相對(duì)比較簡(jiǎn)單,但由大量神經(jīng)元構(gòu)成的網(wǎng)絡(luò)系統(tǒng)的行為豐富多彩和相當(dāng)復(fù)雜。研究發(fā)現(xiàn)該算法具有以下優(yōu)點(diǎn):非線性映射逼近能力、高強(qiáng)的容錯(cuò)能力、對(duì)信息的并行分布式綜合優(yōu)化處理能力、對(duì)學(xué)習(xí)結(jié)果的泛化能力和自適應(yīng)能力、便于集成實(shí)現(xiàn)和計(jì)算模擬等[3]。
3.模型構(gòu)建
神經(jīng)網(wǎng)絡(luò)算法模型構(gòu)建具體過程一般需要四步:
第一步:數(shù)據(jù)收集,從而獲取建模所需的客戶數(shù)據(jù),其中數(shù)據(jù)項(xiàng)的選擇等工作直接決定了最終建立的模型是否與研究目標(biāo)一致;
第二步:預(yù)處理數(shù)據(jù),對(duì)初始客戶數(shù)據(jù)進(jìn)行預(yù)處理,因?yàn)槌跏伎蛻魯?shù)據(jù)并不一定符合我們的建模要求,其中會(huì)有數(shù)據(jù)噪聲等多種問題存在,所以對(duì)其進(jìn)行預(yù)處理是保證建模結(jié)果準(zhǔn)確的必然要求;
第三步:根據(jù)收集的特定的一群數(shù)據(jù),通過訓(xùn)練這些數(shù)據(jù),得出該數(shù)據(jù)群的特征,存入特征數(shù)據(jù)集合中;
第四步:有特征集合和分類算法,構(gòu)造分類器;如圖1所示。
建立好神經(jīng)網(wǎng)絡(luò)算法模型,對(duì)于新加入的用戶數(shù)據(jù),可以通過圖2進(jìn)行檢測(cè),首先將待檢測(cè)的用戶信息向量化,讓其符合特定格式,通過分類器進(jìn)行分類,通過比較得出結(jié)論。
4.實(shí)例分析
經(jīng)過幾十年發(fā)展,保險(xiǎn)行業(yè)已經(jīng)積累了海量理賠數(shù)據(jù),足夠我們構(gòu)建一個(gè)神經(jīng)網(wǎng)絡(luò)算法模型。
第一步:將大量理賠數(shù)據(jù)資料進(jìn)行預(yù)處理,提取出我們需要的向量(編號(hào),年齡,收入水平,可信度),將這些作為訓(xùn)練數(shù)據(jù);第二步:將訓(xùn)練數(shù)據(jù)按照分類算法得到分類規(guī)則,將分類規(guī)則放入特征集合中,如圖3所示;
建立好分類算法模型后,當(dāng)保險(xiǎn)公司發(fā)現(xiàn)可疑用戶時(shí),可以利用建立好的分類算法模型進(jìn)行測(cè)試,提取用戶信息,按照得到特征集合中的分類規(guī)則進(jìn)行分類,判斷該用戶屬于哪一類。
5.結(jié)語
對(duì)保險(xiǎn)公司而言,其很希望每個(gè)人都買保險(xiǎn),但是不要出事故,但是對(duì)于每個(gè)人而言,由于生活中各種各樣的不確定性因素,甚至?xí)霈F(xiàn)騙取保險(xiǎn)的現(xiàn)象。如何有效且準(zhǔn)確地識(shí)別出這些人群,對(duì)保險(xiǎn)公司具有重要意義。本文采用神經(jīng)網(wǎng)絡(luò)算法,篩選出高理賠的用戶群,并舉例對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行分析,從而給予保險(xiǎn)公司有益的改善意見。
參考文獻(xiàn):
[1]唐紅祥.投保方保險(xiǎn)欺詐問題研究[J].廣西財(cái)政高等??茖W(xué)校學(xué)報(bào),2004,17(3):42-55.
[2]張健,馮建華.數(shù)據(jù)頇處理在保險(xiǎn)理賠預(yù)測(cè)中的應(yīng)用[J].計(jì)算機(jī)工程,2005.9:2537-2539.
[3]謝承泮.神經(jīng)網(wǎng)絡(luò)發(fā)展綜述[J].科技情報(bào)開發(fā)與經(jīng)濟(jì),2006,16(12):148-149.
[4]陳永強(qiáng),胡雷芳.數(shù)據(jù)挖掘技術(shù)在人壽保險(xiǎn)CRM系統(tǒng)中的應(yīng)用研究[J].現(xiàn)代生產(chǎn)與管理技術(shù),P39-42.
[5]黃晶晶.數(shù)據(jù)挖掘技術(shù)在醫(yī)院醫(yī)保費(fèi)用分析屮的研究與應(yīng)用[D].廣州:南方科技大學(xué),2009.