【摘要】隨著我國保險行業(yè)的不斷發(fā)展,針對車險的欺詐問題也日益嚴峻,使得保險公司每年遭受巨大的損失。為了發(fā)現和防止保險中的欺詐,保險公司在不斷的尋求新的方法來解決這一問題。本文結合數據挖掘的方法,對車險欺詐問題的檢測提出建議。
【關鍵詞】數據挖掘 車險欺詐 識別
一、車險欺詐的背景
保險行業(yè)的健康發(fā)展,是我國經濟建設的重要環(huán)節(jié)。隨著人們生活水平的不斷提高,汽車在我們的生活中也扮演者越來越重要的作用。截止2015年年底,中國居民平均每百戶的汽車擁有量已達22.7,該年度保險公司總保費為24282.5億元,其中機動車輛保險費為6199億元,占總數的25.5%。而機動車量理賠金額達3335.60億元,據統計,我國車輛保險的欺詐比例約為20%,按此計算,我國車險欺詐賠付金額高達667.12億元,對我國保險企業(yè)造成了巨大的損失[1][2]。
車險欺詐問題,目前已經發(fā)展成為全球性問題。英國保險人協會的統計指出,在2008年,由于保險欺詐給英國保險企業(yè)帶來了每周1400英鎊的損失,比去年增長了30個百分點,在每25個保單中就存在1份欺詐保單。美國保險反欺詐聯盟的統計指出,在2009年的機動車車身損害索賠的保單中,由保險欺詐帶來的損失占總金額的17%至20%。
保險欺詐是保險業(yè)面臨的最大問題之一,會造成巨大的經濟損失。保險欺詐可能發(fā)生在各個階段及各個實體,如現有的保險公司、受影響的第三方及為保險公司提供服務的專家等,詐騙的形式也多種多樣,可能遠遠超出我們實際的估計次數。因此,如何有效的識別出汽車保單中的欺詐問題,是保險業(yè)一個重要的研究課題。
二、車險欺詐的原因
通過汽車保險欺詐的方式,使得保單持有者通過不真實的索賠獲得了高額的利潤,這會增加保險公司對于欺詐風險的恐懼,由此會導致保險公司進一步提高保費,因此每個參保人都會成為少數保險欺詐的受害者。車險欺詐按照不同的欺詐內容劃分,分為硬性和軟性保險欺詐,其中硬性保險欺詐是指用戶在未發(fā)生事故時,在保單的承保范圍內,虛假編造事故的發(fā)生,獲得保費;軟性保險欺詐是指發(fā)生事故后,用戶夸大事故真相,騙取高額保費。
目前,引發(fā)車險欺詐的原因主要包括三個方面:
(一)社會原因
保險業(yè)的健康發(fā)展與我們的社會環(huán)境息息相關,在社會經濟高速發(fā)展的大背景下,如果公民自身的素質水平不高、法律意識淡薄或者社會忽視對保險欺詐者的懲罰,在欺詐的高額利潤下,會導致保險欺詐現象層出不窮。
(二)保險業(yè)的自身性質
保險是管理風險的一種重要的方式,其主要目的是當汽車發(fā)生意外,能夠支付維修車輛的費用。從保險行業(yè)的自身性質來看,保險行業(yè)自身存在著一種可能,就是以較少的投入,獲得較高的賠付金額,由于保險的損失是人為衡量的且由于保險人與被保險人之間的利益關系,也會導致欺詐現象的產生。
(三)保險公司內部的原因
保險公司自身的監(jiān)管意識薄弱,是保險欺詐產生的最直接原因。由于我國的保險行業(yè)在一些方面還不是成熟,針對騙保的風險管理機制還不是很成熟,由于保險條款的局限性,公司在風險管理制度上的漏洞,保險公司內部人員的勾結和不同公司間的惡意競爭,都會引發(fā)保險欺詐的產生。
三、基于數據挖掘的車險欺詐識別方法
根據保險欺詐產生的原因中可知,對于社會原因和保險業(yè)自身性質的改變,在短時間內難以完成,因此,將解決保險公司內部的原因,作為我們防止欺詐的主要手段。數據挖掘方法可以有效的從數據集中發(fā)現和提取信息,因此,近年來成為對保險欺詐進行精確識別的一種有效的方法。利用數據挖掘技術來判斷車險欺詐,最主要的目的是確定數據挖掘技術與保險欺詐數據之間的親和度(相似性或聯系),即確定分類模型與保險欺詐數據之間的關系,實現對不同類別的未知對象的分類標簽進行預測。本文對神經網絡、樸素貝葉斯技術、決策樹和支持向量機這幾種技術進行說明。
(一)神經網絡
神經網絡技術,是一種通過樣本訓練的自適應機器學習方法,它包括三個部分:(1)由表示預測變量節(jié)點組成的輸入層;(2)由執(zhí)行計算的節(jié)點組成的隱藏層;(3)由表示目標變量節(jié)點組成的輸出層。該方法具有較好的分類、關聯、特征提取、抗噪聲和容錯能力。
(二)樸素貝葉斯技術
樸素的貝葉斯分類器是一個簡單的基于貝葉斯定理的概率分類器與預測變量之間的獨立假設。簡單來說,一個樸素的貝葉斯分類器假定存在(或不存在)類的特定特征與任何其他特征的存在(或不存在)無關。樸素貝葉斯模型構建方法簡單,沒有復雜的迭代參數估計,對于大型數據集具有較好的效果。
(三)決策樹
決策樹以樹的形式構建分類或者回歸模型。它將數據集分解為越來越小的子集,同時相關的決策樹模型也逐漸發(fā)展,最終獲得的結果是具有決策節(jié)點和葉子節(jié)點的樹。決策節(jié)點具有兩個或者更多的分支,而葉子節(jié)點代表分類或決定。對應于最佳預測器的樹中最頂層的決策節(jié)點稱為根節(jié)點。決策樹具有很多吸引人的屬性:與人類決策過程類似,易于理解,并且靈活性高。
(四)支持向量機
支持向量機通過找到兩個類之間的最大邊距得到的最優(yōu)超平面來執(zhí)行分類。定義超平面的矢量稱為支持向量。在支持向量機的計算過程中,預測變量稱為屬性,選擇最合適的屬性表示的過程被稱為特征選擇。因此,支持向量機建模的目的是找到分離向量集群的最優(yōu)超平面,使得目標變量被分為兩類。超平面附近的矢量是支持向量。該方法具有以下特點:精度高,靈活性高,處理方便。通常情況下,每個分類模型都使用一組相關特征或參數來表征對象。在這里,我們使用被稱為訓練集的一組已知對象由分類程序用來學習如何對對象進行分類,這種方法被稱為監(jiān)督學習。構建分類器主要包括兩個階段:(1)訓練階段,訓練集用于決定如何將參數加權和組合以分離各種對象,(2)應用階段,在訓練集中確定的權重被應用于一組沒有已知類的對象,以便確定他們的類別可能是什么。
汽車保險欺詐的數據集大多來自于保險受益人的索賠表,這些數據集具有以下特征:投保個人信息(包括年齡、收入、性別和受教育程度等),索賠金額,個人信用評級,類別(合法/欺詐)等。通過對數據集的特征進行歸一化處理,并結合上述數據挖掘技術,實現對保險數據集的分類,達到對車險欺詐進行識別的目的。
四、結論
車險欺詐現象日趨嚴重,其中,如何對保單中的欺詐現象進行識別,進而及時有效的對具有欺詐風險的保單進行預測和管理具有十分重要的意義。利用數據挖掘技術為車險欺詐的識別提供了有力的工具,利用數據挖掘技術將保險數據集轉換為一種分類的形式,進而實現了對保險公司對于欺詐現象的預測,具有較好的應用潛力。
參考文獻
[1]張立東.基于數據挖掘模型的車險保費個性化定價系統研究[D].燕山大學.2014.
[2]葉明華.基于BP神經網絡的保險欺詐識別研究—以中國機動車保險索賠為例[J].保險研究.2011.03:79-86.
作者簡介:趙彥竹(1991-),女,滿族,吉林長春人,碩士研究生,研究方向:機器學習與精算。