陳 亮
(泰山職業(yè)技術(shù)學(xué)院 信息工程系,山東 泰安 271000)
伴隨國家經(jīng)濟的迅猛發(fā)展,保險業(yè)進(jìn)入了發(fā)展的春天。2008年保費收入2 336億元,保費年平均增長超過20%[1]。然而保險欺詐也應(yīng)運而生。北京和上海保險監(jiān)管機構(gòu)估測,我國機動車保險欺詐的比重大致為20%,2009年全國機動車保險賠付790億元,當(dāng)年保險欺詐金額高達(dá)15億元[2]。因此,保險欺詐嚴(yán)重影響了保險公司的償付能力和經(jīng)營的穩(wěn)定性,甚至?xí)?dǎo)致保險市場失效。保險欺詐的出現(xiàn)涉及多種原因,如歷史原因、投保人原因、保險公司原因及社會原因。正因為保險欺詐產(chǎn)生的背景復(fù)雜,保險欺詐的方法和方式也逐年復(fù)雜化、隱蔽化和多樣化,因此,保險欺詐發(fā)現(xiàn)亦更加困難。
智能化研究應(yīng)用的保險業(yè)的多數(shù)是客戶研究,應(yīng)用到保險欺詐較少。有關(guān)保險欺詐發(fā)現(xiàn)的研究和方法多集中在規(guī)章制度制定和主觀方面的要求,涉及數(shù)據(jù)分析的主要是“內(nèi)部數(shù)據(jù)查詢法”——統(tǒng)計學(xué)的分析方法[3]。文中采用山東某保險公司近6萬筆業(yè)務(wù)信息數(shù)據(jù)為研究對象,分兩個階段對以上數(shù)據(jù)進(jìn)行挖掘分析,發(fā)現(xiàn)其存在欺詐的業(yè)務(wù)。在此基礎(chǔ)上,提出一種兩階段孤立點發(fā)現(xiàn)方法。
Dubois和Prade提出并研究了粗模糊集與模糊粗糙集,并指出合理選擇模糊規(guī)則是模糊推理系統(tǒng)的關(guān)鍵因素,粗糙集理論和模糊集理論不是互相排斥的,而是可以相互補的[4]。文中利用粗糙集誘導(dǎo)的模糊集,定義近似空間中集合間的粗相似度。
在近似空間(U,R)中,X是一個粗糙集,映射
滿足
設(shè)U = {x1,x2,…,xn}
在粗糙集中,集合的相似度定義為
定義1 在近似空間(U,R)中,U={x1,x2,…,xn},?X?U,?Y?U,集合X與Y 的粗糙相似度為:
定理1 在近似空間(U,R)中,? X,Y∈def(U,R),則有:
證明:由定理X~R=X?X[4]可知:
對于?X?U
成立,可知:
所以
由集合的相似度r(X,Y)的定義可知,其取值范圍在0~1之間。當(dāng)r(X,Y)越接近1,兩集合越相似,當(dāng)r(X,Y)=1時,兩集合相同。
相似性函數(shù)是用函數(shù)的方法來表征兩向量相似的程度。一般向量的相似性函數(shù)有夾角余弦法、相關(guān)系數(shù)法、廣義Dice系數(shù)法、廣義Jaccard系數(shù)法等,這幾種方法都是在夾角余弦的基礎(chǔ)上演變而來,在計算夾角余弦時或有難度或計算量較大[6]。為此,文中提出了最大相異系數(shù)方法。
設(shè)X=(x1,x2,…,xn)為未知的待比較向量,Y=(y1,y2,…,yn)為確知向量,X 與Y 的相對誤差向量γ為:
顯然,有可能存在某個γi的值過大或過小的情況,當(dāng)評價γ時,過大或過小的γi可能導(dǎo)致相對誤差向量的部分?jǐn)?shù)據(jù)項的影響過大,使部分小值數(shù)據(jù)項的作用被忽略,從而嚴(yán)重影響相似度的精確度。根據(jù)保險業(yè)務(wù)的二元選擇模型,保險單項業(yè)務(wù)數(shù)據(jù)分為無效因子、弱顯著性因子和顯著因子3種[7]。因此忽略無效因子,提高計算效率,強調(diào)顯著因子,保證算法有效、準(zhǔn)確。
定義2 對向量γ各位置賦權(quán)α={α1,α2,…,αn},把向量γ按數(shù)值降序排列得新向量:
其中,γi>γj,當(dāng)i<j時,取出向量γ′的前m個值組成新向量η,η=(ηi1,ηi2,…,ηik),則定義向量X與向量Y的相異系數(shù)為:
最相異系數(shù)δy的取值范圍為[0,∞),δy越小則兩向量越相近,當(dāng)且僅當(dāng)δy=0時,兩向量完全相同。顯然δy是γ的前n個較大數(shù)據(jù)項的加權(quán)平均值,被忽略的數(shù)據(jù)項相對誤差小,對判決過程影響較小,甚至可以忽略,同時,由于各項權(quán)值不同,越大的相對誤差給定的權(quán)值越大,有效突出了其對判決的影響,同時位置權(quán)值αi強調(diào)了數(shù)據(jù)項本身的價值,δy突出了業(yè)務(wù)上的意義。
算法分兩階段進(jìn)行,第一階段以集合相似性為判定標(biāo)準(zhǔn),按聚類算法把數(shù)據(jù)分為不同的子類簇,目的是將相同或相近的業(yè)務(wù)歸到同一類簇;度量向量最大相異系數(shù)為判定標(biāo)準(zhǔn),當(dāng)系數(shù)閥值過小時,可能產(chǎn)生較多的族類;第二階段以向量相異系數(shù)為判定標(biāo)準(zhǔn),將上階段產(chǎn)生的類簇進(jìn)一步分類,目的是把同一類簇中的可疑業(yè)務(wù)分離出來。算法的具體步驟如下:
1)由專家指定各項業(yè)務(wù)的各個特點的典型實例作為初始族類Y={Y1,Y2,…,Yn};
2)任取x∈U,令X={x},如果r(X,Yi)<Δ1,則Yi=Y(jié)i∪{x},否則令Y={Y1,Y2,…,Yn)∪{Yn+1},其中Yn+1={x};
3)重復(fù)2),得Y={Y1,Y2,…,Yn,Yn+1,…,Yn+k};
4)?Yj={x1,x2,…,xl}∈Y,n+k≥j≥1,令j=1;
5)?xi1,xi2∈Yj,令Yn+k+1={xi1},如果δx2<Δ2,則令Yn+k+1=Y(jié)n+k+1∪{xi2};
6)重復(fù)5),直到Y(jié)j所有的向量處理完畢,刪除Yj;
7)重復(fù)4),5),直到j(luò)=n+k;
8)輸出Y中元素個數(shù)小于指定數(shù)量的類簇。
實驗采用的數(shù)據(jù)來自泰安某保險公司的客戶投保信息數(shù)據(jù)庫。投保信息分為12個大類,含73個子類,所有近3年的近1萬多條記錄。由該公司理賠部專家指定73條業(yè)務(wù)記錄作初始族類,把每個子類的數(shù)據(jù)項劃分出無效因子、弱顯著性因子和顯著因子3部分,為每個子類指定Δ的值。采用的對比算法為欺詐識別聚類算法[8]和3-Sigma(3tr)統(tǒng)計檢測法。
下面分別給出3種算法得到的孤立點搜索結(jié)果見表1。
表1 文中算法、欺詐識別聚類算法和3-Sigma搜索孤立點對比表
其中,文中算法設(shè)置的閥值Δ1=0.083,Δ2=0.041,欺詐識別聚類算法的閥值為0.1(原文指出為最佳參數(shù))。
從實驗可以看出,文中算法搜索到保險欺詐數(shù)量比另兩種算法多,通過與該保險公司合作對算法發(fā)現(xiàn)的部分保戶進(jìn)一步核實,確實發(fā)現(xiàn)了其中部分保戶存在欺詐行為而沒有被發(fā)現(xiàn),文中算法的欺詐發(fā)現(xiàn)算法效果較好。
3種算法的執(zhí)行時間比較如圖1所示。
由圖1可知,當(dāng)數(shù)據(jù)量較小時,文中算法在執(zhí)行時間上消耗較大,而當(dāng)數(shù)據(jù)量增大時,3種算法逐步接近,當(dāng)數(shù)據(jù)量達(dá)到一定規(guī)模時,3-Sigma算法的時間消耗遠(yuǎn)超其它兩種,而文中算法也快速接近欺詐識別聚類算法。
針對保險業(yè)近年來不斷上升的欺詐行為進(jìn)行了深入研究,在前人研究的基礎(chǔ)上,推導(dǎo)出了基于粗糙集的模糊集合相似性度量公式以提高聚類效果,改進(jìn)了向量相似性判斷方法最大相異系數(shù),提高了算法執(zhí)行效率,文中提出了基于聚類算法的兩階段孤立點發(fā)現(xiàn)算法,并應(yīng)用到保險企業(yè)欺詐發(fā)現(xiàn)問題中,經(jīng)一定規(guī)模數(shù)據(jù)量的試驗驗證了文中算法的有效性和可行性,識別效果表現(xiàn)良好。文中算法的缺點是參數(shù)設(shè)定和聚類初始值是由專家指定,使之通用性受到很大影響,需要進(jìn)一步改進(jìn)。
[1]葉明華.我國機動車保險欺詐識別的因子分析[J].華東經(jīng)濟管理,2010,24(2):84-86.
[2]陳亮.基于混合蛙跳算法的背包問題求解算法[J].河南城建學(xué)院學(xué)報,2011,20(3):41-44.
[3]趙麗霞.個體風(fēng)險模型中總索賠分布函數(shù)的估值問題[J].長春工業(yè)大學(xué)學(xué)報:自然科學(xué)版,2011,32(2):191-194.
[4]吳瑞,寧玉富,郭長友.基于模糊粗糙近似的web瀏覽模式的聚類[J].系統(tǒng)工程學(xué)報,2010,25(1):132-137.
[5]仲兆滿.基于相似度的粗糙集近似算子快速求解[J].小型微型計算機系統(tǒng),2010,31(1):251-252.
[6]張宇.向量相似度測度方法[J].火控雷達(dá)技術(shù),2009,28(4):78-81.
[7]葉明華.我國機動車保險欺詐識別的因子分析[J].華東經(jīng)濟管理,2010,24(2):84-86.
[8]Rekha Bhowmik.Detecting auto insurance fraud by data mining techniques[J].Journal of Emerging Trends in Computing and Information Sciences,2011,2(4):371-377.