亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

兩階段孤立點(diǎn)挖掘算法在保險(xiǎn)欺詐中的應(yīng)用

2012-10-10 03:25:32陳亮

長春工業(yè)大學(xué)學(xué)報(bào) 2012年1期

陳亮

（泰山職業(yè)技術(shù)學(xué)院信息工程系，山東泰安 271000）

0 引言

伴隨國家經(jīng)濟(jì)的迅猛發(fā)展，保險(xiǎn)業(yè)進(jìn)入了發(fā)展的春天。2008年保費(fèi)收入2 336億元，保費(fèi)年平均增長超過20%［1］。然而保險(xiǎn)欺詐也應(yīng)運(yùn)而生。北京和上海保險(xiǎn)監(jiān)管機(jī)構(gòu)估測(cè)，我國機(jī)動(dòng)車保險(xiǎn)欺詐的比重大致為20%，2009年全國機(jī)動(dòng)車保險(xiǎn)賠付790億元，當(dāng)年保險(xiǎn)欺詐金額高達(dá)15億元［2］。因此，保險(xiǎn)欺詐嚴(yán)重影響了保險(xiǎn)公司的償付能力和經(jīng)營的穩(wěn)定性，甚至?xí)?dǎo)致保險(xiǎn)市場(chǎng)失效。保險(xiǎn)欺詐的出現(xiàn)涉及多種原因，如歷史原因、投保人原因、保險(xiǎn)公司原因及社會(huì)原因。正因?yàn)楸ｋU(xiǎn)欺詐產(chǎn)生的背景復(fù)雜，保險(xiǎn)欺詐的方法和方式也逐年復(fù)雜化、隱蔽化和多樣化，因此，保險(xiǎn)欺詐發(fā)現(xiàn)亦更加困難。

智能化研究應(yīng)用的保險(xiǎn)業(yè)的多數(shù)是客戶研究，應(yīng)用到保險(xiǎn)欺詐較少。有關(guān)保險(xiǎn)欺詐發(fā)現(xiàn)的研究和方法多集中在規(guī)章制度制定和主觀方面的要求，涉及數(shù)據(jù)分析的主要是“內(nèi)部數(shù)據(jù)查詢法”——統(tǒng)計(jì)學(xué)的分析方法［3］。文中采用山東某保險(xiǎn)公司近6萬筆業(yè)務(wù)信息數(shù)據(jù)為研究對(duì)象，分兩個(gè)階段對(duì)以上數(shù)據(jù)進(jìn)行挖掘分析，發(fā)現(xiàn)其存在欺詐的業(yè)務(wù)。在此基礎(chǔ)上，提出一種兩階段孤立點(diǎn)發(fā)現(xiàn)方法。

1 兩階段孤立點(diǎn)發(fā)現(xiàn)方法

1.1 基于粗糙集的模糊集合相似性度量

Dubois和Prade提出并研究了粗模糊集與模糊粗糙集，并指出合理選擇模糊規(guī)則是模糊推理系統(tǒng)的關(guān)鍵因素，粗糙集理論和模糊集理論不是互相排斥的，而是可以相互補(bǔ)的［4］。文中利用粗糙集誘導(dǎo)的模糊集，定義近似空間中集合間的粗相似度。

在近似空間（U，R）中，X是一個(gè)粗糙集，映射

滿足

設(shè)U ＝｛x1，x2，…，xn｝

在粗糙集中，集合的相似度定義為

定義1 在近似空間（U，R）中，U＝｛x1，x2，…，xn｝，?X?U，?Y?U，集合X與Y 的粗糙相似度為：

定理1 在近似空間（U，R）中，? X，Y∈def（U，R），則有：

證明：由定理X～R＝X?X［4］可知：

對(duì)于?X?U

成立，可知：

所以

由集合的相似度r（X，Y）的定義可知，其取值范圍在0～1之間。當(dāng)r（X，Y）越接近1，兩集合越相似，當(dāng)r（X，Y）＝1時(shí)，兩集合相同。

1.2 基于向量相似性的最大相異系數(shù)

相似性函數(shù)是用函數(shù)的方法來表征兩向量相似的程度。一般向量的相似性函數(shù)有夾角余弦法、相關(guān)系數(shù)法、廣義Dice系數(shù)法、廣義Jaccard系數(shù)法等，這幾種方法都是在夾角余弦的基礎(chǔ)上演變而來，在計(jì)算夾角余弦時(shí)或有難度或計(jì)算量較大［6］。為此，文中提出了最大相異系數(shù)方法。

設(shè)X＝（x1，x2，…，xn）為未知的待比較向量，Y＝（y1，y2，…，yn）為確知向量，X 與Y 的相對(duì)誤差向量γ為：

顯然，有可能存在某個(gè)γi的值過大或過小的情況，當(dāng)評(píng)價(jià)γ時(shí)，過大或過小的γi可能導(dǎo)致相對(duì)誤差向量的部分?jǐn)?shù)據(jù)項(xiàng)的影響過大，使部分小值數(shù)據(jù)項(xiàng)的作用被忽略，從而嚴(yán)重影響相似度的精確度。根據(jù)保險(xiǎn)業(yè)務(wù)的二元選擇模型，保險(xiǎn)單項(xiàng)業(yè)務(wù)數(shù)據(jù)分為無效因子、弱顯著性因子和顯著因子3種［7］。因此忽略無效因子，提高計(jì)算效率，強(qiáng)調(diào)顯著因子，保證算法有效、準(zhǔn)確。

定義2 對(duì)向量γ各位置賦權(quán)α＝｛α1，α2，…，αn｝，把向量γ按數(shù)值降序排列得新向量：

其中，γi＞γj，當(dāng)i＜j時(shí)，取出向量γ′的前m個(gè)值組成新向量η，η＝（ηi1，ηi2，…，ηik），則定義向量X與向量Y的相異系數(shù)為：

最相異系數(shù)δy的取值范圍為［0，∞），δy越小則兩向量越相近，當(dāng)且僅當(dāng)δy＝0時(shí)，兩向量完全相同。顯然δy是γ的前n個(gè)較大數(shù)據(jù)項(xiàng)的加權(quán)平均值，被忽略的數(shù)據(jù)項(xiàng)相對(duì)誤差小，對(duì)判決過程影響較小，甚至可以忽略，同時(shí)，由于各項(xiàng)權(quán)值不同，越大的相對(duì)誤差給定的權(quán)值越大，有效突出了其對(duì)判決的影響，同時(shí)位置權(quán)值αi強(qiáng)調(diào)了數(shù)據(jù)項(xiàng)本身的價(jià)值，δy突出了業(yè)務(wù)上的意義。

1.3 基于相似度的兩階段聚類算法步驟

算法分兩階段進(jìn)行，第一階段以集合相似性為判定標(biāo)準(zhǔn)，按聚類算法把數(shù)據(jù)分為不同的子類簇，目的是將相同或相近的業(yè)務(wù)歸到同一類簇；度量向量最大相異系數(shù)為判定標(biāo)準(zhǔn)，當(dāng)系數(shù)閥值過小時(shí)，可能產(chǎn)生較多的族類；第二階段以向量相異系數(shù)為判定標(biāo)準(zhǔn)，將上階段產(chǎn)生的類簇進(jìn)一步分類，目的是把同一類簇中的可疑業(yè)務(wù)分離出來。算法的具體步驟如下：

1）由專家指定各項(xiàng)業(yè)務(wù)的各個(gè)特點(diǎn)的典型實(shí)例作為初始族類Y＝｛Y1，Y2，…，Yn｝；

2）任取x∈U，令X＝｛x｝，如果r（X，Yi）＜Δ1，則Yi＝Y(jié)i∪｛x｝，否則令Y＝｛Y1，Y2，…，Yn）∪｛Yn＋1｝，其中Yn＋1＝｛x｝；

3）重復(fù)2），得Y＝｛Y1，Y2，…，Yn，Yn＋1，…，Yn＋k｝；

4）?Yj＝｛x1，x2，…，xl｝∈Y，n＋k≥j≥1，令j＝1；

5）?xi1，xi2∈Yj，令Yn＋k＋1＝｛xi1｝，如果δx2＜Δ2，則令Yn＋k＋1＝Y(jié)n＋k＋1∪｛xi2｝；

6）重復(fù)5），直到Y(jié)j所有的向量處理完畢，刪除Yj；

7）重復(fù)4），5），直到j(luò)＝n＋k；

8）輸出Y中元素個(gè)數(shù)小于指定數(shù)量的類簇。

2 實(shí)驗(yàn)分析

實(shí)驗(yàn)采用的數(shù)據(jù)來自泰安某保險(xiǎn)公司的客戶投保信息數(shù)據(jù)庫。投保信息分為12個(gè)大類，含73個(gè)子類，所有近3年的近1萬多條記錄。由該公司理賠部專家指定73條業(yè)務(wù)記錄作初始族類，把每個(gè)子類的數(shù)據(jù)項(xiàng)劃分出無效因子、弱顯著性因子和顯著因子3部分，為每個(gè)子類指定Δ的值。采用的對(duì)比算法為欺詐識(shí)別聚類算法［8］和3－Sigma（3tr）統(tǒng)計(jì)檢測(cè)法。

下面分別給出3種算法得到的孤立點(diǎn)搜索結(jié)果見表1。

表1 文中算法、欺詐識(shí)別聚類算法和3－Sigma搜索孤立點(diǎn)對(duì)比表

其中，文中算法設(shè)置的閥值Δ1＝0.083，Δ2＝0.041，欺詐識(shí)別聚類算法的閥值為0.1（原文指出為最佳參數(shù)）。

從實(shí)驗(yàn)可以看出，文中算法搜索到保險(xiǎn)欺詐數(shù)量比另兩種算法多，通過與該保險(xiǎn)公司合作對(duì)算法發(fā)現(xiàn)的部分保戶進(jìn)一步核實(shí)，確實(shí)發(fā)現(xiàn)了其中部分保戶存在欺詐行為而沒有被發(fā)現(xiàn)，文中算法的欺詐發(fā)現(xiàn)算法效果較好。

3種算法的執(zhí)行時(shí)間比較如圖1所示。

由圖1可知，當(dāng)數(shù)據(jù)量較小時(shí)，文中算法在執(zhí)行時(shí)間上消耗較大，而當(dāng)數(shù)據(jù)量增大時(shí)，3種算法逐步接近，當(dāng)數(shù)據(jù)量達(dá)到一定規(guī)模時(shí)，3－Sigma算法的時(shí)間消耗遠(yuǎn)超其它兩種，而文中算法也快速接近欺詐識(shí)別聚類算法。

3 結(jié) 語

針對(duì)保險(xiǎn)業(yè)近年來不斷上升的欺詐行為進(jìn)行了深入研究，在前人研究的基礎(chǔ)上，推導(dǎo)出了基于粗糙集的模糊集合相似性度量公式以提高聚類效果，改進(jìn)了向量相似性判斷方法最大相異系數(shù)，提高了算法執(zhí)行效率，文中提出了基于聚類算法的兩階段孤立點(diǎn)發(fā)現(xiàn)算法，并應(yīng)用到保險(xiǎn)企業(yè)欺詐發(fā)現(xiàn)問題中，經(jīng)一定規(guī)模數(shù)據(jù)量的試驗(yàn)驗(yàn)證了文中算法的有效性和可行性，識(shí)別效果表現(xiàn)良好。文中算法的缺點(diǎn)是參數(shù)設(shè)定和聚類初始值是由專家指定，使之通用性受到很大影響，需要進(jìn)一步改進(jìn)。

［1］葉明華.我國機(jī)動(dòng)車保險(xiǎn)欺詐識(shí)別的因子分析［J］.華東經(jīng)濟(jì)管理，2010，24（2）：84－86.

［2］陳亮.基于混合蛙跳算法的背包問題求解算法［J］.河南城建學(xué)院學(xué)報(bào)，2011，20（3）：41－44.

［3］趙麗霞.個(gè)體風(fēng)險(xiǎn)模型中總索賠分布函數(shù)的估值問題［J］.長春工業(yè)大學(xué)學(xué)報(bào)：自然科學(xué)版，2011，32（2）：191－194.

［4］吳瑞，寧玉富，郭長友.基于模糊粗糙近似的web瀏覽模式的聚類［J］.系統(tǒng)工程學(xué)報(bào)，2010，25（1）：132－137.

［5］仲兆滿.基于相似度的粗糙集近似算子快速求解［J］.小型微型計(jì)算機(jī)系統(tǒng)，2010，31（1）：251－252.

［6］張宇.向量相似度測(cè)度方法［J］.火控雷達(dá)技術(shù)，2009，28（4）：78－81.

［7］葉明華.我國機(jī)動(dòng)車保險(xiǎn)欺詐識(shí)別的因子分析［J］.華東經(jīng)濟(jì)管理，2010，24（2）：84－86.

［8］Rekha Bhowmik.Detecting auto insurance fraud by data mining techniques［J］.Journal of Emerging Trends in Computing and Information Sciences，2011，2（4）：371－377.