亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        兩階段孤立點挖掘算法在保險欺詐中的應(yīng)用

        2012-10-10 03:25:32
        關(guān)鍵詞:數(shù)據(jù)項粗糙集欺詐

        陳 亮

        (泰山職業(yè)技術(shù)學(xué)院 信息工程系,山東 泰安 271000)

        0 引 言

        伴隨國家經(jīng)濟的迅猛發(fā)展,保險業(yè)進(jìn)入了發(fā)展的春天。2008年保費收入2 336億元,保費年平均增長超過20%[1]。然而保險欺詐也應(yīng)運而生。北京和上海保險監(jiān)管機構(gòu)估測,我國機動車保險欺詐的比重大致為20%,2009年全國機動車保險賠付790億元,當(dāng)年保險欺詐金額高達(dá)15億元[2]。因此,保險欺詐嚴(yán)重影響了保險公司的償付能力和經(jīng)營的穩(wěn)定性,甚至?xí)?dǎo)致保險市場失效。保險欺詐的出現(xiàn)涉及多種原因,如歷史原因、投保人原因、保險公司原因及社會原因。正因為保險欺詐產(chǎn)生的背景復(fù)雜,保險欺詐的方法和方式也逐年復(fù)雜化、隱蔽化和多樣化,因此,保險欺詐發(fā)現(xiàn)亦更加困難。

        智能化研究應(yīng)用的保險業(yè)的多數(shù)是客戶研究,應(yīng)用到保險欺詐較少。有關(guān)保險欺詐發(fā)現(xiàn)的研究和方法多集中在規(guī)章制度制定和主觀方面的要求,涉及數(shù)據(jù)分析的主要是“內(nèi)部數(shù)據(jù)查詢法”——統(tǒng)計學(xué)的分析方法[3]。文中采用山東某保險公司近6萬筆業(yè)務(wù)信息數(shù)據(jù)為研究對象,分兩個階段對以上數(shù)據(jù)進(jìn)行挖掘分析,發(fā)現(xiàn)其存在欺詐的業(yè)務(wù)。在此基礎(chǔ)上,提出一種兩階段孤立點發(fā)現(xiàn)方法。

        1 兩階段孤立點發(fā)現(xiàn)方法

        1.1 基于粗糙集的模糊集合相似性度量

        Dubois和Prade提出并研究了粗模糊集與模糊粗糙集,并指出合理選擇模糊規(guī)則是模糊推理系統(tǒng)的關(guān)鍵因素,粗糙集理論和模糊集理論不是互相排斥的,而是可以相互補的[4]。文中利用粗糙集誘導(dǎo)的模糊集,定義近似空間中集合間的粗相似度。

        在近似空間(U,R)中,X是一個粗糙集,映射

        滿足

        設(shè)U = {x1,x2,…,xn}

        在粗糙集中,集合的相似度定義為

        定義1 在近似空間(U,R)中,U={x1,x2,…,xn},?X?U,?Y?U,集合X與Y 的粗糙相似度為:

        定理1 在近似空間(U,R)中,? X,Y∈def(U,R),則有:

        證明:由定理X~R=X?X[4]可知:

        對于?X?U

        成立,可知:

        所以

        由集合的相似度r(X,Y)的定義可知,其取值范圍在0~1之間。當(dāng)r(X,Y)越接近1,兩集合越相似,當(dāng)r(X,Y)=1時,兩集合相同。

        1.2 基于向量相似性的最大相異系數(shù)

        相似性函數(shù)是用函數(shù)的方法來表征兩向量相似的程度。一般向量的相似性函數(shù)有夾角余弦法、相關(guān)系數(shù)法、廣義Dice系數(shù)法、廣義Jaccard系數(shù)法等,這幾種方法都是在夾角余弦的基礎(chǔ)上演變而來,在計算夾角余弦時或有難度或計算量較大[6]。為此,文中提出了最大相異系數(shù)方法。

        設(shè)X=(x1,x2,…,xn)為未知的待比較向量,Y=(y1,y2,…,yn)為確知向量,X 與Y 的相對誤差向量γ為:

        顯然,有可能存在某個γi的值過大或過小的情況,當(dāng)評價γ時,過大或過小的γi可能導(dǎo)致相對誤差向量的部分?jǐn)?shù)據(jù)項的影響過大,使部分小值數(shù)據(jù)項的作用被忽略,從而嚴(yán)重影響相似度的精確度。根據(jù)保險業(yè)務(wù)的二元選擇模型,保險單項業(yè)務(wù)數(shù)據(jù)分為無效因子、弱顯著性因子和顯著因子3種[7]。因此忽略無效因子,提高計算效率,強調(diào)顯著因子,保證算法有效、準(zhǔn)確。

        定義2 對向量γ各位置賦權(quán)α={α1,α2,…,αn},把向量γ按數(shù)值降序排列得新向量:

        其中,γi>γj,當(dāng)i<j時,取出向量γ′的前m個值組成新向量η,η=(ηi1,ηi2,…,ηik),則定義向量X與向量Y的相異系數(shù)為:

        最相異系數(shù)δy的取值范圍為[0,∞),δy越小則兩向量越相近,當(dāng)且僅當(dāng)δy=0時,兩向量完全相同。顯然δy是γ的前n個較大數(shù)據(jù)項的加權(quán)平均值,被忽略的數(shù)據(jù)項相對誤差小,對判決過程影響較小,甚至可以忽略,同時,由于各項權(quán)值不同,越大的相對誤差給定的權(quán)值越大,有效突出了其對判決的影響,同時位置權(quán)值αi強調(diào)了數(shù)據(jù)項本身的價值,δy突出了業(yè)務(wù)上的意義。

        1.3 基于相似度的兩階段聚類算法步驟

        算法分兩階段進(jìn)行,第一階段以集合相似性為判定標(biāo)準(zhǔn),按聚類算法把數(shù)據(jù)分為不同的子類簇,目的是將相同或相近的業(yè)務(wù)歸到同一類簇;度量向量最大相異系數(shù)為判定標(biāo)準(zhǔn),當(dāng)系數(shù)閥值過小時,可能產(chǎn)生較多的族類;第二階段以向量相異系數(shù)為判定標(biāo)準(zhǔn),將上階段產(chǎn)生的類簇進(jìn)一步分類,目的是把同一類簇中的可疑業(yè)務(wù)分離出來。算法的具體步驟如下:

        1)由專家指定各項業(yè)務(wù)的各個特點的典型實例作為初始族類Y={Y1,Y2,…,Yn};

        2)任取x∈U,令X={x},如果r(X,Yi)<Δ1,則Yi=Y(jié)i∪{x},否則令Y={Y1,Y2,…,Yn)∪{Yn+1},其中Yn+1={x};

        3)重復(fù)2),得Y={Y1,Y2,…,Yn,Yn+1,…,Yn+k};

        4)?Yj={x1,x2,…,xl}∈Y,n+k≥j≥1,令j=1;

        5)?xi1,xi2∈Yj,令Yn+k+1={xi1},如果δx2<Δ2,則令Yn+k+1=Y(jié)n+k+1∪{xi2};

        6)重復(fù)5),直到Y(jié)j所有的向量處理完畢,刪除Yj;

        7)重復(fù)4),5),直到j(luò)=n+k;

        8)輸出Y中元素個數(shù)小于指定數(shù)量的類簇。

        2 實驗分析

        實驗采用的數(shù)據(jù)來自泰安某保險公司的客戶投保信息數(shù)據(jù)庫。投保信息分為12個大類,含73個子類,所有近3年的近1萬多條記錄。由該公司理賠部專家指定73條業(yè)務(wù)記錄作初始族類,把每個子類的數(shù)據(jù)項劃分出無效因子、弱顯著性因子和顯著因子3部分,為每個子類指定Δ的值。采用的對比算法為欺詐識別聚類算法[8]和3-Sigma(3tr)統(tǒng)計檢測法。

        下面分別給出3種算法得到的孤立點搜索結(jié)果見表1。

        表1 文中算法、欺詐識別聚類算法和3-Sigma搜索孤立點對比表

        其中,文中算法設(shè)置的閥值Δ1=0.083,Δ2=0.041,欺詐識別聚類算法的閥值為0.1(原文指出為最佳參數(shù))。

        從實驗可以看出,文中算法搜索到保險欺詐數(shù)量比另兩種算法多,通過與該保險公司合作對算法發(fā)現(xiàn)的部分保戶進(jìn)一步核實,確實發(fā)現(xiàn)了其中部分保戶存在欺詐行為而沒有被發(fā)現(xiàn),文中算法的欺詐發(fā)現(xiàn)算法效果較好。

        3種算法的執(zhí)行時間比較如圖1所示。

        由圖1可知,當(dāng)數(shù)據(jù)量較小時,文中算法在執(zhí)行時間上消耗較大,而當(dāng)數(shù)據(jù)量增大時,3種算法逐步接近,當(dāng)數(shù)據(jù)量達(dá)到一定規(guī)模時,3-Sigma算法的時間消耗遠(yuǎn)超其它兩種,而文中算法也快速接近欺詐識別聚類算法。

        3 結(jié) 語

        針對保險業(yè)近年來不斷上升的欺詐行為進(jìn)行了深入研究,在前人研究的基礎(chǔ)上,推導(dǎo)出了基于粗糙集的模糊集合相似性度量公式以提高聚類效果,改進(jìn)了向量相似性判斷方法最大相異系數(shù),提高了算法執(zhí)行效率,文中提出了基于聚類算法的兩階段孤立點發(fā)現(xiàn)算法,并應(yīng)用到保險企業(yè)欺詐發(fā)現(xiàn)問題中,經(jīng)一定規(guī)模數(shù)據(jù)量的試驗驗證了文中算法的有效性和可行性,識別效果表現(xiàn)良好。文中算法的缺點是參數(shù)設(shè)定和聚類初始值是由專家指定,使之通用性受到很大影響,需要進(jìn)一步改進(jìn)。

        [1]葉明華.我國機動車保險欺詐識別的因子分析[J].華東經(jīng)濟管理,2010,24(2):84-86.

        [2]陳亮.基于混合蛙跳算法的背包問題求解算法[J].河南城建學(xué)院學(xué)報,2011,20(3):41-44.

        [3]趙麗霞.個體風(fēng)險模型中總索賠分布函數(shù)的估值問題[J].長春工業(yè)大學(xué)學(xué)報:自然科學(xué)版,2011,32(2):191-194.

        [4]吳瑞,寧玉富,郭長友.基于模糊粗糙近似的web瀏覽模式的聚類[J].系統(tǒng)工程學(xué)報,2010,25(1):132-137.

        [5]仲兆滿.基于相似度的粗糙集近似算子快速求解[J].小型微型計算機系統(tǒng),2010,31(1):251-252.

        [6]張宇.向量相似度測度方法[J].火控雷達(dá)技術(shù),2009,28(4):78-81.

        [7]葉明華.我國機動車保險欺詐識別的因子分析[J].華東經(jīng)濟管理,2010,24(2):84-86.

        [8]Rekha Bhowmik.Detecting auto insurance fraud by data mining techniques[J].Journal of Emerging Trends in Computing and Information Sciences,2011,2(4):371-377.

        猜你喜歡
        數(shù)據(jù)項粗糙集欺詐
        關(guān)于假冒網(wǎng)站及欺詐行為的識別
        關(guān)于假冒網(wǎng)站及欺詐行為的識別
        基于Pawlak粗糙集模型的集合運算關(guān)系
        一種多功能抽簽選擇器軟件系統(tǒng)設(shè)計與實現(xiàn)
        甘肅科技(2020年19期)2020-03-11 09:42:42
        非完整數(shù)據(jù)庫Skyline-join查詢*
        警惕國際貿(mào)易欺詐
        中國外匯(2019年10期)2019-08-27 01:58:04
        基于Python的Asterix Cat 021數(shù)據(jù)格式解析分析與實現(xiàn)
        多粒化粗糙集性質(zhì)的幾個充分條件
        雙論域粗糙集在故障診斷中的應(yīng)用
        網(wǎng)購遭欺詐 維權(quán)有種法
        在线天堂中文字幕| 成人自慰女黄网站免费大全| 国内精品久久久久影院薰衣草| 欧美人与动人物姣配xxxx| 99在线视频精品费观看视| 日本一区二区高清视频| 亚洲免费国产中文字幕久久久| 国产激情电影综合在线看| 日韩www视频| 日韩av一区二区三区精品| 亚洲女同恋av中文一区二区| 亚洲国产成人片在线观看| 久久综合第一页无码| 久久熟女乱一区二区三区四区| 亚洲国产精品久久无人区| 精品少妇无码av无码专区| 91视频香蕉| 午夜日本理论片最新片| 成人日韩精品人妻久久一区| 国产裸拍裸体视频在线观看| 久久人人做人人妻人人玩精 | 欧美日韩在线视频一区| 欧美成人看片黄a免费看| 精品国产爱在线观看| 久草视频这里只有精品| 亚洲av鲁丝一区二区三区黄| 日韩欧美第一页| 国产av熟女一区二区三区蜜臀| 国产精品婷婷久久爽一下| 国产午夜亚洲精品午夜鲁丝片| 国产69精品一区二区三区| 成人久久精品人妻一区二区三区| 内射人妻视频国内| 精品手机在线视频| 日本精品啪啪一区二区| 国产猛男猛女超爽免费视频| 无码专区天天躁天天躁在线| 日本一区二区三区在线| 成人影院视频在线免费观看| 国产精品福利自产拍在线观看| 2021国产精品一区二区在线|