亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        兩階段孤立點(diǎn)挖掘算法在保險(xiǎn)欺詐中的應(yīng)用

        2012-10-10 03:25:32
        關(guān)鍵詞:數(shù)據(jù)項(xiàng)粗糙集欺詐

        陳 亮

        (泰山職業(yè)技術(shù)學(xué)院 信息工程系,山東 泰安 271000)

        0 引 言

        伴隨國(guó)家經(jīng)濟(jì)的迅猛發(fā)展,保險(xiǎn)業(yè)進(jìn)入了發(fā)展的春天。2008年保費(fèi)收入2 336億元,保費(fèi)年平均增長(zhǎng)超過(guò)20%[1]。然而保險(xiǎn)欺詐也應(yīng)運(yùn)而生。北京和上海保險(xiǎn)監(jiān)管機(jī)構(gòu)估測(cè),我國(guó)機(jī)動(dòng)車保險(xiǎn)欺詐的比重大致為20%,2009年全國(guó)機(jī)動(dòng)車保險(xiǎn)賠付790億元,當(dāng)年保險(xiǎn)欺詐金額高達(dá)15億元[2]。因此,保險(xiǎn)欺詐嚴(yán)重影響了保險(xiǎn)公司的償付能力和經(jīng)營(yíng)的穩(wěn)定性,甚至?xí)?dǎo)致保險(xiǎn)市場(chǎng)失效。保險(xiǎn)欺詐的出現(xiàn)涉及多種原因,如歷史原因、投保人原因、保險(xiǎn)公司原因及社會(huì)原因。正因?yàn)楸kU(xiǎn)欺詐產(chǎn)生的背景復(fù)雜,保險(xiǎn)欺詐的方法和方式也逐年復(fù)雜化、隱蔽化和多樣化,因此,保險(xiǎn)欺詐發(fā)現(xiàn)亦更加困難。

        智能化研究應(yīng)用的保險(xiǎn)業(yè)的多數(shù)是客戶研究,應(yīng)用到保險(xiǎn)欺詐較少。有關(guān)保險(xiǎn)欺詐發(fā)現(xiàn)的研究和方法多集中在規(guī)章制度制定和主觀方面的要求,涉及數(shù)據(jù)分析的主要是“內(nèi)部數(shù)據(jù)查詢法”——統(tǒng)計(jì)學(xué)的分析方法[3]。文中采用山東某保險(xiǎn)公司近6萬(wàn)筆業(yè)務(wù)信息數(shù)據(jù)為研究對(duì)象,分兩個(gè)階段對(duì)以上數(shù)據(jù)進(jìn)行挖掘分析,發(fā)現(xiàn)其存在欺詐的業(yè)務(wù)。在此基礎(chǔ)上,提出一種兩階段孤立點(diǎn)發(fā)現(xiàn)方法。

        1 兩階段孤立點(diǎn)發(fā)現(xiàn)方法

        1.1 基于粗糙集的模糊集合相似性度量

        Dubois和Prade提出并研究了粗模糊集與模糊粗糙集,并指出合理選擇模糊規(guī)則是模糊推理系統(tǒng)的關(guān)鍵因素,粗糙集理論和模糊集理論不是互相排斥的,而是可以相互補(bǔ)的[4]。文中利用粗糙集誘導(dǎo)的模糊集,定義近似空間中集合間的粗相似度。

        在近似空間(U,R)中,X是一個(gè)粗糙集,映射

        滿足

        設(shè)U = {x1,x2,…,xn}

        在粗糙集中,集合的相似度定義為

        定義1 在近似空間(U,R)中,U={x1,x2,…,xn},?X?U,?Y?U,集合X與Y 的粗糙相似度為:

        定理1 在近似空間(U,R)中,? X,Y∈def(U,R),則有:

        證明:由定理X~R=X?X[4]可知:

        對(duì)于?X?U

        成立,可知:

        所以

        由集合的相似度r(X,Y)的定義可知,其取值范圍在0~1之間。當(dāng)r(X,Y)越接近1,兩集合越相似,當(dāng)r(X,Y)=1時(shí),兩集合相同。

        1.2 基于向量相似性的最大相異系數(shù)

        相似性函數(shù)是用函數(shù)的方法來(lái)表征兩向量相似的程度。一般向量的相似性函數(shù)有夾角余弦法、相關(guān)系數(shù)法、廣義Dice系數(shù)法、廣義Jaccard系數(shù)法等,這幾種方法都是在夾角余弦的基礎(chǔ)上演變而來(lái),在計(jì)算夾角余弦時(shí)或有難度或計(jì)算量較大[6]。為此,文中提出了最大相異系數(shù)方法。

        設(shè)X=(x1,x2,…,xn)為未知的待比較向量,Y=(y1,y2,…,yn)為確知向量,X 與Y 的相對(duì)誤差向量γ為:

        顯然,有可能存在某個(gè)γi的值過(guò)大或過(guò)小的情況,當(dāng)評(píng)價(jià)γ時(shí),過(guò)大或過(guò)小的γi可能導(dǎo)致相對(duì)誤差向量的部分?jǐn)?shù)據(jù)項(xiàng)的影響過(guò)大,使部分小值數(shù)據(jù)項(xiàng)的作用被忽略,從而嚴(yán)重影響相似度的精確度。根據(jù)保險(xiǎn)業(yè)務(wù)的二元選擇模型,保險(xiǎn)單項(xiàng)業(yè)務(wù)數(shù)據(jù)分為無(wú)效因子、弱顯著性因子和顯著因子3種[7]。因此忽略無(wú)效因子,提高計(jì)算效率,強(qiáng)調(diào)顯著因子,保證算法有效、準(zhǔn)確。

        定義2 對(duì)向量γ各位置賦權(quán)α={α1,α2,…,αn},把向量γ按數(shù)值降序排列得新向量:

        其中,γi>γj,當(dāng)i<j時(shí),取出向量γ′的前m個(gè)值組成新向量η,η=(ηi1,ηi2,…,ηik),則定義向量X與向量Y的相異系數(shù)為:

        最相異系數(shù)δy的取值范圍為[0,∞),δy越小則兩向量越相近,當(dāng)且僅當(dāng)δy=0時(shí),兩向量完全相同。顯然δy是γ的前n個(gè)較大數(shù)據(jù)項(xiàng)的加權(quán)平均值,被忽略的數(shù)據(jù)項(xiàng)相對(duì)誤差小,對(duì)判決過(guò)程影響較小,甚至可以忽略,同時(shí),由于各項(xiàng)權(quán)值不同,越大的相對(duì)誤差給定的權(quán)值越大,有效突出了其對(duì)判決的影響,同時(shí)位置權(quán)值αi強(qiáng)調(diào)了數(shù)據(jù)項(xiàng)本身的價(jià)值,δy突出了業(yè)務(wù)上的意義。

        1.3 基于相似度的兩階段聚類算法步驟

        算法分兩階段進(jìn)行,第一階段以集合相似性為判定標(biāo)準(zhǔn),按聚類算法把數(shù)據(jù)分為不同的子類簇,目的是將相同或相近的業(yè)務(wù)歸到同一類簇;度量向量最大相異系數(shù)為判定標(biāo)準(zhǔn),當(dāng)系數(shù)閥值過(guò)小時(shí),可能產(chǎn)生較多的族類;第二階段以向量相異系數(shù)為判定標(biāo)準(zhǔn),將上階段產(chǎn)生的類簇進(jìn)一步分類,目的是把同一類簇中的可疑業(yè)務(wù)分離出來(lái)。算法的具體步驟如下:

        1)由專家指定各項(xiàng)業(yè)務(wù)的各個(gè)特點(diǎn)的典型實(shí)例作為初始族類Y={Y1,Y2,…,Yn};

        2)任取x∈U,令X={x},如果r(X,Yi)<Δ1,則Yi=Y(jié)i∪{x},否則令Y={Y1,Y2,…,Yn)∪{Yn+1},其中Yn+1={x};

        3)重復(fù)2),得Y={Y1,Y2,…,Yn,Yn+1,…,Yn+k};

        4)?Yj={x1,x2,…,xl}∈Y,n+k≥j≥1,令j=1;

        5)?xi1,xi2∈Yj,令Yn+k+1={xi1},如果δx2<Δ2,則令Yn+k+1=Y(jié)n+k+1∪{xi2};

        6)重復(fù)5),直到Y(jié)j所有的向量處理完畢,刪除Yj;

        7)重復(fù)4),5),直到j(luò)=n+k;

        8)輸出Y中元素個(gè)數(shù)小于指定數(shù)量的類簇。

        2 實(shí)驗(yàn)分析

        實(shí)驗(yàn)采用的數(shù)據(jù)來(lái)自泰安某保險(xiǎn)公司的客戶投保信息數(shù)據(jù)庫(kù)。投保信息分為12個(gè)大類,含73個(gè)子類,所有近3年的近1萬(wàn)多條記錄。由該公司理賠部專家指定73條業(yè)務(wù)記錄作初始族類,把每個(gè)子類的數(shù)據(jù)項(xiàng)劃分出無(wú)效因子、弱顯著性因子和顯著因子3部分,為每個(gè)子類指定Δ的值。采用的對(duì)比算法為欺詐識(shí)別聚類算法[8]和3-Sigma(3tr)統(tǒng)計(jì)檢測(cè)法。

        下面分別給出3種算法得到的孤立點(diǎn)搜索結(jié)果見(jiàn)表1。

        表1 文中算法、欺詐識(shí)別聚類算法和3-Sigma搜索孤立點(diǎn)對(duì)比表

        其中,文中算法設(shè)置的閥值Δ1=0.083,Δ2=0.041,欺詐識(shí)別聚類算法的閥值為0.1(原文指出為最佳參數(shù))。

        從實(shí)驗(yàn)可以看出,文中算法搜索到保險(xiǎn)欺詐數(shù)量比另兩種算法多,通過(guò)與該保險(xiǎn)公司合作對(duì)算法發(fā)現(xiàn)的部分保戶進(jìn)一步核實(shí),確實(shí)發(fā)現(xiàn)了其中部分保戶存在欺詐行為而沒(méi)有被發(fā)現(xiàn),文中算法的欺詐發(fā)現(xiàn)算法效果較好。

        3種算法的執(zhí)行時(shí)間比較如圖1所示。

        由圖1可知,當(dāng)數(shù)據(jù)量較小時(shí),文中算法在執(zhí)行時(shí)間上消耗較大,而當(dāng)數(shù)據(jù)量增大時(shí),3種算法逐步接近,當(dāng)數(shù)據(jù)量達(dá)到一定規(guī)模時(shí),3-Sigma算法的時(shí)間消耗遠(yuǎn)超其它兩種,而文中算法也快速接近欺詐識(shí)別聚類算法。

        3 結(jié) 語(yǔ)

        針對(duì)保險(xiǎn)業(yè)近年來(lái)不斷上升的欺詐行為進(jìn)行了深入研究,在前人研究的基礎(chǔ)上,推導(dǎo)出了基于粗糙集的模糊集合相似性度量公式以提高聚類效果,改進(jìn)了向量相似性判斷方法最大相異系數(shù),提高了算法執(zhí)行效率,文中提出了基于聚類算法的兩階段孤立點(diǎn)發(fā)現(xiàn)算法,并應(yīng)用到保險(xiǎn)企業(yè)欺詐發(fā)現(xiàn)問(wèn)題中,經(jīng)一定規(guī)模數(shù)據(jù)量的試驗(yàn)驗(yàn)證了文中算法的有效性和可行性,識(shí)別效果表現(xiàn)良好。文中算法的缺點(diǎn)是參數(shù)設(shè)定和聚類初始值是由專家指定,使之通用性受到很大影響,需要進(jìn)一步改進(jìn)。

        [1]葉明華.我國(guó)機(jī)動(dòng)車保險(xiǎn)欺詐識(shí)別的因子分析[J].華東經(jīng)濟(jì)管理,2010,24(2):84-86.

        [2]陳亮.基于混合蛙跳算法的背包問(wèn)題求解算法[J].河南城建學(xué)院學(xué)報(bào),2011,20(3):41-44.

        [3]趙麗霞.個(gè)體風(fēng)險(xiǎn)模型中總索賠分布函數(shù)的估值問(wèn)題[J].長(zhǎng)春工業(yè)大學(xué)學(xué)報(bào):自然科學(xué)版,2011,32(2):191-194.

        [4]吳瑞,寧玉富,郭長(zhǎng)友.基于模糊粗糙近似的web瀏覽模式的聚類[J].系統(tǒng)工程學(xué)報(bào),2010,25(1):132-137.

        [5]仲兆滿.基于相似度的粗糙集近似算子快速求解[J].小型微型計(jì)算機(jī)系統(tǒng),2010,31(1):251-252.

        [6]張宇.向量相似度測(cè)度方法[J].火控雷達(dá)技術(shù),2009,28(4):78-81.

        [7]葉明華.我國(guó)機(jī)動(dòng)車保險(xiǎn)欺詐識(shí)別的因子分析[J].華東經(jīng)濟(jì)管理,2010,24(2):84-86.

        [8]Rekha Bhowmik.Detecting auto insurance fraud by data mining techniques[J].Journal of Emerging Trends in Computing and Information Sciences,2011,2(4):371-377.

        猜你喜歡
        數(shù)據(jù)項(xiàng)粗糙集欺詐
        關(guān)于假冒網(wǎng)站及欺詐行為的識(shí)別
        關(guān)于假冒網(wǎng)站及欺詐行為的識(shí)別
        基于Pawlak粗糙集模型的集合運(yùn)算關(guān)系
        一種多功能抽簽選擇器軟件系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)
        甘肅科技(2020年19期)2020-03-11 09:42:42
        非完整數(shù)據(jù)庫(kù)Skyline-join查詢*
        警惕國(guó)際貿(mào)易欺詐
        基于Python的Asterix Cat 021數(shù)據(jù)格式解析分析與實(shí)現(xiàn)
        多粒化粗糙集性質(zhì)的幾個(gè)充分條件
        雙論域粗糙集在故障診斷中的應(yīng)用
        網(wǎng)購(gòu)遭欺詐 維權(quán)有種法
        亚洲无码精品免费片| 亚洲乱码中文在线观看| 亚洲av综合色区| 亚洲一区二区三区av无| 国产大屁股熟女流白浆一区二区| 亚洲精品视频在线一区二区| a级毛片无码久久精品免费| 久久久噜噜噜www成人网| 国产中文制服丝袜另类| 在线免费观看亚洲毛片| 国产在线视频91九色| 亚洲情综合五月天| 亚洲精品欧美二区三区中文字幕| 丁香综合网| 久久精品中文字幕亚洲| 亚洲国产精品国自产拍性色| 久久亚洲av无码西西人体| 亚洲精品中文字幕无乱码麻豆| 亚洲国产精品国自产拍av在线| 亚洲av天堂在线免费观看| 亚洲av乱码一区二区三区林ゆな | 中文无码一区二区不卡av| 北条麻妃毛片在线视频| 国产高跟丝袜在线诱惑| 变态另类手机版av天堂看网| 帅小伙自慰videogay男男| 少妇白浆高潮无码免费区| 亚洲国产日韩欧美高清片a| 中文天堂一区二区三区| 亚洲第一页视频在线观看| 欧美成人看片一区二区三区尤物| 无码视频一区二区三区在线观看| 国产高清女人对白av在在线| 国产精品三级在线不卡| 色熟妇人妻久久中文字幕| 婷婷丁香五月激情综合| 亚洲综合区图片小说区| 亚洲视频天堂| 日本大片在线一区二区三区| 日本亲近相奷中文字幕| 亚洲一区二区三区播放|