亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        三種不同監(jiān)督方法的離群值檢測(cè)在欺詐交易上的比較

        2015-02-05 07:59:12佘玉萍陳淑清
        關(guān)鍵詞:精確度監(jiān)督檢測(cè)

        佘玉萍,陳淑清

        (莆田學(xué)院信息工程學(xué)院,福建莆田351100)

        0 引言

        國(guó)內(nèi)外有眾多的學(xué)者、專(zhuān)家還有企業(yè)的研究機(jī)構(gòu)在各自的應(yīng)用領(lǐng)域?qū)ζ墼p檢測(cè)技術(shù)進(jìn)行了大量的研究與實(shí)踐,也取得了不少的成果。在國(guó)內(nèi),文獻(xiàn)[1]在分析信用卡欺詐風(fēng)險(xiǎn)成因和識(shí)別防范策略的基礎(chǔ)上,介紹了支持向量機(jī)和決策樹(shù)這兩種算法來(lái)進(jìn)行實(shí)證研究。欺詐檢測(cè)的應(yīng)用還普遍應(yīng)用于審計(jì)[2]、金融[3]和報(bào)稅[4]等領(lǐng)域。從欺詐檢測(cè)算法來(lái)看,主要用到了決策樹(shù)、支持向量機(jī)[5]、神經(jīng)網(wǎng)絡(luò)[6]。因而目前國(guó)內(nèi)對(duì)異常檢測(cè)方法的研究[7]主要集中于無(wú)監(jiān)督學(xué)習(xí)框架和一些利用極少數(shù)有標(biāo)號(hào)異常樣本的監(jiān)督學(xué)習(xí)方法。在國(guó)外,2002年Bolton等[8]對(duì)金融欺詐分析領(lǐng)域的統(tǒng)計(jì)方法進(jìn)行了回顧,探討了監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)方法該領(lǐng)域的應(yīng)用,然而其設(shè)計(jì)的監(jiān)督學(xué)習(xí)方法并未考慮到異常檢測(cè)中存在的類(lèi)別分布不平衡。CHANDOLA[9]研究深度挖掘異常產(chǎn)生的原因,并對(duì)異常檢測(cè)的應(yīng)用場(chǎng)景繼續(xù)進(jìn)行了廣泛分析,但其依然按異常檢測(cè)原理方法進(jìn)行分類(lèi),而未能在半監(jiān)督學(xué)習(xí)方面深入探討。因此,本文以某公司的銷(xiāo)售數(shù)據(jù)為例,分別使用無(wú)監(jiān)督、監(jiān)督和半監(jiān)督的方法分別來(lái)進(jìn)行較為全面的建模分析,為欺詐交易檢測(cè)提供更好的指導(dǎo)。

        本文以某公司的銷(xiāo)售交易數(shù)據(jù)為測(cè)試數(shù)據(jù),數(shù)據(jù)共計(jì)401146行,每一行記錄包括來(lái)自銷(xiāo)售員報(bào)告的信息。這些信息包括銷(xiāo)售員的編號(hào)(ID)、產(chǎn)品編號(hào)(Prod)、銷(xiāo)售員所報(bào)告的銷(xiāo)售數(shù)量(Quant)、總價(jià)值(Val)和公司對(duì)交易的檢查結(jié)果(Insp)。其中數(shù)據(jù)的各變量名與含義如表1所示。有些交易被懷疑為欺詐交易,主要目的是運(yùn)用數(shù)據(jù)挖掘工具,為確定是否核查這些提供指導(dǎo)。

        表1 樣本數(shù)據(jù)的變量及其含義

        數(shù)據(jù)集中有一列(Insp)含有先前檢驗(yàn)活動(dòng)的信息。其中g(shù)o rhf 14462條記錄標(biāo)記為ok,1270條標(biāo)記為fraud,385414條標(biāo)記為unkn。從已有數(shù)據(jù)顯示還有96%的數(shù)據(jù)集沒(méi)標(biāo)記(unkn),它們還沒(méi)有被檢驗(yàn),而只有較小的數(shù)據(jù)集(大約4%)是有標(biāo)記的,它們有交易的特征描述和檢驗(yàn)結(jié)果。在這種情況下,本文嘗試使用不同監(jiān)督技術(shù)下的建模方法。

        1 建模方法

        從確定已有報(bào)告是否為欺詐的任務(wù)角度來(lái)看,這是一個(gè)描述性的數(shù)據(jù)挖掘任務(wù)。聚類(lèi)分析是描述性數(shù)據(jù)挖掘的一個(gè)列子,聚類(lèi)方法試圖對(duì)一組觀測(cè)值形成多個(gè)聚類(lèi),同一個(gè)聚類(lèi)內(nèi)的個(gè)案相似。相似性通常要求由描述觀測(cè)值的變量所定義的空間給出一個(gè)距離定義。距離是衡量一個(gè)觀測(cè)值與其他觀測(cè)值之間距離的函數(shù)。距離靠近的個(gè)案通常認(rèn)為屬于同一組。離群值檢測(cè)也是描述性的數(shù)據(jù)挖掘任務(wù)。有些離群值檢測(cè)方法假定數(shù)據(jù)的預(yù)期分布,把背離這一分布的任何值標(biāo)記為離群值。另一個(gè)常見(jiàn)的離群值檢測(cè)策略是假定一個(gè)變量空間的距離度量,然后把距離其他觀測(cè)值“太遠(yuǎn)”的觀測(cè)值標(biāo)記為離群觀測(cè)值。本文分別從機(jī)器學(xué)習(xí)的三種不同技術(shù)對(duì)應(yīng)的三種模型來(lái)對(duì)同一組交易數(shù)據(jù)進(jìn)行離群值檢測(cè)。

        1.1 無(wú)監(jiān)督學(xué)習(xí)技術(shù)

        基于聚類(lèi)的離群值排名(Clustering-Based Outlier Rankings,ORh)方法[10]采用分層聚類(lèi)法獲得一個(gè)給定數(shù)據(jù)集的聚類(lèi)樹(shù)。主要的思想是:以聚類(lèi)樹(shù)的信息為基礎(chǔ)進(jìn)行離群值的排序。離群值不易于合并,因此當(dāng)它們最終被合并時(shí),它們合并前所屬類(lèi)的大小和它們被合并進(jìn)去的類(lèi)的大小應(yīng)該相差很大。這也反映了離群值和其他觀測(cè)值是很不相同的。少數(shù)情況下,離群值與其他觀測(cè)值的合并發(fā)生在初始階段,但這只限于類(lèi)似的離群值,否則離群值的合并會(huì)在聚類(lèi)過(guò)程的后期合并。這種方法使用下面方法來(lái)計(jì)算每一個(gè)個(gè)案的離群值分?jǐn)?shù)。

        1)對(duì)于每一個(gè)合并兩個(gè)組(gx,i和gy,i)的第i步,得到離群因子值of(outlying factor)為:

        其中g(shù)x,i是x所屬的組,而|gx,i|是該組的大小。因?yàn)楦信d趣的是較小的組,所以參與合并的兩個(gè)組中較大組的成員離群值分?jǐn)?shù)將被賦為0。在分層聚類(lèi)算法的整個(gè)迭代過(guò)程中,每個(gè)觀測(cè)值可以參與多個(gè)合并過(guò)程,有時(shí)是較大組的成員,有時(shí)是較小組的成員。

        2)數(shù)據(jù)集的每個(gè)個(gè)案的最終離群值分?jǐn)?shù)由下面的公式算出:

        得到的實(shí)驗(yàn)結(jié)果是基于預(yù)先定義的檢驗(yàn)限制值為10%來(lái)計(jì)算決策精確度和回溯精確度。以下兩組模型的實(shí)驗(yàn)前提條件與此相同。

        1.2 監(jiān)督學(xué)習(xí)技術(shù)

        AdaBoost.M1[11]是屬于監(jiān)督學(xué)習(xí)的一種算法,每個(gè)用來(lái)訓(xùn)練的樣本被賦予一個(gè)權(quán)重,權(quán)重的大小代表了該樣本被下一個(gè)弱分類(lèi)器列入訓(xùn)練樣本集的概率。首先考慮一個(gè)二分類(lèi)問(wèn)題,并假設(shè)訓(xùn)練樣本集為:S={(x1,y1),…,(xm,ym)},其中 xi屬于實(shí)例空間 X,有 xi∈X;yi是類(lèi)別標(biāo)志,yi屬于類(lèi)別空間 Y,有 yi∈Y∈{+1,-1}。初始化時(shí)對(duì)所有的訓(xùn)練樣本賦予相同的觀測(cè)權(quán)重1/m。然后,使用弱分類(lèi)器對(duì)訓(xùn)練集進(jìn)行訓(xùn)練,每次訓(xùn)練后,根據(jù)訓(xùn)練結(jié)果更新訓(xùn)練樣本的觀測(cè)權(quán)重,并按照新的權(quán)重分別進(jìn)行訓(xùn)練。反復(fù)迭代T次,最終獲得一組弱分類(lèi)器序列h1,…,hT,每個(gè)弱分類(lèi)器都具有一定的權(quán)重,分類(lèi)效果好的弱分類(lèi)器觀測(cè)權(quán)重較大,反之較小。最后,通過(guò)加權(quán)的方法合并全部弱分類(lèi)器,進(jìn)而生成最終的強(qiáng)分類(lèi)器H。Ada Boost.M1算法有很多優(yōu)點(diǎn),首先簡(jiǎn)單易用,除了迭代次數(shù)T以外,不需要調(diào)節(jié)任何參數(shù);其次,尋找一個(gè)精度比隨機(jī)預(yù)測(cè)略高的弱學(xué)習(xí)算法比尋找一個(gè)高精度的強(qiáng)學(xué)習(xí)算法要容易得多;最后,它具有理論支持,只要有足夠的數(shù)據(jù)以及弱分類(lèi)器就能夠達(dá)到任意預(yù)測(cè)精度。

        從實(shí)驗(yàn)結(jié)果看出,在10%的檢驗(yàn)水平下,標(biāo)準(zhǔn)的Ada Boost.M1比ORh有較高的決策精確度和回溯精確度。

        1.3 半監(jiān)督學(xué)習(xí)技術(shù)

        自我訓(xùn)練模型[12]是一個(gè)眾所周知的半監(jiān)督分類(lèi)形式。該方法先用給定標(biāo)記的個(gè)案來(lái)建立一個(gè)初始的分類(lèi)器。然后應(yīng)用這個(gè)分類(lèi)器來(lái)預(yù)測(cè)給定訓(xùn)練集中未標(biāo)記的個(gè)案。將分類(lèi)器中有較高置信度的預(yù)測(cè)標(biāo)簽對(duì)應(yīng)的個(gè)案和預(yù)測(cè)的標(biāo)簽一起加入到有標(biāo)記的數(shù)據(jù)集中。在這個(gè)新的數(shù)據(jù)集上得到一個(gè)新的分類(lèi)器,繼續(xù)重復(fù)這個(gè)過(guò)程,直到達(dá)到某個(gè)收斂準(zhǔn)則時(shí)迭代過(guò)程才停止。只要能輸出預(yù)測(cè)的置信度信息,那么基本分類(lèi)算法都可運(yùn)用該方法。本文采用AdaBoost.M1模型作為訓(xùn)練模型來(lái)完成實(shí)驗(yàn)測(cè)試。

        從實(shí)驗(yàn)結(jié)果看出,在10%的檢驗(yàn)水平下,自我訓(xùn)練的Ada Boost.M1模型(Ada Boost.M1-ST)比標(biāo)準(zhǔn)的Ada Boost.M1和ORh均有較高的決策精確度和回溯精確度。

        2 評(píng)價(jià)模型的準(zhǔn)則及結(jié)果分析

        當(dāng)給出檢測(cè)報(bào)告的一個(gè)測(cè)試集時(shí),每個(gè)模型將會(huì)產(chǎn)生排序,如何評(píng)價(jià)這些排序。當(dāng)目標(biāo)是預(yù)測(cè)一個(gè)小集合的罕見(jiàn)事件(如欺詐)時(shí),決策精確度和回溯精確度[13]是合適的評(píng)價(jià)指標(biāo)。而決策精確度和回溯精確度曲線(Precision/Recall Curve)是對(duì)這兩者的一種可視化表示。對(duì)于不同的限制水平(即檢測(cè)更少或更多的報(bào)告)進(jìn)行迭代,得到不同的決策精確度和回溯精確度。某些模型給出測(cè)試集中每一個(gè)觀測(cè)值的離群值排序分?jǐn)?shù),這些分?jǐn)?shù)的取值范圍為0~1。分?jǐn)?shù)越高,說(shuō)明這個(gè)觀測(cè)值是欺詐交易的模型置信度就越高。如圖1所示。

        評(píng)價(jià)模型的另一準(zhǔn)則是根據(jù)陽(yáng)性預(yù)測(cè)率(RPP,Rate of positive predicitions)所捕獲的檢驗(yàn)限制得到的回溯精確度[13],對(duì)應(yīng)的曲線為累積回溯精確度圖(Cumulative Recall Curve)。對(duì)于累積回溯精確度圖而言,模型的曲線越靠近左上角,模型越好。如圖2所示。

        圖1 標(biāo)準(zhǔn)的Ada Boost.M 1模型、ORh模型和自我訓(xùn)練的Ada Boost.M 1模型的CR曲線

        圖2 標(biāo)準(zhǔn)的AdaBoost.M 1模型、ORh模型和自我訓(xùn)練的AdaBoost.M 1模型的PR曲線

        從圖1的實(shí)驗(yàn)結(jié)果可以看出,在欺詐交易檢測(cè)問(wèn)題的三種模型中,CR曲線確認(rèn)了自我訓(xùn)練的AdaBoost.M1模型(AdaBoost.M1-ST)是最好的模型。尤其是在檢驗(yàn)限值水平在15%至20%時(shí),明顯要優(yōu)于其他的模型。但就決策精度(PR曲線)而言,對(duì)低水平的回溯精確度值,這個(gè)模型的分?jǐn)?shù)不是那么理想,甚至比Ada-Boost.M1模型和ORh模型都要差,然而對(duì)于較高的回溯精確度值,該模型就體現(xiàn)出它的優(yōu)勢(shì)。這里較高的回溯精確度水平恰恰是銷(xiāo)售欺詐檢測(cè)應(yīng)用所需要的??傊瑢?duì)銷(xiāo)售數(shù)據(jù)的欺詐檢測(cè)這個(gè)應(yīng)用而言,Ada-Boost.M1-ST模型是一個(gè)很有競(jìng)爭(zhēng)力的模型。

        3 結(jié)語(yǔ)

        離群值檢測(cè)研究是一個(gè)非常有應(yīng)用價(jià)值的問(wèn)題,近年來(lái)受到越來(lái)越多的討論與關(guān)注,但由于離群值的相對(duì)性和主觀性。在不同應(yīng)用的海量數(shù)據(jù)中挖掘離群值是相當(dāng)復(fù)雜的,至今沒(méi)有高效且通用的方法來(lái)檢測(cè)離群值。本文主要從機(jī)器學(xué)習(xí)的三種不同技術(shù)出發(fā),分別從對(duì)應(yīng)的三種模型來(lái)應(yīng)用于銷(xiāo)售數(shù)據(jù)中欺詐交易的檢測(cè),并從實(shí)驗(yàn)數(shù)據(jù)來(lái)分析這三種模型的檢測(cè)性能,對(duì)這類(lèi)問(wèn)題具有一定的指導(dǎo)性。但對(duì)于其他領(lǐng)域的應(yīng)用還缺乏實(shí)驗(yàn)驗(yàn)證,所以暫且不具備所有應(yīng)用的普遍指導(dǎo)意義。

        [1] 吳婷.數(shù)據(jù)挖掘在信用卡欺詐識(shí)別上的應(yīng)用研究[D].南京:東南大學(xué),2006.

        [2] 黃曉輝,張四海,王煦法.基于免疫網(wǎng)絡(luò)的分類(lèi)應(yīng)用于審計(jì)欺詐檢測(cè)[J].計(jì)算機(jī)工程與應(yīng)用,2005(29):204-207.

        [3] 曹長(zhǎng)修,王 越.KDD方法在金融欺詐檢測(cè)中的應(yīng)用研究[J].計(jì)算機(jī)工程與設(shè)計(jì),2002,23(5):43-45.

        [4] 王世衛(wèi),李?lèi)?ài)國(guó),郭媛媛等.基于SGNN的報(bào)稅欺詐檢測(cè)[J].西安科技大學(xué)學(xué)報(bào),2004,24(4):470-473.

        [5] 徐永華.基于支持向量機(jī)的信用卡欺詐檢測(cè)[J].計(jì)算機(jī)仿真,2008,28(8):376-379.

        [6] 凌晨添.進(jìn)化神經(jīng)網(wǎng)絡(luò)在信用卡欺詐檢測(cè)中的應(yīng)用[J].微電子學(xué)與計(jì)算機(jī),2011,28(10):14-17.

        [7] 陳斌,陳松燦,潘志松,李斌.異常檢測(cè)綜述[J].山東大學(xué)學(xué)報(bào)(工學(xué)版),2009,39(6):13-23.

        [8] BOLTON R J,HAND D J.Statistcal fraud detection:a review[J].Statistical Science,2002,17(3):235-255.

        [9] CHANDOLA V,BANETJEE A,KUMRY V.Anomaly detection:a survey[J].ACM Computing Surveys,2009,41(3):1-58.

        [10] Torgo,L.Resource-bounded Fraud Detection[C]∥ in Progress in Artificial Intelligence,13th Portuguese Conference on Artificial Intelligence,EPIA,Neves et.al(eds.).LNAI,2007:449-460.

        [11] R.E.Schapire,Y.Singer.Improved boosting algorithms using confidencerated predictions[C].Machine Learning 37,1999:297-336.

        [12] Chuck Rosenberg,Martial Hebert,and Henry Schneider man.Semi-Supervised Self-Training of Object Detection Models[C]∥ Processings of the 7th IEEE Workshop on Application of Computer Vision.IEEE Computer Society,2005:29-36.

        [13] Davis,J.,Goadrich,M.The relationship between precision-recall and ROC curves[C]∥Proceedings of the 23rd International Conference on Machine learning.ICML ’06,New York,2006:233 –240.

        猜你喜歡
        精確度監(jiān)督檢測(cè)
        “不等式”檢測(cè)題
        “一元一次不等式”檢測(cè)題
        “一元一次不等式組”檢測(cè)題
        研究核心素養(yǎng)呈現(xiàn)特征提高復(fù)習(xí)教學(xué)精確度
        突出“四個(gè)注重” 預(yù)算監(jiān)督顯實(shí)效
        “硬核”定位系統(tǒng)入駐兗礦集團(tuán),精確度以厘米計(jì)算
        監(jiān)督見(jiàn)成效 舊貌換新顏
        夯實(shí)監(jiān)督之基
        小波變換在PCB缺陷檢測(cè)中的應(yīng)用
        監(jiān)督宜“補(bǔ)”不宜“比”
        浙江人大(2014年4期)2014-03-20 16:20:16
        欧美性猛交内射兽交老熟妇| 97se在线| 亚洲国产精品国语在线| 亚洲国产都市一区二区| 国产亚洲超级97免费视频| 窝窝午夜看片| 91麻豆国产香蕉久久精品| 中文字幕麻豆一区二区| 亚洲中文字幕乱码一二三| 欧美三级不卡在线观看| 久久精品亚洲乱码伦伦中文| 深夜福利国产| 亚洲视频在线观看第一页| 在教室伦流澡到高潮hgl动漫 | 精品人妻夜夜爽一区二区| 午夜视频国产在线观看| 大桥未久亚洲无av码在线| 无码一区二区三区AV免费换脸| 国产av一区二区内射| 国产精品久久久天天影视| 999久久久国产精品| 2021国产精品久久| 午夜一区二区三区福利视频| 色欲欲www成人网站| 无码国产激情在线观看| 人妻少妇中文字幕久久69堂| 一区二区三区在线少妇| 把女邻居弄到潮喷的性经历| 亚洲天堂成人在线| 亚洲色图偷拍自拍亚洲色图| 国产精品情侣呻吟对白视频| 越南女子杂交内射bbwbbw| 狠狠综合亚洲综合亚色| 国产丝袜长腿美臀在线观看| 天堂8在线天堂资源bt| 久久成年片色大黄全免费网站| 精品在线视频免费在线观看视频| 久久精品国产亚洲超碰av| 国产午夜精品一区二区三区不卡| 亚洲色拍拍噜噜噜最新网站 | 天天做天天爱夜夜爽毛片毛片 |