亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種混合的信用卡欺詐檢測模型

        2021-03-24 11:16:32毛銘澤
        電腦知識(shí)與技術(shù) 2021年2期
        關(guān)鍵詞:集成學(xué)習(xí)異常檢測多樣性

        毛銘澤

        摘要:信用卡欺詐檢測是一個(gè)重要的問題,為了提升對(duì)于真實(shí)世界的信用卡欺詐數(shù)據(jù)的識(shí)別率,提出了一種混合的信用卡欺詐檢測模型AWFD(Anomaly weight of credit card fraud detection),首先通過異常檢測的方法將數(shù)據(jù)劃分為可信和異常數(shù)據(jù),然后利用半監(jiān)督的方法訓(xùn)練一個(gè)集成模型,最終再利用異常檢測進(jìn)一步剔除檢測結(jié)果中的異常結(jié)果。AWFD在保障對(duì)于可信數(shù)據(jù)的學(xué)習(xí)效果上,通過半監(jiān)督集成學(xué)習(xí)的方法,利用異常數(shù)據(jù)進(jìn)一步擴(kuò)充集成模型的多樣性,并將異常檢測和集成模型融合。實(shí)驗(yàn)結(jié)果表明,比起一些傳統(tǒng)的機(jī)器學(xué)習(xí)方法,AWFD可以提高整體的信用卡欺詐檢測的識(shí)別率。

        關(guān)鍵詞:信用卡欺詐檢測;異常檢測;半監(jiān)督;集成學(xué)習(xí);多樣性

        中圖分類號(hào): TP311? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A

        文章編號(hào):1009-3044(2021)02-0194-03

        Abstract:Credit card fraud detection is a serious problem. In order to improve the recognition rate of real-world credit card fraud data, a hybrid credit card fraud detection model AWFD (Anomaly weight of credit card fraud detection) is proposed. Firstly, the data is divided into trusted and abnormal data by anomaly detection method, and then an ensemble model is trained by semi- supervised method. Finally, anomaly detection is used to further eliminate the abnormal results in the detection results. On the basis of guaranteeing the learning effect of trusted data, AWFD uses the abnormal data to further expand the diversity of the ensemble model by semi-supervised ensemble learning method, and integrates the anomaly detection and the ensemble model. The experimental results show that AWFD can improve the overall recognition rate of credit card fraud detection compared with some traditional machine learning methods.

        Key words:credit card fraud detection; anomaly detection; semi-supervised; ensemble learning; diversity

        由于社會(huì)的不斷發(fā)展,人的消費(fèi)需求也在不斷上升,隨之而來的支付手段的改變,導(dǎo)致信用卡欺詐問題日趨嚴(yán)重,每年會(huì)導(dǎo)致數(shù)十億美元的損失[1],因此對(duì)于信用卡欺詐檢測問題的研究也受到了廣泛的關(guān)注[5-6],有許多學(xué)者從不同的角度研究這一問題,例如:有從數(shù)據(jù)不均衡角度研究采樣問題的[2],有從模型融合角度研究的[1],也有從特征工程角度研究該問題的[3-10]。使用的算法也是多種多樣,例如:隨機(jī)森林Random Forest(RF)[4],Adaboost(ADB)[1]等。

        除了以上這些常見問題之外,實(shí)際取得的標(biāo)注訓(xùn)練數(shù)據(jù)中,可能會(huì)存在異常噪音數(shù)據(jù),也就是指,在標(biāo)注為欺詐樣本的數(shù)據(jù)中,會(huì)存在一些實(shí)際不是欺詐的樣本或是不處于數(shù)據(jù)空間分布密度較高區(qū)域的一些噪音樣本,首先通過異常檢測的方法,將這些異常噪音樣本從訓(xùn)練集中篩選出來,同時(shí)為了避免丟失數(shù)據(jù)樣本信息以及利用這部分?jǐn)?shù)據(jù)擴(kuò)大訓(xùn)練的數(shù)據(jù)空間,將其標(biāo)簽信息去除,劃分為無標(biāo)簽樣本以供后續(xù)模型學(xué)習(xí)使用。為了保障模型在標(biāo)注數(shù)據(jù)學(xué)習(xí)效果的基礎(chǔ)上,進(jìn)一步提升泛化效果,對(duì)使用的半監(jiān)督學(xué)習(xí)算法進(jìn)行改進(jìn),引入了異常檢測對(duì)無標(biāo)簽數(shù)據(jù)的異常值打分,將其視為數(shù)據(jù)點(diǎn)的權(quán)重,以此體現(xiàn)不同權(quán)重的數(shù)據(jù)點(diǎn),對(duì)于學(xué)習(xí)器多樣性影響大小的不同。

        本文主要工作如下:

        ① 利用一種異常檢測算法來篩選異常訓(xùn)練樣本,將其視為無標(biāo)簽數(shù)據(jù),擴(kuò)充樣本空間;

        ② 改進(jìn)了一種半監(jiān)督集成算法以適應(yīng)混合檢測模型;

        ③ 結(jié)合以上兩點(diǎn),提出了一種混合的信用卡欺詐檢測模型AWFD(Anomaly weight of credit card fraud detection)。

        本文第1節(jié)介紹詳細(xì)的算法模型及所做的改進(jìn),第2節(jié)介紹實(shí)驗(yàn)設(shè)置及結(jié)果分析,第3節(jié)為結(jié)論部分。

        1? 算法模型

        1.1 iForest(isolation forest)

        iForest(isolation forest)孤立森林[7-8]是一個(gè)基于樹集成的異常檢測模型,該算法認(rèn)為異常是容易被孤立的點(diǎn),也就是在數(shù)據(jù)空間下,分布稀疏的且密度低的區(qū)域里的數(shù)據(jù)點(diǎn)。iForest是一種基于特征劃分且訓(xùn)練過程無須標(biāo)注的異常檢測模型,通過特征劃分來構(gòu)建多棵二叉樹iTree,并集成來起到數(shù)據(jù)空間劃分的效果,每棵iTree的劃分構(gòu)建步驟大致為:

        ① 對(duì)訓(xùn)練樣本進(jìn)行隨機(jī)子采樣;

        ② 隨機(jī)選擇一個(gè)特征,在該特征的最大值和最小值之間,隨機(jī)選擇一個(gè)值,小于該值的樣本劃分到左子樹,剩下的樣本劃分到右子樹;

        ③ 繼續(xù)遞歸執(zhí)行 ② ,直到節(jié)點(diǎn)只有一個(gè)數(shù)據(jù)樣本,或者樹高達(dá)到限制高度。

        iForest在對(duì)數(shù)據(jù)點(diǎn)進(jìn)行異常檢測時(shí),會(huì)按照iTree的特征劃分標(biāo)準(zhǔn)將數(shù)據(jù)點(diǎn)劃分到某個(gè)節(jié)點(diǎn)中,并記下該節(jié)點(diǎn)高度,然后將所有的iTree的劃分結(jié)果平均,作為iForest模型對(duì)該數(shù)據(jù)點(diǎn)的預(yù)測值。由于在數(shù)據(jù)空間下,處于分布密度高區(qū)域的樣本點(diǎn),不容易被劃分開,因此在iTree中的高度也相對(duì)處于分布稀疏區(qū)域的樣本點(diǎn)要高,所以iForest預(yù)測值越低,就越可能是異常點(diǎn)。同時(shí)iForest在解決高維空間問題中也有很好的效果。

        1.2 UDEED(Unlabeled Data to Enhance Ensemble Diversity)

        UDEED是一種半監(jiān)督集成學(xué)習(xí)分類方法[9],該算法的目的是先利用標(biāo)簽數(shù)據(jù)構(gòu)建多個(gè)基學(xué)習(xí)器,然后通過無標(biāo)簽數(shù)據(jù)來提高基學(xué)習(xí)器的多樣性,以此提升模型的泛化性能,取得更好的分類效果。基學(xué)習(xí)器采用LOR(Logistic Regression)邏輯回歸的UDEED的實(shí)現(xiàn)步驟為:

        1.3 AWFD(Anomaly weight of credit card fraud detection)

        在AWFD中,首先依據(jù)標(biāo)注將訓(xùn)練數(shù)據(jù)劃分為欺詐樣本和非欺詐樣本,考慮到在標(biāo)注為欺詐的樣本可能會(huì)出現(xiàn)非欺詐樣本或是在非欺詐樣本中可能會(huì)出現(xiàn)欺詐樣本這一現(xiàn)象,為了將這些異常樣本挑選出來,分別構(gòu)建兩個(gè)iForest模型對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行劃分,將其劃分為標(biāo)簽數(shù)據(jù)集[L]和異常數(shù)據(jù)樣本并輸出異常數(shù)據(jù)樣本的異常值[α],其中異常數(shù)據(jù)樣本被視為無標(biāo)簽數(shù)據(jù)樣本[U]。

        由于篩選的無標(biāo)簽數(shù)據(jù)樣本的異常值都不一樣,考慮到每個(gè)數(shù)據(jù)樣本被置信為異常樣本的概率不同,因此通過修改原始的UDEED算法的多樣性損失一項(xiàng),來體現(xiàn)這一點(diǎn),[Vdivf,U,α=2mm-1?p=1m-1 q=p+1m dfp,fq,U,α,dfp,fq,U,α=1|U|i=1|L| αifp(xi)fq(xi)],也就是將UDEED的損失函數(shù)修改為[V(f,L,U)=Vemp(f,L)+γ?Vdiv(f,U,α)],通過對(duì)[V(f,L,U)]做梯度下降,來優(yōu)化基學(xué)習(xí)器的參數(shù),通過這一修改,在參數(shù)的更新過程中,體現(xiàn)iForest對(duì)異常樣本的異常值的判斷。完整的算法訓(xùn)練和預(yù)測流程見圖1。

        從AWFD預(yù)測的流程圖中,可以看到,通過改進(jìn)后的UDEED對(duì)新樣本進(jìn)行預(yù)測之后,又通過iForest對(duì)該樣本進(jìn)行了兜底預(yù)測,這里的iForest是根據(jù)僅含欺詐樣本的訓(xùn)練集訓(xùn)練得到的,也就是最初進(jìn)行異常樣本篩選時(shí),訓(xùn)練生成的其中一個(gè)iForest模型,因此這一步?jīng)]有額外的訓(xùn)練開銷,直接復(fù)用已經(jīng)訓(xùn)練好的模型,同時(shí)這一步的意義在于,對(duì)被UDEED預(yù)測為欺詐樣本的數(shù)據(jù)樣本進(jìn)一步判斷,是否為會(huì)在欺詐樣本中被視為異常,剔除一些誤報(bào)的樣本,提升模型的精確度。

        2? 實(shí)驗(yàn)

        2.1 數(shù)據(jù)集

        本實(shí)驗(yàn)采用的數(shù)據(jù)集大小為512w,其中欺詐樣本為14w,非欺詐樣本為498w,數(shù)據(jù)維度為9維,按照相同比例劃分100w訓(xùn)練樣本,其中欺詐樣本為3w,非欺詐樣本為97w,剩余的412w作為測試集,其中欺詐樣本為11w,非欺詐樣本為401w。

        2.2 實(shí)驗(yàn)指標(biāo)

        本實(shí)驗(yàn)采用多個(gè)指標(biāo)比較結(jié)果,分別為精確率precision,召回率recall,f1-score,準(zhǔn)確率acc,以及auc。對(duì)于二分類問題,將欺詐看作正例,非欺詐看作負(fù)例,從正例角度而言,各個(gè)指標(biāo)的含義如下:

        精確率表示在預(yù)測為本類中,實(shí)際為本類的數(shù)據(jù)樣本的占比,召回率表示在實(shí)際為本類,預(yù)測為本類的數(shù)據(jù)樣本的占比,f1-score則為兩者的調(diào)和平均,在本實(shí)驗(yàn)中,分別用各類別的平均值,來比較最終效果,公式如下:

        auc指標(biāo)則表示對(duì)于一個(gè)正例的數(shù)據(jù)樣本和一個(gè)負(fù)例的數(shù)據(jù)樣本,模型對(duì)正例樣本的預(yù)測值大于為模型對(duì)負(fù)例樣本的預(yù)測值的概率,而acc指標(biāo)就是預(yù)測正確的比例。

        2.3 實(shí)驗(yàn)結(jié)果

        實(shí)驗(yàn)結(jié)果對(duì)比,從表1中可以看到,對(duì)比于幾個(gè)傳統(tǒng)的機(jī)器學(xué)習(xí)算法,本文提出的融合檢測模型AWFD,在auc指標(biāo)和最好的結(jié)果差距在千分位以內(nèi)的情況下,其余指標(biāo)均大幅度提高,特別是在召回率指標(biāo)上,提升幅度較為明顯,可以體現(xiàn)AWFD對(duì)于欺詐樣本的召回效果比較好,同時(shí)AWFD對(duì)比UDEED而言,在保證了精確率的情況下,大幅度提高了召回率,相比之下,較好地識(shí)別出了欺詐數(shù)據(jù)樣本。

        3 結(jié)論

        本文提出的混合檢測模型AWFD,在區(qū)分訓(xùn)練集的可信和異常樣本后,利用可信樣本初始化模型,并利用異常樣本以及異常值,提高了模型的多樣性,進(jìn)一步增強(qiáng)了模型的泛化能力,最后復(fù)用異常檢測模型,在保障準(zhǔn)確率的基礎(chǔ)之上,取得了相對(duì)較好的信用卡欺詐檢測召回效果。

        參考文獻(xiàn):

        [1] K. Randhawa, C. K. Loo, M. Seera, C. P. Lim and A. K. Nandi, "Credit Card Fraud Detection Using AdaBoost and Majority Voting," in IEEE Access, vol. 6, pp. 14277-14284, 2018.

        [2] S. Akila, and R. Srinivasulu, "Parallel and incremental credit card fraud detection model to handle concept drift and data imbalance," Neural Computing and Applications 31, 2018, pp. 1-12.

        [3] X. Zhang, Y. Han, W. Xu, et al, "HOBA: A Novel Feature Engineering Methodology for Credit Card Fraud Detection with a Deep Learning Architecture," Information Sciences, 2019.

        [4] S. Xuan, G. Liu, Z. Li, L. Zheng, S. Wang and C. Jiang, "Random forest for credit card fraud detection," 2018 IEEE 15th International Conference on Networking, Sensing and Control (ICNSC), Zhuhai, pp. 1-6, 2018.

        [5] Z. K. Alkhateeb and A. T. Maolood, "Machine Learning-Based Detection of Credit Card Fraud: A Comparative Study," American journal of engineering and applied ences, vol. 12, no. 4, 535-542, 2019.

        [6] G. C. Alex, A. C. M. Pereira and G. L. Pappa, "A customized classification algorithm for credit card fraud detection," Engineering Applications of Artificial Intelligence 72,? 2018, pp. 21-29.

        [7] F. T. Liu, K. M. Ting and Z. Zhou, "Isolation Forest," 2008 Eighth IEEE International Conference on Data Mining, Pisa, pp. 413-422, 2008.

        [8] F. T. Liu, K. M. Ting and Z. Zhou, "Isolation-Based Anomaly Detection," Acm Transactions on Knowledge Discovery from Data, vol. 6, no. 1, pp. 1-39, 2012.

        [9] M. L. Zhang and Z. H. Zhou, "Exploiting Unlabeled Data to Enhance Ensemble Diversity," Data Mining & Knowledge Discovery, vol 26, no. 3, pp. 98-129, 2013.

        [10] C. B. Alejandro, A. Djamila, S. Aleksandar and O. Bjorn, "Feature engineering strategies for credit card fraud detection, " Expert Systems with Applications, 2016,51(1):134–142,.

        【通聯(lián)編輯:唐一東】

        猜你喜歡
        集成學(xué)習(xí)異常檢測多樣性
        基于稀疏編碼器與集成學(xué)習(xí)的文本分類
        基于屬性權(quán)重的Bagging回歸算法研究
        基于度分布的流量異常在線檢測方法研究
        無線Mesh網(wǎng)絡(luò)安全性研究
        新時(shí)期群文輔導(dǎo)工作的特征
        無線Mesh網(wǎng)絡(luò)基礎(chǔ)知識(shí)
        海洋微生物次生代謝的生物合成機(jī)制
        科技資訊(2016年19期)2016-11-15 10:39:12
        舞蹈表演的表現(xiàn)形式多樣性研究
        人間(2016年27期)2016-11-11 16:27:23
        水磨地區(qū)蕨類植物多樣性調(diào)查分析
        淺談燃?xì)廨啓C(jī)排氣溫度異常檢測及診斷
        国产成人免费a在线视频| 中文字幕人妻在线中字| 无码国产伦一区二区三区视频| 久久aⅴ无码av免费一区| 日日噜噜夜夜狠狠久久av| 中文字幕一区二三区麻豆| 国产乱对白刺激视频| 久久久久国产精品免费免费搜索| 免费在线观看一区二区| 最新69国产精品视频| 久久精品女人天堂av免费观看| 欧美日韩不卡视频合集| 无码啪啪熟妇人妻区| 国产成人九九精品二区三区| 亚洲视频中文字幕更新| 新中文字幕一区二区三区| 男男啪啪激烈高潮cc漫画免费| 欧美a级在线现免费观看| 东京热东京道日韩av| 午夜天堂av天堂久久久| 亚洲国产韩国欧美在线| 精品久久亚洲一级α| 在线亚洲日本一区二区| 国产97在线 | 日韩| 5级做人爱c视版免费视频| 亚洲精品国产av一区二区| 变态另类手机版av天堂看网| 边啃奶头边躁狠狠躁| 国产情侣一区在线| 中文字幕人乱码中文字幕乱码在线| 国产va免费精品观看精品| 麻豆av传媒蜜桃天美传媒| 亚洲精品中文字幕尤物综合| 日本一区二区三区高清在线视频| 无套内射无矿码免费看黄| 日韩精品一区二区三区四区| 日韩精品极视频在线观看免费| 最近中文字幕免费完整版| 免费毛片在线视频| 日本中文字幕官网亚洲| 亚洲人成网网址在线看 |