亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于改進混合采樣和XGBoost算法的信用卡欺詐檢測方法

        2022-09-24 02:42:44施煒利饒?zhí)m香孟莎莎郭曉明李逸倫
        計算機與現(xiàn)代化 2022年9期
        關(guān)鍵詞:欺詐信用卡數(shù)據(jù)處理

        孫 丹,施煒利,饒?zhí)m香,孟莎莎,郭曉明,李逸倫

        (1.江西省科技基礎(chǔ)條件平臺中心,江西 南昌 330003; 2.中國廣電江西網(wǎng)絡(luò)有限公司,江西 南昌 330006)

        0 引 言

        信用卡欺詐是指故意使用偽造、作廢的信用卡,冒用他人的信用卡騙取財物,或用本人信用卡進行惡意透支的行為,常見的信用卡欺詐主要包括失卡冒用、假冒申請、偽造信用卡[1]。隨著在線支付交易的日益增多,與借記卡、預(yù)付卡和信用卡相關(guān)的欺詐是企業(yè)、金融業(yè)和消費者共同面臨的一個日益嚴峻的問題。常規(guī)解決信用卡欺詐檢測問題是通過傳統(tǒng)的數(shù)據(jù)統(tǒng)計分析對比來對用戶消費信譽進行評分,信用評分低就有可能成為信用卡欺詐用戶[2]。這種傳統(tǒng)統(tǒng)計數(shù)據(jù)分析方法需要耗費大量的人力、物力和時間成本,檢測的準確度也不高。隨著機器學(xué)習(xí)技術(shù)的不斷發(fā)展,國內(nèi)外學(xué)者開始從數(shù)據(jù)挖掘角度去解決信用卡欺詐檢測問題。不過利用機器學(xué)習(xí)方法解決信用卡欺詐問題同樣面臨很多挑戰(zhàn)。如信用卡交易數(shù)據(jù)涉及用戶敏感隱私數(shù)據(jù),很多研究學(xué)者很難拿到準確有效的信用卡交易特征數(shù)據(jù);同時信用卡交易數(shù)據(jù)通常是分布非常不平衡的數(shù)據(jù),正常交易數(shù)據(jù)遠遠大于異常交易數(shù)據(jù),數(shù)據(jù)不平衡分布問題會對分類精確度產(chǎn)生很大的影響[3]。

        近年來,國內(nèi)外研究學(xué)者提出了各種各樣的機器學(xué)習(xí)模型來建立信用卡欺詐檢測模型,如支持向量機、決策樹、神經(jīng)網(wǎng)絡(luò)、集成學(xué)習(xí)等信用卡檢測方法。Zhang等人[4]研究了基于加權(quán)支持向量機的信用卡欺詐檢測方法,引入了加權(quán)支持向量機SVM算法,極大地提高了檢測性能。李夢濤等人[5]重點從數(shù)據(jù)本身出發(fā),利用數(shù)據(jù)挖掘技術(shù),挖掘數(shù)據(jù)背后相關(guān)的欺詐信息,提出了一種基于數(shù)據(jù)挖掘的隨機森林的信用卡檢測方法,其精確率和召回率得到較好的檢測結(jié)果。Prasetiyo等人[6]采用隨機森林算法模型對合成數(shù)據(jù)集進行訓(xùn)練檢測,識別效果比簡單的機器學(xué)習(xí)算法效果更好。Asha等人[7]研究了基于多種機器學(xué)習(xí)算法進行信用卡欺詐檢測方法,對比了多種機器學(xué)習(xí)算法,提出了一種人工神經(jīng)網(wǎng)絡(luò)(ANN)算法進行信用卡欺詐行為檢測,其準確度接近100%,比無監(jiān)督學(xué)習(xí)算法具有更高的準確性。Lebichot等人[8]研究了評估增量學(xué)習(xí)策略,設(shè)計了一種基于評估增量學(xué)習(xí)策略的信用卡欺詐行為檢測系統(tǒng)。通過集成學(xué)習(xí)、多樣性遷移學(xué)習(xí)提高檢測系統(tǒng)準確性。這些檢測模型提出的研究者們都只注重方法和算法的研究,往往忽略了前期特征數(shù)據(jù)的預(yù)處理工作和信用卡交易數(shù)據(jù)的極度不平衡數(shù)據(jù)的預(yù)處理工作。

        為了解決數(shù)據(jù)極度不平衡分布問題,研究者們已經(jīng)研究了許多方法來消除數(shù)據(jù)不平衡所帶來的影響,張菲菲等人[9]提出了基于過采樣的不平衡數(shù)據(jù)集分類算法(SDPDBoost),該方法使用SMOTE進行樣本合成,并且把新樣本加入到數(shù)據(jù)集中。Liu等人[10]提出了隨機欠采樣提升算法(RUSBoost),該方法采用欠采樣方法,隨機刪除一些多數(shù)類樣本,然后使用處理后的數(shù)據(jù)構(gòu)造弱分類器。研究者們開始研究過采樣和欠采樣來解決信用卡欺詐檢測中信用卡交易數(shù)據(jù)不平衡數(shù)據(jù)的處理。王一明[11]通過多次欠采樣方法,構(gòu)造多個均衡數(shù)據(jù)集,建立多個Logistic回歸模型,最后將多個Logistic回歸進行集成,構(gòu)建最終的檢測模型,減少了真實數(shù)據(jù)信息量的喪失;張藝豪等人[1]為了解決數(shù)據(jù)不平衡分布問題,利用合成少數(shù)類過采樣技術(shù)SMOTE算法生成新的樣本使得數(shù)據(jù)平衡分布,再利用加權(quán)隨機森林算法訓(xùn)練平衡數(shù)據(jù),較好地解決了過擬合問題;琚春華等人[12]克服了SMOTE算法在生成新樣本時的盲目性和局限性,提出了基于kNN-Smote-LSTM的信用卡欺詐檢測網(wǎng)絡(luò)模型,大大改善了誤分類問題。研究者們在不平衡數(shù)據(jù)處理問題的研究中只單純的采用單種采樣方法進行數(shù)據(jù)處理,或者是對單種采樣方法進行改進,未結(jié)合過采樣和欠采樣方法對不平衡數(shù)據(jù)處理進行過多的研究。為了使合成的樣本更具有多樣性,本文提出一種改進的混合采樣技術(shù)。通過多種過采樣和多種欠采樣進行多種方式組合,選擇最優(yōu)的組合采樣方式處理不平衡數(shù)據(jù)集。

        本文首先對3種不平衡數(shù)據(jù)處理方法進行分析,提出一種基于改進的SMOTE+ENN混合采樣和XGBoost算法的信用卡欺詐檢測方法,最后通過未進行不平衡數(shù)據(jù)數(shù)量實驗、6種不平衡數(shù)據(jù)處理組合采樣方法實驗、基于改進的SMOTE+ENN混合采樣下的5種分類算法實驗從準確率、精準率、召回率、F1值、AUC值5項評價指標對3類實驗結(jié)果進行分析驗證。結(jié)果表明基于改進的SMOTE+ENN混合采樣和XGBoost算法的信用卡檢測方法在不平衡數(shù)據(jù)處理上不僅提高了信用卡欺詐行為數(shù)據(jù)的區(qū)分度,而且提高了特征提取的計算性能和準確性,同時能夠準確有效地檢測出信用卡欺詐行為,提高了信用卡欺詐行為檢測準確性。

        1 本文方法

        1.1 數(shù)據(jù)選擇及處理

        1.1.1 數(shù)據(jù)選擇

        測試數(shù)據(jù)來自Kaggle上Credit Card Fraud Detection數(shù)據(jù)集,如圖1所示。該數(shù)據(jù)集記錄了2013年9月歐洲信用卡交易數(shù)據(jù),總共包括2天的交易數(shù)據(jù)。在284807次交易中包含了492例詐騙,數(shù)據(jù)集極其不平衡,詐騙頻率只占了交易頻次的0.172%[13]。

        圖1 Credit Card Fraud Detection數(shù)據(jù)集主頁

        如圖2所示,Credit Card Fraud Detection數(shù)據(jù)集為了避免泄露用戶隱私,將原始數(shù)據(jù)做了脫敏等處理,最后使用28維向量描述,分別對應(yīng)V1~V28,該筆交易發(fā)生時間定義為Time,該筆交易涉及的金額定義為Amount,該筆交易是否為欺詐定義為Class字段,其中1表示為欺詐,0表示為正常交易[14]。

        圖2 Credit Card Fraud Detection數(shù)據(jù)集數(shù)據(jù)結(jié)構(gòu)

        1.1.2 數(shù)據(jù)處理

        針對Credit Card Fraud Detection數(shù)據(jù)集最簡單的處理過程是對數(shù)據(jù)特征提取方式進行標準化,V1~V28已經(jīng)是歸一化處理過了,剩下僅Amount字段是原始的交易數(shù)據(jù),需要進行歸一化處理。最簡單的標準化方式是將數(shù)據(jù)集的字段控制在0~1之間或者-1~1之間[15]。首先使用pandas從文件中加載數(shù)據(jù),然后定義新的字段nomAmount,nomAmount用于記錄標準化后的Amount字段。

        數(shù)據(jù)標準化處理流程為:

        1)使用pandas函數(shù)加載creditcard.csv數(shù)據(jù)集數(shù)據(jù)。

        2)使用StandardScaler標準化函數(shù)將Amount字段值進行歸一化處理。

        3)將class字段值賦予標記字段y。

        4)將數(shù)據(jù)集中V1~V28字段值及nomAmount值賦予數(shù)據(jù)集x。

        5)將數(shù)據(jù)集x和標記字段y隨機分配成訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集。

        1.2 基于改進的SMOTE+ENN混合采樣的不平衡數(shù)據(jù)處理

        1.2.1 降采樣

        之前遇到的機器學(xué)習(xí)問題,使用的數(shù)據(jù)集中黑白樣本基本都是一個數(shù)量級,常見的分類算法都可以在這種情況下正常工作。但是也有一類問題,黑白樣本的比例完全失衡,反欺詐領(lǐng)域的數(shù)據(jù)就是這樣,黑樣本甚至不到白樣本的1%。這個時候常見的分類算法會偏向數(shù)據(jù)量占絕對優(yōu)勢的一方。為了避免這種情況發(fā)生,人們提出了降采樣。所謂的降采樣,就是從數(shù)據(jù)量占優(yōu)勢的數(shù)據(jù)集中隨機選取一定數(shù)量的樣本,通常選擇的數(shù)量與數(shù)據(jù)量小的樣本數(shù)量相當(dāng)。在這次選取的數(shù)據(jù)集中,欺詐數(shù)據(jù)屬于黑樣本,數(shù)量非常稀少,僅有數(shù)百個;正常交易的數(shù)據(jù)屬于白樣本,數(shù)量達到了近30萬,本文隨機從白樣本選擇與黑樣本數(shù)量相同的白樣本,這樣就得到了黑白樣本均衡的數(shù)據(jù)集[16]。降采樣獲得黑白樣本均衡的數(shù)據(jù)集流程為:

        1)獲取黑樣本的數(shù)量以及對應(yīng)的索引。

        2)獲取白樣本對應(yīng)的索引,并隨機選取與黑樣本數(shù)量相同的白樣本索引。

        3)使用ENN降采樣技術(shù)從整數(shù)或一維數(shù)組里選取內(nèi)容,作為新的白樣本。

        4)將黑樣本和隨機選擇的白樣本重新組合成新的樣本集合。

        5)從新的樣本隨機分配成訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集。

        1.2.2 過采樣

        解決黑白樣本不均衡的問題還有一種方式叫做過采樣。與劫富濟貧的降采樣相反,過采用保留數(shù)量占優(yōu)勢的樣本,通過一定的算法,在數(shù)量較少樣本的基礎(chǔ)上生成新樣本。在這次數(shù)據(jù)處理中,保留白樣本,通過一定的算法,在原有黑樣本的基礎(chǔ)上生成新的黑樣本,最終形成的樣本同樣可以達到黑白樣本均衡[17]。過采樣獲得黑白樣本均衡的數(shù)據(jù)集流程為:

        1)隨機選定n個少類的樣本A。

        2)使用SMOTE過采樣技術(shù)對少類樣本A再找出最靠近它的m個少類樣本B。

        3)任選最鄰近樣本B中的m個少類樣本C,在樣本B和樣本C上任選一點,這點就是新增的數(shù)據(jù)黑樣本。

        4)將黑樣本和白樣本重新組合成新的樣本集合。

        5)從新的樣本隨機分配成訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集。

        1.2.3 基于改進的SMOTE+ENN混合采樣

        對于不平衡數(shù)據(jù)的處理方法主要通過降采樣和過采樣來對數(shù)據(jù)進行平衡。過采樣方法會增加冗余數(shù)據(jù),可能存在過擬合問題,會導(dǎo)致數(shù)據(jù)分布不合理甚至?xí)撾x真實情況。降采樣方法會導(dǎo)致數(shù)據(jù)集中有用的數(shù)據(jù)信息可能丟失。本文將2種采樣方法結(jié)合起來,利用各自的優(yōu)點提出一種基于改進的SMOTE+ENN的混合采樣方法。使用SMOTE過采樣方法通過增加隨機噪聲方式來改善過擬合問題,但該方法沒有考慮周邊樣本的情況,很容易造成無用的信息或者噪聲,導(dǎo)致類內(nèi)重疊增大。因此本文引入KB-mean聚類算法對SMOTE方法進行改進,提升其對少數(shù)類樣本的采樣性能。通過將過采樣和降采樣兩者結(jié)合起來,首先使用ENN降采樣對多數(shù)類進行降采樣,然后使用改進后的SMOTE過采樣對少數(shù)類進行過采樣,可以有效地在均衡數(shù)據(jù)的同時消除掉過多的類間重疊樣本[18]?;诟倪M的SMOTE+ENN混合采樣流程如圖3所示。

        圖3 基于改進的SMOTE+ENN混合采樣算法流程圖

        基于KB-mean聚類算法的SMOTE過采樣算法方法,首先使用KB-mean聚類算法對少數(shù)類樣本進行聚類處理,然后根據(jù)聚類的區(qū)域進行相關(guān)數(shù)據(jù)的插入來增加樣本數(shù)據(jù),這樣可以很好地解決邊界模糊問題。主要處理步驟如下:

        1)采用KB-mean聚類算法對少數(shù)類樣本進行聚類處理,獲得少數(shù)類樣本數(shù)據(jù)中各簇的分布情況。

        2)計算每個簇的簇心,每一個聚類的簇心為{a1,a2,…,an}。

        3)在簇心與簇內(nèi)樣本的連線上進行人工樣本生成。新插入數(shù)據(jù)公式為:

        Xnew=ai+rand(0,1)×(X-ai) ,i=1,2,…,N,X∈ai

        (1)

        其中,Xnew為新插入的樣本,ai為簇心,X是以ai為簇心聚類的原始樣本;rand(0,1)表示0與1之間的隨機數(shù)。

        1.3 基于改進的SMOTE+ENN混合采樣和XGBoost算法的信用卡欺詐檢測模型

        1.3.1 XGBoost分類算法

        XGBoost分類算法是梯度提升決策樹(Gradient Boost Decision Treet, GBDT)算法的一種串行集成算法。其基學(xué)習(xí)器通常選擇決策樹模型,通過不斷迭代生成新樹學(xué)習(xí)真實值與當(dāng)前所有樹預(yù)測值的殘差,將所有樹的結(jié)果累加作為最終結(jié)果,以此獲取盡可能高的分類準確率[19]。

        XGBoost算法將模型的表現(xiàn)與運算速度的平衡引入目標函數(shù),在求解目標函數(shù)時對其做二階泰勒展開,以此加快求解速度,減少模型運行時間;同時引入正則化控制模型復(fù)雜度,避免過擬合[20]。

        假設(shè)有n個樣本和m個特征的樣本集D={(xi,yi|xi∈Rm,yi∈R)},其模型預(yù)測值為:

        (2)

        檢測模型的目標函數(shù)為:

        (3)

        其中,θ={f1,f2,…,fk};l指損失函數(shù);Ω指正則化項。

        目標函數(shù)包含2個部分,即損失函數(shù)和正則化項。第1部分的自身損失函數(shù)使用泰勒式展開,使用一階導(dǎo)數(shù)和二階導(dǎo)數(shù)進行優(yōu)化,以提高速度和準確率[21]。在第t步迭代優(yōu)化目標函數(shù)時,在現(xiàn)有t-1棵樹的基礎(chǔ)上添加1棵最優(yōu)化的ft,損失函數(shù)變?yōu)椋?/p>

        (4)

        其中,gi為損失函數(shù)的一階導(dǎo)數(shù);hi為損失函數(shù)的二階導(dǎo)數(shù)。

        第2部分是正則化函數(shù),通過正則化懲罰項來降低過擬合的風(fēng)險[20]。正則化函數(shù)為:

        (5)

        其中,T為每棵樹葉子節(jié)點的個數(shù);w為葉子權(quán)重;Υ與λ為懲罰系數(shù)。

        1.3.2 信用卡欺詐檢測模型構(gòu)建

        基于改進的SMOTE+ENN混合采樣和XGBoost算法的信用卡欺詐檢測模型是一種混合采樣的XGBoost信用卡欺詐檢測模型,并通過對XGBoost算法中的參數(shù)進行優(yōu)化來提升檢測模型的性能,模型的檢測過程如圖4所示。

        圖4 基于改進的SMOTE+ENN混合采用和XGBoost分類算法的信用卡欺詐檢測流程

        針對信用卡欺詐檢測效率低、準確度不高情況,本文采用基于XGBoost的信用卡欺詐檢測模型進行分類。XGBoost是一種集成學(xué)習(xí)方法,其基本思想是將多個具有較低分類準確率的樹模型進行組合得到一個準確率很高的模型。XGBoost在代價函數(shù)中增加了用于控制模型復(fù)雜度的正則項,可以防止信用卡交易欺詐檢測時過擬合問題[12]。同時為了使XGBoost預(yù)測模型能夠達到很好的檢測效果,采用網(wǎng)格調(diào)參的方式對XGBoost算法中各參數(shù)進行優(yōu)化。針對信用卡交易數(shù)據(jù)黑白樣本極不平衡情況,本文選用改進的SMOTE+ENN混合采樣模型對不平衡數(shù)據(jù)進行處理,來解決由不平衡數(shù)據(jù)帶來的過擬合及噪聲問題。

        假定原始Credit Card Fraud Detection數(shù)據(jù)集數(shù)據(jù)集為X,其中通過標準化數(shù)據(jù)預(yù)處理的真實數(shù)據(jù)集為N,多數(shù)類的正常交易樣本集為Xmaj,少數(shù)類的欺詐交易樣本集為Xmin,經(jīng)過改進的SMOTE+ENN混合采樣器為M,混合采樣處理后的平衡數(shù)據(jù)集為D,訓(xùn)練集為Y,測試集為T,優(yōu)化后的XGBoost分類器Z?;诟倪M的SMOTE+ENN混合采樣和XGBoost算法的信用卡欺詐檢測模型的算法步驟為:

        1)通過對原始數(shù)據(jù)集X進行數(shù)據(jù)標準化預(yù)處理,剔除冗余不相關(guān)特征,得到特征篩選后的真實數(shù)據(jù)集N。

        2)將真實數(shù)據(jù)集N按照樣本類型分成少數(shù)類樣本Xmin,多數(shù)類樣本Xmaj。

        3)使用KB-mean聚類算法對少數(shù)類樣本Xmin進行聚類處理,得到聚類樣本Xminkb。

        4)使用SMOTE過采樣對聚類樣本Xminkb進行過采樣處理,得到過采樣樣本Xminkbsmote。

        5)使用ENN降采樣對多數(shù)類樣本Xmaj進行降采樣處理,得到降采樣樣本Xmajenn;

        6)將以上混合采樣的降采樣Xmajenn和過采樣Xminkbsmote數(shù)據(jù)進行組合得到平衡數(shù)據(jù)集。

        7)對平衡數(shù)據(jù)集D進行樣本劃分,隨機劃分成訓(xùn)練集Y和測試集T。

        8)采用網(wǎng)格調(diào)參的方式對XGBoost算法中各參數(shù)進行優(yōu)化,得到分類器Z。

        9)使用分類器Z在訓(xùn)練集Y上訓(xùn)練,獲得模型數(shù)據(jù)。

        10)使用模型數(shù)據(jù)在測試集T上進行預(yù)測,得到預(yù)測結(jié)果。

        2 實驗與結(jié)果分析

        2.1 實驗數(shù)據(jù)集

        實驗選取了從Credit Card Fraud Detection數(shù)據(jù)集中284807條交易數(shù)據(jù)(其中492條欺詐數(shù)據(jù))作為實驗數(shù)據(jù)來源[23]。將樣本集按照隨機分配因子從0.1~0.9分配訓(xùn)練樣本集和測試樣本集共9份。采用九折交叉驗證法重復(fù)實驗驗證9次,最后對9次實驗結(jié)果采用計算平均值來評估檢測模型的檢測能力,具體如表1所示。

        表1 訓(xùn)練數(shù)據(jù)、測試數(shù)據(jù)樣本數(shù)

        2.2 評價指標

        在對信用卡欺詐行為進行檢測時,可能出現(xiàn)以下4種情況,如表2所示。在實驗中,T表示信用卡正常使用行為,M表示信用卡欺詐行為[24]。

        表2 信用卡欺詐檢測判別表

        在表2中,TP表示預(yù)測當(dāng)前是信用卡正常使用行為,實際上也是信用卡正常使用行為;FN表示預(yù)測當(dāng)前是信用卡欺詐行為,實際上是信用卡正常使用行為;FP表示預(yù)測當(dāng)前是信用卡正常使用行為,實際上是信用卡欺詐行為;TN表示預(yù)測當(dāng)前是信用卡欺詐行為,實際上是信用卡欺詐行為。

        對于傳統(tǒng)的分類算法,一般采用特定度、靈敏度作為評價指標,然而對于不平衡數(shù)據(jù)集,用特定度、靈敏度、準確度來評價分類器的性能是不準確的。本實驗中對于不平衡數(shù)據(jù)分類采用準確率、精準率、召回率、F1和AUC作為分類器性能好壞的評價指標[25]。

        1)準確率:

        2)精準率:

        3)召回率:

        4)F1:表示一種綜合考慮信用卡欺詐行為檢測的查全率和查準率的指標,綜合衡量信用卡欺詐分類性能指標[26],即:

        5)AUC:表示不平衡數(shù)據(jù)分類問題中最經(jīng)常采用的度量指標,在衡量XGBoost算法在不平衡數(shù)據(jù)上的整體分類性能。本次實驗中采用量化的AUC指標來衡量,AUC指標越接近于1,則反映出分類器的分類效果越好[27]。

        2.3 實驗結(jié)果與分析

        2.3.1 未進行不平衡數(shù)據(jù)處理實驗分析

        將不平衡數(shù)據(jù)集進行標準化處理后未采用任何不平衡數(shù)據(jù)處理技術(shù)進行輸出,直接使用XGBoost分類算法、樸素貝葉斯分類算法、多層感知機、隨機森林算法、極限學(xué)習(xí)機這5種分類算法對上述隨機分配的9類訓(xùn)練集進行訓(xùn)練生成分類器,最后對隨機分配的9類測試集進行檢測[28],整個檢測系統(tǒng)的TP、FP、TN、FN、準確率、精準率、召回率、F1值、AUC值實驗結(jié)果如表3所示。

        表3 未進行不平衡數(shù)據(jù)處理下不同分類算法實驗結(jié)果

        由表3可知,在沒有對不平衡數(shù)據(jù)進行任何處理的情況下,5種分類算法對信用卡欺詐數(shù)據(jù)檢測出來的5個評價指標準確率、精準率、召回率、F1值、ACU值表現(xiàn)的性能也有所不同。因正向數(shù)據(jù)偏多,準確識別正向數(shù)據(jù)的概率都能準確識別出來,因此準確率都相差不大。但從精準率、召回率、F1值、AUC值4個評價指標綜合考慮,XGBoost算法的信用卡欺詐檢測方法要明顯優(yōu)于其他4種分類算法檢測方法,精準率約為0.93,召回率約為0.77,F(xiàn)1值約為0.84,AUC值約為0.88。結(jié)果表明,使用XGBoost算法相對其他2種分類算法更能夠準確檢測出信用卡欺詐行為。

        2.3.2 多種不平衡數(shù)據(jù)處理方法實驗分析

        表3實驗結(jié)果為對不平衡數(shù)據(jù)未進行任何處理得到的實驗結(jié)果,從實驗結(jié)果可以看出,召回率、F1值、ACU值性能不是很理想。因此對不平衡數(shù)據(jù)進行降采樣、過采樣、SMOTE+ENN、SMOTE+Tomeklink、改進的SMOTE+Tomeklink、改進的SMOTE+ENN這6種不平衡數(shù)據(jù)處理方法進行數(shù)據(jù)不平衡處理,然后使用XGBoost分類算法對上述隨機分配的9類訓(xùn)練集進行訓(xùn)練生成分類器,最后對隨機分配的9類測試集進行檢測,整個檢測系統(tǒng)的TP、FP、TN、FN、準確率、精準率、召回率、F1值、AUC值實驗結(jié)果如表4所示。

        表4 不同不平衡數(shù)據(jù)處理方法下XGBoost分類算法實驗結(jié)果

        從表4實驗結(jié)果可以看出,采用改進的SMOTE+ENN混合采樣的不平衡數(shù)據(jù)處理方法得到的數(shù)據(jù)集輸入到XGBoost分類器中得到的檢測效果要比其他單一采樣或者組合采樣的檢測效果更佳,該采樣方法的實驗結(jié)果準確率約為0.99,精準率約為0.97,召回率約為0.93,F(xiàn)1值約為0.95,AUC值約為0.95。通過對不同不平衡數(shù)據(jù)處理方法的數(shù)據(jù)集進行各項檢測評價指標對比分析,基于改進的SMOTE+ENN采樣的不平衡數(shù)據(jù)處理技術(shù)比傳統(tǒng)的單一降采樣、過采樣及單純的組合采樣下的不平衡數(shù)據(jù)處理方法在檢測信用卡欺詐行為中更能體現(xiàn)優(yōu)勢?;诟倪M的SMOTE+ENN混合采樣不平衡數(shù)據(jù)處理技術(shù)不僅提高了信用卡欺詐行為不平衡數(shù)據(jù)的區(qū)分度,還提高了不平衡數(shù)據(jù)的計算性能和準確性。

        2.3.3 基于改進的SMOTE+ENN混合采樣的不同分類算法實驗分析

        從表4中可以看出采樣改進的SMOTE+ENN混合采樣的不平衡數(shù)據(jù)處理方法對于信用卡欺詐行為的檢測效果更佳。本文再將其處理后的平衡數(shù)據(jù)集輸入到XGBoost分類算法、樸素貝葉斯分類算法、多層感知機、隨機森林算法、極限學(xué)習(xí)機不同分類器中訓(xùn)練,驗證本文提出的基于改進的SMOTE+ENN混合采樣的XGoost算法的有效性和準確性,實驗結(jié)果如表5所示。

        表5 改進的SMOTE+ENN混合采樣下不同分類算法實驗結(jié)果

        從表5實驗結(jié)果可以看出,基于改進的SMOTE+ENN混合采樣和XGoost算法的信用卡欺詐檢測方法比其他4種分類算法在準確率、精準率、召回率、F1值、AUC值5種評價指標上表現(xiàn)的更佳。驗證了本文提出的基于改進的SMOTE+ENN混合采樣的XGoost算法的有效性和準確性,更能準確有效地檢測出信用卡欺詐行為,能為用戶提供很好的監(jiān)測預(yù)警服務(wù)。

        3 結(jié)束語

        本文主要聚焦在信用卡欺詐行為檢測這一非常具有挑戰(zhàn)性的機器學(xué)習(xí)問題上,對不平衡數(shù)據(jù)處理技術(shù)、機器學(xué)習(xí)分類技術(shù)等方面研究。以Credit Card Fraud Detection為數(shù)據(jù)集,針對信用卡欺詐的檢測技術(shù),使用特征提取方法為標準化,以及基于標準化基礎(chǔ)上的降采樣、過采樣、SMOTE+ENN、SMOTE+Tomeklink、改進的SMOTE+Tomeklink、改進的SMOTE+ENN對不平衡數(shù)據(jù)進行處理,后將數(shù)據(jù)集輸入到XGBoost算法、多層感知機、樸素貝葉斯算法、隨機森林算法、極限學(xué)習(xí)機進行訓(xùn)練。經(jīng)過對比發(fā)現(xiàn),當(dāng)使用相同的特征提取方式時,基于改進的SMOTE+ENN混合采樣的XGBoost算法的信用卡欺詐檢測模型總體表現(xiàn)優(yōu)于其他4種分類算法和5種采樣方法,檢測模型的準確率約為0.99,精準率約為0.97,召回率約為0.93,F(xiàn)1值約為0.95,AUC值約為0.95。此檢測方法可顯著提高金融機構(gòu)對信用卡欺詐行為的檢測效率,同時給用戶和金融機構(gòu)提供很好的預(yù)警效果。

        猜你喜歡
        欺詐信用卡數(shù)據(jù)處理
        關(guān)于假冒網(wǎng)站及欺詐行為的識別
        眼科新進展(2023年9期)2023-08-31 07:18:36
        關(guān)于假冒網(wǎng)站及欺詐行為的識別
        認知診斷缺失數(shù)據(jù)處理方法的比較:零替換、多重插補與極大似然估計法*
        ILWT-EEMD數(shù)據(jù)處理的ELM滾動軸承故障診斷
        警惕國際貿(mào)易欺詐
        中國外匯(2019年10期)2019-08-27 01:58:04
        信用卡資深用戶
        信用卡詐騙
        網(wǎng)購遭欺詐 維權(quán)有種法
        辦信用卡透支還債夫妻均獲刑10年
        公民與法治(2016年6期)2016-05-17 04:10:39
        基于希爾伯特- 黃變換的去噪法在外測數(shù)據(jù)處理中的應(yīng)用
        久久久一本精品99久久| 无码精品人妻一区二区三区漫画| 欧美性生交活xxxxxdddd| 亚洲av中文无码乱人伦在线播放| 亚洲色大网站www永久网站| 人妻少妇久久中文字幕| 亚洲国产成人无码av在线影院| 亚洲av理论在线电影网| 99久久精品国产亚洲av天| 久久少妇高潮免费观看| 天天躁夜夜躁狠狠躁婷婷| 97无码免费人妻超级碰碰夜夜| 女同久久精品国产99国产精品| 久久精品国产亚洲AⅤ无码| 无码无在线观看| 精品视频一区二区杨幂| 日本女优中文字幕有码| 日本一区二区三区四区高清不卡| 日韩av高清在线观看| 欲色天天网综合久久| 高清国产美女av一区二区| 亚洲天堂一二三四区在线| 在线观看日本一区二区三区四区| 猫咪av成人永久网站在线观看| 一个人在线观看免费视频www| 婷婷亚洲国产成人精品性色 | 国产精品狼人久久久久影院 | 精品人妻av中文字幕乱| 伊人久久综合无码成人网| 97色伦综合在线欧美视频| 亚洲精品乱码久久久久久麻豆不卡 | 亚洲女同av在线观看| а√天堂8资源中文在线| 99久久精品费精品国产一区二区| 国产片三级视频播放| 好看的中文字幕中文在线| 狂猛欧美激情性xxxx大豆行情| 黑人巨大跨种族video| 国产高清在线精品一区αpp| 亚洲综合偷拍一区二区| 久久伊人这里都是精品|