亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

集成學(xué)習(xí)在消費金融審計中的應(yīng)用
——以隨機(jī)森林檢測信用卡欺詐為例

2022-08-25 02:55:10石向榮教授郭鵬賽鄭祺葉一飛

商業(yè)會計 2022年15期

石向榮（教授）郭鵬賽鄭祺葉一飛

（1浙江財經(jīng)大學(xué)信息管理與人工智能學(xué)院 2浙江財經(jīng)大學(xué)會計學(xué)院浙江杭州 310018）

一、引言

近年來，隨著居民個人收入水平的提升、家庭財富的不斷積累，我國經(jīng)濟(jì)向消費主導(dǎo)型轉(zhuǎn)變。根據(jù)中投產(chǎn)業(yè)研究院發(fā)布的《2020—2024年中國消費金融行業(yè)深度調(diào)研及投資前景預(yù)測報告》，2015到2020年，我國消費金融市場規(guī)模從19萬億元增長到45萬億元，消費金融業(yè)務(wù)量增速較快。截至2020年，銀保監(jiān)會公布的全國持有消費金融牌照的公司達(dá)30家，消費金融的廣闊前景使這一市場成為資本的熱門賽道。但是高速發(fā)展的消費金融也引發(fā)了一些問題，如現(xiàn)金貸的授信過度、交易平臺的欺詐行為等，本文關(guān)注的信用卡欺詐也是情形之一。

2016—2020年，我國信用卡及借貸合一卡人均持卡量呈現(xiàn)持續(xù)增長趨勢，五年間從人均0.39張增至0.57張；信用卡逾期半年未償總額增長幅度在6.4%—18.9%之間（見表1），這也和我國過去五年消費金融市場的增長情況相一致。

表1 2016—2020年人均持卡量、逾期半年未償總額

2020年12月，銀保監(jiān)會發(fā)布《消費金融公司監(jiān)管評級管理辦法（試行）的通知》，這一管理辦法的施行體現(xiàn)出監(jiān)管部門對促進(jìn)消費金融行業(yè)合法合規(guī)經(jīng)營的決心。2021年9月，中國銀行業(yè)協(xié)會發(fā)布《中國銀行卡產(chǎn)業(yè)發(fā)展藍(lán)皮書（2021）》，提出要繼續(xù)全面提升風(fēng)險防控能力，加強(qiáng)金融科技與銀行風(fēng)控的結(jié)合，優(yōu)化行業(yè)自律機(jī)制，有效防范和打擊銀行卡欺詐、反催收聯(lián)盟等，完善風(fēng)險管理體系。由于監(jiān)管部門及社會公眾和消費金融機(jī)構(gòu)之間存在信息不對稱，需要審計等社會力量作為中介，打破信息壁壘，通過技術(shù)手段及早介入并揭示問題，防范風(fēng)險進(jìn)一步放大。為此，本文提出基于集成學(xué)習(xí)算法的審計思路，也是對科技強(qiáng)審工作要求的具體實踐。

二、文獻(xiàn)綜述

尹振濤、程雪軍（2019）針對我國場景消費金融快速發(fā)展的背景，對我國場景消費金融的風(fēng)險防控相關(guān)問題進(jìn)行了研究，認(rèn)為當(dāng)前我國場景消費金融市場的主要風(fēng)險為用戶信用風(fēng)險、欺詐與套現(xiàn)風(fēng)險、法律滯后糾紛頻發(fā)風(fēng)險、資金流動性風(fēng)險、金融科技風(fēng)險和內(nèi)部管理風(fēng)險等。劉艷暢（2019）認(rèn)為，一些借款人惡意逃避債務(wù)形成的重大錯報風(fēng)險，是網(wǎng)貸平臺審計風(fēng)險的重要來源之一，并對網(wǎng)絡(luò)信貸平臺審計提出了新的方法和思路，以降低審計風(fēng)險。

對于信用卡欺詐檢測模型的研究，國內(nèi)外學(xué)者主要集中在機(jī)器學(xué)習(xí)的模型訓(xùn)練。國內(nèi)學(xué)者徐永華（2011）研究發(fā)現(xiàn)，采用支持向量機(jī)的信用卡欺詐檢測精度達(dá)到95%以上；陳啟偉、王偉等（2018）基于Ext-GBDT集成的類別不平衡信用評分模型，使用欠采樣的方法對數(shù)據(jù)集進(jìn)行切割，結(jié)果表明該模型的性能較好；王紅雨（2019）研究了基于機(jī)器學(xué)習(xí)的信用卡欺詐檢測方案，對比了不同學(xué)習(xí)模型的檢測效果，提出了基于訓(xùn)練集劃分和聚類的集成學(xué)習(xí)框架、主動學(xué)習(xí)和半監(jiān)督學(xué)習(xí)相結(jié)合的欺詐檢測方案等；郭建山等（2020）研究了基于隨機(jī)森林（Random Forest，RF）的信用卡違約預(yù)測，提出了SSD算法改進(jìn)的隨機(jī)森林檢測模型；琚春華等（2021）提出了基于kNN-Smote-LSTM的消費金融風(fēng)險檢測模型，對判別分類器、生成器進(jìn)行了融合，認(rèn)為該模型對于降低噪音、提升分類性能、降低誤分類呈現(xiàn)了更好的性能。

國外學(xué)者也對信用卡欺詐檢測展開了研究，Bhatnagar Vishal等（2021）設(shè)計了一個深度學(xué)習(xí)欺詐檢測框架，具體是采用基于神經(jīng)網(wǎng)絡(luò)的序列分類技術(shù)，同時引入閾值以度量交易（與正常交易之間的）偏離，以此對信用卡交易欺詐進(jìn)行檢測。Angela Makolo等（2021）提出了一種利用機(jī)器學(xué)習(xí)進(jìn)行金融欺詐檢測的直觀方案，具體是建立基于遺傳算法和多元正態(tài)分布的異常檢測模型，識別信用卡上的欺詐交易。Kalhotra Satish Kumar等（2022）重點研究了C4.5、CART、J48、Na?ve Bayes、EM、Apriori、SVM等多種數(shù)據(jù)挖掘算法，并對結(jié)果的準(zhǔn)確性和精度進(jìn)行了分析對比。

從以上文獻(xiàn)可以看出，諸多學(xué)者對信用卡欺詐檢測模型進(jìn)行了較為充分的研究，但所完成的工作仍有改進(jìn)提升空間：一是單一分類器存在擬合不足或過度擬合的狀況；二是對模型評估指標(biāo)不夠全面，對模型的準(zhǔn)確率（accuracy,Acc）、召回率（recall）、查準(zhǔn)率（precision）、AUC值、F1值缺少綜合分析。本文的貢獻(xiàn)在于：（1）提出并驗證了綜合評估指標(biāo)下檢測性能優(yōu)越的分類模型。本文結(jié)合幾種性能較好的基分類器進(jìn)行對比分析，得出隨機(jī)森林、CatBoost的分類性能較好并且比較穩(wěn)定，在此基礎(chǔ)上采用基于馬氏距離的SMOTE改進(jìn)算法，即過采樣方案以應(yīng)對信用卡數(shù)據(jù)集兩類樣本的不平衡問題。應(yīng)用多個指標(biāo)對所提出的復(fù)合模型進(jìn)行評估，結(jié)論是Maha-Smote-RF有著最為優(yōu)越的檢測性能。（2）提出將檢測模型應(yīng)用于信用卡欺詐審計的具體思路。本文在驗證Maha-Smote-RF模型性能的基礎(chǔ)上，進(jìn)一步提出可行的審計思路，可幫助審計師精準(zhǔn)、高效地鎖定欺詐交易行為和交易主體。（3）豐富了消費金融行業(yè)的審計方法。消費金融行業(yè)在互聯(lián)網(wǎng)的沖擊下出現(xiàn)新的業(yè)態(tài)，傳統(tǒng)的審計方法面對“科技+金融”的業(yè)務(wù)模式難以發(fā)現(xiàn)隱藏在數(shù)據(jù)背后的舞弊情形，必須采用機(jī)器學(xué)習(xí)等新工具，才能讓審計插上信息化的翅膀，本文為基于數(shù)據(jù)的消費金融審計工作提供了有益借鑒。

三、模型原理介紹

（一）隨機(jī)森林模型原理

隨機(jī)森林模型于1995年由貝爾實驗室的Tin Kam Ho提出，它的基本單元是決策樹。由成百上千棵數(shù)構(gòu)成了所謂森林，這種構(gòu)成方式體現(xiàn)了集成學(xué)習(xí)的思想。通過組合多個弱分類器，并對弱分類器的結(jié)果投票表決，從而構(gòu)成整體的強(qiáng)分類器。隨機(jī)森林算法的優(yōu)越性能，主要歸功于“隨機(jī)”和“森林”，前者使它具有抗過擬合能力，后者使它更加精準(zhǔn)，模型工作原理見圖1。

圖1 隨機(jī)森林工作原理

（二）隨機(jī)森林算法流程

1.構(gòu)造n組隨機(jī)樣本。從原始數(shù)據(jù)中，隨機(jī)抽取n次樣本，為簡潔起見，每次抽取的樣本數(shù)目均相同，設(shè)為m。

2.對每組樣本進(jìn)行特征抽樣。假設(shè)每個樣本數(shù)據(jù)都有K個特征，從所有特征中隨機(jī)地選取k（k≤K）個，結(jié)合步驟1，形成樣本1、樣本2、…、樣本n，它們的大小均為m×k。

3.選擇最佳分割屬性作為節(jié)點建立n棵CART決策樹，這也是所謂的森林。

4.對以上n棵決策樹的預(yù)測結(jié)果進(jìn)行投票，確定樣本的最后預(yù)測類別。對于最常見的二類分類問題，須注意設(shè)置n為奇數(shù)，以保障最終投票不產(chǎn)生平局。

（三）SMOTE方法

由于在現(xiàn)實世界中，欺詐行為發(fā)生的概率總是小的，大量的樣本所對應(yīng)的是正常交易，因此基于真實數(shù)據(jù)的原始數(shù)據(jù)集中，“正常”和“欺詐”兩類樣本數(shù)目相差懸殊，這就是所謂的樣本不平衡問題。樣本不平衡會導(dǎo)致模型偏差較大，預(yù)測精度下降。解決樣本不平衡問題的思路有二：一是對正常類樣本進(jìn)行下采樣，以縮小兩者差異。但這樣做的缺點明顯，就是丟棄了大量有價值的正常類樣本數(shù)據(jù)。二是對欺詐類數(shù)據(jù)進(jìn)行上采樣，即：在現(xiàn)有數(shù)據(jù)點的“周邊”構(gòu)造新的數(shù)據(jù)，以使得兩類樣本的數(shù)目相當(dāng)或接近相當(dāng)。這個思路就是SMOTE（Synthetic Minority Over-Sampling Technique），SMOTE方法解決的是不平衡樣本中的少數(shù)類樣本數(shù)量過少的問題，具體做法是：

找出每個樣本的k個鄰居（鄰居通過距離來度量），然后分別在原樣本和個鄰居之間進(jìn)行隨機(jī)線性插值，這樣保證了所構(gòu)造的新樣本處于原樣本的周邊，具體算法如下：

并且k是一個可靈活調(diào)節(jié)的參數(shù)，一輪操作之后，樣本數(shù)量變?yōu)樵瓟?shù)量的k倍，若不平衡問題依然存在，可繼續(xù)重復(fù)上述過程?？梢姡S著不斷重復(fù)，新樣本的總數(shù)目將呈幾何式增長。

（四）結(jié)合馬氏距離的SMOTE方法：Maha-Smote

在上文提及的SMOTE方法中，須對距離進(jìn)行度量，根據(jù)距離找出k個鄰居，可見距離的定義是一個重要問題。在眾多距離的度量方式中，最常見的是歐式距離，但對本研究所面臨的問題，使用歐式距離并不合適，因為它無差別地對待每一個特征，而不考慮特征之間量綱的差異性。因此，由歐式距離方案所得的最近鄰點，在很大程度上由量綱小而數(shù)值大的特征所決定，這當(dāng)然是一種不合理的、需要解決的問題。為此，本文提出馬氏距離（Mahalanobis Distance）方案。對數(shù)據(jù)集X中的兩點x、x，馬氏距離定義如下：

式中，∑為X的協(xié)方差矩陣，而Q是∑的特征向量組成的矩陣，以上均可通過主流數(shù)據(jù)分析模塊的線性代數(shù)函數(shù)計算求得。

綜上，通過馬氏距離方案定義距離，依據(jù)所定義距離實施SMOTE上采樣，構(gòu)造新的建模數(shù)據(jù)，在更均衡的建模數(shù)據(jù)下實施隨機(jī)森林集成學(xué)習(xí)，最終可得到理想的分類模型和預(yù)測結(jié)果。

四、案例分析

本文對真實的信用卡欺詐數(shù)據(jù)集進(jìn)行數(shù)據(jù)預(yù)處理、模型訓(xùn)練以及實驗分析對比，采用的數(shù)據(jù)集由比利時布魯塞爾ULB（Université Libre de Bruxelles）的研究小組Worldline and the Machine Learning Group搜集整理，可從kaggle官網(wǎng)下載。數(shù)據(jù)集包含由歐洲持卡人于2013年9月某兩天使用信用卡交易所產(chǎn)生的記錄，共284 807筆，其中492筆被認(rèn)定為欺詐，欺詐樣本占總交易數(shù)的0.172%?？梢?，欺詐樣本占比嚴(yán)重偏少，屬于典型的樣本不均衡情形。該數(shù)據(jù)集共有31列，其中Time（時間）和Amount（金額）是原始數(shù)據(jù)，最后一列為類別標(biāo)簽，其余28列為從大量特征經(jīng)由PCA變換得到的28維新特征，記為V1、V2、…、V28。經(jīng)PCA處理后，既降低了樣本復(fù)雜度，又起到了保密原始數(shù)據(jù)、對原始數(shù)據(jù)進(jìn)行脫敏的作用。

（一）數(shù)據(jù)預(yù)處理

該數(shù)據(jù)集是經(jīng)過清洗的數(shù)據(jù)，已經(jīng)進(jìn)行了降維處理，故而28維特征的準(zhǔn)確含義無法定性描述?？纱_定的是28維特征相互正交，特征之間不存在線性相關(guān)。Time列表示每個事務(wù)與數(shù)據(jù)集中第一個事務(wù)之間所相差的秒數(shù)，在本模型中未使用，故可作剔除處理。

（二）模型訓(xùn)練

我們同時訓(xùn)練了邏輯回歸（Logistic Regression）、支持向量機(jī)（Supprot Vector Machine,SVM）、CatBoost、梯度提升決策樹（Gradient Boosting Decision Tree,GBDT）以及隨機(jī)森林（Random Forest,RF）五個業(yè)界應(yīng)用廣泛的基分類器。按照主流的模型數(shù)據(jù)相對多、測試數(shù)據(jù)相對少的配置，從284 807條總體中隨機(jī)抽取80%作為建模數(shù)據(jù)，用于模型訓(xùn)練，其余20%作為測試數(shù)據(jù)，用于模型評價。

對每組建模數(shù)據(jù)進(jìn)行訓(xùn)練，設(shè)置決策樹數(shù)目n為15，特征數(shù)目k為28，即k=K，將測試數(shù)據(jù)代入訓(xùn)練模型，得到預(yù)測值，根據(jù)預(yù)測值和真實值的對比，計算出多個評價指標(biāo)，分別為準(zhǔn)確率、召回率、查準(zhǔn)率、AUC值、F1值。設(shè)真實值為Y，預(yù)測值為Y，定義混淆矩陣為：

表2 混淆矩陣表

基于TP、FN、FP、TN，定義4個評價指標(biāo)為：

AUC（Area Under Curve）值被定義為ROC曲線下的面積，ROC曲線全稱為受試者工作特征曲線，它是以真陽性率（敏感性）為縱坐標(biāo)、假陽性率（1-特異性）為橫坐標(biāo)繪制的曲線。根據(jù)以上定義，可編程或調(diào)用主流數(shù)據(jù)分析模塊的函數(shù)求得AUC值，該值介于0、1之間，值越大分類器的性能越好。

重復(fù)以上步驟30次，以得到對評價指標(biāo)更全面和準(zhǔn)確的觀察。

（三）實驗結(jié)果對比分析

通過循環(huán)實驗，發(fā)現(xiàn)所選取模型都有著較高的準(zhǔn)確率，其中四個超過99.9%，相比而言，RF和CatBoost的準(zhǔn)確率更高，達(dá)99.95%。需要說明的是，準(zhǔn)確率每萬分之一的差距，就代表每一萬筆交易中有一個欺詐檢測判斷錯誤。根據(jù)中國人民銀行《2021年支付體系運行總體情況》的報告，2021年全國銀行共辦理非現(xiàn)金支付業(yè)務(wù)4 395.06億筆，若每提升萬分之一的準(zhǔn)確率，將至少減少四千萬個檢測錯誤發(fā)生?？梢姕?zhǔn)確率的微小提高，放到全社會來看，都會產(chǎn)生較重大的影響。實驗所得具體數(shù)據(jù)見下頁表3。

表3 模型分類預(yù)測對比分析

在此基礎(chǔ)上對比召回率、查準(zhǔn)率、F1值，也都處于較高的水平，但RF和CatBoost模型略有領(lǐng)先，從AUC對比來看，RF和CatBoost相對于LR、SVM、GBDT有著明顯的優(yōu)勢。因此，選擇RF和CatBoost作為基礎(chǔ)分類器進(jìn)行模型提升。

五、模型提升及結(jié)果分析

基于上文基分類器的實驗結(jié)果，將分類效果表現(xiàn)優(yōu)異的CatBoost以及RF作進(jìn)一步提升，引入結(jié)合馬氏距離的SMOTE過采樣方法，設(shè)置近鄰鄰居數(shù)目k為1，增加欺詐數(shù)據(jù)的樣本量至8萬條，增加之后總樣本量為324 298條，此時欺詐樣本占總樣本的21.96%，樣本均衡性顯著改善。兩個模型使用相同的方案進(jìn)行提升，并且同樣隨機(jī)抽取80%和20%作為訓(xùn)練數(shù)據(jù)、測試數(shù)據(jù)，進(jìn)行30次的循環(huán)實驗，并求取平均值，使所得實驗結(jié)果具有充分的可比性。兩個提升后的模型同原模型各項指標(biāo)的對比見表4。

表4 提升模型、基分類器分類效果比較

可見，模型提升后，Maha-Smote-RF相較于基分類器在準(zhǔn)確率方面提升了萬分之三，召回率相應(yīng)下降，但從重要性的角度來說，準(zhǔn)確率的提升更為重要。此外，AUC值提升了0.1108，其他方面也有小幅提升，有著較為理想的綜合改進(jìn)效果。Maha-Smote-CatBoost在AUC值上有提升，但其他方面尤其是準(zhǔn)確率上并沒有表現(xiàn)得更好。四個模型的單個指標(biāo)30次循環(huán)變化情況見圖2—圖6。

圖2 準(zhǔn)確率循環(huán)變化圖

圖3 召回率循環(huán)變化圖

圖4 查準(zhǔn)率循環(huán)變化圖

圖5 AUC值循環(huán)變化圖

圖6 F1值循環(huán)變化圖

實驗表明，Maha-Smote-RF模型在信用卡欺詐檢測問題上，預(yù)測準(zhǔn)確率達(dá)99.8%，在所有模型中最高，F(xiàn)1值高于其他模型，AUC值一直接近于1，表明分類效果高度穩(wěn)定，查準(zhǔn)率和召回率兩個指標(biāo)也都處于模型中的前兩位，綜合誤分類水平最低。綜上，Maha-Smote-RF模型在五個指標(biāo)上綜合表現(xiàn)優(yōu)于Maha-Smote-CatBoost、RF、CatBoost三個模型，欺詐檢測性能最為優(yōu)越。

六、Maha-Smote-RF模型應(yīng)用于審計實務(wù)

（一）新形勢下傳統(tǒng)審計工作面臨的困境

我國信用卡業(yè)務(wù)規(guī)模激增，用卡環(huán)境日趨復(fù)雜。在卡片申請階段，銀行和客戶之間信息不對稱，加之部分銀行為了搶占市場，增加發(fā)卡量，疏忽了對風(fēng)險的管理和控制；在用卡階段，移動支付的普及應(yīng)用造成支付環(huán)節(jié)的安全性下降，信用卡欺詐手段日益復(fù)雜多樣?，F(xiàn)階段我國商業(yè)銀行信用卡審計工作方法主要是書面資料審閱、客觀實物證實以及溝通分析調(diào)查方法等。新的經(jīng)濟(jì)形勢下，傳統(tǒng)的審計工作面臨著以下三方面的困境。

1.審計抽樣方法效度低。商業(yè)銀行有大量的信用卡用戶以及相應(yīng)的交易記錄，依靠現(xiàn)有的審計方法，加之人力資源和時間資源的限制，只能進(jìn)行統(tǒng)計抽樣和經(jīng)驗抽樣審計，即使是各個部門相互配合，也難以做到對信用卡客戶以及交易的全面精準(zhǔn)把握，容易遺漏欺詐風(fēng)險點。

2.審計分析方法滯后。商業(yè)銀行現(xiàn)有的信用卡審計分析系統(tǒng)主要是建立在信貸審計需求之上，然而信用卡業(yè)務(wù)和信貸業(yè)務(wù)在交易筆數(shù)、交易方式、審核授信以及業(yè)務(wù)總量等主要風(fēng)險點有較大差距，再加上信用卡營銷和發(fā)卡環(huán)節(jié)中便攜式發(fā)卡機(jī)、網(wǎng)絡(luò)虛擬卡、營銷APP等新技術(shù)層出不窮，信用卡審計分析系統(tǒng)滯后于業(yè)務(wù)發(fā)展。因此，現(xiàn)有的信用卡審計分析系統(tǒng)無法滿足信用卡業(yè)務(wù)日益復(fù)雜的審計要求。

3.信息科技審計人才短缺。信息科技審計要求相關(guān)的專業(yè)人員了解掌握兩種語言，一種是信息語言，一種是審計語言，將審計需求轉(zhuǎn)化成可以實現(xiàn)的技術(shù)手段，通過模型工具獲取審計所需要的相關(guān)數(shù)據(jù)，甚至利用技術(shù)打破原有的審計思維模式，提供更加有效的審計證據(jù)。然而目前，無論是內(nèi)部審計部門還是會計師事務(wù)所，這樣的復(fù)合型人才都十分稀缺，并且短期內(nèi)難以培養(yǎng)成熟的專業(yè)人員。

綜上，當(dāng)前我國信用卡業(yè)務(wù)審計方法不夠有效，風(fēng)險管控機(jī)制不夠成熟，審計效果不夠理想。在大數(shù)據(jù)背景下，審計部門如何利用信用卡海量的數(shù)據(jù)資源，將大數(shù)據(jù)和信息化審計手段有效結(jié)合，從而提升信用卡業(yè)務(wù)審計的質(zhì)量，已成為審計部門面臨的重要問題。

（二）信用卡欺詐審計工作思路

信用卡欺詐可分為申請欺詐、交易欺詐和用途欺詐三種類型。本文結(jié)合當(dāng)前信用卡業(yè)務(wù)審計工作困境，提出可信賴的高性能信用風(fēng)險和異常交易分類模型，即Maha-Smote-RF欺詐檢測模型，其應(yīng)用于信用卡欺詐審計思路如下：第一步，構(gòu)建數(shù)據(jù)庫。金融機(jī)構(gòu)對信用卡申請、交易等所產(chǎn)生的歷史數(shù)據(jù)，以及已發(fā)現(xiàn)欺詐的客戶進(jìn)行記錄，實時存儲，形成數(shù)據(jù)庫，將這部分?jǐn)?shù)據(jù)作為模型的原始數(shù)據(jù)。第二步，預(yù)處理訓(xùn)練數(shù)據(jù)。數(shù)據(jù)庫中包含的原始數(shù)據(jù)可能是多源、異構(gòu)、高維度的，無法直接用于模型訓(xùn)練，必須首先對數(shù)據(jù)進(jìn)行清洗、整理、去重、并采用諸如本文歐洲持卡人數(shù)據(jù)集中的PCA降維處理方法，最終得到與上列案例類似的規(guī)范輸入數(shù)據(jù)。第三步，訓(xùn)練模型。對輸入數(shù)據(jù)采用與本文案例類似方法進(jìn)行Maha-Smote-RF模型訓(xùn)練，構(gòu)造集成學(xué)習(xí)強(qiáng)分類器。第四步，檢測目標(biāo)交易。用訓(xùn)練后的Maha-Smote-RF模型對目標(biāo)交易進(jìn)行分類識別，獲取預(yù)測結(jié)果。對客戶信用卡申請、交易的狀況做出判斷，標(biāo)定異常交易和異常客戶，并以此作為審計疑點，提交相關(guān)部門進(jìn)一步核實查證。

七、結(jié)語

本文以信用卡欺詐檢測為例，基于真實的信用卡欺詐數(shù)據(jù)集，通過對不平衡分類、機(jī)器學(xué)習(xí)、集成學(xué)習(xí)技術(shù)等方面的研究，提出了融合基礎(chǔ)分類器、數(shù)據(jù)生成器的Maha-Smote-RF欺詐檢測模型，該模型與其他信用卡欺詐檢測方法相比，可以更好地克服不平衡樣本誤分類的缺陷。從實驗結(jié)果看，模型準(zhǔn)確率達(dá)到99.98%，AUC值達(dá)到0.9998，查準(zhǔn)率達(dá)到99.99%，各方面表現(xiàn)優(yōu)越。

在實驗的基礎(chǔ)上，結(jié)合當(dāng)前審計工作的難點，本文提出檢測模型在信用卡欺詐審計實務(wù)中的應(yīng)用思路，以提升金融機(jī)構(gòu)內(nèi)部審計部門、會計師事務(wù)所等識別信用卡欺詐行為的效率和審計工作的效果，可有效防范金融風(fēng)險放大。本文是集成學(xué)習(xí)技術(shù)在消費金融審計領(lǐng)域的探索，為大數(shù)據(jù)審計實務(wù)拓寬了思路，為科技強(qiáng)審開辟了可行路徑。