數(shù)字信用交易反欺詐研究進展

2023-10-29 04:20:22劉華玲曹世杰許珺怡陳尚輝

計算機與生活 2023年10期

劉華玲，曹世杰，許珺怡，陳尚輝

上海對外經(jīng)貿(mào)大學統(tǒng)計與信息學院，上海 201620

互聯(lián)網(wǎng)信息時代，數(shù)字經(jīng)濟成為引領全球經(jīng)濟社會變革、推動我國經(jīng)濟高質(zhì)量發(fā)展的重要引擎，以大數(shù)據(jù)、人工智能為代表的新一代信息技術在經(jīng)濟社會的不斷擴張與滲透，催生出數(shù)字金融新業(yè)態(tài)[1]，其中數(shù)字信用交易作為伴隨消費模式升級與普惠金融的發(fā)展而成的新模式，迅速在全國捕獲了大量用戶，成為數(shù)字金融體系的重要組成部分，為我國數(shù)字經(jīng)濟的高質(zhì)量發(fā)展鋪平了道路。但另一方面，以惡意逾期、冒用他人信用賬戶為代表的數(shù)字信用交易欺詐行為同樣變得更為隱蔽，2020 年全球范圍內(nèi)數(shù)字信用支付欺詐交易損失較2018年增加了35%[2]，目前仍呈上升態(tài)勢。我國的情況同樣不容樂觀，信用支付逾期半年未償信貸總額在2019年略有下降后再次回升[3]。數(shù)字信用欺詐交易的存在不僅為用戶、銀行業(yè)在內(nèi)的個體及金融機構帶來大量財物上的損失，更會讓消費者喪失對數(shù)字支付的信心，嚴重阻礙我國數(shù)字經(jīng)濟的發(fā)展。

欺詐交易造成的嚴重損失與用戶對交易安全的硬性需求，使數(shù)字化交易安全問題受到社會各界的廣泛關注。面對數(shù)字交易信息逐步呈現(xiàn)出的海量多源、高維異構等新特點，傳統(tǒng)的專家系統(tǒng)與早期的機器學習分類算法難以適應現(xiàn)有數(shù)據(jù)環(huán)境，金融科技革命開始蓬勃發(fā)展，螞蟻金服、Paypal 等互聯(lián)網(wǎng)科技企業(yè)更是引領起反欺詐研究創(chuàng)新的變革新浪潮。

以海量數(shù)據(jù)為驅(qū)動力，融合統(tǒng)計學、數(shù)學、機器學習和人工智能算法的數(shù)據(jù)智能技術成為反欺詐研究中的重要工具。相關算法已在數(shù)字信用反欺詐研究領域得到廣泛關注與應用，隨之涌現(xiàn)出多篇基于不同視角聚焦數(shù)字信用交易反欺詐研究的綜述性文章。Bansal 和Garg 兩位學者[2]從風險來源出發(fā)進行綜述，詳細論述了當前國外數(shù)字信用欺詐交易的主要類型及犯罪手段，其文章能夠使讀者快速了解信用支付反欺詐研究的研究背景，但由于具體業(yè)務的開展方式在各國間不盡相同，文章介紹的欺詐交易方式與我國的情況可能有所差異。文獻[4-7]從算法的識別性能出發(fā)進行綜述。Popat 等學者在文獻[4]中分析并對比了8 類機器學習分類算法在數(shù)字信用欺詐檢測中的應用。文獻[5]重點分析了當前研究領域受關注最多的6 類有監(jiān)督模型與4 類無監(jiān)督模型的性能優(yōu)劣，但上述文章模型對比均停留在Baseline階段，缺乏最新的研究進展。文獻[6]將目光聚焦于機器學習在反欺詐研究中的應用，但涉及文獻較少，涵蓋觀點不夠全面。Ryman、Krause 等學者[7]在真實體量的交易數(shù)據(jù)集上對最新的欺詐交易識別模型進行實證檢驗，文章認為與當時的基準測試（2017 年）相比，僅有8 種方法可以應用到實際業(yè)務場景中，遺憾的是由于數(shù)據(jù)集的私密性，無法將其分享出來用作后續(xù)研究的對比。文獻[8]整合并羅列了領域中常用的公開數(shù)據(jù)集與獲取地址，方便讀者進行查找與實驗，彌補了文獻[7]的不足。Al-Hashedi 等學者[9]聚焦于包含信用交易反欺詐研究在內(nèi)的金融反欺詐領域，匯總了自2009 年至2019 年由ACM、IEEE、Emerald、Elsevier 出版社出版的相關文章，從模型描述、數(shù)據(jù)集匯總、算法的橫向?qū)Ρ鹊榷嘟嵌冗M行了文獻綜述，是目前已發(fā)表的文章中涉獵時間最廣、角度最為全面的綜述性文章之一。

綜上所述，目前面向信用支付反欺詐研究的綜述性文章大多數(shù)涵蓋內(nèi)容不夠全面，文獻[9]雖然涉及內(nèi)容廣泛，但是文章著眼于整體金融欺詐檢測領域，就數(shù)字信用交易反欺詐研究而言，深度略顯不足，目前仍舊缺少對數(shù)字信用交易反欺詐研究進行全面、深入梳理與總結的工作。作為最早的數(shù)字化非現(xiàn)金交易方式之一，數(shù)字信用支付擁有目前最成熟的數(shù)據(jù)積累和理論基礎，其反欺詐算法的研究進展不僅關乎自身業(yè)務發(fā)展，對整體數(shù)字支付環(huán)境下的交易風險防范具有更為重要的啟示意義。本文在上述文章的基礎上進一步對國內(nèi)外的研究成果進行綜述，意圖為讀者呈現(xiàn)系統(tǒng)、全面的分析與總結。

1 數(shù)字信用反欺詐研究簡要概述

1.1 數(shù)字信用欺詐交易定義及分類

數(shù)字信用欺詐交易是指以非法占有為目的，違反信用支付管理法規(guī)進行的詐騙行為[10]。根據(jù)欺詐者的身份可分為內(nèi)部信用欺詐交易（internal credit fraud payment）和外部信用欺詐交易（external credit fraud payment）兩種模式[11]。內(nèi)部信用欺詐交易的欺詐者為用戶本人，通過偽造身份信息、惡意逾期等行為違法獲利；外部信用欺詐交易的欺詐者為非銀行、用戶本人在內(nèi)的第三方惡意用戶，通過獲取信用卡/賬戶的詳細信息及相應個人憑證偽裝成持卡者進行違法套利活動。

從實施欺詐交易的方式入手，數(shù)字信用欺詐交易主要可分為信用卡丟失/被盜、快捷支付漏洞、使用偽造信用卡、釣魚網(wǎng)站攻擊、電子賬戶泄露、惡意逾期等類別，如圖1所示。

圖1 數(shù)字信用欺詐交易的主要方式Fig.1 Main methods of digital credit fraud transactions

（1）信用卡丟失/被盜（lost/stolen card）：持卡者的信用卡開通免密支付的同時出現(xiàn)丟失或被盜的情況，被不法分子獲取后用于非法套利或消費從而產(chǎn)生損失。

（2）快捷支付漏洞（card not present）：不法分子獲取到持卡者的銀行卡卡號、戶名、手機號碼等信息，并使用偽造的電話卡獲取第三方支付平臺發(fā)送到用戶手機的動態(tài)口令，從而完成支付。

（3）使用偽造的信用卡（fake credit card）：以制作假信用卡或?qū)φ鎸嵭庞每ǖ男畔⑦M行涂改、偽造為代表的違法行為。

（4）釣魚網(wǎng)站攻擊（Phishing）：向用戶發(fā)送虛假購物網(wǎng)站，從而獲取用戶在該網(wǎng)站上填寫的信用賬戶相關信息，例如客戶的賬號、登錄憑據(jù)、信用支付密碼等，通過這些信息，不法分子即可完成欺詐交易。

（5）電子賬戶泄露（account takeover）：與釣魚網(wǎng)站攻擊造成損失的原因相似，消費者信用賬戶的賬號及支付密碼出現(xiàn)泄露，被不法分子獲取，從而造成損失。

（6）惡意逾期（maliciously overdue）：持卡者使用信用支付消費后在還款日故意逾期，不償還貸款的行為。

1.2 欺詐交易識別問題描述及研究難點

數(shù)字信用欺詐交易識別問題的定義如下：給定一段時間內(nèi)的歷史交易數(shù)據(jù)集D={d1,d2,…,dn}及每條交易數(shù)據(jù)di對應的類別標簽li∈{l1,l2}，其中di代表一條數(shù)字信用交易記錄的具體信息，l1、l2分別代表正常交易與欺詐交易。數(shù)字信用交易反欺詐研究旨在通過數(shù)據(jù)挖掘算法提取數(shù)據(jù)集中欺詐行為模式，進而識別新發(fā)生交易中的潛在欺詐交易，輸出結果為新發(fā)生的交易申請屬于正常交易或欺詐交易的概率。因此欺詐交易識別任務本質(zhì)是一個二分類問題。結合數(shù)字經(jīng)濟下具體的應用場景及業(yè)務特點，數(shù)字信用欺詐交易識別問題當下主要有四個研究難點。

（1）數(shù)字支付背景下交易規(guī)模激增，傳統(tǒng)審核方式難以支撐。

根據(jù)央行發(fā)布的數(shù)據(jù)顯示，2020 年銀行共處理電子支付業(yè)務2 352.23 億筆，其中網(wǎng)上支付業(yè)務879.31 億筆，移動支付業(yè)務1 232.20 億筆，分別同比增長12.46%和21.48%。單日新增數(shù)字信用支付記錄存儲量從2012 年的TB 級向如今的PB 級躍遷，在如此龐大的交易數(shù)量下，人工審核或基于規(guī)則的算法在檢驗精度與效率上難以取得令人滿意的結果。

（2）公開數(shù)據(jù)集少，信息敏感度高。

回顧近年來的發(fā)展，數(shù)據(jù)挖掘技術愈加成熟，但是由于交易數(shù)據(jù)的私密性，銀行禁止在未經(jīng)同意下對客戶的消費信息進行任何披露，數(shù)字信用反欺詐研究進展緩慢[12]。

（3）數(shù)據(jù)集樣本分布嚴重失衡，模型分類結果有偏。

基于信用消費記錄構成的數(shù)據(jù)集中，正常用戶的交易數(shù)據(jù)樣本數(shù)量遠多于需要著重關注的欺詐交易樣本數(shù)?，F(xiàn)實業(yè)務中，正常用戶與欺詐用戶的比例甚至能達到1 000∶1以上[13]。數(shù)據(jù)集類別分布的嚴重失衡將導致模型對正常交易識別過度，對欺詐交易的樣本行為特征識別不足，嚴重影響模型的檢測效果[14-15]。在反欺詐研究中，欺詐交易的錯分代價遠遠高于正常樣本的錯分代價，欺詐交易才是要重點關注的對象。

（4）部分交易特征高度相似，分類難度大幅提升。

數(shù)據(jù)集類別分布失衡并非信用支付欺詐識別任務中的主要難題，事實上，只要各類分布可以被該類樣本數(shù)據(jù)完全表達，且不同類別樣本之間不存在重疊，以圖2中的二維空間為例，如圖2（a）所示，即使數(shù)據(jù)集構成比例嚴重失衡，傳統(tǒng)的分類方法依舊可以取得較好的識別效果。但在信用支付欺詐識別問題中，部分欺詐交易樣本表現(xiàn)出來的特征與正常交易的特征具有高度的相似性，將樣本映射在特征空間中如圖2（b）所示。如何優(yōu)化重疊區(qū)域的分類問題，是領域內(nèi)研究者解決信用支付欺詐識別問題的主要矛盾，對重疊區(qū)域進行量化表達并融入模型也是目前數(shù)字信用反欺詐研究領域的最新方向。

圖2 樣本在特征空間中的映射表示Fig.2 Mapping representation of samples in feature space

1.3 數(shù)據(jù)描述及特征工程

1.3.1 數(shù)據(jù)描述

表1羅列了實際業(yè)務場景中，新的交易申請發(fā)起時會被發(fā)卡機構或三方支付機構記錄的基本屬性，以展示信用支付欺詐交易識別特征表的主要框架。盡管交易特征表的具體結構在不同的發(fā)卡機構之間可能略有不同，但表1中涉及的特征在各機構的數(shù)據(jù)庫中應當均有收錄且被應用于欺詐交易識別模型的構建中。

表1 信用支付欺詐交易識別特征Table 1 Features of credit payment fraud transactions

1.3.2 特征工程

在欺詐識別模型搭建中，基于原始數(shù)據(jù)對交易行為信息進行總結和表示，構建有效特征變量的特征工程是流程內(nèi)極為關鍵的一步，特征的質(zhì)量將直接影響模型的性能，具體來講，特征越好，靈活性越強，構建的模型也將越簡單、性能越出色。

對于信用支付欺詐交易識別問題，數(shù)據(jù)庫由不同用戶在相同時間跨度內(nèi)的歷史交易記錄構成，但直接使用這些由表1 中初始特征組成的歷史信息建模是困難的。如果將單筆交易記錄作為建模對象，則忽略了不同用戶之間的異質(zhì)性與同一用戶不同交易之間的連續(xù)性，造成關聯(lián)賬戶歷史交易信息的丟失；如果將信用賬戶作為建模對象，使用每個賬戶的歷史交易記錄進行獨立建模，雖然解決了上述問題，但僅能用于重點客戶分析，在數(shù)字經(jīng)濟海量用戶的背景下無法大規(guī)模實施。因此，除去對現(xiàn)有特征進行篩選與提煉，利用特征工程對用戶的歷史交易模式進行歸納與總結，作為新的特征補充到交易記錄中完善用戶畫像是保證欺詐識別模型有效性的重要基礎。

在現(xiàn)有的研究中，大多數(shù)學者結合RFM 框架進行特征工程，其中R（recency）代表客戶當前交易距上一次發(fā)生交易之間的時間間隔、F（fequency）代表客戶的交易頻率，M（monetary）代表客戶的消費金額，配合不同跨度的時間窗口即可捕獲用戶長、短期交易行為特征。

Zhang 等學者在研究中認為RFM 框架雖然考慮了不同用戶之間的差異，但是忽略了信用支付交易自身的內(nèi)在異質(zhì)性，即使是同一用戶面對不同的交易類型也具有不同的行為模式，因此在RFM 框架的基礎上提出了面向同質(zhì)性行為分析（homogeneityoriented behavior analysis，HOBA）的特征工程框架[16]，配合交易聚合策略從交易類型、聚合周期、交易行為、聚合統(tǒng)計指標四方面完成了更精細的關聯(lián)賬戶歷史行為特征提取，使用不同的分類器在中國最大的商業(yè)銀行提供的數(shù)據(jù)集上進行檢驗，結果顯示經(jīng)過HOBA框架處理后的數(shù)據(jù)所構建的模型識別精度有顯著的提高。

簡單有效是RFM 框架的優(yōu)勢，但數(shù)據(jù)集在結構化存儲方式下，不同用戶間的交易樣本被默認是相互獨立的，用戶之間諸如社會關系、交易位置在內(nèi)的空間聯(lián)系被完全忽略，無法將此類非結構關系信息提取到行為特征中。直到近年來，以Node2Vec[17]、SDNE（structural deep network embedding）[18]為代表的圖嵌入算法的興起，將交易信息從結構化數(shù)據(jù)轉化為圖結構數(shù)據(jù)，并基于圖網(wǎng)絡從全局視角挖掘賬戶之間的空間聯(lián)系，生成新補充特征應用于風險決策模型成為可能。Vlasselaer 等學者基于RFM 特征框架進行改進，提出了APATE（anomaly prevention using advanced transaction exploration）[19]特征工程方法，一方面使用RFM 框架提取客戶消費歷史的內(nèi)在特征，另一方面依據(jù)客戶與商家的聯(lián)系構建了消費者-商家信息網(wǎng)絡，基于網(wǎng)絡為客戶建立時間依賴的信用評分，面對新傳入的交易申請，網(wǎng)絡特征的加入使APATE框架在相同的分類模型上呈現(xiàn)出更好的分類效果。

RFM 框架和基于RFM 框架進行改進的特征工程方法很好地完成了分析用戶行為模式、完善用戶畫像的需求，但是略有不足的是上述方法需要研究者對業(yè)務具備深入理解，以手工構造的方式進行開展。隨著數(shù)字經(jīng)濟的發(fā)展，不同機構業(yè)務場景下的收錄特征與欺詐交易模式不盡相同，基于專家的手動特征構建方法難以滿足與日俱增的欺詐識別需求。由此，王成等學者提出面向網(wǎng)絡支付的自動化特征工程方法[20]，通過定制化轉換函數(shù)設計在特征集合上自動生成潛在補充特征，依托決策樹模型對當前特征重要性進行排序并對數(shù)據(jù)集進行劃分，若當前最佳劃分屬性為生成特征，則將其保留并更新對應轉換函數(shù)的權重，隨后在子節(jié)點中重復上述過程，直至達到結束條件。與隨機構造、Cognito 等多種自動化特征工程框架進行對比，效率更快、精度更高。此類自動化特征工程方法也逐漸成為反欺詐研究前期特征挖掘階段的有利工具。圖結構特征構建也同樣趨于自動化，文獻[19]率先將圖表征學習算法Graphsage[21]引入信用支付欺詐研究領域，無需繁瑣的手動特征工程即可對消費者-商家交易網(wǎng)絡進行特征化處理，從交易網(wǎng)絡與結構的視角提取用戶行為模式，相較于傳統(tǒng)的圖特征提取方法，提高了信用支付欺詐識別的效率和準確性，有力展示了圖歸納表示學習在信用支付欺詐交易識別問題上自動提取特征的有效性。

1.4 信用支付欺詐交易識別模型主要建模策略

通過1.2 節(jié)的分析，信用支付欺詐交易識別本質(zhì)上是一個面對極度不均衡數(shù)據(jù)集的二分類問題，現(xiàn)有研究中，對于不平衡數(shù)據(jù)集的建模思路主要分為兩類：（1）從數(shù)據(jù)層面出發(fā)，主要思想在于通過重抽樣或者生成偽數(shù)據(jù)的方法對數(shù)據(jù)集進行平衡，隨后運用傳統(tǒng)的分類方法進行研究。（2）從模型層面出發(fā)，從模型的理論切入，通過改進分類算法的損失函數(shù)或?qū)W習策略，提高對少數(shù)類樣本特征的學習能力。其中代表性的算法為代價敏感分類算法，對少數(shù)類樣本施加一個較高的錯分代價因子以達到提高分類效果的目的[22-24]。在數(shù)字信用反欺詐研究業(yè)務中，嚴峻的類別不平衡性與特征空間內(nèi)重疊區(qū)域樣本的存在，使得從單一層面進行改進的識別算法難以取得令人滿意的效果，因此相關研究者通常將兩個改進方向進行融合，雖然模型的復雜度有所提升，但也結合了兩者的優(yōu)點，模型的性能更加穩(wěn)定。

1.5 評價準則

為了準確評估欺詐識別模型的性能，評價指標的選取至關重要。面對正負類樣本分布極度失衡的數(shù)據(jù)集，以分類準確率（Accuracy）為代表的經(jīng)典評價指標會側重評估多數(shù)類樣本（正常交易）的檢測結果。但反欺詐研究中，對少數(shù)類樣本（欺詐交易）的識別性能才是重點關注的對象，誤判欺詐交易所帶來的損失要遠高于正常交易的錯分代價，因此整體的分類準確率并不能迎合真實應用中的業(yè)務需求。在目前研究中，通常在精確率（Precision）、召回率（Recall）、F1分數(shù)（F1-score）、G-mean、馬修斯相關系數(shù)（Matthews correlation coefficient，MCC）以及AUROC值或AUPRC值中選取部分作為模型評價指標。

本文將數(shù)據(jù)集中的欺詐樣本定義為正類，將正常樣本定義為負類，可得到混淆矩陣如表2所示。

表2 二分類問題的混淆矩陣Table 2 Confusion matrix of binary classification problem

（1）精確率（Precision）：又稱為查準率，用來表示預測為正類的樣本中被正確分類的比重，通常會受到數(shù)據(jù)集不平衡率的影響，不平衡率越高對其影響越大。

（2）召回率（Recall/Sensitive/TPR（true positive rate））：又稱查全率、靈敏度、真陽性率，是模型對正類樣本識別全面程度的一個度量。

（3）F1 分數(shù)（F1-score）：在不平衡分類任務中，精確率和召回率通常是“此消彼長”的關系，F(xiàn)1 分數(shù)對精確率與召回率進行了綜合，是兩者的調(diào)和平均值，同時考慮了正類樣本檢測結果的準確性與全面性。在評價過程中，F(xiàn)1分數(shù)的值越高，認為分類器的性能越好。

（4）G-mean：G-mean 同時度量了正類樣本和負類樣本檢測結果的全面性，優(yōu)點為對數(shù)據(jù)集中類別分布不敏感，評價過程中，G-mean 值越高，分類器的性能越好。

（5）馬修斯相關系數(shù)（MCC）：馬修斯相關系數(shù)同時考慮到正類樣本與負類樣本的識別性能，本質(zhì)上是樣本真實情況與基于分類器得到預測結果之間的相關系數(shù)，馬修斯相關系數(shù)的取值范圍為[-1,1]，取值為1時，代表模型識別結果與真實情況完全相同，取值為-1時代表模型識別結果與真實情況完全不符。

（6）AUROC值與AUPRC值

ROC 曲線全稱為“受試者工作曲線”（receiver operating curve），橫坐標為假陽性率（FPR：假正例FP在全部真實負例樣本中的占比），縱坐標為真陽性率（TPR）即召回率，對每一個分類閾值，分類器都會給出對應的FPR 與TPR 值（對應坐標系中的一個點），所有坐標點連接而成的平滑曲線即為ROC 曲線。AUC 值（一般特指AUROC）則是ROC 曲線下的面積，能夠量化地反映基于ROC 曲線衡量出的模型性能，AUC值越大，模型的分類性能越好。

P-R 曲線全稱“精確率-召回率曲線”（precisionrecall curve），橫坐標為召回率，縱坐標為精確率，同F(xiàn)1-score 一樣是對上述兩個指標的綜合度量，P-R曲線的繪制方法與ROC 曲線相似，AUPRC 值則是P-R曲線下的面積，AUPRC值越大，模型的分類性能越好。

AUROC 值與AUPRC 值計算方式相似，均通過計算曲線下面積度量模型性能，但在實際應用中存在差異。相比P-R曲線，ROC曲線的形狀在正負樣本的分布發(fā)生變動時能夠基本保持不變，但P-R曲線會發(fā)生較強烈的變化。這個特點讓AUROC 值能夠降低不同測試集帶來的干擾，更加客觀地衡量模型的自身性能，但當研究需要測評模型在某特定數(shù)據(jù)集上的表現(xiàn)時，AUPRC值更加直觀。

2 數(shù)字信用反欺詐研究中的數(shù)據(jù)均衡算法

數(shù)據(jù)均衡算法的目的在于通過對數(shù)據(jù)集進行調(diào)整，抵消樣本分布占比不均衡帶來的負面影響，使處理后的數(shù)據(jù)集能夠滿足傳統(tǒng)分類算法的需求，而在數(shù)字信用反欺詐研究中，海量的正常交易樣本已經(jīng)使得正常用戶的行為特征得到充分表達，如何通過過采樣技術對欺詐交易樣本進行補充是領域內(nèi)的研究重點。本章將重點對欺詐交易識別領域運用到的數(shù)據(jù)均衡算法進行總結。

目前對數(shù)據(jù)集進行平衡的方法可分為從重抽樣角度出發(fā)和從數(shù)據(jù)分布角度出發(fā)兩個思路，如表3所示：重抽樣角度下的均衡算法提出時間早，理論簡單，應用廣泛，但過于依賴于已有樣本數(shù)據(jù)的特征表現(xiàn)，沒有考慮到數(shù)據(jù)集的整體分布情況；基于數(shù)據(jù)分布角度的算法彌補了這一不足，其中生成對抗網(wǎng)絡（generative adversarial network，GAN）是近年來深度學習技術在分類問題上的最新成果，采用內(nèi)部對抗機制對網(wǎng)絡進行訓練，擬合數(shù)據(jù)的實際分布，在學術界和工業(yè)界均受到廣泛關注，是該類方法中最具代表性的前沿算法，缺點是理論較為復雜，時間復雜度有所增加。表4 對各類數(shù)據(jù)均衡算法的優(yōu)點與局限性進行了細致的總結與歸納。

表3 數(shù)字信用反欺詐研究中的數(shù)據(jù)均衡算法Table 3 Data balance algorithms in anti-fraud research of digital credit

表4 各類數(shù)據(jù)均衡算法的優(yōu)點與局限性Table 4 Advantages and limitations of various data balance algorithms

2.1 基于重抽樣角度的數(shù)據(jù)均衡算法

基于重抽樣技術對數(shù)據(jù)集進行補充的策略中，最早被提出的算法為隨機過采樣與隨機欠采樣技術。隨機過采樣技術通過對少數(shù)類樣本進行簡單隨機的重復抽取，達到平衡數(shù)據(jù)集的目的，適用于數(shù)據(jù)集不平衡度較輕的場景，在樣本構成差異過大的數(shù)據(jù)集中，隨機過采樣方法容易產(chǎn)生過擬合問題。隨機欠采樣技術旨在通過對多數(shù)類樣本進行隨機的刪減，縮小樣本量間的差距，但是隨機欠采樣技術很容易將一些重要的多數(shù)類樣本刪除。

為了解決隨機重采樣技術的上述缺陷，學者們將重點從樣本點本身轉向了樣本點的局部鄰域。Chawla等學者[25]提出了SMOTE（synthetic minority oversampling technique）算法，將少數(shù)類中的每個樣本點均作為一個種子，尋找其相同類別的K-近鄰（K-nearest neighbor，K-NN）樣本，按照一定的比例在近鄰樣本與種子樣本之間生成新樣本，對少數(shù)類樣本進行補充。He 等學者[26]進一步提出ADASYN（adaptive synthetic sampling approach for imbalanced learning）方法，分析了每個種子樣本K-鄰域中多數(shù)類樣本的分布情況，結合數(shù)據(jù)不平衡率合成樣本，自適應地將決策邊界轉移到難以學習的樣本。上述算法一經(jīng)提出便受到了學者們的廣泛接納，但是存在以下兩方面問題：首先SMOTE 與ADASYN 算法將少數(shù)類別中的所有樣本均作為種子點生成新樣本，忽略了樣本中異常點的問題，從而導致生成的樣本中存在噪聲節(jié)點；其次，沒有考慮到種子節(jié)點與K-近鄰節(jié)點間多數(shù)類樣本的特征分布情況，盲目地生成均衡樣本會加重數(shù)據(jù)集在特征空間中的重疊區(qū)域的復雜度，使該部分樣本更加難以區(qū)分[27-28]。

針對上述不足，Batista等學者[29]提出了欠采樣與過采樣技術相結合的方法，從而減少均衡數(shù)據(jù)時需要補充的欺詐樣本數(shù)量。Han等學者[30]對樣本點局部鄰域的分布情況進行更加深入的研究，提出Borderline-SMOTE 方法，將少數(shù)類樣本分為安全樣本、危險樣本與噪音樣本，僅使用邊界上的樣本作為種子生成新樣本點，緩解了噪音節(jié)點的生成；隨后的Safe Level SMOTE[31]、LN-SMOTE（local neighbourhood extension of SMOTE）[32]兩種技術在Borderline-SMOTE算法基礎上不僅關注種子樣本局部子區(qū)域的分布，而且對其近鄰樣本的鄰域進行分析，基于鄰域分布確定樣本合成權重，噪聲樣本點的問題進一步得以遏制，但仍沒有關注均衡樣本對重疊區(qū)域造成的影響。直到Napierala 與Stefanowski 兩位學者[33]從數(shù)據(jù)集的結構特征出發(fā)，將少數(shù)類樣本劃分為安全樣本、邊界樣本、稀有樣本和異常值四種情況，通過分析各類初始樣本生成的均衡樣本對不平衡分類器的影響，為解決均衡樣本會加重重疊區(qū)域復雜度的問題提供了思路。

在最新的研究中，王芳等學者[34]在Borderline-SMOTE 的基礎上提出了鄰域自適應SMOTE 算法（neighborhood adaptive SMOTE algorithm，AdaNSMOTE），通過跟蹤少數(shù)類樣本點與其近鄰樣本構成的超矩形區(qū)域內(nèi)的精度變化，自動為每個少數(shù)類樣本點確定要合成的少數(shù)類樣本數(shù)量，使過采樣后的數(shù)據(jù)集可以更逼近原始少數(shù)類樣本的分布。梅大成等學者[35]面對SMOTE算法及其改進算法均比較依賴原始數(shù)據(jù)集分布的問題，提出了邊界與密度自適應的SMOTE 算法（SMOTE algorithm for feature boundary and density adaptation，BDA-SMOTE），一方面對局部的少數(shù)類樣本進行密度調(diào)整，通過非線性映射擴大少數(shù)類樣本局部密度的差異，減少噪聲樣本的干擾，另一方面將根據(jù)特征邊界的特性將數(shù)據(jù)分為邊界與非邊界樣本，通過設定不同的安全區(qū)域擴展數(shù)據(jù)的原始分布，有效防止邊界混淆與過擬合，但性能提升的背后是模型復雜度的大幅增加，可能會成為其應用于大規(guī)模數(shù)據(jù)時的嚴重阻礙。張忠良等學者[36]將SMOTE算法與Boosting集成學習算法結合起來構建了一種基于高斯過采樣的集成學習算法（GSMOTEBoost），增加基分類器多樣性的同時，提高分類系統(tǒng)的魯棒性。

文獻[35-36]從種子節(jié)點的鄰域出發(fā)，有意識地關注均衡樣本對近鄰空間內(nèi)數(shù)據(jù)分布的影響，生成的均衡樣本更加穩(wěn)健，但上述研究并不能反映數(shù)據(jù)集均衡前后全局特征空間內(nèi)重疊區(qū)域的變動情況。如何將重疊度即重疊區(qū)域的樣本量在數(shù)據(jù)集中的占比作為監(jiān)督指標融入到欺詐識別模型中，做到均衡數(shù)據(jù)集的同時優(yōu)化樣本在特征空間中的分布成為學者們的最新研究方向。Omar等學者[37]基于K-近鄰算法定義了用于表征數(shù)據(jù)集重疊度的新指標Aug-R，并將ADASYN算法與特征選擇技術結合起來提出了ROA算法（reduce overlapping with ADASYN）。ADASYN 算法用于對數(shù)據(jù)集進行均衡，基于彈性網(wǎng)算法構造損失函數(shù)對數(shù)據(jù)集進行特征選擇，模型中的超參數(shù)則以最小化Aug-R進行確定。實驗結果顯示，運用ROA算法均衡后的數(shù)據(jù)集訓練出的邏輯回歸模型與支持向量機的欺詐識別性能大幅提升，為基于重抽樣角度的信用支付欺詐交易識別模型提供了新研究方向。

2.2 基于生成對抗網(wǎng)絡的數(shù)據(jù)均衡算法

生成對抗網(wǎng)絡（GAN）[38]是生成式模型最新的、也是目前最為成功的一項技術。模型的構建受到了博弈論中零和博弈思想的啟發(fā)，由生成器（generator）與判別器（discriminator）兩個子網(wǎng)絡構成。生成器基于給定的隨機噪聲合成數(shù)據(jù)，目的是產(chǎn)生和真實樣本相似的偽樣本，來混淆判別器使其無法判別；判別器用來判別輸入的樣本是真實樣本還是偽樣本。在訓練過程中，前者試圖產(chǎn)生更接近真實數(shù)據(jù)的偽樣本，后者試圖更完美地分辨真實數(shù)據(jù)與來自生成器的合成數(shù)據(jù)，兩個子網(wǎng)絡在對抗中進化，進化后再投入到下一輪的對抗訓練中，當生成器學習到真實數(shù)據(jù)的樣本分布時，模型訓練達到最終的平衡點，生成對抗網(wǎng)絡的流程圖如圖3所示。

圖3 生成對抗網(wǎng)絡流程圖Fig.3 Flow chart of generative adversarial network

由于生成對抗網(wǎng)絡可以模擬真實樣本數(shù)據(jù)的分布，經(jīng)過生成器生成的偽樣本可看作從真實樣本的分布中采樣得到的，有效避免了重采樣和局部采樣產(chǎn)生的均衡樣本會增加重疊區(qū)域復雜度的問題。

Fiore等學者[39]率先將GAN應用到欺詐交易識別領域，通過擬合欺詐交易樣本的分布模式，生成偽欺詐交易樣本完成對數(shù)據(jù)集的補充。文章選取了SMOTE 算法作為對比模型，并測試了融入不同數(shù)量偽樣本的訓練數(shù)據(jù)集對欺詐識別模型性能的影響，當生成的偽樣本數(shù)量為數(shù)據(jù)集中原有欺詐樣本數(shù)量的兩倍時，模型性能的提升效果最為顯著。

趙海霞等學者同樣將最新的重疊度理論引用到基于GAN的欺詐識別模型構建中，提出了RECGAN（re-sampling method based on CGAN）算法[40]，文章運用K-NN算法度量樣本點周圍數(shù)據(jù)的分布情況，將數(shù)據(jù)集分為安全樣本、邊界樣本和噪聲樣本，利用正類樣本中邊界樣本所占的比例表示整體數(shù)據(jù)集的重疊度。隨后用條件生成對抗網(wǎng)絡（conditional generative adversarial network，CGAN）和欠采樣技術對重疊區(qū)間的樣本進行均衡，與多個基于重抽樣算法的欺詐識別模型相比，算法的識別性能與魯棒性均得到提升，作為最新的研究思路，該模型未來有很大的提升空間。

3 基于模型層面構建的信用支付欺詐交易識別模型

通過改變分類模型的損失函數(shù)或?qū)W習策略使模型在訓練時對少數(shù)類樣本即欺詐交易投入更多的精力，抵消數(shù)據(jù)集類別分布不均衡帶來的負面影響是基于模型層面構造欺詐交易識別模型的主要思想。在數(shù)字信用交易反欺詐研究中，欺詐交易與正常交易樣本量之間的差距過于懸殊，單從模型層面進行優(yōu)化容易產(chǎn)生過擬合的問題，因此數(shù)據(jù)科學家普遍從數(shù)據(jù)與模型層面同時改進，首先對數(shù)據(jù)集的類別分布進行調(diào)整，隨后運用改進后的欺詐識別模型進行處理，以增強模型的泛化性。其中數(shù)據(jù)均衡算法及前沿進展已在第2章進行總結，因此本章主要匯總基于模型層面的反欺詐研究成果。

現(xiàn)有信用支付欺詐交易識別模型根據(jù)訓練時使用的數(shù)據(jù)集類型可以分為基于有監(jiān)督學習算法、無監(jiān)督異常點檢測技術和半監(jiān)督學習框架的欺詐交易識別模型，如表5所示。

表5 基于模型層面構建的信用支付欺詐交易識別模型Table 5 Credit payment fraud transaction identification model based on model level

3.1 基于有監(jiān)督學習算法的欺詐識別模型

基于有監(jiān)督學習的數(shù)字交易欺詐識別技術依賴于已知交易結果的歷史交易數(shù)據(jù)集，通過提取歷史數(shù)據(jù)中的欺詐交易與正常交易的行為特征，對新的交易行為進行判斷。模型對標注數(shù)據(jù)集的準確性要求較高，理論基礎較為成熟。文獻[9]匯總了信用支付欺詐識別領域近10 年內(nèi)的優(yōu)秀研究成果，對其中涉及的數(shù)據(jù)挖掘算法按照出現(xiàn)的頻率進行排序，頻率越高，代表該類方法越受到學者們的關注。本文參考該關注度排序展開論述，對研究方法與研究進展進行補充。

3.1.1 支持向量機

支持向量機（support vector machine，SVM）是一類二分類學習算法，基本模型是定義在特征空間上的間隔最大線性分類器。面對非線性可分的數(shù)據(jù)集，核函數(shù)與軟間隔技術的應用可將輸入樣本從原始空間映射到更高維的特征空間，在新特征空間中構建超球面作為決策邊界完成對數(shù)據(jù)類別的劃分，使SVM成為實質(zhì)上的非線性分類器適用于更多的業(yè)務場景。

面對維度不斷增加的交易特征，Xu和Liu兩位學者[41]率先將基于高斯核函數(shù)優(yōu)化的SVM 模型用于識別在線信用支付中的欺詐交易，依托核技術解決了原始數(shù)據(jù)集稀疏性帶來的維度詛咒問題，并給出面對不同數(shù)據(jù)集時的優(yōu)化方法。效率提升方面，Mareeswari 和Gunasekaran 兩位學者[42]將基于高斯核函數(shù)的混合支持向量機（hybrid support vector machine，HSVM）分別與社區(qū)和尖峰檢測技術（spike detection）結合起來構建了一套實時檢測系統(tǒng)識別欺詐行為，解決了現(xiàn)有欺詐識別模型在信用支付申請時的身份檢測環(huán)節(jié)泛化性能差、響應時間長等問題，但缺少對實驗數(shù)據(jù)集的詳細描述。Spark是專為大規(guī)模數(shù)據(jù)處理而設計的快速通用的計算引擎，Gyamfi 等學者[43]為緩解交易數(shù)據(jù)集規(guī)模不斷增長對服務器帶來的壓力，將Spark 技術與SVM 相結合，提出了專門處理大規(guī)模數(shù)據(jù)的欺詐識別模型，并在特征提取步驟使用了線性回歸與邏輯回歸技術作為輔助，與后向傳播神經(jīng)網(wǎng)絡（back propagation network，BPN）相比，在保證性能的同時有效減少了模型訓練所需要的時間。

3.1.2 邏輯回歸模型

邏輯回歸模型（logistic regression，LR）是信貸風控領域中最基礎也最常用的模型，基于特征表現(xiàn)對交易樣本的所屬類別進行預測。公式由條件概率分布P(Y|X)表示，形式為參數(shù)化的logistic分布。

其中，x∈Rn為輸入，Y∈{0,1}為輸出，w∈Rn,b∈R 為參數(shù)，其中w為權值向量，b為偏置。

邏輯回歸作為經(jīng)典的分類模型可以在線性分類問題中取得很好的效果，結果具有可解釋性，但在高維大數(shù)據(jù)集下，識別性能與其他算法相比稍顯不足，需要配合強而有效的數(shù)據(jù)預處理手段一同應用。

在Omar 等學者[37]的研究中，基于原始有偏數(shù)據(jù)集訓練得到的邏輯回歸模型無法有效提取欺詐交易的特征，直接導致對欺詐樣本識別結果的精確性嚴重不足，但在以減少重疊樣本復雜度為目標對數(shù)據(jù)集進行特征篩選與數(shù)據(jù)均衡后，新數(shù)據(jù)集下的邏輯回歸模型性能得到顯著提升，同等數(shù)據(jù)環(huán)境下與SVM模型持平。同樣在文獻[44]中，Itoo等學者基于歐洲數(shù)字信用支付交易數(shù)據(jù)集測試分別由邏輯回歸、樸素貝葉斯、K-近鄰算法搭建的三類反欺詐算法性能，文章使用隨機下采樣的方法緩解不均衡數(shù)據(jù)集對模型的影響，生成了欺詐交易樣本量占比分別為50%、34%、25%三類數(shù)據(jù)集，實驗顯示，在任一數(shù)據(jù)集下，邏輯回歸在F1-score、AUC 值等評判準則下均發(fā)揮了更好的性能。

3.1.3 神經(jīng)網(wǎng)絡與深度學習

神經(jīng)網(wǎng)絡（artificial neural network，ANN）是一類受人腦神經(jīng)系統(tǒng)工作方式啟發(fā)而構造的數(shù)學模型，通過大量的人工神經(jīng)元及神經(jīng)元之間的聯(lián)結進行計算，能夠感知外界信息從而自適應地改變內(nèi)部結構。在數(shù)字信用交易反欺詐研究中，常用來對數(shù)據(jù)間的復雜關系進行深入挖掘，其網(wǎng)絡結構如圖4[45]所示。

作為反欺詐研究領域的新晉模型，Randhawa 等學者[46]分別在公開數(shù)據(jù)集與私有業(yè)務數(shù)據(jù)集上對比了包含神經(jīng)網(wǎng)絡、SVM、LR 在內(nèi)的12 種Baseline 算法，并基于投票法和Adaboost 技術對分類器進行集成，進一步研究算法間的性能差異。MCC 下的評估結果顯示，在單一分類器的對比中，神經(jīng)網(wǎng)絡以0.001的差距位于第二；但在集成算法對比中，以ANN為主體的Adaboost-NN算法與神經(jīng)網(wǎng)絡+樸素貝葉斯的組合算法表現(xiàn)出了最好的識別性能。

為了解決樣本分布不均衡導致神經(jīng)網(wǎng)絡對欺詐樣本識別精度不足，Ghobadi、Rohani 兩位學者[47]將Meta Cost 算法與ANN 結合構造了代價敏感神經(jīng)網(wǎng)絡（cost sensitive neural network，CSNN），通過為標記正確的欺詐交易分配負類錯分代價，給予標記錯誤的正常交易與欺詐交易不同程度的正類錯分代價來重構損失函數(shù)，有效降低誤判率的同時最小化由誤判為銀行帶來的經(jīng)濟損失。楊蓮等學者[48]以樣本在反向傳播網(wǎng)絡（backward propagation neural network，BPNN）上的識別結果與真實標簽的偏差作為參考，結合焦點損失（focal loss）函數(shù)對神經(jīng)網(wǎng)絡中的損失函數(shù)進行調(diào)整，使模型的訓練更加偏向于難以判別的“困難樣本”，而此類“困難樣本”正對應于特征空間中的重疊區(qū)域，該思想有效地提升模型對困難樣本的識別能力，改善了欺詐樣本檢測性能。

另一方面，伴隨數(shù)據(jù)科學的發(fā)展與硬件設施的更迭，信息技術的瓶頸逐步從數(shù)據(jù)獲取與計算轉向如何面對海量多源異構數(shù)據(jù)進行信息抽取與知識轉換[49]。在此契機下，擁有強大數(shù)據(jù)抽象化表征能力與端到端學習方式的深度學習技術迅速崛起，基于深度學習的感知認知技術也在金融風險預警中獲得廣泛應用[50]。

在信用支付欺詐交易識別研究中，以循環(huán)神經(jīng)網(wǎng)絡（recurrent neural networks，RNN）為代表的深度序列模型受到了研究者的廣泛關注。RNN被設計用于處理具有序列特征的數(shù)據(jù)，如時間序列數(shù)據(jù)、文本序列數(shù)據(jù)等。通過將當前時刻的數(shù)據(jù)與上一時刻的網(wǎng)絡狀態(tài)一同傳入當前時刻的網(wǎng)絡進行訓練，從而對數(shù)據(jù)中的時間依賴關系進行建模。但后續(xù)研究發(fā)現(xiàn)RNN模型在處理長期序列數(shù)據(jù)時會出現(xiàn)梯度爆炸或梯度消失問題，無法有效學習和利用序列的早期信息，因此進一步提出了長短期記憶模型（long shortterm memory，LSTM）[51]與門控循環(huán)單元（gated recurrent unit，GRU）[52]。LSTM 在傳統(tǒng)的RNN 網(wǎng)絡結構上添加了輸入門、遺忘門和輸出門，通過門控結構解決長期依賴問題；GRU 模型在保持相近性能的同時對LSTM進行了簡化，分別引入重置門與更新門輔助模型捕獲序列中的短期與長期依賴關系，LSTM 與GRU 模型的網(wǎng)絡結構分別如圖5、圖6[45]所示。與傳統(tǒng)ANN 和深度卷積神經(jīng)網(wǎng)絡相比，基于LSTM 與GRU 算法的反欺詐模型誤報率低，準確率與穩(wěn)健性高，成為反欺詐研究中應用最廣泛的RNN 算法[53-54]。在文獻[55]中，Benchaji 等學者進一步挖掘數(shù)據(jù)集中蘊含的序列特征，提出融合注意力（Attention）機制的交易序列欺詐識別模型，與以往的研究相比，Attention機制不僅考慮了交易序列中的順序性，也具備識別序列中相對重要交易的能力，從而以更高的準確度預測欺詐交易，在保證準確性的同時，顯著提升了欺詐交易的識別覆蓋率。

圖5 LSTM模型中數(shù)據(jù)流的圖形化演示Fig.5 Graphical demonstration of data flow in LSTM

圖6 GRU模型中數(shù)據(jù)流的圖形化演示Fig.6 Graphical demonstration of data flow in GRU

除去被應用于欺詐交易識別模型建模中，強大的抽象表征能力使深度學習在作為集成學習的融合策略時同樣受到廣泛關注。為解決信用支付交易數(shù)據(jù)集的嚴重不均衡問題，劉穎等學者構建了基于深度集成學習的欺詐檢測算法[56]，將SVM與RF串聯(lián)形成基分類器，SVM 用于識別訓練集中顯著的正常交易模式與欺詐交易模式，RF則用于對SVM分類錯誤的樣本進行二次學習，緩解SVM 面對極度不均衡數(shù)據(jù)易產(chǎn)生的分類超平面偏移問題，最終的模型融合階段選擇深度信念網(wǎng)絡（deep belief network，DBN）進行集成，相較于傳統(tǒng)的投票機制，欺詐交易的誤判率顯著降低。Forough 等學者[57]則將LSTM 模型與GRU模型作為基學習器對數(shù)據(jù)集中的欺詐交易模式進行提取，選擇人工神經(jīng)網(wǎng)絡作為新的投票機制對結果進行集成，實驗顯示，無論哪種深度序列模型作為基學習器，基于人工神經(jīng)網(wǎng)絡集成后得到的識別結果均優(yōu)于投票機制（voting）下得到的識別結果，且基分類器越少性能提升越明顯，對模型的最終成果具有重大貢獻。

最后，伴隨AlphaGo 及其升級版本的橫空出世，強化學習相關概念在業(yè)界引起廣泛關注，Bouchti 等學者在文獻[58]中詳細介紹了深度強化學習（deep reinforcement learning，DRL）的理論及其在數(shù)字支付環(huán)境中進行欺詐檢測與風險管理的潛在應用。文章通過討論有關DRL 的幾個有趣案例，揭示了未來研究中DRL方法的競爭力所在。雖然整篇論文偏向理論化，實證檢驗部分略顯不足，但提供了一種處理欺詐檢測任務的新視角。

3.1.4 K-近鄰算法

K-近鄰(K-NN)算法[59]是一類基于實例的分類與回歸算法，通過在數(shù)據(jù)集中尋找與待預測交易樣本相似度最高的k條樣本，選取其中類別占比最多的標簽作為待預測交易的預測結果。

Malini 與Pushpa 兩位學者[60]詳細介紹了K-近鄰算法與異常檢測技術的建模思想，從理論的角度論述了算法在欺詐檢測任務中的優(yōu)勢，但是文章沒有進行實證檢驗，論據(jù)稍顯不足。Awoyemi等學者[61]認為欺詐交易識別困難的原因在于交易特征隨時間改變的動態(tài)性與數(shù)據(jù)集的嚴重有偏性，文章將欠采樣與過采樣技術結合起來對數(shù)據(jù)進行均衡，構造了兩類不同比率的數(shù)據(jù)集進行對比。隨機過采樣技術使得欺詐樣本的特征更為明顯，但也加重了邏輯回歸的過擬合問題，實驗結果與文獻[44]不同，K-近鄰算法在兩個比率的數(shù)據(jù)集中均體現(xiàn)出更好的性能。Dighe等學者[62]選取歐洲信用支付交易數(shù)據(jù)集對文獻[61]的結論進行了驗證，采用相似的混合采樣技術對數(shù)據(jù)集進行均衡，在多項模型判別準測評估下，K-近鄰算法的識別結果更具有穩(wěn)健性。

K-近鄰算法的最大優(yōu)點在于簡單易實施，但這也造成了可擴展性較差，面對特征空間中重疊區(qū)域樣本時誤判率高，作為欺詐識別算法需要提前對數(shù)據(jù)集進行處理與均衡。但是在最新的研究中，由于K-近鄰算法可以度量樣本點領域內(nèi)的分布情況，被學者們廣泛應用于對數(shù)據(jù)集重疊度的測度中，是該模型在欺詐識別問題中的應用新方向。

3.1.5 遺傳算法

遺傳算法（genetic algorithm，GA）是參考達爾文生物進化論中的自然選擇學說和遺傳學機理中生物進化過程構建的計算模型，是一種通過模擬自然進化過程搜索最優(yōu)解的方法。遺傳算法可以直接對結構對象進行操作，無需求導和函數(shù)連續(xù)性的限定，具有內(nèi)在的隱式并行性和優(yōu)秀的全局尋優(yōu)能力，在確定類別懲罰系數(shù)與優(yōu)化反欺詐模型初始參數(shù)方面具有突出貢獻。

?z?elik等學者[63]認為在欺詐識別檢測中應該對透支額度大的信用賬戶給予更多的權重，因為它們被錯分后會帶來更加嚴重的潛在損失，因此提出了具有可變分類錯誤成本的損失函數(shù)并運用遺傳算法對各變量對應的參數(shù)進行求解，來最小化模型錯分損失，改進后的模型增強了對重點客戶的關注，識別性能提高了超過200%。效率優(yōu)化方面，Olabode[64]將遺傳算法與反向傳播神經(jīng)網(wǎng)絡（counter propagation neural network，CPNN）相結合提出了混合CPNN-GA 算法，遺傳算法用來對神經(jīng)網(wǎng)絡的初始參數(shù)進行優(yōu)化，解決由隨機設定初始參數(shù)帶來模型收斂速度慢、精度不足的問題，神經(jīng)網(wǎng)絡對交易進行分類，實驗結果顯示，改進后的模型訓練速度更快且面對不斷變化的欺詐策略，識別性能更好。Alotaibi等學者[65]將GA與克隆選擇算法（clonal selection algorithm，CLONLG）[66]結合起來以改進CLONLG 算法的克隆選擇機制，呈現(xiàn)出的識別結果錯分率更低且訓練需要的時間更短。

上述研究普遍將遺傳算法作為輔助應用于模型的參數(shù)更新與訓練優(yōu)化過程，但另一方面，遺傳算法通過交叉、變異的方法生成更優(yōu)子代的思想同樣適用于均衡數(shù)據(jù)的補充。Benchaji等學者[67]運用K-means算法對少數(shù)類樣本進行聚類，得到的每一個樣本簇都具有高度的類內(nèi)相似性，隨后使用GA算法對每一個簇進行新數(shù)據(jù)生成，補足少數(shù)類樣本的同時加強了欺詐交易的特征表示，減少了噪聲節(jié)點的生成，為數(shù)據(jù)集均衡方法提供了新思路。

3.1.6 決策樹與基于集成算法的樹模型識別算法

分類決策樹（decision tree，DT）是一種描述對實例進行分類的樹形結構，由節(jié)點和有向邊構成。節(jié)點有內(nèi)部節(jié)點和葉節(jié)點兩種類型，其中內(nèi)部節(jié)點表示一個特征或?qū)傩?，葉節(jié)點表示劃分后的分類結果。決策樹的學習本質(zhì)是通過訓練集歸納出一組顯式分類規(guī)則，使其能夠?qū)嵗M行正確的分類。在數(shù)字信用反欺詐研究中，其優(yōu)秀的可解釋性搭配便捷的訓練方式與不俗的識別性能使其在早期數(shù)字風控領域得到廣泛應用[68]。

在后續(xù)研究中，通過結合多個基學習器以加強模型性能的集成學習思想使決策樹算法在數(shù)字反欺詐領域煥發(fā)了新的活力。根據(jù)基學習器之間的關系，可以分為基于Bagging 思想和基于Boosting 思想的樹識別算法，前者的代表性算法為隨機森林，后者的代表性算法為梯度提升樹系列算法。

隨機森林（random forest，RF）是Breiman[69]提出的一種由多棵決策樹組成的集成學習模型，廣泛應用于包含金融、醫(yī)療、電子商務在內(nèi)的多種分類任務場景，運行速度快、穩(wěn)健性強[70]。作為集成模型，隨機森林的整體性能取決于其基分類器的類型與訓練效果。Xuan 等[71]在欺詐樣本率為0.27%的真實交易數(shù)據(jù)集上分別測試了基于隨機樹和C4.5算法的隨機森林算法，結果顯示基于C4.5 算法的隨機森林能夠更好地學習欺詐交易的特征，取得了更好的分類效果。

梯度提升樹系列算法主要包含梯度提升決策樹（gradient boosting decision tree，GBDT）、XGBoost、LightGBM等算法。GBDT算法根據(jù)當前模型損失函數(shù)的負梯度信息來訓練新加入的弱分類器，并將新訓練完成的弱分類器以累加的形式結合到現(xiàn)有的模型中；XGBoost算法[72]是GBDT算法的進一步工程實現(xiàn)，通過顯式地添加正則項來控制模型的復雜度，有效地防止過擬合問題，并將損失函數(shù)進行二階泰勒展開，同時使用一階與二階導數(shù)信息進行優(yōu)化，相較于傳統(tǒng)的GBDT 算法，支持更多類別的基分類器，效率更高；LightGBM 算法[73]是Microsoft 開發(fā)的GBDT框架，直方圖算法的結合、單邊梯度采樣思想的應用、帶深度限制的Leaf-wise建樹策略使LightGBM算法具有更快的訓練速度、更低的內(nèi)存消耗以及更準確的識別能力。

陳榮榮等學者[74]基于歐洲信用支付公開數(shù)據(jù)集對隨機森林算法、GBDT與XGBoost算法的性能進行對比，數(shù)據(jù)集事先經(jīng)過SMOTE算法處理以達到類別均衡，結果顯示，隨機森林與GBDT 對于欺詐交易的識別精度相近，XGBoost算法的性能顯著優(yōu)于其余兩類集成算法，但模型結構的復雜性使其調(diào)參過程更為復雜，時間消耗更久。面對類別不均衡且歷史數(shù)據(jù)集規(guī)模較小的信用評估場景，張濤等學者[75]將XGBoost算法與最小風險貝葉斯決策相結合，提出了基于樣本依賴代價矩陣的SXG-BMR（SMOTE XGboost-Bayes minimum risk）算法，其代價矩陣不僅與交易類別有關，而且與樣本的自身屬性相關聯(lián)，代價的表征更加準確，實驗結果顯示，結合樣本依賴代價矩陣的欺詐交易識別模型檢驗效果要整體好于傳統(tǒng)的類別依賴代價矩陣識別模型，在同樣引入樣本代價矩陣的情況下，XGBoost 算法相較于邏輯回歸、隨機森林等分類模型更加準確、穩(wěn)健。

集成算法與代價損失函數(shù)的結合為類別不均衡問題提供了有效的解決方案，但另一方面也加重了數(shù)字經(jīng)濟下不斷攀升的特征維度對樹結構欺詐識別算法訓練效率的影響。陳芮等學者[76]針對上述問題將LightGBM 算法與序貫三支決策算法（sequential three-way decisions，S3WD）相結合，提出了基于GANs-LightGBM的序貫三支異常檢測模型，根據(jù)特征重要性由粗到細地搭建多層次多粒度的特征空間并訓練對應的欺詐交易識別模型，持續(xù)處理粗特征粒層難以識別的樣本，與傳統(tǒng)的機器學習算法相比，該方法在提高檢測性能的同時具有更低的檢測代價。

3.1.7 隱馬爾可夫模型

隱馬爾可夫模型（hidden Markov model，HMM）是一種雙嵌入隨機過程，是關于時間序列的概率模型。與經(jīng)典的馬爾可夫模型相比，可以用來擬合更復雜的隨機過程。模型由兩組變量組成，第一組為狀態(tài)變量{y1,y2,…,yn}，其中yi代表時刻i的系統(tǒng)狀態(tài)，通常假定該狀態(tài)是隱藏、不可觀測的；第二組是觀測變量{x1,x2,…,xn}，表示在時刻i的觀測值。

基于HMM 構建的欺詐識別模型認為大多數(shù)用戶在一段時間內(nèi)會有相對穩(wěn)定的交易行為，如定期購買相同類型的商品，或與固定對象進行轉賬交易。交易序列隨時間順序排列，與HMM 模型相對應，由兩部分組成，第一部分是可直接在銀行數(shù)據(jù)庫中觀察的交易金額序列，第二部分是暗示用戶交易習慣的交易行為序列，如圖7所示。

圖7 隱馬爾可夫模型下的交易序列Fig.7 Transaction sequence under hidden Markov model

Khan 等學者[77]構建了仿真交易數(shù)據(jù)，模擬了持卡者在一定支付周期內(nèi)每筆支出的消費類別及對應的具體消費金額。文章運用K-means 聚類算法將每筆交易按照消費金額分為低、中、高三類，運用HMM算法識別并提取該消費者的支付特征。OOT（out of time）測試顯示，HMM對未來短期內(nèi)的欺詐交易有很好的識別效果。Bhusari 等學者[78]參考文獻[77]的思路，做了進一步研究，改進后的模型不再需要獲悉每筆支出的消費類別，并提出了K-means 方法中確定類別k的新方式，改進后的模型降低了欺詐交易的誤報率。Wang等學者[79]在將量化后每筆交易的消費金額作為觀測狀態(tài)的基礎上，融入每筆交易前后固定時間段內(nèi)的交易頻率，因此觀測狀態(tài)從{高消費，中消費，低消費}變成{高消費，中消費，低消費}×{高頻交易，中頻交易，低頻交易}兩兩結合的九種觀測狀態(tài)。實驗結果表示，對于低頻交易與中頻交易，HMM 算法有較好的識別效果，但高頻交易增加了用戶交易習慣的提取難度，HMM模型的表現(xiàn)還有待提升。

3.1.8 基于社會關系網(wǎng)絡的欺詐交易識別模型

上述欺詐交易識別模型幾乎全部聚焦于交易記錄本身，利用從歷史交易數(shù)據(jù)集中學習到的特征預測一筆新傳入的交易申請為欺詐交易的可能性，完成對欺詐交易的識別與防范。但面對以利用虛假身份信息惡意申請數(shù)字支付工具為代表的內(nèi)部欺詐模式，由于申請者為新用戶，缺少歷史交易數(shù)據(jù)，無法進行有效識別，需要從其他的角度進行切入，在申請階段完成對此類用戶的識別。

社會網(wǎng)絡（social network）是指以各種連接或相互作用的模式而存在的一組人或群體，例如人與人之間的朋友關系網(wǎng)絡、在線社交關系網(wǎng)絡、用戶間的移動通信網(wǎng)絡都屬于社會關系網(wǎng)絡。社會關系網(wǎng)絡不是一個關于個體的簡單集合，也不是個體間相互連接關系的總和，而是包含了個體和個體間關系的網(wǎng)絡[80]，重點關注人們之間的互動和聯(lián)系，并且假定這種聯(lián)系會影響人們后續(xù)的社會行為。Yang等學者[81]認為用戶的移動通信記錄可以很好地代表其社交聯(lián)系，因此作者使用由1 100萬用戶和超過15億呼叫日志構成的數(shù)據(jù)集建立了移動通信網(wǎng)絡，在用戶已有個人信息的基礎上增加了從網(wǎng)絡層面提取的局部結構特征指標，運用雙任務因子圖對新用戶是正常用戶還是潛在欺詐用戶進行預測，有效提高了識別結果的精確率與全面性。

3.1.9 對比與分析

目前，基于有監(jiān)督學習算法的欺詐交易識別研究最為深入，在實際應用中也比基于其他兩種算法的欺詐識別模型更為成熟。本小節(jié)對上述欺詐交易識別模型背后的有監(jiān)督學習算法進行橫向?qū)Ρ?，?選取部分算法在歐洲數(shù)字信用支付公開數(shù)據(jù)集進行復現(xiàn)，對當下各類基于不同視角改進的前沿算法性能進行直觀展示。表7 進一步總結了各類算法的優(yōu)缺點及訓練數(shù)據(jù)集的形式，便于研究者在面對特定任務場景中選取最適合的數(shù)據(jù)分析技術。

表6 基于歐洲數(shù)字信用交易數(shù)據(jù)集的性能對比Table 6 Performance comparison based on European digital credit transaction dataset

表7 基于有監(jiān)督學習算法的欺詐交易識別模型對比Table 7 Comparison of fraud transaction identification models based on supervised learning algorithm

3.2 基于無監(jiān)督異常點檢測技術的欺詐識別模型

基于無監(jiān)督異常點檢測技術的欺詐識別模型不依賴于歷史交易的標簽，該類方法旨在通過表征交易的數(shù)據(jù)分布，來檢測出與正常交易行為特征不符的可疑交易。

3.2.1 基于無標簽數(shù)據(jù)集的欺詐識別模型

從理論角度來看，無監(jiān)督異常點檢測技術可以劃分為基于距離（K-means 算法、近鄰算法等）、基于密度（DBSCAN（density-based spatial clustering of applications with noise）算法、LOF（local outlier factor）算法等）與基于模型的三類算法。但不斷擴大的交易量與特征數(shù)量使得前兩類算法在訓練時的計算量過于龐大，無法滿足運算開銷的要求[82]，因此基于模型的無監(jiān)督異常點檢測技術成為構建信用支付欺詐識別模型的主要理論支撐。

Rai等學者[83]在歐洲信用支付交易數(shù)據(jù)集上測試了包含基于神經(jīng)網(wǎng)絡、自動編碼器、孤立森林在內(nèi)的五類無監(jiān)督欺詐識別模型，其中神經(jīng)網(wǎng)絡呈現(xiàn)的檢測性能最好，整體數(shù)據(jù)集分類準確率達到99.7%，對欺詐交易的識別結果也呈現(xiàn)出較高的準確性與全面性，但上述模型僅適用于缺失值較少的數(shù)據(jù)環(huán)境，當交易特征呈現(xiàn)出高度的稀疏性時，包含神經(jīng)網(wǎng)絡、自編碼器在內(nèi)的上述無監(jiān)督學習算法便難以有效識別交易間的差異。Zheng 等學者[84]設計了一個具有多層非線性函數(shù)的無監(jiān)督深度學習模型來捕獲數(shù)據(jù)集內(nèi)高維非線性的欺詐結構信息，并結合聯(lián)合嵌入技術學習雙向網(wǎng)絡中節(jié)點的潛在表示，有效地將不同類型的節(jié)點共同嵌入到同一潛在空間中，即使面對稀疏性較高的交易數(shù)據(jù)集依舊可識別出絕大部分潛在欺詐交易。

基于現(xiàn)有的研究進展，無監(jiān)督欺詐識別模型已經(jīng)具備挖掘部分潛在欺詐交易的能力，但作為決策模型加入到欺詐交易識別工作中還有缺陷，這是由模型背后的理論基礎導致的。對于重疊區(qū)域的大量樣本信息，高度的特征相似性大幅限制了無監(jiān)督欺詐識別模型的分類能力。Pumsirirat等學者[85]曾希望利用無監(jiān)督學習算法識別有監(jiān)督學習算法無法處理的新型欺詐交易模式來提高檢驗性能，提出了基于自動編碼器（auto-encoder，AE）和受限玻爾茲曼機（restricted Boltzmann machine，RBM）的深度識別算法，通過重建正常交易樣本來發(fā)現(xiàn)數(shù)據(jù)集中異常的交易模式，但實證結果顯示，召回率增加的代價是錯判了大量正常交易，最終識別的精度不足5%；文獻[83]中除了神經(jīng)網(wǎng)絡之外，其他模型均出現(xiàn)了嚴重的過擬合或欠擬合問題；文獻[5]基于公開數(shù)據(jù)集對常用的有監(jiān)督與無監(jiān)督學習算法進行了匯總與對比，實驗結果顯示，無監(jiān)督學習算法雖然避免了分布假設問題與前期數(shù)據(jù)標注的困難，但在相同的召回率下會將更多的正常交易錯判為欺詐交易，因此通常作為數(shù)據(jù)集標注不足時的探索性分析使用。為了解決上述問題，學者們將目光聚焦到了一種特殊的無監(jiān)督學習算法——單分類欺詐識別模型。

3.2.2 基于單類別標簽數(shù)據(jù)的欺詐識別模型

基于單類別標簽數(shù)據(jù)集的欺詐交易識別模型又稱為基于單分類技術（one class classification，OCC）的欺詐交易識別模型。與傳統(tǒng)的無監(jiān)督學習算法不同，此類算法需要事先了解數(shù)據(jù)集中的標注情況；與有監(jiān)督學習算法不同，算法僅通過對單一類別樣本的學習便可將該類樣本與數(shù)據(jù)集中的其他類別樣本進行區(qū)分，因此是一類特殊的無監(jiān)督異常檢測算法，適用于數(shù)據(jù)集分布嚴重失衡及其他類樣本標注可信度不足的情況[86]。在欺詐交易識別任務中，單類別標簽數(shù)據(jù)加強了模型對該類樣本特征的學習能力，同時緩解了有監(jiān)督欺詐識別模型傾向于將歷史數(shù)據(jù)集中未出現(xiàn)過的欺詐交易模式劃分為正常交易的問題[83]。

Jeragh、AlSulaimi兩位學者[87]針對交易數(shù)據(jù)集中欺詐樣本少、重疊區(qū)域樣本復雜等問題，將數(shù)據(jù)集中的欺詐樣本單獨提取出來，運用自編碼器來學習欺詐交易特征的潛在表示，并將訓練樣本通過自編碼器后得到的均方誤差作為輸入放入單分類支持向量機（one-class SVM，OSVM）中尋找分類超球面，與僅使用自編碼器、OSVM 的單一模型和將潛在表示作為輸入結合到OSVM的模型[88]相比，模型對欺詐交易識別的覆蓋率得到顯著提高。

Zheng 等學者[89]提出了改進的單類生成對抗網(wǎng)絡（one class GAN，OCGAN）模型，僅需要使用正常交易的樣本信息作為訓練數(shù)據(jù)。文章使用LSTMAutoencoder 提取正常用戶交易的特征表示，隨后使用互補生成對抗網(wǎng)絡（complementary GAN）反向?qū)W習欺詐交易的分布表示，訓練完成后的鑒別器即為最終的判別模型。反欺詐測試中，改進后OCGAN的性能超過了現(xiàn)有的單類別分類算法，檢驗效果與最新的有監(jiān)督學習算法Multi-source LSTM相媲美。

3.3 基于半監(jiān)督學習框架的欺詐識別模型

基于有監(jiān)督學習的數(shù)據(jù)挖掘算法在數(shù)字欺詐交易識別任務中已經(jīng)獲得了廣泛應用，但模型的訓練依賴于大量有標注的歷史數(shù)據(jù)集，對于一些新開展的在線支付業(yè)務，該需求無法滿足。同時，由于數(shù)字交易自身的業(yè)務特點，交易的發(fā)生與對應交易類型即標注的確定之間存在時間差，期間將產(chǎn)生大量的無標注數(shù)據(jù)。這部分數(shù)據(jù)無法被基于有監(jiān)督學習算法的欺詐交易識別模型使用，造成數(shù)據(jù)浪費。無監(jiān)督學習技術放寬了對訓練數(shù)據(jù)集的約束，但由于缺少確定性的交易標簽的監(jiān)督，模型的識別性能無法直接應用于決策。因此有學者提出了基于半監(jiān)督學習框架的欺詐識別模型。

同時使用有標注數(shù)據(jù)和無標注數(shù)據(jù)訓練模型是半監(jiān)督學習算法的優(yōu)勢，目前研究理論已經(jīng)較為成熟。Lebichot 等學者[90]基于時間窗口模擬了一個包含三類業(yè)務狀態(tài)的數(shù)據(jù)場景，將測試算法當天的交易記錄作為待預測的測試集，測試算法日前22天—前7天的交易記錄設定為交易類型已確認的有標簽數(shù)據(jù)集，測試算法日前7天內(nèi)發(fā)生的交易記錄標記為未出表現(xiàn)期的無標簽數(shù)據(jù)集，文章使用融合半監(jiān)督框架的APATE 模型作為分類器。經(jīng)過測試，相較于僅使用有標簽數(shù)據(jù)集的APATE 模型，改進后的算法在測試集上的識別精度更高。

除去可以有效利用數(shù)據(jù)信息、增加數(shù)據(jù)價值，半監(jiān)督學習在訓練中標記的欺詐交易樣本也成為應對數(shù)據(jù)集類別不均衡的重要手段。Salazar 等學者[91]與大型金融公司合作，在其提供的私有數(shù)據(jù)集上進一步對比了半監(jiān)督學習在不同欺詐交易樣本率的數(shù)據(jù)集上模型的表現(xiàn)差異。欺詐識別結果顯示，欺詐樣本數(shù)量占比越少即數(shù)據(jù)集構成不平衡度越高，基于半監(jiān)督學習框架的欺詐交易識別模型提升的效果越好。Xiao等學者進一步將成本敏感學習算法、數(shù)據(jù)分組處理方法（group method of data handling，GMDH）融合進半監(jiān)督學習算法框架，提出了一項基于GMDH的成本敏感半監(jiān)督學習算法（GMDH-based cost-sensitive semi-supervised selective ensemble，GCSSE）[92]，與同樣作為半監(jiān)督學習框架的Tri-training、Semi-Bagging、CoBag 等算法相比，GCSSE 算法發(fā)揮了最好的識別性能。在最新的研究成果中，半監(jiān)督學習框架也開始出現(xiàn)在數(shù)據(jù)均衡技術中，Charitou 等學者[93]將半監(jiān)督學習框架、稀疏編碼器（sparse autoencoder）與GAN相結合提出稀疏自動半監(jiān)督生成對抗網(wǎng)絡（semi supervised GAN，SSGAN），在相同的分類器下，補充的均衡樣本具有更好的增益。

3.4 公開數(shù)據(jù)集匯總

公開數(shù)據(jù)集的存在能夠在一定程度上緩解研究者數(shù)據(jù)收集工作的壓力，將更多的精力投入到欺詐識別研究中。表8 對近年來學者在論文研究中應用頻率較高的公開數(shù)據(jù)集進行羅列，并對數(shù)據(jù)集中的樣本量與特征情況進行描述，當前除UCSD-FICO 數(shù)據(jù)集停止官方維護，其他數(shù)據(jù)集均開源在官方網(wǎng)站中供研究者使用。

4 需求視角下數(shù)字交易反欺詐研究新方向

通過上述文獻的匯總，以信用支付為代表的在線交易欺詐識別模型在近年來已經(jīng)取得長足的進展，但依舊還有部分難題沒有攻克。本章將在已有成果的基礎上，從業(yè)務需求的角度對目前學者們主要研究的方向進行介紹。

4.1 欺詐識別模型的泛化性

不同國家、不同人群之間欺詐行為往往存在著較高的異質(zhì)性，意味著基于特定地區(qū)數(shù)據(jù)集訓練出的欺詐識別模型難以直接應用于其他環(huán)境?？紤]到部分地區(qū)的數(shù)據(jù)不足以及大數(shù)據(jù)驅(qū)動下模型訓練的高昂成本，將訓練好的模型合理地遷移學習到其他環(huán)境中對在線交易的欺詐識別問題具有重要意義。在最新的研究中，Lebichot等學者[94]針對該問題展示并對比了15 種遷移學習技術，基于真實的電子商務交易數(shù)據(jù)，將為歐洲國家開發(fā)的欺詐檢測模型遷移至其他國家中，并對不同遷移方法下的實證結果進行了比較。研究發(fā)現(xiàn)，現(xiàn)有的遷移學習方法都過于依賴目標國家標注樣本的數(shù)量，文章將自監(jiān)督與半監(jiān)督算法的思想相結合，擺脫對海量標記訓練樣本的依賴性。

除遷移學習之外，提出生成對抗網(wǎng)絡的谷歌Goodfellow 團隊給出了條件更為寬松的解決方案——對抗學習技術[95]。雖然深度神經(jīng)網(wǎng)絡擁有強大的學習能力，但面對被故意添加細微噪聲干擾所形成的對抗樣本極為脆弱，通過對噪聲進行精心設計，攻擊者可以使神經(jīng)網(wǎng)絡模型喪失原有的功能，面對難以察覺其改動的輸入樣本給出具有高置信度的特定輸出。Elsayed、Goodfellow等學者[95]利用深度學習面對對抗性攻擊的薄弱性，通過學習融合目標域數(shù)據(jù)的通用擾動以及任務之間映射的轉換函數(shù)使得源域中的模型具備執(zhí)行目標域任務的能力。由于對抗學習對深度神經(jīng)網(wǎng)絡輸入施加的加法偏移足以將網(wǎng)絡重新用于新任務，訓練中無需對源域模型進行微調(diào)，理論上比遷移學習效率更高。Chen等學者率先利用對抗學習的思路提出了用于欺詐識別的預訓練對抗重編程方法（adversarially reprograms an ImageNet classification neural network for fraud detection task，AdvRFD）[96]，選擇ImageNet 圖像分類數(shù)據(jù)集的高性能預訓練網(wǎng)絡作為源模型，將交易樣本特征鑲嵌到圖片特征變動較大的高頻區(qū)域以構建新的圖像數(shù)據(jù)，并在新的數(shù)據(jù)集上學習通用擾動項與轉換函數(shù)，實驗結果表明，相較于從頭訓練的DenseNet-161 網(wǎng)絡，AdvRFD-DenseNet-161 不僅訓練時間短，對欺詐交易識別的精度也優(yōu)于DenseNet-161 網(wǎng)絡，為對抗學習技術在數(shù)字交易欺詐識別領域提供了全新方向。

4.2 欺詐識別模型的可解釋性

隨著模型復雜性的增加，以深度學習算法為代表的大部分數(shù)據(jù)挖掘模型均為黑箱模型，無法解釋每個特征如何對最終的結果產(chǎn)生影響。而在信用支付欺詐識別業(yè)務中，研究者不僅希望識別出異常，還需要了解決策的制定依據(jù)，以便于及時更新風險策略。因此，提高模型的可解釋性是領域內(nèi)學者關注的重要研究方向。

在目前研究中，使模型具有可解釋性的通用思路是設計一個代理模型[97]，在局部數(shù)據(jù)或全局數(shù)據(jù)集上對模型進行代理，獲得對應樣本上的解釋。其中局部代理較為成熟的方法是Ribeiro 等學者提出的LIME（local interpretable model-agnostic explanations）模型[98]，首先對樣本輸入添加輕微擾動構建新數(shù)據(jù)集，再基于擾動后數(shù)據(jù)集訓練可解釋模型進行局部建模來獲取解釋；全局代理則是使用決策樹、規(guī)則集、教學式方法這種天然易于解釋的模型進行代理，以對決策結果進行解釋。另外一種思路則是利用深度學習模型的一些自身性質(zhì)對輸出做出解釋，如注意力機制（attention）、分層相關性傳播技術[99]等。

文獻[100]中，Wu、Wang 兩位學者針對深度神經(jīng)網(wǎng)絡作為黑箱模型無法為結果提供可解釋性建議的缺點，創(chuàng)新性地將基于LIME的解釋性模塊融入識別模型中，該解釋模塊由三個白盒解釋器構成，分別對應解釋模型結構中自編碼器、判別器與整個欺詐檢測模型三部分。數(shù)據(jù)均衡方面，作者基于生成對抗網(wǎng)絡提出了改進的單類異常檢測模型，將自編碼器作為模型中的生成器緩解生成對抗網(wǎng)絡在生成少數(shù)類樣本偽數(shù)據(jù)時不夠穩(wěn)健的問題，解釋性模塊的加入為特定樣本每個特征如何對最終模型輸出做出影響提供了清晰視角。董路安、葉鑫兩位學者則針對傳統(tǒng)教學式解釋方法中準確率不足、評價指標測度不夠全面兩個問題進行改進，選擇決策樹作為代理模型提出了基于改進教學式方法的信用風險評價模型[101]，僅將黑盒模型分類正確且可信度較高的樣本用作訓練可解釋模型的訓練樣本，并設計了全新的剪枝方法維護可解釋模型的準確性、可解釋性以及與黑盒模型的一致性，實驗結果顯示，改進后的教學式方法在大幅提高可解釋性能的同時能夠準確識別原黑盒模型中93%的結果。

4.3 面對新型欺詐交易模式的敏感性

有監(jiān)督學習算法下的欺詐交易識別模型是以交易中的欺詐模式能夠從歷史數(shù)據(jù)中識別并提取這一假設構造的，因此，面對歷史數(shù)據(jù)未涵蓋的新型欺詐模式時，欺詐識別這項任務就變得具有挑戰(zhàn)性。不依賴于現(xiàn)有標注的無監(jiān)督學習技術雖然可以幫助欺詐檢測系統(tǒng)發(fā)現(xiàn)異常，但由于缺少確定性的交易標簽的監(jiān)督，該類算法對特征空間中的重疊樣本無法取得很好的識別效果。最新的研究中，有學者聚焦于這兩種模型各自的優(yōu)勢，將兩種技術結合以達到同時識別歷史、新興欺詐模式的需求。Carcillo 等學者[102]受到Micenková等學者在文獻[103]提到的“bestof-both-worlds”思想的啟發(fā)，率先將該準則應用到數(shù)字欺詐交易識別中，分別從整體數(shù)據(jù)集、同一用戶歷史交易數(shù)據(jù)集兩種視角出發(fā)，計算交易樣本在不同粒度下的異常值分數(shù)，并將其作為新特征加入到有監(jiān)督模型訓練中。異常分數(shù)越高，代表著該樣本的交易特征在當前環(huán)境中與其他樣本差異越大。改進后的模型在AUPRC 評判準測下的綜合性能有所提升，但是基于TopN Precision 測度的頭部風險識別能力沒有顯現(xiàn)顯著差異。文章展示、對比了多個方法與粒度下的異常值分數(shù)對現(xiàn)有模型的優(yōu)化效果，對解決目前有監(jiān)督學習模型無法檢測新型欺詐交易模式、無監(jiān)督學習模型精度不足的難題提供了新的思路，未來還有很大的研究空間。

5 總結與展望

近年來數(shù)據(jù)挖掘技術的發(fā)展，硬件設備的更迭，數(shù)字支付方式盛行帶來的交易記錄激增為欺詐交易識別研究奠定了堅實的基礎。本文聚焦這一領域，首先介紹了信用支付欺詐交易識別問題的相關概念、研究難點及評判標準，隨后根據(jù)構建模型的理論基礎，從數(shù)據(jù)均衡算法與模型優(yōu)化策略兩方面分別對欺詐交易識別模型進行了詳細闡述，重點介紹了各類欺詐交易識別模型的理論基礎、適用場景及前沿進展，并結合業(yè)務場景對同類算法進行對比與總結。最后，文章結合現(xiàn)有的研究成果，從需求的角度出發(fā)對眼下最新的研究方向進行論述。

從目前的研究成果來看，現(xiàn)有欺詐交易識別模型已經(jīng)可以準確地抽取歷史數(shù)據(jù)集中的欺詐交易模式，結合用戶的個人信息、行為模式對新發(fā)生的交易申請進行準確推斷。對于部分沒有或標注數(shù)據(jù)集不足的新型業(yè)務，也有相應的無監(jiān)督和半監(jiān)督欺詐識別算法作為輔助應用在決策過程中，整體研究進展順利、未來可期。但在蓬勃發(fā)展的數(shù)字經(jīng)濟時代，欺詐交易識別模型作為保護用戶財產(chǎn)的最后一道“守護卡”，尚不能駐足于此，本章基于已有的研究成果和不足，結合在線欺詐交易識別任務在新時代暴露的新需求，總結了以下未來最值得關注的問題和研究方向。

5.1 打破數(shù)據(jù)孤島，及時互聯(lián)互通

從數(shù)據(jù)分析的角度來說，信息的來源越豐富，對客戶的刻畫越細膩，分析的結果就越準確。數(shù)字支付方式的普及使得銀行、第三方支付平臺手中快速累積了巨量的交易數(shù)據(jù)，但交易信息的敏感性、用戶身份信息的私密性成為數(shù)據(jù)共享時的難題，大量的多源異構數(shù)據(jù)無法相互傳遞，造成了信息浪費。聯(lián)邦學習（federated learning）[104]是谷歌率先提出用于解決“數(shù)據(jù)孤島問題”的新方案，能夠使各終端在不泄露隱私數(shù)據(jù)的條件下實現(xiàn)協(xié)同訓練，目前已有研究[105]將其與決策樹算法相結合用于反欺詐中，實現(xiàn)了聯(lián)邦學習的初步應用，這種新型的人工智能技術有望成為未來分布式學習和企業(yè)間聯(lián)合建模的曙光。

另外，“數(shù)據(jù)孤島”現(xiàn)象不僅存在于企業(yè)與企業(yè)中，還存在于企業(yè)與學者中。目前的公開數(shù)據(jù)集稀少，學者們?nèi)鄙賹⒗碚摽焖龠M行驗證的通道，拖慢了反欺詐研究的進程。處理好“數(shù)據(jù)孤島”問題勢在必行。

5.2 聚焦重疊樣本，關注主要矛盾

從技術角度看，映射在特征空間中的重疊區(qū)域樣本具有高度的特征相似性，難以被模型準確捕捉與識別；從業(yè)務上看，重疊樣本代表著當前數(shù)字金融環(huán)境中隱匿性最強的欺詐行為，是欺詐損失的主要來源。因此，增強算法對重疊樣本的分類精度是研究者在迭代優(yōu)化模型時的主要目標，也是未來數(shù)字信用反欺詐研究的重要方向。在最新的研究成果中，文獻[34-35]從定性的角度對欺詐交易樣本的鄰域分布進行深入挖掘，避免生成噪聲節(jié)點的同時優(yōu)化均衡樣本的穩(wěn)健性；文獻[37,40]從特征空間出發(fā)量化數(shù)據(jù)集均衡前后重疊區(qū)域的變動情況，并將樣本重疊系數(shù)融入欺詐識別模型的損失函數(shù)中，加強對該區(qū)域樣本識別能力；文獻[48,75]為各交易樣本添加樣本粒度下的錯分代價，使模型在訓練中能夠主動關注難以識別的重疊樣本。上述文章打開了聚焦重疊樣本的新思路，但性能提升的背后是模型參數(shù)量與復雜度的大幅提升。目前針對重疊樣本的優(yōu)化工作正在如火如荼地進行，同時也是未來數(shù)字信用交易反欺詐研究的重要方向。

5.3 提升模型的解釋能力，輔助智能決策

面對海量多源的高維數(shù)字信用交易數(shù)據(jù)，以Lgb、深度學習為代表的欺詐交易識別模型參數(shù)量與復雜度不斷增加，精度提升的背后是可解釋性能的大幅下降，研究者難以解釋每個特征如何對最終的決策產(chǎn)生影響。在數(shù)字信用反欺詐研究中，銀行或第三方支付機構需要的不僅僅是模型在測試集上的準確率，更需要了解模型從歷史交易數(shù)據(jù)集中學習到的風險點或具體的欺詐行為模式，進而有針對性地進行策略調(diào)整，加強風險防范，在根本上杜絕欺詐損失的發(fā)生?；仡櫖F(xiàn)有研究成果，主要的突破是代理模型的運用[97-101]，通過添加外部的可解釋器為當前欺詐識別模型的決策提供局部或全局解釋。目前仍存在以下兩方面不足：代理模型無法完全替代決策模型，兩者間存在信息損失；決策模型自身的可解釋性沒有得到優(yōu)化，依舊不具備相應的可解釋性能。在未來的研究中，如何提高模型的可解釋能力并用到?jīng)Q策過程值得進一步研究。

5.4 善用數(shù)據(jù)資源，防范新型欺詐交易

運用數(shù)據(jù)挖掘或深度學習算法提取歷史數(shù)據(jù)集中的欺詐行為特征，進而對新發(fā)生的交易展開預測是當前數(shù)字信用交易反欺詐研究的主要思路。但實際業(yè)務場景中，從欺詐交易發(fā)生到相關案例庫形成之間存在間隔，時間上的滯后性使欺詐交易識別模型面對歷史數(shù)據(jù)未涵蓋的新型欺詐模式時，無法對其進行正確識別。目前，有關新型欺詐交易的防范還處于理論探索階段，如何利用手中海量、多源的交易信息在學習已有欺詐模式的同時加強對新型欺詐模式的敏感度是未來亟需攻克的問題。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放