研究背景
數(shù)據(jù)的概念及其對反洗錢監(jiān)測的意義
近年來,隨著經(jīng)濟(jì)全球化的深入和信息技術(shù)的飛速發(fā)展,金融犯罪形勢呈現(xiàn)出日益復(fù)雜化、智能化和線上化的趨勢。這一變化對現(xiàn)有反洗錢監(jiān)測體系提出了巨大挑戰(zhàn):傳統(tǒng)的“面對面”金融交互模式逐步轉(zhuǎn)變?yōu)椤捌翆ζ痢钡木€上服務(wù)模式,使得犯罪分子利用身份盜用和數(shù)字化手段從事非法金融活動的門檻大幅降低。同時,金融交易網(wǎng)絡(luò)的全球化趨勢進(jìn)一步增加了資金流動的隱蔽性和復(fù)雜性,對反洗錢資金監(jiān)測提出了挑戰(zhàn)。
在此背景下,序列數(shù)據(jù)作為一種能夠反映客戶風(fēng)險特征的重要信息源,正逐漸成為提升反洗錢監(jiān)測能力的關(guān)鍵手段。部分金融機(jī)構(gòu)已經(jīng)開始探索將序列分析引入反欺詐場景,例如,通過對客戶交易頻率、操作、登錄等數(shù)據(jù)的動態(tài)分析,有效識別欺詐模式,顯著降低欺詐風(fēng)險和資金損失。與此同時,很多境內(nèi)金融機(jī)構(gòu)的反洗錢監(jiān)測分析對象仍局限在“資金交易”層面,向金融情報機(jī)構(gòu)提交的報告名稱也是“可疑交易報告(Suspicious Transaction Report, STR)”,而公認(rèn)反洗錢師協(xié)會ACAMS指出,在部分司法管轄區(qū),金融機(jī)構(gòu)上報內(nèi)涵更廣的“可疑活動報告(Suspicious Activity Report, SAR)”,即在客戶的資金交易之外,也會將客戶交易之外的可疑活動納入反洗錢監(jiān)測視線。從國內(nèi)外研究和監(jiān)測實踐來看,客戶非金融交易的活動往往也蘊含著洗錢風(fēng)險,通過對序列數(shù)據(jù)的分析,能夠更加精準(zhǔn)地揭示潛在的洗錢。隨著金融機(jī)構(gòu)業(yè)務(wù)和渠道的創(chuàng)新,客戶數(shù)據(jù)采集的范圍和頻率隨之提升,客戶數(shù)據(jù)極大豐富,為金融機(jī)構(gòu)開展監(jiān)測創(chuàng)造了可能。
當(dāng)前反洗錢監(jiān)測工具的局限性
雖然數(shù)據(jù)的引入為反洗錢監(jiān)測帶來了新的突破,但在實際應(yīng)用中依然面臨諸多挑戰(zhàn)。首先,數(shù)據(jù)通常以非結(jié)構(gòu)化的形式存在,包括客戶在不同渠道的操作日志、訪問記錄等,數(shù)據(jù)整合難度極高;其次,數(shù)據(jù)量龐大且結(jié)構(gòu)復(fù)雜,給傳統(tǒng)模型的分析能力帶來嚴(yán)峻考驗;最后,現(xiàn)有的反洗錢監(jiān)測模型工具在應(yīng)對新型金融犯罪時往往會表現(xiàn)出一定的滯后性和局限性。
根據(jù)FATF反洗錢數(shù)字化轉(zhuǎn)型的專項研究及相關(guān)調(diào)研,當(dāng)前境內(nèi)外金融機(jī)構(gòu)反洗錢模型的技術(shù)發(fā)展路線如表1所示。模型建設(shè)初期往往采用傳統(tǒng)的專家規(guī)則,此類模型高度依賴專家經(jīng)驗和知識,通常通過人工設(shè)置特征來識別風(fēng)險。然而,隨著犯罪手法的不斷變化,規(guī)則模型難以及時適應(yīng)新的洗錢模式,誤報率高且缺乏靈活性。近年來,機(jī)器學(xué)習(xí)的引入為反洗錢監(jiān)測提供了新的可能性,使監(jiān)測過程更加智能化,但傳統(tǒng)機(jī)器學(xué)習(xí)模型仍存在適應(yīng)性差的缺點,且無法勝任海量非結(jié)構(gòu)化數(shù)據(jù)的分析任務(wù)。上述局限性導(dǎo)致當(dāng)前的反洗錢監(jiān)測工具難以勝任數(shù)據(jù)分析的任務(wù),同時也無法全面捕捉新型洗錢模式的風(fēng)險信號。為解決這些問題,深度學(xué)習(xí)深度技術(shù)憑借其強(qiáng)大的表征學(xué)習(xí)能力和自適應(yīng)特性,正逐步成為反洗錢監(jiān)測的核心技術(shù)方向。通過對客戶序列的深度建模,深度學(xué)習(xí)可以動態(tài)適應(yīng)犯罪手法的變化,在傳統(tǒng)基于交易數(shù)據(jù)的監(jiān)測模式中引入序列數(shù)據(jù),為金融機(jī)構(gòu)提供更高效、更智能的風(fēng)險識別工具。
基于深度學(xué)習(xí)的客戶序列洗錢風(fēng)險分析模型
深度學(xué)習(xí)是人工智能的核心技術(shù)之一,其中以RNN、GRU和Transformer為代表的序列模型,在海量非結(jié)構(gòu)化數(shù)據(jù)分析及建模領(lǐng)域表現(xiàn)出了顯著的優(yōu)勢。相較于傳統(tǒng)規(guī)則模型和傳統(tǒng)機(jī)器學(xué)習(xí)模型,序列模型能夠?qū)崿F(xiàn)非結(jié)構(gòu)化數(shù)據(jù)的自動建模,可更高效、更準(zhǔn)確地識別用戶中的復(fù)雜模式?;谏疃葘W(xué)習(xí)的客戶序列洗錢風(fēng)險分析模型,將客戶交易序列、操作序列和客戶屬性信息共同作為模型訓(xùn)練數(shù)據(jù),運用深度學(xué)習(xí)技術(shù)充分挖掘多源信息間的內(nèi)在聯(lián)系,識別客戶蘊含的潛在風(fēng)險因素,并對客戶洗錢風(fēng)險概率進(jìn)行預(yù)測。具體的預(yù)測流程如圖1所示。
數(shù)據(jù)采集與預(yù)處理
對于客戶多源數(shù)據(jù)的采集與預(yù)處理是客戶序列洗錢風(fēng)險分析的基礎(chǔ)。中國民生銀行建立了企業(yè)級客戶數(shù)據(jù)平臺和埋點平臺工具,采集整合全領(lǐng)域數(shù)據(jù),覆蓋產(chǎn)品優(yōu)化、用戶運營、風(fēng)險管理等多個業(yè)務(wù)場景的分析需求,建立轉(zhuǎn)化、留存、歸因等全鏈路的數(shù)據(jù)分析能力。基于該平臺,首先,根據(jù)預(yù)設(shè)的甄別回溯周期范圍采集模型分析所需的客戶數(shù)據(jù),包括客戶自身屬性信息、客戶交易序列、客戶操作序列。其次,對上述所獲取的三類數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗操作,如異常值剔除、缺失值填充等。最后,結(jié)合反洗錢監(jiān)測要點,對處理后的客戶交易序列和客戶操作序列構(gòu)建序列衍生特征,如平均交易間隔等。平均交易間隔是指客戶在一定時間內(nèi)進(jìn)行相鄰兩次交易之間的平均時間長度。平均交易間隔這一特征可以反映客戶的交易頻率和活躍度,能夠體現(xiàn)客戶的交易習(xí)慣和模式。在反洗錢業(yè)務(wù)中,異常的交易間隔可以輔助甄別人員準(zhǔn)確識別高洗錢風(fēng)險客戶。通過客戶交易序列和操作序列構(gòu)建的衍生特征將作為補(bǔ)充輸入用于客戶序列洗錢風(fēng)險分析模型預(yù)測。
序列表征學(xué)習(xí)
基于深度學(xué)習(xí)的客戶序列洗錢風(fēng)險分析模型,運用深度學(xué)習(xí)方法自動化實現(xiàn)對客戶交易序列和客戶操作序列的表征提取工作。首先,對預(yù)處理后的客戶交易序列和客戶操作序列進(jìn)行分桶離散化處理。其中,金額和時間類數(shù)值型特征的出現(xiàn)頻次通常隨著取值的增大而降低,因此采用冪次分桶的方式對上述特征進(jìn)行離散化處理,如下式所示:
上式中,B(x)為第x特征取值的離散化處理結(jié)果,x為特征取值,表示向下取整函數(shù),第m個分桶的取值范圍為[2 , 2m+1)。其余特征采用哈希分桶方式進(jìn)行離散化處理,如下式所示:
H(x)=hash(x)%C
上式中,H(x)為特征x的哈希處理結(jié)果,hash()為哈希函數(shù),x為特征取值,C為表示分桶數(shù)量,所有特征將被分配至C個桶。
其次,使用NLP中的Embedding技術(shù)對離散化后的特征進(jìn)行向量嵌入。將客戶交易序列和客戶操作序列所包含的離散化特征映射至特定維度的向量空間,使用多維向量來表示原始離散化特征,相關(guān)操作如下式所示:
T,E,S,U=Embedding(SEQt,SEQe,Stat,User)
T代表交易序列的向量表示,E代表序列的向量表示,S代表衍生特征的向量表示,U代表客戶屬性特征的向量表示,SEQt代表原始交易序列,SEQe代表原始操作序列,Stat和User分別代表原始衍生特征和原始客戶屬性特征。
在此基礎(chǔ)上,使用雙向GRU網(wǎng)絡(luò)模型和滑動最大池化算子構(gòu)建表征學(xué)習(xí)網(wǎng)絡(luò),以提取客戶交易序列和客戶操作序列的局部表征信息。最后,使用多頭注意力機(jī)制構(gòu)建客戶交易序列和客戶操作序列的全局表征信息。多頭注意力機(jī)制計算方法如下式所示:
通過上式計算得到交易特征權(quán)重和操作特征權(quán)重,使用該權(quán)重計算得到交易序列和操作序列對應(yīng)的全局表征信息。上述操作有助于提升模型對于不同客戶序列中高風(fēng)險因素的識別能力。
可疑客戶識別
綜合前置操作所采集和構(gòu)建的客戶屬性信息、序列衍生特征和序列全局表征,計算客戶洗錢風(fēng)險概率,以挖掘具有高洗錢風(fēng)險的可疑客戶。首先,將數(shù)據(jù)采集與預(yù)處理環(huán)節(jié)獲取的客戶屬性信息和序列衍生特征、序列表征學(xué)習(xí)環(huán)節(jié)獲取的客戶交易序列全局表征和客戶操作序列全局表征四部分進(jìn)行特征拼接,組成新的特征向量。其次,將上述特征向量傳入全連接神經(jīng)網(wǎng)絡(luò)模型,以預(yù)測客戶洗錢風(fēng)險概率。最后,根據(jù)預(yù)先設(shè)置的閾值,篩選洗錢風(fēng)險概率高于閾值的客戶觸發(fā)預(yù)警,上述客戶將交由反洗錢崗位員工進(jìn)行進(jìn)一步分析和甄別。
實驗結(jié)果
當(dāng)前模型已投產(chǎn),根據(jù)實際運行結(jié)果,引入序列數(shù)據(jù)的預(yù)警準(zhǔn)確率顯著提升,也為一線監(jiān)測分析提供了新的視角。引入序列數(shù)據(jù)的深度學(xué)習(xí)模型將上報率提高了近50個百分點,客戶序列數(shù)據(jù)為一線分析員的監(jiān)測分析打開了全新的角度。有如下兩個案例可供參考。
其一,客戶A案例:某客戶頻繁進(jìn)行XX交易,資金在賬戶中快速流轉(zhuǎn),交易XX高度集中,且上下游……其近30天的App操作XX埋點觸發(fā)總會話數(shù)達(dá)到XX次,顯著高于平均水平……交易與網(wǎng)絡(luò)賭博資金的特點高度吻合……
其二,客戶B案例:某客戶多次通過XX渠道完成入賬后迅速轉(zhuǎn)出交易,且上下游……近90天內(nèi)……該客戶的XX埋點觸發(fā)次數(shù)超過XX次,顯著高于正常用戶水平……該特征與信用卡套現(xiàn)高度相關(guān)……
未來工作展望
本文提出將序列數(shù)據(jù)引入反洗錢監(jiān)測分析,依托企業(yè)級埋點平臺全面梳理了電子渠道客戶序列數(shù)據(jù),并利用深度學(xué)習(xí)技術(shù)針對性地構(gòu)造了監(jiān)測模型,填補(bǔ)了客戶序列在洗錢風(fēng)險監(jiān)測領(lǐng)域的研究空白,為可疑交易監(jiān)測提供了新的方法論,實現(xiàn)對洗錢活動全方位的深刻洞察,以及對復(fù)雜洗錢手法變化的自適應(yīng)。通過納入序列信息,預(yù)警出一批網(wǎng)絡(luò)賭博、POS套現(xiàn)等類型的可疑活動,實現(xiàn)數(shù)據(jù)驅(qū)動的精準(zhǔn)情報監(jiān)測,進(jìn)一步維護(hù)人民群眾的財產(chǎn)安全和國家金融秩序。然而,盡管技術(shù)應(yīng)用取得了一定成果,但深度學(xué)習(xí)在反洗錢監(jiān)測分析應(yīng)用中仍存在許多值得探索的方向。
規(guī)范監(jiān)測指引,銜接技術(shù)與業(yè)務(wù)
深度學(xué)習(xí)技術(shù)在反洗錢監(jiān)測中的應(yīng)用雖然提升了模型的預(yù)警能力,但模型的可解釋性與業(yè)務(wù)實際應(yīng)用的銜接仍有待加強(qiáng)。一方面,須制定基于深度學(xué)習(xí)等前沿技術(shù)的監(jiān)測指引,為一線反洗錢工作人員提供明確的操作標(biāo)準(zhǔn)和案例參考。另一方面,針對金融機(jī)構(gòu)長期以來習(xí)慣于資金交易監(jiān)測的特點,應(yīng)在監(jiān)測指引中突出序列數(shù)據(jù)的分析價值,并明確與資金監(jiān)測的協(xié)同方法。此外,通過構(gòu)建技術(shù)與業(yè)務(wù)的雙向交流機(jī)制,推動技術(shù)研發(fā)團(tuán)隊與業(yè)務(wù)實踐部門的深度合作,確保監(jiān)測工具不僅具備技術(shù)前瞻性,也符合一線需求和監(jiān)管要求。
統(tǒng)一數(shù)據(jù)標(biāo)準(zhǔn),支持履職與監(jiān)管
客戶序列數(shù)據(jù)是反洗錢監(jiān)測的重要基礎(chǔ),但當(dāng)前數(shù)據(jù)的格式和質(zhì)量在不同金融機(jī)構(gòu)之間缺乏統(tǒng)一性,這對數(shù)據(jù)整合和監(jiān)管報送工作帶來了較大挑戰(zhàn)。未來,應(yīng)以行業(yè)協(xié)作的形式推動數(shù)據(jù)標(biāo)準(zhǔn)化建設(shè),為金融機(jī)構(gòu)間的數(shù)據(jù)共享與對比分析奠定基礎(chǔ)。一方面,需要制定覆蓋廣泛、結(jié)構(gòu)統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn),規(guī)范金融機(jī)構(gòu)內(nèi)部的數(shù)據(jù)采集、存儲和應(yīng)用流程;另一方面,建議監(jiān)管部門進(jìn)一步完善數(shù)據(jù)報送標(biāo)準(zhǔn),明確序列數(shù)據(jù)在可疑交易報告(STR)中的具體應(yīng)用方法與要求,確保監(jiān)測模型的輸出結(jié)果能夠高效支持監(jiān)管分析與決策。
推進(jìn)協(xié)作共贏,平衡隱私與安全
隨著經(jīng)濟(jì)全球化和數(shù)字化轉(zhuǎn)型的加速推進(jìn),客戶數(shù)據(jù)呈現(xiàn)出分散化和跨領(lǐng)域的特征。金融機(jī)構(gòu)、支付機(jī)構(gòu)以及電商平臺等各類主體積累了大量的客戶數(shù)據(jù),但這些數(shù)據(jù)分散于不同機(jī)構(gòu)中,難以形成完整的客戶畫像。未來,需要通過跨機(jī)構(gòu)合作推動數(shù)據(jù)整合與共享,以全面提升監(jiān)測效率與風(fēng)險識別能力。在此過程中,應(yīng)注重隱私保護(hù)和數(shù)據(jù)安全,采用聯(lián)邦學(xué)習(xí)、多方安全計算等技術(shù)手段,確保在數(shù)據(jù)不出機(jī)構(gòu)的前提下實現(xiàn)聯(lián)合建模。此外,建議監(jiān)管牽頭探索建立行業(yè)級或區(qū)域級的聯(lián)合監(jiān)測平臺,在滿足合規(guī)要求的基礎(chǔ)上,實現(xiàn)對大規(guī)??鐧C(jī)構(gòu)洗錢網(wǎng)絡(luò)的精準(zhǔn)識別與打擊,為國家金融安全提供有力保障。
(中國民生銀行朱笑顏、王梓桐,
龍盈智達(dá)〔北京〕科技有限公司王彥博、
楊璇對本文亦有貢獻(xiàn))
【參考文獻(xiàn)】
[1] Xu T , Yongyan S ,CAO Zuoyi,et al.On the"Effectiveness of Anti-money Laundering System in China[J].Journal of Financial Research, 2009, 31(8):1-16.
[2] Gandhi H , Tandon K , Gite S ,et al.Navigating"the Complexity of Money Laundering: Anti–money Laundering Advancements with AI/ML Insights[J].International Journal on Smart Sensing and Intelligent Systems, 2024, 17(1):82300-82317.
[3] Shin K S , Kim H J , Kim H S .Development of"the Knowledge-based Systems for Anti-money Laundering in the Korea Financial Intelligence Unit[J].American Journal of Pathology, 2008, 14(2):179-192.
[4] Tang J , Yin J .Developing an intelligent data"discriminating system of anti-money laundering based on SVM[J].Internatioanl Conference on Machine Learning and Cybernetics, 2005(6):3453—3457.
[5] Liu X , Zhang P , Zeng D .Sequence Matching for"Suspicious Activity Detection in Anti-Money Laundering[C]//Intelligence amp; Security Informatics, IEEE Isi International Workshops: Paisi, Paccf, amp; Soco, Taipei, Taiwan, June.DBLP, 2008.
[6] Elman J L .Finding Structure in Time[J].Cognitive"Science, 1990, 14(2):179-211.
[7] Cho K , Van Merrienboer B , Gulcehre C ,et"al.Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation[J].Computer Science, 2014(6).
[8] Hochreiter S , Schmidhuber J .Long Short-Term"Memory[J].Neural Computation, 1997, 9(8):1735-1780.
[9] Vaswani A , Shazeer N , Parmar N ,et"al.Attention Is All You Need[C].Advances in Neural Information Processing Systems.2017:5998—6008.
[10] Wang C , Xiao Z .A Deep Learning Approach for"Credit Scoring Using Feature Embedded Transformer[J].Applied Sciences (2076-3417), 2022, 12(21).
[11]Force F A T. Opportunities and challenges of new"technologies for AML/CFT[EB/OL].(2021)