鄭迎飛,陶文納,趙 旭,王生金
(1.上海對(duì)外經(jīng)貿(mào)大學(xué) 金融管理學(xué)院,上海 201620;2.上海交通大學(xué) 安泰經(jīng)濟(jì)與管理學(xué)院創(chuàng)業(yè)學(xué)院,上海 200240;3.上海城建職業(yè)學(xué)院,上海 201415)
中國反洗錢監(jiān)管的核心是可疑交易報(bào)告制度,這個(gè)制度由中國人民銀行發(fā)布的《金融機(jī)構(gòu)大額交易和可疑交易報(bào)告管理辦法》(中國人民銀行令〔2006〕第2號(hào)發(fā)布)確定下來,要求金融機(jī)構(gòu)向中央銀行報(bào)告大額交易和可疑交易,然后由中央銀行下設(shè)的反洗錢監(jiān)測(cè)中心進(jìn)行分析。近幾年,隨著電子支付交易數(shù)量快速增長(zhǎng),基層金融機(jī)構(gòu)需要從海量交易數(shù)據(jù)中找出可疑交易,人工篩查數(shù)據(jù)的工作量非常大,于是有了以結(jié)構(gòu)化查詢語言(Structured Query Language,SQL)為主的機(jī)器篩查。但是有了機(jī)器篩查之后,人工篩查只作為機(jī)器篩查結(jié)果的一個(gè)驗(yàn)證步驟。這樣就導(dǎo)致了高度的系統(tǒng)依賴,使得監(jiān)測(cè)系統(tǒng)變得易于被規(guī)避,系統(tǒng)識(shí)別的準(zhǔn)確性和適應(yīng)性因?yàn)橐?guī)避技術(shù)的發(fā)展而降低。因此,越來越多業(yè)界人士呼吁加強(qiáng)人工篩查。但若不能將人工篩查的經(jīng)驗(yàn)傳遞給機(jī)器,要靠人工在浩若煙海的數(shù)據(jù)中去尋找可疑交易,將是十分困難的。與此同時(shí),不能與時(shí)俱進(jìn)、學(xué)習(xí)新洗錢特征的機(jī)器將成為越來越無用的機(jī)器。如果將人工篩查發(fā)現(xiàn)的異常交易標(biāo)記為“可疑交易”,然后歸入機(jī)器學(xué)習(xí)的數(shù)據(jù)庫,則機(jī)器預(yù)測(cè)能力可以自動(dòng)升級(jí)。人工甚至可以根據(jù)最新洗錢趨勢(shì),修改機(jī)器學(xué)習(xí)模型的特征變量,完成機(jī)器算法的快速升級(jí)。因此,構(gòu)建基于機(jī)器學(xué)習(xí)加上人工反饋形成的人機(jī)耦合可疑交易監(jiān)測(cè)系統(tǒng)十分必要。
國際反洗錢監(jiān)管呈現(xiàn)如下幾方面的趨勢(shì)[1]:首先,反洗錢監(jiān)管的重要性日益增強(qiáng)。各國當(dāng)局將反洗錢監(jiān)管逐漸提高到了維護(hù)國家經(jīng)濟(jì)安全和國際政治穩(wěn)定的戰(zhàn)略高度,政治色彩較為濃厚。其次,監(jiān)管渠道和監(jiān)管對(duì)象不斷拓寬。反洗錢監(jiān)管對(duì)象正逐漸由傳統(tǒng)銀行類金融機(jī)構(gòu)向其他金融機(jī)構(gòu)和非金融機(jī)構(gòu)延伸。從業(yè)務(wù)范圍來看,反洗錢監(jiān)管已拓寬到數(shù)字貨幣等新興金融業(yè)務(wù)。最后,監(jiān)管前移,“KYC”成為重點(diǎn)1)KYC 是“Know Your Customer”的英文首字母縮寫,意為“了解你的客戶”。反洗錢合規(guī)監(jiān)管思路由“規(guī)則為本”向“風(fēng)險(xiǎn)為本”轉(zhuǎn)變,后者強(qiáng)調(diào)“預(yù)防為主、打擊為輔”原則,注重對(duì)洗錢風(fēng)險(xiǎn)提前監(jiān)測(cè)和有效防控。
反洗錢監(jiān)測(cè)技術(shù)方面,隨著信息化和數(shù)字化的發(fā)展,可疑交易識(shí)別技術(shù)的研究及應(yīng)用已經(jīng)取得了較大進(jìn)展。關(guān)于如何提升可疑交易監(jiān)測(cè)能力的學(xué)術(shù)研究主要分為兩類,一類文獻(xiàn)研究反洗錢監(jiān)測(cè)系統(tǒng)的整體設(shè)計(jì)和系統(tǒng)構(gòu)建;另一類文獻(xiàn)研究可疑交易監(jiān)測(cè)中重要環(huán)節(jié)的具體識(shí)別技術(shù)和方法[2]。
關(guān)于反洗錢監(jiān)測(cè)系統(tǒng)的整體設(shè)計(jì)和系統(tǒng)構(gòu)建,代表性的研究有:陳云開等[3]構(gòu)建了包括邏輯層次結(jié)構(gòu)、系統(tǒng)基本框架和系統(tǒng)基本流程的分布式異構(gòu)計(jì)算環(huán)境下基于數(shù)據(jù)挖掘技術(shù)的反洗錢監(jiān)測(cè)系統(tǒng);湯俊[4]設(shè)計(jì)了利用風(fēng)險(xiǎn)評(píng)估工具及合規(guī)工作流程輔助工具從客戶風(fēng)險(xiǎn)、交易風(fēng)險(xiǎn)和綜合風(fēng)險(xiǎn)3個(gè)方面識(shí)別可疑交易的反洗錢監(jiān)測(cè)系統(tǒng);宋媚等[5]提出了基于聚類分析的反洗錢組織多層次監(jiān)測(cè)體系。上述文獻(xiàn)注重了反洗錢監(jiān)測(cè)系統(tǒng)結(jié)構(gòu)性和層次性,為本文構(gòu)建基于人機(jī)耦合的反洗錢監(jiān)測(cè)系統(tǒng)奠定了基礎(chǔ),但上述文獻(xiàn)未明確提出計(jì)算機(jī)監(jiān)測(cè)系統(tǒng)和人工以及外部系統(tǒng)之間的耦合關(guān)系。
關(guān)于反洗錢監(jiān)測(cè)系統(tǒng)中可疑交易的具體識(shí)別技術(shù)和方法的研究中,基于機(jī)器學(xué)習(xí)的模型已經(jīng)有較多研究成果[6]。各種有監(jiān)督模型,以及網(wǎng)格聚類、孤立點(diǎn)挖掘、距離聚類等無監(jiān)督模型,在反欺詐和反洗錢領(lǐng)域均具有有效性[7]。代表性的研究有:基于決策樹算法的反洗錢監(jiān)測(cè)模型[8],貝葉斯分類和聚類分析相結(jié)合的復(fù)合模型[9],利用聚類算法和孤立點(diǎn)挖掘的反洗錢改進(jìn)算法模型[10],基于IF-THEN 規(guī)則和決策樹算法的降低可疑交易預(yù)警模型[11],基于Logistic回歸分析的用戶違約評(píng)估模型[12],基于GBDT 算法的線上交易欺詐偵測(cè)模型[13],基于改進(jìn)稀疏編碼模型的圖像分類算法[14],利用掃描統(tǒng)計(jì)判別賬戶交易片段異常的流程和算法模型[15],基于時(shí)間壓力條件下的最小風(fēng)險(xiǎn)最大洗錢量模型[16]以及基于大數(shù)據(jù)分析的反洗錢方法[17]等。上述文獻(xiàn)的經(jīng)驗(yàn)為本文優(yōu)化機(jī)器學(xué)習(xí)算法縮小了試錯(cuò)范圍。又因?yàn)楸疚臉?gòu)建了基于人機(jī)耦合監(jiān)測(cè)系統(tǒng),所以需要針對(duì)該系統(tǒng)繼續(xù)優(yōu)化機(jī)器學(xué)習(xí)算法。
支付機(jī)構(gòu)現(xiàn)有反洗錢可疑交易篩查的第1個(gè)步驟是對(duì)交易數(shù)據(jù)進(jìn)行SQL篩查,通過這個(gè)程序可以去掉大部分單筆金額以及30日累計(jì)金額均非常小的交易,同時(shí)篩查出單一指標(biāo)達(dá)到可疑水平的交易。例如,賬戶單日收款交易金額占前30日日均收款金額的400%,單筆金額大于5萬元,信用卡交易筆數(shù)占總交易筆數(shù)的比例較大,或一周內(nèi)交易金額大于50萬元等,均可能是可疑交易。
第2個(gè)步驟是對(duì)SQL 篩查后余下的交易數(shù)據(jù)進(jìn)行人工篩查。篩查的標(biāo)準(zhǔn)通常包括:
(1)短時(shí)間內(nèi)交易頻繁,且交易資金量突增,涉及資金來源均為網(wǎng)站虛擬商品消費(fèi)。
(2)賬戶涉及資金交易與網(wǎng)站商品價(jià)值、交易量明顯不符。
(3)資金涉及快進(jìn)快出,且賬戶幾乎無余額。
(4)短期內(nèi)交易極其頻繁,交易金額遞增,且呈現(xiàn)大額整數(shù)金額特征。
(5)客戶基本信息情況缺失或可疑。
上述機(jī)器篩查和人工篩查分離的系統(tǒng)存在弊端。機(jī)器篩查規(guī)則單一、固定,很容易被犯罪分子規(guī)避。雖然近期引入人工智能之后,篩查系統(tǒng)具有學(xué)習(xí)能力,但在迭代速度和靈活性上不及真正的人工。這是因?yàn)閮H憑賬戶信息和交易信息很難確定洗錢行為,金融機(jī)構(gòu)若不想“防衛(wèi)性報(bào)送”,則需要查詢外源信息進(jìn)行輔助判斷,這時(shí)人工往往占優(yōu)勢(shì)。首先,信息來源復(fù)雜多樣,需要從各個(gè)渠道、各種形式(包含文字、圖片、視頻)、對(duì)商戶不同角度的評(píng)論等做判斷。其次,信息判斷難。多樣化的數(shù)據(jù)很難通過技術(shù)手段做判斷,而且洗錢行為本身是不斷變化的。最后,雖然隨著技術(shù)水平的發(fā)展,人能做的查詢和判斷都可以用機(jī)器來實(shí)現(xiàn),例如通過爬蟲獲取這些信息,再用自然語言處理(NLP)、計(jì)算機(jī)視覺(CV)以及多模態(tài)的深度學(xué)習(xí)技術(shù)來做識(shí)別,但這時(shí)數(shù)據(jù)采集和模型的搭建、維護(hù)成本都很高。面對(duì)變化的需求,人可以靈活判斷,而深度學(xué)習(xí)模型則需要根據(jù)業(yè)務(wù)變化不斷迭代[18]。
面對(duì)不斷演化升級(jí)的新型洗錢方式,反洗錢監(jiān)測(cè)部門人員可以從外部或內(nèi)部協(xié)作中掌握這些變化,快速更新模型數(shù)據(jù)處理規(guī)則,并把新型洗錢案例加入機(jī)器學(xué)習(xí)數(shù)據(jù)庫,讓機(jī)器學(xué)習(xí)模型實(shí)現(xiàn)快速升級(jí)。若依靠機(jī)器學(xué)習(xí)自動(dòng)實(shí)現(xiàn)迭代,則需要積累一定的案例量,更新速度較慢。而且人工輔助機(jī)器升級(jí)并不妨礙機(jī)器學(xué)習(xí)模型獨(dú)立發(fā)現(xiàn)新的洗錢規(guī)律。
因此,在現(xiàn)有機(jī)器篩查和人工篩查步驟基礎(chǔ)上,本文改進(jìn)了傳統(tǒng)洗錢篩查流程,建立了基于人機(jī)耦合的反洗錢監(jiān)測(cè)系統(tǒng)流程,如圖1所示。
圖1 支付機(jī)構(gòu)人機(jī)耦合反洗錢監(jiān)測(cè)流程圖
改進(jìn)后的系統(tǒng)中,人工篩查不僅作為機(jī)器篩查之后的“下一步驟”,而且“人工”還會(huì)不斷地接受來自本機(jī)構(gòu)其他部門和外部的新型洗錢案例的信息[19]?;谶@些新信息,更新人工篩查標(biāo)準(zhǔn)的同時(shí),將發(fā)現(xiàn)的新型案例添加到機(jī)器學(xué)習(xí)算法的學(xué)習(xí)庫中,必要時(shí)還可以修改、添加機(jī)器學(xué)習(xí)模型的特征變量,這樣就形成了一個(gè)人機(jī)耦合的系統(tǒng)(見圖2)。之所以稱之為“耦合”,是因?yàn)樵谠撓到y(tǒng)中人與機(jī)器之間不僅是一種基于發(fā)揮各自特長(zhǎng)的協(xié)作關(guān)系,而且是人與機(jī)器各自對(duì)信息處理的結(jié)果會(huì)影響對(duì)方的行為,相互形成數(shù)據(jù)控制,所以屬于耦合關(guān)系。
圖2 基于人機(jī)耦合的支付機(jī)構(gòu)反洗錢監(jiān)測(cè)系統(tǒng)
在人機(jī)耦合系統(tǒng)框架中,機(jī)器學(xué)習(xí)算法模型對(duì)系統(tǒng)識(shí)別準(zhǔn)確性和效率而言非常重要。比較了常見的幾種機(jī)器學(xué)習(xí)分類算法的特點(diǎn)及其對(duì)于反洗錢可疑交易監(jiān)測(cè)的適用性之后[7],初步判斷基于隨機(jī)森林分類算法的模型最可能適合用于支付機(jī)構(gòu)反洗錢可疑交易監(jiān)測(cè)。而Logistic回歸分類法和梯度提升算法(GBDT)也具有一定的可實(shí)施性。下文將對(duì)基于這3種算法的模型進(jìn)行測(cè)試和比較。
隨機(jī)森林算法屬于典型的組合分類器算法,最早是由Breiman[20]提出的?;陔S機(jī)森林算法的模型構(gòu)建包括特征和標(biāo)簽提取、特征預(yù)處理、樣本內(nèi)訓(xùn)練、交叉驗(yàn)證和樣本外測(cè)試等步驟,如圖3所示。
圖3 隨機(jī)森林模型構(gòu)建示意圖
以支付公司的客戶基本信息(靜態(tài)信息)和交易信息(動(dòng)態(tài)信息)為研究樣本,時(shí)間選取為2018-01-01~2018-09-31共9個(gè)月數(shù)據(jù),其中,1~6 月的數(shù)據(jù)用于訓(xùn)練模型,7~9月的數(shù)據(jù)用于驗(yàn)證模型。經(jīng)過SQL篩查后,研究樣本共包含12 538 72條交易記錄,其中有洗錢嫌疑上報(bào)央行反洗錢監(jiān)測(cè)中心的交易記錄有124 851 條,標(biāo)為正樣本,標(biāo)簽記為1。沒有洗錢嫌疑的交易記錄有1 129 021條,標(biāo)為負(fù)樣本,標(biāo)簽記為0。
根據(jù)宋媚等[5]提出的多層級(jí)監(jiān)測(cè)體系,監(jiān)測(cè)數(shù)據(jù)分為交易層、賬戶層和實(shí)體層3個(gè)層次。本文將3個(gè)層次的數(shù)據(jù)根據(jù)支付機(jī)構(gòu)的實(shí)際數(shù)據(jù)歸類方法,分為客戶基本信息(對(duì)應(yīng)賬戶層和實(shí)體層)和交易信息(對(duì)應(yīng)交易層),共找到70個(gè)變量。經(jīng)數(shù)據(jù)探索,去掉空值較多、數(shù)據(jù)質(zhì)量差的變量,最終選擇了12個(gè)初始變量。關(guān)于客戶基本信息的變量有9個(gè),包括商戶名稱、單位個(gè)人標(biāo)識(shí)、地址信息、組織機(jī)構(gòu)代碼、依法設(shè)立或經(jīng)營的執(zhí)照名稱、依法設(shè)立或經(jīng)營的執(zhí)照號(hào)碼、法定代表人或負(fù)責(zé)人姓名、法定代表人或負(fù)責(zé)人證件種類以及法定代表人或負(fù)責(zé)人證件號(hào)碼;關(guān)于客戶交易信息的字段有3 個(gè),包括交易時(shí)間、資金收付標(biāo)志和交易金額。
反洗錢監(jiān)測(cè)模型的監(jiān)測(cè)主體是交易可疑的客戶,主要是針對(duì)交易層面進(jìn)行的數(shù)據(jù)挖掘[21],但是也要綜合考慮客戶的基本信息[22-23]。
反洗錢人工篩查人員根據(jù)既有洗錢案例的線索,積累了從數(shù)據(jù)的復(fù)雜關(guān)系中整體判斷交易是否可以的經(jīng)驗(yàn)。但在數(shù)據(jù)量越來越龐大之后需要將經(jīng)驗(yàn)傳遞給計(jì)算機(jī)。在本文提出的人機(jī)耦合系統(tǒng)下,若把支付機(jī)構(gòu)人工篩查的重要變量直接傳遞給計(jì)算機(jī)系統(tǒng),則意味著要將一部分原始基本信息和交易信息進(jìn)行加工處理。首先,將樣本的交易信息按照每個(gè)客戶以日為最小研究單位進(jìn)行統(tǒng)計(jì),衍生出新的交易變量。統(tǒng)計(jì)后的數(shù)據(jù)總量為228 036條,其中,負(fù)樣本數(shù)據(jù)量為219 399條,正樣本數(shù)據(jù)量為8 637條。
交易信息特征包括如下5類:客戶日交易信息統(tǒng)計(jì)情況、日收付款統(tǒng)計(jì)情況、月收付款統(tǒng)計(jì)情況、白天和夜晚時(shí)間段統(tǒng)計(jì)交易信息以及衍生月交易數(shù)據(jù)的處理。共25 個(gè)交易信息特征,具體如表1 所示??蛻艋拘畔⒌淖兞刻幚矸绞饺绫?所示。
表1 交易信息變量的處理
表2 客戶基本信息的變量處理
因變量也是按照天為單位,進(jìn)行客戶歸集。上報(bào)央行的可疑交易作為正樣本,標(biāo)簽設(shè)為1;沒有上報(bào)的正常交易作為負(fù)樣本,標(biāo)簽設(shè)為0。樣本情況如表3所示。
表3 正負(fù)樣本情況
2.3.1 自相關(guān)性檢驗(yàn) 使用皮爾遜相關(guān)系數(shù),判斷變量之間的線性相關(guān)程度,并剔除相關(guān)性較強(qiáng)的變量。皮爾遜相關(guān)系數(shù)數(shù)值介于1和-1之間,數(shù)值越接近于1,表示正相關(guān)性越強(qiáng),數(shù)值為1時(shí),表示完全正相關(guān);數(shù)值越接近于-1,表示負(fù)相關(guān)性越強(qiáng),數(shù)值為-1時(shí),表示完全負(fù)相關(guān)。皮爾遜相關(guān)系數(shù)數(shù)值為0,表示兩個(gè)變量線性無關(guān)。據(jù)此篩選出相關(guān)系數(shù)大于0.5的變量,如表4所示。
表4 變量相關(guān)系數(shù)
2.3.2 多重共線性檢驗(yàn) 當(dāng)模型中兩個(gè)或兩個(gè)以上變量相關(guān)時(shí),說明模型具有多重共線性。因?yàn)楸疚难芯康淖兞烤S度較高,所以對(duì)于多重共線性的檢驗(yàn)比自相關(guān)性的檢驗(yàn)更加實(shí)用。判斷一個(gè)自變量和其他所有自變量的多元線性相關(guān)性可以用方差膨脹因子(VIF)來衡量。當(dāng)0<VIF<5時(shí),表明變量之間不存在多重共線性;當(dāng)5≤VIF<10時(shí),表明變量之間存在弱多重共線性;當(dāng)10≤VIF<100時(shí),表明變量之間存在多重共線性;當(dāng)VIF≥100時(shí),表明變量之間有嚴(yán)重的多重共線性。本文篩選出VIF>5的變量,10個(gè)需要?jiǎng)h除的具體變量如表5所示。
表5 多重共線性檢驗(yàn)
根據(jù)自相關(guān)檢驗(yàn)和多重共線性檢驗(yàn),以多重共線性的變量為基礎(chǔ),刪除和自相關(guān)檢驗(yàn)共有的23個(gè)變量。
以2018 年前6 個(gè)月的數(shù)據(jù)的70%作為訓(xùn)練集,30%作為驗(yàn)證集進(jìn)行模型訓(xùn)練,其中,負(fù)樣本數(shù)據(jù)量為84 197條,正樣本數(shù)據(jù)量為2 350條。訓(xùn)練樣本中正負(fù)樣本數(shù)極其不均衡,會(huì)導(dǎo)致模型追求準(zhǔn)確率而犧牲一些正樣本。針對(duì)正負(fù)樣本不均衡問題,在訓(xùn)練模型時(shí)采用過采樣中的SMOTE 算法,將正負(fù)樣本比例調(diào)整為接近1∶1,然后通過隨機(jī)森林算法來訓(xùn)練模型。
2.4.1 混淆矩陣與ROC 曲線 圖4 所示為模型的ROC曲線,接近對(duì)角線,說明模型的泛化能力很強(qiáng),且有很高的準(zhǔn)確率。ROC曲線包圍的面積占比達(dá)0.994 5。
圖4 訓(xùn)練模型ROC曲線
表6 所示為隨機(jī)森林訓(xùn)練結(jié)果得出的混淆矩陣,分別顯示出模型預(yù)測(cè)結(jié)果和實(shí)際結(jié)果的比例關(guān)系和數(shù)量關(guān)系。表6表明,實(shí)際為可疑交易并且預(yù)測(cè)為可疑交易的數(shù)量為24 256,實(shí)際為不可疑交易并且預(yù)測(cè)為不可疑交易的數(shù)量為23 740,實(shí)際為可疑交易但是預(yù)測(cè)為不可疑交易的數(shù)量為34,實(shí)際為不可疑交易但是預(yù)測(cè)為可疑交易的數(shù)量為99。模型結(jié)果表明,隨機(jī)森林預(yù)測(cè)的可疑交易和人工篩查上報(bào)的可疑交易基本相同,在很大程度上節(jié)省了人力,并且模型數(shù)據(jù)處理量大,處理效率極高。
表6 訓(xùn)練模型混淆矩陣
由表7隨機(jī)森林模型的評(píng)價(jià)指標(biāo)可以看出,模型正負(fù)樣本的精確率、召回率以及F1-Score值的平均值均為0.997 2,說明分類正確的樣本占所有樣本的比例為0.997 2,模型能夠很好地預(yù)測(cè)可疑交易。
表7 隨機(jī)森林模型的評(píng)價(jià)指標(biāo)
2.4.2 隨機(jī)森林模型優(yōu)化 隨機(jī)森林模型的優(yōu)化,主要是對(duì)模型調(diào)整參數(shù)。隨機(jī)森林模型的重要參數(shù)如下:n_estimators為弱學(xué)習(xí)器的最大迭代次數(shù),max_features是最大特征數(shù),max_depth為決策樹最大深度,min_samples_split為內(nèi)部節(jié)點(diǎn)再劃分所需最小樣本數(shù),min_samples_leaf為葉子節(jié)點(diǎn)最少樣本數(shù)。
運(yùn)用python軟件進(jìn)行網(wǎng)格搜索,得出模型的最優(yōu)參數(shù)分別為:n_estimators=60,max_features=5,max_depth=11,min_samples_split=50,min_samples_leaf=20。將參數(shù)代入隨機(jī)森林模型,重新進(jìn)行隨機(jī)森林建模,得到新的混淆矩陣如表8所示。由混淆矩陣可以看出,調(diào)參后的模型正負(fù)樣本預(yù)測(cè)情況均有提高。
表8 優(yōu)化后訓(xùn)練模型混淆矩陣
圖5所示為優(yōu)化后模型的ROC 曲線,其包圍的面積占比達(dá)0.999 3。與圖4模型的ROC曲線對(duì)比,更接近對(duì)角線,說明模型的泛化能力增強(qiáng),且準(zhǔn)確率也增加了。由表8所得混淆矩陣對(duì)比表6所得混淆矩陣可以看出,可疑交易預(yù)測(cè)結(jié)果的正確率明顯增加。
圖5 優(yōu)化后訓(xùn)練模型ROC曲線
由表9 中優(yōu)化后模型的評(píng)價(jià)指標(biāo)結(jié)果可以看出,模型正負(fù)樣本的精確率、召回率和F1-Score值相比于表7都有明顯提高。
表9 優(yōu)化后模型的評(píng)價(jià)指標(biāo)
2.4.3 特征重要性排序 計(jì)算隨機(jī)森林模型特征重要性排序過程如下:
(1)對(duì)于隨機(jī)森林中每一棵決策樹,根據(jù)袋外數(shù)據(jù),對(duì)決策樹性能評(píng)估,計(jì)算袋外數(shù)據(jù)誤差,記為erro1。袋外數(shù)據(jù)指在訓(xùn)練模型時(shí),由于重復(fù)抽樣,建立決策樹時(shí)沒有用到的數(shù)據(jù)。
(2)隨機(jī)對(duì)袋外數(shù)據(jù)樣本加入噪聲干擾,并計(jì)算袋外數(shù)據(jù)誤差,記為erro2。
(3)假設(shè)隨機(jī)森林N棵樹,特征X重要性=∑(err2-err1)/N。
(4)特征重要性排序原理為:對(duì)袋外數(shù)據(jù)加入噪聲干擾時(shí),若袋外數(shù)據(jù)誤差變化很大,則說明該特征對(duì)模型預(yù)測(cè)有很大影響。
隨機(jī)森林模型特征重要性排序結(jié)果如表10所示。由表10可以看出,std_total(月交易額的標(biāo)準(zhǔn)差)、建立業(yè)務(wù)關(guān)系日期(open_time)、sum_total(月總交易額)對(duì)可疑交易監(jiān)測(cè)模型影響較大,商戶名稱(acc_name)、單位個(gè)人標(biāo)識(shí)(acc_type)、province_exist(省份)對(duì)可疑交易監(jiān)測(cè)模型影響較小,一部分原因是這些變量本身區(qū)別能力較小,商戶名稱和單位個(gè)人標(biāo)識(shí)基本沒有缺失值。
表10 特征重要性排序
以2018年7~9月的數(shù)據(jù)作為模型的驗(yàn)證集,對(duì)模型進(jìn)行樣本外驗(yàn)證。驗(yàn)證集數(shù)據(jù)基本情況為:數(shù)據(jù)總量為49 973條,其中,正樣本數(shù)據(jù)量為3 033條,負(fù)樣本數(shù)據(jù)量為46 940條。為檢驗(yàn)真實(shí)數(shù)據(jù)的預(yù)測(cè)情況,不對(duì)驗(yàn)證樣本進(jìn)行SMOTE 采樣,直接對(duì)測(cè)試集樣本數(shù)據(jù)代入調(diào)參后的模型進(jìn)行驗(yàn)證,查看模型的預(yù)測(cè)能力。
表11中顯示了隨機(jī)森林模型驗(yàn)證結(jié)果得出的混淆矩陣,給出了模型預(yù)測(cè)結(jié)果和實(shí)際結(jié)果的比例關(guān)系和數(shù)量關(guān)系。表11表明,實(shí)際為可疑交易并且預(yù)測(cè)為可疑交易的數(shù)量為3 012,實(shí)際為不可疑交易并且預(yù)測(cè)為不可疑交易的數(shù)量為46 918,實(shí)際為可疑交易但是預(yù)測(cè)為不可疑交易的數(shù)量為21,實(shí)際為不可疑交易但是預(yù)測(cè)為可疑交易的數(shù)量為22。
表11 樣本外驗(yàn)證的混淆矩陣
由表12中隨機(jī)森林模型的驗(yàn)證結(jié)果可以看出,隨機(jī)森林模型的平均精確率、召回率和F1-Score均值為0.999 1,表明模型有很好的準(zhǔn)確性。
表12 樣本外驗(yàn)證的評(píng)價(jià)指標(biāo)
通過分析客戶交易信息及客戶基本信息的實(shí)證結(jié)果,運(yùn)用隨機(jī)森林模型對(duì)于可疑交易分類問題具有很高的準(zhǔn)確率?;谠撃P湍軌虻贸隹梢山灰着c建立業(yè)務(wù)關(guān)系日期、月交易額的標(biāo)準(zhǔn)差(日)、月收款金額、夜晚交易次數(shù)、是否填寫法定代表人證件號(hào)碼、是否填寫法定代表人或負(fù)責(zé)人姓名、月平均交易額、月總交易額、白天交易額以及日總交易額等11個(gè)變量,具有相關(guān)關(guān)系,并且能夠很好地預(yù)測(cè)是否是可疑交易。
上述研究表明,由人工反饋的經(jīng)驗(yàn)形成的衍生變量是隨機(jī)森林模型的重要特征變量,人機(jī)耦合使得基于隨機(jī)森林算法的反洗錢可疑交易監(jiān)測(cè)模型預(yù)測(cè)的結(jié)果與人工篩查后預(yù)測(cè)的可疑交易基本符合,在很大程度上節(jié)省了公司人力,而且模型效率高、預(yù)警快,帶來了實(shí)際的效益。
Logistic回歸模型為基本的機(jī)器學(xué)習(xí)分類模型,具有很好的可解釋性,在實(shí)際中有很好的可實(shí)施性。在實(shí)際應(yīng)用中,基于Logistic分類的模型,預(yù)測(cè)結(jié)果能夠得到概率值。模型預(yù)測(cè)準(zhǔn)確率結(jié)果見表11。Logistic回歸模型的混淆矩陣表明,實(shí)際為可疑交易并且預(yù)測(cè)為可疑交易的數(shù)量為19 685,實(shí)際為不可疑交易并且預(yù)測(cè)為不可疑交易的數(shù)量為10 807,實(shí)際為可疑交易但是預(yù)測(cè)為不可疑交易的數(shù)量為4 607,實(shí)際為不可疑交易但是預(yù)測(cè)為可疑交易的數(shù)量為4 030。由表12的驗(yàn)證結(jié)果可以看出,Logistic回歸模型雖然能夠表現(xiàn)出變量之間對(duì)于可疑交易判斷的影響,但是模型的準(zhǔn)確性較差。
GBDT 模型是集成機(jī)器學(xué)習(xí)分類算法,和隨機(jī)森林模型有很多相似之處,也是以決策樹為基礎(chǔ),具有很好的準(zhǔn)確性。GBDT 是按照每次決策樹分類的結(jié)果,對(duì)于分類錯(cuò)誤的結(jié)果給予較高的懲罰權(quán)重,分類正確的結(jié)果給予較低的懲罰權(quán)重,從而使模型能夠減少錯(cuò)誤的分類誤差。
表11表明,實(shí)際為可疑交易并且預(yù)測(cè)為可疑交易的數(shù)量為24 068,實(shí)際為不可疑交易并且預(yù)測(cè)為不可疑交易的數(shù)量為23 084,實(shí)際為可疑交易但是預(yù)測(cè)為不可疑交易的數(shù)量為224,實(shí)際為不可疑交易但是預(yù)測(cè)為可疑交易的數(shù)量為753。由表12的驗(yàn)證結(jié)果可以看出,基于GBDT 分類的模型相對(duì)于Logistic回歸具有較好的準(zhǔn)確性,但是其準(zhǔn)確率仍不及隨機(jī)森林模型。
本文首先構(gòu)建了基于人機(jī)耦合的支付機(jī)構(gòu)反洗錢監(jiān)測(cè)模型。該模型較人機(jī)分離的反洗錢系統(tǒng)具有優(yōu)越性。面對(duì)金融交易的復(fù)雜性和不確定性,人和計(jì)算機(jī)在識(shí)別洗錢交易方面各有優(yōu)勢(shì)和局限性。計(jì)算機(jī)雖然可以代替人類從事大量的計(jì)算篩查工作,但人類在與外界展開各種非結(jié)構(gòu)化數(shù)據(jù)的交互方面具有獨(dú)特優(yōu)勢(shì),可以主動(dòng)探測(cè)新型洗錢線索,用于判斷交易的整體可疑度。因此,在人機(jī)共同組成的反洗錢監(jiān)測(cè)系統(tǒng)中,人是與外界溝通、學(xué)習(xí)新趨勢(shì),并對(duì)交易的整體可疑度進(jìn)行最終判斷的主體。雖然這個(gè)監(jiān)測(cè)系統(tǒng)的適應(yīng)能力主要源于人,但不能止于人。因?yàn)榻灰椎臄?shù)據(jù)量之龐大已超出了人工處理的范圍,所以將經(jīng)過人工判斷之后的可疑交易的數(shù)據(jù)加入機(jī)器學(xué)習(xí)的訓(xùn)練集,甚至根據(jù)反洗錢的新線索修改機(jī)器學(xué)習(xí)的特征變量提取等步驟,可以讓機(jī)器篩查這一環(huán)節(jié)的學(xué)習(xí)能力和適應(yīng)能力更強(qiáng),實(shí)現(xiàn)更快速的迭代。
在構(gòu)建人機(jī)耦合反洗錢監(jiān)測(cè)系統(tǒng)之后,針對(duì)機(jī)器學(xué)習(xí)算法的選擇,本文比較了隨機(jī)森林算法、Logistic算法和GBDT 算法,發(fā)現(xiàn)基于隨機(jī)森林算法的模型具有更高的精確率,且模型有很好的適應(yīng)性。模型中變量的預(yù)處理也應(yīng)用了人工篩查的經(jīng)驗(yàn)。根據(jù)人工篩查的最新經(jīng)驗(yàn),需要深層次挖掘交易信息才能提高機(jī)器學(xué)習(xí)模型的準(zhǔn)確度,所以本文將交易時(shí)間、資金收付標(biāo)志、交易金額等交易屬性進(jìn)行多方面衍生,多角度地尋找交易方面的共性,包括但不限于日交易收付、月交易收付,白天夜晚收付、日交易標(biāo)注差、月交易標(biāo)準(zhǔn)差等角度。在根據(jù)人工經(jīng)驗(yàn)將交易信息進(jìn)行了上述衍生之后,模型達(dá)到了99%以上的精確度,這正是人機(jī)耦合的效果。未來隨著洗錢新手段、新趨勢(shì)的出現(xiàn),人工可以再次修改數(shù)據(jù)和數(shù)據(jù)的預(yù)處理方式,因此,本文的數(shù)據(jù)預(yù)處理方式僅是一個(gè)算例,在本文構(gòu)建的人機(jī)耦合系統(tǒng)框架下,未來是可以不斷迭代進(jìn)化的。