劉卓軍,李曉明,2
(1.中國科學(xué)院數(shù)學(xué)與系統(tǒng)科學(xué)研究院,北京 100190;2.中國科學(xué)院大學(xué),北京 100049)
一種基于客戶行為時(shí)序分析的反洗錢異常交易識(shí)別方法
劉卓軍1,李曉明1,2
(1.中國科學(xué)院數(shù)學(xué)與系統(tǒng)科學(xué)研究院,北京 100190;2.中國科學(xué)院大學(xué),北京 100049)
可疑交易報(bào)告制度是打擊洗錢活動(dòng)的一項(xiàng)基本機(jī)制,如何有效甄別可疑交易是金融機(jī)構(gòu)和金融情報(bào)中心面臨的一個(gè)技術(shù)難點(diǎn)。為輔助反洗錢分析人員從海量金融交易信息中甄別客戶異常交易,本文提出一種預(yù)測誤差和統(tǒng)計(jì)處理綜合法——CPEST,通過分析客戶前后行為的一致性來發(fā)現(xiàn)異常。CPEST建立客戶行為模型,根據(jù)預(yù)測誤差對(duì)客戶行為進(jìn)行時(shí)點(diǎn)異常檢驗(yàn),并在此基礎(chǔ)上構(gòu)造一個(gè)窗口檢驗(yàn),以提高對(duì)涉嫌洗錢行為的識(shí)別能力。本文在支持向量回歸和核密度估計(jì)等具體實(shí)現(xiàn)手段的基礎(chǔ)上,運(yùn)用CPEST對(duì)實(shí)際交易和仿真數(shù)據(jù)進(jìn)行分析,結(jié)果表明該方法的有效性和可行性,具有應(yīng)用推廣價(jià)值。
反洗錢;異常點(diǎn)監(jiān)測;時(shí)序;支持向量回歸;核密度估計(jì)
反洗錢工作以打擊洗錢和恐怖融資犯罪為目標(biāo),在保衛(wèi)國家安全、反腐敗和維護(hù)經(jīng)濟(jì)金融穩(wěn)定中發(fā)揮著重要作用?!吨腥A人民共和國反洗錢法》對(duì)反洗錢的定義是,“為了預(yù)防通過各種方式掩飾、隱瞞毒品犯罪、黑社會(huì)性質(zhì)的組織犯罪、恐怖活動(dòng)犯罪、走私犯罪、貪污賄賂犯罪、破壞金融管理秩序犯罪、金融詐騙犯罪等犯罪所得及其收益的來源和性質(zhì)的洗錢活動(dòng),依照本法規(guī)定采取相關(guān)措施的行為”??梢山灰讏?bào)告制度是打擊洗錢活動(dòng)的一項(xiàng)基本機(jī)制,國際反洗錢組織金融行動(dòng)特別工作組(FATF)在《打擊洗錢、恐怖融資、擴(kuò)散融資國際標(biāo)準(zhǔn):FATF建議》(2012)中規(guī)定,如果金融機(jī)構(gòu)有合理理由懷疑資金為犯罪收益,或與恐怖融資有關(guān),則應(yīng)立即按法規(guī)要求向金融情報(bào)中心報(bào)告。
如何高效地甄別可疑交易是各國反洗錢工作普遍面臨的一個(gè)技術(shù)難點(diǎn)。金融機(jī)構(gòu)要想從日常業(yè)務(wù)經(jīng)營中發(fā)現(xiàn)洗錢分子的蛛絲馬跡,除了做好客戶盡職調(diào)查,了解客戶的真正身份,摒棄基于簡單規(guī)則的可疑交易篩選方式,強(qiáng)調(diào)通過人工分析判別可疑交易[1]之外,還應(yīng)注意利用數(shù)據(jù)挖掘技術(shù)提高人工分析效率。我國承擔(dān)反洗錢可疑交易報(bào)告義務(wù)的金融機(jī)構(gòu)和承擔(dān)洗錢線索分析任務(wù)的中國反洗錢監(jiān)測分析中心,面臨從海量原始客戶和交易信息中篩選異常交易行為的艱巨任務(wù)。僅2010年一年,中國反洗錢監(jiān)測分析中心接收的大額交易報(bào)告超過就2億份,可疑交易報(bào)告超過6000萬份[2],說明了這項(xiàng)工作的艱巨性,分析人員僅憑經(jīng)驗(yàn)人工分析處理原始信息非常低效,難以保證既不漏報(bào)又不誤報(bào)洗錢線索。這種工作現(xiàn)狀激發(fā)了數(shù)據(jù)挖掘技術(shù)在反洗錢中應(yīng)用研究的開展,研究人員力求構(gòu)建合理數(shù)學(xué)模型識(shí)別客戶交易行為特征,進(jìn)而通過計(jì)算機(jī)軟件對(duì)原始交易信息進(jìn)行有效分析處理。
應(yīng)用時(shí)序異常點(diǎn)監(jiān)測技術(shù)來幫助分析人員發(fā)現(xiàn)異常交易,是將數(shù)據(jù)挖掘技術(shù)應(yīng)用于反洗錢監(jiān)測分析的一個(gè)重要方面。已有研究方法主要有兩種,一種是基于相似度核的監(jiān)測方法,例如湯俊[3]提出基于擬合時(shí)序線段斜率比較的檢測方法,Liu Xuan[4]提出基于歐氏距離對(duì)客戶交易的資金序列進(jìn)行匹配比較,以發(fā)現(xiàn)異常交易序列;另一種是基于交易網(wǎng)絡(luò)的監(jiān)測方法,例如喻煒[5]提出了基于交易網(wǎng)絡(luò)特征向量中心度量的可疑洗錢行為檢測方法。已有研究成果為數(shù)據(jù)挖掘方法在可疑交易甄別中的應(yīng)用奠定了基礎(chǔ),但距滿足實(shí)際工作需求仍有不足,主要表現(xiàn)在未充分考慮金融交易復(fù)雜性,算法效率不高;未重視分析人員與計(jì)算機(jī)軟件系統(tǒng)的交互;雖然考慮了通過客戶之間的行為比較來發(fā)現(xiàn)異常,對(duì)不同客戶進(jìn)行了正常和異常的區(qū)分,但對(duì)客戶自身行為一致性研究不夠;以及由于難以獲得樣本數(shù)據(jù)而未使用真實(shí)洗錢案例對(duì)所提方法進(jìn)行驗(yàn)證等方面。本文從客戶行為分析的角度出發(fā),綜合運(yùn)用非線性時(shí)序分析和統(tǒng)計(jì)推斷的相關(guān)理論,提出一種預(yù)測誤差和統(tǒng)計(jì)處理綜合法(Composition of Predictive Error and Statistic Treatment,簡稱CPEST),為依據(jù)客戶自身行為一致性識(shí)別反洗錢異常情況這一重要的工作方式[6]提供了一個(gè)量化分析框架(如圖1所示)。在該框架下,本文應(yīng)用支持向量回歸(Support Vector Regression,簡稱SVR)和核密度估計(jì)(Kernel Density Estimation,簡稱KDE),對(duì)實(shí)際交易和仿真數(shù)據(jù)進(jìn)行實(shí)驗(yàn),并與利用控制圖識(shí)別異常的方法進(jìn)行了比較,結(jié)果表明該方法是可行有效的,克服了常用方法的一些不足,具有推廣應(yīng)用價(jià)值。
圖1 CPEST框架
洗錢分子的行為具有隱蔽性、智能性和流動(dòng)性的特點(diǎn),但絕大多數(shù)犯罪所得的“黑錢”都要通過銀行等金融機(jī)構(gòu)進(jìn)行流轉(zhuǎn),在金融機(jī)構(gòu)中必然留下大量的非法資金流動(dòng)蹤跡[7],所以可以通過分析交易信息來發(fā)現(xiàn)客戶涉嫌洗錢等犯罪的蛛絲馬跡。
本文研究針對(duì)一類典型的洗錢模式——客戶以某種正常經(jīng)營活動(dòng)作為掩護(hù),將非法所得混入正常經(jīng)營收益進(jìn)行清洗。這種洗錢模式屬于常見典型的洗錢手法,例如《金融機(jī)構(gòu)大額交易和可疑交易報(bào)告管理辦法》第十一條(四)中規(guī)定的“平常資金流量小的賬戶突然有異常資金流入,且短期內(nèi)出現(xiàn)大量資金收付”[8],即提示了這種模式的一類具體特征。針對(duì)這種洗錢模式的異常交易甄別需回答兩個(gè)問題,一是客戶交易行為是否有涉嫌洗錢的異常交易發(fā)生,二是如何對(duì)已經(jīng)發(fā)現(xiàn)異常的時(shí)點(diǎn)或時(shí)段進(jìn)行統(tǒng)計(jì)推斷。例如,本文4.2中提及的B公司表面上開展正當(dāng)經(jīng)營,其在銀行辦理的交易大部分出于合法業(yè)務(wù)所需,但實(shí)際上卻將少量涉及詐騙的非法經(jīng)營混雜到日常活動(dòng)中,因此需要分析人員根據(jù)整體交易記錄對(duì)其行為是否存在異常做出判斷,指出哪些交易異常,并對(duì)異常程度進(jìn)行量化分析。
本文研究通過分析客戶前后行為的一致性來發(fā)現(xiàn)異常。根據(jù)上述洗錢模式的固有特點(diǎn),我們提出兩方面假設(shè):一是客戶正常行為和異常行為所產(chǎn)生的交易時(shí)序,因內(nèi)在機(jī)制(經(jīng)營目的和經(jīng)營方式等)不同,故可視為由不同動(dòng)力系統(tǒng)產(chǎn)生;二是發(fā)生異常交易的客戶,其正常交易行為仍占主導(dǎo),異常交易僅為偶發(fā)行為,客戶交易數(shù)據(jù)可被視為一個(gè)主體的動(dòng)力系統(tǒng)產(chǎn)生的數(shù)據(jù),被另一個(gè)動(dòng)力系統(tǒng)在短時(shí)間內(nèi)干擾?;谏鲜黾僭O(shè),我們認(rèn)為CPEST在適當(dāng)選取客戶某一時(shí)段的交易數(shù)據(jù)作為訓(xùn)練集進(jìn)行時(shí)序建模時(shí),其中涉及異常交易的數(shù)據(jù)點(diǎn)相對(duì)少到可忽略不計(jì),或者說可以通過利用這部分?jǐn)?shù)據(jù)訓(xùn)練生成的模型來預(yù)測客戶正常行為,即只要建模方法合理有效,CPEST建立的交易時(shí)序模型應(yīng)能夠?qū)蛻粽P袨樽龀鲆欢ǔ潭取皽?zhǔn)確”的預(yù)測,否則有理由懷疑客戶行為可能發(fā)生了異常。
本文認(rèn)為通過上述方法篩選出的異常交易還需經(jīng)過分析人員進(jìn)一步的人工識(shí)別,有合理理由懷疑與洗錢等犯罪行為相關(guān)后,才能作為可疑交易提交金融情報(bào)中心等單位。
CPEST可分為三大部分:一是建立客戶行為模型;二是根據(jù)客戶行為模型的預(yù)測誤差進(jìn)行時(shí)點(diǎn)檢驗(yàn);三是基于時(shí)點(diǎn)檢驗(yàn)結(jié)果進(jìn)行窗口檢驗(yàn),指出具有洗錢嫌疑的時(shí)段。
3.1 建立客戶行為模型
為排除自相關(guān)等系統(tǒng)非隨機(jī)模式對(duì)異常判別的干擾[9],CPEST第一部分對(duì)客戶行為進(jìn)行建模預(yù)測。由于金融時(shí)序內(nèi)在的噪聲、非平穩(wěn)性和混沌性,過短的金融時(shí)序難以預(yù)測,但長度足夠的金融時(shí)序是可建模預(yù)測的[10],部分學(xué)者應(yīng)用神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)等方法已經(jīng)取得了一定研究成果,例如在股指研究方面[11]。
3.1.1 客戶行為特征屬性時(shí)序
建立客戶行為特征屬性時(shí)序(以下簡稱“特征時(shí)序”)是對(duì)客戶交易行為進(jìn)行分析的基礎(chǔ)。特征屬性應(yīng)能隨時(shí)間推移反映客戶行為在反洗錢所關(guān)注方面的性質(zhì),并可被量化表示,以便用于建立數(shù)學(xué)模型。由于反洗錢核心問題是判別被客戶支配資金的合法性,所以應(yīng)優(yōu)先考慮與交易金額相關(guān)的行為屬性,例如日(周)收款金額、日(周)付款金額、日(周)收付款總額、日(周)平均每筆交易金額等。在選定特征屬性后,依據(jù)時(shí)間的推移采集相應(yīng)數(shù)據(jù)即得到特征時(shí)序{kt}。
反洗錢工作對(duì)及時(shí)性要求沒有一般的實(shí)時(shí)在線監(jiān)測系統(tǒng)那么強(qiáng),因此在建模時(shí)不僅可以按照從前往后的時(shí)間順序構(gòu)建特征時(shí)序,也可按照從后往前的時(shí)間順序構(gòu)建特征時(shí)序,以便增加一個(gè)分析視角。
3.1.2 基于相空間重構(gòu)和SVR的非線性時(shí)序建模
利用非線性時(shí)序建模方法對(duì)標(biāo)量時(shí)序進(jìn)行分析的基礎(chǔ)是重構(gòu)與系統(tǒng)原相空間等價(jià)的相空間[12],此方面廣泛應(yīng)用的方法是延遲坐標(biāo)相空間重構(gòu)法。按照偽鄰近點(diǎn)法和互息法[13]確定嵌入維數(shù)m和延遲時(shí)間τ后,根據(jù)特征時(shí)序{kt}可構(gòu)建延遲向量:
在特征時(shí)序具有混沌屬性的假設(shè)下,該時(shí)序的一步預(yù)測可表示如下:
(2)式中映射M可選擇神經(jīng)網(wǎng)絡(luò)、支持向量回歸和多項(xiàng)式等。本文根據(jù)混沌系統(tǒng)建模的已有研究成果,采用目前應(yīng)用較廣的SVR解出M,原因是考慮到SVR有如下特性[14]:
1)只要選擇適合的核函數(shù),通過SVR得到的回歸函數(shù)可以模擬輸入變量和輸出值之間的任意非線性關(guān)系;
2)SVR有較好的泛化能力;
3)SVR能夠有效地處理高維數(shù)據(jù)。
SVR基本思想[15-16]是,給定訓(xùn)練數(shù)據(jù){(x1, y1),…,(xl,yl)}?×,這里表示d維輸入變量空間(χ=d)。SVR的目標(biāo)是找到一個(gè)回歸函數(shù)f(x)=ωTφ(x)+b,要求該函數(shù)盡量光滑,并且與訓(xùn)練集中目標(biāo)值有最大為的誤差(允許有一定的誤差)。ω是高維特征空間F中的向量,φ(x)表示將x由映射到F中,ω和φ(x)可通過解下列優(yōu)化問題求得:
其中,i=1,…,l,常數(shù)C表示f(x)光滑性與誤差大于∈的數(shù)量之間的權(quán)衡取舍。為解決該問題引入拉格朗日乘子αi≥0≥0,μi≥0≥0,并求解下列拉格朗日函數(shù)的優(yōu)化問題:
引入核函數(shù)k(x,x′)=φ(x)Tφ(x′)后,上述問題的對(duì)偶問題為對(duì){αi}和},求下列函數(shù)最大化:
要求滿足條件0≤αi≤C,其中i=1,…,l,并且。求得該問題的解{αi}和{}后,得到:
其中,對(duì)于每個(gè)樣本xi,αi或(或者兩者都)為0,當(dāng)αi或不為0,即αi-≠0時(shí),對(duì)應(yīng)的樣本xi稱為支持向量。
在實(shí)際操作中,SVR參數(shù)∈和C的取值可通過交叉驗(yàn)證確定[15]。
3.1.3 特征時(shí)序建模預(yù)測流程
步驟1 由分析人員給出初始訓(xùn)練集容量s后,按時(shí)點(diǎn)順序?qū)ⅲ鸎t}中的前s個(gè)元素作為初始訓(xùn)練集{Kt}train,將其余元素歸入檢測集{Kt}test。
步驟2 使用{Kt}train中的數(shù)據(jù)作為SVR的訓(xùn)練集{(xt,yt)}:xt=Kt,yt=kt+1,生成SVR模型M(x)。
步驟3 將{Kt}test中按時(shí)點(diǎn)順序排在第一位的Kf作為SVR模型M(x)的輸入值,得到一步預(yù)測f+1=M(Kf)。
步驟4 將Kf加入{Kt}train,并從{Kt}test中剔除Kf。如{Kt}test非空,則轉(zhuǎn)步驟2,否則建模預(yù)測結(jié)束。
3.2 異常交易的時(shí)點(diǎn)檢驗(yàn)
為利用客戶行為模型預(yù)測誤差對(duì)客戶行為是否異常做出合理判斷,CPEST第二部分將判斷客戶行為在一個(gè)時(shí)點(diǎn)是否異常的問題轉(zhuǎn)化為一個(gè)假設(shè)檢驗(yàn)問題。首先提出如下假設(shè):
H0:客戶交易行為在時(shí)點(diǎn)t正常
然后將et=|kt-|作為預(yù)測誤差ξ的觀察樣本,并對(duì)如何根據(jù)時(shí)點(diǎn)t的樣本et對(duì)客戶行為進(jìn)行時(shí)點(diǎn)檢驗(yàn)做出規(guī)定:分析人員事先給定預(yù)設(shè)值α,當(dāng)概率Pr(ξ>et)<α?xí)r,則認(rèn)為客戶行為在時(shí)點(diǎn)t存在異常,此時(shí)否定H0。按照這種方式對(duì)客戶行為進(jìn)行檢驗(yàn),必須先解決兩個(gè)問題:一是估算概率Pr(ξ<et),二是合理給出預(yù)設(shè)值α。
由于沒有依據(jù)認(rèn)定ξ總是符合正態(tài)分布等某一特定參數(shù)分布,這給分析帶來很大難度,因此本文提出使用現(xiàn)代統(tǒng)計(jì)學(xué)一項(xiàng)重要的新成果——KDE,對(duì)ξ的概率密度函數(shù)進(jìn)行估計(jì)。KDE是一種非參數(shù)檢驗(yàn)方法[17],設(shè)x1,x2,…,xn為變量ξ的樣本,ξ的概率密度函數(shù)f(x)的KDE定義為:
由于α可作為該假設(shè)檢驗(yàn)犯第一類錯(cuò)誤概率的估計(jì),即客戶在時(shí)點(diǎn)t行為實(shí)際正常,但經(jīng)過檢驗(yàn)后被判定為異常的可能性,因此分析人員可以依據(jù)這一點(diǎn)給出適當(dāng)?shù)念A(yù)設(shè)值。
3.3 異常交易的窗口檢驗(yàn)
為了進(jìn)一步提高異常交易識(shí)別能力,CPEST第三部分在時(shí)點(diǎn)檢驗(yàn)的基礎(chǔ)上構(gòu)造了一個(gè)窗口檢驗(yàn),考察包含連續(xù)M個(gè)時(shí)點(diǎn)的窗口內(nèi)客戶交易行為是否存在異常。在上述時(shí)點(diǎn)檢驗(yàn)的基礎(chǔ)上,分析人員可選擇通過該窗口檢驗(yàn),將對(duì)異常交易的關(guān)注時(shí)間單位由時(shí)點(diǎn)擴(kuò)大到時(shí)段。窗口檢驗(yàn)首先定義一個(gè)長度為M的窗口:
其中,wt表示客戶行為在時(shí)點(diǎn)t的時(shí)點(diǎn)檢驗(yàn)結(jié)果,當(dāng)被判定為異常時(shí)wt為1,否則為0。
定義|Wt|為窗口對(duì)應(yīng)的時(shí)段內(nèi)被時(shí)點(diǎn)檢驗(yàn)判定為異常的時(shí)點(diǎn)個(gè)數(shù)之和:
窗口檢驗(yàn)提出如下假設(shè):
H0:客戶交易行為在窗口Wt內(nèi)正常
基于窗口內(nèi)時(shí)點(diǎn)檢驗(yàn)結(jié)果,對(duì)窗口檢驗(yàn)做出規(guī)定:分析人員事先給定預(yù)設(shè)值γ,M和^α,當(dāng)概率Pr(| Wt|>γ)<^α?xí)r,則認(rèn)為客戶行為在該窗口內(nèi)存在異常行為,此時(shí)否定H0。
與時(shí)點(diǎn)檢驗(yàn)相同,由于^α可作為窗口檢驗(yàn)犯第一類錯(cuò)誤概率的估計(jì),即客戶在窗口內(nèi)行為實(shí)際正常,但經(jīng)過檢驗(yàn)后被判定為異常的可能性,因此分析人員可以依據(jù)這一點(diǎn)給出適當(dāng)?shù)念A(yù)設(shè)值。
為說明CPEST應(yīng)用于實(shí)際數(shù)據(jù)的效果,本文選取低洗錢風(fēng)險(xiǎn)的某A公司和因涉嫌詐騙洗錢罪被查處的某B公司作為算例進(jìn)行分析。利用二者符合《金融機(jī)構(gòu)大額交易和可疑交易報(bào)告管理辦法》規(guī)定的大額交易建立特征時(shí)序,并按照下式進(jìn)行歸一化處理[18]:
其中,zt為原始特征時(shí)序,kt為歸一化后的時(shí)序,L為時(shí)序長度。根據(jù)偽鄰近點(diǎn)法和互息法確定m和τ后,按照(1)式進(jìn)行相空間重構(gòu),得到延遲向量集{Kt}。
分別應(yīng)用CPEST的窗口檢驗(yàn)和獨(dú)立的時(shí)點(diǎn)檢驗(yàn)對(duì)上述時(shí)序進(jìn)行分析。關(guān)于窗口檢驗(yàn),分析人員給出的預(yù)設(shè)值^α為0.01,γ為2,M為5,與對(duì)應(yīng)的窗口內(nèi)時(shí)點(diǎn)檢驗(yàn)的預(yù)設(shè)值為0.1056。關(guān)于獨(dú)立的時(shí)點(diǎn)檢驗(yàn),分析人員給出的預(yù)設(shè)值α為0.005。這里和α的取值基于本文3.2和3.3中的討論,γ和M的取值則主要是根據(jù)分析人員的工作經(jīng)驗(yàn)。
4.1 算例1:低洗錢風(fēng)險(xiǎn)企業(yè)的數(shù)值分析
選取A公司2008年底至2011年初的大額交易記錄,根據(jù)交易頻繁程度,取日交易總金額作為客戶行為特征屬性,按照時(shí)間前后順序采集得到包含594點(diǎn)數(shù)據(jù)的特征時(shí)序,初始訓(xùn)練樣本集容量為300。根據(jù)偽鄰近點(diǎn)和互息法得到的嵌入維數(shù)m為5,延遲時(shí)間τ為2。
表1列出了A公司的窗口內(nèi)時(shí)點(diǎn)檢驗(yàn)中,滿足Pr(ξ>et)<的時(shí)點(diǎn)所對(duì)應(yīng)的被檢測樣本序號(hào)t、預(yù)測誤差et(簡稱受關(guān)注預(yù)測誤差,下同)和事件ξ>et的概率。由于α<p,該結(jié)果包含了獨(dú)立的時(shí)點(diǎn)檢驗(yàn)滿足Pr(ξ>et)<α的時(shí)點(diǎn)。從表1中可以看出,被檢驗(yàn)的時(shí)序中沒有被判斷為存在異常的窗口,但時(shí)點(diǎn)249被獨(dú)立的時(shí)點(diǎn)檢驗(yàn)判斷為異常,需進(jìn)行人工分析。
表1 A公司受關(guān)注預(yù)測誤差及相關(guān)概率密度
參照《金融機(jī)構(gòu)大額交易和可疑交易報(bào)告管理辦法》對(duì)可疑交易模式的定義,在A公司的實(shí)際交易數(shù)據(jù)中加入仿真的異常交易數(shù)據(jù):將檢測集中第41時(shí)點(diǎn)的日交易總金額增加樣本數(shù)據(jù)最高日交易總金額的50%,將第69、70和71時(shí)點(diǎn)的日交易總金額分別增加樣本數(shù)據(jù)最高日交易總金額的25%。表2列出了A公司加仿真數(shù)據(jù)后檢驗(yàn)中受關(guān)注的預(yù)測誤差及相關(guān)概率密度。從表2中可以看出,時(shí)點(diǎn)67至?xí)r點(diǎn)73的時(shí)段被窗口檢驗(yàn)判斷為存在異常,時(shí)點(diǎn)41被獨(dú)立的時(shí)點(diǎn)檢驗(yàn)判斷為異常,需進(jìn)行人工分析。
表2 A公司加仿真數(shù)據(jù)后受關(guān)注預(yù)測誤差及相關(guān)概率密度
4.2 算例2:涉嫌疑犯罪企業(yè)的數(shù)值分析
選取B公司2008年前后的大額交易記錄,根據(jù)交易頻繁程度,取日交易金額總額作為客戶行為特征屬性,按照時(shí)間前后順序采集得到包含347點(diǎn)數(shù)據(jù)的特征時(shí)序,初始訓(xùn)練樣本集容量為100。根據(jù)偽鄰近點(diǎn)和互息法得到的嵌入維數(shù)m為5,延遲時(shí)間τ為2。
表3列出了B公司檢驗(yàn)中受關(guān)注的預(yù)測誤差及相關(guān)概率密度。從表3中可以看出,客戶行為在時(shí)點(diǎn)156至?xí)r點(diǎn)162和時(shí)點(diǎn)199至?xí)r點(diǎn)203的兩個(gè)時(shí)段被窗口檢驗(yàn)判斷為存在異常,時(shí)點(diǎn)159,213被獨(dú)立的時(shí)點(diǎn)檢驗(yàn)判斷為存在異常,需進(jìn)行人工分析。
表3 B公司受關(guān)注預(yù)測誤差及相關(guān)概率密度
4.3 與利用控制圖識(shí)別異常方法的比較
為進(jìn)一步考察CPEST的實(shí)際功效,本文通過實(shí)驗(yàn),將其與原理相似的利用控制圖識(shí)別異常[9,19]的典型方法(簡稱控制圖法)進(jìn)行了比較。統(tǒng)計(jì)過程控制中控制圖法的通常流程是,先建立時(shí)序模型對(duì)數(shù)據(jù)進(jìn)行預(yù)測,得到預(yù)測誤差集合{et};然后將預(yù)測誤差分為前后不重合的兩部分,包含N個(gè)數(shù)據(jù)的第一部分用于計(jì)算上、下控制限:
兩種方法對(duì)多個(gè)案例的實(shí)驗(yàn)結(jié)果表明,在合理設(shè)置參數(shù)的前提下,控制圖法雖然對(duì)部分案例也能做出與實(shí)際情況基本相符的結(jié)論,但對(duì)A公司交易加仿真數(shù)據(jù)等案例的檢驗(yàn)效果不如CPEST??刂茍D方法相較CPEST有以下兩點(diǎn)突出的不足:
(1)控制圖法的前提是預(yù)測誤差符合正態(tài)分布,但B公司等算例的預(yù)測誤差不滿足正態(tài)分布,會(huì)表現(xiàn)出偏態(tài),厚尾和縮尾的現(xiàn)象,因而不滿足控制圖方法的適用條件。
(2)如果用于計(jì)算上、下控制限的預(yù)測誤差集中包含異常數(shù)據(jù),則可能會(huì)致使上、下控制限發(fā)生改變,導(dǎo)致控制圖法漏檢部分異常數(shù)據(jù)。例如,在對(duì)A公司交易加仿真數(shù)據(jù)的實(shí)驗(yàn)中,將時(shí)點(diǎn)41的預(yù)測誤差放入計(jì)算控制上限的預(yù)測誤差集合中后,導(dǎo)致上控制限偏大,影響到了對(duì)時(shí)點(diǎn)69的檢出。
4.4 實(shí)驗(yàn)結(jié)果分析
兩類企業(yè)的數(shù)值分析結(jié)果與其是否涉嫌洗錢的實(shí)際情況基本吻合,表明了CPEST的可用性。通過算例可以看出,該方法可以輔助分析人員提高工作效率,一方面該方法可以減輕人工分析工作量,對(duì)于低洗錢風(fēng)險(xiǎn)的客戶交易進(jìn)行分析時(shí),該方法合理縮小人工分析的關(guān)注范圍,例如上述算例1中分析人員只需要對(duì)客戶294天交易情況中的1天進(jìn)行人工分析;另一方面,該方法能夠識(shí)別涉嫌犯罪或高洗錢風(fēng)險(xiǎn)客戶歷史交易中的相對(duì)異常部分,給分析人員提供進(jìn)一步分析的切入點(diǎn)。此外,該方法還克服了控制圖法的某些缺陷,有更廣的適用性。
需指出的是,關(guān)于CPEST誤報(bào)率和漏報(bào)率的分析,目前受限于缺少足夠樣本而不宜草率做出結(jié)論,這方面需要今后在條件允許情況下進(jìn)行深入的研究。
本文根據(jù)反洗錢監(jiān)測分析工作需要提出一種新的異常交易識(shí)別方法——CPEST,該方法能夠幫助分析人員擺脫耗時(shí)費(fèi)力到近乎不可能完成的“對(duì)客戶歷史交易逐筆分析”的困境,有效提高監(jiān)測分析工作的效率。該方法的理論意義包括:一是為非線性時(shí)序分析和統(tǒng)計(jì)推斷在反洗錢異常交易行為識(shí)別研究中的有機(jī)結(jié)合提供了一個(gè)框架,后續(xù)研究工作可以在這個(gè)框架下進(jìn)行深化,例如考慮使用SVR之外的其它非線性模型;二是運(yùn)用核密度估計(jì)方法,在沒有樣本母體正態(tài)分布的假設(shè)下,構(gòu)造了異常交易的統(tǒng)計(jì)假設(shè)檢驗(yàn)(時(shí)點(diǎn)檢驗(yàn)和窗口檢驗(yàn)),為異常交易的量化分析提供了新的研究思路。該方法仍需結(jié)合
實(shí)際工作進(jìn)一步完善的方面包括誤報(bào)率和漏報(bào)率,以及如何確定模型中的參數(shù)等。最后仍需強(qiáng)調(diào)的是,客戶身份識(shí)別和人工分析在當(dāng)前可疑交易甄別中的重要性是不可替代的,在使用數(shù)據(jù)挖掘技術(shù)時(shí)也必須注意與分析人員的交互,這不僅是時(shí)序預(yù)測等方法成功應(yīng)用于實(shí)際情況的需要[20],也是反洗錢工作的內(nèi)在要求。
[1]歐陽衛(wèi)民.正確理解新的大額和可疑資金交易識(shí)別標(biāo)準(zhǔn)[J].中國金融,2007,(16):64-65.
[2]中國人民銀行反洗錢局.中國反洗錢報(bào)告(2010)[M].北京:中國金融出版社,2011.
[3]湯俊,熊前興.基于時(shí)序相似度的離群模式檢測模型[J].武漢大學(xué)學(xué)報(bào)(工學(xué)版),2006,39(3):111-114.
[4]Liu Xuan,Zhang Pengzhu,Zeng Dajun.Sequence matching for suspicious activity detection in anti-money laundering[M]//Mehrotras,zeng DD,chen H C.Intelligence and Security Informatics.Berlin:Springer Verlag, 2008:50-61.
[5]喻煒,王建東.基于交易網(wǎng)絡(luò)特征向量中心度量的可疑洗錢識(shí)別系統(tǒng)[J].計(jì)算機(jī)應(yīng)用,2009,29(9):2581-2585.
[6]湯俊.基于客戶行為模式識(shí)別的反洗錢數(shù)據(jù)監(jiān)測與分析系統(tǒng)[J].中南財(cái)經(jīng)政法大學(xué)學(xué)報(bào),2005,(4):62-67.
[7]歐陽衛(wèi)民.我國反洗錢若干重大問題(下)[J].財(cái)經(jīng)理論與實(shí)踐,2006,27(142):2-9.
[8]蘇寧.反洗錢法規(guī)實(shí)用手冊(cè)[M].北京:中國金融出版社,2007.
[9]Alwan L C,Roberts H V.Time-series modeling for sta-tistical process control[J].Journal of Business and Economic Statistics,1988,6(1):87-95.
[10]Tay F E,Cao L.Application of support vector machines in financial time series forecasting[J].International Journal of Management Science,2001,29(4):309-317.
[11]Krollner B,Vanstone B,Finnie G.Financial time series forecasting with machine learning techniques:A survey[C].Proceedings of 18th European Symposium on Artificial Neural Networks Computational Intelligence and Machine Learning,Bruges(Belgium),April 28-30,2010.
[12]Packard N H,Crutchfield J P,Farmers J D,et al.Geometry from a time series[J].Physical review letters, 1980,45(9):712-716.
[13]Small M.Applied nonlinear time series analysis[M]. Singapore:World Scientific,2005.
[14]Ma Junshui,Perkins S.Online novelty detection on
temporal sequences[C].Proceedings of the Ninth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,Washington D C,OSA, August,24-27,2003.
[15]Bishop C M.Pattern recognition and machine learning [M].New York:Springer,2006.
[16]Smola A J,Scholkopf B.A tutorial on support vector regression[J].Statistics and Computing,2004,14(3):199-222.
[17]Wand M P,Jones M C.Kernel smoothing[M].London:Chapman and Hall,1995.
[18]孟慶芳.非線性動(dòng)力系統(tǒng)時(shí)間序列分析方法及其應(yīng)用研究[D].濟(jì)南:山東大學(xué),2008.
[19]Stone R,Taylor M.Time series models in statistical process control:Considerations of applicability[J].The Statistician,1995,44(2):227-234.
[20]Ma Junshui,Perkins S.Time-series novelty detection using one-class support vector machines[C].Proceedings of the International Joint Conference on Neural Networks,IEEE,Portland,Oregon,USA,July 20-24,2003.
An Approach for Unusual Transaction Detection Based on Customer Behavior Time Series Analysis
LIU Zhuo-jun1,LI Xiao-ming1,2
(1.Academy of Mathematics and Systems Science,Chinese Academy of Sciences,Beijing 100190,China;2.University of Chinese Academy of Sciences,Beijing 100049,China)
The suspicious transaction reporting system is the principle mechanism to fight against money laundering,and it is a technical problem to detect suspicious transaction for financial institutions and the financial intelligence unit.To help anti-money laundering analysts screen customers′unusual transactions and behaviors in massive financial transaction information,a new method,composition of predictive error and statistic treatment(CPEST)is presented,which can be used to detect unusual behaviors from the inconsistency of customer behaviors.CPEST models a customer′s behavior,tests a customer′s behavior at a particular time using estimated errors,and uses a window test to improve the ability to identify suspected of money laundering.Applying the method based on support vector regression and kernel density estimation to real data examples and simulations,the experiment results suggest that the method,which is feasible and effective,has high value in popularization and application.
anti-money laundering;anomaly detection;time series;support vector regression;kernel density estimation
C931
A
1003-207(2014)12-0102-07
2012-05-30;
2013-07-01
國家科技支撐計(jì)劃項(xiàng)目(2013BAK04B02-02)
劉卓軍(1958-),男(漢族),黑龍江人,中國科學(xué)院數(shù)學(xué)與系統(tǒng)科學(xué)研究院,研究員,研究方向:系統(tǒng)安全.