摘要:本文以數(shù)據(jù)挖掘技術(shù)在可疑金融交易識別中的應(yīng)用現(xiàn)狀為鋪墊,探討了聚類分析和范例推理技術(shù)在反洗錢中的應(yīng)用。在分析數(shù)據(jù)挖掘技術(shù)運用于可疑金融交易識別的基礎(chǔ)上。對我國的可疑金融交易識別研究提出淺見,希望對我國的反洗錢信息系統(tǒng)的建設(shè)有所裨益。
關(guān)鍵詞:反洗錢;數(shù)據(jù)挖掘;聚類分析;范例推理
反洗錢的主要工作是要從可疑金融交易信息中識別可能隱藏著洗錢犯罪交易的線索,從而在資金交易領(lǐng)域筑起洗錢犯罪的屏障。利用科學(xué)的信息技術(shù)手段已經(jīng)成為各國金融機構(gòu)打擊洗錢犯罪的重要手段。如何從海量的金融交易數(shù)據(jù)中有效識別可疑金融交易成為反洗錢工作能否順利開展的關(guān)鍵問題。數(shù)據(jù)挖掘作為一門新興的數(shù)據(jù)處理技術(shù),能夠從海量數(shù)據(jù)中提取出有用知識,已經(jīng)越來越受到人們廣泛的關(guān)注。本文分析了數(shù)據(jù)挖掘技術(shù)在可疑金融交易識別中的應(yīng)用現(xiàn)狀,并探討了范例推理技術(shù)和聚類分析在反洗錢中的應(yīng)用,為數(shù)據(jù)挖掘技術(shù)在可疑金融交易識別中的應(yīng)用提供新的途徑。
一、數(shù)據(jù)挖掘在可疑金融交易識別中的應(yīng)用現(xiàn)狀
所謂數(shù)據(jù)挖掘(Data Mining),是指從大量的數(shù)據(jù)中發(fā)現(xiàn)并抽取隱含的、未知的、有潛在應(yīng)用價值的知識過程。數(shù)據(jù)挖掘的目的是為決策者提供有效的決策支持。面對成千上萬的金融交易報告數(shù)據(jù)。如何利用數(shù)據(jù)挖掘技術(shù)識別可疑金融交易是反洗錢工作中的關(guān)鍵問題。目前,已經(jīng)應(yīng)用在可疑金融交易識別中的數(shù)據(jù)挖掘技術(shù)主要包括孤立點分析(Outlieranmysis)、序列模式挖掘(Sequential pattern mining)、鏈接分析技術(shù)(Link Analysis)、決策樹技術(shù)(Classifi-cation)等。
結(jié)合洗錢行為的異常特點,運用數(shù)據(jù)挖掘技術(shù)可以使用孤立點分析來檢測異常資金量的轉(zhuǎn)移;序列模式挖掘也是反洗錢技術(shù)中的一種選擇,它可以用于分析具體一段時間內(nèi)具體個人的行為,并可能得出異常訪問模式的特征;鏈接分析可以從大量不同類型的目標(biāo)中找出其關(guān)聯(lián)關(guān)系,其目標(biāo)包括自然人、銀行賬號、企業(yè)、電匯和現(xiàn)金存款,找出它們的聯(lián)系并顯示出合法活動和非法活動的關(guān)系圖:決策樹技術(shù)也是一種比較好的選擇方案,它可根據(jù)先前規(guī)定的可疑交易數(shù)據(jù)的分類規(guī)則對各種報告數(shù)據(jù)進行分類,以樹狀的決策結(jié)構(gòu)顯示出來。該技術(shù)得出的結(jié)果可為分析者提供一系列彼此相互分離的獨立路徑,從而為分析者提供一個推理框架,幫助其摸清整個洗錢活動的過程,并了解某一具體的洗錢操作在整個洗錢鏈條中所起到的特殊作用。總之,這些數(shù)據(jù)挖掘技術(shù)可以識別出一些重要的活動關(guān)系和模式,有助于調(diào)查人員進一步關(guān)注可疑金融交易并進行深入調(diào)查。
一些發(fā)達國家在利用數(shù)據(jù)挖掘進行反洗錢系統(tǒng)建設(shè)方面已經(jīng)取得了一定成績,他們不僅建立了專門分析和收集情報的金融情報中心,同時還建立了功能強大的反洗錢系統(tǒng)。例如,美國金融犯罪執(zhí)法網(wǎng)絡(luò)(Fi—nancial Crimes Enforcement Network,F(xiàn)inCEN)的-FAIS(FinCEN Artificial Intelligence system)系統(tǒng)利用數(shù)據(jù)挖掘的一些算法如聚類分析等技術(shù),實現(xiàn)對可疑交易報告進行分析和評估。澳大利亞交易分析與報告中心(Australian Transaction Reports and Analysis Centre,AUSTRAC)開發(fā)的ScreenlT系統(tǒng),通過運用數(shù)據(jù)挖掘中的多種技術(shù)實現(xiàn)可疑交易報告自動篩選。其他地區(qū)如歐盟、加拿大應(yīng)用數(shù)據(jù)挖掘技術(shù)進行可疑金融交易識別也比較成熟。在我國,中國人民銀行于2004年4月成立了反洗錢監(jiān)測分析中心建立支付交易監(jiān)測系統(tǒng),國家外匯管理局也于2005年開發(fā)了反洗錢信息輔助核查平臺。但總體而言,我國反洗錢系統(tǒng)建設(shè)尚處于起步階段。利用信息技術(shù)進行可疑金融交易識別的水平仍然較低,未能充分運用數(shù)據(jù)挖掘技術(shù)識別可疑金融交易信息。
二、數(shù)據(jù)挖掘前沿技術(shù)的可疑金融交易識別研究
洗錢犯罪日新月異,識別可疑金融交易信息的技術(shù)也必須不斷改進以適應(yīng)變化。目前,反洗錢應(yīng)用中的數(shù)據(jù)挖掘技術(shù)從孤立點分析、序列模式挖掘、鏈接分析、決策樹等傳統(tǒng)技術(shù),逐步轉(zhuǎn)向數(shù)據(jù)挖掘中的一些新技術(shù)如聚類分析、基于范例推理等,在此分別探討聚類分析和基于范例推理在可疑金融交易識別中的應(yīng)用情況。
1、聚類分析技術(shù)的可疑金融交易識別研究。
聚類分析(Clustering)通過將數(shù)據(jù)對象分成多個類或簇,實現(xiàn)在同一個類中的對象之間具有較高的相似度,而不同類中的對象之間差別較大。聚類分析在聚類過程中可以選取不同屬性和不同聚類方法,實現(xiàn)將具有相似交易行為的個人或者企業(yè)的賬戶聚為一類。針對個人和企業(yè)的金融交易數(shù)據(jù),選取不同的數(shù)據(jù)屬性進行多角度分析,并從中識別出可疑交易數(shù)據(jù),有助于調(diào)查人員作深入調(diào)查。此外,聚類分析可作為反洗錢系統(tǒng)中數(shù)據(jù)預(yù)處理的一種方法,用于發(fā)現(xiàn)表面上毫無關(guān)聯(lián)但實質(zhì)上有關(guān)聯(lián)的若干主體。例如,通常通過聚類分析可以將屬于同一生產(chǎn)制造業(yè)且資金流量相似的企業(yè)聚為一類,但若其中一家公司被聚類到其他行業(yè)如服務(wù)行業(yè)中,則有可能認定該公司是一個“空殼公司”,為調(diào)查人員提供重要線索。一些發(fā)達國家已經(jīng)應(yīng)用聚類分析協(xié)助反洗錢的調(diào)查分析,如美國FinCEN的FAIS系統(tǒng)。
針對可疑金融交易識別問題,在選定聚類方法的同時,需要考慮金融交易數(shù)據(jù)的特點并選定聚類的屬性。在分析金融數(shù)據(jù)的特點時,可知對于洗錢者的銀行賬戶,洗錢資金必定要經(jīng)過流入與流出兩個階段。因此,可從資金流入和流出兩個角度分別考慮,一定時期內(nèi)同時具有大額、高頻率資金流入和流出賬戶的洗錢嫌疑較大,應(yīng)作為重點懷疑對象。所以,對資金流入和流出的兩種情況下分別進行聚類分析,將資金流入或流出情況相似的聚集在一起,通過比較高頻率、高流入量的可疑賬戶與高頻率、高流出量的可疑賬戶作進一步分析,同時對可疑賬戶按照洗錢嫌疑的程度進行等級排序。
為了進一步說明聚類分析方法如何應(yīng)用于可疑金融交易信息識別領(lǐng)域,可以分別從交易金額和交易頻率兩個角度對金融交易數(shù)據(jù)進行分析。例如,可以將個人賬戶看作為同等類型、同等規(guī)模的個體,對其進行數(shù)據(jù)分析時直接考慮一定時間內(nèi)的交易金額和交易頻率即可。同時,考慮到一天之內(nèi)每筆個人交易金額都相對較小,為了體現(xiàn)不同個人交易行為的差異性,可選取一定的時間段(例如一年)作為時間周期。
在應(yīng)用該識別流程時,首先選取源數(shù)據(jù)分析其是否適合聚類分析。例如,選取身份證號作為聚類分析中每條交易數(shù)據(jù)的身份標(biāo)識號碼(identification,ID),年交易金額和年交易次數(shù)則作為聚類分析的屬性。在聚類分析時根據(jù)每條交易的屬性的相似程度進行聚類,當(dāng)聚類結(jié)果顯示,在聚類過程中所選取的所有屬性都能發(fā)揮較大的作用則說明聚類結(jié)果顯著;若聚類過程中某一屬性如年交易金額并沒有使用,則僅使用年交易次數(shù)作為實際聚類過程中的聚類屬性,或者聚類過程中沒有太多使用任一個屬性,在此情況下說明所選取的屬性都不合適,從而認為聚類效果不顯著。同時,聚類分析是一個循環(huán)反復(fù)的過程。若聚類結(jié)果不夠顯著,需要將異常數(shù)據(jù)從源數(shù)據(jù)中剔除,并將異常數(shù)據(jù)列入需要深入調(diào)查的可疑名單專門保存。然后對處理過的源數(shù)據(jù)進行再次聚類。此外,為了避免與上次聚類的結(jié)果重合,需要改變聚類方法,依次類推,直到聚類結(jié)果顯著為止。最后,將在聚類過程中的所有異常類數(shù)據(jù)進行匯總保存,所得數(shù)據(jù)即為可疑數(shù)據(jù),從而以賬戶為主題確定出可疑名單。按照此應(yīng)用流程分別對資金流入和流出兩種情況進行分析,所獲得的兩份可疑名單的交集作為重點可疑對象進行深入調(diào)查,而將其并集作為一般可疑對象。
2、范例推理技術(shù)的可疑金融交易識別研究。
范例推理是一種基于歷史經(jīng)驗的推理方式,具有很強的自學(xué)習(xí)能力。范例推理可以設(shè)計成為反洗錢系統(tǒng)中用于識別可疑金融交易的關(guān)鍵部分,利用金融交易數(shù)據(jù)信息,識別出具有可疑特征的交易活動。典型的范例推理系統(tǒng)包括四個連續(xù)的過程:檢索(Retrieval)最相似的范例;重用(Reuse)能夠解決當(dāng)前問題的舊范例;修改(Revise)所建議的解決方案;保存(Retain)有價值的新范例。在實際操作中,確定為可疑交易活動的新范例會被加入到范例庫中,而范例庫中冗余的范例會被刪除,或修改其解決方案作為新范例保存。針對一個交易活動的原始交易數(shù)據(jù),用戶根據(jù)要求提取能夠準(zhǔn)確表達問題特征的指標(biāo),并將其表示成范例,同時通過一定的索引規(guī)則從范例庫中檢索范例。若檢索到一個或者多個相似范例,則從中確定一個最相似的范例,對其進行范例調(diào)整。根據(jù)實際情況對具有可疑特征的交易確認其解決方案是否滿意,如果滿意就確定其為可疑交易,同時將其保存在范例庫中。否則,就需要對解決方案不斷調(diào)整直到滿意為止:若沒有檢索到相似范例,則重新分析該交易數(shù)據(jù),結(jié)合反洗錢領(lǐng)域知識和經(jīng)驗確定是否為可疑交易。如果是可疑交易的范例,就將其作為新范例保存在范例庫中,否則直接退出。因此,基于范例推理在反洗錢中的應(yīng)用涉及的關(guān)鍵技術(shù)涉及到范例庫建立、范例檢索、范例調(diào)整和保存等問題。
在此對范例庫建立和范例調(diào)整、保存作重點說明。范例庫中存儲具有可疑特征的洗錢范例,包括可疑交易活動的具體問題描述,主要是提取能夠準(zhǔn)確反映交易活動的特征,還有針對可疑金融交易活動的處理方案,如根據(jù)可疑交易的嚴重程度是否能表明其涉嫌洗錢犯罪等信息。如何準(zhǔn)確表示可疑交易活動的范例,如何組織這些具有可疑特征的范例,如何建立范例庫的索引,是建立范例庫的關(guān)鍵問題。范例庫中,范例間的組織可以采取線性、層次和網(wǎng)狀的方式。若系統(tǒng)能夠檢索到最相似的范例,決策用戶就需要對其做調(diào)整,使解決的方案能夠符合當(dāng)前可疑金融交易活動的情形。由于洗錢手段日新月異,最終提交用戶的交易數(shù)據(jù)一般與范例庫中的范例情形不一樣,如交易金額和交易類型不一樣,那么相應(yīng)的解決方案也不一樣。在確定最相似的范例后,對其解決方案需要不斷的調(diào)整直至決定滿意為止,并保存在范例庫中。這里涉及對范例調(diào)整的機制問題,雖然通過計算機可以實現(xiàn)自動調(diào)整,但系統(tǒng)仍需要采用人機交互過程來完成,即結(jié)合相關(guān)專業(yè)人員的經(jīng)驗完成調(diào)整過程。同時,所有確定為可疑金融交易的信息都需要保存,以備將來出現(xiàn)類似情況時加以應(yīng)用。
三、結(jié)論
目前我國正在運行的金融交易識別信息系統(tǒng)一般都只具有比較簡單的分析處理功能,不支持復(fù)雜的數(shù)學(xué)模型。無法對可疑金融交易報告進行有效的評測,使得一些潛在的洗錢風(fēng)險無法通過系統(tǒng)及時發(fā)現(xiàn),識別可疑金融交易報告仍然停留在依賴監(jiān)管人員自身的業(yè)務(wù)素質(zhì)和直覺判斷的基礎(chǔ)上。同時國內(nèi)對可疑金融交易識別研究尚處于起步階段,缺乏對我國金融數(shù)據(jù)結(jié)構(gòu)的深刻分析,特別是利用數(shù)據(jù)挖掘技術(shù)對金融交易進行識別的研究還相對落后,而外國同行視其為核心機密不肯透露。因此,我國從現(xiàn)在起,應(yīng)重視對可疑金融交易識別技術(shù)的研究和開發(fā),相關(guān)主管部門應(yīng)采用先進的信息技術(shù)識別可疑金融交易信息,打擊和防范洗錢犯罪。例如,聚類分析由于是按照數(shù)據(jù)集本身特征自動分類,并不需要用戶事先制定規(guī)則,而我國的反洗錢實踐尚處于起始階段,缺乏一些作為篩選可疑金融交易的分類規(guī)則,因此可以結(jié)合我國金融交易數(shù)據(jù)的特點,采用聚類分析將具有相似交易行為的賬戶聚為一類,并對聚類結(jié)果中的各類進行分析,尤其對交易行為相對異常的類進行深入調(diào)查。同時,基于范例推理具有很強的自學(xué)習(xí)能力,能夠利用初始范例不斷自我學(xué)習(xí),并及時檢索具有可疑特征的洗錢范例。它們在一定程度上彌補了人工操作難以發(fā)現(xiàn)復(fù)雜洗錢行為的不足。為數(shù)據(jù)挖掘在反洗錢系統(tǒng)中的應(yīng)用提供了新的途徑。
總之,我國應(yīng)十分重視可疑金融信息識別技術(shù)的開發(fā),充分利用數(shù)據(jù)挖掘等信息技術(shù),開發(fā)各種可疑信息識別模型,對金融機構(gòu)的各類可疑交易信息進行分析、預(yù)警和預(yù)測,有效地發(fā)現(xiàn)大量潛在的洗錢風(fēng)險,提高反洗錢工作的準(zhǔn)確性。