郝建軍+翟歲兵++劉冬+付向艷
摘要:洗錢就是通過犯罪手段實現(xiàn)金錢合法化。而且洗錢犯罪還維系了其他的犯罪行為,也是維持犯罪之生命線。洗錢活動對正常經(jīng)濟與金融秩序造成擾亂,危害社會安全,尤其通過洗錢還助長了腐敗風氣蔓延。而數(shù)據(jù)挖掘技術能夠快速處理大量的金融數(shù)據(jù),識別可疑洗錢行為,讓反洗錢過程的結構更加簡單、更具有效率。該文闡述數(shù)據(jù)挖掘技術的流程,以聚類算法與具備孤立點的挖掘算法構建了CBLOF算法,在此基礎上形成識別可疑洗錢行為模式方法,為防范洗錢交易提供參考依據(jù)。
關鍵詞:數(shù)據(jù)挖掘技術;洗錢交易;模式
中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2016)14-0204-02
1 前言
如今,我國對于反洗錢主要是金融機構依據(jù)相關管理辦法上報可疑交易數(shù)據(jù),對洗錢犯罪進行識別和調查。這種方法存在標準模糊、高誤報率、海量數(shù)據(jù)以及缺乏自適應性等問題,對上報可疑交易數(shù)據(jù)的有效性與可靠性造成影響。在這種形勢下,本文就提出了采用數(shù)據(jù)挖掘技術識別可疑洗錢數(shù)據(jù),這種研究具有實用價值。
2 數(shù)據(jù)挖掘技術的流
數(shù)據(jù)挖掘也稱之為數(shù)據(jù)庫知識發(fā)現(xiàn)。如今數(shù)據(jù)挖掘技術被應用到各個領域中,比如生物醫(yī)學、金融、零售業(yè)以及工程和科學等各個領域中。數(shù)據(jù)挖掘技術能夠快速處理大量的金融數(shù)據(jù),識別洗錢行為,讓反洗錢過程簡單化、效率化。數(shù)據(jù)挖掘技術基本步驟如下圖所示:
從上圖來看,數(shù)據(jù)挖掘技術過程大致分成四個階段:
(1)選擇與清洗數(shù)據(jù);當確定好數(shù)據(jù)挖掘對象時,就需要搜索所有和對象相關的外部與內部數(shù)據(jù),就需要從中挖掘應用數(shù)據(jù)。但是現(xiàn)實中的數(shù)據(jù)都含有噪音的、不完全的、不一致數(shù)據(jù),所以必須要清洗數(shù)據(jù)過程填充空缺值,消除噪聲、識別孤立點,糾正數(shù)據(jù)中不一致。
(2)集成與轉換數(shù)據(jù);數(shù)據(jù)分析中常常要涉及數(shù)據(jù)集成,數(shù)據(jù)集成就是把多個數(shù)據(jù)源中數(shù)據(jù)共同存放到一個數(shù)據(jù)存儲中。在合并多個數(shù)據(jù)源時,就必須要考慮到識別實體問題,就必須要將實體名稱不同的合并在一起。有一些屬性具有冗余性,可通過其他屬性計算所得。數(shù)據(jù)轉換就是要滿足挖掘所需。
(3)挖掘數(shù)據(jù);數(shù)據(jù)經(jīng)過清洗,集成以及轉化后,就進入到了挖掘數(shù)據(jù)階段。挖掘數(shù)據(jù)就是選擇適當?shù)臄?shù)據(jù)挖掘技術,比如聚類、神經(jīng)網(wǎng)絡、模式識別以及孤立點挖掘等等,然后依據(jù)所選數(shù)據(jù)挖掘技術確定具體算法,之后選定算法查找感興趣模式。
(4)評估與表示知識;評估知識,如今主要是采用了興趣度衡量真正感興趣的知識。依據(jù)一定興趣度的度量,評估數(shù)據(jù)挖掘結果,對有用部分進行篩選與評估,查找能夠接受的結果。對于表示知識,如今較為流行的即為可視化技術,可視化即將數(shù)據(jù)、知識與信息轉化成可視表示形式過程。
3 數(shù)據(jù)挖掘技術識別可疑洗錢交易
3.1 識別流程分析
識別可疑洗錢行為屬于反洗錢數(shù)據(jù)調查,主要就是通過單筆賬戶的歷史交易時序數(shù)據(jù)中各子序列比較分析,從中發(fā)掘值得懷疑交易數(shù)據(jù)。識別的基本思路如下圖所示:
(1)時序數(shù)據(jù)劃分:屬于一個異常的檢驗體系中,即為一個單一數(shù)據(jù)點是不可能提供多少信息。真正需要是從數(shù)據(jù)中挖掘一些偏離正常數(shù)據(jù)數(shù)據(jù)模式。識別可疑洗錢行為,就需要將賬戶歷史交易記錄成一個個若干相鄰單筆交易形成的交易子序列,從中挖掘可疑的行為模式,最后形成可疑交易數(shù)據(jù)。
(2)屬性選擇:識別可疑洗錢行為就是建立到清醒認識可疑交易特征屬性上。只有選擇屬性較為科學、全面以及真實的描述偶然行為模式特征,選擇方法識別這種行為的相關數(shù)據(jù)。
(3)統(tǒng)計計算:對于所選偶然可疑的洗錢行為的相關屬性,計算出各個子序列屬性值。子序列對應桌各行為模式就構成了屬性特征的向量。
(4)確定樣本集:每一個行為模式特征向量視為一個研究樣本,賬戶上所有行為模式特征向量形成了樣本集。
(5)算法實現(xiàn):事實上,每一個賬戶中大多數(shù)交易行為均屬正?;蚝戏ɑ?,僅僅極少數(shù)交易行為存在可疑性。孤立點就是數(shù)據(jù)集中和大部分數(shù)據(jù)相偏離,出現(xiàn)偏離原有并非隨機因素,主要是因為完全不同的生產(chǎn)數(shù)據(jù)機制。
(6)標記樣本:依據(jù)樣本的專家知識以及孤立因子值,標記出孤立最大因子值的N個樣本,挖掘偶然可疑的洗錢行為模式。
本文對交易金額的屬性分析、離散系數(shù)的屬性分析作為重點說明。
(1)交易金額的屬性分析:Tai(交易金額)即為每一個交易的子序列交易金額總和。假如某個賬戶第i個子序列中共有ni筆交易,每一筆交易金額[taij]依照時序排列是:[tai1、tai2...taint],那么賬戶的第i子序列交易金融是[Tai=j=1nitaij],由此可見,可以求出賬戶交易的所有n個子序列內交易金額:[Ta1、Ta2...Tan]。每一個子序列交易金額[Ta1、Ta2……Tan]以行業(yè)的規(guī)模特征向量中一個維度,經(jīng)過比較分析,就能計算出偏離成都為總偏離程度中一部分。
本文選擇交易金額為研究屬性,就是從大額交易角度進行考慮。在識別可疑洗錢交易的研究過程中,因賬戶設定成偶爾的洗錢活動,絕大多數(shù)賬戶是沒有進行洗錢活動,所洗錢分析就會選擇短平快的洗錢模式,自然交易金額增大也就更加突出。即使交易金額能夠用單一屬性選擇數(shù)理統(tǒng)計進分析,但是賬戶交易金額是極難符合某一種標準的分布,所以就要引入其他的屬性。
(2)離散系數(shù)的屬性分析:Tadi(交易金額的離散系數(shù)),即為交易金額的方差[Tsi2]和均值[Tai]的商。因交易金額的異常增大了,即便可疑洗錢行為具有重要表征,但也無法判別復雜洗錢行為。而犯罪時常利用多家銀行或者其他的金融機構服務開展洗錢犯罪活動,在處理每一個賬戶時僅僅是針對小金額的非法收入,就能夠規(guī)避監(jiān)管大額交易的報告制度,也就增大了反洗錢的調查工作難度。選擇交易金額的離散系統(tǒng)為研究屬性,質量交易金額平均程度就是應對洗錢行為結構化的規(guī)避行為。離散系數(shù)越小,則表明交易的金額較為平均,反之交易金額具有較大波動。以出賬金額作為案例,假如某一個賬戶第i個子序列中共有nj筆支出交易,那么按照每一筆的出賬金額taij進行排列即為:[tai1、tai2...taint];該賬戶的第i子序列交易的平均金額即為:[Tai=1nj=1nitaij];賬戶上第i子序列支出交易金額方差即為:
[Tsi2=1ni-1j=1ni(taij-Tai)2]
就可以得出賬戶第i子序列支出金額的離散系數(shù)是:
所以就能夠求解A賬戶第n個子序列中交易金額的離散系統(tǒng)為:[Tad1、Tad2、...Tadn]。本文就是將計算出來的離散系數(shù),作為了可疑洗錢行為的一個特征屬性,和其他屬性值共同形成了子序列代表的行為模式所具的特征向量。
3.2 識別方法分析
在識別可疑洗錢行為模式上,本文就是借鑒了CBLOF算法同時,并適當改進了該算法中聚類分析過程,在此基礎上形成了識別方法模式。
(1)算法設計
本文數(shù)據(jù)挖掘技術的涉及過程為:
其一從任意點開始,構建一個聚類簇,設初始簇為C1;
其二對其他某點q,計算和已有聚類簇點C的距離及最小值[distance(q,cmin)];假如[distance(q,cmin)]的距離小于或者等于閥值[ε],而且q未不屬于任何一簇中,可 將它加入[Cmin],假如q距離多個已有簇小于或者等于[ε],那么合并這些簇。
其三對所生成聚類依照元素數(shù)目排序;
其四重復第2、3步,對下一點實施聚類,一直到所有點均被聚類為止。
(2)挖掘局部孤立點
經(jīng)過上面分析形成了若干互不包含簇,同時簇是按照包含樣本數(shù)目排列,選用CBLOF算法計算每一個點LOF值。之后依據(jù)LOF值大小進行排序。值越大孤立程度越高,值越小孤立程度就越低。金融機構就能夠依據(jù)資源情況與公正所需確定出報送對象。
就是將聚類簇劃分成大小類,按照樣本數(shù)據(jù)點所屬規(guī)模及數(shù)據(jù)點和最近簇的距離,由此確定出每一個數(shù)據(jù)點LOF值。這種方式下,挖掘局部孤立點就分成了兩個步驟,就是按照大小類及確定出LOF值。
首先劃分大小類;假設C={C1,C2,...Ck}為數(shù)據(jù)集合D聚類結果,其中[c1?c2...?ck],確定兩個參數(shù)是a與β,根據(jù)下面公式有:
[c1+c2...+ck≥D*a];[cb/cb+1≥β];其中大類是c={[cii≤b]},用LC表死,即為LC={[cii≤b]};而小類是SC={[cjj>b]}。
其次計算LOF可疑度;假如數(shù)據(jù)集合中任何數(shù)據(jù)點是P,那么點P局部偏離值(即為LOF值)是:[CBLOF(p)=cj*distance(p,ci)],該式中[t∈ci,ci∈SC,cj∈LC];因此只要確定了每一個數(shù)據(jù)點LOF值,就能夠確定出賬戶交易行為可疑的程度。使用信息者就能夠依據(jù)所需,選出LOF值最大n個對象深入進行分析與研究。
4 結束語
識別可疑洗錢的交易行為,就可以依據(jù)賬戶自身交易模式變化進行識別。而偶爾洗錢行為無論屬于那種手段,都能通過交易金額和交易時間兩維度上存在異常表現(xiàn)出來,交易金額表現(xiàn)異常增大及平均程度異常,自然也就會增大交易頻率異常。這種挖掘技術對識別洗錢行為具有作用。
參考文獻:
[1]李果仁.反洗錢的現(xiàn)狀與對策研究[J].廣東經(jīng)濟管理學院學報,2014(1).
[2]譚德彬,陳藻.基于數(shù)據(jù)挖掘技術的銀行反洗錢系統(tǒng)[J].國金融電腦,2013(7).
[3]湯俊.基于客戶行為模式識別的反洗錢數(shù)據(jù)監(jiān)測與分析體系[J].中南財經(jīng)政法大學學報,2015(4).
[4]胡秋靈,姚文輝,宋曉萌.聚類分析方法在反洗錢應用中的優(yōu)先序研究[J].華南金融電腦, 2015(11).
[5]黎金玲.基層金融部門反洗錢工作存在的問題與對策[J].武漢金融,2016(3).