亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于識別和多重分類的反洗錢系統(tǒng)

        2019-11-09 06:51:24張桂剛
        小型微型計算機系統(tǒng) 2019年10期
        關(guān)鍵詞:交易犯罪分類

        肖 琨,王 云,張桂剛

        1(湖北經(jīng)濟學(xué)院 信息與通信工程學(xué)院,武漢 430205) 2(中國科學(xué)院自動化研究所,北京 100190)E-mail:guigang.zhang@ia.ac.cn

        1 引 言

        洗錢(ML)是指通過商業(yè)銀行、投資銀行、保險公司等金融機構(gòu),對黑錢的來源和性質(zhì)進行偽裝和清洗,使非法所得合法化的行為.幾十年來,洗錢幾乎對所有國家都構(gòu)成嚴(yán)重的危害.這不僅是因為洗錢涉及的金額巨大,可能嚴(yán)重破壞一個國家的金融體系,并且助長了其他類型犯罪的發(fā)生.而且還因為其結(jié)構(gòu)復(fù)雜、發(fā)展迅速,使得檢測工作很難進行.幸運的是,人工智能技術(shù)的發(fā)展為提高反洗錢檢測系統(tǒng)的效率提供了機會,并且可以及時發(fā)現(xiàn)新出現(xiàn)的反洗錢模式和交易規(guī)則,從而應(yīng)對這些威脅.

        反洗錢一般分為三個階段:預(yù)防階段、檢測與報告階段和處罰階段.預(yù)防策略包括對反洗錢的公眾教育、開戶和交易所需的綜合信息、頒布諸如《金融機構(gòu)反洗錢條例》等法律.檢測與報告是指利用人工智能和數(shù)據(jù)挖掘技術(shù)對可疑的金融交易進行檢測,這也是本文研究的重點.處罰階段是指對被偵查出來的洗錢犯罪分子的經(jīng)濟和刑事處罰.

        對于檢測與報告部分,一般通過在線監(jiān)測系統(tǒng)進行可疑檢測,之后發(fā)送有關(guān)目標(biāo)群體的報告,以便分析員進一步調(diào)查和判斷.目前對反洗錢可疑行為檢測的研究主要集中在開發(fā)算法上,以便將潛在的非法交易與合法交易區(qū)分開來.但就目前而言,開發(fā)一個能夠識別非法交易的系統(tǒng),為分析人員提供可靠的參考,可在一定程度上降低勞動成本,并且有利于反洗錢工作的發(fā)展.該系統(tǒng)能根據(jù)交易模式的特征,對非法交易行為與哪種犯罪有著可靠的預(yù)測.這也是本文主要的研究目的.

        2 相關(guān)工作

        信息技術(shù)在反洗錢工作中的應(yīng)用最早提出于20世紀(jì)90年代.[1]中詳細介紹了FAI(FinCEN美國金融犯罪執(zhí)法網(wǎng)絡(luò)的人工智能系統(tǒng)),該系統(tǒng)采用基于規(guī)則的方法對各類金融業(yè)務(wù)進行評估,以識別反洗錢和其他犯罪行為.這些規(guī)則主要是通過專家的知識和經(jīng)驗來設(shè)定的,這使得它的準(zhǔn)確性高,缺點是它不足以匹配快速發(fā)展的洗錢方法.因此在此基礎(chǔ)上,通過進一步研究提出了改進的檢測系統(tǒng),提高了檢測系統(tǒng)的精度、自動化程度、靈活性等.例如,[2]提出了一種基于支持向量機(SVM)的檢測算法,代替了預(yù)先設(shè)定的規(guī)則,其結(jié)果表明該算法降低了誤報率.

        檢測系統(tǒng)的改進是通過兩種方式來實現(xiàn)的.第一種是開發(fā)先進的算法,以便根據(jù)客戶的個人信息更好地分析客戶情況.例如,[3]提出了一種用于洗錢的決策樹方法,其結(jié)果證明了該模型的有效性.該方法的是基于從企業(yè)客戶檔案中提取的四個屬性(行業(yè)、位置、業(yè)務(wù)規(guī)模和客戶購買的產(chǎn)品)來實現(xiàn)的.[4]提出基于每個銀行賬戶的交易行為,建立一個多維自適應(yīng)概率矩陣,并根據(jù)每個銀行賬戶自身的行為模式進行判斷.但由于突發(fā)性并不等于可疑性或違法性,該系統(tǒng)對AML的檢測并不總是有所幫助.[5]引入小波分析(Haar 以及 bior3.7),根據(jù)交易的時間和數(shù)量序列來衡量客戶的可疑程度.

        另一種方式主要在團體規(guī)模上改進異常檢測算法.該方法確實提供了有用的信息,因為ML操作總是涉及三個以上賬戶.[6]介紹了聯(lián)系分析的概念,這意味著要找到個人之間的關(guān)系,并將他們分為不同的群體,以便于調(diào)查.進行分類的方法稱為聚類,包括BIRCH[7,8],k-means[9],GDBSCAN[10,11]介紹了使用(半)超監(jiān)視和無監(jiān)督方法進行基于圖的異常檢測的詳細和結(jié)構(gòu)化知識.此外,還有一些其它的方法直接應(yīng)用在AML.[12]針對洗錢犯罪開發(fā)了一種新的解決方案“CORAL for LDCA”(基于相關(guān)性分析的鏈路發(fā)現(xiàn)).[13]提出了CELOF算法(基于聚類的局部異常因子),取得了較好的效果.[14]對ML檢測領(lǐng)域中應(yīng)用的典型聚類算法進行了全面總結(jié).另外一些算法也很有效.[15]采用near-k-step neighborhoods方法進行網(wǎng)絡(luò)分析.[16]提出了使用從用戶專業(yè)文件和自適應(yīng)模糊系統(tǒng)中提取的特征.[17]引入了SARDBN,它是聚類和DBN的組合.[18]用于為合法和非法比特幣交易用戶建立社區(qū).此外,今年還出現(xiàn)了一些新的工具.例如,[19]指出自然語言處理(NLP)在新聞文章、社交媒體等各種信息來源上的有效性,其所提取的信息有助于AML減少30%的調(diào)查時間和成本.[20]對檢測方法進行了綜述,驗證了可伸縮圖卷積神經(jīng)網(wǎng)絡(luò)的有效性.

        3 研究框架

        由于目前我國90%以上的洗錢[21,22]活動和涉案金額都是通過金融機構(gòu),特別是商業(yè)銀行,已經(jīng)成為反洗錢的主要戰(zhàn)場,因此銀行賬戶之間的交易是該研究的重點.準(zhǔn)備工作包括兩個部分:根據(jù)交易過程中顯示的不同特征對犯罪進行分類,以及從第一手資料中提取特征.然后基于結(jié)合的特征數(shù)據(jù),開發(fā)了兩個模型.一個是可疑交易監(jiān)控模型.另一個模型經(jīng)過培訓(xùn),以確定每一條欺詐(或被認定為欺詐)交易信息所涉及的最接近的犯罪類型.模型均在監(jiān)督學(xué)習(xí)下訓(xùn)練,并經(jīng)歷了技術(shù)的變化.最后,將這兩個模型串聯(lián)起來,對可疑行為進行檢測和分類,并對其性能進行了測試.

        4 反洗錢算法

        反洗錢系統(tǒng)的算法如圖1所示.需要注意的一點是,單獨使用模型2評估其性能時,數(shù)據(jù)A的80%用于訓(xùn)練,其余的20%用于測試.

        圖1 反洗錢系統(tǒng)流程圖Fig.1 Flow chart of AML system

        系統(tǒng)算法架構(gòu):

        輸入:交易信息數(shù)據(jù)集A,所有欺詐交易數(shù)據(jù)集F;

        輸出:S′,A的測試集A2上可疑交易的識別和犯罪類別的分類;

        步驟:

        1.基于數(shù)據(jù)集A創(chuàng)建用戶檔案P;

        2.從P中提取關(guān)于每個事務(wù)的發(fā)起者和接收者的附加特征,并將它們添加到原始數(shù)據(jù)集A中;

        3.將A分為訓(xùn)練組A1(80%)和測試組A2(20%);

        4.在模型1上分別采用邏輯回歸,多層感知和梯度增強等方法對A1進行訓(xùn)練,并在A2上進行測試,獲得可疑交易集S;

        5.在F-S上訓(xùn)練模型2并在S上進行測試,獲得標(biāo)有相關(guān)犯罪類別的可疑交易集S′;

        6.返回S′.

        5 實驗準(zhǔn)備

        5.1 樣本數(shù)據(jù)

        出于隱私保護,公共可用數(shù)據(jù)集的缺乏在金融服務(wù)中很常見,特別是在貨幣交易領(lǐng)域.幸運的是,為了模擬事務(wù)的正常運行,目前有幾種基于真實數(shù)據(jù)生成合成數(shù)據(jù)集的模擬器.在本文采用了Paysim模擬器創(chuàng)建的貨幣交易數(shù)據(jù).它所依賴的樣本是從一家跨國公司提供的非洲國家的一個月財務(wù)日志中提取的真實交易.為了使它更真實可靠,改進了一些數(shù)據(jù).財務(wù)日志中提取的真實交易.為了使它更真實可靠,改進了一些數(shù)據(jù).

        5.2 犯罪分類

        洗錢與販毒、走私、恐怖主義、腐敗等其他有組織犯罪有著密切的關(guān)系.根據(jù)他們的交易性質(zhì),罪行分為五類,如表1所示.當(dāng)對第二種模型進行訓(xùn)練時,分類結(jié)果將起到標(biāo)簽的作用.

        表1 與洗錢有關(guān)的五大類犯罪Table 1 Five main categories of crimes related with money laundering

        5.3 特征收集

        第一手交易數(shù)據(jù)的特征包括每筆交易的簡單信息,如表2所示.對于現(xiàn)實商業(yè)銀行信息存儲的真實模式,為了提取更有用的潛在數(shù)據(jù)并提高模型訓(xùn)練的準(zhǔn)確性,基于交易信息建立了用戶檔案,如表3所示.

        用戶檔案文件有助于提取客戶的特征.除了個別參與方,網(wǎng)絡(luò)效應(yīng)可能是反洗錢檢測的一個重要因素,因為交易總是發(fā)生在網(wǎng)絡(luò)上.擁有非零cheat_time的個體更有可能進行另一筆欺詐交易,而與擁有非零cheat_time有聯(lián)系的個體也會產(chǎn)生懷疑,但交易邊緣等因素削弱了犯罪的可能性.為了量化地度量這種效果,我們應(yīng)用了一個名為suspic_cheat的變量,并如公式(1)計算.

        表2 第一手數(shù)據(jù)的特征Table 2 Features for the first-hand data

        表3 用戶檔案樣本Table 3 User profile example

        對于給定客戶a與交易對象[b1,b2,…,bn],n具有非零cheat_time,并且每個bi具有交易對象[a,c1,c2,…,cni],(ni+1)具有非零cheat_time,suspic_cheat如公式(1)所示:

        suspic_cheat= 2×m+ 1 × Σmi

        (1)

        特征suspic_cheat_org和suspic_cheat_dest代表一個事務(wù)中兩個帳戶的suspic_cheat.下面列出了從用戶配置文件派生的其他特征:

        frequency_org:交易的頻率,計算為開始交易的客戶的交易總次數(shù).

        frequency_dest:交易頻率,計算為作為交易接收方的客戶的交易總次數(shù).

        part_num_org:開始交易的人的貿(mào)易伙伴數(shù)量.

        part_num_dest:接收交易的人員的貿(mào)易伙伴數(shù)量.

        Prct_org:計算為金額除以old_balance_org.

        Prct_dest:計算為金額除以new_balance_dest.

        在舊特征和新特征相結(jié)合之后,交易的最終版本的特征包括:type,amount,old_balance_org,new_balance_dest,is_foreign,suspic_cheat_org,suspic_cheat_dest,frequency_org,frequency_dest,part_num_org,part_num_dest,prct_org,prct_dest和標(biāo)簽:is_fruad(用于ML檢測模型),fraud_catg(用于ML分類模型).

        6 可疑交易監(jiān)控模型

        6.1 訓(xùn)練模型

        由于金融體系日益復(fù)雜,金融衍生品層出不窮,洗錢手段正在迅速發(fā)生變化.因此,高水平的檢測模型將受益于其靈活性.本文采用了三種監(jiān)督學(xué)習(xí)模型:邏輯回歸(LR)、多層感知(MLP)、梯度增強(GB).

        被用于訓(xùn)練和測試的交易信息有168,599條,其中涉及洗錢的1047條.本文將其中80%的樣本用于訓(xùn)練,20%的樣本進行測試.為了對模型性能進行魯棒性評估,采用k-fold cross validation,其中k=10.指標(biāo)包括混淆矩陣、準(zhǔn)確率、召回率、F1和AUC.

        樣本類別(0:167552,1:1047)的不對稱性是反洗錢研究的一個常見問題,如果處理不當(dāng)會降低模型的準(zhǔn)確性.LR最容易受到這里采用的三種算法之間的不平衡的影響.如果沒有采取補救措施,那么將趨向于將所有類別歸類為類別0以最小化損失函數(shù).為了克服這一問題,人們開發(fā)了幾種方法,如過度抽樣、抽樣不足、重量變化等.本文應(yīng)用第三種方法,即調(diào)整損失函數(shù)中正樣本和負樣本的權(quán)重,以平衡兩類樣本.結(jié)果表明這是有效的.

        6.2 結(jié)果以及評估

        測試集的混淆矩陣如表4-表6所示.精確率,召回率,F1,cross validation scores和AUC如表7所示.圖2顯示了使用LR預(yù)測的欺詐概率.

        表4 邏輯回歸模型的混淆矩陣Table 4 Confusion matrix for logistic regression model

        表5 MLP模型的混淆矩陣Table 5 Confusion matrix for MLP model

        表6 梯度增強模型的混淆矩陣Table 6 Confusion matrix for gradient boosting model

        圖2 使用LR預(yù)測欺詐概率Fig.2 Predicted probability of fraud using LR

        三種型號的主要參數(shù)如下:

        LR:C=50,class_weight={0:0.06,1:0.94},solver=′liblinear′,penalty=′l1′.

        MLP:activation=′relu′,max_iter=200,hidden_layer_size=(50,).

        GB:max_depth=2,n_estimator=100.

        上述結(jié)果表明,該模型在訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集上都具有良好的功能,基本上適用于實際應(yīng)用.在參數(shù)優(yōu)化過程中,目標(biāo)設(shè)定為最大化F1分數(shù).但在實際情況下可能會發(fā)生變化.在大多數(shù)情況下,在線監(jiān)控系統(tǒng)判斷并鎖定目標(biāo)群體之后,人工分析師將根據(jù)他們的經(jīng)驗進行進一步調(diào)查.通過表7對3種算法的性能對比,可以發(fā)現(xiàn)MLP算法的精確率高于LR以及GB.其Train和Test數(shù)據(jù)集的精確率分別達到了93.90%和95.28%.并且MLP在F1值,Cross validation score,以及AUC的表現(xiàn)均優(yōu)于其它兩個算法.綜合以上分析,MLP應(yīng)被選作模型一的算法.

        7 多分類模型

        7.1 單模型訓(xùn)練

        為了使該系統(tǒng)更有效和實用,進行了進一步的研究.

        表7 性能指標(biāo)Table 7 Performance indicators

        建立了第二個模型來預(yù)測欺詐交易的最可能犯罪類別.用于模型訓(xùn)練的特征與可疑檢測模型部分相同,標(biāo)簽改為fraud_catg.

        對于多分類,這里使用了另外三種有監(jiān)督的學(xué)習(xí)技術(shù):支持向量機(SVM)、LR和MLP.培訓(xùn)和測試過程中使用了1047項欺詐交易.其中80%用于訓(xùn)練集,20%用于測試集.第1,2,3,4,5類犯罪的數(shù)量分別為302,214,282,203和46.指標(biāo)包括混淆矩陣,精確率,召回率和F1.

        混淆矩陣如等式(2)-式(4)所示.精確率,召回率,F1見表8.

        (2)

        (3)

        (4)

        三種型號的主要參數(shù)如下:

        SVM:kernel=′rbf′,decision_function_shape=′ovo′,C=100.

        LR:C=100,multi_class=′multinomial′,solver=′sag′.

        MLP:activation=′relu′,max_iter=500,hidden_layer_size=(100,).

        該模型在訓(xùn)練和測試數(shù)據(jù)集上表現(xiàn)良好.研究結(jié)果表明,犯罪分類對于模型訓(xùn)練是合理可行的,并且是反洗錢系統(tǒng)研究多分類問題的良好開端.由表8性能指標(biāo)分析可得出,MLP在精確率、召回率和F1的性能表現(xiàn)優(yōu)于SVM以及LR.因此,模型二選用MLP為多分類算法.目前的一個局限是,隨著經(jīng)濟和犯罪技術(shù)的發(fā)展,為了保持對犯罪類型預(yù)測的良好準(zhǔn)確性,對犯罪類型的分類應(yīng)該經(jīng)常變化.

        表8 性能指標(biāo)Table 8 Performance indicators

        7.2 串聯(lián)模型

        在分別評估了兩種模型的精度后,我們對模型的性能進行了串聯(lián)測試.圖3顯示了系統(tǒng)的概述.在提取和結(jié)合特征之后,模型1用于從測試集鎖定可疑交易集S.然后,在欺詐交易集F上訓(xùn)練模型2(這里排除已經(jīng)由模型1檢測到的欺詐交易,以使模型2的預(yù)測更有說服力).然后利用模型2對集合S上的犯罪類型進行分類,最后將結(jié)果報告給情報分析人員,以便進一步調(diào)查和判斷.

        圖3 系統(tǒng)運行框架Fig.3 System framework

        基于對模型一以及模型二的單獨分析,應(yīng)用MLP來訓(xùn)練模型1和2的系列.每個模型的主要參數(shù)如下.

        模型1:MLP:activation=′tanh′,max_iter=200,hidden_layer_size=(100,).

        模型 2:MLP:activation=′tanh′,max_iter=500,hidden_layer_size=(200,).

        混淆矩陣如等式(5)所示.召回率為78.61%,準(zhǔn)確率為74.63%,F1為76.56%.

        (5)

        結(jié)果表明,性能比較滿意,雖然這兩種模型單獨使用時效果都不理想(只有對詐騙罪的判斷和對犯罪的分類同時正確時,預(yù)測才是正確的,這是一個更嚴(yán)格的要求),它仍然為實際應(yīng)用和未來研究具有積極的意義.

        8 結(jié)論和未來的工作

        本文采用監(jiān)督學(xué)習(xí)的方法,建立了一個基于交易數(shù)據(jù)的洗錢檢測和犯罪類別分類兩種模型的系統(tǒng).結(jié)果表明,每個模型對于樣本數(shù)據(jù)都非常有用,并且對不同的訓(xùn)練方法表現(xiàn)出良好的魯棒性.當(dāng)模型組合在一起時,可以為手工檢查提供有價值的參考.用戶可以根據(jù)不同的用途選擇使用哪種模型(或兩者),但在實踐中需要對提取的數(shù)據(jù)特征和模型參數(shù)進行微調(diào).本文的不足之處在于缺乏真實的多維數(shù)據(jù).考慮到信息研究需求的高度隱私性,這是該領(lǐng)域的一個很難解決的問題.然而,添加客戶信息(如性別,年齡,工作,位置)的模擬數(shù)據(jù)是可能的,而且會有很大的貢獻.另一個局限性是缺乏對各種因素的評估.例如,可疑水平與個體的時間和數(shù)量序列有關(guān),這些交易可以借助于小波分析進行測量.同時,未來應(yīng)考慮無監(jiān)督學(xué)習(xí)(例如聚類).此外,如何提取適當(dāng)?shù)奶卣鞑糠忠蕾囉谌祟悓L過程的經(jīng)驗和理解,并且在一定程度上顯著影響最終結(jié)果.就研究的局限性而言,需要進一步的工作來改進系統(tǒng)的算法和穩(wěn)健性.

        猜你喜歡
        交易犯罪分類
        分類算一算
        Televisions
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        什么是犯罪?
        交易流轉(zhuǎn)應(yīng)有新規(guī)
        上海國資(2015年8期)2015-12-23 01:47:28
        大宗交易
        重新檢視犯罪中止
        《吃飯的交易》
        精品福利一区二区三区蜜桃| 白白色发布在线播放国产| 亚洲av激情久久精品人| 伊人久久大香线蕉av最新午夜| 十四以下岁毛片带血a级| 又爽又黄又无遮挡的激情视频| 国产亚洲精品A在线无码| 国产无套粉嫩白浆内精| 亚洲av熟女少妇久久| 国产又黄又爽又色的免费| 国产亚洲欧美日韩综合一区在线观看 | 国产精品亚洲色婷婷99久久精品| 一本大道久久东京热无码av| 2022国内精品免费福利视频| 亚洲色图偷拍自拍亚洲色图| 人妻少妇偷人精品免费看| 中文字幕精品久久久久人妻红杏ⅰ | 免费人成黄页网站在线一区二区| 麻豆国产精品va在线观看不卡 | 亚洲精品无码不卡在线播he| 免费精品一区二区三区第35| 国产自产c区| 国产一区二区亚洲一区| 国产日韩精品suv| 国产在线精品一区二区三区不卡 | 中文无码日韩欧免费视频| 日本久久久精品免费免费理论| 真人抽搐一进一出视频| 少妇厨房愉情理伦片免费| 欧美日本视频一区| 国产精品又湿又黄九九九久久嫩草| 免费a级毛片18禁网站app| 国产午夜无码视频免费网站| 黄色网页在线观看一区二区三区| 久久99天堂av亚洲av| 久久99久久99精品中文字幕| 无码人妻专区免费视频| 亚洲av高清一区三区三区| 无码无套少妇毛多18p| 亚洲不卡中文字幕无码| 秀人网嫩模李梓熙大尺度 |