亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于改進(jìn)隨機(jī)森林的洗錢交易角色識別應(yīng)用

        2018-03-13 05:18:57胡國超
        關(guān)鍵詞:主體特征

        張 昊,黃 蔚,胡國超

        (華北計(jì)算技術(shù)研究所,北京 100083)

        0 引 言

        洗錢犯罪嚴(yán)重破壞經(jīng)濟(jì)穩(wěn)定,同時(shí)還為諸如毒品、恐怖活動(dòng)犯罪、貪污腐敗提供了便利,嚴(yán)重影響了社會穩(wěn)定[1]。對于洗錢行為的發(fā)現(xiàn)一般流程是通過發(fā)現(xiàn)可疑交易,將可疑賬號以及與該賬號有交易關(guān)系的相關(guān)賬號一并推送給公安機(jī)關(guān)進(jìn)行立案分析,其中一個(gè)重要步驟是區(qū)分錢莊的經(jīng)營賬號以及與錢莊發(fā)生交易的客戶賬號。受限于信息化建設(shè),對洗錢活動(dòng)的線索挖掘仍處于人工判別的階段。公安機(jī)關(guān)利用調(diào)查交易量較大的賬戶,通過審訊等手段進(jìn)行分析。該方法大量依賴人力物力,分析周期長。

        隨著機(jī)器學(xué)習(xí)技術(shù)的發(fā)展,人們嘗試在經(jīng)濟(jì)犯罪領(lǐng)域使用。這些研究多著眼于在大量交易中找出異常交易,但是對于找出的異常交易者進(jìn)行身份判定的研究較少。近年來的研究包括Tang[2]提出的基于交易特征的交叉孤立點(diǎn)檢測模型,李欣月等人[3]提出的基于CURE聚類算法的交易離群點(diǎn)識別。該類算法利用交易者的交易統(tǒng)計(jì)信息以及背景信息找出異于主體數(shù)據(jù)的個(gè)體以識別可疑交易。以上算法僅僅從交易統(tǒng)計(jì)的偏離度入手,并沒有考慮到交易的時(shí)序性,也沒有將與之交易的上下游納入分析。張璐[4]利用小波分析,找出某個(gè)經(jīng)濟(jì)主體在時(shí)序上交易的突變,并利用突變的程度來判斷是否涉及洗錢,但是在區(qū)分錢莊與客戶時(shí)沒有考慮交易網(wǎng)絡(luò)結(jié)構(gòu),因此在實(shí)際使用中往往效果欠佳。

        針對以往工作的不足,本文利用交易網(wǎng)絡(luò)的拓?fù)涮卣?,結(jié)合交易統(tǒng)計(jì)特點(diǎn)、交易特征的異常,從各個(gè)角度提取特征,設(shè)計(jì)一種基于隨機(jī)森林的自動(dòng)識別方法,并結(jié)合實(shí)際經(jīng)驗(yàn)進(jìn)行改進(jìn),得到一個(gè)有效的洗錢網(wǎng)絡(luò)經(jīng)營賬戶與客戶賬戶判別的方法。

        1 應(yīng)用框架與關(guān)鍵特征

        本文的主要處理對象為金融機(jī)構(gòu)上報(bào)的可疑交易以及與該交易參與人有經(jīng)濟(jì)往來的一批經(jīng)濟(jì)主體的交易流水,并在此之上構(gòu)建應(yīng)用。依據(jù)經(jīng)濟(jì)學(xué)專家對洗錢行為的分析,交易主體的基礎(chǔ)屬性刻畫了其身份背景,交易統(tǒng)計(jì)信息刻畫了其交易習(xí)慣,交易偏離度刻畫了其交易的異常程度,交易網(wǎng)絡(luò)特征刻畫了其在洗錢交易網(wǎng)絡(luò)中的地位。以上4個(gè)方面都從一定角度反應(yīng)了一個(gè)經(jīng)濟(jì)主體從事于洗錢犯罪中所處角色的可能性[4]。

        本文從以上的各個(gè)角度提取出可以進(jìn)行分類器訓(xùn)練的、有代表性的特征,并利用改進(jìn)的隨機(jī)森林算法在這些特征之上基于已有的數(shù)據(jù)訓(xùn)練出一個(gè)有效的分類模型。當(dāng)模型訓(xùn)練完成后,通過對需要處理的同樣類型數(shù)據(jù)經(jīng)過相同的流程處理,就可以自動(dòng)判別出這些參與洗錢者的身份。

        圖1 角色識別流程圖

        1.1 屬性特征

        1.1.1 主體類別

        根據(jù)銀行賬戶的類別,經(jīng)濟(jì)主體可以是單一個(gè)體的自然人(或者是一個(gè)集體的公司)、組織機(jī)構(gòu),這兩者一般在交易體量、其參數(shù)提取上有明顯的區(qū)別,該特征用在決策樹中可以讓模型針對2種類別訓(xùn)練出不同的參數(shù)。該特征可以通過交易證件號碼是否是身份證號,使用一個(gè)二值變量區(qū)分。

        1.1.2 所在地

        根據(jù)經(jīng)驗(yàn)洗錢犯罪集團(tuán)的成員往往有地域集中性[5],所以使用經(jīng)濟(jì)主體的籍貫有一定意義,一般認(rèn)為沿海地區(qū)、經(jīng)濟(jì)發(fā)達(dá)地區(qū)更有從事洗錢的便利。籍貫地采自身份證前2位,而組織機(jī)構(gòu)的交易所在地都是固定的,可以通過交易所在地按地域編碼得到。

        1.1.3 年齡

        一般未成年人或是老年人參與洗錢犯罪的概率相對較低。年齡信息也可以從身份證號碼中提取到。特征即是當(dāng)前分析的時(shí)間減去出生年份得到。

        1.2 交易的統(tǒng)計(jì)特征

        數(shù)據(jù)的統(tǒng)計(jì)特征往往可以初步反映數(shù)據(jù)的分布情況,利用統(tǒng)計(jì)特征對一個(gè)經(jīng)濟(jì)主體的交易信息空間進(jìn)行表示也可以大致描述該經(jīng)濟(jì)主體的交易模式。從某經(jīng)濟(jì)主體的一條交易記錄提取出二元組(xi,ti),其中xi代表某次金額(收款為正,付款為負(fù)),t代表交易的時(shí)間。該經(jīng)濟(jì)主體的所有n次交易記錄中的金額、時(shí)間可表示為(x1,t1),(x2,t2),…,(xn,tn),統(tǒng)計(jì)特征[5]計(jì)算方式如表1所示。

        表1 統(tǒng)計(jì)特征

        特征名稱計(jì)算方式交易頻率(tn-t1)/n交易次數(shù)n交易總額|x1|+|x2|+…+|xn|平均交易額(|x1|+|x2|+…+|xn|)/n交易留存率(x1+x2+…+xn)/n

        同時(shí),針對洗錢流轉(zhuǎn)資金時(shí)常常使用外匯逃避金融機(jī)構(gòu)的檢測[7],外匯在交易中使用的占比也具有參考價(jià)值。

        1.3 交易習(xí)慣的偏離度特征

        洗錢交易一般與正常的交易有顯著的區(qū)別,在所有的交易數(shù)據(jù)中,大量的交易都是正常交易,因此洗錢所產(chǎn)生的交易一般在整個(gè)交易中屬于異常點(diǎn)[7]。錢莊經(jīng)營賬戶由于大量參與洗錢交易,相比于客戶賬戶這種偶爾參與的賬戶,交易行為會更加異常。

        本文通過Isolation Forest算法[8]對偏離特征進(jìn)行抽取。Isolation Forest用于挖掘異常數(shù)據(jù),可以在包含所有樣本的特征空間中找出空間中與大量數(shù)據(jù)距離較遠(yuǎn)的點(diǎn)[9]。該算法的空間、時(shí)間復(fù)雜度較低,在面對大量、復(fù)雜的交易數(shù)據(jù)時(shí)也可以快速有效地處理。

        交易主體的異常程度可以從其交易統(tǒng)計(jì)值來刻畫,同樣也可以通過其每一筆交易的平均異常程度來刻畫。

        1.3.1 統(tǒng)計(jì)值異常度

        交易主體偏離度依據(jù)交易的統(tǒng)計(jì)特征構(gòu)成的特征空間來計(jì)算該經(jīng)濟(jì)主體的交易異常度。

        1.3.2 單筆交易異常度均值

        將每一筆交易的金額、雙方交易地區(qū)域碼等作為單筆交易的特征值,并在所有交易組成的數(shù)據(jù)集上計(jì)算交易的異常度,并以此計(jì)算某經(jīng)濟(jì)主體參與的所有交易異常度均值。

        1.4 交易網(wǎng)絡(luò)的中心度特征

        交易網(wǎng)絡(luò)是一個(gè)有向圖,其中節(jié)點(diǎn)代表了一個(gè)交易主體,而2個(gè)交易主體之間的邊則描述了這2個(gè)交易主體之間的交易行為,付款方以及收款方分別構(gòu)成交易網(wǎng)絡(luò)中的父節(jié)點(diǎn)與子節(jié)點(diǎn)。為了減少圖的規(guī)模以及去掉干擾,需要對點(diǎn)的集合按照總交易次數(shù)、與邊的集合按照單次交易金額進(jìn)行篩選,并在成圖之后剔除孤立點(diǎn)。對于被剔除的節(jié)點(diǎn)基本可以認(rèn)為是非錢莊的經(jīng)營者,其有網(wǎng)絡(luò)計(jì)算得到的特征值可以由一個(gè)常數(shù)代替。

        交易網(wǎng)絡(luò)中邊的權(quán)重可以從不同的角度進(jìn)行度量:常數(shù)(單純考慮由交易組成的關(guān)系網(wǎng))、交易金額、交易次數(shù)、交易頻率等。根據(jù)中心度的計(jì)算公式和代表意義,當(dāng)圖的權(quán)重不是常數(shù)時(shí),邊的權(quán)值越大則表明2點(diǎn)關(guān)系越緊密,這和中心度計(jì)算距離的方式相違背。所以本文在構(gòu)建交易網(wǎng)絡(luò)時(shí)對原有的權(quán)值W′為:

        W′=1-ln (W)

        (1)

        其中W為原來的權(quán)值。

        在圖論與網(wǎng)絡(luò)分析中,中心性(Centrality)是判定網(wǎng)絡(luò)中節(jié)點(diǎn)重要性的指標(biāo),是節(jié)點(diǎn)重要性的量化。利用中心度,可以從網(wǎng)絡(luò)結(jié)構(gòu)入手分析網(wǎng)絡(luò)中每個(gè)節(jié)點(diǎn),對于網(wǎng)絡(luò)的角色給定一個(gè)可以特征化的數(shù)值,從而豐富節(jié)點(diǎn)的特征信息。在刻畫交易網(wǎng)絡(luò)中,本文主要使用的中心性包括以下3種[10]。

        1.4.1 點(diǎn)度中心度

        如果一個(gè)賬號與許多賬號有交易關(guān)系,那么這個(gè)賬號在整個(gè)交易網(wǎng)絡(luò)中應(yīng)該有更高的活躍度,理應(yīng)受到更大的關(guān)注。點(diǎn)度中心度描繪了節(jié)點(diǎn)的出度、入度,認(rèn)為一個(gè)節(jié)點(diǎn)如果有更多的節(jié)點(diǎn)與之相連,則認(rèn)為這個(gè)節(jié)點(diǎn)在網(wǎng)絡(luò)中更為重要[11]。

        對于有N個(gè)節(jié)點(diǎn)的圖G=(E,V),節(jié)點(diǎn)i∈V的點(diǎn)度中心度為:

        Cd(i)=(deg (iin)+deg (iout))/(N-1)

        (2)

        其中deg(iin)為點(diǎn)i的入度,deg(iout)為點(diǎn)i的出度。

        1.4.2 介數(shù)中心度

        錢莊是整個(gè)網(wǎng)絡(luò)的連接要點(diǎn),處于錢莊資金流轉(zhuǎn)的關(guān)鍵路徑上。而這樣的節(jié)點(diǎn)更多地出現(xiàn)在任意2個(gè)節(jié)點(diǎn)的最短路徑上,因此引入介數(shù)中心度來衡量一個(gè)節(jié)點(diǎn)在這個(gè)網(wǎng)絡(luò)中的重要程度[11]。介數(shù)中心度的核心是整個(gè)網(wǎng)絡(luò)中的一個(gè)節(jié)點(diǎn)出現(xiàn)在任意2個(gè)節(jié)點(diǎn)的最短路徑上的次數(shù)與所有最短路徑的條數(shù)的占比。

        在圖G中,節(jié)點(diǎn)i的介數(shù)中心度為:

        (3)

        其中g(shù)jk為連接j,k兩點(diǎn)最短路徑的個(gè)數(shù),gjk(i)為節(jié)點(diǎn)i位于最短路徑的個(gè)數(shù)。

        1.4.3 接近中心度

        在交易網(wǎng)絡(luò)中,錢莊賬號節(jié)點(diǎn)的拓?fù)湮恢靡簿哂幸欢▋r(jià)值,這里使用接近中心度來衡量一個(gè)賬號的拓?fù)湮恢谩=咏行亩雀叩墓?jié)點(diǎn)被認(rèn)為更加處于網(wǎng)絡(luò)的中心,因?yàn)樗狡渌?jié)點(diǎn)的路徑相對較短[11]。所以接近中心度核心是整個(gè)網(wǎng)絡(luò)中的一個(gè)節(jié)點(diǎn)到其它節(jié)點(diǎn)的平均距離。在圖G中,節(jié)點(diǎn)i的接近中心度為:

        (4)

        其中d(i,j)為節(jié)點(diǎn)i到節(jié)點(diǎn)j的最短路徑長度。

        1.4.4 交易主體的中心特征加權(quán)

        在形成的交易網(wǎng)絡(luò)中分別依據(jù)點(diǎn)定義計(jì)算出各個(gè)節(jié)點(diǎn)的中心度。根據(jù)實(shí)驗(yàn),直接得到的中心度在區(qū)分部分特殊經(jīng)濟(jì)主體有欠缺,例如交易行為相對隱蔽的錢莊經(jīng)營者或是交易相對頻繁的企業(yè)賬號,因此需要對中心度進(jìn)行改進(jìn)。中心度作為特征,其區(qū)分度沒有足夠顯著的原因是中心度僅僅從交易網(wǎng)絡(luò)的結(jié)構(gòu)方面進(jìn)行分析,而交易信息中還應(yīng)該包含戶主個(gè)人的歷史交易流水信息。

        在構(gòu)建交易網(wǎng)絡(luò)時(shí)分別使用了交易次數(shù)或是交易金額作為路徑權(quán)值,所以本文提出使用路徑權(quán)值外的另一個(gè)參數(shù)對中心度進(jìn)行校正,即當(dāng)使用交易次數(shù)作為路徑權(quán)值時(shí),將交易金額乘上中心度參數(shù)。將這個(gè)參數(shù)作為中心度的權(quán)值可以有效地抑制因其它原因與錢莊小額交易密切的正常賬號或是不活躍的賬戶被識別成錢莊經(jīng)營賬戶的概率,從而提升該參數(shù)對于特殊情況的區(qū)分能力。

        1.5 參數(shù)歸一化

        為了提升模型的遷移能力,即是訓(xùn)練好分類器參數(shù)后的模型依舊適用于其它洗錢網(wǎng)絡(luò),需要對參與訓(xùn)練的非離散特征數(shù)值進(jìn)行歸一化處理。歸一化后的特征值處理會將被線性地縮放到同一個(gè)度量尺度上[12]。

        將以上計(jì)算得到的統(tǒng)計(jì)值、偏離度進(jìn)行以下處理,得到歸一化后的特征值λ′:

        λ′=(λ-λmin)/(λmax-λmin)

        (5)

        其中λ為未經(jīng)過歸一化的原數(shù)值。

        1.6 利用其它特征對特殊點(diǎn)進(jìn)行校正

        在試驗(yàn)過程中,發(fā)現(xiàn)部分識別錯(cuò)誤的點(diǎn)有著與常識不符的特征,例如某個(gè)地下錢莊的經(jīng)營者僅僅有數(shù)筆千余元的交易記錄。對于這種情況,可以嘗試?yán)媒灰子涗浿械钠渌畔@類數(shù)據(jù)進(jìn)行校正。

        根據(jù)調(diào)查,地下錢莊一般呈現(xiàn)出家族性、區(qū)域性特點(diǎn)。對于未被隨機(jī)森林判別成錢莊的,可以利用其交易記錄中的交易方屬性信息,與算法識別出的錢莊經(jīng)營者的姓氏、身份證中的籍貫進(jìn)行對比,如兩者相同,則該戶主與算法識別出的地下錢莊的經(jīng)營者屬于家族關(guān)系,同樣有很大可能也是地下錢莊的經(jīng)營者之一[5]。

        2 改進(jìn)的隨機(jī)森林

        隨機(jī)森林具有較好的抗噪能力,針對洗錢交易規(guī)律復(fù)雜的特征有較好的預(yù)測能力,同時(shí)有特征選擇能力,可以針對提出的各個(gè)特征的有效性進(jìn)行驗(yàn)證,并且易于并行,適合處理大量數(shù)據(jù)[13]。

        傳統(tǒng)的隨機(jī)森林[14]通過對輸入的數(shù)據(jù)同時(shí)使用行采樣與列采樣。對于行采樣,隨機(jī)森林采用有放回的方式在N個(gè)樣本中選取n個(gè)樣本(n

        為了提升隨機(jī)森林在此應(yīng)用中的準(zhǔn)確率,特別是對錢莊經(jīng)營者的識別率,本文對傳統(tǒng)隨機(jī)森林進(jìn)行了改進(jìn)。

        2.1 樣本采樣

        考慮到各類數(shù)據(jù)樣本數(shù)量不平衡,所以在訓(xùn)練決策樹時(shí)引入虛擬少類向上采樣(SMOTE)技術(shù)[15]。SMOTE通過在特征空間中,人工地在少數(shù)類樣本點(diǎn)附近構(gòu)建新的少數(shù)類樣本,從而增加少數(shù)類樣本數(shù)量,減少數(shù)據(jù)不平衡。

        SMOTE的算法流程包括3個(gè)步驟:1)對于少數(shù)類的每一個(gè)樣本x,選取距離最近的k個(gè)少數(shù)類樣本;2)隨機(jī)從k個(gè)鄰近樣本中選取一個(gè),記為xi;3)新的樣本xnew=x+rand(0,1)×x。

        通過SMOTE技術(shù)擴(kuò)充錢莊經(jīng)營者的樣本數(shù)量后再進(jìn)行隨機(jī)森林的訓(xùn)練,可以降低錢莊經(jīng)營者數(shù)量遠(yuǎn)遠(yuǎn)小于客戶的問題。

        為了保證訓(xùn)練集與OOB中同時(shí)有2類樣本,采樣時(shí)分別從2類樣本集合中以同樣的概率進(jìn)行采樣,否則訓(xùn)練集有更大的概率采樣到非錢莊樣本,避免訓(xùn)練集對非錢莊經(jīng)營者更加敏感而難以識別錢莊經(jīng)營者。

        2.2 利用OOB對建立的決策樹加權(quán)

        當(dāng)一棵決策樹建立好之后,可以利用OOB數(shù)據(jù)對當(dāng)前的決策樹進(jìn)行評估,從而給出這顆決策樹在特定領(lǐng)域下的適應(yīng)性。

        傳統(tǒng)的隨機(jī)森林中每一棵決策樹都有相同的投票權(quán),參考高元等人[16]利用OOB數(shù)據(jù)提高隨機(jī)森林的性能,在此對決策數(shù)的預(yù)測結(jié)果引入一個(gè)權(quán)值[17]。

        因?yàn)樵撃P偷闹攸c(diǎn)在于找出錢莊的經(jīng)營者,因此使用該決策樹對OOB中錢莊經(jīng)營者的識別率來衡量這棵決策樹在森林中的重要程度。

        設(shè)OOBi,j代表建立的第i棵決策樹Treei時(shí)OOB中類別為j∈{錢莊經(jīng)營者,錢莊客戶}的樣本集合,Treei對于樣本x預(yù)測結(jié)果記為Pr ei,x。則定義OOB中錢莊經(jīng)營者的識別率P為:

        (6)

        其中I為指示函數(shù)。

        當(dāng)每棵決策樹根據(jù)公式(6)計(jì)算出重要度后,依據(jù)歸一化后的重要度作為每棵樹投票的權(quán)重。

        3 實(shí)驗(yàn)結(jié)果

        利用公安提供的幾組實(shí)際洗錢案件交易數(shù)據(jù),將以上得到的4類描述經(jīng)濟(jì)主體的特征值依照相同的順序組成特征向量,所有涉及的經(jīng)濟(jì)主體的特征向量組成樣本空間。利用查獲的錢莊賬戶對每個(gè)樣例進(jìn)行標(biāo)記。每次實(shí)驗(yàn)選取其中的一組數(shù)據(jù)作為訓(xùn)練集,另外的幾組數(shù)據(jù)作為測試集。將賬戶在錢莊賬戶中的標(biāo)簽置為1,否則置為0。將所有樣本的特征向量組成特征矩陣依據(jù)改進(jìn)的隨機(jī)森林模型進(jìn)行訓(xùn)練。

        3.1 統(tǒng)計(jì)信息分析

        所有經(jīng)濟(jì)主體上統(tǒng)計(jì)交易記錄中的收付款次數(shù)、金額、留存、平均單次交易金額,結(jié)果如表2、表3所示。

        表2 錢莊經(jīng)營交易統(tǒng)計(jì)

        統(tǒng)計(jì)值付款次數(shù)/次收款次數(shù)/次付款總額/萬元收款總額/萬元留存金額/萬元平均金額/元均值1456.501155.0046.4835.53-10.94678.23方差1418.431115.5149.5847.4854.02698.22

        表3 戶交易統(tǒng)計(jì)

        統(tǒng)計(jì)值付款次數(shù)/次收款次數(shù)/次付款總額/萬元收款總額/萬元留存金額/萬元平均金額/元均值528.85454.7056.8345.51-11.315792.32方差1451.651223.6649.5861.2054.028733.29

        傳統(tǒng)的統(tǒng)計(jì)信息在2組賬戶之間有一定的差別,但是2組的統(tǒng)計(jì)值的方差都很大,數(shù)值交雜在一起,難以單獨(dú)作為2種賬戶的判別標(biāo)準(zhǔn)。

        3.2 中心度以及加權(quán)中心度分析

        首先利用實(shí)驗(yàn)數(shù)據(jù)構(gòu)建交易網(wǎng)絡(luò)。從實(shí)驗(yàn)樣例中隨機(jī)抽取20個(gè)錢莊經(jīng)營賬戶以及20個(gè)客戶賬戶,在構(gòu)建的交易網(wǎng)絡(luò)中計(jì)算以上40個(gè)樣例的中心度,結(jié)果如圖2所示,其中0~19號為經(jīng)營賬戶,20~39號為客戶賬戶。

        圖2 經(jīng)濟(jì)實(shí)體交易中心度特征

        在所有交易記錄中統(tǒng)計(jì)出這些賬戶的交易總額以及交易次數(shù),按照計(jì)算其可疑度,作為各個(gè)中心度的權(quán)值。

        圖3 2組經(jīng)濟(jì)實(shí)體交易帶權(quán)中心度特征

        從上面的2個(gè)圖中可以看出,經(jīng)營賬戶的中心度在一定程度上比客戶賬戶有更大的數(shù)值,但是其中仍然存在一些異常點(diǎn),例如第1個(gè)、第6個(gè)、第9個(gè)錢莊經(jīng)營賬戶的中心度較低,而第28個(gè)客戶賬戶的中心度較高。

        在引入可疑度作為中心度的權(quán)值后,大部分的經(jīng)營賬戶與客戶賬戶之間的數(shù)值差異進(jìn)一步放大,可見加權(quán)后的中心度可以較好地作為經(jīng)營賬戶的識別標(biāo)志之一。

        3.3 偏離度分析

        計(jì)算所有經(jīng)濟(jì)主體的統(tǒng)計(jì)信息構(gòu)成特征空間,計(jì)算2組賬號的偏離度,結(jié)果如表4所示。

        表4 交易偏離度

        統(tǒng)計(jì)值客戶經(jīng)營者平均值0.9259164.845249方差5.7523984.158647

        從表4的結(jié)果可以看出,2組賬號的偏離度具有不同的分布區(qū)間,錢莊賬號的偏離度明顯大于客戶賬戶的偏離度。

        3.4 分類結(jié)果分析

        3.4.1 特征貢獻(xiàn)度

        利用隨機(jī)森林對特征的貢獻(xiàn)度評估能力,在多個(gè)數(shù)據(jù)集合上經(jīng)過多次實(shí)驗(yàn)得到各個(gè)類別特征的平均貢獻(xiàn)度,如圖4所示。

        圖4 4類特征的貢獻(xiàn)度

        從特征貢獻(xiàn)度可以看出特征對分類結(jié)果都有一定貢獻(xiàn),特征之間關(guān)聯(lián)較小。

        3.4.2 分類性能分析

        經(jīng)過多次實(shí)驗(yàn)后得到分類的平均準(zhǔn)確度、召回率、F1-score如表5所示。

        表5 模型效果

        準(zhǔn)確度/%召回率/%F1?score/%93.8781.7287.37

        3.4.3 與其它算法的對比

        表6 效果比較

        算法名稱準(zhǔn)確度/%召回率/%F1?score/%改進(jìn)RF93.8781.7287.37RF91.2371.3580.07SVM89.7935.5650.94CURE聚類89.4365.3375.50

        從表6的結(jié)果可以看出,在本文提出的特征集上使用隨機(jī)森林模型進(jìn)行分類預(yù)測有一定效果,特別是錢莊識別率均超過80%,使得該模型有投入實(shí)際使用的價(jià)值。特別地,對于CURE聚類算法不能找出的錢莊,因?yàn)槠涮幱诮灰拙W(wǎng)絡(luò)的中心,本應(yīng)用也可以有效地發(fā)現(xiàn)。并且相比于傳統(tǒng)的隨機(jī)森林算法,改進(jìn)的隨機(jī)森林不僅對錢莊的識別率更高,還更加穩(wěn)定。而常用的SVM算法對不平衡問題的適應(yīng)性較差?;贑URE聚類的算法對差異明顯的錢莊可以穩(wěn)定識別,但是會將企業(yè)大量交易的賬戶也分到錢莊中,而錢莊中交易量相對較小的卻不能識別出來。

        4 結(jié)束語

        本文依據(jù)公安現(xiàn)有辦案的需求以及辦案流程,通過提取交易數(shù)據(jù)中經(jīng)濟(jì)實(shí)體的屬性特征、交易的統(tǒng)計(jì)特征、交易網(wǎng)絡(luò)中的中心度特征、交易的偏離度特征,針對應(yīng)用要求以及數(shù)據(jù)不平衡特點(diǎn)對隨機(jī)森林算法進(jìn)行了改進(jìn),并以此對可疑交易參與者的身份進(jìn)行了分類,實(shí)驗(yàn)表明本文方法有一定的效果。

        在實(shí)際辦案過程中,本文方法用在實(shí)驗(yàn)的數(shù)據(jù)集不僅可以描述一個(gè)經(jīng)濟(jì)主體,而且利用該經(jīng)濟(jì)主體的身份證號碼還可以利用其它數(shù)據(jù)對特征進(jìn)行拓展。例如通過戶口可以知道嫌疑人的現(xiàn)居住地址、社會經(jīng)歷、犯罪前科等信息。這些信息顯然對判斷一個(gè)經(jīng)濟(jì)主體是否涉嫌洗錢犯罪有著重要作用。

        同時(shí),隨機(jī)森林算法有易于并行的優(yōu)點(diǎn),將本應(yīng)用嵌入公安的研判系統(tǒng)中則必定會對實(shí)時(shí)性有要求,通過將隨機(jī)森林算法的并行化以及使用圖數(shù)據(jù)庫進(jìn)行圖相關(guān)運(yùn)算,則可以更大程度提升公安辦案效率。

        [1] 李云飛. 洗錢危害的二維性及對客體歸類的影響[J]. 中國刑事法雜志, 2013,11(11):41-48.

        [2] Tang Jun. A cross datasets referring outlier detection model applied to suspicious financial transaction discrimination[C]// Lecture Notes in Computer Science. 2006,3917:58-65.

        [3] 李欣月,張高煜,彭蘭舒,等. 基于聚類算法的金融交易離群點(diǎn)識別[J]. 電子技術(shù), 2016(1):24-28.

        [4] 張璐. 數(shù)據(jù)挖掘技術(shù)在識別可疑金融交易中的應(yīng)用[J]. 中文信息, 2015(1):73,291.

        [5] 李果仁. 反洗錢的現(xiàn)狀與對策研究[J]. 廣東經(jīng)濟(jì)管理學(xué)院學(xué)報(bào), 2004,19(1):71-76.

        [6] 丁韶年,汪革清. 電子商務(wù)信用風(fēng)險(xiǎn)和特征分析[J]. 電子商務(wù)世界, 2004(5):72-73.

        [7] Alexander K. The International anti-money-laundering regime: The role of the financial action task force[J]. Journal of Money Laundering Control, 2001,7(3):195-196.

        [8] Liu F T, Ting Kaiming, Zhou Zhihua. Isolation-based anomaly detection[J]. ACM Transactions on Knowledge Discovery from Data, 2012,6(1):1-39.

        [9] 侯泳旭,段磊,秦江龍,等. 基于Isolation Forest的并行化異常探測設(shè)計(jì)[J]. 計(jì)算機(jī)工程與科學(xué), 2017,39(2):236-244.

        [10] 付立東. 復(fù)雜網(wǎng)絡(luò)中心性度量及社團(tuán)檢測算法研究[D]. 西安:西安電子科技大學(xué), 2012.

        [11] Brandes U, Borgatti S P, Freeman L C. Maintaining the duality of closeness and betweenness centrality ☆[J]. Social Networks, 2016,44:153-159.

        [12] 楊慧中,盧鵬飛,張素貞,等. 網(wǎng)絡(luò)泛化能力與隨機(jī)擴(kuò)展訓(xùn)練集[J]. 控制理論與應(yīng)用, 2002,19(6):963-966.

        [13] Breiman L. Random forests[J]. Machine Learning, 2001,45(1):5-32.

        [14] 林成德,彭國蘭. 隨機(jī)森林在企業(yè)信用評估指標(biāo)體系確定中的應(yīng)用[J]. 廈門大學(xué)學(xué)報(bào)(自然版), 2007,46(2):199-203.

        [15] 王仁東. 基于數(shù)據(jù)挖掘技術(shù)的反洗錢監(jiān)測研究[D]. 哈爾濱:哈爾濱工程大學(xué), 2013.

        [16] 高元,劉柏嵩. 基于集成學(xué)習(xí)的標(biāo)題分類算法研究[J]. 計(jì)算機(jī)應(yīng)用研究, 2017,34(4):1004-1007.

        [17] 周浩. 基于隨機(jī)森林的代價(jià)敏感特征選擇研究[D]. 廈門:廈門大學(xué), 2015.

        猜你喜歡
        主體特征
        抓住特征巧觀察
        論自然人破產(chǎn)法的適用主體
        從“我”到“仲肯”——阿來小說中敘述主體的轉(zhuǎn)變
        阿來研究(2021年1期)2021-07-31 07:39:04
        新型冠狀病毒及其流行病學(xué)特征認(rèn)識
        如何表達(dá)“特征”
        不忠誠的四個(gè)特征
        技術(shù)創(chuàng)新體系的5個(gè)主體
        中國自行車(2018年9期)2018-10-13 06:17:10
        抓住特征巧觀察
        懷舊風(fēng)勁吹,80、90后成懷舊消費(fèi)主體
        金色年華(2016年13期)2016-02-28 01:43:27
        論多元主體的生成
        亚洲欧洲久久久精品| 国产成人无码a区在线观看导航 | 免费又黄又爽又色的视频| 中日韩欧美高清在线播放| 自拍偷拍一区二区三区四区| 日本一二三四高清在线| 久久午夜无码鲁丝片午夜精品| 久久久无码一区二区三区| 亚洲综合综合在线| 中文日本强暴人妻另类视频| 国产黄大片在线观看画质优化| 亚洲国产成人久久一区www| 一区二区三区国产在线网站视频| 久久久精品网站免费观看| 少妇无码太爽了在线播放| 国产精品亚韩精品无码a在线| 女同中的p是什么意思| 国产二区中文字幕在线观看| 少妇伦子伦情品无吗| 国产va免费精品观看| 亚欧同人精品天堂| 久久精品国产亚洲av麻豆床戏| 亚洲av无码专区在线观看下载| 亚洲午夜精品a片久久www慈禧| 大陆一级毛片免费播放| 男人天堂AV在线麻豆| 亚洲婷婷久久播66性av| 久久97久久97精品免视看| 国产目拍亚洲精品一区二区| 中文字幕日本女优在线观看| 亚洲av成人av三上悠亚| 99久久国产综合精品女图图等你| 国产免费一级高清淫日本片| 99国语激情对白在线观看 | 国产啪亚洲国产精品无码| 美女胸又www又黄的网站 | 色se在线中文字幕视频| 国产在线无码精品无码| 色欲av亚洲一区无码少妇| 亚洲综合国产成人丁香五月小说| 国产饥渴的富婆一凶二区|