呂 芳,湯豐赫,黃俊恒,王佰玲
(1.哈爾濱工業(yè)大學(xué)(威海)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,山東 威海 264209;2.哈爾濱工業(yè)大學(xué)(威海)網(wǎng)絡(luò)空間安全研究院,山東 威海 264209)
欺詐可以定義為導(dǎo)致金錢或個(gè)人利益損失的不正當(dāng)或刑事欺騙行為。近年來,欺詐活動(dòng)的形式和規(guī)模隨著跨銀行交易而變得越來越復(fù)雜和龐大,普華永道(PwC)[1]2018 年的全球經(jīng)濟(jì)犯罪調(diào)查結(jié)果顯示,有49%的公司在過去兩年經(jīng)歷過金融欺詐行為,2016 年的這一數(shù)據(jù)僅為36%。面對(duì)海量、多樣的欺詐手段,基于專家知識(shí)、偵查經(jīng)驗(yàn)的傳統(tǒng)欺詐賬戶識(shí)別方法已經(jīng)難以滿足當(dāng)前金融安全保障的需求。如何從海量金融數(shù)據(jù)中自動(dòng)識(shí)別少數(shù)欺詐賬戶逐漸成為偵查部門及大數(shù)據(jù)研究人員關(guān)注的問題。
金融欺詐賬戶檢測(cè)是一項(xiàng)難度較高的任務(wù),許多學(xué)者使用不同方法從多個(gè)角度研究檢測(cè)模型。文獻(xiàn)[2]采用廣義的定性相應(yīng)模型(EGB2)來預(yù)測(cè)企業(yè)管理層進(jìn)行的欺詐活動(dòng),文獻(xiàn)[3]提出一種成本敏感的決策樹欺詐檢測(cè)方法,文獻(xiàn)[4]對(duì)比了利用支持向量機(jī)(SVM)、邏輯回歸和隨機(jī)森林構(gòu)建模型對(duì)欺詐檢測(cè)的性能,文獻(xiàn)[5]通過比較金融欺詐檢測(cè)中機(jī)器學(xué)習(xí)算法的性能,得出隨機(jī)森林算法是最佳的金融欺詐檢測(cè)技術(shù)。在真實(shí)的交易數(shù)據(jù)中,欺詐賬戶的數(shù)據(jù)量相對(duì)整個(gè)數(shù)據(jù)集來說比例極少,且其具有欺詐傾向的行為活動(dòng)被淹沒在海量、常規(guī)的金融交易活動(dòng)中。若直接采用上述分類模型,由于常規(guī)交易(多數(shù)類樣本)數(shù)量多,欺詐交易(少數(shù)類樣本)數(shù)量少,會(huì)導(dǎo)致欺詐檢測(cè)模型在學(xué)習(xí)分類邊界時(shí)無法充分捕捉少數(shù)類樣本的類別特征,從而影響對(duì)欺詐賬戶的檢測(cè)性能。因此,解決數(shù)據(jù)集在類間的非平衡問題對(duì)提升賬戶分類模型的檢測(cè)性能具有重要意義。文獻(xiàn)[6]發(fā)現(xiàn)不平衡性通常會(huì)導(dǎo)致少數(shù)類內(nèi)部形成小雜項(xiàng)(間斷和分離),導(dǎo)致其在決策時(shí)易被錯(cuò)誤地學(xué)習(xí),從而降低欺詐檢測(cè)性能,造成該現(xiàn)象的主要原因是一些典型的少數(shù)類樣本在少數(shù)類中分布稀疏,數(shù)量較少??梢?,解決小雜項(xiàng)引起的類內(nèi)不平衡問題也同樣值得關(guān)注。
目前,解決數(shù)據(jù)集不平衡問題的方法主要分為兩類。一類從數(shù)據(jù)層面入手,通過改變數(shù)據(jù)樣本的分布來降低數(shù)據(jù)的非平衡性,常用方法有欠采樣和過采樣技術(shù),它們分別對(duì)應(yīng)少數(shù)類樣本的增加和多數(shù)類樣本的減少。另一類從算法層面入手,通過調(diào)整算法來適應(yīng)分類不平衡問題,如代價(jià)敏感學(xué)習(xí)、集成學(xué)習(xí)等。在過采樣技術(shù)的研究中,文獻(xiàn)[7]提出用于不平衡學(xué)習(xí)的自適應(yīng)合成采樣方法(ADASYN),該方法使用密度分布作為準(zhǔn)則為少數(shù)類樣本分配權(quán)重,從而自適應(yīng)地生成少數(shù)類的合成數(shù)據(jù)樣本,以減少由不平衡數(shù)據(jù)分布引起的偏差。對(duì)于處于多數(shù)類高密度分布區(qū)域內(nèi)的少數(shù)類樣本,ADASYN 會(huì)將該樣本作為“較難學(xué)習(xí)”的樣本,賦予其高權(quán)重并為其生成更多的合成樣本。雖然使用ADASYN 會(huì)面臨跨決策區(qū)域合成樣本的風(fēng)險(xiǎn),但作為一種新的學(xué)習(xí)方法,其基于密度分布自適應(yīng)地給予樣本權(quán)重并進(jìn)行樣本合成的思想,可以用于處理不同情況下的不平衡學(xué)習(xí)問題。除了采用分類模型進(jìn)行少數(shù)類檢測(cè),有研究人員將“異?!倍x為“離群點(diǎn)”,進(jìn)而提出眾多“異?!睓z測(cè)方法,如基于密度、測(cè)量和iForest方法。其中,iForest是由文獻(xiàn)[8]提出的基于孤立概念的無監(jiān)督異常檢測(cè)方法,其將“異?!倍x為“容易被孤立的離群點(diǎn)”。在特征空間中,分布在稀疏區(qū)域的點(diǎn)表示某事件在稀疏區(qū)域發(fā)生的概率很低,iForest 認(rèn)為落在這些區(qū)域中的點(diǎn)是“異?!钡模虼?,通過iForest可以快速高效地檢測(cè)數(shù)據(jù)集中分布稀疏且離密度高群體較遠(yuǎn)的異常點(diǎn)。
欺詐賬戶交易行為的隱蔽性導(dǎo)致正常賬戶和欺詐賬戶的類別邊界模糊,嚴(yán)重影響了分類器的檢測(cè)性能。因此,有必要針對(duì)金融賬戶模糊的類別邊界進(jìn)行分析。模糊邊界中的節(jié)點(diǎn)集合主要分為少數(shù)類的異常點(diǎn)和多數(shù)類的異常點(diǎn)。其中,多數(shù)類的異常點(diǎn)作為存在于少數(shù)類內(nèi)部或決策邊界的冗余樣本,是導(dǎo)致決策邊界混亂的重要原因;少數(shù)類的異常點(diǎn)作為少數(shù)類內(nèi)部的稀疏樣本會(huì)導(dǎo)致小雜項(xiàng)的產(chǎn)生,是引發(fā)類內(nèi)不平衡問題的重要原因。
本文借鑒iForest 檢測(cè)異常點(diǎn)的算法思想以及ADASYN 決策邊界樣本合成方法,設(shè)計(jì)一種樣本均衡策略。提出一種基于iForest解決分類不平衡問題的金融欺詐賬戶檢測(cè)框架(iForest-SMOTE),框架主要包括特征抽取、數(shù)據(jù)集均衡、欺詐賬戶檢測(cè)三個(gè)部分。樣本的分類特征提取是影響分類器性能的一個(gè)關(guān)鍵因素,金融數(shù)據(jù)同時(shí)具有網(wǎng)絡(luò)、流式數(shù)據(jù)的特點(diǎn)。因此,為了全面描述賬戶的交易行為,本文分別從靜態(tài)交易信息、交易關(guān)系和交易周期性三個(gè)維度進(jìn)行特征抽取。具體地,本文分別從交易資金、交易網(wǎng)絡(luò)和交易周期三個(gè)維度設(shè)計(jì)銀行賬戶的交易行為特征抽取方法。為了解決類別樣本不均衡問題,提出一種基于iForest 解決非平衡數(shù)據(jù)集的方法。該方法通過iForest對(duì)數(shù)據(jù)集進(jìn)行檢測(cè)以獲取預(yù)處理樣本子集,根據(jù)類別不同對(duì)其采用不同的調(diào)整策略,從而提升欺詐檢測(cè)的性能,具體地,負(fù)采樣多數(shù)類樣本,減輕決策邊界的混亂程度,重采樣少數(shù)類樣本,減少內(nèi)部小雜項(xiàng)的產(chǎn)生,結(jié)合ADASYN 將決策邊界向具有決策影響力的少數(shù)類異常點(diǎn)附近移動(dòng)。在分類器的選擇上,結(jié)合金融數(shù)據(jù)分類特征復(fù)雜、類間不均衡的特點(diǎn),本文采用隨機(jī)森林分類器模型[9]檢測(cè)金融欺詐賬戶。
iForest 是文獻(xiàn)[8]基于樣本集中異常樣本是稀疏且異于正常樣本的兩個(gè)假設(shè)而提出的一種基于孤立點(diǎn)的無監(jiān)督異常檢測(cè)方法,該方法使用二值樹結(jié)構(gòu)(iTree)將每個(gè)實(shí)體轉(zhuǎn)化為樹結(jié)構(gòu)中的孤立節(jié)點(diǎn)?;诋惓|c(diǎn)對(duì)孤立劃分更敏感的理論,通過子采樣使得異常點(diǎn)相對(duì)正常點(diǎn)距離iTree 的root節(jié)點(diǎn)路徑更近。iForest有效解決了異常檢測(cè)中的淹沒效應(yīng)(異常點(diǎn)和正常點(diǎn)的距離很?。┖脱诒涡?yīng)(異常點(diǎn)增多,導(dǎo)致其密度增大),因此,iForest可以快速高效地檢測(cè)離群點(diǎn)。隨后,為將iForest擴(kuò)展到分類、在線異常檢測(cè)和高維數(shù)據(jù)中,研究人員進(jìn)行了一系列探索。文獻(xiàn)[10]將iForest擴(kuò)展到類別數(shù)據(jù)集上,對(duì)用戶日志中體現(xiàn)出的用戶行為模式進(jìn)行異常檢測(cè)。文獻(xiàn)[11]改進(jìn)iForest 中的約束條件,實(shí)現(xiàn)對(duì)多類別正常數(shù)據(jù)中局部聚集異常數(shù)據(jù)集合的檢測(cè),文獻(xiàn)[12]根據(jù)iForest中異常分?jǐn)?shù)的熱圖提出擴(kuò)展隔離森林(EIF),ELF 可以穩(wěn)定高效地對(duì)高維數(shù)據(jù)進(jìn)行異常檢測(cè)。此外,文獻(xiàn)[13]基于iForest 提出一種自適應(yīng)方法,實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)管理系統(tǒng)的快速異常檢測(cè),文獻(xiàn)[14]通過iForest 對(duì)軟件進(jìn)行缺陷預(yù)測(cè)。
針對(duì)金融賬戶數(shù)據(jù),由于正常和欺詐賬戶在金融交易模式上具有一定的相似性,在特征空間中表現(xiàn)為分布在決策區(qū)域附近的樣本密度集中且分布混亂,導(dǎo)致iForest 在樣本密集區(qū)域中檢測(cè)少數(shù)類樣本的效率較低,不能直接用于金融欺詐賬戶檢測(cè)任務(wù)。但是,由于iForest 檢測(cè)出的異常點(diǎn)具有孤立的特性,使得該點(diǎn)在不同類別的決策中具有重要作用,因此iForest 的異常點(diǎn)可用于樣本均衡。
改善數(shù)據(jù)集類別不均衡問題的方法分為數(shù)據(jù)級(jí)別和算法級(jí)別兩類。其中,數(shù)據(jù)級(jí)算法主要包括對(duì)數(shù)據(jù)集進(jìn)行欠采樣和過采樣。在欠采樣方面,文獻(xiàn)[15]將聚類與實(shí)例選擇相結(jié)合對(duì)不均衡數(shù)據(jù)集進(jìn)行欠采樣。上述方法加速了分類過程,但對(duì)數(shù)據(jù)進(jìn)行過度欠抽樣時(shí)將導(dǎo)致提升分類器性能的樣本信息被消除。文獻(xiàn)[16]通過欠采樣技術(shù)去除決策邊界的嘈雜和冗余多數(shù)類實(shí)例,以減少分類器對(duì)分類不平衡的敏感度。在銀行賬戶數(shù)據(jù)集中,一部分多數(shù)類樣本會(huì)成為嘈聲存在于少數(shù)類內(nèi)部或決策邊界,因此,選擇有效的欠采樣技術(shù)有助于排除降低決策的多數(shù)類樣本。過采樣通過增加少數(shù)類樣本以達(dá)到數(shù)據(jù)集平衡,若隨機(jī)復(fù)制樣本有可能降低樣本的泛化能力、加劇少數(shù)類中噪音數(shù)據(jù)對(duì)模型的影響。為此,研究人員通過插值生成人工樣本,擴(kuò)大少數(shù)類的泛化空間。文獻(xiàn)[17]提出SMOTE 技術(shù),插入彼此接近的少數(shù)類樣本以合成新的少數(shù)類樣本,保證新增少數(shù)類樣本的質(zhì)量。然而,SMOTE 為所有實(shí)例賦予相同的權(quán)重,忽略了決策區(qū)附近實(shí)例對(duì)分類的重要性。據(jù)此,文獻(xiàn)[18]提出了borderline-SMOTE1 和borderline-SMOTE2 兩種改進(jìn)方法,然而這兩種方法均只為決策邊界附近的少數(shù)類樣本分配高采樣權(quán)重。文獻(xiàn)[19]提出一種混合采樣的方法,該方法將過采樣技術(shù)SMOTE 與從多數(shù)類中消除歧義樣本的欠采樣技術(shù)相結(jié)合,通過進(jìn)行樣本均衡來解決數(shù)據(jù)集的不平衡問題。另外,文獻(xiàn)[6]提出用于不平衡學(xué)習(xí)的基于密度分布的自適應(yīng)合成采樣方法ADASYN,其將分布在高密度多數(shù)類中的少數(shù)類樣本定義為較難學(xué)習(xí)的樣本,設(shè)計(jì)參數(shù)調(diào)節(jié)較難學(xué)習(xí)的樣本的采樣權(quán)重,從而自定義地合成更多樣本。ADASYN 在改善數(shù)據(jù)集非平衡問題的同時(shí)還可以將分類的決策邊界自適應(yīng)地轉(zhuǎn)移到教難學(xué)習(xí)的樣本上。但是,當(dāng)有大量較難學(xué)習(xí)樣本存在于多數(shù)類內(nèi)部時(shí),ADASYN 會(huì)在合成少數(shù)類樣本時(shí)跨越?jīng)Q策區(qū)域,加劇決策區(qū)域的混亂程度??傮w而言,ADASYN 算法具有較強(qiáng)的泛化能力,通過修改和擴(kuò)展,可用于解決不同場(chǎng)景下的類別不平衡問題。
由于ADASYN 根據(jù)多數(shù)類的密度分布準(zhǔn)則對(duì)少數(shù)類進(jìn)行權(quán)重分配,當(dāng)少數(shù)類樣本分布在多數(shù)類內(nèi)部時(shí),合成樣本會(huì)面臨跨決策邊界合成的風(fēng)險(xiǎn)。金融數(shù)據(jù)的復(fù)雜性導(dǎo)致其類別邊界模糊,直接使用ADASYN 會(huì)加劇決策邊界的混亂程度。金融數(shù)據(jù)中不同類別的異常點(diǎn)具有不同的特性,難以確定其能否對(duì)決策產(chǎn)生正面影響。為了提高欺詐檢測(cè)性能,本文對(duì)不同類別的異常點(diǎn)實(shí)施不同的策略:一方面,將屬于多數(shù)類的異常點(diǎn)(多數(shù)類異常樣本)作為嘈雜樣本,對(duì)該樣本和其附近的多數(shù)類樣本進(jìn)行篩除,以降低決策邊界和少數(shù)類內(nèi)部的混亂程度;另一方面,對(duì)于屬于少數(shù)類的異常點(diǎn)(少數(shù)類異常樣本),借鑒ADASYN 的思想進(jìn)行樣本合成,以在樣本均衡的同時(shí)減少出現(xiàn)小雜項(xiàng)的風(fēng)險(xiǎn),并將少數(shù)類的決策邊界調(diào)整到具有典型性的少數(shù)類樣本附近。
隨機(jī)森林[8]是一種由多棵決策樹組成的集成學(xué)習(xí)模型,隨機(jī)森林在多種分類任務(wù)中相對(duì)其他機(jī)器學(xué)習(xí)算法具有明顯優(yōu)勢(shì),因此受到數(shù)據(jù)分析、知識(shí)管理、模式識(shí)別等眾多領(lǐng)域研究人員的廣泛關(guān)注[20]。在異常檢測(cè)方面,文獻(xiàn)[21]使用兩種不同的隨機(jī)森林算法分別訓(xùn)練正常和欺詐交易的行為特征,檢測(cè)信用卡欺詐行為;文獻(xiàn)[22]提出一種采用交易時(shí)間序列中固有模式對(duì)文件進(jìn)行匯總的欺詐檢測(cè)方法,從而評(píng)估支持向量機(jī)、隨機(jī)森林等多種分類模型,驗(yàn)證了隨機(jī)森林具有高效的檢測(cè)性能。
隨機(jī)森林在金融數(shù)據(jù)分類任務(wù)中具有明顯優(yōu)勢(shì),但非平衡數(shù)據(jù)集引發(fā)的數(shù)據(jù)稀缺、噪聲等問題會(huì)大幅降低分類準(zhǔn)確性。因此,本文提出iForest-SMOTE 框架,對(duì)金融數(shù)據(jù)集進(jìn)行樣本均衡后使用隨機(jī)森林分類器模型實(shí)現(xiàn)欺詐賬戶檢測(cè)。
iForest-SMOTE 框架如圖1 所示。首先,在銀行賬戶交易數(shù)據(jù)集中抽取分類特征,包括交易資金、交易網(wǎng)絡(luò)、交易周期、有監(jiān)督交易行為等特征,從而構(gòu)建樣本特征數(shù)據(jù)集;其次,為解決樣本不均衡問題,利用iForest 進(jìn)行特征數(shù)據(jù)集均衡預(yù)處理,得到異常樣本數(shù)據(jù)集,并針對(duì)其中的多數(shù)類異常樣本、少數(shù)類異常樣本分別設(shè)計(jì)去采樣、過采樣數(shù)據(jù)均衡策略,實(shí)現(xiàn)樣本自適應(yīng)合成以達(dá)到類別數(shù)據(jù)均衡的目的;最后,采用隨機(jī)森林分類器對(duì)類別均衡特征數(shù)據(jù)集進(jìn)行欺詐檢測(cè)。
圖1 iForest-SMOTE 框架Fig.1 The framework of iForest-SMOTE
在詳細(xì)描述iForest-SMOTE 欺詐賬戶檢測(cè)框架之前,本文先給出一些基本的問題說明和定義。
定義1(銀行賬戶數(shù)據(jù)集)一個(gè)銀行賬戶數(shù)據(jù)集表示為D?C×B,其中,C={c1,c2,…,cn}為銀行賬戶數(shù)據(jù)集信息,ci為賬戶i的數(shù)據(jù),集合B={T,F}作為欺詐賬戶檢測(cè)的標(biāo)記集,T和F分別代表欺詐標(biāo)記和正常標(biāo)記,代表賬戶i的標(biāo)記。在數(shù)據(jù)集D中,少數(shù)類記為P={p1,p2,…,ppnum},P?D,且=T,多數(shù)類記為N={n1,n2,…,nnnum},N?D,且=F。
定義2(分類特征集)設(shè)集合C={c1,c2,…,cn}是符合定義1 的銀行賬戶數(shù)據(jù)集,ci的m維分類特征依次定義為交易行為特征值向量(a=1,2,…,lμ)、交易網(wǎng)絡(luò)特征值向量(b=lμ+1,lμ+2,…,lν)、交易周期特征值向量(c=lν+1,lν+2,…,lξ)、有監(jiān)督交易行為特征值向量(d=lξ+1,lξ+2,…,m),由所有ci的交易統(tǒng)計(jì)特征向量構(gòu)成的集合記為銀行賬戶分類特征集。
定義3(iForest 異常標(biāo)記)給定銀行賬戶數(shù)據(jù)集D,其分類特征集為Cxα,采用iForest 對(duì)D進(jìn)行異常檢測(cè)的模型可表示為:
其中,L為iForest 中要選擇 的iTree 數(shù)量,Nw為采樣大小,A={Tspecial,Fspecial}為iForest 對(duì)賬戶的標(biāo)記集,Tspecial和Fspecial分別代表異常和正常標(biāo)記,表示iForest 對(duì)ci的標(biāo)記。
定義4(樣本預(yù)處理)給定標(biāo)記集A,Dspecial?C為C中屬于異常標(biāo)記的預(yù)處理樣本子集,其中,Dspecial滿足如下條件:
定義5(異常樣本集)給定Dspecial,其中,屬于少數(shù)類的樣本組成少數(shù)類異常樣本集Pspecial,屬于多數(shù)類的樣本組成多數(shù)類異常樣本集Nspecial,則Pspecial和Nspecial的數(shù)學(xué)定義如下(P、N詳見定義1):
受到iForest 檢測(cè)出的異常樣本在不同類別中具有不同特性的啟發(fā),本文設(shè)計(jì)一種樣本均衡策略。
多數(shù)類異常點(diǎn)指遠(yuǎn)離多數(shù)類的離群點(diǎn)。文獻(xiàn)[23]采用去采樣多數(shù)類(記為x?Smaj)的方法減弱噪聲數(shù)據(jù)對(duì)分類器的影響。去采樣的核心是確定要篩除的多數(shù)類樣本。遠(yuǎn)離多數(shù)類的離群點(diǎn)會(huì)成為噪聲數(shù)據(jù),致使分類器依據(jù)錯(cuò)誤的樣本學(xué)習(xí)。因此,本文將多數(shù)類異常點(diǎn)作為噪聲源點(diǎn),并將多數(shù)類異常點(diǎn)近鄰的多數(shù)類樣本構(gòu)成的集合作為噪聲簇,將多數(shù)類異常點(diǎn)和其對(duì)應(yīng)的噪聲簇從多數(shù)類中去除。
少數(shù)類異常點(diǎn)指在特征空間中分布稀疏、數(shù)量較少的離群點(diǎn)。過采樣技術(shù)通過對(duì)少數(shù)類(記為Smin)進(jìn)行人工合成數(shù)據(jù),以解決小樣本數(shù)據(jù)不均衡問題。過采樣算法的核心[7]是確定每個(gè)少數(shù)類樣本x?Smin的合成樣本數(shù)量k。ADASYN 首先計(jì)算?xi?Smin在Smaj中的密度分布,并 將作為權(quán)重衡量準(zhǔn)則來確定xi的過采樣次數(shù)ki??梢?值正比于集合S=Si-near⌒Smaj的大小,其中,Si-near為xi的KNN鄰近樣本集,高值樣本分布在多數(shù)類高密度區(qū)域,該樣本在分類器中難以被學(xué)習(xí),因此,ADASYN 根據(jù)值賦予該類樣本更多的過采樣次數(shù),使分類器更加關(guān)注難以學(xué)習(xí)的樣本。
從上述分析可以看出,過采樣通過對(duì)少數(shù)類進(jìn)行樣本合成從而使分類器充分地對(duì)少數(shù)類進(jìn)行學(xué)習(xí),進(jìn)而提升決策性能,去采樣因篩除了噪聲數(shù)據(jù)而提升決策性能,過采樣改善了數(shù)據(jù)集的不平衡性問題。然而,ADASYN 在處理S集合過大或決策邊界混合嚴(yán)重的問題時(shí),會(huì)面臨跨決策區(qū)域合成數(shù)據(jù)的風(fēng)險(xiǎn)。欺詐賬戶的隱蔽性導(dǎo)致金融賬戶數(shù)據(jù)集中存在一定數(shù)量的少數(shù)類樣本分布在決策邊界和多數(shù)類內(nèi)部,使用多數(shù)類的密度分布計(jì)算并合成樣本會(huì)使多數(shù)類內(nèi)部和決策邊界出現(xiàn)大量的少數(shù)類合成數(shù)據(jù),提高了分類器模型錯(cuò)誤地學(xué)習(xí)樣本的幾率并加劇了決策邊界的混亂程度。
為解決上述問題,本文利用異常點(diǎn)在特征空間的密度改進(jìn)ADASYN 中的權(quán)重衡量準(zhǔn)則ri,以提升分類器的欺詐檢測(cè)性能。
在分類框架設(shè)計(jì)時(shí)需要考慮如何表示樣本的類別特征以及避免特征集合冗雜等問題。根據(jù)定義2,銀行賬戶的交易行為可量化為資金特征、網(wǎng)絡(luò)特征、周期特征以及有監(jiān)督的交易特征。
2.3.1 交易資金特征
將賬戶視為單一個(gè)體,其歷史交易數(shù)據(jù)視為靜態(tài)時(shí)序數(shù)據(jù),可從統(tǒng)計(jì)角度表示其交易資金特征,則定義2 中的(a=1,2,…,lμ)具體表示為賬號(hào)i收入和支出兩種交易類型分別對(duì)應(yīng)的資金相關(guān)統(tǒng)計(jì)項(xiàng),如交易金額、交易次數(shù)等,交易資金特征如表1所示。
表1 交易資金特征匯總Table 1 Summary of transaction capital characteristics
2.3.2 交易網(wǎng)絡(luò)特征
賬戶與其直接交易賬戶集合之間的資金流動(dòng)構(gòu)成了自我中心金融關(guān)系網(wǎng)絡(luò),據(jù)此,將賬戶的交易行為轉(zhuǎn)化為一個(gè)局部中心網(wǎng)絡(luò),該網(wǎng)絡(luò)的屬性特征可視為賬戶的交易特征,則定義2中的(b=lμ+1,lμ+2,…,lν)為賬戶i的一階關(guān)系網(wǎng)絡(luò)特征,具體特征項(xiàng)如表2 所示。
表2 交易網(wǎng)絡(luò)特征匯總Table 2 Summary of transaction network characteristics
如表2 所示,(b=lμ+1,lμ+2,…,lν)包括賬戶i的交易入度din、出度dout、根據(jù)進(jìn)出交易對(duì)比得到的賬戶i的黑洞(賬戶轉(zhuǎn)賬遠(yuǎn)大于出賬)和白洞(賬戶出賬遠(yuǎn)大于轉(zhuǎn)賬)節(jié)點(diǎn)標(biāo)記、根據(jù)網(wǎng)絡(luò)計(jì)算出的LeaderRank 值[24]和對(duì)流邊[25]賬戶之間的頻繁交易等特征。
2.3.3 交易行為周期特征
賬戶的交易行為反映了持卡者的社會(huì)經(jīng)濟(jì)活動(dòng),則社會(huì)活動(dòng)的周期性、規(guī)律性也會(huì)體現(xiàn)在交易數(shù)據(jù)上。以一個(gè)月為一個(gè)活動(dòng)周期單位,分析賬戶交易的周期波動(dòng),則賬戶i的交易周期特征(c=lν+1,lν+2,…,lξ)如表3 所示。
2.3.4 有監(jiān)督的交易特征
在異常檢測(cè)任務(wù)中,若將已知的專家知識(shí)量化為分類特征,對(duì)優(yōu)化分類器具有重要作用。這類特征與具體的欺詐類型相關(guān),金融欺詐的實(shí)施方式、欺詐團(tuán)伙的牟利模式、欺詐組織的運(yùn)營方式等,均直接影響有監(jiān)督交易特征的定義和量化。本文以傳銷欺詐組織為例,對(duì)此類特征進(jìn)行說明。傳銷組織的資金流通方式多呈現(xiàn)金字塔形式,會(huì)員費(fèi)(本文稱為申購資金)自底向上流經(jīng)固定的申購賬戶匯集到頂層賬戶;提成(本文稱為返利資金)按比例從頂層經(jīng)由返利賬戶下發(fā)給各會(huì)員。針對(duì)涉及傳銷的賬戶i,其(d=lξ+1,lξ+2,…,m)的各特征分量如表4 所示。
表4 有監(jiān)督的交易特征匯總Table 4 Summary of supervised transaction characteristics
需要指出的是,本文提出的特征為串聯(lián)關(guān)系,因此,若異常檢測(cè)任務(wù)缺乏背景知識(shí)則特征值向量可忽略此類特征。
如上文所述,金融交易數(shù)據(jù)中正常賬戶、欺詐賬戶樣本的不均衡問題,嚴(yán)重影響欺詐賬戶檢測(cè)模型的性能。為此,本文提出一種基于iForest 改善非平衡數(shù)據(jù)集的策略。采用iForest 進(jìn)行異常子集篩選,以獲取銀行賬戶特征數(shù)據(jù)集中的異常樣本集,進(jìn)而將其劃分成多數(shù)類異常樣本和少數(shù)類異常樣本,分別對(duì)上述兩類樣本采用欠采樣和自適應(yīng)生成合成樣本的方式實(shí)現(xiàn)類別均衡。
2.4.1 基于iForest 的異常子集篩選
本文首先對(duì)所構(gòu)建的銀行賬戶特征數(shù)據(jù)集進(jìn)行iForest 異常檢測(cè),為每個(gè)賬戶樣本分配一個(gè)異常賬戶檢測(cè)標(biāo)記,其次根據(jù)樣本的異常檢測(cè)標(biāo)記對(duì)樣本進(jìn)行預(yù)處理,最后根據(jù)預(yù)處理樣本子集中樣本的欺詐標(biāo)記對(duì)樣本進(jìn)行篩選,以獲取少數(shù)類異常樣本集和多數(shù)類異常樣本集。具體過程如下:
1)通過iForest 對(duì)特征數(shù)據(jù)集Cxα進(jìn)行檢測(cè)并得到每個(gè)特征樣本的標(biāo)記集:
2)將標(biāo)記集An中標(biāo)記為Tspecial的樣本加入到Dspecial中,對(duì)于?ci?C,如果=Tspecial,則Dspecial=Dspecial?ci。
3)對(duì)預(yù)處理樣本子集的樣本進(jìn)行篩選:對(duì)于?cj?Dspecial,如 果?cj?N,則Nspecial=Nspecial?cj,如 果?cj?P,則Nspecial=Nspecial?cj。
在具體實(shí)現(xiàn)過程中,分別表示銀行賬戶特征數(shù)據(jù)集、iTree 的數(shù)量、數(shù)據(jù)采樣大小,N、P是符合定義1 的多數(shù)類和少數(shù)類,是符合定義3 中ci樣本的異常標(biāo)記,Dspecial是符合定義4 的預(yù)處理樣本子集,Nspecial和Pspecial分別為符合定義5 的多數(shù)類異常樣本集和少數(shù)類異常樣本集。
2.4.2 多數(shù)類樣本去采樣
本節(jié)將對(duì)2.4.1 節(jié)篩選的多數(shù)類異常樣本進(jìn)行欠采樣處理,以減少嘈聲樣本對(duì)決策的影響,具體過程如下:
1)對(duì)于每一個(gè)多數(shù)類異常樣本ci?Nspecial,計(jì)算距離ci最近并且屬于多數(shù)類的K1個(gè)鄰近樣本ci-near,將ci-near構(gòu)成ci的噪聲簇:
2)將每一個(gè)多數(shù)類異常樣本ci?Nspecial和ci對(duì)應(yīng)的噪聲簇從多數(shù)類N中去除:
樣本之間距離計(jì)算采用歐幾里得距離:
其中,x、y為空間中的任意兩個(gè)樣本,xi和yi為對(duì)應(yīng)的i維度的數(shù)值。
2.4.3 少數(shù)類樣本過采樣
1)計(jì)算需要生成的合成數(shù)據(jù)數(shù)量G:
其中,θ?[0,1]為用戶定義參數(shù),用于指定生成合成數(shù)據(jù)的水平,當(dāng)θ=1 時(shí)將得到完全平衡的樣本集。
2)計(jì)算針對(duì)每個(gè)少數(shù)類樣本pi?P需要合成的數(shù)據(jù)數(shù)量gi,計(jì)算過程如下:
對(duì)于?pi?P,首先計(jì)算距離pi最近的K2個(gè)近鄰樣本構(gòu)成的近鄰樣本集Di-near,其次計(jì)算Di-near中少數(shù)類異常樣本cj?Pspecial所占的比重ri:
3)對(duì)少數(shù)類樣本進(jìn)行樣本合成。對(duì)于每一個(gè)少數(shù)類樣本pi,進(jìn)行g(shù)i次樣本合成,在合成人工數(shù)據(jù)時(shí),本文選擇近似SMOTE[17]中的數(shù)據(jù)合成方法,具體過程如下:
對(duì)每個(gè)少數(shù)類樣本pi進(jìn)行g(shù)i次循環(huán),每次循環(huán)步驟為:
步驟1計(jì)算距離pi最近的K3個(gè)屬于少數(shù)類的近鄰樣本并構(gòu)成近鄰樣本集
步驟2在中隨機(jī)選擇一個(gè)少數(shù)類樣本pzi。
步驟3根據(jù)pzi和pi的特征進(jìn)行人工數(shù)據(jù)合成,合成公式如下:
其中,sxi是合成樣本的特征,pxi和pxzi分別是少數(shù)類樣本pi和pzi符合定義2 對(duì)應(yīng)的特征向量,(pxzi-pxi)為n維空間中特征的差失量,λ是隨機(jī)數(shù),λ?[0,1]。
步驟4賦予合成的特征向量少數(shù)類標(biāo)簽Bsi=T,并將對(duì)應(yīng)的樣本si加入少數(shù)類中,P=P?si。
結(jié)束循環(huán)。
本文通過賦予少數(shù)類異常點(diǎn)和其臨近樣本更高的權(quán)重來調(diào)整合成樣本的數(shù)量,不僅實(shí)現(xiàn)了樣本均衡還降低了跨區(qū)域合成的風(fēng)險(xiǎn),同時(shí)合成的樣本會(huì)提高少數(shù)類異常樣本附近的少數(shù)類密度,降低內(nèi)部小雜項(xiàng)出現(xiàn)的概率,通過合成樣本能夠轉(zhuǎn)移少數(shù)類的決策邊界。
iForest-SMOTE 首先通過對(duì)銀行賬戶數(shù)據(jù)進(jìn)行特征抽取并生成特征數(shù)據(jù)集,再通過銀行特征數(shù)據(jù)集實(shí)現(xiàn)類別均衡,得到樣本均衡數(shù)據(jù)集Dbalance,隨后采用隨機(jī)森林分類模型檢測(cè)欺詐樣本,分類器的輸入為Dbalance中樣本平衡特征數(shù)據(jù)集,輸出為分類模型對(duì)每個(gè)樣本的分類結(jié)果。
本文實(shí)驗(yàn)的硬件環(huán)境為Inter?CoreTMi7-7700HQ,內(nèi)存(RAM)為16 GB。軟件環(huán)境為Python 語言,Windows 10 操作系統(tǒng)。實(shí)驗(yàn)數(shù)據(jù)為由經(jīng)偵部門提供的脫敏資金交易數(shù)據(jù),其中包括正常金融賬戶和欺詐賬戶四年內(nèi)產(chǎn)生的銀行交易數(shù)據(jù),每條交易數(shù)據(jù)包括交易雙方賬戶、交易方向、交易時(shí)間、交易金額等屬性,共涉及賬戶15 633 個(gè),傳銷賬戶為1 303 個(gè)。數(shù)據(jù)集含有總賬戶交易數(shù)據(jù)227 179 條,傳銷賬戶交易數(shù)據(jù)64 630 條。實(shí)驗(yàn)將數(shù)據(jù)轉(zhuǎn)化為7 859 條銀行賬戶數(shù)據(jù),其中屬于少數(shù)類的賬戶數(shù)據(jù)共778 條,屬于多數(shù)類的賬戶數(shù)據(jù)共7 081 條,多數(shù)類和少數(shù)類節(jié)點(diǎn)比為10∶1。隨機(jī)抽取數(shù)據(jù)集中70%的數(shù)據(jù)作為訓(xùn)練集,其余30%的數(shù)據(jù)作為測(cè)試集。
隨機(jī)森林是用于分類和預(yù)測(cè)的組合分類器,分類效果是評(píng)價(jià)分類器性能的典型指標(biāo)。本文使用混淆矩陣作為分類器的性能衡量指標(biāo),混淆矩陣詳見表5。
表5 混淆矩陣Table 5 Confusion matrix
其中,TP 表示真實(shí)值和分類結(jié)果均為欺詐,F(xiàn)N 表示真實(shí)值為欺詐而分類結(jié)果為正常,F(xiàn)P 表示真實(shí)值為正常而分類結(jié)果為欺詐,TN 表示真實(shí)值和分類結(jié)果均為正常。
本文采用準(zhǔn)確率、召回率、精確率、F-value 值評(píng)價(jià)模型的分類效果。準(zhǔn)確率Accuracy 為分類模型所有判斷正確的樣本數(shù)占樣本總數(shù)的比例;召回率Recall 為在模型預(yù)測(cè)為欺詐的樣本集合中,真實(shí)值也為欺詐的樣本數(shù)占所有真正為欺詐的樣本總數(shù)的比例;精確率Precision 為在被模型預(yù)測(cè)為欺詐的所有樣本集合中,真正為欺詐的樣本比例;F-value 值從少數(shù)類的角度綜合評(píng)價(jià)隨機(jī)森林的性能,它是召回率和精確率的組合。
3.3.1 采樣均衡策略評(píng)估
在非平衡數(shù)據(jù)欺詐檢測(cè)問題中,由于欺詐類別屬于少數(shù)類,因此少數(shù)類的分類準(zhǔn)確率對(duì)于評(píng)價(jià)分類模型更有意義,本文采用召回率Recall、精確率Precision、F-value 值等指標(biāo)在少數(shù)類上的平均得分來評(píng)價(jià)不同欺詐檢測(cè)模型的性能。為了驗(yàn)證本文iForest-SMOTE 框架對(duì)不均衡數(shù)據(jù)集的優(yōu)化效果,統(tǒng)一對(duì)不同算法處理后的特征數(shù)據(jù)集采用隨機(jī)森林進(jìn)行欺詐檢測(cè)。特征數(shù)據(jù)集包括分別經(jīng)過隨機(jī)過采樣算法(RamdonOverSampler)、ADASYN 算法、SMOTE算法、iForest-SMOTE 框架處理后的數(shù)據(jù)集以及只進(jìn)行特征提取的數(shù)據(jù)集。隨機(jī)森林對(duì)不同特征數(shù)據(jù)集的檢測(cè)效果如表6 所示。其中,使用下劃線標(biāo)出每項(xiàng)指標(biāo)的最佳取值,并加粗顯示本文算法(iForest-SMOTE)的各項(xiàng)指標(biāo)取值。
表6 不同方法的性能比較結(jié)果Table 6 Performance comparison results of different methods %
由表6 可知,盡管某些算法(如ADASYN)的召回率Recall 指標(biāo)具有較高水平,但其他指標(biāo)大多處于較低的水平,導(dǎo)致綜合指標(biāo)F-value 值偏低。ADASYN 的F-value 值較低說明其存在跨區(qū)域合成樣本的風(fēng)險(xiǎn),不適合用來解決金融數(shù)據(jù)集的非平衡問題。與其他算法相比,本文iForest-SMOTE 模型在召回率和準(zhǔn)確率方面都處于較高的水平,F(xiàn)-value 相比對(duì)比算法至少提升2.13 個(gè)百分點(diǎn)。綜合各項(xiàng)指標(biāo)得出,iForest-SMOTE 框架能夠?yàn)闄z測(cè)模型提供更好的特征集合篩選功能,可以明顯提高分類器的欺詐賬戶檢測(cè)能力。
ROC 曲線可以描述分類器的性能,是針對(duì)不平衡技術(shù)的重要判斷依據(jù),ROC 曲線越靠近左上角表示非平衡技術(shù)越能提升分類器的性能。圖2 所示為金融賬戶數(shù)據(jù)集的ROC 曲線。
圖2 不同分類方法的ROC 曲線Fig.2 ROC curves of different classification methods
從圖2 可以看出,各個(gè)方法的分類性能較為接近,其中,iForest-SOMTE 具有相對(duì)較高的少數(shù)類識(shí)別正確率。ROC 曲線下的面積可以用來度量非平衡分類模型的功效,通常將該度量值稱為AUC,AUC 值介于0 和1 之間,其中,0.5 為隨機(jī)猜測(cè)值。在非平衡數(shù)據(jù)集中,AUC 值更加能夠體現(xiàn)兩個(gè)類別的正確性。不同方法的AUC 值如表7 所示。
表7 不同方法的AUC 值Table 7 AUC values of different methods %
由表7 可知,iForest-SMOTE 具有較高的AUC 值,表明其對(duì)金融不平衡數(shù)據(jù)集具有更好的處理效果。
3.3.2 分類特征重要性評(píng)估
通過隨機(jī)森林對(duì)特征重要性的評(píng)估,可以了解每種特征在構(gòu)建決策模型時(shí)的重要性,這為后續(xù)的特征篩選提供了一定支撐,有利于提高模型的魯棒性。本節(jié)對(duì)提取的每維分類特征在決策中的重要性進(jìn)行評(píng)估。
隨機(jī)森林特征重要性評(píng)估的思想為:比較每個(gè)特征在隨機(jī)森林的所有決策樹上分類貢獻(xiàn)的平均值,然后比較特征之間的貢獻(xiàn)值大小。本文采用基尼指數(shù)評(píng)估重要性,對(duì)于特征xj,計(jì)算在隨機(jī)森林的每一顆決策樹中由特征xj形成的分支節(jié)點(diǎn)的基尼指數(shù)Gini(p)下降程度之和(基尼不純度下降程度)。其中,基尼指數(shù)Gini(p)為:
其中,K代表類別個(gè)數(shù)
特征xj的重要性評(píng)估過程具體如下:
1)計(jì)算特征xj在決策樹中節(jié)點(diǎn)m處的下降程度
其中,Gl和Gr表示在決策樹中節(jié)點(diǎn)m分支前后兩個(gè)新節(jié)點(diǎn)的Gini 指數(shù)。
2)計(jì)算特征xj在決策樹i上的特征重要性:
其中,m為特征xj在決策樹i中出現(xiàn)的節(jié)點(diǎn),M為節(jié)點(diǎn)m的集合。
3)計(jì)算特征xj在隨機(jī)森林中的分類重要性:
其中,n為隨機(jī)森林中的決策樹數(shù)量。
4)對(duì)所有特征的重要性評(píng)分進(jìn)行歸一化處理,特征xj的重要性評(píng)分為:
其中,c為特征的總數(shù)量。
根據(jù)上述方法,本文提取的金融賬戶分類特征集合中每維特征的重要性如圖3 所示,其中,銀行賬戶特征中LeaderRank 值(編號(hào)14)、入度(編號(hào)12)、出度(編號(hào)13)等特征的貢獻(xiàn)占比較高,由此可知,這三個(gè)特征對(duì)辨識(shí)欺詐賬戶尤為關(guān)鍵,表示交易網(wǎng)絡(luò)特征(編號(hào)7~編號(hào)14)對(duì)欺詐賬戶檢測(cè)具有重要作用。此外,銀行賬戶交易資金特征(編號(hào)1~編號(hào)6)的特征貢獻(xiàn)度總體相對(duì)較低,但體現(xiàn)賬戶交易敏感資金和交易敏感次數(shù)的申購返利特征(編號(hào)29~編號(hào)40)具有較高的貢獻(xiàn)占比,說明在傳銷賬戶識(shí)別中,賬戶的申購和返利交易能有效區(qū)分欺詐賬戶和正常賬戶,即有監(jiān)督交易特征在提升欺詐賬戶檢測(cè)性能中具有重要作用。
圖3 分類特征的重要性程度Fig.3 Importance degree of classification features
本文設(shè)計(jì)一種欺詐賬戶檢測(cè)框架iForest-SMOTE。針對(duì)實(shí)際數(shù)據(jù)中欺詐樣本不均衡的問題,結(jié)合iForest 對(duì)異常邊界的識(shí)別能力與ADASYN 對(duì)決策邊界的樣本合成思想,改善分類器的訓(xùn)練數(shù)據(jù)集。分析樣本在交易的時(shí)序、關(guān)系、周期及有監(jiān)督異常行為方面體現(xiàn)出的判別特征,進(jìn)而組合生成分類特征數(shù)據(jù)集。iForest-SMOTE 中的隨機(jī)森林分類模型用于提高分類準(zhǔn)確性并實(shí)現(xiàn)對(duì)各分類特征的重要性評(píng)估。在真實(shí)含有傳銷欺詐賬戶的數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),結(jié)果表明,iForest-SMOTE 在嚴(yán)重不均衡數(shù)據(jù)集中仍能取得較高的識(shí)別準(zhǔn)確率。下一步將在無監(jiān)督的數(shù)據(jù)集上實(shí)現(xiàn)異常邊界調(diào)整,以改進(jìn)無標(biāo)簽非平衡數(shù)據(jù)的異常檢測(cè)效果。