趙金濤, 邱雪濤, 何東杰(中國銀聯(lián) 電子支付國家工程實驗室, 上海 201201)
基于GBDT的線上交易欺詐偵測研究
趙金濤, 邱雪濤, 何東杰
(中國銀聯(lián) 電子支付國家工程實驗室, 上海 201201)
隨著銀行卡行業(yè)的迅猛發(fā)展,在帶來海量銀行卡交易的同時,欺詐交易也與之俱增。將GBDT算法應(yīng)用于銀行卡欺詐偵測領(lǐng)域,通過WOE和IV方法對變量進(jìn)行分組處理及篩選,以Bagging的方式對模型進(jìn)行了組合,通過加權(quán)投票方式判斷欺詐交易。實證研究表明,該模型的達(dá)到預(yù)期評價指標(biāo),效果顯著。
GBDT; Bagging; 欺詐偵測
近年來,隨著我國社會經(jīng)濟(jì)的快速發(fā)展和居民消費水平的不斷提高,銀行卡產(chǎn)業(yè)發(fā)展勢頭迅猛。根據(jù)央行公布數(shù)據(jù),2015年我國銀行卡在用發(fā)卡量達(dá)到54.42億張,交易852.29億筆,金額669.82萬億元;銀行卡欺詐率為1.99BP(每萬元中發(fā)生的欺詐金額占比),欺詐損失率為0.13BP。以此計算,我國2015年銀行卡欺詐金額總計1 392.6億元,銀行卡欺詐損失約87億元[1]。而隨著移動支付及互聯(lián)網(wǎng)業(yè)務(wù)的快速發(fā)展,銀行卡欺詐風(fēng)險開始向線上交易轉(zhuǎn)移。相對于傳統(tǒng)欺詐案件,網(wǎng)絡(luò)支付渠道的欺詐表現(xiàn)出犯罪隱蔽、涉案區(qū)域分散、犯罪鏈條長等特點,風(fēng)控難度更大。
由于銀行卡欺詐給銀行、收單機(jī)構(gòu)及銀行卡組織帶來了巨大的風(fēng)險及損失,各機(jī)構(gòu)也積極采取措施進(jìn)行銀行卡欺詐偵測工作。目前,銀行卡欺詐偵測主要有兩種方式,一種是利用業(yè)務(wù)人員的專家經(jīng)驗或者通過統(tǒng)計方法形成規(guī)則或評分方法,然后通過規(guī)則引擎對交易進(jìn)行判別,這種方式形成的規(guī)則結(jié)果解釋性較好,但是嚴(yán)重依賴于專家經(jīng)驗,無法發(fā)現(xiàn)新的欺詐模式;另一種則是采用數(shù)據(jù)挖掘的方式,通過決策樹、神經(jīng)網(wǎng)絡(luò)[2]等算法對歷史交易數(shù)據(jù)進(jìn)行學(xué)習(xí),形成欺詐偵測模型,然后通過模型對交易進(jìn)行判別。這種方式不依賴專家經(jīng)驗,可發(fā)現(xiàn)新的欺詐模式,并且欺詐偵測效果準(zhǔn)確,受到越來越多研究人員的關(guān)注。但是這種方式在實際應(yīng)用中存在著以下問題:1) 樣本數(shù)據(jù)具有嚴(yán)重的不平衡性,欺詐交易占比只有萬分之幾,而這會導(dǎo)致模型趨向于將交易判別為正常交易,影響欺詐偵測效果;2) 傳統(tǒng)的數(shù)據(jù)挖掘方式受限于單機(jī)計算能力,對于大規(guī)模樣本無能為力,降采樣或者抽樣會影響模型效果。
基于上述問題,本文以中國銀聯(lián)的移動支付及互聯(lián)網(wǎng)交易為分析基礎(chǔ),試圖通過數(shù)據(jù)挖掘的方式,使用GBDT(又稱Gradient Boosted Decision Tree或者Grdient Boosted Regression Tree)算法,建立一個更為準(zhǔn)確的銀行卡欺詐偵測模型。
決策樹是傳統(tǒng)的分類方法之一,具有模型結(jié)構(gòu)簡單、易于理解、訓(xùn)練過程快速等優(yōu)點。然而,單棵決策樹在模型的訓(xùn)練過程中容易出現(xiàn)過擬合現(xiàn)象。為了彌補(bǔ)單棵決策樹的缺陷,通常采用集成學(xué)習(xí)的方式,訓(xùn)練一組基分類器,然后通過對每個基分類器給予不同的權(quán)重,共同參與分類預(yù)測。GBDT是一個基于迭代累加的決策樹集成算法,它通過構(gòu)造一組弱的分類器(樹),并把多顆決策樹的結(jié)果累加起來作為最終的預(yù)測輸出。GBDT由回歸樹、Gradient Boosting等兩個主要概念組成,下面逐一進(jìn)行介紹。
(1) 回歸樹
GBDT通常采用CART(Classification And Regression Tree)作為基分類器,CART是由Breiman、Friedman、Olshen和Stone于1984年提出的一種決策樹算法[3],既可以做分類,也可以做回歸,如果目標(biāo)變量是離散變量,則是分類樹,如果目標(biāo)是連續(xù)變量,則是回歸樹。
CART的本質(zhì)是對數(shù)據(jù)進(jìn)行分類,每個節(jié)點會分成2個子節(jié)點,在形成二叉樹的過程中,不斷迭代尋找最佳分割點,最后形成一顆二叉樹。
對于連續(xù)特征X={X1,…,Xn},選擇一個特征Xi(Xi∈X),首先將特征Xi取值升序排序;兩個特征取值之間的平均值點作為可能的分隔點,將數(shù)據(jù)集分成兩部分,計算不純度衡量指標(biāo),根據(jù)不純度衡量指標(biāo)選擇最佳分割點。遍歷所有特征,找到最佳特征及該特征的最佳分割點。樹的生長,總原則是讓子節(jié)點比樹節(jié)點更純,對于回歸樹通常采用最小平方殘差、最小絕對殘差等不純度指標(biāo)衡量。
(2) Gradient Boosting
Boosting 是 Kearns&Valiant 提出的一種分類學(xué)習(xí)方法。首先會為每個訓(xùn)練樣本賦予一樣的權(quán)重值,在每一次迭代進(jìn)行訓(xùn)練模型時,會提高分錯樣本的權(quán)重,降低分對樣本的權(quán)重。然后迭代了N次之后,得到N個弱的分類器,最后集成起來成為一個強(qiáng)分類器。
Gradient Boosting與Boosting的不同點在于,每一次訓(xùn)練的目的是為了減少上一次的殘差,為了不斷的降低殘差,需要在減少殘差的梯度方向訓(xùn)練一個新的模型。Gradient Boosting訓(xùn)練每一個新的模型都是為了模型在之前的模型的殘差在梯度方向上降低。
(1) 數(shù)據(jù)準(zhǔn)備
樣本標(biāo)記
本文以2015年中國銀聯(lián)線上交易數(shù)據(jù)為研究對象,按月份抽取數(shù)據(jù)樣本,銀行卡發(fā)生過欺詐交易,其當(dāng)天所有交易均標(biāo)記為欺詐交易。正常交易與欺詐交易分別標(biāo)記為0和1。正常交易數(shù)量為10億+條記錄,欺詐交易與正常交易比例約為1:10 000。
訓(xùn)練數(shù)據(jù)
本文以2015年1-8月份的抽樣數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)。其中正常交易樣本排除所有發(fā)生過欺詐交易的卡片的交易數(shù)據(jù)。
測試數(shù)據(jù)
本文以2015年9-12月份的全量數(shù)據(jù)作為測試數(shù)據(jù)。
(2) 特征工程
變量生成
按當(dāng)筆交易、同卡號上筆交易、當(dāng)筆交易與上筆交易衍生變量、短時統(tǒng)計量、長時統(tǒng)計量、卡片歷史交易特征等維度,選取了134個征變量。
數(shù)據(jù)清洗
根據(jù)業(yè)務(wù)需求對無意義的變量值賦空:若數(shù)據(jù)中已知某些變量的數(shù)值是無意義的,則需將該類數(shù)值置為空值,避免影響后續(xù)的計算。例如:后臺商戶的IP地址和IP所屬省、市。
數(shù)據(jù)分組(WOE值及IV值計算)
WOE(Weight of Evidence)值可以衡量自變量取值對目標(biāo)變量的一種影響,可以通過WOE值的計算對自變量進(jìn)行離散化編碼[4]。
對數(shù)值型變量的分組,根據(jù)變量數(shù)值大小,將建模樣本分割為10組或20組,每組樣本個數(shù)盡量相近,計算每組的WOE值,為式(1)。
(1)
其中Gi、Bi分別代表第i個分組內(nèi)正常交易及欺詐交易的數(shù)量;G、B分別代表總體正常交易及欺詐交易的數(shù)量。
對字符型變量的分組,根據(jù)變量的不同值,將建模樣本分組,計算每組的WOE值。
IV(Information Value)值代表某一個變量的信息量,是該變量的各個特征的WOE值的加權(quán)總和,IV值代表了該變量區(qū)分目標(biāo)變的能力,為式(2)。
(2)
同時可以根據(jù)IV值的取值來進(jìn)行變量的篩選。
IV值變量預(yù)測能力IV<0.02無0.02≤IV<0.1弱0.1≤IV<0.3中等0.3≤IV<0.5強(qiáng)IV≥0.5強(qiáng)有力
(3) 建模過程
本文將訓(xùn)練及測試數(shù)據(jù)存放于Hive表中,通過Spark SQL讀取數(shù)據(jù),然后通過Spark MLlib 的Pipeline將數(shù)據(jù)處理、模型訓(xùn)練及測試等步驟封裝起來。其中算法采用Spark MLlib中的GBDT算法。
為了提升模型效果,我們采用Bagging的方式訓(xùn)練模型及并進(jìn)行測試,即對正常樣本有放回的采樣并進(jìn)行訓(xùn)練得到多個模型,然后通過多個模型以投票的方式?jīng)Q定交易是正常交易還是欺詐交易。
(4) 實證結(jié)果分析
這里將銀行卡欺詐偵測問題歸結(jié)為一個分類問題,采用欺詐交易的覆蓋率、準(zhǔn)確率以及F1值作為模型的評價指標(biāo),為式(3)~(5)。
(3)
(5)
測試場景1
采用2015年1-8月的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),分別以單個模型以及Bagging的方式對2015年9月份的數(shù)據(jù)進(jìn)行測試,其中Bagging方式采用20個模型參與投票預(yù)測。測試結(jié)果如表1所示。
表1 單個模型與Bagging方式測試結(jié)果對比
上表數(shù)據(jù)表明,在同等條件下, 通過Bagging方式形成的組合模型在覆蓋率、準(zhǔn)確率、F1值等指標(biāo)上均超越單個模型,也進(jìn)一步說明Bagging對提升模型效果的有效性。
測試場景2
采用2015年1-8月的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),以Bagging的方式分別對2015年9-12月份的數(shù)據(jù)進(jìn)行測試,其中Bagging方式采用20個模型參與投票預(yù)測。測試結(jié)果如表2所示。
表2 同一模型對不同數(shù)據(jù)的測試結(jié)果對比
上表數(shù)據(jù)表明,模型的分類效果存在著不穩(wěn)定性,分類效果隨時間呈下降趨勢。
測試場景3
分別以2015年1-8月、2015年1-9月、2015年1-10月的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),以Bagging的方式分別對2015年11月份的數(shù)據(jù)進(jìn)行測試,其中Bagging方式采用20個模型進(jìn)行參與投票預(yù)測。測試結(jié)果,如表3所示。
表3 不同訓(xùn)練數(shù)據(jù)對同一測試數(shù)據(jù)的測試結(jié)果對比
上表數(shù)據(jù)表明,訓(xùn)練樣本數(shù)據(jù)越多,在時間維度上越接近測試數(shù)據(jù),模型的分類效果越好,分類結(jié)果也越準(zhǔn)確。
實證研究表明,本文基于GBDT建立的線上交易欺詐偵測模型可以很好的檢測欺詐交易,通過以Bagging方式將多個弱分類器組合成一個強(qiáng)分類器,對于模型有著很好的提升效果;研究同時表明隨著時間的推移, 模型穩(wěn)定性及分類能力呈下降趨勢,為了避免這種情況,需要定期將最新的欺詐樣本參與模型訓(xùn)練,以保證模型的穩(wěn)定性及準(zhǔn)確性。
[1] 人民銀行有關(guān)負(fù)責(zé)人答記者問:http://www.pbc.gov.cn/goutongjiaoliu/113456/113469/3139454/index.html.
[2] 童鳳茹.基于組合分類器的信用卡欺詐識別研究[J].計算機(jī)與信息技術(shù),2006(7):10-12.
[3] Breiman L J H, Friedman R A, Olshen C J Stone. Classification and Regression Trees[M]. New York: Chapman and Hall, 1984.
[4] 闞士行.商業(yè)銀行信用評級篩選財務(wù)指標(biāo)方法效果對比與校驗[D].濟(jì)南:山東大學(xué),2010.
ResearchonOnlineTransactionFraudDetectionBasedonGBDT
Zhao Jintao, Qiu Xuetao, He Dongjie
(National Engineering Laboratory for Electronic Commerce and Electronic Payment, China UnionPay, Shanghai 201201)
The rapid development of bank card industry brought huge amounts of transactions, and fraud transactions also increased. This paper applied GBDT to the field of bank card fraud detection. It grouped data and filtered variables by the methods of WOE and IV, and then combined models by the strategy of Bagging and finally judged whether a transaction was a fraud transaction by a weighted voting algorithm. The empirical study shows that the model could achieve the expected evaluation index, and the effect was significant.
GBDT; Bagging; Fraud detection
TP181
A
2017.04.10)
上海市青年科技英才楊帆計劃資助(17YF1425800)
趙金濤(1985-),男,碩士,研究員,研究方向:大數(shù)據(jù)、風(fēng)險防控。
邱雪濤(1981-),男,碩士,經(jīng)理,研究方向:大數(shù)據(jù)、風(fēng)險防控。
何東杰(1984-),男,碩士,經(jīng)理,研究方向:大數(shù)據(jù)、云計算。
1007-757X(2017)10-0017-02