李強(qiáng) 中國建設(shè)銀行股份有限公司重慶總審計室
特約商戶作為銀行卡業(yè)務(wù)運行的一個組成部分,既是信用卡使用和持卡人實現(xiàn)信用卡消費功能的重要場所,又是增加銀行信用卡業(yè)務(wù)的收入的重要支撐點。然而,隨著信用卡業(yè)務(wù)的快速發(fā)展,特約商戶數(shù)量的激增給商業(yè)銀行的特約商戶監(jiān)管帶來了很大的挑戰(zhàn)。商業(yè)銀行一般設(shè)置了特約商戶管理員,然而由于網(wǎng)點工作壓力大、人手緊張等原因,按月對特約商戶進(jìn)行實地檢查的工作往往流于形式①,存在著較多的管理風(fēng)險。為此,本文嘗試采用決策樹的組合算法—隨機(jī)森林算法,通過對交易數(shù)據(jù)的分析和動態(tài)跟蹤,從商業(yè)銀行管理的需要出發(fā)對特約商戶進(jìn)行細(xì)分,對特約商戶區(qū)分對待,對風(fēng)險低、信譽高的特約商戶可以采取抽檢或不定期檢查,從而將監(jiān)管重點放在存在較大風(fēng)險的特約商戶身上,將會更好地提高管理效率、減少管理風(fēng)險。
為了從管理角度構(gòu)建特約商戶細(xì)分決策支持模型,區(qū)分出存在風(fēng)險的特約商戶,需要對特約商戶進(jìn)行特征選擇,即從交易數(shù)據(jù)中提取能反映特約商戶風(fēng)險的特征,然后根據(jù)這些特征建模,通過小樣本數(shù)據(jù)的學(xué)習(xí),構(gòu)建決策模型,通過決策模型判定其它客戶的風(fēng)險特質(zhì),并把具有風(fēng)險特征的客戶名單作為分類管理的基礎(chǔ)?;陂L期對信用卡風(fēng)險特征跟蹤總結(jié)出風(fēng)險特約商戶的主要特征如下:
(1)所有交易中信用卡交易占比較高;
(2)同一張信用卡多次在同一商戶大額交易;
(3)單張信用卡多筆分單交易避開發(fā)卡行控制;
(4)商戶員工在本單位機(jī)具上大額透支交易;
(5)巡檢異常。
而以上特征中前 4 項都與交易數(shù)據(jù)有關(guān),最后一項是管理員例行巡檢時發(fā)現(xiàn)的特約商戶違規(guī)問題。為了能夠從交易數(shù)據(jù)中提取特約商戶風(fēng)險的特征,最終選擇了 10 個指標(biāo)作為識別特約商戶風(fēng)險和細(xì)分特約商戶的主要特征變量,這些特征及說明見表1。
表1 特約商戶風(fēng)險識別的主要特征
基于特約商戶的風(fēng)險特征,本文構(gòu)建了基于隨機(jī)森林學(xué)習(xí)算法的特約商戶的細(xì)分流程模型,詳見圖1。
圖1 特約商戶細(xì)分模型
在這個模型中,之所以選擇隨機(jī)森林學(xué)習(xí)算法,不僅因為該算法具有良好的分類特性,而且因為該算法在分類后能給出每一個特征的重要性,這可以為特約商戶管理提供重要的參考。該模型的工作過程如下:首先利用特約商戶的交易數(shù)據(jù),經(jīng)過匯總統(tǒng)計處理后,生成每個特約商戶的特征指標(biāo),然后利用處理過的小樣本數(shù)據(jù)②,采用隨機(jī)森林算法學(xué)習(xí),構(gòu)建隨機(jī)森林決策樹,形成分類器,然后利用構(gòu)建的隨機(jī)森林決策樹對需要區(qū)分的特約商戶進(jìn)行細(xì)分。
1.數(shù)據(jù)介紹
從某銀行特約商戶中隨機(jī)選擇了 900 戶,然后對這些商戶的交易數(shù)據(jù)進(jìn)行了采集,剔除24個異常數(shù)據(jù)后③,剩余 876 戶數(shù)據(jù),其中,正常商戶780戶,風(fēng)險商戶96 戶④。同時,為了對模型進(jìn)行訓(xùn)練和測試,本研究將以上數(shù)據(jù)劃分為訓(xùn)練集和測試集。其中訓(xùn)練集包含735 戶商戶,測試集包含141戶商戶。
2.實驗結(jié)果
為了了解隨機(jī)森林算法中樹的數(shù)量對分類正確率的影響,分別選擇樹的數(shù)量為10、30、50、100、150、200、250、300、350、400、450 和500,執(zhí)行隨機(jī)森林分類算法構(gòu)建分類器并驗證其在測試集上的正確率,結(jié)果見圖2。
圖2 樹數(shù)量對隨機(jī)森林算法正確率的影響
實驗結(jié)果顯示,隨著樹數(shù)量的增加,隨機(jī)森林算法分類的正確率最終將穩(wěn)定在一定水平上。實驗數(shù)據(jù)的對比顯示,較少的訓(xùn)練數(shù)據(jù)在樹數(shù)量較少時,分類正確率表現(xiàn)出了不穩(wěn)定性,而較多的訓(xùn)練數(shù)據(jù)得到的分類器相對穩(wěn)定,基本上隨著樹數(shù)量的增加,分類的正確率在增加,最終會穩(wěn)定在0.9014上。
3.特約商戶的特征重要性
隨機(jī)森林算法的一個優(yōu)點是,它在訓(xùn)練完后能夠給出哪些特征比較重要。表2是特約商戶消費數(shù)據(jù)訓(xùn)練后的10個特征重要性評價。
表2 特征重要性評價
對于特約商戶來說,最重要的3個特征則是“回頭客單客交易金額”、“單筆交易金額”和“單卡交易金額”,與實際情況相符。值得一提的是,在實際工作中,信用卡客戶比例大的特約商戶其風(fēng)險較高,也就是說這一特征對判斷特約商戶的風(fēng)險性有較大的作用。然而在實驗中,該特征在10個特征的重要性排名是第5名,也只是居于中間水平。原因可能在于獲得的交易數(shù)據(jù)中,有一些卡種類無法判斷是否信用卡,尤其是“他行卡”,這可能對模型結(jié)果產(chǎn)生了重要的影響。
商業(yè)銀行受制于財務(wù)成本、管理成本等的限制,靠增加特約商戶管理員的數(shù)量的方式來實現(xiàn)監(jiān)管顯然是不可能的、也是不可取的。因此,本文嘗試采用數(shù)據(jù)挖掘等先進(jìn)的技術(shù)手段,構(gòu)建特約商戶細(xì)分決策模型。該細(xì)分模型以10 個特征為基礎(chǔ),利用特約商戶的消費交易數(shù)據(jù),采用隨機(jī)森林算法實現(xiàn)特約商戶的分類。實驗結(jié)果證明,在隨機(jī)森林算法的樹數(shù)量與分類預(yù)測正確率的關(guān)系實驗中,發(fā)現(xiàn)隨著決策樹數(shù)量的逐漸增大時,模型的預(yù)測準(zhǔn)確率在增加,在樹數(shù)量超過一定規(guī)模后,準(zhǔn)確率趨于一個穩(wěn)定的值。
基于以上,可實現(xiàn)對特約商戶進(jìn)行有效的區(qū)分,對存在較大風(fēng)險的商戶進(jìn)行重點監(jiān)控和巡檢,而對于其它低風(fēng)險的特約商戶則采用定期或不定期抽查的方式,將會大大降低商業(yè)銀行的管理成本和難度。
需要說明的是,不同類別商戶的風(fēng)險特征可能存在較大的差異,本研究只是針對套現(xiàn)交易嚴(yán)重的一般類商戶,提出了 10 類風(fēng)險特征,這些特征可能并不適合于其它類別的特約商戶。
注釋:
①有的管理員讓商戶到網(wǎng)點在檢查表上蓋章應(yīng)付差事,甚至有的一蓋就是多個月,另外有的管理員(營銷員)和商戶之間存在著利益關(guān)系使得管理員不能真正履行起監(jiān)管的職責(zé)。
②包含了沒有風(fēng)險的和發(fā)現(xiàn)風(fēng)險的特約商戶。
③經(jīng)處理后發(fā)現(xiàn)有 24 個商戶的數(shù)據(jù)存在問題(不存在交易數(shù)據(jù)或交易數(shù)據(jù)存在異常)。
④風(fēng)險商戶是指巡檢發(fā)現(xiàn)異常、銀聯(lián)通報、存在套現(xiàn)交易等情況、確定存在風(fēng)險的商戶,本文基于重慶建行信用卡中心提供比對名單。