武建奇,何 姝
(1.河北大學(xué)經(jīng)濟學(xué)院,河北 保定071000;2.河北經(jīng)貿(mào)大學(xué)馬克思主義學(xué)院,河北 石家莊050061)
互聯(lián)網(wǎng)貸款是一類利用互聯(lián)網(wǎng)及相關(guān)信息技術(shù)提供金融產(chǎn)品和服務(wù)的模式,從信用卡、現(xiàn)金卡到消費信貸,互聯(lián)網(wǎng)貸款正在以一種非常迅猛的勢頭在全國范圍內(nèi)興起?;ヂ?lián)網(wǎng)貸款業(yè)務(wù)的不斷擴增,吸引了包括商業(yè)銀行、消費金融公司、電商在內(nèi)的各類機構(gòu)紛紛入市,客戶信用也隨之膨脹。為了能夠搶攻市場,精準(zhǔn)快速識別客戶風(fēng)險,互聯(lián)網(wǎng)貸款機構(gòu)面臨嚴(yán)峻挑戰(zhàn)。
互聯(lián)網(wǎng)貸款的信用風(fēng)險來源主要有延滯繳款和欺詐兩大類。發(fā)軔于商業(yè)銀行自身經(jīng)歷經(jīng)驗的信用評估打分體系,能夠針對客戶延滯繳款風(fēng)險進行較為有效的識別和監(jiān)控,已經(jīng)在業(yè)內(nèi)普遍運用并達到良好的效果。相比之下,由于互聯(lián)網(wǎng)貸款從營銷到借款人申請貸款,再到風(fēng)控審核全流程均在網(wǎng)絡(luò)操作,不再進行線下調(diào)查,比傳統(tǒng)貸對客戶履約約束力款弱,因此易偽裝且識別難度更高,為騙貸者提供可乘之機,導(dǎo)致互聯(lián)網(wǎng)騙貸現(xiàn)象頻發(fā),造成銀行等貸款機構(gòu)的巨額損失和社會資源的浪費。
互聯(lián)網(wǎng)貸款欺詐又稱互聯(lián)網(wǎng)騙貸,是指在互聯(lián)網(wǎng)貸款活動過程中由于借款人惡意騙貸而可能導(dǎo)致貸款人發(fā)生經(jīng)濟損失的行為。欺詐風(fēng)險是互聯(lián)網(wǎng)騙貸最主要的來源,因此反欺詐是互聯(lián)網(wǎng)貸款必不可少的部分。已有文獻關(guān)于信貸業(yè)務(wù)欺詐風(fēng)險的研究成果主要涉及兩方面:一是研究整個欺詐風(fēng)險管理體系的設(shè)計,如黎江(2007)建議建立統(tǒng)一的欺詐風(fēng)險管理平臺對銀行運營作業(yè)進行監(jiān)測;張韋韋(2017)提出引進智能化反欺詐技術(shù)實現(xiàn)商業(yè)銀行信貸反欺詐智能化管理;羅夏蕾(2018)分析了花旗等銀行的外部欺詐風(fēng)險防控體系,提出通過建立欺詐案件信息庫和資源共享機制提升銀行風(fēng)險識別、評估能力。二是研究對欺詐風(fēng)險進行測算或估計方法,如周銘(2007)改進BP 神經(jīng)網(wǎng)絡(luò)通用模型,使其通過交易數(shù)據(jù)學(xué)習(xí)可以完成銀行卡欺詐交易偵測;楊璽(2008)討論了風(fēng)險檢測試驗系統(tǒng)結(jié)構(gòu),認為在信用卡欺詐檢測中SVM 模型性能高于ID3+BP 混合模型。上述研究成果尚缺乏互聯(lián)網(wǎng)信貸欺詐風(fēng)險形成機理研究,對欺詐風(fēng)險估計主要針對信用卡業(yè)務(wù)且實施條件苛刻,不適用于互聯(lián)網(wǎng)信貸。李國義雖研究了互聯(lián)網(wǎng)金融中的信用風(fēng)險形成機理,分析了信用風(fēng)險從醞釀、累積到事故發(fā)生的全過程,但其研究成果沒有考慮互聯(lián)網(wǎng)騙貸欺詐風(fēng)險形成環(huán)境的特殊性。
總結(jié)前人的研究成果,可以加深對互聯(lián)網(wǎng)貸款欺詐風(fēng)險的認知,得以重新審視互聯(lián)網(wǎng)貸款風(fēng)險管理及反欺詐的定位與價值。與傳統(tǒng)貸款業(yè)務(wù)相比,多數(shù)互聯(lián)網(wǎng)貸款機構(gòu)直接生長于新的互聯(lián)網(wǎng)技術(shù)環(huán)境,比較接近對大數(shù)據(jù)資源的開發(fā)利用,可以依托大數(shù)據(jù)對互聯(lián)網(wǎng)騙貸形式進行調(diào)研,發(fā)掘出互聯(lián)網(wǎng)貸款欺詐特點,梳理出欺詐風(fēng)險形成機理,繼而借助人工智能技術(shù),結(jié)合互聯(lián)網(wǎng)貸款場景和數(shù)據(jù)進行精細化的反欺詐設(shè)計。
互聯(lián)網(wǎng)貸款業(yè)務(wù)欺詐風(fēng)險主要來源于合作商戶和借款客戶,因此互聯(lián)網(wǎng)貸款欺詐風(fēng)險包括商戶欺詐風(fēng)險和客戶欺詐風(fēng)險。
商戶欺詐風(fēng)險是一種集中欺詐風(fēng)險,一般出現(xiàn)在代付類互聯(lián)網(wǎng)消費信貸業(yè)務(wù)中,表現(xiàn)為兩種模式:一種是商戶本身是騙貸類機構(gòu),通過注冊空殼公司、構(gòu)造虛假資料的方式騙取信貸機構(gòu)的合作,然后召集專業(yè)騙貸從業(yè)者(以下簡稱黑產(chǎn)) 或者虛構(gòu)借款人向信貸機構(gòu)騙貸;另一種模式是商戶作為中介撮合騙貸,商戶提交的資質(zhì)材料雖然都是真實的,但是已經(jīng)淪為騙貸客戶的集合地,商戶和借款人共謀騙貸。這兩種騙貸模式雖然略有不同,但都屬于群體欺詐,在還款表現(xiàn)方面基本一致,都呈現(xiàn)了銀商合作開始后,大量涌入借款客戶,并在短期內(nèi)集中出現(xiàn)客戶違約、失聯(lián)的情況。
客戶欺詐風(fēng)險是指客戶自身的騙貸風(fēng)險,是一種分散欺詐風(fēng)險。線下傳統(tǒng)貸款業(yè)務(wù)中客戶欺詐風(fēng)險較小,但隨著信貸業(yè)務(wù)從線下向線上遷移,客戶騙貸手段多樣,有兩種模式:一種是純個人騙貸,客戶本人有騙貸的想法,通過填報夸大的或是虛假的進件材料騙過信貸機構(gòu)獲取貸款,其本質(zhì)是個體欺詐風(fēng)險;另一種是客戶在親友、老鄉(xiāng)的教唆誘導(dǎo)下盲從騙貸,呈現(xiàn)典型的“家族騙貸”網(wǎng)絡(luò)關(guān)系。這兩種騙貸行為的主謀都是客戶,與商戶無明顯的必然性,貸后多表現(xiàn)為客戶從首次還款賬期開始就拒不還款,后者還會呈現(xiàn)出社交網(wǎng)絡(luò)關(guān)系高度重疊的現(xiàn)象。
表1 列舉了互聯(lián)網(wǎng)貸款中常見的欺詐模式及其表現(xiàn)形式。
表1 互聯(lián)網(wǎng)貸款常見的欺詐模式及表現(xiàn)形式示例
一是隱蔽性強。傳統(tǒng)貸款業(yè)務(wù)是在線下場所辦理相關(guān)手續(xù),信貸機構(gòu)可以在現(xiàn)場查看是否借款人本人申請借款,可以通過盡職調(diào)查了解借款人的實力,欺詐風(fēng)險易于暴露?;ヂ?lián)網(wǎng)信貸中,借貸雙方通過網(wǎng)絡(luò)交換信息,借款人隱藏不利于自己借款的各種信息,借貸雙方信息不對稱為欺詐客戶提供了庇護。
二是低頻高損失?;ヂ?lián)網(wǎng)信貸業(yè)務(wù)中欺詐行為發(fā)生概率低于非欺詐違約發(fā)生概率,但欺詐事件一旦發(fā)生,往往追償無果,造成貸款本金全額損失。例如某互聯(lián)網(wǎng)金融公司數(shù)碼分期消費信貸業(yè)務(wù)上線反欺詐模型之前,總違約率為11.6%,造成總損失1759 萬元,其中欺詐事件發(fā)生率為2%,造成了576 萬元的經(jīng)濟損失;非欺詐違約發(fā)生率為9.6%,造成的損失為1183 萬元,欺詐發(fā)生率是總違約率的五分之一,但是卻貢獻了總損失的三分之一。
三是存在破窗效應(yīng)。由于傳統(tǒng)信貸會進行線下調(diào)查,欺詐風(fēng)險易于暴露和防范,因此外部欺詐行為通常是零星分散出現(xiàn)?;ヂ?lián)網(wǎng)信貸既無抵押又無擔(dān)保加上信息不對稱,欺詐成本大幅度降低,吸引了一些有欺詐意圖的客戶。這些客戶騙貸成功后,會鼓動親友或召集他人繼續(xù)騙貸,甚至投靠黑產(chǎn)經(jīng)過包裝擴大團伙。
按照互聯(lián)網(wǎng)貸款欺詐來源和表現(xiàn),可以把欺詐事件分為個體欺詐和群體欺詐兩類。個體欺詐的欺詐風(fēng)險形成通常經(jīng)歷欺詐醞釀、欺詐發(fā)生兩個步驟,群體欺詐的形成過程是一個由欺詐醞釀、欺詐發(fā)生、欺詐傳播構(gòu)成的閉環(huán)。
欺詐醞釀是欺詐意圖萌芽到形成的過程。根據(jù)欺詐意圖形成時間可以將欺詐醞釀分為貸前欺詐醞釀和貸中欺詐醞釀。貸前欺詐醞釀是欺詐意圖形成于貸款合約簽訂之前,這種欺詐是主觀欺詐,借款人毫無還款意愿。貸前欺詐意圖有兩種情況:一種是借款人對互聯(lián)網(wǎng)貸款風(fēng)控較為了解,知道互聯(lián)網(wǎng)貸款依托于便利性和低風(fēng)控成本存活,認為貸款機構(gòu)對欺詐風(fēng)險識別能力不足,通過包裝申請資料可以很容易通過風(fēng)控審查,并且貸款機構(gòu)對騙貸案件貸后處置能力弱,即使自己違約也未必遭受懲罰,隨即萌生了欺詐意圖,并且在搜集目標(biāo)貸款機構(gòu)的進件材料和風(fēng)控偏好的過程中,確認了目標(biāo)貸款機構(gòu)符合前期預(yù)測,欺詐意圖完全形成。另一種是借款人法律知識淡薄,對互聯(lián)網(wǎng)信貸產(chǎn)品和風(fēng)控不甚了解,對違約懲罰亦不清楚,但看到周圍親友騙貸成功,認為有一種操作簡易、中介費低卻可以獲得大額現(xiàn)金的方式,在他人煽動下欺詐意圖不斷強化,決定效仿他人進行騙貸。貸中欺詐醞釀按照欺詐意愿形成的原因,也可分為兩種情況:一是借款人申請貸款的時候本沒有欺詐意圖,但是在申請貸款后由于財務(wù)狀況惡化,從而產(chǎn)生欺詐違約故意;二是借款人向多家信貸機構(gòu)借款,借新債換舊債,在循環(huán)貸過程中,借款人明知存在無法借到新的貸款用于償還本次貸款的可能,仍然提交貸款申請,循環(huán)一旦打破,本次貸款欺詐醞釀就形成了。
欺詐發(fā)生是指借款人因欺詐心理而違約,導(dǎo)致信貸機構(gòu)遭受經(jīng)濟損失。如果說欺詐醞釀是借款人違約心理承受能力逐漸強化的過程,那么欺詐事件發(fā)生就是借款人將欺詐意圖付諸實踐的過程。在互聯(lián)網(wǎng)信貸業(yè)務(wù)中,各家信貸機構(gòu)都會在貸款到期還款日前向借款人發(fā)出還款提醒,借款人此時會再次對自己的履約能力和違約后果進行評估,如果經(jīng)過評估借款人違約心理承受能力不變或者更強,借款人就會真正的實施欺詐。
欺詐傳播是指借款人在實施騙貸不當(dāng)獲利后向他人鼓吹騙貸,或者他人效仿借款人進行騙貸的過程。與傳統(tǒng)信貸多發(fā)生內(nèi)外勾結(jié)騙貸不同,互聯(lián)網(wǎng)信貸中家族騙貸、區(qū)域騙貸的現(xiàn)象十分明顯,這主要是因為互聯(lián)網(wǎng)信貸欺詐傳播的途徑特殊有兩種:一種是親密聯(lián)系人傳播,這是典型的家族騙貸的傳播途徑。一個借款人騙貸成功后,會向親友推薦信貸產(chǎn)品,親友作為借款人經(jīng)歷欺詐醞釀和欺詐發(fā)生;另一種是黑產(chǎn)數(shù)據(jù)共享,互聯(lián)網(wǎng)騙貸產(chǎn)業(yè)幾乎與互聯(lián)網(wǎng)信貸產(chǎn)業(yè)同時起步,經(jīng)過幾年的發(fā)展,黑產(chǎn)也織出了一張信息網(wǎng),黑產(chǎn)之間信息互通、數(shù)據(jù)共享,一家黑產(chǎn)騙貸實施成功后,會招來多家黑產(chǎn)入市。實際業(yè)務(wù)中欺詐傳播有兩個特點:一是欺詐傳播不具有方向性,通常是發(fā)散性的傳播,即借款人在可傳播范圍內(nèi)不會指向性地選擇特定對象傳播,可能傳播給親人也可能傳播給同事或者同學(xué),傳播給誰主要取決于雙方的親密度;二是欺詐傳播距離短,主要是親密的一度關(guān)聯(lián)人(自己直接可以聯(lián)系到的人),一般不會超過二度關(guān)聯(lián)人(一度關(guān)聯(lián)人的直接聯(lián)系人)。
個體欺詐要完成從欺詐醞釀到欺詐發(fā)生的過程,至少要具備以下三項條件:第一,信息不對稱。信息不對稱是欺詐意圖能夠付諸實際的先決條件。正是由于互聯(lián)網(wǎng)信貸采集到的借款人信息量和維度有限,借款人成了信息優(yōu)勢一方,互聯(lián)網(wǎng)信貸機構(gòu)成了信息劣勢一方,具有信息優(yōu)勢的借款人就會利用這種優(yōu)勢促成欺詐醞釀和欺詐發(fā)生;第二,借款人誠信觀念淡薄且缺乏自我約束力。我國誠信體制建設(shè)比較晚,對失信處罰制度尚不完善,講誠信的宣傳力度和普及程度也還不高,一些人誠信觀念淡薄,對失信后果了解不夠,為了一點蠅頭小利就無法自制;第三,信貸機構(gòu)風(fēng)控能力不足。欺詐意圖之所以能夠演變成欺詐事件,信貸機構(gòu)應(yīng)當(dāng)認識到自身風(fēng)控存在漏洞,現(xiàn)有風(fēng)控能力有待提升。雖然互聯(lián)網(wǎng)信貸不再進行線下盡調(diào),但是反欺詐工作仍不容忽視,盡管各家信貸機構(gòu)都會詳細列出借款人申請貸款所需的進件材料,會對進件材料進行反欺詐審核,但是反欺詐工作不能固化,信貸機構(gòu)需要跟蹤欺詐模式的變化,持續(xù)優(yōu)化反欺詐模型,否則就易積累欺詐風(fēng)險。
群體欺詐風(fēng)險的形成,除了個體欺詐必備的三個條件外,還需要具有傳播途徑。傳播途徑的載體可以是電話,可以是工作單位,也可以是虛擬環(huán)境,只要可以讓借款人和關(guān)聯(lián)人產(chǎn)生交集的方法都能成為欺詐傳播的途徑。
互聯(lián)網(wǎng)貸款欺詐風(fēng)險量化評估應(yīng)著眼于欺詐風(fēng)險的表現(xiàn)形式和形成條件,只有基于欺詐風(fēng)險的表現(xiàn)形式設(shè)計量化評估方案才能有的放矢,只有基于欺詐風(fēng)險的形成條件建立量化評估體系才能精準(zhǔn)有效。
通過分析欺詐風(fēng)險表現(xiàn)形式和表1,可以看出“構(gòu)造虛假交易”、“中介撮合騙貸”、“黑產(chǎn)‘?dāng)]口子’”、“客戶本人騙貸”這幾種模式下,欺詐客戶信息都與正??蛻舻男袨楹圹E不同,因此通過識別客戶個體與眾不同的行為,有助于信貸機構(gòu)判定欺詐風(fēng)險程度。通過表1,還能發(fā)現(xiàn)“空殼公司騙貸”、“構(gòu)造虛假交易”模式下,欺詐商戶表現(xiàn)異常,因此對商戶行為痕跡的分析也應(yīng)納入欺詐風(fēng)險量化評估的范疇內(nèi)。
通過分析欺詐風(fēng)險的形成條件,必須盡可能的識別出風(fēng)險形成條件成熟度,并加以破壞,才能最大限度的扼殺欺詐風(fēng)險。這意味著信貸機構(gòu)需要獲取更多更有效的金融數(shù)據(jù)、采用更先進智能的算法構(gòu)建反欺詐模型和向借款人做好違約后果警示。在獲取更多借款人金融數(shù)據(jù)方面,信貸機構(gòu)不僅要全面收集借款人的基本信息、資產(chǎn)信息、朋友圈信息、設(shè)備指紋信息,還應(yīng)引進網(wǎng)絡(luò)征信以便了解借款人的共債情況和歷史還款記錄。在反欺詐模型優(yōu)化方面,信貸機構(gòu)既要識別客戶行為痕跡,也要審查商戶行為痕跡,還要考慮客戶的社會關(guān)系網(wǎng)絡(luò),社交圖譜技術(shù)用于群體反欺詐是非常有效的。
綜上,在互聯(lián)網(wǎng)貸款欺詐風(fēng)險量化評估中,應(yīng)該以個體欺詐風(fēng)險估計為根本,重點考察客戶資產(chǎn)、朋友圈、設(shè)備指紋、網(wǎng)絡(luò)征信是否存在異常。以社會關(guān)系圖譜為補充,看客戶親密關(guān)聯(lián)人是否有欺詐歷史,并用商戶行為痕跡輔助群體欺詐偵測。
建立互聯(lián)網(wǎng)信貸量化評估模型至少需要五個步驟:數(shù)據(jù)采集、數(shù)據(jù)探索、特征工程、模型訓(xùn)練、模型測試與評估。
在數(shù)據(jù)采集階段,信貸機構(gòu)要明確數(shù)據(jù)采集范圍和維度,在獲得客戶授權(quán)的情況下,盡可能全面的采集到客戶個人基本信息、運營商通話記錄、通訊錄數(shù)據(jù)、設(shè)備類型、物理地址、虛擬地址、網(wǎng)絡(luò)借貸數(shù)據(jù),與此同時從人民銀行、法院、工商總局等多個數(shù)據(jù)源收集犯罪信息或不良記錄,然后將從客戶采集到的數(shù)據(jù)、公檢法等機構(gòu)采集到的數(shù)據(jù)以及信貸機構(gòu)自有交易日志等數(shù)據(jù)進行整合,形成一份維度廣、數(shù)據(jù)豐富的能夠全面反映客戶金融屬性的寬表。
所有采集到的數(shù)據(jù)到目前為止還是碎片化的,要想讓數(shù)據(jù)“說話”就需要對數(shù)據(jù)進行探索分析。信貸機構(gòu)應(yīng)建立數(shù)據(jù)集市,將采集到的數(shù)據(jù)按照呈現(xiàn)形式分為客戶信息、商戶信息、訂單信息、日志記錄等類別,按照金融屬性分為客戶基本信息、地址信息、設(shè)備信息、認證信息、征信信息等類別,按照時間將交易數(shù)據(jù)劃分為貸前材料、貸中數(shù)據(jù)、還款表現(xiàn)等類別進行統(tǒng)計,分析各個統(tǒng)計變量的分布情況,觀察是否呈現(xiàn)兩端異常分布特征、計算離群值比例,嘗試描述客戶特征,建立客戶畫像。
特征工程是指在對客戶、商戶、交易、環(huán)境等數(shù)據(jù)進行深入分析基礎(chǔ)之上,挑選出能夠在一定程度上反映欺詐風(fēng)險的特征變量。特征工程是建立欺詐風(fēng)險量化評估模型的必要工作,如果使用過多的特征變量訓(xùn)練模型,訓(xùn)練數(shù)據(jù)量龐大,運算效率會很低,甚至?xí)霈F(xiàn)過擬合的結(jié)果,導(dǎo)致模型泛化能力低,不能在實際工作中使用,使量化模型失去了現(xiàn)實意義。特征工程承接數(shù)據(jù)探索,以特征構(gòu)造為開端,以特征選擇為核心。特征構(gòu)造可以采用矩陣衍生、生成稀松變量、社交圖譜轉(zhuǎn)化等方式,構(gòu)造后的特征要注意進行歸一化或標(biāo)準(zhǔn)化轉(zhuǎn)換。
表2 混淆矩陣
欺詐風(fēng)險評估模型的訓(xùn)練與互聯(lián)網(wǎng)信貸信用風(fēng)險評估模型的訓(xùn)練區(qū)別很大,這是由風(fēng)險特點決定的。信用風(fēng)險通常呈現(xiàn)高頻低損失的特點,而欺詐風(fēng)險呈現(xiàn)明顯的低頻高損失特點,這就意味著真正業(yè)務(wù)數(shù)據(jù)中欺詐案例占比極少,欺詐數(shù)據(jù)與正常數(shù)據(jù)之間比例懸殊,對于比例過于懸殊的非平衡樣本,如果使用信用風(fēng)險評估常用的邏輯回歸、決策樹等有監(jiān)督算法進行訓(xùn)練,效果極不理想。所以,近幾年互聯(lián)網(wǎng)信貸機構(gòu)紛紛轉(zhuǎn)向聚類、孤立森林等無監(jiān)督學(xué)習(xí),尋求通過異常檢測佐以社交圖譜關(guān)聯(lián)度的方式剝離出異常的欺詐嫌疑較高的客戶。
模型訓(xùn)練是一個多次反復(fù)的過程,每個模型訓(xùn)練完成后都要對模型進行測試和評估,使用測試樣本對模型性能進行評估,測試樣本預(yù)測結(jié)果生成混淆矩陣,如表2 所示。通過混淆矩陣可以計算準(zhǔn)確率(ACC)、召回率(TPR)和存?zhèn)温?FPR),通過這三個指標(biāo)可以評價欺詐風(fēng)險評估模型的性能。其中,準(zhǔn)確率ACC=(TP+TN)/(TP+FN+FP+TN),反映模型對欺詐客戶和正常客戶區(qū)分能力和精確程度,ACC 值越高說明模型越精確;召回率TPR=TP/(TP+FN),反映模型對欺詐客戶的識別能力,ACC 越高說明偵測到的欺詐客戶越多,漏網(wǎng)之魚越少;存?zhèn)温蔉PR=FP/(FP+TN),反映在預(yù)測為欺詐的客戶中誤判的比例,F(xiàn)PR 越低說明錯判的客戶越少,對正??蛻舻母蓴_越小。在實際運用中,首先要關(guān)注準(zhǔn)確率,準(zhǔn)確率只有高過一定值,模型才有價值。然后要綜合考慮TPR 和FPR,由于欺詐具有低頻高損失的特點,互聯(lián)網(wǎng)信貸機構(gòu)應(yīng)本著非常謹慎的風(fēng)控原則,最大限度地偵測出欺詐可能性,即當(dāng)兩個模型FPR 水平相當(dāng)?shù)那闆r下TPR更大的那個模型更優(yōu)。
群體欺詐風(fēng)險的度量建立在社會關(guān)系圖譜基礎(chǔ)上,社會關(guān)系圖譜假設(shè)人與人之間是有聯(lián)系的并且可以從現(xiàn)有特征或者衍生特征中尋找出這種關(guān)系,這種算法注重關(guān)聯(lián)性,它以每個借款人為節(jié)點,當(dāng)兩個借款人在某個特征上相同或相似,那么兩個人有社會關(guān)系,則用一條線將兩個節(jié)點連接起來。隨著特征的挖掘,更多的人連接在一起就構(gòu)建了一個完整的社會網(wǎng)絡(luò),形成了社會關(guān)系圖譜。群體欺詐風(fēng)險的度量就是以現(xiàn)有提交訂單客戶群體的信息構(gòu)建一個完整的社會網(wǎng)絡(luò),對節(jié)點(客戶) 欺詐風(fēng)險系數(shù)進行排名,然后從中尋找那些欺詐風(fēng)險系數(shù)較高的客戶。主要的建模流程為:第一步計算整體欺詐率,即計算將所有通過客戶都拒絕的召回率;第二步計算加入某項業(yè)務(wù)邏輯后的召回率;第三步計算前兩步召回率的比值,作為特征權(quán)重,用來衡量兩個客戶的親密程度;第四步對客戶欺詐風(fēng)險系數(shù)進行排名,系數(shù)高的團伙的欺詐風(fēng)險就高,應(yīng)當(dāng)特別關(guān)注。
文章選擇某互聯(lián)網(wǎng)信貸機構(gòu)的數(shù)碼消費貸款產(chǎn)品H 數(shù)據(jù)進行實證分析,產(chǎn)品H 屬于小額短期消費貸款,貸款采用全流程線上運營(客戶通過APP 提交進件材料發(fā)起貸款申請,風(fēng)控審核采取機器自動化審核),貸款金額為5000 元以內(nèi),這種信貸產(chǎn)品是欺詐風(fēng)險最高的互聯(lián)網(wǎng)消費貸款產(chǎn)品。
截取2018 年8 月6 日至2019 年3 月20 日的數(shù)據(jù)作為分析樣本,樣本中包含4000 位客戶的資料,這些資料包括客戶基本信息(如性別、年齡、工作單位等)、手機通訊錄、運營商賬單、通話詳單、虛擬環(huán)境(如IP 地址、ISP 等)、物理環(huán)境(如GPS 地址、移動設(shè)備ID 等)、交易數(shù)據(jù)(如歷史借貸次數(shù)、還款表現(xiàn)等)、網(wǎng)絡(luò)征信(如多頭借貸記錄、逾期金額等)、行為數(shù)據(jù)(如填寫資料時長、APP 啟動時間等) 和商戶信息(如獲客渠道、所購產(chǎn)品等)。
數(shù)據(jù)采集完畢后進行數(shù)據(jù)清洗,對異常數(shù)據(jù)不做處理,對缺失數(shù)據(jù)進行了填補,對缺失比例5%~20%的變量采用了均值填補,剔除了缺失值超過50%的變量。數(shù)據(jù)清洗后對數(shù)據(jù)進行了轉(zhuǎn)換,對分類變量生成啞變量,對連續(xù)性變量離散化,并進行了標(biāo)準(zhǔn)化處理,共衍生為487 個統(tǒng)計變量。487 個統(tǒng)計變量中有部分變量長尾異常效應(yīng)明顯(如圖1 所示),有些變量兩端異常明顯(如圖2 所示),經(jīng)過分析、特征再構(gòu)造和特征選擇最后篩選出258 個特征用于建模。
圖1 長尾異常效應(yīng)明顯的變量示例
圖2 兩端異常明顯的變量示例
在欺詐風(fēng)險評估模型訓(xùn)練階段,選擇了Kmeans、孤立森林、CBiForest 三種算法進行訓(xùn)練,由于欺詐樣本僅132 例,占4000 個樣本的比例為3.325%,故采用三重交叉驗證的方法進行建模。Kmeans 是一種基于距離的異常檢測方法,運用在欺詐風(fēng)險評估中是將樣本聚類為兩類,數(shù)量較少的類被標(biāo)記為異??蛻羧后w,數(shù)量較多的類被標(biāo)記為正??蛻羧后w,每個客戶到正??蛻羧后w質(zhì)心的距離記做異常分數(shù),欺詐風(fēng)險用異常分數(shù)表示,距離越大分數(shù)越高越異常。孤立森林(iForest)也是一種常用的異常檢測的方法,欺詐風(fēng)險同樣可以用異常分數(shù)表示,iForest 對樣本進行分割,那些分布稀疏且離密度高的群體較遠的離群點需要更多次的分割才能分出,因此iForest 的異常分數(shù)是每個點到根節(jié)點的平均距離,平均距離越近分數(shù)越大越異常。CBiForest 算法是聚類和孤立森林的綜合,先對客戶做Kmeans 聚類,然后針對兩類客群,分別訓(xùn)練iForest 模型,最后將Kmeans 和iForest 異常分數(shù)使用和積法加權(quán)相加,得到CBiForest 最終分數(shù),分數(shù)越高客戶越異常,欺詐可能性越大。
模型訓(xùn)練完成后,將4000 個樣本作為測試集進行模型評估,各項評估指標(biāo)如表3 所示,Kmeans 和CBiForest 訓(xùn)練的模型測試準(zhǔn)確性達到了0.65 以上,F(xiàn)PR 基本持平的情況下,CBiForest 的TPR 更高,說明偵測欺詐風(fēng)險的能力更強。
在社會關(guān)系圖譜方面,選擇同一GPS、同一IP、同一設(shè)備號、同一銀行卡等108 個特征作為關(guān)聯(lián)繪制社交圖譜,選擇PageRank 作為群體欺詐風(fēng)險度量算法,測算風(fēng)險系數(shù)和特征權(quán)重。在對一個8 人可疑團體的評估中,根據(jù)業(yè)務(wù)邏輯放大同一設(shè)備號這一特征權(quán)重4 倍后,這8 人的親密程度變化如圖3。
表3 互聯(lián)網(wǎng)信貸欺詐風(fēng)險評估模型試驗測試結(jié)果
圖3 特征權(quán)重變化引起社會關(guān)系親密度變化圖
表4 群體欺詐風(fēng)險評估模型試驗測試結(jié)果
相應(yīng)地,欺詐風(fēng)險系數(shù)也發(fā)生了變化(如表4 所示),最終的風(fēng)險系數(shù)結(jié)果顯示1、2、6 號存在群體欺詐風(fēng)險。后期就這一情況及時和業(yè)務(wù)人員反饋,經(jīng)過調(diào)查發(fā)現(xiàn)1 號客戶在多家貸款機構(gòu)存在違約記錄,2 號客戶和6 號客戶都與1 號客戶交往密切,屬于一度親密關(guān)聯(lián)人,行為存在異常,具有群體騙貸的特征。說明包括PageRank 算法在內(nèi)的人工智能算法在群體欺詐風(fēng)險度量方面具有效力,具備應(yīng)用條件。
近年來,互聯(lián)網(wǎng)貸款業(yè)務(wù)發(fā)展如火如荼,吸引了包括商業(yè)銀行、消費金融公司、電商在內(nèi)的各類機構(gòu)紛紛入市,客戶信用也隨之膨脹。但囿于營銷渠道和風(fēng)險管理的互聯(lián)網(wǎng)環(huán)境,欺詐風(fēng)險的偽裝更隱蔽、識別難度更高,導(dǎo)致互聯(lián)網(wǎng)騙貸現(xiàn)象頻發(fā),如何精準(zhǔn)度量欺詐風(fēng)險、化解互聯(lián)網(wǎng)騙貸難題成為風(fēng)險管理部門亟待解決的問題。
欺詐風(fēng)險是互聯(lián)網(wǎng)騙貸最主要的來源,根據(jù)來源分為商戶欺詐風(fēng)險和客戶欺詐風(fēng)險,形成了多種欺詐模式,并呈現(xiàn)出隱蔽性、低頻高損失和破窗效應(yīng)的特點。針對多種欺詐模式和特點,采用獨立調(diào)查的方法深入研究了互聯(lián)網(wǎng)貸款欺詐的形成過程,發(fā)現(xiàn)信息不對稱、借款人誠信觀念淡薄且缺乏自我約束力、貸款機構(gòu)風(fēng)控能力不足、通暢的傳播途徑是形成欺詐的必要條件。面對這樣的互聯(lián)網(wǎng)貸款市場環(huán)境,貸款機構(gòu)首先應(yīng)提升自身的反欺詐能力,以個體欺詐風(fēng)險估計為基本,以社會關(guān)系圖譜為重要補充,借助人工智能技術(shù)構(gòu)建互聯(lián)網(wǎng)貸款欺詐風(fēng)險量化評估模型。
研究基于Kmeans、iForest 和CBiForest 三種無監(jiān)督算法建立了個體欺詐風(fēng)險量化評估模型,從測試結(jié)果來看,CBiForest優(yōu)于其他兩種算法,是一種比較優(yōu)秀的量化評估方法?;赑ageRank 算法建立了群體欺詐風(fēng)險量化評估模型,說明包括PageRank 算法在內(nèi)的人工智能算法在群體欺詐風(fēng)險度量方面具有效力,具備應(yīng)用條件。