張素子
(興業(yè)消費金融股份公司,上海 200120)
大數(shù)據(jù)風(fēng)控模型近幾年在信貸業(yè)務(wù)中被廣泛應(yīng)用。傳統(tǒng)的風(fēng)控模型基本是對借款人個人情況的評估,而較少去評價不同申請人之間的關(guān)聯(lián)關(guān)系。而信貸業(yè)務(wù)中的欺詐團伙經(jīng)常體現(xiàn)出較強的關(guān)聯(lián)關(guān)系,并伴隨著較強的偽裝手段,使得無法通過簡單的一度關(guān)系識別不同客戶是否來自同一群體。關(guān)聯(lián)圖譜是一種非常適合信貸業(yè)務(wù)反欺詐領(lǐng)域的方法,其識別欺詐客戶的效果較優(yōu),同時又具有技術(shù)上的可行性。
本文基于關(guān)聯(lián)圖譜的理論和技術(shù),根據(jù)信貸業(yè)務(wù)的數(shù)據(jù)特征和業(yè)務(wù)要求,研究其在信貸業(yè)務(wù)大數(shù)據(jù)風(fēng)控領(lǐng)域中的實際落地應(yīng)用方案,包括關(guān)聯(lián)圖譜的實體與關(guān)系抽取、圖譜構(gòu)建、數(shù)據(jù)存儲等技術(shù),以及基于關(guān)聯(lián)圖譜構(gòu)建大數(shù)據(jù)風(fēng)控提示的具體實踐。
關(guān)聯(lián)圖譜的本質(zhì)是語義網(wǎng)絡(luò)的一種,是一種基于圖的數(shù)據(jù)結(jié)構(gòu)。關(guān)聯(lián)圖譜一般由實體- 關(guān)系- 實體的三元組構(gòu)成,這種三元組可以將互相獨立的貸款申請之間關(guān)聯(lián)起來,形成復(fù)雜而連通的網(wǎng)絡(luò)。
圖1 即是關(guān)聯(lián)圖譜的一個示例,申請人1、申請人2、申請人4 與公司1 是工作關(guān)系,申請人1 和申請人3 是配偶關(guān)系。雖然申請人2 和申請人3 并無直接的關(guān)聯(lián)關(guān)系,但是通過關(guān)聯(lián)圖譜可以將兩人聯(lián)系起來。后續(xù)可以通過機器學(xué)習(xí)的算法識別兩人是否屬于同一群體。
圖1 關(guān)聯(lián)圖譜示例
2.2.1 實體抽取技術(shù)
關(guān)聯(lián)圖譜中的實體可以被定義為任何事物。在信貸業(yè)務(wù)中,一般可以認為實體是人、設(shè)備、IP 地址、公司、地址等,而關(guān)系包括從屬關(guān)系、聯(lián)系人關(guān)系。由于信貸業(yè)務(wù)中的實體都較為明確,例如身份號、手機號均可以唯一地識別實體,故信貸業(yè)務(wù)中實體抽取較為簡單,可以采用常用的結(jié)構(gòu)化數(shù)據(jù)來提取和標識實體。在實際應(yīng)用中,選擇身份證號、手機號、地址、公司名來構(gòu)建關(guān)聯(lián)圖譜。
值得注意的是在實際應(yīng)用中,諸如地址、公司名這樣的實體存在數(shù)據(jù)標準化的問題。數(shù)據(jù)標準化問題主要來源于客戶填寫時的方式千奇百怪,如新疆省和新疆維吾爾族自治區(qū)實際是同一省份。數(shù)據(jù)標準化的問題主要采用基于N-gram 和基于HMM的分詞方法對原始數(shù)據(jù)進行分詞后與已有的行政地址劃分庫和公司庫進行比對,可將非標準化的地址和公司映射至標準化的地址和公司名。
對于已知的詞匯,假設(shè)隨機變量S 是一個文字序列,隨機變量W 是S 可能的切分路徑。分詞實際上就是求解使條件概率P(W|S)最大的切分路徑W*,即
由于對W 來說S 為已知序列,故P(S|W)為1,P(S)為常數(shù),因此只需要求解P(W)。P(W)使用N-gram 語言模型建模,假設(shè)一個詞出現(xiàn)的概率,只與其前n-1 個詞相關(guān)。常用的Bi-gram 取n=2,即一個詞出現(xiàn)的概率只與其前一個詞相關(guān):
可以用全切分有向無環(huán)圖(DAG)來畫出簡單句子的所有區(qū)分,并尋找出一條概率最大的路徑。
對于未知的詞匯,使用HMM (隱馬爾克夫模型) 模型,用Viterbi 算法找出最可能出現(xiàn)的隱狀態(tài)序列。
2.2.2 關(guān)系抽取技術(shù)
信貸業(yè)務(wù)中實體之間的關(guān)系也較為明確,如聯(lián)系人之間的關(guān)系可以是配偶、朋友、親戚等,對于此類關(guān)系,可以直接進行提取。
實際應(yīng)用中,對于地址、公司的關(guān)系提取存在一定的集中性問題。如較多客戶填寫同一個工作單位,就不能簡單地把其處理為同事關(guān)系,一是因為客戶之間的關(guān)系較弱,他們本身認識或者成為同一群體的概率較?。欢菆D譜中如有少數(shù)實體有較多關(guān)系相連,則群體發(fā)現(xiàn)算法會在這樣的大實體上集中,而忽視小實體之間關(guān)聯(lián)關(guān)系。信貸反欺詐中實際更關(guān)注小實體之間的關(guān)聯(lián)關(guān)系。故抽取關(guān)系的時候必須對集中性關(guān)系進行處理。
針對集中性問題,可以結(jié)合實際情況采用刪除和降低權(quán)重處理。
2.2.3 圖譜構(gòu)建技術(shù)
在抽取完實體與關(guān)系后,可以將所有信息放入連通圖。此時需要使用機器學(xué)習(xí)模型去將實體切割成不同的子群體,觀察群體內(nèi)部有無明顯的欺詐行為。切分群體的方法主要包括標簽傳播算法、Louvain 算法。
標簽傳播算法為基于圖的半監(jiān)督學(xué)習(xí)算法,基本思路是從已標記的節(jié)點的標簽信息來預(yù)測未標記節(jié)點標簽的信息,經(jīng)過多次迭代使整張圖達到穩(wěn)定,建立完全圖模型。
Louvain 算法是基于模塊度來衡量一個社群的劃分是不是相對比較好的結(jié)果,最終以最大化模塊度為目標,得出最優(yōu)的群體劃分方法。
2.2.4 數(shù)據(jù)存儲技術(shù)
關(guān)聯(lián)圖譜可以使用傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)庫來存儲數(shù)據(jù),也可以選擇圖數(shù)據(jù)庫。傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)可以采用實體- 關(guān)系- 實體的結(jié)構(gòu)來存儲數(shù)據(jù),可以將其拼接后進行指標計算,最后對每一個實體進行標注。結(jié)構(gòu)化數(shù)據(jù)的優(yōu)勢是邏輯清晰,編碼簡單,劣勢是計算速度較慢。
為了實現(xiàn)社群發(fā)現(xiàn)算法,解決計算量大、計算復(fù)雜的問題,采用了Spark 技術(shù)。Spark 技術(shù)是基于內(nèi)存計算的大數(shù)據(jù)并行計算框架,其速度顯著快于需要大量I/O 和CPU 計算的Hadoop的Mapreduce。本項目采用了Spark 的GraphX 組件進行圖數(shù)據(jù)處理和圖運算;采用了Spark Mlib 庫可以加速機器學(xué)習(xí)模型的運算速度。
同時,為了在建立網(wǎng)絡(luò)后分析所發(fā)現(xiàn)群體關(guān)聯(lián)情況和欺詐情況,采用了Neo4j 圖數(shù)據(jù)庫做可視化,使用聲明式圖形查詢語言Cypher,它允許用戶不必編寫圖形結(jié)構(gòu)的遍歷代碼,就可以對圖形數(shù)據(jù)進行高效的查詢。
3.1.1 風(fēng)控平臺搭建
大數(shù)據(jù)風(fēng)控平臺是一個應(yīng)用數(shù)據(jù)挖掘、機器學(xué)習(xí)等算法實現(xiàn)信貸審批、風(fēng)險管控的集成式系統(tǒng)工具,它由多系統(tǒng)模塊聯(lián)合交互構(gòu)成,核心組成包括信貸審批系統(tǒng)、決策引擎、模型平臺、實驗平臺以及監(jiān)控平臺。
信貸審批系統(tǒng):主要實現(xiàn)三大功能,業(yè)務(wù)調(diào)度、流程引擎及審批工作臺。業(yè)務(wù)調(diào)度功能實現(xiàn)前端業(yè)務(wù)的接入,執(zhí)行不同業(yè)務(wù)對應(yīng)的風(fēng)控流程,并且對執(zhí)行過程匯總的異常進行監(jiān)控和處理;流程引擎則可實現(xiàn)具體信貸流程的配置管理,例如全自動審批還是人工審批與機器審批相結(jié)合;審批工作臺則是提供給信貸審批人員的操作界面,提供信息展示與審批結(jié)果記錄的功能。
決策引擎:自動化審批測略的部署平臺,承載的是風(fēng)控業(yè)務(wù)的專家知識,基于客戶特征和模型的輸出,對客戶進行分層、風(fēng)險判斷以及風(fēng)險定價等操作。
模型平臺:模型實時部署運行平臺,關(guān)聯(lián)圖譜的應(yīng)用均在模型平臺中完成,它可以在實時審批中整合信貸申請信息,提取關(guān)鍵特征,完成關(guān)聯(lián)圖譜與機器學(xué)習(xí)模型的結(jié)果預(yù)測,是整個在線風(fēng)控平臺的一大核心。
實驗平臺:可實現(xiàn)離線策略仿真測算、模型搭建的功能。基于Hbase 數(shù)據(jù)庫的大量離線數(shù)據(jù)及算法服務(wù)器,進行風(fēng)控模型挖掘、驗證、策略測算。
監(jiān)控平臺:分為實時運營監(jiān)控及離線定時監(jiān)控兩部分。實時運營監(jiān)控可計算當日實時業(yè)務(wù)審批情況,包括進件量、審批結(jié)果、異常申請件情況等,可進行實時的異常情況預(yù)警;離線監(jiān)控可按設(shè)計,定時生成按日、按周、按月的監(jiān)控報表,監(jiān)控報表基于Tableau 的報表平臺服務(wù)框架,底層數(shù)據(jù)管理采用Hive 數(shù)據(jù)倉庫工具。
3.1.2 關(guān)聯(lián)圖譜模型挖掘
構(gòu)建關(guān)聯(lián)圖譜時,首先需要確定關(guān)系有哪些,關(guān)系的選取主要根據(jù)專家經(jīng)驗,確定哪些關(guān)系可以表現(xiàn)出申請人在行為上的趨同性,同時這些行為上的趨同性對于信貸風(fēng)險有一定影響,選擇的關(guān)系主要包括公司、地址、聯(lián)系人、手機號歸屬地等。確定關(guān)系后,將申請人與申請人之間通過不同的關(guān)系相連接形成網(wǎng)絡(luò),若采用相同特征構(gòu)建關(guān)聯(lián)網(wǎng)絡(luò)則稱為同構(gòu)網(wǎng)絡(luò),若采用不同的關(guān)聯(lián)特征構(gòu)建網(wǎng)絡(luò)則稱為異構(gòu)網(wǎng)絡(luò)。
構(gòu)建完網(wǎng)絡(luò)后,選擇可以將其中的節(jié)點劃分為社群的算法,社群發(fā)現(xiàn)的相關(guān)算法各有優(yōu)劣,需根據(jù)建模需求、樣本情況、開發(fā)時限等因素綜合判斷后選擇。
通過社群發(fā)現(xiàn)算法可將具有關(guān)聯(lián)關(guān)系的不同申請人標記為同一個群體,隨后需從百萬級的群體中挖掘出欺詐群體。欺詐是一個較為主觀的定義,業(yè)務(wù)較為廣泛的定義包括首逾客戶、從未還款客戶、通過人工欺詐調(diào)查得出的欺詐客戶等,定義完欺詐客戶后,需借由欺詐客戶挖掘出欺詐群體,欺詐群體的定義也沒有唯一標準,一般會要求群體中欺詐客戶的樣本點不低于N 人(N>=2)且群體的欺詐率為整體均值的M 倍以上(M>=2)。至此,就完成了基于關(guān)聯(lián)圖譜的欺詐團伙發(fā)現(xiàn)模型,后續(xù)可進一步應(yīng)用圖數(shù)據(jù)庫,可視化欺詐團伙,進一步進行分析及模型優(yōu)化。
3.1.3 關(guān)聯(lián)圖譜應(yīng)用場景實踐
根據(jù)3.1.2 的關(guān)聯(lián)圖譜模型的挖掘方法,項目組采用異構(gòu)網(wǎng)絡(luò)構(gòu)建關(guān)聯(lián)圖譜,應(yīng)用標簽傳播的社群發(fā)現(xiàn)算法進行群體識別,成功發(fā)現(xiàn)1,179 個3 人及以上的高風(fēng)險欺詐團伙,欺詐率為均值的4-5 倍。
3.2.1 系統(tǒng)架構(gòu)
審批系統(tǒng)作為線上實時審批的流程管控系統(tǒng),串聯(lián)起決策引擎、模型平臺及人工審批平臺;離線實驗平臺則是模型挖掘、規(guī)則分析的主要平臺,復(fù)雜的算法模型策略在實驗平臺開發(fā)、驗證,隨后部署至模型平臺或決策引擎平臺;監(jiān)控平臺擔實時業(yè)務(wù)、報表統(tǒng)計的功能。主體系統(tǒng)架構(gòu)可詳見圖2。
圖2 風(fēng)控平臺架構(gòu)
3.2.2 系統(tǒng)關(guān)鍵技術(shù)特點
整體風(fēng)控平臺有三大關(guān)鍵技術(shù)特點。
一是能夠應(yīng)對大量數(shù)據(jù)處理,實驗平臺采用了Spark 技術(shù),Spark 技術(shù)是基于內(nèi)存計算的大數(shù)據(jù)并行計算框架,其速度顯著快于需要大量I/O 的CPU 計算的Hadoop 的Mapreduce,同時配置GPU 算法服務(wù)器,進一步加快計算效率。關(guān)聯(lián)圖譜的運算采用了Spark 的GraphX 組件進行圖數(shù)據(jù)處理和圖運算;采用了Spark Mlib 庫可以加速機器學(xué)習(xí)模型的計算速度。
二是能夠?qū)δP筒呗赃M行靈活高效的迭代,決策引擎平臺及模型平臺可以支持策略規(guī)則的高效更新上線。決策引擎為可視化操作,支持判斷邏輯的多種組合,流程鏈路的個性化配置,可優(yōu)化策略部署速度;模型平臺可支持更復(fù)雜的模型計算,彌補決策引擎的短板。
三是離線及在線系統(tǒng)的交互,可以支持風(fēng)控策略的對抗升級。信貸申請的攻擊者會不停地進行內(nèi)部規(guī)則的猜測,原本有效的在線策略會隨著這些攻擊出現(xiàn)有效性下降的問題。在線系統(tǒng)可以及時發(fā)現(xiàn)實時的異常情況,反饋業(yè)務(wù)人員排查風(fēng)險;離線數(shù)據(jù)雖然有滯后性,但可以支持大批量的數(shù)據(jù)運算,挖掘出在線系統(tǒng)無法捕捉的異常攻擊,反哺在線策略。
傳統(tǒng)的機器學(xué)習(xí)模型更關(guān)注申請人自身的信貸風(fēng)險。但在信貸業(yè)務(wù)中,人和人之間并不是獨立的,往往存在一定的集中性風(fēng)險。欺詐中有較大比例的模式為團伙欺詐,需要能夠?qū)⒉煌悇e的特征整合起來,提取它們之間關(guān)聯(lián)特征與團伙特征,以識別不同申請人之間的關(guān)聯(lián)風(fēng)險。關(guān)聯(lián)圖譜(復(fù)雜網(wǎng)絡(luò))是解決上述問題的一種常用且有效的方法。充分發(fā)揮其直觀化、效率化的圖技術(shù)優(yōu)勢,在反欺詐方面成效顯著。
本項目的研究成果一是彌補了個體反欺詐的局限性,解決識別個體正常但屬于欺詐團伙的反欺詐防范痛點;二是可以充分整合個體反欺詐模型較難運用的弱特征變量,如手機號歸屬地、居住地等,將多源異構(gòu)的數(shù)據(jù)整合成機器可以理解的知識,將單點信息轉(zhuǎn)化為平面的相互關(guān)聯(lián)的圖譜;三是大幅提升了欺詐調(diào)查的效率,傳統(tǒng)的關(guān)系型數(shù)據(jù)庫,需要技術(shù)人員執(zhí)行一系列的復(fù)雜連接才能將關(guān)聯(lián)信息提取出來,圖數(shù)據(jù)庫在這方面具有天然的優(yōu)勢,可將欺詐團伙的網(wǎng)絡(luò)直接展現(xiàn)。
關(guān)聯(lián)圖譜在風(fēng)控領(lǐng)域的應(yīng)用是一個復(fù)雜的問題,對數(shù)據(jù)來源、系統(tǒng)性能、應(yīng)用方案有著較高的要求。本文對關(guān)聯(lián)圖譜在銀行大數(shù)據(jù)風(fēng)控體系內(nèi)的應(yīng)用進行初探,模型效果經(jīng)測算在歷史樣本上效果較好?;诰哂锌尚行缘穆涞胤桨福晒ι暇€,搭建起基于關(guān)聯(lián)圖譜的大數(shù)據(jù)風(fēng)控體系,完成初版關(guān)聯(lián)圖譜模型上線。并持續(xù)運行穩(wěn)健,識別欺詐團伙逾期率約為正??蛻舻?倍。當然,本文在這一領(lǐng)域的研究還有很大的上升空間,未來將持續(xù)對算法效果、運行效率進行研究與改進。