亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于關(guān)聯(lián)圖譜的銀行大數(shù)據(jù)風(fēng)控體系構(gòu)建研究

        2021-07-16 10:07:26張素子
        科學(xué)技術(shù)創(chuàng)新 2021年19期
        關(guān)鍵詞:欺詐申請人圖譜

        張素子

        (興業(yè)消費金融股份公司,上海 200120)

        大數(shù)據(jù)風(fēng)控模型近幾年在信貸業(yè)務(wù)中被廣泛應(yīng)用。傳統(tǒng)的風(fēng)控模型基本是對借款人個人情況的評估,而較少去評價不同申請人之間的關(guān)聯(lián)關(guān)系。而信貸業(yè)務(wù)中的欺詐團伙經(jīng)常體現(xiàn)出較強的關(guān)聯(lián)關(guān)系,并伴隨著較強的偽裝手段,使得無法通過簡單的一度關(guān)系識別不同客戶是否來自同一群體。關(guān)聯(lián)圖譜是一種非常適合信貸業(yè)務(wù)反欺詐領(lǐng)域的方法,其識別欺詐客戶的效果較優(yōu),同時又具有技術(shù)上的可行性。

        1 研究內(nèi)容

        本文基于關(guān)聯(lián)圖譜的理論和技術(shù),根據(jù)信貸業(yè)務(wù)的數(shù)據(jù)特征和業(yè)務(wù)要求,研究其在信貸業(yè)務(wù)大數(shù)據(jù)風(fēng)控領(lǐng)域中的實際落地應(yīng)用方案,包括關(guān)聯(lián)圖譜的實體與關(guān)系抽取、圖譜構(gòu)建、數(shù)據(jù)存儲等技術(shù),以及基于關(guān)聯(lián)圖譜構(gòu)建大數(shù)據(jù)風(fēng)控提示的具體實踐。

        2 關(guān)聯(lián)圖譜的理論基礎(chǔ)及關(guān)鍵技術(shù)

        2.1 關(guān)聯(lián)圖譜理論

        關(guān)聯(lián)圖譜的本質(zhì)是語義網(wǎng)絡(luò)的一種,是一種基于圖的數(shù)據(jù)結(jié)構(gòu)。關(guān)聯(lián)圖譜一般由實體- 關(guān)系- 實體的三元組構(gòu)成,這種三元組可以將互相獨立的貸款申請之間關(guān)聯(lián)起來,形成復(fù)雜而連通的網(wǎng)絡(luò)。

        圖1 即是關(guān)聯(lián)圖譜的一個示例,申請人1、申請人2、申請人4 與公司1 是工作關(guān)系,申請人1 和申請人3 是配偶關(guān)系。雖然申請人2 和申請人3 并無直接的關(guān)聯(lián)關(guān)系,但是通過關(guān)聯(lián)圖譜可以將兩人聯(lián)系起來。后續(xù)可以通過機器學(xué)習(xí)的算法識別兩人是否屬于同一群體。

        圖1 關(guān)聯(lián)圖譜示例

        2.2 關(guān)鍵技術(shù)

        2.2.1 實體抽取技術(shù)

        關(guān)聯(lián)圖譜中的實體可以被定義為任何事物。在信貸業(yè)務(wù)中,一般可以認為實體是人、設(shè)備、IP 地址、公司、地址等,而關(guān)系包括從屬關(guān)系、聯(lián)系人關(guān)系。由于信貸業(yè)務(wù)中的實體都較為明確,例如身份號、手機號均可以唯一地識別實體,故信貸業(yè)務(wù)中實體抽取較為簡單,可以采用常用的結(jié)構(gòu)化數(shù)據(jù)來提取和標識實體。在實際應(yīng)用中,選擇身份證號、手機號、地址、公司名來構(gòu)建關(guān)聯(lián)圖譜。

        值得注意的是在實際應(yīng)用中,諸如地址、公司名這樣的實體存在數(shù)據(jù)標準化的問題。數(shù)據(jù)標準化問題主要來源于客戶填寫時的方式千奇百怪,如新疆省和新疆維吾爾族自治區(qū)實際是同一省份。數(shù)據(jù)標準化的問題主要采用基于N-gram 和基于HMM的分詞方法對原始數(shù)據(jù)進行分詞后與已有的行政地址劃分庫和公司庫進行比對,可將非標準化的地址和公司映射至標準化的地址和公司名。

        對于已知的詞匯,假設(shè)隨機變量S 是一個文字序列,隨機變量W 是S 可能的切分路徑。分詞實際上就是求解使條件概率P(W|S)最大的切分路徑W*,即

        由于對W 來說S 為已知序列,故P(S|W)為1,P(S)為常數(shù),因此只需要求解P(W)。P(W)使用N-gram 語言模型建模,假設(shè)一個詞出現(xiàn)的概率,只與其前n-1 個詞相關(guān)。常用的Bi-gram 取n=2,即一個詞出現(xiàn)的概率只與其前一個詞相關(guān):

        可以用全切分有向無環(huán)圖(DAG)來畫出簡單句子的所有區(qū)分,并尋找出一條概率最大的路徑。

        對于未知的詞匯,使用HMM (隱馬爾克夫模型) 模型,用Viterbi 算法找出最可能出現(xiàn)的隱狀態(tài)序列。

        2.2.2 關(guān)系抽取技術(shù)

        信貸業(yè)務(wù)中實體之間的關(guān)系也較為明確,如聯(lián)系人之間的關(guān)系可以是配偶、朋友、親戚等,對于此類關(guān)系,可以直接進行提取。

        實際應(yīng)用中,對于地址、公司的關(guān)系提取存在一定的集中性問題。如較多客戶填寫同一個工作單位,就不能簡單地把其處理為同事關(guān)系,一是因為客戶之間的關(guān)系較弱,他們本身認識或者成為同一群體的概率較?。欢菆D譜中如有少數(shù)實體有較多關(guān)系相連,則群體發(fā)現(xiàn)算法會在這樣的大實體上集中,而忽視小實體之間關(guān)聯(lián)關(guān)系。信貸反欺詐中實際更關(guān)注小實體之間的關(guān)聯(lián)關(guān)系。故抽取關(guān)系的時候必須對集中性關(guān)系進行處理。

        針對集中性問題,可以結(jié)合實際情況采用刪除和降低權(quán)重處理。

        2.2.3 圖譜構(gòu)建技術(shù)

        在抽取完實體與關(guān)系后,可以將所有信息放入連通圖。此時需要使用機器學(xué)習(xí)模型去將實體切割成不同的子群體,觀察群體內(nèi)部有無明顯的欺詐行為。切分群體的方法主要包括標簽傳播算法、Louvain 算法。

        標簽傳播算法為基于圖的半監(jiān)督學(xué)習(xí)算法,基本思路是從已標記的節(jié)點的標簽信息來預(yù)測未標記節(jié)點標簽的信息,經(jīng)過多次迭代使整張圖達到穩(wěn)定,建立完全圖模型。

        Louvain 算法是基于模塊度來衡量一個社群的劃分是不是相對比較好的結(jié)果,最終以最大化模塊度為目標,得出最優(yōu)的群體劃分方法。

        2.2.4 數(shù)據(jù)存儲技術(shù)

        關(guān)聯(lián)圖譜可以使用傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)庫來存儲數(shù)據(jù),也可以選擇圖數(shù)據(jù)庫。傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)可以采用實體- 關(guān)系- 實體的結(jié)構(gòu)來存儲數(shù)據(jù),可以將其拼接后進行指標計算,最后對每一個實體進行標注。結(jié)構(gòu)化數(shù)據(jù)的優(yōu)勢是邏輯清晰,編碼簡單,劣勢是計算速度較慢。

        為了實現(xiàn)社群發(fā)現(xiàn)算法,解決計算量大、計算復(fù)雜的問題,采用了Spark 技術(shù)。Spark 技術(shù)是基于內(nèi)存計算的大數(shù)據(jù)并行計算框架,其速度顯著快于需要大量I/O 和CPU 計算的Hadoop的Mapreduce。本項目采用了Spark 的GraphX 組件進行圖數(shù)據(jù)處理和圖運算;采用了Spark Mlib 庫可以加速機器學(xué)習(xí)模型的運算速度。

        同時,為了在建立網(wǎng)絡(luò)后分析所發(fā)現(xiàn)群體關(guān)聯(lián)情況和欺詐情況,采用了Neo4j 圖數(shù)據(jù)庫做可視化,使用聲明式圖形查詢語言Cypher,它允許用戶不必編寫圖形結(jié)構(gòu)的遍歷代碼,就可以對圖形數(shù)據(jù)進行高效的查詢。

        3 基于關(guān)聯(lián)圖譜構(gòu)建大數(shù)據(jù)風(fēng)控體系

        3.1 大數(shù)據(jù)風(fēng)控應(yīng)用體系搭建

        3.1.1 風(fēng)控平臺搭建

        大數(shù)據(jù)風(fēng)控平臺是一個應(yīng)用數(shù)據(jù)挖掘、機器學(xué)習(xí)等算法實現(xiàn)信貸審批、風(fēng)險管控的集成式系統(tǒng)工具,它由多系統(tǒng)模塊聯(lián)合交互構(gòu)成,核心組成包括信貸審批系統(tǒng)、決策引擎、模型平臺、實驗平臺以及監(jiān)控平臺。

        信貸審批系統(tǒng):主要實現(xiàn)三大功能,業(yè)務(wù)調(diào)度、流程引擎及審批工作臺。業(yè)務(wù)調(diào)度功能實現(xiàn)前端業(yè)務(wù)的接入,執(zhí)行不同業(yè)務(wù)對應(yīng)的風(fēng)控流程,并且對執(zhí)行過程匯總的異常進行監(jiān)控和處理;流程引擎則可實現(xiàn)具體信貸流程的配置管理,例如全自動審批還是人工審批與機器審批相結(jié)合;審批工作臺則是提供給信貸審批人員的操作界面,提供信息展示與審批結(jié)果記錄的功能。

        決策引擎:自動化審批測略的部署平臺,承載的是風(fēng)控業(yè)務(wù)的專家知識,基于客戶特征和模型的輸出,對客戶進行分層、風(fēng)險判斷以及風(fēng)險定價等操作。

        模型平臺:模型實時部署運行平臺,關(guān)聯(lián)圖譜的應(yīng)用均在模型平臺中完成,它可以在實時審批中整合信貸申請信息,提取關(guān)鍵特征,完成關(guān)聯(lián)圖譜與機器學(xué)習(xí)模型的結(jié)果預(yù)測,是整個在線風(fēng)控平臺的一大核心。

        實驗平臺:可實現(xiàn)離線策略仿真測算、模型搭建的功能。基于Hbase 數(shù)據(jù)庫的大量離線數(shù)據(jù)及算法服務(wù)器,進行風(fēng)控模型挖掘、驗證、策略測算。

        監(jiān)控平臺:分為實時運營監(jiān)控及離線定時監(jiān)控兩部分。實時運營監(jiān)控可計算當日實時業(yè)務(wù)審批情況,包括進件量、審批結(jié)果、異常申請件情況等,可進行實時的異常情況預(yù)警;離線監(jiān)控可按設(shè)計,定時生成按日、按周、按月的監(jiān)控報表,監(jiān)控報表基于Tableau 的報表平臺服務(wù)框架,底層數(shù)據(jù)管理采用Hive 數(shù)據(jù)倉庫工具。

        3.1.2 關(guān)聯(lián)圖譜模型挖掘

        構(gòu)建關(guān)聯(lián)圖譜時,首先需要確定關(guān)系有哪些,關(guān)系的選取主要根據(jù)專家經(jīng)驗,確定哪些關(guān)系可以表現(xiàn)出申請人在行為上的趨同性,同時這些行為上的趨同性對于信貸風(fēng)險有一定影響,選擇的關(guān)系主要包括公司、地址、聯(lián)系人、手機號歸屬地等。確定關(guān)系后,將申請人與申請人之間通過不同的關(guān)系相連接形成網(wǎng)絡(luò),若采用相同特征構(gòu)建關(guān)聯(lián)網(wǎng)絡(luò)則稱為同構(gòu)網(wǎng)絡(luò),若采用不同的關(guān)聯(lián)特征構(gòu)建網(wǎng)絡(luò)則稱為異構(gòu)網(wǎng)絡(luò)。

        構(gòu)建完網(wǎng)絡(luò)后,選擇可以將其中的節(jié)點劃分為社群的算法,社群發(fā)現(xiàn)的相關(guān)算法各有優(yōu)劣,需根據(jù)建模需求、樣本情況、開發(fā)時限等因素綜合判斷后選擇。

        通過社群發(fā)現(xiàn)算法可將具有關(guān)聯(lián)關(guān)系的不同申請人標記為同一個群體,隨后需從百萬級的群體中挖掘出欺詐群體。欺詐是一個較為主觀的定義,業(yè)務(wù)較為廣泛的定義包括首逾客戶、從未還款客戶、通過人工欺詐調(diào)查得出的欺詐客戶等,定義完欺詐客戶后,需借由欺詐客戶挖掘出欺詐群體,欺詐群體的定義也沒有唯一標準,一般會要求群體中欺詐客戶的樣本點不低于N 人(N>=2)且群體的欺詐率為整體均值的M 倍以上(M>=2)。至此,就完成了基于關(guān)聯(lián)圖譜的欺詐團伙發(fā)現(xiàn)模型,后續(xù)可進一步應(yīng)用圖數(shù)據(jù)庫,可視化欺詐團伙,進一步進行分析及模型優(yōu)化。

        3.1.3 關(guān)聯(lián)圖譜應(yīng)用場景實踐

        根據(jù)3.1.2 的關(guān)聯(lián)圖譜模型的挖掘方法,項目組采用異構(gòu)網(wǎng)絡(luò)構(gòu)建關(guān)聯(lián)圖譜,應(yīng)用標簽傳播的社群發(fā)現(xiàn)算法進行群體識別,成功發(fā)現(xiàn)1,179 個3 人及以上的高風(fēng)險欺詐團伙,欺詐率為均值的4-5 倍。

        3.2 落地實施方案

        3.2.1 系統(tǒng)架構(gòu)

        審批系統(tǒng)作為線上實時審批的流程管控系統(tǒng),串聯(lián)起決策引擎、模型平臺及人工審批平臺;離線實驗平臺則是模型挖掘、規(guī)則分析的主要平臺,復(fù)雜的算法模型策略在實驗平臺開發(fā)、驗證,隨后部署至模型平臺或決策引擎平臺;監(jiān)控平臺擔實時業(yè)務(wù)、報表統(tǒng)計的功能。主體系統(tǒng)架構(gòu)可詳見圖2。

        圖2 風(fēng)控平臺架構(gòu)

        3.2.2 系統(tǒng)關(guān)鍵技術(shù)特點

        整體風(fēng)控平臺有三大關(guān)鍵技術(shù)特點。

        一是能夠應(yīng)對大量數(shù)據(jù)處理,實驗平臺采用了Spark 技術(shù),Spark 技術(shù)是基于內(nèi)存計算的大數(shù)據(jù)并行計算框架,其速度顯著快于需要大量I/O 的CPU 計算的Hadoop 的Mapreduce,同時配置GPU 算法服務(wù)器,進一步加快計算效率。關(guān)聯(lián)圖譜的運算采用了Spark 的GraphX 組件進行圖數(shù)據(jù)處理和圖運算;采用了Spark Mlib 庫可以加速機器學(xué)習(xí)模型的計算速度。

        二是能夠?qū)δP筒呗赃M行靈活高效的迭代,決策引擎平臺及模型平臺可以支持策略規(guī)則的高效更新上線。決策引擎為可視化操作,支持判斷邏輯的多種組合,流程鏈路的個性化配置,可優(yōu)化策略部署速度;模型平臺可支持更復(fù)雜的模型計算,彌補決策引擎的短板。

        三是離線及在線系統(tǒng)的交互,可以支持風(fēng)控策略的對抗升級。信貸申請的攻擊者會不停地進行內(nèi)部規(guī)則的猜測,原本有效的在線策略會隨著這些攻擊出現(xiàn)有效性下降的問題。在線系統(tǒng)可以及時發(fā)現(xiàn)實時的異常情況,反饋業(yè)務(wù)人員排查風(fēng)險;離線數(shù)據(jù)雖然有滯后性,但可以支持大批量的數(shù)據(jù)運算,挖掘出在線系統(tǒng)無法捕捉的異常攻擊,反哺在線策略。

        4 研究成果的創(chuàng)新價值及影響

        傳統(tǒng)的機器學(xué)習(xí)模型更關(guān)注申請人自身的信貸風(fēng)險。但在信貸業(yè)務(wù)中,人和人之間并不是獨立的,往往存在一定的集中性風(fēng)險。欺詐中有較大比例的模式為團伙欺詐,需要能夠?qū)⒉煌悇e的特征整合起來,提取它們之間關(guān)聯(lián)特征與團伙特征,以識別不同申請人之間的關(guān)聯(lián)風(fēng)險。關(guān)聯(lián)圖譜(復(fù)雜網(wǎng)絡(luò))是解決上述問題的一種常用且有效的方法。充分發(fā)揮其直觀化、效率化的圖技術(shù)優(yōu)勢,在反欺詐方面成效顯著。

        本項目的研究成果一是彌補了個體反欺詐的局限性,解決識別個體正常但屬于欺詐團伙的反欺詐防范痛點;二是可以充分整合個體反欺詐模型較難運用的弱特征變量,如手機號歸屬地、居住地等,將多源異構(gòu)的數(shù)據(jù)整合成機器可以理解的知識,將單點信息轉(zhuǎn)化為平面的相互關(guān)聯(lián)的圖譜;三是大幅提升了欺詐調(diào)查的效率,傳統(tǒng)的關(guān)系型數(shù)據(jù)庫,需要技術(shù)人員執(zhí)行一系列的復(fù)雜連接才能將關(guān)聯(lián)信息提取出來,圖數(shù)據(jù)庫在這方面具有天然的優(yōu)勢,可將欺詐團伙的網(wǎng)絡(luò)直接展現(xiàn)。

        5 總結(jié)與展望

        關(guān)聯(lián)圖譜在風(fēng)控領(lǐng)域的應(yīng)用是一個復(fù)雜的問題,對數(shù)據(jù)來源、系統(tǒng)性能、應(yīng)用方案有著較高的要求。本文對關(guān)聯(lián)圖譜在銀行大數(shù)據(jù)風(fēng)控體系內(nèi)的應(yīng)用進行初探,模型效果經(jīng)測算在歷史樣本上效果較好?;诰哂锌尚行缘穆涞胤桨福晒ι暇€,搭建起基于關(guān)聯(lián)圖譜的大數(shù)據(jù)風(fēng)控體系,完成初版關(guān)聯(lián)圖譜模型上線。并持續(xù)運行穩(wěn)健,識別欺詐團伙逾期率約為正??蛻舻?倍。當然,本文在這一領(lǐng)域的研究還有很大的上升空間,未來將持續(xù)對算法效果、運行效率進行研究與改進。

        猜你喜歡
        欺詐申請人圖譜
        關(guān)于假冒網(wǎng)站及欺詐行為的識別
        眼科新進展(2023年9期)2023-08-31 07:18:36
        關(guān)于假冒網(wǎng)站及欺詐行為的識別
        繪一張成長圖譜
        警惕國際貿(mào)易欺詐
        中國外匯(2019年10期)2019-08-27 01:58:04
        7月1日起澳洲簽證費將全面漲價上調(diào)幅度達到5.4%
        留學(xué)(2019年12期)2019-07-29 07:04:12
        補腎強身片UPLC指紋圖譜
        中成藥(2017年3期)2017-05-17 06:09:01
        主動對接你思維的知識圖譜
        網(wǎng)購遭欺詐 維權(quán)有種法
        一種含碘氫碘酸濃度的分析方法
        一種黃霉素A組分的分離純化方法
        国产高清女人对白av在在线 | 图片区小说区激情区偷拍区| 最新国产一区二区精品久久| 亚洲精华国产精华液的福利| 国模精品二区| 国语对白三级在线观看| 天堂视频在线观看一二区| 免费人成视频xvideos入口| 国产a级午夜毛片| 一区二区免费国产a在亚洲| 精品一区二区av天堂色偷偷| 成年免费视频黄网站zxgk| 综合无码一区二区三区四区五区| 丰满人妻被猛烈进入中文字幕护士| 亚洲处破女av日韩精品中出| 成年无码av片在线| 欧美视频九九一区二区| 中文字幕日韩精品亚洲精品| 丝袜人妻一区二区三区| 国产高清乱理伦片| 激情亚洲的在线观看| 男女激情视频网站在线| 色一情一乱一伦| 亚洲综合色一区二区三区另类| 日本女优中文字幕四季视频网站| 免费一级淫片日本高清 | 国产成人精品一区二区视频 | 一区二区三区国产天堂| 欧美肥妇毛多水多bbxx水蜜桃| 国产69精品久久久久9999| 99热高清亚洲无码| 开心久久婷婷综合中文字幕| 国产激情久久久久久熟女老人| 久久久亚洲av成人网站 | 一区二区特别黄色大片| 日本一区二区三区视频免费观看| 久久精品国产久精国产| 青青国产成人久久91| 亚洲高清一区二区精品| 一本大道无码人妻精品专区| 国产高清视频91|