亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向互聯(lián)網(wǎng)金融平臺的違約風(fēng)險量化模型

        2019-01-02 03:44:52白云歌郭炳暉米志龍鄭志明
        計算機工程 2018年12期
        關(guān)鍵詞:借貸交易節(jié)點

        白云歌,郭炳暉,米志龍,鄭志明

        (北京航空航天大學(xué) a.數(shù)學(xué)與系統(tǒng)科學(xué)學(xué)院; b.數(shù)學(xué)信息與行為教育部重點實驗室;c.大數(shù)據(jù)與腦機智能高精尖中心,北京 100191)

        0 概述

        伴隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,傳統(tǒng)的民間資本交易、中小企業(yè)融資和個人借貸等線下業(yè)務(wù)在互聯(lián)網(wǎng)金融平臺上不斷發(fā)展壯大。在具有金融中介性質(zhì)的互聯(lián)網(wǎng)金融平臺中,如何通過網(wǎng)絡(luò)及數(shù)據(jù)分析實現(xiàn)對用戶的信用評價,是目前廣大互聯(lián)網(wǎng)金融機構(gòu)關(guān)注的核心技術(shù)難題,也是當今的一個研究熱點[1]。根據(jù)網(wǎng)絡(luò)小額借貸的特點以及其與傳統(tǒng)征信系統(tǒng)的不同點去建立合適的違約風(fēng)險評價系統(tǒng),是減少不良交易、促進平臺發(fā)展的重要途徑。

        信用評價與風(fēng)險預(yù)測是解決上述問題的2個方向。文獻[2]使用統(tǒng)計中的判別分析來評價貸款并提出FICO信用評分體系。近年來,隨著神經(jīng)網(wǎng)絡(luò)模型的建立,較多研究者使用機器學(xué)習(xí)方法來解決信用評價與違約預(yù)測問題[3-4]。但是,使用機器學(xué)習(xí)方法解決信用問題存在一定局限性,當樣本不足時其無法進行訓(xùn)練,且效果良好的模型往往復(fù)雜且解釋性不強,這限制了分析人員對模型的把控與干預(yù)能力。

        現(xiàn)有研究以及傳統(tǒng)方法更注重對指標的研究[5],原因是在傳統(tǒng)金融信用評價體系中,多數(shù)是金融機構(gòu)對用戶的單向評價,而在網(wǎng)絡(luò)借貸關(guān)系中,用戶通過借貸而構(gòu)成一個復(fù)雜網(wǎng)絡(luò)并進行互相評價,因此,用戶在復(fù)雜網(wǎng)絡(luò)中的特征顯然也與用戶信用相關(guān)。文獻[6]研究通過手機通訊錄構(gòu)建靜態(tài)網(wǎng)絡(luò)。復(fù)雜網(wǎng)絡(luò)指標,即對網(wǎng)絡(luò)中節(jié)點的評價,也是該領(lǐng)域的熱門研究內(nèi)容[7]。其中,各文獻根據(jù)不同的側(cè)重點來研究節(jié)點的重要性,如文獻[8]基于網(wǎng)絡(luò)局部結(jié)構(gòu),文獻[9-10]基于節(jié)點在網(wǎng)絡(luò)中所對應(yīng)路徑的屬性,文獻[11-13]基于網(wǎng)絡(luò)中影響力的傳播,即網(wǎng)絡(luò)中基于迭代的指標等。加入用戶的網(wǎng)絡(luò)屬性作為分析違約風(fēng)險的特征,也是一個新的嘗試。

        本文在對具有金融中介性質(zhì)的某互聯(lián)網(wǎng)金融平臺海量用戶數(shù)據(jù)進行分析的基礎(chǔ)上,引入復(fù)雜網(wǎng)絡(luò)結(jié)構(gòu)特征作為分析變量以增加分析維度,然后建立使用典型相關(guān)分析的用戶信用評價量化模型。將基于社交網(wǎng)絡(luò)的互聯(lián)網(wǎng)借貸關(guān)系與用戶發(fā)生債務(wù)違約的行為相關(guān)聯(lián),給出用戶信用評分策略及相應(yīng)算法,并通過在實際平臺數(shù)據(jù)集上的對比實驗,驗證該模型在風(fēng)險評價維度、違約概率預(yù)測等方面的性能。

        1 風(fēng)險量化模型

        在P2P互聯(lián)網(wǎng)借貸平臺中,用戶的交易是小額且頻繁的,因此,其具有獨有的優(yōu)勢,即擁有足量的歷史交易數(shù)據(jù)可以用來構(gòu)建每個用戶的屬性以及用戶間的關(guān)系。

        本文構(gòu)建的風(fēng)險量化模型如圖1所示,通過歷史交易記錄提取借貸特征與用戶網(wǎng)絡(luò)特征,結(jié)合違約狀態(tài)進行分析得到量化模型,并通過AUC值對模型進行評價和反饋修正。

        圖1 風(fēng)險量化模型流程

        在原始數(shù)據(jù)輸入中,每個記錄都具有多個屬性,用來描述一筆交易的過程,如借入方、借出方、交易金額、債務(wù)開始時間等。選擇[T-t,T]時間區(qū)間內(nèi)的原始數(shù)據(jù)Data作為網(wǎng)絡(luò)構(gòu)建的依據(jù):

        Input(t)={(T-t)

        (1)

        將借貸數(shù)據(jù)中每個用戶對應(yīng)網(wǎng)絡(luò)中的一個節(jié)點,每條借貸記錄構(gòu)成網(wǎng)絡(luò)中的一條邊,借出方和借入方分別對應(yīng)邊的起始點和結(jié)束點,以此構(gòu)建借貸網(wǎng)絡(luò)G(V,E)與鄰接矩陣A。在網(wǎng)絡(luò)G(V,E)中,V和E分別為節(jié)點和邊的集合。A={aij},其中,vi和vj連接時aij=1,否則aij=0。

        通過在構(gòu)建的借貸網(wǎng)絡(luò)上應(yīng)用復(fù)雜網(wǎng)絡(luò)節(jié)點重要性排序方法,得出用戶在網(wǎng)絡(luò)結(jié)構(gòu)中對應(yīng)不同含義的地位,以及用戶交易對象中所含與逾期用戶相關(guān)的指標:度中心性(入度、出度),接近度中心性[9],介數(shù)中心性[10],特征向量中心性,PageRank值[12],HITs算法權(quán)威值與樞紐值[13]。同時,提取用戶歷史借貸記錄中包含違約的記錄,并將違約交易的若干屬性來代表用戶的歷史違約情況,構(gòu)成基于歷史的用戶信用情況以及目標預(yù)測區(qū)間內(nèi)用戶的違約情況O。

        應(yīng)用典型相關(guān)分析方法找到一組線性變換使得(I,L)經(jīng)投影到一維空間時與O的相關(guān)系數(shù)達到最高,利用這種映射得到一個通過(I,L)預(yù)測O值的模型:

        Predict=f(I,L)

        (2)

        式(2)是一個二分類模型,因此,通過繪制ROC曲線以及計算AUC值的方法來評價該模型。AUC值計算方法如下:

        AUC=ROC(Predict,O)

        (3)

        因模型f的輸入(I,L)還受到參數(shù)t的影響,令M為t的參數(shù),求得對應(yīng)于f的AUC值的模型,結(jié)合數(shù)據(jù)優(yōu)化得到最佳模型的時間區(qū)間為:

        t0=argmaxM(Input(t))

        (4)

        2 基于典型相關(guān)分析與復(fù)雜網(wǎng)絡(luò)特征的風(fēng)險量化算法

        傳統(tǒng)的風(fēng)險量化算法更注重用戶自身屬性,在P2P網(wǎng)絡(luò)借貸中考慮用戶在網(wǎng)絡(luò)中的狀態(tài),是本文對傳統(tǒng)方法進行的改進。關(guān)于網(wǎng)絡(luò)構(gòu)建數(shù)據(jù)的選擇,本文通過結(jié)合AUC值對模型的評價完成一個反饋過程,以此得到最佳網(wǎng)絡(luò)構(gòu)建數(shù)據(jù)選擇區(qū)間。

        2.1 模型輸入數(shù)據(jù)

        風(fēng)險量化模型所使用的屬性定義如下:

        1)借入方(Debtor):交易中借入方的用戶ID。

        2)借出方(Creditor):交易中借出方的用戶ID。

        3)交易金額(Principal):該筆交易中起始本金。

        4)債務(wù)開始時間(DebtStartTime):交易達成時間。

        5)債務(wù)結(jié)束時間(DebtEndTime):交易達成時設(shè)定的債務(wù)償還時間。

        6)逾期利息(OverdueInterest):未按債務(wù)結(jié)束時間償還債務(wù)所生成的額外逾期利息值,若按時償還或債務(wù)未到期,則此項為0。

        以上6項歷史交易記錄特征為本文模型的輸入內(nèi)容:

        Input(t)={Data((T-t)

        2.2 特征提取算法

        網(wǎng)絡(luò)特征I的各項指標定義如下:

        1)節(jié)點vi的度定義為與該節(jié)點直接相連的鄰居數(shù)量ki。為比較不同網(wǎng)絡(luò)中節(jié)點的度,歸一化度中心性(DC)為:

        (5)

        其中,n為網(wǎng)絡(luò)G的總節(jié)點數(shù),n-1為最大可能的度。對于有向網(wǎng)絡(luò),還可以分別考慮節(jié)點的入度和出度。

        2)節(jié)點vi的接近度中心性(CC)定義為從vi到其他所有節(jié)點的最短路徑距離平均值的倒數(shù):

        (6)

        其中,dij表示節(jié)點vi與vj的最短路徑。接近度中心性可以理解為信息在網(wǎng)絡(luò)中平均傳播長度的逆。

        3)節(jié)點vi的介數(shù)中心性(BC)定義為:

        (7)

        4)特征向量中心性表示一個節(jié)點的影響不僅由它的鄰居節(jié)點數(shù)目來確定,還由每個相鄰節(jié)點的影響來確定。節(jié)點vi由xi表示其重要性為:

        (8)

        其中,c是比例常數(shù)。一般情況下,c=1/λ,λ是鄰接矩陣A={aij}的最大特征值。

        5)PageRank(PR)值表示從由網(wǎng)頁之間的關(guān)系構(gòu)成的網(wǎng)絡(luò)上,通過隨機行走來區(qū)分不同網(wǎng)站的重要性。每個節(jié)點獲得一個單位的PR值后這些PR值沿其指向鏈接的鄰居均勻分布。節(jié)點vi在t步驟的PR值為:

        (9)

        6)HITs算法考慮網(wǎng)絡(luò)中每個節(jié)點的2個屬性:權(quán)威性和樞紐性。權(quán)威性和樞紐性互相加強,一個好的樞紐指向許多權(quán)威,許多樞紐共同指向的必是好的權(quán)威節(jié)點。在有向網(wǎng)絡(luò)中,節(jié)點的權(quán)威得分等于指向該節(jié)點的所有節(jié)點的樞紐得分總和,而節(jié)點的樞紐得分等于由該節(jié)點指向的所有節(jié)點的權(quán)威得分總和。在擁有n個節(jié)點的網(wǎng)絡(luò)中,分別用ai(t)和hi(t)表示t時間節(jié)點vi的權(quán)威得分和樞紐得分。初始時刻,所有節(jié)點的2個分值均為1。節(jié)點vi的權(quán)威得分和樞紐得分計算方法分別為:

        (10)

        每次迭代后,對每個節(jié)點的2個得分進行標準化:

        (11)

        7)平均鄰居度:節(jié)點的鄰居節(jié)點度值的平均。

        8)一階鄰居違約數(shù):節(jié)點鄰居中曾經(jīng)逾期的鄰居數(shù)量。

        9)一階鄰居違約率:節(jié)點鄰居中曾經(jīng)逾期的鄰居數(shù)量與節(jié)點鄰居總數(shù)的比值。

        違約狀態(tài)O由研究目標時刻到之后1個月這一階段時間內(nèi)用戶是否逾期得出。對于每個用戶,若該時間區(qū)間內(nèi)有交易發(fā)生逾期,則該目標值為1,否則為0。

        2.3 典型相關(guān)分析方法

        典型相關(guān)分析是反映2組變量間相關(guān)性的多元統(tǒng)計分析方法,其在所有線性組合中,找到2組變量通過線性組合達到的最好的相關(guān)關(guān)系組合,并以此實現(xiàn)通過一組變量的數(shù)值預(yù)測另一組變量數(shù)值的目的[14]。

        如圖2所示,本文研究變量X=(I,L)與Y=O間的關(guān)系。

        圖2 典型相關(guān)分析模型中的2類變量分析

        X、Y線性組合為aTX、bTY。目標為找到向量a,使得指數(shù)aTX、bTY間的關(guān)系能被量化且易于解釋,即找到最合適的映射向量a、b使2個指數(shù)間相關(guān)關(guān)系最大化(因為此模型中Y為一維變量,所以只考慮X的線性組合或考慮b為常映射):

        (12)

        (13)

        ai、bi為典型相關(guān)向量,也是以上最大化問題的解。因此,得出風(fēng)險量化模型為:

        Predict=aT(I,L)

        (14)

        2.4 效果評價

        對一個二分問題而言,ROC若分為正類和負類,則會出現(xiàn)4種情況:實為正預(yù)測為正(True Positive,TP),實為正預(yù)測為負(False Negative,FN),實為負預(yù)測為正(False Positive,FP),實為負預(yù)測為負(True Negative,TN)。真正類率TPR代表判別出的正類占總正類的比例,假正類率FPR代表判別出的負類占所有負類的比例。TPR和FPR計算公式如下:

        (15)

        根據(jù)模型給出的評分設(shè)定閾值并作為二分的依據(jù)。每一個閾值可以算出一組對應(yīng)的(FPR,TPR),將這2個值的組合作為坐標繪入圖像。閾值最大時對應(yīng)(0,0),全部實例被劃為負類,隨著閾值減小,劃分為正實例的越來越多,錯分現(xiàn)象也會增多,即(FPR,TPR)增大,直到閾值達到最小時得到坐標(1,1),理想目標點為(0,1)。ROC曲線示意圖如圖3所示,隨機猜測模型結(jié)果對應(yīng)圖中的虛線。

        圖3 ROC曲線示意圖

        在圖3中,ROC曲線下的面積即為AUC值,AUC值是一個概率值,當隨機挑選一個正樣本與一個負樣本時,現(xiàn)有分類算法根據(jù)計算得到的Score值將該正樣本排在負樣本前面的概率值即AUC值。AUC值越大,分類算法越有可能將正樣本排在負樣本前,即能夠更好地分類。

        對于本文模型,O值由選定目標時刻到后1個月內(nèi)交易記錄決定,I、L值由選定時刻之前時間區(qū)間內(nèi)交易記錄決定,且每一組I、L、O可以計算一個ROC曲線及AUC值。AUC值越大,說明通過模型建立的分類器效果越好。

        用戶違約情況與用戶網(wǎng)絡(luò)特征情況如表1、表2所示。

        表1 用戶違約特征基本屬性以及其與違約情況的相關(guān)系數(shù)

        表2 用戶網(wǎng)絡(luò)特征基本屬性以及其與違約情況的相關(guān)系數(shù)

        從表1、表2可以看出,從單個特征自身與違約情況的相關(guān)系數(shù)來看,在歷史違約中提取的相關(guān)特征具有明顯的相關(guān)性。而網(wǎng)絡(luò)特征中只有入度中心性與PageRank值有一定的相關(guān)性,其他特征基本沒有明顯的相關(guān)性,且因為違約用戶在全部用戶中占比較小,所以所有個人違約相關(guān)特征中位數(shù)為0。

        2.5 模型最佳參數(shù)選取

        基于模型效果來分析最佳構(gòu)成網(wǎng)絡(luò)所使用的記錄區(qū)間。網(wǎng)絡(luò)構(gòu)建最佳數(shù)據(jù)區(qū)間如圖4所示,在使用1個月~7個月數(shù)據(jù)時AUC值隨時間選取增長而提高,在7個月之后幾乎趨于穩(wěn)定并在12個月達到峰值。數(shù)據(jù)區(qū)間為1個月時明顯效果最差,此時使用的數(shù)據(jù)量較少,很難反映出用戶的實際信用及行為特點。隨著選取數(shù)據(jù)區(qū)間的擴大,模型效果越來越好,但數(shù)據(jù)區(qū)間擴大到一定程度后趨于穩(wěn)定且使用全量數(shù)據(jù)模型效果反而會降低。原因是實際網(wǎng)絡(luò)中存在動態(tài)變化,一味增大數(shù)據(jù)量而忽視時間的衰減效應(yīng),是不合理的。本文認為12個月即一年間的信用及交易記錄是用戶的最佳信用評價區(qū)間,即選擇數(shù)據(jù)區(qū)間在12個月左右能夠達到模型效果最佳值。

        圖4 模型AUC值與選取數(shù)據(jù)區(qū)間的關(guān)系

        將原數(shù)據(jù)進行歸一化后,由2017年4月1日的12個月數(shù)據(jù)模型分析得到的各特征權(quán)重情況如表3所示。由表3可以看出,用戶歷史的違約情況在風(fēng)險預(yù)測中影響最大,而在逾期相關(guān)屬性中,最大逾期本金與逾期次數(shù)對未來逾期影響較小,累計屬性的影響較大。網(wǎng)絡(luò)特征在模型中有較大的影響,其中,特征向量中心性、出度中心性、接近度中心性有顯著的負向權(quán)重。

        表3 典型相關(guān)模型特征權(quán)重

        3 實驗結(jié)果與分析

        本次實驗的數(shù)據(jù)為某P2P網(wǎng)貸公司中3 345個用戶間的929 403條借貸記錄數(shù)據(jù)。選定2017年4月1日前12個月的數(shù)據(jù)作為初始研究對象。實驗數(shù)據(jù)的基本屬性情況如表4所示。

        表4 實驗數(shù)據(jù)基本屬性

        經(jīng)模型計算出的風(fēng)險用戶為755人,其風(fēng)險量化分布如圖5所示。以所有研究特征均為0的空白用戶風(fēng)險評價值作為分割,高于該值的用戶定義為風(fēng)險用戶,將風(fēng)險用戶的預(yù)測值進行歸一化。

        圖5 風(fēng)險用戶風(fēng)險值柱狀分布

        2017年5月構(gòu)建模型的預(yù)測權(quán)重以及2017年4月模型權(quán)重減去2017年5月權(quán)重所得差值的情況如表5所示。由表5可以看出,對不同時間區(qū)間分析而得到的模型,其權(quán)重有一些差異,但模型中指標對結(jié)果的影響方向以及指標的權(quán)重排序是近似的。

        表5 不同時間模型的特征權(quán)重以及差值情況

        前文所提到的6個典型特征在不同時間的分布情況如圖6所示。由圖6可以看出,不同時間的特征分布差異并不大,即本文中特征的分布對時間具有較強的魯棒性。本文模型與決策樹模型[15]的訓(xùn)練結(jié)果對比如圖7所示。其中,橫坐標代表該次應(yīng)用測試距離模型生成的時間。由圖7可以看出,本文模型表現(xiàn)更穩(wěn)定,更具有魯棒性,模型在使用訓(xùn)練數(shù)據(jù)分析生成后,應(yīng)用在之后的數(shù)據(jù)集上仍然有較好的效果,隨時間推延模型效果衰減緩慢。決策樹模型對訓(xùn)練集能夠得到很好的效果,但將該模型應(yīng)用在之后的未知情況時,預(yù)測效果降到70%左右,出現(xiàn)了過擬合的現(xiàn)象。鑒于在實際場景應(yīng)用中,預(yù)測風(fēng)險用戶并采取相應(yīng)措施是本文的主要目的,因此,可以認為本文模型在此場景下優(yōu)于決策樹模型。

        圖6 網(wǎng)絡(luò)特征分布隨時間的變化情況

        圖7 2種模型訓(xùn)練結(jié)果對比

        4 結(jié)束語

        違約是互聯(lián)網(wǎng)金融平臺中常見的不良行為,不僅會使交易中的一方蒙受損失,對平臺中用戶的交易傾向也會產(chǎn)生不利影響。本文基于典型相關(guān)分析模型及用戶復(fù)雜網(wǎng)絡(luò)特征提取方法,對用戶建立合理的違約風(fēng)險量化及預(yù)測模型,并對用戶的個人特征及網(wǎng)絡(luò)特征對違約風(fēng)險的影響進行分析與評價。分析結(jié)果表明,用戶的一些網(wǎng)絡(luò)特征對于違約的影響要大于其個人特征。在實際互聯(lián)網(wǎng)平臺運營過程中,對于預(yù)測風(fēng)險較高的用戶進行更多的關(guān)注與審核,可以有助于對平臺違約率的控制。但本文模型的數(shù)據(jù)集仍存在一定局限性,下一步將對此進行改進并擴大特征的提取與選擇范圍,以取得更好的預(yù)測效果。

        猜你喜歡
        借貸交易節(jié)點
        CM節(jié)點控制在船舶上的應(yīng)用
        Analysis of the characteristics of electronic equipment usage distance for common users
        基于AutoCAD的門窗節(jié)點圖快速構(gòu)建
        領(lǐng)導(dǎo)決策信息(2017年13期)2017-06-21 10:10:43
        民間借貸對中小企業(yè)資本運作的影響
        交易流轉(zhuǎn)應(yīng)有新規(guī)
        上海國資(2015年8期)2015-12-23 01:47:28
        信息不對稱下P2P網(wǎng)絡(luò)借貸投資者行為的實證
        抓住人才培養(yǎng)的關(guān)鍵節(jié)點
        大宗交易
        《吃飯的交易》
        国产亚洲午夜高清国产拍精品不卡| 300部国产真实乱| 国产乱子伦露脸在线| 一本色道久久综合中文字幕| 在线视频观看一区二区| 免费无码不卡视频在线观看| 性色av 一区二区三区| 久久亚洲午夜牛牛影视| 国产黄色一区二区三区,| 99精品视频69v精品视频| 亚洲av日韩av高潮潮喷无码| 日本激情网址| 亚洲女人毛茸茸的视频| 午夜免费电影| 国产精品视频一区二区三区四| 日韩精人妻无码一区二区三区| 国产精品亚洲一二三区| 欧美丰满熟妇bbb久久久 | 久久免费网站91色网站| 亚洲毛片在线观看免费| 男ji大巴进入女人的视频小说| 538在线啪在线观看| 成人短篇在线视频夫妻刺激自拍| 亚洲男人天堂一区二区| 日本老熟妇毛茸茸| 精品久久久久久蜜臂a∨| 日本在线观看三级视频| 台湾佬中文网站| 亚洲级αv无码毛片久久精品| 国产一区二区内射最近人| 国语对白免费观看123| 欧美大成色www永久网站婷| 日韩欧美国产丝袜视频| 亚洲高清激情一区二区三区| 国产成a人亚洲精品无码樱花| 少妇人妻在线视频| 日韩精品一区二区三区四区五区六| 日本一区二区视频免费在线看| 国产精品无圣光一区二区| 春色成人在线一区av| 国产精品一二三区亚洲|