佘朝兵
?
Logistic回歸在銀行個人信貸風險評估上的應(yīng)用研究
佘朝兵
(吉首大學張家界學院,湖南 張家界 427000)
信貸風險是影響銀行穩(wěn)定性的一個主要因素。利用Logistic回歸算法,對2007—2011年某信貸網(wǎng)站40 000多條個人貸款數(shù)據(jù)進行訓(xùn)練,在采用權(quán)重策略解決樣本不平衡問題的實驗背景下發(fā)現(xiàn),在不同實驗權(quán)重下,Logistic回歸算法召回率達65%以上,銀行可根據(jù)目的采取合適的權(quán)重,從而獲取更好的結(jié)果。
Logistic回歸;信貸風險;風險評估;訓(xùn)練數(shù)據(jù)
隨著市場經(jīng)濟的發(fā)展,金融行業(yè)欣欣向榮。個人信用貸款已經(jīng)成為銀行的主營業(yè)務(wù)之一,同時,個人貸款也進一步促進了經(jīng)濟的繁榮發(fā)展。因此,個人信貸對銀行和社會的發(fā)展都是十分重要的。然而,由于個人信貸的主體條件不同,此外,我國也缺乏個人信用制度,因此,個人信貸業(yè)務(wù)存在信貸風險,而信貸風險也是銀行不可避免的問題。對于銀行,如何有效地控制信貸風險,從而降低成本,成為了銀行管理部門需要重點解決的問題。因此,信貸風險的評估顯得尤其必要。Logistic回歸算法是機器學習領(lǐng)域分類的經(jīng)典算法,該算法可通過大量的訓(xùn)練數(shù)據(jù)對新樣本進行預(yù)測。本文主要利用邏輯回歸算法對個人信貸風險評估進行預(yù)測,以期為銀行管理部門信貸風險評估的決策提供依據(jù)。
Logistic回歸算法是指通過對已有的數(shù)據(jù)進行分析,對已有數(shù)據(jù)的分類邊界線建立回歸公式,利用回歸公式計算新樣本數(shù)據(jù)的函數(shù)值,以此對新樣本進行分類預(yù)測。Logistic回歸算法主要解決二分類問題。
上面提到的Logistic回歸算法的主要原理為在分類邊界建立回歸函數(shù)。該函數(shù)接收預(yù)測數(shù)據(jù)并進行預(yù)測分類,特別是處理二分類問題時,回歸函數(shù)輸出0或1用于判定類別。考慮到回歸函數(shù)的性質(zhì)以及計算的方便性,回歸函數(shù)沒有采用階躍函數(shù),而是采用Sigmoid函數(shù)。Sigmoid函數(shù)的計算公式如下:
上述函數(shù)的定義域為[-∞,+∞],值域為(0,1).當=0時,函數(shù)值為0.5,隨著的增大,函數(shù)值趨近0;隨著的減少,函數(shù)值趨近1.
對于訓(xùn)練樣本而言,設(shè)計損失函數(shù),利用梯度下降法為每個特征設(shè)置最優(yōu)的權(quán)重。當預(yù)測新樣本類別時,利用得到的最優(yōu)權(quán)重,得到新樣本所有特征的回歸值,最后將回歸值賦予,代入Sigmoid函數(shù)中。如果函數(shù)結(jié)果大于等于0.5,則預(yù)測為1;否則預(yù)測為0.預(yù)測類別的公式如下:
假設(shè)訓(xùn)練樣本有個,分別用1,2,…,N表示。每個樣本有個特征屬性,以第個樣本i為例,該樣本的個特征分別用i1,i2,…ij,…iM表示,該樣本的真實類別為(i),其中,損失函數(shù)的計算公式如下:
式(3)中:(i)為第個樣本的回歸值,其計算公式如下:
梯度下降法求最優(yōu)權(quán)重的計算公式如下:
Logistic回歸算法的步驟如下:①收集數(shù)據(jù);②將數(shù)據(jù)類型預(yù)處理為數(shù)值型;③輸入訓(xùn)練數(shù)據(jù)得出最佳分類回歸系數(shù);④根據(jù)分類回歸函數(shù),計算預(yù)測樣本的類別;⑤評估分類效果。
實驗數(shù)據(jù)來自互聯(lián)網(wǎng)。下載的實驗數(shù)據(jù)包含了從2007—2011年間約40 000條個人貸款數(shù)據(jù)。實驗數(shù)據(jù)中每個記錄包括編號、會員編號、申請貸款額、實際貸款額、貸款期限、申請人所在單位名稱、等級、利率、平均年收入、固定資產(chǎn)、貸款狀態(tài)、貸款目的等52個特征屬性。部分實例數(shù)據(jù)如表1所示。
根據(jù)基本的數(shù)據(jù)預(yù)處理方法,首先對空值或者異常值進行刪除處理,然后根據(jù)應(yīng)用的目的以及算法特點,采取其他方法進行預(yù)處理。由上節(jié)對數(shù)據(jù)的描述可知,數(shù)據(jù)具有以下特點:特征屬性數(shù)量較多、數(shù)據(jù)類型多樣。為了提高實驗效率,避免出現(xiàn)過擬合現(xiàn)象,需要針對上述特點做以下預(yù)處理工作。
表1 實驗數(shù)據(jù)部分實例
idloan-amntfunded-amnttermint-rate/(%)gradesub-gradeLoan-status 15 0005 0003610.63BB2full paid 210 00004811.32EE2charged off 315 00007210.57DD3late
3.2.1 特征選擇
在原始數(shù)據(jù)52個特征屬性中,選擇合適的特征屬性來試驗。根據(jù)原始數(shù)據(jù),總結(jié)特征選擇的原則有3項:①與貸款結(jié)果有關(guān)的特征;②重復(fù)特征選擇只保留一項;③原始數(shù)據(jù)中特征值唯一的特征不用保留。為了方便理解,以下對上述原則舉例說明。根據(jù)第一個原則,原始數(shù)據(jù)中編號、會員編號等與貸款結(jié)果無關(guān),應(yīng)該剔除;根據(jù)第二個原則,等級和子等級都是表達的是類似含義,只保留等級一項特征;而設(shè)置第三個原則的原因是假設(shè)原始數(shù)據(jù)中某個特征全部為0,則該特征對于決策沒有參考價值,因此,沒有必要參與實驗??傊蒙鲜?項原則,通過python代碼對原始數(shù)據(jù)進行處理后,最終選擇的特征屬性為24個。
3.2.2 數(shù)據(jù)類型數(shù)值化
根據(jù)表1,所有的特征值中既包含整型,也包含浮點型、字符型。邏輯回歸算法適合處理整型、浮點型等數(shù)值型數(shù)據(jù),因此,有必要對多字符類型數(shù)據(jù)進行處理。
處理的方法即將特征屬性的屬性值按類賦予不同的數(shù)值,可假設(shè)特征屬性i共i1,i2,…,ij有個屬性值,每個屬性值都是字符類型,則為了將數(shù)據(jù)類型統(tǒng)一,可以按順序?qū)⒌趥€屬性值ik賦值為.
經(jīng)過數(shù)據(jù)類型數(shù)值化后,原始數(shù)據(jù)中所有特征值是整型或浮點型。此處特別要說明的是,貸款狀態(tài)(loan-status)表示貸款結(jié)果,可在實驗中預(yù)測標簽。該屬性有9種屬性值,比如完全支付(full paid)、不予支持(charged off)、推遲決策(late)等。由于在上述屬性值中,前2種屬性值包含的記錄數(shù)超過90%的樣本,且邏輯回歸算法主要用于二分類問題,因此,本文只采用完全支付和不予支持兩個屬性值,并將其屬性值分別賦值為1和0.
分類問題一般采用預(yù)測準確率來評價,但由于本文的樣本數(shù)據(jù)中每條記錄貸款額度不一致,因此,每個記錄的分類結(jié)果不能平等看待,預(yù)測準確率不適合評價貸款預(yù)測的結(jié)果。在貸款風險評估的應(yīng)用中,真實結(jié)果和預(yù)測結(jié)果都有“完全支付”和“不予支持”兩種情況。根據(jù)組合原理,真實結(jié)果與預(yù)測結(jié)果之間存在4種情況,比如真實結(jié)果為“完全支付”,預(yù)測結(jié)果也為“完全支付”,則可讓管理部門獲利;真實結(jié)果為“不予支持”,預(yù)測為“完全支付”,則讓管理部門承擔風險;其他情況不影響管理部門的利益。由此可見,管理部門希望邏輯回歸算法的預(yù)測結(jié)果能讓管理部門獲取最大利益??紤]到上述情況,筆者希望所有真實結(jié)果為“完全支付”的樣本中,預(yù)測結(jié)果為“完全支付”的樣本越多越好;而所有“不予支持”的樣本中,預(yù)測為“完全支付”的樣本越少越好。上述4種情況具體如表2所示。
表2 真實結(jié)果與預(yù)測結(jié)果樣本數(shù)量的對比
預(yù)測真實 完全支付不予支持 完全支付ac 不予支持bd
根據(jù)表2所示,本文的評價指標公式為:
本文實驗數(shù)據(jù)樣本有2類,即“完全支付”樣本和“不予支持”樣本。而“完全支付”樣本在所有實驗樣本數(shù)量上超過了80%,出現(xiàn)了樣本不均衡的問題。
3.4.1 樣本不均衡問題的解決策略
由于樣本不均衡,容易導(dǎo)致算法失效。比如,90%的樣本都是“完全支付”的情況下,即使不采用機器學習算法,只需要將所有樣本預(yù)測結(jié)果設(shè)為“完全支付”也可以得到不錯的評價指標。因此,有必要在實驗中解決樣本不均衡問題。一般的解決策略有2類:①增加比例較少的樣本數(shù)量,平衡不同類別的樣本數(shù)量;②根據(jù)不同類別樣本數(shù)量的比例,反比例設(shè)置每類樣本的權(quán)重,以使每類樣本數(shù)量與權(quán)重的乘積結(jié)果基本一致。
考慮到第一類策略需要額外設(shè)計樣本數(shù)據(jù),本文采用第二種策略。
3.4.2 不同權(quán)重下的實驗結(jié)果
由于訓(xùn)練數(shù)據(jù)的樣本中貸款狀態(tài)為“完全支付”樣本數(shù)量與“不予支持”的樣本數(shù)量比例為6∶1,因此,本文要有針對性地設(shè)置不同類別的權(quán)重進行實驗。實驗中采用scikit-learn框架的邏輯回歸算法對預(yù)處理后的樣本數(shù)據(jù)進行訓(xùn)練,交叉驗證后的結(jié)果如表3所示。
表3 交叉驗證結(jié)果
權(quán)重比例TPRPR 1∶60.670 70.400 7 1∶100.973 80.940 9 1∶50.731 70.478 9
根據(jù)實驗結(jié)果發(fā)現(xiàn),在不同的權(quán)重比例下,PR即召回率達65%以上,而PR則有較大的波動。一般而言,希望PR高、PR低,但此結(jié)果如何平衡,還需要根據(jù)銀行目的采用合適的權(quán)重比例。
[1]哈林頓.機器學習實戰(zhàn)[M].李銳,譯.北京:人民郵電出版社,2013.
[2]姜楠.淺析我國商業(yè)銀行個人消費貸款風險管理[J].商業(yè)經(jīng)濟,2017(04):177-179.
[3]陳倩.基于Logistic模型的大學生校園貸研究[J].商洛學院學報,2017,31(02):80-82.
[4]逯宇鐸,金艷玲.基于Lasso-logistic模型的供應(yīng)鏈金融信用風險實證研究[J].管理現(xiàn)代化,2016,36(02):98-100.
〔編輯:張思楠〕
2095-6835(2018)19-0113-02
F832.4
A
10.15913/j.cnki.kjycx.2018.19.113
佘朝兵(1982—),男,湖南邵東人,碩士,吉首大學張家界學院講師,研究方向為云計算、大數(shù)據(jù)、數(shù)據(jù)挖掘。