梁佩
摘 要:隨著科學(xué)技術(shù)的快速發(fā)展,伴隨著銀行貸款的相關(guān)活動越來越頻繁,但是貸款的拖欠及壞賬的產(chǎn)生等現(xiàn)象出現(xiàn),銀行面臨的貸款風(fēng)險越來越大,而這時信用也越發(fā)顯得重要。所以本文基于隨機(jī)森林的方法將一批信貸數(shù)據(jù)進(jìn)行數(shù)據(jù)分析,將 1000 個觀測值分成兩類,畫出各個變量的重要性圖,根據(jù)信用的好壞決定是否貸款,最后對這批數(shù)據(jù)做出總結(jié)與預(yù)測。
關(guān)鍵詞:銀行貸款;信用風(fēng)險;數(shù)據(jù)分析;分類;總結(jié)預(yù)測
中圖分類號:F23 ? ? 文獻(xiàn)標(biāo)識碼:A ? ? ?doi:10.19311/j.cnki.1672-3198.2020.33.053
0 引言
在經(jīng)濟(jì)的快速發(fā)展的今天,人們的消費觀念已經(jīng)從以前的“有就用,沒有就不用”轉(zhuǎn)變?yōu)椤疤崆跋M”,因此很多人會選擇銀行貸款解決自己在創(chuàng)業(yè)、購房中遇到的經(jīng)濟(jì)問題,這樣會暫時緩解他們的經(jīng)濟(jì)壓力,同時銀行會承擔(dān)銀行貸款所帶來相應(yīng)風(fēng)險,其中主要的就是不良貸款,倘若不良貸款率過高,會對銀行的正常運營有一定的影響,因此對客戶信息進(jìn)行判斷是有必要,而且影響銀行貸款的因素有很多種,例如,客戶財產(chǎn)狀況、貸款目的、住房情況、工作情況、信貸金額等。因此明白銀行和客戶之間存在一個問題:銀行針對客戶的情況進(jìn)行判斷客戶是否能夠成功貸款,判斷的結(jié)果會有一定的誤差,同時客戶對于自己是否能夠貸款存在疑問。因此為了解決這一情況,就需要對銀行的貸款數(shù)據(jù)進(jìn)行分析預(yù)測,在知道真實數(shù)據(jù)的情況下,利用隨機(jī)森林模型對銀行貸款數(shù)據(jù)進(jìn)行分析預(yù)測,從而得到較好的預(yù)測模型。
1 基于隨機(jī)森林的銀行貸款數(shù)據(jù)模型構(gòu)建
1.1 隨機(jī)森林基本原理
隨機(jī)森林是根據(jù)bagging算法進(jìn)行改變轉(zhuǎn)化而來的,是一個樹狀的分類器{h(x,βk,k=1,…)},它是以自主法重采樣為主,通過有放回地重復(fù)隨機(jī)抽樣組成一個有N個樣本的新樣本訓(xùn)練集合,再根據(jù)新的樣本集構(gòu)建出k個決策樹,最終形成一個隨機(jī)森林,最后由決策樹投票的多少決定測試數(shù)據(jù)的分類結(jié)果,當(dāng)有一個新的樣本數(shù)據(jù)需要預(yù)測時,樣本數(shù)據(jù)則需要經(jīng)過隨機(jī)森林中的每一棵決策樹,最后在統(tǒng)計出的分類結(jié)果推斷出可能性最大的分類。
1.2 隨機(jī)森林模型的實現(xiàn)
(1)觀察數(shù)據(jù),選擇并使用的時是來自UCI數(shù)據(jù)庫中的關(guān)于是否貸款的數(shù)據(jù)集進(jìn)行隨機(jī)森林算法分析,該數(shù)據(jù)集時關(guān)于銀行貸款中的各個變量對客戶貸款的影響情況,首先對本數(shù)據(jù)進(jìn)行預(yù)處理。
(2)利用R軟件對數(shù)據(jù)集中的信息進(jìn)行簡要的概括,發(fā)現(xiàn)其中的有些變量并不是數(shù)據(jù)變量,并且最后一項是現(xiàn)實生活中的真實數(shù)據(jù)。在這個數(shù)據(jù)集中包含了1000個數(shù)據(jù)以及21個樣本特征,為了更加了解V21變量,利用軟件對V21進(jìn)行分析,V21是真實結(jié)果,因此在本論文中它是作為結(jié)果變量,因此本文決定將樣本中的“1”定義為“good”,“2”定義為“bad”,及對應(yīng)客戶是否貸款。
(3)建立模型,利用R軟件對數(shù)據(jù)集進(jìn)行建模,建立模型的過程中可以利用既定公式構(gòu)建模型,也可以根據(jù)數(shù)據(jù)構(gòu)建模型,而本論文所所選用的方式是第一種,為了更好的體現(xiàn)出模型的預(yù)測精度和泛化能力,本論文將數(shù)據(jù)集中的700(約70%)的數(shù)據(jù)作為訓(xùn)練集,300(約30%)的數(shù)據(jù)作為測試集,并且利用測試集對模型的預(yù)測精度和泛化能力進(jìn)行一個了解。隨機(jī)森林模型的影響因素主要有兩點:樹的節(jié)點看和決策樹m的數(shù)量,在本次建模中將其設(shè)為m=500,k=4,以這些條件構(gòu)建隨機(jī)森林模型1。
在表1所示,我們可以得到該模型的總的袋外誤分率為27.5%,并且由表顯示模型將類別bad中120個判給good,預(yù)測誤判率是62.83%,將類別good判給bad的由45個,預(yù)測誤判率是11.00%。
1.3 隨機(jī)森林結(jié)果分析及其模型的優(yōu)化
為了將模型的預(yù)測誤判率降低,得到一個較好的模型,我們需要對模型1進(jìn)行優(yōu)化在上述過程中構(gòu)建的隨機(jī)森林模型并不是最優(yōu)模型,因此我們需要對隨機(jī)森林模型進(jìn)行優(yōu)化。有兩個因素決定隨機(jī)森林模型的預(yù)測能力:
(1)第一個是決策樹的節(jié)點,利用軟件計算出在那個節(jié)點隨機(jī)森林的誤差率最小,即可得到最優(yōu)節(jié)點,在R軟件中,我們利用rate函數(shù),展示出所有模型誤判率的均值,通過圖1可知隨著樹的節(jié)點的改變,在模型1的輸出結(jié)果中可以得到該函數(shù)的默認(rèn)節(jié)點的變量是4,并不是最優(yōu)參數(shù),但是由本數(shù)據(jù)構(gòu)建的模型誤判率均值最低的是在決策樹的節(jié)點所選變量數(shù)為16時,因此在模型的優(yōu)化過程中,模型的最優(yōu)節(jié)點是16。
(2)通過上述實驗,得到最優(yōu)數(shù)節(jié)點k=16,最優(yōu)決策樹數(shù)量m=140時,得到隨機(jī)森林模型2。
通過對模型的優(yōu)化,發(fā)現(xiàn)隨機(jī)森林模型2的預(yù)測誤差比模型1 的要低,由表3顯示模型將類別bad中149個判給good,預(yù)測誤判率是49.67%,將類別good判給bad的由74個,預(yù)測誤判率是10.57%都比模型1的要低。
1.4 變量重要性對比
在圖1中列出了所有的自變量在兩科不同算法下,得出相應(yīng)自變量的重要值,在圖中自變量對應(yīng)的指標(biāo)值說明該自變量對模型的判別影響較大,在圖中的將平均精確率減少值和平均不純度減少值進(jìn)行降序排列,MDA值越大就說明該自變量對分類的準(zhǔn)確性影響越大,該自變量也就更加重要,與此同時,當(dāng)自變量的MDI值越大,表明該自變量對模型的分類結(jié)果影響也就越大,因此這樣可以作為評價自變量的一種方式。
當(dāng)我們利用R對貸款數(shù)據(jù)中的20個自變量進(jìn)行MDA值和MDI值進(jìn)行從小到大的排序,由圖我們可以看出在這20個自變量中最影響客戶是否能夠成功貸款的因素有V1、V5以及V3,即為現(xiàn)有活期存款、信用記錄和信貸金額,因此我們可以知道借款人的信用記錄已然成為金融機(jī)構(gòu)值得重視的一點,倘若借款人的信用記錄不好的情況下,銀行產(chǎn)生不良貸款的幾率也會越大。相應(yīng)的銀行所承擔(dān)的風(fēng)險也會越大。因此當(dāng)銀行是否給予客戶貸款的時候,可以查詢貸款人的信用記錄進(jìn)行判斷,并且信貸金額與活期存款也是需要考慮的問題,以此降低銀行的信用貸款不良率。
2 總結(jié)與展望
本文利用隨機(jī)森林算法針對銀行貸款數(shù)據(jù)中20個變量構(gòu)建隨機(jī)森林模型,根據(jù)已有的條件對客戶是否能夠成功貸款做出預(yù)測,并與真實值做對比,得到一個預(yù)測精度高、泛化能力強(qiáng)的模型,對銀行在面對客戶貸款的時候,可以根據(jù)這一個模型做出一定的參考,以此降低不良貸款的幾率,降低銀行風(fēng)險。
對于銀行決策者而言,在了解個人/企業(yè)的基本信息之后,再推斷是否向客戶提供貸款,在這一過程中銀行的目的是盡可能的降低不良貸款率,從而保障銀行自身的發(fā)展,本文通過對國外銀行貸款數(shù)據(jù)進(jìn)行分析,發(fā)現(xiàn)在銀行客戶信息中的現(xiàn)有活期存款、信用記錄和信貸金額對客戶的影響較大,因此在銀行對客戶進(jìn)行推斷的時候,可以主要對這幾個方面進(jìn)行推斷,例如信用記錄,當(dāng)一名客戶信用記錄良好的情況下將貸款撥給他,他按時還款的幾率比較大,從而不會影響銀行的正常操作,并且有利于銀行的發(fā)展。
對于個人/企業(yè)而言緩解了一定時期內(nèi)的經(jīng)濟(jì)壓力,有利于自身的發(fā)展/壯大,通過銀行數(shù)據(jù)的研究分析發(fā)現(xiàn),客戶需要關(guān)注自己的信用記錄,一個人的信用記錄是否良好,是銀行貸款中最基本的一項,因此個人/企業(yè)需要保證自己的信用記錄良好,倘若之后需要貸款,信用良好能夠成為自己的一個加分項。
參考文獻(xiàn)
[1]王春峰,萬海暉.商業(yè)銀行信用風(fēng)險評估及其實證研究[J].管理科學(xué)報,1998,1(1):68-72.
[2]章彰商.業(yè)銀行信用風(fēng)險管理[M].北京:中國人民大學(xué)出版社,2002.
[3]李志輝.現(xiàn)代信用風(fēng)險管理量化度與管理研究[M].北京:中國金融出版社,2001.
[4]李樂.我國商業(yè)銀行信用風(fēng)險管理的現(xiàn)狀、問題及原因分析[J].金融經(jīng)濟(jì),2008,(5).
[5]趙德川.論商業(yè)銀行風(fēng)險管理和政策——信用風(fēng)險[J].商情,2013,(46):32-32.
[6]陸正飛,楊德明.商業(yè)信用:替代性融資,還是買房市場[J].管理世界,2011(04).
[7]商業(yè)銀行財務(wù)風(fēng)險管理研究[D].長春:吉林財經(jīng)大學(xué),2014.
[8]雷娜.企業(yè)利用商業(yè)信用籌資的利弊分析[J]. 財會研究,2015,(08).
[9]張余琴,杜寬旗.企業(yè)銀行貸款與貿(mào)易信貸選擇實證研究——以江蘇省企業(yè)為例[J].金融經(jīng)濟(jì),2013,(20).