鄭印 殷瑩瑩 王鵬 劉金嬋 梁斌
摘要:精準扶貧是打贏脫貧攻堅戰(zhàn)的重要手段,而金融扶貧在精準扶貧工作中舉足輕重。目前,農(nóng)村信貸風險管理問題頻繁出現(xiàn),嚴重影響金融機構在農(nóng)村開展信貸業(yè)務;規(guī)范農(nóng)村信貸體系,降低風險,迫在眉睫。本文以“農(nóng)戶信貸風險評估”為主題,收集農(nóng)戶信貸數(shù)據(jù),多維度構建信貸風險評估體系,運用AdaBoost-隨機森林方法對農(nóng)戶小額信貸風險進行評估。根據(jù)模型結果,構建農(nóng)村信貸風險管理體系,在降低信貸風險的同時最大限度致力于金融扶貧工作。
關鍵詞:農(nóng)戶信貸風險;AdaBoost;隨機森林
二十一世紀以來,“三農(nóng)”問題一直對國家農(nóng)村經(jīng)濟發(fā)展和金融穩(wěn)定有著很大的影響,要想發(fā)展農(nóng)村經(jīng)濟,必不可少的一步就是加大對農(nóng)村金融的投入,基于此農(nóng)戶小額信貸開始在我國農(nóng)村普遍實行開來。金融政策不斷加大對農(nóng)戶的服務力度,力求建立完整、完善的信貸風險評估機制對有貸款需求的農(nóng)戶進行放貸并定制合適的貸款額度、利率和期限。但在當前的農(nóng)村金融環(huán)境下,農(nóng)戶對于信貸的風險少有認知,農(nóng)村金融機構對于風險的控制能力也有待加強,所以如何規(guī)范信貸風險問題,提高信貸管理水平,就成為當前影響著農(nóng)村經(jīng)濟發(fā)展的重要因素。Congjun Rao(2020)以 Pterosaur Loan平臺中的信貸數(shù)據(jù)集作實驗樣本,建立了兩階段融合成本敏感隨機林(SCSRF)模型來評估借款人的信用風險。從隨機森林出發(fā),據(jù)數(shù)據(jù)類別的實際分布構造代價關系,在代價函數(shù)中使用熵權方法引入加權馬氏距離,對代價敏感的決策樹基分類器采用加權投票。通過網(wǎng)格搜索對SCSRF模型的參數(shù)進行了優(yōu)化。顧洲一(2020)以國內(nèi) Y 銀行的相關信貸數(shù)據(jù)作為樣本,應用XGBoost 模型建立客戶申請評分模型,并運用該模型對新客戶的違約概率進行預測,研究發(fā)現(xiàn)模型在訓練集和測試集上得分最高 (得分即模型預測為壞客戶的概率)的5%的客戶可以分別覆蓋 78.7%和 55.6%的壞客戶。本文將從農(nóng)戶小額信貸領域檢驗 AdaBoost-隨機森林算法的優(yōu)異性,并與其他方法做出實證對比。
1.數(shù)據(jù)來源及基本理論
1.1數(shù)據(jù)來源
為獲取與農(nóng)戶信貸相關數(shù)據(jù)指標,本文采取實地調(diào)研與問卷相結合的形式從A省B區(qū)取得123家有信貸評級的農(nóng)戶信息,以及A省C區(qū)302家無信貸評級的農(nóng)戶信息。
1.2基本理論
為了更好的了解與預測農(nóng)戶信貸風險水平,本文根據(jù)收集的農(nóng)戶信貸數(shù)據(jù),多維度構建信貸風險評估體系,運用AdaBoost-隨機森林方法對農(nóng)戶小額信貸風險進行評估,下面對隨機森林(random forest)算法工作原理與AdaBoost如何優(yōu)化隨機森林算法進行解釋說明。
(1)隨機森林算法的基本原理
隨機森林算法是一種對樣本進行訓練和預測的分類模型,其本質是一種裝袋集成算法。裝袋集成算法是對決策樹(基評估器)的預測結果進行平均或用多數(shù)表決原則來決定隨機森林(集成評估器)的結果。
決策樹的結構類似與一棵樹,它將每種可能發(fā)生的情況及對應概率清晰的表示在一個流程圖中,是一種非常直觀的圖解法。決策樹是一種預測模型,其每個決策分支對應不同的情況不同的概率,通過計算分析得到不同的結果,常用于估計項目的風險,判斷項目的可行性。
為使隨機森林中每棵分類樹互不相同,一種簡單的方法是采用不同的訓練集建立決策樹,再將多棵決策樹合并在一起組成隨機森林。
隨機森林算法的基本步驟:
1)原始訓練集中包含n個樣本,從中有放回的抽取n次形成一個含有n個樣本的自助集
2)從自助集的所有屬性中選取a個屬性,根據(jù)這些屬性建立一棵決策樹
3)重復以上步驟m次,可以得到m棵不同決策樹,隨機森林由這m棵決策樹組成
4)m棵決策樹分別對樣本進行預測,得到m個分類結果
5)對產(chǎn)生的m個分類結果進行投票,得票最多的結果是最終的結果
(2)AdaBoost-隨機森林算法的基本原理
AdaBoost算法是一種迭代算法。AdaBoost算法的工作原理,初始樣本中每個樣本所占權重相同,用弱分類器訓練樣本,將各個學習誤差率聯(lián)系在一起,不斷調(diào)整誤差率高的訓練樣本點的權重值,誤差率低的弱分類器在最終分類器中占的比例較大,以得到一個強分類器。
本文將隨機森林作為弱分類器,用AdaBoost算法進行迭代構建AdaBoost-隨機森林模型,基本步驟如下:
1)給每個初始樣本賦權重得到權值分布D1,保證每個樣本初始權重相同w1i=1/N,同時建立好隨機森林。
2)對樣本數(shù)據(jù)進行多次迭代,得到樣本數(shù)據(jù)新的權值分布Dm,再對權值分布為Dm的樣本進行訓練得到弱分類器。
em為評估誤差和,ym(xn)為評估的結果,tn為期望的結果
3)計算隨機森林(弱分類器)在最終分類器中的權重,得各隨機森林的權重為。
4)更新樣本中每個樣本的權重,進行新一輪的迭代
Dm+1是新一輪迭代的樣本權值分布,wm-1,i是第i個樣本的權重,Zm是歸一化因子
5)迭代完成后,將若干個弱分類器(隨機森林)按其權重組合起來
2.AdaBoost-隨機森林模型
2.1研究思路
通過對調(diào)研得到的數(shù)據(jù)進行分析并選取指標,將其按層次結構劃分為一級二級指標。一級指標有農(nóng)戶基本情況、農(nóng)戶信貸情況、農(nóng)戶家庭收入情況三個。其中農(nóng)戶基本情況共分為戶口、年齡、婚姻狀況、家庭關系、文化程度、健康狀況和家庭成員品行等七個二級指標;農(nóng)戶信貸情況共分為是否違約、貸款金額、信譽評價等三個二級指標;農(nóng)戶家庭收入情況共分為家庭人均年凈收入、家庭年凈收入等兩個二級指標。通過對指標進行量化,最后構建Adaboost-隨機森林模型對農(nóng)戶信貸風險進行研究。
2.2研究過程
通過對A省B區(qū)123個已知信譽評級的農(nóng)戶信貸數(shù)據(jù)進行分析,通過構建Adaboost-隨機森林模型,把是否違約映射為0,1兩個值,其中沒有違約映射為0,違約映射為1。以是否違約為目標,用綜合指標進行邏輯回歸,劃分訓練集和測試集,擬合出邏輯回歸函數(shù),得出一個0-1區(qū)間的連續(xù)值,模型擬合準確度為84%,混淆矩陣得出的ACC準確率為80%。
2.3結果分析
結果顯示,A省C區(qū)的302個農(nóng)戶有35個農(nóng)戶獲得A等級信譽評級,137個農(nóng)戶獲得B等級信譽評級,123個農(nóng)戶獲得C等級信譽評級,7個農(nóng)戶獲得D等級信譽評級。同時結果顯示,在302個農(nóng)戶中,有69個農(nóng)戶可能會出現(xiàn)違約情況。
3.結語
本文通過A 省B 地區(qū)調(diào)研得到的123個農(nóng)戶的信貸數(shù)據(jù)對C區(qū)的302個農(nóng)戶進行了信譽評級和是否違約的預測,構建了AdaBoost-隨機森林模型,使用 ROC 曲線的值對 A 省 C 地區(qū)的調(diào)研數(shù)據(jù)進行了預測。
參考文獻:
[1]Rao,CJ;Liu,M;Goh,M;Wen,JH.2-stage modified random forest model for credit risk assessment of P2P network lending to Three Rurals borrowers [J].Applied Soft Computing Journal,2020,95.
[2]顧洲一.基于XGBoost模型的銀行信貸高風險客戶識別研究——以我國Y銀行為例[J].上海立信會計金融學院學報,2020(01):17-28.
[3]宋鑫.隨機森林優(yōu)化算法在農(nóng)戶信用風險評估中的應用[D].云南師范大學,2018.
[4]許劍,張洪偉.Adaboost算法分類器設計及其應用[J].四川理工學院學報(自然科學版),2014,27(01):28-31.
[5]田瑩瑩,馬一寧,韓景旺.“鄉(xiāng)村振興”戰(zhàn)略下農(nóng)戶信用評價體系構建研究[J].現(xiàn)代商貿(mào)工業(yè),2019,40(15):106-107.
[6]李佳容.隨機森林在甘肅省農(nóng)村貧困戶識別中的應用[J].農(nóng)村經(jīng)濟與科技,2018,29(04):188+190.
本文系 安徽財經(jīng)大學大學生科研創(chuàng)新基金項目研究成果,項目編號:XSKY2198。
作者簡介:
鄭印(2001—)男,漢族,安徽六安人,安徽財經(jīng)大學管理科學與工程學院,2018級本科生,信息管理與信息系統(tǒng)專業(yè)。
殷瑩瑩(2000—)女,漢族,安徽六安人,安徽財經(jīng)大學金融學院,2018級本科生,金融學專業(yè)。
王鵬(2001—)男,漢族,安徽六安人,安徽財經(jīng)大學管理科學與工程學院,2018級本科生,計算機科學與技術專業(yè)。
劉金嬋(2000—)女,漢族,安徽安慶人,安徽財經(jīng)大學統(tǒng)計與應用數(shù)學學院,2018級本科生,數(shù)據(jù)科學與大數(shù)據(jù)技術專業(yè)。
梁斌(2000—)男,漢族,安徽六安人,安徽財經(jīng)大學管理科學與工程學院,2018級本科生,計算機科學與技術專業(yè)。