當今,商業(yè)銀行業(yè)務正在遭受著眾籌、第三方支付、P2P等互聯網金融形式的沖擊。從現在銀行的信貸數據顯示,目前商業(yè)銀行不良貸款核銷每年都是在大量增加。違約金額極其驚人,尤其是小微企業(yè)貸款違約情況嚴重。其違約情況還具有一定的空間效應,因此對小微企業(yè)的區(qū)域性信用風險研究是極其重要。若充分利用銀行豐富的數據資源,將實現商業(yè)銀行區(qū)域性風險管理上的經濟價值。
現有文獻中,關于商業(yè)銀行視角下小微企業(yè)的信用風險的研究,并沒有涉及區(qū)域性因素。在這些文獻中排除區(qū)域性因素外,有學者認為:商業(yè)銀行小微企業(yè)信貸風險源自兩個方面,一方面企業(yè)角度,另一方面銀行角度(宋華苗鳳,2018)。還有學者認為選取財務狀況、經營狀況、管理者個人素質狀況和行業(yè)及區(qū)域發(fā)展狀況四個維度構建小微企業(yè)信貸風險評價指標體系(胡心瀚等,2012)。
綜上,本文將基于區(qū)域性信用風險研究的角度,結合銀行內的小微企業(yè)的大數據,并對樣本進行非平衡數據處理,基本達到平衡狀態(tài),以法人是否違約作為分類變量,用隨機森林的方法對變量進行重要性評分排序,同時進行變量篩選,增加本文參數選取的精確性。再根據篩選后結果,建立區(qū)域性信貸風險評估的Logistic模型,挖掘影響小微企業(yè)違約的因素。
我國商業(yè)銀行一直以“吸收存款,發(fā)放貸款,獲得利差”為主要盈利模式,但是隨著現階段國內金融界各種違約事件的頻發(fā),如何降低貸款違約風險成為現階段學術界的研究熱點。本文的數據來源于國內A商業(yè)銀行提供的小微企業(yè)法人貸款詳情,總計4452條,包含年齡、A行服務年數、是否貴賓卡客戶、是否網銀客戶、是否理財客戶、介質數量、貸前6個月月均貸方發(fā)生額等14個變量,具體見表1,其中關于變量“客戶所屬地區(qū)”,本文基于樣本劃分了3個水平,即低違約率地區(qū)、中違約率地區(qū)以及高違約率地區(qū)。低違約率地區(qū)為:杭州、紹興和寧波;中違約率地區(qū)為:金華、舟山、嘉興、麗水以及湖州;高違約率地區(qū)為:臺州、溫州和衢州。
表1 數據基本情況
本文收集的客戶有效數據共計4452條。同時,由于13個自變量之間數量級差別太大,我們對貸前6個月月均貸方發(fā)生額、貸前6個月月均貸方發(fā)生筆數、貸記卡最近6個月平均使用額度、貸款最近6個月平均應還款這4個變量采取取對數的辦法進行規(guī)范化處理。
在本文收集的數據中,存在違約現象的法人客戶信息為200個,非違約法人客戶數據為4252個,屬于非平衡數據。由于類別的分布是不均衡的,傳統(tǒng)的數據挖掘算法在處理這類數據時偏向于數據量偏大的一類,對數據量偏少的類別關注比較少(柳向東和李鳳,20 16)。在銀行信貸業(yè)務中,這類數據比較常見,基于A銀行的客戶樣本數據,本文采用R語言進行非平衡數據處理,具體函數參數設置如下:少數類(違約客戶數)N=200,多數類(未違約客戶數)M= 42 52,向上采樣的倍率取n= 10,向下采樣的倍率 m= 1,用于產生新的少數類樣本的最近鄰數量 k= 10,平衡后的數據集中的少數類為2000個,多數類為2200個,基本達到平衡狀態(tài),運用于后續(xù)建立模型效果最好。
本文以法人是否違約作為分類變量,用隨機森林的方法對變量進行重要性評分排序,同時進行變量篩選?;诂F有文獻(徐婷婷,2017;吳金旺和顧洲一,2018),筆者發(fā)現:樹的棵樹(ntree)設置為500具有一定的客觀性,圖1也驗證了本文參數選取的精確性。
圖1 ntree的選取
本文將貸款最近6個月平均應還款、貸記卡額度占用率、貸款日前6個月存款日均3個變量進行了多元共線性分析,發(fā)現3個變量間并不存在明顯的多重共線性(方差擴大因子VIF均顯著小于5),即筆者認為可以選用貸款最近6個月平均應還款、貸記卡額度占用率、地區(qū)、貸款日前6個月存款日均這4個變量作為建立Logistic模型中的指標。
表2 參數估計結果
回歸系數為正的時候,表示變量每增加一個單位值時,客戶違約發(fā)生率會相應增加。當回歸系數為負的時候,說明每增加一個單位時違約發(fā)生率會減少。從Logistic模型結果發(fā)現:(1)客戶貸款日前6個月存款日均越大,則該客戶違約的概率越小,即在其他變量不變的前提下,該變量每增加一個單位,違約概率降低9%。(2)客戶貸款最近6個月平均應還款越大,則該客戶的違約概率越大,即在其他變量不變的前提下,最近6個月平均應還款每增加一個單位,違約概率約增加62%??蛻糍J款最近6個月平均應還款大,客戶還款的資金壓力就會增加,違約概率越大。(3)貸記卡額度占用率越高,則用戶的違約概率越大,即即在其他變量不變的前提下,該變量每增加一個單位,違約概率增大13%.(4)研究發(fā)現,第二類地區(qū)的違約概率要明顯高于第一類地區(qū),而第三類地區(qū)發(fā)生違約事件的概率也明顯高于一、二類地區(qū)。
隨著商業(yè)銀行業(yè)務不斷發(fā)展和數據規(guī)模的不斷増加,商業(yè)銀行的風險管理工作難度也不斷提高。要想在激烈的市場競爭中有立足之地,商業(yè)銀行必須擁有良好的信用風險管理能力。通過大數據建立的小微企業(yè)區(qū)域性信用風險評估模型,無論對傳統(tǒng)金融機構,還是互聯網金融機構,在授信審批、征信多元化、以及區(qū)域風險預警等方面,都有著廣泛的應用前景。
本文采用R語言進行非平衡數據處理,基本達到平衡狀態(tài),運用于后續(xù)建立模型效果最好。本文以法人是否違約作為分類變量,用隨機森林的方法對變量進行重要性評分排序,同時進行變量篩選,增加本文參數選取的精確性。再根據篩選后結果,建立區(qū)域性信貸風險評估的Logistic模型。同時,模型能在風險系數較高的區(qū)域中識別出信用能力好的企業(yè)。商業(yè)銀行可以基于此模型的運行機制,結合大數據+小數據的判斷模式,采取可行性的放貸方案。