程玉勝,鄒海歡
(安慶師范大學(xué)計(jì)算機(jī)與信息學(xué)院,安徽安慶246133)
從近幾年國家統(tǒng)計(jì)局發(fā)布的數(shù)據(jù)來看,商業(yè)銀行總資產(chǎn)與同期相比持續(xù)增長,貸款業(yè)務(wù)作為銀行資產(chǎn)主要組成部分也在增多,同時(shí)貸款行為要承擔(dān)的風(fēng)險(xiǎn)也在增加。因此,怎樣消除和降低信用風(fēng)險(xiǎn),就成為銀行管理的重中之重。本文提出在RFM(Recency,Frequency,Monetary)模型的基礎(chǔ)上,將其與隨機(jī)森林算法相結(jié)合,用于信用風(fēng)險(xiǎn)評估并與其他算法進(jìn)行比較,實(shí)驗(yàn)結(jié)果顯示這一模型在銀行信用風(fēng)險(xiǎn)評估中是有效的。
傳統(tǒng)RFM模型主要是通過“近期購買行為(Recency)”、“購買的總體頻率(Frequency)”和“購買金額(Monetary)”將客戶劃分成一定的等分,計(jì)算出客戶的RFM得分,得分越高的顧客其價(jià)值就越大,然后利用客戶得分構(gòu)建金字塔,劃分客戶等級,把這種分級策略理解為市場營銷中客戶劃群的思想。
在這一模型的基礎(chǔ)上重新定義RFM,即根據(jù)銀行數(shù)據(jù)特點(diǎn),將RFM分別賦予新的含義,R指最近還款金額,還款金額越多的客戶其信用狀況越好;F指一段時(shí)間內(nèi)違約的次數(shù),利用某時(shí)間段內(nèi)客戶的還款行為對其信用做一個(gè)大概的檢測;M指在某一時(shí)間段客戶的賬戶余額情況,余額越多,表示客戶還款的能力和可能性越高。通過新型RFM重構(gòu),將RFM模型篩選出的特征再次運(yùn)用于銀行貸款客戶分析當(dāng)中。
首先,采用常用的數(shù)據(jù)分析方法,如貝葉斯分類方法、決策樹算法、隨機(jī)森林算法等,找出原始數(shù)據(jù)集相關(guān)的重要屬性;然后,借助于客戶劃群的思想,對銀行數(shù)據(jù)集進(jìn)行數(shù)據(jù)重構(gòu);最后,利用對應(yīng)的算法對重構(gòu)后的RFM模型數(shù)據(jù)進(jìn)行風(fēng)險(xiǎn)評估。重建策略主要包括:
第一步:確定各個(gè)指標(biāo)的權(quán)重,將最重要的3個(gè)變量按其重要性排序分別記為M,F(xiàn),R;
第二步:設(shè)定某一標(biāo)準(zhǔn),將數(shù)據(jù)劃分:
(1)R≥A2為R1,A1<R≤A2為R2,R<A1為R3;
(2)F<X1為F1,X1≤F<X2為F2,F(xiàn)≥X2為F3;
(3)M≥B2為M1,B1≤M<B2為M2,M<B1為M3。
其中,Ai、Bi、Xi表示數(shù)據(jù)的范圍,可以由專家指定,也可以通過聚類算法進(jìn)行相應(yīng)設(shè)定。
通過上述重建,接下來采用相應(yīng)的數(shù)據(jù)分析方法進(jìn)行模型挖掘,本文采用隨機(jī)森林對重建后的數(shù)據(jù)進(jìn)行分析。
隨機(jī)森林是一種降維的方法,多應(yīng)用于數(shù)據(jù)值缺失、異常情況或探索其他數(shù)據(jù)時(shí),尤其是在預(yù)防或降低信用風(fēng)險(xiǎn)中具有很好的適用性及優(yōu)越性。蕭超武等創(chuàng)造性地將隨機(jī)森林組合分類算法用于個(gè)人信用評估模型,實(shí)驗(yàn)證明,這種分類器模型在預(yù)測個(gè)人信用評估時(shí)具有更高的精確性和穩(wěn)定性[1]。李進(jìn)構(gòu)建了基于隨機(jī)森林算法的綠色信貸信用風(fēng)險(xiǎn)評估模型,結(jié)果表明,該評估模型實(shí)現(xiàn)速度更快、評估準(zhǔn)確率更高,較為有效地提升了評估效率[2]。李泉通過引入ROC曲線對基于隨機(jī)森林的個(gè)人信用評估模型進(jìn)行評估,發(fā)現(xiàn)隨機(jī)森林的準(zhǔn)確率和穩(wěn)定性都要優(yōu)于logistic回歸和支持向量機(jī)[3]。因此本文選擇隨機(jī)森林的方法作為風(fēng)險(xiǎn)評估的分析工具。隨機(jī)森林能夠處理大量的輸入變量,并根據(jù)它自帶的feature importance對特征進(jìn)行篩選,進(jìn)行特征的重要性度量,選擇重要性較高的特征。
所用數(shù)據(jù)源于Z銀行數(shù)據(jù)庫,因存在缺失值以及不真實(shí)數(shù)據(jù)的情況,所以將數(shù)據(jù)中的異常值全部刪除。數(shù)據(jù)集包含23個(gè)變量,包括信用額度,客戶基本信息(性別、學(xué)歷、婚姻、年齡等),過去6個(gè)月的還款金額,還款是否逾期情況以及客戶賬戶金額。對各個(gè)特征進(jìn)行標(biāo)記,具體見表1。
表1 銀行數(shù)據(jù)相應(yīng)字段說明
首先將數(shù)據(jù)進(jìn)行預(yù)處理,通過對客戶資料進(jìn)行篩選發(fā)現(xiàn),年齡在60歲以上以及信用額度在50萬以上的客戶所占的百分比非常低,可忽略不計(jì),因此不做統(tǒng)計(jì)。年齡方面,21歲~30歲用1表示,31歲~40歲用2表示,41歲~50歲用3表示,51歲~60歲用4表示。信用額度方面1萬~10萬的用1表示,11萬~20萬的用2表示,21萬~30萬的用3表示,31萬~40萬的用4表示,41萬~50萬的用5表示。
為了解各類人群在信貸方面的分布情況,將以往學(xué)者比較感興趣的幾個(gè)因素做了簡單分析,這些變量主要包括信用額度、性別、學(xué)歷、婚姻情況等。
由分析結(jié)果可以知道,銀行的貸款業(yè)務(wù)中中小額貸款居多,超過40萬的很少。按照常理,會(huì)覺得銀行更需要重視大客戶,因?yàn)樗麄儠?huì)給銀行帶來更高的利潤,但事實(shí)往往不是這樣,大客戶畢竟是少數(shù),中小型客戶才是銀行貸款的主要人群。其次,貸款的人群主要為女性。國內(nèi)外很多研究顯示女性相較于男性來說,有更高的風(fēng)險(xiǎn)規(guī)避意識,對不確定性反應(yīng)也更加強(qiáng)烈。但并不意味著男性在信貸方面的比例就高于女性,現(xiàn)在的中國大陸包括臺灣地區(qū),男女比例都嚴(yán)重失調(diào),女性客戶占比高于男性也是一種趨勢。另外,貸款的主體基本上是受過高等教育的群體,且?guī)缀跏乔嗄耆耍嘣?0歲~40歲之間。因?yàn)榍嗄耆私邮苄率挛锏哪芰^強(qiáng),觀念也更為開放一些,所以更喜歡超前消費(fèi)。而婚姻狀況則對客戶的信貸狀況影響不大。對于這些小額貸款客戶、女性客戶、高學(xué)歷客戶以及青年人客戶人群,銀行應(yīng)作出更有針對性的業(yè)務(wù)管理。
數(shù)據(jù)的特征描述及其分析給出了銀行客戶的大致分布,屬于屬性數(shù)據(jù)的定性分析,但是銀行數(shù)據(jù)屬性很多,僅僅進(jìn)行定性分析,很難找到重要屬性。本實(shí)驗(yàn)選取80%的樣本作為訓(xùn)練集,其余的20%作為測試集,采用隨機(jī)森林屬性檢測方法對數(shù)據(jù)進(jìn)行分析,實(shí)驗(yàn)得出隨機(jī)森林劃分客戶信用等級的錯(cuò)誤率為24.40%。其重要性檢測的可視化結(jié)果如圖1所示。
圖1 重要屬性排序后可視化結(jié)果
平均降低精度和基尼指數(shù)是隨機(jī)森林中衡量變量重要性的指標(biāo),其值越大,變量越重要。對圖1中23個(gè)特征進(jìn)行重要性評估,發(fā)現(xiàn)賬戶余額M、逾期頻率F及最近還款金額R在變量中最為重要,所以下面將進(jìn)一步分析這3個(gè)變量對信用的影響。
分別計(jì)算平均逾期時(shí)間FA(單位:月),平均還款金額RA(單位:元),每月賬戶平均余額MA(單位:元),并將數(shù)據(jù)劃分如下:
(1)F<1為F1級客戶,1≤F<3為F2級客戶,F(xiàn)≥3為F3級客戶。
(2)R>10 000為R1級客戶,3 000<R≤10 000為R2級客戶,R≤3 000為R3級客戶。
(3)M≥10 000為M1級客戶,1 000≤ M<10 000為M2級客戶,M<1 000為M3級客戶。
將原始銀行數(shù)據(jù)轉(zhuǎn)化為基于新型RFM模型的銀行數(shù)據(jù),結(jié)果保存到相應(yīng)數(shù)據(jù)集中,記為“mydata”。實(shí)驗(yàn)得出MDA(Mean Decrease Accuracy)值和MDG(Mean Decrease Gini)值如表2所示。
表2 基于新型RFM模型隨機(jī)森林重要性檢測結(jié)果
由表2可以看出,客戶的信用歷史是申請貸款中最重要的變量,其次是賬戶余額和平均每月還款金額。
除了隨機(jī)森林,不少學(xué)者也嘗試將其他方法用于信用風(fēng)險(xiǎn)的管理。陳云等針對SVM集成學(xué)習(xí)在信用風(fēng)險(xiǎn)評估中的應(yīng)用,提出了一種混合集成方法,使得組合成員分類器的多樣性有效提升,并最終提高模型的預(yù)測準(zhǔn)確率[4]。李戰(zhàn)江等針對實(shí)際能夠獲取到的銀行樣本量少而無法準(zhǔn)確劃分信用級別的問題,建立了可分為9個(gè)信用級別的小樣本評級模型[5]。周壽彬?qū)U(kuò)散控制與違約強(qiáng)度兩個(gè)函數(shù)應(yīng)用到擴(kuò)散理論中,提出給予反常擴(kuò)散模型的信用風(fēng)險(xiǎn)評估方法,盡可能地降低銀行和個(gè)人的經(jīng)濟(jì)損失,從而優(yōu)化信貸資源的配置[6]。為了證明本文算法的有效性,將隨機(jī)森林算法(RF)和人工神經(jīng)網(wǎng)絡(luò)(ANN)、K最近鄰(KNN)以及C4.5算法的錯(cuò)誤分類率、耗時(shí)以及精確度進(jìn)行比較,同時(shí)使用80%的數(shù)據(jù)集作為訓(xùn)練集,結(jié)果如表3所示。
表3 實(shí)驗(yàn)對比
由表3可以明顯看出,人工神經(jīng)網(wǎng)絡(luò)和隨機(jī)森林算法在處理本文數(shù)據(jù)時(shí)的正確率要高于其他兩種算法,隨機(jī)森林所用時(shí)間比人工神經(jīng)網(wǎng)絡(luò)的短。將RFM模型與隨機(jī)森林結(jié)合之后,雖然正確率沒有得到提升,但耗時(shí)明顯縮短,精確度也有所提升。
針對銀行業(yè)的不良資產(chǎn)問題以及信貸風(fēng)險(xiǎn)管理難題,運(yùn)用隨機(jī)森林算法進(jìn)行分析,與其他算法對比發(fā)現(xiàn),隨機(jī)森林的正確率、精確度和耗時(shí)方面都具有優(yōu)勢。同時(shí)根據(jù)隨機(jī)森林自帶的feature importance得出客戶的信用歷史是最重要的特征,這也說明了銀行在處理客戶的貸款申請時(shí)首先看該客戶信用歷史的必要性。而對于首次貸款無歷史信用記錄的客戶,則可以根據(jù)其賬戶余額來評估其是否具有按時(shí)還款的能力。同時(shí),根據(jù)之前的特征分析,可以看出貸款客戶中,女性、高學(xué)歷及青年人是銀行貸款的主體,銀行對這些人可以開展更有針對性的業(yè)務(wù)。