蘇曉麗陳暮紫鄭麗芬葉展望
1. 北京工商大學(xué)計算機(jī)與信息工程學(xué)院 2、3、4中央財經(jīng)大學(xué)管理科學(xué)與工程學(xué)院
基于機(jī)器學(xué)習(xí)的中小企業(yè)貸款意愿預(yù)測研究
蘇曉麗1陳暮紫2鄭麗芬3葉展望4
1. 北京工商大學(xué)計算機(jī)與信息工程學(xué)院 2、3、4中央財經(jīng)大學(xué)管理科學(xué)與工程學(xué)院
本文以某銀行1887家貸款意愿已知的中小企業(yè)為研究對象,依托大數(shù)據(jù)環(huán)境下的網(wǎng)絡(luò)爬蟲技術(shù),從互聯(lián)網(wǎng)采集中小企業(yè)的工商、失信、裁判、百度以及招聘信息,建立影響中小企業(yè)貸款意愿的指標(biāo)體系,并利用決策樹和Logistic回歸算法分別對中小企業(yè)貸款意愿進(jìn)行預(yù)測。最后通過準(zhǔn)確率、F測度和ROC面積等評價指標(biāo)的對比分析發(fā)現(xiàn),決策樹模型的預(yù)測結(jié)果優(yōu)于Logistic回歸模型,并且企業(yè)是否有百度信息、是否發(fā)生工商變更、一級行業(yè)對中小企業(yè)的貸款意愿有顯著的影響,為銀行發(fā)掘貸款目標(biāo)客戶提供有益參考,同時在一定程度上緩解了中小企業(yè)融資難、融資貴問題。
大數(shù)據(jù) 機(jī)器學(xué)習(xí) 中小企業(yè) 貸款意愿預(yù)測
所謂精準(zhǔn)營銷,就是使用數(shù)據(jù)驅(qū)動,在正確的時間通過正確的渠道提供正確的信息給正確的人的營銷活動。對于銀行來說,營銷的首要目標(biāo)是要找到正確的客戶——即有貸款意愿的客戶。在我國企業(yè)總數(shù)中,中小企業(yè)占比超過99%,是我國國民經(jīng)濟(jì)和社會發(fā)展的重要力量。然而,由于我國中小企業(yè)的經(jīng)營規(guī)模往往較小,企業(yè)自有資金有限,同時,缺乏健全的日常管理及財務(wù)管理制度,存在嚴(yán)重的信息不透明,長期以來制約我國中小企業(yè)生存和發(fā)展的融資難題,依舊突出。
因此,在大數(shù)據(jù)時代背景下,依托互聯(lián)網(wǎng)爬蟲技術(shù),獲取中小企業(yè)信息,并使用機(jī)器學(xué)習(xí)的算法實現(xiàn)對中小企業(yè)貸款意愿的預(yù)測具有重要的現(xiàn)實意義,一方面在一定程度上緩解了中小企業(yè)融資難、融資貴問題,另一方面,為銀行挖掘有貸款意愿的目標(biāo)客戶提供了有益參考。
本文以某銀行的1887家貸款意愿已知的中小企業(yè)為研究對象,通過互聯(lián)網(wǎng)爬蟲技術(shù),從11315、工商、失信、裁判、百度、招聘等網(wǎng)站獲取海量公開的中小企業(yè)信息,通過變量缺失、內(nèi)部關(guān)聯(lián)強(qiáng)度和相似度等的整理和排除,共選取16個變量構(gòu)成影響中小企業(yè)貸款意愿的指標(biāo)體系,并對這些指標(biāo)影響中小企業(yè)貸款意愿的相關(guān)關(guān)系進(jìn)行了一定的經(jīng)濟(jì)學(xué)假設(shè),具體指標(biāo)如表1所示。
表1 影響中小企業(yè)貸款意愿的指標(biāo)體系
3.1 決策樹模型
決策樹在分類、預(yù)測和規(guī)則提取等領(lǐng)域有著廣泛應(yīng)用。本研究主要采用CART算法,目的是將中小企業(yè)劃分為兩類,有貸款意愿的企業(yè)和無貸款意愿的企業(yè),決策樹的各節(jié)點(diǎn)即影響中小企業(yè)貸款意愿的各個指標(biāo)。CART決策樹是一種十分有效的非參數(shù)分類和回歸方法,通過構(gòu)建樹、修剪樹、評估樹來構(gòu)建一個二叉樹。CART算法主要采用最小GINI信息增益來選擇節(jié)點(diǎn)屬性。
本研究樣本為1887家貸款意愿已知的中小微企業(yè),按照7:3的比例,將樣本分為訓(xùn)練樣本和測試樣本,其中訓(xùn)練樣本1358家,測試樣本529家。通過R軟件中的Rpart函數(shù)實現(xiàn)基于CART算法的分類回歸樹模型,分析結(jié)果如圖1所示。
從圖1可以看出,在16個候選變量中共有6個顯著變量,決策過程為:
①是否有百度信息。在測試樣本中29%的企業(yè)有百度信息,其中有貸款意愿的占比38%,故判斷這些企業(yè)沒有貸款意愿;而剩下的71%的企業(yè)沒有百度信息,但其中有貸款意愿的企業(yè)占比90%,故沒有百度信息的企業(yè)貸款意愿更加強(qiáng)烈。
②是否納稅。在29%的有百度信息的企業(yè)中,納稅企業(yè)占比25%,但這部分企業(yè)有貸款意愿的占比28%,故判斷納稅企業(yè)沒有貸款意愿;而另外4%沒有納稅信息的企業(yè)中,有94%的企業(yè)有貸款意愿,故沒有納稅信息的企業(yè)貸款意愿更加強(qiáng)烈。
③企業(yè)類型和是否工商變更。通過圖1決策樹,可以看出這兩個變量的取值,并不影響企業(yè)的貸款意愿,故這兩個變量相比另外4個變量對企業(yè)貸款意愿的影響程度相對較低,但相對于沒有進(jìn)入決策樹的變量,二者對貸款意愿的影響程度相對較高。
④一級行業(yè)。對于沒有百度信息但有工商變更的個體工商戶在全體樣本中占比8%,其中一級行業(yè)是批發(fā)零售業(yè)的企業(yè)占比7%,其中有貸款意愿的企業(yè)占比44%,故判斷這部分企業(yè)沒有貸款意愿;而一級行業(yè)不是批發(fā)零售業(yè)的企業(yè)占比2%,有貸款意愿的企業(yè)占比91%,故判斷這部分企業(yè)有貸款意愿。
表2 Logistics回歸結(jié)果
圖1 Rpart決策樹
⑤經(jīng)營年限。沒有百度信息、企業(yè)類型為個體工商戶、發(fā)生工商變更、一級行業(yè)為批發(fā)零售業(yè)的企業(yè)占比7%,這部分企業(yè)中,經(jīng)營年限為5-10年的有4%,有貸款意愿的占比35%,故判斷它們沒有貸款意愿,而經(jīng)營年限不是5-10年的占比3%,其中55%的企業(yè)有貸款意愿,故判斷這部分企業(yè)有貸款意愿。
3.2 Logistic模型
在本研究中,P表示中小企業(yè)有貸款意愿的概率,1-P表示中小企業(yè)無貸款意愿的概率,β0為常數(shù),X1,...,Xi為解釋變量,即影響中小企業(yè)貸款意愿的各個指標(biāo),β1,β2,...,βi為回歸系數(shù),ε為隨機(jī)誤差。
本研究通過R軟件中的glm函數(shù)逐步回歸實現(xiàn)Logistic模型,結(jié)果如表2所示。
通過表2可知,共有7個變量的P-Value的值都遠(yuǎn)小于0.05,分別為是否工商變更、是否有經(jīng)營地址、是否有信用網(wǎng)址、是否有百度信息、主要人員個數(shù)未知、一級行業(yè)其他以及到我行的距離10公里以外,并依次用X1,X2,...,X7分別表示。由Logistics模型可知:企業(yè)有貸款意愿的概率P與各顯著變量Xi的關(guān)系可用如下式所示:
其中是否有信用網(wǎng)址、一級行業(yè)其他、到我行的距離10公里以外等三個變量的系數(shù)為正,它們與企業(yè)貸款意愿呈正相關(guān),且系數(shù)越大,貸款意愿越大;而是否工商變更、是否有經(jīng)營地址、是否有百度信息、主要人員個數(shù)未知等四個變量的系數(shù)為負(fù),它們與企業(yè)貸款意愿呈負(fù)相關(guān),且系數(shù)越大,越?jīng)]有貸款意愿。
表3 兩種算法預(yù)測結(jié)果評估表
3.3 模型結(jié)果的對比分析
分類模型通常利用準(zhǔn)確率、精確率、召回率、F值和ROC面積等指標(biāo)進(jìn)行評估,本研究中將有貸款意愿的中小企業(yè)標(biāo)注為正類,無貸款意愿的中小企業(yè)標(biāo)注為負(fù)類。則共出現(xiàn)四種情況:
真正類(True Positive,TP):被模型預(yù)測為有貸款意愿的有貸款意愿樣本;
假正類(False Positive,FP):被模型預(yù)測為有貸款意愿的無貸款意愿樣本;
假負(fù)類(False Negative,FN):被模型預(yù)測為無貸款意愿的有貸款意愿樣本;
真負(fù)類(True Negative,TN):被模型預(yù)測為無貸款意愿的無貸款意愿樣本。
①準(zhǔn)確率(Accuracy),反映的是正確預(yù)測樣本所屬類別的概率。
一般情況下,模型的ROC>0.5,即認(rèn)為模型的效果較好。通過表3結(jié)果的對比分析發(fā)現(xiàn),決策樹模型的準(zhǔn)確率、精確率、召回率、F測度和ROC面積均優(yōu)于Logistic模型,預(yù)測效果更好。
本文依托大數(shù)據(jù)環(huán)境下的網(wǎng)絡(luò)爬蟲技術(shù),全方面獲取企業(yè)在第三方網(wǎng)站上的信息,突破了傳統(tǒng)研究中影響中小企業(yè)貸款意愿指標(biāo)體系的局限性;并且通過決策樹和Logistic模型分別對企業(yè)貸款意愿進(jìn)行預(yù)測,結(jié)果表明決策樹模型預(yù)測效果更好,一方面幫助銀行更加精準(zhǔn)地篩選目標(biāo)客戶,另一方面也在一定程度上緩解了中小企業(yè)融資難問題。但本文存在的不足是,兩種模型的顯著變量對企業(yè)貸款意愿的影響方向并不完全和假設(shè)方向一致,這也是本文今后應(yīng)該深入研究的地方。
[1]楊茜. 基于大數(shù)據(jù)的客戶細(xì)分模型及精確營銷策略研究[D].南京郵電大學(xué),2015
[2]張良均,云偉標(biāo)等.R語言挖掘與實戰(zhàn)[M].北京:機(jī)械工業(yè)出版社,2015:89-95
本文受國家自然科學(xué)基金(71673315)、北京市社科基金(16yjb036)的資助。