(上海對外經(jīng)貿(mào)大學(xué),上海 201620)
在數(shù)據(jù)挖掘中決策樹方法[1]是一個有效并且常用的方法。它的目標(biāo)是創(chuàng)建一個模型來預(yù)測樣本的目標(biāo)值。這種決策樹的自頂向下歸納是貪心算法[2]一種,也是目前為止最為常用的一種訓(xùn)練方法,與相對其他的訓(xùn)練方法相比,決策樹最大的特點是符合人類的直覺,根據(jù)某些條件進行分類,具有很強的解釋性,有利于分析影響因素,[3]可使用決策樹方法分析影響違約風(fēng)險因素。
隨機森林是一個包含多個決策樹的分類器,并且其輸出的類別是由個別樹輸出的類別眾數(shù)而定。隨機森林的引入最初是由Leo Breiman[4]在一篇論文中提出的。這篇文章描述了一種結(jié)合隨機節(jié)點優(yōu)化和Bagging,利用了C&RT[5]過程構(gòu)建不相關(guān)樹的森林的方法。梯度提升是一種用于回歸和分類問題的機器學(xué)習(xí)技術(shù),其產(chǎn)生的預(yù)測模型是弱預(yù)測模型的集成,如采用典型的決策樹作為弱預(yù)測模型,這時則為梯度提升樹(GBDT)。梯度提升的思想源自Leo Breiman[6]的一個觀察:可以將提升方法解釋為針對適當(dāng)成本函數(shù)的優(yōu)化算法。也就是通過不斷的弱分類模型集成最終得到一個強分類器。
本文第一部分概述,第二部分介紹C&RT 決策樹、隨機森林、梯度增強樹的基本理論,第三部分進行數(shù)據(jù)預(yù)處理,第四部分進行數(shù)值實驗,第五部分結(jié)論。
在本篇文章中我們從最基本的決策樹模型開始,延伸到隨機森林、梯度提升樹,介紹這些模型的基本概念、核心思想、以及三者之間的對比差異,接下來再對三個模型進行數(shù)據(jù)實驗,分析不同效果。
決策樹是一個傳統(tǒng)的根據(jù)條件聚集的學(xué)習(xí)模型,在這里我們主要分析Classification and Regression Tree(C&RT)。那么我們的決策樹模型可以表示為:
其中,c 為每一個分支,G(x)為全體樹,b(x)為分枝規(guī)則,為在c 分枝時的子樹。我們主要從三個角度來討論C&RT。
(1)分枝的數(shù)量:由于是C&RT 樹,那么我們假設(shè)每個節(jié)點都有且只有兩個子節(jié)點。
(2)分枝規(guī)則:
其中h(x)是分枝函數(shù),分為左枝(c=1)和右(c=2)枝。上式第一項表示左(右)枝的數(shù)據(jù)集大小,第二項表示左(右)枝的純度大小。對于二分類決策樹來說,我們的純度用基尼指數(shù)來衡量
(3)分枝終止條件:所有的y 都一樣,也就是純度等于0。所有的x 都一樣,則無法分為左右枝。
依據(jù)以上的三個條件,我們可以建立算法表示C&RT 決策樹模型。
從決策樹的推導(dǎo)過程中發(fā)現(xiàn),決策樹容易重現(xiàn)過擬合現(xiàn)象,也就是說當(dāng)我們的測試集合不一樣時,預(yù)測的方差比較大,為了降低這個方差,我們引入隨機森林[8]。首先在這里引入Bootstrap[9]:采用重復(fù)抽樣方法從初始樣本中抽取一定數(shù)量的樣本,此過程允許重復(fù)抽樣。應(yīng)用這個方法我們可以估計到很多不同的目標(biāo)函數(shù),然后再來求這些目標(biāo)函數(shù)的均值即得到最終的目標(biāo)函數(shù)。我們將C&RT 與Bootstrap結(jié)合起來,也就是說我們有以下過程:
(3)返回第一步,并且重復(fù)N 次;
在實驗的時候,我們可以控制N 的大小,進而控制模型的擬合度。
首先梯度提升樹是自適應(yīng)增強Adaboost 和C&RT 的結(jié)合。那么我們先來介紹AdaBoost。AdaBoost 方法[10]是一種迭代算法,它通過輸入不同弱分類器,不斷的調(diào)整樣本匹配權(quán)重,得到新的弱分類器,最后將所有分類器疊加[11],那么Adaboost 可以轉(zhuǎn)化為下面這個優(yōu)化問題:
其中h(x)是第t 次擬合數(shù)據(jù)最佳的梯度變化量,也就是先求出第t 次的gt,然后再求其對應(yīng)的最佳,最后我們求得的目標(biāo)函數(shù)是,對應(yīng)的GBDT可以轉(zhuǎn)化為下面的優(yōu)化問題:
在這一部分我們首先對數(shù)據(jù)作簡單的介紹,用python對數(shù)據(jù)做缺失值處理,為了從特征中提取更多的信息,必須對特征進行特定屬性處理。針對本文章的數(shù)據(jù)特點,出現(xiàn)了類別不平衡的問題,下面我們給出具體的解決辦法。
數(shù)據(jù)來源于全國部分中小企業(yè)的政府登記數(shù)據(jù),樣本數(shù)量為14366 個,178 個特征,1 個標(biāo)簽。特征主要有以下部分:ID、企業(yè)類型、經(jīng)營期限至、登記機關(guān)、企業(yè)狀態(tài)、郵政編碼、投資總額、核準(zhǔn)日期、行業(yè)代碼、注銷時間、經(jīng)營期限自、成立日期、行業(yè)門類、企業(yè)類別、管轄機關(guān)、經(jīng)營范圍、城建稅、遞延收益、長期負(fù)債合計、長期借款、長期應(yīng)付款、短期借款、遞延所得稅負(fù)債、非流動負(fù)債合計、負(fù)債合計等共178 個。
查看發(fā)現(xiàn)許多特征缺失嚴(yán)重。我們特別刪除缺失比例超過70%的特征:經(jīng)營期限至,投資總額,注銷時間。
下面分析每個特征和標(biāo)簽之間的相關(guān)系數(shù),并刪除相關(guān)系數(shù)不存在的特征,即:長期負(fù)債合計_年初數(shù),其他負(fù)債(或長期負(fù)債)_年初數(shù),其他應(yīng)交款_年初數(shù),應(yīng)付福利費_年初數(shù),預(yù)提費用_年初數(shù),長期負(fù)債合計_年末數(shù)等。經(jīng)查看這些數(shù)據(jù)不僅缺失嚴(yán)重,而且值變化方差很小,故刪去。
最后對類型數(shù)據(jù)處理:郵政編碼、核準(zhǔn)日期、經(jīng)營期限、成立日期、經(jīng)營范圍和特殊無信息特征ID,由于處理較困難,這些特征都刪去。
在這些處理之后我們有152 個特征,1 個標(biāo)簽。為簡單起見,我們給每一列特征的缺失值賦值為該特征的均值。
查看標(biāo)簽值{0,1}在樣本中所占的比例,我們發(fā)現(xiàn)未違約所占比例為93.4%,違約比例為6.6%,那么在這里我們需要處理類別不平衡問題。在這里主要有三種方式,我們主要采用第三種方式,對數(shù)據(jù)進行擴充。
(1)對較多的那個類別進行欠采樣(under-sampling),舍棄一部分?jǐn)?shù)據(jù),使其與較少類別的數(shù)據(jù)相當(dāng)。
(2)對較少的類別進行過采樣(over-sampling),重復(fù)使用一部分?jǐn)?shù)據(jù),使其與較多類別的數(shù)據(jù)相。
(3)對數(shù)據(jù)進行采用的過程中通過相似性同時生成并插樣“少數(shù)類別數(shù)據(jù)”,叫做SMOTE 算法。具體SMOTE算法介紹可以參考[12],SMOTE 算法是對較少數(shù)類別的樣本進行擴充,擴充的方法類似于k 近鄰方法進行樣本間差值,最后得到新的數(shù)據(jù)集合。
這一部分主要介紹擬合模型、參數(shù)的選擇、以及擬合的效果與分析。主要利用三個模型來進行擬合數(shù)據(jù)。
·決策樹
·隨機森林
·梯度上升樹(GBDT)
我們將數(shù)據(jù)的70%的作為訓(xùn)練集合,數(shù)據(jù)的30%作為測試集合,并做10 層的交叉驗證。
經(jīng)查看表,我們可以看出企業(yè)所得稅、城建稅、印花稅對企業(yè)信用風(fēng)險的影響因素最大(如表1)。下面對幾個稅種做簡要介紹。
企業(yè)所得稅:是對我國境內(nèi)的企業(yè)和其他取得收入的組織的生產(chǎn)經(jīng)營所得和其他所得征收的一種所得稅。
城建稅:是以納稅人實際繳納的產(chǎn)品稅、增值稅、營業(yè)稅稅額為計稅依據(jù)。該稅主要有以下兩個特征:(1)以納稅人實際繳納的產(chǎn)品稅、增值稅、營業(yè)稅稅額為計稅依據(jù),分別與產(chǎn)品稅、增值稅、營業(yè)稅同時繳納;(2)加強城市的維護建設(shè),擴大和穩(wěn)定城市維護建設(shè)資金的來源。
印花稅:是對經(jīng)濟活動和經(jīng)濟交往中訂立、領(lǐng)受具有法律效力的憑證的行為所征收的一種稅。因采用在應(yīng)稅憑證上粘貼印花稅票作為完稅的標(biāo)志而得名。
再者對比分析三個模型,我們可以得到以下結(jié)論:
(1)決策樹在識別違約企業(yè)中,準(zhǔn)確率最高。
表1
(2)隨機森林和GBDT 這兩個模型效果差不多,因此復(fù)雜模型針對風(fēng)險問題可能是無力的。
(3)說明簡單模型的在某些情況下有可能是最好的。
在中小企業(yè)信用評估過程中,企業(yè)借款違約不歸還本金和利息是比較常見的現(xiàn)象。如何控制企業(yè)風(fēng)險是中小企業(yè)健康發(fā)展的關(guān)鍵。本文站在銀行角度,研究企業(yè)這一主題的信用違約風(fēng)險的方法。通過總結(jié)和比較目前信用評估模型的基本原理和優(yōu)缺點,提出了應(yīng)用集成學(xué)習(xí)方法改進決策樹模型來度量企業(yè)信用違約風(fēng)險的思路。
本文采用的數(shù)據(jù)是全國部分中小企業(yè)的政府登記數(shù)據(jù)。我們采用協(xié)方差矩陣的形式,摘除部分步相關(guān)特征,在此數(shù)據(jù)的基礎(chǔ)上做缺失值處理。然而由于本數(shù)據(jù)類別不平衡問題嚴(yán)重,我們采用SMOTE 算法進行數(shù)據(jù)預(yù)處理。接下來用決策樹,隨機森林,GBDT 來進行分類評估效果,并取得了滿意的效果。
本文的主要結(jié)論如下:
第一:本文以中小企業(yè)這一貸款主體參與主體為切入點,研究其違約風(fēng)險度量方法的問題,目前國內(nèi)外對中國國內(nèi)中小企業(yè)信用違約風(fēng)險度量較少且都不夠深入,本文將中小企業(yè)信用風(fēng)險評估與集成學(xué)習(xí)聯(lián)系在一起,對中小企業(yè)的違約風(fēng)險進行了初步探究與度量。
第二:本文終結(jié)了決策樹中集中流行的風(fēng)險評估方法及其它們的應(yīng)用。通過比較幾類模型的優(yōu)缺點和幾種模型的側(cè)重點得到:決策樹容易過擬合,隨機森林可以有效的降低過擬合,GBDT 可以關(guān)注于分錯的目標(biāo),提高分類的準(zhǔn)確率,進而得出在本數(shù)據(jù)情況下,決策樹模型在識別企業(yè)有信用違約風(fēng)險有很大優(yōu)勢。
第三:本文最后得出對中小企業(yè)風(fēng)險影響的重要特征有以下十項:企業(yè)所得稅、城建稅、印花稅、增值稅、行業(yè)門類、管轄機關(guān)、企業(yè)狀態(tài)、行業(yè)代碼、注冊資本、存貨中的原材料_年末數(shù),可以看出對中小企業(yè)運行影響最大的因素是稅收,隨著這幾年中小企業(yè)生存環(huán)境惡劣,對中小企業(yè)減稅不乏是一種很不錯的政策。