石 濤
(廣東工業(yè)大學(xué) 自動化學(xué)院,廣東 廣州 510000)
近年來大量小微型企業(yè)的活力釋放,小微企業(yè)已經(jīng)成長為國民經(jīng)濟(jì)的重要組成部分,對我國的國際民生產(chǎn)生重要的影響[1]。由于資金、管理、決策等一系列行為導(dǎo)致很多企業(yè)都無法長久經(jīng)營,能否預(yù)測出企業(yè)的風(fēng)險對于銀行等借貸機(jī)構(gòu)就顯得非常重要了。銀行準(zhǔn)確預(yù)測出企業(yè)的停業(yè)風(fēng)險就可以合理地投放貸款,減少損失。傳統(tǒng)的大型企業(yè)財務(wù)信息公開完善,且在銀行等借貸領(lǐng)域的信用記錄也可查詢,使用這些完備的數(shù)據(jù)便可以預(yù)測企業(yè)風(fēng)險;但是小微型企業(yè)一般不會公開自己的財務(wù)信息,并且獲得的行為數(shù)據(jù)也都不完整,所以使用傳統(tǒng)的方法分析是行不通的。
為了解決企業(yè)數(shù)據(jù)缺失造成的困難,本文提出了一種使用XGBoost算法的企業(yè)風(fēng)險預(yù)測模型。模型針對企業(yè)的招聘數(shù)據(jù)、項目數(shù)據(jù)、投資數(shù)據(jù)等9項行為數(shù)據(jù)分別構(gòu)建獨(dú)立的預(yù)測模型,并對每個模型的結(jié)果進(jìn)行線性加權(quán)融合,分別計算曲線下面積(Area Under Curve,AUC)值和F1分?jǐn)?shù)作為評分標(biāo)準(zhǔn),據(jù)此預(yù)測出企業(yè)未來退出市場的概率,以作為其他機(jī)構(gòu)決策的參考。
本文的全部數(shù)據(jù)來源于全國2 000萬企業(yè)抽取一部分,包括企業(yè)主體在多方面留下的行為足跡信息數(shù)據(jù),數(shù)據(jù)包括兩種。(1)企業(yè)身份信息以及企業(yè)在一定時間內(nèi)的行為數(shù)據(jù)(見表1)。(2)目標(biāo)數(shù)據(jù),該數(shù)據(jù)包括企業(yè)的經(jīng)營狀況:停業(yè)1,正常0。企業(yè)基本信息數(shù)據(jù)是身份數(shù)據(jù),一個企業(yè)只有一條數(shù)據(jù),而其他數(shù)據(jù)都是行為數(shù)據(jù),一個企業(yè)可又有多條數(shù)據(jù),也可能一條都沒有。
表1 企業(yè)行為數(shù)據(jù)
續(xù)表1
企業(yè)身份信息(見表2)包括企業(yè)的類型、成立的年度、注冊資本,還有一些給定計算好的指標(biāo)等信息。這部分?jǐn)?shù)據(jù)是表現(xiàn)每個企業(yè)最為基本的信息,所以不管在哪個字模型中都會將其作為特征進(jìn)行計算。行為數(shù)據(jù)總共包含8種,分別是變更數(shù)據(jù)、分子機(jī)構(gòu)數(shù)、投資數(shù)據(jù)、權(quán)利數(shù)據(jù)、項目數(shù)據(jù)、被執(zhí)行數(shù)據(jù)、失信數(shù)據(jù)和招聘數(shù)據(jù),分別包含企業(yè)的各類行為。
表2 企業(yè)身份信息
對數(shù)據(jù)的預(yù)處理是非常必要的環(huán)節(jié)。由于原始數(shù)據(jù)存在缺失值,我們先要做的就是填補(bǔ)空值,然后要去除重復(fù)行數(shù)據(jù)。由于XGBoost僅適用于處理數(shù)值型向量,因此,處理訓(xùn)練集和測試集時需要將所有標(biāo)量數(shù)據(jù)轉(zhuǎn)換為數(shù)值型向量,獨(dú)熱編碼(one-hot)是常用的轉(zhuǎn)換方式[2]。本文數(shù)據(jù)集中的ETYPE和HY等數(shù)據(jù)都需要經(jīng)one-hot編碼后才能進(jìn)行訓(xùn)練。
XGBoost是一種迭代回歸樹算法,是在GBDT算法基礎(chǔ)上的改進(jìn),但二者皆屬于Boosting提升方法。XGBoost可支持多線程并發(fā)任務(wù),這是因?yàn)樘卣髁信判蚝笠詨K的形式存儲在內(nèi)存中,在迭代中可以重復(fù)使用;雖然Boosting算法迭代必須串行,但是在處理每個特征列時就可以做到并行,因此,實(shí)現(xiàn)并行化后在同等條件下比同類算法速度提升10倍以上[3]。XGBoost考慮了訓(xùn)練數(shù)據(jù)為稀疏值的情況,可以為缺失值或者指定的值指定分支的默認(rèn)方向,這能大大提升算法的效率。XGBoost內(nèi)部包含大量的CART回歸樹,使用殘差來提升模型,內(nèi)部的正則化防過擬合技術(shù)可以保證模型的魯棒性。XGBoost算法可自定義損失函數(shù),且支持多種語言編程,因此非常靈活。下面是該算法的一些重要推導(dǎo)公式。
因?yàn)槲覀円蟮氖沁@個目標(biāo)函數(shù)的最小值,(2)式后面的常數(shù)項constant是無用的,可以直接去掉。而Ω這項表示的是一個正則化項,可以表示為:
有了(3)式,將其帶入(2),然后再做變形:
對ω求導(dǎo),可得最優(yōu)系數(shù),而obj*是對樹結(jié)構(gòu)的一個評價函數(shù),值越小,代表誤差越小:
我們的數(shù)據(jù)是全國2 000多萬企業(yè)中篩選出部分作為樣本,根據(jù)所提供的數(shù)據(jù),預(yù)測出企業(yè)未來兩年是否由于經(jīng)營不善而退出市場。由于行為數(shù)據(jù)涉及多個方面,為了進(jìn)行對比,我們先對每種行為數(shù)據(jù)分別訓(xùn)練模型,觀察模型的AUC分?jǐn)?shù),這樣就可以確定出哪些數(shù)據(jù)的影響比較大。同時我們還將數(shù)據(jù)帶入隨機(jī)森林算法中,將其結(jié)果與XGBoost算法的結(jié)果對比,從而選出最合適的預(yù)測模型。實(shí)驗(yàn)結(jié)果如表3所示。
由實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),不同的行為數(shù)據(jù)對模型精度有很大影響。變更數(shù)據(jù),項目數(shù)據(jù),被執(zhí)行數(shù)據(jù),招聘數(shù)據(jù)對XGBoost算法和隨機(jī)森林算法都有比較大的影響;而分支機(jī)構(gòu)數(shù)據(jù),投資數(shù)據(jù),權(quán)利數(shù)據(jù)則出現(xiàn)比較大的反差。這是由于模型對不同的特征的靈敏度造成的差異。由于隨機(jī)森林算法引入的隨機(jī)性,使得其對噪聲不敏感,不容易導(dǎo)致過擬合[4],泛化性能也就非常好,所以我們會發(fā)現(xiàn)它的結(jié)果波動不會非常大。而XGBoost算法是對殘差進(jìn)行迭代優(yōu)化,所以擬合結(jié)果效果非常好。綜合比較兩種算法的效果,我們選用XGBoost算法作為基本算法來做模型融合。
模型融合的思想是在單一模型的預(yù)測結(jié)果上,再使用模型融合方法來進(jìn)一步提高模型預(yù)測的準(zhǔn)確率[5]。多模型融合是取得優(yōu)秀分析能力的有效途徑[6]。具體來說,上面的步驟已經(jīng)算出了各個子模型的參數(shù),也知道了各個模型對于預(yù)測樣本的結(jié)果。據(jù)此我們可以使用投票法對結(jié)果進(jìn)行表決,如果這幾個分類器中有多數(shù)的結(jié)果是1(停業(yè)),那結(jié)果就是停業(yè),否則就是正常;同時我們也可以對模型的預(yù)測概率作平均,公式如下:
其中,n表示模型的個數(shù),Weighti表示該模型權(quán)重,Pi表示模型i的預(yù)測概率值。其中投票法太過簡單,所以選用參數(shù)取平均法作融合。當(dāng)然還有其他一些復(fù)雜的方法來實(shí)現(xiàn),此處不再贅述。經(jīng)實(shí)驗(yàn),使用多種行為數(shù)據(jù)作模型融合,10次結(jié)果取平均的AUC值為0.916,且結(jié)果波動范圍大大減小,只有3.3%。以上分析結(jié)果說明,采用XGBoost算法作模型融合可以實(shí)現(xiàn)預(yù)測企業(yè)倒閉的概率,對于指導(dǎo)行業(yè)正常發(fā)展有一定的意義。
本文基于一種XGBoost的回歸樹模型,使用不同的行為數(shù)據(jù)記錄,對全國的小型企業(yè)的未來是否會正常經(jīng)營進(jìn)行預(yù)測,對結(jié)果參數(shù)取平均作模型融合,并用AUC值進(jìn)行評估。結(jié)果顯示對比使用隨機(jī)森林算法,此方法得出的結(jié)果正確率相對較高,性能相對穩(wěn)定,對相關(guān)行業(yè)具有實(shí)際的指導(dǎo)意義。
[參考文獻(xiàn)]
[1]陳志朋.科學(xué)發(fā)展觀視域下中國小微企業(yè)發(fā)展研究[D].長春:長春師范大學(xué),2014.
[2]黃達(dá)文,方梵嵐.基于XGBoost算法的用電電量預(yù)測的實(shí)踐應(yīng)用[J].現(xiàn)代信息科技,2017(4):10-12.
[3]葉倩怡,饒泓,姬名書.基于Xgboost的商業(yè)銷售預(yù)測[J].南昌大學(xué)學(xué)報(理科版),2017(3):275-281.
[4]李貞貴.隨機(jī)森林改進(jìn)的若干研究[D].廈門:廈門大學(xué),2013.
[5]李巧.模型融合算法的研究及應(yīng)用[D].武漢:湖北大學(xué),2016.
[6]馬健.多模型融合學(xué)習(xí)方法與應(yīng)用[D].南京:南京大學(xué),2016.