吳 沖, 陳曉芳, 苗博威
(哈爾濱工業(yè)大學(xué) 經(jīng)濟(jì)與管理學(xué)院,黑龍江 哈爾濱 150001)
隨著信息技術(shù)的逐步突破與落地應(yīng)用,信息技術(shù)行業(yè)進(jìn)入蓬勃發(fā)展時(shí)期,同時(shí)其高風(fēng)險(xiǎn),高收益的標(biāo)簽也被顯現(xiàn)。信息技術(shù)類企業(yè)容易陷入財(cái)務(wù)困境的原因在于,首先,上市初期資金投入力度大,研發(fā)過程和時(shí)效性存在不確定性;其次,技術(shù)產(chǎn)品更新迭代速度快,相關(guān)產(chǎn)品生命周期短,導(dǎo)致企業(yè)未來收益的不確定;最后,信息技術(shù)類企業(yè)面臨償債能力差且經(jīng)營風(fēng)險(xiǎn)大的市場狀況,一旦技術(shù)研發(fā)失敗,極易造成資金鏈斷裂等問題。因此,信息技術(shù)行業(yè)急需建立具有行業(yè)針對性的財(cái)務(wù)危機(jī)預(yù)測(financial distress prediction, FDP)模型,使企業(yè)管理層及時(shí)監(jiān)控企業(yè)財(cái)務(wù)及運(yùn)營狀況,避免財(cái)務(wù)危機(jī)發(fā)生。
探索有效的FDP模型一直是學(xué)術(shù)界和實(shí)務(wù)界共同關(guān)注的重要研究課題[1]。學(xué)者們將研究聚焦于FDP模型算法和指標(biāo)選擇上。經(jīng)典的統(tǒng)計(jì)FDP模型包括單變量分析模型[2]、多元判別分析模型[3]、線性模型[4]、logistic回歸模型[5]等。近年來,由于財(cái)務(wù)指標(biāo)維度增加,數(shù)據(jù)類型復(fù)雜化,基于統(tǒng)計(jì)的FDP模型已經(jīng)無法滿足需求。為了尋求更高的準(zhǔn)確率,機(jī)器學(xué)習(xí)算法被引入FDP領(lǐng)域。如決策樹[6]、神經(jīng)網(wǎng)絡(luò)[7]、支持向量機(jī)[8]、隨機(jī)森林[9]等。單一的分類器模型存在一定的弊端和局限性,而集成模型能夠弱化單一分類器的缺點(diǎn),提高模型的預(yù)測性能和泛化能力。
輕量化梯度提升機(jī)(Light Gradient Boosting Machine, LightGBM)[10]作為集成算法被廣泛應(yīng)用于預(yù)測領(lǐng)域。沙靖嵐[11]將lightGBM算法應(yīng)用到P2P行業(yè)的違約預(yù)測中,結(jié)果表明采用lightGBM進(jìn)行分類預(yù)測是有效的。賈鵬翔[12]采用lightGBM算法預(yù)測二手車的價(jià)格,與Xgboost和隨機(jī)森林算法相比lightGBM具有更小的殘差值。顧桐等[13]研究發(fā)現(xiàn)lightGBM算法在預(yù)測方面優(yōu)于決策樹,支持向量機(jī)等機(jī)器學(xué)習(xí)方法,具有預(yù)測潛力。與同類型的GBDT, Xgboost等集成算法相比,lightGBM算法采用基于梯度的單邊采樣(Gradient-based One-Side Sampling, GOSS)算法、互斥特征綁定(Exclusive Feature Bundling, EFB)算法、直方圖算法、直方圖差加速和葉子生長策略等方法進(jìn)行優(yōu)化,減少數(shù)據(jù)實(shí)例和特征數(shù)量,降低了計(jì)算的復(fù)雜度,提升了訓(xùn)練速度[14]。因此,本文采用lightGBM算法構(gòu)建FDP模型。
在FDP模型的指標(biāo)選擇上,多數(shù)學(xué)者選擇財(cái)務(wù)指標(biāo)進(jìn)行研究。一方面源于財(cái)務(wù)指標(biāo)的易得性,另一方面源于其能直觀地反映企業(yè)的財(cái)務(wù)狀況[15]。然而僅使用財(cái)務(wù)指標(biāo)進(jìn)行財(cái)務(wù)危機(jī)預(yù)測,難以全面反應(yīng)企業(yè)的狀況。財(cái)務(wù)指標(biāo)只是財(cái)務(wù)危機(jī)發(fā)生的表象,并不能顯現(xiàn)財(cái)務(wù)危機(jī)發(fā)生的原因[16]。因此有學(xué)者將非財(cái)務(wù)指標(biāo)納入FDP模型中。非財(cái)務(wù)因素如公司治理、企業(yè)經(jīng)營效率、資本市場股價(jià)信息等對財(cái)務(wù)危機(jī)的發(fā)生具有重要影響[17]。已有研究[18,19]表明財(cái)務(wù)指標(biāo)與非財(cái)務(wù)指標(biāo)結(jié)合能顯著提高預(yù)測準(zhǔn)確度。
市場信息能夠顯示企業(yè)的運(yùn)營狀況,但上市公司的市場變化難以捕捉。利用市場信息中的股票信息構(gòu)建金融網(wǎng)絡(luò),能夠?yàn)闆Q策者提供市場變化的依據(jù)。研究發(fā)現(xiàn)網(wǎng)絡(luò)測度指標(biāo)在一定程度上能夠提升分類器的預(yù)測能力[20,21]。隨著復(fù)雜網(wǎng)絡(luò)在預(yù)測領(lǐng)域的興起,利用其進(jìn)行預(yù)測的研究層出不窮,例如對顧客流失[22]和股票價(jià)格[23]等進(jìn)行預(yù)測。因此本文采用企業(yè)的股票收益構(gòu)建金融網(wǎng)絡(luò),將股票信息以金融網(wǎng)絡(luò)指標(biāo)的形式輸入預(yù)測模型,以此探究市場信息對FDP的影響。本文研究豐富了企業(yè)財(cái)務(wù)危機(jī)預(yù)測結(jié)果的內(nèi)涵,同時(shí)也為FDP模型的構(gòu)建提供了新思路。
資本市場的各個(gè)企業(yè)與機(jī)構(gòu)之間存在著經(jīng)營聯(lián)系,交叉持股等現(xiàn)象,企業(yè)之間存在高度關(guān)聯(lián)性,因此可以將金融市場看作金融網(wǎng)絡(luò)。在金融網(wǎng)絡(luò)中,網(wǎng)絡(luò)的節(jié)點(diǎn)為各個(gè)企業(yè),網(wǎng)絡(luò)的邊指代各個(gè)企業(yè)之間的往來關(guān)系,如投資行為、經(jīng)營行為、持股行為等。在金融市場中,這種往來關(guān)系可以用企業(yè)股票價(jià)格序列的相關(guān)性來抽象化。
金融網(wǎng)絡(luò)由大量企業(yè)節(jié)點(diǎn)構(gòu)成,其內(nèi)部節(jié)點(diǎn)之間具有復(fù)雜的交互作用,由于選取的企業(yè)樣本時(shí)間跨度較大,且截取的數(shù)據(jù)為上市公司T-3年末的面板數(shù)據(jù)。因此對每個(gè)企業(yè)取其T-3年末前500個(gè)交易日的日收盤價(jià),形成收盤價(jià)時(shí)間序列。對于每個(gè)公司樣本i,t日的日收益率ri(t)可以表示為:
ri(t)=lnPi(t)-lnPi(t-1)
(1)
其中pi(t)為企業(yè)i在第t日的收盤價(jià),pi(t-1)為企業(yè)i在第t日前一個(gè)交易日的收盤價(jià)。企業(yè)i,j的相關(guān)系數(shù)cij公式表示如下:
(2)
(3)
在網(wǎng)絡(luò)中,通常使用網(wǎng)絡(luò)特征指標(biāo)衡量網(wǎng)絡(luò)的性能。本文在經(jīng)濟(jì)社會理論研究的基礎(chǔ)上,選擇度中心性、接近中心性、中介中心性、Pagerank值這四種指標(biāo)來衡量金融網(wǎng)絡(luò)的性能。
度中心性指一個(gè)節(jié)點(diǎn)上的直接聯(lián)系數(shù)。在加權(quán)網(wǎng)絡(luò)的分析中,度中心性一般被擴(kuò)展為節(jié)點(diǎn)所連接邊的權(quán)重之和,公式如下。
CD(i)=∑cij
(4)
接近中心性通常定義為節(jié)點(diǎn)平均距離的倒數(shù),用以表示節(jié)點(diǎn)與節(jié)點(diǎn)之間的接近特性,即:
(5)
中介中心性的概念在于,一個(gè)具有高度中介中心性的企業(yè)會對其他企業(yè)產(chǎn)生重要影響,因?yàn)樗梢杂绊懲ㄟ^它的信息。中介中心性是基于網(wǎng)絡(luò)路徑的概念,由Freeman提出,公式如(6)。其中,σjk為節(jié)點(diǎn)j到k的最短路徑的總數(shù),σjk(i)是j到k的最短路徑中通過節(jié)點(diǎn)i的路徑數(shù)。
(6)
(7)
α為跳轉(zhuǎn)概率,一般取值為0.85。顯然PR值越高,代表節(jié)點(diǎn)的重要性越高。
通過對網(wǎng)絡(luò)性質(zhì)的研究,本文采用信息技術(shù)類上市公司的股價(jià)波動信息構(gòu)建金融網(wǎng)絡(luò),可得到企業(yè)在網(wǎng)絡(luò)中的指標(biāo),并將其作為FDP模型的輸入變量。
LightGBM算法是一個(gè)基于梯度決策樹的框架,該算法在梯度提升決策樹(Gradient Boosting Decision Tree, GBDT)的基礎(chǔ)上進(jìn)行優(yōu)化[24]。GBDT是一種廣泛使用的機(jī)器學(xué)習(xí)算法,具有高效、準(zhǔn)確和可解釋性,其以固定大小的回歸樹作為基學(xué)習(xí)器,使用梯度提升方法進(jìn)行改進(jìn)。假設(shè)每顆樹的葉子個(gè)數(shù)為S,每棵樹將輸入空間劃分為s個(gè)不相交的區(qū)域R1m,R2m,…,Rsm,并預(yù)測Rsm的恒定值bsm?;貧w樹可以形象化的表示為:
(8)
當(dāng)x∈Rsm時(shí)I(*)值為1,其他情況則為0。模型更新方程fm(x)和梯度下降的步長ρm可以表示為:
fm(x)=fm-1(x)+ρmgm(x)
(9)
(10)
在上式中,L(yi,fm(x)為GBDT的損失函數(shù),每步的優(yōu)化條件為使損失函數(shù)最小。在梯度提升方法中,使用回歸樹代替gm,則公式(9)和(10)可以表示為:
(11)
(12)
在算法迭代的過程中,每一輪算法所產(chǎn)生的殘差都將成為下一輪的學(xué)習(xí)目標(biāo),如此循環(huán),直到全局殘差值小于設(shè)定的閾值或迭代次數(shù)達(dá)到最大值時(shí)結(jié)束,然后輸出最終的結(jié)果。傳統(tǒng)的GBDT需要掃描每個(gè)特征的所有數(shù)據(jù)實(shí)例,估計(jì)所有可能分裂點(diǎn)的信息增益。因此,它們的計(jì)算復(fù)雜性將與特征數(shù)量和實(shí)例數(shù)量成正比,使得GBDT在處理大量數(shù)據(jù)時(shí)非常耗時(shí)。GOSS算法和EFB算法減少數(shù)據(jù)實(shí)例和特征數(shù)量,提高算法的訓(xùn)練速度,同時(shí)保證訓(xùn)練的準(zhǔn)確率。
(13)
其中,Al={xi∈A:xij≤d},Ar={xi∈A:xij>d},Bl={xi∈B:xij
EFB算法通過對特征采樣,將互斥特征結(jié)合為一個(gè)特征,達(dá)到降維的目的。EFB算法利用特征之間的關(guān)系構(gòu)造一個(gè)加權(quán)無向圖,用貪婪算法尋找可以捆綁的特征。算法通過設(shè)置最大互斥率平衡準(zhǔn)確度和效率。通過對互斥特征中的一個(gè)特征增加偏移變量,實(shí)現(xiàn)互斥特征的合并,保證原始特征能從合并的特征中分離出來?;コ馓卣鹘壎ê笥?jì)算的復(fù)雜性從O(#data×#feature)變?yōu)镺(#data×#bundle),有效地降低了計(jì)算的復(fù)雜性,提高了訓(xùn)練速度。
為了降低算法復(fù)雜度,減少訓(xùn)練時(shí)間消耗并提高預(yù)測準(zhǔn)確度,lightGBM使用直方圖算法、葉子生長策略、直方圖差加速等方式尋找最佳分裂點(diǎn)。通過這些方法降低計(jì)算復(fù)雜度,大幅提升模型學(xué)習(xí)效率。本文采用lightGBM算法構(gòu)建信息技術(shù)類上市公司財(cái)務(wù)危機(jī)預(yù)測模型,并提出了基于lightGBM算法的調(diào)參集成策略。通過參數(shù)調(diào)節(jié),選擇準(zhǔn)確率最高的lightGBM算法模型作為基礎(chǔ)模型,然后對基礎(chǔ)模型進(jìn)行單一參數(shù)調(diào)節(jié)獲得新的模型。將調(diào)節(jié)后的模型與基礎(chǔ)模型的結(jié)果進(jìn)行經(jīng)典投票法選擇,得到最終預(yù)測結(jié)果。
本文數(shù)據(jù)來自國泰安CSMAR數(shù)據(jù)庫,Wind數(shù)據(jù)庫和年報(bào)手動收集。選取我國滬深A(yù)股行業(yè)分類代碼為C39,I63,I64,I65的信息技術(shù)類企業(yè)。根據(jù)我國資本市場的機(jī)制,將上市企業(yè)是否被特殊處理(Special treatment, ST,*ST)作為判斷企業(yè)是否發(fā)生財(cái)務(wù)危機(jī)的標(biāo)準(zhǔn)。研究樣本選取由連續(xù)兩年凈利潤為負(fù)導(dǎo)致被ST的企業(yè),其他原因予以剔除;使用T-3年的年報(bào)數(shù)據(jù)為基準(zhǔn),選取同年度、同行業(yè)且資產(chǎn)規(guī)模類似的企業(yè),被ST企業(yè)為正樣本,非ST企業(yè)為負(fù)樣本。研究選取102家上市公司,包含24家ST企業(yè)及78家非ST企業(yè)。
本文的預(yù)測指標(biāo)主要包括財(cái)務(wù)、非財(cái)務(wù)及金融網(wǎng)絡(luò)指標(biāo)。初始階段包括三大類59個(gè)指標(biāo),如表1所示。在信息技術(shù)企業(yè)中企業(yè)的技術(shù)創(chuàng)新能力尤為重要,因此非財(cái)務(wù)指標(biāo)主要從創(chuàng)新能力入手。其次,企業(yè)治理結(jié)構(gòu)影響企業(yè)的穩(wěn)定程度,外部評價(jià)則主要體現(xiàn)為財(cái)務(wù)審計(jì)情況。
表1 模型指標(biāo)體系表
對數(shù)據(jù)進(jìn)行預(yù)處理,首先采用中位數(shù)對缺失值進(jìn)行填充。其次,對財(cái)務(wù)指標(biāo)進(jìn)行規(guī)范化處理,轉(zhuǎn)化為0到1之間的浮點(diǎn)數(shù),消除量綱的影響。最后,針對非財(cái)務(wù)指標(biāo)采取分箱化處理,根據(jù)離散數(shù)值分布情況,劃定不同區(qū)間,統(tǒng)計(jì)進(jìn)入每個(gè)區(qū)間的樣本,以區(qū)間標(biāo)號替換原數(shù)據(jù)。
為了篩選出識別能力強(qiáng)的指標(biāo),需要對上述59個(gè)指標(biāo)進(jìn)行Mann-Whitney U顯著性檢驗(yàn),考察對應(yīng)指標(biāo)是否對財(cái)務(wù)危機(jī)企業(yè)有足夠的敏感性。最終,共有38個(gè)指標(biāo)通過顯著性檢驗(yàn)。如表2所示。
表2 被選指標(biāo)
研究將含財(cái)務(wù)與非財(cái)務(wù)指標(biāo)的模型定義為基礎(chǔ)lightGBM模型,經(jīng)過調(diào)參集成后的模型定義為集成lightGBM模型,將引入金融網(wǎng)絡(luò)指標(biāo)的lightGBM模型定義為FNI-lightGBM模型。數(shù)據(jù)分析平臺為SPSS22和Python3.7。在建模的過程中,參數(shù)的調(diào)節(jié)非常重要,對lightGBM算法來說更是如此。
首先確定boosting_type,設(shè)定為gbdt,表示使用梯度提升決策樹類算法;其次設(shè)定learning_rate值,這里取0.05;再次n_estimators,默認(rèn)為200;最后調(diào)節(jié)樹深度及葉子節(jié)點(diǎn)數(shù),主要作用是防止過擬合,基礎(chǔ)設(shè)定max_depth為4,num_leaves一般要滿足,因此設(shè)定葉子節(jié)點(diǎn)數(shù)為15。
根據(jù)調(diào)參集成策略對lightGBM進(jìn)行調(diào)節(jié),調(diào)節(jié)后的模型參數(shù)如表3所示。lightGBM1為基礎(chǔ)模型,lightGBM2是調(diào)節(jié)樹最大深度后的模型,lightGBM3修改了提升算法,lightGBM4和lightGBM5分別調(diào)節(jié)了學(xué)習(xí)率和葉子最小記錄數(shù)。集成lightGBM的結(jié)果由lightGBM1-5投票產(chǎn)生。
表3 模型調(diào)優(yōu)參數(shù)
準(zhǔn)確率,精度和召回率是最為常見的實(shí)驗(yàn)結(jié)果評價(jià)標(biāo)準(zhǔn)。一般來說精度越高召回率越低。本文著重考慮真正財(cái)務(wù)危機(jī)的企業(yè)是否被識別,因此選用準(zhǔn)確率和召回率作為評估指標(biāo)。
本文從三個(gè)方面進(jìn)行對比實(shí)驗(yàn)的設(shè)計(jì)與分析。第一組實(shí)驗(yàn)將基礎(chǔ)lightGBM模型與調(diào)參后生成的集成lightGBM模型進(jìn)行對比,驗(yàn)證調(diào)參集成策略是否有效;第二組實(shí)驗(yàn)在第一組實(shí)驗(yàn)的基礎(chǔ)上,增添金融網(wǎng)絡(luò)指標(biāo),對比FNI-lightGBM與lightGBM模型的準(zhǔn)確率和召回率,以此驗(yàn)證金融網(wǎng)絡(luò)指標(biāo)對FDP模型的影響;第三組實(shí)驗(yàn)將lightGBM模型與常用的FDP模型進(jìn)行對比,并在此基礎(chǔ)上將金融網(wǎng)絡(luò)指標(biāo)引入常用的預(yù)測模型,進(jìn)一步證明lightGBM模型預(yù)測的優(yōu)異性以及金融網(wǎng)絡(luò)指標(biāo)對FDP模型的影響。
為驗(yàn)證模型的穩(wěn)健性,將模型進(jìn)行10折交叉驗(yàn)證。本文將基礎(chǔ)lightGBM模型與集成lightGBM模型進(jìn)行比較,結(jié)果如表4所示。從表4可以看出集成lightGBM模型具有更高的預(yù)測性能,證明調(diào)參集成策略是有效的。
表4 模型評估指標(biāo)比較
FNI-lightGBM模型進(jìn)行相同的調(diào)參集成處理,結(jié)果如表5所示。集成lightGBM模型的準(zhǔn)確率和召回率低于FNI-lightGBM模型,初步說明金融網(wǎng)絡(luò)指標(biāo)的引入提高了FDP模型的準(zhǔn)確性,即股票信息的引入能夠提高FDP模型的預(yù)測性能。
表5 多個(gè)模型對比結(jié)果
基于相同樣本數(shù)據(jù),使用常見的模型,如Logistic回歸(Logistic Regression, LR)、支持向量機(jī)(Support Vector Machine, SVM)、隨機(jī)森林(Random Forest, RF)分別構(gòu)建普通模型與加入金融網(wǎng)絡(luò)指標(biāo)的模型,與集成lightGBM模型和FNI-lightGBM模型進(jìn)行結(jié)果對比,如表5所示。從表5可以看出,集成lightGBM模型與FNI-lightGBM模型分類的準(zhǔn)確率均高于常見模型,且兩個(gè)模型準(zhǔn)確度均高于90%,其中FNI-lightGBM模型的召回率達(dá)到了93.75%,分類效果更優(yōu)。
圖1和圖2分別為LR,SVM,RF和集成lightGBM四個(gè)算法模型加入金融網(wǎng)絡(luò)指標(biāo)前后的準(zhǔn)確率和召回率。從圖1中可以看出集成lightGBM模型的準(zhǔn)確率和召回率更高,預(yù)測性能更好。從圖2中可以看出引入金融網(wǎng)絡(luò)指標(biāo)后,lightGBM模型預(yù)測性仍能更好。
圖1 普通模型結(jié)果對比
圖2 加入金融網(wǎng)絡(luò)指標(biāo)模型結(jié)果對比
圖3為四個(gè)模型在引入網(wǎng)絡(luò)指標(biāo)前后準(zhǔn)確率和召回率的變化,從中可以看出,LR,SVM,RF和集成lightGBM模型在引入網(wǎng)絡(luò)指標(biāo)后,預(yù)測性能有所提升。上述結(jié)果首先說明本文所提出的調(diào)參集成策略是有效的,通過模型之間的信息互補(bǔ),提高了模型的預(yù)測性能;其次,股票信息的引入是有效的,將市場信息引入財(cái)務(wù)危機(jī)預(yù)測模型能夠進(jìn)一步提升模型的準(zhǔn)確率。
圖3 普通模型與加入金融網(wǎng)絡(luò)指標(biāo)模型結(jié)果對比圖組
本文以我國的滬深A(yù)股信息技術(shù)上市公司為研究對象,構(gòu)建考慮了金融網(wǎng)絡(luò)指標(biāo)的信息技術(shù)類上市公司企業(yè)財(cái)務(wù)危機(jī)預(yù)測模型。為解決市場信息難以捕捉的問題,研究采用股票收益信息顯示市場變化,并將股票信息以網(wǎng)絡(luò)指標(biāo)的形式輸入預(yù)測模型。為了發(fā)揮集成算法在FDP模型中的作用,同時(shí)解決單一分類器無法充分使用數(shù)據(jù)的問題,本文采用lightGBM集成算法構(gòu)建預(yù)測模型,并提出了基于lightGBM算法的調(diào)參集成策略。通過參數(shù)調(diào)節(jié),獲得五個(gè)lightGBM模型,模型最終的預(yù)測結(jié)果由經(jīng)典投票法選擇。選取102家企業(yè)進(jìn)行實(shí)證研究,結(jié)果顯示,包含網(wǎng)絡(luò)指標(biāo)的lightGBM模型預(yù)測效果更好,且其它模型在引入網(wǎng)絡(luò)指標(biāo)后,準(zhǔn)確率和召回率也明顯提升;相比于基礎(chǔ)lightGBM模型,經(jīng)過調(diào)參集成的模型準(zhǔn)確度有所增加,且明顯高于其他常用的財(cái)務(wù)危機(jī)預(yù)測模型。網(wǎng)絡(luò)指標(biāo)的優(yōu)異性說明股票信息能夠提高模型的預(yù)測效果,即含有市場信息的指標(biāo)適用于信息技術(shù)類企業(yè)財(cái)務(wù)危機(jī)的預(yù)測。lightGBM調(diào)參集成策略也為FDP研究提供了新思路。