余 屹 艾孜爾江·艾爾斯蘭 戴兆君 廖文君 沈頌東 梁子浚?
(1.珠海科技學(xué)院金融與貿(mào)易學(xué)院,廣東 珠海 519090;2.澳門大學(xué)科技學(xué)院,澳門 519000)
中小企業(yè)在穩(wěn)定社會(huì)、提高就業(yè)率以及促進(jìn)市場(chǎng)發(fā)展等方面具有不容小覷的作用。成長(zhǎng)性是指企業(yè)持續(xù)發(fā)展的能力,通過(guò)對(duì)企業(yè)成長(zhǎng)性的評(píng)價(jià),管理者可以及時(shí)地發(fā)現(xiàn)并解決企業(yè)存在的問題,提高企業(yè)管理水平和自我修正能力。此外,評(píng)價(jià)結(jié)果的好壞將直接影響投資者做出的投資決策。所以,對(duì)企業(yè)的成長(zhǎng)性進(jìn)行準(zhǔn)確的評(píng)價(jià),可以達(dá)到多方共贏的效果。
現(xiàn)有學(xué)者對(duì)中小企業(yè)成長(zhǎng)性的評(píng)價(jià)主要從企業(yè)內(nèi)外部因素進(jìn)行探討,這為本文研究提供了重要的參考價(jià)值。外部因素指政治、技術(shù)和市場(chǎng)競(jìng)爭(zhēng)等環(huán)境影響。Astrakhan[1]等論證了政府通過(guò)利好政策和相關(guān)法律的支持,為企業(yè)打造出極佳的外部發(fā)展環(huán)境;成璐璐[2]等通過(guò)對(duì)市場(chǎng)競(jìng)爭(zhēng)環(huán)境變化的分析,得出技術(shù)創(chuàng)新對(duì)企業(yè)的發(fā)展壯大有較大的影響,使企業(yè)能夠在市場(chǎng)競(jìng)爭(zhēng)中處于領(lǐng)先地位。而在內(nèi)部因素上,學(xué)者們更關(guān)注企業(yè)的財(cái)務(wù)和融資等??诅R翔[3]從中小板和創(chuàng)業(yè)板中篩選了近10年的企業(yè)作為樣本,借助SPSS軟件功能實(shí)現(xiàn)了對(duì)企業(yè)成長(zhǎng)性的評(píng)價(jià),通過(guò)實(shí)證分析,挖掘出企業(yè)中高管的學(xué)歷對(duì)企業(yè)成長(zhǎng)的影響程度。
在設(shè)計(jì)評(píng)價(jià)體系時(shí),大多數(shù)現(xiàn)有研究忽略了企業(yè)成長(zhǎng)系統(tǒng)的復(fù)雜性,即沒有考慮到企業(yè)在成長(zhǎng)時(shí)可能會(huì)受到的各類影響間的相互關(guān)系?;诖耍疚奶岢鋈碌钠髽I(yè)成長(zhǎng)性模型框架,在此基礎(chǔ)上引用GBRT算法,通過(guò)實(shí)證模擬,檢驗(yàn)?zāi)P偷木_性,為企業(yè)提供有價(jià)值的參考依據(jù)。
GBRT(Gradient Boost Regression Tree)算法是一種迭代的回歸樹算法,會(huì)將所有回歸樹的結(jié)論累加起來(lái)作為階段性結(jié)果。最終結(jié)果會(huì)由迭代多棵樹來(lái)共同決策,其核心是每一棵樹都是學(xué)習(xí)之前所有樹的結(jié)論和殘差。
其中,回歸樹的整理流程基本如下示:
輸入:訓(xùn)練數(shù)據(jù)集D;
輸出:回歸樹f(x);
在訓(xùn)練數(shù)據(jù)集所在的輸入空間中,遞歸地將每個(gè)區(qū)域劃分為兩個(gè)子區(qū)域并決定每個(gè)子區(qū)域上的輸出值,構(gòu)建二叉決策樹:
1.選擇最優(yōu)切分變量j與切分點(diǎn)s,求解
遍歷變量j,對(duì)固定的切分變量j掃切分點(diǎn)s,選擇使式(2)達(dá)到小值的對(duì)(j,s)。
2.用選定的對(duì)(j,s)劃分區(qū)域并決定相應(yīng)的輸出值:
3.繼續(xù)對(duì)兩個(gè)子區(qū)域調(diào)用步驟(1),(2),直至滿足停止條件,
4.將繼續(xù)輸入空間劃分為M個(gè)區(qū)域R1,R2,…,RM,生成決策樹:
當(dāng)完成回歸樹流程生成對(duì)應(yīng)的決策樹后,使用loss函數(shù)的梯度近似殘差,解決殘差計(jì)算問題;然后,以合殘差的近似值利用線性搜索估計(jì)葉結(jié)點(diǎn)區(qū)域的值,使損失函數(shù)極小化,得到最終模型。
上述步驟即為中小企業(yè)成長(zhǎng)性評(píng)價(jià)模型利用GBRT算法的原理,具有強(qiáng)大的預(yù)測(cè)能力,不僅可以處理不同類型的數(shù)據(jù),對(duì)空間外的異常點(diǎn)處理效果也非常顯著。
本文所研究的中小企業(yè)評(píng)價(jià)模型分三步。
首先,先將GBRT算法作為模型基礎(chǔ),其他兩大模塊在此基礎(chǔ)上建立。GBRT算法是一種集成學(xué)習(xí)技術(shù),它是多個(gè)決策樹結(jié)合形成的預(yù)測(cè)模型,具有精度高、泛化能力強(qiáng)、處理非線性數(shù)據(jù)等特點(diǎn),非常適合成長(zhǎng)性評(píng)價(jià)模型的使用。
表1 GBRT模塊
其次,將處理后的數(shù)據(jù)交由集成學(xué)習(xí)模塊使用stacking算法進(jìn)一步處理,其基本原理是訓(xùn)練集訓(xùn)練出多個(gè)模型,將每個(gè)模型的輸出作為輸入,訓(xùn)練出一個(gè)新的模型作為整體的輸出。這一過(guò)程能提升模型的精度、穩(wěn)定性及泛化能力,讓模型的預(yù)測(cè)能力更為穩(wěn)定可靠。
最后,通過(guò)半監(jiān)督學(xué)習(xí)模塊采用Tri-training算法,充分利用未標(biāo)記樣本的信息,提升模型預(yù)測(cè)能力。如協(xié)同訓(xùn)練(Co-train),是基于訓(xùn)練集產(chǎn)生兩個(gè)不同的模型(如GBRT和神經(jīng)網(wǎng)絡(luò))同時(shí)對(duì)測(cè)試集進(jìn)行預(yù)測(cè),將預(yù)測(cè)結(jié)果作為該樣本的標(biāo)簽,添加進(jìn)訓(xùn)練集,根據(jù)擴(kuò)大后的訓(xùn)練集訓(xùn)練出新的模型,然后重復(fù)此過(guò)程。傳統(tǒng)建模方法訓(xùn)練模型不使用未標(biāo)記樣本,但實(shí)際上,未標(biāo)記樣本中同樣存在大量信息可用于訓(xùn)練模型,半監(jiān)督學(xué)習(xí)可以充分利用這些信息,進(jìn)一步保障模型性能。
表2 半監(jiān)督學(xué)習(xí)模塊
此外,在模型構(gòu)建過(guò)程中,采用10折交叉驗(yàn)證檢驗(yàn)?zāi)P皖A(yù)測(cè)性能,即每次抽取十分之九的樣本進(jìn)行建模,對(duì)余下的十分之一的樣本進(jìn)行預(yù)測(cè),觀察預(yù)測(cè)效果,重復(fù)十次。該驗(yàn)證標(biāo)準(zhǔn)差較小,預(yù)測(cè)性能穩(wěn)定可靠。即便迭代次數(shù)較少,依舊可以實(shí)現(xiàn)GBRT算法性能迅速提升并趨于穩(wěn)定的效果。因此,該模型以GBRT算法為基礎(chǔ),在數(shù)據(jù)規(guī)模和質(zhì)量提升后,通過(guò)集成學(xué)習(xí)和半監(jiān)督學(xué)習(xí)模塊,能夠進(jìn)一步提升模型的預(yù)測(cè)能力和穩(wěn)定性,具有研究意義。
1.數(shù)據(jù)來(lái)源
本文選取全國(guó)中小企業(yè)股份轉(zhuǎn)讓系統(tǒng)中的近2千家中小企業(yè)作為分析對(duì)象。結(jié)合中小企業(yè)在系統(tǒng)上所核算的財(cái)務(wù)、管理、營(yíng)運(yùn)等數(shù)據(jù),加之企業(yè)或相關(guān)政府部門所公示的該公司的信用風(fēng)險(xiǎn)、知識(shí)產(chǎn)權(quán)等信息的量化數(shù)據(jù),形成導(dǎo)入模型的基本數(shù)據(jù)。
2.評(píng)價(jià)指標(biāo)說(shuō)明
在已有的研究基礎(chǔ)上,充分考慮全國(guó)中小企業(yè)成長(zhǎng)特點(diǎn),在滿足GBRT算法要求的前提下,分別從盈利能力、營(yíng)運(yùn)效率等六個(gè)維度遴選出中小企業(yè)成長(zhǎng)過(guò)程的主要影響因素,科學(xué)合理地構(gòu)建中小企業(yè)成長(zhǎng)性評(píng)價(jià)指標(biāo)體系,如表3所示。
表3 成長(zhǎng)性評(píng)價(jià)模型框架表
3.實(shí)證結(jié)果分析
本次實(shí)驗(yàn)在獲得原始數(shù)據(jù)后對(duì)數(shù)據(jù)進(jìn)行清洗,并進(jìn)行重新審查和校驗(yàn),對(duì)重復(fù)信息、錯(cuò)誤數(shù)據(jù)進(jìn)行糾正,確保從系統(tǒng)中數(shù)據(jù)的一致性。處理共得1700條數(shù)據(jù),每條數(shù)據(jù)代表一個(gè)企業(yè),特征是評(píng)價(jià)模型框架對(duì)應(yīng)的六維和企業(yè)對(duì)應(yīng)的總分。
將處理后的數(shù)據(jù)導(dǎo)入模型,結(jié)合本文所述操作,通過(guò)GBRT等算法的遞進(jìn)使用對(duì)1700家中小企業(yè)成長(zhǎng)性進(jìn)行評(píng)價(jià)。實(shí)證分析用Python作為開發(fā)語(yǔ)言,通過(guò)scikit-learn(機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘)、matplotlib(繪制各種靜態(tài)、動(dòng)態(tài)、交互式圖表和圖形)和numpy(科學(xué)計(jì)算和數(shù)值分析)實(shí)現(xiàn)數(shù)據(jù)處理和建模。
首先,GBRT算法的估計(jì)可以優(yōu)化側(cè)重于通過(guò)生長(zhǎng)多個(gè)決策樹來(lái)最小化損失函數(shù),即優(yōu)化包括在樹的每個(gè)節(jié)點(diǎn)找到最小化損失函數(shù)的最優(yōu)分割,并更新、分配給每個(gè)特征的權(quán)重。
其次,將基本數(shù)據(jù)所具有6個(gè)特征進(jìn)行梯度增強(qiáng)模型擬合到訓(xùn)練數(shù)據(jù)的結(jié)果是近似目標(biāo)變量和6個(gè)特征之間的關(guān)系的預(yù)測(cè)模型。也就是構(gòu)建多個(gè)決策樹,以目標(biāo)變量的分段常數(shù)近似的方式擬合先前樹的殘差,并組合所有樹的預(yù)測(cè),以獲得最終近似值。
最后,將10棵樹添加到具有6個(gè)特征的GBRT模型之后,目標(biāo)變量的近似值將變得更加精確。集合中的每棵樹都將在目標(biāo)變量的分段常數(shù)近似中擬合先前樹的殘差。最終的近似值將是所有樹所做預(yù)測(cè)的組合,這將產(chǎn)生更強(qiáng)大、更準(zhǔn)確的模型。
可以看到,圖1顯示可以防止使用樹形結(jié)構(gòu)的過(guò)擬合方法來(lái)正則化結(jié)果;圖2顯示當(dāng)RT為1的時(shí)存在高誤差的情況;圖3顯示通過(guò)正則化,交叉驗(yàn)證等技術(shù)可以減少誤差,找到最佳數(shù)量的樹并防止過(guò)擬合,確保實(shí)證分析的有效性和準(zhǔn)確性。
圖1 RT max depth=1和RT max depth=2訓(xùn)練結(jié)果與ground truth對(duì)比
圖2 RT depth=1時(shí)與ground truth的誤差對(duì)比
圖3 使用stacking算法和Co-training模塊后GBRT模型的誤差對(duì)比
綜上所述,可以發(fā)現(xiàn)盈利能力和營(yíng)運(yùn)效率對(duì)中小企業(yè)評(píng)價(jià)模型產(chǎn)生較大的影響,這說(shuō)明二者在評(píng)價(jià)企業(yè)成長(zhǎng)性時(shí)發(fā)揮了至關(guān)重要的作用。同時(shí),信用風(fēng)險(xiǎn)、管理能力和技術(shù)創(chuàng)新能力也在一定程度上影響評(píng)價(jià)結(jié)果;而發(fā)展?jié)摿?duì)于模型的影響較小,這說(shuō)明在中小企業(yè)成長(zhǎng)過(guò)程中可以優(yōu)先解決盈利、營(yíng)運(yùn)和信用等對(duì)成長(zhǎng)影響較為明顯的方面,再著重提升發(fā)展?jié)摿τ兄谄髽I(yè)更好地成長(zhǎng)。
中小企業(yè)成長(zhǎng)過(guò)程中的影響因素眾多,對(duì)其成長(zhǎng)性的評(píng)價(jià)實(shí)際上是一個(gè)不夠準(zhǔn)確的考量方式。本文借助已有的評(píng)價(jià)經(jīng)驗(yàn),研究基于GBRT算法的評(píng)價(jià)模型,該模型的優(yōu)點(diǎn)在于,可以在數(shù)據(jù)不足、準(zhǔn)確度不夠的條件下,擴(kuò)大信息來(lái)源,提高評(píng)價(jià)分析的可信度。因此,本文所研究的中小企業(yè)成長(zhǎng)性評(píng)價(jià)模型具有一定的實(shí)用價(jià)值,旨在為相關(guān)人員提供有益的參考和借鑒。