李虹霖
關(guān)鍵詞:ESG; Stacking算法;ADASYN算法;機(jī)器學(xué)習(xí)
1引言
ESG理念由環(huán)境(Environment).社會(Social)、公司治理( Governance)3方面組成,于2004年在聯(lián)合國正式發(fā)布的報(bào)告中被首次提及,如今逐漸成為國際廣泛認(rèn)可的主流投資理念[1]。2022年5月27日,國資委發(fā)布《提高央企控股上市公司質(zhì)量工作方案》,明確提出要構(gòu)建具有中國特色的ESG信息披露規(guī)則、ESG績效評級和ESG投資指引,并實(shí)現(xiàn)2023年相關(guān)專項(xiàng)報(bào)告披露“全覆蓋”。這足以看出當(dāng)下ESG的重要性。而研讀文獻(xiàn)后發(fā)現(xiàn),我國的ESG研究還處在發(fā)展期,多數(shù)研究還集中在基本理論和ESG評級體系的構(gòu)建與完善上[2-4]。這些研究中鮮有機(jī)器學(xué)習(xí)等算法理論的延伸:極少數(shù)采用數(shù)據(jù)挖掘算法,也僅僅是應(yīng)用在數(shù)據(jù)采集、缺失值處理以及用單一模型建模探究ESG評級后的影響上[5-8]。如今,大數(shù)據(jù)繁榮發(fā)展,機(jī)器學(xué)習(xí)在ESG的表現(xiàn)上卻鮮有人知。基于此,本文將機(jī)器學(xué)習(xí)滲透到ESG領(lǐng)域,并將多個模型集成分析,旨在為后續(xù)ESG評級相關(guān)研究奠定理論基礎(chǔ)與拓寬研究道路,也為機(jī)器學(xué)習(xí)算法提供新的可適用場景;同時(shí),本文針對Stacking融合算法存在的不足進(jìn)行改進(jìn),在日后的研究中為其進(jìn)一步精進(jìn)提供幫助。
2基本理論方法
2.1Stacking算法理論
Stacking融合算法最早由Wolpert[9]于1992年提出,其基本思想是利用算法的差異性進(jìn)行多層疊加,增強(qiáng)模型預(yù)測精度和泛化能力。它能夠?qū)⒍鄠€模型的預(yù)測結(jié)果相融合,再投入其他模型中預(yù)測,實(shí)現(xiàn)將多個模型進(jìn)行多層疊加。以2層Stacking融合為例,其基本算法理論如下。
其算法第一層框架為基學(xué)習(xí)器,通常選擇多個不同分類器。并在每個基學(xué)習(xí)器訓(xùn)練時(shí)加入交叉驗(yàn)證,即對任意模型Mi,做K折交叉驗(yàn)證,且將每一次訓(xùn)練集交叉驗(yàn)證預(yù)測結(jié)果均儲存為Pi,則對于每個模型Mi來說,會有Pi=[Pi,…,pk],同時(shí)每次交叉驗(yàn)證都需要對原測試集進(jìn)行預(yù)測,即同時(shí)獲得一個模型在原測試集上的預(yù)測集ti,那么對于模型Mi來說,就會得到Ti=的數(shù)據(jù)維度將會是原測試集的K倍,為達(dá)到與原測試集相同的維度,需對Ti求取平均值。
其算法第二層框架為元學(xué)習(xí)器,其輸入特征由原數(shù)據(jù)的真實(shí)標(biāo)簽Y與基學(xué)習(xí)器訓(xùn)練后的P=(Pi)共同構(gòu)成。由于變量特征過少,若元學(xué)習(xí)器過于復(fù)雜可能會導(dǎo)致過擬合,因此通常選用簡單邏輯回歸模型(L)。經(jīng)過元學(xué)習(xí)器模型訓(xùn)練后,對第一層訓(xùn)練的測試集結(jié)果進(jìn)行預(yù)測,并得到最終的預(yù)測結(jié)果。具體算法框架如圖1所示。
2.2改進(jìn)Stacking算法理論
2.2.1第一層訓(xùn)練框架的加權(quán)優(yōu)化
在傳統(tǒng)Stacking模型中,每次迭代模型都需要在原測試集上再預(yù)測一次,故K折交叉驗(yàn)證會使每個基學(xué)習(xí)器都在原測試集上預(yù)測K次,進(jìn)而使預(yù)測集維度擴(kuò)大K倍,因此需要對預(yù)測集取平均,但沒有考慮到基學(xué)習(xí)器擬合效果的影響[10]。而元學(xué)習(xí)器的訓(xùn)練卻依賴于基學(xué)習(xí)器的預(yù)測集,所以基學(xué)習(xí)器的擬合效果不容忽視。故本文所改進(jìn)的Stacking模型在測試集取平均日寸加入了精度衍生出的權(quán)重因子,為高精度預(yù)測集賦予較小權(quán)重,即T'i =wixTi,其中:
2.2.2第二層訓(xùn)練框架的特征改進(jìn)
在傳統(tǒng)Stacking模型元學(xué)習(xí)器訓(xùn)練時(shí),只采用基學(xué)習(xí)器預(yù)測集,若選擇2個模型進(jìn)行Stacking融合,則特征變量X只包含2個模型的預(yù)測標(biāo)簽。這就導(dǎo)致特征變量少,可能丟失特征信息[11]。但若將特征全部投入,又產(chǎn)生變量冗余,且元學(xué)習(xí)器的訓(xùn)練集中已經(jīng)包含原有變量的預(yù)測結(jié)果,再加入全部變量容易造成模型的過擬合。因此,本文提出在元學(xué)習(xí)器訓(xùn)練前加入特征選擇的步驟,將篩選后的特征變量與基學(xué)習(xí)器預(yù)測集相結(jié)合,以構(gòu)成元學(xué)習(xí)器的新訓(xùn)練集。
常見的特征選擇方法有遞歸特征消除法(RFE)、LightGBM特征重要性法等。由于RFE是基于后向迭代的算法,容易陷入局部最優(yōu),且如果選擇的模型穩(wěn)定性不高,則它也不穩(wěn)定。而LightGBM在特征選取上更靈活,且在訓(xùn)練過程中已記錄其特征重要性,不用額外進(jìn)行特征選擇,故本文選用LightGBM來進(jìn)行改進(jìn)算法中的特征選擇。
3數(shù)據(jù)處理
3.1數(shù)據(jù)來源
ESG數(shù)據(jù)主要是由企業(yè)的財(cái)務(wù)報(bào)告、企業(yè)社會責(zé)任報(bào)告與企業(yè)ESG報(bào)告等披露。本文主要收集和訊網(wǎng)企業(yè)社會責(zé)任板塊中2010~2021年所有可獲取的指標(biāo)、CSMAR數(shù)據(jù)庫中的部分環(huán)境表現(xiàn)指標(biāo),并結(jié)合其他數(shù)據(jù)庫進(jìn)行查缺補(bǔ)漏。若上述數(shù)據(jù)源有缺失的,再輔以搜索上市企業(yè)的ESG報(bào)告等公開報(bào)告,通過Python中的pdfplumber庫進(jìn)行采集補(bǔ)充。最終共收集到39 468條樣本數(shù)據(jù),獲取42個基礎(chǔ)指標(biāo),其中14個是/否二分類指標(biāo)、27個數(shù)值指標(biāo)、1個5分類指標(biāo)(ESG評級),涵蓋企業(yè)財(cái)務(wù)、環(huán)境表現(xiàn)、社會表現(xiàn)與公司治理4方面。具體情況如表1所列。
3.2數(shù)據(jù)預(yù)處理
3.2.1缺失值處理
ESG的概念在我國還處在新興上升期,屬于非強(qiáng)制性披露指標(biāo),企業(yè)對其相關(guān)的披露很少:又因?yàn)樗壳皼]有統(tǒng)一衡量標(biāo)準(zhǔn),進(jìn)而導(dǎo)致企業(yè)所披露的指標(biāo)充斥著差異性與隨意性。所收集到的數(shù)據(jù)極可能面臨數(shù)據(jù)缺失的問題。同時(shí),在采用Python進(jìn)行PDF處理時(shí),會利用OCR識別技術(shù)提取表格數(shù)據(jù),而目前識別準(zhǔn)確率只能達(dá)到90%左右,并不能保證100%正確,且會跳過無法識別的表格。綜合以上各因素的影響,最終所收集到的數(shù)據(jù)集有一定的缺失值,直接使用會導(dǎo)致模型預(yù)測效果大打折扣,需對其進(jìn)行缺失值處理。
如圖2所示,空白比例越大則樣本缺失越嚴(yán)重,可以明顯看出產(chǎn)品開發(fā)支出、技術(shù)創(chuàng)新理念、技術(shù)創(chuàng)新項(xiàng)目數(shù)、反商業(yè)賄賂培訓(xùn)、環(huán)保投入金額、節(jié)約能源種類數(shù)及公益捐贈金額7個特征的缺失率大,而數(shù)據(jù)較完整的大多為財(cái)務(wù)報(bào)表中所涵納的指標(biāo)。這是由于企業(yè)對財(cái)務(wù)報(bào)告的披露十分嚴(yán)格,而對于其他類型指標(biāo)的披露具有自主性,故鮮少披露。針對上述7個高度缺失的指標(biāo),即使采用數(shù)據(jù)挖掘手段進(jìn)行填充,對模型也無較大意義,因此直接剔除。而針對缺失值數(shù)量非極端的情況,本文選擇隨機(jī)森林填充法替換,即利用隨機(jī)森林算法進(jìn)行擬合填充。隨機(jī)森林是非常有效的集成學(xué)習(xí)算法,對于缺失值的擬合填充效果較好,不論連續(xù)型、分類變量均適用。
3.2.2數(shù)據(jù)不平衡性處理
當(dāng)分類模型的標(biāo)簽類別不均衡時(shí),占比越大的類會成為影響準(zhǔn)確率最主要的因素。在此情況下,通常會減少或忽略少數(shù)類,以多數(shù)類進(jìn)行訓(xùn)練的模型,在少數(shù)類上的表現(xiàn)自然不盡如人意,導(dǎo)致模型的實(shí)際應(yīng)用價(jià)值較低。因此,樣本類別不均衡是數(shù)據(jù)預(yù)處理日寸需要重點(diǎn)關(guān)注的問題。
為解決該問題,通常選擇簡單易實(shí)現(xiàn)的過采樣方法。其中,2個優(yōu)良算法即為合成少數(shù)過采樣算法(SMOTE)與自適應(yīng)綜合過采樣算法(ADASYN)。前者根據(jù)少數(shù)類,利用最近鄰算法人工合成新樣本;而ADASYN則是在少數(shù)類的低密度特征空間區(qū)域中生成更多的合成樣本,在高密度區(qū)域中生成較少的樣本,其最大的特點(diǎn)是能夠自動決定每個少數(shù)類樣本需要產(chǎn)生的合成樣本數(shù)量,而不是像SMOTE那樣對每個少數(shù)類樣本均合成相同數(shù)量。故本文選擇ADASYN方法平衡樣本數(shù)據(jù)。優(yōu)化后結(jié)果如表2所列。
由表2可知,原數(shù)據(jù)集中ESG評級為D的企業(yè)最多,評為A的企業(yè)寥寥無幾,B,C,E級的企業(yè)數(shù)量相差不大,但遠(yuǎn)少于D級,足以體現(xiàn)其嚴(yán)重的不平衡性。經(jīng)過ADASYN算法優(yōu)化后,大量填充了少數(shù)類樣本,樣本例數(shù)量趨于平衡,樣本量也由之前的3.9萬擴(kuò)充為了17.2萬,增長了約3倍。
4實(shí)例分析與結(jié)果
數(shù)據(jù)集預(yù)處理后,采用Python進(jìn)行模型實(shí)驗(yàn)。分別將2種模型用Blending與Stacking算法進(jìn)行融合。2種算法的主要區(qū)別在于在基學(xué)習(xí)器的訓(xùn)練中是否采用交叉驗(yàn)證。Blending算法的基學(xué)習(xí)器直接對K個模型分別進(jìn)行訓(xùn)練與預(yù)測,未進(jìn)行交叉驗(yàn)證,故它也不需要對原測試集預(yù)測集取平均。
實(shí)驗(yàn)中,本文均選擇表現(xiàn)較好的LightGBM與KNN模型作為基學(xué)習(xí)器,并對Stacking模型做5折交叉驗(yàn)證,元學(xué)習(xí)器均選擇LR模型。針對傳統(tǒng)Stacking算法存在的問題,本文提出了改進(jìn)方案,詳見本文2.2節(jié)。對于改進(jìn)后的Stacking模型,基學(xué)習(xí)器與元學(xué)習(xí)器的選擇不變。設(shè)置訓(xùn)練集與測試集的比例為8:2;交叉驗(yàn)證為5折;其他模型參數(shù)設(shè)為默認(rèn)值。
在輸入特征的改進(jìn)上,為不丟失重要變量,設(shè)定max_ num—features參數(shù)的閾值為剔除缺失后的總特征數(shù)34,并選擇增益galn作為判斷依據(jù)。
如圖3所示,在增益值為2000時(shí)出現(xiàn)了急劇變化,故將閾值設(shè)定為2000。最終剩余18個特征,特征變量剔除比為47.06%。則新特征集一共包含20個特征變量,仍由LR模型訓(xùn)練。最終各模型實(shí)驗(yàn)結(jié)果如表3所列。
從表3可以看出,相較于單- LGBM與KNN模型.Stacking算法擬合效果更好;同時(shí),它的訓(xùn)練效果也比Blending模型更佳,則可以認(rèn)為加入交叉驗(yàn)證后獲取新訓(xùn)練集進(jìn)行預(yù)測的效果會比采用直接預(yù)測后獲取的新訓(xùn)練集的效果更佳,側(cè)面驗(yàn)證了交叉驗(yàn)證的優(yōu)異性。而本文提出的加權(quán)與特征選取改進(jìn)后的Stacking模型融合算法是幾種模型中表現(xiàn)最佳的方法,準(zhǔn)確率達(dá)到85.87%,說明該方法在ESG評級預(yù)測上是有效的。
5結(jié)束語
本文利用Stacking算法將集成學(xué)習(xí)器再度融合,并拓展到ESG評級領(lǐng)域,為ESG的評級系統(tǒng)提供了可選擇的思路。從某一層面來說,其驗(yàn)證了利用機(jī)器學(xué)習(xí)進(jìn)行ESG評級的有效性,為機(jī)器學(xué)習(xí)在ESG領(lǐng)域進(jìn)一步的應(yīng)用提供了理論基礎(chǔ)。但本研究還存在諸多不足,其一在于數(shù)據(jù)指標(biāo)的缺失上,不過隨著未來ESG領(lǐng)域監(jiān)管的加強(qiáng),信息披露的增加,該問題將得到極大地改善;其二在于模型選取上,在后續(xù)研究中,可以通過網(wǎng)格搜索算法選取基學(xué)習(xí)器。