亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于Stacking模型融合的ESG評級預(yù)測研究

2023-05-30 10:48:04李虹霖

計(jì)算機(jī)應(yīng)用文摘 2023年8期

李虹霖

關(guān)鍵詞：ESG; Stacking算法；ADASYN算法；機(jī)器學(xué)習(xí)

1引言

ESG理念由環(huán)境（Environment）．社會（Social）、公司治理（ Governance）3方面組成，于2004年在聯(lián)合國正式發(fā)布的報(bào)告中被首次提及，如今逐漸成為國際廣泛認(rèn)可的主流投資理念[1]。2022年5月27日，國資委發(fā)布《提高央企控股上市公司質(zhì)量工作方案》，明確提出要構(gòu)建具有中國特色的ESG信息披露規(guī)則、ESG績效評級和ESG投資指引，并實(shí)現(xiàn)2023年相關(guān)專項(xiàng)報(bào)告披露“全覆蓋”。這足以看出當(dāng)下ESG的重要性。而研讀文獻(xiàn)后發(fā)現(xiàn)，我國的ESG研究還處在發(fā)展期，多數(shù)研究還集中在基本理論和ESG評級體系的構(gòu)建與完善上[2-4]。這些研究中鮮有機(jī)器學(xué)習(xí)等算法理論的延伸：極少數(shù)采用數(shù)據(jù)挖掘算法，也僅僅是應(yīng)用在數(shù)據(jù)采集、缺失值處理以及用單一模型建模探究ESG評級后的影響上[5-8]。如今，大數(shù)據(jù)繁榮發(fā)展，機(jī)器學(xué)習(xí)在ESG的表現(xiàn)上卻鮮有人知。基于此，本文將機(jī)器學(xué)習(xí)滲透到ESG領(lǐng)域，并將多個模型集成分析，旨在為后續(xù)ESG評級相關(guān)研究奠定理論基礎(chǔ)與拓寬研究道路，也為機(jī)器學(xué)習(xí)算法提供新的可適用場景；同時(shí)，本文針對Stacking融合算法存在的不足進(jìn)行改進(jìn)，在日后的研究中為其進(jìn)一步精進(jìn)提供幫助。

2基本理論方法

2.1Stacking算法理論

Stacking融合算法最早由Wolpert[9]于1992年提出，其基本思想是利用算法的差異性進(jìn)行多層疊加，增強(qiáng)模型預(yù)測精度和泛化能力。它能夠?qū)⒍鄠€模型的預(yù)測結(jié)果相融合，再投入其他模型中預(yù)測，實(shí)現(xiàn)將多個模型進(jìn)行多層疊加。以2層Stacking融合為例，其基本算法理論如下。

其算法第一層框架為基學(xué)習(xí)器，通常選擇多個不同分類器。并在每個基學(xué)習(xí)器訓(xùn)練時(shí)加入交叉驗(yàn)證，即對任意模型Mi，做K折交叉驗(yàn)證，且將每一次訓(xùn)練集交叉驗(yàn)證預(yù)測結(jié)果均儲存為Pi，則對于每個模型Mi來說，會有Pi=[Pi，…，pk]，同時(shí)每次交叉驗(yàn)證都需要對原測試集進(jìn)行預(yù)測，即同時(shí)獲得一個模型在原測試集上的預(yù)測集ti，那么對于模型Mi來說，就會得到Ti=的數(shù)據(jù)維度將會是原測試集的K倍，為達(dá)到與原測試集相同的維度，需對Ti求取平均值。

其算法第二層框架為元學(xué)習(xí)器，其輸入特征由原數(shù)據(jù)的真實(shí)標(biāo)簽Y與基學(xué)習(xí)器訓(xùn)練后的P=（Pi）共同構(gòu)成。由于變量特征過少，若元學(xué)習(xí)器過于復(fù)雜可能會導(dǎo)致過擬合，因此通常選用簡單邏輯回歸模型（L）。經(jīng)過元學(xué)習(xí)器模型訓(xùn)練后，對第一層訓(xùn)練的測試集結(jié)果進(jìn)行預(yù)測，并得到最終的預(yù)測結(jié)果。具體算法框架如圖1所示。

2.2改進(jìn)Stacking算法理論

2.2.1第一層訓(xùn)練框架的加權(quán)優(yōu)化

在傳統(tǒng)Stacking模型中，每次迭代模型都需要在原測試集上再預(yù)測一次，故K折交叉驗(yàn)證會使每個基學(xué)習(xí)器都在原測試集上預(yù)測K次，進(jìn)而使預(yù)測集維度擴(kuò)大K倍，因此需要對預(yù)測集取平均，但沒有考慮到基學(xué)習(xí)器擬合效果的影響[10]。而元學(xué)習(xí)器的訓(xùn)練卻依賴于基學(xué)習(xí)器的預(yù)測集，所以基學(xué)習(xí)器的擬合效果不容忽視。故本文所改進(jìn)的Stacking模型在測試集取平均日寸加入了精度衍生出的權(quán)重因子，為高精度預(yù)測集賦予較小權(quán)重，即T'i =wixTi，其中：

2.2.2第二層訓(xùn)練框架的特征改進(jìn)

在傳統(tǒng)Stacking模型元學(xué)習(xí)器訓(xùn)練時(shí)，只采用基學(xué)習(xí)器預(yù)測集，若選擇2個模型進(jìn)行Stacking融合，則特征變量X只包含2個模型的預(yù)測標(biāo)簽。這就導(dǎo)致特征變量少，可能丟失特征信息[11]。但若將特征全部投入，又產(chǎn)生變量冗余，且元學(xué)習(xí)器的訓(xùn)練集中已經(jīng)包含原有變量的預(yù)測結(jié)果，再加入全部變量容易造成模型的過擬合。因此，本文提出在元學(xué)習(xí)器訓(xùn)練前加入特征選擇的步驟，將篩選后的特征變量與基學(xué)習(xí)器預(yù)測集相結(jié)合，以構(gòu)成元學(xué)習(xí)器的新訓(xùn)練集。

常見的特征選擇方法有遞歸特征消除法（RFE）、LightGBM特征重要性法等。由于RFE是基于后向迭代的算法，容易陷入局部最優(yōu)，且如果選擇的模型穩(wěn)定性不高，則它也不穩(wěn)定。而LightGBM在特征選取上更靈活，且在訓(xùn)練過程中已記錄其特征重要性，不用額外進(jìn)行特征選擇，故本文選用LightGBM來進(jìn)行改進(jìn)算法中的特征選擇。

3數(shù)據(jù)處理

3.1數(shù)據(jù)來源

ESG數(shù)據(jù)主要是由企業(yè)的財(cái)務(wù)報(bào)告、企業(yè)社會責(zé)任報(bào)告與企業(yè)ESG報(bào)告等披露。本文主要收集和訊網(wǎng)企業(yè)社會責(zé)任板塊中2010～2021年所有可獲取的指標(biāo)、CSMAR數(shù)據(jù)庫中的部分環(huán)境表現(xiàn)指標(biāo)，并結(jié)合其他數(shù)據(jù)庫進(jìn)行查缺補(bǔ)漏。若上述數(shù)據(jù)源有缺失的，再輔以搜索上市企業(yè)的ESG報(bào)告等公開報(bào)告，通過Python中的pdfplumber庫進(jìn)行采集補(bǔ)充。最終共收集到39 468條樣本數(shù)據(jù)，獲取42個基礎(chǔ)指標(biāo)，其中14個是／否二分類指標(biāo)、27個數(shù)值指標(biāo)、1個5分類指標(biāo)（ESG評級），涵蓋企業(yè)財(cái)務(wù)、環(huán)境表現(xiàn)、社會表現(xiàn)與公司治理4方面。具體情況如表1所列。

3.2數(shù)據(jù)預(yù)處理

3.2.1缺失值處理

ESG的概念在我國還處在新興上升期，屬于非強(qiáng)制性披露指標(biāo)，企業(yè)對其相關(guān)的披露很少：又因?yàn)樗壳皼]有統(tǒng)一衡量標(biāo)準(zhǔn)，進(jìn)而導(dǎo)致企業(yè)所披露的指標(biāo)充斥著差異性與隨意性。所收集到的數(shù)據(jù)極可能面臨數(shù)據(jù)缺失的問題。同時(shí)，在采用Python進(jìn)行PDF處理時(shí)，會利用OCR識別技術(shù)提取表格數(shù)據(jù)，而目前識別準(zhǔn)確率只能達(dá)到90%左右，并不能保證100%正確，且會跳過無法識別的表格。綜合以上各因素的影響，最終所收集到的數(shù)據(jù)集有一定的缺失值，直接使用會導(dǎo)致模型預(yù)測效果大打折扣，需對其進(jìn)行缺失值處理。

如圖2所示，空白比例越大則樣本缺失越嚴(yán)重，可以明顯看出產(chǎn)品開發(fā)支出、技術(shù)創(chuàng)新理念、技術(shù)創(chuàng)新項(xiàng)目數(shù)、反商業(yè)賄賂培訓(xùn)、環(huán)保投入金額、節(jié)約能源種類數(shù)及公益捐贈金額7個特征的缺失率大，而數(shù)據(jù)較完整的大多為財(cái)務(wù)報(bào)表中所涵納的指標(biāo)。這是由于企業(yè)對財(cái)務(wù)報(bào)告的披露十分嚴(yán)格，而對于其他類型指標(biāo)的披露具有自主性，故鮮少披露。針對上述7個高度缺失的指標(biāo)，即使采用數(shù)據(jù)挖掘手段進(jìn)行填充，對模型也無較大意義，因此直接剔除。而針對缺失值數(shù)量非極端的情況，本文選擇隨機(jī)森林填充法替換，即利用隨機(jī)森林算法進(jìn)行擬合填充。隨機(jī)森林是非常有效的集成學(xué)習(xí)算法，對于缺失值的擬合填充效果較好，不論連續(xù)型、分類變量均適用。

3.2.2數(shù)據(jù)不平衡性處理

當(dāng)分類模型的標(biāo)簽類別不均衡時(shí)，占比越大的類會成為影響準(zhǔn)確率最主要的因素。在此情況下，通常會減少或忽略少數(shù)類，以多數(shù)類進(jìn)行訓(xùn)練的模型，在少數(shù)類上的表現(xiàn)自然不盡如人意，導(dǎo)致模型的實(shí)際應(yīng)用價(jià)值較低。因此，樣本類別不均衡是數(shù)據(jù)預(yù)處理日寸需要重點(diǎn)關(guān)注的問題。

為解決該問題，通常選擇簡單易實(shí)現(xiàn)的過采樣方法。其中，2個優(yōu)良算法即為合成少數(shù)過采樣算法（SMOTE）與自適應(yīng)綜合過采樣算法（ADASYN）。前者根據(jù)少數(shù)類，利用最近鄰算法人工合成新樣本；而ADASYN則是在少數(shù)類的低密度特征空間區(qū)域中生成更多的合成樣本，在高密度區(qū)域中生成較少的樣本，其最大的特點(diǎn)是能夠自動決定每個少數(shù)類樣本需要產(chǎn)生的合成樣本數(shù)量，而不是像SMOTE那樣對每個少數(shù)類樣本均合成相同數(shù)量。故本文選擇ADASYN方法平衡樣本數(shù)據(jù)。優(yōu)化后結(jié)果如表2所列。

由表2可知，原數(shù)據(jù)集中ESG評級為D的企業(yè)最多，評為A的企業(yè)寥寥無幾，B，C，E級的企業(yè)數(shù)量相差不大，但遠(yuǎn)少于D級，足以體現(xiàn)其嚴(yán)重的不平衡性。經(jīng)過ADASYN算法優(yōu)化后，大量填充了少數(shù)類樣本，樣本例數(shù)量趨于平衡，樣本量也由之前的3.9萬擴(kuò)充為了17.2萬，增長了約3倍。

4實(shí)例分析與結(jié)果

數(shù)據(jù)集預(yù)處理后，采用Python進(jìn)行模型實(shí)驗(yàn)。分別將2種模型用Blending與Stacking算法進(jìn)行融合。2種算法的主要區(qū)別在于在基學(xué)習(xí)器的訓(xùn)練中是否采用交叉驗(yàn)證。Blending算法的基學(xué)習(xí)器直接對K個模型分別進(jìn)行訓(xùn)練與預(yù)測，未進(jìn)行交叉驗(yàn)證，故它也不需要對原測試集預(yù)測集取平均。

實(shí)驗(yàn)中，本文均選擇表現(xiàn)較好的LightGBM與KNN模型作為基學(xué)習(xí)器，并對Stacking模型做5折交叉驗(yàn)證，元學(xué)習(xí)器均選擇LR模型。針對傳統(tǒng)Stacking算法存在的問題，本文提出了改進(jìn)方案，詳見本文2.2節(jié)。對于改進(jìn)后的Stacking模型，基學(xué)習(xí)器與元學(xué)習(xí)器的選擇不變。設(shè)置訓(xùn)練集與測試集的比例為8：2;交叉驗(yàn)證為5折；其他模型參數(shù)設(shè)為默認(rèn)值。

在輸入特征的改進(jìn)上，為不丟失重要變量，設(shè)定max_ num—features參數(shù)的閾值為剔除缺失后的總特征數(shù)34，并選擇增益galn作為判斷依據(jù)。

如圖3所示，在增益值為2000時(shí)出現(xiàn)了急劇變化，故將閾值設(shè)定為2000。最終剩余18個特征，特征變量剔除比為47.06%。則新特征集一共包含20個特征變量，仍由LR模型訓(xùn)練。最終各模型實(shí)驗(yàn)結(jié)果如表3所列。

從表3可以看出，相較于單- LGBM與KNN模型．Stacking算法擬合效果更好；同時(shí)，它的訓(xùn)練效果也比Blending模型更佳，則可以認(rèn)為加入交叉驗(yàn)證后獲取新訓(xùn)練集進(jìn)行預(yù)測的效果會比采用直接預(yù)測后獲取的新訓(xùn)練集的效果更佳，側(cè)面驗(yàn)證了交叉驗(yàn)證的優(yōu)異性。而本文提出的加權(quán)與特征選取改進(jìn)后的Stacking模型融合算法是幾種模型中表現(xiàn)最佳的方法，準(zhǔn)確率達(dá)到85.87%，說明該方法在ESG評級預(yù)測上是有效的。

5結(jié)束語

本文利用Stacking算法將集成學(xué)習(xí)器再度融合，并拓展到ESG評級領(lǐng)域，為ESG的評級系統(tǒng)提供了可選擇的思路。從某一層面來說，其驗(yàn)證了利用機(jī)器學(xué)習(xí)進(jìn)行ESG評級的有效性，為機(jī)器學(xué)習(xí)在ESG領(lǐng)域進(jìn)一步的應(yīng)用提供了理論基礎(chǔ)。但本研究還存在諸多不足，其一在于數(shù)據(jù)指標(biāo)的缺失上，不過隨著未來ESG領(lǐng)域監(jiān)管的加強(qiáng)，信息披露的增加，該問題將得到極大地改善；其二在于模型選取上，在后續(xù)研究中，可以通過網(wǎng)格搜索算法選取基學(xué)習(xí)器。