謝 洋, 閆海波
(新疆財經(jīng)大學(xué)統(tǒng)計與數(shù)據(jù)科學(xué)學(xué)院, 新疆 烏魯木齊 830012)
工業(yè)是立國之本、強國之基,工業(yè)作為國家經(jīng)濟的支柱,對實體經(jīng)濟運行狀況的準(zhǔn)確把握至關(guān)重要。工業(yè)增加值作為國家經(jīng)濟的關(guān)鍵指標(biāo),在國民生產(chǎn)總值中占主導(dǎo)地位,同時在社會經(jīng)濟活動中扮演關(guān)鍵角色。工業(yè)的增長對國家建設(shè)、國際貿(mào)易、新技術(shù)創(chuàng)新以及落后地區(qū)經(jīng)濟發(fā)展都具有重要意義。
當(dāng)前,學(xué)術(shù)界對工業(yè)經(jīng)濟預(yù)測領(lǐng)域進行了深入廣泛的研究。以吳彥軍、丘斌、王占峰[1]等人致力于運用大數(shù)據(jù)技術(shù),拓展工業(yè)經(jīng)濟統(tǒng)計與預(yù)測的應(yīng)用。這一研究方向為提高預(yù)測準(zhǔn)確性開辟了新的思路。朱云英[2]的研究強調(diào)了統(tǒng)計指標(biāo)和景氣指數(shù)在工業(yè)經(jīng)濟預(yù)測中的重要性,特別是企業(yè)景氣指數(shù)在模型預(yù)測工業(yè)增加值時所具備的信息可靠、前瞻性強、預(yù)測性強等特點,為工業(yè)統(tǒng)計指標(biāo)在預(yù)測中的關(guān)鍵作用提供了有力支持。
在工業(yè)增加值預(yù)測的研究中,學(xué)者們通常采用傳統(tǒng)方法和人工智能方法這兩大類。傳統(tǒng)方法主要包括回歸模型法[3]、趨勢外推法模型[4]以及時間序列模型[5]。盡管這些方法相對簡單,但由于受制于宏觀經(jīng)濟數(shù)據(jù)在短期預(yù)測中的限制,它們的預(yù)測精度存在一定下降。與此同時,人工智能方法包括隨機森林、自適應(yīng)增強、極致梯度增強、支持向量回歸機和神經(jīng)網(wǎng)絡(luò)等[6]。因此,顧海燕[7]等人提出了基于多個模型的融合算法,以適應(yīng)更復(fù)雜的非線性數(shù)據(jù)和不同應(yīng)用場景需求。
因此本文使用GBDT、RFR、LightGBM、Adaboost、XGBoost 和CatBoost 算法模型,并采用粒子群優(yōu)化算法對模型的重要參數(shù)進行調(diào)整,通過對比分析選出在工業(yè)增加值預(yù)測中表現(xiàn)更好的預(yù)測效果。
RFR 是一種基于決策樹的集成學(xué)習(xí)算法。其基本思想是通過隨機抽取Bootstrap 樣本并建立多個決策樹模型,通過對多個模型的預(yù)測結(jié)果進行平均化,提高回歸問題的預(yù)測準(zhǔn)確性。RFR 模型建立的主要步驟如下:
1)通過Bootstrap 方法在原始樣本集s 中抽取k個訓(xùn)練樣本集。
2)使用CART 學(xué)習(xí)對k 個訓(xùn)練集訓(xùn)練從而形成k 棵決策樹模型。在決策樹生成中,假設(shè)有N 個特征向量,從N 個特征向量中隨機選擇m 個,每個內(nèi)部節(jié)點在這m 個特征變量中進行優(yōu)化劃分,m 值為隨機森林模型形成中的一個常數(shù)。
3)將k 棵決策樹的結(jié)果組合起來,得到最終結(jié)果?;貧w問題使用簡單平均的組合方法。
AdaBoost 是一種基于Boosting 算法的迭代學(xué)習(xí)方法。在K 次迭代中,它根據(jù)每次迭代的誤差調(diào)整樣本權(quán)重,通過組合多個弱分類器構(gòu)建出一個強分類器,提高模型性能。
CatBoost 是一種梯度提升框架,專為處理類型特征而設(shè)計。它通過處理類別特征的優(yōu)化方法,降低了過擬合風(fēng)險,提高了訓(xùn)練效率。CatBoost 使用一種基于有序Ordered TS 的排名提升方法來解決預(yù)測偏差問題。其主要思想是為訓(xùn)練集生成一個隨機序列,用前個樣本訓(xùn)練第個模型,并用它來擬合第個樣本,得到一個樣本殘差估計值。Ordered 模型能進一步優(yōu)化時間復(fù)雜度,減少需要訓(xùn)練的模型數(shù)量。
GBDT 算法也被稱為梯度提升決策樹,是一種由多個決策樹組成的迭代算法[11],它通過不斷迭代,每次迭代都根據(jù)前一輪的殘差擬合一顆決策樹,最終通過組合多個弱分類器形成強分類器。
XGBoost 是一種用于監(jiān)督學(xué)習(xí)算法中分類和回歸的極端梯度提升樹算法,由Chen 等人提出[12-14]。XGBoost 通過正則化控制樹模型復(fù)雜度,同時支持并行計算,提高了訓(xùn)練速度和模型性能。
LightGBM是一種基于梯度提升框架的決策樹算法,采用基于直方圖的學(xué)習(xí)方法,通過更高效的樹建立方式和并行學(xué)習(xí),提高了訓(xùn)練速度和效率。相比于決策樹,預(yù)測精度得到提升,使得該算法同時兼顧了訓(xùn)練速度和預(yù)測精度。
Kennedy 和R.Eberhart 在1995 年提出的粒子群優(yōu)化,粒子群優(yōu)化(PSO)是指為了模仿鳥群的捕食行為,大量引入無質(zhì)量的粒子,并賦予粒子兩個屬性:行進方向和行進速度[7]。每個粒子在搜索空間中單獨的搜尋最優(yōu)解,并將其記為當(dāng)前個體極值,并將個體極值與整個粒子群里的其他粒子共享,找到最優(yōu)的那個個體極值作為整個粒子群的當(dāng)前全局最優(yōu)解,粒子群中的所有粒子根據(jù)自己找到的當(dāng)前個體極值和整個粒子群共享的當(dāng)前全局最優(yōu)解來調(diào)整自己的速度和位置。
粒子群算法優(yōu)化過程如下:
步驟一:設(shè)置關(guān)鍵字參數(shù)個體記憶因子c1,群體記憶因子c2,種群規(guī)模pop 以及最大迭代次數(shù)max_iter。
步驟二:從給定參數(shù)值范圍中生成一個隨機種群,從種群中隨機選擇一組參數(shù)值作為初始種群,并根據(jù)生成初始種群的方法生成一組初始化速度值和隨機位置。
步驟三:定義目標(biāo)函數(shù)(適應(yīng)度函數(shù)),即將測試集輸入模型后,計算模型的均方根誤差。以初始種群以及種群個體作為參數(shù)輸入,計算個體適應(yīng)度和群體適應(yīng)度,更新并比較個體和群體適應(yīng)度,從而獲得個體極值(pbest)與其位置和群體(全局)極值(gbest)與其位置。
步驟四:迭代尋優(yōu),尋找速度與位置。
對粒子群的速度進行更新,并對越界的速度進行約束,速度更新公式為:
對粒子群的位置進行約束,位置調(diào)整公式為:
步驟五:若滿足設(shè)定的最小誤差或最大迭代次數(shù),輸出粒子群的全局最優(yōu)值和其對應(yīng)的位置以及每個粒子的局部最優(yōu)值和其對應(yīng)的位置。
在工業(yè)增加值的預(yù)測中,本研究精心選擇了一系列指標(biāo),時間范圍覆蓋了2003 年第一季度至2022 年第四季度。這些指標(biāo)分為自然因素和社會因素兩大類,旨在深入理解它們對工業(yè)增加值的影響。
自然因素主要考慮了自然災(zāi)害、溫度和氣候等因素。盡管大規(guī)模的自然災(zāi)害,如火山噴發(fā)和地震,可能對工業(yè)產(chǎn)生短期負面影響,而溫度和氣候的變化也可能在一定程度上影響工業(yè)的成本,但由于這些因素的瞬時性和難以量化,在選擇預(yù)測工業(yè)增加值的指標(biāo)時決定不納入考慮。
本研究將焦點放在了社會因素上,包括固定資產(chǎn)投資、規(guī)模以上企業(yè)個數(shù)、GDP、居民消費價格指數(shù)、規(guī)模以上工業(yè)企業(yè)利潤總額、規(guī)模以上工業(yè)虧損企業(yè)虧損總額、規(guī)模以上工業(yè)企業(yè)發(fā)電量等。這些指標(biāo)是通過國家統(tǒng)計局統(tǒng)計得到的。
2.2.1 相關(guān)系數(shù)
對指標(biāo)進行相關(guān)分析時,最常見的一種方法是計算相關(guān)系數(shù),它能夠反映出變量之間的線性相關(guān)程度。其計算方法為:
式中:ρx,y絕對值越大,說明相關(guān)性越強。其優(yōu)點是計算簡單;缺點是只能用來判斷變量之間的線性相關(guān)程度,而無法描述變量間的非線性關(guān)系,即使它們之間的非線性關(guān)系很顯著,相關(guān)系數(shù)仍可能接近0。
圖1 的熱力圖直觀地展示了特征之間以及各特征與目標(biāo)變量之間的相關(guān)系數(shù),可以初步分析特征的重要性。可以看出一些經(jīng)濟指標(biāo)之間存在較強的相關(guān)性。例如,固定資產(chǎn)投資、GDP、工業(yè)增加值等與其他指標(biāo)之間存在較強的正相關(guān)關(guān)系。這些觀察有助于了解不同經(jīng)濟因素之間的相互影響關(guān)系,為進一步的分析和決策提供參考。
圖1 相關(guān)系數(shù)熱力圖
2.2.2 互信息
互信息屬于特征選擇中的一種過濾器方法,它能夠用來對變量之間的線性關(guān)系進行描述,還能夠?qū)Ψ蔷€性關(guān)系進行描述。通常既可以用于回歸也可以用于分類算法中?;バ畔⒌闹翟酱?,說明兩個變量之間的相關(guān)性較強。在特征選擇中,可以用互信息度量各個特征與目標(biāo)變量的依賴程度,從而篩選特征。其計算公式如下:
利用sklearn.feature_selection 中mutual_info_regression 函數(shù)可以得到各特征變量與目標(biāo)量的互信息值,對數(shù)據(jù)集中的特征運用互信息過濾法篩選。觀察可以發(fā)現(xiàn),大多數(shù)互信息值大于0.1,因此,選取了互信息值大于0.1 的特征,經(jīng)過篩選后,最終所選取的特征按互信息值從大到小排序如圖2 所示。
圖2 經(jīng)濟指標(biāo)互信息值
由圖2 可知,根據(jù)互信息分析,固定資產(chǎn)投資與工業(yè)增加值之間存在強烈的正相關(guān)性,互信息值達到0.879 0,顯示其具有較高的預(yù)測價值。相反,規(guī)模以上工業(yè)企業(yè)利潤總額的互信息值較低,表明其對工業(yè)增加值的影響相對較弱。GDP 的互信息值異常高,提示其在工業(yè)增加值預(yù)測中可能起著關(guān)鍵作用。因此,在選擇預(yù)測模型的輸入特征時,可以優(yōu)先考慮這些具有較高互信息值的指標(biāo),以提高模型的準(zhǔn)確性。
本文選取固定資產(chǎn)投資、工業(yè)企業(yè)發(fā)電量、出口總額、社會消費品零售總額和GDP 共5 個指標(biāo)作為預(yù)測模型的輸入變量(影響因素),工業(yè)增加值作為預(yù)測指標(biāo)。數(shù)據(jù)分析實驗在Python 3.8 環(huán)境下完成。
本小節(jié)主要使用了由Python 程序語言設(shè)計的sklearn 框架來構(gòu)建的GBDT 算法、RFR 算法、AdaBoost 算法、XGBoost 算法、LightGBM 算法以及Cat-Boost 的預(yù)測模型。進行機器學(xué)習(xí)回歸算法預(yù)測模型的構(gòu)建大致流程為:特征工程、樣本集拆分、回歸算法選擇、模型參數(shù)調(diào)優(yōu)、模型驗證與評估、模型預(yù)測。
詳細步驟描述如下:
1)將經(jīng)過預(yù)處理后的數(shù)據(jù)用作樣本集,首先將樣本集隨機劃分成8∶2 的比例,其中80%的樣本數(shù)據(jù)作為訓(xùn)練樣本集,20%作為測試樣本集,利用pyhton編程語言包sklearn.model_selection 中KFlod 交叉驗證法將樣本集劃分為訓(xùn)練集和測試集,模型的評估指標(biāo)為MAE、MSE、RMSE 和R2。
2)利用缺失參數(shù)構(gòu)建GBDT 算法、RFR 算法、AdaBoost 算法、XGBoost 算法、LightGBM 和CatBoost算法模型。
3)采用粒子群優(yōu)化(PSO)算法對各預(yù)測模型進行相應(yīng)的參數(shù)尋優(yōu),對預(yù)測模型進行優(yōu)化。
4)通過誤差分析,對上述優(yōu)化算法調(diào)整的模型的預(yù)測能力進行對比分析,得到基于機器學(xué)習(xí)回歸算法的預(yù)測效果排名靠前模型。
5)檢驗?zāi)P偷姆€(wěn)定性,并進行預(yù)測。
根據(jù)以上步驟,可以得到最優(yōu)模型對應(yīng)的最優(yōu)參數(shù)組合,如表1 所示。
表1 粒子群優(yōu)化參數(shù)設(shè)置
本文建立了GBDT、RFR、LightGBM、Adaboost、XGBoost 和CatBoost 集成模型,并采用搜索優(yōu)化算法對模型的重要參數(shù)進行調(diào)整,最終模型的預(yù)測效果以MSE、MAE 和可決系數(shù)R2三種評價指標(biāo)來評估。
均方誤差(MSE):計算值與真實值之間誤差的平方和的平均數(shù),MSE 值越接近于0,表明模型越準(zhǔn)確。
平均絕對誤差(MAE):計算值與真實值之間誤差的絕對平均值,MAE 值越接近0,表明模型越準(zhǔn)確。
可決系數(shù)(R2):用來衡量回歸模型的擬合能力,R2值越接近于1,模型解釋因變量的能力越強,即模型擬合效果越好。
對工業(yè)增加值進行預(yù)測,各預(yù)測模型真實值與預(yù)測值對比圖見圖3。
圖3 六種預(yù)測模型真實值與預(yù)測值對比
由圖3 可知,經(jīng)過粒子群優(yōu)化(PSO)參數(shù)優(yōu)化后的六種模型,PSO-GBDT 模型和PSO-XGBoost 模型相較于其他四種模型預(yù)測更準(zhǔn)確。而PSO-LightGBM模型預(yù)測相對不準(zhǔn)確。為更加清楚地看出各模型預(yù)測結(jié)果,計算各模型MSE、MAR 與可決系數(shù)R2,結(jié)果如表2 所示。
表2 模型指標(biāo)對比表
結(jié)果顯示,對比粒子群優(yōu)化后的模型指標(biāo),依據(jù)模型預(yù)測性能的優(yōu)劣情況將其按降序排列:XGBoost>AadBoost>CatBoost>RFR>LightGBM>GBDT,顯然,與其他模型相比,XGBoost 模型具有更優(yōu)的預(yù)測性能,MSE、MAE、精度分別為0.000 8、0.019、0.999 2。GBDT 在精度上達到1,但需要注意,這可能是一個異常值或過擬合的跡象。綜上所述,基于粒子群優(yōu)化的XGBoost 模型預(yù)測性能顯著優(yōu)于其他模型,對于工業(yè)增加值預(yù)測具有更好的效果。
本研究深入研究了一系列影響工業(yè)增加值的指標(biāo),時間范圍覆蓋了2003 年第一季度—2022 年第四季度。本文通過建立GBDT、RFR、LightGBM、Adaboost、XGBoost 和CatBoost 集成模型,并采用粒子群優(yōu)化算法(PSO)對模型的重要參數(shù)進行調(diào)整,最后以MSE、MAE、精度作為模型評價指標(biāo)。實驗結(jié)果清晰地展示了模型經(jīng)過粒子群優(yōu)化后的表現(xiàn),依據(jù)模型預(yù)測性能的優(yōu)劣對其進行排序:XGBoost>Adaboost>Cat-Boost>RFR>LightGBM>GBDT。其中,基于粒子群優(yōu)化算法的XGBoost 模型在工業(yè)增加值預(yù)測中呈現(xiàn)出更為卓越的預(yù)測效果,為提高工業(yè)經(jīng)濟預(yù)測的準(zhǔn)確性提供了有力支持。
這一研究成果為未來工業(yè)經(jīng)濟趨勢的預(yù)測和決策提供了可靠的工具和方法。深入分析影響工業(yè)增加值的關(guān)鍵因素,并結(jié)合先進的集成算法及優(yōu)化技術(shù),為更準(zhǔn)確、可靠地預(yù)測中國工業(yè)經(jīng)濟發(fā)展趨勢奠定了基礎(chǔ)。這對于政府決策、企業(yè)戰(zhàn)略規(guī)劃以及投資者的決策過程都具有積極的指導(dǎo)意義。