亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于集成算法的工業(yè)增加值預(yù)測模型研究★

        2024-05-27 14:30:56閆海波
        關(guān)鍵詞:優(yōu)化模型

        謝 洋, 閆海波

        (新疆財經(jīng)大學(xué)統(tǒng)計與數(shù)據(jù)科學(xué)學(xué)院, 新疆 烏魯木齊 830012)

        0 引言

        工業(yè)是立國之本、強國之基,工業(yè)作為國家經(jīng)濟的支柱,對實體經(jīng)濟運行狀況的準(zhǔn)確把握至關(guān)重要。工業(yè)增加值作為國家經(jīng)濟的關(guān)鍵指標(biāo),在國民生產(chǎn)總值中占主導(dǎo)地位,同時在社會經(jīng)濟活動中扮演關(guān)鍵角色。工業(yè)的增長對國家建設(shè)、國際貿(mào)易、新技術(shù)創(chuàng)新以及落后地區(qū)經(jīng)濟發(fā)展都具有重要意義。

        當(dāng)前,學(xué)術(shù)界對工業(yè)經(jīng)濟預(yù)測領(lǐng)域進行了深入廣泛的研究。以吳彥軍、丘斌、王占峰[1]等人致力于運用大數(shù)據(jù)技術(shù),拓展工業(yè)經(jīng)濟統(tǒng)計與預(yù)測的應(yīng)用。這一研究方向為提高預(yù)測準(zhǔn)確性開辟了新的思路。朱云英[2]的研究強調(diào)了統(tǒng)計指標(biāo)和景氣指數(shù)在工業(yè)經(jīng)濟預(yù)測中的重要性,特別是企業(yè)景氣指數(shù)在模型預(yù)測工業(yè)增加值時所具備的信息可靠、前瞻性強、預(yù)測性強等特點,為工業(yè)統(tǒng)計指標(biāo)在預(yù)測中的關(guān)鍵作用提供了有力支持。

        在工業(yè)增加值預(yù)測的研究中,學(xué)者們通常采用傳統(tǒng)方法和人工智能方法這兩大類。傳統(tǒng)方法主要包括回歸模型法[3]、趨勢外推法模型[4]以及時間序列模型[5]。盡管這些方法相對簡單,但由于受制于宏觀經(jīng)濟數(shù)據(jù)在短期預(yù)測中的限制,它們的預(yù)測精度存在一定下降。與此同時,人工智能方法包括隨機森林、自適應(yīng)增強、極致梯度增強、支持向量回歸機和神經(jīng)網(wǎng)絡(luò)等[6]。因此,顧海燕[7]等人提出了基于多個模型的融合算法,以適應(yīng)更復(fù)雜的非線性數(shù)據(jù)和不同應(yīng)用場景需求。

        因此本文使用GBDT、RFR、LightGBM、Adaboost、XGBoost 和CatBoost 算法模型,并采用粒子群優(yōu)化算法對模型的重要參數(shù)進行調(diào)整,通過對比分析選出在工業(yè)增加值預(yù)測中表現(xiàn)更好的預(yù)測效果。

        1 相關(guān)算法原理

        1.1 隨機森林回歸(RFR)

        RFR 是一種基于決策樹的集成學(xué)習(xí)算法。其基本思想是通過隨機抽取Bootstrap 樣本并建立多個決策樹模型,通過對多個模型的預(yù)測結(jié)果進行平均化,提高回歸問題的預(yù)測準(zhǔn)確性。RFR 模型建立的主要步驟如下:

        1)通過Bootstrap 方法在原始樣本集s 中抽取k個訓(xùn)練樣本集。

        2)使用CART 學(xué)習(xí)對k 個訓(xùn)練集訓(xùn)練從而形成k 棵決策樹模型。在決策樹生成中,假設(shè)有N 個特征向量,從N 個特征向量中隨機選擇m 個,每個內(nèi)部節(jié)點在這m 個特征變量中進行優(yōu)化劃分,m 值為隨機森林模型形成中的一個常數(shù)。

        3)將k 棵決策樹的結(jié)果組合起來,得到最終結(jié)果?;貧w問題使用簡單平均的組合方法。

        1.2 AdaBoos 算法

        AdaBoost 是一種基于Boosting 算法的迭代學(xué)習(xí)方法。在K 次迭代中,它根據(jù)每次迭代的誤差調(diào)整樣本權(quán)重,通過組合多個弱分類器構(gòu)建出一個強分類器,提高模型性能。

        1.3 CatBoost 算法

        CatBoost 是一種梯度提升框架,專為處理類型特征而設(shè)計。它通過處理類別特征的優(yōu)化方法,降低了過擬合風(fēng)險,提高了訓(xùn)練效率。CatBoost 使用一種基于有序Ordered TS 的排名提升方法來解決預(yù)測偏差問題。其主要思想是為訓(xùn)練集生成一個隨機序列,用前個樣本訓(xùn)練第個模型,并用它來擬合第個樣本,得到一個樣本殘差估計值。Ordered 模型能進一步優(yōu)化時間復(fù)雜度,減少需要訓(xùn)練的模型數(shù)量。

        1.4 GBDT 算法

        GBDT 算法也被稱為梯度提升決策樹,是一種由多個決策樹組成的迭代算法[11],它通過不斷迭代,每次迭代都根據(jù)前一輪的殘差擬合一顆決策樹,最終通過組合多個弱分類器形成強分類器。

        1.5 XGBoost 算法

        XGBoost 是一種用于監(jiān)督學(xué)習(xí)算法中分類和回歸的極端梯度提升樹算法,由Chen 等人提出[12-14]。XGBoost 通過正則化控制樹模型復(fù)雜度,同時支持并行計算,提高了訓(xùn)練速度和模型性能。

        1.6 LightGBM算法

        LightGBM是一種基于梯度提升框架的決策樹算法,采用基于直方圖的學(xué)習(xí)方法,通過更高效的樹建立方式和并行學(xué)習(xí),提高了訓(xùn)練速度和效率。相比于決策樹,預(yù)測精度得到提升,使得該算法同時兼顧了訓(xùn)練速度和預(yù)測精度。

        1.7 粒子群優(yōu)化算法

        Kennedy 和R.Eberhart 在1995 年提出的粒子群優(yōu)化,粒子群優(yōu)化(PSO)是指為了模仿鳥群的捕食行為,大量引入無質(zhì)量的粒子,并賦予粒子兩個屬性:行進方向和行進速度[7]。每個粒子在搜索空間中單獨的搜尋最優(yōu)解,并將其記為當(dāng)前個體極值,并將個體極值與整個粒子群里的其他粒子共享,找到最優(yōu)的那個個體極值作為整個粒子群的當(dāng)前全局最優(yōu)解,粒子群中的所有粒子根據(jù)自己找到的當(dāng)前個體極值和整個粒子群共享的當(dāng)前全局最優(yōu)解來調(diào)整自己的速度和位置。

        粒子群算法優(yōu)化過程如下:

        步驟一:設(shè)置關(guān)鍵字參數(shù)個體記憶因子c1,群體記憶因子c2,種群規(guī)模pop 以及最大迭代次數(shù)max_iter。

        步驟二:從給定參數(shù)值范圍中生成一個隨機種群,從種群中隨機選擇一組參數(shù)值作為初始種群,并根據(jù)生成初始種群的方法生成一組初始化速度值和隨機位置。

        步驟三:定義目標(biāo)函數(shù)(適應(yīng)度函數(shù)),即將測試集輸入模型后,計算模型的均方根誤差。以初始種群以及種群個體作為參數(shù)輸入,計算個體適應(yīng)度和群體適應(yīng)度,更新并比較個體和群體適應(yīng)度,從而獲得個體極值(pbest)與其位置和群體(全局)極值(gbest)與其位置。

        步驟四:迭代尋優(yōu),尋找速度與位置。

        對粒子群的速度進行更新,并對越界的速度進行約束,速度更新公式為:

        對粒子群的位置進行約束,位置調(diào)整公式為:

        步驟五:若滿足設(shè)定的最小誤差或最大迭代次數(shù),輸出粒子群的全局最優(yōu)值和其對應(yīng)的位置以及每個粒子的局部最優(yōu)值和其對應(yīng)的位置。

        2 指標(biāo)選取與處理

        2.1 數(shù)據(jù)來源

        在工業(yè)增加值的預(yù)測中,本研究精心選擇了一系列指標(biāo),時間范圍覆蓋了2003 年第一季度至2022 年第四季度。這些指標(biāo)分為自然因素和社會因素兩大類,旨在深入理解它們對工業(yè)增加值的影響。

        自然因素主要考慮了自然災(zāi)害、溫度和氣候等因素。盡管大規(guī)模的自然災(zāi)害,如火山噴發(fā)和地震,可能對工業(yè)產(chǎn)生短期負面影響,而溫度和氣候的變化也可能在一定程度上影響工業(yè)的成本,但由于這些因素的瞬時性和難以量化,在選擇預(yù)測工業(yè)增加值的指標(biāo)時決定不納入考慮。

        本研究將焦點放在了社會因素上,包括固定資產(chǎn)投資、規(guī)模以上企業(yè)個數(shù)、GDP、居民消費價格指數(shù)、規(guī)模以上工業(yè)企業(yè)利潤總額、規(guī)模以上工業(yè)虧損企業(yè)虧損總額、規(guī)模以上工業(yè)企業(yè)發(fā)電量等。這些指標(biāo)是通過國家統(tǒng)計局統(tǒng)計得到的。

        2.2 特征選擇

        2.2.1 相關(guān)系數(shù)

        對指標(biāo)進行相關(guān)分析時,最常見的一種方法是計算相關(guān)系數(shù),它能夠反映出變量之間的線性相關(guān)程度。其計算方法為:

        式中:ρx,y絕對值越大,說明相關(guān)性越強。其優(yōu)點是計算簡單;缺點是只能用來判斷變量之間的線性相關(guān)程度,而無法描述變量間的非線性關(guān)系,即使它們之間的非線性關(guān)系很顯著,相關(guān)系數(shù)仍可能接近0。

        圖1 的熱力圖直觀地展示了特征之間以及各特征與目標(biāo)變量之間的相關(guān)系數(shù),可以初步分析特征的重要性。可以看出一些經(jīng)濟指標(biāo)之間存在較強的相關(guān)性。例如,固定資產(chǎn)投資、GDP、工業(yè)增加值等與其他指標(biāo)之間存在較強的正相關(guān)關(guān)系。這些觀察有助于了解不同經(jīng)濟因素之間的相互影響關(guān)系,為進一步的分析和決策提供參考。

        圖1 相關(guān)系數(shù)熱力圖

        2.2.2 互信息

        互信息屬于特征選擇中的一種過濾器方法,它能夠用來對變量之間的線性關(guān)系進行描述,還能夠?qū)Ψ蔷€性關(guān)系進行描述。通常既可以用于回歸也可以用于分類算法中?;バ畔⒌闹翟酱?,說明兩個變量之間的相關(guān)性較強。在特征選擇中,可以用互信息度量各個特征與目標(biāo)變量的依賴程度,從而篩選特征。其計算公式如下:

        利用sklearn.feature_selection 中mutual_info_regression 函數(shù)可以得到各特征變量與目標(biāo)量的互信息值,對數(shù)據(jù)集中的特征運用互信息過濾法篩選。觀察可以發(fā)現(xiàn),大多數(shù)互信息值大于0.1,因此,選取了互信息值大于0.1 的特征,經(jīng)過篩選后,最終所選取的特征按互信息值從大到小排序如圖2 所示。

        圖2 經(jīng)濟指標(biāo)互信息值

        由圖2 可知,根據(jù)互信息分析,固定資產(chǎn)投資與工業(yè)增加值之間存在強烈的正相關(guān)性,互信息值達到0.879 0,顯示其具有較高的預(yù)測價值。相反,規(guī)模以上工業(yè)企業(yè)利潤總額的互信息值較低,表明其對工業(yè)增加值的影響相對較弱。GDP 的互信息值異常高,提示其在工業(yè)增加值預(yù)測中可能起著關(guān)鍵作用。因此,在選擇預(yù)測模型的輸入特征時,可以優(yōu)先考慮這些具有較高互信息值的指標(biāo),以提高模型的準(zhǔn)確性。

        3 實證分析

        3.1 數(shù)據(jù)準(zhǔn)備與實驗環(huán)境

        本文選取固定資產(chǎn)投資、工業(yè)企業(yè)發(fā)電量、出口總額、社會消費品零售總額和GDP 共5 個指標(biāo)作為預(yù)測模型的輸入變量(影響因素),工業(yè)增加值作為預(yù)測指標(biāo)。數(shù)據(jù)分析實驗在Python 3.8 環(huán)境下完成。

        3.2 回歸算法選取

        本小節(jié)主要使用了由Python 程序語言設(shè)計的sklearn 框架來構(gòu)建的GBDT 算法、RFR 算法、AdaBoost 算法、XGBoost 算法、LightGBM 算法以及Cat-Boost 的預(yù)測模型。進行機器學(xué)習(xí)回歸算法預(yù)測模型的構(gòu)建大致流程為:特征工程、樣本集拆分、回歸算法選擇、模型參數(shù)調(diào)優(yōu)、模型驗證與評估、模型預(yù)測。

        詳細步驟描述如下:

        1)將經(jīng)過預(yù)處理后的數(shù)據(jù)用作樣本集,首先將樣本集隨機劃分成8∶2 的比例,其中80%的樣本數(shù)據(jù)作為訓(xùn)練樣本集,20%作為測試樣本集,利用pyhton編程語言包sklearn.model_selection 中KFlod 交叉驗證法將樣本集劃分為訓(xùn)練集和測試集,模型的評估指標(biāo)為MAE、MSE、RMSE 和R2。

        2)利用缺失參數(shù)構(gòu)建GBDT 算法、RFR 算法、AdaBoost 算法、XGBoost 算法、LightGBM 和CatBoost算法模型。

        3)采用粒子群優(yōu)化(PSO)算法對各預(yù)測模型進行相應(yīng)的參數(shù)尋優(yōu),對預(yù)測模型進行優(yōu)化。

        4)通過誤差分析,對上述優(yōu)化算法調(diào)整的模型的預(yù)測能力進行對比分析,得到基于機器學(xué)習(xí)回歸算法的預(yù)測效果排名靠前模型。

        5)檢驗?zāi)P偷姆€(wěn)定性,并進行預(yù)測。

        根據(jù)以上步驟,可以得到最優(yōu)模型對應(yīng)的最優(yōu)參數(shù)組合,如表1 所示。

        表1 粒子群優(yōu)化參數(shù)設(shè)置

        3.3 模型的優(yōu)選

        本文建立了GBDT、RFR、LightGBM、Adaboost、XGBoost 和CatBoost 集成模型,并采用搜索優(yōu)化算法對模型的重要參數(shù)進行調(diào)整,最終模型的預(yù)測效果以MSE、MAE 和可決系數(shù)R2三種評價指標(biāo)來評估。

        均方誤差(MSE):計算值與真實值之間誤差的平方和的平均數(shù),MSE 值越接近于0,表明模型越準(zhǔn)確。

        平均絕對誤差(MAE):計算值與真實值之間誤差的絕對平均值,MAE 值越接近0,表明模型越準(zhǔn)確。

        可決系數(shù)(R2):用來衡量回歸模型的擬合能力,R2值越接近于1,模型解釋因變量的能力越強,即模型擬合效果越好。

        對工業(yè)增加值進行預(yù)測,各預(yù)測模型真實值與預(yù)測值對比圖見圖3。

        圖3 六種預(yù)測模型真實值與預(yù)測值對比

        由圖3 可知,經(jīng)過粒子群優(yōu)化(PSO)參數(shù)優(yōu)化后的六種模型,PSO-GBDT 模型和PSO-XGBoost 模型相較于其他四種模型預(yù)測更準(zhǔn)確。而PSO-LightGBM模型預(yù)測相對不準(zhǔn)確。為更加清楚地看出各模型預(yù)測結(jié)果,計算各模型MSE、MAR 與可決系數(shù)R2,結(jié)果如表2 所示。

        表2 模型指標(biāo)對比表

        結(jié)果顯示,對比粒子群優(yōu)化后的模型指標(biāo),依據(jù)模型預(yù)測性能的優(yōu)劣情況將其按降序排列:XGBoost>AadBoost>CatBoost>RFR>LightGBM>GBDT,顯然,與其他模型相比,XGBoost 模型具有更優(yōu)的預(yù)測性能,MSE、MAE、精度分別為0.000 8、0.019、0.999 2。GBDT 在精度上達到1,但需要注意,這可能是一個異常值或過擬合的跡象。綜上所述,基于粒子群優(yōu)化的XGBoost 模型預(yù)測性能顯著優(yōu)于其他模型,對于工業(yè)增加值預(yù)測具有更好的效果。

        4 結(jié)論

        本研究深入研究了一系列影響工業(yè)增加值的指標(biāo),時間范圍覆蓋了2003 年第一季度—2022 年第四季度。本文通過建立GBDT、RFR、LightGBM、Adaboost、XGBoost 和CatBoost 集成模型,并采用粒子群優(yōu)化算法(PSO)對模型的重要參數(shù)進行調(diào)整,最后以MSE、MAE、精度作為模型評價指標(biāo)。實驗結(jié)果清晰地展示了模型經(jīng)過粒子群優(yōu)化后的表現(xiàn),依據(jù)模型預(yù)測性能的優(yōu)劣對其進行排序:XGBoost>Adaboost>Cat-Boost>RFR>LightGBM>GBDT。其中,基于粒子群優(yōu)化算法的XGBoost 模型在工業(yè)增加值預(yù)測中呈現(xiàn)出更為卓越的預(yù)測效果,為提高工業(yè)經(jīng)濟預(yù)測的準(zhǔn)確性提供了有力支持。

        這一研究成果為未來工業(yè)經(jīng)濟趨勢的預(yù)測和決策提供了可靠的工具和方法。深入分析影響工業(yè)增加值的關(guān)鍵因素,并結(jié)合先進的集成算法及優(yōu)化技術(shù),為更準(zhǔn)確、可靠地預(yù)測中國工業(yè)經(jīng)濟發(fā)展趨勢奠定了基礎(chǔ)。這對于政府決策、企業(yè)戰(zhàn)略規(guī)劃以及投資者的決策過程都具有積極的指導(dǎo)意義。

        猜你喜歡
        優(yōu)化模型
        一半模型
        超限高層建筑結(jié)構(gòu)設(shè)計與優(yōu)化思考
        民用建筑防煙排煙設(shè)計優(yōu)化探討
        關(guān)于優(yōu)化消防安全告知承諾的一些思考
        一道優(yōu)化題的幾何解法
        由“形”啟“數(shù)”優(yōu)化運算——以2021年解析幾何高考題為例
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        3D打印中的模型分割與打包
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        中文字幕乱码亚洲无线| 好屌草这里只有精品| 99精品电影一区二区免费看| 无码伊人久久大杳蕉中文无码| av新型国产在线资源| 东京热人妻系列无码专区| 久久老子午夜精品无码怎么打| 久久青草国产精品一区| 亚洲一区二区三区厕所偷拍| 日韩精品人妻久久久一二三| 天天躁日日躁狠狠很躁| 无码人妻少妇久久中文字幕蜜桃| av资源吧首页在线观看| 日韩av在线播放人妻| 人妻av鲁丝一区二区三区| 国产一毛片| 国产自产在线视频一区| 少妇被黑人整得嗷嗷叫视频| 人妻少妇边接电话边娇喘| 亚洲国产午夜精品乱码| 国产网友自拍视频在线观看| 一本到在线观看视频| 人人爽人人爽人人爽| 国产chinese在线视频| 亚洲精品中文字幕乱码 | 亚洲av久久久噜噜噜噜| 亚洲欧美日韩高清专区一区| 国产精品亚洲精品日产久久久| 亚洲乱码中文字幕视频| 亚洲综合激情五月丁香六月| 天天综合久久| 蜜桃一区二区三区在线视频 | 日韩综合无码一区二区| 精品无码一区二区三区亚洲桃色| 不卡a v无码在线| 人妻中文字幕一区二区视频| 国产精品毛片一区二区三区| 99re6热在线精品视频播放6| 日本成人三级视频网站| 亚洲国产av无码精品无广告| 麻豆亚洲av永久无码精品久久|