高 騫,楊俊義,洪 宇,孫小磊,朱前進(jìn)
(1.國網(wǎng)江蘇省電力有限公司,江蘇 南京 210000;2.國網(wǎng)江蘇省電力有限公司連云港分公司,江蘇 連云港 222000;3.國網(wǎng)江蘇省電力有限公司檢修分公司,江蘇 南京 210000;4.國網(wǎng)江蘇省電力有限公司宿遷分公司,江蘇 宿遷 223800)
電網(wǎng)作為一種重要產(chǎn)業(yè),其建設(shè)水平高低直接影響了我國國民經(jīng)濟(jì)水平的整體發(fā)展,電網(wǎng)投資通常會涉及到以下3個環(huán)節(jié),分別是各個城市能力評估、確定各個城市發(fā)展需求以及國家電網(wǎng)實(shí)際發(fā)展方向、全面分析和評估各個城市經(jīng)濟(jì)效益。在落實(shí)電網(wǎng)投資環(huán)節(jié)期間,相關(guān)人員要利用AdaBoost回歸樹,加強(qiáng)對電網(wǎng)投資模型的科學(xué)設(shè)計(jì),為實(shí)現(xiàn)電網(wǎng)投資的規(guī)范化、標(biāo)準(zhǔn)化分配打下堅(jiān)實(shí)的基礎(chǔ)。
為了實(shí)現(xiàn)對電網(wǎng)投資模型的科學(xué)構(gòu)建和設(shè)計(jì),現(xiàn)提出如圖1所示的電網(wǎng)基建投資模型的總體流程圖。
圖1 電網(wǎng)基建投資模型的總體流程圖Fig.1 Overall flowchart of power grid infrastructure investment model
該流程圖主要包含以下3個步驟,(1)填補(bǔ)缺失數(shù)據(jù),該環(huán)節(jié)重點(diǎn)解決電網(wǎng)數(shù)據(jù)缺失問題。在對缺失數(shù)據(jù)進(jìn)行填補(bǔ)期間,需要采用正確的填補(bǔ)方法,對運(yùn)營數(shù)據(jù)進(jìn)行一系列的補(bǔ)全處理。對于運(yùn)營數(shù)據(jù)而言,主要是由歷年各個城市所對應(yīng)的數(shù)據(jù)組成,所以,通過利用該填補(bǔ)方法,除了要綜合考慮各個城市運(yùn)營數(shù)據(jù)外,還要充分結(jié)合單個城市所對應(yīng)的數(shù)據(jù)特性,只有這樣,才能確保補(bǔ)全方法的科學(xué)性、有效性和完整性;(2)合理選擇若干特征。該環(huán)節(jié)重點(diǎn)解決影響電網(wǎng)投資指標(biāo)眾多的問題。在對若干個特征進(jìn)行選擇期間,首先,要確保所篩選的特征,對電網(wǎng)投資產(chǎn)生的影響程度較大,該環(huán)節(jié)需要對所有指標(biāo)物理含義進(jìn)行全方位解讀,同時(shí),還要全面地考量各個指標(biāo)對電網(wǎng)投資所產(chǎn)生的影響程度,然后,將最終所選用的運(yùn)營指標(biāo)設(shè)置為電網(wǎng)投資模型的重要特征;(3)建立電網(wǎng)投資模型。該環(huán)節(jié)重點(diǎn)解決難以科學(xué)構(gòu)建電網(wǎng)投資預(yù)算模型問題。該環(huán)節(jié)在具體的實(shí)施中,首先,要選出合適的模型,然后,根據(jù)二次選取特征與電網(wǎng)投資額之間的關(guān)系,在充分結(jié)合電網(wǎng)實(shí)際需求的基礎(chǔ)上,對電網(wǎng)投資額進(jìn)行科學(xué)預(yù)測,從而保證最終預(yù)測結(jié)果的精確性和真實(shí)性。
數(shù)據(jù)缺失主要是指在采集數(shù)據(jù)期間,通常會因?yàn)檎{(diào)查失誤、機(jī)器故障、人工操作不當(dāng)?shù)仍?,造成所收集的?shù)據(jù)集缺乏一定的真實(shí)性和完整性。數(shù)據(jù)缺失這一問題具有一定的普遍性,一旦出現(xiàn)這一問題,將會直接影響最終研究結(jié)果的精確性和真實(shí)性。在處理數(shù)據(jù)缺失這一問題時(shí),通常需要用到以下填補(bǔ)方法。(1)非聚類算法填補(bǔ)。非聚類算法填補(bǔ)主要是指將上一年缺失數(shù)據(jù)與下一年缺失數(shù)據(jù)進(jìn)行求和,然后,取平均值,并將最終計(jì)算結(jié)果設(shè)置為缺失數(shù)據(jù)填補(bǔ)值,這種方法盡管操作簡單、清晰明了,但是卻降低了數(shù)據(jù)的波動性,無法真實(shí)有效地反映出缺失值的變異性特征;(2)聚類算法填補(bǔ)。聚類算法填補(bǔ)方法主要是指從眾多的樣本數(shù)據(jù)集中選出一些類,然后,對各自的中心點(diǎn)進(jìn)行初始化處理,從而得到相應(yīng)的分類數(shù),然后,精確地計(jì)算出所有樣本數(shù)據(jù)點(diǎn)與聚類中心點(diǎn)之間的距離,并將指定的數(shù)據(jù)點(diǎn)科學(xué)地劃分到相應(yīng)的聚類中心點(diǎn)位置處。借助,在充分結(jié)合聚類結(jié)果的基礎(chǔ)上,實(shí)現(xiàn)對聚類中心的自動化更新,以達(dá)到填補(bǔ)缺失數(shù)據(jù)的目的。
對于電網(wǎng)運(yùn)營數(shù)據(jù)而言,其特征必須要滿足以下3個條件:(1)采用定量分析法,得出各個指標(biāo)對電網(wǎng)投資額所產(chǎn)生的影響程度;(2)通過根據(jù)各個指標(biāo)的變化情況,對電網(wǎng)投資額變化趨勢進(jìn)行科學(xué)的解釋和分析;(3)由于運(yùn)營數(shù)據(jù)指標(biāo)分布狀態(tài)是不斷變化的,沒有任何規(guī)律,所以,要確保所選用的方法無視數(shù)據(jù)分布規(guī)律特征。
AdaBoost算法作為一種常用的迭代型算法,主要是在參照Boosting思想的基礎(chǔ)上所研發(fā)的,該算法除了可以用于分類外,還用于回歸,有效地突破Boosting算法的局限性。本文研究的主要是AdaBoost回歸問題,因此,現(xiàn)以“AdaBoost回歸迭代”為例,構(gòu)建出如圖2所示的AdaBoost算法用于回歸流程圖。
圖2 AdaBoost算法用于回歸流程圖Fig.2 Flow chart of AdaBoost algorithm used for regression
從圖2中可以看出,該回歸流程主要包含以下4個環(huán)節(jié):(1)在做好對數(shù)據(jù)集收集和準(zhǔn)備的基礎(chǔ)上,選用合適的弱回歸模型,并確定出相應(yīng)的迭代次數(shù);(2)對各個樣本的權(quán)重進(jìn)行初始化處理,并將總樣本數(shù)量設(shè)置為m,此時(shí),單個樣本初始權(quán)重為1/m;(3)訓(xùn)練弱回歸器。在單次迭代后,需要精確地計(jì)算和確定出樣本所對應(yīng)的最大誤差,此外,還要做好對單個樣本相對誤差的精確計(jì)算,然后,根據(jù)最終計(jì)算結(jié)果,精確地計(jì)算出學(xué)習(xí)誤差率,在此基礎(chǔ)上,精確地計(jì)算和確定出弱回歸器的權(quán)重系數(shù),總之,采用環(huán)環(huán)相扣的方式,根據(jù)弱回歸器權(quán)重系數(shù),對當(dāng)前樣本權(quán)重分布情況進(jìn)行更新;(4)組合形成強(qiáng)回歸器。當(dāng)形成大量的弱回歸器后,需要對這些弱回歸器進(jìn)行組合處理,從而形成強(qiáng)回歸器。在利用AdaBoost回歸樹,對弱回歸器進(jìn)行組合期間,首先,要對弱回歸器所對應(yīng)的權(quán)重系數(shù)進(jìn)行科學(xué)排序,然后,將回歸器的中位數(shù)設(shè)置為相應(yīng)的強(qiáng)回歸器。
弱回歸器算法主要包含以下兩種:(1)回歸樹?;貧w樹作為一種常用的算法,具有較高的啟發(fā)性,該算法所用到的核心思想是通過利用相關(guān)規(guī)則,從回歸樹上的所有節(jié)點(diǎn)中選取相應(yīng)的特征,然后,利用遞歸方式,完成對回歸樹的構(gòu)造。這種算法具有操作高效、計(jì)算復(fù)雜度低、解釋難度低等特點(diǎn)。同時(shí),通過利用該算法,不會對數(shù)據(jù)提出過高的要求,整體預(yù)處理流程比較簡單。此外,還要針對所形成的回歸樹,完成對邏輯表達(dá)式的歸納和推導(dǎo)。但是,該算法的使用容易引發(fā)擬合問題,而“剪枝”方法的運(yùn)用,可以有效地避免以上不良問題的發(fā)生;(2)支持向量機(jī)回歸。支持向量機(jī)回歸(英文簡稱為“SVR”),該算法僅僅用于回歸,在解決非線性問題方面具有重要作用。
圖3 回歸樹算法流程圖Fig.3 Flow chart of regression tree algorithm
在AdaBoost回歸樹的應(yīng)用背景下,對電網(wǎng)投資模型的實(shí)現(xiàn)流程進(jìn)行詳細(xì)介紹,AdaBoost回歸樹的電網(wǎng)基建投資預(yù)測模型的流程圖如圖4所示。
圖4 AdaBoost回歸樹的電網(wǎng)基建投資預(yù)測模型的流程圖Fig.4 Flow chart of the power grid infrastructure investment prediction model based on AdaBoost regression tree
通過利用AdaBoost回歸樹,對可能出現(xiàn)的過擬合問題進(jìn)行預(yù)測和分析,并提出相應(yīng)的解決方案。首先,采用“后剪枝”的方式,對弱回歸樹進(jìn)行處理,然后,將樣本劃分為以下兩種類型,一種是訓(xùn)練集,另一種是測試集,利用測試集,完成對回歸樹的構(gòu)建,當(dāng)回歸樹構(gòu)建成功后,對其進(jìn)行剪枝處理,剪枝處理過程如下:(1)當(dāng)子集上僅僅含有一棵樹時(shí),要采用剪枝操作的方式,對該子集進(jìn)行處理;(2)對所有子集進(jìn)行合并處理,然后,將合并后的子集全部替代為葉子節(jié)點(diǎn),并對合并后的子集誤差值進(jìn)行科學(xué)計(jì)算;(3)對沒有合并的子集誤差進(jìn)行計(jì)算;(4)通過將所有的子集進(jìn)行合并,以達(dá)到縮小誤差的作用。
根據(jù)電網(wǎng)運(yùn)營數(shù)據(jù)特點(diǎn),通過利用AdaBoost回歸樹算法,科學(xué)地預(yù)測分析電網(wǎng)投資額。在這個過程中,首先,要采用年比例化的方式,精確地確定出電網(wǎng)投資額。同時(shí),采用交叉驗(yàn)證的方式,全面地對比和分析實(shí)驗(yàn)結(jié)果。即通過科學(xué)地預(yù)測2020年電網(wǎng)投資額,將2020年以外數(shù)據(jù)設(shè)置為訓(xùn)練集,該訓(xùn)練集含有120個樣本;將2019年以外數(shù)據(jù)設(shè)置為訓(xùn)練集,該訓(xùn)練集含有120個樣本;將2018年以外數(shù)據(jù)設(shè)置為訓(xùn)練集,該訓(xùn)練集含有120個樣本。然后,利用Ada-Boost回歸樹算法,根據(jù)2020年、2019年、2018年各個城市的電網(wǎng)投資額,完成對相應(yīng)電網(wǎng)投資模型的構(gòu)建,分別得出如圖5、圖6、圖7所示的AdaBoost回歸樹“樹形圖”。
圖5 2020年比例化特征生成的AdaBoost回歸樹Fig.5 AdaBoost regression tree generated by proportional features in 2020
圖6 2019年比例化特征生成的AdaBoost回歸樹Fig.6 AdaBoost regression tree generated by proportional features in 2019
圖7 2018年比例化特征生成的AdaBoost回歸樹Fig.7 AdaBoost regression tree generated by proportional features in 2018
在此基礎(chǔ)上,將2020年、2019年、2018年特征分別代入到所生成的回歸樹模型中,得到如表1、表2、表3所示的預(yù)測值。現(xiàn)以2020年AdaBoost回歸樹“樹形圖”為例,圖5中的各個節(jié)點(diǎn)均包含兩個信息,一個是特征名,另一個是分類閾值。圖5中的頂端節(jié)點(diǎn){0∶0.241 0}表示當(dāng)特征x值沒有超過0.2410時(shí),會自動進(jìn)入到右子樹中,并形成相應(yīng)的節(jié)點(diǎn){4∶0.046 7},否則自動進(jìn)入到左子樹,形成相應(yīng)節(jié)點(diǎn){1∶0.283 9}。從圖5、圖6、圖7中可以看出,、、主要集中存在于前兩層中,這表明、、三種值對電網(wǎng)投資額存在直接性的影響,其中,特征始終存在于首個分界點(diǎn),說明特征對電網(wǎng)投資額存在直接性的影響。
表1 2020年AdaBoost回歸樹預(yù)測結(jié)果表Tab.1 Prediction results of AdaBoost regression tree in 2020
表2 2019年AdaBoost回歸樹預(yù)測結(jié)果表Tab.2 Prediction results of AdaBoost regression tree in 2019
表3 2018年AdaBoost回歸樹預(yù)測結(jié)果表Tab.3 Prediction results of AdaBoost regression tree in 2018
從表1、表2、表3中的數(shù)據(jù)可以看出,在Ada-Boost回歸樹的應(yīng)用背景下,電網(wǎng)投資預(yù)測結(jié)果具有較高的精確性,通過對2020年、2019年、2018年的平均誤差進(jìn)行精確地計(jì)算和統(tǒng)計(jì),發(fā)現(xiàn)這3個年份的平均誤差分別為14.92%、18.41%、18.48%。電網(wǎng)相關(guān)專家明確指出各個年份電網(wǎng)投資預(yù)測誤差低于20%時(shí),才能確保預(yù)測結(jié)果準(zhǔn)確。2020年6個城市所對應(yīng)的預(yù)測誤差率均低于20%;2019年6個城市所對應(yīng)的預(yù)測誤差率均低于20%;2018年6個城市所對應(yīng)的預(yù)測誤差率均低于20%,這表明以上3個年份各個城市所對應(yīng)的預(yù)測準(zhǔn)確率較高。
為了更好地驗(yàn)證電網(wǎng)投資模型設(shè)計(jì)方法的有效性和科學(xué)性,現(xiàn)全面的分析和對比特征比例化數(shù)據(jù)和特征標(biāo)準(zhǔn)化數(shù)據(jù),然后,利用AdaBoost回歸樹,完成對以上3個年份電網(wǎng)投資額與特征的有效建模,并得出相應(yīng)的“樹形圖”,從而得出如表4、表5的模型優(yōu)化前后預(yù)測誤差對比表、預(yù)測結(jié)果誤差在20%以內(nèi)的城市個數(shù)。
表4 模型優(yōu)化前后預(yù)測誤差對比表Tab.4 Comparison of prediction errors before and after model optimization
表5 預(yù)測結(jié)果誤差在20%以內(nèi)的城市個數(shù)Tab.5 Number of cities with prediction result error within 20%
從表4、表5中的數(shù)據(jù)可以看出,與模型優(yōu)化前相比,經(jīng)過模型優(yōu)化后所獲得的3個年份城市平均誤差均低于20%,這表明模型優(yōu)化后可以獲取比較良好的預(yù)測結(jié)果,由此可見,通過利用AdaBoost回歸樹,對電網(wǎng)投資模型進(jìn)行優(yōu)化設(shè)計(jì),可以極大地提高模型預(yù)測結(jié)果的精確性和真實(shí)性,這表明本文所設(shè)計(jì)的AdaBoost回歸樹模型具有較高的科學(xué)性、規(guī)范性和可行性。
通過茍家井AdaBoost回歸樹模型,不僅可以降低以上3個年份的預(yù)測平均誤差率,提高預(yù)測結(jié)果的精確性和真實(shí)性,還能突出AdaBoost回歸樹模型的預(yù)測準(zhǔn)確性高、可解釋性強(qiáng)等優(yōu)勢,為進(jìn)一步提高電網(wǎng)投資模型設(shè)計(jì)水平,保證電網(wǎng)投資分配的科學(xué)性和合理性打下堅(jiān)實(shí)的基礎(chǔ)。
綜上所述,在電力市場體制的不斷改革下,電網(wǎng)投資模型設(shè)計(jì)工作取得了圓滿成功,為了實(shí)現(xiàn)對電網(wǎng)投資的合理分配,電網(wǎng)企業(yè)要在充分結(jié)合電網(wǎng)運(yùn)營數(shù)據(jù)的基礎(chǔ)上,發(fā)現(xiàn)電網(wǎng)運(yùn)營數(shù)據(jù)在實(shí)際運(yùn)用中,經(jīng)常出現(xiàn)缺失現(xiàn)象,然后,采用數(shù)據(jù)填補(bǔ)法,提出一種先進(jìn)、有效的智能填補(bǔ)方法,該方法在實(shí)際運(yùn)用中,除了綜合考慮數(shù)據(jù)樣本與數(shù)據(jù)特征之間的關(guān)系外,還涉及到了時(shí)間序列概念,使得填補(bǔ)數(shù)據(jù)的精確性和可靠性得以大幅度提升。此外,還要針對電網(wǎng)投資實(shí)際分配需求,利用AdaBoost回歸樹,完成對電網(wǎng)投資模型的優(yōu)化和設(shè)計(jì)。