高 騫,楊俊義,洪 宇,孫小磊,朱前進(jìn)
(1.國(guó)網(wǎng)江蘇省電力有限公司,江蘇 南京 210000;2.國(guó)網(wǎng)江蘇省電力有限公司連云港分公司,江蘇 連云港 222000;3.國(guó)網(wǎng)江蘇省電力有限公司檢修分公司,江蘇 南京 210000;4.國(guó)網(wǎng)江蘇省電力有限公司宿遷分公司,江蘇 宿遷 223800)
電網(wǎng)作為一種重要產(chǎn)業(yè),其建設(shè)水平高低直接影響了我國(guó)國(guó)民經(jīng)濟(jì)水平的整體發(fā)展,電網(wǎng)投資通常會(huì)涉及到以下3個(gè)環(huán)節(jié),分別是各個(gè)城市能力評(píng)估、確定各個(gè)城市發(fā)展需求以及國(guó)家電網(wǎng)實(shí)際發(fā)展方向、全面分析和評(píng)估各個(gè)城市經(jīng)濟(jì)效益。在落實(shí)電網(wǎng)投資環(huán)節(jié)期間,相關(guān)人員要利用AdaBoost回歸樹(shù),加強(qiáng)對(duì)電網(wǎng)投資模型的科學(xué)設(shè)計(jì),為實(shí)現(xiàn)電網(wǎng)投資的規(guī)范化、標(biāo)準(zhǔn)化分配打下堅(jiān)實(shí)的基礎(chǔ)。
為了實(shí)現(xiàn)對(duì)電網(wǎng)投資模型的科學(xué)構(gòu)建和設(shè)計(jì),現(xiàn)提出如圖1所示的電網(wǎng)基建投資模型的總體流程圖。
圖1 電網(wǎng)基建投資模型的總體流程圖Fig.1 Overall flowchart of power grid infrastructure investment model
該流程圖主要包含以下3個(gè)步驟,(1)填補(bǔ)缺失數(shù)據(jù),該環(huán)節(jié)重點(diǎn)解決電網(wǎng)數(shù)據(jù)缺失問(wèn)題。在對(duì)缺失數(shù)據(jù)進(jìn)行填補(bǔ)期間,需要采用正確的填補(bǔ)方法,對(duì)運(yùn)營(yíng)數(shù)據(jù)進(jìn)行一系列的補(bǔ)全處理。對(duì)于運(yùn)營(yíng)數(shù)據(jù)而言,主要是由歷年各個(gè)城市所對(duì)應(yīng)的數(shù)據(jù)組成,所以,通過(guò)利用該填補(bǔ)方法,除了要綜合考慮各個(gè)城市運(yùn)營(yíng)數(shù)據(jù)外,還要充分結(jié)合單個(gè)城市所對(duì)應(yīng)的數(shù)據(jù)特性,只有這樣,才能確保補(bǔ)全方法的科學(xué)性、有效性和完整性;(2)合理選擇若干特征。該環(huán)節(jié)重點(diǎn)解決影響電網(wǎng)投資指標(biāo)眾多的問(wèn)題。在對(duì)若干個(gè)特征進(jìn)行選擇期間,首先,要確保所篩選的特征,對(duì)電網(wǎng)投資產(chǎn)生的影響程度較大,該環(huán)節(jié)需要對(duì)所有指標(biāo)物理含義進(jìn)行全方位解讀,同時(shí),還要全面地考量各個(gè)指標(biāo)對(duì)電網(wǎng)投資所產(chǎn)生的影響程度,然后,將最終所選用的運(yùn)營(yíng)指標(biāo)設(shè)置為電網(wǎng)投資模型的重要特征;(3)建立電網(wǎng)投資模型。該環(huán)節(jié)重點(diǎn)解決難以科學(xué)構(gòu)建電網(wǎng)投資預(yù)算模型問(wèn)題。該環(huán)節(jié)在具體的實(shí)施中,首先,要選出合適的模型,然后,根據(jù)二次選取特征與電網(wǎng)投資額之間的關(guān)系,在充分結(jié)合電網(wǎng)實(shí)際需求的基礎(chǔ)上,對(duì)電網(wǎng)投資額進(jìn)行科學(xué)預(yù)測(cè),從而保證最終預(yù)測(cè)結(jié)果的精確性和真實(shí)性。
數(shù)據(jù)缺失主要是指在采集數(shù)據(jù)期間,通常會(huì)因?yàn)檎{(diào)查失誤、機(jī)器故障、人工操作不當(dāng)?shù)仍?,造成所收集的?shù)據(jù)集缺乏一定的真實(shí)性和完整性。數(shù)據(jù)缺失這一問(wèn)題具有一定的普遍性,一旦出現(xiàn)這一問(wèn)題,將會(huì)直接影響最終研究結(jié)果的精確性和真實(shí)性。在處理數(shù)據(jù)缺失這一問(wèn)題時(shí),通常需要用到以下填補(bǔ)方法。(1)非聚類算法填補(bǔ)。非聚類算法填補(bǔ)主要是指將上一年缺失數(shù)據(jù)與下一年缺失數(shù)據(jù)進(jìn)行求和,然后,取平均值,并將最終計(jì)算結(jié)果設(shè)置為缺失數(shù)據(jù)填補(bǔ)值,這種方法盡管操作簡(jiǎn)單、清晰明了,但是卻降低了數(shù)據(jù)的波動(dòng)性,無(wú)法真實(shí)有效地反映出缺失值的變異性特征;(2)聚類算法填補(bǔ)。聚類算法填補(bǔ)方法主要是指從眾多的樣本數(shù)據(jù)集中選出一些類,然后,對(duì)各自的中心點(diǎn)進(jìn)行初始化處理,從而得到相應(yīng)的分類數(shù),然后,精確地計(jì)算出所有樣本數(shù)據(jù)點(diǎn)與聚類中心點(diǎn)之間的距離,并將指定的數(shù)據(jù)點(diǎn)科學(xué)地劃分到相應(yīng)的聚類中心點(diǎn)位置處。借助,在充分結(jié)合聚類結(jié)果的基礎(chǔ)上,實(shí)現(xiàn)對(duì)聚類中心的自動(dòng)化更新,以達(dá)到填補(bǔ)缺失數(shù)據(jù)的目的。
對(duì)于電網(wǎng)運(yùn)營(yíng)數(shù)據(jù)而言,其特征必須要滿足以下3個(gè)條件:(1)采用定量分析法,得出各個(gè)指標(biāo)對(duì)電網(wǎng)投資額所產(chǎn)生的影響程度;(2)通過(guò)根據(jù)各個(gè)指標(biāo)的變化情況,對(duì)電網(wǎng)投資額變化趨勢(shì)進(jìn)行科學(xué)的解釋和分析;(3)由于運(yùn)營(yíng)數(shù)據(jù)指標(biāo)分布狀態(tài)是不斷變化的,沒(méi)有任何規(guī)律,所以,要確保所選用的方法無(wú)視數(shù)據(jù)分布規(guī)律特征。
AdaBoost算法作為一種常用的迭代型算法,主要是在參照Boosting思想的基礎(chǔ)上所研發(fā)的,該算法除了可以用于分類外,還用于回歸,有效地突破Boosting算法的局限性。本文研究的主要是AdaBoost回歸問(wèn)題,因此,現(xiàn)以“AdaBoost回歸迭代”為例,構(gòu)建出如圖2所示的AdaBoost算法用于回歸流程圖。
圖2 AdaBoost算法用于回歸流程圖Fig.2 Flow chart of AdaBoost algorithm used for regression
從圖2中可以看出,該回歸流程主要包含以下4個(gè)環(huán)節(jié):(1)在做好對(duì)數(shù)據(jù)集收集和準(zhǔn)備的基礎(chǔ)上,選用合適的弱回歸模型,并確定出相應(yīng)的迭代次數(shù);(2)對(duì)各個(gè)樣本的權(quán)重進(jìn)行初始化處理,并將總樣本數(shù)量設(shè)置為m,此時(shí),單個(gè)樣本初始權(quán)重為1/m;(3)訓(xùn)練弱回歸器。在單次迭代后,需要精確地計(jì)算和確定出樣本所對(duì)應(yīng)的最大誤差,此外,還要做好對(duì)單個(gè)樣本相對(duì)誤差的精確計(jì)算,然后,根據(jù)最終計(jì)算結(jié)果,精確地計(jì)算出學(xué)習(xí)誤差率,在此基礎(chǔ)上,精確地計(jì)算和確定出弱回歸器的權(quán)重系數(shù),總之,采用環(huán)環(huán)相扣的方式,根據(jù)弱回歸器權(quán)重系數(shù),對(duì)當(dāng)前樣本權(quán)重分布情況進(jìn)行更新;(4)組合形成強(qiáng)回歸器。當(dāng)形成大量的弱回歸器后,需要對(duì)這些弱回歸器進(jìn)行組合處理,從而形成強(qiáng)回歸器。在利用AdaBoost回歸樹(shù),對(duì)弱回歸器進(jìn)行組合期間,首先,要對(duì)弱回歸器所對(duì)應(yīng)的權(quán)重系數(shù)進(jìn)行科學(xué)排序,然后,將回歸器的中位數(shù)設(shè)置為相應(yīng)的強(qiáng)回歸器。
弱回歸器算法主要包含以下兩種:(1)回歸樹(shù)?;貧w樹(shù)作為一種常用的算法,具有較高的啟發(fā)性,該算法所用到的核心思想是通過(guò)利用相關(guān)規(guī)則,從回歸樹(shù)上的所有節(jié)點(diǎn)中選取相應(yīng)的特征,然后,利用遞歸方式,完成對(duì)回歸樹(shù)的構(gòu)造。這種算法具有操作高效、計(jì)算復(fù)雜度低、解釋難度低等特點(diǎn)。同時(shí),通過(guò)利用該算法,不會(huì)對(duì)數(shù)據(jù)提出過(guò)高的要求,整體預(yù)處理流程比較簡(jiǎn)單。此外,還要針對(duì)所形成的回歸樹(shù),完成對(duì)邏輯表達(dá)式的歸納和推導(dǎo)。但是,該算法的使用容易引發(fā)擬合問(wèn)題,而“剪枝”方法的運(yùn)用,可以有效地避免以上不良問(wèn)題的發(fā)生;(2)支持向量機(jī)回歸。支持向量機(jī)回歸(英文簡(jiǎn)稱為“SVR”),該算法僅僅用于回歸,在解決非線性問(wèn)題方面具有重要作用。
圖3 回歸樹(shù)算法流程圖Fig.3 Flow chart of regression tree algorithm
在AdaBoost回歸樹(shù)的應(yīng)用背景下,對(duì)電網(wǎng)投資模型的實(shí)現(xiàn)流程進(jìn)行詳細(xì)介紹,AdaBoost回歸樹(shù)的電網(wǎng)基建投資預(yù)測(cè)模型的流程圖如圖4所示。
圖4 AdaBoost回歸樹(shù)的電網(wǎng)基建投資預(yù)測(cè)模型的流程圖Fig.4 Flow chart of the power grid infrastructure investment prediction model based on AdaBoost regression tree
通過(guò)利用AdaBoost回歸樹(shù),對(duì)可能出現(xiàn)的過(guò)擬合問(wèn)題進(jìn)行預(yù)測(cè)和分析,并提出相應(yīng)的解決方案。首先,采用“后剪枝”的方式,對(duì)弱回歸樹(shù)進(jìn)行處理,然后,將樣本劃分為以下兩種類型,一種是訓(xùn)練集,另一種是測(cè)試集,利用測(cè)試集,完成對(duì)回歸樹(shù)的構(gòu)建,當(dāng)回歸樹(shù)構(gòu)建成功后,對(duì)其進(jìn)行剪枝處理,剪枝處理過(guò)程如下:(1)當(dāng)子集上僅僅含有一棵樹(shù)時(shí),要采用剪枝操作的方式,對(duì)該子集進(jìn)行處理;(2)對(duì)所有子集進(jìn)行合并處理,然后,將合并后的子集全部替代為葉子節(jié)點(diǎn),并對(duì)合并后的子集誤差值進(jìn)行科學(xué)計(jì)算;(3)對(duì)沒(méi)有合并的子集誤差進(jìn)行計(jì)算;(4)通過(guò)將所有的子集進(jìn)行合并,以達(dá)到縮小誤差的作用。
根據(jù)電網(wǎng)運(yùn)營(yíng)數(shù)據(jù)特點(diǎn),通過(guò)利用AdaBoost回歸樹(shù)算法,科學(xué)地預(yù)測(cè)分析電網(wǎng)投資額。在這個(gè)過(guò)程中,首先,要采用年比例化的方式,精確地確定出電網(wǎng)投資額。同時(shí),采用交叉驗(yàn)證的方式,全面地對(duì)比和分析實(shí)驗(yàn)結(jié)果。即通過(guò)科學(xué)地預(yù)測(cè)2020年電網(wǎng)投資額,將2020年以外數(shù)據(jù)設(shè)置為訓(xùn)練集,該訓(xùn)練集含有120個(gè)樣本;將2019年以外數(shù)據(jù)設(shè)置為訓(xùn)練集,該訓(xùn)練集含有120個(gè)樣本;將2018年以外數(shù)據(jù)設(shè)置為訓(xùn)練集,該訓(xùn)練集含有120個(gè)樣本。然后,利用Ada-Boost回歸樹(shù)算法,根據(jù)2020年、2019年、2018年各個(gè)城市的電網(wǎng)投資額,完成對(duì)相應(yīng)電網(wǎng)投資模型的構(gòu)建,分別得出如圖5、圖6、圖7所示的AdaBoost回歸樹(shù)“樹(shù)形圖”。
圖5 2020年比例化特征生成的AdaBoost回歸樹(shù)Fig.5 AdaBoost regression tree generated by proportional features in 2020
圖6 2019年比例化特征生成的AdaBoost回歸樹(shù)Fig.6 AdaBoost regression tree generated by proportional features in 2019
圖7 2018年比例化特征生成的AdaBoost回歸樹(shù)Fig.7 AdaBoost regression tree generated by proportional features in 2018
在此基礎(chǔ)上,將2020年、2019年、2018年特征分別代入到所生成的回歸樹(shù)模型中,得到如表1、表2、表3所示的預(yù)測(cè)值?,F(xiàn)以2020年AdaBoost回歸樹(shù)“樹(shù)形圖”為例,圖5中的各個(gè)節(jié)點(diǎn)均包含兩個(gè)信息,一個(gè)是特征名,另一個(gè)是分類閾值。圖5中的頂端節(jié)點(diǎn){0∶0.241 0}表示當(dāng)特征x值沒(méi)有超過(guò)0.2410時(shí),會(huì)自動(dòng)進(jìn)入到右子樹(shù)中,并形成相應(yīng)的節(jié)點(diǎn){4∶0.046 7},否則自動(dòng)進(jìn)入到左子樹(shù),形成相應(yīng)節(jié)點(diǎn){1∶0.283 9}。從圖5、圖6、圖7中可以看出,、、主要集中存在于前兩層中,這表明、、三種值對(duì)電網(wǎng)投資額存在直接性的影響,其中,特征始終存在于首個(gè)分界點(diǎn),說(shuō)明特征對(duì)電網(wǎng)投資額存在直接性的影響。
表1 2020年AdaBoost回歸樹(shù)預(yù)測(cè)結(jié)果表Tab.1 Prediction results of AdaBoost regression tree in 2020
表2 2019年AdaBoost回歸樹(shù)預(yù)測(cè)結(jié)果表Tab.2 Prediction results of AdaBoost regression tree in 2019
表3 2018年AdaBoost回歸樹(shù)預(yù)測(cè)結(jié)果表Tab.3 Prediction results of AdaBoost regression tree in 2018
從表1、表2、表3中的數(shù)據(jù)可以看出,在Ada-Boost回歸樹(shù)的應(yīng)用背景下,電網(wǎng)投資預(yù)測(cè)結(jié)果具有較高的精確性,通過(guò)對(duì)2020年、2019年、2018年的平均誤差進(jìn)行精確地計(jì)算和統(tǒng)計(jì),發(fā)現(xiàn)這3個(gè)年份的平均誤差分別為14.92%、18.41%、18.48%。電網(wǎng)相關(guān)專家明確指出各個(gè)年份電網(wǎng)投資預(yù)測(cè)誤差低于20%時(shí),才能確保預(yù)測(cè)結(jié)果準(zhǔn)確。2020年6個(gè)城市所對(duì)應(yīng)的預(yù)測(cè)誤差率均低于20%;2019年6個(gè)城市所對(duì)應(yīng)的預(yù)測(cè)誤差率均低于20%;2018年6個(gè)城市所對(duì)應(yīng)的預(yù)測(cè)誤差率均低于20%,這表明以上3個(gè)年份各個(gè)城市所對(duì)應(yīng)的預(yù)測(cè)準(zhǔn)確率較高。
為了更好地驗(yàn)證電網(wǎng)投資模型設(shè)計(jì)方法的有效性和科學(xué)性,現(xiàn)全面的分析和對(duì)比特征比例化數(shù)據(jù)和特征標(biāo)準(zhǔn)化數(shù)據(jù),然后,利用AdaBoost回歸樹(shù),完成對(duì)以上3個(gè)年份電網(wǎng)投資額與特征的有效建模,并得出相應(yīng)的“樹(shù)形圖”,從而得出如表4、表5的模型優(yōu)化前后預(yù)測(cè)誤差對(duì)比表、預(yù)測(cè)結(jié)果誤差在20%以內(nèi)的城市個(gè)數(shù)。
表4 模型優(yōu)化前后預(yù)測(cè)誤差對(duì)比表Tab.4 Comparison of prediction errors before and after model optimization
表5 預(yù)測(cè)結(jié)果誤差在20%以內(nèi)的城市個(gè)數(shù)Tab.5 Number of cities with prediction result error within 20%
從表4、表5中的數(shù)據(jù)可以看出,與模型優(yōu)化前相比,經(jīng)過(guò)模型優(yōu)化后所獲得的3個(gè)年份城市平均誤差均低于20%,這表明模型優(yōu)化后可以獲取比較良好的預(yù)測(cè)結(jié)果,由此可見(jiàn),通過(guò)利用AdaBoost回歸樹(shù),對(duì)電網(wǎng)投資模型進(jìn)行優(yōu)化設(shè)計(jì),可以極大地提高模型預(yù)測(cè)結(jié)果的精確性和真實(shí)性,這表明本文所設(shè)計(jì)的AdaBoost回歸樹(shù)模型具有較高的科學(xué)性、規(guī)范性和可行性。
通過(guò)茍家井AdaBoost回歸樹(shù)模型,不僅可以降低以上3個(gè)年份的預(yù)測(cè)平均誤差率,提高預(yù)測(cè)結(jié)果的精確性和真實(shí)性,還能突出AdaBoost回歸樹(shù)模型的預(yù)測(cè)準(zhǔn)確性高、可解釋性強(qiáng)等優(yōu)勢(shì),為進(jìn)一步提高電網(wǎng)投資模型設(shè)計(jì)水平,保證電網(wǎng)投資分配的科學(xué)性和合理性打下堅(jiān)實(shí)的基礎(chǔ)。
綜上所述,在電力市場(chǎng)體制的不斷改革下,電網(wǎng)投資模型設(shè)計(jì)工作取得了圓滿成功,為了實(shí)現(xiàn)對(duì)電網(wǎng)投資的合理分配,電網(wǎng)企業(yè)要在充分結(jié)合電網(wǎng)運(yùn)營(yíng)數(shù)據(jù)的基礎(chǔ)上,發(fā)現(xiàn)電網(wǎng)運(yùn)營(yíng)數(shù)據(jù)在實(shí)際運(yùn)用中,經(jīng)常出現(xiàn)缺失現(xiàn)象,然后,采用數(shù)據(jù)填補(bǔ)法,提出一種先進(jìn)、有效的智能填補(bǔ)方法,該方法在實(shí)際運(yùn)用中,除了綜合考慮數(shù)據(jù)樣本與數(shù)據(jù)特征之間的關(guān)系外,還涉及到了時(shí)間序列概念,使得填補(bǔ)數(shù)據(jù)的精確性和可靠性得以大幅度提升。此外,還要針對(duì)電網(wǎng)投資實(shí)際分配需求,利用AdaBoost回歸樹(shù),完成對(duì)電網(wǎng)投資模型的優(yōu)化和設(shè)計(jì)。