孫 鋼,楊 寧,柳文軒,吳 磊,韓 蕾,趙俊華
(1.國網(wǎng)浙江省電力有限公司電力科學(xué)研究院,杭州 310014;2.國網(wǎng)浙江省電力有限公司杭州供電公司,杭州 310009;3.香港中文大學(xué)(深圳)理工學(xué)院,廣東 深圳 518100;4.國網(wǎng)浙江杭州市富陽區(qū)供電有限公司,杭州 311400;5.浙江華云信息科技有限公司,杭州 310008)
電力是國民經(jīng)濟(jì)的重要基礎(chǔ),電力行業(yè)在支撐其他行業(yè)的發(fā)展中起著不可或缺的作用。由于電力目前存在著不可大規(guī)模儲存的關(guān)鍵特點(diǎn),其消耗量能夠直接反映產(chǎn)業(yè)經(jīng)濟(jì)發(fā)展的實(shí)際情況,因此被視作宏觀經(jīng)濟(jì)的標(biāo)尺性指標(biāo)。所以,用電量是宏觀經(jīng)濟(jì)增長的一個重要指標(biāo),可以用于產(chǎn)業(yè)經(jīng)濟(jì)預(yù)測。反之,宏觀經(jīng)濟(jì)的變化也可以用來進(jìn)行行業(yè)電力負(fù)荷的預(yù)測。
近年來,電力需求與GDP(國內(nèi)生產(chǎn)總值)增長之間存在的增長背離現(xiàn)象正引起學(xué)者們的廣泛關(guān)注。就目前收集到的數(shù)據(jù),用電量和宏觀經(jīng)濟(jì)增長的趨勢并不完全一致。以浙江省統(tǒng)計(jì)年鑒為例,2015年下半年浙江省總耗電量下降1.35%,但GDP仍然增長了6.7%。同樣,全國用電量累計(jì)增長也出現(xiàn)了下降,而宏觀經(jīng)濟(jì)保持正增長。這種背離現(xiàn)象甚至遠(yuǎn)高于1998年的亞洲金融危機(jī)時(shí)期?;谶@類現(xiàn)象客觀存在的考慮,研究如何建立合適的模型來準(zhǔn)確預(yù)測電力負(fù)荷與經(jīng)濟(jì)增長之間的相關(guān)性和可能的分歧性是至關(guān)重要的。
傳統(tǒng)的宏觀經(jīng)濟(jì)學(xué)是通過研究經(jīng)濟(jì)周期的變化來預(yù)測不同行業(yè)的狀況的[1]。這種研究一般需要遍歷若干個完整的經(jīng)濟(jì)周期。一個周期包含在一段相同時(shí)間內(nèi)若干個產(chǎn)業(yè)內(nèi)部所發(fā)生的擴(kuò)張、衰退、收縮和復(fù)蘇[2]。其中比較常用的有經(jīng)濟(jì)景氣分析法[3]。經(jīng)濟(jì)景氣分析法主要使用計(jì)量經(jīng)濟(jì)學(xué)的方法,利用時(shí)間序列的線性自回歸模型分析時(shí)差相關(guān)系數(shù)、K-L統(tǒng)計(jì)量等參數(shù),篩選并構(gòu)建先行、一致和滯后指標(biāo)體系,從而為判斷宏觀經(jīng)濟(jì)和相關(guān)行業(yè)的走勢與預(yù)測提供可行的參考依據(jù)。
傳統(tǒng)方法的優(yōu)勢包括:
(1)模型中的解釋和控制變量都具有明確的經(jīng)濟(jì)含義,可以在決策時(shí)提供對應(yīng)的經(jīng)濟(jì)學(xué)解釋。
(2)模型不需要大量和高頻的樣本數(shù)據(jù)。
由于經(jīng)濟(jì)景氣分析法是基于線性的模型,模型往往伴隨著欠擬合的缺陷。同時(shí),由于該方法中的指標(biāo)體系來自經(jīng)濟(jì)學(xué)家的個人經(jīng)驗(yàn),對應(yīng)一些特定的行業(yè),同樣的指標(biāo)體系會顯得缺乏相關(guān)行業(yè)的解釋性。進(jìn)一步,即使全部的模型參數(shù)都通過了統(tǒng)計(jì)和經(jīng)濟(jì)檢驗(yàn),線性模型的結(jié)果依然會存在由樣本的多重共線性和異方差所帶來的不可靠[4]。所以,基于線性回歸的模型在做預(yù)測時(shí)往往會表現(xiàn)得很差。為了解決傳統(tǒng)方法存在的預(yù)測不準(zhǔn)確問題,將創(chuàng)造性地引入目前主流的深度學(xué)習(xí)技術(shù),從而構(gòu)建經(jīng)濟(jì)變量間的非線性回歸模型。
AE(自編碼網(wǎng)絡(luò))是一類特殊的前饋神經(jīng)網(wǎng)絡(luò),是目前深度學(xué)習(xí)中的三類主流方法之一,屬于無監(jiān)督學(xué)習(xí)[5]。自編碼網(wǎng)絡(luò)一般用來提取樣本數(shù)據(jù)中的有用先驗(yàn)信息,常見的應(yīng)用有除噪。一個自編碼網(wǎng)絡(luò)至少包含兩個部分,一個將原始樣本關(guān)鍵信息提取出來的編碼層,和一個依據(jù)關(guān)鍵特征信息還原樣本的解碼層。和大多數(shù)神經(jīng)網(wǎng)絡(luò)模型一樣,自編碼網(wǎng)絡(luò)的訓(xùn)練目標(biāo)也是最小化某個損失函數(shù)。不一樣的是,不同的自編碼網(wǎng)絡(luò)會在損失函數(shù)上添加不同的正則項(xiàng),以達(dá)到所需特殊信息的目的。目前,自編碼網(wǎng)絡(luò)已經(jīng)應(yīng)用于圖像、電力、醫(yī)療等多個領(lǐng)域[6]。
為了構(gòu)建合理的基于經(jīng)濟(jì)增長數(shù)據(jù)的行業(yè)用電量預(yù)測模型,選用自編碼網(wǎng)絡(luò)來提取行業(yè)經(jīng)濟(jì)增長數(shù)據(jù)中與行業(yè)用電量最相關(guān)的特征。然后用這部分特征進(jìn)行行業(yè)的用電趨勢預(yù)測。該模型會與以經(jīng)濟(jì)增長數(shù)據(jù)為自變量、用電量數(shù)據(jù)為因變量的傳統(tǒng)經(jīng)濟(jì)景氣分析中所使用的ARMA(自回歸滑動平均)模型進(jìn)行對比。從而體現(xiàn)其優(yōu)越性。
文獻(xiàn)[7]應(yīng)用經(jīng)濟(jì)周期理論和狀態(tài)空間模型對我國的電力需求的周期性變化進(jìn)行預(yù)測,并得出了電力周期波動和經(jīng)濟(jì)周期波動的頻率基本保持一致。該文獻(xiàn)還指出了,根據(jù)對電力需求曲線的“拐點(diǎn)”分析,產(chǎn)業(yè)結(jié)構(gòu)調(diào)整和經(jīng)濟(jì)周期波動是用電量呈周期性波動的主要原因。
文獻(xiàn)[8]采用年度面板數(shù)據(jù)對比了16個重要國家的用電量和宏觀經(jīng)濟(jì)發(fā)展關(guān)系。研究發(fā)現(xiàn)用電量和經(jīng)濟(jì)增長的關(guān)系主要體現(xiàn)在電力消費(fèi)彈性系數(shù)的變化上。影響用電量和宏觀經(jīng)濟(jì)增長關(guān)聯(lián)的主要因素有單位產(chǎn)值電耗、電力消費(fèi)結(jié)構(gòu)和終端市場的變動頻率。
文獻(xiàn)[9]主要研究了第二產(chǎn)業(yè)內(nèi)部的增值變化和電力消耗變化的關(guān)系。研究發(fā)現(xiàn)行業(yè)內(nèi)部的結(jié)構(gòu)變化是電力消耗下降的主要原因。另外,研究認(rèn)為導(dǎo)致第二產(chǎn)業(yè)不同行業(yè)的電耗差異較大的主要因素是經(jīng)濟(jì)結(jié)構(gòu)變化和節(jié)能降耗效應(yīng)。
文獻(xiàn)[10]采用了半?yún)⒑头菂⒌慕y(tǒng)計(jì)模型對我國用電量及其相關(guān)影響因素做出了研究。結(jié)果表明我國經(jīng)濟(jì)的快速增長、人口和經(jīng)濟(jì)結(jié)構(gòu)的轉(zhuǎn)變都是影響我國用電量的重要原因。
以上都是基于傳統(tǒng)的經(jīng)濟(jì)周期波動理論對行業(yè)用電量進(jìn)行的周期性研究。
自編碼網(wǎng)絡(luò)觀點(diǎn)的提出起于神經(jīng)網(wǎng)絡(luò)模型的伊始[11]。后來因?yàn)椴煌奶卣魈崛?biāo)準(zhǔn),演化成了多種形式:稀疏自編碼器[12]、降噪自編碼器[13]、正則自編碼器[14]、收縮自編碼器[15]和邊際降噪自編碼器[16]。并且在工業(yè)、圖像、文字等領(lǐng)域得到了廣泛的應(yīng)用。
文獻(xiàn)[17]將自編碼網(wǎng)絡(luò)用于人類免疫缺陷病毒的分類。通過來自南非的問卷調(diào)查數(shù)據(jù),研究發(fā)現(xiàn)自編碼網(wǎng)絡(luò)在測試集上的準(zhǔn)確度達(dá)到了92%,高于傳統(tǒng)前饋神經(jīng)網(wǎng)絡(luò)模型的84%。
文獻(xiàn)[18]在跨模式搜索中引入了自編碼網(wǎng)絡(luò)。研究表明,在圖片和文字混合的模式下,自編碼網(wǎng)絡(luò)對關(guān)鍵信息的檢索頻次要高于傳統(tǒng)的主成分分析法。自編碼網(wǎng)絡(luò)的準(zhǔn)確度為93%,而被比較方法的準(zhǔn)確度為81%。自編碼網(wǎng)絡(luò)的高準(zhǔn)確度搜索能力不僅可以被用到具體的應(yīng)用中,還可以被用到強(qiáng)化學(xué)習(xí)的求解過程中,以替代傳統(tǒng)的梯度下降法[19]。
在圖像識別和還原上,自編碼網(wǎng)絡(luò)從二維圖像中識別出人的形象,并且能夠還原到三維的立體圖形中,其還原誤差相較于傳統(tǒng)的方法下降了20%~25%[20]。在自然語言生成上,已經(jīng)有成型的基于長短時(shí)記憶模型的自編碼網(wǎng)絡(luò)可生成人工校對流暢的語句和段落[21]。
現(xiàn)在大多數(shù)自編碼網(wǎng)絡(luò)還未應(yīng)用于經(jīng)濟(jì)相關(guān)領(lǐng)域。在該研究中,創(chuàng)造性地考慮利用自編碼網(wǎng)絡(luò)的特征提取能力,從電力與經(jīng)濟(jì)數(shù)據(jù)中自動識別出相關(guān)的因素。
根據(jù)行業(yè)經(jīng)濟(jì)增長數(shù)據(jù)和用電量數(shù)據(jù)建立了一個經(jīng)濟(jì)景氣模型。由于大部分電能都是由第二產(chǎn)業(yè)消耗的,所以工作內(nèi)容主要集中于研究第二產(chǎn)業(yè)中各行業(yè)的經(jīng)濟(jì)增長與電力需求間的關(guān)系。
模型的前半部分為線性的ARMA模型,用于描述行業(yè)經(jīng)濟(jì)增長的時(shí)間序列與當(dāng)下用電量間的定性線性關(guān)聯(lián)性。對ARMA模型做了對數(shù)化處理,旨在削弱由樣本數(shù)量級引起的異方差對模型的影響。然后,模型的后半部分使用了自編碼網(wǎng)絡(luò)模型用于對行業(yè)用電量進(jìn)行定量預(yù)測。這兩種方法會在數(shù)值實(shí)驗(yàn)部分進(jìn)行比較和評價(jià)。
ARMA模型是最常見的平穩(wěn)時(shí)間序列模型之一,并廣泛應(yīng)用于計(jì)量經(jīng)濟(jì)分析里。ARMA模型可以清晰的展示平穩(wěn)隨機(jī)過程與自身滯后項(xiàng)、殘差滯后項(xiàng)之間的定量關(guān)系。此處所使用的是ARMA模型的一種特殊建模,叫做ADL模型(自回歸分布滯后模型,其形式為:
式中:Yt為因變量,即文中的時(shí)間t行業(yè)用電量;Xt為自變量,即文中的時(shí)間t行業(yè)的經(jīng)濟(jì)增長量;ε為殘差向量,包含了時(shí)間t以來的全部殘差項(xiàng)及其權(quán)重系數(shù)。
目標(biāo)是根據(jù)樣本數(shù)據(jù),估計(jì)出模型中的所有系數(shù)a0,a1,…。通過一些基本的假設(shè)[22],這里采用簡單最小二乘估計(jì)法[23]來求解它們。
系數(shù)估計(jì)完畢以后,需要對系數(shù)進(jìn)行T檢驗(yàn)以確保系數(shù)的可靠性。然后計(jì)算皮爾遜線性系數(shù)R2值,來確認(rèn)模型對樣本的擬合度。
傳統(tǒng)的多元線性回歸方法雖然具有原理簡明、易于實(shí)現(xiàn)等優(yōu)點(diǎn),但由于其構(gòu)建的回歸模型是線性的特點(diǎn),難以用于有效擬合經(jīng)濟(jì)數(shù)據(jù)中隱藏的非線性函數(shù)關(guān)系。因此,此處將創(chuàng)造性地引入目前主流的深度學(xué)習(xí)技術(shù),從而構(gòu)建經(jīng)濟(jì)變量間的非線性回歸模型。自編碼網(wǎng)絡(luò)是一類特殊的前饋神經(jīng)網(wǎng)絡(luò),是目前深度學(xué)習(xí)中的三類主流方法之一,如圖1所示。
圖1 自編碼網(wǎng)絡(luò)原理
單隱層自編碼網(wǎng)絡(luò)由一個編碼映射層f和一個解碼映射層g組成。輸入向量X經(jīng)過編碼與解碼兩次非線性映射后得到的輸出X′=g[f(X)]應(yīng)與輸入X近似相等。此時(shí),由于網(wǎng)絡(luò)的中間層結(jié)果f(X)經(jīng)過解碼映射g即可基本還原出X。這表明f(X)包含了原始輸入X中絕大部分的關(guān)鍵信息,是X的一個有效的特征表示。在實(shí)際應(yīng)用中,令f(X)的維數(shù)小于X,在保留輸入關(guān)鍵信息的前提下實(shí)現(xiàn)降維的目的。
自編碼網(wǎng)絡(luò)的訓(xùn)練在數(shù)學(xué)上可抽象為如下的優(yōu)化問題:
式中:JAE為自編碼網(wǎng)絡(luò)優(yōu)化的目標(biāo)函數(shù);L為度量輸入X與輸出X′之間距離的損失函數(shù)(如平方誤差);W為決策變量,表示網(wǎng)絡(luò)參數(shù)(輸入與輸出權(quán)重及激發(fā)函數(shù)參數(shù))。
為了確保從數(shù)據(jù)中提取有意義的,且具有某些良好數(shù)學(xué)性質(zhì)的特征,在優(yōu)化目標(biāo)中引入正則項(xiàng)。例如,在優(yōu)化目標(biāo)中加入網(wǎng)絡(luò)參數(shù)的二范數(shù):
式中:JAE+WD為加入網(wǎng)絡(luò)參數(shù)影響后的優(yōu)化目標(biāo)函數(shù);λ為正則項(xiàng)的偏差系數(shù)。
則可以避免過擬合問題,這稱為二范數(shù)正則自編碼。若在優(yōu)化目標(biāo)中加入編碼映射對輸入導(dǎo)數(shù)的二范數(shù):
式中:JCAE為加入輸入導(dǎo)數(shù)影響后的優(yōu)化目標(biāo)函數(shù);?為偏微分算子。
則可以增強(qiáng)對于輸入當(dāng)中的隨機(jī)擾動的魯棒性,這稱為收縮自編碼。
當(dāng)自編碼網(wǎng)絡(luò)的訓(xùn)練完成,在實(shí)際應(yīng)用時(shí)只使用其編碼映射層用于提取數(shù)據(jù)特征。常見的深度自編碼網(wǎng)絡(luò)首先應(yīng)用多個編碼映射層進(jìn)行復(fù)雜特征的提取,然后再利用一到兩層的全連接層進(jìn)行分類與預(yù)測。此處考慮利用自編碼網(wǎng)絡(luò)的特征提取能力,從電力與經(jīng)濟(jì)數(shù)據(jù)中自動識別出相關(guān)的因素。
為了以實(shí)證的方式證明所提出方法的有效性,選擇過去6年中國主要省份的日工業(yè)用電量和月工業(yè)收入數(shù)據(jù)來訓(xùn)練和測試對數(shù)化的ARMA模型和自編碼網(wǎng)絡(luò)。然后比較這兩種方法的差別。
在這兩個試驗(yàn)中,有20個第二產(chǎn)業(yè)的相關(guān)行業(yè)被選取。
試驗(yàn)選取了2012年1月1日—2017年12月31日6年間的20個行業(yè)月度工業(yè)產(chǎn)出值及對應(yīng)的同比增長率數(shù)據(jù)。為每一個行業(yè)建立單獨(dú)的模型,每個行業(yè)的月度產(chǎn)出為自變量,而相應(yīng)的每個部門的日用電量為因變量。數(shù)據(jù)來自中國某省統(tǒng)計(jì)局和電網(wǎng)公司。
第1個試驗(yàn)使用的是對數(shù)化的線性ARMA模型。經(jīng)過對AFC和PAFC系數(shù)的檢驗(yàn),最終確定為ARMA(2,1)模型,即自回歸項(xiàng)為2階,移動平均項(xiàng)為1階。這個ARMA模型最終會作為整個試驗(yàn)的對照組。
第2個試驗(yàn)使用的是一個自編碼網(wǎng)絡(luò)模型。常見的自編碼網(wǎng)絡(luò)模型的節(jié)點(diǎn)特征函數(shù)見表1。
表1 自編碼網(wǎng)絡(luò)中常見的節(jié)點(diǎn)特征函數(shù)
試驗(yàn)中,設(shè)定了一個2隱層10個節(jié)點(diǎn)的自編碼網(wǎng)絡(luò),節(jié)點(diǎn)特征函數(shù)皆為sigmoid函數(shù)。
模型的自變量是月度工業(yè)產(chǎn)出值的月環(huán)比(單位是%),因變量是月度耗電量(單位是kWh)。每個產(chǎn)業(yè)的對數(shù)線性回歸結(jié)果如表2所示。
通過回歸分析發(fā)現(xiàn)回歸系數(shù)大多無法通過統(tǒng)計(jì)檢驗(yàn)且調(diào)整R2的數(shù)據(jù)不高(只有電力和熱量產(chǎn)供應(yīng)業(yè)、醫(yī)藥制造業(yè)超過了0.5),所以通過月度工業(yè)產(chǎn)出值的月環(huán)比來預(yù)測月度耗電量的線性回歸模型效果不理想。這是由經(jīng)濟(jì)數(shù)據(jù)的采樣頻率過低,而無法匹配相對高頻的用電數(shù)據(jù)導(dǎo)致的。
自編碼網(wǎng)絡(luò)模型的輸入為不帶標(biāo)記的月度工業(yè)產(chǎn)出值的月環(huán)比數(shù)據(jù)和月度耗電量數(shù)據(jù),輸出是月度耗電量。因?yàn)槟P桶?層10個sigmoid函數(shù)的節(jié)點(diǎn),所以不方便把模型的完整形式一一寫出。這里給出均方差以對比預(yù)測的準(zhǔn)確度。兩種方法的均方差對比如表3所示。
根據(jù)結(jié)果,可以得到幾個結(jié)論:
(1)在大多數(shù)情況下(在12個行業(yè)中),自編碼網(wǎng)絡(luò)的預(yù)測比經(jīng)典線性回歸模型更好。
表2ARMA模型的回歸結(jié)果
(2)然而,仍有7個行業(yè),線性回歸比自編碼網(wǎng)絡(luò)有更好的表現(xiàn)。
(3)其中廢棄資源和廢舊材料回收加工業(yè)中自編碼網(wǎng)絡(luò)的預(yù)測和經(jīng)典線性回歸模型結(jié)果幾乎一樣。
通過自編碼網(wǎng)絡(luò),可以利用行業(yè)的經(jīng)濟(jì)增長數(shù)據(jù)預(yù)測相關(guān)產(chǎn)業(yè)的用電量。再用預(yù)測值對現(xiàn)有觀測值求相對增長率(即求差后除以現(xiàn)有觀測值):當(dāng)該值大于50%時(shí),可以認(rèn)為所求行業(yè)是十分景氣的;25%~50%時(shí),可以認(rèn)為是一般景氣的;0%~25%是略為景氣的;-25%~0%是略為不景氣的;-50%~-25%時(shí)是一般不景氣的;當(dāng)增長率小于50%時(shí),基本認(rèn)為該產(chǎn)業(yè)已處于完全衰退的狀態(tài)。
提出了基于自編碼網(wǎng)絡(luò)和經(jīng)濟(jì)增長數(shù)據(jù)的工業(yè)負(fù)荷預(yù)測模型。在這個模型中,自編碼網(wǎng)絡(luò)首次被用來基于經(jīng)濟(jì)增長數(shù)據(jù)預(yù)測各行業(yè)用電量。應(yīng)用統(tǒng)計(jì)局?jǐn)?shù)據(jù)的實(shí)證研究表明,在第二產(chǎn)業(yè)的大多數(shù)行業(yè)中,自編碼網(wǎng)絡(luò)表現(xiàn)出更高的準(zhǔn)確性。這個模型可以作為地方政府對其工業(yè)發(fā)展作出決策的基準(zhǔn)。
表3 ARMA模型與自編碼網(wǎng)絡(luò)模型的預(yù)測結(jié)果