亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于循環(huán)擴(kuò)張機(jī)制的ConvGRU-Transformer短期電力負(fù)荷預(yù)測(cè)方法

2022-06-01 12:48:14遆寶中李庚銀武昭原王劍曉李瑞連

華北電力大學(xué)學(xué)報(bào)(自然科學(xué)版) 2022年3期

遆寶中，李庚銀，武昭原，王劍曉，周明，李瑞連

(新能源電力系統(tǒng)國(guó)家重點(diǎn)實(shí)驗(yàn)室(華北電力大學(xué))，北京 102206)

0 引言

電力負(fù)荷預(yù)測(cè)作為電力系統(tǒng)重要工作之一，是智能電網(wǎng)規(guī)劃管理和高效運(yùn)行的重要基礎(chǔ)。精準(zhǔn)的短期電力負(fù)荷預(yù)測(cè)有助于指導(dǎo)電力系統(tǒng)優(yōu)化調(diào)度和安排機(jī)組檢修計(jì)劃，有效降低發(fā)電機(jī)組的生產(chǎn)成本，保證電網(wǎng)的安全穩(wěn)定和經(jīng)濟(jì)運(yùn)行。隨著電力市場(chǎng)的發(fā)展、新能源規(guī)模的擴(kuò)大、信息物理系統(tǒng)的深度融合，短期電力負(fù)荷預(yù)測(cè)在需求響應(yīng)管理、可再生能源消納、信息安全防控等領(lǐng)域正發(fā)揮著越來越重要的作用[1]。

短期電力負(fù)荷預(yù)測(cè)主要分為以卡爾曼濾波[2]、多元線性回歸[3]為代表的統(tǒng)計(jì)學(xué)方法和以決策樹模型[4]、支持向量機(jī)(support vector machines，SVM)[5]為代表的機(jī)器學(xué)習(xí)方法。深度學(xué)習(xí)作為機(jī)器學(xué)習(xí)的延伸，進(jìn)一步解決上述方法對(duì)于非線性系統(tǒng)存在時(shí)序信息丟失、多維特征挖掘不夠充分的問題[6]。長(zhǎng)短時(shí)記憶 (long short-term memory，LSTM)神經(jīng)網(wǎng)絡(luò)和門控循環(huán)單元(gated recurrent unit，GRU)在循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network，RNN)結(jié)構(gòu)基礎(chǔ)上對(duì)隱藏層神經(jīng)元間建立連接[7]，適用于處理電力負(fù)荷數(shù)據(jù)的時(shí)序特征[8]，在此基礎(chǔ)上引入注意力機(jī)制，選擇性關(guān)注重要的輸入數(shù)據(jù)，可使模型更容易學(xué)習(xí)序列長(zhǎng)期依賴關(guān)系[9]。文獻(xiàn)[10]發(fā)現(xiàn)，對(duì)于多維輸入特征的實(shí)際算例，雙重注意力機(jī)制的GRU模型預(yù)測(cè)精度優(yōu)于單重注意力機(jī)制的卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network，CNN)-GRU模型。文獻(xiàn)[11]將注意力機(jī)制選擇性關(guān)注隱性狀態(tài)和雙層LSTM對(duì)序列數(shù)據(jù)雙向時(shí)序提取的優(yōu)勢(shì)相結(jié)合，提高了短期電力負(fù)荷預(yù)測(cè)模型的精度。

Google團(tuán)隊(duì)提出的Transformer網(wǎng)絡(luò)摒棄了循環(huán)神經(jīng)網(wǎng)絡(luò)模型，完全依賴注意力機(jī)制提取序列間的關(guān)聯(lián)性。相比較RNN順序輸入，Transformer方法可將數(shù)據(jù)并行輸入和計(jì)算，其多頭自注意力機(jī)制可將關(guān)聯(lián)性信號(hào)的傳播路徑在理論上減少到最短的O(1)。不同于常規(guī)神經(jīng)網(wǎng)絡(luò)黑箱模型，自注意力機(jī)制具有較好的可解釋性，在自然語言處理中大大提高了翻譯精度[12]。文獻(xiàn)[13]提出一種時(shí)間融合Transformer，在電力負(fù)荷、交通、零售、股票等預(yù)測(cè)領(lǐng)域?qū)崿F(xiàn)顯著的性能提升。文獻(xiàn)[14]提出Informer作為Transformer的變體，采用稀疏注意力機(jī)制和對(duì)注意力層的卷積池化等壓縮操作，提高了長(zhǎng)時(shí)間序列的預(yù)測(cè)精度。

Transformer模型在提取長(zhǎng)距離關(guān)聯(lián)性上表現(xiàn)出優(yōu)于RNN模型的性能[14，15]，理論上當(dāng)注意力層足夠大時(shí)可處理大規(guī)模自然語言處理(NLP)等長(zhǎng)距離相關(guān)性的序列預(yù)測(cè)任務(wù)，但需要占用大量計(jì)算資源[16]，因此在訓(xùn)練時(shí)需將序列分割為固定長(zhǎng)度并為每個(gè)片段添加相同的位置編碼，導(dǎo)致各分段數(shù)據(jù)間碎片化，限制了其捕獲長(zhǎng)距離特征的能力。

針對(duì)上述問題，本文提出了一種基于卷積門控循環(huán)單元(Convolutional Gated Recurrent Unit, ConvGRU) -Transformer的短期負(fù)荷預(yù)測(cè)方法。首先提出一種循環(huán)擴(kuò)張自注意力機(jī)制，解決Transformer的分段輸入導(dǎo)致信息碎片化問題，擴(kuò)大注意力的關(guān)注視野。利用ConvGRU對(duì)多特征時(shí)間序列進(jìn)行相對(duì)位置編碼，保持內(nèi)容信息的一致性，提取時(shí)序數(shù)據(jù)的潛在特征。仿真表明，本文方法在長(zhǎng)序列預(yù)測(cè)依然保持較高的精度，與現(xiàn)有典型方法相比具有更高的準(zhǔn)確率。

1 循環(huán)擴(kuò)張自注意力模型

1.1 自注意力機(jī)制原理

注意力機(jī)制模擬人腦的復(fù)雜認(rèn)知功能，人類在關(guān)注圖像信息時(shí)，會(huì)下意識(shí)地關(guān)注整個(gè)圖像總體，并將更多注意力資源投入到更多可用的有利信息上，即注意力的焦點(diǎn)，以獲得更加豐富的目標(biāo)信息，同時(shí)進(jìn)一步提升獲取目標(biāo)信息的效率與速度[15]。不同于傳統(tǒng)的建立在循環(huán)結(jié)構(gòu)基礎(chǔ)上的注意力機(jī)制[17]，Transformer引入了自注意力機(jī)制，可以顯示捕捉序列間的位置關(guān)系。相較于傳統(tǒng)RNN模型，自注意力機(jī)制具有參數(shù)少、計(jì)算速度快、效果更優(yōu)的特點(diǎn)。

自注意力機(jī)制基于信息提取器將輸入序列XT映射到一組查詢向量QT、鍵向量KT和值向量VT的矢量輸出中[18]。接著計(jì)算QT與KT的相似度作為權(quán)重，對(duì)所有的值向量進(jìn)行加權(quán)求和。采用縮放點(diǎn)積法將上述過程表示為

[QT,KT,VT]=[WQXT,WKXT,WVXT]

(1)

(2)

式中：WQ∈dk×dmod、WK∈dk×dmod、WV∈dv×dmod為對(duì)應(yīng)于QT∈dk×dt、KT∈dk×dt、VT∈dv×dt的訓(xùn)練參數(shù)矩陣，對(duì)于輸入時(shí)間序列XT∈dmod×dt，dmod表示時(shí)刻t序列的特征維度，如負(fù)荷值、溫度、日期等，dt表示輸入多少個(gè)序列向量。dk為查詢向量和鍵向量的維度，dv為值向量的維度，通過點(diǎn)積的方式將維度為dmod高維信息壓縮到dk、dv以便進(jìn)行相似度計(jì)算。ATTN為自注意力函數(shù)表示；softmax為歸一化指數(shù)函數(shù)。除以是為了抵消較大輸入導(dǎo)致softmax陷入極小梯度區(qū)域的現(xiàn)象。

多頭注意力是指對(duì)輸入設(shè)置NM個(gè)獨(dú)立的注意力頭并行操作，不同注意力頭關(guān)注數(shù)據(jù)的不同特征維度，最后將輸出結(jié)果拼接并乘以權(quán)重函數(shù)表示：

ATm=ATTN(QTm,KTm,VTm)

(3)

Mhead(XT)=Whead·[AT1;…ATm,…;ANM]

(4)

式中：ATm∈dv×dt為注意力頭m的自注意力分布，即式(1)、(2)計(jì)算結(jié)果；Whead∈dmod×NMdv為線性映射矩陣，Mhead(XT)為輸入XT對(duì)應(yīng)的最終自注意力分布。

1.2 片段循環(huán)擴(kuò)張機(jī)制

原自注意力結(jié)構(gòu)只能處理固定長(zhǎng)度的時(shí)間序列，即將一個(gè)長(zhǎng)序列截?cái)酁楣潭ㄩL(zhǎng)度的片段，在訓(xùn)練時(shí)對(duì)每個(gè)片段單獨(dú)處理，這將導(dǎo)致第一個(gè)片段的首端序列與第二個(gè)片段的末端序列間將缺乏聯(lián)系。在劃分片段時(shí)，通常不考慮序列的潛在規(guī)律。例如對(duì)于以具有星期或月周期性特征的負(fù)荷曲線，數(shù)據(jù)分割的碎片化導(dǎo)致這種長(zhǎng)時(shí)間尺度的特征被破壞。

受時(shí)序卷積網(wǎng)絡(luò)(Temporal Convolutional Networks, TCN)擴(kuò)張卷積結(jié)構(gòu)啟發(fā)，本文提出一種注意力循環(huán)擴(kuò)張結(jié)構(gòu)。訓(xùn)練期間，將之前時(shí)段編碼器的計(jì)算結(jié)果緩存。后續(xù)輸入時(shí)，擴(kuò)張機(jī)制允許注意力存在間隔采樣，采樣率由擴(kuò)張因子e控制，其結(jié)構(gòu)如圖1所示。擴(kuò)張因子指的是為上層對(duì)下層層采樣的間隔數(shù)，相當(dāng)于在兩個(gè)相鄰的注意力層間加入一個(gè)固定步長(zhǎng)。以分枝數(shù)為3為例，最底層輸入e=1，表示將片段連續(xù)輸入。中間層e=2，表示每個(gè)兩個(gè)片段的固定步長(zhǎng)做一次采樣，層級(jí)越高e的大小越大。擴(kuò)張機(jī)制使得有效窗口的大小隨層數(shù)呈指數(shù)增長(zhǎng)，以獲得更大的學(xué)習(xí)視野。

圖1 自注意力循環(huán)擴(kuò)張結(jié)構(gòu)Fig. 1 Recurrent and dilated structure of self-attention mechanism

對(duì)于序列X={x1,…,xt,…}，擴(kuò)張后的注意力視野為：

Ascan,e(X)=Concat(XT-(nb-i)e)

(5)

式中：e為擴(kuò)張因子；nb為分枝數(shù)，e=[1,…,(nb-1)l-1]；拼接函數(shù)Concat的功能是將輸入矩陣合并。擴(kuò)張計(jì)算相當(dāng)于在相鄰兩次片段數(shù)據(jù)采集間加入固定的步長(zhǎng)，e為增加的步長(zhǎng)大小。

將l-1層的序列以上述擴(kuò)張規(guī)則拼接后，可得到第l層的鍵向量Kl和值向量Vl。自注意力實(shí)際上是計(jì)算查詢輸入序列得到的Ql和歷史序列得到的Kl之間的關(guān)聯(lián)性，根據(jù)當(dāng)前輸入和與其對(duì)應(yīng)的神經(jīng)網(wǎng)絡(luò)中記憶的規(guī)律預(yù)測(cè)后續(xù)的發(fā)展趨勢(shì)，因此Ql通過未經(jīng)拼接的片段直接計(jì)算求得，第l層注意力的計(jì)算公式為

(6)

(7)

(8)

2 考慮全局特征的位置編碼模型

2.1 絕對(duì)位置編碼模型

由于Transformer沒有遞歸層與卷積層，單純的自注意力機(jī)制無法捕捉輸入的順序。Transformer采用正余弦位置編碼與自注意力機(jī)制結(jié)合使用[18]，這種編碼方式的優(yōu)點(diǎn)在于擴(kuò)展了編碼長(zhǎng)度，同時(shí)序列間的相對(duì)位置存在線性關(guān)系。

(9)

(10)

式中：t為輸入的序列位置，i表示維度，即矩陣的每個(gè)維度都有對(duì)應(yīng)的位置編碼。式(9)、(10)分別為奇數(shù)列和偶數(shù)列的位置編碼表示。

正余弦絕對(duì)位置編碼方式主要考慮局部相對(duì)特征，缺乏考慮全局信息。前一個(gè)周期與本周期相同位置使用的是同樣的位置編碼，這使得注意力層不易捕捉序列的潛在變化。且經(jīng)過線性變換和點(diǎn)積運(yùn)算后將導(dǎo)致方向信息丟失[19]。為了保持內(nèi)容與位置的一致性，一些文獻(xiàn)在文獻(xiàn)中在計(jì)算注意力權(quán)重時(shí)引入可訓(xùn)練參數(shù)表示相對(duì)位置提高了及其翻譯質(zhì)量[20]，文獻(xiàn)[13]負(fù)荷預(yù)測(cè)時(shí)用LSTM進(jìn)行位置編碼，考慮到需要對(duì)多元數(shù)據(jù)編碼，本文采用卷積門控循環(huán)單元(Convolutional Gated Recurrent Unit，ConvGRU)進(jìn)行位置編碼。

2.2 基于ConvGRU的位置編碼

GRU本身具有循環(huán)結(jié)構(gòu)并采用順序輸入的方式，其隱藏層保留了序列的相對(duì)位置信息，本質(zhì)上為一種可訓(xùn)練的相對(duì)位置編碼，能夠反映全局特性，提高預(yù)測(cè)精度。作為為長(zhǎng)短期記憶網(wǎng)絡(luò)LSTM的變體，只保留了更新門和重置門。更新門控制前一時(shí)刻的狀態(tài)信息保留程度，重置門控制當(dāng)前狀態(tài)與先前信息的結(jié)合程度[21]。GRU雖然參數(shù)少、模型簡(jiǎn)單，但保持與LSTM相當(dāng)?shù)男阅?，具有更快的收斂速度?/p>

ConvGRU在一維GRU基礎(chǔ)上改進(jìn)，將激活函數(shù)δ和tanh內(nèi)的全連接運(yùn)算改為卷積運(yùn)算，捕獲多維數(shù)據(jù)的基礎(chǔ)空間特征，其結(jié)構(gòu)如圖2所示。將隱藏層輸出接全連接層作為輸入數(shù)據(jù)的位置編碼結(jié)果，基本計(jì)算公式如下：

圖2 ConvGRU結(jié)構(gòu)Fig. 2 Schematic diagram of ConvGRU

(11)

RT=σ(WR*XT+UR*HT-1)

(12)

(13)

(14)

Ploc(XT)=ReLU(WHHT+bH)

(15)

3 基于ConvGRU-Transformer的負(fù)荷預(yù)測(cè)模型

3.1 輸入、輸出特征集設(shè)置

本文模型以影響負(fù)荷預(yù)測(cè)的各種屬性組成的時(shí)間序列特征圖作為網(wǎng)絡(luò)的輸入。出于電力負(fù)荷的日特性，負(fù)荷在每天不同時(shí)刻受外部因素影響的程度會(huì)有所不同，例如負(fù)荷在一些時(shí)刻受其他因素的影響顯著，而在另一些時(shí)段則與歷史負(fù)荷的相關(guān)性更大。從經(jīng)濟(jì)因素的角度，日前邊際電價(jià)和實(shí)時(shí)電價(jià)將影響消費(fèi)者的用電習(xí)慣[22]。此外如溫度、濕度等氣象因素對(duì)負(fù)荷的影響還存在累積效應(yīng)和滯后效應(yīng)[23]。季節(jié)的變遷也會(huì)影響用電類型比重，如夏季的降溫負(fù)荷和農(nóng)業(yè)灌溉負(fù)荷比重更大，冬季取暖負(fù)荷占比更多[22]。其他社會(huì)因素如節(jié)假日和工作日相比電力負(fù)荷有所降低。這都將導(dǎo)致在不同時(shí)間段下，影響負(fù)荷的最優(yōu)特征集可能會(huì)有所差異。

綜上所述，本文輸入數(shù)據(jù)主要由以下特征組成：歷史負(fù)荷、氣象因素、電價(jià)、時(shí)間特征(月份、當(dāng)月日期、小時(shí))、節(jié)假日信息，共同組成該時(shí)刻的負(fù)荷特征dmod，數(shù)據(jù)結(jié)構(gòu)如圖3所示，負(fù)荷、氣象數(shù)據(jù)采用連續(xù)變量，其余數(shù)據(jù)均為離散變量根據(jù)元素?cái)?shù)采用one-hot編碼，數(shù)據(jù)采樣步長(zhǎng)為1 h。采用滑動(dòng)窗口的方式將時(shí)間序列數(shù)據(jù)生成特征圖輸入。為加快訓(xùn)練速度，對(duì)日負(fù)荷數(shù)據(jù)、溫度、電價(jià)特征等連續(xù)變量采用min-max歸一化到[0, 1]。對(duì)日期特征、節(jié)假日信息等離散變量采用虛擬變量編碼。

圖3 輸入數(shù)據(jù)結(jié)構(gòu)Fig. 3 Structure of input data

3.2 預(yù)測(cè)模型結(jié)構(gòu)

本文提出的負(fù)荷預(yù)測(cè)模型結(jié)構(gòu)如圖4所示，包括輸入層、Nen層編碼器、Nde層解碼器、輸出層。

(1)輸入層。輸入層將各時(shí)間步的負(fù)荷數(shù)據(jù)和外部特征嵌入表示為Xen=[…,XT,en,…]，XTen∈dmod×dt。采用ConvGRU生成全局位置編碼，以加法的方式同嵌入表示合并得到作為編碼器的輸入：

(16)

(17)

(18)

圖4 ConvGRU-Transformer結(jié)構(gòu)示意圖Fig. 4 Schematic diagram of ConvGRU-Transformer

(19)

(20)

(21)

式中：W1、W2分別為第一層、第二層可訓(xùn)練權(quán)重，b1、b2為偏置向量。

最終在經(jīng)過一次層歸一化，得到該層的輸出：

(22)

(3) 解碼器。解碼器結(jié)構(gòu)與編碼器類似，由于用于序列預(yù)測(cè)，因此單獨(dú)設(shè)置掩碼注意力層。在序列預(yù)測(cè)過程中，僅考慮之前數(shù)據(jù)對(duì)當(dāng)前的影響，后續(xù)信息作為未知數(shù)據(jù)利用函數(shù)掩碼掉，不參與訓(xùn)練[18]。解碼器注意力層的查詢向量Q從下一層中獲得，鍵向量K、值向量V來自編碼器的輸出。解碼器的輸入XTde如下：

XT,de=Concat(XT,de,token,XT,de,mask)∈dbmod×(dtoken+dmask)

(23)

式中：XT,de,token為標(biāo)記序列；XT,de,mask為預(yù)測(cè)序列。為了不在預(yù)測(cè)時(shí)泄露后續(xù)信息，解碼器需對(duì)XT,de,mask掩碼運(yùn)算[26]，避免對(duì)預(yù)測(cè)數(shù)據(jù)的影響。解碼器以編碼器滑動(dòng)片段為步長(zhǎng)動(dòng)態(tài)解碼。

(4) 輸出層。解碼器輸出的特征向量經(jīng)過一個(gè)全連接層運(yùn)算以及Sigmoid壓縮函數(shù)，再經(jīng)過逆歸一化處理得到對(duì)應(yīng)于輸入序列的預(yù)測(cè)結(jié)果Y=[y1,…,yT,…]。

(24)

3.3 損失函數(shù)

本文在模型訓(xùn)練階段采用Adam自適應(yīng)矩估計(jì)方法[27]動(dòng)態(tài)優(yōu)化模型參數(shù)。損失函數(shù)采用均方誤差(Mean square error, MSE)，計(jì)算輸出和真實(shí)值誤差。

(25)

4 算例

本文數(shù)據(jù)來源為2014年全球能源預(yù)測(cè)大賽(global energy forecasting competition，GEFCom)的GEFCom2014-E數(shù)據(jù)集[28]，該數(shù)據(jù)取自美國(guó)新英格蘭電力系統(tǒng)運(yùn)營(yíng)商2006年至2014年每小時(shí)電力負(fù)荷信息和2004年至2014年每小時(shí)溫度信息。選取2012年1月1日至2013年6月30日為訓(xùn)練集，2013年7月1日至2013年12月31日為驗(yàn)證集，2014年1月1日至2014年6月30日為測(cè)試集，負(fù)荷數(shù)據(jù)和溫度數(shù)據(jù)的整體分布情況如圖5所示，可發(fā)現(xiàn)有較強(qiáng)的周期性規(guī)律。本文實(shí)驗(yàn)仿真環(huán)境包括Inter Core i5-8265U，內(nèi)存：8 GB，主頻：1. 6 GHz，操作系統(tǒng)：Windows 10，編譯平臺(tái)：Python 3. 6，TensorFlow 2. 4. 0。

本文選用平均絕對(duì)百分誤差(Mean Absolute Percentage Error, MAPE)和均方根誤差(Root Mean Square Error, RMSE)作為模型性能評(píng)價(jià)指標(biāo)。MAPE作為回歸模型常用性能指標(biāo)，綜合考慮了預(yù)測(cè)值與真實(shí)值的誤差以及考慮了誤差與真實(shí)值的比例；RMSE對(duì)偏離較大的值懲罰效果更強(qiáng)。

圖5 負(fù)荷溫度數(shù)據(jù)Fig. 5 Load and temperature data

為了兼顧訓(xùn)練速度與模型性能，參考Transformer標(biāo)準(zhǔn)結(jié)構(gòu)，ConvGRU-Transformer的編碼器和解碼器均為6層。為在捕獲長(zhǎng)期特征與局部特征上取得均衡，擴(kuò)張分枝數(shù)選3。待選變量集包括負(fù)荷、溫度、趨勢(shì)、日期和節(jié)假日變量。負(fù)荷、溫度、趨勢(shì)為連續(xù)變量，其余變量為離散變量并采用one-hot編碼。趨勢(shì)變量為從1開始累加的線性累加變量。日期變量包括1～24小時(shí)變量、1～7星期變量和1～12月份變量，節(jié)假日變量中周一至周五為工作日，周六、周日為節(jié)假日。表1總結(jié)了針對(duì)每個(gè)預(yù)測(cè)模型所發(fā)現(xiàn)的最佳參數(shù)配置，神經(jīng)網(wǎng)絡(luò)方法的批處理數(shù)一律設(shè)置為24。

表1 不同預(yù)測(cè)模型參數(shù)配置Tab.1 Parameter configuration of different model

4.1 模型訓(xùn)練分析

為直觀反映本文改進(jìn)方案對(duì)原模型訓(xùn)練的影響，采用MAPE作為指標(biāo)反應(yīng)訓(xùn)練效率，如圖6所示。從圖中可以發(fā)現(xiàn)，Transformer的訓(xùn)練速度更快，在訓(xùn)練3000次以后MAPE已降到2%以下，ConvGRU-Transformer下降速度要慢得多，且在訓(xùn)練初期波動(dòng)幅度更大。這是由于ConvGRU-Transformer由于需要ConvGRU進(jìn)行全局位置編碼，訓(xùn)練參數(shù)更多；同時(shí)前期需要大量訓(xùn)練以填充擴(kuò)張單元，曲線下降更為平緩。

圖6 與原結(jié)構(gòu)收斂性對(duì)比Fig. 6 The simulation convergence compared with the original model

4.2 注意力層可視化表征

由于自注意力機(jī)制直接描述序列之間的關(guān)聯(lián)性，不需要將其映射到高維空間訓(xùn)練，因此具有良好的可解釋性。這里將注意力矩陣表示為熱圖，如圖7、8所示?？v軸范圍為1～16 h，橫軸范圍為-31～16 h，由于仿真采用的時(shí)間窗口為16 h，采樣片段為1～16 h，分枝數(shù)為3，拼接的2個(gè)片段對(duì)應(yīng)的歷史序列為-31～0 h。熱圖顏色深淺表示各時(shí)刻序列之間的相關(guān)性。

從圖7可以發(fā)現(xiàn)對(duì)于注意力頭1，解碼器1主要關(guān)注第二片段特征，解碼器3更關(guān)注第三片段，解碼器6則在尾部分布了較大的權(quán)重，注意力分布呈現(xiàn)遞進(jìn)關(guān)系。編碼器1、3、6的擴(kuò)張因子分別為，視野分別為48 h、10天和84.67天，說明注意力頭1主要關(guān)注的負(fù)荷、溫度等連續(xù)數(shù)據(jù)在短周期內(nèi)具有較多的局部特征，隨著步長(zhǎng)的增加，數(shù)據(jù)之間的關(guān)聯(lián)性下降，分配的權(quán)重降低。同時(shí)注意力層具有以片段長(zhǎng)度為單位的時(shí)序性規(guī)律變化，解碼器3、解碼器6的前兩個(gè)片段均具有相同的分布趨勢(shì)，說明循環(huán)擴(kuò)張結(jié)構(gòu)可有效提取序列的長(zhǎng)期特征。

圖7 不同注意力層權(quán)重?zé)崃DFig. 7 Weighted heatmap of different attention layers

結(jié)合圖7 (b)和圖8可以發(fā)現(xiàn)，解碼器3注意力頭1和頭3 的權(quán)重主要分布在第三段，注意力頭2則分布更均勻。注意力頭1包含的數(shù)據(jù)和注意力頭3包含的星期、月份數(shù)據(jù)的注意力權(quán)值僅在近期較為集中，說明電力負(fù)荷的預(yù)測(cè)與鄰近星期的負(fù)荷、溫度等數(shù)據(jù)關(guān)聯(lián)性較大，例如上周數(shù)據(jù)將對(duì)本周數(shù)據(jù)預(yù)測(cè)的影響與更早歷史數(shù)據(jù)相比更為重要。注意力頭2包含的小時(shí)、節(jié)假日數(shù)據(jù)的權(quán)重分布更加均勻，說明在同一時(shí)刻的不同日負(fù)荷之間、不同星期的周末之間的數(shù)據(jù)有較強(qiáng)的關(guān)聯(lián)，即這些數(shù)據(jù)具有較長(zhǎng)的周期規(guī)律，例如每周間的周末數(shù)據(jù)雖在時(shí)間序列上不連續(xù)，但因其關(guān)聯(lián)性較強(qiáng)預(yù)測(cè)時(shí)需著重考慮。

圖8 不同注意力頭權(quán)重?zé)崃DFig. 8 Weighted heatmap of different attention heads

4.3 與其他方法對(duì)比

為驗(yàn)證ConvGRU-Transformer模型在電力負(fù)荷預(yù)測(cè)上的科學(xué)性和有效性，本文將常用于電力負(fù)荷短期預(yù)測(cè)的SVR、LSTM、CNN-LSTM作為對(duì)照模型，對(duì)2014年1月至6月負(fù)荷進(jìn)行日前短期預(yù)測(cè)。記錄每種模型多次實(shí)驗(yàn)后的最優(yōu)結(jié)果如表2所示。

表2 不同方法預(yù)測(cè)結(jié)果對(duì)比Tab.2 Prediction results of different algorithms

從表中可以發(fā)現(xiàn)，ConvGRU-Transformer預(yù)測(cè)精度優(yōu)于其他方法，MAPE相比其他4種方法分別降低了0.192 %、2.275%、0.877%、0.184%，RMSE相較于其他方法分別降低了 30.151 MW、116.823 MW、50.734 MW、24.946 MW，證明本文方法可有效捕捉多輸入特征和預(yù)測(cè)負(fù)荷間的非線性關(guān)系。循環(huán)擴(kuò)張結(jié)構(gòu)和ConvGRU相對(duì)位置編碼在不降低效能的前提下，大幅度降低了原模型的訓(xùn)練時(shí)間。日負(fù)荷預(yù)測(cè)時(shí)間為0.501 s，適用于電力負(fù)荷短期預(yù)測(cè)。

圖9為各方法對(duì)一周連續(xù)日負(fù)荷預(yù)測(cè)曲線對(duì)比。從圖中可以看出，SVR預(yù)測(cè)誤差最大，由于僅將負(fù)荷和溫度作為特征輸入，在周特性等長(zhǎng)距離相關(guān)性上表現(xiàn)較差，LSTM在負(fù)荷劇烈波動(dòng)區(qū)域預(yù)測(cè)結(jié)果較差，在周六、周日表現(xiàn)出了較大的波動(dòng)，其余三種方法由于可提取數(shù)據(jù)的多元相關(guān)性，曲線的平滑性得到改善。ConvGRU-Transformer由于注意力視野的提升以及位置編碼的連貫性，相較于原方法有效提升了在波峰、波谷處的預(yù)測(cè)精度。

圖9 不同方法從2014年1月6日到1月12日負(fù)荷預(yù)測(cè)對(duì)比Fig. 9 Comparison of load forecasting from 2014/1/6 to 2014/1/12 by different learning methods

5 結(jié) 論

本文提出了一種基于ConvGRU-Transformer電力負(fù)荷預(yù)測(cè)方法，首先采用循環(huán)擴(kuò)張機(jī)制擴(kuò)大模型的注意力視野，再采用ConvGRU網(wǎng)絡(luò)有效提取序列的相對(duì)位置信息。算例仿真結(jié)果表明：循環(huán)擴(kuò)張結(jié)構(gòu)可有效捕獲多維特征輸入數(shù)據(jù)的長(zhǎng)距離特征，結(jié)合對(duì)前序計(jì)算片段隱層狀態(tài)的緩存機(jī)制，在大幅縮短了原模型的訓(xùn)練時(shí)間的同時(shí)有效提高預(yù)測(cè)精度；自注意力機(jī)制較好的可解釋性可直觀反應(yīng)序列的周期性規(guī)律，注意力頭對(duì)不同類型數(shù)據(jù)的采集可分別捕獲其潛在特征，為多元數(shù)據(jù)的相關(guān)性分析、模型的擴(kuò)展提供參考。

與常規(guī)的神經(jīng)網(wǎng)絡(luò)方法相比，Transformer及其改進(jìn)模型在深度增加時(shí)存在梯度消失的問題，增加了訓(xùn)練難度，且在注意力矩陣稀疏化處理及特征高效提取方面有較大的發(fā)展空間。未來將從信息傳遞、自適應(yīng)學(xué)習(xí)率等角度出發(fā)，增加深度模型訓(xùn)練的穩(wěn)定性與收斂速度。