亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于循環(huán)擴(kuò)張機(jī)制的ConvGRU-Transformer短期電力負(fù)荷預(yù)測(cè)方法

        2022-06-01 12:48:14遆寶中李庚銀武昭原王劍曉李瑞連
        關(guān)鍵詞:解碼器注意力編碼

        遆寶中, 李庚銀, 武昭原, 王劍曉, 周 明, 李瑞連

        (新能源電力系統(tǒng)國(guó)家重點(diǎn)實(shí)驗(yàn)室(華北電力大學(xué)),北京 102206)

        0 引 言

        電力負(fù)荷預(yù)測(cè)作為電力系統(tǒng)重要工作之一,是智能電網(wǎng)規(guī)劃管理和高效運(yùn)行的重要基礎(chǔ)。精準(zhǔn)的短期電力負(fù)荷預(yù)測(cè)有助于指導(dǎo)電力系統(tǒng)優(yōu)化調(diào)度和安排機(jī)組檢修計(jì)劃,有效降低發(fā)電機(jī)組的生產(chǎn)成本,保證電網(wǎng)的安全穩(wěn)定和經(jīng)濟(jì)運(yùn)行。隨著電力市場(chǎng)的發(fā)展、新能源規(guī)模的擴(kuò)大、信息物理系統(tǒng)的深度融合,短期電力負(fù)荷預(yù)測(cè)在需求響應(yīng)管理、可再生能源消納、信息安全防控等領(lǐng)域正發(fā)揮著越來越重要的作用[1]。

        短期電力負(fù)荷預(yù)測(cè)主要分為以卡爾曼濾波[2]、多元線性回歸[3]為代表的統(tǒng)計(jì)學(xué)方法和以決策樹模型[4]、支持向量機(jī)(support vector machines,SVM)[5]為代表的機(jī)器學(xué)習(xí)方法。深度學(xué)習(xí)作為機(jī)器學(xué)習(xí)的延伸,進(jìn)一步解決上述方法對(duì)于非線性系統(tǒng)存在時(shí)序信息丟失、多維特征挖掘不夠充分的問題[6]。長(zhǎng)短時(shí)記憶 (long short-term memory,LSTM)神經(jīng)網(wǎng)絡(luò)和門控循環(huán)單元(gated recurrent unit,GRU)在循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)結(jié)構(gòu)基礎(chǔ)上對(duì)隱藏層神經(jīng)元間建立連接[7],適用于處理電力負(fù)荷數(shù)據(jù)的時(shí)序特征[8],在此基礎(chǔ)上引入注意力機(jī)制,選擇性關(guān)注重要的輸入數(shù)據(jù),可使模型更容易學(xué)習(xí)序列長(zhǎng)期依賴關(guān)系[9]。文獻(xiàn)[10]發(fā)現(xiàn),對(duì)于多維輸入特征的實(shí)際算例,雙重注意力機(jī)制的GRU模型預(yù)測(cè)精度優(yōu)于單重注意力機(jī)制的卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)-GRU模型。文獻(xiàn)[11]將注意力機(jī)制選擇性關(guān)注隱性狀態(tài)和雙層LSTM對(duì)序列數(shù)據(jù)雙向時(shí)序提取的優(yōu)勢(shì)相結(jié)合,提高了短期電力負(fù)荷預(yù)測(cè)模型的精度。

        Google團(tuán)隊(duì)提出的Transformer網(wǎng)絡(luò)摒棄了循環(huán)神經(jīng)網(wǎng)絡(luò)模型,完全依賴注意力機(jī)制提取序列間的關(guān)聯(lián)性。相比較RNN順序輸入,Transformer方法可將數(shù)據(jù)并行輸入和計(jì)算,其多頭自注意力機(jī)制可將關(guān)聯(lián)性信號(hào)的傳播路徑在理論上減少到最短的O(1)。不同于常規(guī)神經(jīng)網(wǎng)絡(luò)黑箱模型,自注意力機(jī)制具有較好的可解釋性,在自然語言處理中大大提高了翻譯精度[12]。文獻(xiàn)[13]提出一種時(shí)間融合Transformer,在電力負(fù)荷、交通、零售、股票等預(yù)測(cè)領(lǐng)域?qū)崿F(xiàn)顯著的性能提升。文獻(xiàn)[14]提出Informer作為Transformer的變體,采用稀疏注意力機(jī)制和對(duì)注意力層的卷積池化等壓縮操作,提高了長(zhǎng)時(shí)間序列的預(yù)測(cè)精度。

        Transformer模型在提取長(zhǎng)距離關(guān)聯(lián)性上表現(xiàn)出優(yōu)于RNN模型的性能[14,15],理論上當(dāng)注意力層足夠大時(shí)可處理大規(guī)模自然語言處理(NLP)等長(zhǎng)距離相關(guān)性的序列預(yù)測(cè)任務(wù),但需要占用大量計(jì)算資源[16],因此在訓(xùn)練時(shí)需將序列分割為固定長(zhǎng)度并為每個(gè)片段添加相同的位置編碼,導(dǎo)致各分段數(shù)據(jù)間碎片化,限制了其捕獲長(zhǎng)距離特征的能力。

        針對(duì)上述問題,本文提出了一種基于卷積門控循環(huán)單元(Convolutional Gated Recurrent Unit, ConvGRU) -Transformer的短期負(fù)荷預(yù)測(cè)方法。首先提出一種循環(huán)擴(kuò)張自注意力機(jī)制,解決Transformer的分段輸入導(dǎo)致信息碎片化問題,擴(kuò)大注意力的關(guān)注視野。利用ConvGRU對(duì)多特征時(shí)間序列進(jìn)行相對(duì)位置編碼,保持內(nèi)容信息的一致性,提取時(shí)序數(shù)據(jù)的潛在特征。仿真表明,本文方法在長(zhǎng)序列預(yù)測(cè)依然保持較高的精度,與現(xiàn)有典型方法相比具有更高的準(zhǔn)確率。

        1 循環(huán)擴(kuò)張自注意力模型

        1.1 自注意力機(jī)制原理

        注意力機(jī)制模擬人腦的復(fù)雜認(rèn)知功能,人類在關(guān)注圖像信息時(shí),會(huì)下意識(shí)地關(guān)注整個(gè)圖像總體,并將更多注意力資源投入到更多可用的有利信息上,即注意力的焦點(diǎn),以獲得更加豐富的目標(biāo)信息,同時(shí)進(jìn)一步提升獲取目標(biāo)信息的效率與速度[15]。不同于傳統(tǒng)的建立在循環(huán)結(jié)構(gòu)基礎(chǔ)上的注意力機(jī)制[17],Transformer引入了自注意力機(jī)制,可以顯示捕捉序列間的位置關(guān)系。相較于傳統(tǒng)RNN模型,自注意力機(jī)制具有參數(shù)少、計(jì)算速度快、效果更優(yōu)的特點(diǎn)。

        自注意力機(jī)制基于信息提取器將輸入序列XT映射到一組查詢向量QT、鍵向量KT和值向量VT的矢量輸出中[18]。接著計(jì)算QT與KT的相似度作為權(quán)重,對(duì)所有的值向量進(jìn)行加權(quán)求和。采用縮放點(diǎn)積法將上述過程表示為

        [QT,KT,VT]=[WQXT,WKXT,WVXT]

        (1)

        (2)

        式中:WQ∈dk×dmod、WK∈dk×dmod、WV∈dv×dmod為對(duì)應(yīng)于QT∈dk×dt、KT∈dk×dt、VT∈dv×dt的訓(xùn)練參數(shù)矩陣,對(duì)于輸入時(shí)間序列XT∈dmod×dt,dmod表示時(shí)刻t序列的特征維度,如負(fù)荷值、溫度、日期等,dt表示輸入多少個(gè)序列向量。dk為查詢向量和鍵向量的維度,dv為值向量的維度,通過點(diǎn)積的方式將維度為dmod高維信息壓縮到dk、dv以便進(jìn)行相似度計(jì)算。ATTN為自注意力函數(shù)表示;softmax為歸一化指數(shù)函數(shù)。除以是為了抵消較大輸入導(dǎo)致softmax陷入極小梯度區(qū)域的現(xiàn)象。

        多頭注意力是指對(duì)輸入設(shè)置NM個(gè)獨(dú)立的注意力頭并行操作,不同注意力頭關(guān)注數(shù)據(jù)的不同特征維度,最后將輸出結(jié)果拼接并乘以權(quán)重函數(shù)表示:

        ATm=ATTN(QTm,KTm,VTm)

        (3)

        Mhead(XT)=Whead·[AT1;…ATm,…;ANM]

        (4)

        式中:ATm∈dv×dt為注意力頭m的自注意力分布,即式(1)、(2)計(jì)算結(jié)果;Whead∈dmod×NMdv為線性映射矩陣,Mhead(XT)為輸入XT對(duì)應(yīng)的最終自注意力分布。

        1.2 片段循環(huán)擴(kuò)張機(jī)制

        原自注意力結(jié)構(gòu)只能處理固定長(zhǎng)度的時(shí)間序列,即將一個(gè)長(zhǎng)序列截?cái)酁楣潭ㄩL(zhǎng)度的片段,在訓(xùn)練時(shí)對(duì)每個(gè)片段單獨(dú)處理,這將導(dǎo)致第一個(gè)片段的首端序列與第二個(gè)片段的末端序列間將缺乏聯(lián)系。在劃分片段時(shí),通常不考慮序列的潛在規(guī)律。例如對(duì)于以具有星期或月周期性特征的負(fù)荷曲線,數(shù)據(jù)分割的碎片化導(dǎo)致這種長(zhǎng)時(shí)間尺度的特征被破壞。

        受時(shí)序卷積網(wǎng)絡(luò)(Temporal Convolutional Networks, TCN)擴(kuò)張卷積結(jié)構(gòu)啟發(fā),本文提出一種注意力循環(huán)擴(kuò)張結(jié)構(gòu)。訓(xùn)練期間,將之前時(shí)段編碼器的計(jì)算結(jié)果緩存。后續(xù)輸入時(shí),擴(kuò)張機(jī)制允許注意力存在間隔采樣,采樣率由擴(kuò)張因子e控制,其結(jié)構(gòu)如圖1所示。擴(kuò)張因子指的是為上層對(duì)下層層采樣的間隔數(shù),相當(dāng)于在兩個(gè)相鄰的注意力層間加入一個(gè)固定步長(zhǎng)。以分枝數(shù)為3為例,最底層輸入e=1,表示將片段連續(xù)輸入。中間層e=2,表示每個(gè)兩個(gè)片段的固定步長(zhǎng)做一次采樣,層級(jí)越高e的大小越大。擴(kuò)張機(jī)制使得有效窗口的大小隨層數(shù)呈指數(shù)增長(zhǎng),以獲得更大的學(xué)習(xí)視野。

        圖1 自注意力循環(huán)擴(kuò)張結(jié)構(gòu)Fig. 1 Recurrent and dilated structure of self-attention mechanism

        對(duì)于序列X={x1,…,xt,…},擴(kuò)張后的注意力視野為:

        Ascan,e(X)=Concat(XT-(nb-i)e)

        (5)

        式中:e為擴(kuò)張因子;nb為分枝數(shù),e=[1,…,(nb-1)l-1];拼接函數(shù)Concat的功能是將輸入矩陣合并。擴(kuò)張計(jì)算相當(dāng)于在相鄰兩次片段數(shù)據(jù)采集間加入固定的步長(zhǎng),e為增加的步長(zhǎng)大小。

        將l-1層的序列以上述擴(kuò)張規(guī)則拼接后,可得到第l層的鍵向量Kl和值向量Vl。自注意力實(shí)際上是計(jì)算查詢輸入序列得到的Ql和歷史序列得到的Kl之間的關(guān)聯(lián)性,根據(jù)當(dāng)前輸入和與其對(duì)應(yīng)的神經(jīng)網(wǎng)絡(luò)中記憶的規(guī)律預(yù)測(cè)后續(xù)的發(fā)展趨勢(shì),因此Ql通過未經(jīng)拼接的片段直接計(jì)算求得,第l層注意力的計(jì)算公式為

        (6)

        (7)

        (8)

        2 考慮全局特征的位置編碼模型

        2.1 絕對(duì)位置編碼模型

        由于Transformer沒有遞歸層與卷積層,單純的自注意力機(jī)制無法捕捉輸入的順序。Transformer采用正余弦位置編碼與自注意力機(jī)制結(jié)合使用[18],這種編碼方式的優(yōu)點(diǎn)在于擴(kuò)展了編碼長(zhǎng)度,同時(shí)序列間的相對(duì)位置存在線性關(guān)系。

        (9)

        (10)

        式中:t為輸入的序列位置,i表示維度,即矩陣的每個(gè)維度都有對(duì)應(yīng)的位置編碼。式(9)、(10)分別為奇數(shù)列和偶數(shù)列的位置編碼表示。

        正余弦絕對(duì)位置編碼方式主要考慮局部相對(duì)特征,缺乏考慮全局信息。前一個(gè)周期與本周期相同位置使用的是同樣的位置編碼,這使得注意力層不易捕捉序列的潛在變化。且經(jīng)過線性變換和點(diǎn)積運(yùn)算后將導(dǎo)致方向信息丟失[19]。為了保持內(nèi)容與位置的一致性,一些文獻(xiàn)在文獻(xiàn)中在計(jì)算注意力權(quán)重時(shí)引入可訓(xùn)練參數(shù)表示相對(duì)位置提高了及其翻譯質(zhì)量[20],文獻(xiàn)[13]負(fù)荷預(yù)測(cè)時(shí)用LSTM進(jìn)行位置編碼,考慮到需要對(duì)多元數(shù)據(jù)編碼,本文采用卷積門控循環(huán)單元(Convolutional Gated Recurrent Unit,ConvGRU)進(jìn)行位置編碼。

        2.2 基于ConvGRU的位置編碼

        GRU本身具有循環(huán)結(jié)構(gòu)并采用順序輸入的方式,其隱藏層保留了序列的相對(duì)位置信息,本質(zhì)上為一種可訓(xùn)練的相對(duì)位置編碼,能夠反映全局特性,提高預(yù)測(cè)精度。作為為長(zhǎng)短期記憶網(wǎng)絡(luò)LSTM的變體,只保留了更新門和重置門。更新門控制前一時(shí)刻的狀態(tài)信息保留程度,重置門控制當(dāng)前狀態(tài)與先前信息的結(jié)合程度[21]。GRU雖然參數(shù)少、模型簡(jiǎn)單,但保持與LSTM相當(dāng)?shù)男阅?,具有更快的收斂速度?/p>

        ConvGRU在一維GRU基礎(chǔ)上改進(jìn),將激活函數(shù)δ和tanh內(nèi)的全連接運(yùn)算改為卷積運(yùn)算,捕獲多維數(shù)據(jù)的基礎(chǔ)空間特征,其結(jié)構(gòu)如圖2所示。將隱藏層輸出接全連接層作為輸入數(shù)據(jù)的位置編碼結(jié)果,基本計(jì)算公式如下:

        圖2 ConvGRU結(jié)構(gòu)Fig. 2 Schematic diagram of ConvGRU

        (11)

        RT=σ(WR*XT+UR*HT-1)

        (12)

        (13)

        (14)

        Ploc(XT)=ReLU(WHHT+bH)

        (15)

        3 基于ConvGRU-Transformer的負(fù)荷預(yù)測(cè)模型

        3.1 輸入、輸出特征集設(shè)置

        本文模型以影響負(fù)荷預(yù)測(cè)的各種屬性組成的時(shí)間序列特征圖作為網(wǎng)絡(luò)的輸入。出于電力負(fù)荷的日特性,負(fù)荷在每天不同時(shí)刻受外部因素影響的程度會(huì)有所不同,例如負(fù)荷在一些時(shí)刻受其他因素的影響顯著,而在另一些時(shí)段則與歷史負(fù)荷的相關(guān)性更大。從經(jīng)濟(jì)因素的角度,日前邊際電價(jià)和實(shí)時(shí)電價(jià)將影響消費(fèi)者的用電習(xí)慣[22]。此外如溫度、濕度等氣象因素對(duì)負(fù)荷的影響還存在累積效應(yīng)和滯后效應(yīng)[23]。季節(jié)的變遷也會(huì)影響用電類型比重,如夏季的降溫負(fù)荷和農(nóng)業(yè)灌溉負(fù)荷比重更大,冬季取暖負(fù)荷占比更多[22]。其他社會(huì)因素如節(jié)假日和工作日相比電力負(fù)荷有所降低。這都將導(dǎo)致在不同時(shí)間段下,影響負(fù)荷的最優(yōu)特征集可能會(huì)有所差異。

        綜上所述,本文輸入數(shù)據(jù)主要由以下特征組成:歷史負(fù)荷、氣象因素、電價(jià)、時(shí)間特征(月份、當(dāng)月日期、小時(shí))、節(jié)假日信息,共同組成該時(shí)刻的負(fù)荷特征dmod,數(shù)據(jù)結(jié)構(gòu)如圖3所示,負(fù)荷、氣象數(shù)據(jù)采用連續(xù)變量,其余數(shù)據(jù)均為離散變量根據(jù)元素?cái)?shù)采用one-hot編碼,數(shù)據(jù)采樣步長(zhǎng)為1 h。采用滑動(dòng)窗口的方式將時(shí)間序列數(shù)據(jù)生成特征圖輸入。為加快訓(xùn)練速度,對(duì)日負(fù)荷數(shù)據(jù)、溫度、電價(jià)特征等連續(xù)變量采用min-max歸一化到[0, 1]。對(duì)日期特征、節(jié)假日信息等離散變量采用虛擬變量編碼。

        圖3 輸入數(shù)據(jù)結(jié)構(gòu)Fig. 3 Structure of input data

        3.2 預(yù)測(cè)模型結(jié)構(gòu)

        本文提出的負(fù)荷預(yù)測(cè)模型結(jié)構(gòu)如圖4所示,包括輸入層、Nen層編碼器、Nde層解碼器、輸出層。

        (1)輸入層。輸入層將各時(shí)間步的負(fù)荷數(shù)據(jù)和外部特征嵌入表示為Xen=[…,XT,en,…],XTen∈dmod×dt。采用ConvGRU生成全局位置編碼,以加法的方式同嵌入表示合并得到作為編碼器的輸入:

        (16)

        (17)

        (18)

        圖4 ConvGRU-Transformer結(jié)構(gòu)示意圖Fig. 4 Schematic diagram of ConvGRU-Transformer

        (19)

        (20)

        (21)

        式中:W1、W2分別為第一層、第二層可訓(xùn)練權(quán)重,b1、b2為偏置向量。

        最終在經(jīng)過一次層歸一化,得到該層的輸出:

        (22)

        (3) 解碼器。解碼器結(jié)構(gòu)與編碼器類似,由于用于序列預(yù)測(cè),因此單獨(dú)設(shè)置掩碼注意力層。在序列預(yù)測(cè)過程中,僅考慮之前數(shù)據(jù)對(duì)當(dāng)前的影響,后續(xù)信息作為未知數(shù)據(jù)利用函數(shù)掩碼掉,不參與訓(xùn)練[18]。解碼器注意力層的查詢向量Q從下一層中獲得,鍵向量K、值向量V來自編碼器的輸出。解碼器的輸入XTde如下:

        XT,de=Concat(XT,de,token,XT,de,mask)∈dbmod×(dtoken+dmask)

        (23)

        式中:XT,de,token為標(biāo)記序列;XT,de,mask為預(yù)測(cè)序列。為了不在預(yù)測(cè)時(shí)泄露后續(xù)信息,解碼器需對(duì)XT,de,mask掩碼運(yùn)算[26],避免對(duì)預(yù)測(cè)數(shù)據(jù)的影響。解碼器以編碼器滑動(dòng)片段為步長(zhǎng)動(dòng)態(tài)解碼。

        (4) 輸出層。解碼器輸出的特征向量經(jīng)過一個(gè)全連接層運(yùn)算以及Sigmoid壓縮函數(shù),再經(jīng)過逆歸一化處理得到對(duì)應(yīng)于輸入序列的預(yù)測(cè)結(jié)果Y=[y1,…,yT,…]。

        (24)

        3.3 損失函數(shù)

        本文在模型訓(xùn)練階段采用Adam自適應(yīng)矩估計(jì)方法[27]動(dòng)態(tài)優(yōu)化模型參數(shù)。損失函數(shù)采用均方誤差(Mean square error, MSE),計(jì)算輸出和真實(shí)值誤差。

        (25)

        4 算 例

        本文數(shù)據(jù)來源為2014年全球能源預(yù)測(cè)大賽(global energy forecasting competition,GEFCom)的GEFCom2014-E數(shù)據(jù)集[28],該數(shù)據(jù)取自美國(guó)新英格蘭電力系統(tǒng)運(yùn)營(yíng)商2006年至2014年每小時(shí)電力負(fù)荷信息和2004年至2014年每小時(shí)溫度信息。選取2012年1月1日至2013年6月30日為訓(xùn)練集,2013年7月1日至2013年12月31日為驗(yàn)證集,2014年1月1日至2014年6月30日為測(cè)試集,負(fù)荷數(shù)據(jù)和溫度數(shù)據(jù)的整體分布情況如圖5所示,可發(fā)現(xiàn)有較強(qiáng)的周期性規(guī)律。本文實(shí)驗(yàn)仿真環(huán)境包括Inter Core i5-8265U,內(nèi)存:8 GB,主頻:1. 6 GHz,操作系統(tǒng):Windows 10,編譯平臺(tái):Python 3. 6,TensorFlow 2. 4. 0。

        本文選用平均絕對(duì)百分誤差(Mean Absolute Percentage Error, MAPE)和均方根誤差(Root Mean Square Error, RMSE)作為模型性能評(píng)價(jià)指標(biāo)。MAPE作為回歸模型常用性能指標(biāo),綜合考慮了預(yù)測(cè)值與真實(shí)值的誤差以及考慮了誤差與真實(shí)值的比例;RMSE對(duì)偏離較大的值懲罰效果更強(qiáng)。

        圖5 負(fù)荷溫度數(shù)據(jù)Fig. 5 Load and temperature data

        為了兼顧訓(xùn)練速度與模型性能,參考Transformer標(biāo)準(zhǔn)結(jié)構(gòu),ConvGRU-Transformer的編碼器和解碼器均為6層。為在捕獲長(zhǎng)期特征與局部特征上取得均衡,擴(kuò)張分枝數(shù)選3。待選變量集包括負(fù)荷、溫度、趨勢(shì)、日期和節(jié)假日變量。負(fù)荷、溫度、趨勢(shì)為連續(xù)變量,其余變量為離散變量并采用one-hot編碼。趨勢(shì)變量為從1開始累加的線性累加變量。日期變量包括1~24小時(shí)變量、1~7星期變量和1~12月份變量,節(jié)假日變量中周一至周五為工作日,周六、周日為節(jié)假日。表1總結(jié)了針對(duì)每個(gè)預(yù)測(cè)模型所發(fā)現(xiàn)的最佳參數(shù)配置,神經(jīng)網(wǎng)絡(luò)方法的批處理數(shù)一律設(shè)置為24。

        表1 不同預(yù)測(cè)模型參數(shù)配置Tab.1 Parameter configuration of different model

        4.1 模型訓(xùn)練分析

        為直觀反映本文改進(jìn)方案對(duì)原模型訓(xùn)練的影響,采用MAPE作為指標(biāo)反應(yīng)訓(xùn)練效率,如圖6所示。從圖中可以發(fā)現(xiàn),Transformer的訓(xùn)練速度更快,在訓(xùn)練3000次以后MAPE已降到2%以下,ConvGRU-Transformer下降速度要慢得多,且在訓(xùn)練初期波動(dòng)幅度更大。這是由于ConvGRU-Transformer由于需要ConvGRU進(jìn)行全局位置編碼,訓(xùn)練參數(shù)更多;同時(shí)前期需要大量訓(xùn)練以填充擴(kuò)張單元,曲線下降更為平緩。

        圖6 與原結(jié)構(gòu)收斂性對(duì)比Fig. 6 The simulation convergence compared with the original model

        4.2 注意力層可視化表征

        由于自注意力機(jī)制直接描述序列之間的關(guān)聯(lián)性,不需要將其映射到高維空間訓(xùn)練,因此具有良好的可解釋性。這里將注意力矩陣表示為熱圖,如圖7、8所示??v軸范圍為1~16 h,橫軸范圍為-31~16 h,由于仿真采用的時(shí)間窗口為16 h,采樣片段為1~16 h,分枝數(shù)為3,拼接的2個(gè)片段對(duì)應(yīng)的歷史序列為-31~0 h。熱圖顏色深淺表示各時(shí)刻序列之間的相關(guān)性。

        從圖7可以發(fā)現(xiàn)對(duì)于注意力頭1,解碼器1主要關(guān)注第二片段特征,解碼器3更關(guān)注第三片段,解碼器6則在尾部分布了較大的權(quán)重,注意力分布呈現(xiàn)遞進(jìn)關(guān)系。編碼器1、3、6的擴(kuò)張因子分別為,視野分別為48 h、10天和84.67天,說明注意力頭1主要關(guān)注的負(fù)荷、溫度等連續(xù)數(shù)據(jù)在短周期內(nèi)具有較多的局部特征,隨著步長(zhǎng)的增加,數(shù)據(jù)之間的關(guān)聯(lián)性下降,分配的權(quán)重降低。同時(shí)注意力層具有以片段長(zhǎng)度為單位的時(shí)序性規(guī)律變化,解碼器3、解碼器6的前兩個(gè)片段均具有相同的分布趨勢(shì),說明循環(huán)擴(kuò)張結(jié)構(gòu)可有效提取序列的長(zhǎng)期特征。

        圖7 不同注意力層權(quán)重?zé)崃DFig. 7 Weighted heatmap of different attention layers

        結(jié)合圖7 (b)和圖8可以發(fā)現(xiàn),解碼器3注意力頭1和頭3 的權(quán)重主要分布在第三段,注意力頭2則分布更均勻。注意力頭1包含的數(shù)據(jù)和注意力頭3包含的星期、月份數(shù)據(jù)的注意力權(quán)值僅在近期較為集中,說明電力負(fù)荷的預(yù)測(cè)與鄰近星期的負(fù)荷、溫度等數(shù)據(jù)關(guān)聯(lián)性較大,例如上周數(shù)據(jù)將對(duì)本周數(shù)據(jù)預(yù)測(cè)的影響與更早歷史數(shù)據(jù)相比更為重要。注意力頭2包含的小時(shí)、節(jié)假日數(shù)據(jù)的權(quán)重分布更加均勻,說明在同一時(shí)刻的不同日負(fù)荷之間、不同星期的周末之間的數(shù)據(jù)有較強(qiáng)的關(guān)聯(lián),即這些數(shù)據(jù)具有較長(zhǎng)的周期規(guī)律,例如每周間的周末數(shù)據(jù)雖在時(shí)間序列上不連續(xù),但因其關(guān)聯(lián)性較強(qiáng)預(yù)測(cè)時(shí)需著重考慮。

        圖8 不同注意力頭權(quán)重?zé)崃DFig. 8 Weighted heatmap of different attention heads

        4.3 與其他方法對(duì)比

        為驗(yàn)證ConvGRU-Transformer模型在電力負(fù)荷預(yù)測(cè)上的科學(xué)性和有效性,本文將常用于電力負(fù)荷短期預(yù)測(cè)的SVR、LSTM、CNN-LSTM作為對(duì)照模型,對(duì)2014年1月至6月負(fù)荷進(jìn)行日前短期預(yù)測(cè)。記錄每種模型多次實(shí)驗(yàn)后的最優(yōu)結(jié)果如表2所示。

        表2 不同方法預(yù)測(cè)結(jié)果對(duì)比Tab.2 Prediction results of different algorithms

        從表中可以發(fā)現(xiàn),ConvGRU-Transformer預(yù)測(cè)精度優(yōu)于其他方法,MAPE相比其他4種方法分別降低了0.192 %、2.275%、0.877%、0.184%,RMSE相較于其他方法分別降低了 30.151 MW、116.823 MW、50.734 MW、24.946 MW,證明本文方法可有效捕捉多輸入特征和預(yù)測(cè)負(fù)荷間的非線性關(guān)系。循環(huán)擴(kuò)張結(jié)構(gòu)和ConvGRU相對(duì)位置編碼在不降低效能的前提下,大幅度降低了原模型的訓(xùn)練時(shí)間。日負(fù)荷預(yù)測(cè)時(shí)間為0.501 s,適用于電力負(fù)荷短期預(yù)測(cè)。

        圖9為各方法對(duì)一周連續(xù)日負(fù)荷預(yù)測(cè)曲線對(duì)比。從圖中可以看出,SVR預(yù)測(cè)誤差最大,由于僅將負(fù)荷和溫度作為特征輸入,在周特性等長(zhǎng)距離相關(guān)性上表現(xiàn)較差,LSTM在負(fù)荷劇烈波動(dòng)區(qū)域預(yù)測(cè)結(jié)果較差,在周六、周日表現(xiàn)出了較大的波動(dòng),其余三種方法由于可提取數(shù)據(jù)的多元相關(guān)性,曲線的平滑性得到改善。ConvGRU-Transformer由于注意力視野的提升以及位置編碼的連貫性,相較于原方法有效提升了在波峰、波谷處的預(yù)測(cè)精度。

        圖9 不同方法從2014年1月6日到1月12日負(fù)荷預(yù)測(cè)對(duì)比Fig. 9 Comparison of load forecasting from 2014/1/6 to 2014/1/12 by different learning methods

        5 結(jié) 論

        本文提出了一種基于ConvGRU-Transformer電力負(fù)荷預(yù)測(cè)方法,首先采用循環(huán)擴(kuò)張機(jī)制擴(kuò)大模型的注意力視野,再采用ConvGRU網(wǎng)絡(luò)有效提取序列的相對(duì)位置信息。算例仿真結(jié)果表明:循環(huán)擴(kuò)張結(jié)構(gòu)可有效捕獲多維特征輸入數(shù)據(jù)的長(zhǎng)距離特征,結(jié)合對(duì)前序計(jì)算片段隱層狀態(tài)的緩存機(jī)制,在大幅縮短了原模型的訓(xùn)練時(shí)間的同時(shí)有效提高預(yù)測(cè)精度;自注意力機(jī)制較好的可解釋性可直觀反應(yīng)序列的周期性規(guī)律,注意力頭對(duì)不同類型數(shù)據(jù)的采集可分別捕獲其潛在特征,為多元數(shù)據(jù)的相關(guān)性分析、模型的擴(kuò)展提供參考。

        與常規(guī)的神經(jīng)網(wǎng)絡(luò)方法相比,Transformer及其改進(jìn)模型在深度增加時(shí)存在梯度消失的問題,增加了訓(xùn)練難度,且在注意力矩陣稀疏化處理及特征高效提取方面有較大的發(fā)展空間。未來將從信息傳遞、自適應(yīng)學(xué)習(xí)率等角度出發(fā),增加深度模型訓(xùn)練的穩(wěn)定性與收斂速度。

        猜你喜歡
        解碼器注意力編碼
        讓注意力“飛”回來
        科學(xué)解碼器(一)
        基于SAR-SIFT和快速稀疏編碼的合成孔徑雷達(dá)圖像配準(zhǔn)
        科學(xué)解碼器(二)
        科學(xué)解碼器(三)
        《全元詩》未編碼疑難字考辨十五則
        子帶編碼在圖像壓縮編碼中的應(yīng)用
        電子制作(2019年22期)2020-01-14 03:16:24
        線圣AudioQuest 發(fā)布第三代Dragonfly Cobalt藍(lán)蜻蜓解碼器
        Genome and healthcare
        “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
        中文乱码字幕精品高清国产| 午夜亚洲国产精品福利| 亚洲黄片av在线免费观看| 亚洲av区,一区二区三区色婷婷| 精品久久久久久无码中文字幕| 国产偷国产偷亚洲清高| 色婷婷丁香综合激情| 精品熟女视频一区二区三区国产 | 亚洲国产成人aⅴ毛片大全| 日本不卡视频一区二区三区| 久久96国产精品久久久| 国产亚洲精久久久久久无码| 国产在线高清无码不卡| 日本按摩偷拍在线观看| 亚洲精品久久久www小说| 福利片福利一区二区三区| av蜜桃视频在线观看| 亚洲高清国产一区二区| 特黄特色的大片观看免费视频| 手机看片福利盒子久久青| 黄色中文字幕视频网站| 十八禁视频在线观看免费无码无遮挡骂过| 无码骚夜夜精品| 中文乱码字幕高清在线观看| 国产在线观看女主播户外| 久久人人爽爽爽人久久久| 99这里只有精品| 日本在线中文字幕一区二区| 亚洲一区二区三区中国| 午夜三级a三级三点| 亚洲国产成人资源在线桃色| 亚洲精品第四页中文字幕 | 人妻少妇精品视频一区二区三区| 国产精品日日摸夜夜添夜夜添| 精品久久一品二品三品| 亚洲字幕av一区二区三区四区| 国产精品11p| 97超碰中文字幕久久| 女人高潮久久久叫人喷水| 少妇激情av一区二区| 精品粉嫩国产一区二区三区|