亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于頻率分解Transformer的時(shí)間序列長時(shí)預(yù)測模型

        2022-12-11 02:37:56付恩張益農(nóng)楊帆王疏影
        制造業(yè)自動(dòng)化 2022年11期
        關(guān)鍵詞:解碼器頻域注意力

        付恩,張益農(nóng)*,楊帆,王疏影

        (1.北京聯(lián)合大學(xué) 北京市信息服務(wù)工程重點(diǎn)實(shí)驗(yàn)室,北京 100101;2.清華大學(xué)自動(dòng)化系,北京 100084;3.北京聯(lián)合大學(xué) 城市軌道交通與物流學(xué)院,北京 100101)

        0 引言

        時(shí)間序列預(yù)測在多種領(lǐng)域內(nèi)均有重要意義,如工業(yè)監(jiān)控[1]、能源分析[2]等,隨著近些年深度學(xué)習(xí)方法的成功,時(shí)間序列預(yù)測的研究也進(jìn)入了新的階段。

        目前對于時(shí)間序列預(yù)測算法的研究可以大致分為基于時(shí)域的方法與基于頻域的方法。

        基于時(shí)域的方法研究成果最為豐富。循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)[3]由于其結(jié)構(gòu)上的時(shí)序性,天然適合處理時(shí)序數(shù)據(jù)。例如,有研究者將LSTM[8]與傳統(tǒng)遺傳算法相結(jié)合來預(yù)測時(shí)間序列[9]。為了解決RNN結(jié)構(gòu)所帶來的梯度問題以及長距離依賴問題,注意力機(jī)制經(jīng)常與RNN結(jié)構(gòu)共同使用?;陔p階段注意力機(jī)制的RNN模型(DA-RNN)[10]是經(jīng)典的時(shí)序預(yù)測模型,它使用兩層RNN與注意力相結(jié)合的結(jié)構(gòu)進(jìn)行短期時(shí)間序列預(yù)測。自注意力機(jī)制在多種任務(wù)中均具有優(yōu)越性,有研究利用LSTM改進(jìn)標(biāo)準(zhǔn)自注意力機(jī)制,用于提升多變量序列的短期預(yù)測性能[11]。最新的方法中基于Transformer[4]的深度學(xué)習(xí)架構(gòu)在長期預(yù)測問題中取得了很好的效果,如:Informer[6]基于KL散度優(yōu)化了自注意力機(jī)制的復(fù)雜度,提出了稀疏自注意力機(jī)制,并在長期預(yù)測問題上獲得了更好的性能。Autoforme[5]基于隨機(jī)過程自相關(guān)理論提出了自相關(guān)機(jī)制用以取代自注意力機(jī)制,在多組數(shù)據(jù)集上取得了目前最佳的長期預(yù)測效果。

        基于頻域的預(yù)測方法主要利用離散傅里葉變換(DFT)將時(shí)間序列轉(zhuǎn)換至頻域進(jìn)行分析,在信號處理中是十分有效的方法。如StemGNN[7]結(jié)合圖神經(jīng)網(wǎng)絡(luò)對多序列進(jìn)行建模,通過卷積對序列的頻域特征進(jìn)行提取,并結(jié)合序列分解結(jié)構(gòu)逐層學(xué)習(xí)序列的變化模式,取得了更好的中長期預(yù)測效果。

        總的來說,目前基于時(shí)域的方法相較于基于頻域的方法研究成果更多,但最新的一些研究也表明了頻域方法的潛力,基于頻域的預(yù)測方法同樣具有很強(qiáng)的研究價(jià)值。

        但上述的兩類方法均存在不同的問題:

        1)基于時(shí)域的方法容易受到噪聲的影響而難以對序列的宏觀特征進(jìn)行建模,如序列的周期,而宏觀特征對于長期預(yù)測的準(zhǔn)確性至關(guān)重要。

        2)目前基于頻域的方法沒有考慮不同頻率分量的重要性,不同頻率分量對預(yù)測結(jié)果的影響不同,長期預(yù)測受到低頻分量的影響更大,目前缺乏用于長期預(yù)測的、具有針對性的頻域模型。

        為了解決上述的問題,本文從頻域的角度提出了一種基于Transformer[4]的頻率建模方法,針對不同的頻率分量分別進(jìn)行處理,本文的主要貢獻(xiàn)如下:

        1)提出一種頻率分解多頭自注意力模塊,用來對不同頻段的頻率分量針對性地進(jìn)行建模,是自注意力機(jī)制在頻域處理中的新方法。

        2)本文將Tranformer[4]結(jié)構(gòu)作為特征提取框架,基于頻率分解多頭自注意力模塊,設(shè)計(jì)了頻率分解Transformer(FD-Transformer)模型。通過實(shí)驗(yàn)與目前最新的研究成果進(jìn)行了對比,本文的方法在3個(gè)真實(shí)數(shù)據(jù)集的多個(gè)指標(biāo)上取得了最佳性能。

        1 模型架構(gòu)

        本節(jié)將介紹所提出的FD-Transformer的輸入、預(yù)處理、頻率分解多頭自注意力模塊以及模型總體架構(gòu)。

        1.1 問題定義

        給定輸入序列Xt∈Rn×t,由n條長度為t的序列構(gòu)成。定義Yl∈Rk×l為輸出序列,其中1≤k≤n,由k條長度為l的變量構(gòu)成,Yl為Xt的預(yù)測值,數(shù)學(xué)形式如下:

        其中F(*)為映射函數(shù),即模型的學(xué)習(xí)目標(biāo)。

        1.2 預(yù)處理

        為了獲取輸入序列的頻域特征,首先需要使用離散傅里葉變換(DFT)對輸入序列進(jìn)行預(yù)處理。

        編碼器輸入:如圖所示,xt為n條輸入序列的時(shí)域表示,時(shí)間長度為t,wt為輸入序列的頻域表示,由組頻率分量構(gòu)成。由于傅里葉變換結(jié)果的對稱性,在此處只取單邊頻譜作為編碼器的輸入。wt中的虛部與實(shí)部會(huì)被堆疊在最后一維作為整體傳入模型。具體的維度變化如圖1。

        圖1 預(yù)處理過程

        解碼器輸入:由于時(shí)間序列的時(shí)間動(dòng)態(tài)性,越靠近預(yù)測點(diǎn)的時(shí)間段越具有參考性,此處將輸入序列的后一半提取,進(jìn)行相似操作表示xt的后一半時(shí)域序列,為的頻域表示,由t/2組頻率分量構(gòu)成,與編碼器相同,取單邊頻譜作為解碼器輸入。

        設(shè)有t長度的n條序列同時(shí)作為輸入,即xt為(n,t)的實(shí)矩陣,經(jīng)過離散傅里葉變換之后得到的wt為(n,t)的復(fù)矩陣,為了使得該矩陣便于運(yùn)算,將其實(shí)部與虛部分別提取并堆疊,再取其單邊頻譜,最終的wt/2的維度為(n,t/2,2),其中最后一維的2代表復(fù)矩陣的實(shí)部與虛部,同理可得

        經(jīng)過上述預(yù)處理,得到了wt/2和分別作為編碼器與解碼器的輸入。

        1.3 頻率分解多頭自注意力模塊

        時(shí)間序列的不同頻率分量中的低頻部分構(gòu)成了序列的趨勢信息,而中高頻部分包含了噪聲以及細(xì)節(jié)信息。針對這一特點(diǎn),設(shè)計(jì)了頻率分解多頭自注意力模塊。受到標(biāo)準(zhǔn)多頭自注意力機(jī)制的啟發(fā),頻率分解多頭自注意力機(jī)制通過多個(gè)頭分別處理不同頻率段的特征,與多頭自注意力機(jī)制不同的是,頻率分解多頭自注意力機(jī)制的目的是尋找不同頻率分量之間的依賴關(guān)系。模塊的整體結(jié)構(gòu)如圖2所示。

        圖2 頻率分解多頭自注意力

        其中,w為輸入的頻域特征,形狀為(d,w,2),其中d為特征維度,w為頻率維度,2為頻率的虛部與實(shí)部,將w由低頻到高頻分為多個(gè)區(qū)間,每個(gè)區(qū)間長度逐級遞增??梢员WC低計(jì)算量的前提下使低頻部分特征干擾項(xiàng)更少。每個(gè)頻率區(qū)間分別輸入到獨(dú)立的自注意力層形成多頭結(jié)構(gòu)。其中Conv是貫穿全模塊的線性映射層,由堆疊的二維卷積構(gòu)成,為了降低模型計(jì)算量,第一個(gè)卷積層采用深度可分離卷積,卷積核寬度隨著頻率區(qū)間的增大而增大,其中表示頻率區(qū)間下標(biāo),第二個(gè)卷積層為標(biāo)準(zhǔn)卷積,使用Leaky RELU作為激活函數(shù)。各個(gè)頻率區(qū)間的處理結(jié)果通過連接(Concat)操作拼接在一起,拼接后的形狀保持為(d,w,2)。最后使用Conv模塊對輸出做整體映射。

        1.4 模型整體架構(gòu)

        基于上述的預(yù)處理方法和頻率分解多頭自注意力機(jī)制,本小節(jié)將介紹模型的整體結(jié)構(gòu),如圖3所示。

        圖3 模型整體結(jié)構(gòu)

        Conv層作為基本映射單元貫穿整個(gè)模型。由于頻率特征不同頻率分量的振幅差異大,導(dǎo)致頻率特征內(nèi)部方差較大,不利于模型收斂,因此使用LayerNorm對頻率特征歸一化消除過大方差對模型訓(xùn)練的影響。最終,解碼器的輸出特征經(jīng)過Conv層后做反傅里葉變換,得到最終的預(yù)測結(jié)果。

        圖3中,Conv層結(jié)構(gòu)與圖4中的結(jié)構(gòu)相同,用于處理頻率特征,并保持頻率特征長度不變。編碼器與解碼器在輸入前分別存在Conv與Conv &Linear輸入層,Conv層將輸入的變量維度擴(kuò)展至指定的高維空間。例如,模型維度為m,輸入wt/2經(jīng)過Conv層后轉(zhuǎn)變?yōu)榻獯a器輸入前的線性層將輸入的頻率特征長度擴(kuò)展至所需的預(yù)測長度,實(shí)現(xiàn)一次前向傳播得到整個(gè)預(yù)測序列。例如,預(yù)測長度為l,則解碼器輸入經(jīng)過Conv+Linear層后轉(zhuǎn)變?yōu)?/p>

        2 實(shí)驗(yàn)

        本節(jié)通過實(shí)驗(yàn)驗(yàn)證所提出的FD-Transformer的有效性。

        2.1 數(shù)據(jù)集與模型衡量指標(biāo)

        1)Electricity數(shù)據(jù)集,該數(shù)據(jù)集包含2012年至2014年321個(gè)客戶的每小時(shí)用電量。

        2)Weather數(shù)據(jù)集,該數(shù)據(jù)集包含21個(gè)氣象指標(biāo),每十分鐘記錄一次。

        3)Traffic數(shù)據(jù)集來自美國加利福尼亞交通部,利用位于舊金灣區(qū)高速公路上的傳感器記錄了每小時(shí)的道路占用率。

        我們使用均方誤差(MSE)、平均絕對誤差(MAE)以及皮爾遜相關(guān)系數(shù)(CORR)來衡量模型的性能,其表達(dá)式如下:

        其中,Y為真實(shí)值序列,為預(yù)測序列,cov為協(xié)方差,σ為標(biāo)準(zhǔn)差。目前的長時(shí)序列預(yù)測研究中通常只關(guān)注MSE與MAE,但這是不夠全面的。MSE與MAE容易受到序列高頻部分的影響,因此我們通過皮爾遜相關(guān)系數(shù)(CORR)重點(diǎn)衡量低頻趨勢的預(yù)測能力,再綜合MSE與MAE,可以更加客觀的反映出模型性能的優(yōu)劣。MSE與MAE越小代表模型性能越好,CORR越接近1代表模型性能越好。

        2.2 實(shí)驗(yàn)結(jié)果與分析

        2.2.1 基線模型

        我們選擇3個(gè)基于時(shí)域的模型與1個(gè)基于頻域的模型作為基線模型。

        Autoformer:目前的最佳長序列預(yù)測模型,Autoformer基于Transformer結(jié)構(gòu)額外引入了改進(jìn)的序列級自相關(guān)機(jī)制,其在多個(gè)數(shù)據(jù)集上均取得了最佳的長期預(yù)測效果。

        Informer:基于KL散度設(shè)計(jì)了稀疏自注意力機(jī)制,大幅度減少了標(biāo)準(zhǔn)自注意力機(jī)制的計(jì)算量,在時(shí)間復(fù)雜度上達(dá)到了(nlogn),并且可以一次性生成多步序列預(yù)測結(jié)果。

        StemGNN:基于圖神經(jīng)網(wǎng)絡(luò)(GNN)對多變量序列進(jìn)行建模,并在頻域中捕捉序列特征。

        實(shí)驗(yàn)中Autoformer、Informer與StemGNN均使用作者默認(rèn)配置。

        LSTM:LSTM為編解碼器結(jié)構(gòu),編碼器、解碼器各2層,模型隱層維度為256,每層使用20%的dropout避免過擬合。

        2.2.2 實(shí)驗(yàn)結(jié)果

        本文跟隨Autoformer的實(shí)驗(yàn)設(shè)置,給定輸入序列長度為96,預(yù)測長度分為96、192、336和720。本文模型的編碼器與解碼器層數(shù)為2,頻率從低頻到高頻依次劃分為4組,分別為[0,6%]、[6%,20%]、[20%,50%]、[50%,100%],模型訓(xùn)練迭代次數(shù)為10次,batch大小為32,模型隱層維度為512,初始學(xué)習(xí)率為5×10-4,每2次迭代將學(xué)習(xí)率減小1/2。

        模型的預(yù)測性能對比如表1所示。我們的模型在3個(gè)數(shù)據(jù)集的相關(guān)系數(shù)(CORR)指標(biāo)上均取得了最優(yōu)結(jié)果,即本文的模型擁有更穩(wěn)定的長期預(yù)測性能。通過注意力機(jī)制本身的稀疏性,模型可以從高頻分量中提取到更加本質(zhì)的高頻特征,所以對于MSE與MAE,模型也取得了大部分的最優(yōu)性能。在結(jié)果中只有LSTM是迭代生成預(yù)測的模型,隨著預(yù)測長度的增加,誤差累積導(dǎo)致的預(yù)測性能下降最為明顯。Autoformer在更加反映低頻趨勢的CORR指標(biāo)上表現(xiàn)一般。

        表1 多變量序列預(yù)測結(jié)果對比

        所有模型的輸入長度為96,每個(gè)數(shù)據(jù)集的預(yù)測長度分為96、192、336和720共4組。

        2.3 超參數(shù)敏感性分析

        本節(jié)對頻率分解注意力機(jī)制中最重要的超參數(shù)頻率劃分區(qū)間與對模型的影響進(jìn)行實(shí)驗(yàn)驗(yàn)證。

        頻率劃分區(qū)間選取不同的劃分策略如表2所示。

        表2 用于實(shí)驗(yàn)的頻率劃分策略

        表2中的區(qū)間*代表不同的區(qū)間號,每個(gè)區(qū)間對應(yīng)本文注意力層中的一個(gè)“頭”。區(qū)間含義[0,2%]代表頻率段的前2%的劃分為一組,[50%,100%]代表頻率段的后50%劃分為一組。策略1到策略4的低頻部分逐漸增大。實(shí)驗(yàn)輸入序列長度96,預(yù)測長度336,其余超參數(shù)設(shè)置與4.2.2節(jié)相同。4組劃分策略實(shí)驗(yàn)結(jié)果如表3示所示。

        由于序列低頻分量對中長期預(yù)測的重要性,更細(xì)粒度的低頻劃分區(qū)間有助于幫助模型獲取更詳細(xì)的低頻特征。但過細(xì)的粒度會(huì)強(qiáng)迫模型使用更多的低頻特征,限制模型的靈活性,因此,并非粒度越細(xì)越好,從表3中可以看到,策略2的劃分方式最佳。此外,模型穩(wěn)定性較好,以最優(yōu)指標(biāo)為基準(zhǔn),MSE、MAE和CORR指標(biāo)波動(dòng)幅度分別為:在Electricity數(shù)據(jù)集上為2.6%,2.5%,3.1%,Weather數(shù)據(jù)集上度為12.5%,4.2%,16.8%,Traffic數(shù)據(jù)集上為6.3%,8.5%,2%。

        表3 不同頻率劃分策略的效果差異

        3 結(jié)語

        本文提出了一種頻率分解自注意力機(jī)制,通過自注意力機(jī)制提取用于中長期預(yù)測的頻率特征。由于頻域本身描述了序列宏觀的特征模式,相比于時(shí)域,頻域分析對于中長期序列預(yù)測更有優(yōu)勢,通過針對高頻低頻別分建??梢杂行^(qū)分序列中的趨勢與噪聲?;陬l率分解自注意力機(jī)制本文提出了一種改進(jìn)的Transformer架構(gòu)用于處理頻域特征,主要通過特殊設(shè)置的二維卷積模塊替代線性變換層保證頻率特征維度正確同時(shí)擁有更少的參數(shù)量。通過編碼器、解碼器結(jié)構(gòu)協(xié)助模型進(jìn)一步學(xué)習(xí)序列的變化模式。在Traffic、Weather和Electricity共3組公開數(shù)據(jù)集上與目前最新的研究成果Autoformer在內(nèi)的共4個(gè)基線模型進(jìn)行了對比,本文提出的方法在多組指標(biāo)上提升明顯,驗(yàn)證了本文模型在中長期序列預(yù)測問題中的有效性。

        猜你喜歡
        解碼器頻域注意力
        讓注意力“飛”回來
        科學(xué)解碼器(一)
        科學(xué)解碼器(二)
        科學(xué)解碼器(三)
        線圣AudioQuest 發(fā)布第三代Dragonfly Cobalt藍(lán)蜻蜓解碼器
        頻域稀疏毫米波人體安檢成像處理和快速成像稀疏陣列設(shè)計(jì)
        “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
        傳媒評論(2017年3期)2017-06-13 09:18:10
        A Beautiful Way Of Looking At Things
        基于改進(jìn)Radon-Wigner變換的目標(biāo)和拖曳式誘餌頻域分離
        一種基于頻域的QPSK窄帶干擾抑制算法
        国产亚洲精品色婷婷97久久久 | 国产一区二区三区不卡视频| 性欧美长视频免费观看不卡| 无套内射蜜桃小视频| 91亚洲国产三上悠亚在线播放| 精品国产污黄网站在线观看 | 啦啦啦www在线观看免费视频| 男女扒开双腿猛进入免费看污 | 国产一区二区三区18p| 少妇高潮av久久久久久| 色翁荡息又大又硬又粗又视频图片| 在线观看国产三级av| 99视频一区二区日本| 免费国产黄网站在线观看视频| 黄色视频在线免费观看| 免费无遮挡毛片中文字幕| 丰满老熟女性生活视频| 亚洲一区二区视频免费看| 亚洲精品国产电影| 国产无遮挡裸体免费视频| 国产午夜激情视频自拍| 白白色视频这里只有精品| 中文字幕日韩三级片| 五十路熟久久网| 国产毛片一区二区三区| 国产美女主播视频一二三区 | 亚洲 日本 欧美 中文幕| 曰本极品少妇videossexhd| 在线观看av片永久免费| 亚洲一区二区三区偷拍厕所| 亚洲精品久久久久中文字幕一福利| 91白浆在线视频| 日韩一区二区中文天堂| 高清精品一区二区三区| 麻豆91免费视频| 中文字幕人成乱码中文| 亚洲欧美v国产一区二区| 特级毛片a级毛片在线播放www| 日本福利视频免费久久久 | 中文字幕人妻av一区二区| 国产做国产爱免费视频|