陳孝文,蘇 攀,李夏青,張 俊,王 林
(1.湖北中煙工業(yè)有限責(zé)任公司,湖北 武漢 430040;2.湖北省社會(huì)科學(xué)院經(jīng)濟(jì)研究所,湖北 武漢 430077;3.華中科技大學(xué) 管理學(xué)院,湖北 武漢 430074)
隨著大數(shù)據(jù)時(shí)代的到來,當(dāng)前的預(yù)測研究能夠在復(fù)雜的決策情境下,結(jié)合大量數(shù)據(jù)學(xué)習(xí)構(gòu)建分析系統(tǒng),對真實(shí)世界數(shù)據(jù)的分布做出模擬。預(yù)測問題無處不在,如產(chǎn)品供給需求預(yù)測、糧食霉變預(yù)測、電力產(chǎn)能預(yù)測、輿論周期預(yù)測等。然而,由于預(yù)測需求的多樣化,傳統(tǒng)的數(shù)據(jù)處理方法已經(jīng)很難滿足要求。因此,需要提出精度更準(zhǔn)、數(shù)據(jù)處理效率更高、泛化能力更強(qiáng)的預(yù)測方法。
關(guān)于預(yù)測模型,已有學(xué)者做出大量研究并應(yīng)用于各類領(lǐng)域。WANG等[1]結(jié)合經(jīng)驗(yàn)?zāi)P头纸夂腿斯ぶ悄苣P蛯︼L(fēng)速進(jìn)行預(yù)測,得出混合模型能提高預(yù)測精度的結(jié)論。FAN等[2]提出了一種用于多視距時(shí)間序列預(yù)測的端到端深度學(xué)習(xí)預(yù)測模型,并在兩個(gè)不同領(lǐng)域的大規(guī)模預(yù)測數(shù)據(jù)集上證明了該模型的有效性。LI等[3]提出用變換器來解決時(shí)間序列預(yù)測問題。LUNDBERG等[4]提出了一個(gè)解釋預(yù)測模型SHAP,其能為每個(gè)特征分配一個(gè)特定預(yù)測的重要值。RIBEIRO等[5]將新的解釋技術(shù)LIME加入到解釋模型中,通過解釋文本和圖像分類等不同模型驗(yàn)證了方法的靈活性。冉靖等[6]對ARIMA等概率統(tǒng)計(jì)模型、支持向量機(jī)等機(jī)器學(xué)習(xí)模型、深度學(xué)習(xí)模型、模型分解方法等基本預(yù)測方法和組合預(yù)測方法進(jìn)行對比分析,總結(jié)了各類方法的優(yōu)點(diǎn)和局限性。張莉等[7]利用改進(jìn)的GARCH-MIDAS模型提高了股票波動(dòng)率的預(yù)測性能。李潔等[8]構(gòu)建了基于長短時(shí)記憶網(wǎng)絡(luò)(LSTM)的高速鐵路客流預(yù)測模型,證明了LSTM 客流模型比其他模型預(yù)精度更高。楊青等[9]基于深度神經(jīng)網(wǎng)絡(luò)優(yōu)化技術(shù)構(gòu)造了一個(gè)深層LSTM神經(jīng)網(wǎng)絡(luò),并將其應(yīng)用于全球30個(gè)股票指數(shù)3種不同期限的預(yù)測研究。郭金錄[10]提出了融合變分模態(tài)分解(VMD)、集合經(jīng)驗(yàn)?zāi)B(tài)分解二層分解技術(shù)及長短期記憶深度神經(jīng)網(wǎng)絡(luò)的滬深300股指收益率組合預(yù)測模型。崔煥影等[11]基于經(jīng)驗(yàn)?zāi)B(tài)分解算法(EMD)、遺傳算法(GA)、神經(jīng)網(wǎng)絡(luò)(BP)等模型及其組合預(yù)測模型,對中國碳市場交易價(jià)格進(jìn)行短期預(yù)測和長期預(yù)測。
目前,已有模型大多數(shù)是“黑盒”模型,即由各參數(shù)之間復(fù)雜的非線性交互來產(chǎn)生預(yù)測結(jié)果。此類模型的問題在于難以解釋模型的預(yù)測過程,無法判斷模型求解結(jié)果的可靠性。而常用的深度神經(jīng)網(wǎng)絡(luò)(DNN)解釋方法又不適用于時(shí)間序列,后置方法也沒有考慮輸入特征的時(shí)間或延遲。在時(shí)間序列中時(shí)間步之間的相關(guān)性通常較為顯著,所以后置方法會(huì)降低解釋的質(zhì)量。也有學(xué)者提出了一種基于注意力的預(yù)測模型,可以用來解釋時(shí)序數(shù)據(jù)。不同于其他模型,多視界預(yù)測包含許多不同類型的輸入特征,可為多視界預(yù)測提供相關(guān)的時(shí)間步,但不能在給定的時(shí)間步中標(biāo)注不同特征的重要性。因此,需要新方法來解決多維水平預(yù)測中數(shù)據(jù)的異構(gòu)性,并使這些預(yù)測具有可解釋性。
綜上,筆者提出了一種結(jié)合變分模態(tài)分解 (variational mode decomposition,VMD)和時(shí)域融合變換器(temporal fusion transformer,TFT)的預(yù)測模型,VMD用于充分挖掘原始數(shù)據(jù)特征,TFT模型能在保證高性能預(yù)測的同時(shí)為預(yù)測過程提供一定的解釋。最后,以白卡紙價(jià)格數(shù)據(jù)為例,驗(yàn)證所提模型的可行性,并給出可解釋性的預(yù)測過程。
變分模態(tài)分解是一種自適應(yīng)、完全非遞歸的模態(tài)變分和信號處理的方法,可以根據(jù)實(shí)際情況確定所給序列的模態(tài)分解個(gè)數(shù),通過匹配每種模態(tài)的最佳中心頻率和有限帶寬,實(shí)現(xiàn)固有模態(tài)分量(IMF)的有效分離和信號的頻域劃分,得到給定信號的有效分解成分,最終獲得變分問題的最優(yōu)解。時(shí)域融合變換器 是一種基于注意力的多視界預(yù)測深度學(xué)習(xí)神經(jīng)模型,結(jié)合了高性能的多元預(yù)測與時(shí)態(tài)動(dòng)力學(xué)的可解釋洞察。TFT使用遞歸層進(jìn)行局部處理,使用可解釋的自我注意層進(jìn)行長期依賴,從而學(xué)習(xí)不同尺度下的時(shí)間關(guān)系。TFT利用特定的組件來選擇相關(guān)的特征,并利用一系列的門控層來抑制不必要的特征,從而在各個(gè)場景中均保持較高性能。
VMD是DRAGOMIRETSKIY和ZOSSO[12]于2014年提出的一個(gè)完全非遞歸的模型,可捕獲原始數(shù)據(jù)的不規(guī)則特征,是一種有效的信號分解方法,比經(jīng)驗(yàn)?zāi)B(tài)分解(EMD)具有更好的適應(yīng)性和分解效果。在VMD中,原信號f(t)被VMD分解成多個(gè)子模態(tài)uk,k=1,2,…,K,每個(gè)子模態(tài)都有一個(gè)中心頻率ωk。VMD的目標(biāo)函數(shù)是使各子模態(tài)的頻帶寬度之和最小,約束條件為各子模態(tài)的頻帶寬度之和等于原始信號。
(1)
式中:j為虛數(shù)單位;t為迭代次數(shù);K為子模態(tài)數(shù);δ(t)為Dirac分布;*為卷積。
然后,通過引入二次懲罰項(xiàng)alpha和拉格朗日乘子λ(t),將約束問題轉(zhuǎn)化為無約束問題,從而得出上述問題的最優(yōu)解。alpha可以保證在高斯噪聲存在的情況下精確地重構(gòu)子模態(tài),λ(t)可以保證無約束問題等價(jià)于有約束問題。其中,無約束問題可以描述為:
(2)
(3)
(4)
(5)
(6)
式中:τ為更新后的參數(shù);ε為計(jì)算精度。
(7)
式中:f(t)為原始信號序列;uk(t)為分解后的子模態(tài);K為子模態(tài)數(shù);Ns為樣本個(gè)數(shù)。根據(jù)以往經(jīng)驗(yàn),當(dāng)rres沒有明顯下降趨勢時(shí),模態(tài)數(shù)即可確定。
時(shí)域融合變換器是谷歌云人工智能團(tuán)隊(duì)提出的一種內(nèi)在可解釋的多視界的時(shí)間序列預(yù)測深度學(xué)習(xí)模型,比一般黑盒模型具有更強(qiáng)的解釋能力。多水平預(yù)測問題通常包含復(fù)雜的輸入,包括靜態(tài)協(xié)變量、已知的未來輸入和其他只有在歷史上觀察到的外生時(shí)間序列,而TFT將高性能的多水平預(yù)測與可解釋的見解相結(jié)合。利用靜態(tài)協(xié)變量編碼器來編碼上下文向量;利用門控機(jī)制和依賴于樣本的變量選擇,最大程度地減少無關(guān)輸入;序列到序列層,用于本地處理已知和觀察到的輸入;時(shí)間自注意解碼器,用于了解數(shù)據(jù)集中存在的任何長期依存關(guān)系。TFT的模型架構(gòu)如圖1所示。TFT能夠高效使用規(guī)范組件為每種輸入類型構(gòu)建特征表示,從而提高各種預(yù)測問題的預(yù)測性能。
圖1 時(shí)域融合變換器的模型結(jié)構(gòu)
TFT包括5個(gè)主要組成部分,即門控機(jī)制、變量選擇網(wǎng)絡(luò)、靜態(tài)協(xié)變量編碼器、時(shí)間處理和多水平預(yù)測區(qū)間預(yù)測。①門控機(jī)制,它的功能是跳過架構(gòu)中所有未使用的組件,提供自適應(yīng)深度和網(wǎng)絡(luò)復(fù)雜性,以適應(yīng)不同的數(shù)據(jù)集和場景。②變量選擇網(wǎng)絡(luò),在每個(gè)時(shí)間步長選擇相應(yīng)的輸入變量。③靜態(tài)協(xié)變量編碼器,將靜態(tài)特征集成到網(wǎng)絡(luò)中,通過編碼上下文向量來約束時(shí)間動(dòng)態(tài)。④時(shí)間處理,從觀察值或已知時(shí)變輸入中學(xué)習(xí)長期或短期的時(shí)間關(guān)系。序列到序列層用于本地處理,而長期項(xiàng)取決于一個(gè)新的可解釋的多頭注意塊捕獲的使用。⑤多水平預(yù)測區(qū)間預(yù)測,通過分位數(shù)預(yù)測來確定每個(gè)預(yù)測區(qū)間內(nèi)可能的目標(biāo)值的范圍。
1.2.1 控制機(jī)制
門控殘差網(wǎng)絡(luò)(GRN)能夠使模型的變量與目標(biāo)之間的非線性運(yùn)算更加靈活。GRN包含主輸入a和可選上下文c兩種類型的輸入。
GRNω(a,c)=LayerNorm(a+GLUω(η1))
(8)
η1=W1,ωη2+b1,ω
(9)
η2=ELU(W2,ωa+W3,ωc+b2,ω)
(10)
式中:ELU為指數(shù)線性單元激活函數(shù);η1和η2為中間層,η1、η2∈Rdmodel;dmodel為隱藏狀態(tài)大小;LayerNorm表示標(biāo)準(zhǔn)層歸一化;ω為權(quán)重共享;W(.)為權(quán)重,W(.)∈Rdmodel×dmodel。
基于門控線性單元(GLUs)的組件門控層可以提供彈性,以抑制給定數(shù)據(jù)集不需要的任何體系結(jié)構(gòu)。
GLUω(γ)=σ(W4,ωγ+b4,ω)⊙(W5,ωγ+b5,ω)
(11)
式中:γ為輸入?yún)?shù),γ∈Rdmodel;σ(.)為sigmoid激活函數(shù);b(.)為偏差,b(.)∈Rdmodel;⊙為元素Hadamard的乘積。GLU允許TFT控制GRN對初始輸入的貢獻(xiàn)度。
1.2.2 變量選擇網(wǎng)絡(luò)
Vxt=Softmax(GRNVx([I]t,cs))
(12)
(13)
(14)
1.2.3 可解釋的多頭注意力
TFT采用自注意機(jī)制學(xué)習(xí)不同時(shí)間步長之間的長期關(guān)系,該機(jī)制對基于變換器的多頭注意結(jié)構(gòu)進(jìn)行了改進(jìn),增強(qiáng)了可解釋性。一般來說,基于Q∈RN×dattn與鍵K∈RN×dattn之間的關(guān)系,注意機(jī)制將V∈RN×dV的值標(biāo)度如下:
Attention(Q,K,V)=A(Q,K)V
(15)
式中:N為輸入注意層的時(shí)間步長;A()為歸一化函數(shù)。針對注意力值,尺度點(diǎn)積通常采用如下方法:
(16)
注意機(jī)制的學(xué)習(xí)能力采用多頭注意方法,對不同的表示子空間采用不同的注意頭:
MultiHead(Q,K,V)=[H1,H2,…,HmH]WH
(17)
(18)
考慮到每個(gè)頭使用不同的值,單一注意力權(quán)重不能表明特定特征的重要性。因此,將多頭注意力修改為每個(gè)頭的共享值,并對所有頭進(jìn)行相加聚合:
(19)
(20)
1.2.4 分位數(shù)輸出和損失函數(shù)
TFT通過同時(shí)預(yù)測每個(gè)時(shí)間步的不同百分位數(shù)(如10、50和90)來生成點(diǎn)預(yù)測區(qū)間。分位數(shù)預(yù)測則是利用時(shí)域融合解碼器的線性變換輸出產(chǎn)生。采用聯(lián)合最小化分位數(shù)損失來訓(xùn)練TFT,并將所有分位數(shù)的輸出相加,具體方法如下:
(21)
(22)
白卡紙是由純優(yōu)質(zhì)木漿制成的白色卡紙,主要用于包裝裝潢用的印刷承印物,有較高的挺度、耐破度和平滑度。白卡紙作為產(chǎn)品包裝紙和塑料的主要替代品,隨著食品、3C產(chǎn)品、化妝品銷量的逐年增長,以及 2021年1月1日“禁塑令”的推出,白卡紙的價(jià)格經(jīng)歷了快速拉升,又急速下跌的“火與冰”的行情。準(zhǔn)確預(yù)測白卡紙價(jià)格不僅具有重要的現(xiàn)實(shí)意義,也具有較高的挑戰(zhàn)性。因此,筆者以白卡紙價(jià)格為例,進(jìn)行VMD-TFT可解釋預(yù)測模型的應(yīng)用研究。
白卡紙價(jià)格數(shù)據(jù)來源于《造紙信息》期刊(http://zzxx.ijournals.cn/)每月發(fā)布的各品牌白卡紙的均價(jià)。其中,2010年1月到2020年12月的白卡紙價(jià)格數(shù)據(jù)為訓(xùn)練集,2021年1月到2021年9月的白卡紙價(jià)格數(shù)據(jù)為測試集。2010年1月—2021年9月白卡紙價(jià)格如圖2所示,可以看出受原材料紙漿價(jià)格上漲的影響,自2020年9月白卡紙價(jià)格節(jié)節(jié)攀登,至2021年5月白卡紙價(jià)格才開始回落。
圖2 2010年1月—2021年9月白卡紙價(jià)格
運(yùn)用均方誤差(RMSE)、平均絕對百分比誤差(MAPE)和平均絕對誤差(MAE)3個(gè)指標(biāo)計(jì)算測試集的精度:
(23)
(24)
(25)
(1)單因素預(yù)測。使用向量自回歸(VAR)模型來選擇每月白卡紙價(jià)格預(yù)測合適的滯后階數(shù)。VAR模型選擇滯后階數(shù)采用4個(gè)推薦指標(biāo):赤池信息量準(zhǔn)則(Akaike information criterion,AIC)、貝葉斯信息準(zhǔn)則(Bayesian information criterion,BIC)、最終預(yù)報(bào)誤差準(zhǔn)則(final prediction error,F(xiàn)PE)和Hannan-Quinn信息準(zhǔn)則(HQIC)。VAR 模型的結(jié)果如表1所示,AIC、FPE、HQIC皆推薦12為滯后階數(shù),即用滯后12個(gè)月的白卡紙價(jià)格來預(yù)測當(dāng)月的白卡紙價(jià)格最合適。采用網(wǎng)格搜索法來尋找模型最優(yōu)的參數(shù)組合,通過多次實(shí)驗(yàn),設(shè)置時(shí)域融合TFT模型的參數(shù)為:學(xué)習(xí)速率為0.3,注意頭的數(shù)量為1,隱藏層數(shù)為16,隱藏連續(xù)數(shù)為8,每次迭代數(shù)據(jù)集大小為32。單因素TFT的預(yù)測結(jié)果顯示MAPE為18.02%,預(yù)測效果較差。為應(yīng)對單因素模型預(yù)測性能低的問題,筆者考慮使用VMD分解模型對原始序列進(jìn)行分解,以更充分地提取數(shù)據(jù)的特征。
表1 白卡紙價(jià)格滯后階數(shù)的選擇
(2)VMD-TFT多因素可解釋預(yù)測模型。為了減少白卡紙價(jià)格序列的非平穩(wěn)特性,采用VMD方法將原始價(jià)格序列分解為多個(gè)子模態(tài)。經(jīng)過數(shù)次實(shí)驗(yàn)后,將分解的子模態(tài)數(shù)目定為4,分解后的子序列能取得較好的預(yù)測效果。分解后的子序列如圖3所示,低頻子模態(tài)代表了原始白卡紙價(jià)格序列的總體趨勢,高頻子模態(tài)則反映了局部的波動(dòng)趨勢,能很好地反映價(jià)格波動(dòng)的拐點(diǎn)。經(jīng)過VMD提取后的子序列比原數(shù)據(jù)更加平滑,有利于提高白卡紙價(jià)格預(yù)測的性能。
圖3 2010年1月—2021年9月白卡紙價(jià)格原序列及VMD分解后的子序列
為驗(yàn)證所提出的時(shí)域融合TFT模型的預(yù)測效果,選用流行的BP神經(jīng)網(wǎng)絡(luò)(BPNN)、支持向量機(jī)(SVM)、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)、長短期神經(jīng)網(wǎng)絡(luò)(LSTM)和門控循環(huán)神經(jīng)網(wǎng)絡(luò)(GRU)作為對比算法。與單因素模型滯后12個(gè)月保持一致,多因素預(yù)測的滯后階數(shù)也選擇12個(gè)月。所有模型均通過Python軟件進(jìn)行編碼。經(jīng)過多組實(shí)驗(yàn),時(shí)域融合TFT模型的參數(shù)設(shè)置為:學(xué)習(xí)速率為0.3,注意頭的數(shù)量為1,隱藏層數(shù)為8,隱藏層神經(jīng)元個(gè)數(shù)為4,每次迭代數(shù)據(jù)集大小為32。BPNN、SVM、RNN、LSTM和GRU的參數(shù)設(shè)置如表2所示。
表2 各預(yù)測模型的參數(shù)設(shè)置
各模型的預(yù)測結(jié)果如表3所示,對比MAPE、RMSE、MAE3個(gè)性能指標(biāo)可以看出,VMD-TFT模型的預(yù)測精度比BPNN、SVM、RNN、LSTM、GRU及單因素TFT均有明顯的提升,且VMD-TFT較其他模型能取得更貼近真實(shí)值的預(yù)測值(如圖4所示),能夠達(dá)到滿意的預(yù)測性能。通過與單因素預(yù)測的結(jié)果對比可以發(fā)現(xiàn),使用VMD分解后的預(yù)測模型比僅使用歷史價(jià)格序列預(yù)測的MAPE值更低,證明其預(yù)測性能更加優(yōu)異。
表3 預(yù)測結(jié)果展示與對比
圖4 各模型預(yù)測值與真實(shí)值對比圖(2021年1月—2021年9月)
TFT模型的輸入變量可解釋性權(quán)重如圖5所示,可知序列S2、S3對于白卡紙價(jià)格預(yù)測的貢獻(xiàn)更大,S1和S4的貢獻(xiàn)較低。這是因?yàn)镾1反映的是白卡紙價(jià)格波動(dòng)的大致趨勢,S4反映的是分解后的殘差,故其對預(yù)測的貢獻(xiàn)較低。
圖5 各輸入變量可解釋性權(quán)重
筆者重點(diǎn)研究了變分模態(tài)分解和時(shí)域融合變換器相結(jié)合的高效可解釋預(yù)測模型,VMD有助于充分提取復(fù)雜數(shù)據(jù)中隱藏的特征,TFT模型具備高效的預(yù)測性能,且能給出可解釋性的預(yù)測過程。同時(shí),構(gòu)建一個(gè)高效的白卡紙價(jià)格預(yù)測框架,可有效應(yīng)對近年來白卡紙價(jià)格波動(dòng)劇烈的挑戰(zhàn),為可解釋預(yù)測的研究提供了新的應(yīng)用。
在新冠肺炎疫情和國際經(jīng)濟(jì)政策局勢不動(dòng)變化的背景下,如白卡紙等大宗商品的價(jià)格預(yù)測非常復(fù)雜,未來可以考慮更多的輸入因素,如國際經(jīng)濟(jì)情況和白卡紙銷量等影響。同時(shí),TFT模型具備很強(qiáng)的解釋能力,本研究只用了深度學(xué)習(xí)模型的部分結(jié)構(gòu),未來可以考慮更多因素來挖掘TFT模型的潛能,如過去已知變量、未來已知變量等,從而進(jìn)一步提高預(yù)測精度。
武漢理工大學(xué)學(xué)報(bào)(信息與管理工程版)2022年2期