王潤(rùn)周,張新生,王明虎
基于信號(hào)分解和深度學(xué)習(xí)的農(nóng)產(chǎn)品價(jià)格預(yù)測(cè)
王潤(rùn)周,張新生※,王明虎
(西安建筑科技大學(xué)管理學(xué)院,西安 710055)
農(nóng)產(chǎn)品價(jià)格的穩(wěn)定對(duì)社會(huì)經(jīng)濟(jì)與農(nóng)業(yè)發(fā)展有重要意義,但農(nóng)產(chǎn)品價(jià)格的波動(dòng)具有非平穩(wěn)、非線性、波動(dòng)性大的特性,較難精確預(yù)測(cè)。該研究基于信號(hào)分解和深度學(xué)習(xí),提出一種分解-重構(gòu)-提取-關(guān)聯(lián)-輸出的農(nóng)產(chǎn)品價(jià)格預(yù)測(cè)模型(CT-BiSeq2seq),并且加入平均氣溫、養(yǎng)殖成本(大豬配合飼料與尿素價(jià)格)、群眾關(guān)注度等多維度數(shù)據(jù)來提高模型的預(yù)測(cè)精度。首先,采用互補(bǔ)集合經(jīng)驗(yàn)?zāi)B(tài)分解(Complementary Ensemble Empirical Mode Decomposition,CEEMD)方法把復(fù)雜的原始價(jià)格序列分解為簡(jiǎn)單序列。其次,分析皮爾遜相關(guān)系數(shù)及分解后的子序列,把原始價(jià)格序列重構(gòu)為高頻項(xiàng)、低頻項(xiàng)、殘差項(xiàng)。再經(jīng)過時(shí)間卷積網(wǎng)絡(luò)(Temporal Convolutional Network,TCN)提取重構(gòu)序列的數(shù)據(jù)特征。隨后,構(gòu)建Biseq2seq模型,解碼器引入雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(Bi-directional Long Short-Term Memory,Bi-LSTM)加強(qiáng)序列數(shù)據(jù)間的全局關(guān)聯(lián)。最后,通過解碼器的LSTM網(wǎng)絡(luò)輸出預(yù)測(cè)值。以北京豐臺(tái)區(qū)批發(fā)市場(chǎng)的白條豬肉價(jià)格進(jìn)行實(shí)證分析,該研究提出的CT-BiSeq2seq模型的預(yù)測(cè)性能顯著優(yōu)于其他價(jià)格預(yù)測(cè)基準(zhǔn)模型,在滯后天數(shù)為11 d達(dá)到最優(yōu)效果。在其他數(shù)據(jù)集也有精確和穩(wěn)定的預(yù)測(cè)效果,菠菜、蘋果,雞蛋的均方誤差分別為0.627 7、0.463 2、0.552 6元2/kg2,平均絕對(duì)誤差分別為0.543 1、0.442 5、0.533 9元/kg,平均絕對(duì)百分比誤差分別為3.204 7%、2.236 1%、2.231 4%。同時(shí)根據(jù)不同數(shù)據(jù)集的結(jié)果發(fā)現(xiàn),價(jià)格波動(dòng)大的農(nóng)產(chǎn)品適合采用較大的滯后天數(shù),價(jià)格波動(dòng)小的農(nóng)產(chǎn)品適合采用較小的滯后天數(shù)。該模型可以為預(yù)測(cè)農(nóng)產(chǎn)品的價(jià)格波動(dòng)提供參考。
農(nóng)產(chǎn)品;價(jià)格預(yù)測(cè);互補(bǔ)集合經(jīng)驗(yàn)?zāi)B(tài)分解;時(shí)間卷積網(wǎng)絡(luò);雙向序列到序列模型;長(zhǎng)短期記憶網(wǎng)絡(luò)
中國(guó)是農(nóng)業(yè)大國(guó),農(nóng)產(chǎn)品價(jià)格的波動(dòng)影響著民生以及國(guó)民經(jīng)濟(jì)的穩(wěn)定發(fā)展。隨著2019年非洲瘟疫蔓延、國(guó)家新環(huán)保養(yǎng)殖政策的頒布及2020年新冠疫情的爆發(fā),農(nóng)產(chǎn)品的非正常價(jià)格波動(dòng)逐漸增多,如截止到2019年9月初大蒜價(jià)格已回漲至9.19元/kg,較2004年大蒜批發(fā)價(jià)格的平均值高出56.29%,出現(xiàn)了“菜比肉貴”的熱議;2020年初豬肉價(jià)格相比2019年中旬的價(jià)格增長(zhǎng)54.11%[1]。非正常的農(nóng)產(chǎn)品價(jià)格波動(dòng)嚴(yán)重影響著人民的生活安定和國(guó)家經(jīng)濟(jì)的穩(wěn)定發(fā)展,因此建立精準(zhǔn)的農(nóng)產(chǎn)品價(jià)格預(yù)測(cè)模型,預(yù)防突發(fā)事件對(duì)人民生活的影響,對(duì)解決“三農(nóng)”問題及農(nóng)業(yè)信息化建設(shè)具有重要作用。
目前,對(duì)農(nóng)產(chǎn)品價(jià)格的預(yù)測(cè)研究主要分為傳統(tǒng)計(jì)量統(tǒng)計(jì)方法、人工智能方法及組合模型三類預(yù)測(cè)方法,且各類方法按時(shí)間順序不斷發(fā)展。傳統(tǒng)計(jì)量模型方法有較扎實(shí)的理論基礎(chǔ),對(duì)于不同問題有較強(qiáng)的可解釋性,如回歸分析、向量自回歸(Vector Autoregressive,VAR)、自回歸滑動(dòng)平均(Autoregressive Moving Average,ARMA)、整合移動(dòng)平均自回歸(Autoregressive Integrated Moving Average,ARIMA)、廣義自回歸條件異方差(Generalized Autoregressive Conditional Heteroscedasticity,GARCH)等模型早期被廣泛應(yīng)用于價(jià)格預(yù)測(cè)[2-3],可以準(zhǔn)確預(yù)測(cè)綠豆價(jià)格[4]、大豆期貨價(jià)格[5]等短時(shí)序的農(nóng)產(chǎn)品價(jià)格。隨后,一些傳統(tǒng)計(jì)量方法結(jié)合不同農(nóng)產(chǎn)品價(jià)格的特點(diǎn)進(jìn)行改進(jìn),使得模型的預(yù)測(cè)能力隨著歷史數(shù)據(jù)的豐富逐漸與真實(shí)數(shù)據(jù)趨近[6-7]。以上研究豐富了傳統(tǒng)的價(jià)格預(yù)測(cè)研究,使傳統(tǒng)計(jì)量統(tǒng)計(jì)方法逐漸形成了系統(tǒng)的時(shí)間序列預(yù)測(cè)模型。然而傳統(tǒng)計(jì)量統(tǒng)計(jì)方法較難完整表示長(zhǎng)時(shí)間序列的非平穩(wěn)、非線性及多尺度特征,在處理非線性問題上有較強(qiáng)的局限性[8]。
機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等人工智能方法的發(fā)展彌補(bǔ)了傳統(tǒng)計(jì)量統(tǒng)計(jì)方法的不足,可處理較長(zhǎng)時(shí)序、非線性、非平穩(wěn)的價(jià)格預(yù)測(cè)問題,常見模型有BP神經(jīng)網(wǎng)絡(luò)(Back Propagation Neural Network)、支持向量機(jī)(Support Vector Machine,SVM)、動(dòng)態(tài)神經(jīng)網(wǎng)絡(luò)(Dynamic neural network)、時(shí)間卷積網(wǎng)絡(luò)(Temporal Convolutional Network,TCN)等[9-12]。相比于傳統(tǒng)計(jì)量統(tǒng)計(jì)方法,這些模型具有較高的準(zhǔn)確率、魯棒性和泛化性,可以更加精準(zhǔn)地預(yù)測(cè)農(nóng)產(chǎn)品價(jià)格。但很難有一種人工智能方法可以解決所有不同預(yù)測(cè)情境下的問題[13]。一方面,在處理高維度、大數(shù)據(jù)量的預(yù)測(cè)問題時(shí),SVM、BP神經(jīng)網(wǎng)絡(luò)等淺層次機(jī)器學(xué)習(xí)算法存在較大局限性,會(huì)出現(xiàn)參數(shù)的維數(shù)災(zāi)難與無效的特征表示等問題[14]。另一方面,雖然單一模型預(yù)測(cè)誤差波動(dòng)較大,總體上隨著預(yù)測(cè)周期變長(zhǎng)精度下降。但在實(shí)際預(yù)測(cè)上,并非所有的人工智能模型都優(yōu)于傳統(tǒng)統(tǒng)計(jì)計(jì)量預(yù)測(cè)方法[15-16]。因此,應(yīng)根據(jù)數(shù)據(jù)與任務(wù)的特點(diǎn),選擇適合的預(yù)測(cè)模型。
組合模型通過結(jié)合傳統(tǒng)計(jì)量統(tǒng)計(jì)方法、智能優(yōu)化算法、人工智能方法的優(yōu)點(diǎn),對(duì)預(yù)測(cè)問題設(shè)置先驗(yàn)假設(shè)和數(shù)據(jù)處理,減少學(xué)習(xí)偏差,較大程度增強(qiáng)預(yù)測(cè)模型的擬合能力[17]。在研究方法上,學(xué)者們逐漸形成了分解-重構(gòu)-輸出的集成模式[18-23]。首先采用小波分解、集合經(jīng)驗(yàn)?zāi)B(tài)分解(Ensemble Empirical Mode Decomposition,EEMD),奇異譜分析(Singular Spectrum Analysis,SSA)等方法,將原始數(shù)據(jù)序列分解、簡(jiǎn)化,剔除時(shí)間序列中的噪聲。隨后通過智能搜索算法、-means聚類方法等進(jìn)行參數(shù)優(yōu)化與序列重構(gòu)。最后使用SVM、長(zhǎng)短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)等模型輸出結(jié)果。在預(yù)測(cè)性能上優(yōu)于大部分單模型方法,顯著提升了預(yù)測(cè)模型的適用范圍和預(yù)測(cè)精度[24],因此本文采用組合模型進(jìn)行農(nóng)產(chǎn)品價(jià)格預(yù)測(cè)。
綜上,組合模型在價(jià)格預(yù)測(cè)上有著獨(dú)特的優(yōu)勢(shì),但仍然存在不足之處:1)基于SSA、EEMD等分解方法雖然能將復(fù)雜信號(hào)序列分解成多個(gè)簡(jiǎn)單序列,更清晰地認(rèn)識(shí)復(fù)雜信號(hào)里的運(yùn)動(dòng)規(guī)律和結(jié)構(gòu),但存在計(jì)算量過大、殘余輔助噪聲較大等問題;2)重構(gòu)后的特征序列缺乏數(shù)據(jù)間的時(shí)間序列關(guān)系,且全局關(guān)聯(lián)度不高,預(yù)測(cè)容易出現(xiàn)波動(dòng);3)當(dāng)前農(nóng)產(chǎn)品價(jià)格的深度學(xué)習(xí)預(yù)測(cè)模型主要采用循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)、LSTM等網(wǎng)絡(luò),其輸入步數(shù)等于輸出步數(shù),需要經(jīng)過全連接層壓縮才能輸出預(yù)測(cè)值,不能實(shí)現(xiàn)任意步數(shù)的預(yù)測(cè),且壓縮過后的值相對(duì)獨(dú)立,缺乏序列之間的依賴性?;诖?,本文結(jié)合信號(hào)分解和深度學(xué)習(xí),提出一種CT-BiSeq2seq農(nóng)產(chǎn)品價(jià)格預(yù)測(cè)模型,首先采用互補(bǔ)集合經(jīng)驗(yàn)?zāi)B(tài)分解方法,減少分解時(shí)所需的迭代次數(shù),降低序列的噪聲殘余;其次結(jié)合皮爾遜相關(guān)系數(shù)進(jìn)行序列重構(gòu);再加入多維度數(shù)據(jù),利用時(shí)間卷積網(wǎng)絡(luò)TCN提取農(nóng)產(chǎn)品價(jià)格間的時(shí)間序列關(guān)系;最后構(gòu)建BiSeq2seq網(wǎng)絡(luò),編碼器引入雙向LSTM網(wǎng)絡(luò),加強(qiáng)數(shù)據(jù)關(guān)聯(lián),解碼器對(duì)雙向LSTM的結(jié)果進(jìn)行編譯,實(shí)現(xiàn)任意步數(shù)的輸出。研究結(jié)果以期為多種農(nóng)產(chǎn)品價(jià)格的預(yù)測(cè)提供參考。
農(nóng)產(chǎn)品長(zhǎng)期的價(jià)格時(shí)間序列數(shù)據(jù)可能蘊(yùn)含復(fù)雜的物理過程或經(jīng)濟(jì)規(guī)律,為更清晰地分析農(nóng)產(chǎn)品價(jià)格的變化規(guī)律,精準(zhǔn)地進(jìn)行價(jià)格預(yù)測(cè),本文結(jié)合信號(hào)分解和深度學(xué)習(xí)的方法,提出一種CT-BiSeq2seq價(jià)格預(yù)測(cè)模型,在提升精確性、減少數(shù)據(jù)參數(shù)的同時(shí),實(shí)現(xiàn)任意步數(shù)的輸出。整體框架如圖1所示。
圖1 CT-BiSeq2seq模型框架圖
由圖1可見,CT-BiSeq2seq模型主要包括5個(gè)步驟,即分解-重構(gòu)-提取-關(guān)聯(lián)-預(yù)測(cè)。
1)分解:首先對(duì)農(nóng)產(chǎn)品長(zhǎng)期的價(jià)格序列進(jìn)行CEEMD分解。將復(fù)雜序列表示成多個(gè)簡(jiǎn)單信號(hào),去除干擾信息,進(jìn)行定量分析。
2)重構(gòu):其次分析皮爾遜相關(guān)系數(shù)及分解后的IMF序列,重構(gòu)后得到高頻項(xiàng)、低頻項(xiàng)、殘差項(xiàng)及原價(jià)格4組數(shù)據(jù)特征,分析4組數(shù)據(jù)之間的關(guān)系,并將其作為后續(xù)的輸入數(shù)據(jù)。
3)提取:再者采用時(shí)間卷積網(wǎng)絡(luò)TCN提取農(nóng)產(chǎn)品價(jià)格的時(shí)間序列特征。
4)關(guān)聯(lián):隨后提出了改進(jìn)的BiSeq2seq模型,即在Seq2seq模型的編碼器中引入雙向LSTM網(wǎng)絡(luò)(Bi-LSTM)正反向?qū)W習(xí)序列數(shù)據(jù)的內(nèi)容,掌握全局信息的關(guān)聯(lián)。
5)預(yù)測(cè):最后在解碼器部分,采用LSTM網(wǎng)絡(luò)實(shí)現(xiàn)農(nóng)產(chǎn)品價(jià)格的任意步預(yù)測(cè)。
互補(bǔ)集合經(jīng)驗(yàn)?zāi)B(tài)分解[25](Complementary Ensemble Empirical Mode Decomposition,CEEMD)是一種處理非線性、非平穩(wěn)信號(hào)數(shù)據(jù)的方法,可將復(fù)雜信號(hào)分解為多個(gè)簡(jiǎn)單的信號(hào)。其原理是在待分解信號(hào)中加入若干組成對(duì)的、互為相反數(shù)的白噪聲信號(hào),把復(fù)雜時(shí)間序列信號(hào)分解為有限個(gè)周期不同的本征模函數(shù)(Intrinsic Mode Function,IMF)和一個(gè)殘差信號(hào),有效清除信號(hào)的噪聲殘余,減少分解時(shí)所需的迭代次數(shù)[26]。計(jì)算過程如下:
時(shí)間卷積網(wǎng)絡(luò)(Temporal Convolutional Network,TCN)首先被提出是作為CNN網(wǎng)絡(luò)的擴(kuò)展,用于計(jì)算機(jī)視覺檢測(cè)[27]。其不僅包含傳統(tǒng)CNN的優(yōu)勢(shì),如局部連接、權(quán)值共享,最重要的是包含因果卷積、擴(kuò)張連接、殘差連接的結(jié)構(gòu)優(yōu)勢(shì)。利用TCN網(wǎng)絡(luò)可以挖掘數(shù)據(jù)在時(shí)間維度上的特征并提取出更高維度的關(guān)聯(lián)。
注:x為輸入的時(shí)間序列數(shù)據(jù),y為輸出結(jié)果,為膨脹系數(shù),為卷積核尺寸。
Note:xis the input time series data,yis the output result,is the dilation coefficient,is the size of convolution kernel.
圖2 時(shí)間卷積網(wǎng)絡(luò)結(jié)構(gòu)圖
Fig.2 Structure diagram of time convolution network
序列到序列模型(Sequence to Sequence,Seq2Seq)主要解決循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)輸入和輸出長(zhǎng)度不配對(duì)的問題,多用于文本翻譯、語音生成領(lǐng)域,目前也有學(xué)者用于時(shí)間序列預(yù)測(cè),如空氣質(zhì)量預(yù)測(cè)[28]。Seq2seq模型雖然在時(shí)間序列問題上有較好的預(yù)測(cè)效果,但本質(zhì)上是一種單向提取序列信息的網(wǎng)絡(luò),整個(gè)過程容易忽略未來時(shí)刻到過去時(shí)刻方向的聯(lián)系,因此在編碼器引入雙向長(zhǎng)短期記憶網(wǎng)絡(luò),解碼器引入長(zhǎng)短期記憶網(wǎng)絡(luò)來解決此問題,如圖3所示。
注:Xt為編碼器的輸入數(shù)據(jù),Ot為編碼器的輸出結(jié)果,L為L(zhǎng)STM網(wǎng)絡(luò),Ct,ht分別為正向LSTM網(wǎng)絡(luò)的記憶細(xì)胞信息與歷史信息,C?t,h?t分別為反向LSTM網(wǎng)絡(luò)的記憶細(xì)胞信息與歷史信息,ym為解碼器的輸出結(jié)果。
Bi-LSTM網(wǎng)絡(luò)保留了RNN網(wǎng)絡(luò)的重復(fù)鏈?zhǔn)浇Y(jié)構(gòu),由兩個(gè)正反方向的LSTM網(wǎng)絡(luò)構(gòu)成[29]。其中LSTM網(wǎng)絡(luò)的結(jié)構(gòu)主要由遺忘門、輸入門、記憶細(xì)胞狀態(tài)、輸出門四部分構(gòu)成,通過3種門結(jié)構(gòu)來控制細(xì)胞狀態(tài)傳輸信息。細(xì)胞狀態(tài)更新的過程類似于傳送帶,在最上部的鏈條運(yùn)行,整個(gè)過程有少量的線性交互。運(yùn)作過程如圖4所示。
注:Xt為輸入結(jié)果,ht為輸出結(jié)果,ht-1為歷史信息,Ct為L(zhǎng)STM網(wǎng)絡(luò)的記憶細(xì)胞信息,ft,it為參數(shù)矩陣,為矩陣乘法,⊕為矩陣加法。
本文的試驗(yàn)基于Windows10 64位操作系統(tǒng),處理器為AMD Ryzen 7 5800H with Radeon Graphics 3.20 GHz,NVIDIA GeForce GTX 3070開啟GPU加速內(nèi)存16 GB,編程語言采用Python3.8.12。本文基礎(chǔ)試驗(yàn)數(shù)據(jù)來自全國(guó)農(nóng)產(chǎn)品商務(wù)信息公共服務(wù)平臺(tái)(新農(nóng)村商網(wǎng)http://nc.mofcom.gov.cn/jghq/index)。本文以該網(wǎng)站北京豐臺(tái)區(qū)農(nóng)產(chǎn)品批發(fā)市場(chǎng)白條豬肉為實(shí)證對(duì)象來研究其價(jià)格走勢(shì),以該市場(chǎng)2016年1月1日至2022年2月28日白條豬肉的日均價(jià)格為基礎(chǔ)進(jìn)行實(shí)證分析。由于農(nóng)產(chǎn)品價(jià)格受多種因素影響,引入多維度的影響因素有助于提高模型的預(yù)測(cè)精度。因此本文在對(duì)白條豬肉價(jià)格進(jìn)行CEEMD分解與重構(gòu)后,加入對(duì)農(nóng)產(chǎn)品價(jià)格影響較大的因素:北京市每日平均氣溫、肥料價(jià)格(大豬配合飼料)、公眾熱度(百度指數(shù))。其中氣溫影響農(nóng)產(chǎn)品的生長(zhǎng)發(fā)育;肥料價(jià)格在一定程度上影響農(nóng)產(chǎn)品的產(chǎn)量;公眾熱度從一定程度上反映當(dāng)農(nóng)產(chǎn)品價(jià)格變化時(shí)群眾的情緒,會(huì)影響消費(fèi)者購(gòu)買意向[30]。引入的3種影響因素?cái)?shù)據(jù)分別來自于天氣網(wǎng)(https://www.tianqi.com)、全國(guó)重點(diǎn)農(nóng)產(chǎn)品市場(chǎng)信息平臺(tái)(http://ncpscxx.moa.gov.cn)、百度指數(shù)(https://index.baidu.com)。本試驗(yàn)對(duì)數(shù)據(jù)中的缺失值、偏差較大值進(jìn)行線性插值法處理,具體根據(jù)其前后價(jià)格的均值處理。最終輸入變量的維度為7維,每個(gè)維度各得到2 252條價(jià)格數(shù)據(jù),其價(jià)格走勢(shì)如圖5a所示,平均氣溫如圖5b所示,肥料價(jià)格如圖5c所示,公眾關(guān)注度如圖 5d所示。
由圖5a分析可得,2016年1月至2022年2月期間白條豬肉價(jià)格波動(dòng)趨勢(shì)很大。整個(gè)過程呈現(xiàn)出非線性、非平穩(wěn)的特點(diǎn)且無明顯的價(jià)格變化規(guī)律。另外,價(jià)格走勢(shì)圖中前半部分與后半部分的數(shù)據(jù)分布差異較大,故難以用常規(guī)的線性模型擬合。由圖5b分析可得,氣溫趨勢(shì)呈季節(jié)性變化,通常在年氣溫較低時(shí),對(duì)應(yīng)價(jià)格較高。由圖5c分析可得,肥料的價(jià)格呈不斷上漲趨勢(shì),當(dāng)豬肉價(jià)格處于2019年初至2021年出的高價(jià)階段,肥料價(jià)格也相對(duì)較高。由圖5d分析可得,群眾對(duì)豬肉價(jià)格關(guān)注度比較平穩(wěn),但因?yàn)橹卮笫录陌l(fā)生會(huì)出現(xiàn)較大的峰值,在一定程度影響豬肉價(jià)格,例如2019年后半年“非洲豬瘟”發(fā)生,群眾對(duì)豬肉價(jià)格的關(guān)注度大幅度增加,一定程度上推進(jìn)了不理智購(gòu)買行為,間接導(dǎo)致豬肉價(jià)格飆升。
圖5 豬肉價(jià)格、氣溫、肥料價(jià)格、關(guān)注度趨勢(shì)圖
首先將白條豬肉的每日價(jià)格進(jìn)行CEEMD分解,得到數(shù)據(jù)的多尺度特征。設(shè)置白噪聲幅值為0.2(0-1之間,在0.2時(shí)效果最優(yōu)),信號(hào)的平均累加次數(shù)為50(本試驗(yàn)在取值50時(shí),得到的IMF序列最多,小于50時(shí)分解出的子序列也有較好地效果)。將價(jià)格序列數(shù)據(jù)分解后,得到了10個(gè)IMF子序列和1個(gè)殘差項(xiàng),如圖 6示。
由圖6知,每個(gè)分解后的IMF序列的振幅、頻率和周期均不相同,且每個(gè)IMF序列都有自身的波動(dòng)特征。從上到下分析分解后的IMF序列可得,周期不斷增大,各序列數(shù)據(jù)由基本對(duì)稱變?yōu)椴粚?duì)稱,數(shù)據(jù)的平均值不斷偏離0,殘差項(xiàng)呈現(xiàn)近似線性上升的趨勢(shì)。在第7個(gè)IMF序列時(shí),序列圖開始變得不對(duì)稱。
通過計(jì)算各IMF序列間的皮爾遜相關(guān)系數(shù),如表1所示。當(dāng)在第7個(gè)IMF序列時(shí),皮爾遜相關(guān)系數(shù)開始變化較大,數(shù)據(jù)明顯偏離0;結(jié)合上述分析,故將IMF1~I(xiàn)MF6定為高頻項(xiàng),IMF7~I(xiàn)MF10定為低頻項(xiàng)。
日期Date
表1 各IMF序列的皮爾遜相關(guān)系數(shù)
對(duì)原始價(jià)格序列進(jìn)行重構(gòu),將高頻項(xiàng)IMF1~I(xiàn)MF6的值疊加,低頻項(xiàng)IMF7~I(xiàn)MF10的值疊加,殘差序列保持不變,得到重構(gòu)后的價(jià)格序列圖如圖7所示。
由圖7分析可得,殘差項(xiàng)是影響白條豬肉價(jià)格的主要組成部分,反映其價(jià)格的內(nèi)在長(zhǎng)期走勢(shì)。殘差項(xiàng)主要由供求關(guān)系決定;高頻項(xiàng)與原始數(shù)據(jù)走勢(shì)相似并且其IMF序列的均值保持在0附近上下波動(dòng)。高頻項(xiàng)對(duì)總體走勢(shì)影響小,代表常規(guī)經(jīng)濟(jì)政策改革、期貨炒作、市場(chǎng)供需短暫失衡、國(guó)外相關(guān)市場(chǎng)變化等引起的短期波動(dòng)。低頻項(xiàng)波動(dòng)幅度較大,對(duì)原始數(shù)據(jù)走勢(shì)產(chǎn)生很大影響,代表了重大事件對(duì)白條豬肉價(jià)格的影響,經(jīng)對(duì)比,其波峰、波谷與重大事件基本對(duì)應(yīng),如2019年非洲豬瘟、規(guī)范養(yǎng)殖政策頒布、2020年新冠疫情爆發(fā)等事件。
圖7 重構(gòu)后的價(jià)格序列圖
3.3.1 數(shù)據(jù)集劃分
數(shù)據(jù)標(biāo)準(zhǔn)化的操作要在訓(xùn)練集數(shù)據(jù)上進(jìn)行,若包含測(cè)試集數(shù)據(jù)可能會(huì)發(fā)生數(shù)據(jù)泄露的問題,將導(dǎo)致預(yù)測(cè)不準(zhǔn)。故把整個(gè)數(shù)據(jù)集劃分為訓(xùn)練集、驗(yàn)證集、測(cè)試集,考慮數(shù)據(jù)間的時(shí)間序列關(guān)系,本文數(shù)據(jù)集按照時(shí)間順序劃分,設(shè)定重構(gòu)后的白條豬肉價(jià)格數(shù)據(jù)的前80%為訓(xùn)練數(shù)據(jù)與驗(yàn)證集,其余20%數(shù)據(jù)為測(cè)試數(shù)據(jù),訓(xùn)練集、驗(yàn)證集、測(cè)試集所占比例分別為6∶2∶2。
由于時(shí)間序列問題預(yù)測(cè)會(huì)存在滯后性,本試驗(yàn)為更好確定解碼器LSTM網(wǎng)絡(luò)的預(yù)測(cè)步數(shù),設(shè)計(jì)不同滯后天數(shù)。依據(jù)前人的研究結(jié)果[22],當(dāng)滯后天數(shù)在9~13 d時(shí),LSTM模型在農(nóng)產(chǎn)品價(jià)格預(yù)測(cè)效果較好。為保證模型有更好的擬合能力,本文擴(kuò)大滯后天數(shù)范圍,分別設(shè)置滯后天數(shù)為3、5、7、9、11、13、15 d。為保證預(yù)測(cè)精度,后續(xù)試驗(yàn)選擇滯后天數(shù)為11 d進(jìn)行預(yù)測(cè),并進(jìn)行不同滯后天數(shù)的對(duì)比試驗(yàn)將在3.4.2節(jié)給出。
3.3.2 數(shù)據(jù)預(yù)處理
3.3.3 模型結(jié)構(gòu)
CT-BiSeq2seq預(yù)測(cè)模型主要包括四個(gè)部分:第一部分為CEEMD分解、重構(gòu)部分,簡(jiǎn)化序列數(shù)據(jù)信號(hào)作為輸入層;第二部分,TCN模型提取時(shí)間序列的歷史特征;第三部分為BiSeq2seq模型,采用Bi-LSTM網(wǎng)絡(luò)為編碼器(Encoder)加強(qiáng)數(shù)據(jù)間的關(guān)聯(lián),第四部分為解碼器(Decoder),由LSTM網(wǎng)絡(luò)實(shí)現(xiàn)多步輸出。如圖8所示。
試驗(yàn)設(shè)置8層網(wǎng)絡(luò)結(jié)構(gòu),其中第一層為輸入層,把CEEMD分解、重構(gòu)后的數(shù)據(jù)轉(zhuǎn)變?yōu)槿S向量。第二層為TCN層,提取重構(gòu)后的數(shù)據(jù)特征,輸入與輸出數(shù)量相等。第三層為Dropout層,本試驗(yàn)設(shè)置Dropout值為0.2,能夠在訓(xùn)練過程中隨機(jī)忽略20%的節(jié)點(diǎn)連接,防止過擬合。第四層將提取的數(shù)據(jù)特征作為輸入數(shù)據(jù)。輸入數(shù)據(jù)被傳入到編碼器中的Bi-LSTM網(wǎng)絡(luò),學(xué)習(xí)了預(yù)測(cè)價(jià)格與其他輸入特征間的非線性關(guān)系。第五層在編碼器后使用全局平均池化(Global Average Pooling),減少訓(xùn)練參數(shù),增加訓(xùn)練速度。第六層為Repeat Vector層,將解碼器的輸出向量進(jìn)行復(fù)制,形成具有時(shí)間步數(shù)的向量,防止時(shí)間序列數(shù)據(jù)的關(guān)系被分解。第七層為解碼器中的LSTM網(wǎng)絡(luò),實(shí)現(xiàn)任意步數(shù)的輸出。第八層將編碼器輸出的維度進(jìn)行壓縮,輸出具體預(yù)測(cè)值。
圖8 模型結(jié)構(gòu)圖
3.3.4 超參數(shù)設(shè)置與模型訓(xùn)練
采用均方誤差(Mean Square Error,MSE)作為模型正向傳播的損失函數(shù),使用在優(yōu)化預(yù)測(cè)誤差方面性能較好的Adam算法反向傳播更新權(quán)重參數(shù)與偏置[31]。同時(shí)也采用平均絕對(duì)誤差(Mean Absolute Error,MAE)、平均絕對(duì)百分比誤差(Mean Absolute Percentage Error,MAPE)作為衡量指標(biāo)。其中MSE是預(yù)測(cè)值與真實(shí)值的絕對(duì)平方誤差的平均值,一般用來檢測(cè)模型的預(yù)測(cè)值和真實(shí)值之間的偏差。MAE是實(shí)際監(jiān)測(cè)值與預(yù)測(cè)值之間差值的平均值,它可以反映預(yù)測(cè)值誤差的實(shí)際情況。MAPE不僅考慮預(yù)測(cè)值與真實(shí)值的偏差,還考慮了偏差與真實(shí)值之間的比例,此指標(biāo)對(duì)相對(duì)誤差敏感,不會(huì)因目標(biāo)變量的全局縮放而改變。MSE、MAE與MAPE的值越小,模型的預(yù)測(cè)精度越高[32]。各衡量指標(biāo)計(jì)算公式如下。
表2 模型訓(xùn)練的網(wǎng)絡(luò)維度
圖9 驗(yàn)證集與測(cè)試集損失
由圖9可得,驗(yàn)證集經(jīng)過200個(gè)訓(xùn)練周期后,MSE、MAE、MAPE分別為0.683 7元/kg2、0.554 3元/kg、2.275 6%。測(cè)試集經(jīng)過200個(gè)訓(xùn)練周期后,MSE、MAE、MAPE分別為0.661 1元/kg2、0.501 4元/kg、2.113 8%。驗(yàn)證集與訓(xùn)練集的誤差較小,且測(cè)試集誤差小于驗(yàn)證集誤差,證明本模型在測(cè)試集有較好的擬合能力。CT-BiSeq2seq預(yù)測(cè)模型在驗(yàn)證集上的預(yù)測(cè)結(jié)果如圖10所示,預(yù)測(cè)值與實(shí)際值擬合良好。
3.4.1 各模型預(yù)測(cè)對(duì)比結(jié)果
為保證測(cè)試集在不同試驗(yàn)中有較為一致的結(jié)果,在模型訓(xùn)練前加入隨機(jī)數(shù)種子,種子值設(shè)為1。在測(cè)試集與其他基準(zhǔn)模型進(jìn)行對(duì)比,采用驗(yàn)證集的模型超參數(shù),各評(píng)價(jià)指標(biāo)、訓(xùn)練批次、學(xué)習(xí)率、訓(xùn)練周期等都保持一致。同時(shí)參考相關(guān)研究[22],當(dāng)滯后天數(shù)在9~13 d時(shí),LSTM網(wǎng)絡(luò)在預(yù)測(cè)農(nóng)產(chǎn)品價(jià)格時(shí)性能較優(yōu),因此本試驗(yàn)采用滯后天數(shù)為11 d。為驗(yàn)證本模型在預(yù)測(cè)上的優(yōu)勢(shì),依次與LSTM、Seq2seq、TCN-LSTM、CEEMD-TCN-LSTM、CEEMD-TCN-Seq2seq模型的預(yù)測(cè)效果進(jìn)行對(duì)比,各模型預(yù)測(cè)誤差結(jié)果如表3所示,預(yù)測(cè)結(jié)果如圖11所示。
圖10 驗(yàn)證集預(yù)測(cè)結(jié)果
表3 各模型的詳細(xì)誤差對(duì)比結(jié)果
圖11 各模型對(duì)比預(yù)測(cè)結(jié)果
結(jié)合表3與圖11可得,CT-BiSeq2seq模型的預(yù)測(cè)誤差明顯低于其他模型。具體分析,LSTM網(wǎng)絡(luò)的預(yù)測(cè)誤差相對(duì)較大,在長(zhǎng)期預(yù)測(cè)中主要擬合出變化趨勢(shì),未能擬合出變化細(xì)節(jié);Seq2seq模型在進(jìn)行Encoder和Decoder過程后,預(yù)測(cè)損失明顯減小,與LSTM的預(yù)測(cè)損失相比,MSE、MAE、MAPE分別降低4.71%、11.4%、22.6%,這表明Seq2seq模型能夠較好地減小預(yù)測(cè)誤差,但在預(yù)測(cè)初期數(shù)值波動(dòng)較大。CEEMD-LSTM模型在進(jìn)行CEEMD數(shù)據(jù)分解后減少了數(shù)據(jù)噪聲,預(yù)測(cè)誤差持續(xù)降低,緩解了預(yù)測(cè)初期數(shù)值波動(dòng)較大的問題,與LSTM網(wǎng)絡(luò)相比MSE、MAE、MAPE分別降低17.91%、25.73%、33.87%。CEEMD-Seq2seq經(jīng)過編碼器與解碼器計(jì)算,較好地保留了數(shù)據(jù)的時(shí)間序列關(guān)系,與Seq2seq模型相比MSE、MAE、MAPE分別降低33.53%、40.03%、44.32%,但仍存在較大預(yù)測(cè)誤差。在加入TCN網(wǎng)絡(luò)進(jìn)行特征提取后,CEEMD- TCN-LSTM模型、CEEMD-TCN-Seq2seq模型的預(yù)測(cè)誤差呈現(xiàn)大幅度減小。CT-BiSeq2seq模型由于TCN的特征提取能力及解碼器中Bi-LSTM網(wǎng)絡(luò)的雙向?qū)W習(xí)能力,減少了數(shù)據(jù)遺忘,相比于CEEMD-TCN- Seq2seq模型,MSE降低32.9%,MAE降低28.8%,MAPE降低17.7%,MSE、MAE、MAPE分別為0.657 4 元2/kg2、0.504 6元/kg、2.116 7%。在與各基準(zhǔn)模型預(yù)測(cè)對(duì)比中取得了較優(yōu)的效果。
因此,本文提出的CT-BiSeq2seq預(yù)測(cè)模型可有效降低了農(nóng)產(chǎn)品價(jià)格序列非平穩(wěn)、非線性特性帶來的預(yù)測(cè)誤差,預(yù)測(cè)值更精準(zhǔn)。通過試驗(yàn)精確預(yù)測(cè)了測(cè)試集未來14個(gè)月(2021年12月至2022年2月)的白條豬肉價(jià)格,預(yù)測(cè)趨勢(shì)圖與原數(shù)據(jù)擬合良好。
3.4.2 滯后天數(shù)試驗(yàn)
預(yù)測(cè)時(shí)間序列問題通常會(huì)產(chǎn)生滯后性,即后幾天的預(yù)測(cè)數(shù)據(jù)會(huì)映射出其前幾天數(shù)據(jù)的特征,因此需要設(shè)置合理的滯后天數(shù)來進(jìn)行預(yù)測(cè),即用前幾天的價(jià)格數(shù)據(jù)預(yù)測(cè)后一天的價(jià)格,減少預(yù)測(cè)誤差。為驗(yàn)證CT-BiSeq2seq模型滯后天數(shù)為何值時(shí)價(jià)格的預(yù)測(cè)效果達(dá)到最優(yōu),設(shè)置了不同滯后天數(shù)的預(yù)測(cè)試驗(yàn),其他參數(shù)與驗(yàn)證集得到的超參數(shù)保持一致,試驗(yàn)結(jié)果如表4所示。
表4 不同滯后天數(shù)的模型預(yù)測(cè)結(jié)果
由表4可得,滯后天數(shù)在9~13 d時(shí),預(yù)測(cè)誤差范圍較小。滯后天數(shù)為11 d時(shí),預(yù)測(cè)精度最高,MSE,MAE、MAPE值均達(dá)到最小,分別為0.657 4元2/kg2,0.504 6元/kg,2.116 7%。當(dāng)滯后天數(shù)為5 d時(shí),預(yù)測(cè)誤差開始降低,當(dāng)滯后天數(shù)為11 d時(shí),預(yù)測(cè)誤差達(dá)到最小,此后預(yù)測(cè)誤差又開始增加,但整體的預(yù)測(cè)誤差較小,說明本模型可較好用于農(nóng)產(chǎn)品價(jià)格預(yù)測(cè)。這是由于農(nóng)產(chǎn)品價(jià)格多遵循季節(jié)性變化規(guī)律,若直接設(shè)置季節(jié)性周期的滯后天數(shù),滯后天數(shù)將較大,輸入數(shù)據(jù)的序列長(zhǎng)度會(huì)變長(zhǎng)。較長(zhǎng)的長(zhǎng)序列數(shù)據(jù)在模型運(yùn)行過程中容易遺忘靠前的序列數(shù)據(jù),使得預(yù)測(cè)結(jié)果貼近靠后的序列數(shù)據(jù),輸入數(shù)據(jù)復(fù)雜度的提升并沒有帶來預(yù)測(cè)精度的提升,當(dāng)滯后天數(shù)在13~15 d時(shí)損失值已經(jīng)開始增大。因此拆分季節(jié)性周期的長(zhǎng)度,縮短滯后天數(shù)可以盡可能保證模型學(xué)習(xí)數(shù)據(jù)間的規(guī)律,于是將滯后天數(shù)最大值設(shè)為15 d。但滯后天數(shù)太小時(shí),模型容易陷入局部最優(yōu)解,且不能充分學(xué)習(xí)時(shí)間序列的完整特征,當(dāng)滯后天數(shù)處于3~7 d天時(shí),損失值較大,其中3~5 d的損失值(MAE)均接近于1元/kg。最終確定最小滯后天數(shù)與最大滯后天數(shù)的中間值9~13 d為較為合適的滯后天數(shù)。
3.4.3 不同數(shù)據(jù)集檢測(cè)
為了驗(yàn)證本模型在其他農(nóng)產(chǎn)品數(shù)據(jù)集上預(yù)測(cè)的準(zhǔn)確性,選取菠菜、蘋果、雞蛋三類常用農(nóng)產(chǎn)品的價(jià)格數(shù)據(jù)進(jìn)行預(yù)測(cè),數(shù)據(jù)來源與3.1節(jié)相同,數(shù)據(jù)集時(shí)間范圍取2021年1月1日至2022年2月28日農(nóng)產(chǎn)品的每日價(jià)格,同時(shí)輸入這3種數(shù)據(jù)的CEEMD價(jià)格分解數(shù)據(jù)、公眾關(guān)注度、平均氣溫、化肥價(jià)格(尿素價(jià)格)、農(nóng)產(chǎn)品價(jià)格等7維數(shù)據(jù),具體如圖12所示。
圖12 不同農(nóng)產(chǎn)品輸入數(shù)據(jù)
將數(shù)據(jù)集劃分為訓(xùn)練集、驗(yàn)證集、測(cè)試集,各部分所占比例分別為(6∶2∶2),模型的網(wǎng)絡(luò)結(jié)構(gòu)與3.3.4節(jié)保持一致,設(shè)置學(xué)習(xí)率分別為0.01、0.001、0.000 1,訓(xùn)練批次分別為32、64、128,訓(xùn)練周期為100、150、200,TCN、LSTM與Bi-LSTM的神經(jīng)元個(gè)數(shù)按照高維度提取特征的思想分別設(shè)為32,64,128。選擇滯后天數(shù)11 d。最終尋得較優(yōu)超參數(shù),當(dāng)設(shè)置訓(xùn)練的批次大小為32,訓(xùn)練周期為100,學(xué)習(xí)率為0.001時(shí)損失誤差最小。菠菜、蘋果、雞蛋3種農(nóng)產(chǎn)品在測(cè)試集中的MSE、MAE、MAPE分別如表5所示,驗(yàn)證集與測(cè)試集的預(yù)測(cè)結(jié)果如圖13所示。
表5 不同農(nóng)產(chǎn)品的預(yù)測(cè)誤差對(duì)比結(jié)果
由表5可得,3種農(nóng)產(chǎn)品的MSE值均不超過0.65,因此本模型在不同種類的農(nóng)產(chǎn)品價(jià)格預(yù)測(cè)上也有較高的準(zhǔn)確性,同時(shí)在數(shù)據(jù)量變小時(shí),預(yù)測(cè)誤差仍然很低。根據(jù)圖13可得,3種農(nóng)產(chǎn)品的預(yù)測(cè)值基本接近實(shí)際值。具體分析,菠菜預(yù)測(cè)誤差的MAPE值相對(duì)較大。經(jīng)分析菠菜價(jià)格在2021年內(nèi)的波動(dòng)較大,蘋果價(jià)格與雞蛋價(jià)格波動(dòng)較小,較大的價(jià)格波動(dòng)導(dǎo)致菠菜價(jià)格的預(yù)測(cè)誤差相對(duì)較大,蘋果與雞蛋的預(yù)測(cè)誤差相對(duì)較小。
圖13 菠菜、蘋果、雞蛋價(jià)格預(yù)測(cè)結(jié)果
由于各農(nóng)產(chǎn)品價(jià)格具有不同的波動(dòng)特點(diǎn),因此對(duì)滯后天數(shù)的選擇需要根據(jù)其特點(diǎn)進(jìn)行設(shè)置。本文最后針對(duì)菠菜、蘋果、雞蛋3種農(nóng)產(chǎn)品價(jià)格,在超參數(shù)不變的情況下,選擇不同的滯后天數(shù)進(jìn)行試驗(yàn),結(jié)果如表6所示。結(jié)果發(fā)現(xiàn)菠菜與雞蛋在滯后天數(shù)為11 d時(shí)預(yù)測(cè)誤差達(dá)到最小,而蘋果在滯后天數(shù)為7 d時(shí)預(yù)測(cè)誤差達(dá)到最小。具體分析,針對(duì)價(jià)格波動(dòng)較大的農(nóng)產(chǎn)品,采用較大的滯后天數(shù)可以更完整的學(xué)習(xí)價(jià)格的變化規(guī)律;而對(duì)于價(jià)格波動(dòng)較小的農(nóng)產(chǎn)品,由于其價(jià)格前后趨勢(shì)變化較小,選擇較小的滯后天數(shù)就可以完成訓(xùn)練。
表6 不同農(nóng)產(chǎn)品的滯后天數(shù)試驗(yàn)
本文結(jié)合信號(hào)分解和深度學(xué)習(xí),按照分解-重構(gòu)-提取-關(guān)聯(lián)-輸出的思想,提出了一種基于CT-BiSeq2seq模型的農(nóng)產(chǎn)品價(jià)格預(yù)測(cè)方法,并對(duì)白條豬肉、菠菜、蘋果、雞蛋價(jià)格進(jìn)行實(shí)證分析,得出以下結(jié)論。
1)本文提出的預(yù)測(cè)模型結(jié)合信號(hào)分解與深度學(xué)習(xí)的方法,經(jīng)過分解-重構(gòu)-提取-關(guān)聯(lián)-輸出5個(gè)步驟,對(duì)比其他組合預(yù)測(cè)模型,可較大幅度提高價(jià)格預(yù)測(cè)的準(zhǔn)確性。其評(píng)價(jià)指標(biāo)均方誤差(MSE)、平均絕對(duì)誤差(MAE)、平均絕對(duì)百分比誤差(MAPE)的值在預(yù)測(cè)白條豬肉價(jià)格時(shí)分別可達(dá)到0.657 4元2/kg2、0.504 6元/kg、2.116 7%均維持在較小范圍。并且在其他農(nóng)產(chǎn)品數(shù)據(jù)集上也有較好的預(yù)測(cè)精度。這為解決農(nóng)產(chǎn)品的預(yù)測(cè)問題提供跨學(xué)科融合的思路。
2)通過互補(bǔ)集合經(jīng)驗(yàn)?zāi)B(tài)分解(Complementary Ensemble Empirical Mode Decomposition,CEEMD)將復(fù)雜數(shù)據(jù)轉(zhuǎn)化為多個(gè)簡(jiǎn)單數(shù)據(jù),再引入平均氣溫、養(yǎng)殖成本、群眾關(guān)注度等數(shù)據(jù)進(jìn)行多維度的訓(xùn)練。CEEMD-LSTM模型的MSE、MAE、MAPE相比于LSTM網(wǎng)絡(luò)分別降低17.91%、25.73%、33.87%;CEEMD-Seq2seq模型的MSE、MAE、MAPE相比于Seq2seq模型分別降低33.53%、40.03%、44.32%,預(yù)測(cè)誤差減小,這證明了數(shù)據(jù)分解對(duì)降低損失誤差的有效性。其中分解的高頻項(xiàng)代表常規(guī)事件對(duì)整體價(jià)格走勢(shì)的影響,其對(duì)農(nóng)產(chǎn)品價(jià)格的波動(dòng)影響較小。殘差項(xiàng)反映農(nóng)產(chǎn)品價(jià)格的內(nèi)在長(zhǎng)期走勢(shì),主要由供求關(guān)系決定。低頻項(xiàng)代表重大事件對(duì)農(nóng)產(chǎn)品價(jià)格走勢(shì)的影響,其對(duì)農(nóng)產(chǎn)品價(jià)格的波動(dòng)影響較大。保證殘差項(xiàng)(供求關(guān)系)平衡與健全重大事件預(yù)警體系對(duì)防止農(nóng)產(chǎn)品價(jià)格波動(dòng)有重大意義。
3)在農(nóng)產(chǎn)品價(jià)格預(yù)測(cè)中滯后天數(shù)的選擇較為關(guān)鍵,由本文可得,價(jià)格波動(dòng)大的農(nóng)產(chǎn)品宜選擇較大的滯后天數(shù),價(jià)格波動(dòng)小的農(nóng)產(chǎn)品宜選擇較小的滯后天數(shù)。
本文提出的CT-BiSeq2seq模型具有良好的預(yù)測(cè)性能和泛化能力,可以為農(nóng)產(chǎn)品價(jià)格的預(yù)測(cè)提供參考依據(jù)。
[1] 馬宏陽,趙霞. 中國(guó)小宗農(nóng)產(chǎn)品價(jià)格波動(dòng)特征的實(shí)證分析—以大蒜為例[J]. 農(nóng)業(yè)技術(shù)經(jīng)濟(jì),2021(6):33-48.
Ma Hongyang, Zhao Xia. An empirical analysis of the price fluctuation characteristics of China's small agricultural products[J]. Journal of Agrotechnical Economics, 2021(6): 33-48. (in Chinese with English abstract)
[2] Weng Y C, Wang X J, Hua J, et al. Forecasting horticultural products price using ARIMA model and neural network based on a large-scale data set collected by web crawler[J]. Ieee Transactions on Computational Social Systems, 2019, 6(3): 547-553.
[3] 張貴生,張信東. 基于微分信息的ARMAD-GARCH股價(jià)預(yù)測(cè)模型[J]. 系統(tǒng)工程理論與實(shí)踐,2016,36(5):1136-1145.
Zhang Guisheng, Zhang Xindong. A differential-information based ARMAD-GARCH stock price forecasting model[J]. Systems Engineering-Theory & Practice, 2016, 36(5): 1136-1145. (in Chinese with English abstract)
[4] 劉慧,李寧輝. 我國(guó)小宗農(nóng)產(chǎn)品價(jià)格波動(dòng)趨勢(shì)及其預(yù)測(cè):以綠豆為例的分析[J]. 價(jià)格理論與實(shí)踐,2012(6):57-58.
Liu Hui, Li Ninghui. Price fluctuation trend and forecast of small agricultural products in China: Taking mung bean as an example[J]. Price: Theory & Practice, 2012(6): 57-58. (in Chinese with English abstract)
[5] 熊濤,鮑玉昆. 基于動(dòng)態(tài)模型平均的大豆期貨價(jià)格預(yù)測(cè)研究[J]. 中國(guó)管理科學(xué),2020,28(5):79-88.
Xiong Tao, Bao Yukong. Soybean future price forecasting based on dynamic model averageing[J]. Chinese Journal of Management Science, 2020, 28(5): 79-88. (in Chinese with English abstract)
[6] 賈寶疆. 中國(guó)主要農(nóng)產(chǎn)品銷售價(jià)格預(yù)測(cè)[J]. 統(tǒng)計(jì)與決策,2014(20):100-102.
Jia Baojiang. Sales price forecast of main agricultural products in China[J]. Statistics & Decision, 2014(20): 100-102. (in Chinese with English abstract)
[7] 崔暢,李國(guó)偉. 我國(guó)農(nóng)產(chǎn)品價(jià)格的結(jié)構(gòu)變化特征及影響因素分析[J]. 數(shù)理統(tǒng)計(jì)與管理,2019,38(1):1-15.
Cui Chang, Li Guowei. Analysis of structural change characteristics and influencing factors of agricultural product prices[J]. Journal of Applied Statistics and Management, 2019, 38(1): 1-15. (in Chinese with English abstract)
[8] 唐振鵬,吳俊傳,張婷婷,等. 基于二次分解和集成學(xué)習(xí)的糧食期貨價(jià)格預(yù)測(cè)研究[J]. 系統(tǒng)工程理論與實(shí)踐,2021,41(11):2837-2849.
Tang Zhenpeng, Wu Junchuan, Zhang Tingting, et al. Research on grain futures price forecasting based on secondary decomposition and ensemble learning[J]. Systems Engineering-Theory & Practice, 2021, 41(11): 2837-2849. (in Chinese with English abstract)
[9] 孫少杰,吳門新,莊立偉,等. 基于CNN卷積神經(jīng)網(wǎng)絡(luò)和BP神經(jīng)網(wǎng)絡(luò)的冬小麥縣級(jí)產(chǎn)量預(yù)測(cè)[J]. 農(nóng)業(yè)工程學(xué)報(bào),2022,38(11):151-160.
Sun Shaojie, Wu Menxin, Zhuang Liwei, et al. Forecasting winter wheat yield at county level using CNN and BP neural networks[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2022, 38(11): 151-160. (in Chinese with English abstract)
[10] 王瀅藝,徐勝祥,趙永存,等. 基于VNIR和機(jī)器學(xué)習(xí)算法的原狀土剖面Cu含量預(yù)測(cè)[J]. 農(nóng)業(yè)工程學(xué)報(bào),2022,38(7):336-344.
Wang Yingyi, Xu Shengxiang, Zhao Yongcun, et al. Prediction of Cu concentrations in intact soil profiles based on VNIR and machine learning algorithms[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2022, 38(7): 336-344. (in Chinese with English abstract)
[11] 李哲敏,許世衛(wèi),崔利國(guó),等. 基于動(dòng)態(tài)混沌神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)研究:以馬鈴薯時(shí)間序列價(jià)格為例[J]. 系統(tǒng)工程理論與實(shí)踐,2015,35(8):2083-2091.
Li Zhemin, Xu Shiwei, Cui Liguo, et al. Prediction study based on dynamic chaotic neural network Taking potato time: series prices as an example[J]. Systems Engineering-Theory & Practice, 2015, 35(8): 2083-2091. (in Chinese with English abstract)
[12] 王澤鵬,陳曉燕,龐濤,等. 一種基于改進(jìn)時(shí)間卷積網(wǎng)絡(luò)的生豬價(jià)格預(yù)測(cè)方法[J]. 中國(guó)農(nóng)業(yè)大學(xué)學(xué)報(bào),2021,26(12):137-144.
Wang Zepeng, Chen Xiaoyan, Pang Tao, et al. A hog price prediction method based on improved temporal convolutional network[J]. Journal of China Agricultural University, 2021, 26(12): 137-144. (in Chinese with English abstract)
[13] Sterkenburg T F, Grunwald P D. The no-free-lunch theorems of supervised learning[J]. Synthese, 2021, 199(3/4): 9979-10015.
[14] Gambella C, Ghaddar B, Naoum-Sawaya J. Optimization problems for machine learning: A survey[J]. European Journal Of Operational Research, 2021, 290(3): 807-828.
[15] 劉雙印,黃建德,徐龍琴,等基于PCA-SVR-ARMA的獅頭鵝養(yǎng)殖禽舍氣溫組合預(yù)測(cè)模型[J]. 農(nóng)業(yè)工程學(xué)報(bào),2020,36(11):225-233.
Liu Shuangyin, Huang Jiande, Xu Longqin, et al. Combined model for prediction of air temperature in poultry house for lion-head goose breeding based on PCA-SVR-ARMA[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2020, 36(11): 225-233. (in Chinese with English abstract)
[16] 徐映梅,陳堯. 季節(jié)ARIMA模型與LSTM神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)的比較[J]. 統(tǒng)計(jì)與決策,2021,37(2):46-50.
Xu Yingmei, Chen Yao. Comparison between seasonal ARIMA model and LSTM neural network forecast[J]. Statistics & Decision, 2021, 37(2): 46-50. (in Chinese with English abstract)
[17] 孫少龍,魏云捷,汪壽陽. 基于分解-聚類-集成學(xué)習(xí)的匯率預(yù)測(cè)方法[J]. 系統(tǒng)工程理論與實(shí)踐,2022,42(3):664-677.
Sun Shaolong, Wei Yunjie, Wang Shouyang. Exchange rates forecasting method with decomposition-clustering-ensemble learning approach[J]. Systems Engineering-Theory & Practice, 2022, 42(3): 664-677. (in Chinese with English abstract)
[18] 歐陽紅兵,黃亢,閆洪舉. 基于LSTM神經(jīng)網(wǎng)絡(luò)的金融時(shí)間序列預(yù)測(cè)[J]. 中國(guó)管理科學(xué),2020,28(4):27-35.
Ouyang Hongbin, Huang Kang, Yan Hongju. Prediction of financial time series based on LSTM neural network[J]. Chinese Journal of Management Science, 2020, 28(4): 27-35. (in Chinese with English abstract)
[19] 朱幫助,魏一鳴. 基于GMDH-PSO-LSSVM的國(guó)際碳市場(chǎng)價(jià)格預(yù)測(cè)[J]. 系統(tǒng)工程理論與實(shí)踐,2011,31(12):2264-2271.
Zhu Bangzhu, Wei Yiming. Carbon price prediction based on integration of GMDH, particle swarm optimization and least squares support vector machines[J]. Systems Engineering-Theory & Practice, 2011, 31(12): 2264-2271. (in Chinese with English abstract)
[20] 王書平,朱艷云. 基于多尺度分析的小麥價(jià)格預(yù)測(cè)研究[J]. 中國(guó)管理科學(xué),2016,24(5):85-91.
Wang Shuping, Zhu Yanyun. Forecasting of wheat price based on multi-scale analysis[J]. Chinese Journal of Management Science, 2016, 24(5): 85-91. (in Chinese with English abstract)
[21] 王玨,齊琛,李明芳. 基于SSA-ELM的大宗商品價(jià)格預(yù)測(cè)研究[J]. 系統(tǒng)工程理論與實(shí)踐,2017,37(8):2004-2014.
Wang Yu, Qi Chen, Li Mingfang. Prediction of commodity prices based on SSA-ELM[J]. Systems Engineering-Theory & Practice, 2017, 37(8): 2004-2014. (in Chinese with English abstract)
[22] 方雪清,吳春胤,俞守華,等. 基于EEMD-LSTM的農(nóng)產(chǎn)品價(jià)格短期預(yù)測(cè)模型研究[J]. 中國(guó)管理科學(xué),2021,29(11):68-77.
Fang Xueqing, Wu Chunyin, Yu Shouhua, et al. Research on Short-term forecast model of agricultural product price based on EEMD-LSTM[J]. Chinese Journal of Management Science, 2021, 29(11): 68-77. (in Chinese with English abstract)
[23] 劉雪,劉錦濤,李佳利,等. 基于季節(jié)分解和長(zhǎng)短期記憶的北京市雞蛋價(jià)格預(yù)測(cè)[J]. 農(nóng)業(yè)工程學(xué)報(bào),2020,36(9):331-340.
Liu Xue, Liu Jintao, Li Jiali, et al. Egg price forecasting in Beijing market using seasonal-trend decomposition procedures based on seasonal decomposition and long-short term memory[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2020, 36(9): 331-340. (in Chinese with English abstract)
[24] 趙鳳展,郝帥,張宇,等. 基于變分模態(tài)分解-BA-LSSVM算法的配電網(wǎng)短期負(fù)荷預(yù)測(cè)[J]. 農(nóng)業(yè)工程學(xué)報(bào),2019,35(14):190-197.
Zhao Fengzhan, Hao Shuai, Zhang Yu, et al. Short-term load forecasting for distribution transformer based on VMD-BA-LSSVM algorithm[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2019, 35(14): 190-197. (in Chinese with English abstract)
[25] Fu Z Y, Long J J, Chen W Q, et al. Reliability of the prediction model for landslide displacement with step-like behavior[J]. Stochastic Environmental Research And Risk Assessment, 2021, 35(11): 2335-2353.
[26] 楊靜凌,唐國(guó)強(qiáng),張建文. 基于CEEMD-Elman-Adaboost組合模型的國(guó)際原油價(jià)格預(yù)測(cè)研究[J]. 重慶理工大學(xué)學(xué)報(bào)(自然科學(xué)),2021,35(3):260-267.
Yang Jingling, Tang Guoqiang, Zhang Jianwen. Research on prediction of international crude oil price based on CEEMD-Elman-Adaboost combination model[J]. Journal of Chongqing University of Technology (Natural Science), 2021, 35(3): 260-267. (in Chinese with English abstract)
[27] Zanghieri M, Benatti S, Burrello A, et al. Robust real-time embedded EMG recognition framework using temporal convolutional networks on a multicore IoT processor[J]. Ieee Transactions On Biomedical Circuits And Systems, 2020, 14(2): 244-256.
[28] Yang H S, Ding K Q, Qiu R C, et al. Remaining useful life prediction based on normalizing flow embedded Sequence-to-Sequence learning[J]. Ieee Transactions On Reliability, 2021, 70(4): 1342-1354.
[29] Lecun Y, Bengio Y, Hinton G. Deep learning[J]. Nature, 2015, 521(7553):436–444
[30] 馮建英,吳丹丹,王博,等. 中文在線評(píng)論文本分析對(duì)生鮮農(nóng)產(chǎn)品電商影響研究綜述[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào),2021,52(S1):504-512.
Feng Jianying, Wu Dandan, Wang Bo, et al. Online comments analysis and its application research progress in e-commerce of fresh agricultural products[J]. Transactions of the Chinese Society for Agricultural Machinery, 2021, 52(S1): 504-512. (in Chinese with English abstract)
[31] Bohra N, Bhatnagar V. Group level social media popularity prediction by MRGB and Adam optimization[J]. Journal of Combinatorial Optimization, 2021, 41(2): 328-347.
[32] 蘇娟,方舒,劉博,等. 基于模態(tài)組合的短期負(fù)荷預(yù)測(cè)方法[J]. 農(nóng)業(yè)工程學(xué)報(bào),2021,37(14):186-196.
Su Juan, Fang Shu, Liu Bo, et al. Short term load prediction method based on modal combination[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(14): 186-196. (in Chinese with English abstract)
Agricultural product price prediction based on signal decomposition and deep learning
Wang Runzhou, Zhang Xinsheng※, Wang Minghu
(,,710055,)
A stable price of agricultural products is of great significance to the social economy and agricultural development in recent years. But, it is difficult to accurately predict the agricultural product prices, due to the non-stationary, non-linear, and high volatility. In this study, a novel prediction model of the decomposition-reconstruction-extraction-associated-output agricultural product price (CT-BiSeq2seq) was proposed using signal decomposition and deep learning. The multi-dimensional data was added to improve the model prediction accuracy, such as the average temperature, and fertilizer cost (price of pig formula feed and urea). Firstly, the original price series were divided into simple ones using the complementary ensemble empirical mode decomposition (CEEMD). Secondly, the original price series was reconstructed into the high-frequency, low-frequency, and residual items, according to the Pearson correlation coefficients and the decomposed subsequence. Thirdly, the data features of the reconstructed sequence were extracted via a temporal convolutional network (TCN). The 7-dimensional data was input to extract the influencing factors on the price of agricultural products. The output steps were similar to the input ones. Fourthly, a Biseq2seq model was constructed with an encoder and a decoder. A bi-directional Long Short-Term Memory network (Bi-LSTM) was introduced into the encoder to strengthen the global correlation between sequence data. Finally, the LSTM network was introduced into the decoder to output the predictive value of the number of steps. Taking the pork price of the Fengtai District wholesale market in Beijing of China for empirical analysis, the prediction performance of the CT-BiSeq2seq model was remarkably better than the rest benchmark models, indicating the number of lags reached the optimal in 11 days. The mean square error (MSE), the mean absolute error (MAE), and the mean absolute percentage error (MAPE) were 0.657 4 rmb2/kg2、0.504 6 rmb/kg、2.116 7%, respectively. Furthermore, the few-day lag cannot fully reflect the overall characteristics of agricultural product prices, where there was easy access to fall into the local optimum. Once the lag days were too long, overfitting was easy to occur, leading to low prediction accuracy. An accurate and stable prediction was also achieved in other datasets. The MSEs of spinach, apple, and egg were 0.627 7 RMB2/kg2, 0.463 2 RMB2/kg2, and 0.552 6 RMB2/kg2, respectively, while the MAEs were 0.543 1 rmb/kg, 0.442 5 rmb/kg, and 0.533 9 rmb/kg, respectively, and the MAPEs were 3.204 7%, 2.236 1% and 2.231 4%, respectively. Therefore, the agricultural products with large price fluctuations were suitable for the large lag steps, whereas, the small price fluctuations were suitable for the small lag steps. A large number of lag days were completely learned from the trend in large price changes. The short lag days were used to fit the time sequence in the smaller price changes, due to the relatively stable trend of price change. Specifically, the prices of spinach and eggs fluctuated greatly in the data range, where the loss error reached the minimum over the 11 lag days, respectively. By contrast, the price of Apples fluctuated less over the 7 lag days. This model can provide a strong reference to forecast the price fluctuation of agricultural products.
agricultural price; price forecast; complementary ensemble empirical mode decomposition; temporal convolutional network; bi-directional sequence to sequence model; long-short term memory
10.11975/j.issn.1002-6819.2022.24.028
F304.2;TP301.6
A
1002-6819(2022)-24-0256-12
王潤(rùn)周,張新生,王明虎. 基于信號(hào)分解和深度學(xué)習(xí)的農(nóng)產(chǎn)品價(jià)格預(yù)測(cè)[J]. 農(nóng)業(yè)工程學(xué)報(bào),2022,38(24):256-267.doi:10.11975/j.issn.1002-6819.2022.24.028 http://www.tcsae.org
Wang Runzhou, Zhang Xinsheng, Wang Minghu. Agricultural product price prediction based on signal decomposition and deep learning[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2022, 38(24): 256-267. (in Chinese with English abstract) doi:10.11975/j.issn.1002-6819.2022.24.028 http://www.tcsae.org
2022-08-26
2022-10-26
國(guó)家自然科學(xué)基金(41877527);陜西省重點(diǎn)產(chǎn)業(yè)創(chuàng)新鏈(群)-工業(yè)領(lǐng)域項(xiàng)目(2022ZDLGY06-04);陜西省教育廳重點(diǎn)科學(xué)研究計(jì)劃項(xiàng)目(20JT033)
王潤(rùn)周,博士生,研究方向?yàn)橹悄苄畔⑻幚砼c模式識(shí)別。Email:wangrunzhou@xauat.edu.cn
張新生,博士,教授,研究方向?yàn)闄C(jī)器學(xué)習(xí)、智能信息處理等。Email:xinsheng.zh@outlook.com