袁世一
(中國農(nóng)業(yè)科學(xué)院農(nóng)業(yè)信息研究所,北京 100081)
糧食安全是一個(gè)重要的社會(huì)問題,它不僅關(guān)系到人民的營養(yǎng)和健康,而且關(guān)系到國家的經(jīng)濟(jì)發(fā)展和社會(huì)穩(wěn)定。糧食安全的重要性在于它能夠確保人民獲得足夠的營養(yǎng),從而保障人民的健康,促進(jìn)社會(huì)發(fā)展,維護(hù)國家的經(jīng)濟(jì)安全[1]。新中國成立初期,國家就出臺(tái)了一系列政策并制定相應(yīng)措施來鼓勵(lì)糧食生產(chǎn)。只有保證糧食資源,人民生活才能得到保證,社會(huì)才能實(shí)現(xiàn)更好的進(jìn)步。糧食產(chǎn)量估計(jì)對國民經(jīng)濟(jì)發(fā)展有著至關(guān)重要的作用,因此依靠糧食產(chǎn)量的歷史信息規(guī)律,采用適當(dāng)?shù)哪P秃头椒ㄟM(jìn)行預(yù)測對糧食安全有著非常重要的意義,也為國家實(shí)行政策調(diào)控提供理論支持。隨著信息技術(shù)的發(fā)展,數(shù)據(jù)量不斷增大,處理效率和精度成為了研究的重點(diǎn)[2]。糧食產(chǎn)量預(yù)測作為一種時(shí)間序列問題,其本質(zhì)是對糧食數(shù)據(jù)隨時(shí)間變化的非線性和隨機(jī)性進(jìn)行預(yù)測[3-4]。傳統(tǒng)的精確數(shù)學(xué)模型難以有效預(yù)測糧食產(chǎn)量。目前國內(nèi)外學(xué)者主要采用統(tǒng)計(jì)預(yù)測法、時(shí)間序列預(yù)測法和神經(jīng)網(wǎng)絡(luò)預(yù)測等方法來解決這一問題[5-7]。統(tǒng)計(jì)預(yù)測法是指通過建立相關(guān)模型來分析糧食產(chǎn)量與各種因素之間的關(guān)系,從而進(jìn)行預(yù)測。時(shí)間序列模型屬于統(tǒng)計(jì)預(yù)測方法,是基于歷史數(shù)據(jù)對未來數(shù)據(jù)進(jìn)行預(yù)測,對于線性趨勢序列,具有較高的精度[8-9]。RBF 神經(jīng)網(wǎng)絡(luò)擁有較強(qiáng)的非線性映射能力,對于小樣本數(shù)據(jù)有著較好的泛化能力,因此在某些場景下具有較高的適用性[10-11]。但是,由于糧食產(chǎn)量數(shù)據(jù)序列波動(dòng)性較大,預(yù)測問題復(fù)雜多變,單一的時(shí)間序列模型往往無法降低序列信號(hào)的非平穩(wěn)性,需要引入其他預(yù)測模型或者采取數(shù)據(jù)預(yù)處理技術(shù)來提高預(yù)測精度[12-14]。因此,學(xué)者們通常采用組合預(yù)測模型,將多種預(yù)測模型結(jié)合起來,提高預(yù)測精度。在建立預(yù)測模型之前,首先采取平穩(wěn)化、差分等方法對數(shù)據(jù)進(jìn)行預(yù)處理,降低數(shù)據(jù)序列的非平穩(wěn)性,提高預(yù)測精度[15-17]。
經(jīng)驗(yàn)?zāi)B(tài)分解(Empirical Mode Decomposition,EMD)和極限學(xué)習(xí)機(jī)(Extreme Learning Machine,ELM)作為新型的數(shù)據(jù)處理方法,在信號(hào)處理、時(shí)間序列預(yù)測、特征提取等領(lǐng)域得到了廣泛應(yīng)用。經(jīng)驗(yàn)?zāi)B(tài)分解是一種基于數(shù)據(jù)本身的自適應(yīng)信號(hào)處理方法,它將原始信號(hào)分解為多個(gè)固有模式函數(shù)(IMF),每個(gè)IMF 都代表了不同頻率的振動(dòng)模式。EMD 方法具有良好的局部特性和非線性逼近能力,在信號(hào)處理、圖像處理等具有較強(qiáng)的優(yōu)勢。Hai 等[18]通過改進(jìn)EMD提高分解效率,Lakshmipriya等[19]對EMD進(jìn)行了改進(jìn)和拓展,引入小波變換提高IMF的精度。極限學(xué)習(xí)機(jī)作為一種快速有效的機(jī)器學(xué)習(xí)方法,具有學(xué)習(xí)速度快、泛化能力強(qiáng)等優(yōu)點(diǎn)。因此在分類識(shí)別、回歸分析、時(shí)間序列預(yù)測等領(lǐng)域得到了廣泛應(yīng)用。Roul[20]引入深度學(xué)習(xí)的思想來提高內(nèi)部表示的表達(dá)能力,開發(fā)多層ELM 來處理復(fù)雜的數(shù)據(jù)結(jié)構(gòu),Reji 等[21]應(yīng)用ELM方法進(jìn)行網(wǎng)絡(luò)安全等方面的研究。也有學(xué)者將2 種方法結(jié)合起來,Wang等[22]將EMD 通過分解原始信號(hào)來提取特征,然后采用ELM 方法進(jìn)行預(yù)測;Punam等[23]先采用EMD 分離圖像的紋理和幾何特征,然后運(yùn)用ELM方法進(jìn)行分類和識(shí)別。
為了提高糧食產(chǎn)量時(shí)間序列的預(yù)測精度,本文采用經(jīng)驗(yàn)?zāi)B(tài)分解方法對原始數(shù)據(jù)進(jìn)行分解,并挖掘其內(nèi)在特征,隨后使用鯨魚算法優(yōu)化極限學(xué)習(xí)機(jī)的組合預(yù)測模型,對各個(gè)分量進(jìn)行預(yù)測,并將它們的預(yù)測結(jié)果進(jìn)行組合疊加。通過與其他預(yù)測模型進(jìn)行比較,本文發(fā)現(xiàn)建立組合預(yù)測模型不僅降低了運(yùn)算規(guī)模,還顯著提高了模型的預(yù)測精度和泛化能力。這說明本文的方法可以有效地解決非線性強(qiáng)、時(shí)間序列復(fù)雜的糧食產(chǎn)量預(yù)測問題,有望在實(shí)際應(yīng)用中發(fā)揮重要作用。
經(jīng)驗(yàn)?zāi)B(tài)分解法(EMD)是一種新興的信號(hào)分析技術(shù),它不需要事先設(shè)置任何基函數(shù),而是依據(jù)信號(hào)本身的時(shí)間尺度特性來實(shí)現(xiàn)信號(hào)分解[24-25]。與傳統(tǒng)的傅里葉分解和小波分解方法不同,EMD 算法可以處理不同形式的信息,在解決非平滑和非線性信息時(shí)具有很大的優(yōu)越性[26-27]。在信號(hào)分解階段,EMD 將原始信號(hào)通過對其極值點(diǎn)進(jìn)行插值擬合得到一系列本地振動(dòng)模態(tài)函數(shù)(Intrinsic Mode Functions,IMF),并將剩余的殘差也視為其中一個(gè)IMF,直至滿足某些停止準(zhǔn)則。在Hilbert 譜分析階段,EMD 將每一個(gè)IMF 通過Hilbert 變換轉(zhuǎn)化為帶有幅度和頻率調(diào)制信息的復(fù)數(shù)信號(hào),然后計(jì)算其瞬時(shí)頻率和瞬時(shí)振幅。由于IMF 的局部特征和自我相似性,EMD 算法能夠有效地提取數(shù)據(jù)的內(nèi)在特征,適用于分析非線性、非平滑信息序列,具有很高的信噪比。分解模型步驟如下:
1)根據(jù)給出的原始信號(hào)x(t),求得所有的極大值和極小值點(diǎn)。
2)根據(jù)極大值和極小值點(diǎn)描繪出上下包絡(luò)線μ1(t)和μ2(t),隨后根據(jù)上下包絡(luò)線求得平均值h(t):
3)將原始信號(hào)x(t)減去均值h(t)得到中間信號(hào)f(t),即:
4)通過中間信號(hào)f(t)來判定是否符合IMF函數(shù)定義的約束條件:
式中,SD為標(biāo)準(zhǔn)差,當(dāng)標(biāo)準(zhǔn)差α達(dá)到初始設(shè)定條件時(shí),EMD算法即可分解出第一個(gè)IMF分量,記作Ci(t)=fi(t)。否則當(dāng)不滿足給定條件時(shí),將中間信號(hào)當(dāng)作原始信號(hào)繼續(xù)重復(fù)上述步驟1~步驟4流程重新判斷。
5)新信號(hào)可由原始信號(hào)x(t)與上一個(gè)所得分量IMF1的差值獲得,同時(shí)重復(fù)上述流程,直至不能再分解為止,此時(shí)最后一個(gè)分量可以記為rn(t)。則原始信號(hào)可以重構(gòu)為:
式中,x(t)為原始信號(hào),Ci(t)表示經(jīng)分解后的第i個(gè)IMF分量,rn(t)表示為殘余分量。
傳統(tǒng)神經(jīng)網(wǎng)絡(luò)由于其運(yùn)算較為復(fù)雜和認(rèn)知能力的限制,可能導(dǎo)致其學(xué)習(xí)所得到的結(jié)果與實(shí)際數(shù)據(jù)之間存在較大的差異。ELM 是一種全新的快速學(xué)習(xí)算法,它可以隨意地初始化輸入層到隱層的權(quán)重和偏置,從而更容易獲得對應(yīng)的輸出權(quán)重,簡化了神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程,縮短了學(xué)習(xí)時(shí)間。ELM 還具有較高的運(yùn)行效率和泛化特性。相對于傳統(tǒng)神經(jīng)網(wǎng)絡(luò),ELM采用隨機(jī)生成權(quán)重矩陣的方法,不需要進(jìn)行迭代調(diào)整,從而加快了運(yùn)行速度[28]。此外,由于ELM 不需要進(jìn)行反向傳播算法的迭代計(jì)算,因此可以快速處理大量數(shù)據(jù),不會(huì)陷入局部最優(yōu)解。通過其高效的運(yùn)行速度、強(qiáng)大的泛化能力以及適用于大規(guī)模數(shù)據(jù)處理等優(yōu)勢,ELM 已經(jīng)成為了一種重要的機(jī)器學(xué)習(xí)方法,對于解決實(shí)際問題具有重要的意義。ELM 的拓?fù)湫问饺鐖D1所示。
圖1 ELM模型拓?fù)浣Y(jié)構(gòu)
模型的訓(xùn)練過程如下:
假設(shè)給定一組輸入數(shù)據(jù)X,則根據(jù)網(wǎng)絡(luò)訓(xùn)練和映射后可表示為:
式中,ωi=(ωi,1,ωi,2,…,ωi,n)T表示輸入層到隱藏層的連接權(quán)值,βi為輸出權(quán)重,bi表示為隱藏層閾值。ELM網(wǎng)絡(luò)可以以零誤差逼近訓(xùn)練樣本,可表示為那么原式可寫為:
根據(jù)式(6)轉(zhuǎn)化作矩陣形式表示為:
式中,H為輸出矩陣,具體可表示為:
最終通過最小二乘法求解極限學(xué)習(xí)機(jī)的輸出權(quán)重,記作β*,求解方程可表示為:
鯨魚優(yōu)化方法(Whale Optimization Algorithm,WOA)是一種靈活、高效的全局優(yōu)化算法,模擬了座頭鯨魚的社會(huì)活動(dòng)方式,并采用了氣泡網(wǎng)捕獵策略[29]。WOA算法通過對所有候選解的位置和速度進(jìn)行更新,逐步尋找最優(yōu)解。在WOA算法中,每個(gè)解都被視為一個(gè)鯨魚,而整個(gè)搜索空間則是鯨群的海洋環(huán)境。各個(gè)解之間的距離和相對位置決定了它們的“健康程度”,這又與其適應(yīng)度函數(shù)值相關(guān)聯(lián)。同時(shí),WOA 算法中引入了氣泡網(wǎng)捕獵策略,即在搜索過程中,鯨魚會(huì)產(chǎn)生氣泡網(wǎng)來困住獵物,從而增加抓捕獵物的概率。與其他優(yōu)化算法相比,WOA 算法具有運(yùn)行速度快、收斂性好、全局搜索能力強(qiáng)等優(yōu)點(diǎn),已廣泛應(yīng)用于函數(shù)優(yōu)化、特征選擇、機(jī)器學(xué)習(xí)等領(lǐng)域。
結(jié)合糧食產(chǎn)量預(yù)測問題的研究,可以看出,由于糧食生產(chǎn)歷史數(shù)據(jù)的復(fù)雜性和時(shí)間序列的非平穩(wěn)性,單一的預(yù)測模型不足以準(zhǔn)確地預(yù)測糧食產(chǎn)量。此時(shí),可以采用經(jīng)驗(yàn)?zāi)B(tài)分解方法和極限學(xué)習(xí)機(jī)方法進(jìn)行數(shù)據(jù)特征提取和建模,然后使用WOA 算法來組合各個(gè)模型的預(yù)測結(jié)果,提高預(yù)測精度。WOA 算法中的氣泡網(wǎng)捕獵策略可以增加搜索過程中最優(yōu)解的抓捕概率,從而更好地適應(yīng)非線性、非平穩(wěn)的時(shí)間序列。
因此,本文認(rèn)為在進(jìn)行糧食產(chǎn)量預(yù)測問題的研究中,采用EMD-ELM-WOA 等組合預(yù)測模型能夠更好地解決時(shí)間序列復(fù)雜性和非線性強(qiáng)的問題,進(jìn)一步提高預(yù)測結(jié)果的準(zhǔn)確性和穩(wěn)定性。預(yù)測流程如圖2所示。
圖2 鯨魚算法優(yōu)化的神經(jīng)網(wǎng)絡(luò)預(yù)測模型工作流程圖
WOA算法優(yōu)化ELM網(wǎng)絡(luò)模型原理具體如下:
1)輸入糧食樣本數(shù)據(jù),并進(jìn)行預(yù)處理。
2)初始化算法參數(shù),包括種群數(shù)目、上下邊界,同時(shí)選擇RMSE值作為適應(yīng)度函數(shù);
式中,M為時(shí)間序列的長度,y(k)表示時(shí)間序列的實(shí)際值(觀測值),y?(k)表示時(shí)間序列的預(yù)測值。
3)當(dāng)?shù)鷶?shù)目小于總迭代次數(shù)時(shí),更新鯨魚算法參數(shù)。
4)當(dāng)隨機(jī)概率p<0.5,同時(shí)模值A(chǔ)<1 時(shí),鯨魚群按下式進(jìn)行位置更新;
式中,(t)為鯨魚當(dāng)前位置矢量,(t)為最優(yōu)位置。
5)若A>1時(shí),會(huì)隨機(jī)進(jìn)行更新:
若P>0.5時(shí),根據(jù)式子更新鯨魚位置:
6)計(jì)算當(dāng)前群體中最優(yōu)個(gè)體,并保存?zhèn)€體位置。判斷是否達(dá)到迭代次數(shù),是則進(jìn)入下一步;否則令t=t+1,重復(fù)執(zhí)行步驟2~步驟6。
7)算法找到最優(yōu)ELM 的權(quán)值和閾值之后,重新代入到ELM神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練和預(yù)測。
本文從數(shù)據(jù)庫中調(diào)取了全國1949—2021 年的糧食產(chǎn)量數(shù)據(jù),樣本維度為72×1,在MATLAB 環(huán)境下,分別用ELM、ELM-WOA、EMD-ELM-WOA 模型進(jìn)行預(yù)測實(shí)驗(yàn)。將1949—2007年的糧食產(chǎn)量作為訓(xùn)練集,2008—2021年的數(shù)據(jù)作為測試集,并進(jìn)行相關(guān)分析。
引入1949—2021 年糧食產(chǎn)量時(shí)間序列X={x1,x2,…,xn},同時(shí)采用EMD 分解模型將原始序列X分解成m個(gè)若干分量IMF1,IMF2,…,IMFm和一個(gè)RS余量,將分解后的這些分量作為ELM 的輸入進(jìn)行訓(xùn)練,同時(shí)與鯨魚優(yōu)化算法進(jìn)行結(jié)合,最后將各個(gè)分量預(yù)測的結(jié)果值進(jìn)行疊加得到組合模型的預(yù)測結(jié)果[30]。原始的糧食產(chǎn)量時(shí)間序列為一維數(shù)據(jù),因此采用滾動(dòng)預(yù)測的方式對糧食產(chǎn)量進(jìn)行預(yù)測[31]。假定原始一維時(shí)序數(shù)據(jù)長度設(shè)定為T,輸入的長度為t,那么實(shí)際就會(huì)有T-t個(gè)樣本,輸入輸出就會(huì)依次滾動(dòng)進(jìn)行,具體形式參考表1。
表1 輸入輸出數(shù)據(jù)
隨后對原始序列的數(shù)據(jù)樣本做訓(xùn)練集和測試集的劃分,由于糧食產(chǎn)量變化差異明顯,因此在進(jìn)行模型訓(xùn)練之前要對數(shù)據(jù)進(jìn)行歸一化操作,以此來提高最終組合模型的精確程度,具體公式如下:
式中,x為原始數(shù)據(jù),xmax、xmin分別為原始數(shù)據(jù)的最大值和最小值。
選取全國1949—2021年共計(jì)72年全國糧食產(chǎn)量的數(shù)據(jù)進(jìn)行分析。圖3 為原始的糧食產(chǎn)量時(shí)間序列圖,從原始的時(shí)間序列可以看到,糧食產(chǎn)量中存在波動(dòng)性和非線性,變化趨勢總體呈上升趨勢。
圖3 1949—2021年糧食產(chǎn)量時(shí)間序列
在糧食產(chǎn)量預(yù)測中,原始的糧食產(chǎn)量序列具有很強(qiáng)的非線性和不穩(wěn)定性,因此需要通過一定的數(shù)據(jù)處理和分解方法來提取其內(nèi)在特征趨勢。采用EMD 方法對原始糧食產(chǎn)量序列進(jìn)行分解,降低數(shù)據(jù)的非線性,提高預(yù)測模型的精度。分解得到的3 個(gè)IMF 分量和1 個(gè)RS 余量可以反映出糧食產(chǎn)量數(shù)據(jù)中的內(nèi)在特征趨勢。在每個(gè)分量上都建立了ELM-WOA 預(yù)測模型,并通過多次實(shí)驗(yàn)找到了最佳的ELM 隱含層節(jié)點(diǎn)數(shù)目為15。在訓(xùn)練集測試集的比例設(shè)置為0.8/0.2 的情況下,采用鯨魚種群數(shù)目為50,最大迭代次數(shù)為100,歷史時(shí)刻的輸入num 值為5 的參數(shù)組合,同時(shí)在各自分量上進(jìn)行預(yù)測,如圖4所示。
圖4 EMD分解糧食產(chǎn)量序列
因此,通過EMD 分解和ELM-WOA 模型的建立,本文模型可以更好地分析糧食產(chǎn)量數(shù)據(jù)的內(nèi)在趨勢,并建立相應(yīng)的預(yù)測模型。在實(shí)驗(yàn)中,本文通過調(diào)整參數(shù)和不斷嘗試來得到最佳的預(yù)測效果和精度,為預(yù)測模型的優(yōu)化和改進(jìn)提供了有力的支持。
表2 列出了部分樣本分量預(yù)測結(jié)果值,其中包括14個(gè)樣本的IMF1、IMF2、IMF3、RS以及對應(yīng)的預(yù)測值??赏ㄟ^進(jìn)一步計(jì)算每個(gè)樣本的預(yù)測誤差,并繪制誤差分布圖或者誤差箱線圖,以便更好地了解預(yù)測模型的精度和誤差分布情況。
表2 部分樣本分量預(yù)測結(jié)果值
本文針對糧食產(chǎn)量預(yù)測問題,構(gòu)建單一的ELM神經(jīng)網(wǎng)絡(luò)、BP神經(jīng)網(wǎng)絡(luò)、SVM模型、EMD-ELM模型以及EMD-ELM-WOA組合預(yù)測模型,對各個(gè)模型的預(yù)測結(jié)果進(jìn)行比較,如圖5所示。在單一的ELM預(yù)測模型中,模型預(yù)測值與實(shí)際值之間存在較大的偏差。在加入鯨魚算法優(yōu)化后,預(yù)測結(jié)果與實(shí)際值更接近,但仍然無法完全解決序列的非線性問題。因此,在預(yù)測之前使用經(jīng)驗(yàn)?zāi)B(tài)分解方法將原始數(shù)據(jù)分解成多個(gè)平穩(wěn)分量,并應(yīng)用ELM方法對每個(gè)分量進(jìn)行預(yù)測,以提高預(yù)測準(zhǔn)確度。引入WOA算法來優(yōu)化各個(gè)分量的權(quán)重和偏置,得到EMD-ELM-WOA組合預(yù)測模型。實(shí)驗(yàn)對比結(jié)果表明,3種組合預(yù)測模型相較于其他單一模型具有更好的預(yù)測效果和更高的預(yù)測精度。因此,在處理糧食產(chǎn)量預(yù)測問題時(shí),采用經(jīng)驗(yàn)?zāi)B(tài)分解方法結(jié)合極限學(xué)習(xí)機(jī)和鯨魚優(yōu)化方法等組合預(yù)測模型能夠更好地適應(yīng)序列的非線性特性,提高預(yù)測準(zhǔn)確度和穩(wěn)定性。
圖5 各種模型對比預(yù)測圖
為了進(jìn)一步全面地驗(yàn)證模型對比的精準(zhǔn)度,引入7 個(gè)模型的評價(jià)指標(biāo)和計(jì)算公式來檢驗(yàn)本文所提出組合模型的優(yōu)越性,公式具體如下[32]:
1)均方根誤差(Root Mean Square Error,RMSE):
2)平均絕對誤差(Mean Absolute Error,MAE):
3)平均絕對百分比誤差(Mean Absolute Percentage Error,MAPE):
4)回歸系數(shù)R2(Regression Coefficient,R2):
式中,M為樣本數(shù)量,y(k)表示真實(shí)值,y?(k)表示模型的預(yù)測值,norm 為范數(shù)函數(shù),R2越高,擬合度越好,評價(jià)指標(biāo)數(shù)越低,說明對于模型的預(yù)測精準(zhǔn)度越高。
5)皮爾遜檢驗(yàn)。
皮爾遜檢驗(yàn)是一種常用的統(tǒng)計(jì)方法,用于探究數(shù)據(jù)真實(shí)模型與預(yù)測模型之間的相關(guān)程度[33]。皮爾遜檢驗(yàn)的結(jié)果通常用一個(gè)取值范圍在-1 到1 之間的數(shù)值來表示,被稱為相關(guān)系數(shù)。當(dāng)相關(guān)系數(shù)越接近1時(shí),說明真實(shí)值與預(yù)測值之間存在很強(qiáng)的正相關(guān)性,也就是說預(yù)測模型能夠很好地反映數(shù)據(jù)的真實(shí)模型。而當(dāng)相關(guān)系數(shù)越接近0 時(shí),說明真實(shí)值與預(yù)測值之間的相關(guān)性越小,預(yù)測模型對數(shù)據(jù)的真實(shí)模型的擬合程度也相應(yīng)地降低。
6)泰勒圖。
泰勒圖是一種用于可視化模型之間相互關(guān)系的圖表,通常用于比較和評估多個(gè)模型的預(yù)測性能[34]。泰勒圖通過將真實(shí)值和不同模型的預(yù)測值繪制到同一個(gè)圖中,可以直觀地展示不同模型之間的差異和相似性。在泰勒圖中,每個(gè)點(diǎn)代表一組真實(shí)值和對應(yīng)的預(yù)測值,其中x軸表示標(biāo)準(zhǔn)差,y軸表示相關(guān)系數(shù)R值。對于一個(gè)優(yōu)秀的預(yù)測模型,其預(yù)測點(diǎn)應(yīng)該更加靠近實(shí)際值點(diǎn),即與半徑為1 的圓弧距離越小越好。不同模型預(yù)測的點(diǎn)之間距離越近,說明它們之間的預(yù)測結(jié)果越接近,相互之間的相關(guān)性也就越高。
7)箱線圖。
箱線圖是一種用于可視化數(shù)據(jù)分布情況的圖表,可以有效地反映出數(shù)據(jù)的離散程度和異常點(diǎn)的存在情況[35]。箱線圖不僅能夠反映數(shù)據(jù)的整體分布情況,還能夠顯示數(shù)據(jù)的異常情況。如果在箱線圖中存在異常點(diǎn),說明該數(shù)據(jù)集中存在極端值或異常數(shù)據(jù)。對于預(yù)測模型的誤差分析來說,箱線圖可以直觀地展示預(yù)測結(jié)果與真實(shí)結(jié)果之間的誤差大小和分布情況。箱線圖具體結(jié)構(gòu)如圖6所示。各模型評價(jià)指標(biāo)結(jié)果如表3所示。
表3 模型評價(jià)指標(biāo)表
圖6 箱線圖結(jié)構(gòu)圖
不同模型的預(yù)測誤差分布如圖7 所示,X 軸代表實(shí)測值與預(yù)測值之間的誤差值,Y 軸表示樣本數(shù)量。以分布誤差為0 的分界線,向X 軸右側(cè)進(jìn)行延伸,靠近0 端數(shù)目越多說明預(yù)測精度越高,從圖7 中可以明顯地看到本文所提出模型的準(zhǔn)確度最高。
圖7 各個(gè)模型誤差對比圖
從表4 中可以看到,隨著模型的復(fù)雜度和優(yōu)化方法的引入,皮爾遜相關(guān)系數(shù)也逐漸提高。BP 神經(jīng)網(wǎng)絡(luò)的皮爾遜相關(guān)系數(shù)為0.91413,雖然與真實(shí)值之間存在一定的正相關(guān)性,但仍然存在著較大的誤差。SVM 模型的皮爾遜相關(guān)系數(shù)為0.95232,相較于BP 神經(jīng)網(wǎng)絡(luò)有了一定的提高,說明SVM 模型能夠更好地反映數(shù)據(jù)的真實(shí)分布情況。ELM 神經(jīng)網(wǎng)絡(luò)的皮爾遜相關(guān)系數(shù)進(jìn)一步提高到0.9640,這是由于ELM 神經(jīng)網(wǎng)絡(luò)處理非線性問題而得以改善。加入優(yōu)化算法的ELM-WOA 模型的皮爾遜相關(guān)系數(shù)進(jìn)一步提高到0.9773,這說明鯨魚優(yōu)化算法的引入能夠進(jìn)一步提高模型的預(yù)測精度。將EMD方法引入ELM模型中得到的EMD-ELM 模型皮爾遜相關(guān)系數(shù)進(jìn)一步提高到0.9897,這是由于EMD 能夠更好地處理非線性問題和時(shí)序數(shù)據(jù)。最后,結(jié)合鯨魚優(yōu)化算法的EMDELM-WOA 模型的皮爾遜相關(guān)系數(shù)進(jìn)一步提高到0.9962,說明該模型能夠更加準(zhǔn)確地預(yù)測真實(shí)值,并且具有更強(qiáng)的線性關(guān)系。因此,通過對比表4 中不同預(yù)測模型的皮爾遜相關(guān)系數(shù),可以發(fā)現(xiàn)隨著模型復(fù)雜度的提高和優(yōu)化方法的引入,預(yù)測精度也相應(yīng)提高。
表4 各模型皮爾遜檢驗(yàn)相關(guān)系數(shù)
各模型泰勒圖如圖8(A:真實(shí)值;B:本文方法;C:EMD-ELM;D:ELM-WOA E:ELM;F:SVM;G:BP)所示,A 為真實(shí)值點(diǎn),越靠近A 點(diǎn)說明模型的泛化效果越好,從圖8 可以看到,本文提出的EMD-ELM-WOA 模型效果最佳。
圖8 泰勒圖
從圖9 可以看到,通過對比箱線圖中不同預(yù)測模型的誤差分布情況,可以發(fā)現(xiàn)本文所提出的模型的預(yù)測誤差最小,相較于其他模型具有更好的預(yù)測效果和更高的精度。
圖9 不同預(yù)測模型誤差分布箱線圖
為了能夠準(zhǔn)確預(yù)測糧食產(chǎn)量,采用鯨魚優(yōu)化算法并對其網(wǎng)絡(luò)內(nèi)部參數(shù)進(jìn)行優(yōu)化,組成預(yù)測模型。經(jīng)過多次重復(fù)對比實(shí)驗(yàn),驗(yàn)證了本文所提方法在糧食預(yù)測方面具有較高的準(zhǔn)確性,并得出以下結(jié)論:
1)利用經(jīng)驗(yàn)?zāi)P头纸饽P蛯⒃疾黄椒€(wěn)的糧食產(chǎn)量序列進(jìn)行分解,降低了原始序列的非線性情況同時(shí)提取了內(nèi)部特征,為后續(xù)預(yù)測模型的建立提供了基礎(chǔ)。
2)采用極限學(xué)習(xí)機(jī)模型對糧食數(shù)據(jù)進(jìn)行滾動(dòng)分析研究,考慮到單一的ELM 模型的權(quán)值和閾值是初始化隨機(jī)產(chǎn)生的,可能會(huì)導(dǎo)致參數(shù)不是最優(yōu)的情況,因此,在此之前使用鯨魚優(yōu)化方法對數(shù)據(jù)權(quán)值和閾值進(jìn)行尋優(yōu),算法找尋最優(yōu)位置之后重新建立模型進(jìn)行糧食產(chǎn)量的預(yù)測分析。
3)將EMD 分解后的各個(gè)子序列同時(shí)建立ELMWOA組合預(yù)測模型,并將各自序列分量的預(yù)測結(jié)果進(jìn)行疊加組合,在最后的結(jié)果可以看到3個(gè)組合預(yù)測模型的糧食產(chǎn)量預(yù)測精度最高,R2值擬合達(dá)到了0.96以上。
4)在預(yù)測模型之前對一維的時(shí)間序列進(jìn)行分解處理可以有效地降低數(shù)據(jù)本身的非線性情況。未來研究將更加注重與典型的或者較新的模型進(jìn)行對比分析,同時(shí)還應(yīng)該考慮影響糧食的多種因素,而不僅僅是針對糧食序列的歷史趨勢。在參考?xì)v史趨勢的基礎(chǔ)上,引入更加具體的影響因素從而提高糧食產(chǎn)量的預(yù)測精度。
在糧食產(chǎn)量預(yù)測方面,新興技術(shù)也可以為預(yù)測模型的精度和適用范圍提供更多的可能性和改進(jìn)空間。本文預(yù)測模型在糧食產(chǎn)量預(yù)測方面具有較高的準(zhǔn)確性,并為未來相關(guān)領(lǐng)域提供了啟示和指導(dǎo)。未來隨著計(jì)算機(jī)應(yīng)用技術(shù)的不斷發(fā)展,預(yù)測模型的準(zhǔn)確性和適用范圍將會(huì)得到進(jìn)一步提升,同時(shí)還可以結(jié)合其他相關(guān)領(lǐng)域的知識(shí)和創(chuàng)新思路,以拓展預(yù)測模型的應(yīng)用場景和精度,促進(jìn)農(nóng)業(yè)生產(chǎn)和經(jīng)濟(jì)的可持續(xù)發(fā)展。