李環(huán) 孫素芬 羅長壽
摘要:中國是世界上重要的糧食生產大國,保證糧食產量和糧食安全關系到我國國民經濟的健康發(fā)展。而做好糧食產量的預估工作,對于指導經濟的健康發(fā)展十分重要。在借鑒相關研究成果和中國統(tǒng)計年鑒的基礎上,選擇7組與糧食產量相關的統(tǒng)計指標,并根據數(shù)據與糧食產量作出典型相關性分析,證明7組統(tǒng)計量與糧食產量之間的相關性,進而構建一種基于時間序列非線性自回歸神經網絡的糧食產量預測模型。經過檢驗發(fā)現(xiàn),該模型的準確率和性能都取得較好的效果,在測試數(shù)據集上的平均誤差為1.5%。
關鍵詞:典型相關分析;糧食產量預測;非線性自回歸;時間序列
中圖分類號:F326.11文獻標志碼:A
文章編號:1002-1302(2020)22-0228-05
收稿日期:2020-02-09
作者簡介:李環(huán)(1994—),男,山西大同人,碩士研究生,主要從事農業(yè)工程與信息技術研究。E-mail:lh339966@163.com。
糧食安全是支撐我國國民經濟健康發(fā)展的重要力量,也是國家維護社會穩(wěn)定的重要基石,還是保證國家長治久安的頭等大事。其中,人均糧食占有量和糧食自給率是判斷糧食安全程度的重要指標[1-2],所以分析我國糧食生產過程中的變化規(guī)律以及影響糧食生產的各種因素、掌握合理預測糧食產量的方法具有重要意義。當前國內外學者對糧食產量的預測進行了大量研究,并提出多種糧食產量的預測方法,其中較傳統(tǒng)的預測方法主要有基于時間序列的預測方法[3]、滑動平均的預測方法[4]、多元線性回歸的預測方法[5]。傳統(tǒng)的預測方法雖然具有方法簡單、便于操作的優(yōu)點,但也存在預測值和實際糧食產量相差較大以及模型穩(wěn)健性差的缺點,可見傳統(tǒng)的糧食產量預測模型具有一定的局限性。隨著人工智能和機器學習技術的發(fā)展,許多學者開始引進機器學習的方法進行糧食產量的預測,其中主要方法有基于支持向量機(SVM)的方法和基于BP神經網絡的方法。宗宸生等建立一種改進粒子群優(yōu)化神經網絡的糧食產量預測模型,該模型是將普通BP神經網絡與改進的粒子群算法相結合,并建立IPSO-BP模型[6]。該模型使用粒子群算法進行BP神經網絡初始權重的優(yōu)化,解決了傳統(tǒng)BP神經網絡模型權重參數(shù)優(yōu)化容易陷入局部最優(yōu)化的問題,但是該模型存在對糧食產量長期變化預測能力不足的問題。程偉等提出一種基于支持向量機的糧食產量預測方法,選用徑向基函數(shù)作為核函數(shù)[7],并取得比傳統(tǒng)多元線性回歸、指數(shù)平滑模型和灰色模型更好的預測效果。但支持向量機更多的是應用在分類問題上,選擇不同核函數(shù)對模型精度的影響較大,而如何選取正確的核函數(shù)須要進一步研究。因此,本研究提出一種基于時間序列非線性自回歸神經網絡(nolinearautoregressivemodels,NARX)的糧食產量預測模型,最終預測結果顯示,非線性自回歸神經網絡結合時間序列模型后的預測效果較好,能夠在我國糧食生產預測中提供有效的方式。
1指標體系的建立
1.1主要指標數(shù)據的準備
構建糧食產量的預測模型首先須要設置模型的指標,本研究數(shù)據來源于《中國統(tǒng)計年鑒》(1978—2018年的數(shù)據,數(shù)據不包括港澳臺地區(qū)),選取有效灌溉面積(x1n,千hm2)、化肥施用量(x2n,萬t)、農村用電量(x3n,億kWh)、農業(yè)機械總動力(x4n,萬kW)、農業(yè)勞動力人數(shù)(x5n,萬人)、糧食作物播種面積(x6n,千hm2)、受災面積(x7n,千hm2)等7項數(shù)據與糧食總產量(yn,萬t)進行相關性分析。
在構建模型之前對數(shù)據進行預處理,將數(shù)據值映射到(-1,1)的區(qū)間中,即對數(shù)據進行標準化處理,進而可將有量綱數(shù)據轉變?yōu)闊o量綱數(shù)據,用來消除量綱對最后回歸結果的影響。本研究使用min-max標準化方法使運算后的結果映射到(-1,1)區(qū)間中,公式為
1.2主要指標因素分析
典型相關分析(canonicalcorrelationanalysis)是一種使用綜合變量的分析方法,通過綜合變量之間的相關關系反映2組指標之間的整體相關性的多元統(tǒng)計方法,在原來2組待研究的變量中提取2個具有代表性的變量(w和v的含義為2個待考察變量組的線性組合),利用這2個變量反映2組指標之間的相關性。
此時,要尋求1組[WTHX]a和b的最優(yōu)解,使得ρwv最大化,這樣處理后得到的[WTHX]a和b就是使得w和v有最大相關性的典型系數(shù)。這時就可以用ρwv代替[WTHX]X和Y之間的相關性,從而達到降維的目的。a和b可以用SAS軟件進行求解。
由表3可知,原變量組x1n~x7n的綜合變量w和yn的綜合變量v之間的典型相關系數(shù)為0.9832233,具有很強的相關性,所以選出的統(tǒng)計變量可以用來預測糧食產量。
2模型分析
時間序列是一組按照時間順序排列的數(shù)據,分析時間序列根據時間序列的數(shù)據進行曲線擬合和參數(shù)估計,是一種定量預測的方法。其基本原理包括:第一,承認事物發(fā)展過程中是延續(xù)不斷的,即應用過去的數(shù)據就可以掌握事物的發(fā)展規(guī)律;第二,考慮事物發(fā)展的隨機性,任何事物的發(fā)展都受到偶然因素的影響,所以用統(tǒng)計學原理對數(shù)據進行進一步加工處理。本研究糧食產量的預測模型中所使用的數(shù)據是時間序列,所以可以使用時間序列的統(tǒng)計方法構建時間序列模型(圖1)。
非線性自回歸模型是一種典型的非線性動態(tài)神經網絡,NARX主要由輸出層、隱藏層和輸出層構成。
NARX模型是一個黑箱模型,即NARX內部具體的工作流程和運算過程無法清楚地解釋,其中各節(jié)點的權重也沒有明確的含義,但可以通過預測結果評價該模型的性能。
3預測糧食產量模型的建立
糧食產量預測模型的數(shù)據包含2個部分,即模型的輸入時間序列數(shù)據(x1n~x7n)、輸出時間序列數(shù)據(歷年的糧食總產量y),輸入延時量為2。本研究使用Matlab進行編程,建立NARX預測模型(圖3)。
由圖3可知,訓練數(shù)據占數(shù)據集的70%,驗證數(shù)據占數(shù)據集的15%,測試數(shù)據占數(shù)據集的15%。訓練模型時,訓練數(shù)據、驗證數(shù)據、測試數(shù)據是隨機劃分的,所以每次訓練的結果都有所差異。訓練結果見圖4,NARX神經網絡在訓練4個周期后,在驗證集上的誤差上升,所以模型的訓練可以結束,整個驗證集的均方誤差(MSE)為0.0055226。
該模型在訓練過程中梯度等參數(shù)變化見圖5。糧食產量預測模型的效果可以通過分析誤差圖、誤差自相關圖、輸入與誤差相關圖。在觀測誤差圖中,黃色線表示誤差線,即表示實際值與預測值之間的誤差,誤差越小表示模型的預測效果越好(圖6)。誤差自相關圖(圖8)中,誤差在輸入延遲(lag)為0時取得最大值,其他lag值處在置信區(qū)間為最佳。在輸入與誤差相關圖(圖9)中,輸入與誤差的相關系數(shù)越接近0越好,從圖像上分析可知,NARX模型預測糧食產量的效果較好,預測準確度達到99.3%,符合預期效果。
4模型的檢驗
為了進一步驗證模型的準確性和精度,用相同數(shù)據構建多元線性回歸方程建立多元線性回歸模型,根據數(shù)據擬合得到回歸方程
由圖10可知,NARX糧食產量的預測模型的預測效果較好,與實際值相差不大,且沒有出現(xiàn)過擬合和欠擬合的情況,而多元線性回歸模型的預測數(shù)據與實際值相差較大,預測數(shù)據的波動也較大,所以NARX模型在糧食產量預測方面較多元線性回歸模型的精度更高。由表5可知,當使用沒有經過訓練的數(shù)據進行預測時,NARX模型平均誤差為1.5%,多元線性回歸平均誤差為10.88%,相比之下NARX模型的精度更高,預測得出的結果也更加接近真實值。
5小結
本研究從影響糧食產量的因素入手,選取7組與糧食產量相關的統(tǒng)計指標,并進行相關性分析,用統(tǒng)計學方法證明指標選取的合理性,接著引入時間序列非線性自回歸神經網絡構建糧食產量的預測模型。在模型檢驗部分通過與多元線性回歸模型進行比較,證明該模型的精度優(yōu)于多元線性回歸模型,且該模型的平均誤差僅為1.5%。總體來說,本研究構建的糧食產量預測模型可以應用在我國糧食生產的預測領域,為國家制定相關政策方針提供幫助。
NARX模型的優(yōu)勢在于決定當前預測值時要考慮2個因素,一是輸出時間序列的過去值,二是輸入時間序列的當前值,這樣可以使NARX的預測效果更佳。但是由于NARX神經網絡中的延時階數(shù)以及隱藏的神經元數(shù),無法用科學的方法得出,只能依靠經驗獲取,即NARX模型依舊是黑盒模型,所以這些問題成為NARX模型發(fā)展的限制因素,這些因素在今后還有待進一步研究。
本研究為我國糧食產量的預測提供了一種行之有效的方法,該方法不僅可以應用在糧食生產預測方面,在其他領域也有進一步研究的空間。
參考文獻:
[1]趙和楠,侯石安.新中國70年糧食安全財政保障政策變遷與取向觀察[J].改革,2019(11):15-24.
[2]羅海平,鄒楠,潘柳欣,等.生態(tài)足跡視域下中國糧食主產區(qū)糧食生產安全態(tài)勢的時空屬性研究:2007—2025[J].江蘇農業(yè)學報,2019,35(6):1468-1475.
[3]林彩云.云南省糧食主產區(qū)產量差異時間序列分析[J].中國農業(yè)資源與區(qū)劃,2017,38(7):17-21.
[4]侯云先.產量預報中滑動平均法的改進[J].河南農業(yè)大學學報,1994(3):417-422.
[5]張煜.關于農業(yè)投入產出的線性回歸模型[J].農村經濟與科技,2019,30(18):227-228.
[6]宗宸生,鄭煥霞,王林山.改進粒子群優(yōu)化BP神經網絡糧食產量預測模型[J].計算機系統(tǒng)應用,2018,27(12):204-209.
[7]程偉,張燕平,趙姝.支持向量機在糧食產量預測中的應用[J].安徽農業(yè)科學,2009,37(8):3347-3348.