馮亞枝,胡彥蓉,劉洪久
(1.浙江農(nóng)林大學 信息工程學院,杭州 311300;2.浙江省林業(yè)智能監(jiān)測與信息技術研究重點實驗室,杭州 311300)
《關于促進鄉(xiāng)村產(chǎn)業(yè)振興的指導意見》[1]提出“突出地域優(yōu)勢特色,培育壯大鄉(xiāng)村產(chǎn)業(yè),做精鄉(xiāng)土特色產(chǎn)業(yè)。因地制宜發(fā)展小宗類、多樣性特色種養(yǎng),加強地方品種種質(zhì)資源保護和開發(fā)”。杭州市臨安區(qū)是山核桃栽植的中心區(qū)域,被稱為“中國山核桃之都”,臨安山核桃極具地域特色,對促進鄉(xiāng)村產(chǎn)業(yè)振興有積極的導向作用。近年來,杭州市臨安區(qū)政府高度重視山核桃產(chǎn)業(yè)發(fā)展,出臺了《臨安市山核桃產(chǎn)業(yè)可持續(xù)發(fā)展實施細則(試行)》[2-3]等文件,政策出臺之后,隨著鄉(xiāng)村經(jīng)濟的發(fā)展和生活質(zhì)量的提高,山核桃的種植數(shù)量逐年增加。但是,在發(fā)展過程中,周圍地區(qū)越來越多的山核桃品牌涌現(xiàn)出來,國內(nèi)市場競爭激烈,臨安山核桃的地域優(yōu)勢也逐漸降低。目前,農(nóng)戶在種植山核桃時使用化學試劑過多,生態(tài)環(huán)境不斷惡化,而山核桃的生長周期又很長,所以一旦被破壞,損失將是無法計量的。如何有效地控制臨安山核桃生產(chǎn),促進產(chǎn)量的提升,保證山核桃市場進一步發(fā)展,是當下山核桃市場所需要解決的問題。
農(nóng)產(chǎn)品產(chǎn)量的準確預測一直是國內(nèi)外學者研究的熱門問題之一,關于農(nóng)產(chǎn)品產(chǎn)量影響因素及預測模型的研究已經(jīng)取得較多成果?;仡檱鴥?nèi)外學者對農(nóng)產(chǎn)品或糧食產(chǎn)量預測的文獻發(fā)現(xiàn),研究方法大致分為兩類:
1)采用灰色系統(tǒng)以及改進的灰色預測模型進行產(chǎn)量的預測,吳瀟等[4]采用GM(1,1)模型對2015—2020 年中國總油料、木本油料及油茶(CamelliaoleiferaAbel)籽油料產(chǎn)量進行了預測;尹世久等[5-7]基于灰色系統(tǒng)模型分別對不同的農(nóng)產(chǎn)品或糧食產(chǎn)量進行預測;劉浩然等[8]、范震等[9]和馬云倩等[10]分別采用因子分析法、灰色關聯(lián)分析法和Lasso模型選取主要的影響因素構建灰色預測模型進行農(nóng)產(chǎn)品的預測,以更好地掌握產(chǎn)量變化規(guī)律;崔興凱等[11]提出新的農(nóng)產(chǎn)品預測模型,基于NGM(1,1,k )模型的農(nóng)產(chǎn)品產(chǎn)量預測方法。
2)采用人工智能的方法對農(nóng)產(chǎn)品產(chǎn)量進行研究,樊超等[12]構建糧食產(chǎn)量的主成分分析和極限學習機預測模型,預測精度大幅提高;劉世錦等[13]主要是建立一個農(nóng)業(yè)發(fā)展長期預測模型,利用截至2013 年底的最新統(tǒng)計數(shù)據(jù)和相關資料對未來10年糧食、畜水產(chǎn)品以及其他農(nóng)產(chǎn)品進行了預測;Schwalbert等[14]提出了一種使用長期短期記憶(LSTM)神經(jīng)網(wǎng)絡對巴西南部的季節(jié)(“近實時”)大豆(Glycinemax)產(chǎn)量進行預測;Madhav等[15]使用MT-CV2模型獲得了針對所有性狀的新環(huán)境更高的預測能力;陳全潤等[16]從多個角度建立不同的預測模型;高心怡等[17]和莊星等[18]分別提出基于混合智能算法的支持向量機預測模型和基于粒子群算法和人工蜂群算法的改進BP神經(jīng)網(wǎng)絡模型,分別對糧食產(chǎn)量進行了研究。
國內(nèi)外學者用不同的方法對農(nóng)產(chǎn)品產(chǎn)量進行了研究,這些評價研究大多采用基于灰色系統(tǒng)的研究方法或人工智能的方法對農(nóng)產(chǎn)品產(chǎn)量進行預測,但缺乏灰色系統(tǒng)與常用農(nóng)產(chǎn)品預測模型之間的橫向?qū)Ρ取1疚氖褂昧薒asso進行變量篩選和灰色預測結合的方法,建立氣候因素和種植規(guī)模的指標體系,模型經(jīng)檢驗之后,將其與Lasso-BP,Lasso-RBF,Lasso-GRNN預測結果進行對比,同時根據(jù)本文使用的方法預測臨安山核桃(CaryacathayensisSarg)2020—2024年的產(chǎn)量及主要影響因素值,也為山核桃產(chǎn)業(yè)規(guī)劃等提供了參考依據(jù)。
2012年臨安山核桃總面積已達30 666.67hm2,年產(chǎn)量1.19萬t,從業(yè)人員9.2萬人,登記在冊的加工企業(yè)有220多家,全年山核桃產(chǎn)業(yè)總產(chǎn)值達15.48億元。截至2019年8月,臨安區(qū)現(xiàn)有山核桃種植面積達41 333.33 hm2,主要分布在臨安區(qū)昌化、昌北和太陽鎮(zhèn)的橫路等地,是全國山核桃的生產(chǎn)中心、集散中心和加工中心,面積、產(chǎn)量、加工量均為全國第一。2020年臨安區(qū)政府將加大財政投入力度,安排山核桃生態(tài)化治理專項資金1.7億,爭取省級鄉(xiāng)村振興產(chǎn)業(yè)發(fā)展示范縣,加快推進山核桃傳統(tǒng)產(chǎn)業(yè)結構性改革,實現(xiàn)山核桃產(chǎn)業(yè)數(shù)字化、生態(tài)化、規(guī)?;⑵放苹l(fā)展。
本文所采用的臨安山核桃種植規(guī)模和產(chǎn)量數(shù)據(jù)來自杭州市《臨安年鑒(1967—2019)》,積溫、氣溫和降水量等氣象數(shù)據(jù)來源于臨安市氣象局(1967—2019)。分析1967—2019年臨安山核桃產(chǎn)量動態(tài)變化如圖1所示,1967—2002年臨安山核桃產(chǎn)量處于穩(wěn)定波動狀態(tài),參考呂秋菊[19]關于山核桃產(chǎn)業(yè)發(fā)展階段識別,這是因為改革開放以后,山核桃處于產(chǎn)業(yè)形成期,山核桃發(fā)展緩慢,無論是種植面積、產(chǎn)量和產(chǎn)值都處于緩慢增長狀態(tài);2002—2009年臨安山核桃處于成長期的早期,產(chǎn)量進入了快速增長階段,增速較快,2008年進入成長期后期;2010—2019年總體呈現(xiàn)先下降后上升的趨勢。
圖1 1967—2019年臨安山核桃產(chǎn)量動態(tài)變化圖
1.2.1Lasso方法
Lasso(Least Absolute Shrinkage and Selection Operator)方法是由Tibshirani提出的將參數(shù)估計與變量選擇同時進行的一種正則化方法,在傳統(tǒng)變量選擇方法的基礎上做了改進,使得一些不重要變量的估計值為零,在實現(xiàn)參數(shù)估計的同時還可以壓縮變量,可以較好解決變量間的多重共線性問題[20]。因此,本研究選擇Lasso 方法[15,19]來做變量選擇,篩選山核桃產(chǎn)量的影響因素。
在考慮一般的線性回歸問題時,給定n個數(shù)據(jù)樣本點,{(x1,y1),(x2,y2),…,(xn,yn)},其中每一個xi∈Rd是一個d維向量,表示臨安山核桃產(chǎn)量影響因素的具體數(shù)值,觀測到的數(shù)據(jù)點是由d個變量值組成,每個yi∈R是一個實值,表示臨安山核桃每年的產(chǎn)量,根據(jù)觀察到的數(shù)據(jù)點,尋找到一個映射f:Rd→R,使得誤差平方和最小,優(yōu)化目標為:
(1)
(2)
將得到的結果帶入原優(yōu)化目標得到:
(3)
從上面式子可以看出,假如事先對數(shù)據(jù)進行標準化(中心化),即每個樣本數(shù)據(jù)減去均值,從而得到零均值的數(shù)據(jù)樣本,此時做線性回歸就可以不使用偏置。下面為了方便介紹,假定給定的n個數(shù)據(jù)樣本點,{(x1,y1),(x2,y2),…,(xn,yn)}是零均值的,線性回歸的優(yōu)化目標可以記為:
(4)
Lasso的優(yōu)化目標為:
式(5)中:λ為非負正則參數(shù),而且當λ值越大,懲罰力度就越大,保留的變量也就越少,反之亦然。其思想是在系數(shù)絕對值總和不能太大的前提下運用最小二乘法,殘差平方和最小。
1.2.2灰色模型
灰色模型是一種對含有不確定因素系統(tǒng)進行預測的方法。將隨機無規(guī)律的原始數(shù)據(jù)經(jīng)過累加生成有規(guī)律的數(shù)據(jù)列,再根據(jù)生成的數(shù)據(jù)列建立白色化形式的微分方程,白色化形式微分方程的解就是灰色預測模型。
設原始變量數(shù)據(jù)列為:X(0)=(X(0)(1),X(0)(2),…,X(0)(n)),其中X(0)(1)為研究變量:每年臨安山核桃的產(chǎn)量,X(0)(2),…,X(0)(n)為相關因素變量:每年臨安山核桃產(chǎn)量各影響因素值[6],n為研究變量和相關因素變量的個數(shù)之和。計算數(shù)列的級比:
(6)
y(0)(k)=x(0)(k)+c,k=1,2,…,n
(7)
取c使得數(shù)據(jù)列的級比都落在可容覆蓋內(nèi)。
設X(0)=(X(0)(1),X(0)(2),…,X(0)(n))滿足以上要求,以它為數(shù)據(jù)列建立模型:
x(0)(k)+αz(1)(k)=b
(8)
用回歸分析求得a,b的估計值,相應的白化模型為:
(9)
解為:
(10)
于是得到預測值:
(11)
從而相應地得到預測值:
(12)
根據(jù)公式(12)可求得山核桃產(chǎn)量的預測值,進而對灰色模型的預測值進行檢驗,常用的檢驗方法包括相對誤差檢驗(e)、后驗差比值(C)和小誤差概率(p)檢驗。
相對誤差檢驗公式為:
(13)
公式(13)中x(0)的均值為:
殘差的均值為:
由此可以得到后驗差比值公式:
C=S2/S1
(14)
小誤差概率公式:
p=p{|E(k)-E|<0.6745S1}
(15)
由上述公式(13)(14)(15)可對灰色模型的預測值進行檢驗。
山核桃具備較強的地域性特征,由于臨安處于山核桃種植的中心區(qū)域,因此,研究臨安區(qū)山核桃產(chǎn)業(yè)具有一定的代表性。根據(jù)有關氣候因素對農(nóng)產(chǎn)品產(chǎn)量的影響研究[21-24],選擇14個影響因素(表1):選取積溫、氣溫、降水量、種植面積和株數(shù)5個方面的指標,積溫指標分別為秋季9—11月積溫(x1)(℃)、冬季12—2月積溫(x2)(℃)、春季3—5月積溫(x3)(℃)、夏季6—8月積溫(x4)(℃);氣溫方面選取年最高氣溫(x5)(℃)、年最低氣溫(x6)(℃)、≥35℃高溫日數(shù)(x7)(d)、≥37℃高溫日數(shù)(x8)(d);降水量方面選取秋季9—11月降水量(x9)(mm)、冬季12—2月降水量(x10)(mm)、春季3—5月降水量(x11)(mm)、夏季6—8月降水量(x12)(mm);種植規(guī)模選取種植面積和株數(shù)。選取山核桃產(chǎn)量(y)(t)為研究變量。
表1 指標體系
運用Lasso方法公式(5)可計算出臨安山核桃產(chǎn)量影響因素回歸系數(shù)(表2),從表2中的結果可知,選擇了13個變量,分別是:秋季9—11月積溫、冬季12—2月積溫、春季3—5月積溫、夏季6—8月積溫、年最高氣溫和最低氣溫、≥35℃高溫日數(shù)、≥37℃高溫日數(shù)、冬季12—2月降水量、春季3—5月降水量、夏季6—8月降水量、面積、株數(shù),即x1-x8和x10-x14,這13個變量的Lasso回歸系數(shù)顯著不為0,即剔除了秋季9—11月降水量(x9)(mm)。這是因為臨安秋季9—11月降水量的Lasso回歸系數(shù)為0,該項指標原數(shù)據(jù)對臨安山核桃產(chǎn)量沒有發(fā)揮作用,因此,將其余13個變量作為影響臨安山核桃產(chǎn)量的主要影響因素。
表2中除了秋季降水量(x9)Lasso回歸系數(shù)為0,其余13個指標Lasso回歸系數(shù)絕對值越小,表明該項指標原數(shù)據(jù)對臨安山核桃產(chǎn)量發(fā)揮的作用越大,反之作用越小。首先對臨安山核桃產(chǎn)量影響最大的是種植面積和株數(shù),其次是一年四季的積溫和冬季、夏季降水量,最后影響程度最小的是氣溫方面年最高和最低氣溫、≥35℃和≥37℃高溫日數(shù)。
表2 Lasso回歸系數(shù)
在進行預測之前,首先利用Lasso-灰色預測模型對2015—2019年臨安山核桃產(chǎn)量及影響因素預測值進行模型精確度的檢驗,然后將Lasso模型分別與常用的農(nóng)產(chǎn)品預測模型BP神經(jīng)網(wǎng)絡(反向傳播神經(jīng)網(wǎng)絡)、RBF(徑向基神經(jīng)網(wǎng)絡)、GRNN(廣義回歸神經(jīng)網(wǎng)絡)結合的組合模型對2015—2019年臨安山核桃產(chǎn)量進行預測,最后將3種組合模型的預測結果與Lasso-灰色預測模型結果進行對比。
2.2.1Lasso-灰色預測模型檢驗
將Lasso模型計算結果選取的13個變量帶入灰色預測模型,經(jīng)公式(12)計算可得出2015—2019年臨安山核桃產(chǎn)量及影響因素的預測值,從表3中的預測結果可知,除了春季3—5月降水量(x11)(mm)處于穩(wěn)步下降趨勢外,其余各指標參數(shù)均處于穩(wěn)步上升的狀態(tài)。預測結果是否可行需要進行進一步檢驗,本文對預測結果和各項指標實際值進行了相對誤差檢驗(e)、后驗差比值(C)和小誤差概率(p)檢驗。
表3 2015—2019年臨安山核桃產(chǎn)量及影響因素預測值
精度檢驗的標準如表4所示,相對誤差檢驗(e)、后驗差比值(C)和小誤差概率(p)檢驗結果分別由表3預測值帶入公式(13)—(15)計算可得,模型檢驗計算結果如表5所示。結合表4的模型精度檢驗標準,由表5中的計算結果可知:秋季9—11月積溫(x1/℃)、春季3—5月積溫(x3/℃)、夏季6—8月積溫(x4/℃)、最高氣溫(x5/℃)、面積(x13/(1/15hm2)),以及研究變量山核桃產(chǎn)量(y/t)對影響因素所建立的灰色模型均通過了相對誤差檢驗(e),并且精度都達到了比較好的效果;從后驗差比值(C)檢驗結果來看,所有指標均通過了模型精度檢驗(C≤0.65),其中面積(x13/(1/15hm2))和株數(shù)(x14/株)的檢驗結果(0.06和0.25)達到了一級優(yōu)秀(C≤0.35),有2項指標檢驗結果為良好(0.35 表4 模型精度檢驗標準 表5 模型精度檢驗結果 2.2.2組合預測模型的比較 精度較高的預測模型有助于更準確地預測農(nóng)產(chǎn)品產(chǎn)量,因此本文進行了預測模型的比較。為了有效進行預測效果的比較,將1967—2014年的樣本數(shù)據(jù)作為訓練樣本,2015—2019年的數(shù)據(jù)作為測試樣本。本文對4種模型進行比較分析,第一種是Lasso模型與灰色預測模型的組合,即Lasso-GM;第二種是Lasso模型與BP神經(jīng)網(wǎng)絡模型的組合;第三種是Lasso模型與RBF神經(jīng)網(wǎng)絡模型的組合;第四種是Lasso模型與GRNN神經(jīng)網(wǎng)絡模型的組合。 計算結果如表6所示,Lasso-GM計算結果從2015—2019年逐步上升,預測結果的平均相對誤差為6.99%;Lasso-BP的預測結果為2016年臨安山核桃產(chǎn)量最高,達到14 375.38t;最低的是2015年11 009.62t,預測平均相對誤差為8.41%;Lasso-RBF的預測結果呈現(xiàn)波動的狀態(tài),2019年的預測結果為13 228.47t,預測平均相對誤差為11.56%;Lasso-GRNN預測結果2018年有所降低,預測值為13 005.79t,預測平均相對誤差為9.40%。 4種模型預測結果對比來看,Lasso-GM模型的預測平均相對誤差最小,即預測效果最好,其次是Lasso-BP模型和Lasso-GRNN模型,而Lasso-RBF模型的預測效果最差。另一方面,Lasso-GM不僅可以預測臨安山核桃的產(chǎn)量,同時可以預測出其產(chǎn)量主要影響因素各參數(shù)值,而Lasso-BP,Lasso-RBF和Lasso-GRNN組合模型僅能預測產(chǎn)量不能預測影響因素,因此選擇Lasso-GM來進行臨安山核桃產(chǎn)量及影響因素各參數(shù)的預測。 表6 4種模型預測值及預測效果比較表 進一步利用Lasso-GM由公式(5)和公式(12)得出2020—2024年的臨安山核桃產(chǎn)量及影響因素預測值,從表7中的結果可知,在積溫方面,未來5年秋季9—11月積溫(x1/℃)、冬季12—2月積溫(x2/℃)、春季3—5月積溫(x3/℃)、夏季6—8月積溫(x4/℃)都有穩(wěn)定上升的態(tài)勢;在氣溫方面,最高氣溫(x5/℃)、最低氣溫(x6/℃)、≥35℃高溫日數(shù)(x7/d)、≥37℃高溫日數(shù)(x8/d)都有略微的上升,與整體的大氣氣溫趨勢符合[25];從降水量方面看,冬季12—2月降水量(x10/mm)和夏季6—8月降水量(x12/mm)有略微的上升的趨勢,春季3—5月降水量(x11/mm)在未來5年有所下降;隨著經(jīng)濟的發(fā)展以及種植山核桃所帶來的效益,山核桃的種植面積、種植株數(shù)及產(chǎn)量都有所上升,所研究變量山核桃產(chǎn)量(y/t)到2024年將達到16 289.76t。 表7 2020—2024年的臨安山核桃產(chǎn)量及影響因素預測值 在學者對農(nóng)產(chǎn)品產(chǎn)量預測研究的基礎上,本文搜集了1967—2019年臨安山核桃的氣象、種植規(guī)模等相關數(shù)據(jù),利用1967—2014年的數(shù)據(jù)為訓練集,2015—2019年的數(shù)據(jù)為測試集,采用Lasso-GM對2020—2024臨安山核桃年產(chǎn)量進行預測,得出以下結論: 1)由于臨安山核桃產(chǎn)量的影響因素眾多,本文采用Lasso方法篩選影響臨安山核桃產(chǎn)量的主要影響因素,分別是一年四季的積溫、年最高和最低氣溫、≥35℃和≥37℃的高溫日數(shù)、春夏冬3個季節(jié)的降水量以及種植規(guī)模。分析Lasso計算結果可知:種植規(guī)模對臨安山核桃產(chǎn)量影響最大,其次是一年四季的積溫和冬季、夏季降水量,年最高和最低氣溫、≥35℃和≥37℃高溫日數(shù)影響程度最小。 2)在Lasso變量選擇的基礎上,用灰色模型來預測臨安山核桃各指標數(shù)據(jù),對2015—2019年臨安山核桃產(chǎn)量及影響因素預測結果和各項指標實際值進行了相對誤差檢驗(e)、后驗差比值(C)和小誤差概率(p)檢驗,檢驗結果顯示了該模型預測數(shù)據(jù)的準確性,即預測的數(shù)據(jù)具有一定的參考價值。 3)以2015—2019年的臨安山核桃產(chǎn)量進行測試,將Lasso-GM模型與Lasso-BP,Lasso-RBF和Lasso-GRNN預測結果進行對比,實現(xiàn)灰色系統(tǒng)與常用農(nóng)產(chǎn)品產(chǎn)量預測模型之間的橫向?qū)Ρ?并驗證Lasso-GM模型的有效性,從預測效果來看Lasso-GM模型都優(yōu)于另外3個組合模型,預測結果的平均相對誤差為6.99%,達到了較好的預測效果。 4)用驗證好的Lasso-GM對2020—2024年臨安山核桃產(chǎn)量及各指標做預測。預測結果顯示:臨安山核桃未來5年的各指標數(shù)據(jù)均有所上升,2024年臨安山核桃的產(chǎn)量將達到16 289.76t,其產(chǎn)量的上升將促進經(jīng)濟的發(fā)展,為后期制定科學合理化決策提供一定的數(shù)據(jù)。 本文的創(chuàng)新點在于:實現(xiàn)Lasso-GM與常用的農(nóng)產(chǎn)品產(chǎn)量預測模型之間的橫向?qū)Ρ?預測未來5年臨安山核桃產(chǎn)量及影響因素值。基于上述分析結果,Lasso-GM檢驗結果說明了該模型預測數(shù)據(jù)的準確性,其預測效果優(yōu)于常用的農(nóng)產(chǎn)品產(chǎn)量預測模型——Lasso-BP,Lasso-RBF和Lasso-GRNN,預測結果顯示未來5年臨安山核桃產(chǎn)量及影響因素預測值都處于不斷上升的趨勢。臨安山核桃種植規(guī)模不斷上升,促進社會經(jīng)濟發(fā)展的同時,種植山核桃的農(nóng)民也過上了小康生活,為實現(xiàn)第一個百年奮斗目標全面建成小康社會奠定了基礎。最后,在現(xiàn)有的臨安山核桃氣象數(shù)據(jù)和種植規(guī)模數(shù)據(jù)基礎上,對臨安山核桃產(chǎn)量進行預測分析,預測中僅用可獲取的氣象數(shù)據(jù)和種植規(guī)模數(shù)據(jù)對2020—2024年的產(chǎn)量進行預測,今后可以運用更多的數(shù)據(jù)進行全方位的預測與評價。2.3 基于Lasso-GM的預測
3 結論與討論