高風(fēng)昕
(黃淮學(xué)院 數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,河南 駐馬店 463000)
麥芽蟲(chóng)又稱膩蟲(chóng),據(jù)統(tǒng)計(jì),我國(guó)每年因?yàn)辂溠料x(chóng)的危害使小麥減產(chǎn)2×108~3×108t。目前,國(guó)內(nèi)外對(duì)小麥蚜蟲(chóng)的預(yù)測(cè)模型主要采用統(tǒng)計(jì)的方法,如李文峰等[1]利用逐步回歸的方法構(gòu)建蚜蟲(chóng)預(yù)報(bào)預(yù)測(cè)模型,丁世飛等[2]用逐步判別方法構(gòu)建麥蚜蟲(chóng)發(fā)生期的模型,Luo等[3]利用SPSS中的邏輯回歸的方法給出蚜蟲(chóng)預(yù)報(bào)預(yù)測(cè)模型。支持向量機(jī)在小樣本訓(xùn)練方面比其他方法更勝一籌,該方法的泛化能力非常強(qiáng),而支持向量機(jī)大多運(yùn)用在證券、金融、大氣污染物濃度的預(yù)測(cè)中,在小麥蚜蟲(chóng)發(fā)生程度的預(yù)測(cè)模型的研究中國(guó)內(nèi)外文獻(xiàn)資料涉及的很少。本文運(yùn)用支持向量機(jī)回歸對(duì)豫南地區(qū)小麥蚜蟲(chóng)發(fā)生程度進(jìn)行預(yù)測(cè),以豫南地區(qū)2008年—2019年的麥芽發(fā)生情況、氣象資料為依據(jù),給出小麥蚜蟲(chóng)發(fā)生的17個(gè)影響因子,利用主成分分析的方法對(duì)輸入因子降維,從而得到支持向量機(jī)的訓(xùn)練樣本和測(cè)試樣本,由此建立基于RBF核函數(shù)支持向量機(jī)回歸的小麥發(fā)生程度的預(yù)測(cè)模型。經(jīng)測(cè)試樣本檢驗(yàn)表明,該方法預(yù)測(cè)精度高、泛化能力和時(shí)效性強(qiáng),具有良好的應(yīng)用前景。
支持向量機(jī)(SVM)將每個(gè)樣本數(shù)據(jù)表示為空間中的點(diǎn),使不同類別的樣本點(diǎn)盡可能明顯地區(qū)分開(kāi)。通過(guò)將樣本的向量映射到高維空間中,尋找最優(yōu)化區(qū)分兩類數(shù)據(jù)的超平面,使各類到超平面的距離最大化,距離越大表示SVM的分類誤差越小,即使數(shù)據(jù)集的邊緣點(diǎn)到分界超平面的距離最大,稱邊緣點(diǎn)為支持向量。通過(guò)非線性映射將原始數(shù)據(jù)空間映射到高維特征空間并在新空間中求取最優(yōu)化線性分類面。為權(quán)重向量,b為偏置常數(shù)。
把線性回歸問(wèn)題轉(zhuǎn)化為求如下的最優(yōu)化問(wèn)題:
式中:C——懲罰參數(shù),ξi,——松弛變量,ε——不敏感損失函數(shù)閾值。
模型(1)的對(duì)偶問(wèn)題:
K(xi,x)為核函數(shù),常用的核函數(shù)有線性核函數(shù)、多項(xiàng)核函數(shù)、徑向基核函數(shù)、sigmod核函數(shù),根據(jù)專家經(jīng)驗(yàn)徑向基核函數(shù)(KBF)能使支持向量機(jī)取得最好的效果,所以選擇KBF作為核函數(shù)。
對(duì)支持向量機(jī)回歸參數(shù)估計(jì)有多種,比較各種參數(shù)估計(jì)方法從預(yù)測(cè)精度上考慮常選擇網(wǎng)格搜索法來(lái)確定懲罰因子C,核參數(shù)σ,損失函數(shù)中的參數(shù)ε。
本文選取豫南地區(qū)駐馬店市、信陽(yáng)市、南陽(yáng)市的2008年—2019年小麥種植區(qū)的氣象和小麥蚜蟲(chóng)發(fā)生程度的數(shù)據(jù)資料,氣象各因子資料來(lái)源于豫南地區(qū)逐日氣象觀測(cè)資料,小麥蚜蟲(chóng)的發(fā)生程度和天敵的數(shù)據(jù)資料來(lái)源于當(dāng)?shù)刂脖2块T(mén),氣象資料采取每月每旬作為時(shí)間周期,小麥蚜蟲(chóng)的發(fā)生程度和天敵數(shù)據(jù)資料是指每個(gè)地市至少選擇5個(gè)樣本采集區(qū),每5d采集1次樣本,影響小麥發(fā)生程度的因子見(jiàn)表1。本文以2008年—2019年,每年2月1日—5月20日,以每旬作為時(shí)間周期,為了減少因子個(gè)數(shù)把天敵作為一個(gè)因子共17個(gè)因子187個(gè)解釋變量。根據(jù)中華人民共和國(guó)農(nóng)業(yè)行業(yè)標(biāo)準(zhǔn)(NY/T612-2002)《小麥蚜蟲(chóng)測(cè)報(bào)調(diào)查規(guī)范》,麥蚜發(fā)生程度根據(jù)百株蚜量(y,頭)分為5級(jí),分級(jí)標(biāo)準(zhǔn)為一級(jí)(y≤500)、二級(jí)(500 由影響小麥蚜蟲(chóng)發(fā)生程度的指標(biāo)因子和小麥蚜蟲(chóng)發(fā)生程度數(shù)據(jù)組成的樣本集,(xi,yi),i=1,2,…n,xi∈Rn,yi∈Rn來(lái)構(gòu)建小麥蚜蟲(chóng)發(fā)生程度的SVR預(yù)測(cè)模型。由于各影響因子的量綱不盡相同,為了克服各因子由于量綱的不同對(duì)預(yù)測(cè)結(jié)果的影響,同時(shí)為了提高個(gè)各數(shù)據(jù)間的可比性和數(shù)據(jù)的收斂速度減少模型的訓(xùn)練時(shí)間所以先對(duì)原始數(shù)據(jù)進(jìn)行歸一化處理,利用公式(4)可將原始數(shù)據(jù)壓縮到[0,1]上。 式中:xi——原始數(shù)據(jù);x' i——?dú)w一化后的數(shù)據(jù),xmax和xmin分別為原始數(shù)據(jù)的最大值和最小值。 影響麥蚜發(fā)生程度的解釋變量有187個(gè),指標(biāo)因子維數(shù)過(guò)大,采用主成分分析的方法對(duì)指標(biāo)因子降維得到主成分及得分,然后分別以所得主成分為自變量以麥蚜發(fā)生程度為因變量分別進(jìn)行多元線性回歸分析和支持向量機(jī)回歸分析,根據(jù)以上分析可以確定PCA-SVR預(yù)測(cè)模型的流程圖,見(jiàn)圖1。 圖1 PCA-SVR預(yù)測(cè)模型的流程Fig.1 Theflow chart of PCA-SVRprediction model 根據(jù)歸一化后得到的數(shù)據(jù)利用SPSS25對(duì)各因子數(shù)據(jù)進(jìn)行主成分分析從而獲得主成分和主成分得分,分析結(jié)果由原來(lái)的187個(gè)指標(biāo)因子縮減為6個(gè)主成分且方差貢獻(xiàn)率達(dá)到98.57%,在原始變量的基本信息基本保持不變的條件下因子個(gè)數(shù)由187個(gè)減少了181個(gè),所以用6個(gè)主成分代替187個(gè)原始變量進(jìn)行多元線性回歸分析。 以旬為單位收集了2008年—2019年12年的210個(gè)樣本數(shù)據(jù),其中選取2008年—2016年的樣本數(shù)據(jù)作為訓(xùn)練樣本,2017年—2019年樣本數(shù)據(jù)作為測(cè)試樣本。對(duì)于訓(xùn)練樣本選取徑向基核函數(shù)(KBF)構(gòu)建(2)式的預(yù)測(cè)模型。同時(shí)利用170個(gè)訓(xùn)練樣本使用LIBSVM3.22軟件包,采用網(wǎng)絡(luò)遍歷法和K(K=10)折交叉驗(yàn)證法選擇最優(yōu)參數(shù)。結(jié)果:C=2257672.96512,g=0.000038896503529,p=0.0338。 以主成分分析所得到的6個(gè)主成分為解釋變量,利用PCA-SVR模型和多元線性回歸模型得到麥蚜發(fā)生程度的預(yù)測(cè)值與觀測(cè)值之間的數(shù)據(jù)見(jiàn)表2,并且利用PCA-SVR模型得到麥蚜發(fā)生程度的預(yù)測(cè)值與實(shí)際值之間的相關(guān)系數(shù)接近于1,利用多元線性回歸模型得到麥蚜發(fā)生程度的預(yù)測(cè)值與觀測(cè)值之間的相關(guān)系數(shù)為0.97,這表明麥蚜發(fā)生程度實(shí)際觀測(cè)值與預(yù)測(cè)值之間具有高度的相關(guān)性,并且通過(guò)PCA-SVR模型得到的訓(xùn)練樣本的預(yù)測(cè)值與實(shí)際觀測(cè)值相符合見(jiàn)表1,測(cè)試集樣本數(shù)據(jù)的預(yù)測(cè)值與實(shí)際觀測(cè)值相符合見(jiàn)表2。 表1 訓(xùn)練樣本實(shí)際觀測(cè)值與預(yù)測(cè)值對(duì)比Tab.1 The comparison of actual observation value and predicted value 表2 測(cè)試樣本實(shí)際觀測(cè)值與預(yù)測(cè)值對(duì)比Tab.2 The comparison of actual observation value and predicted value 為評(píng)價(jià)模型的質(zhì)量,常用PCA-SVR模型的預(yù)測(cè)值與觀測(cè)值的進(jìn)行比較,通常采用以下統(tǒng)計(jì)量對(duì)PCA-SVR模型進(jìn)行評(píng)價(jià),比較結(jié)果見(jiàn)表3。 表3 訓(xùn)練和測(cè)試樣本誤差因子比較Tab.3 The comparison of error factors of training and testing samples MLRM 誤差指標(biāo)PCA-SVR SVR 0.21780.55420.06410.1568 MAPE RMSE MSE MAE 0.10430.11650.02630.11390.1110.42170.03630.1476 平均絕對(duì)誤差MAE= 均方誤差MSE= 均方根誤差RMSE= 平均絕對(duì)百分比誤差MAPE= 由表4可以得出PCA-SVR組合模型具有較高的預(yù)測(cè)精度,所以PCA-SVR組合模型的應(yīng)用能夠準(zhǔn)確及時(shí)地發(fā)布豫南地區(qū)小麥蚜蟲(chóng)監(jiān)測(cè)預(yù)警信息,有效地進(jìn)行小麥蚜蟲(chóng)的科學(xué)防控。2.2 數(shù)據(jù)的歸一化處理
2.3 PCA-SVR組合模型預(yù)測(cè)流程圖
2.4 主成分回歸分析
2.5 主成分SVR參數(shù)尋優(yōu)
3 模型預(yù)測(cè)結(jié)果分析
3.1 預(yù)測(cè)值和實(shí)際值的比較分析
3.2 模型的評(píng)價(jià)
4 結(jié)論