高風昕
(黃淮學院數(shù)學與統(tǒng)計學院,河南 駐馬店 463000)
豫南地區(qū)是我國小麥的主產(chǎn)區(qū),其產(chǎn)量高低對我國糧食安全有著重要的影響,而小麥蚜蟲是危害小麥產(chǎn)量和品質(zhì)的重要害蟲。在豫南地區(qū)危害小麥的蚜蟲主要是麥長管蚜、麥二叉蚜等屬于同翅目蚜科,有翅可遷飛,具有遷移性,繁殖能力強,1a可以繁殖20余代。麥長管蚜、麥二叉蚜主要以成蚜、若蚜吸食小麥葉面、莖稈、嫩穗的汁液使小麥缺失營養(yǎng)導致葉面逐漸變黃直到枯死,從而使小麥減產(chǎn),據(jù)統(tǒng)計,我國每年因為麥蚜蟲的危害使小麥減產(chǎn)2~3億t。因此,預防預測麥蚜蟲的危害是科技工作者的一項重要任務(wù)。
目前國內(nèi)外對小麥蚜蟲的預測模型主要有經(jīng)驗法、實驗法和統(tǒng)計預測法等。如,李文峰等[1]利用逐步回歸的方法構(gòu)建蚜蟲預報預測模型;丁世飛等[2]用逐步判別方法構(gòu)建麥蚜蟲發(fā)生期的模型;王純枝等利用相關(guān)分析法和主成分法構(gòu)建蚜蟲適宜度的預測預報模型;luo等[3]利用spss中的邏輯回歸方法給出蚜蟲預報預測模型;孫淑梅、丁世飛、李鴻怡等利用模糊數(shù)學的方法構(gòu)建小麥蚜蟲預報預測模型。以上專家給出的預測模型對小麥蚜蟲的防治都起到了積極的作用,但這些模型大多以天氣條件作為主要因素,預測的準確率和時效性不夠高。支持向量機在小樣本訓練方面比其它方法更勝一籌,而且該方法的泛化能力非常強,支持向量機大多運用在證券、金融、電子商務(wù)、大氣污染物濃度的預測中[7-10],小麥蚜蟲發(fā)生程度的預測模型研究國內(nèi)外文獻資料涉及很少,基于此,本文運用支持向量機回歸對豫南地區(qū)小麥蚜蟲發(fā)生程度進行預測,構(gòu)建了支持向量機回歸的小麥蚜蟲發(fā)生程度的短期預測模型,填補了支持向量機回歸在小麥蚜蟲短時預測的不足,通過測試樣本驗證該方法時效性和泛化能力強、預測精度高,具有良好的研究和應(yīng)用前景。
支持向量機(SVM)將每個樣本數(shù)據(jù)表示為空間中的點,使不同類別的樣本點盡可能明顯地區(qū)分開,通過將非線性低維空間上的樣本數(shù)據(jù)映射到高維空間中,使樣本數(shù)據(jù)在高維空間中轉(zhuǎn)化線性樣本數(shù)據(jù),然后尋找最優(yōu)化區(qū)分兩類數(shù)據(jù)的超平面,使各類到超平面的距離最大化,距離越大表示SVM的分類誤差越小,即使數(shù)據(jù)集的邊緣點到分界超平面的距離最大,稱邊緣點為支持向量。
設(shè)低維空間上的訓練樣本為(x1,y1),(x1,y1),…,(xn,yn),xi∈Rn,yi∈R,其中xi為i個n維輸入向量,yi為對應(yīng)的輸出值,通過一個非線性映射Φ(x)將訓練樣本由低維空間映射到高維空間中,在高維空間中再對樣本進行線性回歸分析,根據(jù)風險最小化準則構(gòu)建高維空間中擬合最優(yōu)的線性回歸函數(shù)f(x)=ω·φ(x)+b(ω為權(quán)重向量,b為偏置常數(shù)),然后使用該函數(shù)對另外的樣本進行預測,把線性回歸問題轉(zhuǎn)化為求如下的最優(yōu)化問題。
(1)
(2)
模型(1)、(2)的對偶問題:
(3)
(4)
(5)
式中,k(xi,x)為核函數(shù)。常用的核函數(shù)有線性核函數(shù)、多項核函數(shù)、徑向基核函數(shù)和sigmod核函數(shù)。根據(jù)專家經(jīng)驗,徑向基核函數(shù)(KBF)能使支持向量機取得最好的效果,所以選擇KBF作為核函數(shù)。
對支持向量機回歸參數(shù)估計有多種,比較各種參數(shù)估計方法從預測精度上考慮常選擇網(wǎng)格搜索法來確定懲罰因子C,核參數(shù)σ,損失函數(shù)中的參數(shù)ε。
本文選取豫南地區(qū)駐馬店市、信陽市、南陽市2009—2020年小麥種植區(qū)的氣象和小麥蚜蟲發(fā)生程度的數(shù)據(jù)資料,氣象各因子資料來源于豫南地區(qū)逐日氣象觀測資料,小麥蚜蟲的發(fā)生程度和天敵的數(shù)據(jù)資料來源于當?shù)刂脖2块T,氣象資料采取每月每旬作為時間周期,小麥蚜蟲的發(fā)生程度和天敵數(shù)據(jù)資料是指每個地市至少選擇5個樣本采集區(qū),每5d采集1次樣本。影響小麥發(fā)生程度的因子有日最高氣溫、日最低氣溫、平均氣溫、日照時數(shù);平均相對濕度、最小相對濕度、平均降水量、平均水氣壓;平均風速、最大風速、最大風速風向、極大風速、極大風速風向;日最高本站氣壓、日最低本站氣壓、平均氣壓;七星瓢蟲、異色瓢蟲、食蚜蠅幼蟲、草蛉幼蟲、寄生性天敵。本文以2009—2020年,每年2月1日—5月20日,以每旬作為時間周期,為了減少因子個數(shù)把天敵作為一個因子,共17個指標187個解釋變量。根據(jù)中華人民共和國農(nóng)業(yè)行業(yè)標準(NY/T612-2002)《小麥蚜蟲測報調(diào)查規(guī)范》,麥蚜發(fā)生程度根據(jù)百株蚜量(y,頭)分為5級,分級標準為一級(y≤500)、二級(500
利用影響小麥蚜蟲發(fā)生程度的指標因子和小麥蚜蟲發(fā)生程度數(shù)據(jù)組成的樣本集,(xi,yi),i=1,2,…n,xi∈Rn,yi∈R,構(gòu)建小麥蚜蟲發(fā)生程度的SVR預測模型。由于各影響因子的量綱不盡相同,為了克服各因子由于量綱的不同對預測結(jié)果的影響,同時為了提高各個數(shù)據(jù)間的可比性和數(shù)據(jù)的收斂速度,減少模型的訓練時間,先對原始數(shù)據(jù)進行歸一化處理,利用公式(6)可將原始數(shù)據(jù)壓縮到[0,1]。
(6)
本文通過構(gòu)建因子分析和支持向量機回歸組合預測模型(FA-SVR預測模型),提高模型的預測精度和時效性,根據(jù)指標構(gòu)建原則(全面性、簡明性、可操作性、經(jīng)濟性、代表性、規(guī)范性等)選取17個指標的評價體系,對樣本數(shù)據(jù)標準化處理,克服量綱和大數(shù)據(jù)對結(jié)果的影響,利用因子分析法提取5個公共因子(光熱因子、水分因子、風因子、氣壓因子、天敵因子),從而減少支持向量機指標的輸入個數(shù),分別以所得公共因子為自變量,以麥蚜發(fā)生程度為因變量分別進行多元線性回歸分析和支持向量機回歸分析,根據(jù)以上分析可以確定FA-SVR預測模型的流程圖,如圖1。
以旬為單位收集了2009—2020年12a的210個樣本數(shù)據(jù),其中選取2009—2017年的樣本數(shù)據(jù)作為訓練樣本,2018—2020年樣本數(shù)據(jù)作為測試樣本。對于訓練樣本選取徑向基核函數(shù)(KBF)構(gòu)建式(5)的ε-SVR預測模型。同時利用170個訓練樣本使用LIBSVM 3.22軟件包,采用網(wǎng)絡(luò)遍歷法和K(K=10)折交叉驗證法選擇最優(yōu)參數(shù),結(jié)果C=2257672.96512,g=0.000038896503529,P=0.0338。
以因子分析得到的5個公共因子為解釋變量,利用FA-SVR模型和多元線性回歸模型(MLR)得到麥蚜發(fā)生程度的預測值與觀測值之間的數(shù)據(jù)如表1,并且利用FA-SVR模型得到麥蚜發(fā)生程度的預測值與實際值之間的相關(guān)系數(shù)接近于1,利用多元線性回歸模型得到麥蚜發(fā)生程度的預測值與觀測值之間的相關(guān)系數(shù)為0.97,這表明麥蚜發(fā)生程度實際觀測值與預測值之間具有高度的相關(guān)性,并且通過FA-SVR模型得到的訓練樣本的預測值與實際觀測值相符合,如表1,測試集樣本數(shù)據(jù)的預測值與實際觀測值相符合,如表2。
表1 訓練樣本實際觀測值與預測值對比
表2 測試樣本實際觀測值與預測值對比
為評價模型的質(zhì)量,常用FA-SVR模型的預測值與觀測值的進行比較,通常采用以下統(tǒng)計量對FA-SVR模型進行評價,比較結(jié)果如表3。
表3 訓練和測試樣本誤差因子比較
平均絕對誤差:
均方誤差:
均方根誤差:
平均絕對百分比誤差:
本文首次將FA-SVR模型應(yīng)用于豫南地區(qū)小麥蚜蟲發(fā)生程度的預測模型中,通過實證分析可以看出,預測值和實際值呈現(xiàn)高度的相關(guān)性并且基本一致。由表4中3個模型比較可以得出,F(xiàn)A-SVR組合模型具有較高的預測精度,所以FA-SVR組合模型的應(yīng)用能夠準確及時地發(fā)布豫南地區(qū)小麥蚜蟲監(jiān)測預警信息,能夠有效地進行小麥蚜蟲的科學防控,并且本模型的預測精度和泛化能力都較高,所以,F(xiàn)A-SVR組合模型用于豫南地區(qū)小麥發(fā)生程度的預測是可行的。
表4 訓練樣本誤差比較