張晴晴,劉勇,牟少敏,溫孚江
山東農(nóng)業(yè)大學(xué)農(nóng)業(yè)大數(shù)據(jù)研究中心,山東 泰安 271018
基于大數(shù)據(jù)的小麥蚜蟲(chóng)發(fā)生程度決策樹(shù)預(yù)測(cè)分類(lèi)模型
張晴晴,劉勇,牟少敏,溫孚江
山東農(nóng)業(yè)大學(xué)農(nóng)業(yè)大數(shù)據(jù)研究中心,山東 泰安 271018
小麥蚜蟲(chóng)是危害小麥的主要害蟲(chóng)。其發(fā)生程度預(yù)測(cè)特別是短期預(yù)測(cè)一直是植物保護(hù)領(lǐng)域難以解決的科學(xué)問(wèn)題。傳統(tǒng)預(yù)測(cè)方法通常僅采用溫濕度,預(yù)測(cè)結(jié)果與實(shí)際發(fā)生匹配度不高。基于大數(shù)據(jù)的理念和數(shù)據(jù)挖掘技術(shù),通過(guò)對(duì)2003-2013年小麥蚜蟲(chóng)發(fā)生程度與瓢蟲(chóng)、寄生蜂、日最高氣壓、日照時(shí)數(shù)等18種變量關(guān)系的決策樹(shù)分析,構(gòu)建了分類(lèi)模型。經(jīng)分析發(fā)現(xiàn),日照時(shí)數(shù)與小麥蚜蟲(chóng)的發(fā)生程度關(guān)聯(lián)度最高,其次是天敵瓢蟲(chóng)。該模型置信度為91.49%,且運(yùn)行穩(wěn)健。
小麥蚜蟲(chóng);農(nóng)業(yè)大數(shù)據(jù);決策樹(shù);分類(lèi)模型
1.1 農(nóng)業(yè)大數(shù)據(jù)研究背景
大數(shù)據(jù)的數(shù)據(jù)分析和挖掘功能可以發(fā)現(xiàn)數(shù)據(jù)間隱藏的相關(guān)性,并能通過(guò)合適的可視化技術(shù)將這種相關(guān)性形象地展示出來(lái)。這些都有助于人們揭示事物的發(fā)生和發(fā)展的基本規(guī)律,做出快速和符合實(shí)際的預(yù)測(cè)。2014年,荷蘭科學(xué)家基于多年數(shù)據(jù)的深入分析,在《Nature》發(fā)文指出,新煙堿類(lèi)殺蟲(chóng)劑吡蟲(chóng)啉的應(yīng)用是本地食蟲(chóng)鳥(niǎo)類(lèi)種群數(shù)量減少的主要原因[1];同年,通過(guò)分析溫度變化與埃塞俄比亞和哥倫比亞高海拔人口密集區(qū)的瘧疾傳播蚊蟲(chóng)和病原的數(shù)量變化關(guān)系,美國(guó)和英國(guó)科學(xué)家也在《Science》中發(fā)表論文,指明全球變暖會(huì)導(dǎo)致非洲和南美洲高原地帶瘧疾病的流行[2]。
農(nóng)業(yè)大數(shù)據(jù)涉及農(nóng)業(yè)領(lǐng)域的各個(gè)環(huán)節(jié),采集、整合、挖掘和利用農(nóng)業(yè)大數(shù)據(jù),能夠帶來(lái)現(xiàn)代農(nóng)業(yè)在農(nóng)業(yè)生產(chǎn)、農(nóng)業(yè)管理、農(nóng)業(yè)經(jīng)營(yíng)和農(nóng)業(yè)服務(wù)等方面的變革。農(nóng)作物病蟲(chóng)害的監(jiān)測(cè)預(yù)警是指導(dǎo)病蟲(chóng)害科學(xué)防控,保障國(guó)家糧食、食物和生態(tài)安全的重要前提。盡管目前病蟲(chóng)害監(jiān)測(cè)預(yù)警已有一些專(zhuān)用的技術(shù)和軟件,但往往采集數(shù)據(jù)指標(biāo)偏少,數(shù)據(jù)挖掘技術(shù)不高,造成預(yù)警結(jié)果不準(zhǔn)確,與實(shí)際發(fā)生匹配度不高;或者預(yù)測(cè)模型可操作性低,不能更好地直接為政府決策或農(nóng)業(yè)生產(chǎn)服務(wù)。
1.2 小麥蚜蟲(chóng)的危害及監(jiān)測(cè)預(yù)警
小麥?zhǔn)俏覈?guó)重要的糧食作物之一,山東省所處的黃淮海麥區(qū)是我國(guó)最主要的小麥產(chǎn)區(qū)。小麥長(zhǎng)管蚜和禾谷縊管蚜是影響我國(guó)小麥生產(chǎn)的最主要害蟲(chóng)[3]。據(jù)統(tǒng)計(jì),我國(guó)每年小麥蚜蟲(chóng)危害面積可達(dá)2.5億畝,造成減產(chǎn)15%~30%,嚴(yán)重時(shí)可高達(dá)60%。近年來(lái),全球氣候變暖、耕作制度變化等因素使麥蚜的繁殖能力和適應(yīng)性顯著增強(qiáng),其危害日趨嚴(yán)重[4]。
監(jiān)測(cè)預(yù)警是小麥蚜蟲(chóng)“統(tǒng)防統(tǒng)治”和有效控制的基礎(chǔ)。它能夠嚴(yán)格按照防治閾值的要求服務(wù)于政府決策和農(nóng)業(yè)生產(chǎn)。由于小麥蚜蟲(chóng)發(fā)生的普遍性和危害的嚴(yán)重性,國(guó)內(nèi)外已有不少對(duì)其發(fā)生期和發(fā)生程度預(yù)測(cè)的研究[5-8]。但絕大多數(shù)研究?jī)H僅是根據(jù)有限的氣象數(shù)據(jù)(如溫度和濕度),采用線性回歸分析,建立相關(guān)的線性模型,開(kāi)展中長(zhǎng)期預(yù)測(cè)。此種預(yù)測(cè)忽視了生物因子(如自然天敵)及其他非生物因子與蚜蟲(chóng)發(fā)生的關(guān)聯(lián)性,預(yù)測(cè)準(zhǔn)確度低。因此,依據(jù)多年小麥蚜蟲(chóng)發(fā)生時(shí)農(nóng)作物生長(zhǎng)發(fā)育狀況、氣象條件、天敵因素、周邊環(huán)境以及農(nóng)事管理措施等數(shù)據(jù)的支撐,以大數(shù)據(jù)的研究技術(shù),發(fā)揮其預(yù)測(cè)及分析功能,可為小麥蚜蟲(chóng)的綠色和科學(xué)防控服務(wù)。
1.3 決策樹(shù)C5.0算法的發(fā)展及優(yōu)勢(shì)
決策樹(shù)(decision tree)是一個(gè)類(lèi)似于流程圖的樹(shù)結(jié)構(gòu),其中每個(gè)內(nèi)部節(jié)點(diǎn)表示一個(gè)屬性上的測(cè)試,每個(gè)分枝代表一個(gè)測(cè)試輸出,而每個(gè)葉節(jié)點(diǎn)代表一種類(lèi)別。決策樹(shù)這一數(shù)據(jù)挖掘方法的起源是概念學(xué)習(xí)系統(tǒng)(concept learning system,CLS)。在CLS的基礎(chǔ)上發(fā)展到ID3算法,ID3算法是該方法的高潮[9,10]。ID3算法是由Quinlan R于1986年提出的,他將Shannon的信息論引入決策樹(shù)算法中,把信息熵作為選擇測(cè)試變量的標(biāo)準(zhǔn),對(duì)訓(xùn)練集進(jìn)行分類(lèi)并構(gòu)造決策樹(shù)來(lái)預(yù)測(cè)如何由變量對(duì)整個(gè)實(shí)例空間進(jìn)行劃分[11],后來(lái)又演化為能處理連續(xù)變量的C4.5。最終C5.0算法出現(xiàn),經(jīng)過(guò)多次改進(jìn)該算法已經(jīng)相對(duì)成熟,其主要優(yōu)勢(shì)體現(xiàn)在運(yùn)行速度及性能方面。其另一優(yōu)勢(shì)是分析結(jié)果最終以樹(shù)型圖或者規(guī)則集的形式表示,不受時(shí)間的約束,將屬性按照重要度權(quán)重大小排列在樹(shù)型圖上,在預(yù)測(cè)小麥蚜蟲(chóng)發(fā)生等級(jí)的過(guò)程中,可優(yōu)先考慮重要度較大的屬性,這樣在判斷麥蚜發(fā)生等級(jí)時(shí)較便捷,可充分滿足實(shí)際生產(chǎn)的需求。
與SVM及神經(jīng)網(wǎng)絡(luò)只輸出發(fā)生等級(jí)相比,C5.0樹(shù)型圖在田間的可操作性更強(qiáng)。決策樹(shù)C5.0可通過(guò)人工干預(yù),即決策樹(shù)可以被修剪,避免模型的過(guò)度擬合。當(dāng)然,常見(jiàn)的決策樹(shù)算法有很多,如CHAID算法和CART算法,其中CHAID算法側(cè)重于統(tǒng)計(jì)顯著性檢驗(yàn);CART算法是根據(jù)Gini系數(shù)和方差來(lái)選擇最佳分組變量和分割點(diǎn),而C5.0算法以熵值函數(shù)將變量分組,在判斷輸入變量的異質(zhì)性上,顯然后者優(yōu)于前者。因此,本文選用決策樹(shù)C5.0作為構(gòu)建小麥蚜蟲(chóng)發(fā)生程度模型的算法。
依據(jù)大數(shù)據(jù)理念,在農(nóng)作物病蟲(chóng)害監(jiān)測(cè)預(yù)警中,首次采用決策樹(shù)的數(shù)據(jù)分析和挖掘手段,構(gòu)建小麥蚜蟲(chóng)發(fā)生關(guān)聯(lián)因子的決策樹(shù)預(yù)測(cè)分類(lèi)模型,為小麥蚜蟲(chóng)的有效控制,為保障國(guó)家糧食、食物安全和促進(jìn)農(nóng)業(yè)提質(zhì)增效服務(wù)。
2.1 數(shù)據(jù)特征
本文涉及的數(shù)據(jù)類(lèi)型主要包括2003-2013年小麥蚜蟲(chóng)的發(fā)生程度、天敵發(fā)生量、小麥生育期及逐日氣象數(shù)據(jù)。其中,天敵有2類(lèi),分別是瓢蟲(chóng)和寄生蜂,瓢蟲(chóng)為平均1 m2內(nèi)的有效蟲(chóng)態(tài)數(shù)量,寄生蜂為平均百株僵蚜的數(shù)量;氣象的變量種類(lèi)共16個(gè),分別為:20∶00-次日20∶00降水量、極大風(fēng)速、極大風(fēng)速的風(fēng)向、平均本站氣壓、平均風(fēng)速、平均氣溫、平均水汽壓、平均相對(duì)濕度、日照時(shí)數(shù)、日最低本站氣壓、日最低氣溫、日最高本站氣壓、日最高氣溫、最大風(fēng)速、最大風(fēng)速的風(fēng)向和最小相對(duì)濕度。變量中的2003-2013年小麥蚜蟲(chóng)的發(fā)生程度、天敵發(fā)生量和小麥生育期均來(lái)自魯中生態(tài)區(qū)[12]各地植物保護(hù)站和本實(shí)驗(yàn)室逐年系統(tǒng)調(diào)查的數(shù)據(jù)。逐日氣象數(shù)據(jù)來(lái)自國(guó)家氣象中心。
2.2 數(shù)據(jù)預(yù)處理
2.2.1 目標(biāo)變量離散化
在模型構(gòu)建中,離散型變量要比連續(xù)型變量的處理速度快,因此將目標(biāo)變量進(jìn)行離散化處理[13]。根據(jù)中華人民共和國(guó)農(nóng)業(yè)行業(yè)標(biāo)準(zhǔn)(NY/T612-2002)《小麥蚜蟲(chóng)測(cè)報(bào)調(diào)查規(guī)范》,當(dāng)季蚜蟲(chóng)累計(jì)發(fā)生量達(dá)到發(fā)生總量的16%、50%、84%的時(shí)間分別為始盛期、高峰期、盛末期,從始盛期至盛末期一段時(shí)間為發(fā)生盛期。小麥蚜蟲(chóng)的發(fā)生程度分為5級(jí),主要以當(dāng)?shù)匦←溠料x(chóng)發(fā)生盛期平均百株蚜量來(lái)確定,各級(jí)指標(biāo)見(jiàn)表1。
表1 小麥蚜蟲(chóng)發(fā)生程度分級(jí)指標(biāo)
2.2.2 變量刪除
將可以用其他變量代替的變量刪除,小麥生育期的變化基本與日照時(shí)數(shù)呈正相關(guān),由于小麥生育期是通過(guò)觀察小麥的生長(zhǎng)發(fā)育情況人為確定的,其調(diào)查結(jié)果的誤差大于日照時(shí)數(shù),因此小麥生育期保留日照時(shí)數(shù)。
2.2.3 決策樹(shù)C5.0算法原理
決策樹(shù)C5.0算法共涉及3個(gè)函數(shù),分別是計(jì)算熵值函數(shù)、計(jì)算信息增益函數(shù)和計(jì)算信息增益率函數(shù)。其中,熵值函數(shù)是決策樹(shù)的變量選擇函數(shù),用來(lái)預(yù)測(cè)信息位數(shù)。熵值函數(shù)的計(jì)算式如下:
其中,pn為n發(fā)生的概率。Entro(p1, p2,…,pn)=0,表示存在唯一的可能性;pn的差別越小,Entro(p1,p2,…,pn)的值就越大,相反,pn的差別越大,熵值就越小。
決策樹(shù)中信息熵的計(jì)算式如下:
其中,m是一個(gè)樣本集合,目標(biāo)變量n有k個(gè),freq(ni,m)表示n的樣本數(shù),|m|表示集合m的樣本數(shù)。
根據(jù)計(jì)算所得的信息熵值計(jì)算信息增益值,信息增益函數(shù)是進(jìn)行變量選擇前后的信息差值的函數(shù)。S是某屬性變量,有a個(gè)分類(lèi),其計(jì)算式如下:
Info(T)和Info(S)分別是決策樹(shù)進(jìn)行屬性劃分前后的信息增益值,其計(jì)算式如下:
信息增益率則是逐個(gè)計(jì)算比較,最終確定樹(shù)型圖上節(jié)點(diǎn)的位置。
基于訓(xùn)練集得到的決策樹(shù)通常不是最佳的,因?yàn)闆Q策樹(shù)中的構(gòu)造會(huì)受到樣本中異常數(shù)據(jù)的影響,存在過(guò)度擬合問(wèn)題,得到的決策樹(shù)因失去一般代表性而不適用于對(duì)新數(shù)據(jù)進(jìn)行分類(lèi)預(yù)測(cè)[14]。因此,需要對(duì)決策樹(shù)進(jìn)行剪枝。誤差估計(jì)是在訓(xùn)練樣本基礎(chǔ)上給出一個(gè)置信度1-a,C5.0默認(rèn)的置信度為1-25%=75%,然后計(jì)算錯(cuò)誤率[15]。C5.0算法主要克服了ID3算法中偏向取值多的變量的不足[16]。本文采用IBM SPSS Modeler中較成熟的C5.0算法,最終結(jié)果可用樹(shù)型圖或者規(guī)則集的IF-THEN形式顯示。
將小麥蚜蟲(chóng)發(fā)生程度設(shè)置為目標(biāo)變量,其余變量設(shè)置為輸入變量,編寫(xiě)數(shù)據(jù)流。其中,樣本中75%的數(shù)據(jù)作為訓(xùn)練集,25%的數(shù)據(jù)作為測(cè)試集,運(yùn)行該數(shù)據(jù)流,得到信息增益率、樹(shù)型圖、規(guī)則集及準(zhǔn)確率,建立相關(guān)的分類(lèi)模型。
3.1 數(shù)據(jù)預(yù)處理及數(shù)據(jù)特性
經(jīng)目標(biāo)變量離散化及特殊值的去除,統(tǒng)計(jì)目標(biāo)變量的結(jié)果如圖1所示。其中,1級(jí)占最大比例,4級(jí)占比例最少,眾數(shù)為1。
圖1 小麥蚜蟲(chóng)發(fā)生等級(jí)統(tǒng)計(jì)
3.2 信息增益率
為消除訓(xùn)練集中的孤立點(diǎn),決策樹(shù)會(huì)對(duì)樹(shù)型圖進(jìn)行剪枝訓(xùn)練,最終得到10個(gè)相關(guān)性較強(qiáng)的變量。其中,信息增益率最高的變量為日照時(shí)數(shù)(0.378 2),作為樹(shù)型圖的第一個(gè)節(jié)點(diǎn)進(jìn)行測(cè)試。分別根據(jù)信息增益率的值分配各輸入變量的節(jié)點(diǎn)位置,見(jiàn)表2。
表2 輸入變量的信息增益率
3.3 決策樹(shù)樹(shù)型圖
C5.0決策樹(shù)的分析方法最終運(yùn)行結(jié)果可用樹(shù)型圖的形式表示。圖2為部分決策樹(shù)樹(shù)型圖。
圖2 部分決策樹(shù)樹(shù)型圖
圖2中,節(jié)點(diǎn)表示輸入變量,其位置取決于信息增益率的大小。類(lèi)別是目標(biāo)變量的取值,即小麥蚜蟲(chóng)的發(fā)生等級(jí),n表示樣本的個(gè)數(shù)。由圖2可知,當(dāng)日照時(shí)數(shù)大于13 h,小麥蚜蟲(chóng)發(fā)生程度為4級(jí);當(dāng)日照時(shí)數(shù)小于或等于13 h,并且百株瓢蟲(chóng)數(shù)小于或等于7.6頭時(shí),小麥蚜蟲(chóng)發(fā)生等級(jí)為1級(jí);當(dāng)百株瓢蟲(chóng)數(shù)大于7.6頭時(shí),如日最高本站氣壓大于848.9 hPa且20∶00-次日20∶00降水量大于0.3 mm,則小麥蚜蟲(chóng)發(fā)生等級(jí)為3級(jí);當(dāng)日最高本站氣壓大于848.9 hPa、20∶00-次日20∶00降水量小于或等于0.3 mm且最大風(fēng)速大于11.5 m/s時(shí),小麥蚜蟲(chóng)發(fā)生等級(jí)為2級(jí),以此類(lèi)推。
3.4 決策樹(shù)規(guī)則集
規(guī)則集可根據(jù)樹(shù)型圖來(lái)提取,樹(shù)型圖中從頭至尾的每一條執(zhí)行線路為一條規(guī)則集,具體提取方法如圖3所示。
圖3 規(guī)則集提取流程
決策樹(shù)分析結(jié)果的另一種表達(dá)方式是“IF-THEN”的規(guī)則集形式。部分規(guī)則如下:規(guī)則用于 1 - 包含 2 個(gè)規(guī)則
規(guī)則 1 用于 1.0
如果平均水汽壓≤123
并且日照時(shí)數(shù)≤130
并且日最低氣溫>112
則 1.000
規(guī)則 2 用于 1.0
如果日照時(shí)數(shù)≤130
則 1.000
規(guī)則用于 3 - 包含 1 個(gè)規(guī)則
規(guī)則 1 用于 3.0
如果 20-20時(shí)降水量>3
并且日最高本站氣壓>8 489
則 3.000
規(guī)則用于 4 - 包含 1 個(gè)規(guī)則
規(guī)則 1 用于 4.0
如果日照時(shí)數(shù)>130
則 4.000
根據(jù)目標(biāo)變量的取值,該規(guī)則集可分為5種規(guī)則,分別針對(duì)1級(jí)、2級(jí)、3級(jí)、4級(jí)和5級(jí)小麥蚜蟲(chóng)發(fā)生等級(jí),由于原理類(lèi)似,本文只呈現(xiàn)部分較短的規(guī)則。在每一種規(guī)則中包含一個(gè)或多個(gè)規(guī)則,可根據(jù)輸入變量預(yù)測(cè)目標(biāo)變量,無(wú)需再次進(jìn)行計(jì)算機(jī)驗(yàn)證。例如規(guī)則用于1中的規(guī)則1,如果某年的平均水汽壓小于或等于12.3 hPa,日照時(shí)數(shù)小于或者等于13 h,并且日最低氣溫大于11.2 ℃,那么小麥蚜蟲(chóng)的發(fā)生等級(jí)可預(yù)測(cè)為1級(jí)。
3.5 模型檢驗(yàn)
C5.0算法常用于商業(yè)、醫(yī)學(xué)等精確估計(jì),其模型的置信度是統(tǒng)計(jì)預(yù)測(cè)值中正確值的個(gè)數(shù)占總樣本數(shù)的比值。經(jīng)分析,得到樣本中目標(biāo)變量的正確值與錯(cuò)誤值。計(jì)算得到該模型的置信度為91.49%,且運(yùn)算穩(wěn)定(見(jiàn)表3)。由小麥蚜蟲(chóng)的預(yù)測(cè)值與真實(shí)值的擬合圖可知(如圖4所示),對(duì)于5級(jí)的預(yù)測(cè)效果偏離真實(shí)值最大。
農(nóng)業(yè)大數(shù)據(jù)有其自身特有的復(fù)雜性和特殊性,相對(duì)于采用二維表來(lái)邏輯表達(dá)的關(guān)系型數(shù)據(jù)結(jié)構(gòu),農(nóng)業(yè)領(lǐng)域更多的是半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),如大量的文字、圖表、圖片、動(dòng)畫(huà)語(yǔ)音、視頻等形式組成的超媒體要素以及專(zhuān)家經(jīng)驗(yàn)和知識(shí)農(nóng)業(yè)模型等[17],這些特性都使其更適合應(yīng)用大數(shù)據(jù)技術(shù)。加之物聯(lián)網(wǎng)技術(shù)向農(nóng)業(yè)各領(lǐng)域滲透,大數(shù)據(jù)技術(shù)在農(nóng)業(yè)上的應(yīng)用已成為農(nóng)業(yè)信息技術(shù)發(fā)展的必然趨勢(shì)[18]。近年來(lái),物聯(lián)網(wǎng)技術(shù)在農(nóng)業(yè)生產(chǎn)中的應(yīng)用日漸深入,每年產(chǎn)生海量病蟲(chóng)害方面的數(shù)據(jù),這些數(shù)據(jù)為農(nóng)業(yè)大數(shù)據(jù)研究奠定了基礎(chǔ)。大數(shù)據(jù)落腳于農(nóng)業(yè),讓理論變?yōu)閷?shí)踐并服務(wù)于社會(huì),引領(lǐng)現(xiàn)代農(nóng)業(yè)進(jìn)入新的發(fā)展空間,將會(huì)給農(nóng)業(yè)帶來(lái)翻天覆地的變化。
表3 小麥蚜蟲(chóng)預(yù)測(cè)模型的真實(shí)值與預(yù)測(cè)值
圖4 決策樹(shù)分析結(jié)果擬合
精準(zhǔn)的數(shù)據(jù)挖掘并非依賴精準(zhǔn)的算法,無(wú)論是分類(lèi)模型還是回歸模型,算法已經(jīng)經(jīng)歷了無(wú)數(shù)次的運(yùn)行驗(yàn)證,只有數(shù)據(jù)的質(zhì)量才會(huì)決定最終結(jié)果的準(zhǔn)確性。因此數(shù)據(jù)的預(yù)處理環(huán)節(jié)在數(shù)據(jù)挖掘中是非常重要的環(huán)節(jié)[19]。C5.0算法已經(jīng)被驗(yàn)證無(wú)數(shù)次,其準(zhǔn)確率高,主要是針對(duì)大數(shù)據(jù)集的分類(lèi)算法,繼續(xù)沿用C4.5算法的運(yùn)算函數(shù),運(yùn)行速度和性能在C4.5的基礎(chǔ)上有了明顯提高。其結(jié)果最終呈現(xiàn)為非線性,無(wú)需假設(shè)輸入變量間不相關(guān)。其優(yōu)勢(shì)在于分析結(jié)果為樹(shù)型圖或規(guī)則集的形式,在實(shí)際生產(chǎn)中無(wú)需運(yùn)行算法,可直接辨別小麥蚜蟲(chóng)的發(fā)生等級(jí)。因此,根據(jù)本文研究結(jié)果,可采集氣象、生育期及天敵參數(shù),預(yù)測(cè)小麥蚜蟲(chóng)的發(fā)生等級(jí),服務(wù)決策和農(nóng)業(yè)生產(chǎn)。
小麥蚜蟲(chóng)的發(fā)生程度與氣象因素和天敵的關(guān)聯(lián)度高。本文淡化了調(diào)查的時(shí)間序列,隨機(jī)選取訓(xùn)練集和測(cè)試集,通過(guò)訓(xùn)練集找出輸入變量與目標(biāo)變量之間的固定關(guān)系,然后用測(cè)試集驗(yàn)證這一關(guān)系。結(jié)果顯示,小麥蚜蟲(chóng)的發(fā)生程度與日照時(shí)數(shù)關(guān)聯(lián)度最高,其次為瓢蟲(chóng)和寄生蜂。因此,在小麥生產(chǎn)中,針對(duì)小麥蚜蟲(chóng)發(fā)生程度的短期預(yù)測(cè),可依據(jù)該模型完成。另外,當(dāng)日照時(shí)數(shù)達(dá)到13 h時(shí),應(yīng)當(dāng)注意防控小麥蚜蟲(chóng)的大發(fā)生。
隨著物聯(lián)網(wǎng)數(shù)據(jù)采集技術(shù)在病蟲(chóng)害監(jiān)測(cè)預(yù)警中的逐步應(yīng)用,采集的規(guī)范化的海量數(shù)據(jù)會(huì)不斷提高建模的數(shù)據(jù)質(zhì)量,將會(huì)使預(yù)測(cè)更加符合實(shí)際。
參考文獻(xiàn):
[1] HHLLMANN C A, FOPPEN R P B, VAN TURNHOUT C A M, et al. Declines in insectivorous birds are associated with high neonicotinoid concentrations[J]. Nature, 2014, 511(7509): 341-343.
[2] SIRAJ A S, SANTOS-VEGA M, BOUMA M J. Altitudinal changes in malaria incidence in highlands of Ethiopia and Colombia[J]. Science, 2014, 343(6175): 1154-1158.
[3] 牟吉元. 農(nóng)業(yè)昆蟲(chóng)學(xué)[M]. 北京: 中國(guó)農(nóng)業(yè)科技出版社, 1995: 225-237. MU J Y. Agricultural Entomology. Beijing: Chinese Agricultural Science and Technology Press, 1995: 225-237.
[4] 遲寶杰, 朱英菲, AXEL V, 等. 麥長(zhǎng)管蚜及其天敵的種群發(fā)生和食物網(wǎng)分析[J]. 應(yīng)用昆蟲(chóng)學(xué)報(bào), 2014, 51(6): 1496-1503. CHIBJ, ZHUYF, AXELV, etal. Demographic and quantitative food web analysis of Sitobion avenae and its natural enemies[J]. Chinese Journal of Applied Entomology, 2014, 51(6): 1496-1503.
[5] PIYARATNE M K D K, ZHAO H Y, HU Z Q, et al. A model to analyze weather impact on aphid population dynamics: an application on swallow tall catastrophe model[J]. European Scientific Journal, 2014, 10(18): 1857-7431.
[6] DEBORAH J T, ART J D, FRAN?OISE A B, et al. Forecasting aphid outbreaks and epidemics of cucumber mosaic virus in lupin crops in a Mediterranean-type environment[J]. Virus Research, 2004, 100(1): 67-82.
[7] LUO J H, HUANG W J, ZHAO J L, et al. Predicting the probability of wheat aphid occurrence using satellite remote sensing and meteorological data[J]. Optik, 2014, 125(19): 5660-5665.
[8] 李文峰, 尹彬, 曹志偉, 等. 許昌市小麥蚜蟲(chóng)種群變化規(guī)律及氣象預(yù)測(cè)模型[J]. 河南農(nóng)業(yè)科學(xué), 2011, 40(3): 81-84. LI W F, YIN B, CAO Z W, et al. Variation of wheat aphid population in Xuchang and prediction models with meteorological data[J]. Journal of Henan Agricultural Sciences, 2011, 40(3): 81-84.
[9] QUINLAN J R. Induction of decision trees[J]. Machine Learning, 1986, 1(1): 81-106.
[10] QUINL AN J R. C4.5: Programs for Machine Learning[M]. Burlington: Morgan Kaufmanns Publishers, 1993: 69-81.
[11] 張家旺, 韓光勝, 張偉. C5. 0算法在RoboCup傳球訓(xùn)練中的應(yīng)用研究[J].計(jì)算機(jī)仿真, 2006, 23(4): 132-153. ZHAN G J W, H AN G S, ZHAN G W. Application of C5.0 algorithmin passing ball training of RoboCup[J]. Computer Simulation, 2006, 23(4): 132-153.
[12] 于成. 基于cropwat的山東省主要糧食作物生產(chǎn)水足跡區(qū)域差異研究[D]. 濟(jì)南:山東師范大學(xué), 2014: 9-11. YU C. Study on regional of production water footprint of main crop based on cropwat in Shandong province[D]. Jinan: Shandong Normal University, 2014: 9-11.
[13] 朱廷勛, 高文. 基于數(shù)據(jù)挖掘的普通話韻律規(guī)則學(xué)習(xí)[J]. 計(jì)算機(jī)學(xué)報(bào), 2000, 23(11): 1179-1184. ZHU T X, GAO W. Data mining for learning mandarion prosodic models[J]. Journal of Computer Science, 2000, 23(11): 1179-1184.
[14] 劉軍. 基于決策樹(shù)算法的客戶流失預(yù)測(cè)系統(tǒng)的分析與研究[D]. 武漢: 武漢理工大學(xué), 2010: 45-54. LIU J. Research of customer churn system based on decision tree algorithm[D]. Wuhan: Wuhan University of Technology, 2010: 45-54.
[15] 薛微, 陳歡歌. Clementine 數(shù)據(jù)挖掘方法及應(yīng)用[M]. 北京:電子工業(yè)出版社, 2010: 140-142 XUE W, CHEN H G. Clementine Data Mining Methods and Applications[M]. Beijing: Electronic Industry Press, 2010: 140-142.
[16] 陸安生, 陳永強(qiáng), 屠浩文. 決策樹(shù)C5算法的分析與應(yīng)用[J]. 電腦知識(shí)與技術(shù), 2005, 9(3): 17-20.LUAS, CHENYQ,TUHW. The analysis and application of decision tree C5 algorithm[J]. Computer Knowledge and Technology, 2005, 9(3):17-20.
[17] 孫忠富, 杜克明, 鄭飛翔, 等. 大數(shù)據(jù)在智慧農(nóng)業(yè)中研究與應(yīng)用展望[J]. 中國(guó)農(nóng)業(yè)科技導(dǎo)報(bào),2013, 15(6): 63-71.SUN Z F, DU K M, ZHENG F X, et al. Perspectives of research and application of big data on smart agriculture[J]. Journal of Agricultural Science and Technology, 2013, 15(6): 63-71.
[18] 孫忠富, 杜克明, 尹首一.物聯(lián)網(wǎng)發(fā)展趨勢(shì)與農(nóng)業(yè)應(yīng)用展望[J].農(nóng)業(yè)網(wǎng)絡(luò)信息, 2010(5): 5-8. SUN Z F, DU K M, YIN S Y.Development trend of internet of things and perspective of its application in agriculture[J]. Agriculture Network Information, 2010(5): 5-8.
[19] 彭鴻濤, 聶磊. 發(fā)現(xiàn)數(shù)據(jù)之美——數(shù)據(jù)分析原理與實(shí)踐[M]. 北京: 電子工業(yè)出版社, 2014: 5-7. PENG H T, NIE L. Discover the Beauty of Data--Data Analysis Theory and Practice[M]. Beijing: Electronic Industry Press, 2014: 5-7.
Decision tree predictive classification model on the occurrence degree of wheat aphids based on big data
ZHANG Qingqing, LIU Yong, MU Shaomin, WEN Fujiang
Agricultural Big Data Research Center, Shandong Agricultural University, Taian 271018, China
Wheat aphids are the main pests of wheat crops. The monitoring and forecasting of their occurrence degree, especially the short-term occurrence degree, is much difficult. Many traditional predictions rely only on temperature and humidity, so the match degree to the actual occurrence value is low. Based on the concept of big data and data mining programs, the predictive classification model was established by means of the decision tree analysis of the relationship between the occurrence degree of aphids and up to 18 variables. It was found out that the duration of sunshine has the highest degree of relevance to the forecasting level of aphids, followed by ladybird. The confidence coefficient of the model that runs steadily in the experiment is 91.49%.
wheat aphids, agricultural big data, decision tree, classification model
S431.9
A
10.11959/j.issn.2096-0271.2016007
張晴晴(1991-),女,山東農(nóng)業(yè)大學(xué)碩士生,主要研究方向?yàn)檗r(nóng)業(yè)大數(shù)據(jù)。
劉勇(1968-),男,山東農(nóng)業(yè)大學(xué)教授、博士生導(dǎo)師,主要研究方向?yàn)楹οx(chóng)綠色防控和農(nóng)業(yè)大數(shù)據(jù)。
牟少敏(1964-),男,博士,山東農(nóng)業(yè)大學(xué)教授,主要研究方向?yàn)榇髷?shù)據(jù)、機(jī)器學(xué)習(xí)和模式識(shí)別。
溫孚江(1955-),男,現(xiàn)任山東農(nóng)業(yè)大學(xué)校長(zhǎng)、教授,農(nóng)業(yè)大數(shù)據(jù)創(chuàng)新戰(zhàn)略聯(lián)盟理事長(zhǎng),全國(guó)人民代表大會(huì)常務(wù)委員會(huì)委員。早年留學(xué)美國(guó),并獲博士學(xué)位。主要從事植物保護(hù)研究和宏觀農(nóng)業(yè)研究工作。發(fā)表論文210余篇,專(zhuān)著5部。最近一部專(zhuān)著《大數(shù)據(jù)農(nóng)業(yè)》由中國(guó)農(nóng)業(yè)出版社于2015年9月出版。目前主要從事農(nóng)業(yè)大數(shù)據(jù)應(yīng)用研究工作,是我國(guó)農(nóng)業(yè)大數(shù)據(jù)研究主要發(fā)起人之一。
2015-10-30
劉勇,liuyong@sdau.edu.cn;溫孚江,fjw@sdau.edu.cn
山東省農(nóng)業(yè)重大應(yīng)用技術(shù)創(chuàng)新課題基金資助項(xiàng)目
Foundation Item: Major Innovation of Applied Technology in Agriculture of Shandong Province