康 麗,袁建清,高 睿,孔慶明,賈銀江,蘇中濱*
1. 東北農(nóng)業(yè)大學(xué)電氣與信息學(xué)院,黑龍江 哈爾濱 150030 2. 大連工業(yè)大學(xué)信息科學(xué)與工程學(xué)院,遼寧 大連 116034 3. 哈爾濱金融學(xué)院計(jì)算機(jī)系,黑龍江 哈爾濱 150030
稻瘟病是世界公認(rèn)的水稻三大病害之一,極大地危害水稻的品質(zhì)和產(chǎn)量,因而對稻瘟病的監(jiān)測與防治一直是水稻種植領(lǐng)域的重要課題。目前主要采取階段性提前噴灑農(nóng)藥防治稻瘟病,雖然在一定程度上起到防治作用,但由于不區(qū)分發(fā)病與否,易造成施藥過量、危害食品安全、污染環(huán)境、抬升成本等問題。實(shí)現(xiàn)稻瘟病的分級監(jiān)測,尤其發(fā)病早期葉片的檢測識別,對早期防治、精準(zhǔn)科學(xué)施藥等具有指導(dǎo)意義。
目前農(nóng)田生產(chǎn)中稻瘟病識別和分級方式主要以傳統(tǒng)的人工觀察為主,效率低、誤差大,尤其對于癥狀不明顯的發(fā)病早期葉片,非專業(yè)人員不易識別,對于發(fā)病之初的無病斑葉片,人工更是完全無法識別。近年來,高光譜技術(shù)以其無損、綠色、高效等優(yōu)點(diǎn)逐步引起農(nóng)業(yè)領(lǐng)域研究人員的關(guān)注,已在作物識別[1]、葉綠素估算[2-3]、生物量檢測[4]、病蟲害檢測[5-8]等方面得到廣泛研究。水稻病害方面,李志偉等[9]應(yīng)用高光譜技術(shù)對水稻紋枯病進(jìn)行識別; 朱夢遠(yuǎn)等[10]研究了基于高光譜數(shù)據(jù)和葉綠素含量的紋枯病早期識別; Kobayashi等[11]利用航空高光譜圖像對水稻稻瘟病區(qū)域識別進(jìn)行了研究; 袁建清等[12]針對寒地水稻研究了稻瘟病與缺氮葉片高光譜識別; 黃雙萍等[13]對穗瘟病的高光譜檢測方法進(jìn)行了研究。目前利用高光譜技術(shù)對水稻稻瘟病葉片檢測的研究主要集中在染病葉片和健康葉片的區(qū)分識別,及輕重程度差異較大的分級檢測。對于早期分級檢測研究較少,基于自然發(fā)病的早期檢測,尤其對非人工接種方式染病無病斑葉片的檢測研究未見報(bào)道。
以大田自然發(fā)病水稻為研究對象,應(yīng)用高光譜成像技術(shù),對水稻稻瘟病早期分級檢測進(jìn)行研究,并提出染病無病斑級別進(jìn)行檢測。采用多種特征變量提取方式,構(gòu)建多個稻瘟病早期高光譜分級檢測模型,對比分析確定最優(yōu)模型,以實(shí)現(xiàn)為水稻病害早期防治、精準(zhǔn)用藥以及監(jiān)測儀器的開發(fā)提供理論支持。
樣本全部采集于黑龍江省哈爾濱市方正縣水稻研究院大田。選擇在稻瘟病發(fā)病明顯的水稻拔節(jié)期進(jìn)行樣本采集,根據(jù)病斑區(qū)域大小選取染病程度較輕葉片和健康葉片放入保溫箱內(nèi),并立即帶入研究院內(nèi)實(shí)驗(yàn)室采集高光譜圖像。最終獲得有效樣本共計(jì)433片,其中,健康葉片109片、染病葉片324片。
水稻感染稻瘟病之初,并不會立刻出現(xiàn)可見病斑,無病斑導(dǎo)致在田間無法識別、無法直接采集到此類葉片樣本。有病斑葉片的病斑附近雖未呈現(xiàn)病斑,但葉片組織也已受到病害侵襲、遭到破壞,因此,為實(shí)現(xiàn)對自然發(fā)病狀態(tài)下最早期的染病葉片無病斑狀態(tài)的檢測,提取染病葉片樣本靠近病斑的非病斑區(qū)域高光譜數(shù)據(jù)進(jìn)行研究。在采集的染病葉片中隨機(jī)選取116片作為此類樣本,定義為染病等級中的1級(染病無病斑)樣本。
根據(jù)病斑面積將所有葉片樣本劃分為4個等級: 健康葉片為0級(109片)、染病無病斑為1級(116片)、病斑面積<10%為2級(107片)、病斑面積<25%為3級(101片)。將4個級別的樣本各自隨機(jī)排列,按照2∶1的比例隨機(jī)劃分建模集和驗(yàn)證集,具體樣本數(shù)量描述如表1所示。
表1 樣本數(shù)量統(tǒng)計(jì)表Table 1 Quantitative statistic of samples
使用美國HeadWall公司生產(chǎn)的高光譜成像系統(tǒng)進(jìn)行水稻葉片樣本高光譜圖像采集。該系統(tǒng)主要由高光譜相機(jī)、采集器、鹵素?zé)艄庠?、可移動載物臺、計(jì)算機(jī)以及光源箱等部件組成,光譜范圍為400~1 000 nm、采樣間隔3 nm。將待測葉片正面朝上平鋪在移動平臺上,調(diào)整并設(shè)置載物臺移動速度3.0 mm·s-1、曝光時間30 ms,鏡頭垂直向下高度45 cm,進(jìn)行高光譜圖像采集。為消除采集圖像中由環(huán)境、設(shè)備等因素引起的測量偏差,對其進(jìn)行反射率標(biāo)定: 掃描標(biāo)準(zhǔn)白板獲得標(biāo)準(zhǔn)圖像Rw,關(guān)閉快門、蓋上鏡頭蓋獲得暗場圖像Rd,對待校正的高光譜圖像Rr進(jìn)行式(1)運(yùn)算,獲得校正后高光譜圖像R。
(1)
利用ENVI5.3軟件,避開葉脈和葉片邊緣,在葉片中段位置隨機(jī)分散選取4個矩形區(qū)域?yàn)楦信d趣區(qū)域,2和3級樣本需包含病斑,1級樣本選擇貼近病斑的無病斑區(qū)域。計(jì)算區(qū)域內(nèi)所有像素點(diǎn)的光譜反射率平均值作為該葉片樣本的高光譜數(shù)據(jù),全部樣本光譜曲線如圖1所示。
圖1 全部水稻葉片光譜曲線Fig.1 Reflectance spectra of all rice leaves
為降低環(huán)境、儀器、測量方法等因素引起的干擾和影響,對高光譜數(shù)據(jù)進(jìn)行Savitzky-Golay卷積平滑和歸一化處理。
為解決由于高光譜數(shù)據(jù)波段多、數(shù)據(jù)量大而帶來的數(shù)據(jù)相關(guān)、冗余、共線性等問題,降低模型的復(fù)雜度、提高建模精度和運(yùn)算速度,運(yùn)用主成分分析(principle component analysis,PCA)和競爭性自適應(yīng)重加權(quán)(competitive adaptive reweighted sampling,CARS)算法對高光譜數(shù)據(jù)進(jìn)行染病級別的特征變量選取。
PCA是將多個變量通過線性變換轉(zhuǎn)換為相互正交、信息不重疊的新變量[14]。PCA概念簡單、運(yùn)算簡潔,能夠在保留有效信息的同時解決變量之間的多重共線性問題,在高光譜數(shù)據(jù)降維、特征提取、消除噪聲、去相關(guān)性等方面得到廣泛應(yīng)用。
CARS是基于蒙特卡羅采樣與偏最小二乘法(partial least squares,PLS)模型回歸系數(shù)的特征變量選擇方法。采用自適應(yīng)重加權(quán)采樣技術(shù)選取PLS模型中回歸系數(shù)絕對值權(quán)重較大的變量,剔除權(quán)重較小的變量,建立PLS模型,經(jīng)多次運(yùn)算,通過交互驗(yàn)證選取均方根誤差最低的子集中的變量作為特征波長。
支持向量機(jī)(support vector machine,SVM)是一種有監(jiān)督機(jī)器學(xué)習(xí)方法,它是在線性分類器的基礎(chǔ)上,引入結(jié)構(gòu)風(fēng)險(xiǎn)最小化原理、最優(yōu)化理論和核方法演化而成[15]。適用于處理樣本少、特征多、非線性等復(fù)雜問題,具有運(yùn)算速度快、抗噪聲、泛化能力強(qiáng)等優(yōu)點(diǎn),目前在很多研究領(lǐng)域得到廣泛應(yīng)用。因此,選用SVM進(jìn)行水稻稻瘟病早期分級檢測建模。
采用PCA算法對全部樣本的高光譜數(shù)據(jù)進(jìn)行降維,前10個主成分(principle component,PC)特征值和累積貢獻(xiàn)率如表2所示。PC1的貢獻(xiàn)率最大,為45.59%,PC2的貢獻(xiàn)率為30.78%,前3個PC的累積貢獻(xiàn)率為83.86%,前4個PC的累積貢獻(xiàn)率為90.14%,之后各PC的累積貢獻(xiàn)率繼續(xù)提高,幅度逐步變小。
選擇主成分的常用標(biāo)準(zhǔn)主要有兩種: (1)累積貢獻(xiàn)率大于等于85%; (2)特征值大于等于1。在此,前4個PC累積貢獻(xiàn)率為90.14,符合標(biāo)準(zhǔn)(1); 前8個PC特征值符合標(biāo)準(zhǔn)(2)。因此,分別以前4個PC和前8個PC作為特征變量建模。
表2 前10個主成分特征值和累積貢獻(xiàn)率Table 2 The eigenvalues and the cumulativecontributions of the first 10 PCs
采用CARS對全部葉片高光譜數(shù)據(jù)進(jìn)行染病級別特征波長選擇,蒙特卡羅采樣次數(shù)設(shè)置為50,選擇過程如圖2。
圖2 CARS特征波長選擇過程Fig.2 Variable selection based on CARS
圖2(a)表明變量個數(shù)隨采樣次數(shù)增加逐步減少,下降速度由快變慢,體現(xiàn)了變量選取由“粗”到“精”的選擇過程。圖2(b)顯示了PLS模型的交叉驗(yàn)證RMSECV值隨采樣次數(shù)增加先降后升。由圖2(c)中“*”的位置可知,當(dāng)采樣次數(shù)為25時,RMSECV值最小,表明與稻瘟病檢測不相關(guān)或共線性信息已被剔除,第25次采樣之后,RMSECV值逐步升高,表明與稻瘟病檢測相關(guān)的變量被剔除,尤其37次以后,模型性能明顯變差。因此,選擇第25次采樣獲得的變量為特征波長,共計(jì)21個,分布如圖3。
通過CARS選取的稻瘟病檢測特征波長數(shù)為21,數(shù)量依然較多。為了進(jìn)一步減少變量之間可能存在的相關(guān)性或共線性、獲取更少的關(guān)鍵特征變量,利用PCA對CARS選取的特征波長變量進(jìn)一步降維,結(jié)果如表3。前6個PC的累積貢獻(xiàn)率已達(dá)到99.27%,所以取前6個主成分變量為特征變量建模。
運(yùn)用SVM算法,分別以全波段變量、PCA提取的4個、8個特征變量、CARS和CARS-PCA獲取的特征變量為輸入,建立稻瘟病檢測SVM、PCA4-SVM、PCA8-SVM、CARS-SVM和CARS-PCA-SVM模型,核函數(shù)選用徑向基函數(shù),每個模型均通過網(wǎng)格搜索法對懲罰因子C和核參數(shù)g尋取最優(yōu)值,建模結(jié)果見表4。
圖3 CARS特征波長選擇結(jié)果Fig.3 Results of variable selectionbased on CARS
表3 前6個主成分特征值和累積貢獻(xiàn)率Table 3 The eigenvalues and the cumulativecontributions of the first 6 PCs
表4 各分類模型預(yù)測準(zhǔn)確率Table 4 Prediction results of identification models
所有模型的樣本總體檢測準(zhǔn)確率全部大于94.6%,精度較高。各模型對3級樣本的檢測準(zhǔn)確率最高; 對1級樣本的檢測準(zhǔn)確率最高值為97.44%,最低值為89.74%,平均值為94.87%,與0級和2級相當(dāng),識別效果較好?;谌ǘ嗡⊿VM模型各級別的準(zhǔn)確率分別是91.89%,97.44%,91.43%和100.00%,總體準(zhǔn)確率是95.19%,能夠較為準(zhǔn)確地檢測各級別稻瘟病。PCA8-SVM的準(zhǔn)確率與全譜SVM模型相當(dāng),但輸入變量由203減為8。CARS-SVM模型的總體準(zhǔn)確率最高,與SVM模型比較,1級、3級準(zhǔn)確率相同,0級、2級和總體準(zhǔn)確率分別提高了2.94%,6.25%和2.21%; 輸入變量數(shù)為21,較SVM減少了89.66%。CARS-PCA-SVM模型的各級準(zhǔn)確率均大于94%,總體準(zhǔn)確率為96.61%,比CARS-SVM略低0.68%,但其輸入變量數(shù)為6,較CARS-SVM減少71.43%,進(jìn)一步降低模型的復(fù)雜度、提高模型的運(yùn)算速度,因此,綜合評價CARS-PCA-SVM模型為最優(yōu)模型,其各級準(zhǔn)確率分別為97.30%,94.87%,94.29%和100.00%。
以大田自然發(fā)病癥狀較輕的稻瘟病葉片和健康葉片為研究對象,采用不同特征變量選取算法,構(gòu)建并對比分析多種水稻稻瘟病早期分級檢測模型,主要結(jié)論如下:
1級樣本即染病無病斑樣本的檢測效果較好; PCA,CARS和CARS-PCA均實(shí)現(xiàn)對高光譜數(shù)據(jù)的降維,大幅降低數(shù)據(jù)的冗余度,且較好地保留了表征葉片稻瘟病染病狀況信息; 結(jié)果表明CARS-SVM模型的準(zhǔn)確率最高,結(jié)合模型復(fù)雜度、運(yùn)算速度綜合評價CARS-PCA-SVM模型最優(yōu),其各級和總體準(zhǔn)確率分別為97.30%,94.87%,94.29%,100.00%和96.61%,建模輸入變量數(shù)為6,模型變量少、檢測精度較高、運(yùn)算速度較快。
基于大田自然發(fā)病,實(shí)現(xiàn)了對水稻稻瘟病的早期分級檢測,為稻瘟病染病早期無病斑葉片的檢測提供新思路,為水稻稻瘟病監(jiān)測、早期防治、精準(zhǔn)施藥提供科學(xué)依據(jù),也為開發(fā)實(shí)時、便攜病害檢測儀器提供理論支持。