王鑫野,馮 潔,李欣庭
(云南師范大學(xué) 物理與電子信息學(xué)院,云南 昆明 650500)
馬鈴薯是世界性的糧食作物,在各個國家的飲食組成中占據(jù)重要地位。晚疫病是馬鈴薯眾多病害中最主要的病害,病情多見于多雨、冷涼的地區(qū),一旦有田塊發(fā)病其病株率可達40%~80%,在流行年份可致全田毀滅。該病害不僅限于馬鈴薯植株,還會使薯塊腐爛變質(zhì),若用病薯種植則會導(dǎo)致幼苗腐爛致死,同時還會侵染其他茄科作物的健康[1]。目前針對馬鈴薯晚疫病的診斷大都是采用傳統(tǒng)的經(jīng)驗定性診斷方法,由于會受到多種因素的影響,要進行精確分析還存在一定的困難[2]。高光譜成像技術(shù)將圖像和光譜信息結(jié)合,能同時反映待測物內(nèi)部外部光譜信息和空間信息,使該技術(shù)在植物檢測方面得到廣泛應(yīng)用[3]。
利用高光譜成像技術(shù),潘冉冉等基于光譜信息提取特征并建立識別模型對油菜和雜草進行了區(qū)分,識別率達100%[4]。程術(shù)希等基于可見/近紅外光譜技術(shù)對不同水稻稻瘟病染病的葉片進行了分析,全波段建模的識別率達96.7%[5]。梅慧蘭等利用光譜信息對柑橘的黃龍病進行了鑒別和初期預(yù)測,識別率達96.4%[6]。 Kumar等基于光譜信息利用高光譜和多光譜技術(shù)對柑橘的綠霉病進行了研究,識別率達87%[7]。Bauriegel等利用高光譜的空間信息對小麥的鐮刀菌進行了初期檢測,識別率為87%[8]。Tian等利用高光譜空間信息對黃瓜的霜霉病進行了檢測,識別率接近90%[9]。Baranowski等用高光譜的空間信息對蘋果的初期瘀傷進行了檢測,確定了波段范圍為400~5 000 nm[10]。以上人員通過使用高光譜成像技術(shù),用光譜信息或空間信息對植物的各項指標(biāo)進行了探究,均達到了不錯的效果,但是采用光譜信息和空間信息對比來研究馬鈴薯晚疫病的方法卻鮮有報道。本文用高光譜相機采集馬鈴薯晚疫病的高光譜數(shù)據(jù),從空間信息和光譜信息兩方面分別提取特征波段,再基于特征波段反射率和主成分圖像灰度值結(jié)合BP(back propagation)神經(jīng)網(wǎng)絡(luò)、K最近鄰(k-nearest neighbor,KNN)分類算法、決策樹(decision tree,DT)對采集的數(shù)據(jù)進行對比分類識別。
實驗材料為云南師范大學(xué)生命與科學(xué)學(xué)院馬鈴薯種植基地種植的88馬鈴薯葉片(C-88),生長時間為80 d,共計60片。隨機對其中40片接種晚疫病病菌,其余20片做對照,將60片葉片置于光照培養(yǎng)箱內(nèi)連續(xù)培養(yǎng)6 d,每隔24 h采集一次高光譜圖像,連續(xù)采集7 d。
成像系統(tǒng)觀測的幾何條件采用CIE 15:2004推薦的45°/垂直的雙向幾何條件。相機可采集256個波段,波段范圍為400~1 000 nm,高光譜成像系統(tǒng)如圖1所示。
圖1 高光譜成像系統(tǒng)Fig. 1 Hyperspectral imaging system
為避免采集的圖像出現(xiàn)失真,根據(jù)光源的照度調(diào)整好系統(tǒng)的參數(shù)。通過反復(fù)測試優(yōu)化,最終CCD相機的曝光時間確定為5.3 ms,步進電機的速度為0.6 mm/s,相機到載物臺的垂直高度為23 cm。每次只放1個樣本,CCD相機對載物臺上的樣本進行線掃描,平臺在水平方向進行移動。為減少光源產(chǎn)生的顏色失真,對采集的樣本進行黑白校正。圖2為校正后連續(xù)7 d測得的高光譜圖像(0 d表示病菌未接種,形成自身對照樣本;1~ 6 d表示感染病菌,形成試驗樣本)。所有高光譜圖像數(shù)據(jù)的采集均基于Specview軟件平臺,數(shù)據(jù)處理采用ENVI 5.1、MATLAB R 2016a軟件。
圖2 接種病菌后每天的圖像Fig. 2 Images of each day after inoculation
采用MATLAB軟件繪制出每天的平均光譜反射率曲線,如圖3所示。
從圖3 中可以看到,健康馬鈴薯葉片和病害馬鈴薯葉片的光譜曲線大致相似,在550 nm處存在1個反射峰,680 nm附近存在1個吸收峰,而在680 nm后反射率數(shù)值急劇升高,使得近紅外波段的反射率明顯高于可見區(qū)域,與孫紅等[11]用高光譜采集馬鈴薯葉片的光譜特征相符。
圖3 健康葉片與病害葉片的反射率曲線Fig. 3 Reflectivity curves of healthy leaves and disease leaves
高光譜信息既包含空間信息又包含光譜信息,特征的提取可以從空間和光譜兩個方面進行。由于6 d的病害特征最為明顯,本文針對6 d的病害葉片進行特征提取。
2.2.1 針對光譜信息提取特征波段
對光譜信息特征波段提取的方法有連續(xù)投影算法、最小二乘法、二階導(dǎo)數(shù)等。其中二階導(dǎo)數(shù)(second derivative, 2nd der)在特征提取方面應(yīng)用較廣泛,可以大幅降低變量間的相關(guān)性,突出光譜曲線中的特征峰值,從而確定和選擇特征波段[12]。采用db小波對光譜曲線進行平滑去噪,之后求取光譜的二階導(dǎo)數(shù)曲線,選取曲線的極值作為特征值。經(jīng)過篩選可得到9個特征波段:529.26 nm、567.52 nm、624.91 nm、672.73 nm、682.29 nm、691.86 nm、710.99 nm、902.28 nm和911.85 nm。通過二階導(dǎo)數(shù)特征提取,將256×256數(shù)據(jù)立方體壓縮到9×9,本文為了進一步得到最優(yōu)最少數(shù)據(jù),再對選取的9個特征波段圖像進行主成分分析(principal component analysis,PCA),分析其權(quán)重系數(shù)。最終通過二階導(dǎo)數(shù)結(jié)合主成分分析(2nd der-PCA)將特征波段壓縮為3個,即:672.73 nm、691.86 nm和710.99 nm。
2.2.2 針對空間信息提取特征波段
基于空間信息提取特征波段的方法是采用最具代表性的主成分分析方法。該方法通過線性變換提取數(shù)據(jù)主要特征信息,最大程度保留了數(shù)據(jù)原有信息,是一種經(jīng)典的數(shù)據(jù)分析方法[13]。顯著特征波段點的選取位置是在權(quán)重系數(shù)曲線的波峰或者波谷處,區(qū)別感興趣特征波段時該位置貢獻最大。將采集的數(shù)據(jù)進行掩膜處理,以降低背景的影響。針對馬鈴薯晚疫病樣本的高光譜圖像進行主成分分析,通過分析主成分圖像的權(quán)重系數(shù),篩選得到了6個特征波段:546.00 nm、663.16 nm、672.73 nm、727.73 nm、624.91 nm和684.69 nm?;?個特征波段進行第二次主成分分析,將其壓縮為3個特征波段。最終通過PCA-PCA選取的3個特征波段為:624.91 nm、663.16 nm和684.69 nm。
BP人工神經(jīng)網(wǎng)絡(luò)在處理非線性問題及分類方面有良好的效果,適合解決病害診斷的問題。K最近鄰分類算法(KNN)應(yīng)用簡單,容易實現(xiàn),不需要估計算法參數(shù)和訓(xùn)練,可快速對病害樣本進行分類識別[14]。決策樹算法(DT)主要推斷數(shù)據(jù)特征,學(xué)習(xí)決策規(guī)則,創(chuàng)建一個預(yù)測目標(biāo)變量值的模型,是一種簡單的、廣泛應(yīng)用的非參數(shù)分類方法[15]。
利用高光譜成像技術(shù)圖譜合一的特點,用空譜選取的特征波段的光譜反射率和主成分圖像灰度值結(jié)合BP神經(jīng)網(wǎng)絡(luò)、KNN和DT建立模型,對馬鈴薯葉片的不同病害時期進行識別。相比全波段光譜曲線建立的識別模型,針對特征波段建立的模型能有效地減少數(shù)據(jù)冗余,降低工作量,且具有更好的識別效果。
0 d和1 d在光譜反射率曲上無明顯差異,且在圖像上也無病害顯現(xiàn),因此將病害葉片分為3個階段:2 ~3 d為初期,4 d為中期,5 ~6 d為晚期。在這3個階段中,分別隨機抽取45片葉片作為訓(xùn)練集,病害與健康比例為2 : 1,其余的作為測試集并建立BP神經(jīng)網(wǎng)絡(luò)。之后將所有樣本作為樣本集進行KNN和DT分類。
基于特征波段反射率所建立模型的測試結(jié)果如表1所示。由表中數(shù)據(jù)可知,以特征波段的反射率作為研究對象,識別效果均超過了80%。對于初期病害,識別效果最佳的是基于PCA-PCA結(jié)合KNN建立的模型,識別率達85.7%;對于中期病害,識別效果最佳的是基于PCA-PCA結(jié)合DT建立的模型,識別率達88.9%;對于晚期病害,識別率最佳的是基于PCA-PCA結(jié)合KNN建立的模型,識別率為89.4%。PCA-PCA提取的特征波段結(jié)合3種模型的平均識別結(jié)果均高于2nd der-PCA提取特征波段結(jié)合3種模型的識別結(jié)果。
表1 基于特征波段反射率識別結(jié)果Tab. 1 Identification results based on characteristic wavelength reflectance
主成分圖像既涵蓋了圖像特征又濾掉了噪聲影響,因此可將主成分圖像的灰度值作為研究對象進行模式識別。基于3個特征波段進行主成分分析,選取病害區(qū)域?qū)Ρ榷茸畲蟮闹鞒煞謭D像,兩種方法提取的特征波段的最佳主成分圖像均為第二主成分圖像(PC-2),如圖4所示。圖4(a)為基于PCA-PCA提取的特征波段的PC-2,圖4(b)為基于2nd der-PCA提取的特征波段的PC-2。
圖4 第二主成分圖像Fig. 4 Second principal component image
基于特征波段的PC-2圖像的灰度值所建立模型的測試結(jié)果如表2所示。由表中數(shù)據(jù)可知,以主成分圖像的灰度值建立的識別模型,其識別率均高于88%。初期、中期和晚期病害識別效果最佳的均為基于PCA-PCA結(jié)合BP神經(jīng)網(wǎng)絡(luò)建立的模型,識別率分別達到94.1%、97.6%和98.0%。以PCA-PCA結(jié)合主成分圖像建立的3種模型中BP神經(jīng)網(wǎng)絡(luò)和KNN的識別率較高,分別為96.6%和91.8%,以2nd der-PCA結(jié)合主成分圖像建立的DT模型的識別率較高為91.6%。
由表1和表2可知:基于特征波段主成分圖像的灰度值結(jié)合3種模型的識別效果優(yōu)于基于特征波段反射率建立的3種模型;BP神經(jīng)網(wǎng)絡(luò)和KNN模型中,以PCA-PCA所提取特征波段的PC-2圖像的灰度值作為研究對象的識別率最高分別為96.6%和91.8%;DT模型中,以2nd der-PCA所提取特征波段的PC-2圖像的灰度值作為研究對象的識別率最高為91.6%。
基于特征波段反射率建立的模型識別結(jié)果未超過90%的原因:個別樣本特征波段對應(yīng)位置的反射率較為接近或有重疊,會對識別結(jié)果產(chǎn)生一定影響;采集數(shù)據(jù)時,由于培養(yǎng)環(huán)境的濕度較大,葉片上殘留的水分也會對識別結(jié)果產(chǎn)生影響。
表2 基于主成分圖像灰度值的識別結(jié)果Tab. 2 Results of recognition base on gray value of principal component image
本文從空間和光譜兩方面對高光譜數(shù)據(jù)進行處理均得到了良好的壓縮效果。二次主成分提取的特征波段為624.91 nm、663.16 nm和684.69 nm;二階導(dǎo)數(shù)結(jié)合主成分提取的特征波段為672.73 nm、691.86 nm和710.99 nm。在建立的識別模型中:基于二階導(dǎo)數(shù)結(jié)合主成分提取特征波段的PC-2的灰度值建立的DT模型的分類結(jié)果最高,為91.6%;基于二次主成分提取特征波段的PC-2的灰度值結(jié)合BP神經(jīng)網(wǎng)絡(luò)和KNN模型的識別率最高,分別為96.6%和91.8%。對病害的初期、中期、晚期進行識別,識別率是晚期識別率>中期識別率>初期識別率,且識別率均超過80%。初期、中期和晚期識別率最高均為基于二次主成分提取特征波段的PC-2的灰度值結(jié)合BP神經(jīng)網(wǎng)絡(luò)建立的模型,識別率分別為:94.1%、97.6%和98.0%。綜上,主成分圖像的灰度值相比波段反射率所建立的3種模型的精度得到了有效的提升,同時降低了噪聲的影響。由此表明,利用特征波段的主成分圖像的灰度值來檢測馬鈴薯晚疫病病害的方法是可行的。此方法可為檢測馬鈴薯的晚疫病提供參考。