桂江生,吳子?jì)?,李凱
(1.浙江理工大學(xué)信息學(xué)院,杭州 310018;2.南京農(nóng)業(yè)大學(xué)農(nóng)學(xué)院,南京 210095)
近年來(lái),隨著大豆輪作周期不斷縮短,因病蟲(chóng)害預(yù)防不及時(shí),致使大豆產(chǎn)量明顯降低。大豆在生長(zhǎng)過(guò)程中所面臨的病害主要有大豆花葉病毒(soybean mosaic virus)、菜豆黃化花葉病毒(bean yellow mosaic virus)、煙 草 環(huán) 斑 病 毒(tobacco ringspot virus)等[1]。其中大豆花葉病在我國(guó)乃至全球大豆種植區(qū)均有出現(xiàn),嚴(yán)重影響大豆產(chǎn)量。因此,在大豆花葉病的病害初期檢測(cè)顯得尤為重要。
目前,針對(duì)作物病害檢測(cè)常用的方法主要有:人工感官判斷、基于化學(xué)和生物學(xué)方法檢測(cè)[2-4]、圖像處理和光譜數(shù)據(jù)分析[5-7]。其中:人工感官判斷具有滯后性,效率較低,準(zhǔn)確率差且檢測(cè)難度較大,因此很難大面積推廣。基于化學(xué)和生物學(xué)方法的病害檢測(cè),對(duì)檢測(cè)樣品的精度及檢測(cè)人員的操作技術(shù)要求都很高,且成本高,耗時(shí)長(zhǎng),不利于田間推廣。對(duì)于圖像處理和光譜數(shù)據(jù)分析方法,由于圖像處理算法復(fù)雜,處理速度較慢,而光譜數(shù)據(jù)分析只對(duì)病害的局部光譜進(jìn)行處理,缺少空間信息,因而診斷效果也不太理想。隨著高光譜技術(shù)的不斷發(fā)展,由于其具有圖譜合一的優(yōu)點(diǎn),所以近年來(lái)在作物病害診斷中應(yīng)用非常廣泛[8]。謝傳奇等[9]采用高光譜成像技術(shù)建立了早期番茄早疫病的提取有效波長(zhǎng)-最小二乘支持向量機(jī)(effectivewavelength-least squaresupport vector machine,EW-LS-SVM)和有效波長(zhǎng)-線性判別分析(effective wavelength-linear discriminant analysis,EW-LDA)預(yù)測(cè)模型;KRISHNA等[10]建立了基于偏最小二乘法和多元線性回歸的高光譜模型來(lái)評(píng)估冬小麥作物中黃銹病的嚴(yán)重性;CAPORASO等[11]通過(guò)采集咖啡豆的平均光譜,采用偏最小二乘法實(shí)現(xiàn)了咖啡豆中脂肪和水分可視化分布;ZHANG等[12]利用高光譜成像技術(shù)建立基于Fisher線性判別分析來(lái)識(shí)別小麥的銹病、白粉病和蚜蟲(chóng);LIAGHAT等[13]采用k近鄰算法實(shí)現(xiàn)了對(duì)油棕櫚莖腐病的高光譜檢測(cè),準(zhǔn)確率達(dá)到97%;劉思伽等[14]采用人工神經(jīng)網(wǎng)絡(luò)模型實(shí)現(xiàn)了對(duì)蘋(píng)果病害的無(wú)損檢測(cè);ZHAO等[15]利用高光譜成像技術(shù)測(cè)定并建立了黃瓜葉片對(duì)角斑病的葉綠素空間分布和類(lèi)胡蘿卜素含量的偏最小二乘回歸模型。
縱觀國(guó)內(nèi)外對(duì)于農(nóng)作物病害診斷的現(xiàn)狀,采用高光譜成像技術(shù)能夠?qū)崿F(xiàn)對(duì)農(nóng)作物病害的診斷檢測(cè),但是在處理過(guò)程中,存在大量數(shù)據(jù)冗余,因此過(guò)程較為煩瑣,處理速度不太理想。另外,在現(xiàn)有研究報(bào)道中大多采用傳統(tǒng)機(jī)器學(xué)習(xí)方法對(duì)農(nóng)作物病害中后期進(jìn)行檢測(cè)識(shí)別,而在大豆花葉病害初期的檢測(cè)方面,還沒(méi)有學(xué)者進(jìn)行研究探索。本文通過(guò)高光譜圖像技術(shù),利用卷積神經(jīng)網(wǎng)絡(luò)具有處理海量數(shù)據(jù)的特點(diǎn),采用高光譜成像技術(shù)建立大豆花葉病的卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)模型[16-18],對(duì)大豆花葉病害初期進(jìn)行檢測(cè),旨在探索高光譜圖像技術(shù)在大豆花葉病檢測(cè)方面的應(yīng)用,為后續(xù)的大豆花葉病分級(jí)檢測(cè)及生長(zhǎng)監(jiān)測(cè)奠定理論基礎(chǔ)。
實(shí)驗(yàn)采用的大豆品種為南京農(nóng)業(yè)大學(xué)大豆研究所培育的南農(nóng)1138-2。分別采集生長(zhǎng)早期(大豆發(fā)芽30 d)且長(zhǎng)勢(shì)良好的正常葉與分別接種SC3、SC7這2種花葉病毒7 d后的葉各80片,共計(jì)240片。其中,從正常葉和患病葉中各隨機(jī)選取40片用于建立正常大豆與花葉病大豆的檢測(cè)模型,剩余120片作為預(yù)測(cè)集。
實(shí)驗(yàn)采用的高光譜圖像采集系統(tǒng)如圖1所示,主要包括高光譜成像儀(Imperx IPX-2M30)、相機(jī)、一套電控平移臺(tái)和平移控制器、4個(gè)150 W的鹵素?zé)艏?臺(tái)計(jì)算機(jī)。其中:高光譜所采集的光譜范圍為383.70~1 032.70 nm,光譜波段數(shù)為256個(gè),光譜分辨率為2.73 nm,圖像數(shù)據(jù)采集使用SpecView完成。整個(gè)實(shí)驗(yàn)采集過(guò)程在暗箱中完成,避免環(huán)境中雜散光帶來(lái)的影響。
1.3.1 黑白校正
為避免光照不均等因素對(duì)高光譜圖像的影響,對(duì)其進(jìn)行黑白校正,將白板放置在與大豆相同距離的照明位置處并充滿(mǎn)相機(jī)一幀采集范圍進(jìn)行白板數(shù)據(jù)采集,然后關(guān)閉光源,蓋上鏡頭蓋,進(jìn)行暗背景數(shù)據(jù)采集。其中黑白校正公式為:
圖1 高光譜成像系統(tǒng)Fig.1 Hyperspectral imaging system
式中:R為校正后的葉片數(shù)據(jù);Rs為采集的葉片高光譜數(shù)據(jù);Rd為黑板數(shù)據(jù);Rw為白板數(shù)據(jù)。
1.3.2 光譜預(yù)處理
在光譜預(yù)處理階段為了降低采集過(guò)程中由于樣本不均勻、基線漂移等對(duì)光譜信號(hào)的影響,提高后續(xù)的預(yù)測(cè)模型準(zhǔn)確率,對(duì)大豆光譜數(shù)據(jù)進(jìn)行Savitzky-Golay(SG)平滑處理[19],去除基線偏移和解決重疊峰問(wèn)題。該濾波器能夠在濾除噪聲的同時(shí)使信號(hào)的形狀、寬度保持不變,可以在去除干擾的前提下較為完整地保留光譜的有用信息。
1.3.3 分類(lèi)模型的建立
卷積神經(jīng)網(wǎng)絡(luò)(CNN)[20-21]是深度學(xué)習(xí)中常用的一種算法,在圖像識(shí)別、文件、文本分析和自然語(yǔ)言處理[22-24]等方面獲得了巨大成功,由于其優(yōu)異的學(xué)習(xí)性能與處理速度,使之得到了廣泛應(yīng)用。CNN是具有多層感知機(jī)的分類(lèi)模型,采用類(lèi)似于生物神經(jīng)網(wǎng)絡(luò)的局部鏈接方式,從而達(dá)到權(quán)值共享,減少了權(quán)值的數(shù)量,提高了數(shù)據(jù)處理的速度,并且可以有效減小模型過(guò)擬合問(wèn)題。與傳統(tǒng)的方法相比,CNN模型具有更高的容錯(cuò)性,能夠更準(zhǔn)確地提取數(shù)據(jù)特征信息,從而提高模型性能。
卷積神經(jīng)網(wǎng)絡(luò)分為輸入層、卷積層、池化層、全連接層和輸出層。其中:卷積層中相同特征采用相同的卷積核,同一特征圖的權(quán)值是共享的;池化層,也稱(chēng)為下采樣層,是對(duì)卷積層提取的特征信息進(jìn)行子采樣,大大地提高了網(wǎng)絡(luò)的統(tǒng)計(jì)效率。本文采用的LeNet卷積網(wǎng)絡(luò)的結(jié)構(gòu)如圖2所示,卷積神經(jīng)網(wǎng)絡(luò)處理流程如圖3所示。
圖2 LeNet卷積網(wǎng)絡(luò)的結(jié)構(gòu)Fig.2 Structure of the LeNet convolutional network
最小二乘支持向量機(jī)(LS-SVM)[25],采用最小二乘線性系統(tǒng)代替?zhèn)鹘y(tǒng)的支持向量,即采用二次規(guī)劃方法解決模式識(shí)別問(wèn)題,將等式約束取代不等式約束,求解速度大大提高。在實(shí)驗(yàn)中對(duì)大豆葉片的樣本通過(guò)非線性映射函數(shù),在高維特征空間建立最優(yōu)分類(lèi)面,從而實(shí)現(xiàn)樣本的線性可分。該方法在解決小樣本、高維數(shù)的分類(lèi)問(wèn)題中具有很大優(yōu)勢(shì)。
圖3 卷積神經(jīng)網(wǎng)絡(luò)處理流程Fig.3 Flow chart of convolutional neural network processing
極限學(xué)習(xí)機(jī)(extreme learning machine,ELM)[26]是一種單隱層前饋神經(jīng)網(wǎng)絡(luò)分類(lèi)算法。它不但能保證學(xué)習(xí)精度,而且學(xué)習(xí)速度比支持向量機(jī)(SVM)更快,泛化能力更強(qiáng),并且具有不過(guò)擬合的優(yōu)點(diǎn)。
實(shí)驗(yàn)采用 MATLAB 2014[27]、ENVI 5.1[28]和 Excel 2016[29]軟件進(jìn)行數(shù)據(jù)處理。本文的實(shí)驗(yàn)軟件運(yùn)行平臺(tái)選用Linux系統(tǒng)和Caffe[30]框架,磁盤(pán)容量為1 TB、內(nèi)存容量為16 GB、處理器為Intel@CoreTMi5-4460CPU@3.20GHZ×4,顯卡為GeForce GTX 1070/PCIe/SSE2,顯存容量為8 GB。
高光譜采集使用的軟件為SpecView,所用儀器的參數(shù)為曝光時(shí)間15 ms,平移臺(tái)的移動(dòng)速度1.25 cm/s,4個(gè)鹵素?zé)襞c平移臺(tái)的夾角50°,從而確保采集圖像的清晰度,并按組對(duì)所有的大豆樣本進(jìn)行采集。之后采用反射率為99%的白板圖像Rw和全黑的暗背景圖像Rd進(jìn)行黑白校正處理。采集的大豆樣本的高光譜圖像如圖4所示??梢钥闯觯蠖够ㄈ~病在發(fā)病初期,肉眼難以識(shí)別,因此采用傳統(tǒng)圖像方法識(shí)別難度較大。
圖4 大豆樣本高光譜圖像Fig.4 Hyperspectral image of soybean samples
本文統(tǒng)一選取樣本中心區(qū)域40×40像素的正方形區(qū)域作為感興趣區(qū)域。計(jì)算該正方形內(nèi)所有像素的平均值,得到平均光譜數(shù)據(jù)。平均光譜的計(jì)算公式如下:
式中:x是捕獲樣本中的像素;y是不同波長(zhǎng)的高光譜信息;x0為樣本的所選像素;Δx為平均像素?cái)?shù)的一半;E(x,y)為大豆葉片圖像的實(shí)際光譜。
由于在曲線的結(jié)尾部分噪聲較大,因此去除后20個(gè)波段的光譜數(shù)據(jù),從而提高整體的信噪比,得到大豆樣本從380~1 000 nm的236個(gè)波段的光譜數(shù)據(jù)。為提高后續(xù)的預(yù)測(cè)模型準(zhǔn)確率,對(duì)大豆光譜數(shù)據(jù)進(jìn)行SG平滑處理,去除基線偏移和解決重疊峰問(wèn)題。將得到的3種樣本各40條光譜取平均值得到光譜曲線,如圖5所示。從中可以看出,原始的光譜曲線圖的變化趨勢(shì)與綠色植物光譜反射規(guī)律相吻合,且有無(wú)花葉病害的大豆光譜曲線差異較為明顯。
圖5 3種大豆樣本的平均光譜曲線Fig.5 Average spectral curve of normal and mosaic soybean samples
針對(duì)大豆花葉病的初期病害,隨機(jī)從接種SC3、SC7的葉中各抽取40片,從正常的大豆葉中抽取40片,共計(jì)120片葉作為訓(xùn)練集。為提高實(shí)驗(yàn)訓(xùn)練樣本個(gè)數(shù),從每片大豆樣本的原始光譜圖像中選取40×40像素大小感興趣區(qū)域的光譜圖像,分成4個(gè)20×20像素大小的光譜數(shù)據(jù),從而得到480個(gè)光譜數(shù)據(jù),其余120片葉作為測(cè)試集,采用相同的方法增加測(cè)試樣本的數(shù)量。另外,由于原始高光譜數(shù)據(jù)具有波段多、冗余性強(qiáng)、數(shù)據(jù)量大等特點(diǎn),如果直接采用全波段數(shù)據(jù)進(jìn)行建模,則會(huì)導(dǎo)致建模效率降低,模型性能變差,所以根據(jù)每個(gè)波段的光譜圖成像質(zhì)量,從波長(zhǎng)380~1 000 nm的范圍內(nèi)選取46個(gè)高光譜波段作為特征波段(光譜波段選擇間隔為5),對(duì)樣本進(jìn)行歸一化處理,調(diào)整為相同大小,并做標(biāo)簽處理,隨后采用梯度下降的方法對(duì)權(quán)重系數(shù)進(jìn)行迭代更新,當(dāng)?shù)螖?shù)或者誤差達(dá)到預(yù)定值時(shí)訓(xùn)練停止,從而得到訓(xùn)練模型,再將測(cè)試集輸入訓(xùn)練好的模型中。
卷積神經(jīng)網(wǎng)絡(luò)通常有3級(jí):卷積層、激勵(lì)層和池化層。在第1級(jí)卷積層中加入一組線性激活函數(shù)(由多個(gè)卷積運(yùn)算得出),在激勵(lì)層中加入ReLu非線性激活函數(shù),在池化層中由池化函數(shù)進(jìn)行調(diào)整。卷積層通過(guò)卷積運(yùn)算實(shí)現(xiàn)圖像去噪,增強(qiáng)原始圖像的特征,卷積核的數(shù)量決定特征提取程度,通常數(shù)量越多,提取越充分。池化層又稱(chēng)下采樣層,將采用池化函數(shù)得到的總體特征取代此位置的輸出結(jié)果,實(shí)現(xiàn)數(shù)據(jù)降維的同時(shí)保留了有效信息。整個(gè)卷積神經(jīng)網(wǎng)絡(luò)通過(guò)多次卷積操作減小特征向量后連接全連接層和輸出層,完成識(shí)別任務(wù)。
本文的CNN模型建立了2個(gè)卷積層,其中第1層共32個(gè)卷積核,大小為7×7,第2層共64個(gè)卷積核,大小為5×5。池化層大小為4×4,選用最大池化單元,激活函數(shù)采用修正線性單元ReLu。SVM中學(xué)習(xí)參數(shù)為C=10,ξ=0.001,核函數(shù)中的懲罰因子c和核函數(shù)參數(shù)γ均為默認(rèn)參數(shù)。ELM模型選用sigmoid做隱含層的激勵(lì)函數(shù),結(jié)點(diǎn)初始化個(gè)數(shù)為15,以4為周期增加,采用交叉驗(yàn)證方法對(duì)其優(yōu)化,得出最佳節(jié)點(diǎn)個(gè)數(shù)為35。3種分類(lèi)模型的分類(lèi)結(jié)果如表1所示??梢钥闯?,大豆花葉病害的CNN模型訓(xùn)練集正確率為94.79%,預(yù)測(cè)集正確率達(dá)到92.08%,無(wú)論是不同種類(lèi)大豆樣本集的識(shí)別率,還是總體數(shù)據(jù)集的識(shí)別率,CNN模型的識(shí)別率都比LS-SVM和ELM的高。
目前,高光譜成像技術(shù)已經(jīng)廣泛應(yīng)用于病害檢測(cè)中,但是大多數(shù)學(xué)者采用的分類(lèi)方法為傳統(tǒng)學(xué)習(xí)方法如SVM、ELM等。本研究利用高光譜圖像技術(shù)采集SC3患病初期葉片、SC7患病初期葉片及正常葉片3種大豆葉片樣本,建立了基于高光譜成像技術(shù)的大豆花葉病害CNN檢測(cè)模型。在CNN模型中,卷積層通過(guò)卷積運(yùn)算實(shí)現(xiàn)對(duì)大豆圖像去噪,增強(qiáng)了原始圖像的特征,更能充分提取特征信息,池化層在實(shí)現(xiàn)數(shù)據(jù)降維的同時(shí)保留了有效信息,因此與傳統(tǒng)的LS-SVM和ELM模型對(duì)比,CNN模型的檢測(cè)效果更為精確,最終模型訓(xùn)練集正確率為94.79%,預(yù)測(cè)集正確率達(dá)到92.08%。綜上,CNN模型能夠更精確地實(shí)現(xiàn)對(duì)大豆花葉病初期檢測(cè),增大了檢測(cè)模型的識(shí)別率,提高了處理速度。然而,本研究只對(duì)大豆花葉病害初期進(jìn)行了檢測(cè),對(duì)大豆花葉病分級(jí)及大豆生長(zhǎng)監(jiān)測(cè)將是下一步研究的重點(diǎn)。
表1 不同分類(lèi)模型的檢測(cè)結(jié)果Table 1 Recognition rates of different models %