趙 森, 付 蕓, 崔江南, 魯 燁, 杜旭東, 李永亮
長(zhǎng)春理工大學(xué)光電工程學(xué)院, 吉林 長(zhǎng)春 130022
刺五加(Acanthopanaxsenticosus)具有益氣健脾、 補(bǔ)腎安神的功效, 作為藥物被廣泛地用于中國(guó)醫(yī)藥學(xué)中已有悠久的歷史, 主要分布于東三省、 河北和山西等地。 黑斑病是刺五加常見(jiàn)的一種病害, 它是由半知菌亞門、 鏈格孢屬真菌形成的病菌侵害引起的, 會(huì)侵染根莖葉等不同器官。 該病害常借助于氣流傳播, 尤其是雨季多發(fā)的夏天, 嚴(yán)重時(shí), 葉片早落, 影響生長(zhǎng)[1], 對(duì)于藥圃養(yǎng)殖業(yè)的危害較大。 傳統(tǒng)的診斷方法依賴農(nóng)學(xué)研究人員的判斷和農(nóng)民自身的經(jīng)驗(yàn), 判別結(jié)果易受主觀因素的影響, 缺乏及時(shí)性和精準(zhǔn)性, 經(jīng)常會(huì)延誤治理病害的最佳時(shí)機(jī)。 因此, 種植業(yè)迫切需要一種實(shí)時(shí)監(jiān)測(cè)且自動(dòng)判別病害的有效手段。
近年來(lái), 越來(lái)越多的學(xué)者將高光譜成像應(yīng)用到識(shí)別植物葉片及果實(shí)病害的研究中。 結(jié)合化學(xué)計(jì)量法根據(jù)高光譜數(shù)據(jù)建立植物成分的反演模型。 Kong[2]等利用這種方法檢測(cè)油菜莖部的菌核病, 不僅給出被病害侵染前后的油菜莖中葉綠素的敏感波長(zhǎng), 而且構(gòu)建出最小二乘支持向量機(jī)(LS-SVM)的反演模型, 標(biāo)定集和預(yù)測(cè)集的最佳分類準(zhǔn)確率均在90%以上。 張靜宜[3]等從甜菜尾孢葉斑病的高光譜數(shù)據(jù)中選取前三個(gè)主成分進(jìn)行主成分分析(principal component analysis, PCA), 雖然在不同程度的病害樣本中存在著部分樣本重疊的現(xiàn)象, 但是, 健康樣本與病害樣本的差別顯著, 運(yùn)用支持向量機(jī)(support vector machine, SVM)的識(shí)別準(zhǔn)確率為88.2%。 在分析稻瘟菌感染的大麥葉片時(shí), Zhou[4]等也利用前三個(gè)主成分, 根據(jù)光譜反射率的差異準(zhǔn)確地識(shí)別出葉片上的健康與患病部位。 繼而, BP神經(jīng)網(wǎng)絡(luò)、 模糊聚類和支持向量機(jī)等分類方法被用到高光譜的數(shù)據(jù)處理中。 Wang[5]等使用一階導(dǎo)數(shù)法去噪, 并選取前5個(gè)主成分分量作為特征波長(zhǎng), 運(yùn)用支持向量機(jī)和極限學(xué)習(xí)機(jī)的算法分別建立基于特征波長(zhǎng)與紋理特征的分類模型, 結(jié)果證明基于數(shù)據(jù)融合的支持向量機(jī)模型的性能更穩(wěn)定, 預(yù)測(cè)集正確率達(dá)到98%。 Zhang[6], Li[7]分別運(yùn)用卷積神經(jīng)網(wǎng)絡(luò)和拓展協(xié)同表達(dá)(extented collaborative representation, ECR)檢測(cè)黃瓜葉片的病害, 如, 霜霉病、 白粉病或褐斑病, 識(shí)別正確率達(dá)到92%以上, 且處理時(shí)間更短。 總之, 高光譜成像已經(jīng)廣泛地應(yīng)用于糧食、 水果和蔬菜等植物病害的監(jiān)測(cè)中, 并且具有廣闊的應(yīng)用前景。 但是, 由于高光譜成像過(guò)程受一定外界因素(如光線和環(huán)境)的干擾, 迫切需要特異性模型的構(gòu)建和數(shù)據(jù)處理的優(yōu)化[8-9]。
本工作以刺五加的黑斑病為研究對(duì)象, 利用高光譜成像系統(tǒng)采集到健康葉片和患病葉片的數(shù)據(jù), 將經(jīng)過(guò)PCA變換后得分最高的前四個(gè)主成分作為SVM的輸入向量, 構(gòu)建出刺五加早期黑斑病的分類模型, 再根據(jù)混淆矩陣的幾個(gè)二級(jí)指標(biāo)評(píng)價(jià)不同核函數(shù)對(duì)分類器性能的影響。 此外, 對(duì)前四種主成分在分類上的差異進(jìn)行了對(duì)比。 旨在為高光譜成像技術(shù)在藥用植物的病害監(jiān)測(cè)中的應(yīng)用提供實(shí)驗(yàn)基礎(chǔ)。
實(shí)驗(yàn)中所使用的刺五加樣本均采摘于吉林省長(zhǎng)春農(nóng)科院經(jīng)濟(jì)植物研究所(位于: 北緯43°05′, 東經(jīng)125°27′)。 在長(zhǎng)春經(jīng)植所研究人員的協(xié)同下, 進(jìn)行了植物葉片病理檢驗(yàn)分析, 證實(shí)已感染刺五加的黑斑病。 2019年9月采集自然狀態(tài)下患病葉片112片及健康葉片52片, 并按照葉片患病區(qū)域的面積大小及患病后葉片的木化程度劃分病害程度的等級(jí)[10]。
圖1 健康樣本與病害樣本的圖片
由于植物光照, 通風(fēng)或個(gè)體差異, 健康葉片存在兩種不同的性狀, 一些葉片表面光亮, 葉綠素含量居于上成, 而另外一些葉片處于植株下端, 光照略少且通風(fēng)差, 表面暗淡無(wú)光。 病害葉片也分為兩類, 一類是輕度病害, 其表面變黑, 病株葉片正面有零星黑或褐色小點(diǎn), 并出現(xiàn)明顯的木質(zhì)化; 另一類是重度病害, 患病區(qū)域逐漸擴(kuò)大, 呈圓形或不規(guī)則的黑色病斑, 邊緣連片, 內(nèi)側(cè)出現(xiàn)亮斑, 并且葉片背面與正面的斑點(diǎn)相同。 按照上述特征將葉片分為四類進(jìn)行建模分析。
高光譜成像系統(tǒng)主要由四部分組成, 如圖2(a)所示。 系統(tǒng)包括光譜儀(ImSpector N10E, 400~1 000 nm, Spectral Imaging Ltd., 芬蘭奧盧)、 14 bits的1 600×1 200像素的CCD相機(jī)(Bobcat ICL-1410., 美國(guó)弗洛里達(dá))、 雙側(cè)150W鹵素?zé)艟€性光源(IT3900., Illumination Technologies, 美國(guó))、 一維位移臺(tái)(IRCP-0076-400., Isuzu Optics Corp., 中國(guó)臺(tái)灣)等等。 整個(gè)系統(tǒng)封裝于暗箱里以避免環(huán)境光的干擾, 采集前需要調(diào)整光學(xué)成像系統(tǒng), 以及設(shè)置位移臺(tái)的控制參數(shù)。 當(dāng)鏡頭焦距調(diào)整到35~45 cm時(shí), 得到實(shí)際的采集區(qū)域?yàn)?1~13 cm; 通過(guò)實(shí)驗(yàn)發(fā)現(xiàn), 當(dāng)相機(jī)曝光時(shí)間設(shè)置為22 ms, 并且位移臺(tái)的移動(dòng)速度為5.3 mm·s-1時(shí), 可以滿足葉片的真實(shí)長(zhǎng)寬比的采集要求。 此外, 為了消除空間場(chǎng)的噪聲干擾, 需要進(jìn)行明暗場(chǎng)校正[11]。 葉片一律為正面對(duì)準(zhǔn)相機(jī)采集到的光譜數(shù)據(jù)送到上位機(jī)中進(jìn)行數(shù)據(jù)處理, 數(shù)據(jù)處理流程如圖2(b)所示, 具體過(guò)程見(jiàn)1.3節(jié)。
圖2 采集系統(tǒng)(a)與數(shù)據(jù)處理流程(b)
高光譜成像系統(tǒng)采集到刺五加黑斑病的樣本數(shù)據(jù)后, 導(dǎo)入計(jì)算機(jī)進(jìn)行處理。 由于高光譜數(shù)據(jù)的波段多, 具有極高的光譜分辨率, 因而能夠識(shí)別更精細(xì)的特征。 但是, 光譜間相關(guān)性強(qiáng), 數(shù)據(jù)冗余嚴(yán)重, 就使得高光譜圖像處理及信息提取技術(shù)顯得尤為重要。 高光譜數(shù)據(jù)處理與建模主要使用ENVI5.1(ITT Visual Information Solutions, Boulder, Colorado, 美國(guó))和Matlab(R2014a The Mathworks Inc., 美國(guó))等軟件。
1.3.1 主成分分析
主成分分析法是一種有效的數(shù)據(jù)降維方法, 它將大量的相關(guān)變量轉(zhuǎn)換為少數(shù)的不相關(guān)變量的組合, 即分離原有變量間的相關(guān)性, 使用少數(shù)變量來(lái)表達(dá)總體數(shù)據(jù)集的信息。 由于高光譜的數(shù)據(jù)量隨著波段數(shù)的增加呈指數(shù)量級(jí)的增長(zhǎng), 同時(shí), 相鄰波段之間高度相關(guān), 產(chǎn)生大量的冗余信息, 主成分分析法極大地減少了數(shù)據(jù)量, 從而縮短計(jì)算時(shí)間。
1.3.2 感興趣區(qū)獲取
使用ENVI軟件提取樣本的感興趣區(qū)域(region of interest, ROI)是關(guān)鍵的一步, 將直接影響分類模型的性能。 通過(guò)對(duì)所采集的刺五加葉片的觀察, 確定使用100×100像素的窗口獲取樣本數(shù)據(jù), 用平均光譜來(lái)表征感興趣區(qū)域的特征光譜, 并進(jìn)行平滑處理。
1.3.3 支持向量機(jī)
支持向量機(jī)是一種基于凸二次規(guī)劃理論的統(tǒng)計(jì)學(xué)分類方法, 對(duì)樣本具有良好的泛化能力, 根據(jù)待處理數(shù)據(jù)的特點(diǎn), 可選擇不同類型的核函數(shù)并設(shè)置參數(shù), 表1給出了四類常用的核函數(shù)的原理及其特點(diǎn)[12]。
表1 四類核函數(shù)的表達(dá)式及其特點(diǎn)
1.3.4 混淆矩陣
混淆矩陣也稱誤差矩陣, 是衡量分類模型準(zhǔn)確度的一種簡(jiǎn)單、 直觀的方法。 采用其二級(jí)指標(biāo), 包括總體分類精度、 Kappa系數(shù)、 錯(cuò)分誤差和漏分誤差, 比較不同核函數(shù)對(duì)分類器性能的影響。
將葉片劃分成四類樣本: ①健康(亮部), 即Health(L)。 ②健康(暗部), 即health(D)。 健康樣本出現(xiàn)亮暗差異的原因有: 實(shí)驗(yàn)環(huán)境下外界光照不均勻, 葉片存在彎折卷曲; 生長(zhǎng)中植株尖端的葉片受光照面積大且通風(fēng)好, 表面油光; 而植株底部的葉片受光面積小, 通風(fēng)差葉片暗淡許多。 ③輕度病害, 即Mild Disease(M), 表現(xiàn)出葉片的暗色小點(diǎn)狀。 ④重度病害, 即Severe Disease(S), 顯現(xiàn)出大斑塊, 斑塊邊緣呈現(xiàn)暗黑色, 中心區(qū)域更暗, 與周圍的光譜差異明顯。 從圖像空間上, 很難分辨出健康亮部和嚴(yán)重病害的差異, 容易造成錯(cuò)判。 然而, 在光譜空間上, 可以清晰地分辨兩者的差異, 準(zhǔn)確地定義健康與患病樣本, 見(jiàn)圖3。 這恰好體現(xiàn)了高光譜成像技術(shù)中“圖譜合一”的優(yōu)越性。
圖3中四類樣本的光譜曲線反映了在各個(gè)波段下樣本的平均反射強(qiáng)度。 從中看出, 健康樣本和病害樣本的光譜差異顯著, 病害樣本的光譜呈現(xiàn)平穩(wěn)上升的趨勢(shì), 沒(méi)有起伏或階躍現(xiàn)象, 黑斑病嚴(yán)重的區(qū)域, 光譜反射強(qiáng)度增大; 健康樣本的光譜曲線變化明顯, 在540 nm附近存在峰值形態(tài), 其原因是葉綠素對(duì)540 nm波長(zhǎng)的光吸收作用弱; 在620~680 nm波長(zhǎng)范圍內(nèi), 光譜反射率曲線急劇上升, 被稱為綠色植物特有的“紅邊效應(yīng)”特征光譜; 700~900 nm范圍內(nèi), 健康樣本的反射強(qiáng)度趨于平穩(wěn), 遠(yuǎn)遠(yuǎn)高于病害樣本的光譜反射強(qiáng)度; 在910 nm波段附近是水和氧的窄吸收帶[13], 光譜曲線呈現(xiàn)下降趨勢(shì)。
圖3 輕度病害、 重度病害、 健康(亮部)和健康(暗部)的光譜曲線
以上分析表明, 高光譜成像技術(shù)能夠檢測(cè)到患病前后的葉片中組分含量的變化, 如葉綠素的含量, 以及水和氧等的變化, 說(shuō)明這些物質(zhì)含量的改變都能夠反映到光譜反射率的變化上。 這表明高光譜成像技術(shù)監(jiān)測(cè)植物病害的可行性。
采用主成分分析法對(duì)采集到的高光譜數(shù)據(jù)進(jìn)行降維, 選取累計(jì)貢獻(xiàn)率為95.11%的前四個(gè)主成分, 使光譜維度的個(gè)數(shù)從1 040降至4, 截取面積相同的病害區(qū)域并繪制出這四個(gè)主成分的圖像, 如圖4所示。 其中, 圖4(a)—(d)分別對(duì)應(yīng)前四個(gè)主成分(PC1, PC2, PC3和PC4), (e)為合成RGB圖。 經(jīng)過(guò)比較分析發(fā)現(xiàn): 主成分PC1的貢獻(xiàn)率為92.60%, 此時(shí)健康樣本和患病樣本具有明顯差異, 圖4(a)中可以看出葉脈的分布, 同時(shí), 嚴(yán)重病害的中心區(qū)域有別于其他患病區(qū); 主成分PC2的貢獻(xiàn)率為1.56%, 圖4(b)中健康(亮部)和嚴(yán)重病變均被標(biāo)記為藍(lán)色, 而且輕微病害區(qū)域也沒(méi)有表現(xiàn)出來(lái); 主成分PC3的貢獻(xiàn)率為0.76%, 不難看出PC3是對(duì)于PC2的補(bǔ)充, 將輕微病害區(qū)域基本表達(dá)完全, 但忽略了嚴(yán)重病害區(qū)域的反射強(qiáng)度信息, 并且健康區(qū)域無(wú)論亮暗均標(biāo)記為黃綠色; 主成分PC4的貢獻(xiàn)率僅有0.19%, 依然將嚴(yán)重病害區(qū)識(shí)別出來(lái)并標(biāo)記為藍(lán)色。 圖4(e)是基于前三個(gè)主成分合成的RGB圖像, 雖然不同病變程度的部分樣本有重疊, 但是, 各類樣本的差異十分明顯, 能夠嚴(yán)格地區(qū)分輕微病害(綠色和黃色)和嚴(yán)重病害(紅色)。
圖4 前四個(gè)主成分與RGB圖像的對(duì)比
以上分析表明, 主成分分析法既能很好的保留樣本特征, 又能夠極大地壓縮數(shù)據(jù)量, 為后續(xù)的建模提供方便。
運(yùn)用四種不同核函數(shù)的支持向量機(jī)法對(duì)樣本進(jìn)行建模, 分類結(jié)果見(jiàn)圖5。
圖5可以看出, 基于不同核函數(shù)的SVM的分類器差異不大, 這說(shuō)明主成分降維較好地保留了原始數(shù)據(jù)的信息; 圖5(a)和(e)中紅色方框顯示在葉脈識(shí)別上兩者存在細(xì)微的差異, 全光譜將其識(shí)別為健康亮部, 而降維之后判別為健康暗部, 說(shuō)明葉肉和葉脈在組分上略有差異, 而降維處理丟失了這部分信息。 圖5(e)—(h)是降維后再運(yùn)用不同核函數(shù)的SVM建模的分類結(jié)果, 基本沒(méi)有差異, 僅在樣本邊界區(qū)域(如粉色方框)有細(xì)節(jié)性差異。 其原因是: 線性核函數(shù)參數(shù)設(shè)置簡(jiǎn)單, 忽略了細(xì)節(jié)差異, 雖然區(qū)域劃分鮮明但存在噪點(diǎn); 徑向基核函數(shù)能夠清晰地區(qū)分輕微病害(黃色)與嚴(yán)重病害(靛色), 各區(qū)域界限鮮明; 多項(xiàng)式核函數(shù)與徑向基核函數(shù)的識(shí)別效果相近; Sigmoid核函數(shù)參數(shù)調(diào)整復(fù)雜, 存在過(guò)擬合現(xiàn)象, 會(huì)淡化細(xì)節(jié)。 相比于前三種核函數(shù), 在健康暗區(qū)與患病初期的交界處, Sigmoid核函數(shù)會(huì)出現(xiàn)界限模糊的情況。
圖5 SVM采用不同核函數(shù)的對(duì)比
隨機(jī)抽取68個(gè)樣本, 其中四類樣本的數(shù)量相同, 從中提取感興趣區(qū)作為測(cè)試集, 按照上述方法建模, 基于不同核函數(shù)的SVM模型的識(shí)別結(jié)果見(jiàn)圖6(Ⅰ—Ⅳ)。 “暗色方塊”表示預(yù)測(cè)值, “紅色圓點(diǎn)”表示標(biāo)準(zhǔn)值; 橫坐標(biāo)表示樣本編號(hào), 縱坐標(biāo)表示類型標(biāo)簽: “1”表示健康亮部, “2”表示健康暗部, “3”表示輕微病害, “4”表示嚴(yán)重病害。
圖6 對(duì)比不同核函數(shù)的SVM的識(shí)別結(jié)果
從圖6中看出, 四種核函數(shù)均有較好的識(shí)別效果, 但是也有一定的區(qū)別。 線性核函數(shù)雖然計(jì)算速度快, 但是識(shí)別過(guò)程受光強(qiáng)反射的影響較大; Sigmoid核函數(shù)采用神經(jīng)網(wǎng)絡(luò)的分類方法, 變量不可控, 訓(xùn)練精度受數(shù)據(jù)集大小的影響, 在識(shí)別健康亮或暗, 以及輕微病害上均存在一定的誤差, 需要進(jìn)一步的實(shí)驗(yàn)改進(jìn)。 目前, 多項(xiàng)式核函數(shù)與徑向基核函數(shù)使用最為廣泛, 本文中多項(xiàng)式核函數(shù)的識(shí)別效果更好, 能夠嚴(yán)格地區(qū)別健康與病害樣本。
用總體分類精度、 Kappa系數(shù)、 錯(cuò)分誤差和漏分誤差等因子評(píng)價(jià)SVM模型的識(shí)別準(zhǔn)確度[14], 結(jié)果見(jiàn)表2。 從表中看出, 各種核函數(shù)的分類精度一般在90%左右, 其中, 多項(xiàng)式核函數(shù)的效果最優(yōu), 達(dá)到92.77%。
表2 總體分類精度和Kappa系數(shù)
表3 錯(cuò)分誤差%
表3和表4的數(shù)據(jù)表明, 對(duì)相同條件下采集到的刺五加樣本, 運(yùn)用不同核函數(shù)的支持向量機(jī)算法進(jìn)行建模時(shí), 健康暗部和嚴(yán)重病害最不易被錯(cuò)分, 只有健康亮部的錯(cuò)分現(xiàn)象明顯, 一般出現(xiàn)在兩類健康區(qū)域的邊界處。 其中, 多項(xiàng)式核函數(shù)的錯(cuò)分誤差和漏分誤差最小。
表4 漏分誤差%
光譜成像技術(shù)已越來(lái)越廣泛地應(yīng)用于植物病害分析。 以刺五加的黑斑病葉片作為研究對(duì)象, 采集380~960 nm可見(jiàn)光波段的高光譜數(shù)據(jù), 運(yùn)用支持向量機(jī)建立病害樣本與健康樣本的分類模型, 利用總體分類精度、 Kappa系數(shù)等因子評(píng)價(jià)基于不同核函數(shù)的SVM建模的分類效果。 結(jié)果證明將高光譜成像技術(shù)應(yīng)用于藥用植物的病害檢測(cè)是可行的。
(1) 高維的光譜數(shù)據(jù)經(jīng)過(guò)PCA處理后, 由于各個(gè)主成分所包含的信息不同, 因此, 在分類表達(dá)上也有差異。 例如, 本文中PC3清晰地表達(dá)了輕微病害的信息, 而PC4能夠識(shí)別出嚴(yán)重病害樣本。 可以利用主成分之間的差異進(jìn)行某些易混淆組分的劃分;
(2) 基于SVM的分類模型能夠有效地區(qū)分各類樣本。 尤其是在區(qū)分嚴(yán)重病害時(shí)效果最好, 而對(duì)健康暗部的識(shí)別效果較差, 錯(cuò)分現(xiàn)象多集中在邊界處, 后續(xù)將就此開(kāi)展研究;
(3) 采用不同核函數(shù)的SVM算法的分類精度不同, 多項(xiàng)式核函數(shù)的分類精度最高, 錯(cuò)分誤差和漏分誤差最低。 這與核函數(shù)的參數(shù)設(shè)置有關(guān), 證明核函數(shù)受參數(shù)的影響較大。
致謝:感謝長(zhǎng)春理工大學(xué)付蕓老師的指導(dǎo); 感謝長(zhǎng)春經(jīng)濟(jì)植物研究所王娜研究員提供刺五加樣本, 以及在病害鑒別上給與的幫助和指導(dǎo); 感謝五鈴光學(xué)公司Roger工程師給予高光譜實(shí)驗(yàn)設(shè)備調(diào)試的指導(dǎo)。