王愛臣,高斌潔,趙春江,2,徐亦飛,王苗林,閆樹崗,李 林,魏新華*
1.江蘇大學農(nóng)業(yè)工程學院,江蘇 鎮(zhèn)江 212013 2.國家農(nóng)業(yè)信息化工程技術研究中心,北京 100097 3.西安交通大學軟件學院,陜西 西安 710049 4.南昌慧亦臣科技有限公司,江西 南昌 330009
農(nóng)作物生長過程中受到自然環(huán)境中不同因素的影響和威脅,其中病、蟲、草害尤其明顯,嚴重影響農(nóng)產(chǎn)品的產(chǎn)量和品質(zhì)。如防治不利,易造成農(nóng)作物減產(chǎn)甚至絕收[1]。目前我國針對農(nóng)作物病、蟲、草害的防治措施主要為化學防治,粗放式大面積均勻施藥不僅增加了農(nóng)業(yè)生產(chǎn)成本,還給食品安全及生態(tài)環(huán)境帶來了威脅。精準對靶施藥根據(jù)探測到的靶標信息進行施藥,通過只針對靶標的間歇式變量施藥減少農(nóng)藥使用量、提高農(nóng)藥利用率[2]。
對靶精準變量施藥的關鍵在于靶標信息的快速有效探測。針對農(nóng)作物病、蟲、草害化學防治時存在以下兩種典型作業(yè)場景:(1)針對寬株距作物(如玉米)苗期的病蟲害防治,作業(yè)對象為作物;(2)土地休耕期間或作物苗期的雜草,作業(yè)對象為雜草。以上兩種作業(yè)場景靶標分別為作物和雜草,均為綠色植物且無需區(qū)分具體類別。針對上述作業(yè)場景,只要探測出綠色植物并針對性進行精準對靶施藥即可有效減少農(nóng)藥使用量。目前針對田間綠色植物的快速探測方法主要有機器視覺[3]、光譜檢測[4]和光譜成像技術[5]。其中,光譜檢測方法通過被測對象的反射或熒光發(fā)射光譜檢測目標,相比于機器視覺和光譜成像技術,其數(shù)據(jù)量小、處理速度快,且光譜傳感器的結構簡單、成本低[4],更適用于上述兩種作業(yè)場景下田間綠色植物的快速探測。
光譜檢測方法已被廣泛用于植物的檢測和分類,如作物-雜草分類和不區(qū)分類別的綠色植物檢測。在進行作物和雜草的分類檢測時,目前研究結果都在理想檢測條件下得到,在室外開放環(huán)境下作物和雜草微弱的光譜差異難以檢測,難以投入實際應用[6]。相比之下,光譜分析更適用于上述兩種作業(yè)場景下田間綠色植物的快速探測。鄧巍等[7]利用植物和背景(枯枝、土壤等)的光譜特性確定850與650 nm處反射率的比值為植物判別指數(shù),可以實現(xiàn)田間綠色植物的快速探測。Pott等[8]對比了不同波段和光譜指數(shù)檢測田間綠色植物的效果,結果表明基于組合波段的光譜指數(shù)相比于單波段有更高的檢測精度。然而上述研究采集的數(shù)據(jù)均為反射率光譜,在采集光譜數(shù)據(jù)前需進行暗光譜和參考光譜采集,步驟繁瑣,且可能因外界光照變化多次采集暗光譜和參考光譜。另外,基于多波段的光譜檢測法由于需要通過光譜儀獲取多波段光譜信息,硬件成本較高,且數(shù)據(jù)量較大影響處理速度,難以投入實際應用。
本文針對上述農(nóng)作物病、蟲、草害化學防治時兩種典型作業(yè)場景下精準對靶施藥的需求和基于反射率多波段光譜檢測方法在應用中存在的問題,研究利用主動光源照射下綠色植物熒光光譜信息探測綠色植物的方法,首先通過建立基于多波段光譜信息的分類模型驗證該方法的可行性,再通過優(yōu)選主動光源類型和單一連續(xù)光譜波段實現(xiàn)基于單波段光譜的綠色植物探測,為開發(fā)低成本綠色植物探測傳感器提供理論依據(jù)。
選取的樣本包括綠色植物[圖1(a)]和非綠色植物[圖1(b,c)]。綠色植物樣本[圖1(a)]包括7種綠色植物葉片,每種植物選取20片葉片,共140個綠色植物樣本;非綠色植物樣本包括三種仿綠色植物[圖1(b)]和四種土壤樣本[圖1(c)],同樣每種有20個樣本,共140個非綠色植物樣本。
圖1 實驗樣本(a):綠色植物;(b),(c):非綠色植物Fig.1 Different samples(a):Green plants;(b),(c):Others
光譜采集系統(tǒng)包括LED光源、接收光纖(QP400-1-VIS-NIR,海洋光學)、光譜儀(USB2000+,海洋光學)、USB數(shù)據(jù)線以及PC計算機。接收光纖直徑為400 μm,數(shù)值孔徑為0.22,對250~1 000 nm波長之間的光具有較強的傳輸能力。光譜儀測量范圍為340~1 050 nm,光譜分辨率為0.35 nm。為優(yōu)選低成本主動光源,光源采用經(jīng)濟實用的LED光源,其內(nèi)部發(fā)光原件為發(fā)光二極管。根據(jù)二極管內(nèi)部P-N結材料,LED光源可直接發(fā)出不同波長的光。為更好的激發(fā)綠色植物的葉綠素熒光,光源選擇了白色(復合光)、藍色和紅色LED,其光譜覆蓋范圍如圖2所示。
圖2 白色、藍色和紅色LED光源光譜Fig.2 Spectra of white,blue and red LEDs
如圖3所示,接收光纖豎直固定,樣本置于接收光纖正下方約5 cm處,LED光源固定于樣本斜上方,與接收光纖的夾角約為40°。為方便后續(xù)綠色植物探測傳感器開發(fā),本研究采集的光譜為樣本光譜強度。為研究不同檢測環(huán)境下LED光源和檢測方法的有效性,本研究采集了白天室內(nèi)自然光照、白天太陽直射、白天無太陽直射和夜晚黑暗環(huán)境四種場景下的樣本光譜。
圖3 光譜采集系統(tǒng)示意圖Fig.3 Schematic diagram of spectra collecting system
光譜儀檢測范圍為340~1 050 nm,考慮到光譜儀自身檢測性能、光源光譜特征以及綠色植物的主要熒光反射波段(600~800 nm),選取650~850 nm波段的光譜數(shù)據(jù)進行分析。由于光的散射、樣本和檢測器的距離變化以及樣品的物理特性,原始光譜數(shù)據(jù)常包含噪聲,使用一定的預處理方法可以減輕這些干擾[6]。本文使用均值歸一化[9]預處理減弱噪聲,均值歸一化公式如式(1)所示。
(1)
式(1)中,RN(λ)為歸一化后的樣本光譜,R(λ)為測得樣本的原始光譜,n為波段數(shù),a和b分別為計算開始和終止的波段。
光譜的多波段特征包含更加全面的光譜信息,能夠提高綠色植物判別分類模型的準確率。本文首先基于全波段光譜(650~850 nm)通過簇類獨立軟模式法(soft independent modelling of class analogy,SIMCA)和線性判別分析方法(linear discriminant analysis,LDA)建立基于全波段(650~850 nm)光譜的綠色植物與非綠色植物判別分類模型。SIMCA方法首先建立綠色植物與非綠色植物兩個類別的主成分分析(PCA)模型,之后通過計算上述兩類PCA模型的類間馬氏距離建立判別模型,并依據(jù)該模型對未知樣本光譜進行分類以確定相應類別[6]。LDA方法根據(jù)“投影后類內(nèi)方差最小、類間方差最大”原則將高維樣本投影到低維空間,并在低維空間中尋找合適的判別閾值,實現(xiàn)樣本的準確分類。采用Unscramble X軟件建立SIMCA和LDA分類模型,模型建立采用均值歸一化后的光譜數(shù)據(jù),其中224個樣本光譜數(shù)據(jù)用于建模集,其余56個樣本光譜數(shù)據(jù)作為預測集。
基于多波段光譜特征的檢測方法雖然檢測精度較高,但由于需要通過光譜儀獲取多波段光譜信息,硬件成本較高,且多波段光譜數(shù)據(jù)量較大影響處理速度,難以投入實際應用。因此,本研究通過優(yōu)選單一的連續(xù)光譜波段實現(xiàn)綠色植物探測,在實際應用時可通過單濾光片組合光電傳感器的信號探測方式實現(xiàn)信號檢測,為開發(fā)低成本綠色植物探測傳感器提供理論依據(jù)。
在進行單波段優(yōu)選時,建立綠色植物與非綠色植物的分類目標函數(shù)J(λ1,λ2),波長λ1和λ2之間為連續(xù)波段,且λ1可以等于λ2,即優(yōu)選的波段為單一波長。在建立分類目標函數(shù)時,優(yōu)選的波段應能使綠色植物和非綠色植物兩類的類間離散度Jb最大、類內(nèi)離散度Jw最小,所以分類目標函數(shù)定義為[10]
(2)
(3)
(4)
于是,單波段優(yōu)選問題轉換為求目標函數(shù)J(λ1,λ2)在光譜波段650~850 nm的極大值問題。本研究在求解極大值時通過粒子群算法(PSO)實現(xiàn)。PSO算法模擬了鳥群在覓食時互相交流路徑的現(xiàn)象,通過初始化一群N維粒子Xi=(x1,x2,x3,…,xn),不斷迭代尋找適應函數(shù)的極值解,在每一次迭代過程中,粒子通過跟蹤兩個“極值”(個體最優(yōu)解Pi以及全局極值Pb)來更新自己,能有效避免局部最優(yōu)解的發(fā)生[11]。本研究種粒子維度設置為2(波長λ1和λ2),且求解過程存在以下約束條件
650≤λ1≤λ2≤850
(5)
在進行單波段優(yōu)選時,將280個樣本劃分為200個校正集(100個綠色植物和100個非綠色植物)和80個獨立預測集(40個綠色植物和40個非綠色植物)??紤]到基于優(yōu)選單波段光譜的綠色植物探測傳感器實用性,PSO優(yōu)化和建立基于優(yōu)選單波段光譜的綠色植物判別模型時使用原始光譜數(shù)據(jù)。PSO算法基于Python 3.8實現(xiàn)。單波段優(yōu)選后以優(yōu)選波段內(nèi)的光譜能量值積分作為樣本的特征參數(shù),以校正集中兩類樣本特征參數(shù)均值的平均數(shù)作為判別閾值建立分類模型。
對于二分類模型,通過精確度(Precision)、召回率(Recall)和F1-score[12]評價模型分類效果,三者公式分別如式(6)—式(8)所示
(6)
(7)
(8)
對于SIMCA,會存在無法識別的問題,即某未知樣本被判別為既不屬于第一類也不屬于第二類,采用識別率和拒絕率評價模型效果[13],二者公式分別如式(9)和式(10)
(9)
(10)
圖4所示為白色、藍色和紅色LED光源照射下不同樣本的均值歸一化反射光譜。白色LED光源覆蓋波段的兩個波峰約為450和550 nm[圖4(a)],藍色LED光源覆蓋波段的波峰約為463 nm[圖4(b)],紅色LED光源覆蓋波段的波峰約為629 nm[圖4(c)]。在進行反射光譜采集時,樣本表面可能存在的鏡面反射光會導致光源波峰處光譜能量值飽和,因此光源覆蓋的波段不在考慮范圍內(nèi)。在三種LED光源照射下,綠色植物的光譜在740 nm附近有明顯波峰,在685 nm附近也有較為明顯的波峰。三種LED光源的波段均沒有覆蓋685和740 nm,這兩處的光譜波峰為光源照射下綠色植物葉片被激發(fā)的葉綠素熒光發(fā)射光譜[14],而非綠色植物樣本在這兩處均沒有波峰。因此,這兩處綠色植物的熒光發(fā)射特性可作為探測綠色植物樣本和非綠色植物樣本的重要依據(jù)。三種光源照射下所有樣本在670~900 nm范圍內(nèi)光譜特征一致,其中在藍色LED照射下綠色植物在685 nm處的熒光發(fā)射較白色和紅色LED照射時更為明顯。白天室外場景下,所有樣本的光譜在688和720 nm附近存在輕微的波谷,764 nm附近存在明顯的波谷,這是由于大氣對日光的吸收造成的[15]。
圖4 白色、藍色和紅色LED光源照射下不同樣本歸一化光譜Fig.4 Normalized spectra of different samples illuminated by white,blue and red LEEs
(1)SIMCA
圖5為對歸一化光譜數(shù)據(jù)進行PCA分析后的第一、第二主成分得分圖。在不同LED光源照射下,樣本分布均存在不同類別樣本之間距離較近的情況,說明環(huán)境光對于光譜數(shù)據(jù)的影響較大,但不同類別樣本沒有出現(xiàn)重疊現(xiàn)象,為后續(xù)樣本分類的可能性提供了依據(jù)。三種光源照射下樣本光譜數(shù)據(jù)前兩個主成分的方差貢獻率均大于90%,表明前兩個主成分可描述光譜數(shù)據(jù)的大部分信息。白色、藍色和紅色LED照射下樣本光譜前兩個主成分累計方差貢獻率分別為94%、97%和90%。所以在建立PCA模型時主成分數(shù)選為2。
圖5 白色(a)、藍色(b)和紅色(c)LED光源照射下樣本光譜的第一、第二主成分得分圖Fig.5 PCA scores of the first two principal components of sample spectra under illumination of white (a),blue (b)and red (c)LEDs
針對兩類樣本分別建立PCA模型,然后通過SIMCA進行分類預測,三種LED光源照射下SIMCA模型的分類結果如表1所示。對于校正集所有模型的識別率均達到96%以上,對于驗證集所有模型的識別率均達到92%以上,表明模型識別本類樣品的能力較強,僅有少數(shù)樣本未被正確識別。所有模型的拒絕率均為100%,表明模型拒絕其他類樣本的能力很強,不會把其他類樣本識別為本類樣本。綜合來看,紅色LED光源照射下樣本SIMCA模型的效果最好,藍色LED光源照射下樣本SIMCA模型的效果其次,但相差不大。
表1 綠色植物與非綠色植物的SIMCA分類結果Table 1 Discriminant results of green plants and others by SIMCA
(2)LDA
圖6為三種LED光源照射下校正集樣本LDA分析的判別距離圖,其可視化了LDA分類模型對校正集樣本的分類效果。判別距離圖中樣本位置越接近任一坐標軸的零點則說明其更具備該坐標軸類別特征,因此當判別距離圖中樣本準確緊貼于上、右坐標軸時說明LDA模型具備強分類能力。圖6中藍色[圖6(b)]、紅色LED光源[圖6(c)]照射下大多數(shù)樣本較好的分布于上、右坐標軸附近,但均存在一個綠色植物樣本更靠近非綠色植物坐標零點。結合表2校正集LDA分類結果的混淆矩陣可以看出,藍色、紅色LED光源照射下樣本LDA模型對這兩個樣本產(chǎn)生了誤識別,而白色LED光源照射下的樣本LDA模型則準確識別了校正集全部樣本。為進一步驗證LDA模型的可靠性,使用LDA模型對預測集樣本進行分類,表2預測集分類混淆矩陣顯示三種LDA分類模型均能準確識別出預測集所有樣本,表明三種LED光源照射下樣本的LDA模型分類性能穩(wěn)定,同時這也表明對于歸一化光譜數(shù)據(jù)來說,各類LED光源的LDA模型相較于SIMCA模型具備更強的分類能力。
表2 綠色植物和非綠色植物的LDA分類混淆矩陣Table 2 Confusion matrix of LDA models for classifying green plants and others
圖6 白色(a)、藍色(b)和紅色(c)LED光源照射下樣本的LDA判別距離圖Fig.6 LDA distances for green plants and others under illumination of white (a),blue (b)and red (c)LEDs
表3所示為三種LED光源照射下通過PSO優(yōu)選的單波段光譜,及通過該單波段光譜特征建立的判別分析模型判別綠色植物和非綠色植物的結果。白色、藍色和紅色LED光源照射下優(yōu)選的光譜波段均為單波長,分別為731.1,730.76和731.1 nm。這兩個波長均在LED光源照射下綠色植物葉片被激發(fā)的葉綠素熒光發(fā)射光譜范圍內(nèi),而非綠色植物在該波段范圍內(nèi)沒有葉綠素熒光,說明730 nm附近的植物葉綠素熒光是區(qū)分綠色植物和非綠色植物的重要光譜特征,可以作為開發(fā)綠色植物探測傳感器的光譜波段。通過PSO得出最佳光譜波段后,以最佳光譜波段處的光譜能量值作為特征信息,分別計算綠色植物和非綠色植物兩類樣本的光譜能量值均值,并以這兩個均值的均值作為分類判別閾值建立判別分析模型,分別對校正集200個樣本和預測集80個樣本進行分類,結果如表3所示。綜合效果上,藍色LED光源照射下兩類樣本分類效果最好,校正集和預測集F1-score分別為83.98%和80.52%,紅色LED光源效果其次,白色LED光源效果最差。相比于基于多波段光譜信息的判別分析模型,基于單波段光譜信息的判別效果明顯差,這一方面是由于單波段光譜信息采用的是原始光譜信息,另一方面由于單波段光譜本身包含的特征信息也少。另外,本實驗所用光譜是在四種環(huán)境下采集的,在室外尤其是有太陽直射的環(huán)境下,由于太陽光譜的覆蓋范圍較廣(圖4),在很多情況下太陽光在730 nm附近光譜能量值比植物葉綠素熒光發(fā)射值要高,這就導致了較多的誤判,影響檢測效果。
表3 單波段光譜優(yōu)選及綠色植物-非綠色植物判別結果Table 3 Optimized single waveband and corresponding discriminant
研究了白色、藍色和紅色LED主動光源照射下基于熒光光譜信息探測綠色植物的方法。結果表明,三種光源照射下基于多波段光譜信息的SIMCA模型對預測集的識別率均達到92%以上,拒絕率均為100%;三種LDA分類模型均能準確識別出預測集所有樣本,檢測效果優(yōu)于SIMCA模型,且三種LED光源的效果無顯著差異。通過PSO優(yōu)選單波段原始光譜并建立綠色植物和非綠色植物的閾值分類模型,白色、藍色和紅色LED光源照射下優(yōu)選的光譜波段分別為731.1,730.76和731.1 nm,預測集的F1-score分別為76.71%,80.52%和78.48%,藍色LED光源的效果最好。本文優(yōu)選的主動光源類型和連續(xù)檢測波段可為開發(fā)基于單波段的低成本綠色植物探測傳感器提供理論依據(jù)。