岳學(xué)軍 凌康杰 洪添勝 甘海明 劉永鑫 王林惠
(1.華南農(nóng)業(yè)大學(xué)南方農(nóng)業(yè)機(jī)械與裝備關(guān)鍵技術(shù)省部共建教育部重點(diǎn)實(shí)驗(yàn)室, 廣州 510642; 2.華南農(nóng)業(yè)大學(xué)電子工程學(xué)院, 廣州 510642; 3.華南農(nóng)業(yè)大學(xué)工程學(xué)院, 廣州 510642)
光合作用直接影響植株生長和葉綠素含量,進(jìn)而影響其葉色。葉色是氮素營養(yǎng)診斷最常用指標(biāo)[1],也是診斷植株染病與抗病能力的輔助指標(biāo)[2],獲得準(zhǔn)確的葉色診斷指標(biāo)是植株精確定量施氮施藥的基礎(chǔ)[3]。利用計(jì)算機(jī)視覺技術(shù)識別葉色,以此鑒別農(nóng)作物長勢已成為研究熱點(diǎn)與難點(diǎn)[4]。龍眼具有藥用價值[5 - 6],是我國福建、廣西、廣東和海南等地支柱性經(jīng)濟(jì)樹種。龍眼的葉斑病、褐斑病、葉枯病等能導(dǎo)致葉片葉綠素含量分布變化,降低光合效率,進(jìn)而影響龍眼的品質(zhì)與產(chǎn)量。龍眼急性病如急性炭疽病易引起幼苗部分葉片枯死,導(dǎo)致果樹落花落果,該龍眼病初期病理特征不明顯,但葉綠素含量卻變化顯著[7]??焖贌o損檢測龍眼葉片葉綠素含量及其分布對龍眼樹的栽培管理、病害早期快速監(jiān)測防治、實(shí)時精確控制水肥灌溉等具有重要意義。
傳統(tǒng)的植物葉片葉綠素含量檢測常用分光光度法和高效液相色譜法(High performance liquid chromatography,HPLC),存在耗時、費(fèi)力、時效性差和損壞樣本等弊端。近年來,隨著高光譜技術(shù)的發(fā)展和應(yīng)用的成熟,國內(nèi)外研究者針對水稻、冬小麥、玉米等一體化大田植物做了大量研究,但對龍眼等個體化果樹的葉綠素含量估測和分布研究甚少。岳學(xué)軍等[8]分別采用了主成分分析-支持向量機(jī)回歸(Principle component analysis-support vector regression,PCA-SVR)和小波去噪-偏最小二乘回歸(Wavelet denoising-partial least square regression,WD-PLSR)算法建立柑橘葉片葉綠素含量估測模型,其模型決定系數(shù)分別達(dá)到了0.871 3和0.867。KALACSKA等[9]、ZHAO等[10]、SHI等[11]采用PCA、連續(xù)小波變換(Continuous wavelet transform,CWF)、多元線性回歸(Multiple linear regression,MLR)、神經(jīng)網(wǎng)絡(luò)等建模方法分析了GNDVI、mNDVI705、MSAVI2、PSRI等10余種光譜指數(shù)與農(nóng)作物葉綠素濃度的相關(guān)性,建立了高光譜圖像數(shù)據(jù)對葉綠素含量估測及其分布模型。鄒小波等[12]研究了黃瓜葉片高光譜圖像450~850 nm波段,建立以特征波長與對應(yīng)的光譜反射值植被指數(shù)關(guān)系模型,結(jié)果表明基于695~709 nm和750~800 nm波段下的(R695-709)-1-(R750-800)-1模型預(yù)測具有最優(yōu)效果,其校正集和預(yù)測集相關(guān)系數(shù)分別為0.841和0.828 6。孫俊等[13]對生菜葉選取了390~1 050 nm可見光-近紅外波段的高光譜圖像,分別采用特征波段和基于灰度共生矩陣紋理特征建立SVR模型,最優(yōu)特征模型決定系數(shù)為0.996,均方根誤差(RMSE)為0.034。
數(shù)據(jù)量大、波段多、混合像元間關(guān)系復(fù)雜是高光譜圖像處理中的難點(diǎn),且圖像中精細(xì)光譜特征受目標(biāo)光譜變異性、背景信息分布與模型假設(shè)差異性、圖像亞像元小等問題的影響,傳統(tǒng)機(jī)器學(xué)習(xí)模型無法適應(yīng)這種特征,需要新的信息提取模型與方法[14]。
本文采樣地點(diǎn)為廣州市郊華南農(nóng)業(yè)大學(xué)紅滿堂龍眼園(23°09′N,113°21′E),樣本樹為20株長勢相當(dāng)?shù)凝堁蹣?,采用HyperSIS高光譜成像儀分別采集嫩綠、淺綠、深綠共3種不同生長狀態(tài)的龍眼葉高光譜數(shù)據(jù),先進(jìn)行Savitzky-Golay濾波,再獲取PCA降維高光譜圖像,使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)提取特征,最后分別使用粒子群優(yōu)化-支持向量回歸(PSO-SVR)和獨(dú)立成分分析-深度神經(jīng)網(wǎng)絡(luò)(ICA-DNNs)建立龍眼葉片葉綠素含量預(yù)測及其分布模型。
選取華南農(nóng)業(yè)大學(xué)紅滿堂龍眼園內(nèi)20株長勢相當(dāng)?shù)奶幱诓晒诘凝堁蹣錇闃颖?,采集?shù)據(jù)時間為2016年8月23日08:00。龍眼葉分嫩綠、淺綠和深綠3種,從每棵龍眼樹冠的上、中、下3個部位和東、南、西、北4個方位分別均勻隨機(jī)采集龍眼葉共15片,共300個龍眼葉樣本,每種顏色100個。其中嫩綠、淺綠、深綠3種狀態(tài)是指葉片SPAD均值分布區(qū)間為(9,25]、(25,41]、(41,57)的葉片,葉齡分別是7~27 d、28~48 d和49 d以上。葉片新鮮、無明顯病斑和破損,將采集的樣本保存于冰袋中,避免葉綠素高溫見光分解。所有樣本編號后立即帶回實(shí)驗(yàn)室進(jìn)行高光譜信息采集及葉綠素含量化學(xué)測定[15]。
該實(shí)驗(yàn)所用的高光譜成像儀(HyperSIS,Zolix,中國)主要由4個鹵光燈、CCD相機(jī)(Gilden Photonics Ltd,UK)、樣品移動臺等部件組成。成像儀光譜波長范圍369~988 nm,分辨率1.2 nm。高光譜成像儀控制及圖像校正軟件為SpectraSENS。按照文獻(xiàn)[16]的方法采集龍眼葉片的高光譜圖像。
為了防止基線漂移,需打開鹵素?zé)?,等?0 min后對300個樣本進(jìn)行掃描。由于光源強(qiáng)度分布不均勻以及暗電流噪聲存在,需要在掃描生成高光譜圖之前,對每個樣本進(jìn)行黑白標(biāo)定。先將龍眼葉片平鋪在移動臺的白紙上,CCD相機(jī)曝光時間設(shè)置為15 ms,平臺移動速度為4.5 mm/s。再次關(guān)閉相機(jī)快門,蓋上CCD相機(jī)鏡頭掃描獲取反射率為零的全黑標(biāo)定圖像B,對白板掃描獲取反射率接近100%的全白標(biāo)定圖像W,設(shè)Rraw為未標(biāo)定的樣本圖像,Ic為標(biāo)定后的高光譜圖像,則Ic的計(jì)算公式為[17]
(1)
采集完龍眼葉片的光譜信息后,立刻使用分光光度法測定每片葉子的葉綠素感興趣區(qū)(Region of interest,ROI)含量。在葉脈附近逆時針均勻選取6個ROI點(diǎn),每個點(diǎn)選取0.5 g的ROI新鮮龍眼葉組織,去除葉脈,再剪成細(xì)絲,置于研缽中,加入少量石英砂、碳酸鈣粉及體積分?jǐn)?shù)為80%丙酮溶液2~3 mL,研磨至組織變白,于室溫(25℃)下暗處靜置10 min。經(jīng)過濾、反復(fù)沖洗研缽和研棒,確保葉片色素全部進(jìn)入容量瓶。用紫外-可見分光光度計(jì)分別測量波長為663、645、652 nm處的吸光度,最后依據(jù)葉綠素a和葉綠素b的濃度與吸光度關(guān)系計(jì)算出總的葉綠素含量[18](表1),葉綠素含量用葉片葉綠素質(zhì)量比表示。
1.4.1ROI智能選取
由圖1可知,在519 nm波段附近,構(gòu)成龍眼葉主體的葉脈和葉肉部分的反射率明顯比背景和陰影的高。高光譜圖像中,背景和陰影的反射率在波長419~619 nm波段范圍內(nèi)較為平穩(wěn),沒有明顯波峰起伏。陰影區(qū)域的反射強(qiáng)度低于背景區(qū)域反射強(qiáng)度。基于該特征,采用自動二值化去除背景和陰影部分,提取整片葉子。
表1 不同葉片狀態(tài)下龍眼葉片葉綠素含量統(tǒng)計(jì)數(shù)據(jù) Tab.1 Descriptive statistic of chlorophyll content during different growth states mg/g
圖1 葉片圖像中不同區(qū)域的光譜特征圖 Fig.1 Spectral characteristic of different regions in longan leaves
1.4.2圖像去噪與特征波長選取
高光譜數(shù)據(jù)在獲取過程中,往往受到儀器噪聲等因素的影響,存在吸光度的非線性、基線變動和附加散射變動[19],不可避免的產(chǎn)生誤差,為了減少噪聲對模型的干擾,采用基于時域局部多項(xiàng)式最小二乘法擬合的Savitzky-Golay濾波方法,具有運(yùn)算速度快,保留極大值、極小值和寬度等分布特性的優(yōu)點(diǎn)[20]。由于高光譜圖像波段多且連續(xù),數(shù)據(jù)量大,相鄰波段間存在較大的相關(guān)性,本文采用基于SVD的PCA降維后特征值所占能量比來確定主成分?jǐn)?shù)目。在300個樣本中,每個樣本降維后選取前3個主成分圖像PC1、PC2、PC3。每個樣本的前3個主成分圖像的總能量貢獻(xiàn)率均大于其全部主成分圖像總能量的95.8%。再根據(jù)所有樣本下PC1、PC2、PC3中的各波長平均權(quán)重選取8個特征波長。由于403、821 nm處光譜噪聲較大,模型中去掉這兩處的光譜,對300個龍眼葉樣本提取483、518、625、631、642、675 nm處共6個對應(yīng)波長下的光譜圖像紋理信息作為樣本光譜特征,結(jié)果如圖2所示。
圖2 前3個主成分圖像下各個波段平均權(quán)重系數(shù) Fig.2 Mean coefficient of all wavelengths for the first three principle component images
1.4.3圖像紋理信息提取
作物中葉綠素含量變化會導(dǎo)致生長趨勢發(fā)生變化,進(jìn)而影響葉片中的紋理特征[21]。本文采用灰度共生矩陣GLCM提取紋理特征,利用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行CNN紋理提取?;贕LCM紋理特征,提取距離參數(shù)設(shè)為1個像素,方向依次為0°、45°、90°和135°,分別對ROI區(qū)域進(jìn)行包括能量、對比度、相關(guān)性、同質(zhì)性[22]4種紋理特征進(jìn)行提取。基于預(yù)訓(xùn)練AlexNet[23]神經(jīng)網(wǎng)絡(luò)提取主成分圖像和特征波段下的高光譜圖像的紋理特征。對300個樣本分別提取主成分圖像,共得900幅主成分圖像,以此作為模型訓(xùn)練數(shù)據(jù)。
本文的PSO-SVR算法[24-25]是利用粒子群優(yōu)化算法選取SVR中最優(yōu)核參數(shù)γ和正則參數(shù)c,基本思想是將低維空間數(shù)據(jù)根據(jù)某種非線性變換(通過核函數(shù)實(shí)現(xiàn))映射到高維特征空間,在高維特征空間內(nèi)進(jìn)行線性回歸計(jì)算,γ和c分別控制模型的偏差(Bias)和方差(Variance)[26],對于總數(shù)為n的樣本集,設(shè)回歸模型f(x)中核函數(shù)為K,偏置量為d,滿足[27]
(2)
(3)
xi——第i個支持向量
x——未知樣本的特征矢量
ICA-DNNs是深度學(xué)習(xí)(Deep learning,DL)模型[28],是近年來人工智能領(lǐng)域最熱門的研究方向之一,其主要原理是逐層經(jīng)過深度神經(jīng)網(wǎng)絡(luò)和反饋傳播,自動提取數(shù)據(jù)中的特征[29-31]。設(shè)網(wǎng)絡(luò)權(quán)重矩陣為V,偏置向量為b,樣本總數(shù)為m,網(wǎng)絡(luò)總層數(shù)為nl-1,假設(shè)函數(shù)h,網(wǎng)絡(luò)層號為l(l=1,2,…,nl-1),第l層總神經(jīng)元數(shù)為sl,權(quán)重衰減因子為λ,最小化損失函數(shù)J為
(4)
pi——第i個輸入樣本向量
yi——第i個輸出向量
hV,b——參數(shù)為V和b的假設(shè)函數(shù)
為了避免模型過擬合問題,本文均對目標(biāo)函數(shù)進(jìn)行L1正則化[32]處理。每個批次樣本隨機(jī)選取80%的數(shù)據(jù)作為校正集,用于建模,剩下20%作為驗(yàn)證集,用于評估模型的性能[33]。建模評估采用模型決定系數(shù)R2和均方根誤差(RMSE)兩個指標(biāo)。每個模型方案獨(dú)立運(yùn)行30次,取性能指標(biāo)結(jié)果的均值作為實(shí)驗(yàn)結(jié)果。
針對嫩綠、淺綠和深綠3種不同龍眼葉生長狀態(tài),分別采用PSO-SVR和ICA-DNNs進(jìn)行建模實(shí)驗(yàn),評估結(jié)果如表2所示。經(jīng)過實(shí)驗(yàn),PSO種群數(shù)量設(shè)置為20、權(quán)重衰減因子為0.9時,獲得最佳參數(shù)性能。DNNs層數(shù)設(shè)置為6層,隱藏神經(jīng)元數(shù)為20—10—10—20。從表2可知,由于僅在特征光譜建模下ICA-DNNs的驗(yàn)證集R2均小于0.8,故其性能較差,泛化能力較低,全期校正集和驗(yàn)證集的決定系數(shù)分別為0.806 1和0.796 4,PSO-SVR在4種不同葉片狀態(tài)下均有良好表現(xiàn),模型穩(wěn)定性較高,嫩綠、淺綠、深綠、全期狀態(tài)下的驗(yàn)證集的決定系數(shù)分別為0.793 8、0.806 6、0.805 7、0.815 2。
對DNNs采用隨機(jī)梯度下降(Stochastic gradient descent,SGD)法訓(xùn)練網(wǎng)絡(luò),每幅圖像統(tǒng)一尺寸為224像素×224像素,經(jīng)卷積(Convolution)和池化(Pooling)處理后得到特征數(shù)為60。每個樣本采集6幅特征光譜圖像和3幅主成分圖像,共得到特征光譜圖像1 800幅,主成分圖像900幅。采用4種紋理特征,每種特征采集方向依次為0°、45°、90°和135°,得到16維GLCM紋理,AlexNet提取160維CNN紋理,總共有176維紋理特征。兩種圖像紋理特征分別導(dǎo)進(jìn)PSO-SVR和ICA-DNNs模型,調(diào)節(jié)參數(shù)最優(yōu),分析結(jié)果如表3所示。
表2 龍眼葉在不同生長狀態(tài)下的模型性能評估結(jié)果 Tab.2 Models evaluation result for longan leaves in different growth states
表3 基于紋理特征模型分析結(jié)果 Tab.3 Analysis results of models based on texture features
從表3可知,PSO-SVR效果較優(yōu),校正集和驗(yàn)證集模型決定系數(shù)分別為0.640 5和0.574 2,分別高于ICA-DNNs模型校正集和驗(yàn)證集模型的決定系數(shù)0.553 7和0.509 1。從表3可知,基于GLCM紋理與CNN紋理特征建??傮w效果差,說明紋理特征與葉綠素含量相關(guān)性不大。
將光譜特征數(shù)據(jù)與GLCM紋理特征、CNN特征進(jìn)行融合優(yōu)化,核參數(shù)與懲罰因子設(shè)置不變,分別建立基于特征光譜與紋理特征數(shù)據(jù)融合模型,特征光譜與CNN紋理特征數(shù)據(jù)融合模型,特征光譜與GLCM紋理特征和CNN紋理信息融合模型。在訓(xùn)練過程中,采用早停止方法選取最佳迭代次數(shù),方法如圖3所示。
圖3 基于早停止方法的DNNs網(wǎng)絡(luò)訓(xùn)練迭代次數(shù)與 模型性能評估 Fig.3 Model evaluation with number of epochs based on early stopping method
由圖3可知,采用早停止方法選取迭代次數(shù)為2 600次時,驗(yàn)證集的模型決定系數(shù)達(dá)到最大,均方根誤差達(dá)到最小,模型性能綜合最優(yōu)。將3種融合特征分別導(dǎo)入PSO-SVR和ICA-DNNs模型中,每次訓(xùn)練都采用圖3中早停止方法選取最佳迭代次數(shù),將每種融合特征對應(yīng)的每個模型的30次性能指標(biāo)輸出取平均,得多特征融合的結(jié)果如表4所示。
表4 3種融合模型對葉綠素含量的預(yù)測性能 Tab.4 Performance of three fusion models for prediction of chlorophyll content in longan leaves
3種融合特征在ICA-DNNs模型中效果最優(yōu),此時校正集和驗(yàn)證集R2分別為0.835 8和0.821 0,RMSE分別為0.162 1和0.168 6。在PSO-SVR中,特征光譜與GLCM紋理融合模型效果最優(yōu),與2.1節(jié)僅使用特征光譜建模相比,基于特征光譜與GLCM紋理、特征光譜與CNN紋理特征的建模性能有所下降,可能是由于龍眼葉在不同葉綠素含量分布下,葉片狀態(tài)與結(jié)構(gòu)發(fā)生改變性不明顯,圖像紋理特征與葉綠素含量相關(guān)性較差,相當(dāng)于引入部分不相關(guān)信息,加上PSO-SVR整體遷移融合能力不強(qiáng),融合模型變差。龍眼葉片葉綠素含量與特征光譜、GLCM紋理特征、CNN紋理信息特征相關(guān)性依次遞減。ICA-DNNs在融合包括特征光譜、圖像紋理特征等多種數(shù)據(jù)信息下,模型穩(wěn)定性得到了提高,泛化能力得到了一定的提升。
根據(jù)上述結(jié)論,建立基于多源特征融合的ICA-DNNs模型預(yù)測龍眼葉葉綠素分布,將每個像素點(diǎn)對應(yīng)的高光譜曲線全部導(dǎo)入ICA-DNNs模型,每個像素點(diǎn)和與它相關(guān)點(diǎn)的高光譜信息可預(yù)測該點(diǎn)的葉綠素含量,進(jìn)而得到整塊葉片的葉綠素分布,分布結(jié)果如圖4、5所示。
圖6 不同建模方法下葉綠素含量實(shí)測值和預(yù)測值的比較 Fig.6 Comparison of real and predicted chlorophyll contents by different modeling methods
圖4 基于最優(yōu)參數(shù)的ICA-DNNs龍眼葉綠素含量分布 Fig.4 Image of chlorophyll content distribution for longan leaves based on ICA-DNNs with optimum parameters
圖5 3種不同生長狀態(tài)下龍眼葉片葉綠素含量分布 Fig.5 Distribution of chlorophyll content in three different growth states
由圖5可知,嫩綠葉片葉綠素含量主要分布于靠近葉根葉肉部分。淺綠葉片葉綠素含量開始從葉根擴(kuò)展至側(cè)脈附近,葉子脈絡(luò)清晰,葉綠素平均含量增大。葉片為深綠時,葉脈、葉肉均有比較大的葉綠素含量,分布均勻。主脈葉綠素含量在3種葉片狀態(tài)下均比較低。
為了驗(yàn)證ICA-DNNs模型的可靠性,隨機(jī)選取每種狀態(tài)葉片30個,共90個,每個樣本隨機(jī)選擇2個點(diǎn),用TYS-B型葉綠素測定儀測定葉片葉綠素相對含量(SPAD),共得到180組測量值,同時由ICA-DNNs葉綠素反演模型得到預(yù)測值,SPAD值與預(yù)測值建立擬合關(guān)系,得回歸方程y=0.053 4x-0.460 6,R2=0.917 2,說明該模型具有可靠性和準(zhǔn)確性。
本實(shí)驗(yàn)將最優(yōu)的基于多源特征融合的ICA-DNNs與多元線性回歸(Multiple linear regression,MLR)、偏最小二乘法回歸(Partial least square regression,PLSR)、廣義神經(jīng)網(wǎng)絡(luò)(General regression neural networks,GRNN)、最小鄰域回歸(Nearest neighbors regression,NNR)模型進(jìn)行對比,將融合后的光譜特征導(dǎo)入這4個模型,模型參數(shù)分別調(diào)到最優(yōu),其訓(xùn)練結(jié)果如圖6所示。
將這4種模型建模結(jié)果與表4相比較,得到相對ICA-DNNs模型性能百分比,結(jié)果如表5所示。這4種傳統(tǒng)模型的實(shí)驗(yàn)結(jié)果表明,本文提出的ICA-DNNs模型效果最優(yōu),校正集和驗(yàn)證集R2分別為0.835 8和0.821 0。其次取得較好效果的是偏最小二乘法回歸模型,訓(xùn)練集上效果最差模型為最小鄰域回歸模型,驗(yàn)證集模型決定系數(shù)比ICA-DNNs性能下降8.15%。這4個模型均有不同程度的預(yù)測偏離數(shù)據(jù)點(diǎn),主要是因?yàn)榻V猩婕澳P偷钠?方差(Bias-variance)矛盾,模型復(fù)雜度不夠,提取到的有效特征不足或與原始數(shù)據(jù)并不完全相關(guān),從而影響了模型的魯棒性和泛化能力。ICA-DNNs模型能夠較好進(jìn)行多源特征融合,因此ICA-DNNs模型具有較高的預(yù)測精度和泛化能力。
表5 不同建模方法下的模型性能分析 Tab.5 Results of performance based on different modeling methods
(1)基于特征光譜的PSO-SVR模型預(yù)測效果最佳,嫩綠、淺綠、深綠和全期的驗(yàn)證集模型決定系數(shù)分別為0.793 8、0.806 6、0.805 7、0.815 2。
(2)基于紋理特征的模型性能次之,紋理信息與葉綠素含量之間相關(guān)性較低,與ICA-DNNs模型相比,PSO-SVR模型性能較優(yōu),校正集和驗(yàn)證集模型決定系數(shù)分別為0.640 5和0.574 2。
(3)在多特征融合建模中,特征光譜與GLCM紋理融合在PSO-SVR模型中效果最優(yōu),校正集和驗(yàn)證集R2分別為0.816 8和0.795 9,RMSE分別為0.172 4和0.178 6。對比MLR、PLSR、GRNN、NNR傳統(tǒng)模型,融合3種特征在ICA-DNNs模型中效果最優(yōu),校正集和驗(yàn)證集R2分別為0.835 8和0.821 0,RMSE分別為0.162 1和0.168 6。ICA-DNNs在融合包括特征光譜、圖像紋理特征等多種數(shù)據(jù)信息下,模型穩(wěn)定性得到提高,泛化能力得到了一定的提升。對比PSO-SVM,深度學(xué)習(xí)模型ICA-DNNs計(jì)算復(fù)雜度較高,但具有較強(qiáng)的特征提取和融合能力,適合大批量數(shù)據(jù)。在多特征融合中,該模型具有較強(qiáng)穩(wěn)定性和泛化能力。深度模型的精度比單一傳統(tǒng)簡單模型更高。
(4)從嫩綠、淺綠到深綠的龍眼葉葉綠素含量分布規(guī)律是從局部到整體,從不均勻到均勻。嫩綠葉片的葉綠素主要分布于靠近葉根的葉肉部分,葉綠素平均含量較小。淺綠葉片葉綠素開始從葉根擴(kuò)展至側(cè)脈附近,葉綠素平均含量增大。深綠葉片的側(cè)脈、葉肉分布均勻,葉綠素平均含量進(jìn)一步增大。主脈葉綠素含量在嫩綠、淺綠和深綠這3種葉子狀態(tài)下均較低。