王鵬 王雪峰
關(guān)鍵詞:沉香;可見光圖像;K-Means 聚類分割算法;圖像特征提取;氮素診斷
中圖分類號:S757.9 文獻標(biāo)識碼:A
沉香(Aquilaria sinensis)為瑞香科(ThymelaeaceaeJuss.)沉香屬(Aquilaria Lam.)喬木,是我國重點保護的珍貴樹種之一,可用于制香、制藥以及工藝品制造,具有極高的經(jīng)濟價值[1]。近年來,由于人為的過度砍伐以及生態(tài)環(huán)境的破壞,野生沉香數(shù)量不斷減少。為了保護該樹種并滿足供應(yīng)需求,海南省開始大力推廣種植沉香[2]。但幼齡沉香對養(yǎng)分的敏感性較高,在實際培育中,由于經(jīng)營者無法實時掌握養(yǎng)分信息,導(dǎo)致沉香發(fā)育不良甚至死亡。因此,為了保證沉香的健康生長,有必要探索一種快捷、可靠的營養(yǎng)診斷方法[3]。
氮素是植物生長的必要元素之一,氮素供應(yīng)不足或過量都會對植物的生長發(fā)育產(chǎn)生不良影響,因此植物氮素診斷技術(shù)被廣泛應(yīng)用于農(nóng)林業(yè)中。但是,早期的氮素診斷多以化學(xué)分析法為主,既耗費大量人力物力又無法實現(xiàn)實時診斷。近年來,無損檢測技術(shù)應(yīng)運而生,其中的數(shù)字圖像處理技術(shù)更是以其高效便捷性為植物氮素診斷提供了一種新的思路。例如,NIU 等[4]通過獲取甜瓜數(shù)字圖像及測量甜瓜氮素含量,訓(xùn)練并構(gòu)建了基于人工神經(jīng)網(wǎng)絡(luò)的甜瓜氮含量預(yù)測模型,通過與傳統(tǒng)氮素診斷技術(shù)進行對比,指出了數(shù)字圖像處理技術(shù)在甜瓜氮素含量預(yù)測中的高效性。袁媛等[5]運用數(shù)字圖像處理技術(shù),分析了黃瓜葉片圖像特征與葉綠素值的相關(guān)性,并以此建立了黃瓜氮素預(yù)測模型,結(jié)果表明紅光標(biāo)準值、深綠色指數(shù)以及色調(diào)與葉綠素值有明顯的線性關(guān)系,證明了數(shù)字圖像處理技術(shù)在黃瓜氮素診斷中的可行性。
WATT 等[6]分析了森林高光譜圖像不同波段與森林養(yǎng)分含量的關(guān)系,結(jié)果表明高光譜影像不同波段的灰度信息可用于構(gòu)建森林氮、磷含量的精準預(yù)測模型。陳珠琳等[7]提取了檀香可見光圖像的9種顏色特征并對傳統(tǒng)BP 神經(jīng)網(wǎng)絡(luò)進行改進,提出了一種基于檀香葉片全氮含量預(yù)測模型,為檀香的無損營養(yǎng)診斷提供了理論依據(jù)。TANG 等[8]將橡膠葉片多光譜圖像各波段的均值作為自變量,構(gòu)建了一種橡膠葉片氮含量檢測模型,為快速檢測橡膠葉片的氮含量提供了技術(shù)支撐。張沛健等[9]利用數(shù)碼相機獲取了5 種紅樹林植物的可見光圖像,通過提取圖像的RGB 分量計算了相關(guān)組合值,建立了葉片顏色參數(shù)與葉綠素含量的回歸模型,為紅樹林植物生長及診斷營養(yǎng)狀況提供了一定的技術(shù)支撐。
當(dāng)前研究的重點在于提取圖像參數(shù)信息,對于圖像的分割過程少有探討,且多數(shù)研究選用顏色特征作為自變量,未能將形狀特征考慮在內(nèi)。因此,本研究通過改進K-Means 聚類分割算法對獲取的幼齡沉香可見光圖像進行了分割,在此基礎(chǔ)上提取了圖像的顏色特征及形狀特征,分別以顏色特征、形狀特征、顏色特征+形狀特征為自變量,建立了3 種幼齡沉香全氮含量預(yù)測模型,旨在為林木的氮素診斷提供一種更為高效、應(yīng)用性強的技術(shù)方法,為精準林業(yè)提供一定的參考。
1 材料與方法
1.1 試驗地概況
試驗地位于海南省文昌市(19°20′~20°10′N,108°21′~111°03′E),平均海拔42.55 m,年平均氣溫23.90 ℃,屬熱帶北緣沿海平原地帶。文昌市干濕季分明,常年降水量1721.60 mm,年平均濕度達到了87%。試驗地主要土壤為濱海沙瓤土,pH 為5.0~6.6,適宜沉香生長[10-11]。
1.2 試驗設(shè)計與數(shù)據(jù)獲取
試驗所用沉香采用種子育苗,待生長2 年后,選擇生長正常、長勢均勻且無病蟲害的45 株樹苗,移入高34 cm、半徑17 cm 的花盆中,每盆裝入5 kg 風(fēng)干濱海沙瓤土,其中有機質(zhì)含量為50 g。為了更為準確地構(gòu)建幼齡沉香全氮含量模型,使模型更好地應(yīng)用于實際,試驗中將45 株樹苗平均分為3 組,每株施氮水平分別設(shè)置為0、20、40 g,以模擬不同氮含量下的沉香生長。待3周緩苗期后,將沉香移入1 m×1 m×2 m 的暗箱中,在暗箱上部4 個邊緣分別安裝LED 燈以消除光照影響,在暗箱的底部放置校正板和幼齡沉香植株,采用佳能1300D 相機按照東、南、西、北4 個方位對所有幼苗進行拍攝,共計獲得180 張圖像,圖像大小為5184×3456 像素。在拍攝結(jié)束后,按照上、中、下3 個層次對每株沉香采集老葉與新葉共計10 g,使用便捷式養(yǎng)分測定儀進行全氮含量測定。
1.3 研究技術(shù)流程
本研究的技術(shù)流程包括圖像采集、圖像分割、特征提取、特征優(yōu)化、模型構(gòu)建、模型驗證(圖1)。
1.4 圖像分割與特征提取
本研究圖像分割與特征提取工作均在配置Opencv3.1.0 的Visual Studio 2013 軟件中進行,在獲取幼齡沉香可見光圖像后,選用每株幼苗前、后、左、右4 個方位圖像各1 張,運用改進的K-Means 聚類分割算法對圖像進行分割處理,結(jié)束后提取前景圖像的顏色特征與形狀特征。其中,K-Means 聚類分割算法是一種基于距離的硬分類方法,該算法通過設(shè)置聚類個數(shù)K,在初始時生成K 個聚類中心,將數(shù)據(jù)劃分為K 個聚類集合,然后通過不斷變換聚類中心以達到最佳的分類效果[12-14]。雖然K-Means 聚類分割算法簡單快捷,但此算法中的K 值是事先給定的,這導(dǎo)致K 值經(jīng)常難以估計,使分類結(jié)果具有較大的不確定性[15]。因此,本研究提出一種改善K 值選取方式的方法,具體方式如下:(1)若初步判斷圖像顏色種類為K-1,代入K 值運行K-Means 算法得到K 個聚類。(2)若存在邊界距離小于設(shè)定誤差的聚類,將其歸為一類,若不存在,則此時K 值最佳。(3)若步驟(2)中沒有獲得最佳K 值,則繼續(xù)對樣本集運行K-Means 算法,得到新的K 個聚類。(4)重復(fù)步驟(2)與步驟(3),直到數(shù)據(jù)獲得最佳劃分。
確定K 值后,具體分割流程如下:(1)使用imread 函數(shù)讀取幼齡沉香RGB 圖像。(2)使用GaussianBlur 函數(shù)進行3×3 高斯濾波處理。(3)輸入K 值并使用Scalar 函數(shù)設(shè)置預(yù)定義分割顏色。(4)設(shè)置前景像素灰度值設(shè)置為0,背景像素灰度值為1。(5)與原圖進行掩膜操作。分割結(jié)束后,為了驗證K-Means 聚類分割算法的精度,隨機選取4 張幼齡沉香可見光圖像, 運用Photoshop CC2014 中的磁性套索工具進行手工分割,分割時將圖像放大至像素級,逐像素點選取前景邊緣,以保證手工分割精度達到99%以上,進而以此結(jié)果為基準計算K-Means 算法分割得到的圖像像素誤差,計算方法如下:
式中,Pr為像素誤差;Pi 為K-Means 的像素值;Pj 為手工分割的像素值[16]。
本研究選用了9 個顏色特征及4 個形狀特征(表1)。其中,顏色特征分別為RGB 顏色空間的紅色通道(R)、綠色通道(G)、藍色通道(B)的均值,HIS 顏色空間的色調(diào)(H)、飽和度(S)、明度(I)的均值,Lab 顏色空間的亮度(L)、紅到綠通道(a)、黃到藍通道(b)的均值;形狀特征分別為前景圖像的面積(contour area, CA),前景圖像最小外接矩形的面積(rectangular area,RA)、周長(rectangular circumference, RC)以及矩形度(rectangular degree, RD)。
提取圖像的顏色特征時,使用split 函數(shù)分離各圖像的R、G、B 三通道,使用meanStdDev 函數(shù)計算圖像R、G、B 三分量的均值并進行歸一化處理。根據(jù)圖像顏色空間的轉(zhuǎn)換公式,分別計算圖像的H、S、I、L、a、b 分量的均值,計算方法參見式(2)~(10)[7]。提取圖像形狀特征時,使用findContours 函數(shù)尋找CA,通過minAreaRect函數(shù)以及arcLength 函數(shù)分別計算RA 與RC,同時根據(jù)式(11)計算RD。
1.5 變量篩選與模型構(gòu)建
為了對比不同自變量對模型的影響,將自變量分為顏色特征、形狀特征、顏色特征+形狀特征三大類。同時,為了消除自變量中各圖像特征間的共線性,使用主成分分析法對3 類自變量分別進行降維處理。提取主成分后,繪制散點圖,根據(jù)散點圖特征構(gòu)建多項式方程,主成分分析與模型構(gòu)建過程均在MATLAB 2018a 軟件中完成。模型構(gòu)建完成后,計算模型的平均殘差MR、均方根誤差RMSE 以及決定系數(shù)R2以驗證模型的精度,計算方法參見式(12)~(14)[17]。
2 結(jié)果與分析
2.1 圖像分割與特征提取結(jié)果
根據(jù)算法改進方式確定聚類分割的初始中心點個數(shù)K=4,在獲取二值圖像后與原圖進行掩膜操作,得到最終的圖像分割結(jié)果(圖2)。同時,根據(jù)特征提取的相關(guān)方法,計算分割后圖像R、G、B 三通道的均值。為了驗證分割的精度,隨機選取4 組幼齡沉香可見光圖像,分別記為①~①,利用Photoshop CC2014 軟件中的磁性套索工具手工分割幼齡沉香可見光圖像,并以此為基準計算分割圖像的總體像素誤差以及R、G、B 三通道的像素誤差。如表2 所示,各圖像的像素誤差均小于5%,且各通道像素誤差均小于3%,說明改進后的K-Means 分割算法的分割精度較好,可以實現(xiàn)對幼齡沉香可見光圖像的有效分割。
根據(jù)圖像通道分離方法,提取圖像的R、G、B 三通道圖像,同時根據(jù)圖像顏色空間轉(zhuǎn)換公式,將圖像分別轉(zhuǎn)換到HIS、Lab 顏色空間下,得到H、S、I、L、a、b 各通道圖像。以K1 為例,各通道圖像如圖3 所示。計算圖像各通道均值后,共計得到9 種顏色特征。根據(jù)形狀特征提取方法,獲得沉香輪廓所包含的CA、RA 及RC,同時根據(jù)式(11)計算得到RD,共計得到4 種形狀特征。
2.2 主成分分析
在獲取各圖像特征后,計算幼齡沉香東、南、西、北4 個方位圖像的顏色特征及形狀特征的均值,在此基礎(chǔ)對顏色特征、形狀特征、顏色特征+形狀特征3 類自變量分別進行主成分分析,提取特征值大于1 的主成分以消除圖像特征間的共線性。其中,顏色特征共提取2 個主成分,分別記為C1、C2,主成分綜合得分記為C(color);形狀特征共提取1 個主成分,記為S(shape);顏色特征+形狀特征共提取4 個主成分,分別記為CS1、CS2、CS3、CS4,主成分綜合得分記為CS(color+shape),提取結(jié)果及3 類自變量的主成分得分如表3 所示。由表3 可知,提取的3 類自變量的主成分累計貢獻率均達到85%以上,說明提取的主成分能夠有效表達3 類自變量,通過主成分分析實現(xiàn)了在損失較少信息情況下的數(shù)據(jù)降維。同時,根據(jù)主成分分析的結(jié)果計算每種圖像特征在3 類主成分的權(quán)重,如式(15)~(17)所示。在建模后可以此為基準將圖像特征直接代入模型中,進而有效縮短建模時間,提升建模效率。
2.3 模型構(gòu)建與檢驗結(jié)果
使用便捷式養(yǎng)分測定儀測定45 株沉香的全氮含量,建立沉香圖像特征主成分與全氮含量的對應(yīng)關(guān)系,在此基礎(chǔ)上繪制全水平下的幼齡沉香氮含量散點圖,結(jié)果如圖4 所示。分別以顏色特征、形狀特征、顏色特征+形狀特征的主成分為自變量,幼齡沉香含氮量Y 為因變量,建立多項式方程。將每種圖像特征在3 類主成分的權(quán)重代入3 類多項式方程,得到最終的3 種幼齡沉香全氮含量預(yù)測模型,建模結(jié)果如表4 所示。
由表4 可知,3 種模型的R2 均在0.75 以上,說明3 種模型的擬合效果均表現(xiàn)良好。其中,模型②與模型①的MR、RMSE 與R2 基本一致,說明形狀特征同顏色特征一致,也能夠較好地反映出幼齡沉香的含氮量。雖然模型②的精度略低于模型①的精度,但模型①的自變量為9 種顏色特征的主成分,而模型②的自變量僅為4 種形狀特征的主成分,相對而言使用形狀特征構(gòu)建的模型參數(shù)更少,建模效率更高。在3 類模型中,模型③的精度最高,這是因為模型③自變量為顏色特征與形狀特征共同的主成分,包含的圖像特征數(shù)量最多,因此擬合的模型的可解釋性最高、效果最好。由此可知,基于雙特征構(gòu)建的氮含量模型相較于單一特征氮含量模型擬合優(yōu)度和預(yù)測精度更高。
3 討論
運用數(shù)字圖像處理技術(shù)構(gòu)建預(yù)測模型可以實現(xiàn)對植物營養(yǎng)元素含量的快速、高效測定[18-19]。其中,圖像分割的精度決定了提取的圖像特征的準確程度,影響預(yù)測模型的最終擬合優(yōu)度。當(dāng)前研究重點在于尋找反映目標(biāo)植物營養(yǎng)特征的圖像參數(shù),對于圖像的分割過程少有探討。因此,本研究通過比較邊界距離與設(shè)定誤差的大小確定最佳K 值,以此實現(xiàn)了對K-Means 聚類分割算法的改進,在此基礎(chǔ)上對獲取的幼齡沉香可見光圖像進行了分割,同時參照手工分割的結(jié)果對算法的分割效果進行了檢驗,結(jié)果表明在改善K 值的選取方式后,K-Means 聚類分割算法的不確定性降低,分割效率增強,同時分割精度可以達到95%以上,可以實現(xiàn)對幼齡沉香可見光圖像的精準分割。
目前已有多項研究通過提取數(shù)字圖像的顏色特征構(gòu)建了植物氮含量的精準預(yù)測模型。例如,王遠等[20]提出了一種基于數(shù)字圖像顏色特征的水稻氮含量線性預(yù)測模型,通過對模型進行驗證證明了圖像特征與水稻葉綠素含量具有較高的相關(guān)性。王玉娜等[21]利用無人機獲取了冬小麥的高光譜圖像,通過分析圖像光譜參數(shù),利用多元回歸方程、最小二乘法以及隨機森林分別構(gòu)建了冬小麥氮素指數(shù)模型,證明了任意兩波段的光譜指數(shù)與氮素指數(shù)的高度相關(guān)性。張培松等[22]通過提取橡膠樹葉片圖像的R、G、B 通道,計算了3個波段的組合指數(shù)特征,在此基礎(chǔ)上構(gòu)建了9 種橡膠樹葉片氮含量的回歸模型。本研究構(gòu)建了基于圖像顏色特征的全氮含量模型,結(jié)果表明所構(gòu)建的模型精度良好,可以實現(xiàn)對幼齡沉香全氮含量的合理預(yù)測。不同氮含量下的樹高、冠幅會存在明顯差異,通過林木圖像的形態(tài)特征可以反映這種不同[9, 23]。但是,當(dāng)前研究多以顏色特征作為自變量,未能將形狀特征考慮在內(nèi)。因此,本研究構(gòu)建了基于圖像形態(tài)特征的幼齡沉香的全氮含量模型,結(jié)果表明該模型與基于圖像顏色特征的全氮含量模型精度基本一致,并且使用形狀特征構(gòu)建的模型參數(shù)更少,建模效率更高。為了驗證圖像特征個數(shù)對建模結(jié)果的影響,本研究構(gòu)建了以圖像顏色特征+形狀特征為自變量的雙特征全氮含量預(yù)測模型,結(jié)果表明該模型較單特征全氮含量模型的擬合優(yōu)度和預(yù)測精度更高。因此,在實際應(yīng)用中應(yīng)根據(jù)具體情況合理選擇圖像特征構(gòu)建模型,從而更好地實現(xiàn)對幼齡林木全氮含量的無損估測。
本研究對幼齡沉香的分割、特征提取以及全氮含量預(yù)測進行了深入探討,可以進一步促進對沉香等珍貴樹種的保護,為精準林業(yè)提供一定的參考。但研究未構(gòu)建不同梯度下的氮含量預(yù)測模型,因此下一步研究將會以此為重點。同時,為了減少誤差,在后續(xù)研究中會將微量元素考慮在內(nèi),深入探究微量元素與幼齡沉香圖像特征的對應(yīng)關(guān)系。