李修華,項志偉,3,郭新宇,王傳宇
(1.廣西大學(xué)電氣工程學(xué)院,廣西南寧 530004;2.北京市農(nóng)林科學(xué)院信息技術(shù)研究中心,北京 100097;3.數(shù)字植物北京市重點實驗室,北京 100097)
生菜的營養(yǎng)價值很高,富含維生素、類胡蘿卜素、抗氧化劑[1]、抗致癌物質(zhì),被譽為“抗癌蔬菜”[2-3]。隨著人們對生菜基因型研究的深入,與之對應(yīng)的表型指標(biāo)也越來越受到關(guān)注。生菜葉片是生物量積累的主要器官,并且在其營養(yǎng)生長過程中可多次收獲。生菜葉片的快速生長,有利于保證葉片形狀、顏色和味道的一致[4]。因此,研究者可以利用生菜葉片或冠層的顏色、紋理、形態(tài)等表型特征指標(biāo)對其進行無損檢測。
目前,獲取植物表型的方式主要有2種:一是人工測量法,其缺點是繁瑣、勞動強度大、具有破壞性,二是采用自動化表型設(shè)備,借助機械輔助和多種傳感器實現(xiàn)植物表型的高通量測量。但是商業(yè)化表型設(shè)備往往價格昂貴,操作需要一定的技術(shù)水平,難以大范圍推廣應(yīng)用。基于圖像處理分析進行表型信息的提取具有提取速度快、誤差小、無需接觸等優(yōu)點,并且擁有與之配套的大量開源硬件與軟件,因此近年來越發(fā)受到廣大植物表型研究者關(guān)注,已有的應(yīng)用有通過圖像分析獲取果實形狀[5]、大小、葉片面積[6-7]等。趙杰文等通過對生菜近紅外圖像進行處理來檢測作物的葉片含水率[8];毛罕平等分別提取番茄葉片圖像、雜草圖像特征,以期為后續(xù)研究提供基礎(chǔ)[9-11];孫俊等基于混合模糊類間分離聚類算法(MFICSC),實現(xiàn)了生菜圖像的目標(biāo)聚類分割,為生菜生理信息的無損檢測提供了參考[12];劉林等在提取生菜圖像的表型特征參數(shù)后提出了基于表型的鮮質(zhì)量估算方法[13];黃林生等實現(xiàn)了生菜多光譜圖像的精準(zhǔn)前景分割,使分割像素準(zhǔn)確率達到了99.19%[14];Du等提出了基于圖像的多品種萵苣高通量檢測與表型評價方法,均為后續(xù)研究作物精準(zhǔn)表型的圖像分析提供了參考[15]。蘆兵等在高光譜技術(shù)的基礎(chǔ)上融合圖像特征提取技術(shù),精確地診斷了病害類型及病害時期[16]??追彼壤蒙藞D像所提取的特征參數(shù)進行三維可視化建模,通過生菜的可視化,將生菜的成長狀態(tài)直觀地體現(xiàn)出來[17]。
本研究以溫室大棚內(nèi)的59種生菜品種為研究對象,搭建簡易圖像獲取裝置以獲取生菜植株的俯視圖像,隨后對圖像進行預(yù)處理和形狀分析,去除背景、噪點像素,準(zhǔn)確分割獲得生菜植株的輪廓,進一步提取其他顏色、紋理、形狀等39個表型指標(biāo)。此外,按照表型指標(biāo)對生菜品種進行分類,分析不同類型生菜的表型指標(biāo)差異,以期為大規(guī)模的生菜種質(zhì)資源鑒定和商業(yè)化育種提供參考。
試驗地點設(shè)在北京市農(nóng)林科學(xué)院聯(lián)合大溫室。生菜采用盆栽種植,共有271個品種,每個品種有3株,按列擺放,正常水肥管理,具體種植場景如圖 1-A 所示。溫室配備自動灌溉系統(tǒng),可根據(jù)每株植物的水分狀況進行供水,以保證植物的正常生長。試驗于2021年3月開始,在6.8 cm×6.8 cm的方形盆中播種生菜種子,種子播種深度為9.5 cm,土沙按1 ∶1的體積比混合,將苗木在溫室放置30 d后移栽到直徑為32 cm、高度為34 cm的花盆內(nèi)。
于成熟期選取60個生菜品種(180株),用數(shù)碼相機搭配思瑞R2004三腳架進行垂直拍攝,同時在生菜冠層同一平面的盆邊放置彩色比色板進行后期校準(zhǔn),拍攝時間定為4月22日(天氣狀況為晴天)的16:00后,此時陽光不強烈,圖像采集裝置如圖1-B所示。本研究采用佳能EOS77D相機來拍攝生菜葉片的俯視圖像,圖像分辨率設(shè)為2 400萬像素(5 328×4 000),相機設(shè)置為程序自動曝光模式,圖像以JPG格式存儲,比色卡型號為X-RITE愛色麗Color Checker Classic孟塞爾國際24色標(biāo)準(zhǔn)經(jīng)典色卡。其中第4號生菜品種的其中2株長勢不佳,體積過小,未發(fā)育完整,為不影響數(shù)據(jù)質(zhì)量故剔除,總計59個生菜品種(177株)。
相機距地面1.5 m,采集圖像時,將三腳架搭載相機鏡頭正面放置于生菜盆栽正上方,并使鏡頭與地面保持垂直,由于各品種生菜植株的高度不盡相同,調(diào)整相機的垂直高度來改變物距,直到生菜葉片與比色板兩者無遮擋地完整出現(xiàn)在相機鏡頭視野中。最后調(diào)節(jié)攝像頭焦距,直到顯示出清晰的生菜葉片俯視圖像,詳見圖1-B。
經(jīng)過數(shù)據(jù)檢查,所有圖像均符合要求(完整無缺失、遮擋),由此形成原始數(shù)據(jù)集。為了提高模型的訓(xùn)練效率,將圖像尺寸從5 328×4 000像素縮小到959×720像素,即為原來的18%。
基于圖像分析的生菜葉片高通量獲取的主要步驟如下:(1)邊緣提?。?2)圖像分割;(3)植株特征提取;(4)聚類器的設(shè)計和分類。其總體處理流程如圖2所示。使用OpenCV機器視覺庫的圖像處理功能對采集到的多張生菜原始圖像進行圖像預(yù)處理和特征提取,得到圖像樣本的特征參數(shù)后,輸入到聚類器中,形成成熟的聚類結(jié)果。
1.3.1 圖像預(yù)處理 植株圖像預(yù)處理的主要流程為圖像二值化(邊緣提取)、圖像分割(去噪、植株輪廓分離)和顏色還原。在本研究中,生菜圖像預(yù)處理的主要流程如圖3所示。
首先,為了增大目標(biāo)植株和背景的分離性,獲得更好的灰度化目標(biāo)圖像。本研究采用超綠變換(2g-r-b)方法[18]進行圖像灰度化處理,其公式為:
G=2g-r-b。
(1)
式中:G為灰度值;r、g、b分別是RGB圖像中的紅、綠、藍3個分量的值。
如圖3-B所示,經(jīng)過超綠變換,目標(biāo)和背景得以分離。超綠變換后,在目標(biāo)周圍仍有少量噪點及比色板上殘留的色塊,因而接下來再進行圖像的分割處理。本研究的圖像分割方法如下:觀察圖3-B可知,在所有輪廓中生菜輪廓的面積、周長均最大,通過遍歷所有輪廓的面積(或周長)選取其中最大的輪廓,將該輪廓畫在新畫布上(或者將其他輪廓像素全部取反變成黑色)即得到完整的生菜俯視圖像。圖像分割結(jié)果見圖3-C,從背景中完整、準(zhǔn)確地提取生菜圖像。并將原圖生菜輪廓區(qū)域的顏色還原至分割的二值圖上,以實現(xiàn)顏色的還原。
1.3.2 特征提取 圖像分割算法結(jié)果見圖4。根據(jù)分割好的輪廓圖像添加凸包、最小外包矩形和顏色來計算生菜葉片俯視圖像的相關(guān)特征參數(shù),共提取了形狀、顏色、紋理等不同特征的39個參數(shù),特征類型和維度如表1所示。
表1 生菜葉片圖像像素的分類特征
(1)顏色特征。顏色特征是彩色圖像最重要的內(nèi)容之一,無需大量計算,只需將圖像中的像素點簡單轉(zhuǎn)換成數(shù)字即可,是圖像處理中應(yīng)用最廣泛的視覺特征。顏色特征提取方法主要有顏色直方圖、顏色矩、顏色集、顏色聚合向量、顏色相關(guān)圖等。顏色空間主要有RGB(紅、綠、藍)、CMY、HSV(色調(diào)、飽和度、亮度)、HSI、L·a·b等,本研究提取RGB、HSV的6種分量并進行顏色矩的計算。
①顏色矩是常用的顏色表達方式,其顯著特點是計算方法簡單,對于顏色的表征全面有效。常用的顏色矩有一階矩(均值)、二階矩(方差)和三階矩(斜度)等。計算圖像的顏色矩時,無需對圖像進行量化處理。圖像中3個低階矩的計算公式如下:
一階矩:
(2)
二階矩:
(3)
三階矩:
(4)
式中:fij表示圖像中第i個顏色分量的第j個像素值;i∈[1,2,3],表示單顏色分量的總像素點量;N表示圖像中的像素個數(shù)。在本研究中,提取的顏色特征基于RGB、HSV 6個顏色分量的3個低階矩,共有18個顏色特征。
②圖像顏色指數(shù)的計算。在生菜葉片圖像中,其輪廓在RGB 3個顏色分量上具有不同的反射率,因此其取值分布具有不同的特點,對圖像中的像素點進行3個通道的組合運算,可以實現(xiàn)增強圖像對比度的目的,而且在一定程度上也是圖像中特征信息的表達。本研究以常見的顏色指數(shù)作為生菜圖像的特征表征,計算7種顏色指數(shù),具體包括超綠指數(shù)(ExG)、超紅指數(shù)(ExR)、超綠超紅差分指數(shù)(ExGR)、歸一化綠紅差異指數(shù)(NGRDI)、綠葉植被指數(shù)(GLI)、紅綠比值指數(shù)(RGRI)和紅綠藍植被指數(shù)(RGBVI)。各個顏色指數(shù)的計算公式如下:
ExG=2G-R-B;
(5)
ExR=1.3R-G;
(6)
ExGR=ExG-ExR;
(7)
(8)
(9)
(10)
(11)
式中:g、b、r分別為綠、藍、紅色波段像素值;G、B、R則為歸一化處理后綠、藍、紅色波段像素值。
(2)形狀特征。形狀特征是葉片的主要特征[19],主要提取以下特征:
通過彩色比色卡中1個色塊大小為4 cm×4 cm、周長為16 cm、面積為16 cm2進行比例換算,得到長度、面積特征參數(shù)的真實值,換算公式如下:
(12)
(13)
用cv2.arcLength()、cv2.contourArea()函數(shù)分別獲取生菜輪廓的周長(L)、面積(S),用cv2.minAreaRect()函數(shù)擬合生菜輪廓的最小外接矩形(長、寬、周長和面積),用cv2.convexHull()函數(shù)獲取生菜輪廓擬合凸包(周長、面積)。
根據(jù)圖像分割出的生菜輪廓計算該區(qū)域的幾何參數(shù),包括生菜輪廓面積(S輪廓)、生菜輪廓周長(L輪廓)、輪廓最小外包矩形長(a外包矩形)和寬(b外包矩形)、凸包面積(S凸包)、凸包周長(L凸包),并進一步計算長寬比、周長面積比、面積凹凸比等特征值。
①長寬比。長寬比是輪廓外接矩形長與寬的比值,計算公式:
(14)
②周長面積比。周長面積比是輪廓區(qū)域周長與輪廓區(qū)域面積的比值,計算公式:
(15)
③面積凹凸比。面積凹凸比是輪廓面積與輪廓凸包面積的比值,計算公式:
(16)
(3)紋理特征。紋理特征是對區(qū)域內(nèi)部灰度級的特征進行量化的一個值,具有較高的魯棒性。本研究根據(jù)生菜圖像紋理的特點,共提取了5種紋理特征,其中分形維數(shù)是基于分形的紋理特征,能量、熵、對比度、逆差矩是基于灰度共生矩陣的紋理特征。
①分形維數(shù)。分形維數(shù)具有旋轉(zhuǎn)、多尺度、多分辨率變化的不變性,常用來度量圖像紋理的復(fù)雜程度。在感興趣的對象上疊加大小為δk的框,并計算覆蓋對象所需的框數(shù),記為Nδk。重復(fù)這個過程,減少δk,直到δk接近像素大小。用如下公式計算分形維數(shù):
(17)
式中:δk是小正方形的邊長;是用此小正方形覆蓋被測對象周長所得的數(shù)量。
②灰度共生矩陣(GLCM)?;叶裙采仃嘯20]是通過描述空間灰度來統(tǒng)計紋理分析的方法。在本研究中,提取能量(ASM)、逆差矩(IDM)、熵(ENT)和對比度(CON)共4個統(tǒng)計紋理特征量,具體描述如下:
能量:圖像的均勻程度可以通過能量進行描述,圖像的均勻程度與能量成正比,圖像越均勻,其能量越大;反之,其能量越小。
逆差矩:逆差矩反映圖像紋理的局部變化,局部圖像紋理的不同區(qū)域間變化越緩慢,數(shù)值越大,反之較小。
熵:圖像的熵用來表征灰度圖像表達的信息量,能夠描述圖像中脈絡(luò)紋理的復(fù)雜度。如果圖像中的紋理越復(fù)雜,熵就越大,即熵與復(fù)雜度成正比。
對比度:圖像的對比度是對圖像的相關(guān)性或局部變化的描述,反映圖像的清晰程度。若GLCM中距對角線越遠的元素值越大,則紋理的溝紋越深,對比度越大,圖像越清晰;反之則對比度越小,視覺效果越差。
本研究在2個顏色空間下的6個顏色分量中提取了3種顏色矩,隨后基于RGB顏色空間顏色分量的7個常見顏色指數(shù)估計25個顏色特征;提取了葉片區(qū)域凸包、最小外包矩陣等共計9個形狀特征;利用灰度共生矩陣提取了能量、逆差矩、熵、對比度以及分形維數(shù),共計5個紋理特征。共計提取了39個表型指標(biāo)。
1.3.3 基于凝聚層次聚類的生菜特征分類 作為無監(jiān)督學(xué)習(xí)的1種方法,聚類在數(shù)據(jù)分類領(lǐng)域有著不可或缺的地位[21]。在實際應(yīng)用中,大量數(shù)據(jù)或信息需要進行分類才能進一步挖掘其潛在價值,而作為常用的聚類算法中的一種,層次聚類算法可在最少的假設(shè)下實現(xiàn)對數(shù)據(jù)的聚類[22]。
本研究采用無監(jiān)督聚類算法中的凝聚層次對生菜特征進行分類。首先將生菜圖像特征參數(shù)轉(zhuǎn)換為矩陣,接著采用自底向上的凝聚層次聚類分析方法,將60條品種數(shù)據(jù)經(jīng)過不斷鏈接,最終凝聚成1簇。
1.3.4 開發(fā)環(huán)境及配置 本研究通過數(shù)碼相機等圖像采集設(shè)備采集了60種溫室生菜植株的圖像,每種生菜植株均得到無明顯斑點且葉片大小、紋理不等的3幅完整的植株圖像。本研究中圖像預(yù)處理、特征提取及統(tǒng)計分析均是在Windows 10操作系統(tǒng)下進行的,使用Pycharm中的Python-OpenCV 3.4.5函數(shù)庫,語言環(huán)境為anaconda 3、Python 3.6。在硬件方面,使用Intel? CoreTMi7-10700 CPU@2.90 GHz處理器搭配NVIDIA GeForce GT730顯卡。
后續(xù)統(tǒng)計分析使用開源統(tǒng)計軟件包pandas(1.1.5)、sklearn,線性回歸使用linear_model函數(shù),層次聚類使用hierarchy函數(shù),主成分分析使用decomposition函數(shù),用seaborn、matplotlib包實現(xiàn)數(shù)據(jù)的可視化。
在圖像預(yù)處理獲取了59個生菜品種(177個生菜材料)的各39個表型指標(biāo)參數(shù)后,為了數(shù)據(jù)可描述,對其進行進一步的分析,計算描述性統(tǒng)計學(xué)的5個重要指標(biāo),詳見表2。
為了驗證系統(tǒng)的測量精度,選擇人工測量相對容易開展的生菜鮮質(zhì)量(g)作為驗證指標(biāo),用人工測量數(shù)據(jù)與生菜表型圖像提取的投影面積(cm2)數(shù)據(jù)建立回歸性分析方程(圖5),其中決定系數(shù)(r2)為0.91,證明本研究方法有較高精度。
利用凝聚層次聚類的沃德方差最小化算法對177株生菜圖像樣本進行聚類研究。首先將提取的39個特征變量添加到系統(tǒng)聚類分析的變量列表中,以品種序號作為個體標(biāo)注(縱坐標(biāo)),樣本距離(橫坐標(biāo))采用平方歐式距離,得到表型特征的層次聚類分析樹狀圖(圖6)。
如圖6所示,在樣本距離為627~1 186處可將數(shù)據(jù)分為3類。選取height=1 000,當(dāng)聚類中心為3個時,對聚類結(jié)果進行主成分分析,排名第1、第2的主成分貢獻率分別為47.3%、20.3%。選擇3個聚類中心是為了方便展示各個表型指標(biāo)的分類效果,詳見圖7。
表3為按圖6表型指標(biāo)進行聚類得到的分類結(jié)果,每個類別包含的品種號按品種編號從低到高排列(剔除品種4)。
為更直觀地表達不同類別生菜表型指標(biāo)的區(qū)別,繪制了各類別均值分布情況的聚類剖面圖。由圖8可以看出,第1類生菜中約有1/2的表型指標(biāo)大于總體均值,形狀特征(除外接矩形的長寬比)、紋理特征(除逆差矩)均小于總體均值,大部分顏色指標(biāo)大于總體指標(biāo)的均值;第2類生菜中,形狀、顏色和紋理指標(biāo)均在總體均值附近;第3類生菜正好與第1類的情況相反,同樣的約有1/2表型指標(biāo)大于總體均值,而第1類中這些指標(biāo)是低于均值的。
從圖8中可以看出,第1類20個品種的顏色空間中的RGB和V的1階矩和2階矩、S的2階矩和3階矩、H的3種顏色矩和紅綠比值指數(shù)(RGRI)、超紅指數(shù)(ExR)、紅綠藍植被指數(shù)(RGBVI)高于其他2個種類,形狀特征中的投影面積周長比與紋理特征中的逆差矩及能量同樣也高于其他2個種類。第2類的特征指標(biāo)正好處于均值附近,上述表型指標(biāo)均低于第1類而高于第3類。第3類特征指標(biāo)則與第1類相反,除大部分顏色特征外,形狀特征中的凸包面積和投影面積比、投影面積周長比、投影面積、投影周長、外包矩陣的長和寬與紋理特征中的分形維數(shù)、熵和對比度比第1、2類中的相應(yīng)值要大,其他指標(biāo)則低于第1、2類。
通過3類生菜圖片并結(jié)合上述聚類分析結(jié)果,得出如下結(jié)論:(1)第1類生菜的投影面積較小,葉面展開幅度不大且卷曲少,圓形度(凸包面積與投影面積比)大于第2、3類,與盆口相切,顏色則是最為明亮、均勻的翠綠色,葉片邊緣的紋理非常均勻,變化小。(2)第2類生菜的投影面積則處于中間,俯視面積比第1類稍大,小于第3類,葉面展開幅度、卷曲度中等,顏色較深,為翠綠色,葉片邊緣紋理較復(fù)雜。(3)第3類生菜的投影面積、外形最大,葉面展開幅度大且葉片較為卷曲,圓形度偏低,此類形狀不均一,顏色略淺,分布較為對稱,為淺綠色,邊緣紋理脈絡(luò)最為復(fù)雜,且溝紋較深,邊緣顯示清晰。3類生菜圖像代表品種見圖9。
表2 生菜表型指標(biāo)數(shù)值分布的統(tǒng)計學(xué)描述
上述分類方法使用全部的39個特征,在不同表型特征組合中可以達到不同的研究目的,例如生菜的大小形狀按形狀特征分類、生菜的生理年齡按顏色特征分類、生菜的紋理脈絡(luò)按紋理特征分類等。
表3 59種生菜品種按表型指標(biāo)的分類
本研究以現(xiàn)有生菜葉片表型圖像解析方法人工效率低、大型表型設(shè)備的成本高等不足為切入點,以手持攝像機搭配比色板獲取60個生菜品種的葉片俯視圖,并應(yīng)用圖像處理技術(shù)對其進行邊緣提取和圖像分割,單獨分割出生菜葉片輪廓;接著以比色板為標(biāo)準(zhǔn),將提取的形狀特征參數(shù)按比例換算成真實值,同時也獲得其顏色、紋理的特征參數(shù);最后將得到的各項特征參數(shù)進行聚類分析,證實了本研究的有效性和合理性。主要結(jié)論如下:
(1)葉片圖像獲取裝置簡易高效,單張樣本圖像用時4 s。(2)對60種生菜的RGB圖像進行預(yù)處理,進而提取和分析表型特征參數(shù),可以快速精準(zhǔn)地分析表型參數(shù)的相關(guān)性和可視化。建立生菜葉片鮮質(zhì)量與生菜投影面積的回歸模型,決定系數(shù)為0.91,系統(tǒng)精度滿足測量要求。(3)對60種生菜的39個表型特征進行自下而上的凝聚層次聚類,比較3個分類各個表型指標(biāo)的貢獻大小,并對照生菜圖像解釋分類結(jié)果的合理性和正確性。
后續(xù)可將本研究所述圖像裝置集成到表型無人車中,通過無人車自動移動的高效率來獲取圖像。本系統(tǒng)使用成本低、配置簡單,可以大大提高生菜育種的選擇效率,為生菜育種提供一種方便高效的表型信息提取工具。