翁海勇 李效彬 肖康松 丁若晗 賈良權(quán) 葉大鵬
(1.福建農(nóng)林大學(xué)機電工程學(xué)院, 福州 350002; 2.福建省農(nóng)業(yè)信息感知技術(shù)重點實驗室, 福州 350002;3.湖州師范學(xué)院信息工程學(xué)院, 湖州 313000)
目前,我國柑橘產(chǎn)量約占世界的33%[1],研究柑橘植株對生物/非生物脅迫因子的響應(yīng)能夠指導(dǎo)柑橘種植,對我國柑橘產(chǎn)業(yè)的提質(zhì)增效具有重要意義。在柑橘的整個生育期內(nèi),其生長發(fā)育跨越了亞細胞-細胞-器官-植株等多個尺度[2]。分析不同尺度的性狀特征可從不同角度解析脅迫因子對柑橘表型的影響。因此,對柑橘植株特定組織區(qū)域的精確識別與分割是其表型研究的基礎(chǔ)。在計算機視覺、機器學(xué)習等方法支撐下,研究人員已將圖像分割算法應(yīng)用到植株[3]、花[4]、葉片[5]和果實[6]等不同尺度上的目標部位的精確分割中,為植物表型的高通量分析提供了有效的技術(shù)手段。
在顯微尺度下對植物特定組織或細胞的精準分析,有助于高通量地獲取植物解剖表型信息,助力植物遺傳和生理分析[7]。王詩雅等[8]探究了水淹脅迫對于大豆生理特性和顯微結(jié)構(gòu)的影響,試驗結(jié)果表明隨著水淹脅迫時間延長,通氣組織面積逐漸增大。陳文妃等[9]研究不同程度干旱脅迫對黃瓜幼苗中組織和細胞結(jié)構(gòu)的影響,發(fā)現(xiàn)在干旱脅迫下黃瓜幼苗組織中的根皮層薄壁細胞、莖木質(zhì)部導(dǎo)管、葉片柵欄組織等發(fā)生變形、萎縮、排列紊亂和表皮破裂等情況,且隨著脅迫程度的增加,結(jié)構(gòu)變化程度逐漸加劇。針對柑橘,有學(xué)者研究發(fā)現(xiàn),與健康的葉片相比,感染柑橘黃龍病(Citrus Huanglongbing, HLB)葉片的主葉脈韌皮部篩管分子細胞壁周圍的中間片層出現(xiàn)了異常腫脹且韌皮部壞死[10]。FOLIMONOVA等[11]、黃鏡浩等[12]從顯微尺度分析了缺硼或鎂對柑橘葉片中脈維管的組織結(jié)構(gòu)變化影響,結(jié)果發(fā)現(xiàn),在缺鎂條件下葉片中脈的木質(zhì)部、髓部和韌皮部等組織區(qū)域呈現(xiàn)不同的結(jié)構(gòu)變化,缺硼則出現(xiàn)主脈初生韌皮部及纖維鞘外層薄壁細胞壞死。上述結(jié)果表明,在顯微尺度下能夠?qū)崿F(xiàn)脅迫對植物顯微結(jié)構(gòu)的影響分析。因此,自動、準確地量化植物顯微結(jié)構(gòu),對于探究植物的生理功能至關(guān)重要。
近年來,深度學(xué)習/機器學(xué)習結(jié)合顯微成像技術(shù)在植物顯微結(jié)構(gòu)的目標檢測和語義分割場景中表現(xiàn)出巨大應(yīng)用前景。林少丹等[13]利用顯微成像技術(shù)獲取感染柑橘黃龍病葉片主葉脈的顯微圖像,分析了主葉脈橫切面中的韌皮部、木質(zhì)部和髓部等區(qū)域形狀結(jié)構(gòu)變化情況,提出一種增強特征的無監(jiān)督訓(xùn)練黃龍病檢測算法(Enhanced Huanglongbing unsupervised pre-trainingdetect transformer,E-HLBUP-DETR),實現(xiàn)了顯微尺度下柑橘黃龍病的快速識別。DU等[14]開發(fā)了一種基于深度學(xué)習的維管束表型分析方法,提出利用維管束數(shù)目檢測精度和尺寸檢測精度兩個語義指標來評估和篩選適合維管束的語義分割網(wǎng)絡(luò),實現(xiàn)了莖稈表皮、周皮和維管束等結(jié)構(gòu)的智能解析,為探究玉米莖稈微觀結(jié)構(gòu)與生理功能的關(guān)系提供有力技術(shù)支持。LI等[15]開發(fā)了一款基于深度學(xué)習的自動定位植物葉片氣孔并分割表皮細胞的工具(LeafNet),通過分級策略,使用深度卷積網(wǎng)絡(luò)識別氣孔,然后使用區(qū)域合并方法在掩蔽氣孔的圖像上分割鋪面單元,在量化氣孔和鋪面細胞的不同表型自動化分析時體現(xiàn)其優(yōu)異的性能。LIANG等[16]基于特征金字塔(FPN)、R-CNN等深度學(xué)習模型研發(fā)了一種低成本、高通量葉片氣孔表型無損檢測新技術(shù),為實現(xiàn)作物葉片氣孔表型高通量檢測和遺傳機制解析提供技術(shù)支撐。QIU等[17]設(shè)計了一種基于顯著性的顯微圖像處理分析方法,引入卷積神經(jīng)網(wǎng)絡(luò)提取表型特征。與人工評估結(jié)果的相關(guān)系數(shù)可達0.88,實現(xiàn)了像素級別上白粉病侵染的高通量定量分析。張高亮等[18]構(gòu)建了一個基于改進Mask R-CNN網(wǎng)絡(luò)的水稻莖稈切片顯微圖像分割模型,實現(xiàn)了水稻莖稈切片圖像中大、小維管束區(qū)域的定位、檢測和分割。
綜上所述,本文擬采用圖像實例分割結(jié)合人工智能技術(shù),建立基于數(shù)據(jù)驅(qū)動的主葉脈實例分割方法并構(gòu)建深度網(wǎng)絡(luò)模型,以實現(xiàn)對柑橘主葉脈橫切面中的韌皮部、木質(zhì)部、髓部和皮層細胞4種組織區(qū)域復(fù)雜特征的提取并實現(xiàn)精準識別與分割,為生物/非生物脅迫下柑橘主葉脈解剖表型組學(xué)的圖像分析提供新的技術(shù)手段。
本文以柑橘(臍橙)葉片主葉脈為研究對象。臍橙葉片于2021年11月采集于福建省古田縣三保村。試驗前,先將葉片的主葉脈切成條狀,再用冷凍恒溫切片機(CM 1950 Leica,Leica Microsystems Inc.,Wetzlar,德國)切成厚度為20 μm的橫向切片。從每片葉子的主葉脈中隨機選取3~4片沒有碎裂的橫向切片用于顯微圖像采集。使用LEICA光學(xué)顯微鏡(LEICA-Mi8型,Leica Microsystems Inc.,Wetzlar,德國)采集切片50倍(目鏡10×,物鏡 5×)條件下葉片主葉脈的顯微圖像(分辨率為2 560像素×1 920像素),共300幅,并以TIFF文件格式存儲。用Labelme[19]圖像標注工具添加髓部(Pith, Pi)、木質(zhì)部(Xylem, X)、韌皮部(Phloem, Ph)和皮層細胞(Cortical cell, Co)這4種掩膜標簽,生成json標簽文件,用于生成對應(yīng)目標掩膜信息。使用COCO2017數(shù)據(jù)集格式進行訓(xùn)練,因此仿照COCO數(shù)據(jù)庫自建了一個柑橘主葉脈橫切面各組織區(qū)域分割數(shù)據(jù)集,將原圖像轉(zhuǎn)換為該數(shù)據(jù)集默認的JPG格式,并生成用于分割任務(wù)的COCO格式j(luò)son文件。最后,隨機將生成后的數(shù)據(jù)集按比例8∶1∶1分為訓(xùn)練集、驗證集和測試集[20]。數(shù)據(jù)獲取過程如圖1所示。
圖1 柑橘主葉脈顯微圖像采集流程圖
對柑橘主葉脈各類組織區(qū)域的定位與識別可以通過目標檢測與圖像分割的手段來實現(xiàn)。研究表明,基于實例分割的掩膜區(qū)域卷積神經(jīng)網(wǎng)絡(luò)目標檢測平均精確率(Average precision, AP)高于目標檢測模型[21-22]。此外,目標檢測是檢測圖像中目標的位置框并給出所對應(yīng)的標簽,而本研究需要識別的是4個層層包圍的環(huán)形組織區(qū)域,若只有定位框則不能精確定位到某一組織區(qū)域。語義分割是像素級別的任務(wù),具體通過識別圖像中每個像素點對應(yīng)的物體語義信息,可將主葉脈中待識別的感興趣區(qū)域像素都歸為同一類,但不能具體將髓部、木質(zhì)部、韌皮部和皮層細胞4類組織區(qū)域分開。單獨采用目標檢測或語義分割都不能很好地完成柑橘主葉脈各組織區(qū)域的定位與識別。因此,本研究選取基于實例分割技術(shù)的掩膜區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(Mask region convolutional neural network,Mask R-CNN)框架進行柑橘主葉脈實例分割研究,該框架將目標檢測和語義分割結(jié)合,可對柑橘主葉脈中待測區(qū)域進行定位、分類和分割[23-25]。該模型由特征提取網(wǎng)絡(luò)(Feature extraction network, FEN)、區(qū)域建議網(wǎng)絡(luò)(Regional proposal network, RPN)、2個感興趣區(qū)域?qū)R層(Region of interest Align, RoI-Align)、全連接層(Fully connected layers)、卷積層(Covn-layers)、目標檢測層和分割層組成。由于柑橘主葉脈的分割任務(wù)要求精度更高,所以在對齊特征圖坐標時,檢測和分割不共用同一個RoI-Align,而是引出了另一個RoI-Align分支,用以獲得更高的分割精度,如圖2所示。
圖2 柑橘主葉脈實例分割模型
1.2.1柑橘主葉脈不同部位的特征提取
模型特征提取部分主要是由不同的卷積運算組成,特征提取為后續(xù)定位、分類和分割掩膜的計算提供基礎(chǔ)。在卷積神經(jīng)網(wǎng)絡(luò)中,增加網(wǎng)絡(luò)的深度可以提升網(wǎng)絡(luò)的性能,但有研究表明,如果簡單地增加網(wǎng)絡(luò)深度,會導(dǎo)致梯度爆炸或消失,所以網(wǎng)絡(luò)層數(shù)增加到一定限度,模型的精度不增反降。但隨著ResNet系列網(wǎng)絡(luò)殘差模塊的引入,梯度消失的問題得到了有效解決,模型精度得到了提升[26-28]。因此,本研究為了提升特征提取網(wǎng)絡(luò)的性能,主干網(wǎng)絡(luò)選擇具有殘差結(jié)構(gòu)的ResNet50,其殘差模塊可表示為
xi+1=F(xi,Wi)+xi
(1)
xi+2=xi+1+F(xi+1,Wi+1)=
xi+F(xi,Wi)+F(xi+1,Wi+1)
(2)
(3)
(4)
(5)
式中xi——第i層殘差模塊的輸入
Wi——激活函數(shù)l——損失函數(shù)
F(xi,Wi)——殘差值
xi+1——第i層的輸出(第i+1層的輸入)
xk——任意第k層(k>i)殘差塊的輸入值
假設(shè)輸入數(shù)據(jù)xi,通過捷徑鏈接(Shortcut connection)進行恒等映射Gixi(Gi在通常情況下為常數(shù)1,此處也設(shè)為1),映射后得到的xi進行卷積并通過激活函數(shù)Wi,得到殘差值為F(xi,Wi)。
由式(1)可推出式(2),通過遞歸,可得到任意第k層的輸入,用式(3)表示,即第k層的特征為第i層和k層中間所有殘差函數(shù)輸出的總和加上xi。式(4)為損失函數(shù)l對于輸入xi的梯度。由式(3)和式(4)可得式(5),由式(5)可知,任意深層xk的梯度可以傳遞到比其淺的任意層xi,且由于有常數(shù)的存在,因此無論如何加深網(wǎng)絡(luò),都不會出現(xiàn)梯度消失現(xiàn)象[4,26]。
模型特征提取部分結(jié)合了特征金字塔(FPN),將特征圖中的深層特征和淺層特征融合,達到增強特征的效果[29-30]。基于特征金字塔的特征提取網(wǎng)絡(luò)是一種解決多尺度問題的網(wǎng)絡(luò),它采用雙金字塔結(jié)構(gòu),如圖3所示。左側(cè)金字塔一般為常規(guī)的特征圖卷積網(wǎng)絡(luò),為了提升模型特征提取性能,采用帶殘差層的ResNet50網(wǎng)絡(luò)作為特征提取主干網(wǎng)絡(luò),Conv2_x、Conv3_x、Conv4_x、Conv5_x為殘差層,特征圖大小隨著殘差層深度加深逐層縮小為上一層的1/2,深度擴大為上一層的2倍;中間金字塔則在每層都添加了256個1×1的卷積核用于統(tǒng)一特征圖的深度,然后從上至下對卷積后的圖像進行反向采樣,通過將中間上層的特征圖放大2倍,進而與下一層左側(cè)的特征圖各像素點進行元素相加,在不增加模型參數(shù)的基礎(chǔ)上,增強了金字塔右側(cè)每一層輸出在不同尺度下空間信息和語義信息的預(yù)測能力。由此可見,FPN網(wǎng)絡(luò)有助于模型對各種尺度的目標進行識別。
圖3 基于特征金字塔的特征提取網(wǎng)絡(luò)
1.2.2特征圖處理
經(jīng)過基于特征金字塔的特征提取網(wǎng)絡(luò)之后,原始圖像被轉(zhuǎn)換為多尺度特征圖,再由區(qū)域建議網(wǎng)絡(luò)(RPN)對其感興趣區(qū)域(Region of interest,RoI)進行篩選,進而對篩選后的 RoI 進行池化。本研究采用感興趣區(qū)域?qū)R法(RoI-Align),利用雙線性插值進行采樣點坐標計算。與傳統(tǒng)的感興趣區(qū)域池化法(RoI-Pooling)不同的是,該方法保留采樣點坐標的小數(shù)值以提高池化精度。因此,本研究在特征圖處理模塊中以感興趣區(qū)域?qū)R法替代感興趣區(qū)域池化法,以期減少特征圖尺度標準化過程中的精度損失。
1.2.3Mask分支優(yōu)化
相較于目標檢測任務(wù),分割任務(wù)要求的精度更高,所以本研究的模型在對齊特征圖坐標時,檢測和分割不共用同一個RoI-Align。在RPN網(wǎng)絡(luò)生成建議框后,將生成的建議框輸入2個不同的RoI-Align分支中,分別進行雙線性插值計算。其中一個RoI-Align向檢測端輸出7×7×256的固定尺寸的特征圖,經(jīng)過全連接層后得到檢測框和分類信息。另一個RoI-Align向分割端輸出14×14×256的固定尺寸特征圖,經(jīng)過全卷積網(wǎng)絡(luò)(Full convolutional network,FCN)后預(yù)測相應(yīng)的目標分割掩膜。Mask分支上的特征圖尺寸是目標檢測分支上特征圖尺寸的2倍,保留了更多的細節(jié)信息。
1.2.4損失計算
經(jīng)過特征圖的處理及特征區(qū)域篩選后,模型預(yù)測頭部分對各特征區(qū)域進行分類、檢測框和掩膜的損失計算,研究表明在多個數(shù)據(jù)集的模型訓(xùn)練中,以分類、檢測框和掩膜三者的損失之和作為模型整體的損失值,均取得很好的效果[23,31]。損失值L計算公式為
L=Lcls+Lbox+Lmask
(6)
式中Lcls——分類損失
Lbox——檢測框回歸損失
Lmask——分割掩膜損失
本試驗在Windows 10系統(tǒng)中完成,試驗框架為Pytorch,處理器為Intel(R)Core(TM)i7-9700K CPU @ 3.60 GHz 3.60 GHz,內(nèi)存為16 GB,使用NVIDIA 2070super圖形處理器加速運算。設(shè)置單GPU同時處理圖像數(shù)為1,每幅顯微圖像實例分割的類別為Pi、X、Ph和Co 4類(不包含背景),模型主要參數(shù)如表1所示。
表1 模型參數(shù)
采用平均精確率(AP)評估圖像分割模型的性能。AP為以準確率(Precision)為縱坐標,召回率(Recall)為橫坐標所繪曲線與坐標軸所圍區(qū)域的面積。當預(yù)測目標與標定目標的交并比(Intersection over union,IoU)大于所設(shè)定閾值時,判定為預(yù)測正確,反之為預(yù)測錯誤。AP值越高,模型性能越好。在實例分割中,對于每一種類別都有對應(yīng)的AP值,對于全部目標的平均AP稱為平均精確率均值(Mean average precision,mAP)。
經(jīng)試驗證明,模型驗證到第100個周期后,損失趨于平穩(wěn)(圖4a)。因此,目標檢測和實例分割的驗證周期也取到第100個。由圖4b可以看出,模型的學(xué)習性能良好,且驗證的平均精確率可以達到90%以上,且目標檢測的AP大于圖像分割,可知對目標的定位和分類效果優(yōu)于分割。綜上,模型對圖像中所有種類的目標檢測和實例分割可以達到較好的效果。
圖4 柑橘主葉脈實例分割模型驗證結(jié)果
改進的Mask R-CNN模型對柑橘主葉脈中的Pi、X、Ph和Co的檢測和分割的平均評價指標如表2所示。由表2可知,目標檢測和實例分割的AP(IoU為0.50)都達到90%以上。目標檢測在IoU為0.50、0.75、0.50~0.95 3個評價范圍內(nèi)整體的AP較實例分割更高,為97.7%、83.2%和73.4%。可知該模型對待檢測區(qū)域的檢測框定位和類別分類的精度比具體分割出特定區(qū)域的精度更高,尤其是在IoU為0.75、0.50~0.95評價范圍內(nèi),分割精度與目標檢測精度相差較大。而分割端的結(jié)果是通過Mask分支得來的,因此本研究對Mask分支進行改進,在檢測端保留原有的RoI-Align層。
表2 柑橘主葉脈中Pi、X、Ph和Co的檢測和分割mAP
對于各具體的組織區(qū)域類別,當IoU為0.50時,檢測Pi、X、Ph和Co的AP都可達到90%以上,如表3所示。其中Pi、Ph和Co的檢測AP達到100%,由此可知,該模型對這4個不同待測區(qū)域的檢測框定位與分類效果良好;分割Pi、X、Ph和Co的AP最低的也達到89.8%(X),其余均在90%以上,可知該模型對各組織區(qū)域具體分割任務(wù)也能取得較好的效果。
表3 各類別目標檢測和實例分割的AP
隨機選取2幅未參與訓(xùn)練的圖像進行預(yù)測,平均預(yù)測時間僅需0.54 s。其預(yù)測效果如圖5所示,其中,黃色掩膜部分為髓部預(yù)測區(qū)域,淺藍色掩膜部分為木質(zhì)部預(yù)測區(qū)域,淺綠色掩膜部分為韌皮部預(yù)測區(qū)域,白色掩膜部分為皮層細胞預(yù)測區(qū)域。圖5a為圖中只有待測目標,無背景干擾的柑橘主葉脈原圖,圖5b為其分割效果。圖5c中除了待測目標外,還存在其他靠近目標且與目標類似的干擾物(同一載玻片上其他樣本的部分皮層細胞Co),圖5d為圖5c的分割效果。對于無背景干擾的柑橘主葉脈原始圖像,模型可對其中的Pi、X、Ph和Co 4種組織區(qū)域都能進行比較精準的定位和識別,類別得分都為99%,對各組織區(qū)域的分割也能取得較好的效果。對于有背景干擾的柑橘主葉脈原始圖像,模型也可對其中的Pi、X、Ph和Co 4種組織區(qū)域進行精準的定位和識別,除了X的類別得分為92%外,其余都為99%,對各組織區(qū)域分割也能取得較好的效果。因此,無論有無背景干擾,預(yù)測區(qū)域均和真實部位重合度較高。
圖5 模型預(yù)測效果
對比模型Mask分支改進前后的分割mAP,如表4所示。改進前檢測和分割端共用一個RoI-Align,改進后的Mask分支利用一個不同的RoI-Align生成檢測分支2倍的特征圖??梢钥闯?改進后的Mask分支,在IoU為0.50、0.75、0.50~0.95 3種條件下,平均分割精度均提升1~2個百分點,分別為95.4%、59.0%、56.1%。
表4 Mask分支改進前后分割精度對比
改進后的模型,檢測端保留原有的RoI-Align層,特征圖尺寸與改進前相同,改進前后檢測精度對比如表5所示。由表5可以看出,改進Mask分支前后的模型目標檢測效果與改進前基本持平,在IoU為0.50、0.50~0.95情況下,改進后的模型檢測mAP略微升高,IoU為0.75時,檢測mAP略微降低,整體差別不大。由此可知,在Mask分支引出一個新的RoI-Align幾乎不會影響檢測端的效果。
表5 Mask分支改進前后檢測精度對比
基于Mask R-CNN框架設(shè)計了柑橘主葉脈中的髓部、木質(zhì)部、韌皮部和皮層細胞4種組織區(qū)域的實例分割方法,并對Mask分支添加獨立的感興趣區(qū)域?qū)R層(RoI-Align),進行對比試驗。試驗結(jié)果表明,改進后的Mask R-CNN對所有目標的檢測mAP(IoU為0.50)達到97.7%。其中,模型對髓部、木質(zhì)部、韌皮部和皮層細胞的分割A(yù)P(IoU為0.50)分別為98.9%、89.8%、95.7%和97.2%。對4個部位的mAP(IoU為0.50)可達95.4%,與未在Mask分支添加RoI-Align的Mask R-CNN相比,準確率提升1.6個百分點。結(jié)果表明,Mask R-CNN框架能夠?qū)崿F(xiàn)柑橘主葉脈中的髓部、木質(zhì)部、韌皮部和皮層細胞4個組織區(qū)域的實例分割,研究結(jié)果可為生物/非生物脅迫下柑橘葉片解剖表型組學(xué)的圖像分析提供新的技術(shù)手段。