錢文秀, 常 青, 向 輝, 康文斌
(華東理工大學信息科學與工程學院,上海 200237)
近年來,中國的草莓種植面積逐步擴大,草莓采摘是整個草莓生產(chǎn)過程中最耗時、耗力的環(huán)節(jié)之一,約占整個生產(chǎn)過程勞動總量的50%[1],因此草莓的自動化信息采集、采摘對草莓的大規(guī)模種植和科學管理具有重要意義。草莓圖像分割是機械化采摘、信息化管理的核心關(guān)鍵之一,草莓圖像分割效果直接影響后續(xù)的信息采集和草莓采摘。
現(xiàn)有文獻大多只針對固定背景的水果圖像、成熟且無雜物遮擋的草莓圖像分割。其中,Lyu 等[2]通過應用K-means 對RGB、Lab 顏色空間的G、B 顏色通道分割后進行開運算、微小區(qū)域消除、融合等操作來分割出目標。然而,分割結(jié)果對初始聚類中心敏感,需連續(xù)對樣本進行分類和調(diào)整,更新聚類中心,導致算法的時間復雜度增加。Wei 等[3]提出了一種復雜農(nóng)業(yè)背景下采摘機器人的水果圖像自動提取方法,應用Ohta 顏色空間的新特征作為輸入,進行OTSU 算法的閾值分割,雖然大多數(shù)時候能成功提取復雜農(nóng)業(yè)背景下的成熟水果,但在處理石榴圖像時部分果實圖像會缺失,且存在光照、背景、時間復雜度或參數(shù)設(shè)定等缺陷,并不適用于實際背景下成熟草莓的圖像分割。張紅旗等[4]通過遺傳算法尋找FCM 圖像分割方法的聚類中心,提出了基于遺傳算法的草莓圖像FCM 分割方法,但需預先設(shè)置簇的數(shù)量,且遺傳算法收斂速度較慢。Karlo 等[5]提出了一種基于凸面檢測和分類的RGB-D 圖像水果識別方法,但是該方法對光線強度比較敏感,強烈陽光照射的環(huán)境會影響分割效果。Zhao 等[6]提出的基于ISODATA 算法的草莓圖像分割方法參數(shù)設(shè)置繁瑣且僅對完全成熟的草莓圖像分割效果良好。覃磊等[7]基于RGB 顏色相度的成熟草莓圖像分割(CS-BASED RSIS)僅應用于完全成熟草莓圖像的分割,對未完全成熟的草莓分割效果明顯下降。劉輝等[8]提出的融合深度信息的Grabcut 自動圖像分割,基于深度信息提取Grabcut 的矩形框,因草莓對象的不規(guī)則和復雜背景的干擾,并不能精確地標記前景對象,降低了分割準確度。
常用的Grabcut[9]算法使用矩形框指導分割目標,矩形框內(nèi)除了不同成熟度或可能被葉子、雜物遮擋的草莓目標還包含其他復雜背景,影響了Grabcut分割的精確度。本文提出根據(jù)顯著性區(qū)域制作掩模,用以標記Grabcut 的前景和背景來指導目標草莓分割。為了使該算法在昏暗的環(huán)境中也能得到較好的分割結(jié)果,提出用限制對比度自適應直方圖均衡化為基于HNSD 架構(gòu)顯著區(qū)域的檢測增強整體邊緣,最終實現(xiàn)有效地檢測顯著草莓區(qū)域,不僅能適用于不同程度明亮、昏暗環(huán)境而且可以分割出完全成熟和未成熟的草莓圖像。
本文算法的主要步驟如圖1 所示。首先采用限制對比度自適應性直方圖均衡化(Contrast-limited Adaptive Histogram Equalization,CLAHE)[10]增強原始圖像,降低光線敏感度,然后使用結(jié)合短連接的整體嵌套顯著目標檢測(Holistically-Nested Salient Object Detection with Short Connections,HNSD)[11]查找顯著性區(qū)域,最后將顯著性區(qū)域作為Grabcut 的前景進行分割得到分割圖像。
圖 1 算法流程圖Fig. 1 Flow chart of algorithm
常用的直方圖均衡化(Histogram Equalization,HE)是一種圖像整體增強方法,不能有效增強局部信息,造成局部區(qū)域的明暗信息損失[12],而自適應直方圖均衡化(Adaptive Histogram Equalization,AHE)[13]在強化圖像局部細節(jié)的同時增加了圖像噪聲,因此,本文采用CLAHE 對原始草莓圖像進行增強處理。
CLAHE 通過限制局部直方圖的高度來限制對比度的增強幅度,從而限制噪聲和局部對比度。CLAHE 算法基本流程如下:
(1)將原圖分割成 M ×N 個連續(xù)不重疊的子區(qū)域,子塊大小與增強效果、細節(jié)丟失成正比。
(2)對圖像每個通道計算灰度直方圖 H (i) 。
(3)設(shè)置閾值T(如圖2 所示),當 H (i)<T 時,
H (i) 、L、 Hmax三者的關(guān)系為
圖 2 剪裁分配示意圖Fig. 2 Clipping assignment schematic
(4)對每個受限子區(qū)域進行直方圖均衡化。
(5)選取每個子區(qū)域的中心為參考點,對圖像每個像素進行灰度雙線性插值計算,如圖3 所示。插值公式如下:
式中:G(i)代表點(x,y)處的灰度值; G--(i) 為點(x,y)左上方樣本點; G-+(i) 、 G+-(i) 、 G++(i) 分別為其他3 個方位的樣本點。
圖 3 雙線性插值運算Fig. 3 Bilinear interpolation operation
圖4 示出了CLAHE 的處理效果??梢钥闯?,相比于左邊昏暗環(huán)境下的暗紅色草莓,右邊的鮮紅色草莓具有明顯的輪廓特征,更易于整體邊緣檢測,最終得到更優(yōu)的顯著區(qū)域。
圖 4 CLAHE 的處理效果對比圖Fig. 4 Process images by CLAHE
1.2.1 HNSD 結(jié)構(gòu) 結(jié)合短連接的整體嵌套顯著目標檢測是基于整體嵌套邊緣檢測(Holistically-Nested Edge Detector,HED)[14]的顯著性檢測結(jié)構(gòu),如表1 所示,包含5 個卷積層和1 個池化層,在每個側(cè)面輸出連接3 個具有不同濾波器通道和空間大小的卷積層。其中,“1”、“2”和“3”表示每層側(cè)輸出中使用的3 個網(wǎng)絡(luò)層, n ,k×k 中的 n 和 k ×k 分別表示通道數(shù)和卷積核尺度。
表 1 側(cè)面輸出信息Table 1 Details of each side output.
其中: αm為第 m 個側(cè)面輸出的權(quán)重;表示第 m 個側(cè)面輸出的圖像級類平衡交叉熵損失函數(shù)。使用標準交叉熵計算訓練圖像和真值顯著圖之間所有像素的損失函數(shù)。損失函數(shù)定義如下:
其中: f =(f1,···,fM) 為融合權(quán)重;為第 m 層輸出的激活值;表示真值圖和預測融合圖 之間的距離。因此,最終的損失函數(shù)為
1.2.2 短連接 引入一種自上而下的方法,即從較深的側(cè)面輸出到較淺的側(cè)面輸出層的一系列短連接。結(jié)合較深的側(cè)面信息,較淺的側(cè)面輸出既可以準確地預測顯著區(qū)域,又可以從較深的側(cè)面輸出中細化結(jié)果,從而產(chǎn)生密集且準確的顯著區(qū),因此在HNSD體系上引入短連接可更優(yōu)地結(jié)合深層和淺層的優(yōu)點。短連接結(jié)構(gòu)圖如圖5 所示。
圖 5 短連接結(jié)構(gòu)圖Fig. 5 Illustration of short connections
1.2.3 基于短連接的深度監(jiān)督顯著目標檢測 較深的側(cè)面輸出能夠找到顯著區(qū)域的位置,但要付出損失細節(jié)的代價,而淺的側(cè)面輸出側(cè)重于低級特征,但缺乏全局信息。通過適當?shù)亟M合不同的側(cè)面輸出,可以提取視覺上更佳的對象。為了使模型達到更優(yōu)的效果,HNSD 使用如下的短連接方法:
1.2.4 參數(shù)設(shè)置 設(shè)置學習率 為 1 0-8,衰 減權(quán)重為0.5×10-3,動量為0.9,每個側(cè)面輸出的損失權(quán)重為1。使用全分辨率圖像來訓練網(wǎng)絡(luò),將最小批量設(shè)置為10。使用隨機數(shù)初始化新添加的卷積層中的內(nèi)核權(quán)重。融合層權(quán)重在訓練階段都初始化為0.166 7。
Grabcut 算法是根據(jù)GraphCut[15-17]算法進行改進的一種基于圖論的圖像分割方法。它將圖像映射成無向網(wǎng)絡(luò)圖,然后構(gòu)建一個優(yōu)化對象變量的能量函數(shù),最后使用最大流/最小割方法優(yōu)化能量函數(shù)。
Grabcut 簡化了用戶交互并使用了GMM 而非直方圖。首先定義一個無向圖G(V,E),其中V 表示所有無向圖所有頂點的集合,E 表示鏈接所有頂點的無向邊的集合。在V 集合內(nèi)添加源S 和接收器T,使所有像素點連接到兩個端子。于是,無向圖G(V,E)包含t-links (Neighbored)和n-links (Terminal)兩種連接方式。所有表示像素的頂點的中心邊為n-links;所有與額外兩個端點相連的邊為t-links。通常,無向圖使用4 鄰域或8 鄰域連接兩個像素。圖像中含有N 個像素,圖像表示為 z= (z1,z2,···,zN) ,定義能量函數(shù)為
并結(jié)合了像素標記方法用來表示最佳分割。
首先引入一組新的向量 α ={α1,α2,···,αN} ,用來標記每個像素屬于前景或背景。得到顯著圖后,設(shè)置一個閾值對圖像進行二值化。本文實驗設(shè)置閾值為100,通過設(shè)置顯著區(qū)域,其余像素屬于背景來初始化Grabcut 掩模圖像,這樣可以增加分割的準確性。
平滑項V 使用歐式距離求出:
其中: α ,β 為常量。在Grabcut 中, α =50 是根據(jù)Rother等實驗獲得[16],而 β 根據(jù)圖像對比度確定。
本文實驗使用的數(shù)據(jù)集是OpenMV 攝像頭采集的中國傳統(tǒng)地壟種植草莓園里的草莓圖像,制作5 000 張像素為500×500、格式為JPG 的圖像。評價指標包括F-measure[18-20]和IOU (Intersection Over Union)[21],計算公式如下:
其中: U 表示真值圖中的真實目標; U′為分割目標。選取文獻[2]、文獻[6-8]與本文算法進行比較。
圖6 示出了相似光線強度下6 張不同的草莓圖像,以及本文算法與其他4 種算法的直觀視覺效果。其中第1、2 行是完全成熟草莓對應不同算法的分割效果,文獻[6-8]和本文算法皆取得了精確度較高的效果。第3、4 行圖像中包含完全成熟和完全青色的草莓對象,文獻[6-7]僅完好地分割出了完全成熟部分,將青色未成熟草莓誤判為背景;文獻[2]、文獻[8]保留了較多的背景;本文算法則分割出了較完整的成熟草莓和青色草莓。第5、6 行為未完全成熟的草莓圖像,文獻[6-7]沒有分割出完整的草莓對象,文獻[2]、文獻[8]依舊保留較多的草莓背景,而本文算法比較完整地分割出了未成熟目標草莓。結(jié)果表明,本文算法在相似光照強度下,可以有效地分割出不同成熟度的草莓。
圖 6 不同算法的分割圖比較Fig. 6 Comparison of segmentation graphs with different algorithms
圖7 示出了3 張草莓圖片在明亮光線和昏暗環(huán)境下采用本文算法的分割效果,其中第2 行為第1 行的分割結(jié)果??梢钥闯?,本文算法在昏暗的環(huán)境下也能完好地分割出草莓目標,可以適用于較大差異的光線環(huán)境,有效地去除過多的復雜背景,分割出未成熟和已成熟的草莓對象,在實際草莓采摘環(huán)境下取得了與真實值較接近的效果。
圖 7 不同明暗環(huán)境本文算法分割圖比較Fig. 7 Comparison of algorithm segmentation graphs in different light and dark environments
對在實際環(huán)境采集的5 000 張草莓圖像數(shù)據(jù)集計算F-measure、IOU 指標,結(jié)果如圖8 所示。圖8(a)示出了 β =1 時的準確率、召回率、F-measure??梢钥闯?,文獻[2]、文獻[6-8]的回召率和精確率表現(xiàn)出明顯的差異且明顯低于本文算法。圖8(b)示出了IOU 的比較結(jié)果,顯示了本文算法的實際分割對象與真值圖具有較高的重疊率,證明了本文算法得到的F-measure、IOU 均優(yōu)于其他算法。
圖 8 數(shù)據(jù)集上的結(jié)果比較Fig. 8 Comparisons of results on data sets
表2 示出了本文算法在不同明暗環(huán)境下的草莓圖像分割精確率、回召率、F-measure、IOU 指標,可以看出,昏暗環(huán)境與明亮環(huán)境下的4 種指標值沒有較大的變化,表明本文算法可適用于不同程度的明暗環(huán)境。
表 2 不同明暗環(huán)境下分割結(jié)果比較Table 2 Comparison of segmentation results under different lighting and shading environments
本文提出了基于深度監(jiān)督顯著目標檢測的草莓圖像分割研究,限制對比度自適應性直方圖均衡化處理降低了對光線明暗的敏感度?;诙踢B接的深度監(jiān)督顯著目標檢測算法查找顯著性區(qū)域,可以準確地查找到草莓區(qū)域,最后Grabcut 根據(jù)草莓區(qū)域作為前景得到更精確的分割目標。實驗結(jié)果證明,本文方法在實際圖像上獲得了比其他算法更高的F-measure、重疊率指標,驗證了該方法具有更優(yōu)異的分割效果。未來將考慮更快的計算速度和算法應用環(huán)境的移植,以增強算法的實用性。