龍 燕,高 研,張廣犇
基于改進HRNet的單幅圖像蘋果果樹深度估計方法
龍 燕,高 研,張廣犇
(1.西北農林科技大學機械與電子工程學院,楊凌 712100;2. 農業(yè)農村部農業(yè)物聯(lián)網(wǎng)重點實驗室,楊凌 712100;3. 陜西省農業(yè)信息感知與智能服務重點實驗室,楊凌 712100)
針對蘋果自動采收獲取深度信息的實際需求,以及目前單幅圖像深度估計算法存在的空間分辨率低和邊緣模糊問題,提出一種基于改進高分辨率網(wǎng)絡(High-Resoultion Net, HRNet)的單幅圖像蘋果果樹深度估計模型。首先基于HRNet構建多分支并行的編碼器網(wǎng)絡,提取多尺度特征,并通過引入密集連接機制強化特征傳遞過程中的連續(xù)性;為了減少冗余特征造成的噪聲干擾,使用卷積注意力模塊在通道及像素層級對融合特征進行重標定,強化特征圖結構信息。在解碼器網(wǎng)絡中,使用條紋細化模塊自適應地優(yōu)化特征圖的邊界細節(jié)信息,突出邊緣特征,改善邊緣模糊問題,最后經(jīng)上采樣生成深度圖。在NYU Depth V2公共數(shù)據(jù)集和果樹深度數(shù)據(jù)集上進行試驗。試驗結果表明,引入密集連接機制,添加卷積注意力模塊、條紋細化模塊均能提升模型性能。提出的改進HRNet網(wǎng)絡在果樹深度數(shù)據(jù)集上的平均相對誤差、均方根誤差、對數(shù)平均誤差、深度邊緣準確誤差和邊緣完整性誤差分別為0.123、0.547、0.051、3.90和10.59,在1.25、1.252、1.253閾值下的準確率分別達到了0.850、0.975、0.993;在主觀視覺上,改進HRNet網(wǎng)絡生成的深度圖有清晰的邊緣以及較多的紋理細節(jié)。該方法在客觀指標和主觀效果上均有良好的表現(xiàn)。
圖像處理;深度學習;蘋果果樹;單幅圖像深度估計;密集連接機制;卷積注意力模塊;條紋細化模塊
在蘋果的機械化采收中,深度信息的獲取是實現(xiàn)果實精準定位、機械臂避障采收和機器人自主作業(yè)的關鍵[1-3]。傳統(tǒng)方法獲取深度信息常利用激光雷達等深度傳感器,但這類傳感器易受環(huán)境和自身零部件干擾,得到稠密而準確的深度圖成本過高,無法廣泛應用[4]。基于圖像的深度估計方法利用輸入RGB圖像的紋理、形狀和空間關系特征直接估計場景深度,無需昂貴的儀器設備和專業(yè)人員,就能獲得高精度深度信息,應用前景更加廣闊[5]?;趫D像的深度估計方法根據(jù)輸入圖像數(shù)量的不同又分為多幅圖像深度估計和單幅圖像深度估計[6]。其中,基于多幅圖像的深度估計包括立體視覺匹配和運動恢復結構等,這些方法都是建立在多視點特征對應上,需要圖像對或圖像序列作為輸入,對輸入有較強的限制且預測結果受光照變化和物體紋理的影響較大,標定過程復雜、計算時間較長[7]。相比之下,基于單幅圖像的深度估計對設備和環(huán)境要求較低且易于實現(xiàn),因此具有更加廣泛的應用價值。
近年來,隨著深度學習的迅速發(fā)展,基于深度學習的單幅圖像深度估計算法也得到了廣泛的研究[8-11]。Eigen等[12]首次將卷積神經(jīng)網(wǎng)絡用于深度估計,通過構建粗、細兩個尺度的深度預測模型,分別提取圖像的全局信息和局部信息,再將兩者融合得到深度圖,但由于網(wǎng)絡層數(shù)較少,預測的深度圖分辨率較低,僅為原圖大小的四分之一。Laina等[13]提出一種基于殘差學習的全卷積網(wǎng)絡,網(wǎng)絡結構更深,得到了分辨率更高的深度圖,但在特征傳遞過程中丟失了較多的細節(jié)信息,物體邊緣模糊問題未得到解決。Alhashim等[14]設計了一種簡單的編解碼器網(wǎng)絡,使用在圖像分類任務下效果較好的預訓練模型作為編碼器,相較于復雜的多網(wǎng)絡結構得到了更精確的深度圖,驗證了遷移學習方法在單幅圖像深度估計任務中的有效性。Xue等[15]提出一種邊界誘導和場景聚合網(wǎng)絡,考慮到最遠區(qū)域和邊界線索在深度估計中的重要性,設計了深度相關編碼器、自底向上邊界融合模塊和條紋細化模塊,生成的深度圖擁有較多的紋理細節(jié),但是對某些單一大平面組成的場景往往存在性能退化和深度失真情況。Fu等[16]將深度估計從回歸任務轉換為分類任務,但離散化深度難度較大,導致深度圖復雜區(qū)域出現(xiàn)明顯失真。Bhat等[17]設計了Adabins模塊,將深度范圍劃分為256個不同區(qū)間,取每個區(qū)間的中心值作為該區(qū)間像素深度值,最終深度為區(qū)間中心深度值的線性組合,分類任務中的深度離散問題也得到解決。溫竣文[18]提出一種基于多尺度注意力導向網(wǎng)絡的深度估計算法,通過引入殘差通道注意力和空間注意力機制,優(yōu)化場景結構、增強邊界細節(jié),生成的深度圖質量得到提高,物體輪廓信息更加細致?;糁怯碌萚19]利用多尺度結構相似度損失和尺度不變梯度匹配損失組成聯(lián)合損失,對相對深度點對進行排序實現(xiàn)單幅圖像深度估計,生成的深度圖具有更加準確的幾何形狀,邊緣也更加清晰。
上述算法極大地促進了深度估計技術的發(fā)展,但仍存在以下兩個問題:1)傳統(tǒng)對稱性網(wǎng)絡對全局特征提取能力較差,采用跳躍連接逐級融合低層特征時容易引入背景噪聲,導致場景深度估計準確性不高;2)現(xiàn)有深度估計網(wǎng)絡對場景中紋理等幾何信息解析能力不足,導致深度圖細節(jié)不足,邊緣模糊。
針對以上兩個問題,本研究提出一種基于改進HRNet的單幅圖像蘋果果樹深度估計模型。首先基于HRNet構建多分支并行的編碼器網(wǎng)絡,提取包含更多上下文信息的多尺度特征,并通過引入密集連接機制強化特征傳遞過程中的連續(xù)性;使用卷積注意力模塊在通道及像素層級對融合特征進行重標定,減少冗余特征造成的噪聲干擾,強化特征圖結構信息,提高模型深度特征提取能力。在解碼器網(wǎng)絡中,使用條紋細化模塊對水平與垂直正交方向的邊界像素進行聚集,突出邊緣特征,優(yōu)化特征圖細節(jié),改善物體邊緣深度預測失真問題,最后經(jīng)上采樣生成深度圖。
1.1.1 果樹深度數(shù)據(jù)集
搭建蘋果果樹圖像采集平臺,由一臺Azure Kinect DK相機和一臺帶有8 GB內存、Win 10操作系統(tǒng)和配套軟件程序的計算機組成,其中深度相機采用NFOV 非裝箱模式,分辨率大小640×576像素,深度范圍為0.5~3.86 m,彩色相機分辨率大小為1 920×1 080像素。在相機配準的過程中,深度圖經(jīng)超分辨率、viewpoint 轉換與彩色圖像對齊。
圖像數(shù)據(jù)于2021年8-10月采集自陜西省咸陽市乾縣宏霖農業(yè)蘋果園,采集時,始終保持相機的中心線與果樹垂直,在不同的時間段內進行順光和逆光采集,以使圖像數(shù)據(jù)集更具多樣性。同時,為方便模型訓練,將采集到的圖像進行中心裁剪,獲得對齊后大小為640×480像素的RGB彩色圖像和深度圖,共1 285對圖像,包含順光632對,逆光653對。其中,深度圖為單通道灰度圖像,利用著色算法對深度圖進行填充后,使用Python中matplotlib.pyplot包著色,進行可視化處理。數(shù)據(jù)集部分圖像如圖1所示。
將采集到的1 285對圖像按照6∶4的比例分為訓練集(771對)和測試集(514對),為豐富圖像數(shù)據(jù)集,避免過擬合,增強模型泛化能力,使用以下3種方式對訓練集進行數(shù)據(jù)增強:1)水平鏡像,彩色圖像和深度圖同時水平翻轉,概率設置為50%;2)色彩抖動,將彩色圖像的亮度、對比度和飽和度按照比例因子c∈[0.7,1.3]進行隨機縮放;3)隨機旋轉,彩色圖像和深度圖在角度范圍∈[-6°,6°]內同時旋轉,最后共獲得2 860對圖像。
圖1 Kinect相機采集的蘋果果樹深度數(shù)據(jù)集示例
1.1.2 NYU Depth V2公共數(shù)據(jù)集
NYU Depth V2是最常用的深度數(shù)據(jù)集之一,紐約大學的Silberman等利用微軟的Kinect V2相機,采集了464個不同室內場景的RGB圖和深度圖,共407 024幀RGBD圖像對構建數(shù)據(jù)集[20]。數(shù)據(jù)集中圖像大小為640×480像素,深度范圍為0~10 m,本文在其包含訓練集50 688幅、測試集654幅圖像的子集上進行研究。
為了取得更好的魯棒性與泛化能力,基于深度學習的單幅圖像深度估計要求訓練數(shù)據(jù)必須有更多的數(shù)量和類型,但數(shù)據(jù)采集是一項耗時耗力的任務,因此,遷移學習得到越來越多的關注。遷移學習將源任務中學習到的特征應用到新的目標任務中,利用預訓練模型學到的豐富特征,可以在數(shù)據(jù)量有限的條件下,大幅提高網(wǎng)絡的訓練效率和預測精度[21]。因此,本文基于遷移學習思想,首先在公共數(shù)據(jù)集NYU Depth V2上對網(wǎng)絡模型進行預訓練,再將預訓練模型權重遷移到果樹深度數(shù)據(jù)集上訓練微調參數(shù)。
本文基于HRNet構建編碼器提取多尺度特征,使用密集連接機制強化特征傳遞的連續(xù)性;添加卷積注意力模塊進行特征重標定,強化結構信息,提高深度特征提取能力;在解碼器網(wǎng)絡中添加條紋細化模塊突出邊緣特征、改善邊緣模糊,最終生成高質量深度圖。
1.2.1 改進HRNet網(wǎng)絡結構
單幅圖像深度估計的本質是構建一個關聯(lián)圖像信息和深度信息的模型[22],在規(guī)定的范圍內對圖像中每一個像素進行深度預測,需要綜合特征圖分辨率、多尺度信息融合等多方面因素。傳統(tǒng)的對稱性編解碼器網(wǎng)絡往往先經(jīng)卷積池化得到低分辨率深度特征,再逐步上采樣增加特征圖的分辨率得到深度圖。但是簡單的上采樣往往會丟失較多的全局信息,采用跳躍連接逐級融合低層特征時又容易引入背景噪聲。中科大和微軟亞洲研究院提出的高分辨率網(wǎng)絡[23](High-Resoultion Net, HRNet)在整個特征提取的過程中始終保持高分辨率的特征圖,而多尺度信息則通過在高分辨率特征圖主分支上逐漸并行加入低分辨率的特征子分支的方式來獲取,強化上下文語義特征提取能力的同時,最大限度地保留圖像信息,能夠更好地滿足單幅圖像深度估計任務需求,因此本文采用HRNet作為基礎框架。
本研究提出的改進HRNet的多分支深度估計網(wǎng)絡結構如圖2所示,主要由基于HRNet多尺度特征提取的編碼器和恢復特征圖尺寸的解碼器網(wǎng)絡組成。將卷積神經(jīng)網(wǎng)絡相鄰兩個降采樣模塊間的卷積過程稱為一個階段(Stage),基于HRNet的多分支編碼器網(wǎng)絡共4個階段,Stage1只包含一個最高分辨率分支,從Stage2開始,每個階段依次增加一個平行分支,將前一階段個分支的輸出作為后一階段+1個分支的輸入,新增分支為前一階段最低分辨率分支的一半,通道數(shù)則提升兩倍。編碼器最終輸出4個尺度的特征圖,通道數(shù)分別為64、128、256、512,圖像分辨率則分別為原圖的1/4、1/8、1/16、1/32。為了提高特征傳遞過程中的連續(xù)性,引入密集連接機制,使用denseblock模塊替換Stage1中原Bottleneck模塊及后續(xù)新增分支中的basicblock模塊。不同分辨率特征統(tǒng)一尺寸后進行通道拼接,實現(xiàn)不同分支間的特征交互,再經(jīng)卷積注意力模塊(Convolutional Block Attention Module, CBAM),在通道及像素層級對融合特征進行重標定,減少噪聲干擾。在解碼器中使用條紋細化模塊(Stripe Refinement Module, SRM)自適應地學習特征圖邊界信息,細化高分辨率深度,最后經(jīng)上采樣生成深度圖,實現(xiàn)單幅圖像深度估計。
注:d為denseblock模塊;B為Bottleneck模塊;b為basicblock模塊;虛線框內為網(wǎng)絡模塊調整,使用denseblock模塊替換原Bottleneck模塊或basicblock模塊;CBAM為卷積注意力模塊;SRM為條紋細化模塊。
1.2.2 使用密集連接機制改善網(wǎng)絡結構
原HRNet網(wǎng)絡中的basicblock模塊、Bottleneck模塊是通過像素級相加,建立層與層之間的短路連接,這有助于訓練過程中梯度的反向傳播,從而訓練出更深的網(wǎng)絡,但以相加的方式無法反推原來的輸入特征,導致訓練參數(shù)量大、過程復雜[24]。而本文改進HRNet網(wǎng)絡中的denseblock模塊則是在通道維度進行拼接,建立前層與后面所有層之間的密集連接[25],能夠較好地保留原有特征,實現(xiàn)和加強了特征重用,有效減少了參數(shù)量,效率也得到提高。它的缺點在于對顯存占用量較大,所以僅在每一階段產(chǎn)生新分支特征圖時使用。basicblock模塊、Bottleneck模塊、denseblock模塊如圖3所示。
1.2.3 添加卷積注意力模塊提升模型精度
由于深度估計任務主要是對編碼器網(wǎng)絡產(chǎn)生的特征圖進行逐像素預測,特征圖中每個像素的位置對于輸出結果的影響也應被充分考慮。同時,在編碼器網(wǎng)絡中不同分辨率特征的多次融合可能會引入噪聲,造成信息冗余。因此,本研究將注意力機制應用在每個stage特征融合過程及編碼器網(wǎng)絡最終輸出特征上。
首先對編碼器網(wǎng)絡中低分辨率特征圖進行上采樣或高分辨率特征圖進行下采樣獲得統(tǒng)一分辨率特征圖并進行通道拼接,然后采用卷積注意力模塊(CBAM)在通道以及像素層級對融合特征圖進行特征重標定。CBAM模塊由通道注意力模塊(Channel Attention Module, CAM)和空間注意力模塊(Spatial Attention Module, SAM)串聯(lián)組成[26]。對于給定特征圖,CBAM模塊會沿著通道和空間這兩個獨立的維度依次推斷注意力圖,然后將注意力圖與輸入特征圖相乘以進行自適應特征優(yōu)化,CBAM結構如圖4所示。由于CBAM是輕量級的通用模塊,因此可以忽略該模塊的開銷而將其無縫集成到解碼器網(wǎng)絡架構中,并且可以與基礎網(wǎng)絡一起進行端到端訓練。
1.2.4 添加條紋細化模塊突出邊緣特征
機械采收時果實目標的三維定位和枝干避障都需要精準的深度信息,單目圖像深度估計常見的邊緣模糊問題容易對機器人自主作業(yè)造成干擾。Xue等在2021年提出的條紋細化模塊(Stripe Refinement Module, SRM)如圖5所示,將條紋細化模塊應用到解碼器中,首先使用卷積核大小為3×11和11×3的條紋卷積,對水平與垂直正交方向的邊界像素進行聚集[15],再經(jīng)后續(xù)的特征融合與卷積可以較好的突出邊緣特征,改善邊緣模糊問題。
圖3 三種模塊結構
注:特征圖大小為H×W,通道數(shù)為N;d為降維系數(shù);Conv為卷積;Pool為池化;Softmax為歸一化指數(shù)函數(shù);Reshape為特征圖重塑。
圖5 條紋細化模塊
1.2.5 損失函數(shù)
為了訓練所提出的網(wǎng)絡,將預測深度p與真實深度g間的損失定義為3個損失函數(shù)的加權和:
=l+l+l(1)
式中l為像素深度值損失,l為梯度損失,l為表面法向量損失。
因為果樹主要集中在深度較淺區(qū)域,深度較深區(qū)域在圖像中較少,所以使用深度差的對數(shù)作為損失函數(shù)以降低背景等較深區(qū)域對預測結果的影響,l計算公式為
式中為圖像像素數(shù)。
考慮到場景深度通常離散,且在邊界位置容易發(fā)生突變,定義l改善邊緣失真:
對于細微結構誤差,通過計算法向量夾角來減少物體表面波動對深度估計的影響,l計算公式為
1.2.6 模型性能評價指標
本文采用深度精度指標來評價深度預測的準確性,使用深度邊界誤差(Depth Boundary Error,DBE)來評價預測深度圖中邊緣的完整性和準確性。
1)深度精度指標
深度精度由平均相對誤差(MRE)、均方根誤差(RMS)、對數(shù)平均誤差(log10)和不同閾值(thr)下準確率()4個指標組成,各指標表達式如下:
式中為測試集中所有圖像像素點總個數(shù)。
深度精度評價指標中,REL、RMSlog10的值越小越好,不同閾值下準確率()的值越大越好。
2)深度邊界誤差
1.2.7 試驗環(huán)境與參數(shù)設置
本文模型基于Tensorflow框架實現(xiàn),在深度學習工作站上進行訓練,其配置為AMDW-2245@3.90GHz×12,內存64 GB和顯存11 GB的NVIDIA GeForce RTX 2080 Ti,操作系統(tǒng)為Win10,安裝CUDA和CUDNN,python版本為3.7,tensorflow版本為2.2。首先在NYU Depth V2公共數(shù)據(jù)集上進行訓練,之后利用遷移學習,在果樹深度數(shù)據(jù)集上訓練微調參數(shù)。使用Adam(自適應估計)優(yōu)化器進行優(yōu)化,設置初始學習率為0.000 1,優(yōu)化器超參數(shù)1=0.9,2=0.999,每4個epoch降低10%。網(wǎng)絡共訓練60個epoch,步長為4。
為了驗證本文算法的有效性,對不同改進程度的HRNet網(wǎng)絡進行試驗。僅使用密集連接機制模塊的網(wǎng)絡記為HRNet-A,僅使用卷積注意力模塊記為HRNet-B,僅使用條紋細化模塊的網(wǎng)絡記為HRNet-C,同時進行以上所有改進的記為改進HRNet。在NYU Depth V2公共數(shù)據(jù)集和果樹深度數(shù)據(jù)集上對以上模型進行測試,REL、RMS、log10、不同閾值下準確率和深度邊界定位誤差結果如表1所示。同時,為了更直觀地體現(xiàn)不同改進對網(wǎng)絡預測結果的影響,在果樹深度數(shù)據(jù)集上進行主觀比較,深度圖對比如圖6所示。
表1 不同改進網(wǎng)絡評價指標對比
從表1可以看出使用密集連接機制,添加卷積注意力模塊,引入條紋細化模塊都能不同程度提升網(wǎng)絡的性能。
圖6中,與真實深度圖相比,原HRNet網(wǎng)絡生成的深度圖比較粗糙,有比較嚴重的深度失真、細節(jié)模糊問題。HRNet-A網(wǎng)絡生成的深度圖模糊問題得到改善;HRNet-B網(wǎng)絡生成的深度圖能較好地呈現(xiàn)圖像深度信息,分辨率得到提高;HRNet-C網(wǎng)絡和改進HRNet網(wǎng)絡生成的深度圖輪廓清晰,棱角分明,一些小尺寸物體的深度信息也得到了展現(xiàn);改進HRNet網(wǎng)絡生成的深度圖整體效果最好,更接近真實深度圖。
圖6 不同改進網(wǎng)絡在果樹深度數(shù)據(jù)集上的估計結果
將本文算法與當前主流的網(wǎng)絡進行試驗對比,包括文獻[14]中算法(稱為DenseDepthNet)、文獻[15]中算法(稱為BSNet)、文獻[17]中算法(稱為AdaBinsNet),進一步驗證本文算法的先進性??陀^評價指標結果如表2所示,網(wǎng)絡模型參數(shù)量及平均預測時間如表3所示。
表2 不同算法評價指標對比
表3 不同算法模型參數(shù)量及平均預測時間
從表中可以看出,本文算法的深度精度和邊界誤差指標都優(yōu)于DenseDepthNet、BSNet;與AdaBinsNet相比深度精度指標和深度邊緣準確誤差指標結果較差,但邊緣完整性誤差、模型參數(shù)量大小和平均預測時間都較小,有一定優(yōu)勢。
果樹深度數(shù)據(jù)集上不同算法主觀效果對比如圖7所示,改進HRNet網(wǎng)絡生成的深度圖具有更加精確的空間分辨率和更豐富的邊界細節(jié)信息。與真實深度圖相比,DenseDepthNet生成的深度圖比較模糊,部分物體連在一起,很難進行分辨;BSNet、AdaBinsNet和改進HRNet網(wǎng)絡生成的深度圖物體邊界都較為清晰,但改進HRNet網(wǎng)絡深度圖連續(xù)性更好,保留了更多細節(jié)信息,物體形狀更完整,主觀效果最好。
圖7 不同算法在果樹深度數(shù)據(jù)集上的估計結果
1)本文提出了一種基于改進HRNet的單幅圖像蘋果果樹深度估計模型。基于HRNet構建4個分支并行的編碼器網(wǎng)絡,通過使用密集連接機制、添加卷積注意力模塊,改進編碼器性能,強化特征圖結構信息,實現(xiàn)多尺度特征的有效提??;在解碼器中引入條紋細化模塊提高對小物體深度估計的準確性,深度圖邊緣模糊問題得到改善。
2)在公共數(shù)據(jù)集和果樹深度數(shù)據(jù)集上進行試驗,改進HRNet網(wǎng)絡在主觀評價和客觀指標上綜合表現(xiàn)最優(yōu),在果樹深度數(shù)據(jù)集上的平均相對誤差、均方根誤差、對數(shù)平均誤差、深度邊緣準確誤差和邊緣完整性誤差分別為0.123、0.547、0.051、3.90和10.59,在1.25、1.252、1.253閾值下的準確率分別達到了0.850、0.975、0.993,驗證了本文算法的有效性。
但由于在編碼器中需要進行多次特征融合,導致算法參數(shù)量和計算量較大,后續(xù)考慮對網(wǎng)絡進行輕量化處理,以便移植到嵌入式設備。
[1] 王丹丹,宋懷波,何東健. 蘋果采摘機器人視覺系統(tǒng)研究進展[J]. 農業(yè)工程學報,2017,33(10):59-69.
Wang Dandan, Song Huaibo, He Dongjian. Research advance on vision system of apple picking robot[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2017, 33(10): 59-69. (in Chinese with English abstract)
[2] 周云成,鄧寒冰,許童羽,等. 基于稠密自編碼器的無監(jiān)督番茄植株圖像深度估計模型[J]. 農業(yè)工程學報,2020,36(11):182-192.
Zhou Yuncheng, Deng Hanbing, Xu Tongyu, et al. Unsupervised deep estimation modeling for tomato plant image based on dense convolutional auto-encoder[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2020, 36(11): 182-192. (in Chinese with English abstract)
[3] 張勤,陳建敏,李彬,等. 基于RGB-D信息融合和目標檢測的番茄串采摘點識別定位方法[J]. 農業(yè)工程學報,2021,37(18):143-152.
Zhang Qin, Chen Jianmin, Li Bin, et al. Method for recognizing and locating tomato cluster picking points based on RGB-D information fusion and target detection[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(18): 143-152. (in Chinese with English abstract)
[4] 郭繼峰, 白成超, 郭爽. 基于深度學習的單目視覺深度估計研究綜述[J]. 無人系統(tǒng)技術,2019,2(2):12-21.
Guo Jifeng, Bai Chengchao, Guo Shuang. A review of monocular depth estimation based on deep learning[J]. Unmanned Systems Technology, 2019, 2(2): 12-21. (in Chinese with English abstract)
[5] 李陽,陳秀萬,王媛,等. 基于深度學習的單目圖像深度估計的研究進展[J]. 激光與光電子學進展,2019,56(19):9-25.
Li Yang, Chen Xiuwan, Wang Yuan, et al. Progress in deep learning based monocular image depth estimation[J]. Laser & Optoelectronics Progress,2019, 56(19): 9-25. (in Chinese with English abstract)
[6] Zhao C, Sun Q, Zhang C, et al. Monocular depth estimation based on deep learning: an review[J]. Science China Technological Sciences, 2020, 63(9): 1612-1627.
[7] 黃軍,王聰,劉越,等. 單目深度估計技術進展綜述[J]. 中國圖象圖形學報,2019,24(12):2081-2097.
Huang Jun, Wang Cong, Liu Yue, et al. The progress of monocular depth estimation technology[J]. Journal of Image and Graphics, 2019, 24(12): 2081-2097. (in Chinese with English abstract)
[8] 宋巍,朱孟飛,張明華,等. 基于深度學習的單目深度估計技術綜述[J]. 中國圖象圖形學報,2022,27(2):292-328.
Song Wei, Zhu Mengfei, Zhang Minghua, et al. A review of monocular depth estimation techniques based on deep learning[J]. Journal of Image and Graphics, 2022, 27(2): 292-328. (in Chinese with English abstract)
[9] Faisal K, Saqib S, Hossein J. Deep learning-based monocular depth estimation methods: A state-of-the-art review[J]. Sensors, 2020, 20(8): 2272-2272.
[10] Masoumian A, Rashwan H A, Cristiano J, et al. Monocular depth estimation using deep learning: A review[J]. Sensors, 2022, 22(14): 5353-5377.
[11] 江俊君,李震宇,劉賢明. 基于深度學習的單目深度估計方法綜述[J]. 計算機學報,2022,45(6):1276-1307.
Jiang Junjun, Li Zhenyu, Liu Xianming. Deep learning based monocular depth estimation: A survey[J]. Chinese Journal of Computers, 2022, 45(6): 1276-1307. (in Chinese with English abstract)
[12] Eigen D, Puhrsch C, Fergus R. Depth map prediction from a single image using a multi-scale deep network[C]// Proceedings of the 27th International Conference on Neural Information Processing Systems. Montreal: MIT Press, 2014. 2366-2374.
[13] Laina I, Rupprecht C, Belagiannis V, et al. Deeper depth prediction with fully convolutional residual networks[C]// Proceedings of the 4th International Conference on 3D Vision. New York: IEEE Press, 2016. 239-248.
[14] Alhashim I, Wonka P. High quality monocular depth estimation via transfer learning[EB/OL]. (2018-12-31) [2021-07-21]. https://arxiv.org/abs/1812.11941.
[15] Xue F, Cao J, Zhou Y, et al. Boundary-induced and scene-aggregated network for monocular depth prediction[J]. Pattern Recognition, 2021, 115: 1-38.
[16] Fu H, Gong M, Wang C, et al. Deep ordinal regression network for monocular depth estimation[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018.2002-2011.
[17] Bhat S F, Alhashim I, Wonka P. AdaBins: Depth estimation using adaptive bins[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2021: 4008-4017.
[18] 溫竣文. 單目圖像深度估計算法研究[D]. 廣州:華南理工大學,2021.
Wen Junwen. Research on Monocular Image Depth Estimation Algorithm[D]. Guangzhou: South China University of Technology, 2021. (in Chinese with English abstract)
[19] 霍智勇,喬璐. 基于結構化損失的單目深度估計算法研究[J]. 電子科技大學學報,2021,50(5):728-733.
Huo Zhiyong, Qiao Lu. Research on monocular depth estimation algorithm based on structured loss[J]. Journal of University of Electronic Science and Technology of China, 2021, 50(5): 728-733. (in Chinese with English abstract)
[20] Silberman N, Hoiem D, Kohli P, et al. Indoor segmentation and support inference from RGBD images[C]//Proceedings of the 12th European Conference on Computer Vision (ECCV), Florence, Italy. Berlin: Springer Press, 2012: 746-760.
[21] 劉佳濤,張亞萍,楊雨薇. 基于遷移學習的高效單目圖像深度估計[J]. 激光與光電子學進展,2022,59(16):236-244.
Liu Jiatao, Zhang Yaping, Yang Yuwei. Efficient monocular image depth estimation based on transfer learning[J]. Laser & Optoelectronics Progress, 2022, 59(16): 236-244. (in Chinese with English abstract)
[22] 羅會蘭,周逸風. 深度學習單目深度估計研究進展[J]. 中國圖象圖形學報,2022,27(2):390-403.
Luo Huilan, Zhou Yifeng. Review of monocular depth estimation based on deep learning[J]. Journal of Image and Graphics, 2022, 27(2): 390-403. (in Chinese with English abstract)
[23] Sun K, Xiao B, Liu D, et al. Deep high-resolution representation learning for human pose estimation[C]//IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2019: 5686-5696.
[24] 龍潔花,趙春江,林森,等. 改進Mask R-CNN的溫室環(huán)境下不同成熟度番茄果實分割方法[J]. 農業(yè)工程學報,2021,37(18):100-108.
Long Jiehua, Zhao Chunjiang, Lin Sen, et al. Segmentation method of the tomato fruits with different maturities under greenhouse environment based on improved Mask R-CNN[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(18): 100-108. (in Chinese with English abstract)
[25] Huang G, Liu Z, Vander M, et al. Densely connected convolutional networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2017: 4700-4708.
[26] Woo S, Park J, Lee J Y, et al. CBAM: convolutional block attention module[C]//Proceedings of the European Conference on Computer Vision(ECCV). Berlin: Springer Press, 2018: 3-19.
Depth estimation of apple tree in single image using improved HRNet
Long Yan, Gao Yan, Zhang Guangben
(1.712100,; 2.712100,; 3.712100,)
An accurate and rapid estimation of apple tree depth can be widely applied to the precise fruit positioning and robot autonomous harvesting in recent years. In this study, an improved High-Resolution Network (HRNet) was proposed to estimate the monocular depth of apple tree in the real scene. The actual requirements of the depth were obtained from a single RGB image for the apple mechanized picking. Firstly, a multi-branch parallel encoder network was constructed to extract the multi-scale features using the HRNet. A dense connection mechanism was introduced to enhance the continuity in the feature transfer process. Secondly, the Convolutional Block Attention Module (CBAM) was used to recalibrate the fused feature maps at the channel and pixel levels, in order to reduce the noise interference that caused by redundant features. Furthermore, the different weight distributions of the feature maps were effectively learned to enhance the structure information. In the decoder network, the Stripe Refinement Module (SRM) was used to gather the boundary pixels in the horizontal and vertical orthogonal directions. The boundary details of the feature map were adaptively optimized to highlight the edge features. As such, the blurry edge was reduced in the predicted images. Finally, the up-sampling was utilized to generate the prediction depth images of the same size as the RGB images. An image acquisition platform was constructed to collect the RGB and depth images of apple orchards at different times. The data was then enhanced using horizontal mirroring, color jitter, and random rotation. After data enhancement, the 3374 orchard RGB and depth images were obtained for the depth datasets. A series of experiments were also conducted on the NYU Depth V2 dataset and the orchard depth dataset. Ablation experiments were firstly performed on the HRNet networks with different degrees of improvement. The predictive performance of different improved networks was improved significantly, compared with the traditional HRNet network. It indicated that the dense connection mechanism, CBAM, and SRM were added to improve the model performance. Secondly, the mean relative error (MRE), root mean square error (RMS), logarithmic mean error, depth edge accuracy error, and edge integrity error of the improved HRNet network on the orchard depth dataset were 0.123, 0.547, 0.051, 3.90 and 10.59, respectively, compared with the current mainstream networks. The accuracy reached 0.850, 0.975 and 0.993 at different thresholds, respectively. More accurate spatial resolution was achieved in the depth map that generated by the improved HRNet network, in terms of subjective vision. The improved network can be expected to better present the depth information distribution of the image, particularly with the clear edges and more texture details. More importantly, the depth information of some small-sized objects was also displayed, indicating the best overall effect closer to the real depth map. The ablation analysis demonstrated the higher effectiveness of depth estimation using the improved network, compared with the subjective and objective ones. The experiment also verified that the proposed network was outperformed for both visual quality and objective measurement on the NYU Depth V2 and the orchard depth dataset. The finding can provide a new idea to obtain depth information in the apple automatic picking machine.
image processing; deep learning; apple tree; single image depth estimation; dense connection mechanism; convolutional block attention module; stripe refinement module
10.11975/j.issn.1002-6819.2022.23.013
S24; S126
A
1002-6819(2022)-23-0122-08
龍燕,高研,張廣犇. 基于改進HRNet的單幅圖像蘋果果樹深度估計方法[J]. 農業(yè)工程學報,2022,38(23):122-129.doi:10.11975/j.issn.1002-6819.2022.23.013 http://www.tcsae.org
Long Yan, Gao Yan, Zhang Guangben. Depth estimation of apple tree in single image using improved HRNet[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2022, 38(23): 122-129. (in Chinese with English abstract) doi:10.11975/j.issn.1002-6819.2022.23.013 http://www.tcsae.org
2022-09-26
2022-11-26
陜西省重點研發(fā)計劃一般項目—農業(yè)領域(2020NY-144)
龍燕,副教授,博士,研究方向為農業(yè)電子與自動化技術、數(shù)字農業(yè)與農業(yè)信息化工程。Email:longyan@nwsuaf.edu.cn