楊麗麗,陳 炎,田偉澤,徐媛媛,歐非凡,吳才聰
(中國(guó)農(nóng)業(yè)大學(xué)信息與電氣工程學(xué)院,北京 100083)
農(nóng)業(yè)是國(guó)民經(jīng)濟(jì)發(fā)展的基礎(chǔ)產(chǎn)業(yè),目前國(guó)內(nèi)農(nóng)業(yè)生產(chǎn)面臨著勞動(dòng)力不足和生產(chǎn)力低下等問題,發(fā)展農(nóng)業(yè)機(jī)械的自動(dòng)駕駛技術(shù)成為了解決這些問題的關(guān)鍵手段[1]。農(nóng)機(jī)多需要在機(jī)庫(kù)和農(nóng)田之間往來行駛,農(nóng)田間道路缺乏導(dǎo)航線,路邊常有雜草和泥土覆蓋,這就需要自動(dòng)駕駛農(nóng)機(jī)準(zhǔn)確識(shí)別道路區(qū)域,避免陷入兩側(cè)溝渠,同時(shí)躲避道路上的障礙物,實(shí)現(xiàn)安全行駛。機(jī)器視覺系統(tǒng)具有價(jià)格低廉,可靠性高的優(yōu)點(diǎn),基于視覺原理進(jìn)行道路識(shí)別,提取可行駛區(qū)域,對(duì)于自動(dòng)駕駛農(nóng)機(jī)的發(fā)展尤為重要。
道路識(shí)別通過對(duì)采集到的道路圖像進(jìn)行語義分割,可以看作是像素級(jí)的分類任務(wù),即對(duì)每一個(gè)像素進(jìn)行背景和道路的二分類任務(wù),從而提取可行駛區(qū)域。目前對(duì)結(jié)構(gòu)化的城市道路識(shí)別研究較多,Das等[2]使用手工提取特征的方法完成了道路識(shí)別,但這種方法參數(shù)調(diào)整較為復(fù)雜,魯棒性較差。Long等[3]提出了全卷積網(wǎng)絡(luò)(Fully Convolutional Networks, FCN),第一次將深度學(xué)習(xí)用于道路識(shí)別,在復(fù)雜的城市道路場(chǎng)景中實(shí)現(xiàn)了道路區(qū)域提取,但FCN僅使用一次上采樣將提取的高級(jí)語義特征恢復(fù)至原尺寸大小,對(duì)道路邊緣分割精度較低。Ronneberger等[4]在UNet網(wǎng)絡(luò)中提出了編碼解碼結(jié)構(gòu),解碼結(jié)構(gòu)中使用多步上采樣結(jié)構(gòu),同時(shí)融合了下采樣過程中的特征,增強(qiáng)了網(wǎng)絡(luò)的邊緣分割能力。Zhang等[5]在UNet結(jié)構(gòu)中加入跳躍性的殘差連接[6],促進(jìn)了信息的傳播,增加了網(wǎng)絡(luò)的可訓(xùn)練參數(shù),在道路分割中減少了噪聲點(diǎn)的產(chǎn)生,提高了多條車道交匯處的道路分割精度。Huang等[7]進(jìn)一步改進(jìn)了殘差連接結(jié)構(gòu),將下采樣過程中的不同大小的特征圖以殘差結(jié)構(gòu)連接到了上采樣過程中,將低級(jí)語義特征與高級(jí)語義特征相融合,進(jìn)一步提升了分割效果。為了提高卷積核的感受野,Chen等[8-13]將空洞卷積與空間金字塔池化(Spatial Pyramid Pooling, SPP)相結(jié)合,對(duì)于道路中的障礙物的邊緣分割具有良好的效果。不同于結(jié)構(gòu)化的城市道路,農(nóng)田間道路缺乏明顯的車道線等交通標(biāo)識(shí),半結(jié)構(gòu)化和非結(jié)構(gòu)化的道路邊界區(qū)分不明顯,形狀復(fù)雜多樣,道路兩旁的樹木多存在遮擋光照的情況,這些都增大了道路識(shí)別的難度。在農(nóng)田間道路特征明顯的路段,使用色彩信息[14-15]可以實(shí)現(xiàn)良好的分割效果,但這種方法對(duì)于光照極其敏感,缺乏對(duì)環(huán)境變化的適應(yīng)性。針對(duì)丘陵地區(qū)田間道路蜿蜒曲折、坡度大、雜草覆蓋多的特點(diǎn),李云伍等[16]使用深度學(xué)習(xí)的方法,在FCN中使用不同擴(kuò)張系數(shù)的空洞卷積進(jìn)行級(jí)聯(lián),提高了道路邊緣形狀的分割效果。
本文采集農(nóng)田間道路圖像構(gòu)建數(shù)據(jù)集,針對(duì)農(nóng)田間道路邊界模糊和環(huán)境復(fù)雜多變等特點(diǎn),以UNet作為基本結(jié)構(gòu)進(jìn)行改進(jìn),在農(nóng)田間道路場(chǎng)景下進(jìn)行道路區(qū)域識(shí)別,為后續(xù)的自動(dòng)駕駛農(nóng)機(jī)自主導(dǎo)航奠定基礎(chǔ)。
采集設(shè)備選取Stereolabs ZED雙目相機(jī),水平視場(chǎng)為90°,垂直視場(chǎng)為60°。該相機(jī)可同步采集左、右圖像,圖像分辨率為1 280×720(像素),幀率為30幀/s,采集軟件為相機(jī)自帶的ZED Explorer。選取雙目相機(jī)的左目圖像進(jìn)行數(shù)據(jù)集的標(biāo)注和訓(xùn)練。使用Matlab R2019b中的Stereo Camera Calibrator工具箱對(duì)雙目相機(jī)進(jìn)行標(biāo)定,計(jì)算可得左、右相機(jī)焦距、內(nèi)外參數(shù)、旋轉(zhuǎn)矩陣和平移矩陣等參數(shù)。數(shù)據(jù)采集于北京市大興區(qū)榆垡鎮(zhèn)。北京地區(qū)四季分明,夏秋季節(jié)草木茂盛,春冬季節(jié)草木凋零,為實(shí)現(xiàn)數(shù)據(jù)采集過程中盡可能包含實(shí)際生產(chǎn)活動(dòng)中的不同場(chǎng)景、天氣及光照條件,提高數(shù)據(jù)集的適用性,同時(shí)更加客觀地評(píng)估深度學(xué)習(xí)網(wǎng)絡(luò),選取環(huán)境差異較大的春季和夏季進(jìn)行圖像采集,光照條件包括光照良好、樹蔭遮擋和背光,天氣情況包括晴天、多云和雨天,雙目相機(jī)安裝在農(nóng)機(jī)上,安裝位置保證農(nóng)機(jī)行駛過程中無遮擋,安裝高度1.2 m。數(shù)據(jù)采集時(shí)農(nóng)機(jī)行駛速度約為5 km/h,采集路段的農(nóng)田間道路包括半結(jié)構(gòu)化道路與非結(jié)構(gòu)化道路,道路寬度為3~5 m。采集視頻時(shí)長(zhǎng)約8 h,從視頻中截取圖片制作數(shù)據(jù)集,篩選路段為機(jī)庫(kù)至農(nóng)田的田間道路區(qū)段,選擇清晰圖像,不考慮農(nóng)機(jī)震動(dòng)造成的運(yùn)動(dòng)模糊,共篩選出1 600張圖片,以4:1的比例劃分訓(xùn)練集和測(cè)試集。使用開源標(biāo)注軟件Labelme進(jìn)行圖像標(biāo)注,標(biāo)注得到農(nóng)田間道路與背景的二值圖像,作為真值圖像。
UNet由編碼器網(wǎng)絡(luò)和解碼器網(wǎng)絡(luò)組成,編碼器用于信息的提取,解碼器用于將特征圖尺寸恢復(fù)至原圖像大小,網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。在農(nóng)田間道路分割任務(wù)中,UNet中采用最大池化的下采樣方式,只選取2×2(像素)范圍內(nèi)的最大值代替整個(gè)區(qū)域,下采樣后特征圖寬度和高度為原來的一半,這對(duì)于道路特征信息損失較多?;诖耍疚膶?duì)UNet進(jìn)行改進(jìn),改進(jìn)后的網(wǎng)絡(luò)結(jié)構(gòu)如圖2d所示。輸入圖像首先經(jīng)由2個(gè)大小為3的非對(duì)稱卷積核(Asymmetric Convolution Block,ACBlock)[17]連續(xù)卷積提取道路特征,卷積過程中使用“零值填充”[18]保證特征圖尺寸大小不變,同時(shí)將通道數(shù)擴(kuò)展為64,相比于普通卷積核,具有更好的特征提取能力。在編碼器網(wǎng)絡(luò)中,每經(jīng)過2次卷積操作,增加殘差結(jié)構(gòu)將輸入路徑中的農(nóng)田間道路特征圖以像素點(diǎn)相加的方式與輸出路徑直接相連,每個(gè)卷積操作的后面都會(huì)緊跟一個(gè)批量標(biāo)準(zhǔn)化處理[19]。采用池化卷積融合結(jié)構(gòu)(the Fusion Block of Max Pooling and Convolution, FPCBlock)代替原UNet中最大池化層進(jìn)行下采樣,將下采樣和連續(xù)卷積重復(fù)4次,最終輸出特征圖尺寸相對(duì)縮小為輸入尺寸的1/16,通道數(shù)為1 024。在最后2層中采用空洞非對(duì)稱卷積(Dilated Asymmetric Convolution Block, DACBlock)進(jìn)行第1次卷積。改進(jìn)后的UNet解碼器包含4次上采樣,上采樣的方式為轉(zhuǎn)置卷積,上采樣過程中的特征與對(duì)應(yīng)的下采樣特征在通道層進(jìn)行拼接融合,最后經(jīng)由1×1卷積將通道數(shù)降至2,輸出農(nóng)田間道路與背景的二分類結(jié)果。
“零值填充”通過對(duì)圖像四周填充數(shù)值為0的像素,可以保持卷積過程中尺寸大小不變,但這種填充方式不利于圖像邊緣處特征的提取,在農(nóng)田間道路分割中降低了道路邊緣形狀的分割精度,殘差連接中的增強(qiáng)路徑可以有效地改善這個(gè)問題。改進(jìn)的UNet在編碼器網(wǎng)絡(luò)中添加了殘差連接,即在輸出層加入了一條輸入層的恒等映射,對(duì)于神經(jīng)網(wǎng)絡(luò)反向傳播過程中的梯度消失[20]的問題也有所改善。殘差連接在不增加額外訓(xùn)練參數(shù)的前提下增加了網(wǎng)絡(luò)復(fù)雜度,訓(xùn)練過程可以產(chǎn)生更多的擾動(dòng)以模擬復(fù)雜的農(nóng)田間道路環(huán)境,從而提高網(wǎng)絡(luò)對(duì)農(nóng)田間道路分割的準(zhǔn)確率。
原始UNet采用的下采樣結(jié)構(gòu)為最大池化層,用最大池化的選取范圍內(nèi)的最大值用以代替整個(gè)區(qū)域的像素值。最大池化層忽略了特征的位置,具有保持特征平移不變性的優(yōu)點(diǎn)[4,11,21-22],對(duì)處于圖像中不同位置的道路都可以保持較好的識(shí)別效果,但由于沒有可訓(xùn)練參數(shù),最大池化層舍棄了3/4的像素值,經(jīng)過4次池化得到的高級(jí)語義特征圖,理論上已無法恢復(fù)出原圖像中小于16像素的特征,損失了較多的有用信息,從而導(dǎo)致遠(yuǎn)處小面積的道路區(qū)域分割精度較差。
卷積操作的下采樣方式具有可訓(xùn)練參數(shù),經(jīng)過非線性運(yùn)算從而提取圖像中的語義特征[5,23]。結(jié)合最大池化關(guān)注于明顯特征的提取,而卷積則更有利于整體特征重建[24]的特性,本文提出了FPCBlock結(jié)構(gòu)進(jìn)行下采樣,輸入特征圖在FPCBlock中分別進(jìn)行大小和步長(zhǎng)都為2的卷積和池化操作,將得到的結(jié)果在特征通道層進(jìn)行融合,最后采用1×1卷積進(jìn)行降維輸出,如圖2a所示。FPCBlock的輸出層與輸入層相比,特征圖的尺寸減半,而通道數(shù)加倍,保證了卷積過程中道路信息的完整性[4]。改進(jìn)的UNet網(wǎng)絡(luò)使用FPCBlock替代原始UNet下采樣過程中的最大池化層,結(jié)合了卷積和最大池化的優(yōu)點(diǎn),提高了網(wǎng)絡(luò)對(duì)于復(fù)雜路況的提取能力,同時(shí)保持了在通道層融合結(jié)構(gòu)中編碼器和解碼器特征圖尺寸的一致性。
ACBlock相比于普通的卷積核,在卷積過程中權(quán)重分布不均勻,在中心點(diǎn)附近的“骨架”結(jié)構(gòu)上具有更高的權(quán)重,形成非對(duì)稱的結(jié)構(gòu),可以提取更多的有效特征,改進(jìn)的UNet使用ACBlock替換了原網(wǎng)絡(luò)中的普通卷積核,通過增加“骨架”結(jié)構(gòu)位置的權(quán)重提高了卷積核對(duì)于道路特征的提取能力。經(jīng)過批量標(biāo)準(zhǔn)化融合和分支融合[17],將ACBlock轉(zhuǎn)換為與普通的卷積核相同大小的結(jié)構(gòu),使改進(jìn)的UNet模型推理時(shí)間沒有增加。
在ACBlock基礎(chǔ)上,本文提出了擴(kuò)大感受野的DACBlock結(jié)構(gòu),DACBlock中將3×3卷積核替換為擴(kuò)張率為2的空洞卷積,另外2個(gè)分支保持不變,如圖2c所示。空洞卷積提高了卷積核的感受野,可以獲取更多的上下文信息,在神經(jīng)網(wǎng)絡(luò)中通過訓(xùn)練得到道路與路邊雜草、農(nóng)田等的某種“聯(lián)系”,可以更好地提高道路分割精度。但由于空洞卷積中存在空白的間隔,導(dǎo)致分割出的道路圖像會(huì)出現(xiàn)離散的像素點(diǎn)區(qū)域,形成“棋盤效應(yīng)”[25]。DACBlock中先進(jìn)行空洞卷積,再進(jìn)行1×1卷積的平滑處理,同時(shí)另外2個(gè)分支卷積填補(bǔ)“骨架”結(jié)構(gòu)的空白,提高了獲取特征的連續(xù)性,有效地改善了“棋盤效應(yīng)”的問題。改進(jìn)的UNet在下采樣的第4層和第5層中使用DACBlock進(jìn)行第1次卷積,增加了卷積核的感受野,從而提高道路識(shí)別精度。因?yàn)镈ACBlock增加了“骨架”結(jié)構(gòu)處的參數(shù),導(dǎo)致推理時(shí)間有所增加。
ACBlock和DACBlock僅對(duì)網(wǎng)絡(luò)中的卷積操作進(jìn)行修改,未修改網(wǎng)絡(luò)整體結(jié)構(gòu),無須修改輸入輸出和超參數(shù)等設(shè)置。
本文提出的改進(jìn)的UNet網(wǎng)絡(luò)基于PyTorch實(shí)現(xiàn),訓(xùn)練數(shù)據(jù)集共1 600張圖片,訓(xùn)練集與測(cè)試集分別為1 280與320張圖片。選擇Adam算法進(jìn)行端到端的訓(xùn)練,初始學(xué)習(xí)率設(shè)置為0.000 01,采用指數(shù)衰減的方式動(dòng)態(tài)調(diào)整學(xué)習(xí)率。訓(xùn)練集損失函數(shù)使用基于熵值的二分類損失,計(jì)算公式為
式中?y為此像素點(diǎn)被預(yù)測(cè)為道路的概率值,取值范圍為0~1,y為此像素點(diǎn)的真值,若此像素點(diǎn)為道路,則定義為1,否則為0。驗(yàn)證集損失函數(shù)計(jì)算方式如下:
式中A、B分別為預(yù)測(cè)道路區(qū)域和真值道路區(qū)域的面積,即區(qū)域范圍內(nèi)像素點(diǎn)的個(gè)數(shù)。Batchsize設(shè)置為8,默認(rèn)訓(xùn)練輪數(shù)為500,使用早停(Early Stopping Round)方法,當(dāng)連續(xù)10輪訓(xùn)練中驗(yàn)證集損失函數(shù)不下降時(shí),即停止訓(xùn)練,早停方法可以避免過擬合的產(chǎn)生,從而提高模型對(duì)于復(fù)雜環(huán)境的適應(yīng)性。采用交并比(Intersection Over Union, IOU)作為測(cè)試集評(píng)價(jià)標(biāo)準(zhǔn),計(jì)算公式如下:
本文使用的模型預(yù)測(cè)平臺(tái)GPU配置為GTX 1650,內(nèi)存為4G,為了評(píng)估各個(gè)改進(jìn)結(jié)構(gòu)的效果進(jìn)行對(duì)比試驗(yàn),以UNet為基礎(chǔ)網(wǎng)絡(luò),逐步添加改進(jìn)結(jié)構(gòu),構(gòu)建6組不同的神經(jīng)網(wǎng)絡(luò),試驗(yàn)如表1所示。試驗(yàn)1為原始UNet網(wǎng)絡(luò),試驗(yàn)2在試驗(yàn)1的基礎(chǔ)上添加了殘差連接,試驗(yàn)3,4在試驗(yàn)2的基礎(chǔ)上,分別將下采樣方式替換為卷積和FPCBlock,試驗(yàn)5,6在試驗(yàn)4的基礎(chǔ)上,將卷積核分別替換為ACBlock和DACBlock。通過不同網(wǎng)絡(luò)的對(duì)比,驗(yàn)證本文不同改進(jìn)結(jié)構(gòu)的提升效果。訓(xùn)練過程使用農(nóng)田間道路訓(xùn)練集進(jìn)行訓(xùn)練,訓(xùn)練完成后在測(cè)試集進(jìn)行測(cè)試,將在測(cè)試集上的預(yù)測(cè)結(jié)果與Labelme軟件標(biāo)注得到的真值比較,計(jì)算得到IOU以評(píng)價(jià)網(wǎng)絡(luò)的精度,網(wǎng)絡(luò)推理時(shí)間為預(yù)測(cè)過程中平均每張圖片的處理時(shí)間。
表1 不同改進(jìn)網(wǎng)絡(luò)結(jié)構(gòu)的效果對(duì)比 Table 1 Comparison of effects of different improved network structures
由表1可以看出,使用UNet網(wǎng)絡(luò)進(jìn)行農(nóng)田間道路分割,IOU僅為78.51%,本文提出的改進(jìn)UNet網(wǎng)絡(luò)IOU提高了6.52個(gè)百分點(diǎn),達(dá)到85.03%,由于FPCBlock和DACBlock中增加了訓(xùn)練參數(shù),導(dǎo)致模型參數(shù)量和推理時(shí)間有所增加。對(duì)比試驗(yàn)2,3可以看出,使用卷積下采樣比最大池化下采樣IOU提高了2.22個(gè)百分點(diǎn),這是因?yàn)榫矸e核在作用區(qū)域使用非線性計(jì)算提取了特征,訓(xùn)練過程中通過梯度下降不斷提高特征提取能力,增加了模型訓(xùn)練參數(shù),減少了下采樣過程中的信息損失。對(duì)比試驗(yàn)3,4可以看出,F(xiàn)PCBlock比卷積下采樣的IOU提高了1.41個(gè)百分點(diǎn),這是因?yàn)镕PCBlock在卷積下采樣的基礎(chǔ)上,將卷積與最大池化得到的特征進(jìn)行融合,僅增加了1×1卷積核中的少量參數(shù),使模型預(yù)測(cè)IOU進(jìn)一步得到提升。對(duì)比試驗(yàn)4,5可以看出,ACBlock比普通卷積IOU提高了1.11個(gè)百分點(diǎn),這是因?yàn)槭褂肁CBlock替換普通卷積核后,增加了“骨架”結(jié)構(gòu)的權(quán)重,這對(duì)于圖像的旋轉(zhuǎn)變形具有良好的識(shí)別效果,ACBlock卷積核大小與普通卷積核相同,因此模型參數(shù)量和推理時(shí)間與原結(jié)構(gòu)保持一致。對(duì)比試驗(yàn)5,6可以看出,DACBlock比ACBlock IOU提高了1.06個(gè)百分點(diǎn),這是因?yàn)镈ACBlock在ACBlock的基礎(chǔ)上使用空洞卷積,同時(shí)在另外2個(gè)分支中填補(bǔ)了空洞卷積“骨架”結(jié)構(gòu)中的空白部分,在保持特征圖尺寸不變的前提下,提高了高級(jí)語義特征的感受野,進(jìn)一步提高了分割精度。
為了更直觀地表示網(wǎng)絡(luò)改進(jìn)效果,選取表1中的試驗(yàn)1、2、4和6共4組不同的網(wǎng)絡(luò),分別代表原始UNet,和在UNet基礎(chǔ)上逐步添加殘差連接、FPCBlock、ACBlock和DACBlock結(jié)構(gòu),選取不同條件的農(nóng)田間道路圖像作為輸入圖像,以Labelme軟件標(biāo)注得到的二值圖像作為真值圖像,網(wǎng)絡(luò)預(yù)測(cè)結(jié)果對(duì)比如圖3所示。
由圖3可以看出,春季和夏季農(nóng)田間道路圖像中,背景差異較大,改進(jìn)后的UNet都能進(jìn)行較好的道路識(shí)別;多云天氣下,由于雜草遮擋的原因,在道路交匯處識(shí)別精度較差;雨后存在積水的道路,由于存在鏡面反射,對(duì)積水處存在一定程度的誤識(shí)別;在光照良好和傍晚、樹蔭等光照較弱的情況下,可以較好地完成道路分割,保障了農(nóng)機(jī)的安全行駛。
為了進(jìn)一步評(píng)價(jià)改進(jìn)UNet對(duì)于田間道路分割的性能,使用 UNet[4]、ResUNet[5]、DeeplabV3[10]、DeeplabV3+[11]、UNet3+[7], 在農(nóng)田間道路訓(xùn)練集上進(jìn)行訓(xùn)練后,然后在測(cè)試集上進(jìn)行測(cè)試得到推理時(shí)間和IOU,并與本文提出的改進(jìn)UNet進(jìn)行對(duì)比,以對(duì)比不同神經(jīng)網(wǎng)絡(luò)在農(nóng)田間道路分割時(shí)的精度和時(shí)間復(fù)雜度,比較結(jié)果如表2所示。
表2 不同網(wǎng)絡(luò)結(jié)構(gòu)的田間道路分割效果對(duì)比 Table 2 Comparison of field road segmentation effect with different network structures
從表2可以看出,本文提出的改進(jìn)的UNet網(wǎng)絡(luò),在分割準(zhǔn)確率IOU要優(yōu)于其他網(wǎng)絡(luò)。對(duì)比針對(duì)編碼器網(wǎng)絡(luò)和解碼器網(wǎng)絡(luò)的改進(jìn)效果,表1中的試驗(yàn)2僅在編碼器網(wǎng)絡(luò)中增加了殘差連接,IOU為79.23%,而ResUnet在編碼器和解碼器網(wǎng)絡(luò)都增加了殘差連接,IOU為79.28%,可以看出,改進(jìn)解碼器網(wǎng)絡(luò)模型提升效果不明顯,與前人結(jié)論一致[24]。
在農(nóng)田間道路分割任務(wù)中,道路區(qū)域在圖像中的分布位置呈現(xiàn)出近處占比高,遠(yuǎn)處占比小的特點(diǎn),道路邊緣缺乏規(guī)則的分界線,這些都增大了道路分割的難度。在農(nóng)田間道路分割任務(wù)中,分割精度對(duì)于安全駕駛尤為重要。本文提出的改進(jìn)的UNet分割I(lǐng)OU為85.03%,相比其他網(wǎng)絡(luò)精度較高,網(wǎng)絡(luò)推理時(shí)間平均每張圖片為163 ms,推理速度低于ResUNet,UNet 3+等網(wǎng)絡(luò)。農(nóng)機(jī)在農(nóng)田間道路上的行駛速度在20 km/h左右,表2中所有網(wǎng)絡(luò)推理時(shí)間都能滿足自動(dòng)駕駛農(nóng)機(jī)對(duì)于道路識(shí)別的速度要求。相比于其他網(wǎng)絡(luò),本文提出的改進(jìn)UNet在推理時(shí)間滿足要求的同時(shí)識(shí)別效果最優(yōu),適合自動(dòng)駕駛農(nóng)機(jī)的田間道路識(shí)別。
在農(nóng)田間道路分割任務(wù)中,本文以UNet為基本網(wǎng)絡(luò)結(jié)構(gòu),提出了以下3個(gè)改進(jìn)方向:
1)在解碼器網(wǎng)絡(luò)中每?jī)蓚€(gè)卷積操作之間建立一條恒等映射通道,通過像素點(diǎn)相加的方式建立殘差連接,改善了訓(xùn)練過程中梯度消失的問題,跳躍連接結(jié)構(gòu)促進(jìn)了網(wǎng)絡(luò)中信息傳播效率,增加了網(wǎng)絡(luò)復(fù)雜度。
2)建立FPCBlock,替代UNet網(wǎng)絡(luò)中最大池化層。該結(jié)構(gòu)結(jié)合了卷積和最大池化操作的優(yōu)點(diǎn),通過使用可訓(xùn)練參數(shù)進(jìn)行下采樣,減少了信息的損失。
3)使用ACBlock和DACBlock替換UNet中的3×3卷積核,ACBlock提高了卷積核的使用效率,DACBlock使用空洞卷積提高了卷積核的感受野,同時(shí)填補(bǔ)了空洞卷積“骨架”結(jié)構(gòu)中的空白部分,改善了“棋盤效應(yīng)”的問題。ACBlock和DACBlock使用方便,可以直接替換網(wǎng)絡(luò)中的普通卷積核,無須修改超參數(shù)設(shè)置,便于進(jìn)行網(wǎng)絡(luò)的訓(xùn)練。
本文提出的改進(jìn)的UNet網(wǎng)絡(luò),分割I(lǐng)OU為85.03%,相較于原UNet提高了6.52個(gè)百分點(diǎn),且高于ResUNet、UNet 3+等網(wǎng)絡(luò),平均每張圖片推理時(shí)間為163 ms,符合自動(dòng)駕駛農(nóng)機(jī)的時(shí)間要求。
農(nóng)業(yè)工程學(xué)報(bào)2021年9期