翟 鑫,李 昕
(安徽理工大學(xué) 電氣與信息工程學(xué)院,安徽 淮南 232000)
在汽車自動(dòng)駕駛領(lǐng)域中,使用深度卷積網(wǎng)絡(luò)構(gòu)建的計(jì)算機(jī)視覺(CV)技術(shù)在自動(dòng)駕駛中的多種視覺感知場(chǎng)景中取得了可觀的進(jìn)展[1]。目標(biāo)感知、目標(biāo)追蹤、場(chǎng)景理解、動(dòng)態(tài)感知等技術(shù)均依靠卷積神經(jīng)網(wǎng)絡(luò)(CNN)網(wǎng)絡(luò)實(shí)現(xiàn)了可靠的實(shí)際應(yīng)用[2]。在鐵路無人駕駛領(lǐng)域中,城市軌道交通中的地鐵列車運(yùn)行環(huán)境相對(duì)的封閉,使得較容易開展無人駕駛,從上世紀(jì)80年代開始無人駕駛系統(tǒng)應(yīng)用于法國(guó)、日本、馬來西亞、加拿大、新加坡等國(guó)家,國(guó)內(nèi)城市軌道交通中北京、上海、重慶、深圳均有地鐵線路應(yīng)用了無人駕駛系統(tǒng)[3]。相比于汽車與軌道交通的自動(dòng)駕駛,地上鐵路的無人駕駛有其獨(dú)特性,鐵路的運(yùn)行環(huán)境相對(duì)汽車具有封閉性,但是相對(duì)于軌道交通的運(yùn)行環(huán)境又是開放的,鐵路機(jī)車是依據(jù)列控系統(tǒng)的信號(hào)進(jìn)行運(yùn)行的,隨著鐵路機(jī)車自動(dòng)化水平的提高,現(xiàn)有運(yùn)行系統(tǒng)配合環(huán)境感知系統(tǒng)即可實(shí)現(xiàn)無人駕駛。使用RGB圖像作為進(jìn)行路軌環(huán)境計(jì)算機(jī)視覺分析感知的基礎(chǔ)數(shù)據(jù)源。MaskRCNN是目前廣泛使用的一種實(shí)例分割深度卷積網(wǎng)絡(luò)架構(gòu),但其進(jìn)行圖像分割的精度不夠高,圖像邊緣不夠精確,使用經(jīng)過改進(jìn)的MaskRCNN網(wǎng)絡(luò)進(jìn)行鐵路圖像的像素級(jí)精確實(shí)例分割[4]。
傳統(tǒng)的圖像分類網(wǎng)絡(luò),如LeNet-5,AlexNet,VGG等是整體設(shè)計(jì)而成的,網(wǎng)絡(luò)有擴(kuò)展能力不足的缺點(diǎn)。后繼的ResNet,DenseNet,MobileNet等是預(yù)先設(shè)計(jì)的基本網(wǎng)絡(luò)塊組成特征提取網(wǎng)絡(luò),可根據(jù)任務(wù)需求調(diào)整網(wǎng)絡(luò)結(jié)構(gòu),以便兼顧準(zhǔn)確率和計(jì)算量。DseNet在模塊結(jié)構(gòu)上繼承了模塊化單元塊網(wǎng)絡(luò)的思想,設(shè)計(jì)了一個(gè)新的卷積網(wǎng)絡(luò)單元Dseblock。在特征流動(dòng)上綜合了ResBlock[5]和DenseBlock[6]特性,在CIFAR-10數(shù)據(jù)集上圖像分類的準(zhǔn)確率超過了廣泛使用的ResNet網(wǎng)絡(luò)。具體的卷積網(wǎng)絡(luò)塊Dseblock結(jié)構(gòu)如圖1所示。Dseblock模塊有2個(gè)模塊結(jié)構(gòu)相同的子模塊串聯(lián)而成,由于子模塊中采用了通道下采樣,所以串聯(lián)2個(gè)為最合適的數(shù)量。子模塊中使用了拼接連接,以便最大化的傳遞特征,而在Dseblock中使用的短接連接為了提高網(wǎng)絡(luò)在訓(xùn)練中的收斂速度。
圖1中混合深度分離卷積是在普通卷積基礎(chǔ)上,首先進(jìn)行逐深度卷積運(yùn)算,之后進(jìn)行逐點(diǎn)卷積運(yùn)算,其在一個(gè)逐深度卷積運(yùn)算中混合了多個(gè)不同大小的卷積核,以獲取更廣泛的輸入特征,提高網(wǎng)絡(luò)的運(yùn)算效率。相對(duì)于常用的批量正則化(BN),濾波響應(yīng)正則化(FRN)在小批量數(shù)據(jù)上性能更優(yōu)越,因此本文中使用FRN代替了BN,以便提高DseNet的特征提取性能。SE是一種通道注意力機(jī)制,首先使用全局平均池化提取輸入的空間分布特征,之后通過一個(gè)兩層的全連接網(wǎng)絡(luò)進(jìn)行變換,最后與輸入道進(jìn)行逐通道的乘法運(yùn)算。拼接與短接,是深度卷積網(wǎng)絡(luò)中常用的連接方式。
圖1 Dseblock結(jié)構(gòu)圖
DseNet的主要結(jié)構(gòu)由DseBlock單元塊進(jìn)行線形組合構(gòu)成,組合的深度可根據(jù)任務(wù)數(shù)據(jù)集規(guī)模不同可靈活改變。DseNet網(wǎng)絡(luò)由輸入段、若干DseBlock、后處理輸出段組成,輸入段將輸入圖片進(jìn)行上采樣提高維數(shù),DseBlock對(duì)輸入段的輸出信息進(jìn)行逐級(jí)的特征提取,后處理段根據(jù)具體任務(wù)不同而選擇不同的結(jié)構(gòu)。DseNet網(wǎng)絡(luò)結(jié)構(gòu)示意圖如圖2所示。
圖2 DseNet架構(gòu)示意圖
MaskRCNN是目前廣泛使用的一種實(shí)例分割架構(gòu),MaskRCNN是在FasterRCNN的基礎(chǔ)上添加了一個(gè)mask分支實(shí)現(xiàn)了像素級(jí)的掩膜產(chǎn)生。
圖3所示為DseNet-MaskRCNN網(wǎng)絡(luò)架構(gòu)示意圖,在DseNet-MaskRCNN網(wǎng)絡(luò)架構(gòu)中,使用的特征提取網(wǎng)絡(luò)是DseNet構(gòu)建的特征金字塔網(wǎng)絡(luò)架構(gòu),經(jīng)過區(qū)域建議網(wǎng)絡(luò)運(yùn)算后進(jìn)行前背景區(qū)分及邊框回歸。最終運(yùn)算出目標(biāo)物的邊框損失、類別損失、掩膜損失和邊緣損失。MaskRCNN的mask分支采用的是全連接卷積網(wǎng)絡(luò)的方式,本文在此基礎(chǔ)上嘗試加入了通道注意力機(jī)制,形成了新的Mask-se頭,其結(jié)構(gòu)如圖4所示。
圖3 DseNet-MaskRCNN結(jié)構(gòu)示意圖
圖4 Mask-se頭結(jié)構(gòu)圖
Mask-se頭將來自RoIAlign的輸出作為SE塊的輸入,經(jīng)過Mask-se模塊運(yùn)算后輸出網(wǎng)絡(luò)所需的掩膜。
DseNet-MaskRCNN的損失函數(shù)由三部分合并而來:
L=Lcls+Lbox+Lmask
其中Lcls表示分類誤差,Lbox表示邊界框的回歸誤差,Lmask表示掩膜的分割誤差,為了提高掩模的邊緣準(zhǔn)確度,加強(qiáng)圖像的邊緣分割精度,在上式中加入了邊緣加權(quán)函數(shù)Lb,其中源和目標(biāo)對(duì)象邊緣的數(shù)據(jù)采用sobel算子進(jìn)行邊緣濾波得到,Lb的表達(dá)式如下:
其中?表示權(quán)重系數(shù),p表示分割邊緣B上的點(diǎn),M是對(duì)真值邊緣的距離變換,y′表示預(yù)測(cè)掩模的邊緣,y表示真值掩模的邊緣。
由于網(wǎng)上無合適的公開鐵路數(shù)據(jù)集可用,因此實(shí)驗(yàn)所使用的鐵路數(shù)據(jù)集由爬蟲程序從網(wǎng)絡(luò)抓取得到,實(shí)例分割鐵路軌行區(qū)需要較為清晰的路軌區(qū)域,并且障礙物應(yīng)該盡可能少,經(jīng)過人工篩選共得到2350張適用的鐵路圖片。這些圖片使用VIA工具進(jìn)行像素級(jí)的鐵軌軌行區(qū)域手工標(biāo)注。
經(jīng)過標(biāo)注的鐵路數(shù)據(jù)集規(guī)模較小,僅以此進(jìn)行的網(wǎng)絡(luò)訓(xùn)練難以使網(wǎng)絡(luò)充分收斂,不能使網(wǎng)絡(luò)在圖片的實(shí)例分割中達(dá)到較為滿意的正確率,因而在進(jìn)行鐵路數(shù)據(jù)集實(shí)例分割前,首先將DseNet-MaskRCNN網(wǎng)絡(luò)在MSCOCO數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練。MSCOCO是一個(gè)大型的目標(biāo)識(shí)別數(shù)據(jù)集,包含10余萬(wàn)張80個(gè)類別的圖像,是目標(biāo)識(shí)別領(lǐng)域較為常用的數(shù)據(jù)集。使用MSCOCO預(yù)訓(xùn)練可以使得網(wǎng)絡(luò)的各部分得到一個(gè)比較合適的初始權(quán)重,在目標(biāo)數(shù)據(jù)集上訓(xùn)練時(shí)可以大大加快網(wǎng)絡(luò)的收斂速度。
為了驗(yàn)證DseNet-MaskRCNN網(wǎng)絡(luò)的性能,在實(shí)驗(yàn)中進(jìn)行了其與MaskRCNN以及與不含掩模邊緣加權(quán)誤差的Dse網(wǎng)絡(luò),不含Mask-se頭的Dse網(wǎng)絡(luò)的對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)中采取0.8:0.1:0.1的比例劃分訓(xùn)練集、驗(yàn)證集和測(cè)試集,初始學(xué)習(xí)率設(shè)為0.001,使用Adam梯度下降算法進(jìn)行網(wǎng)絡(luò)訓(xùn)練。將上述網(wǎng)絡(luò)在自制鐵路數(shù)據(jù)集上經(jīng)過充分訓(xùn)練,所得實(shí)驗(yàn)結(jié)果如表1所示,其中的評(píng)價(jià)指標(biāo)AP90和AP95分別代表交并比大于90和交并比大于95時(shí)的樣本占比。
表1 實(shí)驗(yàn)結(jié)果對(duì)比
表1中Mask代表MaskRCNN;Dse1代表使用不含Mask-se頭結(jié)構(gòu)與掩模邊緣加權(quán)誤差的Dse(DseNet-MaskRCNN縮寫下同)網(wǎng)絡(luò);Dse2代表使用不含掩模邊緣加權(quán)誤差損失的Dse網(wǎng)絡(luò);Dse則代表包含Mask-se頭結(jié)構(gòu)與掩模邊緣加權(quán)誤差的完整的Dse網(wǎng)絡(luò)。
從表1可知,Dse的AP90和AP95均大于MaskRCNN,在AP90指標(biāo)上,Dse網(wǎng)絡(luò)達(dá)到了93.8%的正確率。其中Dse1的結(jié)果表明本文所設(shè)計(jì)的特征提取網(wǎng)絡(luò)性能良好,能夠高效的提取出目標(biāo)特征,在加入了掩模邊緣加權(quán)損失和Mask-se頭后正確率得到進(jìn)一步的提高。
在網(wǎng)絡(luò)的推理階段,DseNet-MaskRCNN計(jì)算每張圖像的平均運(yùn)行速度為66.6ms,約15幀/秒,該速度稍快于MaskRCNN的12幀/秒。由于實(shí)驗(yàn)中的程序基于python語(yǔ)言編寫,運(yùn)行效率較低,在實(shí)際應(yīng)用中可以考慮使用c語(yǔ)言編寫程序代碼,進(jìn)一步的提高運(yùn)行速度。
DseNet-MaskRCNN的實(shí)例分割效果對(duì)比如圖5所示。
(a)MaskRCNN (b) DseNet-MaskRCNN (c) MaskRCNN (d) DseNet-MaskRCNN
圖5中(a),(c)的為MaskRCNN所檢測(cè)到的鐵路區(qū)域,在鐵路邊緣區(qū)域存在小范圍的漏檢,圖5中(b),(d)的為DseNet-MaskRCNN所檢測(cè)到的鐵路區(qū)域,該網(wǎng)絡(luò)在整個(gè)鐵路區(qū)域上取得了良好的實(shí)例分割效果。
上述結(jié)果表明在采用了新的特征提取網(wǎng)絡(luò)、Mask-se頭后,DseNet-MaskRCNN在本文采集得到的鐵路數(shù)據(jù)集上可以取得滿意的鐵路實(shí)列分割效果,從圖5中明顯可見目標(biāo)邊緣處的檢測(cè)效果得到了有效的增強(qiáng)。
在鐵路實(shí)際行車時(shí),由于車輛寬度超過鐵軌寬度,鐵軌兩側(cè)若干距離也屬于限制區(qū)域,這個(gè)距離和鐵路行車的速度以及車輛種類有關(guān),由于鐵軌兩側(cè)的可提取特征相對(duì)稀少,使用傳統(tǒng)的圖像處理方法劃分兩側(cè)侵限范圍更加有效??梢院?jiǎn)便的根據(jù)鐵軌所占像素值計(jì)算出同位置的像素距離比,繼而可得到鐵路行車的侵限范圍。
實(shí)驗(yàn)結(jié)果表明DseNet這種結(jié)構(gòu)簡(jiǎn)單的網(wǎng)絡(luò)可以用于構(gòu)建高效的特征提取網(wǎng)絡(luò)模型。DseNet所采用的通道注意力機(jī)制混合深度卷積、濾波響應(yīng)正則化等卷積運(yùn)算形式取得了良好的效果,在CIFAR10數(shù)據(jù)集上經(jīng)過充分訓(xùn)練后正確率達(dá)到了92.8%,而經(jīng)典的ResNet僅達(dá)到了92.6%的正確率。在路軌的檢測(cè)與識(shí)別應(yīng)用上,改進(jìn)自MaskRCNN的DseNet-MaskRCNN性能可靠,能夠從測(cè)試圖片中高質(zhì)量的檢測(cè)與識(shí)別出路軌區(qū)域,檢測(cè)與識(shí)別的準(zhǔn)確率達(dá)到了93.8%,速度達(dá)到15幀/秒略快于MaskRCNN。為后續(xù)的鐵路無人駕駛等實(shí)用化研究提供了堅(jiān)實(shí)的基礎(chǔ)。但是由于能力所限,本文自制數(shù)據(jù)集規(guī)模有限,無法涵蓋所有鐵路實(shí)際環(huán)境,且該方法不能適用于光照條件不足或雨雪霧等復(fù)雜氣象環(huán)境下,后續(xù)研究中需要進(jìn)行更深入的工作。
佳木斯大學(xué)學(xué)報(bào)(自然科學(xué)版)2021年6期