卜華雨,楊國(guó)平
(201620 上海市 上海工程技術(shù)大學(xué) 機(jī)械與汽車工程學(xué)院)
對(duì)于綠化隔離帶的識(shí)別可分為對(duì)隔離帶路肩的識(shí)別與對(duì)隔離帶中綠化種類的識(shí)別,根據(jù)檢測(cè)識(shí)別出的不同綠化植被進(jìn)行不同方式的澆灌。目前基于自動(dòng)駕駛對(duì)于目標(biāo)識(shí)別的研究大多針對(duì)行人、車輛、車道線等安全因素開(kāi)展。國(guó)內(nèi)外當(dāng)前主流研究方法分為單階段和雙階段2 種。雙階段指檢測(cè)算法需要分2 步完成,首先需要獲取候選區(qū)域,然后進(jìn)行分類,比如R-CNN 系列;單階段檢測(cè)可以理解為一步到位,不需要單獨(dú)尋找候選區(qū)域,典型的有SSD 和YOLO 算法等[1]。
本文研究了一種對(duì)公路隔離帶綠化進(jìn)行識(shí)別的結(jié)合不感興趣區(qū)域的Faster-RCNN 改進(jìn)算法,使用改進(jìn)的RPN 網(wǎng)絡(luò)替代原有網(wǎng)絡(luò)以及不感興趣區(qū)域,可實(shí)現(xiàn)對(duì)不同綠化進(jìn)行識(shí)別,為無(wú)人駕駛澆灌車轉(zhuǎn)換澆灌模式提供支持。經(jīng)驗(yàn)證,該改進(jìn)算法可有效完成檢測(cè)任務(wù)。
Ross 等2014 年提出的基于區(qū)域的卷積神經(jīng)網(wǎng)絡(luò)方法 RCNN[2],成為基于區(qū)域提議方式進(jìn)行識(shí)別的典型方案。在檢測(cè)階段,RCNN 分4 個(gè)步驟:(1)使用視覺(jué)方法(如 Selective Search)生成大量候選區(qū)域;(2)對(duì)每個(gè)候選區(qū)域用CNN 進(jìn)行特征提取,形成高維特征向量;(3)將這些特征量送入一個(gè)線性分類器計(jì)算屬于某個(gè)類別的概率,用于判斷所包含對(duì)象;(4)對(duì)目標(biāo)外圍框的位置和大小進(jìn)行精細(xì)回歸[3]。
傳統(tǒng)的Faster R-CNN 首先需要經(jīng)過(guò)VGG-16網(wǎng)絡(luò),通過(guò)卷積網(wǎng)絡(luò)中各個(gè)卷積層卷積核的卷積后將生成的具有一系列特征的特征層輸入到RPN 網(wǎng)絡(luò)中[4]。如圖1 所示,傳統(tǒng)的Faster R-CNN 中的RPN 網(wǎng)絡(luò)有5 個(gè)特征層(Feature Layer),各自又有不同的高度、寬度和厚度。其中最深層的特征層L5 通過(guò)3×3 卷積后最終得到了候取框提取層Lc,最后通過(guò)1×1 的卷積送入Softmax 分類器并進(jìn)行邊框回歸。
圖1 傳統(tǒng)RPN 網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Traditional RPN network structure
本研究面向的對(duì)象是澆灌養(yǎng)護(hù)車輛,需要保證識(shí)別精度,而傳統(tǒng)RPN 網(wǎng)絡(luò)的特征提取因?yàn)橐WC速度,所以大大削弱了其特征細(xì)節(jié)以及其包含的信息量,這也使得最深層輸出特征層包含的圖像精度以及信息細(xì)節(jié)丟失過(guò)多,影響對(duì)目標(biāo)的識(shí)別以及定位。故本研究的思路是通過(guò)將次最深特征層進(jìn)行處理后與最深層特征層進(jìn)行結(jié)合,得到新的候取框提取層,從而提高目標(biāo)識(shí)別精確度以及定位的可信度。
本研究通過(guò)將次最深特征層同樣進(jìn)行3×3 的卷積并進(jìn)行L2正則化得到新的特征層Lc2,如圖2所示。L2正則化可理解為它對(duì)于大數(shù)值的權(quán)重向量進(jìn)行嚴(yán)厲懲罰,傾向于更加分散的權(quán)重向量[5]。進(jìn)行L2正則化處理的目的是提高模型的泛化能力,降低由于特征細(xì)節(jié)過(guò)多導(dǎo)致在訓(xùn)練中過(guò)擬合現(xiàn)象的發(fā)生風(fēng)險(xiǎn)[6]。新得到的特征層Lc2將與最深層特征層卷積生成的特征層Lc1的特征信息進(jìn)行融合,從而得出新的候取框提取層Lc3[7]。這種方法既可以將淺層次特征層與深層次特征層的特征信息進(jìn)行融合,也不會(huì)增加特征選取框候取層的厚度。
圖2 改進(jìn)的RPN 網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Improved RPN network structure
在模型訓(xùn)練過(guò)程中,在候取框提取層使用劃窗處理提取特征框,根據(jù)Faster R-CNN 中所述,使用不同大小的錨點(diǎn)框(Anchor box)對(duì)檢測(cè)目標(biāo)進(jìn)行框取,并計(jì)算其與目標(biāo)真實(shí)選框的交并比(IoU),將其中大于0.7 的定為正樣本,反之定為負(fù)樣本進(jìn)行訓(xùn)練[8]。
式中:Sdetection——檢測(cè)框區(qū)域面積;Ssetting——標(biāo)定框區(qū)域面積;Sdetection∩Ssetting——檢測(cè)框與標(biāo)定框所交區(qū)域面積。
在驗(yàn)證模型訓(xùn)練成果時(shí),模型將會(huì)檢測(cè)出許多測(cè)試圖片集中圖片所包含的眾多感興趣區(qū)域(ROI),每個(gè)待檢測(cè)目標(biāo)也會(huì)生成多個(gè)感興趣區(qū)域,因而為了使得模型針對(duì)某一目標(biāo)最終檢測(cè)輸出的感興趣區(qū)域精準(zhǔn)且唯一,大多目標(biāo)檢測(cè)模型都使用了非極大值抑制(Non-Maximum Suppression,NMS)的方法進(jìn)行篩選。但其算法有一大缺點(diǎn),由于其將與得分最高ROI 交并比,大于某個(gè)閾值的所有ROI 都直接打零分,所以其篩選過(guò)程較為粗暴。由于本研究針對(duì)檢測(cè)對(duì)象及檢測(cè)角度的背景,使檢測(cè)出的不同目標(biāo)框往往有較多重合,這意味著其交并比會(huì)較大,故使用非極大值抑制會(huì)導(dǎo)致目標(biāo)檢測(cè)的不全面,產(chǎn)生漏檢、少檢現(xiàn)象,故本文選擇了高斯非極大值抑制(Soft NMS)進(jìn)行感興趣區(qū)域的篩選,該算法相較于NMS,舍棄了將大于閾值的ROI 分?jǐn)?shù)歸零的操作,取而代之的是以稍低的分?jǐn)?shù)代替。其算法流程見(jiàn)表1。
表1 Soft NMS 算法流程圖Tab.1 Flow chart of Soft NMS algorithm
Soft NMS 打分標(biāo)準(zhǔn)函數(shù)為:
式中:si——ROI 的得分;M——當(dāng)前得分最高的ROI;bi——第i個(gè)待篩選ROI;σ——高斯權(quán)重,通常取0.3。
目前Faster-RCNN 大部分運(yùn)用在車輛識(shí)別以及行人識(shí)別,其檢測(cè)效果得到廣泛驗(yàn)證。本研究主要針對(duì)城市公路中央綠化隔離帶,運(yùn)用Faster-RCNN 進(jìn)行目標(biāo)檢測(cè)與識(shí)別,通過(guò)對(duì)不同綠化植物的識(shí)別,達(dá)到澆灌車輛的澆灌方式控制。
本研究數(shù)據(jù)集的采集,駕車行駛于上海松江區(qū)某公路,使用攝像機(jī)對(duì)沿途中央綠化隔離帶進(jìn)行攝錄,最后通過(guò)基于Python 語(yǔ)言Tensorflow 平臺(tái)下OpenCV 進(jìn)行圖像提取,獲得一份數(shù)量可觀的數(shù)據(jù)集。通過(guò)OpenCV 軟件截取的圖片取自高清攝像機(jī),需要對(duì)圖片數(shù)據(jù)進(jìn)行預(yù)處理,適當(dāng)縮小圖片像素及圖片大小,最后制作完成一份合格、合適的圖像數(shù)據(jù)。
實(shí)驗(yàn)硬件采用Z390 搭配Intel i9-9900k CPU,32 G 內(nèi)存以及NVIDIA2070 顯卡,操作系統(tǒng)為Windows 10;編程采用Tensorflow1.8,使用Python語(yǔ)言編譯。實(shí)驗(yàn)的樣本數(shù)據(jù)來(lái)自作者使用OpenCV對(duì)本地公路中央綠化隔離帶錄像的截取圖像,并隨機(jī)將其中75%的數(shù)據(jù)作為訓(xùn)練集,剩余25%數(shù)據(jù)作為測(cè)試集。在訓(xùn)練中需要提前將訓(xùn)練集圖像中的各個(gè)檢測(cè)目標(biāo)用矩形框進(jìn)行框取,本文主要對(duì)象為樹(shù)木(tree)、灌木(bush)以及花卉(flower)。如圖3 所示,在迭代次數(shù)達(dá)到5 000 次后,mAP 曲線震蕩幅度減小,趨于穩(wěn)定。
圖3 mAP 隨迭代次數(shù)的變化曲線Fig.3 mAP variation curve with the number of iterations
此外,由于道路兩旁行道樹(shù)對(duì)隔離帶植被檢測(cè)存在干擾,故根據(jù)圖像集合中中央綠化隔離帶位于圖片所在位置以及誤檢測(cè)行道樹(shù)的位置,選擇將攝像頭所攝圖像左上角灰色矩形區(qū)域設(shè)置為不感興趣區(qū)域(Region of non-interest,RONI),如圖4 所示。
圖4 不感興趣區(qū)域(RONI)Fig.4 Region of No Interest (RONI)
圖5 為采用改進(jìn)RPN 網(wǎng)絡(luò)以及不感興趣區(qū)域(RONI)的Faster R-CNN 算法對(duì)測(cè)試集中圖像進(jìn)行目標(biāo)識(shí)別的結(jié)果,圖6 為僅使用了改進(jìn)的RPN網(wǎng)絡(luò)的Faster R-CNN 算法對(duì)測(cè)試集中圖像進(jìn)行目標(biāo)識(shí)別的結(jié)果。
圖5 未使用不感興趣區(qū)域的目標(biāo)識(shí)別結(jié)果Fig.5 Target recognition result without using regions of no interest
圖6 使用了不感興趣區(qū)域的目標(biāo)識(shí)別結(jié)果Fig.6 Target recognition results using regions of no interest
結(jié)果顯示,使用了不感興趣區(qū)域的改進(jìn)的Faster R-CNN 算法在對(duì)中央綠化隔離帶植被的檢測(cè)中很好地避開(kāi)了道路兩旁的行道樹(shù)干擾,同時(shí)對(duì)植被種類的識(shí)別也較為準(zhǔn)確且定位精準(zhǔn)。表2 對(duì)比了二者與傳統(tǒng)Faster R-CNN 算法的檢測(cè)準(zhǔn)確率和召回率,不難看出,使用了RONI 的模型準(zhǔn)確率得到了提升,降低了誤檢率。
表2 3 種方法的檢測(cè)準(zhǔn)確率和召回率Tab.2 Detection accuracy and recall rate of the three methods
本文提出了結(jié)合不感興趣區(qū)域(RONI)的改進(jìn)Faster R-CNN 算法對(duì)城市公路中央綠化隔離帶的識(shí)別方法。試驗(yàn)表明,該模型相較于傳統(tǒng)Faster R-CNN 算法對(duì)于指定目標(biāo)在犧牲一定檢測(cè)時(shí)間的代價(jià)下得到了檢測(cè)精度的一定提升。但針對(duì)城市公路中央綠化隔離帶,目前僅可對(duì)較少的幾個(gè)常見(jiàn)綠化植被進(jìn)行識(shí)別,面對(duì)更為復(fù)雜的識(shí)別環(huán)境時(shí),模型的檢測(cè)類別以及添加更多類別后的識(shí)別精度還有待提高。