白 博,謝 剛,續(xù)欣瑩
太原理工大學(xué) 電氣與動(dòng)力工程學(xué)院,太原030024
近年來隨著人工智能的飛速發(fā)展,自動(dòng)駕駛引起了研究者的廣泛關(guān)注。在自動(dòng)駕駛中,對(duì)于周圍環(huán)境感知的研究一直是熱點(diǎn)問題,通過環(huán)境感知算法,能夠得到駕駛環(huán)境中的多種有效信息[1]。其中,車輛尾燈檢測(cè)可用于指導(dǎo)下一步的自動(dòng)駕駛路徑?jīng)Q策,在環(huán)境感知中有著非常重要的作用。在真實(shí)路況下,不同的天氣、光照因素都會(huì)對(duì)采集得到的圖像質(zhì)量有較大影響,如何獲得高精度且實(shí)時(shí)的檢測(cè)效果,一直是車輛尾燈檢測(cè)中的研究重點(diǎn)[2]。
傳統(tǒng)的尾燈檢測(cè)整體流程可分為候選區(qū)域檢測(cè)、特征提取及分類器分類三部分。部分研究者嘗試了提取形狀[3]、亮度[4]、顏色[5]等特征得到候選區(qū)域,依據(jù)對(duì)稱性等主觀設(shè)置的規(guī)則提取特征[4],或者通過不同顏色空間的轉(zhuǎn)換提取區(qū)域特征[6],最終應(yīng)用機(jī)器學(xué)習(xí)分類器如Adaboost[6]得到尾燈檢測(cè)結(jié)果。此類方法取得了一定成效,但依賴于大量的人工設(shè)計(jì),模型泛化性能較差且檢測(cè)精度無法滿足實(shí)際需求。得益于深度學(xué)習(xí)的飛速發(fā)展,Girshick 提出R-CNN[7]將目標(biāo)檢測(cè)帶入深度學(xué)習(xí)的浪潮后,檢測(cè)的精度得到了大幅度提升。后續(xù)的研究者基于R-CNN 框架,從多角度做了改進(jìn),F(xiàn)ast R-CNN[8]通過多任務(wù)損失函數(shù)及卷積權(quán)值共享,提升了檢測(cè)效率;Faster R-CNN[9]整合了區(qū)域提名與卷積神經(jīng)網(wǎng)絡(luò),真正實(shí)現(xiàn)了端到端的目標(biāo)檢測(cè)框架;Mask R-CNN[10]加入ROI Align 替換了Faster R-CNN 的ROI 池化,同時(shí)實(shí)現(xiàn)圖像的分割與檢測(cè);R-FCN[11]考慮檢測(cè)網(wǎng)絡(luò)中全連接層計(jì)算復(fù)雜度較高,引入全卷積操作,將位置敏感得分圖加入FCN,綜合響應(yīng)分類任務(wù)的平移不變性及檢測(cè)任務(wù)的平移可變性,大大提升了檢測(cè)的效率;最新的研究如FPN[12]、CascadeR-CNN[13]等,達(dá)到了極高的檢測(cè)精度,逼近了人類的分辨能力。上述檢測(cè)框架的研究都包含區(qū)域提名和檢測(cè)網(wǎng)絡(luò)兩部分,是典型的two-stage 方法,其他研究者提出了將分類和檢測(cè)任務(wù)統(tǒng)一的無區(qū)域提 名階 段的one-stage 方 法,如YOLO[14]、RetinaNet[15]、RefineDet[16]等,在檢測(cè)的實(shí)時(shí)性上獲得很大提升,但也損失了檢測(cè)精度,在通用目標(biāo)檢測(cè)數(shù)據(jù)集上的精度評(píng)價(jià)仍遜色于two-stage方法。
上述檢測(cè)框架中,R-FCN的全卷積操作適用于不同輸入尺寸的圖像,顯著減少了計(jì)算復(fù)雜度,在檢測(cè)精度和效率上較為平衡,但是仍不能滿足尾燈檢測(cè)高精度及高實(shí)時(shí)性的要求。本文對(duì)多尺度級(jí)聯(lián)R-FCN 的尾燈檢測(cè)算法進(jìn)行了研究,通過跨層連接網(wǎng)絡(luò)使特征圖包含底層特征及高層語(yǔ)義信息,加入批次歸一化層增速網(wǎng)絡(luò)收斂,將修正的R-FCN 子網(wǎng)絡(luò)級(jí)聯(lián)并在預(yù)測(cè)階段應(yīng)用改進(jìn)的非極大值抑制對(duì)檢測(cè)結(jié)果進(jìn)行去重,顯著增強(qiáng)了檢測(cè)精度且擁有一定的實(shí)時(shí)處理能力。
為精確實(shí)時(shí)地解決復(fù)雜城市環(huán)境下車輛尾燈檢測(cè)的問題,本文提出一種基于多尺度級(jí)聯(lián)R-FCN 的檢測(cè)框架(Multi-scale Cascade R-FCN,MC R-FCN)。MC R-FCN 的整體框架如圖1 所示。R-FCN 網(wǎng)絡(luò)結(jié)構(gòu)主要包含兩部分:區(qū)域提名網(wǎng)絡(luò)及檢測(cè)網(wǎng)絡(luò),其中區(qū)域提名網(wǎng)絡(luò)通過卷積提取目標(biāo)特征并給出目標(biāo)可能存在的候選區(qū)域;檢測(cè)網(wǎng)絡(luò)進(jìn)一步提取候選區(qū)域的特征并給出位置敏感得分圖,通過位置敏感池化得到最終的邊框位置及目標(biāo)對(duì)應(yīng)類別得分。從圖1 可看出,MC R-FCN 分離了R-FCN 兩個(gè)網(wǎng)絡(luò)架構(gòu),以Resnet50[17]為基礎(chǔ)的區(qū)域提名網(wǎng)絡(luò)P,和以位置敏感池化為核心的檢測(cè)網(wǎng)絡(luò)D1~D3,其中D1~D3 共享P 網(wǎng)絡(luò)的權(quán)值,P 網(wǎng)絡(luò)得到的候選區(qū)域僅被D1響應(yīng)。
圖1 MC R-FCN檢測(cè)框架示意圖
MC R-FCN 串聯(lián)檢測(cè)網(wǎng)絡(luò)的思想?yún)⒖剂薈ascade R-CNN[13]的重要思想,單一檢測(cè)網(wǎng)絡(luò)在固定IoU(Inter‐section over Union)閾值訓(xùn)練后得到的檢測(cè)邊界框,總比初始輸入的候選區(qū)域在位置上更精準(zhǔn),IoU 更高,且輸入的候選區(qū)域IoU 越接近檢測(cè)網(wǎng)絡(luò)訓(xùn)練時(shí)設(shè)置的正負(fù)樣本IoU 劃分閾值時(shí),模型的檢測(cè)精度越高。但一味地增加訓(xùn)練時(shí)的IoU 閾值,會(huì)導(dǎo)致模型初始劃分的負(fù)樣本過多,模型難以正確學(xué)習(xí)目標(biāo)特征,極易出現(xiàn)欠擬合問題。同時(shí),整個(gè)網(wǎng)絡(luò)耗時(shí)較高的是區(qū)域提名部分,檢測(cè)網(wǎng)絡(luò)通常為輕量級(jí)框架。如圖2 所示,每一級(jí)聯(lián)階段得到的訓(xùn)練樣本分布并不相同,且隨著級(jí)聯(lián)階段增加,網(wǎng)絡(luò)得到的樣本IoU 趨向于分布在高側(cè),候選區(qū)域質(zhì)量越來越高。因此,MC R-FCN 在檢測(cè)端堆疊了3 個(gè)檢測(cè)子網(wǎng)絡(luò),并對(duì)D1~D3 設(shè)置了不同的IoU 閾值,負(fù)責(zé)對(duì)質(zhì)量逐漸增加的候選區(qū)域進(jìn)行檢測(cè),且后一網(wǎng)絡(luò)僅接受來自前一網(wǎng)絡(luò)的檢測(cè)結(jié)果輸入,初始輸入由P 網(wǎng)絡(luò)得到,通過級(jí)聯(lián)方式不斷提高檢測(cè)精度。
圖2 訓(xùn)練樣例的IoU直方圖
對(duì)于單一檢測(cè)器,在輸入樣本IoU 接近于訓(xùn)練設(shè)置閾值時(shí)精度達(dá)到最高,很難在一次回歸中對(duì)級(jí)聯(lián)的所有輸入樣本求得最佳響應(yīng),因此在MC R-FCN 中,回歸問題被分解為一系列關(guān)聯(lián)的簡(jiǎn)單回歸問題,如公式(1)所示:
式中x 是圖像的提名區(qū)域,b 是邊界框,b={bx,by,bw,bh}包含區(qū)域x的四個(gè)坐標(biāo),f(x,b)是邊框回歸量,T 是級(jí)聯(lián)總數(shù),級(jí)聯(lián)中每一檢測(cè)器的回歸是對(duì)相應(yīng)輸入樣本的優(yōu)化,通過上階段優(yōu)化結(jié)果迭代求取,不是只對(duì)初始樣本的優(yōu)化函數(shù),逐步地提升了候選區(qū)域精度。此時(shí),級(jí)聯(lián)框架的總體損失函數(shù)如下公式計(jì)算:
式中g(shù) 是真實(shí)值,s是當(dāng)前級(jí)聯(lián)階段,cs是s階段檢測(cè)器的分類結(jié)果,ys是對(duì)應(yīng)分類結(jié)果的真實(shí)標(biāo)簽,Ιys是指示函數(shù),當(dāng)ys≥1時(shí)為1,表示只有在真實(shí)標(biāo)簽不為背景時(shí)計(jì)算定位損失,否則忽略此項(xiàng),α 是平衡系數(shù),默認(rèn)為1,fs是針對(duì)某一閾值us優(yōu)化的回歸結(jié)果,且us>us-1,bs=fs-1(xs-1,bs-1),由上一階段的回歸結(jié)果得到。可看出MC R-FCN 均衡考慮分類和回歸損失,且整體損失的下降依賴于上階段輸出結(jié)果,保證了級(jí)聯(lián)的檢測(cè)器在不同的IoU 閾值上得到充分的訓(xùn)練,隨著階段增加檢測(cè)器質(zhì)量不斷上升。
2.2.1 多尺度特征融合
MC R-FCN 預(yù)提取特征的基礎(chǔ)網(wǎng)絡(luò)采用了Resnet[17],仿照R-FCN 原本的基礎(chǔ)網(wǎng)絡(luò)配置,但是選用計(jì)算復(fù)雜度更低的Resnet50 結(jié)構(gòu)而非Resnet101,目的在于盡量不損失檢測(cè)精度的同時(shí)提升檢測(cè)框架的實(shí)時(shí)處理能力。R-FCN去掉了Resnet原有的全局平均池化層和最后的全連接層,只使用卷積層計(jì)算特征圖,并以在Im‐agenet上預(yù)訓(xùn)練的權(quán)重進(jìn)行初始化。在Resnet50 中,包含5 個(gè)主要的卷積模塊conv1~conv5,其中conv1 有64個(gè)7×7的卷積核;conv2 由堆疊的3 層殘差模塊組成,每個(gè)殘差模塊包含3 層卷積,為64 個(gè)1×1、64 個(gè)3×3、256個(gè)1×1的卷積核;conv3~conv5 與conv2 類似,分別有4、6、3 層堆疊的殘差模塊,只在卷積核數(shù)量上有所差別。R-FCN在conv5的最后一層殘差模塊加入一層1×1×1 024維的卷積,削減了原始特征圖的維度并加深了網(wǎng)絡(luò),得到更精確的結(jié)果。在網(wǎng)絡(luò)不斷的卷積操作中,圖像的信息被逐步提取,尺寸也逐漸變小,意味著卷積得到的特征圖對(duì)于原圖像的感受野逐漸變大,且靠近網(wǎng)絡(luò)底層的特征包含了圖像更多的細(xì)節(jié)信息和局部特征,靠近網(wǎng)絡(luò)高層的特征則更多包含了圖像的語(yǔ)義信息和全局特征。R-FCN 最后的特征圖尺寸比原始輸入圖像縮小了32倍,也即特征圖上一個(gè)像素點(diǎn)對(duì)應(yīng)原圖的32×32大小區(qū)域,特征圖上的語(yǔ)義信息更多偏向于全局特征,因此提取的候選區(qū)域會(huì)忽略掉原圖中小于32 個(gè)像素點(diǎn)的尾燈區(qū)域,造成檢測(cè)精度的損失。
為解決特征圖中包含信息不充分的問題,本文選取Resnet 中包含豐富細(xì)節(jié)信息的底層及包含全局語(yǔ)義信息的高層,將這些信息拼接得到最終的特征圖,具體方法如下,MC R-FCN 選取conv3-d、conv4-f、conv5-c作為多尺度特征融合的信息層,并以conv4-f 的輸出尺度作為特征圖的尺度。若輸入圖像尺寸為512×512×3,則conv3-d輸出尺度為64×64×512,后接一個(gè)平均池化層,得 到32×32×512 的 輸 出;conv4-f 輸 出 尺 度 為32×32×1 024;conv5-c 輸出尺度為16×16×2 048,后接一個(gè)上采樣層,為了簡(jiǎn)化計(jì)算使用最近鄰采樣,得到32×32×2 048的輸出,將三個(gè)輸出依據(jù)層次前后拼接得到32×32×3 584的特征圖,再參照R-FCN 的思想,增加一個(gè)1×1×1 024的卷積層用來降低輸出維度,最終得到的特征圖尺度為32×32×1 024。此特征圖被用于后續(xù)的位置敏感得分圖和RPN區(qū)域提名,同R-FCN類似。
MC R-FCN 選取跨度較大的卷積層作為特征融合的信息來源,綜合了網(wǎng)絡(luò)中多樣的細(xì)節(jié)和全局特征,且特征圖尺度是原特征圖的兩倍,能夠更好地檢測(cè)原圖中的多種車輛尾燈,包括會(huì)被原結(jié)構(gòu)忽略的小尾燈,在較少增加網(wǎng)絡(luò)負(fù)擔(dān)的情況下提升了較多的檢測(cè)精度。
2.2.2 批次歸一化
批次歸一化(Batch Normalization,BN)[18]是google提出的優(yōu)化訓(xùn)練方法,通過對(duì)一批次的輸入數(shù)據(jù)進(jìn)行歸一化,減少網(wǎng)絡(luò)對(duì)不同分布的輸入數(shù)據(jù)進(jìn)行調(diào)整適應(yīng)的過程,能夠加速網(wǎng)絡(luò)訓(xùn)練,有效緩解梯度消失問題。從圖2 可以看出,隨著MC R-FCN 級(jí)聯(lián)階段的加深,訓(xùn)練數(shù)據(jù)的IoU 固然得到了提升,但是數(shù)據(jù)的分布也發(fā)生了較大的變化,第一階段由RPN 提名的候選區(qū)域包含了很多低精度的訓(xùn)練樣本,網(wǎng)絡(luò)在訓(xùn)練過程中側(cè)重從低精度的輸入數(shù)據(jù)學(xué)習(xí)正樣本特征,但在后續(xù)階段網(wǎng)絡(luò)學(xué)到的正樣本特征不足以分辨正確的正樣本。因此,通過引入BN 層,MC R-FCN 希望解決訓(xùn)練過程中由于數(shù)據(jù)的分布變化,導(dǎo)致的網(wǎng)絡(luò)難以收斂或收斂速度慢的問題,提升網(wǎng)絡(luò)的訓(xùn)練效率和檢測(cè)精度。BN的計(jì)算規(guī)則如下:
式中x={ x1, x2,…,xn},是一個(gè)批次的訓(xùn)練數(shù)據(jù),μx、σx是數(shù)據(jù)的均值和標(biāo)準(zhǔn)差,是歸一化后的數(shù)據(jù)值,γ和β是BN 層需要學(xué)習(xí)的參數(shù),最后得到的批次歸一化輸出為y={ y1, y2,…,yn}??煽闯鲈诤雎驭?的情況下,批次訓(xùn)練數(shù)據(jù)被歸一化為均值為0 方差為1 的標(biāo)準(zhǔn)正態(tài)分布。MC R-FCN在R-FCN檢測(cè)網(wǎng)絡(luò)D1~D3的第一個(gè)卷積層后加入BN 層和Leaky Relu 層,通過規(guī)范化輸入訓(xùn)練數(shù)據(jù)的分布,減少了網(wǎng)絡(luò)對(duì)于不同IoU 數(shù)據(jù)分布的調(diào)節(jié)時(shí)間,加快了網(wǎng)絡(luò)的收斂速度。同時(shí)采用Leaky Relu作為激活函數(shù),相比softmax和Relu等,在加快網(wǎng)絡(luò)收斂速度和防止梯度消失和過擬合等問題上效果更好。和RFCN 相同,經(jīng)過MC R-FCN 改進(jìn)的檢測(cè)網(wǎng)絡(luò)第一層卷積后,得到k2×( C+ 1 )的輸出作為C 個(gè)類別的特征,k2×4的輸出作為邊界框回歸的特征。
為了適應(yīng)不同尺度的輸入圖像,MC R-FCN引入了多尺度訓(xùn)練思想,在訓(xùn)練模型的過程中,每隔100 個(gè)批次,隨機(jī)縮放輸入數(shù)據(jù)至新的尺度繼續(xù)訓(xùn)練,縮放范圍從原始圖像的1/4 到4 倍,加強(qiáng)了網(wǎng)絡(luò)對(duì)于不同尺度目標(biāo)特征的學(xué)習(xí),提高了網(wǎng)絡(luò)的泛化性能。同時(shí)為了在訓(xùn)練過程中對(duì)數(shù)據(jù)集中不平衡的少量樣本或與正樣本相似的混淆負(fù)樣本有更好的識(shí)別效果,加入了困難樣本挖掘機(jī)制,在前向傳播時(shí)記錄樣本的損失值,排序后取前80%的數(shù)據(jù)做反向傳播,一定程度上提升了檢測(cè)性能。
R-FCN 在模型預(yù)測(cè)階段加入了非極大值抑制(Non-Maximum Suppression,NMS)來剔除重合的預(yù)測(cè)結(jié)果,提高模型的平均精度(mean Average Precision,mAP)。但NMS 在篩選合格的檢測(cè)結(jié)果時(shí)需要設(shè)置一個(gè)合適的IoU 閾值,閾值過大會(huì)導(dǎo)致結(jié)果仍包含許多冗余的檢測(cè)框,造成模型假陽(yáng)性率升高,閾值過小會(huì)導(dǎo)致預(yù)測(cè)其他目標(biāo)的邊界框也被剔除,減少檢測(cè)精度,且NMS在篩選時(shí)的依據(jù)是分類置信度,可能導(dǎo)致定位更精準(zhǔn)但分類置信度低的檢測(cè)結(jié)果被誤刪。因此MC R-FCN引入IoU-guided NMS[19]代替?zhèn)鹘y(tǒng)NMS,改進(jìn)的NMS算法如下:
(1)選取預(yù)估IoU 最大的邊界框,記為bm并從邊界框集合B中剔除。
(2)遍歷集合B,將與bm的IoU大于閾值λ的邊界框bi的置信度si存儲(chǔ)到集合S中,并從集合B中剔除bi。
(3)取S 中最大的置信度sm,與bm組成元組存入結(jié)果集合R中。
(4)判斷B是否為空,為空返回結(jié)果R,否則跳轉(zhuǎn)至第(1)步繼續(xù)執(zhí)行。
改進(jìn)的NMS 算法對(duì)于分類置信度和定位置信度都有考量,剔除冗余檢測(cè)結(jié)果的效果較好,有效提升了MC R-FCN的檢測(cè)精度。
實(shí)驗(yàn)平臺(tái)為一臺(tái)64 GB內(nèi)存服務(wù)器,CPU是E5-2620,主頻2.10 GHz,GPU 是單卡GTX 1080Ti,顯存11 GHz,帶寬484 GB/s。MC R-FCN 采用的深度學(xué)習(xí)框架為Mxnet,基于Python 編程實(shí)現(xiàn)。采用數(shù)據(jù)集為CVPR 上公開車輛數(shù)據(jù)集中的尾燈子數(shù)據(jù)[20],包含5 260 張后方視角拍攝的實(shí)際道路圖像,以及4 種需要區(qū)分的尾燈狀態(tài),分別為直行(hold)、剎車(stop)、左轉(zhuǎn)(turnleft)及右轉(zhuǎn)(turnright)。將數(shù)據(jù)集每個(gè)類別以7∶3 的比例隨機(jī)劃分為訓(xùn)練集及測(cè)試集,其中訓(xùn)練集包含圖像3 682張,測(cè)試集包含圖像1 578 張。如圖3 所示,此數(shù)據(jù)集四種尾燈狀態(tài)的分布極不平衡,轉(zhuǎn)向狀態(tài)只占很少的部分,對(duì)于檢測(cè)網(wǎng)絡(luò)是較大的挑戰(zhàn),模型是否會(huì)對(duì)某類數(shù)據(jù)有偏好即mAP 是否類間分布不均衡也是衡量檢測(cè)方法性能的重要考量。
圖3 數(shù)據(jù)集分布
表1 MC R-FCN檢測(cè)結(jié)果
MC R-FCN網(wǎng)絡(luò)的一些基本參數(shù)設(shè)置如下:參數(shù)更新方法為隨機(jī)梯度下降法,模型訓(xùn)練50 個(gè)epoch,初始學(xué)習(xí)率為0.001,學(xué)習(xí)率在第25 和40 個(gè)epoch 時(shí)衰減為0.000 1 和0.000 01,批次大小為2,每訓(xùn)練1 個(gè)epoch 就進(jìn)行一次測(cè)試集驗(yàn)證。其中級(jí)聯(lián)的三個(gè)檢測(cè)器的IoU閾值為0.5、0.6、0.7,改進(jìn)的NMS的閾值設(shè)置為0.6。
4.2.1 改進(jìn)對(duì)比
實(shí)驗(yàn)從MC R-FCN 提出的主要?jiǎng)?chuàng)新入手,對(duì)不同的改進(jìn)策略分別進(jìn)行了實(shí)驗(yàn),結(jié)果如表1 所示,其中評(píng)價(jià)指標(biāo)使用通用的目標(biāo)檢測(cè)評(píng)價(jià)指標(biāo)mAP、檢測(cè)率(accuracy)、查全率(recall)及查準(zhǔn)率(precision)等,為便于對(duì)比實(shí)驗(yàn)結(jié)果,采用各類別查全率及查準(zhǔn)率的平均值作為模型的整體指標(biāo),表示為平均查全率及平均查準(zhǔn)率。
從表1可以看出,對(duì)MC R-FCN 平均精度提升貢獻(xiàn)最大的是多尺度特征融合和級(jí)聯(lián)策略,網(wǎng)絡(luò)在引入底層和高層的不同信息后,學(xué)習(xí)到了更豐富的目標(biāo)特征,mAP提升了4個(gè)百分點(diǎn),且模型對(duì)于檢測(cè)目標(biāo)的平均查全率和平均查準(zhǔn)率提升約3 個(gè)百分點(diǎn);對(duì)于級(jí)聯(lián)的檢測(cè)器,網(wǎng)絡(luò)接受的輸入數(shù)據(jù)IoU 越來越高,相應(yīng)的檢測(cè)結(jié)果越來越精準(zhǔn),提高了6.4個(gè)百分點(diǎn),對(duì)于平均查準(zhǔn)率的貢獻(xiàn)最突出,提高了5.9個(gè)百分點(diǎn);其他的改進(jìn)思想也達(dá)到了較好的改善效果,提升了網(wǎng)絡(luò)的精度,其中對(duì)于平均查全率貢獻(xiàn)最大的部分為多尺度訓(xùn)練。相比原始R-FCN 的78.6%,綜合前文改進(jìn)策略的MC R-FCN 的mAP達(dá)到了94.0%,在查全率和查準(zhǔn)率上的表現(xiàn)均提升了15%以上,檢測(cè)效果有了極大的改善。
同時(shí),MC R-FCN 在Resnet50 的conv3-d、conv4-f、conv5-c 之間嘗試了多種特征融合方法,如表2 所示,兩層組合能略微提升精度,三層融合的特征所包含的目標(biāo)特征信息最豐富,性能指標(biāo)顯著優(yōu)于其他融合策略,可以達(dá)到最佳檢測(cè)效果。
對(duì)于MC R-FCN 的三個(gè)級(jí)聯(lián)階段,完整訓(xùn)練后提取三階段檢測(cè)器分別對(duì)測(cè)試集進(jìn)行預(yù)測(cè),結(jié)果如表3 所示,可看出逐步訓(xùn)練的檢測(cè)器在第二階段性能就已大大優(yōu)于R-FCN,第三階段由于訓(xùn)練數(shù)據(jù)分布變化已經(jīng)不大,mAP 提升不明顯,但是集成3 個(gè)檢測(cè)器的結(jié)果在檢測(cè)率上仍有較大提升,綜合性能最優(yōu)。
表2 特征融合對(duì)比結(jié)果
表3 MC R-FCN級(jí)聯(lián)階段結(jié)果
MC R-FCN 在采用BN 層后加速了網(wǎng)絡(luò)收斂,如圖4 所示,相較于其他網(wǎng)絡(luò),在第15 個(gè)epoch 即達(dá)到較高精度。
圖4 MC R-FCN與其他模型訓(xùn)練過程對(duì)比圖
4.2.2 實(shí)驗(yàn)分析
MC R-FCN對(duì)比了目前目標(biāo)檢測(cè)領(lǐng)域的主流框架,如圖4所示。R-FCN 和CascadeR-CNN 在整體精度上遜色于其他方法,且收斂速度較慢。MC R-FCN前期收斂速度與FPN、MaskR-CNN 相當(dāng),但在收斂過程中波動(dòng)最小,且最先到達(dá)最優(yōu)精度??紤]到收斂速度、波動(dòng)幅度和整體精度,MC R-FCN的優(yōu)勢(shì)最為顯著。
表4 與其他檢測(cè)框架對(duì)比結(jié)果
具體的對(duì)比結(jié)果如表4 所示,F(xiàn)aster R-CNN 在左轉(zhuǎn)樣本的mAP 上表現(xiàn)最好但檢測(cè)率較低;FPN 在剎車及直行樣本上有最佳mAP,且擁有最高的查準(zhǔn)率,但是耗時(shí)較長(zhǎng);Yolov3 檢測(cè)時(shí)間最短,類間mAP 分布不均衡造成了虛高的檢測(cè)率;MaskR-CNN 右轉(zhuǎn)樣本mAP 最高,整體性能較好;MC R-FCN 分類別mAP 較為均衡,在總體mAP、查全率及檢測(cè)率等多個(gè)指標(biāo)上有最佳表現(xiàn),且預(yù)測(cè)耗時(shí)較少,整體性能最優(yōu)。
圖5 展示了不同框架下同一張圖像的檢測(cè)結(jié)果,可以看出,CascadeR-CNN 和R-FCN 均有不同程度的錯(cuò)檢或漏檢,相較于FPN 和MaskR-CNN,MCR-FCN 的邊框最精準(zhǔn)且類別置信度最高。MCR-FCN能檢測(cè)到不平衡的轉(zhuǎn)向數(shù)據(jù),對(duì)于車輛遮擋,運(yùn)動(dòng)模糊等情況也有很好的檢測(cè)效果。
圖5 與其他檢測(cè)框架結(jié)果對(duì)比展示圖
4.2.3 泛化性能
為了驗(yàn)證MC R-FCN 在其他數(shù)據(jù)集上的泛化性能,選取BDD 數(shù)據(jù)集[22]和互聯(lián)網(wǎng)中部分圖片進(jìn)行了預(yù)測(cè),結(jié)果如圖6 所示,可看出MC R-FCN 有較好的泛化能力。
圖6 泛化性能展示圖
本文為了解決復(fù)雜城市環(huán)境下車輛尾燈檢測(cè)精度和效率不高的問題,對(duì)多尺度級(jí)聯(lián)R-FCN 的車輛尾燈檢測(cè)算法進(jìn)行了研究,在R-FCN 的特征提取網(wǎng)絡(luò)中考慮不同級(jí)別的圖像信息,加入了多尺度的特征融合,并加入批次歸一化層加速網(wǎng)絡(luò)訓(xùn)練過程,應(yīng)用級(jí)聯(lián)策略連接了改進(jìn)的R-FCN 子網(wǎng)絡(luò),同時(shí)在預(yù)測(cè)階段利用改進(jìn)的非極大值抑制方法,顯著提升了網(wǎng)絡(luò)的檢測(cè)性能。在公開數(shù)據(jù)集上的實(shí)驗(yàn)表明MC R-FCN在檢測(cè)的mAP和實(shí)時(shí)性上綜合優(yōu)勢(shì)明顯,且模型具有一定的泛化能力。未來考慮采用更精簡(jiǎn)的基準(zhǔn)網(wǎng)絡(luò),進(jìn)一步提升網(wǎng)絡(luò)的實(shí)時(shí)性能,以便更好地應(yīng)用于實(shí)際場(chǎng)景。