黃仝宇,胡斌杰,朱婷婷,黃哲文
1.華南理工大學(xué) 電子與信息學(xué)院,廣州510640
2.廣東白云學(xué)院 大數(shù)據(jù)與計算機學(xué)院,廣州510450
3.廣州市生發(fā)科技服務(wù)有限公司 技術(shù)部,廣州510308
近年來,隨著人工智能技術(shù)的快速發(fā)展,涌現(xiàn)一大批基于深度學(xué)習(xí)的目標(biāo)檢測算法,并被廣泛應(yīng)用于輔助駕駛、視頻監(jiān)控、工業(yè)檢測與機器人視覺等領(lǐng)域的目標(biāo)檢測任務(wù)中。從設(shè)計原理來看,基于深度學(xué)習(xí)的目標(biāo)檢測可分為以R-CNN(Region-Conventional Neural Network)[1]、Fast R-CNN[2]和Faster R-CNN[3]為代表的兩階段目標(biāo)檢測算法(Two-stage Object Detector)以及以YOLO[4-6](You Only Look Once)系列、SSD[7-8(]Single Shot Multibox Detector)為代表的單階段目標(biāo)檢測算法(One-stage Object Detector)兩個類別。其中,兩階段目標(biāo)檢測算法分為兩個階段,第一階段通過候選區(qū)域生成網(wǎng)絡(luò)(Region Proposal Network,RPN)生成一個有可能包含待檢測目標(biāo)的候選框,第二階段通過卷積神經(jīng)網(wǎng)絡(luò)提取特征來對候選框中候選目標(biāo)的類別和位置進(jìn)行判斷和預(yù)測;單階段目標(biāo)檢測算法不使用候選區(qū)域生成網(wǎng)絡(luò),直接在卷積神經(jīng)網(wǎng)絡(luò)中提取特征來判斷和預(yù)測目標(biāo)分類和位置信息。盡管單階段目標(biāo)檢測算法在檢測速度上有了很大的提高,但是檢測精度卻不如兩階段目標(biāo)檢測算法。為了提升單階段目標(biāo)檢測算法精度,2017 年Lin 等人提出RetinaNet[9]算法,通過結(jié)合FPN[10(]Feature Pyramid Network,特征金字塔網(wǎng)絡(luò))和FCN[11(]Fully Convolutional Networks,全卷積神經(jīng)網(wǎng)絡(luò)),并重新定義標(biāo)準(zhǔn)的交叉熵?fù)p失,較好地提升了特征提取的效果。2018年Zhang等人基于SSD提出了改進(jìn)方法RefineDet[12]算法,結(jié)合單階段檢測算法和兩階段檢測算法的優(yōu)點,采用一種兩步級聯(lián)回歸(two-step cascaded regression)方式來實現(xiàn)目標(biāo)檢測,提升了目標(biāo)的定位精度和分類效果。江忠錢[13]提出一種基于RefineDet算法的多特征最大值融合的行人檢測算法,使得融合層的特征可辯性更強,在小目標(biāo)和目標(biāo)遮擋情況下體現(xiàn)出較好的檢測性能。岳楷嵐[14]以RefineDet 算法為基礎(chǔ)框架,結(jié)合特征增強和特征融合模塊,較好地提升了輔助駕駛系統(tǒng)中小目標(biāo)行人的檢測能力。季一木等人[15]基于RGBD、激光點云與傳感器等多種感知技術(shù),提出3D目標(biāo)檢測算法,研究無人駕駛場景下的車輛感知。針對多尺度目標(biāo)檢測存在的問題,Pang等人構(gòu)建LFIP[16(]Light-weight Featurized Image Pyramid,輕量級特征化的圖像金字塔)網(wǎng)絡(luò),通過采用輕量級卷積塊提取判別性信息更多的多尺度特征圖,提升目標(biāo)分類的準(zhǔn)確度。為了增強網(wǎng)絡(luò)結(jié)構(gòu)的特征提取能力,Liu 等人提出了RFB[17(]Receptive Field Block,感受野塊),它通過模擬視覺系統(tǒng)中RFs(Receptive Fields,感受野)的大小和偏心率之間的關(guān)系以增強特征的可辨性和模型的魯棒性。
由于車輛駕駛場景下采集的圖像較為復(fù)雜,存在小目標(biāo)、遮擋目標(biāo)等情況,因此本文基于RefineDet網(wǎng)絡(luò)模型進(jìn)行了一系列改進(jìn)與優(yōu)化,構(gòu)建面向駕駛場景的多尺度特征融合的目標(biāo)檢測方法。
RefineDet[12-14]網(wǎng)絡(luò)模型主要由ARM(Anchor Refinement Module,錨點框修正模塊)和ODM(Object Detection Module,目標(biāo)檢測模塊)兩個模塊組成,通過TCB(Transfer Connection Block,轉(zhuǎn)換連接模塊)連接。其中,ARM 模塊通過卷積層提取特征后得到不同尺度的特征圖,可以粗略預(yù)測和估算目標(biāo)的位置和得分,過濾不包含目標(biāo)的負(fù)錨點框以減少搜索空間和時間,并初步調(diào)整錨點框的大小和位置;ODM 模塊是根據(jù)修訂后的錨點框?qū)⒔Y(jié)果調(diào)整到準(zhǔn)確的目標(biāo)位置并預(yù)測多類別標(biāo)簽??梢姡琑efineDet 網(wǎng)絡(luò)模型兼?zhèn)鋯坞A段檢測算法和兩階段檢測算法的優(yōu)點,在檢測速度和檢測精度方面都有較好的表現(xiàn)[12]。然而,由于深層卷積神經(jīng)網(wǎng)絡(luò)傾向于提取抽象的語義信息,對小目標(biāo)特征信息不敏感;而淺層卷積神經(jīng)網(wǎng)絡(luò)所提取的小目標(biāo)特征信息在訓(xùn)練過程中因無法確定是正確的分類而被丟棄,因此RefineDet網(wǎng)絡(luò)模型存在小目標(biāo)漏檢或誤檢的情況。
為了保留淺層卷積神經(jīng)網(wǎng)絡(luò)提取的小目標(biāo)特征信息,提升駕駛場景中不同尺寸目標(biāo)的檢測精度,在RefineDet網(wǎng)絡(luò)結(jié)構(gòu)中的ARM模塊嵌入一個輕量級特征化的圖像金字塔LFIP[16],記為RefineDet-LFIP。將LFIP網(wǎng)絡(luò)中生成的多尺度特征圖與RefineDet 中的ARM 模塊輸出的結(jié)果相融合,使得特征層的不同尺度的目標(biāo)信息均可以得到保留,可提升特征層中錨點框初步分類和回歸的輸出效果,為ODM 模塊提供修正的錨點框以便于進(jìn)一步回歸和多類別預(yù)測。
為了進(jìn)一步增強RefineDet網(wǎng)絡(luò)結(jié)構(gòu)的特征提取能力,在RefineDet網(wǎng)絡(luò)結(jié)構(gòu)中的ODM模塊之后嵌入多分支結(jié)構(gòu)RFB[17],記為RefineDet-RFB。RefineDet-RFB 在目標(biāo)檢測任務(wù)中獲得不同尺度的感受野以改善主干網(wǎng)絡(luò)中提取特征的能力?;赗efineDet 網(wǎng)絡(luò)結(jié)構(gòu),分別嵌入LFIP網(wǎng)絡(luò)結(jié)構(gòu)和RFB模塊的網(wǎng)絡(luò)結(jié)構(gòu)記為Refine-Det-LFIP-RFB。如圖1所示。
圖1 基于改進(jìn)RefineDet的多尺度特征融合目標(biāo)檢測網(wǎng)絡(luò)模型
1.1.1 RefineDet-LFIP模塊
原LFIP網(wǎng)絡(luò)是基于SSD框架上設(shè)計[16],在RefineDet-LFIP 中,對LFIP 的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行了一些調(diào)整。設(shè)輸入圖像尺寸為320×320×3。為了保留更多有效的多尺度目標(biāo)的特征信息,首先對輸入的圖像執(zhí)行4次迭代下采樣(Interative Down Sampling)操作得到一個4 個層級的圖像金字塔{i1,i2,i3,i4},每個層級圖像in的分辨率與主干網(wǎng)絡(luò)對應(yīng)層級輸出的特征圖保持一致,分別為40×40,20×20,10×10 與5×5。然后,將其輸送至一個包含1×1與3×3卷積層、通道不同的輕量級卷積塊生成四個不同尺度的特征圖,分別為40×40×512,20×20×512,10×10×1 024 與5×5×512,從而使得LFIP[16]網(wǎng)絡(luò)生成的多尺度特征圖與RefineDet 網(wǎng)絡(luò)結(jié)構(gòu)中ARM 模塊對應(yīng)的主特征圖相匹配。其次,對LFIP 網(wǎng)絡(luò)生成的多尺度特征圖與ARM 模塊相對應(yīng)的主特征圖進(jìn)行BN[18](Batch-Norm,歸一化)操作,將特征圖的值控制在同一范圍內(nèi)。為了增強不同尺度目標(biāo)的重點特征信息,抑制不重要的特征信息,將歸一化后的兩種特征圖進(jìn)行對應(yīng)元素相乘,使得特征圖具有更豐富的空間細(xì)節(jié)信息。再次,經(jīng)過一個PReLU激活函數(shù)和兩個3×3的卷積層以生成調(diào)制特征圖。
記RefineDet 網(wǎng)絡(luò)結(jié)構(gòu)中第n層的特征圖為fn,對應(yīng)的LFIP網(wǎng)絡(luò)中的特征圖為sn,β(?)表示BN操作,φn(?)表示PReLU激活函數(shù)和兩個3×3的卷積層,生成的調(diào)制特征圖mn。如式(1)所示:
在此基礎(chǔ)上,將檢測層Conv5_3、Fc7和Conv6_2的調(diào)制特征圖與前一層的調(diào)制特征圖融合,可以有效地在較淺層特征中融合多個不同尺度的語義信息,提升對不同尺度目標(biāo)檢測的能力。
記第n層的調(diào)制特征mn,第n-1 層的調(diào)制特征為mn-1,φn表示3×3卷積層、上采樣和BN操作,β(?)表示BN操作,γ(?)表示PReLU激活函數(shù)3×3的卷積層,生成的目標(biāo)融合特征圖為dn,并將特征圖dn送至ODM 模塊以提取目標(biāo)信息。dn的表達(dá)式如式(2)所示:
由上述的分析可知,RefineDet 網(wǎng)絡(luò)結(jié)構(gòu)中的ARM模塊用于移除不包含目標(biāo)的負(fù)錨點框,并初步調(diào)整錨點框的位置和大小。ARM 輸出主特征與LFIP 網(wǎng)絡(luò)生成的多尺度特征融合之后,使得提取的特征信息不僅具有豐富的空間細(xì)節(jié)信息,而且融合了不同尺度的語義信息,可提升特征層中錨點框初步分類和回歸的輸出效果,為ODM 模塊提供修正的錨點框以便于進(jìn)一步回歸和多類別預(yù)測。
在檢測速度方面,由于圖像金字塔網(wǎng)絡(luò)中的卷積層相對較淺,且采用最大下采樣的尺度比原圖縮小了8倍,故而對檢測速度影響不大。
1.1.2 RefineDet-RFB
在RefineDet 網(wǎng)絡(luò)結(jié)構(gòu)中的ODM 模塊每個參與最后預(yù)測的P3、P4、P5 與P6 特征層后接一個感受野模塊RFB[17],采用多種尺寸的卷積核來使感受野多樣化。RFB 模塊是由多種不同尺寸卷積核的卷積層構(gòu)成的多分支網(wǎng)絡(luò)結(jié)構(gòu)。RFB 模塊首先采用1×1 卷積降低通道數(shù),然后分別進(jìn)行1×1、3×3 和5×5 卷積操作以及比率Rate 為1、2 和3 的擴(kuò)張卷積操作。在此基礎(chǔ)上,采用對應(yīng)元素相加的方式將這些特征圖進(jìn)行融合,以融合不同的特征。最后,通過使用跳層連接操作,將輸入特征圖與擴(kuò)大感受野后的特征圖進(jìn)行結(jié)合,輸送至目標(biāo)預(yù)測模塊。
為了減少參數(shù)量與計算量,采用兩個級聯(lián)的3×3卷積層替換單個的5×5卷積層。其中,第一層是3×3的卷積層,第二層是一個作用在第一層3×3輸出表格上的全連接層[19],如圖2所示。
圖2 兩個級聯(lián)的3×3卷積替換5×5卷積
設(shè)輸入特征圖尺寸為n×n×cin,卷積核尺寸為k×k,填充(padding)為p,步長(stride)為s,輸出通道為cout,經(jīng)過卷積運算后的輸出特征圖尺寸為[(n+2p-k)/s+1]×[(n+2p-k)/s+1]×cout,參數(shù)量為(cin×k×k+1)×cout,在不考慮激活函數(shù)與BN 的計算量的前提下,計算量(乘法次數(shù))為cin×k×k×[(n+2p-k)/s+1]×[(n+2p-k)/s+1]×cout。為了簡化運算,設(shè)步長為1,填充為0,cin=cout=1。采用單個5×5 卷積與兩個級聯(lián)的3×3卷積的輸出特征圖尺寸、參數(shù)量與計算量的比較如表1所示。
表1 輸出特征圖尺寸、參數(shù)量與計算量的比較
由上面的分析可知,將網(wǎng)絡(luò)中的5×5卷積替換成兩個級聯(lián)的3×3 卷積,得到輸出特征圖的尺寸一致,且在當(dāng)n>10 時,兩個級聯(lián)的3×3卷積的參數(shù)量和計算量均少于單個5×5卷積。簡而言之,該操作在保持感受野范圍的前提下,可以有效減少參數(shù)量和計算量[19]。此外,兩個3×3卷積層均后接非線性激活函數(shù),具有較好的非線性特點。
為了減少RFB模塊的參數(shù)量和計算量,將模塊中的5×5卷積替換成兩個級聯(lián)的3×3卷積,優(yōu)化的RFB模塊如圖3所示。
圖3 優(yōu)化RFB模塊
從RefineDet-RFB 的應(yīng)用效果來看,使用RFB 可融合不同特征,提升RefineDet網(wǎng)絡(luò)結(jié)構(gòu)的特征提取能力,可以在兼顧檢測速度的同時達(dá)到較好的效果。
ReLU激活函數(shù)雖然解決了飽和非線性激活函數(shù)梯度消失的問題,但存在均值偏移和神經(jīng)元死亡等的問題,影響網(wǎng)絡(luò)模型的收斂性[20]。本文方法在多層神經(jīng)網(wǎng)絡(luò)的激活函數(shù)采用帶有可學(xué)習(xí)參數(shù)的非線性激活函數(shù)PReLU[20-21(]Parametric Rectified Linear Unit,參數(shù)化修正線性單元)。PReLU的表達(dá)式如式(3)所示:
其中,i表示第i個通道,當(dāng)xi>0 時,f'(xi)=1,故PReLU函數(shù)在xi>0 時,不會造成梯度消失的問題。此外,PReLU 函數(shù)解決了ReLU 函數(shù)在負(fù)半軸為0使網(wǎng)絡(luò)的稀疏性增加的問題。ReLU與PReLU函數(shù)如圖4所示。
圖4 ReLU函數(shù)與PReLU函數(shù)的圖像
PReLU 函數(shù)在負(fù)半軸的斜率ai為非預(yù)先定義,可以通過反向傳播算法進(jìn)行學(xué)習(xí),具有沒有神經(jīng)元死亡和收斂速度更快的特點。如式(4)、(5)、(6)所示:
式中,ε為損失函數(shù),μ為動量,ε為學(xué)習(xí)率。
RefineDet 的損失函數(shù)L由ARM 模塊的二分類損失LB-ARM和回歸損失LR-ARM以及ODM模塊的多分類損失LM-ODM和回歸損失LR-ODM組成。為了更好地解決駕駛視覺下的遮擋目標(biāo)的檢測問題,將ODM 模塊的回歸損失LR-ODM由Smooth L1 Loss 替換為排斥力損失函數(shù)Repulsion Loss[22-26]。Repulsion Loss 在CityPersons 數(shù)據(jù)集上的評估結(jié)果表明,在heavy、partial 和bare三種不同程度的遮擋情況下,采用Repulsion Loss 比BaseLine有更好的表現(xiàn)[22]。
Repulsion Loss 損失函數(shù)的作用是使預(yù)測框(紅色虛線)不受其他的目標(biāo)框(綠色實線)的干擾,盡可能地向?qū)?yīng)的目標(biāo)框(紅色實線)靠攏。如圖5所示。
圖5 遮擋目標(biāo)的目標(biāo)框與預(yù)測框
Repulsion Loss損失函數(shù)由一個吸引項LAttr、兩個排斥項LRepGT與LRepBox組成,關(guān)系系數(shù)α和β用于平衡LRepGT與LRepBox的損失值。一般地,α和β取0.5[22]。如式(7)所示:
為了減少預(yù)測框與附近目標(biāo)框之間的交集,LRepGT采用SmoothLn函數(shù)度量預(yù)測框與附近目標(biāo)框的距離,SmoothLn如式(10)所示:
其中,σ∈[0,1],不同σ取值下SmoothLn的函數(shù)的曲線如圖6所示。
圖6 不同σ 取值下SmoothLn 的函數(shù)圖像
由圖可見,水平坐標(biāo)x表示預(yù)測框BP與附近目標(biāo)框重疊區(qū)域在兩者合并區(qū)域上的占比,縱坐標(biāo)y則為重疊區(qū)域所產(chǎn)生的損失值。Repulsion Loss在σ取0和1時,模型的效果最佳[22]。
在此基礎(chǔ)上,構(gòu)建排斥項LRepGT損失函數(shù)的表達(dá)式,如式(11)所示:
由式可知,LRepGT隨著預(yù)測框BP與附近目標(biāo)框的IoG的增大而增大,隨著IoG的減少而減少。為了減少該部分的損失,只需要減少預(yù)測框BP與附近目標(biāo)框重疊區(qū)域。因此,預(yù)測框越逼近于附近目標(biāo)框,LRepGT對預(yù)測框回歸器的懲罰就越大,從而防止預(yù)測框移向附近的目標(biāo)框。
LRepBox為預(yù)測框與附近目標(biāo)的預(yù)測框所產(chǎn)生的損失,如式(12)所示:
其中,將正樣本P+分為不同的子集,P+=P1?P2?…?表示不同目標(biāo)的預(yù)測框,SmoothLn函數(shù)用于度量預(yù)測框與在附近目標(biāo)的預(yù)測框的距離,使得不同子集的proposalP的重疊區(qū)域盡可能得小。從分母部分可見,只有預(yù)測框有重疊區(qū)域才計入損失值,如果完全不相鄰,則不計入。LRepBox可以降低NMS(Non-Maximum Supression,非極大值抑制)之后將不同回歸目標(biāo)的邊界框合并為一的概率,使得本文方法在駕駛場景下目標(biāo)存在遮擋的情況下更具有魯棒性。
因真實場景與公開的數(shù)據(jù)集在場景、圖像質(zhì)量和拍攝角度上存在較大差異,為了更好地模擬車輛駕駛視覺,本文方法的實驗數(shù)據(jù)通過車載攝像機采集得到駕駛視角下不同場景的視頻,車載采集攝像機如圖7 所示。車載攝像機從廣東不同城市采集,包含廣州、佛山、東莞等城市,涵蓋了從上午10:00 至下午17:00 不同的時間段,采集到的200段視頻分辨率為1 920×1 080 pixe(l像素點),幀率為每秒25 幀,通過每秒抽取一幀的方式形成圖像數(shù)據(jù)集,共48 260 張圖片。從中隨機選取9 652張圖片作為測試數(shù)據(jù)集,用于對網(wǎng)絡(luò)模型的性能評價,其余38 608張圖片作為原始訓(xùn)練數(shù)據(jù)集。進(jìn)一步,對原圖像數(shù)據(jù)集的目標(biāo)圖像隨機進(jìn)行反轉(zhuǎn)、縮放、亮度變化、對比度變化和飽和度變化等數(shù)據(jù)擴(kuò)充,處理后形成訓(xùn)練數(shù)據(jù)集,共115 824 張圖片,自建數(shù)據(jù)集樣本如圖8 所示。實驗主要對圖片中的car(汽車)、bike(自行車、摩托車等)與pedestrian(行人)等交通參與者進(jìn)行檢測。
圖7 車載攝像機
圖8 自建數(shù)據(jù)集樣本
本文方法采用AP(Average Precision,平均精度)、mAP(mean Average Precision)和FPS(Frames Per Second)作為評價指標(biāo),具體計算和說明為:
(1)AP 為某個類別的平均精確度,對于第i個類別,選取不同的IoU閥值,平均精確度的計算公式為:
其中,p表示精確度,r表示召回率,其幾何意義是精確度和召回率所形成的曲線與水平軸圍成的面積。
(2)mAP 為數(shù)據(jù)集中所有類別的平均精度的均值,類別數(shù)為m的均值平均精度的計算公式為:
(3)FPS 為每秒檢測圖像幀數(shù),該指標(biāo)不僅僅與算法模型的計算量相關(guān),還與實驗過程中的硬件性能相關(guān)。一般地,如檢測速度不小于25 frame/s,可認(rèn)為該算法模型滿足實時性要求。
本文實驗在32 GB 內(nèi)存、GeForceGTX 1080 型號GPU、Intel I7-7700型號CPU的硬件平臺和Ubuntu 16.04操作系統(tǒng)訓(xùn)練、測試,本文方法基于Caffe深度學(xué)習(xí)框架。
本文對網(wǎng)絡(luò)模型采用端對端的方式進(jìn)行訓(xùn)練。訓(xùn)練的圖像大小為320×320,設(shè)置mini-batch大小為32,最大迭代次數(shù)為20萬次,初始學(xué)習(xí)率base_Lr設(shè)為0.01,分別經(jīng)過50 000、100 000 和150 000 次迭代之后,學(xué)習(xí)率減少為原來的1/10,動量Momentum 設(shè)置為0.9,權(quán)值衰減Weight_decay設(shè)置為0.000 5。
為了驗證采用PReLU激活函數(shù)的網(wǎng)絡(luò)模型收斂速度提高,本文在算法訓(xùn)練過程中分別采用ReLU和PReLU兩種激活函數(shù)進(jìn)行訓(xùn)練,如圖9所示。
圖9 損失值隨迭代次數(shù)變化情況
隨著迭代次數(shù)和訓(xùn)練時間的增加,兩種方法的損失值逐步降低,整體趨勢較為平穩(wěn)。相對而言,在自建樣本集訓(xùn)練過程中,采用PReLU 激活函數(shù)的網(wǎng)絡(luò)模型的收斂速度得到加快。
本文對RefineDet、RefineDet-LFIP、RefineDet-RFB、RefineDet-LFIP-RFB 與本文算法在自建數(shù)據(jù)集測試子集上進(jìn)行檢測性能比較。其中,評價指標(biāo)均考慮當(dāng)IOU(Intersection Over Union,交并比)閾值為0.5 的mAP,而檢測速度不含圖像讀取和縮放圖像的時間,僅為網(wǎng)絡(luò)模型前向傳播和輸出檢測結(jié)果的時間。如表2所示。
表2 本文方法與其他方法在測試集上的檢測性能比較
由表可見,本文方法在自建測試集中的mAP為85.59%,均優(yōu)于其他算法;本文方法的FPS 為41.7 frame/s,略低于其他算法,這是由于對網(wǎng)絡(luò)模型進(jìn)行了一系列改進(jìn)與優(yōu)化所致。本文方法檢測速度大于25 frame/s,說明可滿足駕駛場景目標(biāo)檢測的應(yīng)用要求。
本文方法與RefineDet 算法模型在測試集上對car(汽車)、bike(自行車、摩托車等)與pedestrian(行人)的目標(biāo)檢測結(jié)果如圖10 所示。其中圖10(a)為原RefineDet算法模型的檢測結(jié)果,圖10(b)為本文方法的檢測結(jié)果。從圖10可知,在目標(biāo)遮擋的情況下,本文方法仍然能夠有效檢測到大部分遮擋目標(biāo),并能夠檢測出交通道路較遠(yuǎn)處的小目標(biāo)。從檢測效果來看,本文方法較好地解決駕駛視覺下的遮擋目標(biāo)檢測和小目標(biāo)檢測的問題。
圖10 RefineDet算法模型與本文方法的檢測結(jié)果
針對駕駛視覺下目標(biāo)檢測卷積神經(jīng)網(wǎng)絡(luò)模型檢測精度較低的問題,提出一種基于改進(jìn)RefineDet 的輕量級目標(biāo)檢測方法。包括:
(1)首先在RefineDet中嵌入LFIP子網(wǎng)絡(luò),RefineDet網(wǎng)絡(luò)結(jié)構(gòu)中ARM 的主特征圖與LFIP 網(wǎng)絡(luò)的多尺度特征圖融合之后,提升了特征層中錨點框初步分類和回歸的輸出效果,為ODM 模塊提供修正的錨點框以便于進(jìn)一步回歸和多類別預(yù)測。此外,該方法加強了RefineDet網(wǎng)絡(luò)結(jié)構(gòu)預(yù)判特征的辨別力,增強網(wǎng)絡(luò)特征的提取能力。
(2)使用RFB可融合不同特征,提升RefineDet網(wǎng)絡(luò)結(jié)構(gòu)的特征提取能力,可以在兼顧檢測速度的同時達(dá)到較好的效果。
(3)將網(wǎng)絡(luò)結(jié)構(gòu)中多層神經(jīng)網(wǎng)絡(luò)中的激活函數(shù)替換為帶有可學(xué)習(xí)參數(shù)的非線性激活函數(shù)PReLU,可以使得模型更好地收斂,在增加極少量參數(shù)的前提下提高準(zhǔn)確率。
(4)使用Repulsion Loss 函數(shù)作為ODM 模塊的回歸損失函數(shù),可以更好地解決駕駛視覺下的遮擋目標(biāo)的檢測問題,使目標(biāo)檢測中的某預(yù)測框更靠近其對應(yīng)的目標(biāo)框,并使該預(yù)測框遠(yuǎn)離附近目標(biāo)框及預(yù)測框。
本文研究可為駕駛視覺下的目標(biāo)檢測提供方法和思路,為后續(xù)針對低成本硬件平臺、邊緣節(jié)點實現(xiàn)輔助駕駛場景下的目標(biāo)檢測打下基礎(chǔ)。然而,該模型仍然有一些提升空間,其精確度、模型的參數(shù)量與計算計算量之間未達(dá)到高度一致性,因此在后續(xù)研究中將進(jìn)一步對網(wǎng)絡(luò)模型進(jìn)行改進(jìn),在減低模型占用系統(tǒng)資源、提高運行效率的同時,進(jìn)一步提升模型的識別精度,更好服務(wù)于駕駛場景下的目標(biāo)檢測任務(wù)中。