肖雨晴,楊慧敏
東北林業(yè)大學(xué) 工程技術(shù)學(xué)院,哈爾濱 150040
目標(biāo)檢測(cè)是計(jì)算機(jī)視覺(jué)領(lǐng)域重要的研究分支,是目標(biāo)識(shí)別、跟蹤的基礎(chǔ)環(huán)節(jié),其主要研究?jī)?nèi)容是在圖像中找出感興趣目標(biāo),包括目標(biāo)定位和分類。其中,交通場(chǎng)景目標(biāo)檢測(cè)識(shí)別是計(jì)算機(jī)視覺(jué)領(lǐng)域研究的熱點(diǎn)問(wèn)題,其目的是運(yùn)用圖像處理、模式識(shí)別、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等技術(shù)在交通場(chǎng)景中檢測(cè)識(shí)別出車(chē)輛、行人等交通場(chǎng)景目標(biāo)信息,達(dá)到智能交通、自動(dòng)駕駛的目標(biāo)。
傳統(tǒng)目標(biāo)檢測(cè)方法通常分為三個(gè)階段:首先在圖像中選擇一些候選區(qū)域,然后在候選區(qū)域中提取特征,最后采用訓(xùn)練的分類器進(jìn)行識(shí)別分類。然而,該方法操作復(fù)雜,精確度不高且訓(xùn)練速度慢,誤檢率較高,在實(shí)際工程應(yīng)用中不易實(shí)現(xiàn)。因此,在卷積神經(jīng)網(wǎng)絡(luò)快速發(fā)展的背景下,研究人員提出基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法,該方法實(shí)現(xiàn)了端到端檢測(cè)識(shí)別,具有很好的實(shí)際意義。如今基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法已成為機(jī)器人導(dǎo)航、自動(dòng)駕駛感知領(lǐng)域的主流算法。
目標(biāo)檢測(cè)算法可以分為基于候選區(qū)域(兩階段)和基于回歸(一階段)兩類。兩者最大的區(qū)別是前者通過(guò)子網(wǎng)絡(luò)輔助生成候選邊界框,而后者直接在特征圖上生成候選邊界框。目標(biāo)檢測(cè)算法分類如圖1所示。
圖1 目標(biāo)檢測(cè)算法分類
基于候選區(qū)域的算法源于2014 年Girshick 等提出的R-CNN[1],R-CNN 首次將深度學(xué)習(xí)引入目標(biāo)檢測(cè),在Pascal VOC數(shù)據(jù)集上的mAP值為66.0%。在此基礎(chǔ)上,F(xiàn)aster R-CNN[2]、Mask R-CNN[3]等算法相繼出現(xiàn)?;诨貧w的算法源于2016年Redmon等提出的YOLO[4]算法和Liu 等提出的SSD[5]算法,該方法將檢測(cè)轉(zhuǎn)化為回歸問(wèn)題,大幅度提高了檢測(cè)速度。在此基礎(chǔ)上發(fā)展的算法包括YOLO v4[6]、RSSD[7]等。具體算法介紹如表1所示。
目標(biāo)檢測(cè)算法是近幾年計(jì)算機(jī)視覺(jué)領(lǐng)域的熱點(diǎn)研究方向,包括基于候選區(qū)域和基于回歸兩類?;诤蜻x區(qū)域的算法檢測(cè)速度普遍較慢,在交通場(chǎng)景中檢測(cè)的實(shí)時(shí)性還不能滿足,但檢測(cè)精度在不斷提升;基于回歸的算法檢測(cè)速度快、實(shí)時(shí)性較好,但是檢測(cè)精度與準(zhǔn)確度相對(duì)于兩階段的算法還是較差。目前隨著研究的深入,各種目標(biāo)檢測(cè)算法被提出,未來(lái)算法的發(fā)展應(yīng)更多研究檢測(cè)速度與精度并行且輕量的目標(biāo)檢測(cè)算法。
隨著城市建設(shè)的快速發(fā)展,城市人口越來(lái)越密集,交通需求量也不斷上升,道路交通壓力逐步增加。在交通壓力增加的同時(shí),道路阻塞、安全事故頻發(fā)等問(wèn)題嚴(yán)重影響了人們的出行和生命安全,因此需要將目標(biāo)檢測(cè)算法應(yīng)用到交通場(chǎng)景中實(shí)現(xiàn)智能交通、自動(dòng)駕駛,避免人員傷亡、財(cái)產(chǎn)損失。在交通場(chǎng)景中,需要檢測(cè)的目標(biāo)主要有非機(jī)動(dòng)車(chē)、機(jī)動(dòng)車(chē)及行人。
快速、準(zhǔn)確識(shí)別非機(jī)動(dòng)車(chē)對(duì)車(chē)輛安全行駛具有重要作用,然而非機(jī)動(dòng)車(chē)容易受光照強(qiáng)度、天氣變化、遮擋等問(wèn)題影響,這對(duì)自動(dòng)駕駛應(yīng)用產(chǎn)生了很大的安全風(fēng)險(xiǎn)。因此,在復(fù)雜的自然交通場(chǎng)景下,如何實(shí)現(xiàn)準(zhǔn)確、實(shí)時(shí)檢測(cè)識(shí)別非機(jī)動(dòng)車(chē)是當(dāng)前需要研究的問(wèn)題。
2.1.1 傳統(tǒng)非機(jī)動(dòng)車(chē)識(shí)別方法
傳統(tǒng)非機(jī)動(dòng)車(chē)檢測(cè)方法主要是人工提取圖像中的顏色、形狀等特征,然后通過(guò)支持向量機(jī)、Adaboost等分類器識(shí)別,具體傳統(tǒng)檢測(cè)算法比較如表2所示。
表1 目標(biāo)檢測(cè)算法比較分析
表2 傳統(tǒng)目標(biāo)檢測(cè)算法比較
1999 年,Lowe 等[8]提出 SIFI(Scale Invariant Feature Transform)算法,通過(guò)將原圖像與目標(biāo)圖像特征匹配獲得關(guān)鍵點(diǎn)。SIFI算法對(duì)噪聲、視角改變具有一定的魯棒性,但復(fù)雜度高、檢測(cè)速度慢,對(duì)模糊圖像不敏感。2001年,Viola等[9]提出采用積分圖的形式表現(xiàn)圖像特征,之后采用級(jí)聯(lián)Adaboost 分類器選擇代表性特征對(duì)人臉檢測(cè)識(shí)別。該方法可以實(shí)現(xiàn)實(shí)時(shí)檢測(cè),但準(zhǔn)確率一般、魯棒性不足。2002年,Ojale等[10]提出LBP(Local Binary Patterns)紋理特征,該特征計(jì)算量小并且可以有效檢測(cè)大量旋轉(zhuǎn)和尺度不同的紋理信息,但穩(wěn)定性較差。2005年,Dalal等[11]利用 HOG(Histogram of Oriented Gradient)特征對(duì)行人檢測(cè),在INRIA行人數(shù)據(jù)集上實(shí)驗(yàn)表明該方法具有較高的檢測(cè)識(shí)別率,尤其對(duì)道路行人有著特別突出的表現(xiàn)。2008 年,F(xiàn)elzenszwalb 等[12]提出 DPM(Deformable Part-based Model)算法,該算法采用多組件策略,首先在不同分辨率上提取特征形成融合特征,然后采用SVM 分類回歸獲得目標(biāo)位置。DPM 算法計(jì)算簡(jiǎn)單、運(yùn)算速度快、適用變形目標(biāo),但特征是人為設(shè)計(jì)、工作量大,性能一般、穩(wěn)定性差。在此基礎(chǔ)上,Girshick等引入混合模型、負(fù)例挖掘、邊界盒回歸對(duì)DPM算法進(jìn)行改進(jìn),加快了檢測(cè)速度。2011年,Rublee等[13]提出ORB(Oriented FAST and Rotated BRIEF)算法,采用 FAST 算法檢測(cè)特征點(diǎn),然后利用BRIEF 算法描述特征點(diǎn),最后通過(guò)特征匹配獲得目標(biāo)。該方法計(jì)算速度快、占用內(nèi)存小、具有很高的效率,但不具備尺度與旋轉(zhuǎn)不變性且對(duì)噪聲敏感。
傳統(tǒng)非機(jī)動(dòng)車(chē)檢測(cè)方法計(jì)算量小、易實(shí)現(xiàn),但人工設(shè)計(jì)的特征對(duì)目標(biāo)的多樣性沒(méi)有很好的魯棒性,常會(huì)出現(xiàn)窗口冗余等問(wèn)題,并且在真實(shí)交通場(chǎng)景中非機(jī)動(dòng)車(chē)會(huì)因遮擋、占用像素較少等因素導(dǎo)致難以提取特征,所以傳統(tǒng)方法很難滿足實(shí)際應(yīng)用的需求。
2.1.2 目標(biāo)檢測(cè)算法識(shí)別方法
近幾年隨著深度學(xué)習(xí)的發(fā)展,目標(biāo)檢測(cè)算法成為非機(jī)動(dòng)車(chē)檢測(cè)識(shí)別的主流方法。目標(biāo)檢測(cè)算法由于對(duì)幾何變換、形變等具有一定程度的不變性,有效克服了非機(jī)動(dòng)車(chē)外觀多變帶來(lái)的檢測(cè)識(shí)別困難,并且在樣本中可自適應(yīng)構(gòu)建特征,避免了人工構(gòu)建特征不全、遺漏等情況。
2006 年,Hinton[14]首次提出深度學(xué)習(xí)概念,開(kāi)啟了深度研究的熱潮。2012年,AlexNet[15]模型在ILSVRC分類比賽中獲得冠軍,在計(jì)算機(jī)視覺(jué)領(lǐng)域獲得突破性成果。此后,深度學(xué)習(xí)研究不斷深入。在卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上,目標(biāo)檢測(cè)算法也隨之取得突破性進(jìn)展。2014年,R-CNN 算法提出將候選區(qū)域與CNN 結(jié)合對(duì)目標(biāo)檢測(cè)識(shí)別。2016 年,F(xiàn)aster R-CNN 算法實(shí)現(xiàn)端到端識(shí)別。YOLO算法、SSD算法實(shí)現(xiàn)了速度的進(jìn)一步加快。對(duì)于目標(biāo)檢測(cè)算法在非機(jī)動(dòng)車(chē)檢測(cè)識(shí)別上的應(yīng)用,Ahmad等[16]采用Faster R-CNN為基礎(chǔ)網(wǎng)路,利用SVM+MOG(背景提?。┓椒ㄌ崛∵\(yùn)動(dòng)車(chē)輛信息。Chen等[17]提出混合深度卷積神經(jīng)網(wǎng)絡(luò)(HDNN)對(duì)衛(wèi)星圖像車(chē)輛目標(biāo)檢測(cè),該算法將最后卷積層和池化層的映射分為多個(gè)可變感受野,獲取可變尺度特征。葉佳林等[18]通過(guò)設(shè)計(jì)特征融合結(jié)構(gòu)和采用GIOU損失函數(shù)改進(jìn)YOLO v3,降低非機(jī)動(dòng)車(chē)漏檢率,提高定位準(zhǔn)確度。曹偉等[19]采用多尺度融合SSD算法檢測(cè)車(chē)輛目標(biāo),并利用Camshift跟蹤和Kalman濾波算法實(shí)現(xiàn)了目標(biāo)實(shí)時(shí)跟蹤。更多目標(biāo)檢測(cè)算法在非機(jī)動(dòng)車(chē)檢測(cè)識(shí)別上的應(yīng)用如表3 所示。這些方法可以檢測(cè)識(shí)別出非機(jī)動(dòng)車(chē)目標(biāo),但在實(shí)際應(yīng)用中需要大規(guī)模的數(shù)據(jù)集訓(xùn)練模型,并且由于非機(jī)動(dòng)車(chē)體積小、行駛相對(duì)密集,檢測(cè)識(shí)別的準(zhǔn)確度和實(shí)時(shí)性還比較差。
很多研究已經(jīng)表明,基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法比傳統(tǒng)檢測(cè)識(shí)別方法具有更好的檢測(cè)效果,并在mAP值上有很好的體現(xiàn)。采用目標(biāo)檢測(cè)算法檢測(cè)交通場(chǎng)景中的非機(jī)動(dòng)車(chē)目標(biāo),可以避免傳統(tǒng)人工提取特征的局限性,更加有效提取特征,準(zhǔn)確檢測(cè)出非機(jī)動(dòng)車(chē)目標(biāo),但在實(shí)際應(yīng)用中,非機(jī)動(dòng)車(chē)體積小、常會(huì)相互遮擋,所以檢測(cè)識(shí)別還有一些困難。
2.1.3 非機(jī)動(dòng)車(chē)檢測(cè)識(shí)別小結(jié)
目前,將目標(biāo)檢測(cè)算法應(yīng)用在非機(jī)動(dòng)車(chē)檢測(cè)識(shí)別方面的研究不多。但近幾年外賣(mài)、非接觸配送行業(yè)快速發(fā)展,非機(jī)動(dòng)車(chē)在交通場(chǎng)景中的占比越來(lái)越大,由于非機(jī)動(dòng)車(chē)數(shù)量大、分布廣,所以對(duì)非機(jī)動(dòng)車(chē)目標(biāo)檢測(cè)識(shí)別存在一定難度。對(duì)于非機(jī)動(dòng)車(chē)體積小、遮擋嚴(yán)重等問(wèn)題,目標(biāo)檢測(cè)算法在非機(jī)動(dòng)車(chē)方面的檢測(cè)識(shí)別應(yīng)主要研究小目標(biāo)、多尺度等問(wèn)題。
機(jī)動(dòng)車(chē)主要指車(chē)輛,在交通場(chǎng)景中檢測(cè)識(shí)別車(chē)輛目標(biāo)的主要困難是算法的精度和實(shí)時(shí)性。在傳統(tǒng)車(chē)輛檢測(cè)方法中人工特征提取占主導(dǎo)地位,在特征提取階段提取的特征圖優(yōu)劣極大地影響檢測(cè)效果,存在一定局限性。
與傳統(tǒng)檢測(cè)方法不同,目標(biāo)檢測(cè)算法不需要人工提取特征,一定程度上解決了人工提取特征缺失、可移植性差等問(wèn)題。并且,近幾年在計(jì)算機(jī)硬件和GPU發(fā)展和完善的背景下,目標(biāo)檢測(cè)算法速度比過(guò)去大大提高,從而被越來(lái)越多研究者應(yīng)用在交通場(chǎng)景車(chē)輛檢測(cè)識(shí)別中。
表3 目標(biāo)檢測(cè)算法在非機(jī)動(dòng)車(chē)檢測(cè)中的應(yīng)用
2.2.1 目標(biāo)檢測(cè)算法的優(yōu)化
隨著目標(biāo)檢測(cè)算法研究的深入,需要面對(duì)的困難與挑戰(zhàn)也逐漸增多,比如檢測(cè)準(zhǔn)確率提高但隨之速度下降、小目標(biāo)檢測(cè)效果差等問(wèn)題。常規(guī)的目標(biāo)檢測(cè)算法越來(lái)越不能滿足交通場(chǎng)景目標(biāo)檢測(cè)識(shí)別應(yīng)用的需求,因此需要對(duì)常規(guī)目標(biāo)檢測(cè)算法優(yōu)化改進(jìn)。目前,目標(biāo)檢測(cè)算法的優(yōu)化主要是特征增強(qiáng)、引入上下文信息、錨點(diǎn)框設(shè)計(jì)、非極大值抑制算法和損失函數(shù)五個(gè)方面。下面從這五方面分別論述目標(biāo)檢測(cè)算法的優(yōu)化研究。
(1)特征增強(qiáng)。特征增強(qiáng)的目的是生成高質(zhì)量的特征表示,以提升對(duì)目標(biāo)的檢測(cè)效果。特征增強(qiáng)的主要方法有優(yōu)化基礎(chǔ)網(wǎng)絡(luò)、多尺度特征融合和引入注意力機(jī)制。
①基礎(chǔ)網(wǎng)絡(luò)優(yōu)化。早期目標(biāo)檢測(cè)算法的基礎(chǔ)網(wǎng)絡(luò)大多使用VGG[26]網(wǎng)絡(luò),該網(wǎng)絡(luò)結(jié)構(gòu)清晰,通過(guò)卷積層和池化層的反復(fù)堆疊以提升特征提取能力。然而,該網(wǎng)絡(luò)只有19 層,提取的特征表達(dá)能力有限。若僅通過(guò)加深網(wǎng)絡(luò)的方法提取深層特征則會(huì)發(fā)生梯度消失和退化等問(wèn)題,因此He 等提出Resnet[27]結(jié)構(gòu),通過(guò)短連接(short cut)融合淺層與深層特征信息提高網(wǎng)絡(luò)性能。利用ResNet 網(wǎng)絡(luò)基本思路,DenseNet[28]提出密集連接機(jī)制,同時(shí)拼接不同層的特征圖,增加了不同層之間的聯(lián)系。STDN[29](Scale Transferrable Object Detection)算法在DenseNet網(wǎng)絡(luò)基礎(chǔ)上引入尺寸轉(zhuǎn)換層,將特征圖不加參數(shù)轉(zhuǎn)為大尺寸特征圖,提高了檢測(cè)精度與速度。但隨著網(wǎng)絡(luò)加深帶來(lái)參數(shù)的增加是成倍的,因此采用深度可分離卷積、向量化卷積與通道及模塊化卷積多種方式輕量化網(wǎng)絡(luò)結(jié)構(gòu)、減少參數(shù)量,代表網(wǎng)絡(luò)有SqueezeNet[30]、MoblieNet[31]、Xception[32]等。輕量化網(wǎng)絡(luò)結(jié)構(gòu)可以縮小模型占用內(nèi)存、加快模型訓(xùn)練速度,但模型的檢測(cè)精度和準(zhǔn)確率也會(huì)有所下降。
②多尺度特征融合。很多文獻(xiàn)表明卷積層蘊(yùn)涵大量特征信息,多層卷積層可以學(xué)習(xí)不同層次的圖像特征。多尺度特征融合將淺層特征與深層特征相互融合,構(gòu)建具有細(xì)粒度特征和豐富語(yǔ)義特征的特征表示,提高目標(biāo)檢測(cè)算法的魯棒性。
對(duì)于基于候選區(qū)域的算法,HyperNet[33]算法融合多層卷積層特征圖,獲得具有淺層幾何信息和高層語(yǔ)義信息的Hyper特征圖。Lin等[34]提出特征金字塔網(wǎng)絡(luò)(FPN),將多尺度特征融合應(yīng)用在目標(biāo)檢測(cè)算法中。Singh等[35]提出圖像金字塔尺度歸一化(SNIP)方法,生成三種不同分辨率的輸入圖像,高分辨率檢測(cè)小目標(biāo),中分辨率檢測(cè)中目標(biāo),低分辨率檢測(cè)大目標(biāo)。對(duì)于基于回歸的算法,Jeong 等提出RSSD[7]算法,通過(guò)池化將不同卷積層特征級(jí)聯(lián)。Li等提出FSSD[36]算法,將多尺度特征層卷積后通過(guò)上采樣級(jí)聯(lián)后再次卷積。Cui 等提出MDSSD[37]算法,將淺層與高層特征圖逐元素相加,構(gòu)建豐富特征表示。多尺度特征融合是增強(qiáng)特征表示的常用方法,該方法可以不加輔助特征模塊大幅提高算法檢測(cè)準(zhǔn)確率,但計(jì)算量也同時(shí)增大。
③引入注意力機(jī)制。注意力機(jī)制是近幾年的熱點(diǎn),本質(zhì)是聚焦局部信息變化,抑制無(wú)用信息。該機(jī)制分為空間注意力、通道注意力和空間通道混合注意力。
空間注意力機(jī)制的代表模型是STN[38](Spatial Transformer Network)和DCN[39](Dynamic Capacity Networks)網(wǎng)絡(luò)。前者通過(guò)學(xué)習(xí)輸入圖像確定和修正目標(biāo)位置;后者則采用兩個(gè)子網(wǎng)絡(luò),低性能網(wǎng)絡(luò)處理全圖、定位感興趣區(qū)域,高性能網(wǎng)絡(luò)對(duì)感興趣區(qū)域精細(xì)化處理。通道注意力機(jī)制的代表模型是SENet、SKNet網(wǎng)絡(luò)。SENet[40]將卷積后特征在空間維度上壓縮,然后建模特征通道間的相關(guān)性,基于特定的任務(wù)學(xué)習(xí)不同通道的重要性。SKNet[41]將通道加權(quán)思想與Inception多分支網(wǎng)絡(luò)結(jié)構(gòu)結(jié)合,獲得明顯性能提升??臻g通道混合注意力機(jī)制的的代表模型為CBAM[42](Convolutional Block Attention Module),該模型同時(shí)在空間和通道上進(jìn)行特征融合,文獻(xiàn)表明加入CBAM 模塊比基準(zhǔn)模型具有更好的性能,更關(guān)注目標(biāo)本身。注意力機(jī)制核心目標(biāo)是在眾多信息中選擇對(duì)當(dāng)前任務(wù)目標(biāo)更關(guān)鍵的信息,該機(jī)制可以直接獲取全局與局部信息的聯(lián)系,但不能學(xué)習(xí)序列中的順序關(guān)系,常與位置信息結(jié)合研究。
特征增強(qiáng)是目標(biāo)檢測(cè)算法優(yōu)化的主流方法。特征優(yōu)秀的表現(xiàn)力是檢測(cè)和識(shí)別的基礎(chǔ),同時(shí)也是提升算法魯棒性的關(guān)鍵。
(2)引入上下文信息。在目標(biāo)檢測(cè)任務(wù)中,融入目標(biāo)附近的上下文信息有利于在復(fù)雜的背景中區(qū)分出目標(biāo)物體。該方法可以分為全局上下文信息和局部上下文信息。前者是基于注意的循環(huán)模型在整張圖像上獲取上下文信息,后者是在特定建議目標(biāo)框之外,利用內(nèi)部與外部上下文信息來(lái)增強(qiáng)特征表示。
對(duì)于全局上下文信息,Bell 等提出ION(Inside-Outside Network)[43]網(wǎng)絡(luò),應(yīng)用空間關(guān)聯(lián)信息分析每個(gè)特征的附近信息。Ouyang 等提出DeepID[44]網(wǎng)絡(luò),融合學(xué)習(xí)特征(上下文信息)與目標(biāo)特征。Guan等[45]提出語(yǔ)義上下文感知網(wǎng)絡(luò),通過(guò)金字塔結(jié)構(gòu)融合全局上下文信息。對(duì)于局部上下文信息,Cai 等[46]利用多尺度網(wǎng)絡(luò)提取多尺度特征信息,同時(shí)引入上下文信息,提高對(duì)小目標(biāo)的檢測(cè)性能。Chen等[47]提出空間記憶網(wǎng)絡(luò),保留與替換上下文特征。Zeng 等[48]提出雙向門(mén)卷積網(wǎng)絡(luò)(Gated Bi-dircetional CNN,GBDNet),篩選有用的上下文信息以獲得更好的目標(biāo)特征。Zhu等[49]提出CoupleNet網(wǎng)絡(luò),通過(guò)融合全局、局部與上下文信息提高小目標(biāo)檢測(cè)精度。
在目標(biāo)檢測(cè)任務(wù)中引入上下文信息有利于豐富特征表示、區(qū)分小目標(biāo),提高檢測(cè)精度。上下文信息也常被用在顯著性目標(biāo)檢測(cè)中,對(duì)于該任務(wù)??紤]與實(shí)例分割結(jié)合研究。
(3)錨點(diǎn)框設(shè)計(jì)?;诤蜻x區(qū)域的算法通過(guò)經(jīng)驗(yàn)設(shè)計(jì)先驗(yàn)錨點(diǎn)框大小與比例,這種方式會(huì)導(dǎo)致先驗(yàn)候選框?qū)Σ煌繕?biāo)適應(yīng)性較差。設(shè)置密集候選框可以保證目標(biāo)定位的準(zhǔn)確率,但也會(huì)引入更多參數(shù)、增大計(jì)算量。因此設(shè)置合理先驗(yàn)候選框是必要的。
Krishna等[50]通過(guò)公示推導(dǎo)計(jì)算先驗(yàn)候選框尺寸,提高候選框定位準(zhǔn)確率。YOLO v2[51]采用K-means算法對(duì)訓(xùn)練目標(biāo)真實(shí)框聚類分析,生成合適候選框。Xie等[52]將錨點(diǎn)在維度上分解,使用錨點(diǎn)字符串機(jī)制匹配目標(biāo)尺寸,以解決特殊比例目標(biāo)的檢測(cè)。Wang等[53]提出Guided-Anchoring 方法,通過(guò)圖像特征指導(dǎo)先驗(yàn)候選框的生成。但是生成候選框的方式存在大量參數(shù)且會(huì)導(dǎo)致正負(fù)樣本不均等問(wèn)題,因此基于anchor-free的目標(biāo)檢測(cè)算法相繼被提出,比如CornerNet[54]、CenterNet[55]等。上述anchor-free算法是基于關(guān)鍵點(diǎn)、分割的思想來(lái)解決檢測(cè)問(wèn)題,避免了anchor 相關(guān)的復(fù)雜計(jì)算和參數(shù)設(shè)計(jì),使得訓(xùn)練過(guò)程占用內(nèi)存更低。但是,該算法未解決訓(xùn)練時(shí)正負(fù)樣本不平衡等難題,且常會(huì)出現(xiàn)語(yǔ)義模糊性(兩個(gè)目標(biāo)中心點(diǎn)重疊無(wú)法識(shí)別)等問(wèn)題。
合理設(shè)計(jì)錨點(diǎn)框是目標(biāo)準(zhǔn)確定位的關(guān)鍵,總之錨點(diǎn)框的設(shè)計(jì)應(yīng)遵循幾點(diǎn)原則:①符合數(shù)據(jù)集特點(diǎn),根據(jù)檢測(cè)目標(biāo)設(shè)計(jì)相匹配尺度。②對(duì)于小目標(biāo)適當(dāng)增大錨點(diǎn)框密集密度,對(duì)于大目標(biāo)適當(dāng)降低錨點(diǎn)框密集密度。③與特征圖網(wǎng)絡(luò)中心點(diǎn)位置盡量重合。
(4)非極大值抑制算法優(yōu)化。非極大值抑制(NMS)算法通過(guò)交并比(IoU)方式選擇置信度最高的候選框,然而IoU方法剔除候選框粗暴、會(huì)產(chǎn)生漏檢、錯(cuò)檢等問(wèn)題。
因此,Bodla 等[56]提出 Soft-NMS 算法,通過(guò)降低重疊大于閾值邊界框的置信度來(lái)提高模型的召回率。Ning 等[57]提出 Weighted-NMS 算法,認(rèn)為最大得分框未必精確,冗余框也可能包含精確位置信息,通過(guò)對(duì)坐標(biāo)加權(quán)平均獲得目標(biāo)框。Zheng 等[58]提出DIoU-NMS 算法,通過(guò)框中心的距離判別冗余框。Zheng 等[59]提出Cluster-NMS 算法,融合懲罰機(jī)制、中心點(diǎn)距離、加權(quán)平均法,通過(guò)聚類減少迭代次數(shù)、提高整體推理速度。
非極大值抑制算法去除多余邊界框、精準(zhǔn)定位目標(biāo),是目標(biāo)檢測(cè)模型中常用算法。關(guān)于NMS 算法的改進(jìn),針對(duì)不同的任務(wù)和場(chǎng)景應(yīng)設(shè)計(jì)不同的NMS 算法。當(dāng)目標(biāo)較大且稀疏、背景簡(jiǎn)單時(shí),優(yōu)化NMS算法幾乎對(duì)模型魯棒性沒(méi)有改變。當(dāng)目標(biāo)較小且相對(duì)密集時(shí),NMS算法優(yōu)化能有效提升檢測(cè)性能。
(5)損失函數(shù)的優(yōu)化。目標(biāo)檢測(cè)算法的損失函數(shù)大多使用分類和定位損失函數(shù)的加權(quán)求和。
對(duì)于分類損失函數(shù),Lin等[60]提出Focal Loss 函數(shù),在分類函數(shù)的基礎(chǔ)上添加兩個(gè)平衡因子,用來(lái)平衡正負(fù)樣本不均問(wèn)題。Chen 等[61]提出 AP(Average Precision)Loss 函數(shù),對(duì)每個(gè)預(yù)測(cè)框排序,用排序后的序號(hào)設(shè)計(jì)Loss。Cui等[62]提出Class-Balanced Loss函數(shù),用樣本數(shù)量調(diào)節(jié)損失函數(shù)緩解樣本不均衡。對(duì)于定位損失函數(shù),Li 等[63]提出 GHM-R(Gradient Harmonized Mechanism)Loss 函數(shù),通過(guò)利用計(jì)算損失前的特征梯度信息,對(duì)原損失函數(shù)進(jìn)行規(guī)范化。Yu等[64]提出IoU Loss函數(shù)建立坐標(biāo)值間聯(lián)系。在IoU Loss 的基礎(chǔ)上,GIoU Loss[65]函數(shù)增加了不重疊預(yù)測(cè)框的損失,DIoU Loss[58]函數(shù)不僅考慮了邊界框間的距離,也考慮了框的尺度。
損失函數(shù)量化了算法的表現(xiàn)形式,設(shè)計(jì)合適的損失函數(shù)可以提高算法的魯棒性。損失函數(shù)的優(yōu)化應(yīng)注意:①對(duì)于分類損失函數(shù),應(yīng)全面考慮不同種類樣本的貢獻(xiàn)。②對(duì)于定位損失函數(shù),應(yīng)選取合適的決策變量并進(jìn)行合理修正。③總損失函數(shù)的權(quán)重應(yīng)根據(jù)數(shù)據(jù)集的特點(diǎn)或具體任務(wù)實(shí)驗(yàn)獲得。
目標(biāo)檢測(cè)算法的優(yōu)化主要是以上五個(gè)方面,具體在車(chē)輛目標(biāo)檢測(cè)識(shí)別上的應(yīng)用如表4 所示。交通場(chǎng)景背景復(fù)雜多變,通過(guò)優(yōu)化方法提升目標(biāo)檢測(cè)算法魯棒性可以實(shí)現(xiàn)目標(biāo)檢測(cè)算法更好的應(yīng)用。但是只從目標(biāo)檢測(cè)模型本身出發(fā)實(shí)現(xiàn)算法的應(yīng)用是單一的并且檢測(cè)效果提升不顯著,因此還需要與其他方法結(jié)合深入研究。
2.2.2 三維目標(biāo)檢測(cè)算法
將優(yōu)化的目標(biāo)檢測(cè)算法應(yīng)用在實(shí)際交通場(chǎng)景中還是會(huì)出現(xiàn)很多問(wèn)題,比如光照變化、惡劣天氣、無(wú)法全面感知實(shí)際場(chǎng)景中立體目標(biāo)等。因此,為提高目標(biāo)檢測(cè)算法的應(yīng)用性、更好保障駕駛?cè)藛T的安全,研究人員開(kāi)始采用激光雷達(dá)或視覺(jué)信息與目標(biāo)檢測(cè)算法結(jié)合的方法識(shí)別交通場(chǎng)景車(chē)輛目標(biāo),主要研究?jī)?nèi)容是通過(guò)目標(biāo)檢測(cè)算法對(duì)采集的激光點(diǎn)云數(shù)據(jù)或視覺(jué)信息數(shù)據(jù)檢測(cè)識(shí)別,一些實(shí)驗(yàn)研究表明激光點(diǎn)云數(shù)據(jù)檢測(cè)識(shí)別的效果最好。
表4 優(yōu)化目標(biāo)檢測(cè)算法在車(chē)輛檢測(cè)中的應(yīng)用
對(duì)于激光點(diǎn)云三維目標(biāo)檢測(cè),一般需要對(duì)點(diǎn)云數(shù)據(jù)處理,主要包括間接處理、直接處理和融合處理3 類基本方法。間接處理點(diǎn)云的方法主要是對(duì)點(diǎn)云數(shù)據(jù)進(jìn)行體素化或降維后再投入已有的深度神經(jīng)網(wǎng)絡(luò)進(jìn)行處理。Beltaran等[66]為提高方法對(duì)不同線束激光雷達(dá)的普適性提出BirdNet算法,采用Faster RCNN為基礎(chǔ)網(wǎng)絡(luò),正則化處理每個(gè)點(diǎn)云通道。Zeng 等[67]提出RT3D(Real Time 3D)算法,通過(guò)R-FCN 網(wǎng)絡(luò)檢測(cè)體素化后的車(chē)輛點(diǎn)云柵格信息。此外,為提高計(jì)算與檢測(cè)效率,Shi等[68]提出Part-A2Net算法,對(duì)每一個(gè)點(diǎn)云柵格提取特征,利用類似U-Net 的主干網(wǎng)絡(luò)輸出標(biāo)簽與位置。PV-RCNN[69]算法將3D特征圖轉(zhuǎn)為俯視圖,高度變?yōu)橥ǖ?,使用每個(gè)特征塊生成兩個(gè)候選框。間接處理點(diǎn)云方法有效利用了完善的二維檢測(cè)網(wǎng)絡(luò),但也忽視了目標(biāo)的三維空間信息,檢測(cè)精度不高、計(jì)算量大。
直接處理點(diǎn)云的方法主要是重新設(shè)計(jì)針對(duì)三維點(diǎn)云數(shù)據(jù)的深度神經(jīng)網(wǎng)絡(luò)對(duì)點(diǎn)云進(jìn)行處理,如PointNet系列、YOLO 3D等。Qi等提出針對(duì)點(diǎn)云數(shù)據(jù)的三維目標(biāo)檢測(cè)算法PointNet[70],該算法輸入為點(diǎn)云數(shù)據(jù)集合,通過(guò)與轉(zhuǎn)換矩陣相乘保證模型的不變性,利用多層感知機(jī)(MLP)生成全局特征,最后實(shí)現(xiàn)分類與分割任務(wù)。Point-Net 算法直接在點(diǎn)云數(shù)據(jù)上應(yīng)用深度學(xué)習(xí)模型,充分利用點(diǎn)云三維信息,但不能很好捕捉點(diǎn)云局部信息。受CNN啟發(fā),PointNet++[71]算法通過(guò)點(diǎn)距離構(gòu)建局部區(qū)域提取特征。Frustum-PointNet[72]算法通過(guò)PointNet 對(duì)生成的點(diǎn)云視錐進(jìn)行實(shí)例分割,然后對(duì)3D 邊界框回歸獲得最終輸出。STD[73](Sparse-to-Dense)算法提出一種球形錨點(diǎn)機(jī)制,使用PointNet++生成特征和標(biāo)簽得分。VoteNet[74]算法引入霍夫投票機(jī)制,不依賴彩色圖像、使用純幾何信息。直接處理點(diǎn)云方法可以很好地獲得點(diǎn)云的局部或全局特征,但主要難點(diǎn)是設(shè)計(jì)的神經(jīng)網(wǎng)絡(luò)架構(gòu)是否符合點(diǎn)云數(shù)據(jù)的特點(diǎn)。
融合處理點(diǎn)云的方法則是融合圖像和點(diǎn)云的檢測(cè)結(jié)果再進(jìn)一步處理。Chen 等提出MV3D[75](Multi-View 3D)算法,將點(diǎn)云與圖像作為輸入,通過(guò)點(diǎn)云柵格化構(gòu)建俯視圖和前視圖,以實(shí)現(xiàn)自動(dòng)駕駛?cè)S目標(biāo)檢測(cè)。Xu等提出PointFusion[76]算法,分別使用ResNet和PointNet提取特征進(jìn)行融合,然后預(yù)測(cè)目標(biāo)的3D邊界框。Ku等提出一種用于自動(dòng)駕駛的目標(biāo)檢測(cè)算法,AVOD[77](Aggregate View Object Detection Network)設(shè)計(jì)了一個(gè)生成多模態(tài)高分辨率特征映射的RPN 網(wǎng)絡(luò),以預(yù)測(cè)場(chǎng)景中目標(biāo)的大小、方向和類別。對(duì)于傳感器無(wú)法同步等問(wèn)題,RoarNet-3D[78]算法使用RoarNet-2D估計(jì)物體的三維姿態(tài)并獲得候選區(qū)域作為輸入,然后深度推斷候選區(qū)域獲得最終姿態(tài)。融合處理點(diǎn)云方法檢測(cè)識(shí)別精度高,效果最好。目前,融合處理點(diǎn)云的方法是點(diǎn)云處理的主要技術(shù)且檢測(cè)效果優(yōu)勢(shì)明顯,但是融合處理計(jì)算量大、采集數(shù)據(jù)困難。具體三維檢測(cè)車(chē)輛目標(biāo)應(yīng)用見(jiàn)表5。
表5 三維目標(biāo)檢測(cè)在車(chē)輛檢測(cè)中的應(yīng)用
二維目標(biāo)檢測(cè)可以很好識(shí)別圖像中的目標(biāo)物體,但在自然交通場(chǎng)景中,車(chē)輛、行人等為三維目標(biāo),因此需要獲得場(chǎng)景中三維數(shù)據(jù)檢測(cè)識(shí)別。目前,激光雷達(dá)采集三維數(shù)據(jù)效果最好,將激光點(diǎn)云數(shù)據(jù)與目標(biāo)檢測(cè)算法結(jié)合為三維目標(biāo)檢測(cè)是研究的熱點(diǎn)。但這種方法仍面臨許多困難,如間接處理點(diǎn)云數(shù)據(jù)導(dǎo)致數(shù)據(jù)特征失真、直接處理點(diǎn)云數(shù)據(jù)的新算法設(shè)計(jì)難度大、融合處理圖像與點(diǎn)云數(shù)據(jù)對(duì)計(jì)算機(jī)硬件要求較高等。
2.2.3 機(jī)動(dòng)車(chē)檢測(cè)識(shí)別小結(jié)
目標(biāo)檢測(cè)算法識(shí)別交通場(chǎng)景中車(chē)輛目標(biāo)主要是優(yōu)化目標(biāo)檢測(cè)算法和三維目標(biāo)檢測(cè)兩方面。目標(biāo)檢測(cè)算法的優(yōu)化可以提高算法檢測(cè)識(shí)別的準(zhǔn)確度和精度,三維目標(biāo)檢測(cè)可以全面感知交通場(chǎng)景中的目標(biāo)信息,然而優(yōu)化目標(biāo)檢測(cè)算法檢測(cè)效果提升不高,在實(shí)際應(yīng)用中易受環(huán)境因素影響,三維目標(biāo)檢測(cè)設(shè)備昂貴,對(duì)計(jì)算機(jī)硬件要求很高。
行人檢測(cè)是目標(biāo)檢測(cè)的重要研究任務(wù)之一,主要內(nèi)容是通過(guò)計(jì)算機(jī)判斷圖像中是否存在行人目標(biāo),如存在則標(biāo)出檢測(cè)目標(biāo)在圖像中的類別與位置。傳統(tǒng)行人檢測(cè)方法常會(huì)出現(xiàn)特征遺漏、檢測(cè)精度不高等問(wèn)題,操作復(fù)雜、需要大量人力物力。近年來(lái),目標(biāo)檢測(cè)算法由于良好的檢測(cè)性能被應(yīng)用在行人檢測(cè)中。
2.3.1 多模態(tài)目標(biāo)檢測(cè)
目前,在通用的行人圖像數(shù)據(jù)集中,目標(biāo)檢測(cè)算法有著良好的表現(xiàn)力。然而,自然場(chǎng)景中人員傷亡、財(cái)產(chǎn)損失的事故主要發(fā)生在夜晚、惡劣天氣下,如何在夜晚及惡劣天氣條件下檢測(cè)識(shí)別出行人目標(biāo)是當(dāng)前研究的難點(diǎn)。研究人員采用多種方法,其中較好的方法是多模態(tài)目標(biāo)檢測(cè)。
多模態(tài)目標(biāo)檢測(cè)采用不同傳感器采集數(shù)據(jù)信息,融合信息檢測(cè)識(shí)別目標(biāo)。Wang 等[79]提出一種CIMDL(Correlated and Individual Multi-Modal)方法,輸出為兩個(gè)模態(tài)信息特征和一個(gè)融合特征,在充分融合特征信息的基礎(chǔ)上,保留了各自模態(tài)的特有信息。Liu 等[80]改進(jìn)Faster R-CNN 網(wǎng)絡(luò),融合彩色圖像和多光譜圖像特征信息對(duì)行人目標(biāo)檢測(cè)識(shí)別。Park 等[81]認(rèn)為僅用兩個(gè)模態(tài)融合是不夠的,通過(guò)概率模型考慮每個(gè)模態(tài)特征信息,并采用通道加權(quán)融合有選擇使用信息。Guan等[82]提出一種光照感知加權(quán)機(jī)制以學(xué)習(xí)不同光照條件下的多光譜行人特征,將光照信息與多光譜數(shù)據(jù)綜合實(shí)現(xiàn)行人檢測(cè)的多任務(wù)學(xué)習(xí)和語(yǔ)義分割。Zhou 等[83]將毫米波雷達(dá)與攝像機(jī)信息融合,利用時(shí)空同步關(guān)聯(lián)多傳感器數(shù)據(jù),最后改進(jìn)YOLO v2 算法實(shí)現(xiàn)深度融合對(duì)交通場(chǎng)景目標(biāo)檢測(cè)識(shí)別。這些研究是基于多種傳感器采集場(chǎng)景信息,目前常用的傳感器為RGB 相機(jī)、激光雷達(dá)、深度相機(jī)、多光譜相機(jī)等。除此之外,高精地圖、雷達(dá)、毫米波雷達(dá)也同樣被應(yīng)用在自動(dòng)駕駛目標(biāo)檢測(cè)中。多模態(tài)檢測(cè)方法比較如表6所示[84]。
表6 多模態(tài)檢測(cè)方法比較
采用多種傳感器融合場(chǎng)景信息,避免單一模態(tài)感知信息缺陷,提高模型魯棒性是目標(biāo)檢測(cè)發(fā)展的趨勢(shì)。多模態(tài)成像不受光線條件影響、可以獲得全面場(chǎng)景信息,因此在復(fù)雜環(huán)境下也可對(duì)目標(biāo)檢測(cè)識(shí)別。目前,多模態(tài)目標(biāo)檢測(cè)是研究熱點(diǎn)方向,然而多模態(tài)圖像融合坐標(biāo)配準(zhǔn)困難、占用內(nèi)存大且缺少相應(yīng)數(shù)據(jù)集。
2.3.2 行人重識(shí)別
除此之外,行人重識(shí)別也是行人檢測(cè)的重要研究分支。行人重識(shí)別主要研究?jī)?nèi)容是判斷某個(gè)攝像頭中的某個(gè)行人是否曾經(jīng)出現(xiàn)在其他的攝像頭中,即需要將某個(gè)行人特征與其他行人特征進(jìn)行對(duì)比,判斷是否屬于同一個(gè)行人。
目前,行人重識(shí)別主要是傳統(tǒng)方法、強(qiáng)監(jiān)督深度學(xué)習(xí)方法和無(wú)監(jiān)督方法,傳統(tǒng)方法主要通過(guò)特征提取和度量學(xué)習(xí)方法,大部分無(wú)監(jiān)督方法也是基于傳統(tǒng)方法的研究。2005 年,Zajdel 等[85]探討了如何在多個(gè)攝像頭中將行人軌跡關(guān)聯(lián)等問(wèn)題,該文獻(xiàn)采用貝葉斯網(wǎng)絡(luò)度量相似行人特征。2006年,Gheissari等[86]首次在CVPR上提出行人重識(shí)別概念,掀起重識(shí)別研究熱潮。2007 年,Gray[87]提出VIPeR行人重識(shí)別數(shù)據(jù)庫(kù),為行人重識(shí)別深入研究奠定基礎(chǔ)。2016 年,Zheng 等[88]將行人重識(shí)別定義為行人檢測(cè)與重識(shí)別綜合,首先對(duì)原始視頻幀行人檢測(cè),再相似度度量行人檢測(cè)后與待檢測(cè)圖像特征。傳統(tǒng)行人重識(shí)別方法首先通過(guò)特征提取學(xué)習(xí)不同攝像頭下行人變化特征,然后將學(xué)習(xí)到的特征映射到新的空間度量學(xué)習(xí),最后根據(jù)圖像特征間距離進(jìn)行排序,獲得檢索結(jié)果。該方法依賴手工特征,不能適應(yīng)大環(huán)境行人重識(shí)別應(yīng)用的需求。
當(dāng)前隨著深度學(xué)習(xí)的發(fā)展,研究人員考慮采取深度學(xué)習(xí)方法對(duì)行人重識(shí)別研究,深度學(xué)習(xí)不僅可以提取豐富的特征表示,還為度量學(xué)習(xí)帶來(lái)革新。Yan 等[89]首先獲取圖像的顏色特征和LBP 特證,然后通過(guò)LSTM(長(zhǎng)短期記憶網(wǎng)絡(luò))獲得基于序列的特征,充分利用圖像特征和序列特征。Yi等[90]采用siamese網(wǎng)絡(luò)學(xué)習(xí)行人顏色特征、紋理特征和度量,針對(duì)行人外觀的巨大變化,利用二項(xiàng)式偏差法進(jìn)行評(píng)估。Mclaughlin 等[91]結(jié)合CNN 網(wǎng)絡(luò)與RNN 網(wǎng)絡(luò),在CNN 基礎(chǔ)上獲得每個(gè)行人外貌特征,在RNN 基礎(chǔ)上獲得時(shí)空信息,兩者聯(lián)合進(jìn)行調(diào)參。Zheng等[92]提出Market-1501數(shù)據(jù)集,該數(shù)據(jù)集規(guī)模為當(dāng)時(shí)最大且自動(dòng)標(biāo)注行人邊界框,每個(gè)行人有多個(gè)攝像頭多張影像,目前依然是具有挑戰(zhàn)性的數(shù)據(jù)集。行人重識(shí)別主要應(yīng)用于刑偵工作、圖像檢索等方面,將深度學(xué)習(xí)方法與行人重識(shí)別結(jié)合可以提高行人重識(shí)別的準(zhǔn)確度、充分利用圖像特征,具體目標(biāo)檢測(cè)算法在行人檢測(cè)上的應(yīng)用如表7所示。
近幾年在深度學(xué)習(xí)的基礎(chǔ)上,行人重識(shí)別取得高速發(fā)展,但還依然面臨許多挑戰(zhàn)。目前,現(xiàn)有數(shù)據(jù)集是處理后的高質(zhì)量圖像,然而在自然場(chǎng)景環(huán)境下,行人重識(shí)別會(huì)遇到目標(biāo)遮擋、特征近似和不同攝像頭下行人外觀發(fā)生巨大變化等困難。
2.3.3 行人檢測(cè)識(shí)別小結(jié)
目前,行人檢測(cè)在公開(kāi)數(shù)據(jù)集上已經(jīng)有了非常高的精度和識(shí)別準(zhǔn)確度,但是針對(duì)復(fù)雜、密集的交通場(chǎng)景,行人檢測(cè)還有很長(zhǎng)一段路要走。當(dāng)前,行人重識(shí)別是行人檢測(cè)領(lǐng)域研究的重點(diǎn),如何在復(fù)雜自然環(huán)境下準(zhǔn)確識(shí)別遮擋行人目標(biāo)仍然是研究的難點(diǎn)。
當(dāng)前,在目標(biāo)檢測(cè)領(lǐng)域常用的數(shù)據(jù)集有Pascal VOC[93]、Microsoft COCO[94]、ImageNet[95]、Open Images[96]等 ,相關(guān)交通場(chǎng)景數(shù)據(jù)集如表8所示。
表7 目標(biāo)檢測(cè)算法在行人檢測(cè)中的應(yīng)用
表8 常用交通場(chǎng)景數(shù)據(jù)集
Pascal VOC數(shù)據(jù)集用于圖像分類和目標(biāo)檢測(cè),Pascal VOC 2007 和Pascal VOC 2012 為主要流行數(shù)據(jù)集。Pascal VOC 數(shù)據(jù)集包含20 個(gè)類別,其中Pascal VOC 2007共有9 963張圖片24 640個(gè)目標(biāo);Pascal VOC 2012共有23 080張圖片54 900個(gè)目標(biāo),每張圖片都有對(duì)應(yīng)的xml文件。
Microsoft COCO 數(shù)據(jù)集用于目標(biāo)檢測(cè)、人體關(guān)鍵點(diǎn)和語(yǔ)義分割等方面,包含91 個(gè)種類。對(duì)于目標(biāo)檢測(cè)領(lǐng)域,該數(shù)據(jù)集來(lái)源于真實(shí)的自然場(chǎng)景,是挑戰(zhàn)性最大的數(shù)據(jù)集之一,每張圖片對(duì)應(yīng)JSON格式的標(biāo)注文件。
ImageNet數(shù)據(jù)集用于圖像分類、目標(biāo)檢測(cè)和場(chǎng)景識(shí)別等,包含2.2 萬(wàn)個(gè)類別,1 420 萬(wàn)張圖片。對(duì)于目標(biāo)檢測(cè)任務(wù),它具有200 個(gè)目標(biāo)類別,每張圖片的標(biāo)注以Pascal VOC格式保存在XML文件中。
Open Images 數(shù)據(jù)集用于目標(biāo)檢測(cè)、語(yǔ)義分割等,于2017 年發(fā)布。該數(shù)據(jù)集包含約900 萬(wàn)張標(biāo)注圖片,6 000個(gè)類別的標(biāo)簽,每張圖像平均有8個(gè)標(biāo)簽,其分為包含9 011 219張圖像的訓(xùn)練集、41 620張圖像的驗(yàn)證集和125 436 張圖像的測(cè)試集,是具有目標(biāo)位置標(biāo)注的最大現(xiàn)有數(shù)據(jù)集。
目標(biāo)檢測(cè)算法常用的評(píng)價(jià)標(biāo)準(zhǔn)主要有準(zhǔn)確率、召回率、平均精確率和平均精確率均值。其中,準(zhǔn)確率(Precision,P)表示在全部已識(shí)別樣本中正樣本被正確識(shí)別為正樣本的比率,召回率(Recall,R)表示在正樣本中被正確識(shí)別為正樣本的比率。通常情況下,準(zhǔn)確率和召回率呈負(fù)相關(guān),即召回率越高,準(zhǔn)確率越低。將召回率(P)和準(zhǔn)確率(R)分別作為橫、縱坐標(biāo),選擇合適的閾值,獲得的曲線為P-R曲線,平均精確率(Average Precision,AP)是指P-R 曲線下的面積,平均精確率均值(mean Average Precision,mAP)是指每個(gè)類別的平均AP值。
除此之外,檢測(cè)速度也是評(píng)價(jià)目標(biāo)檢測(cè)算法性能好壞的標(biāo)準(zhǔn)之一。衡量目標(biāo)檢測(cè)算法檢測(cè)速度的標(biāo)準(zhǔn)為每秒幀率(Frame Per Second,F(xiàn)PS),即每秒內(nèi)處理圖片的數(shù)量,一般來(lái)說(shuō),F(xiàn)PS 越大實(shí)時(shí)性越好。目標(biāo)檢測(cè)的評(píng)價(jià)標(biāo)準(zhǔn)是衡量目標(biāo)檢測(cè)算法性能的關(guān)鍵,表9列出了相關(guān)目標(biāo)檢測(cè)算法的性能對(duì)比??梢钥闯?,基于候選區(qū)域算法的檢測(cè)精度和準(zhǔn)確率在不斷上升,但在檢測(cè)速度上明顯比基于回歸算法差,在應(yīng)用上不能滿足實(shí)時(shí)性;基于回歸算法的檢測(cè)速度比較快,已可以達(dá)到實(shí)時(shí)性,但是檢測(cè)精度和準(zhǔn)確率比基于候選區(qū)域算法較差,目前YOLO v4 在現(xiàn)有實(shí)時(shí)目標(biāo)檢測(cè)算法中檢測(cè)精度最高,一階段目標(biāo)檢測(cè)算法是研究的重點(diǎn)。
表9 目標(biāo)檢測(cè)算法性能對(duì)比
目標(biāo)檢測(cè)是十分重要的研究領(lǐng)域,具有廣泛的應(yīng)用前景。本文詳細(xì)綜述目標(biāo)檢測(cè)算法的發(fā)展歷程及研究現(xiàn)狀,包括基于候選區(qū)域和基于回歸兩大類算法。在此基礎(chǔ)上,以非機(jī)動(dòng)車(chē)、機(jī)動(dòng)車(chē)和行人三類典型交通場(chǎng)景物體為目標(biāo),從傳統(tǒng)檢測(cè)方法、目標(biāo)檢測(cè)算法、目標(biāo)檢測(cè)算法優(yōu)化、三維目標(biāo)檢測(cè)、多模態(tài)目標(biāo)檢測(cè)和重識(shí)別六個(gè)方面分別論述和總結(jié)目標(biāo)檢測(cè)算法檢測(cè)識(shí)別交通場(chǎng)景目標(biāo)的研究現(xiàn)狀和應(yīng)用情況。最后,給出常用目標(biāo)檢測(cè)和交通場(chǎng)景數(shù)據(jù)集及評(píng)價(jià)標(biāo)準(zhǔn),對(duì)兩大類目標(biāo)檢測(cè)算法的性能進(jìn)行比較分析。
總體來(lái)看,目標(biāo)檢測(cè)算法在機(jī)動(dòng)車(chē)和行人檢測(cè)識(shí)別上應(yīng)用較多,在非機(jī)動(dòng)車(chē)上應(yīng)用較少。不同目標(biāo)檢測(cè)任務(wù)對(duì)模型的要求不同,應(yīng)根據(jù)具體場(chǎng)景和任務(wù)特點(diǎn)對(duì)模型進(jìn)行相應(yīng)改進(jìn)。具體來(lái)說(shuō),對(duì)于目標(biāo)檢測(cè)模型增強(qiáng)特征表示和引入上下文信息的改進(jìn)方法幾乎對(duì)任何場(chǎng)景和任何任務(wù)都是有利的,具有普適性。當(dāng)交通場(chǎng)景中目標(biāo)密集、相互遮擋時(shí),改進(jìn)非極大值抑制算法、合理設(shè)計(jì)邊界框可以有效緩解目標(biāo)漏檢、誤檢等問(wèn)題。當(dāng)交通場(chǎng)景相對(duì)復(fù)雜、背景多變時(shí),損失函數(shù)的改進(jìn)可以提升模型的訓(xùn)練效果,進(jìn)而提高模型的魯棒性。
當(dāng)前,在公開(kāi)交通場(chǎng)景數(shù)據(jù)集中,目標(biāo)檢測(cè)算法已具有良好的表現(xiàn)力,但應(yīng)用在具體實(shí)際交通場(chǎng)景中還存在一些問(wèn)題,對(duì)此提出幾點(diǎn)研究趨勢(shì):
(1)研究更符合目標(biāo)檢測(cè)任務(wù)的特征提取網(wǎng)絡(luò)。當(dāng)前目標(biāo)檢測(cè)算法的特征提取網(wǎng)絡(luò)主要為分類網(wǎng)絡(luò),分類與檢測(cè)任務(wù)的網(wǎng)絡(luò)設(shè)計(jì)原則不同,數(shù)據(jù)集間的差異也導(dǎo)致目標(biāo)檢測(cè)存在問(wèn)題,因此需要從目標(biāo)檢測(cè)模型的本身出發(fā),構(gòu)建符合目標(biāo)檢測(cè)任務(wù)的特征提取網(wǎng)絡(luò),提高目標(biāo)物體的檢測(cè)性能。
(2)獲得更加豐富的圖像語(yǔ)義信息。對(duì)于復(fù)雜交通場(chǎng)景的小目標(biāo)檢測(cè),僅提取小目標(biāo)的特征信息是不夠的,因此需要利用上下文關(guān)聯(lián)信息、場(chǎng)景信息、語(yǔ)義信息構(gòu)建豐富特征表示。目前,主流的方法主要有生成高清特征表示和利用語(yǔ)義信息,豐富特征表示是目標(biāo)檢測(cè)的關(guān)鍵,值得深入研究。
(3)三維目標(biāo)檢測(cè)。實(shí)現(xiàn)三維目標(biāo)檢測(cè)是自動(dòng)駕駛技術(shù)應(yīng)用的關(guān)鍵,目前三維檢測(cè)相較于二維算法在精度和實(shí)時(shí)性等關(guān)鍵指標(biāo)方面還有較大提升空間。對(duì)于三維目標(biāo)檢測(cè)必須有效對(duì)原始點(diǎn)云數(shù)據(jù)處理,提升檢測(cè)的效率和精度。此外,如何解決遮擋、遠(yuǎn)距離的小目標(biāo)檢測(cè)也是亟需解決的關(guān)鍵問(wèn)題。
(4)多模態(tài)目標(biāo)檢測(cè)。數(shù)據(jù)融合是實(shí)現(xiàn)目標(biāo)檢測(cè)應(yīng)用任務(wù)的重要趨勢(shì),盡管針對(duì)多模態(tài)目標(biāo)檢測(cè)的算法不斷被提出,但主要還是基于圖像,當(dāng)光照變化幅度較大時(shí),會(huì)導(dǎo)致相機(jī)記錄失真、無(wú)法感知場(chǎng)景信息。因此,應(yīng)考慮利用多模態(tài)數(shù)據(jù)的互補(bǔ)性來(lái)提升模型的魯棒性,例如融合圖像、音頻、文本信息等。
(5)弱監(jiān)督目標(biāo)檢測(cè)模型。目前,目標(biāo)檢測(cè)算法一般基于監(jiān)督學(xué)習(xí),監(jiān)督學(xué)習(xí)需要大量已標(biāo)注的數(shù)據(jù)。對(duì)于數(shù)據(jù)的標(biāo)注,需要大量的人工成本,因此利用弱監(jiān)督學(xué)習(xí)、少樣本學(xué)習(xí)等方法在標(biāo)注數(shù)據(jù)缺失的情況下建立弱監(jiān)督目標(biāo)檢測(cè)模型是研究的熱點(diǎn)。
(6)提高模型的可解釋性。目標(biāo)檢測(cè)模型通過(guò)復(fù)雜的深層網(wǎng)絡(luò)模型從海量數(shù)據(jù)中學(xué)習(xí)特征并進(jìn)行分類與定位,這種模型內(nèi)部的復(fù)雜性使人們難以理解模型的決策結(jié)果,導(dǎo)致模型的不可解釋性。模型的不可解釋性存在很多安全風(fēng)險(xiǎn),在不同領(lǐng)域部署會(huì)受到極大的限制。因此,需要深入研究模型內(nèi)部的復(fù)雜過(guò)程,提高模型的可解釋性,從而進(jìn)一步實(shí)現(xiàn)模型應(yīng)用。