曹健,陳怡梅,李海生,蔡強(qiáng)
(1.北京工商大學(xué) 計(jì)算機(jī)學(xué)院,北京 100048;2.食品安全大數(shù)據(jù)技術(shù)北京市重點(diǎn)實(shí)驗(yàn)室,北京 100048)
道路目標(biāo)檢測(cè)是智能交通監(jiān)控[1]、自動(dòng)駕駛[2]、車牌識(shí)別[3]、行人跟蹤[4]、車輛檢測(cè)[5]等領(lǐng)域的重要研究分支之一,旨在識(shí)別和檢測(cè)整個(gè)道路場(chǎng)景圖像中感興趣的目標(biāo),尤其是在復(fù)雜場(chǎng)景中的準(zhǔn)確性和實(shí)時(shí)性是評(píng)測(cè)整個(gè)模型系統(tǒng)的重要指標(biāo),具有廣泛的應(yīng)用價(jià)值。但是自然交通場(chǎng)景的復(fù)雜多變以及道路各類目標(biāo)本身在尺寸與距離上的干擾,使得目標(biāo)識(shí)別和檢測(cè)難度大大增加,其中小目標(biāo)檢測(cè)就是研究者關(guān)注的一個(gè)難點(diǎn)問題。對(duì)于大中型的車輛、行人等目標(biāo),通用的Two-stage 和One-stage 目標(biāo)檢測(cè)模型已經(jīng)能夠達(dá)到不錯(cuò)的檢測(cè)效果,然而小目標(biāo)的尺寸較小,不具備相應(yīng)的形狀和紋理特征,這些特性導(dǎo)致其檢測(cè)性能仍有所欠缺,不能滿足實(shí)際需求。
道路小目標(biāo)的具體定義方式可參考小目標(biāo)的定義方式,大致可分為兩種:一種是絕對(duì)尺寸的定義方式,在通用的目標(biāo)檢測(cè)數(shù)據(jù)集MS COCO[6]中,尺寸小于32×32 像素的目標(biāo)被定義為小目標(biāo);另一種是相對(duì)尺寸的定義方式,根據(jù)國(guó)際光電儀器工程師協(xié)會(huì)(SPIE)的定義,小目標(biāo)是指在大小為256×256 像素的圖像中目標(biāo)區(qū)域小于9×9 像素。
目前,道路小目標(biāo)檢測(cè)困難和效果相對(duì)較差的原因大致可以歸結(jié)為以下4 種:1)相較于中大型行人車輛目標(biāo),包含小目標(biāo)實(shí)例的圖像較少,且道路場(chǎng)景復(fù)雜多變,小目標(biāo)容易隱藏在背景中;2)小目標(biāo)在道路圖像中面積占比小、分辨率低,攜帶的信息少,位置缺乏多樣性,難以定位,因此,卷積神經(jīng)網(wǎng)絡(luò)提取到的可利用的有效信息非常有限;3)特征提取時(shí),輸入圖像經(jīng)過卷積神經(jīng)網(wǎng)絡(luò)的多次下采樣后,小目標(biāo)的細(xì)節(jié)信息丟失嚴(yán)重,影響小目標(biāo)的檢測(cè)效果;4)道路目標(biāo)檢測(cè)領(lǐng)域缺乏大規(guī)模通用的小目標(biāo)檢測(cè)數(shù)據(jù)集,目前該領(lǐng)域發(fā)布的公共數(shù)據(jù)集多為針對(duì)中大型的行人車輛進(jìn)行檢測(cè),難以滿足小目標(biāo)的檢測(cè)需求。
針對(duì)上述問題,國(guó)內(nèi)外許多研究者提出了相應(yīng)的改進(jìn)和優(yōu)化方法來提高小目標(biāo)的檢測(cè)精度。本文將主要從數(shù)據(jù)增強(qiáng)、多尺度策略、生成超分辨率(Super-Resolution,SR)細(xì)節(jié)信息、加強(qiáng)上下文信息聯(lián)系、改進(jìn)損失函數(shù)等5 類改進(jìn)方向出發(fā)進(jìn)行歸納梳理,對(duì)各類方法的特點(diǎn)和優(yōu)缺點(diǎn)進(jìn)行比較,在MS COCO公共數(shù)據(jù)集以及其他不同道路場(chǎng)景數(shù)據(jù)集上對(duì)各類方法的檢測(cè)性能進(jìn)行評(píng)估和對(duì)比分析,并對(duì)道路小目標(biāo)檢測(cè)的未來研究方向進(jìn)行展望。
數(shù)據(jù)增強(qiáng)是一種擴(kuò)展數(shù)據(jù)的技術(shù),在缺乏數(shù)據(jù)或數(shù)據(jù)量有限的情況下,該技術(shù)可以利用有限的數(shù)據(jù)來創(chuàng)造盡可能多的價(jià)值并盡可能滿足研究者的需求。盡管現(xiàn)在有很多用于各種任務(wù)的公開數(shù)據(jù)集,但數(shù)據(jù)量在使用中遠(yuǎn)遠(yuǎn)不夠,而收集和制作這些數(shù)據(jù)的成本其實(shí)是非常高的且不便于采集,因此數(shù)據(jù)增強(qiáng)便成為了一種快速有效的改進(jìn)方法。在大部分目標(biāo)檢測(cè)的數(shù)據(jù)集中,小目標(biāo)的實(shí)例數(shù)量占比少,在訓(xùn)練和檢測(cè)中容易被忽略。通過數(shù)據(jù)增強(qiáng)來增加小目標(biāo)的樣本數(shù)量,可有效改進(jìn)小目標(biāo)的檢測(cè)精準(zhǔn)度。常用的數(shù)據(jù)增強(qiáng)方法可大致分為單樣本數(shù)據(jù)增強(qiáng)和多樣本數(shù)據(jù)增強(qiáng)兩類。
典型的單樣本數(shù)據(jù)增強(qiáng)方法主要是在一張預(yù)檢測(cè)的圖像上進(jìn)行翻轉(zhuǎn)、裁剪、縮放、添加噪聲、變換顏色等操作,改變圖像原有的狀態(tài),可有效增加數(shù)據(jù)集的樣本數(shù)量和提高網(wǎng)絡(luò)的泛化能力。文獻(xiàn)[7]使用過采樣和基于復(fù)制粘貼的增強(qiáng)方法進(jìn)行改進(jìn),并在將對(duì)象粘貼到新位置前,對(duì)其應(yīng)用兩種縮放圖像和旋轉(zhuǎn)圖像的隨機(jī)變換,然后將小目標(biāo)粘貼到新的位置,并確保新粘貼的目標(biāo)不與任何現(xiàn)有目標(biāo)相重疊,且距離圖像邊界至少5 個(gè)像素。文獻(xiàn)[8]對(duì)輸入的每一張圖像先采用縮放操作,在縮放操作后進(jìn)行增強(qiáng)對(duì)比度、翻轉(zhuǎn)、改變亮度和以0.5 的概率隨機(jī)角度旋轉(zhuǎn)等操作。文獻(xiàn)[9]在小目標(biāo)數(shù)據(jù)集上,將每張圖片上的小目標(biāo)物體在訓(xùn)練時(shí)復(fù)制3次,使得網(wǎng)絡(luò)在訓(xùn)練過程中可以更容易地提取目標(biāo)的特征信息。文獻(xiàn)[10]通過幾何變換和顏色變換等進(jìn)行數(shù)據(jù)增強(qiáng),增加了數(shù)據(jù)集的數(shù)據(jù)量。文獻(xiàn)[11]提出自動(dòng)數(shù)據(jù)增強(qiáng)策略,與手工制定的策略不同,該策略利用自動(dòng)算法在多種增強(qiáng)候選者中進(jìn)行搜索,且該策略也可以應(yīng)用于其他數(shù)據(jù)集和框級(jí)任務(wù)。文獻(xiàn)[12]利用自動(dòng)機(jī)器學(xué)習(xí)(Auto Machine Learning,Auto ML)原理設(shè)計(jì)自動(dòng)搜索數(shù)據(jù)增強(qiáng)技術(shù)用于行人檢測(cè),從而產(chǎn)生最佳的數(shù)據(jù)增強(qiáng)策略。
近些年,許多研究者也提出了多種通用的多樣本數(shù)據(jù)增強(qiáng)方法,包括MixUp[13]、CutOut[14]、CutMix[15]、Mosaic[16]等方法,這些方法通過將多張圖像以某種方式合成到一起形成新的樣本,達(dá)到擴(kuò)充數(shù)據(jù)集容量的目的。MixUp 方法將兩張圖像以一定的概率和比例拼湊到一起,比例分配決定了分類結(jié)果。CutOut 是在圖像中隨機(jī)選擇某一部分區(qū)域進(jìn)行裁剪。CutMix 是將兩種方法相結(jié)合,先裁剪掉一張圖像的某一部分,再使用另一張圖像中的某一部分進(jìn)行填充形成新的樣本。Mosaic 數(shù)據(jù)增強(qiáng)方法是目前最常用的數(shù)據(jù)增強(qiáng)方法之一,該方法借鑒了CutMix 增強(qiáng)方法,將采用的2 張圖像擴(kuò)充為4 張圖像,先對(duì)4 張圖像進(jìn)行隨機(jī)裁剪、縮放、翻轉(zhuǎn)等操作,然后將4 張圖像拼接形成一張新的圖像。這個(gè)操作在擴(kuò)充了數(shù)據(jù)集的同時(shí)也增加了小樣本的數(shù)量,并且極大地豐富了檢測(cè)對(duì)象的背景。在YOLOv4[16]和YOLOv5[17]模型結(jié)構(gòu)中,均使用了Mosaic數(shù)據(jù)增 強(qiáng)方法,以此提高了模型學(xué)習(xí)能力和效率。文獻(xiàn)[18]也將 Mosaic 數(shù)據(jù)增強(qiáng)方法引入改進(jìn)后的CenterNet[19]中,以此優(yōu)化算法的訓(xùn)練模式,豐富檢測(cè)背景,優(yōu)化檢測(cè)性能。圖1 和圖2 為多樣本數(shù)據(jù)增強(qiáng)方法的示例圖。
圖1 MixUp、CutOut、CutMix 數(shù)據(jù)增強(qiáng)方法的示例圖Fig.1 Example diagrams of MixUp,CutOut,and CutMix data enhancement methods
圖2 Mosaic 數(shù)據(jù)增強(qiáng)方法的示例圖Fig.2 Example diagrams of Mosaic data enhancement method
在使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取時(shí),不同的網(wǎng)絡(luò)深度對(duì)應(yīng)不同層次的特征。低層特征的分辨率更高,像素更豐富,包含更多的細(xì)節(jié)信息和位置信息,對(duì)于目標(biāo)的定位有極大幫助,但包含的語義信息較少;高層特征包含更豐富的語義信息,極大地促進(jìn)了對(duì)象的分類,但分辨率較低,像素較少,對(duì)細(xì)節(jié)位置信息的感知能力較差。對(duì)于小目標(biāo)行人、車輛以及指示牌而言,它們的尺寸小,分辨率低,在多次下采樣后,特征圖不斷縮小,致使小目標(biāo)的細(xì)節(jié)信息嚴(yán)重丟失,而多數(shù)通用檢測(cè)器僅采用最后一層的特征圖來定位目標(biāo)和預(yù)測(cè)置信度分?jǐn)?shù),其中包含豐富的分類信息但缺乏詳細(xì)信息,使得小目標(biāo)物體容易出現(xiàn)誤檢和漏檢的情況。多尺度策略的提出有效緩解了這一問題,在計(jì)算量不大的情況下,增強(qiáng)了物體特征的表達(dá)能力,提高小目標(biāo)檢測(cè)的性能。目前,典型的多尺度策略有圖像金字塔、SSD 算法和特征金字塔網(wǎng)絡(luò)(Feature Pyramid Network,F(xiàn)PN)。
圖像金字塔是圖像多尺度表達(dá)的一種,通過對(duì)原始圖像進(jìn)行下采樣,得到一系列以金字塔形狀排列的分辨率逐漸降低的子圖集合,構(gòu)成圖像金字塔。圖像金字塔結(jié)構(gòu)如圖3 所示。
圖3 圖像金字塔結(jié)構(gòu)Fig.3 Structure of image pyramid
文獻(xiàn)[20]將背景差分目標(biāo)檢測(cè)模型與高斯圖像金字塔相結(jié)合用于多目標(biāo)的檢測(cè),減少了誤檢測(cè)。文獻(xiàn)[21]指出當(dāng)前在極端尺度變化下目標(biāo)檢測(cè)訓(xùn)練存在的缺點(diǎn),在此基礎(chǔ)上提出一種新的訓(xùn)練方案,即圖像金字塔尺度標(biāo)準(zhǔn)化(Scale Normalization for Image Pyramid,SNIP),在訓(xùn)練和反向傳播更新參數(shù)時(shí),只考慮在指定的尺度范圍內(nèi)的目標(biāo),即只對(duì)大小合適的某些目標(biāo)進(jìn)行訓(xùn)練,以此提高小目標(biāo)的檢測(cè)效率。然而,圖像金字塔方法的一個(gè)明顯限制是它在處理一張圖像時(shí)需要較大的計(jì)算量,模型必須對(duì)來自所有尺度的圖像執(zhí)行獨(dú)立的計(jì)算。
SSD 算法使用步長(zhǎng)為2 的卷積來降低特征圖的大小,以不同尺度的特征圖作為檢測(cè)層來分別預(yù)測(cè)不同尺度目標(biāo)的類別和位置坐標(biāo),較大的特征圖用來檢測(cè)小目標(biāo),較小的特征圖用來檢測(cè)大目標(biāo),實(shí)現(xiàn)多尺度目標(biāo)的檢測(cè)。SSD 算法的多尺度檢測(cè)如圖4所示。
圖4 SSD 算法的多尺度檢測(cè)Fig.4 Multi-scale detection of SSD algorithm
文獻(xiàn)[22]提出DSSD 網(wǎng)絡(luò),使用ResNet-101 更換SSD 的骨干網(wǎng)絡(luò)VGG16,提高了模型的特征提取能力,并使用反卷積層增加了上下文信息,提升了多尺度目標(biāo)及小目標(biāo)的檢測(cè)精度。文獻(xiàn)[23]提出一種基于稀疏連接和多尺度融合的Inception-SSD 行人檢測(cè)方法,使用Inception 模型代替骨干網(wǎng)絡(luò)的基礎(chǔ)部分,將全連接轉(zhuǎn)換為稀疏連接,有效緩解了參數(shù)空間大、容易過擬合、梯度分散、模型性能下降等問題。
由于SSD 多層特征圖為非連續(xù)結(jié)構(gòu),所得到的信息不足,影響檢測(cè)性能,因此特征金字塔通過引入自上而下的連接[24]來解決SSD 模型存在的問題。特征金字塔是目前最常使用的多尺度特征融合方法,針對(duì)圖像中不同物體具有不同的尺度,利用自下而上的路徑、自上而下的路徑和橫向連接三部分完成多尺度檢測(cè)。自下而上的路徑是卷積神經(jīng)網(wǎng)絡(luò)的前向過程,選取每個(gè)階段最后一層的輸出構(gòu)成特征金字塔;自上而下的路徑通過從更高的金字塔級(jí)別對(duì)空間上更抽象但語義更強(qiáng)的特征圖進(jìn)行上采樣來生成更高分辨率的特征圖;橫向連接合并了自下而上路徑和自上而下路徑的相同空間大小的特征圖,將來自低層特征圖的詳細(xì)位置信息和來自高層特征圖的豐富語義信息相融合,實(shí)現(xiàn)了不同尺度的特征提取,顯著提升了小目標(biāo)的檢測(cè)性能。特征金字塔結(jié)構(gòu)如圖5 所示。
圖5 特征金字塔結(jié)構(gòu)Fig.5 Structure of feature pyramid
文獻(xiàn)[25]將FPN 網(wǎng)絡(luò)中的Add 融合方式更改為Concat 方式來融合經(jīng)多次卷積后提取的特征。文獻(xiàn)[26]提出一種融合FPN 和Faster R-CNN[27]的行人檢測(cè)算法,獲得了較好的檢測(cè)效果。文獻(xiàn)[28]提出基于FPN 的路徑聚合網(wǎng)絡(luò)(PANet),在FPN 后增加自下向上的路徑增強(qiáng),能夠縮短信息路徑并利用低層中存在的準(zhǔn)確定位信息來增強(qiáng)特征金字塔,得到語義信息和定位精度上的雙重提升,從而提高了對(duì)于多尺度目標(biāo)的檢測(cè)能力。PANet 結(jié)構(gòu)如圖6 所示,其中,Pi和Ni表示不同層級(jí)的特征圖,Ni是由包括Pi等多個(gè)特征圖融合后的結(jié)果。
圖6 PANet 結(jié)構(gòu)Fig.6 Structure of the PANet
文獻(xiàn)[29]針對(duì)FPN 網(wǎng)絡(luò)存在自頂向下路徑中信息稀釋導(dǎo)致較低層獲得的語義信息有限、高層特征缺乏空間信息的問題,將語義金字塔模塊和語義特征融合模塊加入檢測(cè)模型,提出語義特征金字塔網(wǎng)絡(luò)(SFPN),以解決信息不平衡問題并防止在特征融合過程中發(fā)生稀釋。文獻(xiàn)[30]提出新的圖像金字塔引導(dǎo)網(wǎng)絡(luò)(IPG-Net),創(chuàng)建了一條新的路徑來緩解空間信息和語義信息之間的不平衡和錯(cuò)位問題,將IPG-Net 信息不斷融入主干流,解決了深層空間信息不足和小物體特征丟失的問題。文獻(xiàn)[31]提出圖特征金字塔網(wǎng)絡(luò)(GraphFPN),該網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)能夠動(dòng)態(tài)適應(yīng)輸入圖像的內(nèi)在結(jié)構(gòu),并支持所有尺度特征的同時(shí)交互,繼承輸入圖像的超像素層次結(jié)構(gòu),使用上下文層和等級(jí)間交互層來分別促進(jìn)相同尺度內(nèi)和不同尺度間的特征交互,避免了FPN 網(wǎng)絡(luò)中來自非相鄰尺度的特征只能間接交互的問題。
相較于低分辨率(Low-Resolution,LR)圖像,高分辨率(High-Resolution,HR)圖像的像素密度較高,能夠提供更多原始場(chǎng)景下精細(xì)的細(xì)節(jié)信息和可區(qū)分的特征,在檢測(cè)中能夠獲得更佳的檢測(cè)效果。因此,生成超分辨率圖像也是對(duì)小目標(biāo)的檢測(cè)精度進(jìn)行改進(jìn)的一種有效方法,旨在從相應(yīng)的低分辨率特征中恢復(fù)高分辨率特征,將生成的高分辨率圖像作為檢測(cè)模型的輸入,獲得更多小物體的細(xì)節(jié)信息。
目前,該類方法大部分主要通過生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Network,GAN)[32]的方式 將小目標(biāo)的特征轉(zhuǎn)化為與中大型目標(biāo)一樣或相近的特征表達(dá)來恢復(fù)或重建高分辨率圖像,其中生成器用于從低分辨率圖像中生成超分辨率圖像來欺騙判別器,判別器對(duì)真實(shí)圖像和生成器生成的仿真超分辨率圖像進(jìn)行區(qū)分,預(yù)測(cè)目標(biāo)的類別和位置,整體流程如圖7 所示。
圖7 基于GAN 的細(xì)節(jié)信息生成流程Fig.7 Procedure of detail information generation based on GAN
文獻(xiàn)[33]將GAN 引入小目標(biāo)檢測(cè)構(gòu)建一種Perceptual GAN,基于深度殘差特征的生成器模型將底層特征作為輸入,將小物體的原始較差特征轉(zhuǎn)換為具有高判別力的特征,從而在中間表示上生成超分辨率圖像,判別器通過對(duì)細(xì)粒度細(xì)節(jié)信息的生成進(jìn)行指導(dǎo)以提高生成目標(biāo)的質(zhì)量,有利于小目標(biāo)的檢測(cè)。文獻(xiàn)[34]提出一種可與多種檢測(cè)器相結(jié)合的SOD-MTGAN,在生成器中引入超分辨率網(wǎng)絡(luò)實(shí)現(xiàn)對(duì)小目標(biāo)圖像的大范圍上采樣,生成超分辨率圖像,并在判別器中引入用于目標(biāo)檢測(cè)的分類和回歸損失進(jìn)行聯(lián)合識(shí)別與反向傳播,以進(jìn)一步指導(dǎo)生成器網(wǎng)絡(luò)生成超分辨率圖像,使得小目標(biāo)在檢測(cè)中更易定位和識(shí)別。文獻(xiàn)[35]提出一種新的特征級(jí)超分辨率圖像生成方法,通過空洞卷積對(duì)網(wǎng)絡(luò)輸入的低分辨率特征感受野和目標(biāo)高分辨率特征感受野進(jìn)行匹配,提高超分辨率圖像生成質(zhì)量,并對(duì)超分辨率生成器進(jìn)行直接監(jiān)督,提高訓(xùn)練穩(wěn)定性,總體模型結(jié)構(gòu)如圖8 所示,其中,I為原始輸入圖像,×0.5 表示對(duì)圖像進(jìn)行下采樣,F(xiàn)為來自原始圖像的低分辨率特征,T為SR 目標(biāo)提取器提取到的真實(shí)目標(biāo)的超分辨率特征,S為生成的超分辨率特征。
圖8 特征級(jí)超分辨率圖像生成模型結(jié)構(gòu)Fig.8 Structure of feature-level super-resolution image generation model
文獻(xiàn)[36]使用超分辨率子網(wǎng)絡(luò)從大規(guī)模行人中恢復(fù)小規(guī)模行人的詳細(xì)信息,將分類任務(wù)和超分辨率圖像生成任務(wù)集成在一個(gè)統(tǒng)一的JCS-Net 框架中,使得重建圖像特征更適合小尺度行人的檢測(cè)。文獻(xiàn)[37]提出一種新的靜止小波擴(kuò)張殘差超分辨率圖像生成網(wǎng)絡(luò)(SWDR-SR),以極大地增強(qiáng)圖像的邊緣信息并減少模糊現(xiàn)象,從而改善行人的檢測(cè)效果。
在一張道路圖像中,小目標(biāo)占比較小,在檢測(cè)中能夠提取到的信息和特征稀少且有限,但小目標(biāo)周圍的區(qū)域總是包含很多其他對(duì)象的信息以及場(chǎng)景信息,這些信息在檢測(cè)中能夠提供幫助但卻容易被忽略,因此加強(qiáng)小目標(biāo)附近的上下文信息聯(lián)系,將上下文信息加入小目標(biāo)的檢測(cè),能夠有助于增強(qiáng)特征表示,提高小目標(biāo)的檢測(cè)精度。
文獻(xiàn)[38]引入一個(gè)簡(jiǎn)單而強(qiáng)大的空間記憶網(wǎng)絡(luò)框架(SMN),對(duì)實(shí)例級(jí)上下文進(jìn)行建模,該網(wǎng)絡(luò)本質(zhì)上是將對(duì)象實(shí)例重新組合成一個(gè)偽圖像表示。文獻(xiàn)[39]對(duì)對(duì)象之間的關(guān)系進(jìn)行建模,在檢測(cè)模型中添加對(duì)象關(guān)系模塊以增強(qiáng)檢測(cè)效果。文獻(xiàn)[40]構(gòu)建一個(gè)網(wǎng)絡(luò),利用行人實(shí)例之間的相關(guān)性,將行人目標(biāo)的頭頂區(qū)域和較低區(qū)域作為空間上下文,利用行人與場(chǎng)景之間的相關(guān)性,引入GRU[41]模塊,將編碼的上下文作為輸入來指導(dǎo)每個(gè)候選目標(biāo)的特征選擇和融合,具體的關(guān)系上下文結(jié)構(gòu)如圖9 所示,其中,節(jié)點(diǎn)v表示選中的感興趣區(qū)域,r表示每對(duì)實(shí)例節(jié)點(diǎn)之間的關(guān)系,f表示感興趣區(qū)域的視覺特征,m表示其他節(jié)點(diǎn)到節(jié)點(diǎn)vi的關(guān)系消息,ht+1為GRU 模型輸出的節(jié)點(diǎn)狀態(tài)。
圖9 關(guān)系上下文結(jié)構(gòu)Fig.9 Structure of relational contexts
文獻(xiàn)[42]提出一種用于目標(biāo)重新檢測(cè)的空間上下文分析方法(FS-SSD),通過考慮一定距離內(nèi)多類對(duì)象的相互作用,計(jì)算不同對(duì)象實(shí)例之間的類間和類內(nèi)距離作為空間上下文,以重新驗(yàn)證某些對(duì)象實(shí)例的置信度,這種重檢測(cè)方法充分利用空間關(guān)系,有助于處理多類小目標(biāo)檢測(cè)。文獻(xiàn)[43]使用來自更高層的更多抽象特征作為上下文,并從小物體的周圍像素中提取上下文信息,然后將上下文感知信息添加到SSD 網(wǎng)絡(luò),以便更好地進(jìn)行檢測(cè)。文獻(xiàn)[44]提出高效的選擇性上下文網(wǎng)絡(luò)(ESCNet)來解決SSD 網(wǎng)絡(luò)上下文探索不足的問題,其中增強(qiáng)上下文模塊(ECM)通過利用原始尺度、小尺度和大規(guī)模上下文信息來增強(qiáng)淺層特征,而三重注意力模塊(TAM)用來融合上下文信息并選擇性地細(xì)化特征。
在目標(biāo)檢測(cè)任務(wù)中,損失函數(shù)具有重要作用。損失函數(shù)往往用于檢測(cè)模型最后一部分,一般的目標(biāo)檢測(cè)算法包含兩類損失函數(shù):一類是分類損失函數(shù);另一類是回歸損失函數(shù),而YOLO 系列檢測(cè)算法還包含置信度損失函數(shù)。針對(duì)不同的檢測(cè)器和檢測(cè)場(chǎng)景,選擇或設(shè)計(jì)不同的損失函數(shù)會(huì)產(chǎn)生不同的收斂效果,通過對(duì)損失函數(shù)進(jìn)行改進(jìn),可以對(duì)小目標(biāo)取得更高的檢測(cè)準(zhǔn)確率。目前,常用的損失函數(shù)改進(jìn)方法大致可分為兩種:一種是對(duì)模型本身的損失函數(shù)進(jìn)行優(yōu)化;另一種是更換模型的損失函數(shù)。
針對(duì)實(shí)驗(yàn)中所選用的不同數(shù)據(jù)集,根據(jù)實(shí)際需求,對(duì)模型本身的損失函數(shù)進(jìn)行優(yōu)化和調(diào)整是提高小目標(biāo)檢測(cè)精度的一種有效方法。文獻(xiàn)[45]考慮到尺寸小的待檢測(cè)目標(biāo)的損失函數(shù)通常會(huì)被忽略,使得小目標(biāo)檢測(cè)精度受到影響,通過調(diào)整大小尺度目標(biāo)對(duì)損失值的影響權(quán)重,降低大目標(biāo)誤差對(duì)小目標(biāo)檢測(cè)效果的影響,使得小目標(biāo)和大目標(biāo)對(duì)損失函數(shù)的影響程度相同。文獻(xiàn)[46]考慮到道路行人、車輛等各類目標(biāo)數(shù)據(jù)量的不同,增加損失函數(shù)中目標(biāo)分類誤差的權(quán)重,并增強(qiáng)負(fù)樣本對(duì)損失貢獻(xiàn)的懲罰,有效降低了小目標(biāo)的誤檢率。
雖然對(duì)模型本身損失函數(shù)進(jìn)行調(diào)整能適當(dāng)提高小目標(biāo)檢測(cè)精度,但由于小目標(biāo)物體在道路圖像中占比低、數(shù)量少,訓(xùn)練階段小目標(biāo)對(duì)損失函數(shù)的貢獻(xiàn)較小,且會(huì)加劇樣本不均衡的問題。為了緩解這種情況,采用性能更優(yōu)、收斂速度更快的損失函數(shù)替代模型原有的分類損失函數(shù)成為目前常用的改進(jìn)方法。文獻(xiàn)[47]設(shè)計(jì)一種新的損失函數(shù)(CUA),通過進(jìn)一步考慮訓(xùn)練階段的類別不確定性來指導(dǎo)目標(biāo)檢測(cè),使得網(wǎng)絡(luò)專注于輸出小目標(biāo)不明確等情況。文獻(xiàn)[48]針對(duì)現(xiàn)有錨框匹配不平衡的問題,設(shè)計(jì)尺度平衡損失函數(shù)取代FSSD[49]、RefineDet[50]等方法中使用的保持匹配平衡的對(duì)應(yīng)函數(shù),通過在原有的基礎(chǔ)上進(jìn)行加權(quán)運(yùn)算,減少匹配次數(shù)多的目標(biāo)所占的比例,增大匹配次數(shù)少的小目標(biāo)的權(quán)重,提高小目標(biāo)的檢測(cè)精度和召回率。文獻(xiàn)[51]鑒于小目標(biāo)物體屬于困難檢測(cè)樣本,在引入Focal Loss 增大困難樣本的損失權(quán)重的同時(shí)結(jié)合反饋機(jī)制與空洞卷積,提高了道路小目標(biāo)的檢測(cè)精度。文獻(xiàn)[52]針對(duì)目標(biāo)預(yù)測(cè)框出現(xiàn)在真實(shí)框的內(nèi)部時(shí)GIoU[53]退化為IoU[54]使得位置關(guān)系無法區(qū)分的問題,使用CIoU[55]代替GIoU 作為回歸損失,使得目標(biāo)框在回歸過程中更穩(wěn)定,收斂精度更高。各類道路小目標(biāo)檢測(cè)優(yōu)化方法的優(yōu)缺點(diǎn)對(duì)比如表1 所示。
表1 各類道路小目標(biāo)檢測(cè)優(yōu)化方法的優(yōu)缺點(diǎn)對(duì)比Table 1 Comparison of advantages and disadvantages of various optimization methods for small object detection on roads
構(gòu)建一個(gè)小目標(biāo)檢測(cè)數(shù)據(jù)集需要花費(fèi)大量時(shí)間,并且對(duì)于小目標(biāo)的有限像素而言,正確放置邊界框的定位等都是有困難的。在目前的研究中,對(duì)于小目標(biāo)的檢測(cè)并沒有通用的數(shù)據(jù)集,多數(shù)研究者選擇在一些大型公共的數(shù)據(jù)集上進(jìn)行性能驗(yàn)證。當(dāng)前,道路目標(biāo)檢測(cè)領(lǐng)域已經(jīng)公開了許多公共的大型數(shù)據(jù)集,包括KITTI[56]、BDD100K[57]、ApolloScape[58]、D2-City[59]和Waymo[60],這些數(shù)據(jù)集通常包括數(shù)據(jù)量大、數(shù)據(jù)源豐富、應(yīng)用場(chǎng)景覆蓋全面等特點(diǎn),這對(duì)于道路目標(biāo)檢測(cè)的方法研究和成果展示起著至關(guān)重要的推動(dòng)作用和貢獻(xiàn)。除了前面介紹的幾種數(shù)據(jù)集,研究者還提出了其他的道路目標(biāo)檢測(cè)數(shù)據(jù)集,例如A*3D[61]、nuScenes[62]等。
1)KITTI 數(shù)據(jù)集
2012年,德國(guó)卡爾斯魯厄理工學(xué)院和豐田美國(guó)技術(shù)研究院聯(lián)合創(chuàng)辦了KITTI 數(shù)據(jù)集,該數(shù)據(jù)集是目前自動(dòng)駕駛場(chǎng)景下常用的計(jì)算機(jī)視覺算法評(píng)測(cè)數(shù)據(jù)集之一。KITTI 數(shù)據(jù)集中的圖像包含在卡爾斯魯厄市區(qū)、鄉(xiāng)村、高速公路等場(chǎng)景中采集到的真實(shí)圖像數(shù)據(jù),采集到的每張圖像中最多可達(dá)15 輛車和30 個(gè)行人以及各種不同程度的遮擋與截?cái)?,包含的類別可分為汽車、貨車、卡車、有軌電車、行人、坐著的行人、騎自行車的人等7 種與道路交通有關(guān)的對(duì)象類別。
2)BDD100K 數(shù)據(jù)集
2018年,美國(guó)伯克利人工智能研究實(shí)驗(yàn)室發(fā)布了BDD100K 開源視覺駕駛場(chǎng)景數(shù)據(jù)集,該數(shù)據(jù)集收集了美國(guó)不同地區(qū)的城市街道、居民區(qū)和高速公路的100 000 個(gè)視頻,每個(gè)視頻時(shí)長(zhǎng)約40 s,在每個(gè)視頻的第10 秒對(duì)關(guān)鍵幀進(jìn)行采樣,得到100 000 張1 280×720 像素的圖像。該數(shù)據(jù)集涵蓋了晴天、多云、陰天、雨天、霧天、下雪等6 種不同的天氣狀況以及黎明、黃昏、白天、夜間等不同時(shí)段,包含的目標(biāo)類別可分為公共汽車、交通燈、交通標(biāo)志、行人、自行車、卡車、摩托車、小汽車、火車、騎手等。
3)ApolloScape 數(shù)據(jù)集
2018年,百度發(fā)布了一個(gè)大規(guī)模自動(dòng)駕駛數(shù)據(jù)集——ApolloScape,其是一個(gè)像素級(jí)標(biāo)注的場(chǎng)景解析數(shù)據(jù)集,圖像采集來自中國(guó)的北京、上海和深圳。該數(shù)據(jù)集包括143 906 張像素級(jí)語義標(biāo)注圖像,屬于業(yè)界環(huán)境復(fù)雜、標(biāo)注精準(zhǔn)、數(shù)據(jù)量大的公開3D 自動(dòng)駕駛數(shù)據(jù)集,標(biāo)注精度上超過了同類型的KITTI 和BDD100K 數(shù)據(jù)集,致力于向研究者提供具有挑戰(zhàn)性的數(shù)據(jù)支持。
4)D2-City 數(shù)據(jù)集
D2-City 是一個(gè)大規(guī)模行車視頻數(shù)據(jù)集,采集自運(yùn)行在中國(guó)多個(gè)城市的市區(qū)和郊區(qū)的滴滴運(yùn)營(yíng)車輛,涵蓋了中國(guó)不同城市的道路行車場(chǎng)景,提供了更多復(fù)雜和具有挑戰(zhàn)性的天氣、交通等狀況,包括道路擁堵、雨霧天氣、低光環(huán)境、圖像清晰度低等。該數(shù)據(jù)集提供了12 類道路對(duì)象的注釋,包括汽車、面包車、公共汽車、卡車、人、自行車、摩托車、開放式三輪車、封閉式三輪車、叉車以及大小街區(qū)。
5)Waymo 數(shù)據(jù)集
2019年,自動(dòng)駕駛公司W(wǎng)aymo 發(fā)布了大規(guī)模、高質(zhì)量、多樣化的Waymo 數(shù)據(jù)集,該數(shù)據(jù)集包含1 150 個(gè)場(chǎng)景,每個(gè)場(chǎng)景跨越20 s,包括在美國(guó)鳳凰城、山景城和舊金山的城市和郊區(qū)捕獲的經(jīng)過良好同步和校準(zhǔn)的高質(zhì)量LiDAR 和相機(jī)數(shù)據(jù)。目前,該數(shù)據(jù)集定義了2D 和3D 對(duì)象檢測(cè)和跟蹤任務(wù),未來研究者計(jì)劃添加地圖信息、更多標(biāo)記和未標(biāo)記數(shù)據(jù),使其更加多樣化。
表2 根據(jù)不同的應(yīng)用場(chǎng)景,簡(jiǎn)要對(duì)這些比較有影響力的常用大型道路目標(biāo)檢測(cè)數(shù)據(jù)集進(jìn)行了介紹。
除了上述列舉的常用大型數(shù)據(jù)集外,很多研究者也會(huì)在MS COCO[6]、PASCAL VOC[63]等包含有關(guān)小目標(biāo)類別的大型數(shù)據(jù)集或自建的數(shù)據(jù)集上對(duì)檢測(cè)模型或優(yōu)化方法進(jìn)行驗(yàn)證。表3 對(duì)MS COCO、PASCAL VOC 這兩類常用的公共數(shù)據(jù)集進(jìn)行了簡(jiǎn)要介紹。
表3 MS COCO 和PASCAL VOC 數(shù)據(jù)集Table 3 MS COCO and PASCAL VOC datasets
對(duì)于道路場(chǎng)景小目標(biāo)檢測(cè)的評(píng)價(jià)指標(biāo)主要包括檢測(cè)精度和檢測(cè)速度這兩方面。檢測(cè)精度主要使用平均精度(Average Precision,AP)和多個(gè)類別的平均精度均值(mean Average Precision,mAP)來衡量模型檢測(cè)性能的優(yōu)劣,AP 和mAP 的計(jì)算公式分別如式(1)和式(2)所示:
其中:C代表所有類別數(shù);AAPi代表模型對(duì)于第i個(gè)類別的物體的平均精度。
模型檢測(cè)速度主要反映了算法的實(shí)時(shí)性,也是一個(gè)重要的評(píng)價(jià)指標(biāo),通常采用每秒幀率(Frame Per Second,F(xiàn)PS),即算法平均每秒檢測(cè)的圖像數(shù)量進(jìn)行衡量。FPS越高,模型檢測(cè)速度越快,實(shí)時(shí)性能越好。
一部分優(yōu)化方法基于MS COCO 數(shù)據(jù)集訓(xùn)練模型并進(jìn)行驗(yàn)證,另外一部分優(yōu)化方法在PASCAL VOC 2007、KITTI 道路場(chǎng)景數(shù)據(jù)集以及自建的數(shù)據(jù)集上進(jìn)行模型性能驗(yàn)證,這里將分為兩部分進(jìn)行性能對(duì)比。
不同檢測(cè)模型在MS COCO 數(shù)據(jù)集上的性能測(cè)試結(jié)果如表4 所示,其中,AP50和AP75分別表示IoU閾值為0.5 和0.75 時(shí)目標(biāo)檢測(cè)的平均精度,APS、APM和APL分別表示小、中、大尺度檢測(cè)目標(biāo)的平均精度,最優(yōu)指標(biāo)值用加粗字體標(biāo)示。
表4 不同檢測(cè)模型在MS COCO 數(shù)據(jù)集上的測(cè)試結(jié)果Table 4 Test results of different detection models on the MS COCO dataset %
由表4 可以看出,文獻(xiàn)[21]模型在多個(gè)指標(biāo)上都取得了最佳的檢測(cè)結(jié)果,在多尺度策略的基礎(chǔ)上,采用一種新的圖像金字塔尺度歸一化(SNIP)訓(xùn)練策略,只選取分辨率落入所需尺度范圍的目標(biāo)進(jìn)行訓(xùn)練,忽略其他目標(biāo)。通過這種訓(xùn)練設(shè)置,可在最合理的范圍內(nèi)處理小目標(biāo)物體,以此提高了小目標(biāo)的檢測(cè)精度,卻不影響對(duì)中大型對(duì)象的檢測(cè)性能。文獻(xiàn)[7]模型基于數(shù)據(jù)增強(qiáng)的優(yōu)化方法相比于其他模型性能較差,主要原因?yàn)槠湓诖笮蛿?shù)據(jù)集中僅使用數(shù)據(jù)增強(qiáng),對(duì)小目標(biāo)檢測(cè)的性能提升是有限的,還需與其他方法結(jié)合使用。對(duì)于同一個(gè)優(yōu)化方法,IoU閾值設(shè)置為0.5 時(shí)取得的AP 值較高,當(dāng)IoU 提高時(shí),精度也會(huì)降低。雖然優(yōu)化后的模型在小尺度目標(biāo)上的檢測(cè)精度有所提升,但整體上小尺度的檢測(cè)精度與中大尺度的檢測(cè)精度仍有著明顯的差距,僅約為大尺度目標(biāo)的1/2,這也說明了小目檢測(cè)的難度較大。
總體來看,針對(duì)小目標(biāo)檢測(cè)的優(yōu)化方法對(duì)于3 個(gè)尺度目標(biāo)的檢測(cè)性能均有一定提升,各類檢測(cè)模型均在大尺度目標(biāo)上的敏感性更好,獲得的檢測(cè)精度最高,而其中基于多尺度策略的檢測(cè)模型在3 個(gè)尺度目標(biāo)的檢測(cè)上得到了最好的檢測(cè)結(jié)果,基于超分辨率細(xì)節(jié)信息生成的檢測(cè)模型次之,而僅基于數(shù)據(jù)增強(qiáng)方法的檢測(cè)模型對(duì)目標(biāo)的敏感度最低,性能提升微弱。因此,當(dāng)數(shù)據(jù)集容量偏小且數(shù)據(jù)集構(gòu)成比較簡(jiǎn)單時(shí),采用數(shù)據(jù)增強(qiáng)能對(duì)目標(biāo)檢測(cè)性能有一定的提升,而在大型復(fù)雜數(shù)據(jù)集中,其他方法改進(jìn)效果更加顯著,而使用基于多尺度策略的優(yōu)化方法得到的小目標(biāo)的平均精度要高于其他方法,因此可以成為未來一個(gè)主要的研究方向。
表5 展示了一些檢測(cè)模型在KITTI 等道路場(chǎng)景數(shù)據(jù)集及自建的數(shù)據(jù)集上的檢測(cè)性能,與原始模型相比,優(yōu)化后的模型在精度和速度上都得到了一定的提升,但與在MS COCO 數(shù)據(jù)集上進(jìn)行的實(shí)驗(yàn)結(jié)果相比,在這些數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果無法表現(xiàn)出明顯的交叉評(píng)估性能。
表5 不同檢測(cè)模型在其他數(shù)據(jù)集上的測(cè)試結(jié)果Table 5 Test results of different detection models on other datasets
目前,在道路場(chǎng)景下的小目標(biāo)檢測(cè)已取得了較大進(jìn)步,下一步將對(duì)其在多個(gè)數(shù)據(jù)集上的檢測(cè)性能以及在可靠性、通用性、魯棒性等方面的表現(xiàn)做進(jìn)一步研究。
1)構(gòu)建適應(yīng)性和普適性更強(qiáng)的檢測(cè)模型。許多通用的檢測(cè)模型對(duì)于復(fù)雜道路場(chǎng)景下行人、車輛等小目標(biāo)的類型、大小等較敏感,需要根據(jù)不同的場(chǎng)景調(diào)整參數(shù),例如學(xué)習(xí)率:當(dāng)設(shè)置較大的學(xué)習(xí)率時(shí)模型可能永遠(yuǎn)不會(huì)收斂,當(dāng)設(shè)置較小的學(xué)習(xí)率時(shí)模型會(huì)給出次優(yōu)結(jié)果。因此,建立適應(yīng)性和普適性更強(qiáng)的檢測(cè)模型是一個(gè)重要的研究方向。
2)設(shè)計(jì)性能更優(yōu)和更適合小目標(biāo)檢測(cè)的專用骨干網(wǎng)絡(luò)。深層次的骨干網(wǎng)絡(luò)可能不利于小目標(biāo)提取高質(zhì)量的特征表示,因此需要設(shè)計(jì)一個(gè)有效的骨干網(wǎng)絡(luò),既具有強(qiáng)大的特征提取能力,能更好地提升小目標(biāo)的檢測(cè)性能,又能減少高昂的計(jì)算成本和目標(biāo)信息的丟失,這也是目前研究的一大趨勢(shì)。
3)構(gòu)建更輕量化的檢測(cè)模型。不同的應(yīng)用場(chǎng)景對(duì)檢測(cè)精度和速度的側(cè)重不同,當(dāng)應(yīng)用于智能交通等領(lǐng)域時(shí),對(duì)于檢測(cè)速度的追求是首選,在檢測(cè)模型中融入特征融合結(jié)構(gòu)已成為道路小目標(biāo)檢測(cè)中的最常用的研究方法,但該方法會(huì)降低檢測(cè)速度,增加時(shí)間消耗,因此需要構(gòu)建更輕量化的檢測(cè)模型,在保持一定精度的前提下設(shè)計(jì)靈活度更高的網(wǎng)絡(luò)結(jié)構(gòu),滿足模型輕量化、易于移植的需求,實(shí)現(xiàn)模型在車輛設(shè)備上的快速部署,具有很強(qiáng)的現(xiàn)實(shí)意義。
4)構(gòu)建大規(guī)模通用的道路小目標(biāo)檢測(cè)數(shù)據(jù)集。小目標(biāo)數(shù)據(jù)集的缺乏是影響小目標(biāo)檢測(cè)的一個(gè)重要因素,現(xiàn)有的數(shù)據(jù)集或自建的數(shù)據(jù)集包含多類小目標(biāo)的數(shù)量非常有限,無法支持基于深度學(xué)習(xí)的小目標(biāo)檢測(cè)定制模型的訓(xùn)練以及性能評(píng)估,因此構(gòu)建小目標(biāo)數(shù)據(jù)集對(duì)于推進(jìn)小目標(biāo)檢測(cè)的發(fā)展具有重要的意義。
5)采用合適的訓(xùn)練策略。在大部分?jǐn)?shù)據(jù)集中,小目標(biāo)物體占比小、數(shù)量少,因此可采用一些特定的訓(xùn)練方式,包括多尺度訓(xùn)練、增加小目標(biāo)的訓(xùn)練權(quán)重以及多個(gè)數(shù)據(jù)集進(jìn)行聯(lián)合訓(xùn)練等,使得模型對(duì)小尺度目標(biāo)的泛化能力增強(qiáng),在訓(xùn)練時(shí)對(duì)小目標(biāo)的學(xué)習(xí)更加充分。這也是提高小目標(biāo)檢測(cè)性能的有效措施,具有廣闊的發(fā)展前景。
道路小目標(biāo)檢測(cè)是計(jì)算機(jī)視覺領(lǐng)域的一個(gè)極具挑戰(zhàn)性的問題。本文從數(shù)據(jù)增強(qiáng)、多尺度策略、生成超分辨率細(xì)節(jié)信息、加強(qiáng)上下文信息聯(lián)系、改進(jìn)損失函數(shù)等5 個(gè)方面對(duì)基于深度學(xué)習(xí)的道路場(chǎng)景下的小目標(biāo)檢測(cè)優(yōu)化方法的最新研究進(jìn)展進(jìn)行歸納和總結(jié),并根據(jù)定量和定性結(jié)果對(duì)各類優(yōu)化方法的性能進(jìn)行評(píng)估。后續(xù)將對(duì)探索設(shè)計(jì)性能更優(yōu)和更輕量化的檢測(cè)模型、構(gòu)建小目標(biāo)數(shù)據(jù)集、改進(jìn)訓(xùn)練策略等方向進(jìn)行更深入研究。