基于深度學(xué)習(xí)的道路小目標(biāo)檢測綜述

2023-10-17 05:50:34曹健陳怡梅李海生蔡強

計算機工程 2023年10期

曹健，陳怡梅，李海生，蔡強

（1.北京工商大學(xué) 計算機學(xué)院，北京 100048；2.食品安全大數(shù)據(jù)技術(shù)北京市重點實驗室，北京 100048）

0 概述

道路目標(biāo)檢測是智能交通監(jiān)控［1］、自動駕駛［2］、車牌識別［3］、行人跟蹤［4］、車輛檢測［5］等領(lǐng)域的重要研究分支之一，旨在識別和檢測整個道路場景圖像中感興趣的目標(biāo)，尤其是在復(fù)雜場景中的準(zhǔn)確性和實時性是評測整個模型系統(tǒng)的重要指標(biāo)，具有廣泛的應(yīng)用價值。但是自然交通場景的復(fù)雜多變以及道路各類目標(biāo)本身在尺寸與距離上的干擾，使得目標(biāo)識別和檢測難度大大增加，其中小目標(biāo)檢測就是研究者關(guān)注的一個難點問題。對于大中型的車輛、行人等目標(biāo)，通用的Two-stage 和One-stage 目標(biāo)檢測模型已經(jīng)能夠達到不錯的檢測效果，然而小目標(biāo)的尺寸較小，不具備相應(yīng)的形狀和紋理特征，這些特性導(dǎo)致其檢測性能仍有所欠缺，不能滿足實際需求。

道路小目標(biāo)的具體定義方式可參考小目標(biāo)的定義方式，大致可分為兩種：一種是絕對尺寸的定義方式，在通用的目標(biāo)檢測數(shù)據(jù)集MS COCO［6］中，尺寸小于32×32 像素的目標(biāo)被定義為小目標(biāo)；另一種是相對尺寸的定義方式，根據(jù)國際光電儀器工程師協(xié)會（SPIE）的定義，小目標(biāo)是指在大小為256×256 像素的圖像中目標(biāo)區(qū)域小于9×9 像素。

目前，道路小目標(biāo)檢測困難和效果相對較差的原因大致可以歸結(jié)為以下4 種：1）相較于中大型行人車輛目標(biāo)，包含小目標(biāo)實例的圖像較少，且道路場景復(fù)雜多變，小目標(biāo)容易隱藏在背景中；2）小目標(biāo)在道路圖像中面積占比小、分辨率低，攜帶的信息少，位置缺乏多樣性，難以定位，因此，卷積神經(jīng)網(wǎng)絡(luò)提取到的可利用的有效信息非常有限；3）特征提取時，輸入圖像經(jīng)過卷積神經(jīng)網(wǎng)絡(luò)的多次下采樣后，小目標(biāo)的細(xì)節(jié)信息丟失嚴(yán)重，影響小目標(biāo)的檢測效果；4）道路目標(biāo)檢測領(lǐng)域缺乏大規(guī)模通用的小目標(biāo)檢測數(shù)據(jù)集，目前該領(lǐng)域發(fā)布的公共數(shù)據(jù)集多為針對中大型的行人車輛進行檢測，難以滿足小目標(biāo)的檢測需求。

針對上述問題，國內(nèi)外許多研究者提出了相應(yīng)的改進和優(yōu)化方法來提高小目標(biāo)的檢測精度。本文將主要從數(shù)據(jù)增強、多尺度策略、生成超分辨率（Super-Resolution，SR）細(xì)節(jié)信息、加強上下文信息聯(lián)系、改進損失函數(shù)等5 類改進方向出發(fā)進行歸納梳理，對各類方法的特點和優(yōu)缺點進行比較，在MS COCO公共數(shù)據(jù)集以及其他不同道路場景數(shù)據(jù)集上對各類方法的檢測性能進行評估和對比分析，并對道路小目標(biāo)檢測的未來研究方向進行展望。

1 針對小目標(biāo)檢測的優(yōu)化方法

1.1 數(shù)據(jù)增強

數(shù)據(jù)增強是一種擴展數(shù)據(jù)的技術(shù)，在缺乏數(shù)據(jù)或數(shù)據(jù)量有限的情況下，該技術(shù)可以利用有限的數(shù)據(jù)來創(chuàng)造盡可能多的價值并盡可能滿足研究者的需求。盡管現(xiàn)在有很多用于各種任務(wù)的公開數(shù)據(jù)集，但數(shù)據(jù)量在使用中遠(yuǎn)遠(yuǎn)不夠，而收集和制作這些數(shù)據(jù)的成本其實是非常高的且不便于采集，因此數(shù)據(jù)增強便成為了一種快速有效的改進方法。在大部分目標(biāo)檢測的數(shù)據(jù)集中，小目標(biāo)的實例數(shù)量占比少，在訓(xùn)練和檢測中容易被忽略。通過數(shù)據(jù)增強來增加小目標(biāo)的樣本數(shù)量，可有效改進小目標(biāo)的檢測精準(zhǔn)度。常用的數(shù)據(jù)增強方法可大致分為單樣本數(shù)據(jù)增強和多樣本數(shù)據(jù)增強兩類。

典型的單樣本數(shù)據(jù)增強方法主要是在一張預(yù)檢測的圖像上進行翻轉(zhuǎn)、裁剪、縮放、添加噪聲、變換顏色等操作，改變圖像原有的狀態(tài)，可有效增加數(shù)據(jù)集的樣本數(shù)量和提高網(wǎng)絡(luò)的泛化能力。文獻［7］使用過采樣和基于復(fù)制粘貼的增強方法進行改進，并在將對象粘貼到新位置前，對其應(yīng)用兩種縮放圖像和旋轉(zhuǎn)圖像的隨機變換，然后將小目標(biāo)粘貼到新的位置，并確保新粘貼的目標(biāo)不與任何現(xiàn)有目標(biāo)相重疊，且距離圖像邊界至少5 個像素。文獻［8］對輸入的每一張圖像先采用縮放操作，在縮放操作后進行增強對比度、翻轉(zhuǎn)、改變亮度和以0.5 的概率隨機角度旋轉(zhuǎn)等操作。文獻［9］在小目標(biāo)數(shù)據(jù)集上，將每張圖片上的小目標(biāo)物體在訓(xùn)練時復(fù)制3次，使得網(wǎng)絡(luò)在訓(xùn)練過程中可以更容易地提取目標(biāo)的特征信息。文獻［10］通過幾何變換和顏色變換等進行數(shù)據(jù)增強，增加了數(shù)據(jù)集的數(shù)據(jù)量。文獻［11］提出自動數(shù)據(jù)增強策略，與手工制定的策略不同，該策略利用自動算法在多種增強候選者中進行搜索，且該策略也可以應(yīng)用于其他數(shù)據(jù)集和框級任務(wù)。文獻［12］利用自動機器學(xué)習(xí)（Auto Machine Learning，Auto ML）原理設(shè)計自動搜索數(shù)據(jù)增強技術(shù)用于行人檢測，從而產(chǎn)生最佳的數(shù)據(jù)增強策略。

近些年，許多研究者也提出了多種通用的多樣本數(shù)據(jù)增強方法，包括MixUp［13］、CutOut［14］、CutMix［15］、Mosaic［16］等方法，這些方法通過將多張圖像以某種方式合成到一起形成新的樣本，達到擴充數(shù)據(jù)集容量的目的。MixUp 方法將兩張圖像以一定的概率和比例拼湊到一起，比例分配決定了分類結(jié)果。CutOut 是在圖像中隨機選擇某一部分區(qū)域進行裁剪。CutMix 是將兩種方法相結(jié)合，先裁剪掉一張圖像的某一部分，再使用另一張圖像中的某一部分進行填充形成新的樣本。Mosaic 數(shù)據(jù)增強方法是目前最常用的數(shù)據(jù)增強方法之一，該方法借鑒了CutMix 增強方法，將采用的2 張圖像擴充為4 張圖像，先對4 張圖像進行隨機裁剪、縮放、翻轉(zhuǎn)等操作，然后將4 張圖像拼接形成一張新的圖像。這個操作在擴充了數(shù)據(jù)集的同時也增加了小樣本的數(shù)量，并且極大地豐富了檢測對象的背景。在YOLOv4［16］和YOLOv5［17］模型結(jié)構(gòu)中，均使用了Mosaic數(shù)據(jù)增強方法，以此提高了模型學(xué)習(xí)能力和效率。文獻［18］也將 Mosaic 數(shù)據(jù)增強方法引入改進后的CenterNet［19］中，以此優(yōu)化算法的訓(xùn)練模式，豐富檢測背景，優(yōu)化檢測性能。圖1 和圖2 為多樣本數(shù)據(jù)增強方法的示例圖。

圖1 MixUp、CutOut、CutMix 數(shù)據(jù)增強方法的示例圖Fig.1 Example diagrams of MixUp，CutOut，and CutMix data enhancement methods

圖2 Mosaic 數(shù)據(jù)增強方法的示例圖Fig.2 Example diagrams of Mosaic data enhancement method

1.2 多尺度策略

在使用卷積神經(jīng)網(wǎng)絡(luò)進行特征提取時，不同的網(wǎng)絡(luò)深度對應(yīng)不同層次的特征。低層特征的分辨率更高，像素更豐富，包含更多的細(xì)節(jié)信息和位置信息，對于目標(biāo)的定位有極大幫助，但包含的語義信息較少；高層特征包含更豐富的語義信息，極大地促進了對象的分類，但分辨率較低，像素較少，對細(xì)節(jié)位置信息的感知能力較差。對于小目標(biāo)行人、車輛以及指示牌而言，它們的尺寸小，分辨率低，在多次下采樣后，特征圖不斷縮小，致使小目標(biāo)的細(xì)節(jié)信息嚴(yán)重丟失，而多數(shù)通用檢測器僅采用最后一層的特征圖來定位目標(biāo)和預(yù)測置信度分?jǐn)?shù)，其中包含豐富的分類信息但缺乏詳細(xì)信息，使得小目標(biāo)物體容易出現(xiàn)誤檢和漏檢的情況。多尺度策略的提出有效緩解了這一問題，在計算量不大的情況下，增強了物體特征的表達能力，提高小目標(biāo)檢測的性能。目前，典型的多尺度策略有圖像金字塔、SSD 算法和特征金字塔網(wǎng)絡(luò)（Feature Pyramid Network，F(xiàn)PN）。

圖像金字塔是圖像多尺度表達的一種，通過對原始圖像進行下采樣，得到一系列以金字塔形狀排列的分辨率逐漸降低的子圖集合，構(gòu)成圖像金字塔。圖像金字塔結(jié)構(gòu)如圖3 所示。

圖3 圖像金字塔結(jié)構(gòu)Fig.3 Structure of image pyramid

文獻［20］將背景差分目標(biāo)檢測模型與高斯圖像金字塔相結(jié)合用于多目標(biāo)的檢測，減少了誤檢測。文獻［21］指出當(dāng)前在極端尺度變化下目標(biāo)檢測訓(xùn)練存在的缺點，在此基礎(chǔ)上提出一種新的訓(xùn)練方案，即圖像金字塔尺度標(biāo)準(zhǔn)化（Scale Normalization for Image Pyramid，SNIP），在訓(xùn)練和反向傳播更新參數(shù)時，只考慮在指定的尺度范圍內(nèi)的目標(biāo)，即只對大小合適的某些目標(biāo)進行訓(xùn)練，以此提高小目標(biāo)的檢測效率。然而，圖像金字塔方法的一個明顯限制是它在處理一張圖像時需要較大的計算量，模型必須對來自所有尺度的圖像執(zhí)行獨立的計算。

SSD 算法使用步長為2 的卷積來降低特征圖的大小，以不同尺度的特征圖作為檢測層來分別預(yù)測不同尺度目標(biāo)的類別和位置坐標(biāo)，較大的特征圖用來檢測小目標(biāo)，較小的特征圖用來檢測大目標(biāo)，實現(xiàn)多尺度目標(biāo)的檢測。SSD 算法的多尺度檢測如圖4所示。

圖4 SSD 算法的多尺度檢測Fig.4 Multi-scale detection of SSD algorithm

文獻［22］提出DSSD 網(wǎng)絡(luò)，使用ResNet-101 更換SSD 的骨干網(wǎng)絡(luò)VGG16，提高了模型的特征提取能力，并使用反卷積層增加了上下文信息，提升了多尺度目標(biāo)及小目標(biāo)的檢測精度。文獻［23］提出一種基于稀疏連接和多尺度融合的Inception-SSD 行人檢測方法，使用Inception 模型代替骨干網(wǎng)絡(luò)的基礎(chǔ)部分，將全連接轉(zhuǎn)換為稀疏連接，有效緩解了參數(shù)空間大、容易過擬合、梯度分散、模型性能下降等問題。

由于SSD 多層特征圖為非連續(xù)結(jié)構(gòu)，所得到的信息不足，影響檢測性能，因此特征金字塔通過引入自上而下的連接［24］來解決SSD 模型存在的問題。特征金字塔是目前最常使用的多尺度特征融合方法，針對圖像中不同物體具有不同的尺度，利用自下而上的路徑、自上而下的路徑和橫向連接三部分完成多尺度檢測。自下而上的路徑是卷積神經(jīng)網(wǎng)絡(luò)的前向過程，選取每個階段最后一層的輸出構(gòu)成特征金字塔；自上而下的路徑通過從更高的金字塔級別對空間上更抽象但語義更強的特征圖進行上采樣來生成更高分辨率的特征圖；橫向連接合并了自下而上路徑和自上而下路徑的相同空間大小的特征圖，將來自低層特征圖的詳細(xì)位置信息和來自高層特征圖的豐富語義信息相融合，實現(xiàn)了不同尺度的特征提取，顯著提升了小目標(biāo)的檢測性能。特征金字塔結(jié)構(gòu)如圖5 所示。

圖5 特征金字塔結(jié)構(gòu)Fig.5 Structure of feature pyramid

文獻［25］將FPN 網(wǎng)絡(luò)中的Add 融合方式更改為Concat 方式來融合經(jīng)多次卷積后提取的特征。文獻［26］提出一種融合FPN 和Faster R-CNN［27］的行人檢測算法，獲得了較好的檢測效果。文獻［28］提出基于FPN 的路徑聚合網(wǎng)絡(luò)（PANet），在FPN 后增加自下向上的路徑增強，能夠縮短信息路徑并利用低層中存在的準(zhǔn)確定位信息來增強特征金字塔，得到語義信息和定位精度上的雙重提升，從而提高了對于多尺度目標(biāo)的檢測能力。PANet 結(jié)構(gòu)如圖6 所示，其中，Pi和Ni表示不同層級的特征圖，Ni是由包括Pi等多個特征圖融合后的結(jié)果。

圖6 PANet 結(jié)構(gòu)Fig.6 Structure of the PANet

文獻［29］針對FPN 網(wǎng)絡(luò)存在自頂向下路徑中信息稀釋導(dǎo)致較低層獲得的語義信息有限、高層特征缺乏空間信息的問題，將語義金字塔模塊和語義特征融合模塊加入檢測模型，提出語義特征金字塔網(wǎng)絡(luò)（SFPN），以解決信息不平衡問題并防止在特征融合過程中發(fā)生稀釋。文獻［30］提出新的圖像金字塔引導(dǎo)網(wǎng)絡(luò)（IPG-Net），創(chuàng)建了一條新的路徑來緩解空間信息和語義信息之間的不平衡和錯位問題，將IPG-Net 信息不斷融入主干流，解決了深層空間信息不足和小物體特征丟失的問題。文獻［31］提出圖特征金字塔網(wǎng)絡(luò)（GraphFPN），該網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)能夠動態(tài)適應(yīng)輸入圖像的內(nèi)在結(jié)構(gòu)，并支持所有尺度特征的同時交互，繼承輸入圖像的超像素層次結(jié)構(gòu)，使用上下文層和等級間交互層來分別促進相同尺度內(nèi)和不同尺度間的特征交互，避免了FPN 網(wǎng)絡(luò)中來自非相鄰尺度的特征只能間接交互的問題。

1.3 超分辨率細(xì)節(jié)信息生成

相較于低分辨率（Low-Resolution，LR）圖像，高分辨率（High-Resolution，HR）圖像的像素密度較高，能夠提供更多原始場景下精細(xì)的細(xì)節(jié)信息和可區(qū)分的特征，在檢測中能夠獲得更佳的檢測效果。因此，生成超分辨率圖像也是對小目標(biāo)的檢測精度進行改進的一種有效方法，旨在從相應(yīng)的低分辨率特征中恢復(fù)高分辨率特征，將生成的高分辨率圖像作為檢測模型的輸入，獲得更多小物體的細(xì)節(jié)信息。

目前，該類方法大部分主要通過生成對抗網(wǎng)絡(luò)（Generative Adversarial Network，GAN）［32］的方式將小目標(biāo)的特征轉(zhuǎn)化為與中大型目標(biāo)一樣或相近的特征表達來恢復(fù)或重建高分辨率圖像，其中生成器用于從低分辨率圖像中生成超分辨率圖像來欺騙判別器，判別器對真實圖像和生成器生成的仿真超分辨率圖像進行區(qū)分，預(yù)測目標(biāo)的類別和位置，整體流程如圖7 所示。

圖7 基于GAN 的細(xì)節(jié)信息生成流程Fig.7 Procedure of detail information generation based on GAN

文獻［33］將GAN 引入小目標(biāo)檢測構(gòu)建一種Perceptual GAN，基于深度殘差特征的生成器模型將底層特征作為輸入，將小物體的原始較差特征轉(zhuǎn)換為具有高判別力的特征，從而在中間表示上生成超分辨率圖像，判別器通過對細(xì)粒度細(xì)節(jié)信息的生成進行指導(dǎo)以提高生成目標(biāo)的質(zhì)量，有利于小目標(biāo)的檢測。文獻［34］提出一種可與多種檢測器相結(jié)合的SOD-MTGAN，在生成器中引入超分辨率網(wǎng)絡(luò)實現(xiàn)對小目標(biāo)圖像的大范圍上采樣，生成超分辨率圖像，并在判別器中引入用于目標(biāo)檢測的分類和回歸損失進行聯(lián)合識別與反向傳播，以進一步指導(dǎo)生成器網(wǎng)絡(luò)生成超分辨率圖像，使得小目標(biāo)在檢測中更易定位和識別。文獻［35］提出一種新的特征級超分辨率圖像生成方法，通過空洞卷積對網(wǎng)絡(luò)輸入的低分辨率特征感受野和目標(biāo)高分辨率特征感受野進行匹配，提高超分辨率圖像生成質(zhì)量，并對超分辨率生成器進行直接監(jiān)督，提高訓(xùn)練穩(wěn)定性，總體模型結(jié)構(gòu)如圖8 所示，其中，I為原始輸入圖像，×0.5 表示對圖像進行下采樣，F(xiàn)為來自原始圖像的低分辨率特征，T為SR 目標(biāo)提取器提取到的真實目標(biāo)的超分辨率特征，S為生成的超分辨率特征。

圖8 特征級超分辨率圖像生成模型結(jié)構(gòu)Fig.8 Structure of feature-level super-resolution image generation model

文獻［36］使用超分辨率子網(wǎng)絡(luò)從大規(guī)模行人中恢復(fù)小規(guī)模行人的詳細(xì)信息，將分類任務(wù)和超分辨率圖像生成任務(wù)集成在一個統(tǒng)一的JCS-Net 框架中，使得重建圖像特征更適合小尺度行人的檢測。文獻［37］提出一種新的靜止小波擴張殘差超分辨率圖像生成網(wǎng)絡(luò)（SWDR-SR），以極大地增強圖像的邊緣信息并減少模糊現(xiàn)象，從而改善行人的檢測效果。

1.4 上下文信息聯(lián)系加強

在一張道路圖像中，小目標(biāo)占比較小，在檢測中能夠提取到的信息和特征稀少且有限，但小目標(biāo)周圍的區(qū)域總是包含很多其他對象的信息以及場景信息，這些信息在檢測中能夠提供幫助但卻容易被忽略，因此加強小目標(biāo)附近的上下文信息聯(lián)系，將上下文信息加入小目標(biāo)的檢測，能夠有助于增強特征表示，提高小目標(biāo)的檢測精度。

文獻［38］引入一個簡單而強大的空間記憶網(wǎng)絡(luò)框架（SMN），對實例級上下文進行建模，該網(wǎng)絡(luò)本質(zhì)上是將對象實例重新組合成一個偽圖像表示。文獻［39］對對象之間的關(guān)系進行建模，在檢測模型中添加對象關(guān)系模塊以增強檢測效果。文獻［40］構(gòu)建一個網(wǎng)絡(luò)，利用行人實例之間的相關(guān)性，將行人目標(biāo)的頭頂區(qū)域和較低區(qū)域作為空間上下文，利用行人與場景之間的相關(guān)性，引入GRU［41］模塊，將編碼的上下文作為輸入來指導(dǎo)每個候選目標(biāo)的特征選擇和融合，具體的關(guān)系上下文結(jié)構(gòu)如圖9 所示，其中，節(jié)點v表示選中的感興趣區(qū)域，r表示每對實例節(jié)點之間的關(guān)系，f表示感興趣區(qū)域的視覺特征，m表示其他節(jié)點到節(jié)點vi的關(guān)系消息，ht+1為GRU 模型輸出的節(jié)點狀態(tài)。

圖9 關(guān)系上下文結(jié)構(gòu)Fig.9 Structure of relational contexts

文獻［42］提出一種用于目標(biāo)重新檢測的空間上下文分析方法（FS-SSD），通過考慮一定距離內(nèi)多類對象的相互作用，計算不同對象實例之間的類間和類內(nèi)距離作為空間上下文，以重新驗證某些對象實例的置信度，這種重檢測方法充分利用空間關(guān)系，有助于處理多類小目標(biāo)檢測。文獻［43］使用來自更高層的更多抽象特征作為上下文，并從小物體的周圍像素中提取上下文信息，然后將上下文感知信息添加到SSD 網(wǎng)絡(luò)，以便更好地進行檢測。文獻［44］提出高效的選擇性上下文網(wǎng)絡(luò)（ESCNet）來解決SSD 網(wǎng)絡(luò)上下文探索不足的問題，其中增強上下文模塊（ECM）通過利用原始尺度、小尺度和大規(guī)模上下文信息來增強淺層特征，而三重注意力模塊（TAM）用來融合上下文信息并選擇性地細(xì)化特征。

1.5 損失函數(shù)改進

在目標(biāo)檢測任務(wù)中，損失函數(shù)具有重要作用。損失函數(shù)往往用于檢測模型最后一部分，一般的目標(biāo)檢測算法包含兩類損失函數(shù)：一類是分類損失函數(shù)；另一類是回歸損失函數(shù)，而YOLO 系列檢測算法還包含置信度損失函數(shù)。針對不同的檢測器和檢測場景，選擇或設(shè)計不同的損失函數(shù)會產(chǎn)生不同的收斂效果，通過對損失函數(shù)進行改進，可以對小目標(biāo)取得更高的檢測準(zhǔn)確率。目前，常用的損失函數(shù)改進方法大致可分為兩種：一種是對模型本身的損失函數(shù)進行優(yōu)化；另一種是更換模型的損失函數(shù)。

針對實驗中所選用的不同數(shù)據(jù)集，根據(jù)實際需求，對模型本身的損失函數(shù)進行優(yōu)化和調(diào)整是提高小目標(biāo)檢測精度的一種有效方法。文獻［45］考慮到尺寸小的待檢測目標(biāo)的損失函數(shù)通常會被忽略，使得小目標(biāo)檢測精度受到影響，通過調(diào)整大小尺度目標(biāo)對損失值的影響權(quán)重，降低大目標(biāo)誤差對小目標(biāo)檢測效果的影響，使得小目標(biāo)和大目標(biāo)對損失函數(shù)的影響程度相同。文獻［46］考慮到道路行人、車輛等各類目標(biāo)數(shù)據(jù)量的不同，增加損失函數(shù)中目標(biāo)分類誤差的權(quán)重，并增強負(fù)樣本對損失貢獻的懲罰，有效降低了小目標(biāo)的誤檢率。

雖然對模型本身損失函數(shù)進行調(diào)整能適當(dāng)提高小目標(biāo)檢測精度，但由于小目標(biāo)物體在道路圖像中占比低、數(shù)量少，訓(xùn)練階段小目標(biāo)對損失函數(shù)的貢獻較小，且會加劇樣本不均衡的問題。為了緩解這種情況，采用性能更優(yōu)、收斂速度更快的損失函數(shù)替代模型原有的分類損失函數(shù)成為目前常用的改進方法。文獻［47］設(shè)計一種新的損失函數(shù)（CUA），通過進一步考慮訓(xùn)練階段的類別不確定性來指導(dǎo)目標(biāo)檢測，使得網(wǎng)絡(luò)專注于輸出小目標(biāo)不明確等情況。文獻［48］針對現(xiàn)有錨框匹配不平衡的問題，設(shè)計尺度平衡損失函數(shù)取代FSSD［49］、RefineDet［50］等方法中使用的保持匹配平衡的對應(yīng)函數(shù)，通過在原有的基礎(chǔ)上進行加權(quán)運算，減少匹配次數(shù)多的目標(biāo)所占的比例，增大匹配次數(shù)少的小目標(biāo)的權(quán)重，提高小目標(biāo)的檢測精度和召回率。文獻［51］鑒于小目標(biāo)物體屬于困難檢測樣本，在引入Focal Loss 增大困難樣本的損失權(quán)重的同時結(jié)合反饋機制與空洞卷積，提高了道路小目標(biāo)的檢測精度。文獻［52］針對目標(biāo)預(yù)測框出現(xiàn)在真實框的內(nèi)部時GIoU［53］退化為IoU［54］使得位置關(guān)系無法區(qū)分的問題，使用CIoU［55］代替GIoU 作為回歸損失，使得目標(biāo)框在回歸過程中更穩(wěn)定，收斂精度更高。各類道路小目標(biāo)檢測優(yōu)化方法的優(yōu)缺點對比如表1 所示。

表1 各類道路小目標(biāo)檢測優(yōu)化方法的優(yōu)缺點對比Table 1 Comparison of advantages and disadvantages of various optimization methods for small object detection on roads

2 數(shù)據(jù)集、評價指標(biāo)及性能對比

2.1 數(shù)據(jù)集

構(gòu)建一個小目標(biāo)檢測數(shù)據(jù)集需要花費大量時間，并且對于小目標(biāo)的有限像素而言，正確放置邊界框的定位等都是有困難的。在目前的研究中，對于小目標(biāo)的檢測并沒有通用的數(shù)據(jù)集，多數(shù)研究者選擇在一些大型公共的數(shù)據(jù)集上進行性能驗證。當(dāng)前，道路目標(biāo)檢測領(lǐng)域已經(jīng)公開了許多公共的大型數(shù)據(jù)集，包括KITTI［56］、BDD100K［57］、ApolloScape［58］、D2-City［59］和Waymo［60］，這些數(shù)據(jù)集通常包括數(shù)據(jù)量大、數(shù)據(jù)源豐富、應(yīng)用場景覆蓋全面等特點，這對于道路目標(biāo)檢測的方法研究和成果展示起著至關(guān)重要的推動作用和貢獻。除了前面介紹的幾種數(shù)據(jù)集，研究者還提出了其他的道路目標(biāo)檢測數(shù)據(jù)集，例如A*3D［61］、nuScenes［62］等。

1）KITTI 數(shù)據(jù)集

2012年，德國卡爾斯魯厄理工學(xué)院和豐田美國技術(shù)研究院聯(lián)合創(chuàng)辦了KITTI 數(shù)據(jù)集，該數(shù)據(jù)集是目前自動駕駛場景下常用的計算機視覺算法評測數(shù)據(jù)集之一。KITTI 數(shù)據(jù)集中的圖像包含在卡爾斯魯厄市區(qū)、鄉(xiāng)村、高速公路等場景中采集到的真實圖像數(shù)據(jù)，采集到的每張圖像中最多可達15 輛車和30 個行人以及各種不同程度的遮擋與截斷，包含的類別可分為汽車、貨車、卡車、有軌電車、行人、坐著的行人、騎自行車的人等7 種與道路交通有關(guān)的對象類別。

2）BDD100K 數(shù)據(jù)集

2018年，美國伯克利人工智能研究實驗室發(fā)布了BDD100K 開源視覺駕駛場景數(shù)據(jù)集，該數(shù)據(jù)集收集了美國不同地區(qū)的城市街道、居民區(qū)和高速公路的100 000 個視頻，每個視頻時長約40 s，在每個視頻的第10 秒對關(guān)鍵幀進行采樣，得到100 000 張1 280×720 像素的圖像。該數(shù)據(jù)集涵蓋了晴天、多云、陰天、雨天、霧天、下雪等6 種不同的天氣狀況以及黎明、黃昏、白天、夜間等不同時段，包含的目標(biāo)類別可分為公共汽車、交通燈、交通標(biāo)志、行人、自行車、卡車、摩托車、小汽車、火車、騎手等。

3）ApolloScape 數(shù)據(jù)集

2018年，百度發(fā)布了一個大規(guī)模自動駕駛數(shù)據(jù)集——ApolloScape，其是一個像素級標(biāo)注的場景解析數(shù)據(jù)集，圖像采集來自中國的北京、上海和深圳。該數(shù)據(jù)集包括143 906 張像素級語義標(biāo)注圖像，屬于業(yè)界環(huán)境復(fù)雜、標(biāo)注精準(zhǔn)、數(shù)據(jù)量大的公開3D 自動駕駛數(shù)據(jù)集，標(biāo)注精度上超過了同類型的KITTI 和BDD100K 數(shù)據(jù)集，致力于向研究者提供具有挑戰(zhàn)性的數(shù)據(jù)支持。

4）D2-City 數(shù)據(jù)集

D2-City 是一個大規(guī)模行車視頻數(shù)據(jù)集，采集自運行在中國多個城市的市區(qū)和郊區(qū)的滴滴運營車輛，涵蓋了中國不同城市的道路行車場景，提供了更多復(fù)雜和具有挑戰(zhàn)性的天氣、交通等狀況，包括道路擁堵、雨霧天氣、低光環(huán)境、圖像清晰度低等。該數(shù)據(jù)集提供了12 類道路對象的注釋，包括汽車、面包車、公共汽車、卡車、人、自行車、摩托車、開放式三輪車、封閉式三輪車、叉車以及大小街區(qū)。

5）Waymo 數(shù)據(jù)集

2019年，自動駕駛公司W(wǎng)aymo 發(fā)布了大規(guī)模、高質(zhì)量、多樣化的Waymo 數(shù)據(jù)集，該數(shù)據(jù)集包含1 150 個場景，每個場景跨越20 s，包括在美國鳳凰城、山景城和舊金山的城市和郊區(qū)捕獲的經(jīng)過良好同步和校準(zhǔn)的高質(zhì)量LiDAR 和相機數(shù)據(jù)。目前，該數(shù)據(jù)集定義了2D 和3D 對象檢測和跟蹤任務(wù)，未來研究者計劃添加地圖信息、更多標(biāo)記和未標(biāo)記數(shù)據(jù)，使其更加多樣化。

表2 根據(jù)不同的應(yīng)用場景，簡要對這些比較有影響力的常用大型道路目標(biāo)檢測數(shù)據(jù)集進行了介紹。

除了上述列舉的常用大型數(shù)據(jù)集外，很多研究者也會在MS COCO［6］、PASCAL VOC［63］等包含有關(guān)小目標(biāo)類別的大型數(shù)據(jù)集或自建的數(shù)據(jù)集上對檢測模型或優(yōu)化方法進行驗證。表3 對MS COCO、PASCAL VOC 這兩類常用的公共數(shù)據(jù)集進行了簡要介紹。

表3 MS COCO 和PASCAL VOC 數(shù)據(jù)集Table 3 MS COCO and PASCAL VOC datasets

2.2 評價指標(biāo)

對于道路場景小目標(biāo)檢測的評價指標(biāo)主要包括檢測精度和檢測速度這兩方面。檢測精度主要使用平均精度（Average Precision，AP）和多個類別的平均精度均值（mean Average Precision，mAP）來衡量模型檢測性能的優(yōu)劣，AP 和mAP 的計算公式分別如式（1）和式（2）所示：

其中：C代表所有類別數(shù)；AAPi代表模型對于第i個類別的物體的平均精度。

模型檢測速度主要反映了算法的實時性，也是一個重要的評價指標(biāo)，通常采用每秒幀率（Frame Per Second，F(xiàn)PS），即算法平均每秒檢測的圖像數(shù)量進行衡量。FPS越高，模型檢測速度越快，實時性能越好。

2.3 性能對比

一部分優(yōu)化方法基于MS COCO 數(shù)據(jù)集訓(xùn)練模型并進行驗證，另外一部分優(yōu)化方法在PASCAL VOC 2007、KITTI 道路場景數(shù)據(jù)集以及自建的數(shù)據(jù)集上進行模型性能驗證，這里將分為兩部分進行性能對比。

不同檢測模型在MS COCO 數(shù)據(jù)集上的性能測試結(jié)果如表4 所示，其中，AP50和AP75分別表示IoU閾值為0.5 和0.75 時目標(biāo)檢測的平均精度，APS、APM和APL分別表示小、中、大尺度檢測目標(biāo)的平均精度，最優(yōu)指標(biāo)值用加粗字體標(biāo)示。

表4 不同檢測模型在MS COCO 數(shù)據(jù)集上的測試結(jié)果Table 4 Test results of different detection models on the MS COCO dataset %

由表4 可以看出，文獻［21］模型在多個指標(biāo)上都取得了最佳的檢測結(jié)果，在多尺度策略的基礎(chǔ)上，采用一種新的圖像金字塔尺度歸一化（SNIP）訓(xùn)練策略，只選取分辨率落入所需尺度范圍的目標(biāo)進行訓(xùn)練，忽略其他目標(biāo)。通過這種訓(xùn)練設(shè)置，可在最合理的范圍內(nèi)處理小目標(biāo)物體，以此提高了小目標(biāo)的檢測精度，卻不影響對中大型對象的檢測性能。文獻［7］模型基于數(shù)據(jù)增強的優(yōu)化方法相比于其他模型性能較差，主要原因為其在大型數(shù)據(jù)集中僅使用數(shù)據(jù)增強，對小目標(biāo)檢測的性能提升是有限的，還需與其他方法結(jié)合使用。對于同一個優(yōu)化方法，IoU閾值設(shè)置為0.5 時取得的AP 值較高，當(dāng)IoU 提高時，精度也會降低。雖然優(yōu)化后的模型在小尺度目標(biāo)上的檢測精度有所提升，但整體上小尺度的檢測精度與中大尺度的檢測精度仍有著明顯的差距，僅約為大尺度目標(biāo)的1/2，這也說明了小目檢測的難度較大。

總體來看，針對小目標(biāo)檢測的優(yōu)化方法對于3 個尺度目標(biāo)的檢測性能均有一定提升，各類檢測模型均在大尺度目標(biāo)上的敏感性更好，獲得的檢測精度最高，而其中基于多尺度策略的檢測模型在3 個尺度目標(biāo)的檢測上得到了最好的檢測結(jié)果，基于超分辨率細(xì)節(jié)信息生成的檢測模型次之，而僅基于數(shù)據(jù)增強方法的檢測模型對目標(biāo)的敏感度最低，性能提升微弱。因此，當(dāng)數(shù)據(jù)集容量偏小且數(shù)據(jù)集構(gòu)成比較簡單時，采用數(shù)據(jù)增強能對目標(biāo)檢測性能有一定的提升，而在大型復(fù)雜數(shù)據(jù)集中，其他方法改進效果更加顯著，而使用基于多尺度策略的優(yōu)化方法得到的小目標(biāo)的平均精度要高于其他方法，因此可以成為未來一個主要的研究方向。

表5 展示了一些檢測模型在KITTI 等道路場景數(shù)據(jù)集及自建的數(shù)據(jù)集上的檢測性能，與原始模型相比，優(yōu)化后的模型在精度和速度上都得到了一定的提升，但與在MS COCO 數(shù)據(jù)集上進行的實驗結(jié)果相比，在這些數(shù)據(jù)集上的實驗結(jié)果無法表現(xiàn)出明顯的交叉評估性能。

表5 不同檢測模型在其他數(shù)據(jù)集上的測試結(jié)果Table 5 Test results of different detection models on other datasets

3 未來研究方向

目前，在道路場景下的小目標(biāo)檢測已取得了較大進步，下一步將對其在多個數(shù)據(jù)集上的檢測性能以及在可靠性、通用性、魯棒性等方面的表現(xiàn)做進一步研究。

1）構(gòu)建適應(yīng)性和普適性更強的檢測模型。許多通用的檢測模型對于復(fù)雜道路場景下行人、車輛等小目標(biāo)的類型、大小等較敏感，需要根據(jù)不同的場景調(diào)整參數(shù)，例如學(xué)習(xí)率：當(dāng)設(shè)置較大的學(xué)習(xí)率時模型可能永遠(yuǎn)不會收斂，當(dāng)設(shè)置較小的學(xué)習(xí)率時模型會給出次優(yōu)結(jié)果。因此，建立適應(yīng)性和普適性更強的檢測模型是一個重要的研究方向。

2）設(shè)計性能更優(yōu)和更適合小目標(biāo)檢測的專用骨干網(wǎng)絡(luò)。深層次的骨干網(wǎng)絡(luò)可能不利于小目標(biāo)提取高質(zhì)量的特征表示，因此需要設(shè)計一個有效的骨干網(wǎng)絡(luò)，既具有強大的特征提取能力，能更好地提升小目標(biāo)的檢測性能，又能減少高昂的計算成本和目標(biāo)信息的丟失，這也是目前研究的一大趨勢。

3）構(gòu)建更輕量化的檢測模型。不同的應(yīng)用場景對檢測精度和速度的側(cè)重不同，當(dāng)應(yīng)用于智能交通等領(lǐng)域時，對于檢測速度的追求是首選，在檢測模型中融入特征融合結(jié)構(gòu)已成為道路小目標(biāo)檢測中的最常用的研究方法，但該方法會降低檢測速度，增加時間消耗，因此需要構(gòu)建更輕量化的檢測模型，在保持一定精度的前提下設(shè)計靈活度更高的網(wǎng)絡(luò)結(jié)構(gòu)，滿足模型輕量化、易于移植的需求，實現(xiàn)模型在車輛設(shè)備上的快速部署，具有很強的現(xiàn)實意義。

4）構(gòu)建大規(guī)模通用的道路小目標(biāo)檢測數(shù)據(jù)集。小目標(biāo)數(shù)據(jù)集的缺乏是影響小目標(biāo)檢測的一個重要因素，現(xiàn)有的數(shù)據(jù)集或自建的數(shù)據(jù)集包含多類小目標(biāo)的數(shù)量非常有限，無法支持基于深度學(xué)習(xí)的小目標(biāo)檢測定制模型的訓(xùn)練以及性能評估，因此構(gòu)建小目標(biāo)數(shù)據(jù)集對于推進小目標(biāo)檢測的發(fā)展具有重要的意義。

5）采用合適的訓(xùn)練策略。在大部分?jǐn)?shù)據(jù)集中，小目標(biāo)物體占比小、數(shù)量少，因此可采用一些特定的訓(xùn)練方式，包括多尺度訓(xùn)練、增加小目標(biāo)的訓(xùn)練權(quán)重以及多個數(shù)據(jù)集進行聯(lián)合訓(xùn)練等，使得模型對小尺度目標(biāo)的泛化能力增強，在訓(xùn)練時對小目標(biāo)的學(xué)習(xí)更加充分。這也是提高小目標(biāo)檢測性能的有效措施，具有廣闊的發(fā)展前景。

4 結(jié)束語

道路小目標(biāo)檢測是計算機視覺領(lǐng)域的一個極具挑戰(zhàn)性的問題。本文從數(shù)據(jù)增強、多尺度策略、生成超分辨率細(xì)節(jié)信息、加強上下文信息聯(lián)系、改進損失函數(shù)等5 個方面對基于深度學(xué)習(xí)的道路場景下的小目標(biāo)檢測優(yōu)化方法的最新研究進展進行歸納和總結(jié)，并根據(jù)定量和定性結(jié)果對各類優(yōu)化方法的性能進行評估。后續(xù)將對探索設(shè)計性能更優(yōu)和更輕量化的檢測模型、構(gòu)建小目標(biāo)數(shù)據(jù)集、改進訓(xùn)練策略等方向進行更深入研究。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放