亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        小目標(biāo)檢測研究綜述

        2023-09-26 04:21:26潘曉英賈凝心穆元震高炫蓉
        中國圖象圖形學(xué)報 2023年9期
        關(guān)鍵詞:尺度特征圖像

        潘曉英,賈凝心,穆元震,高炫蓉

        1.西安郵電大學(xué)計算機學(xué)院,西安 710121;2.陜西省網(wǎng)絡(luò)數(shù)據(jù)分析與智能處理重點實驗室,西安 710121

        0 引言

        隨著人工智能技術(shù)研究的不斷發(fā)展,深度學(xué)習(xí)、機器視覺等技術(shù)在無人駕駛、智慧醫(yī)療和人臉識別等領(lǐng)域得到了更加廣泛的應(yīng)用。機器視覺的任務(wù)是對圖像進行解析,提取利于計算機理解的信息,包括對圖像的分類(Dalal 和Triggs,2005)、檢測(Szegedy等,2013)和分割(Ding 和Zhao,2018)等。目標(biāo)檢測作為計算機視覺領(lǐng)域的核心研究方向之一,利用相關(guān)算法,通過精確定位(Wu 等,2020)找到特定的目標(biāo)類。早期傳統(tǒng)的目標(biāo)檢測方法如HOG(histogram of oriented gradient)(Dalal 和Triggs,2005)和DPM(deformable parts model)(Felzenszwalb 等,2008)等,通常采用區(qū)域選擇、特征手工提取、分類回歸3 步實現(xiàn),但人工提取目標(biāo)特征對于小目標(biāo)檢測存在較大的局限性。基于卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測算法總體上可以分為兩階段和單階段檢測算法。兩階段檢測算法如Faster R-CNN(faster region-based convolutional neural network)(Ren 等,2015)和Cascade R-CNN(Cai 和Vasconcelos,2018)等,通過區(qū)域提議網(wǎng)絡(luò)選取生成候選區(qū)域,再對其進行分類和回歸得到檢測結(jié)果,但是在小目標(biāo)的檢測上仍存在準(zhǔn)確率較低的問題。單階段檢測算法如SSD(single shot multibox detection)(Liu 等,2016)和YOLO(you only look once)(Redmon 等,2016)等,能夠直接對目標(biāo)進行定位,輸出目標(biāo)的類別檢測信息,在一定程度上提升了目標(biāo)檢測的速度。小目標(biāo)檢測作為目標(biāo)檢測的難點和熱點,有著更加重要的應(yīng)用價值。在醫(yī)學(xué)影像學(xué)中,成功檢測出早期微小的病灶和腫塊,對之后診斷和治療腫瘤有著至關(guān)重要的作用;在自動工業(yè)檢查中,通過小目標(biāo)檢測來定位材料表面上的小缺陷(Ng,2006),防止意外的發(fā)生。因此,小目標(biāo)檢測也是計算機視覺中不可或缺且具有挑戰(zhàn)性的問題。

        對小目標(biāo)的定義通常分為兩種。其一,若目標(biāo)的尺寸低于原圖像尺寸的 0.1 倍,就認(rèn)為是相對小目標(biāo)(劉穎 等,2020);其二,在MS-COCO(Microsoft common objects in context)數(shù)據(jù)集中,若目標(biāo)的尺寸小于32 × 32像素,就認(rèn)為是絕對小目標(biāo)。盡管目標(biāo)檢測算法已經(jīng)取得了重大突破,但是現(xiàn)階段小目標(biāo)檢測的研究還具有很大挑戰(zhàn),主要有以下幾個問題:1)小目標(biāo)可視化特征不明顯,可利用信息較少。若圖像本身的分辨率比較低(Wang 和He,2019),將難以精準(zhǔn)地檢測出小目標(biāo)。2)特征提取問題。在目標(biāo)檢測中,特征提取的好壞直接影響最終的檢測效果,與大尺度目標(biāo)相比,小目標(biāo)的特征更難提??;在檢測模型中,經(jīng)過池化后小目標(biāo)的某些特性會被刪除,給檢測帶來一定的挑戰(zhàn)。3)背景干擾問題。復(fù)雜環(huán)境下的小目標(biāo)檢測會受到光照、復(fù)雜地理元素、遮擋和聚集等因素的干擾,難以將它們與背景或相似的目標(biāo)進行區(qū)分。因此,如何有效地改善復(fù)雜背景干擾也是小目標(biāo)檢測面臨的問題。4)小目標(biāo)數(shù)據(jù)集短缺。目前,主流的目標(biāo)數(shù)據(jù)集,例如 PASCAL VOC(pattern analysis,statistical modeling and computational learning — visual object classes)和MS-COCO中大多都是通常尺度的目標(biāo),其中小尺度目標(biāo)的占比不足并且分布不均勻。而DOTA(dataset for object detection in aerial images)(Xia 等,2018)遙感目標(biāo)檢測數(shù)據(jù)集和 FDDB(face detection data set and benchmark)(Jain 和Learned-Miller,2010)人臉檢測數(shù)據(jù)集等,都是針對特定場景或任務(wù)的,不具備小目標(biāo)檢測的通用性。5)網(wǎng)絡(luò)模型對小目標(biāo)的泛化能力弱。由于大部分檢測模型在預(yù)訓(xùn)練過程中通常使用目標(biāo)尺度相對較大的分類數(shù)據(jù)集,所以學(xué)習(xí)后的網(wǎng)絡(luò)模型對小目標(biāo)的泛化能力較弱。

        目前,視覺的小目標(biāo)檢測在生活的各個領(lǐng)域中日益重要。為了進一步促進小目標(biāo)檢測的發(fā)展,針對小目標(biāo)檢測存在的難點和問題,本文綜述了國內(nèi)外有關(guān)小目標(biāo)檢測的研究現(xiàn)狀及成果,歸納分析了常用的小目標(biāo)數(shù)據(jù)集,從數(shù)據(jù)增強、超分辨率、多尺度特征融合、上下文語義信息、錨框機制、注意力機制以及特定的檢測場景等方面系統(tǒng)總結(jié)了小目標(biāo)檢測方法,并對未來小目標(biāo)檢測的研究方向進行了分析與展望。

        1 小目標(biāo)檢測方法

        針對小目標(biāo)檢測存在的難點,現(xiàn)有小目標(biāo)檢測方法都是基于主流的目標(biāo)檢測網(wǎng)絡(luò)模型改進的,如表1 所示,按照方法的類型可分為如下幾種:解決小目標(biāo)數(shù)據(jù)量短缺且分布不均勻的數(shù)據(jù)增強方法、解決單個特征層對小目標(biāo)的表征能力不強的多尺度融合方法、針對小目標(biāo)的可視化特征弱的超分辨率方法、解決小目標(biāo)攜帶的特征信息有限的上下文信息學(xué)習(xí)方法、針對先驗的錨框尺寸對小目標(biāo)適應(yīng)性弱問題的錨框機制策略,解決小目標(biāo)缺乏鑒別性特征的注意力機制方法以及基于特定場景的小目標(biāo)檢測方法等。圖1 展示了近年來小目標(biāo)檢測的研究歷程,其中,標(biāo)星的為關(guān)鍵性的小目標(biāo)檢測方法,包括FPN(feature pyramid network)、PANet(path aggregation network)、SNIPER(scale normalization for image pyramid with efficient resampling)、RetinaNet(residualnetwork)、TridenNet(trident networks)等。

        圖1 小目標(biāo)檢測的研究歷程Fig.1 Research history of small object detection

        表1 小目標(biāo)檢測研究方向總結(jié)Table 1 Summary of research direction of small object detection

        1.1 基于數(shù)據(jù)增強的小目標(biāo)檢測

        數(shù)據(jù)增強是針對通用小目標(biāo)的數(shù)據(jù)集少、公共數(shù)據(jù)集包含小目標(biāo)的數(shù)量少以及圖像中小目標(biāo)覆蓋區(qū)域分布不均勻等問題提出的一種方法。早期的數(shù)據(jù)增強策略是通過對目標(biāo)實例進行變形(Simard等,2003)、旋轉(zhuǎn)、縮放(Yaeger 等,1996)、裁剪(Krizhevsky 等,2012)和平移(Wan 等,2013)等方式增加目標(biāo)的訓(xùn)練數(shù)量,提高了目標(biāo)檢測的性能。除了上述幾種沒有改變圖像本身,而是對圖像的部分像素進行重分布的幾何操作之外,通過顏色變換也可以對目標(biāo)進行數(shù)據(jù)增強。

        在數(shù)據(jù)集COCO 中,只有52.3%的圖像中包含小目標(biāo),但其在圖像上的分布不均勻,會使得訓(xùn)練中遇到樣本不平衡的問題。因此,對小目標(biāo)的監(jiān)測信號不足,嚴(yán)重?fù)p害了小目標(biāo)檢測的精度,甚至整體的性能。Kisanta等人(2019)通過過采樣和增強(oversampling and augmentation)的方法,將小目標(biāo)的識別精度和分割精度分別提高了7.1%和 9.7%。在實驗中,對含有小目標(biāo)的圖像進行過采樣,在此基礎(chǔ)上,再將小目標(biāo)縮放、旋轉(zhuǎn),并將目標(biāo)粘貼—復(fù)制到圖像中的任意位置,對數(shù)據(jù)進行增強,以解決包含小目標(biāo)圖像相對少的問題。同時,提出了3 種復(fù)制—粘貼策略,分別為復(fù)制粘貼單個小目標(biāo)、多個小目標(biāo)和全部小目標(biāo)。通過實驗對比,若只復(fù)制單個小目標(biāo),雖然會提高檢測小尺度的目標(biāo)的精度,但會對大尺度的目標(biāo)產(chǎn)生不好的影響,通過實驗驗證,將每個小目標(biāo)進行復(fù)制粘貼的效果最好。圖2 為通過復(fù)制粘貼進行小目標(biāo)數(shù)據(jù)增強的例子。

        圖2 通過復(fù)制—粘貼策略進行小目標(biāo)數(shù)據(jù)增強(Kisanta等,2019)Fig.2 Small object data augmentation via copy-pasting(Kisanta et al.,2019)

        Yu 等人(2020)引入一個新的基準(zhǔn),稱為微小人物(tiny person)。在實驗過程中,Yu 等人(2020)發(fā)現(xiàn)造成特征表達(dá)和檢測器惡化的一個主要原因可能是網(wǎng)絡(luò)預(yù)訓(xùn)練與檢測器學(xué)習(xí)的數(shù)據(jù)集之間的尺度不匹配,因此在數(shù)據(jù)增強方面,提出一種對齊兩個數(shù)據(jù)集間目標(biāo)尺度的尺度匹配方法Scale Match,有利于對小目標(biāo)的檢測。圖3 為尺度匹配的框架,該方法提高了最先進的檢測器 FPN 的檢測性能,檢測幅度顯著增益了5%,同時提出了數(shù)據(jù)集Tiny Person。

        圖3 檢測的尺度匹配的框架(Yu等,2020)Fig.3 Detected scale matching framework(Yu et al.,2020)

        圖4 拼接圖像(Chen等,2020)Fig.4 Stitcher image(Chen et al.,2020)((a)regular images;(b)stitch in spatial dimension;(c)stitch in batch dimension)

        在很多圖像數(shù)據(jù)中,小尺度目標(biāo)物體可能因為拍攝角度、環(huán)境的問題而模糊,但如果將圖像尺寸調(diào)小,圖像中的大目標(biāo)和中目標(biāo)會保持原本清晰的輪廓和細(xì)節(jié)信息。Chen 等人(2020)通過這一現(xiàn)象提出了一種反饋驅(qū)動的數(shù)據(jù)提供者Stitcher。如圖 4所示,Stitcher 將具有相同尺度的圖像進行拼接而產(chǎn)生新的數(shù)據(jù)圖像作為訓(xùn)練,核心思想是利用當(dāng)前迭代中的損失統(tǒng)計數(shù)據(jù)作為反饋,以自適應(yīng)地確定下一次迭代的輸入選擇。但目前Stitcher 還不是一個通用的配置,因此,將拼接圖像調(diào)節(jié)為一個最優(yōu)的比例還是相對困難的。

        在YOLOv4(Bochkovskiy 等,2020)中提出了Mosaic 數(shù)據(jù)增強方法,為豐富數(shù)據(jù)集且增加更多的小目標(biāo),該方法每次讀取4 幅不同的圖像,對其采用翻轉(zhuǎn)、縮放和裁剪等方式進行隨機拼接。由于Mosaic 方法直接計算4 幅圖像數(shù)據(jù),因此減少了圖形處理單元(graphics processing unit,GPU)的計算,但該方法也有一些缺點,若原本的數(shù)據(jù)集本身就含有較多的小目標(biāo),使用該方法會使得圖像中小目標(biāo)尺寸更小,導(dǎo)致模型的泛化能力變差。Lin 等人(2019)提出一種新的尺度感知模塊(scale-aware network for semantic segmentation of high-resolution aerial images,SAN),目的是為了解決遙感影像中遙感圖像上目標(biāo)尺度不連續(xù)性的問題。該方法能夠進行端到端的訓(xùn)練,通過學(xué)習(xí)二維重采樣圖來擴展采樣空間,實現(xiàn)了一種自適應(yīng)重采樣的數(shù)據(jù)增強策略。SAN 不僅具有適應(yīng)不同尺度目標(biāo)物體位置的能力,而且具有調(diào)整不同測試圖像數(shù)據(jù)的適應(yīng)能力。

        數(shù)據(jù)增強雖已被證明可以顯著改善圖像分類的問題,但在目標(biāo)檢測模型上改進還是有限的。Zoph等人(2020)設(shè)計出一種自搜索學(xué)習(xí)的數(shù)據(jù)增強策略,通過結(jié)合特定邊界框標(biāo)注的新操作,優(yōu)化目標(biāo)檢測問題,以解決離散優(yōu)化問題的思想來處理數(shù)據(jù)增強搜索,主要過程如下:1)定義K個子增強策略作為無序集;2)在訓(xùn)練過程中隨機選擇K個策略;3)在當(dāng)前圖像中構(gòu)成一個搜索空間;4)使用強化學(xué)習(xí)的方法選擇最佳的數(shù)據(jù)增強策略,改善小目標(biāo)檢測的性能。

        1.2 基于多尺度融合的小目標(biāo)檢測

        識別不同尺度的目標(biāo)物體是計算機視覺中的一個基本挑戰(zhàn)。由于小尺度目標(biāo)的特征信息量較少,所以更需要充分利用圖像中的細(xì)節(jié)信息。在現(xiàn)有通用目標(biāo)檢測的CNN 模型中,多尺度檢測可利用低級的特征層幫助模型獲取準(zhǔn)確的定位信息以及具有鑒別性的特征信息,有助于小目標(biāo)的檢測與識別。

        Zhang等人(2016)提出MTCNN(multi-task convolutional neural network)算法,在將圖像送入網(wǎng)絡(luò)訓(xùn)練之前,利用多尺度檢測的思想,通過將輸入圖像縮放至不同尺度來增強網(wǎng)絡(luò)對不同大小人臉檢測的魯棒性,進一步提高了針對小臉檢測的準(zhǔn)確率。Lin等人(2017)提出RetinaNet 目標(biāo)檢測算法,同樣借鑒多尺度目標(biāo)檢測的思想,使用ResNet(residual network)作為骨干網(wǎng)絡(luò)提取圖像特征信息,同時針對模型訓(xùn)練過程出現(xiàn)的正負(fù)樣本類不平衡問題,采用重塑損失函數(shù)來解決,在提升網(wǎng)絡(luò)檢測速度的基礎(chǔ)上,也提高了對小目標(biāo)檢測的效果。Lin 等人(2017)提出特征金字塔網(wǎng)絡(luò)(feature pyramid networks,F(xiàn)PN),網(wǎng)絡(luò)框架如圖5 所示。首先自底而上生成多尺度的特征圖,為了將低分辨率強語義特征與高分辨率弱語義弱特征相結(jié)合,增強特征圖的信息,采用自頂向下的路徑和橫向連接方式。該結(jié)構(gòu)在增加極小計算量的情況下,可以充分利用每個不同尺度特征圖的語義信息,對于小目標(biāo)檢測具有一定的幫助。Faster RCNN 使用 FPN 后,在COCO 數(shù)據(jù)集上的精度提升2.3%。

        圖5 FPN模型Fig.5 FPN model

        Liu 等人(2018)基于FPN 提出了PANet(path aggregation network for instance segmentation)網(wǎng)絡(luò),不僅在實例分割上取得很好的成果,對于小目標(biāo)檢測也有一定的提高。如圖6 所示,在FPN 中,淺層特征經(jīng)過自底而上的多層傳遞之后,特征信息的丟失較為嚴(yán)重。因此,PANet 添加了一個自底而上的路徑增強結(jié)構(gòu),可以更好地保存淺層的特征信息,如圖6(b)所示。同時,創(chuàng)建了自適應(yīng)特征池化層,如圖6(c)所示,聚合每個特征圖上的候選區(qū)域,進一步進行特征融合,最后使用一個全連接層捕獲每個候選區(qū)域的不同視圖,達(dá)到更好的預(yù)測效果。隨后,Liu 等人(2019)提出一種自適應(yīng)空間特征融合方法(adaptively spatial feature fusion,ASFF),可以有效解決特征金字塔中由于同時存在不同尺度大小的特征圖導(dǎo)致的特征不一致問題。該算法關(guān)鍵的思想是自適應(yīng)地學(xué)習(xí)每個比例尺度上特征圖的融合空間權(quán)重。該方法在增加極小計算量的情況下,在所有的單階檢測器上提高了速度與精度。

        圖6 PANet網(wǎng)絡(luò)模型(Liu等,2018)Fig.6 PANet network model(Liu et al.,2018)

        FPN 和PANet 通過自底而上的路徑增強和橫向連接實現(xiàn)了特征融合,表明高層信息和底層信息對目標(biāo)檢測是互補的。但在特征融合中,它們更關(guān)注相鄰特征分辨率,從而使非相鄰特征層中包含的語義信息在每次融合時都受到稀釋。為了減輕由此造成的不利影響,Pang 等人(2019)提出Libra R-CNN,網(wǎng)絡(luò)結(jié)構(gòu)如圖7 所示。通過重新調(diào)整、集成、精煉和加強,獲得平衡的語義特征信息。首先將多尺度特征的{C2,C3,C4,C5}都調(diào)整為與C4 相同的中等大小,對重新縮放后的特征進行簡單的均值操作,集成得到平衡的語義特征中,再對其進行增強,輸出預(yù)測特征層{P2,P3,P4,P5}。豐富的特征層語義信息對小目標(biāo)檢測更加有效。Guo 等人(2020)針對 FPN 存在的缺陷,提出了AugFPN(augmentation feature pyramid network)特征金字塔算法來增強FPN。該算法提出一致監(jiān)督,通過對多重監(jiān)督信號執(zhí)行相同的監(jiān)督信號來縮小特征融合前不同尺度特征間的語義差異。在特征融合的過程中,為了最大程度減少最高金字塔級中特征圖的信息損失,會利用殘差特征增強法提取穩(wěn)定比值的上下文語義信息。通過實驗驗證,在Faster R-CNN 網(wǎng)絡(luò)中采用AugFPN,相比于FPN,模型的平均精度提高了2.3%。

        圖7 Libra R-CNN網(wǎng)絡(luò)模型(Pang等,2019)Fig.7 Libra R-CNN network model(Pang et al.,2019)

        Fu 等人(2017)提出(deconvolutional single shot detector,DSSD)算法將SSD 算法中的骨干網(wǎng)絡(luò)替換為ResNet-101,并且在ResNet-101 基礎(chǔ)上額外添加了一個反卷積層。通過驗證,所替換骨干特征提取網(wǎng)絡(luò)相比于原本的VGG-16(Visual Geometry Group 16-layer network)更有利于提取特征語義信息。同時,為提高特征圖層的分辨率,在DSSD 算法的預(yù)測層之前引入了殘差模塊,在保持與其他目標(biāo)檢測模型速度相當(dāng)?shù)耐瑫r,提高了對小目標(biāo)檢測的效果。Singh 和Davis(2018)通過不同的實驗提出方案SNIP(scale normalization for image pyramid)。在實驗中對原始數(shù)據(jù)圖像進行卷積下采樣,獲得不同分辨率的特征圖像,然后將得到圖像上采樣至 224 × 224像素進行訓(xùn)練,驗證了下采樣提高小目標(biāo)的檢測效果。SNIP 的主要思路是在訓(xùn)練和反向傳播中將指定尺度范圍中的訓(xùn)練數(shù)據(jù)對應(yīng)的RoI(region of interest pooling)的梯度進行回傳,采用多尺度訓(xùn)練的思想提高檢測小目標(biāo)的精度。SNIP 算法在提高模型檢測效果的同時,也增加了計算量。因此,Singh 等人(2018)針對SNIP算法進行改進,提出SNIPER(effificient multi-scale training)算法,不再使模型處理輸入的不同尺度圖像上的每個像素,而是選擇適當(dāng)?shù)谋壤繕?biāo)周圍的上下文區(qū)域進行訓(xùn)練。

        為了保持圖像金字塔的精度和速度,同時提高不同尺度下特征的一致性,Li等人(2019b)利用感受野來提升網(wǎng)絡(luò)對不同尺度大小目標(biāo)的檢測效果。通過對比實驗,驗證感受野大小與檢測效果之間的聯(lián)系,證明大感受野對大尺度目標(biāo)的檢測效果更好,小感受野的檢測效果則與其相反。TridentNet(trident network)算法將原本的特征網(wǎng)絡(luò)改為3個并行支路,并且膨脹參數(shù)不同的網(wǎng)絡(luò)結(jié)構(gòu)。如圖8 所示,此結(jié)構(gòu)可以為網(wǎng)絡(luò)提供更多的感受野,適應(yīng)于多尺度的目標(biāo)檢測。

        圖8 TridentNet模型(Li等,2019b)Fig.8 TridentNet model(Li et al.,2019b)

        1.3 基于高分辨率的小目標(biāo)檢測

        雖然 CNN 模型在目標(biāo)檢測方面取得成功,但由于小目標(biāo)特征圖上的信息較少,小感興趣區(qū)域 RoI包含的信息有限和扭曲,仍然很難檢測到小目標(biāo)。Radford 等人(2016)提出DCGAN(deep convolutional generative adversarial network)算法,將神經(jīng)網(wǎng)絡(luò)應(yīng)用到GAN 中,生成高分辨率圖像作為網(wǎng)絡(luò)模型的輸入,在計算機視覺很多任務(wù)中得到廣泛應(yīng)用。Haris等人(2021)提出一種端到端訓(xùn)練的超分辨方法,基于Faster R-CNN 網(wǎng)絡(luò)對分辨率低的區(qū)域進行超分辨率的處理,提升了對小目標(biāo)檢測的性能。Li 等人(2018)基于圖像分類和目標(biāo)檢測間的差異性,提出了一種針對目標(biāo)檢測的新型網(wǎng)絡(luò)算法DetNet(backbone network for object detection),在保證高效執(zhí)行目標(biāo)檢測任務(wù)的同時,可以進一步提高在小目標(biāo)方面的檢測性。Li等人(2017)提出感知生成對抗網(wǎng)絡(luò)模型 Perceptual GAN。如圖9所示,該模型的目的是充分在網(wǎng)絡(luò)學(xué)習(xí)的過程中利用不同尺度目標(biāo)之間的結(jié)構(gòu)相關(guān)性,模型包含生成器和判別器兩個部分,通過減少大、小目標(biāo)間的差異性來改進對小目標(biāo)檢測的性能。為了將小目標(biāo)的特征表達(dá)增強為高分辨率表達(dá),生成器中設(shè)計了深度殘余學(xué)習(xí)網(wǎng)絡(luò),以彌補小目標(biāo)缺失的細(xì)粒度細(xì)節(jié)。判別器對生成的細(xì)粒度細(xì)節(jié)的質(zhì)量和優(yōu)勢提供意見。與普通的GAN 不同,Perceptual GAN 包括一個為檢測目標(biāo)所制定的新的感知損失loss,通過訓(xùn)練,迭代地提高生成器網(wǎng)絡(luò)和判別器網(wǎng)絡(luò)的能力,可以提高對小目標(biāo)的檢測性能。

        圖9 Perceptual GAN模型結(jié)構(gòu)(Li等,2017)Fig.9 Perceptual GAN model structure(Li et al.,2017)((a)generator network;(b)discriminator network)

        Noh 等人(2019)提出新的特征超級分辨率方法,利用超分辨率(super-resolution,SR)技術(shù)來增強小RoI 的特性,用適當(dāng)高分辨率目標(biāo)特征作為SR 模型訓(xùn)練的監(jiān)督信號,采用空洞卷積來匹配高低分辨率特征圖的感受域。從實驗來看,該方法可以有效增強小目標(biāo)檢測,但不能自適應(yīng)地選擇超分辨率比,需要根據(jù)RoI 特性進行手動調(diào)節(jié),難以找到最優(yōu)的分辨率。Bai 等人(2018)提出一種多任務(wù)生成對抗網(wǎng) 絡(luò)(multi-task generative adversarial network,MTGAN),該算法生成超分辨圖像,進一步幫助網(wǎng)絡(luò)模型獲取更多的小目標(biāo)細(xì)節(jié)信息,同時在模型中引入多任務(wù)判別器網(wǎng)絡(luò),提高了小目標(biāo)分類和定位的準(zhǔn)確率。

        1.4 基于上下文信息學(xué)習(xí)的小目標(biāo)檢測

        目標(biāo)物體在自然場景下并不是單獨存在的,與周圍存在某種聯(lián)系,若將單獨像素或小目標(biāo)融入到周圍的上下文信息,物體與物體之間的聯(lián)系可以豐富圖像中特征信息的表達(dá),從而有利于小目標(biāo)的檢測。

        上下文信息在人臉檢測過程中也扮演了重要的角色。為解決由于人臉目標(biāo)尺度小、圖像模糊、目標(biāo)遮擋的問題,Tang 等人(2018)提出一種基于先驗框的上下文輔助方法,通過一個半監(jiān)督的方法來監(jiān)督學(xué)習(xí)高級上下文特征信息。為更準(zhǔn)確地學(xué)習(xí)目標(biāo)位置及其類別,引入了一個由混合網(wǎng)絡(luò)結(jié)構(gòu)和最大輸入層組成的上下文敏感預(yù)測模塊。同時,提出一個訓(xùn)練策略來改善訓(xùn)練樣本的分布,使網(wǎng)絡(luò)模型更加關(guān)注較小的人臉。Chen和Gupta(2017)也是通過有效利用上下文信息解決目標(biāo)檢測的問題,提出兩種上下文信息,分別為圖像級別的上下文信息和目標(biāo)級別的上下文信息。前一種通過目標(biāo)與整體圖像之間的聯(lián)系,可以提示圖像該包含怎樣的目標(biāo);后一種則是通過目標(biāo)與目標(biāo)之間的聯(lián)系來改善目標(biāo)檢測的性能。實驗表明,該方法在COCO 數(shù)據(jù)集上對于小目標(biāo)的平均召回率提升了0.7%。

        Chen 等人(2016)使用上下文模型和小區(qū)域建議生成器改進了R-CNN 算法。首先為小目標(biāo)檢測問題設(shè)計一個基本數(shù)據(jù)集,再修改 RPN 的先驗框尺度來提取候選框,最后通過上下文信息的結(jié)合構(gòu)成Context-AlexNet 網(wǎng)絡(luò),相比于原本的AlexNet 網(wǎng)絡(luò)檢測小目標(biāo)的效果更好。同樣,Cai等人(2016)提出了一種多尺度候選區(qū)域提取網(wǎng)絡(luò),通過在網(wǎng)絡(luò)中引入上下文區(qū)域信息,使其更加適應(yīng)并學(xué)習(xí)到不同尺度特征的信息,提高了模型對小目標(biāo)的檢測準(zhǔn)確性。Zhu等人(2017)提出一種新的全卷積網(wǎng)絡(luò)CoupleNet(coupling global structure network)。如圖10 所示,該網(wǎng)絡(luò)包括Local FCN(local fully convolutional network)提取局部信息和Global FCN 提取全局信息兩個不同的分支,最后融合全局信息、局部信息以及上下文信息用于目標(biāo)檢測,改善對小目標(biāo)的檢測性能。

        圖10 CoupleNet模型結(jié)構(gòu)(Zhu等,2017)Fig.10 CoupleNet Model Structure(Zhu et al.,2017)

        1.5 基于錨框機制的小目標(biāo)檢測

        隨著基于深度學(xué)習(xí)的目標(biāo)檢測算法的出現(xiàn),錨框機制在目標(biāo)檢測算法中扮演著越來越重要的角色。錨框最早應(yīng)用于Faster R-CNN 算法中,解決了滑動窗口存在效率低的問題,但錨框機制設(shè)計對于小目標(biāo)檢測并不友好。由于先驗錨框?qū)Σ煌笮〕叨饶繕?biāo)的適應(yīng)度不強,從而導(dǎo)致模型對大目標(biāo)和小目標(biāo)的檢測不平衡,同時使用錨框也會引入大量的參數(shù)量和計算量,因此如何設(shè)計合理的錨框機制方法來提高檢測小目標(biāo)的性能成為當(dāng)前的研究熱點。

        Zhu 等人(2018)發(fā)現(xiàn)難以檢測到小尺寸的人臉的主要原因是因為小尺寸的人臉與錨框的平均IoU(intersection over union)值過低,因此提出了4 種新的 Anchor 生成策略,增多與小目標(biāo)對應(yīng)的目標(biāo)真實框所匹配的錨框數(shù)量,改善對小尺度人臉目標(biāo)檢測性能差的問題。為實現(xiàn)更先進的實時性人臉檢測的檢測器模型,Zhang 等人(2017)提出一種基于單階段尺度不變的人臉檢測器(single shot scale-invariant face detector,S3FD),在檢測小尺度人臉方面表現(xiàn)較為出色。在基于錨框機制的檢測器隨著目標(biāo)物體尺度變小而效果急劇下降的問題上,通過對不同尺度的特征層設(shè)置不同的錨框,以確保所有尺度的人臉都有足夠的特征進行檢測。并且在S3FD方法中,通過最大輸出背景標(biāo)簽來降低小尺度人臉檢測的假陽性率,改善最終的檢測性能。

        Zhu 等人(2019)提出一種基于Anchar-free 機制的特征選擇模塊(feature selective anchor-free module,F(xiàn)SAF),如圖11 所示。在此模塊中,解決傳統(tǒng)的基于 Anchar-free 機制檢測所帶來的限制。FSAF 模塊以RetinaNet 為基礎(chǔ),在網(wǎng)絡(luò)每層特征圖的頭部引入兩個額外卷積層,分別負(fù)責(zé)Anchar-free 機制的分類和回歸預(yù)測。FSAF 模塊使每一個實例自動選擇最適合的特征,Anchor大小成為一個無關(guān)變量,實現(xiàn)模型的自動化學(xué)習(xí)選擇特征。從視覺效果上,很大程度地提升了小目標(biāo)的檢測效果。Zhang 等人(2020)為解決由于正負(fù)樣本的選取方式的不同而造成 Anchar-based 和Anchar-free 之間性能的差異,提出了一種自適應(yīng)訓(xùn)練樣本選擇策略(adaptive training sample selective,ATSS),可以通過統(tǒng)計目標(biāo)的特征信息來自動選擇正負(fù)樣本,彌補有錨與無錨機制之間的性能差異。

        圖11 FSAF 模塊結(jié)構(gòu)圖(Zhu等,2019)Fig.11 FSAF module structure diagram(Zhu et al.,2019)

        Fu 等人(2021)為解決復(fù)雜背景中小型船舶難以檢測的問題,提出了一種特征平衡與細(xì)化網(wǎng)絡(luò)的目標(biāo)檢測算法(feature balancing and refinement network,F(xiàn)BR-Net)。首先,通過采用一般的Anchor-free機制策略,直接學(xué)習(xí)編碼的邊界框,消除Anchor 對檢測性能的負(fù)面影響。其次,提出的平衡金字塔可以為檢測器在復(fù)雜場景中提供注意力導(dǎo)向,使模型獲得更多關(guān)于小型船舶的特征信息,同時在語義上平衡不同層次的多個特征。Yan 等人(2021)為解決基于Anchor-free 機制的遙感影像上多尺度目標(biāo)檢測,提出一種基于特殊注意力機制的特征金字塔網(wǎng)絡(luò),能夠基于各種大小尺度的目標(biāo)的特征來生成特征金字塔,顯著提高了遙感圖像中小目標(biāo)的檢測精度。

        Glenn 等 人(2020)提 出YOLOv5 算 法,與YOLOv4不同,YOLOv5算法包含了4個模型,根據(jù)模型深度和特征圖寬由小到大依次是YOLO5s、YOLOv5m、YOLOv5l 和YOLOv5x。該算法采用自適應(yīng)的錨框機制來進行計算,可以對圖像自適應(yīng)地縮放,網(wǎng)絡(luò)使用Focus+CSPDarknet53(cross stage partial network 53)的結(jié)構(gòu)作為主干特征提取網(wǎng)絡(luò),同時改進了訓(xùn)練時的損失函數(shù)以及篩選預(yù)測框,提高了對遮擋、重疊和小尺度目標(biāo)的檢測效果。Ge 等人(2021)在YOLOv3 的基礎(chǔ)上提出一個新的高性能檢測器YOLOX,包含YOLOX-s、YOLOX-m、YOLOX-l和YOLOX-x 等4 個模型。如圖12 所示,YOLOX 采用無錨的方式,降低模型計算量,緩解了正負(fù)樣本不平衡的問題。同時在YOLOX 算法中使用分離分類和定位操作的解耦頭部方法,將YOLOv3 中YOLO Head 修改為Decoupled Head,加快了網(wǎng)絡(luò)的收斂速度。同時,引入了高級標(biāo)簽分配策略(simplified OTA,SimOTA),獲取每個真實框擁有的正樣本個數(shù),以獲得全局信息下的最優(yōu)樣本匹配策略。YOLOX 算法在小目標(biāo)檢測的速度和精度上都提供了更好的性能。

        圖12 YOLOX 的網(wǎng)絡(luò)結(jié)構(gòu)(Ge等,2021)Fig.12 Network structure of YOLOX(Ge et al.,2021)

        1.6 基于注意力機制的小目標(biāo)檢測

        對小目標(biāo)檢測來說,其本身特征較少,在網(wǎng)絡(luò)訓(xùn)練中難以提取有利的語義特征信息,并且經(jīng)過多次降采樣和池化操作,小目標(biāo)相當(dāng)多的特征信息會被刪除掉,導(dǎo)致模型難以精確定位和識別小目標(biāo)。所以,需要在不增加模型復(fù)雜程度下,對小目標(biāo)的特征信息進行增強。通過在網(wǎng)絡(luò)中集成注意力機制可以幫助模型關(guān)注更重要的區(qū)域,然后為其分配合適的權(quán)重。

        徐誠極等人(2019)提出Attention-YOLO(YOLO detection algorithm that introduces attention mechanism)算法,解決了YOLOv3 中邊界框定位不準(zhǔn)確、難以區(qū)分檢測重疊目標(biāo)物體等問題。首先對網(wǎng)絡(luò)中的殘差連接進行替換,增強網(wǎng)絡(luò)的定位和分類能力,然后采用通道注意力模塊直接連接空間注意力的方式引入注意力機制,并在殘差過程中加入二階項,提高了網(wǎng)絡(luò)的泛化能力。Li等人(2020)提出一種新型的單階段高效檢測器(focusing on small target and occluded object detection,YOLO-CAN),同樣在每個殘差模塊的通道和空間維度加入注意力機制,通過添加CIoU(complete-IoU)損失函數(shù)和Soft-NMS(softnon-maximum suppression)非極大值抑制更加精確邊界框的回歸,進一步提高對小目標(biāo)和遮擋目標(biāo)的檢測準(zhǔn)確性。Lim 等人(2021)提出FA-SSD(combining feature fusion and attention in SSD)方法,網(wǎng)絡(luò)結(jié)構(gòu)如圖13所示。該方法基于SSD算法將多尺度特征進行連接,在引入注意力機制的同時,使用不同層的附加特征信息作為上下文,提高了小目標(biāo)的檢測精度。

        圖13 FA-SSD的網(wǎng)絡(luò)結(jié)構(gòu)(Lim等,2021)Fig.13 The network structure of FA-SSD(Lim et al.,2021)

        麻森權(quán)和周克(2020)在SSD 模型中引入注意力機制,目的是在特征融合的過程中可以通過抑制無關(guān)信息來提高模型小目標(biāo)檢測的精度。張?zhí)諏幍热耍?021)為解決輕量化目標(biāo)檢測器在小目標(biāo)上檢測精度較低的問題,提出一種多尺度特征融合注意力網(wǎng)絡(luò)(multi-scale feature-fusion attention network,MSFAN),設(shè)計的FA-Block(feature-fusion attention block)特征融合注意力模塊不僅幫助模型獲取了特征圖的全局空間信息,而且更加豐富了特征圖中上下文語義信息,提升了MobileNet-YOLOv3 對小目標(biāo)檢測的準(zhǔn)確率。

        1.7 基于特定場景的小目標(biāo)檢測

        人臉識別、智慧交通和工業(yè)檢測都是計算機視覺的重要應(yīng)用領(lǐng)域,本文從應(yīng)用場景的角度介紹幾種主要針對于小目標(biāo)檢測的方法。

        交通標(biāo)志檢測是無人駕駛系統(tǒng)中的一項具有挑戰(zhàn)性的任務(wù),一般都會采用特征金字塔來解決這一問題,但在實際應(yīng)用中,不僅難以保證檢測的實時性,還可能打破不同尺度的交通標(biāo)志的特征一致性。Wang 等人(2023)提出一種改進的特征金字塔模型AF-FPN(adaptive attention module and feature enhancement module-FPN),可以很大程度上在特征傳遞過程中保留特征圖中的信道信息,提高特征金字塔的表示能力。如圖14 所示,用AF-FPN 替換YOLOv5 中原始的特征金字塔網(wǎng)絡(luò),該模型利用自適應(yīng)注意模塊(adaptive attention module,AAM)和特征增強模塊(feature enhancement module,F(xiàn)EM),在保證實時檢測的前提下,提高了對YOLOv5 網(wǎng)絡(luò)多尺度目標(biāo)的檢測性能。在此基礎(chǔ)上,還提出一種新的自動學(xué)習(xí)數(shù)據(jù)增強策略,不僅豐富了數(shù)據(jù)集,而且提高了模型的魯棒性。為驗證改進的網(wǎng)絡(luò)模型可以部署在車輛的移動終端上,在TT100K(Tsinghua-Tencent100K)數(shù)據(jù)集上進行大量實驗驗證。結(jié)果表明,該模型在不受尺度不變性的影響下,可實時檢測和識別小尺度的交通標(biāo)志。

        圖14 AF-FPN 結(jié)構(gòu)圖(Wang等,2023)Fig.14 AF-FPN structure diagram(Wang et al.,2023)

        基于遠(yuǎn)程目標(biāo)的檢測監(jiān)控應(yīng)用也是一項重要挑戰(zhàn)。Akyon 等人(2022)為解決高端無人機和監(jiān)控攝像頭拍攝的圖像進行小目標(biāo)檢測任務(wù)的精度明顯偏低問題,提出了一個在微調(diào)和推理階段基于切片SAHI(slicing aided hyper inference)的通用框架,該框架可應(yīng)用在任何可用的目標(biāo)檢測器上,可進行高分辨率圖像上的小目標(biāo)檢測。如圖15 所示,該方法從圖像微調(diào)數(shù)據(jù)集中提取patch來增強數(shù)據(jù)集,在微調(diào)的過程中采用保留高寬比的方式來調(diào)整patch 的大小,對小目標(biāo)相對于輸入網(wǎng)絡(luò)的圖像產(chǎn)生相對較大的像素區(qū)域。同理,在推理過程中使用切片方法,將原始查詢圖像I分割為M×N個重疊的patch,并對每個重疊的patch 都獨立地應(yīng)用目標(biāo)檢測正向傳遞。實驗結(jié)果表明,該框架在很多檢測器上針對小目標(biāo)有很好的檢測效果。

        圖15 切片輔助微調(diào)和切片輔助超推理結(jié)構(gòu)圖(Akyon等,2022)Fig.15 Slice-assisted fine-tuning and slice-assisted hyper-inference architecture diagrams(Akyon et al.,2022)

        很多目標(biāo)檢測方法被部署在自動駕駛等實際應(yīng)用中,但高質(zhì)量圖像訓(xùn)練的一般目標(biāo)檢測模型從惡劣天氣條件下捕獲的低質(zhì)量圖像中定位目標(biāo)往往無法獲得令人滿意的結(jié)果。為緩解這一問題,Liu等人(2021)通過刪除特定天氣信息并揭示更多潛在信息,提出一種新的圖像自適應(yīng)IA-YOLO(imageadaptive YOLO)框架,該框架包含一個可微分圖像處理DIP(digital image processing)模塊來考慮YOLO 檢測器的不利天氣條件,并且以端到端方式聯(lián)合學(xué)習(xí)CNN-PP(CNN-based parameter predictor)和YOLOv3,確保 CNN-PP可以學(xué)習(xí)適當(dāng)?shù)腄IP,以弱監(jiān)督的方式增強圖像檢測。改進的網(wǎng)絡(luò)模型中,每幅圖像都可以自適應(yīng)地增強,從而進一步提高檢測精度。Zhao等人(2022)針對森林火災(zāi)問題,提出了Fire-YOLO算法。由于森林火災(zāi)圖像中包括較小尺度的目標(biāo)、類似火目標(biāo)、類似煙霧目標(biāo)等,同時在一定程度上也會受到自然光線的影響。因此,該方法分別從深度、寬度以及分辨率3個維度對特征提取網(wǎng)絡(luò)進行擴展,并采用特征金字塔,進一步增強網(wǎng)絡(luò)模型對小目標(biāo)特征的學(xué)習(xí)能力。實驗表明,F(xiàn)ire-YOLO算法在保證檢測速度的情況下,在復(fù)雜的森林火災(zāi)圖像中有效處理了小尺度火源目標(biāo)以及類火、類霧等目標(biāo)。

        空中圖像越來越多地用于一些關(guān)鍵任務(wù),例如交通監(jiān)測、災(zāi)害援助等。然而,從航空圖像中識別物體往往面臨目標(biāo)物體相對于數(shù)據(jù)集圖像過小、過密集以及每個類別的物體數(shù)量不太平衡的問題。在無人機系統(tǒng)協(xié)會國際學(xué)生無人機系統(tǒng)競賽(student unmanned aerial systems competition,AUVSISUAS)計算機視覺任務(wù)中,Ptak 等人(2020)開發(fā)出一種針對無人機拍攝的航拍照片的標(biāo)簽檢測系統(tǒng)。該方法基于YOLO 算法檢測目標(biāo),K-means聚類從背景中分割標(biāo)簽并基于CNN 的字母數(shù)字符號分類,可以將標(biāo)簽定位與GPS(global positioning system)聯(lián)系起來,獲取物體類型、方向和顏色、字母數(shù)字符號及其顏色,取得了令人滿意的結(jié)果。同樣,Tang 等人(2020)提出一種新的點估計網(wǎng)絡(luò)結(jié)構(gòu)PENet(towards precise and efficient image guided depth completion),該網(wǎng)絡(luò)模型使用一個掩膜重采樣模塊MRM(multiple reaction monitoring)來增強不平衡的數(shù)據(jù)集,然后采用一個粗的無錨檢測器CPEN(corner proposal network for anchor-free)來預(yù)測小目標(biāo)的中心點和一個精細(xì)的無錨檢測器FPEN(fusion network for anchor-free)來定位小目標(biāo)的精確位置,并在FPEN 中定義了層次損失,實現(xiàn)更高的精度。除了以上的方法,Zhu 等人(2021)通過在YOLOv5 模型上添加一個預(yù)測頭來檢測不同尺度的目標(biāo)物體,并將原預(yù)測頭替換為變壓器預(yù)測頭TPH(Transformer prediction heads),提出了TPH-YOLOv5,其網(wǎng)絡(luò)結(jié)構(gòu)如圖16所示。此外,還在模型中使用了一些有用的策略,如數(shù)據(jù)增強、多尺度測試、額外的分類器以及整合卷積塊注意模型CBAM(convolutional block attention module)來尋找含有密集目標(biāo)的場景中的注意力區(qū)域,通過在Vis-Drone2021 數(shù)據(jù)集上測試,TPH-YOLOv5 在無人機捕獲的場景上具有良好的性能。

        圖16 TPH-YOLOv5 的網(wǎng)絡(luò)結(jié)構(gòu)圖(Zhu等,2021)Fig.16 Network structure diagram of TPH-YOLOv5(Zhu et al.,2021)

        隨著自動駕駛賽車越來越受歡迎,能夠從高分辨率圖像和有限資源限制下檢測較小的目標(biāo)成為一項具有挑戰(zhàn)性的任務(wù)。Benjumea 等人(2021)在流行的YOLOv5 目標(biāo)檢測器上進行改進,主要思想是通過替換網(wǎng)絡(luò)模型中的某些結(jié)構(gòu)元素來影響其性能和推理時間,如在Neck 部分將Pan-Net 簡化為一個FPN,并將其替換為biFPN,該模型稱為YOLO-Z。經(jīng)在自動賽車場景中驗證,該方法可以擴展自動駕駛汽車的檢測范圍和感知魯棒性,從而能夠提高檢測小物體的能力,使自動駕駛賽車具有顯著的優(yōu)勢。

        1.8 其他改進的方法

        除了前面幾種基于不同策略的小目標(biāo)檢測方法外,還有一些優(yōu)秀的小目標(biāo)檢測方法。在基于深度學(xué)習(xí)的目標(biāo)檢測算法中,單階段的目標(biāo)檢測算法相比較兩階段的檢測算法,其結(jié)構(gòu)更加簡單,達(dá)到了端到端的目標(biāo)檢測效果,在計算高效的情況下,也提高了目標(biāo)檢測的準(zhǔn)確率。其中,做為單階段目標(biāo)檢測算法代表的SSD 和YOLO 系列,其算法在框架結(jié)構(gòu)、損失函數(shù)以及預(yù)測和匹配機制等方面都已經(jīng)發(fā)展的較為成熟。因此,大量研究人員基于SSD 和YOLO進行了更加深入的研究。

        近幾年基于SSD 和YOLO 系列算法改進的小目標(biāo)檢測方法總結(jié)如表2和表3所示。

        表2 基于SSD算法的小目標(biāo)檢測方法總結(jié)Table 2 Summary of small object detection methods based on SSD algorithm

        表3 基于YOLO算法的小目標(biāo)檢測方法總結(jié)Table 3 Summary of small object detection methods based on YOLO algorithm

        2 小目標(biāo)檢測評價指標(biāo)和數(shù)據(jù)集

        2.1 評價指標(biāo)

        小目標(biāo)檢測常用的評價指標(biāo)主要包括3 個,分別為精確率、召回率以及速度指標(biāo)。最常用的精度評價指標(biāo)為平均精度(average precision,AP),由精確率(precision)和召回率(recall)計算所得。精確率為真正例數(shù)量與預(yù)測為正例數(shù)量的比值,召回率為真正例數(shù)量與真實標(biāo)注樣本數(shù)量的比值。其中,交并比(intersection over union,IoU)由目標(biāo)的 bounding box 與ground truth 計算得來,在目標(biāo)檢測中,正負(fù)樣本也是通過IoU閾值的大小來劃分。

        AP50 和AP75 是IoU值分別設(shè)為0.5 和0.75 時的平均精準(zhǔn)率,小、中、大尺度目標(biāo)的平均精準(zhǔn)率則分別表示為APS、APM、APL。AP 通常用于評估數(shù)據(jù)集中某一個類別的檢測效果,但在小目標(biāo)檢測中,需要檢測器檢測多個類別的目標(biāo)。因此,需要采用平均精確率均值(mean average precision,mAP)來對整個數(shù)據(jù)集評估。mAP 是數(shù)據(jù)集中所有類別AP 的平均值,可以反映多個類別的檢測結(jié)果,但其大小必須在[0,1]區(qū)間內(nèi)。上述各項指標(biāo)分別計算為

        式中,Pre表示準(zhǔn)確率(precision),Re表示召回率(recall),Miss表示漏檢率,TP(true positive)表示模型正確地將正例預(yù)測為正例,F(xiàn)P(false positive)表示模型錯誤地將負(fù)例預(yù)測為正例,F(xiàn)N(false negative)表示模型錯誤地將正例預(yù)測為負(fù)例,AP(average pre-cision)表示平均精度,mAP(mean average precision)表示平均精確率均值,k表示類別的個數(shù)。模型預(yù)測的混淆矩陣如表4所示。

        表4 混淆矩陣Table 4 Confusion matrix

        在COCO 數(shù)據(jù)集中,一般會將AP 默認(rèn)為mAP。由于不同的IoU閾值與不同尺度的目標(biāo)面積會使AP值產(chǎn)生變化,表5 為COCO 數(shù)據(jù)集上不同的評價指標(biāo)。其中,APS、APM 和APL 是根據(jù)不同尺度的目標(biāo)劃分的評價指標(biāo),APS 是數(shù)據(jù)集中小目標(biāo)的檢測結(jié)果。AR(average precision)是每幅測試圖像中一定數(shù)量的檢測結(jié)果中的最大召回率。ARS、ARM 和ARL 同樣是根據(jù)不同尺度的目標(biāo)劃分的評價指標(biāo)。FPS(frame per second)是小目標(biāo)檢測速度的評價指標(biāo),F(xiàn)PS值越大,說明檢測模型的實時性越好。

        表5 COCO數(shù)據(jù)集上的不同評價指標(biāo)Table 5 Different evaluation indicators on COCO dataset

        2.2 數(shù)據(jù)集

        為了更好地發(fā)展計算機視覺算法,建立更大的數(shù)據(jù)集和更少的偏差尤為關(guān)鍵。目標(biāo)檢測在近10年中發(fā)布了很多有名的基準(zhǔn)數(shù)據(jù)集,包括PASCAL VOC 數(shù)據(jù)集(Everingham 等,2010,2015)(例 如VOC2007,VOC2012)、ImageNet中的大尺度視覺識別數(shù)據(jù)集(Russakovsky 等,2015),例如(ILSVRC2014)以及 MS-COCO 數(shù)據(jù)集(Lin 等,2014)等。PASCAL VOC 數(shù)據(jù)集最開始主要關(guān)注分類和檢測任務(wù),從2005 年建立初步的數(shù)據(jù)集,目前類別已擴充至20種,包含了24 640 個已標(biāo)注的生活中常見的目標(biāo)對象。Zhang 等人(2022)提出的DINO(DETR with improved denoising anchor boxes)算法在此數(shù)據(jù)集上的檢測精度為63.3%。MS-COCO 是當(dāng)今最具挑戰(zhàn)性的目標(biāo)檢測數(shù)據(jù)集,它相比較PASCAL VOC 和ILSVRC包含更小和更密集的目標(biāo)物體。

        小目標(biāo)的數(shù)據(jù)集除了包含公共數(shù)據(jù)集之外,還包括各領(lǐng)域應(yīng)用的數(shù)據(jù)集。

        遙感圖像目標(biāo)檢測領(lǐng)域的數(shù)據(jù)集DOTA(dataset for object detection in aerial images)(Xia 等,2018)共包含15 個種類,2 806 幅圖像。Yang 等人(2022)提出的KFIoU+RoITrans(Kalman filtering IoU+RoITrans)算法在該數(shù)據(jù)集上的檢測精度為80.93%。

        人臉檢測基準(zhǔn)數(shù)據(jù)集WIDER FACE(Yang 等,2016)是香港大學(xué)創(chuàng)建的公共數(shù)據(jù)集,包含32 203幅圖像,393 703 幅標(biāo)注人臉,這些人臉在尺度、姿態(tài)、標(biāo)準(zhǔn)和光線方面都有不同的體現(xiàn)。Zhu 等人(2020)基于模型框架、數(shù)據(jù)增強等方面,提出了可以處理復(fù)雜情況下的人臉檢測算法Tina Face,在WIDER FACE數(shù)據(jù)集上的精度達(dá)到了92.40%。

        中國科學(xué)院大學(xué)提出了只針對微小人物的數(shù)據(jù)集Tiny Person(Yu 等,2020),該數(shù)據(jù)集從高分辨率視頻中進行采樣,手工注釋72 651 個帶有框的目標(biāo)對象。Yu 等人(2022)提出了一種粗點細(xì)化的CPRNet(coarse point refinement network)算法,將監(jiān)督信號由精確的關(guān)鍵點轉(zhuǎn)換為自由發(fā)現(xiàn)的點,該算法在Tiny Person數(shù)據(jù)集上的精度為85.86%。

        FDDB(face detection data set and benchmark)(Jain 和Learned-Miller,2010)是最具權(quán)威性的人臉檢測數(shù)據(jù)集之一,包含彩色或灰色圖像2 845 幅,采用矩形、橢圓標(biāo)記法對5 171 個人臉進行了標(biāo)記,包括不同姿勢、高低不同分辨率、旋轉(zhuǎn)和遮擋等狀態(tài)。Li 等人(2019a)提出的DSFD(dual shot face detector)算法包含了新的特征增強模塊,設(shè)計了一種優(yōu)化的錨框匹配方法,在該數(shù)據(jù)集上的檢測精度為99.10%。

        UCAS-AOD(dataset of object detection in aerial images)(Zhu 等,2015)是中國科學(xué)技術(shù)大學(xué)提出的針對飛機和車輛檢測的遙感影像數(shù)據(jù)集,包括600幅飛機圖像和310 幅車輛圖像,適用于小目標(biāo)檢測。Zhou 等人(2020)提出了一種無錨框的遙感目標(biāo)檢測算法P-RSDet(learning modulated loss for rotated object detection),在UCAS-AOD 數(shù)據(jù)集上的檢測精度為90.24%。

        Tsinghua-Tencent100K(Zhu 等,2016)是一個大型的交通標(biāo)志數(shù)據(jù)集,包含3 萬個交通標(biāo)志目標(biāo)。Wang 等人(2023)提出的FE-YOLOV5 算法在此數(shù)據(jù)集上的檢測精度為63.60%。

        NWPU VHR-10(Cheng 等,2014)是西北工業(yè)大學(xué)提出的地理遙感數(shù)據(jù)集,可用于空間物體檢測,共800 幅圖像,包括飛機、艦船、網(wǎng)球場等10 個目標(biāo)種類。Zhou 等人(2020)提出的P-RSDet 算法在此數(shù)據(jù)集上的檢測精度為90.80%。

        UR PC 2018(Zhang 等,2018)數(shù)據(jù)集包括海參、海膽、扇貝和海星4 個水下目標(biāo),其中2 901 幅為訓(xùn)練圖像,800 幅為測試圖像。Zhang 等人(2018)提出一種可用于水下的目標(biāo)檢測算法underwater object detection,該算法在UR PC 2018 數(shù)據(jù)集上的檢測精度為63.90%。

        Flickrlogos 數(shù)據(jù)集(Romberg 等,2011)包 含8 240 幅圖像,分為 32 類logos 目標(biāo),都是從網(wǎng)絡(luò)相冊中收集真實的徽標(biāo)圖像。Bianco 等人(2017)提出的TC-VII算法在該數(shù)據(jù)集上的檢測精度為96.03%。各種小目標(biāo)數(shù)據(jù)集的具體內(nèi)容如表6所示。

        表6 小目標(biāo)數(shù)據(jù)集介紹Table 6 Introduction to small object datasets

        3 小目標(biāo)檢測結(jié)果對比

        為進一步展示現(xiàn)階段具有代表性小目標(biāo)檢測方法在各數(shù)據(jù)集上的檢測效果。對部分方法在COCO、VisDrone2021 和Tsinghua-Tencent100K 數(shù)據(jù)集上的檢測結(jié)果及其可視化檢測效果進行對比。

        COCO 是復(fù)雜場景下的大型數(shù)據(jù)集,包含91 個目標(biāo)類和328 000 幅圖像,其中52.3%的圖像中包含小目標(biāo)。不同的小目標(biāo)檢測方法在COCO 數(shù)據(jù)集上的性能對比如表7 所示。Dai 等人(2016)提出的R-FCN(region-based fully convolutional network)算法解決了Faster RCNN 中因為采用ROI Pooling 層進行兩次取整計算導(dǎo)致檢測信息與提取特征不匹配的問題,該算法引入了敏感分?jǐn)?shù)圖,提高了目標(biāo)定位性能。從表7 可以看出,R-FCN 在mAP 和AP50(IoU 值分別為0.50:0:0.95、0.5 的平均精準(zhǔn)率)的值分別為29.9%和51.9%,APS、APM 和APL(小、中、大尺度目標(biāo)的平均精準(zhǔn)率)的值分別為10.8%、32.8%和45.0%。He 等人(2017)提出的Mask RCNN 算法實現(xiàn)了分割和檢測任務(wù)的融合,該算法在Faster RCNN 的基礎(chǔ)上添加了一個額外的分支網(wǎng)絡(luò),在對目標(biāo)的類別進行預(yù)測和對其坐標(biāo)信息進行判斷時,每一個 ROI 輸出一個 Mask 的預(yù)測。因此,Mask RCNN 不僅集成了目標(biāo)檢測和實例分割兩大功能,并且在檢測性能上也超過了R-FCN。Mask RCNN相比于R-FCN 算法,其APS、APM 和APL 值分別提高了12.8%、11.4%和8.9%。Li 等人(2017)提出的Light head-RCNN 算法同樣提高了 R-FCN 算法的檢測精度,它采用了卷積生成小信道數(shù),并減少 ROI的計算,有效提升了速度和精度的性能,相比于R-FCN 算 法,其APS、APM 和APL值分別提高了14.4%、12.5%和8.1%。Bai 等人(2018)提出的端到端多任務(wù)生成式對抗網(wǎng)絡(luò)MTGAN(multi-task generative adversarial network),基于超分辨方法可以將較小的模糊圖像上采樣生成對應(yīng)尺度的精細(xì)圖像,以進行更精確的檢測。通過在COCO 數(shù)據(jù)集上大量實驗,證明該方法有效提升了目標(biāo)檢測的性能,特別是對小目標(biāo)的檢測。MTGAN 相較其基準(zhǔn)網(wǎng)絡(luò)Mask R-CNN 在mAP 值上提高了0.6%,小尺度目標(biāo)的平均精準(zhǔn)率APS值提升了1.6%。

        表7 不同方法在COCO數(shù)據(jù)集上的性能對比Table 7 Performance comparison of different methods on COCO dataset/%

        Liu等人(2016)提出了采用VGG-16做為骨干特征提取網(wǎng)絡(luò)的SSD 算法,采用分層提取特征思想,可以檢測不同大小尺度的目標(biāo)。但由于算法中的每個尺度相互獨立,沒有進行不同尺度特征圖的融合,因此不同大小的目標(biāo)檢測框會針對同一個目標(biāo)重復(fù)檢測,從而導(dǎo)致其對小目標(biāo)的分類效果并不好。Fu 等人(2017)提 出DSSD(deconvolutional single shot detector)算法,將SSD 算法中的骨干網(wǎng)絡(luò)替換為ResNet-101(deep residual network),在ResNet-101 基礎(chǔ)上添加了一個反卷積層。并且該算法引入了額外的大尺度上下文,提高了檢測的精度,特別是對于小目標(biāo)。在COCO 測試中,mAP 值為33.2%,比SSD 算法提升了2%。Zhu等人(2019)提出基于Anchor-free機制的特征選擇模塊FSAF(feature selective anchorfree module),以RetinaNet 為基礎(chǔ),在網(wǎng)絡(luò)每層特征圖的頭部引入兩個額外卷積層,分別負(fù)責(zé)Anchorfree 機制的分類和回歸預(yù)測。相比于RetinaNet 算法,F(xiàn)SAF 模塊在COCO 數(shù)據(jù)集上的APS、APM 和APL值分別提高了6%、2.8%和3%,優(yōu)于表7中其他單階段目標(biāo)檢測方法在COCO 數(shù)據(jù)集上的檢測精度。

        圖17 為SSD 與DSSD 在COCO 數(shù)據(jù)集上的可視化結(jié)果圖。與SSD 相比,DSSD 更能考慮和學(xué)習(xí)上下文信息,在密集場景中,針對小目標(biāo)產(chǎn)生更好的檢測性能。

        圖18為MTGAN、Light head-RCNN、RetinaNet 和FSAF 的可視化結(jié)果。圖18(a)為MTGAN 檢測器在COCO 數(shù)據(jù)集上產(chǎn)生的一些檢測結(jié)果。圖中的紅框和綠框均為該方法的檢測結(jié)果,可以觀察到,MTGAN幾乎可以成功地檢測到所有的目標(biāo)物體,特別是一些較小的目標(biāo),證明了該方法在小目標(biāo)檢測問題上的有效性。圖18(b)為Light head-RCNN方法的可視化的檢測結(jié)果圖,幾乎沒有出現(xiàn)目標(biāo)漏檢的情況,同時在一定程度上提升了小目標(biāo)的檢出率。如圖18(c)所示,從視覺效果上,相比較RetinaNet 算法,F(xiàn)SAF在很大程度上提高了小目標(biāo)的檢測效果。

        圖18 不同方法的可視化結(jié)果Fig.18 The visualization results of different methods((a)MTGAN;(b)Light head-RCNN;(c)RetinaNet;(d)FSAF)

        VisDrone2021 主要是由天津大學(xué)AISKYEYE 團隊收集的大型航拍數(shù)據(jù)集,該數(shù)據(jù)集的圖像尺寸約為2 000 × 1 500 像素,數(shù)據(jù)集中高比例的目標(biāo)實例像素面積都是小于32 × 32像素的小尺度目標(biāo),主要包括行人、自行車、汽車和貨車等10 個類別。其中,訓(xùn)練圖像6 471幅,驗證圖像548幅。

        表8 為不同關(guān)鍵的小目標(biāo)檢測方法在Vis-Drone2021 數(shù)據(jù)集上的性能對比。在這些方法中,PENet(Tang 等,2020)取得了最好的檢測性能,該網(wǎng)絡(luò)模型基于基準(zhǔn)網(wǎng)路CenterNet(Zhou 等,2020)使用掩膜重采樣模塊MRM來增強不平衡的數(shù)據(jù)集,同時采用無錨檢測器CPEN 和無錨檢測器FPEN 分別來預(yù)測小目標(biāo)的中心點以及精準(zhǔn)的位置。從表8 可以看出,PENet 在mAP、AP50 和AP75(IoU 值分別為0.50∶0∶0.95、0.5 和0.75 的平均精準(zhǔn)率)上的性能相比較CenterNet 分別提升了26.9%、38.7% 和28.8%。TPH-YOLOv5(Zhu等,2021)在VisDrone2021測試集挑戰(zhàn)中mAP 達(dá)到了39.18%,遠(yuǎn)高于Vis-Drone2020 年的最佳mAP(37.37%),該算法基于YOLOv5 模型添加了變壓器編碼器塊、卷積塊注意模塊CBAM、額外的分類器等尖端的技術(shù)策略。從實驗結(jié)果可以看出,TPH-YOLOv5相比于YOLOv5的mAP值提高了10.38%,在VisDrone2021數(shù)據(jù)集中實現(xiàn)了先進的檢測性能。RetinaNet(Lin 等,2017)和FPN(Lin等,2017)都是基于多尺度特征融合的目標(biāo)檢測算法,兩者都借鑒了多尺度的目標(biāo)檢測思想,F(xiàn)PN 在網(wǎng)絡(luò)結(jié)構(gòu)上采用了自頂向下的路徑和橫向的連接方式,充分利用了不同尺度特征圖上較強的語義信息。通過實驗對比,F(xiàn)PN 在VisDrone2021 數(shù)據(jù)集上的mAP、AP50 和AP75 值分別比RetinaNet 高了4.7%、10.83%和3.29%,更適用于小尺度目標(biāo)的檢測。

        表8 不同方法在VisDrone2021數(shù)據(jù)集上的性能對比Table 8 Performance comparison of different methods on the VisDrone2021 dataset/%

        圖19 為TPH-YOLOv5 與PENet 在VisDrone2021數(shù)據(jù)集上的可視化結(jié)果圖,針對復(fù)雜場景中存在的由于目標(biāo)重疊、遮擋和聚集導(dǎo)致的小目標(biāo)檢測困難的現(xiàn)象,TPH-YOLOv5 與PENet 方法都有所改善,提高了對小目標(biāo)的檢測性能。

        圖19 TPH-YOLOv5(Zhu等,2021)與PENe(tTang等,2020)的可視化結(jié)果Fig.19 Visualization results of TPH-YOLOV5(Zhu et al.,2021)and PENet(Tang et al.,2020)((a)TPH-YOLOV5;(b)PENet)

        Tsinghua-Tencent100K(Zhu 等,2016)是一個大型的交通標(biāo)志數(shù)據(jù)集,包含30 000個交通標(biāo)志目標(biāo),涵蓋了不同的實際交通環(huán)境,其中,數(shù)據(jù)圖像的分辨率為2 048 × 2 048 像素。在該數(shù)據(jù)集中,約42.5%的交通標(biāo)志是小目標(biāo)。

        表9 為不同關(guān)鍵的小目標(biāo)檢測方法在Tsinghua-Tencent100K 數(shù)據(jù)集上的性能對比。其中,AF-FPN算法(Wang 等,2023)替換了YOLOv5 中原始的特征金字塔網(wǎng)絡(luò),使用自適應(yīng)注意模塊AAM 和特征增強模塊FEM,提高了特征金字塔的表征能力。通過在TT100K數(shù)據(jù)集上進行大量實驗驗證,該模型在不受尺度不變性的影響下,可實時檢測較小尺度的交通標(biāo)志。PENet 在APS、APM 和APL 上的性能相比較YOLOv5分別提升了5.79%、5.75%和13.3%。

        表9 不同方法在TT100K數(shù)據(jù)集上的性能對比Table 9 Performance comparison of different methods on the Tsinghua-Tencent100K dataset /%

        圖20 是Perceptual GAN(Li 等,2017)和AF-FPN(Wang 等,2023)的可視化結(jié)果。Perceptual GAN 模型包括生成器和判別器兩部分,目的是在網(wǎng)絡(luò)學(xué)習(xí)過程中充分利用不同尺度目標(biāo)之間的結(jié)構(gòu)相關(guān)性來減少大、中、小目標(biāo)間的差異。同時,生成器中設(shè)計了深度殘余學(xué)習(xí)網(wǎng)絡(luò),彌補了小目標(biāo)缺失的細(xì)粒度細(xì)節(jié)。Perceptual GAN 在TT100K 數(shù)據(jù)集上的APS、APM 和APL 值分別為84%、91%和91%。如圖20(a)所示,Perceptual GAN 方法可以準(zhǔn)確檢測到容易遺漏或誤檢的大多數(shù)小型交通標(biāo)志,提高了對小目標(biāo)的檢測精度。

        圖20 Perceptual GAN(Li等,2017)和AF-FPN(Wang等,2023)的可視化結(jié)果Fig.20 Visualization results of Perceptual GAN(Li et al.,2017)and AF-FPN(Wang et al.,2023)((a)Perceptual GAN;(b)AF-FPN)

        從圖20(b)可以看出,PENet 成功地檢測了實際交通場景上的小尺度交通標(biāo)志,沒有存在漏檢和誤檢的情況,具有較高的檢測精度。

        4 總結(jié)和展望

        本文根據(jù)目標(biāo)檢測領(lǐng)域中的關(guān)鍵技術(shù),全面系統(tǒng)闡述了基于深度學(xué)習(xí)的小目標(biāo)檢測方法的研究現(xiàn)狀。首先,簡單論述了一些傳統(tǒng)的目標(biāo)檢測算法,例如VJ(Viola-Jones)、HOG、DPM 等算法和基于深度學(xué)習(xí)的目標(biāo)檢測算法,包括基于兩階段的目標(biāo)檢測算法Faster R-CNN、Cascade R-CNN 等和基于單階段的目標(biāo)檢測算法SSD、YOLO 等。其次,針對小目標(biāo)檢測現(xiàn)存的難點,例如小目標(biāo)數(shù)據(jù)量短缺、單個特征層對小目標(biāo)的表征能力不強、可視化特征弱、攜帶的特征信息有限等問題,從基于數(shù)據(jù)圖像增強、多尺度特性、上下文語義信息、錨框機制的設(shè)置策略以及引入注意力機制等方面,對現(xiàn)有小目標(biāo)檢測算法取得的一些成果進行了全面系統(tǒng)的概述。接著,就特定場景下的小目標(biāo)檢測以及基于SSD 和YOLO 系列算法所改進的小目標(biāo)檢測概述了其最新的方法。最后,詳細(xì)介紹了小目標(biāo)檢測的評價指標(biāo)以及數(shù)據(jù)集,并且展示了現(xiàn)有小目標(biāo)檢測方法在COCO、Vis-Drone2021和Tsinghua Tencent100K 數(shù)據(jù)集上的可視化檢測效果,并對檢測結(jié)果進行了對比。

        隨著現(xiàn)實生活中應(yīng)用小目標(biāo)檢測受到越來越多的關(guān)注,有許多問題亟待解決。

        1)小目標(biāo)檢測易受干擾。大部分的小目標(biāo)分辨率低、圖像模糊、可視化信息少,在難以提取到特征的情況下,極易受到干擾,進而導(dǎo)致檢測模型難以精準(zhǔn)定位和識別小目標(biāo),存在較多錯檢和漏檢。

        2)小目標(biāo)易聚集、遮擋。在復(fù)雜場景中,大部分小目標(biāo)淹沒在噪聲和背景雜波中,同時大量小目標(biāo)普遍存在聚集和互相遮擋問題。當(dāng)小目標(biāo)聚集時,目標(biāo)之間會出現(xiàn)較為嚴(yán)重的遮擋。經(jīng)過多次降采樣和池化操作,相當(dāng)多特征信息將會丟失,給檢測帶來一定的困難。

        3)小目標(biāo)定位困難。小目標(biāo)無論是基于絕對尺度還是相對尺度,在數(shù)據(jù)圖像中所覆蓋的面積都較小。因此在預(yù)測過程中,預(yù)測邊框?qū)π∧繕?biāo)的定位誤差遠(yuǎn)大于大、中目標(biāo)。并且在模型訓(xùn)練中,小目標(biāo)匹配的錨框數(shù)量較少,給檢測帶來一定困難。

        4)交并比(IoU)閾值的設(shè)置對小目標(biāo)不合理。在目標(biāo)檢測中,交并比是由目標(biāo)的bounding box 與ground truth 計算得來的,而檢測中的匹配策略也是通過IoU 閾值大小來劃分正負(fù)樣本的。小目標(biāo)IoU較小,而通常的IoU 閾值更加適用于大、中尺度目標(biāo),會給較小目標(biāo)的定位精度帶來一定影響。

        5)網(wǎng)絡(luò)模型下采樣對小目標(biāo)的影響。在目標(biāo)檢測算法中,輸入的圖像需要經(jīng)過不斷的下采樣、池化等操作提取目標(biāo)特征。而小目標(biāo)僅有幾十個像素,在向下傳遞和不斷下采樣過程中可能會導(dǎo)致小目標(biāo)特征信息的丟失。

        針對如何進一步提升小目標(biāo)檢測的性能,本文對未來的幾個研究課題進行展望。

        1)構(gòu)建通用小目標(biāo)數(shù)據(jù)集。雖然主流的數(shù)據(jù)集MS-COCO 包含了部分的小目標(biāo)類,但包含小目標(biāo)的圖像相對較少,導(dǎo)致檢測模型在訓(xùn)練過程中更關(guān)注大、中尺度目標(biāo),網(wǎng)絡(luò)模型對小目標(biāo)的泛化能力弱。本文介紹了很多小目標(biāo)的數(shù)據(jù)集,但大多都是針對專門的領(lǐng)域,樣本分布不平衡和樣本數(shù)量不足等都會影響小目標(biāo)檢測的準(zhǔn)確率。例如UR PC 2018 為水下小目標(biāo)數(shù)據(jù)集,包括海膽、海參、扇貝和海星4 種類別,不僅目標(biāo)類別數(shù)少,還缺乏一定的通用性。因此,需要建立一個大規(guī)模針對通用小目標(biāo)檢測的數(shù)據(jù)集,就像圖像分類中的ImageNet數(shù)據(jù)集,充分學(xué)習(xí)小目標(biāo)特征,提高檢測效率。通常,圖像數(shù)據(jù)集的構(gòu)建主要包括確定主題、獲取數(shù)據(jù)和對數(shù)據(jù)進行處理3 個流程。首先,確定主題時,需要分析數(shù)據(jù)集的應(yīng)用場景,確定數(shù)據(jù)集的類別、各類別的樣本數(shù)量及樣本數(shù)據(jù)的分辨率大??;其次,需要通過一定的數(shù)據(jù)采集方法得到切合主題的數(shù)據(jù);最后,對采集的數(shù)據(jù)通過一定的篩選、標(biāo)注和剪切處理,再根據(jù)需求統(tǒng)一數(shù)據(jù)圖像的分辨率以及圖像中目標(biāo)的位置和大小等,最終構(gòu)建出一個針對通用小目標(biāo)檢測的大規(guī)模數(shù)據(jù)集。

        2)充分利用網(wǎng)絡(luò)的多尺度特征。在網(wǎng)絡(luò)訓(xùn)練過程中,數(shù)據(jù)集中目標(biāo)物體的尺度變化較大,目前很多方法都是通過多尺度特征融合,利用網(wǎng)絡(luò)底層高分辨率和高層強特征語義信息,使得小目標(biāo)的精度得到一定的提升。但這一過程可能存在語義間隔和噪聲問題,可以通過解決該問題,建立更加完善的特征金字塔網(wǎng)絡(luò),進行更精確的小目標(biāo)檢測。同時,可采用高分辨率圖像進行多尺度的小目標(biāo)檢測。高分辨率圖像包含更多有關(guān)目標(biāo)的細(xì)節(jié)信息,但在一定程度上難以保證目標(biāo)檢測精度與計算資源的平衡。Gao 等人(2018)采用一種從粗到細(xì)引導(dǎo)細(xì)粒度檢測的策略,在保證高分辨率圖像中不同尺度目標(biāo)準(zhǔn)確率的同時,降低了模型的計算成本。對于航拍數(shù)據(jù)集,例如VisDrone包含更密集的細(xì)粒度信息。因此,可以進一步研究如何設(shè)計更適用小目標(biāo)的細(xì)粒度輕量級的檢測算法。

        3)集成注意力機制。針對多尺度特征融合可能會引入底層特征圖像的噪聲信息,給檢測帶來一定干擾的問題,可以通過在網(wǎng)絡(luò)中集成注意力機制進行解決。同時,在復(fù)雜場景中,小目標(biāo)由于分辨率低、圖像模糊、可視化信息少,大部分會淹沒在噪聲和背景雜波中,并且大部分小目標(biāo)普遍存在聚集和互相遮擋問題。經(jīng)過多次降采樣和池化操作,相當(dāng)多的特征信息將會丟失,給檢測帶來一定的困難。因此,在深度學(xué)習(xí)中,合理采用注意力機制可以幫助網(wǎng)絡(luò)模型快速學(xué)習(xí)全局圖像的特征信息,更關(guān)注目標(biāo)區(qū)域的細(xì)節(jié),抑制無用信息。例如,Wang 等人(2017)提出疊加多個注意力模塊的殘余注意力網(wǎng)絡(luò),通過捕獲不同類型的混合注意力得到更豐富的特征信息,在ImageNet 取得了更高效的分類性能。Sharm 等人(2015)設(shè)計出一種軟注意力機制的視頻動作識別模型。注意力機制可以幫助網(wǎng)絡(luò)在學(xué)習(xí)圖像特征時,忽略困擾信息,更合理地使用資源,關(guān)注重要的特征信息區(qū)域,得到更高的小目標(biāo)檢測精度。但在深度學(xué)習(xí)任務(wù)中,往往會對注意力模塊進行多次調(diào)用,這樣會對網(wǎng)絡(luò)模型帶來一定的負(fù)擔(dān)。因此,可以繼續(xù)研究如何保證獲取精準(zhǔn)注意力信息的同時,降低注意力模塊的調(diào)用次數(shù)和參數(shù)量,在不增加網(wǎng)絡(luò)計算資源代價的前提下,挖掘特征圖的關(guān)鍵信息,有效提高小目標(biāo)的檢測性能。

        4)基于錨框機制。錨框機制在目標(biāo)檢測算法中扮演著越來越重要的角色。錨框最早是用于Faster R-CNN 算法中解決滑動窗口存在效率低的問題,但錨框機制的設(shè)計并沒有與小目標(biāo)取得較好的匹配。由于一般基于錨框機制的方法都會預(yù)先設(shè)定一組先驗錨框,而先驗錨框?qū)τ诓煌笮〕叨饶繕?biāo)的適應(yīng)度不強,尤其對小尺度目標(biāo)的敏感度不夠,導(dǎo)致模型對大目標(biāo)和小目標(biāo)的檢測不平衡。此外,使用錨框會引入大量的參數(shù)量和計算量。同時,小目標(biāo)在數(shù)據(jù)圖像中覆蓋的面積都較小。在預(yù)測過程中,預(yù)測邊框?qū)π∧繕?biāo)的定位誤差遠(yuǎn)大于大、中目標(biāo)。在模型訓(xùn)練時,小目標(biāo)匹配的錨框數(shù)量較少,也給檢測帶來了一定的困難。并且,基于錨框機制的目標(biāo)檢測算法對于異常目標(biāo)物體的檢測精度差。因此,在單階段目標(biāo)檢測算法中,YOLOv5 和YOLOx 分別采用了自適應(yīng)的錨框機制與無錨策略。無錨的檢測算法去除了預(yù)設(shè)錨框的過程,直接預(yù)測目標(biāo)的邊界框,在模型訓(xùn)練過程中,減少了冗余計算,也避免了樣本失衡的問題。但基于無錨的算法也不適用于所有的目標(biāo)檢測算法,Yu 和Tao(2019)則提出了一種基于錨框的級聯(lián)框架,將錨框機制與圖像金字塔融合起來,采用合適尺度的錨框來處理小目標(biāo),減輕了基于錨框機制網(wǎng)絡(luò)的復(fù)雜度,也改善了小目標(biāo)的檢測效果。因此,如何設(shè)計合理的錨框機制方法來提高檢測小目標(biāo)的性能將持續(xù)成為研究熱點。

        5)上下文語義信息。由于小目標(biāo)的尺度小,在數(shù)據(jù)圖像中的覆蓋面積較小,因此在網(wǎng)絡(luò)訓(xùn)練過程中不易提取到有利的語義特征信息。而在目標(biāo)檢測算法模型中,輸入的數(shù)據(jù)圖像需要經(jīng)過不斷的下采樣、池化等操作來提取目標(biāo)的特征,在向下傳遞和不斷下采樣過程中可能會導(dǎo)致小目標(biāo)特征信息的丟失。針對此問題,充分利用目標(biāo)上下文特征信息可以幫助其完成準(zhǔn)確的定位與識別。雖然上下文信息在眾多目標(biāo)檢測網(wǎng)絡(luò)中都得到了充分利用,但無效的上下文語義信息不僅無法優(yōu)化網(wǎng)絡(luò)模型,還可能破壞目標(biāo)區(qū)域原始的特征。Zeng 等人(2016)提出的GBDNet(gated bi-directional CNN)算法可以通過長短期記憶網(wǎng)絡(luò)(long short-term memory,LSTM)來控制不同區(qū)域的信息傳輸,從而避免引入無用的背景噪聲。因此,從數(shù)據(jù)圖像中獲取到更有利于小目標(biāo)檢測的上下文語義信息也是一個值得研究的方向。

        6)提高小目標(biāo)檢測技術(shù)的可遷移性。目前大多數(shù)的小目標(biāo)檢測方法都是針對特定場景設(shè)計的,例如遠(yuǎn)程目標(biāo)檢測監(jiān)控、交通標(biāo)志檢測、無人機系統(tǒng)以及人臉檢測等。由于實際應(yīng)用場景變換復(fù)雜,以上檢測算法無法進行較好的遷移。因此,為了更有效地提高小目標(biāo)檢測的性能,應(yīng)進一步研究各檢測模型的普遍遷移性。

        猜你喜歡
        尺度特征圖像
        改進的LapSRN遙感圖像超分辨重建
        財產(chǎn)的五大尺度和五重應(yīng)對
        有趣的圖像詩
        如何表達(dá)“特征”
        不忠誠的四個特征
        抓住特征巧觀察
        宇宙的尺度
        太空探索(2016年5期)2016-07-12 15:17:55
        9
        線性代數(shù)的應(yīng)用特征
        河南科技(2014年23期)2014-02-27 14:19:15
        遙感圖像幾何糾正中GCP選取
        国产区一区二区三区性色| 美女内射毛片在线看免费人动物| 国产av无码专区亚洲av毛网站| 内射后入在线观看一区| 欧美激情精品久久999| 开心五月激情五月天天五月五月天 | 亚洲av福利院在线观看| 台湾无码av一区二区三区| 亚洲AV一二三四区四色婷婷| 国产成人一区二区三区视频免费蜜| 五月激情在线观看视频| 久久综合伊人77777麻豆| 久久不见久久见免费影院www| 色丁香在线观看| 在线看片免费人成视久网不卡| 手机免费在线观看av网址| 99久久精品免费看国产| 97夜夜澡人人双人人人喊| 无码人妻少妇色欲av一区二区| 国产综合第一夜| 男子把美女裙子脱了摸她内裤| 国产精品自拍视频免费观看| 亚洲毛片在线免费视频| 国产高跟黑色丝袜在线| 日本一区二区精品88| 一区二区三区国产美女在线播放| 日本不卡不二三区在线看| 一区二区三区国产免费视频| 99精品国产一区二区| 国产一区二区三区啪| 日本特殊按摩在线观看| 国产成人亚洲精品无码青| 超碰97人人做人人爱少妇| 在线观看av片永久免费| 日韩精品视频高清在线| 免费a级作爱片免费观看美国| 亚洲AV无码精品呻吟| 人妻丰满少妇一二三区| 视频在线观看国产自拍| 老妇女性较大毛片| 无码Av在线一区二区三区|