趙景波,杜保帥
(青島理工大學(xué),山東 青島 266000)
當(dāng)下目標(biāo)檢測(cè)任務(wù)中,小目標(biāo)檢測(cè)由于尺寸小、可提取的特征信息少等問(wèn)題導(dǎo)致檢測(cè)性能一直落后于大、中等目標(biāo),為了緩解此問(wèn)題,國(guó)內(nèi)外眾多研究人員著重研究提高小目標(biāo)檢測(cè)性能的方法,許多基于深度學(xué)習(xí)的優(yōu)化改進(jìn)算法逐漸被提出,從一定程度上提高了小目標(biāo)的檢測(cè)性能,小目標(biāo)檢測(cè)技術(shù)已經(jīng)廣泛應(yīng)用于交通標(biāo)志、行人檢測(cè)、航空、艦船、農(nóng)業(yè)檢測(cè)等眾多領(lǐng)域,但相比于大、中等目標(biāo)還有一定的差距。
基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法作為該領(lǐng)域的研究熱點(diǎn),許多改進(jìn)策略逐漸被提出,產(chǎn)生了大量基于深度學(xué)習(xí)的小目標(biāo)檢測(cè)算法,并在各領(lǐng)域的數(shù)據(jù)集上取得了顯著的成果,但仍有很多問(wèn)題沒(méi)有得到很好的解決,例如,對(duì)于大目標(biāo)和小目標(biāo)物體聚集在一起的區(qū)域檢測(cè)效果較差;在復(fù)雜背景下的小目標(biāo)物體檢測(cè)精度不理想等。目前已有較多的關(guān)于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法綜述,但針對(duì)小目標(biāo)物體檢測(cè)的綜述不多。因此,本文總結(jié)了基于深度學(xué)習(xí)較為主流的目標(biāo)檢測(cè)算法,通過(guò)對(duì)小目標(biāo)檢測(cè)在實(shí)際檢測(cè)領(lǐng)域中所遇到的問(wèn)題進(jìn)行分析,重點(diǎn)歸納總結(jié)了可以有效提升小目標(biāo)檢測(cè)和定位精度的基于深度學(xué)習(xí)的已有算法和改進(jìn)策略,對(duì)前人的工作進(jìn)行了梳理總結(jié),并對(duì)未來(lái)的研究重點(diǎn)進(jìn)行了展望。
目標(biāo)檢測(cè)算法主要由傳統(tǒng)的人工特征檢測(cè)算法和基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法兩大類組成,基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法又分為兩階段(Two-stage)和一階段(One-stage)檢測(cè)算法,圖1為常見(jiàn)目標(biāo)檢測(cè)算法的發(fā)展進(jìn)程。
圖1 目標(biāo)檢測(cè)算法時(shí)間軸Fig.1 Timeline of target detection algorithms
傳統(tǒng)的目標(biāo)檢測(cè)算法流程:使用大小不同的滑動(dòng)窗口對(duì)輸入圖像進(jìn)行遍歷,選擇出有可能存在目標(biāo)的候選區(qū)域,然后使用手工設(shè)計(jì)的特征對(duì)選擇的候選區(qū)域進(jìn)行特征提取,如HOG,DPM和SIFT等,最后將特征輸入到SVM或迭代算法等分類器中,對(duì)目標(biāo)進(jìn)行分類。文獻(xiàn)[1]提出了一種基于多特征提取和多核學(xué)習(xí)SVM的SAR圖像艦船目標(biāo)識(shí)別方法,從特征提取和分類器訓(xùn)練兩個(gè)方面提升目標(biāo)識(shí)別的準(zhǔn)確度,準(zhǔn)確率由傳統(tǒng)SVM的87.18%提高至92.31%。
2012年,KRIZHEVSKY等提出的AlexNet以巨大的優(yōu)勢(shì)取得冠軍以后,基于深度學(xué)習(xí)的目標(biāo)檢測(cè)方法迅速發(fā)展起來(lái),VGGNet,GoogLeNet和DenseNet等卷積神經(jīng)網(wǎng)絡(luò)模型被提出,并成為目標(biāo)檢測(cè)領(lǐng)域應(yīng)用的主要對(duì)象。2014年,文獻(xiàn)[2]首次將候選區(qū)域與卷積神經(jīng)網(wǎng)絡(luò)結(jié)合,提出了R-CNN算法。通過(guò)選擇性搜索算法生成2000個(gè)候選區(qū)域送入卷積神經(jīng)網(wǎng)絡(luò)分別進(jìn)行特征提取,使用SVM進(jìn)行分類及回歸,如圖2所示。R-CNN算法在PASCAL VOC數(shù)據(jù)集上獲得了極好的檢測(cè)性能,但選取的多個(gè)候選區(qū)域之間有重疊現(xiàn)象,對(duì)重疊區(qū)域進(jìn)行特征提取導(dǎo)致浪費(fèi)過(guò)多時(shí)間且占據(jù)空間。
為優(yōu)化R-CNN目標(biāo)檢測(cè)算法,文獻(xiàn)[3]通過(guò)在全連接層前增加SPP池化層,使任意輸入轉(zhuǎn)化為固定的輸出,避免了重復(fù)運(yùn)算并加快了訓(xùn)練過(guò)程,但每個(gè)階段仍需單獨(dú)訓(xùn)練。GIRSHICK基于SPP Net提出了Fast R-CNN,特征提取網(wǎng)絡(luò)對(duì)待檢測(cè)圖像使用一次特征計(jì)算,對(duì)目標(biāo)的分類不再通過(guò)支持向量機(jī),而是使用多任務(wù)損失函數(shù)對(duì)目標(biāo)直接進(jìn)行分類與回歸,大大節(jié)省了時(shí)間,缺點(diǎn)在于無(wú)法進(jìn)行端到端的訓(xùn)練。所以,REN等[4]再次對(duì)Fast R-CNN進(jìn)行改進(jìn),設(shè)計(jì)了RPN區(qū)域推薦網(wǎng)絡(luò),將卷積神經(jīng)網(wǎng)絡(luò)提取到的整張?zhí)卣鲌D送入?yún)^(qū)域推薦網(wǎng)絡(luò)進(jìn)行候選框的選取,實(shí)現(xiàn)了特征的共享并省去了大量的運(yùn)算。由于使用了區(qū)域推薦網(wǎng)絡(luò),F(xiàn)aster R-CNN 算法不再需要分階段進(jìn)行訓(xùn)練,這標(biāo)志著兩階段算法達(dá)到了較為成熟的水平。
圖2 R-CNN架構(gòu)圖Fig.2 Diagram of R-CNN architecture
雖然Faster R-CNN實(shí)現(xiàn)了端到端的訓(xùn)練,但兩階段算法的實(shí)時(shí)性較差。2013年,YANN等提出了著名的OverFeat,通過(guò)利用卷積神經(jīng)網(wǎng)絡(luò)的特征共享,將對(duì)象分類和對(duì)象位置集成到一個(gè)網(wǎng)絡(luò)架構(gòu)中,把分類過(guò)程中提取到的特征再次應(yīng)用于檢測(cè)等各種任務(wù)中,節(jié)省了大量的時(shí)間。2015 年,REDMON等[5]提出了YOLO算法。把輸入圖像平均分割成S×S個(gè)網(wǎng)格,如果檢測(cè)目標(biāo)的中心點(diǎn)落入了某個(gè)網(wǎng)格內(nèi),那么就由該網(wǎng)格負(fù)責(zé)檢測(cè)并把中心點(diǎn)相對(duì)于該網(wǎng)格的坐標(biāo)點(diǎn)、待檢測(cè)對(duì)象的長(zhǎng)寬和類別信息進(jìn)行回歸。YOLO與Faster R-CNN都是采用端到端的檢測(cè)算法,但YOLO沒(méi)有候選框,因此YOLO的檢測(cè)速度達(dá)到了45 幀/s,檢測(cè)速度比兩階段檢測(cè)算法顯著提高。
LIU 等[6]在YOLO算法的基礎(chǔ)上提出了SSD算法,該算法主張使用全卷積網(wǎng)絡(luò)并引入了錨點(diǎn),在不同尺度的特征層上進(jìn)行預(yù)測(cè),最后進(jìn)行整合。文獻(xiàn)[7]對(duì)SSD算法進(jìn)行改進(jìn),由特征金字塔網(wǎng)絡(luò)替代傳統(tǒng)CNN網(wǎng)絡(luò)并進(jìn)行一系列優(yōu)化,在COCO2017數(shù)據(jù)集上AP/APs檢測(cè)準(zhǔn)確率達(dá)到48.3%/27.8%。SSD之后,REDMON等[8]提出了YOLOv2,該算法使用DarkNet-19作為主干網(wǎng)絡(luò),去除全連接層并對(duì)每個(gè)卷積層進(jìn)行批量標(biāo)準(zhǔn)化,通過(guò)增加passthrough層使不同深度的特征層進(jìn)行拼接融合。YOLOv2算法提出之后,REDMON等在其基礎(chǔ)上進(jìn)行了改進(jìn),提出了YOLOv3算法。文獻(xiàn)[9]采用融合ResNet的DarkNet53作為網(wǎng)絡(luò)的主干網(wǎng)絡(luò),殘差塊的使用大大減少了有效信息的損失并緩解了深層網(wǎng)絡(luò)在訓(xùn)練時(shí)發(fā)生的梯度消失的問(wèn)題。YOLOv3算法采用特征融合實(shí)現(xiàn)了兩階段算法與一階段算法優(yōu)點(diǎn)的集成,速度與精度均達(dá)到了良好的檢測(cè)效果。
對(duì)目標(biāo)尺寸評(píng)價(jià)指標(biāo)中,小目標(biāo)物體的定義在目標(biāo)檢測(cè)領(lǐng)域一直沒(méi)有準(zhǔn)確的界限。目前主流的定義方式是從絕對(duì)尺度和相對(duì)尺度兩方面來(lái)界定。從絕對(duì)尺度來(lái)說(shuō),文獻(xiàn)[10]中指出檢測(cè)目標(biāo)的像素點(diǎn)小于32×32時(shí),該目標(biāo)即為小目標(biāo)物體;從相對(duì)尺度來(lái)說(shuō),當(dāng)檢測(cè)目標(biāo)在原圖像中所占比例達(dá)到1%時(shí)即為小目標(biāo)物體。
第1章中陳述了目標(biāo)檢測(cè)領(lǐng)域中常用的目標(biāo)檢測(cè)算法,但無(wú)論從兩階段算法還是一階段算法來(lái)說(shuō),小目標(biāo)的檢測(cè)一直阻礙著目標(biāo)檢測(cè)領(lǐng)域的進(jìn)一步發(fā)展,本文將對(duì)造成小目標(biāo)檢測(cè)性能差的原因進(jìn)行分析與總結(jié)。
1) 目標(biāo)尺寸過(guò)小、可提取特征因素少。由于目標(biāo)尺寸過(guò)小或在整張圖像中占比過(guò)少,小尺度目標(biāo)相對(duì)于大、中尺度目標(biāo)存在分辨率低的問(wèn)題,在經(jīng)過(guò)池化后小目標(biāo)的信息進(jìn)一步損失,因此在深層次的網(wǎng)絡(luò)中小目標(biāo)可提取的特征變得很少。在一些實(shí)際檢測(cè)對(duì)象中,如遙感圖像、密集鳥(niǎo)群、車牌等,準(zhǔn)確快速檢測(cè)出目標(biāo)對(duì)象有極大的難度。
2) 檢測(cè)環(huán)境復(fù)雜,易造成干擾。常用的小目標(biāo)應(yīng)用檢測(cè)環(huán)境較為復(fù)雜,如航空?qǐng)D像、水下目標(biāo)等領(lǐng)域。在復(fù)雜的檢測(cè)環(huán)境下,小目標(biāo)的特征信息會(huì)被外部環(huán)境所影響,并且有的待檢測(cè)小目標(biāo)圖像由于尺寸過(guò)小、特征不明顯等特點(diǎn)與復(fù)雜環(huán)境融為一體,很難被檢測(cè)出來(lái)。
3) 數(shù)據(jù)集過(guò)少,訓(xùn)練效果差。在當(dāng)前的目標(biāo)檢測(cè)領(lǐng)域中,大部分?jǐn)?shù)據(jù)集針對(duì)大目標(biāo)和中等目標(biāo)檢測(cè),現(xiàn)有的小目標(biāo)數(shù)據(jù)集普遍適用于某一個(gè)領(lǐng)域,例如行人、人臉、遙感數(shù)據(jù)集等,這些數(shù)據(jù)集不具備通用性,網(wǎng)絡(luò)的訓(xùn)練效果并不好。目前發(fā)布的數(shù)據(jù)集中,MS COCO數(shù)據(jù)集包含較多的小目標(biāo)圖像,占總數(shù)的31.62%,但由于其中的圖像包含的實(shí)例較多,小目標(biāo)分布得十分不均勻,導(dǎo)致訓(xùn)練出的檢測(cè)效果也較差。
4) 小目標(biāo)自身易聚集問(wèn)題。在一張待檢測(cè)圖像中,中、大目標(biāo)出現(xiàn)的次數(shù)較少而小目標(biāo)聚集現(xiàn)象較為頻繁。當(dāng)此種現(xiàn)象發(fā)生時(shí),輸入圖像經(jīng)過(guò)卷積神經(jīng)網(wǎng)絡(luò)的多次降采樣后會(huì)在深層次的特征圖中顯示為一個(gè)點(diǎn),導(dǎo)致無(wú)法對(duì)其進(jìn)行檢測(cè)。
隨著深度學(xué)習(xí)的快速發(fā)展,目標(biāo)檢測(cè)領(lǐng)域的學(xué)者們開(kāi)始著重研究使用深度學(xué)習(xí)來(lái)提升小目標(biāo)檢測(cè)的性能。本文主要從以下6個(gè)方面進(jìn)行分析歸納。
小樣本檢測(cè)困難的因素之一是數(shù)據(jù)集中的樣本數(shù)量匱乏,通過(guò)使用數(shù)據(jù)增強(qiáng)的方法可以使數(shù)據(jù)集的樣本變得豐富,進(jìn)而減輕因數(shù)據(jù)匱乏而造成小目標(biāo)檢測(cè)效果差的問(wèn)題。文獻(xiàn)[11]提出一種小樣本紅外飛機(jī)目標(biāo)數(shù)據(jù)增強(qiáng)方法,實(shí)驗(yàn)證明了所提方法的有效性與先進(jìn)性。
隨著目標(biāo)檢測(cè)技術(shù)的不斷發(fā)展,針對(duì)數(shù)據(jù)集增強(qiáng)的方法層出不窮。文獻(xiàn)[12]中Mixup使用線性插值的方法將不同類之間的圖像混合產(chǎn)生新的樣本來(lái)達(dá)到增大樣本集的目的;文獻(xiàn)[13]中Random erase在輸入圖像中隨機(jī)選擇一個(gè)矩形區(qū)域并把該區(qū)域內(nèi)的像素值更改為隨機(jī)值進(jìn)行數(shù)據(jù)增強(qiáng);文獻(xiàn)[14]中Gridmask通過(guò)生成與輸入圖像分辨率相同的Mask,與原圖像相乘得到一個(gè)新的圖像。數(shù)據(jù)增強(qiáng)策略促進(jìn)了小尺度目標(biāo)在數(shù)據(jù)集中的豐富性,進(jìn)而提高了檢測(cè)精度等。
為解決數(shù)據(jù)集含有小物體的圖片少以及圖片中小物體出現(xiàn)得少等問(wèn)題,文獻(xiàn)[15]提出了復(fù)制增強(qiáng)的方法,通過(guò)調(diào)整訓(xùn)練集中小目標(biāo)圖像的數(shù)量,使其達(dá)到訓(xùn)練時(shí)所需要的樣本數(shù)量。并在將小目標(biāo)粘貼到其他位置之前,將小目標(biāo)在±20%范圍內(nèi)進(jìn)行縮放,在±15°范圍內(nèi)進(jìn)行旋轉(zhuǎn)增強(qiáng),增強(qiáng)過(guò)程只適用于沒(méi)有被其他目標(biāo)遮擋住的小目標(biāo),并確保粘貼后不會(huì)覆蓋其他目標(biāo),在MS COCO數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),相比于Mask R-CNN,對(duì)小目標(biāo)的檢測(cè)精度提高了7.1%。
Mosaic策略將4張待檢測(cè)圖像縮放后隨機(jī)拼接并調(diào)整成與原始圖像尺寸相同時(shí)再進(jìn)行訓(xùn)練。訓(xùn)練、縮放和拼接后的圖像改善了數(shù)據(jù)集中樣本分布不均衡現(xiàn)象,使檢測(cè)目標(biāo)的背景更加豐富,解決了小目標(biāo)分布不均勻的問(wèn)題。文獻(xiàn)[16]提出了Stitcher策略,使用4張具有相同尺寸的圖像隨機(jī)進(jìn)行拼接,將大尺寸和中等尺寸目標(biāo)縮放為中等尺寸和小尺寸,通過(guò)使用4種語(yǔ)義信息不同的圖像進(jìn)行拼接,增加了小目標(biāo)的數(shù)量,使其分布更加均衡,圖3為Mosaic與Stitcher方法對(duì)比效果。
文獻(xiàn)[17]使用Stitcher數(shù)據(jù)增強(qiáng)方法解決小目標(biāo)樣本分布不均勻的問(wèn)題后,通過(guò)優(yōu)化主干網(wǎng)絡(luò),小目標(biāo)檢測(cè)精度提升了7.2%。
卷積神經(jīng)網(wǎng)絡(luò)淺層目標(biāo)因感受野小、分辨率高、位置信息豐富等特點(diǎn)適用于小目標(biāo)檢測(cè),而深層目標(biāo)因感受野大、分辨率低、語(yǔ)義豐富等特點(diǎn)適用于檢測(cè)中等及大目標(biāo)。因此,國(guó)內(nèi)外的學(xué)者開(kāi)始嘗試使淺層的特征與深層的特征相結(jié)合,在利用淺層特征細(xì)節(jié)信息豐富的同時(shí)結(jié)合了深層特征語(yǔ)義信息豐富的特點(diǎn),進(jìn)而提高小目標(biāo)檢測(cè)的精度。
2016年,文獻(xiàn)[18]提出了Inside-Outside算法,如圖4所示。Inside-Net將第3~5個(gè)卷積層提取的淺層特征圖進(jìn)行拼接固定到特定長(zhǎng)度。將第5個(gè)卷積層輸出的特征輸入到兩個(gè)IRNN進(jìn)行上下文信息的提取,并經(jīng)過(guò)感興趣池化固定到特定長(zhǎng)度,與前面獲得的多尺度特征經(jīng)過(guò)正則化后聚集在一起,經(jīng)過(guò)1×1卷積降維后進(jìn)行分類與回歸,實(shí)驗(yàn)證明該算法超過(guò)了Faster R-CNN等大多數(shù)網(wǎng)絡(luò)算法。
圖4 Inside-Outside算法結(jié)構(gòu)Fig.4 Structure of Inside-Outside algorithm
2016年,KONG等[19]提出了HyperNet模型,該算法提取了多個(gè)不同尺度網(wǎng)絡(luò)層的特征圖,以中間層作為基準(zhǔn),前一層的特征圖使用最大池化的方式達(dá)到相應(yīng)尺寸,后一層的特征圖使用反卷積的方式放大到相應(yīng)尺寸。多尺度的特征圖連接后使用局部響應(yīng)歸一化(LRN)方法進(jìn)行歸一化,將其壓縮到一個(gè)稱為超特征的空間,該空間結(jié)合了各個(gè)特征層的信息,將信息經(jīng)過(guò)感興趣池化后生成區(qū)域建議框進(jìn)行目標(biāo)檢測(cè),實(shí)驗(yàn)證明小目標(biāo)的檢測(cè)性能比Faster R-CNN更加精確,mAP提高了3.1%。
在第1章提到的一階段檢測(cè)算法中,YOLO系列的算法自YOLOv2起均在頸部網(wǎng)絡(luò)中使用到了多尺度融合的理念。YOLOv3中頸部結(jié)構(gòu)使用了特征金字塔網(wǎng)絡(luò)(FPN)[20],由一個(gè)自底向上的路徑和一個(gè)自頂向下的路徑構(gòu)成,兩條路徑橫向連接將尺寸不同的特征圖拼接進(jìn)行多尺度的預(yù)測(cè),與FPN不同的是YOLOv3特征圖之間的連接是通道融合。文獻(xiàn)[21]將YOLOv3模型中降采樣后的特征圖與第2及第3個(gè)殘差塊的輸出進(jìn)行疊加,以此增強(qiáng)淺層特征信息,改進(jìn)之后的網(wǎng)絡(luò)模型有效提高了小目標(biāo)的檢測(cè)準(zhǔn)確率。
2019年,文獻(xiàn)[22]針對(duì)檢測(cè)網(wǎng)絡(luò)在訓(xùn)練過(guò)程中存在的檢測(cè)框采樣、特征圖、目標(biāo)函數(shù)不平衡問(wèn)題進(jìn)行了探究,提出了Libra R-CNN算法。該算法就特征圖層次的問(wèn)題提出了平衡特征金字塔,利用同樣深度整合的均衡語(yǔ)義特征來(lái)強(qiáng)化多層次特征,如圖5所示,主要由調(diào)整規(guī)模、整合、細(xì)化和強(qiáng)化4個(gè)步驟組成。首先將C2~C5特征圖的大小調(diào)整為同C4大小的尺寸,整合后得到均衡的語(yǔ)義特征,采用高斯非局部注意的方法進(jìn)行特征的強(qiáng)化,然后進(jìn)行多尺度預(yù)測(cè),在MS COCO數(shù)據(jù)集上,小目標(biāo)的檢測(cè)率達(dá)到25.3%。
圖5 平衡特征金字塔Fig.5 Balanced feature pyramid
2020年,文獻(xiàn)[23]在頸部網(wǎng)絡(luò)中使用了PAN[24]結(jié)構(gòu),PAN的優(yōu)勢(shì)在于,在FPN層的后面又增加一個(gè)自底向上的特征金字塔。FPN的結(jié)構(gòu)自上而下地傳遞豐富的語(yǔ)義信息,特征金字塔自下而上地傳遞豐富的定位信息,兩種信息相互結(jié)合,使小目標(biāo)的檢測(cè)精度達(dá)到26.7%。文獻(xiàn)[25]在YOLOv4-tiny的基礎(chǔ)上擴(kuò)大檢測(cè)尺度范圍,并利用深層語(yǔ)義信息自下而上地與淺層語(yǔ)義信息進(jìn)行融合以豐富小目標(biāo)的特征信息,平均精確率比原網(wǎng)絡(luò)提高了5.09%,具有較好的綜合性能。
小目標(biāo)在圖像中所占像素少、分辨率低,為了從根本上解決這個(gè)問(wèn)題,使小目標(biāo)圖像生成高分辨率圖像作為檢測(cè)模型的輸入,GOODFELLOW等[26]提出的生成式對(duì)抗網(wǎng)絡(luò)(GAN)成為了提升小目標(biāo)分辨率的研究熱點(diǎn),GAN主要由生成器和鑒別器組成,兩者之間相互博弈共同發(fā)揮作用。文獻(xiàn)[27]利用生成對(duì)抗網(wǎng)絡(luò)進(jìn)行特征變換,獲取多尺度與旋轉(zhuǎn)角的檢測(cè)圖擴(kuò)充樣本,提升檢測(cè)精度。
LI等[28]在GAN的基礎(chǔ)上提出了Perceptual GAN(結(jié)構(gòu)見(jiàn)圖6),利用不斷更新的生成器網(wǎng)絡(luò)和鑒別器網(wǎng)絡(luò)生成小目標(biāo)的超分辨率圖像以提高檢測(cè)性能。生成器網(wǎng)絡(luò)將第一個(gè)卷積層的輸出作為輸入,經(jīng)過(guò)殘差網(wǎng)絡(luò)的學(xué)習(xí)與第5個(gè)卷積層的特征元素進(jìn)行加操作,目的是生成小目標(biāo)的超分辨表示。鑒別器網(wǎng)絡(luò)將生成的超分辨率表示作為輸入,將其分為兩個(gè)分支:對(duì)抗分支和感知分支。生成器從較低層次的細(xì)粒度細(xì)節(jié)中學(xué)習(xí)殘差表示,并通過(guò)試圖欺騙受過(guò)良好訓(xùn)練的鑒別器來(lái)區(qū)分這兩種表示,增強(qiáng)小對(duì)象的表示以接近大對(duì)象的表示。兩種網(wǎng)絡(luò)的替代優(yōu)化競(jìng)爭(zhēng)使Perceptual GAN生成小目標(biāo)的超分辨大目標(biāo)表示,從而提高小目標(biāo)檢測(cè)性能。通過(guò)實(shí)驗(yàn)證明了Perceptual GAN在檢測(cè)小物體方面的優(yōu)勢(shì)超過(guò)了多數(shù)算法。
圖6 基于感知GAN的目標(biāo)檢測(cè)網(wǎng)絡(luò)Fig.6 Object detection network based on the Perceptual GAN
文獻(xiàn)[29]基于GAN 提出了一種多任務(wù)結(jié)合的小目標(biāo)檢測(cè)算法MTGAN,生成器網(wǎng)絡(luò)將輸入的低分辨率圖像向上采樣到細(xì)尺度圖像,同時(shí)引入了多任務(wù)的判別器網(wǎng)絡(luò)用來(lái)對(duì)生成器網(wǎng)絡(luò)輸出的超分辨率圖像與真實(shí)圖像進(jìn)行區(qū)分,并預(yù)測(cè)目標(biāo)的類別分?jǐn)?shù)與邊界框的偏移量。為了使分類和定位更加準(zhǔn)確,對(duì)分類和回歸損失反向傳播到生成器中進(jìn)一步促進(jìn)生成器網(wǎng)絡(luò)產(chǎn)生超分辨率圖像。由于MTGAN可以使小目標(biāo)的分辨率大大提高,因此小目標(biāo)的檢測(cè)精度在MS COCO數(shù)據(jù)集上達(dá)到25.1%。
小目標(biāo)的尺寸過(guò)小導(dǎo)致其可提取的特征信息匱乏,并且極易與圖像的背景融為一體,在深度學(xué)習(xí)提出之前,已有研究證明對(duì)上下文建??梢愿纳颇繕?biāo)的檢測(cè)性能。隨著深度學(xué)習(xí)的應(yīng)用,一些研究者將目標(biāo)周圍的上下文信息添加到卷積神經(jīng)網(wǎng)絡(luò),取得了較好的成效,因此基于深度學(xué)習(xí)上下文信息的小目標(biāo)檢測(cè)算法被提出。上下文信息是指將目標(biāo)的特征信息與給定場(chǎng)景下對(duì)這些目標(biāo)施加的上下文約束相結(jié)合,進(jìn)而改善小目標(biāo)尺寸過(guò)小的問(wèn)題。
局部上下文是指被檢測(cè)對(duì)象周圍區(qū)域的視覺(jué)上下文信息。2017年,文獻(xiàn)[30]提出的CoupleNet全卷積網(wǎng)絡(luò)把RPN區(qū)域推薦網(wǎng)絡(luò)獲得的推薦區(qū)域送入兩個(gè)分支,經(jīng)過(guò)位置敏感ROI池化的特征送入局部全卷積網(wǎng)絡(luò)進(jìn)行局部信息的提取,經(jīng)過(guò)ROI池化的特征送入全局卷積神經(jīng)網(wǎng)絡(luò),最后將兩個(gè)分支提取到的信息進(jìn)行融合對(duì)目標(biāo)進(jìn)行檢測(cè),結(jié)構(gòu)見(jiàn)圖7。2018年,GUAN等提出了語(yǔ)義上下文感知網(wǎng)絡(luò)SCAN,使用金字塔池化的方式將多個(gè)不同尺度的全局上下文信息進(jìn)行融合,并使用了最大池化和平均池化交替使用的策略平衡了檢測(cè)的準(zhǔn)確率和漏檢率,增強(qiáng)了小目標(biāo)的檢測(cè)性能。
圖7 CoupleNet網(wǎng)絡(luò)架構(gòu)Fig.7 Architecture of CoupleNet network
全局上下文是指從整個(gè)圖像或場(chǎng)景級(jí)上下文中學(xué)習(xí),文獻(xiàn)[31]在R-FCN++網(wǎng)絡(luò)模型中引入了全局上下文模塊,使用大且可分離的卷積核提升了分類評(píng)分圖,小目標(biāo)檢測(cè)精度達(dá)到25.2%。上下文交互指的是通過(guò)視覺(jué)元素傳遞情境信息。LIU等提出了結(jié)構(gòu)推理網(wǎng)絡(luò)(SIN),SIN將目標(biāo)檢測(cè)描述為一個(gè)圖結(jié)構(gòu)推理問(wèn)題,通過(guò)研究單個(gè)圖像中的場(chǎng)景上下文信息和對(duì)象關(guān)系,并利用SIN中的上下文信息提高了小目標(biāo)的檢測(cè)性能。文獻(xiàn)[32]提出一種輕量物體關(guān)系網(wǎng)絡(luò)(light-weight object relation network),描述了不同物體的外觀特征與幾何形狀之間的相互作用。此外,輕量物體關(guān)系網(wǎng)絡(luò)不需要額外的監(jiān)督,在小目標(biāo)檢測(cè)方面表現(xiàn)出了很大的優(yōu)勢(shì)。值得注意的是,以上3種基于上下文的方法都有利于小目標(biāo)的檢測(cè)精度。
IOU的定義為待檢測(cè)目標(biāo)預(yù)測(cè)邊界框和真實(shí)邊界框的交并集的比值,作用是衡量物體定位的準(zhǔn)確率,大小是可以人為設(shè)定的,最常用的數(shù)值是0.5。通過(guò)提高IOU 的數(shù)值來(lái)獲得更高質(zhì)量的樣本,但有時(shí)也會(huì)帶來(lái)一些負(fù)面影響,如正負(fù)樣本比例不均衡、小目標(biāo)被舍棄等問(wèn)題。IOU閾值選擇得太小會(huì)使樣本的質(zhì)量較差,因此,選擇合適的IOU閾值可以有效提高小目標(biāo)檢測(cè)效果。
實(shí)驗(yàn)證明,當(dāng)設(shè)置的IOU閾值變大時(shí),目標(biāo)檢測(cè)的網(wǎng)絡(luò)性能會(huì)逐漸變差。當(dāng)設(shè)定為0.5或0.6時(shí),檢測(cè)精度變化不明顯或略有提升,設(shè)定為0.7時(shí),網(wǎng)絡(luò)的檢測(cè)精度會(huì)快速降低?;诖朔N考慮,文獻(xiàn)[33]提出了Cascade R-CNN,其由一系列經(jīng)過(guò)增加IOU閾值訓(xùn)練的檢測(cè)器組成,增大每個(gè)檢測(cè)器判斷正負(fù)樣本的IOU閾值,使每一個(gè)檢測(cè)器專注于檢測(cè)IOU在某一范圍內(nèi)的候選框,從而使目標(biāo)定位準(zhǔn)確度越來(lái)越高。Cascade R-CNN如圖8所示。
圖8 Cascade R-CNNFig.8 Cascade R-CNN
圖8中,I為輸入圖像,經(jīng)過(guò)Conv,Pool進(jìn)行區(qū)域特征提取,H1~H3中的IOU閾值分別為0.5,0.6和0.7,最后進(jìn)行目標(biāo)分類(C)與邊界框(B)的提取,在MS COCO數(shù)據(jù)集上進(jìn)行測(cè)試,Cascade R-CNN可以使小目標(biāo)的檢測(cè)精度達(dá)到23.7%。文獻(xiàn)[34]提出的FSCascade是標(biāo)準(zhǔn)Cascade R-CNN的一個(gè)簡(jiǎn)單擴(kuò)展,具有特征共享機(jī)制。該結(jié)構(gòu)的優(yōu)點(diǎn)在于,在低IOU閾值下縮小最后階段和前面所有階段之間的差距,并在所有IOU閾值上提高整體性能,只引入可忽略不計(jì)的額外參數(shù),進(jìn)一步提升了小目標(biāo)檢測(cè)性能,在MS COCO數(shù)據(jù)集上檢測(cè)精度達(dá)到25.1%。
2021年,文獻(xiàn)[35]提出了改進(jìn)的YOLOx算法,該算法融合了數(shù)據(jù)增強(qiáng)、尺度融合等多種策略。YOLOx-DarkNet53的基準(zhǔn)模型采用的是YOLOv3-SPP,輸入端使用Mosaic和Mixup進(jìn)行改進(jìn)增強(qiáng),預(yù)測(cè)端采用Decoupled Head結(jié)構(gòu),首先,經(jīng)過(guò)1×1卷積層將特征通道減少到256,使用兩個(gè)并行分支,每個(gè)分支采用2個(gè)3×3的卷積層,分別用于分類和回歸任務(wù),并在回歸分支的基礎(chǔ)上增加了IOU分支;其次,通過(guò)使用Anchor-free代替原始的anchor機(jī)制,將每個(gè)位置的預(yù)測(cè)從3降為1并直接預(yù)測(cè)網(wǎng)格左上角的兩個(gè)偏移量和預(yù)測(cè)框的高與寬,減少了參數(shù)量并簡(jiǎn)化了訓(xùn)練過(guò)程,在MS COCO數(shù)據(jù)集上,小目標(biāo)檢測(cè)精度達(dá)到27.5%。
除YOLOx-DarkNet53之外,YOLOx系列還有YOLOx-M,YOLOx-L和YOLOx-X等,該系列與YOLOx-DarkNet53采用了同樣的特征提取網(wǎng)絡(luò)和增強(qiáng)方法,不同之處在于使用了縮放規(guī)則,通過(guò)測(cè)試可知,小目標(biāo)檢測(cè)精度都有較大的提升,其中YOLOx-X對(duì)小目標(biāo)檢測(cè)精度達(dá)到了31.2%,平均檢測(cè)精度達(dá)到51.2%,檢測(cè)性能得到很大的提升,并且還較好地保持了一階段檢測(cè)算法的檢測(cè)速度。
目標(biāo)檢測(cè)作為計(jì)算機(jī)視覺(jué)和信號(hào)檢測(cè)領(lǐng)域中一個(gè)重要的研究方向,是目標(biāo)跟蹤、圖像分割等更深層次的視覺(jué)任務(wù)的基礎(chǔ)部分,并在缺陷檢測(cè)、航拍圖像等諸多領(lǐng)域中發(fā)揮著不可或缺的作用。本章主要從6個(gè)方面對(duì)有關(guān)深度學(xué)習(xí)的小目標(biāo)檢測(cè)算法進(jìn)行了歸納總結(jié),其中,數(shù)據(jù)增強(qiáng)的策略是提高檢測(cè)性能的最簡(jiǎn)單有效的算法,通過(guò)增加樣本集的大小增強(qiáng)檢測(cè)模型的穩(wěn)定性和泛化性,除上文所提到的算法外,常使用的還有CutOut和Hide-and-Seek等;基于多尺度融合、上下文信息、分辨率增強(qiáng)的算法,增強(qiáng)了網(wǎng)絡(luò)模型對(duì)檢測(cè)目標(biāo)的特征提取能力,使卷積神經(jīng)網(wǎng)絡(luò)可以提取到小目標(biāo)的更多語(yǔ)義和位置信息,相關(guān)算法還有TridentNet和DCGAN等;基于IOU閾值的改進(jìn)策略主要對(duì)網(wǎng)絡(luò)提取到的候選框進(jìn)行限制,平衡了模型對(duì)小目標(biāo)的漏檢率和誤檢率;隨著各種策略的不斷提出,通過(guò)實(shí)驗(yàn)發(fā)現(xiàn),將各種策略恰當(dāng)?shù)赝瑫r(shí)應(yīng)用于一個(gè)網(wǎng)絡(luò)模型,可以獲得更好的檢測(cè)效果。
基于深度學(xué)習(xí)的小目標(biāo)檢測(cè)算法因檢測(cè)速度快、適用性高等優(yōu)點(diǎn)逐漸取代了傳統(tǒng)的目標(biāo)檢測(cè)算法,經(jīng)過(guò)近幾年人們對(duì)算法的不斷改進(jìn),基于深度學(xué)習(xí)的小目標(biāo)檢測(cè)算法的檢測(cè)性能較以前得到很大改善,成為該領(lǐng)域內(nèi)首選的算法。為更加詳細(xì)地闡述基于深度學(xué)習(xí)的小目標(biāo)檢測(cè)算法,對(duì)上文列舉的小目標(biāo)檢測(cè)算法在MS COCO數(shù)據(jù)集上進(jìn)行了小目標(biāo)檢測(cè)精度(APs)和平均檢測(cè)精度(AP)的對(duì)比分析,如表1所示。由此看出,雖然特征提取主干網(wǎng)絡(luò)以及使用的增強(qiáng)方法各有差異,但小目標(biāo)的檢測(cè)精度都有顯著提升;通過(guò)平均檢測(cè)精度的對(duì)比可以看出,在改進(jìn)小目標(biāo)檢測(cè)精度的同時(shí)也促進(jìn)了網(wǎng)絡(luò)對(duì)各尺寸目標(biāo)檢測(cè)精度的有效改善。
表1 小目標(biāo)檢測(cè)算法分析Table 1 Analysis of small target detection algorithms
續(xù)表
基于深度學(xué)習(xí)的小目標(biāo)檢測(cè)是目標(biāo)檢測(cè)領(lǐng)域的重要分支,如何提高小目標(biāo)檢測(cè)的精度和效率對(duì)其發(fā)展具有重要的意義。對(duì)比以前,現(xiàn)有的小目標(biāo)檢測(cè)技術(shù)已經(jīng)取得了較大的進(jìn)展,但是相較于大、中等目標(biāo)還有一定的差距,仍有許多工作要做,本文認(rèn)為重點(diǎn)應(yīng)在于以下幾個(gè)方面。
1) 數(shù)據(jù)集。針對(duì)小目標(biāo)檢測(cè)的網(wǎng)絡(luò)模型已經(jīng)提出了很多,但由于缺少大規(guī)模的數(shù)據(jù)集,很難去評(píng)價(jià)檢測(cè)算法的性能。雖然現(xiàn)有的COCO數(shù)據(jù)集、VOC數(shù)據(jù)集包含很多類別的檢測(cè)對(duì)象,但小目標(biāo)樣本的占比仍然不能比擬大、中等目標(biāo)。此外,現(xiàn)有的小目標(biāo)檢測(cè)數(shù)據(jù)集包含的目標(biāo)種類過(guò)于單一,并不具有普適性,只適用于某種特定類別的檢測(cè)領(lǐng)域。樣本量的不充足、種類單一、樣本的不平衡等問(wèn)題均制約著小目標(biāo)檢測(cè)的發(fā)展,因此建立更多的大規(guī)模、種類較為齊全的小目標(biāo)數(shù)據(jù)集對(duì)該領(lǐng)域的發(fā)展至關(guān)重要。
2) 特征融合。特征金字塔的提出使小目標(biāo)檢測(cè)上升了一個(gè)層次,眾多研究者對(duì)特征圖的多尺度融合方式進(jìn)行了探究,但不同特征層的語(yǔ)義信息不同,所以存在特征層之間的融合或多或少仍會(huì)失去一些語(yǔ)義信息,以及在特征融合期間引入噪聲干擾的問(wèn)題。如何使各個(gè)特征層之間不同語(yǔ)義信息充分融合以及消除噪聲干擾的問(wèn)題是提高小目標(biāo)檢測(cè)性能的重要研究方向。
3) 多任務(wù)學(xué)習(xí)。多任務(wù)學(xué)習(xí)是一種歸納遷移機(jī)制,可以借助輔助任務(wù)的信息提高主任務(wù)的學(xué)習(xí)性能,包括提高泛化準(zhǔn)確率、學(xué)習(xí)速度和已學(xué)習(xí)模型的可理解性。通過(guò)使用多任務(wù)學(xué)習(xí)機(jī)制,將其他類型的任務(wù)(如實(shí)例分割)和目標(biāo)檢測(cè)聯(lián)合學(xué)習(xí),使用參數(shù)共享,使輔助任務(wù)提取到的特征用到主任務(wù)上,可以大大提升小目標(biāo)檢測(cè)的性能。因此,如何借助多任務(wù)學(xué)習(xí)使輔助任務(wù)更好地幫助主任務(wù)提高檢測(cè)性能也是未來(lái)研究的重點(diǎn)。
4) 引入傳統(tǒng)方法。目前大多數(shù)目標(biāo)檢測(cè)算法是基于深度學(xué)習(xí)進(jìn)行研究的,但事實(shí)證明,由于小目標(biāo)尺寸過(guò)小,經(jīng)過(guò)卷積神經(jīng)網(wǎng)絡(luò)中的池化層后可提取的特征很少,導(dǎo)致小目標(biāo)的檢測(cè)性能始終無(wú)法達(dá)到大、中等目標(biāo)的精度。因此,在檢測(cè)過(guò)程中可以增加一些傳統(tǒng)的特征提取方法對(duì)小目標(biāo)進(jìn)行特征提取,如上文中所提到的DPM和HOG等,將傳統(tǒng)的特征提取算法與深度學(xué)習(xí)算法相結(jié)合,或許可以起到意料之外的效果。
5) 研究新的檢測(cè)框架。大多數(shù)的小目標(biāo)檢測(cè)網(wǎng)絡(luò)是利用在大規(guī)模圖像分類數(shù)據(jù)集上的模型權(quán)重進(jìn)行預(yù)訓(xùn)練,由于不同的數(shù)據(jù)集之間具有差異,因此采用訓(xùn)練好的權(quán)重并不是最好的辦法。目前多數(shù)小目標(biāo)檢測(cè)算法是基于通用的目標(biāo)檢測(cè)算法進(jìn)行改進(jìn),只有小部分進(jìn)行了新的嘗試。因此,專門設(shè)計(jì)通用的小目標(biāo)檢測(cè)框架也不失為一種解決方式。
本文分別從傳統(tǒng)的目標(biāo)檢測(cè)和基于深度學(xué)習(xí)的目標(biāo)檢測(cè)闡述了該領(lǐng)域的主流算法,通過(guò)闡述小目標(biāo)樣本的定義以及分析當(dāng)前小目標(biāo)檢測(cè)所遇到的問(wèn)題,分別從數(shù)據(jù)增強(qiáng)、多尺度學(xué)習(xí)、上下文語(yǔ)義、提高分辨率以及IOU閾值等多個(gè)方面分析了現(xiàn)有的研究工作,最后提出了對(duì)小目標(biāo)檢測(cè)領(lǐng)域未來(lái)發(fā)展方向的展望,通過(guò)本文的分析為今后小目標(biāo)檢測(cè)技術(shù)的研究工作提供一定的啟發(fā)和幫助。