亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        深度學(xué)習(xí)小目標(biāo)檢測(cè)算法研究綜述

        2022-08-09 05:43:34張明路呂曉玲蔣志宏
        關(guān)鍵詞:錨點(diǎn)卷積特征

        張 艷,張明路,呂曉玲,郭 策,蔣志宏

        1.河北工業(yè)大學(xué) 機(jī)械工程學(xué)院,天津 300401

        2.北京理工大學(xué) 機(jī)電工程學(xué)院,北京 100081

        計(jì)算機(jī)視覺技術(shù)的蓬勃發(fā)展,使目標(biāo)檢測(cè)成為該領(lǐng)域重點(diǎn)研究?jī)?nèi)容之一,也是其他視覺任務(wù)的基石。隨著深度學(xué)習(xí)的深入研究,基于卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測(cè)算法也得到了長(zhǎng)足進(jìn)展,特別是面向大、中目標(biāo)的檢測(cè)算法,基本上滿足各種場(chǎng)景下的需求。由于小目標(biāo)在現(xiàn)實(shí)生活中也是大量存在并且具有著廣泛的使用前景,例如:在遙感圖像處理[1]、無人機(jī)導(dǎo)航[2]、自動(dòng)駕駛[3]、醫(yī)學(xué)診斷[4],人臉識(shí)別[5]等多個(gè)應(yīng)用領(lǐng)域中發(fā)揮了巨大作用。小目標(biāo)本身尺度小在圖像中所含信息量較少,容易造成目標(biāo)模糊、細(xì)節(jié)特征不明顯,從而制約著小目標(biāo)檢測(cè)性能的進(jìn)一步發(fā)展。

        基于深度學(xué)習(xí)的小目標(biāo)檢測(cè)方法,是在雙階和單階算法基礎(chǔ)上加以完善的。雙階段方法將檢測(cè)問題分為兩步走,首先生成的是候選區(qū)域(region proposals),隨后對(duì)候選區(qū)域分類(通常還需對(duì)位置進(jìn)行細(xì)化),雙階段算法流程圖如圖1所示。從2014年至今以R-CNN[6]算法為開端,在對(duì)深度學(xué)習(xí)和計(jì)算機(jī)視覺的不斷研究下,又涌現(xiàn)出Fast R-CNN[7]、Faster R-CNN[8]、SPPNet[9]等多個(gè)雙階算法[10-12],這些雙階算法在前期都被直接用于小目標(biāo)檢測(cè)上。由于雙階算法需先篩選出一些可能存在的候選區(qū)域,然后針對(duì)每個(gè)候選區(qū)域,進(jìn)行目標(biāo)特征提取,效率相對(duì)較低,無法滿足實(shí)時(shí)性要求。而單階段與雙階段算法目標(biāo)檢測(cè)流程有所不同,如圖2所示,可以進(jìn)行端到端檢測(cè),無候選區(qū)分類,運(yùn)行速度更快,但是精度略低。常見的單階段目標(biāo)檢測(cè)算法包括YOLO(you only look once)系列[13-16]和SSD(single shot multi-box detector)系列[17-21]。因此人們根據(jù)雙階算法和單階段算法的優(yōu)缺點(diǎn)進(jìn)行了諸多改進(jìn),綜合提升小目標(biāo)的檢測(cè)性能。例如:Qi等人采用場(chǎng)景縮小技術(shù)并通過目標(biāo)區(qū)域定位和Faster R-CNN網(wǎng)絡(luò)構(gòu)造分層窄化網(wǎng)絡(luò),以減少檢測(cè)時(shí)的搜索時(shí)間[22]。Yin等人通過添加圖像級(jí)和實(shí)例級(jí)域分類器和一致性損失分量,解決訓(xùn)練樣本和實(shí)際樣本之間分布不一致導(dǎo)致域偏移問題,并在RPN網(wǎng)絡(luò)中使用多尺度訓(xùn)練方式,以提高模型的性能[23]。Wu等人提出了基于ResNet101主干的修正SC卷積的SCMask R-CNN模型,該模型可以獲得更多的判別性特征信息,并添加一組具有特定大小的膨脹卷積來改善實(shí)例分割效果[24]。Hu等人將顯著性映射引入YOLOv3中,獲得更大的IOU值[25]。Wang等人對(duì)YOLOV4進(jìn)行修剪,引入一個(gè)擴(kuò)展卷積層[26]。Gai等人[27]在YOLOv4主干網(wǎng)絡(luò)CSPDarknet53的基礎(chǔ)上增加網(wǎng)絡(luò),并結(jié)合DenseNet層間密度將先驗(yàn)框改為適合小目標(biāo)果實(shí)櫻桃的標(biāo)記框。Wang等人[28]在SSD網(wǎng)絡(luò)架構(gòu)上設(shè)計(jì)了一個(gè)動(dòng)態(tài)區(qū)域放大網(wǎng)絡(luò)框架。Jia等人[29]在SSD的基礎(chǔ)上增加了中心損失函數(shù)以更好地解決類內(nèi)差大于類間差異的情況。Bai等人[30]結(jié)合SSD算法中目標(biāo)幀推薦策略和幀回歸算法。以上這些方法無論是在雙階段還是單階段算法的基礎(chǔ)進(jìn)行完善,都與當(dāng)時(shí)相對(duì)流行的方法進(jìn)行了對(duì)比,在檢測(cè)精度和速度上取得了成效。

        圖1 雙階段算法流程Fig.1 Two-stage algorithm flow

        圖2 單階段算法流程Fig.2 One-stage algorithm flow

        然而目標(biāo)檢測(cè)作為計(jì)算機(jī)視覺領(lǐng)域重要的研究對(duì)象之一,近年來也發(fā)表了一些優(yōu)秀的綜述文章。Zhou等人[31]共收錄了近400篇與目標(biāo)檢測(cè)相關(guān)的論文,其中檢測(cè)器、目標(biāo)檢測(cè)數(shù)據(jù)集、指標(biāo)、檢測(cè)系統(tǒng)、加速技術(shù)和檢測(cè)方法等內(nèi)容具有里程碑意義,并介紹了過去20多年目標(biāo)檢測(cè)的主要發(fā)展,但是針對(duì)小目標(biāo)檢測(cè)的相關(guān)方法甚少。Tong等人[32]從5個(gè)方面闡述小目檢測(cè),在常用數(shù)據(jù)集上對(duì)當(dāng)前經(jīng)典的檢測(cè)方法進(jìn)行實(shí)驗(yàn),比較分析檢測(cè)算法的優(yōu)缺點(diǎn)。Chen等人[33]和Liu等人[34]都是從4個(gè)研究領(lǐng)域?qū)π∧繕?biāo)檢測(cè)算法做了總結(jié),并在數(shù)據(jù)集上進(jìn)行性能測(cè)試。也從4個(gè)研究領(lǐng)域介紹了基于深度學(xué)習(xí)的小目標(biāo)檢測(cè)技術(shù)。文獻(xiàn)[31-34]雖然從多個(gè)方面對(duì)小目檢測(cè)方法進(jìn)行闡述,且結(jié)合實(shí)際情況提出了未來的發(fā)展建議,重點(diǎn)不在小目標(biāo)定義、重難點(diǎn)分析及性能評(píng)估等方面。此外,國(guó)內(nèi)也有對(duì)小目標(biāo)檢測(cè)領(lǐng)域的總結(jié)性文獻(xiàn),并取得一定成效[35-40]。受這些綜述的啟發(fā),在其基礎(chǔ)上進(jìn)行了系統(tǒng)而深入的分析、總結(jié)。

        1 小目標(biāo)定義及重難點(diǎn)

        在不同場(chǎng)景下小目標(biāo)定義有著不同的解釋,目前小目標(biāo)定義包括兩種[41]:一種是絕對(duì)尺寸定義,從目標(biāo)絕對(duì)像素大小對(duì)小目標(biāo)定義。以物體檢測(cè)范疇的常用數(shù)據(jù)集COCO物體定義為例,圖中目標(biāo)低于32×32像素的物體為絕對(duì)小目標(biāo);從目標(biāo)與圖像的相對(duì)比對(duì)小目標(biāo)進(jìn)行定義,目標(biāo)物體小于圖像大小的10%甚至更小是相對(duì)尺寸小。圖3(a)為絕對(duì)尺寸定義下小目標(biāo)示例,圖3(b)為相對(duì)尺寸定義下小目標(biāo)示例。

        圖3 小目標(biāo)示例Fig.3 Small target example

        COCO數(shù)據(jù)集作為評(píng)價(jià)目標(biāo)檢測(cè)性能的常用數(shù)據(jù)集,共有80個(gè)類別的物體,超過11萬張圖片,包含大量小目標(biāo)。圖4為目前主流算法在COCO數(shù)據(jù)集上的表現(xiàn)情況,其中APS、APM、APL分別為小、中、大目標(biāo)檢測(cè)的精確度。從圖4可以看出,小目標(biāo)檢測(cè)的精度相比于中、大目標(biāo)嚴(yán)重不足。這導(dǎo)致小目標(biāo)語義識(shí)別、語義分割、目標(biāo)跟蹤等后續(xù)高級(jí)任務(wù)面臨諸多困難。因此,小目標(biāo)檢測(cè)精度不足是目標(biāo)檢測(cè)領(lǐng)域當(dāng)前面臨的關(guān)鍵性挑戰(zhàn)。

        圖4 不同尺寸目標(biāo)在COCO數(shù)據(jù)集上的表現(xiàn)Fig.4 Representation of different size targets on COCO datasets

        通過以上對(duì)小目標(biāo)定義以及不同尺寸目標(biāo)在最通用的COCO數(shù)據(jù)集上的表現(xiàn),可知小目標(biāo)像素在圖像中占比少,存在覆蓋域小、包含信息少等問題。本文對(duì)造成這些問題的原因及困難進(jìn)行分析總結(jié)。

        (1)特征信息不足。在圖像中小目標(biāo)相對(duì)于大、中目標(biāo)相比都存在分辨率低、圖像模糊等問題。針對(duì)這種情況基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法通常會(huì)搭建數(shù)十層甚至上百層的網(wǎng)絡(luò),進(jìn)行大量的下采樣及池化操作,圖片會(huì)在原有像素的基礎(chǔ)上被不斷壓縮,使得原圖像中的特征信息被提取得愈加減少。或者是通過淺層網(wǎng)絡(luò)直接進(jìn)行回歸預(yù)測(cè)會(huì)導(dǎo)致特征提取不充分,回歸效果差,這兩種方式都無法最大化得到小目標(biāo)特征信息,最終導(dǎo)致難以檢測(cè)。

        (2)特定數(shù)據(jù)集欠缺。COCO數(shù)據(jù)集被作為小目標(biāo)檢測(cè)算法的常用數(shù)據(jù)集,其中有52.3%的照片包含小目標(biāo),大、中目標(biāo)所占比例分別為83.0%和70.7%。大、中目標(biāo)檢測(cè)時(shí)會(huì)關(guān)聯(lián)更多的錨點(diǎn)框,在交并比大于0.5的限制下,訓(xùn)練過程會(huì)丟失更多小目標(biāo),同時(shí)大、中目標(biāo)數(shù)量較多,且和小目標(biāo)的尺寸差異較大,神經(jīng)網(wǎng)絡(luò)難以適應(yīng)不同的目標(biāo)尺寸,導(dǎo)致小目標(biāo)檢測(cè)精度不足。因此,沒有適合小目標(biāo)檢測(cè)研究的數(shù)據(jù)集成為難點(diǎn)之一。

        (3)小目標(biāo)聚集。有多個(gè)小目標(biāo)同時(shí)出現(xiàn)在視野中,易發(fā)生扎堆聚集的現(xiàn)象。若是同類別小目標(biāo)聚集,在檢測(cè)過程中邊界預(yù)測(cè)框會(huì)出現(xiàn)多個(gè)重疊,也會(huì)被過濾掉,導(dǎo)致會(huì)被重檢和漏檢;若是多種類別的小目標(biāo)聚集,經(jīng)過神經(jīng)網(wǎng)絡(luò)多次采樣、卷積,導(dǎo)致在特征提取時(shí)變成一個(gè)點(diǎn),無法區(qū)分不同的目標(biāo),檢測(cè)準(zhǔn)確性急速下降。此外,由于小目標(biāo)的聚合,模型難以收斂由于邊界框的重疊。

        (4)損失函數(shù)不平衡。深度學(xué)習(xí)進(jìn)行目標(biāo)檢測(cè),需利用損失函數(shù)進(jìn)行梯度回歸對(duì)參數(shù)優(yōu)化,而當(dāng)前損失函數(shù)大多是針對(duì)大、中目標(biāo)所設(shè)計(jì),采用位置誤差和分類誤差,部分算法增加了交并比誤差。在進(jìn)行回歸訓(xùn)練時(shí)這些誤差并未考慮到小目標(biāo)樣本情況,導(dǎo)致在較多應(yīng)用場(chǎng)景中小目標(biāo)出現(xiàn)檢測(cè)困難的情況。

        (5)網(wǎng)絡(luò)結(jié)構(gòu)原因?,F(xiàn)有的目標(biāo)檢測(cè)算法框架都是為了大、中目標(biāo)的檢測(cè)性能設(shè)計(jì)的。針對(duì)小目標(biāo)的設(shè)計(jì)少之又少,再加上小目標(biāo)本身的特點(diǎn),這些原因?qū)е卢F(xiàn)有算法在小目標(biāo)檢測(cè)上表現(xiàn)效果低于人們的期望值。網(wǎng)絡(luò)檢測(cè)器仍以錨框?yàn)橹?,用來確定在預(yù)設(shè)的子窗口或錨點(diǎn)框內(nèi)是否存在目標(biāo)。但是,上述方法都必然地要求對(duì)特定的數(shù)據(jù)集設(shè)計(jì)甚至優(yōu)化滑窗或錨點(diǎn)框等超參數(shù),因此增加了訓(xùn)練復(fù)雜度并影響了檢測(cè)器的通用性。

        (6)通用性欠缺。小目標(biāo)檢測(cè)來源于特定應(yīng)用場(chǎng)景,例如遙感圖像中對(duì)艦船、無人機(jī)對(duì)地面人/物、自動(dòng)駕駛汽車對(duì)遠(yuǎn)處行人/車輛、醫(yī)學(xué)影像中對(duì)微動(dòng)脈瘤,人臉識(shí)別中對(duì)遠(yuǎn)距離人臉、工業(yè)加工中電子零部件等。現(xiàn)有算法大多基于常規(guī)目標(biāo)設(shè)計(jì),對(duì)于特定的復(fù)雜多變的場(chǎng)景無法具備良好的遷移能力,通用性不足限制了算法在小目標(biāo)檢測(cè)場(chǎng)景中的應(yīng)用。

        2 小目標(biāo)檢測(cè)算法研究方向

        2.1 數(shù)據(jù)增強(qiáng)

        數(shù)據(jù)增強(qiáng)是指利用有限的數(shù)據(jù)來實(shí)現(xiàn)更多的數(shù)據(jù)的價(jià)值。由于現(xiàn)有數(shù)據(jù)集小目標(biāo)數(shù)量很少,所以學(xué)者采用數(shù)據(jù)增強(qiáng)方法增強(qiáng)訓(xùn)練集,以得到適當(dāng)?shù)挠?xùn)練樣本,從而減少模型對(duì)參數(shù)的依賴,提升模型泛化能力和魯棒性。數(shù)據(jù)增強(qiáng)一般可分為有監(jiān)督和無監(jiān)督兩種方法。其中有監(jiān)督數(shù)據(jù)增強(qiáng)主要包括單樣本和多樣本數(shù)據(jù)增強(qiáng)方法,無監(jiān)督數(shù)據(jù)增強(qiáng)則可分為生成新數(shù)據(jù)和學(xué)習(xí)增強(qiáng)策略兩個(gè)方向,數(shù)據(jù)增強(qiáng)的特點(diǎn)對(duì)比如表1[16,42-52]。

        表1 相關(guān)數(shù)據(jù)增強(qiáng)方法對(duì)比Table 1 Comparison of related data augmentation methods

        小目標(biāo)在特征提取時(shí)信息過少,相比于大、中目標(biāo),匹配錨點(diǎn)框訓(xùn)練效果甚微,影響小目標(biāo)檢測(cè)精度。常規(guī)的幾何變換等單樣本數(shù)據(jù)增強(qiáng)方法,只能提升算法對(duì)不同場(chǎng)景的適應(yīng)性,無法改善小目標(biāo)與大、中目標(biāo)檢測(cè)不平衡問題。因此,需采用多種數(shù)據(jù)增強(qiáng)方法結(jié)合來改善訓(xùn)練效果,針對(duì)性解決模型應(yīng)用問題,提升算法性能。例如利用Mosaic方法可提高模型對(duì)小目標(biāo)識(shí)別能力;多樣本數(shù)據(jù)增強(qiáng)比單樣本更能提升圖像多樣性和檢測(cè)精度。因此多樣本數(shù)據(jù)增強(qiáng)目前還是被研究的重點(diǎn)。同時(shí)在無監(jiān)督數(shù)據(jù)增強(qiáng)中,生成新數(shù)據(jù)中GAN網(wǎng)絡(luò)和學(xué)習(xí)增強(qiáng)網(wǎng)絡(luò)也備受關(guān)注。由于是生成網(wǎng)絡(luò)和判別網(wǎng)絡(luò)不斷博弈過程,使得GAN的處理速度相比有監(jiān)督的要慢,但是生成的圖像質(zhì)量卻很高。AutoAugment方法與GAN面臨相同的問題,對(duì)圖像質(zhì)量有保障,但時(shí)間較慢,文獻(xiàn)[49-52]都是在保證增強(qiáng)效果與AutoAugment相近,以提高訓(xùn)練、搜索時(shí)間。

        除了表1中提到的常用的方法,很多學(xué)者也會(huì)以這些為基礎(chǔ),提出適用于他們所研究背景下的其他增強(qiáng)方法,如Kisantal等人[53]將難以檢測(cè)到的小目標(biāo)在圖像中復(fù)制粘貼并進(jìn)行姿態(tài)角度變換,采用過采樣(oversampling)方式提高小目標(biāo)檢測(cè)精度,完善了小目標(biāo)在圖像中占比較少問題。與MS COCO上的方法相比,在小目標(biāo)檢測(cè)上完成了7.1%的精度提升。Chen等人[54]提出了RRNet算法,如圖5所示,用自適應(yīng)增強(qiáng)的策略將無人機(jī)捕獲的圖像送入預(yù)訓(xùn)練的語義分割網(wǎng)絡(luò)中,利用侵蝕算法(eroding algorithm)和中值濾波器過濾噪聲,最終抽取一個(gè)有效位置來放置被增強(qiáng)物體,以達(dá)到數(shù)據(jù)增強(qiáng)目的。為了根據(jù)訓(xùn)練情況進(jìn)行自適應(yīng)調(diào)整,Chen等人[55]提出sticher將損失函數(shù)中小目標(biāo)損失的比例作為反饋,小目標(biāo)損失占比過少時(shí),在下一次迭代訓(xùn)練中采用圖片拼接方式提高小目標(biāo)訓(xùn)練效果。Bochkovskiy等人提出YOLOv4算法中的mosaic方法,采用幾個(gè)照片拼接進(jìn)行數(shù)據(jù)增強(qiáng),區(qū)別在于YOLOv4采用不同尺度照片進(jìn)行拼接。不同應(yīng)用場(chǎng)景往往需要不同的專用數(shù)據(jù)增強(qiáng)方法,因此谷歌團(tuán)隊(duì)的Zoph等人[56]提出基于學(xué)習(xí)策略的數(shù)據(jù)增強(qiáng)手段。定義一系列子策略集和多個(gè)圖像操作變換,將數(shù)據(jù)增強(qiáng)手段的選擇融入訓(xùn)練中,達(dá)到自動(dòng)調(diào)整適應(yīng)。

        圖5 RRNet中自適應(yīng)增強(qiáng)策略Fig.5 Adaptive enhancement strategy in RRNet

        數(shù)據(jù)增強(qiáng)方法在一定程度上解決了小目標(biāo)數(shù)據(jù)集小、可定性地增加目標(biāo)信息量等問題,使得模型的泛化能力和魯棒性也得以提升。有監(jiān)督的數(shù)據(jù)增強(qiáng)方法經(jīng)過近幾年的研究相對(duì)較完善,特別是多樣本增強(qiáng)方法,將多種增強(qiáng)方法有效結(jié)合起來,以提高模型的泛化能力和檢測(cè)性能,是現(xiàn)在數(shù)據(jù)增強(qiáng)的主要方法。而無監(jiān)督數(shù)據(jù)增強(qiáng)方法在現(xiàn)階段仍處于不斷研究的過程。主要是由于有監(jiān)督數(shù)據(jù)增強(qiáng)方法操作簡(jiǎn)單,耗時(shí)少;而無監(jiān)督數(shù)據(jù)增強(qiáng)網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜,在訓(xùn)練過程中卷積次數(shù)多,計(jì)算繁瑣,耗時(shí)長(zhǎng)。這些增強(qiáng)方式的應(yīng)用不當(dāng)除了增加計(jì)算量還會(huì)加入新的噪聲,給算法應(yīng)用帶來挑戰(zhàn)。

        2.2 多尺度特征融合

        小目標(biāo)與正常目標(biāo)比可用的像素少,特征不明顯難以提取。隨著網(wǎng)絡(luò)層數(shù)的改變,小目標(biāo)的特征信息與位置信息也在逐層丟失,難以檢測(cè)。特征融合是將圖片特征提取過程中的低層條紋、外部輪廓、像素分布等細(xì)節(jié)信息與高層提取到的抽象語義信息相融合,多尺度特征融合是指通過自頂向下的多次上采樣融合,最終形成包含細(xì)粒度表達(dá)和抽象語義表達(dá)的特征圖,提高小目標(biāo)檢測(cè)效果。多尺度特征融合網(wǎng)絡(luò)結(jié)構(gòu)如圖6所示。

        圖6 多尺度特征融合網(wǎng)絡(luò)結(jié)構(gòu)Fig.6 Multi-scale feature fusion network structure

        為了減少小目標(biāo)本身特性給算法帶來的負(fù)面影響以獲得更好的特征融合效果,不少研究者在檢測(cè)器架構(gòu)上加以優(yōu)化,常用檢測(cè)器是利用特征金字塔來檢測(cè)不同尺寸的物體,其中FPN就是構(gòu)建特征金字塔最具有代表性的結(jié)構(gòu)構(gòu)件[57]。將不同尺度的特征進(jìn)行融合作為預(yù)測(cè)網(wǎng)絡(luò)的輸入。圖7為FPN結(jié)構(gòu)的示意圖,圖像經(jīng)過自下向上的特征提取之后,再進(jìn)行自上向下的特征融合結(jié)構(gòu),最后送入預(yù)測(cè)模塊輸出結(jié)果。很多學(xué)者對(duì)FPN網(wǎng)絡(luò)進(jìn)行改進(jìn),使檢測(cè)器取得更好的效果。Guo等人根據(jù)FPN的設(shè)計(jì)缺陷導(dǎo)致多尺度特征利用不足,設(shè)計(jì)了全新的特征金字塔結(jié)構(gòu)AugFPN,并在RCNN中應(yīng)用,結(jié)果表明平均精度有了提高[58]。Ghiasi等人在一個(gè)覆蓋任何交叉尺度連接的可擴(kuò)展搜索空間中,通過神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索找到了一種全新的特征金字塔結(jié)構(gòu)NAS-FPN,從頂向下和自下而上的連接組合而成,能夠跨范圍地融合特征,在COCO數(shù)據(jù)集上得到了很好的驗(yàn)證[59]。Luo等人受亞像素的啟發(fā)利用原始通道信息進(jìn)行跨尺度輸出,提出CE-FPN結(jié)構(gòu),并在MS COCO得到了比FPS更好的性能[60]。Kim等人提出并行FPN網(wǎng)絡(luò),通過增加網(wǎng)絡(luò)寬度來構(gòu)建,提升小目標(biāo)檢測(cè)效果[61]。Zhao等人提出自頂向下和自底向上的特征金字塔網(wǎng)絡(luò)(TDBU-FPN),該網(wǎng)絡(luò)結(jié)合了多尺度特征和多縱橫比錨定生成,在數(shù)據(jù)集上的精度和速度的表現(xiàn)也有了一定提升[62]。

        圖7 FPN結(jié)構(gòu)Fig.7 FPN structure

        針對(duì)小目容易受環(huán)境干擾問題,后續(xù)人們對(duì)金字塔網(wǎng)絡(luò)結(jié)構(gòu)的研究主要是與single shot detector(SSD)模型結(jié)合。Li等人[63]將FPN結(jié)構(gòu)與SSD算法相融合,在2017年提出了feature fusion SSD(FSSD)算法,將不同尺度特征重新調(diào)整至相同大小,再按通道拼接,實(shí)現(xiàn)不同尺度的特征融合。Fu等人[64]提出了deconvolutional SSD(DSSD)算法,DSSD將SSD的VGG網(wǎng)絡(luò)用殘差網(wǎng)絡(luò)進(jìn)行了替換,如圖8所示,不同于通道疊加,利用反卷積層和原有特征層相乘的方式實(shí)現(xiàn)了特征融合。李文濤等人[65]提出一種基于SSD的多尺度通道注意力融合網(wǎng)絡(luò)的小目標(biāo)檢測(cè)算法,針對(duì)小目標(biāo)特征不明顯,設(shè)計(jì)了基于K領(lǐng)域的局部通道注意力模塊,可重新對(duì)每個(gè)通道的權(quán)重進(jìn)行分配以達(dá)到最佳的特征學(xué)習(xí)效果;然后在卷積神經(jīng)網(wǎng)絡(luò)中構(gòu)建Bottleneck模塊,可更有效地把信息融合起來,再利用網(wǎng)絡(luò)的高低層特征進(jìn)行多尺度檢測(cè),可提高小目標(biāo)檢測(cè)的精度。陳欣等人[66]改進(jìn)了多尺度特征融合SSD方法,除了豐富語義信息,增強(qiáng)小目標(biāo)特征,還引入了注意力模塊減少背景干擾,提升了檢測(cè)精度,降低漏檢率。李暉暉等人[67]提出了基于串行修正線性單元和FPN改進(jìn)的SSD艦船目標(biāo)檢測(cè)算法,提升淺層特征的傳遞效率,結(jié)果表明在艦船小目標(biāo)的檢測(cè)精度有10%的提升。趙彤等人[68]利用長(zhǎng)短記憶(LSTM)網(wǎng)絡(luò)改進(jìn)FPN架構(gòu),并與SSD融合,建立一種新的特征融合網(wǎng)絡(luò)MSSD(memory SSD),算法在Pascal VOC數(shù)據(jù)集上取得了比較好的實(shí)驗(yàn)結(jié)果。李寶奇等人[69]針對(duì)SSD自帶的特征提取網(wǎng)絡(luò)(OAFEN)中的stride操作產(chǎn)生的小目標(biāo)信息損失和串聯(lián)結(jié)構(gòu)帶來的多尺度特征之間冗余度較大的情況,提出使用可分離空洞卷積,同時(shí)設(shè)計(jì)了一個(gè)包含三個(gè)獨(dú)立子網(wǎng)絡(luò)的并行附加特征提取網(wǎng)絡(luò)(PAFEN),使得在SSD網(wǎng)絡(luò)架構(gòu)內(nèi),PAFEN檢測(cè)時(shí)間和速度均比OAFEN效果好,也在其他的網(wǎng)絡(luò)架構(gòu)中進(jìn)行實(shí)驗(yàn),進(jìn)一步說明了PAFEN特征提取網(wǎng)絡(luò)比OAFEN在小目標(biāo)檢測(cè)上性能更好。梁延禹等人[70]提出一種多尺度非局部注意力網(wǎng)絡(luò)方法,在淺層利用非局部通道注意力模塊將全局信息集成,不僅可以大大提高小目標(biāo)檢測(cè)準(zhǔn)確率,還可使模型更具實(shí)時(shí)性。Meng等人[71]采用FPN的MobileNet-SSD模型以提高檢測(cè)精度和速度。Qu等人[72]利用FPN網(wǎng)絡(luò)提出擴(kuò)張卷積和特征融合的SSD網(wǎng)絡(luò),可以提高小物體檢測(cè)精度。Ren等人[73]使用精簡(jiǎn)后的FPN網(wǎng)絡(luò)結(jié)構(gòu)和改進(jìn)的SSD模型,平衡小目標(biāo)檢測(cè)的速度和精度。Kong等人[74]在SSD模型上使用新的FPN架構(gòu),能夠在全局和局部的不同空間和尺度上提取目標(biāo)特征,在進(jìn)行檢測(cè)。Zhang等人[75]通過語義分割和全局激活模塊,減弱淺層對(duì)小目標(biāo)性能的影響。

        圖8 DSSD模塊Fig.8 DSSD module

        最近學(xué)者們對(duì)特征融合這一方法進(jìn)行了新的研究,如Xue等人[76]針對(duì)小目標(biāo)在多次卷積后信息易丟失,便在F-CNN網(wǎng)絡(luò)結(jié)構(gòu)上提出一種改進(jìn)的小目標(biāo)檢測(cè)方法,不僅增強(qiáng)了多尺度特征還融合了它們之間的上下文語義信息。該算法經(jīng)過一系列的上采樣和融合有效提高了檢測(cè)精度。但是訓(xùn)練一個(gè)適用于各種尺度物體的模型仍需要進(jìn)一步研究。Nayan等人[77]也是針對(duì)小目標(biāo)信息易丟失,引入了一種實(shí)時(shí)檢測(cè)算法,該算法采用上采樣和跳連接,在學(xué)習(xí)任務(wù)中提取不同卷積級(jí)別的多尺度特征,從而在檢測(cè)小對(duì)象方面取得了顯著的性能。Deng等人[78]提出一種擴(kuò)展特征金字塔網(wǎng)絡(luò)(DFPN),該網(wǎng)絡(luò)中有一個(gè)專門檢測(cè)小目標(biāo)的超高分辨率金字塔。設(shè)計(jì)了一個(gè)新模塊-特征紋理轉(zhuǎn)移(FTT),用于分辨特征,同時(shí)獲得更可信的區(qū)域細(xì)節(jié);此外還設(shè)計(jì)了平衡損失函數(shù),除了可提升檢測(cè)準(zhǔn)確率,還在計(jì)算和存儲(chǔ)方面也是高效的。Qi等人[79]先提出一種自適用空間并行卷積模塊(ASPConv),用于提取小目標(biāo)的多尺度局部上下文信息,增強(qiáng)對(duì)目標(biāo)的空間信息;其次,設(shè)計(jì)一個(gè)快速多尺度融合模塊,將該模塊與ASPConv模塊輸出的豐富空間信息有效集成。擁有豐富語義信息的低分辨率特征能夠有效映射到高分辨率空間。通過將多尺度特征地圖融合,可以形成具有豐富空間與語義信息的高分辨率特征地圖,有利于小目標(biāo)檢測(cè)。由于該方法在實(shí)驗(yàn)過程中取得良好的效果,可逐漸推廣到搜救、智能駕駛等多種小目標(biāo)檢測(cè)場(chǎng)景中。

        上述多尺度特征融合方式,不但考慮到了低層條紋、外部輪廓、像素分布等細(xì)節(jié)信息還兼顧了高層獲取到的抽象語義信息,這樣有利于提高小目標(biāo)檢測(cè)的性能。在提高性能的同時(shí)也增加了額外的工作量尤其是計(jì)算量和存儲(chǔ)空間,在特征融合過程中難以避免其他問題干擾,如:噪聲等,而這些問題也造成多尺度架構(gòu)下小目標(biāo)檢測(cè)性能下降。

        2.3 錨點(diǎn)框設(shè)計(jì)

        錨框在目標(biāo)檢測(cè)中位置舉足輕重,目前大部分目標(biāo)檢測(cè)算法是基于錨點(diǎn)框預(yù)測(cè)。但錨點(diǎn)框從最初模型設(shè)計(jì)都是為了大、中目標(biāo)的檢測(cè),忽視了小目標(biāo)的檢測(cè)。因此很多學(xué)者在原有錨點(diǎn)框基礎(chǔ)上進(jìn)行了研究,Zhu等人[80]發(fā)現(xiàn)目前的錨點(diǎn)設(shè)計(jì)無法保證小目標(biāo)與錨點(diǎn)框之間高度重疊,增加了訓(xùn)練難度。針對(duì)人臉識(shí)別中小人臉的問題,提出了增加移位錨點(diǎn)的方法來提高小目標(biāo)檢測(cè)精度。添加額外的支持性錨點(diǎn)框即移位錨點(diǎn)框,而不是以滑動(dòng)窗口位置為中心。圖9(a)和圖9(b)分別為斜向移位方式和直線移位方式。這些移位的錨點(diǎn)與中心錨點(diǎn)共享相同的特征表示,導(dǎo)致小目標(biāo)檢測(cè)的平均交并比(intersection over union,IOU)顯著提高。固定的錨點(diǎn)框大小并不適合多樣性特征的小目標(biāo)檢測(cè)任務(wù),因此需反復(fù)設(shè)計(jì)錨點(diǎn)框長(zhǎng)寬比,延長(zhǎng)設(shè)計(jì)時(shí)間。針對(duì)這一現(xiàn)象,Wang等人[81]提出了根據(jù)不同形狀的特征提取模塊生成錨點(diǎn)機(jī)制,使錨點(diǎn)框形狀可變且稀疏。這一機(jī)制將錨點(diǎn)的生成分解為形狀預(yù)測(cè)和位置預(yù)測(cè),可以看成是一個(gè)條件分布。這一方法使錨點(diǎn)框的生成通過訓(xùn)練的方式來實(shí)現(xiàn)。Li等人[82]提出了Pixel-Anchor框架,通過特征共享和錨級(jí)注意機(jī)制將語義分割和SSD結(jié)合到一個(gè)網(wǎng)絡(luò)中,用于更好地預(yù)測(cè)尺度和長(zhǎng)寬比變換較大的目標(biāo),有效緩和了目標(biāo)檢測(cè)時(shí)小目標(biāo)特征太稀疏的問題。王毓瑋等人[83]利用改進(jìn)的K-Means算法設(shè)計(jì)適合艦船目標(biāo)形狀特點(diǎn)的先驗(yàn)錨點(diǎn)框,優(yōu)化NMS算法以剔除重疊區(qū)域的艦船候選框,改善了艦船距離較近導(dǎo)致的漏檢問題。周慧等人[84]提出自適應(yīng)錨點(diǎn)框來優(yōu)化目標(biāo)檢測(cè)網(wǎng)絡(luò)。

        圖9 移位錨點(diǎn)框示例Fig.9 Example of shifting anchor box

        將錨點(diǎn)框調(diào)整為關(guān)鍵點(diǎn)定位方式也是當(dāng)前的一個(gè)重要研究方向。Law等人[85]提出了一種關(guān)鍵點(diǎn)檢測(cè)新思路,把檢測(cè)目標(biāo)框生成問題處理成左上角點(diǎn)和右下角點(diǎn)的一對(duì)關(guān)鍵點(diǎn)的目標(biāo)檢測(cè)問題,利用角點(diǎn)池化技術(shù)簡(jiǎn)化預(yù)測(cè)過程,也可解決之前固定錨點(diǎn)預(yù)測(cè)的不靈活性。但該方法易將不是同一個(gè)物體的兩個(gè)角點(diǎn)看成一個(gè)目標(biāo)框,造成誤檢。為克服這一問題,Duan等人[86]發(fā)現(xiàn)目標(biāo)框正確時(shí)中心區(qū)域能夠檢測(cè)到目標(biāo)中心點(diǎn)的概率會(huì)很高,反之亦然。因此提出了Centernet網(wǎng)絡(luò),首先使用左上和右下兩個(gè)角點(diǎn)生成初始目標(biāo)框,依次定義中心區(qū)域,如果目標(biāo)框中心區(qū)域包含中心點(diǎn)則保存,反之則刪除。圖10為Centernet的網(wǎng)絡(luò)結(jié)構(gòu),經(jīng)過對(duì)角點(diǎn)預(yù)測(cè)和中心點(diǎn)預(yù)測(cè)兩條路徑,最終在COCO數(shù)據(jù)集上獲得47%的精度,其中小目標(biāo)檢測(cè)精度為28.9%。

        圖10 Centernet網(wǎng)絡(luò)結(jié)構(gòu)Fig.10 Centernet structure

        在最新研究成果中,Dong等人[87]提出了新的向心偏移角匹配方法,向心力能夠預(yù)測(cè)角點(diǎn)和向心移動(dòng)位置,并匹配移動(dòng)結(jié)果對(duì)齊的角點(diǎn),同時(shí)引入一種能夠更好地預(yù)測(cè)向心偏移的交叉星形可變形卷積模塊。在MS COCO上精度提高到了48%,超越了目前最先進(jìn)的關(guān)鍵點(diǎn)檢測(cè)算法。Zhang等人[88]將錨點(diǎn)框檢測(cè)和關(guān)鍵點(diǎn)檢測(cè)兩種方法進(jìn)行融合,提出了一種自適應(yīng)訓(xùn)練樣本選擇方法,按照目標(biāo)統(tǒng)計(jì)特征自動(dòng)選擇正樣本和負(fù)樣本。改善錨點(diǎn)和無錨點(diǎn)探測(cè)器性能,彌補(bǔ)了兩者之間的差距,較好地檢測(cè)出了小目標(biāo)。

        通過調(diào)整不同的anchor,使其盡量地覆蓋物體,也可根據(jù)各種任務(wù)設(shè)置不同的anchor尺度范圍;物體的定位都是利用anchor回歸實(shí)現(xiàn)的,僅計(jì)算偏移量就減少了計(jì)算量,降低復(fù)雜度;而anchor需要人為設(shè)定大量的參數(shù),且離散的anchor尺度設(shè)置會(huì)使一些物體無法很好地匹配到anchor,進(jìn)而造成遺漏,因此解決這些問題是繼續(xù)深入研究的內(nèi)容。

        2.4 深層次卷積神經(jīng)網(wǎng)絡(luò)

        通過級(jí)聯(lián)等方式搭建卷積神經(jīng)網(wǎng)絡(luò)可有助于提高網(wǎng)絡(luò)性能,提取到更多小目標(biāo)特征信息。Cai等人[89]提出了級(jí)聯(lián)區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(Cascade RCNN)算法。圖11為Cascade RCNN網(wǎng)絡(luò)示意圖,級(jí)聯(lián)幾個(gè)卷積神經(jīng)網(wǎng)絡(luò)來更好地獲得圖像的語義信息,其中H表示網(wǎng)絡(luò)輸出,C表示分類,B表示定位框。與普通級(jí)聯(lián)不同的是,Cascade RCNN是由一系列的檢測(cè)網(wǎng)絡(luò)組成,每個(gè)檢測(cè)網(wǎng)絡(luò)都由不同IOU閾值的正負(fù)樣本訓(xùn)練得到,將前一檢測(cè)網(wǎng)絡(luò)得到的結(jié)果送入到下一檢測(cè)網(wǎng)絡(luò),隨著訓(xùn)練的不斷進(jìn)行,IOU閾值不斷增加,網(wǎng)絡(luò)性能隨之優(yōu)化。通過這一方法在MS COCO數(shù)據(jù)集上獲得較高的小目標(biāo)檢測(cè)精度。汪躍東[90]為減輕行人檢測(cè)任務(wù)中分類和回歸不平衡的現(xiàn)象,在Cascade RCNN基礎(chǔ)上將級(jí)聯(lián)的回歸器擬合的偏移量改進(jìn)為與類別置信度相關(guān)的動(dòng)態(tài)偏移量。Han[91]提出一種基于上下文信息的改進(jìn)型基于級(jí)聯(lián)區(qū)域的卷積神經(jīng)網(wǎng)絡(luò),通過內(nèi)部級(jí)聯(lián)的多閾值預(yù)測(cè)網(wǎng)絡(luò)實(shí)現(xiàn)多尺度、多階段的預(yù)測(cè)。Shi等人[92]提出了一種基于域自適應(yīng)快反網(wǎng)絡(luò)的方法,稱為自適應(yīng)閾值級(jí)聯(lián)快反網(wǎng)絡(luò),級(jí)聯(lián)策略提高了邊界質(zhì)量,解決了Faster RCNN的過擬合和不匹配的問題。劉艷萍等人[93]在Cascade RCNN基礎(chǔ)上,為降低復(fù)雜路況下小尺寸行人漏檢率,將淺層特征與深層特征融合,提高深層信息的利用率,為了將淺層信息直接向上進(jìn)行傳遞,并提高淺層空間的利用率,增加一條淺層到深層的通道;提高算法分類和回歸的邊界框質(zhì)量。李松江等人[94]為了解決車輛目標(biāo)檢測(cè)中小目標(biāo)漏檢的問題,也是在Cascade RCNN基礎(chǔ)上,改進(jìn)特征金字塔將淺層信息加入到深層中,并引入多支路空洞卷積,減少特征丟失,增強(qiáng)目標(biāo)特征。Zhang等人[95]采用加深神經(jīng)網(wǎng)絡(luò)的方法優(yōu)化小目標(biāo)檢測(cè)性能,提出了多任務(wù)級(jí)聯(lián)的目標(biāo)檢測(cè)框架,設(shè)計(jì)了三組神經(jīng)網(wǎng)絡(luò)進(jìn)行級(jí)聯(lián),將特征提取網(wǎng)絡(luò)按從簡(jiǎn)單到復(fù)雜的順序分成三個(gè)階段,利用簡(jiǎn)單的特征提取網(wǎng)絡(luò)快速生成候選框,利用復(fù)雜的網(wǎng)絡(luò)來去掉實(shí)際不包含人臉的候選框,最終給出五個(gè)臉部標(biāo)志點(diǎn)的位置。

        圖11 Cascade RCNN網(wǎng)絡(luò)結(jié)構(gòu)Fig.11 Cascade RCNN structure

        除了級(jí)聯(lián)的方式,直接增加網(wǎng)絡(luò)深度也是常見的方式,但是由于網(wǎng)絡(luò)過深,會(huì)出現(xiàn)準(zhǔn)確度由上升轉(zhuǎn)為下降的退化現(xiàn)象。微軟研究院的He等人[96]提出Resnet結(jié)構(gòu)解決了這一問題,通過使用殘差單元,成功訓(xùn)練了152層的殘差單元,取得了ILSVRC 2015比賽的冠軍。Resent采用恒等映射將上一層傳來的輸入傳遞到輸出,解決了退化現(xiàn)象的影響。后續(xù)很多目標(biāo)檢測(cè)方法[97-99]都將殘差模塊應(yīng)用到自己的網(wǎng)絡(luò)結(jié)構(gòu)中,保證深層網(wǎng)絡(luò)信息傳遞不發(fā)生丟失。但是這種深層次卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)會(huì)明顯增加推理時(shí)間,Yuan等人[100]提出的HS-ResNet在Resnet基礎(chǔ)上進(jìn)行了多組卷積分解,將前一組卷積得到的特征圖,部分拼接到下一組特征圖,利用特征圖的復(fù)用降低計(jì)算難度。這一方法使得輸出特征內(nèi)小感受野和更多細(xì)節(jié)內(nèi)容產(chǎn)生聯(lián)系,在小目標(biāo)識(shí)別中起到了關(guān)鍵作用。

        2.5 生成式對(duì)抗網(wǎng)絡(luò)

        生成式對(duì)抗網(wǎng)絡(luò)(generative adversarial network,GAN)是利用對(duì)抗思想預(yù)測(cè)生成模型框架,這種框架同時(shí)訓(xùn)練兩種模型,生成模型和判別模型。旨在把分辨率較低的小目標(biāo)特征映射為與分辨率高的目標(biāo)等價(jià)特征,以便獲得與大、中目標(biāo)類似的檢測(cè)效果。通過生成網(wǎng)絡(luò)生成樣本和判別網(wǎng)絡(luò)進(jìn)行辯論以提高網(wǎng)絡(luò)性能,是無監(jiān)督學(xué)習(xí)中應(yīng)用最廣的,最早由Goodfellow等人[47]提出。小目標(biāo)在圖像中要經(jīng)過放大,再放入特征提取網(wǎng)絡(luò)中,造成了小目標(biāo)圖像分辨率低的問題。針對(duì)這一問題,Bai等人[101]提出了超分辨率重構(gòu)的GAN架構(gòu),產(chǎn)生器是一種超分辨率的網(wǎng)絡(luò),它能夠把小的模糊圖像采樣成細(xì)尺度圖像,從而恢復(fù)大量細(xì)節(jié)信息以實(shí)現(xiàn)更精準(zhǔn)的檢測(cè)。小物體檢測(cè)的端到端多任務(wù)生成對(duì)抗網(wǎng)絡(luò),能夠與目前的任何檢測(cè)器結(jié)合使用。在對(duì)抗網(wǎng)絡(luò)中,生成網(wǎng)絡(luò)生成超分辨率圖像,并引入多任務(wù)判別器網(wǎng)絡(luò),能夠區(qū)分真實(shí)的高分辨率圖像與偽造圖像,預(yù)測(cè)對(duì)象類別和細(xì)化邊界框。更關(guān)鍵的是,分類和回歸損失被反向傳播,進(jìn)一步指導(dǎo)生成器網(wǎng)絡(luò)生成超分辨率圖像,以便更容易分類和更好的定位。Wang等人[102]提出了一種中心化的多任務(wù)生成對(duì)抗網(wǎng)絡(luò)(CMTGAN),利用網(wǎng)絡(luò)中生成器實(shí)現(xiàn)圖像超分辨率,并利用鑒別器進(jìn)行對(duì)象檢測(cè)。在生成器中引入了人工紋理?yè)p失,以保留小物體的原始特征,在生成器中使用了一個(gè)居中的掩碼,使網(wǎng)絡(luò)專注于圖像的中心部分,與現(xiàn)有的插值方法相比,CMTGAN生成的超分辨率圖像更加明確,包含的信息更多。Courtrai等人[103]也是通過超分辨率來提高圖形空間分辨率,從而解決了在衛(wèi)星或航空遙感圖像中檢測(cè)小物體的問題。通過學(xué)習(xí)基于殘余塊的生成對(duì)抗網(wǎng)(GAN),將其整合到一個(gè)循環(huán)模型中。此外,在框架中加入一個(gè)為物體量身定做的檢測(cè)輔助網(wǎng)絡(luò),改善超級(jí)分辨率架構(gòu)的學(xué)習(xí)和質(zhì)量,提高目標(biāo)檢測(cè)性能。Zhao等人[104]針對(duì)紅外小目標(biāo)構(gòu)建了GAN模型自動(dòng)學(xué)習(xí)特征并直接預(yù)測(cè)目標(biāo),為提高生成器的數(shù)據(jù)擬合能力,構(gòu)建了五層判別器;同時(shí)L2損失被添加到對(duì)抗性損失找那個(gè)以提高定位能力。Li等人[105]從小目標(biāo)和大目標(biāo)之間的區(qū)別出發(fā)搭建生成式對(duì)抗網(wǎng)絡(luò),借鑒傳統(tǒng)生成式對(duì)抗網(wǎng)絡(luò)學(xué)習(xí)隨機(jī)噪聲到圖片映射的思想,利用網(wǎng)絡(luò)學(xué)習(xí)了小目標(biāo)到大目標(biāo)特征之間的映射。圖12為該網(wǎng)絡(luò)原理圖,引入感知GAN模型來增強(qiáng)對(duì)小物體的表征,使其更接近于真實(shí)的大物體,從而提高對(duì)小物體的檢測(cè)性能。最終相比于同期的Faster RCNN算法,較好地提升了小目標(biāo)檢測(cè)的精度。Rabbi等人[106]受邊緣增強(qiáng)GAN(EEGAN)[107]和ESRGAN[108]的啟發(fā),提出一個(gè)新的邊緣增強(qiáng)超分辨率GAN(EESRGAN)來改善遙感圖像的質(zhì)量。以端到端的方法通過不同的檢測(cè)器網(wǎng)絡(luò),檢測(cè)器的損失被反向傳播到EESRGAN中,以提高小目標(biāo)檢測(cè)性能。

        圖12 感知生成式對(duì)抗網(wǎng)絡(luò)Fig.12 Perceptual generative adversarial network

        基于生成對(duì)抗網(wǎng)絡(luò)的檢測(cè)模型不僅可以增強(qiáng)小目標(biāo)的細(xì)節(jié)信息,還可提升減少速度和精度。生成對(duì)抗網(wǎng)絡(luò)不需要依賴任何先驗(yàn)假設(shè),用到了反向傳播,只要是可微分函數(shù)都可以構(gòu)建生成器和判別器,更容易將生成對(duì)抗網(wǎng)絡(luò)與現(xiàn)有的檢測(cè)算法結(jié)合起來。但是它目前仍面臨以下幾個(gè)問題:(1)訓(xùn)練時(shí)需要達(dá)到納什平衡,但是這個(gè)平衡很難獲得;(2)生成模型的分布式?jīng)]有顯式表達(dá),可解釋性較差;(3)訓(xùn)練較困難,在學(xué)習(xí)過程中易發(fā)生崩潰問題。生成器開始逐漸退化,最后總生成相同的圖像,無法繼續(xù)學(xué)習(xí);這就使得判別模型也會(huì)生成相似的圖像,訓(xùn)練無法繼續(xù)。

        2.6 引入上下文信息

        被檢測(cè)目標(biāo)與周圍其他物體以及環(huán)境有著密不可分的關(guān)系,在各種環(huán)境中應(yīng)用目標(biāo)檢測(cè)算法有很多局限性,尤其是檢測(cè)小目標(biāo),因?yàn)樗鼈兎直媛实?,信息有限,因此人們考慮到如何將上下文作為額外信息來幫助檢測(cè)小目標(biāo)。為了通過探索上下文信息來提高檢測(cè)精度,Yu等人[109]提出了一種用于錨級(jí)聯(lián)的上下文金字塔最大化機(jī)制。因此,錨級(jí)聯(lián)可以訓(xùn)練非常有效的人臉檢測(cè)模型,具有很高的檢測(cè)精度。Zhu等人[110]提出的CoupleNet,如圖13所示將網(wǎng)絡(luò)分為兩部分,一部分利用全卷積整合局部信息,另一部分采用全局卷積獲得全局信息,最后通過通道拼接在一起,達(dá)到引入上下文信息的效果。此后他們又在CoupleNet基礎(chǔ)上引入注意力機(jī)制,將注意力相關(guān)信息和物體的全局及局部信息結(jié)合起來,達(dá)到引入上下文信息,以提高檢測(cè)性能。首先設(shè)計(jì)了一個(gè)級(jí)聯(lián)注意力結(jié)構(gòu)來感知圖像的全局場(chǎng)景,并生成與類別有關(guān)的注意力圖。然后,將注意力圖譜編碼到網(wǎng)絡(luò)中,以獲得物體感知的特征。接下來,同時(shí)提出一個(gè)獨(dú)特的全卷積耦合結(jié)構(gòu),將物體的全局結(jié)構(gòu)和局部部分結(jié)合起來,進(jìn)一步制定一個(gè)辨別性的特征表示。為了充分挖掘全局和局部屬性,還設(shè)計(jì)了不同的耦合策略和歸一化方式,以充分利用全局和局部信息之間的互補(bǔ)優(yōu)勢(shì),實(shí)驗(yàn)證明了方法的有效性[111]。

        圖13 CoupleNet網(wǎng)絡(luò)結(jié)構(gòu)Fig.13 CoupleNet structure

        谷歌團(tuán)隊(duì)Qiao等人[112]提出的DetectoRS網(wǎng)絡(luò)也引入了上下文信息以提高檢測(cè)性能,首先設(shè)計(jì)了可轉(zhuǎn)換的空洞卷積(switchable atrous convolution,SAC),然后在SAC的主要組件前后連接兩個(gè)全局上下文模塊,最后在宏觀層面上,提出遞歸特征金字塔(recursive feature pyramid,RFP),并結(jié)合了從特征金字塔網(wǎng)絡(luò)到自下而上的骨干層的額外反饋連接。最終在COCO數(shù)據(jù)集獲得了54.7%的準(zhǔn)確率。后續(xù)學(xué)者也在其他的網(wǎng)絡(luò)上引入上下文信息以提高檢測(cè)性能??谆鄯嫉热薣113]為提升分割精度,提出一種基于特征上下文編碼的實(shí)時(shí)語義分割網(wǎng)絡(luò)FCNet。張馨月等人[114]在SSD模型融合特征增強(qiáng)和自注意力,并且深層增強(qiáng)模塊利用路徑深層多尺度特征圖生成的上下文信息增強(qiáng)深層特征信息,有利于提取特征。引入上下文信息在目前的檢測(cè)領(lǐng)域也比較常用,一般都是與其他網(wǎng)絡(luò)結(jié)構(gòu)融合在一起,后續(xù)也會(huì)應(yīng)用到小目標(biāo)檢測(cè)的領(lǐng)域內(nèi),最大限度地發(fā)揮它的優(yōu)勢(shì),提高神經(jīng)網(wǎng)絡(luò)模型的小目標(biāo)檢測(cè)性能。除此之外,Yu等人[115]構(gòu)建了一個(gè)有效的場(chǎng)景分割前背景。它利用監(jiān)督嵌入上下文先驗(yàn)層的親和力損失來區(qū)分不同的上下文依賴關(guān)系。為了把上下文優(yōu)先嵌入到網(wǎng)絡(luò)中,提出了一個(gè)上下文優(yōu)先網(wǎng)絡(luò)(CPNet),由主干網(wǎng)絡(luò)和上下文優(yōu)先層構(gòu)成。聚合模塊用于聚合用于推理上下文關(guān)系的空間信息,并嵌入到上下文前一層。大量的定量和定性比較表明,與目前最先進(jìn)的場(chǎng)景分割方法相比,所提出的CPNet具有良好的性能。Lim等人[116]通過融合多尺度特征,利用不同層次的附加特征作為上下文信息;同時(shí)還用一種注意力機(jī)制的目標(biāo)檢測(cè)方法,該方法能夠聚焦圖像中小目標(biāo)的,還能夠包含目標(biāo)層的上下文信息,能夠提高檢測(cè)小目標(biāo)的精度。

        基于引入上下文信息的方法挖掘利用了圖像中目標(biāo)與目標(biāo)之間的關(guān)系及目標(biāo)與周圍像素之間的關(guān)聯(lián)信息,提高了小目標(biāo)檢測(cè)算法的性能。但是也存在小目標(biāo)之間的、小目標(biāo)與周圍環(huán)境之間關(guān)聯(lián)性小,沒有其他可以輔助小目標(biāo)檢測(cè)的物體也會(huì)給上下文學(xué)習(xí)方法造成難題,同時(shí)上下文信息混合使用,隨著圖像之間關(guān)聯(lián)增加,使得檢測(cè)模型的計(jì)算量增長(zhǎng)變大,使模型的可擴(kuò)展性較差。但是引入上下文信息的應(yīng)用就是致力于模仿人類的認(rèn)知系統(tǒng),還可以應(yīng)用于語音識(shí)別等多種對(duì)人類感知信息的方式的模仿,可以提高認(rèn)知、檢測(cè)的準(zhǔn)確性,推動(dòng)小目標(biāo)檢測(cè)領(lǐng)域向前發(fā)展。

        2.7 其他改進(jìn)方法

        除了上述提到的六種方法,小目標(biāo)檢測(cè)還有很多優(yōu)秀的算法。根據(jù)應(yīng)用場(chǎng)景對(duì)激活函數(shù)進(jìn)行相應(yīng)的調(diào)整,達(dá)到小目標(biāo)檢測(cè)當(dāng)下最佳效果。常用的是非線性激活函數(shù)包括Swish、ReLU、Sigmod等。Ramachandran等人[117]用Swish激活函數(shù)優(yōu)化原有激活函數(shù)飽和的問題;Lin等人[118]提出了一種改進(jìn)的ReLU分割校正Activate函數(shù),通過改進(jìn)傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò),加入局部響應(yīng)歸一化層,并使用最大堆疊等方法,可改善圖像識(shí)別精度。徐浩等人[119]采用h-swish和s-sigmoid激活函數(shù)替換SSD模型中的相應(yīng)的函數(shù),這樣可以降低模型訓(xùn)練時(shí)的計(jì)算量,提升目標(biāo)車輛的檢測(cè)速度。周非等人[120]在CNN中使用sigmoid和softmax兩種激活函數(shù)來計(jì)算反饋誤差,相比使用一種激活函數(shù)反饋的誤差更精準(zhǔn),使得檢測(cè)時(shí)結(jié)果更準(zhǔn)確。

        池化層是目標(biāo)檢測(cè)的重要處理步驟之一,池化層往往在卷積層后面,通過池化來降低卷積層輸出的特征向量,同時(shí)改善結(jié)果,但是也存在一定問題,為此Hu等人[121]改進(jìn)池化層結(jié)構(gòu)來解決小目標(biāo)池化后失真的問題。劉淼等人[122]提出了一種指數(shù)可學(xué)習(xí)的冪函數(shù)softmax池化層,可提高檢測(cè)率。

        優(yōu)化損失函數(shù)也是深度學(xué)習(xí)目標(biāo)檢測(cè)中不可或缺的一部分,并在小目標(biāo)檢測(cè)中也取得了一定的成效。在不同模型中要么使用其他損失函數(shù),要么對(duì)原損失函數(shù)進(jìn)行改善,徐浩等人[119]采用了Focal Loss替換SSD網(wǎng)絡(luò)中的損失函數(shù),可減少易分樣本損失對(duì)總損失的影響,提高模型的準(zhǔn)確率。Lu等人[123]采用自適應(yīng)遞歸搜索技術(shù),在損失函數(shù)部分設(shè)置加權(quán)系數(shù)等方法。劉安旭等人[124]在卷積空間傳播網(wǎng)絡(luò)上使用深度誤差對(duì)數(shù)、深度信息梯度及表面法線三種損失函加權(quán)組合作為最終的損失函數(shù),增加了目標(biāo)物體的邊緣信息,減少邊界混合。目前很多學(xué)者也在這方面進(jìn)行更深入的探索,以達(dá)到對(duì)小目標(biāo)檢測(cè)的最佳效果。

        從應(yīng)用角度來說,很多復(fù)雜環(huán)境下不具備高性能的GPU,需要將目標(biāo)檢測(cè)部署在低性能CPU或移動(dòng)端。過大的網(wǎng)絡(luò)模型導(dǎo)致程序運(yùn)行緩慢或無法運(yùn)行,難以滿足實(shí)時(shí)檢測(cè)的要求。為了提高小目標(biāo)的檢測(cè)性能,開始將模型輕量化處理,如常用的SqueezeNet[125]、MobileNet[126-128]、ShuffleNet[129-130],并且應(yīng)用于深度學(xué)習(xí)網(wǎng)絡(luò)中,模型的介紹如表2所示。模型輕量化可提高檢測(cè)速度,如何提升檢測(cè)精度也是重點(diǎn),在應(yīng)用輕量化的同時(shí),學(xué)者們也提出了與輕量化模型結(jié)合的目標(biāo)檢測(cè)算法,如表3所示[131-137]。此外人們常用深度可分離卷積[138]、通道交換[139]、神經(jīng)網(wǎng)絡(luò)搜索技術(shù)[140]等方法來降低計(jì)算量以滿足不同應(yīng)用場(chǎng)景。

        表2 常用輕量化網(wǎng)絡(luò)模型介紹Table 2 Introduction to commonly used lightweight network models

        表3 結(jié)合輕量化策略的目標(biāo)檢測(cè)方法Table 3 Object detection methods combined with lightweighting strategies

        2.8 小目標(biāo)檢測(cè)算法優(yōu)缺點(diǎn)總結(jié)及性能對(duì)比

        從以上六個(gè)主要研究方向入手,對(duì)小目標(biāo)檢測(cè)算法的優(yōu)缺點(diǎn)進(jìn)行了整理和總結(jié),并將其放在表4中。此外,還有部分研究學(xué)者發(fā)現(xiàn)的基于深度學(xué)習(xí)的小目標(biāo)檢測(cè)算法也放在表4中[141-146],可以看出,小目標(biāo)檢測(cè)改進(jìn)算法在數(shù)據(jù)預(yù)處理、特征增強(qiáng)與豐富等方面進(jìn)行了改進(jìn),仍存在很多不足,需要各位學(xué)者共同研究與發(fā)展。

        表4 小目標(biāo)檢測(cè)研究方向優(yōu)缺點(diǎn)總結(jié)Table 4 Summary of advantages and disadvantages of research direction of small target detection

        3 常用小目標(biāo)檢測(cè)數(shù)據(jù)集

        數(shù)據(jù)集作為目標(biāo)檢測(cè)的關(guān)鍵一環(huán),除了上面提到的COCO數(shù)據(jù)集,還有一些公開的數(shù)據(jù)集,為此對(duì)這些數(shù)據(jù)集進(jìn)行整理。按照類型對(duì)數(shù)據(jù)集進(jìn)行了分類:交通標(biāo)志數(shù)據(jù)集、人臉檢測(cè)數(shù)據(jù)集、遙感數(shù)據(jù)集、水下圖像數(shù)據(jù)集、小行人及醫(yī)學(xué)影像數(shù)據(jù)集等,數(shù)據(jù)集雖不止這么多種類,但是小目標(biāo)多存在于上述提到的數(shù)據(jù)集中,將其整理在表5中。

        表5 小目標(biāo)檢測(cè)數(shù)據(jù)集信息Table 5 Small target detection data set information

        4 結(jié)束語

        本文回顧了深度學(xué)習(xí)的小目標(biāo)檢測(cè)算法,并對(duì)已有的算法進(jìn)行歸納總結(jié)。重點(diǎn)關(guān)注了當(dāng)下檢測(cè)相對(duì)困難的小目標(biāo)檢測(cè)問題,從六個(gè)方面分析了近些年來國(guó)內(nèi)外小目標(biāo)檢測(cè)算法,雖然現(xiàn)有的檢測(cè)算法已經(jīng)取得一定成效,但是對(duì)于精度和速度來說遠(yuǎn)不如大、中目標(biāo)的檢測(cè)效果好。隨著小目標(biāo)場(chǎng)景應(yīng)用廣泛性會(huì)對(duì)小目檢測(cè)性能的要求提高,因此小目標(biāo)性能還值得進(jìn)一步研究。

        (1)多尺度特征融合方面:FPN結(jié)構(gòu)與不同目標(biāo)檢測(cè)方法結(jié)合,通過多尺度特征融合獲得更多的特征信息提升小目標(biāo)檢測(cè)性能。但FPN本身屬于人工設(shè)計(jì),這種手工設(shè)計(jì)的特征金字塔結(jié)構(gòu)具有局限性;為此使用神經(jīng)架構(gòu)搜索等方式對(duì)特征金字塔結(jié)構(gòu)進(jìn)行設(shè)計(jì),通過訓(xùn)練自動(dòng)生成最優(yōu)的特征金字塔結(jié)構(gòu)將成為研究的重點(diǎn)。

        (2)完善訓(xùn)練方式:?jiǎn)我粩?shù)據(jù)集包含信息較少,限制網(wǎng)絡(luò)作用發(fā)揮,小目標(biāo)檢測(cè)往往需對(duì)大量數(shù)據(jù)進(jìn)行訓(xùn)練才能提升其精度。YOLOv2提出Image和COCO數(shù)據(jù)集,通過樹型結(jié)構(gòu)將兩者進(jìn)行有機(jī)整合,使訓(xùn)練實(shí)施成功,因此利用數(shù)據(jù)集聯(lián)合訓(xùn)練方式成為未來研方向之一。如果將包含大量小目標(biāo)信息的遙感衛(wèi)星圖像數(shù)據(jù)集、人臉識(shí)別等數(shù)據(jù)集相結(jié)合進(jìn)行訓(xùn)練,將提升小目標(biāo)檢測(cè)的適應(yīng)性。通過不同分辨率的輸入進(jìn)行多尺度訓(xùn)練可提高網(wǎng)絡(luò)對(duì)不同尺度檢測(cè)任務(wù)的適應(yīng)性,從而更好地檢測(cè)出小目標(biāo),因此多尺度訓(xùn)練方法也是提高小目標(biāo)檢測(cè)性能的發(fā)展方向之一。

        (3)模型可解釋性:小目標(biāo)檢測(cè)的模型改進(jìn)大多是基于實(shí)驗(yàn)結(jié)果的經(jīng)驗(yàn)評(píng)估或者工程應(yīng)用中的工程經(jīng)驗(yàn)。很多模型擁有數(shù)千萬甚至更多的參數(shù),但目前從學(xué)術(shù)研究來看只是大量數(shù)值擬合得到的結(jié)果,無法獲得參數(shù)本身分布規(guī)律。而大量卷積堆疊無法清楚了解模型的某一部分究竟從圖像中學(xué)習(xí)到了哪些知識(shí),只有通過不斷提高小目標(biāo)檢測(cè)模型的可解釋性等方式,才能更好地理解模型本身,提出更有針對(duì)性的小目標(biāo)檢測(cè)方法。

        (4)完善檢測(cè)數(shù)據(jù)集:深度學(xué)習(xí)發(fā)展離不開數(shù)據(jù)集,在文中也提到了小目標(biāo)檢測(cè)的重難點(diǎn)之一是由于數(shù)據(jù)集不夠完善造成的。雖然現(xiàn)在已經(jīng)在使用數(shù)據(jù)增強(qiáng)的方式在改善這種情況,但是始終不能從根本上解決問題,因此需要考慮建立一個(gè)特定的小目標(biāo)檢測(cè)數(shù)據(jù)集,作為訓(xùn)練樣本的方法。

        (5)結(jié)合傳統(tǒng)方法。深度學(xué)習(xí)方法雖是近些年的主流檢測(cè)方法,但是受小目標(biāo)本身包含信息少的限制,利用深度卷積網(wǎng)絡(luò)多次卷積對(duì)特征信息提取不太理想。因此考慮傳統(tǒng)的一些方式提取小目標(biāo)特征,如隨機(jī)森林法、特征匹配等,再和深度學(xué)習(xí)結(jié)合,可能會(huì)得到相對(duì)好一些的效果。

        猜你喜歡
        錨點(diǎn)卷積特征
        基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
        基于NR覆蓋的NSA錨點(diǎn)優(yōu)選策略研究
        5G手機(jī)無法在室分NSA站點(diǎn)駐留案例分析
        5G NSA錨點(diǎn)的選擇策略
        5G NSA組網(wǎng)下錨點(diǎn)站的選擇策略優(yōu)化
        如何表達(dá)“特征”
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        不忠誠(chéng)的四個(gè)特征
        基于傅里葉域卷積表示的目標(biāo)跟蹤算法
        抓住特征巧觀察
        中文在线天堂网www| 中文字幕亚洲在线第一页 | 美腿丝袜在线观看视频| 性色av一二三天美传媒| 亚洲中文字幕在线第二页| 无码精品黑人一区二区三区| 538亚洲欧美国产日韩在线精品| 白白色青青草视频免费观看| 亚洲国产丝袜久久久精品一区二区 | 亚洲天堂无码AV一二三四区| 日本免费一区二区精品| 免费人成视频网站在线不卡| 国产偷久久久精品专区| 亚洲成a人片在线观看无码| 亚洲欧美日韩精品高清| 日韩日本国产一区二区| 少妇无套裸按摩呻吟无呜| 亚洲色大成网站www久久九九| 无码aⅴ在线观看| 亚洲区精品久久一区二区三区女同| 黄色潮片三级三级三级免费| 一本色道无码不卡在线观看| 三年在线观看免费大全下载| 国产AV无码一区精品天堂| 性色av手机在线观看| 亚洲日本人妻少妇中文字幕| 玩弄人妻少妇精品视频| 国产精品毛片无码| 娇妻粗大高潮白浆| 91精品国产自拍视频| 免费在线黄色电影| 久久久久久伊人高潮影院| 日韩精品视频在线观看免费| 邻居少妇太爽在线观看| 黑人大群体交免费视频| 最近中文字幕视频完整版在线看| 四虎成人精品国产一区a| 精品国产麻豆免费人成网站| 狠狠综合久久av一区二区蜜桃| 午夜性无码专区| 日韩精品国产自在欧美|