李科岑,王曉強(qiáng)+,林 浩,李雷孝,楊艷艷,孟 闖,高 靜
1.內(nèi)蒙古工業(yè)大學(xué) 信息工程學(xué)院,呼和浩特010080
2.天津理工大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,天津300384
3.內(nèi)蒙古工業(yè)大學(xué) 數(shù)據(jù)科學(xué)與應(yīng)用學(xué)院,呼和浩特010080
4.內(nèi)蒙古農(nóng)業(yè)大學(xué) 計(jì)算機(jī)與信息工程學(xué)院,呼和浩特010011
目標(biāo)檢測是計(jì)算機(jī)視覺的一部分,根據(jù)整張圖像內(nèi)容進(jìn)行描述,并結(jié)合目標(biāo)物體的特征信息,確定該物體的類別與位置。目標(biāo)檢測將目標(biāo)的定位和識(shí)別合二為一,能夠在特定的環(huán)境下實(shí)時(shí)且準(zhǔn)確地檢測出目標(biāo)。目標(biāo)檢測技術(shù)常用于人臉檢測、智慧交通、無人駕駛、遙感目標(biāo)檢測、行人計(jì)數(shù)、安全系統(tǒng)等各大領(lǐng)域。隨著深度學(xué)習(xí)的發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)被廣泛應(yīng)用,基于深度學(xué)習(xí)的目標(biāo)檢測技術(shù)將目標(biāo)檢測推向發(fā)展新高潮。其中,在追求速度與精度并行的算法中,基于深度學(xué)習(xí)的單階段目標(biāo)檢測算法脫穎而出。與其他深度學(xué)習(xí)目標(biāo)檢測算法不同的是,單階段目標(biāo)檢測算法結(jié)構(gòu)簡單,可以直接檢測圖像輸出結(jié)果,沒有候選區(qū)域的分類,因此相比其他深度學(xué)習(xí)目標(biāo)檢測算法速度更快,計(jì)算效率更高。典型的單階段目標(biāo)檢測算法包括YOLO(you only look once)系列和SSD(single shot multibox detector)系列。但在單階段目標(biāo)檢測算法的研究過程中出現(xiàn)了很多問題,例如模型檢測精度較低,尤其對小目標(biāo)及遮擋目標(biāo)的檢測更為困難。為解決單階段目標(biāo)檢測與兩階段目標(biāo)檢測之間的精度差距,Lin 等人提出RetinaNet,解決了正負(fù)樣本不均衡的問題,改進(jìn)了背景樣本的權(quán)重,使得模型更能關(guān)注較難檢測的樣本。
由于小目標(biāo)物體分辨率較低且特征信息不明顯,如何更精準(zhǔn)地檢測到小目標(biāo)是目標(biāo)檢測領(lǐng)域的熱點(diǎn)研究問題。文獻(xiàn)[11]針對視頻目標(biāo)檢測算法面臨的挑戰(zhàn),從骨干網(wǎng)絡(luò)、算法結(jié)構(gòu)和數(shù)據(jù)集等方面總結(jié)了改進(jìn)后的視頻目標(biāo)檢測算法的優(yōu)勢和劣勢。文獻(xiàn)[12]針對邊界/語義增強(qiáng)、全局/局部結(jié)合和輔助網(wǎng)絡(luò)三方面的基于深度學(xué)習(xí)的顯著性目標(biāo)檢測進(jìn)行對比分析。文獻(xiàn)[13]總結(jié)了目標(biāo)類別檢測核心技術(shù)與該研究的難點(diǎn)和發(fā)展方向。文獻(xiàn)[14]從單階段目標(biāo)檢測、兩階段目標(biāo)檢測以及結(jié)合生成對抗網(wǎng)絡(luò)等方面總結(jié)了各種算法的改進(jìn)過程。這些綜述在目標(biāo)檢測的基礎(chǔ)上從數(shù)據(jù)類別、檢測特點(diǎn)以及算法改進(jìn)等方面總結(jié)了當(dāng)前主流的目標(biāo)檢測研究趨勢。但目前存在的基于深度學(xué)習(xí)的目標(biāo)檢測文獻(xiàn)綜述僅綜合了各種算法的優(yōu)缺點(diǎn),未系統(tǒng)地從某一方面歸納目標(biāo)檢測的改進(jìn)方法。
綜上所述,本文從單階段目標(biāo)檢測算法的角度出發(fā),總結(jié)了在此基礎(chǔ)上改進(jìn)的適用于小目標(biāo)檢測的方法。通過優(yōu)化Anchor Box、引入注意力機(jī)制、優(yōu)化殘差網(wǎng)絡(luò)和密集連接模塊、特征融合、特征增強(qiáng)、引入其他網(wǎng)絡(luò)、改進(jìn)損失函數(shù)等幾個(gè)方面的研究,總結(jié)歸納了基于深度學(xué)習(xí)的單階段小目標(biāo)檢測的最新研究成果及未來的研究方向。
在目標(biāo)檢測中對小目標(biāo)的定義有兩種方式,即相對尺寸的定義和絕對尺寸的定義。相對尺寸是根據(jù)國際光學(xué)工程學(xué)會(huì)(Society of Photo-Optical Instrumentation Engineers,SPIE)的定義,小目標(biāo)為在256×256 像素的圖像中目標(biāo)面積小于80 個(gè)像素,即小于256×256 像素的0.12%就為小目標(biāo)。另一種是絕對尺寸的定義,在MS COCO數(shù)據(jù)集中,尺寸小于32×32像素的目標(biāo)被認(rèn)為是小目標(biāo)。2016年,Chen等人將小目標(biāo)定義為在640×480 像素的圖像中,16×16 像素到42×42 像素的目標(biāo)。Braun 等人針對交通場景中的行人和非機(jī)動(dòng)車駕駛?cè)说葦?shù)據(jù),認(rèn)為在30 像素到60 像素且被遮擋小于40%的物體是小目標(biāo)物體。在航空圖像數(shù)據(jù)集DOTA與人臉檢測數(shù)據(jù)集WIDER FACE中將像素值范圍在10 像素至50 像素之間的目標(biāo)定義為小目標(biāo)。在行人識(shí)別數(shù)據(jù)集CityPersons中,定義高度小于75 像素的目標(biāo)為小目標(biāo)。對于航空圖像中的行人數(shù)據(jù)集TinyPerson,則將小目標(biāo)定義為分辨率在20 像素至32 像素之間,而且進(jìn)一步將像素值范圍在2 像素至20 像素之間的目標(biāo)定義為微小目標(biāo)??偟膩碚f,小目標(biāo)沒有精確唯一的定義,需要根據(jù)應(yīng)用場景確定。
小目標(biāo)物體在圖像中覆蓋的區(qū)域較小,像素值在幾十像素甚至幾像素之間,其分辨率較低,特征信息涵蓋較少,缺乏特征表達(dá)能力。經(jīng)調(diào)研,導(dǎo)致小目標(biāo)物體在檢測過程中精度較低的原因主要有以下幾點(diǎn):
(1)特征信息較少。在常用的小目標(biāo)數(shù)據(jù)集中,小目標(biāo)樣本分辨率較低,標(biāo)注面積占比小,包含的特征信息不明顯,且易受噪音點(diǎn)的干擾,進(jìn)而導(dǎo)致模型無法對小目標(biāo)進(jìn)行精確定位。
(2)卷積神經(jīng)網(wǎng)絡(luò)的下采樣率較大。卷積神經(jīng)網(wǎng)絡(luò)及其衍生算法是小目標(biāo)檢測的主流算法。在檢測過程中,經(jīng)過不斷地下采樣和特征提取,輸出的特征圖尺度會(huì)不斷縮小。這很有可能導(dǎo)致下采樣步幅大于小目標(biāo)的尺寸,以致向下傳遞的特征圖中可能未包含小目標(biāo)的特征信息。
(3)數(shù)據(jù)集中正負(fù)樣本分布不均。在大多數(shù)目標(biāo)檢測數(shù)據(jù)集中包含的小目標(biāo)樣本數(shù)占比較小,而大中目標(biāo)樣本數(shù)量居多。在訓(xùn)練過程中,模型會(huì)更關(guān)注大中目標(biāo)樣本,而忽略小目標(biāo)樣本,使得小目標(biāo)樣本只出現(xiàn)在樣本集中很少被訓(xùn)練到的位置,為網(wǎng)絡(luò)適應(yīng)數(shù)據(jù)集帶來困難。
(4)先驗(yàn)框設(shè)置不合理。在設(shè)置Anchor Box 時(shí),可能只有一小部分與小目標(biāo)的真實(shí)目標(biāo)框(Ground Truth)重疊,并且Anchor Box 寬高比多變,很難精確定位到小目標(biāo)物體。
(5)交并比閾值設(shè)置不合理。目前大部分檢測器的匹配策略是用檢測生成的Bounding Box 與Ground Truth 之間的交并比(intersection over uion,IoU)來劃分正負(fù)樣本。一般設(shè)定Bounding Box 與Ground Truth之間IoU≥0.5 所對應(yīng)的Anchor Box 中的目標(biāo)為正樣本,其余為負(fù)樣本。自定義閾值會(huì)對正負(fù)樣本的選取造成很大的影響,而且該匹配方式更適合大中目標(biāo)樣本,容易出現(xiàn)小目標(biāo)樣本匹配較少、大中目標(biāo)樣本匹配較多的問題。
YOLO V3 算法使用-means 聚類從Ground Truth 中得到一些不同寬高比的框,即Anchor Box,并通過實(shí)驗(yàn)的方式在這些Anchor Box 中找出了9 個(gè)最優(yōu)值。但通過這種方式產(chǎn)生的Anchor Box 往往定位不準(zhǔn)確,容易造成正負(fù)樣本不均衡的問題。同時(shí),基于不同面積和寬高比的錨點(diǎn)框是一組預(yù)先定義的超參,通常的錨點(diǎn)框分為大、中、小三類尺寸,對于小目標(biāo)數(shù)據(jù)集,固定錨點(diǎn)框得到候選框的設(shè)計(jì)方式會(huì)約束目標(biāo)檢測模型。
周慧等人提出自適應(yīng)錨點(diǎn)框(adaptive anchor boxes,AAB)。該方法采用基于形狀相似距離的DBSCAN(density-based spatial clustering of application with noise)聚類算法生成Anchor Box,提高了對目標(biāo)區(qū)域的定位技術(shù)。采用基于形狀相似距離的DBSCAN 聚類結(jié)果如圖1 所示。
圖1 原始錨點(diǎn)框與自適應(yīng)錨點(diǎn)框?qū)Ρ菷ig.1 Comparison of original anchor boxes and adaptive anchor boxes
從圖1 中可以看出自適應(yīng)錨點(diǎn)框相比原始錨點(diǎn)框尺寸變化較大,能適應(yīng)不同尺寸的目標(biāo),應(yīng)用于SAR圖像的船舶目標(biāo)能更好地反映目標(biāo)的尺寸信息。
改變聚類方式可以訓(xùn)練得到不同的Anchor Box。采用DBSCAN 結(jié)合-means 的聚類形式產(chǎn)生Anchor Box,解決了-means 需要手動(dòng)設(shè)定值的問題。李云紅等人在DBSCAN 聚類之后,將經(jīng)過誤差平方和計(jì)算得到的值作為-means 聚類算法的輸入,然后對數(shù)據(jù)集進(jìn)行訓(xùn)練得到聚類候選框。改進(jìn)后的算法提升了小目標(biāo)物體與遮擋目標(biāo)物體識(shí)別的準(zhǔn)確率。羅建華等人和劉家樂等人采用-means++聚類的思想來代替-means 提取先驗(yàn)框中心點(diǎn)。但后者通過-means++聚類算法初始化Mini Batch-means的方法對數(shù)據(jù)集進(jìn)行訓(xùn)練得到先驗(yàn)框,相比前者的設(shè)計(jì)大大加快了數(shù)據(jù)集的聚類時(shí)間。Mu 等人改進(jìn)SSD 算法中Default Box 的設(shè)置,使用-medoids 算法計(jì)算Default Box 的初始橫縱比,優(yōu)化了傳統(tǒng)SSD 算法的訓(xùn)練過程,緩解了應(yīng)用在水面目標(biāo)檢測領(lǐng)域定位和分類不準(zhǔn)確的問題。
通過改變聚類機(jī)制可以充分體現(xiàn)不同聚類算法對訓(xùn)練產(chǎn)生的Anchor Box 的友好程度。但一些聚類算法對輸入?yún)?shù)較敏感,不能處理離群點(diǎn)或邊緣點(diǎn),對于密度不均勻的數(shù)據(jù)集,聚類效果差異較大。
在目標(biāo)檢測的過程中往往需要骨干網(wǎng)絡(luò)(Back-Bone)作為目標(biāo)的特征提取器,常見的骨干網(wǎng)絡(luò)有VGG-Net、SPPNet、ResNet、MobileNet、DenseNet、GoogleNet、ShuffleNet等。
YOLO V3 模型采用DarkNet-53 作為骨干網(wǎng)絡(luò),但對于特定的數(shù)據(jù)集,BackBone 中不同尺度對應(yīng)的特征重要性不同。MobileNet_YOLO V3模型采用MobileNet 作為骨干網(wǎng)絡(luò),將標(biāo)準(zhǔn)卷積換為深度可分離卷積,使用逐通道卷積和逐點(diǎn)卷積的方式,優(yōu)化了標(biāo)準(zhǔn)卷積中對所有通道都進(jìn)行操作的缺陷。王建軍等人通過稀疏訓(xùn)練統(tǒng)計(jì)不同尺度特征圖中無效特征圖的比例來調(diào)整網(wǎng)絡(luò)深度,進(jìn)而改善網(wǎng)絡(luò)模型的性能。DarkNet-53 作為骨干網(wǎng)絡(luò)時(shí)不能滿足實(shí)時(shí)性要求。Li等人參考ShuffleNet和通道注意力機(jī)制中SENet(squeeze-and-excitation network)的思想構(gòu)造BackBone,在保證速度的同時(shí)提升了準(zhǔn)確度。
雖然YOLO V3 借助殘差網(wǎng)絡(luò)的思想實(shí)現(xiàn)了三尺度預(yù)測,融合了多特征信息,但其模型結(jié)構(gòu)較復(fù)雜,損失了一定的檢測速度,且其改進(jìn)算法在提升小目標(biāo)檢測精度的情況下,忽略了大、中目標(biāo)的檢測效果。2020 年4 月,Bochkovskiy 等人在Redmon 等人的研究基礎(chǔ)上提出YOLO V4 模型。該模型借鑒跨階段局部網(wǎng)絡(luò)(cross stage partial network,CSPNet)的思想,構(gòu)造CSPDarkNet53作為骨干網(wǎng)絡(luò),降低了模型中參數(shù)的運(yùn)算量,豐富了梯度組合信息。但在YOLO V4 模型中隨著網(wǎng)絡(luò)層數(shù)的不斷加深,過多的卷積操作直接導(dǎo)致小目標(biāo)特征信息的減少甚至消失,尤其對遙感小目標(biāo)更是如此。謝俊章等人分析了遙感目標(biāo)尺寸較小且分布密集的特點(diǎn),簡化了YOLO V4的特征提取網(wǎng)絡(luò)。同時(shí)為防止網(wǎng)絡(luò)退化和梯度消失,采用殘差網(wǎng)絡(luò)取代連續(xù)的卷積操作,將深層特征信息加深提取,提升了密集小目標(biāo)檢測的準(zhǔn)確率和召回率。
Jocher提出YOLO V5 模型,該模型分為YOLO V5s、YOLO V5m、YOLO V5l、YOLO V5x 四種。與YOLO V4 模型不同的是,YOLO V5 提出兩種結(jié)構(gòu)的CSPNet,并分別用于特征提取階段與特征增強(qiáng)階段。其次,YOLO V5 在骨干網(wǎng)絡(luò)中引入Focus 模塊,該模塊可以實(shí)現(xiàn)特征圖的切片操作,降低特征圖尺寸,提升通道數(shù)。各模型在COCO 數(shù)據(jù)集測試性能如圖2所示。其中,YOLO V5s網(wǎng)絡(luò)結(jié)構(gòu)最簡單,AP精度最低,但可用于檢測大目標(biāo),保證最快的檢測速度。
圖2 YOLO V5 算法性能測試對比圖Fig.2 Comparison chart of YOLO V5 algorithms performance
在YOLO 網(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ)上設(shè)計(jì)輕型網(wǎng)絡(luò)結(jié)構(gòu)可以加快網(wǎng)絡(luò)訓(xùn)練速度。Pan 等人使用DenseNet作為YOLO-Tiny 模型中的BackBone,將自身的特征層用作所有后續(xù)層的輸入,提高了網(wǎng)絡(luò)的特征利用率,減少了冗余參數(shù)。李航等人借鑒DenseNet 設(shè)計(jì)了slim-densenet,使得特征可以跳過部分網(wǎng)絡(luò)層直接傳遞至后端網(wǎng)絡(luò),并將網(wǎng)絡(luò)中7×7、5×5、3×3 的卷積層改為深度可分離卷積,進(jìn)一步加快了特征在模型中的傳遞。輕量級(jí)的網(wǎng)絡(luò)架構(gòu)主干網(wǎng)絡(luò)較淺,難以提取出更深層次的語義信息。對于特定領(lǐng)域的數(shù)據(jù)集,輕量級(jí)網(wǎng)絡(luò)檢測精度高,速度快,訓(xùn)練效果好。但由于官方數(shù)據(jù)集中含有的數(shù)據(jù)類型較多,模型泛化能力較差,導(dǎo)致檢測精度降低。優(yōu)化YOLO 系列模型中的骨干網(wǎng)絡(luò)如表1 所示。
表1 優(yōu)化YOLO 系列模型中的骨干網(wǎng)絡(luò)Table 1 Optimizing backbone network in YOLO series models
SSD 算法中采用VGG16 作為骨干網(wǎng)絡(luò),但未進(jìn)行批量歸一化操作,使得梯度更新不穩(wěn)定。并且深層特征圖位置信息弱,對深層次的特征信息學(xué)習(xí)能力不足,對小目標(biāo)檢測不友好。為提取更多的特征信息,需要增加更多的網(wǎng)絡(luò)層數(shù),但直接增加會(huì)存在模型損耗問題。ResNet 網(wǎng)絡(luò)構(gòu)造殘差塊解決了由于卷積層加深而導(dǎo)致的模型退化問題。利用這一優(yōu)點(diǎn),F(xiàn)u 等人提出DSSD(deconvolutional single shot detector)檢測器。該模型將SSD 中的骨干網(wǎng)絡(luò)修改為ResNet101,同時(shí)增加Deconvoluational 模塊和Prediction 模塊,提升了模型對小目標(biāo)物體的識(shí)別和分類能力。張侶等人在骨干網(wǎng)絡(luò)中引入注意力機(jī)制和ResNet 的思想,并在殘差模塊外層增加skip connection 構(gòu)成嵌套殘差結(jié)構(gòu),大幅提升了網(wǎng)絡(luò)的特征提取能力。趙鵬飛等人采用分組殘差的方式重新構(gòu)建DarkNet-53,結(jié)合不同特征通道的特征信息,大幅提升了模型對通道特征信息的利用。
雖然ResNet 解決了梯度消失等問題,但該網(wǎng)絡(luò)具有較明顯的冗余性,對每層的目標(biāo)信息提取能力不足。引入DenseNet 可以實(shí)現(xiàn)特征的重復(fù)利用,降低冗余。Shen 等人提出DSOD(deeply supervised object detectors)算法,該模型無需預(yù)訓(xùn)練,可直接從零開始訓(xùn)練檢測模型。其骨干網(wǎng)絡(luò)基于DenseNet,能夠?yàn)闄z測器提供深度監(jiān)督,避免梯度消失的問題。在此基礎(chǔ)上,奚琦等人通過實(shí)驗(yàn)對比分析,將DenseNet 作為骨干網(wǎng)絡(luò),并對其進(jìn)行改進(jìn),最大程度地保留了目標(biāo)物體的細(xì)節(jié)信息,提升了對小目標(biāo)物體的檢測。優(yōu)化SSD 骨干網(wǎng)絡(luò)如表2 所示。
表2 優(yōu)化SSD 骨干網(wǎng)絡(luò)Table 2 Optimizing SSD backbone network
為滿足RetinaNet 網(wǎng)絡(luò)在小目標(biāo)檢測領(lǐng)域的實(shí)時(shí)性要求,Cheng 等人提出Tiny-RetinaNet。該網(wǎng)絡(luò)結(jié)合特征金字塔網(wǎng)絡(luò)(feature pyramid network,F(xiàn)PN)提出MobileNetV2-FPN 作為骨干網(wǎng)絡(luò),采用輕量化的深度可分離卷積模塊減少參數(shù),然后結(jié)合Stem Block和SENet 減少原始圖像的信息丟失。在PASCAL VOC2007 和PASCAL VOC2012 數(shù)據(jù)集上的mAP 分別為73.8%和71.4%。
根據(jù)骨干網(wǎng)絡(luò)各自擁有的性能,可以將其優(yōu)點(diǎn)很好地應(yīng)用在單階段目標(biāo)檢測中作為特征提取網(wǎng)絡(luò),減少模型訓(xùn)練參數(shù),加強(qiáng)特征的前向傳播。不同的優(yōu)化骨干網(wǎng)絡(luò)算法在公共數(shù)據(jù)集上的測試結(jié)果如表3 所示。雖然改進(jìn)骨干網(wǎng)絡(luò)后的檢測精度已得到大幅提升,但目前骨干網(wǎng)絡(luò)仍存在模型較復(fù)雜、泛化能力較弱的問題。如何在加強(qiáng)小目標(biāo)特征提取能力的同時(shí)減少內(nèi)存消耗,仍是小目標(biāo)檢測的重點(diǎn)關(guān)注問題。并且當(dāng)小目標(biāo)處于復(fù)雜的背景環(huán)境時(shí),傳統(tǒng)的骨干網(wǎng)絡(luò)易受背景信息的干擾,對小目標(biāo)的特征提取能力不足,不能很好地適應(yīng)小目標(biāo)。
表3 不同算法在公共數(shù)據(jù)集上的測試結(jié)果Table 3 Results of different algorithms in public datasets
針對小目標(biāo)檢測來說,當(dāng)卷積神經(jīng)網(wǎng)絡(luò)想要學(xué)習(xí)更多的特征信息時(shí),就需要加深網(wǎng)絡(luò)結(jié)構(gòu),模型會(huì)變復(fù)雜。同時(shí),小目標(biāo)本身特征表達(dá)能力較弱,因此對小目標(biāo)特征信息的增強(qiáng)是必不可少的。引入通道注意力機(jī)制和空間注意力機(jī)制往往可以使神經(jīng)網(wǎng)絡(luò)關(guān)注與任務(wù)相關(guān)的通道和區(qū)域,然后為其分配合適的權(quán)重。通道注意力機(jī)制中的SE(squeeze-andexcitation)如圖3 所示。
圖3 SE 模塊Fig.3 SE block
圖3 中對于任意給定的變換:→,特征通過Squeeze 操作,獲得通道響應(yīng)的全局分布,形成通道描述符;然后通過Excitation 操作,學(xué)習(xí)對各通道的依賴程度,并根據(jù)依賴程度對不同的特征圖進(jìn)行調(diào)整,特征圖被重新加權(quán);最后將輸出結(jié)果直接饋送至后續(xù)層。
徐誠極等人為使邊界框定位更加準(zhǔn)確提出Attention-YOLO。該算法結(jié)合兩種注意力方式,將只引入通道注意力機(jī)制和同時(shí)引入兩種注意力機(jī)制進(jìn)行對比,最后在殘差連接時(shí)加入二階項(xiàng)來減少特征融合過程中的信息損失,得到泛化性能更好的網(wǎng)絡(luò)。在目標(biāo)檢測網(wǎng)絡(luò)中,淺層特征圖缺乏小目標(biāo)的上下文語義信息。為了提升MobileNet_YOLO V3 的檢測能力,張?zhí)諏幍热颂岢龆喑叨忍卣魅诤献⒁饬W(wǎng)絡(luò)(multi-scale feature-fusion attention network,MSFAN)。該網(wǎng)絡(luò)設(shè)計(jì)了一個(gè)特征融合注意力機(jī)制,特征融合模塊獲取特征的全局空間信息,注意力機(jī)制產(chǎn)生通道間的非線性關(guān)系。兩者結(jié)合提升了網(wǎng)絡(luò)前向傳播時(shí)的特征表達(dá)能力,充分提取了小目標(biāo)的細(xì)節(jié)信息。Li 等人針對小目標(biāo)和遮擋目標(biāo)提出YOLO-CAN,該模型在殘差結(jié)構(gòu)中引入注意力機(jī)制,然后通過上采樣融合不同尺度的特征圖,提高小目標(biāo)物體的特征表達(dá)能力。
結(jié)合注意力機(jī)制可以使模型聚焦于局部信息。李文濤等人針對SSD 算法的不足設(shè)計(jì)了一種鄰域局部通道注意力模塊。該模塊首先對各通道分別進(jìn)行不降維全局平均池化;通過1×1 卷積來獲得各通道及其個(gè)鄰域通道間的局部交換信息;對每個(gè)通道進(jìn)行權(quán)值重分配。然后在特征融合模塊提出包含通道注意力機(jī)制的Bottleneck 模塊。該模塊將融合之后的特征縮減,得到7 組不同尺度的特征圖,實(shí)現(xiàn)了不同通道間的信息交互。麻森權(quán)等人針對SSD 算法目標(biāo)信息提取不充分的問題,提出在SSD 模型中引入注意力機(jī)制,并通過特征融合抑制無關(guān)信息,提高檢測精度。趙鵬飛等人采用高效通道注意力模塊(efficient channel attention module,ECAM),加深對不同通道重要性的學(xué)習(xí),加強(qiáng)淺層特征的感知能力。
RetinaNet 算法不能充分提取不同階段的特征信息,使用密集檢測造成了大量的無用邊界框,占用了不必要的存儲(chǔ)空間。同時(shí),該算法忽略了邊界框回歸的重要性,導(dǎo)致邊界框回歸不準(zhǔn)確。于敏等人引入多光譜通道注意力(multi-spectral channel attention,MCA)模塊優(yōu)化RetinaNet 的骨干網(wǎng)絡(luò)。在ResNet中插入MCA,提取不同信息的頻率分量并將其合并,以此來強(qiáng)化不同階段特征信息的提取。不同注意力機(jī)制融合策略在公共數(shù)據(jù)集測試結(jié)果如表4 所示。
表4 引用注意力機(jī)制在公共數(shù)據(jù)集上的測試結(jié)果Table 4 Test results of using attention in public datasets
復(fù)雜環(huán)境下的小目標(biāo)物體易受背景信息的影響,特征提取網(wǎng)絡(luò)能夠提取的語義信息十分有限。在目標(biāo)檢測特征提取過程中,淺層特征圖含分辨率較高的特征位置信息,可用來提升邊界框回歸精度,但其語義信息較少,易受噪音點(diǎn)的干擾;深層特征圖含較強(qiáng)的語義信息,但其分辨率較低,細(xì)節(jié)表達(dá)能力較差。引入特征融合與特征增強(qiáng)模塊可以有效地將兩者結(jié)合,取長補(bǔ)短,提升對小目標(biāo)的檢測能力。
為實(shí)現(xiàn)小目標(biāo)細(xì)粒度檢測,鄭秋梅等人將YOLO V3 中的3 個(gè)尺度檢測擴(kuò)展為4 個(gè)尺度檢測,分別對13×13、26×26、52×52 像素的特征圖進(jìn)行2 倍上采樣操作,并將其與淺層特征圖進(jìn)行級(jí)聯(lián),分別檢測融合后4 個(gè)分支上的特征信息。而對于圖像背景信息較復(fù)雜的小目標(biāo),多尺度檢測利用高分辨率特征會(huì)引入過多的背景噪聲,造成模型收斂速度緩慢甚至難以收斂的結(jié)果。宋忠浩等人針對YOLO V3中未區(qū)分不同特征之間重要性的差異,提出具有加權(quán)策略的自適應(yīng)特征融合,使得不同尺度的特征圖在融合階段具有不同的權(quán)重。改進(jìn)后的模型在DIOR遙感數(shù)據(jù)集上的mAP 達(dá)到60.3%。為加強(qiáng)通道間的特征交互,鞠默然等人在特征融合模塊之后加入SENet,利用自動(dòng)學(xué)習(xí)特征通道間的重要性輸出各尺度的預(yù)測結(jié)果。
在SSD 檢測器中,由淺層生成的小目標(biāo)特征缺乏語義信息,并且小目標(biāo)嚴(yán)重依賴于上下文。針對此問題Li 等人結(jié)合FPN 的思想將輕量級(jí)的特征融合引入SSD,合并不同層的特征圖生成特征金字塔,充分利用了小目標(biāo)特征信息。Shi等人提出FFESSD(single shot object detection with feature enhancement and fusion)。該方法采用SFE(shallow feature enhancement)模塊增強(qiáng)淺層語義信息,采用DFE(deep feature enhancement)模塊使深度特征映射具有關(guān)于輸入圖像的更多信息。趙鵬飛等人為豐富淺層特征信息,提出特征增強(qiáng)模塊(feature enhancement moudle,F(xiàn)EM),并將經(jīng)過FEM 模塊后的特征圖與通道降維后的特征圖進(jìn)行拼接。但通道拼接操作忽略了各通道之間的相互關(guān)系,因此在融合操作后又加入ECAM(efficient channel attention module)模塊充分挖掘小目標(biāo)的上下文特征信息。不同特征融合策略在公共數(shù)據(jù)集測試結(jié)果如表5 所示。
表5 不同特征融合策略在公共數(shù)據(jù)集上的測試結(jié)果Table 5 Test results of different feature fusion strategies in public datasets
特征融合與特征增強(qiáng)能夠結(jié)合淺層與深層的特征信息,充分利用多尺度輸出。但特征融合的串聯(lián)操作不能反映通道間的相關(guān)性,特征之間信息交互不完全。而注意力機(jī)制可以通過不同的權(quán)重分配學(xué)習(xí)通道間的特征信息。采取特征融合與注意力機(jī)制結(jié)合的方法能夠加強(qiáng)特征的提取能力。但如何合理地使用注意力機(jī)制以及合理地進(jìn)行特征融合仍是未來的研究方向。
在傳統(tǒng)的深度學(xué)習(xí)目標(biāo)檢測算法中會(huì)結(jié)合一些網(wǎng)絡(luò)結(jié)構(gòu),融合這些網(wǎng)絡(luò)結(jié)構(gòu)的優(yōu)點(diǎn)可以使網(wǎng)絡(luò)模型具有更好的泛化能力。傳統(tǒng)的目標(biāo)檢測網(wǎng)絡(luò)經(jīng)過不斷的卷積之后,得到分辨率很低的特征圖,損失了空間結(jié)構(gòu)。趙文清等人針對關(guān)聯(lián)度較高的數(shù)據(jù)集,改進(jìn)HRNet網(wǎng)絡(luò)并引入長短期記憶網(wǎng)絡(luò)(long short term memory,LSTM),構(gòu)建了一種高分辨率的網(wǎng)絡(luò)結(jié)構(gòu)。該模型采用先降低分辨率再提升分辨率的特征串聯(lián)交互方式提高模型性能。
魯博等人對YOLOv3-Tiny 做出改進(jìn),在原網(wǎng)絡(luò)模型的基礎(chǔ)上引入Bi-FPN 特征金字塔結(jié)構(gòu),并重新定義了一種上采樣模式,豐富了目標(biāo)的語義信息,提高了對小目標(biāo)檢測的精確度。潘昕暉等人在YOLO V3 的基礎(chǔ)上結(jié)合了CSPNet。該網(wǎng)絡(luò)將某一特征層分為兩部分,一部分經(jīng)少量處理與特征提取后的另一部分融合,形成局部過渡層;然后通過分塊合并,使梯度路徑的數(shù)量變?yōu)樵瓉淼膬杀叮瑢?shí)現(xiàn)了更豐富的梯度組合,加強(qiáng)了模型自主學(xué)習(xí)能力,降低了內(nèi)存消耗;之后引入Bi-FPN 網(wǎng)絡(luò)對特征進(jìn)行增強(qiáng),通過自頂向下以及自底向上的方式對特征層進(jìn)行新一輪融合,實(shí)現(xiàn)了對小目標(biāo)檢測效果的明顯提升。
在單階段目標(biāo)檢測算法中引入其他功能的網(wǎng)絡(luò)結(jié)構(gòu),不僅能增強(qiáng)小目標(biāo)的檢測能力,還可以根據(jù)不同網(wǎng)絡(luò)結(jié)構(gòu)的功能適應(yīng)不同環(huán)境下的小目標(biāo),如對密集型數(shù)據(jù)的處理以及對關(guān)聯(lián)性較強(qiáng)數(shù)據(jù)的處理。但是該類方法需要針對特定的數(shù)據(jù)融合恰當(dāng)?shù)木W(wǎng)絡(luò)結(jié)構(gòu),對普遍的小目標(biāo)數(shù)據(jù)不適用,遷移學(xué)習(xí)能力較弱。
IoU 是進(jìn)行目標(biāo)檢測算法性能評價(jià)的一個(gè)非常重要的函數(shù),交并比的值代表預(yù)測框和真實(shí)框交集和并集的比值。周慧等人利用聚類生成的Anchor Box 計(jì)算自適應(yīng)IoU 閾值(adative threshold section,ATS)。ATS首先選取候選樣本中心點(diǎn)與Ground Truth中心點(diǎn)距離最小的為候選正樣本;其次計(jì)算每個(gè)候選正樣本與Ground Truth的IoU值,并計(jì)算每一層特征圖IoU 的均值和方差;最后規(guī)定若其IoU 值大于該層IoU均值和方差之和,則認(rèn)為是正樣本,否則為負(fù)樣本。
但若預(yù)測框和真實(shí)框之間不相交,如圖4 所示,IoU 的值為0,無法得到優(yōu)化方向。
圖4 兩目標(biāo)框IoU 為0Fig.4 IoU of two boxes is 0
為解決這一問題,Rezatofighi 等人提出GIoU(generalized intersection over union)來優(yōu)化兩個(gè)目標(biāo)框的面積。對于任意的兩個(gè)預(yù)測框和真實(shí)框、,首先找到、的最小閉包區(qū)域,并計(jì)算其面積A;然后計(jì)算閉包區(qū)域中不包含、的區(qū)域占閉包區(qū)域的比值;最后使用IoU 減去該比值得到GIoU,如式(1)所示。
Yang 等人使用GIoU 代替YOLO V3 模型 中的IoU,進(jìn)一步提高了目標(biāo)檢測的定位精度。鄒承明等人對GIoU 進(jìn)行討論,優(yōu)化網(wǎng)絡(luò)中真實(shí)框與預(yù)測框的重疊度。但若、重疊,此時(shí)的GIoU 便退化為IoU。因此,Zheng等人提出DIoU。DIoU可以最小化兩個(gè)目標(biāo)框之間的距離,DIoU的表達(dá)式如式(2)所示。
式(2)中,表示預(yù)測框與真實(shí)框中心點(diǎn)的距離,表示兩者閉包矩形的對角線長度。
Liang 等人采用DIoU 作為YOLO V3 模型中的邊框回歸機(jī)制,考慮了Ground Truth 與Anchor Box 之間的距離和重疊率,使得邊界框回歸更加穩(wěn)定,避免了IoU、GIoU 等訓(xùn)練過程中出現(xiàn)的發(fā)散問題。潘昕暉等人引用DIoU 并對其做出改進(jìn),對分子上的歐氏距離開平方降低其權(quán)重值,然后在DIoU 中加入懲罰項(xiàng),來控制預(yù)測框的寬高盡快地向真實(shí)框的寬高靠近。改進(jìn)后的DIoU 表達(dá)式如式(4)所示。
式(4)中,用來衡量長寬比的一致性,為人工設(shè)置的懲罰項(xiàng)。
但若兩個(gè)目標(biāo)框的中心點(diǎn)重合,長寬比不同時(shí),DIoU 便不再發(fā)生變化,因此在DIoU 的基礎(chǔ)上Zheng等人又提出CIoU。CIoU 總結(jié)了兩個(gè)目標(biāo)框之間的重疊面積、中心點(diǎn)距離和長寬比,相比DIoU 來說CIoU 的收斂效果更好,其表達(dá)式如式(5)所示。
式(6)中,和表示真實(shí)框的寬和高,和表示預(yù)測框的寬和高。
Li 等人總結(jié)了YOLO V3 中GIoU 的優(yōu)缺點(diǎn),采用CIoU 計(jì)算預(yù)測框與真實(shí)框的寬高比。將CIoU 損失作為Bounding Box 的回歸損失,有效地提高了模型訓(xùn)練過程中Bounding Box 的收斂速度,使模型檢測的準(zhǔn)確性達(dá)到了預(yù)期的效果。
隨著對交并比函數(shù)的不斷優(yōu)化,目前的交并比函數(shù)已經(jīng)考慮到預(yù)測框與真實(shí)框之間的面積比、中心點(diǎn)距離比以及長寬比,并且可以全面且綜合性地評價(jià)兩個(gè)目標(biāo)框之間的重合程度,能很好地適應(yīng)各種情況的目標(biāo)數(shù)據(jù),使得預(yù)測框可以盡可能地向真實(shí)框靠近。但對于IoU 閾值的選取大多還是自定義閾值,未能充分地考慮正負(fù)樣本之間的平衡性。此外,CIoU 作為目前最優(yōu)的交并比函數(shù)并不是每次都能達(dá)到最好的訓(xùn)練結(jié)果,對交并比函數(shù)的選取還應(yīng)視實(shí)際情況而定。
傳統(tǒng)的YOLO 損失函數(shù)包含定位損失、置信度損失以及分類損失。YOLO 采用誤差平方和的方式計(jì)算損失函數(shù),其表達(dá)式如式(8)所示。
對于不同的檢測方法選取不同的損失函數(shù)會(huì)得到不同的收斂效果。通過改進(jìn)YOLO、SSD 算法的損失函數(shù),可以使小目標(biāo)物體的定位和檢測更加準(zhǔn)確。單美靜等人對Tiny YOLO 進(jìn)行改進(jìn),提出L-YOLO模型。該模型使用高斯損失函數(shù)作為邊界框的定位損失,同時(shí)考慮到定位的不確定性、邊界框置信度以及類別概率,降低了對目標(biāo)的誤檢和漏檢。L-YOLO的高斯邊界框定位損失如式(9)所示。
為了加快損失函數(shù)的收斂速度,解決正負(fù)樣本不均衡的問題,越來越多的人參照RetinaNet 中的損失函數(shù)將Focal Loss 函數(shù)作為邊框損失,既解決了正負(fù)樣本不均衡的問題,也解決了較易分類樣本與較難分類樣本不均衡的問題。Focal Loss函數(shù)表達(dá)式如(10)所示。
其中,用來平衡正負(fù)樣本的權(quán)重;為經(jīng)過激活函數(shù)的預(yù)測輸出,其值在(0,1)之間;(1-)聚焦較難訓(xùn)練的負(fù)樣本,且≥0。
張炳力等人針對夜間小目標(biāo)檢測效果差的問題,分別優(yōu)化了RetinaNet 網(wǎng)絡(luò)的分類損失和定位損失。在分類損失中分別對正負(fù)樣本設(shè)置系數(shù)并增加與IoU 關(guān)聯(lián)系數(shù),在中心點(diǎn)的定位損失中引入綜合預(yù)設(shè)框、目標(biāo)框以及預(yù)測框信息的系數(shù),消除了模型對不同大小目標(biāo)框的敏感度。
張思宇等人針對行人檢測將SSD 損失函數(shù)改為二分分類損失函數(shù),為使損失函數(shù)更快地收斂,將與按1∶1 的比例進(jìn)行計(jì)算,并將正則化項(xiàng)加入損失函數(shù)。鄭秋梅等人針對小目標(biāo)輸出損失函數(shù)較小的問題對待檢測物體寬高進(jìn)行加權(quán),降低大目標(biāo)誤差對小目標(biāo)檢測的影響,改進(jìn)后的損失函數(shù)使用平方和損失且考慮真實(shí)邊框的尺寸,加速了模型收斂。
在目標(biāo)檢測任務(wù)中損失函數(shù)的主要功能是保證定位更加準(zhǔn)確,識(shí)別精度更高。然而不同的模型所需的損失函數(shù)不同,對于預(yù)測框分類和回歸的結(jié)果也不同。在選取損失函數(shù)時(shí),應(yīng)通過實(shí)驗(yàn)綜合評價(jià)損失函數(shù)對模型的影響,取長避短,提升對小目標(biāo)的定位和識(shí)別精度。
針對YOLO 系列算法實(shí)現(xiàn)多尺度檢測進(jìn)行改進(jìn),結(jié)合特征金字塔的思想,可以提取不同尺度的特征分支,既利用了更多的高分辨率特征信息,又未對模型收斂速度造成影響,在實(shí)時(shí)性和檢測精度之間實(shí)現(xiàn)了較好的平衡。同時(shí),增加檢測尺度、使用圖像分割以及根據(jù)不同尺度分配不同Anchor Box等方法可以增強(qiáng)小目標(biāo)的識(shí)別能力,滿足不同尺度特征圖對不同Anchor Box 的敏感程度。
但大多數(shù)的多尺度檢測采用FPN 來解決目標(biāo)實(shí)例尺度變化對模型檢測的影響。FPN 旨在根據(jù)內(nèi)部多尺度對目標(biāo)進(jìn)行檢測分類,特征金字塔中的特征圖不能完全包含目標(biāo)檢測任務(wù),且每層特征圖僅包含本層特征信息,在實(shí)際檢測時(shí)與小目標(biāo)實(shí)例的外表差異較大。針對該問題,Zhao 等提出M2Det,采用多層次特征金字塔(multi-level feature pyramid network,MLFPN)實(shí)現(xiàn)不同尺度目標(biāo)檢測。MLFPN 主要包含三部分,即特征融合模塊(feature fusion module,F(xiàn)FM)、U 型模塊(thinned U-shape module,TUM)和尺度特征聚合模塊(scale-wise feature aggregation module,SFAM)。其中,F(xiàn)FMv1 融合骨干網(wǎng)絡(luò)的基本特征信息;TUM 產(chǎn)生多尺度特征,并利用TUMs 和FFMv2 提取多層次多尺度特征;SFAM 通過多尺度特征拼接以及自適應(yīng)注意力機(jī)制聚合特征信息。M2Det在MS COCO 數(shù)據(jù)集上的訓(xùn)練速度達(dá)84.7 frame/s,mAP 達(dá)41.0%。
特征輸出受感受野區(qū)域內(nèi)像素點(diǎn)的影響。感受野過大,易導(dǎo)致模型過擬合;感受野過小,難以學(xué)習(xí)深層次的復(fù)雜特征信息。為使淺層特征圖的感受野適應(yīng)小目標(biāo)檢測,王鵬等人在不同尺度的特征層后加入空洞金字塔模塊和特征空洞金字塔模塊構(gòu)成新型網(wǎng)絡(luò)結(jié)構(gòu)PDSSD(pyramid dilated SSD),擴(kuò)大卷積核感受野,增強(qiáng)對小目標(biāo)的特征提取能力。在PACCAL VOC 數(shù)據(jù)集上,輸入尺寸為512×512 像素的mAP 可達(dá)82.1%。張新良等人為保證模型能夠保留更多的特征信息,在SSD 模型中融合多維空洞卷積算子(multiple dilated convolution,MDC)和多層次特征的深度網(wǎng)絡(luò)來提升小目標(biāo)物體的檢測能力。在VOC2007測試集上,MDC模型mAP達(dá)到80.4%。陳灝然等人在SSD 特征提取網(wǎng)絡(luò)中加入RFB(receptive field block)結(jié)構(gòu),通過多分支卷積和空洞卷積獲得不同尺度的感受野,加強(qiáng)對小目標(biāo)的檢測。該模型在VOC公開數(shù)據(jù)集上mAP 為81.8%。
在目標(biāo)檢測中通常需要以某個(gè)設(shè)定的IOU 閾值來篩選正樣本和負(fù)樣本,IoU 閾值的不合理設(shè)置會(huì)對小目標(biāo)的檢測結(jié)果造成影響。宋云博等人設(shè)計(jì)了平行級(jí)聯(lián)網(wǎng)絡(luò),使用前一級(jí)的輸出作為下一級(jí)的輸入,IoU 閾值逐級(jí)提升,保證不同級(jí)別的分類器和回歸器在越來越高的樣本質(zhì)量上進(jìn)行訓(xùn)練。該模型在COCO 數(shù)據(jù)集上的AP 達(dá)到44.2%。
目前大部分的目標(biāo)檢測都基于Anchor,但基于Anchor 會(huì)引入過多的超參數(shù),且錨框的尺寸固定,不利于處理形變較大的目標(biāo)。Law等人設(shè)計(jì)了Corner-Net,該算法未涉及Anchor 的概念,整個(gè)模型不基于預(yù)訓(xùn)練。該模型提出檢測Bounding Box 的一對角點(diǎn)來檢測目標(biāo),并使用Corner Pooling 來定位角點(diǎn)。CornerNet 在COCO 數(shù)據(jù)集上的AP 達(dá)到42.1%。但CornerNet 檢測角點(diǎn)來定位目標(biāo)需要同時(shí)輸出熱圖、偏移和嵌入,若檢測結(jié)果丟失任何一個(gè)角都會(huì)導(dǎo)致該目標(biāo)漏檢,并且該算法需要精確的偏移和正確的嵌入來生成準(zhǔn)確的緊密邊界框。雖然使用Ground Truth 偏移量代替預(yù)測偏移量可以提升一定的檢測精度,但角點(diǎn)檢測和分組仍有很大的改進(jìn)空間。
為進(jìn)一步改進(jìn)CornerNet,Duan 等人提出了CenterNet。該算法將目標(biāo)檢測問題轉(zhuǎn)變?yōu)橹行狞c(diǎn)預(yù)測問題,通過預(yù)測目標(biāo)中心點(diǎn)偏移量和寬高來獲取目標(biāo)矩形框。在COCO數(shù)據(jù)集上的AP提高到47.0%,但訓(xùn)練速度不及CornerNet。
Tian等人設(shè)計(jì)了FCOS(fully convolutional onestage object detection)。該算法直接將特征圖上的每個(gè)位置都作為訓(xùn)練樣本,若某一位置落入任何真實(shí)邊框則認(rèn)為該位置為正樣本。但若標(biāo)注真實(shí)框重疊,該位置映射到原圖中會(huì)落在多個(gè)真實(shí)邊界框中,產(chǎn)生模糊樣本問題。該算法采用FPN 進(jìn)行多級(jí)預(yù)測解決模糊樣本問題,并引入center-ness 抑制由于距離中心位置較遠(yuǎn)而產(chǎn)生的低質(zhì)量預(yù)測邊界框。FCOS算法的提出顯著減少了模型參數(shù)數(shù)量,通過消除錨框避免了復(fù)雜的IoU 計(jì)算以及邊框回歸,降低了對內(nèi)存的空間占用率。
最近研究表明,利用數(shù)據(jù)量更大的數(shù)據(jù)集能有效地提升目標(biāo)檢測的性能。為了更好地研究小目標(biāo)數(shù)據(jù),逐漸出現(xiàn)了很多針對小目標(biāo)檢測的數(shù)據(jù)集。這些數(shù)據(jù)集大都包括人臉檢測數(shù)據(jù)、行人檢測數(shù)據(jù)、遙感圖像數(shù)據(jù)、紅外檢測數(shù)據(jù)、航空拍攝數(shù)據(jù)、醫(yī)學(xué)影像數(shù)據(jù)等。在交通應(yīng)用場景中的數(shù)據(jù)集包括EuroCity Persons數(shù)據(jù)集和交通燈數(shù)據(jù)集等;航空領(lǐng)域中的數(shù)據(jù)集包括DOTA、AI-TOD、iSAID和BIRDSAI數(shù)據(jù)集等;在行人檢測領(lǐng)域的數(shù)據(jù)集包括TinyPerson、WiderPerson和NightOwls數(shù)據(jù)集等。相關(guān)小目標(biāo)檢測數(shù)據(jù)集如表6 所示。
表6 相關(guān)小目標(biāo)檢測數(shù)據(jù)集Table 6 Small object detection datasets
各種小目標(biāo)數(shù)據(jù)集檢測結(jié)果如圖5 所示。其中,(a)(b)(c)(d)表示行人 檢測數(shù)據(jù)集,(e)(f)(g)(h)表示航空圖像數(shù)據(jù)集。這些待檢小目標(biāo)在圖像中占比較小,分辨率較低,存在較復(fù)雜的背景環(huán)境,并且一些小目標(biāo)密度較大,存在遮擋,適用于提升小目標(biāo)檢測的研究。
圖5 小目標(biāo)數(shù)據(jù)集檢測結(jié)果Fig.5 Detection results of small object detection datasets
本文系統(tǒng)地闡述了近年來對基于深度學(xué)習(xí)的單階段小目標(biāo)檢測算法的研究。首先總結(jié)了小目標(biāo)物體研究的難點(diǎn);其次從優(yōu)化Anchor Box、優(yōu)化骨干網(wǎng)絡(luò)、在模型中引入注意力機(jī)制和其他網(wǎng)絡(luò)、對不同尺度的特征圖進(jìn)行特征融合、優(yōu)化IoU 和損失函數(shù)等幾個(gè)方面詳細(xì)地總結(jié)了優(yōu)化小目標(biāo)檢測的方法;最后介紹了常用的小目標(biāo)數(shù)據(jù)集,使得小目標(biāo)檢測能根據(jù)不同的領(lǐng)域具體分析其目標(biāo)特征。雖然目前小目標(biāo)檢測在精度上得到了很好的提升,單階段目標(biāo)檢測技術(shù)也保證了模型的運(yùn)行速度,但總的來說對各領(lǐng)域小目標(biāo)的檢測仍未達(dá)到理想的效果。結(jié)合上述分析,提出以下幾點(diǎn)。
(1)構(gòu)建高分辨率輕量級(jí)網(wǎng)絡(luò)。目前大多數(shù)網(wǎng)絡(luò)模型通過卷積和下采樣操作提取出的特征圖分辨率較低,不利于小目標(biāo)的特征分析。在今后的研究中可以考慮高分辨率輕量級(jí)網(wǎng)絡(luò),得到語義豐富且定位精確的特征圖。
(2)構(gòu)建大規(guī)模數(shù)據(jù)集。到目前為止已經(jīng)出現(xiàn)越來越多的小目標(biāo)數(shù)據(jù)集,但這些小目標(biāo)數(shù)據(jù)集大都針對各自的領(lǐng)域,樣本仍存在分布不均、數(shù)量不足的問題。構(gòu)建小目標(biāo)檢測數(shù)據(jù)集時(shí)可以運(yùn)用數(shù)據(jù)增強(qiáng)的方法擴(kuò)充數(shù)據(jù)量,調(diào)整樣本分布,降低數(shù)據(jù)的不平衡性。
(3)結(jié)合上下文信息。在小目標(biāo)檢測的過程中可以充分利用小目標(biāo)的區(qū)域特征,結(jié)合上下文信息增強(qiáng)對小目標(biāo)的檢測。但引入一些網(wǎng)絡(luò)增強(qiáng)區(qū)域特征時(shí)會(huì)增加復(fù)雜度,因此平衡網(wǎng)絡(luò)的復(fù)雜度和精度是未來較為重要的研究方向。
(4)優(yōu)化特征融合方式。通過一些簡單的特征融合可以增強(qiáng)小目標(biāo)的特征表達(dá)能力,但沒有規(guī)律地一味融合反而會(huì)降低小目標(biāo)檢測的準(zhǔn)確度。因此,研究合適的特征融合方式并采取恰當(dāng)?shù)纳喜蓸硬僮鲗μ嵘∧繕?biāo)檢測十分重要。
(5)提升模型可遷移性。目前的小目標(biāo)檢測技術(shù)通常是為研究某一特定領(lǐng)域而制定的,檢測技術(shù)可遷移性較差,無法適應(yīng)復(fù)雜變換的場景。因此,研究可遷移性較好的網(wǎng)絡(luò)模型可以有效地提升小目標(biāo)檢測技術(shù)。
綜上所述,基于深度學(xué)習(xí)的單階段小目標(biāo)檢測技術(shù)已成為小目標(biāo)檢測的主流。通過對單階段目標(biāo)檢測的不斷改進(jìn)與優(yōu)化,大幅提升了小目標(biāo)的檢測精度。但目前網(wǎng)絡(luò)模型仍存在模型較復(fù)雜、檢測精度較低的問題,因此提升小目標(biāo)檢測技術(shù)仍需要較長時(shí)間的發(fā)展。