亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于特征融合的CenterNet小目標檢測方法*

2022-05-11 09:34:30琚長瑞袁廣林秦曉燕

艦船電子工程 2022年4期

琚長瑞袁廣林秦曉燕李豪

（中國人民解放軍陸軍炮兵防空兵學院計算機教研室合肥 230031）

1 引言

目標檢測[1～6]是計算機視覺領(lǐng)域一個重要研究方向，主要包含目標的識別與定位兩個任務(wù)，最終目的是對圖像中感興趣的實例進行分類并給出其位置邊界框。小目標由于包含信息較少、數(shù)據(jù)集中存在的數(shù)量較低等因素，導致小目標檢測一直是目標檢測領(lǐng)域的難點、熱點[7]問題。目前，對小目標檢測問題的研究主要有兩類方法。

第一種是數(shù)據(jù)增強的方法。2019年Kisantal[8]等針對小目標檢測問題提出一種簡單、直接的數(shù)據(jù)增強方法，對數(shù)據(jù)集中小目標進行復制以及仿射變換，大幅增加了數(shù)據(jù)集中的小目標數(shù)量，使用增強后的數(shù)據(jù)集進行訓練，對小目標檢測率提升明顯。2021年Chen[9]等使用圖像拼接技術(shù)動態(tài)地生成拼接圖像提升小目標數(shù)量，從而增強小目標的檢測精度。這類方法主要缺點是網(wǎng)絡(luò)結(jié)構(gòu)復雜、實現(xiàn)步驟繁瑣，并且降低了訓練和檢測的效率。

第二種是多尺度預測的方法。2017年Lin[10]等提出了特征金字塔網(wǎng)絡(luò)（Feature Pyramid Network，F(xiàn)PN），采用自上而下的方法逐層將深層特征上采樣后與淺層特征融合，使淺層特征獲得了更強的語義信息，利用融合后的特征圖做多尺度預測。2019年G.Ghiasi[11]等對FPN結(jié)構(gòu)做了進一步優(yōu)化，利用強化學習對適合當前任務(wù)的特征融合最優(yōu)結(jié)構(gòu)進行自動搜索，并采用最優(yōu)結(jié)構(gòu)進行檢測。此類方法主要缺點是采用多尺度預測的方式大大增加了計算量，從而大幅降低了檢測速度。

綜合來看，現(xiàn)有小目標的檢測方法存在結(jié)構(gòu)復雜、檢測速度慢等問題。對此，本文提出一種基于特征融合的CenterNet[12]快速小目標檢測方法。該方法根據(jù)不同深度特征的特點對CenterNet網(wǎng)絡(luò)結(jié)構(gòu)進行改進，采用自上而下的方式將高層語義特征加入到淺層特征中，并用所得到的高分辨率融合特征圖檢測目標。同時，針對現(xiàn)有數(shù)據(jù)集中小目標較少問題，提出一種簡單有效的訓練數(shù)據(jù)預處理方法，利用訓練集中的較大目標提高相似小目標的檢測率。在PASCAL VOC數(shù)據(jù)集上對提出的方法進行了實驗驗證，結(jié)果表明：與原始CenterNet相比，所提出的方法對小目標的檢測精度提升明顯，且保持了較快的檢測速度。

2 特征融合網(wǎng)絡(luò)

2.1 理論分析

在一個多層卷積神經(jīng)網(wǎng)絡(luò)中，不同深度的特征具有不同的特點。目前主流的目標檢測方法大多傾向于從深層特征預測結(jié)果，而淺層特征在預測過程中往往被忽略。在特征提取網(wǎng)絡(luò)中，深層特征擁有更大的感受野，包含豐富的語義信息，具有高度抽象性；淺層特征感受野小，擁有更多細節(jié)信息，如邊緣、紋理等。檢測較大的目標需要更大的感受野及其抽象特征，在深層特征上進行預測效果較好；而小目標并不需要較大的感受野，并且在深層特征圖中僅剩下幾個到十幾個像素點，包含的特征信息非常少，因此小目標更適合在淺層特征進行預測。另外，經(jīng)過多次下采樣，深層特征對于目標的位置變化不夠敏感。例如一個8倍下采樣的網(wǎng)絡(luò)，原圖上目標位置發(fā)生40像素的位置變化，深層特征僅體現(xiàn)出5個像素的偏移。淺層特征則具有相對更強的定位能力，在檢測任務(wù)中對目標的定位更加有利。

為了同時利用深層與淺層特征不同的信息優(yōu)勢，F(xiàn)PN結(jié)構(gòu)被廣泛應(yīng)用于基于錨框（anchorbased）的檢測方法當中，采用自上而下的特征融合結(jié)構(gòu)，并從多個不同尺度的融合特征圖提取候選區(qū)域，取得了較好效果。FPN結(jié)構(gòu)證明了，采取自上而下逐層進行特征融合的方式，得到的高分辨率融合特征同時具有深層語義信息和淺層細節(jié)信息。

在原始CenterNet檢測方法中，表征檢測結(jié)果的熱力圖及對應(yīng)的寬高、中心點偏移均由網(wǎng)絡(luò)的最深層特征經(jīng)過3×3的卷積得到，本質(zhì)上只利用了最后一層特征圖的信息，對小目標的檢測效果不理想。為提升CenterNet對小目標的檢測效果，本文參考了FPN特征融合方法的思想，利用反卷積與可變形卷積將深層特征逐層加入到淺層特征中，并在融合了深層特征的淺層特征圖進行預測。

2.2 實現(xiàn)細節(jié)

首先，為在檢測速度與精度之間取得更好的平衡，本文選取殘差網(wǎng)絡(luò)ResNet-50替代原文中的特征提取網(wǎng)絡(luò)，其網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。

圖1 特征融合CenterNet網(wǎng)絡(luò)結(jié)構(gòu)示意圖

為獲得更高分辨率的特征圖，刪除了主干網(wǎng)絡(luò)ResNet-50的第一個最大池化層以減少整體下采樣倍數(shù)。輸入圖像尺度統(tǒng)一Resize至512×512后，先經(jīng)過一個卷積核大小為7×7的卷積層進行2倍下采樣，變成256×256包含64個通道的特征圖。而后經(jīng)過4個殘差塊（block1-block4）提取特征，同時進一步下采樣，從block1到block4的輸出特征圖大小分別為原圖的1/2、1/4、1/8/、1/16。

特征融合階段，先將block4的輸出特征圖分別經(jīng)過大小為3×3的反卷積（Deconvolution）與大小為3×3的可變形卷積（Deformable Convolution Network v2，DCNv2），進行2倍上采樣，獲得的特征圖與block3的輸出特征圖相加進行特征融合。然后采用相同方式對得到的融合特征圖進行2倍上采樣，與block2的輸出特征進行相加融合，得到大小為128×128的融合特征圖。該融合特征圖下采樣倍數(shù)為4，相較于最頂層特征具有更高的分辨率，包含了更多檢測小目標需要的細節(jié)信息，并且對目標的定位能力更強。在該融合特征圖上分別使用卷積得到預測熱力圖、寬高圖以及偏移圖，最后輸出檢測結(jié)果。

為展示特征融合的效果，圖2（a）給出了PASCAL VOC數(shù)據(jù)集中一張圖像，圖2（b）-（e）顯示了圖2（a）在特征融合網(wǎng)絡(luò)中block1至block4的輸出特征圖，圖2（f）是其最終融合特征圖。對比圖2（b）-（f）各特征圖可以看出：block1與block2由于網(wǎng)絡(luò)深度較淺，其輸出特征圖中大船與小船都保留了較多細節(jié)信息。block3與block4網(wǎng)絡(luò)較深，其輸出特征中語義信息較多，大船能夠看出輪廓而丟失了內(nèi)部紋理、邊緣等細節(jié)，小船的信息幾乎全部丟失。經(jīng)過對前兩個模塊的特征融合，最終融合特征圖3（f）中，大船的深層信息在淺層特征中得到加強，小船的細節(jié)信息在融合特征中被保留。

圖2 目標圖像與深度特征圖

3 訓練數(shù)據(jù)預處理

在數(shù)據(jù)方面，現(xiàn)有目標檢測數(shù)據(jù)集中，由于標注成本較高等因素，很多小目標沒有被標注。但不少與小目標擁有相同類別的較大目標是具有標簽的，如圖3所示。

圖3 數(shù)據(jù)集中相似的未標注小目標及有標簽大目標

紅框標出的是有標簽目標，黃色框標出的為未標注的同類小目標。這些未標注的小目標具有與同類大目標相似的外觀特征。如圖3（a）中箭頭標出的船只以及（b）中箭頭標出的羊，縮放到統(tǒng)一尺度后外觀特征非常相似，只是較大的目標更清晰，小目標更模糊。由于包含的信息量不同，外觀相似的大、小目標經(jīng)過卷積神經(jīng)網(wǎng)絡(luò)提取到的特征存在較大差異，導致訓練后的網(wǎng)絡(luò)對大目標的檢測率較高，而對同類的小目標檢測率較低。對此，本文提出一種訓練數(shù)據(jù)預處理方法，對訓練集中的原圖進行“升噪處理”，生成一批具有相同分辨率而信息量更低的圖像加入訓練集當中。處理后大目標與原圖上的同類小目標具有相近的信息密度，從而達到利用已有大目標的標簽信息，學習同類小目標特征的效果。

所用的圖像模糊方式包括高斯模糊、均值濾波、中值濾波以及下采樣方法，這些圖像處理方式均能有效地降低圖像中的細節(jié)信息。其中，高斯模糊采用3×3高斯卷積核對圖像進行卷積，卷積核σ設(shè)置為1。均值濾波與中值濾波的濾波器大小均設(shè)置為3×3。下采樣方法先采用最大池化進行2倍下采樣，然后再用線性插值的方式上采樣，將圖像恢復成原始大小并引入噪聲。經(jīng)過處理后的圖像與原圖共享相同的標簽信息，并加入訓練集當中與原圖一起參與訓練。幾類處理方式中，下采樣方法的效果最好，實驗部分將給出對比說明。將部分經(jīng)過下采樣方法得到的較大目標與原圖中的相似小目標進行對比展示，效果如圖4所示?？梢钥闯觯幚砗蟮妮^大目標與原圖中的相似小目標差異確實更小，包含的信息量更加接近。

圖4 處理后的大目標與原圖小目標對比

4 實驗與分析

4.1 實驗設(shè)置

為了驗證所提出的特征融合方法的有效性，在CenterNet上更換不同深度的ResNet特征提取網(wǎng)絡(luò)進行改進，并與原網(wǎng)絡(luò)進行對比。同時，對幾種不同訓練數(shù)據(jù)模糊方式得到的模型也進行了測試對比。為了提高模型的訓練效果，將VOC 2007訓練集和驗證集與VOC 2012訓練集和驗證集進行了合并作為訓練集和驗證集，共包含16551張、20類目標圖像。測試集由VOC 2007與VOC 2012測試集合并得到，共包含4952張圖像。

4.2 實驗結(jié)果

4.2.1 特征融合實驗

在不同深度的ResNet殘差網(wǎng)絡(luò)加入特征融合，實驗結(jié)果如表1所示，其中帶FF前綴的表示加入特征融合后的網(wǎng)絡(luò)。從表1可以看出：不同深度的ResNet經(jīng)過特征融合后，對小目標的檢測精度均有不同程度的提升，并且網(wǎng)絡(luò)越深提升效果越明顯。ResNet-18提升最小，主要原因是其網(wǎng)絡(luò)深度相對較淺，本身保存的細節(jié)信息相對更多，因此提升效果并不明顯。ResNet-101的小目標檢測精度最低，特征融合后ResNet-101的小目標檢測精度提升最大，但是檢測速度有較大降低，這一結(jié)果表明：當網(wǎng)絡(luò)層數(shù)超過某一閾值時，網(wǎng)絡(luò)越深越不利于小目標的檢測，同時檢測速度也會明顯下降。特征融合后ResNet-50的小目標精度提升了6.4%，整體精度mAP有少許降低，但是其檢測速度仍然較快。

表1 不同深度ResNet網(wǎng)絡(luò)特征融合檢測結(jié)果

4.2.2 訓練數(shù)據(jù)處理實驗

分別用高斯模糊（Gaussian Blur，Gs-B）、均值濾波（Mean Filtering，Mn-F）、中值濾波（Median Filtering，Md-F）以及下采樣方法（Down Sampling，Dn-S）對訓練集圖像進行模糊處理，得到高斯模糊數(shù)據(jù)（Gs-B Data）、均值模糊數(shù)據(jù)（Mn-F Data）、中值模糊數(shù)據(jù)（Md-F Data）以及下采樣模糊數(shù)據(jù)（Dn-S Data），并分別與原始訓練集（Original Data，O Date）混合，結(jié)果如表2所示。實驗結(jié)果說明：通過對訓練集圖像進行一定模糊處理，能有效降低圖像中大目標與同類、相似小目標之間的差異，從而有效利用標注的大目標來提高模型對小目標的檢測率。下采樣方法在幾種方法之間更具優(yōu)勢，可能的原因是最大池化與線性插值所引入的噪聲與小目標中的噪聲相對更加擬合。在小目標標注成本較高，缺少訓練數(shù)據(jù)的情況下，利用該方法能對數(shù)據(jù)集進行快速、有效的增強，并提升小目標的檢測性能。

表2 不同圖像處理方法測試結(jié)果

5 結(jié)語

基于深度學習的目標檢測是計算機視覺領(lǐng)域的熱門研究方向，近年來取得了快速發(fā)展。小目標檢測一直是其中的難點問題?，F(xiàn)有針對小目標的檢測方法還存在網(wǎng)絡(luò)結(jié)構(gòu)復雜、實現(xiàn)步驟繁瑣、檢測速度慢或者不具備通用性等問題。針對現(xiàn)有問題，本文對小目標檢測進行研究。首先利用無錨框的單階段方法CenterNet作為基礎(chǔ)框架，在特征提取網(wǎng)絡(luò)中加入自上而下的特征融合，并從得到的高分辨率特征圖檢測結(jié)果；其次提出一種訓練集數(shù)據(jù)預處理方法，有效利用了訓練集中的大目標來學習同類、相似小目標的特征，解決了訓練集當中小目標較少的問題。實驗結(jié)果表明，本文提出改進方法使CenterNet的小目標檢測性能提升明顯。另外，所提訓練數(shù)據(jù)預處理方法能快速增強數(shù)據(jù)集并提升模型的小目標檢測能力。