鄧 雪,趙 皓,2,張 靜,2,梅菠萍,張 華
1.西南科技大學(xué) 信息工程學(xué)院,四川 綿陽 621010
2.中國科學(xué)技術(shù)大學(xué) 信息科學(xué)技術(shù)學(xué)院,合肥 230026
卷積神經(jīng)網(wǎng)絡(luò)(convolution neural network,CNN)在計(jì)算機(jī)視覺領(lǐng)域中的目標(biāo)檢測、語意分割、姿態(tài)估計(jì)等具有挑戰(zhàn)性的任務(wù)上展現(xiàn)出強(qiáng)大性能[1]。目前,用于提升模型性能的方法主要分為三類:(1)加深網(wǎng)絡(luò)結(jié)構(gòu)。例如GGNET[2]、Inception-v4[3]等,更深的網(wǎng)絡(luò)具有足夠的復(fù)雜度和特征內(nèi)部變化,隨著網(wǎng)絡(luò)層數(shù)增加,CNN分層次提取更精細(xì)的特征,從而高效進(jìn)行學(xué)習(xí)。(2)優(yōu)化損失函數(shù)。例如Momentum[4]、RMSprop[5]等以更有效的損失函數(shù)找到模型最優(yōu)參數(shù),加快訓(xùn)練速度,提高學(xué)習(xí)效率。(3)數(shù)據(jù)增廣。數(shù)據(jù)作為深度學(xué)習(xí)的驅(qū)動(dòng)力,對模型訓(xùn)練至關(guān)重要。數(shù)據(jù)增廣主要用于解決樣本尺寸不平衡、類別不平衡以及遮擋問題。尺寸不平衡是指小樣本的檢測性能總是比尺寸大的樣本差。在文獻(xiàn)[6-7]中,采用copy-paste機(jī)制和過采樣來提高小目標(biāo)檢測精度。在文獻(xiàn)[8-12]中,通過提高原始圖片分辨率并融合來自不同分辨率級(jí)別特征以提高小目標(biāo)的特征表達(dá)能力。類別不平衡,即,數(shù)量不平衡,可能導(dǎo)致模型過擬合,幾何變換是最常用的數(shù)據(jù)增廣方法,通過隨機(jī)裁剪、翻轉(zhuǎn)、鏡像等幾何變換能有效提升模型的泛化能力。對于遮擋問題,信息丟失可以顯著提升模型對遮擋的魯棒性,在文獻(xiàn)[13-14]中,隨機(jī)截取樣本區(qū)域并使用隨機(jī)值或均值填充,迫使模型學(xué)習(xí)圖像中更寬廣的具有描述性質(zhì)的特征,從而防止模型過擬合于特定的視覺特征。CutMix為避免圖片本身區(qū)域特征信息丟失[15],結(jié)合Mixup和Cutout將剪切區(qū)域與訓(xùn)練集中其他圖片區(qū)域像素進(jìn)行線性插值。相比于前兩類方法,數(shù)據(jù)增廣更具有通用性和易操作性。
上述方法均能有效提升模型的檢測精度和效率,但是在其不是影響檢測性能的主要因素時(shí),始終存在某些類別的檢測性能遠(yuǎn)低于平均檢測水平,如圖1所示(chair、potted-plant),將此現(xiàn)象定義為檢測性能不平衡問題。受Cannikin’s Law啟發(fā),木桶的總?cè)萘繒?huì)隨著最短板提高而顯著增加,因此,最低mAP類別的檢測性能提升,整體檢測性能將顯著提升。推測其主要原因是其特征表達(dá)能力不平衡,遵循copy-paste機(jī)制,對特定類別實(shí)例進(jìn)行分割并隨機(jī)放入增廣樣本中,通過相似性度量機(jī)制選擇需要增廣的樣本。由于隨機(jī)粘貼導(dǎo)致大量目標(biāo)遮擋問題以及數(shù)據(jù)集本身存在的遮擋現(xiàn)象,進(jìn)一步采用cut-replace進(jìn)行自遮擋增廣,選擇圖像特征表達(dá)能力最顯著的區(qū)域,并根據(jù)中心先驗(yàn)使用同一張圖像左上角相同大小的區(qū)域進(jìn)行替換,該步驟沒有引入額外的特征信息。
圖1 不同檢測器對Pascal VOC數(shù)據(jù)集的檢測性能對比Fig.1 Comparison of detection performance of different detectors on Pascal VOC dataset
在FCOS和RetinaNet檢測器上對Pascal VOC數(shù)據(jù)集進(jìn)行大量實(shí)驗(yàn)。對比、分析實(shí)驗(yàn)結(jié)果:始終存在檢測精度遠(yuǎn)低于平均檢測水平的類別。為了確定出現(xiàn)此現(xiàn)象的原因,對Pascal VOC數(shù)據(jù)集進(jìn)行統(tǒng)計(jì)分析。首先對每個(gè)類別的數(shù)量進(jìn)行統(tǒng)計(jì),然后對每個(gè)類別實(shí)例的平均尺寸進(jìn)行統(tǒng)計(jì),如圖2所示。
圖2 對PASCAL VOC數(shù)據(jù)集的統(tǒng)計(jì)Fig.2 Statistics of PASCAL VOC dataset
實(shí)驗(yàn)結(jié)果表明,對于數(shù)量、尺寸相當(dāng)?shù)念悇e,其檢測精度差距也很大。推測其主要原因是其特征表達(dá)能力不平衡。當(dāng)物體處于背景極其復(fù)雜,或者與其特征十分相似的環(huán)境下,以及被遮擋的物體,人眼也很難一眼分辨,因此,可以通過增加目標(biāo)的場景多樣性來提高模型的學(xué)習(xí)能力。
為了提升樣本數(shù)據(jù)集分布的多樣性,本文采用“copy-paste”機(jī)制,首先將短板類別實(shí)例進(jìn)行分割,然后通過余弦相似性度量機(jī)制確定目標(biāo)增廣樣本,并將增廣的樣本擴(kuò)充到訓(xùn)練樣本集中。增廣的樣本數(shù)據(jù)如圖3所示(藍(lán)色框內(nèi)是增廣的樣本實(shí)例)。
圖3 對chair和potted-plant樣本實(shí)例的增廣圖片F(xiàn)ig.3 Augmented images of chair and potted-plant sample examples
Random-erasing方法中采用隨機(jī)數(shù)進(jìn)行在線數(shù)據(jù)增廣,對數(shù)據(jù)集分布多樣性的提升針對性不強(qiáng)。本文采用余弦相似性度量機(jī)制計(jì)算訓(xùn)練集中的樣本與包含短板類別實(shí)例樣本間的相似性距離,選擇相似性高的樣本作為目標(biāo)增廣樣本,有利于提升檢測模型在相似場景的分辨能力。圖像的余弦相似性是根據(jù)像素坐標(biāo)值將一維向量映射到向量空間,通過計(jì)算相同維度向量間的距離獲取相似性度量,計(jì)算過程如公式(1)所示:
其中,Ai、Bi為通過直方圖和灰度獲得的區(qū)域矢量。
通過對內(nèi)容相似以及差異較大的兩組不同圖片進(jìn)行相似性度量測試,實(shí)驗(yàn)結(jié)果如圖4所示。為了降低數(shù)據(jù)增廣的代價(jià),本文通過余弦相似性度量機(jī)制,在訓(xùn)練數(shù)據(jù)集中,獲取與包含短板類別實(shí)例相似的訓(xùn)練樣本作為增廣目標(biāo)樣本,通過控制相似性閾值,能夠獲取性能提升與增廣代價(jià)的平衡。
圖4 余弦相似性的相似度測量結(jié)果Fig.4 Similarity measurement results by cosine similarity
場景多樣性增廣的具體流程如圖5所示,樣本范例如圖6所示。首先,通過gt-box獲得包含樣本的最小外接矩形,減少背景,再通過含有短板類別的分割掩碼將背景變?yōu)楹谏?。最后,將這些實(shí)例按一定比例縮放后,通過copy-paste任意放入選擇的樣本中,這里的分割掩碼是數(shù)據(jù)集自帶的蒙版真值,也可根據(jù)成熟的數(shù)據(jù)分割方法進(jìn)行獲取,不需要精度很高。
圖5 場景多樣性增廣流程Fig.5 Specific process of scene diversity augment
圖6 場景多樣性增廣的樣本范例Fig.6 Sample example of scene diversity augment
遮擋增廣通過引入額外信息,增加數(shù)據(jù)集的場景多樣性,然而,檢測模型不可避免地會(huì)受到噪聲信息的影響。本文提出一種自遮擋方法,通過隨機(jī)剪切圖像本身的區(qū)域進(jìn)行增廣,最大程度地降低噪聲引入。同時(shí)為了避免遮擋過程中,有用信息被嚴(yán)重遮擋,造成檢測模型性能明顯下降的問題,本文采用遮擋部分特征表達(dá)顯著區(qū)域,有效保護(hù)上下文信息的一致性。其增廣后的樣本數(shù)據(jù)示例如圖7所示。
圖7 Cut-replace自遮擋增廣后的樣本Fig.7 Sample of cut-replace self-occlusion augmentation
Cut-replace的實(shí)施細(xì)節(jié):cut-replace自遮擋的具體實(shí)施流程如圖8所示。首先,將卷積特征圖resize到輸入圖片尺寸并獲取最大特征值的位置(x,y),映射回原圖;其次,以該位置為圓心,因?yàn)?,cutout指出:切口大小是比形狀更重要的影響因素,選擇橢圓;然后,根據(jù)邊界框大小設(shè)置切口尺寸,為選擇最佳遮擋面積,設(shè)置長軸為其所在gt-box的h/3、h/4、h/5,短軸為w/3、w/4、w/5進(jìn)行對比。若該位置在背景上,則選擇圖片的h和w;最后,截取圖片中的patch進(jìn)行遮擋。相比于random-erasing方法對樣本進(jìn)行隨機(jī)擦除,本文主要針對特征顯著區(qū)域進(jìn)行擦除。該機(jī)制能提升模型從上下文信息對目標(biāo)的分類與定位性能。
圖8 Cut-replace自遮擋增廣的流程Fig.8 Process of cut-replace self-occlusion augmentation
如圖9所示,cut-replace自遮擋可使模型關(guān)注樣本非顯著性區(qū)域,通過目標(biāo)全局特征進(jìn)行類別判別與位置回歸。降低模型對顯著性區(qū)域特征的依賴程度,提升模型的表達(dá)能力。
圖9 熱力圖可視化Fig.9 Heat map visualization
4.1.1 實(shí)驗(yàn)平臺(tái)
所有實(shí)驗(yàn)均使用PyTorch1.5框架,訓(xùn)練、驗(yàn)證和測試都在Nvidia Titan XP(12 GB)工作站上進(jìn)行。
4.1.2 數(shù)據(jù)集
本次實(shí)驗(yàn)主要在PASCAL VOC數(shù)據(jù)集上進(jìn)行訓(xùn)練和針對VOC數(shù)據(jù)集,訓(xùn)練集采用VOC(07+12),測試集采用VOC07 test。同時(shí),為了驗(yàn)證該方法的有效性,還在MS-COCO數(shù)據(jù)集上進(jìn)行了驗(yàn)證實(shí)驗(yàn),訓(xùn)練集采用train2017,測試集采val2017。
4.1.3 數(shù)據(jù)集
為了驗(yàn)證提出方法的有效性,選擇兩個(gè)以ResNet-50為骨干網(wǎng)絡(luò)的RetinaNet[16]和FCOS[17]無錨檢測器作為基線。
為加快訓(xùn)練過程的收斂速度,采用ImageNet分類任務(wù)的預(yù)訓(xùn)練權(quán)重初始化backbone。采用SGD作為優(yōu)化器,batch-size=6,momentum=0.9,初始學(xué)習(xí)率為2E-3,設(shè)置30個(gè)epoch。初始學(xué)習(xí)率設(shè)置為0.01,在20和25個(gè)epoch分別降低10%。輸入圖片尺寸調(diào)整為800×1 300。
表1展示了在FCOS檢測器上,不同數(shù)據(jù)增廣方法對Pascal VOC數(shù)據(jù)集檢測性能的改進(jìn),主要對比Random-erasing和Cutout數(shù)據(jù)增廣方法。
表1 不同數(shù)據(jù)增廣方法對比實(shí)驗(yàn)結(jié)果Table 1 Comparison of experimental results with different data augmentation methods 單位:%
從表1中可知,基于copy-paste的場景多樣性增強(qiáng)方法在FCOS檢測器上將檢測精度提升了4.04個(gè)百分點(diǎn),短板類別最高提升10.04個(gè)百分點(diǎn),基于cut-replace的自遮擋方法提升了4.28個(gè)百分點(diǎn),短板類別最高提升了16.23個(gè)百分點(diǎn),兩種方法同時(shí)作用,檢測性能提升了4.8個(gè)百分點(diǎn),短板類別最高提升了20.80個(gè)百分點(diǎn),相比于Random-erasing和Cutout對短板類別的提升效果更明顯。表2列出了在本文方法下每個(gè)類別的AP值對比結(jié)果。
表2 每個(gè)類別的mAP對比Table 3 Comparison of mAP for each category單位:%
為了進(jìn)一步驗(yàn)證該方法的有效性,在最典型的MS-COCO數(shù)據(jù)集上進(jìn)行驗(yàn)證實(shí)驗(yàn),采用SGD優(yōu)化器。在FCOS檢測器上,訓(xùn)練的Bach-size設(shè)為12,迭代次數(shù)設(shè)置為24個(gè)epoch,每張圖片的尺寸被調(diào)整到512×512,并根據(jù)COCO數(shù)據(jù)集json文件的標(biāo)注格式,對增廣后的整個(gè)數(shù)據(jù)集生成新的json標(biāo)注文件,并與Randomerasing進(jìn)行對比,測試結(jié)果如表3所示。
表3 MS-COCO數(shù)據(jù)集上實(shí)驗(yàn)結(jié)果Table 3 Experimental results on MS-COCO dataset單位:%
如表3所示,在FCOS檢測框架上,可將MS-COCO數(shù)據(jù)集的平均檢測精度從32.1%提升到33.0%。
4.4.1 場景多樣性增廣數(shù)量的對比實(shí)驗(yàn)
為驗(yàn)證測試增廣的數(shù)量對該方法的影響,設(shè)置了增廣數(shù)量為100~500的等級(jí),測試結(jié)果如表4所示。
表4 PASCAL VOC數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果Table 4 Experimental results on PASCAL VOC dataset單位:%
從表4中可以知道,當(dāng)增廣數(shù)量為400,該方法達(dá)到了最好的效果,因此選擇合適的增廣數(shù)量,對于獲得最佳檢測精度至關(guān)重要。
如圖10是對場景多樣性增廣數(shù)量消融實(shí)驗(yàn)的可視化對比,將特定類別實(shí)例進(jìn)行隨機(jī)放置時(shí)會(huì)產(chǎn)生遮擋現(xiàn)象,當(dāng)增廣數(shù)量達(dá)到一定程度時(shí),檢測性能的提升率反而下降。因此,利用遮擋原理可進(jìn)一步提升短板類別的檢測性能和對遮擋的魯棒性。
圖10 不同數(shù)量等級(jí)的增廣測試結(jié)果Fig.10 Augmentation test results of different quantity levels
4.4.2 相似性度量機(jī)制的消融實(shí)驗(yàn)
為了提升短板類別(chair、potted-plant)的檢測精度,驗(yàn)證相似性度量機(jī)制的有效性,對隨機(jī)選擇和余弦相似性進(jìn)行對比實(shí)驗(yàn)。在FCOS和RetinaNet檢測器上對PASCAL VOC數(shù)據(jù)集進(jìn)行測試,結(jié)果如表5所示。
表5 相似性度量機(jī)制的消融實(shí)驗(yàn)結(jié)果Table 5 Ablation experiment results of similarity measurement mechanism 單位:%
實(shí)驗(yàn)結(jié)果表明,基于copy-paste的數(shù)據(jù)增強(qiáng)方法在FCOS和RetinaNet檢測器上對PASCAL VOC數(shù)據(jù)集的檢測精度分別從79.10%和81.59%提升到83.14%和83.57%。特別對于短板類別,提升最為顯著。
4.4.3 自遮擋增廣的面積和數(shù)量對比實(shí)驗(yàn)
采用與場景多樣性驗(yàn)證實(shí)驗(yàn)相同的實(shí)驗(yàn)設(shè)置,為了測試最佳遮擋面積,對遮擋比例為1/3、1/4、1/5進(jìn)行對比,對比結(jié)果如表6所示。
表6 不同遮擋比例的檢測結(jié)果Table 6 Detection results of different occlusion ratios單位:%
從表6中數(shù)據(jù)可知,選擇遮擋比例為1/4時(shí)測試效果最佳。同時(shí)為了測試遮擋數(shù)量對檢測精度的影響,設(shè)置260、360、460、560實(shí)例數(shù)量等級(jí)的遮擋級(jí)別,實(shí)驗(yàn)結(jié)果如表7所示。設(shè)置遮擋的實(shí)例數(shù)量為560時(shí),平均檢測性能達(dá)到了83.38%,提升了4.28個(gè)百分點(diǎn),短板類別(chair、potted-plant)分別提升了8.4個(gè)百分點(diǎn)和16.23個(gè)百分點(diǎn)。
表7 不同數(shù)量等級(jí)PASCAL VOC數(shù)據(jù)集的檢測精度Table 7 Detection accuracy of different quantity levels PASCAL VOC dataset 單位:%
為解決多類別目標(biāo)檢測任務(wù)中檢測性能不平衡問題。受Cannikin’s Law的啟發(fā),提出一種離線數(shù)據(jù)增強(qiáng)算法。首先,采用copy-paste增廣方法對短板類別進(jìn)行場景多樣性增強(qiáng),然后,針對copy-paste增廣方法隨機(jī)放置過程中產(chǎn)生的大量遮擋問題,采用cut-replace的自遮擋增廣方法來提升短板類別對遮擋的魯棒性。大量實(shí)驗(yàn)結(jié)果證明該方法的有效性,為數(shù)據(jù)增廣領(lǐng)域提供了有用的參考價(jià)值。