林潤超,黃榮,董愛華
(東華大學(xué) 信息科學(xué)與技術(shù)學(xué)院,上海 201620)
得益于飛速發(fā)展的大數(shù)據(jù)技術(shù),大量有效標(biāo)注的數(shù)據(jù)集推動(dòng)了目標(biāo)檢測的發(fā)展。大部分基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)的目標(biāo)檢測模型需要由大量的標(biāo)注數(shù)據(jù)驅(qū)動(dòng)訓(xùn)練。然而,在一些特殊的應(yīng)用場合,如病灶檢測[1]和稀有動(dòng)物檢測[2]等,可用數(shù)據(jù)少且缺乏有效的標(biāo)注。因而,基于傳統(tǒng)CNN 的目標(biāo)檢測模型往往效果不佳,還可能出現(xiàn)過擬合等問題。為應(yīng)對數(shù)據(jù)不足場景下的目標(biāo)檢測任務(wù),小樣本目標(biāo)檢測是近一段時(shí)間以來的研究熱點(diǎn)[3-6]。
基于元學(xué)習(xí)的小樣本目標(biāo)檢測[7-9],通過所提取的圖像元特征來記憶預(yù)測梯度,從而實(shí)現(xiàn)小樣本目標(biāo)分類和檢測?;跀?shù)據(jù)擴(kuò)充的方法[10-12]通過視頻取幀、數(shù)據(jù)增強(qiáng)等手段增加數(shù)據(jù)量。雖然這類方法取得了一定效果,但可能會(huì)引入噪聲,從而影響檢測性能。此外,文獻(xiàn)[10,13]提出通過構(gòu)建子模型來獲取附加數(shù)據(jù)。然而,這類方法不但需要大量的標(biāo)注數(shù)據(jù),還需要手工設(shè)定較多的特征參數(shù),與小樣本目標(biāo)檢測的初衷相悖。
在小樣本深度學(xué)習(xí)模型中引入注意力機(jī)制可以自適應(yīng)地增強(qiáng)對圖像前景目標(biāo)區(qū)域的感知,抑制背景區(qū)域中的無關(guān)信息的干擾,是提高目標(biāo)區(qū)域的元特征可區(qū)分性能的重要手段。利用Faster-RCNN(Faster-Region Convolutional Neural Networks)[14]中區(qū)域候選框提取網(wǎng)絡(luò)(Region Proposal Network,RPN),F(xiàn)an等[15]提出了一種可自適應(yīng)關(guān)注目標(biāo)區(qū)域的注意力機(jī)制,提取到了可區(qū)分性能較好的元特征。徐誠極等[16]在YOLOv3(You Only Look Once-version3)[17]的特征提取網(wǎng)絡(luò)中融入了空間注意力和通道注意力機(jī)制,改善了模型對圖像關(guān)鍵特征的篩選能力,獲取了可區(qū)分性能較好的元特征,從而提升了模型在小樣本場景下目標(biāo)檢測的準(zhǔn)確率。
基于遷移學(xué)習(xí)的小樣本目標(biāo)檢測方法考慮將大樣本源域中學(xué)習(xí)到的圖像元特征信息遷移至小樣本目標(biāo)域,在實(shí)現(xiàn)源域和目標(biāo)域元特征信息共享的基礎(chǔ)上提升小樣本目標(biāo)檢測器的性能。Chen等[18]提出的小樣本遷移檢測器(Low Shot Transfer Detector,LSTD)模型中,將候選框作為額外的監(jiān)督信號來篩選元特征,較好地抑制了大部分背景特征。然而,該模型未完全利用圖像元特征的細(xì)節(jié)信息,缺乏關(guān)注目標(biāo)區(qū)域的注意力機(jī)制。Kang等[19]提出一種基于元特征遷移的小樣本目標(biāo)檢測模型。其中,元特征重加權(quán)模塊將大樣本源域中學(xué)習(xí)到的元特征遷移至小樣本目標(biāo)域的特征圖中,實(shí)現(xiàn)元特征的跨域,再通過YOLOv2[20]的檢測頭定位小樣本目標(biāo)。然而該元特征遷移模型存在著兩個(gè)問題:1)缺乏關(guān)注圖像中待識別目標(biāo)的注意力機(jī)制,對于待識別目標(biāo)周邊背景區(qū)域的抑制能力不強(qiáng);2)基于遷移學(xué)習(xí)的方法,通常均需要對元特征進(jìn)行微調(diào)來實(shí)現(xiàn)跨域共享,這將引起元特征偏移,從而導(dǎo)致模型對大樣本圖像檢測能力的下降。
針對上述兩個(gè)問題,本文基于注意力機(jī)制和元特征二次重加權(quán)機(jī)制,提出了改進(jìn)的元特征遷移模型Up-YOLOv3。在PASCAL VOC2007/2012 通用目標(biāo)檢測數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,與Kang等[19]的原始元特征遷移模型Base-YOLOv2 相比,Up-YOLOv3 針對小樣本圖像檢測的平均準(zhǔn)確率均值(mean Average Precision,mAP)提升了2.3~9.1 個(gè)百分點(diǎn);同時(shí),與原始的基于YOLOv3 元特征遷移模型Base-YOLOv3 相比,Up-YOLOv3 針對大樣本圖像檢測的mAP 也提升了1.8~2.4 個(gè)百分點(diǎn)。消融實(shí)驗(yàn)和可視化結(jié)果表明改進(jìn)后的模型對不同類別的大/小樣本圖像均具有良好的泛化能力和魯棒性。
原始元特征遷移模型Base-YOLOv2[19]的框架如圖1 所示,該模型主要由元特征提取模塊D、元特征重加權(quán)模塊M和檢測模塊P構(gòu)成。特征提取模塊D 采用DarkNet19[20],用于提取圖像的元特征。元特征重加權(quán)模塊M 由一個(gè)輕量級CNN 分類網(wǎng)絡(luò)構(gòu)成,該模塊將大樣本圖像(支撐圖像)的元特征信息進(jìn)行重加權(quán)獲得重加權(quán)的元特征向量。經(jīng)過模塊M的處理,使得模型中小樣本圖像(查詢圖像)可共享大樣本圖像的元特征信息。最后,檢測模塊P利用這些重加權(quán)元特征實(shí)現(xiàn)針對小樣本圖像的目標(biāo)檢測。
元特征重加權(quán)模塊M 的輸入是原始圖像和目標(biāo)掩膜的拼接。其中,目標(biāo)掩膜為一幅二值圖像,即原始圖像中目標(biāo)所在對應(yīng)的區(qū)域標(biāo)定為0,背景所對應(yīng)的區(qū)域標(biāo)定為1。然而,現(xiàn)有的目標(biāo)檢測掩膜通常用一個(gè)矩形框來劃定目標(biāo)的位置,缺乏像素級的指導(dǎo)信息,無法精準(zhǔn)定位目標(biāo)的輪廓。因而,在矩形框掩膜內(nèi)仍存在著無關(guān)的背景干擾,對元特征的可區(qū)分性能造成負(fù)面影響,導(dǎo)致模型檢測性能的下降。此外,該模型未考慮元特征遷移后的補(bǔ)償措施,影響了模型對大樣本圖像的檢測性能。
針對上述問題,本文對原始元特征遷移模型[19]進(jìn)行以下兩方面的改進(jìn):首先,引入基于卷積塊注意力模塊(Convolution Block Attention Module,CBAM)[21]的注意力機(jī)制模塊。該模塊能夠生成像素級掩膜,從而以像素級別聚焦圖像中的目標(biāo)區(qū)域,自適應(yīng)地濾除背景的干擾信息,提升元特征的可區(qū)分性能,為特征提取模塊D 按類別抽取目標(biāo)的元特征提供支撐。其次,設(shè)計(jì)一種基于壓縮-激勵(lì)(Squeeze and Excitation,SE)[22]的元特征二次重加權(quán)(SE-Secondary Meta-Feature Reweighting,SE-SMFR)模塊。該模塊通過可學(xué)習(xí)的激活操作調(diào)整了大樣本中元特征在通道的權(quán)重,自適應(yīng)地補(bǔ)償了大樣本元特征由于特征遷移所引起的偏移,緩解大樣本圖像檢測能力的下降。改進(jìn)的元特征遷移模型Up-YOLOv3采用YOLOv3 為主干網(wǎng)絡(luò),元特征提取模塊D 為DarkNet53。Up-YOLOv3 的整體結(jié)構(gòu)如圖2 所示。
本文定義輸入的大樣本圖像(支撐圖像)為I,經(jīng)過元特征提取模塊D 得到具有m個(gè)通道的元特征F∈Rw×h×m,表示為F=D(I),利用基于CBAM 的注意力機(jī)制模塊,生成大樣本圖像的像素級分割掩膜Μ。同理,小樣本圖像(查詢圖像)也通過模塊D 得到具有m個(gè)通道的元特征Ff∈Rw×h×m。隨后,元特征一次重加權(quán)模塊M 將原始圖像和像素級掩膜的拼接(Ii,Μi)作為輸入,其中Ii(i=1,2,…,N)表示輸入的大樣本圖像,Mi表示對應(yīng)的像素級掩膜。N表示待檢測目標(biāo)類別的總數(shù),本文中N=20。重加權(quán)模塊M 按類別輸出重加權(quán)系數(shù)wi∈Rm,并通過式(1)實(shí)現(xiàn)大樣本元特征向小樣本元特征的遷移:
其中:?表示基于1×1 深度卷積的通道卷乘(channelmultiplication)。
隨后,SE-SMFR 模塊將Fi作為輸入,通過壓縮、激勵(lì)和融合操作自適應(yīng)地調(diào)整Fi的通道權(quán)重系數(shù)。接在二次重加權(quán)模塊SE-SMFR 之后的檢測模塊P 以調(diào)整后的二次重加權(quán)元特征作為輸入,對圖像中目標(biāo)類別的置信度o、目標(biāo)預(yù)測框的位置信息(x,y,h,w)以及目標(biāo)類別的分類得分c進(jìn)行判決和預(yù)測。
本文使用Softmax 校正不同類別分類得分。具體地,第i個(gè)目標(biāo)類別原始分類得分為ci,校正后的實(shí)際分類得分c?i由式(2)計(jì)算得出:
結(jié)合交叉熵函數(shù),得到對目標(biāo)類別的損失函數(shù)Lc,如式(3)所示:
其中:I(·,i)表示目前所得到的候選檢測框是否屬于第i個(gè)目標(biāo)類別。在本文檢測任務(wù)中,定義預(yù)測框(Bounding Box)的回歸損失函數(shù)為Lbbx,邊框目標(biāo)得分(objectness)的損失函數(shù)為Lobj,這兩個(gè)損失函數(shù)與YOLOv3 定義的損失函數(shù)類似。綜上所述,總損失函數(shù)如式(4)所示:
為了使模型聚焦圖像中的目標(biāo)區(qū)域,本文采用CBAM 以像素級提取目標(biāo)的輪廓信息。該模塊嵌入在特征提取模塊D 的最后一層。相較于傳統(tǒng)通道注意力機(jī)制[22]僅關(guān)注通道維度上的元特征信息,CBAM 同時(shí)結(jié)合圖像空間和通道上的特征信息,可實(shí)現(xiàn)圖像目標(biāo)邊緣輪廓的像素級別分割,以便特征提取模塊D 提取圖像中目標(biāo)關(guān)鍵細(xì)節(jié)元特征信息。
如圖3 所示,本文所采用的基于CBAM 的注意力機(jī)制由一個(gè)通道注意力網(wǎng)絡(luò)和一個(gè)空間注意力網(wǎng)絡(luò)組成。通道注意力網(wǎng)絡(luò)對輸入特征的通道進(jìn)行篩選,而空間注意力網(wǎng)絡(luò)聚焦特征圖中的顯著區(qū)域。具體地,CBAM 的輸入為D 所提取的元特征F,其維度為w×h×m。計(jì)算步驟如下:
1)通道信息修正。對于輸入的元特征,以通道為單位,進(jìn)行全局最大池化和全局平均池化,得到兩個(gè)1 × 1 ×m的張量。將這兩個(gè)張量的對應(yīng)位置相加,得到一個(gè)1 × 1 ×m的融合張量。將融合張量經(jīng)Sigmoid 函數(shù)激活后,與輸入元特征圖F按元素矩陣(element-wise)相乘,生成修正后的中間元特征F′。
2)空間信息與通道信息融合。將中間元特征F′以其空間位置為單位,對其m維的通道做平均池化和最大池化,得到兩個(gè)大小為w×h的矩陣,并將這兩個(gè)矩陣拼接。接著,利用一個(gè)大小為7 × 7 的卷積核對拼接后的張量進(jìn)行卷積操作,降維為一個(gè)w×h× 1 的通道。經(jīng)過Sigmoid 激活后再與輸入的元特征F按元素矩陣相乘,生成目標(biāo)區(qū)域注意力元特征F″。
為了展示該基于CBAM 的注意力機(jī)制的效果,利用Grad-CAM(Gradient-weighted Class Activation Mapping)[23]對注意力分配進(jìn)行可視化,如圖4 所示。
圖4 是三幅輸入圖像(包含的目標(biāo)分別為貓、鳥和船)和相對應(yīng)的注意力分配可視化結(jié)果圖,其中暖色調(diào)表示顯著區(qū)域,冷色調(diào)表示背景區(qū)域。圖4 的可視化結(jié)果表明嵌入在特征提取模塊D 中的CBAM 能夠較好地感知到圖像中的顯著區(qū)域和前景目標(biāo)。
本文模型使用的像素級掩膜由上述注意力模塊通過訓(xùn)練而生成。首先,保留元特征F″中目標(biāo)區(qū)域的權(quán)重;然后,利用權(quán)重對注意力圖加權(quán)求和,得到掩膜M,生成的掩膜如圖5 第三行所示。與原始的矩形框掩膜圖5 第二行相比,本文所用掩膜能夠引導(dǎo)模型關(guān)注圖像中與前景目標(biāo)對應(yīng)的顯著區(qū)域,抑制背景的干擾,為提高元特征的可區(qū)分性能提供條件。
后文的消融實(shí)驗(yàn)顯示使用改進(jìn)的像素級掩膜之后,模型對于小樣本圖像的檢測準(zhǔn)確率有顯著提升,驗(yàn)證了該注意力模塊在元特征遷移模型中的作用。
為了解決微調(diào)后大樣本圖像的元特征發(fā)生偏移導(dǎo)致的檢測準(zhǔn)確率下降的問題,本文提出基于SE 的元特征二次重加權(quán)(SE-SMFR)模塊。該模塊通過壓縮、激勵(lì)和融合等操作調(diào)整大樣本圖像元特征的通道權(quán)重,實(shí)現(xiàn)二次重加權(quán),從而補(bǔ)償大樣本圖像中元特征的偏移。SE-SMFR 模塊的結(jié)構(gòu)如圖6 所示。
SE-SMFR 模塊的工作流程主要由以下三步構(gòu)成:
1)壓縮(Squeeze)。對大樣本圖像元特征圖進(jìn)行全局池化,壓縮為1 × 1 ×m的向量。圖6 中標(biāo)記的SERadio為縮放參數(shù),其目的在于通過減少通道數(shù)降低計(jì)算量。
2)激勵(lì)(Excitation)。經(jīng)過壓縮后網(wǎng)絡(luò)得到一個(gè)全局特征表達(dá)。將該特征輸入兩層全連接層,融合元特征中各維度信息,然后分別經(jīng)過線性整流函數(shù)(Rectified Linear Unit,ReLU)函數(shù)和Sigmoid 函數(shù)激活,將元特征信息重新映射到0和1 之間。
3)元特征融合(Scale)。獲得大樣本圖像元特征圖的通道權(quán)重后,通過矩陣相乘將其與原始的元特征進(jìn)行融合,從而補(bǔ)償大樣本圖像元特征的偏移。
經(jīng)過上述流程,圖像元特征輸入檢測模塊P之前進(jìn)行二次加權(quán)調(diào)整,實(shí)現(xiàn)了大、小樣本之間元特征信息的共享,同時(shí)彌補(bǔ)了由于特征遷移引起的元特征偏移。因此,Up-YOLOv3不但提升了小樣本圖像的目標(biāo)檢測準(zhǔn)確率,還較好地保持了對大樣本圖像的檢測性能。
本文使用通用目標(biāo)檢測公開數(shù)據(jù)集PASCAL VOC2007[24]和PASCAL VOC2012[25]。將PASCAL VOC2007和PASCAL VOC2012 中的訓(xùn)練集和驗(yàn)證集用于模型訓(xùn)練,共16 551 張圖片;PASCAL VOC2007 中的測試集用于測試模型,總共為4 952 張圖片。兩個(gè)數(shù)據(jù)集中一共包含20 個(gè)類別,分別為飛機(jī)、自行車、鳥、船、瓶子、小汽車、公交車、貓、狗、奶牛、沙發(fā)、馬、人、飯桌、摩托車、盆栽植物、椅子、火車、電視、山羊。訓(xùn)練時(shí),隨機(jī)挑選其中5 個(gè)類別(后文稱為新類)作為小樣本圖像,其余15 個(gè)類別(后文稱為基類)作為本文大樣本圖像。為驗(yàn)證模型對不同類別圖像的泛化能力和魯棒性,本文設(shè)置3 組基類/新類組合,詳細(xì)信息請參考3.3.1 節(jié)內(nèi)容。
比如,學(xué)習(xí)兒童歌曲《小兔子乖乖》,教師可以讓幼兒選擇自己喜歡的角色,把自己扮演成小白兔、大灰狼,通過角色扮演的形式去把歌曲中的童話故事演繹出來,在幼兒演繹故事情節(jié)的時(shí)候能夠加深他們對這首兒歌內(nèi)容的理解,也能夠點(diǎn)燃幼兒的學(xué)習(xí)興致。然后教師可以讓幼兒思考一下為什么小白兔見到大灰狼不能開門,也可以想象一下如果小白兔開了門故事會(huì)是怎樣的結(jié)局,之后再相互討論一下小白兔可以如何來化解自己的危機(jī)。教師可以鼓勵(lì)幼兒將故事演繹成不同的版本,讓幼兒自由地發(fā)揮自己的想象力,打破兒歌故事的束縛,大膽地對故事后續(xù)情節(jié)進(jìn)行想象。
實(shí)驗(yàn)環(huán)境:操作系統(tǒng)基于Ubuntu18.04.5LTS,CPU 為Intel Xeon-2150B@3.00 GHz*20,顯卡為雙GeForce RTX 2080Ti,內(nèi)存為32 GB,使用基于PyTorch 1.4.1 的深度學(xué)習(xí)框架。
本文通過雙階段訓(xùn)練方式來實(shí)現(xiàn)小樣本目標(biāo)檢測:第一階段針對標(biāo)簽信息充足的大樣本圖像對包括特征提取模塊D、重加權(quán)模塊M 和檢測模塊P在內(nèi)的整個(gè)模型進(jìn)行訓(xùn)練,共90 輪次。訓(xùn)練完成后,從大樣本圖像中提取元特征并獲取重加權(quán)向量。第二階段同時(shí)利用大、小樣本圖像進(jìn)行訓(xùn)練,共20 輪次。此時(shí),每個(gè)新類中只有k個(gè)圖像帶有標(biāo)簽信息。在第二階段的訓(xùn)練過程中,為了平衡樣本數(shù)量差異,也只從每個(gè)基類中選取k個(gè)帶有標(biāo)簽信息的圖像。該階段訓(xùn)練的目標(biāo)是通過模型微調(diào),實(shí)現(xiàn)元特征遷移。為對比在給出不同標(biāo)簽信息數(shù)量的情況下模型對于小樣本圖像的檢測效果以及檢驗(yàn)?zāi)P汪敯粜?,本文分別在k=1,2,3,5,10 的情況下進(jìn)行實(shí)驗(yàn)。每次訓(xùn)練時(shí)批大小(Batch_Size)設(shè)為8,學(xué)習(xí)率設(shè)置為0.000 01。
為驗(yàn)證Up-YOLOv3 性能,本文設(shè)計(jì)了目標(biāo)檢測準(zhǔn)確率對比實(shí)驗(yàn)、可視化實(shí)驗(yàn)和消融實(shí)驗(yàn)。實(shí)驗(yàn)采用Top-1 的檢測平均準(zhǔn)確率均值mAP 作為性能指標(biāo)。
3.3.1 模型性能對比實(shí)驗(yàn)
本文分別設(shè)計(jì)小、大樣本圖像的目標(biāo)檢測性能對比實(shí)驗(yàn)。前者用于驗(yàn)證Up-YOLOv3 相較于Base-YOLOv2 及其他模型對小樣本圖像目標(biāo)檢測的性能優(yōu)勢;后者用于驗(yàn)證Up-YOLOv3 可以緩解對于大樣本圖像檢測性能下降的問題。為驗(yàn)證模型魯棒性,本文在這兩個(gè)對比實(shí)驗(yàn)中均設(shè)置3 種不同的基類/新類組合進(jìn)行交叉實(shí)驗(yàn)。
1)普通遷移模型LSTD[18],為公平地進(jìn)行性能比較,對該模型的訓(xùn)練采用與本文類似的雙階段訓(xùn)練方法;
2)原始的基于YOLOv2 的元特征遷移模型Base-YOLOv2[19];
3)原始的基于YOLOv3 元特征遷移模型,稱為Base-YOLOv3;
4)改進(jìn)的基于YOLOv2 的元特征遷移模型,稱為Up-YOLOv2;
5)改進(jìn)的基于YOLOv3 的元特征遷移模型(即本文模型),稱為Up-YOLOv3。
針對小樣本圖像檢測的對比實(shí)驗(yàn)結(jié)果如表1 所示。新類組合1 中的小樣本類別為鳥、沙發(fā)、奶牛、摩托車和公交車;新類組合2 的小樣本類別為火車、電視、馬、瓶子和狗;新類組合3 的小樣本類別為山羊、自行車、奶牛、鳥、人。其余15 類為本文的基類。
表1 不同模型對小樣本圖像的mAP對比 單位:%Tab.1 Comparison of mAP among different models for few-shot object images unit:%
由表1 可知,針對小樣本類圖像檢測,在不同新類組合中以及在標(biāo)簽信息k分別為1、2、3、5、10時(shí),元特征遷移模型檢測性能整體優(yōu)于LSTD 模型;且相較于LSTD 模型,Up-YOLOv3 的mAP 最高提升了13.4 個(gè)百分點(diǎn)。對比4 個(gè)元特征遷移模型可知,基于YOLOv3 搭建的元特征遷移模型檢測性能均優(yōu)于基于YOLOv2 搭建的元特征遷移模型,且改進(jìn)后的元特征遷移模型檢測性能均優(yōu)于原始元特征遷移模型。特別地,與Base-YOLOv2 相比,Up-YOLOv3 的mAP 最低提升了2.3 個(gè)百分點(diǎn);隨著k的增加,mAP 基本呈逐漸上升的趨勢,在k=3時(shí),mAP 最高提升了9.1 個(gè)百分點(diǎn);在k=10時(shí),mAP 提升了5.5 個(gè)百分點(diǎn),此時(shí)Up-YOLOv3 的整體效果最優(yōu)。該實(shí)驗(yàn)結(jié)果驗(yàn)證了Up-YOLOv3 的有效性。此外,Up-YOLOv3 在3 種不同小樣本組合實(shí)驗(yàn)中,mAP 相對穩(wěn)定,驗(yàn)證了Up-YOLOv3 對不同小樣本組合圖像識別的魯棒性。
對于大樣本圖像的目標(biāo)檢測性能,除了對上述5 個(gè)模型外,增加了原始的YOLOv3 模型作為參照。該原始的YOLOv3 模型不考慮小樣本目標(biāo)檢測問題,直接由大量帶標(biāo)注信息的數(shù)據(jù)驅(qū)動(dòng)訓(xùn)練,不進(jìn)行元特征重加權(quán)。因此,該模型作為目標(biāo)檢測性能對比的上界。大樣本的檢測性能的實(shí)驗(yàn)結(jié)果如表2 所示。
表2 中的3 種基類組合方式與表1 中的一致。下劃線數(shù)據(jù)代表除Up-YOLOv3 外的次好準(zhǔn)確率。表1 中的3 組新類組合與表2 中對應(yīng)組別的基類組合共同構(gòu)成PASCAL VOC數(shù)據(jù)集中的20 個(gè)類別,新類組合與基類組合之間互斥。
由表2 可知,Up-YOLOv3 在大樣本圖像上能達(dá)到與YOLOv3 相媲美的檢測性能。注意到下劃線數(shù)據(jù),Base-YOLOv3 對大樣本圖像的mAP 顯著高于Base-YOLOv2,原因是YOLOv3 網(wǎng)絡(luò)本身就提升了對于對于圖像的檢測精度。故為展示本文模型(Up-YOLOv3)的改進(jìn)效果,設(shè)計(jì)此對照實(shí)驗(yàn)以排除YOLOv3 網(wǎng)絡(luò)本身對實(shí)驗(yàn)結(jié)果的影響??梢园l(fā)現(xiàn)Up-YOLOv3 的mAP 比Base-YOLOv3 提升了1.8~2.4 個(gè)百分點(diǎn)。對于基類組合1,Up-YOLOv3 的檢測效果優(yōu)于原始YOLOv3。這說明SE-SMFR 可以通過調(diào)整可學(xué)習(xí)的通道權(quán)重來有效補(bǔ)償元特征遷移過程中引入的偏移。從表2 中可以看出,對比其余5 個(gè)元特征遷移的模型,Up-YOLOv3 取得了最佳目標(biāo)mAP;與LSTD 模型相比,Up-YOLOv3 的mAP 最高提升了12.7 個(gè)百分點(diǎn)。此外,對于3 組不同基類組合的實(shí)驗(yàn)數(shù)據(jù)驗(yàn)證了模型對于大樣本圖像的目標(biāo)檢測也具有較強(qiáng)的魯棒性。
表2 不同模型對大樣本圖像的mAP對比 單位:%Tab.2 Comparison of mAP among different models for large-sample object images unit:%
3.3.2 可視化實(shí)驗(yàn)
為了進(jìn)一步探究SE-SMFR 對于特征通道權(quán)重的調(diào)整機(jī)制,本實(shí)驗(yàn)對二次重加權(quán)后的特征圖進(jìn)行可視化。本文實(shí)驗(yàn)選取基類組合2,并設(shè)k=10。將圖像中1 024 個(gè)通道中的元特征權(quán)重通過 t-SNE(t-distributed Stochastic Neighbor Embedding)[26]進(jìn)行非線性降維,再按不同類別排序后取其平均值作為類別與類別之間的相關(guān)性系數(shù),并繪制熱力圖,如圖7 所示。
圖7(a)為未引入二次重加權(quán)模塊時(shí)大樣本圖像各類別間的關(guān)系映射圖,圖7(b)為引入二次重加權(quán)模塊后對大、小樣本圖像類別和大樣本圖像類別間的關(guān)系映射圖。首先,圖7(a)中對角線高亮代表同一類別的相關(guān)性最高。圖7(b)中,大樣本圖像部分元特征信息加權(quán)至小樣本圖像中,但對角高亮線依然存在,說明模型依舊維持了對大樣本圖像元特征的權(quán)重信息,驗(yàn)證了前述性能比較實(shí)驗(yàn)中改進(jìn)模型可以改善由于元特征權(quán)重信息損失所帶來的對大樣本圖像的檢測性能影響。其次,圖7(a)中,奶牛和山羊的元特征信息具有較強(qiáng)相關(guān)性,這可能會(huì)影響模型對奶牛和山羊的檢測效果。引入二次重加權(quán)模塊調(diào)整元特征權(quán)重后,可以發(fā)現(xiàn)圖7(b)中的奶牛和山羊的自相關(guān)權(quán)重均有所增大,而互相關(guān)權(quán)重均有所下降,這也說明二次重加權(quán)模塊可以改善大樣本圖像中各類別的元特征權(quán)重。最后,從圖7(b)中還可以觀察到,同類之間的顏色更加靠近,不同類之間的顏色更加區(qū)分,因此類別與類別之間的關(guān)系得到進(jìn)一步區(qū)分,同類類別之間映射關(guān)系加強(qiáng),如新加入的小樣本圖像中,馬的元特征信息主要被映射至大樣本圖像的奶牛和山羊,而狗的元特征信息主要被映射至貓,瓶子的元特征信息著重映射至盆栽植物,均具有有效性和合理性。
3.3.3 消融實(shí)驗(yàn)
消融實(shí)驗(yàn)用于探究基于CBAM 的注意力模塊和SESMFR 模塊對大樣本圖像和小樣本圖像mAP 的影響,該實(shí)驗(yàn)也在標(biāo)簽個(gè)數(shù)k=10 且在新類組合2 的條件下進(jìn)行,實(shí)驗(yàn)結(jié)果如表3 所示。
表3 消融實(shí)驗(yàn)結(jié)果對比Tab.3 Comparison of ablation experimental results
由第1、2 組實(shí)驗(yàn)結(jié)果可知,添加基于CBAM 的注意力模塊后,模型對小樣本圖像的mAP 提高了1.8 個(gè)百分點(diǎn),但對于大樣本的mAP 卻下降了0.7 個(gè)百分點(diǎn),驗(yàn)證了上文提出的結(jié)論,即:經(jīng)過第一次特征重加權(quán)后大樣本圖像會(huì)損失部分元特征權(quán)重信息;而小樣本圖像由于本身缺少足夠的元特征信息,在注意力機(jī)制的作用下,通過元特征重加權(quán)后獲得了來自大樣本圖像的元特性信息,提高了模型對小樣本圖像的檢測效果。對比第1、3 組的實(shí)驗(yàn)結(jié)果可知,SE-SMFR 對于大樣本圖像的mAP 提升了2.1 個(gè)百分點(diǎn),但對于小樣本圖像影響較小,這驗(yàn)證了SE-SMFR 的設(shè)計(jì)初衷,即增強(qiáng)模型對于大樣本圖像的檢測效果。第4 組實(shí)驗(yàn)的結(jié)果表明,在加入注意力機(jī)制和二次重加權(quán)模塊后,模型對大樣本圖像和小樣本圖像的mAP 均達(dá)到最高,再次表明本文改進(jìn)后的模型的有效性和合理性。
為探究改進(jìn)后的模型與原始元特征遷移模型的參數(shù)量變化以及模型收斂時(shí)間變化,給出各模型的模型大小與收斂時(shí)間對比,如表4 所示。
表4 模型大小與收斂時(shí)間的對比Tab.4 Comparison of model size and convergence time
結(jié)合表1~4 可看出,增加基于CBAM 的注意力模塊和SE-SMFR 模塊后,Up-YOLOv2 相較于Base-YOLOv2 在大幅提升mAP 的同時(shí),參數(shù)量僅增加約1.7%,浮點(diǎn)運(yùn)算量和收斂時(shí)間均未顯著增加。同樣,Up-YOLOv3 相較于Base-YOLOv3也僅增加了約0.8%的參數(shù)量,浮點(diǎn)運(yùn)算量也僅增加了約0.1 GFLOPs,均可近似忽略,且收斂時(shí)間也并有未顯著增加。這充分說明了Up-YOLOv3 的優(yōu)越性。
在現(xiàn)有用于解決小樣本目標(biāo)檢測問題的元特征遷移模型基礎(chǔ)上,本文提出了基于CBAM 的注意力機(jī)制模塊和SESMFR 模塊的改進(jìn)元特征遷移模型。其中,基于CBAM 的注意力機(jī)制模塊能對輸入圖像目標(biāo)類別實(shí)現(xiàn)像素級分割,獲取圖像上目標(biāo)類別的關(guān)鍵元特征信息,同時(shí)通過自主學(xué)習(xí)生成掩膜,幫助模型聚焦圖像目標(biāo)類別區(qū)域,有效避免了圖像中無關(guān)背景區(qū)域?qū)τ谀P偷母蓴_,提升模型對圖像中關(guān)鍵目標(biāo)的細(xì)節(jié)特征提取能力??紤]到將大樣本圖像元特征信息遷移至小樣本圖像中時(shí),會(huì)導(dǎo)致模型對于大樣本圖像元特征的偏移,設(shè)計(jì)了SE-SMFR。SE-SMFR 能對大樣本圖像元特征信息進(jìn)行二次重加權(quán),在提升小樣本圖像mAP 的同時(shí)也能減少模型對大樣本圖像元特征權(quán)重信息的損失。實(shí)驗(yàn)結(jié)果表明,與Kang等[19]提出的原始元特征遷移模型Base-YOLOv2相比,本文模型對小樣本圖像的mAP 提升了2.3~9.1 個(gè)百分點(diǎn);與Base-YOLOv3 相比,本文模型對大樣本圖像的mAP 提升了1.3~2.4 個(gè)百分點(diǎn)。與普通遷移模型LSTD 相比,對小樣本圖像、大樣本圖像的mAP 分別最高提升了13.4 和12.7個(gè)百分點(diǎn)。在大幅提升檢測準(zhǔn)確率的同時(shí),本文模型保持了與未改進(jìn)前模型相近的參數(shù)量、計(jì)算量和收斂時(shí)間。下一步的工作將研究圖像類別之間的關(guān)系對模型檢測性能的影響。