齊勇軍,湯海林,翟敏煥
(廣東白云學(xué)院大數(shù)據(jù)與計(jì)算機(jī)學(xué)院,510450,廣州)
隨著深度學(xué)習(xí)的發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)在計(jì)算機(jī)視覺領(lǐng)域得到了廣泛的應(yīng)用,在語義分割[1-4],目標(biāo)檢測[5-8]等任務(wù)中,都有著優(yōu)秀的表現(xiàn)。然后,這些方法都需要使用大量完整標(biāo)注的數(shù)據(jù)進(jìn)行訓(xùn)練。對大量數(shù)據(jù)進(jìn)行精細(xì)標(biāo)注需要耗費(fèi)巨大的成本,近年來,基于卷積神經(jīng)網(wǎng)絡(luò)的弱監(jiān)督目標(biāo)定位算法,因其只需標(biāo)注圖像類別標(biāo)簽就可以定位圖中的物體而受到學(xué)術(shù)界廣泛的關(guān)注。由于不用標(biāo)注圖像中目標(biāo)具體的邊界框,只需對圖像進(jìn)行粗粒度的標(biāo)注,因此它具有降低成本的優(yōu)勢。
在眾多弱監(jiān)督學(xué)習(xí)算法中,Class Activation Mapping(CAM)[9]是最具代表性的算法之一,它為后續(xù)的弱監(jiān)督學(xué)習(xí)研究奠定了基礎(chǔ)。圖像經(jīng)過CAM算法處理后,能夠得到可視化的特征圖,并映射到原圖像中,最終得到對于不同類別物體圖像中重點(diǎn)關(guān)注的區(qū)域。但是CAM也存在著缺點(diǎn),它的注意力圖中目標(biāo)的區(qū)域往往只是目標(biāo)物體最具有辨別力的部分,因此不能準(zhǔn)確地定位目標(biāo)的完整區(qū)域。
為了解決CAM算法的缺陷,不同的改進(jìn)方法被提出。SPG[10]、ACoL[11]、ADL[12]、DANet[13]等算法基于CAM算法進(jìn)行了改進(jìn),但是仍然存在著激活區(qū)域不準(zhǔn)確的問題。Wang等人[14]提出了使用自適應(yīng)注意力增強(qiáng)弱監(jiān)督目標(biāo)定位的方法A3進(jìn)行位置修正。具體來說:在輸入的圖像通過特征提取器后,把得到的特征圖輸入到A3模塊,在A3模塊中,特征圖被轉(zhuǎn)換為指導(dǎo)圖和補(bǔ)充圖,指導(dǎo)圖通過一個(gè)空間自注意力機(jī)制得到一個(gè)相關(guān)系數(shù)矩陣,來獲取不同目標(biāo)區(qū)域間的語義相關(guān)性,從而指導(dǎo)補(bǔ)充圖獲取更多的目標(biāo)區(qū)域。另外,通過使用提出的Focal Dice損失函數(shù),能夠和分類損失函數(shù)制衡,來動態(tài)地增強(qiáng)補(bǔ)充注意力圖中目標(biāo)的注意力,降低背景區(qū)域的注意力。最終,將指導(dǎo)注意力圖和補(bǔ)充注意力圖融合,得到最終的目標(biāo)定位區(qū)域。
本文提出一種基于風(fēng)機(jī)葉片自適應(yīng)特征矯正的弱監(jiān)督目標(biāo)定位算法,該算法基于Zhang等人提出的自適應(yīng)注意力增強(qiáng)弱監(jiān)督目標(biāo)定位算法,引入自適應(yīng)矯正模塊對其進(jìn)行了改進(jìn)。通過使用自適應(yīng)矯正模塊,同時(shí)應(yīng)用空間注意力機(jī)制和通道注意力機(jī)制,獲得了更加準(zhǔn)確的目標(biāo)區(qū)域。相比于原本的弱監(jiān)督目標(biāo)定位方法A3,本文提出的方法能夠獲取更為完整的目標(biāo)區(qū)域和更高的分類精度,且具有較好的視覺效果。
在Zhang等人提出的自適應(yīng)注意力增強(qiáng)弱監(jiān)督定位的方法A3中,只使用了自注意力機(jī)制來更好地獲取到目標(biāo)區(qū)域。本文在A3中最終的全局平均池化操作之前的卷積層中增加了自適應(yīng)矯正模塊,這個(gè)模塊首先將輸入的特征按通道分組,每組特征按照通道平均分為兩部分,對這兩部分特征分別使用空間注意力機(jī)制和改進(jìn)的通道注意力機(jī)制,之后對兩部分特征做拼接操作,最終對各組拼接后的特征做通道隨機(jī)混合(channel shuffle)操作。使用本文提出的方法能夠使網(wǎng)絡(luò)更加關(guān)注目標(biāo)有辨別力區(qū)域的特征信息,抑制不重要的特征,得到更加準(zhǔn)確的目標(biāo)區(qū)域。
本文提出網(wǎng)絡(luò)主要分為3個(gè)部分,分別為主干網(wǎng)絡(luò)模塊、A3模塊、自適應(yīng)矯正模塊,如圖1所示。
圖1 基于自適應(yīng)特征矯正弱監(jiān)督目標(biāo)定位算法網(wǎng)絡(luò)結(jié)構(gòu)圖
對任意輸入的圖像I,它的類別標(biāo)簽為y,y={0,1,2,3,…,C-1},C為圖像分類的類別個(gè)數(shù)。I首先輸入到主干網(wǎng)絡(luò)中,輸出得到圖像I的特征圖F∈H×W×K,其中,H代表特征85圖的高度,W代表寬度,K代表通道數(shù)。本文使用VGG16_bn網(wǎng)絡(luò)[15]作為主干網(wǎng)絡(luò)。隨后,將F輸入到A3模塊中,在A3模塊中,F(xiàn)分別通過一組1×1卷積被轉(zhuǎn)換為指導(dǎo)圖G∈H×W×N和補(bǔ)充圖S∈H×W×N,其中H代表2個(gè)指導(dǎo)圖的高度,W代表寬度,N代表通道數(shù),本文設(shè)置N=K/2。指導(dǎo)圖G通過自注意力機(jī)制生成一個(gè)相關(guān)矩陣,從這個(gè)相關(guān)矩陣中可以獲取到一個(gè)物體不同部分之間的語義相關(guān)性信息。具體來說,先得到G的轉(zhuǎn)置GT∈H×W×K,然后將G和GT的矩陣重塑為和和和使用矩陣乘法得到相關(guān)矩陣M∈(HW)×(HW)。
其中GMP代表全局最大池化操作(Global Max Pooling,GMP),W2和b2代表參數(shù)且W2∈N/2gx1,b2∈N/2gx1,σ代表Sigmoid激活函數(shù),f代表矩陣拼接操作和3個(gè)3×3卷積操作,最終得到的X′∈N/2gxHxWx。經(jīng)過上述操作后,得到各組的輸出X′,X′為與在通道維度的拼接且X′∈N/gxHxW。最后,將各組的輸出拼接起來,在進(jìn)行通道隨機(jī)混合操作,得到最終的輸出且特征G在自適應(yīng)矯正模塊處理完成后,經(jīng)過一個(gè)1×1×C的卷積,得到類別相關(guān)的特征圖AMG∈C×H×W;特征在自適應(yīng)矯正模塊處理完成后,經(jīng)過一個(gè)1×1×C的卷積,得到類別相關(guān)的特征圖AMS∈C×H×W,W2∈N/2gx1。
在經(jīng)過3個(gè)模塊處理完之后,為了定位物體,首先將AMG和AMS通過全局平均池化得到類別得分vC∈c和vS∈c,隨后使用集成的方式得到最終的類別得分vC∈c:vC=softmax(vG+vS),最終預(yù)測輸入圖像的類別為yc=argmax(vc)。
本文算法中,使用的損失函數(shù)與A3中的損失函數(shù)一致,分別使用了FocalDice損失函數(shù)和交叉熵(Cross-Entropy)損失函數(shù)。
Focal Dice損失函數(shù)為:
其中:α為損失權(quán)重,CE為交叉熵?fù)p失函數(shù)。
本文算法使用的數(shù)據(jù)集主要為Caltech-UCSDBirds(CUB)數(shù)據(jù)。它是圖像目標(biāo)檢測常用的數(shù)據(jù)集之一,包含了300種鳥類的圖片,由6 000張訓(xùn)練圖像和6 000張測試圖像組成。在弱監(jiān)督定位網(wǎng)絡(luò)訓(xùn)練時(shí),只使用該數(shù)據(jù)集的類別標(biāo)簽。
本項(xiàng)目在PyTorch1.7環(huán)境運(yùn)行測試,CPU處理器是Intel(R) Xeon(R) CPU E5-1620v44核8線程,內(nèi)存為64 GB,顯卡是Nvidia GeForce RTX3080 10 GB,顯存達(dá)到10 GB,Ubuntu20.04操作系統(tǒng)。
本文主要使用Top-1定位準(zhǔn)確率(Top-1Loc)和Top-1分類準(zhǔn)確率(Top-1Cls)來評估算法的性能。Top-1Loc可以反映算法的定位能力,對于每一張圖像,只有分類正確且預(yù)測定位框與實(shí)際定位框的交并比大于0.5時(shí)才被認(rèn)為定位正確。Top-1Cls可以反映算法的分類能力。
在訓(xùn)練階段,設(shè)置批大小為32,初始化學(xué)習(xí)率為0.001,并且使用隨機(jī)梯度下降的方法(stochastic gradient descent,SGD)優(yōu)化模型參數(shù),其中動量和權(quán)重衰減值分別設(shè)置為0.9和0.000 5,并在第10周期和15周期衰減到原來的0.1倍,一共被訓(xùn)練了30個(gè)周期。表1為提出的方法和A3在CUB數(shù)據(jù)集上的弱監(jiān)督目標(biāo)定位任務(wù)中對比的結(jié)果。
表1 CUB數(shù)據(jù)集弱監(jiān)督定位結(jié)果對比
從表1中可以看出,本文提出的方法在定位精度上相比于A3有了明顯的提升,在分類準(zhǔn)確度上略低于A3,這是由于分類任務(wù)往往關(guān)注目標(biāo)最具有辨別力的區(qū)域,而定位任務(wù)關(guān)注的是獲取目標(biāo)更為完整的區(qū)域,因此更好的定位能力會使得網(wǎng)絡(luò)的分類能力略微下降,最終需要在網(wǎng)絡(luò)的定位能力和分類能力之間取得一個(gè)平衡。本文還驗(yàn)證了自適應(yīng)矯正模塊主要部分處于不同位置時(shí),算法的定位能力,如表2所示。
表2 矯正模塊在不同位置定位結(jié)果對比
從表2中可以看出,當(dāng)自適應(yīng)矯正模塊主要部分位于一組3×3卷積之后時(shí),能夠得到最好的定位準(zhǔn)確率和分類準(zhǔn)確率。這是由于經(jīng)過一組3×3卷積之后,增加了網(wǎng)絡(luò)深度,能夠提取到更高維的特征,獲取到更準(zhǔn)確和完整的類激活圖,從而使得目標(biāo)的定位區(qū)域更加準(zhǔn)確和完整。
本文提出了一種改進(jìn)的自適應(yīng)弱監(jiān)督定位方法,該方法通過引入自適應(yīng)矯正模塊,對自適應(yīng)弱監(jiān)督定位方法A3進(jìn)行了改進(jìn)。改進(jìn)后的監(jiān)督定位方法通過使用自適應(yīng)矯正模塊,可以同時(shí)應(yīng)用空間注意力機(jī)制和改進(jìn)的通道注意力機(jī)制,同時(shí)利用全局最大池化和全局平均池化,獲得了更加準(zhǔn)確的目標(biāo)區(qū)域。理論分析和實(shí)驗(yàn)結(jié)果表明,相比于原本的自適應(yīng)弱監(jiān)督定位方法A3,本文提出的方法能夠獲取更為完整的目標(biāo)區(qū)域和更高的分類精度,且具有較好的視覺效果。