摘要:由于可見類和未見類目標(biāo)數(shù)據(jù)分布的差異性,目前基于映射遷移策略的零樣本目標(biāo)檢測算法在測試時容易偏向可見類別的目標(biāo),且因為不同類別在屬性上的相似性,特征分布比較混亂。本文提出一種新的零樣本目標(biāo)檢測框架,利用所設(shè)計的先驗知識提取模塊和自上而下注意力機(jī)制模塊,為檢測過程提供任務(wù)導(dǎo)向,引導(dǎo)模型在訓(xùn)練期間關(guān)注出現(xiàn)的未見類特征,提高模型對不同數(shù)據(jù)分布的判別性;還設(shè)計了一種新的對比約束以提高特征之間的聚類能力;在MSCOCO 標(biāo)準(zhǔn)數(shù)據(jù)集上進(jìn)行了大量實(shí)驗。結(jié)果表明,該模型在標(biāo)準(zhǔn)和廣義零樣本目標(biāo)檢測任務(wù)上都取得了顯著效果。
關(guān)鍵詞:計算機(jī)視覺;目標(biāo)檢測;零樣本目標(biāo)檢測;自上而下注意力機(jī)制;對比約束
中圖分類號:TP391.4 文獻(xiàn)標(biāo)志碼:A
隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展,計算機(jī)視覺領(lǐng)域已經(jīng)取得了巨大的進(jìn)步,各種目標(biāo)檢測算法[1-3] 相繼出現(xiàn),顯著地提升了檢測性能。然而,這些目標(biāo)檢測算法都依賴于大規(guī)模的標(biāo)注數(shù)據(jù),由于實(shí)際場景中自然界的目標(biāo)服從長尾分布[4-6],很多目標(biāo)的標(biāo)注數(shù)據(jù)難以獲取,檢測器也無法自主地將識別能力推廣和優(yōu)化,導(dǎo)致網(wǎng)絡(luò)的性能大幅度下降。
為解決上述問題,一些研究[7-9] 提出了零樣本目標(biāo)檢測任務(wù)(Zero-Shot Object Detection, ZSD),它的靈感源于人類可以通過以往的經(jīng)驗或者知識快速學(xué)習(xí)新概念,旨在同時定位和識別訓(xùn)練過程中未見過的新目標(biāo)。目前,大多數(shù)ZSD 模型基于一種嚴(yán)格的映射遷移策略[10-13],即在訓(xùn)練階段利用可見類別數(shù)據(jù),結(jié)合類別語義嵌入向量,學(xué)習(xí)視覺特征到語義特征的映射函數(shù),并將其遷移到未見類數(shù)據(jù),識別新的目標(biāo)。還有一些學(xué)者[14-16] 使用生成模型來合成未見類目標(biāo)的特征,并重新訓(xùn)練分類器,將零樣本學(xué)習(xí)過程轉(zhuǎn)換成有監(jiān)督學(xué)習(xí)。
然而,由于可見類數(shù)據(jù)和未見類數(shù)據(jù)之間數(shù)量不同、種類不同,數(shù)據(jù)分布存在較大差異,而模型訓(xùn)練時只利用可見類樣本,這使得測試時容易將未見類目標(biāo)識別為可見類目標(biāo),造成嚴(yán)重的域偏移問題,特別是當(dāng)面對更具挑戰(zhàn)性的廣義零樣本目標(biāo)檢測(Generalized Zero-Shot Object Detection, GZSD) 任務(wù),需要同時檢測出數(shù)據(jù)中的可見類別目標(biāo)和未見類別目標(biāo)時,模型的遷移能力會更差。為此,研究者已經(jīng)做了大量的工作[17-19],但這些方法大多利用類別之間的連接關(guān)系,或者利用圖卷積神經(jīng)網(wǎng)絡(luò)[20],挖掘類別屬性上的關(guān)聯(lián),彌補(bǔ)訓(xùn)練時未見類別目標(biāo)信息的缺失。盡管這些工作有一定的效果,它們只是學(xué)習(xí)一個通用的零樣本目標(biāo)檢測器,忽略了檢測任務(wù)對模型的引導(dǎo)作用,無法突出未見類目標(biāo)的特征。
本文設(shè)計了一種基于自上而下的注意力機(jī)制零樣本目標(biāo)檢測框架,利用所提出的先驗知識提取模塊,在訓(xùn)練期間注入未見類別的先驗知識,為模型的訓(xùn)練提供任務(wù)導(dǎo)向,提高對未見類目標(biāo)的注意力,并結(jié)合對比約束,增強(qiáng)同一類別之間的相似性,提高最終的檢測精度。
1 研究現(xiàn)狀
1.1 目標(biāo)檢測
目標(biāo)檢測作為計算機(jī)視覺領(lǐng)域最基礎(chǔ)、最具挑戰(zhàn)性的任務(wù)之一。近年來,隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展,已經(jīng)得到了廣泛的關(guān)注與進(jìn)步,各種高效、杰出的算法[1-2, 21] 不斷出現(xiàn),極大地提高了檢測的精度與速度。目前的目標(biāo)檢測模型大致分為兩種形式: (1) 一階段模型, 如SSD(Spatial PyramidPooling)[22]、YOLO(You Only Look Once)[23-24] 系列、RetinaNet[2] 等,這類模型同時進(jìn)行分類和定位,因此檢測速度較快; (2) 二階段模型,如SPP-net(SpatialPyramid Pooling Convolutional Networks)[25]、Faster RCNN(Faster Region-based Convolutional NeuralNetworks)[1]、R-FCN(Region-based Fully ConvolutionalNetworks)[26]、Mask R-CNN(Mask Region-basedConvolutional Neural Networks)[27] 等,這類模型將檢測過程分為兩步:第1 步生成建議框,確定哪個框里包含檢測目標(biāo);第2 步對高置信度的建議框進(jìn)行分類和定位。由于第1 步篩選出了高質(zhì)量的候選框,所以二階段模型在算法精度上更具優(yōu)勢,但檢測速度卻遜于一階段模型。此外,隨著Transformer 的迅速崛起,為獲取上下文信息,出現(xiàn)了許多基于Transformer的目標(biāo)檢測算法,如DETR(DEtection TRansformer)[21]、Deformable DETR[28]等。盡管這些方法取得了不錯的效果,但它們都基于大量的訓(xùn)練數(shù)據(jù),并且測試數(shù)據(jù)的目標(biāo)類別與訓(xùn)練數(shù)據(jù)一致,無法泛化到未見類別目標(biāo)的檢測。由于Faster R-CNN[1] 精度較高,可擴(kuò)展性較強(qiáng),已經(jīng)被廣泛應(yīng)用到很多領(lǐng)域,所以本文選擇Faster R-CNN[1]作為研究的基礎(chǔ)網(wǎng)絡(luò)。
1.2 零樣本學(xué)習(xí)
零樣本學(xué)習(xí)[29](Zero-Shot Learning, ZSL) 是計算機(jī)視覺領(lǐng)域的一個經(jīng)典問題,它主要模仿人類識別新目標(biāo)的能力,旨在利用可見類別的信息,結(jié)合語義嵌入向量如文本描述、類別屬性向量、詞向量等,將分類能力從特征豐富的源域遷移到目標(biāo)域,進(jìn)而識別未見類別的實(shí)例。目前,關(guān)于ZSL 的研究非常多樣化,如基于生成對抗網(wǎng)絡(luò)的方法[30-33],基于獨(dú)立屬性分類器的方法[34-36] 等。本文主要關(guān)注的基于映射函數(shù)的方法,即利用所提供的語義信息,學(xué)習(xí)一個視覺-語義空間的映射函數(shù)。根據(jù)所映射到的空間的不同,可分為3 種類型:(1)學(xué)習(xí)將特征從視覺空間映射到語義空間的映射函數(shù)[37];(2)學(xué)習(xí)將特征從語義空間映射到視覺空間的映射函數(shù)[38];(3)將視覺特征和語義特征映射到公共的空間[39]。然而,在現(xiàn)實(shí)的應(yīng)用場景中,我們需要的可能不僅僅是物體的類別,還需要對物體進(jìn)行定位,所以ZSD 便應(yīng)運(yùn)而生。
1.3 零樣本目標(biāo)檢測
ZSD 作為一個近些年新提出的任務(wù),已經(jīng)引起了不少的關(guān)注。盡管都是用來檢測未見類目標(biāo),我們不能簡單地將ZSL 中的方法進(jìn)行復(fù)制,因為在ZSD 中單個圖像可能會出現(xiàn)多個目標(biāo),并且還需對目標(biāo)進(jìn)行定位,更具挑戰(zhàn)性。Rahman 等[7] 首次將ZSL 中的算法應(yīng)用到目標(biāo)檢測框架,并引入一種新的聚類損失函數(shù)來對齊視覺空間和語義空間兩個異構(gòu)空間。Bansal 等[8] 提出了一種背景感知的目標(biāo)檢測器,將未見類目標(biāo)從背景中分離出來。為減少噪聲對分類器的影響,MS-ZSD(Multi-Space Approach toZero-Shot Object Detection)[40] 提出了一種包含視覺-語義映射和語義-視覺映射的多空間視覺語義映射方法,并引入跨模態(tài)一致性損失來保持兩個模態(tài)表示的一致性。Zheng 等[13] 通過修改區(qū)域建議網(wǎng)絡(luò)(Region Proposal Network,RPN) 學(xué)習(xí)背景向量,從而更好地區(qū)分背景和前景。Xie 等[41] 將視覺語言模型CLIP 的泛化能力轉(zhuǎn)移到Y(jié)OLOv3 模型上,也取得了不錯的效果。除了修改模型的架構(gòu)以外,Rahman 等[42]提出極性損失函數(shù),從優(yōu)化學(xué)習(xí)過程的角度,實(shí)現(xiàn)視覺特征和語義特征的精準(zhǔn)匹配,緩解類不平衡問題。此外,還有許多基于生成模型的方法[9, 14]。本文采用的是基于映射的方法。
2 研究方法
2.1 問題描述
在ZSD 中,本文用Xs和Xu分別表示訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù),對于第 個樣本,bi =(bix,biy,biw,bih)用于描述目標(biāo)邊界框的空間坐標(biāo)和寬高尺寸,yi ∈ Ys用于描述目標(biāo)的類別。假設(shè)可見類別的集合為Ys = {y1,y2,…, ys},未見類別的集合為Yu = {ys+1,ys+2,…, ys+u}其中,可見類別與未見類別不相交,即Ys∩Yu = ?,Ys ∪Yu = Y,Y表示類別總數(shù)。對于每個類別,本文使用一個 維的語義嵌入向量(word2vec[43]) 輔助進(jìn)行知識的轉(zhuǎn)移,其中,可見類別的語義嵌入向量表示為Vs ∈Rd×s, 未見類別的語義嵌入向量表示為Vu ∈Rd×s,s和 u分別代表可見類別和未見類別的數(shù)量,d代表向量維度。ZSD 的任務(wù)為利用只包含可見類別標(biāo)簽的訓(xùn)練數(shù)據(jù)Xs,結(jié)合語義嵌入向量V,訓(xùn)練一個目標(biāo)檢測器識別和定位未見類別的目標(biāo)。
2.2 模型架構(gòu)
本文提出的ZSD 框架如圖1 所示,ResNet[44] 作為主干網(wǎng)絡(luò),學(xué)習(xí)圖像級的視覺特征,利用RPN 結(jié)合池化操作生成建議框(Region of Interest, RoI),最后利用一個分類分支和回歸分支完成分類和定位任務(wù)。
對于分類分支,利用可見類樣本數(shù)據(jù),學(xué)習(xí)映射函數(shù)ψ v→s(·),將視覺特征映射到語義空間,即
Fs =ψ v→s(Fv) (1)
其中:Fv ∈ Rn×dv代表視覺特征, 表示RoI 的個數(shù),dv = 1 024表示視覺特征的維度,F(xiàn)s ∈ Rn×d表示映射到語義空間的特征,d = 300代表語義特征的維度,映射函數(shù)ψ v→s(·)通過多層感知機(jī)實(shí)現(xiàn)。將映射特征Fs傳入新提出先驗知識提取模塊,如圖1 虛線框所示,結(jié)合特征編碼器,生成具有任務(wù)導(dǎo)向的先驗輔助特征Fprior ∈ Rn×d;利用自上而下的注意力機(jī)制模塊(Top-Down Attention Module, TDAM) 完成特征的融合,并使用余弦相似度進(jìn)行類別預(yù)測。本文的分類損失Lcls采用交叉熵?fù)p失。
對于回歸分支,考慮到Faster R-CNN[1] 采用的類不可知方式,具有較強(qiáng)的可移植性,所以本文沿用了Faster R-CNN[1] 中的邊界框預(yù)測方式,并使用SmoothL1損失進(jìn)行約束。
為提高相同類別特征之間的聚類能力,本文新增一個對比損失Lcon,對各個分量進(jìn)行監(jiān)督,優(yōu)化網(wǎng)絡(luò)參數(shù)。所以本文多任務(wù)損失如下:
Lzsd = Lcls + Lcon +SmoothL1 (2)
2.3 先驗知識提取模塊
自上而下注意力的關(guān)鍵在于先驗知識的獲取,通過利用與任務(wù)有關(guān)的先驗知識,引導(dǎo)模型對底層特征的處理,使模型朝著與當(dāng)前任務(wù)相關(guān)的方向優(yōu)化,從而緩解ZSD 測試時向可見類物體偏移的現(xiàn)象,提高未見類別目標(biāo)的檢測精度。基于此,本文設(shè)計了一個先驗知識提取模塊,如圖2 所示。
整個先驗知識提取模塊包含兩部分:預(yù)測模塊和推理模塊。在預(yù)測模塊中,為了使每個RoI 都有與之對應(yīng)的未見類別的引導(dǎo)信息,本文利用Fs ∈ Rn×d以及未見類的語義嵌入向量Vu ∈ Rd×u,得到一個預(yù)測特征Fpre ∈ Rn×u, 其中Fpre = Pcos(S,Vu),Pcos表示兩個矩陣之間的余弦相似度,即
其中:A ∈ Rn×k,B ∈ Rm×k,?表示克羅內(nèi)克積,?表示哈達(dá)瑪除法。為排除一些低關(guān)聯(lián)程度信息的混淆和誤導(dǎo),對于維度為 的預(yù)測特征,本文選取相似度值最大的5 個類別特征進(jìn)行保留,并將剩余維度置0。
對于推理模塊,首先利用映射后特征S ∈Rn×d并結(jié)合可見類別的語義嵌入向量Vs ∈ Rd×s,得到推理特征F′inf∈ Rn×s = Pcos(S,Vs)。為將推理特征映射到與預(yù)測特征相同的維度以便后續(xù)融合,利用可見類別與未見類的語義嵌入向量生成一個遷移矩陣, 即Wtransfer ∈ Rs×u = Pcos(Vs,Vu)。同樣保留5 個最相似的類別特征, 將剩余維度置0, 最終的推理特征Finf =WtransferF′inf,其中Finf ∈ Rn×u。
對于融合特征Ffusion,本文采取加和的方式,即Ffusion = Fpre + Finf Ffusion ∈ Rn×u。為使所得先驗知識與映射后的特征相融合,本文利用編碼架構(gòu),將融合特征編碼到和語義特征相同的維度,得到最終的先驗特征Fprior ∈ Rn×d,編碼器通過多層感知機(jī)實(shí)現(xiàn),即Fprior = MLP(Ffusion)。
2.4 自上而下的注意力模塊
對于語義特征 Fs ,與語義嵌入向量 V 不同,即使屬于同一類別,由于目標(biāo)屬性之間的差異,如顏色、大小,它們的特征也千差萬別。而且由于訓(xùn)練過程缺乏未見類的知識,這使得測試結(jié)果更容易偏向可見類別目標(biāo)。而自上而下的注意力機(jī)制,由于存在先驗知識,可以為模型提供任務(wù)導(dǎo)向,使模型不再直接忽略訓(xùn)練期間出現(xiàn)的未見類物體的視覺特征,簡單將其歸為背景信息,而是會提高對未見類別物體的敏感性,選擇性地保留和篩選,更加聚焦于和最終檢測任務(wù)相關(guān)的特征,進(jìn)而緩解域偏移現(xiàn)象的發(fā)生,提高檢測的準(zhǔn)確性?;诖耍疚脑O(shè)計了圖3 所示的自上而下的注意力機(jī)制模塊,對語義特征進(jìn)行動態(tài)更新。
首先,為使獲取的先驗知識和語義特征更好地融合, 本文引入一個可學(xué)習(xí)的動態(tài)參數(shù)α,使得Fs = Fs +αFprior。注意力機(jī)制模塊中的Q、 K、 V向量,通過如下方式計算:
Q = Fs"?WQ (4)
K = Fs"?WK (5)
V = Fs"?WV (6)
其中:WQ ∈ Rd×d,WK ∈ Rd×d,WV ∈ Rd×d,分別通過一個線性層訓(xùn)練而來。由于點(diǎn)積運(yùn)算容易受向量絕對大小和方向的影響,本文使用余弦相似度代替點(diǎn)積進(jìn)行相似度的運(yùn)算,提高模型對數(shù)據(jù)方向和特征結(jié)構(gòu)的魯棒性。注意力機(jī)制的輸出Fatten ∈ Rn×d如下:
Fatten = Softmax(Q? K)?V (7)
其中: ? 表示余弦相似度。
為緩解梯度消失問題,本文引入殘差連接并伴隨層歸一化操作,同時在前饋網(wǎng)絡(luò)中,采用更加平滑的GELU(Gaussian Error Linear Unit)[45] 激活函數(shù)。最終模型的輸出Fout ∈ Rn×d如下:
Fout = FFN(layerNorm(Fs + Fatten)) (8)
2.5 對比學(xué)習(xí)
注意力機(jī)制通常更加關(guān)注局部和上下文特征,從而幫助模型更好地理解圖像信息,但它卻不會主動提高同一類別之間的相似性。為此,本文引入一個對比損失函數(shù),提高模型的聚類能力,對于第 個區(qū)域建議zi,在當(dāng)前批次下, 將與之類別相同的RoI 作為正樣本,記為z+,將類別不同的RoI 作為負(fù)樣本,記為z-。區(qū)域?qū)Ρ葥p失函數(shù)如下:
其中:Npi表示當(dāng)前批次下,對于zi 而言,和它類別相同的正樣本個數(shù);Nni表示類別不同的負(fù)樣本個數(shù);τv表示超參數(shù);N表示RoI 的總數(shù)。
在語義空間中,對于任意兩個實(shí)例特征,通過施加對比約束,可以充分利用標(biāo)簽信息,拉近類別相同的實(shí)例在特征空間中的距離,提高其相似程度和聚類效果,使類內(nèi)特征更加緊密。此外,為進(jìn)一步減少向量絕對大小的干擾,與前人研究[46] 不同,本文拋棄了點(diǎn)積的計算方式,利用余弦相似度來衡量類別之間的相似性。
2.6 模型預(yù)測
對于目標(biāo)的預(yù)測類別,本文通過計算模型最終輸出Fout和語義嵌入向量V的余弦相似度進(jìn)行判斷,即在訓(xùn)練過程中,對于可見類別目標(biāo)的預(yù)測概率ps ∈ Rn×s:
ps = Pcos(Fout,Vs) (10)
在測試過程中,對于未見類別目標(biāo)的預(yù)測概率pu ∈ Rn×u:
pu = Pcos(Fout,Vu) (11)
3 實(shí)驗部分
3.1 數(shù)據(jù)集和實(shí)驗設(shè)置
(1) 數(shù)據(jù)集:本文在MSCOCO 2014[47] 目標(biāo)檢測數(shù)據(jù)集上評估提出的方法。考慮到未見類的稀有性和多樣性,本文采用了可見類/未見類(65/15)[42] 和可見類/未見類(48/17)[8] 的分割方式。
(2) 語義嵌入:對于所用到的語義嵌入信息,本文延續(xù)前人研究[48] 的策略,使用來自word2vec[43] 的300 維語義向量用于MSCOCO 數(shù)據(jù)集。
(3) 實(shí)現(xiàn)細(xì)節(jié): 重新調(diào)整圖片大小, 以確保MSCOCO 數(shù)據(jù)集的最小邊長分別為600 和800。本文選擇在ImageNet[49] 上預(yù)訓(xùn)練的ResNet-101[44] 作為主干網(wǎng)絡(luò),提取多尺度特征,并使用學(xué)習(xí)率為0.001、動量為0.9 的SGD 優(yōu)化器優(yōu)化所提出的模型。在對比約束中,對于超參數(shù)τv,本文設(shè)置為0.01。
(4) 評價指標(biāo):對于MSCOCO 數(shù)據(jù)集,選擇平均精度(mAP) 和Recall 作為評價指標(biāo)。本文在標(biāo)準(zhǔn)(ZSD) 和廣義零樣本目標(biāo)檢測(GZSD) 設(shè)置下進(jìn)行了實(shí)驗,并評估了諧波均值(Harmonic Mean, HM)來展示GZSD 的性能,其中, mAP 的 HM 可通過式(12)計算:
HM =2×mAP×mAP/mAP+mAP(12)
3.2 實(shí)驗比較
(1) ZSD/GZSD 性能。如表1 所示,本文將所提出的模型與SB[8]、PL-ZSD[42]、TL-ZSD[12]、BLC[50]、ZSI[13]、ContrastZSD[51] 和SU-ZSD[9] 等方法在MSCOCO 上對ZSD 和GZSD 的性能進(jìn)行了比較。從表中可以看出,在ZSD 任務(wù)中,不管是采用65/15 的劃分方式還是48/17 的劃分方式,該模型在最具挑戰(zhàn)性的指標(biāo)mAP 上都達(dá)到了最佳性能,尤其是在65/15 的劃分方式中,分別比PL-ZSD[42]、TL-ZSD[12]、BLC[50]、ZSI[13]、ContrastZSD[51]、SU-ZSD[9] 高出7.30%、5.13%、6.60%、6.10%、1.10%、0.70%,這些提升都表明了模型的有效性。對于更具挑戰(zhàn)性的GZSD 任務(wù),雖然未見類和可見類物體同時存在,該模型也有顯著的性能提升, 尤其是對于可見類的召回率、未見類的mAP和HM 的mAP 指標(biāo),它們都達(dá)到了最佳性能。這進(jìn)一步說明本文所提出的先驗知識獲取模塊可以很好地提取先驗知識,為最終的未見類檢測任務(wù)提供任務(wù)導(dǎo)向,同時也表明模型在緩解域偏移、提高未見類類別物體的判別性方面的有效性,可以更好地實(shí)現(xiàn)可見類到未見類的知識轉(zhuǎn)移。
由于余弦相似度不受向量尺度變換的影響,在高維空間中仍能捕捉語義特征之間的關(guān)聯(lián),此外,語義嵌入向量的生成模型[43] 也采用余弦相似度進(jìn)行特征匹配,所以本文使用余弦相似度代替矩陣乘法進(jìn)行類別判斷。不過,余弦相似度只考慮特征向量的方向,對于一些復(fù)雜的特征,可能無法捕捉特征之間的非線性關(guān)系和特征匹配情況,這也導(dǎo)致在表1 中,該模型在未見類Recall 指標(biāo)上表現(xiàn)并不是很優(yōu)異。但mAP 考慮了模型在不同交并比(Intersection overUnion, IoU) 閾值下的精度,對模型的性能進(jìn)行了更全面的評估,因此,mAP 可以更有力地衡量一個模型的質(zhì)量。所以,盡管該方法在召回率指標(biāo)上表現(xiàn)不是最佳,mAP 指標(biāo)上的表現(xiàn)仍能說明模型的有效性。
(2) 類別性能。為了進(jìn)一步展示該模型在MSCOCO 數(shù)據(jù)集上的優(yōu)勢,本文在表2 上給出了每個類別的精度(AP)和mAP。如表2 所示,在mAP標(biāo)準(zhǔn)下,和其他模型相比,該模型具有顯著優(yōu)勢,對于某些類別的AP,也獲得了很好的增益,例如bear、snowboard、hot dog 等類別。但由于此方法是利用可見類與未見類之間的相似性來生成先驗知識,進(jìn)而為最終檢測任務(wù)提供任務(wù)導(dǎo)向,所以在類別AP 中,對于那些可見類與未見類相似度較低的類別,例如hair driver等,類別之間的弱關(guān)聯(lián)性大大提高了知識轉(zhuǎn)移的難度,不能很好地生成有價值的先驗信息,因此它們的檢測效果很差。
(3) 定性分析。為了進(jìn)一步定性地分析檢測性能,本文在圖4 中可視化了MSCOCO 數(shù)據(jù)集上的一些ZSD 和GZSD 的檢測結(jié)果。從圖中可以看出,和ZSI[13] 相比,該模型可以正確地檢測出不同場景下的未見類物體,如單類別單物體(如toilet)、單類別多物體(如suitcase、cat)、多類別多物體(如train、snowboard、parking meter),而ZSI[13] 則出現(xiàn)了不同程度的漏檢現(xiàn)象。同時,在GZSD 任務(wù)中,本文的方法也有不錯的檢測效果,而ZSI[13] 不僅會出現(xiàn)錯誤分類的情況(如將frisbee 識別成surfboard、將cat 識別為dog),還會出現(xiàn)漏檢現(xiàn)象(如skis、traffic light)。這些例子都證明了該模型在ZSD 和GZSD 任務(wù)中的有效性。
為了進(jìn)一步證明該模型在特征聚類方面的有效性,本文在MSCOCO 數(shù)據(jù)集上隨機(jī)選取了9 個未見類別, 利用t-SNE[52] 對特征進(jìn)行了可視化, 并與ZSI[13] 進(jìn)行對比,如圖5(a) 和圖5(b) 所示??梢园l(fā)現(xiàn),ZSI[13] 中未見類的特征整體分布比較混亂,類內(nèi)距離較大,比如圖5(a) 中的“bear”、“train”等類別,這非常容易造成類別的混淆從而出現(xiàn)誤分類的現(xiàn)象。相比之下,可以清楚地看到本文的方法在未見類別上表現(xiàn)出更高的類內(nèi)緊密度,比如“train”、“parkingmeter”、“toaster”等類別。這表明該模型可以更好地捕捉特征的基本數(shù)據(jù)分布,提高特征之間的判別性,使得相似的類別更加聚集。
3.3 消融實(shí)驗
為研究各個組件的作用,本文進(jìn)行了細(xì)致的消融實(shí)驗來進(jìn)行定量分析,表3 示出了MSCOCO 數(shù)據(jù)集上基于mAP 的ZSD 和GZSD 性能。可以發(fā)現(xiàn),和基線模型相比,本文所設(shè)計的自上而下的注意力機(jī)制模塊效果顯著,mAP 提升4.80%,這說明通過為最終的檢測任務(wù)提供任務(wù)引導(dǎo),可以很好地提高模型對未見類目標(biāo)的注意力,增大模型對可見數(shù)據(jù)和未見類數(shù)據(jù)分布的區(qū)分性,緩解域偏移現(xiàn)象。在施加對比約束后,模型檢測效果進(jìn)一步提升,這說明本文的方法在優(yōu)化特征分布、提高聚類效果方面的有效性。此外,為進(jìn)一步驗證所提出的對比約束的合理性,本文與前人[46] 所提出的點(diǎn)積計算方式進(jìn)行對比,從表3 中可以看出,盡管二者都可以進(jìn)一步提升檢測精度,前者的效果更加顯著,這說明了余弦相似度更適合語義特征之間權(quán)值的計算,在進(jìn)行對比約束時也更加有效。
4 結(jié) 論
本文提出了一種基于自上而下注意力機(jī)制的零樣本目標(biāo)檢測框架,探索充分利用未見類的語義知識引導(dǎo)模型對目標(biāo)進(jìn)行分類和定位。該模型通過結(jié)合先驗知識提取模塊和自上而下注意力機(jī)制模塊,為檢測任務(wù)提供任務(wù)導(dǎo)向,引導(dǎo)模型對底層特征的處理,增強(qiáng)模型對可見類和未見類數(shù)據(jù)分布的區(qū)分性;同時利用對比約束,增強(qiáng)映射特征的判別能力,進(jìn)而更好地對齊視覺空間和語義空間,提高模型的性能。實(shí)驗結(jié)果表明,該模型在各種基準(zhǔn)的標(biāo)準(zhǔn)和廣義零樣本目標(biāo)檢測任務(wù)中都取得了滿意的檢測結(jié)果。
參考文獻(xiàn):
[ 1 ]REN S, HE K, GIRSHICK R, et al. Faster R-CNN:Towards real-time object detection with region proposalnetworks[J]. IEEE Transactions on Pattern Analysis andMachine Intelligence, 2016, 39(6): 1137-1149.
[ 2 ]LIN T Y, GOYAL P, GIRSHICK R, et al. Focal loss fordense object detection[J]. IEEE Transactions on PatternAnalysis and Machine Intelligence, 2020, 42(2): 318-327.
[ 3 ]沈震宇, 朱昌明, 王喆. 基于MAML 算法的YOLOv3 目標(biāo)檢測模型[J]. 華東理工大學(xué)學(xué)報(自然科學(xué)版), 2022,48(1): 112-119.
[ 4 ]JI Z, FU Y, GUO J, et al. Stacked semantics-guided attentionmodel for fine-grained zero-shot learning[J]. Advancesin Neural Information Processing Systems, 2018, 31: 5995-6004.
[ 5 ]JIANG C, XU H, LIANG X, et al. Hybrid knowledgerouted modules for large-scale object detection[J].Advances in Neural Information Processing Systems,2018, 31: 1559-1570.
[ 6 ]XU H, JIANG C, LIANG X, et al. Spatial-aware graphrelation network for large-scale object detection[C]//2019 IEEE/CVF Conference on Computer Vision and PatternRecognition (CVPR). Long Beach, CA, USA: IEEE,2019: 9290-9299.
[ 7]RAHMAN S, KHAN S, PORIKLI F. Zero-shotobject detection: Learning to simultaneously recognize andlocalize novel concepts[C]//14th Asian Conference onComputer Vision (ACCV). Perth, AUSTRALIA: Springer,2018: 547-563.
[ 8 ]BANSAL A, SIKKA K, SHARMA G, et al. Zero-shotobject detection[C]//15th European Conference on ComputerVision (ECCV). Munich, Germany: Springer, 2018:397-414.
[ 9 ]HAYAT N, HAYAT M, RAHMAN S, et al. Synthesizingthe unseen for zero-shot object detection[C]//15th AsianConference on Computer Vision (ACCV). Kyoto, Japan:Springer, 2020: 155-170.
[10]DEMIREL B, CINBIS R G, IKIZLER-CINBIS N. Zeroshotobject detection by hybrid region embedding[EB/OL].(2018-5-16)[2018-5-17]. https://doi.org/10.48550/arXiv.1805.06157.
[11]LI Z, YAO L, ZHANG X, et al. Zero-shot object detectionwith textual descriptions[C]//33rd AAAI Conference onArtificial Intelligence. Honolulu, HI: AAAI, 2019: 8690-8697.
[12]RAHMAN S, KHAN S, BARNES N. Transductive learningfor zero-shot object detection[C]//2019 IEEE/CVFInternational Conference on Computer Vision (ICCV).Seoul: IEEE, 2019: 6081-6090.
[13]ZHENG Y, WU J, QIN Y, et al. Zero-shot instancesegmentation[C]//2021 IEEE/CVF Conference on ComputerVision and Pattern Recognition (CVPR). TN, USA:IEEE, 2021: 2593-2602.
[14]HUANG P, HAN J, CHENG D, et al. Robust regionfeature synthesizer for zero-shot object detection[C]//2022 IEEE/CVF Conference on Computer Vision andPattern Recognition (CVPR). New Orleans, LA, USA: IEEE,2022: 7612-7621.
[15]SARMA S, KUMAR S, SUR A. Resolving semanticconfusions for improved zero-shot detection[EB/OL].(2022-12-12) [2023-2-15]. https://doi.org/10.48550/arXiv.2212.06097.
[16]ZHU P, WANG H, SALIGRAMA V. Don't even look once:Synthesizing features for zero-shot detection[C]//2020IEEE/CVF Conference on Computer Vision and PatternRecognition (CVPR). Seattle, WA, USA: IEEE, 2020:11690-11699.
[17]LI Y, LI P, CUI H, et al. Inference fusion with associativesemantics for unseen object detection[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2021, 35(3):1993-2001.
[18]LV W, SHI H, TAN S, et al. Cross-domain constrained networkfor zero-shot object detection[EB/OL]. (2022-10-31)[2022-12-1]. https://doi.org/10.21203/rs.3.rs-2208626/v1.
[19]YAN C, ZHENG Q, CHANG X, et al. Semantics-preservinggraph propagation for zero-shot object detection[J].IEEE Transactions on Image Processing, 2020, 29: 8163-8176.
[20]KIPF T N, WELLING M. Semi-supervised classificationwith graph convolutional networks[EB/OL]. (2016-9-9)[2016-10-24]. https://doi.org/10.48550/arXiv.1609.02907.
[21]CARION N, MASSA F, SYNNAEVE G, et al. End-to-endobject detection with transformers[C]//European Conferenceon Computer Vision. Cham: Springer, 2020: 213-229.
[22]LIU W, ANGUELOV D, ERHAN D, et al. SSD: Singleshot multibox detector[C]//Computer Vision–ECCV 2016:14th European Conference. Amsterdam, Netherlands:Springer, 2016: 21-37.
[23]REDMON J, FARHADI A. YOLOV3: An incremental improvement[EB/OL]. (2018-4-8) [2018-5-20]. https://doi.org/10.48550/arXiv.1804.02767.
[24]ZHU X, LYU S, WANG X, et al. TPH-YOLOv5:Improved YOLOv5 based on transformer prediction headfor object detection on drone-captured scenarios[C]//2021IEEE/CVF International Conference on Computer VisionWorkshops (ICCVW). Montreal, BC, Canada: IEEE, 2021:2778-2788.
[25]HE K, ZHANG X, REN S, et al. Spatial pyramid pooling indeep convolutional networks for visual recognition[J]. IEEETransactions on Pattern Analysis and Machine Intelligence,2015, 37(9): 1904-1916.
[26]DAI J, LI Y, HE K, et al. R-FCN: Object detection viaregion-based fully convolutional networks[EB/OL]. (2016-5-20)[2016-6-21]. https//doi.org/10.48550/arXiv.1605.06409.
[27]HE K, GKIOXARI G, DOLLáR P, et al. MaskR-CNN[C]//2017 IEEE International Conference on ComputerVision (ICCV). Venice, Italy: IEEE, 2017: 2980-2988.
[28]ZHU X, SU W, LU L, et al. Deformable DETR: Deformabletransformers for end-to-end object detection[EB/OL].(2020-10-8)[2020-11-30]. https://doi.org/10.48550/arXiv.2010.04159.
[29]XIAN Y, LAMPERT C H, SCHIELE B, et al. Zero-shotlearning: A comprehensive evaluation of the good, the badand the ugly[J]. IEEE Transactions on Pattern Analysis andMachine Intelligence, 2018, 41(9): 2251-2265.
[30]XIAN Y, LORENZ T, SCHIELE B, et al. Feature generatingnetworks for zero-shot learning[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR). Salt Lake City, UT: IEEE, 2018: 5542-5551.
[31]YAN C, CHANG X, LI Z, et al. Zeronas: Differentiablegenerative adversarial networks search for zero-shot learning[J]. IEEE Transactions on Pattern Analysis and MachineIntelligence, 2021, 44(12): 9733-9740.
[32]SU H, LI J, CHEN Z, et al. Distinguishing unseen fromseen for generalized zero-shot learning[C]//2022 IEEE/CVFConference on Computer Vision and Pattern Recognition(CVPR). New Orleans, LA, USA: IEEE, 2022: 7875-7884.
[33]YANG J, SHEN Q, XIE C. Generation-based contrastivemodel with semantic alignment for generalized zero-shotlearning[J]. Image and Vision Computing, 2023, 137:104758.
[34]HUYNH D, ELHAMIFAR E. Fine-grained generalizedzero-shot learning via dense attribute-basedattention[C]//2020 IEEE/CVF Conference on ComputerVision and Pattern Recognition (CVPR). Seattle, WA,USA: IEEE, 2020: 4482-4492.
[35]ZHANG Z, YANG G. Exploring attribute space with wordembedding for zero-shot learning[C]//2022 InternationalJoint Conference on Neural Networks (IJCNN). Padua,Italy: IEEE, 2022: 1-8.
[36]CHEN S, HONG Z, XIE G S, et al. MSDN: Mutuallysemantic distillation network for zero-shot learning[C]//2022 IEEE/CVF Conference on Computer Vision and PatternRecognition (CVPR). New Orleans, LA, USA: IEEE,2022: 7602-7611.
[37]XIAN Y, AKATA Z, SHARMA G, et al. Latent embeddingsfor zero-shot classification[C]//2016 IEEE Conferenceon Computer Vision and Pattern Recognition (CVPR).Las Vegas, NV, USA: IEEE, 2016: 69-77.
[38]MENG M, ZHAN X, WU J. Joint discriminative attributesand similarity embeddings modeling for zero-shot recognition[J]. Neurocomputing, 2020, 399: 117-128.
[39]ANNADANI Y, BISWAS S. Preserving semantic relationsfor zero-shot learning[C]//2018 IEEE/CVF Conference onComputer Vision and Pattern Recognition. Salt Lake City,UT, USA: IEEE, 2018: 7603-7612.
[40]GUPTA D, ANANTHARAMAN A, MAMGAIN N, et al.A multi-space approach to zero-shot object detection[C]//2020 IEEE Winter Conference on Applications of ComputerVision (WACV). Snowmass, CO, USA: IEEE, 2020:1198-1206.
[41]XIE J, ZHENG S. Zero-shot object detection through vision-language embedding alignment[C]//2022 IEEE InternationalConference on Data Mining Workshops (ICDMW).Orlando, FL, USA: IEEE, 2022: 1-15.
[42]RAHMAN S, KHAN S, BARNES N. Polarity loss for zeroshotobject detection[EB/OL]. (2018-11-22) [2019-4-1].https://doi.org/10.48550/arXiv.1811.08982.
[43]MIKOLOV T, SUTSKEVER I, CHEN K, et al. Distributedrepresentations of words and phrases and their compositionality[J]. Advances in Neural Information Processing Systems,2013, 26:3111-3119.
[44]HE K, ZHANG X, REN S, et al. Deep residual learning forimage recognition[C]//2016 IEEE Conference on ComputerVision and Pattern Recognition (CVPR). Las Vegas,NV, USA: IEEE, 2016: 770-778.
[45]HENDRYCKS D, GIMPEL K. Gaussian error linear units(GELUs)[EB/OL].(2016-6-27)[2016-7-8]. https//doi.org/10.48550/arxiv.1606.08415.
[46]KHOSLA P, TETERWAK P, WANG C, et al. Supervisedcontrastive learning[J]. Advances in Neural InformationProcessing Systems, 2020, 33: 18661-18673.
[47]LIN T-Y, MAIRE M, BELONGIE S, et al. Microsoft coco:Common objects in context[C]//Computer Vision–ECCV2014: 13th European Conference. Zurich, Switzerland:Springer, 2014: 740-755.
[48]RAHMAN S, KHAN S, BARNES N. Improved visualsemanticalignment for zero-shot object detection[C]//34th AAAI Conference on Artificial Intelligence. NewYork, USA: AAAI, 2020: 11932-11939.
[49]RUSSAKOVSKY O, DENG J, SU H, et al. Imagenet largescale visual recognition challenge[J]. International Journalof Computer Vision, 2015, 115: 211-252.
[50]ZHENG Y, HUANG R, HAN C, et al. Background learnablecascade for zero-shot object detection[C]//15th AsianConference on Computer Vision (ACCV). Kyoto, Japan:Springer, 2020: 107-123.
[51]YAN C, CHANG X, LUO M, et al. Semantics-guided contrastivenetwork for zero-shot object detection[J]. IEEETransactions on Pattern Analysis and Machine Intelligence,2022, 46(3): 1530-1544.
[52]VAN DER MAATEN L, HINTON G. Visualizing datausing t-SNE[J]. Journal of Machine Learning Research,2008, 9(11): 2579-2605.
(責(zé)任編輯:李娟)
基金項目: 國家自然科學(xué)基金(62073140, 62073141, 62103149); 國家重點(diǎn)研發(fā)計劃(2020YFC1522502, 2020YFC1522505)