廖 逍,王興濤,徐海青
(1.國網(wǎng)信息通信產(chǎn)業(yè)集團(tuán)有限公司,北京 100021)(2.安徽繼遠(yuǎn)軟件有限公司,安徽 合肥 230088)
在創(chuàng)建基于內(nèi)容的圖像檢索系統(tǒng)(content-based image retrieval,CBIR)過程中,一般使用圖像特征提取、特征處理和特征表達(dá)等技術(shù)。圖像的特征表達(dá)和相似性度量對(duì)于圖像檢索來說尤為重要,要重視機(jī)器可處理的低層級(jí)的像素信息和人所感知到的語義概念之間的鴻溝[1]。相關(guān)研究提出,可以利用卷積神經(jīng)網(wǎng)絡(luò)將圖片的編碼作為圖片的特征進(jìn)行圖像檢索,深度卷積神經(jīng)網(wǎng)絡(luò)能夠表達(dá)圖片的圖像信息[2]。但是,將預(yù)訓(xùn)練深度網(wǎng)絡(luò)模型作為特征提取器存在局限性,在ImageNet上針對(duì)圖像分類任務(wù)設(shè)計(jì)的網(wǎng)絡(luò)對(duì)圖片的差異并不敏感,使用有監(jiān)督的針對(duì)圖像檢索設(shè)計(jì)的學(xué)習(xí)框架才能起到良好的效果[3]。特征提取方式與訓(xùn)練損失函數(shù)都會(huì)對(duì)圖像檢索的性能有所影響,所以本文重點(diǎn)探討如何從卷積神經(jīng)網(wǎng)絡(luò)中提取圖像的全局特征。
傳統(tǒng)圖像檢索方式是基于SIFT[4](scale invariant feature transform)圖像提取特征實(shí)現(xiàn)的,主要特點(diǎn)為尺度不變性、旋轉(zhuǎn)不變性。但即使是某些語義上不相近的圖片,利用SIFT特征去度量相似性時(shí)也會(huì)呈現(xiàn)出較高的置信度[5]。
全局特征指的是直接提取卷積層激活的信息,包括SPoC[6]、MAC[7]、GeM[8]等內(nèi)容。另外,還可以使用注意力機(jī)制對(duì)模型的全局特征進(jìn)行重新整合。局部特征能夠降低圖片背景的影響,只提取圖片中的部分區(qū)域作為該圖片的編碼。R-MAC模型是將一張圖片的幾個(gè)區(qū)域聚合,從而構(gòu)成固定長度的圖像特征表達(dá)[7],但由于采用的是固定的網(wǎng)格劃分,無法保證一個(gè)區(qū)域能夠完全和感興趣的區(qū)域?qū)?zhǔn)。而采用Faster-RCNN中提出的區(qū)域候選網(wǎng)絡(luò)(region proposal network,RPN)進(jìn)行感興趣區(qū)域的篩選[3]則可以避免這一點(diǎn)。目前最新的圖像特征表達(dá)形式是將全局特征和局部特征結(jié)合起來,如DELG[9]特征或者通過ASMK等聚合算法將局部特征綜合起來[10]。因此,本文提出在創(chuàng)建特征的時(shí)候融合特征,一方面是不局限于某一層,另一方面是挖掘神經(jīng)網(wǎng)絡(luò)特征層內(nèi)部的信息并重新整合。
度量學(xué)習(xí)是機(jī)器學(xué)習(xí)的核心,能夠?qū)崿F(xiàn)檢索任務(wù),將數(shù)據(jù)映射到嵌入的度量空間中。相似的圖片在度量空間中的距離更近,而不相似的圖片則距離較遠(yuǎn),圖片之間的距離度量包含歐氏距離、余弦距離、SNR(signal-to-noise ratio)、信噪比[11]等。使用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行度量學(xué)習(xí)的研究集中在設(shè)計(jì)良好的損失函數(shù),比如如何構(gòu)建訓(xùn)練組(batch)、如何利用訓(xùn)練組進(jìn)行距離度量計(jì)算。訓(xùn)練組選擇的內(nèi)容非常重要,所以提出了多種多樣的樣本采集策略,包含困難樣本挖掘、距離權(quán)重采樣[12]、基于訓(xùn)練結(jié)果的跨訓(xùn)練組采樣[13]等。
常用的訓(xùn)練組損失函數(shù)包括Contrastive loss[14]、Triplet loss[15]、N pair loss[16]、Proxy NCA loss[17]、MultiSimilarity loss[18]等,Contrastive loss能夠縮小兩張相似圖片之間的距離,使不相似圖片之間的距離大于一定的閾值;Triplet loss會(huì)導(dǎo)致正樣本接近anchor、負(fù)樣本遠(yuǎn)離anchor,出現(xiàn)優(yōu)化困難等問題;N pair loss利用1個(gè)anchor、1個(gè)正樣本與多個(gè)負(fù)樣本進(jìn)行距離計(jì)算;Proxy NCA loss利用代理點(diǎn)進(jìn)行NCA(neighborhood component analysis)損失計(jì)算;MultiSimilarity loss根據(jù)樣本之間的不同關(guān)系進(jìn)行權(quán)重賦值,從而計(jì)算損失結(jié)果。最近的研究表明,損失函數(shù)并不是決定性能高低的關(guān)鍵,在公平實(shí)驗(yàn)中,各個(gè)損失函數(shù)并沒有顯著的差異[19]。
圖像特征的設(shè)計(jì)對(duì)于保證圖像檢索質(zhì)量至關(guān)重要,以下探討3種常見的特征池化方式。設(shè)χk為某一卷積層的第k個(gè)特征圖(feature map)。
1)SPoC(平均池化),是指對(duì)卷積層中每個(gè)特征圖求平均。
(1)
式中:fSPoC為平均池化輸出值;|χk|表示第k個(gè)特征圖的元素個(gè)數(shù);K為特征圖的維數(shù);x為第k個(gè)特征圖中的元素。
2)MAC(最大池化),是指卷積層內(nèi)中每個(gè)特征圖的最大值。
(2)
式中:fMAC為最大池化輸出值。
3)GeM,是指對(duì)卷積層中每個(gè)特征圖單元進(jìn)行“非線性平均”,之所以叫做GeM,是因?yàn)槠浣橛赟PoC和MAC之間。
(3)
式中:fGeM為廣義平均池化輸出值;pk表示一個(gè)可學(xué)習(xí)的參數(shù)。
MAC特征的優(yōu)勢(shì)為每個(gè)特征層的極大值能夠?qū)崿F(xiàn)“空間不變性”,不受復(fù)雜背景因素的影響;SPoC特征的優(yōu)勢(shì)為能夠考慮圖片的全局信息;GeM則是MAC和SPoC的折中,既考慮了主要內(nèi)容即極值點(diǎn)的影響,又能夠兼顧圖片中的全局信息。深度神經(jīng)網(wǎng)絡(luò)在學(xué)習(xí)的過程中,高層的卷積層通常學(xué)習(xí)語義信息,低層級(jí)的卷積層可以學(xué)習(xí)到更多細(xì)節(jié)信息,無論是SPoC、MAC還是GeM,考慮的都是從單一的卷積層提取信息。但是,在深度學(xué)習(xí)圖像檢測(cè)領(lǐng)域,利用多尺度的特征圖提取檢測(cè)對(duì)象已經(jīng)是一個(gè)慣例,例如SSD[20]、FCOS[21]等檢測(cè)網(wǎng)絡(luò)。因此,借鑒這種思想,利用多尺度、多層級(jí)的特征層信息進(jìn)行融合,以提取內(nèi)容豐富的特征,對(duì)圖像向量進(jìn)行描述。
多層融合的方式包括“硬融合”(hard fusion)和“軟融合”(soft fusion)兩種方式,“硬融合”是指各個(gè)層的系數(shù)為常數(shù),“軟融合”是指可學(xué)習(xí)的參數(shù)在反向傳播的過程中更新。在下文的實(shí)驗(yàn)中將使用這兩種不同的融合方式。
另外,本文提出了DELF[22]特征描述,通過注意力機(jī)制提取特征,得到關(guān)于一張圖片的全局特征。為此引入了ECA[23]和CBAM[24]兩種注意力機(jī)制開展特征提取實(shí)驗(yàn)。ECA是一個(gè)輕量化的注意力機(jī)制,而CBAM是一個(gè)相對(duì)復(fù)雜的注意力模塊,其利用Spatial Attention模塊和Channel Attention模塊,綜合了空間和通道兩個(gè)方面的信息。在獲得圖像特征的卷積層上使用這兩種不同的機(jī)制,能夠得到圖像的表達(dá)特征。
根據(jù)文獻(xiàn)[25]中的對(duì)比實(shí)驗(yàn)結(jié)果,在統(tǒng)一訓(xùn)練方式、評(píng)測(cè)基準(zhǔn)的背景下,各個(gè)損失函數(shù)的訓(xùn)練結(jié)果差異并不大,這說明SOTA(state-of-the-art)的方式并不完全準(zhǔn)確,因此本文采用最傳統(tǒng)的最直接的Contrastive loss。損失函數(shù)公式為:
(4)
式中:L為損失函數(shù);N為輸入樣本量;d為兩張圖片之間的距離;y表示兩張圖片是否相似,相似為1,反之為0;margin為事先設(shè)定的閾值,是一個(gè)人為指定的超參數(shù)。Contrastive loss通過對(duì)給定的兩張圖片計(jì)算損失進(jìn)行對(duì)比,如果兩張圖片相似,則縮小它們之間的距離,否則使它們之間的距離大于所設(shè)置的閾值。
本節(jié)針對(duì)之前提出的圖像特征提取和融合方式,使用統(tǒng)一的訓(xùn)練框架和實(shí)驗(yàn)進(jìn)行驗(yàn)證。
采用的訓(xùn)練數(shù)據(jù)集和文獻(xiàn)[8]中一致,由全球各個(gè)國家的地標(biāo)、城市的圖片構(gòu)成,共約163 000張圖片,包含713個(gè)建筑物模型,其中551個(gè)用來作為訓(xùn)練集,162個(gè)作為驗(yàn)證集,而測(cè)試集采用rOxford和rParis[25],衡量指標(biāo)采用mAP(平均精度均值)。
實(shí)驗(yàn)采用ResNet-101[26]網(wǎng)絡(luò),去掉了其全連接層部分,采用ImageNet預(yù)訓(xùn)練的參數(shù)作為網(wǎng)絡(luò)的初始化參數(shù),最后的輸出向量要經(jīng)過正則化(Normalize)處理,最終獲得維度為2 048的特征向量。使用Adam作為隨機(jī)梯度下降算法,相關(guān)實(shí)驗(yàn)參數(shù)設(shè)置為:batch-size為4,初始學(xué)習(xí)率為10-6,每一輪訓(xùn)練的學(xué)習(xí)率衰減參數(shù)為exp(-0.01),沖量為0.9,權(quán)重衰減為5×10-4,負(fù)樣本圖片數(shù)量是5張。使用GeForce GTX 1080Ti顯卡,margin設(shè)為0.7。
首先,對(duì)比原始的SPoC、MAC和GeM特征的檢索效果,見表1,訓(xùn)練圖片尺寸采用256×256,查詢過程中是1 024×1 024,查詢過程中不對(duì)PCA進(jìn)行處理,直接對(duì)神經(jīng)網(wǎng)絡(luò)提取到的特征進(jìn)行檢索。在rOxford和rParis數(shù)據(jù)集上,SPoC的平均準(zhǔn)確率都是最低的,這說明求平均的處理方式無法表征圖像內(nèi)容,原因可能在于圖像中待檢索的內(nèi)容被其他要素淹沒,降低了特征向量的顯著性。
表1 不同特征提取方式在測(cè)試集上的mAP
之前創(chuàng)建的特征都是將最后一層卷積層的特征圖作為基礎(chǔ)實(shí)現(xiàn)特征的提取和綜合,這樣做忽視了低層卷積所提供的細(xì)節(jié)信息。本文考慮將高層的語義信息與低層的紋理信息相融合以獲得更好的特征,如圖1所示,而利用ResNet-101進(jìn)行的實(shí)驗(yàn)表明,低層和高層的融合確實(shí)會(huì)提升檢索的平均準(zhǔn)確率。
圖1 ResNet網(wǎng)絡(luò)上的不同層的融合說明
不同層級(jí)融合的特征在測(cè)試集上的mAP見表2。在rOxford數(shù)據(jù)集上,無論是MAC特征還是GeM特征,F(xiàn)usion_34基本上超過了原始的卷積層提取到的特征,MAC+Fusion_34在Easy檢索難度下給出了最好的結(jié)果,比Fusion_4的最好結(jié)果提升了2.5%,GeM+Fusion_34和GeM+Fusion_234則分別在Medium和Hard檢索難度下給出了最好的結(jié)果,比Fusion_4的最好結(jié)果分別提升了1.5%和2.0%。在rParis數(shù)據(jù)集上,MAC與不同的融合方式組合效果沒有提升反而有所下降,GeM+Fusion_34在Easy和Medium檢索難度下同時(shí)給出了最好的結(jié)果。
表2 不同層級(jí)融合的特征在測(cè)試集上的mAP
總之,相較于單層提取到的特征,特征融合能夠提高檢索準(zhǔn)確率,但是在不同數(shù)據(jù)集上效果并不完全一致。
利用注意力機(jī)制開展實(shí)驗(yàn),在ResNet-101的最后一層卷積層激活上,ECA分別使用了長度為7和11的一維卷積核,將ECA和CBAM模塊處理后的卷積方法和GeM及MAC提取方法結(jié)合起來,最終獲得的都是2048維的特征向量。在測(cè)試集上的檢索效果見表3,可以看出,在整體上直接將注意力模塊插入到原始網(wǎng)絡(luò)結(jié)構(gòu)中并沒有取得良好效果,只有MAC+ECA_7在rOxford和rParis上的檢索性能比起原始信息有微弱的提升,而CBAM模塊的使用反而使得檢索的準(zhǔn)確率下降。實(shí)驗(yàn)結(jié)果證明,通道信息注意力機(jī)制可以提升檢索準(zhǔn)確率,而空間信息的注意力機(jī)制反而會(huì)降低原始信息的可區(qū)分度和檢索準(zhǔn)確率。
表3 注意力機(jī)制融合特征在測(cè)試集上的mAP
本文探討了針對(duì)圖像檢索進(jìn)行全局特征提取的不同方式,證明了MAC特征和GeM特征要優(yōu)于SPoC特征,平均池化會(huì)導(dǎo)致待檢索內(nèi)容被淹沒在背景信息中,而不同層級(jí)的信息融合,可以有效提升圖像的檢索準(zhǔn)確率。尤其是當(dāng)圖片之間的差異比較小時(shí),低層細(xì)節(jié)信息的補(bǔ)充對(duì)于圖像特征的表達(dá)十分重要。在相同的特征提取方式下,不同數(shù)據(jù)集上的檢索準(zhǔn)確率不同,說明數(shù)據(jù)集本身的分布對(duì)于該分布下的圖像檢索的質(zhì)量有很大的影響,如何針對(duì)數(shù)據(jù)集的分布進(jìn)行建模并研究是非常值得探討的問題。