張衛(wèi)明,史彩娟,任弼娟,陳厚儒
(華北理工大學(xué) 人工智能學(xué)院,河北 唐山 063210)
作為計(jì)算機(jī)視覺和機(jī)器學(xué)習(xí)的基礎(chǔ)性任務(wù),顯著性目標(biāo)檢測(cè)能夠定位并提取圖像或視頻中最吸引人關(guān)注的部分.早期的顯著性目標(biāo)檢測(cè)利用手工標(biāo)注的特征對(duì)顯著性目標(biāo)進(jìn)行檢測(cè),費(fèi)時(shí)費(fèi)力.隨著深度學(xué)習(xí)的發(fā)展,基于深度學(xué)習(xí)的顯著性目標(biāo)檢測(cè)[1,2]得到廣泛研究,并在智慧視頻監(jiān)控[3]和虛擬現(xiàn)實(shí)[4]等領(lǐng)域得到廣泛應(yīng)用.
為了增強(qiáng)高層特征中的語(yǔ)義信息,提高顯著性目標(biāo)檢測(cè)性能,一些研究采用不同的特征金字塔結(jié)構(gòu),多尺度操作,以及卷積操作等.
近年,特征金字塔網(wǎng)絡(luò)(Feature Pyramid Networks,F(xiàn)PN)[5]得到了廣泛研究和應(yīng)用.FPN是對(duì)卷積神經(jīng)網(wǎng)絡(luò)CNN特征提取的一種改進(jìn),主要包括3部分:自下至上的通路、自上至下的通路和橫向連接.FPN通過(guò)對(duì)多尺度多感受域多分辨率的特征進(jìn)行融合,增強(qiáng)高層特征中的語(yǔ)義信息.此后,一些工作如Ghaisi等人提出的NAS-FPN[6],采用神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索設(shè)計(jì)了一種新的特征金字塔結(jié)構(gòu)進(jìn)行目標(biāo)檢測(cè),取得了優(yōu)于FPN的檢測(cè)性能.但是,NAS-FPN網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜,訓(xùn)練開銷較大.另外,還有一些工作通過(guò)添加新路徑的方式來(lái)提高原有FPN的性能.如Liu等人提出的PANet算法[7]在特征金字塔結(jié)構(gòu)中添加了一條新的自下向上的路徑,進(jìn)一步增強(qiáng)特征融合效果;Liu等人提出特征金字塔網(wǎng)格(Feature Pyramid Grid,F(xiàn)PG)[8],是由特征金字塔組成的深網(wǎng)格,對(duì)多種路徑進(jìn)行融合,不僅取得了優(yōu)于FPN的性能,同時(shí)復(fù)雜度也低于NAS-FPN.因此,本文對(duì)高層特征設(shè)計(jì)了一個(gè)多尺度特征金字塔網(wǎng)格結(jié)構(gòu),從而增強(qiáng)語(yǔ)義信息,提高本文所提算法的顯著性目標(biāo)檢測(cè)性能.
對(duì)卷積神經(jīng)網(wǎng)絡(luò)提取的特征進(jìn)行多尺度操作,是當(dāng)前提升目標(biāo)檢測(cè)性能的主要措施之一.現(xiàn)有特征多尺度提取方式主要有兩種:空洞卷積和池化結(jié)合上采樣操作.空洞卷積的方式使用多個(gè)較小的卷積核完成大卷積核同樣的任務(wù),得到多尺度輸出,從而降低了模型因?yàn)榇缶矸e核導(dǎo)致的高復(fù)雜度和大計(jì)算量.空洞卷積的代表模塊是Chen等人提出的空間金字塔池(Atrous Spatial Pyramid Pooling,ASPP)模塊[9].但是,由于空洞卷積進(jìn)行稀疏的特征采樣,這就降低了遠(yuǎn)距離特征的相關(guān)性,容易引起局部信息缺失等問(wèn)題.池化和上采樣結(jié)合的方式需要經(jīng)過(guò)多種卷積核的提取,池化利用大小不同的卷積核對(duì)原始特征進(jìn)行多尺度提取,獲得不同尺寸的特征圖.上采樣操作采用最近鄰插值等方式將這些特征圖的尺寸恢復(fù)到與原始特征一樣,最后進(jìn)行融合輸出.采用池化/上采樣的方式對(duì)圖像進(jìn)行多尺度多接收域的特征提取,可以提高遠(yuǎn)近距離特征之間的相關(guān)性,也可以增強(qiáng)語(yǔ)義信息等特性.池化結(jié)合上采樣的代表模塊是Zhao等人[10]提出的金字塔池模塊(Pyramid pool module,PPM).相較于空洞卷積,池化結(jié)合上采樣的方式開銷小,但是多次的上下采樣操作在一定程度上會(huì)降低特征圖像的清晰度.本文所提算法選取PPM模塊對(duì)最頂層特征的多尺度操作,進(jìn)一步增強(qiáng)高層特征中包含的語(yǔ)義信息.
研究發(fā)現(xiàn),不同的卷積操作對(duì)提高目標(biāo)檢測(cè)性能以及模型的復(fù)雜度均有不同的影響.研究表明將標(biāo)準(zhǔn)卷積分解為d×1和1×d卷積,可以減小參數(shù)量,比如秩為1的二維卷積核可等價(jià)轉(zhuǎn)換為一組一維卷積.但是,神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到的核往往具有非常大的秩,直接將變換應(yīng)用于核就會(huì)造成顯著性信息的損失.Denton等人[11]通過(guò)以基于奇異值分解的方式找到低秩近似,然后微調(diào)上層以恢復(fù)性能.Ding等人在ACNet算法[12]中提出非對(duì)稱卷積(Asymmetric Convolution Blocks,ACB)模塊,使用一維非對(duì)稱卷積核來(lái)代替方形卷積核,能夠減小模型訓(xùn)練參數(shù)和復(fù)雜度,提高模型訓(xùn)練精度.因此,本文在高低層特征中分別采用ACB模塊來(lái)進(jìn)一步提高所提算法的性能.
綜上,本文采用特征金字塔網(wǎng)格結(jié)構(gòu)、多尺度操作和非對(duì)稱卷積等,提出一種多尺度特征金字塔網(wǎng)格(Multi-scale Feature Pyramid Grid, MFPG)來(lái)獲取更豐富的語(yǔ)義信息,提高顯著性目標(biāo)檢測(cè)的性能。論文第2節(jié)詳細(xì)介紹所提多尺度特征金字塔網(wǎng)格模型,第3節(jié)進(jìn)行實(shí)驗(yàn)驗(yàn)證和性能分析,第4節(jié)對(duì)本文工作進(jìn)行總結(jié)。
本文提出了一種多尺度特征金字塔網(wǎng)格算法(Multi-scale Feature Pyramid Grid,MFPG)進(jìn)行顯著性目標(biāo)檢測(cè),圖1給出了MFPG結(jié)構(gòu)示意圖.
圖1 多尺度特征金字塔網(wǎng)格模型(MFPG)結(jié)構(gòu)示意圖
本文所提算法MFPG以PFA算法作為基準(zhǔn),同樣采用VGG16為基礎(chǔ)模型,低層特征為Conv1-2和Conv2-2兩層特征,高層特征為Conv3-3、Conv4-3和Conv5-3三層特征.該模型分別對(duì)高層特征和低層特征進(jìn)行操作,分別獲取高層特征的語(yǔ)義信息和低層特征的空間信息.
為了從高層特征獲得更加豐富的語(yǔ)義信息,首先采用特征金字塔網(wǎng)格FPG結(jié)構(gòu)對(duì)高層特征進(jìn)行增強(qiáng);其次,使用金字塔池模塊PPM對(duì)最頂層特征(Conv5-3)進(jìn)行多尺度操作;最后,使用非對(duì)稱卷積ACB模塊(連續(xù)3×3、1×3和3×1卷積操作)調(diào)整尺寸和通道數(shù).另外,對(duì)高層特征采用通道注意模塊(Channel-wise Attention,CA),對(duì)低層特征采用空間注意模塊(Spatial attention,SA),將二者融合得到總特征.最后,采用顯著性圖和真值圖之間的交叉熵?fù)p失作為損失函數(shù)監(jiān)督生成顯著性預(yù)測(cè)圖.
本文設(shè)計(jì)了一個(gè)基于特征金字塔網(wǎng)格的高層特征增強(qiáng)模塊(圖1虛線框包含內(nèi)容),圖2給出了其具體結(jié)構(gòu).
圖2 基于特征金字塔網(wǎng)格的高層特征增強(qiáng)模塊
特征金字塔網(wǎng)格是一個(gè)多路徑的橫向連接和自頂向下連接的體系結(jié)構(gòu),相比于特征金字塔網(wǎng)絡(luò)具有更好的特征融合性能.本文構(gòu)建的高層特征金字塔網(wǎng)格結(jié)構(gòu)采用3種方式對(duì)特征進(jìn)行融合:1)橫向連接完成各種特征增強(qiáng)的路徑,本文在橫向連接引入了包含不同擴(kuò)張率的空洞卷積CFE(context-aware feature extraction)模塊對(duì)每層特征進(jìn)行多尺度提取,以獲得豐富的高層特征語(yǔ)義信息.2)跳連接保障原始特征融合的路徑,跳連接把原始特征引入下一階段的融合操作,進(jìn)一步保障和增強(qiáng)融合后的高層特征的語(yǔ)義信息.3)上采樣路徑(圖2斜線),保證具有豐富語(yǔ)義信息的高層特征傳遞到低一層進(jìn)行融合,增強(qiáng)低一層特征具有的語(yǔ)義信息.
本文采用金字塔池模塊PPM對(duì)最頂層特征(Conv5-3)進(jìn)行多尺度操作,使提取后的特征具有更豐富語(yǔ)義信息,其結(jié)構(gòu)圖如圖3所示.
圖3 PPM結(jié)構(gòu)圖
金字塔池模塊可以進(jìn)行不同尺度不同接收?qǐng)龅奶卣魈崛?,增?qiáng)顯著性目標(biāo)具有的上下文語(yǔ)義信息.本文金字塔池模塊采用不同大小的卷積核(如1、2、3和6的組合)映射出不同的子區(qū)域.首先,對(duì)原始圖像使用大小不同卷積核進(jìn)行池化操作,并進(jìn)行1×1的卷積操作.然后,對(duì)N層特征進(jìn)行雙線性插值,上采樣到原始圖像的尺寸,其中N為金字塔的層數(shù).最后,將N層的輸出特征串聯(lián)在一起,即為最終的輸出特征.
為了進(jìn)一步提高顯著性目標(biāo)檢測(cè)的性能,本文將非對(duì)稱卷積ACB模塊引入到多尺度特征金字塔網(wǎng)格模型MFPG中.非對(duì)稱卷積ACB模塊結(jié)構(gòu)圖如圖4所示.
圖4 ACB結(jié)構(gòu)圖
ACB模塊對(duì)輸入特征進(jìn)行3條路徑的卷積操作,卷積核大小分別為3×3、1×3和3×1.最后,對(duì)3條路徑的輸出特征進(jìn)行融合得到ACB的輸出.訓(xùn)練前用ACB模塊代替標(biāo)準(zhǔn)的方形卷積,提高網(wǎng)絡(luò)的訓(xùn)練精度,減小模型訓(xùn)練的參數(shù)和復(fù)雜度,不會(huì)引入額外的計(jì)算開銷.
將所提MFPG算法在4個(gè)數(shù)據(jù)集上進(jìn)行了廣泛實(shí)驗(yàn),通過(guò)數(shù)值比較、視覺比較、F-measure圖和P-R曲線4方面以定性定量的方式對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行了分析,并與當(dāng)前主流顯著性目標(biāo)檢測(cè)算法進(jìn)行了比較.
實(shí)驗(yàn)采用ECSSD[13]、DUTS[14]、PASCAL-S[15]和DUT-OMRON[16]4個(gè)數(shù)據(jù)集.2013年香港中文大學(xué)的Yan等人建立了ECSSD數(shù)據(jù)集,該數(shù)據(jù)集中的顯著性目標(biāo)具有較復(fù)雜的結(jié)構(gòu).DUTS數(shù)據(jù)集包含10553個(gè)訓(xùn)練圖像和5019個(gè)測(cè)試圖像.2014年喬治亞理工學(xué)院的Li等人建立了PASCAL-S數(shù)據(jù)集,根據(jù)人類眼動(dòng)數(shù)據(jù)集對(duì)該數(shù)據(jù)集中每張圖像的顯著物體進(jìn)行標(biāo)定.2013年大連理工大學(xué)的Yang等人建立了DUT-OMRON數(shù)據(jù)集,包括5168張高質(zhì)量圖像.
實(shí)驗(yàn)所用操作系統(tǒng)是Ubuntu 16.04,CPU為Intel Xeon E5-2630 v4,主頻為2.2赫茲,GPU為GeForce GTX 1080,顯存大小為8GB GDDR5X,模型訓(xùn)練使用一塊GPU進(jìn)行.
實(shí)驗(yàn)中采用加權(quán)F-度量,平均絕對(duì)誤差(MAE)、S-度量、P-R曲線和F-measure圖4種評(píng)價(jià)準(zhǔn)則.
(1)
平均絕對(duì)誤差(MAE)是直接計(jì)算模型輸出的顯著性預(yù)測(cè)圖與真值圖之間的平均絕對(duì)誤差.首先將兩者進(jìn)行二值化,然后采用如公式(2)進(jìn)行計(jì)算:
(2)
S-度量(Structural measure,S-measure):可以對(duì)顯著性預(yù)測(cè)圖和真值圖之間的結(jié)構(gòu)相似性進(jìn)行評(píng)估.S-度量處理像素級(jí)的錯(cuò)誤時(shí)考慮了對(duì)象感知(Si)和區(qū)域感知(Sj)結(jié)構(gòu)的相似性.S-度量的計(jì)算公式如下:
S=α×Si+(1-α)Sj
(3)
其中,通常α取0.5.
PR曲線是以 precision和recall作為縱、橫軸坐標(biāo)的二維曲線,即查準(zhǔn)率-查全率曲線.PR曲線展示的是Precision & Recall的曲線,通過(guò)選取不同閾值時(shí)對(duì)應(yīng)的精度和召回率畫出.P-R曲線總體趨勢(shì)的精度越高,則召回率越低.
本文所提算法MFPG與多種顯著性目標(biāo)檢測(cè)算法進(jìn)行了比較,包括PFA[17]、HKSOD[18]、RAS[19]、SRM[20]、PAGRN[21]、C2SNet[22]、Amulet[23]、DCL[24]、UCF[25]、DHS[26]、RFCN[27]、NLDF[28]、KSR[29]和MDF[30].表1列出了在4個(gè)數(shù)據(jù)集上的最大F-度量MF、S-度量S和平均絕對(duì)誤差MAE數(shù)值比較結(jié)果,最好結(jié)果用粗體表示.其中MF和S的數(shù)值越大表示算法的性能越好,而MAE的數(shù)值越小表示模型的性能更好.
從表1可以看出,本文所提算法MFPG在4個(gè)數(shù)據(jù)集上幾乎均取得了最好的檢測(cè)結(jié)果,證明了所提模型的有效性.其中在DUT-OMRON數(shù)據(jù)集表現(xiàn)最佳,表明MFPG對(duì)復(fù)雜背景和多個(gè)顯著目標(biāo)具有很好的檢測(cè)性能.其中,MF比HKSOD、RAS和SRM分別提高了13.11%、8.23%和11.03%,S比HKSOD、RAS和SRM分別提高了5.28%、0.97%和2.59%,MAE比HKSOD、RAS和SRM分別減小了0.69%、0.27%和1.04%.
表1 本文算法與其他13種顯著性目標(biāo)檢測(cè)算法的數(shù)值比較(MF是max F-measure)
圖5展示了所提MFPG與其他14種顯著性目標(biāo)檢測(cè)方法的視覺比較結(jié)果.第1行-第7行圖片基于DUT-OMRON數(shù)據(jù)集測(cè)試,第8行-第9行圖片來(lái)源于ECSSD數(shù)據(jù)集.
第1行和第7行是前/背景對(duì)比度較低時(shí),第2行和5行是顯著性目標(biāo)較小的情況,第3行、第4行和第6行是在復(fù)雜數(shù)據(jù)集下,較大的顯著性目標(biāo)的情況,第8行和第9行是在簡(jiǎn)單數(shù)據(jù)集下,顯著性目標(biāo)較大的情況.第1列為原始圖像,第2列為真值圖,第3列為本文算法獲得的顯著性圖.
從圖5可知:1)當(dāng)顯著性目標(biāo)與背景對(duì)比度較低時(shí)(第1行和第7行),所提算法MFPG能夠?qū)︼@著性目標(biāo)進(jìn)行正確定位,并畫出較清晰的輪廓邊界;2)當(dāng)顯著性目標(biāo)較小時(shí)(第1行、第2行和第6行),相較于其他算法,所提算法MFPG能夠進(jìn)行正確的顯著性目標(biāo)定位;3)顯著性目標(biāo)在復(fù)雜圖片中較大時(shí)(第3行、第4行和第7行),因?yàn)樗崮P湍軌蛱崛「S富的高層語(yǔ)義信息,從而準(zhǔn)確定位顯著性目標(biāo)的位置,同時(shí)使顯著性目標(biāo)具有清晰的邊界;4)顯著性目標(biāo)在簡(jiǎn)單圖片中較大時(shí)(第9行和第10行),通過(guò)觀察可知所提算法MFPG能夠產(chǎn)生較好的預(yù)測(cè)圖,優(yōu)于大多數(shù)顯著性目標(biāo)檢測(cè)算法.
圖5 本文算法與其他13種顯著性目標(biāo)檢測(cè)方法的視覺比較
圖6和圖7分別展示了所提算法MFPG與其他14種顯著性目標(biāo)檢測(cè)方法的P-R曲線比較和F-measure圖比較.
從圖6 可以看出,MFPG的PR曲線優(yōu)于其他14種顯著性目標(biāo)檢測(cè)算法的PR曲線,這證明了MFPG算法有很好的性能和魯棒性,尤其是在DUT-OMRON數(shù)據(jù)集.這表明在復(fù)雜數(shù)據(jù)集(背景復(fù)雜或者多個(gè)顯著性目標(biāo)等)中,所提模型能夠取得良好的檢測(cè)性能.從圖7 可以看出,F(xiàn)-度量?jī)?yōu)于其他的顯著性目標(biāo)檢測(cè)算法,這也說(shuō)明了MFPG算法是可行的,即使在具有挑戰(zhàn)性的數(shù)據(jù)集,也能取得良好的表現(xiàn).
圖6 P-R曲線結(jié)果比較
圖7 F度量穩(wěn)定性比較
本節(jié)對(duì)現(xiàn)有多尺度操作的兩類代表模塊PPM和ASPP進(jìn)行了實(shí)驗(yàn)分析,表2給出了兩種模塊的數(shù)值比較結(jié)果.通過(guò)表2可知,金字塔池塊PPM的性能表現(xiàn)更加優(yōu)異,相較于ASPP模塊,MF升高了0.29%,MAE減小了0.02%.因此,本文所提算法MFPG采用金字塔池模塊PPM對(duì)高層特征進(jìn)行多尺度操作,從而獲得更加豐富的語(yǔ)義信息.
表2 ASPP和PPM性能比較
本節(jié)對(duì)非對(duì)稱卷積模塊(ACB)和方形普通卷積進(jìn)行了實(shí)驗(yàn)分析,表3給出了非對(duì)稱卷積和采用3×3卷積核的方形卷積的數(shù)值比較.從表3種可以看出Fβ提高了0.0143,MAE減小了0.0105,表明非對(duì)稱卷積能有效提高模型性能.
表3 非對(duì)稱卷積和3×3卷積核性能比較
本節(jié)基于PFA基準(zhǔn)算法進(jìn)行了消融實(shí)驗(yàn),研究所提算法MFPG中主要模塊性能,包括高層特征金字塔網(wǎng)格結(jié)構(gòu)(FPG)、金字塔模塊(PPM)和非對(duì)稱卷積模塊(ACB).1代表基基準(zhǔn)算法PFA,5代表本文所提算法MFPG.消融實(shí)驗(yàn)在ECSSD數(shù)據(jù)集進(jìn)行,結(jié)果如表4所示,最好的結(jié)果用黑色粗體顯示.
從表4可以看出:
表4 MFPG的消融實(shí)驗(yàn)
1)僅采用高層特征金字塔網(wǎng)格結(jié)構(gòu)(FPG).高層特征金字塔網(wǎng)格模塊能夠(表3中的第3行)提升檢測(cè)性能,F(xiàn)β從0.8936增加到0.8947,MAE從0.0560減少到0.0540.這主要?dú)w功于高層特征金字塔網(wǎng)格結(jié)構(gòu)可以使MFPG從多尺度的高層特征中捕獲豐富的上下文信息,增強(qiáng)顯著性目標(biāo)的定位.
2)僅采用金字塔模塊(PPM).通過(guò)將金字塔池細(xì)化模塊(PPM)引入基準(zhǔn)算法PFA(表3中的第4行),F(xiàn)β從0.8936增加到0.9064,MAE從0.0560減少到0.0459.這表明PPM能夠促進(jìn)語(yǔ)義信息的獲取,并顯著提高檢測(cè)性能.
3)僅采用非對(duì)稱卷積模塊(ACB).在基準(zhǔn)算法PFA中嵌入ACB模塊(表8中的第5行)也有助于提高檢測(cè)性能,F(xiàn)β從0.8936增加到0.9079,MAE從0.0560減少到0.0455.這表明非對(duì)稱卷積模塊ACB能夠提高基礎(chǔ)模型的性能,表明了ACB模塊的有效性.
4)同時(shí)采用以上3種模塊的所提算法MFPG.可以看出MFPG的性能比PFA有了很大的提高,其中Fβ從0.8936增加到0.9105,MAE從0.0560減少到0.0437.這表明這些模塊共同作用使本文所提算法MFPG具有更好的顯著性目標(biāo)檢測(cè)性能.
本文從特征金字塔網(wǎng)格結(jié)構(gòu)、多尺度操作和非對(duì)稱卷積3個(gè)角度出發(fā),提出了一種多尺度特征金字塔網(wǎng)格算法MFPG,從高層特征獲取更加豐富的語(yǔ)義信息,進(jìn)而提升顯著性目標(biāo)檢測(cè)性能.但是,所提模型存在顯著性目標(biāo)空間信息不足等問(wèn)題,接下來(lái)將進(jìn)行空間信息增強(qiáng)的研究,提取清晰地顯著性目標(biāo)邊界.