余超杰 朱玉全
(江蘇大學(xué)計算機(jī)科學(xué)與通信工程學(xué)院 江蘇 鎮(zhèn)江 212013)
圖像顯著性檢測是為了檢測到圖像中獨(dú)特的并且能夠吸引人們視覺注意力的對象區(qū)域。該區(qū)域的獨(dú)特性主要表現(xiàn)在與圖像中其他區(qū)域的差異性以及對象區(qū)域本身所表現(xiàn)出來的語義信息特征。由于圖像顯著性檢測致力于對視覺注意力集中部分的檢測,這一專題在計算機(jī)視覺領(lǐng)域一直以來都有著廣泛的關(guān)注和深入的研究。視覺顯著性檢測在各個方面都有著廣泛的應(yīng)用,如圖像的尺寸變換、語義圖像標(biāo)記[1]、語義分割[2]、行人再識別、農(nóng)作物的異常檢測等,并且都取得了不錯的成效。此外有很多論文工作都在對顯著性檢測這一議題進(jìn)行研究。Li等[3]通過注意力機(jī)制關(guān)注全局背景信息來進(jìn)行顯著性檢測。Luo等[4]采用全卷積神經(jīng)網(wǎng)絡(luò)對圖像顯著區(qū)域進(jìn)行檢測。文獻(xiàn)[5]采用了迭代和協(xié)作的方式集成了自上而下和自下而上的顯著性推斷方法。Lee等[6]采用混合特征的方法。EGNet邊緣信息和顯著物體信息之間的互補(bǔ)性來進(jìn)行圖像顯著性檢測[7]。盡管顯著性檢測研究已經(jīng)取得了不錯的成果,然而,傳統(tǒng)方法在處理語義對象顯著性方面能力不足,一些經(jīng)典的深度學(xué)習(xí)方法在檢測圖像顯著區(qū)域時導(dǎo)致的邊界模糊的問題依然存在。由于圖像的內(nèi)部屬性分類是未知的,顯著性檢測依然存在著許多挑戰(zhàn)。本文提出一種基于圖像區(qū)域?qū)Ρ刃畔⒑蛨D像語義信息混合編碼的顯著性檢測方法,直接對圖像中的每一個區(qū)域進(jìn)行特征編碼,通過計算待檢測區(qū)域與圖像其他區(qū)域之間的差異程度并結(jié)合圖像的語義信息來表示該區(qū)域在圖像中的顯著程度。在區(qū)域特征的表示中包含了圖像的顏色信息、紋理信息和區(qū)域的空間分布信息。本文方法的獨(dú)特之處在于同時結(jié)合了基于對比檢測機(jī)制的區(qū)域?qū)Ρ刃畔⒕幋a和基于語義信息的圖像卷積編碼,通過卷積神經(jīng)網(wǎng)絡(luò)來對圖像進(jìn)行顯著性評估,這樣一來可以同時保證本文方法對象顯著性的檢測能力以及顯著區(qū)域邊緣細(xì)節(jié)的處理能力。
本文的主要貢獻(xiàn)如下:
1) 提出一種精確描述圖像顯著區(qū)域的特征編碼。計算圖像中每一個區(qū)域與其他區(qū)域的差異程度來生成區(qū)域?qū)Ρ刃畔⒂成鋱D,通過對區(qū)域?qū)Ρ刃畔⒂成鋱D編碼來整合各個通道之間的特征信息。結(jié)合區(qū)域特征對比信息編碼以及圖像語義信息編碼來進(jìn)行圖像顯著區(qū)域檢測。
2) 融合區(qū)域?qū)Ρ刃畔⒕幋a和圖像語義信息編碼得到新特征編碼對圖像進(jìn)行顯著區(qū)域檢測。新的混合特征考慮到了顯著區(qū)域在圖像中的獨(dú)特性以及圖像的像素內(nèi)容。檢測結(jié)果在主流的公開數(shù)據(jù)集上都取得了很好的表現(xiàn)。
實(shí)驗(yàn)表明本文方法在數(shù)據(jù)集ECSSD[8]、DUT-OMRON[9]、HKU-IS[10]上的綜合表現(xiàn)要優(yōu)于其他算法。
圖像顯著性檢測作為計算機(jī)視覺研究熱點(diǎn),已經(jīng)有好多相關(guān)算法被提出來。傳統(tǒng)的檢測方法大多是直接利用視覺機(jī)制采取手工特征來檢測圖像顯著區(qū)域,或者利用手工特征結(jié)合不同的框架來檢測圖像顯著區(qū)域。近幾年隨著深度神經(jīng)網(wǎng)絡(luò)在計算機(jī)視覺中的成功應(yīng)用,利用卷積神經(jīng)網(wǎng)絡(luò)提取圖像的高級特征進(jìn)行顯著性檢測成了發(fā)展的主流。基于卷積神經(jīng)網(wǎng)絡(luò)的檢測算法實(shí)現(xiàn)了相對先進(jìn)的性能,并且明顯優(yōu)于僅采用手工制作功能的方法。
這些年的顯著性檢測的研究中,涌現(xiàn)了各種不同的方法來進(jìn)行圖像的顯著性檢測。其中SF[11]基于對比的顯著性檢測算法,利用圖像中的感知元素的唯一性和空間分布進(jìn)行評估來進(jìn)行顯著性估計。FES[12]基于中心環(huán)繞的顯著性檢測方法,利用貝葉斯框架下的局部特征對比度來進(jìn)行顯著性估計。HS[13]從不同的規(guī)模出發(fā)提出了一種分析圖像多層線索的顯著性檢測方法,通過分層模型生成最終的顯著圖。MR[14]通過基于圖流形狀的排序?qū)D像元素與前景線索或者背景線索的相似性進(jìn)行排序。根據(jù)他們與給定種子或者查詢的相關(guān)性來定義圖像的顯著性。LEGS[15]通過兩個深度神經(jīng)網(wǎng)絡(luò)分別學(xué)習(xí)局部區(qū)域特征確定每個像素的顯著值以及學(xué)習(xí)全局特征預(yù)測每個對象區(qū)域的顯著性值,并將兩者加權(quán)相加得到最終的顯著圖。MC[16]利用圖像圖模型上的馬爾可夫隨機(jī)鏈進(jìn)行顯著性檢測,同時考慮了突出物體與背景的外觀發(fā)散和空間分布。MCDL[17]將圖像的全局信息和局部信息集成到多語境深度學(xué)習(xí)框架中來進(jìn)行圖像的顯著性檢測。ELD[6]則認(rèn)為高級特征有利于評估圖像中的物體,低級特征可以輔助高級特征來提高顯著區(qū)域檢測的精確性。Zeng等[18]提出了一個統(tǒng)一的框架來訓(xùn)練具有多種弱監(jiān)督來源的顯著性檢測模型。Hou等[19]通過向HED體系結(jié)構(gòu)中的跳過層結(jié)構(gòu)引入短連接,提出了一種用于顯著性檢測的新方法。
本文結(jié)合了區(qū)域級別的區(qū)域?qū)Ρ刃畔⒕幋a以及像素級別的圖像語義信息編碼,通過卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行圖像的顯著區(qū)域檢測。在本文的檢測方法中,通過計算待檢測區(qū)域與其他區(qū)域之間的差異性的區(qū)域?qū)Ρ刃畔⒂成鋱D,并對其進(jìn)行卷積編碼,然后結(jié)合原始圖像的語義編碼特征圖得到混合編碼特征圖。通過卷積神經(jīng)網(wǎng)絡(luò)計算得到待檢測區(qū)域的顯著值并映射成最終的顯著圖。網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
圖1 本文方法網(wǎng)絡(luò)結(jié)構(gòu)
采用1×1的卷積核編碼圖像中每個區(qū)域的距離對比信息以及區(qū)域所屬圖像的語義信息,并將其合并成同時包含區(qū)域?qū)Ρ刃畔⒁约皥D像語義信息的混合特征編碼,然后通過卷積神經(jīng)網(wǎng)絡(luò)對該區(qū)域進(jìn)行顯著度評估,最后映射得到圖像的顯著圖。
本文方法的整個結(jié)構(gòu)分為兩部分,首先是混合特征編碼生成部分,其中包括圖像區(qū)域的對比特征信息映射圖的生成過程以及不同信息特征的融合部分,然后通過卷積神經(jīng)網(wǎng)絡(luò)來評估該區(qū)域的顯著程度。
在對比特征信息映射圖的構(gòu)建過程中,首先采用迭代聚類算法對圖像進(jìn)行區(qū)域劃分,根據(jù)圖像信息將具有高相似圖像信息的像素點(diǎn)劃歸到同一圖像區(qū)域,而對于低相似圖像信息的像素點(diǎn)則劃分到不同的區(qū)域。通過迭代聚類算法生成的超像素緊湊整齊,有準(zhǔn)確的邊界,使得劃分的圖像區(qū)域內(nèi)包含豐富的圖像信息,能夠更加準(zhǔn)確地對圖像區(qū)域進(jìn)行特征描述。與此同時,對圖像不同區(qū)域的準(zhǔn)確分割又可以避免由于同一區(qū)域中包含不同特征的圖像信息所造成的檢測偏差,能夠更精確地計算出不同圖像區(qū)域之間的差異性。將圖像劃分成不同的區(qū)域后,計算圖像中各個區(qū)域的對比特征信息,并生成與原圖尺寸相同的對比特征信息映射圖。
圖像劃分成不同的區(qū)域后,計算每一個區(qū)域的低級特征向量。在描述區(qū)域的表示中本文采用了圖像的顏色特征、紋理特征、區(qū)域的空間分布狀態(tài)來描述區(qū)域的特征。文中分別采用RGB顏色空間、LAB顏色空間、HSV顏色空間中的顏色均值以及顏色直方圖來作為區(qū)域的顏色特征描述,采用局部二值模式編碼直方圖來作為紋理特征描述??紤]到圖像區(qū)域所處的相互位置也影響著區(qū)域之間的差異,因此在區(qū)域的特征描述中加入了區(qū)域的位置特征。在圖像的每個區(qū)域中選取具有代表性的坐標(biāo)點(diǎn)作為該區(qū)域的空間信息描述。坐標(biāo)點(diǎn)信息表示如下:
(1)
式中:s表示待檢測區(qū)域的面積。
通過計算每個區(qū)域的特征向量與其他區(qū)域特征向量之間的距離來作為該區(qū)域在圖像中的顯著程度描述。在計算區(qū)域之間特征向量距離時有如下定義:
(2)
式中:H=(hi)且Kj=(ki),i=1,2,…,B,B為圖像區(qū)域劃分個數(shù);H表示待檢測區(qū)域的特征向量;Kj表示圖像中第j個區(qū)域的特征向量;sk是第k分量的標(biāo)準(zhǔn)差。D(H,Kj)表示待檢測區(qū)域與圖像中第j個區(qū)域之間的特征向量距離。根據(jù)得到的待檢測區(qū)域同圖像其他區(qū)域特征向量之間的距離結(jié)果進(jìn)行對應(yīng)區(qū)域映射,得到與圖像尺寸相同的區(qū)域?qū)Ρ刃畔⒂成鋱D。具體映射方式如圖2所示。
圖2 具體映射方式
以待檢測區(qū)域H為例,計算區(qū)域H與圖像中其他各個區(qū)域Kj(j=1,2,…,B)的特征距離向量D(F(H),F(Kj)),其中F(H)表示區(qū)域H的特征向量,并將計算結(jié)果映射到Kj所在圖像中的位置,得到待檢測區(qū)域H的對比信息映射圖。使得區(qū)域?qū)Ρ刃畔⒂成鋱D跟該區(qū)域所在圖像尺寸一致,保證了區(qū)域的對比信息跟圖像語義信息相對應(yīng)。將得到的對比信息映射圖進(jìn)行卷積編碼。與其他的對比信息計算方式相比,本文中計算區(qū)域?qū)Ρ刃畔⒂成鋱D的方式能夠保證計算待檢測區(qū)域與圖像差異時的準(zhǔn)確性,并且保證了圖像中待檢測區(qū)域的對比信息和圖像語義信息之間的對應(yīng)關(guān)系。此外,區(qū)域?qū)Ρ刃畔⒂成鋱D的構(gòu)建保證了作為卷積神經(jīng)網(wǎng)絡(luò)輸入數(shù)據(jù)時的矩形形狀要求。
在區(qū)域?qū)Ρ刃畔⒂成鋱D中,采用了顏色、紋理、空間分布等多種不同的底層手工特征作為區(qū)域的特征描述,因此對區(qū)域?qū)Ρ刃畔⒂成鋱D先進(jìn)行編碼來整合不同的底層特征,使得不同類型的特征作為一個信息整體來表示待檢測區(qū)域。
本文在融合區(qū)域?qū)Ρ刃畔⒑蛨D像像素信息的過程中并不是簡單地將兩者直接線性結(jié)合,而是首先整合區(qū)域?qū)Ρ刃畔⑻卣鲌D中各個通道所包含的不同手工低層特征編碼,使得每個通道下的不同低層手工特征作為一個整體的區(qū)域?qū)Ρ忍卣髅枋觯瑫r對圖像中的像素信息進(jìn)行編碼。然后將兩者融合得到新的用于圖像顯著性檢測的混合編碼。在網(wǎng)絡(luò)的實(shí)現(xiàn)中,采用1×1的卷積核對區(qū)域?qū)Ρ刃畔⒂成鋱D進(jìn)行卷積處理,以此來實(shí)現(xiàn)不同底層手工特征之間跨通道的信息交互以及將不同通道的低層手工特征整合成一個整體的特征表示,在區(qū)域特征對比信息和圖像原始信息保持相同的特征圖尺寸下,使得不同的低層手工特征作為一個區(qū)域?qū)Ρ刃畔⒌恼w與圖像原始信息特征融合。
融合得到的新的特征編碼中包含了區(qū)域?qū)Ρ忍卣餍畔⒑蛨D像語義信息,新融合的混合特征編碼能夠通過待檢測區(qū)域在原始圖像中語義信息的獨(dú)特程度來描述圖像區(qū)域的顯著性。此外還結(jié)合了待檢測區(qū)域與圖像其他區(qū)域的差異性來使得待檢測區(qū)域的顯著程度更加精確。將融合得到的混合特征編碼作為卷積神經(jīng)網(wǎng)絡(luò)的輸入來檢測圖像區(qū)域的顯著程度。在網(wǎng)絡(luò)實(shí)現(xiàn)中采用DPN[20]網(wǎng)絡(luò)來檢測區(qū)域的顯著值,在網(wǎng)絡(luò)的最后將區(qū)域顯著值映射到[0,255],并將檢測到的顯著值映射到區(qū)域所在圖像位置,得到最終的顯著圖。
本文采用了三種顯著性檢測通用數(shù)據(jù)集來評估所提出方法的效果:
(1) ECSSD數(shù)據(jù)集,包括了1 000幅具有語義信息的圖像,并且具有結(jié)構(gòu)相對復(fù)雜的自然內(nèi)容圖像。
(2) DUT-OMRON數(shù)據(jù)集,具有5 168個高質(zhì)量圖像,其中包含了具有一個或者多個顯著對象的圖像并且圖像具有復(fù)雜的背景。
(3) HKU-IS數(shù)據(jù)集,包含4 447個具有多部不同空間分布的顯著對象,并且顯著對象與背景的對比度相對較低。
在本文方法的實(shí)驗(yàn)中采用了MSRA10K數(shù)據(jù)集來進(jìn)行模型的訓(xùn)練。圖像隨機(jī)分出1 000幅作為測試集,剩下的9 000幅作為訓(xùn)練集。
本文采用了三個主要的指標(biāo)來評價所提出方法的效果,其中包括PR(Precision,Recall)曲線、F-measure和平均絕對誤差(MAE)。首先通過PR曲線來評估本文方法的檢測效果。使用0~255的連續(xù)值將檢測到的顯著圖轉(zhuǎn)換成[0~255]不等同的灰度等級,然后計算0~255不同閾值下對應(yīng)的PR值來繪制該數(shù)據(jù)集上的PR曲線。PR值計算方式如下:
(3)
(4)
式中:smap表示預(yù)測的顯著圖;GT表示圖像顯著區(qū)域標(biāo)簽。
其次,采用不同數(shù)據(jù)中F-measure的平均值來評估本文顯著性檢測方法。F-measure計算如下:
(5)
式中:β2設(shè)置為0.3以強(qiáng)調(diào)精度而不是召回率。
此外,我們還計算了顯著性檢測圖中的平均絕對誤差,以此來評估那些非顯著區(qū)域檢測的準(zhǔn)確程度。平均絕對誤差定義為顯著圖映射S的平均估計與每個像素的顯著標(biāo)簽G的距離。MAE評估檢測度如下:
(6)
式中:W表示顯著圖估計的寬;H表示顯著圖的高。
為了驗(yàn)證本文算法的檢測效果,選取了一些經(jīng)典的顯著性檢測方法和基于深度學(xué)習(xí)的顯著性檢測方法與本文方法在三個數(shù)據(jù)集上進(jìn)行了比較。在圖3中展示了本文方法與其他方法在不同場景下的檢測結(jié)果的直觀比較。從第一列和第三列中可以看出,本文算法在突出顯著對象主體方面要比其他算法更強(qiáng),從第二列則可以看出本文方法能夠很好地抑制雜亂的背景噪點(diǎn)。第三列也表現(xiàn)了本文方法在檢測精確的顯著區(qū)域邊界上有著很好的表現(xiàn)。如圖4、圖5、圖6所示,分別在三個數(shù)據(jù)上的PR曲線顯示本文方法相較于其他算法的PR曲線有更大的包絡(luò)線面積,說明了本文方法在檢測結(jié)果的準(zhǔn)確率和召回率上有最優(yōu)的綜合表現(xiàn)。此外表1表明本文算法的檢測結(jié)果在三個數(shù)據(jù)集上的F-measure值要明顯高于其他算法,表2中顯示本文算法檢測結(jié)果的MAE值要明顯低于其他對比算法,客觀準(zhǔn)確地說明了本文算法的實(shí)驗(yàn)結(jié)果在準(zhǔn)確率、召回率和檢測非顯著區(qū)域的準(zhǔn)確程度方面都要優(yōu)于其他算法。因此,本文算法無論是直觀視覺下的比較,還是客觀評價指標(biāo)下的得分都比其他算法表現(xiàn)出了更好的效果。
圖3 基于直觀視覺的實(shí)驗(yàn)結(jié)果對比
圖4 不同的對比方法在ECSSD數(shù)據(jù)集上的ROC曲線圖
圖5 不同的對比方法在DUT-OMRON數(shù)據(jù)集上的ROC曲線圖
圖6 不同的對比方法在HKU-IS數(shù)據(jù)集上的ROC曲線圖
表1 不同的方法在三個數(shù)據(jù)集上的F-measure結(jié)果
表2 不同的方法在三個個數(shù)據(jù)集的MAE值結(jié)果
本文提出一種基于圖像區(qū)域?qū)Ρ刃畔⒒旌暇幋a的顯著性檢測方法,結(jié)合了圖像區(qū)域之間的對比信息和圖像的語義信息來進(jìn)行圖像顯著區(qū)域檢測。通過構(gòu)建區(qū)域?qū)Ρ刃畔⒂成鋱D來保證基于視覺對比度機(jī)制的檢測能力,同時融合圖像的語義信息編碼,保持著檢測對象顯著性的能力。此外通過對圖像區(qū)域的精確劃分來保證對顯著區(qū)域精細(xì)邊界的檢測能力。多項(xiàng)評估表明本文方法在數(shù)據(jù)集ECSSD、DUT-OMRON、HKU-IS上比其他一些算法有更好的表現(xiàn)。