李東民 李 靜 梁大川 王 超
隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,數(shù)字圖像、視頻等多媒體數(shù)據(jù)呈現(xiàn)爆發(fā)式增長,基于數(shù)字圖像及視頻的圖像處理技術(shù)也在迅猛發(fā)展.顯著性檢測通過模擬人類視覺系統(tǒng)選擇圖像中具有重要信息的區(qū)域[1],可將其作為其他圖像處理步驟的一種預(yù)處理工作,并已成功應(yīng)用于目標識別、目標跟蹤和圖像分割[2?4]等多種計算機視覺任務(wù)之中.
近年來國內(nèi)外計算機視覺領(lǐng)域在圖像顯著性檢測的研究方面提出許多行之有效的方法.Borji 等[5]將這些方法分為兩類,一類方法基于模擬生物視覺系統(tǒng)構(gòu)建注意力預(yù)測模型(Visual saliency prediction)[6?9].Itti 等[6]提出的IT 算法,根據(jù)人眼視覺特性,針對多尺度圖像通過底層特征的中心–周圍對比度得到相應(yīng)的顯著圖,并通過顯著圖融合獲取最終顯著圖.由于人類視覺系統(tǒng)生物結(jié)構(gòu)復(fù)雜導(dǎo)致此算法計算復(fù)雜度極高.近年來基于頻域的顯著性檢測模型成為此類方法中關(guān)注熱點,Hou 等[7]提出一種普殘差方法,認為圖像包含顯著信息和冗余信息,通過在圖像幅度譜上做對數(shù)運算并利用平均濾波器進行卷積運算得到冗余信息,以幅度譜與卷積結(jié)果的差值表示顯著信息再反變換到空間域上獲得顯著區(qū)域.在譜殘差方法基礎(chǔ)上Guo 等[8]提出相位譜四元傅里葉變換法,通過相位譜提取圖像多特征分量得到顯著區(qū)域,利用四元傅里葉變換將亮度、顏色和運動信息一起并行處理來計算時空顯著性.Li 等[9]提出超傅里葉變換方法,通過對譜濾波進行擴展,利用超復(fù)數(shù)表示圖像多為特征并使用傅里葉變化得到時空顯著性.
另一類方法基于計算機視覺任務(wù)驅(qū)動構(gòu)建顯著目標檢測模型(Salient object detection).這類方法通常包括兩個步驟.首先檢測圖像中突出顯著區(qū)域,在此基礎(chǔ)上分割出完整目標.雖然這類方法本質(zhì)上本質(zhì)是解決前景與背景分割問題,但與圖像分割相比顯著性目標檢測根據(jù)內(nèi)容將圖像分割為一致區(qū)域.一些經(jīng)典算法使用底層特征對圖像內(nèi)容進行表示[10?14],比如Cheng 等[10]使用圖割方法對圖像進行分割,通過稀疏直方圖簡化圖像顏色,利用空間位置距離加權(quán)的顏色對比度之和來衡量圖像區(qū)域的顯著性.Shen 等[11]提取圖像的顏色特征、方向特征以及紋理特征得到特征矩陣,利用主成分分析(Principal component analysis,PCA)對矩陣進行降維表示再計算對比度得到顯著圖.Yang 等[12]通過將圖像劃分為多尺度圖層,針對每個圖層計算其顏色特征與空間特征的對比度,融合多個圖層生成的顯著圖獲取最終顯著圖.該方法能夠保證顯著性目標的一致性與完整性,但當顯著性目標較小時,會將顯著性目標當作背景融入到背景區(qū)域.Cheng 等[13]采用高斯混合模型將顏色特征相似的像素聚為圖像區(qū)域,綜合考慮各區(qū)域的顏色對比度和空間分布,以概率模型生成顯著圖.Li 等[14]以稀疏表示分類(Sparse representation-based classification,SRC)原理為基礎(chǔ),對分割圖超像素塊進行稠密和稀疏重構(gòu),通過多尺度重構(gòu)殘差建立顯著圖.
使用不同底層特征的顯著性檢測方法往往只針對某一類特定圖像效果顯著,無法適用于復(fù)雜場景下多目標圖像,如圖1 所示.基于視覺刺激的底層特征缺乏對顯著目標本質(zhì)的理解,不能更深層次的表示顯著性目標的特征.對于圖像中存在的噪聲物體,如與底層特征相似但不屬于同一類目標,往往會被錯誤的檢測為顯著目標.楊賽等[15]提出一種基于詞袋模型的顯著性檢測方法,首先利用目標性計算先驗概率顯著圖,建立一種表示中層語意特征的詞袋模型計算條件概率顯著圖,最后通過貝葉斯推斷對兩幅顯著圖進行合成.中層語意特征能夠比底層特征更準確的表示圖像內(nèi)容,因此檢測效果更加準確.Jiang 等[16]將顯著性檢測作為一個回歸問題,集成多分割尺度下區(qū)域?qū)Ρ榷?區(qū)域?qū)傩砸约皡^(qū)域背景知識特征向量,通過有監(jiān)督學(xué)習(xí)得到主顯著圖.由于背景知識特征的引入使算法對背景對象有更好的識別能力,進而得到更準確的前景檢測結(jié)果.
近幾年來,基于深度學(xué)習(xí)的自動學(xué)習(xí)獲取深度特征(或高層特征)的方法已經(jīng)開始在圖像顯著性檢測中得到應(yīng)用.李岳云等[17]通過提取超像素塊區(qū)域和邊緣特征,送入卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)得到顯著置信圖.采用條件隨機場求能量最小化的區(qū)域進行顯著性檢測.對單顯著目標檢測效果較好,但由于特征選擇問題不適用于多目標圖像.Li 等[18]通過深度卷積神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)得到獲取圖像超像素區(qū)域的局部和全局深度特征來進行顯著性檢測MDF (Multiscale deep features),檢測效果相比于一般方法有明顯著的提升,但運行速度較慢.Hu 等[19]通過結(jié)合卷積神經(jīng)網(wǎng)絡(luò)和區(qū)域驗證的先驗知識獲取局部和全局特征.算法檢測效果較好,但高度復(fù)雜的模型影響了算法運行效率.本文著重研究圖像背景信息相對復(fù)雜的多目標情況,提出一種基于先驗知識與深度特征的顯著性檢測方法.首先對圖像進行多尺度分割,對第一個分割圖通過卷積神經(jīng)網(wǎng)路提取所有超像素塊的深度特征并計算顯著值,并生成預(yù)顯著區(qū)域.將其余分割圖的預(yù)顯著區(qū)域超像素塊輸入卷積神經(jīng)網(wǎng)絡(luò),通過提取的深度特征計算顯著值并更新預(yù)顯著區(qū)域.不斷迭代此過程得到各尺度下的顯著圖,最終通過加權(quán)元胞自動機方法對多尺度顯著圖進行融合.目標先驗可過濾大部分背景信息,減少不必要的深度特征提取,顯著提升算法檢測速率.
圖1 復(fù)雜背景下的多目標圖像Fig.1 Multi object image in complex background
本文結(jié)構(gòu)安排如下:第1 節(jié)詳細闡述基于多尺度目標先驗與深度特征的多目標顯著性檢測方法;第2 節(jié)通過與已有算法在公開數(shù)據(jù)集上進行定性定量比較,評價本文所提方法;第3 節(jié)總結(jié)本文所做工作并提出下一步研究方向.
本節(jié)提出了一種基于深度特征顯著性檢測算法,總體框架如圖2 所示.對于輸入圖像l,首先采用超像素分割算法將圖像分割為數(shù)目較少的超像素塊.對所有超像素塊提取深度特征,通過主成分分析提取包含圖像關(guān)鍵信息的多維特征.基于關(guān)鍵特征計算得到粗分割顯著圖,從中提取初始顯著區(qū)域組成超像素集Supselect.利用Supselect集中超像素與背景區(qū)域超像素相似性,對其進行優(yōu)化.對輸入圖像不同尺度超像素分割,選擇包含Supselect集中超像素塊的區(qū)域進行深度特征提取,基于相同方法得到這一尺度下顯著圖Maps和Supselect集.最終采用加權(quán)元胞自動機融合得到最終顯著圖Mfinal.
圖2 本文算法總體架構(gòu)圖Fig.2 The overall framework of our method
超像素分割是根據(jù)顏色、紋理和亮度等底層特征,將相鄰相似的像素點聚成大小不同圖像區(qū)域[20],降低了顯著性計算的復(fù)雜度.常用的超像素生成算法有分水嶺[21]和簡單線性迭代聚類(Simple linear iterative clustering,SLIC)[22]兩種分割算法.本文結(jié)合二者各自特點,在粗分割時采用SLIC 方法,獲取形狀規(guī)則,大小均勻的分割結(jié)果.在細分割時采用分水嶺算法獲得良好的對象輪廓.
對于N個分割尺度s1,···,sn,在某一分割尺度下得到的超像素集用表示分割尺度sj下的超像素個數(shù),為sj分割尺度下第i個超像素.L,a,b}為該超像素中像素點兩種顏色特征的特征向量.
1.1.1 預(yù)選區(qū)域提取
將粗分割尺度sj的分割圖作為輸入,通過深度特征提取和顯著值計算(在第1.2 節(jié)和第1.3 節(jié)中詳細介紹)得到的顯著圖Mapj.Mapj作為下一個分割尺度檢測時的目標先驗知識,用以指導(dǎo)預(yù)選目標區(qū)域提取.對顯著圖Mapj進行二值化處理,采用自適應(yīng)的閾值策略,將Mapj的值分為K個通道.用p(i)表示屬于通道i的像素數(shù)量,并確定所有通道中像素數(shù)量最多的通道k,通過式(1)計算閾值T.
為防止T取值過大,確保在顯著目標占據(jù)圖像大部分空間時,較為顯著的像素不被二值化為0.每個通道像素數(shù)目必須滿足p(i)/area(I)<ε,其中area(I)為圖像l的像素個數(shù).ε是落在[0.65,0.95]范圍內(nèi)的經(jīng)驗值.所得二值化目標先驗圖為MapBj.
使用MapBj作為目標先驗知識,選取下一個尺度sj+1下相應(yīng)位置的超像素區(qū)域構(gòu)成預(yù)選顯著性超像素集Supselectj+1Mj+1是在分割尺度sj+1上提取的預(yù)選顯著目標超像素個數(shù),Mj+1
1.1.2 區(qū)域優(yōu)化
預(yù)選目標超像素集Supselectj+1可能包含一些背景區(qū)域或缺失部分顯著區(qū)域.需對預(yù)選目標區(qū)域進行優(yōu)化,將Supselectj+1中可能的背景區(qū)域去除掉,并將背景區(qū)域中可能的顯著性區(qū)域加入進來.
根據(jù)兩種顏色空間特征的歐氏距離來構(gòu)造超像素之間的相異矩陣Difmat,表示超像素之間的相異性.Difmat是一個Nj+1階對稱矩陣.
其中,Fi,k為超像區(qū)域Spi的第k個特征,k從1到6 分別對應(yīng)R,G,B,L,a和b特征.對于SpkSupselectj+1,通過式(3)計算局部的平均相異度
其中,Spk,SplSupselectj+1,Mj+1是預(yù)選顯著區(qū)域集Supselectj+1中超像素個數(shù).計算Supselectj+1中每個超像素Spk與其相鄰的背景區(qū)域的平均相異度
其中,SpkSupselectj+1,SplSupselectj+1,且Spk與Spl相鄰,表示背景區(qū)域中與Spk相鄰的超像素個數(shù).如果MavDifDavDif(Spk),表明Spk與相鄰的背景區(qū)域的相似度更高,則將Spk從Supselectj+1刪除.
同樣,對于任意SphSupselectj+1,可計算Sph與相鄰背景區(qū)域中的平均相異度MavDif及Sph與相鄰預(yù)選顯著區(qū)域的平均相異度MavDif(Sph).如果滿足條件MavDifMavDif(Sph),則說明與其他背景區(qū)域相比,Sph與相鄰顯著區(qū)域的相似度更高,則將Sph加入到Supselectj+1中.
通過比較Supselectj+1中超像素與其他顯著區(qū)域及背景區(qū)域的相異度,從而不斷更新Supselectj+1,直到Supselectj+1中超像素不再變化.
本節(jié)基于卷積神經(jīng)網(wǎng)絡(luò)的深度特征提取方法如圖3 所示.在首次超像素分割時提取所有超像素的深度特征,在之后的深度特征提取過程中,只對Supselect集中超像素進行提取.在一定的分割策略下,大大降低計算量,提高計算速度.
假設(shè)不是首次分割,對于每一個超像素Spi(SpiSupselect)分別提取局部區(qū)域深度特征和全局區(qū)域深度特征.
超像素的局部特征包括兩部分:1)包含自身區(qū)域的深度特征Fself;2)包含自身及相鄰超像素區(qū)域的深度特征Flocal.
首先,根據(jù)預(yù)選目標超像素集Supselect,提取每個超像素Spi(SpiSupselect)所在的最小矩形區(qū)域Rectself(如圖3 區(qū)域內(nèi)的荷花).由于多數(shù)超像素不是規(guī)則的矩形,提取到的矩形一定包含其他像素點,這些像素點用所在超像素的平均值表示.通過深度卷積網(wǎng)絡(luò)就可以得到只包含自身區(qū)域的深度特征Fself.
僅有特征Fself經(jīng)過顯著性計算得到的顯著值是沒有任何意義的,在不與其他相鄰超像素顯著性的對比情況下,無法確定它是否是顯著的.因此還需提取包含Spi自身及其相鄰超像素的最小矩形區(qū)域Rectlocal,從而獲得局部區(qū)域的深度特征Flocal.
區(qū)域在圖像中的位置是一個判斷其是否顯著的重要因素.通常認為位于圖像中心的區(qū)域比位于邊緣的區(qū)域成為顯著區(qū)域的可能性更高.因此,以整幅圖像作為矩形輸入?yún)^(qū)域Rectlocal,提取全局區(qū)域的深度特征Fglobal.
圖3 基于卷積神經(jīng)網(wǎng)絡(luò)的深度特征提取架構(gòu)圖Fig.3 Deep features extraction based on convolutional neural network
深度卷積神經(jīng)網(wǎng)絡(luò)模型是由一個數(shù)據(jù)輸入層、多個卷積層和下采樣層、全連接層和輸出層共同構(gòu)成的深度神經(jīng)網(wǎng)絡(luò)[23].卷積層和下采樣層構(gòu)成神經(jīng)網(wǎng)絡(luò)中間結(jié)構(gòu),前者負責特征提取,后者則負責特征計算.在一個或者多個下采樣層之后會連接一個或多個全連層,每個全連層都可將特征進行輸出.卷積層輸出結(jié)果為
其中,s×s是下采樣模板尺度,為模板權(quán)值.本文利用訓(xùn)練好的AlexNet 深度卷積神經(jīng)網(wǎng)絡(luò)模型來提取預(yù)選目標區(qū)域的深度特征,并在此模型基礎(chǔ)上去除標簽輸出層以獲取深度特征.將預(yù)處理后圖像輸入模型,卷積層C1 利用96 個大小為11×11×3的圖像濾波器來對大小為224×224×3 的輸入圖像進行濾波.
卷積層C2,C3,C4,C5 分別將上一層下采樣層的輸出作為自己的輸入,利用自身濾波器進行卷積處理,得到多個輸出特征圖并傳給下一層.全連接層F6 和F7 每層都有4 096 個特征輸出,每個全連接層的輸出結(jié)果可為
主成分分析(Principle component analysis,PCA)[24]是最常見的高維數(shù)據(jù)降維方法,可以把p個高維特征用數(shù)目更少的m個特征取代.對于n個超像素,卷積神經(jīng)網(wǎng)絡(luò)輸出特征可以構(gòu)成一個n× p維的樣本矩陣W,p12 288.通過式(8)計算樣本的相關(guān)系數(shù)矩陣R(rij)p×p
計算每個特征值λi對應(yīng)的正交單位向量zzzi[zi1,zi2,···,zip]T,選取累計貢獻率達到95% 的前m個特征對應(yīng)的單位向量,構(gòu)成轉(zhuǎn)換矩陣Z[zzz1,zzz2,···,zzzm]p×m.通過式(10)對高維矩陣M進行降維,Spi(df)(fi,1,fi,2,···,fi,m)表示降維后的m維主成分特征.圖像不同尺度的分割圖使用同一轉(zhuǎn)換矩陣提取主成分特征.
1.3.1 對比特征
對比度特征反映了某一區(qū)域與相鄰區(qū)域的差異程度.超像素Spi的對比特征值wc(Spi),是用它與其他超像素所有特征的距離來定義的,如式(11)所示
其中,n表示超像數(shù)的個數(shù),2 是2-范數(shù).
1.3.2 空間特征
在人類視覺系統(tǒng)中對不同空間位置的關(guān)注度不同,越靠近中心越能引起注意.圖像中不同位置的像素到圖像中心的距離滿足高斯分布,對任一超像素Spi,其空間特征值ws(Spi)用式(12)計算
其中,Spi,x為超像素Spi的中心坐標,c為圖像中心區(qū)域.與圖像中心的平均距離越小的超像素塊空間特征值越大.超像素Spi的顯著值用式(13)表示
計算得到第一個分割圖的顯著圖Map1,作為后序分割尺度的目標先驗知識來指導(dǎo)預(yù)選目標區(qū)域的提取和優(yōu)化.
1.3.3 目標先驗顯著性計算
通過目標先驗知識提取預(yù)選目標區(qū)域Supselect后,超像素集中顯著性區(qū)域占絕大部分,即顯著性區(qū)域不在是稀疏的.因此,再按照式(11)計算對比特征值是不準確的.
在已知目標的大致空間分布的情況下,特別是分散的多目標情況,根據(jù)圖像中心來計算空間特征不夠準確.可以根據(jù)已知的顯著目標空間分布來以目標先驗圖中的顯著性區(qū)域的中心來代替圖像中心進行計算,如式(15)所示.
其中,Spi,x為超像素Spi的中心坐標,為目標先驗圖中的顯著性區(qū)域的中心.如果存在多個獨立的顯著性區(qū)域,那么表示與超像素Spi最近的顯著性區(qū)域的中心.由式(13)計算最終顯著值得到目標先驗下的顯著性圖Mapi,i代表不同的尺度.
Qin 等[25]提出了多層元胞自動機(Multi-layer cellular automata,MCA)融合方法.顯著圖中每一個像素點表示一個元胞,在M層元胞自動機中,顯著圖中的元胞有M?1 個鄰居,分別位于其他顯著圖上相同的位置.
如果元胞i被標記為前景,則它在其他顯著圖上相同位置的鄰居j被標記為前景的概率λP(ηi+1).同樣,可以用μP(ηi+1)來表示元胞i標記背景時,其鄰居j成為背景的概率.
對于不同方法得到的顯著圖,可以認為是相互獨立的.在同步更新時認為所有顯著圖的權(quán)重是一樣的.不同分割尺度下的顯著圖之間有指導(dǎo)和細化關(guān)系,在融合的過程中權(quán)重不能認為是相等的.在不同的分割尺度中,假設(shè)首次分割尺度得到的顯著圖的權(quán)重為λ1,用wiλ1來表示.不分割尺度下的顯著圖權(quán)重用式(16)表示為
其中,Oi表示預(yù)選目標集中所有超像素包含的像素總數(shù),oi表示第i幅顯著性區(qū)所包含的像素數(shù)量.將λ1的初始值設(shè)置為1,同步更新機制f:MapM?1→Map,定義為
將多尺度分割顯著圖經(jīng)過加權(quán)MCA 融合后得到最終的顯著圖,從而完成單幅圖像的顯著性檢測.根據(jù)前面內(nèi)容對本文的基于深度特征的多目標顯著性檢測算法的整個流程進行了總結(jié),如算法1 所示.
算法1.基于深度特征的多目標顯著性檢測算法
輸入.原始輸入圖像I和多尺度分割個數(shù)N和每個尺度下的分割參數(shù).
輸出.顯著圖fori1:N
1)根據(jù)確定好的參數(shù),用SLIC 對圖像l進行超像素分割;
2)確定每個超像素的輸入?yún)^(qū)域Rectself,Rectlocal,
3)將輸入?yún)^(qū)域送入Alexnet 網(wǎng)絡(luò),提取深度特征[Fself,Flocal,Fglobal];
4)將所有超像素的深度特征構(gòu)成矩陣W,利用PCA 算法計算W的轉(zhuǎn)換矩陣A,獲取主成分特征;
5)根據(jù)主成分特征計算無目標先驗的顯著值,得到首次分割顯著圖Map1;
else
6)根據(jù)確定好的參數(shù),用分水嶺算法對圖像l進行超像素分割;
7)將顯圖Mapi?1當作目標先驗圖,提取并優(yōu)化預(yù)選目標區(qū)域集Supselect;
8)確定Supselect中每個超像素的輸入?yún)^(qū)域Rectself,Rectlocal,Rectglobal;
9)將輸入?yún)^(qū)域送入Alexnet 網(wǎng)絡(luò),提取深度特征[Fself,Flocal,Fglobal];
10)將所有超像素的深度特征構(gòu)成矩陣W,用轉(zhuǎn)換矩陣A得到主成分特征;
11)根據(jù)主成分特征計算有目標先驗的顯著值,得到顯著圖Mapi;
12)計算每個尺度下的顯著圖的權(quán)重wi;
13)用加權(quán)MCA 對得到的N幅顯著圖進行融合,得到最終的顯著圖Mapfinal.
數(shù)據(jù)集SED2[26]是目前比較常用的多目標數(shù)據(jù)集,它包含了100 幅圖像和相應(yīng)的人工標注圖,每幅圖像中都包含了兩個顯著目標.HKU-IS[18]包含近4 500 幅由作者整理挑選的圖像,每幅圖像中至少包含2 個顯著目標,并且目標與背景的顏色信息相對復(fù)雜,同時提供人工標注的真實圖.本文是針對多目標的檢測算法,因此只選擇HKU-IS 中具有兩類或兩個以上目標的2 500 幅圖像進行實驗.另外為分析本文算法各部分性能,從HKU-IS 中隨機選擇500 幅圖像建立測試數(shù)據(jù)集,在進行參數(shù)選擇和評價PCA 以及自適應(yīng)元胞自動機性能時均使用此測試集.
在本節(jié)的實驗中,通過對比顯著圖的準確率(Precision)–查全率(Recall)曲線(PR 曲線)、準確率–查全率–F-measure 柱狀圖(F-measure 柱狀圖)與平均絕對誤差(Mean absolute error,MAE)柱狀圖三個標準來評價顯著性檢測的效果,從而選出相對較好的分割尺度.
查準率與查全率是圖像顯著性檢測領(lǐng)域最常用的兩個評價標準,PR 曲線越高表示顯著性檢測的效果越好,相反PR 曲線越低,相應(yīng)的檢測效果就越差.對于給定人工標注的二值圖G和顯著性檢測的顯著圖S,查準率Precision 與查全率Recall 的定義如式(19)所示
其中,sumA(S,G)表示顯著性檢測的視覺特征圖S和人工標注的真實二值圖G對應(yīng)像素點的值相乘后的和,sumB(S)、sumB(G)分別表示的是視覺特征圖S 和人工標注的真實二值圖G上所有像素點的值之和.
不同于準確率–召回率曲線,在繪制準確率–召回率–F-measure 值柱狀圖時,利用每幅圖像的自適應(yīng)閾值T對圖像進行分割
其中,參數(shù)W與H分別指代圖像的寬度與高度.對每個數(shù)據(jù)集中的顯著圖,計算它們的平均準確率與召回率.根據(jù)式(21)計算平均的F-measure 值,F-measure 的值超高超好.F-measure 值用于綜合評價準確率與查全率,在顯著性檢測中查準率要比查全率更加重要,所以β2的值常設(shè)置成0.3[19].
平均絕對誤差通過對比顯著圖與人工標注圖的差異來評價顯著性模型[20].根據(jù)式(22)可以計算每個輸入圖像的MAE 值,并利用計算出的MAE 值繪制柱狀圖,MAE 值越低表明算法越好[21].
2.2.1 確定分割尺度
本文算法參數(shù)主要為分割尺度.分割尺度太多會增加計算復(fù)雜度,太少則會影響顯著性檢測效果的準確性.因此,根據(jù)經(jīng)驗設(shè)置15 個分割尺度并將其限定在[20,25]范圍內(nèi).
在隨機選取的數(shù)據(jù)上進行實驗,根據(jù)經(jīng)驗設(shè)置15 個分割尺度,提取分割圖中所有超像素的深度特征計算顯著圖.不同分割尺度顯著性檢測結(jié)果的Precision-Recall 曲線圖如圖4 所示.從中選擇6 個效果較好的分割尺度.通過對比分析發(fā)現(xiàn)分割尺度1,3,4,6,8,13 這6 個分割尺度下的顯著性檢測效果相對較好.選擇這6 個分割尺度作為本文算法的最終分割尺度.
圖4 不同分割尺度下顯著性檢測的PR 曲線圖Fig.4 Precision-Recall curves of saliency detection in different segmentation scales
2.2.2 預(yù)顯著區(qū)域提取策略選擇
圖5 不同分割策略下顯著性檢測的PR 曲線圖以及MAE 柱狀圖Fig.5 Precision-recall curves and MAE histogram in different segmentation strategies
在結(jié)合目標先驗知識后,不同的分割策略組合得到的結(jié)果并不一致,且運行速度也存在較大差異.按照分割所得超像素個數(shù)進行組合,可分為由少到多、由多到少、多少多交叉和少多少交叉共4 種組合策略.在這4 種分割組合策略和不加目標先驗情況下顯著性檢測結(jié)果的PR 曲線圖以及MAE 柱狀圖如圖5 所示.運行時間如表1 所示.由圖可以看出,4 種策略的PR 曲線大致相當,但策略4 的要稍高于其他3 種分割策略,與無標先驗的的顯著性檢測相差不大.從表中可以看出策略4 運行速度最快,與無目標先驗的檢測相比,在檢測效果相差無幾的情況下,平均每幅圖像的檢測時間提高了50% 左右.
表1 不同分割策略下平均每幅圖像檢測時間Table 1 The average detection time for each image in different segmentation strategies
2.2.3 PCA 參數(shù)確定
為驗證PCA 算法從深度特征中選取主成分的有效性,本節(jié)通過測試集的500 幅圖像中各超像素塊中所提取的深度特征作為數(shù)據(jù)集,通過可解釋方差(Percentage of explained variance,PEV)[27]來衡量主成分在整體數(shù)據(jù)中的重要性,該指標是描述數(shù)據(jù)失真率的一個主要指標,累計率越大,數(shù)據(jù)保持率越高.計算方式為
其中,為主成分矩陣奇異值分解后的右矩陣,Σ 為協(xié)方差矩陣.圖6 給出前50 個主成分與累計可解釋方差.從圖中可以看出隨著主成分個數(shù)的增加累計可解釋方差呈上升趨勢,但這種上升趨勢會隨著主成分個數(shù)的增加而逐漸放緩.當主成分個數(shù)超過10 后累計可解釋方差達到80% 以上,認為其能夠代表數(shù)據(jù)整體信息,在本文設(shè)計算法中選取前10 個主成分進行顯著值計算.
圖6 主成分個數(shù)與累計可解釋方差關(guān)系圖Fig.6 The relationship between the number of principal component and percentage explained variance
2.2.4 元胞自動機評價
為評估自適應(yīng)元胞自動機融合有效性,對測試集使用9 種不同方式得到顯著圖,分別是本文所選6種分割尺度、線性融合[17]、MCA[24]以及加權(quán)元胞自動機.通過PR 值與MAE 值對這9 種方法進行評價,所得結(jié)果如圖7 所示.
通過對比可以發(fā)現(xiàn),不同分割尺度下所得顯著圖的PR 曲線十分相似,但是查準率與查全率均不理想.通過線性融合方法得到的顯著圖能改善單一尺度檢測結(jié)果的魯棒性使其在檢測結(jié)果更加穩(wěn)定.MCA 融合方法明顯好于線性方法得到的顯著圖,而改進后的加權(quán)MCA 方法得到的多尺度分割融合圖具有更好的查準率,因此所得融合結(jié)果將更加準確.從MAE 柱狀圖中也可看到相同結(jié)果.
圖7 不同融合方法的PR 曲線與MAE 柱狀圖Fig.7 Precision-Recall curves and MAE histogram of different fusion methods
為驗證本文提出的多目標顯著性檢測方法的性能,在兩個數(shù)據(jù)集上同10 種顯著性檢測算法進行對比,包括FT09[28],GC13[13],DSR13[29],GMR13[12],MC13[14],HS13[14],PISA13[30],HC15[10],SBG16[31],DRFI[16]和MDF15[18].除MDF 算法外,其他都是基于底層特征進行顯著性計算的,也是近幾年顯著性檢測算法中相對較好的一些經(jīng)典算法.而MDF 算法是最早的應(yīng)用深度卷積神經(jīng)網(wǎng)絡(luò)進行顯著性檢測的算法之一,且是目前為數(shù)不多的提供了源代碼的深度學(xué)習(xí)算法.
2.3.1 主觀評價
從主觀的視覺上,圖8~10 分別顯示了在兩個數(shù)據(jù)集上的視覺顯著圖.從左至右依次是:原始輸入圖像,對比算法DSR,FTvGCvGMR,HCvHSvMCvPISA,SBG,DRFI,MDF 的顯著圖,以及本文算法顯著圖和人工標注的真實圖.
圖8 顯示了本文算法與其他算法在數(shù)據(jù)集SED2 上的顯著圖對比情況.通過對比可以看出,本文算法對位于圖像邊緣的目標(如圖8 中的第2~4 行和9 行)的檢測效果明顯優(yōu)于對比算法.此外對于圖像中的小目標(如圖8 中第4~6 行)檢測效果也很優(yōu)異.
圖9 和圖10 是不同算法在復(fù)雜多目標數(shù)據(jù)集HKU-IS 上的顯著圖對比情況.與圖8 相比,圖9 中圖像的背景相對要復(fù)雜一些,而圖10 中的圖像都包含了3 個以上的顯著目標.通過與其他算法顯著圖的對比可以看出,本文算法和MDF 算法相比于其他算法在多目標的復(fù)雜圖像的顯著性檢測的效果更好,這充分特征了深度特征在圖像表達方面的優(yōu)勢.本文算法經(jīng)過加權(quán)MCA 融合后的顯著圖中,顯著目標區(qū)域內(nèi)顯著值的一致性要明顯著優(yōu)于其他方法.
2.3.2 定量比較
為了更加客觀地評價本文算法與其他算法,本文根據(jù)不同的評價標準,在兩個數(shù)據(jù)集上進行了對比實驗分析.
圖11 是根據(jù)準確率–召回率和準確率–召回率–F-measure 值評價標準,不同檢測算法在數(shù)據(jù)集SED2 上檢測結(jié)果的PR 曲線圖和F-measure 柱狀圖.通過圖11 對比分析可以看出本文算法在數(shù)據(jù)集SED2 上的PR 曲線與F-measure 柱狀圖上與MDF 算法相當,但明顯優(yōu)于其他對比算法.這與主觀視覺特征的評價相致,進一步體現(xiàn)了深度特征在圖像表達上的優(yōu)勢.
圖12 是不同檢測算法在數(shù)據(jù)集HKU-IS 上的PR 曲線圖和F-measure 柱狀圖,可以看出在復(fù)雜數(shù)據(jù)HKU-IS 上,本文算法與MDF 算法相比,隨著查全率的變化,查準率各有高低,但都能保持較高的水平.但在F-measure 值上,本文算法要比MDF算法高出7.18%.
相比于數(shù)據(jù)集SED2,數(shù)據(jù)集HKU-IS 的圖像中包含更多的顯著目標和相對復(fù)雜的背景信息.與除MDF 算法外的其他算法相比,無論是PR 曲線值,還是F-measure 值,本文算法都明顯高于其他對比算法,并且與在數(shù)據(jù)集SED2 的結(jié)果相比,優(yōu)勢更加明顯.這些充分體現(xiàn)了本文算法在圖像信息相對復(fù)雜的多目標顯著性檢測中的優(yōu)越性,如顯著性目標位于圖像邊緣、多個顯著性目標、顯著性目標包含多個對比度明顯的區(qū)域等情況.
圖8 不同算法在數(shù)據(jù)集SED2 上的視覺顯著圖Fig.8 Saliency maps of different algorithms on dataset SED2
圖9 不同算法在具有不同類別目標的數(shù)據(jù)集HKU-IS 上的視覺顯著圖Fig.9 Saliency maps of different algorithms on dataset HKU-IS with different classes of objects
圖12 是不同算法根據(jù)平均絕對誤差這一評價標準在兩個數(shù)集上的MAE 柱狀圖.同樣,本文算法的平均絕對誤差遠低于其他算法,在兩個數(shù)據(jù)集上降低到了10%以內(nèi),并且在數(shù)據(jù)集HKU-IS 更是降到了7.2%.
2.3.3 運行時間
不同算法在對圖像處理的速度上也存在明顯的差異,如表2 所示.在顯著性檢測的速度上,本文方法要比FT、GC 等算法要慢的多,這也是基于深度學(xué)習(xí)算法的不足之處.但與MDF 算法相比,處理效率上提高7 倍左右,這說明本文的目標先驗知識的應(yīng)用在提高速度上的有效性.
綜上所述可以看出,無論從視覺特征圖上進行主觀評價,還是基于三種評價標準上的客觀分析,本文算法與其他算法相比都具有十分明顯的優(yōu)勢.而MDF 算法與其他基于低層特征的算法相比優(yōu)勢同樣也較為明顯.這些都證明了本文算法的在顯著性檢測上的有效性,同時也表明基于深度學(xué)習(xí)的顯著性檢測算法在計算機視覺領(lǐng)域的巨大潛力.
圖10 不同算法在具有多個目標的數(shù)據(jù)集HKUIS 上的視覺顯著圖Fig.10 Saliency maps of different algorithms on dataset HKU-IS with different multiple objects
圖11 不同算法在數(shù)據(jù)集SED2 上的PR 曲線圖和F-measure 柱狀圖Fig.11 PR curves and F-measure histogram of different algorithms on dataset SED2
圖12 不同算法在數(shù)據(jù)集HKU-IS 上的PR 曲線圖和F-measure 柱狀圖Fig.12 PR curves and F-measure histogram of different algorithms on dataset HKU-IS
基于深度學(xué)習(xí)的顯著性檢測算法能夠克服傳統(tǒng)的基于底層特征的顯著性檢測算法在檢測效果上的不足,但運行速率與之相比又有明顯不足.本文提出一種多尺度分割和目標先驗的目標預(yù)提取方法,在此基礎(chǔ)上通過深度特征提取進行顯著值計算,使用加權(quán)元胞自動機對尺度顯著圖進行融合與優(yōu)化.本文方法雖然在多目標顯著性檢測的效果和速度上有所提升,但仍存在許多不足,主要工作將繼續(xù)完善深度神經(jīng)網(wǎng)絡(luò)的構(gòu)建和效率提升等問題.
圖13 不同算法在數(shù)據(jù)集SED2 和HKU-IS 上的MAE 柱狀圖Fig.13 The MAE histogram of different algorithms on dataset of SED2 and HKU-IS
表2 平均檢測時間對比表Table 2 Table of contrast result in running times