馬杉杉,彭來獻
(中國人民解放軍陸軍工程大學,江蘇 南京 210007)
圖像顯著性研究的主要任務(wù)是讓計算機視覺系統(tǒng)能夠模擬人類的視覺能力檢測并分割出一幅圖像中最吸引人注意力的目標,被廣泛應(yīng)用于各種計算機視覺任務(wù)。顯著性目標檢測算法分為傳統(tǒng)的顯著性檢測算法和基于深度學習的顯著性檢測算法兩類。前者依賴于手工制作的基于顏色、強度、形狀以及紋理等圖像的基本特征描述顯著性,忽視了豐富的上下文語義信息。當背景相似或圖像結(jié)構(gòu)較為復雜時,算法的準確度往往不盡人意。
目前,基于深度學習的方法被廣泛用于圖像顯著性目標檢測。Lee[1]等人提出了一個由兩個子網(wǎng)絡(luò)組成的顯著性檢測網(wǎng)絡(luò)模型,同時獲取全局和局部信息。全卷積網(wǎng)絡(luò)FCN[2]的出現(xiàn),使得顯著性檢測看作是圖像語義分割任務(wù)。Liu 在FCN 基礎(chǔ)上提出了DHSnet 網(wǎng)絡(luò)[3],通過反卷積算法恢復縮小后的顯著圖的細節(jié)信息。Wang 和Borji 等[4]提出具有兩階段的循環(huán)網(wǎng)絡(luò)結(jié)構(gòu),先提取圖像粗糙的顯著圖,再使用金字塔池化結(jié)構(gòu)生成較為清晰的顯著圖。這些模型中存在大量的卷積和池化操作,導致生成顯著圖時丟失了很多細節(jié)。所以,目前大多數(shù)的顯著性分割模型能夠大致定位到顯著物體的位置,但是邊界比較模糊。
本文通過深度學習算法提取圖像中的顯著性目標區(qū)域,并利用基于GMM 模型的顏色特征提取目標空間信息,最后通過一個優(yōu)化模型融合空間信息和語義信息得到最終的顯著性目標圖。實驗結(jié)果表明,在復雜環(huán)境下本算法具有較高檢測準確度,證明了算法的有效性和魯棒性。
傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)提取的抽象特征對圖像中目標粗略位置的定位很有效,但很難做到像素級的分割,不能準確劃定目標具體的輪廓。全卷積網(wǎng)絡(luò)FCN 通過對圖像進行像素到像素的分類檢測,突破了傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)在像素級分割的局限性。具體做法是去掉用于分類的全連接層和softmax 層,把最后卷積得到的特征圖利用反卷積算法進行上采樣操作,使輸出圖像和輸入圖像具有相同的分辨率,然后在相同分辨率的特征圖上計算每個像素分類的損失,達到對每個像素都能進行分類預測的目的,解決了圖像分割中目標邊界位置不清晰的問題。FCN 主要由卷積層、池化層和上采樣層3 部分組成。
本文借鑒FCN 思想,采用VGG[5]深度神經(jīng)網(wǎng)絡(luò)模型用于目標檢測,借鑒Long 的方法,保留該網(wǎng)絡(luò)的前7 層結(jié)構(gòu),只在最后兩層加入反卷積算法,通過上采用恢復特征圖的分辨率。這樣可利用輸入圖像和人工標準的顯著圖像素之間一一對應(yīng)的關(guān)系進行網(wǎng)絡(luò)訓練,利用深層神經(jīng)網(wǎng)絡(luò)提取的顯著性目標特征進行目標檢測和分割。
本文網(wǎng)絡(luò)結(jié)構(gòu)如圖1 虛線框所示,把深度神經(jīng)網(wǎng)絡(luò)的全連接層改為卷積層,把用于分類的softmax層改為反卷積層。
圖1 基于VGG 的全卷積網(wǎng)絡(luò)結(jié)構(gòu)
本算法模型主要包括卷積、反卷積、池化和非線性激活等操作。其中,卷積運算用于特征提??;反卷積運算可以看成是上采樣操作,本文采用雙線性插值上采樣;池化運算是取每個圖像塊中的最大值作為圖像塊的特征值,減少網(wǎng)絡(luò)參數(shù);非線性激活部分采用ReLU 函數(shù),可以有效解決神經(jīng)網(wǎng)絡(luò)參數(shù)訓練中的梯度消失問題。
由于最后得出的特征圖像和輸入圖像具有相同的分辨率,因此可以利用已有的人工標注數(shù)據(jù)集訓練深度神經(jīng)網(wǎng)絡(luò),利用隨機梯度下降算法求解交叉熵損失函數(shù)的最小值,得到網(wǎng)絡(luò)中各個卷積核的權(quán)重參數(shù)。根據(jù)實驗經(jīng)驗,各種超參數(shù)設(shè)置如下:學習率為0.002,權(quán)重衰減系數(shù)為0.004,每組訓練樣本數(shù)為64。
網(wǎng)絡(luò)參數(shù)的初始化對于網(wǎng)絡(luò)訓練的最終效果有很大影響。為了充分利用全卷積目標分割網(wǎng)絡(luò)中已有的信息,本文網(wǎng)絡(luò)中前7 階段的參數(shù)用VGG 模型已經(jīng)訓練好的相應(yīng)參數(shù)進行初始化,其他層用高斯分布的隨機數(shù)進行初始化。
為了進一步解決顯著性目標區(qū)域邊界不準確、區(qū)域不完整的缺陷,引入空間信息進行優(yōu)化。通常情況下,圖像中前景和背景顏色不一致,且背景分布面積更大?;谶@一知識將顏色分布特征定義為RGB 三通道的顏色方差之和,即利用顏色分布計算各個顏色所占的比重來檢測顯著性目標。本文采用高斯混合模型(Gaussian Mixture Model,GMM)建立圖像中顏色信息模型,然后用條件概率計算出每個像素所包含的顏色所占比重如下:
每一個顏色成分c空間位置的水平方差Vh(c)計算如下:
式中,xh是x像素的橫坐標,且|X|C=∑xp(c|Ix)。顏色的垂直方差計算和水平方差類似。最后,第c個顏色空間方差為顏色成分的水平方差和垂直方差之和。圖像中的所有顏色利用高斯混合模型計算出每一個像素的顏色所占的不同比重,顏色所占比重越小,說明其越有可能屬于顯著性區(qū)域的顏色。
為獲得更準確的顯著性區(qū)域圖,將兩種顯著性信息進行融合,提出了一個新的無約束優(yōu)化模型,有效融合之前獲得的語義顯著性信息和基于顏色的空間一致信息。將兩種顯著性信息融合建模為一個目標函數(shù)最小化問題,目標函數(shù)的定義為:
式中,表示圖像中包含的像素個數(shù),S*為優(yōu)化模型為每個像素分配的顯著性值。第一項包含空間信息,i、j為在空間上相鄰的兩個像素,ωij表示像素i、j的顏色相似性,利用相鄰像素顏色值的顏色空間方差表示。空間一致約束項促使顏色相似的相鄰像素獲得相近的顯著度值。第二項包含語義顯著性信息,像素i的語義顯著性值由像素的語義信息值表示。Ti表示選擇像素的指示值,其值根據(jù)像素顯著性值和預設(shè)的閾值之間的大小關(guān)系而定,值為1 或者0。該閾值是一個超參數(shù),用經(jīng)驗值0.8代替。
為驗證算法的有效性,實驗選擇了在4 個常用的顯著性檢測基準數(shù)據(jù)集ECSSD(1 000 張圖像)、HKU-IS(4 447 張圖像)、PASCAL-S(850 張圖像)、DUT-TE(5 019 張圖像)上做對比實驗。目前,常見的評測指標為Max-F 和MAE。其中,max-F 通過設(shè)定準確率和召回率之間的比例可以進行綜合計算評測,而MAE 為平均絕對誤差,可以進行更加全面的比較。
表1 列出了本文顯著性模型和6 種行業(yè)領(lǐng)先水平的方法在4個公開數(shù)據(jù)集上評測指標的對比結(jié)果,包括DHSNet、MSRNet、NLDF、RFCN 和UCF 這5種基于深度學習的檢測算法和DRFI 這1 種傳統(tǒng)檢測算法。為了保持客觀,其他算法的實驗結(jié)果由作者提供的代碼計算獲得。
從仿真結(jié)果可見,基于深度學習的方法普遍優(yōu)于傳統(tǒng)顯著性物體檢測方法,而本文算法的Max-F指標和MAE 指標除了背景環(huán)境復雜且具有多目標特征的PASCAL-S 數(shù)據(jù)集外,在其他數(shù)據(jù)集測試中都位于前列。實驗結(jié)果充分說明,在公開的數(shù)據(jù)集上,本算法具有較高檢測準確度,證明了算法的有效性和魯棒性。
表1 本文算法和其他6 種算法在4 種數(shù)據(jù)集評測指標對比結(jié)果
本文提出的顯著性目標檢測算法通過改進深度神經(jīng)網(wǎng)絡(luò)VGG,建立了像素到像素級的顯著性目標檢測模型,可準確標注出圖像中的顯著性目標位置,并利用基于GMM 的顏色模型提取目標空間信息,最后通過一個優(yōu)化模型融合空間顏色信息和深度學習顯著性信息得到最終的顯著性目標圖。在公開數(shù)據(jù)集上和其他算法的對比的實驗結(jié)果表明,本文算法能夠?qū)崿F(xiàn)準確度較高的顯著目標檢測結(jié)果,體現(xiàn)了算法的優(yōu)越性。