李麗瑤 張榮國 胡 靜 劉小君 李曉明
(1.太原科技大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 太原 030024)(2.合肥工業(yè)大學(xué)機(jī)械工程學(xué)院 合肥 230009)
圖像語義分割,其任務(wù)是將圖像分割成多個(gè)具有語義信息的塊,并同時(shí)識(shí)別出其類別[1]。隨著近年來卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展,圖像語義分割也進(jìn)入了新的發(fā)展方向。在現(xiàn)有大多方法中,卷積神經(jīng)網(wǎng)絡(luò)(CNN)在利用RGB圖像進(jìn)行語義分割方面表現(xiàn)出很大的優(yōu)勢(shì)。一種稱為全卷積神經(jīng)網(wǎng)絡(luò)(FCN)的典型CNN模型在過去幾年語義分割研究中取得了卓越的性能。如文獻(xiàn)[2]應(yīng)用的編碼器-解碼器類型的FCN通過融合不同的卷積層表示,極大提高了分割預(yù)測(cè)的準(zhǔn)確性。文獻(xiàn)[3~4]使用了一個(gè)擴(kuò)展的卷積算子來代替編碼器-解碼器體系結(jié)構(gòu)使其在不損失分辨率的情況下擴(kuò)展感受野并在多個(gè)分割任務(wù)上產(chǎn)生更好的性能。但大多數(shù)FCN及其衍生模型[5-7]是將深度圖像視為一個(gè)額外的輸入,使用兩個(gè)CNN網(wǎng)絡(luò)分別處理RGB圖像和深度圖像,分割效果有所改善但卻增加了參數(shù)量且還無法將兩幅圖像直接的幾何相關(guān)性關(guān)聯(lián)起來并借助CNN模型訓(xùn)練。其次,由卷積神經(jīng)網(wǎng)絡(luò)直接分割出的物體邊界大多粗糙,為了解決這個(gè)問題,研究人員開始將基于RGB模型的稠密條件隨機(jī)場(chǎng)(CRF)與CNN結(jié)合起來,并在幾個(gè)語義分割基準(zhǔn)上獲得了改進(jìn)[8~9]。但室內(nèi)真實(shí)場(chǎng)景復(fù)雜,其很難在光線較暗或較強(qiáng)的場(chǎng)景中應(yīng)用這些方法。而Kinect深度相機(jī)的出現(xiàn)解決了這個(gè)問題。Kinect相機(jī)獲取的RGBD圖像既包含了被拍攝物體的RGB圖像,也包含了深度信息[10]。最近,一些RGBD圖像數(shù)據(jù)集已經(jīng)公開發(fā)布[11~12]。由于深度信息包括對(duì)象的3D位置和結(jié)構(gòu),因此將深度通道用作RGB通道的補(bǔ)充信息可能會(huì)增加語義分割的準(zhǔn)確性。綜合以上,本文提出了一種具有深度敏感的卷積神經(jīng)網(wǎng)絡(luò)與條件隨機(jī)場(chǎng)結(jié)合的新型模型。將具有深度信息的條件隨機(jī)場(chǎng)模型合并到同樣具有深度信息的神經(jīng)網(wǎng)絡(luò)中以提高分割準(zhǔn)確性。本文貢獻(xiàn)如下:
1)用深度感知卷積和深度感知平均池化替代原來傳統(tǒng)的卷積和池化部分,以此將深度圖中的深度信息無縫整合進(jìn)CNN;
2)提出了一種新穎的包含深度信息的模型,該模型將RGB-D神經(jīng)網(wǎng)絡(luò)與深度敏感的全連接條件隨機(jī)場(chǎng)相結(jié)合以提高分割精度;
3)在NYUv2數(shù)據(jù)集上進(jìn)行對(duì)比實(shí)驗(yàn),驗(yàn)證了所提出的模型在室內(nèi)圖像語義分割上的有效性。
卷積神經(jīng)網(wǎng)絡(luò)(CNN)自2012年以來,在圖像分類和圖像檢測(cè)等方面取得了巨大的成就,應(yīng)用廣泛。CNN的優(yōu)點(diǎn)在于它的多層結(jié)構(gòu)能自動(dòng)學(xué)習(xí)多個(gè)層次的特征:較淺的卷積層感受野較小,可以學(xué)習(xí)到一些局部區(qū)域的特征;較深的卷積層具有較大的感受野,能夠?qū)W習(xí)到更加抽象的特征。這些抽象特征對(duì)物體的大小、位置和方向等敏感性較高,從而有助于識(shí)別性能的提高。隨著深度相機(jī)的出現(xiàn),將具有幾何特征的深度信息信息整合到CNN中既重要又具有挑戰(zhàn)性。
條件隨機(jī)場(chǎng)模型最初是由Lafferty[13]在2001年提出的一種典型的判別式模型。它在觀測(cè)序列的基礎(chǔ)上對(duì)目標(biāo)序列進(jìn)行建模,重點(diǎn)解決序列化標(biāo)注的問題條件隨機(jī)場(chǎng)模型既具有判別式模型的優(yōu)點(diǎn),又具有產(chǎn)生式模型考慮到上下文標(biāo)記間的轉(zhuǎn)移概率,以序列化形式進(jìn)行全局參數(shù)優(yōu)化和解碼的特點(diǎn),解決了其他判別式模型(如最大熵馬爾科夫模型)[14]難以避免的標(biāo)記偏置問題,評(píng)估目標(biāo)都是要得到最終的類別標(biāo)簽Y,即Y=argmax p(y|x)。判別式模型直接通過解在滿足訓(xùn)練樣本分布下的最優(yōu)化問題得到模型參數(shù),主要用到拉格朗日乘算法、梯度下降法等。
近年來很多語義分割的工作都建立在條件隨機(jī)場(chǎng)上。Shotton等[15]提出的TextonBoost方法,在條件隨機(jī)場(chǎng)中利用了目標(biāo)類別的外觀、形狀、上下文等多種信息,可以用來完成目標(biāo)識(shí)別和目標(biāo)分類雙重任務(wù)。Philipp等[16]提出了一種全連接CRF模型的近似判別算法,在這一模型中二元的邊緣勢(shì)函數(shù)被定義為兩個(gè)高斯核的線性組合。算法是基于平均場(chǎng)近似的CRF分布。近些年隨著深度學(xué)習(xí)方法的發(fā)展,越來越多的研究工作采用基于神經(jīng)網(wǎng)絡(luò)的方法解決圖像語義分割問題或圖像目標(biāo)分析問題。后續(xù)研究[3]也證明,可以通過具有RGB信息的條件隨機(jī)場(chǎng)來解決FCN輸出中邊界精度差的問題。
受上述工作啟發(fā),本文在這些研究基礎(chǔ)上,將深度圖像中的深度信息用深度感知卷積和深度感知平均池化整合進(jìn)傳統(tǒng)CNN的卷積和池化中去,在得到隨機(jī)場(chǎng)的一元?jiǎng)菽芎?,將其作為輸入把深度信息與全連接條件隨機(jī)場(chǎng)相結(jié)合進(jìn)行神經(jīng)網(wǎng)絡(luò)分割后的后續(xù)細(xì)化,最終得到室內(nèi)圖像語義分割結(jié)果,具體內(nèi)容如下。
此段我們將具有深度感知的CNN進(jìn)行初始語義分割。給定RGB圖像和深度圖像,得到每個(gè)像素的標(biāo)簽。我們使用經(jīng)過修改的VGG-16網(wǎng)絡(luò)[17]作為基準(zhǔn)編碼器,將深度感知卷積和平均池去替換標(biāo)準(zhǔn)CNN中的對(duì)應(yīng)卷積網(wǎng)絡(luò)中的層,最終生成分割概率圖。具體操作如下。
首先輸入特征圖x∈Rci×h×w以及深度圖像D∈Rh×w,其中ci是輸入特征通道的數(shù)量,h是高度,w是寬度。輸出特征圖表示為y∈Rco×h×w,其中co是輸出特征通道的數(shù)量。
接下來進(jìn)行深度感知卷積。對(duì)于在y上的某個(gè)像素位置Po,標(biāo)準(zhǔn)2D卷積的輸出:
其中R是x內(nèi)在位置Po處的局部網(wǎng)格(local grid),W是卷積核。
為了描述深度信息,增加了兩類權(quán)重:
可學(xué)習(xí)的卷積核m和兩個(gè)像素之間的深度相似度FD:
其中?是一個(gè)常數(shù),本文中設(shè)為8.3,F(xiàn)D不需要反向傳播梯度,所以上式中不會(huì)引入額外的參數(shù)。
然后進(jìn)行深度感知平均池化。計(jì)算的是X在網(wǎng)格R中的均值,定義如下式:
平均池化是將全局像素等同分析處理,因此會(huì)在一定程度上導(dǎo)致目標(biāo)邊緣的模糊。而深度圖像中的幾何信息信息就可以用來解決這個(gè)問題,所以這里也利用深度信息FD,迫使在圖像中幾何信息關(guān)系更緊密的點(diǎn)對(duì)輸出的貢獻(xiàn)更大。對(duì)于每個(gè)在位置p0的像素點(diǎn),操作定義如下:
傳統(tǒng)CNN中,感受野和采樣區(qū)域在feature map上是固定的;而在RGBDCNN中,我們可以通過深度感知卷積和深度感知池化層去影響感受野和采樣動(dòng)作。
用替換過層的VGG-16作為編碼器生成分割概率圖作為條件隨機(jī)場(chǎng)的一元?jiǎng)菽艿妮斎搿?/p>
接下來,本文將不敏感于室內(nèi)光照或遮擋影響的幾何深度引入像素級(jí)全連接條件隨機(jī)場(chǎng)模型來細(xì)化邊緣分割,我們使用的全連接CRF模型的形式如下:
在上述深度敏感的全連接CRF中,每個(gè)像素都被視為一個(gè)CRF節(jié)點(diǎn),能量函數(shù)由一元?jiǎng)菽芎统蓪?duì)勢(shì)能(也稱為一階和二階因子)組成。其中y=[y1,y2,…,yi,…,yn]T,其中i∈[1,n],上標(biāo)T表示矩陣或向量的轉(zhuǎn)置。yi元素是第i個(gè)像素分配的標(biāo)簽。一元電勢(shì)φi(yi)=-log P(yi)是從CNN的最后一層計(jì)算得出的,其中P(yi)是在像素i的概率圖上應(yīng)用softmax的結(jié)果。φij(yi,yj)則是在圖像I中所有像素對(duì)上具有高斯核的成對(duì)勢(shì)函數(shù)。
其中μ是標(biāo)簽兼容性函數(shù)。在我們的條件隨機(jī)場(chǎng)模型中用簡單的Potts模型提供μ(xi,xj)[xi≠xj]。描述被分配到不同標(biāo)簽的相近相似像素的懲罰fi和fj是第i和第j位置像素的特征向量。θs(fi,fj)是平滑度內(nèi)核,即
其中pi和pj表示第i個(gè)像素和第j個(gè)像素的位置。參數(shù)σ控制兩個(gè)像素的接近度度。平滑度內(nèi)核用于消除小的孤立區(qū)域。θ?(fi,fj)是外觀內(nèi)核。在本文中,我們運(yùn)用了一種新的外觀內(nèi)核,即
其中pi的定義與之前相同,Ii是第i個(gè)像素的顏色矢量,di是第i個(gè)像素的深度矢量。σ?,θβ和σν控制兩個(gè)像素之間的接近度和相似度。通過此定義,位置接近,顏色相似和深度相似的像素將被強(qiáng)制作為同一標(biāo)簽。位置、顏色和深度特征在上述等式中組合為一個(gè)高斯核。
與RGB對(duì)應(yīng)的標(biāo)準(zhǔn)偏差相同。這允許深度圖像和RGB圖像在CRF模型中具有兼容的值范圍。
我們使用PyTorch深度學(xué)習(xí)框架,深度感知卷積和深度感知平均池運(yùn)算符均通過CUDA加速實(shí)現(xiàn),在條件隨機(jī)場(chǎng)上的有效推斷則利用平均場(chǎng)近似來進(jìn)行高維濾波減少消息傳遞的復(fù)雜性。
采用NYUv2[10]室內(nèi)場(chǎng)景數(shù)據(jù)集,此數(shù)據(jù)集包含1449組RGBD圖像對(duì),其中795組用來訓(xùn)練,654組用來測(cè)試,分為十三個(gè)類別標(biāo)簽(bed,books,ceiling,chair,floor,furniture,objects,picture,safa,table,tv,wall,window)。
我們使用的評(píng)估指標(biāo)有三個(gè),即像素精度、平均準(zhǔn)確度和交叉相交(IoU)分?jǐn)?shù)。Cij表示被預(yù)測(cè)為類別j但實(shí)際上屬于類別i的像素?cái)?shù)。Cii表示正確預(yù)測(cè)類別i的像素?cái)?shù)。Ti表示在地面真實(shí)情況下屬于類別i的像素的總數(shù)。K表示數(shù)據(jù)集中的類別總數(shù)。
PA:像素精度
MPA:不同類別的平均像素精度
IoU:模型產(chǎn)生的目標(biāo)窗口與原來標(biāo)記窗口的交疊率(交并比)
為了對(duì)分割效果有個(gè)直觀的了解,我們從NYUv2數(shù)據(jù)集中選取了部分圖片,用所提方法進(jìn)行了圖像語義分割實(shí)驗(yàn),并對(duì)條件隨機(jī)場(chǎng)與深度信息的添加與否分別進(jìn)行了實(shí)驗(yàn),以此形成對(duì)比,結(jié)果如圖1所示。實(shí)驗(yàn)表明條件隨機(jī)場(chǎng)有細(xì)化分割的能力,而深度信息的加入則在一定程度上改善了由光照陰影造成的語義分割誤差。
圖1 本文方法圖像分割結(jié)果圖
為了說明所提方法的有效性,本文選取了五種現(xiàn)有算法,用前面所述的三種評(píng)估指標(biāo),在NYUv2數(shù)據(jù)集上的654組RGBD圖像作進(jìn)一步的實(shí)驗(yàn),結(jié)果列于表1中。
表1實(shí)驗(yàn)數(shù)據(jù)表明本文實(shí)驗(yàn)在總體數(shù)據(jù)上都略微優(yōu)于所對(duì)比實(shí)驗(yàn)分割結(jié)果,但在單個(gè)像素準(zhǔn)確率上低于文獻(xiàn)[5]所提方法。
表1 使用NYUv2數(shù)據(jù)集六種算法實(shí)驗(yàn)對(duì)比結(jié)果
為了進(jìn)一步驗(yàn)證本文方法在具體室內(nèi)場(chǎng)景圖像語義分割的效果和文獻(xiàn)[5]所提方法分割效果的差別,對(duì)NYUv2數(shù)據(jù)集上十三個(gè)類別的圖像分別進(jìn)行了IoU評(píng)估,詳細(xì)內(nèi)容如表2所示。
表2 十三個(gè)類別兩種方法IoU對(duì)比結(jié)果
從表2中可以看到,本文方法在大多數(shù)類的分割結(jié)果上略微優(yōu)于文獻(xiàn)[5]的方法。
本文針對(duì)室內(nèi)場(chǎng)景分割中對(duì)光照敏感的問題提出了一種融合深度信息的室內(nèi)場(chǎng)景圖像語義分割方法,首先將深度信息先引入卷積神經(jīng)網(wǎng)絡(luò)中,后續(xù)再通過融合深度信息的稠密條件隨機(jī)場(chǎng)繼續(xù)進(jìn)行細(xì)化分割,通過實(shí)驗(yàn)對(duì)比可證明本文方法可有效提高分割精度且優(yōu)于其他方法。