汪 萍
安徽新聞出版職業(yè)技術(shù)學(xué)院新聞傳播系,安徽合肥,230601
圖像語義分割關(guān)注如何從圖像中自動分割并識別出區(qū)域的內(nèi)容,其應(yīng)用領(lǐng)域廣泛,包括場景理解[1-2]、自動駕駛、機(jī)器人導(dǎo)航、圖片搜索[3]、增強(qiáng)現(xiàn)實(shí)[4]等。圖像語義分割的前身是基于聚類的圖像分割[5]。近年來,卷積神經(jīng)網(wǎng)絡(luò)[6]受到廣泛關(guān)注,現(xiàn)有研究多關(guān)注于卷積結(jié)構(gòu)設(shè)計(jì)、網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)和多尺度結(jié)構(gòu)設(shè)計(jì)[7-8]。然而,對于復(fù)雜邊界處的語義分割來說,現(xiàn)有模型無法修正特定尺度外觀特征估計(jì)下的有偏性。
現(xiàn)有模型主要缺陷在于沒有設(shè)計(jì)含有多尺度的空間場的決策方式,因此,本文提出一種多尺度條件隨機(jī)場的語義圖像分割深度卷積網(wǎng)絡(luò)(dCRF:deep Conditional Random Field),其中不同尺度的初始標(biāo)記通過深度卷積網(wǎng)絡(luò)獲得,并在多尺度表達(dá)的基礎(chǔ)上,使用網(wǎng)絡(luò)的跨層形式定義多尺度融合的條件隨機(jī)場,并重點(diǎn)研究復(fù)雜邊界處不同尺度下空間近鄰標(biāo)記的約束關(guān)系,設(shè)計(jì)同層標(biāo)記一致性和異層標(biāo)記一致性的測度,解決語義分割任務(wù)。
現(xiàn)有方法可分為隱式的多尺度模型和顯式的多尺度模型。隱式模型的研究重點(diǎn)圍繞常規(guī)卷積結(jié)構(gòu)、殘差結(jié)構(gòu)和空洞卷積結(jié)構(gòu)三個(gè)方面。常規(guī)卷積方面,Long等研究了端對端語義分割網(wǎng)絡(luò)中的反卷積和上采樣問題[9]。Fu 等研究反復(fù)堆疊反卷積網(wǎng)絡(luò)對分割中上下文信息的整合能力[10]。Chao等設(shè)計(jì)了全卷積網(wǎng)絡(luò)和邊界細(xì)化模塊[11]。Badrinarayanan等設(shè)計(jì)池化定位指針,并將其跨層連接到解碼器[12]。殘差模塊方面,Wu等分析深度網(wǎng)絡(luò)殘差結(jié)構(gòu)及其等價(jià)性[13]。Lin 等設(shè)計(jì)了一種鏈?zhǔn)綒埐畛鼗W(wǎng)絡(luò)[14]??斩淳矸e是一種非稠密卷積[15],它能夠在不損失圖像分辨率的情況下,擴(kuò)大卷積過程中的感受野。Sun 等提出一種混合語境模塊[16]。Wang 等研究密集上采樣對邊界信息的提取能力[1]。Chen等人使用多重空洞卷積獲得空間金字塔[7]??斩淳矸e仍然沒有直接討論多尺度標(biāo)記的一致性問題。
顯式模型可以分為多尺度模塊和條件隨機(jī)場模塊。在多尺度表達(dá)任務(wù)中,Zhao 等設(shè)計(jì)多尺度金字塔池化模塊[2]。Wang等設(shè)計(jì)了聯(lián)合行為語境的深度網(wǎng)絡(luò)模型[17]。Ghiasi 等使用Laplace金字塔構(gòu)建多尺度深度卷積神經(jīng)網(wǎng)絡(luò)[18]。條件隨機(jī)場(CRF:Conditional Random Field)方面,Chandra 等在深度卷積網(wǎng)絡(luò)基礎(chǔ)上構(gòu)建高斯CRF[19]。Shen等設(shè)計(jì)了一種基于深度網(wǎng)絡(luò)的引導(dǎo)CRF細(xì)化邊界分割結(jié)果[20]。Chen 等使用基于空洞卷積的上采樣過程[21]。除此以外,Li等人構(gòu)建多階段的級聯(lián)深度網(wǎng)絡(luò)[22]。Wu 等融合目標(biāo)檢測的定位信息[3]。Wang 等設(shè)計(jì)了一種包含行為預(yù)警的語義分割網(wǎng)絡(luò)[1]。針對現(xiàn)有研究可知,設(shè)計(jì)一種有效的多尺度表示和推理方法,是解決現(xiàn)有深度模型的關(guān)鍵問題。
本文提出的基于多尺度條件隨機(jī)場的dCRF模型是建立在空洞空間金字塔池化(ASSP:Atrous Spatial Pyramid Pooling)模型基礎(chǔ)的,新增了BlockCRF、Block7和Block6模塊(圖1)。
圖1 基于多尺度條件隨機(jī)場的深度卷積網(wǎng)絡(luò)
對于輸入RGB圖像x,預(yù)測的多尺度語義分割標(biāo)記Y={yk},其中k是多尺度的層數(shù),k=1,2,3,其中每層的語義分別標(biāo)記的取值范圍是c=1,2,…,21。在PASCAL VOC 2012 數(shù)據(jù)集中,需要預(yù)測的目標(biāo)有20類,加上背景類,所以圖1中每層的分割預(yù)測各有21個(gè)語義標(biāo)記響應(yīng)圖。本文提出的dCRF模型,采用CRF的能量函數(shù)形式EdCRF(x,Y,w),預(yù)測語義分割標(biāo)記Y*=argminYEdCRF(x,Y,w),其中CRF能量函數(shù)形式為:
(1)
其中,等號后第一項(xiàng)為dCRF的一元項(xiàng),使用深度卷積網(wǎng)絡(luò)獲得初始的多尺度標(biāo)記;第二項(xiàng)為異層二元項(xiàng),考慮不同層中鄰域j∈δ(i)標(biāo)記對最細(xì)粒度層s=3層的中心點(diǎn)i標(biāo)記的影響;第三項(xiàng)為同層二元項(xiàng),考慮同層鄰域j∈δ(i)標(biāo)記對中心點(diǎn)i標(biāo)記的運(yùn)行。在本文模型中,w是模型中的所有參數(shù),具體包括深度卷積網(wǎng)絡(luò)的參數(shù)wx,異層二元參數(shù)ws,同層二元參數(shù)wy。
2.2.1 dCRF一元項(xiàng)
(2)
本文dCRF模型使用Block1到Block4四個(gè)模塊,具體設(shè)置如圖2。dCRF模型在現(xiàn)有網(wǎng)絡(luò)上添加了新的跨層連接模塊Block6,其模塊設(shè)置如圖3,引入該模塊主要目的是(1)本文dCRF模型考慮直接使用淺層的129x129特征,補(bǔ)充復(fù)雜邊界處的定位信息;(2)由于Block6是淺層到深層的跨層連接,從而增加權(quán)重更新梯度,促進(jìn)網(wǎng)絡(luò)參數(shù)的更好優(yōu)化。
圖2 模型中的Block1到Block4的模塊設(shè)置
本文模型添加模塊Block7提取低分辨率的語義標(biāo)記,使用模塊Block8來提取中分辨率的語義標(biāo)記,Block7和Block8的模塊設(shè)置如圖3所示。
圖3 模型的Block6,Block7,Block8的模塊設(shè)置
本文dCRF模型與傳統(tǒng)模型不同之處在于,同時(shí)使用了低、中、高三個(gè)尺度下的語義標(biāo)記,較低尺度的語義標(biāo)記提供大區(qū)域目標(biāo)信息,避免對目標(biāo)表面內(nèi)容過于敏感,較高尺度的語義標(biāo)記提供復(fù)雜邊界信息,避免低分辨率語義中的邊界模糊效應(yīng)。
2.2.2 空洞空間金字塔池化結(jié)構(gòu)
圖4 模型的Block5空洞空間金字塔池化模塊設(shè)置
2.2.3 dCRF異層二元項(xiàng)
本文模型設(shè)計(jì)了一種dCRF異層二元項(xiàng),用于評價(jià)目標(biāo)多尺度外觀的一致性;同時(shí),設(shè)計(jì)了一種dCRF同層二元項(xiàng),分析目標(biāo)近鄰?fù)庥^的一致性。本文提出的dCRF異層二元項(xiàng),實(shí)現(xiàn)方式為:
(3)
2.2.4 dCRF同層二元項(xiàng)
與異層標(biāo)記修正不同,CRF同層二元項(xiàng)關(guān)注于周圍近鄰的標(biāo)記。此時(shí),本文模型不僅考慮高分辨率中的同層標(biāo)記,也同時(shí)考慮中分辨率和低分辨率的標(biāo)記一致性,具體的實(shí)現(xiàn)方式為:
(4)
2.2.5 dCRF深度卷積網(wǎng)絡(luò)訓(xùn)練
(5)
(6)
本模型使用Caffe深度學(xué)習(xí)開源平臺訓(xùn)練網(wǎng)絡(luò)[23]。模型的參數(shù)初始化采用He-Uniformed形式,參數(shù)優(yōu)化過程使用隨機(jī)梯度下降。訓(xùn)練過程的批處理大小為16。采用模擬退火策略進(jìn)行參數(shù)更新,參數(shù)的初始學(xué)習(xí)率為0.01,每迭代5次學(xué)習(xí)率下降20%。采用權(quán)重衰減策略進(jìn)行模型正則化,權(quán)重衰減系數(shù)為10-4。模型訓(xùn)練完成后,對測試圖像使用訓(xùn)練好的dCRF模型參數(shù)w*,可以獲得語義分割標(biāo)記Y*=argminYEdCRF(x,Y,w*)。
本模型使用PASCAL VOC 2012 語義分割圖像庫。對比方法包括:(1)常規(guī)卷積結(jié)構(gòu)方面:Fu 方法[10],Chao等方法[11]。(2)殘差模塊方面:Wu等方法[13],Lin等方法[14]。(3)空洞卷積模塊方面:Chen等方法[7],Sun等方法[16],Wang等方法[1]。(4)多尺度模塊方面:Zhao等方法[2],Ghiasi等方法[18]。(5)CRF模塊方面:Chandra等方法[19],Shen等方法[20],Chen等方法[21]。(6)多任務(wù)聯(lián)合方面:Li等方法[22],Wu等方法[3],Wang等方法[17]。本文采用平均交并比(mIOU:mean Intersection over Union)作為語義分割的評價(jià)指標(biāo)。
本文模型的主要貢獻(xiàn)為圖1中的BlockCRF模塊。實(shí)驗(yàn)中進(jìn)一步討論三種消融模型,(1)鄰域?yàn)?×3情況下的,只保留第3層尺度下的同層二元項(xiàng)(Y)的模型dCRF-N3Y。(2)鄰域?yàn)?×3情況下的,只保留全部3層尺度下的異層二元項(xiàng)(S)的模型dCRF-N3S。(3)鄰域?yàn)?×3情況下的,包括全部3層尺度下的同層二元項(xiàng)(Y)和異層二元項(xiàng)(S)的模型dCRF-N3YS。表1中給出了PASCAL VOC 2012中消融分析的結(jié)果,其中background表示背景類,mean表示21類別的平均mIOU數(shù)值。圖5給出了消融模型的語義分割實(shí)例。
從表1中可以看出,(1)dCRF-N3YS 同時(shí)使用同層約束和異層約束,相對于Chen等2017設(shè)計(jì)的DeepLabv3模型提高0.9。(2)dCRF-N3YS 因?yàn)樘砑恿送瑢蛹s束,通過考慮第3尺度下的同層近鄰像素的標(biāo)記,可以有效改善語義分割預(yù)測結(jié)果。(3)dCRF-N3YS 相對于 dCRF-N3Y 模型mIOU提高了0.4,說明異層約束相對于同層約束更重要。
表1 dCRF模型消融分析
實(shí)驗(yàn)進(jìn)一步分析,鄰域?yàn)?×3情況下的模型dCRF-N3YS,以及鄰域?yàn)?×5情況下的模型dCRF-N5YS。通過表1的對比分析可以發(fā)現(xiàn),(1)BlockCRF設(shè)計(jì)的有效性,(2)對于復(fù)雜邊界最有效的輔助信息是空間最近鄰標(biāo)記,而當(dāng)空間范圍擴(kuò)大時(shí)效果降低。
表2中展示了現(xiàn)有的主流語義分割方法的定量結(jié)果,本文dCRF模型取得優(yōu)勢的主要原因在于:(1)Block5-2 多重空洞卷積模塊可有效完成不同尺度目標(biāo)的語義標(biāo)記預(yù)測。(2)本文模型中不同尺度的標(biāo)記融合是改善語義分割的主要途徑。(3)本文模型設(shè)計(jì)了基于CRF的多尺度標(biāo)記融合方法,采用同層二元約束和異層二元約束進(jìn)行空間近鄰標(biāo)記沖突時(shí)的決策。(4)本文dCRF相對于Wang 等人方法的優(yōu)勢在于:首先沒有對數(shù)據(jù)集進(jìn)行擴(kuò)充,其次沒有使用額外的行為檢測標(biāo)記,本文模型的訓(xùn)練集需要的標(biāo)記更少。(5)本文模型在第一階段固定BlockCRF參數(shù)來初始訓(xùn)練,使模型盡快收斂,在第二階段使用初始參數(shù),同時(shí),聯(lián)合深度網(wǎng)絡(luò)參數(shù)和BlockCRF參數(shù)進(jìn)行優(yōu)化,從而同時(shí)滿足了訓(xùn)練的速度和精度要求。
表2 dCRF模型與現(xiàn)有方法的定量對比
圖5進(jìn)一步給出了語義分割的實(shí)例結(jié)果,包括單類單目標(biāo)(第1行),單類多目標(biāo)(第2行)和多類多目標(biāo)(第3行)的情況,來分析本文dCRF方法處理的有效性。圖5中圖像下方給出了對應(yīng)語義分割的IOU數(shù)值。圖5中的難點(diǎn)可以分為細(xì)微邊界、背景混雜和背景過度填充三種情況。通過實(shí)例可以看出本文方法有效降低了錯(cuò)誤分割的情況。
圖5 dCRF模型的語義分割實(shí)例
針對現(xiàn)有模型在處理復(fù)雜邊界時(shí),無法有效解決多尺度語義標(biāo)記的聯(lián)合決策問題,本文提出一種多尺度條件隨機(jī)場的深度卷積網(wǎng)絡(luò)。通過實(shí)驗(yàn)分析可以證明:(1)dCRF模型采用異層二元約束描述多尺度標(biāo)記的聯(lián)合決策,可以提高對不同尺寸目標(biāo)處理的魯棒性。(2)dCRF模型聯(lián)合使用同層二元約束和異層二元約束,實(shí)現(xiàn)不同感受野下的空間近鄰標(biāo)記聯(lián)合決策,體現(xiàn)出對于細(xì)節(jié)邊緣高分辨率標(biāo)記的重要性。(3)dCRF模型采用兩階段的參數(shù)學(xué)習(xí)過程,兼顧了模型訓(xùn)練的收斂速度和精度的要求。