賈穎霞 郎叢妍 馮松鶴
(北京交通大學(xué)計(jì)算機(jī)與信息技術(shù)學(xué)院 北京 100044)
圖像語(yǔ)義分割作為計(jì)算機(jī)視覺(jué)領(lǐng)域的一個(gè)重要研究問(wèn)題,旨在對(duì)輸入圖像的每一個(gè)像素根據(jù)其所屬的類別進(jìn)行分類,最終整合得到包含語(yǔ)義信息的分割輸出結(jié)果,其分割結(jié)果的準(zhǔn)確度對(duì)后續(xù)的場(chǎng)景理解、目標(biāo)追蹤以及圖文轉(zhuǎn)換等課題起著直接且至關(guān)重要的作用.近年來(lái),由于深度學(xué)習(xí)的發(fā)展以及全卷積神經(jīng)網(wǎng)絡(luò)(fully convolutional network, FCN)[1]的出現(xiàn),語(yǔ)義分割得以快速發(fā)展.
然而,現(xiàn)有的語(yǔ)義分割算法[1-4]存在著許多不足,特別是對(duì)精準(zhǔn)標(biāo)注過(guò)分依賴.由于對(duì)數(shù)據(jù)進(jìn)行人工標(biāo)注將會(huì)耗費(fèi)大量的時(shí)間和精力,因此實(shí)際應(yīng)用中收集到的圖像大多沒(méi)有精準(zhǔn)的數(shù)據(jù)標(biāo)注.對(duì)精準(zhǔn)標(biāo)注的過(guò)分依賴導(dǎo)致現(xiàn)有的語(yǔ)義分割方法難以直接應(yīng)用于非精準(zhǔn)甚至無(wú)標(biāo)注數(shù)據(jù)集中.
為解決這一問(wèn)題,近年來(lái)提出領(lǐng)域自適應(yīng)方法,用于縮小所含類別相似、數(shù)據(jù)分布相近的有標(biāo)注源域數(shù)據(jù)集和無(wú)標(biāo)注目標(biāo)域數(shù)據(jù)集之間的語(yǔ)義鴻溝.擁有一定量的有標(biāo)注數(shù)據(jù),通過(guò)訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型,便可對(duì)其進(jìn)行特征提取與語(yǔ)義分割.利用生成-對(duì)抗學(xué)習(xí)[5]的思想,對(duì)這個(gè)網(wǎng)絡(luò)經(jīng)過(guò)調(diào)整、優(yōu)化,即可將其有效應(yīng)用在其他跨域的無(wú)標(biāo)注數(shù)據(jù)集中.而與常見(jiàn)的利用生成對(duì)抗網(wǎng)絡(luò)(generative adversarial network, GAN)[5]進(jìn)行圖像分類或圖像增強(qiáng)的方法不同,語(yǔ)義分割方法所需的特征需要同時(shí)包含圖像整體的空間布局信息和局部語(yǔ)義類別的上下文信息,實(shí)現(xiàn)難度大.
現(xiàn)有的領(lǐng)域自適應(yīng)語(yǔ)義分割方法大多存在2個(gè)問(wèn)題:
1) 絕大多數(shù)算法直接將領(lǐng)域自適應(yīng)方法應(yīng)用在原圖上,分別利用來(lái)自源域和目標(biāo)域的原圖進(jìn)行對(duì)抗學(xué)習(xí),進(jìn)而實(shí)現(xiàn)語(yǔ)義分割,而實(shí)驗(yàn)結(jié)果表明,這一做法存在2個(gè)不足:①若直接對(duì)原圖進(jìn)行識(shí)別及語(yǔ)義分割、對(duì)抗判別等操作,容易出現(xiàn)分割不準(zhǔn)或過(guò)度分類等問(wèn)題,如圖1左側(cè)展示的場(chǎng)景是陰天1輛轎車停在紐約街頭馬路,圖1右側(cè)展示的場(chǎng)景是晴天1輛跑車停在倫敦鄉(xiāng)鎮(zhèn)的柵欄外,2張?jiān)瓐D間場(chǎng)景存在較大差異,而在語(yǔ)義分割方法中,兩者所包含的語(yǔ)義信息及語(yǔ)義類別卻較為相近.②現(xiàn)有的領(lǐng)域自適應(yīng)方法所采用的對(duì)抗判別基準(zhǔn)多為直接使用GAN[5]網(wǎng)絡(luò)中的鑒別器,判別輸入的2張圖片是否來(lái)自同一數(shù)據(jù)域.而圖像語(yǔ)義信息通過(guò)其包含的全部語(yǔ)義類別體現(xiàn).僅利用整張?jiān)瓐D進(jìn)行語(yǔ)義判別,容易造成類別錯(cuò)分等分割結(jié)果不理想的問(wèn)題.
Fig. 1 Comparison of original image and segmentation results圖1 原圖及語(yǔ)義分割結(jié)果對(duì)比圖
2) 目前許多數(shù)據(jù)集均存在“長(zhǎng)尾分布”效應(yīng),即20%的語(yǔ)義類別占據(jù)80%的數(shù)據(jù)量,諸如在交通場(chǎng)景數(shù)據(jù)集中,車輛、道路等占據(jù)了約80%的數(shù)據(jù)量,而交通信號(hào)燈及路標(biāo)等類別,因其所占數(shù)據(jù)量較小且易與背景混淆而時(shí)常難以被正確分割,為實(shí)際應(yīng)用帶來(lái)了諸多不便.
根據(jù)以上分析,本文針對(duì)現(xiàn)有的領(lǐng)域自適應(yīng)及語(yǔ)義分割方法中存在的問(wèn)題,提出2個(gè)改進(jìn)方案:
1) 為改善現(xiàn)有數(shù)據(jù)集中數(shù)據(jù)分布不均的情況提出基于改進(jìn)focal loss[6]的損失函數(shù);同時(shí),引入Pixel Shuffle方法[7]改進(jìn)上采樣方法,在對(duì)源域數(shù)據(jù)進(jìn)行語(yǔ)義分割的過(guò)程中,有效提高解碼器對(duì)原圖空間信息及上下文語(yǔ)義信息的恢復(fù)程度.
2) 提出一種新的基于類別相關(guān)的領(lǐng)域自適應(yīng)語(yǔ)義分割方法,通過(guò)提出新的領(lǐng)域自適應(yīng)階段、設(shè)計(jì)基于語(yǔ)義類別相關(guān)的對(duì)抗判別標(biāo)準(zhǔn),并對(duì)目標(biāo)域語(yǔ)義分割網(wǎng)絡(luò)進(jìn)行約束調(diào)優(yōu)來(lái)有效解決不同數(shù)據(jù)集跨域分割問(wèn)題,使得語(yǔ)義分割效果具有更細(xì)粒度的提升,進(jìn)而減少對(duì)全標(biāo)注樣本的需求;同時(shí)顯著提高對(duì)于標(biāo)注情況、圖像風(fēng)格、數(shù)據(jù)分布均不相似但包含相同語(yǔ)義類別的2個(gè)數(shù)據(jù)集間的自適應(yīng)水平,提升語(yǔ)義分割精準(zhǔn)度和泛化性能.
目前大多數(shù)語(yǔ)義分割方法的核心思想來(lái)自FCN[1],F(xiàn)CN將卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)[8]中的最后一層替換為卷積層,同時(shí)使用跳躍式結(jié)構(gòu),將高層次特征與低層次特征結(jié)合,有效提高分割精準(zhǔn)度.而為了更好地融合多尺度語(yǔ)義信息,提高分割結(jié)果,近年來(lái),許多方法采用“編碼器-解碼器”[2]結(jié)構(gòu),其中編碼器負(fù)責(zé)提取高層抽象語(yǔ)義特征,解碼器通過(guò)反卷積[9]或反池化等方法擬合不同層次特征,逐步將分割特征圖的語(yǔ)義信息和大小恢復(fù)至與原圖一致.近來(lái),文獻(xiàn)[3]中提出名為Deeplab V3+的方法,引入可任意控制編碼器用以提取特征的分辨率,同時(shí)通過(guò)空洞卷積方法平衡其精度和耗時(shí).
針對(duì)現(xiàn)有監(jiān)督方法過(guò)于依賴精確標(biāo)注的問(wèn)題,文獻(xiàn)[10]中提出基于顯著圖信息的弱監(jiān)督語(yǔ)義分割方法,通過(guò)顯著圖求得每個(gè)像素屬于前景物體或者背景的概率,并采用多標(biāo)簽交叉熵?fù)p失訓(xùn)練出一個(gè)簡(jiǎn)單的深度卷積神經(jīng)網(wǎng)絡(luò),再根據(jù)數(shù)據(jù)集中圖像級(jí)別的標(biāo)注信息剔除部分噪聲,使得該網(wǎng)絡(luò)具備較高語(yǔ)義分割能力.文獻(xiàn)[11]中提出基于對(duì)抗性擦除的方法,將圖片輸入至分類網(wǎng)絡(luò),通過(guò)訓(xùn)練得到對(duì)于當(dāng)前圖片而言最具判別力的區(qū)域,將這部分的像素值在網(wǎng)絡(luò)中設(shè)置為0,并將擦除后的圖片輸入分類網(wǎng)絡(luò)進(jìn)行再訓(xùn)練.網(wǎng)絡(luò)會(huì)自動(dòng)尋找其他證據(jù),使得圖像可以被正確分類,重復(fù)以上操作,最后通過(guò)融合經(jīng)擦除的區(qū)域獲取相應(yīng)物體的整個(gè)區(qū)域.文獻(xiàn)[12]中提出基于圖模型和圖匹配的自監(jiān)督學(xué)習(xí)語(yǔ)義分割方法,提出一種基于類內(nèi)連通圖的三元組抽樣方案改進(jìn)分割精度.以上方法均取得較為優(yōu)異的結(jié)果,但針對(duì)完全無(wú)標(biāo)注的圖像,依然難以有效、快速地處理.
針對(duì)以上問(wèn)題,本文引入1.2節(jié)中描述的領(lǐng)域自適應(yīng)方法,通過(guò)對(duì)有標(biāo)注數(shù)據(jù)集的分割方法進(jìn)行訓(xùn)練學(xué)習(xí)與遷移,解決對(duì)無(wú)標(biāo)注數(shù)據(jù)集的跨域分割問(wèn)題,顯著提升無(wú)標(biāo)注數(shù)據(jù)集的語(yǔ)義分割精準(zhǔn)度.
領(lǐng)域自適應(yīng)是遷移學(xué)習(xí)[13]在計(jì)算機(jī)視覺(jué)領(lǐng)域的應(yīng)用,用以解決源域和目標(biāo)域之間的域不變及域遷移問(wèn)題.根據(jù)“適應(yīng)”內(nèi)容的不同,目前主要有3類領(lǐng)域自適應(yīng)方法.1)基于對(duì)抗-生成[5]思想,使得目標(biāo)域有效“適應(yīng)”源域的分割模型及方法;2)基于風(fēng)格轉(zhuǎn)換[13],利用目標(biāo)域數(shù)據(jù)對(duì)源域數(shù)據(jù)進(jìn)行圖像增強(qiáng),進(jìn)而實(shí)現(xiàn)2個(gè)域內(nèi)數(shù)據(jù)彼此“適應(yīng)”的方法;3)采用“師生”模型體系結(jié)構(gòu)的基于知識(shí)蒸餾[14]的領(lǐng)域自適應(yīng)方法.
在基于生成對(duì)抗思想的方法中,依據(jù)對(duì)抗階段采用的判別標(biāo)準(zhǔn)的不同,可將其分為基于數(shù)據(jù)分布的域適應(yīng)、基于特征選擇的域適應(yīng)以及基于子空間學(xué)習(xí)的域適應(yīng)方法等.這類方法的主要實(shí)現(xiàn)難點(diǎn)在于如何有效減小源域數(shù)據(jù)集與目標(biāo)域數(shù)據(jù)集兩者間的分布差異.文獻(xiàn)[15]中通過(guò)最小化最大平均差異方法,實(shí)現(xiàn)對(duì)源域和目標(biāo)域之間特征分布的有效對(duì)齊.文獻(xiàn)[16]中提出依據(jù)相關(guān)對(duì)齊損失,匹配源域數(shù)據(jù)集和目標(biāo)域數(shù)據(jù)集特征的均值和協(xié)方差.
針對(duì)現(xiàn)有領(lǐng)域自適應(yīng)方法中,多采用原圖或高層次抽象特征圖進(jìn)行跨域訓(xùn)練,進(jìn)而造成的語(yǔ)義不一致或類別錯(cuò)分問(wèn)題,本文提出一種新的基于類別相關(guān)的領(lǐng)域自適應(yīng)語(yǔ)義分割方法:首先,對(duì)原圖進(jìn)行粗分割;其次,對(duì)其分割結(jié)果進(jìn)行類別相關(guān)的優(yōu)化調(diào)整.通過(guò)提升跨域數(shù)據(jù)集間的自適應(yīng)水平,有效實(shí)現(xiàn)對(duì)無(wú)標(biāo)注數(shù)據(jù)集的跨域語(yǔ)義分割,提高算法的泛化性能.
在本節(jié)中,如圖2所示,本文提出一種包含3個(gè)處理階段的基于類別相關(guān)領(lǐng)域的自適應(yīng)語(yǔ)義分割方法模型.
1) 對(duì)基于監(jiān)督學(xué)習(xí)的語(yǔ)義分割方法進(jìn)行改進(jìn).為了提高圖像中類別邊緣的分割精度,改進(jìn)解碼過(guò)程中基于特征圖的上采樣(upsampling)方法,提高對(duì)輸入圖像中的空間信息及上下文語(yǔ)義信息的恢復(fù)程度;同時(shí),針對(duì)數(shù)據(jù)集中數(shù)據(jù)分布不均的情況,對(duì)現(xiàn)有方法的損失函數(shù)進(jìn)行相應(yīng)改進(jìn),使本文方法針對(duì)難分割、數(shù)據(jù)量小的類別,能有效提高其分割準(zhǔn)確度.
2) 根據(jù)前期調(diào)研,現(xiàn)有領(lǐng)域自適應(yīng)方法的適應(yīng)階段大多選擇在原圖或經(jīng)卷積處理后的特征圖上進(jìn)行,而本文則選擇在經(jīng)過(guò)分割網(wǎng)絡(luò)處理得到的粗分割輸出空間上進(jìn)行學(xué)習(xí)與訓(xùn)練,這樣使得本文方法既能在一定程度上有效避免語(yǔ)義不一致問(wèn)題,又能有效利用圖像中的基礎(chǔ)結(jié)構(gòu)化的域不變特征、上下文語(yǔ)義及空間信息.此外,提出將類別相關(guān)的數(shù)據(jù)分布情況作為領(lǐng)域自適應(yīng)的對(duì)齊標(biāo)準(zhǔn),并對(duì)整體的語(yǔ)義分割網(wǎng)絡(luò)進(jìn)行約束調(diào)優(yōu),使本文方法的分割效果較先前方法有更細(xì)粒度的提升.
3) 根據(jù)前2階段學(xué)習(xí)及訓(xùn)練得出的網(wǎng)絡(luò),設(shè)計(jì)損失函數(shù),對(duì)算法網(wǎng)絡(luò)進(jìn)行全局約束優(yōu)化,提高本文算法泛化性,使得標(biāo)注情況、圖像風(fēng)格、數(shù)據(jù)分布均不相似但包含相同語(yǔ)義類別的2個(gè)數(shù)據(jù)集間能夠更好地實(shí)現(xiàn)領(lǐng)域自適應(yīng).
Fig. 3 The graph of super-resolution reconstruction method圖3 超分辨率重建方法示意圖
2.2.1 基于監(jiān)督學(xué)習(xí)的方法改進(jìn)
本文首先對(duì)現(xiàn)有基于監(jiān)督學(xué)習(xí)的語(yǔ)義分割網(wǎng)絡(luò)進(jìn)行改進(jìn).
本文針對(duì)源域數(shù)據(jù)集采用的基礎(chǔ)網(wǎng)絡(luò)模型為DeepLab[3],其使用“編碼器-解碼器”結(jié)構(gòu),在解碼過(guò)程中使用雙線性插值方法,利用周圍4個(gè)像素點(diǎn)信息對(duì)待測(cè)樣點(diǎn)進(jìn)行插值計(jì)算,繼而將特征圖逐步復(fù)原至輸入圖像的大小.
而雙線性插值方法不僅計(jì)算量較大,且僅考慮待測(cè)樣點(diǎn)周圍4個(gè)直接相鄰點(diǎn)灰度值的影響,未考慮其他各相鄰點(diǎn)間灰度值變化率的影響,從而導(dǎo)致縮放后圖像的高頻分量損失,相應(yīng)類別的分割邊緣模糊;同時(shí),因在相鄰點(diǎn)之間反復(fù)計(jì)算,存在一定程度的重疊(overlap)現(xiàn)象.
因此,在擴(kuò)大特征圖大小且恢復(fù)圖像語(yǔ)義信息的上采樣過(guò)程中,本文采用如圖3所示的超分辨率重建[7]方法.首先通過(guò)卷積計(jì)算得到r2個(gè)通道的特征圖,然后通過(guò)周期篩選方法得到更高分辨率的圖像.其中,r為上采樣因子(upscaling factor),即相應(yīng)圖像的擴(kuò)大倍率.
將帶有精準(zhǔn)標(biāo)注的源域數(shù)據(jù)輸入至經(jīng)過(guò)優(yōu)化的語(yǔ)義分割網(wǎng)絡(luò)中,得到語(yǔ)義分割結(jié)果,并將此結(jié)果與源域數(shù)據(jù)中的真實(shí)分割區(qū)域(ground truth)進(jìn)行比對(duì),求得當(dāng)前方法的分割準(zhǔn)確率.
同時(shí),針對(duì)數(shù)據(jù)集中語(yǔ)義類別分布存在的如圖4所示的“長(zhǎng)尾效應(yīng)”,即20%的語(yǔ)義類別占據(jù)數(shù)據(jù)集中80%的數(shù)據(jù)量,而其他很多對(duì)分割精準(zhǔn)度具有重要影響的語(yǔ)義類別因所占數(shù)據(jù)比例較小而難以被正確分割,本文提出如式(1)所示的基于改進(jìn)focal loss[6]的優(yōu)化方法,作為基于監(jiān)督學(xué)習(xí)語(yǔ)義分割方法的損失函數(shù),旨在將更多的注意力傾注在數(shù)據(jù)量小但對(duì)分割結(jié)果影響較大的數(shù)據(jù)類別上,使得相應(yīng)類別及圖像整體的分割準(zhǔn)確率能夠得到有效提升.
Fig. 4 The graph of long tail distribution圖4 長(zhǎng)尾分布示意圖
(1)
其中,PS表示源域中某個(gè)類別被正確預(yù)測(cè)的概率,與參數(shù)α,γ一起用于優(yōu)化分割結(jié)果.依據(jù)此函數(shù)及其計(jì)算結(jié)果,對(duì)當(dāng)前的監(jiān)督學(xué)習(xí)方法進(jìn)行迭代優(yōu)化.
2.2.2 基于類別對(duì)齊的領(lǐng)域自適應(yīng)方法
根據(jù)文獻(xiàn)閱讀及實(shí)驗(yàn)復(fù)現(xiàn),現(xiàn)有的領(lǐng)域自適應(yīng)語(yǔ)義分割方法選擇的自適應(yīng)階段通常為目標(biāo)域數(shù)據(jù)原圖或經(jīng)卷積計(jì)算處理后的特征圖.對(duì)語(yǔ)義分割方法而言,原圖中所含冗余因子較多,如光照情況、色彩情況等.直接對(duì)原圖進(jìn)行領(lǐng)域自適應(yīng)及分割,容易導(dǎo)致語(yǔ)義不一致問(wèn)題.同時(shí),經(jīng)卷積提取的特征圖中所含的圖像上下文及空間信息又較為匱乏,因而容易導(dǎo)致邊緣模糊或類別錯(cuò)分問(wèn)題.
此外,現(xiàn)有方法選擇的自適應(yīng)判別基準(zhǔn)通常直接采用GAN[5]的思想,即直接將整張圖像輸入至領(lǐng)域自適應(yīng)網(wǎng)絡(luò)的判別器中,判斷2個(gè)輸入圖像是否來(lái)自同一數(shù)據(jù)域.然而,此判別基準(zhǔn)可能過(guò)度關(guān)注全局信息的對(duì)齊而忽略原本相近的語(yǔ)義類別,導(dǎo)致原本正確分割的語(yǔ)義類別被調(diào)節(jié)至錯(cuò)誤分割.
根據(jù)理論分析及驗(yàn)證性實(shí)驗(yàn)結(jié)果,本方法首先將源域數(shù)據(jù)和目標(biāo)域數(shù)據(jù)直接輸入至2.2.1節(jié)的網(wǎng)絡(luò)中進(jìn)行分割.對(duì)于源域數(shù)據(jù),得到基于監(jiān)督學(xué)習(xí)的精準(zhǔn)分割結(jié)果;對(duì)于目標(biāo)域數(shù)據(jù),得到其粗分割結(jié)果.
因此,將2.2.1節(jié)中設(shè)計(jì)及優(yōu)化后的分割網(wǎng)絡(luò)視為生成器,并固定其網(wǎng)絡(luò)結(jié)構(gòu)及相應(yīng)參數(shù)設(shè)置,將源域數(shù)據(jù)中的語(yǔ)義類別及其分割情況作為起始基準(zhǔn).結(jié)合目標(biāo)域數(shù)據(jù)的分割結(jié)果,根據(jù)式(2)(3),在判別環(huán)節(jié)分別計(jì)算源域和目標(biāo)域的分割結(jié)果中具體語(yǔ)義類別及其數(shù)據(jù)分布情況,并傳入本文設(shè)計(jì)的判別網(wǎng)絡(luò)中,根據(jù)類別相關(guān)對(duì)齊原理,進(jìn)行類別層面的對(duì)齊調(diào)優(yōu),使得源域數(shù)據(jù)與目標(biāo)域數(shù)據(jù)所含的語(yǔ)義類別類內(nèi)相似性不斷提升,類間獨(dú)立性不斷擴(kuò)大.
(2)
(3)
同時(shí),針對(duì)以上基于類別相關(guān)的領(lǐng)域自適應(yīng)方法,首先統(tǒng)計(jì)2個(gè)域的總體數(shù)據(jù)分布情況,然后根據(jù)生成-對(duì)抗學(xué)習(xí)思想設(shè)計(jì)損失函數(shù),并利用其計(jì)算結(jié)果,對(duì)本文方法的對(duì)齊過(guò)程及判別器設(shè)計(jì)進(jìn)行相應(yīng)優(yōu)化:
(4)
(5)
(6)
2.2.3 約束調(diào)優(yōu)
以2.2.1節(jié)和2.2.2節(jié)中優(yōu)化設(shè)計(jì)的模型為基礎(chǔ),對(duì)本文提出的算法網(wǎng)絡(luò)進(jìn)行整體約束優(yōu)化,同時(shí),經(jīng)由此階段處理,可對(duì)2.2.2節(jié)中部分類別不一致及類別在2個(gè)域間分布不均的情況進(jìn)行優(yōu)化調(diào)整.
將分割結(jié)果輸入到領(lǐng)域自適應(yīng)階段的判別器中進(jìn)行判別,根據(jù)判別結(jié)果,對(duì)分割網(wǎng)絡(luò)進(jìn)行迭代優(yōu)化,直至判別器無(wú)法鑒別其接收的分割結(jié)果圖來(lái)自源域還是目標(biāo)域,即類別對(duì)齊已完全實(shí)現(xiàn)時(shí),則認(rèn)為當(dāng)前基于類別相關(guān)的算法網(wǎng)絡(luò)結(jié)構(gòu)已經(jīng)達(dá)到較為理想的結(jié)果,實(shí)現(xiàn)了對(duì)領(lǐng)域自適應(yīng)語(yǔ)義分割方法的有效提高.
在此過(guò)程中,提出式(7)所示的損失函數(shù),將本文方法模型視為一個(gè)基于GAN[5]的結(jié)構(gòu),依據(jù)此函數(shù)計(jì)算本算法的整體損失值,對(duì)算法網(wǎng)絡(luò)進(jìn)行優(yōu)化與改進(jìn).
(7)
其中,IS,IT分別表示源域數(shù)據(jù)和目標(biāo)域數(shù)據(jù)正確分割的情況.
本文提出一種基于類別相關(guān)的領(lǐng)域自適應(yīng)語(yǔ)義分割方法,并在道路交通數(shù)據(jù)集GTA5[17],SYNTHIA[18],Cityscapes[19]上進(jìn)行實(shí)驗(yàn).
同時(shí),為了證明本文方法的魯棒性,在MSCOCO[20]和VOC 2012[21]數(shù)據(jù)集上進(jìn)行驗(yàn)證性實(shí)驗(yàn),并統(tǒng)計(jì)交通場(chǎng)景相應(yīng)數(shù)據(jù)類別的實(shí)驗(yàn)結(jié)果.
GTA5[17]是基于游戲Grand Theft Auto V提取的包含有25 966張分辨率為1 914×1 052的超高清且自動(dòng)帶有標(biāo)注數(shù)據(jù)的賽車游戲場(chǎng)景圖像數(shù)據(jù)集,其場(chǎng)景均為對(duì)美國(guó)洛杉磯和南加州真實(shí)交通環(huán)境場(chǎng)景的復(fù)現(xiàn),所包含的類別與Cityscapes數(shù)據(jù)集完全兼容.
SYNTHIA[18]是由計(jì)算機(jī)合成的、城市道路駕駛環(huán)境的像素級(jí)標(biāo)注的數(shù)據(jù)集,包含21 494張分辨率為1 914×1 052的超高清且自動(dòng)帶有標(biāo)注數(shù)據(jù)的交通場(chǎng)景圖像,其所含類別與Cityscapes完全兼容.
Cityscapes[19]是由梅賽德斯-奔馳提供的無(wú)人駕駛環(huán)境下的圖像分割數(shù)據(jù)集,用于評(píng)估視覺(jué)算法在城區(qū)場(chǎng)景語(yǔ)義理解方面的性能.Cityscapes包含德國(guó)50個(gè)城市不同場(chǎng)景、不同背景、不同季節(jié)的街景,其中包含5 000張精細(xì)標(biāo)注的道路交通場(chǎng)景圖像、20 000張粗略標(biāo)注的圖像、30類標(biāo)注物體以及1 525張只包含原圖、沒(méi)有標(biāo)簽的測(cè)試集圖像.
MSCOCO[20]是微軟發(fā)布的,包括91個(gè)類別、328 000張圖片和2 500 000條標(biāo)注信息的數(shù)據(jù)集,而其對(duì)于圖像的標(biāo)注信息不僅有類別、位置信息,還有對(duì)圖像的語(yǔ)義文本描述.
VOC 2012[21]是包含11 530張圖片的開(kāi)源數(shù)據(jù)集,其中每張圖片都有標(biāo)注,標(biāo)注的物體包括人、動(dòng)物(如貓、狗、鳥(niǎo))、交通工具(如車、船和飛機(jī)等)、家具(如椅子、桌子、沙發(fā)等)在內(nèi)的20個(gè)類別.
本文模型所使用的深度學(xué)習(xí)框架為Pytorch 1.0.0版本,相關(guān)實(shí)驗(yàn)在基于Ubuntu 16.04操作系統(tǒng)的2塊NVIDIA TITAN XP獨(dú)立顯卡上運(yùn)行.
本文實(shí)驗(yàn)采用的網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示,對(duì)于本文提出的方法,在計(jì)算式(1)所示的損失值時(shí),設(shè)定α=0.2,γ=2效果最為理想.在訓(xùn)練過(guò)程中,我們將初始語(yǔ)義分割階段視為生成部分,在對(duì)輸入圖像進(jìn)行語(yǔ)義分割時(shí),分別使用VGG-16[22]和ResNet-101[23]這2種網(wǎng)絡(luò)模型作為基礎(chǔ)架構(gòu),源域與目標(biāo)域共享參數(shù),使用Leaky-ReLU[24]作為激活函數(shù),并使用超分辨率重建[7]作為上采樣方法,使用隨機(jī)梯度下降法(stochastic gradient descent, SGD)[25]作為生成部分的優(yōu)化方法,令初始學(xué)習(xí)率rg=2.5×10-4,動(dòng)量參數(shù)βg=0.9;對(duì)于判別部分中的判別網(wǎng)絡(luò),使用4層通道數(shù)分別為 {64,128,256,1}的卷積層,使用Leaky-ReLU[24]為激活函數(shù),令初始學(xué)習(xí)率rd=1.0× 10-6, 令1階矩估計(jì)、2階矩估計(jì)的指數(shù)衰減率分別為β1=0.9,β2=0.99;在計(jì)算本文方法的整體損失值時(shí),分別將基于監(jiān)督學(xué)習(xí)的損失值、基于類別相關(guān)的判別損失值及基于GAN[5]模型結(jié)構(gòu)的損失值對(duì)應(yīng)權(quán)重設(shè)置為λ1,λ2,λ3,對(duì)應(yīng)權(quán)重值分別為0.2,1.0,0.5.
本文采用的主要評(píng)價(jià)指標(biāo)為如式(8)(9)所示的針對(duì)每個(gè)類別的像素分割精準(zhǔn)度(pixel accurancy, PA)和針對(duì)圖像整體的平均交并比(mean inter-section over union,mIoU).
像素分割精度表示的是該類別標(biāo)記正確的像素?cái)?shù)目占總像素?cái)?shù)目的比例:
(8)
其中,pii表示被正確分類的像素?cái)?shù)目,pij表示實(shí)際類別為i而被預(yù)測(cè)為類別j的像素點(diǎn)的數(shù)目.
平均交并比表示的是預(yù)測(cè)分割區(qū)域(predicted segmentation)和真實(shí)分割區(qū)域間交集與并集的比值:
(9)
其中,k+1表示數(shù)據(jù)集中全部類別數(shù)目.
根據(jù)圖2所示的網(wǎng)絡(luò)結(jié)構(gòu),在3.1節(jié)中的數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),得到統(tǒng)計(jì)結(jié)果.
3.3.1 以GTA5數(shù)據(jù)集為源域的對(duì)比實(shí)驗(yàn)
設(shè)定GTA5[17]為源域數(shù)據(jù)集,設(shè)定Cityscapes[19]為無(wú)標(biāo)注目標(biāo)域數(shù)據(jù)集.選擇VGG-16網(wǎng)絡(luò)作為本算法的基礎(chǔ)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),將本方法與現(xiàn)有的其他領(lǐng)域自適應(yīng)語(yǔ)義分割方法[26-33]進(jìn)行表1、表2所示的對(duì)比分析.
表1所示,本文方法與近期一些實(shí)現(xiàn)方法相比,分割精準(zhǔn)度及平均交并比均有所提升.特別是交通標(biāo)志或交通燈等占有數(shù)據(jù)量較小,易與背景類混淆,因而難以被正確地分割語(yǔ)義類別,利用本文提出的類別相關(guān)方法,其分割精準(zhǔn)度得到有效提升.先前方法中,路燈類的平均分割精準(zhǔn)度為19.4%,最高精準(zhǔn)度[31]為30.3%,本文方法可以將其提高至33.4%;路標(biāo)類在先前方法中的平均分割精準(zhǔn)度為9.6%,最高精準(zhǔn)度[28]為18.3%,而本文提出的方法將其提高至19.7%;同時(shí),本文方法將車行道類別的分割精準(zhǔn)度提高至87.3%,將植物草木類的分割精準(zhǔn)度提高至83.2%.近年來(lái),使用ResNet[23]的算法均取得較為理想的效果,本文采用其作為基礎(chǔ)的神經(jīng)網(wǎng)絡(luò)模型,繼續(xù)在GTA5[17]與Cityscapes[19]數(shù)據(jù)集上訓(xùn)練本文提出的領(lǐng)域自適應(yīng)語(yǔ)義分割方法,并與直接在目標(biāo)域上使用ResNet結(jié)構(gòu)的語(yǔ)義分割方法和使用VGG-16[22]作為基礎(chǔ)模型的本文方法進(jìn)行對(duì)比實(shí)驗(yàn).
表2展示出3個(gè)方法在2個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果,其中,RES表示單獨(dú)使用ResNet對(duì)數(shù)據(jù)集進(jìn)行特征提取與分割的結(jié)果,Ours-V表示使用VGG-16作為本文骨架網(wǎng)絡(luò)得到的實(shí)驗(yàn)結(jié)果,Ours-R表示使用ResNet作為本文骨架網(wǎng)絡(luò)得到的實(shí)驗(yàn)結(jié)果.相比其他2個(gè)方法,使用基于ResNet-101[23]結(jié)構(gòu)的本文方法,在具體語(yǔ)義類別及整體圖像的分割精準(zhǔn)度上均有提升.例如,將交通標(biāo)志類的平均分割精準(zhǔn)度從20%提升至23.4%,將路燈類的平均分割精準(zhǔn)度從32%提升至35.4%,繼而將圖像整體的分割平均交并比提升至43.7%.
Table 1 Comparison of Results with GTA5 as Source and Cityscapes as Target Domain表1 GTA5為源域、Cityscapes為目標(biāo)域的實(shí)驗(yàn)結(jié)果對(duì)比
Notes: The best results are in bold; Swal stands for Sidewalk, Buil stands for Building, Veg stands for Vegetation, Per stands for Person, and Moto stands for Motorbike.
Table 2 Comparison of Experimental Results with Baseline on ResNet and VGG-16表2 分別以ResNet和VGG-16為Baseline的實(shí)驗(yàn)對(duì)比結(jié)果
Notes: Swal stands for Sidewalk, Buil stands for Building, Veg stands for Vegetation, Per stands for Person, and Moto stands for Motorbike.
圖5展示了本文提出的方法在以GTA5[17]為源域、Cityscapes[19]為目標(biāo)域的分割結(jié)果.其中圖5(b)所示為直接對(duì)無(wú)標(biāo)注數(shù)據(jù)集進(jìn)行分割的結(jié)果,其中如車行道、汽車等語(yǔ)義類別已被識(shí)別,但與之相比,圖5(c)中展示的結(jié)果對(duì)于圖像中每個(gè)類別的分割邊緣,其中路標(biāo)、信號(hào)燈以及人行道等語(yǔ)義類別的分割精準(zhǔn)度均有顯著提升,且分割結(jié)果與圖5(d)所示的數(shù)據(jù)集給出的真實(shí)分割區(qū)域較為接近.
Fig. 5 An example of semantic segmentation results with GTA5 as source domain and Cityscapes as target domain圖5 以GTA5為源域、Cityscapes為目標(biāo)域分割示例
3.3.2 以SYNTHIA數(shù)據(jù)集為源域的對(duì)比實(shí)驗(yàn)
基于先前的模型及參數(shù)設(shè)置,以虛擬合成數(shù)據(jù)集SYNTHIA[18]為源域、以Cityscapes[19]數(shù)據(jù)集為目標(biāo)域進(jìn)行實(shí)驗(yàn).
表3所示,圖像整體的分割平均交并比被提升至43.6%,圖中汽車、車行道、人行道等語(yǔ)義類別的分割精準(zhǔn)度也得到顯著提升.其中,車行道類的平均分割精準(zhǔn)度在先前方法中的均值為66%,最高值[31]為79.9%,而本文方法可將其提升至84.4%;汽車類的分割精準(zhǔn)度在先前方法中的均值為60.4%,最高值[29]為71.1%,本文方法可將其提升至73.6%.對(duì)于信號(hào)燈、路標(biāo)以及公共汽車這3個(gè)語(yǔ)義類別,現(xiàn)有方法的分割精準(zhǔn)度均值為4.9%,8.2%,12.4%,而本文方法可將其提升至12.6%,14.3%,21.4%.
Table 3 Comparison of Experimental Results with SYNTHIA as Source Domain and Cityscapes as Target Domain表3 以SYNTHIA數(shù)據(jù)集為源域、Cityscapes數(shù)據(jù)集為目標(biāo)域的方法實(shí)驗(yàn)結(jié)果對(duì)比
Notes: The best results are in bold; Swal stands for Sidewalk, Buil stands for Building, Veg stands for Vegetation, Per stands for Person, and Moto stands for Motorbike.
此外,基于不同源域數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果也表明了本文所提方法的正確性、有效性和泛化性.
圖6展示了本文提出方法在以SYNTHIA[18]為源域、Cityscape[19]為目標(biāo)域的分割結(jié)果.圖6(b)所示為未經(jīng)自適應(yīng)優(yōu)化的結(jié)果,觀察可見(jiàn),圖像中汽車、道路等常見(jiàn)語(yǔ)義類別已經(jīng)可以被提取,但由于源域SYNTHIA是計(jì)算機(jī)合成的數(shù)據(jù)集,與目標(biāo)域Cityscapes的真實(shí)交通圖像場(chǎng)景略有不同,因而目標(biāo)域的分割結(jié)果中存在分割邊緣模糊和類別錯(cuò)分等現(xiàn)象.圖6(c)所示為本文方法的實(shí)驗(yàn)結(jié)果,經(jīng)過(guò)本文的方法處理,車輛、道路、交通信號(hào)燈以及行人等類別的分割結(jié)果與圖6(d)中所示的真實(shí)分割標(biāo)注已經(jīng)非常接近,而路障、建筑以及人行道等類別也被有效識(shí)別及分割.
Fig. 6 An example of semantic segmentation results with SYNTHIA as source domain and Cityscapes as target domain圖6 以SYNTHIA為源域、Cityscapes為目標(biāo)域分割示例
3.3.3 以MSCOCO數(shù)據(jù)集為源域的對(duì)比實(shí)驗(yàn)
為了驗(yàn)證本文方法的有效性和泛化性,設(shè)定MSCOCO[20]數(shù)據(jù)集中帶有精準(zhǔn)語(yǔ)義標(biāo)注的圖像數(shù)據(jù)為源域數(shù)據(jù)集,VOC 2012[21]數(shù)據(jù)集中針對(duì)分割任務(wù)的圖片為目標(biāo)域數(shù)據(jù)集,與文獻(xiàn)[26-29]中的方法進(jìn)行對(duì)比與驗(yàn)證實(shí)驗(yàn).
表4所示,對(duì)于圖像整體,以及圖像中汽車、摩托車和行人等常見(jiàn)的交通語(yǔ)義類別,本文方法依然擁有較高的分割精準(zhǔn)度.其中,汽車類在先前方法中的分割精準(zhǔn)度均值約為53.8%,本文方法可將其提升至62.6%;摩托車類在先前方法中的分割精準(zhǔn)度均值為42%,本文方法將其提升為43.4%;而先前方法中圖像分割的平均交并比值最高[29]為45.9%,本文提出的方法可達(dá)48.6%.
在3.3節(jié)中,經(jīng)過(guò)3組與先前方法的對(duì)比實(shí)驗(yàn),已驗(yàn)證本文方法的有效性和泛化性;為了進(jìn)一步驗(yàn)證本文方法中每個(gè)步驟的可行性,本節(jié)對(duì)本文方法中具體的優(yōu)化階段進(jìn)行消融實(shí)驗(yàn),驗(yàn)證每個(gè)處理階段的正確性和必要性.
Table 4 Comparison of Results with MSCOCO as Source Domain and VOC 2012 as Target Domain
Notes: The best results are in bold; Moto stands for Motorbike, Per stands for Person, and TVmo stands for TV-monitor.
3.4.1 針對(duì)源域數(shù)據(jù)的消融實(shí)驗(yàn)結(jié)果
如表5所示,Ours-BC表示直接使用骨架網(wǎng)絡(luò)的本文基礎(chǔ)方法在源域數(shù)據(jù)集上得到的實(shí)驗(yàn)結(jié)果;Ours-PS表示單獨(dú)改進(jìn)本文上采樣方法得到的實(shí)驗(yàn)結(jié)果;Ours-FL表示單獨(dú)改進(jìn)本文監(jiān)督學(xué)習(xí)方法的損失函數(shù)得到的實(shí)驗(yàn)結(jié)果;Ours表示融合2個(gè)優(yōu)化方法在源域數(shù)據(jù)集上得到的實(shí)驗(yàn)結(jié)果.針對(duì)2.2.1節(jié)中提出的基于監(jiān)督學(xué)習(xí)的源域數(shù)據(jù)分割優(yōu)化方法,經(jīng)本文消融實(shí)驗(yàn)對(duì)比,在使用不同的基礎(chǔ)網(wǎng)絡(luò)的前提下,超分辨率重建和改進(jìn)focal loss損失均可提升原分割結(jié)果約2%,本文方法中將其結(jié)合使用,可在源域數(shù)據(jù)集GTA5中提高整體分割精準(zhǔn)度約4%.同時(shí),在基礎(chǔ)網(wǎng)絡(luò)中,使用ResNet的分割結(jié)果優(yōu)于使用VGG-16得到的分割結(jié)果約2%.
Table 5 Ablation Study Results of Optimization Method with GTA5 as Source Domain
Notes: “√” indicates that the method described in the corresponding column is used for the experiment described in the current row.
3.4.2 針對(duì)目標(biāo)域數(shù)據(jù)的消融實(shí)驗(yàn)結(jié)果
針對(duì)本文2.2節(jié)中提出的優(yōu)化源域分割方法和使用類別相關(guān)信息進(jìn)行數(shù)據(jù)對(duì)齊,在采用2種基礎(chǔ)網(wǎng)絡(luò)的前提下,消融實(shí)驗(yàn)對(duì)比結(jié)果如表6所示.在表6中,Ours-BC表示直接使用骨架網(wǎng)絡(luò)的本文基礎(chǔ)方法在目標(biāo)域數(shù)據(jù)集上得到的實(shí)驗(yàn)結(jié)果;Ours-S表示單獨(dú)對(duì)源域訓(xùn)練部分進(jìn)行優(yōu)化在目標(biāo)域上得到的實(shí)驗(yàn)結(jié)果;Ours-C表示單獨(dú)利用類別相關(guān)信息,在改進(jìn)目標(biāo)域跨域方法時(shí)在目標(biāo)域上得到的實(shí)驗(yàn)結(jié)果;Ours表示使用本文完整方法得到的實(shí)驗(yàn)結(jié)果.在進(jìn)行領(lǐng)域自適應(yīng)的過(guò)程中經(jīng)過(guò)優(yōu)化源域分割方法,可提升目標(biāo)域數(shù)據(jù)集Cityscapes的分割精準(zhǔn)度約3%,使用類別信息可提升分割精準(zhǔn)度約3%,本文在2.2.1節(jié)和2.2.2節(jié)中綜合考慮并實(shí)現(xiàn)2階段的優(yōu)化方法,將目標(biāo)域的整體分割精準(zhǔn)度提升約6%.
綜上,將本文提出的方法,在3個(gè)不同類型的源域數(shù)據(jù)集、2個(gè)不同類型的目標(biāo)域數(shù)據(jù)集上進(jìn)行驗(yàn)證實(shí)驗(yàn).結(jié)果表明:分割的精準(zhǔn)度在不同的語(yǔ)義類別上均有著較高的提升,證明了本文方法的有效性,同時(shí),也證明了基于類別相關(guān)的領(lǐng)域自適應(yīng)語(yǔ)義分割方法擁有較強(qiáng)的泛化性,可以有效應(yīng)用于不同類型的數(shù)據(jù)集和圖像場(chǎng)景中.
Table 6 Results of Ablation Study with GTA5 as Source Domain and Cityscapes as Target Domain
Notes: “√” indicates that the method described in the corresponding column is used for the experiment described in the current row.
此外,經(jīng)過(guò)對(duì)源域數(shù)據(jù)集和目標(biāo)域數(shù)據(jù)集的消融實(shí)驗(yàn)驗(yàn)證,本文方法中針對(duì)分割過(guò)程中每個(gè)階段提出的優(yōu)化方法均可有效提升實(shí)驗(yàn)結(jié)果,并且,經(jīng)過(guò)本文方法的整體約束優(yōu)化,分割結(jié)果達(dá)到更高的精準(zhǔn)度.
本文提出了一種基于類別相關(guān)的領(lǐng)域自適應(yīng)語(yǔ)義分割方法,用以解決數(shù)據(jù)集中類別分布不均及無(wú)標(biāo)注數(shù)據(jù)集的語(yǔ)義分割問(wèn)題.實(shí)驗(yàn)結(jié)果表明:本文方法通過(guò)優(yōu)化上采樣方法、關(guān)注小樣本數(shù)據(jù)類別、調(diào)整領(lǐng)域自適應(yīng)階段、尋找結(jié)構(gòu)化信息以及在判別階段中采用基于類別相關(guān)的方法,可以有效提升源域數(shù)據(jù)集和目標(biāo)域數(shù)據(jù)集中圖像的語(yǔ)義分割精準(zhǔn)度,并且可以將領(lǐng)域自適應(yīng)的方法有效應(yīng)用到更大的范圍中.然而,本文提出的方法在針對(duì)行人等具有運(yùn)動(dòng)性且容易出現(xiàn)遮擋等問(wèn)題的類別、分割精準(zhǔn)度及邊緣清晰度等結(jié)果仍有一定提升空間,未來(lái)考慮引入行人重識(shí)別中的一些特征、屬性提取方法,以及根據(jù)已有數(shù)據(jù)集得到先驗(yàn)約束對(duì)分割結(jié)果再次約束優(yōu)化等方法,對(duì)本文提出的方法進(jìn)行更深層次的優(yōu)化.