亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于位置對(duì)抗學(xué)習(xí)的道路場(chǎng)景無(wú)監(jiān)督域自適應(yīng)語(yǔ)義分割

2022-05-25 15:47:02趙偉楓

電視技術(shù) 2022年4期

趙偉楓

（昆明理工大學(xué) 信息工程與自動(dòng)化學(xué)院，云南昆明 650500）

0 引言

語(yǔ)義分割任務(wù)[1-4]是對(duì)圖像中的每一個(gè)像素進(jìn)行分類，是像素級(jí)別的分類任務(wù)，廣泛應(yīng)用于自動(dòng)駕駛[5]等領(lǐng)域。但是，標(biāo)注像素級(jí)別的標(biāo)簽需要耗費(fèi)大量的人力物力。目前研究人員利用電腦合成圖像[6-7]訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)，由于合成圖像的標(biāo)簽簡(jiǎn)單易得，因此理論上可以無(wú)限擴(kuò)充數(shù)據(jù)集。在電腦合成數(shù)據(jù)集上訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用在對(duì)應(yīng)的數(shù)據(jù)集上具有很高的識(shí)別率，但是應(yīng)用在現(xiàn)實(shí)場(chǎng)景圖像中時(shí)卻表現(xiàn)出較差的性能，原因是合成數(shù)據(jù)集和現(xiàn)實(shí)場(chǎng)景數(shù)據(jù)集中的圖像存在域的差距。無(wú)監(jiān)督域自適應(yīng)方法可以將源域?qū)W到的知識(shí)遷移到目標(biāo)領(lǐng)域中，從而有效解決語(yǔ)義分割中的域偏移問題[8-10]。

將合成圖片數(shù)據(jù)集視為源域，即源域?yàn)閹?biāo)簽的數(shù)據(jù)集；將現(xiàn)實(shí)場(chǎng)景的圖像數(shù)據(jù)集視為目標(biāo)域，即目標(biāo)域的圖像是不帶標(biāo)簽的。跨域語(yǔ)義分割任務(wù)的本質(zhì)是如何利用源域數(shù)據(jù)集來引導(dǎo)網(wǎng)絡(luò)對(duì)到目標(biāo)域數(shù)據(jù)集圖像的分類更加準(zhǔn)確，也就是提取到更多具有域不變性質(zhì)的特征。文獻(xiàn)[11]和文獻(xiàn)[12]將對(duì)抗思想應(yīng)用在跨域語(yǔ)義分割任務(wù)中，但都只在整體層面上進(jìn)行了對(duì)抗，沒有考慮到城市道路場(chǎng)景圖像中的空間位置關(guān)系。源域數(shù)據(jù)集和目標(biāo)域數(shù)據(jù)集中的圖像都是道路場(chǎng)景，圖像中類的分布和空間位置關(guān)系有強(qiáng)烈的相關(guān)性[13]。例如，天空、樹木等在圖像的上部，交通標(biāo)志、建筑等主要分布在圖像的中部，而馬路、行人等主要分布在圖像的下半部分。圖像中這種類別關(guān)系是不變的，如果不考慮這些位置關(guān)系直接利用對(duì)抗思想將兩個(gè)域的圖像拉近，往往會(huì)導(dǎo)致卷積神經(jīng)網(wǎng)絡(luò)去提取更容易識(shí)別的特征。考慮到上述方法存在的問題，根據(jù)圖像的空間位置關(guān)系，本文提出了縱向分塊對(duì)抗和橫向分塊對(duì)抗策略。為了使網(wǎng)絡(luò)可以更多地關(guān)注到塊內(nèi)的特征，將源域圖像分為整體和局部?jī)蓚€(gè)層面進(jìn)行有監(jiān)督的訓(xùn)練。

1 相關(guān)工作

1.1 語(yǔ)義分割

語(yǔ)義分割是計(jì)算機(jī)視覺任務(wù)中最具有挑戰(zhàn)性的任務(wù)之一，目前大部分語(yǔ)義分割算法都是基于全卷積網(wǎng)絡(luò)（Fully Convolutional Networks，F(xiàn)CN）[14]發(fā)展而來。為了擴(kuò)大感受野，使卷積神經(jīng)網(wǎng)絡(luò)可以提取到更加豐富的特征，通常采用空洞卷積方法進(jìn)行語(yǔ)義分割[15-19]。由于卷積神經(jīng)網(wǎng)絡(luò)的層數(shù)較多，利用較深層的特征圖進(jìn)行上采樣得到的分割圖往往會(huì)丟失較多的信息，因此研究人員提出了多尺度融合和多層金字塔池化的方法來融合不同層數(shù)的特征。

1.2 無(wú)監(jiān)督域自適應(yīng)語(yǔ)義分割

語(yǔ)義分割任務(wù)需要像素級(jí)別的標(biāo)簽，但是像素級(jí)別的標(biāo)簽需要耗費(fèi)大量的人力物力。文獻(xiàn)[11]將對(duì)抗學(xué)習(xí)方法應(yīng)用到跨域語(yǔ)義分割任務(wù)中，利用中間層和輸出層的特征圖分別進(jìn)行對(duì)抗來實(shí)現(xiàn)跨域的目的。但是該研究沒有考慮圖像中的空間位置關(guān)系，在對(duì)齊兩個(gè)域的特征的時(shí)候往往會(huì)導(dǎo)致一些類別的差距越拉越大導(dǎo)致負(fù)面的結(jié)果。文獻(xiàn)[20]采用基于熵最小化的方法來進(jìn)行無(wú)監(jiān)督域自適應(yīng)語(yǔ)義分割，利用目標(biāo)域的輸出預(yù)測(cè)圖的熵值大小來衡量預(yù)測(cè)是否準(zhǔn)確。但這種方法會(huì)使預(yù)測(cè)概率值高的類別在熵?fù)p失函數(shù)中有較大的梯度，網(wǎng)絡(luò)就會(huì)更傾向于遷移簡(jiǎn)單樣本（像素?cái)?shù)量占比較大的類別）而忽略難樣本。也就是說，采用基于熵最小化的語(yǔ)義分割方法會(huì)導(dǎo)致難樣本難以遷移，加劇了類不平衡的問題，跨域效果較差。

2 分塊對(duì)抗方法

圖1 整體網(wǎng)絡(luò)處理流程

此外，傳統(tǒng)的方法在源域和目標(biāo)域進(jìn)行對(duì)抗訓(xùn)練的過程中，生成器會(huì)偏向于提取數(shù)量占比更多類別的特征而忽視數(shù)量占比較少的類別，導(dǎo)致在數(shù)據(jù)集中存在的類不平衡問題更加嚴(yán)重。而分塊對(duì)抗方法可以從一定程度上解決這個(gè)問題，源域和目標(biāo)域塊與塊之間的類別占比相較于整幅圖像來說差距會(huì)明顯縮小，在減少類別的同時(shí)對(duì)抗損失函數(shù)會(huì)更容易收斂。

2.1 橫向分塊對(duì)抗

考慮到不同類別在圖像中的空間位置關(guān)系，利用分塊的對(duì)抗方法來幫助網(wǎng)絡(luò)提取源域和目標(biāo)域中塊與塊之間的域公共信息。將源域特征圖Fs∈RH×W×C均分為上、中、下3部分，分別為。同時(shí)將與之對(duì)應(yīng)的目標(biāo)域特征圖Ft∈RH×W×C也分為上、中、下3部分，分別為、。針對(duì)整張?zhí)卣鲌D進(jìn)行對(duì)抗損失，即：

式中：E(·)為期望值，D為鑒別器。根據(jù)式（1）在上、中、下3個(gè)位置做對(duì)抗損失，保證各個(gè)位置可以提取到與位置信息相關(guān)的域不變特征，即：

式中，Ladvup為上部分的對(duì)抗損失函數(shù)，Ladvm為中間部分的損失函數(shù)，Ladvd為下部分的損失函數(shù)。

2.2 縱向分塊對(duì)抗

道路場(chǎng)景數(shù)據(jù)集中類與類之間不僅存在上、中、下的空間位置關(guān)系，同時(shí)還存在左、中、右的空間位置關(guān)系。例如，在圖像的中間的類別一般是道路、行人、汽車等，而在道路兩旁的類別一般是樹木、建筑、地臺(tái)等?；诖?，不僅在圖像的上、中、下3部分進(jìn)行分塊對(duì)抗學(xué)習(xí)，同時(shí)也在圖像的左、中、右3部分進(jìn)行分塊對(duì)抗學(xué)習(xí)。同時(shí)，為了盡可能多地提取到域不變信息，將分塊對(duì)抗學(xué)習(xí)與整體對(duì)抗學(xué)習(xí)方法相結(jié)合，以此來保證網(wǎng)絡(luò)能提取到盡可能多的有效信息。將源域特征圖Fs∈RH×W×C均分為左、中、右3部分，分別為、。同時(shí)把與之對(duì)應(yīng)的目標(biāo)域特征圖Ft∈RH×W×C分為左、中、右3部分，分別為。在左、中、右3個(gè)位置進(jìn)行對(duì)抗損失，保證各個(gè)位置可以提取到與位置信息相關(guān)的域不變特征，即：

式中，Ladv1為左邊部分的對(duì)抗損失函數(shù)，Ladvm為中間部分的損失函數(shù)，Ladvr為右邊部分的損失函數(shù)。

2.3 損失函數(shù)

由于本文將源域圖像和目標(biāo)域圖像進(jìn)行了上、中、下和左、中、右的分塊操作，因此分別在塊內(nèi)利用標(biāo)簽進(jìn)行有監(jiān)督的訓(xùn)練。同時(shí)為了不丟失圖像整體之間類與類之間的相關(guān)聯(lián)性，將分塊交叉熵?fù)p失與整體交叉熵?fù)p失相結(jié)合，保證網(wǎng)絡(luò)能夠同時(shí)提取局部和整體的特征。整體交叉熵?fù)p失函數(shù)為：

式中：G為分割網(wǎng)絡(luò)，c為類別數(shù)目。為了提取到塊內(nèi)獨(dú)有的特征，本文提出了分塊的交叉熵?fù)p失函數(shù)，即：

總的損失函數(shù)為：

3 實(shí) 驗(yàn)

3.1 實(shí)驗(yàn)設(shè)置

在深度學(xué)習(xí)框架PyTorch上進(jìn)行實(shí)驗(yàn)，使用NVIDIA 2080TI GPU進(jìn)行訓(xùn)練和測(cè)試工作。受限于GPU內(nèi)存，在訓(xùn)練過程中把源域數(shù)據(jù)集GTA5中的圖片剪裁為720×1 280像素，把源域數(shù)據(jù)集SYNTHIA中的圖片剪裁為760×1 280像素，把目標(biāo)域數(shù)據(jù)集Cityscapes中的圖片剪裁為512×1 024像素。網(wǎng)絡(luò)包含VGG16和ResNet101兩種，采用隨機(jī)梯度下降（Stochastic Gradient Descent，SGD）[21]優(yōu)化器來優(yōu)化分割網(wǎng)絡(luò)，利用poly策略[22]來更新學(xué)習(xí)率。由于語(yǔ)義分割任務(wù)是預(yù)測(cè)像素級(jí)別的標(biāo)簽，因此為了使源域和目標(biāo)域像素之間的風(fēng)格更加相近，本文在BN（Batch Normalization）的基礎(chǔ)上加入了IN（Instance Normalization）來實(shí)現(xiàn)域之間像素分割的靠攏[23]。

3.2 定量實(shí)驗(yàn)結(jié)果

為了驗(yàn)證本文所提方法的有效性，分別做了數(shù)據(jù)集GTA5到Cityscapes和數(shù)據(jù)集Synthia到Cityscapes的跨域?qū)嶒?yàn)，采用平均交并比（Mean Intersection over Union，MIoU）評(píng) 測(cè) 實(shí) 驗(yàn) 結(jié) 果。MIoU表示模型對(duì)每一類預(yù)測(cè)的結(jié)果和真實(shí)值的交集與并集的比值，求和再平均的結(jié)果。

為了保證實(shí)驗(yàn)結(jié)果的有效性，利用ResNet101和VGG16兩種網(wǎng)絡(luò)作為基礎(chǔ)框架進(jìn)行實(shí)驗(yàn)。將本文所提方法與Adapt[11]、CLAN[24]以及Advent[20]跨域語(yǔ)義分割方法在GTA5數(shù)據(jù)集到Cityscapes數(shù)據(jù)集的19個(gè)公共類上進(jìn)行跨域?qū)嶒?yàn)，定量評(píng)價(jià)結(jié)果如表1所示。Adapt和CLAN主要采取對(duì)抗損失的方法來對(duì)齊兩個(gè)域的特征分布，Advent則利用熵值最小化的思想通過約束目標(biāo)域預(yù)測(cè)圖的熵值損失函數(shù)來對(duì)齊兩個(gè)域。

表1 數(shù)據(jù)集GTA5到Cityscapes的跨域語(yǔ)義分割MIoU值對(duì)比

由表1可知，本文所提方法對(duì)Road、Wall、Fence以及Sky等類別的識(shí)別率較高，優(yōu)于從整體層面進(jìn)行對(duì)抗的方法，不僅對(duì)主要類別的像素級(jí)分類起到了正向的作用，同時(shí)對(duì)次要類別以及占比極小類別的分類正確率也有一定的提升。

除此之外，開展Synthia數(shù)據(jù)集到Cityscapes數(shù)據(jù)集的跨域?qū)嶒?yàn)。由于Synthia數(shù)據(jù)集到Cityscapes數(shù)據(jù)集之間的域差異比GTA5到Cityscapes數(shù)據(jù)集之間的域差異要大，因此在Synthia數(shù)據(jù)集到Cityscapes數(shù)據(jù)集的跨域語(yǔ)義分割是非常有挑戰(zhàn)性的。表2給出了不同方法在13個(gè)公共類上的MIoU值。

表2 數(shù)據(jù)集Synthia到 Cityscapes的跨域語(yǔ)義分割MIoU值對(duì)比

通過觀察可以發(fā)現(xiàn)，本文所提出方法在Synthia到Cityscapes的跨域語(yǔ)義分割中同樣取得了較好的結(jié)果。

3.3 視覺實(shí)驗(yàn)結(jié)果

GTA5到Cityscapes的跨域語(yǔ)義分割的視覺效果如圖2所示。

根據(jù)圖2，本文方法不僅較好地分割出了公交車、建筑物以及道路等主要類別，而且相較于其他方法對(duì)次要類別的分割效果也有了明顯的提高。對(duì)于較為復(fù)雜的城市道路場(chǎng)景圖像，其包含的類別較多，本文所提方法能夠顯著提高對(duì)交通標(biāo)志、欄桿的分割效果，同時(shí)分割邊緣也更加平滑?；谝陨戏指罱Y(jié)果對(duì)比，本文所提出的分塊對(duì)抗跨域語(yǔ)義分割方法可以有效提升圖像的分割效果，并且緩解了數(shù)據(jù)集中存在的數(shù)據(jù)不平衡等問題。

圖2 GTA5到Cityscapes上的分割效果

4 結(jié) 語(yǔ)

為了提升圖像跨域語(yǔ)義分割網(wǎng)絡(luò)的性能，本文充分挖掘了城市道路場(chǎng)景圖像中類別之間的空間位置關(guān)系，提出了分塊對(duì)抗學(xué)習(xí)的方法。相較于現(xiàn)有的跨域語(yǔ)義分割方法，基于位置對(duì)抗學(xué)習(xí)的道路場(chǎng)景無(wú)監(jiān)督域自適應(yīng)語(yǔ)義分割在分割效果方面有了一定的提升。但是該方法也存在一定的局限性，例如域之間的位置信息挖掘得不夠充分，導(dǎo)致模型在一些類別較復(fù)雜的場(chǎng)景仍會(huì)出現(xiàn)錯(cuò)誤分類的情況。在接下來的工作中，將會(huì)尋找更加有效的方法來建立類與類之間的位置關(guān)系，進(jìn)一步優(yōu)化跨域語(yǔ)義分割網(wǎng)絡(luò)。