張峻寧, 蘇群星, 王 成, 徐 超, 李一寧
(1.陸軍工程大學(xué), 石家莊 050003; 2.陸軍指揮學(xué)院, 南京 210000;3.國防大學(xué)聯(lián)合作戰(zhàn)學(xué)院, 石家莊 050003; 4.32181部隊(duì),西安, 710032;5.軍事科學(xué)院防化研究院, 北京 102205)
語義分割是指標(biāo)記圖像中每個(gè)元素的類別信息,完成從低級(jí)到高級(jí)的推理,最終形成像素級(jí)的語義標(biāo)注圖像.國內(nèi)外學(xué)者提出眾多語義分割方法,主要分為傳統(tǒng)和基于深度學(xué)習(xí)的兩大類方法[1-3].傳統(tǒng)法[4]一般依靠圖像自身的低階視覺信息實(shí)現(xiàn)圖像分割,但是無法應(yīng)用于復(fù)雜的分割任務(wù).近年來,隨著深度學(xué)習(xí)技術(shù)的發(fā)展,語義分割技術(shù)也飛速發(fā)展,并廣泛應(yīng)用于包括自動(dòng)駕駛[5]、視頻監(jiān)測(cè)[6]以及醫(yī)學(xué)圖像分析[7]等領(lǐng)域.2014年,Jonathan等[8]首先提出了全卷積層網(wǎng)絡(luò)(Fully Convolution Network, FCN)的像素級(jí)語義分割.文獻(xiàn)[9]提出了基于“編碼器-解碼器”的語義分割網(wǎng)絡(luò)SegNet,該方法在全卷積層上分別結(jié)合低層的位置特征與高層的語義信息,有效提高了圖像語義分割的精度,但是模型容易丟失信息.之后,Azadi等[10]通過優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu),提高了卷積層感受野的獨(dú)立性,實(shí)現(xiàn)了多任務(wù)的生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Vetwork, GAN)網(wǎng)絡(luò)風(fēng)格變換.最近,Chen等[11-13]提出了一系列語義分割模型(DeepLab v1、DeepLab v2及DeepLab v3),分別從像素密度預(yù)測(cè)、多尺度分割以及特征分辨率方面提高全卷積網(wǎng)絡(luò)的分割精度.但是上述模型都需要通過具有像素級(jí)標(biāo)簽的大型數(shù)據(jù)集訓(xùn)練.然而,手動(dòng)標(biāo)注數(shù)據(jù)集的語義信息成本十分昂貴,直接用于本地化場(chǎng)景的語義分割是十分困難的.
研究人員用計(jì)算機(jī)自動(dòng)標(biāo)注的虛擬圖像替代真實(shí)場(chǎng)景數(shù)據(jù)集,利用體量更小、代價(jià)更低的域自適應(yīng)語義分割模型去解決手工標(biāo)注數(shù)據(jù)集語義信息成本高的問題[14].由計(jì)算機(jī)模擬生成的場(chǎng)景分割圖(源圖)訓(xùn)練真實(shí)場(chǎng)景圖(目標(biāo)圖),主要分為兩個(gè)步驟:① 圖像變換模塊.將模擬圖像(源圖)域變換到真實(shí)圖像(目標(biāo)圖)的域.② 建立模擬圖像的語義分割網(wǎng)絡(luò),并用于分割真實(shí)場(chǎng)景,例如虛擬合成的GTA5數(shù)據(jù)集.此類方法根據(jù)數(shù)據(jù)集之間的相似性,利用虛擬數(shù)據(jù)集訓(xùn)練真實(shí)場(chǎng)景的語義分割網(wǎng)絡(luò),但是分割模型非常依賴于虛擬圖像到真實(shí)圖像的變換質(zhì)量.一旦變換后圖像與真實(shí)圖像的語義未對(duì)齊或?qū)R性差,則語義分割網(wǎng)絡(luò)的性能急劇降低.為了提高語義分割中圖像的變換質(zhì)量,域?qū)?yīng)[15-19]和非監(jiān)督域[20-23]的圖像變換方法迅速發(fā)展.文獻(xiàn)[15]通過建立特征分辨器縮小域間隙.文獻(xiàn)[16]分別從全局和局部角度匹配域.在此基礎(chǔ)上,文獻(xiàn)[17]提出超像素的特征域匹配,實(shí)現(xiàn)了更細(xì)的像素分割.之后,文獻(xiàn)[18]在域鑒別器中通過多層次的特征域差異計(jì)算,以縮小數(shù)據(jù)集之前的域間間隙.文獻(xiàn)[19]對(duì)圖像的前目標(biāo)和后背景分別域匹配和語義分割,提高了不同類別的語義分割精度.但是上述網(wǎng)絡(luò)需要配對(duì)好的圖像作為模型的輸入,而實(shí)際當(dāng)中并沒有大量匹配好的源圖與目標(biāo)圖用于訓(xùn)練.
相比于域?qū)?yīng)的圖像變換,基于非監(jiān)督域的圖像合成無需匹配的數(shù)據(jù)集,具有成本低,體量小的優(yōu)勢(shì).文獻(xiàn)[20]首次將源圖像到目標(biāo)圖像視為圖像合成的過程,通過變換未匹配圖像的域分布,消除了不同風(fēng)格圖像的域間隙.文獻(xiàn)[14, 21]提出了雙通道對(duì)齊網(wǎng)絡(luò),在圖像生成器和分割網(wǎng)絡(luò)中執(zhí)行通道特征對(duì)齊,在網(wǎng)絡(luò)中保留了空間結(jié)構(gòu)和語義信息.之后,文獻(xiàn)[8,22]加入域匹配的約束關(guān)系,進(jìn)一步限制圖像間的差異.文獻(xiàn)[10]提出了圖像生成和分割網(wǎng)絡(luò)的雙向?qū)W習(xí)框架,基于自我監(jiān)督和感知損失建立圖像合成和分割的聯(lián)系,相互提升了各自模塊的性能.在此基礎(chǔ)上,文獻(xiàn)[9]進(jìn)一步提出一種雙向?qū)W習(xí)的圖像語義分割框架.該框架以閉環(huán)的形式相互學(xué)習(xí)各模塊,相互促進(jìn)了各模塊的性能.盡管如此,由于真實(shí)場(chǎng)景的復(fù)雜性,在生成的虛擬場(chǎng)景中存在一些與真實(shí)場(chǎng)景(目標(biāo))的域間間隙差距大的源圖,這些源圖不僅與目標(biāo)圖的語義對(duì)齊性差,還會(huì)在訓(xùn)練中影響其他源圖的變換質(zhì)量.此外,同樣的問題還會(huì)存在源圖中的某些像素上.例如,源圖某些像素由于受到噪聲和相似風(fēng)格物體的混淆,被模型錯(cuò)誤理解為同類目標(biāo),最終影響了整個(gè)源圖的圖域變換,使得實(shí)際場(chǎng)景語義分割的精度降低.
雖然基于域適應(yīng)的語義分割成本低,但是語義分割精度也低.分析原因主要是真實(shí)場(chǎng)景和虛擬場(chǎng)景中的部分物體的差異限制了源圖到目標(biāo)圖的變換質(zhì)量,影響了源圖到目標(biāo)圖的語義對(duì)齊.為此,本文在雙向?qū)W習(xí)的圖像語義分割框架的基礎(chǔ)上,分別通過分階段訓(xùn)練和可解釋蒙版消除域間間隙差距大的源圖和像素,提出一種改進(jìn)變換網(wǎng)絡(luò)的域自適應(yīng)語義分割網(wǎng)絡(luò).首先為了提高變換網(wǎng)絡(luò)對(duì)源圖的場(chǎng)景理解,在訓(xùn)練集中挑選出與目標(biāo)圖域間隙大的源圖集,并提出分階段的變換網(wǎng)絡(luò)訓(xùn)練策略,以提升源圖的變換質(zhì)量.其次,針對(duì)源圖中部分像素語義對(duì)齊性差的缺陷,提出可解釋蒙版以標(biāo)記域間隙置信度高的像素,使網(wǎng)絡(luò)在訓(xùn)練過程中僅關(guān)注這些像素,而忽略語義對(duì)齊性差的像素對(duì)模型性能的影響.
給定計(jì)算機(jī)自動(dòng)標(biāo)注的虛擬圖片集(源圖S)以及未標(biāo)注的實(shí)際場(chǎng)景數(shù)據(jù)(目標(biāo)圖T),利用域適應(yīng)的語義分割模型可實(shí)現(xiàn)目標(biāo)圖T的語義分割任務(wù).該模型包括兩個(gè)子網(wǎng)絡(luò):① 源圖S到目標(biāo)圖T的變換網(wǎng)絡(luò)F.②對(duì)目標(biāo)圖T的場(chǎng)景分割子網(wǎng)絡(luò)E,如圖1所示.圖中:S′為利用變換子網(wǎng)絡(luò)將S變換為與T域分布相近的合成圖,變換后的S′與源圖具有相同的語義標(biāo)簽LS;ΓF為變換網(wǎng)絡(luò)的訓(xùn)練損失;ΓE為語義分割網(wǎng)絡(luò)的訓(xùn)練損失.然后通過分割網(wǎng)絡(luò)M同時(shí)分割S′和T.其對(duì)應(yīng)的變換網(wǎng)絡(luò)訓(xùn)練損失為ΓF
圖1 域自適應(yīng)語義分割的框架
ΓF=ζ(F(S′),F(T))+λSζ(F(S′),LS)+
λpζ(F(S′),F(S))+λpζ(F(T′),F(T))
(1)
式中:ζ為域分布損失,用于計(jì)算源圖S與目標(biāo)圖T之間的特征差異;λS、λp分別為對(duì)應(yīng)權(quán)重.由于只有源圖的標(biāo)簽,模型中只計(jì)算源圖S的語義分割損失.為了保證目標(biāo)圖的語義分割精度,變換后源圖像的域與目標(biāo)圖像域需保持一致.只有當(dāng)源圖與目標(biāo)圖的語義對(duì)齊性較好,目標(biāo)圖的分割精度才更高.
為此,文獻(xiàn)[10]通過圖像重構(gòu)損失ζr和生成式對(duì)抗網(wǎng)絡(luò)的損失提升圖像的翻譯質(zhì)量,其語義分割網(wǎng)絡(luò)的訓(xùn)練損失ΓE如下:
ΓE=λG[ζG(S′,T)+ζG(S,T′)]+
λr[ζr(S′,F-1(S′))+ζG(T,F(T′)]
(2)
式中:λr、λG為對(duì)應(yīng)的損失權(quán)重;ζG為生成式對(duì)抗網(wǎng)絡(luò)損失,用于評(píng)價(jià)變換源圖S′與目標(biāo)圖像T的域分布距離;F-1是F的逆變換,以約束圖像變換網(wǎng)絡(luò)的圖像合成.
雖然上述模型可以實(shí)現(xiàn)非監(jiān)督的語義分割任務(wù),但是由于實(shí)際場(chǎng)景的復(fù)雜性,導(dǎo)致變換后的圖像與目標(biāo)圖像的域分布存在差異.例如,源圖與目標(biāo)圖在視覺上的差異(燈光、比例、對(duì)象紋理等).
為了克服域間隙大的源圖和像素對(duì)語義分割網(wǎng)絡(luò)訓(xùn)練的影響,本文提出一種改進(jìn)變換網(wǎng)絡(luò)的域自適應(yīng)語義分割網(wǎng)絡(luò)(DA-SSN).具體而言,為了弱化源數(shù)據(jù)集中大間隙源圖對(duì)變換網(wǎng)絡(luò)訓(xùn)練的影響,本文提出分階段訓(xùn)練變換源圖的訓(xùn)練策略.其次,通過一種可解釋蒙板標(biāo)記圖像中視差差異較大的像素區(qū)域,并在訓(xùn)練損失計(jì)算中忽略對(duì)應(yīng)像素的損失,以消除間隙大的像素對(duì)模型訓(xùn)練的影響.
如果源圖與目標(biāo)圖風(fēng)格相似,或者二者的域分布規(guī)律性強(qiáng),則通過CycleGAN模型就可以實(shí)現(xiàn)源圖與目標(biāo)圖的語義對(duì)齊.然而,GTA5數(shù)據(jù)集中存在一些與目標(biāo)圖(城市場(chǎng)景)風(fēng)格差異大的源圖.變換網(wǎng)絡(luò)為了得到整個(gè)訓(xùn)練的最小化訓(xùn)練損失,忽略部分正確的語義對(duì)齊源圖,以滿足全部源圖變換的最小訓(xùn)練損失梯度訓(xùn)練網(wǎng)絡(luò)參數(shù).因此,該部分大間隙的源圖降低了整個(gè)場(chǎng)景的語義分割精度.本文通過分階段訓(xùn)練變換網(wǎng)絡(luò),以獲取目標(biāo)圖域間隙小的源圖.具體變換網(wǎng)絡(luò)訓(xùn)練策略如下.
輸入:S,T
訓(xùn)練輪次K=1時(shí),初始化變換網(wǎng)絡(luò)訓(xùn)練步驟.
(1)基于式(3)和CycleGAN初始化網(wǎng)絡(luò),設(shè)定判斷閾值?:
訓(xùn)練輪次K=2時(shí),第2階段源圖變換網(wǎng)絡(luò)優(yōu)化步驟:
(3)更新剩余源圖,組成最終的變換源圖S′.
綜上所述,該網(wǎng)絡(luò)訓(xùn)練由兩階段構(gòu)成.第1階段基于CycleGAN網(wǎng)絡(luò)[9]訓(xùn)練全部源圖到目標(biāo)圖的語義對(duì)齊;第2階段對(duì)第1階段中變換效果差的源圖迭代訓(xùn)練.具體來說,通過第1階段的變換網(wǎng)絡(luò),可以篩選出域間間隙大的源圖集,然后將該數(shù)據(jù)集作為第2階段網(wǎng)絡(luò)的輸入.因?yàn)閿?shù)據(jù)集減少了,變換網(wǎng)絡(luò)將全部注意力集中到剩余數(shù)據(jù)集上,再基于這些源圖的訓(xùn)練損失最小化變換源圖.如此迭代,相比于初始階段的訓(xùn)練,則間隙大的源圖變換更接近于目標(biāo)域.為此,將變換網(wǎng)絡(luò)的訓(xùn)練損失修改為
ΓF=λr[ζr(S,F-1(S′))+ζr(T,F(T′))]
(3)
式中:λa為對(duì)應(yīng)的分階段訓(xùn)練的損失權(quán)重.
本文將源圖的對(duì)抗網(wǎng)絡(luò)損失ζG(S′,T)作為評(píng)價(jià)源圖與目標(biāo)圖的間隙差距,并在第一階段訓(xùn)練中設(shè)置閾值?,篩選出ζG(S′,T)>?的源圖.當(dāng)分辨器ζG(S′,T)>?時(shí),可以認(rèn)為該變換后的源圖域目標(biāo)圖域間隙差距大,需要重新收集該數(shù)據(jù)集,并作為第二階段的變換網(wǎng)絡(luò)的輸入;反之,則認(rèn)為所得源圖與目標(biāo)圖是語義對(duì)齊的.
雖然通過分階段訓(xùn)練變換網(wǎng)絡(luò)提高了域間隙大的源圖的語義對(duì)齊性,但是不可忽視的是,一張圖片(一個(gè)場(chǎng)景)中也會(huì)存在域間隙大的物體.例如GTA5和Cityscapes數(shù)據(jù)集之間的空間布局差異.對(duì)于GTA5,遠(yuǎn)處天空中存在大量的高大型樹木,而城市景觀則不同.對(duì)于這部分風(fēng)格差異較大的源圖像素,原始的CycleGAN網(wǎng)絡(luò)處理效果不佳.為此,在模型訓(xùn)練中迫切需要將域間隙大的源圖部分像素區(qū)域忽略,以避免此類區(qū)域?qū)ζ溆嘞袼貐^(qū)域的干擾.
2.2.1蒙版結(jié)構(gòu)的構(gòu)建 文獻(xiàn)[23]在估計(jì)場(chǎng)景深度時(shí),針對(duì)空間幾何推理無法解釋的像素區(qū)域,提出了一種可解釋蒙板忽略該區(qū)域.在本文中,為了避免大間隙圖像像素對(duì)模型性能的影響,訓(xùn)練了一個(gè)可解釋性預(yù)測(cè)網(wǎng)絡(luò)蒙板(MaskNet),與變換和分割網(wǎng)絡(luò)同時(shí)進(jìn)行,該網(wǎng)絡(luò)輸出源圖像素對(duì)應(yīng)的解釋掩碼,其中掩碼表示對(duì)應(yīng)像素從源圖到目標(biāo)圖間隙縮小的可信度.MaskNet的具體網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示.
圖2 蒙版網(wǎng)絡(luò)結(jié)構(gòu)
經(jīng)分析,該網(wǎng)絡(luò)是編碼器-解碼器架構(gòu),其中編碼器由6個(gè)卷積層組成,輸出層及卷積核的參數(shù)分別是:(16×16,7×7)(16×16代表輸出層參數(shù),7×7代表卷積層參數(shù),下同)、(16×32,5×5)、(32×64,3×3)、(64×128,3×3)、(128×256,3×3)、(256×256,3×3),解碼器是6個(gè)上卷積層,輸出層及卷積核尺寸參數(shù)是:(256×256,3×3)、(256×256,3×3)、(256×128,3×3)、(64×128,3×3)、(64×32,3×3)、(32×16,3×3),且在每個(gè)層中都有ReLU激活函數(shù),同時(shí)預(yù)測(cè)層使用sigmoid函數(shù),其對(duì)應(yīng)的輸出層、卷積核尺寸參數(shù)如下:(256×5,3×3)、(256×5,3×3)、(128×5,3×3)、(64×5,3×3)、(32×5,3×3)、(16×5,3×3).
2.2.2基于MaskNet的損失函數(shù) 基于構(gòu)建的MaskNet重新定義圖像變換損失,具體為
ΓF=λG[MS′ζG(S′,T)+MT′ζG(S,T′)]+
λr[MS′ζr(S,F-1(S′))+MT′ζr(T,F(T′))]
(4)
ζG(S′,T)=EIT~T[DF(IT)]+
(5)
ζrecon(S′,F-1(S′))=
(6)
由于蒙板網(wǎng)絡(luò)MaskNet并沒有直接的監(jiān)督機(jī)制,所以模型在訓(xùn)練中會(huì)直接將MaskNet全部預(yù)測(cè)為0,以實(shí)現(xiàn)訓(xùn)練損失的最小化.為了防止此類情形的出現(xiàn),在損失函數(shù)中設(shè)置一個(gè)正則化項(xiàng),通過最小化與常量標(biāo)簽“1”的交叉熵,來實(shí)現(xiàn)Mask的非零預(yù)測(cè),具體公式為
ζmask(S′)=γf(MS′,1)
(7)
式中:ζmask為蒙板損失;γ為該項(xiàng)損失權(quán)重;f(MS′,1)為交叉熵函數(shù),“1”是與Ms尺寸相同,全部元素為1的常量蒙板.
綜上所述,本文利用GAN和圖像重構(gòu)損失函數(shù)鼓勵(lì)網(wǎng)絡(luò)最小化變換源圖域目標(biāo)圖的差距,但通過蒙板Mask允許一定數(shù)量的松弛來避免域間隙大的像素區(qū)域的影響.
文獻(xiàn)[10]所提的域適應(yīng)分割模型是全新的非監(jiān)督語義分割網(wǎng)絡(luò),對(duì)目標(biāo)場(chǎng)景的語義分割性能顯著,但是其中變換網(wǎng)絡(luò)存在大間隙源圖變換質(zhì)量較差的問題.針對(duì)此問題,本文在變換網(wǎng)絡(luò)中通過可解釋蒙板MaskNet和分階段訓(xùn)練等改進(jìn),提升了源圖到目標(biāo)圖的語義對(duì)齊性能.然后將所得源圖LT訓(xùn)練語義分割網(wǎng)絡(luò),最終提出一種改進(jìn)變換網(wǎng)絡(luò)的域適應(yīng)語義分割模型,具體步驟框架圖如圖3所示.
圖3 本文算法框架圖
本文算法分別由變換網(wǎng)絡(luò)模塊和分割網(wǎng)絡(luò)模塊組成,其中CycleGAN作為變換網(wǎng)絡(luò)模塊,本文在此基礎(chǔ)上提出了改進(jìn)變換網(wǎng)絡(luò),而Resnet101[24]和DeepLab v2[14]作為分割模型,其被ImageNet網(wǎng)絡(luò)初始化,對(duì)應(yīng)的分辨器結(jié)構(gòu)是5個(gè)卷積層,網(wǎng)絡(luò)參數(shù)分別是:卷積核4×4;各層通道數(shù)64、128、256、512、1;步長(zhǎng)2,且每層之后連接1個(gè)ReLU層.
實(shí)驗(yàn)數(shù)據(jù)分別來自于GTA5[25]和Cityscapes[26]數(shù)據(jù)集,其中GTA5作為源圖數(shù)據(jù)集,該數(shù)據(jù)集包含 24 966 張圖片,其分辨率為 1 914 像素×1 052 像素,與Cityscapes數(shù)據(jù)具有相同的19個(gè)類別.而Cityscapes數(shù)據(jù)集作為目標(biāo)數(shù)據(jù)集,分為訓(xùn)練集、驗(yàn)證集以及測(cè)試集.在測(cè)試集下驗(yàn)證本文算法的性能,但是由于官方并未提供測(cè)試集的真值,所以將驗(yàn)證集作為測(cè)試集(500張圖片).為了保證測(cè)試的公平性,要求訓(xùn)練集和驗(yàn)證集中不包含相同場(chǎng)景的圖片.
在實(shí)驗(yàn)中,變換網(wǎng)絡(luò)訓(xùn)練圖片分辨率隨機(jī)設(shè)為452像素×452像素,訓(xùn)練輪次為20.模型學(xué)習(xí)率為 0.000 2,且前10輪學(xué)習(xí)率逐漸降低為 0.000 1,之后保持不變.損失權(quán)重設(shè)為λG=1,λr=10,λa=1,分割網(wǎng)絡(luò)的實(shí)驗(yàn)參數(shù)與文獻(xiàn)[10]相同,所有實(shí)驗(yàn)均是在Ubuntu18.04系統(tǒng)Pytorch 平臺(tái)下完成.電腦配置如下:CPU(2.0 GHz Intel i7),運(yùn)行內(nèi)存為 32 GB,GPU(2080Ti).實(shí)驗(yàn)主要做了兩方面驗(yàn)證:① 驗(yàn)證本文改進(jìn)算法的有效性.② 比較不同算法的語義分割性能,分析本文算法的優(yōu)勢(shì).
4.4.1模型訓(xùn)練損失變化 圖4所示為模型改進(jìn)前后隨著訓(xùn)練輪次的訓(xùn)練損失變化曲線.分析可知,全部模型隨著訓(xùn)練輪次的增加,訓(xùn)練損失逐漸降低,并且在輪次 105左右收斂.相比于原始模型,本文所提的改進(jìn)模型訓(xùn)練損失縮減幅度更大,最終訓(xùn)練損失從0.17降低至0.013.表明了本文所提出的改進(jìn)降低了源圖到目標(biāo)圖的間隙差距,提高了源圖到目標(biāo)圖的語義對(duì)齊性.
圖4 模型改進(jìn)前后的訓(xùn)練損失
為了全面驗(yàn)證本文改進(jìn)的效果,本文訓(xùn)練和評(píng)估了多種模型,其中每個(gè)模型都是原始模型的基礎(chǔ)上加入了不同的改進(jìn),包括D1(在原始F上加入源圖語義標(biāo)簽),D2(分階段訓(xùn)練原始F),D3(在訓(xùn)練損失計(jì)算中利用可解釋蒙版.
4.4.2分階段訓(xùn)練策略的有效性研究 針對(duì)域間間隙大的源圖,本文采用了分階段的訓(xùn)練策略,以得到與目標(biāo)圖語義對(duì)齊性更高的變換源圖.為了定量說明分階段訓(xùn)練的意義,表1對(duì)比了分階段訓(xùn)練前后的域間間隙和目標(biāo)圖的語義分割精度.可以發(fā)現(xiàn),分階段訓(xùn)練源圖對(duì)于改善大間隙源圖的語義對(duì)齊性和提高語義分割精度具有重要作用.
表1 分階段訓(xùn)練前后的性能對(duì)比
分階段訓(xùn)練的關(guān)鍵是基于間隙閾值篩選大間隙的源圖數(shù)據(jù)集.為了進(jìn)一步研究不同閾值對(duì)模型性能的影響,表2給出了不同閾值對(duì)變換源圖間隙損失和語義分割精度的影響.
表2 不同閾值的模型性能變化
經(jīng)分析,當(dāng)0.38>?>0.32時(shí),隨著閾值的降低,模型的語義分割精度更高.這是因?yàn)殡S著閾值的增加,大間隙的源圖集被逐步篩選出來,再對(duì)這些源圖進(jìn)行重復(fù)訓(xùn)練也再次提高了該源圖集的變換質(zhì)量,因而進(jìn)一步提高了整體的語義分割的精度.但是,當(dāng)?<0.32時(shí),模型的精度逐漸降低,這可能是因?yàn)殚撝甸T檻的降低將不需要分階段訓(xùn)練的源圖集也被重復(fù)訓(xùn)練,造成再次訓(xùn)練的源圖集的域間間隙距離增大,因而模型的精度進(jìn)一步下降.因此,本文將篩選源圖集的閾值設(shè)定為?=0.32.但是需要指出的是,不同閾值的分階段訓(xùn)練都要比原始的變換網(wǎng)絡(luò)訓(xùn)練效果要好,語義分割精度更高,由此證明了所提的分階段訓(xùn)練策略的有效性.
4.4.3可解釋蒙版的有效性研究 針對(duì)源圖中域間間隙大的像素區(qū)域,本文提出了可解釋性蒙版MaskNet,以忽略源圖中語義對(duì)齊性差的像素區(qū)域.圖5可視化了網(wǎng)絡(luò)預(yù)測(cè)的可解釋蒙版.分析可知,大部分像素在可解釋蒙版上呈白色(自信度較高),對(duì)應(yīng)的源圖區(qū)域確實(shí)與目標(biāo)圖風(fēng)格相似,因而情況相符.相反,蒙版MaskNet對(duì)于天空、大樹等物體可信度較低(圖中呈灰色).事實(shí)上,源圖的這些區(qū)域確實(shí)與目標(biāo)圖的風(fēng)格差異大.在變換網(wǎng)絡(luò)中考慮這些區(qū)域只會(huì)降低其他像素區(qū)域的語義對(duì)齊性,最終導(dǎo)致語義分割的精度降低.本文通過可解釋蒙版避免了上述區(qū)域?qū)δP偷挠绊?
圖5 蒙版可視化及目標(biāo)圖和源圖生成圖
為了定量評(píng)價(jià)可解釋蒙版的作用,表3給出了可解釋蒙版應(yīng)用前后的模型性能變化.可以發(fā)現(xiàn),可解釋蒙版的應(yīng)用直接忽略了間隙大的像素區(qū)域,與改進(jìn)前相比,降低了變換圖與目標(biāo)圖的域間損失,語義分割的精度提高至42.2.由此說明了可解釋蒙版對(duì)提高模型性能的有效性.
表3 MaskNet應(yīng)用前后的模型性能對(duì)比
4.5.1圖像變換性能 表5比較了本文算法與原始算法的變換圖的域間間隙.經(jīng)分析,與原始模型的性能相比,本文算法縮小域間間隙性能更顯著.圖6所示為本文算法與CycleGAN算法的圖像變換效果,其中Cityscapes是隨機(jī)選擇的目標(biāo)圖片集,包括不同的城市場(chǎng)景(街道、汽車、建筑物、天空以及大樹等).經(jīng)分析,相比于CycleGAN的變換效果,本文變換的源圖在邊緣更加完整、輪廓清晰度更高,與Cityscapes數(shù)據(jù)集的場(chǎng)景風(fēng)格更為接近.以遠(yuǎn)方的天空和參天大樹為例,CycleGAN算法因?yàn)樘摂M數(shù)據(jù)集中的高大樹木與遠(yuǎn)方天空的混合,導(dǎo)致變換風(fēng)格時(shí)產(chǎn)生混淆(見圖中紅色方框標(biāo)注),而本文算法在上述對(duì)象上保持了對(duì)象的各自屬性,不會(huì)相互受到影響,這是因?yàn)楸疚耐ㄟ^可解釋型蒙版對(duì)風(fēng)格差異大的物體(例如易混淆的天空、大樹等)進(jìn)行一定程度的忽略,進(jìn)而降低了它們對(duì)模型的影響,由此說明本文算法的有效性和優(yōu)勢(shì).
圖6 源圖的變換效果比較
4.5.2語義分割檢測(cè)性能 圖7顯示了分別利用Cycada[9]、DCAN[22]、CLAN[27]、BLD[10]、CBST[28]等算法對(duì)場(chǎng)景中的街道、汽車以及行人等類別進(jìn)行語義分割的可視化結(jié)果.相比于其他算法,本文的語義分割圖毛刺少、邊界輪廓更清晰,分割的結(jié)果更加與實(shí)際真值相符.以圖7的汽車和行人分割為例,本文分割的行人和汽車很好地與街道、房屋等物體區(qū)分,并且估計(jì)的汽車邊緣毛刺少、輪廓清晰,其長(zhǎng)寬也更接近于實(shí)際尺寸.
為了定量評(píng)價(jià)本文算法的優(yōu)勢(shì),分別在Resnet101[24]和DeepLab v2[14]上比較了所有算法的性能,評(píng)價(jià)標(biāo)準(zhǔn)是平均交并比指標(biāo),結(jié)果見表4,其中每一項(xiàng)指標(biāo)的最高值加粗表示.本文算法在Resnet101[24]和DeepLab v2[14]兩種結(jié)構(gòu)上的結(jié)果都好于其他流行算法.其中,DCAN[22]采用了自適應(yīng)訓(xùn)練方法,提高和泛化了不同類別的分割精度,相比于DCAN[27],本文模型性能提高了約17.4%.CLAN[27]通過調(diào)整特征域間間隙提高模型性能,但與本文模型相比結(jié)果仍相差約14.8%.本文的語義分割框架與DBL[10]相同,相比于DBL[10],本文通過蒙版等一系列改進(jìn)進(jìn)一步提高了模型的語義分割精度.由此可見,本文算法相比于其他算法的優(yōu)勢(shì).
基于域自適應(yīng)的語義分割網(wǎng)絡(luò)是輕量級(jí)和易于訓(xùn)練的.針對(duì)目前模型缺陷,本文提出一種改進(jìn)的域自適應(yīng)的語義分割模型.首先,提出變換網(wǎng)絡(luò)的分階段訓(xùn)練策略,以分別訓(xùn)練不同域間隙的源圖.在保證小間隙源圖的語義對(duì)齊的基礎(chǔ)上,提高了大間隙源圖的語義對(duì)齊性能.其次,針對(duì)源圖中域間隙差異大的像素區(qū)域,提出一種可解釋蒙版MaskNet,以避免這些像素降低模型的性能.相關(guān)數(shù)據(jù)集的實(shí)驗(yàn)表明,相比于目前流行的域自適應(yīng)語義分割算法,本文算法具有更好的變換質(zhì)量和更高的語義分割精度.在未來的工作中,進(jìn)一步利用場(chǎng)景深度信息去提高語義分割精度,這將對(duì)本系統(tǒng)的完善十分有意義.