王澤宇,布樹輝,黃偉,鄭遠(yuǎn)攀,吳慶崗,常化文,張旭
(1.鄭州輕工業(yè)大學(xué)計(jì)算機(jī)與通信工程學(xué)院,河南 鄭州 450000;2.西北工業(yè)大學(xué)航空學(xué)院,陜西 西安 710072)
語義分割[1]作為計(jì)算機(jī)視覺的基礎(chǔ)工作,它的核心問題是如何準(zhǔn)確地對(duì)圖像中每個(gè)像素進(jìn)行分類。高精度的語義分割對(duì)有效實(shí)現(xiàn)機(jī)器人任務(wù)規(guī)劃[2]、車輛自動(dòng)駕駛[3]以及語義SLAM(simultaneous localization and mapping)[4]等智能視覺任務(wù)起到至關(guān)重要的作用。因此,基于深度學(xué)習(xí)的語義分割被廣泛研究。卷積神經(jīng)網(wǎng)絡(luò)(CNN,convolutional neural network)在語義分割的局部對(duì)象視覺特征提取中取得成功[1,5],但是,由于卷積核感知域較小,因此提取的視覺特征一般缺少全局上下文信息,從而影響分割準(zhǔn)確率。為彌補(bǔ)CNN 空間結(jié)構(gòu)化學(xué)習(xí)能力的不足,長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM,long short-term memory network)聯(lián)合CNN 的混合網(wǎng)絡(luò)應(yīng)運(yùn)而生,文獻(xiàn)[6]通過LSTM 逐像素地遍歷圖像視覺特征來學(xué)習(xí)對(duì)象間的依賴關(guān)系,從而顯式地推理全局場(chǎng)景的空間特征。為進(jìn)一步提升分割精度,基于注意力機(jī)制的局部和全局特征融合被應(yīng)用于語義分割,文獻(xiàn)[7]根據(jù)對(duì)象視覺特征和所處全局場(chǎng)景空間特征的相關(guān)性自適應(yīng)地聚合有用上下文信息并屏蔽噪聲上下文信息,從而生成高質(zhì)量的綜合語義特征。
雖然上述有監(jiān)督訓(xùn)練語義分割網(wǎng)絡(luò)取得成功,但是,在有標(biāo)簽源域到無標(biāo)簽?zāi)繕?biāo)域的無監(jiān)督領(lǐng)域自適應(yīng)中,盡管領(lǐng)域間具有較高的語義相似性,由于目標(biāo)域沒有標(biāo)簽,不能直接優(yōu)化網(wǎng)絡(luò)參數(shù),僅基于源域訓(xùn)練的網(wǎng)絡(luò)無法理想地分割目標(biāo)域場(chǎng)景,而人工制作目標(biāo)域標(biāo)簽又必然提升成本。為能夠利用無標(biāo)簽?zāi)繕?biāo)域間接調(diào)優(yōu)網(wǎng)絡(luò)參數(shù),對(duì)抗學(xué)習(xí)[8]被廣泛應(yīng)用于領(lǐng)域自適應(yīng)中。文獻(xiàn)[9]首次通過對(duì)抗學(xué)習(xí)和附加類別約束減小領(lǐng)域間特征分布差異?;诖耍墨I(xiàn)[10]提出多級(jí)對(duì)抗學(xué)習(xí),通過設(shè)置的多個(gè)判別器與語義分割網(wǎng)絡(luò)的不同層次進(jìn)行對(duì)抗,從而對(duì)齊不同抽象級(jí)別特征的分布。但是,由于領(lǐng)域間存在對(duì)象紋理不同和外界環(huán)境變化(季節(jié)、天氣以及光照等)引起的視覺風(fēng)格差異,從而出現(xiàn)誤識(shí)別相兼容語義類別的問題。
為此,循環(huán)一致性[11]和域內(nèi)風(fēng)格不變表示(ISR,intra-domain style-invariant representation)[12]等圖像風(fēng)格轉(zhuǎn)換方法被應(yīng)用于減小領(lǐng)域間視覺風(fēng)格差異。在此基礎(chǔ)上,雙向?qū)W習(xí)(BDL,bidirectional learning)[13]、標(biāo)簽驅(qū)動(dòng)重建(LDR,label driven reconstruction)[14]和雙路徑學(xué)習(xí)(DPL,dual path learning)[15]等方法均提出一種雙向?qū)W習(xí)框架,通過圖像風(fēng)格轉(zhuǎn)換網(wǎng)絡(luò)和語義分割網(wǎng)絡(luò)相互促進(jìn),從而在確保語義內(nèi)容不變的情況下實(shí)現(xiàn)源域到目標(biāo)域圖像的視覺風(fēng)格轉(zhuǎn)換,進(jìn)而降低特征分布的錯(cuò)誤對(duì)齊。進(jìn)一步地,文獻(xiàn)[16]提出零風(fēng)格損失來分離圖像的語義內(nèi)容和視覺風(fēng)格,從而使用去除風(fēng)格差異的源域和目標(biāo)域圖像進(jìn)行有監(jiān)督訓(xùn)練。但是,引入圖像風(fēng)格轉(zhuǎn)換方法會(huì)增大網(wǎng)絡(luò)結(jié)構(gòu)的復(fù)雜度,同時(shí)降低網(wǎng)絡(luò)的訓(xùn)練效率。
為了利用無標(biāo)簽?zāi)繕?biāo)域有監(jiān)督訓(xùn)練語義分割網(wǎng)絡(luò),自監(jiān)督學(xué)習(xí)被用來為目標(biāo)域圖像生成標(biāo)簽,并基于多分類交叉熵?fù)p失調(diào)優(yōu)網(wǎng)絡(luò),從而直接拉近領(lǐng)域間的特征分布差異[17-19]。兩階段目標(biāo)域標(biāo)簽密集化(TPLD,two-phase pseudo label densification)生成策略[17]解決了目標(biāo)域標(biāo)簽過于稀疏而導(dǎo)致的特征分布距離無法有效拉近問題。無監(jiān)督域內(nèi)自適應(yīng)(UIA,unsupervised intra-domain adaptation)學(xué)習(xí)方法[18]首先按照同源域的分布接近程度對(duì)目標(biāo)域進(jìn)行劃分,然后按照分布差異由小到大的順序逐次對(duì)齊分布。文獻(xiàn)[19]通過不確定學(xué)習(xí)策略迭代自動(dòng)糾正目標(biāo)域生成的錯(cuò)誤標(biāo)簽,從而不斷提升所生成標(biāo)簽的正確率。但是,上述自監(jiān)督學(xué)習(xí)方法無法同時(shí)確保選定目標(biāo)域子集的稠密性和目標(biāo)域子集所生成標(biāo)簽的正確性,從而導(dǎo)致目標(biāo)域中出現(xiàn)較多未充分對(duì)齊或錯(cuò)誤對(duì)齊的像素。
值得注意的是,由于上述領(lǐng)域自適應(yīng)方法所訓(xùn)練ResNet-101(101-layer residual network)[5]的空間結(jié)構(gòu)化學(xué)習(xí)能力有限,因此,雖然對(duì)抗學(xué)習(xí)、圖像風(fēng)格轉(zhuǎn)換學(xué)習(xí)和自監(jiān)督學(xué)習(xí)在對(duì)齊領(lǐng)域間局部對(duì)象視覺特征分布上取得成功,但是上述方法無法有效減小全局場(chǎng)景空間特征的分布差異,從而由于缺少目標(biāo)域場(chǎng)景的全局上下文信息而影響綜合語義特征的生成質(zhì)量。為此,CDA(context-aware domain adaptation)[20]提出跨域的空間和通道注意力模塊,用來學(xué)習(xí)領(lǐng)域間共享的上下文信息,并基于對(duì)抗學(xué)習(xí)減小上下文信息的分布差異。另外,文獻(xiàn)[21]通過采樣和聚類的方法顯式學(xué)習(xí)領(lǐng)域間的上下文依賴關(guān)系,并同樣基于對(duì)抗學(xué)習(xí)對(duì)齊結(jié)構(gòu)化特征的分布。但是,上述方法未能全面地減小領(lǐng)域間視覺和空間特征的分布差異,同時(shí)沒有考慮融合視覺和空間信息的綜合語義特征的分布對(duì)齊。
綜上,由于領(lǐng)域間不僅存在局部對(duì)象的顏色、形狀以及紋理等視覺外觀差異,而且存在全局場(chǎng)景的環(huán)境、布局以及對(duì)象間邊界等空間結(jié)構(gòu)不同,因此,領(lǐng)域自適應(yīng)不僅需要減小局部對(duì)象的視覺特征分布差異,而且需要減小全局場(chǎng)景的空間特征分布差異,同時(shí)需要對(duì)齊融合視覺和空間信息的綜合語義特征分布。但是,現(xiàn)有方法[9-21]均未考慮全面減小上述三類特征的分布差異,從而導(dǎo)致無法在目標(biāo)域場(chǎng)景有效生成融合對(duì)象視覺和空間信息的綜合語義特征,這不僅會(huì)影響易混淆類別的區(qū)分,而且會(huì)出現(xiàn)尺寸較小對(duì)象的誤分割,因此,如何全面最小化領(lǐng)域間視覺、空間以及語義等三類特征的分布距離成為領(lǐng)域自適應(yīng)需要解決的核心問題。為此,本文提出基于多模態(tài)特征的無監(jiān)督領(lǐng)域自適應(yīng)多級(jí)對(duì)抗網(wǎng)絡(luò)(UDAMAN-MF,unsupervised domain adaptation multi-level adversarial network based on multi-modal features),首先,設(shè)計(jì)3 層結(jié)構(gòu)語義分割網(wǎng)絡(luò)分別從源域和目標(biāo)域?qū)W習(xí)視覺、空間以及語義特征,從而為領(lǐng)域間上述三類特征的分布對(duì)齊奠定網(wǎng)絡(luò)結(jié)構(gòu)基礎(chǔ);然后,在單級(jí)對(duì)抗學(xué)習(xí)中引入改進(jìn)的自監(jiān)督學(xué)習(xí),從而在特征分布距離最小化過程中實(shí)現(xiàn)更大目標(biāo)域子集的分布對(duì)齊;最后,基于多級(jí)對(duì)抗學(xué)習(xí)全面對(duì)齊3 層網(wǎng)絡(luò)所學(xué)三類特征的分布,從而有效學(xué)習(xí)各類特征的域間不變表示。主要貢獻(xiàn)如下。
1) 提出基于3 層結(jié)構(gòu)的注意力融合語義分割網(wǎng)絡(luò)。所提網(wǎng)絡(luò)由特征提取層、結(jié)構(gòu)化學(xué)習(xí)層和特征融合層組成,3 層子網(wǎng)能夠從源域和目標(biāo)域分別學(xué)習(xí)局部對(duì)象的多維視覺特征(HVF,hierarchical visual feature)、全局場(chǎng)景的空間結(jié)構(gòu)化特征(SSF,spatial structural features)以及包含綜合語義的多模態(tài)混合特征(MHF,multi-modal hybrid features),為領(lǐng)域間視覺、空間以及語義特征的分布對(duì)齊奠定基礎(chǔ)。
2) 聯(lián)合分布置信度和語義置信度的自監(jiān)督學(xué)習(xí)。為特征分布接近源域并且語義分類概率較高的目標(biāo)域子集生成標(biāo)簽,以同時(shí)確保選定子集的稠密性和生成標(biāo)簽的正確性,從而能夠通過有監(jiān)督訓(xùn)練直接對(duì)齊接近源域的有標(biāo)簽?zāi)繕?biāo)域子集的分布,進(jìn)而有助于無監(jiān)督對(duì)抗學(xué)習(xí)對(duì)齊遠(yuǎn)離源域的無標(biāo)簽?zāi)繕?biāo)域子集,以實(shí)現(xiàn)更大目標(biāo)域子集的分布對(duì)齊。
3) 基于多模態(tài)特征的多級(jí)對(duì)抗學(xué)習(xí)方法。通過3 路對(duì)抗分支與3 個(gè)自適應(yīng)子網(wǎng)的聯(lián)合對(duì)抗訓(xùn)練,以充分調(diào)優(yōu)各子網(wǎng)的參數(shù),從而全面減小低層子網(wǎng)所學(xué)視覺特征、中層子網(wǎng)所學(xué)空間特征以及整個(gè)網(wǎng)絡(luò)所學(xué)語義特征的分布差異,進(jìn)而有效學(xué)習(xí)上述三類特征的域間不變表示。
在領(lǐng)域自適應(yīng)中,由于領(lǐng)域間不僅存在局部對(duì)象視覺外觀特征的分布差異,而且存在全局場(chǎng)景空間結(jié)構(gòu)化特征的分布差異,同時(shí)存在包含對(duì)象視覺和空間信息的綜合語義特征的分布差異,因此,如何全面地減小上述三類特征的分布差異成為領(lǐng)域自適應(yīng)研究的關(guān)鍵。為此,本文提出 UDAMAN-MF。UDAMAN-MF 由2 個(gè)相互對(duì)抗的模塊組成,即基于3 層結(jié)構(gòu)的注意力融合語義分割網(wǎng)絡(luò)G和基于3 路并行對(duì)抗分支的判別器D,結(jié)構(gòu)如圖1 所示。G由特征提取層GHVF、結(jié)構(gòu)化學(xué)習(xí)層GSSF和特征融合層GMHF組成,分別用來提取局部對(duì)象的多維視覺特征、推理全局場(chǎng)景的空間結(jié)構(gòu)化特征以及融合生成包含對(duì)象綜合語義的多模態(tài)混合特征,從而為領(lǐng)域間視覺、空間以及語義等三類特征的分布對(duì)齊奠定網(wǎng)絡(luò)結(jié)構(gòu)基礎(chǔ);D由3 路并行的對(duì)抗分支DHVF、DSSF和DMHF構(gòu)成,用來與低層子網(wǎng)GHVF、中層子網(wǎng)GHVF+GSSF以及整個(gè)網(wǎng)絡(luò)GHVF+GSSF+GMHF進(jìn)行多級(jí)對(duì)抗訓(xùn)練,從而逐步減小領(lǐng)域間各子網(wǎng)所學(xué)特征的分布差異。
為了分別從源域和目標(biāo)域場(chǎng)景學(xué)習(xí)視覺、空間以及語義特征,本文提出基于3 層結(jié)構(gòu)的注意力融合語義分割網(wǎng)絡(luò),具體結(jié)構(gòu)如圖2 所示,其中,前端的特征提取層GHVF通過ResNet-101 提取局部對(duì)象的多維視覺特征,中端的結(jié)構(gòu)化學(xué)習(xí)層GSSF采用LSTM 推理全局場(chǎng)景的空間結(jié)構(gòu)化特征,后端的特征融合層GMHF基于注意力機(jī)制生成包含對(duì)象綜合語義的多模態(tài)混合特征,從而為領(lǐng)域間上述三類特征的分布對(duì)齊奠定網(wǎng)絡(luò)結(jié)構(gòu)基礎(chǔ)。
圖2 基于3 層結(jié)構(gòu)的注意力融合語義分割網(wǎng)絡(luò)結(jié)構(gòu)
1.1.1基于ResNet-101 的特征提取層
在特征提取層,ResNet-101 提取局部對(duì)象的多維視覺特征。ResNet-101 共5 層,設(shè)輸入圖像為I,則第l層的特征提取過程可以表示為
然后,級(jí)聯(lián)ResNet-101 各層上采樣的特征,則圖像中像素(i,j)的多維視覺特征可以表示為如式(2)所示。
其中,n、h和w分別表示多維視覺特征的維數(shù)、高度和寬度,函數(shù)up 表示上采樣操作。
1.1.2基于長(zhǎng)短期記憶網(wǎng)絡(luò)的結(jié)構(gòu)化學(xué)習(xí)層
結(jié)構(gòu)化學(xué)習(xí)層由4 路長(zhǎng)短期記憶網(wǎng)絡(luò)分支組成,各分支均由5 層LSTM 單元堆疊而成。4 路分支分別從4 個(gè)方向(用↓↑→←表示)逐像素地遍歷多維視覺特征,上述結(jié)構(gòu)化學(xué)習(xí)過程可以表示為
多維視覺特征經(jīng)過4 路LSTM 分支在4 個(gè)不同方向上的逐像素遍歷,推理的空間結(jié)構(gòu)化特征可以定義為
1.1.3基于注意力機(jī)制的特征融合層
為自適應(yīng)融合多維視覺特征HVF 和空間結(jié)構(gòu)化特征SSF,對(duì)于圖像中每個(gè)像素(i,j),首先,將其HVF 分別與4 個(gè)方向上的SSF 級(jí)聯(lián),并通過卷積操作對(duì)4 個(gè)方向上的級(jí)聯(lián)特征依次降維,上述過程可以表示為
其中,⊙表示點(diǎn)乘操作,e、h和w分別表示多模態(tài)混合特征的維數(shù)、高度和寬度。
最后,利用softmax 分類器并根據(jù)多模態(tài)混合特征逐像素地標(biāo)注圖像的語義類別。
為了全面對(duì)齊領(lǐng)域間網(wǎng)絡(luò)G所學(xué)多維視覺特征HVF、空間結(jié)構(gòu)化特征SSF 以及多模態(tài)混合特征MHF 的分布,本文提出基于多模態(tài)特征的多級(jí)對(duì)抗學(xué)習(xí)方法。通過判別器D中設(shè)置的3 路并行分支DHVF、DSSF和DMHF與網(wǎng)絡(luò)G中各自適應(yīng)子網(wǎng)GHVF、GHVF+GSSF和GHVF+GSSF+GMHF分別進(jìn)行單級(jí)對(duì)抗訓(xùn)練,從而逐步減小領(lǐng)域間各層子網(wǎng)所學(xué)模態(tài)特征的分布差異,進(jìn)而有效學(xué)習(xí)上述三類特征的域間不變表示。
對(duì)于網(wǎng)絡(luò)G所學(xué)每類特征,為了充分對(duì)齊目標(biāo)域中各像素的該類特征表示,在單級(jí)對(duì)抗學(xué)習(xí)中引入聯(lián)合分布置信度和語義置信度的自監(jiān)督學(xué)習(xí)方法。一方面,改進(jìn)自監(jiān)督學(xué)習(xí)為分布接近源域并且語義分類概率較高的目標(biāo)域子集生成標(biāo)簽,以同時(shí)確保選定目標(biāo)域子集的稠密性和所生成標(biāo)簽的正確性,從而能夠基于多分類交叉熵?fù)p失直接對(duì)齊有標(biāo)簽?zāi)繕?biāo)域子集的分布;另一方面,對(duì)抗學(xué)習(xí)通過對(duì)抗分支與對(duì)應(yīng)子網(wǎng)的競(jìng)爭(zhēng),從而間接拉近遠(yuǎn)離源域的無標(biāo)簽?zāi)繕?biāo)域子集與源域間的分布差異。兩者相互結(jié)合,從而在領(lǐng)域間所學(xué)特征分布距離最小化中實(shí)現(xiàn)更多目標(biāo)域像素的分布對(duì)齊。
1.2.1基于改進(jìn)自監(jiān)督學(xué)習(xí)的單級(jí)對(duì)抗學(xué)習(xí)方法
設(shè)標(biāo)簽源域S={(IS,YS)},YS表示源域圖像IS的標(biāo)簽,無標(biāo)簽?zāi)繕?biāo)域T={IT},IT表示目標(biāo)域圖像。在從源域S到目標(biāo)域T的領(lǐng)域自適應(yīng)中,一般對(duì)語義分割網(wǎng)絡(luò)G和判別器D進(jìn)行單級(jí)對(duì)抗訓(xùn)練[13],其中,D訓(xùn)練的目標(biāo)是能夠準(zhǔn)確地區(qū)分源域和目標(biāo)域語義分類概率間的分布差異;G訓(xùn)練的目標(biāo)是使目標(biāo)域語義分類概率能夠不斷接近源域語義分類概率的分布,從而達(dá)到成功欺騙D的目的。兩者相互對(duì)抗,從而逐步減小領(lǐng)域間網(wǎng)絡(luò)G所學(xué)特征的分布差異。
1) 判別器D的訓(xùn)練
為訓(xùn)練判別器D區(qū)分源域和目標(biāo)域語義分類概率的能力,目標(biāo)函數(shù)定義為二分類交叉熵?fù)p失lD,即
其中,當(dāng)z=1 時(shí),判別器D的輸入為源域語義分類概率G(IS);當(dāng)z=0 時(shí),判別器D的輸入為目標(biāo)域語義分類概率G(IT)。
2) 語義分割網(wǎng)絡(luò)G的訓(xùn)練
為對(duì)齊目標(biāo)域中更多像素的分布,網(wǎng)絡(luò)G的訓(xùn)練分為3 個(gè)過程:①基于多分類交叉熵?fù)p失,使用有標(biāo)簽源域S對(duì)網(wǎng)絡(luò)G進(jìn)行有監(jiān)督訓(xùn)練;②基于改進(jìn)自監(jiān)督學(xué)習(xí)損失為分布接近源域并且語義分類概率較高的目標(biāo)域子集生成標(biāo)簽,并利用包含標(biāo)簽的目標(biāo)域子集優(yōu)化網(wǎng)絡(luò)G;③基于對(duì)抗學(xué)習(xí)損失,通過判別器D的競(jìng)爭(zhēng)對(duì)抗再次調(diào)優(yōu)網(wǎng)絡(luò)G。較不包含自監(jiān)督學(xué)習(xí)的對(duì)抗訓(xùn)練,包含改進(jìn)自監(jiān)督學(xué)習(xí)的對(duì)抗訓(xùn)練能夠?qū)R更大目標(biāo)域子集的分布,如圖3(a)和圖3(b)所示。
圖3 基于不同自監(jiān)督學(xué)習(xí)方法的領(lǐng)域間特征分布對(duì)齊
首先,使用有標(biāo)簽源域S訓(xùn)練網(wǎng)絡(luò)G,該目標(biāo)函數(shù)定義為多分類交叉熵?fù)p失lseg,計(jì)算式為
其中,YS表示源域圖像IS的標(biāo)簽,G(IS)表示源域語義分類概率,C表示語義類別數(shù)。
然后,為了利用無標(biāo)簽?zāi)繕?biāo)域T有監(jiān)督訓(xùn)練網(wǎng)絡(luò)G,先通過基于源域S預(yù)訓(xùn)練的網(wǎng)絡(luò)G為目標(biāo)域圖像IT生成偽標(biāo)簽YT,計(jì)算式為
其中,函數(shù)argmax 用來選擇目標(biāo)域語義分類概率G(IT)中最大值對(duì)應(yīng)的通道作為圖像IT的偽標(biāo)簽。
為選擇偽標(biāo)簽中高可信的部分作為自監(jiān)督學(xué)習(xí)的真值標(biāo)簽,一般基于語義置信度選擇語義分類概率大于閾值的目標(biāo)域子集生成標(biāo)簽并進(jìn)行有監(jiān)督訓(xùn)練[13]。但是,若語義置信度閾值設(shè)置過大,則無法保證包含標(biāo)簽的目標(biāo)域子集的稠密性,從而導(dǎo)致對(duì)抗訓(xùn)練無法充分對(duì)齊剩余較大無標(biāo)簽?zāi)繕?biāo)域子集的分布,如圖3(c)所示;若閾值設(shè)置過小,則無法保證選定目標(biāo)域子集所生成標(biāo)簽的正確性,從而導(dǎo)致部分有標(biāo)簽?zāi)繕?biāo)域子集出現(xiàn)錯(cuò)誤的分布對(duì)齊,如圖3(d)所示。但是,若先求得分布接近源域的目標(biāo)域子集,再?gòu)慕咏从虻淖蛹羞x擇語義分類概率大于閾值的像素生成標(biāo)簽,則不需要設(shè)置較大的閾值便可保證其生成標(biāo)簽的正確性,同時(shí),迭代的自監(jiān)督學(xué)習(xí)和對(duì)抗學(xué)習(xí)能夠不斷增大分布接近源域的目標(biāo)域子集尺寸,進(jìn)而可確保包含標(biāo)簽的目標(biāo)域子集的稠密性。因此,為特征分布接近源域并且語義分類概率較高的目標(biāo)域子集生成標(biāo)簽,并基于改進(jìn)多分類交叉熵?fù)p失函數(shù)優(yōu)化網(wǎng)絡(luò)G,該目標(biāo)函數(shù)定義為自監(jiān)督學(xué)習(xí)損失lssl,計(jì)算式為
其中,MD表示偽標(biāo)簽YT的分布置信度掩碼,用來選擇分布接近源域的目標(biāo)域子集;TD表示分布置信度閾值,當(dāng)分布分類概率D(G(IT)) >TD時(shí),掩碼置1,否則置0;MG表示偽標(biāo)簽YT的語義置信度掩碼,用來選擇語義分類概率較高的目標(biāo)域子集;TG表示語義置信度閾值,當(dāng)語義分類概率G(IT) >TG時(shí),掩碼置1,否則置0。
最后,利用判別器D與網(wǎng)絡(luò)G進(jìn)行對(duì)抗,從而達(dá)到目標(biāo)域語義分類概率G(IT)成功欺騙判別器D的目的,該目標(biāo)函數(shù)定義為對(duì)抗學(xué)習(xí)損失ladv,計(jì)算式為
綜上,為使網(wǎng)絡(luò)G生成的目標(biāo)域語義分類概率G(IT)不斷接近源域語義分類概率G(IS)的分布,定義網(wǎng)絡(luò)G的單級(jí)領(lǐng)域自適應(yīng)損失lG為
其中,lseg表示多分類交叉熵?fù)p失函數(shù),lssl表示自監(jiān)督學(xué)習(xí)損失函數(shù),ladv表示對(duì)抗學(xué)習(xí)損失函數(shù),λseg、λssl和λadv分別表示上述三類損失的權(quán)重系數(shù)。
1.2.2基于多模態(tài)特征的多級(jí)對(duì)抗學(xué)習(xí)方法
由于自適應(yīng)子網(wǎng)GHVF和GHVF+GSSF距離網(wǎng)絡(luò)G輸出端較遠(yuǎn),低層和中層子網(wǎng)的參數(shù)無法通過單級(jí)對(duì)抗訓(xùn)練被充分調(diào)優(yōu),從而影響對(duì)應(yīng)層次所學(xué)特征的分布對(duì)齊。因此,本文基于單級(jí)對(duì)抗學(xué)習(xí),面向3 層結(jié)構(gòu)網(wǎng)絡(luò)G提出基于多模態(tài)特征的多級(jí)對(duì)抗學(xué)習(xí)方法,通過判別器D中3 路分支DHVF、DSSF和DMHF與網(wǎng)絡(luò)G中各子網(wǎng)GHVF、GHVF+GSSF和GHVF+GSSF+GMHF分別進(jìn)行單級(jí)對(duì)抗訓(xùn)練,從而全面減小領(lǐng)域間所學(xué)視覺、空間以及語義等三類特征的分布差異。
為使單級(jí)領(lǐng)域自適應(yīng)損失適用于基于多模態(tài)特征的多級(jí)對(duì)抗學(xué)習(xí),擴(kuò)展網(wǎng)絡(luò)G的目標(biāo)函數(shù)lG為多級(jí)領(lǐng)域自適應(yīng)損失,即
其中,F(xiàn)={HVF,SSF,MHF}表示網(wǎng)絡(luò)G所學(xué)三類特征的集合;i表示子網(wǎng)層次,當(dāng)i=HVF 時(shí)表示低層子網(wǎng)GHVF,當(dāng)i=SSF 時(shí)表示中層子網(wǎng)GHVF+GSSF,當(dāng)i=MHF 時(shí)表示整個(gè)網(wǎng)絡(luò)GHVF+GSSF+GMHF;分別表示第i層子網(wǎng)的多分類交叉熵?fù)p失、自監(jiān)督學(xué)習(xí)損失和對(duì)抗學(xué)習(xí)損失;分別表示第i層次子網(wǎng)的三類損失對(duì)應(yīng)的權(quán)重系數(shù)。
同時(shí),為與網(wǎng)絡(luò)G中各子網(wǎng)進(jìn)行對(duì)抗,在判別器D中設(shè)置3 路對(duì)抗分支,并擴(kuò)展判別器D的目標(biāo)函數(shù)lD為
其中,i表示判別器分支的層次,當(dāng)i=HVF 時(shí)表示低層子網(wǎng)的對(duì)抗分支DHVF,當(dāng)i=SSF 時(shí)表示中層子網(wǎng)的對(duì)抗分支DSSF,當(dāng)i=MHF 時(shí)表示整個(gè)網(wǎng)絡(luò)的對(duì)抗分支DMHF。
為了清晰地說明語義分割網(wǎng)絡(luò)G的參數(shù)調(diào)優(yōu),UDAMAN-MF 的多級(jí)對(duì)抗學(xué)習(xí)過程介紹如下。首先,基于多分類交叉熵?fù)p失lseg,使用有標(biāo)簽源域S對(duì)網(wǎng)絡(luò)G迭代訓(xùn)練100 次epoch,從而初始化網(wǎng)絡(luò)G的參數(shù)。然后,為保證網(wǎng)絡(luò)G的參數(shù)在后續(xù)的多級(jí)對(duì)抗訓(xùn)練中較快收斂,對(duì)網(wǎng)絡(luò)G和判別器分支DMHF迭代單級(jí)對(duì)抗訓(xùn)練200 次epoch,在每次迭代中,一方面,基于二分類交叉熵?fù)p失lDMHF訓(xùn)練對(duì)抗分支DMHF區(qū)分源域語義分類概率G(IS)和目標(biāo)域語義分類概率G(IT)的能力;另一方面,基于單級(jí)領(lǐng)域自適應(yīng)損失lGMHF訓(xùn)練網(wǎng)絡(luò)G,使網(wǎng)絡(luò)G輸出的目標(biāo)域語義分類概率G(IT)不斷接近源域語義分類概率G(IS)的分布。最后,對(duì)網(wǎng)絡(luò)G中3 個(gè)子網(wǎng)和判別器D中3 路分支迭代多級(jí)對(duì)抗訓(xùn)練200 次epoch,在每次迭代中,自適應(yīng)子網(wǎng)GHVF、GHVF+GSSF和GHVF+GSSF+GMHF分別與對(duì)應(yīng)的判別器分支DHVF、DSSF和DMHF依次進(jìn)行單級(jí)對(duì)抗訓(xùn)練,從而逐步調(diào)優(yōu)網(wǎng)絡(luò)G中各子網(wǎng)的參數(shù),進(jìn)而全面對(duì)齊領(lǐng)域間所學(xué)三類特征的分布。
為了驗(yàn)證UDAMAN-MF 的普適性,分別在室外和室內(nèi)場(chǎng)景數(shù)據(jù)集上對(duì)所提網(wǎng)絡(luò)進(jìn)行訓(xùn)練和測(cè)試。
在室外場(chǎng)景的領(lǐng)域自適應(yīng)中,選擇合成的GTA5[22]或SYNTHIA 數(shù)據(jù)集[23]作為源域,同時(shí)選擇真實(shí)的Cityscapes 數(shù)據(jù)集[24]作為目標(biāo)域。在訓(xùn)練階段,使用有標(biāo)簽的GTA5(SYNTHIA)數(shù)據(jù)集和無標(biāo)簽的Cityscapes 訓(xùn)練數(shù)據(jù)集進(jìn)行多級(jí)對(duì)抗訓(xùn)練;在測(cè)試階段,使用Cityscapes 驗(yàn)證數(shù)據(jù)集進(jìn)行測(cè)試。
在從源域 SUN-RGBD 數(shù)據(jù)集[25]到目標(biāo)域NYUD-v2 數(shù)據(jù)集[26]的室內(nèi)場(chǎng)景領(lǐng)域自適應(yīng)中,由于 SUN-RGBD 數(shù)據(jù)集由 NYUD-v2、Berkeley B3BO、SUN3D 以及新制作的數(shù)據(jù)四部分組成,為滿足領(lǐng)域間的差異性,選擇去除 NYUD-v2 的SUN-RGBD 數(shù)據(jù)集作為源域。在訓(xùn)練階段,使用有標(biāo)簽的 SUN-RGBD 訓(xùn)練數(shù)據(jù)集和無標(biāo)簽的NYUD-v2 訓(xùn)練數(shù)據(jù)集進(jìn)行多級(jí)對(duì)抗訓(xùn)練,在測(cè)試階段,使用NYUD-v2 測(cè)試數(shù)據(jù)集進(jìn)行驗(yàn)證。
另外,使用像素準(zhǔn)確率(PA,pixel accuracy)、平均準(zhǔn)確率(MA,mean accuracy)和平均交并比(mIoU,mean intersection over union)作為面向語義分割領(lǐng)域自適應(yīng)網(wǎng)絡(luò)的性能評(píng)價(jià)標(biāo)準(zhǔn)[1,13]。
基于開源的深度學(xué)習(xí)框架PyTorch[27]編碼實(shí)現(xiàn)UDAMAN-MF,并在一臺(tái)2 個(gè)2.4 GHz Intel Xeon Silver 4214R CPU(2×12 Cores)、24 GB NVIDIA GeForce GTX 3090 GPU 以及128 GB 內(nèi)存的計(jì)算機(jī)上進(jìn)行訓(xùn)練和測(cè)試。
2.2.1判別器的結(jié)構(gòu)
判別器D由3 路對(duì)抗分支DHVF、DSSF和DMHF組成,每路分支均由5 層核尺寸為4×4、步長(zhǎng)為2 的卷積操作構(gòu)成,各卷積層后均設(shè)置一個(gè)leaky ReLU激活函數(shù),各卷積層輸出特征的維數(shù)分別為64、128、256、512 和1。另外,為使判別器輸出的分布分類概率圖與輸入圖像尺寸相同,在最后一層卷積操作后添加一個(gè)上采樣操作。
2.2.2UDAMAN-MF 的訓(xùn)練
UDAMAN-MF 的訓(xùn)練共包括3 個(gè)階段:首先,基于多分類交叉熵?fù)p失訓(xùn)練網(wǎng)絡(luò)G;然后,對(duì)網(wǎng)絡(luò)G和判別器D中的分支DMHF進(jìn)行單級(jí)對(duì)抗訓(xùn)練;最后,對(duì)判別器D中3 路分支與網(wǎng)絡(luò)G中3 個(gè)子網(wǎng)進(jìn)行多級(jí)對(duì)抗訓(xùn)練。
訓(xùn)練階段1,通過反向傳播算法對(duì)網(wǎng)絡(luò)G中各層聯(lián)合優(yōu)化。在特征提取層,首先,通過公用模型resnet_v1_101_2016_08_28[5]初始化該層的參數(shù);然后,上采樣并級(jí)聯(lián)ResNet-101 各層輸出特征,各層輸出特征的維數(shù)分別為64、256、512、1 024和2 048;最后,將級(jí)聯(lián)特征送入3 層1×1 卷積做降維,各層輸出特征的維數(shù)分別為2 048、1 024 和512。在結(jié)構(gòu)化學(xué)習(xí)層,首先,為4 路遍歷分支均設(shè)置5 個(gè)LSTM 單元,并設(shè)置各LSTM 單元隱藏層狀態(tài)的維數(shù)分別為512、256、128、256 和512;然后,在[-0.05,0.05]的均勻分布下隨機(jī)地初始化4 路分支的參數(shù)。在特征融合層,首先通過3 層1×1 卷積將多維視覺特征依次與4 個(gè)方向上的空間結(jié)構(gòu)化特征做降維,各層輸出特征的維數(shù)分別為512、256 和256;然后,利用softmax 函數(shù)分別計(jì)算4 個(gè)方向上降維特征的注意力權(quán)重,并將4 個(gè)方向上的降維特征加權(quán)求和;最后,根據(jù)自適應(yīng)聚合的多模態(tài)混合特征逐像素地標(biāo)注語義類別;另外,在均值為0、標(biāo)準(zhǔn)差為0.05的正態(tài)分布下初始化該層的參數(shù)。在完成G的網(wǎng)絡(luò)參數(shù)設(shè)置后,設(shè)置G的訓(xùn)練參數(shù)如下:learning_rate=5×10-4、batch_size=8、momentum=0.9、weight_decay=10-4以及epoch=100,并采用隨機(jī)梯度下降算法優(yōu)化G的參數(shù)。
訓(xùn)練階段2,對(duì)網(wǎng)絡(luò)G和對(duì)抗分支DMHF進(jìn)行單級(jí)對(duì)抗訓(xùn)練。在每次迭代中,首先,基于多分類交叉熵?fù)p失微調(diào)網(wǎng)絡(luò)G;然后,基于二分類交叉熵?fù)p失訓(xùn)練對(duì)抗分支DMHF;接著,為目標(biāo)域生成標(biāo)簽,并基于自監(jiān)督學(xué)習(xí)損失優(yōu)化網(wǎng)絡(luò)G;最后,固定對(duì)抗分支DMHF的參數(shù),并基于對(duì)抗學(xué)習(xí)損失調(diào)優(yōu)網(wǎng)絡(luò)G。
訓(xùn)練階段3,對(duì)網(wǎng)絡(luò)G和判別器D進(jìn)行多級(jí)對(duì)抗訓(xùn)練,即判別器D中的3 路分支DHVF、DSSF和DMHF依次與網(wǎng)絡(luò)G中的3 個(gè)子網(wǎng)GHVF、GHVF+GSSF和GHVF+GSSF+GMHF進(jìn)行重復(fù)的單級(jí)對(duì)抗訓(xùn)練。
訓(xùn)練階段2 和訓(xùn)練階段3,設(shè)置網(wǎng)絡(luò)G的訓(xùn)練參數(shù)如下:optimizer(G)=SGD,learning_rate=2.5×10-4,batch_size=4,decay_policy=Poly,decay_power=0.9,momentum=0.9,weight_decay=5×10-4以及epoch=200。同時(shí),在均值為0、標(biāo)準(zhǔn)差為0.05 的正態(tài)分布下初始化判別器D中各分支的網(wǎng)絡(luò)參數(shù),并設(shè)置其訓(xùn)練參數(shù)如下:optimizer(D)=SGD,learning_rate=10-4,batch_size=4,momentum=0.9,weight_decay=5×10-4以及epoch=200。
在自監(jiān)督學(xué)習(xí)損失的閾值設(shè)置中,為3 個(gè)自適應(yīng)子網(wǎng)對(duì)應(yīng)的損失設(shè)置相同的閾值,其中,分布置信度閾值TD=0.6,語義置信度閾值TG=0.7。在多級(jí)領(lǐng)域自適應(yīng)損失的權(quán)重系數(shù)設(shè)置中,為距離網(wǎng)絡(luò)G輸出端較遠(yuǎn)的子網(wǎng)對(duì)應(yīng)的損失設(shè)置較小的權(quán)重系數(shù),權(quán)重系數(shù)分別設(shè)置如下:λsegHVF=0.3,λsslHVF=0.3,λadvHVF=0.000 2,λsegSSF=0.5,λsslSSF=0.5,λadvSSF=0.000 6,λsegMHF=1,λsslMHF=1 和λadvMHF=0.001。
2.3.1GTA5 到Cityscapes 的領(lǐng)域自適應(yīng)
1) UDAMAN-MF 與先進(jìn)方法的分割精度對(duì)比
源域GTA5 到目標(biāo)域Cityscapes 上UDAMAN-MF(基于3 層結(jié)構(gòu)語義分割網(wǎng)絡(luò))與先進(jìn)方法(基于ResNet-101)的訓(xùn)練方法與分割精度如表1 所示,訓(xùn)練方法中,A 表示對(duì)抗學(xué)習(xí)方法,S 表示自監(jiān)督學(xué)習(xí)方法,T 表示圖像風(fēng)格轉(zhuǎn)換方法;mIoU 表示分割精度的評(píng)價(jià)標(biāo)準(zhǔn)。從總體上講,所提網(wǎng)絡(luò)取得最優(yōu)的平均交并比62.2%;從相兼容19 種類別上看,相比其他方法,UDAMAN-MF 在11 種類別上的交并比均有一定程度的提升。特別地,所提網(wǎng)絡(luò)不僅在尺寸較小的類別上(如圍欄、桿、信號(hào)燈和交通標(biāo)識(shí)等)取得最優(yōu)的交并比,而且在易混淆類別上(如行人和騎手、摩托車和自行車等)也取得更高的分割精度。UDAMAN-MF 獲取成功的原因可歸納如下:第一,3 層結(jié)構(gòu)語義分割網(wǎng)絡(luò)不僅能夠有效提取局部對(duì)象的多維視覺特征,而且可以準(zhǔn)確推理全局場(chǎng)景的空間結(jié)構(gòu)化特征,融合生成的多模態(tài)混合特征能夠全面表達(dá)對(duì)象的綜合語義;第二,改進(jìn)的自監(jiān)督學(xué)習(xí)方法能夠確保選定目標(biāo)域子集的稠密性和所生成標(biāo)簽的正確性,從而能夠基于多分類交叉熵?fù)p失直接對(duì)齊接近源域的有標(biāo)簽?zāi)繕?biāo)域子集的分布,同時(shí)有助于對(duì)抗學(xué)習(xí)拉近遠(yuǎn)離源域的無標(biāo)簽?zāi)繕?biāo)域子集與源域間的分布差異,進(jìn)而實(shí)現(xiàn)目標(biāo)域中更多像素的分布對(duì)齊;第三,多級(jí)對(duì)抗學(xué)習(xí)方法能夠充分調(diào)優(yōu)3 層網(wǎng)絡(luò)中各子網(wǎng)的參數(shù),從而全面減小領(lǐng)域間所學(xué)視覺、空間以及語義特征的分布差異,進(jìn)而在目標(biāo)域場(chǎng)景中生成融合對(duì)象視覺和空間信息的綜合語義特征。
UDAMAN-MF 雖然在大多數(shù)類別上均取得較優(yōu)的交并比,但是在少數(shù)類別上(如地面、卡車和火車等)的分割精度卻較低,如表1 所示。為分析分割精度不夠理想的原因,圖4 列出語義分割混淆矩陣,其中,對(duì)角線表示各類別的像素準(zhǔn)確率,非對(duì)角線表示行類別誤預(yù)測(cè)為列類別的概率。從混淆矩陣中可發(fā)現(xiàn):第一,“地面”易誤分類為“馬路”和“人行道”,這主要由于上述類別在外觀或?qū)傩陨洗嬖谳^高的相似度;第二,“卡車”易誤分類為“汽車”,“火車”和“公交車”易相互混淆,除了視覺相似度較高外,主要與“卡車”和“火車”類別的出現(xiàn)頻率較低有關(guān),從而影響上述類別的充分學(xué)習(xí)。
圖4 語義分割混淆矩陣
表1 源域GTA5 到目標(biāo)域Cityscapes 上UDAMAN-MF 與先進(jìn)方法的訓(xùn)練方法與分割精度
2) UDAMAN-MF 的消融學(xué)習(xí)
為研究3 層結(jié)構(gòu)語義分割網(wǎng)絡(luò)、改進(jìn)自監(jiān)督學(xué)習(xí)方法以及多級(jí)對(duì)抗學(xué)習(xí)方法對(duì)于UDAMAN-MF的性能影響,在源域GTA5 到目標(biāo)域Cityscapes 的領(lǐng)域自適應(yīng)上進(jìn)行消融學(xué)習(xí),結(jié)果如表2 所示。
表2 源域GTA5 到目標(biāo)域Cityscapes 上的消融學(xué)習(xí)結(jié)果
首先,分別對(duì)低層子網(wǎng)GHVF、中層子網(wǎng)GHVF+GSSF和整個(gè)網(wǎng)絡(luò)GHVF+GSSF+GMHF進(jìn)行不包含自監(jiān)督學(xué)習(xí)的單級(jí)對(duì)抗訓(xùn)練。當(dāng)結(jié)構(gòu)化學(xué)習(xí)層GSSF添加到特征提取層GHVF末端時(shí),mIoU 從45.9%提升到49.2%;當(dāng)特征融合層GMHF添加到結(jié)構(gòu)化學(xué)習(xí)層GSSF末端時(shí),mIoU 從49.2%提升到50.4%。分割精度提升的原因如下。第一,結(jié)構(gòu)化學(xué)習(xí)層能夠準(zhǔn)確推理對(duì)象鄰近4 個(gè)區(qū)域的全局上下文信息,同時(shí),單級(jí)對(duì)抗學(xué)習(xí)可以減小領(lǐng)域間所學(xué)空間特征的分布差異,從而使網(wǎng)絡(luò)G更加準(zhǔn)確地推理目標(biāo)域場(chǎng)景的全局上下文信息,進(jìn)而能夠基于空間結(jié)構(gòu)化特征調(diào)優(yōu)分類結(jié)果和避免分類錯(cuò)誤。例如,雖然“行人”和“騎手”具有相似的視覺外觀,但是能夠根據(jù)鄰近場(chǎng)景的空間結(jié)構(gòu)化特性區(qū)分上述易混淆類別。第二,單級(jí)對(duì)抗訓(xùn)練的特征融合層能夠基于注意力機(jī)制實(shí)現(xiàn)目標(biāo)域場(chǎng)景中視覺和空間特征的有機(jī)融合,即根據(jù)對(duì)象鄰近4 個(gè)區(qū)域的全局上下文信息與其自身視覺信息的相關(guān)性進(jìn)行加權(quán)求和,從而自適應(yīng)聚合有用上下文信息和避免噪聲上下文信息,進(jìn)而顯著提升目標(biāo)域場(chǎng)景所學(xué)多模態(tài)混合特征的質(zhì)量。例如,對(duì)于“桿”“信號(hào)燈”和“交通標(biāo)識(shí)”等尺寸較小的類別,基于注意力機(jī)制的自適應(yīng)聚合可屏蔽背景噪聲的引入,以避免尺寸較小對(duì)象的視覺信息遭到破壞。
然后,對(duì)整個(gè)網(wǎng)絡(luò)GHVF+GSSF+GMHF分別進(jìn)行不包含和包含改進(jìn)自監(jiān)督學(xué)習(xí)的單級(jí)對(duì)抗訓(xùn)練,實(shí)驗(yàn)結(jié)果表明包含自監(jiān)督學(xué)習(xí)的對(duì)抗訓(xùn)練使分割精度提升了7.1%。這說明聯(lián)合分布置信度和語義置信度的自監(jiān)督學(xué)習(xí)在減小領(lǐng)域間分布差異上起到重要作用,該方法為分布接近源域并且語義分類概率較高的目標(biāo)域子集生成標(biāo)簽,從而可以直接對(duì)齊選中目標(biāo)域子集的分布,并大幅減小尚未對(duì)齊的目標(biāo)域子集尺寸,進(jìn)而有助于對(duì)抗學(xué)習(xí)對(duì)齊遠(yuǎn)離源域的無標(biāo)簽?zāi)繕?biāo)域子集的分布,以實(shí)現(xiàn)更大目標(biāo)域子集的分布對(duì)齊。
最后,對(duì)整個(gè)網(wǎng)絡(luò)分別進(jìn)行單級(jí)和多級(jí)對(duì)抗訓(xùn)練,實(shí)驗(yàn)結(jié)果表明,與單級(jí)對(duì)抗訓(xùn)練相比,多級(jí)對(duì)抗訓(xùn)練使分割精度提升了4.7%。這說明多級(jí)對(duì)抗訓(xùn)練能夠充分調(diào)優(yōu)距離網(wǎng)絡(luò)G輸出端較遠(yuǎn)的低層子網(wǎng)GHVF和中層子網(wǎng)GHVF+GSSF的參數(shù),從而全面減小領(lǐng)域間所學(xué)視覺、空間以及語義特征的分布差異,進(jìn)而有效學(xué)習(xí)上述三類特征的域間不變表示,融合生成的多模態(tài)混合特征能夠更準(zhǔn)確地表達(dá)對(duì)象的綜合語義特征。
3) UDAMAN-MF 的語義分割視覺效果
源域GTA5到目標(biāo)域Cityscapes領(lǐng)域自適應(yīng)的分割視覺效果如圖5 所示。從圖5 可發(fā)現(xiàn),首先,與圖5(b)相比,圖5(c)的誤分類像素大量減少,從而證明3 層結(jié)構(gòu)網(wǎng)絡(luò)有效提取多維視覺特征、顯式推理空間結(jié)構(gòu)化特征以及自適應(yīng)融合多模態(tài)混合特征的能力;然后,與圖5(c)相比,圖5(d)對(duì)象輪廓更平滑,從而證明對(duì)抗學(xué)習(xí)聯(lián)合改進(jìn)自監(jiān)督學(xué)習(xí)具有充分對(duì)齊目標(biāo)域中各像素特征分布的能力;最后,與圖5(d)相比,圖5(e)中形狀復(fù)雜對(duì)象的分割輪廓更精細(xì),從而證明多級(jí)對(duì)抗學(xué)習(xí)具有全面拉近領(lǐng)域間視覺、空間以及語義等三類特征分布差異的能力。
圖5 源域GTA5 到目標(biāo)域Cityscapes 領(lǐng)域自適應(yīng)的分割視覺效果
4) UDAMAN-MF 與先進(jìn)方法的穩(wěn)健性對(duì)比
為測(cè)試UDAMAN-MF 的穩(wěn)健性,使用基于快速梯度標(biāo)簽算法生成的3 組擾動(dòng)測(cè)試數(shù)據(jù)集評(píng)估所提網(wǎng)絡(luò)抗噪聲攻擊的能力,3 組數(shù)據(jù)集分別由干凈的Cityscapes 驗(yàn)證數(shù)據(jù)集和不同擾動(dòng)幅度ε(分別為0.1、0.25 和0.5)的噪聲輸入PSPNet(pyramid scene parsing network)生成[32]。源域GTA5 到目標(biāo)域Cityscapes 的抗攻擊能力如表3 所示,其中,mIoU 表示擾動(dòng)測(cè)試數(shù)據(jù)集上的平均交并比,mIoU*表示干凈測(cè)試數(shù)據(jù)集上的平均交并比,mIoU drop表示mIoU 較mIoU*的下降值,若mIoU 越高且mIoU drop 越低,則表明網(wǎng)絡(luò)的穩(wěn)健性越強(qiáng)。
表3 源域GTA5 到目標(biāo)域Cityscapes 的抗攻擊能力
從表3 中可發(fā)現(xiàn),第一,與沒有抗攻擊訓(xùn)練的方法相比,UDAMAN-MF 不僅在3 組擾動(dòng)數(shù)據(jù)集上的mIoU 均最優(yōu),而且mIoU drop 也均最低,這說明所提網(wǎng)絡(luò)具有較強(qiáng)的穩(wěn)健性,從而證明全面減小領(lǐng)域間所學(xué)視覺、空間以及語義等三類特征的分布差異能夠有效對(duì)抗噪聲擾動(dòng)的攻擊,進(jìn)而降低噪聲擾動(dòng)對(duì)所生成多模態(tài)混合特征質(zhì)量的影響;第二,較抗攻擊訓(xùn)練的ASSUDA(adversarial self-supervision unsupervised domain adaptation)網(wǎng)絡(luò)[32],雖然所提網(wǎng)絡(luò)在3 組數(shù)據(jù)集上的mIoU 優(yōu)于或接近 ASSUDA,但是 mIoU drop 卻均高于ASSUDA,這說明所提網(wǎng)絡(luò)的穩(wěn)健性遜于ASSUDA,導(dǎo)致穩(wěn)健性不強(qiáng)的原因在于噪聲擾動(dòng)會(huì)再次拉大領(lǐng)域間的特征分布差異,從而破壞所學(xué)特征的域間不變表示。
2.3.2SYNTHIA 到Cityscapes 的領(lǐng)域自適應(yīng)
源域SYNTHIA 到目標(biāo)域Cityscapes 的分割精度如表4 所示,mIoU 為分割精度的評(píng)價(jià)標(biāo)準(zhǔn)。在相兼容13 種領(lǐng)域自適應(yīng)中,UDAMAN-MF 在總體上將分割精度從63.1%提升到66.9%;同時(shí),在相兼容16 種領(lǐng)域自適應(yīng)中,UDAMAN-MF 在總體上也取得最優(yōu)的平均交并比58.8%。
表4 源域SYNTHIA 到目標(biāo)域Cityscapes 的分割精度
但是,對(duì)于墻、圍欄以及桿等類別,UDAMANMF 分割效果不夠理想,如圖6 所示。這主要由于上述類別出現(xiàn)的頻率不高,從而影響其有效學(xué)習(xí)。此外,由于源域SYNTHIA 和目標(biāo)域Cityscapes 間存在較大的視覺風(fēng)格差異(如光照和物體紋理),從而在一定程度上影響上述類別的分布差異拉近。因此,后續(xù)工作將在多級(jí)對(duì)抗學(xué)習(xí)中引入多級(jí)圖像風(fēng)格轉(zhuǎn)換方法,從而盡量降低視覺風(fēng)格差異對(duì)特征分布對(duì)齊的影響。
圖6 源域SYNTHIA 到目標(biāo)域Cityscapes 領(lǐng)域自適應(yīng)的分割視覺效果
2.3.3 SUN-RGBD 到NYUD-v2 的領(lǐng)域自適應(yīng)
為驗(yàn)證所提網(wǎng)絡(luò)的普適性,本節(jié)在源域SUN-RGBD到目標(biāo)域NYUD-v2的室內(nèi)場(chǎng)景進(jìn)行領(lǐng)域自適應(yīng)學(xué)習(xí),分割精度如表5 所示,像素準(zhǔn)確率、平均準(zhǔn)確率以及平均交并比為分割精度的評(píng)價(jià)標(biāo)準(zhǔn)。雖然相兼容類別多達(dá)37 種,但是所提網(wǎng)絡(luò)在上述評(píng)價(jià)標(biāo)準(zhǔn)上仍取得最優(yōu)的成績(jī),其PA、MA 和mIoU 分別為84.9%、74.6%和59.7%,較當(dāng)前先進(jìn)方法中的最優(yōu)結(jié)果,上述3 項(xiàng)評(píng)價(jià)標(biāo)準(zhǔn)分別提升了3.6%、4.9%和4.5%。源域SUN-RGBD 到目標(biāo)域NYUD-v2 領(lǐng)域的自適應(yīng)分割視覺效果如圖7 所示。從圖7 可以看出,所提網(wǎng)絡(luò)不僅能夠準(zhǔn)確地分割易識(shí)別類別(如墻面、地面、床、沙發(fā)和天花板等),而且可以較理想地解析形狀復(fù)雜類別(如椅子和人等)。所提網(wǎng)絡(luò)在室內(nèi)場(chǎng)景領(lǐng)域自適應(yīng)中取得的成績(jī)主要?dú)w功于精心設(shè)計(jì)的3層結(jié)構(gòu)語義分割網(wǎng)絡(luò)和基于改進(jìn)自監(jiān)督學(xué)習(xí)的多級(jí)對(duì)抗學(xué)習(xí)方法,從而能夠在目標(biāo)域場(chǎng)景有效地生成融合對(duì)象視覺和空間信息的綜合語義特征。
表5 源域SUN-RGBD 到目標(biāo)域NYUD-v2 的分割精度
本文面向語義分割提出基于多模態(tài)特征的無監(jiān)督領(lǐng)域自適應(yīng)多級(jí)對(duì)抗語義分割網(wǎng)絡(luò)。首先,所提3 層結(jié)構(gòu)的語義分割網(wǎng)絡(luò)能夠分別從兩域?qū)W習(xí)視覺、空間以及語義特征,從而為特征分布對(duì)齊奠定基礎(chǔ)。然后,改進(jìn)自監(jiān)督學(xué)習(xí)能夠確保選定目標(biāo)域子集的稠密性和所生成標(biāo)簽的正確性,從而可以直接對(duì)齊有標(biāo)簽?zāi)繕?biāo)域子集的分布,與對(duì)抗學(xué)習(xí)相互結(jié)合,能夠?qū)崿F(xiàn)更大目標(biāo)域子集的對(duì)齊。最后,多級(jí)對(duì)抗學(xué)習(xí)對(duì)3 路對(duì)抗分支與3 個(gè)子網(wǎng)分別進(jìn)行單級(jí)對(duì)抗訓(xùn)練,從而有效學(xué)習(xí)各子網(wǎng)輸出特征的域間不變表示。實(shí)驗(yàn)結(jié)果表明,在室外和室內(nèi)場(chǎng)景的3 個(gè)數(shù)據(jù)集上,UDAMAN-MF 均取得最優(yōu)的分割精度,證明其不僅具有全面對(duì)齊領(lǐng)域間視覺、空間以及語義特征分布的能力,而且具有良好的普適性。但是,當(dāng)目標(biāo)域數(shù)據(jù)遭受噪聲擾動(dòng)攻擊時(shí),所提網(wǎng)絡(luò)無法理想地對(duì)齊特征分布,因此,后續(xù)工作將在多級(jí)對(duì)抗學(xué)習(xí)中引入抗攻擊訓(xùn)練,從而提升網(wǎng)絡(luò)的穩(wěn)健性,以滿足機(jī)器人任務(wù)規(guī)劃和車輛自動(dòng)駕駛等智能視覺任務(wù)對(duì)安全性的要求。