何培玉,黃勁松
聯(lián)合語(yǔ)義代價(jià)體的立體匹配網(wǎng)絡(luò)改進(jìn)方法
何培玉,黃勁松
(武漢大學(xué)測(cè)繪學(xué)院,武漢 430079)
立體匹配是自主移動(dòng)平臺(tái)獲取周?chē)h(huán)境深度信息的主要方式之一。針對(duì)在低紋理、前景物體難以與背景區(qū)分等場(chǎng)景下,經(jīng)典立體匹配算法性能下降明顯這一問(wèn)題,圍繞將語(yǔ)義信息引入立體匹配網(wǎng)絡(luò)開(kāi)展研究,對(duì)現(xiàn)有聯(lián)合語(yǔ)義信息的立體匹配網(wǎng)絡(luò)進(jìn)行整合抽象,并針對(duì)現(xiàn)有方法的缺陷提出了聯(lián)合語(yǔ)義代價(jià)體的立體匹配網(wǎng)絡(luò)改進(jìn)方法,結(jié)合殘差結(jié)構(gòu)設(shè)計(jì),更充分地利用語(yǔ)義信息的同時(shí)保證了算法的實(shí)時(shí)性。實(shí)驗(yàn)結(jié)果表明,聯(lián)合語(yǔ)義信息對(duì)立體匹配網(wǎng)絡(luò)整體精度有所提升,并對(duì)病態(tài)區(qū)域中的結(jié)果有所改善,同時(shí)驗(yàn)證了本文方法相較于其他聯(lián)合語(yǔ)義信息方法的優(yōu)越性。
深度學(xué)習(xí);立體匹配;語(yǔ)義信息;語(yǔ)義分割;多任務(wù)網(wǎng)絡(luò)
雙目立體匹配旨在通過(guò)對(duì)雙目圖像中的同名點(diǎn)進(jìn)行匹配,根據(jù)匹配點(diǎn)對(duì)的視差來(lái)恢復(fù)圖像中物體的深度信息。根據(jù)獲得的深度信息,可以進(jìn)一步提取出場(chǎng)景中的障礙物,恢復(fù)物體的3維信息,廣泛地應(yīng)用在例如無(wú)人駕駛車(chē)輛等自主移動(dòng)平臺(tái)的環(huán)境感知模塊以及3維重建等領(lǐng)域。
相較于文獻(xiàn)[1-2]中傳統(tǒng)的立體匹配方法,端到端的方法在估計(jì)精度和計(jì)算速度等方面得到了極大的提升[3]。在傳統(tǒng)方法中,人為設(shè)計(jì)的視覺(jué)特征魯棒性較差,難以適應(yīng)多種復(fù)雜環(huán)境,而端到端的方法憑借其強(qiáng)大的學(xué)習(xí)能力在多種場(chǎng)景下實(shí)現(xiàn)了快速且準(zhǔn)確的立體匹配[4]。早期,例如文獻(xiàn)[5-6]中的一些方法使用卷積神經(jīng)網(wǎng)絡(luò)來(lái)替代傳統(tǒng)立體匹配方法中的部分步驟。2016年文獻(xiàn)[7]提出了視差網(wǎng)絡(luò)(disparity network, DispNet),基于編碼器-解碼器的框架首次實(shí)現(xiàn)了端到端的立體匹配網(wǎng)絡(luò)。文獻(xiàn)[8]中基于幾何和上下文的深度回歸網(wǎng)絡(luò)(geometry and context network, GCNet)首次將 3維(3-dimentional, 3D)卷積引入了立體匹配網(wǎng)絡(luò)構(gòu)建中,保留了更多的特征信息。除此以外,在GCNet中提出了使用可微的最值函數(shù)(soft argmax)來(lái)實(shí)現(xiàn)最后的視差回歸(regression)。自此,在基于深度學(xué)習(xí)的立體匹配方法中,基于3D卷積和soft argmax的方法逐漸成為主流。
但對(duì)于低紋理、前景物體不明顯等復(fù)雜區(qū)域,端到端的立體匹配網(wǎng)絡(luò)雖然相較于傳統(tǒng)方法有一定程度的改善,但是仍然難以得到十分準(zhǔn)確的視差結(jié)果[9]。為了進(jìn)一步提高立體匹配網(wǎng)絡(luò)精度,文獻(xiàn)[10-12]中的各種網(wǎng)絡(luò)通過(guò)增加代價(jià)體規(guī)模或數(shù)量的方式提高對(duì)上下文信息的利用,有效提高了立體匹配的整體精度,但上述方式極大地增加了內(nèi)存消耗,同時(shí)需要大量的計(jì)算。例如文獻(xiàn)[10]中的金字塔立體匹配網(wǎng)絡(luò)(pyramid stereo matching network, PSM),一次前向計(jì)算需要進(jìn)行數(shù)千億次浮點(diǎn)運(yùn)算,參數(shù)量也達(dá)到了數(shù)百萬(wàn)個(gè),難以進(jìn)行實(shí)時(shí)推斷。
針對(duì)上述問(wèn)題,文獻(xiàn)[13-16]均是基于多任務(wù)網(wǎng)絡(luò)框架,以聯(lián)合語(yǔ)義特征圖的形式在立體匹配分支中引入語(yǔ)義信息,以較小的代價(jià)有效提高立體匹配網(wǎng)絡(luò)精度,同時(shí)獲得其他相關(guān)信息。但是上述聯(lián)合語(yǔ)義信息的方法基于不同的立體匹配網(wǎng)絡(luò)框架,在模型構(gòu)建上具有其特異性,同時(shí)訓(xùn)練方式也有很大差別,因此無(wú)法依據(jù)上述論文的結(jié)果對(duì)不同的聯(lián)合方式進(jìn)行說(shuō)明和比對(duì),對(duì)研究如何合理、有效地在立體匹配網(wǎng)絡(luò)中聯(lián)合語(yǔ)義信息造成了阻礙。
本文在統(tǒng)一的立體匹配網(wǎng)絡(luò)框架中實(shí)現(xiàn)了已有的聯(lián)合語(yǔ)義信息的方法,同時(shí)提出了一種結(jié)合語(yǔ)義代價(jià)體和殘差結(jié)構(gòu)的聯(lián)合方法,并在國(guó)際上最大的自動(dòng)駕駛場(chǎng)景下的計(jì)算機(jī)視覺(jué)算法評(píng)測(cè)數(shù)據(jù)集(KITTI)中的雙目數(shù)據(jù)集(KITTI Stereo)上驗(yàn)證聯(lián)合語(yǔ)義信息對(duì)立體匹配算法整體精度的提升以及對(duì)病態(tài)區(qū)域視差估計(jì)結(jié)果的改善,對(duì)上述多種聯(lián)合語(yǔ)義信息的方式進(jìn)行了比較。KITTI數(shù)據(jù)集是由德國(guó)卡爾斯魯厄理工學(xué)院(Karlsruhe Institute of Technology, KIT)和豐田工業(yè)大學(xué)芝加哥分校(Toyota Technological Institute at Chicago, TTIC)聯(lián)合創(chuàng)辦,利用組裝的設(shè)備齊全的采集車(chē)輛對(duì)實(shí)際交通場(chǎng)景進(jìn)行數(shù)據(jù)采集獲得的公開(kāi)數(shù)據(jù)集。
本文采用的統(tǒng)一的立體匹配網(wǎng)絡(luò)框架如圖1所示。網(wǎng)絡(luò)結(jié)構(gòu)可分為特征提取、構(gòu)建代價(jià)體、正則化代價(jià)體及視差回歸4個(gè)部分。雙目圖像同時(shí)輸?shù)教卣魈崛∧K以獲取雙目特征圖;隨后使用雙目特征圖構(gòu)建代價(jià)體,以此表示雙目特征在待估計(jì)視差范圍內(nèi)的匹配關(guān)系;再通過(guò)3D卷積層對(duì)代價(jià)體進(jìn)行正則化處理,最后使用soft argmax操作對(duì)正則化后的特征圖進(jìn)一步回歸,得到預(yù)測(cè)的視差圖。
圖1 立體匹配網(wǎng)絡(luò)框架
在具體的網(wǎng)絡(luò)設(shè)計(jì)中,特征提取部分采用簡(jiǎn)單的編碼器-解碼器結(jié)構(gòu);同時(shí),為了獲取豐富的上下文信息,在上采樣過(guò)程中通過(guò)文獻(xiàn)[17]中提出的跳連操作將底層特征和深層特征融合。代價(jià)體的構(gòu)建則采用了單通道方式,即在通道維度上求解范數(shù)作為匹配代價(jià)值,以此減小3D卷積層的計(jì)算量。
立體匹配網(wǎng)絡(luò)和語(yǔ)義分割網(wǎng)絡(luò)在結(jié)構(gòu)上具有很大程度的相似性,且均是稠密的、像素級(jí)別的輸出。語(yǔ)義分割網(wǎng)絡(luò)框架如圖2所示。語(yǔ)義分割網(wǎng)絡(luò)在編碼器-解碼器結(jié)構(gòu)的特征提取器后添加若干層二維卷積以及歸一化指數(shù)函數(shù)(softmax)操作以構(gòu)建語(yǔ)義分割分支,對(duì)特征圖進(jìn)行進(jìn)一步處理并將特征圖轉(zhuǎn)換為語(yǔ)義標(biāo)簽的概率分布。
圖2 語(yǔ)義分割網(wǎng)絡(luò)框架
從算法流程和特征類(lèi)型上看,立體匹配網(wǎng)絡(luò)中主要借助局部的、低語(yǔ)義的底層特征進(jìn)行左右目間的同名點(diǎn)匹配,而語(yǔ)義分割網(wǎng)絡(luò)中主要依靠更大感受野、包含更多語(yǔ)義信息的特征進(jìn)行語(yǔ)義標(biāo)簽的預(yù)測(cè),二者的信息存在互補(bǔ)的關(guān)系。除此以外,根據(jù)語(yǔ)義分割獲得的語(yǔ)義信息,可以提高低紋理、遮擋等區(qū)域的立體匹配結(jié)果的準(zhǔn)確性。因此可通過(guò)聯(lián)合語(yǔ)義信息提升立體匹配的精度。
1.2.1 聯(lián)合語(yǔ)義分割任務(wù)
考慮到立體匹配和語(yǔ)義分割均是稠密的像素級(jí)預(yù)測(cè)任務(wù),其特征提取模塊存在共用的可能性,因此可直接在已有的立體匹配網(wǎng)絡(luò)基礎(chǔ)上添加語(yǔ)義分割分支,以多任務(wù)網(wǎng)絡(luò)形式聯(lián)合語(yǔ)義信息,具體框架如圖3所示。
圖3 立體匹配和語(yǔ)義分割的多任務(wù)網(wǎng)絡(luò)框架
其中特征提取部分完全共享,生成的特征圖可以同時(shí)輸入立體匹配分支和語(yǔ)義分割分支中,分別進(jìn)行語(yǔ)義分割結(jié)果和視差圖的估計(jì)。而語(yǔ)義分割分支與立體匹配分支的設(shè)計(jì)與1.1節(jié)中保持一致。
以多任務(wù)的形式聯(lián)合語(yǔ)義信息可豐富原本立體匹配任務(wù)中的特征類(lèi)型,但僅僅是通過(guò)反向傳播影響底層特征提取模塊。因此在多任務(wù)的基礎(chǔ)上,已有的研究考慮了更多樣的聯(lián)合方法,加強(qiáng) 2個(gè)子任務(wù)的聯(lián)系。
1.2.2 聯(lián)合語(yǔ)義特征圖
聯(lián)合語(yǔ)義特征圖是指在多任務(wù)網(wǎng)絡(luò)基礎(chǔ)上將語(yǔ)義分割分支中產(chǎn)生的特征圖引入立體匹配分支中,參與到視差估計(jì)的過(guò)程中。目前文獻(xiàn)[13-16]中的已有研究均是通過(guò)該方式將語(yǔ)義信息添加到立體匹配網(wǎng)絡(luò)中,但根據(jù)引入語(yǔ)義特征圖的位置不同可分為特征圖級(jí)聯(lián)、代價(jià)體融合和細(xì)化視差 3種聯(lián)合模式。其中文獻(xiàn)[13]提出的語(yǔ)義分割的立體匹配網(wǎng)絡(luò)(semantic segmentation stereo matching network, SegStereo)是在進(jìn)入立體匹配分支前,將2個(gè)任務(wù)的特征圖級(jí)聯(lián),共同構(gòu)建代價(jià)體,也即特征圖級(jí)聯(lián)的聯(lián)合方式;文獻(xiàn)[14]中基于金字塔代價(jià)體的語(yǔ)義立體匹配網(wǎng)絡(luò)(semantic stereo matching network with pyramid cost volumes, SSPCV-Net)在代價(jià)體進(jìn)入3D卷積模塊之前利用代價(jià)體聚合模塊將原有的代價(jià)體和語(yǔ)義代價(jià)體融合,采用的是代價(jià)體融合的聯(lián)合方式;而文獻(xiàn)[15]中的語(yǔ)義輔助的視差網(wǎng)絡(luò)(disparity estimation network with semantics, DispSegNet)和文獻(xiàn)[16]中的實(shí)時(shí)語(yǔ)義立體匹配網(wǎng)絡(luò)(real-time semantic stereo matching network, RST2Net)則是在立體匹配分支生成視差圖后,聯(lián)合語(yǔ)義特征圖對(duì)已有的預(yù)測(cè)結(jié)果進(jìn)行細(xì)化,是細(xì)化視差的聯(lián)合方式。
特征圖級(jí)聯(lián)的聯(lián)合方式將雙目的語(yǔ)義特征圖和輸入立體匹配分支的原始特征圖在通道維上進(jìn)行級(jí)聯(lián),替代原有的特征圖來(lái)進(jìn)行代價(jià)體的構(gòu)建和后續(xù)的視差計(jì)算。具體網(wǎng)絡(luò)框架如圖4所示。
圖4 特征圖級(jí)聯(lián)的聯(lián)合網(wǎng)絡(luò)框架
代價(jià)體融合的聯(lián)合方式是利用語(yǔ)義特征構(gòu)成新增的代價(jià)體,再與立體匹配分支中原有的代價(jià)體進(jìn)行融合,共同輸入3D卷積模塊中進(jìn)行代價(jià)體的正則化。在代價(jià)體融合的過(guò)程中,首先要進(jìn)行語(yǔ)義代價(jià)體的構(gòu)建,然后要建立代價(jià)體的融合模塊,將語(yǔ)義代價(jià)體和原有的特征代價(jià)體進(jìn)行融合,再將融合后的代價(jià)體輸入3D卷積層中進(jìn)行處理。整體網(wǎng)絡(luò)框架如圖5所示,其中的代價(jià)體融合模塊與SSPCV-Net中設(shè)計(jì)一致。
除了上述2種聯(lián)合方式,還可以將已有的視差估計(jì)結(jié)果與語(yǔ)義特征圖在通道維上級(jí)聯(lián),再將級(jí)聯(lián)的結(jié)果輸入簡(jiǎn)單的、由多個(gè)2D卷積堆疊起來(lái)的細(xì)化模塊,利用語(yǔ)義信息細(xì)化原有的視差估計(jì)結(jié)果。細(xì)化視差的聯(lián)合網(wǎng)絡(luò)結(jié)構(gòu)如圖6所示。
圖5 代價(jià)體融合的聯(lián)合網(wǎng)絡(luò)框架
圖6 細(xì)化視差的聯(lián)合網(wǎng)絡(luò)框架
特征圖級(jí)聯(lián)的聯(lián)合網(wǎng)絡(luò)使用級(jí)聯(lián)后的特征圖進(jìn)行代價(jià)體的構(gòu)建,但是在通道維上級(jí)聯(lián)的融合方式過(guò)于簡(jiǎn)單,且在構(gòu)建單通道代價(jià)體過(guò)程中存在較大的信息損失。同樣地,代價(jià)體融合的聯(lián)合方式如果基于單通道代價(jià)體進(jìn)行融合會(huì)存在較大的信息損失,但如果使用多通道的代價(jià)體則計(jì)算量過(guò)大。而細(xì)化視差的聯(lián)合網(wǎng)絡(luò)僅僅使用了單目的語(yǔ)義特征,沒(méi)有用到雙目語(yǔ)義特征的匹配信息。因此考慮將以上3種聯(lián)合方式結(jié)合起來(lái),本文提出利用單獨(dú)的語(yǔ)義代價(jià)體對(duì)已有的視差結(jié)果進(jìn)行細(xì)化。該方法首先使用語(yǔ)義特征和已有的視差結(jié)果構(gòu)建規(guī)模較小的語(yǔ)義代價(jià)體,然后通過(guò)堆疊的3D卷積對(duì)語(yǔ)義代價(jià)體進(jìn)行處理,最后利用估計(jì)視差殘差(residual)的方式來(lái)實(shí)現(xiàn)視差細(xì)化。具體網(wǎng)絡(luò)結(jié)構(gòu)如圖7所示。
圖7 聯(lián)合語(yǔ)義代價(jià)體的立體匹配網(wǎng)絡(luò)框架
聯(lián)合語(yǔ)義代價(jià)體的方法首先利用已有的視差結(jié)果將右目的語(yǔ)義特征投影(warping)到左目,再將得到的投影結(jié)果與原本的左目語(yǔ)義特征圖用于構(gòu)建語(yǔ)義代價(jià)體。通過(guò)正則化代價(jià)體和視差回歸過(guò)程,網(wǎng)絡(luò)得到相較于已有視差結(jié)果的殘差值,將該殘差值與原有的視差結(jié)果相加即可得到經(jīng)過(guò)細(xì)化后的視差結(jié)果。不同于立體匹配分支中原本的代價(jià)體構(gòu)建方式,此處語(yǔ)義代價(jià)體的構(gòu)建利用了已有的視差結(jié)果,在視差殘差的范圍上構(gòu)建語(yǔ)義代價(jià)體,很大程度上減小了語(yǔ)義代價(jià)體的規(guī)模。
構(gòu)建單獨(dú)的語(yǔ)義代價(jià)體的方式既能夠利用到單目語(yǔ)義特征來(lái)引導(dǎo)物體邊緣部分的視差估計(jì),也能夠通過(guò)語(yǔ)義特征之間的匹配關(guān)系進(jìn)一步完善原本特征難以匹配的區(qū)域,更完整、充分地利用到語(yǔ)義信息。同時(shí)殘差結(jié)構(gòu)的設(shè)計(jì)減小了語(yǔ)義代價(jià)體的規(guī)模,進(jìn)而減少了處理語(yǔ)義代價(jià)體所需要的計(jì)算消耗,保證了算法的實(shí)時(shí)性。
1)CityScapes。城市場(chǎng)景數(shù)據(jù)集(CityScapes)是語(yǔ)義分割中常用的數(shù)據(jù)集,采集于真實(shí)的駕駛場(chǎng)景,包含了50個(gè)不同城市的街道場(chǎng)景中記錄的立體視頻序列,包含了5000幀的高質(zhì)量像素級(jí)語(yǔ)義標(biāo)注。數(shù)據(jù)集中的視差圖是通過(guò)半全局匹配算法(semi-global matching,SGM)算法獲得,精度很低且存在大量的空洞,難以作為準(zhǔn)確的立體匹配訓(xùn)練數(shù)據(jù)。該數(shù)據(jù)集主要用于對(duì)網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練。
2)KITTI Stereo。該數(shù)據(jù)集同樣采集于真實(shí)的駕駛場(chǎng)景,其中視差信息來(lái)源于激光雷達(dá)的點(diǎn)云數(shù)據(jù),是稀疏的、更為準(zhǔn)確的視差標(biāo)注。但是數(shù)據(jù)集規(guī)模較小,僅有約400對(duì)訓(xùn)練立體圖像對(duì),因此主要用于對(duì)模型進(jìn)行微調(diào)及后續(xù)評(píng)估。
3)評(píng)估指標(biāo)。立體匹配常常采用-像素誤差(-pixel error,PE)評(píng)估視差估計(jì)結(jié)果的準(zhǔn)確性,計(jì)算方式為
本文采用平滑的最小絕對(duì)值偏差損失函數(shù)(smooth l1 loss)進(jìn)行視差分支的訓(xùn)練,在語(yǔ)義分割任務(wù)中則采用交叉熵函數(shù)(crossentropy loss)進(jìn)行訓(xùn)練。
定義視差損失函數(shù)為
語(yǔ)義分割損失函數(shù)定義為
聯(lián)合語(yǔ)義信息的立體匹配網(wǎng)絡(luò)的整體損失函數(shù)為
為了說(shuō)明聯(lián)合語(yǔ)義信息后對(duì)立體匹配算法整體精度的提升,以及對(duì)多種聯(lián)合語(yǔ)義信息的方式進(jìn)行比對(duì),進(jìn)行了多組實(shí)驗(yàn)對(duì)不同的網(wǎng)絡(luò)結(jié)構(gòu)生成的視差結(jié)果進(jìn)行評(píng)估。
在表1中,對(duì)單獨(dú)的立體匹配網(wǎng)絡(luò)、多任務(wù)網(wǎng)絡(luò)、特征圖級(jí)聯(lián)的聯(lián)合網(wǎng)絡(luò)、代價(jià)體融合的聯(lián)合網(wǎng)絡(luò)、細(xì)化視差的聯(lián)合網(wǎng)絡(luò)以及基于語(yǔ)義代價(jià)體細(xì)化視差的聯(lián)合網(wǎng)絡(luò)的浮點(diǎn)運(yùn)算次數(shù)(floating point operations, FLOPs)、參數(shù)量和推斷時(shí)間進(jìn)行了統(tǒng)計(jì)和比對(duì)。
表1 不同網(wǎng)絡(luò)結(jié)構(gòu)的計(jì)算效率統(tǒng)計(jì)
從表1可以看出,相較于單獨(dú)的立體匹配網(wǎng)絡(luò),聯(lián)合語(yǔ)義信息的各個(gè)網(wǎng)絡(luò)計(jì)算量和參數(shù)量?jī)H存在少量的增長(zhǎng),但即使是其中最復(fù)雜的結(jié)合語(yǔ)義代價(jià)體和殘差結(jié)構(gòu)的聯(lián)合網(wǎng)絡(luò),其浮點(diǎn)運(yùn)算數(shù)和參數(shù)量亦均比PSMNet低1個(gè)數(shù)量級(jí),且能保證實(shí)時(shí)的推斷速度。
從KITTI Stereo的訓(xùn)練集中隨機(jī)分離出40張圖片作為驗(yàn)證集,不參與模型的訓(xùn)練。在訓(xùn)練結(jié)束后使用驗(yàn)證集對(duì)模型進(jìn)行整體精度的評(píng)估,評(píng)估結(jié)果如表2所示。
表2 不同網(wǎng)絡(luò)結(jié)構(gòu)在KITTI Stereo上的表現(xiàn)
從表2中的評(píng)估結(jié)果可以看出,聯(lián)合語(yǔ)義信息有效提高了立體匹配結(jié)果的整體精度。單以多任務(wù)的形式聯(lián)合語(yǔ)義信息,在整體精度的提升上并不明顯;而在不同的聯(lián)合語(yǔ)義信息的網(wǎng)絡(luò)結(jié)構(gòu)中,聯(lián)合語(yǔ)義代價(jià)體的立體匹配網(wǎng)絡(luò)對(duì)于結(jié)果的整體精度提升最高。
圖8和圖9中分別選取了包含了大部分低紋理區(qū)域的圖像1和前景物體不明顯的圖像2作為測(cè)試圖像,對(duì)各個(gè)網(wǎng)絡(luò)產(chǎn)生的視差預(yù)測(cè)結(jié)果以及預(yù)測(cè)誤差進(jìn)行可視化。預(yù)測(cè)結(jié)果可視化結(jié)果中亮度越大表示視差值越大,也即距離越近。在預(yù)測(cè)誤差可視化結(jié)果中,亮度越大表示誤差值越大。
從圖8和圖9可以看出,僅僅聯(lián)合語(yǔ)義分割任務(wù)難以對(duì)病態(tài)區(qū)域有明顯的改善,而聯(lián)合語(yǔ)義特征圖和聯(lián)合語(yǔ)義代價(jià)體的方式相較于單一的立體匹配網(wǎng)絡(luò)在低紋理區(qū)域能進(jìn)行更為準(zhǔn)確、完整的視差估計(jì);對(duì)于低紋理區(qū)域以及從色彩上難以分辨的前景物體,例如電線桿、樹(shù)木等,聯(lián)合語(yǔ)義的網(wǎng)絡(luò)也獲得了更準(zhǔn)確的視差結(jié)果。另在表3中統(tǒng)計(jì)了圖像1和圖像2在多種網(wǎng)絡(luò)結(jié)構(gòu)中預(yù)測(cè)結(jié)果的3-像素誤差值,從指標(biāo)上說(shuō)明了聯(lián)合語(yǔ)義特征圖和聯(lián)合語(yǔ)義代價(jià)體的立體匹配網(wǎng)絡(luò)在低紋理區(qū)域以及前景物體處視差結(jié)果的明顯改善。
圖8 圖像1的預(yù)測(cè)結(jié)果和預(yù)測(cè)誤差可視化
圖9 圖像2的預(yù)測(cè)結(jié)果和預(yù)測(cè)誤差可視化
表3 圖像1和圖像2的視差結(jié)果3-像素誤差統(tǒng)計(jì) %
上述實(shí)驗(yàn)從1/3-像素誤差的定量評(píng)估和部分復(fù)雜場(chǎng)景的可視化2個(gè)方面證實(shí)了聯(lián)合語(yǔ)義分割的立體匹配網(wǎng)絡(luò)相較于單獨(dú)的立體匹配網(wǎng)絡(luò)在整體精度上的提升以及復(fù)雜區(qū)域上的改善。同時(shí),各種聯(lián)合語(yǔ)義信息的立體匹配網(wǎng)絡(luò)均在計(jì)算量和參數(shù)量上都保持了合理的增長(zhǎng),在實(shí)驗(yàn)設(shè)備上維持了實(shí)時(shí)的推算。其中,本文提出的聯(lián)合語(yǔ)義代價(jià)體的立體匹配網(wǎng)絡(luò)因?yàn)闃?gòu)建了單獨(dú)的語(yǔ)義代價(jià)體,既能夠利用到單目語(yǔ)義特征來(lái)引導(dǎo)物體邊緣部分的視差估計(jì),也能夠通過(guò)語(yǔ)義特征之間的匹配關(guān)系進(jìn)一步完善原本特征難以匹配的區(qū)域,更為完整、合理地應(yīng)用了語(yǔ)義信息,雖然在計(jì)算量和參數(shù)量上增長(zhǎng)較大,但是在整體精度的提升和對(duì)復(fù)雜區(qū)域結(jié)果的改善2個(gè)方面都取得了最佳的效果。
本文對(duì)已有的聯(lián)合語(yǔ)義信息的方法進(jìn)行了抽象整合,針對(duì)現(xiàn)有方法利用語(yǔ)義信息不足的缺陷,提出了一種聯(lián)合語(yǔ)義代價(jià)體的立體匹配網(wǎng)絡(luò)改進(jìn)方法,以殘差形式構(gòu)建視差細(xì)化模塊,充分利用語(yǔ)義信息的同時(shí)減小了語(yǔ)義代價(jià)體的規(guī)模和后續(xù)的計(jì)算消耗。實(shí)驗(yàn)結(jié)果表明,本文提出的聯(lián)合語(yǔ)義代價(jià)體的立體匹配網(wǎng)絡(luò)改進(jìn)方法在15毫秒每幀的推斷效率下達(dá)到4.31%的3-像素誤差,相較于已有的聯(lián)合方式,更大程度地改善了立體匹配結(jié)果,且不影響算法的實(shí)時(shí)性。
[1] SCHARSTEIN D, SZELISKI R. A taxonomy and evaluation of dense two-frame stereo correspondence algorithms[J]. International Journal of Computer Vision, 2002, 47(1): 7-42.
[2] BROWN M Z, BURSCHKA D, HAGER G D. Advances in computational stereo[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2003, 25(8): 993-1008.
[3] 劉振國(guó),李釗,宋滕滕,等.可變形卷積與雙邊網(wǎng)格結(jié)合的立體匹配網(wǎng)絡(luò)[J].計(jì)算機(jī)工程,2022(5):1-9.
[4] LAGA H, JOSPIN L V, BOUSSAID F, et al. A survey on deep learning techniques for stereo-based depth estimation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020.
[5] ZBONTAR J, LECUN Y. Computing the stereo matching cost with a convolutional neural network[EB/OL]. [2022-05-06].https://arxiv.org/pdf/1409.4326.pdf.
[6] ZBONTAR J, LECUN Y. Stereo matching by training a convolutional neural network to compare image patches[J]. J. Mach. Learn. Res., 2016, 17(1): 2287-2318.
[7] MAYER N, ILG E, HAUSSER P, et al. A large dataset to train convolutional networks for disparity, optical flow, and scene flow estimation[EB/OL]. [2022-05-06].https://arxiv.org/pdf/1512.02134.pdf.
[8] KENDALL A, MARTIROSYAN H, DASGUPTA S, et al. End-to-end learning of geometry and context for deep stereo regression[EB/OL]. [2022-05-06].https://arxiv.org/pdf/1703.04309.pdf.
[9] 鄭秋梅,溫陽(yáng),王風(fēng)華.基于多卷積核通道特征加權(quán)雙目立體匹配算法[J].計(jì)算機(jī)與數(shù)字工程,2021,49(10):2113-2117.
[10] CHANG J R, CHEN Y S. Pyramid stereo matching network[EB/OL]. [2022-05-06].https://arxiv.org/pdf/1803. 08669.pdf.
[11] 張錫英,王厚博,邊繼龍.多成本融合的立體匹配網(wǎng)絡(luò)[J].計(jì)算機(jī)工程,2022,48(2):186-193.
[12] ZHU Z, HE M, DAI Y, et al. Multi-scale cross-form pyramid network for stereo matching[EB/OL]. [2022-05-06].https://arxiv.org/pdf/1904.11309.pdf.
[13] YANG G, ZHAO H, SHI J, et al. Segstereo: exploiting semantic information for disparity estimation[EB/OL]. [2022-05-06].https://arxiv.org/pdf/1807.11699.pdf.
[14] WU Z, WU X, ZHANG X, et al. Semantic stereo matching with pyramid cost volumes[EB/OL]. [2022-05-06].https://openaccess.thecvf.com/content_ICCV_2019/papers/Wu_Semantic_Stereo_Matching_With_Pyramid_Cost_Volumes_ICCV_2019_paper.pdf.
[15] ZHANG J, SKINNER K A, VASUDEVAN R, et al. Dispsegnet: leveraging semantics for end-to-end learning of disparity estimation from stereo imagery[J]. IEEE Robotics and Automation Letters, 2019, 4(2): 1162-1169.
[16] DOVESI P L, POGGI M, ANDRAGHETTI L, et al. Real-time semantic stereo matching[EB/OL]. [2022-05-06]. https://arxiv.org/pdf/1910.00541.pdf.
[17] RONNEBERGER O, FISCHER P, BROX T. U-net: convolutional networks for biomedical image segmentation[EB/OL]. [2022-05-06].https://arxiv.org/pdf/1505.04597.pdf.
An improved method of stereo matching network combined with semantic cost volume
HE Peiyu, HUANG Jingsong
(School of Geodesy and Geomatics, Wuhan University, Wuhan 430079, China)
Stereo matching is one of the main ways for autonomous mobile platforms to obtain the depth information of the surrounding environment. Aiming at the problem that the performance of the classic stereo matching algorithm is obviously degraded in the scenes with low texture and the foreground objects are difficult to distinguish from the background, this paper focuses on introducing semantic information into the stereo matching network. This paper integrates and abstracts the existing stereo matching network combined with semantic information, and then proposes an improved method for stereo matching network combined with semantic cost volume in view of the shortcomings of the existing methods. Combined with residual structure, it can make full use of semantic information while ensuring that the real-time inference. The experimental results show that the joint semantic information improves the overall accuracy of the stereo matching network as well as the improvement in ill-conditioned regions, and at the same time verifies the superiority of the proposed method compared with other methods to combine semantic information.
deep learning; stereo matching; semantic information; semantic segmentation; multi-task network
P228
A
2095-4999(2022)06-0157-08
何培玉,黃勁松.聯(lián)合語(yǔ)義代價(jià)體的立體匹配網(wǎng)絡(luò)改進(jìn)方法[J].導(dǎo)航定位學(xué)報(bào), 2022, 10(6): 157-164.(HE Peiyu,HUANG Jingsong.An improved method of stereo matching network combined with semantic cost volume[J]. Journal of Navigation and Positioning, 2022, 10(6): 157-164.)
10.16547/j.cnki.10-1096.20220621.
2022-05-26
何培玉(1997—),女,重慶長(zhǎng)壽人,碩士研究生,研究方向?yàn)樯疃葘W(xué)習(xí)。
黃勁松(1969—),男,湖南長(zhǎng)沙人,博士,副教授,研究方向?yàn)樽灾饕苿?dòng)機(jī)器人技術(shù)。