張晶晶, 杜興卓, 支 帥, 丁國(guó)鵬*
(1. 中國(guó)地質(zhì)大學(xué)(武漢) 自動(dòng)化學(xué)院,湖北 武漢 430074;2. 復(fù)雜系統(tǒng)先進(jìn)控制與智能自動(dòng)化湖北省重點(diǎn)實(shí)驗(yàn)室,湖北 武漢 430074;3. 地球探測(cè)智能化技術(shù)教育部工程研究中心,湖北 武漢 430074;4. 中國(guó)科學(xué)院 微小衛(wèi)星創(chuàng)新研究院,上海 201203;5. 上海微小衛(wèi)星工程中心,上海 201203)
立體匹配是三維重建的關(guān)鍵步驟。隨著計(jì)算機(jī)視覺(jué)技術(shù)和圖像處理技術(shù)的快速發(fā)展,基于雙目視覺(jué)圖像的立體匹配技術(shù)在三維建模、機(jī)器人視覺(jué)導(dǎo)航、增強(qiáng)現(xiàn)實(shí)以及汽車(chē)自動(dòng)駕駛領(lǐng)域得到了廣泛的應(yīng)用[1-2],其思想是通過(guò)估計(jì)校正后的立體圖像對(duì)中同一水平線(xiàn)上像素,找到空間像素的對(duì)應(yīng)關(guān)系。
近年來(lái),基于深度學(xué)習(xí)的方法在立體匹配領(lǐng)域展示出巨大的潛力[3]。相對(duì)于傳統(tǒng)方法,三維卷積神經(jīng)網(wǎng)絡(luò)(Three-Dimensional Convolutional Neural Networks,3D CNN)可以大幅度地提升立體匹配的精度,也有眾多優(yōu)秀網(wǎng)絡(luò)脫穎而出。目前,基于3D CNN 的立體匹配方法面臨的主要問(wèn)題就是如何以盡可能小型的網(wǎng)絡(luò)利用到更多的上下文信息。Geometry and Context Network(GC-Net)[4], 金字塔立體匹配網(wǎng)絡(luò)(Pyramid Stereo Matching Network, PSM-Net)[5]以及Guided Aggregation Net(GA-Net)[6]則采用不同的模型實(shí)現(xiàn)了較高精度的立體匹配。Attention Concatenation Volume Network(ACV-Net)[7]采用一種新穎的注意力權(quán)重代價(jià)體構(gòu)建方法,設(shè)計(jì)的立體匹配網(wǎng)絡(luò)精度得到了大幅度提升。Cascaded Recurrent Network(CRE-Net)[2]設(shè)計(jì)一個(gè)層次網(wǎng)絡(luò)以提取更細(xì)致的特征,同時(shí)提出自適應(yīng)的群體關(guān)聯(lián)層來(lái)減輕錯(cuò)誤校正的影響。盡管這些網(wǎng)絡(luò)都具有較高的精度,但是網(wǎng)絡(luò)龐大、消耗大以及實(shí)時(shí)性差仍是不可忽略的問(wèn)題。
為解決這些問(wèn)題,本文提出了一種精度較高且較為輕量的立體匹配網(wǎng)絡(luò),稱(chēng)之為基于空洞卷積和雙邊格網(wǎng)的立體匹配網(wǎng)絡(luò)(Atrous convolution and Bilateral grid Network,ABNet)。首先,使用一個(gè)簡(jiǎn)化的殘差模塊以略微降低網(wǎng)絡(luò)精度的代價(jià)大幅度縮減網(wǎng)絡(luò)規(guī)模;其次,采用空洞卷積的池化金字塔模塊(Atrous Spatial Pyramid Pooling,ASPP)[8]來(lái)進(jìn)一步提升感受視野,目的是提取更多的上下文細(xì)節(jié)信息以提升立體匹配精度;最后,在引用堆疊沙漏的3D CNN 模塊的同時(shí),在網(wǎng)絡(luò)中引入雙邊網(wǎng)絡(luò)模塊[9]以整合各個(gè)維度的圖像特征并建立其對(duì)應(yīng)關(guān)系,從而在保證網(wǎng)絡(luò)精度的同時(shí)進(jìn)一步提高效率。AB-Net 在KITTI 2012、KITTI 2015數(shù)據(jù)集[10]以及Scene Flow 數(shù)據(jù)集[11]都實(shí)現(xiàn)了較高的精度。
近年來(lái),基于深度學(xué)習(xí)的立體匹配取得了飛速發(fā)展。Kendall 等[4]提出了GC-Net,該網(wǎng)絡(luò)是一個(gè)使用3D 卷積層進(jìn)行匹配代價(jià)計(jì)算端到端的網(wǎng)絡(luò),使用編碼器-解碼器的架構(gòu)來(lái)合并多尺度的特征以實(shí)現(xiàn)代價(jià)聚合。為了更加有效地利用上下文信息,PSM-Net[5]使用空間金字塔池(SPP)模塊來(lái)集成不同尺度的特征,并使用堆疊的沙漏結(jié)構(gòu)3D 卷積層進(jìn)行成本聚合,有效地提高了立體匹配精度。Zhang 等[6]提出的GA-Net使用了兩個(gè)新的神經(jīng)網(wǎng)絡(luò)層,進(jìn)一步提升了立體匹配精度。Xu[7]提出了多級(jí)自適應(yīng)補(bǔ)丁立體匹配,以提高匹配成本在不同差異下的顯著性,進(jìn)而提升立體匹配精度。為了更好地恢復(fù)深度細(xì)節(jié),Li[8]提出CRE-Net,該網(wǎng)絡(luò)利用多次細(xì)化特征、疊加的級(jí)聯(lián)結(jié)構(gòu)以及自適應(yīng)的群體關(guān)聯(lián)層,以提高精細(xì)細(xì)節(jié)周?chē)匿秩窘Y(jié)果。同年,Wang[3]提出了一種不確定性估計(jì)方式,它從概率分布中學(xué)習(xí)相關(guān)結(jié)果,可以量化不確定性,加入到目前主流的立體匹配網(wǎng)絡(luò)中以提升精度。
目前,精度已經(jīng)趨于極限,學(xué)者們開(kāi)始著手提升效率。為了追求實(shí)時(shí)性能,Stereo-Net[7]以低分辨率(例如1/8 分辨率)使用3D 卷積進(jìn)行立體匹配計(jì)算,得到的網(wǎng)絡(luò)能以60 frame/s 的高幀率實(shí)時(shí)運(yùn)行,但卻降低了立體匹配的精確性。
本文提出的AB-Net 包括用于有效合并全局上下文信息的ASPP 的特征提取模塊、用于代價(jià)聚合的堆疊沙漏模塊以及雙邊格網(wǎng)模塊。
AB-Net 結(jié)構(gòu)如圖1 所示。特征提取模塊由ASPP 模塊和殘差層組成,其作用是盡可能多地提取雙目圖像不同尺寸的特征;3D 卷積堆疊沙漏模塊由多個(gè)3D CNN 組成,其作用是聚合且正則化四維匹配代價(jià)卷的視差信息以及其余特征信息;雙邊格網(wǎng)模塊的作用是對(duì)前序的數(shù)據(jù)進(jìn)行切片操作,以低分辨率執(zhí)行大部分計(jì)算,獲得精度更高的視差圖,最后進(jìn)行上采樣與視察回歸計(jì)算即可完成雙目立體匹配。
圖1 AB-Net 網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Architecture of AB-Net
殘差網(wǎng)絡(luò)塊可以在防止梯度消失的同時(shí)最大程度地提取圖像特征信息,因此廣泛應(yīng)用在特征提取的任務(wù)中,但殘差層的參數(shù)量巨大,非常消耗資源。與以往由較為復(fù)雜的殘差層組成的特征提取模塊不同,本文采用一個(gè)較為輕型的殘差層來(lái)提取圖像特征。最初的三層使用卷積核為3×3,步長(zhǎng)分別為2,1,1 的三個(gè)卷積對(duì)輸入圖像進(jìn)行下采樣。然后使用步長(zhǎng)為1,2,2,1 的4 個(gè)殘差層,以1/8 的分辨率快速生成圖像的一維語(yǔ)義信息特征。PSMNet 的參數(shù)量為5 224 768 Byte,修改后參數(shù)量減少至2 896 192 Byte,大幅縮減了網(wǎng)絡(luò)的規(guī)模與體積。
單純的依靠像素級(jí)別的特征來(lái)確定上下文之間的關(guān)系是不現(xiàn)實(shí)的,高效地利用物體周?chē)沫h(huán)境信息作為特征并加以提取則有助于一致性估計(jì)。由于AB-Net 特征提取模塊使用層數(shù)較少的殘差層,感受視野的尺寸受限,后續(xù)必須使用感受視野更大的模塊。本文采用ASPP 結(jié)構(gòu)以擴(kuò)大網(wǎng)絡(luò)的感受視野。
卷積層的感受視野受卷積核尺寸的影響,擴(kuò)大其感受視野的方法主要有兩種,分別是擴(kuò)大卷積核的尺寸或者將多個(gè)小卷積核的卷積層級(jí)聯(lián)。它們都會(huì)擴(kuò)大網(wǎng)絡(luò)的規(guī)模,降低網(wǎng)絡(luò)效率。與普通的卷積層相比,空洞卷積通過(guò)調(diào)整擴(kuò)張率來(lái)擴(kuò)大立體匹配網(wǎng)絡(luò)的感受視野,其示意圖如圖2所示。
圖2 空洞卷積不同擴(kuò)張率示意圖Fig.2 Schematic diagram of atrous convolution with different expansion rates
ASPP 模塊由空洞卷積組成,采用不同的擴(kuò)張率(rate):2,12,24,36 并采用上采樣將由殘差層輸出的低維特征圖像恢復(fù)到原始尺寸,再將layer2,layer4 以及branch1,branch2,branch3,branch4 進(jìn)行級(jí)聯(lián)操作。特征提取模塊示意圖如圖3 所示。
圖3 特征提取模塊結(jié)構(gòu)示意圖Fig.3 Schematic diagram of feature extraction module structure
與PSM-Net 類(lèi)似,為了聚合且正則化四維匹配代價(jià)卷的視差信息以及其余特征信息,本文采用3D CNN 從多個(gè)維度提取特征信息。然后使用沙漏對(duì)稱(chēng)型架構(gòu),編碼器的架構(gòu)是2 個(gè)步長(zhǎng)為2 的3D CNN 卷積層,執(zhí)行下采樣操作;對(duì)稱(chēng)地,解碼器的架構(gòu)是2 個(gè)步長(zhǎng)為2 的3D CNN反卷積層,執(zhí)行上采樣操作以恢復(fù)尺寸。編碼器與解碼器以跳躍方式連接。整體沙漏架構(gòu)如圖4 所示。
圖4 3D CNN 堆疊沙漏模塊結(jié)構(gòu)示意圖Fig.4 Schematic diagram of stacked hourglass module of 3D CNN
為了搭建一種能夠?qū)崿F(xiàn)高精度立體匹配同時(shí)保持高效率的立體匹配網(wǎng)絡(luò),本文在3D 卷積堆疊沙漏模塊后使用一個(gè)基于雙邊網(wǎng)絡(luò)的上采樣模塊,此模塊通過(guò)雙邊網(wǎng)絡(luò)處理的切片操作,以低分辨率執(zhí)行大部分計(jì)算,同時(shí)還可以用高分辨率的成本量獲得精度更高的視差圖。該模塊主要包括雙邊網(wǎng)絡(luò)創(chuàng)建以及切片兩個(gè)操作,將圖像特征集合作為指導(dǎo)特征,對(duì)數(shù)據(jù)雙邊網(wǎng)絡(luò)的低分辨率成本量進(jìn)行切片操作,如圖5所示。
圖5 雙邊格網(wǎng)模塊示意圖Fig.5 Schematic diagram of Bilateral grid
對(duì)于雙邊網(wǎng)絡(luò)的創(chuàng)建,首先輸入一個(gè)低分辨率(本文采用的分辨率為1/8)的四維成本量(包括寬度、高度、視差以及特征),通過(guò)一個(gè)卷積核為3 的三維卷積層即可轉(zhuǎn)換為雙邊網(wǎng)絡(luò)B,包括寬度x、高度y、視差d以及指導(dǎo)特征g4 個(gè)維度,該雙邊網(wǎng)絡(luò)表示為B(x,y,d,g)。
對(duì)雙邊網(wǎng)絡(luò)進(jìn)行切片操作,目的是生成高分辨率的成本量CH,操作過(guò)程如下:
其中:G是殘差層輸出的圖像特征maps 通過(guò)1×1 的卷積層生成指導(dǎo)特征,s∈(0,1)是雙邊網(wǎng)絡(luò)尺寸與高分辨率代價(jià)卷CH的寬高比,sG∈(0,1)是雙邊網(wǎng)絡(luò)的灰度值與指導(dǎo)特征G灰度值的比。
這里使用Soft Argmin[4]方法,通過(guò)微分獲得效果好的視差值圖。經(jīng)過(guò)網(wǎng)絡(luò)處理后可獲得每個(gè)圖像在一定視差值范圍內(nèi)的匹配成本,成本越高表示越不匹配。然后,利用Softmax 操作正則化可以算出各個(gè)圖像屬于一定區(qū)域內(nèi)不同視差值的概率,通過(guò)加權(quán)求和可以得出各種像素點(diǎn)的平均視差值,即有:
本文采用的基礎(chǔ)函數(shù)是L1損失函數(shù),該函數(shù)穩(wěn)定性較強(qiáng)且對(duì)于數(shù)據(jù)異常的值不敏感,定義如下:
其中:N是像素的數(shù)量,di是真實(shí)的視差值是預(yù)測(cè)的視差值。L1表達(dá)式如下:
為驗(yàn)證AB-Met 網(wǎng)絡(luò)的精度與性能,實(shí)驗(yàn)測(cè)試與分析在Scene Flow 數(shù)據(jù)集和KITTI 2015 數(shù)據(jù)集上進(jìn)行。
Scene Flow 立體匹配數(shù)據(jù)集是一個(gè)規(guī)模較大的人工數(shù)據(jù)集,由35 434 對(duì)訓(xùn)練圖像以及4 370 對(duì)測(cè)試圖像組成,其像素分辨率為960×540,同時(shí)該數(shù)據(jù)集也為每對(duì)圖像生成了一張高精度的稠密視差圖作為真實(shí)值。在實(shí)驗(yàn)過(guò)程中,該數(shù)據(jù)集部分圖像的部分像素視差值超過(guò)了本文所設(shè)定的最大視差,因此本文在計(jì)算誤差與損失時(shí)將這部分忽略。
KITTI 數(shù)據(jù)集具體分為KITTI 2012 以及KITTI 2015,其是由德國(guó)卡爾斯魯厄理工學(xué)院和豐田美國(guó)技術(shù)研究院聯(lián)合創(chuàng)辦,在真實(shí)的道路場(chǎng)景下利用雙目相機(jī)以及激光雷達(dá)等設(shè)備獲取的立體匹配數(shù)據(jù)集。KITTI 2012 提供194 個(gè)訓(xùn)練和195 個(gè)測(cè)試圖像,KITTI 2015 提供200 個(gè)訓(xùn)練和200 個(gè)測(cè)試圖像,每幅圖像的像素分辨率為1 240×376。該數(shù)據(jù)集還利用激光雷達(dá)為每對(duì)圖像生成了一張高精度的稀疏視差圖作為真實(shí)值。本文將訓(xùn)練集的圖像數(shù)據(jù)隨機(jī)劃分為訓(xùn)練集(70%)與測(cè)試集(30%)。
Middlebury[12]數(shù)據(jù)集是計(jì)算機(jī)視覺(jué)領(lǐng)域中廣泛使用的一個(gè)數(shù)據(jù)集,包含多個(gè)場(chǎng)景下的圖像序列和對(duì)應(yīng)的視差圖,共計(jì)15 對(duì)訓(xùn)練圖像與15 對(duì)測(cè)試圖像。
實(shí)驗(yàn)在Ubuntu18.04 環(huán)境下,采用Pytorch 深度學(xué)習(xí)框架,圖形處理器為NVIDIA GeForce 3090 完成AB-Net 的訓(xùn)練與測(cè)試。在訓(xùn)練過(guò)程中采用了Adam 優(yōu)化器[10],其延遲率參數(shù)設(shè)置分別為β1=0.9,β2=0.99。所有訓(xùn)練數(shù)據(jù)的尺寸均設(shè)置為512×256。對(duì)于Scene Flow 數(shù)據(jù)集,本文以0.001 的學(xué)習(xí)率訓(xùn)練30 輪,再以0.000 1 的學(xué)習(xí)率訓(xùn)練10 輪;對(duì)于KITTI 2015 數(shù)據(jù)集,由于其圖像對(duì)較少,直接從0 開(kāi)始訓(xùn)練易導(dǎo)致網(wǎng)絡(luò)過(guò)擬合,因此本文采用遷移學(xué)習(xí)的方法,將Scene Flow 訓(xùn)練好的模型作為KITTI2012 和KITTI 2015 預(yù)訓(xùn)練的模型并對(duì)網(wǎng)絡(luò)進(jìn)行微調(diào),先以0.001 的學(xué)習(xí)率訓(xùn)練200 輪,再以0.000 1 的學(xué)習(xí)率訓(xùn)練100 輪。
Scene Flow 數(shù)據(jù)集訓(xùn)練時(shí),本文采用終點(diǎn)誤差(End-point Error, EPE)作為評(píng)價(jià)指標(biāo)。EPE越大,匹配率越低。其表達(dá)式如下:
KITTI 2015 數(shù)據(jù)集訓(xùn)練時(shí),本文采用3 像素誤差(3px-Error)作為評(píng)價(jià)指標(biāo)。3px-Error 越大,匹配率越低。其表達(dá)式如下:
其中:
式中:N是像素的數(shù)量,di是真實(shí)的視差值,d?i是預(yù)測(cè)的視差值。
AB-Net 的基準(zhǔn)網(wǎng)絡(luò)為PSM-Net 網(wǎng)絡(luò),首先對(duì)優(yōu)化后的殘差模塊進(jìn)行測(cè)試,然后對(duì)引入ASPP 模塊的網(wǎng)絡(luò)進(jìn)行測(cè)試,最后對(duì)引入雙邊格網(wǎng)的模塊進(jìn)行測(cè)試,并與PSM-Net 進(jìn)行對(duì)比。其中,Res-CV 表示構(gòu)建的成本量的分辨率,EPE 為Scene Flow 數(shù)據(jù)集的測(cè)試指標(biāo),結(jié)果如表1所示。
表1 消融實(shí)驗(yàn)結(jié)果Tab.1 Results of ablation experiment
由表1 可知,僅進(jìn)行殘差層優(yōu)化后的模型EPE 提升為1.16,運(yùn)行時(shí)間縮短約50%,仍能取得不錯(cuò)的精度;在引入ASPP 模塊后,隨著更多的特征細(xì)節(jié)信息被提取,修改后網(wǎng)絡(luò)的EPE 進(jìn)一步下降至1.01,但運(yùn)行時(shí)間在增大;引入雙邊格網(wǎng)模塊后,成本量的體積縮減為原尺寸的1/8,并對(duì)其加速處理,精度大幅度提升的同時(shí)網(wǎng)絡(luò)的運(yùn)行時(shí)間也大幅縮減。AB-Net 的運(yùn)行時(shí)間低于PSM-Net 和AA-Net 的運(yùn)行時(shí)間。PSM-Net,AA-Net 的EPE 分別是1.09 和0.87,AB-Net 的EPE 是0.86,誤差下降了約21%和1%。
本文將AB-Net 的測(cè)試結(jié)果與GC-Net[4],PSM-Net[13],CRL,AA-Net[14]和AED-Net[15]進(jìn)行比較,首先在Scene Flow 數(shù)據(jù)集上進(jìn)行測(cè)試,結(jié)果如表2 所示??梢钥闯?,由于AB-Net 對(duì)殘差層進(jìn)行了大量刪減,網(wǎng)絡(luò)規(guī)模相較于其他網(wǎng)絡(luò)縮小很多,同時(shí)引入ASPP 模塊以及雙邊格網(wǎng)模塊來(lái)保證網(wǎng)絡(luò)具有較高的精度。與基準(zhǔn)網(wǎng)絡(luò)PSMNet 相比,AB-Net 的網(wǎng)絡(luò)規(guī)模參數(shù)量減少了約38%,立體匹配精度提升了約21%。
表2 SceneFlow 測(cè)試集結(jié)果Tab.2 Result of different methods on SceneFlow dataset
圖6 展示了3 個(gè)測(cè)試實(shí)例,從圖像中可以看出,AB-Net 在非常復(fù)雜、重疊的場(chǎng)景下也能獲取精準(zhǔn)的視差圖,并且在一些細(xì)節(jié)上的表現(xiàn)比PSM-Net 更加優(yōu)秀(見(jiàn)圖中黑色圓圈部分)。
圖6 SceneFlow 數(shù)據(jù)集上不同算法的結(jié)果對(duì)比Fig.6 Result of different methods on SceneFlow dataset
其次測(cè)試KITTI 2015 數(shù)據(jù)集,將200 對(duì)圖像輸入網(wǎng)絡(luò)中得到預(yù)測(cè)的視差圖,上傳至KITTI 官網(wǎng)以評(píng)估分析,并與其他網(wǎng)絡(luò)進(jìn)行比較,結(jié)果如表3 所示。其中,D1表示視差圖中錯(cuò)誤匹配點(diǎn)所占的比例,bg表示背景區(qū)域,fg表示前景區(qū)域,all表示整張視差圖的全部區(qū)域。由表4 可以看出,AB-Net 在全部區(qū)域的匹配錯(cuò)誤率均為最低,為2.26%;同時(shí)所有像素的前景區(qū)域、背景區(qū)域,以及非遮擋像素的前景區(qū)域、全部區(qū)域的誤差也較低,分別是1.91%,4.34%,1.82%以及2.11%;而非遮擋像素的背景區(qū)域誤差則較高,為4.17%。
表3 KITTI 2015 雙目立體匹配數(shù)據(jù)集測(cè)試結(jié)果Tab.3 Test result on KITTI 2015 binocular stereo matched dataset
表4 KITTI 2012 雙目立體匹配數(shù)據(jù)集測(cè)試結(jié)果Tab.4 Test results on KITTI 2012 binocular stereo matched dataset
圖7 展示了PSM-Net,GC-Net 以及AB-Net的預(yù)測(cè)視差圖效果對(duì)比以及AB-Net 的預(yù)測(cè)誤差圖。可以清楚地看到,AB-Net 的預(yù)測(cè)效果在細(xì)節(jié)方面相較于其他網(wǎng)絡(luò)更勝一籌,能夠更清晰地展示復(fù)雜背景、路燈以及柵欄的深度信息和清晰的輪廓(見(jiàn)圖中黑色圓圈部分)。
圖7 不同方法在SceneFlow 數(shù)據(jù)集上結(jié)果對(duì)比Fig.7 Result of different methods on SceneFlaw dataset
最后測(cè)試KITTI 2012 數(shù)據(jù)集,將KITTI 2012 測(cè)試集的195 對(duì)圖像輸入網(wǎng)絡(luò)中得到預(yù)測(cè)的視差圖,上傳至KITTI 官網(wǎng)以評(píng)估分析,并與其他網(wǎng)絡(luò)進(jìn)行比較,結(jié)果如表4 所示。其中,ONoc和OAll分別表示非遮擋區(qū)域和整個(gè)區(qū)域的視差圖中誤匹配點(diǎn)所占的比例;ANoc和AAll分別表示非遮擋區(qū)域和整個(gè)區(qū)域的視差圖中匹配點(diǎn)的平均誤差。
由表4 可知,本文網(wǎng)絡(luò)在特征提取模塊對(duì)殘差層進(jìn)行刪減,減少了網(wǎng)絡(luò)的參數(shù)量,相較于其他網(wǎng)絡(luò)而言,在網(wǎng)絡(luò)規(guī)模上有了較大縮減,非遮擋區(qū)域的視差圖中誤匹配點(diǎn)所占的比例(ONoc)為1.44%,在幾個(gè)網(wǎng)絡(luò)中排名第一。AB-Net 在網(wǎng)絡(luò)規(guī)模上有一定的優(yōu)越性,與其他考慮運(yùn)行效率、注重實(shí)時(shí)性的網(wǎng)絡(luò)相比,本文網(wǎng)絡(luò)的精度略高。實(shí)驗(yàn)表明,本文所提網(wǎng)絡(luò)在保證精度的情況下能高效實(shí)現(xiàn)立體匹配。
為進(jìn)一步驗(yàn)證AB-Net 網(wǎng)絡(luò)的精度,本文在Middlebury 2014 數(shù)據(jù)集[18]上進(jìn)行評(píng)估。將該數(shù)據(jù)集中的15 對(duì)訓(xùn)練集圖像在上述網(wǎng)絡(luò)模型中進(jìn)行微調(diào),測(cè)試結(jié)果如表5 所示。其中,Bad2.0 指的是絕對(duì)誤差大于2 像素的點(diǎn)的百分比,該值越低表示網(wǎng)絡(luò)對(duì)該數(shù)據(jù)集的預(yù)測(cè)能力越好。預(yù)測(cè)的視差圖如圖8 所示。
表5 Middlebury 2014 數(shù)據(jù)集測(cè)試分析Tab.5 Result on middlebury 2014 dataset analysis
圖8 Middlebury 2014 測(cè)試結(jié)果Fig.8 Test results on Middlebury 2014
由表5 可知,AB-Net 在該數(shù)據(jù)集上的Bad2.0 誤差為7.56%,相較于PSM-Net 的18.58%、GA-Net 的17.43% 均有較大的提升。通過(guò)量化分析說(shuō)明AG-Net 對(duì)于風(fēng)格迥異的數(shù)據(jù)集擁有較強(qiáng)的預(yù)測(cè)能力。
圖8 展示了利用PSM-Net 和AB-Net 對(duì)未經(jīng)訓(xùn)練的雙目視覺(jué)圖像的視差預(yù)測(cè)結(jié)果??梢郧逦乜闯?,面對(duì)復(fù)雜地圖背景的場(chǎng)景、雜物場(chǎng)景以及景深較大的教室場(chǎng)景,本文網(wǎng)絡(luò)均能較好地生成高質(zhì)量、邊緣清晰、層次分明、深度信息一目了然的視差圖,而PSM-Net 的表現(xiàn)一般,場(chǎng)景物體邊緣不清晰,圖像邊緣也出現(xiàn)了大量的匹配錯(cuò)誤。
為驗(yàn)證AB-Net 的泛化能力,本文在訓(xùn)練網(wǎng)絡(luò)時(shí),僅對(duì)Scene Flow,KITTI2015 以及KITTI2012 數(shù)據(jù)集訓(xùn)練后,就直接對(duì)Middlebury 2014 數(shù)據(jù)集[18]進(jìn)行預(yù)測(cè)評(píng)估。同時(shí)與PSM-Net,GA-Net 和AA-Net 進(jìn)行泛化性測(cè)試對(duì)比,結(jié)果如表6 所示。其中,Bad2.0 指的是絕對(duì)誤差大于2像素的點(diǎn)的百分比,該值越低表示網(wǎng)絡(luò)對(duì)該數(shù)據(jù)集的泛化性越好。預(yù)測(cè)的視差圖如圖9 所示。
表6 Middlebury 2014 數(shù)據(jù)集泛化能力數(shù)據(jù)分析Tab.6 Analysis of generalization ability data on Middlebury 2014 dataset
圖9 未經(jīng)訓(xùn)練Middlebary 2014 數(shù)據(jù)集預(yù)測(cè)結(jié)果對(duì)比Fig.9 Untrained results on Middlebury 2014 dataset
由表5 可知,AB-Net 在Middlebury 2014 數(shù)據(jù)集上的Bad2.0 誤差為17.4%,相較于PSMNet 的24.8%、GA-Net 的19.1% 和AA-Net 的18.7%,分別降低了7.4%,1.7% 和1.3%。通過(guò)量化分析說(shuō)明AG-Net 對(duì)于風(fēng)格迥異、未經(jīng)訓(xùn)練的數(shù)據(jù)集擁有較強(qiáng)的泛化能力。
本文使用雙目相機(jī)對(duì)現(xiàn)實(shí)不同復(fù)雜度的場(chǎng)景進(jìn)行拍攝,將獲取到的雙目圖像輸入訓(xùn)練好的網(wǎng)絡(luò)中進(jìn)行視差預(yù)測(cè),效果如圖10 所示。
圖10 現(xiàn)實(shí)場(chǎng)景實(shí)驗(yàn)結(jié)果Fig.10 Experimental results of real scene
圖10 展示了利用AB-Net 對(duì)現(xiàn)實(shí)場(chǎng)景進(jìn)行視差預(yù)測(cè)并利用預(yù)測(cè)的視差圖得到的三維重建結(jié)果。可以清晰地看出,面對(duì)雜物場(chǎng)景、復(fù)雜玩偶場(chǎng)景以及復(fù)雜地形場(chǎng)景,AB-Net 能較好地生成高質(zhì)量、邊緣清晰、層次分明的視差圖,利用生成的視差圖進(jìn)行三維重建的結(jié)果也與現(xiàn)實(shí)場(chǎng)景無(wú)異。由此說(shuō)明,AB-Net 擁有較強(qiáng)的泛化能力,面對(duì)復(fù)雜的、未經(jīng)訓(xùn)練的現(xiàn)實(shí)場(chǎng)景也能取得較好的效果。
本文提出了一種AB-Net 立體匹配網(wǎng)絡(luò)。該網(wǎng)絡(luò)通過(guò)精簡(jiǎn)冗余的殘差層和引入ASPP 模塊,能夠在保持較小網(wǎng)絡(luò)規(guī)模的同時(shí),擴(kuò)大感受視野,提取更多細(xì)節(jié)信息,并獲取足夠的上下文信息。此外,本文還采用3D 卷積層來(lái)提高立體匹配的準(zhǔn)確性,并引入雙邊格網(wǎng)模塊,在較低分辨率的成本量下獲取更精確的視差圖。
本文在KITTI 2012,KITTI 2015,Scene Flow 及Middlebury 2014 數(shù)據(jù)集上對(duì)AB-Net 進(jìn)行測(cè)試,結(jié)果顯示與PSM-Net 等立體匹配網(wǎng)絡(luò)相比,AB-Net 在參數(shù)量減少38%的情況下仍能保持較高的實(shí)驗(yàn)精度。對(duì)于KITTI 2015 數(shù)據(jù)集,AB-Net 在全部區(qū)域的匹配錯(cuò)誤率為2.26%;對(duì)于KITTI 2012 數(shù)據(jù)集,非遮擋區(qū)域的視差圖中誤匹配點(diǎn)所占比例為1.44%;而在Scene Flow數(shù)據(jù)集上,終點(diǎn)誤差(EPE)為0.86。對(duì)于Middlebury 2014 數(shù)據(jù)集,AB-Net 也表現(xiàn)出較強(qiáng)的預(yù)測(cè)能力,Bad2.0 誤差為8.56%,優(yōu)于對(duì)比網(wǎng)絡(luò)。此外,使用AB-Net 對(duì)現(xiàn)實(shí)場(chǎng)景數(shù)據(jù)進(jìn)行預(yù)測(cè),并獲得了邊緣清晰、深度信息明確且無(wú)遮擋的視差圖,驗(yàn)證了AB-Net 的高準(zhǔn)確性和泛化性能。