張曉藝,余岸竹,曹雪峰,李振琦,權(quán)雨君
(信息工程大學(xué) 地理空間信息學(xué)院,鄭州 450000)
從立體像對中估計視差是攝影測量和計算機(jī)視覺中的基本問題之一,其關(guān)鍵任務(wù)是尋找同名特征點的像素對應(yīng)關(guān)系,通常稱為立體匹配或立體密集匹配。立體匹配的原理是通過尋找立體像對之間像素級的匹配關(guān)系構(gòu)建視差圖,恢復(fù)場景的深度信息,在無人駕駛、三維重建、航空測繪等領(lǐng)域應(yīng)用廣泛。立體像對分為左、右視圖,通過計算左圖每個像素點(x,y)在右圖上對應(yīng)像素的位置(x-d,y),可以得到每個像素點的視差d,進(jìn)一步通過式(1)得到對應(yīng)的深度圖。
depth=baseline×focallength/d
(1)
式中:focallength是相機(jī)焦距;baseline是相機(jī)光心之間的距離(即基線長度)。
在傳統(tǒng)立體匹配算法中,Scharstein等[1]將傳統(tǒng)立體匹配方法分為4步,即匹配代價計算、匹配代價聚合、視差計算和視差精化。匹配代價計算通過在左右影像上計算相似性測度確定匹配代價,描述像素之間的匹配關(guān)系;匹配代價聚合對鄰接區(qū)域的匹配代價進(jìn)行聚合,提高匹配代價的魯棒性和精確性;視差計算一般采用贏者通吃(winner take all,WTA)策略,將匹配代價最小時對應(yīng)的視差值作為該像素的初始視差;視差精化則利用左右一致性檢測、亞像素插值等后處理操作對初始視差進(jìn)行優(yōu)化,旨在得到精確、完整、光滑的視差圖。然而,傳統(tǒng)匹配代價計算基于圖像亮度信息衡量圖像匹配程度,難以實現(xiàn)無紋理、弱紋理等病態(tài)區(qū)域的視差估計,且存在計算效率低、誤匹配率高的缺點。
隨著深度學(xué)習(xí)方法的不斷發(fā)展,研究人員開始將深度學(xué)習(xí)方法引入立體匹配問題中,用于提升立體匹配精度、提高立體匹配效率和簡化立體匹配流程。2015年后,卷積神經(jīng)網(wǎng)絡(luò)被引入立體匹配中解決匹配代價計算問題,MC-CNN[2]、DRR[3]通過有監(jiān)督學(xué)習(xí)來計算匹配代價,在雙目數(shù)據(jù)集上取得了匹配速度和精度的提升,為深度學(xué)習(xí)在立體匹配的應(yīng)用奠定了基礎(chǔ)。隨后,DispNet[4]等利用卷積神經(jīng)網(wǎng)絡(luò)直接實現(xiàn)像素級的視差輸出,構(gòu)建端到端的立體匹配網(wǎng)絡(luò)進(jìn)行有監(jiān)督的學(xué)習(xí)訓(xùn)練。自此,端對端立體匹配網(wǎng)絡(luò)成為主流,其輸入端是經(jīng)過核線校正的立體像對,輸出端是左影像對應(yīng)的視差圖。2017年,GC-Net[5]通過構(gòu)建代價體,并利用3D卷積處理代價體,獲得更多的幾何和上下文信息,創(chuàng)新性地提出了立體匹配專用網(wǎng)絡(luò)。目前,已經(jīng)出現(xiàn)了多種立體匹配專用網(wǎng)絡(luò)結(jié)構(gòu),并取得了優(yōu)異的結(jié)果。
由于深度學(xué)習(xí)方法在立體匹配中表現(xiàn)出巨大應(yīng)用潛力,基于深度學(xué)習(xí)的立體匹配算法相繼涌現(xiàn),梳理和評價立體匹配網(wǎng)絡(luò)的工作也相繼展開。Poggi等[6]按照端對端和非端對端的分類梳理了2016-2019年間的立體匹配算法。Laga等[7]介紹了2014-2019年主流算法的發(fā)展與優(yōu)化,對主要算法模型進(jìn)行了比較。季順平等[8]利用航空數(shù)據(jù)集對2017-2019年間典型的網(wǎng)絡(luò)模型進(jìn)行了定量的實驗比較與分析。然而,2019年至今出現(xiàn)了新的模型設(shè)計思路,網(wǎng)絡(luò)的精度表現(xiàn)、跨域性能都有明顯提升。因此,客觀評價立體匹配網(wǎng)絡(luò)的性能對于現(xiàn)有算法優(yōu)化和新算法提出具有重要的指導(dǎo)意義。
跨域(cross-domain)是指源域和目標(biāo)域在特征空間、邊緣分布等方面存在差異[9]。雖然以上方法在計算機(jī)視覺領(lǐng)域取得了不錯的結(jié)果,但是在攝影測量與遙感中,受到成像平臺、成像視角、光照條件等因素的制約,遙感影像在顏色、光照、對比度和紋理方面有較大的差異,普遍存在明顯的跨域現(xiàn)象[10],嚴(yán)重影響了現(xiàn)有立體匹配網(wǎng)絡(luò)的精度和性能。基于此,本文主要研究在相同訓(xùn)練條件和誤差指標(biāo)下不同立體匹配網(wǎng)絡(luò)性能的實驗與比較,主要工作如下。
1)梳理了2016-2022年出現(xiàn)的立體匹配網(wǎng)絡(luò)(表1),選擇了5種代表性的端對端網(wǎng)絡(luò)進(jìn)行分析。
表1 2016-2022年間立體匹配網(wǎng)絡(luò)
2)定量評估了5種代表性網(wǎng)絡(luò)模型在不同遙感數(shù)據(jù)集中的精度表現(xiàn),評價了網(wǎng)絡(luò)模型在遙感影像中的場景適用性和跨域泛化性。
3)綜合實驗結(jié)果,提出了立體匹配網(wǎng)絡(luò)在無人機(jī)影像和航空航天影像的潛力和挑戰(zhàn)。
基于深度學(xué)習(xí)的端對端立體匹配專用網(wǎng)絡(luò)可以劃分為特征提取、代價體構(gòu)建與正則化、視差計算3個階段(圖1)。在特征提取中,大多使用共享權(quán)重的孿生卷積網(wǎng)絡(luò)提取左右圖像的特征。在代價體部分,采用計算相關(guān)層或串聯(lián)特征的方式進(jìn)行構(gòu)建,基于相關(guān)層的方式計算左右圖像的匹配相似度,基于串聯(lián)特征的方式將左右圖像特征拼接實現(xiàn)代價體構(gòu)建。在視差計算中,網(wǎng)絡(luò)通過將立體匹配轉(zhuǎn)化為回歸問題,實現(xiàn)精細(xì)化視差輸出。
圖1 端對端立體匹配網(wǎng)絡(luò)的一般流程
當(dāng)前,特征提取階段大多使用孿生卷積網(wǎng)絡(luò)提取左右圖像的特征信息。在此基礎(chǔ)上,殘差網(wǎng)絡(luò)被用于提高網(wǎng)絡(luò)深度、加強(qiáng)特征提取能力;跳層連接被用于優(yōu)化網(wǎng)絡(luò)特征提取結(jié)果,空間金字塔池化能夠提取多級特征,增強(qiáng)圖像的全局信息。如表1所示,自2018年P(guān)SMNet以來,后續(xù)的網(wǎng)絡(luò)多使用空間金字塔池化這一策略增強(qiáng)網(wǎng)絡(luò)對于全局信息的捕獲能力。目前,主要有兩種代價體的構(gòu)建方式:采用的左右特征內(nèi)積構(gòu)建3D代價體和左右特征串聯(lián)構(gòu)建4D代價體。前者利用點積記錄特征相似性,計算量較少但是丟失了大量圖像特征信息,后者一般在后續(xù)處理中采用3D卷積進(jìn)行歸一化,需要學(xué)習(xí)大量網(wǎng)絡(luò)參數(shù)。因此,對于3D代價體的優(yōu)化策略包括語義掩膜引導(dǎo)聚合、邊緣信息引導(dǎo)聚合、半全局聚合等;對于4D代價體,大多數(shù)網(wǎng)絡(luò)一般通過堆積漏斗結(jié)構(gòu)、體積金字塔池化、引導(dǎo)聚合層等策略,使代價體對更具魯棒性和全局性。2021年,RAFT-Stereo將門控循環(huán)單元(gate recurrent unit,GRU)用于視差估計,STTR提出使用Transformer代替?zhèn)鹘y(tǒng)代價體的創(chuàng)建和歸一化,獲得了良好的效果,說明了自然語言處理中的算法模塊經(jīng)過調(diào)整之后可以在立體匹配任務(wù)中發(fā)揮有益影響,為設(shè)計新算法提供了思路。
在基于深度學(xué)習(xí)的立體匹配算法發(fā)展過程中,PSMNet提出的空間金字塔池化、代價體構(gòu)建與正則化策略開創(chuàng)了立體匹配專用網(wǎng)絡(luò)的先河,是立體匹配網(wǎng)絡(luò)的經(jīng)典算法;DSMNet和CFNet分別通過優(yōu)化算法流程中的特征提取和代價體構(gòu)建模塊使得算法更具有魯棒性、更適合跨域視差估計,可以很好地反映網(wǎng)絡(luò)中模塊優(yōu)化的跨域精度提升效果;RAFT-Stereo和STTR分別將自然語言處理中的GRU和Transformer引入立體匹配網(wǎng)絡(luò),代替原有的視差回歸和代價體構(gòu)建模塊,從而提高視差估計效率和精確度,在立體匹配網(wǎng)絡(luò)新模塊設(shè)計中具有代表性。因此,本文選擇PSMNet、DSMNet、CFNet、RAFT-Stereo和STTR作為代表性算法進(jìn)行精度實驗和網(wǎng)絡(luò)分析。
PSMNet是端對端立體匹配的經(jīng)典網(wǎng)絡(luò)。該網(wǎng)絡(luò)在特征提取階段使用空間金字塔池化策略擴(kuò)大卷積網(wǎng)絡(luò)的感受野,增強(qiáng)圖像對全局信息的提取能力,以聚合不同尺度和不同位置的特征。隨后,將左右圖像特征串聯(lián),構(gòu)建維度是1/4H×1/4W×1/4D×64的4D代價體,使用堆疊沙漏(stacked hourglass)3D卷積進(jìn)行代價體正則化。堆疊沙漏由3個編碼器-解碼器結(jié)構(gòu)串聯(lián)而成,結(jié)構(gòu)內(nèi)部與中間監(jiān)督相結(jié)合,有效引導(dǎo)代價體正則化。最后,網(wǎng)絡(luò)采用回歸的方式得到稠密視差輸出。
為了增強(qiáng)網(wǎng)絡(luò)模型的跨域泛化能力,DSMNet使用基于圖的非局部濾波層(non-local graph-based filter,NLF)提取圖像魯棒特征和幾何表示,同時用域歸一化(domain normalization,DN)代替批歸一化(batch normalization,BN),實現(xiàn)特征在空間維度和通道維度上分布的歸一化,保持特征的域不變性。DSMNet的代價體維度為1/3H×1/3W×1/3D×32,代價聚合通過半全局聚合層(semi-global aggregation layer,SGA)和NLF層實現(xiàn),SGA層通過在圖像4個方向上聚合匹配代價,NLF層則用于實現(xiàn)匹配代價的長距離傳播,增強(qiáng)網(wǎng)絡(luò)對全局信息的利用,最終回歸得到視差。
同樣是為了解決算法的域適應(yīng)性問題,CFNet認(rèn)為數(shù)據(jù)集之間的圖像場景差異和視差分布不均衡限制了網(wǎng)絡(luò)模型的泛化能力,提出以級聯(lián)融合代價體(cascade and fused cost volume)增強(qiáng)立體匹配算法的跨域魯棒性。其中,融合代價體(fused cost volume)將多個低分辨率代價體進(jìn)行融合從而擴(kuò)大感受野,級聯(lián)代價體(cascade cost volume)使用基于方差的不確定性估計確定視差搜索范圍,減少視差分布對立體匹配精度的影響。在得到初始視差之后,網(wǎng)絡(luò)按照由粗到精的方式精化初始視差,通過計算像素的不確定度調(diào)整視差搜索范圍,實現(xiàn)視差圖的迭代精化。
RAFT-Stereo將自然語言處理中的GRU模塊引入立體匹配算法,代替3D卷積進(jìn)行代價體的正則化,減少內(nèi)存和算力消耗。該網(wǎng)絡(luò)的特征提取模塊使用圖像特征編碼器和上下文編碼器,前者用于提取左右視圖的圖像特征,后者提取左視圖的上下文信息用于GRU更新。RAFT-Stereo沒有采用特征串聯(lián)融合的方式構(gòu)造4D代價體,而是計算特征向量的點積構(gòu)建3D代價體,并對代價體的最后一個維度平均池化得到相關(guān)金字塔,擴(kuò)大網(wǎng)絡(luò)感受野。除此之外,網(wǎng)絡(luò)剔除相關(guān)查找算子建立視差與相關(guān)特征的聯(lián)系,實現(xiàn)查找相關(guān)特征的目的。在視差計算中使用多級卷積GRU傳播圖像的全局信息,迭代精化獲得精確視差。
STTR從序列到序列的角度重新審視了立體匹配問題,提出利用Transformer代替以往方法中的代價體構(gòu)建。STTR使用編碼器-解碼器獲取圖像特征,將左右特征圖輸入Transformer模塊中,交替計算自注意和交叉注意,自注意計算同一圖像上沿核線像素的注意力,交叉注意計算左右圖像之間沿極線像素的注意力,注意力計算中使用相對位置編碼提供特征的空間信息。估計視差時,STTR采用改進(jìn)WTA方法估計初始視差,并利用語義信息提供跨核線信息,精化初始視差。
為了對比研究5種立體匹配網(wǎng)絡(luò)的性能,本文在Sceneflow、KITTI Stereo 2015[26]、UAVStereo[27]和WHU[28]的立體子集等多個場景公開數(shù)據(jù)集上進(jìn)行實驗驗證。
Sceneflow數(shù)據(jù)集利用Blender合成了大規(guī)模復(fù)雜場景的立體匹配模擬數(shù)據(jù)。該數(shù)據(jù)集廣泛用于端對端立體匹配網(wǎng)絡(luò)的訓(xùn)練,包括FlyingThing3D、Driving和Monkaa 3個子集,對應(yīng)有不同的圖像場景類型和視差分布。
KITTI數(shù)據(jù)集是一個面向自動駕駛場景的室外真實數(shù)據(jù)集。其中包含了大量的道路、汽車、建筑等數(shù)據(jù),視差數(shù)據(jù)由車載激光雷達(dá)結(jié)果反算得到,有效視差像素較為稀疏,約占全部像素的1/3。
UAVStereo數(shù)據(jù)集是一個多分辨率的無人機(jī)低空場景數(shù)據(jù)集,其中包含居民地、林地和礦區(qū)共3種代表性場景的合成數(shù)據(jù)和真實數(shù)據(jù),可被用于驗證網(wǎng)絡(luò)對低空獲取的地表數(shù)據(jù)的處理能力以及在合成域和真實域之間的泛化能力。由于網(wǎng)絡(luò)的計算性能和機(jī)器內(nèi)存限制和當(dāng)前網(wǎng)絡(luò)處理要求,本文主要采用其中960像素×540像素的低分辨率數(shù)據(jù)進(jìn)行測評(后文中的UAVStereo指UAVStereo的低分辨率子集)。
WHU數(shù)據(jù)集是用于大規(guī)模地表重建的航空合成數(shù)據(jù)集,包含五視影像子集和立體匹配子集(后文中的WHU指WHU的立體匹配子集)。數(shù)據(jù)集中的航空圖像和視差真值由軟件生成的3D模型渲染得到,涵蓋建筑、工廠、山地、裸露地表等。本文實驗采用WHU數(shù)據(jù)集中的立體匹配子集,含有8 316對訓(xùn)練數(shù)據(jù)和2 663對測試數(shù)據(jù),分辨率為768像素×384像素。
由于相機(jī)基線、焦距和場景深度的差異,不同數(shù)據(jù)集的視差有較大差異。4個場景數(shù)據(jù)集視差在0~384像素之間的視差值分布情況如圖2所示。就視差范圍來講,如圖2所示,Sceneflow、KITTI Stereo 2015和WHU數(shù)據(jù)集的視差分布在150像素之內(nèi),UAVStereo視差在50~350像素之間,這是由于無人機(jī)影像基線大,根據(jù)式(2),其視差值和范圍分布也較大。
圖2 4個場景數(shù)據(jù)集視差分布情況
disparity=baseline×focallength/depth
(2)
就影像內(nèi)容來講,Sceneflow包含隨機(jī)場景和動畫場景的多種合成影像,KITTI Stereo 2015是真實街景影像,UAVStereo和WHU是對地觀測影像。
綜上,Sceneflow、KITTI Stereo 2015、UAVStereo和WHU這4個數(shù)據(jù)集的圖像場景信息、特征屬性和視差分布存在較大差異,為綜合評價不同的端對端立體匹配網(wǎng)絡(luò)提供了數(shù)據(jù)支撐。本文按照7∶1∶2數(shù)據(jù)集的比例將數(shù)據(jù)集劃分為訓(xùn)練數(shù)據(jù)、精化數(shù)據(jù)和測試數(shù)據(jù)(表2),用于測試當(dāng)前立體匹配網(wǎng)絡(luò)的性能,從而比較算法在不同場景的表現(xiàn)。
表2 實驗數(shù)據(jù)集
本文設(shè)計了同域?qū)嶒?、跨域?qū)嶒灪途瘜嶒?種實驗,在4個場景的數(shù)據(jù)集上進(jìn)行實驗,綜合對比研究5種代表性網(wǎng)絡(luò)的性能。①同域?qū)嶒灢捎帽?中的4組訓(xùn)練數(shù)據(jù)對5種網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練,在對應(yīng)的測試數(shù)據(jù)上進(jìn)行視差估計。同域?qū)嶒灲Y(jié)果可說明不同網(wǎng)絡(luò)在不同場景數(shù)據(jù)上的精度表現(xiàn),從而推測視差估計網(wǎng)絡(luò)的場景適應(yīng)性。②跨域?qū)嶒炛苯訉ceneflow數(shù)據(jù)集的網(wǎng)絡(luò)模型應(yīng)用于其他3個測試數(shù)據(jù)上,從而在圖像特征和視差分布均不同的數(shù)據(jù)集上實驗和統(tǒng)計網(wǎng)絡(luò)性能。這種直接遷移的方式可以用于分析網(wǎng)絡(luò)模型的跨域泛化能力。③精化測試中,先使用Sceneflow數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練,然后用3種樣本量較少的精化數(shù)據(jù)分別對模型進(jìn)行微調(diào)精化,對比微調(diào)前后各個網(wǎng)絡(luò)的視差估計誤差指標(biāo),從而評估精化策略對視差估計的影響,評價不同網(wǎng)絡(luò)的適應(yīng)能力。
本實驗測試環(huán)境使用NVIDIA GTX 3090顯卡,顯存為24 GB,配置CUDA 11.2、Pytorch 1.8.0。由于顯存限制,實驗訓(xùn)練階段將圖像裁剪為256像素×512像素大小輸入網(wǎng)絡(luò)(STTR訓(xùn)練過程除了左右圖像與對應(yīng)視差外,還需附加遮擋信息,因此只在Sceneflow和KITTI Stereo 2015上訓(xùn)練)。由于數(shù)據(jù)集視差范圍的差異,在Sceneflow、KITTI Stereo 2015和WHU數(shù)據(jù)集上設(shè)定網(wǎng)絡(luò)最大視差搜索范圍為192像素(STTR無需設(shè)置),由于UAVStereo數(shù)據(jù)集視差搜索范圍更大,實驗中設(shè)置最大視差搜索范圍為384像素。訓(xùn)練和測試階段批處理大小均為4。過程中始終將學(xué)習(xí)率設(shè)置為1E-3(STTR模型的學(xué)習(xí)率過高會導(dǎo)致訓(xùn)練中斷,所以將其設(shè)置為1E-4)。實驗中不設(shè)置訓(xùn)練循環(huán)次數(shù),在模型損失函數(shù)曲線無明顯變化時結(jié)束訓(xùn)練,使用最后一輪訓(xùn)練模型驗證測試集上的表現(xiàn)。
立體匹配算法通常采用端點誤差(end point error,EPE)和3像素誤差(3-pixel error,3PE)作為評價模型精度的指標(biāo)。EPE是指估計視差與真實視差之間差值的絕對值均值,單位為像素,該指標(biāo)反映了整幅圖像全部像素的視差估計誤差信息;3PE是指當(dāng)一個像素的視差誤差大于3時,將其視為錯誤像素,統(tǒng)計錯誤像素占有效像素的百分比作為實驗指標(biāo),該指標(biāo)反映誤差超過閾值的像素數(shù)量。
按照以上實驗設(shè)置與數(shù)據(jù)集劃分對網(wǎng)絡(luò)進(jìn)行同域訓(xùn)練和測試,實驗結(jié)果如表3所示。
表3 5種模型在4個數(shù)據(jù)集上的同域誤差統(tǒng)計
作為代表性算法,PSMNet的表現(xiàn)如下。①在Sceneflow、KITTI Stereo 2015和WHU數(shù)據(jù)集上精度結(jié)果并不理想,定量誤差統(tǒng)計結(jié)果顯示該網(wǎng)絡(luò)視差估計誤差和誤差像素占比都比較大,作為立體匹配的經(jīng)典網(wǎng)絡(luò),PSMNet提出了使用全局信息的策略,但其網(wǎng)絡(luò)結(jié)構(gòu)仍然較為簡單,不能同時運用細(xì)節(jié)和全局信息,導(dǎo)致精度效果不夠理想。②該網(wǎng)絡(luò)在UAVStereo數(shù)據(jù)集上結(jié)果比其他網(wǎng)絡(luò)好。由于無人機(jī)影像具有視差搜索范圍大、影像中包含的無紋理和重復(fù)紋理等病態(tài)區(qū)域較多的特點,其立體匹配難度較大,PSMNet中的空間金字塔池化和堆疊沙漏3D卷積能夠有效捕捉全局信息進(jìn)行匹配,從而提高了無人機(jī)影像立體匹配的精度。綜合圖2中視差分布情況,本文推測PSMNet在較大視差范圍的視差估計中有優(yōu)勢。③盡管無人機(jī)場景中該網(wǎng)絡(luò)表現(xiàn)不錯,但精度(EPE為3.44像素,3PE為11.63%)與Sceneflow仍然有很大差距,網(wǎng)絡(luò)性能仍然有待提高。在無人機(jī)場景中,PSMNet比其他網(wǎng)絡(luò)的精度更高。但PSMNet在無人機(jī)數(shù)據(jù)集上的整體精度低于該網(wǎng)絡(luò)在其他數(shù)據(jù)集上的精度。
STTR網(wǎng)絡(luò)在Sceneflow數(shù)據(jù)集上取得較好精度(EPE為0.54像素,3PE為1.67%)。①這說明通過自然語言處理領(lǐng)域中的Transformer模塊進(jìn)行處理后引入立體匹配中,能夠代替代價體的構(gòu)建,實現(xiàn)精準(zhǔn)的視差估計。②該網(wǎng)絡(luò)需要視差遮擋圖像作為訓(xùn)練數(shù)據(jù),對數(shù)據(jù)集有較高要求,無法在UAVStereo和WHU中使用,且無法用于實時數(shù)據(jù)的處理。關(guān)于視覺Transformer的研究表明[29],Transformer缺少一些卷積神經(jīng)網(wǎng)絡(luò)的歸納偏置,例如平移不變性和局部關(guān)系,因此在規(guī)模不足的數(shù)據(jù)集上表現(xiàn)欠佳。通過在Sceneflow和KITTI Stereo 2015數(shù)據(jù)集上對比STTR和CFNet在數(shù)據(jù)集上的表現(xiàn),可以初步驗證該結(jié)論在立體匹配網(wǎng)絡(luò)中的正確性。
RAFT-Stereo與DSMNet、CFNet和STTR相比,其誤差結(jié)果EPE較大,但3PE較小。本文推測這是由于其網(wǎng)絡(luò)結(jié)構(gòu)中的視差更新模塊可以有效索引視差范圍,使得3PE較小,但由于其網(wǎng)絡(luò)結(jié)構(gòu)中使用的編碼器結(jié)構(gòu)簡單,在特征提取時不能有效利用特征和全局信息,因此不能精準(zhǔn)估計視差。
跨域?qū)嶒瀸ceneflow的訓(xùn)練結(jié)果直接遷移至其他3個數(shù)據(jù)集,得到誤差統(tǒng)計結(jié)果如表4所示。
表4 5種模型在3個數(shù)據(jù)集上的跨域誤差統(tǒng)計
在KITTI Stereo 2015數(shù)據(jù)集上,5個網(wǎng)絡(luò)的EPE指標(biāo)都有降低,DSMNet、CFNet和STTR網(wǎng)絡(luò)的3PE指標(biāo)也有所下降,這主要是因為Sceneflow中包含虛擬駕駛場景Driving子集,該子集提供了稠密的駕駛場景視差真值,場景的相似性使得誤差降低。對比KITTI Stereo 2015上同域?qū)嶒灪涂缬驅(qū)嶒灥恼`差結(jié)果,可以發(fā)現(xiàn)大多網(wǎng)絡(luò)的跨域誤差小于同域誤差,因此本文認(rèn)為視差稠密度直接影響了網(wǎng)絡(luò)的表現(xiàn),稠密的視差真值能夠有效提升網(wǎng)絡(luò)的視差推理能力。研究表明,影像包含的特征類型會影響網(wǎng)絡(luò)特征的提取效果,視差的分布范圍會影響網(wǎng)絡(luò)中代價體構(gòu)建與正則化的效果。由于不同場景數(shù)據(jù)集在影像特征類型和視差分布范圍方面存在明顯差異,當(dāng)前網(wǎng)絡(luò)泛化性能有限,不能直接進(jìn)行跨域遷移。
UAVStereo和WHU數(shù)據(jù)集上的誤差指標(biāo)上升劇烈,這顯示出網(wǎng)絡(luò)在無人機(jī)低空場景和航天場景中跨域性能有限。其中,DSMNet和CFNet分別取得UAVStereo和WHU上的最小誤差,說明其網(wǎng)絡(luò)中的跨域泛化模塊有一定的跨域泛化能力,然而性能有限。對比UAVStereo和WHU上的誤差變化幅度,UAVStereo的誤差變化幅度遠(yuǎn)大于WHU,本文認(rèn)為雖然無人機(jī)場景和航空場景都是對地觀測,然而由于無人機(jī)獲取無紋理區(qū)域幾率大、視差搜索范圍大等原因,其視差估計更加困難。
在預(yù)訓(xùn)練結(jié)果上使用少量跨域樣本數(shù)據(jù)進(jìn)行精化,是提升模型跨域泛化的常用手段。因此,本實驗在Sceneflow上預(yù)訓(xùn)練至收斂,然后用其他3個數(shù)據(jù)集的精化數(shù)據(jù)對預(yù)訓(xùn)練模型進(jìn)行精化,對比不同網(wǎng)絡(luò)模型在精化前后的誤差指標(biāo),并評價不同網(wǎng)絡(luò)模型的跨域適應(yīng)能力。5個模型在精化實驗中的誤差統(tǒng)計結(jié)果如表5所示。
表5 5種模型在3個數(shù)據(jù)集上的精化誤差統(tǒng)計
在KITTI Stereo 2015數(shù)據(jù)集上,網(wǎng)絡(luò)整體精度不錯,精化策略之后誤差降低(3PE整體低于4%)。與同域驗證中的誤差指標(biāo)相比,該數(shù)據(jù)集上的誤差都有大幅降低。本文推斷這種精度的升高一方面是因為訓(xùn)練數(shù)據(jù)的增多,使得網(wǎng)絡(luò)得到充分訓(xùn)練;另一方面是因為Sceneflow中虛擬Driving場景為網(wǎng)絡(luò)提供了相似的影像特征和稠密的真值視差。
在UAVStereo數(shù)據(jù)集中,誤差指標(biāo)都呈增加趨勢,因此少量數(shù)據(jù)的精化策略在無人機(jī)低空場景數(shù)據(jù)集上并不奏效。這是由于UAVStereo和Sceneflow的場景信息、影像特征和視差分布的相似性較低,所以精化策略不如同域訓(xùn)練策略的精度表現(xiàn)。5種網(wǎng)絡(luò)中,PSMNet取得最小誤差,與同域驗證中的結(jié)果相似。因此,本文認(rèn)為在PSMNet基礎(chǔ)上進(jìn)行優(yōu)化可以提高其在無人機(jī)場景上的精度表現(xiàn)。DSMNet和CFNet分別在特征提取、代價體構(gòu)建的步驟中進(jìn)行了跨域泛化性能的增強(qiáng)。但以上兩種策略在無人機(jī)場景數(shù)據(jù)中的效果并不理想,在視差估計階段增加約束和增強(qiáng)泛化能力的研究還沒有得到足夠的關(guān)注,理論上具有深入研究的價值。
WHU數(shù)據(jù)集的指標(biāo)變化并不穩(wěn)定。與Sceneflow和KITTI Stereo 2015數(shù)據(jù)集的結(jié)果相比,當(dāng)前網(wǎng)絡(luò)在航空影像上的視差估計精度仍有待提高。WHU數(shù)據(jù)集在視差范圍上與Sceneflow和KITTI Stereo 2015數(shù)據(jù)集相差不大,但影像包含的特征類型明顯不同。因此,本文認(rèn)為當(dāng)前網(wǎng)絡(luò)對地物特征匹配的能力還有待加強(qiáng)。精化策略對WHU數(shù)據(jù)集的影像并不穩(wěn)定,精化效果與網(wǎng)絡(luò)本身有關(guān)。
本文使用3種實驗方法在4個數(shù)據(jù)集上對5種代表性的基于深度學(xué)習(xí)的立體匹配網(wǎng)絡(luò)進(jìn)行了綜合對比。實驗結(jié)果表明:在運算資源有限、場景類型多樣、影像特征和視差分布迥異的情況下,網(wǎng)絡(luò)結(jié)構(gòu)和訓(xùn)練策略對場景適用性有較大差異;PSMNet在仿真數(shù)據(jù)集、駕駛數(shù)據(jù)集和航空數(shù)據(jù)集上精度不高,但在無人機(jī)低空數(shù)據(jù)集上精度表現(xiàn)良好,在同域?qū)嶒灐⒕瘜嶒炛斜憩F(xiàn)優(yōu)于其他網(wǎng)絡(luò);DSMNet和CFNet使用不同的跨域泛化策略提升網(wǎng)絡(luò)的泛化性能,其策略對于跨域視差估計具有一定提升,但效果不明顯,誤差仍然很大;RAFT-Stereo在同域?qū)嶒灪途瘜嶒炛斜憩F(xiàn)不錯,然而在跨域?qū)嶒炛芯认陆凋炞C,本文推測增加其網(wǎng)絡(luò)中特征提取模塊的魯棒性能夠有效提升網(wǎng)絡(luò)性能;STTR也能夠獲取精度較高的視差結(jié)果,但是算法訓(xùn)練數(shù)據(jù)需要有人工標(biāo)注的遮擋信息,在實際中應(yīng)用較為困難。
本文將深度學(xué)習(xí)方法應(yīng)用到不同類型航空影像的立體匹配中,分析了代表性的立體匹配網(wǎng)絡(luò)在不同數(shù)據(jù)集上的精度表現(xiàn),評估了不同網(wǎng)絡(luò)的精度和泛化能力。實驗結(jié)果表明:受視差分布、場景類型等因素的影響,當(dāng)前代表性立體匹配網(wǎng)絡(luò)在航空遙感數(shù)據(jù)集UAVStereo和WHU上精度不高;使用域歸一化、多尺度代價體等增強(qiáng)跨域泛化能力的策略在航空影像上的適用性并不理想;利用自然語言處理Transformer模塊代替代價體的設(shè)計能夠在部分?jǐn)?shù)據(jù)集上提高精度,但由于其對訓(xùn)練數(shù)據(jù)有更高的要求,難以直接應(yīng)用于航空遙感影像。
結(jié)合本文實驗結(jié)果分析,本文對基于深度學(xué)習(xí)的立體匹配算法展望如下。
首先,有監(jiān)督的端對端立體匹配算法對于場景的適用性差異較大,精度表現(xiàn)受遙感影像場景類型、視差分布等因素的影響較大。隨著通用特征表示在多任務(wù)學(xué)習(xí)中取得越來越好的精度,將相關(guān)方法引入到立體匹配中有望取得更魯棒、更通用的特征表示,從而提高網(wǎng)絡(luò)的場景適用性。
其次,當(dāng)前立體匹配網(wǎng)絡(luò)訓(xùn)練過程對算力和內(nèi)存要求較高、算法收斂速度較慢,還不適應(yīng)機(jī)載端實時處理等智能遙感計算的需要。隨著深度學(xué)習(xí)中模型剪枝、知識蒸餾等輕量化措施的發(fā)展,將相關(guān)優(yōu)化措施引入立體匹配網(wǎng)絡(luò)將對運行性能、遙感影像實時處理相關(guān)應(yīng)用前景有重要提升。
最后,當(dāng)前應(yīng)對遙感影像跨域問題的方法主要采取少樣本(few-shot)數(shù)據(jù)進(jìn)行參數(shù)微調(diào)。然而,這種策略得到的精度效果并不穩(wěn)定。隨著元學(xué)習(xí)(meta-learning)方法在計算機(jī)視覺中的研究,將其中少樣本學(xué)習(xí)的方法引入立體匹配網(wǎng)絡(luò),能夠充分利用不同域之間的有效監(jiān)督信息,從而提高立體匹配網(wǎng)絡(luò)對于目標(biāo)場景的立體匹配精度。