基于深度學(xué)習(xí)的立體影像視差估計方法綜述

2022-10-17 10:59:06王道累肖佳威李建康

計算機工程與應(yīng)用 2022年20期

王道累，肖佳威，李建康，朱瑞

上海電力大學(xué) 能源與機械工程學(xué)院，上海 200090

從RGB圖像中估算深度是計算機視覺、圖形和機器學(xué)習(xí)領(lǐng)域一直在探索的問題之一[1]，其關(guān)鍵在于找到空間像素對應(yīng)點，然后通過三角剖分實現(xiàn)深度恢復(fù)，通常稱為視差估計或立體匹配。視差是指左右圖像中同物體在水平位置的差異[2]，即在左圖中位置(x,y)的物體與其相對的右圖中的位置(x-d,y)。當物體的視差d已知時，可用公式z=fB/d計算它的深度：其中f是相機的焦距，B是相機中心之間的距離。在給定相機在不同水平位置拍攝的兩幅圖像，將其校正后，可以計算出左側(cè)圖像中每個像素的差值[3]。雙目視差估計利用左右視圖之間的交叉參考的優(yōu)勢，獲得場景中物體的深度信息，在幾何信息推斷方面表現(xiàn)出強的性能和魯棒性，廣泛應(yīng)用于自動駕駛[4]、機器人定位[5]、醫(yī)療診斷[6]和三維場景重構(gòu)[7]等領(lǐng)域。典型的立體匹配算法包括四個步驟：匹配代價計算、代價聚合、視差優(yōu)化、視差后處理[8]。它們可以大致分為全局方法和局部方法，全局方法通常通過最小化包含數(shù)據(jù)和平滑項的全局目標函數(shù)來解決優(yōu)化問題[9]，而局部方法只考慮鄰域信息[10]。

盡管傳統(tǒng)視差估計方法已取得巨大進展，針對無紋理區(qū)域、重復(fù)圖案和薄結(jié)構(gòu)等問題[11]，仍難以解決。近年來，深度學(xué)習(xí)發(fā)展迅速，表現(xiàn)出較強的圖像理解能力[12]。為了更好地估計立體圖像對中的視差，卷積神經(jīng)網(wǎng)絡(luò)被應(yīng)用在雙目視差估計中。深度學(xué)習(xí)模型可通過一個卷積神經(jīng)網(wǎng)絡(luò)[13]（convolutional neural networks，CNN）將匹配代價計算、代價聚合、視差優(yōu)化集合起來，并取得完整且稠密的視差圖。

1 非端到端視差估計方法

非端到端的視差估計方法模仿了傳統(tǒng)視差估計方法，將其中的一部分或者多個部分通過CNN來代替。MC-CNN[14]最先提出使用卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)小圖像塊的相似性度量來計算匹配代價，通過構(gòu)建一個包含相似和不相似補丁塊的二元分類數(shù)據(jù)集進行訓(xùn)練，在當時的KITTI數(shù)據(jù)集和Mddlebury數(shù)據(jù)集上優(yōu)于其他方法，有力地證明了CNN提取特征優(yōu)于手工提取特征。盡管具有良好的精度，但MC-CNN具有計算消耗較大、計算速度較慢的問題。Shaked等[15]提出了一種新的多級加權(quán)殘差路徑高速網(wǎng)絡(luò)來計算匹配代價，使用支持圖像塊多級比較的混合損失進行訓(xùn)練。Chen等[16]通過深度嵌入模型來利用外觀數(shù)據(jù)來學(xué)習(xí)相應(yīng)圖像塊之間的視覺相似性關(guān)系，并將強度值顯示映射到嵌入特征空間以測量像素的不相似性。這些方法并不能直接得到良好的視差圖，通常需要初始代價通過非學(xué)習(xí)的后處理函數(shù)進行優(yōu)化，包括交叉代價聚合[17]、亞像素增強[18]、左右一致性檢測和濾波等操作[19]。

傳統(tǒng)方法中除匹配代價以外的部分也可由神經(jīng)網(wǎng)絡(luò)來計算，SGM-Net[20]設(shè)計了一種使用半全局匹配預(yù)測高精度稠密視差圖的神經(jīng)網(wǎng)絡(luò)。它是一種基于學(xué)習(xí)懲罰估計的方法，將一個小的圖像塊及其位置輸入到帶有半全局匹配的網(wǎng)絡(luò)中，預(yù)測3D結(jié)構(gòu)對象的懲罰，引入一種新的損失函數(shù)，能使用稀疏注釋的視差圖。因其半全局匹配懲罰代價標簽獲取繁瑣，其訓(xùn)練耗時耗力。

視差后處理的過程也可以在神經(jīng)網(wǎng)絡(luò)中進行，并取得良好的效果。Gidaris和Komodakis[21]通過訓(xùn)練一個深度神經(jīng)網(wǎng)絡(luò)，將輸出標簽和輸入圖像的初始估計作為輸入，預(yù)測標簽的新的精確估計。它將標簽改進分為三個步驟：（1）檢測不正確的初始標簽估計;（2）用新標簽替代不正確標簽；（3）預(yù)測剩余標簽來細化更新的標簽。這一過程雖然能提升一定精度，但需要消耗巨大計算資源。

非端到端的視差估計方法相對于傳統(tǒng)方法精度方面有巨大提升，但是其需要消耗巨大的計算資源，預(yù)測一張圖片的時間較長。而且視差估計過程中感受野有限，缺乏上下文信息，仍然無法避免視差后處理，正逐漸被端到端的視差估計方法所取代。

2 端到端視差估計方法

端到端的視差估計方法將視差估計的所有步驟集成到一個網(wǎng)絡(luò)中去，極大地提高了匹配精度和速度，被廣泛地應(yīng)用于機器人導(dǎo)航[22]、增強現(xiàn)實[23]和虛擬現(xiàn)實[24]。PSMNet（pyramid stereo matching network）[25]提出了一種端到端的金字塔視差估計網(wǎng)絡(luò)，設(shè)計了一種空間金字塔池化模塊（spatial pyramid pooling，SPP）用于增加感受野，將不同規(guī)模和位置的上下文信息利用起來，形成代價體；設(shè)計了堆疊沙漏3D卷積神經(jīng)網(wǎng)絡(luò)（stacked hourglass 3D CNN），結(jié)合中間監(jiān)督，并拓展代價體中區(qū)域上下文支持。為了減少人類在神經(jīng)網(wǎng)絡(luò)設(shè)計上的精力，LEAStereo（hierarchical neural architecture search for deep stereo matching）[26]提出一種將人類特定任務(wù)知識整合到神經(jīng)架構(gòu)搜索（neural architecture search，NAS）框架中，從端到端分層NAS架構(gòu)來進行深度立體匹配，利用體積立體匹配管道，允許網(wǎng)絡(luò)自動選擇最優(yōu)結(jié)構(gòu)的特征網(wǎng)和匹配網(wǎng)。

雖然上述的網(wǎng)絡(luò)能夠很好地學(xué)習(xí)圖像的全局上下文信息，能夠?qū)D像對進行高精度的雙目視差估計，但是在訓(xùn)練和使用的過程中計算的參數(shù)量過大，需要占用巨大的GPU（graphics processing unit）資源[27]。在實際應(yīng)用過程中，人們更加傾向于使用更加輕量化的模型，在保持一定精度的基礎(chǔ)上取得良好的視差估計效果[28]。GA-Net（guided aggregation net）[29]提出了半全局聚合層（semi-global aggregation layer，SGA）和局部引導(dǎo)聚合層（local guided aggregation layer，LGA），盡可能少地使用3D卷積，計算成本和內(nèi)存占用得到極大減少。SGA層實現(xiàn)了半全局匹配（semi-global matching，SGM）的近似可微分，使匹配代價在全圖的不同方向聚合，而LGA層遵循傳統(tǒng)的代價濾波策略，被用來處理細結(jié)構(gòu)和邊緣對象。為了顯著加快當前最先進的視差估計算法的運行速度，以實現(xiàn)實時推理，DeepPruner（learning efficient stereo matching via differentiable patchmatch）[30]設(shè)計了一個可微分的PatchMatch模塊，在不評估所有代價體的情況下去除大部分差異，得到稀疏表示的代價體，減少計算量和內(nèi)存。BGNet（bilateral grid learning networks）[31]設(shè)計了一種基于深度學(xué)習(xí)的雙邊網(wǎng)絡(luò)的新型保邊上采樣模塊，通過切片操作從低分辨率代價體中有效地獲得高分辨率代價體進行視差估計，許多現(xiàn)有的網(wǎng)絡(luò)都可以加入此模塊，并有相當?shù)木?，如GC-Net（geometry and context network）[32]、PSMNet[25]和GA-Net[29]等，并可以加速4～29倍。

端到端的視差估計方法在生成精確的幾何信息方面有廣泛的前景和魯棒性，使用大規(guī)模的數(shù)據(jù)集對深度學(xué)習(xí)模型進行訓(xùn)練，能夠使其在許多立體視覺任務(wù)中都表現(xiàn)出良好的性能，相比于傳統(tǒng)的視差估計方法取得了顯著的提升，成為現(xiàn)階段研究的熱點之一[33]。然而，端到端的視差估計方法訓(xùn)練過程緩慢，需要消耗巨大的計算資源，其使用的立體數(shù)據(jù)集需要包含高質(zhì)量的曲面法線和真實視差圖，高質(zhì)量數(shù)據(jù)集制作費時費力。

3 無監(jiān)督視差估計方法

高精度的數(shù)據(jù)集對網(wǎng)絡(luò)訓(xùn)練的好壞具有重要的作用，但是帶有真實視差圖的高精度數(shù)據(jù)集制作較為昂貴。一些不具有真實視差圖的數(shù)據(jù)集獲取較為簡單，為此一些無監(jiān)督視差估計方法被提出[34]。無監(jiān)督的方法以無監(jiān)督的方式驅(qū)動網(wǎng)絡(luò)，依賴于最小光度扭曲誤差。近年來，基于空間變換和視圖合成的無監(jiān)督學(xué)習(xí)方法被提出，并取得了不錯的精度。

DeepStereo[35]提出一種新的深度學(xué)習(xí)架構(gòu)，對大量位姿圖像集進行訓(xùn)練，直接從像素中合成新的視圖。深度回歸網(wǎng)絡(luò)直接回歸到給定輸入圖像的像素顏色輸出，對傳統(tǒng)方法的故障模式也有用，能夠在寬基線分隔的視圖之間進行插值。Deep3D[36]設(shè)計了一個深度神經(jīng)網(wǎng)絡(luò)，通過最小像素級重建損失，將左視圖作為輸入，內(nèi)部估計一個軟概率視差圖，然后渲染出一個新的右圖像，直接從一個視圖預(yù)測另一個視圖。這些視圖合成網(wǎng)絡(luò)為無監(jiān)督視差估計提供了強大的支持。

圖像損失函數(shù)在無監(jiān)督的視差估計中也有使用，Garg等[37]提出了第一個利用圖像重建損失進行單視圖深度預(yù)測的深度卷積神經(jīng)網(wǎng)絡(luò)，通過類似于自動編解碼器的方式訓(xùn)練網(wǎng)絡(luò)。為此，其使用預(yù)測的深度和已知的視點間位移顯式生成目標圖像的反向扭曲，以重建源圖像，重建中的光度誤差是編碼器的重建損失。該網(wǎng)絡(luò)雖然與單視圖深度估計的最佳監(jiān)督學(xué)習(xí)方法相當，但是單個圖像整體尺度模糊，單目視差估計不僅在絕對意義上準確，而且在細節(jié)恢復(fù)上效果也不好。

單獨解決圖像重建問題會導(dǎo)致深度圖像質(zhì)量差，Godard等[38]提出一種新的訓(xùn)練損失方法，加強了左右圖像差異之間的一致性，其還充分利用了極線幾何優(yōu)勢。這一致性約束極大的提高了網(wǎng)絡(luò)性能，這項工作標志基于最小化光度扭曲誤差的無監(jiān)督視差估計方法的成熟。Flow2Stereo[39]提出了一種無監(jiān)督模型，聯(lián)合學(xué)習(xí)光流和視差估計，將視差估計當做光流估計的特殊情況，利用立體視覺的三維幾何信息指導(dǎo)同一網(wǎng)絡(luò)來估計光流與視差。

無監(jiān)督的視差估計方法解決了缺乏真實視差圖難以對神經(jīng)網(wǎng)絡(luò)的訓(xùn)練的問題，僅使用一些較易拍攝的左右視圖就可對網(wǎng)絡(luò)進行訓(xùn)練，極大地減少了數(shù)據(jù)集制作的成本。但是，其在弱紋理區(qū)域，圖像重建損失函數(shù)無法得到良好的有監(jiān)督信號，而且并沒有辦法得到視差圖的真實尺度，重建出來的效果一般，在實際應(yīng)用中受到一定限制。

4 視差估計網(wǎng)絡(luò)模型比較

在深度學(xué)習(xí)視差估計網(wǎng)絡(luò)實際應(yīng)用中，為了方便和易于使用，需要將視差估計的整個過程集合到同一網(wǎng)絡(luò)上進行。而且對重建出來的圖像質(zhì)量要求也較高，使用端到端的視差估計方法是一種很好的選擇。本文選取5種深度學(xué)習(xí)視差估計方法，分別是PSMNet[25]、GA-Net[29]、LEAStereo[26]、DeepPruner[30]、BGNet[31]，PSMNet和GANet是預(yù)測較慢，有不錯精度的視差估計網(wǎng)絡(luò)，Deep-Pruner、BGNet是能夠?qū)崟r預(yù)測的最新網(wǎng)絡(luò)，而LEAStereo是神經(jīng)架構(gòu)搜索生成的網(wǎng)絡(luò)，對這些網(wǎng)絡(luò)實驗比較實時和非實時網(wǎng)絡(luò)之間的精度和參數(shù)量，以及神經(jīng)網(wǎng)絡(luò)搜索產(chǎn)生的網(wǎng)絡(luò)與人工設(shè)計的網(wǎng)絡(luò)之間的差異。其中PSMNet的創(chuàng)新性在于其設(shè)計空間金字塔池化模塊和堆疊沙漏3D卷積神經(jīng)網(wǎng)絡(luò)，充分利用全局上下文信息；GA-Net利用引導(dǎo)代價聚合代替廣泛使用的3D卷積，降低計算成本并獲得更好的精度；LEAStereo將神經(jīng)架構(gòu)搜索運用到視差估計任務(wù)中，允許網(wǎng)絡(luò)自動選擇最優(yōu)結(jié)的特征網(wǎng)和匹配網(wǎng)；DeepPruner開發(fā)了一個可微分的PatchMatch模塊，逐步減少搜索空間，高效地計算高似然假設(shè)的成本量。BGNet設(shè)計了一種新的基于學(xué)習(xí)雙邊網(wǎng)格切片操作的邊緣保護代價體上采樣模塊，通過切片操作從低分辨率代價體中有效地獲得高分辨率代價體進行視差估計。

4.1 PSMNet

PSMNet[25]是深度學(xué)習(xí)視差估計模型中最經(jīng)典的算法之一，后續(xù)很多算法將其作為參考。其創(chuàng)新點在于使用金字塔池化模塊和擴張卷積用于增加感受野，將特征由像素級拓展到不同感受野尺度的區(qū)域級，將全局和局部特征線索用于形成視差估計代價體。此外，還設(shè)計了一個堆疊沙漏3D卷積神經(jīng)網(wǎng)絡(luò)結(jié)合中間監(jiān)督，以規(guī)范代價體，為提高上下文信息提取率，以自上而下/自下而上的方式對代價體多次處理。

PSMNet是一種端到端的視差估計網(wǎng)絡(luò)，其模擬傳統(tǒng)的視差估計流程，將問題分解為特征提取、特征代價體的構(gòu)建和稠密匹配這幾個階段，每個階段由可微塊組成，從而實現(xiàn)的端到端的訓(xùn)練。PSMNet模型由4個步驟組成：（1）通過一系列的2D卷積提取圖像的一元特征，并將輸出的特征圖輸入SPP模塊來收集上下文信息，然后將這些特征進行融合，這些模塊本身之間權(quán)重都是共享的；（2）在每個視差級別上將左特征映射和它們對應(yīng)的右特征映射連接起來，形成一個成本量，從而產(chǎn)生一個4D體積(H×W×D×F)，其中H、W為圖像的高、寬，D為視差值，F(xiàn)為特征尺寸；（3）為了沿著視差維和空間維聚合特征信息，使用了堆疊沙漏（編碼器-解碼器）架構(gòu)，由重復(fù)的自頂向下/自底向上處理和中間監(jiān)督組成，三個主要的沙漏網(wǎng)絡(luò)共同組成該結(jié)構(gòu)，每一個都生成一個視差圖，總損失計算為三個損失的加權(quán)和；（4）通過雙線性插值將代價體上升到H×W×D，通過回歸來計算視差，使用softmax操作σ(·)從預(yù)測成本Cd中求得每個視差概率d，預(yù)測視差d?通過每個視差d按其概率加權(quán)的和計算。PSMNet網(wǎng)絡(luò)結(jié)構(gòu)圖如圖1所示[25]。

圖1 PSMNet網(wǎng)絡(luò)結(jié)構(gòu)示意圖Fig.1 Diagram of PSMNet network structure

4.2 GA-Net

GA-Net[29]的主要創(chuàng)新點是提出了SGA層和LGA層，更好地學(xué)習(xí)局部和全局代價之間的關(guān)系。相比于PSMNet使用了大量的3D卷積，通過這兩層結(jié)構(gòu)替換其中的3D卷積層，提升視差估計精度，減少立方計算和內(nèi)存復(fù)雜度。GA層的浮點運算方面的計算復(fù)雜度小于一個3D卷積層1/100，僅使用兩層引導(dǎo)聚合塊的網(wǎng)絡(luò)遠優(yōu)于19個3D卷積層的GCNet[32]，可以通過GA層構(gòu)建實時的模型。

在新的神經(jīng)網(wǎng)絡(luò)層中，第一種是SGA，它是受SGM[40]的啟發(fā)，是半全局匹配的可微近似。在SGM中有許多用戶定義的參數(shù)(P1、P2)，這些參數(shù)的調(diào)優(yōu)并不簡單[20]。而且其代價聚合和懲罰是固定的，這包括所有的像素、區(qū)域和圖像，對不同條件的適應(yīng)性較低。難最小值選擇還會導(dǎo)致在視差估計過程中產(chǎn)生大量的前向平行曲面。Zhang等[29]提出一種新的可反向傳播的半全局代價聚合步驟，如下式所示：

圖2 GA-Net網(wǎng)絡(luò)結(jié)構(gòu)示意圖Fig.2 Diagram of GA-Net network structure

第二種是LGA，它是受局部代價聚合（local matching cost matching）[41]的啟發(fā)，遵循傳統(tǒng)的代價過濾策略來細化細結(jié)構(gòu)和邊緣對象。不同于傳統(tǒng)的代價濾波器，使用K×K的濾波器在代價體的K×K的局部區(qū)域Np，LGA用三個K×K的濾波器在每個像素位置p進行濾波，產(chǎn)生視差分別為d、d-1、d+1。它表示如下：

其中，C(q,d)表示候選視差d在位置q的代價體；CA(p,d)表示候選視差d在位置p的代價體；w0、w1、w2為3個濾波器的權(quán)值矩陣。

GA-Net網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。首先將左右視圖輸入由不同層之間緊密相連的堆疊沙漏網(wǎng)絡(luò)，特征提取塊由左視圖和右視圖共享，然后通過文獻[42]中的方法將提取出的左右圖像特征構(gòu)建成4D代價體，最后再使用幾個SGA層模塊進行代價聚合，并在softmax層之前和之后使用LGA層進行視差回歸，得到視差圖。圖中快速引導(dǎo)子網(wǎng)絡(luò)為綠色塊，其實現(xiàn)類似于文獻[43]，它使用參考圖像作為輸入，聚合權(quán)重w作為輸出，對于4D代價體C，四個方向聚合的H×W×D×F(K=5)權(quán)重矩陣通過引導(dǎo)子網(wǎng)絡(luò)的輸出分割、重塑并歸一化求得，對應(yīng)切片d的不同視差的聚合具有相同的聚合權(quán)重。

4.3 LEAStereo

相較于PSMNet[25]和GA-Net[29]花費大量的時間用于神經(jīng)網(wǎng)絡(luò)的設(shè)計上，為了減少人類在神經(jīng)網(wǎng)絡(luò)設(shè)計方面的精力，通過使用NAS（neural architecture search），使網(wǎng)絡(luò)能夠在一組操作中進行選擇（例如：具有不同過濾器大小的卷積），能夠找到一個更好地適應(yīng)當前問題的最佳架構(gòu)。由于人類設(shè)計的最先進的深度立體匹配網(wǎng)絡(luò)規(guī)模已經(jīng)非常龐大，基于現(xiàn)有的計算資源，直接將NAS應(yīng)用到這樣的海量結(jié)構(gòu)是不可能的。LEAStereo[26]通過將特定任務(wù)的人類知識融入到NAS中，實現(xiàn)深度視差估計，遵循深度視差估計的常規(guī)步驟，且可以聯(lián)合優(yōu)化整個網(wǎng)絡(luò)結(jié)構(gòu)。

與文獻[44-46]中的NAS算法只有單一的編碼器/編碼器-解碼器架構(gòu)不同，文中算法能夠搜索兩個網(wǎng)絡(luò)的結(jié)構(gòu)、特征映射的大小、特征體積的大小和輸出視差的大小。與文獻[44]只搜索單元級結(jié)構(gòu)不同，允許網(wǎng)絡(luò)搜索單元級結(jié)構(gòu)和網(wǎng)絡(luò)級結(jié)構(gòu)，綜上所述，將幾何知識與神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索相結(jié)合，實現(xiàn)一個端到端層次NAS深度視差估計框架。LEAStereo網(wǎng)絡(luò)總體架構(gòu)如圖3所示[26]，主要部分組成：提取局部圖像特征的2D特征網(wǎng)、4D特征體、從連接的特征中計算和聚合匹配成本的3D匹配網(wǎng)，以及將計算代價體投影到視差地圖的軟argmin層。NAS只對包含可訓(xùn)練參數(shù)的特征網(wǎng)和匹配網(wǎng)進行搜索，LEAStereo網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。

圖3 LEAStereo網(wǎng)絡(luò)結(jié)構(gòu)示意圖Fig.3 Diagram of LEAStereo network structure

為了在一個預(yù)定義的L層網(wǎng)格中找到一條最優(yōu)路徑，如圖4所示。將一個標量與格子里的每個黑色箭頭關(guān)聯(lián)起來。其中用β來表示這個標量的集合。在網(wǎng)絡(luò)搜索空間中，將最小空間分辨率設(shè)置為1/24，在此基礎(chǔ)上，設(shè)計一個降采樣率為{3,2,2,2}的四級格架，在特征網(wǎng)的開始，有一個三層的“干”結(jié)構(gòu)，它的第一層是一個3×3的卷積層，stride為3，其次是兩層3×3的卷積層，stride為1。其中選擇LF=6作為特征網(wǎng)，選擇LM=12作為匹配網(wǎng)類似于尋找節(jié)點之間的最佳操作，通過使用一組搜索參數(shù)β在網(wǎng)格上搜索，以找到其中的路徑，使損失最小化。網(wǎng)格中每一層的每個單元都可以接收到同一層的前一個單元的輸入，也可以接收到下一層和上一層（如果有后兩層）的輸入。通過此算法找到的體系結(jié)構(gòu)如圖5所示。通過特征網(wǎng)絡(luò)手工添加了2個跳過連接，一個在節(jié)點2和節(jié)點5之間，另一個在節(jié)點5和節(jié)點9之間。

圖5 搜索架構(gòu)Fig.5 Searched architecture

4.4 DeepPruner

視差估計的搜索空間很大，而且相鄰像素通常具有相似的差異。為了解決這個問題，Duggal等[30]開發(fā)了一個可微分的PatchMatch模塊，在不評估所有代價體的情況下去除大部分差異，通過此代價體學(xué)習(xí)每個像素修剪范圍。然后再逐步減少搜索空間，有效地傳播這些信息，高效地計算高似然假設(shè)的代價體，減少所需計算的參數(shù)量和內(nèi)存。最后，為進一步提升精度，使用圖像引導(dǎo)細化模塊。DeepPruner網(wǎng)絡(luò)結(jié)構(gòu)如圖6所示[30]。

圖6 DeepPruner網(wǎng)絡(luò)結(jié)構(gòu)示意圖Fig.6 Diagram of DeepPruner network structure

DeepPruner中的剪枝模塊很大程度上受到了文獻[47]的啟發(fā)，首先循環(huán)展開加入粒子PatchMatch操作的神經(jīng)網(wǎng)絡(luò)層，并求得預(yù)測視差置信范圍，進而求得每個像素點處近似邊緣分布。解空間通過有效采樣和傳播修剪，顯著提高推理速度。DeepPruner主要由以下四個模塊組成：特征提取、通過可微的PatchMatch進行剪枝、代價聚合、視差優(yōu)化和預(yù)測。

可微的PatchMatch將廣義PatchMatch展開為一個循環(huán)神經(jīng)網(wǎng)絡(luò)，算法迭代即為網(wǎng)絡(luò)展開的過程。該結(jié)構(gòu)由粒子抽樣層、傳播層、評價層構(gòu)成。在粒子抽樣層中，在均勻分布的預(yù)測搜索空間中，每個像素i都會隨機生成k個視差值；在傳播層中，相鄰像素粒子以預(yù)定義的熱過濾器模式的卷積傳遞（見圖7），每個像素相鄰的4個像素點也會受粒子傳播。在評價層中，每個像素的左右特征內(nèi)積求得匹配分數(shù)，并且每個像素的最佳視差值會被帶入下一次迭代中。傳播層和評估層會進行遍歷，這一過程是在架構(gòu)底部的粒子采樣層進行的，如圖8所示。

圖7 一個熱濾波器組位于傳播層內(nèi)Fig.7 One hot filter banks within propagation layer

圖8 可微分的Patchmatch操作說明Fig.8 Illustration of differentiable patch match operations

置信區(qū)間預(yù)測網(wǎng)絡(luò)解決了像素差異位于狹窄區(qū)域的問題，調(diào)整每個像素的搜索空間。它由一個卷積編解碼結(jié)構(gòu)組成，輸入是可微分的PatchMatch、左圖像和根據(jù)稀疏視差估計而扭曲的右圖像，輸出是每個像素i的置信范圍Ri=[li,ui]。

4.5 BGNet

視差估計網(wǎng)絡(luò)的實時性和準確性之間的平衡仍然是一個挑戰(zhàn)，為了解決這個問題，Xu等[31]提出了一種基于學(xué)習(xí)后的雙邊網(wǎng)絡(luò)切片操作的保邊體積上采樣模塊。經(jīng)典的視差估計網(wǎng)絡(luò)StereoNet[48]中從低分辨率聚集的4D代價體回歸的2D視差圖通過雙線性插值和分層細化進行上采樣，速度較快，但是與PSM-Net[25]相比精度較低。相反，由于切片層是無參數(shù)的，BGNet使得可以在學(xué)習(xí)后的制導(dǎo)地圖的引導(dǎo)下，從一個低分辨率的代價體中高效率地獲得一個高分辨率的代價體，在高分辨率下回歸視差圖，保持高精度和高效率。BGNet網(wǎng)絡(luò)結(jié)構(gòu)如圖9所示[31]。

圖9 BGNet網(wǎng)絡(luò)結(jié)構(gòu)示意圖Fig.9 Diagram of BGNet network structure

BGNet是基于CUBG（cost volume upsampling in bilateral grid）模塊的基礎(chǔ)上設(shè)計出來的，其主要由四個模塊組成，即特征提取模塊、代價體聚合模塊、代價體上采樣模塊和殘余視差細化模塊。

CUBG模塊如圖10所示，低分辨率代價體CL和圖像特征圖為輸入，上采樣的高分辨率成本體積為輸出。CUBG模塊操作有雙邊網(wǎng)格創(chuàng)建和切片。

圖10 學(xué)習(xí)雙邊網(wǎng)絡(luò)代價體上采樣模塊Fig.10 Module of cost volume upsampling in learned bilateral grid（CUBG）

當代價體作為雙邊網(wǎng)格時，利用3×3的卷積將一個具有四個維度（包括寬度x、高度y、視差d和通道c）的低分辨率（例如：1/8）的聚合代價體CL轉(zhuǎn)化為雙邊網(wǎng)格B(x,y,d,g)，其中寬度x,高度y,視差d,制導(dǎo)特征g。

通過雙邊網(wǎng)格，可以利用切片層生成3D高分辨率代價體CH(CH∈?W,H,D)。切片操作是在高分辨率的二維制導(dǎo)映射G的引導(dǎo)下，在四維雙邊網(wǎng)格中進行線性插值。切片操作定義為：

其中，s∈(0,1)是網(wǎng)格尺寸w.r.t的寬高比值，即高分辨率代價體尺寸，sG∈(0,1)是網(wǎng)格(lgrid)的灰度值與制導(dǎo)圖lgrid的灰度值的比值。制導(dǎo)圖G由高分辨率的特征圖通過兩次1×1卷積生成。與文獻[49]中設(shè)計的原始網(wǎng)格不同，文中的雙邊網(wǎng)格是自動從代價體中學(xué)習(xí)的。在實驗中，網(wǎng)格大小通常設(shè)置為H/8×W/8×Dmax/8×32，W和H分別為圖像的寬度和高度，Dmax為最大視差值。

5 數(shù)據(jù)集及常用評價指標

為了評估深度學(xué)習(xí)視差估計模型在不同數(shù)據(jù)集上的表現(xiàn)，本文選取了三種不同的數(shù)據(jù)集進行實驗；KITTI2015是真實世界的街景數(shù)據(jù)集，Instereo2K是室內(nèi)場景大型標簽數(shù)據(jù)集，Middlebury2014是靜態(tài)室內(nèi)場景的高分辨率立體數(shù)據(jù)集。

5.1 KITTI2015數(shù)據(jù)集

KITTI數(shù)據(jù)集是一個真實世界的街景數(shù)據(jù)集，由一輛行駛的汽車在中型城市、農(nóng)村地區(qū)和高速公路上采集得來，記錄平臺配備2個高分辨率立體相機系統(tǒng)，1個Velodyne HDL-64E激光掃描儀，最先進的OXTS RT 3003的定位系統(tǒng)，攝像機、激光掃描儀和定位系統(tǒng)經(jīng)過校準和同步，可以提供準確的真實視差[50]。KITTI2015數(shù)據(jù)集是利用KITTI原始數(shù)據(jù)集，創(chuàng)建的一個具有獨立移動對象和逼真的真實視差的場景流數(shù)據(jù)集，共包含200張訓(xùn)練圖像和200張測試場景[51]，分辨率為376×1 242像素。該數(shù)據(jù)集中的真實視差圖是由激光掃描儀得到的稀疏視差圖，本文的訓(xùn)練集為具有真值的160張圖片，測試集為其余的40張圖像。

5.2 Instereo2K數(shù)據(jù)集

Instereo2K數(shù)據(jù)集是一個室內(nèi)場景視差估計的大型真實數(shù)據(jù)集，該數(shù)據(jù)集采集平臺是一個結(jié)構(gòu)光系統(tǒng)，由2臺分辨率為960×1 280像素的彩色攝像頭和1臺分辨率為768×1 024像素的投影儀組成，相機的CCD傳感器的像素大小為3.75 μm，每個相機的鏡頭焦距為8 mm[52]。該數(shù)據(jù)集包含2 050對RGB圖像及高度精確的視差圖，其中2 000對作為訓(xùn)練集，50對作為測試集，分辨率為860×1 280像素，涵蓋了不同的室內(nèi)場景，包括辦公室、教室、臥室、客廳和宿舍。與KITTI2015相比，Instereo2K數(shù)據(jù)集帶標簽圖像數(shù)量增加了一個數(shù)量級，在2 000對訓(xùn)練集中，本文1 600對圖像進行網(wǎng)絡(luò)訓(xùn)練，其余的400張圖片進行精度測試。

5.3 Middlebury2014數(shù)據(jù)集

Middlebury2014數(shù)據(jù)集是靜態(tài)室內(nèi)場景的高分辨率立體數(shù)據(jù)集[53]，它是在實驗室條件下拍攝而來的。它是一個結(jié)構(gòu)化的照明系統(tǒng)采集，該系統(tǒng)包括高效的二維亞像素對應(yīng)搜索、基于鏡頭畸變建模的攝影機和攝像機自標定的技術(shù)，結(jié)合來自多個投影儀的視差估計，在大多數(shù)觀測表面上實現(xiàn)0.2像素的視差精度。該數(shù)據(jù)集包含了33個新的600萬像素的數(shù)據(jù)集，其中23個數(shù)據(jù)集是包含真實視差圖的，可以用來訓(xùn)練和驗證，10個數(shù)據(jù)集是不提供真實視差圖的，用于測試。每個數(shù)據(jù)集由多次曝光和多次環(huán)境光照下拍攝的輸入圖像組成，有或沒有鏡像球來捕捉照明條件，每個數(shù)據(jù)集提供“完美”和現(xiàn)實的“不完美”校正，并分別提供精確的1維和2維的浮點視差。本文取80%具有真值的圖像作為訓(xùn)練集，通過剩余的20%測試精度。

5.4 常用評價指標

為了評估立體影像視差估計算法的性能或改變其某些參數(shù)的影響，需要使用規(guī)定的評價指標來判斷估計出來的視差圖好壞。通常是通過計算一些地面真實數(shù)據(jù)的誤差統(tǒng)計來實現(xiàn)的。常用的評價指標有以下三種：

（1）均方根誤差（RMS error），計算的視差圖dC(x,y)和地面真值圖dT(x,y)之間的均方根，即：

其中，N是像素總和。

（2）端點誤差（EPE），計算的視差圖dC(x,y)和地面真值圖dT(x,y)之間的平均值，即：

其中，N是像素總和。

（3）誤匹配像素百分比，計算的視差圖dC(x,y)和地面真值圖dT(x,y)相差大于δd的像素的比例，即：

其中，N是像素總和，δd可以取0.5、1.0、2.0、3.0、4.0。

對于KITTI2015基準測試結(jié)果，遵循標準評估協(xié)議，綜合全圖像測試誤差，選用誤匹配像素百分比大于3個像素比例作為評價指標，即3像素誤差；鑒于與之前發(fā)表的一些研究的一致性，Instereo2K和Middlebury2014數(shù)據(jù)集選用2像素誤差作為評價指標。

6 實驗結(jié)果與分析

為了能夠?qū)ι疃葘W(xué)習(xí)的視差估計網(wǎng)絡(luò)在室內(nèi)場景圖像的性能和泛化性進行全面的評估，本文設(shè)計了兩類實驗。第一類實驗將上述5種深度學(xué)習(xí)的視差估計網(wǎng)絡(luò)使用在KITTI2015數(shù)據(jù)集、Instereo2K數(shù)據(jù)集和Middlebury2014數(shù)據(jù)集上，測試其性能，并將它們和經(jīng)典的SGM方法進行比較。第二類實驗是為了測試深度學(xué)習(xí)視差估計模型的泛化性能，使用BGNet將三種數(shù)據(jù)集的預(yù)訓(xùn)練模型不加任何調(diào)整直接運用到各數(shù)據(jù)集上，測試該網(wǎng)絡(luò)的魯棒性。

6.1 深度學(xué)習(xí)方法和傳統(tǒng)SGM方法的比較

5種深度學(xué)習(xí)視差估計網(wǎng)絡(luò)測試和訓(xùn)練利用深度學(xué)習(xí)平臺Pytorch進行實現(xiàn)，在Nvidia Tesla P100顯卡上進行，顯存為16 GB。在訓(xùn)練之前，對數(shù)據(jù)集進行預(yù)處理，將輸入的圖片進行隨機裁剪，PSM-Net、DeepPruner、BGNet裁剪為256×512像素，GA-Net裁剪為240×576像素，LEAstereo裁剪為192×384像素。優(yōu)化器使用的是Adam（adaptive momentum）優(yōu)化器(b1=0.9,b2=0.999)，最大視差值和批處理大小分別設(shè)置為192和4，學(xué)習(xí)率設(shè)置為0.001。在三種數(shù)據(jù)集上，深度學(xué)習(xí)視差估計網(wǎng)絡(luò)和SGM方法誤差占比見表1。

表1 深度學(xué)習(xí)網(wǎng)絡(luò)和SGM方法在實驗中誤差占比Table 1 Percentage of deep learning networks and SGM method in experiment 單位：%

KITTI2015上能夠取得極佳的效果，在室內(nèi)圖像中也能表現(xiàn)出不錯的效果。但由于深度學(xué)習(xí)模型對各個場景數(shù)據(jù)集學(xué)習(xí)能力不同，缺少在包含真實視差和表面法線數(shù)據(jù)集的訓(xùn)練，如：PSM-Net和GA-Net，相較于傳統(tǒng)的SGM算法，在室內(nèi)場景數(shù)據(jù)集中并沒有取得更優(yōu)的效果。視差估計網(wǎng)絡(luò)對幾何信息的提取能力，以及數(shù)據(jù)集中圖像的質(zhì)量和數(shù)量對深度學(xué)習(xí)視差估計模型的預(yù)測具有很重要的意義。通過像LEAStereo一樣充分利用左右視圖交叉參考的優(yōu)勢，在表面法線等幾何信息中表現(xiàn)出強的性能，能夠更好地捕捉復(fù)雜場景的上下文信息，在室內(nèi)圖像的重建中能遠超傳統(tǒng)的SGM算法。相比較而言，先進的深度學(xué)習(xí)方法能夠減少具有挑戰(zhàn)性復(fù)雜場景的誤匹配現(xiàn)象，取得比傳統(tǒng)方法更好的效果。

為了更全面地評估深度學(xué)習(xí)視差估計網(wǎng)絡(luò)的性能，將KITTI數(shù)據(jù)集中的圖片分別進行相應(yīng)裁剪，輸入各網(wǎng)絡(luò)中，分別輸出訓(xùn)練過程網(wǎng)絡(luò)參數(shù)總量和運行時間，單位分別是MB和ms，它們都是網(wǎng)絡(luò)對一幅左右視圖進行推理所得數(shù)值，結(jié)果如表2所示。隨著深度學(xué)習(xí)視差估計網(wǎng)絡(luò)的不斷發(fā)展，輕量級的模型能在保持良好的運行時間和少的計算資源的條件下，取得更好的重建，對其運用在室內(nèi)機器人定位、導(dǎo)航、交互提供良好基礎(chǔ)。

表2 深度學(xué)習(xí)視差估計網(wǎng)絡(luò)的參數(shù)量和運行時間Table 2 Parameter numbers and running time of disparity estimation networks

為了比較深度學(xué)習(xí)模型和傳統(tǒng)SGM方法之間的差異，通過將KITTI2015和Middlebury2014視差結(jié)果進行渲染，更加直觀地對比差異，如圖11所示。深度學(xué)習(xí)的方法所得到的視差圖更加完整，模糊的噪點更少。SGM方法會產(chǎn)生一些空洞區(qū)域，需要通過視差后處理消除，深度學(xué)習(xí)的方法只需將圖片輸入一個端到端的視差估計網(wǎng)絡(luò)中，直接得到視差圖，節(jié)約時間成本，且可以取得更好的效果。

圖11 不同深度學(xué)習(xí)模型的視差結(jié)果Fig.11 Disparity results of different deep learning models

6.2 泛化性能

泛化性能對于立體網(wǎng)絡(luò)來說是非常重要的，具有良好的泛化性能對網(wǎng)絡(luò)的實際工程應(yīng)用具有重要的意義。遷移學(xué)習(xí)是將某個領(lǐng)域或任務(wù)上學(xué)習(xí)到的知識或模式應(yīng)用到不同但相關(guān)的領(lǐng)域或問題中。為了驗證BGNet在不同場景中的泛化效果，通過使用遷移學(xué)習(xí)的方法，將在一個數(shù)據(jù)集上訓(xùn)練所得的模型不經(jīng)過任何調(diào)整直接應(yīng)用于另一數(shù)據(jù)集上，通過在另外一個數(shù)據(jù)集上的精度結(jié)果，能夠反映出該網(wǎng)絡(luò)的泛化性能。表3是BGNet的預(yù)訓(xùn)練模型在各數(shù)據(jù)集上的測試結(jié)果。

表3 BGNet的預(yù)訓(xùn)練模型在各數(shù)據(jù)集上的測試結(jié)果Table 3 Test results of BGNet pretrained model on each dataset 單位：%

總體而言，深度學(xué)習(xí)的視差估計模型BGNet具有良好的泛化性能，在Middlebury2014和Instereo2K數(shù)據(jù)集上，使用KITTI2015數(shù)據(jù)集預(yù)訓(xùn)練的模型進行測試，仍能取得不錯的效果。而Middlebury2014預(yù)訓(xùn)練模型在Instereo2K數(shù)據(jù)集上能夠取得比KITTI2015更好的泛化性能，具有良好的魯棒性，這是由于KITTI2015數(shù)據(jù)集更多的包含的是室外場景的特征，對于室內(nèi)場景特征包含較少。由于Middlebury2014數(shù)據(jù)集可訓(xùn)練的數(shù)據(jù)量較少，Instereo2K數(shù)據(jù)集圖片質(zhì)量一般，其在KITTI2015數(shù)據(jù)集上表現(xiàn)較差，仍需增加數(shù)據(jù)集和圖像質(zhì)量。由此可以看出，在室內(nèi)場景立體匹配中，深度學(xué)習(xí)視差估計模型已有一定泛化性能，但在不經(jīng)任何微調(diào)的條件下，其效果并不優(yōu)于傳統(tǒng)SGM方法，其泛化性能仍然有待提升。

7 結(jié)語

本文對深度學(xué)習(xí)的視差估計方法進行概述，并將其應(yīng)用在室內(nèi)圖像數(shù)據(jù)集中，針對多個不同的數(shù)據(jù)集，并與SGM方法進行比較，并對其泛化性能進行分析，所得結(jié)果表明，首先，在室內(nèi)圖像數(shù)據(jù)集的視差估計過程中，深度學(xué)習(xí)模型能夠取得很好的效果；其次，在深度學(xué)習(xí)模型中，以端到端的方式輸出視差圖，無需后處理，最新的深度學(xué)習(xí)方法具有比傳統(tǒng)SGM方法更好的效果；最后，深度學(xué)習(xí)的方法具有良好的泛化性能，將在經(jīng)典的KITTI2015數(shù)據(jù)集訓(xùn)練的模型，不加任何調(diào)整直接應(yīng)用在室內(nèi)圖像的數(shù)據(jù)集中能取得不錯的效果，但和傳統(tǒng)方法相比效果一般，泛化性能有待提升。

現(xiàn)有研究面臨難題仍有：

（1）模型泛化性能有待提升，大多深度學(xué)習(xí)視差估計模型僅在訓(xùn)練的數(shù)據(jù)集上有良好的效果，用于其他不同的數(shù)據(jù)集，取得的效果一般。良好的泛化性能在實際應(yīng)用中具有重要作用。

（2）實時處理能力還較弱，現(xiàn)在所提出的視差估計網(wǎng)絡(luò)多使用3D和4D代價體，代價聚合時使用2D或3D卷積，計算量較大，計算消耗較大。開發(fā)輕量級、計算量較小的網(wǎng)絡(luò)仍是所面臨的挑戰(zhàn)之一。

（3）無紋理、反射表面和遮擋區(qū)域等不適定區(qū)域，很難找到精確的對應(yīng)點，將高級場景理解和低級特征學(xué)習(xí)相結(jié)合，更多地融合上下文信息，充分學(xué)習(xí)全局信息是解決途徑之一。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放