亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于視差優(yōu)化的立體匹配網(wǎng)絡(luò)

        2022-03-12 05:56:22劉建國顏伏伍沈建宏孫云飛
        計(jì)算機(jī)工程 2022年3期
        關(guān)鍵詞:視差概率分布代價(jià)

        劉建國,紀(jì) 郭,顏伏伍,沈建宏,孫云飛

        (1.先進(jìn)能源科學(xué)與技術(shù)廣東省實(shí)驗(yàn)室佛山分中心(佛山仙湖實(shí)驗(yàn)室),廣東 佛山 528200;2.武漢理工大學(xué) 現(xiàn)代汽車零部件技術(shù)湖北省重點(diǎn)實(shí)驗(yàn)室,武漢 430070;3.汽車零部件技術(shù)湖北省協(xié)同創(chuàng)新中心,武漢 430070;4.湖北省新能源與智能網(wǎng)聯(lián)車工程技術(shù)研究中心,武漢 430070;5.寧波華德汽車零部件有限公司,浙江 寧波 315000)

        0 概述

        隨著圖像處理技術(shù)的發(fā)展,基于視覺的深度估計(jì)逐漸發(fā)展成為無人駕駛、機(jī)器人等領(lǐng)域的重要測距方法之一,其中基于立體匹配的雙目測距方法以兼顧精度、速度和成本的優(yōu)勢受到廣泛關(guān)注,該方法通過匹配同一場景的左右視點(diǎn)兩幅圖像中的相應(yīng)像素點(diǎn)來計(jì)算視差,并根據(jù)相似三角形原理計(jì)算深度距離。傳統(tǒng)的立體匹配算法將匹配過程劃分為匹配代價(jià)計(jì)算、代價(jià)聚合、視差計(jì)算和視差優(yōu)化4 個(gè)部分[1],并基于代價(jià)函數(shù)的約束范圍及搜索策略分為局部、全局和半全局立體匹配算法[2]。但傳統(tǒng)算法采用手工設(shè)計(jì)的特征描述符,缺乏全局上下文信息,且受經(jīng)驗(yàn)參數(shù)的影響,算法魯棒性較差,不適合在復(fù)雜環(huán)境下應(yīng)用[3]。

        近年來,隨著深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域中的發(fā)展,研究人員開始基于深度學(xué)習(xí)方法解決立體匹配問題。LECUN 等[4]引入卷積神經(jīng)網(wǎng)絡(luò)提取左右圖特征,通過學(xué)習(xí)兩者的相似性計(jì)算匹配代價(jià),有效提高了算法魯棒性,但該方案仍然需要配合傳統(tǒng)算法中的十字交叉代價(jià)聚合[5]、半全局優(yōu)化[6-7]及濾波操作等完成立體匹配。LUO 等[8]在此基礎(chǔ)上將匹配代價(jià)計(jì)算轉(zhuǎn)化為多分類問題,訓(xùn)練網(wǎng)絡(luò)直接輸出所有潛在視差值下的匹配代價(jià),大大提高算法效率。

        上述方法利用卷積神經(jīng)網(wǎng)絡(luò)計(jì)算匹配代價(jià)減少了傳統(tǒng)算法中手工設(shè)計(jì)特征的誤差,但仍需結(jié)合傳統(tǒng)算法中的其他步驟求解視差圖,運(yùn)行速度較低。因此基于卷積神經(jīng)網(wǎng)絡(luò)的端到端立體匹配算法應(yīng)運(yùn)而生。MAYER 等[9]提出以左右圖像為輸入,以視差圖為輸出的端到端立體匹配網(wǎng)絡(luò)DispNet,并發(fā)布一個(gè)帶有真實(shí)視差圖的大型合成數(shù)據(jù)集用于訓(xùn)練網(wǎng)絡(luò)。在此基礎(chǔ)上,KENDALL 等[10]提出GCNet,首次通過級(jí)聯(lián)不同視差值下的特征圖構(gòu)建匹配代價(jià)卷,并通過3D 卷積進(jìn)行代價(jià)聚合,最終通過視差回歸的方式計(jì)算視差圖,為后續(xù)算法發(fā)展提供重要思路。PANG 等[11]提出一種兩階段網(wǎng)絡(luò)結(jié)構(gòu),第1 階段學(xué)習(xí)初始視差,第2 階段學(xué)習(xí)修正初始視差的殘差,最終將兩階段的和作為結(jié)果輸出,有效提高匹配精度。CHANG 等[12]提出PSMNet 網(wǎng)絡(luò),利用空間金字塔池化(Spatial Pyramid Pooling,SPP)模塊[13]融合不同尺度特征,同時(shí)采用堆疊的編碼解碼結(jié)構(gòu)進(jìn)行代價(jià)聚合,有效提高了視差預(yù)測精度。ZHANG 等[14]基于傳統(tǒng)的半全局匹配算法提出GANet,設(shè)計(jì)了半全局,引導(dǎo)聚合層從不同方向?qū)Υ鷥r(jià)卷進(jìn)行聚合取代3D 卷積,并結(jié)合局部引導(dǎo)聚合層,有效提升立體匹配的性能。MA 等[15]結(jié)合光流、視差估計(jì)及實(shí)例分割3 種任務(wù),將各個(gè)實(shí)例的光流、視差及語義線索編碼成能量函數(shù)進(jìn)行最小化求解,實(shí)現(xiàn)多任務(wù)間互相融合,但運(yùn)行時(shí)間過長。XU 等[16]采用3D 代價(jià)卷并設(shè)計(jì)尺度內(nèi)及尺度間代價(jià)聚合模塊代替3D 卷積,有效提高算法實(shí)時(shí)性,但匹配精度相對(duì)較低。ZHU 等[17]基于多尺度特征,設(shè)計(jì)十字形空間金字塔模塊以不同的比例和位置聚合上下文信息構(gòu)建代價(jià)卷,并設(shè)計(jì)多尺度3D 特征匹配和融合模塊聚合代價(jià)卷,有效提高算法在不適定區(qū)域的匹配精度。

        隨著高性能計(jì)算平臺(tái)的發(fā)展,立體匹配的網(wǎng)絡(luò)結(jié)構(gòu)更加復(fù)雜,特征提取及代價(jià)聚合網(wǎng)絡(luò)不斷加深。深層網(wǎng)絡(luò)有助于提取更加抽象的特征,對(duì)于目標(biāo)檢測、語義分割等對(duì)語義信息要求較高的視覺任務(wù)具有重要意義。但立體匹配作為低層級(jí)視覺任務(wù),除了依賴深層特征完成前景物體的基本匹配,還需要淺層特征和局部上下文信息細(xì)化小物體、邊緣等區(qū)域的匹配。而大多數(shù)立體匹配網(wǎng)絡(luò)采用深層特征提取網(wǎng)絡(luò)和堆疊的編碼解碼結(jié)構(gòu),在反復(fù)上下采樣過程中造成淺層特征中的細(xì)節(jié)信息丟失。同時(shí),傳統(tǒng)的代價(jià)卷構(gòu)造方式對(duì)每個(gè)像素的完整視差范圍都構(gòu)建匹配代價(jià)進(jìn)行計(jì)算,雖然通過稀疏化視差的方式可以降低計(jì)算量,但是仍然造成代價(jià)卷在非真實(shí)視差處的計(jì)算冗余。

        針對(duì)上述問題,本文引入視差優(yōu)化思想,基于PSMNet 構(gòu)建一種改進(jìn)網(wǎng)絡(luò)CTFNet。采用特征提取網(wǎng)絡(luò)分別提取下采樣程度不同的淺層和深層特征,基于深層特征構(gòu)建所有潛在視差值范圍內(nèi)的全局稀疏代價(jià)卷,并通過代價(jià)聚合和視差計(jì)算預(yù)測初始視差圖。此外,基于局部上下文信息豐富的淺層特征和初始視差圖,對(duì)每個(gè)像素點(diǎn)構(gòu)建初始預(yù)測視差鄰域范圍內(nèi)的局部稠密代價(jià)卷,并通過簡單的代價(jià)聚合和視差計(jì)算進(jìn)行視差優(yōu)化。在損失函數(shù)部分,本文基于文獻(xiàn)[18]引入softmax 操作后的概率分布損失函數(shù),在預(yù)測初始視差圖過程中通過限制每個(gè)像素點(diǎn)處視差值概率,使其分布在真實(shí)視差值附近,形成高斯分布,提高初始視差圖精度,保證視差優(yōu)化階段利用初始視差圖構(gòu)造局部稠密代價(jià)卷的可靠性,從而優(yōu)化視差圖精度。

        1 網(wǎng)絡(luò)結(jié)構(gòu)

        本文以PSMNet 作為骨干網(wǎng)絡(luò)進(jìn)行改進(jìn),其網(wǎng)絡(luò)結(jié)構(gòu)如圖1(a)所示(彩色效果見《計(jì)算機(jī)工程》官網(wǎng)HTML 版)。PSMNet 采用殘差網(wǎng)絡(luò)和空間金字塔池化(SPP)模塊提取特征,其中殘差網(wǎng)絡(luò)由3 個(gè)3×3 卷積層和4 個(gè)殘差塊共53 層卷積層構(gòu)成,配合SPP 模塊可以得到多尺度深層特征,基于左右特征圖構(gòu)建的匹配代價(jià)卷通過3 個(gè)相同的編碼-解碼結(jié)構(gòu)進(jìn)行聚合并實(shí)現(xiàn)多級(jí)監(jiān)督,最終視差回歸得到預(yù)測視差圖。PSMNet 的特征提取網(wǎng)絡(luò)相對(duì)復(fù)雜,計(jì)算成本高,且三次編碼-解碼結(jié)構(gòu)始終對(duì)完整視差范圍的代價(jià)卷進(jìn)行聚合,造成計(jì)算冗余?;谏鲜鰡栴},本文提出一種改進(jìn)后的立體匹配網(wǎng)絡(luò)CTFNet,其網(wǎng)絡(luò)結(jié)構(gòu)如圖1(b)所示,由特征提取、初始視差圖預(yù)測和視差優(yōu)化3 部分構(gòu)成。

        圖1 PSMNet 與CTFNet 網(wǎng)絡(luò)結(jié)構(gòu)對(duì)比Fig.1 Comparison of PSMNet CTFNet network structures

        1.1 特征提取

        相對(duì)于目標(biāo)檢測、語義分割等視覺任務(wù),立體匹配對(duì)于特征的抽象程度要求相對(duì)較低,而且更加注重全局信息與局部細(xì)節(jié)信息的結(jié)合,全局信息有利于保證前景物體匹配精度和視差的連續(xù)性,局部細(xì)節(jié)信息對(duì)于提高不適應(yīng)區(qū)域如小物體、邊緣等區(qū)域的匹配精度具有重要作用。因此與PSMNet 網(wǎng)絡(luò)所采用的復(fù)雜特征提取結(jié)構(gòu)不同,本文采用深淺層特征兩階段輸出的特征提取網(wǎng)絡(luò)。具體來說,由淺層特征提取結(jié)構(gòu)和深層特征提取結(jié)構(gòu)組成,如圖2所示。

        圖2 特征提取網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Structure of feature extraction network

        淺層特征提取結(jié)構(gòu)由3 個(gè)卷積核尺寸為3×3 的卷積層構(gòu)成,每個(gè)卷積層后都跟隨著批標(biāo)準(zhǔn)化層和ReLU 激活函數(shù)層,其中第1 個(gè)卷積層步長為2,將圖像下采樣尺寸設(shè)置為原圖尺寸的1/2,其他卷積層步長均為1,以保留更多的空間細(xì)節(jié)信息。將淺層特征提取模塊輸出的初始特征圖用來繼續(xù)提取深層多尺度特征,同時(shí)也經(jīng)過卷積核尺寸為3×3 卷積層對(duì)通道進(jìn)行調(diào)整,并將得到的淺層特征圖輸出到視差優(yōu)化階段,從而構(gòu)建局部稠密代價(jià)卷。

        將深層特征提取結(jié)構(gòu)引入多孔空間金字塔池化(ASPP)結(jié)構(gòu)[19],以提取多尺度空間信息,并分別通過卷積核尺寸為1×1 的卷積操作實(shí)現(xiàn)跨通道信息整合。每個(gè)卷積操作后面都同樣跟隨批標(biāo)準(zhǔn)化層和激活函數(shù)層,最終采用級(jí)聯(lián)的方式將包含不同尺度信息的特征圖級(jí)聯(lián)起來。ASPP 結(jié)構(gòu)的使用可以保證使用較少的卷積層實(shí)現(xiàn)較大的感受野,有利于匹配對(duì)全局信息要求較高的前景物體。級(jí)聯(lián)后的多尺度特征經(jīng)過卷積核尺寸為3×3 及1×1 的卷積層后與初始特征圖級(jí)聯(lián),再通過卷積核尺寸為3×3 及1×1 的卷積層以及一個(gè)卷積核大小為3、步長為2 的卷積層下采樣得到最終輸出的1/4 原圖大小的深層特征圖,并用作初始視差圖預(yù)測。

        1.2 初始視差圖預(yù)測

        經(jīng)過共享權(quán)重的特征提取網(wǎng)絡(luò)得到左右特征圖后,本文將每個(gè)潛在視差值下的左圖特征和對(duì)應(yīng)右圖下的特征級(jí)聯(lián)起來,封裝成一個(gè)4 維的匹配代價(jià)卷。針對(duì)4 維代價(jià)卷,本文采用3D 卷積來聚合上下文信息并通過編碼-解碼結(jié)構(gòu)聚合匹配代價(jià)卷。如圖3 所示,通過4 個(gè)3D 卷積層對(duì)匹配代價(jià)卷進(jìn)行初步的代價(jià)聚合,為了補(bǔ)充淺層特征信息,將第2 次卷積的結(jié)果與第4 次卷積的結(jié)果進(jìn)行跳躍連接。接著,采用基于3D 卷積的編碼-解碼結(jié)構(gòu)對(duì)代價(jià)卷進(jìn)行聚合。編碼-解碼結(jié)構(gòu)如圖3 中虛線框所示,編碼與解碼階段分別使用2 個(gè)步長為2 的3D 卷積與3D反卷積進(jìn)行下/上采樣,提高對(duì)全局信息的利用程度并降低計(jì)算量。為彌補(bǔ)上下采樣引起的局部上下文信息的損失,在反卷積時(shí)將編碼階段對(duì)應(yīng)尺寸大小的代價(jià)卷通過跳躍連接與解碼階段的代價(jià)卷進(jìn)行連接。本文采用2 個(gè)編碼-解碼結(jié)構(gòu)串聯(lián)使用進(jìn)行代價(jià)聚合和多級(jí)監(jiān)督,將每個(gè)編碼-解碼結(jié)構(gòu)輸出的匹配代價(jià)卷,通過線性插值的方式上采樣到原圖尺寸,用作視差回歸。

        圖3 初始視差圖預(yù)測網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 Structure of initial disparity map prediction network

        本文采用完全可微的Soft Argmin[10]操作進(jìn)行視差回歸,將預(yù)測的匹配代價(jià)Cd取負(fù),把匹配代價(jià)轉(zhuǎn)化為匹配可能性(匹配代價(jià)越高,可能性越低),然后使用softmax 操作進(jìn)行歸一化,輸出每個(gè)像素在不同視差值d下的概率,最終基于概率對(duì)視差進(jìn)行加權(quán)求和得到預(yù)測視差值,如式(1)所示:

        其中:d表示預(yù)測視差值;Dmax表示最大視差;Cd表示在視差d下的匹配代價(jià);soft max(·)表示softmax 操作,其數(shù)學(xué)表達(dá)式如下:

        1.3 視差優(yōu)化

        網(wǎng)絡(luò)采用左右特征圖構(gòu)造全局稀疏視差值(0,4,…,Dmax,Dmax=192)下的代價(jià)卷,經(jīng)過2 個(gè)沙漏結(jié)構(gòu)聚合后通過上采樣和視差回歸得到與原圖分辨率相同的初始視差圖。代價(jià)聚合過程中,用于視差回歸的代價(jià)卷需要通過插值的方式恢復(fù)到原圖尺寸和完整稠密視差值范圍(0,1,…,Dmax,Dmax=192),這就使最終的視差結(jié)果在目標(biāo)邊緣、小物體等細(xì)節(jié)區(qū)域引入大量誤差。同時(shí),由于特征圖經(jīng)過多次編碼-解碼結(jié)構(gòu),其特征隨著網(wǎng)絡(luò)的加深不斷抽象,最終的結(jié)果在前景物體的匹配精度指標(biāo)上表現(xiàn)良好,但是針對(duì)背景物體或小物體,由于其對(duì)上下文細(xì)節(jié)信息要求較高,因此匹配誤差率會(huì)顯著增大?;谏鲜鰡栴},本文提出基于淺層特征和局部稠密代價(jià)卷的視差優(yōu)化模塊。

        為降低反復(fù)上下采樣對(duì)局部細(xì)節(jié)信息造成的損失,本文在視差優(yōu)化階段采用特征提取階段的1/2 原圖尺寸的淺層特征圖構(gòu)造新代價(jià)卷。為減少冗余計(jì)算,提高視差回歸精度,本文利用初始視差圖預(yù)測階段輸出的原圖尺寸的視差圖構(gòu)造局部稠密代價(jià)卷,僅針對(duì)預(yù)測視差值附近的視差范圍求解詳細(xì)的概率分布?;诔跏碱A(yù)測的視差圖,本文將每個(gè)像素的預(yù)測視差值線性擴(kuò)展為其鄰域內(nèi)的2n個(gè)視差從而構(gòu)造預(yù)測視差卷,其中n為超參數(shù)。假設(shè)某像素點(diǎn)初始預(yù)測視差為d′,則以[d′-n,d′+n]作為該點(diǎn)的局部視差范圍,并限制其不超出[0,Dmax]。然后將該視差范圍平均劃分為2n個(gè)視差值作為候選視差。由于初始視差值是亞像素級(jí)的,而傳統(tǒng)構(gòu)造方式只能對(duì)視差值為整數(shù)的情況進(jìn)行代價(jià)卷構(gòu)造,因此本文采用一種新的代價(jià)卷構(gòu)造方式,如圖4 所示(彩色效果見《計(jì)算機(jī)工程》官網(wǎng)HTML 版)。

        圖4 新代價(jià)卷構(gòu)造方式示意圖Fig.4 Schematic diagram of construction mode of new price volume

        如圖4 所示,假設(shè)左右特征圖組通道數(shù)均為C,以同為C0通道的左右特征圖為例,由于特征圖尺寸為原圖的1/2,因此首先需要將視差卷下采樣至原圖的1/2 尺寸,同時(shí)所有視差值相應(yīng)除以2。然后將C0通道的左特征圖復(fù)制2n次作為第C0通道的代價(jià)卷,將右特征圖基于視差卷進(jìn)行warp 翹曲操作[20]得到第C+C0通道的代價(jià)卷。其中warp 翹曲操作如圖5所示。首先,根據(jù)視差圖計(jì)算得到1 個(gè)與左特征圖尺寸相同的坐標(biāo)網(wǎng)格,網(wǎng)格中每一點(diǎn)(x,y)的值為左特征圖中(x,y)處的像素點(diǎn)在右特征圖中的對(duì)應(yīng)匹配點(diǎn)的坐標(biāo)(x-d,y),其中d代表該點(diǎn)候選視差值。然后,利用坐標(biāo)網(wǎng)格將右特征圖中匹配點(diǎn)(x-d,y)處的像素值全部填充到左特征圖的(x,y)處,從而產(chǎn)生1 張新的特征圖。由于視差值d為亞像素級(jí),則計(jì)算得到的坐標(biāo)(x-d,y)不一定是整數(shù)值,因此要用插值的方式從(x-d,y)鄰域的像素值得到(x-d,y)處的像素值。將第C0通道的右特征圖基于所有候選視差產(chǎn)生的2n個(gè)特征圖作為第C+C0通道的代價(jià)卷。最終對(duì)所有特征通道的特征圖構(gòu)造代價(jià)卷即可得到1 個(gè)的4 維代價(jià)卷,其中H和W分別代表原圖尺寸的高和寬。

        圖5 warp 翹曲操作示意圖Fig.5 Sketch mapnew of warp operation

        為保存細(xì)節(jié)信息,本文僅使用1 次編碼-解碼結(jié)構(gòu)對(duì)新代價(jià)卷進(jìn)行聚合,聚合后的代價(jià)卷僅需通過1 次上采樣即可恢復(fù)成原圖尺寸。對(duì)于聚合后的代價(jià)卷,本文同樣采用Soft Argmin 操作進(jìn)行視差回歸,輸出每個(gè)像素在不同視差值d下的概率,但由于此時(shí)代價(jià)卷代表的不再是全局范圍的視差,而是基于初始視差圖構(gòu)造的鄰域局部范圍內(nèi)的視差。因此,本文利用事先構(gòu)造的視差卷,針對(duì)每個(gè)像素,僅在預(yù)測視差值d′鄰域范圍[d′-n,d′+n]內(nèi)進(jìn)行視差回歸,達(dá)到視差優(yōu)化的目的。

        1.4 損失函數(shù)

        本文的損失函數(shù)由2 部分構(gòu)成,如式(3)所示,一部分是基于多級(jí)監(jiān)督的視差損失,另一部分是初始視差圖預(yù)測階段的softmax 后概率分布損失。

        1.4.1 視差損失

        本文采用兼具魯棒性和穩(wěn)定性的Smooth L1函數(shù)作為網(wǎng)絡(luò)的基礎(chǔ)視差損失函數(shù),如式(4)所示:

        其中:N表示有效像素點(diǎn)個(gè)數(shù);dn表示真實(shí)視差值;表示預(yù)測視差值;Smooth L1(·)表示平滑的L1 損失,其表達(dá)式如下:

        本文采用多級(jí)監(jiān)督的訓(xùn)練方式,對(duì)網(wǎng)絡(luò)每個(gè)編碼-解碼結(jié)構(gòu)輸出的代價(jià)卷進(jìn)行視差回歸并計(jì)算損失,最終通過加權(quán)求和的方式計(jì)算總的視差損失,從而實(shí)現(xiàn)視差逐級(jí)細(xì)化,如式(6)所示:

        其中:wi表示不同階段輸出的視差損失的權(quán)重;M表示視差結(jié)果受監(jiān)督的層級(jí)數(shù);和參考文獻(xiàn)[12]相同,i取3;各視差結(jié)果對(duì)應(yīng)權(quán)重參數(shù)分別為w1=0.5,w2=0.7,w3=1。

        1.4.2 softmax 后概率分布損失

        由于新代價(jià)卷的構(gòu)造對(duì)初始預(yù)測的視差圖精度提出較高的要求,即需要初始預(yù)測視差圖中每個(gè)像素的預(yù)測視差值能夠在真實(shí)視差值鄰域范圍內(nèi)。為約束初始視差圖,本文引入softmax 操作后的概率分布損失。匹配代價(jià)卷被用以反映候選匹配像素對(duì)之間的相似度,代價(jià)卷經(jīng)過softmax 操作后輸出每個(gè)像素在不同視差值d下的概率,其中真實(shí)視差值具有最高概率,且概率值應(yīng)隨與真實(shí)視差值的距離增大而迅速下降。根據(jù)該屬性,本文基于真實(shí)視差值,采用高斯分布構(gòu)建真實(shí)視差概率分布,對(duì)代價(jià)卷softmax 后的概率分布進(jìn)行監(jiān)督,約束預(yù)測視差值概率在真實(shí)視差值附近成單峰分布?;谡鎸?shí)視差值構(gòu)建的真實(shí)視差概率分布如下:

        其中:d表示候選視差值,d∈[0,Dmax];dgt表示真實(shí)視差值;σ表示方差,用來控制視差概率分布的離散程度,σ越小則視差概率分布越集中于真實(shí)視差值附近,σ>0,基于參考文獻(xiàn)[18],本文σ取1.2。

        根據(jù)真實(shí)視差值構(gòu)建真實(shí)視差概率分布P(d),同時(shí)在視差預(yù)測階段,計(jì)算softmax 后的概率分布,通過交叉熵定義分布損失,如式(8)所示:

        其中:N表示有效像素點(diǎn)個(gè)數(shù);d表示候選視差值;H(·)表示交叉熵?fù)p失函數(shù)。H(·)的表達(dá)式如式(9)所示:

        為防止過擬合,本文中softmax 后概率分布損失僅針對(duì)初始視差預(yù)測階段的初始視差圖進(jìn)行計(jì)算。

        2 實(shí)驗(yàn)與結(jié)果分析

        為測試算法的性能,本文基于PyTorch 深度學(xué)習(xí)架構(gòu)實(shí)現(xiàn)提出的CTFNet 模型,使用NVIDIA 1080Ti GPU訓(xùn)練及測試網(wǎng)絡(luò),研究網(wǎng)絡(luò)各組成部分不同參數(shù)配置對(duì)視差圖預(yù)測的影響,并將其與參考算法進(jìn)行比較。

        2.1 數(shù)據(jù)集

        采用SceneFlow 數(shù)據(jù)集[9]和KITTI 2015 數(shù)據(jù)集[21]對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練和測試,其中SceneFlow 數(shù)據(jù)集為合成數(shù)據(jù)集,包含圖像尺寸為960×540 像素分辨率的立體圖像對(duì),其中35 454 張用于訓(xùn)練,4 370 張用于測試,所有圖片提供稠密視差圖作為真實(shí)值。KITTI 2015 數(shù)據(jù)集為真實(shí)道路場景下采集的數(shù)據(jù)集,包含200 張訓(xùn)練集圖片和200 張驗(yàn)證集圖片,圖像尺寸為1 240×376 像素,其中訓(xùn)練集提供稀疏視差圖作為真實(shí)值,驗(yàn)證集僅提供左右圖像對(duì),預(yù)測視差圖精度需將圖片上傳至KITTI網(wǎng)站進(jìn)行評(píng)估。對(duì)于KITTI 數(shù)據(jù)集,本文隨機(jī)選取訓(xùn)練集中的160 個(gè)圖像對(duì)進(jìn)行訓(xùn)練,剩余40 個(gè)圖像對(duì)用于測試。

        2.2 實(shí)施細(xì)節(jié)

        CTFNet 的訓(xùn)練過程包含2 個(gè)步驟,首先在SceneFlow 數(shù)據(jù)集上預(yù)訓(xùn)練模型,在輸入網(wǎng)絡(luò)之前,對(duì)每個(gè)原始圖像對(duì)進(jìn)行歸一化處理,將圖像RGB 值歸一化到[-1,1]區(qū)間內(nèi),并隨機(jī)裁剪成512×256 分辨率的圖像補(bǔ)丁輸入到網(wǎng)絡(luò)。網(wǎng)絡(luò)使用Adam 優(yōu)化器,優(yōu)化參數(shù)β1、β2的值分別為0.90、0.99,批尺寸和最大視差(Dmax)分別設(shè)置為3 和192,學(xué)習(xí)率固定為0.001,訓(xùn)練10 個(gè)周期。在得到SceneFlow 數(shù)據(jù)集上的預(yù)訓(xùn)練模型后,利用KITTI2015 數(shù)據(jù)集對(duì)模型進(jìn)行優(yōu)化微調(diào),模型訓(xùn)練300 個(gè)周期,其中前200 個(gè)周期的學(xué)習(xí)率為0.001,之后學(xué)習(xí)率調(diào)整為0.000 1。

        2.3 測試及評(píng)價(jià)指標(biāo)

        為評(píng)估網(wǎng)絡(luò)性能,本文基于真實(shí)視差值,分別計(jì)算SceneFlow 數(shù)據(jù)集的每個(gè)訓(xùn)練周期的終點(diǎn)誤差及KITTI2015 訓(xùn)練集的三像素誤差。完成訓(xùn)練后,使用誤差最低的訓(xùn)練參數(shù)預(yù)測KITTI2015 驗(yàn)證集的視差圖,并將結(jié)果提交至KITTI 網(wǎng)站進(jìn)行評(píng)估。

        對(duì)于SceneFlow 數(shù)據(jù)集,本文計(jì)算所有像素點(diǎn)的預(yù)測視差值與真實(shí)視差值之間的歐氏距離并求取平均值作為終點(diǎn)誤差(End-Point Error,EPE),誤差越小則匹配精度越高。終點(diǎn)誤差的定義如下:

        其中:N表示總像素點(diǎn)個(gè)數(shù);di表示第i個(gè)像素點(diǎn)處的真實(shí)視差值;表示第i個(gè)像素點(diǎn)處的預(yù)測視差值。

        對(duì)于KITTI2015 數(shù)據(jù)集,本文采用三像素誤差(3px Error)表征匹配的準(zhǔn)確率,三像素誤差是指預(yù)測視差值與真實(shí)視差值之間差值的絕對(duì)值超過3 的像素點(diǎn)的數(shù)量占整幅圖像的比例,比例越高說明誤匹配點(diǎn)的數(shù)量越多,匹配準(zhǔn)確率越低。三像素誤差的定義如式(11)所示:

        其中:

        其中:N表示總像素點(diǎn)個(gè)數(shù);di表示第i個(gè)像素點(diǎn)處的真實(shí)視差值;表示第i個(gè)像素點(diǎn)處的預(yù)測視差值。

        2.4 實(shí)驗(yàn)對(duì)比

        針對(duì)CTFNet 各組成部分對(duì)視差圖預(yù)測的影響進(jìn)行研究,并測試不同網(wǎng)絡(luò)結(jié)構(gòu)及參數(shù)配置對(duì)于視差精度及運(yùn)行速度的影響。本文在SceneFlow 和KITTI2015 數(shù)據(jù)集上評(píng)估CTFNet 網(wǎng)絡(luò),并在最終實(shí)驗(yàn)中,與本文網(wǎng)絡(luò)相似的PSMNet 進(jìn)行對(duì)比。分別針對(duì)特征提取結(jié)構(gòu)、局部稠密代價(jià)卷、視差優(yōu)化結(jié)構(gòu)、softmax 操作后的概率分布損失函數(shù)等進(jìn)行實(shí)驗(yàn),分析其對(duì)視差結(jié)果的影響。

        2.4.1 特征提取結(jié)構(gòu)實(shí)驗(yàn)

        針對(duì)構(gòu)造局部代價(jià)卷時(shí)所用特征圖的輸出位置進(jìn)行實(shí)驗(yàn),結(jié)果如表1 所示。在表1 中,特征圖輸出位置代表構(gòu)建局部代價(jià)卷所用的淺層特征圖的輸出位置,其中淺層表示圖2 中淺層分支的最后1 層卷積層,深層表示圖2 中特征提取網(wǎng)絡(luò)的倒數(shù)第2 層卷積層。

        表1 特征圖輸出位置的實(shí)驗(yàn)結(jié)果Table 1 Experimental results of the output location of the feature map

        由表1 可知,使用淺層特征構(gòu)造局部代價(jià)卷使視差圖的誤匹配率在SceneFlow 數(shù)據(jù)集上降低了12.0%,在KITTI 數(shù)據(jù)集上降低了9.7%,說明淺層特征能夠保留更多細(xì)節(jié)信息,在視差優(yōu)化過程中能夠有效地改善局部細(xì)節(jié)區(qū)域的匹配結(jié)果。

        本文還針對(duì)特征提取結(jié)構(gòu)輸出的2 組特征圖的尺寸大小對(duì)視差圖的影響進(jìn)行實(shí)驗(yàn),通過添加步長為2、卷積核尺寸為3×3 的卷積層配合批標(biāo)準(zhǔn)化層和ReLU激活函數(shù)層實(shí)現(xiàn)特征圖尺寸的調(diào)節(jié),結(jié)果如表2 所示。表2 中深層和淺層特征圖的尺寸分別代表用來構(gòu)造稀疏代價(jià)卷和稠密代價(jià)卷的特征圖尺寸與原圖尺寸的比例。通過對(duì)比表2 中實(shí)驗(yàn)結(jié)果可知,不論對(duì)于構(gòu)造稀疏代價(jià)卷還是稠密代價(jià)卷,用作構(gòu)造代價(jià)卷的特征圖尺寸越大,局部細(xì)節(jié)信息越豐富,視差估計(jì)的誤差越小。但一味增大特征圖尺寸會(huì)造成代價(jià)聚合階段的計(jì)算量過大,訓(xùn)練無法正常進(jìn)行。通過結(jié)合視差優(yōu)化的方法,采用1/4 原圖尺寸的特征圖構(gòu)造初始代價(jià)卷,同時(shí)采用1/2 原圖尺寸的特征圖構(gòu)造稠密代價(jià)卷既能保證網(wǎng)絡(luò)正常訓(xùn)練,也能有效提高預(yù)測視差圖精度。

        表2 不同特征圖尺寸的實(shí)驗(yàn)結(jié)果Table 2 Experimental results of different feature map sizes

        2.4.2 對(duì)局部稠密代價(jià)卷的實(shí)驗(yàn)

        為減少冗余計(jì)算及細(xì)化視差概率計(jì)算,在視差優(yōu)化階段針對(duì)每個(gè)像素,以其初始視差鄰域內(nèi)的2n個(gè)視差值構(gòu)造局部稠密代價(jià)卷,其中2n是需要人為確定的超參數(shù)。為實(shí)現(xiàn)最優(yōu)化,針對(duì)此局部視差范圍參數(shù)進(jìn)行實(shí)驗(yàn),結(jié)果如表3 所示。

        表3 對(duì)局部視差范圍的實(shí)驗(yàn)結(jié)果Table 3 Experimental results of the local disparity range

        由表3 可知,初始視差鄰域范圍2n對(duì)視差估計(jì)和網(wǎng)絡(luò)運(yùn)行速度有一定影響。如果用于構(gòu)造局部稠密代價(jià)卷的視差鄰域范圍過小,則經(jīng)過多次上下采樣,會(huì)引入過大的誤差。如果視差鄰域范圍過大,最終沙漏結(jié)構(gòu)進(jìn)行代價(jià)聚合所需的計(jì)算時(shí)間就會(huì)增加,且對(duì)于誤差率的改善收效甚微。由實(shí)驗(yàn)結(jié)果可知,本文選擇基于初始視差構(gòu)造鄰域范圍為24 的局部稠密代價(jià)卷。

        2.4.3 視差優(yōu)化結(jié)構(gòu)實(shí)驗(yàn)

        為驗(yàn)證視差優(yōu)化方案的可行性,本文通過采用相同的特征提取結(jié)構(gòu),對(duì)比視差優(yōu)化方案與傳統(tǒng)的通過3 個(gè)編碼-解碼結(jié)構(gòu)直接預(yù)測視差圖方案間的匹配誤差率,結(jié)果如表4 所示。由表4 可知,使用視差優(yōu)化結(jié)構(gòu)相對(duì)傳統(tǒng)方案,視差圖的誤匹配率在SceneFlow 數(shù)據(jù)集上降低了10.3%,在KITTI 數(shù)據(jù)集上降低了11.9%。由此可知,本文提出的視差優(yōu)化方案對(duì)視差圖預(yù)測具有一定的提升作用。

        表4 對(duì)視差優(yōu)化結(jié)構(gòu)的實(shí)驗(yàn)結(jié)果Table 4 Experimental results of the disparity optimization structure

        2.4.4 softmax 后概率分布損失函數(shù)實(shí)驗(yàn)

        為探究本文損失函數(shù)的改進(jìn)對(duì)視差預(yù)測結(jié)果的影響,對(duì)CTFNet 網(wǎng)絡(luò)進(jìn)行測試,驗(yàn)證添加和去除softmax 后的概率分布損失函數(shù)對(duì)網(wǎng)絡(luò)預(yù)測精度的影響。由表5 可知,添加概率分布損失函數(shù)后,網(wǎng)絡(luò)的視差預(yù)測精度得到了一定程度的提升。

        表5 損失函數(shù)的實(shí)驗(yàn)結(jié)果Table 5 Experimental results of loss function

        通過softmax 操作,代價(jià)卷被計(jì)算成每個(gè)潛在視差值的概率,所有概率和為1。本文對(duì)特征不明顯區(qū)域的不同像素點(diǎn)在視差回歸過程中計(jì)算的視差概率分布進(jìn)行可視化,結(jié)果如圖6 所示。圖中橫坐標(biāo)表示所有潛在視差值,縱坐標(biāo)表示對(duì)應(yīng)預(yù)測概率,虛線表示真實(shí)視差值。由圖6 可知,添加softmax 后的概率分布損失函數(shù),其視差預(yù)測的概率分布會(huì)傾向于在真實(shí)視差值附近呈現(xiàn)單峰分布,有效降低了其他視差值的干擾,這對(duì)于部分特征不明顯區(qū)域的視差預(yù)測具有良好的改善作用。

        圖6 視差值概率分布圖Fig.6 Probability distribution of disparity

        2.5 KITTI2015 排名結(jié)果

        將CTFNet 網(wǎng)絡(luò)對(duì)KITTI 驗(yàn)證集生成的視差圖上傳至KITTI 評(píng)測網(wǎng)站,表6 展示了KITTI2015 數(shù)據(jù)集上本文網(wǎng)絡(luò)及其他主流網(wǎng)絡(luò)的實(shí)驗(yàn)結(jié)果對(duì)比。其中,D1表示視差圖中誤匹配點(diǎn)所占的比例,bg 表示背景區(qū)域,fg 表示前景區(qū)域,all表示整個(gè)區(qū)域。由表6 可知,本文所提網(wǎng)絡(luò)與之前的網(wǎng)絡(luò)[10-12,15-17]相比在精度上有一定提高。與同樣基于兩階段進(jìn)行視差優(yōu)化的CRL 算法相比,誤匹配率降低了17.6%。與算力要求相近的PSMNet網(wǎng)絡(luò)相比,整體的誤匹配率由2.32%下降至2.20%。在運(yùn)行時(shí)間方面,為保證數(shù)據(jù)的準(zhǔn)確性,本文在Nvidia 1080Ti GPU 上測試PSMNet 和CTFNet 網(wǎng)絡(luò)的運(yùn)行時(shí)間,PSMNet的運(yùn)行時(shí)間為0.52 s,所提網(wǎng)絡(luò)的計(jì)算時(shí)間為0.43 s,降低了約17%。

        表6 KITTI2015 立體匹配排名Table 6 KITTI2015 stereo matching ranking

        圖7 中第1 列和第2 列分別展示了本文所提CTFNet 與PSMNet 針對(duì)同一組圖片預(yù)測視差圖的對(duì)比,第3 列為第4 列的局部位置放大圖。誤差圖中藍(lán)色點(diǎn)表示正確匹配點(diǎn),黃色點(diǎn)表示錯(cuò)誤匹配點(diǎn),黑色點(diǎn)表示忽略的點(diǎn)(彩色效果見《計(jì)算機(jī)工程》官網(wǎng)HTML 版)。通過觀察2 種算法在圖中黑色橢圓標(biāo)記位置處的視差結(jié)果可以發(fā)現(xiàn),與PSMNet 網(wǎng)絡(luò)相比,CTFNet 網(wǎng)絡(luò)能夠準(zhǔn)確預(yù)測圖中細(xì)鐵索處的視差,同時(shí)在預(yù)測交通標(biāo)志邊緣處的視差時(shí)更加精確。實(shí)驗(yàn)結(jié)果表明,通過淺層特征和視差優(yōu)化的方式能夠有效改善特征不明顯區(qū)域的匹配結(jié)果,提高小物體及邊緣等病態(tài)區(qū)域的匹配精度。

        圖7 視差圖結(jié)果對(duì)比Fig.7 Comparison of disparity map results

        3 結(jié)束語

        本文設(shè)計(jì)一個(gè)基于淺層特征的立體匹配網(wǎng)絡(luò)CTFNet,通過構(gòu)建稠密代價(jià)卷進(jìn)行視差優(yōu)化。由于深層特征網(wǎng)絡(luò)的感受野較大,能夠獲取更多全局信息,從而構(gòu)建全局稀疏代價(jià)卷以獲取前景物體的初始視差圖。淺層結(jié)構(gòu)的特征提取網(wǎng)絡(luò)減少了圖像的上下采樣,保留了更加完整的局部上下文信息,配合基于預(yù)測視差值構(gòu)建的稠密代價(jià)卷,能夠進(jìn)一步細(xì)化視差。此外,softmax 操作后概率分布損失函數(shù)的引入,能夠?qū)σ暡罡怕史植歼M(jìn)行監(jiān)督,有效提高了算法的魯棒性。實(shí)驗(yàn)結(jié)果表明,與PSMNet 網(wǎng)絡(luò)相比,本文網(wǎng)絡(luò)在部分病態(tài)區(qū)域如邊緣及小物體處匹配效果更好,匹配精度得到一定提升。下一步將通過采用多任務(wù)網(wǎng)絡(luò)及引入邊緣檢測或語義分割任務(wù),提高算法對(duì)邊緣及弱紋理區(qū)域的匹配能力,同時(shí),還將進(jìn)一步優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu),降低網(wǎng)絡(luò)參數(shù)和計(jì)算量,以實(shí)現(xiàn)算法在TX2 等嵌入式設(shè)備上的穩(wěn)定運(yùn)行。

        猜你喜歡
        視差概率分布代價(jià)
        基于自適應(yīng)窗的立體相機(jī)視差圖優(yōu)化方法研究
        離散型概率分布的ORB圖像特征點(diǎn)誤匹配剔除算法
        基于梯度域引導(dǎo)濾波的視差精煉迭代算法
        愛的代價(jià)
        海峽姐妹(2017年12期)2018-01-31 02:12:22
        關(guān)于概率分布函數(shù)定義的辨析
        科技視界(2016年19期)2017-05-18 10:18:46
        代價(jià)
        基于概率分布的PPP項(xiàng)目風(fēng)險(xiǎn)承擔(dān)支出測算
        基于分割樹的視差圖修復(fù)算法研究
        立體視差對(duì)瞳孔直徑影響的研究
        成熟的代價(jià)
        日韩av一区二区三区在线观看| 狠狠色成人综合网| 亚洲av无码一区二区二三区| 麻豆五月婷婷| 蜜桃精品国产一区二区三区| 久久久国产精品123| 久久久久久人妻一区精品| 国内精品一区视频在线播放| 最新国产精品精品视频| 亚洲中文字幕日韩综合| 精品亚洲成a人无码成a在线观看 | 少妇无码av无码专线区大牛影院| 精品亚洲成在人线av无码| 伊人久久亚洲综合影院首页| 亚洲综合有码中文字幕| 国产极品美女高潮无套| 97se亚洲精品一区| 亚洲一区二区三区在线观看播放 | 久久精品国产亚洲av专区| 亚洲精品无码永久中文字幕| 色婷婷久久一区二区三区麻豆 | 一个色综合中文字幕人妻激情视频| 国产精品v欧美精品v日韩精品| 超碰日韩AV在线| 日韩在线精品免费观看| 亚洲无av在线中文字幕| 亚洲av无码电影网| 女人被躁到高潮嗷嗷叫| 精品在线视频在线视频在线视频| 一本一道久久综合久久| 麻豆久久五月国产综合| 日韩精品人妻一区二区三区蜜桃臀 | 国语对白做受xxxxx在线| 综合色久七七综合尤物| 精品女人一区二区三区| 中文字幕日韩人妻在线视频| 色综合无码av网站| 加勒比东京热久久综合| 亚洲成人av在线第一页| 无码人妻av一区二区三区蜜臀| 精品国产一区二区三区香蕉|