亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        輕量級(jí)自適應(yīng)上采樣立體匹配

        2022-08-19 08:23:52宋嘉菲張浩東
        關(guān)鍵詞:立體匹配視差集上

        宋嘉菲,張浩東

        1.中國(guó)科學(xué)院 上海微系統(tǒng)與信息技術(shù)研究所 仿生視覺(jué)系統(tǒng)實(shí)驗(yàn)室,上海 200050

        2.上??萍即髮W(xué) 信息科學(xué)與技術(shù)學(xué)院,上海 201210

        3.中國(guó)科學(xué)院大學(xué),北京 100049

        獲取準(zhǔn)確稠密的現(xiàn)實(shí)場(chǎng)景深度圖對(duì)于自動(dòng)駕駛、三維重建、機(jī)器人導(dǎo)航等人工智能視覺(jué)任務(wù)有著重要的意義。根據(jù)獲取深度方式的不同,可分為主動(dòng)式與被動(dòng)式。具有代表性的主動(dòng)測(cè)距方法有激光雷達(dá)。激光雷達(dá)具有抗電磁干擾能力強(qiáng),檢測(cè)精度高等優(yōu)點(diǎn),但獲取的深度圖稀疏并且在反光平面上的測(cè)距效果不佳。被動(dòng)式測(cè)距則是利用場(chǎng)景在自然光照下的二維圖像獲取稠密深度信息,其中廣泛使用的有雙目立體相機(jī)。該雙目相機(jī)采用立體匹配算法在左右兩張經(jīng)過(guò)校準(zhǔn)的圖像上,沿著極線尋找對(duì)應(yīng)點(diǎn)的位置坐標(biāo),從而求得視差,繼而通過(guò)三角化計(jì)算空間中對(duì)應(yīng)點(diǎn)的深度信息。

        隨著深度學(xué)習(xí)的發(fā)展,MC-CNN(matching cost convolutional neural network)[1]首次采用卷積神經(jīng)網(wǎng)絡(luò)的方法學(xué)習(xí)左右圖像的特征表達(dá),來(lái)替代傳統(tǒng)方法中手動(dòng)設(shè)計(jì)的特征表達(dá)式(例如Census[2-4])進(jìn)行代價(jià)體的計(jì)算;GC-Net(geometry and context net)[5]則是提出了第一個(gè)完全端到端的立體匹配模型。現(xiàn)階段基于深度學(xué)習(xí)的立體匹配算法流程主要分為特征提取、代價(jià)計(jì)算、代價(jià)聚合、視差計(jì)算和視差優(yōu)化五個(gè)階段。為了減少立體匹配網(wǎng)絡(luò)運(yùn)行的計(jì)算量和顯存消耗,PSMNet(pyramid stereo matching network)[6]選取特征提取階段1/4 分辨率上的特征輸出進(jìn)行代價(jià)體的計(jì)算和聚合,在解碼階段通過(guò)三線性插值將1/4分辨率代價(jià)體上采樣到原圖尺寸進(jìn)行視差計(jì)算。隨著多分辨率層級(jí)網(wǎng)絡(luò)在各大計(jì)算機(jī)視覺(jué)任務(wù)中的廣泛應(yīng)用,Yang等[7]將在低分辨率上得到的視差圖通過(guò)雙線性插值上采樣到高分辨率,繼而基于上采樣后的視差進(jìn)行仿射變換來(lái)進(jìn)行更精細(xì)的視差預(yù)測(cè)。如今,端到端立體匹配模型更多地側(cè)重實(shí)時(shí)性能,實(shí)時(shí)網(wǎng)絡(luò)[8-10]為了更快的運(yùn)行速度,選擇在超小分辨率上(16x,8x)進(jìn)行計(jì)算,并且采用層級(jí)線性插值上采樣得到原圖視差。

        在端到端立體匹配算法的發(fā)展中,上采樣逐漸成為其中的關(guān)鍵步驟。由于設(shè)備顯存和算力的制約,在原圖(例如1 280×960)上直接進(jìn)行計(jì)算十分困難,因此在小分辨率尺寸上進(jìn)行立體匹配計(jì)算成為主流做法。其中如何在上采樣得到原圖分辨率的同時(shí)盡可能還原下采樣丟失的信息成為其中一個(gè)重點(diǎn)考慮的問(wèn)題。除此之外,當(dāng)算法應(yīng)用在實(shí)際工程中時(shí),模型的規(guī)模與計(jì)算量也是另一個(gè)重點(diǎn)考慮的問(wèn)題。

        常用無(wú)參數(shù)非深度學(xué)習(xí)上采樣方案有最近鄰插值和雙線性插值方法,見(jiàn)圖1,以圖中紅色點(diǎn)為例,紅點(diǎn)的上采樣使用了周?chē)?個(gè)點(diǎn),但是其插值元素考慮的僅僅是像素的坐標(biāo)位置值,并沒(méi)有很好地考慮元素周?chē)徲虻南嚓P(guān)性和紋理、顏色信息。另一種上采樣方案則是反卷積[11],見(jiàn)圖1,其先通過(guò)補(bǔ)零擴(kuò)大圖像尺寸,接著進(jìn)行卷積操作。該方案可以有權(quán)重地選擇周邊鄰域進(jìn)行插值,但同時(shí)也使得圖像上每一個(gè)點(diǎn)都采用固定的同一個(gè)卷積核參數(shù)并且?guī)?lái)了大量的計(jì)算。

        圖1 雙線性插值和反卷積過(guò)程Fig.1 Procedures of bilinear interpolation and deconvolution

        針對(duì)上采樣問(wèn)題的研究在超分辨率(super-resolution)視覺(jué)任務(wù)中有著重點(diǎn)的探索。超分辨率問(wèn)題在于研究如何使用低分辨率圖像重建出相應(yīng)的高分辨率圖像。早期,SRCNN(super-resolution convolutional neural network)[12]網(wǎng)絡(luò)使用三線性插值將低分辨率圖像上采樣到目標(biāo)尺寸,接著使用三層卷積網(wǎng)絡(luò)進(jìn)行擬合得到高分辨率圖像;ESPCN(efficient sub-pixel convolutional neural network)[13]網(wǎng)絡(luò)采用Pixel Shuffle 的方案進(jìn)行上采樣,該操作使得大小為σ2×H×W特征圖像被重新排列成大小為1×σH×σW的高分辨率圖像;VSR(video super resolution)[14]網(wǎng)絡(luò)通過(guò)在每個(gè)像素的時(shí)空鄰域進(jìn)行濾波上采樣得到高分辨率圖像。本文也將結(jié)合ESPCN中提出的Pixel Shuffle和VSR中提出的鄰域?yàn)V波進(jìn)行改進(jìn)。

        綜上所述,本文的貢獻(xiàn)點(diǎn)在于:(1)針對(duì)立體匹配算法中代價(jià)體上采樣問(wèn)題進(jìn)行研究并改進(jìn);(2)提出了一個(gè)輕量級(jí)自適應(yīng)上采樣模塊(lightweight adaptive upsampling module,LAUM),用以學(xué)習(xí)代價(jià)體中每一個(gè)像素的插值權(quán)重窗口,并且設(shè)計(jì)了多尺度窗口提高上采樣能力,同時(shí)該模塊具有大感受野和輕量化的特點(diǎn);(3)在SceneFlow和KITTI2015數(shù)據(jù)集上的定性定量實(shí)驗(yàn)證明了LAUM模塊的有效性。

        1 算法描述

        1.1 立體匹配算法描述

        現(xiàn)有端到端立體匹配模型主要包含特征提取、代價(jià)體計(jì)算、代價(jià)濾波、視差計(jì)算、視差優(yōu)化五個(gè)階段,流程圖如圖2 所示。特征提取部分多基于ResNet[15]網(wǎng)絡(luò),選取其1/k分辨率(例如k=4)特征圖作為下一階段的輸入;代價(jià)體計(jì)算階段,則根據(jù)實(shí)現(xiàn)方法的不同,代價(jià)體結(jié)構(gòu)可以分為兩個(gè)大類(lèi),分別為3D([H,W,D])代價(jià)體和4D([H,W,D,C])代價(jià)體,前者通過(guò)相關(guān)操作[16-18]在通道維度上計(jì)算左圖和變換右圖的相關(guān)程度,后者的4D 代價(jià)體則是通過(guò)在通道維度(C)上疊加[5,19-20]或者特征相減[8]的操作來(lái)實(shí)現(xiàn),本文基于3D 代價(jià)體展開(kāi),該代價(jià)體記作CV(cost volume):

        其中,i=[0,1,…,Dmax],Fl、Fr依次為左右特征圖。出于計(jì)算量的考慮,代價(jià)體計(jì)算和濾波階段通常在1/4 原圖甚至更低分辨率上進(jìn)行,然后采用上述所提插值的方法將代價(jià)體上采樣到原圖尺寸。本文的主要研究方向就是針對(duì)這一階段進(jìn)行改進(jìn)(圖2 綠色部分,代價(jià)體上采樣),通過(guò)輕量級(jí)的模塊使得上采樣的結(jié)果更為精準(zhǔn),減少信息損失,提高算法最終視差預(yù)測(cè)的精度。

        圖2 立體匹配流程圖Fig.2 Procedure of stereo matching

        1.2 上采樣公式

        為了得到輸出特征圖O∈?σH×σW×C中的每一個(gè)元素,在輸入特征圖I∈?H×W×C上使用上采樣方程進(jìn)行采樣,其中σ表示上采樣的倍數(shù)。更具體地,假設(shè)需要求得的目標(biāo)輸出像素點(diǎn)坐標(biāo)為(xi,yi,ct),則上述上采樣過(guò)程可以公式化地表示為:

        其中,i?[0,H×W-1],t?[0,C],Ψ就是上述提到的上采樣方程,σ則是上采樣的倍數(shù)。

        對(duì)于目標(biāo)像素點(diǎn)(xi,yi,ct)∈O,其直接對(duì)應(yīng)的源坐標(biāo)為,如果直接使用對(duì)應(yīng)源坐標(biāo)點(diǎn)的值則是最近鄰插值方法;當(dāng)Ψ取方程為:則是常見(jiàn)的雙線性插值方法。從該公式分析可見(jiàn),雙線性插值的參數(shù)只與對(duì)應(yīng)像素點(diǎn)的橫縱坐標(biāo)有關(guān),其取0至1之間的值作為權(quán)重參數(shù)進(jìn)行插值,并沒(méi)有很好地利用像素點(diǎn)周?chē)泥徲蚣y理信息。例如處于邊緣并且屬于前景的像素點(diǎn),在上采樣過(guò)程中與背景的點(diǎn)坐標(biāo)更近,則會(huì)產(chǎn)生一定的誤差,如何選擇正確的點(diǎn)進(jìn)行插值十分重要。

        本文提出的輕量級(jí)自適應(yīng)上采樣模塊,就是為了解決這一問(wèn)題。該模塊不僅僅是根據(jù)坐標(biāo)位置的遠(yuǎn)近來(lái)進(jìn)行權(quán)重的確定,而是通過(guò)深度學(xué)習(xí)的方法為每一個(gè)像素點(diǎn)(xi,yi,ct)∈O尋找一組上采樣參數(shù),在輸入特征圖上采樣從而提高整體的預(yù)測(cè)精度。該上采樣方程可以記為:

        對(duì)比式(4.1)、(4.2)與式(5)分析可得,前者線性插值所使用的權(quán)重考慮的是坐標(biāo)位置,后者本文提出的自適應(yīng)上采樣模塊插值更多地考慮待插值像素周?chē)募y理信息。相比線性插值,本文提出模塊更好地考慮了圖像的RGB 紋理信息,為每一個(gè)像素點(diǎn)都學(xué)習(xí)了特定的上采樣參數(shù)方程,同時(shí)也避免了物體邊緣區(qū)域與內(nèi)部區(qū)域使用相同上采樣方案造成的誤差。如此設(shè)計(jì)使得上采樣模塊有了更好的紋理感知能力。

        1.3 輕量級(jí)自適應(yīng)上采樣模塊

        1.3.1 模塊總覽

        所提的輕量級(jí)自適應(yīng)上采樣模塊流程圖如圖3 所示。該模塊的輸入尺寸為H×W×C,首先經(jīng)過(guò)紋理感知模塊進(jìn)行鄰域信息的融合,并擴(kuò)大每個(gè)點(diǎn)的感受野,此時(shí)代價(jià)體的通道數(shù)從C變?yōu)棣摇力摇?×K×K(其中σ是上采樣的倍數(shù),K為卷積核尺寸)。隨后,采用Pixel Shuffle 算法將代價(jià)體進(jìn)行上采樣,Pixel Shuffle 的具體做法則是使用通道(C)在空間維度(H×W)上進(jìn)行順序拼接,從而達(dá)到擴(kuò)大的目的。上采樣后代價(jià)體通道方向上代表的為每個(gè)像素點(diǎn)需要進(jìn)行周邊鄰域采樣所需的參數(shù)數(shù)量,以此來(lái)為每個(gè)像素點(diǎn)學(xué)習(xí)特定參數(shù)。

        圖3 輕量級(jí)自適應(yīng)上采樣模塊Fig.3 Lightweight adaptive upsampling module

        1.3.2 紋理感知模塊

        如圖4首先采用一個(gè)1×1卷積層來(lái)將輸入的通道數(shù)從C壓縮到32,采用該卷積能很好地壓縮后續(xù)步驟的計(jì)算量和參數(shù),使得模塊更加輕量化。然后,設(shè)計(jì)了連續(xù)的3個(gè)殘差模塊,每個(gè)殘差模塊首先經(jīng)過(guò)3×3卷積、批歸一化、ReLU 激活函數(shù),為了獲得更大的感受野,并且不增加網(wǎng)絡(luò)的模型大小,設(shè)置每個(gè)模塊的卷積空洞率依次為1、2、1,得到的結(jié)果再使用一個(gè)3×3卷積(不使用批歸一化和激活函數(shù))進(jìn)行進(jìn)一步信息融合。其中,每個(gè)殘差模塊的輸入輸出通道數(shù)都為32,使得整體模塊的參數(shù)不隨著輸入通道數(shù)的增加而大量增加。經(jīng)過(guò)3 個(gè)殘差模塊后,繼續(xù)使用1×1 卷積將通道數(shù)從C壓縮到σ×σ×2×K×K(其中σ是上采樣的倍數(shù),K為卷積核尺寸)來(lái)為后續(xù)做準(zhǔn)備。

        圖4 紋理感知模塊Fig.4 Context-aware module

        1.3.3 多尺度窗口

        傳統(tǒng)上采樣方法(例如雙線性插值、最近鄰插值)等使用的都是3×3鄰域窗口進(jìn)行插值,對(duì)應(yīng)像素點(diǎn)周?chē)男畔⒐倘恢匾?,但是大的感受野窗口,更多的點(diǎn)能夠更好地輔助該點(diǎn)的上采樣。因此,本文同時(shí)使用兩種窗口進(jìn)行插值,如圖3 多尺度窗口所示,第一種記作K×K(例如3×3,5×5)窗口,另外一種則是空洞率為σ(上采樣的倍數(shù)),參數(shù)量依舊是K×K的空洞窗口,因此總共的采樣窗口數(shù)量(參數(shù)量)為K×K×2。K的值在實(shí)驗(yàn)部分具體分析和介紹。

        1.4 輕量級(jí)分析

        使用反卷積方案進(jìn)行上采樣同樣可以為每個(gè)像素學(xué)習(xí)固定的上采樣參數(shù),但是會(huì)帶來(lái)大量的計(jì)算。假設(shè)上采樣模塊的輸入尺寸為H×W×C,輸出尺寸為σH×σW×σC,采用反卷積上采樣σ(上采樣倍數(shù))倍,則卷積所需的步長(zhǎng)為σ,卷積核尺寸為2×σ×2×σ,則其理論計(jì)算所需要的參數(shù)量為C×(2σ×2σ)×(σC)。本文提出的自適應(yīng)上采樣模塊參數(shù)主要集中在紋理感知模塊和通道升維兩部分,在紋理感知模塊中,通道數(shù)固定為32,兩個(gè)1×1 卷積層參數(shù)量為C×32+32×(σ×σ×2×K×K)(其中σ為上采樣倍數(shù),K為多尺度窗口),3個(gè)殘差模塊參數(shù)量為3×2×32×(k×k)×32(其中k為卷積核尺寸),因其固定輸入輸出尺寸為32,所以該部分參數(shù)量為固定值,也同時(shí)保證該部分計(jì)算量不隨著上采樣倍數(shù)的增加而大量增加,在通道升維部分,其參數(shù)量為C×(k×k)×(σC)。以K為3,k為3,σ為4,C為48為例,本文提出的自適應(yīng)上采樣模塊參數(shù)量為反卷積上采樣參數(shù)量的1/4。

        2 實(shí)驗(yàn)結(jié)果

        2.1 數(shù)據(jù)集

        本文在兩個(gè)主流雙目數(shù)據(jù)集(SceneFlow[21]和KITTI2015[22])上進(jìn)行了大量的實(shí)驗(yàn),驗(yàn)證模塊的有效性。

        SceneFlow 數(shù)據(jù)集是虛擬合成的數(shù)據(jù)集,并且提供了稠密的真值視差,該數(shù)據(jù)集包含了35 454張雙目訓(xùn)練集以及4 370張測(cè)試集。EPE誤差(end-point-end error)是這個(gè)數(shù)據(jù)集使用的指標(biāo),該指標(biāo)描述了像素點(diǎn)的平均預(yù)測(cè)誤差。EPE誤差以小為優(yōu)。

        KITTI2015 數(shù)據(jù)集是真實(shí)的室外場(chǎng)景,該數(shù)據(jù)集提供了稀疏的真值視差(車(chē)載激光雷達(dá)獲?。?,其包含了200 張訓(xùn)練集以及200 張測(cè)試集雙目圖像。D1-all 是該數(shù)據(jù)集主要使用的指標(biāo),它表示在所有像素點(diǎn)中,預(yù)測(cè)值與真實(shí)值誤差大于3 個(gè)像素的點(diǎn)占總像素點(diǎn)的比例。D1-all誤差以小為優(yōu)。

        2.2 實(shí)驗(yàn)平臺(tái)和方法

        實(shí)驗(yàn)代碼基于PyTorch 框架編寫(xiě),實(shí)驗(yàn)平臺(tái)使用的是NVIDIA 2080ti顯卡。在整個(gè)訓(xùn)練過(guò)程中,全程使用Adam[23](β1=0.9,β2=0.999)作為神經(jīng)網(wǎng)絡(luò)的優(yōu)化器,采取在SceneFlow 數(shù)據(jù)集上預(yù)訓(xùn)練,再在KITTI2015 上使用SceneFlow 訓(xùn)練得到的模型進(jìn)行調(diào)優(yōu)訓(xùn)練的策略。本文提出的輕量級(jí)自適應(yīng)上采樣模塊(LAUM)將在PSMNet[5]和AANet[8]網(wǎng)絡(luò)上通過(guò)替換其中三線性插值為本文的自適應(yīng)上采樣模塊來(lái)進(jìn)行驗(yàn)證。

        基于PSMNet 網(wǎng)絡(luò):在兩個(gè)數(shù)據(jù)集上將輸入左右圖隨機(jī)切分成256×512 分辨率。在SceneFlow 數(shù)據(jù)集上,總訓(xùn)練輪數(shù)為20,并使用固定的學(xué)習(xí)率0.001;在KITII2015 數(shù)據(jù)集上,總訓(xùn)練輪數(shù)為500,初始學(xué)習(xí)率為0.001,200輪后學(xué)習(xí)率設(shè)為0.000 1。

        基于AANet網(wǎng)絡(luò):在兩個(gè)數(shù)據(jù)集上將輸入左右圖隨機(jī)切分成288×576 分辨率。在SceneFlow 數(shù)據(jù)集上,總訓(xùn)練輪數(shù)為128,初始學(xué)習(xí)率為0.001,在第[40,60,80,100,120]輪時(shí),學(xué)習(xí)率依次衰減一半。

        對(duì)于所有數(shù)據(jù)集和網(wǎng)絡(luò),最大視差都被設(shè)定為192。除此之外,與所使用的PSMNet和AAnet保持一致,使用ImageNet 數(shù)據(jù)集的均值和方差來(lái)對(duì)輸入圖像進(jìn)行正則化操作,并進(jìn)行隨機(jī)的顏色增強(qiáng),翻折進(jìn)行數(shù)據(jù)增強(qiáng)。

        2.3 上采樣方法分析

        為了驗(yàn)證提出的輕量級(jí)自適應(yīng)上采樣模塊LAUM的有效性,本文基于PSMNet 網(wǎng)絡(luò),在SceneFlow(EPE誤差)和KITTI2015(D1-all 誤差)數(shù)據(jù)集上對(duì)比了線性插值、反卷積以及LAUM模塊的效果。其中線性插值是原文中所使用的上采樣方案,LAUM模塊具有很好的移植性,可以直接替換三線性插值方法進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如表1所示,可以發(fā)現(xiàn)采用反卷積方式進(jìn)行上采樣所需參數(shù)量(#Params)和計(jì)算量(GFLOPs,Giga floating point operations)最多,但是誤差也是最大的;反觀本文的自適應(yīng)上采樣模塊LAUM,在線性插值的基礎(chǔ)上增加少量的參數(shù)(6.2%),在SceneFlow數(shù)據(jù)集上EPE誤差降低26.4%,在KITTI驗(yàn)證集上D1-all誤差降低17.81%,足以證明LAUM 模塊設(shè)計(jì)的有效性和輕量化,更適合實(shí)際工程。

        表1 基于PSMNet上采樣模塊分析Table 1 Analysis of upsampling methods on PSMNet

        2.4 SceneFlow數(shù)據(jù)集結(jié)果

        如表2 所示,在SceneFlow 測(cè)試集上對(duì)比了搭載LAUM 上采樣模塊網(wǎng)絡(luò)與其他主流網(wǎng)絡(luò)的結(jié)果。本文選取了兩個(gè)代表性的網(wǎng)絡(luò)PSMNet 和AANet 作為基礎(chǔ)網(wǎng)絡(luò),直接替換其中的三線性插值上采樣方法為本文的輕量級(jí)自適應(yīng)上采樣模塊(名稱后綴為-LAUM),前者是提升預(yù)測(cè)精度的代表網(wǎng)絡(luò),后者是提升速度立體匹配網(wǎng)絡(luò)中的代表。

        表2 SceneFlow數(shù)據(jù)集不同網(wǎng)絡(luò)對(duì)比Table 2 Comparison with other networks on SceneFlow

        基于PSMet 網(wǎng)絡(luò)改進(jìn):首先分析基于PSMNet 網(wǎng)絡(luò)的改進(jìn)。PSMNet 網(wǎng)絡(luò)具有兩個(gè)版本,basic(基礎(chǔ))和hourglass(高精度),本文是基于basic 版本進(jìn)行改進(jìn),目的是為了證明誤差的降低并不是因?yàn)榫W(wǎng)絡(luò)參數(shù)的增加,而是因?yàn)長(zhǎng)AUM 模塊設(shè)計(jì)的有效性。對(duì)比發(fā)現(xiàn),本文的輕量級(jí)自適應(yīng)上采樣模塊LAUM在basic的基礎(chǔ)上帶來(lái)了26.4%的誤差降低,甚至超越了PSMNet 的高精度版本(-hourglass),但參數(shù)量?jī)H僅為高精度版本的74.71%,計(jì)算量是其75.74%。與GWC-Net的對(duì)比可以發(fā)現(xiàn)降低8.8% EPE誤差的同時(shí),降低了42.8%的參數(shù)量和25%的計(jì)算量。和原網(wǎng)絡(luò)以及其他網(wǎng)絡(luò)的對(duì)比都證明了LAUM模塊輕量化設(shè)計(jì)的有效性。

        基于AANet網(wǎng)絡(luò)改進(jìn):同樣的結(jié)果也在基于AANet的改進(jìn)上有所體現(xiàn)。本文的模塊帶來(lái)了10.3%的誤差降低,值得注意的是在和GA-Net網(wǎng)絡(luò)進(jìn)行對(duì)比的時(shí)候,本文網(wǎng)絡(luò)的參數(shù)量大于GA-Net,但是GFLOPS 遠(yuǎn)小于該網(wǎng)絡(luò),主要是因?yàn)镚A-Net大量使用了3D卷積進(jìn)行代價(jià)濾波。本文在表格中同時(shí)羅列了參數(shù)量和計(jì)算量進(jìn)行對(duì)比。實(shí)驗(yàn)結(jié)果也證明了模塊的有效性。

        可視化結(jié)果:圖5 可視化地展示了PSMNet-basic、PSMNet-LAUM、AANet、AANet-LAUM在SceneFlow測(cè)試集上的效果,并展示了各自網(wǎng)絡(luò)的EPE 誤差和誤差圖。誤差圖是通過(guò)預(yù)測(cè)圖和真值相減得出。分析發(fā)現(xiàn),基于LAUM 模塊的網(wǎng)絡(luò)有著更低的誤差,同時(shí)在物體邊緣處(SceneFlow數(shù)據(jù)集物體多且復(fù)雜)有著更好的預(yù)測(cè)結(jié)果,尤其在柵欄區(qū)域(PSMNet 和AANet 在這些區(qū)域都有大量錯(cuò)誤),采用了LAUM模塊后使得兩個(gè)基礎(chǔ)網(wǎng)絡(luò)都在此區(qū)域有了明顯的精度提升。

        圖5 KITTI2015和SceneFlow數(shù)據(jù)集效果圖Fig.5 Visualization of 2 datasets(KITTI2015 and SceneFlow)

        2.5 KITTI2015數(shù)據(jù)集結(jié)果

        在KITTI 數(shù)據(jù)集上,本文僅在PSMNet 與AANet 上比較設(shè)計(jì)的自適應(yīng)上采樣模塊(LAUM)和原文的效果。從表3中可以發(fā)現(xiàn),采用本文設(shè)計(jì)的輕量級(jí)自適應(yīng)上采樣模塊(LAUM),D1-all誤差降低了15.4%和18.9%。正如之前提到的,LAUM模塊設(shè)計(jì)的初衷是為每個(gè)像素尋找上采樣窗口,其中也包括邊緣像素點(diǎn),邊緣處的效果提升更能反映模塊的有效性。因此,本文采用了Sobel邊緣檢測(cè)算子得到左圖的邊緣區(qū)域并且采取一定程度的邊緣膨脹(見(jiàn)圖6),從而驗(yàn)證在這些邊緣區(qū)域的誤差??梢园l(fā)現(xiàn),本文提出的LAUM 模塊在提升整體精度的同時(shí)也能很好地提升邊緣處像素點(diǎn),各自在邊緣處有了15.0%、16.7%的精度提升。圖5也分別展示了兩個(gè)基礎(chǔ)網(wǎng)絡(luò)PSMNet 和AANet 以及加入LAUM 模塊后各自網(wǎng)絡(luò)在KITTI數(shù)據(jù)集上的可視化效果,并展示了各自的誤差??梢园l(fā)現(xiàn),盡管原本數(shù)據(jù)集(KITTI 數(shù)據(jù)集的視差真值稀疏)的誤差值已經(jīng)很小,但是LAUM依舊可以提升整體的預(yù)測(cè)精度。

        表3 KITTI驗(yàn)證集D1-all誤差對(duì)比Table 3 Comparison of D1-all error on KITTI validation dataset

        圖6 KITTI數(shù)據(jù)集邊緣圖Fig.6 Edge map of KITTI dataset

        圖7可視化地展示了在邊緣處的細(xì)節(jié),可以發(fā)現(xiàn)采用了LAUM模塊能夠更好地保留物體(汽車(chē))的形狀輪廓,在邊緣處有著更好的預(yù)測(cè)效果。車(chē)子表面是反光材質(zhì),反光區(qū)域?qū)ξ矬w的整體性有著極大的影響,可視化結(jié)果表明,基于輕量級(jí)自適應(yīng)上采樣模塊LAUM 的算法比線性插值方法能夠更好地應(yīng)對(duì)該情況。

        圖7 邊緣預(yù)測(cè)細(xì)節(jié)可視化Fig.7 Visualization of details at edge area

        2.6 消融實(shí)驗(yàn)-多尺度窗口

        為了進(jìn)一步驗(yàn)證本文提出的模塊中多尺度窗口的有效性,設(shè)計(jì)了如下消融實(shí)驗(yàn)。該實(shí)驗(yàn)基于PSMNet網(wǎng)絡(luò)進(jìn)行,數(shù)據(jù)集使用SceneFlow,采用的測(cè)試指標(biāo)是EPE誤差。結(jié)果如圖8 所示,其中K×K(例如3×3)表示使用單窗口進(jìn)行插值,K×K×2 則表示使用本文提出的雙窗口。圖中所列參數(shù)量依次從9 到50 進(jìn)行對(duì)比。比較3×3×2與3×3窗口,可以發(fā)現(xiàn)雙窗口的設(shè)計(jì)可以有效降低14.2%的誤差,與5×5 窗口的比較也可以證明誤差的降低是因?yàn)槟K設(shè)計(jì),而不是更多的參數(shù)量帶來(lái)的。當(dāng)窗口參數(shù)量達(dá)到7×7 時(shí),誤差有了明顯提升,這也是因?yàn)樵诩y理感知模塊中通道數(shù)被設(shè)置成了32(出于輕量化目的),當(dāng)窗口參數(shù)量大于這個(gè)值,會(huì)出現(xiàn)信息的冗余,因此會(huì)帶來(lái)精度的降低。

        圖8 不同窗口對(duì)預(yù)測(cè)精度的影響Fig.8 Effect for prediction of different window sizes

        2.7 上采樣窗口參數(shù)可視化

        為了驗(yàn)證LAUM 模塊能夠很好地感知周?chē)徲虻募y理信息,本文通過(guò)可視化窗口權(quán)值來(lái)體現(xiàn),具體實(shí)驗(yàn)設(shè)計(jì)如下:LAUM模塊是為高分辨率輸出的每一個(gè)像素學(xué)習(xí)一個(gè)上采樣窗口權(quán)值,將每一個(gè)像素的權(quán)值全部在低分辨率對(duì)應(yīng)的位置累加,則可以得到在低分辨率輸入中每個(gè)像素對(duì)上采樣的貢獻(xiàn)度。圖9 為上采樣窗口權(quán)值可視化圖,顏色越深,值越小。從圖9 中可以發(fā)現(xiàn)車(chē)子邊緣處的權(quán)重累加值接近零,意味著邊緣處的點(diǎn)幾乎不參與上采樣的過(guò)程。邊緣處具有歧義性,本文提出的LAUM模塊學(xué)習(xí)到的參數(shù)更多地落在了非邊緣區(qū)域,窗口權(quán)值的可視化結(jié)果以及在數(shù)據(jù)集上的精度提升都證明了設(shè)計(jì)模塊的有效性。

        圖9 上采樣窗口權(quán)值可視化Fig.9 Visualization of upsampling weights

        3 結(jié)束語(yǔ)

        本文針對(duì)端到端立體匹配網(wǎng)絡(luò)中的關(guān)鍵步驟(代價(jià)體上采樣),提出了輕量級(jí)自適應(yīng)上采樣模塊LAUM,用以解決線性插值紋理信息使用不足和反卷積計(jì)算復(fù)雜的缺點(diǎn),進(jìn)而提升最終視差預(yù)測(cè)的準(zhǔn)確度。在SceneFlow和KITTI 數(shù)據(jù)集上的結(jié)果也證明了本文模塊設(shè)計(jì)的有效性。更重要地,提出的LAUM模塊參數(shù)量極少,復(fù)雜度幾乎可忽略不計(jì)。同時(shí),可以十分便捷地替換到任何使用線性插值和反卷積的網(wǎng)絡(luò)中。在接下來(lái)的工作中,將更多地側(cè)重LAUM模塊在實(shí)際場(chǎng)景中的泛化能力和低算力設(shè)備上的實(shí)際運(yùn)行速度。

        猜你喜歡
        立體匹配視差集上
        基于自適應(yīng)窗的立體相機(jī)視差圖優(yōu)化方法研究
        Cookie-Cutter集上的Gibbs測(cè)度
        鏈完備偏序集上廣義向量均衡問(wèn)題解映射的保序性
        基于梯度域引導(dǎo)濾波的視差精煉迭代算法
        復(fù)扇形指標(biāo)集上的分布混沌
        影像立體匹配中的凸優(yōu)化理論研究
        基于互補(bǔ)不變特征的傾斜影像高精度立體匹配
        基于分割樹(shù)的視差圖修復(fù)算法研究
        改進(jìn)導(dǎo)向?yàn)V波器立體匹配算法
        立體視差對(duì)瞳孔直徑影響的研究
        久久99精品国产99久久| 偷拍一区二区视频播放器| 亚洲日韩精品一区二区三区| 亚洲人成网7777777国产| 国产乱子伦农村xxxx| 国产二区中文字幕在线观看| 成 人色 网 站 欧美大片在线观看| 成人免费毛片aaaaaa片| 国产精品亚洲A∨天堂不卡| 日本岛国视频在线观看一区二区| 国产精品女主播福利在线| 波多野42部无码喷潮| 国产精品久久无码不卡黑寡妇| 综合图区亚洲偷自拍熟女| 国产一区二区三区毛片| 国产精品三级在线观看无码| 中文AV怡红院| 国产亚洲一区二区精品| 极品少妇hdxx麻豆hdxx| 日韩成人无码一区二区三区| 国产裸体AV久无码无遮挡 | 亚洲一区二区三区av在线免费| 丰满少妇av一区二区三区| 无码h黄肉3d动漫在线观看| 日韩精品无码一区二区三区视频| 亚洲AV日韩AV高潮喷潮无码| 第一九区另类中文字幕| 亚洲熟妇少妇任你躁在线观看无码 | 激情久久无码天堂| 亚洲无人区一码二码国产内射 | 日韩精品真人荷官无码| 18禁男女爽爽爽午夜网站免费| 一区二区三区四区亚洲综合| 国产精品久久久在线看| 无码不卡av东京热毛片| 99精品免费视频| 久久精见国产亚洲av高清热| 3d动漫精品啪啪一区二区免费| 免费观看国产精品| 日韩熟女精品一区二区三区视频| 久久亚洲精品国产亚洲老地址|