亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

輕量級自適應(yīng)上采樣立體匹配

2022-08-19 08:23:52宋嘉菲張浩東

計算機工程與應(yīng)用 2022年16期

宋嘉菲，張浩東

1.中國科學院上海微系統(tǒng)與信息技術(shù)研究所仿生視覺系統(tǒng)實驗室，上海 200050

2.上?？萍即髮W 信息科學與技術(shù)學院，上海 201210

3.中國科學院大學，北京 100049

獲取準確稠密的現(xiàn)實場景深度圖對于自動駕駛、三維重建、機器人導航等人工智能視覺任務(wù)有著重要的意義。根據(jù)獲取深度方式的不同，可分為主動式與被動式。具有代表性的主動測距方法有激光雷達。激光雷達具有抗電磁干擾能力強，檢測精度高等優(yōu)點，但獲取的深度圖稀疏并且在反光平面上的測距效果不佳。被動式測距則是利用場景在自然光照下的二維圖像獲取稠密深度信息，其中廣泛使用的有雙目立體相機。該雙目相機采用立體匹配算法在左右兩張經(jīng)過校準的圖像上，沿著極線尋找對應(yīng)點的位置坐標，從而求得視差，繼而通過三角化計算空間中對應(yīng)點的深度信息。

隨著深度學習的發(fā)展，MC-CNN（matching cost convolutional neural network）[1]首次采用卷積神經(jīng)網(wǎng)絡(luò)的方法學習左右圖像的特征表達，來替代傳統(tǒng)方法中手動設(shè)計的特征表達式（例如Census[2-4]）進行代價體的計算；GC-Net（geometry and context net）[5]則是提出了第一個完全端到端的立體匹配模型?，F(xiàn)階段基于深度學習的立體匹配算法流程主要分為特征提取、代價計算、代價聚合、視差計算和視差優(yōu)化五個階段。為了減少立體匹配網(wǎng)絡(luò)運行的計算量和顯存消耗，PSMNet（pyramid stereo matching network）[6]選取特征提取階段1/4 分辨率上的特征輸出進行代價體的計算和聚合，在解碼階段通過三線性插值將1/4分辨率代價體上采樣到原圖尺寸進行視差計算。隨著多分辨率層級網(wǎng)絡(luò)在各大計算機視覺任務(wù)中的廣泛應(yīng)用，Yang等[7]將在低分辨率上得到的視差圖通過雙線性插值上采樣到高分辨率，繼而基于上采樣后的視差進行仿射變換來進行更精細的視差預(yù)測。如今，端到端立體匹配模型更多地側(cè)重實時性能，實時網(wǎng)絡(luò)[8-10]為了更快的運行速度，選擇在超小分辨率上（16x，8x）進行計算，并且采用層級線性插值上采樣得到原圖視差。

在端到端立體匹配算法的發(fā)展中，上采樣逐漸成為其中的關(guān)鍵步驟。由于設(shè)備顯存和算力的制約，在原圖（例如1 280×960）上直接進行計算十分困難，因此在小分辨率尺寸上進行立體匹配計算成為主流做法。其中如何在上采樣得到原圖分辨率的同時盡可能還原下采樣丟失的信息成為其中一個重點考慮的問題。除此之外，當算法應(yīng)用在實際工程中時，模型的規(guī)模與計算量也是另一個重點考慮的問題。

常用無參數(shù)非深度學習上采樣方案有最近鄰插值和雙線性插值方法，見圖1，以圖中紅色點為例，紅點的上采樣使用了周圍的4個點，但是其插值元素考慮的僅僅是像素的坐標位置值，并沒有很好地考慮元素周圍鄰域的相關(guān)性和紋理、顏色信息。另一種上采樣方案則是反卷積[11]，見圖1，其先通過補零擴大圖像尺寸，接著進行卷積操作。該方案可以有權(quán)重地選擇周邊鄰域進行插值，但同時也使得圖像上每一個點都采用固定的同一個卷積核參數(shù)并且?guī)砹舜罅康挠嬎恪?/p>

圖1 雙線性插值和反卷積過程Fig.1 Procedures of bilinear interpolation and deconvolution

針對上采樣問題的研究在超分辨率（super-resolution）視覺任務(wù)中有著重點的探索。超分辨率問題在于研究如何使用低分辨率圖像重建出相應(yīng)的高分辨率圖像。早期，SRCNN（super-resolution convolutional neural network）[12]網(wǎng)絡(luò)使用三線性插值將低分辨率圖像上采樣到目標尺寸，接著使用三層卷積網(wǎng)絡(luò)進行擬合得到高分辨率圖像；ESPCN（efficient sub-pixel convolutional neural network）[13]網(wǎng)絡(luò)采用Pixel Shuffle 的方案進行上采樣，該操作使得大小為σ2×H×W特征圖像被重新排列成大小為1×σH×σW的高分辨率圖像；VSR（video super resolution）[14]網(wǎng)絡(luò)通過在每個像素的時空鄰域進行濾波上采樣得到高分辨率圖像。本文也將結(jié)合ESPCN中提出的Pixel Shuffle和VSR中提出的鄰域濾波進行改進。

綜上所述，本文的貢獻點在于：（1）針對立體匹配算法中代價體上采樣問題進行研究并改進；（2）提出了一個輕量級自適應(yīng)上采樣模塊（lightweight adaptive upsampling module，LAUM），用以學習代價體中每一個像素的插值權(quán)重窗口，并且設(shè)計了多尺度窗口提高上采樣能力，同時該模塊具有大感受野和輕量化的特點；（3）在SceneFlow和KITTI2015數(shù)據(jù)集上的定性定量實驗證明了LAUM模塊的有效性。

1 算法描述

1.1 立體匹配算法描述

現(xiàn)有端到端立體匹配模型主要包含特征提取、代價體計算、代價濾波、視差計算、視差優(yōu)化五個階段，流程圖如圖2 所示。特征提取部分多基于ResNet[15]網(wǎng)絡(luò)，選取其1/k分辨率（例如k=4）特征圖作為下一階段的輸入；代價體計算階段，則根據(jù)實現(xiàn)方法的不同，代價體結(jié)構(gòu)可以分為兩個大類，分別為3D([H,W,D])代價體和4D([H,W,D,C])代價體，前者通過相關(guān)操作[16-18]在通道維度上計算左圖和變換右圖的相關(guān)程度，后者的4D 代價體則是通過在通道維度(C)上疊加[5，19-20]或者特征相減[8]的操作來實現(xiàn)，本文基于3D 代價體展開，該代價體記作CV（cost volume）：

其中，i=[0,1,…,Dmax],Fl、Fr依次為左右特征圖。出于計算量的考慮，代價體計算和濾波階段通常在1/4 原圖甚至更低分辨率上進行，然后采用上述所提插值的方法將代價體上采樣到原圖尺寸。本文的主要研究方向就是針對這一階段進行改進（圖2 綠色部分，代價體上采樣），通過輕量級的模塊使得上采樣的結(jié)果更為精準，減少信息損失，提高算法最終視差預(yù)測的精度。

圖2 立體匹配流程圖Fig.2 Procedure of stereo matching

1.2 上采樣公式

為了得到輸出特征圖O∈?σH×σW×C中的每一個元素，在輸入特征圖I∈?H×W×C上使用上采樣方程進行采樣，其中σ表示上采樣的倍數(shù)。更具體地，假設(shè)需要求得的目標輸出像素點坐標為(xi,yi,ct)，則上述上采樣過程可以公式化地表示為：

其中，i?[0,H×W-1],t?[0,C],Ψ就是上述提到的上采樣方程，σ則是上采樣的倍數(shù)。

對于目標像素點(xi,yi,ct)∈O，其直接對應(yīng)的源坐標為，如果直接使用對應(yīng)源坐標點的值則是最近鄰插值方法；當Ψ取方程為：則是常見的雙線性插值方法。從該公式分析可見，雙線性插值的參數(shù)只與對應(yīng)像素點的橫縱坐標有關(guān)，其取0至1之間的值作為權(quán)重參數(shù)進行插值，并沒有很好地利用像素點周圍的鄰域紋理信息。例如處于邊緣并且屬于前景的像素點，在上采樣過程中與背景的點坐標更近，則會產(chǎn)生一定的誤差，如何選擇正確的點進行插值十分重要。

本文提出的輕量級自適應(yīng)上采樣模塊，就是為了解決這一問題。該模塊不僅僅是根據(jù)坐標位置的遠近來進行權(quán)重的確定，而是通過深度學習的方法為每一個像素點(xi,yi,ct)∈O尋找一組上采樣參數(shù)，在輸入特征圖上采樣從而提高整體的預(yù)測精度。該上采樣方程可以記為：

對比式（4.1）、（4.2）與式（5）分析可得，前者線性插值所使用的權(quán)重考慮的是坐標位置，后者本文提出的自適應(yīng)上采樣模塊插值更多地考慮待插值像素周圍的紋理信息。相比線性插值，本文提出模塊更好地考慮了圖像的RGB 紋理信息，為每一個像素點都學習了特定的上采樣參數(shù)方程，同時也避免了物體邊緣區(qū)域與內(nèi)部區(qū)域使用相同上采樣方案造成的誤差。如此設(shè)計使得上采樣模塊有了更好的紋理感知能力。

1.3 輕量級自適應(yīng)上采樣模塊

1.3.1 模塊總覽

所提的輕量級自適應(yīng)上采樣模塊流程圖如圖3 所示。該模塊的輸入尺寸為H×W×C，首先經(jīng)過紋理感知模塊進行鄰域信息的融合，并擴大每個點的感受野，此時代價體的通道數(shù)從C變?yōu)棣摇力摇?×K×K（其中σ是上采樣的倍數(shù)，K為卷積核尺寸）。隨后，采用Pixel Shuffle 算法將代價體進行上采樣，Pixel Shuffle 的具體做法則是使用通道(C)在空間維度(H×W)上進行順序拼接，從而達到擴大的目的。上采樣后代價體通道方向上代表的為每個像素點需要進行周邊鄰域采樣所需的參數(shù)數(shù)量，以此來為每個像素點學習特定參數(shù)。

圖3 輕量級自適應(yīng)上采樣模塊Fig.3 Lightweight adaptive upsampling module

1.3.2 紋理感知模塊

如圖4首先采用一個1×1卷積層來將輸入的通道數(shù)從C壓縮到32，采用該卷積能很好地壓縮后續(xù)步驟的計算量和參數(shù)，使得模塊更加輕量化。然后，設(shè)計了連續(xù)的3個殘差模塊，每個殘差模塊首先經(jīng)過3×3卷積、批歸一化、ReLU 激活函數(shù)，為了獲得更大的感受野，并且不增加網(wǎng)絡(luò)的模型大小，設(shè)置每個模塊的卷積空洞率依次為1、2、1，得到的結(jié)果再使用一個3×3卷積（不使用批歸一化和激活函數(shù)）進行進一步信息融合。其中，每個殘差模塊的輸入輸出通道數(shù)都為32，使得整體模塊的參數(shù)不隨著輸入通道數(shù)的增加而大量增加。經(jīng)過3 個殘差模塊后，繼續(xù)使用1×1 卷積將通道數(shù)從C壓縮到σ×σ×2×K×K（其中σ是上采樣的倍數(shù)，K為卷積核尺寸）來為后續(xù)做準備。

圖4 紋理感知模塊Fig.4 Context-aware module

1.3.3 多尺度窗口

傳統(tǒng)上采樣方法（例如雙線性插值、最近鄰插值）等使用的都是3×3鄰域窗口進行插值，對應(yīng)像素點周圍的信息固然重要，但是大的感受野窗口，更多的點能夠更好地輔助該點的上采樣。因此，本文同時使用兩種窗口進行插值，如圖3 多尺度窗口所示，第一種記作K×K（例如3×3，5×5）窗口，另外一種則是空洞率為σ（上采樣的倍數(shù)），參數(shù)量依舊是K×K的空洞窗口，因此總共的采樣窗口數(shù)量（參數(shù)量）為K×K×2。K的值在實驗部分具體分析和介紹。

1.4 輕量級分析

使用反卷積方案進行上采樣同樣可以為每個像素學習固定的上采樣參數(shù)，但是會帶來大量的計算。假設(shè)上采樣模塊的輸入尺寸為H×W×C，輸出尺寸為σH×σW×σC，采用反卷積上采樣σ（上采樣倍數(shù)）倍，則卷積所需的步長為σ，卷積核尺寸為2×σ×2×σ，則其理論計算所需要的參數(shù)量為C×(2σ×2σ)×(σC)。本文提出的自適應(yīng)上采樣模塊參數(shù)主要集中在紋理感知模塊和通道升維兩部分，在紋理感知模塊中，通道數(shù)固定為32，兩個1×1 卷積層參數(shù)量為C×32+32×(σ×σ×2×K×K)（其中σ為上采樣倍數(shù)，K為多尺度窗口），3個殘差模塊參數(shù)量為3×2×32×(k×k)×32（其中k為卷積核尺寸），因其固定輸入輸出尺寸為32，所以該部分參數(shù)量為固定值，也同時保證該部分計算量不隨著上采樣倍數(shù)的增加而大量增加，在通道升維部分，其參數(shù)量為C×(k×k)×(σC)。以K為3，k為3，σ為4，C為48為例，本文提出的自適應(yīng)上采樣模塊參數(shù)量為反卷積上采樣參數(shù)量的1/4。

2 實驗結(jié)果

2.1 數(shù)據(jù)集

本文在兩個主流雙目數(shù)據(jù)集（SceneFlow[21]和KITTI2015[22]）上進行了大量的實驗，驗證模塊的有效性。

SceneFlow 數(shù)據(jù)集是虛擬合成的數(shù)據(jù)集，并且提供了稠密的真值視差，該數(shù)據(jù)集包含了35 454張雙目訓練集以及4 370張測試集。EPE誤差（end-point-end error）是這個數(shù)據(jù)集使用的指標，該指標描述了像素點的平均預(yù)測誤差。EPE誤差以小為優(yōu)。

KITTI2015 數(shù)據(jù)集是真實的室外場景，該數(shù)據(jù)集提供了稀疏的真值視差（車載激光雷達獲?。?，其包含了200 張訓練集以及200 張測試集雙目圖像。D1-all 是該數(shù)據(jù)集主要使用的指標，它表示在所有像素點中，預(yù)測值與真實值誤差大于3 個像素的點占總像素點的比例。D1-all誤差以小為優(yōu)。

2.2 實驗平臺和方法

實驗代碼基于PyTorch 框架編寫，實驗平臺使用的是NVIDIA 2080ti顯卡。在整個訓練過程中，全程使用Adam[23](β1=0.9,β2=0.999)作為神經(jīng)網(wǎng)絡(luò)的優(yōu)化器，采取在SceneFlow 數(shù)據(jù)集上預(yù)訓練，再在KITTI2015 上使用SceneFlow 訓練得到的模型進行調(diào)優(yōu)訓練的策略。本文提出的輕量級自適應(yīng)上采樣模塊（LAUM）將在PSMNet[5]和AANet[8]網(wǎng)絡(luò)上通過替換其中三線性插值為本文的自適應(yīng)上采樣模塊來進行驗證。

基于PSMNet 網(wǎng)絡(luò)：在兩個數(shù)據(jù)集上將輸入左右圖隨機切分成256×512 分辨率。在SceneFlow 數(shù)據(jù)集上，總訓練輪數(shù)為20，并使用固定的學習率0.001；在KITII2015 數(shù)據(jù)集上，總訓練輪數(shù)為500，初始學習率為0.001，200輪后學習率設(shè)為0.000 1。

基于AANet網(wǎng)絡(luò)：在兩個數(shù)據(jù)集上將輸入左右圖隨機切分成288×576 分辨率。在SceneFlow 數(shù)據(jù)集上，總訓練輪數(shù)為128，初始學習率為0.001，在第[40，60，80，100，120]輪時，學習率依次衰減一半。

對于所有數(shù)據(jù)集和網(wǎng)絡(luò)，最大視差都被設(shè)定為192。除此之外，與所使用的PSMNet和AAnet保持一致，使用ImageNet 數(shù)據(jù)集的均值和方差來對輸入圖像進行正則化操作，并進行隨機的顏色增強，翻折進行數(shù)據(jù)增強。

2.3 上采樣方法分析

為了驗證提出的輕量級自適應(yīng)上采樣模塊LAUM的有效性，本文基于PSMNet 網(wǎng)絡(luò)，在SceneFlow（EPE誤差）和KITTI2015（D1-all 誤差）數(shù)據(jù)集上對比了線性插值、反卷積以及LAUM模塊的效果。其中線性插值是原文中所使用的上采樣方案，LAUM模塊具有很好的移植性，可以直接替換三線性插值方法進行實驗。實驗結(jié)果如表1所示，可以發(fā)現(xiàn)采用反卷積方式進行上采樣所需參數(shù)量（#Params）和計算量（GFLOPs，Giga floating point operations）最多，但是誤差也是最大的；反觀本文的自適應(yīng)上采樣模塊LAUM，在線性插值的基礎(chǔ)上增加少量的參數(shù)（6.2%），在SceneFlow數(shù)據(jù)集上EPE誤差降低26.4%，在KITTI驗證集上D1-all誤差降低17.81%，足以證明LAUM 模塊設(shè)計的有效性和輕量化，更適合實際工程。

表1 基于PSMNet上采樣模塊分析Table 1 Analysis of upsampling methods on PSMNet

2.4 SceneFlow數(shù)據(jù)集結(jié)果

如表2 所示，在SceneFlow 測試集上對比了搭載LAUM 上采樣模塊網(wǎng)絡(luò)與其他主流網(wǎng)絡(luò)的結(jié)果。本文選取了兩個代表性的網(wǎng)絡(luò)PSMNet 和AANet 作為基礎(chǔ)網(wǎng)絡(luò)，直接替換其中的三線性插值上采樣方法為本文的輕量級自適應(yīng)上采樣模塊（名稱后綴為-LAUM），前者是提升預(yù)測精度的代表網(wǎng)絡(luò)，后者是提升速度立體匹配網(wǎng)絡(luò)中的代表。

表2 SceneFlow數(shù)據(jù)集不同網(wǎng)絡(luò)對比Table 2 Comparison with other networks on SceneFlow

基于PSMet 網(wǎng)絡(luò)改進：首先分析基于PSMNet 網(wǎng)絡(luò)的改進。PSMNet 網(wǎng)絡(luò)具有兩個版本，basic（基礎(chǔ)）和hourglass（高精度），本文是基于basic 版本進行改進，目的是為了證明誤差的降低并不是因為網(wǎng)絡(luò)參數(shù)的增加，而是因為LAUM 模塊設(shè)計的有效性。對比發(fā)現(xiàn)，本文的輕量級自適應(yīng)上采樣模塊LAUM在basic的基礎(chǔ)上帶來了26.4%的誤差降低，甚至超越了PSMNet 的高精度版本（-hourglass），但參數(shù)量僅僅為高精度版本的74.71%，計算量是其75.74%。與GWC-Net的對比可以發(fā)現(xiàn)降低8.8% EPE誤差的同時，降低了42.8%的參數(shù)量和25%的計算量。和原網(wǎng)絡(luò)以及其他網(wǎng)絡(luò)的對比都證明了LAUM模塊輕量化設(shè)計的有效性。

基于AANet網(wǎng)絡(luò)改進：同樣的結(jié)果也在基于AANet的改進上有所體現(xiàn)。本文的模塊帶來了10.3%的誤差降低，值得注意的是在和GA-Net網(wǎng)絡(luò)進行對比的時候，本文網(wǎng)絡(luò)的參數(shù)量大于GA-Net，但是GFLOPS 遠小于該網(wǎng)絡(luò)，主要是因為GA-Net大量使用了3D卷積進行代價濾波。本文在表格中同時羅列了參數(shù)量和計算量進行對比。實驗結(jié)果也證明了模塊的有效性。

可視化結(jié)果：圖5 可視化地展示了PSMNet-basic、PSMNet-LAUM、AANet、AANet-LAUM在SceneFlow測試集上的效果，并展示了各自網(wǎng)絡(luò)的EPE 誤差和誤差圖。誤差圖是通過預(yù)測圖和真值相減得出。分析發(fā)現(xiàn)，基于LAUM 模塊的網(wǎng)絡(luò)有著更低的誤差，同時在物體邊緣處（SceneFlow數(shù)據(jù)集物體多且復(fù)雜）有著更好的預(yù)測結(jié)果，尤其在柵欄區(qū)域（PSMNet 和AANet 在這些區(qū)域都有大量錯誤），采用了LAUM模塊后使得兩個基礎(chǔ)網(wǎng)絡(luò)都在此區(qū)域有了明顯的精度提升。

圖5 KITTI2015和SceneFlow數(shù)據(jù)集效果圖Fig.5 Visualization of 2 datasets（KITTI2015 and SceneFlow）

2.5 KITTI2015數(shù)據(jù)集結(jié)果

在KITTI 數(shù)據(jù)集上，本文僅在PSMNet 與AANet 上比較設(shè)計的自適應(yīng)上采樣模塊（LAUM）和原文的效果。從表3中可以發(fā)現(xiàn)，采用本文設(shè)計的輕量級自適應(yīng)上采樣模塊（LAUM），D1-all誤差降低了15.4%和18.9%。正如之前提到的，LAUM模塊設(shè)計的初衷是為每個像素尋找上采樣窗口，其中也包括邊緣像素點，邊緣處的效果提升更能反映模塊的有效性。因此，本文采用了Sobel邊緣檢測算子得到左圖的邊緣區(qū)域并且采取一定程度的邊緣膨脹（見圖6），從而驗證在這些邊緣區(qū)域的誤差?？梢园l(fā)現(xiàn)，本文提出的LAUM 模塊在提升整體精度的同時也能很好地提升邊緣處像素點，各自在邊緣處有了15.0%、16.7%的精度提升。圖5也分別展示了兩個基礎(chǔ)網(wǎng)絡(luò)PSMNet 和AANet 以及加入LAUM 模塊后各自網(wǎng)絡(luò)在KITTI數(shù)據(jù)集上的可視化效果，并展示了各自的誤差?？梢园l(fā)現(xiàn)，盡管原本數(shù)據(jù)集（KITTI 數(shù)據(jù)集的視差真值稀疏）的誤差值已經(jīng)很小，但是LAUM依舊可以提升整體的預(yù)測精度。

表3 KITTI驗證集D1-all誤差對比Table 3 Comparison of D1-all error on KITTI validation dataset

圖6 KITTI數(shù)據(jù)集邊緣圖Fig.6 Edge map of KITTI dataset

圖7可視化地展示了在邊緣處的細節(jié)，可以發(fā)現(xiàn)采用了LAUM模塊能夠更好地保留物體（汽車）的形狀輪廓，在邊緣處有著更好的預(yù)測效果。車子表面是反光材質(zhì)，反光區(qū)域?qū)ξ矬w的整體性有著極大的影響，可視化結(jié)果表明，基于輕量級自適應(yīng)上采樣模塊LAUM 的算法比線性插值方法能夠更好地應(yīng)對該情況。

圖7 邊緣預(yù)測細節(jié)可視化Fig.7 Visualization of details at edge area

2.6 消融實驗-多尺度窗口

為了進一步驗證本文提出的模塊中多尺度窗口的有效性，設(shè)計了如下消融實驗。該實驗基于PSMNet網(wǎng)絡(luò)進行，數(shù)據(jù)集使用SceneFlow，采用的測試指標是EPE誤差。結(jié)果如圖8 所示，其中K×K（例如3×3）表示使用單窗口進行插值，K×K×2 則表示使用本文提出的雙窗口。圖中所列參數(shù)量依次從9 到50 進行對比。比較3×3×2與3×3窗口，可以發(fā)現(xiàn)雙窗口的設(shè)計可以有效降低14.2%的誤差，與5×5 窗口的比較也可以證明誤差的降低是因為模塊設(shè)計，而不是更多的參數(shù)量帶來的。當窗口參數(shù)量達到7×7 時，誤差有了明顯提升，這也是因為在紋理感知模塊中通道數(shù)被設(shè)置成了32（出于輕量化目的），當窗口參數(shù)量大于這個值，會出現(xiàn)信息的冗余，因此會帶來精度的降低。

圖8 不同窗口對預(yù)測精度的影響Fig.8 Effect for prediction of different window sizes

2.7 上采樣窗口參數(shù)可視化

為了驗證LAUM 模塊能夠很好地感知周圍鄰域的紋理信息，本文通過可視化窗口權(quán)值來體現(xiàn)，具體實驗設(shè)計如下：LAUM模塊是為高分辨率輸出的每一個像素學習一個上采樣窗口權(quán)值，將每一個像素的權(quán)值全部在低分辨率對應(yīng)的位置累加，則可以得到在低分辨率輸入中每個像素對上采樣的貢獻度。圖9 為上采樣窗口權(quán)值可視化圖，顏色越深，值越小。從圖9 中可以發(fā)現(xiàn)車子邊緣處的權(quán)重累加值接近零，意味著邊緣處的點幾乎不參與上采樣的過程。邊緣處具有歧義性，本文提出的LAUM模塊學習到的參數(shù)更多地落在了非邊緣區(qū)域，窗口權(quán)值的可視化結(jié)果以及在數(shù)據(jù)集上的精度提升都證明了設(shè)計模塊的有效性。

圖9 上采樣窗口權(quán)值可視化Fig.9 Visualization of upsampling weights

3 結(jié)束語

本文針對端到端立體匹配網(wǎng)絡(luò)中的關(guān)鍵步驟（代價體上采樣），提出了輕量級自適應(yīng)上采樣模塊LAUM，用以解決線性插值紋理信息使用不足和反卷積計算復(fù)雜的缺點，進而提升最終視差預(yù)測的準確度。在SceneFlow和KITTI 數(shù)據(jù)集上的結(jié)果也證明了本文模塊設(shè)計的有效性。更重要地，提出的LAUM模塊參數(shù)量極少，復(fù)雜度幾乎可忽略不計。同時，可以十分便捷地替換到任何使用線性插值和反卷積的網(wǎng)絡(luò)中。在接下來的工作中，將更多地側(cè)重LAUM模塊在實際場景中的泛化能力和低算力設(shè)備上的實際運行速度。

計算機工程與應(yīng)用2022年16期

計算機工程與應(yīng)用的其它文章: 《計算機科學與探索》投稿須知; 基于深度學習的微服務(wù)故障檢測研究; 結(jié)合纏論和深度學習的股價拐點預(yù)測研究; 隱馬爾可夫模型的道路擁堵時間預(yù)測; 基于高斯過程與批量湯普森抽樣的動態(tài)定價策略; 時變路網(wǎng)下帶混合時間窗的車輛路徑問題