亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        全局時空特征耦合的多景深三維形貌重建

        2023-03-24 13:25:34張江峰閆濤陳斌錢宇華宋艷濤
        計算機應用 2023年3期
        關鍵詞:景深形貌卷積

        張江峰,閆濤,3,4*,陳斌,錢宇華,宋艷濤,3

        (1.山西大學 計算機與信息技術學院,太原 030006;2.山西大學 大數(shù)據(jù)科學與產(chǎn)業(yè)研究院,太原 030006;3.山西省機器視覺與數(shù)據(jù)挖掘工程研究中心(山西大學),太原 030006;4.哈爾濱工業(yè)大學 重慶研究院,重慶 401151;5.哈爾濱工業(yè)大學(深圳)國際人工智能研究院,廣東深圳 518055)

        0 引言

        三維形貌重建作為計算機視覺的前沿課題之一,在增強現(xiàn)實、精密制造和無人駕駛等領域[1]應用廣泛?,F(xiàn)階段,三維形貌重建不僅需要滿足高精度與高效率的測量需求,也要滿足跨場景應用的快速部署要求[2]。三維形貌重建過程中需要探究深度線索或立體匹配,從而輔助構建立體形貌,如多景深重建[3]、相機自運動[4]、點云配準[5]和光場重建[6]等。相機自運動需要圖像采集設備在宏觀的定位系統(tǒng)下搭建龐雜的照片集,受限于數(shù)據(jù)信息的噪聲和立體匹配信息的稀疏性,此類方法不易跨場景應用。點云和光場均通過專用信息采集設備記錄場景的深度線索,它們的重建精度依賴信息采集設備的精度,因此硬件成本較高。而基于多景深圖像序列的三維形貌重建方法即聚焦形貌恢復(Shape From Focus,SFF)則利用圖像含有的場景信息和圖像序列間含有的景深關系共同推導深度線索,重建效率高且硬件成本低,易于實現(xiàn)多場景應用[7]。

        基于多景深圖像序列的三維形貌重建主要包含以下步驟:首先,相機等圖像采集設備在它們的聚焦范圍內快速掃描焦平面,產(chǎn)生一系列不同景深(聚焦)的圖像集即聚焦棧(Focus Stack,F(xiàn)S);其次,對聚焦棧中的圖像序列采用統(tǒng)一的聚焦評價算子FM(Focus Measure)構成聚焦體積(Focus Volume,F(xiàn)V),在FV 中評選最佳聚焦值所在序列信息,從而構成初始形貌結構;最后,采用深度圖修復等圖像后處理算法得到最終的三維形貌圖即深度圖。

        為實現(xiàn)場景中的高精度三維形貌重建,聚焦評價算法至關重要。傳統(tǒng)基于多景深的三維形貌重建[8-9]提出了多種聚焦評價算子,大致可分為空間域和頻率域。傳統(tǒng)方法通過圖像像素信息推導深度信息,而固定的模型參數(shù)難以對多場景進行自適應式的高精度三維形貌重建。隨著多景深數(shù)據(jù)集的生成和開源,一系列算法[10-13]利用深度學習替代傳統(tǒng)聚焦評價算子,從大規(guī)模多景深圖像數(shù)據(jù)中學習區(qū)分聚焦和離焦,并創(chuàng)建場景語義級的三維形貌。然而,基于深度學習的三維形貌重建僅通過二維或三維卷積簡單地拼接局部聚焦信息,無法很好地挖掘全局場景信息。

        基于多景深圖像序列的三維形貌重建目前仍面臨三個主要挑戰(zhàn)[13]:聚焦測量、弱紋理場景和采樣頻率。聚焦測量過程中聚焦評價算子直接作用于多景深圖像序列,不僅需要判斷聚焦與離焦的分界線,而且需要以場景信息為引導有效分離場景中的異質區(qū)域;聚焦測量算子無法對弱紋理場景進行有效聚焦評價,極易導致錯誤深度信息蔓延;采樣頻率宏觀上決定了場景的層次結構,為確保前景和背景落入景深范圍內,需要對待測場景密集采樣。

        綜上所述,如何構建聚焦測量精準、紋理場景自適應的多場景三維形貌重建是目前亟需解決的問題。本文提出全局時空特征耦合(Global Spatio-Temporal Feature Coupling,GSTFC)模型,在重建多景深三維形貌的同時建模聚焦區(qū)域特征的時序關系和空間關系,并通過自適應參數(shù)有效耦合這兩種關系,從而增強模型的特征表示能力。

        本文的主要工作如下:1)提出基于3D-ConvNeXt 的U 型網(wǎng)絡主干,可以在有效提取局部聚焦序列信息的同時,減少網(wǎng)絡參數(shù)量,降低模型成本;2)利用3D-SwinTransformer 模塊[14]通過局部聚焦序列信息構建全局關系,在此基礎上選擇自適應網(wǎng)絡參數(shù)平衡局部和全局特征并有效耦合;3)利用神經(jīng)網(wǎng)絡構建聚焦體積,代替原有手工計算聚焦最大值或神經(jīng)網(wǎng)絡直接擬合深度圖的方式,通過分析聚焦體積中每個點的深度置信度保留聚焦和離焦的過渡信息。

        1 相關工作

        基于多景深圖像序列的三維形貌重建根據(jù)是否利用深度學習抽取聚焦特征,大體可分為傳統(tǒng)聚焦建模和神經(jīng)網(wǎng)絡擬合兩類。

        1.1 傳統(tǒng)多景深三維形貌重建

        傳統(tǒng)多景深三維形貌重建模型通過前后圖像的差異信息判別聚焦和離焦,并對深度信息進行置信度評價以確定聚焦與離焦的邊界線。根據(jù)圖像處理方式的不同可大致分為空間域和頻率域兩部分。在空間域類中,改進圖像算子的聚焦特征提取能力可以提高重建結果的精度,如Sum-modified-Laplacian[15]、TENV(TENengrad Variance)[16]和Laplacian in 3D window[17]等;圖像區(qū)域的梯度[18-20]波動同樣也可作為聚焦的線索,如空間頻率(Spatial Frequency,SF)算子。為貼合待測場景中不同物體的表面,學者通過構建物體表面和聚焦形貌的一一對應關系[21]將深度信息區(qū)域化,后續(xù)使用拉格朗日多項式估計分段曲面[22];也有學者探討聚焦評價窗口對聚焦信息的影響,并提出自適應改變窗口大小來提高聚焦評價的準確度[23-24],如DLAP(Diagonal LAPlacian)算子通過收集鄰域內梯度值變化自適應改變聚焦評價窗口;還有學者提出環(huán)形差分濾波器(Ring Difference Filter,RDF)[9]統(tǒng)籌局部區(qū)域內非相鄰環(huán)形區(qū)域對聚焦中心的影響。這類方法主要對局部像素信息進行聚焦測量,無法對非連通的聚焦區(qū)域進行有效鑒別,難以擬合聚焦區(qū)域邊界。由于圖像時頻的變換過程可有效分離圖像的高、低頻信息,進而有助于保留圖像的相對聚焦區(qū)域,陸續(xù)有學者從圖像頻域角度分析并解構聚焦棧,如快速離散曲波(Fast Discrete Curvelet,F(xiàn)DC)[25]可檢測聚焦棧中的高頻分量;非降采樣小波變換[7]將聚焦棧分離為不同尺度的高頻信息;非降采樣剪切波[26]可得到深度信息的最優(yōu)尺度表達等。頻率域類方法改善了空間域類方法僅在局部評價聚焦的問題,但仍需輔以場景結構的先驗信息來完善并修復深度圖像的邊界及噪點。

        現(xiàn)階段,傳統(tǒng)的多景深三維形貌重建力求改進聚焦測量算子以產(chǎn)生精細的聚焦體積[8]。同時,為防止重建結果將噪點等錯誤信息引入深度圖修復算法。深度圖修復算法采用梯度或場景結構約束來改善初始深度圖的稀疏性,如引導濾波[27]、圖像分割(Graph Cut,GC)算法[28]、魯棒聚焦體積正則化的聚焦形貌恢復(Robust Focus Volume Regularization in Shape From Focus,RFVR-SFF)模型[8]。而深度修復算法在鑒定深度異常值的過程會影響原有深度正確值,造成重建算法精準度的退化。綜上所述,傳統(tǒng)多景深三維形貌模型單一的評價參數(shù)無法適應多領域三維形貌重建[29]。

        1.2 基于深度學習的多景深三維形貌重建

        深度學習類方法構建多層卷積神經(jīng)網(wǎng)絡(Convolutional Neural Network,CNN)學習多景深圖像序列中隱含的內部關系,由此得到的深度信息具有更強的表征和泛化能力。目前已公布的基于深度學習的三維形貌重建模型將特定場景下的多景深圖像集和深度圖經(jīng)過神經(jīng)網(wǎng)絡抽象學習聚焦特征并自動擬合聚焦區(qū)域,相較于傳統(tǒng)方法更加精準高效。

        基于焦點深度的深度(Deep Depth From Focus,DDFF)[10]模型作為首個端到端可訓練的CNN,為解決三維形貌重建的不適定性給出示范,說明利用卷積關聯(lián)像素信息可以抽取場景中抽象的聚焦特征。然而,僅使用單一卷積核逐層抽取特征無法關聯(lián)景深的前后關系,導致多景深數(shù)據(jù)利用率較低。離焦網(wǎng)絡(Defocus Net,DefocusNet)模型[11]利用域信息不變的散焦模糊作為直接監(jiān)督數(shù)據(jù),通過融合分支和深度分支分別生成全聚焦圖像和深度圖像,該模型利用散焦信息監(jiān)督網(wǎng)絡可以有效分離前景和背景,但無法擬合相鄰深度下同質區(qū)域的過渡。上述方法將簡單堆疊的多景深圖像集直接輸入網(wǎng)絡,僅通過二維卷積操作無法有效利用多景深圖像之間的序列關系。

        全聚焦深度網(wǎng)絡(All-in-Focus Depth Net,AiFDepthNet)模型[12]利用全聚焦圖像監(jiān)督或全聚焦圖像和深度圖共同監(jiān)督訓練網(wǎng)絡得到深度信息,以降低數(shù)據(jù)集對深度監(jiān)督信息的依賴并改用全聚焦信息監(jiān)督。然而,全聚焦圖像與深度圖對聚焦信息的敏感度不同,使用全聚焦圖像作為監(jiān)督信息極度依賴圖像采集頻率,采樣頻率降低會導致最終深度圖像的噪點增多、邊界信息模糊。后續(xù)也有研究通過差分聚焦體積網(wǎng)絡(Differential Focus Volume Net,DFV-Net)模型和聚焦體積網(wǎng)絡(Focus Volume Net,F(xiàn)V-Net)模型[13]結合焦點和上下文進行深度估計,但在初始特征提取中未綜合考量聚焦體積中的聚焦過渡關系。全局時空聚焦特征耦合模型[30]加入注意力機制并利用局部時空聚焦信息構建全局聯(lián)系,從而依據(jù)多景深圖像序列推導焦平面矩陣,指導三維形貌重建。但是簡單的焦平面矩陣無法直接適應不同數(shù)據(jù)集的深度范圍,后續(xù)需要根據(jù)場景深度范圍重新調整深度值,易引起精度丟失。而且推導的焦平面矩陣有固定的分層數(shù),不利于網(wǎng)絡模型精細化理解待測場景中的前后圖像序列的過渡關系。綜上所述,現(xiàn)有的三維形貌重建方法在聚焦特征的高效提取、弱紋理區(qū)域的聚焦鑒定和多頻率景深的泛化性上仍有上升空間。

        2 本文模型

        2.1 問題描述

        多景深三維形貌重建利用相機的光學成像原理還原待測場景的三維形貌信息,它的核心思想是利用相機的景深限制來推導深度信息。大多數(shù)相機只能在稱為景深(Depth of Field,DoF)的范圍內捕捉部分場景的清晰圖像,而范圍外會模糊形成彌散圓(Circle of Confusion,CoC)。三維形貌重建算法利用透鏡成像公式[31]的基本原理,通過調節(jié)相機與待測場景的距離,等間隔采集場景圖像,得到可以覆蓋待測場景全部景深的圖像棧。在捕捉的圖像棧中使用聚焦測量算子進行聚焦水平評價,選擇所有聚焦水平最大值所在序列位置作為待測場景的初始深度[32],可表示為:

        其中:N為聚焦棧大??;圖像大小為H×W;FMi[x,y]表示聚焦棧中第i張圖像中[x,y]位置的聚焦水平;D[x,y]表示深度圖。最后,采用圖像后處理算法對初始深度圖進行修復。

        2.2 網(wǎng)絡結構

        本文提出全局時空特征耦合(GSTFC)模型是一個端到端的深度卷積網(wǎng)絡,輸入為多景深圖像序列,輸出為相應場景的深度信息即深度圖。GSTFC 模型由收縮路徑、瓶頸模塊、擴張路徑及特征處理組成,如圖1 所示。

        圖1 GSTFC模型的整體結構Fig.1 Overall structure of GSTFC model

        本文采用U 型主干網(wǎng)絡,在收縮路徑和擴張路徑的編解碼過程中跳躍連接各個尺度特征,以實現(xiàn)底層紋理特征與高層聚焦特征的充分融合,同時兼顧精準定位和輕量化應用[33]。該主干網(wǎng)絡的優(yōu)點使它在圖像生成等任務中有明顯優(yōu)勢[34]。為確保訓練過程中卷積操作和注意力操作在宏觀結構層次下網(wǎng)絡特征歸納的統(tǒng)一性和微觀層次下特征維度的兼容性,使用ConvNeXt 模塊[35]代替原有的全卷積網(wǎng)絡(Fully Convolutional Network,F(xiàn)CN)等結構。但為引入同一區(qū)域內不同景深序列的聚焦信息,將ConvNeXt 模塊的特征提取維度由二維變?yōu)槿S,由此獲得局部時空聚焦特征。3D-SwinTransformer 模塊對于時序關系的全局建模能力有利于將前者獲得的局部聚焦特征進行信息整合,從而獲得全局時空聚焦特征。后續(xù),靈活的特征處理模塊對不同焦距數(shù)據(jù)進行分類處理從而得到最終的深度圖。

        2.2.1 收縮路徑和擴張路徑

        收縮路徑中主要包含三個子模塊,每個子模塊中包含3D 卷積層(Conv 3D)、正則激活層和3D-ConvNeXt 模塊。每個子模塊針對局部聚焦區(qū)域的時空特征進行多尺度提取,以探索多景深圖像序列的局部時空聚焦特征。第一個子模塊整體的特征頻道設為48,3D 卷積層通過大小為(3,7,7)的卷積核對原始多景深圖像序列進行特征抽取,隨后通過層歸一化(LayerNorm)和高斯誤差線性單元(Gaussian Error Linear Unit,GELU)增益特征,最后堆疊3 層3D-ConvNeXt 模塊以探索該尺度下的局部時空特征。第二和第三個子模塊整體的特征頻道分別為96 和192,使用卷積核大小為(1,2,2)的3D卷積層代替最大池化或平均池化層,堆疊的3D-ConvNeXt 模塊層數(shù)分別為3 和9。

        收縮路徑中包含的下采樣操作和3D 卷積層對輸入的多景深圖像序列進行由局部到整體的聚焦特征抽樣,從而得到局部時空聚焦特征并保留各個尺度的聚焦特征。

        擴張路徑與收縮路徑的維度一一對應,也包含三個子模塊。每個子模塊中包含3D 反卷積層(ConvTranspose 3D)、正則激活層和3D-ConvNeXt 模塊。3D 反卷積層主要負責還原上一個子模塊的特征矩陣尺度,并與相對收縮路徑的淺層特征相融合。收縮路徑和擴張路徑中,3D-ConvNeXt 模塊的堆疊次數(shù)與特征維度保持一致。

        2.2.2 3D-ConvNeXt模塊

        CNN 在計算機視覺的應用最廣泛且相對成熟[36],它特有的歸納偏置有利于處理圖像數(shù)據(jù)。但Vision Transformer的引入改變了原有的網(wǎng)絡架構,核心的多頭注意力機制靈活關注一系列圖像塊,為特征編碼提供全局線索[37]。二者并不是獨立發(fā)展,如Transformer 變體中引入了卷積的“滑動窗口”策略。盡管Transformer 在計算機視覺領域通過借鑒卷積的獨特優(yōu)勢提升效率,但在訓練過程和架構設計中仍存在明顯的差異[35]。本文提出的3D-ConvNeXt 模塊的架構設計參照3D-Swin Transformer 結構,使它可靈活嵌入Transformer 模塊,將二者提取特征相結合。ConvNeXt 模型[35]依照Swin Transformer[38]的結構進行調整改進,有效地彌合了純卷積網(wǎng)絡和Vision Transformers 之間的性能差距。該設計分為五部分:宏觀設計、ResNeXt[39]、Inverted Bottleneck、大卷積核和逐層微觀設計。在宏觀設計中,ConvNeXt 模型將卷積模塊的堆疊比例改為1∶1∶3∶1,并將stem 層中的卷積核設為4,步距設為4;在網(wǎng)絡結構設計中,采用ResNeXt 模型的組卷積層,并將組卷積層中的組數(shù)設置為特征頻道數(shù);借鑒MobileNetV2[40]的Inverted Bottleneck 模仿Transformer block 中的多層感知機(Multi-Layer Perceptron,MLP)模塊;增大原有的卷積核,將卷積核大小設為7;在逐層微觀設計中,采用GELU 激活函數(shù)、更少的激活層和正則層,將Batch Normalization 改為Layer Normalization 和單獨下采樣層。在微觀設計中,GELU 激活函數(shù)是一種高性能的非線性神經(jīng)網(wǎng)絡激活函數(shù),可以采用隨機正則化的方式有效提升網(wǎng)絡的魯棒性,因此可將它視為ReLU 激活函數(shù)更平滑的變體;Layer Normalization 相較于Batch Normalization 不會對小批量數(shù)據(jù)施加限制,可有效減少模型的顯存消耗。

        本文在ConvNeXt 模型的基礎上進行改進,以滿足多景深圖像序列的三維形貌預測。首先,為探究多景深圖像序列之間的聚焦離焦過渡關系,將原有的2D-ConvNeXt 模塊整體升級為3D-ConvNeXt 模塊,主要包含卷積層;其次,將原有的分類式網(wǎng)絡中的線性分類層轉換為3D-ConvNeXt 模塊堆疊次數(shù)相對應的U 型主干網(wǎng)絡結構[33],便于獲得多景深圖像序列的多尺度信息并保留淺層細節(jié)特征,有效降低了網(wǎng)絡整體所需參數(shù);最后,微調原有的stem 層,將它轉換為卷積核為2、步距為2 的卷積層,最終將得到的下采樣特征與3D-Swin Transformer 模塊切分得到圖像序列塊的特征進行對齊,并添加自適應參數(shù)以平衡卷積特征和Transformer 特征。

        收縮路徑中每個子模塊的特征維度設置、卷積模塊堆疊次數(shù)均與Swin Transfromer 保持高度一致,便于提高局部特征與全局特征的融合性。其中3D-ConvNeXt 模塊主要包含3D逐通道卷積層、LayerNorm 層、GELU 激活層和3D 逐點卷積層。3D-ConvNeXt 模塊使用殘差方式緩解網(wǎng)絡增加深度時帶來的梯度消失問題。該模塊首先使用卷積核大小為(3,7,7)的3D 逐通道卷積層和LayerNorm 層獲得初始特征;隨后,使用卷積核大小為(1,1,1)的3D 逐點卷積層擴充原有維度并使用GELU 激活特征;最后,使用卷積核大小為(1,1,1)的3D 逐點卷積層降低特征到原有維度,添加隨機的Drop Path層以有效提升模型的魯棒性。該設計方法在犧牲部分準確度的前提下可大幅減小網(wǎng)絡的參數(shù)規(guī)模,有助于平衡模型計算量和預測準確率。

        2.2.3 瓶頸模塊

        瓶頸模塊主要分為兩個子模塊:3D 卷積模塊和3D-SwinTransformer 模塊。3D 卷積模塊類似于收縮路徑中的第二個子模塊,具有相同的3D 卷積下采樣和堆疊3 層的3D-ConvNeXt 模塊。3D-SwinTransformer 模塊包含3D Patch Embedding 和3D SwinTransformer Block。相較于直接從多景深圖像序列中獲取全局信息,3D Patch Embedding 預處理收縮路徑中第一個子模塊得到的特征,可以增益對特征的提取能力。3D SwinTransformer Block 在保留原有的滑窗設計和層級設計的同時,將圖像之間的序列關系也引入對比。3D 卷積模塊抽取局部時空聚焦特征,3D-SwinTransformer 模塊構建全局時空聚焦特征,二者之間使用自適應參數(shù)進行耦合拼接。

        2.3 特征處理

        傳統(tǒng)三維形貌重建模型根據(jù)輸入的多景深圖像序列確定聚焦體積的大小,通過聚焦測量算子評價單幀圖像不同像素的聚焦置信度從而構建場景的三維形貌關系。傳統(tǒng)模型僅提取最大聚焦值以確保深度信息的準確性,忽略了聚焦和離焦的過渡關系。當采樣頻率不足以覆蓋整個場景時,深度圖異質嚴重,會導致無法有效捕捉場景信息。而現(xiàn)有的深度學習的多景深三維形貌重建直接擬合多景深圖像序列特征并輸出深度圖,未引導神經(jīng)網(wǎng)絡有效地學習聚焦過渡信息。

        本文提出特有的深度聚焦體積(Depth Focus Volume,DFV)模塊,利用神經(jīng)網(wǎng)絡引導構建聚焦體積并盡可能保存離焦和聚焦的過渡信息。首先,設立合適的場景預分層值,并確保該值大于等于多景深圖像序列數(shù);其次,對深度聚焦體積值沿序列維度計算深度置信度,根據(jù)深度置信度分配深度值;最后,將深度值等比例壓縮至多景深圖像序列范圍。DFV 模塊預先擴展場景中的深度層次,脫離了原有設定的深度范圍,將場景中各個點的深度信息進行細化分層。另外,DFV 模塊基于深度學習構建出三維形貌重建模型的深度決策信息,避免直接擬合深度值從而導致特征信息丟失。

        各多景深三維形貌重建模型預測的三維形貌通過深度圖表示,深度中各像素點的灰度值為待測場景的相對深度信息。三維形貌重建模型的預測精度依賴于對待測場景的密集采樣,而稀疏采樣會導致深度鑒別精度下降。因此可以通過觀測各模型預測的深度圖的灰度分布是否聚集以鑒定模型是否具有稀疏采樣下的魯棒性。圖2 為各模型預測深度圖的灰度直方圖,橫坐標為1~100 的灰度級(深度值),縱坐標為該灰度級出現(xiàn)的頻數(shù)。實驗場景設置為光場數(shù)據(jù)集SLFD 中的石獅子場景,該場景的深度層次過渡平滑,可有效對比各模型在稀疏采樣下的魯棒性。該場景的原采樣頻率為100,實驗采樣時將原有的圖像序列等間隔采樣以模擬稀疏采樣,并設采樣頻率為10。圖2 通過灰度直方圖展示各模型對稀疏采樣的敏感度,通過深度圖像的深度值分布判定各個模型是否可以監(jiān)測到聚焦和離焦的過渡信息。從圖2(d)可以看出該場景的前景過渡較平滑且背景占比較大。對比的3 個模型的深度值都存在等間距分布,但與標準深度圖的分布相似度不同。圖2(a)和(b)中,RDF 和RFVR-SFF 僅判斷出絕對聚焦關系,未能識別出場景的過渡關系;圖2(c)中,GSTFC 的預測深度圖與標準深度圖的灰度分布最相似,不僅能盡可能保證聚焦區(qū)域的鑒別,而且對于離焦區(qū)域同樣可以識別最佳的深度關系。

        圖2 各模型預測深度圖及其灰度直方圖Fig.2 Depth maps predicted by different models and corresponding grayscale histograms

        3D-ConvNeXt 模塊將擴張路徑的輸出特征聚焦為四維張量M∈R1×K×H×W,其中:K代表場景預分層值;圖像大小為H×W。對于該特征使用DFV 模塊統(tǒng)計場景中各點的深度值。具體操作如下:DFV 模塊將特征張量M通過Softmax 歸一化進行聚焦權重分配為深度注意力Mdepth:

        其中:k、i和j表示張量M的位置信息。

        由于Softmax 確保非負性的同時歸一化有效的概率分布,深度注意力Mdepth等同于深度的概率分布[12]。隨后,引入聚焦先驗信息P∈R1×K×H×W,二者相結合得到每個像素的預期深度值:

        其中:I表示三維形貌重建結果圖,即深度圖。

        2.4 數(shù)據(jù)集介紹與實驗設置

        本文使用多景深圖像數(shù)據(jù)集DFF[2]和FoD500[11]訓練網(wǎng)絡并對比模型效率。DFF 數(shù)據(jù)集共選用15 000 個場景圖像和模擬深度圖映射構建多景深圖像序列,同時在該數(shù)據(jù)集中添加不同強度的高斯噪聲并調整圖像序列大小,以驗證多景深三維形貌重建模型的魯棒性。FoD500 數(shù)據(jù)集使用Blender渲染器構建數(shù)據(jù)集,包含400 個訓練場景和100 個測試場景,每組數(shù)據(jù)包含5 張RGB 場景圖和1 張深度圖像。該數(shù)據(jù)集在構建過程中隨機抽取400 組CAD 3D 模型,這些模型在每個場景隨機大小、位置并旋轉放置20~30 個隨機材料。

        DFF 數(shù)據(jù)集在模擬過程中將每個位置的模糊量結合全局深度信息加權控制,更突出測試模型對聚焦邊界的鑒定;而FoD500 數(shù)據(jù)集注重刻畫深度信息的過渡,精準的深度值可以有效衡量模型對聚焦范圍的預測,同時該數(shù)據(jù)集提供物體之間相互遮擋的圖像,可以有效測試模型對場景之間的間隔和弱紋理背景的區(qū)分能力。兩個數(shù)據(jù)集采樣頻率相差巨大,DFF 數(shù)據(jù)集的采樣頻率為100,F(xiàn)oD500 數(shù)據(jù)集的采樣頻率為5,二者的采樣范圍可以涵蓋目前已知測試數(shù)據(jù)集的采樣頻率。后續(xù)實驗將在SLFD and DLFD(Sparse Light Field Dataset and Dense Light Field Dataset)[41]、Base-Line[42],4D Light Field[43]和POV-Ray[44]等數(shù)據(jù)集上測試各模型的優(yōu)劣。

        本文提出的GSTFC 模型在Ubuntu 平臺上采用PyTorch工具實現(xiàn),顯卡型號為NVIDIA A100。多景深圖像序列作為三維形貌重建模型的輸入,相對應的深度圖作為標簽信息進行有監(jiān)督訓練,共進行200 次迭代訓練。在訓練過程中使用Adam 優(yōu)化器,初始學習率設置為10-4,其余參數(shù)皆為PyTorch默認參數(shù)。訓練過程中以0.5 的概率隨機進行圖像序列增強(整體翻轉和圖像序列倒轉),批處理大小設置為2。

        為更好地分析不同模型方法的客觀評價結果,使用均方誤差(Mean Square Error,MSE)、均方根誤差(Root Mean Square Error,RMSE)、顛簸性(Bumpiness)、相對誤差平方值(Square relative error,Sqr.rel)、峰值信噪比(Peak Signal to Noise Ratio,PSNR)、結構相似性(Structural SIMilarity,SSIM)、矩陣線性相關性(Correlation)定量評估GSTFC 模型與對比模型的性能[10]。后續(xù)將深度圖通過ColorMap 映射到彩色空間,對不同模型預測的深度圖進行主觀評價。

        2.5 消融實驗

        為進一步探究GSTFC 模型的合理性,本文在FoD500 數(shù)據(jù)集的訓練集進行訓練,并在測試集進行測試。消融實驗將從MSE、模型參數(shù)量和模型計算量對模型進行評價。對比模型的計算量和推理時間時,采用多景深圖像序列為5、圖像大小為224×224 的RGB 圖像。消融實驗主要從主干網(wǎng)絡、特征組件和特征處理三方面設置對比,如表1 所示。實驗過程中,特征頻道、堆疊次數(shù)、下采樣和損失函數(shù)等保持一致,本文僅探討3D-ConvNeXt 主干、3D-SwinTransformer 模塊和DFV模塊對網(wǎng)絡模型的影響。

        從表1 可以看出,本文模型在保證預測精度的同時更注重對模型參數(shù)的壓縮。相較于U 模型,添加了全局注意力3D-SwinTransformer 模塊的U+T 模型預測的準確率提高了,模型參數(shù)量和計算量也增加了。相較于U 模型,X 模型的參數(shù)量和計算量都大幅降低,而MSE 卻小幅上升,因為ConvNeXt 模塊使用深度可分離卷積等可有效降低參數(shù)量,但為了與3D-SwinTransformer 結合而設計的獨有結構也提高了MSE。相較于U+T 模型,X+T 模型的MSE、參數(shù)量和計算量都明顯降低,說明3D-ConvNeXt 模塊更適配于3D-SwinTransformer 模塊,二者結合取得了最優(yōu)效果。相較于X+T 模型,X+T+DFV 模型的MSE 也明顯降低,說明DFV 模塊結合已有的聚焦先驗信息能有效提升模型的深度圖預測能力并減少參數(shù)量和計算量。由于3D-U 型主干網(wǎng)絡與3D-SwinTransformer 模型的適配程度低,因此X+T+DFV 模型優(yōu)于U+T+DFV 模型。綜上所述,X+T+DFV 模型即本文最終選擇的多景深三維形貌重建模型。

        表1 消融實驗的對比分析Tab.1 Comparison analysis of ablation experiments

        2.6 對比實驗

        將GSTFC 與深度學習模型和傳統(tǒng)方法進行對比。深度學習模型包括:DDFF[10]、DefocusNet[11]、AiFDepthNet[12]、FVNet[13]和DFV-Net[13];傳統(tǒng)方法包括:RFVR-SFF[8]、RDF[9]、TENV[16]、SF[20]、DLAP[24]、FDC[25]和GC[28]。傳統(tǒng)方法的選擇依據(jù)文獻[29]的分類標準。為平衡GSTFC 模型和傳統(tǒng)方法是否使用場景先驗信息的前置條件,GSTFC 模型僅使用DFF數(shù)據(jù)集訓練以學習判定聚焦離焦的相對關系。

        表2 為不同模型在FoD500 數(shù)據(jù)集上的對比結果,其中GSTFC 的MSE、RMSE 和Bumpiness 取得了最優(yōu)。相較于最先進的AiFDepthNet,GSTFC 在FoD500 數(shù)據(jù)集上的RMSE 下降了12.5%。GSTFC 從全局時空視角對多景深圖像序列進行聚焦提取,相較于之前的模型聚焦測量更加精準并且預測深度區(qū)域更平滑;但由于GSTFC 擴大了場景預分層數(shù)并保留離焦區(qū)域的深度信息,導致相對誤差較大

        表2 不同模型在FoD500數(shù)據(jù)集上的對比結果Tab.2 Comparison results of different models on FoD500 dataset

        表3 為不同模型在傳統(tǒng)驗證數(shù)據(jù)集的客觀對比結果,可以看出:相較于傳統(tǒng)模型算法,GSTFC 模型對多景深圖像序列的聚焦測量在客觀指標對比中具有良好的表現(xiàn)。圖3 則展示了不同模型的三維重建結果可視化對比。

        表3 不同模型在傳統(tǒng)數(shù)據(jù)集上的對比結果Tab.3 Comparison results of different models on traditional datasets

        圖3 不同模型的重建結果可視化對比Fig.3 Visualized comparison of reconstruction results of different models

        Base-Line 數(shù)據(jù)集以富紋理場景為背景并使用常見的深度形狀模擬生成,能考驗各模型對聚焦區(qū)域的精準判斷。GSTFC 相較于對比模型在4 個評價指標中均有優(yōu)異表現(xiàn);SF的深度邊緣信息存在噪點;TENV 和DLAP 緩解了SF 的邊緣噪聲問題但聚焦測量仍存在不足;FDC 根據(jù)場景中的高低信息判斷聚焦離焦,無法區(qū)分場景自身的高頻和聚焦高頻,在后續(xù)實驗中同樣表現(xiàn)較差。GC 主要根據(jù)場景信息輔助深度判斷,對雜亂無章的背景無法鑒別導致它的表現(xiàn)結果差;RDF 和RFVR-SFF 在聚焦區(qū)域測量的表現(xiàn)相對表現(xiàn)良好。

        4D Light Field 數(shù)據(jù)集進一步驗證各模型對精細的場景結構的判斷能力。GSTFC 的抗噪性優(yōu)于RFVR-SFF,但在邊緣保持方面稍有不足;SF、TENV 和DLAP 預測的深度圖存在部分噪點;GC 可以表達精細的場景結構信息,但對多層深度嵌套表達不佳;RDF 對于聚焦測量不及RFVR-SFF。GSTFC模型對于場景的結構表達優(yōu)于其他傳統(tǒng)方法。

        POV-Ray 數(shù)據(jù)集關注場景中的物體遮擋。在該數(shù)據(jù)集中,GSTFC 相較于其他傳統(tǒng)模型在部分區(qū)域表現(xiàn)良好;SF、TENV 和DLAP 在預測過程中無法區(qū)分場景的細節(jié)紋理;GC可以分辨場景中的細節(jié)信息但深度值不夠精確;RFVR-SFF和RDF 對于前后背景的遮擋表現(xiàn)不佳。GSTFC 模型在整體結構表達上表現(xiàn)良好,但在細微結構的深度預測稍有不足。

        SLFD and DLFD 數(shù)據(jù)集關注各模型對弱紋理背景的處理,GSTFC 模型引入多景深圖像序列的全局時空特征,有助于提取場景中弱紋理區(qū)域之間的對比關系,同時降低了噪聲對結果的影響。GSTFC 模型在該數(shù)據(jù)集的弱紋理區(qū)域預測優(yōu)于對比的傳統(tǒng)模型。

        2.7 稀疏性實驗

        由于基于深度學習的三維形貌重建算法依賴數(shù)據(jù)集的可擴展性,本節(jié)中僅展示與傳統(tǒng)模型的對比。為評估采樣頻率對各模型的影響,使用SLFD and DLFD 數(shù)據(jù)集展示不同采樣頻率下各模型的三維形貌重建能力。為保證實驗對比的公平性,僅使用采樣頻率為100 的DFF 數(shù)據(jù)集訓練,在測試過程中僅使用圖像復制操作補齊。多景深三維形貌重建的最佳采樣是針對待測場景的層次結構依次采樣,以保證聚焦度量的唯一性并完整呈現(xiàn)待測場景的三維形貌。當對待測場景進行富采樣時,多余的離焦圖像會攜帶干擾聚焦算子,并影響最終的場景分層數(shù);而稀疏采樣時,不足的聚焦圖像序列難以保證離焦區(qū)域的深度信息。由此可見,多景深三維形貌重建模型在同一場景不同采樣頻率的重建效果不一,并由于各模型的聚焦測量算子和深度修復算法不同,各模型的三維形貌重建效果峰值不一。圖4 為隨機場景下采樣頻率由10 到100 逐次遞增10 時各模型的性能對比,可以看出GSTFC 在多數(shù)采樣頻率下優(yōu)于RDF 和RFVR-SFF。圖5 為采樣頻率r=2,5,…,100 時,各模型的三維重建效果。

        圖4 不同采樣頻率下各模型性能對比Fig.4 Comparison of performance of different models at different sampling frequencies

        圖5 稀疏性對比實驗結果Fig.5 Comparison experimental results of sparsity

        當r=1 時,多景深三維形貌重建退化為單圖像深度估計,無法利用現(xiàn)有的深度線索。當r=2 時,GSTFC 模型不僅可以辨別前景和背景的關系,還可以表達場景的部分過渡信息,而RDF 和RFVR-SFF 僅能觀測到簡單的前后關系,無法理解場景內容;當r=5 時,GSTFC 模型已經(jīng)可以對場景中前后層次有良好的表達,而RDF 和RFVR-SFF 同樣能表達層次關系,但由于無法提取序列關系并未顯示出聚焦和離焦的過渡關系,還存在大量噪點無法處理;當r=10,30,50,100 可以逐漸覆蓋整個場景時,GSTFC 模型有良好的場景細節(jié)刻畫和前景背景分離能力,可以保留更多的景深過渡關系。

        3 結語

        相較于其他深度線索的三維形貌重建方法,基于多景深圖像序列的三維形貌重建方法高效利用圖像攜帶的場景信息和聚焦信息,較高的重建效率和較低的應用成本有利于該方法在更多的場景適用。本文提出全局時空特征耦合(GSTFC)模型注重提取多景深圖像序列之間的聚焦與離焦的過渡信息和場景結構信息。相較于現(xiàn)有的深度學習模型和傳統(tǒng)的三維形貌重建模型具有更加精準的聚焦測量,并在弱紋理場景中表現(xiàn)良好。未來研究主要聚焦于以下兩方面:1)如何將場景結構信息注入神經(jīng)網(wǎng)絡中,使網(wǎng)絡模型可以自適應多場景應用。2)如何對多景深圖像序列提前作預處理操作,在保留關鍵信息的同時降低網(wǎng)絡輸入量,進一步降低成本量并提升網(wǎng)絡效率。

        猜你喜歡
        景深形貌卷積
        一種結合物理模型和景深估算的圖像去霧算法
        基于3D-Winograd的快速卷積算法設計及FPGA實現(xiàn)
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        基于傅里葉域卷積表示的目標跟蹤算法
        草酸鈷制備中的形貌繼承性初探
        集成成像同名像點三維形貌獲取方法
        中國光學(2015年1期)2015-06-06 18:30:20
        一種基于卷積神經(jīng)網(wǎng)絡的性別識別方法
        電視技術(2014年19期)2014-03-11 15:38:20
        SAPO-56分子篩的形貌和粒徑控制
        不同形貌SBA-15的控制合成及應用
        簡明FOTO詞典:景深
        无码av永久免费大全| 精品国模一区二区三区 | 操国产丝袜露脸在线播放| 久久久一本精品久久久一本| 性一交一乱一乱一视频亚洲熟妇| 久久精品国产一区二区涩涩| 亚洲色图视频在线播放| 亚洲黄片高清在线观看| 麻豆精品国产免费av影片| 青青草在线免费观看视频| 蜜桃夜夜爽天天爽三区麻豆av| av在线不卡一区二区| 日韩av天堂一区二区| 婷婷久久精品国产色蜜蜜麻豆| 精品国产中文字幕久久久| 痴汉电车中文字幕在线| 日本饥渴人妻欲求不满| 日本高清在线一区二区三区| 免费国产在线精品一区| 色综合久久久久综合99| 国产亚洲精品美女久久久| 亚洲精品www久久久| 久久人人爽人人爽人人片av东京热 | 精品日本免费观看一区二区三区| 亚洲av推荐网站在线观看| 毛片成人18毛片免费看| 日本不卡的一区二区三区中文字幕| 精品国产yw在线观看| 蜜桃91精品一区二区三区| 特黄大片又粗又大又暴| 日本老熟欧美老熟妇| 亚洲男女免费视频| 日本不卡一区二区高清中文| 日韩中文字幕无码av| 亚洲处破女av一区二区| 亚洲中文字幕综合网站| 国产一区二区黄色录像| 国产精品第一国产精品| 妓院一钑片免看黄大片| 人妻在线中文字幕| 国产在线视频网站不卡|