亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種弱紋理目標立體匹配網絡

        2024-05-17 11:56:48姜永利丁志偉劉永強
        計算機測量與控制 2024年4期
        關鍵詞:深度特征信息

        劉 澤,姜永利,丁志偉,劉永強

        (國能寶日希勒能源有限公司,內蒙古 呼倫貝爾 021500)

        0 引言

        深度估計[1]是計算機視覺領域的一項重要任務,常應用于自動駕駛、增強現實、機器人導航、虛擬現實、三維重建等高級應用中。其本質在于提取圖像特征,并通過這些特征來識別目標、匹配對應點、進行像素級的深度估計,通過分析圖像或場景中各像素點間的距離或深度信息,實現三維場景的理解和建模。特征提取[2]在深度估計任務中至關重要,傳統的計算機視覺方法常使用手工設計特征,如方向梯度直方圖(HOG)、尺度不變特征變換(SIFT)和速度不變特征變換(SURF)。這些特征常基于局部紋理和邊緣信息,適用于一些傳統的深度估計算法。隨著深度學習的發(fā)展,卷積神經網絡在深度估計中得到廣泛應用,這類網絡能夠學習到目標更多特征表示和匹配規(guī)則,提高立體匹配的性能。

        戴仁月[3]提出一種融合卷積神經網絡(CNN,convolutional neural network)與傳統即時定位與地圖構建算法的深度估計方法,從非結構化視頻序列中估計深度,使用當前幀或相鄰幀來估計深度,但并未利用全局和幾何信息來優(yōu)化深度圖。溫靜[4]提出一種基于CNN特征提取和加權深度遷移的單目圖像深度估計方法,先提取CNN特征,并計算輸入圖像在數據集中的近鄰圖像,再獲得各候選近鄰圖像和輸入圖像間的像素級稠密空間形變函數,將形變函數遷移至候選深度圖像集,通過引入基于SIFT的遷移權重SSW,對加權遷移后的候選深度圖進行優(yōu)化,以此獲得最終的深度信息。李格[5]提出CNN模型與CRFasRNN相結合的網絡結構,該過程先以場景RGB圖的超像素塊為單元提取局部二進制LBP特征、顏色差異特征、顏色直方圖分布差異特征,再歸一化3種特征下的特征圖,并以此對輸出的深度圖進行線性濾波,隨后將此濾波結果作為聯合濾波器的CNN網絡輸入,進一步提高深度估計精度。

        卷積神經網絡通過一系列卷積層和池化層學習圖像特征,其中卷積層使用不同尺寸卷積核捕獲不同感受野信息,有效提取圖像中的局部特征,以此獲得目標表面結構的重要信息。盡管CNN的局部特征提取能力強,但存在以下問題:

        1)傳統CNN模型缺乏長距離依賴建模能力,難以捕獲圖像中物體間的全局關系和上下文信息。在深度估計任務中,特別在處理高分辨率圖像時,全局信息對準確的深度估計至關重要;

        2)由于CNN關注的是局部區(qū)域特征,常無法更好地捕獲全局信息,可能導致信息的捕獲能力下降。

        近年來,基于注意力機制的模型在自然語言處理領域獲得廣泛應用。Transformer[6-7]的自注意力機制可以突破感受野的限制,使其能夠在整個圖像上建立關聯,實現全局信息捕獲,具備較高的泛化性 ,對圖像分類、目標檢測和分割等任務至關重要。 ViT(Vision Transformer)將圖像數據轉換為序列數據,使用Transformer架構來處理序列數據,包括圖像塊的向量化表示、位置編碼、Transformer編碼器結構,以及用于圖像分類的分類結構。該架構使得ViT能夠有效利用多頭自注意力機制建模像素間的關聯,處理不同尺寸的圖像,更好地理解圖像中的全局關系,在大規(guī)模圖像分類任務中表現出色。由于采用了相對模塊化結構,使其容易擴展和修改,適用于不同的任務和應用。Swin Transformer[8]通過自注意力機制捕獲輸入序列中不同元素間的依賴,采用深度分層結構,將輸入圖像分為不同分辨率圖像塊,在每個分辨率上應用Transformer編碼器,有助于模型同時處理全局和局部信息,提高對不同尺度下的特征建模能力。Swin Transformer引入“Shifted Window”機制,使滑動窗口的方式,允許模型在不同空間尺度下進行全局信息交互 ,同時關注全局和局部信息,有效地捕獲了不同位置間的關系,從而進一步增強了模型的特征提取能力。Swin Transformer可用于各種計算機視覺任務,包括圖像分類、對象檢測、語義分割和實例分割,多尺度特性使其適用于不同場景和任務。由此可見,視覺 Transformer 的多頭注意力機制具有長距離依賴和自適應空間聚合能力,可以從海量數據中學到比CNN 網絡更加強大和魯棒的表征。

        在自動駕駛、增強現實、機器人導航等領域,經常需要在復雜和多樣化場景中使用立體匹配技術。這類場景中,常存在弱紋理區(qū)域,因此解決弱紋理區(qū)域的立體匹配問題對于實際應用至關重要。在傳統的立體匹配方法中,弱紋理區(qū)域無法獲得真實有效的視差,非重疊塊的嵌入表達可能導致弱紋理區(qū)域匹配歧義。為此,本文提出一種純粹基于Transformer架構的弱紋理目標立體匹配網絡。通過引入重疊式塊嵌入策略,提升弱紋理區(qū)域的匹配性能,使相鄰塊間的信息有所重疊,從而增加在弱紋理區(qū)域表達的一致性,減少歧義并提高深度估計性能,通過借助特征重構窗口策略[9]增強特征的表達能力,以此提高模型在弱紋理區(qū)域的立體匹配性能。

        1 立體匹配

        如圖1所示,雙目相機是由左右兩個針孔相機水平拼接而成,當兩個針孔相機的光圈中心都在一條線且法向量平行時,光圈中心間的距離為雙目相機的基線。

        圖1 雙目相機模型

        利用基線和相機的焦距,存在以下關系:

        (1)

        其中:z為p點在Z軸的投影長度,f為焦距,b為基線距離,UR-UL稱為視差。

        雙目測距的匹配問題常稱之為立體匹配,其主要目標是找到圖像中每個像素間的對應視差,即兩個視角下的像素間的距離。視差值可用來估計目標深度,從而還原出三維場景。從采用不同最優(yōu)化理論方法的角度出發(fā),立體匹配的非學習方法可分為全局立體匹配與局部立體匹配兩類方法。從采用不同圖像表示基元的角度出發(fā)進行分類,可分為區(qū)域立體匹配算法、基于特征的立體匹配算法和基于相位立體匹配算法,常見的立體匹配方法[10-13]包括匹配代價計算、代價聚合、視差計算、視差優(yōu)化4個步驟。

        匹配代價是指圖像中的每個像素與其在另一圖像中匹配點間的相似度,可以通過各種方法計算,如灰度值、特征向量的相似性等。匹配代價圖通常具有噪聲和不確定性,因此需要進行代價聚合,改善深度估計的質量。代價聚合有助于整合匹配代價圖的局部信息,以獲得更平滑和準確的視差圖。視差計算階段的任務是確定每個像素的最佳匹配點,即匹配代價最小的像素位置,對應于左圖像中的像素在右圖像中的匹配點。視差值表示兩個像素間的距離,可用于估計目標的深度,視差優(yōu)化階段旨在進一步改善視差圖的質量,常包括使用優(yōu)化算法,如動態(tài)規(guī)劃、全局優(yōu)化或半全局匹配等,平滑和修復視差圖中的不一致性和噪聲。常見的代價計算方法有SAD(sum of absolute differences)、SSD(sum of squared differences)、AD算法等,其中AD算法是匹配代價計算中最簡單的算法之一,其主要思想是不斷比較左右相機中兩點的灰度值。通過固定左相機中的一個像素點,遍歷右相機中的所有像素點,不斷比較它們之前的灰度之差,灰度差即為匹配代價,其數學公式為:

        CAD(p,q)=|IL(p)-IR(q)|

        (2)

        其中:p和q分別為左右圖像中的兩點,IL( )為左圖像中的灰度值,IR( )為右圖像中的灰度值。上式為灰度圖像間的匹配代價,彩色圖像AD算法的計算代價為:

        (3)

        代價聚合用于處理視差圖中的不確定性和噪聲,從而改善深度估計的質量。代價聚合的目標是將匹配代價圖(Cost Volume)的局部信息進行整合,以獲得更平滑和準確的視差圖。近年來諸多學者開展了基于深度學習的立體匹配方法研究工作,常采用卷積神經網絡構造立體匹配的特征提取器,將特征提取器分解為卷積編碼器與卷積解碼器。盡管基于卷積的特征提取器獲得較好效果,但卷積層的感受野通常是局部的,使得卷積層在處理全局信息或長距離依賴關系時面臨挑戰(zhàn)。基于Transformer的模型可以較好地解決該問題,在解碼器模塊中,所有注意力計算均采用點積形式,其中輸入特征可分為查詢(Q)、鍵(K)和值(V)。查詢Q借助點積運算得到的注意力權重,可從值V中檢索相關信息,計算公式如下:

        (4)

        2 總體架構

        總體架構如圖2所示,通過編碼器和解碼器模塊協同工作實現圖像處理和表示學習。編碼器模塊對輸入特征進行初步處理,增強特征的細粒度,將其傳遞給Transformer塊,以進行全局地表征學習。在解碼器模塊中,輸入特征經轉置卷積層處理獲高分辨率的特征表示,并與編碼器中的同級特征進行融合,詳細過程如下:

        圖2 總體網絡架構

        編碼器模塊通過多層卷積操作增加輸入特征的細粒度,卷積層通過一系列卷積核滑動捕捉輸入圖像的局部特征,逐漸將圖像中的細節(jié)信息傳遞到更高級別的表征,這種方式有助于模型更好地理解圖像的局部結構。將編碼器將處理后的特征輸入到Transformer結構中進行全局表征學習。Transformer借助于模型捕獲不同位置之間的依賴關系,從而可以更好地理解圖像中的全局結構信息。兩個組件間的結合使得編碼器模塊能夠在保留細粒度特征的同時,提高對整體圖像的特征提取能力。

        解碼器模塊用于恢復高分辨率特征表示,并將其與編碼器中的同級特征進行融合,解碼器通過轉置卷積操作來逆轉這種過程。在解碼器中,轉置卷積層有助于對低分辨率特征進行上采樣,從而獲得更高分辨率的特征圖。這些高分辨率特征圖可以幫助模型更好地理解圖像細節(jié),如紋理和邊緣等,將這些高分辨率特征與編碼器中的同級特征進行融合,獲得更為全面的特征表示。

        這種編碼器-解碼器架構的優(yōu)點在于能夠從多層次上捕獲圖像特征,提高模型的特征提取能力,其核心是Block模塊結構,主要由以下幾個部分構成:

        1)局部感知單元(Local Perception Unit),將輸入圖片信息,與 3*3 的卷積操作相加,旨在增加空間信息提取能力。

        2)輕量級多頭注意力機制(Lightweight Multi-head Self-attention),使用深度卷積計算代替 key 和 value 的計算,從而減輕計算開銷。

        3)反向殘差前饋網絡(Inverted Residual Feed-forward Network),類似于反向殘差塊,由擴展層、深度卷積和投影層組成。通過改變跳躍連接的位置,提高網絡性能。深度卷積用于提取局部信息,其計算成本可以忽略不計,跳躍連接與經典的殘差網絡相似,可以提高梯度跨層的傳播能力。

        3 方法

        在Vision Transformer和Pyramid Vision Transformer(PVT)[14-16]中,首先將輸入圖像劃分為不相交的圖像塊,這些圖像塊被視為模型的“詞”或“記號”,類似于自然語言處理中的標記化。每個圖像塊及其位置編碼通過一個線性映射被嵌入到固定維度的向量空間中,以此構成一個序列。將該序列作為輸入送入Transformer編碼器[17]中,用于提取圖像中的特征,建模像素之間的關系。與傳統的VIT和PVT方法不同,本文提出一種重疊式詞嵌入方法,以更好地處理弱紋理區(qū)域和捕獲相鄰區(qū)域的特征信息。采用重疊式詞嵌入方法,圖像塊之間存在重疊,有助于在加強相似像素差異的同時,捕獲更為全面的特征信息。以編碼器的第一階段為例,通過卷積操作將輸入特征圖縮減到較小的尺寸,更好地捕獲局部特征。將這些小塊特征圖轉化為詞嵌入,加入位置編碼輸入到Transformer中,以便在全局范圍內提取圖像特征。

        Transformer能夠處理序列數據中不同位置的依賴關系,從而有效減輕弱紋理區(qū)域缺少特征的問題。全局特征被重新調整為原始大小的特征圖,可以獲得具有更好表示能力的特征圖。如需多尺度的特征圖,可將第一階段的輸出再次輸入到第二階段,重復該過程。這種重疊式詞嵌入方法可有效捕獲每個塊區(qū)域以及周邊鄰域的特征信息,從而更好地突出相似像素間的差異。

        在處理高分辨率的立體圖像對時,使用重疊式詞嵌入方法處理整個特征圖時,其注意力計算開銷較大,龐大的詞嵌入數量可能導致計算資源超出范圍。為了在處理高分辨率圖像時仍能保持計算效率,引入一項特征重構窗口策略,如圖3所示。該策略允許在提取多尺度特征的同時,使注意力計算具有在線性時間復雜度。具體來說,在不考慮整個特征圖的情況下,僅選擇一部分窗口進行注意力計算,從而降低計算復雜度。這種方式在處理高分辨率圖像時能夠節(jié)省大量計算資源,通過選擇適當的窗口大小和位置,可以在不降低建模質量的情況下,提高模型的計算效率??偟膩碚f,給出的基于重疊式詞嵌入和特征重構窗口策略能夠更好地處理弱紋理區(qū)域和高分辨率圖像,同時保持了計算效率,計算公式如下:

        (5)

        圖3 特征重構窗口

        特征重構窗口旨在聚合不同區(qū)域的上下文信息,在減少計算復雜度的同時提高網絡獲取全局信息的能力。這一策略融合了空間信息的提取、Transformer模型的全局特征學習以及注意力計算的高效性。為確保鄰域信息的連續(xù)性,將原始高分辨率圖像劃分為多個重疊塊,每個圖像塊映射為相應數量的詞嵌入,引入位置編碼來保留圖像塊的空間位置信息。由于圖像塊被映射為詞嵌入,丟失了原始圖像塊的空間位置信息。為解決該問題,特征重構窗口引入位置編碼,將坐標信息嵌入到詞嵌入中,以此保留圖像塊的空間位置。位置編碼使模型能夠理解每個塊的相對位置,以便更好地捕獲全局特征信息。在獲得詞嵌入后,特征重構窗口進行多尺度的空間聚合,這有助于減小鍵和值矩陣的尺寸,從而降低注意力計算的復雜度。多尺度的聚合使模型能夠在不同尺度上捕獲特征,從細節(jié)到全局信息都能得到充分考慮,有助于提高網絡性能。

        經過空間聚合后,通過池化操作將特征合并,并采用卷積操作進行特征重組,該過程有助于將特征信息更好地組織,用于后續(xù)的注意力計算。合并池化后的特征,通過卷積操作進行重組,最終轉化為可用于注意力計算的詞嵌入,將這些詞嵌入送入Transformer模型,通過多頭自注意力[18-19]獲取全局信息和長距離依賴,與卷積隨著網絡加深擴大感受野,在每個階段均可以提取到全局特征,能盡可能地減少丟失語義信息的情況,為解碼器提供更為豐富的全局信息,以此生成高準確度深度圖。

        以上所述的特征重構窗口[20-21]策略關鍵點在于充分利用圖像的空間信息,將圖像分塊處理,并引入Transformer進行全局特征學習。該策略的優(yōu)勢在于處理高分辨率圖像時,仍能保持注意力計算的線性時間復雜度,與傳統方法和一些基于詞嵌入的方法相比,特征重構窗口為高效深度估計提供了一種新途徑,不僅如此,該方法還可在多尺度條件下提供更為全面的特征信息,從而改善深度估計的性能。

        4 實驗與分析

        4.1 實驗設置

        實驗采用Pytorch機器學習庫,顯卡選用NVIDIA GTX 3090。為驗證所提方法的有效性和不同場景的泛化性,在兩個常用的公開數據集Scene Flow和KITTI上展開實驗。KTTTI數據集是一個廣泛用于計算機視覺和自動駕駛研究的數據集,提供了多種類型的傳感器數據,包括圖像、激光雷達、GPS和IMU,以及豐富的標注信息。該數據集用于目標檢測、立體視覺、SLAM和自動駕駛等領域的研究和開發(fā)。主要場景有公路,鄉(xiāng)村和市區(qū)等,為保證實驗結果的可比較性,按Eigen等人的方法劃分數據集,來自32個場景的23 158張圖像作為訓練集,652張來自29個不同場景的圖像作為測試集,訓練時隨機裁剪輸入圖像為352像素×704像素,測試時按Garg等人提出的方法做中心裁剪。Scene Flow為合成的數據集,包含了豐富的圖像數據,每個場景都包括3個連續(xù)幀的圖像序列。這些圖像序列提供了不同視角下的真實世界場景,用于深度學習模型的訓練和評估。此外,數據集還包括了與圖像對應的視差地圖、光流場、相機參數等附加信息。

        采用3種標準評估深度估計的Transformer架構的性能:

        EPE(End-Point-Error),表示預測值和真實值在視差空間的絕對距離,其中為pred預測值,true為真實值,計算公式如下:

        EPE=|pred-true|

        (6)

        3像素錯誤(3PE),表示視差錯誤大于3像素的百分比,其中Tr表示視差錯誤大于3像素的數量,L表示視差錯誤像素的數量,計算公式如下:

        (7)

        遮擋交并比(OIOU),用于評估遮擋區(qū)域的預測結果,計算公式如下:

        (8)

        4.2 實驗過程及方法

        2)基于Softmax操作的加法不變性,通過設置系數c將注意力分數約束在16位精度范圍內。

        4.3 Scene Flow數據集實驗結果

        合成數據集Scene Flow的實驗結果如表1所示,給出了在Scene Flow數據集的實驗對比結果。在訓練和評估階段,將最大視差值分別設為192和480。由表1可見,本文方法在Scene Flow數據集上的指標獲得顯著提升。由于注意力計算不受像素間的距離約束,本文方法在D=480時依然能夠保持D=192的性能,且優(yōu)于其它方法。在表1中,Oom表示在相同的實驗條件下,對應模型無法處理Scene Flow數據集中高分辨率和大視差范圍的圖像。

        表1 在Scene Flow數據集的對比實驗

        4.4 KITTI數據集實驗結果

        室外數據集KITTI的實驗結果如表2所示,對KITTI 2015數據集中的200組立體像對進行微調訓練,與傳統方法相比,本文方法在KITTI2015上各指標均得到提升。表2中,在前景區(qū)域上的平均異常值百分比D1-fg指標提升4%,在背景區(qū)域上的平均異常值百分比D1-bg指標和整體圖像的平均異常值百分比D1-all指標也都有顯著的提升。

        表2 KITTI數據集的對比實驗

        4.5 弱紋理區(qū)域結果分析

        目前,大多數公開數據集很少提供對圖像中弱紋理程度的定義,本文采用一種基于圖像像素聚類的方法來衡量圖像的紋理強弱。將每個像素視為一個樣本,使用其RGB值作為特征維度,利用K鄰近聚類算法對圖像進行聚類,以確定不同像素類別的數量,這個數量可以用來量化圖像的紋理強弱程度。在Scene Flow測試數據集中,得到了不同類別數目,分別在區(qū)間[839,1 500],[1 500,10 000]和[10 000,15 127]內。這3個區(qū)間分別代表了“困難”“中等”和“簡單”樣本。表3中,進一步通過使用EPE指標進行實驗對比,所有方法在“困難”樣本上的準確率明顯低于“中等”和“簡單”樣本,這說明弱紋理區(qū)域對立體匹配的準確性產生了明顯影響。此外,本文方法在3種不同樣本區(qū)間上都獲得了較好的結果,而在“困難”樣本上的提升尤為顯著,表明本文方法對于處理弱紋理區(qū)域具有出色的性能,這一優(yōu)勢得益于Transformer架構的全局表征學習能力。

        表3 弱紋理區(qū)域對比實驗

        由圖4可見,隨著解碼器的逐步深入,弱紋理區(qū)域和細粒度區(qū)域的特征能力得到了明顯提升,有助于更好地處理這些具有挑戰(zhàn)性的弱紋理區(qū)域。

        圖4 實驗結果對比

        5 結束語

        本文提出一種弱紋理目標立體匹配網絡,給出一種新的特征提取方法,利用Transformer架構,將編碼器和解碼器結構應用于特征提取器,結合卷積和Transformer的優(yōu)勢,利用重疊式詞嵌入策略更好地捕獲圖像中的局部紋理和上下文信息,特別對弱紋理和遮擋區(qū)域的深度估計提供顯著改進。通過引入特征重構窗口來有效傳遞信息,減少計算復雜度,并在多個數據集上得到了更準確的深度估計結果。

        猜你喜歡
        深度特征信息
        深度理解一元一次方程
        如何表達“特征”
        不忠誠的四個特征
        當代陜西(2019年10期)2019-06-03 10:12:04
        深度觀察
        深度觀察
        深度觀察
        抓住特征巧觀察
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        展會信息
        中外會展(2014年4期)2014-11-27 07:46:46
        線性代數的應用特征
        河南科技(2014年23期)2014-02-27 14:19:15
        久久国产女同一区二区| 国产护士一区二区三区| 亚洲免费女女在线视频网站| 一本色道久在线综合色| 国产综合精品一区二区三区| 亚洲妇女无套内射精| 久久久久人妻一区精品色欧美 | 亚洲综合视频一区二区| 人妖一区二区三区四区| 久久久久夜夜夜精品国产| 国产一区国产二区亚洲精品| 亚洲国产精品久久艾草| 深夜爽爽动态图无遮无挡| 成人一区二区三区国产| 成人免费自拍视频在线观看 | 久久久国产精品五月天伊人| 成av人片一区二区久久| 久久国产劲爆∧v内射| 国产一区二区精品亚洲| 粉嫩av国产一区二区三区| 亚洲国产成人精品无码一区二区| 色狠狠一区二区三区香蕉| 狠狠久久精品中文字幕无码| 久久精品国产精品亚洲艾| 亚洲综合色一区二区三区另类| 亚洲不卡av不卡一区二区| 国产精品久久无码不卡黑寡妇| 国产亚洲女人久久久久久| 国产av专区一区二区三区| 亚洲Av午夜精品a区| 亚洲一区二区免费日韩| 一区二区三区亚洲免费| 国产精品一区二区三区自拍| 国产美腿丝袜一区二区| 免费无码专区毛片高潮喷水| 国语对白做受xxxxx在线| 欧美精品免费观看二区| 区二区欧美性插b在线视频网站| 综合激情网站| 无码av免费精品一区二区三区| 国产精品久久夜伦鲁鲁|