亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合點柱網(wǎng)絡和DETR的三維復雜道路目標檢測

        2023-12-12 04:25:26李偉文繆小冬顧曹雨左朝杰
        重慶理工大學學報(自然科學) 2023年11期
        關鍵詞:支柱注意力編碼

        李偉文,繆小冬,顧曹雨,左朝杰

        (南京工業(yè)大學 機械與動力工程學院, 南京 211816)

        0 引言

        智能駕駛在改善出行與減少交通事故中具有重要的作用,近年來得到了廣泛的關注。目標檢測作為智能汽車環(huán)境感知中的一項基礎工作,對保障車輛行駛安全具有重要意義[1]。

        目前智能汽車搭載的環(huán)境感知傳感器主要包括毫米波雷達、相機與激光雷達。毫米波雷達可以精準探測障礙物與車輛的距離,但是檢測范圍較小,常用作倒車雷達;相機可以獲取豐富的圖像紋理信息,并且基于圖像的二維目標檢測技術已經(jīng)取得了非常好的效果,但是相機難以獲取深度信息[2],因此純視覺算法在三維檢測中表現(xiàn)不佳;激光雷達作為一種高效的感知深度信息的傳感器,隨著硬件技術的提升,激光雷達的成本不斷降低,因此利用激光雷達進行三維檢測的方法得到了越來越多的關注。

        近年來,三維目標檢測發(fā)展迅速,國內(nèi)外專家提出了許多有效地檢測方法。由于三維點云分布復雜,研究者最先是通過將點云轉(zhuǎn)化為非點云的方式去進行處理,對位置信息的利用率較低,并且計算量很大,劉永剛等[3]提出的PointNet網(wǎng)絡利用了點云的置換不變性,直接對點云數(shù)據(jù)進行升維拓展,再利用對稱函數(shù)池化,保留了關鍵位置信息,實現(xiàn)了直接利用點云提取位置特征,但是該方法難以完成在室外復雜環(huán)境中的檢測任務。

        在處理室外場景時,點云的數(shù)據(jù)量過于龐大,對每個點進行特征提取難以實現(xiàn),為了更有效地進行檢測任務,需要濾除大部分冗余點云,通常的做法是將點云空間劃分成若干體素,對非空體素取關鍵點進行特征提取。Xie等[4]提出的VoxelNet網(wǎng)絡為典型的基于體素形式的檢測方法,其對非空體素中的點云利用PointNet網(wǎng)絡進行特征提取,然后通過三維卷積神經(jīng)網(wǎng)絡提取全局特征后使用區(qū)域提案網(wǎng)絡(region proposal network,RPN)對物體進行分類檢測和定位[5]。

        為了提升檢測算法的速度,Stanisz 等[6]提出了PointPillar方法,通過強化車輛檢測水平方向的特征,弱化豎直方向的特征來提取點云特征,并基于鳥瞰圖(bird’s eye view,BEV)對空間進行劃分,形成空間支柱,再對非空支柱中的點進行特征提取生成偽圖像,使用二維卷積神經(jīng)網(wǎng)絡提取全局特征,保證精度的同時大幅提升了檢測速度。不同于上述文獻中的改變體素劃分的方法,Yan等[7]提出了一種Second方法,利用稀疏卷積來降低三維卷積中的冗余計算,也能有效提升檢測速度。

        將點云空間劃分為體素塊或支柱都能有效減少噪聲點云的冗余計算,是智能車輛道路三維目標檢測中最常用的兩類主要方法,其中基于體素塊的劃分更細膩,特征分辨率更高,但是在特征提取過程中花費的時間更多,計算量更大,而基于支柱的劃分雖然在檢測精度方面有所降低,但在檢測速度上有極大提升。

        由于智能車輛目標檢測對計算速度的要求非常高,使用點柱網(wǎng)絡的特征提取方式可以有效提升計算速度,但傳統(tǒng)的點柱網(wǎng)絡的檢測頭部分使用了三維RPN結構,需要人工設置錨框與非極大值抑制閾值等參數(shù),這些參數(shù)依賴人工先驗知識,與實際特征匹配性較差,會使運算結果出現(xiàn)偏差。為了減少手工預設參數(shù),Facebook團隊提出的Detection Transformer(DETR)[8]方法簡化了檢測模型,利用卷積神經(jīng)網(wǎng)絡(convolutional neural network,CNN)與Transformer[9]相結合,采用COCO數(shù)據(jù)集進行測試,測試得出的平均檢測精度(average precision,AP)高于經(jīng)過優(yōu)化的RPN算法。

        基于該方法在二維檢測中的優(yōu)異表現(xiàn),本文將其引用至三維檢測中,但在三維空間中直接對一幀數(shù)百萬的點云進行編碼難以滿足實際工程需要的效率,因此提出了一種融合支柱編碼與DETR解碼頭相結合的方法,提升了支柱網(wǎng)絡的檢測精度。

        1 相關算法

        1.1 支柱編碼

        點云數(shù)據(jù)的處理存在數(shù)據(jù)量大,冗余噪點多等問題,支柱編碼是基于點云的三維檢測中典型的特征提取主干網(wǎng)絡,能夠有效減少檢測算法的計算量,并且保留點云的關鍵位置特征,其主要由支柱劃分、點云采樣、支柱編碼和生成偽圖像4個部分組成,將三維點云轉(zhuǎn)為二維偽圖像流程,如圖1所示。

        圖1 點柱網(wǎng)絡將三維點云轉(zhuǎn)為二維偽圖像流程

        1.1.1點柱劃分

        首先將一個樣本的點云劃分成[X,Y,Z]的空間,再將點云空間切割成尺寸為[x,y,Z]的支柱空間,得到X/x×Y/y×1個支柱,能夠被采集特征的點被包含在各個支柱中,沒有點的支柱視為空支柱。由于點云具有稀疏性,支柱劃分可以有效減少計算量。

        1.1.2點云采樣

        設點云空間中的非空支柱數(shù)量為P,同時限制每個非空支柱中的點數(shù)為N,如果一個支柱中點的數(shù)量不及N,則用0補全。

        1.1.3點云編碼

        對支柱中的每個點進行編碼,其中每個點的信息包括點的坐標、反射強度和時間戳,在進行完采樣以后,又能得到支柱中點的坐標均值與采樣點到支柱中心的距離,拓展了點的信息,將每個點的信息長度記為D。這樣一個點云空間樣本就可以用一個(P,N,D)的張量來表示。

        1.1.4生成支柱偽圖像

        得到空間樣本張量后,需要對其進行處理提取特征,通過使用PointNet中的點集抽象(set abstraction,SA)模塊來處理每個非空支柱。先對每個支柱中的點使用多層感知機(multilayer perceptron,MLP)來使得每個點的維度從D變成C,這樣張量變成了(P,N,C),然后對每個支柱中的點使用最大池化(max pooling),得到每個支柱的特征向量,也使得張量中的N的維度消失,得到了(P,C)維度的特征圖,根據(jù)支柱的位置將P個支柱的特征映射到尺寸為(W,H)的特征圖上,生成(C,W,H)的支柱偽圖像。

        1.2 DETR解碼器

        在獲取點云特征以后,需要將特征傳入檢測頭進行檢測。在傳統(tǒng)的二維檢測中,檢測頭部分利用RPN進行大量的回歸計算來進行預測,為了簡化檢測通道,DETR算法將應用于自然語言處理領域的Transformer模型用于目標檢測,在進行機器翻譯時,利用了注意力機制,令處理結果在輸入文本中找到相關性最強的部分,使最終的處理結果更為精確。DETR遵循Transformer的結構,利用注意力機制建立了預測集合與圖像之間的聯(lián)系,并對其解碼器進行改進,使模型可以在每個解碼層并行計算出結果。該解碼器結構包含多頭注意力機制(multi-head attention)、前饋神經(jīng)網(wǎng)絡(feedforward neural network,FNN)和殘差連接等模塊,結構如圖2所示。

        圖2 DETR解碼頭結構

        1.2.1位置編碼

        位置編碼(position encoding)將圖像的位置信息編碼為向量,使目標查詢向量可以在注意力機制的幫助下,找到需要關注的位置[10]。常用的位置編碼公式為:

        PE(pos,2i)=sin(pos/10 0002i/dm)

        (1)

        PE(pos,2i+1)=cos(pos/10 0002i/dm)

        (2)

        式中:PE為二維矩陣,尺寸與經(jīng)過卷積的特征圖(H×W)一致,dm表示向量的通道數(shù),通常與下采樣后的特征圖通道數(shù)C保持一致。上述公式表示在向量的偶數(shù)通道添加正弦向量,在奇數(shù)通道添加余弦向量,然后將該矩陣與預測特征圖相加即可完成位置編碼的引入。

        1.2.2多頭注意力機制

        注意力機制可以通過查詢向量(query)、鍵向量(key)和值向量(value),在經(jīng)過卷積提取的特征中找到需要關注的部分,通過計算query和各個key的內(nèi)積得出對應的相似性,利用softmax函數(shù)得到對應value的權重系數(shù),利用這個權重系數(shù)乘上value向量,得到最終的注意力向量,數(shù)學表達式如下所示,查詢向量、鍵向量、值向量以及向量維度分別用Q、K、V、dk表示。

        (3)

        由于query和key的值很大,進行softmax時反向傳播使梯度很小,需要除以根號dk保持方差穩(wěn)定,避免梯度消失。

        多頭注意力機制[11]可以將模型的注意力映射到不同的維度上,在每一個維度均生成對應的查詢向量、鍵向量以及值向量并且計算各自注意力值。并行計算完成以后,模型將各子層的輸出拼接在一起得到最終的注意力值,計算公式為

        MultiHead(Q,K,V)=Concat(head1,…h(huán)eadm)W

        (4)

        (5)

        式中:headm表示m個注意力頭,W為線性投影矩陣。多頭注意力機制可以讓模型學習到更加全面和豐富的特征表示,從而增強模型的魯棒性,提高了模型的泛化能力,使其能夠更好地適應不同的任務和場景。

        2 網(wǎng)絡結構

        根據(jù)上述理論,對點柱網(wǎng)絡的編碼部分與DETR的解碼部分進行了結合,改進的點柱網(wǎng)絡結構如圖3所示。

        圖3 改進的點柱網(wǎng)絡結構

        首先利用支柱編碼生成偽圖像提取點云特征。為了更好地從偽圖像中捕捉復雜特征,需要對生成的點云偽圖像使用ResNet50[12]進行進一步特征提取,利用二維卷積生成特征金字塔,獲得多尺度的信息。在訓練中使用ResNet的殘差塊結構,可以更好地傳遞梯度,避免梯度消失或爆炸的問題,提高了模型的訓練效率。本文中使用的位置編碼是一種可學習的絕對位置編碼,利用位置編碼不僅減少了算法的復雜性[13],還能提高目標檢測的精度。最后利用多頭自注意力機制與多頭注意力機制,使每一個初始目標查詢從點云中提取的特征向量中,找到相關性最高的特征,并且通過位置編碼實現(xiàn)定位,最后在該位置通過前饋神經(jīng)網(wǎng)絡,輸出類與三維盒框完成預測。

        2.1 模型參數(shù)設置

        在編碼器部分,根據(jù)nuScenes數(shù)據(jù)集中點數(shù)的分布,以[-5,3]×[-54,54]×[-54,54](單位:m)沿Z×X×Y軸對點云空間進行裁剪。設定的支柱尺寸為0.2 m×0.2 m×8 m,將每個空體素中的最大點數(shù)設置為20,訓練體素個數(shù)最多為 30 000。在解碼器部分,設置200個初始化目標查詢。

        2.2 損失函數(shù)

        (6)

        (7)

        匹配完所有的預測框與真實框后,需要計算所有配對的匈牙利損失。與常規(guī)目標檢測算法損失的定義類似,匈牙利損失為分類損失、回歸損失與IoU損失的線性組合,公式為

        (8)

        其中用Focalloss[18]計算分類損失,用L1損失計算回歸損失,用廣義的IoU損失[19]計算IoU損失。λ1、λ2、λ3是單個損失項的系數(shù)。

        3 實驗

        3.1 數(shù)據(jù)集

        目前用于輔助駕駛研究的主流公開數(shù)據(jù)集有Kitti數(shù)據(jù)集[15]、Waymo數(shù)據(jù)集[16]和nuScenes[17]數(shù)據(jù)集等。其中,nuScenes數(shù)據(jù)集由Motional團隊采集,包含了140萬個圖像、39萬個激光雷達點云、140萬個雷達掃描和4萬個關鍵幀中的140萬個對象邊界框,相對于其他2種數(shù)據(jù)集,搭載的傳感器更先進,數(shù)據(jù)規(guī)模最大,采集的場景最豐富,同時還提供了高精度的標注。nuScenes數(shù)據(jù)集一方面可以充分發(fā)揮Transformer結構的優(yōu)勢,另一方面能使訓練出的模型更適應實際復雜道路場景。

        3.2 實驗環(huán)境

        本實驗在pytorch架構下實現(xiàn),操作系統(tǒng)為Windows10,中央處理器為Intel Core i9-12900K,內(nèi)存為64 GB,GPU為NVIDIA GeForce RTX A4000 16 G,python版本為3.7。該模型采用隨機梯度下降法進行訓練,學習率為 0.000 05,指數(shù)衰減因子為0.8,根據(jù)訓練模型進行了驗證實驗,包括3D檢測可視化結果和評價指標結果。

        3.3 評價指標與結果對比

        3.3.1對比原點柱網(wǎng)絡

        使用檢測任務中常用的平均精度均值(mAP)來作為評定模型性能的指標,不過在nuScenes數(shù)據(jù)集中AP指標是通過對地面上的2D中心距離d來取閾值而非IoU,這樣做不僅降低了物體尺寸和方向?qū)P計算的影響,還可以檢測較小的平移誤差,其次刪除召回率或準確率在10%以下的操作點,減少低精度與誤檢區(qū)域的噪聲影響。最終對D={0.5,1,2,4}m的匹配閾值和類別集合C進行平均運算。計算公式為

        (9)

        nuScenes還提出了一個綜合指標,即nuScenes檢測分數(shù)(NDS),該指標使用正樣本(TP)指標計算得出。由平均精度均值(mAP)、平均平移誤差(ATE)、平均尺度誤差(ASE)、平均方向誤差(AOE)、平均速度誤差(AVE)和平均屬性誤差(AAE)組成,計算公式為

        (10)

        (11)

        式中:ATE是二維歐幾里德中心距離;ASE是1-IoU3d,IoU3d是三維交并比;AOE是預測值和真實值之間最小的偏航角差;AVE是二維速度差的L2范數(shù)(m/s);AAE是1-acc,acc為分類準確度。表1為點柱網(wǎng)絡改進前后在不使用任何數(shù)據(jù)增強手段的誤差均值與NDS值。

        表1 點柱網(wǎng)絡改進前后誤差均值

        由表1中數(shù)據(jù)縱向?qū)Ρ瓤梢缘贸?經(jīng)過融合DETR解碼器的點柱算法,所有的誤差均值指標皆小于原模型,并且NDS打分提升了19.02分,即在nuScenes數(shù)據(jù)集上的表現(xiàn)遠遠優(yōu)于原算法。為了進一步對實驗結果進行分析,繪制了誤差均值對比直方圖,如圖4。

        圖4 誤差均值對比直方圖

        從直方圖中可以看出,改進后的網(wǎng)絡大幅度提升了預測框的偏航角準確度,效果如圖5所示,并且預測框與真實框的重合度也更高,分類準確度也有不小的提升,驗證了本文在檢測頭中使用注意力機制的效果,優(yōu)于通過大量回歸計算擬合的方法。

        圖5 車輛檢測效果

        3.3.2對比典型三維檢測方法

        點柱算法作為一種經(jīng)典的檢測方法,近幾年有許多學者對其進行了優(yōu)化,如調(diào)整點柱劃分參數(shù)、調(diào)整訓練超參數(shù)、改進特征提取網(wǎng)絡、使用數(shù)據(jù)增強,以及本文的使用優(yōu)化檢測頭的方法。為了驗證本文改進方法的有效性,將本文提出的算法與典型的三維檢測算法PointPillars、PointPainting[20]、CenterPoint[21]進行對比。為了針對改進部分進行測試,在對比實驗中采取相同的點柱劃分參數(shù)與特征提取骨干網(wǎng)絡,將各個模型在數(shù)據(jù)集中對小汽車(Car)、卡車(Truck)、施工車輛(C.V.)、公交車(Bus)、拖車(Trailer)、路障(Barrier)、摩托車(Motor)、自行車(Bike)、行人(Ped.)、交通錐(T.C.)的平均精度、NDS打分、mAP值與FPS值進行對比,指標數(shù)值如表2所示,最優(yōu)數(shù)值經(jīng)加粗處理。

        表2 改進的點柱網(wǎng)絡與其他網(wǎng)絡指標

        續(xù)表(表2)

        根據(jù)表2中數(shù)據(jù)可以看到不同算法對道路上常見的小汽車、卡車、公交車的檢測結果。首先對道路上常見的小汽車、卡車、公交車的檢測精度進行對比,本文方法的檢測精度具有明顯優(yōu)勢;對于道路上不常見的拖車、路障、交通錐、施工車輛等,檢測精度還有較大提升空間;對于復雜的道路情況,如存在行人、自行車、摩托車時,本文方法的精測精度也達到了較高水平。其次,對比各個算法的計算速度,多模態(tài)的算法處理速度較慢,本文的方法相較于點柱網(wǎng)絡FPS值提升了3,可以滿足實時檢測的要求。為了進一步對數(shù)據(jù)進行分析,繪制了檢測精度對比雷達圖,如圖6所示。

        圖6 模型的十分類平均精度對比雷達圖

        由于基于點云的三維檢測,僅憑借點云的分布位置信息作為依據(jù)進行預測,道路中許多目標在點云空間中十分不規(guī)則,或與周圍環(huán)境的點云分布十分類似,因此對于這些目標的檢測較為困難。由雷達圖可以得出,各個模型對施工車輛與自行車的檢測精度都很低,而借助相機與激光雷達進行雙模態(tài)融合的方法在這方面存在優(yōu)勢。對于道路中常見的汽車、公交車和卡車等本文提出的檢測方法都取得了非常良好的檢測效果。僅憑數(shù)據(jù)并不夠直觀,因此繪制了三維檢測效果對比圖,如圖7所示。

        圖7 三維檢測效果

        圖7中,第一列是使用了數(shù)據(jù)增強的PointPillars模型,第二列是使用了RegNet[22]作為特征提取網(wǎng)絡,第三列是本文提出的方法,綠色的框為模型的預測框,紫色的框為真實標注框。3種方法的支柱劃分參數(shù)一致,區(qū)別在于,前2種使用了以區(qū)域提案結構作為檢測頭,在空間中的每一個位置進行回歸與預測,而本文提出的方法建立了預測集與特征的聯(lián)系,在空間中找到需要關注的位置進行預測。從圖7中藍色圈中的部分可以看出,本文提出的方法檢測的精度較高,并且無明顯漏檢現(xiàn)象,從圖中棕色圈中的部分可以看出,在對遠端稀疏點云的檢測中,誤檢率得到了很好的控制。

        4 結論

        基于DETR對點柱網(wǎng)絡進行改進,提出一種利用注意力機制,建立預測集合與點云特征的關聯(lián)方法,避免了預測結果對人工先驗知識的依賴,經(jīng)過在Nuscenes數(shù)據(jù)集中驗證,得出本文的方法檢測與典型的三維檢測算法相比具有優(yōu)勢。

        1) 對于單個目標的檢測效果,對比原點柱網(wǎng)絡,預測結果的偏航角誤差大幅減小,預測包圍盒與真實包圍盒的重合度更高,能夠更精準地感知目標的三維姿態(tài)與尺寸,平均檢測精度均值提升了19.14%,NDS打分提升了14.38。

        2) 對于整體的檢測效果,本文的方法可以滿足實時檢測的需求,相對于其他典型的三維檢測算法,對于道路中常見的汽車、公交車和卡車等目標,在檢測精度方面具有明顯優(yōu)勢。通過利用注意力機制,關注關鍵位置,在沒有明顯漏檢的情況下,誤檢率得到了很好的控制。

        猜你喜歡
        支柱注意力編碼
        讓注意力“飛”回來
        基于SAR-SIFT和快速稀疏編碼的合成孔徑雷達圖像配準
        《全元詩》未編碼疑難字考辨十五則
        子帶編碼在圖像壓縮編碼中的應用
        電子制作(2019年22期)2020-01-14 03:16:24
        Genome and healthcare
        國電數(shù)字物資的三大支柱
        能源(2017年7期)2018-01-19 05:05:05
        “揚眼”APP:讓注意力“變現(xiàn)”
        傳媒評論(2017年3期)2017-06-13 09:18:10
        A Beautiful Way Of Looking At Things
        實施五大支柱 落實五大任務
        建一座帶支柱的房子
        无码av天天av天天爽| 亚洲色www无码| 亚洲色图视频在线观看,| 熟女一区二区中文字幕| 东京道一本热中文字幕| 国产成人精品无码播放 | 中文字幕被公侵犯的丰满人妻| 熟女肥臀白浆一区二区| 男女高潮免费观看无遮挡| 99精品电影一区二区免费看| 一区二区三区蜜桃在线视频| 日本一区二区三区区视频| 亚洲人成综合第一网站| 欧美成人午夜免费影院手机在线看 | 天天干成人网| 亚洲日产国无码| 中文字幕精品亚洲字幕| 亚洲精品无码久久久久av老牛| 国产精品福利影院| 国产三级av在线播放| 国产亚洲av另类一区二区三区| 国产精品成人观看视频| 欧美人与禽交zozo| 美女狂喷白浆网站视频在线观看| 精人妻无码一区二区三区| 久久精品国产成人| 长腿校花无力呻吟娇喘的视频| www.久久av.com| 国产亚洲一二三区精品| 品色堂永远免费| 秋霞午夜无码鲁丝片午夜精品| 国产亚洲青春草在线视频| 亚洲视频免费一区二区| 老少配老妇老熟女中文普通话 | 日韩一区二区三区精品视频| 亚洲av无码专区在线| 亚洲av无码乱观看明星换脸va | 国产精品人人做人人爽人人添 | 午夜视频免费观看一区二区| 青青草免费在线爽视频| 午夜无码国产理论在线|