亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于稀疏Transformer 的雷達點云三維目標檢測

        2023-01-09 14:28:26高永彬史志才
        計算機工程 2022年11期
        關鍵詞:類別注意力卷積

        韓 磊,高永彬,史志才,2

        (1.上海工程技術大學 電子電氣工程學院,上海 201600;2.上海市信息安全綜合管理技術研究重點實驗室,上海 200240)

        0 概述

        三維目標檢測廣泛應用于自動駕駛[1]、增強現(xiàn)實[2]和機器人控制[3-4]領域中。三維目標檢測算法根據(jù)輸入形式的不同,分為基于圖像、基于多傳感器融合和基于點云的三維目標檢測算法。

        基于圖像的三維目標檢測算法根據(jù)輸入RGB圖像中2D/3D 約束、關鍵點和形狀,通過推理目標幾何關系解決圖像深度信息缺失的問題。文獻[5]利用單支路網(wǎng)絡檢測三維框的多個角點以重構三維中心點,通過二分支關鍵點檢測網(wǎng)絡銳化目標辨識能力。文獻[6]考慮到2D 投影中的幾何推理和未觀察到深度信息的維度,通過單目RGB 圖像預測3D 對象定位。文獻[7]通過視覺深度估計方法從圖像中估計像素深度,并將得到的像素深度反投影為3D 點云,利用基于雷達的檢測方法進行檢測。文獻[8]基于左右目視圖的潛在關鍵點構建左右視圖關鍵點一致性損失函數(shù),以提高選取潛在關鍵點的位置精度,從而提高車輛的檢測準確性。

        多傳感器融合通常將多個傳感器獲取的特征進行融合。文獻[9]提出在兩個連續(xù)的步驟中檢測目標,基于攝像機圖像生成區(qū)域建議,通過處理感興趣區(qū)域中的激光雷達點以檢測目標。文獻[10]提出引導式圖像融合模塊,以基于點的方式建立原始點云數(shù)據(jù)與相機圖像之間的對應關系,并自適應地估計圖像語義特征的重要性。這種方式根據(jù)高分辨率的圖像特征來增強點特征,同時抑制干擾圖像的特征。文獻[11]結合點云的深度信息與毫米波雷達輸出確定目標的優(yōu)勢,采用量綱歸一化方法對點云進行預處理,并利用處理后的點云生成特征圖。文獻[12]基于二維候選區(qū)域中的像素過濾激光點云,生成視錐點云,以加快檢測速度。

        基于點云的檢測算法僅通過輸入點云學習特征,在檢測網(wǎng)絡中回歸目標類別和包圍框[13]。文獻[14]將點云編碼為體素,采用堆疊體素特征編碼層來提取體素特征。文獻[15]通過立柱特征網(wǎng)絡將點云處理成偽圖像,并消除耗時的3D 卷積運算,使得檢測速度顯著提升。文獻[16]將點云編碼到一個固定半徑的近鄰圖中,并設計圖神經(jīng)網(wǎng)絡,以預測類別和圖中每個頂點所屬的對象形狀。文獻[17]利用三維區(qū)域生成網(wǎng)絡,將多視圖生成器模塊生成的多角度點云偽圖像重新校準與融合,并根據(jù)提取的語義特征進行最終的點云目標分類和最優(yōu)外接包圍框回歸。

        基于圖像的三維目標檢測算法無法提供可靠的三維幾何信息;基于多傳感器融合的三維目標檢測算法輸入數(shù)據(jù)較多,需要較高的算力和較復雜的特征處理與融合算法;點云數(shù)據(jù)通常極其稀疏,受噪點影響比較大,基于點云的三維目標檢測算法魯棒性較差。因此,在點云稀疏條件下提升檢測精度和算法魯棒性具有一定必要性。

        本文提出基于稀疏Transformer 的雷達點云三維目標檢測算法。構建稀疏Transformer 模塊并將其應用于三維目標檢測領域中,通過顯式選擇Top-t個權重元素,以排除對注意力干擾性較高的權重元素,從而提高檢測精度。設計一種粗回歸模塊,將粗回歸模塊生成的邊界框作為檢測頭模塊的初始錨框,使檢測結果生成的邊界框更加精細。在此基礎上,設計基于體素三維目標檢測算法的損失函數(shù),以優(yōu)化檢測結果。

        1 網(wǎng)絡模型

        本文基于PointPillars 在點云特征處理階段的良好性能,延用了點云特征處理模塊和2D 卷積模塊,并增加了稀疏Transformer 模塊和粗回歸模塊,在回歸階段使用通用的SSD[18]檢測頭作為檢測模塊。本文網(wǎng)絡結構如圖1 所示。

        圖1 本文網(wǎng)絡結構Fig.1 Structure of the proposed network

        首先,將一幀點云圖像輸入到點云特征處理模塊中,由該模塊將點云圖像劃分為H×W的立柱,并對立柱中的點進行采樣;然后,經(jīng)過Pillar 特征網(wǎng)絡進行特征學習和特征展開,輸出尺寸為(C,H,W)的偽圖像,將該偽圖像分別送入到2D 卷積模塊,經(jīng)過卷積操作分別產(chǎn)生尺寸為(C,H/2,W/2)、(2C,H/4,W/4)和(4C,H/8,W/8)的特征,通過反卷積操作生成3個尺寸為(2C,H/2,W/2)的特征后,再將這3個特征相連接,輸出尺寸為(6C,H/2,W/2)的空間特征;最后,將空間特征送入到粗回歸模塊,在該模塊的區(qū)域建議網(wǎng)絡(Region Proposal Network,RPN)回歸粗略類別和坐標的同時,另一個分支經(jīng)過卷積操作輸出尺寸為(2C,H/2,W/2)的新空間特征。與此同時,本文將Pillar 特征網(wǎng)絡中偽圖像的特征展開為(H×W)×C的序列形式,輸入到稀疏Transformer模塊,并根據(jù)原始位置對該模塊輸出的序列特征嵌入重新組合成偽圖像特征,進行一次卷積操作,輸出尺寸為(2C,H/2,W/2)的稀疏上下文特征。本文將得到的新空間特征與稀疏上下文特征連接后輸入到檢測模塊,在粗回歸模塊提供的粗略錨框坐標的輔助下更精確地回歸目標物體的坐標。

        1.1 稀疏Transformer 模塊

        基于自注意力的Transformer[19]在一些自然語言處理和二維目標檢測任務中具有較優(yōu)的性能。自注意力能夠模擬長期的依賴關系,但易受上下文中無關信息的影響。為解決該問題,本文引入稀疏Transformer 模塊[20]。稀疏Transformer 模塊通過顯式選擇最相關的片段來提高對全局上下文的關注,增強模型的魯棒性。

        稀疏Transformer 模塊是基于Transformer 架構,通過Top-t選擇將注意力退化為稀疏注意力,有助于保留注意力的成分,而去除其他無關的信息。本文提出的稀疏Transformer 模塊中注意力可以集中在最有貢獻的元素上。這種選擇方法在保留重要信息和去除噪聲方面具有有效性。稀疏Transformer 模塊結構如圖2 所示。

        圖2 稀疏Transformer 模塊結構Fig.2 Structure of sparse Transformer module

        對于單頭自注意力,將點柱特征xi經(jīng)線性層變換后變?yōu)橹迪蛄縑[lV,d]、關鍵向量K[lK,d]和查詢向量Q[lQ,d]。線性變換過程如式(1)所示:

        其中:WP為對應向量的線性變換矩陣;查詢向量Q與關鍵向量K的相似性通過點乘計算。注意力得分計算如式(2)所示:

        由注意力機制可知,注意力得分S越高,特征相關性越強。因此,本文在S上實現(xiàn)稀疏注意力操作,以便選擇注意力矩陣中每行的前t個有貢獻的元素。本文選擇S中每行的t個最大元素,并記錄它們在矩陣中的位置(i,j),其中t是一個超參數(shù)。假設第i行的第t個最大值是ti,如果第j個分量的值大于ti,則記錄位置(i,j),連接每行的閾值以形成向量t=[t1,t2,…,tn],n為查詢向量的長度。稀疏注意力SSA(·,·)函數(shù)如式(3)所示:

        稀疏注意力模塊的輸出計算過程如式(4)所示:

        本文使用多頭注意力機制將特征映射到不同的特征空間,以學習不同子空間的相關特征。不同的注意力頭可以獨立地進行特征學習,互不干擾。最后,將每個頭部的結果拼接再進行一次線性變換得到的值作為多頭注意力的結果。將結果與點柱特征xi進行殘差連接,再用層歸一化[21]對其進行歸一化操作,層歸一化操作后得到的結果即為所求。

        1.2 粗回歸模塊

        本文使用一個粗回歸模塊,該模塊有兩個分支,卷積分支用于調整特征尺度,RPN 分支用于粗略回歸目標類別和邊界框,回歸結果用于指導后續(xù)檢測頭進行精細回歸操作。粗回歸模塊結構如圖3所示。

        圖3 粗回歸模塊結構Fig.3 Structure of coarse regression module

        從圖3 可以看出,空間特征是骨干網(wǎng)絡進行多尺度特征串聯(lián)后得到的特征,特征大小為(6C,H/2,W/2),該骨干網(wǎng)絡與PointPillars 算法中的骨干網(wǎng)絡相同。在卷積分支中主要進行1×1 的卷積操作,將骨干網(wǎng)絡輸出的空間特征降維,降維后的特征大小為(2C,H/2,W/2),將該特征與Transformer 模塊生成的全局上下文特征串聯(lián)。與此同時,將空間特征送入RPN 分支,輸出類別和邊界框。RPN 分支的回歸結果為檢測頭模塊提供粗略的錨框,用于后續(xù)邊界框的精確回歸操作。

        1.3 損失函數(shù)

        本文在SECOND[22]損失函數(shù)的基礎上提出一種新的損失函數(shù),以更好地優(yōu)化粗回歸和檢測頭模塊。真值框和錨框由(x,y,z,w,l,h,θ)表示,其中(x,y,z)表示框的中心點坐標,(w,h,l)表示框的寬、高、長,θ表示框的方向角。邊界框的偏移由真值框和錨框計算,如式(5)所示:

        其中:gt 表示真值框;a 表示錨框。位置回歸損失函數(shù)如式(6)所示:

        其中:pre 表示預測值。對于角度回歸,這種減少角度損失的方法解決了0 和π 方向的沖突問題。為解決該損失函數(shù)將方向相反的邊界框視為相同的問題,本文在離散方向上使用交叉熵損失函數(shù),使網(wǎng)絡能夠區(qū)分目標的正反方向。方向分類損失函數(shù)定義為Ldir。本文使用Focal Loss 定義物體分類損失,如式(7)所示:

        其 中:pa表示模型預測的錨框類別概率;α和γ表 示Focal Loss 的參數(shù)。

        該檢測網(wǎng)絡總的損失函數(shù)如式(8)所示:

        其中:上標C 和D 分別表示粗回歸模塊和檢測頭模塊;表示粗回歸框的正錨框數(shù)目表示細回歸框的正錨框數(shù)目;βcls、βloc和βdir表示用于平衡類別損失、位置回歸損失和方向損失的權重參數(shù);λ表示用于平衡粗回歸模塊和檢測頭模塊的權重。

        2 實驗結果與分析

        2.1 實驗數(shù)據(jù)集

        本文在KITTI 數(shù)據(jù)集上進行實驗,該自動駕駛數(shù)據(jù)集是目前在三維目標檢測和分割領域中使用最廣泛的數(shù)據(jù)集。該數(shù)據(jù)集包含7 481 個訓練樣本,本文按大約1∶1 的比例將訓練樣本分為訓練集和測試集,其中訓練集包含3 712 個樣本數(shù)據(jù),測試集包含3 769 個樣本數(shù)據(jù)。本文在測試集上對模型訓練的汽車、行人和騎行者這3 個類別進行評估。對于每個類別,本文根據(jù)3D 對象的大小和遮擋程度分為簡單、中等、困難3 個級別。平均精度均值(mean Average Precision,mAP)作為實驗結果的評估度量。本文采用官方評估建議,將汽車的交并比(Intersection Over Union,IOU)閾值設置為0.7,將行人和騎行者的IOU 閾值設置為0.5。

        2.2 實驗環(huán)境與對比實驗

        本文實驗的模型訓練部分選用的設備信息:一臺運行系統(tǒng)為Ubuntu18.04、顯卡為NVIDIA RTX 8000 的服務器,算法由python3.7 和pytorch1.4 框 架實現(xiàn),使用Adam 優(yōu)化器訓練100 輪,批尺寸設置為6,學習率設置為0.003。

        不同算法的三維檢測結果對比如圖4 所示,檢測的閾值均設置為0.5。在場景1 中,PointPillars 存在不同程度的誤檢,將環(huán)境中的噪點或者路燈桿檢測為行人或騎行者。在場景2 中,PointPillars 仍存在不同程度的誤檢和漏檢,將道閘的立柱檢測為行人,把并排行走或靠近的兩個人檢測為一個人。

        圖4 不同算法的三維檢測結果對比Fig.4 Three-dimensional detection results comparison among different algorithms

        鳥瞰視角下不同算法的檢測結果對比如圖5 所示,圖中邊為白色的矩形框說明預測的邊界框與實際真值框未完全重合。

        圖5 鳥瞰視角下不同算法的檢測結果對比Fig.5 Detection results comparison among different algorithms from aerial view

        本文選擇VoxelNet、SECOND、PointPillars、3DGIoU[23]、Part-A2[24]、PointRCNN[25]、Point-GNN 和TANet[26]作為對比算法。表1、表2 和表3 分別表示在KITTI 測試集上汽車、行人和騎行者類別下本文算法與其他算法的mAP 對比。3D mAP 是3 種難度類別的平均精度均值。從表1~表3 可以看出,當檢測行人和騎行者類別時,本文算法相較于其他算法具有較優(yōu)的平均精度均值。

        表1 在汽車類別下不同算法的mAP 對比Table 1 mAP comparison among different algorithms under car category %

        表2 在行人類別下不同算法的mAP 對比Table 2 mAP comparison among different algorithms under pedestrian category %

        表3 在騎行者類別下不同算法的mAP 對比Table 3 mAP comparison among different algorithms under cyclist category %

        本文算法與現(xiàn)有執(zhí)行速度表現(xiàn)優(yōu)異算法的推理速度對比如表4 所示。從表4 可以看出,本文算法在提高平均精度均值的同時,推理速度平均加快了0.535 8 frame/s。

        表4 不同算法的推理速度對比Table 4 Inference speed comparison among different algorithms

        2.3 消融實驗

        2.3.1t值的選擇

        由于注意力矩陣A與查詢向量Q、關鍵向量K有關,因此t值的大小與系數(shù)k和關鍵向量K的長度相關。本文1.2 節(jié)中t=k×lK,lK是關鍵向量K的長度,也是注意力矩陣的列數(shù)。本文選取k={0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1.0}進行實驗。實驗設備的顯卡為RTX 2080,批尺寸設置為1。在KITTI 測試集上汽車類別下本文算法的實驗結果如圖6 所示,以系數(shù)k為橫坐標表示選擇不同的t對本文算法檢測精度的影響。

        圖6 在汽車類別下本文算法的實驗結果Fig.6 Experimental results of the proposed algorithm under the car category

        從圖6 可以看出,隨著k值的增加,mAP 逐漸升高,當k=0.3 時,mAP 達到最高,然后開始大幅度降低。其原因為本文的稀疏注意力模塊對特征學習和去除噪點是有效的。在k=0.3 之前,原始的注意力同樣會注意到除目標以外的無關成分,對檢測難度為中等和困難的目標產(chǎn)生的影響較大。在k=0.3 之后,由于過多地過濾了目標的有用特征,因此檢測精度明顯下降。雖然稀疏注意力模塊對檢測精度的提升幅度比較微小,但是對推理速度的提升卻十分顯著。從圖6(d)可以看出,相較于原始的Transformer,當k=0.3 時,本文算法的平均推理速度加快了約0.54 frame/s。

        2.3.2 稀疏Transformer 模塊的作用

        由于在KITTI 數(shù)據(jù)集中噪點數(shù)目無法得知,因此本文在每個目標物的真值框內添加相同數(shù)量的噪點,模擬實際場景中噪點對模型的負影響,以測試該模塊對模型魯棒性和檢測精度的貢獻?;?.3.1 節(jié)的實驗結果,本文將k值設置為0.3,在不改變其他模塊的情況下,在KITTI 測試集上汽車類別下本文算法(稀疏Transformer 模塊)與PointPillars算法(普通Transformer 模塊)的mAP 對比如表5 所示。手動在每個目標物真值框內隨機添加100 個噪點,本文算法的mAP 僅下降1.60%,優(yōu)于PointPillars算法。

        表5 在不同噪點數(shù)量下PointPillars 和本文算法的mAP 對比Table 5 mAP comparison among PointPillars and the proposed algorithms with different number of noises %

        2.3.3 粗回歸模塊對結果的影響

        在不改動其余模塊的情況下,本文去掉粗回歸模塊的回歸分支,以驗證粗回歸模塊的有效性。本文算法1 不包含粗回歸模塊,本文算法2 包含粗回歸模塊。本文算法在KITTI 測試集上汽車、行人和騎行者類別下的實驗結果分別如表6、表7 和表8 所示。從表中可以看出,相比不包含粗回歸模塊算法的測試結果,在不同檢測難度下有粗回歸模塊算法的mAP 分別提升了0.61、1.01 和0.95 個百分點。因此,包含粗回歸模塊的算法能夠更精確地回歸目標物體的坐標。

        表6 在汽車類別下粗回歸模塊對檢測精度的影響Table 6 Influence of coarse regression module on detection accuracy under car category %

        表7 在行人類別下粗回歸模塊對檢測精度的影響Table 7 Influence of coarse regression module on detection accuracy under pedestrian category %

        表8 在騎行者類別下粗回歸模塊對檢測精度的影響Table 8 Influence of coarse regression module on detection accuracy under cyclist category %

        3 結束語

        本文提出基于稀疏Transformer 的點云三維目標檢測算法。通過稀疏Transformer 模塊顯示選擇與注意力相關的信息,以學習點云的全局上下文特征,從而提高模型的精確度。設計基于空間特征的粗回歸模塊,將其生成的初始錨框作為后續(xù)回歸精確操作的邊界框。在KITTI 數(shù)據(jù)集上的實驗結果表明,本文算法具有較優(yōu)的檢測精度和魯棒性。下一步將在點云處理階段引入點云關鍵點的采樣信息,結合基于關鍵點和基于體素點云處理算法的優(yōu)點,設計一種融合特征提取與體素關鍵點的目標檢測算法,以擴大檢測網(wǎng)絡的感受野并提高定位精度。

        猜你喜歡
        類別注意力卷積
        讓注意力“飛”回來
        基于3D-Winograd的快速卷積算法設計及FPGA實現(xiàn)
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        基于傅里葉域卷積表示的目標跟蹤算法
        “揚眼”APP:讓注意力“變現(xiàn)”
        傳媒評論(2017年3期)2017-06-13 09:18:10
        A Beautiful Way Of Looking At Things
        服務類別
        新校長(2016年8期)2016-01-10 06:43:59
        論類別股東會
        商事法論集(2014年1期)2014-06-27 01:20:42
        一種基于卷積神經(jīng)網(wǎng)絡的性別識別方法
        電視技術(2014年19期)2014-03-11 15:38:20
        中醫(yī)類別全科醫(yī)師培養(yǎng)模式的探討
        日韩另类在线| 精品日韩亚洲av无码| 成年女人黄小视频| 一卡二卡三卡视频| 精品人妻av区乱码| 国产精品自拍午夜伦理福利| 一本色道久久88加勒比—综合| 黑人玩弄人妻中文在线| 亚洲欧美日韩精品高清| 亚洲一区二区懂色av| 国产精品国产三级国产av品爱网 | 中文字幕亚洲精品第1页| 日本av第一区第二区| 亚洲国产亚综合在线区| 亚洲av无码av日韩av网站| 久久青草亚洲AV无码麻豆| 久久精品亚洲一区二区三区画质| 精品福利一区二区三区免费视频| www国产亚洲精品久久网站| 欧美成人高清手机在线视频| 人妻系列中文字幕av| 亚洲精品国产精品国自产| 婷婷综合久久中文字幕蜜桃三电影| 国产一区二区内射最近人| 粉嫩av最新在线高清观看| 中文无码久久精品| 极品 在线 视频 大陆 国产| 午夜视频手机在线免费观看| 国产精品天干天干综合网| 少妇邻居内射在线| 国产好片日本一区二区三区四区| 青青草视频在线观看色| 熟妇丰满多毛的大隂户| 91久久国产自产拍夜夜嗨| 手机在线免费观看的av| 色哟哟精品视频在线观看| 日韩欧美中文字幕不卡| 国产三级精品三级在专区中文| 成人欧美一区二区三区在线| 久久精品人妻一区二区三区| 青青草针对华人超碰在线|