亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于可變形注意力機(jī)制的多模態(tài)3D目標(biāo)檢測(cè)算法韓邦彥

2024-10-10 00:00:00田青

軟件工程 2024年10期

關(guān)鍵詞：3D目標(biāo)檢測(cè);多模態(tài)融合;可變形注意力機(jī)制

中圖分類號(hào)：TP391 文獻(xiàn)標(biāo)志碼：A

0 引言（Introduction）

3D目標(biāo)檢測(cè)是自動(dòng)駕駛等領(lǐng)域的核心技術(shù)，旨在準(zhǔn)確地輸出三維空間中物體的位置坐標(biāo)和類別信息，為車輛感知環(huán)境和規(guī)劃路徑提供了基礎(chǔ)[1]。

現(xiàn)有的3D目標(biāo)檢測(cè)算法根據(jù)輸入數(shù)據(jù)的不同來源，可以分為3類：基于圖像的算法[2]、基于激光點(diǎn)云的算法[3]以及融合了激光點(diǎn)云和圖像的方法[4]。相機(jī)圖像具有豐富的色彩和紋理信息，但是無法提供準(zhǔn)確的距離信息，同時(shí)在惡劣天氣、夜晚環(huán)境中其性能可能會(huì)受到較大的影響。激光點(diǎn)云具有精確的位置信息，但語義信息不豐富。近年來，基于融合的方法展現(xiàn)出了獨(dú)特的優(yōu)越性，可以集合兩種模態(tài)數(shù)據(jù)的優(yōu)點(diǎn)，從而獲得準(zhǔn)確性更高、魯棒性更強(qiáng)的檢測(cè)結(jié)果。

因此，本文選擇基于融合的3D目標(biāo)檢測(cè)方法作為研究對(duì)象，旨在進(jìn)一步挖掘并提升其在目標(biāo)檢測(cè)精度和魯棒性方面的潛力。

1 融合點(diǎn)云和圖像的3D目標(biāo)檢測(cè)算法（3D objectdetection algorithm fusing point cloud and image）

基于點(diǎn)云和圖像融合的方法可以分為3類：前融合（earlyfusion）、特征融合（feature fusion）及決策融合（decisionfusion）。前融合在數(shù)據(jù)預(yù)處理階段進(jìn)行融合，Point Painting[4]將點(diǎn)云投影到語義分割后的圖像上，為點(diǎn)云添加類別信息。特征融合分別提取不同模態(tài)的特征，在特征層面進(jìn)行融合。MV3D（多視點(diǎn)三維網(wǎng)絡(luò)）[5]從鳥瞰圖生成3D目標(biāo)候選框，通過ROI（感興趣區(qū)域）池化將鳥瞰圖、前視圖和圖像的特征融合。TransFusion[6]使用Object Query從點(diǎn)云BEV（鳥瞰圖）特征生成初始3D邊界框，然后利用Tansformer解碼層與圖像特征進(jìn)行融合。BEVFusion[7]將點(diǎn)云特征和圖像特征都轉(zhuǎn)換到BEV空間下進(jìn)行融合，在BEV特征上輸出最終結(jié)果。決策融合在結(jié)果層面進(jìn)行融合，如CLOCs（具有局部感知上下文的跨層融合）[8]通過現(xiàn)有的2D和3D檢測(cè)網(wǎng)絡(luò)獲得候選對(duì)象，然后對(duì)這些候選對(duì)象進(jìn)行處理，生成融合的檢測(cè)結(jié)果。

前融合在低級(jí)語義層面融合數(shù)據(jù)，但這種方法容易產(chǎn)生較大的對(duì)齊噪聲，并且未能充分利用圖像的語義信息;決策融合的性能會(huì)在不同傳感器的結(jié)果存在較大差異時(shí)顯著下降。因此，目前主流融合點(diǎn)云和圖像的3D目標(biāo)算法主要采用特征融合的方式。然而，特征融合也存在一些問題，如相機(jī)標(biāo)定不準(zhǔn)時(shí)，會(huì)出現(xiàn)特征對(duì)齊誤差。近年來，針對(duì)特征融合中存在的問題，許多學(xué)者進(jìn)行了改進(jìn)。AutoAlign系列算法[9-10]、DeepFusion[11]等使用交叉注意力機(jī)制對(duì)每個(gè)圖像特征和體素特征進(jìn)行交互，能在一定范圍內(nèi)自動(dòng)對(duì)齊特征;DeepInteraction[12]同時(shí)保持兩種模態(tài)的特征，在特征學(xué)習(xí)和解碼器中進(jìn)行交互，最大化不同特征的互補(bǔ)效果;CMT[13]在圖像和點(diǎn)云特征上加入由坐標(biāo)生成的位置編碼，自主學(xué)習(xí)不同模態(tài)數(shù)據(jù)位置的對(duì)應(yīng)關(guān)系。

為了解決上述問題，本文提出了并行融合模塊，旨在改善對(duì)齊誤差，并通過可學(xué)習(xí)權(quán)重比例生成融合特征。同時(shí)，考慮到點(diǎn)云數(shù)據(jù)的稀疏性，本文還提出了掩碼特征增強(qiáng)模塊，以提高受遮擋物體及小目標(biāo)的檢測(cè)準(zhǔn)確率。

2 算法描述（Algorithm description）

近年來，基于注意力機(jī)制的目標(biāo)檢測(cè)算法逐漸流行，這類算法利用其全局感知的能力，有效地提高了檢測(cè)準(zhǔn)確度。然而，傳統(tǒng)注意力機(jī)制需要與全局所有特征進(jìn)行交互，導(dǎo)致計(jì)算量大、收斂時(shí)間慢。為解決這一問題，ZHU 等[14]提出了可變形注意力模塊，不同于普通注意力機(jī)制進(jìn)行全局特征交互，可變形注意力機(jī)制在參考點(diǎn)周圍自適應(yīng)地選擇K 個(gè)關(guān)鍵點(diǎn)的計(jì)算結(jié)果，提高了運(yùn)算效率，顯著縮短了訓(xùn)練時(shí)間。同時(shí)，由于計(jì)算復(fù)雜度降低，所以可以使用多尺度特征進(jìn)行注意力計(jì)算?？勺冃巫⒁鈾C(jī)制的計(jì)算公式為

本文提出的算法使用可變形注意力機(jī)制提取融合特征，總體網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。首先使用兩個(gè)獨(dú)立的骨干網(wǎng)絡(luò)提取多視角圖像和點(diǎn)云的特征，其次輸入連續(xù)6個(gè)編碼層。每個(gè)編碼層中包含并行融合模塊和掩碼特征增強(qiáng)模塊，以BEV Query的形式與兩種模態(tài)的特征進(jìn)行交互，將特征聚合到統(tǒng)一的鳥瞰圖視角下，通過無錨框的檢測(cè)頭輸出預(yù)測(cè)的3D邊界框信息。

輸入數(shù)據(jù)為雙目彩色相機(jī)和激光雷達(dá)點(diǎn)云數(shù)據(jù)。點(diǎn)云數(shù)據(jù)（x，y，z）坐標(biāo)范圍是[0，70.4] m×[-40，40] m×[-3，1] m，使用SECOND[17]網(wǎng)絡(luò)提取特征，以0.05 m×0.05 m×4 m的大小進(jìn)行體素化，然后進(jìn)行稀疏卷積，輸出激光點(diǎn)云BEV特征圖大小為200×176。彩色相機(jī)分辨率為1 224×370，經(jīng)過ResNet+FPN 提取特征，輸出多尺度特征圖，大小分別為（H/4）×（W/4），（H/8）×（W/8），（H/16）×（W/16），（H/32）×（W/32）。學(xué)習(xí)率為1e-2，訓(xùn)練80個(gè)周期。

3.3 結(jié)果與分析

為了驗(yàn)證提出的并行特征融合模塊和掩碼特征增強(qiáng)模塊的有效性，在KITTI數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)，選擇車輛目標(biāo)與基線網(wǎng)絡(luò)CenterPoint[19]進(jìn)行比較，結(jié)果如表1所示。在KITTI數(shù)據(jù)集上，本文方法與近年來一些具有影響力的模型進(jìn)行了性能比較，比較結(jié)果如表2所示。本文方法的檢測(cè)效果如圖4所示。

首先，單獨(dú)添加了并行融合模塊，相對(duì)于基準(zhǔn)網(wǎng)絡(luò)引入了額外的圖像特征信息。并行融合的模式更充分地保留了點(diǎn)云和圖像兩種模態(tài)的特征，其中點(diǎn)云提供了準(zhǔn)確的位置信息，而圖像則提供了顏色、紋理等視覺信息。同時(shí)，使用可變形注意力機(jī)制使得兩種模態(tài)的特征圖可以在一定范圍內(nèi)自適應(yīng)融合，減少了對(duì)齊誤差。在車輛目標(biāo)上，研究人員觀察到在表1中只加入PFF模塊與基準(zhǔn)網(wǎng)絡(luò)相比，對(duì)于Easy、Mod、Hard的AP_3D0.7分別提升了5.95百分點(diǎn)、6.57百分點(diǎn)、7.09百分點(diǎn)，AP_BEV0.7分別提升了2.69百分點(diǎn)、2.09百分點(diǎn)、2.84百分點(diǎn)，表現(xiàn)出較為明顯的改進(jìn)效果。

其次，研究人員進(jìn)一步加入了掩碼特征增強(qiáng)模塊。該模塊根據(jù)前景分割圖對(duì)BEV特征圖進(jìn)行多尺度融合，并使得稀疏的特征圖變得更為密集。這樣做不僅對(duì)受遮擋物體缺失的特征有一定程度的彌補(bǔ)，而且對(duì)Mod和Hard難度的車輛目標(biāo)檢測(cè)結(jié)果有了一定程度的提升。在表1中，研究人員觀察到，同時(shí)加入PFF模塊和MFA模塊與只加入PFF模塊相比，在3種難度下，AP3D0.7分別提高了0.49百分點(diǎn)、0.70百分點(diǎn)、0.54百分點(diǎn)，APBEV0.7分別提升了1.24百分點(diǎn)、1.44百分點(diǎn)、1.53百分點(diǎn)。

4 結(jié)論（Conclusion）

本文提出了一種融合激光點(diǎn)云和圖像融合3D目標(biāo)檢測(cè)算法。通過并行融合模塊對(duì)不同模態(tài)特征進(jìn)行交互，同時(shí)保留兩種特征信息，能夠自適應(yīng)地學(xué)習(xí)不同特征的融合范圍及分布比例，減小了特征對(duì)齊誤差。通過掩碼特征增強(qiáng)模塊突出前景區(qū)域信息，增強(qiáng)了BEV特征圖中受遮擋部分的特征強(qiáng)度，提升了多尺度檢測(cè)能力。在KITTI數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)結(jié)果表明，相較于基線網(wǎng)絡(luò)，本文算法在檢測(cè)精度上有了顯著的提高，證明了改進(jìn)方法的有效性。

作者簡(jiǎn)介：

韓邦彥（1999-），男，碩士生。研究領(lǐng)域：計(jì)算機(jī)視覺與目標(biāo)檢測(cè)。

田青（1984-），男，博士，教授。研究領(lǐng)域：人工智能與圖像處理。