亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于可變形注意力機(jī)制的多模態(tài)3D目標(biāo)檢測(cè)算法韓邦彥

        2024-10-10 00:00:00田青
        軟件工程 2024年10期
        關(guān)鍵詞:注意力模態(tài)特征

        關(guān)鍵詞:3D目標(biāo)檢測(cè);多模態(tài)融合;可變形注意力機(jī)制

        中圖分類號(hào):TP391 文獻(xiàn)標(biāo)志碼:A

        0 引言(Introduction)

        3D目標(biāo)檢測(cè)是自動(dòng)駕駛等領(lǐng)域的核心技術(shù),旨在準(zhǔn)確地輸出三維空間中物體的位置坐標(biāo)和類別信息,為車輛感知環(huán)境和規(guī)劃路徑提供了基礎(chǔ)[1]。

        現(xiàn)有的3D目標(biāo)檢測(cè)算法根據(jù)輸入數(shù)據(jù)的不同來源,可以分為3類:基于圖像的算法[2]、基于激光點(diǎn)云的算法[3]以及融合了激光點(diǎn)云和圖像的方法[4]。相機(jī)圖像具有豐富的色彩和紋理信息,但是無法提供準(zhǔn)確的距離信息,同時(shí)在惡劣天氣、夜晚環(huán)境中其性能可能會(huì)受到較大的影響。激光點(diǎn)云具有精確的位置信息,但語義信息不豐富。近年來,基于融合的方法展現(xiàn)出了獨(dú)特的優(yōu)越性,可以集合兩種模態(tài)數(shù)據(jù)的優(yōu)點(diǎn),從而獲得準(zhǔn)確性更高、魯棒性更強(qiáng)的檢測(cè)結(jié)果。

        因此,本文選擇基于融合的3D目標(biāo)檢測(cè)方法作為研究對(duì)象,旨在進(jìn)一步挖掘并提升其在目標(biāo)檢測(cè)精度和魯棒性方面的潛力。

        1 融合點(diǎn)云和圖像的3D目標(biāo)檢測(cè)算法(3D objectdetection algorithm fusing point cloud and image)

        基于點(diǎn)云和圖像融合的方法可以分為3類:前融合(earlyfusion)、特征融合(feature fusion)及決策融合(decisionfusion)。前融合在數(shù)據(jù)預(yù)處理階段進(jìn)行融合,Point Painting[4]將點(diǎn)云投影到語義分割后的圖像上,為點(diǎn)云添加類別信息。特征融合分別提取不同模態(tài)的特征,在特征層面進(jìn)行融合。MV3D(多視點(diǎn)三維網(wǎng)絡(luò))[5]從鳥瞰圖生成3D目標(biāo)候選框,通過ROI(感興趣區(qū)域)池化將鳥瞰圖、前視圖和圖像的特征融合。TransFusion[6]使用Object Query從點(diǎn)云BEV(鳥瞰圖)特征生成初始3D邊界框,然后利用Tansformer解碼層與圖像特征進(jìn)行融合。BEVFusion[7]將點(diǎn)云特征和圖像特征都轉(zhuǎn)換到BEV空間下進(jìn)行融合,在BEV特征上輸出最終結(jié)果。決策融合在結(jié)果層面進(jìn)行融合,如CLOCs(具有局部感知上下文的跨層融合)[8]通過現(xiàn)有的2D和3D檢測(cè)網(wǎng)絡(luò)獲得候選對(duì)象,然后對(duì)這些候選對(duì)象進(jìn)行處理,生成融合的檢測(cè)結(jié)果。

        前融合在低級(jí)語義層面融合數(shù)據(jù),但這種方法容易產(chǎn)生較大的對(duì)齊噪聲,并且未能充分利用圖像的語義信息;決策融合的性能會(huì)在不同傳感器的結(jié)果存在較大差異時(shí)顯著下降。因此,目前主流融合點(diǎn)云和圖像的3D目標(biāo)算法主要采用特征融合的方式。然而,特征融合也存在一些問題,如相機(jī)標(biāo)定不準(zhǔn)時(shí),會(huì)出現(xiàn)特征對(duì)齊誤差。近年來,針對(duì)特征融合中存在的問題,許多學(xué)者進(jìn)行了改進(jìn)。AutoAlign系列算法[9-10]、DeepFusion[11]等使用交叉注意力機(jī)制對(duì)每個(gè)圖像特征和體素特征進(jìn)行交互,能在一定范圍內(nèi)自動(dòng)對(duì)齊特征;DeepInteraction[12]同時(shí)保持兩種模態(tài)的特征,在特征學(xué)習(xí)和解碼器中進(jìn)行交互,最大化不同特征的互補(bǔ)效果;CMT[13]在圖像和點(diǎn)云特征上加入由坐標(biāo)生成的位置編碼,自主學(xué)習(xí)不同模態(tài)數(shù)據(jù)位置的對(duì)應(yīng)關(guān)系。

        為了解決上述問題,本文提出了并行融合模塊,旨在改善對(duì)齊誤差,并通過可學(xué)習(xí)權(quán)重比例生成融合特征。同時(shí),考慮到點(diǎn)云數(shù)據(jù)的稀疏性,本文還提出了掩碼特征增強(qiáng)模塊,以提高受遮擋物體及小目標(biāo)的檢測(cè)準(zhǔn)確率。

        2 算法描述(Algorithm description)

        近年來,基于注意力機(jī)制的目標(biāo)檢測(cè)算法逐漸流行,這類算法利用其全局感知的能力,有效地提高了檢測(cè)準(zhǔn)確度。然而,傳統(tǒng)注意力機(jī)制需要與全局所有特征進(jìn)行交互,導(dǎo)致計(jì)算量大、收斂時(shí)間慢。為解決這一問題,ZHU 等[14]提出了可變形注意力模塊,不同于普通注意力機(jī)制進(jìn)行全局特征交互,可變形注意力機(jī)制在參考點(diǎn)周圍自適應(yīng)地選擇K 個(gè)關(guān)鍵點(diǎn)的計(jì)算結(jié)果,提高了運(yùn)算效率,顯著縮短了訓(xùn)練時(shí)間。同時(shí),由于計(jì)算復(fù)雜度降低,所以可以使用多尺度特征進(jìn)行注意力計(jì)算??勺冃巫⒁鈾C(jī)制的計(jì)算公式為

        本文提出的算法使用可變形注意力機(jī)制提取融合特征,總體網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。首先使用兩個(gè)獨(dú)立的骨干網(wǎng)絡(luò)提取多視角圖像和點(diǎn)云的特征,其次輸入連續(xù)6個(gè)編碼層。每個(gè)編碼層中包含并行融合模塊和掩碼特征增強(qiáng)模塊,以BEV Query的形式與兩種模態(tài)的特征進(jìn)行交互,將特征聚合到統(tǒng)一的鳥瞰圖視角下,通過無錨框的檢測(cè)頭輸出預(yù)測(cè)的3D邊界框信息。

        輸入數(shù)據(jù)為雙目彩色相機(jī)和激光雷達(dá)點(diǎn)云數(shù)據(jù)。點(diǎn)云數(shù)據(jù)(x,y,z)坐標(biāo)范圍是[0,70.4] m×[-40,40] m×[-3,1] m,使用SECOND[17]網(wǎng)絡(luò)提取特征,以0.05 m×0.05 m×4 m的大小進(jìn)行體素化,然后進(jìn)行稀疏卷積,輸出激光點(diǎn)云BEV特征圖大小為200×176。彩色相機(jī)分辨率為1 224×370,經(jīng)過ResNet+FPN 提取特征,輸出多尺度特征圖,大小分別為(H/4)×(W/4),(H/8)×(W/8),(H/16)×(W/16),(H/32)×(W/32)。學(xué)習(xí)率為1e-2,訓(xùn)練80個(gè)周期。

        3.3 結(jié)果與分析

        為了驗(yàn)證提出的并行特征融合模塊和掩碼特征增強(qiáng)模塊的有效性,在KITTI數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),選擇車輛目標(biāo)與基線網(wǎng)絡(luò)CenterPoint[19]進(jìn)行比較,結(jié)果如表1所示。在KITTI數(shù)據(jù)集上,本文方法與近年來一些具有影響力的模型進(jìn)行了性能比較,比較結(jié)果如表2所示。本文方法的檢測(cè)效果如圖4所示。

        首先,單獨(dú)添加了并行融合模塊,相對(duì)于基準(zhǔn)網(wǎng)絡(luò)引入了額外的圖像特征信息。并行融合的模式更充分地保留了點(diǎn)云和圖像兩種模態(tài)的特征,其中點(diǎn)云提供了準(zhǔn)確的位置信息,而圖像則提供了顏色、紋理等視覺信息。同時(shí),使用可變形注意力機(jī)制使得兩種模態(tài)的特征圖可以在一定范圍內(nèi)自適應(yīng)融合,減少了對(duì)齊誤差。在車輛目標(biāo)上,研究人員觀察到在表1中只加入PFF模塊與基準(zhǔn)網(wǎng)絡(luò)相比,對(duì)于Easy、Mod、Hard的AP3D0.7分別提升了5.95百分點(diǎn)、6.57百分點(diǎn)、7.09百分點(diǎn),APBEV0.7分別提升了2.69百分點(diǎn)、2.09百分點(diǎn)、2.84百分點(diǎn),表現(xiàn)出較為明顯的改進(jìn)效果。

        其次,研究人員進(jìn)一步加入了掩碼特征增強(qiáng)模塊。該模塊根據(jù)前景分割圖對(duì)BEV特征圖進(jìn)行多尺度融合,并使得稀疏的特征圖變得更為密集。這樣做不僅對(duì)受遮擋物體缺失的特征有一定程度的彌補(bǔ),而且對(duì)Mod和Hard難度的車輛目標(biāo)檢測(cè)結(jié)果有了一定程度的提升。在表1中,研究人員觀察到,同時(shí)加入PFF模塊和MFA模塊與只加入PFF模塊相比,在3種難度下,AP3D0.7分別提高了0.49百分點(diǎn)、0.70百分點(diǎn)、0.54百分點(diǎn),APBEV0.7分別提升了1.24百分點(diǎn)、1.44百分點(diǎn)、1.53百分點(diǎn)。

        4 結(jié)論(Conclusion)

        本文提出了一種融合激光點(diǎn)云和圖像融合3D目標(biāo)檢測(cè)算法。通過并行融合模塊對(duì)不同模態(tài)特征進(jìn)行交互,同時(shí)保留兩種特征信息,能夠自適應(yīng)地學(xué)習(xí)不同特征的融合范圍及分布比例,減小了特征對(duì)齊誤差。通過掩碼特征增強(qiáng)模塊突出前景區(qū)域信息,增強(qiáng)了BEV特征圖中受遮擋部分的特征強(qiáng)度,提升了多尺度檢測(cè)能力。在KITTI數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)結(jié)果表明,相較于基線網(wǎng)絡(luò),本文算法在檢測(cè)精度上有了顯著的提高,證明了改進(jìn)方法的有效性。

        作者簡(jiǎn)介:

        韓邦彥(1999-),男,碩士生。研究領(lǐng)域:計(jì)算機(jī)視覺與目標(biāo)檢測(cè)。

        田 青(1984-),男,博士,教授。研究領(lǐng)域:人工智能與圖像處理。

        猜你喜歡
        注意力模態(tài)特征
        讓注意力“飛”回來
        如何表達(dá)“特征”
        不忠誠(chéng)的四個(gè)特征
        抓住特征巧觀察
        “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
        A Beautiful Way Of Looking At Things
        國(guó)內(nèi)多模態(tài)教學(xué)研究回顧與展望
        基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識(shí)別
        由單個(gè)模態(tài)構(gòu)造對(duì)稱簡(jiǎn)支梁的抗彎剛度
        線性代數(shù)的應(yīng)用特征
        河南科技(2014年23期)2014-02-27 14:19:15
        高清国产一级毛片国语| 亚洲日韩国产一区二区三区| 女人下面毛多水多视频| 日本视频中文字幕一区在线| 日韩精品成人一区二区三区久久久| 日本一二三四区在线观看| 精品亚洲国产成人| 国产精品亚洲日韩欧美色窝窝色欲| 久天啪天天久久99久孕妇| 九七青青草视频在线观看| 国模吧无码一区二区三区| 国产精品厕所| 久久精品国产亚洲av桥本有菜| 亚洲精品中文字幕视频色| 国产美女精品一区二区三区| 自拍欧美日韩| 日韩极品免费在线观看| 午夜福利一区在线观看中文字幕| 成人a级视频在线观看| 日本高清中文字幕一区二区三区| 国产精品午夜福利亚洲综合网| 强开小婷嫩苞又嫩又紧视频韩国| 丁香五香天堂网| 成人午夜免费福利| 亚洲不卡免费观看av一区二区| 国产肉体xxxx裸体137大胆| 国产成人精品午夜福利在线| 99精品又硬又爽又粗少妇毛片 | www.五月激情| 男女激情视频网站免费在线| 成人亚洲精品777777| 亚洲AV无码一区二区三区人| 国产青青草自拍视频在线播放| 国产精品妇女一区二区三区| 精品av天堂毛片久久久| 欧洲一区在线观看| 久久精品国产亚洲av网站| 亚洲国产欧美在线观看| 99热成人精品热久久66| 性色av一区二区三区密臀av| 天天爽夜夜爽夜夜爽精品视频|