亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向三維點(diǎn)云單目標(biāo)跟蹤的提案聚合網(wǎng)絡(luò)

        2022-06-21 06:41:48莊屹趙海濤
        計(jì)算機(jī)應(yīng)用 2022年5期
        關(guān)鍵詞:機(jī)制特征區(qū)域

        莊屹,趙海濤

        (華東理工大學(xué) 信息科學(xué)與工程學(xué)院,上海 200237)(?通信作者電子郵箱haitaozhao@ecust.edu.cn)

        面向三維點(diǎn)云單目標(biāo)跟蹤的提案聚合網(wǎng)絡(luò)

        莊屹,趙海濤*

        (華東理工大學(xué) 信息科學(xué)與工程學(xué)院,上海 200237)(?通信作者電子郵箱haitaozhao@ecust.edu.cn)

        與二維可見(jiàn)光圖像相比,三維點(diǎn)云在空間中保留了物體真實(shí)豐富的幾何信息,能夠應(yīng)對(duì)單目標(biāo)跟蹤問(wèn)題中存在尺度變換的視覺(jué)挑戰(zhàn)。針對(duì)三維目標(biāo)跟蹤精度受到點(diǎn)云數(shù)據(jù)稀疏性導(dǎo)致的信息缺失影響,以及物體位置變化帶來(lái)的形變影響這兩個(gè)問(wèn)題,在端到端的學(xué)習(xí)模式下提出了由三個(gè)模塊構(gòu)成的提案聚合網(wǎng)絡(luò),通過(guò)在最佳提案內(nèi)定位物體的中心來(lái)確定三維邊界框從而實(shí)現(xiàn)三維點(diǎn)云中的單目標(biāo)跟蹤。首先,將模板和搜索區(qū)域的點(diǎn)云數(shù)據(jù)轉(zhuǎn)換為鳥(niǎo)瞰偽圖,模塊一通過(guò)空間和跨通道注意力機(jī)制豐富特征信息;然后,模塊二用基于錨框的深度互相關(guān)孿生區(qū)域提案子網(wǎng)給出最佳提案;最后,模塊三先利用最佳提案對(duì)搜索區(qū)域的感興趣區(qū)域池化操作來(lái)提取目標(biāo)特征,隨后聚合了目標(biāo)與模板特征,利用稀疏調(diào)制可變形卷積層來(lái)解決點(diǎn)云稀疏以及形變的問(wèn)題并確定了最終三維邊界框。在KITTI跟蹤數(shù)據(jù)集上把所提方法與最新的三維點(diǎn)云單目標(biāo)跟蹤方法進(jìn)行比較的實(shí)驗(yàn)結(jié)果表明:在汽車(chē)類(lèi)綜合性實(shí)驗(yàn)中,真實(shí)場(chǎng)景中所提方法在成功率上提高了1.7個(gè)百分點(diǎn),精確率上提高了0.2個(gè)百分點(diǎn);在多類(lèi)別擴(kuò)展性實(shí)驗(yàn)上,即在汽車(chē)、貨車(chē)、騎車(chē)人以及行人這4類(lèi)上所提方法的平均成功率提高了0.8個(gè)百分點(diǎn),平均精確率提高了2.8個(gè)百分點(diǎn)??梢?jiàn),所提方法能夠解決三維點(diǎn)云中的單目標(biāo)跟蹤問(wèn)題,使得三維目標(biāo)跟蹤結(jié)果更加精確。

        點(diǎn)云;目標(biāo)跟蹤;孿生網(wǎng)絡(luò);注意力機(jī)制;可變形卷積

        0 引言

        單目標(biāo)跟蹤已成為計(jì)算機(jī)視覺(jué)中的一個(gè)研究熱點(diǎn),被應(yīng)用在自動(dòng)駕駛、跟隨機(jī)器人和安防系統(tǒng)等場(chǎng)景下[1]?;诳梢?jiàn)光圖像的二維跟蹤方法面臨著遮擋、光照、尺度變化等挑戰(zhàn)。因此,需要在原始圖像上增加額外維度的信息來(lái)解決這些問(wèn)題。為了克服遮擋,深度圖被用以增加可見(jiàn)光-深度(RGB-Depth, RGB-D)信息[2-3]。通過(guò)聯(lián)合使用紅外圖像,可見(jiàn)光-紅外(RGB-Thermal, RGB-T)信息可以幫助解決光照變化的問(wèn)題[4-5]。上述兩種方法依然無(wú)法解決尺度變化問(wèn)題,并且在可見(jiàn)光信息弱化時(shí)可能導(dǎo)致跟蹤失敗。激光雷達(dá)獲取的點(diǎn)云數(shù)據(jù)保留了物體的幾何信息,在三維空間中給出了接近真實(shí)的物體描述,是避免尺度變化的首選表示方法[6]。

        目前,可實(shí)現(xiàn)點(diǎn)云三維單目標(biāo)跟蹤的有基于點(diǎn)級(jí)特征跟蹤器以及基于體素級(jí)特征跟蹤器這兩大類(lèi)方法。基于點(diǎn)級(jí)特征跟蹤器有:Giancola等[7]基于正則化三維形狀補(bǔ)全(Shape Completion for 3D, SC3D)的思想,在理想前提下使用卡爾曼濾波器,采用余弦相似度比較候選對(duì)象潛層語(yǔ)義信息定位目標(biāo);Qi等[8]基于真實(shí)場(chǎng)景提出了P2B(Point-to-Box)方法,利用PointNet++[9]增強(qiáng)跟蹤目標(biāo)關(guān)鍵點(diǎn)特征,并基于VoteNet[10]設(shè)計(jì)網(wǎng)絡(luò)用于回歸潛在的目標(biāo)中心;Fang等[11]基于PointNet++編碼器,采用點(diǎn)級(jí)別特征的互相關(guān)操作設(shè)計(jì)3D-SiamRPN(3D-Siamese Region Proposal Network)通過(guò)區(qū)域提案網(wǎng)絡(luò)確定最終的三維邊界框?;隗w素級(jí)特征跟蹤器有:Zarzar等[12]提出了一個(gè)二維到三維形狀補(bǔ)全(2D and 3D Shape Completion, 2D-SC3D)孿生跟蹤網(wǎng)絡(luò),將原始點(diǎn)云體素化生成鳥(niǎo)瞰偽圖代替窮舉搜索,理想化選擇候選對(duì)象。

        基于點(diǎn)級(jí)特征的跟蹤器對(duì)點(diǎn)的位置信息直接進(jìn)行建模,著眼于代表目標(biāo)部分的關(guān)鍵點(diǎn)實(shí)現(xiàn)跟蹤,脫離了目標(biāo)整體信息;基于體素級(jí)特征的跟蹤器對(duì)原始點(diǎn)云進(jìn)行體素劃分,能夠利用被跟蹤物體的整體信息,但是會(huì)受到點(diǎn)云特征壓縮后細(xì)節(jié)信息不突出的影響。以上兩類(lèi)跟蹤器均受到了點(diǎn)云數(shù)據(jù)稀疏性導(dǎo)致的信息缺失影響,以及物體位置改變帶來(lái)的形變影響。

        針對(duì)上述問(wèn)題,本文提出了體素級(jí)的提案聚合網(wǎng)絡(luò)(Proposal-based Aggregation Network, PA-Net),在利用被跟蹤物體整體信息實(shí)現(xiàn)區(qū)域提案后,進(jìn)一步在最佳提案的感興趣區(qū)域(Region of Interest,RoI)精細(xì)化確定物體的中心。相較于傳統(tǒng)鳥(niǎo)瞰偽圖的生成形式,PA-Net通過(guò)將點(diǎn)云數(shù)據(jù)分割成空間中的柵格體素,并整合每個(gè)體素中的各個(gè)點(diǎn)生成統(tǒng)一特征表示,包含了更加豐富的幾何信息,更適合于三維目標(biāo)跟蹤。PA-Net主要由3個(gè)模塊構(gòu)成:1)模塊一設(shè)計(jì)為一個(gè)分離式注意力機(jī)制模塊,通過(guò)空間和跨通道注意力機(jī)制兩部分來(lái)增加感受野,豐富了原始點(diǎn)云稀疏的特征;2)模塊二用基于錨框的深度互相關(guān)孿生區(qū)域提案子網(wǎng)給出最佳提案,并給出了目標(biāo)在搜索區(qū)域的整體方位;3)模塊三根據(jù)最佳提案提取感興趣區(qū)域目標(biāo)特征,并提出了稀疏調(diào)制可變形卷積層,運(yùn)用L1范數(shù)正則化,使得卷積核在擁有權(quán)重和偏移變量的同時(shí)受到稀疏矩陣的約束,更適應(yīng)點(diǎn)云稀疏性的特征并解決了形變問(wèn)題,在聚合預(yù)測(cè)結(jié)果后確定最終的邊界框中心及偏轉(zhuǎn)角度。在KITTI數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,與當(dāng)前先進(jìn)的三維點(diǎn)云單目標(biāo)跟蹤方法相比,PA-Net對(duì)于各類(lèi)物體,在跟蹤成功率和精確率兩個(gè)評(píng)價(jià)指標(biāo)上都取得了更好的性能,并且對(duì)于同類(lèi)物體,模型具備一定魯棒性。

        本文的主要工作如下:

        1)構(gòu)建了從整體信息定位到精細(xì)化確定物體中心的體素級(jí)提案聚合網(wǎng)絡(luò),解決了面向點(diǎn)云的三維單目標(biāo)跟蹤問(wèn)題。

        2)設(shè)計(jì)了稀疏調(diào)制可變形卷積層,并聯(lián)合分離式注意力機(jī)制模塊豐富了提取的特征,減少了由點(diǎn)云稀疏性帶來(lái)的負(fù)面影響,解決了跟蹤過(guò)程中的形變問(wèn)題。

        3)設(shè)計(jì)了利用最佳提案聚合感興趣區(qū)域目標(biāo)特征與模板特征來(lái)預(yù)測(cè)中心,實(shí)現(xiàn)了端到端的單階段輸出,避免了多階段網(wǎng)絡(luò)產(chǎn)生的計(jì)算冗余。

        1 相關(guān)工作

        1.1 孿生區(qū)域提案網(wǎng)絡(luò)

        基于孿生網(wǎng)絡(luò)的方法在可見(jiàn)光圖像跟蹤方面發(fā)展迅速,利用兩個(gè)權(quán)值共享分支,通過(guò)模板與搜索區(qū)域的相關(guān)性度量實(shí)現(xiàn)跟蹤。文獻(xiàn)[13]中提出了基于錨框定位的區(qū)域建議網(wǎng)絡(luò),通過(guò)回歸中心以及邊界框長(zhǎng)寬來(lái)確定跟蹤結(jié)果。改進(jìn)孿生區(qū)域提案網(wǎng)絡(luò)SiamRPN++[14]在上述基礎(chǔ)上提出了一種深度可分離的相關(guān)結(jié)構(gòu),減少了參數(shù)量,增強(qiáng)了目標(biāo)跟蹤的穩(wěn)定性和整體性能。由于二維圖像跟蹤中存在的尺度變換問(wèn)題,往往利用兩階段的方法:對(duì)第一階段的回歸結(jié)果建立候選對(duì)象,第二階段在候選對(duì)象中進(jìn)行進(jìn)一步的結(jié)果確定?;趫D像的二維卷積網(wǎng)絡(luò)體系結(jié)構(gòu),無(wú)法直接應(yīng)用于三維點(diǎn)云數(shù)據(jù),首先需要通過(guò)體素特征提取的方式,將原始點(diǎn)云轉(zhuǎn)換為二維偽圖像。

        1.2 基于柵格的鳥(niǎo)瞰偽圖特征提取

        基于體素提取點(diǎn)云特征的網(wǎng)絡(luò)通常都用在三維點(diǎn)云目標(biāo)檢測(cè)問(wèn)題中。體素網(wǎng)絡(luò)VoxelNet[15]作為體素網(wǎng)絡(luò)里程碑式的方法,在三維目標(biāo)檢測(cè)上取得了令人滿意的效果。Yan等[16]提出了SECOND(Sparsely Embedded CONvolutional Detection)稀疏卷積方法,利用稀疏卷積網(wǎng)絡(luò)提高了VoxelNet的計(jì)算效率。這兩種方法的特征提取過(guò)程需要用到三維卷積運(yùn)算,對(duì)于時(shí)間和計(jì)算資源的消耗很大,很難應(yīng)用于實(shí)時(shí)性要求強(qiáng)的跟蹤場(chǎng)景。

        Lang等[17]提出了一個(gè)名為點(diǎn)柵格PointPillars的檢測(cè)器,將原始點(diǎn)云通過(guò)柵格化的形式轉(zhuǎn)換成鳥(niǎo)瞰偽圖,在目標(biāo)檢測(cè)問(wèn)題的精度和速度上都有優(yōu)勢(shì)。PointPillars指出,在點(diǎn)云場(chǎng)景下,鳥(niǎo)瞰的俯視形式避免了前視、側(cè)視中帶來(lái)的遮擋,能夠盡量多地在二維空間中保留物體的位置信息。文獻(xiàn)[12]中將點(diǎn)云數(shù)據(jù)直接依照視圖形式轉(zhuǎn)換成鳥(niǎo)瞰圖像。本文方法的具體操作為:基于點(diǎn)柵格形式將原始點(diǎn)云轉(zhuǎn)化為二維偽圖像,相較于傳統(tǒng)的鳥(niǎo)瞰圖像擁有更豐富的幾何信息;利用PointPillars思想,通過(guò)保留深度范圍,不對(duì)該維度進(jìn)行體素劃分,將方格體素轉(zhuǎn)變?yōu)闁鸥耋w素,來(lái)學(xué)習(xí)的點(diǎn)云特征;利用全連接網(wǎng)絡(luò)可以將深度方向的信息壓縮至單位柵格體素中,將學(xué)習(xí)到的點(diǎn)云特征編碼為二維偽圖像,在此基礎(chǔ)上可以實(shí)現(xiàn)二維卷積網(wǎng)絡(luò)體系結(jié)構(gòu)的應(yīng)用。借助此方法的初步點(diǎn)云特征提取能夠降低網(wǎng)絡(luò)計(jì)算的時(shí)間消耗,使其滿足三維單目標(biāo)跟蹤的實(shí)時(shí)性要求。

        1.3 可變形注意力機(jī)制結(jié)構(gòu)

        注意力機(jī)制的運(yùn)用能夠幫助獲取所有輸入的全局依賴性以及更加詳細(xì)的信息[18]。雙流注意力機(jī)制網(wǎng)絡(luò)(Dual Attention Networks, DANet)方法[19]采用了雙重注意力模塊,同時(shí)考慮了每個(gè)空間位置和通道的相關(guān)性,成功運(yùn)用在語(yǔ)義分割領(lǐng)域。Dai等[20]提出了可變形卷積網(wǎng)絡(luò)來(lái)處理目標(biāo)檢測(cè)中的變形問(wèn)題,為卷積核的每個(gè)點(diǎn)學(xué)習(xí)一個(gè)新的偏移量,有助于匹配對(duì)象的實(shí)際形狀,使得卷積區(qū)域始終覆蓋在目標(biāo)周?chē)hu等[21]在此基礎(chǔ)上進(jìn)一步給卷積核的點(diǎn)施加額外的調(diào)制權(quán)重,以此來(lái)增加特征處理自由度,增強(qiáng)了網(wǎng)絡(luò)的表達(dá)能力。Yu等[22]結(jié)合了注意力機(jī)制和可變形卷積的優(yōu)點(diǎn),提出了可變形注意力機(jī)制網(wǎng)絡(luò)(deformable Siamese attention networks,Siamattn),在基于可見(jiàn)光圖像的跟蹤問(wèn)題中使用了一個(gè)可變形的注意力機(jī)制模塊,使得目標(biāo)對(duì)干擾和背景具有更強(qiáng)的辨別力。受到上述方法啟發(fā),本文設(shè)計(jì)了一個(gè)新的分離式注意力模塊,對(duì)于卷積之前的特征從寬、高兩個(gè)維度分別運(yùn)用注意力機(jī)制,以集成更多的空間信息,豐富特征。在卷積之后使用跨通道注意力模塊來(lái)融合更多的通道特征。為了更好適應(yīng)特征稀疏的場(chǎng)景,對(duì)于調(diào)制可變形卷積的卷積核施加L1正則化約束,使得卷積核在受到偏移量、調(diào)制權(quán)重的約束下進(jìn)一步變?yōu)橄∈杈仃?。稀疏調(diào)制可變形卷積層只在最終輸出層使用,在增強(qiáng)幾何信息的同時(shí)平衡時(shí)間消耗。

        2 提案聚合網(wǎng)絡(luò)模型

        真實(shí)場(chǎng)景下的點(diǎn)云三維單目標(biāo)跟蹤是通過(guò)在第一幀給出目標(biāo)及其位置的條件下,逐幀對(duì)搜索區(qū)域內(nèi)的目標(biāo)進(jìn)行定位。提案聚合網(wǎng)絡(luò)PA-Net利用整體信息實(shí)現(xiàn)區(qū)域提案并聚合RoI的目標(biāo)特征與模板進(jìn)一步確定物體的中心。PA-Net由3個(gè)主要模塊組成,如圖1所示:1)分離式注意力機(jī)制模塊;2)基于錨框的深度互相關(guān)孿生區(qū)域提案子網(wǎng);3)基于目標(biāo)-模板聚合特征的稀疏調(diào)制可變形卷積子網(wǎng)。

        圖1 提案聚合網(wǎng)絡(luò)(PA-Net)的整體結(jié)構(gòu)Fig. 1 Overall structure of Proposal-based Aggregation Network (PA-Net)

        2.1 點(diǎn)云特征提取

        原始點(diǎn)云中的每一個(gè)點(diǎn)的表達(dá)式是一個(gè)4維向量,分別由空間坐標(biāo)位置(x,y,z)以及反射率r構(gòu)成。首先為模板和搜索區(qū)域設(shè)置不同的裁剪區(qū)域范圍(x-y平面不同,z平面相同)保證網(wǎng)格大小相同。設(shè)置了范圍和網(wǎng)格大小,即確定了鳥(niǎo)瞰偽圖像的空間大小,詳見(jiàn)3.2.1節(jié)實(shí)驗(yàn)設(shè)置。

        模板分支如圖2所示。將這些點(diǎn)按照其位置離散成不同的柵格,并將原始點(diǎn)的維度與柵格中所有點(diǎn)的算術(shù)平均值距離和從柵格中心到x-y平面的偏移進(jìn)行拼接。對(duì)于每個(gè)柵格,形成維度為的特征向量,由于點(diǎn)云的稀疏性,包含的點(diǎn)的數(shù)量是不同的,根據(jù)不同的目標(biāo),將每根柱子上的最大點(diǎn)數(shù)設(shè)為45,如果數(shù)據(jù)量太少,則采用零填充,通過(guò)全連接網(wǎng)絡(luò)擴(kuò)展特征后,獲得維度為的柵格特征,并按照柵格的位置索引重新填充至原來(lái)的空間位置,最終獲得形狀大小為(C,h,w)的模板鳥(niǎo)瞰偽圖以及形狀大小為(C,H,W)的搜索區(qū)域鳥(niǎo)瞰偽圖。

        圖2 點(diǎn)云柵格化特征提取Fig. 2 Rasterized feature extraction for point cloud

        2.2 分離式注意力機(jī)制模塊

        卷積神經(jīng)網(wǎng)絡(luò)使用局部感受野進(jìn)行特征的提取,沒(méi)有綜合考慮各個(gè)位置的聯(lián)系和相關(guān)性。對(duì)于通道間的相關(guān)性也應(yīng)著重考慮,使用空間注意力機(jī)制能夠使每個(gè)位置都融合了其他空間位置信息。

        式中,以寬方向?yàn)槔ㄟ^(guò)卷積層將原始特征通道維度(C)壓縮至來(lái)獲取查詢鍵Q和重點(diǎn)鍵K并調(diào)整到形為(),通過(guò)矩陣乘法和列softmaxcol操作獲得寬自注意力特征AW。

        圖3 空間注意力機(jī)制模塊結(jié)構(gòu)Fig. 3 Structure of spatial attention mechanism module

        值特征VW也通過(guò)卷積層生成,在調(diào)整形狀后與AW相乘并通過(guò)殘差連接將標(biāo)量參數(shù)與原始特征相加,最終獲得寬維度自注意力特征FW,如式(2),同時(shí)重塑回原始形狀大小。

        同樣的做法下獲得高方向自注意力特征FH,最終通過(guò)元素加方式融合FH和FW得到空間自注意力特征XA。

        傳統(tǒng)通道注意力機(jī)制中,只考慮了單一的特征圖通道與通道間的關(guān)系;而在跟蹤過(guò)程中,文獻(xiàn)[22]中提出了一種融合模板與搜索區(qū)域通道注意力機(jī)制的方法,使得模板和搜索區(qū)域的每個(gè)通道融合了自身其他通道的信息。參照空間注意力機(jī)制的做法,能夠分別獲得模板以及搜索區(qū)域的跨通道注意力機(jī)制特征,如圖4所示。

        圖4 跨通道注意力機(jī)制模塊結(jié)構(gòu)Fig. 4 Structure of cross-channel attention mechanism module

        卷積之前的特征圖,存在通道少但是寬高較大的特點(diǎn),對(duì)于使用空間注意力機(jī)制更加有利,每個(gè)位置能融合更多位置的信息。而經(jīng)過(guò)多次卷積后的特征圖則恰恰相反,將跨通道注意力機(jī)制運(yùn)用到卷積后的特征圖,能夠融合到更多深層維度信息。因此將這兩部分分離,分別作用于卷積前后。

        2.3 基于錨框的深度互相關(guān)孿生區(qū)域提案子網(wǎng)

        模塊二的特征學(xué)習(xí)采用了自上而下的卷積結(jié)構(gòu)生成多個(gè)分辨率生成特征,并使用跨通道注意力模塊融合模板和搜索區(qū)域信息,集成相應(yīng)特征。在使用卷積神經(jīng)網(wǎng)絡(luò)的方式提取圖像特征時(shí),往往通過(guò)加深網(wǎng)絡(luò)層數(shù)、增加卷積核的大小的方式來(lái)?yè)Q取特征通道數(shù)的增加,從而提取到更復(fù)雜的特征。這樣的做法不可避免地帶來(lái)了空間分辨率下降的缺陷,導(dǎo)致空間信息丟失。為了平衡這一特點(diǎn)的優(yōu)劣,本文采用多分辨率提取方法,在卷積下采樣提取特征的同時(shí),針對(duì)產(chǎn)生的不同分辨率特征圖分別進(jìn)行自注意力機(jī)制運(yùn)算,最后在統(tǒng)一空間分辨率的基礎(chǔ)上,融合不同分辨率下的注意力特征,如圖5所示。

        對(duì)于原始特征圖,卷積神經(jīng)網(wǎng)絡(luò)分別進(jìn)行2倍、4倍以及8倍的下采樣,對(duì)于每一次卷積下采樣的特征圖,首先使用跨通道注意力機(jī)制模塊得到不同分辨率大小的注意力特征圖,隨后分別進(jìn)行1倍、2倍以及4倍上采樣,從而能獲得3張高和寬大小為原始特征圖的一半、通道數(shù)為原始特征圖的4倍且空間分辨率一致的注意力特征圖。

        與傳統(tǒng)的串聯(lián)特征方式不同,參考文獻(xiàn)[14]中利用深度互相關(guān)層代替?zhèn)鹘y(tǒng)互相關(guān),本文對(duì)于各個(gè)分辨率特征先進(jìn)行互相關(guān),如式(3)所示:

        式中:模板空間注意力特征ZA與搜索區(qū)域空間注意力特征XA在卷積塊嵌入函數(shù)的作用后在互相關(guān)層進(jìn)行組合;“*”操作代表以ZA在空域上的特征映射作為卷積核,在XA空域特征映射上進(jìn)行卷積操作,從而實(shí)現(xiàn)在空間區(qū)域搜索模板的操作;bc代表各個(gè)位置的偏差值。

        隨后通過(guò)分類(lèi)融合卷積塊以及錨框偏移融合卷積塊,對(duì)于得到的前背景分類(lèi),從中確定前景置信度最高的最優(yōu)區(qū)域索引,根據(jù)該索引在錨框偏移中確定回歸變量從而可以確定最佳提案。設(shè)定預(yù)定義的錨框,可以使得訓(xùn)練過(guò)程穩(wěn)定快速,詳見(jiàn)3.2.2節(jié)中的實(shí)驗(yàn)設(shè)置。深度互相關(guān)的做法可以有效降低計(jì)算成本和內(nèi)存使用,圖5中各個(gè)卷積塊的具體參數(shù)設(shè)置在表1中給出。

        2.4 基于目標(biāo)-模板聚合特征的稀疏調(diào)制可變形卷積子網(wǎng)

        PA-Net在模塊二中獲得最佳提案后,在模塊三中利用感興趣區(qū)域池化在搜索區(qū)域注意力特征中確定物體所在位置。為了獲取物體在跟蹤過(guò)程中的狀態(tài)變化信息,將池化選擇的目標(biāo)特征與原始模板特征在通道維度級(jí)聯(lián),實(shí)現(xiàn)特征聚合來(lái)保證信息獲取的完整性。非剛性物體以及剛性物體朝向改變引起目標(biāo)形變問(wèn)題,使用傳統(tǒng)卷積中的固定卷積核難以覆蓋目標(biāo)所在的完全區(qū)域得到詳細(xì)的幾何信息。在文獻(xiàn)[23]的啟發(fā)下,本文提出了稀疏調(diào)制可變形卷積,如圖6所示。

        圖5 卷積與深度互相關(guān)示意圖Fig. 5 Schematic diagram of convolution and deep cross-correlation

        表1 卷積模塊參數(shù)設(shè)置Tab. 1 Parameter setting of convolution modules

        對(duì)于輸入的聚合特征,實(shí)現(xiàn)三分支、相同大小預(yù)測(cè)圖的輸出,分別對(duì)應(yīng)中心位置、中心偏差以及偏轉(zhuǎn)角度。根據(jù)中心位置的最佳預(yù)測(cè),相對(duì)應(yīng)地來(lái)確定最終邊界框的中心偏差大小以及偏轉(zhuǎn)角度。與此同時(shí),中心偏差會(huì)聚合前一階段最佳提案的預(yù)測(cè)中心來(lái)確定物體最終的中心位置,以此實(shí)現(xiàn)精確化的中心定位。

        圖6 稀疏調(diào)制可變形卷積結(jié)構(gòu)Fig. 6 Structure of sparse modulated deformable convolution

        2.5 損失函數(shù)

        模塊二中的分類(lèi)損失Lcls參照了焦點(diǎn)損失[24]。首先,根據(jù)錨框的設(shè)定使用正閾值(positive_threshold)或者負(fù)閾值(negative_threshold)來(lái)匹配概率pa,如式(5)。在此基礎(chǔ)上設(shè)置了一個(gè)平滑的標(biāo)記Ts,以此來(lái)增強(qiáng)分類(lèi)的泛化能力,防止過(guò)度擬合。

        式中:Ts設(shè)定為0.01;Ia表示錨框與真實(shí)框的重合比例IoU(Intersection over Union)。通過(guò)Ts對(duì)pa的約束,可以改進(jìn)得到本文使用的帶參數(shù)懲罰的焦點(diǎn)損失,如式(6):

        模塊二中的框回歸損失Lreg、模塊三中的中心損失Lctr以及角度損失Lrot,均使用SmoothL1損失函數(shù)[25]。模塊二中只對(duì)水平方向參數(shù)進(jìn)行回歸來(lái)確定提案,如式(7)所示:

        稀疏調(diào)制可變形卷積中的L1正則化約束作為L(zhǎng)spa參與損失函數(shù)的運(yùn)算,如式(10),權(quán)重wk參照式(4)。

        將上述所有損失匯總為提案聚合網(wǎng)絡(luò)的最終損失L,如式(11):

        3 實(shí)驗(yàn)與結(jié)果分析

        3.1 實(shí)驗(yàn)環(huán)境

        實(shí)驗(yàn)在硬件環(huán)境為Inter Core i7-8700CPU @3.20 GHz、64 GB內(nèi)存、Nvidia 1080Ti顯卡,軟件環(huán)境為Ubuntu16.04、Python3.7、Pytorch1.1.0的平臺(tái)上進(jìn)行訓(xùn)練和測(cè)試。

        實(shí)驗(yàn)用的數(shù)據(jù)集基于KITTI跟蹤數(shù)據(jù)集[26],僅使用點(diǎn)云數(shù)據(jù)。利用21個(gè)室外場(chǎng)景和4種不同類(lèi)型的目標(biāo)物體測(cè)試了PA-Net的性能,為了公平比較實(shí)驗(yàn)結(jié)果,在數(shù)據(jù)集分割、跟蹤序列生成和評(píng)估度量中均遵循了文獻(xiàn)[8]中的設(shè)置。數(shù)據(jù)集分為以下幾個(gè)部分:場(chǎng)景0~16用于訓(xùn)練,場(chǎng)景17~18用于驗(yàn)證,場(chǎng)景19~20用于測(cè)試。通過(guò)在一個(gè)場(chǎng)景中連接每一幀來(lái)生成跟蹤序列,在序列中跟蹤目標(biāo)出現(xiàn)并提供真實(shí)邊界框(Ground Truth, GT)。在汽車(chē)(Car)類(lèi)別上做了綜合性實(shí)驗(yàn),在其他的類(lèi)別如貨車(chē)(Van)、騎車(chē)人(Cyclist)、行人(Pedestrian)上做了擴(kuò)展性實(shí)驗(yàn),消融實(shí)驗(yàn)在汽車(chē)類(lèi)別上進(jìn)行。評(píng)估指標(biāo)設(shè)置為單目標(biāo)跟蹤的一次評(píng)估(One Pass Evaluation, OPE)[27]。成功率被定義為預(yù)測(cè)框和GT之間的IoU的接受者操作特性(Receiver Operating Characteristic, ROC)曲線下面積(Area Under Curve, AUC)。精確率定義為0~2 m的誤差下中心之間歐氏距離的AUC。

        3.2 實(shí)驗(yàn)設(shè)置

        3.2.1 柵格化細(xì)節(jié)

        對(duì)于汽車(chē)以及貨車(chē)類(lèi)的三維空間范圍內(nèi)的模板裁剪區(qū)域的水平范圍x、y設(shè)置為,高度范圍z設(shè)置為;搜索區(qū)域的水平范圍設(shè)置為,高度設(shè)置為;網(wǎng)格大小的水平分辨率為0.16 m。對(duì)于騎車(chē)人和行人,模板的裁剪區(qū)域水平范圍設(shè)置為;搜索區(qū)域的水平范圍設(shè)置為,高度范圍不變;相應(yīng)的網(wǎng)格水平分辨率為0.04 m。

        3.2.2 錨框細(xì)節(jié)

        汽車(chē)和貨車(chē)的錨框的寬度、長(zhǎng)度和高度設(shè)置為(1.60,3.90,1.56) m,在匹配操作中的正負(fù)閾值分別設(shè)置為0.60和0.45。對(duì)于行人,錨框的寬度、長(zhǎng)度和高度為(0.60,0.80,1.73) m,正負(fù)閾值分別為0.70和0.35。騎車(chē)人的錨框?qū)挾?、長(zhǎng)度和高度為(0.60,1.76,1.73) m,匹配使用0.50和0.35的正負(fù)閾值。

        3.2.3 訓(xùn)練

        展會(huì)期間,多個(gè)全球印刷行業(yè)的重要會(huì)議及商會(huì)、協(xié)會(huì)等行業(yè)組織的行業(yè)交流活動(dòng)會(huì)舉辦,展會(huì)形成了一個(gè)促進(jìn)全球印刷行業(yè)交流發(fā)展的平臺(tái)。

        隨著跟蹤物體軌跡的變化,模板采集到的點(diǎn)云數(shù)量也會(huì)隨著跟蹤過(guò)程增加或減少,更新模板的過(guò)程會(huì)對(duì)跟蹤的實(shí)際效果產(chǎn)生影響。對(duì)于模板的更新策略,本文采用第一幀GT和上一幀預(yù)測(cè)框中的點(diǎn)云數(shù)據(jù)進(jìn)行合并后采樣的融合更新策略(模板統(tǒng)一采樣點(diǎn)數(shù)量為512),如圖7所示,既保留了被跟蹤物體的初始信息,同時(shí)也融合進(jìn)了目標(biāo)跟蹤過(guò)程的狀態(tài)變化信息。為了增加訓(xùn)練樣本,在上一個(gè)GT上添加微小的隨機(jī)偏移來(lái)擴(kuò)充數(shù)據(jù)。

        圖7 模板點(diǎn)云合并采樣的融合結(jié)果(汽車(chē))Fig. 7 Fusion result of merged sampling of template point cloud(Car)

        搜索區(qū)域樣本的采樣點(diǎn)數(shù)量統(tǒng)一為1 024,根據(jù)不同類(lèi)別將上一幀的預(yù)測(cè)框的長(zhǎng)寬進(jìn)行固定大小的放大,具體為:汽車(chē)和貨車(chē)設(shè)置為2 m,騎車(chē)人設(shè)置為0.6 m,行人設(shè)置為0.3 m。訓(xùn)練過(guò)程的優(yōu)化器使用Adam優(yōu)化器[28],初始學(xué)習(xí)率為0.001,經(jīng)過(guò)10個(gè)周期后下降80%。批大小設(shè)置為16。PA-Net在大約100個(gè)周期后可以獲得令人滿意的結(jié)果,訓(xùn)練中損失函數(shù)的收斂曲線如圖8所示。

        圖8 訓(xùn)練與驗(yàn)證中的損失函數(shù)曲線Fig. 8 Curves of loss in training and validation

        3.2.4 測(cè)試

        為了逐幀推斷跟蹤序列中的三維邊界框,首先將第一個(gè)GT中的點(diǎn)云數(shù)據(jù)作為模板,將后續(xù)預(yù)測(cè)結(jié)果中的點(diǎn)云與之相合并形成新的模板。與訓(xùn)練過(guò)程相似,在當(dāng)前幀中,將前一幀的搜索結(jié)果擴(kuò)大了2 m(汽車(chē)和貨車(chē))、0.6 m(騎車(chē)人)和0.3 m(行人)。

        3.3 綜合性實(shí)驗(yàn)

        實(shí)驗(yàn)選擇汽車(chē)類(lèi),在相同數(shù)據(jù)集劃分下將PA-Net與SC3D[7]、2D-SC3D[12]、P2B[8]以及3D-SiamRPN[11]進(jìn)行比較,結(jié)果見(jiàn)表2。搜索區(qū)域分別基于對(duì)前一幀預(yù)測(cè)、前一幀GT或當(dāng)前幀GT生成?;诋?dāng)前幀GT與前一幀GT是理想化情況,在滿足實(shí)際跟蹤要求的前提下,對(duì)短期跟蹤性能進(jìn)行評(píng)估。PA-Net在兩種理想情況下的性能都相較其他方法有了較大提高,可以看出PA-Net在短期跟蹤性能上擁有優(yōu)勢(shì)。

        重點(diǎn)討論真實(shí)跟蹤場(chǎng)景中使用前一幀測(cè)試的結(jié)果,不依賴于GT。從表2中可以看出,PA-Net無(wú)論在成功率還是精確率上都相較其他方法有所提高,分別將指標(biāo)提高到59.0%、75.2%,相較于后一名的57.3%、75.0%,分別提升了1.7個(gè)百分點(diǎn)、0.2個(gè)百分點(diǎn)。以下所有實(shí)驗(yàn)都是基于前一幀預(yù)測(cè),以符合現(xiàn)實(shí)場(chǎng)景。

        3.4 擴(kuò)展性實(shí)驗(yàn)

        PA-Net在擴(kuò)展性實(shí)驗(yàn)上同樣取得了較好的效果,將其在汽車(chē)、貨車(chē)、騎車(chē)人和行人類(lèi)別上同3.3節(jié)中列舉的方法進(jìn)行了比較,如表3所示。由表3可以看出,PA-Net在所有類(lèi)別上均優(yōu)于其他方法,4種類(lèi)別的平均成功率、平均精確率分別為47.5%、67.7%,相較于后一名的46.7%、64.9%,分別提升了0.8個(gè)百分點(diǎn)、2.8個(gè)百分點(diǎn)。值得注意的是,PA-Net在貨車(chē)以及騎車(chē)人類(lèi)上存在顯著優(yōu)勢(shì),意味著PA-Net可以用更少的訓(xùn)練數(shù)據(jù)來(lái)學(xué)習(xí)目標(biāo)的整體并預(yù)測(cè)實(shí)際中心。

        為了測(cè)試模型的魯棒性,考慮到貨車(chē)與汽車(chē)相似,而騎車(chē)人類(lèi)別可能包含行人的潛在信息,因此使用在汽車(chē)類(lèi)上訓(xùn)練的模型來(lái)測(cè)試貨車(chē),使用在自行車(chē)上訓(xùn)練的模型來(lái)測(cè)試行人,貨車(chē)的成功率、精確率分別為40.9%、48.3%,行人的成功率、精確率分別為33.0%、65.1%,相較于原始模型性能有一定下降,但也能反映出模型具有一定的魯棒性。

        表2 汽車(chē)類(lèi)上不同方法的綜合性實(shí)驗(yàn)結(jié)果Tab. 2 Comprehensive experimental results of different methods on Car

        表3 不同方法的多類(lèi)別擴(kuò)展性實(shí)驗(yàn)結(jié)果Tab. 3 Extensive experimental results on different categories of different methods

        3.5 消融實(shí)驗(yàn)

        針對(duì)PA-Net的特征豐富層以及聚合回歸層進(jìn)行了5組消融實(shí)驗(yàn)進(jìn)行對(duì)比,結(jié)果如表4所示。表4中對(duì)特征豐富層的分離式注意力機(jī)制模塊進(jìn)行了消融實(shí)驗(yàn),在聚合回歸層同為傳統(tǒng)卷積的情況下分別比較了特征豐富層使用無(wú)注意力機(jī)制的原始特征、將空間注意力機(jī)制和跨通道注意力機(jī)制并行使用下獲得的注意力特征,以及分離式注意力機(jī)制特征下汽車(chē)類(lèi)別上的結(jié)果。通過(guò)比較可以發(fā)現(xiàn),注意力機(jī)制進(jìn)一步豐富了特征,為模型也提供了更多有效信息,提高了跟蹤精度。分離式注意力機(jī)制依照特征圖的特性而設(shè)計(jì),相較單純地并行使用注意力機(jī)制性能有了進(jìn)一步的提升。

        在特征豐富層使用分離式注意力機(jī)制的條件下,對(duì)聚合回歸層的稀疏調(diào)制可變形卷積使用進(jìn)行消融實(shí)驗(yàn),見(jiàn)表4,對(duì)比了使用傳統(tǒng)卷積、調(diào)制可變形卷積以及本文的稀疏調(diào)制可變形卷積的最終結(jié)果??梢钥闯觯勺冃尉矸e的使用對(duì)于性能的提升較大,進(jìn)一步驗(yàn)證了物體在跟蹤過(guò)程中的形變問(wèn)題主要反映在邊界框旋轉(zhuǎn)角度的變化以及非剛性體的運(yùn)動(dòng)狀態(tài)變化,通過(guò)改變卷積核形狀能夠使得感受野的覆蓋更加全面進(jìn)而得到更精確的結(jié)果。同時(shí),稀疏化權(quán)重矩陣所帶來(lái)的性能提升也表明,對(duì)于存在稀疏性問(wèn)題的跟蹤任務(wù),稀疏調(diào)制可變形卷積起到了改善效果。

        本文在特征豐富層使用分離式注意力機(jī)制、在聚合回歸層使用稀疏調(diào)制可變性卷積的組合方法取得了最佳的成功率和精確率,進(jìn)一步驗(yàn)證了本文方法在點(diǎn)云三維單目標(biāo)跟蹤中能夠提升精確度。

        表4 PA-Net在汽車(chē)類(lèi)上特征豐富層與聚合回歸層的消融實(shí)驗(yàn)結(jié)果 單位:%Tab. 4 Ablation experimental results of PA-Net in feature enriching layer and aggregated regression layer on Car unit:%

        3.6 定性分析

        在圖9中給出了兩種不同場(chǎng)景下,PA-Net與P2B的汽車(chē)跟蹤結(jié)果。由圖9結(jié)果可以看出,無(wú)論是在點(diǎn)云密集還是稀疏分布場(chǎng)景下,PA-Net都取得了更好的結(jié)果,尤其是在稀疏場(chǎng)景中,PA-Net的預(yù)測(cè)框更貼近真實(shí)框,并且在位置上保持穩(wěn)定。在發(fā)生場(chǎng)景突變的情況下,從密集幀到稀疏幀,PA-Net比P2B更有優(yōu)勢(shì),PA-Net的預(yù)測(cè)框比P2B的預(yù)測(cè)框更貼近目標(biāo)中心。

        對(duì)于上述兩種場(chǎng)景,圖10給出了物體的實(shí)際跟蹤軌跡。圖10(a)展示了長(zhǎng)時(shí)間跟蹤狀態(tài)下PA-Net、P2B的跟蹤軌跡與真實(shí)軌跡的對(duì)比結(jié)果,可以看出PA-Net的跟蹤軌跡更加貼近真實(shí)結(jié)果,且在過(guò)程中軌跡相對(duì)平滑,沒(méi)有發(fā)生突變,驗(yàn)證了PA-Net跟蹤的穩(wěn)定性。圖10(b)所示為短時(shí)間跟蹤場(chǎng)景的軌跡,通過(guò)點(diǎn)狀圖更加細(xì)節(jié)地展示了物體中心的實(shí)際位置,可以看出PA-Net相較P2B能夠更加準(zhǔn)確地貼近物體中心實(shí)現(xiàn)跟蹤,保持穩(wěn)定。

        圖9 汽車(chē)類(lèi)上PA-Net與P2B的跟蹤結(jié)果可視化對(duì)比Fig. 9 Visual comparison of PA-Net and P2B tracking results on Car

        圖11給出了消融實(shí)驗(yàn)不同特征豐富層下最終輸出得到的分類(lèi)熱力圖。經(jīng)過(guò)sigmoid函數(shù)約束后的中心位置預(yù)測(cè)值被約束到0~1,分為前景與背景兩類(lèi),越接近1代表是前景,即跟蹤物體中心的概率越大。從圖11(c)可以看出,在使用分離式注意力機(jī)制模塊下,目標(biāo)預(yù)測(cè)圖中的熱力值范圍更加集中,表明引用注意力特征對(duì)于分類(lèi)圖起到了積極影響,使得前景背景的區(qū)分更加清晰。

        圖10 汽車(chē)類(lèi)上PA-Net與P2B的跟蹤軌跡Fig. 10 Tracking trajectories of PA-Net and P2B on Car

        圖11 不同特征豐富層作用下的分類(lèi)熱力圖Fig. 11 Classification heat maps with different feature enriching layers

        對(duì)擴(kuò)展性實(shí)驗(yàn)的實(shí)際結(jié)果進(jìn)行可視化,在不同輸出層作用下對(duì)于物體中心預(yù)測(cè)的實(shí)際結(jié)果如圖12所示。對(duì)比圖12(a)與圖12(b)可知,可變形卷積的使用使得對(duì)于物體中心的預(yù)測(cè)更加精準(zhǔn)。對(duì)于點(diǎn)云分布較為稀疏的騎車(chē)人與貨車(chē)類(lèi)別,由圖12(c)可知,稀疏調(diào)制可變形卷積的使用使得對(duì)于物體跟蹤的邊界框回歸成功率以及中心預(yù)測(cè)精確率都有所提升。

        對(duì)應(yīng)圖12中的結(jié)果,表5給出了PA-Net預(yù)測(cè)的中心位置、中心補(bǔ)償以及偏轉(zhuǎn)角度,并將其與真實(shí)結(jié)果進(jìn)行了對(duì)比。對(duì)于三維空間中物體的中心,分別預(yù)測(cè)在三個(gè)維度方向上的值來(lái)共同確定,通過(guò)提案前景最優(yōu)置信度最優(yōu)區(qū)域?qū)?yīng)的中心回歸值,以及中心前景最優(yōu)置信度區(qū)域?qū)?yīng)的中心補(bǔ)償值相加可以得到PA-Net預(yù)測(cè)的物體中心,比較真實(shí)中心點(diǎn)的位置,三個(gè)維度值的偏差均在10%以內(nèi)。對(duì)于偏轉(zhuǎn)角度,采用弧度制預(yù)測(cè),實(shí)際的角度偏差在16%。由此可見(jiàn),PA-Net在對(duì)于跟蹤物體的中心預(yù)測(cè)以及邊界框偏轉(zhuǎn)角度的預(yù)測(cè)上可以滿足一定的精度要求。

        3.7 運(yùn)行速度

        表6給出了汽車(chē)類(lèi)別下不同方法的實(shí)際運(yùn)行速度。所有方法采用相同環(huán)境,在單個(gè)Nvidia 1080ti上進(jìn)行測(cè)試。由表6可以看出,在預(yù)處理階段3D-SiamRPN的運(yùn)行最快,僅用時(shí)0.5 ms。由于PA-Net在預(yù)處理階段進(jìn)行柵格體素切分生成偽圖,因此需要消耗較多時(shí)間,但在模型推理以及后處理模塊相較于其他兩種方法性能更優(yōu),消耗時(shí)間只需要5.6 ms以及0.3 ms??傮w上看,與P2B相比,PA-Net在總體運(yùn)行速度上仍存在進(jìn)一步提升的空間。

        圖12 不同輸出層作用下的物體邊界框以及中心預(yù)測(cè)Fig. 12 Prediction of object bounding box and center with different output layers

        表5 中心位置與偏轉(zhuǎn)角度預(yù)測(cè)的結(jié)果Tab. 5 Results of predicted center position and deflection angle

        表6 不同方法在汽車(chē)類(lèi)上的運(yùn)行速度Tab. 6 Running speeds of different methods on Car

        4 結(jié)語(yǔ)

        本文提出了一種解決點(diǎn)云三維單目標(biāo)跟蹤問(wèn)題的提案聚合網(wǎng)絡(luò)PA-Net,通過(guò)在最佳提案內(nèi)定位物體的中心來(lái)確定三維邊界框?qū)崿F(xiàn)跟蹤。本文方法利用分離式注意力機(jī)制模塊,采用空間和跨通道注意力機(jī)制豐富特征信息,并利用稀疏調(diào)制可變形卷積層針對(duì)模板和搜索區(qū)域深度互相關(guān)得到最佳提案預(yù)測(cè)物體中心,解決了點(diǎn)云稀疏以及形變的問(wèn)題。所提網(wǎng)絡(luò)整體采用了單階段輸出形式,避免了計(jì)算冗余。實(shí)驗(yàn)結(jié)果表明,PA-Net在不同實(shí)驗(yàn)環(huán)境下都有較大的優(yōu)越性。但體素柵格化的處理方式增加了在預(yù)處理階段的耗時(shí),在運(yùn)行速度上PA-Net仍存在一定的提升空間。下一階段將研究提高預(yù)處理階段的運(yùn)行效率并從點(diǎn)云數(shù)據(jù)中提取出更豐富和具有代表性的特征,在保證性能的同時(shí),在更具挑戰(zhàn)性的環(huán)境下進(jìn)行測(cè)試。

        [1] SMEULDERS A W M, CHU D M, CUCCHIARA R, et al. Visual tracking: an experimental survey [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2014, 36(7): 1442-1468.

        [2] SHAO L, SHAH P, DWARACHERLA V, et al. Motion-based object segmentation based on dense RGB-D scene flow [J]. IEEE Robotics and Automation Letters, 2018, 3(4): 3797-3804.

        [3] ZHOU Y, WANG T, HU R H, et al. Multiple Kernelized Correlation Filters (MKCF) for extended object tracking usingX-band marine radar data [J]. IEEE Transactions on Signal Processing, 2019, 67(14): 3676-3688.

        [4] LI C L, ZHU C L, HUANG Y, et al. Cross-modal ranking with soft consistency and noisy labels for robust RGB-T tracking [C]// Proceedings of the 2018 European Conference on Computer Vision, LNCS 11217. Cham: Springer, 2018:831-847.

        [5] ZHU Y B, LI C L, TANG J, et al. Quality-aware feature aggregation network for robust RGBT tracking [J]. IEEE Transactions on Intelligent Vehicles,2021, 6(1): 121-130.

        [6] 王紅艷,鄭伶杰,陳獻(xiàn)娜.簡(jiǎn)述激光雷達(dá)點(diǎn)云數(shù)據(jù)的處理應(yīng)用[J].資源導(dǎo)刊,2015(S2):44-45.(WANG H Y, ZHENG L J, CHEN X N. Brief introduction of the processing application of the point cloud data of lidar [J]. Resources Guide,2015(S2): 44-45.)

        [7] GIANCOLA S, ZARZAR J, GHANEM B. Leveraging shape completion for 3D Siamese tracking [C]// Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2019:1359-1368.

        [8] QI H Z, FENG C, CAO Z G, et al. P2B: point-to-box network for 3D object tracking in point clouds [C]// Proceedings of the 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2020:6328-6337.

        [9] QI C H, YI L, SU H, et al. PointNet++: deep hierarchical feature learning on point sets in a metric space [C]// Proceedings of the 2017 31st International Conference on Neural Information Processing Systems. Red Hook: Curran Associates Inc., 2017: 5105-5114.

        [10] QI C H, LITANY O, HE K M, et al. Deep Hough voting for 3D object detection in point clouds [C]// Proceedings of the 2019 IEEE/CVF International Conference on Computer Vision. Piscataway: IEEE, 2019: 9276-9285.

        [11] FANG Z, ZHOU S F, CUI Y B, et al. 3D-SiamRPN: an end-to-end learning method for real-time 3D single object tracking using raw point cloud [J]. IEEE Sensors Journal, 2021, 21(4): 4995-5011.

        [12] ZARZAR J, GIANCOLA S, GHANEM B. Efficient tracking proposals using 2D-3D Siamese networks on LIDAR [EB/OL]. [2021-02-13]. https://arxiv.org/pdf/1903.10168v1.pdf.

        [13] LI B, YAN J J, WU W, et al. High performance visual tracking with Siamese region proposal network [C]// Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018: 8971-8980.

        [14] LI B, WU W, WANG Q, et al. SiamRPN++: evolution of Siamese visual tracking with very deep networks [C]// Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2019:4277-4286.

        [15] ZHOU Y, TUZEL O. VoxelNet: end-to-end learning for point cloud based 3D object detection [C]// Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018:4490-4499.

        [16] YAN Y, MAO Y X, LI B. SECOND: sparsely embedded convolutional detection [J]. Sensors, 2018, 18(10): Article No.3337.

        [17] LANG A H, VORA S, CAESAR H, et al. PointPillars: fast encoders for object detection from point clouds [C]// Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2019:12689-12697.

        [18] NAM H, HA J W, KIM J. Dual attention networks for multimodal reasoning and matching [C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2017:2156-2164.

        [19] FU J, LIU J, TIAN H J, et al. Dual attention network for scene segmentation [C]// Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE,2019: 3141-3149.

        [20] DAI J F, QI H Z, XIONG Y W, et al. Deformable convolutional networks [C]// Proceedings of the 2017 IEEE International Conference on Computer Vision. Piscataway: IEEE, 2017:764-773.

        [21] ZHU X Z, HU H, LIN S, et al. Deformable ConvNets v2: more deformable, better results [C]// Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2019:9300-9308.

        [22] YU Y C, XIONG Y L, HUANG W Let al. Deformable Siamese attention networks for visual object tracking [C]// Proceedings of the 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE,2020: 6727-6736.

        [23] 尚麗,蘇品剛,周燕.基于改進(jìn)的快速稀疏編碼的圖像特征提?。跩].計(jì)算機(jī)應(yīng)用,2013,33(3):656-659.(SHANG L, SU P G,ZHOU Y. Image feature extraction based on modified fast sparse coding algorithm [J]. Journal of Computer Applications, 2013, 33(3): 656-659.)

        [24] LIN T Y, GOYAL P, GIRSHICK Ret al. Focal loss for dense object detection [C]// Proceedings of the 2017 IEEE International Conference on Computer Vision. Piscataway: IEEE, 2017:2999-3007.

        [25] SHAH J, QURESHI I, DENG Y M, et al. Reconstruction of sparse signals and compressively sampled images based on smoothl1-norm approximation [J]. Journal of Signal Processing Systems, 2017, 88(3): 333-344.

        [26] GEIGER A, LENZ P, URTASUN R. Are we ready for autonomous driving? the KITTI vision benchmark suite [C]// Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2012: 3354-3361.

        [27] WU Y, LIM J, YANG M H. Online object tracking: a benchmark [C]// Proceedings of the 2013 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2013:2411-2418.

        [28] KINGMA D P, BA J L. Adam: a method for stochastic optimization [EB/OL]. [2021-02-03]. https://arxiv.org/pdf/1412.6980.pdf.

        Proposal-based aggregation network for single object tracking in 3D point cloud

        ZHUANG Yi, ZHAO Haitao*

        (School of Information Science and Engineering,East China University of Science and Technology,Shanghai200237,China)

        Compared with 2D RGB-based images, 3D point clouds retain the real and rich geometric information of objects in space to deal with vision challenge with scale variation in the single object tracking problem. However, the precision of 3D object tracking is affected by the loss of information brought by the sparsity of point cloud data and the deformation caused by the object position changing. To solve the above two problems, a proposal-based aggregation network composed of three modules was proposed in an end-to-end learning pattern. In this network, the 3D bounding box was determined by locating object center in the best proposal to realize the single object tracking in 3D point cloud. Firstly, the point cloud data of both templates and search areas was transferred into bird’s-eye view pseudo images. In the first module, the feature information was enriched through spatial and cross-channel attention mechanisms. Then, in the second module, the best proposal was given by the anchor-based deep cross-correlation Siamese region proposal subnetwork. Finally, in the third module, the object features were extracted through region of interest pooling operation by the best proposal at first, and then,the object and template features were aggregated, the sparse modulated deformable convolution layer was used to deal with the problems of point cloud sparsity and deformation, and the final 3D bounding box was determined. Experimental results of the comparison between the proposed method and the state-of-the-art 3D point cloud single object tracking methods on KITTI dataset show that: in comprehensive experiment of car, the proposed method has improved 1.7 percentage points on success rate and 0.2 percentage points on precision in real scenes; in multi-category extensive experiment of car, van, cyclist and pedestrian, the proposed method has improved the average success rate by 0.8 percentage points, and the average precision by 2.8 percentage points, indicating that the proposed method can solve the single object tracking problem in 3D point cloud and make the 3D object tracking results more accurate.

        point cloud; object tracking; Siamese network; attention mechanism; deformable convolution

        TP399

        A

        1001-9081(2022)05-1407-10

        10.11772/j.issn.1001-9081.2021030533

        2021?04?08;

        2021?06?17;

        2021?06?17。

        莊屹(1996—),男,上海人,碩士研究生,主要研究方向:目標(biāo)檢測(cè)、目標(biāo)跟蹤; 趙海濤(1974—),男,山東青島人,教授,博士,主要研究方向:模式識(shí)別、機(jī)器學(xué)習(xí)。

        ZHUANG Yi, born in 1996,M. S. candidate. His research interests include object detection, object tracking.

        ZHAO Haitao, born in 1974,Ph. D., professor. His research interests include pattern recognition, machine learning.

        猜你喜歡
        機(jī)制特征區(qū)域
        如何表達(dá)“特征”
        不忠誠(chéng)的四個(gè)特征
        自制力是一種很好的篩選機(jī)制
        文苑(2018年21期)2018-11-09 01:23:06
        抓住特征巧觀察
        關(guān)于四色猜想
        分區(qū)域
        破除舊機(jī)制要分步推進(jìn)
        基于嚴(yán)重區(qū)域的多PCC點(diǎn)暫降頻次估計(jì)
        注重機(jī)制的相互配合
        打基礎(chǔ) 抓機(jī)制 顯成效
        亚洲中文无码av永久| 99精品欧美一区二区三区美图| 亚洲国产视频精品一区二区| 亚洲av调教捆绑一区二区三区| 在线一区二区三区视频观看| 激情都市亚洲一区二区| 亚洲视频在线免费不卡| 成人影片麻豆国产影片免费观看| 久久精品国产成人| 国产一线二线三线女| 国产又黄又爽又无遮挡的视频| 国产精品三级在线不卡| 中文字幕av中文字无码亚 | 国产乱妇乱子视频在播放| 探花国产精品三级在线播放| 男男做h嗯啊高潮涩涩| 人妻精品久久久久中文字幕| 国产午夜精品一区二区三区嫩草 | 亚洲综合极品美女av| 无码人妻精品丰满熟妇区| 国产女合集小岁9三部 | 欧美性色欧美a在线播放| 国产免费av片在线观看播放| 亚洲欧美日韩精品高清| 丝袜美腿av免费在线观看| 久久久精品国产亚洲av网深田| 成人做爰69片免费看网站野花| 亚洲伊人成综合网| 国产自产c区| 国产极品大秀在线性色| av国产传媒精品免费| 少妇极品熟妇人妻无码| 老熟妇高潮av一区二区三区啪啪| 九一免费一区二区三区偷拍视频| 午夜三级a三级三点在线观看| 亚洲乱码国产一区三区| 日本熟妇中文字幕三级| 亚洲毛片在线免费视频| 亚洲精品无码久久久久秋霞| 亚洲一区二区高清精品| 日日麻批免费高清视频|