亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

引入注意力機(jī)制的JDE多目標(biāo)跟蹤方法

2022-11-16 02:24:10曾鳳彩賀宇哲

計(jì)算機(jī)工程與應(yīng)用 2022年21期

晏康，曾鳳彩，何寧，賀宇哲，張人

1.北京聯(lián)合大學(xué) 智慧城市學(xué)院，北京 100101

2.北京聯(lián)合大學(xué) 北京市信息服務(wù)工程重點(diǎn)實(shí)驗(yàn)室，北京 100101

多目標(biāo)跟蹤（multi-object tracking，MOT）是計(jì)算機(jī)視覺中的基本任務(wù)之一，是指在不需要事先知道目標(biāo)的外觀和數(shù)量的情況下，對(duì)視頻中的多個(gè)物體進(jìn)行識(shí)別和跟蹤[1]。與目標(biāo)檢測(cè)算法不同，目標(biāo)檢測(cè)算法的輸出是一些包含有目標(biāo)的矩形邊界框，而MOT 算法還要將目標(biāo)的ID 與這些邊界框進(jìn)行關(guān)聯(lián)，不同的目標(biāo)應(yīng)該分配不同的ID，以區(qū)分類內(nèi)對(duì)象。多目標(biāo)跟蹤仍然存在一些挑戰(zhàn)，目前先進(jìn)的解決方案[2-5]大多屬于基于檢測(cè)的跟蹤（tracking by detection）方法，它們將多目標(biāo)跟蹤分為兩個(gè)步驟：（1）檢測(cè)出單獨(dú)幀中的所有感興趣目標(biāo)；（2）將這些目標(biāo)按照邊界框裁剪下來分別輸入到一個(gè)嵌入模型中，并提取它們的表觀特征，將目標(biāo)根據(jù)表觀特征和邊界框的交并比關(guān)聯(lián)到已有軌跡上。這類MOT模型需要兩個(gè)計(jì)算量非常大的組件，即目標(biāo)檢測(cè)器和嵌入模型（通常是重識(shí)別模型，即Re-ID模型）。由于目標(biāo)檢測(cè)和Re-ID技術(shù)發(fā)展迅速，產(chǎn)生了許多優(yōu)秀的目標(biāo)檢測(cè)方法和Re-ID方法，基于這兩種算法的多目標(biāo)跟蹤算法具有很高的準(zhǔn)確率。但是，這類算法的推理耗時(shí)通常都很長(zhǎng)，這是因?yàn)樗鼈冃枰?jīng)歷兩個(gè)提取特征的過程：提取目標(biāo)檢測(cè)特征和目標(biāo)的表觀特征，并且這兩個(gè)過程中提取的特征是無法共享的，因此也就會(huì)帶來過長(zhǎng)的推理時(shí)間，導(dǎo)致跟蹤速度過慢，無法實(shí)時(shí)應(yīng)用。

隨著多目標(biāo)跟蹤技術(shù)的發(fā)展，一類針對(duì)現(xiàn)有多目標(biāo)跟蹤模型推理速度過慢的問題所提出方法正引起關(guān)注，這類方法將表觀嵌入和目標(biāo)檢測(cè)集成到單一網(wǎng)絡(luò)中并行地完成目標(biāo)檢測(cè)和表觀特征的提取，將多目標(biāo)跟蹤轉(zhuǎn)化為多任務(wù)學(xué)習(xí)，即同時(shí)完成目標(biāo)的分類、定位和跟蹤三項(xiàng)任務(wù)，讓目標(biāo)檢測(cè)和重識(shí)別能夠共享同一組特征，不再需要一個(gè)單獨(dú)的Re-ID模塊，二者分擔(dān)了大部分的計(jì)算，使得這類方法能夠達(dá)到接近實(shí)時(shí)的推理速度。Wang等人[6]提出了JDE（joint detection and embedding）方法，Zhan等人提出了FairMOT方法[7]并將這類模型稱為one-shot方法。

本文在JDE算法的基礎(chǔ)上，提出基于注意力機(jī)制的Attention-JDE算法，針對(duì)目標(biāo)尺度小以及目標(biāo)重疊的問題，設(shè)計(jì)了一種基于注意力機(jī)制的特征增強(qiáng)模塊，使得模型更加關(guān)注視頻中的重要特征且能夠擴(kuò)大模型感受野，通過添加特征增強(qiáng)模塊并引入Mish 激活函數(shù)能夠提升模型對(duì)于小目標(biāo)以及重疊目標(biāo)的跟蹤效果，最終Attention-JDE 算法在MOT16 數(shù)據(jù)集[8]取得了比原JDE方法更高的跟蹤精度（MOTA）并且能夠保持較高的推理速度。

1 相關(guān)工作

1.1 JDE模型

Zhan等人提出的FairMOT中將多目標(biāo)跟蹤方法分為兩種類型：two-step 方法和one-shot 方法，two-step 方法也就是基于檢測(cè)的跟蹤方法，雖然這類方法通常有較高的準(zhǔn)確率，但速度通常很慢。比較具有代表性的oneshot 方法有Track-RCNN[9]和JDE 方法，Track-RCNN 在Mask-RCNN[10]網(wǎng)絡(luò)的頂部添加一個(gè)全連接層提取一個(gè)128維表觀特征用于后續(xù)的軌跡關(guān)聯(lián)，不僅通過檢測(cè)邊界框進(jìn)行跟蹤，而且能夠在像素級(jí)層面進(jìn)行目標(biāo)跟蹤，但是由于Track-RCNN是在兩階段目標(biāo)檢測(cè)方法上進(jìn)行擴(kuò)展，因此速度仍然很慢。針對(duì)這一問題，Wang等人提出了JDE方法，通過擴(kuò)展單階段目標(biāo)檢測(cè)方法YOLOv3[11]，在YOLOv3 的yolo 層額外提取一段特征作為表觀特征，能夠并行提取目標(biāo)檢測(cè)特征和表觀特征，隨后利用卡爾曼濾波和匈牙利算法完成目標(biāo)的跟蹤和匹配，將原YOLOv3 方法轉(zhuǎn)化為分類、定位、嵌入的多任務(wù)學(xué)習(xí)網(wǎng)絡(luò)模型，具體地說，JDE方法基于特征金字塔[12]構(gòu)建，將Darknet-53作為骨干網(wǎng)絡(luò)，通過骨干網(wǎng)絡(luò)后三個(gè)尺度的特征圖構(gòu)建特征金字塔，再將三個(gè)尺度的特征圖分別利用跳躍連接將YOLOv3的yolo層加深512維，最后將加深后的特征圖用于目標(biāo)檢測(cè)和軌跡關(guān)聯(lián)，JDE 相比two-step 方法節(jié)省了一個(gè)Re-ID 模塊的計(jì)算量，最終準(zhǔn)確率接近領(lǐng)先的two-step方法，同時(shí)可以獲得接近實(shí)時(shí)的推理速度。

1.2 注意力機(jī)制

注意力機(jī)制可以用人類的生物系統(tǒng)來解釋，由于人體計(jì)算資源的限制，人們往往會(huì)有選擇地將注意力集中在一部分信息上，同時(shí)忽略其他信息，從而有助于人的感知[13-14]，而在計(jì)算機(jī)視覺任務(wù)中使用注意力機(jī)制同樣能夠使模型更加關(guān)注有用的信息，有助于提取視頻中的復(fù)雜特征信息。注意力機(jī)制按照作用維度可分為空間域注意力機(jī)制、通道域注意力機(jī)制以及混合域注意力機(jī)制，其中混合域注意力機(jī)制是前兩者的結(jié)合。空間域注意力機(jī)制的主要思想是關(guān)注特征圖中更重要的像素位置，相當(dāng)于關(guān)注目標(biāo)“在哪里”，而通道域注意力機(jī)制的主要思想是關(guān)注特征圖中更重要的通道，相當(dāng)于關(guān)注目標(biāo)“是什么”。Hu 等人[15]提出的SENet 通過損失函數(shù)來學(xué)習(xí)各個(gè)特征通道的權(quán)重參數(shù)，使重要的通道獲得更高的權(quán)重，同時(shí)抑制重要性較低的通道對(duì)輸出的影響。Woo等人[16]在SENet的基礎(chǔ)上提出CBAM（convolutional block attention module），CBAM 方法在通道注意力的基礎(chǔ)上結(jié)合空間注意力，能夠?qū)νǖ谰S度和空間維度的特征進(jìn)行壓縮和重新加權(quán)操作，使得網(wǎng)絡(luò)模型同時(shí)關(guān)注通道和空間維度上更重要的特征，在多個(gè)計(jì)算機(jī)視覺任務(wù)中獲得良好的效果。Wang等人[17]提出的ECA-Net利用自適應(yīng)卷積核尺寸的一維卷積來代替SENet 中的全連接層，能夠有效地減少參數(shù)量，利用這種注意力模塊能夠使輕量化模型在僅增加極少參數(shù)量的同時(shí)獲得較高的性能提升。Jaderberg 等人[18]提出的空間變換網(wǎng)絡(luò)（spatial transform networks）通過對(duì)圖像或者特征圖進(jìn)行空間變換來提取圖像中的關(guān)鍵信息，使得網(wǎng)絡(luò)模型具有空間不變性，即在目標(biāo)被縮放、旋轉(zhuǎn)、平移后模型仍然能有效地對(duì)目標(biāo)進(jìn)行識(shí)別。Wang等人[19]提出一種殘差注意力網(wǎng)絡(luò)（residual attention network），分為主干分支和掩膜分支，主干分支是一個(gè)普通的前向網(wǎng)絡(luò)，掩膜分支包含多次下采樣和上采樣，通過編碼-解碼的結(jié)構(gòu)能夠?qū)W習(xí)輸入特征圖上每個(gè)像素點(diǎn)的重要性，從而增強(qiáng)重要的特征，抑制無意義的特征，將這種殘差注意力模塊與ResNet[20]結(jié)合能夠進(jìn)行端到端的學(xué)習(xí)，最終該網(wǎng)絡(luò)在ImageNet[21]數(shù)據(jù)集上表現(xiàn)良好。

2 Attention-JDE網(wǎng)絡(luò)模型

Attention-JDE 網(wǎng)絡(luò)使用改進(jìn)的DarkNet-53[11]作為骨干網(wǎng)絡(luò)，共有5 次下采樣操作，利用最后三次下采樣得到的特征圖構(gòu)建特征金字塔，在特征金字塔的三個(gè)尺度的特征圖之后分別接入特征增強(qiáng)模塊，通過特征增強(qiáng)模塊能夠進(jìn)一步獲得多尺度特征，增強(qiáng)對(duì)于小尺度目標(biāo)的跟蹤能力，并且能夠使得網(wǎng)絡(luò)更加關(guān)注重要的特征，增強(qiáng)對(duì)于重疊目標(biāo)的檢測(cè)能力，最后利用三個(gè)尺度下的特征圖進(jìn)行預(yù)測(cè)，輸出最終結(jié)果，整體網(wǎng)絡(luò)結(jié)構(gòu)及計(jì)算流程如圖1所示。

2.1 骨干網(wǎng)絡(luò)

本文骨干網(wǎng)絡(luò)根據(jù)DarkNet-53修改設(shè)計(jì)，該網(wǎng)絡(luò)在DarkNet-19[22]的基礎(chǔ)上加入了殘差模塊并且使用了大量的3×3 和1×1 卷積構(gòu)成的Bottleneck 結(jié)構(gòu)，使網(wǎng)絡(luò)擴(kuò)展到了53 層。如表1 所示，DarkNet-53 共包含5 次下采樣卷積操作，每次下采樣卷積操作使特征圖大小縮小至一半，同時(shí)通道數(shù)增加一倍，網(wǎng)絡(luò)末端的特征圖比初始輸入降低了32 倍，因此初始輸入圖像的大小應(yīng)該為32 的整數(shù)倍，本文根據(jù)視頻數(shù)據(jù)集的分辨率，將原網(wǎng)絡(luò)的輸入大小修改為1 088×608，網(wǎng)絡(luò)末端輸出的特征圖大小為34×19，利用最后三個(gè)尺度的特征圖構(gòu)建特征金字塔，利用特征金字塔完成多尺度特征融合，有利于提取小尺度目標(biāo)的特征。除此之外，本文將原DarkNet-53使用的Leaky Relu 激活函數(shù)替換為Mish 激活函數(shù)[23]，Mish 激活函數(shù)是一個(gè)光滑的、連續(xù)的、非單調(diào)函數(shù)，并且Mish 激活函數(shù)無上界有下界，使用Mish 激活函數(shù)能夠讓模型的梯度傳導(dǎo)更加平滑，保留更多的有效信息，增強(qiáng)模型的泛化能力，在Attention-JDE 中使用Mish 激活函數(shù)能夠提升模型對(duì)于目標(biāo)的檢測(cè)能力，從而更有利于對(duì)重疊目標(biāo)的檢測(cè)與跟蹤，有效地減少ID 切換的發(fā)生，Mish 激活函數(shù)的數(shù)學(xué)形式如公式（1）所示，函數(shù)圖像如圖2所示。

表1 DarkNet-53網(wǎng)絡(luò)結(jié)構(gòu)Table 1 Network structure of DarkNet-53

其中

2.2 特征增強(qiáng)模塊

本文在骨干網(wǎng)絡(luò)末端增加了特征增強(qiáng)模塊，如圖3所示。特征增強(qiáng)模塊由通道注意力模塊、空間注意力模塊以及空間金字塔池化模塊組成，使用該特征增強(qiáng)模塊能夠有效地提煉關(guān)鍵特征，同時(shí)擴(kuò)大模型感受野，提高特征提取效率。

（1）通道注意力模塊

通道注意力模塊的輸入為前一次卷積的輸出，表示為F∈?C×H×W，如圖4所示，利用最大池化和平均池化獲取全局的通道特征分布信息，分別表示為FCmax∈?C×1×1，F(xiàn)Cavg∈?C×1×1，下一步將上述兩個(gè)特征向量經(jīng)過含有一個(gè)隱藏層的多層感知機(jī)（MLP），再將得到的特征向量相加并經(jīng)過一次sigmoid 操作(σ)得到最終的通道注意力權(quán)重MC(F)，通過MC(F)與原輸入特征相乘，為包含關(guān)鍵信息的通道分配高權(quán)值，為其他通道分配低權(quán)值，從而實(shí)現(xiàn)通道注意力，通道注意力的表示如公式（3）所示：

（2）空間注意力模塊

其中，f7×7表示卷積核尺寸為7的卷積操作。

（3）空間金字塔池化模塊

空間金字塔池化（spatial pyramid pooling，SPP）模塊屬于多尺度融合的一種，使用SPP能夠擴(kuò)大模型感受野，使特征包含更多的上下文信息，從而增加模型的目標(biāo)檢測(cè)精度，進(jìn)而提升目標(biāo)跟蹤效果。SPP模塊包含三次最大池化操作，將輸入特征Fin∈?C×H×W分別進(jìn)行5×5、9×9、13×13的最大值池化，均通過在特征圖周圍補(bǔ)0保持特征圖大小，接著將三次池化的特征圖進(jìn)行通道維度的拼接完成特征融合，SPP 的計(jì)算過程如公式（5）所示：

其中，Maxpooln×n()表示核大小為n的最大池化操作，⊕表示concatenate操作。

2.3 結(jié)果預(yù)測(cè)

本文在特征增強(qiáng)模塊之后，利用所提取的特征圖完成結(jié)果預(yù)測(cè)。如圖6所示，Attention-JDE的預(yù)測(cè)層可分為兩個(gè)分支，分別是目標(biāo)檢測(cè)分支和嵌入分支，其中目標(biāo)檢測(cè)分支完成對(duì)目標(biāo)的分類與定位，嵌入分支完成目標(biāo)表觀特征的提取，隨后將表觀特征用于后續(xù)的軌跡關(guān)聯(lián)。

（1）目標(biāo)檢測(cè)分支

采用與YOLOv3相同的方式，本文將目標(biāo)的分類與定位視為回歸任務(wù)，在網(wǎng)絡(luò)末端的三個(gè)尺度的特征圖上利用預(yù)定義的Anchor box 進(jìn)行回歸，每一個(gè)尺度上都分配4 個(gè)尺寸的Anchor box。Anchor box 的預(yù)定義尺寸通過在基準(zhǔn)數(shù)據(jù)集上使用k-means聚類計(jì)算獲得，共聚成12類，公式（6）表示k-means的代價(jià)函數(shù)：

給定樣本{x(1),x(2),…,x(m)}，x(i)在本文中是二維向量，即寬和高，首先隨機(jī)選取k個(gè)聚類中心{μ1,μ2,…,μk}，對(duì)于每個(gè)樣本點(diǎn)，遍歷所有的k個(gè)聚類中心，計(jì)算與該樣本點(diǎn)x(i)的歐氏距離最小的中心μj，將x(i)的類別設(shè)為μj所對(duì)應(yīng)的簇ci，即：

接著在更新完所有樣本的類別后，計(jì)算每個(gè)簇ci中所有樣本的均值，并將這個(gè)均值作為新的聚類中心，進(jìn)行下一次迭代，直到聚類中心不再變化或者達(dá)到最大迭代次數(shù)為止，將最終得到的聚類中心作為本文的Anchor box設(shè)定。

根據(jù)所設(shè)定的Anchor box尺寸以及輸入圖像的尺寸1 088×608，分別在圖像上劃分136×76、68×38、34×19個(gè)網(wǎng)格單元，分別對(duì)應(yīng)網(wǎng)絡(luò)末端三個(gè)尺度的特征圖。當(dāng)Ground Truth中目標(biāo)的坐標(biāo)落入的網(wǎng)格單元時(shí)，那么這個(gè)網(wǎng)格單元就負(fù)責(zé)預(yù)測(cè)這個(gè)目標(biāo)，利用邏輯回歸，得到na×(1+4+len(classes))維的向量作為檢測(cè)結(jié)果輸出，其中na對(duì)應(yīng)每個(gè)網(wǎng)格單元上分配的anchor box 的數(shù)量，在這里設(shè)置為4，1對(duì)應(yīng)目標(biāo)置信度，4對(duì)應(yīng)邊界框的中心坐標(biāo)和寬高，len(classes)對(duì)應(yīng)目標(biāo)種類的數(shù)量。此外，網(wǎng)絡(luò)輸出的邊界框的坐標(biāo)實(shí)際上是相對(duì)于網(wǎng)格單元的偏移量，因此根據(jù)公式（8）轉(zhuǎn)換為實(shí)際圖像中的位置，(tx,ty,tw,th)是模型輸出的中心坐標(biāo)和寬高，σ表示sigmoid 函數(shù)，cx、cy分別表示當(dāng)前網(wǎng)格單元的行號(hào)和列號(hào)，pw、ph分別表示Anchor box的寬和高，(bx,by,bw,bh)表示邊界框的實(shí)際中心坐標(biāo)和寬高。

（2）嵌入分支

嵌入分支的作用是生成一段能夠用于區(qū)分同類內(nèi)不同目標(biāo)的特征，因此，本文在網(wǎng)絡(luò)的特征金字塔后方添加一系列卷積操作，提取一段512維的特征圖作為跟蹤所需的表觀特征，尺寸與相應(yīng)的特征尺度相同，為136×76、68×38、34×19，對(duì)于單個(gè)目標(biāo)，表觀特征就是特征圖中的單個(gè)512 維的特征向量。隨后通過多目標(biāo)跟蹤中常用的卡爾曼濾波[24]和匈牙利算法[25]，利用前面提取的表觀特征完成軌跡關(guān)聯(lián)。具體做法是，首先根據(jù)視頻第一幀的檢測(cè)結(jié)果初始化一些軌跡，對(duì)于后續(xù)幀中檢測(cè)出的目標(biāo)，根據(jù)它們與現(xiàn)有軌跡之間的表觀特征的距離和交并比計(jì)算代價(jià)矩陣，利用匈牙利算法完成匹配，除此之外還利用卡爾曼濾波預(yù)測(cè)目標(biāo)在當(dāng)前幀的位置，當(dāng)目標(biāo)位置與其被分配的軌跡距離超過設(shè)定的閾值時(shí)放棄匹配這個(gè)目標(biāo)。如果某條軌跡沒有被分配新的目標(biāo)，就將這條軌跡標(biāo)記為丟失狀態(tài)，當(dāng)某條軌跡丟失時(shí)間超過給定的閾值時(shí)，就放棄繼續(xù)更新這條軌跡。

3 實(shí)驗(yàn)結(jié)果與分析

3.1 數(shù)據(jù)集與評(píng)估標(biāo)準(zhǔn)

3.1.1 數(shù)據(jù)集

本文使用的訓(xùn)練集為六個(gè)用于行人檢測(cè)、多目標(biāo)跟蹤的公開數(shù)據(jù)集的整合數(shù)據(jù)集，分別是ETH 數(shù)據(jù)集[26]、CityPersons 數(shù)據(jù)集[27]、CalTech 數(shù)據(jù)集[28]、CUHK-SYSU數(shù)據(jù)集[29]、PRW 數(shù)據(jù)集[30]、MOT17 數(shù)據(jù)集[8]，在MOT16數(shù)據(jù)集上進(jìn)行結(jié)果驗(yàn)證，訓(xùn)練集中與測(cè)試集重復(fù)的部分已被剔除。訓(xùn)練集共包含54 000 張圖片，270 000 個(gè)邊界框標(biāo)注和8 700個(gè)ID標(biāo)注。

3.1.2 評(píng)估標(biāo)準(zhǔn)

評(píng)估標(biāo)準(zhǔn)采用MOT challenge評(píng)估標(biāo)準(zhǔn)進(jìn)行評(píng)價(jià)，具體評(píng)價(jià)指標(biāo)以及各指標(biāo)含義如下，↑表示該值越高效果越好，反之亦然：

MOTA（↑）：多目標(biāo)跟蹤準(zhǔn)確度；

MOTP（↑）：多目標(biāo)跟蹤精度；

MT（↑）：目標(biāo)跟蹤軌跡占ground truth長(zhǎng)度80%以上的軌跡總數(shù)；

ML（↓）：目標(biāo)跟蹤軌跡占ground truth長(zhǎng)度不超過20%的軌跡總數(shù)；

IDSw（↓）：目標(biāo)ID發(fā)生改變的總數(shù)；

FP（↓）：false positives總數(shù)，即誤檢總數(shù)；

FN（↓）：false negatives總數(shù)，即漏檢總數(shù)；

FPS（↑）：幀率。

其中除MOTA 以及MOTP 外的指標(biāo)均通過對(duì)結(jié)果統(tǒng)計(jì)獲得，MOTA的計(jì)算如公式（9）所示，其中GT表示ground truth的數(shù)量：

MOTP的計(jì)算如公式（10）所示，其中ct表示第t幀中匹配成功的數(shù)目，dt,i表示檢測(cè)結(jié)果i和相應(yīng)的ground truth直接的重疊率。

3.2 實(shí)驗(yàn)參數(shù)設(shè)置

實(shí)驗(yàn)基于單個(gè)NVIDIA RTX 2080Ti GPU進(jìn)行，以DarkNet-53 為骨干網(wǎng)絡(luò)，所有網(wǎng)絡(luò)均未使用預(yù)訓(xùn)練權(quán)重，訓(xùn)練過程中，使用SGD 隨機(jī)梯度下降法進(jìn)行50 個(gè)epochs 的訓(xùn)練，動(dòng)量值0.9，衰減因子為1E-4，初始學(xué)習(xí)率為0.625×1E-2，并分別在第25 個(gè)和第37 個(gè)epoch 衰減為0.625×1E-3 和0.625×1E-4，batch size 設(shè)置為4。此外使用了諸如旋轉(zhuǎn)、縮放和色彩抖動(dòng)等常用的數(shù)據(jù)增強(qiáng)技術(shù)以防止模型過擬合。

3.3 實(shí)驗(yàn)結(jié)果

本文首先探討了不同類型的注意力機(jī)制對(duì)跟蹤效果的影響，包括空間域注意力機(jī)制（SAM）、通道域注意力機(jī)制（CAM）和混合域注意力機(jī)制（CBAM），表2展示了上述幾類注意力機(jī)制對(duì)Attention-JDE的影響，數(shù)據(jù)在MOT16 訓(xùn)練集上驗(yàn)證獲得?？梢钥闯鯯AM 對(duì)模型提升比CAM 大，究其原因，MOT16 數(shù)據(jù)集中的目標(biāo)類別僅包含行人一類，所以對(duì)網(wǎng)絡(luò)模型的分類能力要求較低，對(duì)定位能力要求較高，因此能夠使網(wǎng)絡(luò)更關(guān)注目標(biāo)“在哪里”的空間域注意力機(jī)制能夠?yàn)槟Ｐ蛶砀蟮奶嵘?。此外，本文探討了混合域注意力機(jī)制中兩種排列方式對(duì)結(jié)果的影響，可以發(fā)現(xiàn)，在SAM 之后添加CAM后效果反而不如單獨(dú)添加SAM。為此將添加了上述幾種注意力機(jī)制輸出結(jié)果可視化后得到如圖7 所示的結(jié)果。顏色越深代表對(duì)模型結(jié)果的影響越大，通過觀察該可視化結(jié)果可以看出，圖7（a）的熱力圖的紅色區(qū)域最為彌散，包含了過多的背景信息，圖7（d）則能夠較為完整地覆蓋整個(gè)目標(biāo)并且紅色區(qū)域相對(duì)集中，圖7（b）、（c）則介于兩者之間，由此可以得出，在SAM之后添加CAM，會(huì)對(duì)已經(jīng)被SAM 提煉出的關(guān)鍵特征造成一定的破壞，導(dǎo)致網(wǎng)絡(luò)對(duì)于關(guān)鍵特征的提取能力下降，影響最終的跟蹤效果。

表2 不同注意力機(jī)制間的對(duì)比結(jié)果Table 2 Comparison of different attention mechanisms

表3 展示了Attention-JDE 在MOT16 測(cè)試集上與其他主流方法的對(duì)比，Attention-JDE 可以達(dá)到62.1%MOTA，同時(shí)FPS 能夠達(dá)到19.5，值得注意的是，表3 中其他方法都是two-step 方法，因此表中的FPS 數(shù)據(jù)只與關(guān)聯(lián)步驟有關(guān)，實(shí)際應(yīng)用中檢測(cè)步驟會(huì)消耗更多的時(shí)間，而Attention-JDE屬于one-shot方法，推理速度與整個(gè)系統(tǒng)中從檢測(cè)到關(guān)聯(lián)所有步驟有關(guān)，可以看出Attention-JDE在跟蹤精度接近的情況下，能夠獲得遠(yuǎn)超于其他方法的推理速度。表3所有引用數(shù)據(jù)均來自MOT challenge官方網(wǎng)址https：//motchallenge.net/。

表3 不同方法在MOT16測(cè)試集上的結(jié)果對(duì)比Table 3 Comparison of different methods on MOT16 test set

同時(shí)，本文在MOT16 訓(xùn)練集上做了相應(yīng)的消融實(shí)驗(yàn)，如表4 所示，展示了本文在JDE 方法基礎(chǔ)上添加各模塊以及修改骨干網(wǎng)絡(luò)激活函數(shù)對(duì)模型的影響。結(jié)果顯示，添加CBAM 后MOTA 提升了2.2 個(gè)百分點(diǎn)，并且能少量降低IDSw，添加SPP模塊后MOTA提升了1.8個(gè)百分點(diǎn)，但是也會(huì)導(dǎo)致更多的IDSw，使用Mish 激活函數(shù)MOTA 能夠提升0.7 個(gè)百分點(diǎn)，同時(shí)能夠降低IDSw約10%。結(jié)果表明，添加特征增強(qiáng)模塊后能夠有效地提升模型性能，但是SPP的加入會(huì)導(dǎo)致過高的IDSw，使用Mish 激活函數(shù)則能夠有效地改善跟蹤過程中的ID 切換問題。由于特征增強(qiáng)模塊會(huì)增加模型的計(jì)算量，也就會(huì)導(dǎo)致推理速度略微降低，而Mish 激活函數(shù)相比起Leaky Relu具有更多的負(fù)梯度傳傳導(dǎo)，因此也會(huì)略微降低推理速度。最終Attention-JDE 相比原JDE 在只降低1.8 FPS的情況下MOTA提升了2.6個(gè)百分點(diǎn)，同時(shí)能夠減少IDSw。此外，如圖8 所示，將Attenttion-JDE 與原JDE 的預(yù)測(cè)效果可視化后對(duì)比，從高亮部分可以看出，在目標(biāo)遮擋或尺度較小時(shí)JDE 并不能有效地對(duì)目標(biāo)檢測(cè)并跟蹤，而Attention-JDE 則能有效地改善這些問題，結(jié)果表明Attention-JDE在目標(biāo)尺度較小、目標(biāo)有重疊情況時(shí)的跟蹤效果更好，具有更強(qiáng)的魯棒性。

表4 各模塊消融實(shí)驗(yàn)Table 4 Ablation experiment of each module

4 結(jié)論

本文提出了一種引入注意力機(jī)制的JDE 多目標(biāo)跟蹤算法：Attention-JDE，該算法使用Mish 函數(shù)作為骨干網(wǎng)絡(luò)的激活函數(shù)，使得模型的梯度傳導(dǎo)更加平滑。因此，保留了更多有效的特征信息，有效降低了模型跟蹤時(shí)的ID切換次數(shù)。該模型使用注意力機(jī)制并結(jié)合空間金字塔池化方法，提出了一種特征增強(qiáng)模塊，從而提升了網(wǎng)絡(luò)提取目標(biāo)關(guān)鍵特征的能力，增強(qiáng)了模型對(duì)于不同感受野下特征的提取效果。并且能夠有效改善目標(biāo)尺度較小、目標(biāo)重疊時(shí)的跟蹤能力，有效地提升了模型檢測(cè)與跟蹤的準(zhǔn)確率。實(shí)驗(yàn)結(jié)果表明，本文提出的Attention-JDE 模型在幾乎不降低推理速度的情況下能夠取得較高的MOTA，在精度和速度之間做到了更好的權(quán)衡，有較強(qiáng)的綜合性能。未來的工作針對(duì)模型在跟蹤過程中的ID切換次數(shù)較多的問題進(jìn)行探索研究。