亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        引入注意力機(jī)制的JDE多目標(biāo)跟蹤方法

        2022-11-16 02:24:10曾鳳彩賀宇哲
        關(guān)鍵詞:機(jī)制特征檢測(cè)

        晏 康,曾鳳彩,何 寧,賀宇哲,張 人

        1.北京聯(lián)合大學(xué) 智慧城市學(xué)院,北京 100101

        2.北京聯(lián)合大學(xué) 北京市信息服務(wù)工程重點(diǎn)實(shí)驗(yàn)室,北京 100101

        多目標(biāo)跟蹤(multi-object tracking,MOT)是計(jì)算機(jī)視覺中的基本任務(wù)之一,是指在不需要事先知道目標(biāo)的外觀和數(shù)量的情況下,對(duì)視頻中的多個(gè)物體進(jìn)行識(shí)別和跟蹤[1]。與目標(biāo)檢測(cè)算法不同,目標(biāo)檢測(cè)算法的輸出是一些包含有目標(biāo)的矩形邊界框,而MOT 算法還要將目標(biāo)的ID 與這些邊界框進(jìn)行關(guān)聯(lián),不同的目標(biāo)應(yīng)該分配不同的ID,以區(qū)分類內(nèi)對(duì)象。多目標(biāo)跟蹤仍然存在一些挑戰(zhàn),目前先進(jìn)的解決方案[2-5]大多屬于基于檢測(cè)的跟蹤(tracking by detection)方法,它們將多目標(biāo)跟蹤分為兩個(gè)步驟:(1)檢測(cè)出單獨(dú)幀中的所有感興趣目標(biāo);(2)將這些目標(biāo)按照邊界框裁剪下來分別輸入到一個(gè)嵌入模型中,并提取它們的表觀特征,將目標(biāo)根據(jù)表觀特征和邊界框的交并比關(guān)聯(lián)到已有軌跡上。這類MOT模型需要兩個(gè)計(jì)算量非常大的組件,即目標(biāo)檢測(cè)器和嵌入模型(通常是重識(shí)別模型,即Re-ID模型)。由于目標(biāo)檢測(cè)和Re-ID技術(shù)發(fā)展迅速,產(chǎn)生了許多優(yōu)秀的目標(biāo)檢測(cè)方法和Re-ID方法,基于這兩種算法的多目標(biāo)跟蹤算法具有很高的準(zhǔn)確率。但是,這類算法的推理耗時(shí)通常都很長(zhǎng),這是因?yàn)樗鼈冃枰?jīng)歷兩個(gè)提取特征的過程:提取目標(biāo)檢測(cè)特征和目標(biāo)的表觀特征,并且這兩個(gè)過程中提取的特征是無法共享的,因此也就會(huì)帶來過長(zhǎng)的推理時(shí)間,導(dǎo)致跟蹤速度過慢,無法實(shí)時(shí)應(yīng)用。

        隨著多目標(biāo)跟蹤技術(shù)的發(fā)展,一類針對(duì)現(xiàn)有多目標(biāo)跟蹤模型推理速度過慢的問題所提出方法正引起關(guān)注,這類方法將表觀嵌入和目標(biāo)檢測(cè)集成到單一網(wǎng)絡(luò)中并行地完成目標(biāo)檢測(cè)和表觀特征的提取,將多目標(biāo)跟蹤轉(zhuǎn)化為多任務(wù)學(xué)習(xí),即同時(shí)完成目標(biāo)的分類、定位和跟蹤三項(xiàng)任務(wù),讓目標(biāo)檢測(cè)和重識(shí)別能夠共享同一組特征,不再需要一個(gè)單獨(dú)的Re-ID模塊,二者分擔(dān)了大部分的計(jì)算,使得這類方法能夠達(dá)到接近實(shí)時(shí)的推理速度。Wang等人[6]提出了JDE(joint detection and embedding)方法,Zhan等人提出了FairMOT方法[7]并將這類模型稱為one-shot方法。

        本文在JDE算法的基礎(chǔ)上,提出基于注意力機(jī)制的Attention-JDE算法,針對(duì)目標(biāo)尺度小以及目標(biāo)重疊的問題,設(shè)計(jì)了一種基于注意力機(jī)制的特征增強(qiáng)模塊,使得模型更加關(guān)注視頻中的重要特征且能夠擴(kuò)大模型感受野,通過添加特征增強(qiáng)模塊并引入Mish 激活函數(shù)能夠提升模型對(duì)于小目標(biāo)以及重疊目標(biāo)的跟蹤效果,最終Attention-JDE 算法在MOT16 數(shù)據(jù)集[8]取得了比原JDE方法更高的跟蹤精度(MOTA)并且能夠保持較高的推理速度。

        1 相關(guān)工作

        1.1 JDE模型

        Zhan等人提出的FairMOT中將多目標(biāo)跟蹤方法分為兩種類型:two-step 方法和one-shot 方法,two-step 方法也就是基于檢測(cè)的跟蹤方法,雖然這類方法通常有較高的準(zhǔn)確率,但速度通常很慢。比較具有代表性的oneshot 方法有Track-RCNN[9]和JDE 方法,Track-RCNN 在Mask-RCNN[10]網(wǎng)絡(luò)的頂部添加一個(gè)全連接層提取一個(gè)128維表觀特征用于后續(xù)的軌跡關(guān)聯(lián),不僅通過檢測(cè)邊界框進(jìn)行跟蹤,而且能夠在像素級(jí)層面進(jìn)行目標(biāo)跟蹤,但是由于Track-RCNN是在兩階段目標(biāo)檢測(cè)方法上進(jìn)行擴(kuò)展,因此速度仍然很慢。針對(duì)這一問題,Wang等人提出了JDE方法,通過擴(kuò)展單階段目標(biāo)檢測(cè)方法YOLOv3[11],在YOLOv3 的yolo 層額外提取一段特征作為表觀特征,能夠并行提取目標(biāo)檢測(cè)特征和表觀特征,隨后利用卡爾曼濾波和匈牙利算法完成目標(biāo)的跟蹤和匹配,將原YOLOv3 方法轉(zhuǎn)化為分類、定位、嵌入的多任務(wù)學(xué)習(xí)網(wǎng)絡(luò)模型,具體地說,JDE方法基于特征金字塔[12]構(gòu)建,將Darknet-53作為骨干網(wǎng)絡(luò),通過骨干網(wǎng)絡(luò)后三個(gè)尺度的特征圖構(gòu)建特征金字塔,再將三個(gè)尺度的特征圖分別利用跳躍連接將YOLOv3的yolo層加深512維,最后將加深后的特征圖用于目標(biāo)檢測(cè)和軌跡關(guān)聯(lián),JDE 相比two-step 方法節(jié)省了一個(gè)Re-ID 模塊的計(jì)算量,最終準(zhǔn)確率接近領(lǐng)先的two-step方法,同時(shí)可以獲得接近實(shí)時(shí)的推理速度。

        1.2 注意力機(jī)制

        注意力機(jī)制可以用人類的生物系統(tǒng)來解釋,由于人體計(jì)算資源的限制,人們往往會(huì)有選擇地將注意力集中在一部分信息上,同時(shí)忽略其他信息,從而有助于人的感知[13-14],而在計(jì)算機(jī)視覺任務(wù)中使用注意力機(jī)制同樣能夠使模型更加關(guān)注有用的信息,有助于提取視頻中的復(fù)雜特征信息。注意力機(jī)制按照作用維度可分為空間域注意力機(jī)制、通道域注意力機(jī)制以及混合域注意力機(jī)制,其中混合域注意力機(jī)制是前兩者的結(jié)合。空間域注意力機(jī)制的主要思想是關(guān)注特征圖中更重要的像素位置,相當(dāng)于關(guān)注目標(biāo)“在哪里”,而通道域注意力機(jī)制的主要思想是關(guān)注特征圖中更重要的通道,相當(dāng)于關(guān)注目標(biāo)“是什么”。Hu 等人[15]提出的SENet 通過損失函數(shù)來學(xué)習(xí)各個(gè)特征通道的權(quán)重參數(shù),使重要的通道獲得更高的權(quán)重,同時(shí)抑制重要性較低的通道對(duì)輸出的影響。Woo等人[16]在SENet的基礎(chǔ)上提出CBAM(convolutional block attention module),CBAM 方法在通道注意力的基礎(chǔ)上結(jié)合空間注意力,能夠?qū)νǖ谰S度和空間維度的特征進(jìn)行壓縮和重新加權(quán)操作,使得網(wǎng)絡(luò)模型同時(shí)關(guān)注通道和空間維度上更重要的特征,在多個(gè)計(jì)算機(jī)視覺任務(wù)中獲得良好的效果。Wang等人[17]提出的ECA-Net利用自適應(yīng)卷積核尺寸的一維卷積來代替SENet 中的全連接層,能夠有效地減少參數(shù)量,利用這種注意力模塊能夠使輕量化模型在僅增加極少參數(shù)量的同時(shí)獲得較高的性能提升。Jaderberg 等人[18]提出的空間變換網(wǎng)絡(luò)(spatial transform networks)通過對(duì)圖像或者特征圖進(jìn)行空間變換來提取圖像中的關(guān)鍵信息,使得網(wǎng)絡(luò)模型具有空間不變性,即在目標(biāo)被縮放、旋轉(zhuǎn)、平移后模型仍然能有效地對(duì)目標(biāo)進(jìn)行識(shí)別。Wang等人[19]提出一種殘差注意力網(wǎng)絡(luò)(residual attention network),分為主干分支和掩膜分支,主干分支是一個(gè)普通的前向網(wǎng)絡(luò),掩膜分支包含多次下采樣和上采樣,通過編碼-解碼的結(jié)構(gòu)能夠?qū)W習(xí)輸入特征圖上每個(gè)像素點(diǎn)的重要性,從而增強(qiáng)重要的特征,抑制無意義的特征,將這種殘差注意力模塊與ResNet[20]結(jié)合能夠進(jìn)行端到端的學(xué)習(xí),最終該網(wǎng)絡(luò)在ImageNet[21]數(shù)據(jù)集上表現(xiàn)良好。

        2 Attention-JDE網(wǎng)絡(luò)模型

        Attention-JDE 網(wǎng)絡(luò)使用改進(jìn)的DarkNet-53[11]作為骨干網(wǎng)絡(luò),共有5 次下采樣操作,利用最后三次下采樣得到的特征圖構(gòu)建特征金字塔,在特征金字塔的三個(gè)尺度的特征圖之后分別接入特征增強(qiáng)模塊,通過特征增強(qiáng)模塊能夠進(jìn)一步獲得多尺度特征,增強(qiáng)對(duì)于小尺度目標(biāo)的跟蹤能力,并且能夠使得網(wǎng)絡(luò)更加關(guān)注重要的特征,增強(qiáng)對(duì)于重疊目標(biāo)的檢測(cè)能力,最后利用三個(gè)尺度下的特征圖進(jìn)行預(yù)測(cè),輸出最終結(jié)果,整體網(wǎng)絡(luò)結(jié)構(gòu)及計(jì)算流程如圖1所示。

        2.1 骨干網(wǎng)絡(luò)

        本文骨干網(wǎng)絡(luò)根據(jù)DarkNet-53修改設(shè)計(jì),該網(wǎng)絡(luò)在DarkNet-19[22]的基礎(chǔ)上加入了殘差模塊并且使用了大量的3×3 和1×1 卷積構(gòu)成的Bottleneck 結(jié)構(gòu),使網(wǎng)絡(luò)擴(kuò)展到了53 層。如表1 所示,DarkNet-53 共包含5 次下采樣卷積操作,每次下采樣卷積操作使特征圖大小縮小至一半,同時(shí)通道數(shù)增加一倍,網(wǎng)絡(luò)末端的特征圖比初始輸入降低了32 倍,因此初始輸入圖像的大小應(yīng)該為32 的整數(shù)倍,本文根據(jù)視頻數(shù)據(jù)集的分辨率,將原網(wǎng)絡(luò)的輸入大小修改為1 088×608,網(wǎng)絡(luò)末端輸出的特征圖大小為34×19,利用最后三個(gè)尺度的特征圖構(gòu)建特征金字塔,利用特征金字塔完成多尺度特征融合,有利于提取小尺度目標(biāo)的特征。除此之外,本文將原DarkNet-53使用的Leaky Relu 激活函數(shù)替換為Mish 激活函數(shù)[23],Mish 激活函數(shù)是一個(gè)光滑的、連續(xù)的、非單調(diào)函數(shù),并且Mish 激活函數(shù)無上界有下界,使用Mish 激活函數(shù)能夠讓模型的梯度傳導(dǎo)更加平滑,保留更多的有效信息,增強(qiáng)模型的泛化能力,在Attention-JDE 中使用Mish 激活函數(shù)能夠提升模型對(duì)于目標(biāo)的檢測(cè)能力,從而更有利于對(duì)重疊目標(biāo)的檢測(cè)與跟蹤,有效地減少ID 切換的發(fā)生,Mish 激活函數(shù)的數(shù)學(xué)形式如公式(1)所示,函數(shù)圖像如圖2所示。

        表1 DarkNet-53網(wǎng)絡(luò)結(jié)構(gòu)Table 1 Network structure of DarkNet-53

        其中

        2.2 特征增強(qiáng)模塊

        本文在骨干網(wǎng)絡(luò)末端增加了特征增強(qiáng)模塊,如圖3所示。特征增強(qiáng)模塊由通道注意力模塊、空間注意力模塊以及空間金字塔池化模塊組成,使用該特征增強(qiáng)模塊能夠有效地提煉關(guān)鍵特征,同時(shí)擴(kuò)大模型感受野,提高特征提取效率。

        (1)通道注意力模塊

        通道注意力模塊的輸入為前一次卷積的輸出,表示為F∈?C×H×W,如圖4所示,利用最大池化和平均池化獲取全局的通道特征分布信息,分別表示為FCmax∈?C×1×1,F(xiàn)Cavg∈?C×1×1,下一步將上述兩個(gè)特征向量經(jīng)過含有一個(gè)隱藏層的多層感知機(jī)(MLP),再將得到的特征向量相加并經(jīng)過一次sigmoid 操作(σ)得到最終的通道注意力權(quán)重MC(F),通過MC(F)與原輸入特征相乘,為包含關(guān)鍵信息的通道分配高權(quán)值,為其他通道分配低權(quán)值,從而實(shí)現(xiàn)通道注意力,通道注意力的表示如公式(3)所示:

        (2)空間注意力模塊

        其中,f7×7表示卷積核尺寸為7的卷積操作。

        (3)空間金字塔池化模塊

        空間金字塔池化(spatial pyramid pooling,SPP)模塊屬于多尺度融合的一種,使用SPP能夠擴(kuò)大模型感受野,使特征包含更多的上下文信息,從而增加模型的目標(biāo)檢測(cè)精度,進(jìn)而提升目標(biāo)跟蹤效果。SPP模塊包含三次最大池化操作,將輸入特征Fin∈?C×H×W分別進(jìn)行5×5、9×9、13×13的最大值池化,均通過在特征圖周圍補(bǔ)0保持特征圖大小,接著將三次池化的特征圖進(jìn)行通道維度的拼接完成特征融合,SPP 的計(jì)算過程如公式(5)所示:

        其中,Maxpooln×n()表示核大小為n的最大池化操作,⊕表示concatenate操作。

        2.3 結(jié)果預(yù)測(cè)

        本文在特征增強(qiáng)模塊之后,利用所提取的特征圖完成結(jié)果預(yù)測(cè)。如圖6所示,Attention-JDE的預(yù)測(cè)層可分為兩個(gè)分支,分別是目標(biāo)檢測(cè)分支和嵌入分支,其中目標(biāo)檢測(cè)分支完成對(duì)目標(biāo)的分類與定位,嵌入分支完成目標(biāo)表觀特征的提取,隨后將表觀特征用于后續(xù)的軌跡關(guān)聯(lián)。

        (1)目標(biāo)檢測(cè)分支

        采用與YOLOv3相同的方式,本文將目標(biāo)的分類與定位視為回歸任務(wù),在網(wǎng)絡(luò)末端的三個(gè)尺度的特征圖上利用預(yù)定義的Anchor box 進(jìn)行回歸,每一個(gè)尺度上都分配4 個(gè)尺寸的Anchor box。Anchor box 的預(yù)定義尺寸通過在基準(zhǔn)數(shù)據(jù)集上使用k-means聚類計(jì)算獲得,共聚成12類,公式(6)表示k-means的代價(jià)函數(shù):

        給定樣本{x(1),x(2),…,x(m)},x(i)在本文中是二維向量,即寬和高,首先隨機(jī)選取k個(gè)聚類中心{μ1,μ2,…,μk},對(duì)于每個(gè)樣本點(diǎn),遍歷所有的k個(gè)聚類中心,計(jì)算與該樣本點(diǎn)x(i)的歐氏距離最小的中心μj,將x(i)的類別設(shè)為μj所對(duì)應(yīng)的簇ci,即:

        接著在更新完所有樣本的類別后,計(jì)算每個(gè)簇ci中所有樣本的均值,并將這個(gè)均值作為新的聚類中心,進(jìn)行下一次迭代,直到聚類中心不再變化或者達(dá)到最大迭代次數(shù)為止,將最終得到的聚類中心作為本文的Anchor box設(shè)定。

        根據(jù)所設(shè)定的Anchor box尺寸以及輸入圖像的尺寸1 088×608,分別在圖像上劃分136×76、68×38、34×19個(gè)網(wǎng)格單元,分別對(duì)應(yīng)網(wǎng)絡(luò)末端三個(gè)尺度的特征圖。當(dāng)Ground Truth中目標(biāo)的坐標(biāo)落入的網(wǎng)格單元時(shí),那么這個(gè)網(wǎng)格單元就負(fù)責(zé)預(yù)測(cè)這個(gè)目標(biāo),利用邏輯回歸,得到na×(1+4+len(classes))維的向量作為檢測(cè)結(jié)果輸出,其中na對(duì)應(yīng)每個(gè)網(wǎng)格單元上分配的anchor box 的數(shù)量,在這里設(shè)置為4,1對(duì)應(yīng)目標(biāo)置信度,4對(duì)應(yīng)邊界框的中心坐標(biāo)和寬高,len(classes)對(duì)應(yīng)目標(biāo)種類的數(shù)量。此外,網(wǎng)絡(luò)輸出的邊界框的坐標(biāo)實(shí)際上是相對(duì)于網(wǎng)格單元的偏移量,因此根據(jù)公式(8)轉(zhuǎn)換為實(shí)際圖像中的位置,(tx,ty,tw,th)是模型輸出的中心坐標(biāo)和寬高,σ表示sigmoid 函數(shù),cx、cy分別表示當(dāng)前網(wǎng)格單元的行號(hào)和列號(hào),pw、ph分別表示Anchor box的寬和高,(bx,by,bw,bh)表示邊界框的實(shí)際中心坐標(biāo)和寬高。

        (2)嵌入分支

        嵌入分支的作用是生成一段能夠用于區(qū)分同類內(nèi)不同目標(biāo)的特征,因此,本文在網(wǎng)絡(luò)的特征金字塔后方添加一系列卷積操作,提取一段512維的特征圖作為跟蹤所需的表觀特征,尺寸與相應(yīng)的特征尺度相同,為136×76、68×38、34×19,對(duì)于單個(gè)目標(biāo),表觀特征就是特征圖中的單個(gè)512 維的特征向量。隨后通過多目標(biāo)跟蹤中常用的卡爾曼濾波[24]和匈牙利算法[25],利用前面提取的表觀特征完成軌跡關(guān)聯(lián)。具體做法是,首先根據(jù)視頻第一幀的檢測(cè)結(jié)果初始化一些軌跡,對(duì)于后續(xù)幀中檢測(cè)出的目標(biāo),根據(jù)它們與現(xiàn)有軌跡之間的表觀特征的距離和交并比計(jì)算代價(jià)矩陣,利用匈牙利算法完成匹配,除此之外還利用卡爾曼濾波預(yù)測(cè)目標(biāo)在當(dāng)前幀的位置,當(dāng)目標(biāo)位置與其被分配的軌跡距離超過設(shè)定的閾值時(shí)放棄匹配這個(gè)目標(biāo)。如果某條軌跡沒有被分配新的目標(biāo),就將這條軌跡標(biāo)記為丟失狀態(tài),當(dāng)某條軌跡丟失時(shí)間超過給定的閾值時(shí),就放棄繼續(xù)更新這條軌跡。

        3 實(shí)驗(yàn)結(jié)果與分析

        3.1 數(shù)據(jù)集與評(píng)估標(biāo)準(zhǔn)

        3.1.1 數(shù)據(jù)集

        本文使用的訓(xùn)練集為六個(gè)用于行人檢測(cè)、多目標(biāo)跟蹤的公開數(shù)據(jù)集的整合數(shù)據(jù)集,分別是ETH 數(shù)據(jù)集[26]、CityPersons 數(shù)據(jù)集[27]、CalTech 數(shù)據(jù)集[28]、CUHK-SYSU數(shù)據(jù)集[29]、PRW 數(shù)據(jù)集[30]、MOT17 數(shù)據(jù)集[8],在MOT16數(shù)據(jù)集上進(jìn)行結(jié)果驗(yàn)證,訓(xùn)練集中與測(cè)試集重復(fù)的部分已被剔除。訓(xùn)練集共包含54 000 張圖片,270 000 個(gè)邊界框標(biāo)注和8 700個(gè)ID標(biāo)注。

        3.1.2 評(píng)估標(biāo)準(zhǔn)

        評(píng)估標(biāo)準(zhǔn)采用MOT challenge評(píng)估標(biāo)準(zhǔn)進(jìn)行評(píng)價(jià),具體評(píng)價(jià)指標(biāo)以及各指標(biāo)含義如下,↑表示該值越高效果越好,反之亦然:

        MOTA(↑):多目標(biāo)跟蹤準(zhǔn)確度;

        MOTP(↑):多目標(biāo)跟蹤精度;

        MT(↑):目標(biāo)跟蹤軌跡占ground truth長(zhǎng)度80%以上的軌跡總數(shù);

        ML(↓):目標(biāo)跟蹤軌跡占ground truth長(zhǎng)度不超過20%的軌跡總數(shù);

        IDSw(↓):目標(biāo)ID發(fā)生改變的總數(shù);

        FP(↓):false positives總數(shù),即誤檢總數(shù);

        FN(↓):false negatives總數(shù),即漏檢總數(shù);

        FPS(↑):幀率。

        其中除MOTA 以及MOTP 外的指標(biāo)均通過對(duì)結(jié)果統(tǒng)計(jì)獲得,MOTA的計(jì)算如公式(9)所示,其中GT表示ground truth的數(shù)量:

        MOTP的計(jì)算如公式(10)所示,其中ct表示第t幀中匹配成功的數(shù)目,dt,i表示檢測(cè)結(jié)果i和相應(yīng)的ground truth直接的重疊率。

        3.2 實(shí)驗(yàn)參數(shù)設(shè)置

        實(shí)驗(yàn)基于單個(gè)NVIDIA RTX 2080Ti GPU進(jìn)行,以DarkNet-53 為骨干網(wǎng)絡(luò),所有網(wǎng)絡(luò)均未使用預(yù)訓(xùn)練權(quán)重,訓(xùn)練過程中,使用SGD 隨機(jī)梯度下降法進(jìn)行50 個(gè)epochs 的訓(xùn)練,動(dòng)量值0.9,衰減因子為1E-4,初始學(xué)習(xí)率為0.625×1E-2,并分別在第25 個(gè)和第37 個(gè)epoch 衰減為0.625×1E-3 和0.625×1E-4,batch size 設(shè)置為4。此外使用了諸如旋轉(zhuǎn)、縮放和色彩抖動(dòng)等常用的數(shù)據(jù)增強(qiáng)技術(shù)以防止模型過擬合。

        3.3 實(shí)驗(yàn)結(jié)果

        本文首先探討了不同類型的注意力機(jī)制對(duì)跟蹤效果的影響,包括空間域注意力機(jī)制(SAM)、通道域注意力機(jī)制(CAM)和混合域注意力機(jī)制(CBAM),表2展示了上述幾類注意力機(jī)制對(duì)Attention-JDE的影響,數(shù)據(jù)在MOT16 訓(xùn)練集上驗(yàn)證獲得??梢钥闯鯯AM 對(duì)模型提升比CAM 大,究其原因,MOT16 數(shù)據(jù)集中的目標(biāo)類別僅包含行人一類,所以對(duì)網(wǎng)絡(luò)模型的分類能力要求較低,對(duì)定位能力要求較高,因此能夠使網(wǎng)絡(luò)更關(guān)注目標(biāo)“在哪里”的空間域注意力機(jī)制能夠?yàn)槟P蛶砀蟮奶嵘?。此外,本文探討了混合域注意力機(jī)制中兩種排列方式對(duì)結(jié)果的影響,可以發(fā)現(xiàn),在SAM 之后添加CAM后效果反而不如單獨(dú)添加SAM。為此將添加了上述幾種注意力機(jī)制輸出結(jié)果可視化后得到如圖7 所示的結(jié)果。顏色越深代表對(duì)模型結(jié)果的影響越大,通過觀察該可視化結(jié)果可以看出,圖7(a)的熱力圖的紅色區(qū)域最為彌散,包含了過多的背景信息,圖7(d)則能夠較為完整地覆蓋整個(gè)目標(biāo)并且紅色區(qū)域相對(duì)集中,圖7(b)、(c)則介于兩者之間,由此可以得出,在SAM之后添加CAM,會(huì)對(duì)已經(jīng)被SAM 提煉出的關(guān)鍵特征造成一定的破壞,導(dǎo)致網(wǎng)絡(luò)對(duì)于關(guān)鍵特征的提取能力下降,影響最終的跟蹤效果。

        表2 不同注意力機(jī)制間的對(duì)比結(jié)果Table 2 Comparison of different attention mechanisms

        表3 展示了Attention-JDE 在MOT16 測(cè)試集上與其他主流方法的對(duì)比,Attention-JDE 可以達(dá)到62.1%MOTA,同時(shí)FPS 能夠達(dá)到19.5,值得注意的是,表3 中其他方法都是two-step 方法,因此表中的FPS 數(shù)據(jù)只與關(guān)聯(lián)步驟有關(guān),實(shí)際應(yīng)用中檢測(cè)步驟會(huì)消耗更多的時(shí)間,而Attention-JDE屬于one-shot方法,推理速度與整個(gè)系統(tǒng)中從檢測(cè)到關(guān)聯(lián)所有步驟有關(guān),可以看出Attention-JDE在跟蹤精度接近的情況下,能夠獲得遠(yuǎn)超于其他方法的推理速度。表3所有引用數(shù)據(jù)均來自MOT challenge官方網(wǎng)址https://motchallenge.net/。

        表3 不同方法在MOT16測(cè)試集上的結(jié)果對(duì)比Table 3 Comparison of different methods on MOT16 test set

        同時(shí),本文在MOT16 訓(xùn)練集上做了相應(yīng)的消融實(shí)驗(yàn),如表4 所示,展示了本文在JDE 方法基礎(chǔ)上添加各模塊以及修改骨干網(wǎng)絡(luò)激活函數(shù)對(duì)模型的影響。結(jié)果顯示,添加CBAM 后MOTA 提升了2.2 個(gè)百分點(diǎn),并且能少量降低IDSw,添加SPP模塊后MOTA提升了1.8個(gè)百分點(diǎn),但是也會(huì)導(dǎo)致更多的IDSw,使用Mish 激活函數(shù)MOTA 能夠提升0.7 個(gè)百分點(diǎn),同時(shí)能夠降低IDSw約10%。結(jié)果表明,添加特征增強(qiáng)模塊后能夠有效地提升模型性能,但是SPP的加入會(huì)導(dǎo)致過高的IDSw,使用Mish 激活函數(shù)則能夠有效地改善跟蹤過程中的ID 切換問題。由于特征增強(qiáng)模塊會(huì)增加模型的計(jì)算量,也就會(huì)導(dǎo)致推理速度略微降低,而Mish 激活函數(shù)相比起Leaky Relu具有更多的負(fù)梯度傳傳導(dǎo),因此也會(huì)略微降低推理速度。最終Attention-JDE 相比原JDE 在只降低1.8 FPS的情況下MOTA提升了2.6個(gè)百分點(diǎn),同時(shí)能夠減少IDSw。此外,如圖8 所示,將Attenttion-JDE 與原JDE 的預(yù)測(cè)效果可視化后對(duì)比,從高亮部分可以看出,在目標(biāo)遮擋或尺度較小時(shí)JDE 并不能有效地對(duì)目標(biāo)檢測(cè)并跟蹤,而Attention-JDE 則能有效地改善這些問題,結(jié)果表明Attention-JDE在目標(biāo)尺度較小、目標(biāo)有重疊情況時(shí)的跟蹤效果更好,具有更強(qiáng)的魯棒性。

        表4 各模塊消融實(shí)驗(yàn)Table 4 Ablation experiment of each module

        4 結(jié)論

        本文提出了一種引入注意力機(jī)制的JDE 多目標(biāo)跟蹤算法:Attention-JDE,該算法使用Mish 函數(shù)作為骨干網(wǎng)絡(luò)的激活函數(shù),使得模型的梯度傳導(dǎo)更加平滑。因此,保留了更多有效的特征信息,有效降低了模型跟蹤時(shí)的ID切換次數(shù)。該模型使用注意力機(jī)制并結(jié)合空間金字塔池化方法,提出了一種特征增強(qiáng)模塊,從而提升了網(wǎng)絡(luò)提取目標(biāo)關(guān)鍵特征的能力,增強(qiáng)了模型對(duì)于不同感受野下特征的提取效果。并且能夠有效改善目標(biāo)尺度較小、目標(biāo)重疊時(shí)的跟蹤能力,有效地提升了模型檢測(cè)與跟蹤的準(zhǔn)確率。實(shí)驗(yàn)結(jié)果表明,本文提出的Attention-JDE 模型在幾乎不降低推理速度的情況下能夠取得較高的MOTA,在精度和速度之間做到了更好的權(quán)衡,有較強(qiáng)的綜合性能。未來的工作針對(duì)模型在跟蹤過程中的ID切換次數(shù)較多的問題進(jìn)行探索研究。

        猜你喜歡
        機(jī)制特征檢測(cè)
        “不等式”檢測(cè)題
        “一元一次不等式”檢測(cè)題
        “一元一次不等式組”檢測(cè)題
        如何表達(dá)“特征”
        不忠誠(chéng)的四個(gè)特征
        自制力是一種很好的篩選機(jī)制
        文苑(2018年21期)2018-11-09 01:23:06
        抓住特征巧觀察
        小波變換在PCB缺陷檢測(cè)中的應(yīng)用
        破除舊機(jī)制要分步推進(jìn)
        注重機(jī)制的相互配合
        国产大屁股喷水视频在线观看| 最新国产美女一区二区三区| 装睡被陌生人摸出水好爽| 草草影院国产| 国产午夜激情视频在线看| 日韩午夜理论免费tv影院| 国产精一品亚洲二区在线播放| JIZZJIZZ国产| 自拍视频国产在线观看| 东北老熟女被弄的嗷嗷叫高潮| 性色av一二三天美传媒| 性一交一乱一乱一视频| 日韩手机在线免费视频| 亚欧同人精品天堂| 久久亚洲宅男天堂网址| 一本色道久久综合亚洲| 亚洲av无码乱码国产精品| 久久中文字幕乱码免费| 国产91熟女高潮一曲区| 国产亚洲成性色av人片在线观| 亚洲娇小与黑人巨大交| 精品国产看高清国产毛片| 色婷婷狠狠97成为人免费| 日本办公室三级在线看| 夜夜高潮夜夜爽夜夜爱爱一区| 全部孕妇毛片| 国产一级淫片免费大片| 国产午夜福利av在线麻豆| 一区二区三区日本伦理| 人妻少妇不满足中文字幕| 麻豆国产成人av高清在线观看 | 人妻久久一区二区三区| 欧美性受xxxx狂喷水| AV永久天堂网| 精选二区在线观看视频| 日本免费视频一区二区三区| 精品亚洲麻豆1区2区3区| 精品福利视频一区二区三区| 美女一级毛片免费观看97| 一区二区亚洲熟女偷拍| 国产精品国产精品国产专区不卡|