史鈺祜,張起貴
(太原理工大學(xué)信息與計(jì)算機(jī)學(xué)院,山西晉中 030600)
隨著深度卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)[1]的發(fā)展,基于深度學(xué)習(xí)的圖像目標(biāo)檢測取得顯著進(jìn)展[2],同時(shí)推動(dòng)了圖像目標(biāo)檢測向視頻目標(biāo)檢測的擴(kuò)展。視頻目標(biāo)檢測在交通、醫(yī)療、體育等領(lǐng)域都具有廣泛的應(yīng)用價(jià)值。近年來,對(duì)視頻進(jìn)行快速且準(zhǔn)確的檢測成為計(jì)算機(jī)視覺領(lǐng)域的研究熱點(diǎn)。
基于深度學(xué)習(xí)的圖像目標(biāo)檢測主要分為兩階段檢測方法(如R-CNN[3]、Faster R-CNN[2]、R-FCN[4])和單階段檢測方法(SSD[5]、YΟLΟ[6])。相比單張圖像,視頻包含更豐富的時(shí)間和運(yùn)動(dòng)信息,同時(shí)也產(chǎn)生信息冗余。在圖像目標(biāo)檢測的基礎(chǔ)上,通過聚合時(shí)間和運(yùn)動(dòng)信息來提高逐幀檢測的性能是視頻目標(biāo)檢測的研 究重點(diǎn)。DFF[7]和Towards 方法[8]利用FlowNet[9]預(yù)測的光流在幀之間傳播特征[10-11],實(shí)現(xiàn)在線的視頻目標(biāo)檢測。文獻(xiàn)[12]將關(guān)聯(lián)特征加入到DFF 架構(gòu)中,并對(duì)目標(biāo)進(jìn)行修正。然而光流網(wǎng)絡(luò)存在自身的局限性,F(xiàn)lowNet 通過增加模型的參數(shù)量,提高對(duì)硬件資源的要求。例如,ResNet101+RFCN的檢測模型參數(shù)為59.6×106,使用FlowNet 時(shí)需要額外增加37×106。在KITTI 數(shù)據(jù)集上,F(xiàn)lowNet 的運(yùn)行速度僅為10 frame/s,在一定程度上阻礙了視頻目標(biāo)檢測的實(shí)際應(yīng)用。光流難以準(zhǔn)確表示高層特征之間的對(duì)應(yīng)關(guān)系。由于網(wǎng)絡(luò)感受野的增大,因此高層特征中一個(gè)像素的偏移可以對(duì)應(yīng)于圖像中幾十個(gè)像素?;陉P(guān)系網(wǎng)絡(luò)[13]的RDN[14]可以直接學(xué)習(xí)局部范圍內(nèi)不同幀候選框之間的關(guān)系,以增強(qiáng)物體特征,從而實(shí)現(xiàn)離線的視頻目標(biāo)檢測。文獻(xiàn)[15]利用關(guān)系網(wǎng)絡(luò),在深度特征基礎(chǔ)上引入關(guān)聯(lián)特征。文獻(xiàn)[16]提出基于內(nèi)存增強(qiáng)的全局-局部聚合方法(MEGA),基于遞歸機(jī)制[17],利用對(duì)位置不敏感的關(guān)系模塊[13]聚合全局和局部視頻幀中的候選框特征,從而增強(qiáng)當(dāng)前幀的圖像特征。但是該方法在逐幀執(zhí)行完整的模型結(jié)構(gòu)時(shí),其計(jì)算量較大且速度較慢。
本文提出基于局部注意的視頻目標(biāo)檢測方法。通過構(gòu)建一種特征傳播模型,其在不同幀的局部區(qū)域內(nèi)通過逐漸稀疏的步幅確定空間對(duì)應(yīng)關(guān)系,設(shè)計(jì)動(dòng)態(tài)分配關(guān)鍵幀模塊,動(dòng)態(tài)地按需分配關(guān)鍵幀。在此基礎(chǔ)上,提出異步檢測模式,協(xié)調(diào)特征傳播模型和動(dòng)態(tài)分配關(guān)鍵幀模塊,在保證檢測精度的前提下,加快模型對(duì)視頻序列的處理速度,從而實(shí)現(xiàn)實(shí)時(shí)在線的視頻目標(biāo)檢測。
本文提出基于局部注意的快速視頻目標(biāo)檢測方法,其模型結(jié)構(gòu)如圖1 所示?;谖墨I(xiàn)[16],本文擴(kuò)展了一個(gè)基于局部注意的快速檢測分支,以提取非關(guān)鍵幀的特征。在圖1 中,It表示視頻序列在t時(shí)刻輸入的視頻幀。
圖1 本文模型結(jié)構(gòu)Fig.1 Structure of the proposed model
一段視頻序列在t時(shí)刻輸入的視頻幀通過輕量級(jí)特征提取網(wǎng)絡(luò)NL獲得低層圖像特征FL,并將其與上一關(guān)鍵幀的低層圖像特征一起送入到關(guān)鍵幀選擇模塊,若判斷為關(guān)鍵幀Ik,則將關(guān)鍵幀的低層圖像特征繼續(xù)送入到高層圖像特征提取網(wǎng)絡(luò)NH,從而獲得最終的圖像特征該部分采用MEGA 方法選擇全局和位于當(dāng)前關(guān)鍵幀局部范圍內(nèi)不同幀產(chǎn)生的候選框,并通過關(guān)系模塊將選取的候選框聚合到當(dāng)前關(guān)鍵幀,得到增強(qiáng)的圖像特征,同時(shí)更新長時(shí)記憶(Long-Rang Memory,LRM)模塊,并在下一關(guān)鍵幀的檢測中使用該特征來輔助檢測,實(shí)現(xiàn)在線的目標(biāo)檢測。LRM 使得關(guān)鍵幀能夠聚合不同視頻幀的范圍擴(kuò)大,以獲得更多的全局和局部信息。由于關(guān)鍵幀包含更豐富的特征信息,本文將全局和局部候選區(qū)域的范圍從已檢測的所有視頻幀改為已檢測的所有關(guān)鍵幀。
若視頻序列在t時(shí)刻輸入的視頻幀被判斷為非關(guān)鍵幀Ii,由于非關(guān)鍵幀的低層圖像特征僅使用輕量級(jí)的特征提取網(wǎng)絡(luò)NL,得到所包含的信息對(duì)于最終分類與回歸任務(wù)不夠豐富。因此,本文將送入特征傳播模型,經(jīng)過特征轉(zhuǎn)換模塊生成與高層圖像特征相匹配的特征,并將其送入基于局部注意的特征對(duì)齊模塊。同時(shí),從LRM 中獲取鄰近關(guān)鍵幀的圖像特征并送入特征對(duì)齊模塊,對(duì)進(jìn)行特征對(duì)齊和增強(qiáng),得到非關(guān)鍵幀最終的圖像特征。為進(jìn)一步減少運(yùn)算量,LRM 只在關(guān)鍵幀特征提取完成后進(jìn)行更新,非關(guān)鍵幀特征提取時(shí)僅通過LRM 提取特征信息,不對(duì)其進(jìn)行更新。
特征傳播模型由基于局部注意的特征對(duì)齊模塊、特征轉(zhuǎn)換模塊和質(zhì)量增強(qiáng)模塊構(gòu)成,如圖2 所示。由于非關(guān)鍵幀的特征提取能力較弱,因此本文構(gòu)建特征傳播模型。
圖2 特征傳播模型結(jié)構(gòu)Fig.2 Structure of feature propagation model
2.1.1 基于局部注意的特征對(duì)齊模塊
假設(shè)Fk和Fi分別為幀Ik和Ii的特征圖,將它們的嵌入特征記為f(Fk)∈Rc×h×w和g(Fi)∈Rc×h×w,其中c、h、w分別表示通道數(shù)、嵌入特征圖的高度和寬度。嵌入函數(shù)f(·)和g(·)是為了減少Fk和Fi的通道數(shù)。在實(shí)驗(yàn)中,該函數(shù)通過1×1 卷積實(shí)現(xiàn)。受注意力機(jī)制[18]的啟發(fā),基于局部注意的特征對(duì)齊模塊利用2 個(gè)特征單元之間的特征相似度計(jì)算對(duì)應(yīng)的稀疏關(guān)聯(lián)權(quán)重值,并將其與原特征圖相融合,以得到經(jīng)過對(duì)齊的圖像特征。這2 個(gè)特征單元分別來自2 個(gè)高層圖像特征的嵌入特征圖f(Fk)和g(Fi),在特征圖上以逐漸稀疏的步幅分布?;诰植孔⒁獾奶卣鲗?duì)齊模塊如圖3 所示,不同的斜線數(shù)量表示不同的步幅。
圖3 基于局部注意的特征對(duì)齊模塊Fig.3 Feature alignment module based on local attention
特征對(duì)齊模塊是利用FlowNet 提取隨機(jī)選取100 段視頻的光流,在水平和豎直方向上分別對(duì)光流值進(jìn)行統(tǒng)計(jì),光流分布如圖4 所示。在豎直和水平方向上,光流都集中分布在零附近。分布結(jié)果表明,關(guān)聯(lián)權(quán)重的特征單元的計(jì)算可以采用漸進(jìn)稀疏的步幅從較小的鄰域內(nèi)選擇。漸進(jìn)稀疏的步幅使特征傳播模塊更多關(guān)注鄰域內(nèi)具有小光流值的運(yùn)動(dòng)信息。
圖4 豎直和水平方向的光流分布Fig.4 Optical flow distribution in vertical and horizontal directions
局部注意模塊通過對(duì)g(Fi)中每個(gè)特征單元和各自對(duì)應(yīng)f(Fk)中的局部稀疏位置進(jìn)行比較,以得到相應(yīng)的特征相似度,并將其進(jìn)行歸一化,從而得到用于對(duì)Fk進(jìn)行特征對(duì)齊的權(quán)重。在對(duì)應(yīng)的局部稀疏位置中采用相似性較高的特征單元進(jìn)行表示,相似性較高的特征單元對(duì)g(Fi)中的特征單元影響較大,得到更高的關(guān)聯(lián)權(quán)重值。將信息傳播到新的特征單元時(shí),獲得更大占比的信息。最后,通過稀疏關(guān)聯(lián)權(quán)重值得到經(jīng)過特征對(duì)齊的特征圖。
局部注意模塊的計(jì)算過程可以分為2 個(gè)步驟:
1)通過兩個(gè)特征單元的特征相似度生成稀疏關(guān)聯(lián)權(quán)重值。定義Fi和Fk中位置n1和n2的兩個(gè)特征單元之間特征相似度如式(1)所示:
其 中:(x1,y1) 和(x2,y2) 分別為n1、n2的坐標(biāo);為內(nèi)積運(yùn)算。對(duì)于f(Fk)中特征單元(x,y),本文僅考慮位于f(Fk)中局部稀疏范圍D(x,y)內(nèi)對(duì)應(yīng)的特征單元。D(x,y)是由逐漸稀疏的步幅和最大位移d定義的鄰域。D(x,y)可以劃分為一系列子區(qū)域,如式(2)和式(3)所示:
其中:l為1 ≤l≤d;Dl(x,y)為子區(qū)域中步幅為l的特征單元。D(x,y)在f(Fk)中的空間排列如圖3 所示。這些區(qū)域從中心到外部逐漸稀疏,通過softmax 對(duì)特征相似度進(jìn)行歸一化,得到關(guān)聯(lián)權(quán)重值,如式(4)所示:
基于局部注意的特征對(duì)齊模塊可以獲取Fk所對(duì)應(yīng)的局部稀疏范圍內(nèi)最相似和最關(guān)鍵的特征,類似于注意力機(jī)制[19],從而建立兩個(gè)特征圖之間的空間對(duì)應(yīng)關(guān)系。
2.1.2 特征轉(zhuǎn)換模塊
低層圖像特征經(jīng)過基于局部注意的特征對(duì)齊模塊,與鄰近關(guān)鍵幀增強(qiáng)后的特征進(jìn)行特征對(duì)齊,以得到非關(guān)鍵幀的圖像特征。但是這些低層特征不包含足夠的圖像特征與高層圖像特征對(duì)應(yīng),直接將其引入到對(duì)齊模塊中,導(dǎo)致生成的圖像特征不包含關(guān)鍵信息。為此,本文采用一個(gè)輕量級(jí)的特征轉(zhuǎn)換模塊[20]對(duì)提取的低層特征進(jìn)行編碼,以達(dá)到高層圖像特征的水平,從而豐富低層圖像特征的信息。將對(duì)齊后的圖像特征與低層圖像特征共同送入到質(zhì)量增強(qiáng)網(wǎng)絡(luò),進(jìn)一步補(bǔ)充細(xì)節(jié)信息。質(zhì)量增強(qiáng)網(wǎng)絡(luò)的加入是因?yàn)樘卣鲗?duì)齊時(shí)的加權(quán)聚合可能會(huì)導(dǎo)致混疊效應(yīng),造成對(duì)齊后的特征丟失一些細(xì)節(jié)信息,從而影響候選框的檢測。將經(jīng)過質(zhì)量增強(qiáng)網(wǎng)絡(luò)的圖像特征送入后續(xù)的檢測網(wǎng)絡(luò),執(zhí)行分類和回歸的任務(wù)。特征轉(zhuǎn)換模塊和質(zhì)量增強(qiáng)網(wǎng)絡(luò)的結(jié)構(gòu)相同,如圖2 所示。受MobileNet[21]的啟發(fā),本文引入深度可分離卷積,將一個(gè)標(biāo)準(zhǔn)卷積分解為逐通道卷積和逐點(diǎn)卷積[22]。其中逐通道卷積是指每個(gè)輸入通道分別采用一個(gè)卷積,各個(gè)通道分開計(jì)算,逐點(diǎn)卷積是1×1 的標(biāo)準(zhǔn)卷積核。深度可分離卷積示意圖如圖5 所示,將網(wǎng)絡(luò)中兩層標(biāo)準(zhǔn)卷積替換為相應(yīng)的深度可分離卷積,深度可分離卷積的引入可以大幅減少模型的參數(shù)量,降低對(duì)硬件資源的要求。若模型采用標(biāo)準(zhǔn)卷積,則參數(shù)量為295×104,若采用深度可分離卷積,則參數(shù)量僅為33×104,參數(shù)量僅為標(biāo)準(zhǔn)卷積的11%。
圖5 深度可分離卷積示意圖Fig.5 Schematic diagram of depthwise separable convolution
關(guān)鍵幀選擇策略是實(shí)現(xiàn)高效檢測的關(guān)鍵,文獻(xiàn)[8]通過計(jì)算當(dāng)前幀與上一關(guān)鍵幀之間的光流,并與設(shè)定的閾值矩陣相比來判斷是否選擇為關(guān)鍵幀。該方法在一定程度上適應(yīng)目標(biāo)的不同變化速率,但光流不能準(zhǔn)確表示高層特征之間的對(duì)應(yīng)關(guān)系,且計(jì)算量較大。
本文方法使用當(dāng)前幀位置框和前一關(guān)鍵幀中位置框的交集和并集的比值,并將其作為反映目標(biāo)速率變化的依據(jù)。該比值越小,表示當(dāng)前幀與上一關(guān)鍵幀的距離越大。當(dāng)比值小于設(shè)定的閾值時(shí),則選擇當(dāng)前幀為新的關(guān)鍵幀,但是獲取位置框的代價(jià)較高,且難以實(shí)現(xiàn)。本文設(shè)計(jì)一個(gè)輕量級(jí)的比值預(yù)測網(wǎng)絡(luò)。網(wǎng)絡(luò)的輸入為上一關(guān)鍵幀和當(dāng)前幀的低層特征,分別記為首先通過第1 層3×3、通道數(shù)為256 的卷積,使得特征圖通道數(shù)降低為256,進(jìn)而計(jì)算它們的差值,再將差值送入到第2 層3×3、通道數(shù)為256 的卷積。為減少計(jì)算量,此處卷積層采用深度可分離卷積。最后連接一個(gè)最大池化層和一個(gè)全連接層,輸出比值預(yù)測值,其中最大池化層用于降低特征圖的維數(shù),從而減少計(jì)算量。動(dòng)態(tài)分配關(guān)鍵幀示意圖如圖6 所示,經(jīng)過該網(wǎng)絡(luò)預(yù)測得到的比值隨著當(dāng)前幀與上一關(guān)鍵幀距離的增加而減小,直至小于提前設(shè)定的閾值,將其設(shè)定為新的關(guān)鍵幀。
圖6 動(dòng)態(tài)分配關(guān)鍵幀示意圖Fig.6 Schematic diagram of dynamic allocation of key frame
現(xiàn)有的基于關(guān)鍵幀的目標(biāo)檢測方法僅考慮每幀的平均運(yùn)行時(shí)間[23]。但是,在關(guān)鍵幀和非關(guān)鍵幀上運(yùn)行不同的特征提取網(wǎng)絡(luò),會(huì)造成在不同幀上計(jì)算量的差別較大。在提取關(guān)鍵幀特征時(shí)運(yùn)行更多的時(shí)間,相比非關(guān)鍵幀,其存在延時(shí)較大的問題。
基于文獻(xiàn)[24],本文提出一種異步運(yùn)行的模式,以大幅降低最大延遲。該模式將目標(biāo)檢測分為快速和慢速2 種通道,快速通道采用基于局部注意的特征對(duì)齊模塊對(duì)當(dāng)前圖像特征進(jìn)行對(duì)齊,慢速通道采用關(guān)鍵幀的特征提取網(wǎng)絡(luò),即內(nèi)存增強(qiáng)的全局-局部聚合方法。關(guān)鍵幀的大延時(shí)是由于運(yùn)行高層特征提取網(wǎng)絡(luò)造成的。為此,當(dāng)某一幀被確定為關(guān)鍵幀后,首先通過快速通道從LRM 中獲取上一關(guān)鍵幀的圖像特征,再利用該圖像特征對(duì)當(dāng)前關(guān)鍵幀進(jìn)行特征對(duì)齊,并將對(duì)齊后的圖像特征臨時(shí)選擇為當(dāng)前關(guān)鍵幀的高層圖像特征,并放入緩存中。同時(shí)在不阻塞主程序的情況下啟動(dòng)后臺(tái)進(jìn)程,通過慢速通道對(duì)當(dāng)前關(guān)鍵幀進(jìn)行特征提取,得到并更新內(nèi)存,以替換緩存中臨時(shí)高層圖像特征。實(shí)驗(yàn)結(jié)果表明,異步檢測模式可以大幅降低最大延遲(從114 ms降至31 ms),而準(zhǔn)確率只有小幅度降低(從81.9%降至80.7%)。因此,在視頻監(jiān)控和自動(dòng)駕駛實(shí)際應(yīng)用中,對(duì)延遲有嚴(yán)格約束,采用本文提出的異步檢測模式是一種非常有效的方法。
本文數(shù)據(jù)集選用ImageNet VID,該數(shù)據(jù)集包括30種目標(biāo)類別。其中訓(xùn)練集包含3 862 個(gè)視頻片段,驗(yàn)證集包含555 個(gè)視頻片段。根據(jù)文獻(xiàn)[7-8]中廣泛采用的協(xié)議,在驗(yàn)證集上評(píng)估本文提出的方法,并使用平均精度(mAP)作為檢測精度的評(píng)價(jià)指標(biāo),每秒檢測幀數(shù)和最大延遲作為檢測速度的評(píng)價(jià)指標(biāo)。
本文使用ResNet-101 作為特征提取網(wǎng)絡(luò),選取低于Conv4_3 的卷積層構(gòu)造低層特征提取網(wǎng)絡(luò)NL。模型選取層數(shù)較多的低層特征提取網(wǎng)絡(luò),以獲得較高的精度,但是會(huì)提升計(jì)算成本,從而降低運(yùn)行速度。本文選擇低于Conv4_3 的卷積層,其原因?yàn)橥ㄟ^實(shí)驗(yàn)發(fā)現(xiàn),該選擇在驗(yàn)證集的準(zhǔn)確性和速度之間能夠?qū)崿F(xiàn)較優(yōu)的平衡。檢測網(wǎng)絡(luò)使用R-FCN[4],將Conv5 的步幅從2 修改為1,以增大特征圖的分辨率。在區(qū)域建議網(wǎng)絡(luò)RPN 產(chǎn)生候選框后,使用MEGA 提出的內(nèi)存增強(qiáng)全局-局部聚合方法對(duì)候選框的特征進(jìn)行增強(qiáng),同時(shí)對(duì)特征傳播模型和動(dòng)態(tài)分配關(guān)鍵幀模塊進(jìn)行微調(diào)。這兩個(gè)模塊將選取間隔為l的一對(duì)視頻幀作為輸入(在文獻(xiàn)[25]中l(wèi)是隨機(jī)選取的)。該對(duì)視頻幀的選擇標(biāo)準(zhǔn)為:第一幀作為關(guān)鍵幀,第二幀必須為帶有標(biāo)簽的視頻幀。通過特征傳播模型對(duì)關(guān)鍵幀特征進(jìn)行提取和傳播,并將其作為每對(duì)視頻幀中的第二幀,以生成檢測結(jié)果圖。該模型經(jīng)過訓(xùn)練后,盡可能減少生成的檢測結(jié)果和標(biāo)簽之間的損失,從而得到最優(yōu)解。經(jīng)過實(shí)驗(yàn)驗(yàn)證,當(dāng)超參數(shù)逐步稀疏范圍的最大步幅d=4、動(dòng)態(tài)分配關(guān)鍵幀的閾值threshold=0.75 時(shí),該模型能夠在速度和精度方面實(shí)現(xiàn)較優(yōu)的平衡。本文選擇回歸模型訓(xùn)練動(dòng)態(tài)分配關(guān)鍵幀模塊,其中真實(shí)值為關(guān)鍵幀邊框和當(dāng)前幀邊框的交集與并集的比值。整個(gè)網(wǎng)絡(luò)使用隨機(jī)梯度下降算法(Stochastic Gradient Descent,SGD)在GPU上進(jìn)行訓(xùn)練,并且采用dropout策略。訓(xùn)練時(shí),本文對(duì)輸入視頻幀進(jìn)行預(yù)處理,調(diào)整短邊為600 像素,區(qū)域建議網(wǎng)絡(luò)RPN 采用9 個(gè)錨點(diǎn)和300 個(gè)建議區(qū)域,在4 塊RTX 2080Ti GPU執(zhí)行1.2×105迭代。前8×104迭代的學(xué)習(xí)率為2.5×10-4,后4×104迭代的學(xué)習(xí)率為2.5×10-5。
3.3.1 檢測精度與速度分析
本文方法與現(xiàn)有視頻目標(biāo)檢測方法檢測精度和檢測速度的對(duì)比如表1 所示。當(dāng)本文方法的檢測精度為80.7%時(shí),檢測速度達(dá)到31.8 frame/s。與MEGA方法[16]相比,本文方法的檢測精度略有下降,但檢測速度提高了3.6 倍,達(dá)到了實(shí)時(shí)檢測的要求。本文設(shè)計(jì)的模型是一種在線檢測的模型。與基于光流的方法(如DFF[7]和Towards[8])相比,本文方法能夠?qū)崿F(xiàn)更快的檢測速度和更高的檢測精度。在沒有外部光流網(wǎng)絡(luò)的情況下,本文所提的模型明顯簡化整個(gè)檢測架構(gòu),并且能夠精確地學(xué)習(xí)連續(xù)視頻幀之間的特征對(duì)應(yīng)關(guān)系。
表1 不同方法的檢測精度和檢測速度對(duì)比Table 1 Detection accuracy and detection speed comparison among different methods
3.3.2 模型分解實(shí)驗(yàn)
本文在ImageNet VID數(shù)據(jù)集上進(jìn)行模型分解實(shí)驗(yàn),以驗(yàn)證特征傳播模型、動(dòng)態(tài)分配關(guān)鍵幀模塊和異步檢測模式的有效性,分解實(shí)驗(yàn)的詳細(xì)設(shè)置如表2 所示。
表2 模型分解實(shí)驗(yàn)的配置Table 2 Configuration of model decomposition experiment
本文首先將特征傳播模型與現(xiàn)有的非光流特征傳播模型進(jìn)行對(duì)比,然后比較特征傳播模型和光流傳播模型。MatchTrans[20]和Nonlocal[29]是兩種非光流特征傳播模型,MatchTrans 通過計(jì)算局部區(qū)域內(nèi)所有特征單元的相似度,以得到特征傳播的權(quán)值。Nonlocal 考慮所有特征單元的相似性,其mAP 為72.8%,檢測速度為41.12 frame/s。本文提出的特征傳播模型使用漸進(jìn)稀疏的局部區(qū)域。為驗(yàn)證漸進(jìn)稀疏局部區(qū)域的有效性,本文構(gòu)建一個(gè)密集版本的特征傳播模型。與MatchTrans相似,該模型使用局部區(qū)域內(nèi)的所有特征單元,通過式(4)計(jì)算每個(gè)特征單元的傳播權(quán)值。不同非光流特征傳播方法的性能對(duì)比如表3 所示。本文僅將上一關(guān)鍵幀的特征傳播到非關(guān)鍵幀,實(shí)現(xiàn)簡單的目標(biāo)檢測框架,從而驗(yàn)證不同特征傳播方法的性能。從表3 可以看出,在所有最大位移設(shè)置下,本文方法具有較高的檢測精度和較快的檢測速度,當(dāng)最大位移為4 時(shí),檢測精度達(dá)到了最高。
表3 不同非光流特征傳播方法的性能指標(biāo)對(duì)比Table 3 Performance indexs comparison among different feature propagation with non-optical flow methods
光流可以預(yù)測連續(xù)幀之間的運(yùn)動(dòng)場,DFF 通過FlowNet 將關(guān)鍵幀的特征傳播到非關(guān)鍵幀。為驗(yàn)證局部注意在圖像特征之間空間對(duì)應(yīng)的有效性,本文將局部注意和DFF 進(jìn)行對(duì)比,結(jié)果如表4 所示。表4 僅將上一個(gè)關(guān)鍵幀的特征傳播到非關(guān)鍵幀,構(gòu)建一個(gè)簡單的目標(biāo)檢測架構(gòu)。從表4 可以看出,在關(guān)鍵幀間隔分別為10 frame和15 frame的情況下,本文方法的性能更優(yōu)。
表4 不同光流特征傳播方法的性能指標(biāo)對(duì)比Table 4 Performance indexs comparison among different feature propagation with optical flow methods%
為驗(yàn)證動(dòng)態(tài)分配關(guān)鍵幀模塊的有效性,本文對(duì)方法1 和方法2 進(jìn)行對(duì)比。在選擇關(guān)鍵幀時(shí),本文方法1和本文方法2分別采用固定間隔選擇和動(dòng)態(tài)分配方法。不同關(guān)鍵幀選擇方法的性能對(duì)比如圖7 所示。在不同的檢測速度下,本文的動(dòng)態(tài)分配關(guān)鍵幀選取方法性能總是優(yōu)于固定間隔的選取方法。其中,關(guān)鍵幀選取間隔l=2,4,…,24,動(dòng)態(tài)分配關(guān)鍵幀的閾值threshold=0.95,0.90,…,0.40。從圖7 可以看出,隨著閾值的減小,檢測精度在閾值較大的階段(threshold>0.8)會(huì)隨著檢測速度的加快而增加,當(dāng)閾值減小到一定程度后(threshold<0.8),檢測精度會(huì)隨著檢測速度的加快而下降。閾值較大(threshold>0.8)導(dǎo)致兩個(gè)連續(xù)關(guān)鍵幀之間存在信息冗余的問題,導(dǎo)致精度降低,如圖7中threshold由0.95降低至0.8,檢測精度反而提高。過小的閾值導(dǎo)致兩個(gè)關(guān)鍵幀之間存在較大差異,在這種情況下建立空間對(duì)應(yīng)面臨一定的挑戰(zhàn),造成檢測精度急劇下降,如圖7 中threshold 小于0.6,檢測精度隨著檢測速度的增加而急劇下降。因此,當(dāng)閾值設(shè)置太小或者太大時(shí),精度就會(huì)降低。從圖7 可以看出,當(dāng)閾值threshold=0.75 時(shí),檢測精度為81.2%,檢測速度為18.5 frame/s,在兩者之間實(shí)現(xiàn)較優(yōu)的平衡。
圖7 不同關(guān)鍵幀選擇方法的性能指標(biāo)對(duì)比Fig.7 Performance indexs comparison among different key frame selection methods
為驗(yàn)證異步檢測模式的有效性,本文所提架構(gòu)的整體延遲和每個(gè)模塊各自的延遲對(duì)比如表5 所示。其中,MEGA 方法是逐幀檢測的方法。方法1 采用特征傳播模型和固定間隔關(guān)鍵幀選取方法,以加快檢測速度,每幀運(yùn)行時(shí)間從114 ms 縮短到46 ms,同時(shí)檢測精度下降了2.8 個(gè)百分點(diǎn)。方法2 采用動(dòng)態(tài)分配關(guān)鍵幀模塊,相比方法1,其運(yùn)行時(shí)間增加了8 ms,檢測精度提高了2.1 個(gè)百分點(diǎn)。雖然方法1 和方法2 縮短了模型的整體檢測時(shí)間,但是關(guān)鍵幀的計(jì)算量較大,并不能減少最大延遲。本文方法在方法2 的基礎(chǔ)上采用異步檢測模式,將最大延遲大幅減少到31 ms(約為基礎(chǔ)網(wǎng)絡(luò)延遲的27%),并具有較高的精度。異步檢測模式不僅在平均意義上降低整體成本,而且大幅度降低了最大延遲。
表5 不同方法的性能指標(biāo)對(duì)比Table 5 Performance indexs comparison among different methods
在ImageNet VID 數(shù)據(jù)集上本文方法的可視化檢測結(jié)果如圖8 所示,本文在實(shí)現(xiàn)加快檢測速度的同時(shí),具有較高的檢測精確度。
圖8 在ImageNet VID 數(shù)據(jù)集上本文方法的可視化結(jié)果Fig.8 Visualization results of the proposed method on ImageNet VID dataset
本文提出基于局部注意的視頻目標(biāo)檢測方法。通過構(gòu)建特征傳播模型將關(guān)鍵幀的高層特征傳播至非關(guān)鍵幀,設(shè)計(jì)基于精度預(yù)測的動(dòng)態(tài)分配關(guān)鍵幀模塊,加快檢測速度。在此基礎(chǔ)上,提出異步檢測模式,協(xié)調(diào)關(guān)鍵幀的特征傳播和計(jì)算。在ImageNet VID 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本文方法的檢測精度為80.7%,檢測速度和最大延遲分別為31.8 frame/s 和31 ms,在保證檢測精度的前提下,獲得低延遲的在線檢測結(jié)果。后續(xù)將采用知識(shí)蒸餾的方法對(duì)模型進(jìn)一步壓縮,以降低系統(tǒng)的整體計(jì)算成本。