亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合稀疏注意力和時間查詢的視頻目標檢測

        2023-10-30 08:58:14梅思怡劉彥隆
        計算機工程與應(yīng)用 2023年20期
        關(guān)鍵詞:注意力特征模塊

        梅思怡,劉彥隆

        太原理工大學 信息與計算機學院,山西 晉中 030600

        視頻目標檢測是為了解決每一個視頻幀中出現(xiàn)的目標如何進行定位和識別的問題[1]。隨著智能視頻監(jiān)控[2]、人臉識別門禁系統(tǒng)、自動駕駛[3]、機器人視覺導航等更貼近人們?nèi)粘I钜约胺犀F(xiàn)實需求的視頻數(shù)據(jù)的增多,視頻目標檢測的研究具有更大的現(xiàn)實意義與應(yīng)用價值。視頻是由一系列具有時間連續(xù)性和內(nèi)容相關(guān)性的圖像組成,相比于靜止圖像,視頻具有高冗余度的特性,包含了大量的時空局部信息。傳統(tǒng)的靜止圖像目標檢測方法直接應(yīng)用于視頻目標檢測,往往達不到很好的效果,這是因為視頻文件容易存在抖動、散焦等問題,會導致單幀圖片出現(xiàn)重影、模糊。另一方面,直接用傳統(tǒng)方法對視頻進行逐幀檢測,還會大大影響檢測速度,不能滿足實時性的要求。因此,如何利用好視頻提供的時間上下文信息來提升檢測準確度和檢測速率等,成為了構(gòu)建視頻目標檢測網(wǎng)絡(luò)的關(guān)鍵因素。

        視頻目標檢測方法主要包括三類:基于運動信息的方法、基于檢測和跟蹤的方法和基于注意力的方法。基于運動信息的方法主要是通過利用目標運動的光流信息來進行特征聚合。Zhu等人[4]利用光流信息將目標幀的特征聚合到參考幀,以此來獲得參考幀的特征圖。尉婉青等人[5]提出一種雙光流網(wǎng)絡(luò)指導的視頻目標檢測模型,利用兩種不同的光流網(wǎng)絡(luò)估計光流場進行多幀圖像特征融合。隨著跟蹤算法的飛速發(fā)展,更多的研究者將跟蹤算法應(yīng)用于目標檢測。最具有代表性的就是Kang等人[6]提出一種目標檢測和跟蹤的多階段檢測框架,核心思想是用跟蹤算法學習視頻序列中目標變化的時間信息,用檢測算法學習單幀圖像中目標的空間信息,之后將二者有機結(jié)合起來提升視頻目標檢測網(wǎng)絡(luò)的性能。隨著注意力機制在NLP任務(wù)上出色的表現(xiàn),近幾年也逐漸被應(yīng)用到圖像相關(guān)領(lǐng)域。ViT[7]首先將Transformer[8]體系結(jié)構(gòu)引入圖像分類,并取得了很好的效果。Carion等人[9]提出了第一個基于transformer的端到端的目標檢測算法DETR,無需錨點和非極大抑制(NMS)等進行候選框的預(yù)測和選擇,而是直接將目標檢測視為集合預(yù)測問題。后續(xù)提出的Deformable DETR[10]通過引入可形變卷積塊,提升了網(wǎng)絡(luò)的收斂速度,并且一定程度上提升了小目標的檢測能力。為了能夠滿足實時性需求,Zhu[11]、Yao[12]、Jiang[13]等人通過設(shè)計一個實時性的特征聚合網(wǎng)絡(luò),在滿足檢測速度的同時,網(wǎng)絡(luò)檢測精度也有所提高。VSTAM[14]通過結(jié)合不同位置的參考幀實現(xiàn)目標幀的特征聚合,還引入一種基于聚集的外部存儲器更新策略以有效地保存視頻長期特征信息。TransVOD[15]是第一個將transformer 應(yīng)用于視頻目標檢測任務(wù)并建立在DETR 上的網(wǎng)絡(luò),提出一種基于transformer 的聚合模塊來匯總每個幀的空間對象查詢和特征,實現(xiàn)了端到端的視頻目標檢測,但是基于DETR的框架設(shè)計導致網(wǎng)絡(luò)整體收斂速度慢。基于此,PTSEFormer[16]隨后提出了一種具有時空特征聚合設(shè)計的端到端的框架,通過漸進地聚合時間和空間特征,更好地利用了上下文信息,同時基于全局的自注意力機制存在注意力分散的問題,導致網(wǎng)絡(luò)不能很好地區(qū)分目標和背景,檢測效率低。

        針對以上問題,本文提出一種高效的、端到端的網(wǎng)絡(luò)以提升視頻目標檢測效率和前景目標邊緣檢測精度:(1)引入稀疏注意力機制,減少注意分散和復(fù)雜背景干擾,提升邊緣檢測精度。(2)引入時間融合查詢模塊,逐幀鏈接時間上下文參考幀的空間特征,強化目標幀特征。(3)改進參考幀的選取,從近距離和遠距離稀疏地選取參考幀,補充運動模糊和減少冗余,實現(xiàn)檢測前特征細化。(4)調(diào)整網(wǎng)絡(luò)結(jié)構(gòu),優(yōu)化檢測模型,實現(xiàn)端到端的視頻目標檢測。

        1 算法原理與網(wǎng)絡(luò)結(jié)構(gòu)

        1.1 遠近距離參考幀稀疏采樣

        視頻目標檢測網(wǎng)絡(luò)的輸入是一個給定的視頻幀,目的是通過聚合附近時刻的n個參考幀Rt,在目標幀(關(guān)鍵幀)Ft處檢測出對象的類別和邊界框。通常的網(wǎng)絡(luò)通過連續(xù)地選取t時刻附近的幀作為參考幀[15],然而檢測對象在附近連續(xù)時間可能都是運動模糊的,因此會存在附近幀中檢測對象變化不大、運動物體檢測效果不好的問題,此時更遠處的幀往往包含更準確的信息。此外,目標在附近時間的運動是接近的還會導致特征冗余的問題。為了獲取更廣泛的信息,本文對參考幀的選取做了改進,相對于連續(xù)時間的標準密集采樣,本文采用稀疏選取的方式,同時對近距離時間和遠距離時間的幀進行采樣。

        通常來說,越靠近目標幀時間的視頻幀有用的特征信息就越多,而距離越遠的特征相關(guān)性越小,因此距離目標幀時間越近選取的參考幀應(yīng)當越密集。對于給定的參考幀數(shù)量n,定義與目標幀的時間差的集合Tsparse如下:Tsparse={2i|0 ≤i<n},定義參考幀Rt={Ft-i|i∈Tsparse},可以有效地收集附近和遠處的幀作為參考幀。兩種參考幀采樣方式分別如圖1(a)和(b)所示,其中深藍色部分為目標幀F(xiàn)t,也就是當前需要檢測的幀;淺藍色部分為選取的參考幀Rt;灰白色部分為未被選中的視頻幀。

        圖1 兩種參考幀選取方式Fig.1 Two reference frame selection methods

        采用遠近距離稀疏選取參考幀的方法,在附近時間幀是短時間內(nèi)的密集選取,可以有效地獲得待檢測目標在上下文中的特征;而遠距離時間幀是稀疏選取,可以在很大程度上補充運動模糊,同時去除冗余。與密集采樣相比,遠近距離稀疏的參考幀采樣方式可以同時獲得附近距離和長遠距離的時間特征,實現(xiàn)在相同數(shù)量參考幀的前提下獲得更廣泛的信息,同時實現(xiàn)檢測前特征細化。

        1.2 DETR網(wǎng)絡(luò)

        DETR網(wǎng)絡(luò)將目標檢測看作是集合預(yù)測問題,是一種基于注意力機制的、端到端的檢測網(wǎng)絡(luò),整體結(jié)構(gòu)可分為編碼器和解碼器兩部分。通過CNN獲得目標幀和參考幀的圖像特征,將它們加上位置編碼后展開輸入到編碼器中。解碼器輸出每個對象查詢特征的空間輸出,通過FFN 檢測頭進行將其轉(zhuǎn)換成每個目標的類別分數(shù)和檢測框的定位。利用匈牙利算法,在輸出的類別分數(shù)和地面真實值之間進行一對一匹配,匹配成功則輸出最終的檢測結(jié)果。DETR 的網(wǎng)絡(luò)結(jié)構(gòu)如圖2 所示,其中編碼器可疊加N層,解碼器可疊加M層。

        圖2 DETR網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 DETR network structure

        1.3 整體網(wǎng)絡(luò)框架

        本文的方法整體框架如圖3所示,主要包括四個部分,分別是特征提取網(wǎng)絡(luò)、編碼器、解碼器和檢測網(wǎng)絡(luò)。其中,特征提取網(wǎng)絡(luò)即CNN卷積神經(jīng)骨干網(wǎng)絡(luò),輸出目標幀F(xiàn)t和參考幀Rt的圖像特征,將其展開成一維向量后嵌入位置信息,輸入到編碼器中。編碼器和解碼器引入稀疏注意力機制。為了提高計算效率和網(wǎng)絡(luò)收斂的速度,采用Defomable DETR 作為基礎(chǔ)檢測網(wǎng)絡(luò),編碼器的輸出通過可形變encoder 得到增強后的目標特征Et,解碼器的輸出通過TFQ 模塊獲得帶有時間上下文信息的時間融合輸出查詢。最后,將Et和輸入到基礎(chǔ)檢測網(wǎng)絡(luò)的可形變decoder,通過一個FFN 獲得最終的檢測結(jié)果。

        圖3 整體網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.3 Overall network structure

        1.4 稀疏多頭注意力機制

        DETR中基于transformer的編碼器和解碼器主要利用多頭自注意力(multi-head self-attention,MSA)和多頭交叉注意力(multi-head cross-attention,MCA)來學習特征的依賴性并收集輸入序列的信息,是一種全局自注意力機制,考慮了檢測區(qū)域中所有元素。然而這種全局自注意力機制對檢測區(qū)域中最相關(guān)的特征信息缺乏關(guān)注,容易被背景分散注意力,導致背景和目標邊緣區(qū)分模糊,檢測效果較差。另一方面,目標可能在某個時間段內(nèi)的多個幀中出現(xiàn)在相似的位置,存在大量特征冗余,導致網(wǎng)絡(luò)整體收斂速度慢。為了解決這些問題,本文受Zhao 等人[17]的啟發(fā),引入稀疏多頭注意力(spares multi-head attention,SMA)替換網(wǎng)絡(luò)原本的注意力模塊。

        在傳統(tǒng)的MSA和MCA中,通過輸入特征的所有像素值來計算目標特征的每個像素值,導致前景的邊緣區(qū)域模糊,同時需要消耗大量計算。而在SMA中,目標特征的每個像素值僅由與其最相似的K個值確定,通過在樸素注意的基礎(chǔ)之上利用稀疏注意掩碼操作M(·) 實現(xiàn)稀疏注意,公式如公式(3)所示:

        其中,K、V、Q分別是鍵、值和查詢,dk是值和鍵的嵌入維度,l是輸入序列的長度。稀疏掩碼M∈[0,1]l×l的定義如公式(4)所示:

        圖4所示為兩種注意力計算方式的對比,其中圖(a)為樸素縮放點積注意力的計算過程,圖(b)為稀疏縮放點積注意力的計算過程。在傳統(tǒng)的注意力計算中,通過給定的query∈RHW×C,key∈RC×H′W′,value∈RH′W′×C計算查詢query和鍵key之間的相似性,然后將相似性矩陣直接進行歸一化,最終與value相乘得到計算結(jié)果。而在稀疏注意中,通過增加掩碼機制屏蔽與查詢query相關(guān)性不高的部分,主要流程如下:首先計算查詢query和鍵key之間所有元素的相似性。然后,與傳統(tǒng)注意力計算不同,用softmax 函數(shù)僅對相似性矩陣每行中的K個最大元素進行歸一化,將其他元素置為0,得到帶有掩碼機制的相似性矩陣。最后與value相乘得到最終的計算結(jié)果。

        圖5 所示是在稀疏縮放點積注意中歸一化相似性矩陣的行向量的示例。從圖中結(jié)果可以看出,上方的樸素縮放點積注意力直接將向量進行歸一化,可能會放大原本相對較小的相似性權(quán)重,也就是相似度不高的部分。而下方的稀疏縮放點積注意力通過掩碼機制將相似度低的位置的權(quán)重替換為0,實現(xiàn)讓注意力集中關(guān)注在相似度高的位置。

        圖5 歸一化相似性矩陣行向量的對比示例Fig.5 Comparative example of normalized similarity matrix row vector

        1.5 時間融合查詢TFQ模塊

        在視頻目標檢測任務(wù)中,如何利用好視頻幀的時空信息是非常關(guān)鍵的,一般主要通過聚合參考幀的時空信息實現(xiàn)待檢測目標的特征增強。在原始DETR中,對象查詢在訓練過程中會自動學習整個單幀圖像數(shù)據(jù)集的統(tǒng)計特征,這表明空間對象查詢在時間上下文的幀之間沒有差異,即不包含時間上下文信息。為了獲取當前幀中的對象與時間上下文參考幀中的對象之間的相互作用,提出一種時間融合查詢模塊TFQ(time fusion query),如圖6所示。TFQ以主網(wǎng)絡(luò)解碼器的輸出作為輸入,對所有參考幀的空間輸出查詢進行增強,并輸出當前目標幀帶有時空信息的空間輸出查詢。

        圖6 時間融合查詢模塊Fig.6 Time fusion query module

        目標幀和參考幀在主網(wǎng)絡(luò)解碼器的輸出具有豐富的時空信息,將它們作為模塊的輸入,進行特征融合。特征融合包括自注意力和交叉注意力的計算。通過逐幀聚合的方式,用上一個參考幀特征增強后的結(jié)果對下一幀進行特征強化,以此類推,最后實現(xiàn)不同時間上下文的特征融合。通過鏈接所有參考幀的空間對象查詢,從而學習視頻幀的時空信息,最終得到帶有時間上下文的目標幀時間融合輸出查詢。

        2 實驗結(jié)果與分析

        2.1 實驗設(shè)置

        2.1.1 數(shù)據(jù)集

        本文主要采用ImageNet VID[18]數(shù)據(jù)集和UA-DETRAC[19]車輛檢測數(shù)據(jù)集進行實驗。圖7為數(shù)據(jù)集的示例,包括視頻中物體的遮擋、攝像頭不平穩(wěn)導致的抖動和動物運動導致的模糊。

        圖7 數(shù)據(jù)集示例Fig.7 Dataset example

        ImageNet VID數(shù)據(jù)集是用于視頻目標檢測的大規(guī)?;鶞剩饕?0個類別,包括3 862個訓練視頻和555個測試視頻。本文按照通常的方法,使用ImageNet VID 和DET[18]數(shù)據(jù)集的組合來訓練模型,采用IoU 在閾值0.5處的均值平均精度(mAP)作為評價指標。

        UA-DETRAC是現(xiàn)實世界交通場景的大規(guī)?;鶞?,該數(shù)據(jù)集包含60個訓練視頻(約82 085張圖片)和40個測試視頻(約56 167 張圖片),視頻以每秒25 幀(fps)的速度錄制,分辨率為960×540像素。該數(shù)據(jù)集包括四種車輛的分類和四種天氣的分類,采用IoU 在閾值0.7 處的平均精度(AP)作為評價指標。

        2.1.2 實驗參數(shù)配置

        本實驗所用設(shè)備CPU型號為Platinum 8255C,顯卡為RTX 2080 Ti,運行內(nèi)存為11 GB,深度學習框架為pytorch1.11.0。

        設(shè)置訓練的batch-size 大小為2,對于每個目標幀,在時間窗口大小為n=4 的訓練和檢測階段設(shè)置參考幀選擇。對于所有輸入圖像都使用和MEGA[20]一樣的數(shù)據(jù)增強,包括隨機水平翻轉(zhuǎn)等,調(diào)整輸入圖像的大小使最短的邊至少600 像素,最長的邊最多1 000 像素。在稀疏注意力中,和通常的方法一樣,將多頭注意力的頭數(shù)m設(shè)置為8,編碼器的層數(shù)和解碼器的層數(shù)都設(shè)置為4。設(shè)置初始學習率為2×10-4,epoch為15,當使用ResNet-50[21]和ResNet-101[21]作為骨干網(wǎng)絡(luò)時,學習率在第5 和第6個時期下降。此外,還采用Swin Transformer[22]作為基礎(chǔ)檢測網(wǎng)絡(luò)進行對比實驗。

        2.2 對比實驗結(jié)果分析

        2.2.1 與基礎(chǔ)網(wǎng)絡(luò)比較

        為檢驗本文算法的有效性,將本文方法與近幾年發(fā)布的視頻目標檢測算法分別在ImageNet VID 和UA-DETRAC數(shù)據(jù)集上進行對比,所對比算法的評價指標均來自于各算法的原文獻。

        在ImageNet VID數(shù)據(jù)集上基于ResNet-50和ResNet-101的實驗結(jié)果如表1 和表2 所示。將主流的視頻目標檢測方法根據(jù)其網(wǎng)絡(luò)結(jié)構(gòu)分為兩類,分別是兩階段方法和單階段方法,以往的端到端的方法也是主要建立在兩階段檢測器上,而近年來端到端的方法主要建立在一階段檢測器上。隨著近幾年注意力機制在視覺任務(wù)中的廣泛使用,將Deformable DETR作為基礎(chǔ)檢測器的方法的效果要明顯高于以往基于卷積網(wǎng)絡(luò)的方法?;诖?,近期端到端視頻目標算法如TransVOD 和PTSEFormer等,在視頻目標檢測任務(wù)上效果有了很大的提升。本文的方法在ResNet-50 的基礎(chǔ)上可以獲得89.6%的準確率,相比于目前效果最好的端到端的視頻目標檢測算法PTSEFormer 精度提升2.2 個百分點,而在更強大的ResNet-101基礎(chǔ)之上檢測準確率為90.7%,相比PTSEFormer提升2.6個百分點。

        表1 ImageNet VID數(shù)據(jù)集測試結(jié)果比較(主干網(wǎng)絡(luò)為ResNet-50)Table 1 Comparison of ImageNet VID dataset test results(with ResNet-50 backbone)

        表2 ImageNet VID數(shù)據(jù)集測試結(jié)果比較(主干網(wǎng)絡(luò)為ResNet-101)Table 2 Comparison of ImageNet VID dataset test results(with ResNet-101 backbone)

        在UA-DETRA 數(shù)據(jù)集上的對比結(jié)果如表3 所示。此數(shù)據(jù)集上的YOLOv3-SPP、MSVD_SPP 和SpotNet 等都是靜止圖像檢測方法,主要通過引入空間注意機制來提高視頻檢測結(jié)果的準確性,F(xiàn)FAVOD-SpotNet 則主要通過利用時間信息來提高檢測準確性。通過實驗結(jié)果可以看出,本文方法在ResNet-101 的基礎(chǔ)上可以實現(xiàn)90.90%的準確率,相比于表現(xiàn)最好的FFAVOD-SpotNet網(wǎng)絡(luò)檢測精度提升了2.8個百分點。

        表3 UA-DETRAC數(shù)據(jù)集測試結(jié)果比較Table 3 Comparison of UA-DETRAC dataset test results 單位:%

        2.2.2 與其他先進方法比較

        將本文的方法與最近幾種先進的方法以及帶有后處理的方法進行比較,結(jié)果如表4所示。比較的網(wǎng)絡(luò)結(jié)構(gòu)包括單階段和帶有后處理模塊的兩階段方法,事實證明,后處理在許多視頻目標檢測方法中都有很好效果,使用最廣泛的后處理方法是Seq-NMS,通過非極大抑制操作可以將檢測的準確率提升1~2個百分點。此外,從表中可以看出,傳統(tǒng)兩階段網(wǎng)絡(luò)中表現(xiàn)較好的算法通常都是基于ResNet-101,隨著基礎(chǔ)網(wǎng)絡(luò)的改進,以Faster R-CNN 為基礎(chǔ)檢測網(wǎng)絡(luò)的模型效果得到進一步提升。為了避免復(fù)雜的后處理,近幾年更多的方法是一階段網(wǎng)絡(luò),隨著transformer 在各領(lǐng)域的廣泛應(yīng)用,更多的模型建立在其基礎(chǔ)之上,比如TransVOD、PTSEFormer等,以ResNet-101為基準的模型準確率分別可以達到81.9%和88.1%。而在相同條件下,基于Swin Transformer 的方法能使得檢測精度進一步提升,比如最近表現(xiàn)更好的TransVOD++和VSTAM,在以Swin Transformer 作為骨干的模型上檢測準確率分別可以達到90.0%和91.1%。從實驗結(jié)果可以看出,本文所提出的端到端的方法也能實現(xiàn)和上述方法相當?shù)男Ч?,通過引入稀疏注意力機制和時間融合查詢模塊,以Swin Transformer和Deformable DETR 為基準的模型檢測準確率可達92.3%,比相同條件下表現(xiàn)最好的VSTAM 網(wǎng)絡(luò)提升了1.2 個百分點,證明了所提模型相比于其他模型的優(yōu)勢。

        2.3 分解實驗及分析

        2.3.1 消融實驗及分析

        考慮到檢測速度,主要采用ResNet-50 作為骨干網(wǎng)絡(luò)進行消融研究。為了驗證稀疏多頭注意力機制MSA和時間融合查詢模塊TFQ 的有效性,在ImageNet VID和UA-DETRAC這兩個數(shù)據(jù)集上共進行了4組實驗,通過在Deformable DETR網(wǎng)絡(luò)的基礎(chǔ)上逐步添加MSA和TFQ模塊進行驗證。其中模型1是初始檢測網(wǎng)絡(luò);模型2是在模型1 的基礎(chǔ)之上增加了稀疏注意力模塊;模型3是在模型2的基礎(chǔ)之上增加時間融合查詢模塊,也就是本文的算法;模型4 是在模型1 的基礎(chǔ)之上只添加時間融合查詢模塊。消融實驗結(jié)果如表5所示。

        表5 消融實驗結(jié)果Table 5 Results of ablation experiment

        結(jié)果顯示,相比與基礎(chǔ)網(wǎng)絡(luò),模型2 增加MSA模塊后,檢測精度在ImageNet VID 和UA-DETRAC 兩個數(shù)據(jù)集上分別有0.061和0.121的提升,這表明通過引入稀疏注意力機制,可以有效減少背景假陽性和假陰性干擾,降低邊緣檢測模糊,實現(xiàn)更穩(wěn)定的檢測。模型4 通過添加TFQ模塊之后,在兩個數(shù)據(jù)集上分別實現(xiàn)了0.051和0.1 的提升,說明通過融合不同時間上下文視頻幀的特征可以更好地利用視頻的時間信息,提高檢測準確度。模型3 中集成了上述兩個模塊,也就是本文方法,最終結(jié)果相比模型1來說,在兩個數(shù)據(jù)集上分別提升了0.084和0.143,進一步驗證了這兩個模塊對于提升視頻目標檢測準確度的有效性。

        2.3.2 特征聚合方法對比

        為了驗證遠近距離選取參考幀方式的有效性,分別運用了三種不同的方法在UA-DETRAC 數(shù)據(jù)集上進行對比實驗。每一種方法都設(shè)置效果最好的參數(shù),只是對特征聚合參考幀的選取方式進行修改,通過使用不同的參考幀選取方法進行橫向?qū)Ρ?,結(jié)果如表6所示。從表中可以看出,在相同網(wǎng)絡(luò)中,更換參考幀選取方式后,檢測精度都有一定的提升,表明遠距離時間的特征仍和目標有一定的相關(guān)性。

        表6 不同方法選取參考幀對比Table 6 Comparison of different methods for selecting reference frames

        3 結(jié)束語

        本文提出了一種基于DETR 的端到端的視頻目標檢測方法,通過引入稀疏注意力機制和融合不同時間參考幀的空間查詢來提高檢測性能。該方法首先將稀疏選取的固定數(shù)量的參考幀輸入到特征提取網(wǎng)絡(luò),然后將圖片特征輸入到帶有稀疏注意力的編碼、解碼模塊,獲得參考幀的融合特征和融合空間查詢輸出,將兩者輸入到解碼器中獲得最終的檢測結(jié)果。在ImageNet VID和UA-DETRAC兩個數(shù)據(jù)集上的實驗表明,通過引入稀疏注意力機制可以稀疏的聚合特征,有效減少背景干擾,同時節(jié)約計算和內(nèi)存成本。利用淺層編碼器融合時間上下文信息可以獲得更多的時間信息,實現(xiàn)目標幀的特征增強,提高網(wǎng)絡(luò)對于劣化圖像的魯棒性。在未來的工作中,需要進一步優(yōu)化特征融合模塊,通過融合不同時間視頻幀之間的空間信息使得網(wǎng)絡(luò)能夠更加穩(wěn)定地隨著時間推移繼續(xù)檢測同一類中的同一目標。此外,還需要通過優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)實現(xiàn)輕量化,在保證檢測精度的同時提升檢測速度,使得模型能夠進行實時的視頻目標檢測,更加貼近現(xiàn)實功能需求。

        猜你喜歡
        注意力特征模塊
        28通道收發(fā)處理模塊設(shè)計
        “選修3—3”模塊的復(fù)習備考
        讓注意力“飛”回來
        如何表達“特征”
        不忠誠的四個特征
        當代陜西(2019年10期)2019-06-03 10:12:04
        抓住特征巧觀察
        “揚眼”APP:讓注意力“變現(xiàn)”
        傳媒評論(2017年3期)2017-06-13 09:18:10
        A Beautiful Way Of Looking At Things
        選修6 第三模塊 International Relationships
        線性代數(shù)的應(yīng)用特征
        河南科技(2014年23期)2014-02-27 14:19:15
        亚洲a无码综合a国产av中文| 亚洲精品国产成人久久av盗摄| 成人无码午夜在线观看| 精品欧美一区二区在线观看| 国产精品国产三级农村妇女| 国产精彩视频| 欧美手机在线视频| 亚洲av熟女天堂系列| 国产黄色一级到三级视频| 国产尤物自拍视频在线观看 | 久久久久久亚洲AV成人无码国产| 亚洲日本在线va中文字幕| 亚洲精品高清av在线播放| 日本97色视频日本熟妇视频| 天堂网日韩av在线播放一区| 人妻精品在线手机观看| 97精品国产一区二区三区| 午夜视频在线在免费| 成熟人妻av无码专区| 中文亚洲日韩欧美| 妇女自拍偷自拍亚洲精品| 亚洲永久精品日韩成人av| 日韩一区av二区三区| 麻豆md0077饥渴少妇| 亚洲国产成人精品无码一区二区 | 极品诱惑一区二区三区| 网红尤物泛滥白浆正在播放| 暖暖 免费 高清 日本 在线| 色吊丝中文字幕| 色老汉免费网站免费视频| 日韩欧美在线播放视频| 亚洲天堂线上免费av| 成人偷拍自拍视频在线观看 | 无码毛片aaa在线| 婷婷激情六月| 亚洲中文字幕无码不卡电影| 丰满人妻熟妇乱又伦精品软件| 一二三四视频社区在线| 国产一品道av在线一二三区| 亚洲一区二区国产精品视频| 国产让女高潮的av毛片|