亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于時空卷積特征記憶模型的坦克火控系統(tǒng)視頻目標(biāo)檢測方法

        2020-11-24 09:29:36戴文君常天慶褚凱軒張雷郭理彬
        兵工學(xué)報 2020年9期
        關(guān)鍵詞:特征檢測方法

        戴文君,常天慶,褚凱軒,張雷,郭理彬

        (陸軍裝甲兵學(xué)院 兵器與控制系,北京 100072)

        0 引言

        目標(biāo)檢測技術(shù)是計算機視覺領(lǐng)域的一個重要研究內(nèi)容。近年來,隨著深度學(xué)習(xí)的不斷發(fā)展,基于深度學(xué)習(xí)的目標(biāo)檢測技術(shù)取得了快速發(fā)展,并在交通、工業(yè)制造、醫(yī)學(xué)影像以及國防等領(lǐng)域得到了廣泛應(yīng)用[1-3]。目標(biāo)檢測通??梢苑譃閳D像目標(biāo)檢測與視頻目標(biāo)檢測,目前圖像目標(biāo)檢測技術(shù)發(fā)展較為迅速,而視頻目標(biāo)檢測仍然是一個極具挑戰(zhàn)性的問題。一方面,視頻圖像通常會受到運動模糊、衍射模糊或散焦等因素的影響,導(dǎo)致圖像畫面質(zhì)量低劣或目標(biāo)不清晰,給目標(biāo)檢測帶來極大的困難;另一方面,視頻目標(biāo)檢測不僅要求其能夠準(zhǔn)確檢測出每一幀圖像中的目標(biāo),而且要保證檢測結(jié)果的時序一致性。盡管存在這些困難,但由于視頻中包含更豐富的時空信息,如果能夠充分利用這些時空信息,則視頻目標(biāo)檢測能夠取得比圖像目標(biāo)檢測更好的檢測效果。

        坦克火控系統(tǒng)能夠獲取戰(zhàn)場態(tài)勢并控制武器瞄準(zhǔn)與發(fā)射,對戰(zhàn)場目標(biāo)搜索以及火力打擊效果具有重要的影響[4]。面向坦克火控系統(tǒng)的目標(biāo)檢測技術(shù)能夠輔助坦克乘員快速準(zhǔn)確發(fā)現(xiàn)敵方目標(biāo),使我方坦克實現(xiàn)“先敵發(fā)現(xiàn)、先敵打擊、先敵摧毀”,從而取得戰(zhàn)場主動權(quán)。目前,目標(biāo)檢測技術(shù)還沒有應(yīng)用于坦克火控系統(tǒng),但相關(guān)研究技術(shù)一直在進(jìn)行中,并且主要集中于圖像目標(biāo)檢測領(lǐng)域,基于視頻的目標(biāo)檢測研究較少[5-6]。

        隨著深度學(xué)習(xí)在圖像目標(biāo)檢測領(lǐng)域取得突破性的成就,以及大規(guī)模視頻目標(biāo)檢測數(shù)據(jù)集ImageNet VID[7]的建立,基于深度學(xué)習(xí)的視頻目標(biāo)檢測引起學(xué)術(shù)界的廣泛關(guān)注,國內(nèi)外學(xué)者提出了多種基于深度學(xué)習(xí)的視頻目標(biāo)檢測方法。目前,視頻目標(biāo)檢測方法主要分為2類:圖像目標(biāo)檢測與后處理相結(jié)合的視頻目標(biāo)檢測方法,以及基于特征流的視頻目標(biāo)檢測方法[8-10]。圖像目標(biāo)檢測與后處理相結(jié)合的視頻目標(biāo)檢測方法的思想,是將多個視頻幀的圖像目標(biāo)檢測結(jié)果按照時間序列連接到一起,形成一個管道并通過跟蹤或其他方法對檢測結(jié)果進(jìn)行修正,提高視頻目標(biāo)檢測的精度,其代表有深度卷積神經(jīng)網(wǎng)絡(luò)(T-CNN)[11]、檢測與跟蹤(D&T)[12]等。常用的后處理辦法有多上下文抑制、目標(biāo)跟蹤以及Seq-NMS[13]等?;谏鲜鏊悸返囊曨l目標(biāo)檢測方法在ILSVRC 2016視頻目標(biāo)檢測競賽中大量涌現(xiàn),極大地提高了視頻目標(biāo)檢測的精度,促進(jìn)了視頻目標(biāo)檢測技術(shù)的發(fā)展,但這種方法存在對視頻中的時序信息利用不足、計算流程較為復(fù)雜、計算量較大以及檢測精度依賴于后續(xù)處理方法的性能等不足。針對上述方法的局限性,研究人員希望直接利用視頻圖像中的時空信息進(jìn)行目標(biāo)檢測,并基于這種思想提出了基于特征流的視頻目標(biāo)檢測方法。FlowNet方法[14]利用卷積神經(jīng)網(wǎng)絡(luò)(CNN)實現(xiàn)了視頻幀間的光流信息預(yù)測,與傳統(tǒng)的光流預(yù)測方法相比,F(xiàn)lowNet方法沿襲了CNN在特征提取方面的優(yōu)勢,具有較好的學(xué)習(xí)能力,并能夠與基于CNN的圖像目標(biāo)檢測方法相融合,從而構(gòu)建端到端的視頻目標(biāo)檢測模型。文獻(xiàn)[15]在FlowNet方法基礎(chǔ)上,將多幀視頻圖像的運動信息聚合到當(dāng)前幀,通過檢測子網(wǎng)絡(luò)對聚合后的卷積特征進(jìn)行目標(biāo)檢測,極大地提高了視頻目標(biāo)檢測的精度。FlowNet方法與特征聚合機制能夠有效地提高視頻目標(biāo)檢測的精度,但通過光流網(wǎng)絡(luò)計算多幀的光流然后進(jìn)行特征聚合的方法存在參數(shù)較多、計算量較大的問題,導(dǎo)致目標(biāo)檢測的實時性較差。受循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)[16]的啟發(fā),研究人員將長短期記憶網(wǎng)絡(luò)(LSTM)[17]及門控循環(huán)單元(GRU)[18]與卷積操作相結(jié)合,提出了卷積長短期記憶網(wǎng)絡(luò)(ConvLSTM)[19]與卷積門控循環(huán)單元(ConvGRU)[20]。ConvLSTM與ConvGRU具有記憶特性,能夠?qū)W習(xí)視頻中的時空信息以及能同時處理多個目標(biāo)框,適合基于時序的視頻目標(biāo)檢測任務(wù)。文獻(xiàn)[21]在單次多盒檢測器(SSD)[22]的基礎(chǔ)上結(jié)合ConvLSTM,提出一種基于時空一致性的視頻目標(biāo)檢測方法,通過ConvLSTM處理每幀視頻圖像并構(gòu)建多幀視頻圖像之間的關(guān)聯(lián)誤差損失函數(shù),強化相鄰視頻幀的檢測結(jié)果在時序上的一致性,有效地增強了視頻目標(biāo)檢測的魯棒性。與ConvLSTM相比,ConvGRU將ConvLSTM中的遺忘門與輸入門合并為更新門,同時還混合了細(xì)胞狀態(tài)與隱藏狀態(tài),結(jié)構(gòu)相對簡單,在訓(xùn)練數(shù)據(jù)較大情況下,ConvGRU能夠節(jié)省更多的時間。文獻(xiàn)[23]在ConvGRU基礎(chǔ)上構(gòu)建了時空記憶模塊,將距離較遠(yuǎn)的視頻圖像信息傳遞至當(dāng)前幀,更充分地利用了視頻中的時序信息,最后在融合后的時空卷積特征上應(yīng)用檢測子網(wǎng)絡(luò)實現(xiàn)對目標(biāo)的精確檢測。

        上述方法在圖像目標(biāo)檢測的基礎(chǔ)上,根據(jù)視頻中的時序信息進(jìn)行建?;蚱渌筇幚磙k法,有效地提高了視頻目標(biāo)檢測的精度,先后在ImageNet VID等通用視頻目標(biāo)檢測數(shù)據(jù)集上取得了較好的效果,極大地推動了視頻目標(biāo)檢測技術(shù)的發(fā)展。然而,針對復(fù)雜戰(zhàn)場下面向坦克火控系統(tǒng)的視頻目標(biāo)檢測任務(wù),直接使用上述方法的思路并不能取得較好的檢測效果。一方面,戰(zhàn)場上的目標(biāo)與坦克裝甲車輛之間可能存在較快的相對運動速度,導(dǎo)致相鄰視頻圖像之間的目標(biāo)位置偏差較大,對視頻目標(biāo)檢測結(jié)果的一致性和檢測精度有較大的影響;另一方面,由于戰(zhàn)場態(tài)勢瞬息萬變,對視頻目標(biāo)檢測的實時性提出了較高要求。此外,由于復(fù)雜的地面環(huán)境以及坦克火控系統(tǒng)具有較遠(yuǎn)的觀測打擊距離,使得目標(biāo)在視頻圖像中所占像素比例較小且容易產(chǎn)生遮擋、形變,給視頻目標(biāo)檢測帶來了一定的挑戰(zhàn)。

        因此,本文從實際需求出發(fā),針對復(fù)雜戰(zhàn)場環(huán)境下的坦克火控系統(tǒng)視頻目標(biāo)檢測任務(wù),提出一種時空卷積特征校準(zhǔn)機制,將其與ConvGRU相結(jié)合構(gòu)建時空卷積特征記憶模型,并將該模型與結(jié)合可形變卷積網(wǎng)絡(luò)(DCN)[24]的ResNet-101網(wǎng)絡(luò)[25]及位置敏感感興趣池化(PS ROI pooling)[26]等相結(jié)合,構(gòu)建一個端到端的視頻目標(biāo)檢測模型,從而實現(xiàn)對地面戰(zhàn)場視頻目標(biāo)的自動檢測,對提升坦克火控系統(tǒng)的智能化、自主化以及信息化條件下的作戰(zhàn)能力具有重要的意義。

        1 基于時空卷積特征記憶模型的目標(biāo)檢測

        1.1 整體架構(gòu)

        圖1 本文方法整體框架Fig.1 Framework of the proposed method

        為沿著時間軸方向融合視頻幀的信息,本文在ConvGRU的基礎(chǔ)上提出時空卷積特征記憶模型,并通過該模型傳遞和融合多幀視頻圖像的目標(biāo)信息。具體操作步驟如下:在t時刻,首先通過特征提取網(wǎng)絡(luò)獲取當(dāng)前視頻幀的卷積特征Ft;然后將Ft以及相鄰幀的卷積特征Ft-1、Ft+1與其時空卷積特征Mt-1、Mt+1送入時空卷積特征記憶模型,得到當(dāng)前幀的時空卷積特征Mt,其中Mt-1、Mt+1分別融合了t時刻前K幀與后K幀的信息,即Mt共融合了2K+1幀視頻圖像的信息;最后,將Mt送入結(jié)合DCN的PS ROI pooling,再通過后續(xù)的卷積層以及損失函數(shù)等實現(xiàn)對視頻目標(biāo)的自動檢測。

        1.2 可形變卷積

        常用的VGG-Net[27]、ResNet[25]、Google-Net[28]等深度CNN中只采用固定幾何結(jié)構(gòu)的卷積核,在卷積操作過程中局限于幾何變換,因此通常通過大規(guī)模數(shù)據(jù)訓(xùn)練來提高網(wǎng)絡(luò)對形變目標(biāo)的泛化能力。文獻(xiàn)[24]針對這一問題提出DCN,DCN是在CNN基礎(chǔ)上通過給卷積采樣點增加一個偏移量,使其能夠動態(tài)調(diào)整感受野的區(qū)域并根據(jù)目標(biāo)的形狀變化優(yōu)化采樣點的位置,從而提高對形變目標(biāo)的特征提取能力。此外,DCN還能夠與檢測子網(wǎng)絡(luò)中的ROI pooling或PS ROI pooling相結(jié)合,提高檢測的精度,且模型的大小與計算量并沒有明顯提升。在復(fù)雜的戰(zhàn)場環(huán)境中,由于地形、目標(biāo)成像角度以及遮擋等因素的影響,通過坦克火控系統(tǒng)觀瞄分系統(tǒng)獲取的視頻中目標(biāo)形狀變化多端。因此,本文通過采用結(jié)合DCN的ResNet-101網(wǎng)絡(luò)提取卷積特征,并在檢測子網(wǎng)絡(luò)中使用結(jié)合DCN的PS ROI pooling來提高目標(biāo)檢測的精度。此外,為提高時空卷積特征的融合效果,在本文提出的時空卷積特征記憶模型中使用了DCN計算相鄰視頻幀中目標(biāo)位置的偏移量。

        在標(biāo)準(zhǔn)的二維卷積下,要計算輸出卷積特征圖Y中p0位置的值,需要對輸入卷積特征圖X進(jìn)行如下操作:

        (1)

        式中:R為感受野;pn為R中的某一位置,n=1,2,…,N,N=|R|;ω為權(quán)重。對于DCN,R受偏移量Δpn的影響,其卷積過程的計算公式如下:

        (2)

        在上述操作過程中,偏移量Δpn通過將額外的卷積層應(yīng)用于包含卷積特征圖X的激活張量中獲得,并且在給定激活張量的特征通道中共享權(quán)重。所有偏移量Δpn組成的偏移量圖分辨率與X分辨率相同。此外,由于Δpn通常為分?jǐn)?shù),通常使用雙線性插值來實現(xiàn)上述操作。

        對于深度CNN,一般而言,網(wǎng)絡(luò)越深,其具有的平移旋轉(zhuǎn)不變性越強,從而可以提高目標(biāo)分類的魯棒性。然而,對于目標(biāo)檢測問題,對目標(biāo)的精確定位任務(wù)要求檢測模型對位置信息具有良好的感知能力,過度的平移旋轉(zhuǎn)不變形能力會降低模型的定位精度。針對該問題,文獻(xiàn)[26]在ROI pooling基礎(chǔ)提出了PS ROI pooling,其核心思想是在特征聚集時引入位置信息,從而改善檢測子網(wǎng)絡(luò)對目標(biāo)位置信息的敏感程度。對于一個大小為w×h、左上角坐標(biāo)為q0的感興趣區(qū)域,首先將其劃分為k×k個網(wǎng)格,每一個網(wǎng)格稱為一個bin;然后在每一個bin中進(jìn)行ROI pooling或PS ROI pooling,其輸出為特征圖Y.在進(jìn)行PS ROI pooling之前,首先需要將輸入的卷積特征圖轉(zhuǎn)化為每個目標(biāo)類型的k2位置敏感得分圖,每一類位置敏感得分圖表示為Xi,j.對于第i,j個bin,在Xi,j上進(jìn)行PS ROI pooling,有

        (3)

        式中:ni,j為該bin中像素點的數(shù)量;q枚舉了該bin中的所有位置;q0為左上角坐標(biāo)。在結(jié)合DCN的PS ROI pooling過程中,偏移量{Δq|0≤i,j≤k}被添加到該bin中位置,其計算公式為

        (4)

        1.3 時空卷積特征記憶模型

        時空卷積特征記憶模型由ConvGRU以及時空特征校準(zhǔn)機制組成,如圖1中間的虛線框內(nèi)所示。ConvGRU能夠傳遞視頻幀間信息,但目標(biāo)的快速移動等情況會導(dǎo)致幀中的目標(biāo)空間位置具有較大變化,如果沒有進(jìn)行時空卷積特征校準(zhǔn),則融合后的時空卷積特征中目標(biāo)特征的位置可能出現(xiàn)偏移甚至丟失等情況,導(dǎo)致目標(biāo)定位失敗、誤檢甚至漏檢,降低目標(biāo)檢測的精度。

        1.3.1 時空卷積特征校準(zhǔn)機制

        對于Ft中一個坐標(biāo)為p0的卷積特征單元Ft(p0)∈Rc×1×1,在Ft-1中對應(yīng)的卷積特征單元為Ft-1(p0),F(xiàn)t與Ft-1聚合后得到的Ft,t-1中所對應(yīng)的卷積特征單元為Ft,t-1(p0)∈R2c×1×1.在Ft,t-1中利用DCN得到Ft,t-1的偏移量{Δp},如(2)式所示。{Δp}能夠表示部分Ft與Ft-1中對應(yīng)卷積特征單元之間的位置偏差。然后根據(jù)Ft(p0)和Ft-1中(p0+Δp0)的附近區(qū)域{p0+Δp0+p|p∈Ω}中卷積特征單元的關(guān)系計算變換矩陣Γ,其中Ω∈((-λ,-λ),…,(λ,λ))為以(p0+Δp0)為中心的正方形網(wǎng)格。變換矩陣Γ的計算公式為

        (5)

        (6)

        1.3.2 卷積門控循環(huán)單元

        圖2 ConvGRU單元結(jié)構(gòu)圖Fig.2 Framework of ConvGRU

        (7)

        (8)

        (9)

        (10)

        2 實驗及結(jié)果分析

        2.1 實驗設(shè)置

        2.1.1 戰(zhàn)場視頻目標(biāo)檢測數(shù)據(jù)集

        針對坦克的作戰(zhàn)任務(wù),分析其主要火力打擊對象并構(gòu)建相應(yīng)的戰(zhàn)場視頻目標(biāo)檢測數(shù)據(jù)集——TKHK VID.坦克作戰(zhàn)過程中主要火力打擊的目標(biāo)可以分為3大類:1)坦克、步兵戰(zhàn)車和自行火炮等作戰(zhàn)車輛。這類目標(biāo)具有機動性強、偽裝性能好、對坦克有較強的毀傷能力等特點,是坦克火控系統(tǒng)主要的檢測對象。此外,戰(zhàn)場上的其他普通車輛也是重點檢測對象。2)作戰(zhàn)人員。人員是坦克作戰(zhàn)過程中不可忽視的對象,相對車輛而言,這類目標(biāo)體積小,且往往身著與戰(zhàn)場環(huán)境顏色相近的迷彩服,偽裝效果強,難以被發(fā)現(xiàn)。3)直升機、無人飛行器等低空飛行目標(biāo)。該類目標(biāo)在低空中很容易發(fā)現(xiàn)我方目標(biāo),可以直接攻擊我方坦克裝甲車輛或引導(dǎo)敵方武器對我方目標(biāo)進(jìn)行火力打擊,是坦克主要的低空威脅力量。

        確定需要檢測的目標(biāo)類型后,本文通過實地拍攝以及互聯(lián)網(wǎng)下載等多個渠道獲得相關(guān)的視頻,并按照ImageNet VID數(shù)據(jù)集的格式對其進(jìn)行標(biāo)注,構(gòu)建TKHK VID數(shù)據(jù)集。目前,TKHK VID數(shù)據(jù)集含有坦克、步兵戰(zhàn)車、火炮、普通車輛、作戰(zhàn)人員、直升機以及無人機等7類目標(biāo),共有1 025段視頻,總計112 187幅圖像,其中每段視頻最少有43幀圖像,最多有487幀圖像。這些視頻包含叢林、雪地、荒漠、草地以及城市等多種作戰(zhàn)場景以及各類目標(biāo)的多種型號,并考慮了運動、遮擋、煙霧、氣象、姿態(tài)等多種情況。與ImageNet VID數(shù)據(jù)集相比,TKHK VID數(shù)據(jù)集中的目標(biāo)尺度較小,且大量存在形變、尺度變化、遮擋以及運動模糊等情況。為更好地進(jìn)行訓(xùn)練以及測試,本文將TKHK VID數(shù)據(jù)集劃分為訓(xùn)練集、驗證集以及測試集,分別為650、100、275段視頻。目前,TKHK VID數(shù)據(jù)集中的目標(biāo)類型及樣本數(shù)量還不夠豐富,后期將對其進(jìn)行補充完善。

        2.1.2 實驗參數(shù)設(shè)置

        本文所有實驗均在核心配置為CPU:i9-10900X @3.7 GHz/GPU:RTX 2080Ti4的圖形工作站上進(jìn)行。特征提取網(wǎng)絡(luò)采用了結(jié)合DCN的ResNet-101網(wǎng)絡(luò),其中,ResNnet-101網(wǎng)絡(luò)的res5a、res5b以及res5c等卷積層采用DCN,卷積核的大小為3×3.本文方法的檢測子網(wǎng)絡(luò)與R-FCN中的檢測子網(wǎng)絡(luò)相似,采用了相同的損失函數(shù)來訓(xùn)練網(wǎng)絡(luò),不同點在于本文使用結(jié)合DCN的PS ROI pooling代替原有的PS ROI pooling.使用訓(xùn)練好的結(jié)合DCN的R-FCN初始化網(wǎng)絡(luò),然后在TKHK VID數(shù)據(jù)集中進(jìn)行端到端的訓(xùn)練。訓(xùn)練過程中,所有輸入圖像的最短邊調(diào)整為600像素,結(jié)合DCN的PS ROI pooling的卷積核大小為7.對于建議區(qū)域提取網(wǎng)絡(luò)(RPN),本文使用9個錨點和300個建議區(qū)域。為降低視頻序列中的冗余,本文通過均勻的步幅在每5個視頻圖像中采樣1幀來形成新的視頻序列。同時,為減少計算量,設(shè)置時空卷積特征的通道數(shù)為512.在訓(xùn)練過程中,使用4個RTX 2080Ti GPU進(jìn)行90 000次迭代訓(xùn)練,其中前60 000次和后30 000次迭代訓(xùn)練的學(xué)習(xí)率分別是0.001和0.000 1.在測試過程中,為計算加速以及避免GPU內(nèi)存問題,首先提取視頻幀的卷積特征以及計算相鄰視頻幀間的變換矩陣并將其緩存到內(nèi)存中,然后將這些信息提供給時空卷積特征記憶模塊,其中K設(shè)置為5,并使用標(biāo)準(zhǔn)的左右浮動填充來處理采樣邊界情況。此外,本文還采用了Seq-NMS以提高相鄰視頻幀檢測結(jié)果的平滑性。

        2.2 在TKHK VID數(shù)據(jù)集上的實驗

        2.2.1 檢測精度與速度分析

        為驗證本文方法的有效性,將本文方法與以下4種目標(biāo)檢測方法進(jìn)行實驗對比:1)R-FCN[26].R-FCN是一種經(jīng)典的圖像目標(biāo)檢測方法。在R-FCN基礎(chǔ)上,結(jié)合DCN對ResNet-101特征提取網(wǎng)絡(luò)以及PS ROI pooling進(jìn)行改進(jìn),能夠有效地提升目標(biāo)檢測的精度。2)FGFA[15].FGFA是一種基于光流網(wǎng)絡(luò)的視頻目標(biāo)檢測方法,該方法通過光流網(wǎng)絡(luò)傳遞視頻信息并在聚合后的卷積特征上進(jìn)行目標(biāo)檢測。3)D&T[12].該方法將相關(guān)濾波目標(biāo)跟蹤方法與R-FCN相結(jié)合,其損失函數(shù)由目標(biāo)跟蹤損失以及目標(biāo)檢測損失構(gòu)成。4)MANet[29].該方法在一個統(tǒng)一的框架中結(jié)合了像素級校準(zhǔn)以及實例級校準(zhǔn),其中,像素級的校準(zhǔn)可以對細(xì)節(jié)的運行進(jìn)行建模,而實例級的校準(zhǔn)則更注重全局的運動,使得對遮擋的情況更加魯棒。上述4種對比方法中,R-FCN為靜態(tài)圖像目標(biāo)檢測方法,根據(jù)單幀圖像進(jìn)行目標(biāo)檢測,其他方法利用了視頻幀之間的聯(lián)系來建立視頻目標(biāo)檢測模型。由于本文方法采用的特征提取網(wǎng)絡(luò)以及檢測子網(wǎng)絡(luò)均結(jié)合DCN,為保證對比實驗條件的一致性,上述對比方法的特征提取網(wǎng)絡(luò)以及檢測子網(wǎng)絡(luò)也結(jié)合DCN對其進(jìn)行改進(jìn)。目標(biāo)檢測評估指標(biāo)為平均精度均值(mAP)和幀率(FPS)。

        表1所示為本文方法與4種對比方法在TKHK VID數(shù)據(jù)集中的目標(biāo)檢測結(jié)果,其中下劃線表示最佳的實驗結(jié)果。

        表1 本文方法與4種對比方法的實驗結(jié)果Tab.1 Experimental results of the proposed method and other four methods

        從表1中可以看出,在檢測速度方面,R-FCN方法取得了最快的檢測速度,達(dá)到10.3幀/s.本文方法為6.0幀/s,低于R-FCN和D&T方法,但高于FGFA以及MANet方法。從檢測精度方面來看,檢測速度最快的R-FCN與其他4種利用視頻幀間的聯(lián)系建立目標(biāo)檢測模型的方法相比,其mAP最低,只有69.6%,表明利用視頻中豐富的信息能夠有效地提高視頻目標(biāo)檢測的精度。與FGFA、D&T以及MANet等3種方法相比,本文方法取得mAP最高,達(dá)到76.9%,比MANet高0.5%.對于各類目標(biāo)的平均精度(AP),本文方法均高于R-FCN、FGFA以及D&T等方法,與MANet方法的結(jié)果較接近,其中,MANet方法在普通車輛、作戰(zhàn)人員以及無人機等3類目標(biāo)的AP略高于本文方法,其他4類目標(biāo)的AP值低于本文方法。這是因為本文方法與MANet方法均對視頻幀間傳遞的時空卷積特征進(jìn)行調(diào)整,使得當(dāng)前幀的時空卷積特征更好的融合了多個相鄰幀中的信息,提高了目標(biāo)檢測的精度。

        2.2.2 模型分解實驗

        由于本文在融合2K+1幀視頻圖像信息的時空卷積特征上進(jìn)行目標(biāo)檢測,為驗證來自相鄰幀的信息能否有效地提升目標(biāo)檢測的精度,分析支持幀數(shù)K對檢測精度的影響。圖3和圖4所示為測試階段不同K值對mAP以及FPS的影響。

        圖3 支持幀數(shù)K對mAP的影響Fig.3 Influence of K values on mAP

        圖4 支持幀數(shù)K對FPS的影響Fig.4 Influence of K values on FPS

        從圖3和圖4中可以看出,本文方法在TKHK VID數(shù)據(jù)集上取得的mAP以及FPS均優(yōu)于MANet方法。當(dāng)K=1即只使用與當(dāng)前幀相鄰的兩個視頻幀時,本文方法取得了75.6%的mAP,F(xiàn)PS為10幀/s,而MANet方法取得了mAP為75.3%,F(xiàn)PS為9.4幀/s,均低于本文方法。隨著K的不斷增大,本文方法在TKHK VID數(shù)據(jù)集上取得的mAP不斷增大,但取得mAP增加的速度在不斷降低,表明本文方法能夠有效地利用多個相鄰幀的信息,且與當(dāng)前視頻幀距離越遠(yuǎn)的視頻幀對當(dāng)前幀的目標(biāo)檢測效果提升越小。對于MANet方法,當(dāng)K增大時,mAP的增長速度低于本文方法,且當(dāng)K增大到一定的值后mAP并不再增大,從而證明了本文方法比MANet方法能夠更好地利用更多的視頻幀信息。另一方面,K的不斷增大也使本文方法以及MANet方法的FPS不斷降低,但FPS降低的速度低于MANet方法。最后,綜合考慮計算量與檢測效果,本文設(shè)置K=5,即利用視頻圖像It以及與其前后相鄰的10幀視頻圖像實現(xiàn)對目標(biāo)的檢測,此時的FPS約為6幀/s,mAP為76.9%.

        本文方法使用了DCN、時空卷積特征校準(zhǔn)機制以及Seq-NMS等多種策略,為進(jìn)一步驗證本文方法的性能以及各策略的貢獻(xiàn)度,在TKHK VID數(shù)據(jù)集中進(jìn)行模型分解實驗,測試模型的其他參數(shù)與2.2.1節(jié)中使用的模型保持一致。模型分解的實驗結(jié)果如表2所示。

        表2 模型分解實驗結(jié)果Tab.2 Experimental results of model decomposition

        注:*與#分別表示ResNet-101以及PS ROI pooling;與分別表示使用和不使用。

        從表2中可以看出,本文使用的多種策略均對視頻目標(biāo)檢測精度有一定的提升:使用結(jié)合DCN的ResNet-101以及PS ROI pooling能夠提升目標(biāo)檢測模型對空間信息的建模能力,其中單獨使用這兩種策略能夠分別使目標(biāo)檢測精度提升1.5%和1.3%,共同使用兩種策略能夠使目標(biāo)檢測精度提升2.4%;使用本文提出的時空卷積特征校準(zhǔn)機制,能夠更好地融合多個相鄰視頻幀中的信息,目標(biāo)檢測精度提升了1.8%;使用Seq-NMS能夠使目標(biāo)檢測精度提升1.7%.

        表3~表6分別展示了本文方法與R-FCN方法對TKHK VID數(shù)據(jù)集中視頻序列1~4的測試結(jié)果。視頻序列1中存在2個坦克目標(biāo),其中1輛坦克靜止不動,另外1輛坦克從左向右快速運動。由于目標(biāo)快速運動引起的大量灰塵造成目標(biāo)遮擋以及目標(biāo)圖像尺寸較小等情況,在第38幀與第59幀中R-FCN方法漏檢了一個目標(biāo)。視頻序列2中有1輛運動的步兵戰(zhàn)車,目標(biāo)尺寸出現(xiàn)較大變化,本文方法與R-FCN方法均能檢測到目標(biāo),但R-FCN方法的檢測精度略低于本文方法。視頻序列3中為2個直升機目標(biāo),與R-FCN方法相比,本文方法能夠準(zhǔn)確地檢測出所有的目標(biāo),且具有較高的置信度。視頻序列4中有1輛從左向右運動的步兵戰(zhàn)車,目標(biāo)尺寸較小且存在形變以及遮擋,R-FCN方法存在部分漏檢,而本文方法能夠準(zhǔn)確地檢測該目標(biāo)。

        表3 本文方法與R-FCN方法在視頻序列1中的檢測結(jié)果Tab.3 Detection results of the proposed method and R-FCN method on Video 1

        表4 本文方法與R-FCN方法在視頻序列2中的檢測結(jié)果Tab.4 Detection results of the proposed method and R-FCN method on Video 2

        表5 本文方法與R-FCN方法在視頻序列3中的檢測結(jié)果Tab.5 Detection results of the proposed method and R-FCN method on Video 3

        表6 本文方法與R-FCN方法在視頻序列4中的檢測結(jié)果Tab.6 Detection results of the proposed method and R-FCN method on Video 4

        2.3 在ImageNet VID數(shù)據(jù)集上的實驗

        除了在本文構(gòu)建的TKHK VID數(shù)據(jù)集上進(jìn)行實驗外,還在通用數(shù)據(jù)集ImageNet VID上對本文方法進(jìn)行測試。ImageNet VID數(shù)據(jù)集有30類目標(biāo),共5 354段視頻,其中訓(xùn)練集、驗證集以及測試集中所包含的視頻段數(shù)量分別為3 862、555和937.采用的對比方法為FGFA、D&T以及MANet3種方法。由于ImageNet VID數(shù)據(jù)集中的數(shù)據(jù)多于TKHK VID數(shù)據(jù)集,本文方法在訓(xùn)練過程中使用4個RTX 2080Ti GPU進(jìn)行120 000次迭代訓(xùn)練,其中前80 000次和后40 000次迭代訓(xùn)練的學(xué)習(xí)率分別是0.001和0.0 001,其余參數(shù)保持不變。表7展示了4種方法在TKHK VID數(shù)據(jù)集上的測試結(jié)果。從表7中可以看出,本文方法取得的mAP達(dá)到78.3%,優(yōu)于FGFA以及D&T方法,與MANet方法基本持平。從各方法取得的單個目標(biāo)類型AP來看,本文方法取得部分目標(biāo)類型的較高,如熊、汽車等,但也存在部分目標(biāo)類型的AP較低,如老虎、斑馬等,但整體的檢測效果最佳。相對于TKHK VID數(shù)據(jù)集,ImageNet VID數(shù)據(jù)集中的目標(biāo)尺寸較大,因此與表1相比,表7中各方法取得的mAP較高。

        表7 在ImageNet VID數(shù)據(jù)集上的測試結(jié)果Tab.7 Experimental results of ImageNet VID data set

        3 結(jié)論

        本文針對坦克火控系統(tǒng)的實際應(yīng)用需求,分析其主要檢測對象,建立了一個戰(zhàn)場視頻目標(biāo)檢測數(shù)據(jù)集TKHK VID,并提出一種基于時空卷積特征記憶模型的視頻目標(biāo)檢測方法。根據(jù)測試結(jié)果得出以下主要結(jié)論:

        1) 基于ConvGRU和時空卷積特征校準(zhǔn)機制構(gòu)建的時空卷積特征記憶模型能夠有效地傳遞并融合多幀視頻圖像中的信息。

        2) 在特征提取網(wǎng)絡(luò)以及檢測子網(wǎng)絡(luò)中結(jié)合DCN能夠有效地提升戰(zhàn)場環(huán)境中形變目標(biāo)的檢測效果。

        3) 聯(lián)合特征提取網(wǎng)絡(luò)、檢測子網(wǎng)絡(luò)以及時空卷積特征記憶模型構(gòu)建的視頻目標(biāo)檢測模型實現(xiàn)了對戰(zhàn)場視頻目標(biāo)的精確檢測,能夠更好地滿足裝備的實際應(yīng)用需求。

        本文方法還存在對硬件的需求較高等問題,要實現(xiàn)本文方法在坦克火控系統(tǒng)中的實際應(yīng)用,還需要繼續(xù)對本文方法進(jìn)行優(yōu)化。此外,本文構(gòu)建的戰(zhàn)場視頻目標(biāo)檢測數(shù)據(jù)集中的目標(biāo)類型和圖像序列數(shù)量需要進(jìn)一步擴展,使其能夠更全面地反映坦克等裝甲車輛的作戰(zhàn)環(huán)境。

        猜你喜歡
        特征檢測方法
        “不等式”檢測題
        “一元一次不等式”檢測題
        “一元一次不等式組”檢測題
        如何表達(dá)“特征”
        不忠誠的四個特征
        抓住特征巧觀察
        可能是方法不對
        小波變換在PCB缺陷檢測中的應(yīng)用
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        亚洲AV无码成人品爱| 亚洲av综合av一区| 国产亚洲精品久久777777| 一区二区三区日韩亚洲中文视频| 国产内射视频在线播放| 亚洲熟女乱一区二区三区| 国产亚洲一区二区在线观看 | 亚洲av五月天天堂网| 日本一区二区三区熟女俱乐部 | 久久国产精品偷任你爽任你| 国产亚洲av人片在线观看| 亚洲AV无码国产精品色午夜软件| 日韩不卡一区二区三区色图| 人人妻人人澡人人爽国产一区| 亚洲色大成网站www永久一区 | 亚洲精品乱码久久久久久蜜桃不卡 | 一本久道在线视频播放| 亚洲视频在线一区二区| 日本做受高潮好舒服视频| 波多野结衣一区二区三区视频| 少妇人妻av一区二区三区| 亚洲精品国产成人片| 国产成人精品成人a在线观看| 91精品国产高清久久久久| 国产自拍91精品视频| 国产又色又爽又黄刺激在线视频 | 97久久人人超碰超碰窝窝| 久久一区二区三区四区| 扒开女性毛茸茸的视频| 真实国产乱子伦精品视频| 欧美精品偷自拍另类在线观看| 国产人成视频免费在线观看| 国产精品国产av一区二区三区| 50岁退休熟女露脸高潮| 亚洲aⅴ无码国精品中文字慕| 蜜桃av在线播放视频| 国产乱人对白| 欧美丰满熟妇bbbbbb百度| 日本骚色老妇视频网站| 国产无套中出学生姝| 亚洲色无码播放|