亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度學(xué)習(xí)的無人機(jī)航拍視頻多目標(biāo)檢測(cè)與跟蹤研究進(jìn)展

        2023-10-17 04:00:46苑玉彬吳一全趙朗月陳金林趙其昌
        航空學(xué)報(bào) 2023年18期
        關(guān)鍵詞:航拍特征目標(biāo)

        苑玉彬,吳一全,趙朗月,陳金林,趙其昌

        南京航空航天大學(xué) 電子信息工程學(xué)院,南京 211106

        多目標(biāo)檢測(cè)與跟蹤作為遙感領(lǐng)域的重要課題之一,廣泛應(yīng)用于智慧城市、環(huán)境監(jiān)測(cè)、地質(zhì)探測(cè)、精準(zhǔn)農(nóng)業(yè)和災(zāi)害預(yù)警等民用和軍事領(lǐng)域[1-4]。傳統(tǒng)的遙感數(shù)據(jù)獲取主要基于衛(wèi)星和載人飛機(jī)平臺(tái),這類平臺(tái)運(yùn)行在固定軌道上或遵循預(yù)定路徑,其成本及飛行員的安全問題限制了應(yīng)用范圍。隨著電子通信技術(shù)的發(fā)展,無人機(jī)(Unmanned Aerial Vehicle,UAV)以輕便 性、易操作、低成本等優(yōu)勢(shì)得到快速推廣,彌補(bǔ)了傳統(tǒng)手段受天氣、時(shí)間等限制造成的部分信息缺失。同時(shí),相比固定攝像頭,UAV的高機(jī)動(dòng)性可以使航拍范圍更為靈活可變。UAV獲取的視頻數(shù)據(jù)無論在內(nèi)容上還是在時(shí)間上信息量都極大,推動(dòng)了無人機(jī)航拍視頻在目標(biāo)檢測(cè)和跟蹤多個(gè)領(lǐng)域中發(fā)揮著日益重要的作用[5-7]:① 智能交通流量監(jiān)控與紅綠燈配時(shí)控制,提升交通通行能力;② 對(duì)特定區(qū)域內(nèi)的人群或車輛進(jìn)行安防監(jiān)控、跟蹤及定位;③ 對(duì)水面艦船檢測(cè)、識(shí)別與跟蹤;④ 檢測(cè)野生動(dòng)物的數(shù)量并跟蹤其運(yùn)動(dòng)軌跡;⑤ 分析體育運(yùn)動(dòng)員動(dòng)作與軌跡,實(shí)現(xiàn)相應(yīng)戰(zhàn)術(shù)分析;⑥ 農(nóng)業(yè)區(qū)域繪圖,自動(dòng)繪制飛行路線。但是,無人機(jī)航拍視頻與普通視角視頻中的多目標(biāo)檢測(cè)和跟蹤任務(wù)相比,面臨諸多挑戰(zhàn),例如圖像退化、目標(biāo)分布密度不均勻、目標(biāo)尺寸小,以及實(shí)時(shí)性等問題,近年來引起學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注和大量研究。

        作為計(jì)算機(jī)視覺的基本問題之一,多目標(biāo)檢測(cè)和跟蹤經(jīng)歷了從傳統(tǒng)方法階段到基于深度學(xué)習(xí)方法階段的演變。傳統(tǒng)方法需要手動(dòng)設(shè)計(jì)特征,過程繁瑣且準(zhǔn)確率低[8-9]。隨著UAV與深度學(xué)習(xí)技術(shù)的發(fā)展,航拍視頻的數(shù)據(jù)采集愈加便捷,易于獲得海量數(shù)據(jù),而深度神經(jīng)網(wǎng)絡(luò)能夠?qū)W習(xí)到具有足夠樣本數(shù)據(jù)的分層特征[10]。自2015年以來,深度神經(jīng)網(wǎng)絡(luò)已成為多目標(biāo)檢測(cè)和跟蹤的主流框架[11-12]。多目標(biāo)檢測(cè)和跟蹤包括多目標(biāo)檢測(cè)和多目標(biāo)跟蹤2個(gè)部分。經(jīng)典的深度目標(biāo)檢測(cè)網(wǎng)絡(luò)分為2大類:雙階段網(wǎng)絡(luò)和單階段網(wǎng)絡(luò)。其中,雙階段檢測(cè)算法檢測(cè)精度高,但運(yùn)行速度慢;單階段檢測(cè)算法運(yùn)行速度快,但誤報(bào)率高。雙階段網(wǎng)絡(luò),如RCNN(Region-CNN)[13]、Fast R-CNN[14]、Faster R-CNN[15]和Cascade RCNN[16]等,首先需要生成候選區(qū)域,然后對(duì)候選區(qū)域進(jìn)行分類和定位,適于具有更高檢測(cè)精度要求的應(yīng)用;單階段網(wǎng)絡(luò),如SSD(Single Shot Multi Box Detector)[17]、YOLO(You Only Look Once)[18-22]系列和CenterNet[23],直接生成坐標(biāo)位置和類概率,比雙階段網(wǎng)絡(luò)更快。因此,更快的單階段網(wǎng)絡(luò)在具有高速要求的UAV實(shí)際應(yīng)用中極具優(yōu)勢(shì)。

        本文以無人機(jī)航拍視頻的雙階段和單階段目標(biāo)檢測(cè)算法為主線,回顧了2類算法的發(fā)展歷程,總結(jié)了其代表性工作,重點(diǎn)介紹了應(yīng)對(duì)無人機(jī)視角引起的小目標(biāo)增多、目標(biāo)尺度跨度大、數(shù)據(jù)集頭尾分類不均衡等問題,以及提升檢測(cè)精度,采取的網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化、引入注意力機(jī)制、多種特征融合、多種網(wǎng)絡(luò)綜合等措施。將多目標(biāo)檢測(cè)從靜態(tài)圖像擴(kuò)展到視頻連續(xù)幀的范圍時(shí),延展到了多目標(biāo)跟蹤(Multiple Objects Tracking,MOT)課題?;谏疃葘W(xué)習(xí)的MOT方法可分為基于檢測(cè)的跟蹤(Tracking Based Detection,TBD)和聯(lián)合檢測(cè)的跟蹤(Joint Detection Tracking,JDT)2類[11]。TBD算法的多階段設(shè)計(jì)結(jié)構(gòu)清晰,容易優(yōu)化,但多階段的訓(xùn)練可能導(dǎo)致次優(yōu)解;JDT 算法融合了檢測(cè)模塊和跟蹤模塊,達(dá)到了更快的推理速度,但存在各模塊協(xié)同訓(xùn)練的問題。TBD策略可分別優(yōu)化檢測(cè)和跟蹤,更加靈活,適用于復(fù)雜場(chǎng)景,但推理時(shí)間長(zhǎng)。相反,JDT將檢測(cè)與跟蹤模型合并到一個(gè)統(tǒng)一的框架中,通過添加跟蹤分支來修改檢測(cè)器,并根據(jù)目標(biāo)的共性實(shí)現(xiàn)檢測(cè)和跟蹤。在普通視角下的應(yīng)用中,JDT在簡(jiǎn)單場(chǎng)景中比TBD表現(xiàn)得更好更快,但處理復(fù)雜的場(chǎng)景時(shí)效果不佳,因此UAV視角下的多目標(biāo)跟蹤多遵循TBD模式。本文以TBD模式為主要框架,闡述了基于目標(biāo)特征建模、基于目標(biāo)軌跡預(yù)測(cè)、基于單目標(biāo)跟蹤(Single Object Tracking,SOT)輔助、基于記憶網(wǎng)絡(luò)增強(qiáng)等多目標(biāo)跟蹤算法。

        除了針對(duì)具體問題對(duì)多目標(biāo)檢測(cè)與跟蹤算法改進(jìn)之外,基于無人機(jī)航拍視頻的多目標(biāo)檢測(cè)與跟蹤數(shù)據(jù)集的構(gòu)建與挑戰(zhàn)賽的舉辦也推動(dòng)了其快速發(fā)展,其中數(shù)據(jù)集正向大規(guī)模、長(zhǎng)時(shí)間、多樣化的方向進(jìn)一步發(fā)展。本文全面梳理和比較了近年來無人機(jī)航拍視頻的多目標(biāo)檢測(cè)與跟蹤任務(wù)的數(shù)據(jù)集,對(duì)面向無人機(jī)視角的多目標(biāo)檢測(cè)與跟蹤的標(biāo)桿挑戰(zhàn)賽VisDrone Challenge的主要結(jié)果進(jìn)行了對(duì)比與分析。盡管在無人機(jī)視角下多目標(biāo)檢測(cè)與跟蹤算法在上述數(shù)據(jù)集上取得了較高的精度,但距離實(shí)際應(yīng)用還存在一定的差距,為此本文最后從諸多方面詳盡探討了未來的發(fā)展趨勢(shì)。

        目前可查閱到的關(guān)于無人機(jī)視角下的多目標(biāo)檢測(cè)與跟蹤的綜述有文獻(xiàn)[24-29]。文獻(xiàn)[24]介紹了深度學(xué)習(xí)在無人機(jī)航拍圖像中的目標(biāo)檢測(cè)、視頻中的目標(biāo)檢測(cè)和視頻中的目標(biāo)跟蹤3個(gè)方向的應(yīng)用,并對(duì)一些先進(jìn)的方法使用4個(gè)基準(zhǔn)數(shù)據(jù)集進(jìn)行了性能評(píng)估,但在對(duì)UAV視角下的算法介紹中糅雜了普通視角下的算法。文獻(xiàn)[25]梳理了基于無人機(jī)的深度學(xué)習(xí)算法在環(huán)境監(jiān)測(cè)、城市治理和農(nóng)業(yè)管理不同領(lǐng)域中的應(yīng)用。文獻(xiàn)[26]總結(jié)了利用無人機(jī)航拍圖像進(jìn)行地面車輛檢測(cè)的深度學(xué)習(xí)技術(shù)。文獻(xiàn)[27]介紹了UAV視角下2D目標(biāo)檢測(cè)的最新進(jìn)展,重點(diǎn)關(guān)注普通視角與UAV視角之間的差異。文獻(xiàn)[28]綜述了無人機(jī)視角下的基于相關(guān)濾波的跟蹤算法和基于深度學(xué)習(xí)的跟蹤算法研究現(xiàn)狀。文獻(xiàn)[29]綜述了普通視角和無人機(jī)視角中目標(biāo)檢測(cè)的算法,發(fā)現(xiàn)YOLO系列是應(yīng)用最廣泛的網(wǎng)絡(luò)。但現(xiàn)有文獻(xiàn)仍然缺乏對(duì)多目標(biāo)檢測(cè)與跟蹤最新進(jìn)展的全面綜述。本文以UAV航拍視頻為研究對(duì)象,全面回顧了基于深度學(xué)習(xí)的無人機(jī)航拍視頻多目標(biāo)檢測(cè)和跟蹤算法,通過系統(tǒng)地總結(jié)最新公開的研究論文,討論需要解決的關(guān)鍵問題和面臨的難點(diǎn),并展望了未來的發(fā)展方向。本文其余部分組織如下:第1節(jié)概述了普通視角下多目標(biāo)檢測(cè)與跟蹤算法進(jìn)展,第2節(jié)闡述了基于深度學(xué)習(xí)的無人機(jī)航拍視頻的多目標(biāo)檢測(cè)算法,第3節(jié)總結(jié)了基于深度學(xué)習(xí)的無人機(jī)航拍視頻的多目標(biāo)跟蹤算法,第4節(jié)介紹了無人機(jī)航拍視頻多目標(biāo)檢測(cè)與跟蹤常用數(shù)據(jù)集并對(duì)標(biāo)桿挑戰(zhàn)賽Vis-Drone Challenge的結(jié)果進(jìn)行了分析,第5節(jié)指出了基于深度學(xué)習(xí)的無人機(jī)航拍視頻多目標(biāo)檢測(cè)與跟蹤面臨的困難與挑戰(zhàn),第6節(jié)結(jié)合研究現(xiàn)狀對(duì)后續(xù)的研究方向進(jìn)行了展望。

        1 多目標(biāo)檢測(cè)與跟蹤方法基礎(chǔ)

        普通視角下的多目標(biāo)檢測(cè)與多目標(biāo)跟蹤之間存在諸多聯(lián)系。多目標(biāo)檢測(cè)只需檢測(cè)出所有指定類別的目標(biāo),無需關(guān)注多個(gè)目標(biāo)之間的關(guān)系;多目標(biāo)跟蹤需要記錄所有目標(biāo)在時(shí)間序列圖像中的關(guān)系,也就是目標(biāo)的運(yùn)動(dòng)路徑。本節(jié)對(duì)普通視角下多目標(biāo)檢測(cè)和多目標(biāo)跟蹤的主要發(fā)展路線與框架進(jìn)行回顧,介紹了其主要聯(lián)系與區(qū)別。

        1.1 傳統(tǒng)目標(biāo)檢測(cè)器與基于深度學(xué)習(xí)的目標(biāo)檢測(cè)器

        多目標(biāo)檢測(cè)算法的發(fā)展脈絡(luò)可劃分為2個(gè)時(shí)期:傳統(tǒng)目標(biāo)檢測(cè)算法時(shí)期和基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法時(shí)期。而基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法又分別沿著單階段與雙階段算法2條主要技術(shù)路線發(fā)展。圖1展示了從2001―2022年目標(biāo)檢測(cè)的發(fā)展路線圖。

        圖1 目標(biāo)檢測(cè)發(fā)展路線Fig.1 Development route of target detection

        1.1.1 傳統(tǒng)目標(biāo)檢測(cè)器

        以往的傳統(tǒng)目標(biāo)檢測(cè)算法主要基于手工提取特征,代表性的檢測(cè)器主要有VJ(Viola Jones)檢測(cè)器[30]、HOG (Histogram of Oriented Gradients)檢測(cè)器[31]、DPM (Deformable Parts Model)檢測(cè)器[32]等。傳統(tǒng)檢測(cè)算法的流程通常為:選取感興趣區(qū)域→定位包含目標(biāo)的區(qū)域→對(duì)目標(biāo)進(jìn)行特征提取→檢測(cè)分類。

        基于自動(dòng)提取特征的傳統(tǒng)目標(biāo)檢測(cè)算法主要以幀差法為代表,通過對(duì)視頻圖像序列中相鄰幀作差分運(yùn)算來獲得運(yùn)動(dòng)目標(biāo)輪廓。Abughalieh等基于運(yùn)動(dòng)和顏色直方圖投影濾波器找到目標(biāo),并使用幀差法檢測(cè)運(yùn)動(dòng)目標(biāo),以便實(shí)現(xiàn)UAV視角下的目標(biāo)跟蹤[33]。Baykara等采用幀差法實(shí)現(xiàn)運(yùn)動(dòng)目標(biāo)檢測(cè),對(duì)每個(gè)單獨(dú)的目標(biāo)應(yīng)用形態(tài)學(xué)膨脹,提升檢測(cè)精度[34]。Jiang等利用三幀差分法和中值背景減法相結(jié)合實(shí)現(xiàn)目標(biāo)檢測(cè),達(dá)到檢測(cè)響應(yīng)和現(xiàn)有的軌跡假設(shè)之間有效關(guān)聯(lián)的目的[35]。然而幀差法也存在明顯的問題,其對(duì)環(huán)境穩(wěn)定性要求較高,易造成目標(biāo)范圍內(nèi)相鄰幀差的目標(biāo)重疊。

        上述傳統(tǒng)目標(biāo)檢測(cè)算法主要有以下3個(gè)缺點(diǎn):準(zhǔn)確率不高、運(yùn)算速度慢、可能產(chǎn)生多個(gè)結(jié)果。

        1.1.2 基于深度學(xué)習(xí)的目標(biāo)檢測(cè)器

        傳統(tǒng)目標(biāo)檢測(cè)算法發(fā)展陷入瓶頸,性能低下。直到2012年卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)的興起將目標(biāo)檢測(cè)領(lǐng)域推向了新的階段?;贑NN的單階段和雙階段檢測(cè)算法,其優(yōu)缺點(diǎn)對(duì)比如表1所示。

        表1 單階段和雙階段檢測(cè)算法的優(yōu)缺點(diǎn)對(duì)比Table 1 Comparison of algorithms for one-stage and two-stage detection

        基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法最初以圖像分類算法為基準(zhǔn),將圖像進(jìn)行切塊分類,圖像塊的位置和類別作為檢測(cè)結(jié)果。隨著基于分類的算法出現(xiàn)了邊界目標(biāo)無法檢測(cè)、定位不準(zhǔn)確、目標(biāo)多尺度等問題,相應(yīng)地提出了滑動(dòng)窗口、增加邊界框回歸任務(wù)、圖像金字塔等解決方法,誕生了如圖2所示的雙階段多目標(biāo)檢測(cè)框架,在一定程度上緩解了部分問題。由于待分類的圖像較多,導(dǎo)致速度慢,難以滿足實(shí)時(shí)檢測(cè)的需求。隨著具備層次結(jié)構(gòu)的選擇性搜索策略的引入,將空間相鄰且特征相似的圖像塊逐步合并到一起,快速地生成可能包含目標(biāo)的區(qū)域,RCNN隨之問世。RCNN首先通過區(qū)域提議找出可能包含目標(biāo)的框,對(duì)于每一個(gè)提議區(qū)域,將其拉伸或者縮放到固定的尺寸,送入卷積神經(jīng)網(wǎng)絡(luò)得到其特征,最后對(duì)邊界框進(jìn)行修正和分類。

        圖2 雙階段多目標(biāo)檢測(cè)框架Fig.2 Two-stage multi-object detection framework

        RCNN算法在提取特征操作中存在大量冗余,運(yùn)行緩慢。Fast RCNN在RCNN的基礎(chǔ)上加入了 ROI(Region of Interest)池化,將特征映射到每個(gè)輸入ROI區(qū)域,提升了運(yùn)行速度。由于使用了選擇性搜索來預(yù)先提取候選區(qū)域,F(xiàn)ast RCNN并沒有實(shí)現(xiàn)端到端模式。Faster RCNN使用區(qū)域生成網(wǎng)絡(luò)(Region Proposal Networks,RPN)提取候選框,將候選區(qū)域生成、特征提取、分類器分類、回歸全都交給深度神經(jīng)網(wǎng)絡(luò)來做,大幅提高了效率。在此基礎(chǔ)上衍生出眾多雙階段檢測(cè)器。

        由于雙階段檢測(cè)器在第2階段僅針對(duì)候選區(qū)域內(nèi)容進(jìn)行處理,造成了目標(biāo)在整幅圖像中位置信息的缺失。單階段多目標(biāo)檢測(cè)器的提出彌補(bǔ)了這一缺陷,其流程框圖如圖3所示。單階段目標(biāo)檢測(cè)算法無需區(qū)域提議階段,直接產(chǎn)生目標(biāo)的類別概率和位置坐標(biāo)值,經(jīng)過一個(gè)階段即可直接得到最終的檢測(cè)結(jié)果,因此有著更快的檢測(cè)速度。

        圖3 單階段多目標(biāo)檢測(cè)框架Fig.3 One-stage multi-object detection framework

        將靜態(tài)圖像中的目標(biāo)檢測(cè)結(jié)果應(yīng)用到多目標(biāo)跟蹤時(shí),需要首先實(shí)現(xiàn)視頻目標(biāo)的精確檢測(cè)。與靜態(tài)圖像目標(biāo)檢測(cè)不同的是,目標(biāo)在視頻中是動(dòng)態(tài)變化的,即其自身屬性諸如顏色、形狀、尺寸、紋理等會(huì)動(dòng)態(tài)地改變,檢測(cè)過程中視頻序列需要在時(shí)間和空間維度保持一致以防檢測(cè)目標(biāo)丟失,這成為視頻目標(biāo)檢測(cè)任務(wù)的研究難點(diǎn)。

        1.2 單目標(biāo)跟蹤與多目標(biāo)跟蹤

        目標(biāo)跟蹤是給定目標(biāo)的一個(gè)初始狀態(tài),然后在視頻序列中估計(jì)目標(biāo)每一時(shí)刻的狀態(tài)。為了實(shí)現(xiàn)目標(biāo)跟蹤,對(duì)于初始幀,通過檢測(cè)算法,得到一系列目標(biāo)的位置坐標(biāo),在視頻流中的后續(xù)幀之間進(jìn)行目標(biāo)關(guān)聯(lián)。理想化的目標(biāo)跟蹤算法具有以下特點(diǎn):僅在起始幀中進(jìn)行目標(biāo)檢測(cè)處理;滿足實(shí)時(shí)處理;在目標(biāo)淡出或超出畫面、重新進(jìn)入視圖、目標(biāo)被遮擋等特殊情況下能夠穩(wěn)定跟蹤。

        目標(biāo)跟蹤又分為單目標(biāo)跟蹤與多目標(biāo)跟蹤,單目標(biāo)跟蹤旨在僅當(dāng)目標(biāo)的初始狀態(tài)已知時(shí),估計(jì)未知的視覺目標(biāo)軌跡,不依賴于其他任何約束。跟蹤方式有2種主流方向:第1種是判別式跟蹤,通過在線刻畫樣本特征,屬于基于參數(shù)的機(jī)制,能夠非常好地區(qū)分前景與背景,并且可以在線隨時(shí)更新;第2種是生成式跟蹤,依據(jù)某種相似性度量離線構(gòu)建一個(gè)泛化性較強(qiáng)的嵌入空間。這2種方式在元學(xué)習(xí)的框架下達(dá)到統(tǒng)一,前者可理解為參數(shù)回歸;后者可視為無參的最近鄰分類。

        多目標(biāo)跟蹤是在目標(biāo)數(shù)量與類別未知的情況下,對(duì)視頻中的行人、汽車、動(dòng)物等多個(gè)目標(biāo)進(jìn)行檢測(cè)并賦予ID,實(shí)現(xiàn)后續(xù)的軌跡預(yù)測(cè)、精準(zhǔn)查找等。多目標(biāo)跟蹤主要解決帶有ID分類的目標(biāo)跟蹤中的數(shù)據(jù)關(guān)聯(lián)問題,運(yùn)動(dòng)特征、外觀特征等可用于輔助解決關(guān)聯(lián)問題。多目標(biāo)跟蹤既要面對(duì)單目標(biāo)跟蹤存在的遮擋、變形、運(yùn)動(dòng)模糊、擁擠場(chǎng)景、快速運(yùn)動(dòng)、光照變化、尺度變化等挑戰(zhàn),又要面臨如軌跡的初始化與終止、相似目標(biāo)干擾等復(fù)雜問題。

        在任務(wù)設(shè)定上,SOT、MOT、視頻目標(biāo)檢測(cè)(Video Object Detection,VOD)都屬于目標(biāo)檢測(cè)問題。VOD在目標(biāo)檢測(cè)上添加了時(shí)序信息的推廣;單目標(biāo)跟蹤類似于視頻層次的小樣本目標(biāo)檢索任務(wù),并在一個(gè)局部小區(qū)域上操作;而多目標(biāo)跟蹤則是視頻層級(jí)的實(shí)例檢測(cè)問題,可以理解為VOD加上幀間ID數(shù)據(jù)關(guān)聯(lián),并在視角全局進(jìn)行操作。SOT領(lǐng)域近期效果較好的框架,均將單目標(biāo)跟蹤看作全局條件檢測(cè),未來關(guān)聯(lián)會(huì)更加緊密。

        1.3 無人機(jī)航拍視角下的區(qū)別

        普通視角下的多目標(biāo)檢測(cè)與跟蹤算法采用的數(shù)據(jù)集,大部分?jǐn)?shù)據(jù)由人手持相機(jī)或固定機(jī)位拍攝,因此絕大多數(shù)圖像為側(cè)視圖。而無人機(jī)航拍視頻與普通視角視頻相比,采集到的視頻數(shù)據(jù)為俯瞰圖,具有不同的特征,導(dǎo)致普通視角下的多目標(biāo)檢測(cè)與跟蹤算法不能直接應(yīng)用到無人機(jī)航拍視角,主要表現(xiàn)在以下幾個(gè)方面。

        首先,無人機(jī)航拍過程中,受限于設(shè)備的精度與穩(wěn)定性以及環(huán)境的變化,獲取的視頻存在抖動(dòng)、模糊增加、分辨率降低、光線干擾、畫面畸變等問題,導(dǎo)致視頻質(zhì)量低,需要增加更多的預(yù)處理來提升檢測(cè)與跟蹤精度。

        其次,航拍視角下的目標(biāo)分布密度不均且尺寸小得多。行人、汽車之類的目標(biāo)可能在普通視角下占據(jù)大量像素,但在航拍視角下可能僅有幾個(gè)像素并且分布不均,導(dǎo)致目標(biāo)失真,增加了多目標(biāo)檢測(cè)與跟蹤的難度,需要設(shè)計(jì)針對(duì)性的網(wǎng)絡(luò)模塊進(jìn)行特征提取。

        最后,在普通視角和航拍視角下的遮擋不同。在普通視角下,目標(biāo)可能被另一目標(biāo)遮擋,例如汽車前面的人。但航拍視角中的遮擋多為環(huán)境遮擋,如樹木、建筑物等。

        綜上,通過普通視角視頻數(shù)據(jù)集訓(xùn)練得到的多目標(biāo)檢測(cè)和跟蹤算法,無法直接應(yīng)用到無人機(jī)航拍視頻,需要針對(duì)無人機(jī)航拍視頻的特點(diǎn),設(shè)計(jì)相應(yīng)的算法,以滿足任務(wù)需求。

        2 基于深度學(xué)習(xí)的無人機(jī)航拍視頻多目標(biāo)檢測(cè)方法

        UAV視角給多目標(biāo)檢測(cè)帶來了小目標(biāo)增多、單維度信息包含特征不足、目標(biāo)類別分布稀疏及不均勻帶來的檢測(cè)效率低、目標(biāo)檢測(cè)干擾、尺度變化帶來的目標(biāo)漏檢和誤檢、推理速度慢等問題。為了使檢測(cè)器更好地適應(yīng)UAV視角下的多目標(biāo)檢測(cè),眾多學(xué)者進(jìn)行了諸多針對(duì)性的改進(jìn)。本節(jié)將從雙階段檢測(cè)器和單階段檢測(cè)器2個(gè)角度分別針對(duì)上述問題各學(xué)者提出的改進(jìn)方式進(jìn)行闡述。

        2.1 雙階段無人機(jī)航拍視頻多目標(biāo)檢測(cè)算法

        雙階段目標(biāo)檢測(cè)算法在第1階段就針對(duì)目標(biāo)檢測(cè)任務(wù)進(jìn)行了獨(dú)特設(shè)計(jì),直接將常規(guī)視角下的算法遷移到無人機(jī)航拍視頻的效果較差,需要根據(jù)無人機(jī)航拍視頻的目標(biāo)特點(diǎn),進(jìn)行優(yōu)化。

        1) 針對(duì)UAV造成的小目標(biāo)增多問題。Avola等構(gòu)建了一種多流結(jié)構(gòu),模擬多尺度圖像分析。將此結(jié)構(gòu)作為Fast R-CNN網(wǎng)絡(luò)的主干,設(shè)計(jì)了MS-Faster R-CNN目標(biāo)檢測(cè)器,能夠持續(xù)穩(wěn)定地檢測(cè)UAV視頻序列中的目標(biāo)[36]。Stadler 使用Cascade R-CNN網(wǎng)絡(luò)作為目標(biāo)檢測(cè)器,將默認(rèn)錨框的大小減半以考慮較小的目標(biāo),并將預(yù)估的目標(biāo)數(shù)量增加了1倍[37]。Huang等提出HDHNet用于提取小目標(biāo)特征,作為主干網(wǎng)絡(luò)與HTC(Hybrid Task Cascade)、Cascade RCNN等方法相結(jié)合,在檢測(cè)不同類型和規(guī)模的目標(biāo)過程中提取到更為有效和全面的特征[38]。Zhang等采用多種特征融合方法構(gòu)建目標(biāo)特征,引入顏色直方圖和HOG描述算子進(jìn)行特征提取,同時(shí)充分利用ResNet-18中第1和第3卷積層的特征,緩解了UAV場(chǎng)景的復(fù)雜性和小目標(biāo)帶來的挑戰(zhàn)[39]。Liu等提出一種高分辨率檢測(cè)網(wǎng)絡(luò)HRDNet,采用多分辨率輸入,具有多種深度主干。同時(shí),設(shè)計(jì)了多深度圖像金字塔網(wǎng)絡(luò)(Multi-Depth Image Pyramid Network,MD-IPN)和多尺度特征金字塔網(wǎng)絡(luò)(Multi-Scale Feature Pyramid Network,MS-FPN)。MD-IPN使用多個(gè)深度主干維護(hù)多個(gè)位置信息,從高分辨率到低分辨率提取各種特征,解決了小目標(biāo)上下文信息丟失的問題,并保持對(duì)中大型目標(biāo)的檢測(cè)性能[40]。Liu等提出多分支并行特征金字塔網(wǎng)絡(luò)(Multi-branch Parallel Feature Pyramid Networks,MPFPN),旨在以較小的尺寸提取更豐富的目標(biāo)特征信息,并行分支能夠恢復(fù)深層中缺失的特征,同時(shí)采用監(jiān)督空間注意力模塊(Supervised Spatial Attention Module,SSAM)來削弱背景噪聲推理和聚焦目標(biāo)信息的影響[41]。

        2) 針對(duì)單維度信息包含特征不足問題。Azimi等使用Siamese網(wǎng)絡(luò)提取視覺特征,并與LSTM(Long Short-Term Memory)和圖卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行配合,融合了目標(biāo)的外觀、時(shí)間和圖形信息[42]。Du等提出基于HTC網(wǎng)絡(luò)的檢測(cè)器DetectorRS,引入遞歸特征金字塔,代替原來的特征金字塔網(wǎng)絡(luò)[43]。T?ttrup等提出Track R-CNN網(wǎng)絡(luò),結(jié)合檢測(cè)、跟蹤和分割的思想,擴(kuò)展了具有3D卷積的Mask R-CNN,將目標(biāo)檢測(cè)的分辨率提升到了像素級(jí)[44]。Albaba等為了解決UAV引起的目標(biāo)變化及紋理特征差異的問題,在Cascade RCNN中引入CenterNet,降低了誤報(bào)率,提高了檢測(cè)質(zhì)量[45]。Cao等提出D2Det網(wǎng)絡(luò),同時(shí)實(shí)現(xiàn)了精確定位和分類,設(shè)計(jì)了一種密集局部回歸網(wǎng)絡(luò),不限制固定區(qū)域的關(guān)鍵點(diǎn)集,用于預(yù)測(cè)目標(biāo)提議的多個(gè)密集盒偏移,實(shí)現(xiàn)精確定位[46]。

        3) 針對(duì)無人機(jī)視角下目標(biāo)類別分布稀疏及不均勻帶來的檢測(cè)效率低的問題。Yang等將聚類思想引入目標(biāo)檢測(cè),提出ClusDet網(wǎng)絡(luò),先由聚類網(wǎng)絡(luò)CPNet生成目標(biāo)簇區(qū)域,使用ScaleNet網(wǎng)絡(luò)估計(jì)這些區(qū)域的目標(biāo)比例,最后再將聚類區(qū)域送入DetecNet網(wǎng)絡(luò)進(jìn)行目標(biāo)檢測(cè),減少了檢測(cè)運(yùn)算量,提升了檢測(cè)效率[47]。Zhang等提出GDF-Net (Global Density Fused convolutional Network )網(wǎng)絡(luò),由FPN (Feature Pyramid Network)主干網(wǎng)絡(luò)、全局密度模型(Global Density Model,GDM)和目標(biāo)檢測(cè)網(wǎng)絡(luò)組成。GDM通過應(yīng)用擴(kuò)展卷積網(wǎng)絡(luò)來細(xì)化密度特征,提供更大的感受野并生成全局密度融合特征[48]。Yu等 提 出DSHNet(Dual Sampler and Head detection Network)網(wǎng)絡(luò),包括類偏置采樣器(Class-Biased Samplers,CBS)和 雙 邊 箱 頭(Bilateral Box Heads,BBH),以雙路方式處理尾類和頭類目標(biāo),顯著提高了尾類的檢測(cè)性能[49]。

        4) 針對(duì)無人機(jī)視角下目標(biāo)的視角變化、光線變化、目標(biāo)遮擋等帶來的檢測(cè)干擾問題。Zhang等設(shè)計(jì)了Cascade ResNet50網(wǎng)絡(luò),在ResNet網(wǎng)絡(luò)加入可變形卷積層(Deformable Convolution Layer,DCN)進(jìn)行特征提取,結(jié)合FPN組合不同尺度的特征,同時(shí)集成RPN以提取感興趣區(qū)域,在VisDrone 2019數(shù)據(jù)集中達(dá)到了22.61的平均精度[50]。Yang等提出一種針對(duì)UAV視角的車輛檢測(cè)體系結(jié)構(gòu),包括相鄰連接模塊(Adjacent Connection Module,ACM)、錨點(diǎn)細(xì)化模塊(Anchor Refinement Module,ARM)和目標(biāo)檢測(cè)模塊(Object Detection Module,ODM)。ACM提供了有效的上下文信息并減少干擾,ARM實(shí)現(xiàn)二分類和默認(rèn)框粗略回歸,ODM則細(xì)化選定的框以執(zhí)行分類,能夠準(zhǔn)確實(shí)時(shí)地檢測(cè)小型車輛[51]。Wu等采用對(duì)抗式學(xué)習(xí)框架,提出滋擾分離特征變換(Nuisance Disentangled Feature Transform,NDFT)框架,無需任何額外的領(lǐng)域適配或采樣/標(biāo)記,并與Faster-RCNN網(wǎng)絡(luò)相結(jié)合,有效地降低了因無人機(jī)高度變化、天氣變化、角度變化等對(duì)目標(biāo)檢測(cè)帶來的影響[52]。Zhang等設(shè)計(jì)多尺度和遮擋感知網(wǎng) 絡(luò)(Multi-Scale and Occlusion Aware Network,MSOA-Net),該網(wǎng)絡(luò)包括多尺度特征自適應(yīng)融合網(wǎng)絡(luò)(Multi-Scale Feature Adaptive Fusion Network,MSFAF-Net)和基于區(qū)域注意力的三頭網(wǎng)絡(luò)(Regional Attention based Triple Head Network,RATH-Net)。MSFAF-Net從多個(gè)層次自適應(yīng)地聚合層次特征圖,以幫助FPN處理目標(biāo)的比例變化;RATH-Net引導(dǎo)位置敏感子網(wǎng)絡(luò)增強(qiáng)感興趣的車輛,并抑制遮擋引起的背景干擾[53]。

        5) 針對(duì)無人機(jī)平臺(tái)上因尺度變化帶來的目標(biāo)漏檢和誤檢問題。Chen等提出Ada Resampling增強(qiáng)策略,將圖像輸入預(yù)訓(xùn)練的語義分割網(wǎng)絡(luò),并與Hour Glass模塊相結(jié)合,設(shè)計(jì)了RRNet網(wǎng)絡(luò),在VisDrone2019 Challenge中,達(dá)到AP50、AR10和AR100的 最 優(yōu) 性 能[54]。Wang等以FPN網(wǎng)絡(luò)為基礎(chǔ),提出空間優(yōu)化模塊(Spatial-Refinement Module,SRM)和感受野擴(kuò) 展 模 塊(Receptive Field Expansion Block,RFEB)來細(xì)化多尺度特征。RFEB增加高級(jí)語義特征的感受野大小,并將生成的特征通過SRM修復(fù)多尺度目標(biāo)的空間細(xì)節(jié),將模塊與Cascade RCNN網(wǎng)絡(luò)相結(jié)合,驗(yàn)證了有效性[55]。Tang等提出點(diǎn)估計(jì)網(wǎng)絡(luò)(Points Estimated Network,PENet),使 用 掩 碼 重 采 樣 模 塊(Mask Resampling Module,MRM)來增強(qiáng)不平衡數(shù)據(jù)集,使用粗檢測(cè)器來有效預(yù)測(cè)目標(biāo)簇的中心點(diǎn),使用精細(xì)檢測(cè)器來精確定位小目標(biāo)[56]。Dike等對(duì)Faster RCNN框架進(jìn)行改進(jìn),包括關(guān)鍵參數(shù)的校準(zhǔn)、多尺度訓(xùn)練、使用線性單元卷積來挖掘空間-光譜特征[57]。Lin等在Cascade RCNN的基礎(chǔ)上設(shè)計(jì)ECascade RCNN(Enhanced Cascade RCNN),提出Trident-FPN網(wǎng)絡(luò)用來提取多尺度特征并進(jìn)行特征融合,同時(shí)設(shè)計(jì)雙頭注意機(jī)制來提高檢測(cè)器的性能,在處理UAV目標(biāo)檢測(cè)任務(wù)中的多尺度問題上取得較好效果[58]。Youssef等采用FPN生成多尺度特征表示,結(jié)合Cascade RCNN網(wǎng)絡(luò),產(chǎn)生了更穩(wěn)健的區(qū)域建議,實(shí)現(xiàn)了在不同的空間分辨率下目標(biāo)的檢測(cè)和分類[59]。

        6) 為了緩解由于特征提取與目標(biāo)檢測(cè)分開執(zhí)行導(dǎo)致推理速度較低的問題。Lee等開發(fā)了同時(shí)執(zhí)行目標(biāo)檢測(cè)和嵌入提取的單次激發(fā)方法,以EfficientDet-D0網(wǎng)絡(luò)作為特征網(wǎng)絡(luò),使用BiFPN作為特征嵌入網(wǎng)絡(luò),在保持較高推理速度的同時(shí),擁有較高的準(zhǔn)確性[60]。

        表2展示了基于雙階段的UAV視角下多目標(biāo)檢測(cè)主要方法對(duì)比。

        表2 基于雙階段的UAV視角下多目標(biāo)檢測(cè)主要算法對(duì)比Table 2 Comparison of main multi-object detection algorithms for UAV based on two-stage detection

        2.2 單階段無人機(jī)航拍視頻多目標(biāo)檢測(cè)算法

        在UAV視角下的多目標(biāo)檢測(cè),單階段檢測(cè)器YOLO系列和SSD系列因優(yōu)勢(shì)明顯得到了廣泛的應(yīng)用。Makarov等采用YOLO V2網(wǎng)絡(luò),實(shí)現(xiàn)了UAV視角下汽車、大型車輛、建筑物、飛機(jī)、直升機(jī)和船舶等6類物體的識(shí)別[61]。Hossain等將YOLO V3與SSD遷移到邊緣端板載GPU Jetson TX2、Jetson Xavier上實(shí)現(xiàn)了UAV對(duì)地目標(biāo)的檢測(cè),提供了精確的目標(biāo)位置及類別信息[62]。Li等利用YOLO V3檢測(cè)UAV視角中的車輛,通過光流法獲取匹配特征點(diǎn),精確計(jì)算單應(yīng)矩陣[63]。Emiyah等使用YOLO V4實(shí)現(xiàn)了UAV視角下的人員與車輛檢測(cè)[64]。Yang等以YOLO V3-608網(wǎng)絡(luò)實(shí)現(xiàn)目標(biāo)檢測(cè),并使用NMS算法過濾多個(gè)檢測(cè)邊界框得到最優(yōu)檢測(cè)結(jié)果[65]。

        除了將原始的單階段檢測(cè)器直接應(yīng)用到UAV視角下的多目標(biāo)檢測(cè)以外,還有不少學(xué)者針對(duì)UAV視角引入的各項(xiàng)問題,從網(wǎng)絡(luò)模型優(yōu)化、引入注意力機(jī)制、多尺度特征融合、多種網(wǎng)絡(luò)綜合等多個(gè)方面進(jìn)行改進(jìn)。

        1) 針對(duì)UAV造成的小目標(biāo)增多問題。Liu等使用Res Unit_2對(duì)YOLO中的ResNet單元和主干網(wǎng)絡(luò)進(jìn)行改進(jìn),連接Darknet的Resblock中具有相同寬度和高度的2個(gè)ResNet單元,提出UAV-YOLO網(wǎng)絡(luò),同時(shí)預(yù)測(cè)多個(gè)邊界框和這些框的類概率,減少了因感受野受限導(dǎo)致的小目標(biāo)漏檢問題[66]。Ning等提出YOLO V5m-opt網(wǎng)絡(luò),通過將小目標(biāo)檢測(cè)分支的通道尺寸加倍,并減少大目標(biāo)檢測(cè)分支的一半通道來優(yōu)化YOLO V5m網(wǎng)絡(luò),實(shí)現(xiàn)了精度與速度的平衡[67]。Kapania等聯(lián)合YOLO V3和RetinaNet,利用RetinaNet網(wǎng)絡(luò)在處理小目標(biāo)擁擠情況下的優(yōu)良性能,提升了UAV視角下的檢測(cè)精度[68]。Tian等借鑒雙階段設(shè)計(jì)理念,提出一種DNOD方法,利用VGG網(wǎng)絡(luò)提取UAV圖像的特征圖,和疑似區(qū)域的位置信息結(jié)合起來進(jìn)行二次識(shí)別,降低了小目標(biāo)的漏檢率,分別與YOLO V4和EfficientDet-D7相結(jié)合,驗(yàn)證了算法的可靠性和有效性[69]。引入其他網(wǎng)絡(luò)的方法能夠?qū)o人機(jī)航拍視頻多目標(biāo)檢測(cè)的不同場(chǎng)景特點(diǎn),選擇不同的結(jié)構(gòu)。但此類方法在處理包含多場(chǎng)景的任務(wù)時(shí),遷移能力與泛化性較差。

        2) 針對(duì)單維度信息包含特征不足問題。Zhang等在YOLO V3網(wǎng)絡(luò)的3個(gè)檢測(cè)頭前的第5和第6卷積層之間,插入3個(gè)空間金字塔池化(Spatial Pyramid Pooling,SPP)模 塊,設(shè) 計(jì) 出SlimYOLO V3-SPP3網(wǎng)絡(luò),豐 富深層特征[70]。劉芳等設(shè)計(jì)了TA-ResNet,添加卷積注意力模塊的主干網(wǎng)絡(luò)。提取了目標(biāo)在多個(gè)維度上的注意力信息,精簡(jiǎn)了網(wǎng)絡(luò)參數(shù)并有效融合了卷積核不同位置的注意力信息[71]。Saetchnikov等通過改進(jìn)YOLO V4網(wǎng)絡(luò)提出YOLO V4eff網(wǎng)絡(luò),使用4組Cross-stage-partial進(jìn)行主干網(wǎng)絡(luò)與頸部網(wǎng)絡(luò)的連接,使用Swish函數(shù)作為激活函數(shù),Letterbox 設(shè)為1以保持使用效率[72]。注意力機(jī)制通過不同的權(quán)重分配學(xué)習(xí)通道間的特征信息,加強(qiáng)特征的提取能力。但如何合理地使用注意力機(jī)制仍值得研究。

        3) 針對(duì)無人機(jī)視角下目標(biāo)類別分布稀疏及不均勻帶來的檢測(cè)效率低的問題。Li等提出DS YOLO V3,增加了連接到主干網(wǎng)絡(luò)不同層的多個(gè)檢測(cè)頭來檢測(cè)不同規(guī)模的目標(biāo),并設(shè)計(jì)了一個(gè)多尺度通道注意力融合模塊,利用通道信息互補(bǔ)[73]。

        4) 針對(duì)無人機(jī)視角下目標(biāo)的視角變化、光線變化、目標(biāo)遮擋等帶來的檢測(cè)干擾問題。Liang等在F-SSD的基礎(chǔ)上添加反卷積模塊的額外分支和平均池化來調(diào)整特征融合模塊,反卷積模塊為網(wǎng)絡(luò)引入非線性,增強(qiáng)了網(wǎng)絡(luò)的表示能力;平均池化抑制了因減少參數(shù)總數(shù)和背景信息帶來的網(wǎng)絡(luò)過擬合[74]。Wang等設(shè)計(jì)SPB(Strip Bottleneck Module)模塊,可以更好地捕捉目標(biāo)的寬度-高度依賴關(guān)系,達(dá)到特征增強(qiáng)的目的,并將其嵌入到Y(jié)OLO V5網(wǎng)絡(luò),得到SPBYOLO網(wǎng)絡(luò),具有較好的檢測(cè)多尺度目標(biāo)的能力[75]。

        5) 針對(duì)無人機(jī)平臺(tái)上因尺度變化帶來的目標(biāo)漏檢和誤檢問題。Liu等提出擴(kuò)展卷積和注意力機(jī)制相結(jié)合的D-A-FS SSD。在特征提取主干網(wǎng)絡(luò)中使用擴(kuò)展卷積,增強(qiáng)了網(wǎng)絡(luò)對(duì)目標(biāo)分布的特征表達(dá);將負(fù)責(zé)檢測(cè)小目標(biāo)的低級(jí)特征圖與包含更多語義信息的高階特征圖相結(jié)合,提高了小目標(biāo)的檢測(cè)精度[76]。Zhang等在YOLO V3的基礎(chǔ)上進(jìn)行改進(jìn)提出DAGN網(wǎng)絡(luò),通過注意力模塊與特征連接相結(jié)合,以區(qū)分2個(gè)尺度上重要和不重要的特征。將一些標(biāo)準(zhǔn)卷積替換為深度可分離卷積,以抵消注意力模塊帶來的額外計(jì)算,并提出聯(lián)合引導(dǎo)Gaussian NMS來提高密集區(qū)域的性能[77]。Jadhav等提出DAN網(wǎng)絡(luò),將RetinaNet每個(gè)階段的最后一個(gè)殘差塊的特征通過SE(Squeeze and Excitation)模塊傳遞,自適應(yīng)地校準(zhǔn)信道響應(yīng),然后將其送到特征金字塔網(wǎng)絡(luò),產(chǎn)生更好的檢測(cè)結(jié)果[78]。Pi等利用FCOS模型在檢測(cè)小目標(biāo)方面的出色性能,并將多尺度特征融合技術(shù)應(yīng)用于原始SSD,設(shè)計(jì)了F-SSD網(wǎng)絡(luò)。分別從不同層的多個(gè)特征圖中生成目標(biāo)位置信息并識(shí)別目標(biāo)類別,通過多尺度特征融合模塊,融合了包含精細(xì)細(xì)節(jié)的淺層特征和具有語義信息的深層特征[79]。Liang等設(shè)計(jì)了特征對(duì)齊注意網(wǎng)絡(luò)(Feature-aligned Attention Network,F(xiàn)AANet),以RepVGG網(wǎng)絡(luò)作為主網(wǎng)絡(luò),融合空間注意力模塊和特征對(duì)齊聚合模塊,集成了多尺度特征[80]。Zhang等以RetinaNet50網(wǎng)絡(luò)為基準(zhǔn),在FPN的P3和P4中添加一個(gè)CONV層,將高層特征添加到低層特征,實(shí)現(xiàn)了特征融合[81]。Wu等將YOLO V3網(wǎng)絡(luò)的輸入圖像分辨率從224更改為320、416和608這3個(gè)可選比例,同時(shí)使用金字塔方法檢測(cè)3個(gè)尺度的目標(biāo)[82]。多尺度特征融合能夠結(jié)合各多層級(jí)特征信息,最大限度地利用了多尺度輸出,但在融合過程中常采用串聯(lián)操作,并未客觀地反映各層級(jí)之間的信息相關(guān)性,缺少信息交互。如何高效地進(jìn)行特征融合仍是未來的研究方向。

        6) 為了緩解由于計(jì)算量大導(dǎo)致推理速度較低的問題。Kyrkou等設(shè)計(jì)DroNet網(wǎng)絡(luò),以Tiny-YOLO網(wǎng)絡(luò)為基準(zhǔn),減少了網(wǎng)絡(luò)層數(shù)和每層濾波器的數(shù)量,以提升檢測(cè)速度,并隨著網(wǎng)絡(luò)加深,逐漸增加濾波器的數(shù)量,以保持計(jì)算需求[83]。Balamuralidhar等提出MultiEYE 網(wǎng)絡(luò),將YOLO V4網(wǎng)絡(luò)的主干網(wǎng)絡(luò)替換為CSPDarkNet53(Lite),參數(shù)量降為原始的1/4,選用ENet做分割頭,增加3組跳躍連接,在減少參數(shù)量的同時(shí)提取足夠多的特征[84]。為了減少模型參數(shù)和計(jì)算成本,Li等提出ComNet,刪除MobileNetv2中的平均池化層和最后一個(gè)卷積層,用改進(jìn)的Mobile-Netv2替 換YOLO V3網(wǎng)絡(luò)中的DarkNet53[85]。Zhang等在SSD網(wǎng)絡(luò)之前加入PeleNet,以較少的層數(shù)降低了計(jì)算量,設(shè)定更寬的網(wǎng)絡(luò)層補(bǔ)償檢測(cè)精度,并在最終預(yù)測(cè)層之前加入殘差塊,有助于主干網(wǎng)絡(luò)獲得更強(qiáng)的表示能力。殘差塊中使用1×1卷積核替代3×3卷積核減少了21.5%的計(jì)算成本,從而加快了模型的推理過程[86]。Wu等以YOLO V5為基準(zhǔn)網(wǎng)絡(luò),與寬殘差CNN網(wǎng)絡(luò)相結(jié)合,只使用YOLO V5檢測(cè)的目標(biāo)斑塊作為目標(biāo)特征提取的輸入,在提取到足夠多的目標(biāo)特征的同時(shí),降低了參數(shù)量[87]。

        表3展示了基于單階段的UAV視角下多目標(biāo)檢測(cè)算法對(duì)比。

        表3 基于單階段的UAV視角下多目標(biāo)檢測(cè)算法對(duì)比Table 3 Comparison of main multi-object detection algorithms for UAV based on one-stage detection

        2.3 多目標(biāo)檢測(cè)算法進(jìn)展小結(jié)

        回顧近年來UAV視角下基于深度學(xué)習(xí)的多目標(biāo)檢測(cè)算法進(jìn)展,可以總結(jié)得到以下幾點(diǎn):

        1) 雙階段目標(biāo)檢測(cè)算法發(fā)展迅速,檢測(cè)精度也在不斷提高,但是自身體系結(jié)構(gòu)的問題限制了檢測(cè)速度。單階段目標(biāo)檢測(cè)算法沒有候選區(qū)域推薦階段,訓(xùn)練過程也相對(duì)簡(jiǎn)單,可以在一個(gè)階段直接確定目標(biāo)類別并得到位置檢測(cè)框。

        2) 針對(duì)UAV視角,進(jìn)行的改進(jìn)措施:① 修改網(wǎng)絡(luò)結(jié)構(gòu),擴(kuò)大感受野;②網(wǎng)絡(luò)輕量化設(shè)計(jì),減少參數(shù)量,提升檢測(cè)速度;③ 引入注意力機(jī)制,加強(qiáng)特征提??;④ 多尺度特征融合,結(jié)合淺層與深層的特征信息。

        3) 發(fā)展趨勢(shì):更多新的方法技巧,如注意力機(jī)制、無錨框策略、上下文關(guān)系等,開始應(yīng)用于無人機(jī)航拍視頻的多目標(biāo)檢測(cè)任務(wù),但并未形成完整體系,主流方法仍然是以基于雙階段和基于單階段的算法。在后續(xù)的研究中,雙階段目標(biāo)檢測(cè)算法一是要實(shí)現(xiàn)參數(shù)共享以提升運(yùn)行速度,另一方面是提出新的訓(xùn)練策略使得算法走向端到端的演化。單階段的多目標(biāo)檢測(cè)算法需構(gòu)建具有更強(qiáng)表征能力的主干網(wǎng)絡(luò)以提升算法的精度,以及解決目標(biāo)檢測(cè)過程中遇到的樣本不均衡等問題。此外,2類網(wǎng)絡(luò)都無法完全有效解決UAV視角帶來的小目標(biāo)問題,因此研究面向UAV視角的小目標(biāo)檢測(cè)的深度學(xué)習(xí)算法框架具有重要意義。

        3 基于深度學(xué)習(xí)的無人機(jī)航拍視頻多目標(biāo)跟蹤方法

        多目標(biāo)跟蹤已成為近年來計(jì)算機(jī)視覺的研究熱點(diǎn),基于無人機(jī)航拍視頻的多目標(biāo)跟蹤(Multi Object Tracking Based on UAV Aerial Video, MOT-UAV) 技術(shù)也得到迅速發(fā)展,目前,TBD已成為MOT-UAV任務(wù)最有效的框架。TBD的跟蹤步驟通常由2個(gè)主要部分組成:① 運(yùn)動(dòng)模型和狀態(tài)估計(jì),用于預(yù)測(cè)后續(xù)幀中軌跡的邊界框;② 將新的幀檢測(cè)結(jié)果與當(dāng)前軌跡相關(guān)聯(lián)。處理關(guān)聯(lián)任務(wù)的主要思想有2種:① 目標(biāo)的外觀模型和解決重新識(shí)別任務(wù);② 目標(biāo)定位,主要是預(yù)測(cè)軌跡邊界框和檢測(cè)邊界框之間的交并比。這2種方法都將關(guān)聯(lián)內(nèi)容量化為距離,并將關(guān)聯(lián)任務(wù)作為全局分配問題進(jìn)行求解。本節(jié)分別對(duì)基于目標(biāo)特征建模、基于目標(biāo)軌跡預(yù)測(cè)、以及其他方法對(duì)無人機(jī)視角下的多目標(biāo)跟蹤的研究進(jìn)展進(jìn)行綜述。

        基于檢測(cè)的MOT-UAV其基本流程如圖4所示,TBD通過檢測(cè)器獲得目標(biāo)檢測(cè)結(jié)果后,將其進(jìn)行關(guān)聯(lián),分配與前一幀檢測(cè)目標(biāo)相關(guān)數(shù)據(jù)的ID。該類型算法能夠聯(lián)合最新的高性能檢測(cè)算法,跟蹤部分則被視為數(shù)據(jù)關(guān)聯(lián)問題,旨在提高關(guān)聯(lián)過程的質(zhì)量。

        圖4 基于檢測(cè)的MOT-UAV框架Fig.4 MOT-UAV framework based on detection

        3.1 基于目標(biāo)特征建模的多目標(biāo)跟蹤

        基于目標(biāo)特征建模的多目標(biāo)跟蹤算法是在UAV視角下應(yīng)用最廣泛的TBD方法,通過提取目標(biāo)的顏色、紋理、光流等特征,實(shí)現(xiàn)多目標(biāo)跟蹤。提取的這些特征必須是唯一的,以便在特征空間中區(qū)分目標(biāo)。一旦提取出特征,即可利用相似性準(zhǔn)則,在下一幀中找到最相似的目標(biāo)。

        1) 基于外觀特征的目標(biāo)建模

        Al-Shakarji等提出SCTrack目標(biāo)跟蹤系統(tǒng),使用三階段數(shù)據(jù)關(guān)聯(lián)方案,基于目標(biāo)外觀模型,結(jié)合空間距離以及顯式遮擋處理單元。不僅依賴于被跟蹤目標(biāo)的運(yùn)動(dòng)模式,還取決于環(huán)境約束,在處理遮擋目標(biāo)上取得較好效果[88]。Wang等設(shè)計(jì)了OSIM網(wǎng)絡(luò),通過VeRi數(shù)據(jù)集訓(xùn)練寬殘差網(wǎng)絡(luò),提取目標(biāo)外觀特征。使用檢測(cè)到的邊界框馬氏距離作為運(yùn)動(dòng)度量;計(jì)算邊界框內(nèi)的像素最小余弦距離作為外觀相似性度量。將2個(gè)度量指標(biāo)加權(quán)融合,使用級(jí)聯(lián)匹配進(jìn)行數(shù)據(jù)關(guān)聯(lián),實(shí)現(xiàn)了多目標(biāo)的穩(wěn)健跟蹤[89]。Yu等為了解決外觀和運(yùn)動(dòng)之間的融合比例常由主觀設(shè)置的問題,提出融合外觀相似性和運(yùn)動(dòng)一致性的自適應(yīng)方法,在最新一幀中,計(jì)算目標(biāo)與其周圍目標(biāo)之間的外觀相似性,利用Social LSTM網(wǎng)絡(luò)預(yù)測(cè)目標(biāo)的運(yùn)動(dòng),使用加權(quán)外觀相似性和運(yùn)動(dòng)預(yù)測(cè)生成當(dāng)前目標(biāo)和前幀目標(biāo)的關(guān)聯(lián)[90]。Makarov等將Kuhn-Munkres算法用于建立幀間目標(biāo)一對(duì)一的對(duì)應(yīng)關(guān)系,算法中矩陣的元素是2個(gè)連續(xù)幀上目標(biāo)邊界框之間的歐氏距離,并比較目標(biāo)的顏色直方圖來處理目標(biāo)在視野中消失和出現(xiàn)的情況。若直方圖的Bhattacharya距離度量低于某個(gè)閾值,則判定此目標(biāo)重新進(jìn)入視野[61]。Dike等為了解決目標(biāo)物體外觀信息獲取不穩(wěn)定的問題,應(yīng)用深度四元組網(wǎng)絡(luò)(Deep Quadruplet Network,DQN)來跟蹤從擁擠環(huán)境中捕獲的目標(biāo)軌跡?;谒脑M損失函數(shù)來研究特征空間,使用具有6層連接的深度CNN來挖掘空間-光譜特征[57]。

        2) 基于光流特征的目標(biāo)建模

        光流是圖像中亮度模式的表觀運(yùn)動(dòng),光流算法計(jì)算亮度模式在相鄰幀之間的位移,估計(jì)圖像中特定像素的位移張力。一些研究人員基于光流進(jìn)行目標(biāo)建模。Ahn等將CNN和光流相結(jié)合,CNN進(jìn)行特征提取和分類,同時(shí)計(jì)算像素的光流矢量,其與運(yùn)動(dòng)目標(biāo)對(duì)應(yīng),使用KLT(Kanade Lucas-Tomasi)特征實(shí)現(xiàn)多目標(biāo)跟蹤[91]。Li等通過光流法獲取匹配特征點(diǎn),消除檢測(cè)目標(biāo)時(shí)帶來的誤差,精確計(jì)算單應(yīng)矩陣,確定當(dāng)前幀中的真實(shí)運(yùn)動(dòng)軌跡[63]。Lusk等使用KLT跟蹤算法提取光流特征,生成目標(biāo)的測(cè)量值;采用基于單應(yīng)性的圖像配準(zhǔn)方法,將測(cè)量值映射到同一坐標(biāo)系中,允許檢測(cè)獨(dú)立移動(dòng)的物體;引入R-RANSAC算法使用視覺測(cè)量提取雜波中的目標(biāo)[92]。Li等為了解決因攝像機(jī)運(yùn)動(dòng)導(dǎo)致的檢測(cè)精度降低的問題,融合光流信息,設(shè)計(jì)了Flowtracker跟蹤器。使用光流網(wǎng)絡(luò)降低攝像機(jī)運(yùn)動(dòng)干擾,采用輔助跟蹤器處理檢測(cè)缺失的問題,同時(shí)融合外觀和運(yùn)動(dòng)信息來提高匹配精度[93]。Yang等為了解決在目標(biāo)位置變化過大的低幀速率情況下引起的跟蹤丟失問題,提出基于密集軌跡投票的方法,將問題建模為密集光流軌跡到目標(biāo)ID的投票問題,計(jì)算相鄰幀中的密集光流,根據(jù)每個(gè)檢測(cè)邊界框中光流軌跡的結(jié)果測(cè)量相鄰幀中目標(biāo)之間的相似性,并通過數(shù)據(jù)關(guān)聯(lián)獲得跟蹤結(jié)果[65]。Ard?將多目標(biāo)跟蹤問題模擬為網(wǎng)絡(luò)流優(yōu)化問題,引入廣義圖差(Generalized Graph Differences,GGD),從數(shù)據(jù)中有效地學(xué)習(xí)此類問題的權(quán)重,使用稀疏光流特征點(diǎn)生成KLT軌跡,將目標(biāo)錨點(diǎn)與目標(biāo)框連接起來,通過加入上述長(zhǎng)連接將完整的跟蹤分解為單個(gè)跟蹤,解決了因遮擋導(dǎo)致的特征點(diǎn)跳躍問題[94]。

        3) 基于多維特征的目標(biāo)特征建模

        除了將單獨(dú)維度特征應(yīng)用于多目標(biāo)跟蹤,同時(shí)應(yīng)用外觀特征、位置信息、時(shí)間信息等進(jìn)行多目標(biāo)跟蹤也是一條技術(shù)途徑。Fu等提出一種多車輛跟蹤模型,使用改進(jìn)的ResNet-18網(wǎng)絡(luò)提取車輛的重識(shí)別特征,結(jié)合軌跡信息和位置信息構(gòu)建相似矩陣,獲得幀間車輛目標(biāo)的最佳匹配[95]。Zhang等提出Tracklet Net多目標(biāo)跟蹤算法,利用時(shí)間和外觀信息來跟蹤地面目標(biāo)。基于多視圖立體技術(shù)估計(jì)的組平面來定位跟蹤的地面目標(biāo),最大限度地減少跨幀間的光度誤差,生成準(zhǔn)確平滑的運(yùn)動(dòng)軌跡[81]。He等受注意力機(jī)制的啟發(fā),利用語境注意、維度注意和時(shí)空注意等多級(jí)視覺注意力,將上下文信息合并到濾波器訓(xùn)練階段,同時(shí)感知目標(biāo)和環(huán)境的外觀變化,利用響應(yīng)圖的維度和時(shí)空注意力來增強(qiáng)特征,以更好地抑制噪聲[96]。Stadler等設(shè)計(jì)了PAS跟蹤器,考慮了目標(biāo)的位置、外觀和大小信息,計(jì)算所有檢測(cè)結(jié)果和預(yù)測(cè)軌跡之間的相似性度量,并將其收集在成本矩陣中,用匈牙利方法求解分配問題[97]。

        4) 相關(guān)濾波器

        相關(guān)濾波源自信號(hào)處理領(lǐng)域,相關(guān)性用于表示2個(gè)信號(hào)的相似程度。通過對(duì)下一幀的圖像與指定濾波模板做卷積操作,將響應(yīng)最大的區(qū)域判定為預(yù)測(cè)的目標(biāo),實(shí)現(xiàn)多目標(biāo)跟蹤。其流程為:候選樣本獲取→特征提取→目標(biāo)定位→模型更新。

        Li等設(shè)計(jì)了一種基于時(shí)隙的跟蹤算法,將跟蹤過程劃分為多個(gè)時(shí)隙。為了利用真實(shí)背景信息,采用背景感知相關(guān)濾波器(Backgroundaware Correlation Filter,BACF)擴(kuò)大搜索區(qū)域,從背景中提取真實(shí)的負(fù)訓(xùn)練樣本[98]。Li等以BACF作為基準(zhǔn)濾波器,融合上下文學(xué)習(xí)策略,提出基于相關(guān)濾波器的Keyfilter感知跟蹤器,利用上下文信息賦予濾波器更強(qiáng)的識(shí)別能力,有效地緩解了背景雜波、描述不足、遮擋、光照變化等問題。從周期性關(guān)鍵幀中生成Keyfilter,抑制了當(dāng)前濾波器的損壞變化,充分提高了跟蹤效率[99]。Balamuralidhar等使用相關(guān)濾波器以較高的計(jì)算速度和精度估計(jì)被跟蹤目標(biāo)的位置,將最小輸出平方誤差和(Minimum Output Sum of Squared Error,MOSSE)算法用于目標(biāo)跟蹤[84]。使用前2幀進(jìn)行初始化,檢測(cè)邊界框裁剪自序列的第1幀,使用自然對(duì)數(shù)變換和離散傅里葉變換對(duì)其實(shí)現(xiàn)對(duì)比度的增強(qiáng)并轉(zhuǎn)至頻域表示,此后生成一個(gè)合成目標(biāo)用于初始化跟蹤器并在跟蹤過程中更新濾波器[70]。

        基于目標(biāo)特征建模的多目標(biāo)跟蹤算法在無人機(jī)航拍視頻上取得了穩(wěn)健的跟蹤,但在處理長(zhǎng)時(shí)跟蹤、消失又重現(xiàn)的特殊目標(biāo)時(shí)仍存在問題。

        表4展示了基于目標(biāo)特征建模的UAV視角下多目標(biāo)跟蹤主要算法對(duì)比。

        表4 基于目標(biāo)特征建模的UAV視角下多目標(biāo)跟蹤主要算法對(duì)比Table 4 Comparison of main algorithms for multi-object tracking for UAV based on target feature modeling

        3.2 基于目標(biāo)軌跡預(yù)測(cè)的多目標(biāo)跟蹤

        基于目標(biāo)軌跡預(yù)測(cè)的方法將跟蹤描述為估計(jì)問題,通過目標(biāo)的位置狀態(tài)向量描述目標(biāo)的動(dòng)態(tài)行為。其一般框架取自貝葉斯濾波器,包含預(yù)測(cè)和更新2步。預(yù)測(cè)步驟使用狀態(tài)模型估計(jì)目標(biāo)在下一幀中的位置,而更新步驟基于觀測(cè)模型由當(dāng)前觀測(cè)值更新目標(biāo)的位置。常用的基于目標(biāo)軌跡的方法主要有卡爾曼濾波與DeepSORT框架。

        1) 基于卡爾曼濾波的目標(biāo)軌跡預(yù)測(cè)

        卡爾曼濾波是遞歸貝葉斯估計(jì)在誤差為高斯分布時(shí)的一種特例,通過卡爾曼濾波(Kalman Filter,KF)預(yù)測(cè)下一幀中的目標(biāo)軌跡邊界框,再將其與檢測(cè)邊界框相關(guān)聯(lián)實(shí)現(xiàn)跟蹤。Baykara等采用Squeeze Net網(wǎng)絡(luò)檢測(cè)目標(biāo),使用卡爾曼濾波進(jìn)行目標(biāo)跟蹤,實(shí)現(xiàn)了UAV視角下多目標(biāo)的跟蹤與分類[34]。Xu等在概率數(shù)據(jù)關(guān)聯(lián)的基礎(chǔ)上聯(lián)合卡爾曼濾波,提出JPDA(Joint Probabilistic Data Association)方案。估計(jì)每個(gè)目標(biāo)所有可能的匹配情況,基于聯(lián)合概率數(shù)據(jù)關(guān)聯(lián)似然方法,將更新后的狀態(tài)作為下一幀的前一個(gè)目標(biāo)狀態(tài),但未建模運(yùn)動(dòng)可能導(dǎo)致目標(biāo)虛假跟蹤[100]。Lee等將移動(dòng)目標(biāo)的質(zhì)心作為跟蹤的輸入,采用卡爾曼濾波估計(jì)目標(biāo)的動(dòng)態(tài)狀態(tài)[101]。王旭辰等使用 Car-Reid數(shù)據(jù)集訓(xùn)練殘差網(wǎng)絡(luò)提取目標(biāo)外觀信息,使用卡爾曼濾波提取目標(biāo)運(yùn)動(dòng)信息,2種信息經(jīng)整合得到成本矩陣,最后由匈牙利匹配算法得到跟蹤結(jié)果[102]。Luo等將YOLO V5用于特征提取,卡爾曼濾波器提取目標(biāo)運(yùn)動(dòng)信息并更新預(yù)測(cè),利用匈牙利匹配算法得到跟蹤結(jié)果[103]。

        除了將卡爾曼濾波直接應(yīng)用到目標(biāo)軌跡預(yù)測(cè)之外,也有不少學(xué)者對(duì)其進(jìn)行了改進(jìn)或融合其他方法。Wu等為了解決因UAV導(dǎo)致的目標(biāo)偏移,基于卡爾曼濾波和單應(yīng)性變換(Kalman Filter and Homography Transformation,KFHT) 設(shè)計(jì)了運(yùn)動(dòng)補(bǔ)償模型,預(yù)測(cè)目標(biāo)位置并補(bǔ)償位置偏移。利用目標(biāo)的特征相似性和位置關(guān)聯(lián)匹配完成目標(biāo)識(shí)別,減少了目標(biāo)ID交換的數(shù)量[87]。Khalkhali等提出SAIKF(Situation Assessment Interactive Kalman Filter),利用從同一環(huán)境的交通歷史中提取的態(tài)勢(shì)評(píng)估信息,來提高跟蹤性能[104]。

        2) 基于DeepSORT的目標(biāo)軌跡預(yù)測(cè)

        以卡爾曼濾波為基礎(chǔ)的DeepSORT框架是現(xiàn)階段在UAV視角下多目標(biāo)跟蹤中應(yīng)用最多的框架,其假設(shè)目標(biāo)運(yùn)動(dòng)為勻速狀態(tài),如圖5所示[105]。Kapania等在MARS數(shù)據(jù)集上預(yù)訓(xùn)練CNN模型生成深度關(guān)聯(lián)矩陣,結(jié)合外觀特征和運(yùn)動(dòng)信息,通過減少ID交換的數(shù)量,提高軌跡準(zhǔn)確性,在DeepSort框 架 中 實(shí) 現(xiàn) 多 目 標(biāo) 跟 蹤[68]。Emiyah等使用YOLO V4進(jìn)行目標(biāo)檢測(cè),在DeepSORT框架下實(shí)現(xiàn)了UAV視角下的目標(biāo)跟蹤[64]。Ning等采用YOLO V5獲得目標(biāo)實(shí)時(shí)位置,聯(lián)合DeepSORT框架實(shí)現(xiàn)了目標(biāo)的速度測(cè)量[67]。Jadhav等設(shè)計(jì)深度關(guān)聯(lián)網(wǎng)絡(luò),根據(jù)深度特征相似性對(duì)目標(biāo)評(píng)分,同時(shí)跟蹤相似類的多個(gè)目標(biāo),將檢測(cè)器提供的置信度與深度關(guān)聯(lián)度量融合,傳遞到DeepSORT網(wǎng)絡(luò)中,生成目標(biāo)軌跡,提升了對(duì)目標(biāo)置信度較高但深度關(guān)聯(lián)較低的目標(biāo)的跟蹤準(zhǔn)確率[78]。Avola等利用從邊界框得到的視覺外觀,結(jié)合Deep SORT描述UAV航拍視頻序列中的目標(biāo)軌跡[36]。

        圖5 DeepSORT框架[105]Fig.5 DeepSORT framework[105]

        除了將DeepSORT直接應(yīng)用于UAVMOT,眾多學(xué)者針對(duì)UAV視角下多目標(biāo)跟蹤出現(xiàn)的問題做出了各種相應(yīng)改進(jìn)。Huang等通過不同的預(yù)測(cè)網(wǎng)絡(luò)生成目標(biāo)邊界框,對(duì)所有軌跡和檢測(cè)結(jié)果進(jìn)行級(jí)聯(lián)匹配,通過GIOU匹配進(jìn)行未匹配跟蹤和檢測(cè),生成最終軌跡[38]。Du等以Deep-SORT為基礎(chǔ)框架,采用全局信息和一些優(yōu)化策略,設(shè)計(jì)了GIAO Tracker。用OSNet替換Deep-SORT中的簡(jiǎn)單特征提取器,利用全局線索將其關(guān)聯(lián)到軌跡中,并提出EMA(Exponential Moving Average)策略,實(shí)現(xiàn)小軌跡和檢測(cè)結(jié)果之間更精確的關(guān)聯(lián)[43]。Wu等針對(duì)DeepSORT預(yù)訓(xùn)練的外觀提取模型未包含車輛外觀信息的問題,利用輕型ShuffleNet V2網(wǎng)絡(luò)對(duì)VeRi數(shù)據(jù)進(jìn)行車輛重識(shí)別訓(xùn)練,提取外觀信息,加入到DeepSORT中[106]。Wu等將YOLO V4 Tiny與DeepSORT網(wǎng)絡(luò)相結(jié)合,設(shè)計(jì)了SORT-YM網(wǎng)絡(luò),利用目標(biāo)在被遮擋前的信息,通過多幀信息來預(yù)測(cè)目標(biāo)的位置,一定程度上解決了目標(biāo)遮擋的問題[107]。

        表5展示了基于目標(biāo)軌跡預(yù)測(cè)的UAV視角下多目標(biāo)跟蹤主要算法對(duì)比。

        表5 基于目標(biāo)軌跡預(yù)測(cè)的UAV視角下多目標(biāo)跟蹤算法對(duì)比Table 5 Comparison of multi-object tracking algorithms for UAV based on target trajectory prediction

        3.3 其他基于深度學(xué)習(xí)的多目標(biāo)跟蹤

        除了上述基于目標(biāo)特征與軌跡預(yù)測(cè)的多目標(biāo)跟蹤算法以外,基于單目標(biāo)跟蹤輔助、記憶網(wǎng)絡(luò)增強(qiáng)、交并比(Intersection over Union,IOU)、聯(lián)合檢測(cè)與跟蹤等方法也被應(yīng)用于無人機(jī)航拍視頻的多目標(biāo)跟蹤。

        1) 基于單目標(biāo)跟蹤輔助的UAV-MOT

        基于單目標(biāo)跟蹤輔助的算法分別對(duì)單個(gè)目標(biāo)實(shí)行完整的跟蹤策略,相對(duì)于檢測(cè)類算法,SOT使用的跟蹤器包含了當(dāng)前目標(biāo)外觀特征和位置等時(shí)序更新的信息,已成功應(yīng)用于多種場(chǎng)景。Chen等提出四階段級(jí)聯(lián)框架用于UAV航拍視角下的多目標(biāo)跟蹤,將基于數(shù)據(jù)關(guān)聯(lián)與使用壓縮的多目標(biāo)跟蹤算法相結(jié)合。在每個(gè)關(guān)聯(lián)階段,將不同的軌跡集合和檢測(cè)結(jié)果關(guān)聯(lián)起來,同時(shí)單目標(biāo)跟蹤與假設(shè)匹配結(jié)合后,用于目標(biāo)重識(shí)別,在處理小目標(biāo)跟蹤、目標(biāo)遮擋時(shí)取得較好效果[108]。Yu等將目標(biāo)和UAV運(yùn)動(dòng)分別視為個(gè)體運(yùn)動(dòng)和全局運(yùn)動(dòng)。利用Social LSTM網(wǎng)絡(luò)來估計(jì)個(gè)體運(yùn)動(dòng),構(gòu)建連體網(wǎng)絡(luò)來生成全局運(yùn)動(dòng),利用Siamese網(wǎng)絡(luò)提取相鄰幀的視圖變化進(jìn)行全局運(yùn)動(dòng)分析,個(gè)體運(yùn)動(dòng)與全局運(yùn)動(dòng)信息輸入生成對(duì)抗網(wǎng)絡(luò),獲得了穩(wěn)健的MOT性能[109]。Pan等結(jié)合SOT和卡爾曼濾波提出HMTT (Hierarchical Multi Target Tracker)方法,使用具有學(xué)習(xí)全尺度特征能力的OSNet網(wǎng)絡(luò)提取ReID特征以表示邊界框,計(jì)算每對(duì)邊界框與兩條軌跡的歐氏特征距離。盡管緩解了遮擋問題,但在目標(biāo)長(zhǎng)期消失的情況下跟蹤效果差[110]。Bahmanyar等提出基于卷積神經(jīng)網(wǎng)絡(luò)的方法SMSOT-CNN來跟蹤UAV航拍視頻中的多個(gè)車輛和行人,利用Micro CNNs負(fù)責(zé)單個(gè)目標(biāo)跟蹤任務(wù),使用雙流CNN從每個(gè)目標(biāo)的連續(xù)幀中提取特征,預(yù)測(cè)目標(biāo)在當(dāng)前幀中的位置[111]。

        2) 基于記憶網(wǎng)絡(luò)增強(qiáng)的UAV-MOT

        MOT可以通過歷史軌跡信息判斷新的目標(biāo)狀態(tài)。因此,可以設(shè)計(jì)一個(gè)能夠記憶歷史信息的網(wǎng)絡(luò)結(jié)構(gòu),并基于該歷史信息學(xué)習(xí)匹配相似性度量,從而提高M(jìn)OT的性能。在所有RNN中,LSTM網(wǎng)絡(luò)在處理序列問題上表現(xiàn)出了可靠的性能。LSTM的特殊結(jié)構(gòu)使其能夠長(zhǎng)時(shí)間保留信息,并且可以克服傳統(tǒng)RNN的梯度消失和爆炸問題。Azimi等設(shè)計(jì)AerialMPTNet網(wǎng)絡(luò),使用LSTM獲取時(shí)間信息,通過信道自適應(yīng)加權(quán),采用GSD自適應(yīng)歐氏距離進(jìn)行連續(xù)幀中的目標(biāo)關(guān)聯(lián)[42]。Saetchnikov等為了能夠同時(shí)保留目標(biāo)的特征信息和軌跡的長(zhǎng)時(shí)信息,設(shè)計(jì)了雙向LSTM,分別用于前向序列和后向序列,能夠更好地理解視頻序列。將LSTM中的完全連接層替換為卷積層,解決了標(biāo)準(zhǔn)LSTM網(wǎng)絡(luò)通過全連接層進(jìn)行矢量化和編碼造成的空間信息丟失的問題[72]。

        3) 基于IOU的TBD的方法

        除了上述2類基于檢測(cè)的UAV-MOT方法,也有應(yīng)用IOU擴(kuò)展的方法。Marvasti-Zadeh等為了解決小目標(biāo)的問題,引入一種上下文感知IOU引導(dǎo)跟蹤器,利用多任務(wù)雙流網(wǎng)絡(luò)和離線參考建議生成策略,網(wǎng)絡(luò)僅從ResNet-50的block3和block4中提取特征,以利用空間和語義特征,同時(shí)減少了參數(shù)數(shù)量,通過多尺度特征學(xué)習(xí)和注意力模塊充分利用目標(biāo)相關(guān)信息[112]。Youssef等使用匈牙利算法生成最優(yōu)軌跡,替代原始使用的貪婪方法進(jìn)行軌跡分配,并使用特定閾值篩選假陽性軌跡,但沒有利用到目標(biāo)檢測(cè)器提取的豐富圖像特征,在最終的跟蹤效果上有一點(diǎn)劣勢(shì)[59]。

        4) 基于聯(lián)合檢測(cè)與跟蹤的UAV-MOT

        JDT框架以及計(jì)算機(jī)硬件發(fā)展迅速,其受到了UAV視角下多目標(biāo)跟蹤研究者的重視,并得到了推廣應(yīng)用。Zhang等將目標(biāo)跟蹤中關(guān)注的特定實(shí)例替換為同類目標(biāo),設(shè)計(jì)了BES(Boundingbox Estimation State)網(wǎng)絡(luò),含2個(gè)子網(wǎng)絡(luò):實(shí)例感知注意力網(wǎng)絡(luò)用于對(duì)給定目標(biāo)基于實(shí)例的先驗(yàn)知識(shí)進(jìn)行建模,實(shí)例感知IOU網(wǎng)絡(luò)則根據(jù)不同提議估計(jì)IOU分?jǐn)?shù)。跟蹤過程中通過梯度上升使得分值最大化來獲得最終的限定框[39]。Lee等以FairMOT網(wǎng)絡(luò)為基礎(chǔ)設(shè)計(jì)了能夠同時(shí)執(zhí)行目標(biāo)檢測(cè)和特征提取的Single-Shot MOT網(wǎng)絡(luò),提高了推理速度,以EfficientNet作為主干生成3個(gè)多尺度特征圖,特征通過雙向特征金字塔網(wǎng)絡(luò)進(jìn)行特征融合,完成目標(biāo)的匹配[60]。Liang等設(shè)計(jì)了特征對(duì)齊注意網(wǎng)絡(luò)(Feature Aligned Attention Network,F(xiàn)AANet),以RepVGG網(wǎng)絡(luò)為主網(wǎng)絡(luò),融合空間注意模塊和特征對(duì)齊聚合模塊,集成了多尺度特征,同時(shí)采用JDT框架和結(jié)構(gòu)重參數(shù)化技術(shù)提升了實(shí)時(shí)性[80]。

        表6展示了其他UAV視角下多目標(biāo)跟蹤算法對(duì)比。

        表6 其他UAV視角下多目標(biāo)跟蹤算法對(duì)比Table 6 Comparison of other multi-object tracking algorithms for UAV

        3.4 多目標(biāo)跟蹤算法進(jìn)展小結(jié)

        回顧近年來UAV視角下基于深度學(xué)習(xí)的多目標(biāo)跟蹤進(jìn)展,經(jīng)分析總結(jié)得到以下幾點(diǎn):

        1) TBD框架的優(yōu)點(diǎn):檢測(cè)器與特征提取應(yīng)用深度學(xué)習(xí)對(duì)多目標(biāo)跟蹤效果提升明顯。基于深度學(xué)習(xí)的特征提取器提取到了更加精確的外觀特征,在處理目標(biāo)遮擋、目標(biāo)重現(xiàn)、背景干擾等問題上表現(xiàn)良好,獲得了穩(wěn)定的多目標(biāo)跟蹤性能。

        2) TBD框架的缺點(diǎn):運(yùn)行效率低。TBD模式不能同時(shí)執(zhí)行目標(biāo)檢測(cè)和特征提取,導(dǎo)致基于TBD模式的多目標(biāo)跟蹤算法難以實(shí)現(xiàn)精度和速度的均衡。

        3) TBD框架的改進(jìn)方法:① 進(jìn)一步發(fā)揮深度特征的優(yōu)勢(shì),將更有效的特征與TBD框架相結(jié)合;② 融合多種特征,提取更多的有效信息,包括外觀、時(shí)間、圖形等特征;③ 與LSTM相結(jié)合,借助其能夠長(zhǎng)時(shí)間保留信息的能力。

        4) UAV視角下基于深度學(xué)習(xí)的多目標(biāo)跟蹤發(fā)展趨勢(shì):近年來的主流框架仍然為TBD框架。JDT框架、循環(huán)神經(jīng)網(wǎng)絡(luò)、動(dòng)態(tài)記憶網(wǎng)絡(luò)等更多新的網(wǎng)絡(luò)結(jié)構(gòu)和注意力機(jī)制、無錨點(diǎn)策略、上下文關(guān)系等方法技巧,開始應(yīng)用于UAV視角下多目標(biāo)跟蹤任務(wù)。此外,無論是早期的算法還是后來的網(wǎng)絡(luò),都無法有效應(yīng)對(duì)長(zhǎng)時(shí)間多目標(biāo)跟蹤任務(wù), 因此面向長(zhǎng)時(shí)間多目標(biāo)跟蹤的深度學(xué)習(xí)算法框架將對(duì)多目標(biāo)跟蹤領(lǐng)域具有重要意義。

        4 數(shù)據(jù)集與結(jié)果評(píng)估

        4.1 數(shù)據(jù)集

        隨著基于數(shù)據(jù)驅(qū)動(dòng)的深度學(xué)習(xí)方法的發(fā)展,研究人員為數(shù)據(jù)集的構(gòu)建做出了巨大貢獻(xiàn),促進(jìn)了相關(guān)課題的算法驗(yàn)證與性能對(duì)比。

        Stanford Drone 數(shù)據(jù)集[113]:Stanford大學(xué)于2016年公布的大規(guī)模目標(biāo)跟蹤數(shù)據(jù)集,使用無人機(jī)在校園擁擠的時(shí)間段以俯視的方式收集了8個(gè)不同的場(chǎng)景下20 000個(gè)物體的軌跡交互信息,每個(gè)物體的軌跡都標(biāo)注唯一的 ID,包含10種目標(biāo)類型,19 000多個(gè)對(duì)象,包括112 000名行人、64 000輛自行車、13 000輛汽車、33 000名滑板手、22 000輛高爾夫球車和11 000輛公共汽車,均可用于多目標(biāo)檢測(cè)與跟蹤。數(shù)據(jù)集重點(diǎn)關(guān)注了目標(biāo)與目標(biāo)之間、目標(biāo)與環(huán)境之間的交互信息。當(dāng)2個(gè)目標(biāo)有交集時(shí),目標(biāo)的軌跡將發(fā)生變化,標(biāo)注了185 000個(gè)目標(biāo)之間的交互信息。當(dāng)目標(biāo)在其周圍沒有其他目標(biāo)的情況下軌跡偏離線性軌跡時(shí),目標(biāo)會(huì)與空間發(fā)生交互作用,標(biāo)注了大約40 000個(gè)目標(biāo)與環(huán)境的交互。

        UAVDT (UAV Detection and Tracking)數(shù)據(jù)集[114]:中國科學(xué)院大學(xué)于2018年設(shè)計(jì)的大型車輛檢測(cè)和跟蹤數(shù)據(jù)集,包含100段視頻和80 000個(gè)視頻幀,大約2 700輛車和84萬個(gè)邊界框,圖像分辨率為1 080×540,包括廣場(chǎng)、主干道、收費(fèi)站、高速公路、路口等場(chǎng)景,可用于車輛目標(biāo)檢測(cè)、單車跟蹤、多車跟蹤等任務(wù)。針對(duì)MOT數(shù)據(jù)集涵蓋了各種天氣條件(白天、夜晚和霧)、目標(biāo)遮擋和距地高度。特別的,在日光下拍攝的視頻會(huì)引入陰影的干擾,夜景下幾乎沒有任何紋理信息,在霧中拍攝的幀缺少清晰的細(xì)節(jié),因此目標(biāo)的輪廓在背景中消失。在高海拔視角下,大量的目標(biāo)則不太清晰。針對(duì)多目標(biāo)檢測(cè)還標(biāo)記了另外3個(gè)屬性,包括車輛類別、車輛遮擋率和截?cái)嗦?。遮擋率表示目?biāo)被遮擋部分的占比,截?cái)嗦时硎灸繕?biāo)出現(xiàn)在幀外部分的占比。車輛類別包括轎車、卡車和公共汽車;車輛遮擋率分為無遮擋(0%)、小遮擋(1%~30%)、中等遮擋(30%~70%)和大遮擋(70%~100%)4檔;車輛在視野邊緣的截?cái)嗦史譃闊o截?cái)啵?%)、小截?cái)啵?%~30%)和中等截?cái)啵?0%~50%)3檔,當(dāng)視野外占比>50%時(shí),目標(biāo)將被丟棄。

        VisDrone2018數(shù)據(jù)集[115]: 天津大學(xué)、GE全球研究院和天普大學(xué)于2018提出的大型視覺目標(biāo)檢測(cè)和跟蹤數(shù)據(jù)集,包含263段視頻,共計(jì)179 264個(gè)視頻幀和10 209個(gè)靜態(tài)圖像,標(biāo)注有超過250萬個(gè)目標(biāo)信息,涵蓋行人、汽車、自行車和三輪車等多個(gè)目標(biāo)。圖像分辨達(dá)到了3 840×2 166,能夠應(yīng)用于目標(biāo)檢測(cè)、單目標(biāo)跟蹤和多目標(biāo)跟蹤等任務(wù)。刪除了目標(biāo)較少區(qū)域的標(biāo)注

        VisDrone 2019數(shù) 據(jù) 集[116]:與VisDrone2018相比,VisDrone 2019增加了25段長(zhǎng)跟蹤視頻,共82 644幀,12個(gè)視頻采集與白天,其余在晚上采集,提升了數(shù)據(jù)集小目標(biāo)數(shù)量和背景干擾。Vis-Drone2019共計(jì)包含了288段視頻,共計(jì)261 908個(gè)代表幀和10 209個(gè)靜態(tài)圖像。數(shù)據(jù)集還提供了遮擋率和截?cái)嗦?,如果目?biāo)的截?cái)嗦剩?0%,則在評(píng)估期間跳過該目標(biāo)。

        BIRDSAI數(shù)據(jù)集[117]:哈佛大學(xué)于2020年使用TIR攝像頭在多個(gè)非洲保護(hù)區(qū)采集的數(shù)據(jù)集,包含48段TIR視頻和124段由AirSim-W生成的合成航空TIR視頻,分辨率為640×480。該數(shù)據(jù)集包含具有尺度變化、背景雜波、角度旋轉(zhuǎn)和運(yùn)動(dòng)模糊等變化,目標(biāo)類別包括人和動(dòng)物(獅子、大象、鱷魚、河馬、斑馬和犀牛)。如果圖像中存在偽影,則將對(duì)象標(biāo)記為包含噪聲。若目標(biāo)完全無法區(qū)分(例如,多個(gè)人類或動(dòng)物靠近在一起,在熱成像中無法區(qū)分),則不標(biāo)記它們。同時(shí),目標(biāo)超過50%的部分不在幀中,則不會(huì)對(duì)其進(jìn)行標(biāo)記。

        CARPK(Car Parking Lot Dataset)數(shù) 據(jù)集[118]:臺(tái)灣大學(xué)于2017年提出的大規(guī)模車輛檢測(cè)和計(jì)數(shù)數(shù)據(jù)集,是無人機(jī)視角的第1個(gè)停車場(chǎng)數(shù)據(jù)集,覆蓋了4個(gè)不同停車場(chǎng)的近90 000輛汽車。單幀圖像中的最大車輛尺寸?64×64,單個(gè)場(chǎng)景中的最大車輛數(shù)為188,所有標(biāo)記的邊界框都采用左上角點(diǎn)和右下角點(diǎn)進(jìn)行標(biāo)注。只要確定目標(biāo)是1輛車,包括位于圖像邊緣的汽車,均對(duì)其進(jìn)行標(biāo)注。

        DAC-SDC(Design Automation Conference-System Design Contest)數(shù) 據(jù) 集[119]:University of Notre Dame于2018年提出的目標(biāo)檢測(cè)數(shù)據(jù)集,它包含95個(gè)類別和150 000個(gè)不同視角拍攝的圖像,分辨率640×360,大多數(shù)目標(biāo)大小占比圖像的1%~2%。在該數(shù)據(jù)集中,圖像亮度和信息量仍然保持良好的平衡,大多數(shù)圖像具有中等亮度/信息量,小部分圖像包含太大或太小的亮度/信息,類似于高斯分布。

        MOR-UAV(Moving Object Recognition in UAV Videos)數(shù) 據(jù) 集[120]:Malaviya National Institute of Technology Jaipur于2020年提出的用于運(yùn)動(dòng)目標(biāo)檢測(cè)的大型視頻數(shù)據(jù)集,包含30段視頻,10 948個(gè)代表幀,標(biāo)注了約89 783個(gè)運(yùn)動(dòng)目標(biāo),分辨率從1 280×720到1 920×1 080不等。收集場(chǎng)景包括大量車輛出現(xiàn)的立交橋、停車場(chǎng)和交通信號(hào)交叉口的目標(biāo)稠密地區(qū)以及森林、農(nóng)業(yè)和其他背景復(fù)雜的目標(biāo)稀少地區(qū)。數(shù)據(jù)集涵蓋了各種場(chǎng)景,包括遮擋、夜間、天氣變化、相機(jī)運(yùn)動(dòng)、變化的高度、不同的相機(jī)視圖和角度等各種具有挑戰(zhàn)性的場(chǎng)景,可用于多目標(biāo)檢測(cè)與跟蹤任務(wù)。目標(biāo)最小標(biāo)注框?yàn)?×6,最大為181×106。

        Drone Vehicle數(shù)據(jù)集[121]:天津大學(xué)于2020年提出的目標(biāo)檢測(cè)和計(jì)數(shù)數(shù)據(jù)集,由配備攝像頭的無人機(jī)捕獲RGB和熱紅外圖像,包含15 532對(duì)圖像,涵蓋照明、遮擋和比例變化,分辨率為840×712,拍攝范圍包括城市道路、住宅區(qū)、停車場(chǎng)、高速公路等。

        AU-AIR (A Multi-modal Unmanned Aerial Vehicle)數(shù)據(jù)集[122]:Aarhus University于2020年通過多模式傳感器(即視覺、時(shí)間、位置、高度、IMU、速度)進(jìn)行采集到的數(shù)據(jù)集,包含8段視頻,共計(jì)32 823個(gè)提取幀,分辨率1 920×1 080。數(shù)據(jù)集8種目標(biāo)類型,包括人、汽車、公共汽車、面包車、卡車、自行車、摩托車和拖車,均可用于靜態(tài)或視頻目標(biāo)檢測(cè)。數(shù)據(jù)集涵蓋了一天中所有時(shí)間段和天氣條件(陽光充足、部分陽光充足、多云)導(dǎo)致的各種照明條件。飛行高度在10、20和30 m之間變化,相機(jī)角度從45°調(diào)整到90°(垂直于地球)。同時(shí)在注釋時(shí)將邊界框重疊超過75%的目標(biāo)進(jìn)行合并。

        MOHR (Multi-Scale Object Detection in High Resolution UAV Images)數(shù) 據(jù) 集[123]:該數(shù)據(jù)集在郊區(qū)、山區(qū)、雪地和沙漠地區(qū)采集。包括3 048幅分辨率為5 482×3 078的圖像、5 192幅分辨率為7 360×4 912的圖像和2 390幅分辨率為8 688×5 792的圖像。標(biāo)注了90 014個(gè)帶有標(biāo)簽和邊界框的目標(biāo),其中包括25 575輛汽車、12 957輛卡車、41 468棟建筑、7 718處洪水破壞和2 296處坍塌,包含了目標(biāo)的尺度變化。建筑類別注釋側(cè)重于臨時(shí)建筑,這些建筑可能是未經(jīng)批準(zhǔn)的建筑項(xiàng)目,通常有顏色鮮艷、高度較低的鐵屋頂。洪水破壞的陰影總是小于崩塌圖像中的。數(shù)據(jù)集將覆蓋0.05%或更少像素的目標(biāo)定義為微小目標(biāo),低于0.5%的目標(biāo)定義為小目標(biāo)。數(shù)據(jù)集中97.08%的汽車、77.10%的卡車、31.21%的建筑、86.93%的坍塌和62.37%的洪水破壞為小目標(biāo)。

        UVSD (UAV based Vehicle Segmentation Dataset)數(shù)據(jù)集[53]:基于UAV的車輛分割數(shù)據(jù)集,該數(shù)據(jù)集包括5 874幅圖像,具有多個(gè)格式注釋,其中98 600個(gè)目標(biāo)實(shí)例具有高質(zhì)量的實(shí)例級(jí)語義注釋。圖像分辨率從960×540到5 280×2 970像素不等。目標(biāo)包含視點(diǎn)變化、大規(guī)模變化、局部遮擋、密集分布、照明變化等特點(diǎn)。數(shù)據(jù)集除了常規(guī)的像素級(jí)實(shí)例注釋和水平方向邊界框的注釋格式外,還增加了OBB(Orientated Bounding Box)格式的標(biāo)注,其邊界框?yàn)橄鄬?duì)于坐標(biāo)軸方向任意的最小的長(zhǎng)方形,方向具有任意性,可以根據(jù)被包圍目標(biāo)的形狀特點(diǎn)盡可能緊密地包圍目標(biāo)。若車輛目標(biāo)的截?cái)嗦食^80%,則無需對(duì)該車輛進(jìn)行標(biāo)記和測(cè)試。

        表7列舉了面向UAV視角的多目標(biāo)檢測(cè)與跟蹤的主流數(shù)據(jù)集。部分?jǐn)?shù)據(jù)集樣例如圖6所示,MTD代表多目標(biāo)檢測(cè)任務(wù),MOT代表多目標(biāo)跟蹤任務(wù)。

        表7 面向UAV視角的多目標(biāo)檢測(cè)與跟蹤的主流數(shù)據(jù)集Table 7 Main data set of multi object detection and tracking for UAV

        圖6 常用數(shù)據(jù)集示例Fig.6 Example of common datasets

        4.2 評(píng)價(jià)指標(biāo)

        混淆矩陣是深度學(xué)習(xí)模型問題的評(píng)價(jià)基礎(chǔ),可更全面地評(píng)價(jià)預(yù)測(cè)結(jié)果,統(tǒng)計(jì)正確和不正確預(yù)測(cè)的數(shù)量,并按照類別進(jìn)行細(xì)分。混淆矩陣在進(jìn)行預(yù)測(cè)結(jié)果判定時(shí)不僅能展示模型的缺點(diǎn),還能了解發(fā)生錯(cuò)誤的類型,降低僅使用分類準(zhǔn)確率所帶來的制約。混淆矩陣如圖7所示。

        圖7 混淆矩陣Fig.7 Confusion matrix

        TP:檢測(cè)值與真實(shí)值相同,均為正樣本;TN:檢測(cè)值與真實(shí)值相同,均為負(fù)樣本;FP:檢測(cè)值與真實(shí)值不同,檢測(cè)值為正樣本;FN:檢測(cè)值與真實(shí)值不同,檢測(cè)值為負(fù)樣本。在混淆矩陣的基礎(chǔ)上,針對(duì)多目標(biāo)檢測(cè)與多目標(biāo)跟蹤的具體問題,衍生出了多種更高級(jí)的評(píng)價(jià)指標(biāo)。

        4.2.1 多目標(biāo)檢測(cè)評(píng)價(jià)指標(biāo)

        評(píng)價(jià)多目標(biāo)檢測(cè)算法的優(yōu)劣時(shí),主要遵循2個(gè)原則,一是能否正確地預(yù)測(cè)框內(nèi)目標(biāo)的類別,二是預(yù)測(cè)的框和人工標(biāo)注框的重疊比例。在此基礎(chǔ)上設(shè)計(jì)的評(píng)價(jià)指標(biāo)如表8所示,所有指標(biāo)均是值越大,效果越好。

        表8 多目標(biāo)檢測(cè)評(píng)價(jià)指標(biāo)Table 8 Multi object detection evaluation index

        4.2.2 多目標(biāo)跟蹤指標(biāo)

        多目標(biāo)跟蹤的主要目的是在所有視頻幀中找到正確數(shù)量的目標(biāo),并盡可能精確地估計(jì)每個(gè)目標(biāo)的位置,還應(yīng)該隨著時(shí)間的推移保持對(duì)每個(gè)目標(biāo)的一致跟蹤:應(yīng)該為每個(gè)目標(biāo)分配一個(gè)唯一的跟蹤ID,該ID在整個(gè)序列中保持不變。因此多目標(biāo)跟蹤的評(píng)價(jià)指標(biāo)主要遵循以下設(shè)計(jì)標(biāo)準(zhǔn):

        1) 判斷跟蹤器在確定精確目標(biāo)位置時(shí)的精度。

        2) 反映出其隨時(shí)間一致跟蹤目標(biāo)配置的能力,即正確跟蹤目標(biāo)軌跡,每個(gè)目標(biāo)只產(chǎn)生一條軌跡。

        針對(duì)此標(biāo)準(zhǔn),Bernardin等提出MOTP、MOTA指標(biāo)[124]。為了判斷跟蹤器是否能夠長(zhǎng)時(shí)間地對(duì)某個(gè)目標(biāo)進(jìn)行準(zhǔn)確地跟蹤,Ristani等引入IDF1、IDP和IDR指標(biāo),以衡量跟蹤器的ID維持能力[125]。Luiten等基于Jaccard相似系數(shù)設(shè)計(jì)了HOTA,將精確檢測(cè)、關(guān)聯(lián)和定位的效果綜合到統(tǒng)一的度量中,同時(shí)分解為一系列子度量,能夠單獨(dú)評(píng)估多種基本錯(cuò)誤類型[126]。多目標(biāo)跟蹤評(píng)價(jià)指標(biāo)對(duì)比如表9所示,帶有“↑”的指標(biāo)表示數(shù)值越大效果越好,帶有“↓”的指標(biāo)表示數(shù)值越小效果越好。

        表9 多目標(biāo)跟蹤評(píng)價(jià)指標(biāo)Table 9 Multi object tracking evaluation indicators

        4.3 VisDrone Challenge挑戰(zhàn)賽

        VisDrone Challenge挑戰(zhàn)賽由計(jì)算機(jī)視覺會(huì)議ICCV(International Conference on Computer Vision)與ECCV(European Conference on Computer Vision)舉辦,數(shù)據(jù)集由天津大學(xué)機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘?qū)嶒?yàn)室的AISKYEYE團(tuán)隊(duì)收集,設(shè)置了針對(duì)無人機(jī)視角下的目標(biāo)檢測(cè)與跟蹤的多條賽道,VisDrone數(shù)據(jù)集也成為無人機(jī)領(lǐng)域標(biāo)桿數(shù)據(jù)集,業(yè)界多篇論文也采用此數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)驗(yàn)證與性能對(duì)比。VisDrone挑戰(zhàn)賽側(cè)重于不同特點(diǎn)的無人機(jī)目標(biāo)檢測(cè)與跟蹤問題。包括:① 基于圖像的目標(biāo)檢測(cè),旨在從無人機(jī)拍攝的單幅圖像中檢測(cè)預(yù)定類別的目標(biāo);② 基于視頻的目標(biāo)檢測(cè),該任務(wù)與基于圖像的目標(biāo)檢測(cè)類似,但需從視頻中檢測(cè)目標(biāo);③ 單目標(biāo)跟蹤,估計(jì)單個(gè)目標(biāo)在后續(xù)視頻幀中的狀態(tài);④ 多目標(biāo)跟蹤,旨在恢復(fù)每個(gè)視頻幀中目標(biāo)的軌跡。表10和表11分別展示了VisDrone挑戰(zhàn)賽2018―2021年多目標(biāo)檢測(cè)與多目標(biāo)跟蹤賽道排名前5的算法與評(píng)估結(jié)果。

        表10 VisDrone挑戰(zhàn)賽多目標(biāo)檢測(cè)競(jìng)賽結(jié)果評(píng)估Table 10 Evaluation of multi object detection competition results of VisDrone Challenge

        多目標(biāo)檢測(cè)競(jìng)賽結(jié)果表明,多個(gè)網(wǎng)絡(luò)的組合可有效提高目標(biāo)檢測(cè)的準(zhǔn)確性。Cascade RCNN和YOLO V5分別成為雙階段和單階段的最優(yōu)檢測(cè)框架。在此基礎(chǔ)上采用了一些有效的策略來獲得更好的精確度,如注意機(jī)制、雙頭網(wǎng)絡(luò)、分層設(shè)計(jì)等。精確度最高的檢測(cè)網(wǎng)絡(luò)基于Cascade R-CNN實(shí)現(xiàn),通過級(jí)聯(lián)細(xì)化框獲得更好的定位性能。此外,將卷積替換成Transformer的TPH-YOLO V5與Swin-T網(wǎng)絡(luò)也取得了不錯(cuò)的成績(jī)。但mAP的最佳分?jǐn)?shù)仍低于40%,在實(shí)際應(yīng)用中要取得優(yōu)異的性能還任重道遠(yuǎn)。此外,由于無人機(jī)平臺(tái)上的資源有限,需進(jìn)一步考慮網(wǎng)絡(luò)的計(jì)算復(fù)雜度。

        多目標(biāo)跟蹤競(jìng)賽提交的結(jié)果顯示,成績(jī)最好的跟蹤框架都是以TBD框架,并對(duì)特征處理進(jìn)行了一些修改。成績(jī)最優(yōu)的目標(biāo)檢測(cè)器都是基于雙階段檢測(cè)器Cascade R-CNN的檢測(cè)結(jié)果。為了適應(yīng)具有眾多小目標(biāo)的VisDrone數(shù)據(jù),不僅利用了目標(biāo)的外觀特征表示,還利用了單個(gè)目標(biāo)跟蹤器或其他低級(jí)運(yùn)動(dòng)模式的時(shí)間一致性信息。因此,基于相似性計(jì)算的重識(shí)別結(jié)果對(duì)于開發(fā)高性能MOT算法至關(guān)重要。同時(shí)由于TBD框架的性能在很大程度上受檢測(cè)器的影響,構(gòu)建一個(gè)性能優(yōu)異的檢測(cè)器非常重要。

        5 面臨的問題與挑戰(zhàn)

        近年來,隨著深度學(xué)習(xí)及計(jì)算機(jī)硬件的發(fā)展,基于無人機(jī)航拍視頻的多目標(biāo)檢測(cè)與跟蹤取得了長(zhǎng)足進(jìn)步,但仍面臨著多種挑戰(zhàn):

        1) 原始視頻中的噪聲干擾。UAV視角下的視頻容易因目標(biāo)交互、UAV移動(dòng)、環(huán)境變化等原因引入大量噪聲,視頻中的噪聲可能會(huì)嚴(yán)重影響目標(biāo)檢測(cè)過程或MOT以及視頻處理的其他階段。

        2) 目標(biāo)形狀及運(yùn)動(dòng)復(fù)雜。由于形狀和位置的不同,目標(biāo)可能會(huì)根據(jù)其在現(xiàn)實(shí)世界中的規(guī)則進(jìn)行不同的運(yùn)動(dòng)或呈現(xiàn)多種姿態(tài)。例如,行人可以走、跑、站或坐。同時(shí)UAV的高度變化,易造成相同的目標(biāo)在視覺畫面中尺度的變化,對(duì)目標(biāo)的檢測(cè)與跟蹤造成干擾。

        3) 光照陰影。當(dāng)目標(biāo)受到來自照明源的直射光的阻礙時(shí),陰影會(huì)出現(xiàn),陰影也可能會(huì)由于交互或其他目標(biāo)而產(chǎn)生,提升了目標(biāo)的識(shí)別難度。

        4) 光照強(qiáng)度與視點(diǎn)變化。在像素級(jí)別上,亮度的變化會(huì)對(duì)目標(biāo)的識(shí)別造成干擾,目標(biāo)在各種光照條件下顯示各種顏色,將會(huì)導(dǎo)致檢測(cè)錯(cuò)誤并降低模型的性能。此外,從不同視點(diǎn)看到的目標(biāo)可能看起來完全不同。

        5) 目標(biāo)遮擋。在復(fù)雜場(chǎng)景和擁擠的環(huán)境中,單個(gè)目標(biāo)有可能會(huì)被完全遮擋,或者被背景的一部分遮擋,對(duì)目標(biāo)的檢測(cè)與跟蹤造成干擾,尤其是在長(zhǎng)時(shí)跟蹤過程中,目標(biāo)有可能重新進(jìn)入視野,對(duì)模型的長(zhǎng)時(shí)跟蹤帶來更大挑戰(zhàn)。

        6) 網(wǎng)絡(luò)復(fù)雜度高,實(shí)時(shí)性差。在UAV平臺(tái)上為了滿足視頻處理的實(shí)時(shí)性需求,多目標(biāo)檢測(cè)和跟蹤算法需要有較高的處理速度,對(duì)網(wǎng)絡(luò)的參數(shù)量和計(jì)算復(fù)雜度有了更加嚴(yán)苛的要求。

        7) 數(shù)據(jù)集受限。當(dāng)前可用于UAV視角的多目標(biāo)檢測(cè)與跟蹤的帶注釋數(shù)據(jù)集較少,成為限制網(wǎng)絡(luò)性能的一大瓶頸。

        6 總結(jié)與展望

        本文通過總結(jié)及對(duì)比分析,梳理了近年來UAV視角下多目標(biāo)檢測(cè)與跟蹤領(lǐng)域的研究成果,梳理了近年來在多目標(biāo)檢測(cè)與跟蹤領(lǐng)域的主要技術(shù)路線及最新方法,對(duì)比了各類方法在UAV視角下的應(yīng)用優(yōu)勢(shì)及缺點(diǎn),并介紹了該領(lǐng)域的數(shù)據(jù)集及評(píng)估方法。通過以上總結(jié)和分析,對(duì)后續(xù)的發(fā)展趨勢(shì)和進(jìn)一步研究方向進(jìn)行展望,期望可以提供有價(jià)值的參考。

        目前面向UAV視角的多目標(biāo)檢測(cè)與跟蹤效果良莠不齊,在將傳統(tǒng)視角的優(yōu)秀算法遷移到UAV視角時(shí)仍存在較多有待改進(jìn)之處,在性能提升上仍有較大空間。后續(xù)的研究工作可以多關(guān)注以下幾個(gè)方面:

        1) 依托無監(jiān)督或半監(jiān)督訓(xùn)練模式?,F(xiàn)有的面向UAV視角的多目標(biāo)檢測(cè)與跟蹤數(shù)據(jù)集較少,標(biāo)注成本大?;跓o監(jiān)督學(xué)習(xí)與半監(jiān)督的深度學(xué)習(xí)網(wǎng)絡(luò)訓(xùn)練模式取得了較快發(fā)展,其網(wǎng)絡(luò)訓(xùn)練方式對(duì)標(biāo)注數(shù)據(jù)集需求較少,在處理缺少對(duì)應(yīng)數(shù)據(jù)集的UAV多目標(biāo)檢測(cè)與跟蹤問題上,此方向值得深入研究。

        2) 設(shè)計(jì)有效的跨幀傳播信息機(jī)制。無論是多目標(biāo)檢測(cè)還是跟蹤算法,跨幀傳播信息都是提高它們性能的一個(gè)有效策略。對(duì)跟蹤場(chǎng)景內(nèi)的各目標(biāo)進(jìn)行編碼標(biāo)注,并在幀間傳遞這些物體的信息,可以與更新策略有效聯(lián)合,進(jìn)一步避免引入噪聲。研究跨幀傳播信息機(jī)制是克服長(zhǎng)時(shí)目標(biāo)檢測(cè)與跟蹤困難挑戰(zhàn)的一個(gè)未來研究方向。

        3) 引入對(duì)算力要求較低的模型?;贏nchor-free的檢測(cè)算法與JDT多目標(biāo)跟蹤算法擁有更少的模型參數(shù),能夠在硬件資源較少的移動(dòng)端與邊緣端取得較好效果,更適用于算力受限的UAV平臺(tái),如何將其更好地應(yīng)用到UAV平臺(tái)值得深入研究。

        4) 搭建輕量級(jí)高效的目標(biāo)特征提取網(wǎng)絡(luò)。在進(jìn)行多目標(biāo)跟蹤時(shí),如何在提取到盡可能多的目標(biāo)特征的同時(shí),降低網(wǎng)絡(luò)的復(fù)雜度,將是高效準(zhǔn)確地實(shí)現(xiàn)多目標(biāo)跟蹤數(shù)據(jù)關(guān)聯(lián)的重要環(huán)節(jié)。

        5) 借助多模態(tài)數(shù)據(jù)。在進(jìn)行無人機(jī)航拍視頻的多目標(biāo)檢測(cè)與跟蹤時(shí),對(duì)于數(shù)據(jù)的類別選擇上,除了使用常規(guī)的視覺單模態(tài)視頻數(shù)據(jù)之外,可以借助UAV平臺(tái)能夠搭載的慣性處理單元、紅外相機(jī)、景深相機(jī)等多模態(tài)傳感器,實(shí)現(xiàn)多模態(tài)數(shù)據(jù)的采集與應(yīng)用,獲取到更多的數(shù)據(jù)信息,提升檢測(cè)與跟蹤精度。

        猜你喜歡
        航拍特征目標(biāo)
        航拍下的苗圃與農(nóng)場(chǎng)
        中外文摘(2021年10期)2021-05-31 12:10:40
        如何表達(dá)“特征”
        不忠誠的四個(gè)特征
        難忘的航拍
        抓住特征巧觀察
        《航拍中國》美得讓人想哭
        陜西畫報(bào)航拍
        我們的目標(biāo)
        線性代數(shù)的應(yīng)用特征
        河南科技(2014年23期)2014-02-27 14:19:15
        新目標(biāo)七年級(jí)(下)Unit?。尘毩?xí)(一)
        无码ol丝袜高跟秘书在线观看| 97人妻中文字幕总站| 国产精品一区二区黄色| 久久午夜无码鲁丝片午夜精品| 亚洲av无码一区二区三区在线 | 资源在线观看视频一区二区| 免费国产一区二区视频| 69精品人人人人| 少妇内射视频播放舔大片| 国产桃色精品网站| 日韩中文字幕不卡在线| 亚洲日韩国产一区二区三区| 国产精品爽爽va在线观看无码| 日本成熟妇人高潮aⅴ| 羞羞色院99精品全部免| 国产乱子伦| 成年视频国产免费观看| 国产一区二区三区四区色| av天堂最新在线播放| a级毛片免费完整视频| 日本成人一区二区三区| 亚洲av精品一区二区| 欲香欲色天天天综合和网| 国产精品午夜无码av天美传媒| 四虎影视国产884a精品亚洲| 一区二区三区日韩蜜桃| 欧美性猛交xxxx三人| 黄色毛片在线看| 又爽又猛又大又湿的视频| 亚洲成av人片一区二区密柚| 8ⅹ8x擦拨擦拨成人免费视频| 91精品国产91久久久无码色戒| 日本视频在线播放一区二区| 国内精品伊人久久久久网站| 亚洲色在线视频| 亚洲成人免费久久av| 噜噜噜噜私人影院| 两个人看的www高清视频中文| 激情亚洲综合熟女婷婷| 国产一区亚洲二区三区| 国产精品久久毛片av大全日韩 |