亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        無人機影像單目標跟蹤綜述

        2021-10-28 02:25:06張時雨李嘉鋒
        北京工業(yè)大學學報 2021年10期
        關鍵詞:深度特征方法

        卓 力, 張時雨, 張 輝, 李嘉鋒

        (北京工業(yè)大學信息學部, 北京 100124)

        低空無人機作為一種航拍載具,具有成本低、體積小、機動靈活、操縱方便等特點. 近年來,隨著相關技術及產(chǎn)業(yè)的發(fā)展,基于無人機的低空航拍技術得到廣泛應用. 其通過機載高分辨率攝像機和數(shù)據(jù)回傳技術可清晰地捕捉地面目標,成像分辨率可達厘米級[1],對航空遙感和衛(wèi)星遙感形成了有效補充.

        相應地,無人機低空航拍產(chǎn)生的影像數(shù)據(jù)量也隨之急劇增多,僅憑人工判讀的方式對海量數(shù)據(jù)進行解譯費時費力且效率低下. 因此,無人機影像的智能化處理逐漸成為人們研究的熱點,其中無人機影像單目標跟蹤是最具代表的基礎性技術之一,廣泛應用于飛行器制導與導航、交通監(jiān)控、行政執(zhí)法、影視拍攝等多種場景. 它利用高效的圖像視頻處理及視覺計算方法對航拍影像中的目標進行跟蹤,獲取其運動軌跡信息,為后續(xù)高層次的影像智能化分析與處理任務提供基礎.

        由于低空無人機的航拍條件所限,相較于傳統(tǒng)的視頻監(jiān)控、人機交互等應用場景,航拍影像中的目標相對較小,所包含的視覺信息十分有限,這給目標跟蹤帶來了巨大的挑戰(zhàn). 此外,以下因素也將使得無人機航拍影像中的目標跟蹤技術面臨諸多挑戰(zhàn),包括:

        1) 應用場景復雜,易受到天氣、成像設備等因素的影響,導致目標發(fā)生光照變化,運動模糊.

        2) 無人機和目標的相對位置易發(fā)生較大變化,導致目標的尺度、姿態(tài)變化劇烈及部分遮擋和出視野等情況的頻繁發(fā)生.

        3) 航拍拍攝視角廣,使得相似目標增多.

        針對上述問題,學術界和工業(yè)界深入開展了無人機影像單目標跟蹤技術的研究,針對低空航拍影像的自身特點提出了各種解決方案.

        依據(jù)跟蹤目標的數(shù)目以及時限,可以將目標跟蹤分為單目標跟蹤和多目標跟蹤、長時跟蹤和短時跟蹤. 本文對單目標跟蹤的研究進展進行綜述,并通過實驗進行分析、總結(jié)與展望.

        1 無人機影像單目標跟蹤方法

        目標跟蹤是計算機視覺領域的基礎性問題,一直是人們的研究熱點,它是指在起始幀中給定目標的初始邊界框,并在后續(xù)幀中通過跟蹤方法預測目標的邊界框. 圖1給出了一個典型的單目標跟蹤過程,其中:圖1(a)是視頻序列的起始幀,紅色邊界框是待跟蹤的目標;圖1(b)是第t幀的目標跟蹤的結(jié)果可視化,紅色邊界框是手工標注的真實值,綠色邊界框是目標跟蹤算法的預測值. 從實現(xiàn)技術手段上可以將目前的目標跟蹤技術分為基于相關濾波的方法、基于深度學習的方法,以及基于相關濾波和深度學習相結(jié)合的方法三大類.

        圖1 典型的視覺目標跟蹤過程Fig.1 Typical visual object tracking process

        1.1 基于相關濾波的目標跟蹤方法

        1.1.1 相關濾波的基本原理

        f(z)=wTz

        (1)

        定義.相關濾波利用正則化最小二乘法(regularized least squares,RLS)構(gòu)造二次損失L(y,f(x))=(y-f(x))2.研究表明,在許多實際問題中,RLS可以獲得與支持向量機(support vector machine,SVM)相當?shù)姆诸愋阅躘3].利用正則化最小二乘法,可以通過最小化

        (2)

        得到分類器參數(shù)w.式中λ為防止過擬合的正則化參數(shù).相關濾波的跟蹤過程,即是求解分類器參數(shù)w的過程.一般地,基于相關濾波的目標跟蹤算法主要包括如下3個部分.

        1) 初始化模型.

        利用起始幀給定的目標位置和起始幀圖像來求解分類器參數(shù)w.Rifkin等[3]證明式(2)具有封閉解,并且為了方便后續(xù)在頻域計算,其封閉解的復數(shù)形式可由

        w=(XHX+λI)-1XHy

        (3)

        給出.式中XH表示Hermitian轉(zhuǎn)置.求解式(3)涉及高維度矩陣的逆運算,實現(xiàn)中通常利用循環(huán)矩陣性質(zhì)[4-5]避開直接進行復雜的矩陣求逆計算.同時,所有循環(huán)矩陣都是通過離散傅里葉變換(discrete Fourier transform,DFT)對角化得到的.對于任意的生成向量x,可以由

        (4)

        得到其循環(huán)矩陣X.式中:F為不依賴于x的常數(shù)矩陣;^表示向量的DFT變換.對于式(3)中的XHX項,可轉(zhuǎn)化為

        XHX=Fdiag(*)FHFdiag()FH

        (5)

        由于對角矩陣是對稱的,因此,經(jīng)過Hermitian轉(zhuǎn)置只留下一個復數(shù)共軛*.對角矩陣的運算是對應元素運算的,可定義對應元素相乘的運算為⊙.式(3)可以求解為

        (6)

        (7)

        根據(jù)文獻[4]的推導,通過核函數(shù)映射的嶺回歸解可表示為

        α=(K+λI)-1y

        (8)

        式中:K為核函數(shù)矩陣;α為系數(shù)αi的向量,即對偶空間中的解.此時,再次利用循環(huán)矩陣性質(zhì)推導式(8),可以得到

        (9)

        2) 快速定位目標位置.

        對于第t幀,通過濾波模板測試樣本及濾波器參數(shù),利用

        (z)=xz

        (10)

        求得相關濾波響應圖.然后,將響應圖(z)通過離散傅里葉逆變換到時域后,找到響應值最大的位置,即是目標的位置.

        3) 更新模型參數(shù).

        獲得第t幀的目標位置后,在新的目標位置提取新的濾波模板t,然后利用式(9)求解新的濾波器參數(shù)t,最后利用插值法以固定學習率η更新濾波模板以及濾波器參數(shù),即

        =(1-η)t-1+ηt

        (11)

        =(1-η)t-1+ηt

        (12)

        1.1.2 相關濾波算法的發(fā)展

        將相關濾波應用于目標跟蹤的開創(chuàng)性工作是Bolme等[7]在2010年提出的最小輸出誤差平方和(minimum output sum of squared error, MOSSE)算法.作者采用自適應相關濾波器對目標的外觀進行建模,并且利用快速傅里葉變換將卷積計算轉(zhuǎn)換到頻域變?yōu)橄喑耍玫巾憫獔D后再轉(zhuǎn)換回時域來求解目標位置.由于使用了快速傅里葉變換,MOSSE處理視頻的速度達到了615幀/s.但該方法的跟蹤精度優(yōu)勢并不突出,直至2013年Henriques等[8]在MOSSE的基礎上提出了基于核函數(shù)的跟蹤- 檢測循環(huán)結(jié)構(gòu)(circulant structure of tracking-by-detection with kernels, CSK)算法,將跟蹤問題轉(zhuǎn)化為求解線性分類器參數(shù),并利用循環(huán)矩陣的性質(zhì)避開矩陣逆運算推導出封閉解.計算過程同樣是利用了快速傅里葉變換在頻域求解,最后還利用核函數(shù)將輸入映射到高維特征空間,進一步提升算法的性能.同時,由于循環(huán)矩陣的引入,隱式地帶來了大量類似滑動窗密集采樣[9]的學習樣本,所以CSK的運算速度相比MOSSE雖降低到362幀/s,但跟蹤精度提升了近50%.

        然而,CSK僅使用了灰度特征,對于無人機影像等復雜場景其性能不夠魯棒.所以,Dalal等[10]在CSK的基礎上引入梯度方向直方圖(histograms of oriented gradients, HOG)特征,構(gòu)建了KCF算法[2],將跟蹤結(jié)果精度提升了近20%.Danelljan等[11]則是在CSK的基礎上引入了目標識別和目標檢測中常用的顏色屬性特征(color names, CN)[12],提升了跟蹤性能.Bertinetto等[13]則提出了Staple跟蹤器,針對復雜場景影像中經(jīng)常出現(xiàn)的目標形變和光照變化情況,設計了2個相關濾波器,分別采用HOG和CN特征,最終通過融合2個濾波器的結(jié)果實現(xiàn)目標跟蹤.

        目標尺度變化在無人機等復雜場景經(jīng)常發(fā)生,但是上述方法均無法做到尺度自適應. 針對這一問題,Li等[14]提出了尺度自適應的多特征跟蹤(scale adaptive with multiple features tracker, SAMF)算法. 該算法采用了多尺度金字塔輸入方式,跟蹤過程中對每一種尺度的輸入都進行相關濾波運算,將響應值最大的作為最終跟蹤結(jié)果. 研究結(jié)果表明,該算法對于不同尺度大小的目標均可以取得良好的跟蹤結(jié)果. Danelljan等[15]提出的判別尺度空間跟蹤(discriminative scale space tracking, DSST)是一種新穎的尺度自適應目標跟蹤算法. 與SAMF算法不同的是,DSST算法設計了2個相關濾波器,即二維的位置濾波器和一維的尺度濾波器. 在當前幀提取目標的HOG和灰度特征與位置濾波器進行相關運算得到目標位置,然后以目標位置為中心,根據(jù)不同尺度提取HOG和灰度特征,并歸一化到同樣大小,再與尺度濾波器進行相關運算,找到響應的最大值,更新目標的尺度. 該算法也可以很好地應對目標的尺度變化問題.

        CSK算法引入的循環(huán)矩陣會帶來負面的邊界效應,從而限制了算法的性能,尤其是在無人機等復雜場景下,目標的快速移動和相機擾動容易加劇邊界效應. 為此,Danelljan等[16]提出了空間正則化判別相關濾波器(spatially regularized discriminant correlation filter, SRDCF)算法,通過對濾波器在空間上的分布進行正則化約束,有效抑制了邊界效應. 但是添加的正則化約束破壞了嶺回歸的封閉解,所以只能通過計算復雜度較高的高斯-塞德爾方法(Gauss-Seidel method)迭代求解最優(yōu)的相關濾波器參數(shù),進而算法的魯棒性有了明顯的提升,但是處理速度降至5 幀/s.

        背景感知相關濾波器(background-aware correla-tion filter, BACF)算法[17]則是通過擴大輸入的圖像塊來緩解邊界效應,但是這樣會使得濾波器過多地學習到背景,因此,對循環(huán)矩陣產(chǎn)生的樣本在空間中利用二值矩陣進行裁剪,進而提高樣本的質(zhì)量以得到更加魯棒的濾波器. 同樣,為彌補BACF的嶺回歸無封閉解問題,作者利用交替方向乘子法(alternating direction method of multipliers, ADMM)[18]進行迭代求解.

        由于相關濾波器參數(shù)需要在線學習,而無人機等復雜場景下頻繁發(fā)生的遮擋、形變、出視野等情況會產(chǎn)生低質(zhì)量的訓練樣本. 如果此時進行濾波器參數(shù)更新則會讓濾波器的可靠性隨時間衰變,因此,如何有效地更新濾波器參數(shù)逐漸成為學者們的研究熱點. 增強記憶相關濾波(augmented memory for correlation filter, AMCF)算法[21]針對此問題,設計了記憶存儲隊列和快速壓縮上下文學習方法,使得濾波器能夠適應目標新外觀的同時記住目標之前的外觀,有效地提高了濾波器的判別能力. 訓練集蒸餾(training-set distillation,TSD)[22]算法則針對濾波器可靠性降低的問題,首先將跟蹤結(jié)果可信度高的幀作為關鍵幀,將跟蹤過程劃分為多個時隙. 在建立新的時隙后,對之前的樣本進行加權融合,生成一個關鍵樣本,并通過能量最小化函數(shù)對其進行評分. 當時隙超過一定數(shù)量時,則丟棄評分最低的樣本. 此方法有效地實現(xiàn)了訓練集質(zhì)量的動態(tài)優(yōu)化,進而提高濾波器的魯棒性. Wang等[23]針對無人機視頻目標跟蹤中相關濾波器更新問題,設計了一種基于峰值旁瓣比的快速跟蹤穩(wěn)定性度量方法,并利用此方法自適應地更新濾波器參數(shù)和模板,使得相關濾波算法對目標復雜的外觀變化更加魯棒.

        總的來說,早期的基于相關濾波的目標跟蹤算法運算速度快,便于移植到無人機機載嵌入式處理平臺上進行實時運行,但是跟蹤精度較低,難以滿足高精度的跟蹤需求,而經(jīng)過優(yōu)化后的各種基于相關濾波的目標跟蹤算法在跟蹤精度上有了明顯的提升,隨之帶來的問題是跟蹤速度有了明顯的下降.

        1.2 基于深度學習的目標跟蹤方法

        近年來,隨著無人機技術和圖形處理器(graphics processing unit, GPU)硬件的蓬勃發(fā)展,一些無人機的嵌入式開發(fā)平臺已經(jīng)搭載了GPU,例如Nvidia公司的Jetson系列開發(fā)平臺,這使得無人機機載平臺運行深度學習模型進行影像的在線處理成為可能. 鑒于深度學習在目標跟蹤、目標分割等機器視覺任務中取得的巨大突破,學者們提出了各種基于深度學習的目標跟蹤方法,總的可以分為基于孿生網(wǎng)絡(siamese neural network,SNN)的目標跟蹤方法、基于分類卷積神經(jīng)網(wǎng)絡(convolutional neural networks, CNN)的目標跟蹤方法以及基于多任務學習的目標跟蹤方法等. 下面對這些方法進行綜述.

        1.2.1 基于SNN的目標跟蹤方法

        近年來,SNN被廣泛應用于視覺目標跟蹤. 對于給定的目標區(qū)域和搜索區(qū)域圖像對,SNN利用相同的計算函數(shù)將目標區(qū)域和搜索區(qū)域編碼到同一特征空間,然后通過一些運算生成響應圖或邊框回歸系數(shù),進而得到跟蹤結(jié)果. SNN能夠自動學習到一種相似性度量,因此,推廣性好,并且大多數(shù)算法可以滿足實時性處理的需求.

        基于SNN的目標跟蹤方法的共同目標是克服預訓練CNN的局限性,充分利用端到端的離線學習進行實時目標跟蹤. SNN的基本框架如圖2所示,其中:z為從參考幀裁剪的包含有目標的圖像塊;x為根據(jù)上一幀結(jié)果對當前幀裁剪的可能包含目標的搜索區(qū)域塊;φ為主干網(wǎng)路,一般是利用CNN實現(xiàn)特征提取操作,常用的CNN主干網(wǎng)絡包括AlexNet[24]、VGGNet[25-26]和ResNet[27]等;⊙代表不同孿生網(wǎng)絡的特征運算,得到特定任務的預測值,用于獲得最終的跟蹤結(jié)果.

        圖2 孿生網(wǎng)絡基本框架結(jié)構(gòu)Fig.2 Basic diagram structure of siamese neural network

        基于回歸網(wǎng)絡的通用目標跟蹤(generic object tracking using regression networks, GOTURN)[28]算法采用CaffeNet[29]作為CNN主干網(wǎng)絡,分別提取前一幀目標區(qū)域和當前幀搜索區(qū)域的特征,經(jīng)過一系列全連接層預測當前幀的邊界框回歸系數(shù),最后利用邊界框回歸系數(shù)和上一幀的預測的邊界框得到當前幀的跟蹤結(jié)果.

        孿生區(qū)域候選網(wǎng)絡(siamese region proposal network, SiamRPN)[30]則將跟蹤問題轉(zhuǎn)化為局部區(qū)域的檢測問題. 首先,通過孿生網(wǎng)絡提取目標特征和局部搜索區(qū)域特征;然后,利用區(qū)域候選網(wǎng)絡(region proposal network, RPN)對每一個候選區(qū)域進行前景背景的分類打分和邊界框回歸;最終,利用余弦窗和尺度懲罰挑選最優(yōu)的候選區(qū)域作為目標的位置和大小. 這種方式可以巧妙地將目標檢測網(wǎng)絡用于目標跟蹤,使得SiamRPN的性能優(yōu)于大多數(shù)基于相關濾波的目標跟蹤方法. Zhu等[31]在SiamRPN的基礎上提出了一種數(shù)據(jù)增強的方法,能夠改善訓練數(shù)據(jù)中的非語義背景和具有語義的干擾物背景的數(shù)據(jù)不平衡問題,利用改善后的訓練數(shù)據(jù)對SiamRPN重新進行訓練,構(gòu)建了干擾感知的孿生區(qū)域候選網(wǎng)絡(distractor-aware SiamRPN, DaSiamRPN),使得算法的跟蹤精度有所提升. 任珈民等[32]則針對SNN只使用參考幀而不更新模型參數(shù)的不足,基于SiamRPN設計了一個可在線進行訓練的SNN模型,并且通過在SNN主干網(wǎng)絡中加入擠壓和激勵(squeeze and excitation, SE)[33]模塊來增強對任務有幫助的通道特征,進一步提升網(wǎng)絡的特征表征能力,從而提升跟蹤性能.

        Zhang等[34]從CNN主干網(wǎng)絡的角度出發(fā),對影響SNN跟蹤精度的因素進行了系統(tǒng)的研究,并且得出結(jié)論:卷積過程中的填充操作會對跟蹤結(jié)果產(chǎn)生負面影響. 為了消除這一影響,作者提出了自裁殘差(cropping-inside residual, CIR)單元,并且利用CIR成功訓練了采用ResNet-18等[27]作為主干網(wǎng)絡的SiamFC和SiamRPN算法. Li等[35]同樣通過實驗發(fā)現(xiàn),卷積過程中的填充操作破壞了網(wǎng)絡的平移不變性,會導致網(wǎng)絡學習到位置偏差. 作者據(jù)此提出了SiamRPN++算法. 在訓練過程中,不再把正樣本塊放在圖像正中心,而是按照均勻分布的采樣方式讓目標在中心點附近進行偏移,進而緩解填充操作帶來的負面影響.

        孿生全卷積網(wǎng)絡(siamese fully convolutional, SiamFC)[36]采用AlexNet作為CNN主干網(wǎng)絡進行特征提取,然后將目標區(qū)域的特征和搜索區(qū)域的特征進行互相關運算,得到響應圖. 將響應圖的最大值作為目標的位置,根據(jù)多尺度輸入獲取目標的尺度. 由于其采用了全卷積的網(wǎng)絡結(jié)構(gòu),獲得了模型復雜度、計算效率與跟蹤性能的較好折中. 基于殘差注意力的孿生網(wǎng)絡(residual attentional siamese network, RASNet)[37]在SiamFC的基礎上加入了空間注意力、通道注意力以及殘差注意力機制,使得跟蹤精度和魯棒性進一步得到優(yōu)化.

        總的來說,基于SNN的目標跟蹤方法在應對無人機影像中的目標尺度變化、縱橫比變化和目標旋轉(zhuǎn)情況時,能取得較為魯棒的跟蹤性能.

        1.2.2 基于分類CNN的目標跟蹤方法

        該類方法的基本思想是將視頻幀分為背景和目標區(qū)域,因此,將目標跟蹤轉(zhuǎn)化為分類問題. 多域網(wǎng)絡(multi-domain network, MDNet)算法[38]設計了一個包括3層卷積層和3層全連接層的輕型CNN結(jié)構(gòu),對候選樣本進行目標與背景的二元分類. 該方法的核心是引入了多域?qū)W習(multi-domain learning)策略,即對每一個新的影像序列,MDNet模型的最后一個全連接層需重新建立. 在離線訓練過程中,對于每一個視頻序列首先重建最后一個全連接層,然后根據(jù)目標位置生成一定數(shù)量的正負樣本,通過網(wǎng)絡進行分類,不斷迭代學習網(wǎng)絡參數(shù). 在跟蹤過程中,固定3個卷積層的參數(shù),在線訓練前2個全連接層和新建立的全連接層. 對于起始幀,產(chǎn)生正樣本和負樣本,并在后續(xù)幀中維護一個在線的樣本集. 雖然MDNet的跟蹤精度高,但由于需要判讀大量重復的候選樣本且模型須在線更新,使得該方法的運算復雜度高,現(xiàn)有硬件難以實現(xiàn)實時處理.

        Nam等[39]從模型的可靠性問題角度出發(fā),指出現(xiàn)階段大部分算法的假設是模型一直是可靠的,每一幀都進行參數(shù)更新. 然而,當目標受到遮擋或者消失在視場時,模型再進行更新就會導致跟蹤的可靠性降低. 為此,作者在MDNet的基礎上提出了一種樹形結(jié)構(gòu),用于在跟蹤過程中維護多個CNN模型,這樣有助于提高目標外觀建模的可靠性. 通過對多個CNN的分類分數(shù)加權平均得到每個候選區(qū)域的分數(shù),進而得到跟蹤結(jié)果.

        基于檢測算法的mobilenet跟蹤器(mobilenet-based tracking by detection algorithm, MBMD)[40]將SiamRPN的思想和MDNet相結(jié)合,通過RPN產(chǎn)生目標的大量候選區(qū)域,然后將候選區(qū)域送入驗證網(wǎng)絡進行分類打分,獲得最終的跟蹤結(jié)果. 當跟蹤置信度很低時,通過滑動窗在全圖尋找目標.

        1.2.3 基于多任務學習的目標跟蹤方法

        該類方法是采用多任務學習策略,通過共享隱含在多個相關任務中的知識來提升各個任務的性能,從而提高學習的效率.

        基于重疊最大化的精確跟蹤(accurate tracking by overlap maximization, ATOM)算法[41]將跟蹤任務分解為目標分類任務和目標估計任務,2個任務共享ResNet-18主干網(wǎng)絡的特征. 對于目標分類任務,作者認為在線學習更加有效,因此,設計了2個卷積層將ResNet-18的Layer3輸出的特征映射成為一個二維的響應圖,其中響應值最大的位置就是目標的位置. 對于目標估計任務,作者將目標檢測中的交并比網(wǎng)絡(intersection-over-union network, IoU-Net)[42]改造為適用于目標跟蹤任務的結(jié)構(gòu)——指定目標IoU-Net. 在跟蹤過程中,首先通過在線學習的2個卷積層獲得目標的位置,接著在目標位置上產(chǎn)生一些候選區(qū)域,然后用指定目標IoU-Net對候選區(qū)域進行IoU分數(shù)預測,再利用梯度上升最大化IoU分數(shù)精煉候選區(qū)域,最終融合IoU較優(yōu)的候選區(qū)域獲得跟蹤結(jié)果.

        Zhang等[43]針對無人機場景下目標易發(fā)生遮擋、出視野等情況,在ATOM的基礎上嵌入了SE模塊[33]以及重定位模塊,使得算法在目標丟失后能夠再次被定位.

        Wu等[44]針對無人機影像中出視野的情況將目標跟蹤任務分解為分類任務和邊界框回歸任務,利用MDNet對可能的目標樣本進行分類,利用SiamRPN++進行候選區(qū)域邊界框回歸. 2個網(wǎng)絡并不相互獨立,而是通過一個判別策略,根據(jù)2個算法的候選區(qū)域分類分數(shù)決定是擴大搜索區(qū)域還是全圖尋找目標.

        綜上所述,早期的深度學習目標跟蹤方法由于多采用分類CNN網(wǎng)絡結(jié)構(gòu),在性能上略遜于相關濾波跟蹤方法. 但近幾年,隨著深度學習的發(fā)展和學者們的深入研究,針對目標跟蹤任務而設計的網(wǎng)絡結(jié)構(gòu)逐漸呈現(xiàn)出多樣化. 例如,從早期的GOTURN到性能較好的SiamRPN,再到如今性能領先的SiamRPN++和ATOM,基于深度學習的目標跟蹤方法克服了只能使用淺層網(wǎng)絡的限制,同時還遷移了目標檢測任務中的模型,并針對目標跟蹤任務進行了改進. 實驗對比結(jié)果表明,基于深度學習的目標跟蹤方法已超越大部分基于相關濾波的方法,通過海量數(shù)據(jù)進行端到端離線訓練的優(yōu)勢正在逐漸顯現(xiàn). 然而,此類方法一般需要GPU硬件進行加速才可能達到實時處理的要求. 為了滿足實際應用需求,通常需要利用網(wǎng)絡剪枝、蒸餾等模型壓縮方法降低模型的計算復雜度,進而適配到無人機影像處理平臺上.

        1.3 相關濾波與深度學習相結(jié)合的目標跟蹤方法

        1.3.1 相關濾波與深度卷積特征結(jié)合

        鑒于深度學習具有強大的特征表達能力和上下文信息提取能力,而相關濾波方法具有簡潔、高效的特點,學者們也開始嘗試將兩者相結(jié)合以實現(xiàn)復雜場景中的目標跟蹤.

        Danelljan等[45]深入研究了VGGNet-2048[26]中間層卷積特征對相關濾波算法跟蹤精度的影響. 實驗結(jié)果表明,VGGNet-2048的第1個卷積層比較適用于相關濾波算法,并基于SRDCF構(gòu)建了跟蹤器DeepSRDCF,實現(xiàn)了從傳統(tǒng)手工特征到單層深度特征的升級,顯著提升了跟蹤性能. 同一時期,分層卷積特征跟蹤器(hierarchical convolutional features tracker, HCF)[46]也將相關濾波與深度卷積特征相結(jié)合,但不同的是,HCF利用了CNN的高層語義特征和低層的紋理特征,即VGG-19[25]的conv5-4、conv4-4和conv3-4卷積層特征,并通過雙線性插值將3層的特征調(diào)整為同一分辨率,然后分別訓練3個相關濾波器. 最后,將3個響應圖以固定權重1.00、0.50、0.02的線性加權法合并為最終響應圖,最大響應點即為目標位置. 但是,由于雙線性插值帶來的精度損失以及沒有針對邊界效應進行優(yōu)化,HCF的跟蹤性能遠低于DeepSRDCF.

        連續(xù)卷積算子跟蹤器(continuous convolution operator tracker, C-COT)[47]將DeepSRDCF的單層深度特征擴展為多層深度特征(VGGNet-2048的layer1和layer5). 為了解決不同中間層輸出特征圖分辨率不同的問題,提出了連續(xù)空間域插值轉(zhuǎn)換操作,在訓練濾波器之前通過頻域隱式插值將特征圖插值到連續(xù)空域,方便集成不同分辨率的特征圖以保持目標定位的高精度. 目標函數(shù)通過共軛梯度下降法進行迭代優(yōu)化,比高斯- 塞德爾法速度更快.

        高效卷積算子(efficient convolution operators, ECO)[48]在C-COT的基礎上,從3個方面進行了優(yōu)化:一是提出了一種因子卷積算子,去除了對跟蹤過程沒有貢獻的濾波器,進而解決模型過大的問題;二是提出了一個更為緊湊的生成模型去除大量相似的冗余樣本,減少樣本數(shù)量,簡化訓練集;三是減少模型更新頻率來加快速度,對抗模型漂移. 經(jīng)過這些優(yōu)化操作,ECO的處理速度可以達到6幀/s且精度遠超C-COT. 李國友等[49]對ECO的模型更新策略進行優(yōu)化,加入了遮擋檢測算法和目標重定位算法,為ECO的相關濾波器提供可靠的參數(shù)更新時機,進而提高模型的可靠性.

        關鍵濾波器感知目標跟蹤(keyfilter-aware object tracking, KAOT)算法[50]在BACF的基礎上引入了CN特征和VGGNet-2048的深度卷積特征,還針對無人機場景提出了keyfilter的思想,通過周期性選擇關鍵幀生成keyfilter用于學習上下文,進而引導相關濾波器的訓練. 這種方法在防止濾波器模板被污染的同時,還將上下文信息傳遞給所有濾波器,從而獲得較好的跟蹤性能.

        1.3.2 相關濾波與深度網(wǎng)絡模型的結(jié)合

        還有一些研究工作將相關濾波與多種形式的CNN網(wǎng)絡進行融合,實現(xiàn)了更為有效的時空特征提取、表達及度量.

        CFNet[51]在SiamFC的基礎上,將相關濾波嵌入到CNN中,作為中間的一層用于目標跟蹤. 在訓練過程中,采用最小二乘法求解相關濾波運算層參數(shù);在跟蹤過程中,采用原始的相關濾波方法進行跟蹤. 作者還考慮到了邊界效應,在相關濾波運算層之后添加了一個裁剪層裁剪出中間區(qū)域. Wang等[52]也提出了將相關濾波融入到CNN網(wǎng)絡結(jié)構(gòu)中,并命名為判別相關濾波器網(wǎng)絡(discriminant correlation filters network, DCFNet). DCFNet在跟蹤過程中采用漸進式增量學習方法更新濾波器參數(shù),因此,跟蹤過程的DCFNet也可以看作是一種循環(huán)神經(jīng)網(wǎng)絡(recurrent neural network,RNN).

        基于上下文感知深度特征壓縮和多自編碼器的跟蹤器(tracker based on context-aware deep feature compression with multiple auto-encoders, TRACA)[53]訓練一組無監(jiān)督自編碼器(auto encoder,AE). 在跟蹤階段,通過訓練好的上下文感知器挑選合適的自編碼器對目標的深度特征進行編碼,并將編碼后的特征應用于相關濾波,對目標進行跟蹤.

        Choi等[54]提出了一種注意力相關濾波網(wǎng)絡(attentional correlation filter network, ACFNV)用于進行目標跟蹤. 該網(wǎng)絡由2個主要部分組成:相關濾波器組和注意力網(wǎng)絡. 根據(jù)跟蹤目標的動態(tài)特性,由注意力網(wǎng)絡自適應選擇最優(yōu)濾波器子集對目標進行跟蹤,可以獲得更優(yōu)的跟蹤性能.

        綜上所述,由于CNN的模型參數(shù)是通過海量數(shù)據(jù)進行端到端離線訓練獲得,在訓練過程中,學者們還利用圖像的平移、旋轉(zhuǎn)、縮放、隨機遮擋、噪聲擾動以及改變色差等方式增強數(shù)據(jù),使得深度特征相比于傳統(tǒng)手工特征能夠更好地應對無人機場景下可能同時出現(xiàn)的目標旋轉(zhuǎn)、遮擋和光照變化等復雜情況. 所以,上述方法將相關濾波中的傳統(tǒng)手工特征替換為深度卷積特征后都獲得了不同程度的性能提升. 然而,深度特征相比于傳統(tǒng)手工特征具有更高的特征維度且存在一定冗余,上述方法在使用深度特征的過程中,多數(shù)使用特征降維或利用某些策略挑選合適的深度特征用于相關濾波以減少模型參數(shù),提升算法的運算速度和魯棒性.

        2 性能評價標準

        數(shù)據(jù)集主要用于對算法的性能進行評估和驗證. 本節(jié)首先介紹幾種目前最常用的無人機影像目標跟蹤公共數(shù)據(jù)集,然后介紹跟蹤性能評價指標.

        2.1 數(shù)據(jù)集

        規(guī)范、豐富、有標注的真實場景數(shù)據(jù)是開展視覺計算研究的關鍵要素. 近年來,學者們陸續(xù)發(fā)布了多個針對無人機影像目標跟蹤的數(shù)據(jù)集,代表性的數(shù)據(jù)集見表1.

        表1 幾種常用的無人機影像目標跟蹤數(shù)據(jù)集Table 1 Several public UAV imagery object tracking datasets

        2.1.1 UAVDT數(shù)據(jù)集

        UAVDT數(shù)據(jù)集[55]是面向多種視覺計算任務的數(shù)據(jù)集,包括目標檢測、多目標跟蹤和單目標跟蹤. 對于單目標跟蹤任務,UAVDT提供了17個不同場景的50個視頻序列,每個視頻進行了8個屬性的標注,分別是背景雜亂(background clutter,BC)、相機旋轉(zhuǎn)(camera rotation,CR)、目標旋轉(zhuǎn)(object rotation OR)、小目標(small object,SO)、光照變化(illumination variation,IV)、運動模糊(object blur,OB)、尺度變化(scale variation,SV)和遮擋(large occlusion,LO). 視頻序列中的目標種類有車輛、行人等,并且每幀數(shù)據(jù)都精準地標注了目標的矩形外邊框.

        2.1.2 UAV123數(shù)據(jù)集

        UAV123數(shù)據(jù)集是Mueller等[56]在2016年發(fā)布的單目標視覺跟蹤數(shù)據(jù)集. 它包含長時跟蹤和短時跟蹤2個子任務,其中長時跟蹤有20個視頻序列,短時跟蹤則是將長時跟蹤分割成子序列后再添加其他序列組成的123個視頻序列. 每個視頻擁有12個視頻屬性,分別為縱橫比變化、背景雜亂、相機擾動、快速移動、全部遮擋、光照變化、低分辨率、出視野、部分遮擋、相似目標、尺度變化和視角變化. 視頻序列中的目標種類有轎車、卡車、行人、船只等,并且每幀都有目標標注.

        2.1.3 DTB70數(shù)據(jù)集

        DTB70數(shù)據(jù)集[57]同樣也是單目標視覺跟蹤數(shù)據(jù)集. 數(shù)據(jù)集包含70個視頻序列,總幀數(shù)約16 000,適合于短時跟蹤任務. 每個序列有11個視頻屬性標注,分別為相機擾動、尺度變化、遮擋、出視野、相似目標、縱橫比變化、背景擾動、目標變形、平面內(nèi)旋轉(zhuǎn)、平面外旋轉(zhuǎn)和運動模糊. 視頻序列中的目標種類有行人、車輛和動物等地面目標.

        2.1.4 VisDrone數(shù)據(jù)集

        VisDrone2018數(shù)據(jù)集是Zhu等[58]提出的用于無人機視覺挑戰(zhàn)賽的數(shù)據(jù)集,共有4個任務,分別為圖像目標檢測、視頻目標檢測、多目標跟蹤和單目標跟蹤. 對于單目標視覺跟蹤任務,VisDrone2018提供了167個視頻序列,包含139 276個完全注釋的幀,分為4個子集,即訓練集(86個序列,共69 941幀)、驗證集(11個序列,共7 046幀)、測試挑戰(zhàn)集(35個序列,共29 367幀)和測試開發(fā)集(35個序列,共32 922幀). 測試挑戰(zhàn)集是指在VisDrone2018單目標跟蹤挑戰(zhàn)賽中提交的算法需要驗證的數(shù)據(jù)集.

        VisDrone2019[59]是2019年提出的數(shù)據(jù)集,其中單目標跟蹤任務是在VisDrone2018測試挑戰(zhàn)數(shù)據(jù)集基礎上添加了25個新視頻序列,共82 644幀,用于VisDrone2019單目標跟蹤挑戰(zhàn)賽.

        VisDrone兩個數(shù)據(jù)集中每個視頻均具有12個屬性,其屬性定義與UAV123數(shù)據(jù)集相同. 視頻中目標的種類為行人、車輛和動物.

        2.2 性能評價指標

        無人機影像目標跟蹤數(shù)據(jù)集普遍采用OTB2013[60]中的評價準則. 在評估算法時對每一個序列使用一次通過評估(one-pass evaluation,OPE)方法,即從起始幀初始化跟蹤算法開始直至最后一幀,中間如果丟失目標,不會重新初始化跟蹤算法. 跟蹤結(jié)果的評價通常采用精準度曲線圖(precision plot)和成功曲線圖(success plot).

        2.2.1 精準度曲線圖

        2.2.2 成功曲線圖

        (13)

        式中:∩和∪分別為2個邊界框的交集和并集;|·|為區(qū)域中的像素數(shù). 給定重疊分數(shù)閾值0≤Toverlap_score≤1,則成功曲線圖表示St>Toverlap_score的所有幀數(shù)占視頻序列總幀數(shù)的百分比. 一般情況下,使用成功曲線圖的曲線下面積(area under curve,AUC)對跟蹤算法進行排序.

        3 實驗分析討論

        本文選取UAVDT數(shù)據(jù)集[55]中的單目標跟蹤任務數(shù)據(jù)集對目前比較典型的25個目標跟蹤算法進行了評估,這些算法分別為ATOM[41]、ARCF-HC[19]、ADNet[61]、C-COT[47]、CF2[46]、CFNet[51]、CN[11]、ECO[48]、GOTURN[28]、KCF[2]、MDNet[38]、SiamDW[34]、SiamFC[36]、SiamRPN++[35]、Staple[13]、SRDCF[16]、CREST[62]、FCNT[63]、HDT[64]、MCPF[65]、PTAV[66]、SINT[67]、SRDCFdecon[68]、staple_CA[69]和STCT[70]. 本文用于評估算法的實驗平臺為Ubuntu 16.04,擁有Intel Xeon(R) E5-2602 v4 CPU,以及16GB內(nèi)存和Nvidia RTX 2080Ti GPU.

        采用各個跟蹤算法得到的跟蹤成功曲線圖和精準度曲線圖如圖3所示,表2給出了各個跟蹤算法在UAVDT數(shù)據(jù)集不同屬性下的AUC得分統(tǒng)計結(jié)果. 可以看到,目前性能最優(yōu)的前4名跟蹤算法分別為SiamRPN++、ATOM、SiamDW和MDNet,均為基于深度學習的方法. 另外,SiamRPN++和ATOM均采用了多任務學習策略,可以取得目前最優(yōu)的跟蹤性能.

        圖3 不同跟蹤算法在UAVDT數(shù)據(jù)集上的性能曲線Fig.3 Performance curves of different tracking algorithms on UAVDT dataset

        具體來講,對于基于深度學習的方法,由于SiamRPN++將跟蹤問題拆解成邊界框分類和回歸問題,并充分利用深層CNN作為主干網(wǎng)絡對候選區(qū)域進行多級回歸預測,這使得SiamRPN++在包含6個屬性的多個視頻序列上均取得了第1名. 同樣地,ATOM也將跟蹤任務拆解為目標判別和位置估計2個子任務,同時對CNN的中間層特征進行融合,以增強網(wǎng)絡的特征表達能力. 這使得ATOM在包含2個屬性的多個視頻序列上取得了第1名.

        在基于相關濾波的目標跟蹤算法中,ARCF-HC可以獲得最優(yōu)的跟蹤性能. 該算法針對無人機場景,對相關濾波檢測階段產(chǎn)生的響應圖變化率進行限制,進而緩解模型的學習背景,使其在眾多基于相關濾波的跟蹤方法中脫穎而出,獲得第5名.

        對于基于深度學習和相關濾波相結(jié)合的目標跟蹤方法來說,性能最好的ECO算法在總體評估上排名第6. 該方法通過抑制相關濾波邊界效應,采用卷積特征的連續(xù)空間域插值及在線模型更新等策略可以獲得較高的跟蹤精度.

        然而,同樣是基于深度學習的SINT性能卻差強人意,這是由于早期基于深度學習的方法往往采用自建的輕型CNN網(wǎng)絡,無法利用大型的目標檢測數(shù)據(jù)集對網(wǎng)絡進行高效的端到端離線預訓練,造成模型的泛化能力較差. 可以看到,僅使用灰度特征和HOG特征的KCF算法的跟蹤性能甚至要優(yōu)于SINT. FCNT采用了在線訓練的深度學習方法,其性能與MDNet相比相差甚遠,這是更新策略以及在線產(chǎn)生樣本的差異導致的.

        考慮到不同算法的實現(xiàn)依賴于CPU或者GPU,所以本文對所有算法分別在各自依賴的硬件環(huán)境下進行實時性測試,并且取每秒處理幀數(shù)大于25,即認為達到了實時性要求. 所有算法的運行效率評估結(jié)果見表2. 可以看到,在基于深度學習的方法中,需要在線訓練的模型在本實驗GPU硬件環(huán)境下均難以進行實時運算,而大多數(shù)離線訓練的模型則可以在GPU支持下達到實時. 基于相關濾波的方法雖不能通過GPU進行加速運算,但是在CPU環(huán)境下大部分可以實時運算,而其中的小部分則是因為使用迭代求解無法達到實時. 基于深度學習和相關濾波相結(jié)合的一類方法則由于模型規(guī)模大及特征維度高,僅有TRACA、CFNet和DCFNet能達到實時. 需要說明的是,上述實驗算法均針對具體的計算平臺進行了專門的計算優(yōu)化與加速. 如今,一些分類CNN網(wǎng)絡在分類準確率和模型復雜度之間得到了非常好的平衡,例如MobileNetV1[71]、MobileNetV2[72]以及ShuffleNetV2[73]等,其中性能最好的ShuffleNetV2(0.5×)模型參數(shù)僅為1.4 MB,并且在Qualcomm公司的Snapdragon 810 ARM上可以每秒處理57張224×224像素大小的圖像. 這為一些性能優(yōu)異的跟蹤算法在無人機機載嵌入式平臺上的實時實現(xiàn)提供了可行的優(yōu)化方向.

        表2 幾種典型跟蹤算法在UAVDT數(shù)據(jù)集不同視頻屬性下的AUC分數(shù)Table 2 AUC scores of several typical tracking algorithms under different video attributes on UAVDT dataset

        4 總結(jié)與展望

        如前文所述,在無人機航拍影像中,由于拍攝高度的原因會導致目標的尺寸相對較小,所以目標所包含的視覺信息十分有限,無疑給無人機航拍影像的目標跟蹤帶來了巨大的挑戰(zhàn). 未來對于無人機影像目標跟蹤的研究可從以下幾個方面展開:

        1) 多尺度特征融合. 目標的特征提取與表達是視覺跟蹤的核心問題,CNN在此方面已經(jīng)表現(xiàn)了突出的優(yōu)勢. CNN的不同卷積層特征包含了不同層次的紋理和抽象的語義信息,因此,如何有效地對各層特征進行融合,以及各層特征對目標跟蹤精度有著什么樣的影響,都是值得深入研究的問題.

        2) 場景上下文信息的有效挖掘和利用. 無人機影像中的目標尺寸小,包含的視覺信息有限,而場景中的背景信息豐富. 通過利用這些場景的先驗知識,可以降低背景對目標的干擾,進而提升跟蹤的可靠性. 因此,如何充分挖掘無人機航拍影像中的各種時空上下文信息是另一個值得深入研究的問題.

        3) 多源多模態(tài)信息融合. 無人機影像采集時易受到復雜天氣因素的影響,此時僅利用無人機影像中的視覺信息無法獲得理想的跟蹤精度和可靠性,需要利用無人機平臺上的多種傳感器獲得多源、多模態(tài)信息,如GPS、高度計、陀螺儀等,通過融合這些信息來提升影像目標跟蹤的速度和精度.

        4) 在線學習策略. 相關濾波以及一些基于在線學習的深度學習方法獲得的跟蹤性能大不相同,這是由于采用了不同的在線學習策略. 在無人機場景下,目標遮擋、出視野等情況頻繁發(fā)生,如果每幀都更新算法的參數(shù),則會在上述情況發(fā)生時學習到背景,進而降低跟蹤的可靠性. 所以,如何利用在線學習策略、設計相應的更新機制是值得深入探討的問題.

        5) 計算高效的模型. 航拍視頻處理(尤其是飛行器的視覺導航)平臺對目標跟蹤處理的實時性有著很高的要求. 基于深度學習的目標跟蹤方法雖然可以獲得最優(yōu)的跟蹤精度,但是計算復雜度高,嚴重限制了實際應用的場合. 如何降低跟蹤算法的計算復雜度,使其能運行于低功耗、低算力的機載處理平臺,還亟需進行深入的優(yōu)化研究.

        猜你喜歡
        深度特征方法
        深度理解一元一次方程
        如何表達“特征”
        不忠誠的四個特征
        當代陜西(2019年10期)2019-06-03 10:12:04
        深度觀察
        深度觀察
        深度觀察
        抓住特征巧觀察
        可能是方法不對
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        亚洲专区路线一路线二天美| 少妇被猛烈进入中文字幕| 亚洲国产精品嫩草影院久久av| 亚洲精品中文字幕乱码| 国产激情久久久久久熟女老人| 国产美女精品视频线免费播放软件| 欧美私人情侣网站| 无码精品人妻一区二区三区人妻斩 | 国产精品麻豆成人AV电影艾秋| 二区久久国产乱子伦免费精品| 手机免费在线观看日韩av| 成人自慰女黄网站免费大全| 男女猛烈xx00免费视频试看| 300部国产真实乱| 国产精品国语对白露脸在线播放| 色窝综合网| 国产91精品一区二区麻豆亚洲| 人妻精品在线手机观看| аⅴ资源天堂资源库在线| 麻豆久久五月国产综合| 国产一区二区三区高清视频| 国产偷闻女邻居av在线观看| 东京热日本av在线观看| 精品人妻大屁股白浆无码| 97人人模人人爽人人喊电影| 国产白丝网站精品污在线入口| 激情在线视频一区二区三区| 东北老熟女被弄的嗷嗷叫高潮| 国产成人无码av一区二区在线观看| 四虎国产精品永久在线国在线| 日本午夜免费福利视频| 人妻少妇不满足中文字幕| 日本一区二三区在线中文| 亚洲第一狼人天堂网亚洲av| 国产乱理伦片在线观看| 不打码在线观看一区二区三区视频| 亚洲熟女天堂av一区二区三区| 久久久亚洲熟妇熟女av| 国产综合久久久久| 欧美在线专区| 亚洲区精品久久一区二区三区女同|