亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        深度學習下的目標跟蹤綜述*

        2022-08-09 06:16:06陳浩東蔣鑫張桓瑋
        計算機時代 2022年8期
        關鍵詞:神經(jīng)網(wǎng)絡深度評估

        陳浩東,蔣鑫,張桓瑋

        (南京理工大學計算機科學與工程學院,江蘇 南京 210094)

        0 引言

        基于視頻的目標跟蹤是在得到視頻序列中目標初始狀態(tài)的情況下,預測后續(xù)序列中目標的大小、位置和方向等狀態(tài)信息。視覺跟蹤技術無論是在軍用還是民用領域都具有重要的研究意義和廣闊的應用前景。

        本文主要內(nèi)容如圖1所示,主要貢獻如下:

        圖1 深度學習下的目標跟蹤方法

        ⑴以深度學習下目標跟蹤方法的網(wǎng)絡結(jié)構為出發(fā)點,對基于卷積神經(jīng)網(wǎng)絡、基于循環(huán)神經(jīng)網(wǎng)絡、基于對抗生成網(wǎng)絡和基于孿生網(wǎng)絡的目標跟蹤方法的發(fā)展進行了總結(jié)。

        ⑵對常用的數(shù)據(jù)集進行的對比和分析,作為研究工作中選擇數(shù)據(jù)集的一個參考。

        ⑶總結(jié)了目前目標跟蹤領域存在的問題,展望了視覺目標跟蹤技術的發(fā)展趨勢。

        1 目標跟蹤方法

        1.1 單分支網(wǎng)絡

        1.1.1 卷積神經(jīng)網(wǎng)絡

        卷積神經(jīng)網(wǎng)絡(CNN)方法在計算機在計算機視覺領域取得突破后,一系列基于CNN 的方法被提出,它們的研究動機可以歸為以下幾點。

        使用大數(shù)據(jù)預訓練的卷積神經(jīng)網(wǎng)絡:MDNet和UCT,它們使用ResNet等深度卷積網(wǎng)絡提取圖像特征。

        融合多層深度圖像特征:Wang 等人在FCNT 中發(fā)現(xiàn)頂層的特征包含更多的語義信息可以用作檢測器,較低層攜帶更多判別信息,可以更好的將目標與具有相似外觀的干擾物區(qū)分開來?;谝陨习l(fā)現(xiàn),Wang等人提出了融合多層深層圖像特征的FCNT。

        相關濾波方法:這類方法將模型與相關濾波方法結(jié)合,發(fā)揮了CNN的特征表征能力和相關濾波的速度優(yōu)勢。C-COT將CNN 與相關濾波結(jié)合后,取得了極大的轟動,ECO還針對相關濾波方法的計算復雜度問題進行優(yōu)化。

        1.1.2 循環(huán)神經(jīng)網(wǎng)絡

        MemTrack引入了可動態(tài)更新的動態(tài)存儲網(wǎng)絡,由具有注意力機制的LSTM 控制的外部記憶塊適應外觀變化。SANet在模型的學習過程中利用RNN結(jié)構對對象的自結(jié)構進行編碼,不僅提高了模型區(qū)分類間背景對象的能力,還提高了類內(nèi)類似干擾項的能力。

        1.1.3 生成對抗網(wǎng)絡

        生成對抗網(wǎng)絡(GAN)雖然難以訓練和評估,但還是有基于深度學習的方法利用GAN 生成訓練樣本VITAL針對基于檢測的跟蹤中存在的正樣本過少負樣本過多的問題,使用GAN來增加特征空間中的正樣本,以捕獲時間跨度內(nèi)的各種外觀變化。

        1.2 雙分支網(wǎng)絡

        雙分支網(wǎng)絡即孿生網(wǎng)絡,基于孿生網(wǎng)絡的目標跟蹤算法思想是學習一個魯棒的外觀模型,并訓練一個相似度匹配函數(shù),通過相似度匹配函數(shù)尋找到當前幀的目標區(qū)域。孿生網(wǎng)絡的研究動機可以劃分為研究判別性目標表示和自適應目標變化兩部分。

        1.2.1 判別性目標表示

        孿生網(wǎng)絡為了得到更具判別性的深度圖像特征并提升外觀模型的,孿生網(wǎng)絡采用了以下方法。

        ⑴采用更深層的神經(jīng)網(wǎng)絡:Zhang 等人提出了SiamDW 算法,通過設計一個殘差結(jié)構消除深度網(wǎng)絡帶來的負面影響,同時調(diào)整了主干網(wǎng)絡的步長和感受野,將ResNet引入了孿生網(wǎng)絡,在SiamFC上進行了實驗驗證,取得了較原始模型更優(yōu)異的性能。

        ⑵融合多層深度圖像特征:Fan 等人提出了使用了級聯(lián)區(qū)域推薦網(wǎng)絡(RPN)的C-RPN。C-RPN 通過多層RPN 網(wǎng)絡,逐層篩選其中屬于負樣本的anchor,將模型視為正樣本的anchor 輸入到下一層的RPN 網(wǎng)絡,在復雜的背景下如存在相似語義障礙物時能夠取得更加魯棒的表現(xiàn)。

        ⑶精確的目標估計:Zhang 等人提出的Ocean基于像素級的訓練策略:將在真實邊界框內(nèi)的所有像素視為正樣本,邊界框外視為負樣本,訓練出的回歸網(wǎng)絡即使目標只有一個小區(qū)域被識別為前景,也能預測目標對象的尺度。

        ⑷向深度圖像特征施加注意力:Yu等在SiamAttn在目標分支和搜索分支中分別做self-attention 操作,實現(xiàn)對通道和特殊位置進行關注。在搜索分支和目標分支之間進行了cross-attention計算,讓搜索分支學習到目標信息。此外,類似工作還有TranT和STARK,它們向深度特征施加注意力的方式如表1所示。

        表1 目標跟蹤方法提出的施加注意力的方法

        ⑸ 利用性能更強的相似度匹配函數(shù):Chen 等人提出的TransT 通過將原本孿生網(wǎng)絡跟蹤器的相關運算(如深度互相關)替換成了Transform-er中的attention運算,有效地解決了孿生網(wǎng)絡中相關性計算的局部線性匹配問題。此外,類似的工作還有STARK和SiamGAT,它們的相似匹配函數(shù)如表2所示。

        表2 目標跟蹤方法提出的相似匹配函數(shù)

        1.2.2 自適應目標外觀變化

        ⑴在線更新方法:Zhang等人提出了UpdateNet,通過訓練得到UpdateNet 的參數(shù),將初始模板、上一幀計算模板和上一次計算出的模板輸入到網(wǎng)絡中,得到新的模板,用新的模板進行相似性計算。

        ⑵將跟蹤視為檢測任務:Voigtlaender 等人將Faster R-CNN應用到目標跟蹤上,利用一個來自第一幀的重檢測模型和來自歷史幀的重檢測模型,對當前幀進行檢測,以得到最終目標位置。

        2 數(shù)據(jù)集

        隨著目標跟蹤領域的發(fā)展,規(guī)模越來越大、場景越來越多的目標跟蹤數(shù)據(jù)集被提出,如圖2所示。根據(jù)數(shù)據(jù)集中單個視頻序列的長度可分為短期目標跟蹤數(shù)據(jù)集和長期目標跟蹤數(shù)據(jù)集。短期目標跟蹤數(shù)據(jù)集如OTB2015、VOT2017、UAV123、TrackingNet、GoT-10k等,長期目標跟蹤數(shù)據(jù)集包括LaSoT、OxUvA等。此外,Wang等人提出了自然語言規(guī)范跟蹤的多媒體數(shù)據(jù)集:TNL2K 數(shù)據(jù)集,表3 主要總結(jié)了上述數(shù)據(jù)集的信息。

        圖2 深度學習下數(shù)據(jù)集的發(fā)展

        表3 不同數(shù)據(jù)集信息對比

        ⑴OTB數(shù)據(jù)集

        OTB 數(shù)據(jù)集包含光照變化、目標尺度變化、遮擋、目標形變等總共11 種視覺屬性,此外還包含25%的灰度圖像。OTB 數(shù)據(jù)集將精確圖、成功圖、魯棒性評估作為數(shù)據(jù)集對模型的評價指標。魯棒性評估包括一次性評估、時間魯棒性評估和空間魯棒性評估。

        ⑵VOT數(shù)據(jù)集

        VOT 數(shù)據(jù)集包含相機移動、光照變化、目標尺寸變化、目標動作變化和遮擋等6種視覺屬性。VOT數(shù)據(jù)集的主要評估指標為預期平均重疊、準確率和魯棒性。

        ⑶UAV123數(shù)據(jù)集

        UAV123 數(shù)據(jù)集是Mueller 等人在2016 年提出的基于無人機視角的低空目標跟蹤數(shù)據(jù)集,與OTB,VOT等使用常規(guī)攝像機拍攝的數(shù)據(jù)集存在本質(zhì)區(qū)別。UAV123 數(shù)據(jù)集包括縱橫比變化、背景干擾、攝像機移動、完全遮擋、光照變化等總共12種視覺屬性。UAV123數(shù)據(jù)集采用與OTB 數(shù)據(jù)集相同的模型評估策略。

        ⑷TrackingNet數(shù)據(jù)集

        TrackingNet 數(shù)據(jù)集接近真實世界的目標跟蹤任務,密集的數(shù)據(jù)注釋使目標跟蹤模型的設計能更偏重于挖掘視頻序列中目標的運動信息。TrackingNet 使用OTB 數(shù)據(jù)集中采用的一次評估策略,并將成功率和精度作為評估指標。

        OxUvA 中視頻序列的平均時長超過2 分鐘,且OxUvA 中超過一半的視頻都包含目標消失的情況,貼近真實世界的情況,對目標跟蹤模型的性能提出了更高的要求。

        值得注意的是OxUvA 每30 幀才標注1幀,因此,雖然OxUvA數(shù)據(jù)集的數(shù)據(jù)量非常大,但它適合用于模型評估,而不是用于訓練。

        GoT-10k 數(shù)據(jù)集總共包含563 種目標類別和87種運動模式。GoT-10k提供了目標對象的可見率,表示目標對象可見的大致比例??梢娐蕿榘l(fā)展處理遮擋問題的跟蹤方法提供了便利。模型評估上,Huang 等人選擇具有明確含義且簡單的指標:平均重疊和成功率作為數(shù)據(jù)集的評估指標。

        LaSoT 包含1400 個視頻序列,包含70 種目標類別,每個類別包含20 個視頻序列,減少目標類別給目標跟蹤模型帶來的影響;每個視頻序列都包含戶外場景的各種挑戰(zhàn);每個視頻序列平均長度超過2500 幀。此外重要的一點在于LaSoT 除傳統(tǒng)的BBox 注釋外,還為每個視頻序列添加了自然語言注釋,使其能夠用于自然語言輔助目標跟蹤任務。

        TNL2K 包含了17種視覺屬性,總計2000個視頻。在注釋方式上,每個視頻使用自然語言注釋,指示了第一幀中目標對象的空間位置、與其他對象的相對位置、目標屬性和類別,使其能夠用于自然語言規(guī)范目標跟蹤任務,并為該視頻中的每一幀注釋一個邊界框。評價指標上依舊采用了流行的準確圖和成功圖。

        3 總結(jié)

        回顧基于深度學習的目標跟蹤算法的發(fā)展,很多在目標跟蹤上取得成就的技術都是來自深度學習的其他領域的理論,如自然語言、注意力機制等。如何更好的利用這些已引入的理論以及如何從其他領域引入新的理論,將是基于深度學習的目標跟蹤算法現(xiàn)在以及未來的研究熱點。

        猜你喜歡
        神經(jīng)網(wǎng)絡深度評估
        深度理解一元一次方程
        神經(jīng)網(wǎng)絡抑制無線通信干擾探究
        電子制作(2019年19期)2019-11-23 08:42:00
        深度觀察
        深度觀察
        深度觀察
        基于神經(jīng)網(wǎng)絡的拉矯機控制模型建立
        重型機械(2016年1期)2016-03-01 03:42:04
        復數(shù)神經(jīng)網(wǎng)絡在基于WiFi的室內(nèi)LBS應用
        評估依據(jù)
        基于支持向量機回歸和RBF神經(jīng)網(wǎng)絡的PID整定
        立法后評估:且行且盡善
        浙江人大(2014年5期)2014-03-20 16:20:25
        国产精选自拍视频网站| 国产高清白浆| 国产av一区仑乱久久精品| 亚洲av无一区二区三区久久蜜桃 | 国产一区二区三区在线观看黄| 蜜桃视频在线看一区二区三区| 女人被男人躁得好爽免费视频| 国产午夜福利精品| 亚洲学生妹高清av| 久久精品国产亚洲Av无码偷窍| 午夜国产在线精彩自拍视频| 亚洲av网一区二区三区| 国产一区二区三精品久久久无广告| 亚洲aⅴ无码日韩av无码网站| 日韩精品有码中文字幕| 国产成人精品无码免费看| 熟女人妻在线视频| 亚洲高清有码在线观看| 精品国产女主播一区在线观看| 成人试看120秒体验区| 亚洲精品无码人妻无码| Jizz国产一区二区| 日本一本一道久久香蕉男人的天堂| 999zyz玖玖资源站永久| 樱花草在线播放免费中文| 中字亚洲国产精品一区二区| 亚洲精品一区二区三区在线观| 7777色鬼xxxx欧美色妇| 大地资源中文第三页| 黑丝美女喷水在线观看| 人妻少妇被猛烈进入中文字幕| 久久夜色精品国产噜噜亚洲av| 无码在线观看123| 最近中文字幕精品在线| 国产精品免费av片在线观看| 亚洲精品高清你懂的| 中文字幕一区二区三区在线看一区| 极品少妇xxxx精品少妇偷拍| 欧美性性性性性色大片免费的| 免费无码黄网站在线观看| 久久在一区二区三区视频免费观看|