李 科,蔡堅勇,2,3,4,張明偉,盧依宏,曾遠強
1(福建師范大學 光電與信息工程學院,福州 350007)
2(福建師范大學 醫(yī)學光電科學與技術教育部重點實驗室,福州 350007)
3(福建師范大學 福建省光子技術重點實驗室,福州 350007)
4(福建師范大學 福建省光電傳感應用工程技術研究中心,福州 350007)
近些年,由于深度學習的火熱,在視頻中的運動目標追蹤中出現(xiàn)了很多新方法.就追蹤任務而言,可分為MOT (Multiple Object Tracking)和VOT (Visual Object Tracking)[1–3].MOT主要是同時追蹤多個目標,對抗干擾能力要求不高,VOT則是在干擾條件下持續(xù)追蹤單個目標.基于監(jiān)督學習算法的主流目標追蹤方法的可分為,生成法和判別法兩種.兩種方法都是通過數(shù)據(jù)集訓練模型,達到預測結果的目的.不同的是生成法先求出聯(lián)合概率p(x,y),再通過p(y|x)=p(x,y)/p(x)得到條件概率;判別法則是直接學習條件概率.兩種方法得到的條件概率均可轉換為目標框中的像素得分.然而對于追蹤任務而言判別法效果優(yōu)于生成法[4],判別法開山之作SiamFC的出現(xiàn),使得追蹤任務取得很大的進展,但是它仍然無法處理多重干擾數(shù)據(jù)集.本文提出的DPPSiamFC神經網絡 (Detial-Preserving Pooling Fully-Convolutional Siamese networks)是對SiamFC網絡的改進,可在旋轉、快速移動、變形、遮擋和相似性干擾等數(shù)據(jù)集上取得更好的效果.本文采用的驗證數(shù)據(jù)集是VOT2017 (包含的種類有bag、ball、basketball、birds等40多種類)[5–8].
圖1中SiamFC由對稱的兩個神經網絡架構組成,Z代表標注的圖片,X為候選圖片.在X上計算候選區(qū)域和預測區(qū)域重疊面積的得分,從而計算出預測精確度,φ通常是若干卷積層和池化層(經典Alexnet采用5層卷積層),網絡通過φ函數(shù)得到128個通道的特征圖,并將兩個特征圖通過深度卷積進行融合定位視頻中目標位置.
圖1 SiamFC網絡基礎架構
由于CNN網絡在目標檢測領域取得良好的效果,能有效記憶目標的特征,所以CNN網絡也被引入追蹤網絡算法中[9].SiamFC網絡在VOT2016 (Visual Object Tracking)競賽中獲得良好的比賽成績,相較KCF(Kernelized correlation filter)有較大的提升,SiamFC在ILSVRC2015數(shù)據(jù)集上進行訓練,訓練兩條分支的網絡參數(shù)權重ω和偏置b[5,7,8,10–16].在得到穩(wěn)定的網絡模型后,可進行在線追蹤的任務.進行追蹤任務時,SiamFC只需要讀入初始標定的目標,即可持續(xù)在未標定視頻中連續(xù)追蹤特定目標,給出預測的目標位置框,并計算與GroundTruth集合的重疊面積,從而得到預測精確度.
圖1中兩個孿生的φ在實際網絡中可用5層卷積神經網絡代替,其中Conv1和Conv2卷積層之后有Pool1和Pool2池化層.兩個池化層目的是減少網絡參數(shù)的個數(shù),但同時也會失去目標的一些細節(jié)特征.上述情況在VOT2017數(shù)據(jù)集上表現(xiàn)尤為明顯[17,18].因而對于追蹤方法來說,一定的細節(jié)保留是必要的.DPP池化層能保留目標物的一些細節(jié)特征,對于追蹤方法中的一些細節(jié)判別和尋找提供一定的幫助.因而我們在每層網絡都引入DPP池化層同時又在Conv1和Conv3層之后添加到融合層的殘差網絡.本文的殘差網絡解決網絡深度增加引起的梯度消失問題,DPP池化層主要解決特征提取時的細節(jié)丟失問題[9].
DPP-SiamFC網絡不僅在SiamFC網絡上每層引入DPP池化層,還引入Conv1和Conv3的池化層之后到融合層的殘差網絡.殘差網絡能很大程度將輸入的特征引入輸出,而并不帶來很多網絡開銷.在網絡達到一定深度以后能很好幫助前饋網絡,同時降低錯誤率.SiamFC的Conv1–Conv5層是類似于AlexNet的神經網絡.定義f(x)為 輸入值,g(f(x))為輸入經過CNN網絡卷積池化的函數(shù),則加入殘差網絡進行融合的表達式如式(1)所示:
式(1)所示的殘差網絡將一部分輸入特征直接引入網絡輸出,使得網絡的梯度下降的更快,α和 β為調節(jié)參數(shù).
DPP細節(jié)保留池化是應用于目標檢測的CNN網絡Conv卷積層之后的池化層,目的是改善原來CNN檢測網絡的池化層對目標細節(jié)特征的丟失.目標檢測比較常用的Avg-Pooling和Max-Pooling分別利用池化區(qū)域的平均值和最大值來代替原來的像素點,而在目標追蹤領域常用的是Max-Pooling.隨著網絡層數(shù)以及數(shù)據(jù)集難度的增加,Max-Pooling和Avg-Pooling丟失目標特征的弊端將逐漸展現(xiàn)出來.DPP池化的結構如圖2,主要完成線性減少特征圖I的數(shù)據(jù)量.處理流程是將原始特征圖I進行線性縮減尺度,將得到的結果與原始特征進行比較(方法是引入逆雙邊權重),判斷出特征丟失程度.輸入特征圖I經過激勵函數(shù)得到的輸出O特征公式(2):
圖2 DPP池化層邏輯結構示意圖
式(2)計算的是輸入相鄰點I[q]q∈?p的空間加權平均值,作為池化的輸出結果.其中I[q]為輸入DPP池化層的圖片特征圖,O[p]為輸出池化層的圖片特征圖,α,λ為神經網絡回報參數(shù),是根據(jù)不同數(shù)據(jù)集訓練得到的,該逆雙邊權重公式(為了解決下采樣之后特征損失)如式(3):
在網絡反饋學習中,通過優(yōu)化 log(α)和 l og(λ)確保參數(shù)非負,對于α參數(shù)是為了確保輸入的特征不被網絡訓練完全清除,保存細節(jié)特征,并最后作用于輸出結果.λ為調節(jié)獎勵函數(shù)形狀的參數(shù).對于I[q]>[p]時采用非對稱的作為獎勵函數(shù).反之采用對稱的作為網絡的獎勵函數(shù)(ε是修正因數(shù),減少x的浮動帶來的影響,使函數(shù)圖像從0開始).
本文為了實現(xiàn)視頻中目標相似性干擾、旋轉、快速移動、遮擋和變形等問題處理能力.對SiamFC網絡進行改進,改進之后的網絡結構如圖3,融合網絡(Concatenation)是3條分支的加權平均值,再通過深度卷積層對特征進行融合.
圖3 DPP-SiamFC網絡架構
Conv和Conv_1是對稱的卷積層,它們卷積核大小,通道數(shù)和步長并不相同,相同的是兩個卷積層使用的卷積核的個數(shù).這使得輸出特征圖的個數(shù)一致.DPP池化層的結構如圖2所示,目的是更好的保留目標細節(jié)特征.
Fully-Convolution是將兩個分支的結果進行卷積處理,生產下一幀的目標位置,從而得到最終的特征輸出.
DPP-SiamFC網絡各層參數(shù)并不相同,其中DPP層提供?P,,ε三 個參數(shù).其中?P通常取3×3相同如,ε=0.1,則網絡的各層參數(shù)如表1所示.
表1 DPP-SiamFC網絡各層參數(shù)
我們將DPP-SiamFC網絡于ILSVRC2015數(shù)據(jù)集上進行訓練,實現(xiàn)對每個分類特征的離線訓練.在線追蹤于VOT2017追蹤數(shù)據(jù)集,觀察在各個分類追蹤的效果[19–21].
實驗展示DPP-SiamFC在VOT2017各個分類效果,尤其在含有復雜背景,有眾多干擾物、遮擋、快速移動、和目標變形的數(shù)據(jù)集.
圖4展示了DPP-SiamFC在有很多干擾物且存在部分遮擋條件下追蹤單個目標物的效果,整個視頻的標定區(qū)域和預測區(qū)域重疊面積比平均約為79.1%,高于80%預測精度的視頻幀約占總數(shù)的83%.
圖5是DPP-SiamFC在目標快速移動任務中效果.該數(shù)據(jù)集是摩托車比賽,途中有樹木的遮擋.
圖4 groundtruth(藍色)、DPP-SiamFC(紅色)、KCF(相關濾波算法黃色)和SiamFC(綠色)在相似物干擾數(shù)據(jù)集的效果
圖6是目標形變,和背景復雜的夜間街道數(shù)據(jù)集中DPP-SiamFC追蹤效果.追蹤效果較為良好,能實現(xiàn)對目標持續(xù)追蹤的目的.
如圖7所示SiamFC很難追蹤快速上升并旋轉的特技摩托.而DPP-SiamFC能很好的將目標捕捉,達到旋轉物體追蹤的效果.
通過圖8中SiamFC、DPP-SiamFC和KCF算法預測區(qū)域和groundtruth標定的重疊面積比(IOU)在60個追蹤數(shù)據(jù)集上的平均精確度(例如:圖8中KCF'表示KCF算法在60個數(shù)據(jù)集上的精度平均值)78%,87%,70%(如表2)可以看出,改進之后的DPPSiamFC神經網絡在大多數(shù)數(shù)據(jù)集上效果優(yōu)于SiamFC和KCF網絡,本文在SiamFC網絡中引入DPP池化層和殘差網絡能很好保留數(shù)據(jù)集上的細節(jié)特征,提升在追蹤任務中的準確度,但在綜合的任務數(shù)據(jù)集中穩(wěn)定性還需提高.
圖7 groundtruth(藍色)、DPP-SiamFC(紅色)、KCF(相關濾波算法黃色)和SiamFC(綠色)在摩托車特技比賽中的對比
圖8 SiamFC、DPP-SiamFC和KCF的IOU比較
實驗結果證明,通過在SiamFC孿生網絡上引入DPP池化層和殘差網絡,有利于網絡細節(jié)特征的保留,在VOT2017追蹤數(shù)據(jù)集中DPP-SiamFC有更高精確度,同時在背景復雜、物體變形、快速移動、遮擋等數(shù)據(jù)集中目標追蹤有一定改善.但是在多重任務追蹤集的效果還有待提高.今后我們的工作將致力于網絡與數(shù)據(jù)集之間的對抗性研究.
表2 SiamFC、DPP-SiamFC和KCF精度比較 (單位:%)