郭星辰,張 葆,宋 策
(1.中國科學院 長春光學精密機械與物理研究所 中國科學院航空光學成像與測量重點實驗室,吉林 長春130033;2.中國科學院大學,北京100049)
目標跟蹤作為計算機視覺技術(shù)的分支,廣泛應用于視頻檢索、智能監(jiān)控、人機交互、火控制導等領(lǐng)域。根據(jù)已知目標的先驗知識,對模板進行評估、分類、標識,獲取視頻序列中目標狀態(tài)(如位置、速度等),實現(xiàn)目標跟蹤。雖然國內(nèi)外學者對跟蹤技術(shù)進行多年研究,編寫出許多著名算法(如MIL[1],Mean-shift[2],TLD[3]等),但是由于在空對地跟蹤過程中,目標尺度、旋轉(zhuǎn)、融合等問題引起跟蹤模板退化,導致跟蹤效果不理想,難以滿足實際工程的需要[4]。
SVM 是20 世紀90 年代Vapnik 和Cortes 提出的用于模式識別的方法[5]。它是建立在統(tǒng)計學習理論的VC 維理論和結(jié)構(gòu)風險最小化原理基礎(chǔ)上的,通過對原問題二次規(guī)劃求取全局最優(yōu)解,解決機器學習問題,可利用小樣本對目標學習,訓練分類器,屬半監(jiān)督學習。隨著目標表示方法增多,采用多種表示方法可得到高精度跟蹤效果使得在跟蹤中數(shù)據(jù)維數(shù)增大,導致實時性下降,SVM 在處理高維數(shù)據(jù)中表現(xiàn)出獨特的優(yōu)勢[6]。針對小樣本數(shù)據(jù),SVM 分類器[7]對樣本的學習能力能夠解決跟蹤中目標丟失、融合等問題?;谏鲜龇治觯疚囊牖赟VM 分類跟蹤算法,利用灰度直方圖和哈爾特征提取目標特征,采用線性、高斯等核函數(shù)對視頻評估,實現(xiàn)目標精準跟蹤。
n 維實數(shù)集X 表示輸入空間,m 維實數(shù)集Y 表示輸出空間,Z=X×Y 表示樣本空間,F(xiàn) 表示目標函數(shù)集合。機器學習的目的是在集合F 中找到一個函數(shù)f*(x,α*)逼近滿足樣本空間Z 中的位置概率分布F。則目標函數(shù)的實際風險式中,L(y,f(x,α))為一個給定模式x 的真實值和計算值f(x,α)之間的損失函數(shù)。
與用經(jīng)驗風險Remp(f)逼近真實風險的經(jīng)驗風險最小化原理不同,結(jié)構(gòu)風險最小化(Structural Risk Minimization,SRM)原理引入置信風險ε(l,δ,h)
根據(jù)文獻[5],ε(l,δ,h)可表示為
當VC 維h 增加時,系統(tǒng)對于目標細節(jié)掌握的先驗知識越多,其識別能力越強,能夠在從背景中精確的鎖定目標,因此經(jīng)驗風險Remp(f)隨著h 的增加而減小;然而,從式(3)可見,算法的置信風險ε 與VC 維h 成正比,這是因為h 的增加會導致系統(tǒng)對背景噪聲過于敏感,背景中一個細小干擾都會對目標識別結(jié)果造成很大的影響。SRM 原理將真實風險在經(jīng)驗風險與置信風險之間(分類模型復雜度與學習能力)尋求了一個折中,三者關(guān)系如圖1 所示,在滿足跟蹤精度的前提下,提高跟蹤過程實時性。
圖1 分類模型與學習能力關(guān)系
支持向量分類器[8](Support Vector Classification,SVC)基本設計思想為,利用核函數(shù)對現(xiàn)實問題二次規(guī)劃為凸優(yōu)化問題,將尺度空間中線性可分與線性不可分數(shù)據(jù)均映射為特征空間中線性可分數(shù)據(jù),利用最大間隔分類器(即支持向量分類器)對數(shù)據(jù)學習、分類。
經(jīng)二次優(yōu)化后,求解決策函數(shù)的問題轉(zhuǎn)化為求解優(yōu)化問題
式中:ω 為權(quán)重向量,b 為偏置,二者共同決定分類超平面;l為樣本總數(shù)。位于ω,b 所確定的分類超平面上或在超平面附近的輸入向量x*被稱為支持向量[9],即為圖像中區(qū)分于背景的目標特征。
選擇支持向量機的優(yōu)勢在于它能夠?qū)⒊叨瓤臻g中線性不可分數(shù)據(jù)通過非線性映射函數(shù)映射為高維特征空間中線性可分數(shù)據(jù),繼而在特征空間中選取分類超平面。為了得到非線性映射,支持向量機引入核函數(shù)概念,根據(jù)Mercer 定理避免了在高維特征空間中進行內(nèi)積運算問題,進一步提升運算速度。
Mercer 定理:如果函數(shù)K 是Rn×Rn→R 上的映射(即兩個n 維向量映射到實數(shù)域)。那么K 是一個有效函數(shù)(也成Mercer 核函數(shù)),當且僅當對于訓練樣本{x1,x2,…,xl},其相應的核函數(shù)是對稱半正定的[10]。
本次實驗采用的核函數(shù)下面分別介紹。
線性核函數(shù)是各類核函數(shù)中形式最簡單的,僅僅為兩個向量的內(nèi)積。采用線性核函數(shù)算法等價于不采用核函數(shù),故該核函數(shù)針對于尺度空間中線性可分的數(shù)據(jù)。
高斯核函數(shù)也稱徑向基核函數(shù)(Randial Basis Function Kernel,RBF),二者的主要差別是高斯函數(shù)每一個基函數(shù)中心對應一個支持變量,輸出權(quán)值由算法自主決定。函數(shù)中變量十分重要,選取過大會導致函數(shù)趨向于線性核函數(shù),高維特征空間將失去其非線性特性;選取過小會導致函數(shù)對決策邊緣噪聲敏感,影響目標跟蹤準確度。
選取不同核函數(shù)將構(gòu)成不同的支持向量機,并且對不同實驗數(shù)據(jù)效果亦不相同[11]。線性核函數(shù)和高斯核函數(shù)應用較為廣泛,針對線性可分數(shù)據(jù),各類核函數(shù)分類效果大同小異,然而線性核函數(shù)計算量大大小于其他核函數(shù),可減少算法運行時間,有利于提高算法實時性。高斯核函數(shù)適用范圍廣,不論低維、高維、大小樣本等情況,高斯核函數(shù)均適用。
直方圖是多種空間域處理技術(shù)的基礎(chǔ)。直方圖能有效用于圖像增強,其固有信息在其他圖像處理應用(如圖像壓縮與分割)中也非常有用。直方圖在軟件中易于計算,也適用于商業(yè)硬件設備,因此它是實時圖像處理的一個流行工具。
本實驗將灰度直方圖作為目標表示,主要是考慮到其計算簡易性,減小算法復雜度?;叶戎狈綀D包含了目標的亮度信息,為了進一步突出其易于計算的特點,本算法并未直接對波門中目標像素進行直方圖提取,而是先對波門信息進行灰度降級,如此大大縮減了像素灰度數(shù)量與存儲空間,進而將目標進行一定數(shù)量的等分,將圖像分塊后再進行直方圖處理,在減少像素數(shù)量的同時,不會丟失目標特有的亮度信息。
哈爾(Haar-like)特征是計算機視覺領(lǐng)域常用的一種特征算子。最初由Papageorigiou 等人用于人臉描述[13-14],分為4 類共15 個算子,其中對角線特征1 個,中心特征(點特征)2個,邊緣特征4 個,線特征8 個。特征算子表示為黑白相間的矩形,其特征值定義為黑色區(qū)域的像素與白色區(qū)域像素的差值,在相減過程中,保證二者的像素數(shù)相同。矩形特征的位置、大小根據(jù)實驗需要進行調(diào)整。
矩形特征的靈活性(矩形大小、位置、像素權(quán)值)可為分類器提供大量目標特征,積分圖為哈爾特征提供快速算法,可在較短時間內(nèi)完成對大量矩形特征計算,可滿足目標跟蹤準確性和實時性的要求[15]。故采用哈爾特征對目標進行表示,在提取目標固有特征同時,能夠在跟蹤過程中目標發(fā)生變化后提取并保存新特征,從而保證在跟蹤波門中長時間鎖定目標。本次實驗選取水平方向、垂直方向的邊緣特征和線特征,1 個對角線特征,1 個中心特征共6 個特征對目標進行表示,如圖2 所示。
圖2 目標表示的哈爾特征
本文主要針對機載環(huán)境對地面目標跟蹤的測試視頻,對基于SVC 跟蹤算法進行試驗驗證。測試視頻為卡內(nèi)基梅隆大學數(shù)據(jù)庫中用于測試空對地目標跟蹤的視頻egtest02,幀頻25 f/s,幀圖大小為640 pixel×480 pixel。實驗設備為Intel CoreTM雙核CPU,主頻2.53 GHz,內(nèi)存4.00 Gbyte。實驗軟件為Visual Studio 2010 和opencv2.4.8。跟蹤算法主要采用哈爾特征對目標表示,核函數(shù)選取σ=0.2 的高斯核函數(shù)。
SVC 中的樣本從視頻第一幀中選取,由于樣本數(shù)量較小,為了保證跟蹤精度,樣本中目標充滿整個波門,目標樣本在隨后跟蹤過程中不斷擴充。支持向量上限為75,減少計算量提高算法實時性。目標搜索區(qū)域為半徑30 pixel 圓形,算法對以上一幀中最佳匹配點為圓心的圓內(nèi)區(qū)域進行步長為2 的遍歷,利用SVC 對樣本集分類,求得本幀中的支持向量,鎖定目標位置并將新的支持向量添加進學習器中,如圖3 所示。
圖3 基于SVC 空對地算法示意圖
其中,目標特征評價函數(shù)為
式中:x 為搜索區(qū)域模板;x*為目標模板;yout表示搜索區(qū)域與目標模板相似度,其值越大表示搜索區(qū)域是跟蹤目標的可能性越大。
跟蹤目標為機場背景下勻速行駛的汽車,如圖4 所示。綠色邊框為跟蹤波門,波門中為目標車輛,其余車輛為干擾車輛。在整個視頻中,第260 ~548 幀相機焦距增大,目標車輛減速、轉(zhuǎn)彎,車輛尺度、輪廓發(fā)生大幅度變化;車輛轉(zhuǎn)彎后在第549 ~716 幀與三輛車進行會車,第三輛車與目標車輛車型相同;會車完成后車輛轉(zhuǎn)彎,在952 ~1 231 幀航拍相機在x 方向劇烈晃動,x 方向最大速度為15 pixel/s,最大加速度為5.17 pixel/s2。
圖4 機場背景下的目標車輛
跟蹤過程中,航拍相機在第260 幀焦距縮短,目標車輛明顯減速,跟蹤波門中目標比例減小,如圖5b 所示。目標車輛在第402 ~531 幀完成約100°轉(zhuǎn)彎,角速度為1.45 rad/s,第400 ~424 幀遇到強光干擾,如圖5c 所示。第530 幀完成轉(zhuǎn)彎,學習器保存目標車輛轉(zhuǎn)彎過長中17 個姿態(tài),支持向量增加到48 個。整個過程中目標車輛鎖在跟蹤波門內(nèi),并未發(fā)生任何波門抖動、假跟蹤現(xiàn)象。
圖5 目標車輛尺度、旋轉(zhuǎn)跟蹤結(jié)果
車輛完成第一次轉(zhuǎn)彎進行會車實驗,六輛車共三種車型,每種車型顏色不同。為減少算法復雜度,實驗處理對象均被轉(zhuǎn)化為灰度圖像,削弱算法對車輛顏色的分辨能力。在通過前兩輛不同車型的車輛時,波門可鎖定目標,未出現(xiàn)假跟蹤現(xiàn)象,其中相似車輛像素占波門最大達到12.7%,如圖6d 所示,但在第677 ~681 幀波門鎖定同款相向行駛車輛,如圖6f 所示。在完成回車后,目標與相似車輛分離,分類器根據(jù)學習器中在之前跟蹤過程中對目標積攢的先驗知識,重新鎖定目標車輛。
圖6 會車融合跟蹤結(jié)果
整個會車過程中,目標車輛分別于三輛相向車輛融合,干擾車輛部分進入跟蹤波門,但是沒有影響整體跟蹤效果,會車階段跟蹤精確度達到98.4%。
目標完成第二次轉(zhuǎn)彎,即第990 幀之后,航拍相機在x 方向產(chǎn)生劇烈抖動,并且焦距調(diào)小,目標所占波門比例減小,其像素比例為變換前的1/3,如圖7 所示,最大速度達到15 piexl/s。整個過程中目標被波門牢牢鎖住,跟蹤精度達到100%。
經(jīng)仿真實驗驗證,算法在跟蹤過程中對目標學習后,可對尺度3 倍變換、角速度1.45 rad/s、融合12.7%波門的目標實現(xiàn)高度準確性和穩(wěn)定性跟蹤,并且排除最大速度為15 piexl/s相機抖動的不穩(wěn)定因素,魯棒性較強,因此,基于SVC 跟蹤算法精度滿足實際工程應用。
圖7 航拍相機劇烈抖動跟蹤結(jié)果
算法復雜度與目標模板和支持向量數(shù)量成正比,實驗中視頻后期隨學習器模板數(shù)量增多實時性略有下降,為降低目標尺度發(fā)生較大變換時學習器增加目標模板的數(shù)量,算法后期將修改對視頻波門尺寸,增大目標所占波門比例,減少學習器模板數(shù)量,減小算法復雜度,提高實時性。
[1]BABENKO B,YANG M H,BELONGIE S.Visual tracking with online multiple instance learning[C]//Proc. CVPR 2009. Anchorage,Alaska:IEEE Press,2009:983-990.
[2]王夢斐,王沛,馬燕,等. 基于卡爾曼和圖像信息量的MeanShift改進跟蹤算法[J].電視技術(shù),2015,39(5):41-44.
[3]KALAL Z,MATAS J,MIKOLAJCZYK K. Pn learning:Bootstrapping binary classifiers by structural constraints[C]//Proc. CVPR 2010.San Francisco:IEEE Press,2010:49-56.
[4]宋策,張葆,尹傳歷,等. 基于粒子濾波的空-地目標跟蹤算法[J].光電子·激光,2013,24(10):2017-2023.
[5]VAPNIK V. The nature of statistical learning theory[M]. New York:Springer,1995.
[6]李俊,陳善學,馮銀波. 無人工樣本的SVM 遙感圖像分類方法[J].電視技術(shù),2013,37(23):27-30.
[7]文學志,方巍,鄭鈺輝. 一種基于類Haar 特征和改進AdaBoost分類器的車輛識別算法[J]. 電子學報,2011,39(5):1121-1126.
[8]侯明,張新新,范麗亞.四類基于支持向量機的多類分類器的性能比較[J]. 聊城大學學報:自然科學版,2014,27(3):54-60.
[9]王文劍,門昌騫.支持向量機建模及應用[M]. 北京:科學出版社,2014.
[10]CRISTIANINI N,SHAWE-TAYLOR J. 支持向量機導論[M].李國正,王猛,曾華軍,譯.北京:電子工業(yè)出版社,2004.
[11]宋暉,薛云,張良均. 基于SVM 分類問題的核函數(shù)選擇仿真研究[J].計算機與現(xiàn)代化,2014(8):133-136.
[12]魯凱翔,田鵬輝,隋立春.利用二維灰度直方圖跟蹤紅外運動目標[J]. 測繪通報,2014(3):29-31.
[13]陳勇飛,劉新明. 基于膚色和類Harr 特征的人臉圖像的人眼檢測[J]. 計算機工程與應用,2009,44(33):174-176.
[14]李盛文,鮑蘇蘇. 基于PCA+AdaBoost 算法的人臉識別技術(shù)[J]. 計算機工程與應用,2010,46(4):170-173.
[15]HARE S,SAFFARI A,TORR P H S. Struck:structured output tracking with kernels[C]//Proc. ICCV 2011. Barcelona,Spain:IEEE Press,2011:263-270.