金澤芬芬,,,
(空軍工程大學 信息與導航學院,西安 710077)
在計算機視覺領域中,在長視頻流中跟蹤機動目標是一項具有挑戰(zhàn)性的任務[1]。視覺跟蹤技術主要包括視頻監(jiān)控[2]、人機交互[3]和機器人學[4]等。許多學者圍繞視覺跟蹤技術開展了研究工作,近幾年在該領域的理論研究也取得了很大的進展。但在實際應用中,仍面臨著許多挑戰(zhàn)。在跟蹤過程中,目標本身存在尺度、旋轉、姿態(tài)等復雜的運動情況,此外還有復雜背景環(huán)境、遮擋、光照變化等干擾的嚴重影響,容易導致在目標跟蹤過程中出現(xiàn)目標丟失和誤跟蹤的情況,影響跟蹤結果的精度和穩(wěn)定性。
面對復雜的跟蹤情況,采用單一特征的跟蹤算法往往缺乏魯棒性。研究結果表明,基于多特征融合的跟蹤算法能夠改善目標的檢測與跟蹤效果,不同特征各有適應較好的場景。如顏色特征對旋轉和縮放不敏感、邊緣特征對光照不敏感、LBP特征具有較好的旋轉不變性和灰度不變性等。多特征融合的跟蹤算法主要考慮特征各自的優(yōu)缺點,通過融合具有互補性的特征來表示目標,以提高目標模型對場景的適應性問題[5-8]。而融合的過程一般是在跟蹤中動態(tài)地調整不同特征的權值以適應環(huán)境的變化[9-12]。文獻[5]結合了交互式多模和粒子濾波器來融合CBWH、CLTP和HOG特征。文獻[8]提出了一種基于像素、紋理和邊緣的多特征關聯(lián)稀疏表達的跟蹤算法,并使用方差比度量來自適應地調整不同特征的權重。文獻[11]通過評估目標狀態(tài)和背景狀態(tài)之間的不相似性,并最小化加權熵來尋找最優(yōu)特征組合,從而融合多個特征。這些算法使用不同的方法來融合多個特征,有效地提高了不同程度的跟蹤性能。 但是,它們會在融合過程中增加不可忽視的計算開支,影響跟蹤速度。此外,這些算法對于特征的加權主要依賴于對目標與背景區(qū)分度的判斷,當區(qū)分度較低或判斷不準確時,會較大地影響算法的精度。
在目標跟蹤中,顏色是一種重要的視覺特征,通常表示為直方圖分布的形式,它對目標旋轉、非剛體變換及遮擋都比較魯棒,因此被廣泛地應用在視覺目標跟蹤中。而在運動特征中的光流場,不僅包括運動信息,還包含了圖像區(qū)域的三維結構信息,在視覺運動的研究中非常重要。
因此,本文采用顏色特征和光流法表示的運動特征,提出一種在均值遷移(Mean Shift,MS)框架下融合兩特征的跟蹤方法。該方法將2種特征視為2個博弈者,通過博弈尋找均衡點完成目標跟蹤。
MS算法是目標跟蹤領域中的一個重要算法。該算法是一種非參數(shù)的密度估計算法,能夠快速地通過迭代在概率密度函數(shù)的局部最大值處收斂[13]。其跟蹤思路是首先選取目標的所在區(qū)域,并計算其參考特征直方圖模型。
在后續(xù)的圖像序列中,以上一幀目標所在的位置為初始位置y,計算目標跟蹤窗口所在圖像區(qū)域的特征直方圖:
將該直方圖與參考直方圖用Bhattacharyya系數(shù)來進行測量,表示如下:
其中,m表示直方圖位數(shù),其余參數(shù)與式(3)一致。為尋找使Bhattacharyya系數(shù)最大的中心位置,對式(5)在p(y0)處泰勒展開,得:
則選取目標中心位置為:
其中,g(·)為k(·)函數(shù)的導數(shù)。通過重復上述步驟,能夠實現(xiàn)目標跟蹤。
視覺跟蹤中的目標特征提取是在表征圖像信息的同時降低信息尺度的過程[14]。由于傳統(tǒng)MS跟蹤方法用矩形或橢圓形選定目標區(qū)域,在計算目標的顏色直方圖分布時會將部分相鄰背景的像素統(tǒng)計為目標像素,這種誤差容易導致MS跟蹤方法無法對目標準確跟蹤或跟蹤失敗。而運動特征能夠很好地彌補原始MS算法中這種用單一的顏色特征來描述跟蹤目標的缺陷。因此,采用這2個特征進行目標表示??紤]到傳統(tǒng)MS跟蹤方法中采用顏色直方圖來表征目標,故在本文中,采用顏色直方圖作為顏色特征,并通過光流場的計算來構造光流直方圖作為運動特征。
在顏色直方圖匹配問題上,本文采用改進的巴氏指標作為相似性度量的方法,該方法能夠抑制背景干擾,從而提升算法的跟蹤性能[15]。具體方法如下:
對目標區(qū)域進行延伸,選取面積1.44倍于目標區(qū)域的范圍為背景區(qū)域(則背景區(qū)域的長和寬都是1.2倍于目標區(qū)域),計算目標區(qū)域的顏色直方圖HO(v)和背景顏色直方圖HQ(v),則定義顏色區(qū)間v(設置顏色區(qū)間為16,故v為0~15的整數(shù))的置信度為[15]:
將其引入式(6),得到新的像素點權值公式:
如此所得到的結果抑制了背景對目標的影響。這種方法通過對背景中的像素進行直方圖計算,并用所得到的結果作為目標直方圖各個區(qū)間的權值,減小在背景中出現(xiàn)較多的顏色區(qū)間的權值,從而達到抑制目標區(qū)域中背景像素作用的目的。這種方法使算法不容易被與目標周圍背景顏色相近的物體影響。
MS跟蹤算法根據(jù)顏色直方圖對目標建模,用Bhattaharry系數(shù)作為相似性度量來確定運動目標在下一幀中的位置,從而實現(xiàn)目標的跟蹤。類似地,可以提取目標的光流直方圖來描述運動特征。
本文采取的光流計算方法是在Horn-Schunck[16]算法的基礎上通過一種由粗到精(Coarse-to-Fine)[17]的方法,得到2幅圖像之間點對點的對應關系,從而描述目標的運動場。每個像素點的光流由水平方向和豎直方向上的分量所組成的向量表示,即點i的光流表示為(xi,yi)。將計算得出的光流映射到16個區(qū)間,如圖1和圖2所示。圖1中的0~15對應x或y軸分量上光流的幅度大小。例如,點i對應光流矢量的x軸分量xi的映射結果為(8×xi/xmax+7)(最大幅值對應方向為正時)或(8×xi/xmax+8)(最大幅值對應方向為負時),其中xmax為該幀圖像所計算出的光流最大幅值。圖2中淺色的區(qū)域代表x軸方向的光流,深色區(qū)域代表y軸方向的光流。如此得到光流直方圖,并在后續(xù)的直方圖比較中采用巴氏系數(shù)作為直方圖相似性度量。
圖1 光流映射方式
圖2 光流映射直方圖
目標的運動特征模型,即初始幀和第二幀的目標區(qū)域所計算得的光流直方圖為:
其中,式(11)中各參數(shù)含義與式(1)一致。
由于在目標運動的過程中,光流會持續(xù)變化,因此光流模板必須不斷更新??紤]到光流在短時間內不會發(fā)生劇烈變化,本文應用在過去一段時間內的光流信息,采用以下公式進行模板的更新:
qt=((1-α)qt-1+αpt)
(12)
其中,qt和pt分別是第t幀的參考直方圖和當前幀直方圖,qt-1為第t-1幀的參考直方圖,α為模型更新率。在本文實驗中,通過大量測試,選定α取值為0.1。
光流直方圖利用了運動目標的方向信息,配合模型更新,能夠更準確地掌握目標的運動變化,從而達到提升算法精度的目的。
不同特征在面對不同環(huán)境時,往往有各自的優(yōu)缺點。因此,融合策略能否針對跟蹤場景的動態(tài)變化更好地表示目標至關重要。本文算法采用博弈論的思想進行特征融合,使不同特征在跟蹤中動態(tài)地達到最佳平衡,以提高特征表示的魯棒性。
博弈論主要用于在多個決策主體之間存在利益關聯(lián)或沖突時,根據(jù)自身能力和所掌握的信息,做出有利于自己或群體的決策[18]。博弈論中的均衡是一種策略組合,使得每個參與者都得到令自己滿意的決策結果。 常見的均衡主要包括上策均衡、納什均衡、防共謀均衡、顫抖手均衡、完美貝葉斯均衡等等。其中,納什均衡在博弈論中應用最廣泛。納什均衡的特點是,每個參與者的策略都是對其他參與者的最優(yōu)反應。這一特性最符合本文所期望的博弈結果,故在本文的博弈中采用納什均衡。
文獻[19]提出的基于博弈論的跟蹤算法采用了顏色特征和幀差法表示的運動特征進行融合跟蹤,取得了一定的效果。但幀差法對環(huán)境噪聲十分敏感,對顏色一致的運動目標在提取時容易出現(xiàn)目標內部的空洞,導致提取的目標不完整。因此,本文在文獻[19]的基礎上,提出改進算法。主要的改進內容有以下3點:
1)區(qū)別于文獻[19]所采用的顏色特征,本文采用改進的巴氏系數(shù)進行顏色特征的匹配。
2)相較于幀差法,采用運動信息更完整更豐富的光流法作為運動特征。
3)考慮到運動特征不斷變化的特性,對運動特征進行了模型更新。此外,區(qū)別于文獻[19]所采用的融合方式,在納什均衡的基礎上,尋求博弈的輕微利他均衡[20],使每一個參與者的收益都能夠受到其他參與者的決策影響,從而實現(xiàn)決策信息的交互。由于這種影響是輕微的,因此能夠避免影響過度導致某一特征被始終抑制的情況。
式(13)是依賴于ε的博弈中參與者i的收益函數(shù),除了自身收益fi(x)之外,還對其他n-1個參與者的收益有所考慮,因為ε一般較小,作用輕微,所以稱為輕微利他均衡。
從式(13)中可以看出,本文提出的融合框架不受特征數(shù)目的限制,只需要調整參與者集合N={1,2,…,n},并給出對應的ε,就能夠改變融合的特征及特征數(shù)量。
本文采取的博弈框架中特征數(shù)目為2個,記參與者集合為N={1,2},f1和f2為2個參與者的收益函數(shù),Y1和Y2為2個參與者的行動空間。其中,顏色特征和運動特征為兩參與者,圖像中的像素點位置視為參與者的行動空間。定義參與者的初始收益函數(shù)如下:
其中,ρ(qc,pc(y1))和ρ(qm,pm(y2))分別為顏色特征和運動特征的Bhattacharyya系數(shù)。
為達到博弈過程中信息交互的目的,根據(jù)式(13)引入輕微利他均衡,定義新的收益函數(shù)為:
其中,ρ(qc,pc(y1))和ρ(qm,pm(y2))的含義同式(14)。
由于不同場景下特征的可靠性不同,因此通過參考特征的可信度來設定參數(shù)ε的取值。在實驗過程中觀察發(fā)現(xiàn),當光流特征匹配的相似度大于0.9時,跟蹤結果較為準確,否則容易出現(xiàn)誤跟蹤的情況;另外,當顏色特征匹配的相似度大于0.85時,跟蹤結果較為準確,否則會出現(xiàn)跟蹤框漂移的情況。因此,分別將0.9和0.85作為光流特征和顏色特征可信度的閾值。當特征匹配的相似度大于閾值時,對其對應的ε取較大的值,否則,取較小的值,以此動態(tài)地調整該特征在跟蹤過程中的作用。
為確定不同情況下ε的取值,本文進行大量實驗測試。為避免出現(xiàn)信息交互的過程中,某一特征的影響過大而導致另一特征始終被抑制的情況,采用的是輕微利他均衡。因此,在對照實驗中,對ε的取值范圍為0.1~0.3。
實驗結果如表1所示。其中,ε1L表示當光流特征的可信度小于閾值時參數(shù)ε1的取值,ε1H表示該可信度大于或等于閾值時ε1的取值。同理,ε2L表示當顏色特征的可信度小于閾值時參數(shù)ε2的取值,ε2H表示該可信度大于或等于閾值時ε2的取值。表1數(shù)值為此取值下,綜合所有視頻的跟蹤結果得到的精度值(文獻[21]中定義)。
表1 參數(shù)ε取值變化對比
根據(jù)表1的結果比較,選取使得精度值最高的情況,對參數(shù)ε的取值規(guī)則設定如下:
1)ρ(qm,pm(y2))≥0.9時,ε1取0.2,否則,取0.1。
2)ρ(qc,pc(y1))≥0.85時,ε2取0.2,否則,取0.1。
基于兩特征博弈的跟蹤算法框架如圖3所示,具體跟蹤流程如下:
步驟1讀入連續(xù)兩幀圖像和前一幀圖像中目標的初始位置y0。
步驟2根據(jù)初始位置,分別計算顏色直方圖ρc(y0)和光流直方圖ρm(y0)。
步驟5分別將y1、y2代入式(5)分別計算相似度,輸出相似度較大的位置作為y;并將y→y0返回步驟2。
為對跟蹤結果進行定量分析,引入精度和成功率[21]作為評價指標來對算法進行對比分析。其中跟蹤精度由跟蹤結果的平均中心位置誤差得出,而成功率的大小取決于跟蹤結果對目標真實位置的覆蓋率。
由于算法限制,無法對灰度視頻進行目標跟蹤,因此將文獻[21]提供的50組視頻中的15組灰度視頻去除,對剩余的35組彩色視頻進行實驗。實驗結果如圖4所示。其中,算法名稱后的中括號中分別給出成功率值和精度值。部分跟蹤視頻結果比較如表2所示,其中,括號前的數(shù)字表示覆蓋率為0.5時的成功率,括號內的數(shù)字表示平均中心誤差(像素),粗體數(shù)據(jù)為每個圖像序列對應的最優(yōu)算法結果,斜體數(shù)據(jù)為次優(yōu)算法結果。
圖4 成功率與精度曲線對比
表2 部分跟蹤視頻結果比較
相比于對比算法,本文算法的成功率始終保持在較高水平,平均中心誤差保持在較低水平,成功率AUC值和精度值均為最高。表2的MountainBike視頻和Woman視頻,由于場景變化較為單一,且目標未出現(xiàn)明顯姿態(tài)變化,本文算法的跟蹤結果相較對比算法而言準確度稍遜。在其他視頻中,本文算法的結果均為最優(yōu)。在面對較為復雜的場景和目標變化時,本文算法具有更為明顯的優(yōu)勢。通過對實驗結果進行統(tǒng)計分析能夠看出,相較于與乘性融合和加性融合算法,本文算法的融合策略的跟蹤精度更高;相較于單一特征的算法,跟蹤性能具有明顯的提升。
從跟蹤速度上看,本文算法在實驗平臺上對35組視頻的跟蹤運行時間為平均2 frame/s,實時性良好。
為使不同特征在融合過程中能夠適應場景的變化,充分發(fā)揮各自優(yōu)勢,本文提出一種顏色和運動特征博弈融合的跟蹤算法。通過采用改進巴氏指標的顏色直方圖和光流直方圖進行博弈,并在MS的迭代下尋找使收益函數(shù)最大的目標中心位置,實現(xiàn)準確的目標跟蹤。在本文的跟蹤過程中,顏色特征和運動特征分別描述了目標的外觀信息和局部運動信息,并通過信息交互提升了算法的跟蹤性能。本文通過對35組實驗進行定量分析和定性分析,結果驗證了本文算法的有效性。在后續(xù)的工作中,將進一步研究更多魯棒特征的組合,以期得到魯棒性效果更好的特征跟蹤方法。