趙 亮,譚功全,周 晴,楊 鍇
(1.四川輕化工大學(xué)自動化與信息工程學(xué)院,四川 宜賓 644000;2.人工智能四川省重點(diǎn)實(shí)驗(yàn)室,四川 宜賓 644000)
目標(biāo)跟蹤在計算機(jī)視覺領(lǐng)域中具有重大研究價值[1],實(shí)時的目標(biāo)跟蹤在行人檢測、自動駕駛、視頻監(jiān)控等領(lǐng)域得到廣泛的應(yīng)用[2-3]。但在現(xiàn)實(shí)場景中,目標(biāo)由于遮擋、光照變化、運(yùn)動模糊等因素導(dǎo)致跟蹤效果不好,目標(biāo)丟失等問題[4]也經(jīng)常發(fā)生。因此,提高跟蹤成功率與準(zhǔn)確度成為跟蹤領(lǐng)域中的研究重點(diǎn)[5]。
相關(guān)濾波算法由于其速度快,精度較高,成為目前運(yùn)用廣泛的跟蹤算法[6]。Bolme 等[7]提出的MOSSE(Minimum Output Sum of Square Error)算法是最初應(yīng)用到核相關(guān)濾波的算法,跟蹤速度達(dá)到669 fps,但由于只能利用第一幀中的有限信息進(jìn)行學(xué)習(xí),導(dǎo)致訓(xùn)練樣本很少,因此很容易產(chǎn)生漂移現(xiàn)象[8],并且會讓跟蹤器不可恢復(fù)。因?yàn)槠渌俣瓤?,可移植性?qiáng),進(jìn)而CSK(Circulant Structure of Tracking with Kernels)算法在MOSSE 算法的基礎(chǔ)上加入正則項(xiàng),防止濾波器過擬合[9]。之后Henriques 等[10]提出的KCF(Kernelized Correlation Filter)算法使用HOG特征,并且引入循環(huán)矩陣和核函數(shù),使得相關(guān)濾波算法在保持高幀率的情況下跟蹤精度也有了極大提升。但由于算法使用單一的特征,而且缺少尺度更新機(jī)制,導(dǎo)致跟蹤魯棒性差。與此同時,Danelljan 等[11]也提出了使用顏色特征的CN(Color Name)算法。
2014 年,Li[12]提出將HOG 特征與CN 特征串聯(lián)融合的SAMF(Scale Adaptive and Multiple Feature)算法,在進(jìn)行目標(biāo)定位的同時求解最佳目標(biāo)尺寸。該算法的多尺度方法是使用尺度池的方式,將平移濾波器在多尺度縮放的圖像塊上進(jìn)行目標(biāo)檢測,然后計算檢測的響應(yīng)值,并取得響應(yīng)最大的平移位置及所在尺度,最后,在7 個尺寸上得到7 層響應(yīng),取最 大 響 應(yīng) 作 為 最 佳 尺 寸。Daneljan 等[13]提 出 的DSST(Discriminative Scale Space Tracker)算法同樣也加入了尺度變化,通過引入一維濾波器完成目標(biāo)的尺度估計。此算法僅使用了HOG 特征,在使用位置濾波器檢測響應(yīng)值最大的位置的同時,又訓(xùn)練了檢測最佳尺度的尺度濾波器。該尺度濾波器取33個尺度,并計算這些尺度和原圖片的響應(yīng)值,在響應(yīng)最大處取得最佳尺度。近幾年基于深度學(xué)習(xí)的跟蹤方法也層出不窮,例如基于孿生網(wǎng)絡(luò)的SiamFC算法[14]、采用RPN 網(wǎng)絡(luò)對目標(biāo)尺度回歸的SiamRPN算法[15]以及增加分割功能的SiamMask算法[16]。
在核相關(guān)濾波的框架基礎(chǔ)上,本文研究了不同特征的變化規(guī)律,以及被跟蹤目標(biāo)所發(fā)生的尺度變化,提出一種自適應(yīng)目標(biāo)尺度更新方式。并且在特征提取上進(jìn)行HOG 特征與CN 特征自適應(yīng)融合,從而改進(jìn)跟蹤算法。
線性嶺回歸的目標(biāo)函數(shù)可表示為:
式中:函數(shù)f為分類函數(shù),xi為樣本,yi為樣本標(biāo)簽,λ為正則化參數(shù),防止過擬合現(xiàn)象,w為濾波器系數(shù)。嶺回歸具有閉解式如下:
式中:I為單位矩陣,X為循環(huán)矩陣,y為樣本標(biāo)簽矩陣,式(2)在復(fù)數(shù)域中為:
式中:XH為X的共軛轉(zhuǎn)置。
假設(shè)有一個一維數(shù)組x=[x1,x2,…,xn],通過構(gòu)造循環(huán)矩陣對x進(jìn)行循環(huán)移位,使負(fù)樣本的數(shù)量增加,循環(huán)移位算子P為置換矩陣:
其中:u為向量x的元素向右平移的單位數(shù)。當(dāng)進(jìn)行了n次移位后就得到最終樣本矩陣X,由式(5)得到的集合可計算出最終樣本:
所有的循環(huán)矩陣在傅氏空間中可使用離散傅里葉矩陣進(jìn)行對角化得到:
式中:α為w的對偶空間變量,k為核函數(shù),z為檢測樣本集。對核函數(shù)使用循環(huán)技巧,可得到嶺回歸方程的解為:
該算法只需要進(jìn)行簡單的點(diǎn)乘、傅里葉與反傅里葉變換,因此運(yùn)算速度大大提高。通過以上步驟可獲得濾波器模板,在下一幀的此區(qū)域附近通過循環(huán)移位得到的樣本集z,濾波器與z相關(guān)響應(yīng)的傅里葉變換可得到:
跟蹤過程中由于目標(biāo)外觀發(fā)生變化,長時間的跟蹤會使效果變差,進(jìn)而引入了模板更新機(jī)制,主要是采用線性內(nèi)插法更新分類器的α^ 與目標(biāo)特征向量x^:
筆者認(rèn)為,醫(yī)院建筑設(shè)計中最核心的問題是如何最大限度滿足使用者的需求,并處理好該建筑與自然之間的關(guān)系。指導(dǎo)建筑設(shè)計,著名建筑師章斌歡女士曾指出:新世紀(jì)的建筑,無論是整體規(guī)劃還是單體建筑的外部設(shè)計或內(nèi)部功能,無論是從物質(zhì)上還是從精神上“以人為中心”-“以人為本”的設(shè)計思想已是無可爭論的。因此,建筑設(shè)計師不應(yīng)只是以建筑物的功能為設(shè)計的出發(fā)點(diǎn),而應(yīng)該在設(shè)計的過程中充分考慮使用者的需求、使用者的主觀感受以及建筑本身與自然之間的和諧關(guān)系等等。
式中:t為視頻的幀數(shù),β為線性內(nèi)插因子,能長時間跟蹤目標(biāo)。但由于KCF 算法中只有單一的HOG 特征,導(dǎo)致跟蹤中存在魯棒性差、尺度不更新等問題。
目標(biāo)跟蹤的重要一步為特征提取,一種合適的特征提取方式可以很大程度地提高跟蹤效果。傳統(tǒng)的算法大多應(yīng)用的是單一特征[17]。但是任何單一的特征都有其側(cè)重點(diǎn),如HOG 特征是在圖像的局部方格單元上操作,所以它對圖像幾何的和光學(xué)的形變都能保持很好的不變性。但是由于梯度的性質(zhì),使其對噪點(diǎn)比較敏感。而顏色特征作為一種全局特征,可以很好地描述圖像區(qū)域內(nèi)對應(yīng)景物的表面性質(zhì),且不受目標(biāo)大小和形狀的影響,使其具有旋轉(zhuǎn)不變性[18],但是強(qiáng)烈的光照變化會使目標(biāo)丟失。因此,兩種特征可以達(dá)到很高程度的融合[19],將二者結(jié)合起來,會使其達(dá)到特征的優(yōu)缺點(diǎn)互補(bǔ)的目的。
近幾年優(yōu)秀的目標(biāo)跟蹤算法大多采用特征融合的方式[20]。在理論上,融合的特征越多,跟蹤效果越好,但是相應(yīng)的,速度會越來越慢,而且融合的特征越多,會更大幾率導(dǎo)致提取的特征冗余。因此,大多數(shù)算法融合的特征不超過3 種[21]。本文嘗試采用梯度和顏色特征相融合,重點(diǎn)解決目標(biāo)運(yùn)動模糊和光照變化產(chǎn)生的影響。
首先,通過前一幀提取的目標(biāo)特征和所訓(xùn)練的濾波器進(jìn)行匹配,根據(jù)匹配得到的響應(yīng)分?jǐn)?shù),得到的最大響應(yīng)分?jǐn)?shù)即為目標(biāo)位置。并且得到的最大響應(yīng)分?jǐn)?shù),取決于當(dāng)前幀的CN 特征和HOG 特征所占用的特征比重。因此,為了得到兩種特征最優(yōu)的比重,對候選樣本進(jìn)行建模,得到特征模型RCNt和RHOGt,采用式(13)可以得到第t幀HOG 特征和CN 特征值之比μ為:
式中:RCNt與RHOGt分別為第t幀CN特征值和HOG特征值。將式(13)中得到的權(quán)重進(jìn)行特征模型融合,可求得:
由式(14)計算得到的特征模型與濾波器進(jìn)行匹配,然后算出最大響應(yīng)值,進(jìn)而確定目標(biāo)位置。
特征自適應(yīng)融合的方法,在光照變化等條件下,對HOG 特征的使用效果更好,則提高HOG 特征的權(quán)重。相反,在目標(biāo)發(fā)生運(yùn)動模糊的情況下,則使用CN 特征的效果更好。因此,使用兩者自適應(yīng)融合能提高對目標(biāo)的特征判別能力。
首先,通過特征點(diǎn)檢測的方式得到特征點(diǎn)的位置和尺度,并在當(dāng)前幀的目標(biāo)處采用BRISK 特征采樣。匹配當(dāng)前幀和下一幀的兩個BRISK 特征,采用漢明距離計算它們之間的匹配度,若小于閾值,代表匹配不成功。反之,若兩幀之間的匹配度大于閾值,則使用RANSAC 方法去除匹配點(diǎn)并計算仿射變換矩陣Pi且與下一幀目標(biāo)進(jìn)行比較,判斷尺度變化。設(shè)當(dāng)前幀特征點(diǎn)位置為[xi yi]T,下一幀特征點(diǎn)位置為[xi+1yi+1]T,則可得到:
其中:bx和by分別表示目標(biāo)在橫、縱坐標(biāo)上的移位,cx和cy分別表示目標(biāo)在橫、縱坐標(biāo)上的縮放值。
圖1 所示為dog 視頻兩幀之間BRISK 特征的尺度對比圖。圖1中采集到小狗的特征進(jìn)行兩幀之間的匹配,匹配效果明顯,可以由匹配結(jié)果看出目標(biāo)在變小。
圖1 dog視頻兩幀之間BRISK特征尺度對比
為了驗(yàn)證本文算法效果,本文在OTB2013 數(shù)據(jù)集上的不同屬性集下,和另外兩種對于KCF 算法改進(jìn)的SAMF算法和DSST算法進(jìn)行了實(shí)驗(yàn)對比。
實(shí)驗(yàn)仿真軟件為Windows10 系統(tǒng)下的MATLAB2018b,實(shí)驗(yàn)用到的計算機(jī)配置為AMD Ryzen 5 4600H with Radeon Graphics 3GHz 的處理器,運(yùn)行內(nèi)存為16 GB。
針對傳統(tǒng)KCF 算法存在的光照變化(Illumination Variation)、運(yùn)動模糊(Motion Blur)、發(fā)生遮擋(Occlusion)等情況,加入顏色特征與尺度變化進(jìn)行改進(jìn),得到部分算法對比的精度與成功率。
圖2 所示為光照變化情況下的測試結(jié)果。圖2中可見,在光照變化的條件下,僅加入HOG 特征的DSST 算法,要比同時加入兩種特征的SAMF 算法效果好。KCF_ours 由于采用自適應(yīng)特征融合的方式,在光照變化下,CN 特征所占的權(quán)重會減小,HOG 特征增大,因此在準(zhǔn)確率和成功率上分別比SAMF 算法提高了2.8%和0.6%。相較于KCF 算法在精度和成功率上分別提升3.1%和17.2%。
圖2 光照變化屬性視頻序列下準(zhǔn)確率和成功率
圖3所示為在目標(biāo)運(yùn)動模糊的情況下的測試結(jié)果。圖3中可見,雙特征融合的SAMF與KCF_ous算法的優(yōu)勢就凸顯出來。但KCF_ours 算法應(yīng)用的BRISK的尺度自適應(yīng)特征,要比SAMF算法的7個尺度池特征在運(yùn)行速度上更快,當(dāng)目標(biāo)快速運(yùn)動導(dǎo)致模糊情況下的效果更好。在準(zhǔn)確率與成功率上分別比KCF 算法提高了10.4%和10.8%。而DSST 算法采用33個精細(xì)的尺度特征,反而比KCF算法在準(zhǔn)確率與成功率上分別下降了9.5%和7.9%。
圖3 運(yùn)動模糊屬性視頻序列下的準(zhǔn)確率和成功率
圖4所示為在遮擋屬性視頻序列下的準(zhǔn)確率圖和成功率圖。在目標(biāo)發(fā)生遮擋情況下使用BRISK的尺度自適應(yīng)特征要比SAMF 算法的尺度池方法效果更好,即便在半遮擋的情況下也會識別到目標(biāo)位置。其準(zhǔn)確率和成功率分別比KCF 算法提高20.8%和32.5%。
圖4 遮擋屬性視頻序列下準(zhǔn)確率和成功率
圖5所示為所有視頻序列下的測試結(jié)果。本文算法在準(zhǔn)確率上比SAMF 算法略有提高,在成功率上稍有下降。但跟蹤速度幾乎為SAMF 算法的兩倍,且相比于KCF 算法在準(zhǔn)確率和成功率上分別提升了9.3%和17.7%。
根據(jù)實(shí)驗(yàn)中每種算法處理數(shù)據(jù)集的平均速度,得到4種算法的平均跟蹤速度,見表1。KCF算法只采用了HOG特征,平均速度達(dá)到246.23 fps,DSST算法在此基礎(chǔ)上增添了尺度特征,速度達(dá)到51.32 fps。SAMF 算法既增添了尺度特征,又加入了特征融合,效果很好但是速度偏慢。KCF_ours 算法采用自適應(yīng)特征融合和BRISK 尺度特征,因此跟蹤效果更好,跟蹤速度相對SAMF 算法也更快,達(dá)到45.88 fps。
表1 4種算法的跟蹤速度
圖6 所示為算法跟蹤示例,其中紅色、綠色、黃色和藍(lán)色的跟蹤框分別代表KCF 算法、SAMF 算法、DSST 算法和本文提出的算法。由圖6 可見,第一行圖片為OTB2013 數(shù)據(jù)集的CarScale 圖像序列,圖像序列中主要涉及了尺度變化,KCF 算法由于沒有尺度特征,以至于在小車尺度變大時跟蹤框還維持初始大小。SAMF算法的尺度特征為7個尺度池,如果參數(shù)設(shè)置得緊密,在目標(biāo)發(fā)生快速的尺度變化時,跟蹤框無法及時擴(kuò)大。DSST 算法應(yīng)用33 個尺度來判斷每幀的變化,所以只有本文算法與DSST 算法跟蹤效果較好。第二行為Soccer 圖像序列,其中主要涉及遮擋和輕微的運(yùn)動模糊,在第277幀,KCF 算法由于目標(biāo)運(yùn)動模糊導(dǎo)致跟蹤丟失。同樣DSST 算法和SAMF 算法在目標(biāo)發(fā)生遮擋的情況下跟蹤丟失,但SAMF 算法由于目標(biāo)特征變化太快,尺度池的尺度變化更明顯,導(dǎo)致跟蹤框不斷擴(kuò)大。只有本文算法的尺度特征跟蹤效果良好。第三行為Singer圖片序列,其中主要涉及光照和逐漸變小的尺度變化。KCF 算法在目標(biāo)尺度變小后就逐漸跟蹤丟失,在177 幀,由于強(qiáng)烈的光照變化,SAMF 算法明顯比DSST算法和本文算法的跟蹤框變大,只有本文算法和沒有加入顏色特征的DSST 算法效果較好。因此,本文算法在目標(biāo)發(fā)生光照變化、尺度變化和目標(biāo)遮擋等情況下都始終能穩(wěn)定地跟蹤目標(biāo)。
圖6 跟蹤示例
在KCF 算法的基礎(chǔ)上,通過研究KCF 算法的不足,進(jìn)行特征融合和尺度自適應(yīng)的改進(jìn)方面提出一種新的算法。首先在HOG特征的基礎(chǔ)上加入CN特征,進(jìn)行特征融合,之后通過BRISK 特征匹配方式判斷目標(biāo)的尺度變化。實(shí)驗(yàn)表明,本文算法提高了目標(biāo)存在光照變化、運(yùn)動模糊、遮擋等情況下的成功率與精度,跟蹤性能較好,并且跟蹤速度達(dá)到45.88 fps,滿足實(shí)時跟蹤性能。