亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于圖像伺服控制的TLD算法

2019-12-11 02:20:08王光庭

山東理工大學學報(自然科學版) 2019年1期

關(guān)鍵詞：特征模型

劉豪，曹凱，王光庭

(山東理工大學交通與車輛工程學院，山東淄博 255049)

目標跟蹤一直是計算機視覺研究的熱點。雖然目標跟蹤已經(jīng)有成功案例，但對特征點不明顯的目標進行跟蹤仍然非常具有挑戰(zhàn)性[1]。

許多跟蹤方法采用靜態(tài)模型，即手動定義跟蹤目標，對第1幀圖像進行訓練[2]。但這些方法往往會因目標表面出現(xiàn)重大變化而出現(xiàn)跟蹤困難的現(xiàn)象，如何降低干擾是目標跟蹤成功的關(guān)鍵[3]。

隨著計算機技術(shù)的發(fā)展，目標跟蹤技術(shù)也獲得了軟硬件上的支撐，并伴隨著獲得了巨大的發(fā)展。其中，TLD算法是由英國薩里大學的捷克籍博士生Zdenek Kalal，在其攻讀博士學位期間提出的一種新的單目標、長時間跟蹤算法[4]，該算法雖然實現(xiàn)了對目標的跟蹤，但運行速度較慢，甚至會出現(xiàn)卡頓現(xiàn)象，并且受光照變化影響比較大，抗干擾能力較差。國內(nèi)學者也對TLD算法做了一定研究。龔小彪[5]在TLD算法的基礎(chǔ)上提出了基于卡爾曼濾波等三種抗遮擋的算法；吳忠文等[6]提出了根據(jù)圖像的大小進行動態(tài)掃描的方法；谷文華等[7]將粒子濾波算法與TLD算法結(jié)合，實現(xiàn)目標的跟蹤。雖然以上學者對TLD算法進行了一定改進，但算法的實時性與魯棒性整體不太理想，并且運算速度也比較慢。本文采用基于圖像視覺伺服的方法來控制在目標跟蹤過程中出現(xiàn)的誤差累積，以試圖將誤差控制在理想范圍內(nèi)。

1 TLD算法

1.1 TLD架構(gòu)

TLD(Tracking Learning Detection)是一種新型且高效的跟蹤架構(gòu)，該架構(gòu)分為三個部分：跟蹤器，學習器和檢測器?？蚣苋鐖D1所示。此架構(gòu)的應(yīng)用前提是設(shè)定的目標物必須是可見的。跟蹤器計算出連續(xù)的視頻幀之間目標發(fā)生的運動，檢測器把視頻分解成一幀幀的圖像，掃描圖像全局得到圖像的特征，在掃描的過程中，無論是正樣本還是負樣本都會不可抗拒地出現(xiàn)錯誤信息，而學習器則根據(jù)跟蹤器和檢測器出現(xiàn)的錯誤信息進行不斷地自我修正，囊括更多的目標特征，并產(chǎn)生更多的背景信息[8]。

圖1 TLD結(jié)構(gòu)框架Fig.1 the block diagram of the TLD framework

1.2 P-N學習機制

P-N學習(P-N learning)作為一種半監(jiān)督在線學習的機制，能夠有效提高外觀模型的的整體性能,評估當前檢測器，指出其錯誤并進行及時修正，以保證實時跟蹤的有效性。這一過程的實現(xiàn)主要是把檢測器的錯誤用兩種類型的約束進行標記，用正約束標記錯誤的負樣本，用負約束標記錯誤的正樣本[9]。

本節(jié)討論的P-N學習方法如圖2所示。P-N學習首先從標記的數(shù)據(jù)中訓練出一個分類器，這個分類器的作用是將數(shù)據(jù)進行迭代處理：(i)通過分類器標記未標記的數(shù)據(jù)，(ii)識別并重新標記違反了結(jié)構(gòu)約束的樣本，(iii)拓展訓練集合，(iv)分類器再訓練。設(shè)x是特征空間X的一個實例，y是標簽空間Y={-1,1}的一個標簽，實例X和標簽Y組成標簽集合，用(X,Y)表示。P-N學習的任務(wù)是學習一個分類器f：x→y是來自先驗標記集合(Xl,Yl)，并且，未標記的數(shù)據(jù)Xu引導其表現(xiàn)。

圖2 P-N學習方法Fig.2 The illustration of the P-N learning approach

(2)

1.3 P-N學習模型

P-N學習模型由P結(jié)束和N約束構(gòu)成，評價約束質(zhì)量的4個指標如下:

(1)P+,P約束的精度，其值為正確的正樣本數(shù)除以P約束的樣本總數(shù)，即

(3)

(2)R+,P約束的查全率，其值為正確的正樣本數(shù)除以錯誤的負樣本數(shù)，即

(4)

(3)P-，N約束的精度，其值為正確的負樣本數(shù)除以N約束的樣本總數(shù)，即

(5)

(4)R-,N約束的查全率，其值為正確的負樣本數(shù)除以錯誤正樣本數(shù)，即

(6)

在這里假設(shè)約束在整個訓練過程中都是固定的，因此時間指數(shù)從標記中被去掉了。在k次迭代中，正確和錯誤的樣本的數(shù)量被表達如下:

(7)

(8)

(9)

(10)

將式(1)、式(2)與式(7)-(10)合并，得到：

(11)

(12)

(13)

(14)

最終將方程轉(zhuǎn)化為

(15)

圖3 矩陣M的特征值λ影響分類器錯誤演變的示意圖Fig.3 The diagram of how eigenvalue λ of matrix M affects the error evolution of classifier

矩陣M表示分類器錯誤二維空間的一個線性變換，特征值可以理解為沿著特征向量收放的比例系數(shù)。如果比例小于1，那么每次迭代中都會減少錯誤。在實際過程中，也并不可能識別分類器的所有錯誤，因此，訓練結(jié)果不收斂于無誤差分類器，但仍可以保持一個穩(wěn)定的水平，即將不完美的約束進行組合，仍然可以將錯誤取消。P-N學習不對任何約束有要求，即便約束條件的精度很低也能使用，只要矩陣M的特征值小于1。

2 圖像伺服控制

2.1 視覺系統(tǒng)

如表1所示，相機模型大體可分為針孔模型、球面模型和統(tǒng)一化模型[10]。

視覺伺服中的視覺反饋按照反饋方法總體上可分為三類：圖像特征的視覺反饋、基于位置的圖像反饋和多視圖幾何方法的視覺反饋。其中, 基于圖像特征的視覺反饋方法提取圖像的特征點，這些特征點包括了點、線、面等多種視覺特征，并以這些特征為依據(jù)進行識別追蹤；基于位置的視覺反饋方法將視覺系統(tǒng)的動態(tài)模型轉(zhuǎn)化為目標識別和定位, 即通過定位來尋求目標位置，從而簡化了整個系統(tǒng)控制器的設(shè)計,對目標追蹤的應(yīng)用相對簡便，但是一般需要已知目標物的模型, 且對圖像噪聲和相機標定誤差較為敏感；多視圖幾何的方法將多張二維的圖像還原出三維的實際物體，即一個三維重建的過程。整體來說，基于圖像特征的方法穩(wěn)定性更高，目標識別和跟蹤主要采用此方法[11]。

表1 相機模型
Tab.1 Camera models

模型應(yīng)用范圍優(yōu)點缺點針孔模型透視相機簡便、畸變小范圍小球面模型全景相機視野廣、旋轉(zhuǎn)不變畸變大、模型復雜統(tǒng)一化模型各種相機旋轉(zhuǎn)不變、歸一化畸變大、模型復雜

2.2 控制系統(tǒng)

在圖像視覺伺服系統(tǒng)中，控制系統(tǒng)的最終目的就是控制誤差，求得最小誤差e(t)，e(t)=s[m(t),a]-s*?；趫D像的控制方案一般都采用圖像平面的一組點構(gòu)成視覺特征集合s。圖像測量m通常是圖像點集合的像素坐標，而且相機固有參數(shù)a就是用于把像素的圖像測量變換到特征點。

在相機里一個三維的坐標點表示為X=(X,Y,Z)，轉(zhuǎn)化為圖片一個二維的坐標點表示為x=(x,y)，由此可以得到

(16)

m=(u,v)是用像素單位表示的圖像點的坐標，a=(u0,v0,px,py)是相機固有參數(shù)的集合，u0和v0是主要特征點坐標，px和py是焦距和像素大小的比值。攝像機的空間速度為vc=(vc,ωc)，vc是像機原點的瞬時線速度，ωc像機原點的瞬時角速度。由此，特征集合s以及空間速度的關(guān)系為

其中矩陣Lx為

(17)

當目標選定之后，基于伺服控制的TLD算法經(jīng)過以下步驟：

(1)設(shè)置當前目標，選定初始幀為i=0；

(2)TLD算法對該幀圖片提取特征點，進行計算；

(3)攝像頭通過TLD的計算對目標進行跟蹤；

(4)IBVS對圖像進行誤差控制，并將誤差反饋給TLD；

(5)跟蹤是否成功，如果成功，當前幀替換上一幀圖片作為新的跟蹤目標，i=i+1；如果不成功則重新選定目標。

該步驟如圖4所示。

圖4 目標跟蹤示意圖Fig.4 Target tracking schematic diagram

3 實驗

3.1 實驗結(jié)果

在TLD算法的基礎(chǔ)上，加入圖像視覺伺服控制以減小誤差，用實驗來認證跟蹤是否有效，并評估其跟蹤的魯棒性，在不同的環(huán)境下，設(shè)置不同的干擾因素來多次試驗，這包含了對不同目標(人，物體等)的跟蹤，不同干擾因素(遮擋，光照等)條件下的試驗，試驗部分如圖5—圖8所示。

(a)追蹤前 (b)初始追蹤 (c)5 min后追蹤圖5 人臉跟蹤Fig.5 Face tracking

(a)追蹤前 (b)初始追蹤 (c)5 min后追蹤圖6 二維碼跟蹤Fig.6 QR code tracking

(a)追蹤前 (b)初始追蹤 (c)5 min后追蹤圖7 錢包跟蹤Fig.7 The wallet tracking

(a)追蹤前 (b)初始追蹤 (c)5 min后追蹤圖8 人臉跟蹤Fig.8 Face tracking

實驗由4組實驗樣本組成，分別展示了對人臉、二維碼、錢包的追蹤，每一組實驗截取了(a)，(b)，(c)三張圖，(a)表示了對目標追蹤前實驗系統(tǒng)的成像狀態(tài)，(b)表示的是選取目標后進行的初始追蹤狀態(tài)，(c)表示的是進行5 min之后的追蹤狀態(tài)。

從實驗結(jié)果來看，所采用的方法對人臉的追蹤效果最理想，幾乎可以完美地對目標進行長時間跟蹤，即便在中間過程中使用遮擋物遮擋，或是目標離開攝像頭一段時間，而當目標再次回歸到可視窗口時仍能進行繼續(xù)的跟蹤；對二維碼的追蹤效果同樣是有效的，并且追蹤的魯棒性較高；而當對作者使用的錢包進行追蹤時，其追蹤的表現(xiàn)性較差，當目標物振動劇烈時，偶爾存在跟蹤丟失現(xiàn)象，并且重現(xiàn)追蹤會有較長的反應(yīng)時間。

對于前兩個目標，從目標本身來講具有較明顯的特征，所設(shè)計的系統(tǒng)對于特征點的提取較為容易。而對于錢包來講，由于整個二維表面特征點不夠突出，與背景區(qū)別相比較于前兩個較小，所以其追蹤效果不理想也在預(yù)料之中。其中，圖5與圖8的試驗對比中，圖5光照條件理想，背景與目標區(qū)別顯著，圖8光照條件較為昏暗，但兩者依然追蹤效果理想，所以本系統(tǒng)在對特征點較為明顯的目標進行追蹤時，幾乎可以不受光照限制。

3.2 實驗對比

本文從樣本數(shù)量、運算速度和正確率三個方面與原始算法對比，結(jié)果如下。

圖9 輸入樣本數(shù)量對比圖Fig.9 Comparison chart of input sample size

如圖9所示，虛線表示的是原始的TLD算法在目標跟蹤中產(chǎn)生的樣本數(shù)量，實線是改進后產(chǎn)生的樣本數(shù)量。改進后的樣本數(shù)量由于伺服控制的反饋降低了TLD算法本身的計算量，從而加快了算法的運行速度，進而也保證跟蹤的實時性。

表2 原始算法與改進后算法運算速度對比
Tab.2 The speed comparison between original and improved algorithms

視頻庫總幀數(shù)原始算法運算速度/幀· s-1改進后算法運算速度/幀· s-1人臉二維碼錢包153315011486252421413935

表2中表示的是原始TLD算法與改進后的算法運算速度的比較，人臉與二維碼的特征點相對于錢包較為明顯，所以其運算速度較快。

表3 原始算法與改進后算法正確率對比
Tab.3 The accuracy comparison between original algorithm and improved algorithm

視頻庫總幀數(shù)原始算法正確幀數(shù)改進后算法正確幀數(shù)人臉二維碼錢包153315011486153313721208153314271374

表3表示了算法改進前后對目標跟蹤準確率的對比，改進后的算法在準確率上也有提高。

4 結(jié)束語

本文將圖像視覺伺服控制應(yīng)用到TLD算法中,從整體實驗效果來看，基于圖像視覺伺服的TLD算法目標追蹤應(yīng)用廣泛，對于特征點明顯的目標追蹤效果顯著，對光照因素要求不高，但是在對特征點不明顯，與背景對比差異較小的目標追蹤時，效果不夠理想，但也能基本完成對目標的追蹤。同時，改進后的算法在運算速度以及正確率上都有所提高。但該方法仍具有不足之處，如何更好地提取特征點，如何將特征集合的誤差控制到更小，這都將是作者后續(xù)工作中要解決的問題。