曹偉,韓華,王裕明,孫憲坤
跨攝像頭目標(biāo)再確認是目前多攝像機智能監(jiān)控領(lǐng)域的一個重點研究方向[1],如何在不同的光照條件、不同的行人姿態(tài)以及不同尺度甚至遮擋等復(fù)雜環(huán)境下實現(xiàn)不同監(jiān)控攝像頭下的同一目標(biāo)的再確認,是現(xiàn)在智能監(jiān)控領(lǐng)域研究的熱點。能否在復(fù)雜的環(huán)境中快速地匹配到同一目標(biāo)的關(guān)鍵點在于能否找到目標(biāo)在時間、空間上的不變特性以及選擇合適的匹配算法。
目前最先進的算法對VIPeR(viewpoint invariant pedestrian recognition)數(shù)據(jù)庫的視頻目標(biāo)進行再確認的正確率為40%,處于比較低的水平[2]。根據(jù)上文所述,目標(biāo)再確認主要的研究方法分為兩類:目標(biāo)外觀特征類和度量算法類。而目標(biāo)外觀特征類的研究又可以歸納為3類:1)依據(jù)目標(biāo)本身的整體特征進行描述,如文獻[3-9]通過建立整體相關(guān)特征顏色直方圖進行目標(biāo)再確認;2)基于目標(biāo)本身的局部特征進行目標(biāo)匹配,如文獻[10-13]通過訓(xùn)練大量樣本得出的數(shù)據(jù)作為匹配函數(shù),依據(jù)目標(biāo)本身的顏色特征、紋理特征進行目標(biāo)的再確認;3)通過整體和局部多特征融合來匹配目標(biāo),如文獻[14-18]通過人體本身的局部LBP(local binary patterns)特征、SIFT(scale-invariant feature transform)特征以及整體的顏色特征進行描述,來完成目標(biāo)再確認。度量算法類的研究方向相對特征類方法而言,對目標(biāo)外觀特征的要求較低,更多地依賴選擇和訓(xùn)練優(yōu)秀的度量函數(shù)。比如,ERSVM方法[19]采用基于相對距離排序的SVM分類器集成多個特征向量權(quán)重;文獻[20]采用多核SVM學(xué)習(xí)的方法融合顏色和視覺單詞直方圖;文獻[21]采用直方圖交叉核;文獻[22]采用夾角余弦法等相似度量函數(shù)進行目標(biāo)匹配。
以上兩類方法在目標(biāo)再確認過程中,度量算法類對特征的選擇要求較低,通常能取得更好的再確認效果。但其訓(xùn)練的時間和空間復(fù)雜度較高,且場景和圖庫變化時需要重新訓(xùn)練。目標(biāo)外觀特征類方法則需要人為地尋找和設(shè)計較好的特征,該方法的性能依賴于特征的優(yōu)劣程度。本文受兩類方法優(yōu)點的啟發(fā),在特征類方法的思路下設(shè)計和構(gòu)造優(yōu)秀的特征;同時在度量算法類方法的思路下,引入物理學(xué)科中的熱擴散原理作為度量函數(shù)[23],并最終建立基于優(yōu)化的擴散距離的度量函數(shù)完成目標(biāo)再確認。
基于上文所述,引入度量算法的基礎(chǔ)來源于擴散距離。擴散距離是物理學(xué)中用于描述熱力場中存在的一種擴散現(xiàn)象的,國外學(xué)者Ling等[23]曾提出了一種非線性基于擴散現(xiàn)象和距離判斷方式二者結(jié)合的擴散距離,它是模擬熱擴散和記錄隨機擴散遍歷的時間計算兩點之間的距離。這使得擴散距離具有可以很好地描述目標(biāo)間相似性的特性,同時,傳統(tǒng)度量算法存在諸多缺點,比如:對圖像形變比較敏感;缺少考慮像素間的空間關(guān)系;較小的形變就能使距離計算變化較大,從而產(chǎn)生誤匹配等,而擴散距離的引入克服了以上不足。基于擴散距離的眾多優(yōu)點,因此本文引入擴散距離,并對其進行優(yōu)化,構(gòu)造出優(yōu)秀的相似性度量函數(shù),以完成對行人目標(biāo)的再確認。
目標(biāo)再確認過程中,描述每個目標(biāo)的外觀相當(dāng)于從目標(biāo)身上找到可辨識性的特征。在描述目標(biāo)特征時,直方圖是目前應(yīng)用最廣泛的的外觀描述器。但是,大部分基于直方圖的方法,其不足之處是缺少特征分布的空間信息。比如,基于直方圖的方法不能分辨出一個穿著白色襯衫和黑色褲子的行人與另一個穿著黑色襯衫和白色褲子的行人是否是不同的。
因此,文中提出了一個新穎而簡單的方法:基于兩級區(qū)域的直方圖提取方法。首先,提出的第一級區(qū)域為:行人整個身體區(qū)域(Hglobal)顏色直方圖;提出的二級區(qū)域為:行人的上半身區(qū)域(Htor)和腿部區(qū)域(Hleg)如圖1所示。圖中(a)、(d)為一級區(qū)域身體直方圖,圖(b)、(e)為二級區(qū)域身軀直方圖,圖(c)、(f)為二級區(qū)域腿部直方圖。
圖1 兩級區(qū)域直方圖Fig. 1 Two levels of area histogram
圖1 (a)、(d) 一級所提取的Hglobal直方圖,(d)直方圖中的3個峰值在(a)直方圖中可以找到相似的對應(yīng),因此單純靠全局直方圖很難發(fā)現(xiàn)目標(biāo)是兩個不同的人;通過對圖1中的兩個原始圖像分別提取身軀段和腿部段的Htor和Hleg直方圖,對應(yīng)于二級,如圖1左圖中的(b)、(c)和圖1右圖中的(e)、(f)所示,對比圖1(b)和圖1(e),可發(fā)現(xiàn)兩者身軀直方圖明顯不同,同時對比圖1(c)和圖1(f)也能發(fā)現(xiàn)兩者的腿部直方圖也是明顯不同的,可以通過局部直方圖的差異,發(fā)現(xiàn)兩目標(biāo)并不是同一個人。通過上述方法可以有效地提取顏色的空間信息,并區(qū)分出圖1兩個行人的不同。
人體目標(biāo)本身具有很多穩(wěn)定不變的特征,這些不變特征在應(yīng)對因光照變化或細微的肢體動作變化時具有很好的魯棒性。因此,為了更好利用這些優(yōu)勢特征來克服由于光照變化或其他因素所帶來的干擾,本文在下文中會從整體特征和局部特征兩方面來介紹本文所提取的這些優(yōu)勢多特征,實驗表明,使用這些多特征中的任何一類進行匹配時,識別率都不太理想,但結(jié)合下文中的多特征進行目標(biāo)再確認時,可以很大程度上提高目標(biāo)的識別率。
整體特征使用基于一級區(qū)域(圖1中Level 1)的RGB顏色直方圖進行粗識別。在提取RGB顏色直方圖時,本文將R、G、B 這3個通道分別進行量化。而量化過程中存在兩個極端問題:粗量化會造成大量的可辯別性信息被放棄,細量化會生成稀疏直方圖。本文在3個通道使用相同的量化級數(shù)32bins。通過大量實驗驗證了本文所使用的32bins具有較好的可辨別性和準(zhǔn)確性。通過圖1可以很清楚地體現(xiàn)出來。
局部特征相對整體特征而言更加注重局部小范圍特征的不變性,采用更細膩的特征描述子或者具有較強魯棒性的特征來進行匹配。觀察大部分行人目標(biāo)的Htor和Hleg特征發(fā)現(xiàn):最顯著的局部差異特征仍是顏色特征,實驗過程中發(fā)現(xiàn)使用顏色特征應(yīng)對攝像機鏡頭旋轉(zhuǎn)變化所造成的差異具有很好的辨別性。所以在下文中的局部特征表述過程中,基于上文中二級區(qū)域Htor和Hleg的基礎(chǔ)上,為了使人體目標(biāo)取得更佳的匹配效果使用GrabCut[24]背景去除法,將干擾背景(頭部也當(dāng)作背景)進行去除,同時將RGB顏色通道模型和加權(quán)HSV顏色通道模型作為主要的局部特征;而另一方面考慮到局部人體目標(biāo)的表象和形狀能夠被梯度或邊緣的方向密度分布很好地描述,方向梯度直方圖(histogram of oriented gradient,HOG)特征可以通過計算和統(tǒng)計圖像局部區(qū)域的梯度方向直方圖來構(gòu)成特征,并且能夠?qū)D像的幾何和光學(xué)形變都能保持很好的不變性,所以,將結(jié)構(gòu)性HOG描述子作為次要的局部特征。
1.2.1 局部RGB顏色特征
觀察數(shù)據(jù)庫中行人目標(biāo)發(fā)現(xiàn):去除頭部的影響后,由于目標(biāo)行人上身所穿的衣服和下身所穿的褲子在顏色上往往會表現(xiàn)出明顯的差異,所以本文在二級區(qū)域Htor和Hleg基礎(chǔ)上使用局部RGB顏色直方圖匹配。通過觀察圖2(b):掩膜背景圖(圖中干擾背景和頭部已經(jīng)去除)和測試樣本庫里的圖片(國際通用標(biāo)準(zhǔn)庫VIPeR中的樣本圖片大小:48×128)分析得到:頭部和身軀段的平均分界線在第20行,身軀段和腿部段的平均分界線在62行。為了減少背景對匹配結(jié)果的干擾,如圖2(c)所示,將身軀段去除左右邊界各4列,即使用整張圖像的第20~60行,第6~44列作為身軀段窗口;同時,在腿部段部分去除最下面的8行,以及左右各14列,使用整張圖像的第66~122行,第14~36列,作為腿部段窗口。在量化過程中,同整體特征量化數(shù)相同,提取每個通道對其量化后的直方圖統(tǒng)計如圖2。
圖2中,分段處理和圖1中的兩級區(qū)域一致,將圖像中的人物按照不對稱原則分為頭部、身軀和腿部3個水平段,并將圖像中的人物的身軀和腿部按照對稱原則分為兩個垂直段,并且去掉權(quán)重比較小的頭部像素點,得到的實際效果如圖2(c)所示。圖2(d)代表實驗過程中所繪制的圖2(b)被去除頭部和背景干擾之后,身軀和腿部的R、G、B分量直方圖。其中,圖2(d)中的橫軸,0~31代表身軀段和腿部段上的R顏色通道統(tǒng)計直方圖(其中0~15代表身軀段,16~31代表腿部段);32~63代表身軀段和腿部段上的G顏色通道統(tǒng)計直方圖;64~95代表身軀段和腿部段上的B顏色通道統(tǒng)計直方圖。
圖2 局部RGB顏色直方圖Fig. 2 Local RGB color histogram
局部RGB顏色直方圖充分利用了空間分布信息,可以有效區(qū)分出上文所提到的上身下身穿衣顏色的不同。在局部特征描述方面的應(yīng)用中,可以較好地實現(xiàn)應(yīng)對圖像旋轉(zhuǎn)和平移的改變所帶來的影響,并且還可借助歸一化技術(shù),來達到不受圖像尺度的改變所帶來的影響,充分利用了局部顏色特征的優(yōu)勢。
1.2.2 加權(quán)HSV特征
根據(jù)人眼視覺特性, 顏色信息中HSV特征相比較RGB特征,在應(yīng)對光照變化方面,可以很大程度上忽略圖像亮度變化所帶來的影響;在二級區(qū)域中對HSV模型使用高斯分布的加權(quán)處理,可以在提取空間信息基礎(chǔ)上更好地對特征權(quán)重化處理,所以本文選擇HSV顏色模型作為局部特征之一來使用。
考慮到由于人體目標(biāo)特征分布比例的差異性,有些顯著特征在人體身上的某些部位所占比例很重,而有些特征則在人體身上的某些部位所占比例很小。通過觀察圖3(b)發(fā)現(xiàn):身軀和腿部中間部分的顏色特征比較明顯,對圖像匹配時的影響會比較重,所以相應(yīng)地給予較大的權(quán)重分配,越遠離垂直坐標(biāo)的顏色特征對匹配性能的提高影響較小,甚至?xí)档推ヅ湫阅?,所以相?yīng)地給予遠離垂直坐標(biāo)的點以較小的權(quán)重分配。根據(jù)人體不同部位所對應(yīng)的分段坐標(biāo)對HSV直方圖進行高斯分布的加權(quán)[16]處理。
圖3 人體加權(quán)HSV處理圖Fig. 3 Body weighted HSV processing figure
如圖3所示,為了更形象地表現(xiàn)人體身上特征權(quán)重的分布,文中提取人體不同位置對應(yīng)的高斯分布圖譜3(b)和三維空間中的核能量圖譜3(c)。考慮到光照的影響會對匹配精度造成很大的影響,因而為了抑制光照變化,將HSV中的亮度值(V)分配較小區(qū)間段。文中的H、S、V通道分別分成16、16、4段,進而得到一個加權(quán)的108段(其中0~31段為頭部段,已被忽略計算;32~71段為身軀段;72~107為腿部段)HSV直方圖,其相應(yīng)的實驗效果如圖3(d)。
1.2.3 HOG特征
HOG是目標(biāo)檢測常用的特征描述子。目標(biāo)局部的表象和形狀能夠被梯度或邊緣的方向的密度分布很好地描述[24]。具體的實現(xiàn)方法是:首先將圖像分成小的連通區(qū)域,我們把它叫細胞單元[25]。然后采集細胞單元中各像素點梯度或邊緣的方向直方圖。最后把這些直方圖組合起來就可以構(gòu)成特征描述器。為了提高性能,還可以把這些局部直方圖在圖像的更大的范圍內(nèi)(也可稱為區(qū)間或block)進行對比度歸一化,所采用的方法是:先計算各直方圖在這個區(qū)間(block)中的密度,然后根據(jù)這個密度對區(qū)間中的各個細胞單元做歸一化。本文在實際操作中使用的參數(shù)為:窗口大小統(tǒng)一為48×128,block塊大小為16×16,每個block劃分為4個cell,并且block每次滑動8個像素(即一個cell的寬),以及梯度方向劃分為9個區(qū)間,最后在0~360o范圍內(nèi)統(tǒng)計,將cell的梯度方向360o分成9個方向塊,也就是每360o/9=40o分到一個方向,方向大小按像素邊緣強度加權(quán),對cell內(nèi)每個像素用梯度方向在直方圖中進行加權(quán)投影(映射到固定的角度范圍),其相應(yīng)的實驗效果如圖4(c)所示。實驗過程中,根據(jù)上文相應(yīng)參數(shù)對圖4(a)進行HOG特征提取,提取過程中的實驗效果如圖4所示。
從圖中可以清晰的看出:本文將cell的梯度方向以40o為一個單位,分成一個方向;圖4(d)代表實驗過程中提取的歸一化后HOG 3維特征曲面圖。由于HOG方法是在圖像的局部細胞單元上操作的,所以它對圖像幾何和光學(xué)的形變能夠保持很好的不變性,歸一化后能對光照變化和陰影獲得更好的效果。它的優(yōu)點不僅包括對圖像幾何和光學(xué)形變方面能保持良好的不變性,還包括歸一化后允許行人有細微的肢體動作,且不影響檢測效果,多特征融合HOG特征描述可以很好地提高匹配率。
圖4 HOG特征描述子實驗效果圖Fig. 4 HOG feature descriptor experimental result
在相似性度量函數(shù)的建立方面,傳統(tǒng)度量算法大多基于歐氏距離或者余弦距離等進行優(yōu)化。然而,歐式距離和余弦距離本身存在諸多缺點,比如:歐式距離不能從高維特征向量恢復(fù)到具有低維的幾何機構(gòu),對圖像的形變比較敏感和缺少像素間的空間關(guān)系;余弦距離存在位置判定上差異性太大以及對數(shù)值的不敏感導(dǎo)致結(jié)果的眾多誤差等缺點。考慮到傳統(tǒng)相似性度量算法的不足,本文引進物理學(xué)溫度場擴散距離[26]的概念來建立相似性度量函數(shù)。擴散距離的本質(zhì)來源于物理學(xué)中的溫度場,它不同于歐式距離中的距離長短決定相似度大小的標(biāo)準(zhǔn)。擴散距離中的相似度取決于溫度擴散路徑的多少以及熱擴散的快慢。本文所使用的基于優(yōu)化擴散距離相似性度量函數(shù)用于衡量個體在空間上存在的距離,距離越遠,說明個體間的差異越大,反之,差異越小。優(yōu)化擴散距離在一定程度上彌補了歐式和余弦距離的不足的同時,在匹配性能上顯示了較優(yōu)的表現(xiàn)[26]。其原理如下:
由于一維擴散距離的應(yīng)用沒有多大實際意義,所以推廣到高維且引入高斯金字塔對擴散距離進行優(yōu)化,進一步提高了相似性度量函數(shù)的計算效率。
從式(6)可以看出,dl中的向下采樣操作在運算量上呈指數(shù)減少,同時使用采樣值的2/3,又能夠最大限度保留樣本值的信息;其次,高斯濾波卷積操作是線性運算,在計算效率上明顯有優(yōu)勢。但是,優(yōu)化后的擴散距離雖然在計算效率上提高不少,但是由式(4)和(5)可以知道,優(yōu)化擴散距離在表示空間向量直方圖和之間的累積差時,缺少對內(nèi)部單個元素之間差異的表示。雖然使用式(8)可以直接應(yīng)用到相似距離度量中,但其忽略了空間向量對應(yīng)元素之間的相似性的影響,因而其精確度會存在誤差。由于不同中的每個元素代表不同的特征屬性,比如wHSV(weighted HSV, 加權(quán)HSV)直方圖中的第z個元素代表第z個區(qū)域內(nèi)的像素點的總個數(shù)或者代表圖像中的顏色值為z。所以,進行相似性距離度量時,既要考慮累積差異的影響,也要考慮對應(yīng)元素間相似性的影響。假設(shè):降采樣,相應(yīng)的,無法區(qū)分哪兩個直方圖更相似。通過觀察、和發(fā)現(xiàn),相比擁有更多相同或者相近的元素個數(shù)。從直觀上,只能定性的認為與應(yīng)該比與更相似。
通過以上分析,在計算空間向量直方圖之間距離時,不應(yīng)該將內(nèi)部元素歸置一樣的權(quán)值,而應(yīng)該對那些元素值間對應(yīng)相同或者相近的給予更大的權(quán)值。所以,本文在優(yōu)化擴散距離基礎(chǔ)上進行二次優(yōu)化,提出加權(quán)式擴散距離,相應(yīng)表達式為
首先,將式(5)改寫成
式中:1i和2i分別代表直方圖1中第i個元素和直方圖2中第i個元素,;式(5)和(9)代表類似的含義,即兩個直方圖差異的距離等同于兩個直方圖中每一個對應(yīng)元素差異的累積。那么計算時使用的公式即為式(9)。
其次,將式(9)改寫成
圖5顯示了不同時間段擴散距離的狀態(tài)。圖5(a)中顯示同一個人在不同視角下的直方圖差異的擴散過程;圖5(b)中顯示不同的人在不同視角下的直方圖差異的擴散過程。通過兩幅圖的對比我們可以看到,(a)圖相比(b)圖衰減更快,即同類人直方圖的擴散距離小于不同類人的。
圖5 擴散距離匹配過程Fig. 5 Diffusion distance matching process
單獨使用上述3種特征描述中任何一種所建立的相似性度量函數(shù)都不能達到較好的匹配效果,所以本文使用多特征融合進而建立起的相似性度量函數(shù)進行目標(biāo)再確認,對上述3種特征提取相應(yīng)特征直方圖,然后分別計算相應(yīng)的優(yōu)化擴散距離,為防止由于不同特征算出的擴散距離有較大差異而影響目標(biāo)再確認結(jié)果,對每類特征描述計算所得到的擴散距離都做歸一化處理。
目標(biāo)再確認中,通常會有兩組圖像數(shù)據(jù):待識別目標(biāo)IA和候選目標(biāo)IB。本文利用兩組圖像數(shù)據(jù)庫,對上述3類特征得到的擴散距離都做相應(yīng)的歸一化處理之后,使用式(8)結(jié)合式(10)來計算不同圖像庫IA和IB中的圖像之間的匹配距離。
式中:g代表一級區(qū)域;lca代表二級區(qū)域;α、β、λ、μ分別代表不同特征直方圖的權(quán)重,。本文對于粗識別過程中的整體RGB特征直方圖分配經(jīng)驗值為α=0.2影響因素較大的局部RGB直方圖給予較大的權(quán)值,選擇目前最佳的經(jīng)驗值β=0.4;對于影響因素較弱的加權(quán)HSV直方圖給予目前最佳的經(jīng)驗值λ=0.3;對于影響因素最小的局部HOG直方圖給予相對較弱的經(jīng)驗值μ=0.1??偟脑u價準(zhǔn)則函數(shù)即總的相似性度量函數(shù)為式(11) 。
上文所述理論相比傳統(tǒng)再確認算法在特征選擇和度量算法上都進行了優(yōu)化,同時,本文進行多組實驗驗證了本文所提出優(yōu)化算法的可行性,下文會分別從實驗運行效果和實驗數(shù)據(jù)統(tǒng)計來闡述本文的有效性。
從實驗運行結(jié)果來看應(yīng)用本文原理編程實現(xiàn)的匹配成功率較為理想,能夠很好地實現(xiàn)目標(biāo)再確認的功能,如圖6(a)、圖7所示。下面顯示的效果圖中圖6(a)和圖7是目標(biāo)再確認中顯示正確的效果圖,圖6(a)圖顯示了實驗過程中成功再確認的案列,而圖7是實驗完成后所有再確認成功的部分匯總。盡管本文算法可以很好地實現(xiàn)目標(biāo)再確認,但是,仍存在少數(shù)失敗的案列,比如圖6(b)所示。
圖6 匹配效果圖Fig. 6 Matching figures
圖7 目標(biāo)再確認成功對顯示圖Fig. 7 Target to reconfirm success of figure
圖6 (a)是實驗中匹配正確的效果圖,從圖中可以看出兩個攝像頭中所呈現(xiàn)的目標(biāo)的顏色特征有很大相似性,在圖6(a)中行人身上的局部顏色特征,如上身身軀和下身身軀的顏色差異性很明顯,其他特征的干擾比較小,因而在特征表達更具體,更有辨別性。所以在算法中可以比較容易地將目標(biāo)進行再確認。相比之下,圖6(b)中兩個行人在進行軀體分割,特征提取等過程后,由于用于提取特征而分割出來的部分特征較為接近(左右兩圖上身衣服和下身褲子的顏色分別比較接近),因而導(dǎo)致出現(xiàn)了錯誤的再確認結(jié)果。
本文通過隨機選取圖片庫中45對圖片進行目標(biāo)再確認實驗,將部分匹配成功對在MATLAB畫布中顯示在一起(圖7),可以更加直觀地看出本文的算法達到了良好的再確認效果。具體性能指標(biāo)可以通過下文中實驗數(shù)據(jù)統(tǒng)計評估結(jié)果進行說明。
評價目標(biāo)再確認的性能是否優(yōu)良并沒有統(tǒng)一的標(biāo)準(zhǔn),但目前在評估行人再確認性能方面主要采用的是累積匹配特性曲線CMC[27](cumulative match characteristic)。CMC曲線反映的是在目標(biāo)圖庫前n個最相似候選目標(biāo)內(nèi)找到正確匹配圖片的概率[27]。實驗中隨機抽取50對行人目標(biāo)進行測試,實驗的總次數(shù)是5次。最后給出平均CMC曲線(橫坐標(biāo)為排名,縱坐標(biāo)為識別率)。假設(shè)曲線上有一點(m,n),代表排名前m個的匹配目標(biāo)中能夠命中的概論是n,當(dāng)然其中的m可以理解成所有匹配數(shù)目中具有最大相似度的前m個目標(biāo),n自然是這m個目標(biāo)中包含正確匹配結(jié)果的比率)[27],實驗運行第1次和5次實驗運行之后生成CMC平均曲線效果圖如圖8中的(a)和(b)圖所示。
圖8(a)圖中顯示的是第1次實驗完成后生成的CMC性能曲線,其中圖中的橫軸代表排名等級,豎軸是識別率,從曲線上可以看出第1次實驗至少前20位匹配的效率才能達到100%,此處的識別率也代表:達到最高效率所需要匹配的數(shù)量越少,說明該算法越好。圖8(b)圖中顯示的5次實驗完成后生成的平均CMC性能曲線,從曲線上可以看出5次實驗完成后求平均值生成的CMC曲線圖中顯示,至少前19位匹配的效率才能達到100%,當(dāng)然這里達到最高效率所需要匹配數(shù)量越少,也說明該算法越好。圖中第一次實驗獲得了44%的匹配率,5次平均實驗后獲得的匹配率為46%,相比現(xiàn)有提出的參考算法,本文算法的匹配率是比較理想的。
圖8 基于VIPeR數(shù)據(jù)集的CMC性能曲線Fig. 8 CMC performance curve based on the data set of VIPeR
4.3.1 基于VIPeR數(shù)據(jù)庫實驗結(jié)果
本文在實現(xiàn)基于優(yōu)化擴散距離算法的基礎(chǔ)上使用多特征融合的方式進行目標(biāo)再確認,實驗過程中,本文為了突出多特征組合的優(yōu)勢,相應(yīng)的做了多組實驗:單一特征和多特征在同樣距離度量算法的軟硬件環(huán)境下進行了識別率對比,其相應(yīng)實驗效果如圖9(a)所示;同時將本文算法和傳統(tǒng)的目標(biāo)再確認的其他優(yōu)秀算法(夾角余弦度量算法和直方圖交叉核度量算法)進行了性能方面上的對比,其相應(yīng)實驗效果圖如圖9(b)所示。如圖9(a)所示,通過CMC曲線圖可以看出,使用本文中的多特征來識別時匹配率更高。從圖中統(tǒng)計出Rank=1, 3, 6, 8,10排名時所對應(yīng)單一特征和多特征組合的識別率,可以從數(shù)據(jù)中觀察出,本文中使用多特征組合所得識別率為46.2%;僅使用RGB特征所得識別率為28.2%;僅使用HSV特征所得識別率為27.5%;僅使用HOG特征所得識別率為4.5%;無論在哪個排名階段,總體上,本文使用的多特征組合相對使用單一特征來進行識別時,多特征組合的識別率更高,更有優(yōu)勢。
圖9 VIPeR圖庫性能對比圖Fig. 9 The performance contrast figure based on the VIPeR
如圖9(b)所示,通過3種算法的CMC曲線對比圖可以很明確地看出,本文算法在相同條件下識別率更高。從圖中統(tǒng)計出Rank=1, 3, 6, 8, 10排名時所對應(yīng)不同算法的識別率,可以從數(shù)據(jù)中觀察出,本文的識別率已經(jīng)達到了50.5%,而其他優(yōu)秀算法中的直方圖交叉核和夾角余弦算法的識別率分別為47.3%和22.5%;無論在哪個排名階段,總體上,優(yōu)化擴散距離算法相比其他兩種優(yōu)秀算法在識別率方面都比較高。
為了體現(xiàn)本文算法在識別率上的優(yōu)勢,實驗中,同時進行了不同優(yōu)秀算法和本文算法的性能對比,對應(yīng)性能表如下表1所示。
表1 本文算法與其他特征類算法的性能比較Table 1 Comparison between the proposed algorithm and other feature-class algorithms
通過表1特征類算法的對比:SDALF (symmetry-driven accumulation of local features)方法在提取前景后分割人體目標(biāo)為頭部、軀干和腿部3部分的基礎(chǔ)上進行wHSV、最大穩(wěn)定顏色區(qū)域和重復(fù)紋理塊組合識別,最后使用歐式距離進行測距,實驗中的匹配率達到了19.77%,這個應(yīng)用廣泛的算法的優(yōu)勢在于較好特征的建立,但是在距離度量上還是使用傳統(tǒng)的歐式距離,相比而言,本文在距離度量上的優(yōu)勢是顯而易見的;CPS(custom pictorial structures)方法的優(yōu)勢在于能夠根據(jù)人體結(jié)構(gòu)檢測出人體的各個部位進行識別,能夠更好地提取前景特征,匹配率達到了20.32%;eLDFV(encoded local descriptors fisher vectors)方法結(jié)合SDALF使用Fisher向量編碼圖像的亮度和梯度信息,匹配率達到了21.42%,但是對于度量算法仍然需要改進;SCEFA(structural constraints enhanced feature accumulation)方法雖然使用基于Gabor紋理模式的關(guān)鍵點檢測和雙向匹配顏色區(qū)域特征的方法,匹配率達到了25.36%,其多特征的構(gòu)建是最大的優(yōu)點;eSDC(effectiveness salience and dense correspondence)方法也是結(jié)合SDALF以及非監(jiān)督的學(xué)習(xí)方式去尋找個體更好的特征,匹配率達到了很高的26.77%,但是欠缺考慮距離度量算法的改進;特征類中的HSCD(hybrid spatiogram and covariance descriptor)方法結(jié)合了空間直方圖和區(qū)域協(xié)方差兩種優(yōu)秀的統(tǒng)計描述,并且從多個層次的統(tǒng)計區(qū)域提取多類互補性較好的統(tǒng)計向量,這個方法和同類相比是最好的,得到了29.32%的識別率。通過表2所展現(xiàn)的度量算法來看:ELF(ensemble of localized features)方法雖然AdaBoost分類器選取顏色和紋理特征,這種方法充分利用了分類器的選優(yōu)特性,識別率僅僅為11.36%;ERSVM(Ensemble RankSVM)方法和PRDC(relative distance comparison)相類似,利用相對距離排序的SVM分類器集成多個特征向量權(quán)重,此方法在度量算法方面優(yōu)勢很明顯,但是在特征方面仍需要改進;LMNN-R(large margin nearest neighbor with rejection)方法也使用相對距離比較的PRDC方法,使用了大邊近鄰分類器,在特征設(shè)計方面同樣需要改進。
度量算法類中,性能表現(xiàn)最好的是HI(histogram intersection),直方圖交叉核,該算法是一種基于隱式對應(yīng)關(guān)系的內(nèi)核函數(shù),解決了無序、可變長度的矢量集合的判別分類的問題,而且是正定的,由于該算法的優(yōu)勢,應(yīng)用到目標(biāo)再確認領(lǐng)域,匹配率高達47.38%,因此,通過上文所述,同等條件下,度量算法類相比特征類在匹配率方面具有一定的優(yōu)勢。而查看表格,本文算法無論在特征類還是距離度量類對比中,其50.5%的匹配率仍然具有一定的優(yōu)勢。通過以上優(yōu)秀算法和本文算法在數(shù)據(jù)上對比可以看出,本文在基于VIPeR圖像庫的基礎(chǔ)上,識別率方面性能相對比較好,這是因為本文特征設(shè)計上的優(yōu)勢和優(yōu)秀度量算法引入的原因。
表2 本文算法與其他距離度量類算法的性能比較Table 2 Comparison between the proposed algorithm and other distance metric-class algorithms
4.3.2 基于ETHZ數(shù)據(jù)庫實驗結(jié)果
ETHZ數(shù)據(jù)庫是從運動的攝像機中獲取的圖像,ETHZ1包含83個目標(biāo)的4 857幅圖像;ETHZ2包含35個目標(biāo)的1 936幅圖像;ETHZ3包含28個行人的1 762幅圖像。本文使用這類數(shù)據(jù)庫作為測試樣本庫,用來驗證本文算法和余弦、直方圖正交算法的性能對比。在數(shù)據(jù)庫中,光照的改變和行人的遮擋相對嚴重,人體姿態(tài)方面變化比較小。根據(jù)獲得的目標(biāo)的幀數(shù),可以將目標(biāo)再確認分為以下3類:
1) 單幀對單幀(single vs single, SvsS)
2) 多幀對單幀(multiple vs single, MvsS)
3) 多幀對多幀(multiple vs multiple, MvsM)
本文分別測試了SvsS、MvsS、MvsM模式下的不同算法的目標(biāo)再確認的性能,相應(yīng)的CMC曲線圖如圖10所示。
在圖10中,(a)、(d)分別代表ETHZ1數(shù)據(jù)集下MvsS和MvsM的性能表現(xiàn);(b)、(e)分別代表ETHZ2數(shù)據(jù)集下MvsS和MvsM的性能表現(xiàn);(c)、(f)分別代表ETHZ3數(shù)據(jù)集下MvsS和MvsM的性能表現(xiàn)。通過測試ETHZ數(shù)據(jù)庫中的實驗圖像可以發(fā)現(xiàn),在不同ETHZ集下,本文算法在匹配精度方面,一直保持領(lǐng)先。ETHZ1中,在MvsS和MvsM幀下,本文算法在Rank=1時都達到了87%左右;ETHZ2中,在MvsS和MvsM幀下,本文算法在Rank=1時分別達到了87.5%和93%左右;ETHZ3中,在MvsS和MvsM幀下,本文算法在Rank=1時分別達到了94%和96%左右。相比余弦算法和直方圖正交算法,本文算法能夠得到更好的表現(xiàn),其原因在于:由于多特征的使用,可以應(yīng)對攝像機鏡頭的不同、遮擋所造成的差異;更重要的是在距離匹配過程中所應(yīng)用的優(yōu)化擴散距離,可以有效應(yīng)對光亮、陰影等造成的差異,并且利用直方圖的空間信息更加精確其對應(yīng)距離,從而準(zhǔn)確的進行目標(biāo)再確認。這也是本文適合更多場景且無需監(jiān)督的原因,通過在ETHZ數(shù)據(jù)集上的表現(xiàn),可以看出本文算法的性能還是不錯的,觀察匹配出的效果圖發(fā)現(xiàn),本文所提出算法在應(yīng)對姿態(tài)、視角、和光照變化等方面具有較好的魯棒性。
圖10 基于ETHZ數(shù)據(jù)集下的多幀實驗Fig. 10 The performance contrast figure based on the ETHZ
通過上文中的理論分析和實驗驗證,本文最大的創(chuàng)新點在于引入物理學(xué)溫度場的擴散距離的概念并進行優(yōu)化,來建立相似性度量函數(shù)。并為了提高優(yōu)化擴散距離的計算效率,進行了二次加權(quán)性優(yōu)化,進而提高了計算的準(zhǔn)確性。特征提取方面,定義了兩級區(qū)域直方圖提取方案,這種簡易而有效的方法可以在特征基礎(chǔ)上實現(xiàn)空間信息的添加,從而提高了識別率。在兩級區(qū)域方案基礎(chǔ)上,通過高斯加權(quán)HSV直方圖,整體、局部RGB直方圖,以及HOG特征描述子3類特征的綜合使用,并輔以適當(dāng)?shù)募訖?quán)處理,較好地實現(xiàn)了行人目標(biāo)再確認。最后,本文優(yōu)化算法與同類別的其他優(yōu)秀算法以及傳統(tǒng)目標(biāo)再確認過程中所使用的有監(jiān)督的訓(xùn)練學(xué)習(xí)型度量算法進行了對比。相比其他算法,本文的優(yōu)點是:目標(biāo)再確認準(zhǔn)確率明顯提高,同時不需要大量的訓(xùn)練樣本、節(jié)省了訓(xùn)練時間、可以適應(yīng)大部分的場景變化、節(jié)省內(nèi)存開支等,在一定程度上體現(xiàn)了本文算法的優(yōu)越性。但本文仍然還有許多需要改進的地方,比如如何在更加復(fù)雜的環(huán)境中可以更高效率的進行目標(biāo)再確認,這也是本文下一步研究的重點。
[1]ZHAO R, OYANG W, WANG X. Person re-identification by saliency learning[J]. IEEE transactions on pattern analysis and machine intelligence, 2017, 39(2): 356–370.
[2]JIA J, RUAN Q, JIN Y. Geometric preserving local fisher discriminant analysis for person re-identification[J]. Neurocomputing, 2016, 205: 92–105.
[3]UKITA N, MORIGUCHI Y, HAGITA N. People re-identification across non-overlapping cameras using group features[J]. Computer vision and image understanding, 2016,144(C): 228–236.
[4]MARTINEL N, MICHELONI C. Re-identify people in wide area camera network[C]//2012 IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops. RI, USA, 2012: 31–36.
[5]HUA J I, PAN M L. Person re-identification based on global color context[C]//ACCV'10 Proceedings of the 2010 international conference on Computer vision. Queenstown,New Zealand, 2010, 6468(I): 205–215.
[6]ZHAO T, NEVATIA R. Tracking multiple humans in complex situations[J]. IEEE transactions on pattern analysis and machine intelligence, 2004, 26(9): 1208–1221.
[7]LI P, WU H, CHEN Q. Person re-identification using color enhancing feature[C]//2015 3rd IAPR Asian Conference on Pattern Recognition. Kuala Lumpur, Malaysia, 2015: 86–90.
[8]李金, 胡文廣. 基于顏色的快速人體跟蹤及遮擋處理[J].智能系統(tǒng)學(xué)報, 2010, 5(4): 353–359.LI Jin, HU Wenguang. Tracking fast movement using colors while accommodating occlusion[J]. CAAI transactions on intelligent systems, 2010, 5(4): 353–359.
[9]劉宇, 向高林, 王伊冰. 一種改進的行人導(dǎo)航算法研究[J].重慶郵電大學(xué)學(xué)報:自然科學(xué)版, 2016, 28(2): 233–238.LIU Yu, XIANG Gaolin, WANG Yibing. An improved pedestrian navigation algorithm[J]. Journal of Chongqing university of posts and telecommunication: natural science edition, 2016, 28(2): 233–238.
[10]HU Y, LIAO S, LEI Z. Exploring structural information and fusing multiple features for person re-identification[C]//2013 IEEE Conference on Computer Vision and Pattern Recognition Workshops. Portland, USA, 2013:794–799.
[11]LIU P, GUO J M, CHAMNONGTHAI K, et al. Fusion of color histogram and lbp-based features for texture image retrieval and classification[J]. Information sciences, 2017,1(390): 95–111.
[12]CHANG C, LIN C. LIBSVM: a library for support vector machines[J]. Journal ACM transactions on intelligent systems and technology, 2011, 2(3): 389–396.
[13]CAI Y, CHEN W, HUANG K, TAN T. Continuously tracking objects across multiple widely separated cameras[C]//ACCV'07 Proceedings of the 8th Asian conference on Computer vision. Tokyo, Japan, 2012(I):843–852.
[14]PATHYA B, NAINAN S. Performance evaluation of face recognition using LBP, PCA and SVM[J]. International journal of advanced trends in computer science and engineering, 2016, 3(4): 85–88.
[15]王彩玲, 詹松, 荊曉遠. 基于圖像顯著特征的非重疊視域行人再識別[J]. 南京郵電大學(xué)學(xué)報: 自然科學(xué)版, 2016,36(3): 106–111.WANG Cailing, ZHAN Song, JING Xiaoyuan. Pedestrian re-identification based on salient features in non-overlapping areas[J]. Journal of Nanjing university of posts and telecommunications: natural science edition, 2016, 36(3):106–111.
[16]FARENZENA M, BAZZANI L. Person re-identification by symmetry-driven accumulation of local features[C]//2010 IEEE Conference on Computer Vision and Pattern Recognition. San Francisco, CA, USA, 2010: 2360–2367.
[17]彭程, 劉帥師, 萬川, 等. 基于局部紋理ASM模型的人臉表情識別[J]. 智能系統(tǒng)學(xué)報, 2011, 6(3): 231–238.PENG Cheng, LIU Shuaishi, WAN Chuan, et al. An active shape model for facial expression recognition based on a local texture model[J]. CAAI transactions on intelligent systems, 2011, 6(3): 231–238.
[18]FENG X, PIETIKAINEN M, HADID A. Facial expression recognition with local binary patterns and linear programming[J]. Pattern recognition and image analysis, 2005,15(2): 550–552.
[19]PROSSER B, ZHENG W S, GONG S. Person re-identification by support vector ranking[C]//BMVC2010 British Machine Vision Conference. Aberystwyth, UK, 2010(42):1–11.
[20]FANG C. People re-identification based on online multiple kernel learning in video surveillance[J]. Opto-electronic engineering, 2012, 39(9): 65–71.
[21]PANG Y, XIN-CHU S: Multiway histogram intersection for multi-target tracking[C]//2015 18th International Conference on Information Fusion. Washington, DC, USA,2015: 1938–1945.
[22]YIN J, ZHOU J, JIN Z. Principal component analysis and kernel principal component analysis based on cosine angle distance[J]. Computer engineering and applications, 2011,47(3): 9–12.
[23]HAIBIN L, OKADA K. Diffusion distance for histogram comparison[C]//Proceedings of the 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Washington, DC, USA, 2006, 1(1): 246–253.
[24]ROTHER C, KOLMOGOROV V, BLAKE A. “GrabCut”:interactive foreground extraction using iterated graph cuts[J]. ACM transactions on graphics, 2004, 23(3):307–312.
[25]QING-JUN W, RU-BO Z. LPP-HOG: a new local image descriptor for fast human detection[C]//2008 IEEE International Symposium on Knowledge Acquisition and Modeling Workshop. Wuhan, China, 2008: 640–643.
[26]JUN Y. HOCK-SOON S: fuzzy diffusion distance learning for cartoon similarity estimation[J]. Journal of computer science and technology: English edition, 2011, 26(2):203–216.
[27]MAZZON R, TAHIR S F, CAVALLARO A. Person reidentification in crowd[J]. Pattern recognition letters, 2012,33(14): 1828–1837.
[28]CHENG D S, CRISTANI M, STOPPA M. Custom pictorial structures for re-identification[C]//BMVC2010 British Machine Vision Conference. Dundee, UK, 2011, (68):1–11.
[29]MA B, SU Y, JURIE F. Local descriptors encoded by fisher vectors for person re-identification[C]//12th European Conference on Computer Vision Workshops. Florence,Italy, 2012, 7583: 413–422.
[30]ZHAO R, OUYANG W, WANG X. Unsupervised salience learning for person re-identification[C]//2013 IEEE Conference on Computer Vision and Pattern Recognition.Portland, USA, 2013, 9(4): 3586–3593.
[31]ZENG M Y, WU Z M, CHANG T. Fusing appearance statistical features for person re-identification[J]. Journal of electronics and information technology, 2014, 36(8):1844–1851.
[32]GRAY D, TAO H. Viewpoint invariant pedestrian recognition with an ensemble of localized features[C]// ECCV'08 Proceedings of the 10th European Conference on Computer Vision. Marseille, France, 2008, (I): 262–275.
[33]ZHENG W S, GONG S, XIANG T. Reidentification by relative distance comparison[J]. IEEE transactions on pattern analysis and machine intelligence, 2013, 35(3):653–668.
[34]DIKMEN M, AKBAS E, HUANG T S. Pedestrian recognition with a learned metric[C]//ACCV'10 Proceedings of the 10th Asian conference on Computer vision. Queenstown, New Zealand, 2010, 6495(IV): 501–512.