官洪運(yùn),繆新苗,王亞青,井倩倩,張抒藝
(東華大學(xué)信息科學(xué)與技術(shù)學(xué)院,上海201620)
行人重識(shí)別是在不同地點(diǎn)和時(shí)間點(diǎn)拍攝的特定人物圖像之間構(gòu)建對(duì)應(yīng)關(guān)系的過(guò)程。其在視頻監(jiān)控、行為分析、目標(biāo)跟蹤和搜索等領(lǐng)域逐漸普及。由于視角、光照強(qiáng)度、姿態(tài)、背景雜波、圖像分辨率和遮擋等方面的不確定性會(huì)導(dǎo)致大量的視覺(jué)外觀變化,行人重識(shí)別在實(shí)際生活中廣泛應(yīng)用還存在巨大的挑戰(zhàn)。
在較短的時(shí)間內(nèi),視覺(jué)特征在行人重識(shí)別的方面較為有效。但隨著時(shí)間的推移,這些特征的有效性就會(huì)降低,而生物學(xué)特征的優(yōu)勢(shì)逐漸突出??紤]到在實(shí)際的道路監(jiān)控系統(tǒng)中,視角的限制造成遮擋或故意遮擋等現(xiàn)象,面部識(shí)別、虹膜識(shí)別等難以實(shí)現(xiàn)。本文研究基于步態(tài)的行人重識(shí)別算法,利用圖像特征進(jìn)行相似行人目標(biāo)預(yù)檢測(cè),再跟蹤相似行人提取其步態(tài)特征進(jìn)行身份識(shí)別,從而提高識(shí)別效率。相似行人目標(biāo)預(yù)檢測(cè)過(guò)程中引入關(guān)節(jié)點(diǎn)坐標(biāo)確定上下身比例提高區(qū)分度。
行人目標(biāo)預(yù)檢測(cè)指的是在給定目標(biāo)行人圖片的情況下,從行人圖像數(shù)據(jù)庫(kù)中找出相似行人目標(biāo)區(qū)域。預(yù)檢測(cè)快速排除外觀特征不同的行人,縮小海量視頻中跟蹤行人的數(shù)量,提高識(shí)別效率。本文通過(guò)改進(jìn)的HSV 顏色特征與LBP 特征進(jìn)行相似行人目標(biāo)預(yù)檢測(cè)。
目前在計(jì)算機(jī)視覺(jué)領(lǐng)域有多種類(lèi)型的顏色空間,根據(jù)不同的應(yīng)用場(chǎng)景、需求以供選擇。HSV(Hue,Saturation,Value)是一種常見(jiàn)的利用圓柱坐標(biāo)表示的顏色空間,相較于RGB 色彩模式,它能夠更直觀地反映色彩的陰暗、色調(diào)以及鮮艷程度,適用于顏色對(duì)比。這個(gè)模型中顏色的參數(shù)分別是:色調(diào)(H)、飽和度(S)、亮度(V)[1]。
本文將HSV 顏色空間的劃分為11 個(gè)區(qū)域,作為HSV 顏色空間量化策略,見(jiàn)表1。
表1 HSV 顏色空間量化策略
本文將遍歷圖像的所有像素點(diǎn),根據(jù)上文提到的HSV 顏色空間量化策略判定各像素點(diǎn)所屬的顏色空間Ci,計(jì)算屬于同一顏色空間像素點(diǎn)的數(shù)目NCi及占整體像素點(diǎn)的比例pCi作為顏色特征。此方法忽略了顏色集體分布情況等細(xì)節(jié)信息,相對(duì)維度緯度較低。
LBP(Local Binary Pattern,局部二值模式)是一種用來(lái)描述圖像局部紋理特征的算子[2]。原始的LBP 算子具有灰度不變性,旋轉(zhuǎn)圖像會(huì)得到不同的LBP 值。同時(shí)原始LBP 算子只能覆蓋中心像素點(diǎn)四周固定半徑范圍內(nèi)的其他像素點(diǎn),無(wú)法滿(mǎn)足不同制度和頻率紋理的需求,且對(duì)于有P 個(gè)采樣點(diǎn)的LBP 算子其模式達(dá)到2P,模式過(guò)多,信息冗余度過(guò)大。研究者在原始LBP 特征算子的基礎(chǔ)上做了改進(jìn),如圖1 所示。
圖1 LBP算子變形
本文考慮將尺度不變及旋轉(zhuǎn)不變的LBP 結(jié)合提取中心像素點(diǎn)的紋理特征,取R=2,P=8,即采用LBP28計(jì)算局部紋理特征值,如圖3(c)所示。每個(gè)子區(qū)域內(nèi)建立一個(gè)LBP 特征的統(tǒng)計(jì)直方圖,整個(gè)圖片就由若干個(gè)統(tǒng)計(jì)直方圖組成。
結(jié)合上文提到的顏色特征與LBP 特征進(jìn)行相似行人目標(biāo)預(yù)檢測(cè),具體步驟如下:
(1)圖像特征提取。與以往的研究不同,本文為了更加詳細(xì)的描述行人特征,首先利用卡內(nèi)基梅隆大學(xué)感知計(jì)算實(shí)驗(yàn)室發(fā)布的開(kāi)源提取骨架結(jié)構(gòu)程序庫(kù)OpenPose[3]對(duì)單幀圖像進(jìn)行骨骼關(guān)鍵點(diǎn)提取如圖2 所示。利用關(guān)節(jié)點(diǎn)坐標(biāo)確定上下身比例在豎直方向?qū)π腥说纳舷掳肷磉M(jìn)行劃分,加強(qiáng)特征的區(qū)分度。
(2)分別提取矩形框上下兩部分的顏色特征,包括此區(qū)域出現(xiàn)的顏色及所占比例。將顏色特征按照黑、灰、白、紅、橘、黃、綠、青、藍(lán)、紫的順序排列占比并轉(zhuǎn)化成顏色特征向量。同時(shí)計(jì)算子區(qū)域內(nèi)各像素點(diǎn)的LBP值,統(tǒng)計(jì)得到LBP 直方圖。圖像特征表示為分別代表上下身的顏色特征,hu、hl則代表上下半身的紋理特征。
圖2 骨架結(jié)構(gòu)特征
(3)從測(cè)試圖像(w×h) 左上角(0,0) 開(kāi)始,以(0.1×w)作為步長(zhǎng),循環(huán)遍歷圖像,依次截取與目標(biāo)行人圖像相同大小的圖像子區(qū)域。并重復(fù)步驟(1)、(2)提取行人特征。
(4)計(jì)算矩形框內(nèi)圖像與給定行人圖像相似度,分別計(jì)算顏色特征相似度sc、紋理特征相似度st。本文采用歐氏距離(式(1))計(jì)算特征相似度。兩張圖像的相似度如式(2)所示:
整體的相似度用s=wusu+wpsp表示,其中wu、wp是上下半身的比例系數(shù),su、sp為上下身圖像相似度。對(duì)矩形框相似度si進(jìn)行排序,相似度最高的區(qū)域即為測(cè)試行人的相似區(qū)域。
醫(yī)學(xué)研究表明,步態(tài)是一種獨(dú)特的人體特征,它依賴(lài)于人體的數(shù)百個(gè)運(yùn)動(dòng)參數(shù)。不同的個(gè)體具有不同的步態(tài)長(zhǎng)度和步態(tài)周期等。同時(shí)步態(tài)具有無(wú)需用戶(hù)配合,不易偽造等特點(diǎn),它在監(jiān)控領(lǐng)域的應(yīng)用是非常有前途的、有意義的。步態(tài)分析可分為基于模型的方法和非模型的方法。本文采用非模型方法步態(tài)能量圖(Gait Energy Image,GEI)來(lái)描述步態(tài)。
步態(tài)能量圖像是基于步態(tài)周期中步態(tài)輪廓的平均圖像信息建立的步態(tài)特征[4],具有很強(qiáng)的識(shí)別能力和抗斷裂誤差。步態(tài)能量圖通過(guò)單張圖像展現(xiàn)了人在一個(gè)行走周期內(nèi)步態(tài)的輪廓、相位及頻率特征,同時(shí)排除了運(yùn)動(dòng)時(shí)間帶來(lái)的干擾。具體公式如式(3)所示:
其中,N代表一個(gè)步態(tài)周期包含的幀數(shù);t代表當(dāng)前幀在步態(tài)周期中的序號(hào);Bt(x,y)表示第t個(gè)經(jīng)過(guò)預(yù)處理的二值步態(tài)輪廓圖像。與采用單幀二值輪廓序列的步態(tài)表示方法相比,GEI 表示方法在一定程度上節(jié)省了計(jì)算機(jī)資源和時(shí)間成本,抗噪性增強(qiáng)。
常用的步態(tài)能量圖合成方法有兩種:一種是以身寬的一半作為重疊的中心合成,而另一種是以人頭頂為中心進(jìn)行合成[5]。本文利用第二種方法進(jìn)行合成。行人輪廓二值圖像的背景部分為0,行人部分為1,因此可以通過(guò)計(jì)算每行的像素值來(lái)判定人頭頂位置及四肢位置坐標(biāo)。根據(jù)人體形態(tài)學(xué),當(dāng)人步幅最大的時(shí)候,人的頭頂點(diǎn)處于輪廓外接矩形框上邊沿中點(diǎn),對(duì)于同一周期內(nèi)的其他圖像進(jìn)行背景填充,確保人頭頂點(diǎn)處于外接矩形中點(diǎn)。
在步態(tài)能量圖中,采用疊加的方法計(jì)算出一個(gè)步態(tài)周期內(nèi)多個(gè)二值輪廓圖的平均值。但是,盲目地應(yīng)用圖像疊加來(lái)計(jì)算平均值,會(huì)導(dǎo)致輪廓內(nèi)部大量有用信息被忽略,降低了識(shí)別的準(zhǔn)確性。本文考慮在合成步態(tài)能量圖的基礎(chǔ)上,提取其HOG 特征作為分類(lèi)識(shí)別的輸入特征,提高區(qū)分度。步態(tài)能量圖合成及HOG 特征提取如圖3 所示。
圖3 步態(tài)特征提取
(1)步態(tài)數(shù)據(jù)庫(kù)
為了便于研究和促進(jìn)技術(shù)的發(fā)展,國(guó)內(nèi)外研究人員已經(jīng)建立了一些可用的步態(tài)數(shù)據(jù)庫(kù)包括USF、CASIA、CMU MoBo、HIDUMD 等。本文利用步態(tài)數(shù)據(jù)庫(kù)CASIA-B 來(lái)驗(yàn)證提出方法的可行性及有效性。
CASIA-B 數(shù)據(jù)集[6]是一個(gè)大型的多視角步態(tài)數(shù)據(jù)集,由124 名測(cè)試者從11 個(gè)視角(0°,18°,36°…162°,180°)獲取的步態(tài)數(shù)據(jù)組成,每個(gè)人的步態(tài)數(shù)據(jù)包括10 個(gè)不同的變量(CV):行走速度快慢(nm01-06)、背包(bg01-02)、穿大衣(cl01-02)。除了視頻文件,數(shù)據(jù)集中還包含視頻文件中提取的人體輪廓,如圖4 所示。
圖4 單幀步態(tài)輪廓圖
CASIA-B 數(shù)據(jù)庫(kù)提供的部分單幀步態(tài)輪廓圖存在內(nèi)部缺失如圖4(b)虛線(xiàn)框選部分,以及圖4(c)、4(d)所示的連續(xù)幀中的間斷。通過(guò)擴(kuò)張、腐蝕及圖像開(kāi)閉等形態(tài)學(xué)操作使圖像特征更為完整。
(2)分類(lèi)識(shí)別方法
為解決多視角情況下的步態(tài)識(shí)別問(wèn)題,將識(shí)別問(wèn)題看作分類(lèi)問(wèn)題進(jìn)行訓(xùn)練,即找到測(cè)試圖像與行人標(biāo)簽之間的對(duì)應(yīng)關(guān)系。本文選用一種適合非線(xiàn)性、小樣本分類(lèi)識(shí)別方法——隨機(jī)森林(Random Forest,RF)。通過(guò)調(diào)整訓(xùn)練參數(shù)和數(shù)據(jù)比較,驗(yàn)證本方法的有效性和可行性。與支持向量機(jī)(SVM)相比,在相似識(shí)別率的情況下,RF 單訓(xùn)練比SVM 以線(xiàn)性函數(shù)作為核函數(shù)訓(xùn)練花費(fèi)的時(shí)間短。如果使用其他非線(xiàn)性核函數(shù),SVM訓(xùn)練需要更多的時(shí)間和成本。
本文采取在已有公開(kāi)步態(tài)數(shù)據(jù)集上進(jìn)行步態(tài)識(shí)別算法的分析,計(jì)算最終的正確識(shí)別率(Proability of Correct Recognition,PCR)[7]來(lái)衡量算法的有效性,如式(4)所示。
測(cè)試樣本Ti,經(jīng)過(guò)分類(lèi)識(shí)別,輸出類(lèi)型為k,當(dāng)k=i時(shí),則判定為正確識(shí)別,NC為所有正確識(shí)別的樣本總和。計(jì)算N個(gè)測(cè)試樣本的正確率來(lái)評(píng)估算法性能。
本實(shí)驗(yàn)的計(jì)算機(jī)環(huán)境:Intel Core i5 2.9 GHz CPU,8 GB 內(nèi)存,macOS 10.12.6 操作系統(tǒng),PyCharm +OpenCV3.0。
采用本文改進(jìn)的HSV 顏色空間量化策略融合LBP 紋理特征在CASIA-B 數(shù)據(jù)集提供的視頻進(jìn)行相似行人目標(biāo)預(yù)檢測(cè)實(shí)驗(yàn),檢測(cè)效果如圖5。
圖5 預(yù)檢測(cè)結(jié)果
實(shí)驗(yàn)中利用scikit-learn 庫(kù)提供的隨機(jī)森林模塊進(jìn)行分類(lèi)識(shí)別,hyper 參數(shù)設(shè)置為使用500 個(gè)決策樹(shù)(n_estimators=500),樹(shù)深度最大為100,以達(dá)到可接受的性能和誤差率。
正常情況下僅考慮視角變化,在此部分實(shí)驗(yàn)中,將各個(gè)角度正常情況下的步態(tài)能量圖nm01-04 為訓(xùn)練集,分別以nm05-06、cl01-02、bg01-02 作為測(cè)試集測(cè)試集,提取GEI 的HOG 特征,通過(guò)實(shí)驗(yàn)得出不同角度下的識(shí)別結(jié)果。同時(shí)以同樣的測(cè)試集和訓(xùn)練集,不提取HOG 特征直接進(jìn)行分類(lèi)訓(xùn)練,進(jìn)行對(duì)比實(shí)驗(yàn)。對(duì)于服裝(CL)和攜帶條件(BG)變化的情況,將數(shù)據(jù)集cl01-02 按4:1 的比例分成訓(xùn)練集和測(cè)試集進(jìn)行識(shí)別分類(lèi),bg01-02 也采用同樣的方法進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如圖6 所示。
圖6 步態(tài)分類(lèi)實(shí)驗(yàn)結(jié)果
從相似行人預(yù)檢測(cè)實(shí)驗(yàn)結(jié)果(圖5)看出,本文提出方法能在視角變化、背景復(fù)雜的情況下進(jìn)行行人相似區(qū)域預(yù)檢測(cè)。在實(shí)際系統(tǒng)應(yīng)用中,可以通過(guò)設(shè)定相似度閾值,選定跟蹤行人目標(biāo)數(shù),提高后續(xù)步態(tài)特征提取、識(shí)別效率。在步態(tài)分類(lèi)識(shí)別實(shí)驗(yàn)中,利用本文方法合成的步態(tài)能量圖進(jìn)行行人分類(lèi)識(shí)別,正常情況(NM)下平均識(shí)別率達(dá)96%。相對(duì)于直接輸入步態(tài)能量圖進(jìn)行分類(lèi)識(shí)別,以在合成步態(tài)能量圖基礎(chǔ)上提取的HOG特征作為輸入訓(xùn)練樣本有效提高識(shí)別率。當(dāng)存在外觀因素影響時(shí),由圖6(b)、(c)實(shí)驗(yàn)結(jié)果看出本文方法對(duì)于提高步態(tài)識(shí)別率同樣有效。人背包的情況(BG)下,平均識(shí)別率由51%提高到57%。對(duì)于人穿著大衣遮蓋大量肢體信息的情況(CL),平均識(shí)別率由56%提高到62%。
速排除外觀特征不同的行人,縮小海量視頻中跟蹤行人的數(shù)量,提高檢索效率。當(dāng)相似目標(biāo)再次進(jìn)入識(shí)別區(qū)域時(shí),確保及時(shí)跟蹤提取步態(tài)特征用于后續(xù)分類(lèi)識(shí)別。同時(shí)在預(yù)檢測(cè)過(guò)程中利用行人關(guān)節(jié)點(diǎn)坐標(biāo)確定上下身比例,提高區(qū)分度。最后以合成步態(tài)能量圖的HOG 特征作為最終行人重識(shí)別的標(biāo)準(zhǔn)進(jìn)行身份識(shí)別,在避免過(guò)多的步態(tài)信息損失的同時(shí)減少了光照、外觀變化帶來(lái)的干擾,提高了識(shí)別準(zhǔn)確率。
本文利用行人圖像特征進(jìn)行相似區(qū)域預(yù)檢測(cè),快