李大湘, 費國園, 劉 穎
(1. 西安郵電大學(xué) 通信與信息工程學(xué)院, 陜西 西安 710121;2. 電子信息現(xiàn)場勘驗應(yīng)用技術(shù)公安部重點實驗室, 陜西 西安 710121)
在多攝像機監(jiān)控網(wǎng)絡(luò)中,利用行人再識別技術(shù)[1]可實現(xiàn)目標(biāo)行人跟蹤或異常場景檢測,從而服務(wù)于智能安防和刑事偵查[2-3]。受光照、遮擋、姿勢和雜亂背景等因素干擾,行人外觀通常會發(fā)生變化,所以,行人再識別的重點主要在于特征提取和度量學(xué)習(xí)[4]。
在特征提取方面,有局部特征集成(ensemble of localized features,ELF)[5]、對稱驅(qū)動的局部特征累積(symmetry-driven accumulation of local features, SDALF)[6]、局部最大概率(local maximal occurrence,LOMO)特征[7]、分層高斯方法利用高斯塊的高斯區(qū)域(Gaussian region of Gaussian patch,GOG)描述符[8]等方法。其中,LOMO特征是HSV顏色直方圖和尺度不變局部三元模式(scale invariant local ternary pattern,SILTP)紋理特征的高維表示,而GOG描述符則將圖像分為由多個高斯分布描述的不同區(qū)域,以刻畫行人圖像的顏色和紋理等信息。每種高斯分布代表一個圖像塊,每個圖像塊的特征融合后得到行人圖像的特征向量。
除了歐氏距離和馬氏距離外,用于行人再識別的距離度量學(xué)習(xí)方法還有許多[9],如交叉視圖二次判別分析(cross-view quadratic dis-criminant analysis, XQDA)[7]、成對特定CRC編碼(pairewise-specific collaborative representation based classification coding,PSCRC)[10]、多核全監(jiān)督子空間學(xué)習(xí)(multi-kernel fully-supervised subspace learning,MKFSL)[11]等方法。其中,MKFSL方法能有效利用行人圖像,通過學(xué)習(xí)產(chǎn)生一個有辨別力的子空間,先利用有標(biāo)簽樣本的GOG特征學(xué)習(xí)初始投影,再利用該投影將無標(biāo)簽樣本映射到低維空間中,但是,因未能充分利用標(biāo)簽樣本,往往會引發(fā)行人圖像表征單一化或模型浮動。
為了進一步充分利用帶標(biāo)簽樣本,本文擬從特征融合和子空間學(xué)習(xí)兩方面,對MKFSL行人再識別算法加以優(yōu)化。以串聯(lián)融合后的LOMO特征和GOG特征,描述行人圖像,彌補單一描述符表征行人圖像的局限性。挑選典型帶標(biāo)簽樣本,來學(xué)習(xí)優(yōu)化的判別式投影,避免模型浮動問題。
LOMO是特征包含顏色特征和紋理特征。考慮到光照對顏色信息的影響,先對圖像利用帶顏色恢復(fù)的Retinex算法(multi-scale retinex with color restoration,MSRCR)[12]進行預(yù)處理,再對其進行HSV顏色直方圖特征提取。針對攝像機中的行人目標(biāo)視圖變化問題,采用紋理特征SILTP對行人圖像進行描述。
采用GOG特征對行人圖像作進一步描述。
將行人圖像調(diào)整為128×48像素,對每張圖像進行有重疊的分塊處理,分為7個大小為32×48像素的水平區(qū)域。對各水平區(qū)域進行稠密塊采樣,采樣間隔為2像素,各稠密塊的大小為5×5像素。對稠密塊中各像素提取8維像素特征,包括像素點的垂直位置、梯度值以及顏色信息等。
用高斯分布擬合稠密塊內(nèi)的像素特征,再用另一高斯分布擬合水平區(qū)域內(nèi)所有稠密塊的特征。拼接所有水平區(qū)域內(nèi)的特征向量,所得27 622維特征向量即為GOG特征。
拼接所提取到的LOMO特征向量GOG特征向量,即為行人圖像的特征向量。
引入子空間學(xué)習(xí),將原始特征空間中線性不可分的數(shù)據(jù),映射到區(qū)分能力更強的低維子空間,對這種映射關(guān)系的設(shè)計是子空間學(xué)習(xí)的關(guān)鍵。
選擇全監(jiān)督的子空間學(xué)習(xí)方法[11],學(xué)習(xí)一個判別式子空間。選定n張帶標(biāo)簽的行人圖像,以其特征向量分別描述為xi∈d(n=1,2,…,n),記其相應(yīng)的標(biāo)簽為yi。學(xué)習(xí)平方距離函數(shù)
(1)
其中,U∈d×r,是一個低維投影矩陣,可將不同攝像機視圖中的行人圖像映射到一個公共子空間,從而進行有效的行人再識別[11]。r(?d)是投影子空間的維數(shù)。
如果xi和xj屬于同一人,也即yi=yj,則其距離函數(shù)值較小,反之較大。最優(yōu)低維投影矩陣可以表示為
(2)
其中,X=(x1,x2,…,xn),而權(quán)重矩陣W∈n×n的元素
(3)
利用跡操作,可以將損失函數(shù)L(X,U,W)重新改寫為tr (UTXLXTu)。其中,L是一個對角矩陣D與權(quán)重矩陣W之差,即
L=D-W,
而D對角線上的元素是W對應(yīng)行之和。增加約束
tr (UTXLXTu)=1,
通過廣義特征值分解,即可求得最優(yōu)低維投影矩陣U*,它由r個最小特征值對應(yīng)的相關(guān)特征向量組成。通常取r=n-1。
得到優(yōu)化的投影矩陣U*之后,將測試樣本的探測圖像和候選集圖像特征投影到該空間中,通過計算兩者的馬氏距離,得出一個有序列表,據(jù)此即可計算出得人再識別的匹配率。
實驗選取VIPeR數(shù)據(jù)集和PRID450s數(shù)據(jù)集。
VIPeR數(shù)據(jù)集[13]包含632個行人的1 264張戶外圖像,其大小被統(tǒng)一標(biāo)準(zhǔn)化為128×48像素,整個數(shù)據(jù)集被均等一分為二,一半用于訓(xùn)練,一半用于測試。
PRID450s數(shù)據(jù)集[14]更接近現(xiàn)實,包含由兩個攝像機捕從不同視角所捕獲的450對圖像,其大小不一,但光照強度一致。
采用配置64位操作系統(tǒng)、Intel i7處理器的聯(lián)想電腦,利用軟件Matlab2015a進行實驗。選用累積特征匹配曲線(cumulative match characteristic curve,CMC)作為評估準(zhǔn)則。CMC曲線是模式識別系統(tǒng)的重要評價指標(biāo),用以計算前k次匹配到目標(biāo)樣本的概率。比較待查找樣本對象與候選集樣本間的距離,從小到大排序。查詢到的同一行人樣本越靠前,則相應(yīng)算法性能越好。為了統(tǒng)一處理數(shù)據(jù),將各數(shù)據(jù)集圖像的大小均預(yù)調(diào)整為128×48像素,再進行特征提取。
串聯(lián)融合LOMO特征和GOG特征,并結(jié)合改進的子空間學(xué)習(xí)方法,在數(shù)據(jù)集VIPeR和PRID450s上進行10次實驗,對其結(jié)果取平均,所得CMC曲線圖如圖1所示。其中排序等級代表具有較大相似度目標(biāo)的個數(shù)。
基于像素點提取的GOG描述符,相較基于滑動窗提取的LOMO特征,前者對應(yīng)的匹配曲線明顯要高,而其融合特征對應(yīng)的匹配曲線最高。融合特征可避免單一特征在描述行人圖像方面的局限性,在行人再識別時的1級匹配率更高。
(a) VIPeR
(b) PRID450s
在兩個數(shù)據(jù)集上,所給改進算法與其他行人再識別算法的實驗結(jié)果分別如表1和表2所示。
表1 VIPeR數(shù)據(jù)集上不同算法的匹配率
表2 PRID450s數(shù)據(jù)集上不同算法的匹配率
改進算法融合了兩種魯棒性的描述符以描述行人圖像,并引入了子空間學(xué)習(xí)方法求得的判別性投影矩陣,具有良好的匹配性能。與原MKFSL算法相比,在數(shù)據(jù)集VIPeR和PRID450s上,改進算法的1級匹配率分別提高了1.7%和2.7%。
為了充分發(fā)揮帶標(biāo)簽樣本的可用性,給出一種改進的MKFSL行人再識別算法。融合LOMO特征和GOG描述符以表征行人圖像,有效降低了光照、視角及攝像機參數(shù)等外界因素所帶來的影響。利用低維投影矩陣,將所提取的特征映射到低維子空間中,使之表現(xiàn)出可區(qū)分能力更強的特點,更有利于準(zhǔn)確地實現(xiàn)行人再識別。實驗結(jié)果顯示,所給改進算法可行有效。