孫 銳,夏苗苗,陸偉明,張旭東
聯(lián)合增強局部最大發(fā)生特征和k-KISSME度量學習的行人再識別
孫 銳1,2,夏苗苗1,2,陸偉明1,2,張旭東1,2
(1. 合肥工業(yè)大學計算機與信息學院,安徽 合肥 230009;2. 工業(yè)安全與應急技術安徽省重點實驗室,安徽 合肥 230009)
行人再識別是一種在監(jiān)控視頻中自動搜索行人的重要技術,該技術包含特征表示和度量學習2部分。有效的特征表示應對光線和視角變化具有魯棒性,具有判別性的度量學習能夠提高行人圖像的匹配精度。但是,現(xiàn)有的特征大多都是基于局部特征表示或者全局特征表示,沒有很好的集成行人外觀的精細細節(jié)和整體外觀信息且度量學習通常是在線性特征空間進行,不能高效地利用特征空間中的非線性結構。針對該問題,設計了一種增強局部最大發(fā)生的有效特征表示(eLOMO)方法,可以實現(xiàn)行人圖像精細細節(jié)和整體外觀信息的融合,滿足人類視覺識別機制;并提出一種被核化的KISSME度量學習(k-KISSME)方法,其計算簡單、高效,只需要對2個逆協(xié)方差矩陣進行估計。此外,為了處理光線和視角變化,應用了Retinex變換和尺度不變紋理描述符。實驗表明該方法具有豐富和完整的行人特征表示能力,與現(xiàn)有主流方法相比提高了行人再識別的識別率。
行人再識別;增強的局部最大發(fā)生特征;核學習;特征表示;度量學習
行人再識別是對不同時間出現(xiàn)在非重疊的多攝像機下的行人進行匹配,即檢索在一個攝像機中出現(xiàn)的行人是否在另外的時間出現(xiàn)在其他攝像機中。近些年,行人再識別技術在視頻監(jiān)控領域和公共安全領域中具有重要和潛在的應用價值[1]。但是由于多個攝像機之間差異和外部環(huán)境的復雜性,行人再識別的難點主要體現(xiàn)在:①不同行人從一個攝像機消失后出現(xiàn)在另一個攝像機的時間不固定,使得時間約束和空間約束的設置不可行。②真實場景攝像機拍攝的行人圖像可能具有低分辨率的特點,使得獲得的行人生物特征不可靠。③跨攝像機下的行人存在光線、視角變換、遮擋、相似外觀等問題。圖1為分別來自2個攝像機拍攝的行人圖像。
圖1 行人再識別面臨的挑戰(zhàn)(從左到右)依次是:視角、光線、姿勢、部分遮擋、分辨率、相似外觀和不同的背景
為了應對上述挑戰(zhàn),目前行人再識別的研究領域主要集中在特征表示和度量學習2個方向。特征表示的目的是提取具有魯棒性的行人特征,以便更好地進行圖像的區(qū)分;度量學習的目的是通過學習一個具有強判別力的距離度量函數(shù),對提取到的行人圖像特征進行分類。
特征表示方法用于描述不同環(huán)境中的行人外觀。為了實現(xiàn)對不同變化的區(qū)分和魯棒性,這些特征通常從水平條紋或密集塊中提取。例如,從6個非重疊水平條紋中提取顯著顏色名稱(salient color names,SCN)[2]和局部特征集合(ensemble of local features,ELF)[3]。另外作為ELF的延伸,ELF18[4]是從18個非重疊條紋中提取的特征計算得到。通常,這些基于條帶的描述符適用于解決交叉視圖主體未對準問題并且可以很好地捕獲整體外觀信息。與基于條帶的描述符相比,從密集塊提取的特征可以很好地捕獲相對較小塊中的精細細節(jié)。局部最大發(fā)生(local maximal occurrence,LOMO)[5]描述符是在密集塊中提取的,其在解決視角變化問題中表現(xiàn)出很強的魯棒性。文獻[6]試圖從密集補丁集群中學習中級過濾器。文獻[7]設計了高斯-高斯描述符(Gaussian of Gaussian,GOG),通過將每個行人圖像描述為由均值和協(xié)方差表示的一組分層高斯分布。然而,這些基于密集塊的描述符存在不善于描述圖像的整體外觀的缺點。
近年來,提出了很多基于度量學習的行人再識別方面的方法。保持簡單高效的度量學習(keep it simple and straightforward metric learning,KISSME)[5]方法導出了具有高效度量的封閉形式解。為了在高維設置中執(zhí)行KISSME,文獻[8]設計了交叉視圖二次判別分析(cross-view quadratic discriminant analysis,XQDA)作為KISSME的擴展,其采用廣義Rayleigh商來找到一個判別的低維子空間用于更有效地度量。文獻[9]提出了成對約束分量分析(pairwise constrained component analysis,PCCA)以從稀疏成對約束中學習投影矩陣。邊緣最近鄰方法(large margin nearest neighbor,LMNN)[10]旨對于K最近鄰(k-Nearest Neighbor,k-NN)分類性能表現(xiàn)良好。文獻[11]提出使用三元組約束策略從相對距離比較中學習度量。文獻[12]對多種度量學習進行組合,解決特征融合造成的維數(shù)災難問題。文獻[13]考慮利用QR分解將數(shù)據映射到低維空間,然后執(zhí)行KISSME在投影空間中學習穩(wěn)健的Mahalanobis矩陣。文獻[14]考慮到紅外-可見光行人圖像跨模態(tài)識別問題,提出了多模態(tài)度量學習算法。文獻[15]提出一種自適應深度度量學習解決行人再識別問題。然而,這些工作都是在線性特征空間中進行的,而忽略了非線性特性。
隨著深度學習的興起,出現(xiàn)了一些通過強大的深層模型來學習特征的方法。如文獻[16]指出,當將深度學習與手工制作的特征結合使用時,可以進一步提高后者的性能;文獻[17]設計了一個能夠同時提取連續(xù)圖像幀中全局與局部特征的時間殘差學習模塊,從而提高視頻行人再識別的識別率;文獻[18]提出一種聯(lián)合特征映射矩陣和異構字典對學習的算法優(yōu)化基于圖像與視頻的行人再識別的結果。但是,深度學習的缺點是需要大量的訓練數(shù)據,容易遭受過度擬合的風險。所以訓練樣本的數(shù)量較小時,度量學習方法的高效性要強于深度學習。
本文設計了增強局部最大發(fā)生(enhanced LOMO,eLOMO)的有效特征表示,并提出一種被核化的KISSME度量學習即(k-KISSME)方法用于行人再識別。為了結合基于條帶和密度塊特征提取的優(yōu)點,可將來自條紋區(qū)域的整體外觀信息和來自密集塊的精細細節(jié)整合以增強特征的辨別力。為了學習高效穩(wěn)健的度量函數(shù),還提出將KISSME方法與核函數(shù)相結合的k-KISSME方法,允許使用非線性映射捕獲數(shù)據集中的非線性空間結構。行人再識別方法的流程圖如圖2所示。
圖2 行人再識別方法流程圖d2 M
本文工作的重點如下:
(1) 設計了一種稱為eLOMO特征的行人特征表示方法,該特征是在LOMO特征的基礎上進行的特征增強,有效地提升了行人圖像的特征表示能力。
(2) 提出了一種稱為k-KISSME的度量學習方法,將KISSME度量學習映射到內核空間,允許捕獲數(shù)據集中的非線性結構,有效地提升了度量學習的靈活性。
(3) 將k-KISSME與其他度量學習方法在3個具有挑戰(zhàn)性的數(shù)據集上進行比較。實驗結果表明,本文方法的有效性體現(xiàn)在能夠在大多數(shù)實驗中獲得了更好的Rank-1匹配率。
(1) 解決光照變化的問題。顏色是描述行人圖像的重要特征。但是,由于攝像機設置和光照條件的不同,可能導致同一個人的感知顏色因不同的攝像機視角而發(fā)生變化。本文應用Retinex方法[19]來預處理行人圖像,解決因相機視角導致的顏色感知問題。Retinex方法旨在表達與人類觀察場景相一致的彩色圖像,使其包含鮮艷的顏色信息,尤其在陰影區(qū)域中能夠增強細節(jié)信息。
除了顏色描述符,還應用尺度不變局部三元模式(scale invariant local ternary pattern,SILTP)[20]描述符解決光照不變的紋理描述。SILTP是已知局部二元模式(local binary pattern,LBP)的改進算子。其優(yōu)點是引入了尺度不變的局部比較容差,克服了LBP對圖像噪聲不穩(wěn)健的缺點,實現(xiàn)了應對光照變化的不變性。
(2) 解決視角變換的問題。行人圖像在不同的相機下具有不同的視圖。如,在一個相機下具有正面視圖的人可能出現(xiàn)在另一個相機下的后視圖中。因此,在不同視角下對行人進行匹配也是一項挑戰(zhàn)。為了解決該問題,文獻[21-22]提出將行人圖像等分為6個水平條紋,并在每個條紋中計算單個直方圖特征,其能夠解決視角變化的行人表示。但缺點是可能丟失條紋中的空間細節(jié),從而影響辨別力。
本文采用滑動窗口來描述人物圖像的局部細節(jié)。具體使用大小為10×10的子窗口,其重疊步長為5個像素,來定位128×48圖像中的局部補丁。在每個子窗口中,提取2個SILTP直方圖(SILTP0.3 4,3和SILTP0.3 4,5)和一個8×8×8-bin聯(lián)合HSV直方圖。每個直方圖表示子窗口中對應模式的發(fā)生概率。為了解決視角變化的問題,需檢查相同水平位置的所有子窗口,并最大化這些子窗口中每個模式(即相同的直方圖塊)的局部出現(xiàn),進而使得到的直方圖具有應對視角變化的不變性,并可捕獲行人的局部區(qū)域特征。圖3顯示了LOMO特征提取的過程。為了進一步考慮多尺度信息,構建了一種三尺度金字塔的表示,其通過2個2×2局部平均合并操作對原始128×48圖像進行下采樣,并重復上述特征提取過程。通過連接所有計算的局部最大出現(xiàn)次數(shù),最終描述符具有(8×8×8個顏色塊+34×2個SILTP塊)×(24+11+5個水平組)=26 960個維度。最后,可應用對數(shù)轉換來抑制大的塊值,并將HSV和SILTP特征規(guī)范化為單位長度。
圖3 LOMO特征提取過程
文獻[23]中提出了一種基于等價約束的度量學習方法,其利用2個小尺寸的協(xié)方差矩陣進行基于Mahalanobis距離函數(shù)的度量學習,第一次提出了KISSME度量學習方法,并將該方法擴展到大規(guī)模數(shù)據集上。
給定一對特征向量(,),其中和表示行人圖像對(,)的特征向量。令0表示2個樣本相似的先驗知識,即(,)來自相同行人,1表示2個樣本不相似的先驗知識,即(,)分別來自2個不同的行人。一對行人圖像的相似度函數(shù)為
其中,(0|(,))為和來自相同行人的概率密度函數(shù);(1|(,))為和來自不同行人的概率密度函數(shù)。(,)的值越大,則表示行人對(,)屬于相關行人對的概率越大,反之,則表示屬于不相關行人對的概率越大。
其中,
將式(2)和(3)代入式(1)得到
由于()函數(shù)中的常數(shù)項不影響相似度的測量,可以將常數(shù)項省略則式(6)簡化得到式(7)
可以看出式(7)在形式上與Mahalanobis距離函數(shù)很相似,因此可以將2個樣本之間的距離定義為
類似于人類視覺系統(tǒng)由粗到細的識別機制,視覺學習的判別特征表示應考慮圖像之間的精細細節(jié)和整體外觀信息。其優(yōu)點體現(xiàn)在可以捕獲不同攝像機下的行人外觀的不變性,幫助確定感興趣的目標。在本文中,將提取到的LOMO特征表示與一個基于條帶的特征描述符融合在一起,得到一個新的行人再識別特征描述符——增強局部最大發(fā)生(eLOMO)特征表示。LOMO特征擅長捕獲密集塊的精細細節(jié),而基于條帶的描述符可以更好地利用來自較大區(qū)域的整體外觀信息。因此,它們的融合可以導致粗略到精細的表示,符合人類識別機制。
本文利用從類似文獻[23]獲得的重疊條紋的兩級金字塔空間中提取基于條帶的特征。為了降低背景雜亂的干擾,首先對圖像進行預處理。然后,將預處理后的圖像等分為8個水平條紋。為了減少無用信息的提取,提高特征的準確性,可從圖像的頂部和底部分別放棄1/2條紋,將得到的圖像再次重新劃分為7個條紋,因此,總共有15條尺寸相同的水平條紋??蓮拿總€條紋中提取4個基本特征:HSV和RGB的8×8×8大小的聯(lián)合直方圖特征,SCN特征以及2個尺度分別為SILTP0.3 4,3和SILTP0.3 4,5的直方圖特征。使用LOMO特征中的相同設置提取聯(lián)合HSV和SILTP直方圖,并且以與HSV直方圖相同的方式計算聯(lián)合RGB直方圖,這2個直方圖特征僅具有顏色空間的差異。使用與文獻[2]中相同的16種標準顏色計算SCN特征。與LOMO特征提取不同的是,此時每個條帶是作為整體計算的,在計算局部特征之后沒有最大化局部發(fā)生模式的操作。最后,連接從所有條紋獲得的4個基本特征,并獲得總尺寸為(83+83+34×16×2)×15=18810的描述符。為了獲得對噪聲的魯棒性,需將除了已經被標準化的SCN特征之外的其余特征都進行標準化。由于特征是從基于條帶的金字塔空間中提取的,所以可將所獲得的描述符稱為基于條帶的金字塔特征(stripe-based pyramid features,SPF)。
表1顯示了LOMO和SPF描述符的比較,從中可以發(fā)現(xiàn)兩者的相似在于:均應用了Retinex方法進行預處理,并且都采用顏色直方圖和SILTP紋理描述符來捕捉行人外觀信息。因此,可以將SPF描述符視為基于條帶的LOMO描述符的變體。其主要區(qū)別在于提取方式的不同:LOMO是根據不同比例空間上的密集塊計算的,而SPF是從兩級重疊條紋中提取的。此外,SPF中的附加RGB直方圖和SCN可以提供比LOMO中唯一的HSV直方圖更豐富的顏色信息。構建SPF描述符的目的是捕獲較大區(qū)域的整體外觀信息,使其與LOMO特征的融合可以捕獲行人外觀的整體和細節(jié)信息。圖4給出了通過LOMO和SPF提取器從一個行人圖像條帶計算的聯(lián)合HSV直方圖的示例??梢员砻鱈OMO提取器可以捕獲比SPF更多的細節(jié),而后者則擅長描述整體外觀。這是因為在裁剪的前景條紋中通常存在大約4種顏色圖案,且對應于SPF直方圖中的4個區(qū)域簇。受人類視覺系統(tǒng)特征的啟發(fā),應相信SPF和LOMO特征的融合可以提供描述符來執(zhí)行粗到細的識別。因此,融合描述符被認為比單獨使用其更具辨別力。由于SPF可以被視為LOMO的基于條帶的變體,因此將融合描述符稱為eLOMO。
表1 LOMO特征和SPF特征的比較
圖4 LOMO特征與SPF特征表示示例(圓圈中的數(shù)字表示不同的顏色模式)
本文提出了基于核學習的KISSME非線性度量方法。通過在協(xié)方差矩陣中引入正則參數(shù),使得k-KISSME方法具有更好的穩(wěn)健性和泛化性。
假設給出了和中的成對約束,所以需介紹一些符號。令為列向量,其在第個條目處的值為1,并且在其他條目處的值為0。令0(相應的1)是×對角矩陣,其對角矢量在第個條目處包含(對應于)中約束的數(shù)量,其中第一個元素是,即
令0(相應的1)為×對角矩陣,其對角矢量在第個條目處包含(別為)中約束的數(shù)量,其中第二元素是,即
通過該方法可以獲得比使用最大似然估計更穩(wěn)健和穩(wěn)定的估計。為了評估這些矩陣的逆,可根據文獻[28]給出下式
將式(11)和(12)代入到式(13)中得到
最后,這2個逆協(xié)方差矩陣之間的差為
其中,=T為×的矩陣。并且得到下式
其中,=T。通過核函數(shù)替換內積,以在特征空間中執(zhí)行度量學習。
k-KISSME的算法如下:
Algorithm 1 k-KISSME
Input: A pairwise training data (x,x), the kernel function K
Output: The distance2betweenxandx
Step 3: Calculate the distance2according to the Eq. (8) and (14)
該方法的最大的優(yōu)點是:①線性KISSME方法通過使用內核技巧以直接的方式擴展到非線性場景;②允許在包含定義了內核函數(shù)的結構化對象的數(shù)據集上應用KISSME。由于僅需要核函數(shù),所以可以在基于內核的框架內有效地處理許多未顯示矢量表示的真實數(shù)據。k-KISSME的總體計算復雜度主要取決于矩陣的計算。值得指出的是,本文算法中的k-KISSME算法是結合eLOMO特征提出的,其對處理特征數(shù)量明顯大于實例數(shù)量的問題具有優(yōu)勢。
為了防止數(shù)據過擬合,需對參數(shù)進行正則化設置,正則化參數(shù)=0.001。實驗中的其他參數(shù)在前文中已經給出。
實驗配置內存為16 G的Intel(R) Core(TM) i7-8700 CPU,NVIDIA GeForce GTX 1070Ti GPU,Matlab2015b軟件。
在3個廣泛使用的行人再識別數(shù)據集上評估了所提出的方法,包括PRID450S[29],iLIDS[30]和CUHK01[31],以驗證所提出的k-KISSME方法的有效性。圖5為3個數(shù)據集中一些行人圖像示例。
為了進行比較,重復進行了10次隨機實驗,以取得具有穩(wěn)健性的實驗結果。并對實驗結果的方差進行計算,得到的方差值均小于0.04,再一次證明了實驗的穩(wěn)定性。在表2中的描述中,為訓練集中的行人數(shù)量。將實驗分為2組進行:①利用PCA降維技術使用低維特征的k-KISSME和其他度量學習方法之間的性能比較;②k-KISSME與目前先進的度量學習方法性能比較。在第1組,使用PCA基于相同的100維特征表示的度量學習方法,在第2組,使用原始特征進行k-KISSME方法與其他度量學習方法的性能比較。
圖5 行人再識別數(shù)據集示意圖
表2 實驗數(shù)據集的簡要介紹
3.2.1 PRID450S行人數(shù)據集實驗結果
PRID450S數(shù)據集包含450個行人圖像對的900張圖像,且由2個不同的監(jiān)控攝像頭拍攝。由于不同的視點變化、背景干擾和部分遮擋,使得PRID450S數(shù)據集成為具有挑戰(zhàn)性的行人再識別數(shù)據集之一。在實驗中,為了減少計算時間,所有圖像標準化為128×48的像素相同尺寸。試驗隨機選擇225人的圖像用于訓練,其余用于測試。將k-KISSME與一些最先進的如SCNCD,QRKISS和XQDA等方法在基于LOMO特征的基礎上進行比較。除此之外,還提出了基于eLOMO特征的k-KISSME方法與一些先進方法進行比較。表3的結果顯示,k-KISSME在大多數(shù)報告的排名中獲得了最佳或次佳的表現(xiàn),其中基于eLOMO特征的k-KISSME方法在這些方法中獲得了最高匹配率,尤其是在不使用PCA降維技術時的Rank-1匹配率達到了55.6%。本文方法具有比LOMO特征更加豐富、完整的表示,并且充分利用了核特征空間中的非線性特性。
表3 PRID450S數(shù)據集中的最高匹配率
3.2.2 iLIDS數(shù)據集上的實驗結果
iLIDS數(shù)據集包含從機場的2個非重疊攝像機拍攝的119個行人的476張圖像。數(shù)據集中每個人的圖像數(shù)量在2~8之間,所有圖像被標準化為128×48像素的相同尺寸。由于該數(shù)據集是由機場相機捕獲,所以其中大多數(shù)行人具有由行李或其他行人走動引起的遮擋問題。本文遵循廣泛采用的試驗方案,隨機選擇60人的圖像用于訓練,其余行人圖像用于測試。使用基于原始的LOMO特征的方法進行比較,包括本文提出的k-KISSME度量學習和幾種最先進的方法KISSME,XQDA,PCCA,LATENT-re-id[32],rPCCA,kLFDA,LFDA[33],MFA[34]和DCNN[35],本文將基于eLOMO特征的k-KISSME方法與一些先進方法進行比較。從表4中可以看出,k-KISSME始終優(yōu)于XQDA和其他先進的方法,其中本文基于eLOMO特征的k-KISSME方法的性能表現(xiàn)最佳。與文獻[35]中提出的深度網絡相比,k-KISSME也能獲得更高的等級匹配率。這是因為深度網絡需要大量的實驗數(shù)據,而iLIDS數(shù)據集只有少數(shù)行人的幾百張圖像,難以發(fā)揮深度網絡訓練大數(shù)據集的優(yōu)勢,但是本文方法卻適用于小型數(shù)據集。
表4 iLIDS數(shù)據集中的最高匹配率
3.2.3 CUHK01數(shù)據集上的實驗結果
CUHK01數(shù)據集包含從大學校園的2個不相交的攝像機拍攝的971個行人的3 884張圖像,每個相機拍攝一個行人的4張圖像,所有圖像被標準化為128×48尺寸的像素分辨率。隨機選取486人的圖像進行訓練,其余圖像用于測試以便與其他方法進行比較。表5顯示了基于原始LOMO特征的k-KISSME方法與一些最先進方法比較的結果,包括kLFDA,Ensembles[36],IDLA[37],ImpTrpLoss[38]和DeepRanking[39]。根據實驗結果可以看出,本文提出的k-KISSME方法性能優(yōu)異,其中基于eLOMO特征的k-KISSME方法的性能表現(xiàn)最佳或次佳。即使是與深度學習相比,其也能在Rank-1獲得了比深度學習方法更好的性能,但是在Rank-5,10,20卻沒有深度學習性能高。這是因為深度學習方法使用數(shù)據增強等高級技術以提高匹配率,并能避免過度擬合。
表5 CUHK01數(shù)據集中的最高匹配率
根據實驗結果可以看到,當特征和維度相同時,在大多數(shù)數(shù)據集上k-KISSME方法在與傳統(tǒng)的行人再識別度量學習方法相比,如ITML、LMNN、XDQDA、KISSME等,能夠取得最佳的性能。并且與深度度量學習方法,如DCNN、SCNCD等相比,本文提出的k-KISSME方法的識別率也毫不遜色。值得注意的是,k-KISSME始終獲得具有較小Rank值的高匹配率。由于最匹配的行人圖像需要由操作員進行驗證,進而低秩高匹配率的特性為行人再識別系統(tǒng)提供了重要信息。與其他特征相比較,K-KISSME在eLOMO特征上的高性能匹配率體現(xiàn)了其在應對特征數(shù)量明顯大于實例數(shù)量的問題具有很大的優(yōu)勢。本文還注意到k-KISSME在應用PCA降維時的性能優(yōu)于大多數(shù)線性方法,且k-KISSME使用核學習技巧在非線性特征空間中對復雜任務具有很好的魯棒性。
表6中顯示了當前幾種先進的度量學習方法在不同數(shù)據集上的平均訓練時間。值得注意的是,該數(shù)據包含了計算eLOMO特征描述符和核矩陣的時間。從表中可以看出,XQDA在所有數(shù)據集上耗時最少,其次是KISSME。應該注意的是,k-KISSME比其他迭代方法(如ITML和LMNN)在小型數(shù)據集上要快得多。通過使用先進技術來加速核矩陣的計算,可以進一步改進運行時間。此外,k-KISSME實現(xiàn)起來非常簡單,計算效率高,是本文的主要目標。
表6 幾種度量學習方法的平均訓練時間(s)
本文提出了聯(lián)合增強局部最大發(fā)生特征和k-KISSME度量學習的行人再識別方法。其中,增強局部最大發(fā)生特征融合了行人圖像的精細細節(jié)和整體外觀信息,能有效解決由光線和視角變化等導致的行人外觀不匹配的問題;k-KISSME的度量學習結合了核學習的非線性特性和KISSME方法的計算高效性,允許在由核函數(shù)引起的非線性特征空間中進行操作。實驗結果表明,本文方法在3個行人再識別數(shù)據集上與其他先進的行人再識別方法相比提高了識別率。在將來的工作中,可以通過空間約束擴展本文方法,并將其應用到其他視覺學習任務。
[1] 李幼蛟, 卓力, 張菁, 等. 行人再識別技術綜述[J]. 自動化學報, 2018, 44(9): 1554-1568. LI Y J, ZHUO L, ZHANG J, et al. A survey of person re-identification[J]. Acta Automatica Sinica, 2018, 44(9): 1554-1568 (in Chinese).
[2] YANG, YANG J M, YAN J J, et al. Salient color names for person Re-identification[M]. Computer Vision – ECCV 2014. Cham: Springer International Publishing, 2014: 536-551.
[3] GRAY D, TAO H. Viewpoint invariant pedestrian recognition with an ensemble of localized features[C]// Lecture Notes in Computer Science. Heidelberg: Springer, 2008: 262-275.
[4] CHEN Y C, ZHENG W S, LAI J. Mirror representation for modeling view-specific transform in person re-identification[C]//Proceedings of the International Conference on Artificial Intelligence. Buenos Aires: Argentina, 2015: 3402-3408.
[5] LIAO S C, HU Y, ZHU X Y, et al. Person re-identification by local maximal occurrence representation and metric learning[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2015: 2197-2206.
[6] ZHAO R, OUYANG W L, WANG X G. Learning mid-level filters for person Re-identification[C]//2014 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2014: 144-151.
[7] MATSUKAWA T, OKABE T, SUZUKI E, et al. Hierarchical Gaussian descriptor for person re-identification[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2016: 1363-1372.
[8] LI Z, CHANG S Y, LIANG F, et al. Learning locally-adaptive decision functions for person verification[C]//2013 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2013: 3610-3617.
[9] MIGNON A, JURIE F. PCCA: a new approach for distance learning from sparse pairwise constraints[C]// 2012 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2012: 2666-2672.
[10] WEINBERGER K Q, SAUL L K. Distance metric learning for large margin nearest neighbor classification[J]. Journal of Machine Learning Research, 2009, 10(2): 207-244.
[11] ZHENG W S, GONG S, XIANG T. Re-identification by relative distance comparison[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35 (3): 653-668.
[12] LISANTI G, KARAMAN S, MASI I. Multichannel- kernel canonical correlation analysis for cross-view person reidentification[J]. ACM Transactions on Multimedia Computing, Communications, and Applications, 2017, 13(2): 1-19.
[13] ZHAO C R, CHEN Y P, WEI Z H, et al. QRKISS: a two-stage metric learning via QR-decomposition and KISS for person Re-identification[J]. Neural Processing Letters, 2019, 49(3): 899-922.
[14] WANG Z X, WANG Z, ZHENG Y Q, et al. Learning to reduce dual-level discrepancy for infrared-visible person Re-identification[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2019: 618-626.
[15] YANG W X, YAN, CHEN S. Adaptive deep metric embeddings for person re-identification under occlusions[J]. Neurocomputing, 2019, 340: 125-132.
[16] TAO D, GUO Y, YU B J, et al. Deep multi-view feature learning for person re-identification[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2017, 28(10): 2657-2666.
[17] DAI J, ZHANG P P, LU H C, et al. Video person re-identification by temporal residual learning[J]. IEEE Transactions on Image Processing, 2019, 28(3): 1366-1377.
[18] ZHU X K, JING X Y, YOU X G, et al. Image to video person re-identification by learning heterogeneous dictionary pair with feature projection matrix[J]. IEEE Transactions on Information Forensics and Security, 2017, (99): 1.
[19] LUO P, WANG X G, TANG X O. Pedestrian parsing via deep decompositional network[C]//2013 IEEE International Conference on Computer Vision. New York: IEEE Press, 2013: 2648-2655.
[20] LIAO S C, ZHAO G Y, KELLOKUMPU V, et al. Modeling pixel process with scale invariant local patterns for background subtraction in complex scenes[C]//2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2010: 1301-1306.
[21] PROSSER B, ZHENG W S, GONG S G, et al. Person re-identification by support vector ranking[C]// Procedings of the British Machine Vision Conference 2010. UK: Aberystwyth, 2010: 1-11.
[22] ZHENG W S, GONG S G, XIANG T. Person re-identification by probabilistic relative distance comparison[C]//IEEE Conference on Computer Vision and Pattern Recognition (CVPR) 2011. New York: IEEE Press, 2011: 649-656.
[23] K?STINGER M, HIRZER M, WOHLHART P, et al. Large scale metric learning from equivalence constraints[C]//2012 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2012: 2288-2295.
[24] 齊美彬, 檀勝順, 王運俠, 等. 基于多特征子空間與核學習的行人再識別[J]. 自動化學報, 2016, 42(2): 299-308. QI M B, TAN S S, WANG Y X, et al. Multi-feature subspace and kernel learning for person re-identification[J]. Acta Automatica Sinica, 2016, 42(2): 299-308 (in Chinese).
[25] XIONG F, GOU M G, CAMPS O, et al. Person re-identification using kernel-based metric learning methods[C]//European Conference on Computer Vision (ECCV). Heidelberg: Springer, 2014: 1-16.
[26] NGUYEN B, MORELL C, DE BAETS B. Supervised distance metric learning through maximization of the Jeffrey divergence[J]. Pattern Recognition, 2017, 64: 215-225.
[27] DAVIS J V, KULIS B, JAIN P, et al. Information- theoretic metric learning[C]//Proceedings of the 24th International Conference on Machine Learning-ICML ’07. New York: ACM Press, 2007: 209-216.
[28] PETERSEN K B, PEDERSEN M S. The matrix cookbook [EB/OL]. [2019-12-06]http://www2.imm.dtu. dk/pubdb/views/edoc_download.php/3274/pdf/imm3274.pdf.
[29] ROTH P M, HIRZER M, K?STINGER M, et al. Mahalanobis distance learning for person Re-identification[C]//Person Re-Identification. London: Springer London, 2014: 247-267.
[30] ZHENG W S, GONG S G, XIANG T. Associating groups of people[C]//Procedings of the British Machine Vision Conference 2009. UK: London, 2009: 7-10.
[31] LI W, ZHAO R, WANG X G. Human reidentification with transferred metric learning[C]//Computer Vision–ACCV 2012. Heidelberg: Springer, 2013: 31-44.
[32] SUN C, WANG D, LU H C. Person re-identification via distance metric learning with latent variables[J]. IEEE Transactions on Image Processing, 2017, 26(1): 23-34.
[33] PEDAGADI S, ORWELL J, VELASTIN S, et al. Local fisher discriminant analysis for pedestrian Re-identification[C]//2013 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2013: 3318-3325.
[34] YAN S C, XU D, ZHANG B, et al. Graph embedding and extensions: a general framework for dimensionality reduction[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2007, 29(1): 40-51.
[35] DING S Y, LIN L, WANG G R, et al. Deep feature learning with relative distance comparison for person re-identification[J]. Pattern Recognition, 2015, 48(10): 2993-3003.
[36] PAISITKRIANGKRAI S, SHEN C H, VAN DEN HENGEL A. Learning to rank in person re-identification with metric ensembles[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2015: 1846-1855.
[37] AHMED E, JONES M, MARKS T K. An improved deep learning architecture for person re-identification[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2015: 3908-3916.
[38] CHENG D, GONG Y H, ZHOU S P, et al. Person re-identification by multi-channel parts-based CNN with improved triplet loss function[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2016: 1335-1344.
[39] CHEN S Z, GUO C C, LAI J H. Deep ranking for person re-identification via joint representation learning[J]. IEEE Transactions on Image Processing, 2016, 25(5): 2353-2367.
Joint enhanced local maximal occurrence representation and k-KISSME metric learning for person re-identification
SUN Rui1,2, XIA Miao-miao1,2, LU Wei-ming1,2, ZHANG Xu-dong1,2
(1. School of Computer and Information, Hefei University of Technology, Hefei Anhui 230009, China; 2. Anhui Province Key Laboratory of Industry Safety and Emergency Technology, Hefei Anhui 230009, China)
Person re-identification is an important technique for automatically searching for pedestrians in surveillance videos. This technology consists of two key parts, feature representation and metric learning. Effective feature representations should be robust to changes in illumination and viewpoint, and the discriminative metric learning can improve the matching accuracy of person images. However, most of the existing features were based on local or global feature representation and failed to efficiently use the fine details and profile information of the appearance of pedestrians. More importantly, metric learning was usually conducted in a linear feature space, and nonlinear structures in the feature space couldn’t be efficiently utilized. To solve these problems, we first designed an effective feature representation called enhanced local maximal occurrence representation (eLOMO), which could realize the fusion of fine details and profile information of the appearance of the person image and satisfy the human visual recognition mechanism. Furthermore, we proposed a kernelized KISSME metric learning (k-KISSME) method, simple and efficient, only requiring two inverse covariance matrices to be estimated. In addition, to handle changes in light and viewing angle, we applied Retinex transforms and scale-invariant texture descriptors. Experiments show that the proposed method possesses the ability regarding abundant and integral person feature representation and improves the recognition rate of person re-identification in comparison with the existing mainstream methods.
person re-identification; enhanced local maximal occurrence feature; kernel-based learning; feature representation; metric learning
TP 391
10.11996/JG.j.2095-302X.2020030362
A
2095-302X(2020)03-0362-10
2019-12-09;
2020-03-10
國家自然科學基金面上項目(61471154);安徽省科技攻關強警項目(1704d0802181);中央高校基本科研業(yè)務費專項資金資助項目(JZ2018 YYPY0287)
孫 銳(1976-),男,安徽蚌埠人,教授,博士,碩士生導師。主要研究方向為機器學習、計算機視覺等。E-mail:sunrui@hfut.edu.cn