徐智明,戚 湧
(南京理工大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院,南京 210094)
行人重識(shí)別是智能交通、計(jì)算機(jī)視覺等領(lǐng)域的研究熱點(diǎn),其目標(biāo)是在不同拍攝環(huán)境下通過對(duì)行人身份進(jìn)行精確匹配,判斷不同角度、不同時(shí)刻所拍攝的行人圖像與給定行人是否為同一目標(biāo),從而有效節(jié)省檢索特定行人所需的時(shí)間。
現(xiàn)有行人重識(shí)別主要包括基于度量學(xué)習(xí)、基于深度特征學(xué)習(xí)的方法?;诙攘繉W(xué)習(xí)的方法首先使用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)從圖像中提取特征圖,通過優(yōu)化特征圖之間的特征距離來增強(qiáng)行人之間的判別性,通常使用余弦距離、歐式距離[1]或馬氏距離[2]計(jì)算特征圖的相似度,使用Triplet Loss[3]、Focal Loss[4]、Circle Loss[5]等損失函數(shù)優(yōu)化特征圖之間的特征距離,使得特征圖之間實(shí)現(xiàn)類類聚合且類間分離。
隨著深度學(xué)習(xí)的快速發(fā)展,許多研究人員開始將深度學(xué)習(xí)方法應(yīng)用于行人重識(shí)別任務(wù)中。基于深度特征學(xué)習(xí)的行人重識(shí)別主要分為基于局部特征學(xué)習(xí)、基于注意力機(jī)制學(xué)習(xí)、基于生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Network,GAN)學(xué)習(xí)這三類。
早期的研究工作主要關(guān)注全局特征,由于通過全局特征無法針對(duì)性地學(xué)習(xí)到行人的細(xì)粒度特征,因此學(xué)者們開始聚焦于局部特征。PCB[6]將行人特征按照水平方向均勻切分,然后在每一個(gè)切分的特征圖上進(jìn)行表征學(xué)習(xí),并設(shè)計(jì)RPP 模塊,計(jì)算各個(gè)像素的特征向量和局部平均特征向量之間的相似度,從而調(diào)整各個(gè)像素的區(qū)域歸屬。MGN[7]提出一種多分支網(wǎng)絡(luò)架構(gòu),該架構(gòu)由一個(gè)用于全局特征表示的分支和兩個(gè)用于局部特征表示的分支組成,通過分割區(qū)域與構(gòu)造分支結(jié)構(gòu)的方法獲得全局特征和更加細(xì)粒度的局部特征,然后對(duì)各個(gè)分支進(jìn)行特征提取,將區(qū)分度較好的多粒度細(xì)節(jié)信息與行人整體信息進(jìn)行融合,但是,由于構(gòu)造的分支數(shù)目較多,導(dǎo)致MGN訓(xùn)練出的模型參數(shù)量龐大。
基于局部特征學(xué)習(xí)的方法有效地推進(jìn)了行人重識(shí)別的發(fā)展,增強(qiáng)了對(duì)圖片中人體不完整部分和遮擋部分的特征魯棒性,并進(jìn)一步通過引入注意力機(jī)制加強(qiáng)了對(duì)這些特征的學(xué)習(xí)。STA(Spatial-Temporal Attention)[8]網(wǎng)絡(luò)中加入時(shí)空注意力機(jī)制,將特征圖按照長(zhǎng)度劃分為4 個(gè)局部區(qū)域,分別提取每個(gè)部分中注意力分值最高的分區(qū)得到判別性信息。ABDNet[9]網(wǎng)絡(luò)中加入復(fù)合注意力機(jī)制,提出將通道注意力和局部注意力相結(jié)合的行人重識(shí)別方法,其中,通道注意力機(jī)制促進(jìn)了信道級(jí)、特征級(jí)的信息聚合,局部注意力捕獲了身體和部分位置的有效信息,從而高效地進(jìn)行深層次的特征學(xué)習(xí)。還有一些行人重識(shí)別方法,如DG-Net[10]基 于GAN 生成訓(xùn)練數(shù)據(jù)以提升數(shù)據(jù)量,通過生成大量數(shù)據(jù)提高模型精度,但是,由于行人重識(shí)別數(shù)據(jù)集中圖像像素較低,導(dǎo)致生成的圖像過于模糊,對(duì)模型精度提升并不明顯。
現(xiàn)有的行人重識(shí)別研究大多學(xué)習(xí)人體在二維平面上的特征表示,往往忽略了人體自身的拓?fù)浼s束以及人體外形信息,這導(dǎo)致現(xiàn)有方法對(duì)特征學(xué)習(xí)比較局限。在現(xiàn)實(shí)中,人體以一種對(duì)稱的三維形式存在,三維人體結(jié)構(gòu)相較二維平面像素含有更多的體型、取向、外觀等特征,本文認(rèn)為學(xué)習(xí)有效且可擴(kuò)展的行人特征的關(guān)鍵是要考慮人體特征在三維空間中的特征表現(xiàn)。例如,事先給孩子看過一張熊貓的圖片,孩子在動(dòng)物園中就可以立刻判別出哪種動(dòng)物是熊貓,原因在于,當(dāng)孩子看到一張熊貓圖片時(shí),已經(jīng)在腦海中通過先驗(yàn)知識(shí)重構(gòu)了熊貓的三維剛體模型,在動(dòng)物園中看到熊貓就能立刻判別出是否為同一對(duì)象。因此,讓計(jì)算機(jī)學(xué)習(xí)人體特征在三維空間中的特征表示,是當(dāng)前行人重識(shí)別研究中的一項(xiàng)重要任務(wù)。
基于網(wǎng)格重構(gòu)的三維人體建模方法[11-14]在近些年發(fā)展迅速,HMR[15]網(wǎng)絡(luò)實(shí)現(xiàn)了端到端恢復(fù)人體三維mesh 的模型,通過輸入含有人體的RGB 圖片建立人體三維模型,對(duì)于三維模型的生成,主要借助SMPL 方法,將shape 和三維關(guān)節(jié)點(diǎn)(joints)的角度(angles)作為輸入,建立三維人體模型。DecoMR[16]提出一種三維人體網(wǎng)格估計(jì)框架,建立三維人體模型單元網(wǎng)格與圖像特征在UV 空間中的映射關(guān)系。OG-NET[17]網(wǎng)絡(luò)中最早使用3D 點(diǎn)云數(shù)據(jù)開展行人重識(shí)別研究,在三維空間中通過生成的點(diǎn)云數(shù)據(jù)來實(shí)現(xiàn)人體匹配,利用三維空間的人體結(jié)構(gòu)化信息和二維平面的外觀RGB 信息來學(xué)習(xí)行人特征表示,具體地,OG-NET 首先估計(jì)三維人體模型的姿態(tài)信息,然后與二維平面中的RGB 信息進(jìn)行匹配,將原始圖像數(shù)據(jù)集轉(zhuǎn)換為點(diǎn)云數(shù)據(jù)后進(jìn)一步設(shè)計(jì)網(wǎng)絡(luò)來學(xué)習(xí)點(diǎn)云特征。但是,OG-NET 使用3D 點(diǎn)云數(shù)據(jù)作為輸入,3D 點(diǎn)云數(shù)據(jù)包含人體姿態(tài)、背景等信息,雖能大幅提高精度,但是無法提升行人重識(shí)別算法的魯棒性。
深度學(xué)習(xí)技術(shù)的快速發(fā)展使得行人重識(shí)別的精度得到顯著提升,但其仍面臨由身體錯(cuò)位、遮擋、背景擾動(dòng)、姿勢(shì)不同所帶來的眾多挑戰(zhàn),且算法在不同數(shù)據(jù)集上表現(xiàn)出延伸性差、魯棒性低等問題。本文提出一種基于UV 貼圖優(yōu)化人體特征的行人重識(shí)別方法。借助三維重構(gòu)技術(shù)與人體幾何信息先驗(yàn)知識(shí),從含有人體圖像的RGB 圖片中恢復(fù)人體三維模型,以研究行人特征在三維空間中的表示為目標(biāo),建立二維圖像與三維人體模型的映射關(guān)系。從特征優(yōu)化角度出發(fā),通過研究人體不變的特征,從數(shù)據(jù)中提取人體的外觀、體型、視角等參數(shù),重構(gòu)出固定姿態(tài)(T-pose[18])的三維人體模型,并將三維人體模型展開到二維UV 空間中對(duì)行人特征進(jìn)行優(yōu)化,使得計(jì)算機(jī)可以學(xué)習(xí)到更多在二維圖像中看不到的行人特征,從而提高行人重識(shí)別模型在不同數(shù)據(jù)集上的性能表現(xiàn)。
本文基于UV 貼圖優(yōu)化人體特征的行人重識(shí)別方法分為特征優(yōu)化和行人重識(shí)別這2 個(gè)過程。
特征優(yōu)化過程分為2 個(gè)階段,具體如下:
1)第一階段,如圖1 所示,首先對(duì)二維圖像I∈R3×W×H進(jìn)行特征提取,提取出形狀β∈R10、姿 態(tài)θ∈R72、視角P∈R3的特征向量;然后通過姿態(tài)θ、形狀β、視角P以及二維圖像中的行人RGB 像素特征重構(gòu)SMPL 三維人體模型M∈R6890×6,三維人體模型M由6 890 個(gè)網(wǎng)格頂點(diǎn)G∈R6890×3與RGB 像素點(diǎn)C∈R6890×3組成,表示相對(duì)于對(duì)應(yīng)的三維人體模版上端點(diǎn)的偏移量與色彩像素值大小。在重構(gòu)三維人體模型時(shí),首先通過對(duì)SMPL 模型進(jìn)行調(diào)整生成三維人體網(wǎng)格(mesh)圖,然后利用視角P將二維圖像中的RGB 信息映射到三維人體網(wǎng)格圖中,生成三維人體模型。
圖1 UV 貼圖生成過程Fig.1 UV map generation process
本文主要研究人體不變特征,由于二維圖像中各個(gè)行人的姿態(tài)不同,因此通過式(1)將三維人體模型轉(zhuǎn)化為統(tǒng)一姿態(tài)的人體模型T-pose:
其中:gi是網(wǎng)格頂點(diǎn)G中的一個(gè)元素;bs,i(β)、bp,i(θ)分別為形狀參數(shù)β的線性矩陣、姿態(tài)參數(shù)θ的線性矩陣中的元素;Tk為第k個(gè)關(guān)節(jié)點(diǎn)的轉(zhuǎn)換矩陣。
2)第二階段,將重構(gòu)后的三維人體模型轉(zhuǎn)化到UV 空間中進(jìn)行優(yōu)化,建立三維人體模型與UV 空間的映射關(guān)系,生成相對(duì)應(yīng)的UV 貼圖A,映射關(guān)系如下:
其中:是三維人體模型每個(gè)頂點(diǎn)的坐標(biāo);X是位置貼圖;vi、ui為UV 坐標(biāo)。
由于行人重識(shí)別數(shù)據(jù)集中人體特征受到不同光照與拍攝角度的影響,因此難以學(xué)習(xí)到有效的特征表達(dá),本文通過UV 貼圖來優(yōu)化行人特征在三維空間中的特征表現(xiàn)。特征優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)如圖2 所示,在每個(gè)卷積層中:Conv(i,o,m×m,s)、BN、ReLU 表示輸入圖像的通道數(shù)是i,卷積后產(chǎn)生的通道數(shù)為o,卷積核大小是m×m,步長(zhǎng)是s,卷積層后添加一個(gè)批歸一化層BN 和一個(gè)激活層(激活函數(shù)采用ReLU)。特征優(yōu)化過程為:對(duì)UV 貼圖A進(jìn)行特征提取,經(jīng)過上采樣與下采樣后得到深度圖d∈R64×64×1與色彩特征圖a∈R64×64×3,通過深度圖d與 色彩特征圖a重構(gòu)出,其中,=(a/μ+σ)×d×μ-1,μ、σ是實(shí)驗(yàn)中設(shè)置的權(quán)重。將進(jìn)行水平翻轉(zhuǎn)得到,使用L1損 失函數(shù)計(jì)算A與、A 與之間的誤差,令A(yù) ≈?A ≈。損失函數(shù)如下:
圖2 特征優(yōu)化網(wǎng)絡(luò)框架Fig.2 Feature optimization network framework
其中:λ是實(shí)驗(yàn)中損失函數(shù)的權(quán)重。
本節(jié)介紹行人重識(shí)別過程中使用的網(wǎng)絡(luò)結(jié)構(gòu)以及損失函數(shù)。本文通過建立行人在三維空間的特征表示,學(xué)習(xí)二維圖像與三維人體的互補(bǔ)關(guān)系,在實(shí)驗(yàn)中加入了人體形狀參數(shù)β進(jìn)行特征學(xué)習(xí),并使用三元組損失函數(shù)以及動(dòng)量的交叉熵?fù)p失函數(shù)來增強(qiáng)行人特征之間的判別性,同時(shí)區(qū)分行人身份標(biāo)簽信息。
行人重識(shí)別模型結(jié)構(gòu)如圖3 所示,采用在ImageNet[19]數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練 的ResNest 網(wǎng)絡(luò)作為特征提取模塊,ResNest網(wǎng)絡(luò)中加入split-Attention機(jī)制,將特征圖按照通道(channel)維度分為數(shù)個(gè)Split-Attention 子塊,使用注意力機(jī)制對(duì)劃分的子模塊進(jìn)行特征聚焦,獲得需要關(guān)注的行人特征信息,抑制其他無用特征,相較ResNet[20]網(wǎng)絡(luò),能更精確地提取到更多有用的特征。具體地,本文行人重識(shí)別網(wǎng)絡(luò)基于改進(jìn)的ResNest-50,在原始ResNest 網(wǎng)絡(luò)的基礎(chǔ)上將其4 層卷積輸出的特征矩陣分別添加池化層(最大值池化層、全局平均池化層)與全連接層以進(jìn)行特征降維,然后融合得到特征圖,最后建立損失函數(shù)訓(xùn)練該網(wǎng)絡(luò)。
圖3 行人重識(shí)別模型結(jié)構(gòu)Fig.3 Person re-identification model structure
首先使用三元組損失法對(duì)特征圖進(jìn)行細(xì)節(jié)區(qū)分,當(dāng)2 個(gè)特征圖很相似時(shí),使用三元組損失法對(duì)這2 個(gè)差異性較小的輸入向量進(jìn)行優(yōu)化,從而學(xué)習(xí)到更優(yōu)的特征表示。設(shè)樣本為x,f()為正樣本映射函數(shù),f()為負(fù)樣本映射函數(shù),將正樣本和負(fù)樣本分開,即實(shí)現(xiàn)類類聚合、類間分離。三元組損失表示為:
使用加入label smooth 的交叉熵?fù)p失函數(shù)來增強(qiáng)行人之間的判別性,計(jì)算行人圖片信息之間的身份標(biāo)簽損失,將其記為L(zhǎng)id,交叉熵?fù)p失函數(shù)如下:
其中:hθ(x(i))是對(duì)圖片信息的標(biāo)簽進(jìn)行Softmax 操作;y(i)為對(duì)應(yīng)的行人身份標(biāo)簽信息。
如圖2 所示,由ResNest layer1 提取后的特征圖經(jīng)過池化層(Mix Pool)、全連接層、一個(gè)ReLU 激活層后,得到預(yù)測(cè)人體的形狀參數(shù)β。在本文實(shí)驗(yàn)中觀察到,由于人體形狀參數(shù)β中的每一個(gè)參數(shù)對(duì)人體作用部位不同,因此每個(gè)參數(shù)對(duì)應(yīng)的權(quán)重對(duì)網(wǎng)絡(luò)的影響不同,通過馬氏距離來構(gòu)建人體形狀損失函數(shù)能進(jìn)一步增強(qiáng)行人重識(shí)別網(wǎng)絡(luò)的判別性,該損失函數(shù)如下:
其中:βi為提取的人體形狀參數(shù)樣本信息;si為對(duì)應(yīng)的人體形狀參數(shù)標(biāo)簽信息。
行人重識(shí)別網(wǎng)絡(luò)整體損失函數(shù)表示為:
其中:γ、η為損失函數(shù)的權(quán)重。
本次實(shí)驗(yàn)設(shè)置具體如下:
1)數(shù)據(jù)集。在Market-1501[21]、DukeMTMC-reID[22]、MSMT17[23]等行人重識(shí)別數(shù)據(jù)集上進(jìn)行大量實(shí)驗(yàn),以驗(yàn)證所提方法的有效性。
2)數(shù)據(jù)預(yù)處理:
(1)由于圖像底庫中圖片的分辨率大小不同,因此將圖片調(diào)整為統(tǒng)一大小的圖像。
(2)在深度學(xué)習(xí)模型的訓(xùn)練過程中,數(shù)據(jù)量的大小將嚴(yán)重影響模型的準(zhǔn)確率,因此,通過Rand Augment數(shù)據(jù)增廣方法生成大量的訓(xùn)練數(shù)據(jù),對(duì)輸入圖像進(jìn)行隨機(jī)裁剪、水平翻轉(zhuǎn)、應(yīng)用仿射變換、平移、旋轉(zhuǎn)、剪切等變換方式來擴(kuò)充訓(xùn)練數(shù)據(jù),從而在訓(xùn)練過程中減小參數(shù)空間,同時(shí)保持圖像數(shù)據(jù)的多樣性,有助于防止數(shù)據(jù)過擬合現(xiàn)象的發(fā)生。
3)評(píng)價(jià)指標(biāo)。本文使用平均正確率均值(mAP)和匹配率(rank-i)這2 個(gè)指標(biāo)來衡量行人重識(shí)別方法的性能。
4)實(shí)驗(yàn)環(huán)境。使用Pytorch1.6 深度學(xué)習(xí)框架進(jìn)行代碼編寫,在配置64 GB 內(nèi)存、Hygon C86 7185 32-core 處理器和NVIDIA Tesla V100 GPU 的服務(wù)器上進(jìn)行實(shí)驗(yàn)。
5)訓(xùn)練策略。本文使用apex 混合精度方法加速神經(jīng)網(wǎng)絡(luò)訓(xùn)練,該網(wǎng)絡(luò)每個(gè)批次輸入圖像為256 張,輸入圖像大小為384×128 像素。采用SGD 損失函數(shù)優(yōu)化器優(yōu)化整個(gè)行人重識(shí)別網(wǎng)絡(luò),其中,動(dòng)量、衰減率和初始學(xué)習(xí)率分別設(shè)置為0.5、0.000 5 和0.000 35。設(shè)計(jì)相應(yīng)的訓(xùn)練策略加速神經(jīng)網(wǎng)絡(luò)收斂,從而提高模型精度,具體為:
(1)由于數(shù)據(jù)集各類別的圖像數(shù)據(jù)量差別較大,因此本文使用均衡采樣器(Balance Sampler)均勻采樣不同類別中的圖片,使得每一個(gè)批次中各類別圖像數(shù)目相等,從而提高模型參數(shù)在訓(xùn)練過程中的穩(wěn)定性。
(2)結(jié)合預(yù)熱學(xué)習(xí)率與余弦退火動(dòng)態(tài)調(diào)整學(xué)習(xí)率,通過先預(yù)熱模型,即以一個(gè)較小學(xué)習(xí)率開始逐步上升到特定的學(xué)習(xí)率,使模型收斂效果更佳,且當(dāng)損失函數(shù)接近全局最小值時(shí)學(xué)習(xí)率可以隨著余弦函數(shù)動(dòng)態(tài)減小。
(3)通過凍結(jié)骨干網(wǎng)絡(luò)(Backbone Freeze)的訓(xùn)練,如凍結(jié)5 個(gè)批次的訓(xùn)練,將更多的資源放在訓(xùn)練后續(xù)部分的網(wǎng)絡(luò)參數(shù),使得時(shí)間和資源利用都能得到很大改善。待后續(xù)網(wǎng)絡(luò)參數(shù)訓(xùn)練一段時(shí)間后再解凍這些被凍結(jié)的部分,然后所有批次一起進(jìn)行訓(xùn)練。
6)測(cè)試過程。給定一張查詢圖像,提取經(jīng)過批歸一化模塊后的特征圖,使用余弦距離計(jì)算查詢圖像與查詢底庫圖像間的特征距離,使用重排序(reranking)對(duì)查詢結(jié)果作進(jìn)一步優(yōu)化,輸出為從高到低排在前十位的查詢結(jié)果。
行人重識(shí)別的目標(biāo)是在不同攝像頭下精確捕捉同一個(gè)目標(biāo),精準(zhǔn)學(xué)習(xí)圖片中行人的特征表示。目前,多數(shù)行人重識(shí)別方法中加入背景條件,讓模型學(xué)習(xí)到較多的非有效特征,雖然能夠提高模型精度,但是在一定程度上對(duì)行人重識(shí)別結(jié)果造成一種誤判,這也是行人重識(shí)別方法魯棒性不高的原因。
本文首先比較二維整體特征、二維人體部分特征、三維人體部分特征、三維人體部分特征加上背景特征的輸出結(jié)果。由人體與背景構(gòu)成不同組合的輸入數(shù)據(jù),將其輸入到模型中,對(duì)4 種數(shù)據(jù)進(jìn)行相同配置的實(shí)驗(yàn),得到結(jié)果如表1~表3 所示,從中可以看出,三維人體部分特征輸入的檢索結(jié)果不如二維整體特征,原因是:一方面人體特征從二維映射到三維時(shí)存在誤差,如圖2 所示,頭發(fā)、衣服、背包等重要的判別信息并未完全重構(gòu);另一方面是由于三維人體部分輸入沒有加入背景信息,三維人體部分與二維人體部分特征(mAP 為6.75%)結(jié)果相比,mAP 達(dá)到62.21%,這表明三維位置信息與二維顏色信息互補(bǔ),三維空間可以降低匹配難度,突出幾何結(jié)構(gòu)。
表1 Market-1501 數(shù)據(jù)集下的模型性能對(duì)比結(jié)果Table 1 Comparison results of models performance under Market-1501 dataset %
表2 DukeMTMC 數(shù)據(jù)集下的模型性能對(duì)比結(jié)果Table 2 Comparison results of models performance under DukeMTMC dataset %
表3 MSMT17 數(shù)據(jù)集下的模型性能對(duì)比結(jié)果Table 3 Comparison results of models performance under MSMT17 dataset %
本文通過將給定行人重識(shí)別數(shù)據(jù)集中的每一張圖像轉(zhuǎn)化為UV 貼圖,對(duì)查詢圖像進(jìn)行特征提取,計(jì)算其與查詢底庫中圖像的特征距離以得到查詢結(jié)果。圖4 所示為查詢圖像、相應(yīng)的UV貼圖轉(zhuǎn)化結(jié)果和檢索到的前5 名候選人查詢結(jié)果,其中,虛線框內(nèi)表示錯(cuò)誤的檢索結(jié)果,其余為正確的檢索結(jié)果。
圖4 檢索結(jié)果可視化Fig.4 Visualization of search results
將本文方法與先進(jìn)的行人重識(shí)別方法進(jìn)行比較,對(duì)比方法包括基于點(diǎn)云特征的學(xué)習(xí)方法(DGCNN、PointNet++、OG-Net)、基于二維圖像的行人重識(shí)別方法(MGN、ABD-NET、M3-reid、VA-NET)。從表4 可以看出:1)相比點(diǎn)云特征學(xué)習(xí)方法,如DGCNN、PointNet++、OG-Net,本文方法的識(shí)別性能大幅提升,從而驗(yàn)證了該方法的正確性;2)在不添加背景條件的情況下,在3 個(gè)不同數(shù)據(jù)集上本文方法的表現(xiàn)與現(xiàn)有基于深度特征學(xué)習(xí)的方法[7-10]相近,并且可以結(jié)合現(xiàn)有行人重識(shí)別方法來對(duì)訓(xùn)練精度作進(jìn)一步提升。實(shí)驗(yàn)結(jié)果表明,本文方法對(duì)行人重識(shí)別效果具有較好的提升作用,為行人重識(shí)別研究提供了一種新思路,其可以有效優(yōu)化訓(xùn)練數(shù)據(jù)并提高模型的魯棒性。在Market-1501 數(shù)據(jù)集下進(jìn)行消融實(shí)驗(yàn),結(jié)果如表5 所示,該結(jié)果驗(yàn)證了本文方法的有效性。
表4 各方法在3 種數(shù)據(jù)集上的性能對(duì)比結(jié)果Table 4 Performance comparison results of each method on three datasets %
表5 Market-1501 數(shù)據(jù)集下的消融實(shí)驗(yàn)結(jié)果Table 5 Ablation experimental results under Market-1501 dataset %
本文將行人重識(shí)別研究從二維平面拓展到三維空間,提出一種基于UV 貼圖優(yōu)化人體特征的行人重識(shí)別方法。利用人體是一種三維對(duì)稱的剛體結(jié)構(gòu)這一先驗(yàn)事實(shí),將圖片中的部分行人特征從二維平面重構(gòu)到三維空間中,從而有效擴(kuò)展特征維度并提高行人特征的可優(yōu)化性。將重構(gòu)后的三維人體模型轉(zhuǎn)化為UV 貼圖,即將人體特征從三維空間映射到二維平面,從而大幅降低模型參數(shù)量,同時(shí)設(shè)計(jì)損失函數(shù)使得模型自主優(yōu)化UV 貼圖。為了更好地學(xué)習(xí)UV 貼圖中的特征表示,設(shè)計(jì)相對(duì)應(yīng)的損失函數(shù)與相關(guān)的訓(xùn)練策略以提高訓(xùn)練精度。行人重識(shí)別數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,相較OGNset 模型,在添加背景的條件下,本文方法在Market-1501 數(shù)據(jù)集中的行人重識(shí)別rank-1 檢測(cè)準(zhǔn)確率提高13.82%,mAP 準(zhǔn)確率提高22.56%;在不添加背景的條件下,行人重識(shí)別rank-1 檢測(cè)準(zhǔn)確率提高5.26%,mAP準(zhǔn)確率提高13.66%。
本文方法的行人重識(shí)別性能得到一定提升,但是仍然存在以下不足:1)使用固定的三維人體模板對(duì)人體信息進(jìn)行三維重構(gòu),頭發(fā)、衣服、背包等具有重要判別信息的行人特征未得到具體顯現(xiàn);2)在行人特征優(yōu)化方面,優(yōu)化粒度欠佳。下一步將在三維空間中優(yōu)化人體細(xì)粒度特征,增強(qiáng)行人特征之間的判別性,進(jìn)而提高行人重識(shí)別網(wǎng)絡(luò)的精度與魯棒性。