亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        多姿態(tài)圖像生成的行人重識別算法研究

        2023-01-29 13:17:10張海燕張富凱李瑩瑩
        計算機工程與應(yīng)用 2023年2期
        關(guān)鍵詞:集上特征提取行人

        張海燕,張富凱,袁 冠,李瑩瑩

        1.河南理工大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,河南 焦作454000

        2.中國礦業(yè)大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,江蘇 徐州221116

        行人重識別(person re-identification,ReID)是利用計算機視覺技術(shù)判斷圖像或者視頻序列中是否存在特定行人的技術(shù),主要解決跨攝像機跨場景下行人的識別與搜索,屬于圖像檢索的子問題[1]。行人重識別可廣泛應(yīng)用于智能視頻監(jiān)控、公共安全、智能安保等領(lǐng)域。然而在實際場景中,同一行人在不同姿態(tài)下的外觀特征差異很大,如正面、側(cè)面、背包、騎行等;同時不同的行人在相同的姿態(tài)下的外觀差異卻很小,如相似顏色的著裝、體型等,如圖1所示。因此,很難僅依靠單一姿態(tài)下的行人圖像確定需要追蹤的目標(biāo)行人。

        圖1 不同姿態(tài)下的行人外觀圖像Fig.1 Person appearance images in different poses

        為了解決行人姿態(tài)變化多樣、特征信息缺失等問題,利用圖像生成的思想,將單一姿態(tài)的行人圖像合成多個不同姿態(tài)的行人圖像,基于數(shù)據(jù)增強,將生成的行人圖像用于行人重識別,通過融合不同姿態(tài)的行人特征實現(xiàn)姿態(tài)歸一化,從而準(zhǔn)確地預(yù)測行人的運動軌跡。

        Goodfellow等[2]最早提出一個通過對抗過程估計生成模型的框架(generative adversarial network,GAN),并在后續(xù)的圖像生成應(yīng)用中取得了出色的表現(xiàn)。Ma等[3]提出一種基于姿勢的行人生成網(wǎng)絡(luò)(pose guided person generation network,PG2),可以根據(jù)給定的行人圖像和目標(biāo)姿勢合成任意姿勢的行人圖像,實驗表明,PG2生成的行人圖像紋理清晰、姿態(tài)多樣。Zhao等[4]結(jié)合變分推理和生成對抗網(wǎng)絡(luò)的優(yōu)勢提出一種新的圖像生成模型VariGANs,可以精確地生成人物衣服圖像,實驗表明,VariGANs生成的圖像與原始圖像的外觀一致且細節(jié)清晰。

        基于以上研究,本文提出一種基于多姿態(tài)圖像生成的行人重識別算法(multi-pose image generation for person re-identification,MPIG),如圖2所示。MPIG主要由三部分組成:(1)行人圖像多姿態(tài)生成對抗網(wǎng)絡(luò)(multi-pose generative adversarial network for person image,MP-GAN);(2)多姿態(tài)行人特征提取與融合;(3)基于距離度量和排序的行人重識別。具體地,給定一張行人圖像和待查詢的行人圖像數(shù)據(jù)庫,首先MP-GAN將每一張單姿態(tài)的行人圖像生成8個不同姿態(tài)的行人圖像,然后融合1張原始圖像和8張生成的行人圖像的深度特征,最后利用歐式距離計算行人圖像與待查詢數(shù)據(jù)庫中兩兩圖像特征之間的相似度,按照相似程度排序,實現(xiàn)行人重識別。

        圖2 基于多姿態(tài)圖像生成的行人重識別算法框架圖Fig.2 Architecture of multi-pose image generation for person ReID

        本文的主要貢獻如下:

        (1)從姿態(tài)的角度出發(fā),基于圖像生成算法和深度特征提取網(wǎng)絡(luò),提出一種姿態(tài)歸一化的行人重識別解決方案。

        (2)提出一種行人圖像多姿態(tài)生成對抗網(wǎng)絡(luò)MPGAN,通過融合原始圖像和生成圖像的深度特征,實現(xiàn)行人姿態(tài)歸一化,提高行人重識別的準(zhǔn)確率。

        (3)分別在Market-1501和DukeMTMC-ReID數(shù)據(jù)集上驗證了基于多姿態(tài)圖像生成的行人重識別方法的有效性。

        1 相關(guān)工作

        學(xué)術(shù)研究中用于行人重識別模型訓(xùn)練以及評估的主 流 公 開 數(shù) 據(jù) 集 主 要 有:Market1501[5]、PKU-Reid[6]、CUHK03[7]、DukeMTMC-ReID[8-9]和MSMT17[10]等,這些數(shù)據(jù)集的提出使得行人重識別的研究取得了重大突破?;谏疃葘W(xué)習(xí)行人重識別的實現(xiàn)方法,主要包括基于表征學(xué)習(xí)的方法[11-12]、基于度量學(xué)習(xí)的方法[13]、基于局部特征的方法[14]、基于遷移學(xué)習(xí)的方法[15-16]和基于生成對抗網(wǎng)絡(luò)的方法[17]等。

        在行人姿態(tài)的研究中,利用生成對抗網(wǎng)絡(luò)合成圖像獲取更多的特征信息已經(jīng)成為研究熱點。生成對抗網(wǎng)絡(luò)一度生成的圖像太過隨機,無法控制,但隨著深入地研究后發(fā)現(xiàn),可以通過引入約束條件指導(dǎo)數(shù)據(jù)的生成過程,這些條件變量可以基于多種信息,包括用于圖像修復(fù)的部分數(shù)據(jù),來自不同模態(tài)的數(shù)據(jù),以及完整的圖像等。已有文獻表明,給定原始圖像和目標(biāo)姿態(tài),利用生成對抗網(wǎng)絡(luò)可以合成具有不同姿態(tài)的目標(biāo)圖像,例如,PG2合成任意姿勢的行人圖像、CPO(cross projection optimization)預(yù)測不同視角的車輛圖像。

        本文主要關(guān)注基于生成對抗網(wǎng)絡(luò)的行人重識別研究。Zhang等[18]提出一種新型姿態(tài)增強的交叉視圖行人重識別方法,解決訓(xùn)練數(shù)據(jù)集不足,行人動作和姿態(tài)缺失等問題。Ren等[19]利用生成對抗網(wǎng)絡(luò)轉(zhuǎn)換源域和目標(biāo)域之間的圖像風(fēng)格,通過建立源域和目標(biāo)域之間的聯(lián)系來挖掘目標(biāo)域的固有局部結(jié)構(gòu),從而實現(xiàn)域自適應(yīng)的行人重識別。Zhang等[20]研究了成對圖像之間的共現(xiàn)統(tǒng)計模式,提出交叉生成對抗網(wǎng)絡(luò)以無監(jiān)督的方式學(xué)習(xí)交叉圖像表示的聯(lián)合分布,實驗表明,聯(lián)合不變特征可以提高行人匹配的準(zhǔn)確率。Chen等[21]提出了一種基于自我監(jiān)督學(xué)習(xí)的簡單有效的數(shù)據(jù)擴充策略,解決生成對抗網(wǎng)絡(luò)訓(xùn)練成本高的問題,通過數(shù)據(jù)增強提升行人重識別的綜合表現(xiàn)。

        2 提出的行人重識別算法

        2.1 問題描述

        基于多姿態(tài)圖像生成的行人重識別算法可以描述為:首先,對于每一個輸入的單姿態(tài)行人圖像Ii,姿態(tài)表示為p=0,將其映射成為具有M個姿態(tài)的特征表示,公式如下:

        其中,G(·)表示利用生成對抗網(wǎng)絡(luò)將輸入的單姿態(tài)行人圖像Ii轉(zhuǎn)換成多姿態(tài)圖像,為生成的圖像,M為生成的姿態(tài)數(shù)量,f(·)為特征提取函數(shù)。對于原始行人圖像Ii,其特征表示為an=f{Ii},n=1表示單姿態(tài)。將原始輸入的行人特征an與生成的多姿態(tài)行人特征am進行融合,形成全局多姿態(tài)特征向量,可表示為:

        訓(xùn)練時,使用對比損失函數(shù)處理配對行人圖像的關(guān)系,公式如下:

        模型訓(xùn)練完成后,計算輸入行人圖像Ii與監(jiān)控視頻中的序列圖像中每一張行人圖像特征之間的歐式距離,并按照相似程度排序,從而找到目標(biāo)行人。

        2.2 多姿態(tài)圖像生成

        行人圖像多姿態(tài)生成對抗網(wǎng)絡(luò)(MP-GAN)旨在根據(jù)單姿態(tài)輸入圖像和目標(biāo)姿態(tài)骨架圖生成多個隱藏姿態(tài)的相同行人圖像。具體地,給定一張行人圖像Ii和目標(biāo)姿態(tài)骨架圖Ipj,MP-GAN通過卷積與反卷積操作合成新的行人圖像I?j,其中,I?j與Ii為同一行人不同姿態(tài)的兩張圖像,且I?j具有姿態(tài)Ipj。如圖3所示,MP-GAN主要由目標(biāo)姿態(tài)、生成器網(wǎng)絡(luò)和判別器網(wǎng)絡(luò)三部分組成。

        圖3 行人圖像多姿態(tài)生成對抗網(wǎng)絡(luò)的模型結(jié)構(gòu)Fig.3 Structure of multi-pose generative adversarial network for person images

        2.2.1 姿勢估計

        多姿態(tài)圖像生成的過程依賴于輸入的行人圖像和一個重要因素:由姿態(tài)骨架圖表示的目標(biāo)姿態(tài)。目標(biāo)姿態(tài)骨架圖由預(yù)訓(xùn)練的2D人體姿態(tài)檢測和識別模型獲得[22]。具體地,輸入行人圖像Ii,姿態(tài)識別模型檢測該行人特定的關(guān)鍵點(如頭部、肩膀、手肘、手腕、膝蓋、腳踝等)以及相應(yīng)的關(guān)聯(lián)區(qū)域,通過連接人體關(guān)鍵點產(chǎn)生一個姿態(tài)骨架圖像Ipj。同時,骨架圖像采用分層結(jié)構(gòu),由不同的顏色進行區(qū)分。理論上,任何行人的任意姿態(tài)骨架圖都可以作為另一個行人圖像生成的基礎(chǔ)條件。為了實現(xiàn)姿態(tài)標(biāo)準(zhǔn)化,首先預(yù)測Market-1501數(shù)據(jù)集中所有訓(xùn)練圖像的姿態(tài),然后使用k-means聚類算法將行人姿態(tài)分成8個類別,形成8個標(biāo)準(zhǔn)的行人姿態(tài)骨架圖,如圖4所示。

        圖4 在Market-1501數(shù)據(jù)集上獲得8個標(biāo)準(zhǔn)姿態(tài)骨架圖Fig.4 Eight canonical pose skeletons obtained from Market-1501 dataset

        2.2.2 生成器網(wǎng)絡(luò)

        采用條件生成器網(wǎng)絡(luò),結(jié)合行人圖像的深度特征和姿態(tài)骨架特征生成新的不同姿態(tài)的行人圖像。條件生成器網(wǎng)絡(luò)定義為:

        其中,X為行人圖像的深度特征,P是目標(biāo)姿態(tài)圖像特征,L為行人ID標(biāo)簽,Z為隨機噪聲,I代表生成的行人圖像。如圖3所示,輸入原始行人圖像Ii和目標(biāo)姿態(tài)骨架圖Ipj,生成器網(wǎng)絡(luò)逐步采樣Ii深層次的語義信息,同時融合?X和?P等特征,然后執(zhí)行上采樣操作生成目標(biāo)行人圖像具有與Ipj相同的姿態(tài)。因此,生成器網(wǎng)絡(luò)目標(biāo)函數(shù)的優(yōu)化過程可表示為:

        可以看到,生成器網(wǎng)絡(luò)的輸入是x,p,l和z的融合信息,其中隨機噪聲z~Ν(0,1)服從正態(tài)分布。網(wǎng)絡(luò)為有監(jiān)督學(xué)習(xí),基于行人ID標(biāo)簽,可確保生成的圖像與輸入的圖像為同一行人。

        條件生成器網(wǎng)絡(luò)采用編碼器-解碼器結(jié)構(gòu)設(shè)計,網(wǎng)絡(luò)結(jié)構(gòu)如表1所示。編碼器由深度殘差網(wǎng)絡(luò)[23]構(gòu)成,包括9個殘差塊,每個殘差塊分別使用7×7、3×3和3×3大小的卷積核,每個卷積層后面緊接批量標(biāo)準(zhǔn)化層(batch normalization layer,BN)和ReLU激活函數(shù)。編碼器獲得行人的ID特征并與姿態(tài)骨架圖特征融合,形成256維的特征向量并輸入到解碼器中。解碼器采用3個反卷積層對輸入的特征執(zhí)行上采樣操作,分別結(jié)合ReLU與Tanh激活函數(shù)合成目標(biāo)行人圖像。

        表1 多姿態(tài)生成對抗網(wǎng)絡(luò)結(jié)構(gòu)Table 1 Network structure of MP-GAN

        2.2.3 判別器網(wǎng)絡(luò)

        輸入生成器網(wǎng)絡(luò)合成的行人圖像I?j和該行人真實的圖像Ij,判別器網(wǎng)絡(luò)執(zhí)行下采樣操作分別獲取兩個行人圖像的深度特征,通過特征匹配,輸出生成圖像I?j為真實行人的概率。判別器網(wǎng)絡(luò)目標(biāo)函數(shù)的優(yōu)化過程可定義如下:

        圖像生成的目標(biāo)是獲得最佳的生成器網(wǎng)絡(luò),因此,生成對抗網(wǎng)絡(luò)的優(yōu)化過程是逐步地最小化目標(biāo)函數(shù)LG和LD,直到網(wǎng)絡(luò)收斂。

        如表1所示,判別器網(wǎng)絡(luò)是一個下采樣的過程,由7個卷積層和1個全連接層組成。其中,卷積層2~6后面緊接BN層對輸出特征進行歸一化處理,卷積層1~6采用LeakyReLU激活函數(shù)。

        2.3 基于姿態(tài)歸一化的行人重識別

        如圖2所示,行人重識別由3個網(wǎng)絡(luò)模型構(gòu)成:行人圖像多姿態(tài)生成對抗網(wǎng)絡(luò)MP-GAN(圖中紅色部分)、特征提取網(wǎng)絡(luò)A(圖中綠色部分)、特征提取網(wǎng)絡(luò)B(圖中藍色部分)。其中,特征提取網(wǎng)絡(luò)A基于訓(xùn)練集中的原始行人圖像,提取當(dāng)前單姿態(tài)下行人的深度特征;特征提取網(wǎng)絡(luò)B基于MP-GAN生成的多個姿態(tài)圖像進行訓(xùn)練,提取該行人的姿態(tài)歸一化特征;融合特征提取網(wǎng)絡(luò)A和B獲得的所有特征,可形成用于行人重識別的全局ReID特征。

        2.3.1 特征提取

        特征提取網(wǎng)絡(luò)A和特征提取網(wǎng)絡(luò)B具有相同的網(wǎng)絡(luò)結(jié)構(gòu),均采用密集卷積網(wǎng)絡(luò)DenseNet(dense convolutional network)[24]提取行人圖像特征,兩者的區(qū)別在于參與訓(xùn)練的數(shù)據(jù)集不同,分別是原始單姿態(tài)行人圖像和MP-GAN合成的多姿態(tài)行人圖像。

        DenseNet的網(wǎng)絡(luò)結(jié)構(gòu)主要由密集塊和轉(zhuǎn)換層組成,如圖5所示。在每一個密集塊內(nèi)部采用密集連接,即網(wǎng)絡(luò)每一層的輸入都是前面所有層輸出的并集,而該層所學(xué)習(xí)的特征圖也會被直接傳給其后面所有層作為輸入;通過密集連接,可緩解梯度消失問題,加強特征傳播,鼓勵特征復(fù)用,大幅度減少參數(shù)量。在相鄰的兩個密集塊之間通過轉(zhuǎn)換層進行連接,并且降低特征圖大??;轉(zhuǎn)換層包括1×1的卷積層和2×2的池化層,可以起到壓縮模型的作用。

        圖5 密集卷積網(wǎng)絡(luò)的結(jié)構(gòu)示意圖Fig.5 Schematic diagram of structure of dense convolutional network

        特征融合過程如圖6所示,多個姿態(tài)的行人圖像各自獨立地經(jīng)過DenseNet網(wǎng)絡(luò),每一個姿態(tài)的圖像都得到一個特征圖,然后在View-pooling層進行聚合,最后進入CNN網(wǎng)絡(luò)獲得ReID特征。其中,特征提取網(wǎng)絡(luò)的所有分支,共享相同的DenseNet參數(shù);在View-pooling層中,執(zhí)行逐元素取最大值操作,將多個特征圖pooling成為一個全局特征。

        圖6 多姿態(tài)行人特征融合Fig.6 Fusion of multi-pose person features

        2.3.2 推理過程

        給定一個查詢行人圖像Ii和如圖4所示的8個標(biāo)準(zhǔn)姿態(tài)骨架圖首先將其送入圖像生成網(wǎng)絡(luò)MP-GAN,合成多姿態(tài)行人圖像其次,特征提取網(wǎng)絡(luò)A獲取Ii的特征向量;特征提取網(wǎng)絡(luò)B獲得合成的8個姿態(tài)的行人圖像的特征向量;然后融合兩個特征向量fi=fIi+f{I?i,Pk}8k=1,作為該查詢行人圖像Ii最終的ReID特征。同理,對于不同監(jiān)控攝像頭獲得的序列圖像中的每一個行人圖像(如圖2右半部分所示),使用相同的方法獲得每張圖像的特征向 量,作為序列圖像的ReID特征。最后,使用歐式距離計算中兩兩行人圖像ReID特征之間的相似度,其中距離公式如下:

        按照相似程度排序,準(zhǔn)確地檢索目標(biāo)行人,最終實現(xiàn)基于多姿態(tài)圖像生成的行人重識別。

        3 實驗結(jié)果與分析

        首先評估行人圖像多姿態(tài)生成對抗網(wǎng)絡(luò)(MP-GAN)的性能,進一步探索MP-GAN在行人重識別方法中的表現(xiàn)和作用。實驗基于Tensorflow(MP-GAN部分)和PyTorch(MPIG部分)網(wǎng)絡(luò)框架實現(xiàn),并在配置有NVIDIA Titan X GPU的PC機上運行。

        3.1 數(shù)據(jù)集

        為驗證提出算法的有效性,使用2個公開的行人重識別數(shù)據(jù)集進行實驗:Market-1501數(shù)據(jù)集[5]和DukeMTMCReID數(shù)據(jù)集[8-9],如圖7所示。

        圖7 行人重識別數(shù)據(jù)集示例Fig.7 Dataset examples for person ReID

        (1)Market-1501數(shù)據(jù)集有1 501個行人,訓(xùn)練集有751人,包含12 936張圖像,平均每個人有17.2張訓(xùn)練數(shù)據(jù);測試集有750人,包含19 732張圖像,平均每個人有26.3張測試數(shù)據(jù)。

        (2)DukeMTMC數(shù)據(jù)集有702個行人,包含16 522張訓(xùn)練圖像,2 228張查詢圖像(來自另外的702人),以及17 661張圖像檢索庫。

        3.2 執(zhí)行細節(jié)

        訓(xùn)練多姿態(tài)圖像生成模型MV-GAN時,將輸入圖像的大小調(diào)整為256×128,利用Adam算法[25]優(yōu)化網(wǎng)絡(luò)參數(shù)。整個網(wǎng)絡(luò)訓(xùn)練40個epoch,batch_size設(shè)置為64,學(xué)習(xí)率learning_rate為0.000 2,dropout參數(shù)設(shè)為0.5。

        訓(xùn)練行人重識別模型MPIG時,使用隨機梯度下降算法SGD[26]更新網(wǎng)絡(luò)參數(shù)。整個網(wǎng)絡(luò)訓(xùn)練60個epoch,batch_size設(shè)置為16,學(xué)習(xí)率learning_rate初始為0.05,且每迭代20個epoch后學(xué)習(xí)率以0.1倍遞減。圖8顯示了MPIG在兩個數(shù)據(jù)集上訓(xùn)練過程的Loss曲線。

        圖8 MPIG在兩個數(shù)據(jù)集上訓(xùn)練的Loss曲線Fig.8 Training loss of MPIG on two datasets

        3.3 圖像生成算法評估

        通過生成多個姿態(tài)的行人圖像并融合其特征是提升行人重識別的重要途徑。因此,在評估行人重識別的綜合性能之前,首先評價行人圖像生成算法的表現(xiàn)。

        方法1基于生成對抗網(wǎng)絡(luò)(MP-GAN)。該方法為本文提出的行人圖像多姿態(tài)生成對抗網(wǎng)絡(luò),輸入行人圖像和目標(biāo)姿態(tài)骨架圖,通過生成器網(wǎng)絡(luò)合成新的行人圖像,判別器網(wǎng)絡(luò)辨別生成圖像的真實性,詳細過程參見第2.2節(jié)。

        方法2基于變分自動編碼器(variational autoencoder,VAE)。該方法在方法1的基礎(chǔ)上去掉判別器網(wǎng)絡(luò),使用與方法1相同的輸入和生成器網(wǎng)絡(luò),用于驗證對抗學(xué)習(xí)準(zhǔn)則對圖像生成效果的影響。

        圖9在兩個數(shù)據(jù)集上分別顯示了基于目標(biāo)姿態(tài)骨架圖合成不同姿態(tài)行人圖像的效果。圖中左側(cè)第一列為輸入的單姿態(tài)原始行人圖像,中間一列為使用本文提出的MP-GAN合成行人圖像的表現(xiàn),右側(cè)第一列為使用VAE方法合成行人圖像的效果。從圖中可以得出如下結(jié)論:

        圖9 不同方法生成的多姿態(tài)行人圖像示例Fig.9 Examples of multi-pose person images generated by different methods

        (1)MP-GAN方法和VAE方法都可以正確地生成不同姿態(tài)的行人圖像,表明基于目標(biāo)姿態(tài)骨架圖合成行人圖像的方法是有效的。

        (2)VAE方法由于缺少對抗學(xué)習(xí)過程,其生成的行人圖像輪廓模糊,含有大量噪聲信息。

        (3)MP-GAN方法使用對抗學(xué)習(xí)指導(dǎo)圖像優(yōu)化過程,充分獲取輸入圖像的深度特征,可以生成紋理清晰、趨近真實的行人圖像。

        (4)在相同的輸入條件下,使用對抗學(xué)習(xí)準(zhǔn)則可以更好地恢復(fù)圖像細節(jié)信息。

        3.4 行人重識別算法評估

        分別在Market-1501數(shù)據(jù)集和DukeMTMC-ReID數(shù)據(jù)集上,將提出的MPIG方法與state-of-the-art行人重識別方法進行比較,使用排序第一準(zhǔn)確率(Rank@1)和平均精度均值(mean average precision,mAP)作為評價指標(biāo)。

        3.4.1 在Market-1501數(shù)據(jù)集上的重識別結(jié)果

        表2左側(cè)顯示了在Market-1501數(shù)據(jù)集上MPIG方法與其他行人重識別方法的對比情況。從表中可以看到,MPIG基于密集卷積網(wǎng)絡(luò)DenseNet-121獲得了93.63%的Rank@1精度和82.54%的mAP值,在參與對比的方法中獲得了最好的表現(xiàn)。

        表2 不同行人重識別方法的結(jié)果對比Table 2 Comparison of results of different person ReID methods 單位:%

        首先,對于未使用圖像生成的行人重識別方法,如SPGAN、Verif-Identif、DCF、SVDNet、PAN、APR和GLAD,分別獲得了75.80%、79.51%、80.31%、82.30%、82.81%、84.29%和89.90%的Rank@1精度。這些方法基于單個姿態(tài)的行人圖像,通過改進特征提取方法、結(jié)合遷移學(xué)習(xí)、使用局部特征對齊等方式提高行人重識別的準(zhǔn)確度。這些方法在行人重識別中的表現(xiàn)不斷提升,但仍然與提出的MPIG存在一定的差距,其中表現(xiàn)最好的GLAD,其Rank@1和mAP精度分別比MPIG低3.73和8.64個百分點。

        其次,基于圖像生成的行人重識別方法有LSRO、PT、Multi-Pseudo、PN-GAN和FD-GAN。這些方法將單一姿態(tài)的行人轉(zhuǎn)換成多個姿態(tài)的行人圖像,通過數(shù)據(jù)增強的方式獲得更豐富的行人特征,從而提高行人重識別的準(zhǔn)確度。但是,由于生成圖像的質(zhì)量存在一定的差異,其對行人重識別的提升是有限的,如FD-GAN的Rank@1和mAP精度 分別 比MPIG低3.13和4.84個百分點。

        最后,提出的基準(zhǔn)方法基于密集卷積網(wǎng)絡(luò)DenseNet-121實現(xiàn),未結(jié)合圖像生成,在Market-1501數(shù)據(jù)集上獲得了90.31%的Rank@1精度和73.08%的mAP值,與提出的MPIG方法仍存在顯著的差距,進一步表明了基于多姿態(tài)圖像生成的行人重識別方法是有效的。

        圖10展示了MPIG方法在Market-1501數(shù)據(jù)集上進行行人重識別的檢索結(jié)果。圖10(a)為未使用圖像生成的行人重識別方法,圖10(b)為本文提出的基于多姿態(tài)圖像生成的行人重識別方法。圖10(a)和圖10(b)中每一行的最左側(cè)為輸入的查詢行人圖像,右側(cè)列出了重識別結(jié)果中排序前10的行人圖像。在重識別結(jié)果的圖像上面顯示了排序編號,其中綠色編號為正確的重識別結(jié)果、紅色編號為錯誤的重識別結(jié)果。對比圖10(a)和圖10(b)的結(jié)果,可以看到,使用MPIG方法的行人重識別的準(zhǔn)確率有顯著提高,進一步表明了MPIG方法的有效性。但是,MPIG方法仍然存在一些錯誤的重識別結(jié)果,這些結(jié)果通常是由于同一姿態(tài)中非常相似的候選行人或行人庫中已無同一行人圖像引起的。

        圖10 在Market-1501數(shù)據(jù)集上的行人重識別效果示例Fig.10 Examples of person ReID on Market-1501 dataset

        表3顯示了生成圖像對行人重識別的影響。在Market-1501數(shù)據(jù)集上可以看到,與只有原始圖像的基準(zhǔn)方法(DenseNet-121-A)相比,只使用生成的行人圖像訓(xùn)練模型時(DenseNet-121-B),其行人重識別的性能會大幅下降,這是由于生成的行人圖像與真實的圖像之間有較大的差異,如輪廓模糊、色彩差異等。將生成的圖像與原始圖像合并,共同用于訓(xùn)練行人重識別模型時,行人重識別的效果會有明顯提升,這充分表明了生成不同姿態(tài)的行人圖像對重識別性能的積極作用。

        表3 生成多姿態(tài)圖像對行人重識別的影響Table 3 Effect of generating multi-pose images on person ReID 單位:%

        表4顯示了在Market-1501數(shù)據(jù)集上使用不同姿態(tài)數(shù)量的行人圖像進行重識別時模型的性能表現(xiàn)。其中,“1個姿態(tài)”為不使用圖像生成的方法;“4個姿態(tài)”表示輸入一張行人圖像,MP-GAN生成4個不同姿態(tài)(如行人的前面、后面、左側(cè)和右側(cè))的行人圖像,然后結(jié)合1張原始圖像和4張生成的圖像進行模型訓(xùn)練;“8個姿態(tài)”為本文使用的方法。

        表4 在Market-1501數(shù)據(jù)集上基于姿態(tài)數(shù)量的消融研究Table 4 Ablation study of number of poses on Market-1501 dataset 單位:%

        在表4中,以DenseNet-121-A(mAP為73.08%)為基準(zhǔn),當(dāng)只使用生成的行人圖像訓(xùn)練模型時(DenseNet-121-B),無論是4個姿態(tài)的行人圖像(mAP為38.51%),還是8個姿態(tài)的行人圖像(mAP為42.34%),模型重識別的表現(xiàn)均有明顯下降,同時具有8個姿態(tài)的模型性能較好;當(dāng)原始圖像與生成的行人圖像相結(jié)合時,行人重識別的mAP分別從73.08%提升到79.22%和82.54%,這表明使用多姿態(tài)圖像增強的方法是有效的,同時更多姿態(tài)的行人圖像可以帶來更好的重識別結(jié)果。

        3.4.2 在DukeMTMC-ReID數(shù)據(jù)集上的重識別結(jié)果

        表2右側(cè)顯示了在DukeMTMC-ReID數(shù)據(jù)集上MPIG方法與其他行人重識別方法的對比情況。從表中可以看到,MPIG方法分別獲得了85.32%的Rank@1精度和72.58%的mAP值,同樣在參與對比的方法中獲得了最好的表現(xiàn)。

        圖11展示了MPIG方法在DukeMTMC-ReID數(shù)據(jù)集上進行行人重識別的檢索結(jié)果。對比圖11(a)和圖11(b)的結(jié)果發(fā)現(xiàn),基于多姿態(tài)圖像生成的行人重識別具有較好的表現(xiàn)。

        圖11 在DukeMTMC-ReID數(shù)據(jù)集上的行人重識別效果示例Fig.11 Examples of person ReID on DukeMTMC-ReID dataset

        表3在DukeMTMC-ReID數(shù)據(jù)集上進一步證實了融合多姿態(tài)生成圖像用于行人重識別的方法是有效的、可靠的。

        3.4.3 算法的復(fù)雜度分析

        本文主要使用MP-GAN和DenseNet-121兩個網(wǎng)絡(luò)模型,分別進行行人圖像生成和行人特征提取。表5顯示了以上模型的計算復(fù)雜度和參數(shù)復(fù)雜度。從表中看到,MP-GAN的網(wǎng)絡(luò)深度為38,即模型所具有的卷積層數(shù),其計算復(fù)雜度為0.78×1010,參數(shù)復(fù)雜度為2.3×107;DenseNet-121具有121個卷積層,計算復(fù)雜度為0.6×1010,參數(shù)復(fù)雜度為0.8×107。與采用殘差結(jié)構(gòu)的MP-GAN相比,雖然DenseNet-121的卷積層數(shù)更多,但是參數(shù)效率更高,這是由于DenseNet-121中的每一個密集塊和轉(zhuǎn)換層的前面都加入了1×1的卷積操作,通過減少輸入特征圖的數(shù)量,既能降維減少模型的計算量,又能融合各個通道的特征。

        表5 模型的算法復(fù)雜度Table 5 Algorithm complexity of models

        4 結(jié)束語

        本文提出了一種基于多姿態(tài)圖像生成的行人重識別算法,MPIG。該算法首先利用生成對抗網(wǎng)絡(luò)將輸入的行人圖像生成其不同姿態(tài)的新圖像;然后分別提取生成的行人圖像和原始輸入圖像的深度特征并融合,通過歸一化消除姿態(tài)對行人重識別的影響;最后利用歐式距離計算輸入行人圖像與待查詢圖像兩兩深度特征之間的相似度,按照相似程度排序,實現(xiàn)準(zhǔn)確的行人重識別。其中,多姿態(tài)行人圖像生成是本文的難點,生成圖像的質(zhì)量直接影響行人重識別的表現(xiàn),本文引入目標(biāo)姿態(tài)骨架圖作為生成對抗網(wǎng)絡(luò)的輸入條件,有效地實現(xiàn)了不同姿態(tài)行人圖像的生成。在Market-1501數(shù)據(jù)集和DukeMTMC-ReID數(shù)據(jù)集上的實驗驗證了圖像生成和行人重識別算法的有效性。在后續(xù)的工作中,將研究行人圖像三維點云重建,通過獲取多維度的行人特征進一步提升行人重識別的表現(xiàn)。

        猜你喜歡
        集上特征提取行人
        毒舌出沒,行人避讓
        意林(2021年5期)2021-04-18 12:21:17
        Cookie-Cutter集上的Gibbs測度
        鏈完備偏序集上廣義向量均衡問題解映射的保序性
        路不為尋找者而設(shè)
        揚子江(2019年1期)2019-03-08 02:52:34
        基于Daubechies(dbN)的飛行器音頻特征提取
        電子制作(2018年19期)2018-11-14 02:37:08
        復(fù)扇形指標(biāo)集上的分布混沌
        我是行人
        Bagging RCSP腦電特征提取算法
        基于MED和循環(huán)域解調(diào)的多故障特征提取
        幾道導(dǎo)數(shù)題引發(fā)的解題思考
        日本一道本加勒比东京热| 亚洲av无码专区亚洲av| 国产偷国产偷高清精品| 久久精品国产99精品九九| 亚洲日本人妻中文字幕| 日本免费一区二区在线看片| 国产日韩av在线播放| 久久久久久成人毛片免费看| 国产啪精品视频网站丝袜| 极品美女尤物嫩模啪啪| 99久久国产精品免费热| 亚洲中国精品精华液| 中文成人无码精品久久久不卡| 国产香蕉一区二区三区在线视频| 亚洲国产成人无码电影| 国产网红一区二区三区| 久久精品国产亚洲av天| 久久久久人妻一区精品| 永久免费看啪啪网址入口| 国产V日韩V亚洲欧美久久| 一区二区三区手机看片日本韩国| 人妻精品在线手机观看| 无套内射无矿码免费看黄| 久久这里只精品国产2| 97女厕偷拍一区二区三区| 国产精品久免费的黄网站| 日日摸夜夜添无码无码av| 亚洲红杏AV无码专区首页| 不卡一本av天堂专区| 国产成人无码av一区二区| 成人国产精品一区二区网站| 国产成人av一区二区三| 无码h黄肉3d动漫在线观看| 欲妇荡岳丰满少妇岳 | 久久99精品国产99久久6尤物| 天堂在线观看av一区二区三区| 日本av不卡一区二区三区| 蜜桃日本免费观看mv| 911精品国产91久久久久| 国产精品亚洲在钱视频| 日本韩国男男作爱gaywww|