亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        GAN網(wǎng)絡(luò)混合編碼的行人再識別

        2021-03-02 13:38:58張玉霞
        液晶與顯示 2021年2期
        關(guān)鍵詞:特征模型

        楊 琦, 車 進*, 張 良, 張玉霞

        (1. 寧夏大學(xué) 物理與電子電氣工程學(xué)院,寧夏 銀川 750021; 2. 寧夏沙漠信息智能感知重點實驗室,寧夏 銀川 750021)

        1 引 言

        行人再識別[1](Person ReID)可以看作是一個跨攝像機視角的人物檢索問題,旨在建立多個攝像機圖像之間的身份對應(yīng)關(guān)系。由于拍攝角度、光照、姿勢、視角、圖像分辨率、相機設(shè)置、遮擋和背景雜波的影響,會導(dǎo)致同一行人的不同圖像可能會有顯著不同,造成較大的類內(nèi)差異,這使得行人再識別仍然是一項充滿挑戰(zhàn)性的任務(wù)。

        隨著深度學(xué)習(xí)在行人再識別任務(wù)中的廣泛應(yīng)用,卷積神經(jīng)網(wǎng)絡(luò)由于其強大的特征表達能力以及學(xué)習(xí)不變的特征嵌入,近年來涌現(xiàn)出各種各樣的深度學(xué)習(xí)算法,尤其在GAN網(wǎng)絡(luò)方面取得不錯的進展。生成對抗網(wǎng)絡(luò)最初是由Goodfellow等人[2]提出,被描述為一個通過對抗訓(xùn)練生成模型的過程。GAN由生成圖像的生成器(G)和鑒別器(D)組成,這兩個組件在極小極大值之間進行博弈。文獻[3]提出將GAN擴展到CNN領(lǐng)域,使得利用GAN獲取的訓(xùn)練樣本更加可控,進一步說明了GAN網(wǎng)絡(luò)在計算機視覺任務(wù)中的可行性。

        眾所周知,深度學(xué)習(xí)的發(fā)展得益于大數(shù)據(jù)的發(fā)展,而在如今行人再識別課題中,面臨著數(shù)據(jù)不足與類內(nèi)差異明顯等問題。作為GAN網(wǎng)絡(luò)的先行者,文獻[4]提出一種標(biāo)簽平滑的方法,利用生成的數(shù)據(jù)擴充原始數(shù)據(jù)集,一定程度上提高了行人再識別的精度。不同于文獻[4]采用標(biāo)簽平滑對生成圖像的標(biāo)簽采用平均的策略,文獻[5]采用偽標(biāo)簽的策略,對生成圖像采用最大概率預(yù)測為其分配身份,作為具備真實標(biāo)簽的數(shù)據(jù)使用。文獻[6]提出一種識別模型與GAN中的判別器共享權(quán)重進行聯(lián)合優(yōu)化。文獻[7]基于不同攝像機類內(nèi)差異,生成不同相機風(fēng)格的行人圖像。此外,最近的一些研究學(xué)者開始將姿態(tài)估計應(yīng)用到GAN網(wǎng)絡(luò)中。文獻[8]為減小姿態(tài)不同對行人外表的影響,使用PN-GAN將數(shù)據(jù)中的所有行人歸一化到8個姿態(tài)中,將真實數(shù)據(jù)中提取到的行人特征和生成數(shù)據(jù)中提取到的行人特征融合之后做ReID匹配。文獻[9]提出一種基于姿態(tài)遷移的 ReID 框架,通過引入姿態(tài)樣本庫,進而生成多姿態(tài)標(biāo)簽樣本。文獻[10]利用姿態(tài)引導(dǎo)的 GAN 網(wǎng)絡(luò),學(xué)習(xí)與身份相關(guān)且與姿態(tài)無關(guān)的特征,使得生成的行人圖像與姿態(tài)特征無關(guān)。不同于上述算法,也有學(xué)者將不同特征進行融合得到新的特征表示。文獻[11]提出一種多尺度殘差網(wǎng)絡(luò)模型,融合不同的特征得到最終的特征表示。文獻[12]提出一種融合了全局特征、局部特征以及人體結(jié)構(gòu)特征的行人再識別算法,該算法無需引入任何人體框架先驗知識,并采用多級監(jiān)督機制優(yōu)化網(wǎng)絡(luò)。文獻[13]提出一種利用姿態(tài)遷移來生成行人圖片,并利用兩種不同的獨立卷積神經(jīng)網(wǎng)絡(luò)提取圖像特征,融合兩種特征得到最后的特征表示。

        不同于上述GAN 網(wǎng)絡(luò),本文提出一種基于外觀特征和姿態(tài)特征混合編碼的行人再識別網(wǎng)絡(luò),生成模型通過切換外觀特征以及姿態(tài)特征,結(jié)合兩幅圖像中的特征混合編碼生成高質(zhì)量圖像,進一步降低了類內(nèi)差異造成的影響。網(wǎng)絡(luò)采用外觀損失、姿態(tài)損失、對比損失、判別損失等多損失函數(shù)對生成的圖像進行監(jiān)督,進一步提高生成圖像的質(zhì)量。利用擴充數(shù)據(jù)集對網(wǎng)絡(luò)進行訓(xùn)練,使得網(wǎng)絡(luò)模型更加健壯。

        2 網(wǎng)絡(luò)架構(gòu)

        網(wǎng)絡(luò)架構(gòu)如圖1所示。將原數(shù)據(jù)集中的人物圖像輸入到生成對抗網(wǎng)絡(luò),利用輸入圖像的姿態(tài)特征以及外觀特征進行自圖像以及互圖像生成,將生成的人物圖像結(jié)合原數(shù)據(jù)集中的人物圖像共同輸入到卷積神經(jīng)網(wǎng)絡(luò),對網(wǎng)絡(luò)進行訓(xùn)練,一方面擴充了原數(shù)據(jù)集中圖像不足的問題,另一方面利用這種自圖像與互圖像生成模式進一步挖掘了圖像的細粒度特征,使得訓(xùn)練的模型更加魯棒。

        圖1 網(wǎng)絡(luò)架構(gòu)

        2.1 生成網(wǎng)絡(luò)

        2.1.1 自生成網(wǎng)絡(luò)

        .

        (1)

        考慮到y(tǒng)i=yj,即為同一行人的不同圖像, 行人圖像的外觀特征是相近的,因此提出一種利用同一行人的不同圖像來生成圖像的方法。即采用圖像xi的姿態(tài)特征,僅采用圖像xj的外觀特征。由于外觀特征是相似的,所以基于同一行人的圖像生成應(yīng)該無限接近于原輸入圖像xi,因此仍然采用像素級的L1損失對其進行訓(xùn)練,損失函數(shù)為:

        (2)

        圖2 自生成網(wǎng)絡(luò)

        圖3 驗證網(wǎng)絡(luò)

        d=‖f1-f2‖2

        .

        (3)

        采用對比損失[15]優(yōu)化網(wǎng)絡(luò)具體公式如下:

        (4)

        式中,d表示兩個樣本特征的二范數(shù),y為兩個樣本是否匹配的標(biāo)簽,y=1表示匹配,m為設(shè)定的閾值,N為樣本的個數(shù)。

        2.1.2 互生成網(wǎng)絡(luò)

        (5)

        .

        (6)

        利用混合編碼對原始數(shù)據(jù)進行圖像生成,使得生成的圖像更加逼真,一方面,有效擴充了數(shù)據(jù)集。另一方面,有效減緩了類內(nèi)差異的影響。采用多損失優(yōu)化網(wǎng)絡(luò)進一步提高了圖像的真實性,有效解決了行人不夠真實、圖像模糊、背景不真實等問題。

        圖4 互生成網(wǎng)絡(luò)框架

        2.1.3 基于外觀特征的ID分配

        網(wǎng)絡(luò)提取了人物圖像的姿態(tài)特征以及外觀特征,由于行人圖像在不同攝像機的視角下姿態(tài)是各異的,所以姿態(tài)特征并不具備區(qū)分不同行人的特性。在跨攝像機視角中,外觀特征的不變性可以作為區(qū)分不同屬性的行人??紤]到這個問題,首先訓(xùn)練一個基于外觀特征對行人圖像進行身份鑒別的網(wǎng)絡(luò)模型,提取原始數(shù)據(jù)集中所有圖像的外觀特征,保留其標(biāo)簽屬性,采用交叉熵損失對網(wǎng)絡(luò)進行訓(xùn)練,損失函數(shù)如下:

        (7)

        式(7)為單個樣本的損失,總樣本的損失可以表示為:

        (8)

        (9)

        2.2 判別網(wǎng)絡(luò)

        生成器G和判別器D在極小極大博弈中扮演了兩個競爭對手的角色,D作為一個判別網(wǎng)絡(luò)(如圖5所示)將原數(shù)據(jù)集圖像與生成圖像共同輸入到判別網(wǎng)絡(luò),提取特征利用交叉熵損失優(yōu)化判別網(wǎng)絡(luò)。

        圖5 判別網(wǎng)絡(luò)模型

        網(wǎng)絡(luò)優(yōu)化的目的是讓D(xi)無限接近于1,D(O(ai,sj))盡可能大,使用對抗性損失[16]來匹配生成圖像的分布與真實數(shù)據(jù)的分布如下:

        L3=E[logD(xi)+log(1-D(O(ai,sj)))],

        (10)

        式中,D(xi)表示判斷真實圖片是否真實的概率。

        對于相同的框架特征,將使用不同的外觀特征進行圖像合成的圖像屬性視為與提供框架特征的行人具有相同的身份屬性。也就是說,可以看到同一位行人穿著不同的衣服,這迫使網(wǎng)絡(luò)模型學(xué)習(xí)與衣服等特征無關(guān)的特征表示,從而迫使網(wǎng)絡(luò)模型挖掘出更多的判別特征(圖,背包等),進一步挖掘圖像中的細粒度信息,并增強網(wǎng)絡(luò)模型的魯棒性。損失函數(shù)可表示為:

        (11)

        2.3 目標(biāo)函數(shù)

        在訓(xùn)練階段,網(wǎng)絡(luò)優(yōu)化了外觀損失姿態(tài)損失、驗證損失、以及判別損失作為優(yōu)化的總目標(biāo),如式(12):

        (12)

        2.4 網(wǎng)絡(luò)設(shè)置

        基于PyTorch深度框架搭建網(wǎng)絡(luò)模型,在訓(xùn)練階段,采用ResNet50作為基準網(wǎng)絡(luò)提取外貌特征,訓(xùn)練的基線網(wǎng)絡(luò)僅僅依據(jù)外貌特征對圖像進行分類。采用殘差塊與卷積層組合的輕量級網(wǎng)絡(luò)[17]提取姿態(tài)特征。驗證網(wǎng)絡(luò)采用了DenseNet121[18]提取生成圖像的外貌特征。生成網(wǎng)絡(luò)[19]是由殘差塊經(jīng)過下采樣輸入到卷積單元組成的,判別網(wǎng)絡(luò)[20]是由6個卷積層和一個殘差塊組成。所有圖像的寬高比為128×384,參數(shù)m設(shè)置為1,并且通過SGD方法優(yōu)化和迭代網(wǎng)絡(luò)。初始學(xué)習(xí)率設(shè)置為0.001。

        3 實驗數(shù)據(jù)庫

        3.1 數(shù)據(jù)集

        本文提出的行人再識別算法在公開的數(shù)據(jù)集Market1501[21]、DukeMTMC-reID[22]上進行實驗并取得不錯的效果。本文使用累積匹配特征曲線(CMC)和平均精度均值(mAP)兩個指標(biāo)來衡量模型的性能。表1列出了數(shù)據(jù)集的詳細信息。

        Market1501是一個大型的行人數(shù)據(jù)集,采集了6個攝像機的數(shù)據(jù),包含751個行人的12 936張訓(xùn)練圖像, 750個行人的19 732張測試圖像,邊界框直接由可變形零件模型(DPM)[23]檢測,這更接近于真實的場景,采用訓(xùn)練集中的12 936張圖像訓(xùn)練網(wǎng)絡(luò),在single-shot模式下進行。

        DukeMTMC-reID是由8個攝像機采集的1 812個行人圖像,在數(shù)據(jù)集中有1 404個行人出現(xiàn)在兩個攝像機以上的視角中,隨機選擇702個行人的圖像作為訓(xùn)練集,剩余702個行人圖像作為測試集。

        表1 數(shù)據(jù)集詳細信息

        3.2 生成圖像示例

        圖6 生成圖像示例

        3.3 實驗結(jié)果

        本文對提出的利用姿態(tài)特征以及外貌特征混合編碼的行人再識別算法與現(xiàn)有的行人再識別算法進行了比較,如表3所示。表3中分割線以上為未采用生成圖像擴充數(shù)據(jù)的算法,分割線以下為采用生成圖像輔助訓(xùn)練的算法。由表中的實驗數(shù)據(jù)可以看出,采用姿態(tài)特征和外貌特征混合編碼的行人再識別算法后,在Market1501數(shù)據(jù)集上的表現(xiàn)效果較好,Rank-1僅比PCB算法稍低0.4%,但mAP的性能卻高于PCB算法0.6%;在DukeMTMC-ReID數(shù)據(jù)集上的Rank-1僅僅低于Part-aligned、Mancs算法不到一個百分點,而mAP的性能僅低于Mancs算法。綜上所述,本文提出的算法在兩大公開的數(shù)據(jù)集上表現(xiàn)效果較好,Rank-1、mAP評估指標(biāo)能優(yōu)于現(xiàn)有的大部分主流算法,可以看出所提算法的優(yōu)越性。

        表2 不同損失函數(shù)對模型的影響

        表3 本文算法與現(xiàn)有算法進行比較

        4 結(jié) 論

        本文提出一種利用姿態(tài)以及外觀特征混合編碼生成圖像的行人再識別算法。采用多損失監(jiān)督的方式修正生成圖像,使得生成模塊與判別模塊是一個在線的交互循環(huán),使得兩者相互受益。生成模型通過切換外觀特征以及結(jié)構(gòu)特征,結(jié)合兩幅圖像中的特征混合編碼生成高質(zhì)量圖像,判別模型將生成圖像的外觀特征反饋給生成模型的外觀編碼器,通過聯(lián)合優(yōu)化,進一步提高生成圖片的質(zhì)量。一方面,解決了數(shù)據(jù)集不足的問題,另一方面,進一步解決了行人圖像不真實、模糊、背景不真實等問題。這種利用擴充數(shù)據(jù)集訓(xùn)練網(wǎng)絡(luò)的方式,使得網(wǎng)絡(luò)模型更加魯棒。兩個數(shù)據(jù)集的實驗結(jié)果顯示,算法的Rank-1指標(biāo)相比于FD-GAN方法提升了2.9%、4.3%,相比于mAP提升了4.5%、6%。

        猜你喜歡
        特征模型
        一半模型
        抓住特征巧觀察
        重要模型『一線三等角』
        新型冠狀病毒及其流行病學(xué)特征認識
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        如何表達“特征”
        不忠誠的四個特征
        抓住特征巧觀察
        3D打印中的模型分割與打包
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        久久av一区二区三区下| 中文无码一区二区不卡αv| 色妺妺视频网| 视频二区精品中文字幕| 久久半精品国产99精品国产| 国产成人福利av一区二区三区| 亚洲精品一区二区高清| 最新中文字幕av无码不卡| 最近高清中文在线字幕观看| 一本色道久久综合狠狠躁中文| 日本精品啪啪一区二区| 丰满人妻久久中文字幕| 欧美aaaaaa级午夜福利视频| 国产精品一区二区久久| 国产激情一区二区三区在线蜜臀| 婷婷久久av综合一区二区三区| 欧美四房播播| 国产成人精品av| 成人区视频| 少妇高潮太爽了免费网站| 国产av一卡二卡日韩av| 亚洲自偷精品视频自拍| 妓院一钑片免看黄大片| 亚洲乱码一区二区三区成人小说| 久久青青草视频免费观看| 国产一区二区三区在线观看黄| 高清午夜福利电影在线| 五十路熟妇高熟无码视频| 亚洲无码激情视频在线观看| 蜜桃视频在线免费视频| 999国内精品永久免费观看| 国产人成无码视频在线| 青青草免费高清视频在线观看 | 亚洲最新精品一区二区| 国产精品r级最新在线观看| 2022Av天堂在线无码| 人人爽亚洲aⅴ人人爽av人人片| 精品亚洲国产日韩av一二三四区| 国产激情久久久久久熟女老人av| 欧美激情在线不卡视频网站| 中文字幕有码在线视频|