亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于動(dòng)態(tài)雙注意力機(jī)制的跨模態(tài)行人重識(shí)別模型

        2022-11-08 12:43:26李大偉曾智勇
        計(jì)算機(jī)應(yīng)用 2022年10期
        關(guān)鍵詞:三元組行人灰度

        李大偉,曾智勇*

        (1.福建師范大學(xué) 計(jì)算機(jī)與網(wǎng)絡(luò)空間安全學(xué)院,福州 350117;2.福建師范大學(xué) 數(shù)字福建大數(shù)據(jù)安全技術(shù)研究所,福州 350117)

        0 引言

        行人重識(shí)別是跨越多個(gè)不重疊監(jiān)控?cái)z像機(jī)檢索特定行人圖像的技術(shù)。目前,絕大多數(shù)研究者關(guān)注的是可見光下的行人重識(shí)別問題,并取得了較大進(jìn)展。然而,由于成像機(jī)制不同,跨模態(tài)圖像模態(tài)間存在巨大差異,跨模態(tài)行人重識(shí)別技術(shù)面臨巨大挑戰(zhàn),解決該問題對公共安全和刑偵有著非常重要的現(xiàn)實(shí)意義,對加強(qiáng)社會(huì)管理、預(yù)防犯罪行為發(fā)生、維護(hù)國家安全等方面具有廣闊的應(yīng)用前景[1]。

        相較于單模態(tài)行人重識(shí)別來說,跨模態(tài)行人重識(shí)別由于行人在不同模態(tài)下圖像之間的差異比在各自單模態(tài)下的差異大得多,如圖1 所示,圖1(a)關(guān)注的是可見光到可見光之間圖像的匹配,而圖1(b)關(guān)注的是紅外到可見光之間圖像的匹配,因此,對于跨模態(tài)行人重識(shí)別來說,直接應(yīng)用這些單模態(tài)方法效果不佳。

        現(xiàn)有的大多數(shù)方法是通過特征對齊的方式對圖片進(jìn)行預(yù)處理,再通過一個(gè)單流網(wǎng)絡(luò)或雙流網(wǎng)絡(luò)去學(xué)習(xí)不同模態(tài)的可共享的特征表示。如Ye等[2]將可見光圖像的三個(gè)通道逐像素做線性累加,得到輔助的灰度圖像,然后將三種模態(tài)的圖像經(jīng)過一個(gè)參數(shù)共享的單流網(wǎng)絡(luò),學(xué)習(xí)不同模態(tài)間共享的特征表示。其他一些學(xué)者通過對抗生成網(wǎng)絡(luò)(Generative Adversarial Network,GAN)生成某種模態(tài)對應(yīng)的另一模態(tài)的圖像來減小不同模態(tài)間的差異。如Dai等[3]首次把GAN 運(yùn)用在跨模態(tài)行人重識(shí)別上,并提出了一個(gè)具有交叉模態(tài)三重?fù)p失的對抗生成訓(xùn)練框架,以共同區(qū)分不同身份和模態(tài)。Wang等[4]提出一種對齊生成對抗網(wǎng)絡(luò)(Alignment Generative Adversarial Network,AlignGAN),利用像素對齊和特征對齊學(xué)習(xí)到對鑒別不同身份有益的特征。然而,這種全局特征學(xué)習(xí)的方法對背景中的噪聲格外敏感,不能較好地解決模態(tài)差異問題。此外,一些學(xué)者也積極地將注意力機(jī)制運(yùn)用到行人重識(shí)別中。如Ye等[5]設(shè)計(jì)了一個(gè)動(dòng)態(tài)雙注意力聚合(Dynamic Dual-attentive AGgregation,DDAG)學(xué)習(xí)模型,該模型包括模內(nèi)加權(quán)部分聚合(Intra-modality Weighted-Part Aggregation,IWPA)模塊和跨模態(tài)圖形結(jié)構(gòu)化注意力(Crossmodality Graph Structured Attention,CGSA)模塊。IWPA 的目標(biāo)是通過同時(shí)挖掘每個(gè)模態(tài)中行人身體不同部位之間的上下聯(lián)系,得到一個(gè)具有區(qū)分度的局部聚合特征表征。CGSA利用不同模態(tài)圖像特征的鄰近結(jié)構(gòu)關(guān)系去學(xué)習(xí)兩個(gè)模態(tài)的全局特征,結(jié)合兩種模態(tài)之間的結(jié)構(gòu)關(guān)系去加強(qiáng)特征表達(dá)能力。但對于跨模態(tài)行人重識(shí)別來說,由于有限的樣本和模態(tài)間存在較大的模態(tài)差異,神經(jīng)網(wǎng)絡(luò)在學(xué)習(xí)中很容易被噪聲樣本污染從而造成不穩(wěn)定。

        為了解決上述問題,受Ye等[2,5]方法的啟發(fā),本文提出了一個(gè)新的跨模態(tài)行人重識(shí)別模型。為了在有限樣本中學(xué)習(xí)到充分的特征信息,在模型開始的輸入部分,輸入兩組圖片分別對同一個(gè)網(wǎng)絡(luò)進(jìn)行訓(xùn)練:第一組圖像是可見光和紅外圖像的組合;第二組圖像加入了通過齊次增強(qiáng)方式生成的可見光圖像對應(yīng)的灰度圖像。這些灰度圖像保留了可見光圖像的結(jié)構(gòu)信息,由于紅外圖像不包含任何顏色信息,因此結(jié)構(gòu)信息對跨模態(tài)匹配是至關(guān)重要的。此外,經(jīng)過灰度化的圖像在風(fēng)格上更加接近紅外圖像,這對于拉近可見光和紅外圖像的特征分布是有益的[2]。其次,為了縮小同一個(gè)行人的不同模態(tài)圖像特征間差異,提出了適用于三個(gè)模態(tài)間圖像的加權(quán)六向三元組排序(Weighted Six-Directional triple Ranking,WSDR)損失,該項(xiàng)損失充分利用了所找出的硬三元組中的信息,整體優(yōu)化了不同模態(tài)間特征的相對距離,提高了對模態(tài)變化的魯棒性,從而改善跨模態(tài)行人重識(shí)別的性能。

        本文的主要工作如下:

        1)提出了一個(gè)新的跨模態(tài)行人重識(shí)別網(wǎng)絡(luò)模型,通過利用齊次增強(qiáng)的灰度圖像進(jìn)行多模態(tài)學(xué)習(xí),進(jìn)一步提升網(wǎng)絡(luò)模型的性能。

        2)為多視圖檢索提出了一個(gè)加權(quán)六向三元組排序損失,有效縮小了同一行人不同模態(tài)間圖像特征在特征空間中的距離,從而減少了模態(tài)間差異。

        3)通過大量實(shí)驗(yàn)來分析驗(yàn)證所提模型的有效性,為未來的研究提供了一個(gè)有效提升模型性能的方式。在兩個(gè)公共跨模態(tài)(可見光-紅外)數(shù)據(jù)集上均取得了較高的識(shí)別準(zhǔn)確率。

        1 相關(guān)工作

        1.1 單模態(tài)行人重識(shí)別

        單模態(tài)行人重識(shí)別是對不同單模態(tài)攝像機(jī)拍攝到的行人圖像進(jìn)行匹配的過程。但是,由于在不同的場合下行人的姿態(tài)、著裝、遮擋以及光照等變化都會(huì)對匹配產(chǎn)生較大的影響,最終造成識(shí)別精度的降低。開始階段的研究工作主要通過利用方向梯度直方圖(Histogram of Oriented Gradient,HOG)特征[6]、尺度不變特征變換(Scale Invariant Feature Transform,SIFT)特征[7]、Gabor 特征[8]以及局部二值模 式(Local Binary Pattern,LBP)[9]等方法,使用人工的方式進(jìn)行行人特征提取,再利用相對距離比較(Relative Distance Comparison,RDC)[10]、大邊際鄰近(Large Margin Nearest Neighbor,LMNN)[11]分類、交叉視角的二次判別分析(Crossview Quadratic Discriminant Analysis,XQDA)[12]、概率相對距離比較(Probabilistic Relative Distance Comparison,PRDC)[13]、局部Fisher 判別分析(Local Fisher Discriminant Analysis,LFDA)[14]等算法進(jìn)行度量學(xué)習(xí)。然而,由于人工提取特征的效率限制,已無法適應(yīng)當(dāng)前大數(shù)據(jù)的特征提取任務(wù)。隨著深度神經(jīng)網(wǎng)絡(luò)的出現(xiàn)和發(fā)展,有學(xué)者將其運(yùn)用到了行人重識(shí)別中,取得了較好的效果。已有的工作通過全局特征[15-16]或部分特征學(xué)習(xí)[17-19]在端到端的深度學(xué)習(xí)模型上取得了較高的準(zhǔn)確率;然而,這些方法通常無法處理跨模態(tài)圖像間的模態(tài)差異,從而無法應(yīng)用到跨模態(tài)行人重識(shí)別上。

        1.2 跨模態(tài)行人重識(shí)別

        跨模態(tài)行人重識(shí)別旨在解決不同種模態(tài)圖像之間的行人匹配問題,例如紅外圖像到可見光圖像之間的匹配識(shí)別[20-21]、圖像和文本描述等非視覺數(shù)據(jù)之間的匹配[22]、可見光圖像與素描圖像之間的匹配[23]等。

        對于可見光到紅外的行人重識(shí)別,Wu等[24]提出了一種深度零填充的方法,解決了圖像結(jié)構(gòu)不同無法用同一神經(jīng)網(wǎng)絡(luò)訓(xùn)練問題。Ye等[25]設(shè)計(jì)了一個(gè)雙流網(wǎng)絡(luò)來學(xué)習(xí)多模態(tài)可共享特征,同時(shí)處理具有雙重約束的跨模態(tài)高階損失和模態(tài)內(nèi)變化。Zhu等[26]提出了異質(zhì)中心(Hetero Center triplet,HC)損失,通過約束兩個(gè)異質(zhì)模態(tài)之間的類內(nèi)中心距離來監(jiān)督網(wǎng)絡(luò)學(xué)習(xí)跨模態(tài)圖像間的不變信息,以減少類內(nèi)交叉模態(tài)的變化。Hao等[27]提出了一種端到端的雙流超球面流形嵌入模型來約束模態(tài)內(nèi)和模態(tài)間的變化。此外,一些方法還利用特定模態(tài)分類器的優(yōu)勢來促進(jìn)特征學(xué)習(xí)[28-29];然而,這些方法通常側(cè)重于學(xué)習(xí)全局特征表示,而忽略了行人之間具有區(qū)分度的局部特征及同一行人不同模式圖像之間的潛在關(guān)系。

        近兩年來,隨著對抗生成網(wǎng)絡(luò)(GAN)的不斷發(fā)展,該技術(shù)也被運(yùn)用到跨模態(tài)的行人重識(shí)別中。Wang等[20]提出一種雙層差異減少方法,利用GAN 生成可見光(紅外)圖像對應(yīng)的紅外(可見光)圖像,形成統(tǒng)一的多光譜圖像,減少了模態(tài)間差異。Wang等[4]提出一種對齊生成對抗網(wǎng)絡(luò),該模型由像素對齊模塊、特征對齊模塊和聯(lián)合鑒別器組成,可以聯(lián)合利用像素對齊和特征對齊。這樣不僅能夠緩解模態(tài)間和模態(tài)內(nèi)的變化,而且能夠?qū)W習(xí)到基于身份的一致性特征。目前來說盡管GAN 在跨模態(tài)行人重識(shí)別中取得了一定的成功,但訓(xùn)練GAN 模型非常困難,需要消耗大量的計(jì)算資源。同時(shí),利用GAN 生成新圖像時(shí)容易引入噪聲,影響跨模態(tài)行人重識(shí)別的精度。相比之下,通過線性累加可見光圖像三個(gè)通道像素得到的灰度圖像就會(huì)避免上述問題,并且生成的灰度圖像還很好地保留了原始圖像的結(jié)構(gòu)信息。

        1.3 注意力機(jī)制

        注意力機(jī)制已經(jīng)廣泛應(yīng)用于各種深度學(xué)習(xí)應(yīng)用中,以增強(qiáng)數(shù)據(jù)的特征表示。對于行人重新識(shí)別研究來說,注意力機(jī)制被用來組合來自不同視頻幀的時(shí)空信息[30]。一些工作[31]還研究了使用多尺度或不同的卷積通道來捕獲像素級或小區(qū)域級關(guān)注。Yin等[32]提出了局部注意機(jī)制,通過一個(gè)可學(xué)習(xí)的轉(zhuǎn)換函數(shù)來細(xì)化局部聚合特征,以考慮一個(gè)人不同身體部位之間的重要性。然而,這些注意力機(jī)制對于較大的交叉模態(tài)差異和噪聲,可能無法取得較好的效果。

        2 本文方法

        本文基于數(shù)據(jù)增強(qiáng)和注意力機(jī)制提出了一個(gè)新的跨模態(tài)行人重識(shí)別模型,整體網(wǎng)絡(luò)框架如圖2 所示。

        2.1 多輸入的跨模態(tài)行人重識(shí)別

        在本文模型中,為神經(jīng)網(wǎng)絡(luò)模型輸入了兩組圖像,其中一組是由可見光和紅外圖像組合而成,另一組由可見光圖像、紅外圖像和由可見光圖像生成的灰度圖像組成。兩組圖片都參與標(biāo)簽損失與三元組損失的計(jì)算,這樣就充分利用了有限的圖像資源學(xué)習(xí)到更加優(yōu)秀的圖像特征。該網(wǎng)絡(luò)是采用了單流網(wǎng)絡(luò)與雙流網(wǎng)絡(luò)相結(jié)合的方式,用以提取和合并不同模態(tài)圖像的特征。在早期為了學(xué)習(xí)到不同模態(tài)圖像間具有區(qū)分度的特征,采用了雙流網(wǎng)絡(luò);不同流中的卷積模塊的網(wǎng)絡(luò)參數(shù)是獨(dú)立的,從而可以更好地捕獲到具有特定形態(tài)的低級模態(tài)特征。由于可見光圖像和灰度圖像在結(jié)構(gòu)信息上更加地相似,因此將可見光和灰度圖像送入同一個(gè)網(wǎng)絡(luò)流中進(jìn)行學(xué)習(xí)。區(qū)別于前面兩種圖像,紅外圖像的特征更加獨(dú)特,因此讓其單獨(dú)通過一個(gè)網(wǎng)絡(luò)流。為了學(xué)習(xí)到不同模態(tài)之間可以共享的特征,對網(wǎng)絡(luò)后面的卷積模塊進(jìn)行了參數(shù)共享。在獲取到卷積特征并將其通過全局平均池化后,增加一個(gè)共享的批量歸一化層來學(xué)習(xí)共享特征嵌入。

        對于可見光圖像的灰度化,直接將可見光的R、G、B 三個(gè)通道的像素進(jìn)行累加,從而得到增強(qiáng)數(shù)據(jù)。與運(yùn)用GAN的方法相比,這種生成圖片的方式基本不會(huì)額外增加訓(xùn)練時(shí)間,這種數(shù)據(jù)增強(qiáng)的方式也不會(huì)額外地引入噪聲,從而降低模型訓(xùn)練的效果。

        2.2 同質(zhì)和異質(zhì)共享多模態(tài)分類器

        2.2.1 模態(tài)共享身份分類器

        模態(tài)共享身份分類器為三種不同的模態(tài)特征學(xué)習(xí)一個(gè)共享分類器θp。表示使用θp分類器將可見光圖像特征預(yù)測成圖像標(biāo)簽為yi的輸出概率。相同地,和分別代表了灰度圖像和紅外圖像特征,其中上標(biāo){v,r,g}表示模態(tài)的索引。假設(shè)每個(gè)訓(xùn)練批次包含了n個(gè)可見光圖像、n個(gè)齊次增強(qiáng)的灰度圖像和n個(gè)紅外圖像,則標(biāo)簽損失表示如下:

        2.2.2 齊次不變正則化

        為了增強(qiáng)對模態(tài)變化的魯棒性,本文引入了齊次不變正則化[2]。其主要思想是原始可見圖像和均勻增強(qiáng)灰度圖像的特征通過特征網(wǎng)絡(luò)提取后保持不變[2]。具體來說,采用平滑L1 損失作為正則化:

        其中:B表示當(dāng)前批次圖像集合表示身份標(biāo)簽為i的可見光圖像通過神經(jīng)網(wǎng)絡(luò)得到的特征向量表示身份標(biāo)簽為i的灰度增強(qiáng)圖像通過網(wǎng)絡(luò)得到的特征向量。

        將這一部分總的損失稱作雙重同質(zhì)和異質(zhì)識(shí)別損失(Dual Homogeneous and Heterogeneous Identification loss,DHHI),則

        DHHI 通過兩組輸入充分利用了有限的圖片資源,學(xué)習(xí)到了更加充分的圖像特征。

        2.3 面向多視圖檢索的加權(quán)六向三元組排序損失

        本節(jié)介紹了為多視圖檢索設(shè)計(jì)的加權(quán)六向三元組排序(WSDR)損失,它優(yōu)化了在跨模態(tài)多視圖檢索間(可見-紅外-灰度)的關(guān)系。

        2.3.1 信息三元組挖掘

        上述SDR 損失充分利用了不同視角下的跨模態(tài)三態(tài)關(guān)系。它使最遠(yuǎn)的交叉模態(tài)正對距離和最近的負(fù)對距離之間的相對差異最小化,提高了對模態(tài)變化的魯棒性;SDR 損失使所學(xué)到的跨模態(tài)特征更具有可區(qū)分性。

        2.3.2 三元組全局加權(quán)

        這部分損失僅用在第二組含有3 個(gè)模態(tài)圖像的特征上,其中對于第一組的雙模態(tài)輸入的圖像用常規(guī)三元組損失進(jìn)行計(jì)算,記作Ltri。

        2.4 注意力機(jī)制

        目前大多數(shù)跨模態(tài)行人重識(shí)別方法傾向于學(xué)習(xí)全局表征,這使得模型的區(qū)分能力和魯棒性不足;然而,基于局部特征的單模態(tài)行人重識(shí)別的方法由于跨模態(tài)的差異而無法得到可靠的局部特征;此外,并且當(dāng)兩種模態(tài)之間圖像差異變大時(shí),模型的學(xué)習(xí)容易受到噪聲的干擾而變得不穩(wěn)定。為了解決這些問題,集成了IWPA 模塊[5]和CGSA 模塊[5]來進(jìn)一步提高模型的識(shí)別性能。

        1)模態(tài)內(nèi)加權(quán)部分注意力(IWPA)。為了挖掘輸入圖片特征的上下文信息,以形成增強(qiáng)的部分聚合表示,從而應(yīng)對復(fù)雜的挑戰(zhàn),本文在上述深度網(wǎng)絡(luò)中加入模態(tài)內(nèi)加權(quán)部分注意力(IWPA)模塊。該模塊首先用一個(gè)改進(jìn)的非局部模塊學(xué)習(xí)模態(tài)內(nèi)部分注意力,然后用一個(gè)可學(xué)習(xí)的加權(quán)部分聚集策略和殘差歸一化來穩(wěn)定和加強(qiáng)訓(xùn)練過程,最終得到一個(gè)帶有注意力加權(quán)的圖片特征。該部分的損失定義如下:

        2)跨模態(tài)圖形結(jié)構(gòu)化注意力(CGSA)。CGSA 通過學(xué)習(xí)兩個(gè)模態(tài)間的結(jié)構(gòu)關(guān)系以加強(qiáng)特征表示。該模塊的主要思想是屬于同一身份的不同模態(tài)圖像的特征表示是互利的。為了引導(dǎo)跨模態(tài)圖形結(jié)構(gòu)化注意力模塊學(xué)習(xí),CGSA 引入了一個(gè)具有單輸出結(jié)構(gòu)的圖形注意層,其中最終輸出節(jié)點(diǎn)特征由表示。其中是通過CGSA 模塊計(jì)算獲得,采用負(fù)對數(shù)似然損失函數(shù)進(jìn)行圖形注意力學(xué)習(xí),損失函數(shù)定義為:

        3)動(dòng)態(tài)雙重聚合學(xué)習(xí)[5]。用像素級部分聚合特征學(xué)習(xí)損失Lp作為主導(dǎo)損失,然后逐步添加圖像級全局特征學(xué)習(xí)損失Lg進(jìn)行優(yōu)化。這樣做的主要原因是在早期階段用Lp學(xué)習(xí)像素級特征表示更容易。隨著網(wǎng)絡(luò)不斷的學(xué)習(xí),圖像級全局特征學(xué)習(xí)使用跨模態(tài)的人物圖像之間的關(guān)系來優(yōu)化特征,表示為:

        其中:t是訓(xùn)練輪數(shù);T()代表前一個(gè)訓(xùn)練輪數(shù)的平均損失值;代表當(dāng)前輪數(shù)跨模態(tài)圖形結(jié)構(gòu)化注意力損失數(shù)值。在這個(gè)動(dòng)態(tài)更新框架中,圖像級全局損失Lg逐步加入到整個(gè)學(xué)習(xí)過程中。

        最終的總損失由Ldhhi、Lwsdr、Ltri、Lp和Lt組成,定義如下:

        其中:β作為超參數(shù)控制著SDR 損失的貢獻(xiàn)。DHHI 優(yōu)化了具有身份監(jiān)督的參數(shù)共享網(wǎng)絡(luò),使得網(wǎng)絡(luò)學(xué)習(xí)到多模態(tài)身份不變特征;WSDR 損失Lwsdr提供監(jiān)督以優(yōu)化從6 個(gè)視圖檢索的相對距離;Lp、Lt分別從像素級和圖像級學(xué)習(xí)到了模態(tài)內(nèi)和模態(tài)間特征關(guān)系,加強(qiáng)了特征表示。這幾個(gè)組件針對跨模態(tài)行人重識(shí)別模型學(xué)習(xí)進(jìn)行了聯(lián)合優(yōu)化。

        3 實(shí)驗(yàn)與結(jié)果分析

        3.1 實(shí)驗(yàn)設(shè)置

        3.1.1 數(shù)據(jù)集

        為了評估了模型的性能,在兩個(gè)公開的跨模態(tài)行人重識(shí)別數(shù)據(jù)集(SYSU-MM01[24]和RegDB[36])上進(jìn)行了實(shí)驗(yàn)驗(yàn)證。

        SYSU-MM01 數(shù)據(jù)集是由6 個(gè)不同的攝像機(jī)收集的大規(guī)模數(shù)據(jù)集,包括4 個(gè)通用可見光攝像機(jī)和2 個(gè)近紅外攝像機(jī),該數(shù)據(jù)集包含395 個(gè)訓(xùn)練身份,包括22 258 張可見圖像和11 909 張近紅外圖像,圖4 給出了兩個(gè)不同身份的行人在6個(gè)不同攝像機(jī)下拍攝到的圖片。

        測試集包含另外95 個(gè)測試身份,具有兩種不同的評估設(shè)置,分別是全局搜索和室內(nèi)搜索。在這兩種設(shè)置中,查詢集是相同的,包含從兩個(gè)紅外攝像機(jī)捕獲的3 803 幅圖像。在全局搜索模式下,圖庫集包含從所有4 個(gè)可見光相機(jī)捕獲的所有可見光圖像;在室內(nèi)搜索模式下,圖庫集僅包含由兩個(gè)室內(nèi)可見光相機(jī)捕獲的可見光圖像。完全按照現(xiàn)有的方法[5]執(zhí)行圖像候選集的10 次檢索實(shí)驗(yàn),并給出平均檢索性能。

        3.1.2 評估指標(biāo)

        本文使用累計(jì)匹配特性(Cumulative Matching Characteristics,CMC)曲線和平均精度均值(mean Average Precision,mAP)作為評價(jià)指標(biāo)。CMC 統(tǒng)計(jì)在前r次檢索結(jié)果中出現(xiàn)正確的人物圖像的概率,當(dāng)r=1時(shí),代表Rank-1 精度;r=5時(shí),代表Rank-5 精度,以此類推。mAP 是衡量圖庫集中出現(xiàn)多個(gè)匹配圖像時(shí)的檢索性能。

        3.1.3 實(shí)施細(xì)節(jié)

        該模型在PyTorch 框架上實(shí)現(xiàn),使用單個(gè)NVIDIA Tesla P100 GPU 進(jìn)行模型訓(xùn)練。模型采用ResNet50 作為骨干網(wǎng)絡(luò)進(jìn)行特征提取,網(wǎng)絡(luò)初始化采用ImageNet 預(yù)處理后的模型參數(shù)。采用在PyTorch 中內(nèi)置的灰度化函數(shù)(Grayscale(3))來為每個(gè)可見圖像生成灰度圖像。首先將輸入圖像調(diào)整到288×144,然后采用隨機(jī)補(bǔ)零和隨機(jī)水平翻轉(zhuǎn)進(jìn)行數(shù)據(jù)增強(qiáng)。對于注意力機(jī)制部分采用了文獻(xiàn)[3]中同樣的設(shè)置。采用隨機(jī)梯度下降(Stochastic Gradient Descent,SGD)優(yōu)化器進(jìn)行優(yōu)化,動(dòng)量參數(shù)設(shè)置為0.9。將兩個(gè)數(shù)據(jù)集的初始學(xué)習(xí)率都設(shè)置為0.1,學(xué)習(xí)率在第20 個(gè)Epoch 時(shí)衰減到0.01,在第50 個(gè)Epoch 時(shí)衰減到0.001,在兩個(gè)數(shù)據(jù)集上總共有80 個(gè)訓(xùn)練輪次。將WSDR 損失中的裕量參數(shù)ρ設(shè)置為0.3,默認(rèn)設(shè)置β=0.2。在測試階段,使用批量歸一化(Batch Normalization,BN)層的輸出進(jìn)行檢索,并使用原始可見圖像進(jìn)行特征提取。在此,將所提出的模型稱作BADIN。

        3.2 消融實(shí)驗(yàn)

        3.2.1 組件評估

        首先在全局搜索和室內(nèi)搜索兩種模式下對大規(guī)模SYSU-MM01 數(shù)據(jù)集進(jìn)行評估。表1中,“B”代表基線模型,使用原始的DDAG 模型[5]?!癏0”代表額外增加一組輸入圖像,通過模態(tài)共享身份分類器得到標(biāo)簽損失進(jìn)行訓(xùn)練。“DHHI”代表了在模型中加入了DHHI?!癝DR”代表普通的六向三元組排序損失?!癢SDR”代表帶有加權(quán)的SDR 損失。

        由表1 可以看出,當(dāng)額外加入一組帶有灰度圖片輸入時(shí),與基線模型B 相比,額外添加一組輸入的性能顯著提高,即Rank-1 精度從0.547 5 變?yōu)?.568 1,提升了2.06 個(gè)百分點(diǎn),證明了帶有灰度圖像的額外輸入對跨模態(tài)人識(shí)別的有效性。當(dāng)進(jìn)一步在模型中加入DHHI 損失時(shí),兩種設(shè)置下的性能都得到了進(jìn)一步提高,這表明了平滑L1 損失有效地通過中間模態(tài)拉近了可見光和紅外的特征距離,提高了識(shí)別性能。當(dāng)在模型中結(jié)合了SDR 損失,檢索性能大幅提升,表明SDR 損失為減小類內(nèi)間距、增大類間間距提供了強(qiáng)有力的監(jiān)督。最后當(dāng)根據(jù)距離差異對SDR 損失進(jìn)行加權(quán)計(jì)算時(shí),性能略有提高。從整體來看,在全局搜索模式下,與DDAG 基線模型相比,所提模型在Rank-1 和mAP 評價(jià)指標(biāo)上分別提升了4.66 和3.41 個(gè)百分點(diǎn)。

        步驟4 將決策變量決策變量Wli的值Wlit代入下層模型目標(biāo)函數(shù)中,獲得下層模型函數(shù)目標(biāo)值θ,s-,s+及目標(biāo)值符合滿意值范圍時(shí)(下層約束條件),則轉(zhuǎn)入步驟5;如果目標(biāo)值未達(dá)到滿意值范圍時(shí),根據(jù)松馳變量s-,s+的值,調(diào)整的Wlit值,轉(zhuǎn)入步驟1。

        表1 在SYSU-MM01數(shù)據(jù)集上所提出的每個(gè)組件的評估Tab.1 Evaluation of each proposed component on SYSU-MM01 dataset

        3.2.2 參數(shù)評估

        為了評估所提總損失函數(shù)中超參數(shù)β(式(17))的影響。其在SYSU-MM01 數(shù)據(jù)集上全局搜索模式下的影響結(jié)果如圖5 所示。加權(quán)六向三元組排序損失充分利用了不同視角下的3 種模態(tài)間的關(guān)系,這增強(qiáng)了對跨模態(tài)變化的魯棒性。根據(jù)實(shí)驗(yàn)結(jié)果,在所有實(shí)驗(yàn)中將β設(shè)置為0.2。

        3.3 深入分析

        3.3.1 加權(quán)六向三元組排序損失

        不同的三元組損失變體的性能比較,如表2 所示。與硬挖掘的三元組損失(Triplet(Hard))[37]、加權(quán)三向三元組排序損 失(Weighted Tri-Directional triple Ranking loss,WTDR)[2]相比,所提出的加權(quán)六向三元組排序損失通過顯式優(yōu)化6 個(gè)不同視圖中的跨模態(tài)關(guān)系來實(shí)現(xiàn)更高的性能,取得了較好的效果。

        表2 不同三元組損失變體下的Rank-1和mAPTab.2 Rank-1 and mAP under different triplet loss variants

        3.3.2 IWPA及CGSA有效性分析

        對于本文加入的IWPA 和CGSA 模塊,也對其進(jìn)行了有效性分析,結(jié)果如表3 所示。其中Base 模型表示BADIN 去除了IWPA、CGSA 模塊以及它們所對應(yīng)的計(jì)算損失。從表3 可以看出,Base 模型在全局搜索的模式下取得了0.573 3 的Rank-1 和0.542 6 的mAP;在Base 的基礎(chǔ)上分別加入IWPA和CGSA 模塊后,Rank-1 和mAP 都有了一定程度的提高;當(dāng)兩者同時(shí)加入時(shí),與Base 相比,Rank-1 和mAP 分別提高了2.08 和2.17 個(gè)百分點(diǎn)。從實(shí)驗(yàn)結(jié)果可以看出,IWPA和CGSA 模塊對模型效果的提升是有益的。此外,Base 模型比所采用的DDAG 基線模型在Rank-1 的準(zhǔn)確率上還高出2.58個(gè)百分點(diǎn)。這也從側(cè)面證明了本文模型的有效性。

        表3 IWPA、CGSA模塊的有效性驗(yàn)證Tab.3 Validity verification of IWPA module and CGSA module

        3.3.3 復(fù)雜度分析

        本節(jié)比較了本文模型與基線模型(DDAG)的額外計(jì)算時(shí)間和參數(shù)量。從表4 中可以看出,與DDAG 模型相比,本文模型的參數(shù)量只增加了1.05×106,幾乎可以忽略不計(jì),而時(shí)間的增加量較多。這是由于在輸入時(shí)多增加了1.5 倍的數(shù)據(jù)量,從而導(dǎo)致訓(xùn)練時(shí)間也增加了1.46倍,總體而言相較于DDAG 模型來說并未引入額外較大的計(jì)算開銷。

        表4 不同模型的計(jì)算開銷Tab.4 Computational overhead of different models

        3.3.4 t-分布式隨機(jī)鄰居嵌入分析

        從SYSU-MM01 數(shù)據(jù)集上隨機(jī)選擇的10 個(gè)身份的t-分布式隨機(jī)鄰居嵌 入(t-distributed Stochastic Neighbor Embedding,T-SNE)繪制了圖6,包括可見光圖像和紅外圖像在通過初始模型和訓(xùn)練后的模型的特征分布,其中每一個(gè)顏色代表一個(gè)不同的身份。由圖6 可以觀察到,在初始模型上可見光圖像和紅外圖像的特征分散在兩個(gè)不同的區(qū)域。將相同圖片輸入訓(xùn)練過后的模型中,可以觀察到來自不同模態(tài)的每個(gè)身份的特征被聚集到嵌入空間同一位置中,說明了模型是有效的。

        3.4 與現(xiàn)有技術(shù)的比較

        將與現(xiàn)有的跨模態(tài)行人重識(shí)別方法進(jìn)行比較,通過此項(xiàng)對比實(shí)驗(yàn)進(jìn)一步驗(yàn)證了提出的解決方案的有效性。對比對象主要包括:

        1)傳統(tǒng)特征提取方法。HOG[38]、局部最大出現(xiàn)次數(shù)(Local Maximal Occurrence,LOMO)特征[12]。

        2)基于GAN 的模型。雙層差異減少學(xué)習(xí)(Dual-level Discrepancy Reduction Learning,D2RL)模型[20]、AlignGAN[4]。

        3)深度度量學(xué)習(xí)。雙向中心約束的top-ranking(Bi-Directional center-constrained Top-Ranking,eBDTR)模型[25]。

        4)基于共享特征學(xué)習(xí)方法。Zero-Padding[24]、AGW[39]、DDAG[5]以及超球面流形嵌入(HyperSphere Manifold Embedding,HSME)[27]、模態(tài)意識(shí)協(xié)同(Modality-aware Collaborative,MAC)學(xué)習(xí)[28]、特定模態(tài)表示(Modality-Specific Representations,MSR)學(xué)習(xí)[29]等。其中DDAG 模型通過動(dòng)態(tài)雙注意力模型學(xué)習(xí)到了更加有效的特征表示,實(shí)現(xiàn)了良好的性能。

        在SUSY-MM01 數(shù)據(jù)集上的兩種查詢模式的實(shí)驗(yàn)結(jié)果(表5)表明,所提模型在性能相較于現(xiàn)有技術(shù)有著一定程度的提高,在具有挑戰(zhàn)性的SYSU-MM01 數(shù)據(jù)集全局查詢模式下實(shí)現(xiàn)了59.41%的Rank-1 精度和56.43%的mAP。

        表5 在SYSU-MM01數(shù)據(jù)集上本文方法與先進(jìn)水平方法的性能比較Tab.5 Performance comparison of the proposed method and advanced methods on SYSU-MM01 dataset

        在RegDB 數(shù)據(jù)集(表6)上的實(shí)驗(yàn)結(jié)果表明,所提模型在兩種查詢設(shè)置中都獲得了較高的性能,對于可見光到紅外查詢設(shè)置,Rank-1 和mAP 的數(shù)值分別為70.53%和66.76%。

        表6 在RegDB數(shù)據(jù)集上本文方法與先進(jìn)方法的性能比較Tab.6 Performance comparison of the proposed method and advanced methods on RegDB dataset

        該實(shí)驗(yàn)結(jié)果表明,模型可以通過額外的一組圖像輸入來學(xué)習(xí)更好的跨模態(tài)共享特征表示。但由于RegDB 數(shù)據(jù)集較小、圖片風(fēng)格相近,導(dǎo)致額外的一組訓(xùn)練沒能取得較大的提高,因此相較于SYSU-MM01 數(shù)據(jù)集來說,精度提升的幅度較小。

        4 結(jié)語

        本文為跨模態(tài)行人重識(shí)別提出了一個(gè)新的基于數(shù)據(jù)增強(qiáng)學(xué)習(xí)的方法。通過額外增加一組由可見光、紅外和齊次增強(qiáng)得到的灰度圖像組成的輸入,用兩組輸入圖像對網(wǎng)絡(luò)模型進(jìn)行聯(lián)合訓(xùn)練。進(jìn)一步加強(qiáng)了對有限圖像中特征的利用,提高了模型匹配的精度。同時(shí),引入了加權(quán)六向三元組排序損失進(jìn)一步優(yōu)化跨模態(tài)三元組的相對距離,這個(gè)策略對所挖掘到的困難三元組的信息進(jìn)行了充分的應(yīng)用,有效地減小了同一身份不同模態(tài)間的特征距離,也增大了不同身份間的特征距離。對于文中所引用的注意力模型也通過實(shí)驗(yàn)證明了它的有效性。實(shí)驗(yàn)結(jié)果表明,該模型在跨模態(tài)行人重識(shí)別的任務(wù)上取得了有效的精度提升。但本文模型中所采用的注意力模塊較為復(fù)雜,從而導(dǎo)致訓(xùn)練需要花費(fèi)較長時(shí)間,因此未來的工作將優(yōu)化注意力機(jī)制,提高模型訓(xùn)練的整體效率。

        猜你喜歡
        三元組行人灰度
        基于語義增強(qiáng)雙編碼器的方面情感三元組提取
        軟件工程(2024年12期)2024-12-28 00:00:00
        基于帶噪聲數(shù)據(jù)集的強(qiáng)魯棒性隱含三元組質(zhì)檢算法*
        采用改進(jìn)導(dǎo)重法的拓?fù)浣Y(jié)構(gòu)灰度單元過濾技術(shù)
        基于灰度拉伸的圖像水位識(shí)別方法研究
        毒舌出沒,行人避讓
        意林(2021年5期)2021-04-18 12:21:17
        關(guān)于余撓三元組的periodic-模
        路不為尋找者而設(shè)
        我是行人
        基于最大加權(quán)投影求解的彩色圖像灰度化對比度保留算法
        基于灰度線性建模的亞像素圖像抖動(dòng)量計(jì)算
        西西人体大胆视频无码| 人妻少妇精品无码专区二区| 亚洲精品久久久久久| 国产精品福利久久香蕉中文| 精品亚洲一区二区在线观看| 无套熟女av呻吟在线观看| 国产精品v欧美精品v日韩精品| 久草国产视频| 最新日本免费一区二区三区| 日本中文一区二区在线观看| 欧美aaaaaa级午夜福利视频| 成黄色片视频日本秘书丝袜| 一区二区三区国产大片| 午夜福利理论片在线观看播放| 国产一区二区三精品久久久无广告 | 人妻精品久久久久中文字幕| 日本无遮挡吸乳呻吟视频| a午夜国产一级黄片| 日韩中文字幕熟女人妻| 日本熟妇色xxxxx日本妇| 成 人 色综合 综合网站| 91精品国产综合久久青草| 日本一区二区视频高清| 国产精品无码久久久久成人影院| 日韩成人精品在线| 国产成人久久精品二区三区| 亚洲国产婷婷香蕉久久久久久| 国自产偷精品不卡在线| 777久久| 蜜桃视频一区二区三区四| √新版天堂资源在线资源| 91制服丝袜| 青青草视频在线免费视频| 亚洲自偷精品视频自拍| 免费男人下部进女人下部视频| 激情综合网缴情五月天| 一区在线视频免费播放 | 国内少妇偷人精品视频免费| 日韩精品一区二区三区四区五区六 | 欧美成人精品福利在线视频| 日本一区二区三区精品免费|