亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        雙端可共享網(wǎng)絡(luò)的多模態(tài)行人重識別方法

        2022-07-13 01:57:10焦明海
        計算機(jī)工程與應(yīng)用 2022年13期
        關(guān)鍵詞:三元組特征提取行人

        羅 琪,焦明海

        東北大學(xué) 計算機(jī)科學(xué)與工程學(xué)院,沈陽 110000

        行人重識別的任務(wù)主要是給定一個目標(biāo)人物的圖像,在已有的圖像集中選出與目標(biāo)人物身份一致的圖像。行人重識別方法包括表征學(xué)習(xí)和度量學(xué)習(xí),表征學(xué)習(xí)沒有直接在訓(xùn)練網(wǎng)絡(luò)的時候考慮圖片間的相似度,而把行人重識別任務(wù)當(dāng)作分類問題或者驗證問題來看待。而表征學(xué)習(xí)在訓(xùn)練時會考慮到同一行人的不同圖片間的相似度大于不同行人的不同圖片間的相似度,從而學(xué)習(xí)出兩張圖片的相似度[1-2]。近年來,隨著監(jiān)控系統(tǒng)的普及,行人重識別技術(shù)也取得了很大的進(jìn)展。為了實現(xiàn)全天候監(jiān)控,使用可見光攝像頭和紅外攝像頭分別采集白天的可見光圖像和夜晚的紅外圖像。由于不同模態(tài)相機(jī)的波長范圍不同,造成了較大的模態(tài)差異以及類內(nèi)差異,導(dǎo)致兩種模態(tài)之間存在顯著的視覺差異,因此如何減小類內(nèi)差異與模態(tài)差異,成為多模態(tài)行人重識別領(lǐng)域的重點(diǎn)和難點(diǎn)。此外,人物圖像通常是在不同的環(huán)境下拍攝的,有距離和角度的不同,使得訓(xùn)練圖像和測試圖像的人物大小以及所占圖像比例不同,進(jìn)而影響重識別的準(zhǔn)確率,因此本文提出了一種新的數(shù)據(jù)處理的方法,訓(xùn)練數(shù)據(jù)集得以增強(qiáng),使得模型更具有魯棒性[3-4]。

        現(xiàn)有的多模態(tài)行人重識別研究中,提出了許多方法用于解決模態(tài)差異及類內(nèi)差異。Wu等[5]提出一種域選擇的子網(wǎng)絡(luò),可以自動選擇樣本所對應(yīng)的模態(tài),該方法將RGB圖像和紅外圖像作為兩個不同域的輸入,使用深度零填充后放入上述網(wǎng)絡(luò)中,使得所有輸入都可以用單流結(jié)構(gòu)來表示[5]。Dai 等[6]提出了一種新型的跨模態(tài)生成對抗網(wǎng)絡(luò)(cross-modality generative adversarial network,cmGAN),利用深度卷積神經(jīng)網(wǎng)絡(luò)作為生成器,生成公共子空間下RGB 和IR 圖像的表示,并利用模態(tài)分類器作為鑒別器,對不同的模態(tài)進(jìn)行鑒別。此外,Wang等[7-8]通過模態(tài)之間互相轉(zhuǎn)換的方法,使用生成對抗網(wǎng)絡(luò)生成與輸入圖片相反的模態(tài),使得多模態(tài)問題轉(zhuǎn)換為單模態(tài)問題。Liu 等[9]提出的方法中將兩個模態(tài)的圖片分別輸入到兩個獨(dú)立的骨干網(wǎng)絡(luò)中,然后利用一些共享層將這些特定于模態(tài)的信息嵌入到一個公共空間中[10]。但上述方法對于網(wǎng)絡(luò)訓(xùn)練增加了額外的成本,相比之下,Ye等[11]提出一種模態(tài)感知協(xié)作的中層可共享的雙端網(wǎng)絡(luò),將Resnet50的第一層卷積層作為各自模態(tài)的淺層特征提取器,后四層卷積層作為共享網(wǎng)絡(luò),輸入融合兩個模態(tài)的淺層特征后繼續(xù)進(jìn)行特征提取,并使用三元組損失訓(xùn)練網(wǎng)絡(luò),該方法大大降低了訓(xùn)練難度,但上述方法魯棒性不高,對于一些姿態(tài)不對齊的圖片無法較好的識別。

        為了彌補(bǔ)目前網(wǎng)絡(luò)識別效率低的問題,本文在基于模態(tài)感知協(xié)作雙端共享網(wǎng)絡(luò)[11-13]的基礎(chǔ)上,將共享特征提取器上的卷積層嵌入非局部注意力塊(non-local attention blocks)[14],使得特征提取器可以提取到更多有效的特征,然后將兩個特定模態(tài)的特征拼接后輸入到共享網(wǎng)絡(luò)進(jìn)行特征提取,在進(jìn)行距離度量時采用聚類損失函數(shù)[15]來代替三元組損失函數(shù),使得網(wǎng)絡(luò)在大規(guī)模數(shù)據(jù)集中的識別準(zhǔn)確率更高。由于行人重識別的主要任務(wù)是識別行人的身份,并不需要關(guān)注圖像是何種模態(tài),故本文舍棄了模態(tài)識別器以及模態(tài)識別損失,使得訓(xùn)練復(fù)雜度降低,減少了額外的成本。同時為了增加模型的魯棒性,提出一種預(yù)處理方法,使訓(xùn)練數(shù)據(jù)更接近真實數(shù)據(jù)。

        1 基于雙端可共享網(wǎng)絡(luò)的多模態(tài)行人重識別方法

        1.1 數(shù)據(jù)預(yù)處理

        在實際場景中,不同的攝像頭由于拍攝的角度和距離不同,導(dǎo)致得到的圖片與真實的行人大小比例不符,且圖片上半部分背景圖像占比較大,成為數(shù)據(jù)集中的難樣本,如圖1(a)所示,數(shù)據(jù)集中沒有足夠的該類圖片對網(wǎng)絡(luò)進(jìn)行訓(xùn)練,會使網(wǎng)絡(luò)更多的專注于正常比例的數(shù)據(jù),進(jìn)而降低了重識別的準(zhǔn)確率。本文針對上述問題對數(shù)據(jù)進(jìn)行處理,使得訓(xùn)練圖像更貼近實際情況,使樣本更具有差異性,增加網(wǎng)絡(luò)訓(xùn)練難度,使模型具有魯棒性。

        圖1 圖像處理前后對比Fig.1 Comparison before and after image processing

        本文選擇每個行人身份所對應(yīng)數(shù)據(jù)集的1/4作為預(yù)處理的數(shù)據(jù)集,首先將數(shù)據(jù)集中的圖像大小統(tǒng)一調(diào)整為144×288,然后將訓(xùn)練數(shù)據(jù)的大小調(diào)整為108×216,即長和寬縮小1/4,再將圖像左右兩側(cè)各填充18像素,下方填充72像素,使得圖像大小統(tǒng)一為144×288。最后將調(diào)整后的圖像與原數(shù)據(jù)一起作為訓(xùn)練數(shù)據(jù)。處理后的圖像如圖1(b)所示。

        經(jīng)過該處理步驟后的圖像很好的模擬了真實監(jiān)控圖像中行人位置不對齊及大小比例不一致的問題,使用預(yù)處理后的數(shù)據(jù)集增加了網(wǎng)絡(luò)訓(xùn)練的難度,使網(wǎng)絡(luò)更能適應(yīng)真實場景。使用該方法對數(shù)據(jù)集SYSU-MM01 和RegDB進(jìn)行重新構(gòu)建,使用文獻(xiàn)[11]提出的模態(tài)感知協(xié)作雙端共享網(wǎng)絡(luò)在構(gòu)建的新數(shù)據(jù)集上進(jìn)行實驗,實驗表明,在SYSU-MM01的rank-1識別率下降了7.46個百分點(diǎn)(all serach 模式)和7.53 個百分點(diǎn)(indoor serach 模式),在RegDB 的rank-1 識別率下降了5.79 個百分點(diǎn)(visible to thermal 模式)和5.82 個百分點(diǎn)(thermal to visible模式)。

        1.2 網(wǎng)絡(luò)結(jié)構(gòu)

        當(dāng)前深度神經(jīng)網(wǎng)絡(luò)中的特征提取器都是基于卷積網(wǎng)絡(luò)來提取特征,普通的卷積操作屬于局部操作,無法捕獲長范圍的依賴,非局部注意力塊可以將更大范圍內(nèi)有關(guān)聯(lián)的樣本點(diǎn)進(jìn)行融合,有效地捕獲長范圍的依賴,其結(jié)構(gòu)如圖2 所示。本文將Resnet50 網(wǎng)絡(luò)的后四層卷積層使用非局部注意力塊代替,同時去除了模態(tài)分類器,讓網(wǎng)絡(luò)更多的關(guān)注于圖像的內(nèi)容而非模態(tài),降低了訓(xùn)練復(fù)雜度。

        圖2 非局部注意力塊網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Network structure of non-local attention blocks

        如圖3所示,本文采用改進(jìn)的Resnet50作為骨干網(wǎng)絡(luò),網(wǎng)絡(luò)的前半部分有兩個輸入,分別輸入可見光圖像和紅外圖像,經(jīng)過各自的卷積網(wǎng)絡(luò)提取淺層特征后,將得到的兩個特征進(jìn)行拼接,輸入共享網(wǎng)絡(luò)進(jìn)行深度特征提取,進(jìn)行歸一化操作后,使用聚類損失對特征進(jìn)行距離度量;使用兩個特定模態(tài)分類器輔助共享分類器的學(xué)習(xí),同時為了便于分類器之間的知識轉(zhuǎn)移,使用集成學(xué)習(xí)損失Le和一致性損失Lc來訓(xùn)練分類器。

        圖3 網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 Network structure

        卷積操作在空間上只能處理一個局部區(qū)域,想要捕獲長范圍依賴關(guān)系只能依靠重復(fù)操作,逐步傳遞信號。非局部操作是以輸入特征圖中所有位置特征的加權(quán)和來計算某一位置的響應(yīng),以此來捕獲深度神經(jīng)網(wǎng)絡(luò)的長范圍依賴關(guān)系。在共享網(wǎng)絡(luò)中對多模態(tài)圖片進(jìn)行特征提取,需要關(guān)注兩種模態(tài)的圖片中有關(guān)聯(lián)的部分,即多模態(tài)圖像的共有特征,使用非局部操作可以更高效地提取兩種圖像的共有特征。在訓(xùn)練過程中,每個模態(tài)輸入相同數(shù)量的圖片。首先選擇P個人物身份,每個身份分別選擇K個可見光圖像和K個紅外圖像,不同模態(tài)的圖像分別輸入到相對應(yīng)的網(wǎng)絡(luò)通道內(nèi)。整個訓(xùn)練過程的batch size大小為2P×K。

        1.3 損失函數(shù)

        1.3.1 聚類損失

        目前的行人重識別任務(wù)中多使用三元組損失來進(jìn)行度量學(xué)習(xí),然而三元組損失僅考慮三個樣本的距離和標(biāo)簽,沒有充分利用更多的樣本,同時為了使訓(xùn)練更有效,必須進(jìn)行難樣本挖掘,這個過程是耗時的,并且隨著數(shù)據(jù)集變得更大,選擇出的三元組數(shù)量會更多,使得訓(xùn)練復(fù)雜度提高。隨著訓(xùn)練的進(jìn)行,網(wǎng)絡(luò)更多的關(guān)注那些難樣本,而忽略大部分的普通樣本。因此,本文使用聚類損失來替換三元組損失,該聚類損失基于均值來計算距離,使得損失函數(shù)不僅最小化難樣本之間的距離,還間接地最小化所有類內(nèi)圖像之間基于均值的距離,從而提高訓(xùn)練效率。其原理如圖4所示。

        圖4 多模態(tài)聚類示意圖Fig.4 Schematic diagram of multimodal clustering

        設(shè)f v(x) 、f t(x) 分別表示輸入x經(jīng)過網(wǎng)絡(luò)中L2 Norm 層后得到的可見光圖像特征和紅外光圖像特征,對于同一個批次中K個相同模態(tài)的樣本,某一身份i的平均特征可表示為:

        其中ω(t)是一個逐步上升的S性函數(shù),隨著訓(xùn)練次數(shù)的增加而從0增加到1。

        2 實驗結(jié)果及分析

        2.1 數(shù)據(jù)集及評價標(biāo)準(zhǔn)

        SYSU-MM01數(shù)據(jù)集[5]是一個大規(guī)模的跨模態(tài)Re-ID人物數(shù)據(jù)集,由中山大學(xué)校園內(nèi)的4個普通RGB攝像機(jī)和2個近紅外攝像機(jī)所采集。SYSU-MM01包含491個身份,每個身份出現(xiàn)在兩個以上不同的相機(jī)中。數(shù)據(jù)集共有287 628 張RGB 圖像和15 792 張紅外圖像。該數(shù)據(jù)集有固定的訓(xùn)練集和測試集,訓(xùn)練集共有32 451張圖像,其中RGB圖像19 659張,紅外圖像12 792張。SYSUMM01 數(shù)據(jù)集同時包含室內(nèi)和室外環(huán)境下拍攝的圖片,因此使用該數(shù)據(jù)集進(jìn)行測試時可分為all serach和indoor search兩種模式。

        RegDB[16]是由雙攝像機(jī)系統(tǒng)采集的小型數(shù)據(jù)集,包括1臺可見攝像機(jī)和1臺熱敏攝像機(jī)。這個數(shù)據(jù)集總共包含412個身份,其中每個身份有10個可見光圖像和10個紅外圖像。本文實驗中分別將可見光圖像和紅外圖像作為query,同時將另一模態(tài)的圖片作為gallary 進(jìn)行實驗。

        本文采用累計匹配特征(CMC)和平均精度(mAP)作為評價指標(biāo)。CMC測量對應(yīng)標(biāo)簽的人物圖像在top-k檢索結(jié)果中出現(xiàn)的匹配概率,mAP 用于度量給定查詢圖像在圖像集中出現(xiàn)多個匹配圖像時的檢索性能。

        2.2 實驗內(nèi)容

        2.2.1 參數(shù)設(shè)置

        本文實驗的環(huán)境為:Intel Core i7-8700 CPU(3.2 GHz),顯卡NVIDIA RTX 2080Ti,顯存11 GB、內(nèi)存16 GB,64位Ubuntu 16.04系統(tǒng),Python 3.6、Pytorch 1.0.1。

        本文將輸入圖片大小設(shè)置為288×144,進(jìn)行數(shù)據(jù)增強(qiáng)時對原圖片進(jìn)行零填充10 個像素,再隨機(jī)裁剪為288×144大小的圖片,最后隨機(jī)水平翻轉(zhuǎn)。增強(qiáng)后的數(shù)據(jù)集大小與2.1節(jié)中原數(shù)據(jù)集大小一致。在每次訓(xùn)練中隨機(jī)選取P=8 個身份標(biāo)簽,然后在數(shù)據(jù)集中隨機(jī)選取對應(yīng)身份的K=4 個可見光圖像及K=4 個紅外圖像,即每個批次訓(xùn)練包含32 張可見光圖像和32 張紅外圖像,總的訓(xùn)練批次大小為64。訓(xùn)練迭代次數(shù)為60,學(xué)習(xí)率在前10次迭代中由0.01遞增到0.1,在第10到第30次迭代中保持為0.1,30 次以后為0.01。其余參數(shù)設(shè)置與文獻(xiàn)[11]保持一致。

        2.2.2 實驗結(jié)果

        本文的特征提取網(wǎng)絡(luò)以Resnet50 為Baseline,為驗證非局部注意力塊(non-local)對于特征提取的有效性,使用SYSU-MM01 數(shù)據(jù)集,在相同Baseline 下進(jìn)行了有無非局部注意力塊的對比實驗。由表1可知,非局部注意力塊的加入使得網(wǎng)絡(luò)在兩種模式下的rank-1 準(zhǔn)確率分別提升了0.17 個百分點(diǎn)和0.46 個百分點(diǎn),mAP 分別提升了1.02個百分點(diǎn)和0.23個百分點(diǎn),表明非局部注意力塊的加入使得網(wǎng)絡(luò)提取到更豐富的特征。

        表1 非局部注意力塊驗證實驗(SYSU-MM01)Table 1 Non-local attention block verification experimen(tSYSU-MM01)%

        上述實驗使用三元組損失函數(shù)訓(xùn)練網(wǎng)絡(luò),將三元組損失函數(shù)替換為聚類損失函數(shù)并分別在兩個數(shù)據(jù)集上進(jìn)行實驗,實驗結(jié)果如表2及表3所示,rank-1和mAP均有所提升,從而證明了聚類損失函數(shù)對于特征度量具有更顯著的效果。

        表2 聚類損失函數(shù)驗證實驗(SYSU-MM01)Table 2 Cluster loss functions verification experiment(SYSU-MM01) %

        表3 聚類損失函數(shù)驗證實驗(RegDB)Table 3 Cluster loss functions verification experimen(tRegDB)%

        2.2.3 算法比較

        為驗證本算法對于多模態(tài)行人重識別的優(yōu)越性,本文將所提算法與近幾年該領(lǐng)域的主流算法在SYSUMM01 和RegDB 兩個數(shù)據(jù)集上進(jìn)行了比較,其結(jié)果如表4 和表5 所示。本文算法的各項指標(biāo)與對比模型(Zero-Padding[5]、cmGAN[6]、BDTR[17]、MSR[18]、DFE[19]、MACE[11])都有所提高。相比MACE 算法,在SYSUMM01數(shù)據(jù)集的all serach模式下,rank-1和mAP 分別提高了2.1 個百分點(diǎn)和3.26 個百分點(diǎn),indoor search模式下兩者分別提高2.53 個百分點(diǎn)和1.68 個百分點(diǎn);RegDB 數(shù) 據(jù) 集 的visible to thermal 模 式 下,rank-1 和mAP 分別提高了1.05 個百分點(diǎn)和2.28 個百分點(diǎn),thermal to visible 模式下兩者分別提高1.15 個百分點(diǎn)和1.86個百分點(diǎn)。

        表4 SYSU-MM01上與主流算法評價指標(biāo)比較Table 4 Comparison with mainstream algorithm evaluation indicators on SYSU-MM01 %

        表5 RegDB上與主流算法評價指標(biāo)比較Table 4 Comparison with mainstream algorithm evaluation indicators on SYSU-MM01 %

        通過以上實驗,證明了非局部注意力塊的加入對于特征提取有更好的效果,聚類損失函數(shù)相比于三元組損失函數(shù)更有利于行人重識別網(wǎng)絡(luò)的訓(xùn)練,從而驗證了本文所提算法的有效性。

        3 結(jié)束語

        本文提出一種改進(jìn)的基于雙端可共享網(wǎng)絡(luò)的多模態(tài)行人重識別算法。該算法使用嵌入非局部注意力塊的Resnet50作為特征提取網(wǎng)絡(luò),有效提高了網(wǎng)絡(luò)的特征提取能力。同時該算法使用聚類損失函數(shù)代替三元組損失函數(shù)進(jìn)行度量學(xué)習(xí),提高網(wǎng)絡(luò)的重識別能力。多模態(tài)的行人重識別相比于單模態(tài)的行人重識別,其準(zhǔn)確率較低,未來應(yīng)在解決跨模態(tài)問題的同時尋求更高的準(zhǔn)確率。

        猜你喜歡
        三元組特征提取行人
        基于語義增強(qiáng)雙編碼器的方面情感三元組提取
        軟件工程(2024年12期)2024-12-28 00:00:00
        基于帶噪聲數(shù)據(jù)集的強(qiáng)魯棒性隱含三元組質(zhì)檢算法*
        毒舌出沒,行人避讓
        意林(2021年5期)2021-04-18 12:21:17
        關(guān)于余撓三元組的periodic-模
        路不為尋找者而設(shè)
        基于Daubechies(dbN)的飛行器音頻特征提取
        電子制作(2018年19期)2018-11-14 02:37:08
        我是行人
        Bagging RCSP腦電特征提取算法
        基于MED和循環(huán)域解調(diào)的多故障特征提取
        三元組輻射場的建模與仿真
        亚洲综合一区二区三区蜜臀av| 日本丰满熟妇bbxbbxhd| 亚洲中久无码永久在线观看软件| 最新手机国产在线小视频| 大香蕉青青草视频在线| 国产成人综合美国十次| 欧美尺寸又黑又粗又长| 欧美日韩一线| 91亚洲精品久久久中文字幕| 精品国产品香蕉在线| 久久久噜噜噜www成人网| 久久精品免视看国产明星| 亚洲激情一区二区三区视频| 免费看美女被靠到爽的视频| 国产又滑又嫩又白| 高h视频在线免费观看| 亚洲av色香蕉一区二区三区潮| 亚洲av国产av综合av卡| 欧美极品少妇性运交| 亚洲欧美成人久久综合中文网| 国产av一卡二卡日韩av| 亚洲av综合永久无码精品天堂 | 日日摸夜夜欧美一区二区| 台湾自拍偷区亚洲综合| 国产在线播放一区二区不卡| 欧美大肥婆大肥bbbbb| 国产99页| 日产国产精品亚洲高清| 免费人成年激情视频在线观看| 国产精品99久久精品爆乳| 国产精品麻豆成人av| 国产精品主播在线一区二区| 欧美成人午夜精品久久久| 精品18在线观看免费视频| 国产精品综合女同人妖| 婷婷射精av这里只有精品| 欧美日韩国产成人高清视| 日本视频一区二区二区| 欧美v国产v亚洲v日韩九九| 日韩无套内射视频6| 人妻中文字幕av有码在线|