亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于自注意力模態(tài)融合網絡的跨模態(tài)行人再識別方法研究

        2022-07-03 02:11:06宋永紅張鑫瑤
        自動化學報 2022年6期
        關鍵詞:模態(tài)特征融合

        杜 鵬 宋永紅 ,2 張鑫瑤

        近年來,伴隨著視頻采集技術的大力發(fā)展,大量的監(jiān)控攝像頭部署在商場、公園、學校等公共場所.監(jiān)控攝像的出現給人們帶來了極大的便利,其中最直接的一個好處就是可以幫助公安等執(zhí)法部門解決盜竊、搶劫等重大刑事案件.但是正是由于監(jiān)控攝像頭布置的區(qū)域十分廣闊,基本在大中小城市中都遍地布滿了監(jiān)控攝像頭,當一個目標人物在一個城市的監(jiān)控攝像網絡中移動時,往往會導致公安等相關部門人員在一定時間內在整個網絡中對監(jiān)控視頻進行查看,這對公安等相關部門進行區(qū)域的管理以及視頻的查看帶來了較大的不便.因此,需要一種方便、快捷的方式來代替人工對監(jiān)控視頻中行人進行搜尋.為了實現對監(jiān)控視頻中的行人進行搜尋這個目標,其本質就是要實現多目標跨攝像頭追蹤,而行人再識別技術[1-2]是多目標跨攝像頭追蹤問題的核心與關鍵.行人再識別和多目標跨攝像頭追蹤的關系如圖1 所示.實際場景中,攝像頭拍攝到的是包含眾多行人與復雜背景的圖像,這個時候可以利用行人檢測技術從拍攝到的復雜全景圖像中得到行人包圍框,之后對于行人包圍框集合利用行人再識別技術進行搜尋.

        圖1 行人再識別和多目標跨攝像頭跟蹤關系示意Fig.1 The relationship between person re-identification and multi-target cross-camera tracking

        除此之外,犯罪分子通常會在夜間行動,這時僅僅靠RGB 相機去采集圖像不能很好地解決這種夜間出現的行人匹配問題.為了對夜晚出現的行人也能進行匹配,除了RGB 相機外,有些地方可能會布控紅外(Infrared,IR)相機,這樣,在夜間或者是光線較暗處也可以采集到行人的紅外圖,彌補了在夜晚傳統(tǒng)的RGB 相機采集失效的問題.在這種情況下,RGB 圖和IR 圖之間的跨模態(tài)匹配(跨模態(tài)行人再識別)具有很重要的現實意義.跨模態(tài)匹配的重點是尋找不同模態(tài)間的相似性[3-4],從而跨越模態(tài)對行人再識別的限制.

        跨模態(tài)行人再識別相對于傳統(tǒng)的行人再識別,除了面臨行人之間姿態(tài)變化、視角變化等問題外,數據之間還存在跨模態(tài)的難點.圖2 為跨模態(tài)行人再識別數據集中的行人數據.圖中第1 行為在白天通過RGB 相機在室內采集到的RGB 圖像;第2行為在夜晚通過紅外相機在室內采集到的IR 圖像;第3 行為白天在室外采集到的RGB圖像;第4 行為夜晚在室外采集到的IR 圖像.每一列的4 張圖片屬于同一個人,不同列的圖片屬于不同的人.與傳統(tǒng)的RGB-RGB 圖像之間的匹配不同,跨模態(tài)數據集上所關注的是IR 圖像和RGB 圖像之間的匹配,這種跨模態(tài)匹配為行人再識別增加了不少難度,如圖2 中第3 列和第4 列的兩個行人,通過RGB圖可以很好地進行區(qū)分,但通過IR 圖和RGB 圖匹配,難度有一定程度的提升.

        圖2 跨模態(tài)行人再識別數據Fig.2 Data of cross-modality person re-identification

        針對上述這些問題,本文主要創(chuàng)新點如下:

        1)提出一種自注意力模態(tài)融合網絡以解決跨模態(tài)行人再識別中存在的模態(tài)變化問題;

        2)提出使用CycleGAN 對圖像進行模態(tài)間的轉換,從而解決學習時需要對應的樣本對問題;

        3)提出使用自注意力機制進行不同模態(tài)之間的特征篩選,從而有效地對原始圖像和使用CycleGAN 生成的圖像進行區(qū)分.

        1 相關方法概述

        1.1 RGB-RGB 匹配的行人再識別方法

        近年來,隨著模式識別以及深度學習的發(fā)展,研究人員針對行人再識別方法做了大量的實驗與研究工作.前期針對行人再識別的方法主要集中于利用傳統(tǒng)的模式識別方法,例如設計行人特征來表示行人,或者利用一些距離度量方法來評估行人之間的相似性.隨著Krizhevsky 贏得了ILSVRC12[5]的比賽,基于深度學習的方法得以流行.深度學習的方法主要集中于3 個方面:1)通過設計卷積神經網絡更好地學習到行人的特征;2)利用損失函數更好地度量行人相似度;3) 通過數據增強讓網絡更加魯棒,使網絡可以忽略一些和行人類別無關的特征.

        Gray 等[6]為了考慮到空間信息,首先將圖像按水平方向劃分為多個矩形,之后在每個矩形內,利用顏色特征中的RGB、HSV、YCbCr,以及選擇21 個Gabor、Schmid 濾波核來獲得紋理特征.最后將得到的每個水平條特征拼接在一起,作為最后行人的特征表示.

        Yang 等[7]提出了一種新的語義特征顯著性 Color Name 特征,該特征不同于傳統(tǒng)的顏色直方圖,它通過將顏色量化,保證每一個像素的顏色通道以較大的概率劃分到量化的顏色區(qū)間,即對應的Color name 中.

        2012年K?stinger 等[8]提出經典的基于馬氏距離度量的行人再識別算法KISSME (Keep it simple and straightforward metric).

        Zheng 等[9]利用一個孿生網絡[10],結合分類問題與驗證問題,一次輸入一對行人圖片,對于輸入的一對行人圖片,網絡一方面要預測兩幅圖片中行人各自的ID,另一方面要判斷輸入的兩幅圖片中的行人是否為屬于同一行人.在分類問題中,他們使用SoftMax 損失進行行人類別分類.在驗證問題中,利用一個二維SoftMax 損失進行一個二分類.

        Zhang 等[11]提出了一種端到端的方法Aligned-ReID,讓網絡自動地去學習人體對齊.在AlignedReID中,深度卷積神經網絡不僅提取全局特征,同時也對各局部提取局部信息,在提取局部信息時采用動態(tài)匹配的方法選取最短路徑,從而進行行人對齊,在訓練時,最短路徑長度被加入到損失函數,輔助學習行人的整體特征.

        Zhao 等[12]提出了一種基于人體關節(jié)點對人體進行區(qū)域劃分的網絡(Spindle net),首先定位人體的14 個關節(jié)點,通過區(qū)域提取網絡來產生7 個身體區(qū)域,再通過FEN (Feature extraction net)特征提取網絡和FFN (Feature fusion net)特征融合網絡以身體區(qū)域為基礎進行人體特征提取與融合.

        Dai 等[13]提出了一種批特征擦除BFE (Batch feature erasing)方法,對于一個批量的特征圖,隨機遮擋住同樣的一塊區(qū)域,強迫網絡在剩余的區(qū)域里面去學一些細節(jié)的特征.這樣訓練得到的網絡不會太過于關注那些顯而易見的全局特征.

        Zhong 等[14]通過引入Camera style adaptation 來解決相機差異導致的行人圖片變化(光線、角度等)的問題.作者首先利用CycleGAN[15]實現不同相機風格的轉化,在得到不同相機風格下的圖片后,將這些生成的圖片放入網絡中進行訓練,其中原始圖像利用SoftMax 損失進行有監(jiān)督的訓練,生成圖像利用LSR (Label smoothing regularization)損失進行訓練.LSR 損失用于解決生成圖像產生較多噪音的問題.通過在訓練數據中增加相機風格圖片,一方面增加了訓練集數據量,另一方面通過增加各個相機風格圖片,使得網絡能夠集中學習與相機無關的特征.

        1.2 跨模態(tài)行人再識別方法

        跨模態(tài)行人再識別的方法目前集中于深度學習的方法.包括通過設計卷積神經網絡來更好地學習跨模態(tài)行人的特征以及利用損失函數來更好地度量不同模態(tài)的行人之間的相似度.

        2017 年,Wu 等[16]提出了一種基于Deep zeropadding 的跨模態(tài)行人再識別方法,并且建立了一個大規(guī)??缒B(tài)行人再識別數據集SUSU-MM01.作者對輸入的RGB 圖和IR 圖在通道上進行了填充.RGB 圖先轉換為第1 通道的灰度圖,之后在第2 通道填充大小與灰度圖一樣的全0 值.對IR 圖,在第1 通道填充大小與IR 圖一樣的全0 值.接著將填充后的RGB 圖和IR 圖統(tǒng)一的放入網絡中進行訓練,通過SoftMax 損失對行人標簽進行有監(jiān)督的訓練.

        Ye 等[17]提出BDTR (Bi-directional dual-constrained top-ranking)方法來解決跨模態(tài)行人再識別.作者通過一個孿生網絡對RGB 圖片和IR 圖片分別進行特征提取,利用SoftMax 損失和提出的雙向排序損失(Bi-directional ranking loss)進行有監(jiān)督的訓練.雙向排序損失包括跨模態(tài)約束(Crossmodality top-ranking constraint)和模態(tài)內約束(Intra-modality top-ranking constraint).

        Dai 等[18]提出了cmGAN (Cross-modality generative adversarial network)方法,該方法同樣使用了類似于BDTR 中的跨模態(tài)約束損失來保證跨模態(tài)圖像的負樣本對距離大于跨模態(tài)圖像的正樣本對距離,另外,利用SoftMax 損失對行人ID 進行有監(jiān)督的訓練.除此之外,結合生成對抗網絡的對抗訓練的思想,在判別器部分,用一個二分類來區(qū)分圖像是RGB 圖還是IR 圖.

        Lin 等[19]提出了HPILN (Hard pentaplet and identity loss network)方法,該方法對現有的單個模態(tài)的行人再識別模型進行了改進,使其更適用于跨模態(tài)場景,并提出一個新型損失函數:Hard 五元組損失(Hard pentapelt loss),使得網絡可以同時處理模態(tài)內和模態(tài)間變化,再結合身份損失函數(Identity loss)來提高改進后的模型的性能.

        2 基于自注意力模態(tài)融合網絡的跨模態(tài)行人再識別方法

        跨模態(tài)行人再識別和傳統(tǒng)的行人再識別相比,增加了相同行人不同模態(tài)的變化.為了減輕跨模態(tài)行人再識別中由于跨模態(tài)數據導致的問題,本文首先利用CycleGAN[15]對于每一幅圖片生成其對應跨模態(tài)下的圖片.如果原始圖片是RGB 圖,則Cycle-GAN 生成IR 圖;如果原始圖片是IR 圖,則CycleGAN生成RGB 圖.之后利用跨模態(tài)學習網絡將原始數據和生成的跨模態(tài)數據加入到基本的分類網絡中進行訓練,這樣跨模態(tài)學習網絡即可同時利用原始數據以及經過CycleGAN 生成的跨模態(tài)數據.對于每一幅圖片,為了將原始圖片與CycleGAN 生成的跨模態(tài)數據進行區(qū)分以及特征選擇,本文針對每一種數據,分別設計了一個自注意力模塊進行行人特征的篩選.接著將經過自注意力模塊后的原始特征和跨模態(tài)圖片特征經過Max 層進行融合,最后原始圖片特征以及融合后的特征利用SoftMax 損失進行有監(jiān)督的訓練,CycleGAN 生成的跨模態(tài)圖片特征利用LSR 損失[20]進行訓練.自注意力模態(tài)融合網絡的結構圖如圖3 所示.

        圖3 自注意力模態(tài)融合網絡Fig.3 Self-attention cross-modality fusion network

        2.1 跨模態(tài)圖像生成

        生成對抗網絡 (Generative adversarial network,GAN)[21-22]自2014 年由 Goodfellow 等提出后,越來越受到學術界和工業(yè)界的重視.其中,GAN在圖像生成上取得了巨大的成功,這取決于GAN在博弈下不斷提高建模能力,最終實現以假亂真的圖像生成.圖像到圖像的轉換可分為有監(jiān)督(如cGAN[23],pix2pix[24])和無監(jiān)督(如CycleGAN[15],DualGAN[25])兩大類.

        針對本文的跨模態(tài)應用場景,我們沒有成對的樣本數據作為輸入圖像,所以無監(jiān)督的生成對抗網絡更適用;其次,盡管CycleGAN 和DualGAN 具有相同的模型結構,但它們對生成器使用不同的實現方法.CycleGAN 使用卷積架構的生成器結構,而DualGAN 遵循U-Net 結構;CycleGAN 重在解決非配對圖像轉換問題,而DualGAN 重在解決如何避免模型崩潰問題.經過以上綜合分析,CycleGAN適合完成風格遷移任務且是無監(jiān)督的,因此更適用于我們的網絡.

        為了學習到跨模態(tài)的信息,本文首先利用Cycle-GAN 生成跨模態(tài)的數據.CycleGAN 可以將兩個域的圖像進行相互轉換,并且CycleGAN 的輸入是任意的兩幅圖片,不需要它們成對出現.因此,可以直接利用CycleGAN 實現跨模態(tài)行人再識別中的數據模態(tài)轉換.CycleGAN 的網絡結構如圖4 所示.

        圖4 CycleGAN 網絡示意圖Fig.4 Structure of CycleGAN network

        假設有來自兩個屬于不同數據域的集合,記為A,B.CycleGAN 由兩個判別器D(分別記為DA、DB)和兩個生成器G(分別記為GAB、GBA) 組成.其中GAB用來將A域的圖像轉換到B域,GBA用來將B域的圖像轉換到A域.DA判斷輸入圖片是否是真實的圖片,即圖片是A域的原始圖片還是GBA轉換后的生成圖片.其目標是將生成模型GBA產生的 “假”圖片和訓練集A域中 “真”圖片進行區(qū)分.同樣,DB用來判斷圖片是B域的原始圖片還是GAB轉換后的生成圖片.其目標是將生成模型GAB產生的 “假”圖片和訓練集B域中 “真”圖片進行區(qū)分.

        2.2 跨模態(tài)學習網絡

        本文將所有的RGB 相機采集到的圖像作為域A,所有的紅外相機采集到的IR 圖像作為域B.圖像統(tǒng)一縮放為 256×128像素.將訓練數據中的A域和B域送入CycleGAN 中進行訓練.當訓練完成后,利用GAB將原始的RGB 圖像轉換為IR 域風格圖像,利用GBA將原始的IR 圖像轉換為RGB域風格圖像,這樣對于同一幅圖像,既有原始域的圖像,也有風格轉換即跨模態(tài)的圖像.經過CycleGAN 生成的跨模態(tài)圖如圖5 所示.其中第1 行為數據集中的RGB 圖,第2 行為利用CycleGAN 生成的對應的跨模態(tài)IR 圖,第3 行為數據集中的IR 圖,第4 行為利用CycleGAN 生成的對應的跨模態(tài)RGB 圖.同一列為相同的行人,不同列對應不同行人.可以看出,利用CycleGAN 可以大致地實現數據的跨模態(tài)變化.

        圖5 利用CycleGAN 生成的跨模態(tài)圖像Fig.5 Generated cross-modality images using CycleGAN

        跨模態(tài)學習網絡的設計參照Zhong 等[14]設計的網絡.該網絡由一對共享權重的ResNet-50 組成.在得到了兩種模態(tài)圖像后,本節(jié)將原始的數據和生成的跨模態(tài)數據都加入到ResNet-50[26]網絡中進行訓練.跨模態(tài)學習網絡的輸入和一般的分類網絡不同,它的輸入為一對圖像,包括原始圖像和CycleGAN 生成的跨模態(tài)圖,跨模態(tài)學習網絡每次輸入的生成圖像是由原始圖像生成的跨模態(tài)圖.由于生成圖像是由原始圖像變換過來,所以該生成圖像的標簽理想情況下應該和原始圖像標簽一致,因此在訓練跨模態(tài)生成圖時可以和原始圖像一樣,可以利用SoftMax 損失進行有監(jiān)督的訓練.SoftMax 損失的計算如式(1)所示.

        式中,LCross表示SoftMax 損失;K為類別數;q(k)表示真實標簽的One hot 形式,即真實數據分布;p(k)表示預測的結果.

        但是,在觀察生成的跨模態(tài)圖時,發(fā)現生成的跨模態(tài)圖大多具有很大的噪聲,尤其是當IR 圖像到RGB 圖像的轉換時.如圖6 所示,其中第1 行為原始的RGB 圖;第2 行為利用CycleGAN 生成的對應的跨模態(tài)IR 圖;第3 行為原始的IR 圖;第4行為利用CycleGAN 生成的對應的跨模態(tài)RGB圖.同一列為相同的行人,不同列對應不同行人.從中可以看出,生成的圖像一般很難和原始圖像用一個標簽來區(qū)分.

        圖6 包含較多噪聲的跨模態(tài)轉換后的圖像Fig.6 Generated cross-modality images with more noise

        本文針對跨模態(tài)行人再識別中數據集的模態(tài)變化問題,提出了一種自注意力模態(tài)融合網絡.采用CycleGAN 進行跨模態(tài)圖像的生成,并在ResNet50網絡的基礎上加入了自注意力模塊和模態(tài)融合模塊.通過對網絡中的不同模塊進行組合對比實驗,證明了本節(jié)提出的每一個模塊的有效性.另外通過在SYSU-MM01 數據集上的實驗,也證明了本文提出的方法與其他跨模態(tài)方法相比有一定程度的提升.與其他跨模態(tài)行人再識別方法相比,本文不僅在網絡結構上進行了改進,同時在數據層面進行了創(chuàng)新.我們首次將CycleGAN 用于跨模態(tài)行人再識別圖像生成從而實現數據的跨模態(tài)變化.但目前本文方法跨模態(tài)生成的圖像質量較差,有一定的噪聲.為了克服以上缺陷,在今后的工作中將重點解決此問題,從而更好地解決跨模態(tài)行人再識別問題.

        針對上述問題,對于CycleGAN 生成的跨模態(tài)圖,本文利用LSR 損失來進行訓練.一般的分類損失函數,如SoftMax 損失,對圖像的標簽會編輯成One hot 形式,如式(2)所示.LSR 損失考慮到數據的過擬合,在給定圖像標簽時,LSR 給定Groundtruth 類一個比較大的值,剩余的類標簽給定一個比較小的值,如式(3)所示,將LSR 的數據標簽代入SoftMax 損失(式(1))中,即得到LSR 的計算式,如式(4)所示.

        式中,q(k) 表示SoftMax loss 中行人類別的One hot 編碼;y表示真實數據標簽.

        式中,qLSR(k)表示LSR 損失中行人類別的編碼;ε表示平滑參數;K表示行人類別數;y表示真實數據標簽.

        式中,LLSR表示LSR 損失,ε表示平滑參數,本節(jié)中設定ε為0.1,p(k)表示預測的結果,K表示行人類別數.

        跨模態(tài)學習網絡同時學習了原始圖像以及相對應的跨模態(tài)圖像的特征.同時,由于對同一幅圖網絡得到了兩種模態(tài)信息,數據量上有一定的提升,可以看成是進行了數據增廣.除此之外,網絡對同一幅圖同時考慮到了兩種模態(tài)信息,因此,跨模態(tài)學習網絡同時增強了對于模態(tài)無關特征的學習.

        2.3 自注意力模塊

        在第2.2節(jié)中的跨模態(tài)學習網絡,雖然同時輸入了兩種模態(tài)圖像,但是除了在最后損失函數的時候進行區(qū)分外,網絡本身對于原始圖像和跨模態(tài)圖像的處理完全一致.這樣通過數據增廣的方式在一定程度上雖然可以學習到一些模態(tài)無關的特征,但是不同模態(tài)之間缺少交互,在訓練過程中兩種模態(tài)之間單獨地進行監(jiān)督訓練.卷積神經網絡通過在局部感受野上進行卷積操作來融合空間和通道信息,而自注意力模塊本質上引入了對輸入的動態(tài)適應性,這有助于增強特征區(qū)分能力,提高行人再識別的性能.因此,針對上述問題,本文在跨模態(tài)學習網絡的基礎上構建了一個自注意力模塊,該模塊通過自注意力機制將原始圖像和CycleGAN 生成的圖像進行區(qū)分,自動地對第2.2節(jié)中產生的不同模態(tài)的特征在通道層面進行篩選.該模塊增加在跨模態(tài)學習網絡的2048 維特征層和最后一層261 維(與訓練數據集中行人數一致)全連接層之間.它的輸入是經過跨模態(tài)學習網絡產生的兩個2048 維特征,經過自注意力模塊后,輸出依然為兩個2 048維特征,該特征維度和跨模態(tài)學習網絡的輸出維度一致,但是對不同模態(tài)的特征進行了篩選.

        自注意力模塊的設計參照SENet[27]中SE (Squeeze-and-excitation)模塊.由于自注意力模塊是直接在ResNet-50 全局平局池化后的特征通道上進行特征選擇,因此和SE 模塊不同,自注意力模塊不需要額外使用全局平均池化做一個 Squeeze 操作.剩余Excitation 操作和SE 模塊保持一致.自注意力模塊包括兩個全連接層、一個ReLU[28]激活函數和一個Sigmoid[29]激活函數.自注意力模塊使用兩個全連接層去構造特征通道間的相關性.首先,第1 個全連接層將特征維度降低到輸入的k分之一.在本節(jié)中設定k和SENet 中的一致,為 1/16.降維后再經過ReLU 激活函數激活,之后再通過一個全連接層恢復到原來的輸入特征維度.通過這樣的設計增加了自注意力模塊的非線性,可以更好地擬合復雜的特征空間.另外通過這樣構造的兩層全連接層極大地減少了參數量和計算量.之后通過一個Sigmoid 激活函數獲得最后的特征權重,由于經過Sigmoid 激活,得到的權重值在0 至1 之間.最后將得到的權重和原始的特征按元素相乘,這樣就實現了自注意力模塊.自注意力模塊的網絡結構圖如圖7 所示.

        圖7 自注意力模塊示意圖Fig.7 Structure of self-attention model

        2.4 模態(tài)融合模塊

        在利用第2.2 節(jié)中的跨模態(tài)學習網絡進行行人再識別測評時,僅僅輸入原始圖像,測試集的生成圖像并沒有得到充分利用.針對該問題,本節(jié)提出利用模態(tài)融合模塊將兩種篩選后的特征進行融合,融合后的結果再送入到全連接層,最后用SoftMax 損失進行有監(jiān)督的訓練.

        模態(tài)融合模塊的目的是將原始圖像和CycleGAN 生成的圖像進行融合.由于CycleGAN 生成的圖像相對于原始圖像是跨模態(tài)的,即原始圖像如果是RGB 圖,CycleGAN 生成的圖是IR 圖,反之如果原始圖像是IR 圖,CycleGAN 生成的圖是RGB圖.這兩種圖像應該具有互補性.在一定的條件下,通過RGB 圖可以獲得豐富的顏色特征,通過IR 圖可以獲得豐富的紋理特征.因此,在本節(jié)利用模態(tài)融合網絡可以將原始圖像以及跨模態(tài)圖像中對于分類比較有用的特征進行保留.模態(tài)融合模塊通過一個Max 層完成.將經過自注意力模塊的原始圖像特征和CycleGAN 生成圖像的特征經過Max 層進行融合.融合后的特征再連接到共享的全連接層上,最后進行有監(jiān)督的訓練.

        3 實驗結果與分析

        為了評價自注意力模態(tài)融合網絡在跨模態(tài)行人再識別中的效果,本節(jié)在一個常用的跨模態(tài)行人再識別數據集SYSU-MM01[16]上進行實驗.評價指標選擇了行人再識別中常用的CMC 曲線(Cumulative matching curve)和mAP (mean average precision).

        3.1 數據集與評價指標

        SYSU-MM01 是中山大學采集的一個跨模態(tài)行人再識別數據集.它包括4 個RGB 相機和兩個IR相機.其中cam1 與cam2 為拍攝到的Indoor 場景下的RGB 圖像,cam3 為Indoor 場景下的IR 圖像,且與cam2 是同一個場景;cam4 與cam5 為Outdoor 場景下的RGB 圖像,cam6 為Outdoor 場景下的IR 圖像.SYSU-MM01 總共有491 個不同行人,總共包括287 628 幅RGB 圖像,15 792 幅IR圖像.

        在測試的時候,該數據集中測試集的所有IR圖像作為Probe,所有的RGB 圖像作為Gallery.有兩種評價模式,一種是All-search 模式,另一種是Indoor-search 模式.除此之外,在每種模式下,分別采用Single-shot 測評和Multi-shot 測評.在Single-shot 測評時,在測試集中的每一個行人,Gallery 集合中隨機選取一個與該行人類別相同的RGB 圖片構成Gallery 集,所有的Probe 圖像構成Probe 集.在Multi-shot 測評時,對于測試集中的每一個行人,Gallery 集合中隨機選取10 個與該行人類別相同的RGB 圖片構成Gallery 集,所有的Probe 圖像構成Probe 集.

        在該數據集上測評時,使用CMC 曲線和mAP來進行測評.在測評時,利用上述的方法構造Probe和Gallery.計算CMC 曲線和mAP 的方法和傳統(tǒng)的行人再識別方法一致.但是,考慮到該數據集下cam2 和cam3 是在同一個地方采集,而行人再識別的研究重點是跨攝像頭,因此,在評價算法時,在匹配cam2 的Probe 時,會忽略cam3 中的Gallery.對于上述的每一種測評,包括All-search 下的Single-shot 測評和Multi-shot 測評以及Indoorsearch 下的Single-shot 測評和Multi-shot 測評,本文都重復了10 次實驗并計算10 次的平局值.

        3.2 實現細節(jié)

        我們使用Pytorch[30]來實現本文中的自注意力模態(tài)融合網絡.在訓練過程中,跨模態(tài)學習網絡首先加載了在ImageNet 上預訓練的ResNet-50 網絡的參數.我們使用AMSGrad[31]來訓練網絡.給定權重衰減(Weight decay)為 5×10-4來減輕網絡過擬合.

        訓練過程分為兩個階段.第1 階段是訓練第2.2 節(jié)中的跨模態(tài)學習網絡.在這一階段中,訓練Batch size 設定為32,總共訓練60 輪,初始學習率為 3×10-4,學習率每過20 輪變?yōu)樵嫉?/10.第2 階段訓練整個自注意力模態(tài)融合網絡,加載第1階段訓練好的跨模態(tài)學習網絡參數,之后訓練自注意力模態(tài)融合網絡,訓練Batch size 設定為32,總共訓練60 輪,初始學習率為 3×10-4,學習率每過20 輪變?yōu)樵嫉?/10.

        3.3 實驗結果與分析

        3.3.1 不同模塊組合對比實驗

        為了測試自注意力模塊融合網絡中每一個模塊的有效性.本節(jié)總共構建了5 個網絡.第1 個是一般的分類網絡,用作跨模態(tài)行人再識別的Baseline網絡,該網絡由一個ResNet-50 組成,這里將其命名為 “Baseline”;第2 個是第2.2 節(jié)中構建的跨模態(tài)學習網絡;第3 個是在跨模態(tài)學習網絡的基礎上加入自注意力模塊,命名為 “跨模態(tài)+自注意力”;第4 個是在跨模態(tài)學習網絡的基礎上加入融合模塊,命名為 “跨模態(tài)+模態(tài)融合”;第5 個是在跨模態(tài)學習網絡的基礎上加入融合模塊以及自注意力模塊,即本文中的自注意力融合網絡.這5 組網絡在SYSU-MM01 的實驗結果如表1 和表2 所示,表中匯集了CMC 曲線中的Rank 1、Rank 10、Rank 20 以及mAP 的實驗結果.

        從表1 和表2 可以看出,與Baseline 相比,在引入了CycleGAN 生成的圖像并利用跨模態(tài)學習網絡同時訓練原始圖像和跨模態(tài)圖像時,在SYSUMM01 數據集上的成績有顯著的提升.在All-search模式下,Single-shot 和Mulit-shot 的Rank 1 分別提升了3.47%和4.77%.在Indoor-search 模式下,Single-shot 和Mulit-shot 的Rank 1 分別提升了5.04%和5.03%.這組對比實驗說明了在第2.2 節(jié)中提出的跨模態(tài)學習網絡的有效性.跨模態(tài)學習網絡和Baseline 相比,同時利用了原始圖像和生成的跨模態(tài)圖像.

        表1 各模塊在SYSU-MM01 All-search 模式下的實驗結果Table 1 Experimental results of each module in SYSU-MM01 dataset and All-search mode

        表2 各模塊在SYSU-MM01 Indoor-search 模式下的實驗結果Table 2 Experimental results of each module in SYSU-MM01 dataset and Indoor-search mode

        對比自注意力模態(tài)融合網絡和第2.2 節(jié)中的跨模態(tài)學習網絡,發(fā)現自注意力模態(tài)融合網絡成績有更近一步的提升.在All-search 模式下,Singleshot 和Mulit-shot 的Rank 1 分別提升了2.48%和2.46%.在Indoor-search 模式下,Single-shot 和Mulit-shot 的Rank 1 分別提升了0.88%和1.82%.這組對比實驗說明了本文提出的自注意力模態(tài)融合網絡的有效性.最后,單獨比較自注意力模態(tài)融合網絡和 “跨模態(tài)+自注意力”以及 “跨模態(tài)+模態(tài)融合”,發(fā)現由于生成圖像存在很大的噪聲,對自注意力模塊造成了一定程度的影響.從而導致在Indoorsearch 和Multi-shot 模式下,“自注意力模態(tài)融合”的mAP 比起 “跨模態(tài)+模態(tài)融合”下降了0.12%,如何對生成的圖像降噪是今后要解決的問題之一.不過,從總體來看,兩個模塊共同使用比單獨使用它們中的任一個模塊都要有效.

        我們參照SENet[27]中對網絡時間復雜度的分析方法,計算了在測試時加入各個模塊后網絡的GFLOPs (Giga floating-point operatiuns per second)和參數量,如表3 所示.其中,前三個方法的輸入是一幅大小為256×128 像素的圖像,“跨模態(tài)+模態(tài)融合”網絡和 “自注意力模態(tài)融合”網絡的輸入是一幅大小為256×128 像素的圖像和一幅生成的相同大小的跨模態(tài)圖像.由表3 可知,跨模態(tài)學習網絡與Baseline 相比,GFLOPs 和參數量都相同;加入自注意力模塊后,GFLOPs 增加了0.001048576,參數量增加了4.12%;由于輸入是兩幅圖,“跨模態(tài)+模態(tài)融合”網絡GFLOPs 是Baseline 的兩倍,由于Max 操作沒有新增參數,所以參數量沒有發(fā)生變化.“自注意力模態(tài)融合”網絡與Baseline 相比,GFLOPs 增加了2.706867200,參數量增加了6.18%.可見自注意力模塊對GFLOPs的影響微乎其微,GFLOPs 的增加主要來源于輸入的增加.

        表3 加入各模塊后的GFLOPs 和參數量Table 3 GFLOPs and parameters after joining each module

        3.3.2 和跨模態(tài)行人再識別State-of-the-arts 對比實驗

        我們在SYSU-MM01 數據集上和跨模態(tài)行人再識別State-of-the-arts 進行了對比.其中 “HOG +Euclidean”是在RGB-RGB 匹配的行人再識別問題中利用模式識別方法解決,手工特征選擇HOG[32]特征,距離度量利用歐氏距離度量;“LOMO+KISSME”同樣也是利用傳統(tǒng)的模式識別方法,手工特征選擇LOMO[33]特征,距離度量算法利用KISSME[8];“Zero-padding”[16]方法屬于深度學習方法中的基于深度特征學習法,該方法將三通道的RGB圖轉換為一通道的灰度圖,之后在第2 通道進行零值填充,將IR 圖直接在第1 通道進行零值填充,之后將填充后的RGB 圖和IR 圖統(tǒng)一放入網絡中,利用SoftMax 損失進行訓練;BDTR[17]屬于深度學習方法中的基于距離度量學習法,該方法通過一個孿生網絡對RGB 圖片和IR 圖片分別進行特征提取,利用SoftMax 損失和雙向排序損失進行有監(jiān)督的訓練;cmGAN[18]屬于深度學習方法中的基于距離度量學習法,該方法使用三元組損失來約束跨模態(tài)樣本距離,保證跨模態(tài)圖像的負樣本對距離大于跨模態(tài)圖像的正樣本對距離,同時利用SoftMax 損失對行人ID 進行有監(jiān)督的訓練.另外結合GAN 網絡對抗訓練的思想,在判別器部分用一個二分類來區(qū)分圖像是 RGB 圖還是IR 圖.與上述4 個方法對比的實驗結果如表4 和表5 所示.

        從表4 和表5 可以看出,基于深度學習的跨模態(tài)行人再識別方法要遠遠好于傳統(tǒng)的模式識別方法.另外,由于跨模態(tài)行人再識別目前的研究工作較少,早期的Zero-padding 利用的基網絡為Res-Net-6,BDTR 利用的基網絡為AlexNet[5].本文中利用的基網絡和cmGAN 方法中的基網絡一致,為ResNet-50.ResNet-50 也是RGB-RGB 行人再識別中最常用的基網絡.從實驗結果看,本文中提出的自注意力模態(tài)融合網絡相較于上述方法成績有一個比較大的提升.在All-search 模式下,Singleshot 的Rank 1 相比于Zero-padding、BDTR 和cmGAN 分別提升18.51%、16.3%和6.04%.Multishot 的Rank 1 相比于Zero-padding 和cmGAN分別提升20.4%和8.22%.在Indoor-search 模式下,Single-shot 的Rank 1 相比于Zero-padding 和cmGAN 分別提升17.51%和6.46%.Multi-shot 的Rank 1 相比于Zero-padding 和cmGAN 分別提升21.37%和8.8%.可以看出,本文提出的自注意力模態(tài)融合網絡在SYSU-MM01 數據集上已經超過了現有的跨模態(tài)行人再識別方法.

        表4 在SYSU-MM01 All-search 模式下和跨模態(tài)行人再識別的對比實驗Table 4 Comparative experiments between our method and others in SYSU-MM01 dataset and All-search mode

        表5 在SYSU-MM01 Indoor-search 模式下和跨模態(tài)行人再識別的對比實驗Table 5 Comparative experiments between our method and others in SYSU-MM01 dataset and Indoor-search mode

        4 結束語

        跨模態(tài)行人再識別與傳統(tǒng)的行人再識別相比,增加了相同行人不同模態(tài)的變化.為了解決跨模態(tài)問題,本文提出了一種自注意力模態(tài)融合網絡.首先利用CycleGAN 生成原始圖像的跨模態(tài)圖像,之后利用跨模態(tài)學習網絡將兩個模態(tài)的圖片都加入網絡進行訓練.接著利用自注意力模塊對原始圖像和CycleGAN 生成的圖像分別進行特征篩選,最后利用模態(tài)融合模塊將兩種模態(tài)的圖片特征融合作為最后的行人再識別中行人的特征表示.在SYSUMM01 數據集上的實驗結果證明了本文提出的方法和其他跨模態(tài)方法相比有一定程度的提升.本文首次將 CycleGAN 用于跨模態(tài)行人再識別圖像生成,實現數據的跨模態(tài)變化.不僅在網絡結構上進行了改進,同時在數據層面進行了創(chuàng)新.在今后的工作中將致力于提升跨模態(tài)生成的圖像質量從而更好地解決跨模態(tài)行人再識別問題.

        猜你喜歡
        模態(tài)特征融合
        村企黨建聯(lián)建融合共贏
        融合菜
        從創(chuàng)新出發(fā),與高考數列相遇、融合
        《融合》
        現代出版(2020年3期)2020-06-20 07:10:34
        如何表達“特征”
        不忠誠的四個特征
        當代陜西(2019年10期)2019-06-03 10:12:04
        抓住特征巧觀察
        國內多模態(tài)教學研究回顧與展望
        基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識別
        由單個模態(tài)構造對稱簡支梁的抗彎剛度
        計算物理(2014年2期)2014-03-11 17:01:39
        无码成人一区二区| 97女厕偷拍一区二区三区| 亚洲第一黄色免费网站| 免费超爽大片黄| av人摸人人人澡人人超碰小说| 国产精品原创永久在线观看| 免费观看一区二区三区视频| 久久影院午夜理论片无码| 黄色a级国产免费大片| 在线观看网址你懂的| 色婷婷一区二区三区四| 日韩人妻另类中文字幕| 精品国产一区二区三区香蕉| 国产综合色在线视频| 少妇人妻出水中文字幕乱码| 国产精品一区二区三区在线免费| 国产激情电影综合在线看| 婷婷丁香91| 久久亚洲av午夜福利精品西区| 中文字幕一区二区人妻秘书| 欧美人和黑人牲交网站上线| 久久亚洲AV成人一二三区| 牛仔裤人妻痴汉电车中文字幕| 欧美疯狂性受xxxxx喷水| 欧美巨大巨粗黑人性aaaaaa| 99国产精品无码专区| 中文字幕亚洲五月综合婷久狠狠| 午夜精品久久久久久久无码| 免费av片在线观看网站| 亚洲一区二区三区在线观看蜜桃 | 欧洲熟妇色xxxx欧美老妇多毛 | 成人在线观看视频免费播放| 欧洲熟妇色xxxx欧美老妇软件| 女人夜夜春高潮爽a∨片传媒| 久久亚洲精品成人AV无码网址| 亚洲毛片在线观看免费| 女人高潮被爽到呻吟在线观看| 亚洲国产精品自产拍久久蜜AV| 人妻少妇偷人精品视频| 中文无码伦av中文字幕| 亚洲天堂在线播放|