亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向跨模態(tài)文本到圖像行人重識別的Transformer網(wǎng)絡

        2023-05-20 07:36:30姜定葉茫
        中國圖象圖形學報 2023年5期
        關鍵詞:行人檢索模態(tài)

        姜定,葉茫

        武漢大學計算機學院,武漢 430072

        0 引 言

        文本到圖像行人重識別(text-to-image person re-identification)是行人重識別和跨模態(tài)圖像檢索的子問題,旨在利用自然語言描述從大規(guī)模圖像或視頻庫中檢索最符合文本描述形容的行人,如圖1 所示。相比于基于屬性的行人重識別,文本描述需要的專業(yè)知識和先驗知識更少,且可以提供比屬性更全面的描述。此外,文本到圖像行人重識別技術可以很好地彌補傳統(tǒng)的基于圖像的行人重識別技術至少需要一幅行人圖像的局限性。

        圖1 文本到圖像行人重識別示例Fig.1 Example of text-to-image person re-identification

        自Li 等人(2017b)首次提出使用文本描述檢索對應的行人圖像以來,人們提出了許多探索文本到圖像行人重識別任務的方法。雖然這些方法取得了一定成功,但是檢索性能還不足以應對真實世界應用場景。造成文本到圖像行人重識別任務檢索準確率不高的主要原因是圖像和文本兩個模態(tài)之間的差異,由于圖像和文本的表現(xiàn)形式不一致,兩個模態(tài)的語義信息之間很難做到精準的細粒度匹配。而且現(xiàn)有方法的圖像骨干網(wǎng)絡都采用了卷積神經(jīng)網(wǎng)絡(convolutional neural network,CNN)結構,而CNN 的下采樣操作會導致細粒度的特征丟失,從而影響跨模態(tài)的細粒度匹配。現(xiàn)有文本到圖像行人重識別方法可以分成全局特征匹配和局部特征匹配兩類。全局特征匹配方法主要集中在全局視覺和文本表征的學習上,通過優(yōu)化目標將圖像和文本特征映射到統(tǒng)一的特征空間?,F(xiàn)有的全局特征匹配方法使用的CNN 和LSTM/GRU(long short-term memory/gated recurrent unit)骨干網(wǎng)絡無法有效提取有辨識度的全局特征。近年來,在基于圖像的行人重識別方法中,提出了越來越多的局部特征匹配方法(鄭鑫 等,2020)。一些局部特征匹配的方法在全局特征的基礎上,引入了額外的局部特征對行人圖像和文本描述進行細粒度的匹配,這種局部特征匹配配合全局特征匹配可以取得一定的檢索性能提升,但其中一些方法引入了額外的外部模型,如人體姿勢估計、語義分割或自然語言工具包,帶來了額外的計算花銷和不確定性,并且使網(wǎng)絡無法進行端到端的學習。局部特征匹配方法需要提取存儲圖像或文本全局特征和多個局部特征,檢索時需計算全局和局部相似度,消耗了額外存儲空間和計算時間,不利于模型的實際部署。缺乏足夠的訓練數(shù)據(jù)是文本到圖像行人重識別任務長期以來面臨的一大挑戰(zhàn),一直缺乏有效的解決方案。為了減輕缺乏數(shù)據(jù)造成的影響,現(xiàn)有方法通常使用在單一模態(tài)大規(guī)模數(shù)據(jù)集如ImageNet(Deng等,2009)上進行預訓練的主干網(wǎng)絡來增強模型的特征提取能力,例如ResNet(residual network)(He 等,2016)和BERT(bidirectional encoder representations from transformers)(Devlin 等,2019),但是這種基于單模態(tài)數(shù)據(jù)預訓練的主干網(wǎng)絡只能學習到圖像或文本兩個模態(tài)內部的信息,無法學習到圖像文本跨模態(tài)匹配和語義對齊的信息。

        針對上述文本到圖像行人重識別領域面對的挑戰(zhàn),本文提出了一種僅使用全局特征的基于Transformer(Vaswani 等,2017)的雙流文本到圖像行人重識別框架。由于基于CNN 的算法無法挖掘長距離的關系,且會因為下采樣操作丟失細粒度信息,因此本文算法采用Transformer作為視覺骨干網(wǎng)絡。為了解決文本到圖像行人重識別任務中缺少高質量標注數(shù)據(jù)的問題,本文使用了CLIP(contrastive languageimage pre-training)(Radford 等,2021)模型權重對主干網(wǎng)絡參數(shù)進行初始化。CLIP是一個在包含4億個圖像文本對的WIT(WebImageText)數(shù)據(jù)集上訓練得到的視覺語言預訓練模型。相比使用在單一模態(tài)的大規(guī)模數(shù)據(jù)集上進行預訓練的主干網(wǎng)絡,使用CLIP能夠利用預訓練模型的圖像文本跨模態(tài)匹配能力,從而獲得更好的圖像和文本語義表征。本文的主要貢獻如下:1)提出一個端到端的雙流Transformer 網(wǎng)絡來學習文本到圖像行人重識別任務中行人圖像和描述文本的表征,僅使用全局特征就可以超過目前使用全局特征+局部特征的最先進算法。2)設計了一個溫度縮放跨模態(tài)投影匹配(temperature-scaled cross modal projection matching,TCMPM)損失函數(shù)。在TCMPM 中,溫度參數(shù)τ通過控制softmax 函數(shù)內跨模態(tài)投影數(shù)值的分布,使模型更新的重點聚焦到難分負樣本上,并對它們施加相應的懲罰,從而使模型學習到更有區(qū)分度的圖像文本特征。本文將溫度參數(shù)τ設置為一個可學習參數(shù),直接通過訓練階段進行更新,避免將其視為一個超參數(shù)進行手動調參。3)本文方法在CUHK-PEDES(CUHK person discription)(Li 等,2017b)和ICFG-PEDES(identity-centric and fine-grained person discription)(Ding 等,2021)數(shù)據(jù)集進行了大量實驗,文本到圖像的檢索結果大幅領先目前的SOTA(state-of-the-art)模型。

        1 相關工作

        1.1 文本到圖像行人重識別

        Li 等人(2017b)第1 個提出文本到圖像行人重識別這個任務,并提出了GNA-RNN(recurrent neural network with gated neural attention)框架,其包含了一個用于提取視覺特征的VGG-16(Visual Geometry Group 16-layer network)網(wǎng)絡和一個用于提取文本特征的LSTM網(wǎng)絡。Li等人(2017a)又提出了一個身份可知的兩階段網(wǎng)絡架構,通過兩階段網(wǎng)絡聯(lián)合最小化圖像和文本特征的身份間距離和跨模態(tài)距離。Zheng 等人(2020)提出了一個雙路視覺CNN+文本CNN 網(wǎng)絡架構,使用了標準的Ranking 損失函數(shù)和提出的Instance 損失函數(shù)來聯(lián)合優(yōu)化圖像和文本特征。Zhang 和Lu(2018)提出了一個跨模態(tài)投影匹配損失和一個跨模態(tài)投影分類損失。Sarafianos 等人(2019)提出通過對抗性學習在一個共享空間中學習模態(tài)不變的視覺和文本表征。Han 等人(2021)設計了一個遷移學習方法從大規(guī)模粗粒度通用圖像文本對數(shù)據(jù)集預訓練的CLIP 模型中遷移知識,并設計了一個跨模態(tài)動量對比學習框架,更好地利用數(shù)據(jù)量有限的文本到圖像行人重識別數(shù)據(jù)集。

        還有一些方法采用了局部特征對齊的方法為全局特征對齊提供補充信息,學習圖像區(qū)域與文本描述中的短語或單詞之間的語義相關性。Aggarwal 等人(2020)從行人文本描述中自動抽取屬性詞作為行人圖像屬性識別的類別,通過學習到的屬性空間局部特征和潛在空間全局特征共同完成檢索,提出了一個基于姿態(tài)的多粒度注意網(wǎng)絡。Jing 等人(2020)使用人類姿勢估計工具分割出行人圖像的人體局部特征,提出了一個由姿勢指導的圖像文本特征對齊網(wǎng)絡。Wang 等人(2020)同時使用了自然語言分詞和語義分割工具提取文本和圖像局部特征,設計了一個跨模態(tài)對齊網(wǎng)絡來匹配圖像文本全局特征和屬性局部特征。Chen 等人(2021)使用了在基于圖像的行人重識別方法中流行的PCB(part-based convolutional baseline)(Sun 等,2018)策略進行局部特征提取,提出了一個多階段跨模態(tài)匹配策略對雙流網(wǎng)絡中低層特征和高層特征進行多模態(tài)匹配,最后檢索時只使用全局圖像文本特征進行相似度計算。Ding等人(2021)收集了一個新的文本到圖像行人重識別數(shù)據(jù)集ICFG-PEDES,基于非局部注意力機制提出了一個多視角非局部網(wǎng)絡,學習人體各個部位之間的關系,檢索時使用局部特征、非局部特征和全局特征一起計算相似度。

        國內最早出現(xiàn)的文本到圖像行人重識別研究是李晟嘉(2019)提出的基于注意力機制的跨模態(tài)融合行 人 檢 索DSFA-Net(description-strengthened and fusion-attention network)。隨后,霍昶偉(2020)提出了基于截斷式注意力機制和堆疊損失函數(shù)的網(wǎng)絡框架。王玉煜(2020)提出了一個多連接分類損失函數(shù)來優(yōu)化模型。張鵬(2021)專注于設計有效的損失函數(shù),提出了基于乘性角度余量的損失函數(shù)和基于樣本對權重賦值的損失函數(shù)。殷雪朦(2021)為了實現(xiàn)細粒度的特征匹配,采用局部特征對齊方法,提出了一個結合全局和局部特征匹配的文本到圖像行人重識別網(wǎng)絡框架。

        這些局部匹配方法有的需要使用額外的外部模型如人類姿勢估計、語義分割或自然語言分詞,帶來了大量的計算復雜度且無法實現(xiàn)端到端訓練。這些模型都采取了粗粒度全局特征加多個細粒度局部特征匹配的做法,大部分在實際檢索階段需要重復計算多次圖像文本局部特征之間的相似度,這些方法由于過高的復雜度無法滿足現(xiàn)實場景的要求。Han等人(2021)雖然設計了一個遷移學習和動量對比學習方法,從CLIP 預訓練模型中轉移跨模態(tài)對齊的知識,僅使用全局特征就超過現(xiàn)有的局部特征對齊方法,但是沒有充分利用預訓練模型的強大跨模態(tài)匹配知識。相比而言,本文提出的雙路Transformer 網(wǎng)絡方法簡單又有效,并且能夠進行端到端的訓練,在檢索時僅需計算全局特征余弦相似度即可快速從文本檢索行人圖像。

        1.2 視覺語言預訓練

        基于Transformer 的大規(guī)模預訓練語言模型BERT 在自然語言處理(natural language processing,NLP)領域取得了巨大成功。而在計算機視覺領域,預訓練的大模型如ResNet 和ViT(vision Transformer)(Dosovitskiy 等,2021)也已廣泛用做圖像分類和分割等任務的骨干網(wǎng)絡。受到NLP和計算機視覺中大規(guī)模預訓練模型取得成功的啟發(fā),近年來視覺語言預訓練(vision language pre-training,VLP)在多模態(tài)任務中成為了學習多模態(tài)表征的主流。在圖文檢索(Kiros 等,2014)和視覺回答(Antol 等,2015)等任務上取得了巨大成功。VLP模型結構可以分為單流結構和雙流結構兩種。單流模型采取單個Transformer 同時處理多模態(tài)輸入,使用注意力機制來融合多模態(tài)特征。代表性工作有Oscar(Li 等,2020)和UNITER(universal image-text representation)(Chen 等,2020)等。雙流模型使用單獨的兩個Transformer 分別提取圖像和文本特征,兩者之間權重不共享。雖然單流模型效果很好,但是單流模型的跨模態(tài)注意力機制在訓練和推理時都不可避免地需要大量的計算時間。而雙流模型所提取的圖像文本特征在推理階段僅需要簡單的點乘計算余弦相似度,所以雙流模型更適合圖文檢索任務。

        本文方法在文本到圖像行人重識別中引入了雙流結構模型,在大規(guī)模圖像文本對數(shù)據(jù)集上使用對比學習預訓練的CLIP 模型,并設計了一個新的對比學習損失函數(shù),使模型學到更強大的跨模態(tài)圖像文本特征對齊能力,極大地減少了圖像文本間的跨模態(tài)差異。

        2 本文方法

        本文提出了一個基于雙流Transformer 的文本到圖像行人重識別方法網(wǎng)絡模型,整體框架如圖2所示,實現(xiàn)了端到端的方式同時學習視覺和文本表征,且保證文本檢索圖像時的檢索速度。與其他行人重識別方法一樣,本文框架也由特征提取和監(jiān)督學習兩個階段組成。特征提取階段包括一個用于處理圖像輸入的視覺Transformer 和一個用于處理文本描述句子的文本Transformer。整個網(wǎng)絡直接接受數(shù)據(jù)集中原始圖像和文本描述對{Ii,Ti}1作為輸入,其中,N表示小批量中圖像文本對的個數(shù),無需使用其他現(xiàn)有的圖像分割模型或BRRT 模型對圖像或文本進行預處理。相比現(xiàn)有方法,端到端的微調學習策略在學習跨模態(tài)對齊關系時更有優(yōu)勢。

        圖2 基于雙流Transformer的文本到圖像行人重識別方法框架圖Fig.2 The framework of the proposed dual-stream Transformer baseline

        2.1 視覺表征學習

        本文采用了視覺Transformer(ViT)作為圖像特征提取器。如圖2 所示,給定一幅行人圖像I∈RH×W×C,其中H,W,C分別表示圖像的高度、寬度和通道數(shù),將圖像均分成N個16 × 16像素的不重疊的圖像塊{|i= 1,2,…,N}。之后將N個圖像塊通過一個線性投影層投影得到N個D維的圖像塊向量,并且在輸入圖像塊向量序列前插入一個可學習的 [CLS]嵌入向量。為了學習到各圖像塊向量之間的相對位置關系,輸入圖像塊向量序列會加上一個位置嵌入P∈R(N+1)×D。最終輸入到ViT網(wǎng)絡的圖像塊向量序列可以表示為

        由于文本到圖像行人重識別任務所使用數(shù)據(jù)集的圖像分辨率和WIT數(shù)據(jù)集上原始圖像的分辨率不匹配,預訓練的CLIP的ViT模型中的位置嵌入不能直接導入。本文采用了TransReID(Transformer-based object re-identification)(He 等,2021)中使用的線性2D插值法來調整位置嵌入的尺寸以適應不同的圖像分辨率。

        2.2 文本表征學習

        文本特征提取器是一個由Radford 等人(2019)修改過的12 層文本Transformer。與CLIP 中的文本特征提取器保持一致,輸入的文本描述T,采用了詞庫為49 152 的小寫字節(jié)對編碼(byte pair encoding,BPE)(Sennrich 等,2016)進行分詞和編碼處理。如圖2 所示,分詞后的文本描述在開頭和結尾分別插入了 [SOS]和 [EOS]嵌入向量來標識文本描述句子的開頭和結尾。且為了保證計算效率,最大的文本描述序列長度設置為77。為了學習句子中的單詞相對位置關系,位置嵌入P∈R77×D也會加到單詞向量輸入序列中。最終輸入到文本Transformer的序列可以表示為

        2.3 損失函數(shù)設計

        為了最小化文本模態(tài)到圖像模態(tài)之間的距離,受到跨模態(tài)投影匹配(cross-modal projection matching,CMPM)損 失(Zhang 和Lu,2018)和InfoNCE(information noise contrastive estimation)(van den Oord 等,2019)損失函數(shù)的啟發(fā),本文設計了一個溫度縮放跨模態(tài)投影匹配(temperature-scaled cross modal projection matching,TCMPM)損失函數(shù)。給定一個由N個行人圖像和描述文本表征向量對組成的小批量,對每個圖像表征vi,這個小批量可以表示為,其中yi,j= 1 表示vi和tj屬于同一個行人,yi,j= 0表示這個圖像文本對不匹配。vi和tj匹配的概率可以定義為

        式中,qi,j表示真實標簽的分布概率,τ是和上面計算圖像文本對投影值比率中共用的溫度參數(shù)。相比原始的CMPM 損失函數(shù)使用的線性函數(shù)歸一化方法,使用softmax 函數(shù)這種非線性的歸一化方法可以起到標簽平滑的作用。

        通過計算圖像到文本的投影概率和真實匹配概率的KL(Kullback-Leibler)散度,可以得到一個小批量的圖像到文本的匹配損失函數(shù),具體為

        式中,ε是一個非常小的數(shù)用來防止出現(xiàn)數(shù)值溢出問題。通過最小化KL(pi‖qi),可以使pi分布曲線的形狀接近qi分布曲線的形狀,從而使匹配的圖像文本對的投影值最大,不匹配的圖像文本對投影值最小。

        圖像到文本的匹配損失函數(shù)LI2T在圖像模態(tài)到文本模態(tài)的這個方向上拉近視覺表征與其匹配的文本表征之間的距離。在一般的圖像文本表征學習過程中,圖像文本匹配函數(shù)需要考慮兩個方向。由于損失函數(shù)的對稱性,通過計算文本表征到圖像表征上的投影,拉近文本表征與其匹配的視覺表征之間距離的文本到圖像匹配損失LT2I可以通過將式(3)中的v和t交換后代入式(5)進行計算。最后,雙向的TCMPM損失函數(shù)可以表示為

        3 實 驗

        3.1 數(shù)據(jù)集

        CUHK-PEDES 數(shù)據(jù)集包含13 003 個行人的40 206 幅圖像和80 440 個文本描述,大部分圖像都有兩個文本描述。每個文本描述中平均單詞長度為23.5,最大單詞長度為96,最小單詞長度為12。數(shù)據(jù)集劃分為訓練集、驗證集和測試集。訓練集包括11 003 個行人的34 054 幅圖像和68 126 個文本描述。測試集包含1 000 個行人的3 074 幅圖像和6 156個文本描述,剩下的屬于驗證集。測試集的文本描述和行人圖像分別作為查詢集和圖像庫。

        ICFG-PEDES數(shù)據(jù)集包含4 102個行人的54 522幅圖像描述文本對,即每幅圖像有一個對應的文本描述。ICFG-PEDES 中所有的圖像來源于MSMT17(multi-scene multi-time)(Wei 等,2018)數(shù)據(jù)集。數(shù)據(jù)集劃分為訓練集和測試集。訓練集包含3 102 個行人的34 674 個圖像文本對,測試集包含剩下的1 000個行人的19 848個圖像文本對。

        3.2 評估指標

        本文遵循文本到圖像行人重識別的標準評估指標,通過Rank-K(K= 1,5,10)準確率來評估模型性能。具體來說,給定一個文本描述的查詢,計算圖庫中所有圖像與這個文本描述的相似度,然后根據(jù)相似度值進行排序。Rank-K是指真實匹配圖像在相似度排序表中出現(xiàn)在前K個的概率。

        3.3 實現(xiàn)細節(jié)

        在實驗中,遵循文本到圖像行人重識別工作的實驗設置(Han 等,2021),所有的行人圖像分辨率都重新調整到384 × 128 像素,并且在訓練階段使用了隨機水平翻轉、隨機裁剪和隨機擦除的圖像數(shù)據(jù)增廣方法。最大文本長度設置為77。視覺表征向量fv與文本表征向量ft的維度為512。使用Adam優(yōu)化器進行模型優(yōu)化,基礎學習率為1E-5,權重衰減為4E-5。模型訓練60 輪,在開始的5 輪中采用warmup 策略使學習率從1E-6 線性增長到1E-5。學習率在20~50 輪中每10 輪衰減為原值的0.1。LTCMPM中的τ和ε的初始值分別設置為0.07和1E-8。

        所有實驗均在單張NVIDIA GeForce RTX 3090 GPU 上進行,使用了Pytorch 深度學習平臺進行半精度訓練。視覺Transformer和文本Transformer的初始化使用了CLIP(ViT-B/16)預訓練模型。

        3.4 實驗結果分析

        3.4.1 定量分析

        表1 和表2 給出了本文算法和現(xiàn)有的文本到圖像行人重識別算法的在CUHK-PEDES 數(shù)據(jù)集和ICFG-PEDES 數(shù)據(jù)集上的實驗結果。表中列出的所有算法結果都沒有包括使用重排序在內的后處理方法。所有的僅使用全局特征匹配的方法在表格的類型列中標注為“G”,使用了局部特征匹配的方法則標注為“L”。此外,表中特征維度標注了算法所使用的特征維度大小。

        表1 本文算法與其他文本到圖像行人重識別算法在CUHK-PEDES數(shù)據(jù)集上的實驗結果對比Table 1 Comparison with state-of-the-art text-to-image Re-ID methods on CUHK-PEDES dataset

        表2 本文算法與其他文本到圖像行人重識別算法在ICFG-PEDES數(shù)據(jù)集上的實驗結果對比Table 2 Comparison with state-of-the-art text-to-image Re-ID methods on ICFG-PEDES dataset

        從表1 可以看出,文本到圖像行人重識別的關注重點在于使用局部特征匹配,并且取得了相對較好的性能,但是也可以看出局部特征匹配方法已經(jīng)處于瓶頸期。在CUHK-PEDES 數(shù)據(jù)集上,本文算法大幅超過了現(xiàn)有的文本到圖像行人重識別方法,特別是對于最重要的指標Rank-1 來說,本文算法相比現(xiàn)有最好的局部匹配方法和全局匹配方法分別提升了5.92%和7.09%。在ICFG-PEDES 數(shù)據(jù)集上,本文算法也取得了同樣的檢索性能提升。相比目前最好的局部特征匹配方法提升了1.21%。

        除了優(yōu)越的檢索性能,本文算法由于僅使用了全局特征匹配和較小的特征維度,相比現(xiàn)有的局部特征匹配方法,在訓練效率、檢索效率和離線特征存儲方面均有巨大優(yōu)勢。

        3.4.2 消融實驗

        為了驗證本文提出的溫度縮放跨模態(tài)投影匹配(TCMPM)損失函數(shù)的有效性,在CUHK-PEDES 和ICFG-PEDES 數(shù)據(jù)集上進行驗證TCMPM 有效性的消融實驗,對比完整的TCMPM、原始的CMPM、原始的CMPM + CMPC(cross-modal projection classification)、在原始的CMPM 中的softmax 中加入溫度參數(shù)、多模態(tài)自監(jiān)督學習中常使用的infoNCE 這5組損失函數(shù),并且加入了不使用損失函數(shù)的CLIP 預訓練模型做零樣本學習(無損失函數(shù))的對照組。

        表3 給出了在CUHK-PEDES 和ICFG-PEDES 數(shù)據(jù)集上進行消融實驗的結果??梢钥闯?,相比原始的CMPM 損失函數(shù),使用其他3 種加入溫度參數(shù)的損失函數(shù)可以顯著提升模型的跨模態(tài)特征匹配能力,從而大幅增強文本到圖像的檢索能力。為了更好地分析溫度參數(shù)的作用,圖3 給出了可學習的溫度參數(shù)隨著訓練輪數(shù)的變化曲線。可以看出,溫度參數(shù)τ從初始值0.07 開始的20 輪中快速增長并在20輪之后趨于穩(wěn)定。

        圖3 溫度參數(shù)τ隨訓練輪數(shù)變化圖Fig.3 The temperature τcurve with training epoch

        表3 不同損失函數(shù)的消融實驗結果對比Table 3 Comparison results of different loss ablation studies/%

        CLIP零樣本在CUHK-PEDES和ICFG-PEDES數(shù)據(jù)集上的文本到圖像檢索結果不理想,但是經(jīng)過使用和CLIP訓練時一樣的infoNCE 損失函數(shù)進行微調之后的效果已經(jīng)超過了現(xiàn)有的所有文本到圖像行人重識別方法,說明了文本到圖像行人重識別這種細粒度的檢索任務也可以有效地從CLIP這種通用圖像文本跨模態(tài)大模型中遷移圖像文本跨模態(tài)對齊知識。

        為了驗證本文算法在不同特征提取能力的視覺骨干網(wǎng)絡中的效果,在CUHK-PEDES 數(shù)據(jù)集上進行CLIP ResNet50,CLIP ResNet101,CLIP ViT-B/32,CLIP ViT-B/16這4個特征提取能力越來越強的視覺骨干網(wǎng)絡的消融實驗,結果如表4 所示??梢钥闯觯谑褂猛忍卣魈崛∧芰Φ囊曈X骨干網(wǎng)絡時,本文算法已經(jīng)超過Han 等人(2021)方法,并且在方法簡潔性上更是遠超目前所有文本到圖像行人重識別方法。隨著視覺骨干網(wǎng)絡的特征提取能力增強,本文算法在文本到圖像檢索的Rank-1,Rank-5,Rank-10值都有提升。

        表4 不同視覺骨干網(wǎng)絡消融實驗結果對比Table 4 Comparison results of ablation studies/%

        3.4.3 定性分析

        圖4展示了本文算法在CUHK-PEDES測試集上文本到圖像檢索的可視化結果。圖4 左邊為輸入的文本描述,右邊為根據(jù)相似度從高到低排序檢索出的行人圖像。黑色邊框為真實標簽圖像,綠色邊框為檢索出的正確匹配的行人圖像,紅色邊框為檢索出的不正確匹配的行人圖像。從圖4 第1 行的結果可以看出,本文算法成功檢索出了滿足“black and white striped top”、“khaki pants”和“black backpack”條件的行人圖像,且在檢索出所有的正確匹配行人后,檢索出了滿足這些條件的其他行人的圖像。第2 行的檢索結果也滿足了其文本查詢的“tan coat with a hood”、“black backpack”、“jeans”和“white sneakers”條件,成功檢索出了正確匹配的行人圖像。證明了本文算法可以利用文本描述中的細粒度信息檢索出符合描述的目標行人圖像。第3、4 行是同一個行人圖像標注的不同的兩個文本描述的檢索結果。第3行是一個失敗檢索案例,從第3行的文本描述的屬性可以看出,描述都是很粗粒度的形容短語,文本描述過于模糊。第3 行的檢索結果雖然都符合文本描述,但是文本描述不具備獨特性,無法準確地匹配目標行人圖像。而第4 行的文本描述標注相比第3行有著更細粒度的屬性信息,使用第4行的文本描述進行檢索,能夠檢索出正確匹配的行人圖像。從圖4 可以得到兩個結論:1)本文算法可以區(qū)分給定文本查詢中的細粒度屬性信息并匹配到具體的圖像信息。2)當文本描述信息比較模糊時,本文方法仍然可以給出符合文本描述的結果。

        圖4 本文提出的文本到圖像行人重識別算法檢索結果可視化圖Fig.4 Visualization of text-to-image person re-identification results by our method

        4 結 論

        本文提出一種新的文本到圖像行人重識別方法,從通用圖像文本對數(shù)據(jù)集大規(guī)模預訓練的CLIP模型中遷移通用跨模態(tài)特征對齊能力,彌補了文本到圖像行人重識別可使用數(shù)據(jù)不足的問題。同時本文融合了CMPM 和infoNCE 損失函數(shù)的優(yōu)點,提出了TCMPM 損失函數(shù)來更好地對齊圖像文本特征到共有特征空間。本文算法在兩個公開的平均數(shù)據(jù)集上與現(xiàn)有的先進方法LGUR(learning granularityunified representations)相比都有明顯提升,在CUHK-PEDES 和ICFG-PEDES 數(shù)據(jù)集上的Rank-1值分別提升了5.92%和1.21%。此外,最近的文本到圖像行人重識別方法都采取了手動分割多個局部圖像和文本特征進行多層次匹配的做法,這種做法雖然會帶來一定的性能提升,但也會破壞模態(tài)內信息的完整性,并且多層次匹配會降低檢索速度。本文算法采用全局特征匹配,僅采用強大的特征提取骨干網(wǎng)絡和設計的TCMPM 損失函數(shù),就超越了近年的局部匹配方法,成為新的先進的文本到圖像行人重識別方法。在兩個數(shù)據(jù)集上文本方法優(yōu)秀的檢索準確率充分證明了本文方法的有效性。值得注意的是,本文工作采取Transformer作為骨干網(wǎng)絡,因此無法采用近期行人重識別領域流行的基于CNN 的局部特征匹配策略,未考慮在細粒度的跨模態(tài)特征上進行對齊。因此,設計一種細粒度的基于Transformer 局部特征匹配文本到圖像行人重識別方法,使模型可以更精準地對齊圖像和文本模態(tài)之間的細粒度特征,將是文本到圖像行人重識別的主要研究方向之一。

        猜你喜歡
        行人檢索模態(tài)
        毒舌出沒,行人避讓
        意林(2021年5期)2021-04-18 12:21:17
        2019年第4-6期便捷檢索目錄
        路不為尋找者而設
        揚子江(2019年1期)2019-03-08 02:52:34
        我是行人
        專利檢索中“語義”的表現(xiàn)
        專利代理(2016年1期)2016-05-17 06:14:36
        國內多模態(tài)教學研究回顧與展望
        基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識別
        由單個模態(tài)構造對稱簡支梁的抗彎剛度
        計算物理(2014年2期)2014-03-11 17:01:39
        行人流綜述
        國際標準檢索
        亚洲国产无套无码av电影| 亚洲一区亚洲二区视频在线| 国产精品国产三级国产aⅴ下载| 熟女精品视频一区二区三区| 可以免费在线看黄的网站| 亚洲天堂免费一二三四区| 亚洲97成人在线视频| 国产啪亚洲国产精品无码| 亚洲日韩乱码中文无码蜜桃臀| 开心激情站开心激情网六月婷婷 | 免费黄网站久久成人精品| 国产一区二区三区在线爱咪咪 | 欧美国产亚洲日韩在线二区| 亚洲中文字幕无码久久| 中日韩欧美成人免费播放 | 高级会所技师自拍视频在线| 全球中文成人在线| 91产精品无码无套在线| 白色月光免费观看完整版| 99riav国产精品视频| 婷婷成人基地| 国产亚洲欧美另类第一页| 日本免费精品一区二区| 亚洲国产精品无码专区| 亚洲中文字幕每日更新| 国产精品女人一区二区三区 | 国产精品自在线免费| 国产精品一级黄色大片| а天堂中文地址在线| 洗澡被公强奷30分钟视频| 亚洲国产高清美女在线观看| 大屁股流白浆一区二区三区| 中文字幕乱码亚洲精品一区| 亚洲乱码日产精品bd| 国产精品伦人视频免费看| 中文字幕亚洲一二三区| 人人妻人人狠人人爽天天综合网| 亚洲美女影院| 国产西西裸体一级黄色大片| 成人自拍一二在线观看| 国产探花在线精品一区二区|