亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于雙路卷積局部對(duì)齊的文本行人跨模態(tài)檢索

        2022-05-25 15:46:50莫承見
        電視技術(shù) 2022年4期
        關(guān)鍵詞:全局行人檢索

        莫承見

        (昆明理工大學(xué) 信息工程與自動(dòng)化學(xué)院,云南 昆明 650500)

        0 引 言

        文本行人跨模態(tài)檢索是圖像文本檢索領(lǐng)域的一個(gè)子任務(wù),旨在根據(jù)給定的文本描述檢索目標(biāo)行人圖像。人們提出了一系列相關(guān)方法來減少圖像和文本模態(tài)的差異,但其中關(guān)于文本特征判別性不足的研究工作較少,大部分工作僅是采用簡(jiǎn)單的詞嵌入方法進(jìn)行文本特征提取,其工作重點(diǎn)在圖像文本匹配階段。對(duì)現(xiàn)有的一些工作方法進(jìn)行分類,圖像文本匹配大致分為全局匹配方法和局部匹配方法兩種。全局匹配方法主要側(cè)重于全局視覺和文本表示學(xué)習(xí),無論模態(tài)如何,獲得統(tǒng)一的特征空間[1-4]。然而,圖像包含許多獨(dú)特的局部細(xì)節(jié),很難通過全局表示提取來探索。此外,圖像中還有一些不相關(guān)的區(qū)域,給全局信息帶來了噪聲。為了進(jìn)一步挖掘具有判別性和綜合性的信息,研究者提出了一些局部匹配方法,通過局部對(duì)齊來匹配人物圖像和文本描述[5-9]。

        針對(duì)文本特征判別性不足的問題,本文采用BERT模型和Text-CNN網(wǎng)絡(luò)提升文本特征的判別性??紤]到局部特征對(duì)圖文檢索任務(wù)的影響,本文結(jié)合全局特征匹配和局部特征匹配來提升檢索性能。具體做法是,利用BERT模型對(duì)文本信息進(jìn)行詞嵌入,然后利用Text-CNN網(wǎng)絡(luò)對(duì)嵌入特征進(jìn)行進(jìn)一步的特征提取。進(jìn)行局部特征匹配時(shí),本文通過將圖像進(jìn)行水平分割然后文本自適應(yīng)進(jìn)行對(duì)齊的方法進(jìn)行局部特征的匹配。添加了局部特征的對(duì)齊后,本文在CUHK-PEDES數(shù)據(jù)集上進(jìn)行了大量實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明了本文的方法優(yōu)越性。

        1 相關(guān)工作

        文本行人跨模態(tài)檢索是通過對(duì)行人的文本描述到圖像庫(kù)中檢索對(duì)應(yīng)身份的行人圖像。LI等人[1]首次提出了跨模態(tài)行人重識(shí)別網(wǎng)絡(luò)GNA-RNN,其通過網(wǎng)絡(luò)學(xué)習(xí)兩個(gè)模態(tài)的全局特征,然后計(jì)算兩個(gè)模態(tài)全局特征的親和度達(dá)到檢索的目的。親和度高代表文本和圖像是匹配的,相反,親和度低代表匹配錯(cuò)誤。為了利用身份標(biāo)簽,LI等人[2]提出了一個(gè)兩個(gè)階段的CNN-LSTM網(wǎng)絡(luò)進(jìn)行文本圖像匹配,性能較GNARNN有所提升。ZHENG等人[3]提出了一種雙路模型用于學(xué)習(xí)文本和圖像模態(tài)的特征嵌入,其通過兩個(gè)支路分別獨(dú)立提取文本和圖像的全局特征,最后利用實(shí)例損失來約束模態(tài)間全局特征的信息對(duì)齊。ZHANG等人[4]認(rèn)為全局匹配效果不好主要是因?yàn)榧s束函數(shù)的約束能力不行,因此其在損失函數(shù)上進(jìn)行了創(chuàng)新,提出了CMPM和CMPC損失。這兩個(gè)損失函數(shù)的應(yīng)用,使得以往模型的性能有了很大的提升[5-6]。NIU等人[7]明確定義了圖像和文本三種尺度類型的對(duì)齊:全局—全局,局部—局部以及全局—局部。先分別學(xué)習(xí)各種類型的對(duì)齊,然后將三種類型的對(duì)齊結(jié)果融合在一起,作為最終的匹配結(jié)果。

        2 提出的方法

        本文采用BERT模型和Text-CNN網(wǎng)絡(luò)提取文本特征,并結(jié)合局部特征匹配和全局特征匹配以實(shí)現(xiàn)性能的提高[8-9]。具體地,本文采用雙路卷積局部對(duì)齊網(wǎng)絡(luò)結(jié)構(gòu)來提取視覺和文本局部表示,使用通用PCB策略[10]提取圖像局部表示,其中人物圖像被水平分割成幾個(gè)條紋。在文本表示學(xué)習(xí)路徑中,詞嵌入由具有預(yù)訓(xùn)練和固定參數(shù)的BERT模型學(xué)習(xí),并通過Text-CNN網(wǎng)絡(luò)對(duì)嵌入特征進(jìn)行進(jìn)一步的特征提取。Text-CNN網(wǎng)絡(luò)由多分支殘差網(wǎng)絡(luò)組成,在每個(gè)分支中,學(xué)習(xí)文本表示以自適應(yīng)匹配相應(yīng)的圖像局部表示,從而提取對(duì)齊的文本局部表示。此外,本文通過結(jié)合局部特征匹配和全局特征匹配,進(jìn)而縮小圖像和文本之間的特征差距,使得實(shí)驗(yàn)效果能進(jìn)一步提升。

        2.1 網(wǎng)絡(luò)結(jié)構(gòu)

        本章首先介紹了雙路卷積局部對(duì)齊網(wǎng)絡(luò)結(jié)構(gòu),包括圖像CNN分支和文本CNN分支,然后結(jié)合局部特征匹配與全局特征匹配用于消除模態(tài)差異。本文所提出方法的網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。

        2.2 學(xué)習(xí)特征表示

        2.2.1 學(xué)習(xí)圖像表示

        如圖1所示,該網(wǎng)絡(luò)結(jié)構(gòu)包含兩個(gè)CNN分支,旨在分別從輸入的人物圖像和描述中學(xué)習(xí)圖像和文本特征表示。圖像CNN分支采用Resnet50作為主干提取圖像特征,其主要由4個(gè)殘差塊組成。對(duì)于每個(gè)圖像I,本文定義其第3個(gè)殘差塊輸出為圖像低級(jí)特征f1I,第4個(gè)殘差塊的輸出作為圖像高級(jí)特征fhI。然后通過以下方式獲得圖像全局特征表示:

        式中:GMP(·)表示全局最大池化,作為挖掘局部顯著信息的過濾器;vgI表示圖像全局特征表示。在這里,本文采用PCB作為獲取圖像局部區(qū)域的策略,即:圖像高級(jí)特征fhI被分割成K個(gè)水平條紋,它們分別是,對(duì)于每個(gè)條紋,本文采用全局最大池化來提取圖像特征。因此,得到的圖像特征集包含局部特征表示和全局特征表示。在測(cè)試階段,僅采用全局特征表示來衡量相似度。

        2.2.2 學(xué)習(xí)文本表示

        文本CNN分支采用了高性能語(yǔ)言表示模型BERT提取詞嵌入特征,其可以通過Transformer的雙向訓(xùn)練來學(xué)習(xí)詞之間的上下文關(guān)系。具體來說,將每個(gè)文本描述T分解成一個(gè)單詞列表,并在每個(gè)句子的開頭和結(jié)尾插入[CLS]和[SEP],然后這個(gè)列表被預(yù)先訓(xùn)練的符號(hào)器嵌入到符號(hào)中。為了保證文本長(zhǎng)度的一致性,當(dāng)文本長(zhǎng)于L時(shí),本文只選擇前L個(gè)符號(hào),當(dāng)文本長(zhǎng)度短于L時(shí),在文本末尾應(yīng)用零填充。之后,將每個(gè)符號(hào)化的文本描述輸入到預(yù)訓(xùn)練好且參數(shù)固定的BERT模型,以提取詞嵌入特征。本文只將BERT作為詞嵌入層,后續(xù)的Text-CNN結(jié)構(gòu)能夠進(jìn)一步處理詞嵌入特征。為了減少訓(xùn)練參數(shù)并加速模型的收斂,凍結(jié)BERT模型參數(shù),只更新Text-CNN結(jié)構(gòu)的參數(shù)。

        為了滿足Text-CNN卷積層的輸入要求,將詞嵌入的維度從L×D轉(zhuǎn)換成1×L×D,其中1、L和D分別表示卷積輸入的高度、寬度及通道維度。本文采用多分支Text-CNN來獲取不同級(jí)別的文本特征,Text-CNN的具體結(jié)構(gòu)如圖2所示。

        圖2 Text-CNN結(jié)構(gòu)圖

        在文本CNN分支中,為了將詞嵌入映射到與對(duì)應(yīng)的圖像低級(jí)特征f1I同一通道維度,將第一層卷積層的卷積核大小設(shè)為1×1,通過1×1卷積操作將詞嵌入的通道維度映射到與圖像低級(jí)特征f1I相同的通道維度,可以得到對(duì)應(yīng)的文本低級(jí)別特征f1T,通過Text-CNN網(wǎng)絡(luò)進(jìn)行特征提取后可以獲得文本局部特征表示和文本高級(jí)特征為fhT。隨后通過全局最大池化處理,可以獲得文本全局特征表示vgT,操作如下:

        為了對(duì)應(yīng)圖像的K個(gè)局部區(qū)域,多分支Text-CNN網(wǎng)絡(luò)包含K個(gè)Text-CNN。對(duì)于每個(gè)分支,包含3個(gè)文本殘差瓶頸,旨在自適應(yīng)地學(xué)習(xí)可以匹配視覺局部表示的文本表示。同時(shí),為了保持文本信息未壓縮,瓶頸中所有卷積層的步幅設(shè)置為1×1。對(duì)于每個(gè)分支的第一個(gè)瓶頸,將文本特征圖的通道維度修改為與圖像低級(jí)特征f1I的通道維度一致,然后在接下來的瓶頸中保持通道維度不變。在Text-CNN之后,獲得了多個(gè)局部的文本特征。與圖像CNN分支類似,本文采用全局最大池化層來提取文本局部表示。因此,得到文本特征集合,其包含了多個(gè)文本局部特征和一個(gè)文本全局特征。

        2.3 目標(biāo)函數(shù)

        使用CMPM損失作為匹配損失,它將交叉模態(tài)投影合并到KL散度中以關(guān)聯(lián)不同模態(tài)的表示。給定一批次中的n對(duì)圖像文本對(duì),對(duì)于每個(gè)圖像特征vi,對(duì)應(yīng)的圖像-文本特征對(duì)構(gòu)建為,其中yi,j=1代表著vi和tj屬于同一個(gè)身份類別,而yi,j=0則代表兩者不匹配。vi匹配到tj的概率定義為:

        式中:pi,j代表的是一個(gè)批次里面圖像文本對(duì)(vi,tj)在所有的對(duì)中所占的標(biāo)量映射比例。因此,圖像特征與文本特征越相似,從(vi,tj)到{(vi,tj)}n j=1的標(biāo)量投影就越大。

        考慮到在每一批次中,圖像樣本vi可能有多個(gè)匹配的文本樣本,本文將(vi,tj)的真實(shí)匹配概率歸一化為:

        將vi與每個(gè)批次里面的正確匹配文本相關(guān)聯(lián)的CMPM損失定義為:

        式中:ε是一個(gè)防除零的小數(shù)字,在本文中設(shè)置為1×10-8。

        按照相同的過程來執(zhí)行相反的匹配(即文本到圖像),其匹配損失為,計(jì)算方式類似于式(6)。則總的目標(biāo)函數(shù)定義為:

        3 實(shí) 驗(yàn)

        3.1 數(shù)據(jù)集

        CUHK-PEDES是現(xiàn)有主要的應(yīng)用于文本行人跨模態(tài)檢索的數(shù)據(jù)集。該數(shù)據(jù)集包含40 206張行人的圖像和80 412條文本描述,一共有13 003個(gè)行人身份。每張行人圖像都有對(duì)應(yīng)兩句文本描述。每個(gè)行人平均約有3.1張圖片,每個(gè)文本描述包含超過23個(gè)單詞。數(shù)據(jù)集包含9 408個(gè)不同的單詞。本實(shí)驗(yàn)采用LI等[1]提出的數(shù)據(jù)分割方法,數(shù)據(jù)分為訓(xùn)練集、驗(yàn)證集及測(cè)試集。其中,訓(xùn)練集包含34 054 張圖像,11 003個(gè)身份和68 126條文本描述;驗(yàn)證集包含3 078張圖像,1 000個(gè)身份和6 158條文本描述;測(cè)試集包含3 074張圖像,1 000個(gè)身份和 6 156條文本描述。

        在圖像CNN分支中,本文采用在ImageNet數(shù)據(jù)集上預(yù)訓(xùn)練好的Resnet50作為提取視覺特征圖的主干。在文本CNN分支中,本文采用的是在包含Toronto Book Corpus和維基百科在內(nèi)的大型語(yǔ)料庫(kù)上預(yù)訓(xùn)練的BERT-Base-Uncase語(yǔ)言模型提取詞嵌入。所有輸入圖像都調(diào)整為384×128,文本長(zhǎng)度統(tǒng)一為L(zhǎng)=60。參考文獻(xiàn)[10],本文將圖像局部區(qū)域數(shù)目設(shè)置為K=60。每批次包含64對(duì)圖像文本對(duì)。

        在訓(xùn)練階段,使用Adam作為優(yōu)化器來優(yōu)化模型,其中權(quán)重衰減設(shè)置為4×10-5。該模型總共訓(xùn)練了80代,基礎(chǔ)學(xué)習(xí)率設(shè)置為lr=0.003,并在訓(xùn)練 50代后衰減為lr=0.000 3。此外,在前10代中通過熱身技巧初始化學(xué)習(xí)率。數(shù)據(jù)處理采用隨機(jī)水平翻轉(zhuǎn)以增加數(shù)據(jù)的技巧來進(jìn)行數(shù)據(jù)增強(qiáng),其中每個(gè)圖像有50%的機(jī)會(huì)隨機(jī)翻轉(zhuǎn)。

        3.2 評(píng)估方案

        在測(cè)試階段,采用余弦距離作為相似度的計(jì)算函數(shù),其在跨模態(tài)檢索領(lǐng)域被廣泛采用,是通過網(wǎng)絡(luò)提取得到的圖像特征或者文本特征,查詢文本(或圖像)和圖像(或文本)之間的距離,使用余弦相似度計(jì)算:

        式中:fq代表查詢特征,fg代表被查詢特征。

        然后對(duì)這些距離進(jìn)行排序,使用top-k(k=1,5,10)來評(píng)估模型性能。具體地,就是給定一個(gè)查詢文本描述,所有的目標(biāo)圖像集根據(jù)它們與文本的相似度大小來進(jìn)行排序。成功的查詢意味著匹配的行人圖像存在于top-k圖像之中。

        3.3 與其他方法的比較

        表1展示了本文方法與現(xiàn)有的文本行人跨模態(tài)檢索方法的對(duì)比結(jié)果。將這些方法分為全局匹配和局部匹配兩種類型,全局匹配方法(類型列標(biāo) 記 為“G”)由GNA-RNN[1]、CMPM-CMPC[4]和MCCL[11]組成,局部匹配方法(類型列標(biāo)記為“L”)包 含GLA[6]、MIA[7]、PMA[2]、CMKA[12]、RANAG[13]以及NAFS[9]。從表1可以發(fā)現(xiàn),基于局部對(duì)齊的方法近年來已經(jīng)成為熱門話題并且相對(duì)取得了較好的性能,這可以證明局部細(xì)粒度對(duì)齊對(duì)于縮小模態(tài)間差距的重要性。

        表1 在CUHK-PEDES數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)結(jié)果

        3.4 消融實(shí)驗(yàn)

        本節(jié)分別針對(duì)Text-CNN網(wǎng)絡(luò)和局部特征對(duì)所提方法在數(shù)據(jù)集CUHK-PEDES上的性能影響進(jìn)行消融實(shí)驗(yàn)?;€的具體設(shè)置為:圖像支路使用Resnet50進(jìn)行全局圖像特征提取,文本支路使用BERT模型進(jìn)行全局文本特征提取,得到的全局圖像特征和全局文本特征在CMPM匹配損失的約束下進(jìn)行網(wǎng)絡(luò)訓(xùn)練,并獲取相應(yīng)的匹配結(jié)果。

        表2展示了Text-CNN網(wǎng)絡(luò)和局部特征對(duì)于所提方法的影響和貢獻(xiàn)。從表2可以看出,Text-CNN網(wǎng)絡(luò)和局部特征對(duì)模型性能都有一定的提升作用。利用文本檢索圖像時(shí),基線加上Text-CNN后模型的rank-1較基線提升了7.73%,并且rank-5和rank-10都有相應(yīng)的提升?;€加上局部特征對(duì)齊后的rank-1較基線提升了3.13%。當(dāng)把這兩部分結(jié)合起來,模型的性能相較于基線性能有了比較明顯的提升,其rank-1的準(zhǔn)確率能夠達(dá)到62.41%。此外,在圖像檢索文本時(shí),模型性能也有所提升。這證明了Text-CNN網(wǎng)絡(luò)和局部特征對(duì)于文本行人跨模態(tài)檢索任務(wù)是有效的。

        表2 Text-CNN和局部特征的影響和貢獻(xiàn)

        4 結(jié) 語(yǔ)

        本文針對(duì)文本行人跨模態(tài)檢索中文本特征判別行不足的問題,提出了采用Text-CNN網(wǎng)絡(luò)對(duì)文本特征進(jìn)行進(jìn)一步提取的算法。該方法詳通過結(jié)合BERT模型和Text-CNN網(wǎng)絡(luò),能夠有效地提升文本特征的判別性。此外,本文探討了局部特征對(duì)于文本行人跨模態(tài)檢索任務(wù)的有效性,通過添加局部特征對(duì)齊,同時(shí)結(jié)合全局特征的對(duì)齊,本文的性能達(dá)到了與主流方法性能相當(dāng)?shù)乃?。本文方法在CUHK-PEDES數(shù)據(jù)集上進(jìn)行了大量的實(shí)驗(yàn),通過對(duì)比實(shí)驗(yàn)驗(yàn)證了本文方法的有效性和優(yōu)越性,并通過消融實(shí)驗(yàn)分別驗(yàn)證了Text-CNN網(wǎng)絡(luò)和局部特征對(duì)齊對(duì)于文本行人跨模態(tài)檢索任務(wù)的影響和貢獻(xiàn)。然而,本文僅考慮了局部特征和全局特征的結(jié)合,并沒有全面考慮多尺度特征對(duì)于任務(wù)的影響,今后的工作將考慮多尺度特征的結(jié)合,優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu),進(jìn)一步提升匹配性能。

        猜你喜歡
        全局行人檢索
        Cahn-Hilliard-Brinkman系統(tǒng)的全局吸引子
        量子Navier-Stokes方程弱解的全局存在性
        毒舌出沒,行人避讓
        意林(2021年5期)2021-04-18 12:21:17
        2019年第4-6期便捷檢索目錄
        路不為尋找者而設(shè)
        落子山東,意在全局
        金橋(2018年4期)2018-09-26 02:24:54
        我是行人
        專利檢索中“語(yǔ)義”的表現(xiàn)
        專利代理(2016年1期)2016-05-17 06:14:36
        新思路:牽一發(fā)動(dòng)全局
        行人流綜述
        国产一精品一av一免费爽爽| 久久精品国产亚洲av蜜臀久久 | 人妻中出中文字幕在线| 日本高级黄色一区二区三区| 日韩精品 在线 国产 丝袜| 国产又色又爽又高潮免费视频麻豆| 国产又色又爽无遮挡免费 | 日本视频精品一区二区| 丝袜美腿在线观看视频| 日韩少妇人妻中文字幕| 亚洲精品无码永久在线观看你懂的| 亚洲粉嫩高潮的18p| 97久久久久国产精品嫩草影院| 国产精品高清一区二区三区人妖 | 日本中文字幕有码在线播放| 成年美女黄网站色大免费视频| 久久人妻少妇嫩草av无码专区| 最新亚洲人成无码网站| 国产伪娘人妖在线观看| av新型国产在线资源| 精品国产一区二区三区2021| 男人添女人下部高潮全视频| 二区久久国产乱子伦免费精品| 色视频日本一区二区三区| 亚洲国产精品久久又爽av| 久久www免费人成精品| 色综合无码av网站| 久青青草视频手机在线免费观看| 久久伊人精品色婷婷国产| 夹得好湿真拔不出来了动态图| 最近最好的中文字幕2019免费| 色噜噜狠狠色综合欧洲| 国产av一区二区日夜精品剧情| 国产情侣一区二区| 欧美怡红院免费全部视频| 色狠狠一区二区三区香蕉蜜桃| 人妻系列少妇极品熟妇| 情爱偷拍视频一区二区 | 大地资源在线播放观看mv| av无码电影一区二区三区| 国产日产韩国级片网站|