亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        雙分支多粒度局部對(duì)齊的實(shí)例級(jí)草圖圖像檢索

        2023-09-28 02:22:04韓雪昆苗奪謙張紅云張齊賢
        模式識(shí)別與人工智能 2023年8期
        關(guān)鍵詞:模態(tài)特征

        韓雪昆 苗奪謙 張紅云 張齊賢

        文本-圖像檢索(Text Based Image Retrieval, TBIR)是目前常用的檢索方法之一.但是,文本包含的信息相對(duì)有限,因此學(xué)者們開始探究圖像-圖像檢索方式.

        相比文本,圖像能夠包含更多的信息.隨著觸屏設(shè)備的發(fā)展,學(xué)者們逐漸關(guān)注草圖相關(guān)的研究,包括草圖識(shí)別[1-3]、草圖重構(gòu)[4-6]及草圖-圖像檢索(Sketch-Based Image Retrieval, SBIR)[7].草圖攜帶信息的能力介于文本和真實(shí)圖像之間.相比真實(shí)圖像,草圖更容易獲取,也更能反映用戶的想法.對(duì)于搜索引擎或者網(wǎng)絡(luò)購(gòu)物應(yīng)用來(lái)說(shuō),通過(guò)草圖搜索用戶需要的內(nèi)容是一個(gè)更好的選擇.

        草圖-圖像檢索分為粗粒度的類別級(jí)草圖-圖像檢索(Category Level SBIR, CL-SBIR)和實(shí)例級(jí)草圖-圖像檢索(Instance Level SBIR, IL-SBIR),實(shí)例級(jí)草圖-圖像檢索又稱為細(xì)粒度草圖-圖像檢索(Fine Grained SBIR, FG-SBIR).

        類別級(jí)草圖-圖像檢索只需找出和輸入草圖屬于同類的圖像,實(shí)例級(jí)草圖-圖像檢索需要找出和輸入草圖姿態(tài)、細(xì)節(jié)完全對(duì)應(yīng)的圖像.相比傳統(tǒng)的基于內(nèi)容的圖像檢索,實(shí)例級(jí)草圖-圖像檢索主要面臨如下問(wèn)題.1)目前常用數(shù)據(jù)集包含數(shù)據(jù)量較少.2)草圖本身具有稀疏性和高度抽象性,傳統(tǒng)圖像處理方法很難直接用于草圖.3)草圖和真實(shí)圖像之間的模態(tài)差異過(guò)大,草圖不具備真實(shí)圖像包含的紋理、顏色等信息,導(dǎo)致檢索時(shí)判別信息不足.同時(shí),真實(shí)圖像中背景信息的干擾使該任務(wù)更加困難.

        早期的實(shí)例級(jí)草圖-圖像檢索采用手工提取特征,并通過(guò)RankSVM(Ranking Support Vector Ma-chine)進(jìn)行檢索.Yu等[8]提取真實(shí)圖像的邊緣圖,利用Image-Net預(yù)訓(xùn)練的Sketch-a-Net作為特征提取網(wǎng)絡(luò),分別提取草圖特征和真實(shí)圖像特征.Song等[9]在Deep Spatial-Semantic Attention中將注意力機(jī)制引入草圖圖像檢索,利用直連方法結(jié)合深層特征和淺層特征,從而避免卷積過(guò)程中細(xì)節(jié)信息的丟失,并引入HOLEF(Higher-Order Learnable Energy Function),解決空間不對(duì)齊問(wèn)題.Lin等[10]認(rèn)為利用邊緣圖代替真實(shí)圖像更耗時(shí),并且邊緣圖的質(zhì)量在很大程度上影響檢索精度,因此提出TC-Net(Triplet Classification Network),直接提取草圖特征和真實(shí)圖像特征,在使用三元組損失的同時(shí),還引入多種分類損失,提高檢索精度.Xu等[11]認(rèn)為局部特征對(duì)于實(shí)例級(jí)草圖-圖像檢索非常重要,提出LA-Net(Local Aligned Network),計(jì)算不同模態(tài)局部特征間的距離后加和,從而得到草圖和真實(shí)圖像的距離.同時(shí),Xu等[11]又提出DLA-Net(Dynamic LA-Net),采用動(dòng)態(tài)局部對(duì)齊方法解決局部特征不對(duì)齊問(wèn)題.此后,Sun等[12]提出DLI-Net(Dual Local Interaction Network),在DLA-Net的基礎(chǔ)上加入自交互模塊,去除空白區(qū)域,加快檢索速度.Ling等[13]提出MLRM(Multi-level Region Matching),首先通過(guò)DRE(Discrimina-tive Region Extraction Module)從不同層次和不同區(qū)域提取特征,然后采用RLA(Region and Level Attention Module)學(xué)習(xí)注意力權(quán)重,探索不同區(qū)域和不同層次的貢獻(xiàn).Bhunia等[14]提出Noise-Tolerant FG-SBIR,通過(guò)強(qiáng)化學(xué)習(xí)去除噪聲筆畫,在輸入草圖質(zhì)量較差的情況下進(jìn)行準(zhǔn)確檢索.

        由于草圖-圖像檢索數(shù)據(jù)集稀缺,上述方法都是采用Image-Net預(yù)訓(xùn)練的網(wǎng)絡(luò)作為骨干網(wǎng)絡(luò).為了擺脫預(yù)訓(xùn)練的束縛,還有一些方法[15-17]利用諸如草圖復(fù)原、拼圖等任務(wù),使模型獲得提取草圖特征和真實(shí)圖像特征的能力,或是聯(lián)合訓(xùn)練圖像-草圖生成模型和檢索模型,從而解決數(shù)據(jù)稀缺的問(wèn)題.

        上述方法在提取草圖特征和真實(shí)圖像特征之后,大多利用全局特征計(jì)算草圖和圖像間的相似度,但對(duì)于實(shí)例級(jí)草圖-圖像檢索而言,局部信息更重要.DLA-Net提取局部特征并考慮特征不對(duì)齊問(wèn)題,然而草圖和真實(shí)圖像之間的不對(duì)齊還包括局部特征大小不匹配,只考慮單一粒度的特征無(wú)法解決特征大小不匹配問(wèn)題.

        草圖-圖像檢索本質(zhì)上是一個(gè)跨模態(tài)檢索任務(wù).跨模態(tài)任務(wù)的主要問(wèn)題之一是如何減小不同模態(tài)間的域差異.Ye等[18-19]提出TONE(Two-Stream Convolutional Neural Network)和HCML(Hierarchical Cross-Modality Metric Learning),利用雙流特征提取器提取不同模態(tài)間共享特征,并提出雙向雙約束排序損失.Zhang等[20]采用生成對(duì)抗的方式,使提取到的共享特征更純粹.Lu等[21]認(rèn)為除了共享特征,特異特征同樣對(duì)跨模態(tài)檢索起到重要作用,在使用共享特征的同時(shí),通過(guò)建模模態(tài)內(nèi)和模態(tài)間的相似度并根據(jù)近鄰關(guān)系傳遞特異特征,在學(xué)習(xí)共享特征和特異特征時(shí),還加入對(duì)抗學(xué)習(xí)等方式,確保共享分支和特異分支提取相應(yīng)的特征,從而提高檢索精度.

        現(xiàn)有的草圖-圖像檢索工作大多通過(guò)共享參數(shù)或不共享參數(shù)的兩個(gè)網(wǎng)絡(luò)提取草圖特征和圖像特征,利用三元組損失拉近同一物體特征距離,并使不同物體特征距離增大,找出和草圖距離最近的圖像作為檢索結(jié)果.

        然而,草圖和圖像之間的模態(tài)差異過(guò)大,導(dǎo)致同一物體不同模態(tài)特征之間的距離大于不同物體特征之間的距離,進(jìn)而導(dǎo)致檢索錯(cuò)誤.

        基于上述分析.本文提出雙分支多粒度局部對(duì)齊網(wǎng)絡(luò)(Two Stream Multi-granularity Local Alignment Network, TSMLA),著重解決草圖和圖像模態(tài)差異過(guò)大的問(wèn)題以及空間不對(duì)齊問(wèn)題.采用雙分支特征提取器(Two Stream Feature Extractor, TSFE)提取草圖和圖像的共享特征,解決草圖和圖像模態(tài)差異過(guò)大的問(wèn)題,并且同時(shí)利用共享特征和特異特征約束模型訓(xùn)練.采用多粒度局部對(duì)齊模塊(Multi-granu-larity Local Alignment Module, MLA),在不同粒度上進(jìn)行局部特征之間的對(duì)齊,大幅減輕位置不對(duì)齊和特征大小不一致問(wèn)題,進(jìn)一步提升網(wǎng)絡(luò)性能.在多個(gè)不同的數(shù)據(jù)集上的實(shí)驗(yàn)表明TSMLA的有效性.

        1 雙分支多粒度局部對(duì)齊網(wǎng)絡(luò)

        1.1 問(wèn)題描述

        對(duì)于FG-SBIR任務(wù),給定一個(gè)草圖,希望能夠找到和它的姿態(tài)及細(xì)節(jié)完全對(duì)應(yīng)的圖像.網(wǎng)絡(luò)以三元組(s,p+,p-)作為輸入,s表示草圖,p+表示和草圖對(duì)應(yīng)的圖像,p-表示和草圖不對(duì)應(yīng)的圖像.

        首先將(s,p+,p-)三元組送入特征提取器,獲得草圖特征、正樣本特征和負(fù)樣本特征.這些特征用于計(jì)算草圖和真實(shí)圖像之間的距離,最終計(jì)算三元組損失:

        L(s,p+,p-)=max(0,δ+d(s,p+)-d(s,p-)),

        其中,d(s,p+)表示草圖和正例的距離,d(s,p-)表示草圖和負(fù)例的距離,δ表示人為設(shè)置的常量,防止模型過(guò)快收斂.

        TSMLA的整體結(jié)構(gòu)如圖1所示,草圖和正負(fù)樣本被成對(duì)送入雙分支特征提取器中,提取模態(tài)共享特征和模態(tài)特異特征,利用共享特征和特異特征分別計(jì)算距離矩陣,對(duì)距離矩陣進(jìn)行多粒度局部對(duì)齊后計(jì)算三元組損失.

        圖1 TSMLA整體結(jié)構(gòu)

        1.2 雙分支特征提取器

        FG-SBIR需要提取草圖特征和真實(shí)圖像特征.在早期工作中,由于使用邊緣圖替換真實(shí)圖像,真實(shí)圖像和草圖間的模態(tài)差異較小,因此使用孿生網(wǎng)絡(luò)提取特征,效果較優(yōu).TC-Net及之后的工作直接將真實(shí)圖像作為輸入,模態(tài)差異較大,使用異構(gòu)網(wǎng)絡(luò)提取草圖特征和真實(shí)圖像特征,效果更優(yōu).

        然而,草圖和真實(shí)圖像之間模態(tài)差異過(guò)于明顯.真實(shí)圖像中包含的紋理、顏色、背景等信息,在草圖中都不存在.

        受其它跨模態(tài)檢索方法的啟發(fā),TSMLA在實(shí)例級(jí)草圖-圖像檢索任務(wù)中引入雙分支特征提取器(TSFE),提取共享特征和特異特征.模態(tài)共享特征是指草圖特征和真實(shí)圖像特征都包含的特征.而特異特征指某一模態(tài)特有的特征,如真實(shí)圖像中的紋理信息、顏色信息等.

        TSFE結(jié)構(gòu)圖如圖2所示.TSFE包含共享特征分支和特異特征分支.特征提取器以草圖S和真實(shí)圖像P作為輸入,共享分支和特異分支都利用Image-Net預(yù)訓(xùn)練的ResNet-50提取特征,并且兩個(gè)分支不共享參數(shù).

        圖2 TSFE結(jié)構(gòu)圖

        Xu等[11]認(rèn)為在特征提取的過(guò)程中,深層特征的語(yǔ)義表達(dá)能力更強(qiáng),但是會(huì)丟失細(xì)節(jié)信息,因此更適合圖像識(shí)別及分類任務(wù),而淺層信息語(yǔ)義表達(dá)能力較弱,但攜帶的細(xì)節(jié)信息更多,更適合實(shí)例級(jí)草圖-圖像檢索任務(wù).參考其做法,TSFE去掉ResNet最后的卷積塊,將ResNet50的前兩個(gè)卷積塊作為Conv1,將第3個(gè)卷積塊作為Conv2.特異分支的Conv1的輸出分別送入共享分支和特異分支的Conv2,從而得到共享特征和特異局部特征.從草圖和真實(shí)圖像中提取的特異特征如下所示:

        其中,S表示輸入草圖,P表示輸入的真實(shí)圖像.從草圖和真實(shí)圖像中提取的共享特征如下所示:

        得到的共享和特異的草圖和真實(shí)圖像局部特征使用多粒度局部對(duì)齊模塊進(jìn)行特征對(duì)齊.

        1.3 多粒度局部對(duì)齊模塊

        在獲得模態(tài)共享和模態(tài)特異的局部特征之后,分別使用這兩種局部特征計(jì)算草圖和真實(shí)圖像之間的距離.最簡(jiǎn)單的方法是認(rèn)為相同位置的局部特征是對(duì)齊的,利用每個(gè)成對(duì)的局部特征計(jì)算距離后求和,這要求草圖和真實(shí)圖像嚴(yán)格對(duì)齊.然而,草圖是抽象的,并且不同的人對(duì)于同個(gè)物體有不同的畫法,很難做到嚴(yán)格對(duì)齊.

        為了解決空間不對(duì)齊問(wèn)題,學(xué)者們大多采用動(dòng)態(tài)對(duì)齊策略,將局部特征和另一模態(tài)下所有的局部特征進(jìn)行對(duì)比,距離最小的兩個(gè)局部特征即為對(duì)齊的.

        但特征不對(duì)齊不僅僅是特征位置上的不對(duì)齊,還包括局部特征大小不匹配,如圖3中右下方陰影部分所示.此外,在草圖中一個(gè)局部特征代表的部分在真實(shí)圖像中可能同時(shí)屬于兩個(gè)局部特征.如圖3所示,草圖中左上方陰影部分表示的特征在真實(shí)圖像中屬于兩個(gè)不同部分.這些問(wèn)題導(dǎo)致特征對(duì)齊過(guò)程中的錯(cuò)誤匹配,最終導(dǎo)致檢索錯(cuò)誤.

        圖3 特征大小不匹配示例

        為了解決這些問(wèn)題,本文采用多粒度局部對(duì)齊模塊(MLA),在不同粒度上進(jìn)行局部特征對(duì)齊.此前大多數(shù)類似的方法或是獲取不同卷積層的輸出從而獲得不同大小的特征,或是對(duì)特征使用空間金字塔池化(Spatial Pyramid Pooling, SPP).然而FG-SBIR對(duì)于局部特征具有依賴性,使用不同卷積層特征無(wú)法利用局部特征.對(duì)特征進(jìn)行池化則會(huì)導(dǎo)致細(xì)節(jié)信息的丟失,性能下降.

        因此本文選擇對(duì)使用局部特征計(jì)算得到的距離矩陣進(jìn)行池化操作,即

        TSFE提取到的草圖和真實(shí)圖像特征大小為C×16×16,C為通道數(shù),特征矩陣中每個(gè)C×1×1的部分SP(x,y)表示一個(gè)圖像塊的特異特征,SH(x,y)表示一個(gè)圖像塊的共享特征,矩陣平鋪得到的C×256的向量可以看成256個(gè)圖像塊的特征.dj,k表示草圖第j塊的特征和真實(shí)圖像第k塊的特征計(jì)算得到的距離,j=1,2,…,256,對(duì)于j的每個(gè)取值,同樣k=1,2,…,256,即對(duì)每個(gè)草圖塊,計(jì)算它和真實(shí)圖像所有塊之間的距離,得到256×256的距離矩陣D.參考DLI-Net[12],這里選擇歐氏范數(shù)計(jì)算特征間的距離.

        為了在不同粒度上進(jìn)行特征對(duì)齊,將該矩陣變形為256×16×16的矩陣,對(duì)這256個(gè)16×16的距離矩陣分別進(jìn)行不同粒度的平均池化,在每個(gè)粒度下各得到256個(gè)距離矩陣,將256個(gè)距離矩陣組成的三維矩陣重新變?yōu)槎S矩陣后,就完成矩陣D列方向上的多粒度池化.對(duì)池化后的矩陣D在行方向上進(jìn)行同樣的操作.這樣,完成對(duì)距離矩陣D的多粒度池化操作,得到不同大小的距離矩陣.矩陣大小m越大,距離矩陣中每個(gè)距離度量的圖像塊越小,信息粒度越細(xì),感受野越小,進(jìn)行特征對(duì)齊時(shí)越會(huì)出現(xiàn)圖像局部大小不匹配的問(wèn)題;m越小,距離矩陣中每個(gè)距離度量的圖像塊越大,信息粒度越粗糙,但感受野越大,能夠在一定程度上解決圖像局部大小不匹配的問(wèn)題.

        對(duì)D進(jìn)行池化后得到大小為m×m的距離矩陣:

        Dm×m=Averagem(D).

        然后,利用池化得到距離矩陣進(jìn)行動(dòng)態(tài)局部對(duì)齊,對(duì)于Dm×m的每行Dj,使用這行中的最小值代替它,即認(rèn)為特征距離最小的兩個(gè)塊是對(duì)齊的,具體公式如下:

        Dj=min(dj,1,dj,2,…,dj,m),

        其中,dj,k為Dm×m第j行第k列的元素,表示草圖第j個(gè)塊的特征和真實(shí)圖像中第k個(gè)塊的特征的距離,m表示距離矩陣的大小.

        使用這個(gè)最小距離表示草圖的一個(gè)局部和真實(shí)圖像對(duì)應(yīng)部分的距離,得到大小為m×1的向量.在不同大小的距離矩陣上進(jìn)行動(dòng)態(tài)局部對(duì)齊,更準(zhǔn)確地尋找相互對(duì)應(yīng)的局部特征.

        利用每個(gè)草圖局部特征和其對(duì)應(yīng)部分的距離計(jì)算草圖和真實(shí)圖像的距離.參照DLI-Net[12],這里使用歐氏范數(shù)計(jì)算距離,即

        最后,將使用不同大小的距離矩陣計(jì)算得到的草圖和圖像之間的距離相加,用于結(jié)合不同粒度的信息.結(jié)合不同粒度的信息,既能有效利用細(xì)節(jié)信息,又能在一定程度上解決大小不匹配的問(wèn)題,即

        MLA的做法是符合人類的習(xí)慣的.在判斷一幅圖像和草圖是否對(duì)應(yīng)時(shí),首先整體上看二者是否相似,然后逐步對(duì)比二者的細(xì)節(jié)是否對(duì)應(yīng).

        1.4 損失函數(shù)

        通過(guò)MLA,可以得到使用共享特征計(jì)算得到的距離dsh和使用特異特征計(jì)算得到的距離dsp.特征提取器包含共享和特異兩個(gè)分支,提取共享特征和特異特征,共享特征不一定都是對(duì)檢索有幫助的,而特異特征也不都是沒用的,如果只使用共享特征計(jì)算三元組損失,會(huì)導(dǎo)致模態(tài)特異信息的丟失.在其它使用雙分支的跨模態(tài)檢索方法中,往往使用分類損失約束特異分支.然而,由于數(shù)據(jù)集的稀缺,每個(gè)物品只有一幅真實(shí)圖像和少數(shù)草圖,不適合使用分類損失.所以,本文同時(shí)使用共享特征和特異特征計(jì)算三元組損失:

        L=αmax(0,δ+dsp(s,p+)-dsp(s,p-))+

        βmax(0,δ+dsh(s,p+)-dsh(s,p-)),

        (1)

        其中α、β為提前設(shè)置的參數(shù).

        2 實(shí)驗(yàn)及結(jié)果分析

        2.1 實(shí)驗(yàn)數(shù)據(jù)集

        目前常用的FG-SBIR數(shù)據(jù)集有如下5個(gè):QMUL-ChairV1、QMUL-ShoeV1、QMUL-ChairV2、Q-MUL-ShoeV2、Sketchy數(shù)據(jù)集[22].本文在這5個(gè)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn).

        QMUL-ShoeV1數(shù)據(jù)集包含419個(gè)草圖-圖像對(duì),QMUL-ChairV1數(shù)據(jù)集包含297個(gè)草圖-圖像對(duì).使用QMUL-Shoev1數(shù)據(jù)集上300個(gè)草圖-圖像對(duì)和QMUL-ChairV1數(shù)據(jù)集上204個(gè)草圖-圖像對(duì)作為訓(xùn)練集,其余的作為測(cè)試集.

        QMUL-ChairV2、QMUL-ShoeV2數(shù)據(jù)集分別是QMUL-ChairV1、QMUL-ShoeV1數(shù)據(jù)集的擴(kuò)展版本.QMUL-ChairV2數(shù)據(jù)集包含400幅椅子照片和1 275幅草圖,QMUL-ShoeV2數(shù)據(jù)集包含2 000幅鞋的照片和6 730幅草圖,每幅照片都有至少三幅對(duì)應(yīng)的草圖.參照其它工作的做法,在QMUL-ChairV2數(shù)據(jù)集上選擇300幅圖像及其對(duì)應(yīng)的草圖作為訓(xùn)練集,在QMUL-ShoeV2數(shù)據(jù)集上選擇1 800幅照片及其對(duì)應(yīng)草圖作為訓(xùn)練集,其余的作為測(cè)試集.

        Sketchy數(shù)據(jù)集包含12 500幅真實(shí)圖像和74 425幅草圖,這些圖像屬于125個(gè)不同類別,每個(gè)類別包含100幅圖像和其對(duì)應(yīng)草圖.與其它4個(gè)數(shù)據(jù)集不同,Sketchy數(shù)據(jù)集上的真實(shí)圖像包含背景.因此在Sketchy數(shù)據(jù)集上的檢索更加困難.參考其它方法,在每類中挑選90%的圖像和對(duì)應(yīng)草圖作為訓(xùn)練集,其余的作為測(cè)試集.

        2.2 實(shí)驗(yàn)設(shè)置

        實(shí)驗(yàn)在RTX 3090 GPU上使用PyTorch完成.將草圖擴(kuò)展至3個(gè)通道,并將草圖和真實(shí)圖像一起作為輸入.在訓(xùn)練過(guò)程中,草圖和真實(shí)圖像都重新調(diào)整為288×288,并裁剪到255×255.在測(cè)試過(guò)程中,輸入圖像直接被調(diào)整為255×255.

        TSMLA使用Res-Net-50提取特征.在式(1)中,α和β都設(shè)置為1.在使用Chair-V2數(shù)據(jù)集訓(xùn)練模型時(shí),δ設(shè)置為0.3,在使用其它數(shù)據(jù)集訓(xùn)練時(shí),δ設(shè)置為0.1.

        在實(shí)現(xiàn)多粒度對(duì)齊模塊時(shí),將大小為256×256的距離矩陣進(jìn)行平均池化,得到大小為64×64和16×16的距離矩陣,并使用這3種大小的距離矩陣進(jìn)行動(dòng)態(tài)對(duì)齊.

        網(wǎng)絡(luò)使用Adam(Adaptive Moment Estimation)優(yōu)化,在Sketchy數(shù)據(jù)集上訓(xùn)練300個(gè)迭代周期,學(xué)習(xí)率設(shè)置為0.000 01,在其它數(shù)據(jù)集上使用0.000 1的學(xué)習(xí)率訓(xùn)練100個(gè)迭代周期.

        給出一幅輸入草圖,將所有圖像按照和草圖距離從小到大排序,acc@k表示正例在前k個(gè)圖像的次數(shù)與總的測(cè)試圖像數(shù)量的對(duì)比值.本文選擇acc@1作為評(píng)價(jià)指標(biāo).

        2.3 實(shí)驗(yàn)結(jié)果

        為了驗(yàn)證網(wǎng)絡(luò)的有效性,選擇如下對(duì)比網(wǎng)絡(luò):文獻(xiàn)[8]網(wǎng)絡(luò)、文獻(xiàn)[9]網(wǎng)絡(luò)、TC-Net[10]、LA-Net[11]、DLA-Net[11]、DLI-Net[12]、MLRM[13]、Noise-Tolerant

        SBIR[14].

        各網(wǎng)絡(luò)的acc@1值對(duì)比結(jié)果如表1所示,表中黑體數(shù)字表示最優(yōu)值.由表可以看到,TSMLA在多個(gè)數(shù)據(jù)集上性能都有一定的提升.在QMUL-ShoeV1數(shù)據(jù)集上acc@1提升2.61%,在QMUL-ChairV2數(shù)據(jù)集上acc@1提升4.51%,在QMUL-ShoeV2數(shù)據(jù)集上acc@1提升3.52%.盡管在QMUL-ChairV1數(shù)據(jù)集上acc@1有所下降,但是QMUL-ChairV1數(shù)據(jù)集是一個(gè)非常小的數(shù)據(jù)集且模型準(zhǔn)確率接近100%,提高模型復(fù)雜度不一定能在其上獲得更優(yōu)結(jié)果.

        值得注意的是,DLI-Net在Sketchy數(shù)據(jù)集上實(shí)驗(yàn)時(shí)去除數(shù)據(jù)集上部分不可用的數(shù)據(jù),本節(jié)并沒有這么做.在相同的實(shí)驗(yàn)設(shè)置下,DLI-Net在Sketchy數(shù)據(jù)集上的acc@1為59.32%,檢索精度仍有所提升.

        表1 各網(wǎng)絡(luò)在5個(gè)數(shù)據(jù)集上的acc@1值對(duì)比

        此外,在δ=0,0.1,0.3,0.5時(shí)對(duì)比TSMLA和DLI-Net,在QMUL-ShoeV2、QMUL-ChairV2數(shù)據(jù)集上的acc@1如圖4所示.

        (a)QMUL-ShoeV2

        (b)QMUL-ChairV2

        δ是三元組損失中設(shè)置的常量,用于減小草圖和正例的距離,同時(shí)增大草圖和負(fù)例的距離.δ太大會(huì)導(dǎo)致網(wǎng)絡(luò)很難收斂,δ太小會(huì)導(dǎo)致網(wǎng)絡(luò)鑒別能力下降,因此δ的變化會(huì)產(chǎn)生一定程度的性能波動(dòng).由圖4可以看出,δ=0,0.1,0.3,0.5時(shí),雖然DLI-Net和TSMLA的性能都有一些起伏,但是TSMLA的acc@1都高于DLI-Net.

        在相同輸入情況下,Noise-Tolerant FG-SBIR[14]、DLI-Net[12]和TSMLA在3個(gè)樣本上的檢索可視化結(jié)果如圖5所示.由圖可以看出,由于充分利用草圖特征和真實(shí)圖像特征,TSMLA能夠準(zhǔn)確找出正確結(jié)果.盡管Noise-Tolerant FG-SBIR在樣本1和樣本3中能夠找出正確結(jié)果,DL1在樣本2和樣本3中能夠找出正確結(jié)果,但兩者找出的其它候選圖像和正確結(jié)果并不相似,而TSMLA找出的候選圖像大多和正確結(jié)果相似,說(shuō)明其判別能力更強(qiáng).

        (a1)Noise-Tolerant FG-SBIR

        (a2)DLI

        (a3)TSMLA

        (b1)Noise-Tolerant FG-SBIR

        (b2)DLI

        (b3)TSMLA

        (c1)Noise-Tolerant FG-SBIR

        (c2)DLI

        (c3)TSMLA

        下面在QMUL-ChairV2、QMUL-ShoeV2數(shù)據(jù)集上進(jìn)行消融實(shí)驗(yàn),驗(yàn)證TSFE和MLA的有效性.在DLI-Net上加入不同模塊后的acc@1值如表2所示.由表可以看出,在DLI-Net上加入TSFE后,在QMUL-ChairV2數(shù)據(jù)集上acc@1提升2.30%,在QMUL-ShoeV2數(shù)據(jù)集上acc@1提升2.55%.在DLI-Net上加入MLA后,在QMUL-ChairV2數(shù)據(jù)集上acc@1提升2.32%,在QMUL-ShoeV2數(shù)據(jù)集上acc@1提升2.21%.在DLI-Net上同時(shí)加入TSFE和MLA后,在QMUL-ChairV2數(shù)據(jù)集上acc@1提升4.51%,在QMUL-ShoeV2數(shù)據(jù)集上acc@1提升3.52%.由此可見,在DLI-Net上添加模塊,性能都會(huì)出現(xiàn)一定提升.

        表2 不同模塊對(duì)網(wǎng)絡(luò)性能的影響

        模態(tài)共享特征權(quán)重和特異特征權(quán)重對(duì)網(wǎng)絡(luò)性能的影響如表3所示,表中(α,β)表示式(1)中的α和β,分別表示模態(tài)特異特征權(quán)重和模態(tài)共享特征權(quán)重.共享特征不一定包含檢索需要的信息,特異特征可能包含檢索需要的關(guān)鍵信息.當(dāng)兩幅真實(shí)圖像形狀相差較大時(shí),模態(tài)共享特征較重要;當(dāng)兩幅真實(shí)圖像形狀接近時(shí),模態(tài)特異特征起到關(guān)鍵作用.因此,無(wú)論舍棄共享特征或是特異特征,都會(huì)導(dǎo)致性能下降.

        表3 模態(tài)共享特征權(quán)重和特異特征權(quán)重對(duì)網(wǎng)絡(luò)性能的影響

        下面討論不同池化方式對(duì)網(wǎng)絡(luò)性能的影響.在DLI-Net+TSFE這個(gè)基準(zhǔn)網(wǎng)絡(luò)上,對(duì)特征矩陣進(jìn)行池化和對(duì)距離矩陣進(jìn)行池化,得到網(wǎng)絡(luò)的acc@1值如表4所示.在表中,POF表示在MLA中對(duì)特征矩陣進(jìn)行池化,POF(1)表示不對(duì)特征矩陣進(jìn)行池化操作,POF(2)表示將特征矩陣縮小到原來(lái)的1/2,POF(4)表示將特征矩陣縮小到原來(lái)的1/4,POF(1,2,4)表示將三種粒度的特征矩陣計(jì)算得到的圖像距離相加,POD表示對(duì)距離矩陣進(jìn)行相應(yīng)的池化操作,黑體數(shù)字表示最優(yōu)值.

        由表4可以看出,直接對(duì)特征矩陣進(jìn)行池化,并使用池化后的特征計(jì)算距離,會(huì)在不同程度上導(dǎo)致檢索精度降低.池化后的特征矩陣越小,檢索性能越差,這也表明對(duì)特征矩陣進(jìn)行池化會(huì)導(dǎo)致細(xì)節(jié)信息的丟失.對(duì)距離矩陣進(jìn)行平均池化能夠避免特征信息的丟失,將不同粒度下得到的距離結(jié)合,能夠利用不同粒度信息,有效解決特征不對(duì)齊問(wèn)題.需要注意的是,如果距離矩陣縮小倍數(shù)過(guò)大,說(shuō)明用于距離度量的特征塊過(guò)大,信息粒度過(guò)于粗糙,反而導(dǎo)致檢索結(jié)果不準(zhǔn)確.

        表4 不同池化策略對(duì)網(wǎng)絡(luò)性能的影響

        各網(wǎng)絡(luò)檢索不同數(shù)據(jù)集上所有草圖對(duì)應(yīng)的真實(shí)圖像的效率對(duì)比如表5所示,表中黑體數(shù)字表示最優(yōu)值.DLI-Net使用自交互模塊去除背景區(qū)域,提升檢索速度,DLI-Net(W)表示沒有使用自交互模塊.由于TSMLA在特征提取時(shí)使用共享特征提取分支和特異特征提取分支,并在不同尺度上進(jìn)行局部特征對(duì)齊,因此相比DLI-Net,TSMLA的檢索性能有所下降,考慮到精度的提升,額外的計(jì)算開銷是可以接受的.

        表5 各網(wǎng)絡(luò)檢索效率對(duì)比

        3 結(jié) 束 語(yǔ)

        本文針對(duì)實(shí)例級(jí)草圖-圖像檢索中存在的模態(tài)差異大和空間不對(duì)齊問(wèn)題,提出雙分支多粒度局部對(duì)齊網(wǎng)絡(luò)(TSMLA).在網(wǎng)絡(luò)中,分別提出雙分支特征提取器(TSFE)和多粒度局部特征對(duì)齊模塊(MLA),利用共享特征和特異特征同時(shí)訓(xùn)練模型,解決模態(tài)差異過(guò)大的問(wèn)題,同時(shí)在不同粒度上進(jìn)行草圖和真實(shí)圖像局部特征的對(duì)齊,解決特征的空間不對(duì)齊和特征大小不匹配的問(wèn)題.雖然TSMLA在QMUL-ChairV2、QMUL-ShoeV2等多個(gè)數(shù)據(jù)集上提升檢索精度,但雙分支特征提取以及多粒度特征對(duì)齊使網(wǎng)絡(luò)的檢索速度下降.今后將著重提升檢索速度,同時(shí)進(jìn)一步提升檢索精度.

        猜你喜歡
        模態(tài)特征
        抓住特征巧觀察
        新型冠狀病毒及其流行病學(xué)特征認(rèn)識(shí)
        如何表達(dá)“特征”
        不忠誠(chéng)的四個(gè)特征
        抓住特征巧觀察
        車輛CAE分析中自由模態(tài)和約束模態(tài)的應(yīng)用與對(duì)比
        國(guó)內(nèi)多模態(tài)教學(xué)研究回顧與展望
        高速顫振模型設(shè)計(jì)中顫振主要模態(tài)的判斷
        基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識(shí)別
        由單個(gè)模態(tài)構(gòu)造對(duì)稱簡(jiǎn)支梁的抗彎剛度
        9l国产自产一区二区三区| 国产精品人妻一区夜夜爱| 少妇爆乳无码专区| 真人无码作爱免费视频禁hnn | 国产精品视频亚洲二区| 少妇高潮av久久久久久| 粗大的内捧猛烈进出视频| 久久精品国产www456c0m| 国产极品美女高潮抽搐免费网站| 91青草久久久久久清纯| 一区二区三区熟妇人妻18| 亚洲av天堂一区二区| 欧美白人战黑吊| 日韩插啊免费视频在线观看| 日本一区二区啪啪视频| 国产大陆av一区二区三区| 国内自拍视频一区二区三区| 内射人妻视频国内| 国产精在线| 亚洲国产精品二区三区| 大尺度免费观看av网站| 一二三四视频社区在线| 亚洲性69影视| 一道之本加勒比热东京| 亚洲精品久久久久中文字幕| 亚洲av伊人久久综合密臀性色| 免费成人福利视频| 亚洲高清在线视频网站| 亚洲国产av一区二区三区天堂| 久久99亚洲精品久久久久| 搡老熟女老女人一区二区| 亚州无线国产2021| 久久久精品网站免费观看| 大ji巴好深好爽又大又粗视频| 国产av无码专区亚洲av手机麻豆 | 国内精品九九久久精品小草 | 色综合久久精品中文字幕| 黄色潮片三级三级三级免费| 日本边添边摸边做边爱| 亚洲av综合av国产av| 被暴雨淋湿爆乳少妇正在播放|