李浩然,周小平,王 佳
北京建筑大學(xué) 電氣與信息工程學(xué)院,北京 100044
由于文本所承載的信息已經(jīng)遠(yuǎn)不能滿足人類的需求,圖像成為當(dāng)今時代最常用的信息載體?;ヂ?lián)網(wǎng)上每天都在生成海量的各式圖像,可見光、紅外、光學(xué)、夜晚、素描等在不同條件下產(chǎn)生的圖像在日常生活中隨處可見。圖像,已經(jīng)成為當(dāng)今時代人們交流信息的主要途徑。
隨著大量圖像的產(chǎn)生,許多群體對于從數(shù)據(jù)庫中檢索圖像有著現(xiàn)實需求。關(guān)于圖像檢索的研究已經(jīng)持續(xù)了幾十年[1],但是人們之前只有同域圖像檢索的需求,即查詢圖像和檢索結(jié)果屬于同一視覺域。隨著多視覺域圖像在網(wǎng)絡(luò)隨處可見,用戶對于跨域檢索圖像的需求也日益迫切。它比同域圖像檢索更具有價值和應(yīng)用前景,因為用戶可以使用任意的圖像去檢索跨視覺域的同類物體圖像。因此,利用某一視覺域圖像查找另一視覺域中相同物體的跨域圖像檢索就成為當(dāng)今的研究熱點。
跨域圖像檢索的關(guān)鍵挑戰(zhàn)是視覺域鴻溝問題,即不同視覺域圖像有不同的成像表達(dá)方式且它們的特征存在于不同的空間中。具體來說,來自不同成像載體、光譜、機理以及不同光照條件,圖像的顏色、紋理、亮度、梯度、灰度特征都存在很大的區(qū)別。同樣由于拍攝角度不同,在拍攝物體時也會存在遮擋的問題。另一方面,即使是同類物體它們的圖像也會有巨大差異,導(dǎo)致類內(nèi)距離大于類間距離。所以跨域圖像檢索的難點就可以總結(jié)為如何將兩個不同視覺域的圖像聯(lián)系起來以檢索最相近的圖像。
綜合以上分析,跨域圖像檢索在各個領(lǐng)域的需求會越來越高,深入研究現(xiàn)有的跨域圖像檢索方法具有重要的學(xué)術(shù)研究意義。
在過去的幾十年中,人們對基于內(nèi)容的圖像檢索(content-based image retrieval,CBIR)進(jìn)行了廣泛的研究。從一開始的圖像低級特征提取,例如顏色、形狀、紋理、空間特征。之后因為深度學(xué)習(xí)的出色性能,使用深度學(xué)習(xí)進(jìn)行圖像檢索的技術(shù)[2]也逐漸出現(xiàn)在人們的視野中。然而,上述所有研究都是基于相同視覺域的圖像檢索。
與同域圖像不同的是,跨域圖像是指同一類物體在不同視覺域下的圖像。例如紅外圖像[3]、草圖[4]、漫畫[5]等,這些圖像分別屬于不同的視覺域。由于跨域圖像在不同條件下形成,不同視覺域的圖像在顏色、形狀、紋理等方面差異大?;诳缬虻膱D像檢索技術(shù)是通過X域(源域)圖像檢索Y域(目標(biāo)域)的圖像,以將兩種不同域的圖像進(jìn)行準(zhǔn)確匹配。因此,上面所述的基于內(nèi)容的圖像檢索技術(shù)在跨域這種特殊情況下就受到影響。這在很大程度上激發(fā)了對跨域圖像檢索研究的熱情,針對不同的建模方法本文將現(xiàn)有跨域圖像檢索方法大致分為兩類:基于特征空間遷移的跨域圖像檢索方法和基于圖像域遷移的跨域圖像檢索方法??缬驁D像檢索方法分類如圖1所示。
基于特征空間遷移的跨域圖像檢索方法把研究的重點放在了提取特征的能力和如何更準(zhǔn)確地比較特征向量相似度上。具體地,首先對不同視覺域圖像分別提取特征,通過特征提取器將原本不屬于同一空間的圖像特征向量映射到同一空間中,實現(xiàn)特征空間的遷移。隨后在損失函數(shù)的幫助下把相同類的特征距離拉近,不同類的特征距離拉遠(yuǎn)。最后,不同視覺域的圖像就可以計算兩者之間的特征距離達(dá)到跨域圖像檢索的目的。而基于圖像域遷移的跨域圖像檢索方法把研究聚焦在了圖像本身,其核心思想是把源域圖像的視覺效果通過生成模型轉(zhuǎn)換為目標(biāo)域圖像的視覺效果,這樣跨域檢索任務(wù)就變?yōu)榱送驁D像檢索任務(wù)。這種方法在特征提取之前就把兩個圖像的視覺域鴻溝消除,有效地解決不同圖像視覺效果差異大的問題。兩類方法如圖2、圖3所示。
圖2 特征空間遷移方法Fig.2 Feature space migration method
圖3 圖像域遷移方法Fig.3 Image domain adaptation method
基于特征空間遷移的方法是目前跨域圖像檢索的主流方法。研究人員認(rèn)為即使圖像在不同視覺域,但是如果兩者具有相同的高級語義信息那它們之間也存在潛在的相關(guān)性。其主要思想是通過特征提取器將兩個視覺域的圖像特征通過映射函數(shù)映射到公共子空間中,這樣就能為兩個不同視覺域的圖像生成相同的特征向量形式進(jìn)行特征的直接比較。方法如圖4所示。
圖4 基于特征空間遷移的跨域圖像檢索方法Fig.4 Cross-domain image retrieval method based on feature space migration
現(xiàn)有的特征提取方法可以根據(jù)特征類型分為三種:低級、中級和高級。低級特征提取方法依賴于手工特征,流行的手工特征包括顏色、紋理、形狀。這些低級特征不能有效地表示背景不同的各類視覺域圖像,導(dǎo)致限制了檢索性能[6]。中級特征提取方法通過聚合局部特征,如向量局部聚合描述符[7]。然而對于同類圖像也包含具有不同方位、尺度和照度的情況,中層特征不能準(zhǔn)確描述圖像的豐富信息。隨后許多工作[8]嘗試使用深度神經(jīng)網(wǎng)絡(luò)(DNN)來提取高級的語義特征,這些特征在解決這一問題上已被證明比傳統(tǒng)的手工特征具有更優(yōu)越的性能。因此,大多學(xué)者針對兩域圖像之間差異性的問題對DNN進(jìn)行了改進(jìn)并應(yīng)用到跨域圖像檢索中。針對特征空間遷移方法不同的改進(jìn)位置,本章將從四個方面對其分類總結(jié)。
在一定情況下,影響跨域圖像檢索性能的不是圖像主體部分的差異而是圖像成像時面臨的復(fù)雜背景問題,甚至有時可能存在遮擋物體主體部分的情況。針對以上問題,不同學(xué)者從圖像特征區(qū)域入手在提取特征時檢測物體目標(biāo)和其語義部分,幫助模型將注意力放在圖像特征最優(yōu)的區(qū)域以獲得更有判別性的特征。
Liu等人[9]首先構(gòu)建了一個包含特征點的跨域服裝數(shù)據(jù)集,隨后提出一個依賴于標(biāo)注服裝屬性和特征點的FashionNet網(wǎng)絡(luò)用于跨域服裝檢索,跨域服裝數(shù)據(jù)集如圖5所示。該方法幫助模型將重點放在數(shù)據(jù)的特征點上,抑制了背景差異造成的影響。但是該方法需要提前注釋好的數(shù)據(jù),因此對于前期工作要求較高。而王志偉等人[10]不僅考慮到關(guān)鍵位置特征,還利用目標(biāo)檢測算法YOLOv3分別提取了圖像的全局、主體和局部區(qū)域,經(jīng)過神經(jīng)網(wǎng)絡(luò)提取特征后融合并添加顏色、紋理等低級特征進(jìn)行補充,提升了檢索精度。
圖5 注釋的特征點Fig.5 Feature points of annotations
另一種方法是從原始圖像中通過注意力機制幫助神經(jīng)網(wǎng)絡(luò)模型關(guān)注特定區(qū)域的主體特征,忽略非主體的干擾因素。Ji等人[11]利用數(shù)據(jù)庫圖像的屬性信息定位圖像的注意力區(qū)域,提出了利用標(biāo)簽信息幫助定位數(shù)據(jù)庫圖像的注意力TagYNet和利用候選數(shù)據(jù)庫圖像來定位查詢圖像的注意力CtxYNet,在實驗數(shù)據(jù)集上較FashionNet的準(zhǔn)確率有了明顯提高。但是該方法依賴于注意力機制的性能,一旦注意力的性能無法準(zhǔn)確描述圖像的關(guān)鍵性將會丟失某些重要信息。劉玉杰等人[12]對此作出改進(jìn),首先在VGG[13]網(wǎng)絡(luò)中添加注意力模塊獲取圖像的注意力特征圖,同時為了防止注意力丟失部分關(guān)鍵信息通過引入短連接的方式將重要特征與全局的特征信息結(jié)合,獲得了不錯的效果。但是該方法需要手動調(diào)整參數(shù),且在圖像光線不足和受到遮擋時結(jié)果不好,也證明了需要進(jìn)一步的優(yōu)化。Fan等人[14]則設(shè)計了新的注意力DBA-Net,該網(wǎng)絡(luò)在考慮圖像關(guān)鍵特征的同時對局部細(xì)節(jié)也有很好的涉及,因此即使圖像受到遮擋和外觀相似的影響時也能具有較高的準(zhǔn)確度。Yu等人[15]則在添加注意力模塊外又引入了shortcut connection[16]解決跨域圖像錯位的問題,同時保留了粗粒度和細(xì)粒度兩種信息,在實驗中也證明了其效果。
在研究中發(fā)現(xiàn)現(xiàn)有的解決方案大多關(guān)注細(xì)節(jié)信息和空間層面信息,而忽略了通道信息。因此,Chen等人[17]關(guān)注通道和空間兩個層面的信息,引入了通道注意力、自注意力和空間注意力以挖掘各個維度上的細(xì)粒度細(xì)節(jié),不僅在細(xì)粒度檢索同時在粗粒度檢索中也獲得了優(yōu)異的性能。葛蕓等人[18]分別為通道層面和空間層面提出了多尺度池化通道注意力和范數(shù)空間注意力,在兩個層面上自適應(yīng)地給關(guān)鍵特征加權(quán),對不同尺度的特征都有關(guān)注,mAP值可以達(dá)到92.4%。
目前針對圖像特征區(qū)域建模的方法重點關(guān)注了跨域圖像檢索中源域和目標(biāo)域圖像受到背景干擾、物體被遮擋、跨域圖像錯位等造成的視覺域影響,因此利用人類的視覺系統(tǒng)機制,通過注釋特征點和注意力機制幫助神經(jīng)網(wǎng)絡(luò)模型把注意力放到圖像的關(guān)鍵區(qū)域,增強對主體細(xì)節(jié)特征的學(xué)習(xí)。但是這種方法還存在一些問題,首先標(biāo)記特征點的方法依賴大量的人工對圖像進(jìn)行注釋,需要在前期耗費人力和時間用于標(biāo)注數(shù)據(jù)集的工作。另外,對數(shù)據(jù)進(jìn)行關(guān)鍵點的標(biāo)注也會面臨不同物體關(guān)鍵位置變化的問題,所以對專業(yè)能力也有一定的要求。因此有研究人員選擇了添加注意力的方法,然而該方法為了獲得更好的效果犧牲了網(wǎng)絡(luò)結(jié)構(gòu),在神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)以外添加多個不同的注意力分支,增加了模型訓(xùn)練的時間和計算量。同時圖像特征區(qū)域建模的方法對于成像設(shè)備造成的視覺差異不能很好的解決,具有一定的局限性。
不同于針對圖像特征區(qū)域的方法是幫助神經(jīng)網(wǎng)絡(luò)關(guān)注圖像關(guān)鍵區(qū)域,針對特征空間遷移改進(jìn)的另一個角度是從特征提取器入手,通過多個神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)提高對不同特征的提取能力來完成跨域圖像的檢索。隨著深度學(xué)習(xí)技術(shù)的飛速發(fā)展,DNN在不同的應(yīng)用領(lǐng)域展現(xiàn)了巨大的潛力[19]。DNN作為特征提取器可以在數(shù)據(jù)集上進(jìn)行調(diào)整用來提取豐富的語義特征,特別是對于圖像域變化豐富的多視覺域圖像來說,同類物體的圖像會因為相機的變化和光照的影響導(dǎo)致圖像顏色、紋理發(fā)生改變,因此需要確保特征提取器不會受到圖像低級特征過多的影響,之后進(jìn)行特征對比時才會比較精確,為跨域圖像檢索提供基礎(chǔ)。
Lei等人[20]使用ImageNet預(yù)訓(xùn)練的VGG網(wǎng)絡(luò)作為初始化網(wǎng)絡(luò),從草圖和圖像的輪廓中提取深層特征以進(jìn)行跨域圖像檢索。隨后使用草圖數(shù)據(jù)微調(diào)預(yù)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型,最后使用微調(diào)模型提取草圖特征并檢索對應(yīng)的圖像輪廓。同樣的,Ha等人[21]利用預(yù)訓(xùn)練的VGG網(wǎng)絡(luò)跨域檢索建筑信息模型(building information modeling,BIM)和自然圖像完成室內(nèi)定位的任務(wù),在特征清晰的地點達(dá)到了滿意的效果。Kim等人[22]特意針對跨域問題提出了兩階段的預(yù)訓(xùn)練方法,在通過ImageNet訓(xùn)練后,增加一個使用多域未標(biāo)記數(shù)據(jù)的自監(jiān)督預(yù)訓(xùn)練步驟,以讓模型在新域上獲得區(qū)分能力和對域轉(zhuǎn)移的不變性,與只預(yù)訓(xùn)練一次的模型比較得到了更好的性能。
上述方法最大的優(yōu)勢是解決了DNN模型對訓(xùn)練樣本的依賴問題,同時使用預(yù)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)不需重新訓(xùn)練就已經(jīng)具備一定的提取特征能力,節(jié)省了時間和計算成本。但是不同域的圖像存在巨大的視覺差異,單純使用預(yù)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)不能很好地應(yīng)用到跨域的檢索任務(wù)。針對這個問題,大部分的研究工作開始通過結(jié)合多個神經(jīng)網(wǎng)絡(luò)來解決視覺域鴻溝,其中包括孿生神經(jīng)網(wǎng)絡(luò)[23]、三重神經(jīng)網(wǎng)絡(luò)[24]、四重神經(jīng)網(wǎng)絡(luò)[25]。
基于孿生神經(jīng)網(wǎng)絡(luò)的跨域圖像檢索主要衡量兩個輸入的相似程度。Shi等人[26]對航拍圖像首先應(yīng)用極坐標(biāo)變換使得圖像的視圖方向大致與街景圖像相似,而后引入孿生神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)街景和航拍圖像的深度特征,實驗數(shù)據(jù)顯示提出的方法提高了現(xiàn)有方法的性能,在top-1的召回率上提高了1.5倍。Park等人[27]發(fā)現(xiàn)現(xiàn)有跨域檢索方法側(cè)重于學(xué)習(xí)圖像的全局表示而忽略了局部的重要特征,因此提出在孿生網(wǎng)絡(luò)中加入一個CMAlign模塊強制網(wǎng)絡(luò)提取像素級局部特征,最終融合所有特征形成最終的特征,提高了在孿生網(wǎng)絡(luò)結(jié)構(gòu)中檢索的精度。Ma等人[28]則認(rèn)為現(xiàn)有方法只是將特征映射到公共空間而忽視了域的特定信息,因此他們關(guān)注了視覺域的獨有信息,在孿生網(wǎng)絡(luò)中首先提取域的獨有特征,并引入域變換方案和雙空間特征融合模塊,將獨有特征補充到共有特征中,準(zhǔn)確率可以提高到99.32%。Miao等人[29]在孿生網(wǎng)絡(luò)中加入了Refinement模塊[30]提取圖像關(guān)鍵點特征,隨后采用知識蒸餾策略融合全局和局部特征,以確保判別的一致性。但是該方法容易受到遮擋的影響,應(yīng)用在現(xiàn)實數(shù)據(jù)中容易出現(xiàn)錯誤。Li等人[31]在孿生網(wǎng)絡(luò)基礎(chǔ)上采用了多尺度注意力機制抑制衛(wèi)星圖像轉(zhuǎn)為街景圖像后的變形區(qū)域,而為了進(jìn)一步提高跨域檢索的能力,其通過困難樣本挖掘方法讓網(wǎng)絡(luò)關(guān)注困難樣本以突破性能的瓶頸。
此外,研究者們也開始利用三重神經(jīng)網(wǎng)絡(luò)將數(shù)據(jù)形成三元組的形式,讓同樣本間的距離盡可能縮小,不同樣本之間的距離盡可能增大。Yu等人[32]使用三重神經(jīng)網(wǎng)絡(luò)提取ImageNet數(shù)據(jù)集的邊緣圖預(yù)訓(xùn)練模型,彌合了兩域圖像的視覺域差距,其中設(shè)置的訓(xùn)練三元組由兩個正樣本和一個負(fù)樣本組成,如圖6所示。然而為了得到好的檢索效果,該方法經(jīng)歷了非常復(fù)雜的訓(xùn)練過程,同時依賴邊緣圖提取算法可能會導(dǎo)致邊緣的映射質(zhì)量對其結(jié)果有較大的影響。因此Lin等人提出了TC-Net[33],TC-Net不需要將照片轉(zhuǎn)換為邊緣圖,而是直接輸入RGB圖像避免復(fù)雜的預(yù)訓(xùn)練同時防止紋理信息丟失。在不同數(shù)據(jù)集測試的檢索準(zhǔn)確率較以往方法[32]可以提高26.81%。而李奇真等人[34]選擇更先進(jìn)的邊緣檢測算法[35]移除弱邊緣像素保留強邊緣像素獲得了更清晰的輪廓圖,隨后將輪廓圖與彩色圖像融合彌補跨域圖像的差距,在三重網(wǎng)絡(luò)中得到了更有區(qū)別性的特征表示。
圖6 三元組結(jié)構(gòu)Fig.6 Triple structure
進(jìn)一步的,研究者們認(rèn)為在訓(xùn)練時增加更多的限制,可以更好地增加類間距離和減小類內(nèi)距離,因此提出利用四重神經(jīng)網(wǎng)絡(luò)來對跨域圖像進(jìn)行檢索。對于某些視覺特征可能難以描述,但在文本中可以描述的情況,Song等人[36]通過四重神經(jīng)網(wǎng)絡(luò)來聯(lián)合圖像輸入和文本輸入。四元組分別為圖像、文本、正樣本圖像和負(fù)樣本圖像,通過在三重神經(jīng)網(wǎng)絡(luò)上增加一個文本分支網(wǎng)絡(luò),提高檢索的準(zhǔn)確性,結(jié)果表明當(dāng)圖像和文本聯(lián)合建模時每種模式都可以彼此受益。但是該方法缺乏視覺感知方面的相關(guān)屬性,會因紋理缺失造成無法準(zhǔn)確檢索的問題。Fuentes等人[37]提出了一個名為Sketch-QNet的四重神經(jīng)網(wǎng)絡(luò)架構(gòu),以此希望特征空間能夠?qū)⒐蚕硇螤詈皖伾膱D像與僅共享形狀的圖像區(qū)分開來。同時,該方法通過邊緣保留平滑濾波器[38]、k均值聚類、Canny邊緣檢測器[39]將訓(xùn)練集的每個樣本合成為彩色草圖,Sketch-QNet在基于彩色草圖的檢索問題上取得了最新的成果,同時解決了三重神經(jīng)網(wǎng)絡(luò)對于弱相關(guān)樣本不能很好區(qū)分的問題。Dos等人[40]通過四重神經(jīng)網(wǎng)絡(luò)對來自聲納的聲學(xué)圖像和衛(wèi)星航拍圖像進(jìn)行匹配,利用自適應(yīng)粒子濾波器進(jìn)行狀態(tài)估計,解決了灰度水聲圖像和航空光學(xué)圖像間的跨域檢索。
上述方法通過結(jié)合多個神經(jīng)網(wǎng)絡(luò)的方法解決了跨域圖像檢索的問題,其重點在于如何訓(xùn)練模型。單結(jié)構(gòu)神經(jīng)網(wǎng)絡(luò)通過預(yù)訓(xùn)練的方式避開了DNN需要大量樣本訓(xùn)練的問題,同時節(jié)省了訓(xùn)練時間,但是僅使用通用數(shù)據(jù)集預(yù)訓(xùn)練的方式不能彌補兩個視覺域之間的鴻溝,尤其是當(dāng)面臨類間距離小于類內(nèi)距離時,預(yù)訓(xùn)練的模型沒有對跨域圖像深入的學(xué)習(xí)因此無法對其進(jìn)行區(qū)分。多分支神經(jīng)網(wǎng)絡(luò)改進(jìn)了網(wǎng)絡(luò)結(jié)構(gòu),使用多個神經(jīng)網(wǎng)絡(luò)并行接受多個輸入。對于學(xué)習(xí)跨域圖像的類間距離和類內(nèi)距離具有更好的效果,改善了跨域圖像檢索的檢索能力。但是隨著多分支神經(jīng)網(wǎng)絡(luò)的研究,研究人員發(fā)現(xiàn)為了提高在不同視覺域下圖像的檢索性能,需要進(jìn)一步在神經(jīng)網(wǎng)絡(luò)上增加注意力機制幫助模型在更復(fù)雜的環(huán)境下完成跨域檢索,以至于模型結(jié)構(gòu)愈發(fā)復(fù)雜,參數(shù)量過大的問題也因此需要消耗大量的計算成本。另外,隨著跨域圖像檢索需求越來越大,僅通過多分支網(wǎng)絡(luò)來區(qū)分不同域圖像已經(jīng)無法滿足需求,需要更有針對性的方法才能應(yīng)對更復(fù)雜的圖像域。
除了改變神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)以外,另一個解決方法是使用有效的度量方式來衡量跨域圖像的相似性。度量學(xué)習(xí)[41],也稱為距離度量學(xué)習(xí)(distance metric learning,DML)。它的關(guān)鍵思想是在訓(xùn)練過程中從不同角度減少同類樣本之間的特征距離,同時盡可能地擴大不同類別樣本之間的特征距離。度量學(xué)習(xí)算法的提高主要在改進(jìn)損失函數(shù)上,損失函數(shù)對于跨域圖像檢索的優(yōu)化有重要的作用。幾個常用的損失函數(shù)分別是對比損失[42]、三重?fù)p失[43]和softmax損失。
對比損失的核心思想是縮小正樣本對的距離,增大負(fù)樣本對的距離,如圖7所示。Reale等人[44]用小卷積濾波器訓(xùn)練了兩個網(wǎng)絡(luò)VisNet和NIRNet,并通過創(chuàng)建具有對比損失的孿生網(wǎng)絡(luò)來耦合兩個網(wǎng)絡(luò)的輸出特征。但是在現(xiàn)實中通常存在視覺相似性很小的正對,這些樣本對如果使用原始的對比損失可能會導(dǎo)致模型的過度擬合和較差的泛化能力。因此Wang等人[45]提出了穩(wěn)健對比損失,它通過減輕對正對的懲罰以防止模型過度擬合,同時還結(jié)合了softmax損失函數(shù),實驗證明通過將穩(wěn)健對比損失與softmax損失相結(jié)合可以增強神經(jīng)網(wǎng)絡(luò)在跨域圖像檢索時的泛化能力。Cheng等人[46]則基于對比損失提出了MCL(modified contrastive loss),MCL為正樣本添加了區(qū)間約束,同時MCL使用新的在線采樣策略使每個類別被抽樣的可能性相等,解決了不平衡分類的問題。
圖7 對比損失示意圖Fig.7 Contrast loss diagram
三重?fù)p失最早由Schroff等人提出,三重?fù)p失相比對比損失增加了一個樣本,更多的考慮正樣本對與負(fù)樣本對之間的相對距離,如圖8所示。它解決了對比損失的一個限制,如果兩個樣本是不同的,對比損失將拉大兩個樣本的距離,如果其中一個樣本已經(jīng)位于集群的中心,對比損失的效果將會減弱。Bui等人[47]使用三重?fù)p失來學(xué)習(xí)從自然圖像中獲得的草圖和邊緣圖之間的跨域映射,但是當(dāng)面對一些復(fù)雜度高的圖像時,三重?fù)p失訓(xùn)練的收斂速度會明顯變慢。Xiong等人[48]在三重?fù)p失的基礎(chǔ)上結(jié)合softmax損失和中心損失[49],從而使訓(xùn)練過程能夠?qū)W習(xí)到更多的判別特征并且更容易收斂。Arandjelovic[50]設(shè)計了一種新的三重?fù)p失以處理街景圖像的不完整和嘈雜的位置注釋以及因拍攝時間不同造成的光照影響。Ibrahimi等人[51]在跨域圖像檢索任務(wù)中評估了度量學(xué)習(xí)中四種三重?fù)p失的變體:N-pair loss[52]、lifted loss[53]、angular loss[54]和hard-triplet loss[55],實驗顯示將多種損失函數(shù)結(jié)合比使用單獨的損失函數(shù)表現(xiàn)更好。Faraki等人[56]通過提出的跨域三元組損失CDT,以將從一個域獲得的顯式度量與來自另一個域的三重樣本在一個統(tǒng)一的損失函數(shù)中關(guān)聯(lián)起來,從而更好地對齊跨域圖像。
圖8 三重?fù)p失示意圖Fig.8 Triple loss diagram
Deng等人[57]則基于softmax損失提出了新的算法ArcFace,該方法通過在深度特征與其相應(yīng)權(quán)重之間的角度上部署角懲罰余量,提高模型的判別力并穩(wěn)定訓(xùn)練過程。然而,ArcFace中固定的附加角余量經(jīng)常會導(dǎo)致訓(xùn)練數(shù)據(jù)集的過擬合。為了解決這個問題Jiao等人[58]提出了Dyn-arcface,其將ArcFace的固定角余量替換為自適應(yīng)角余量。它可以根據(jù)每個類中心與其他類中心的距離來調(diào)整,減少固定附加角余量引起的過擬合程度。實驗結(jié)果表明,所提出的算法可以實現(xiàn)比ArcFace更好的性能,特征中心之間的距離也比ArcFace更加分散,緩解了過擬合的問題。
此外,研究者們也對不同跨域環(huán)境提出了有針對性的損失函數(shù),使跨域檢索模型進(jìn)一步擬合視覺域鴻溝。Wu等人[59]為跨域行人重識別提供了一個中心聚類損失,減少跨域圖像之間相同身份的特征距離,同時增加不同身份的特征距離,在跨域行人重識別上具有較好的性能。Cheema等人[60]提出Unit-Class Loss以考慮單個樣本以及整個類分布來增強網(wǎng)絡(luò)的特征學(xué)習(xí),同時可以從未對齊的面部圖像中學(xué)習(xí)域不變的身份特征,最終可以得到99.5%的精確度。Paul等人[61]結(jié)合了新的語義鄰域損失和混合預(yù)測損失,來彌合已見類和未見類的知識鴻溝并有助于在未知域的檢索能力。Gao等人[62]為了在特征提取階段就能夠縮小不同域的特征距離,為此設(shè)計了一個跨模態(tài)知識蒸餾損失,該損失能夠在模型提取不同圖像域的獨有特征時縮小不同域特征之間的距離,最終提高了模型跨域檢索的能力。
在跨域圖像檢索中,損失函數(shù)作為神經(jīng)網(wǎng)絡(luò)的最終目標(biāo),引導(dǎo)模型朝著最優(yōu)方向發(fā)展,同時影響著訓(xùn)練模型的效率和容量。在小規(guī)模數(shù)據(jù)集上,研究人員提出了不同的損失函數(shù)來訓(xùn)練神經(jīng)網(wǎng)絡(luò),包括對比損失、三重?fù)p失,它們旨在加強類內(nèi)緊湊性和類間可分離性,然而對比損失只有兩個樣本互相比較,跨域圖像經(jīng)常存在類間相似而類內(nèi)不相似的情況,所以在沒有上下文關(guān)系時只比較兩個樣本容易出現(xiàn)錯誤,同時對比損失也存在容易過擬合的問題。而隨著數(shù)據(jù)集規(guī)模越來越大時,三重?fù)p失在N個圖像上可以產(chǎn)生O(N3)個樣本,因此三元組數(shù)量也會激增導(dǎo)致訓(xùn)練時間過長不易收斂。另一方面,不同跨域圖像面臨著不同環(huán)境,因此針對不同的研究環(huán)境,研究人員提出了不同的損失函數(shù),為跨域圖像檢索實現(xiàn)了更好的效果。但是新提出的損失函數(shù)只能解決本身的任務(wù),不能很好地的泛化到其他跨域圖像檢索任務(wù)。同時上述文獻(xiàn)結(jié)構(gòu)復(fù)雜、參數(shù)量大,導(dǎo)致運行時間長,離實際應(yīng)用還存在一定距離。
目前基于特征空間遷移的跨域圖像檢索方法都關(guān)注于如何提高檢索精度,利用不同優(yōu)化方法增強模型檢索能力。但是當(dāng)圖像數(shù)量越來越多時,為提高跨域檢索性能而增加的模型結(jié)構(gòu)會給硬件設(shè)備帶來極大的挑戰(zhàn)。因此檢索時會付出高昂的時間成本,難以部署在移動設(shè)備進(jìn)行實時檢索??紤]到實際需求,在檢索精度提高的同時追求更高的效率是現(xiàn)實且必要的。哈希學(xué)習(xí)可以在保持原有空間關(guān)系的基礎(chǔ)上,將復(fù)雜的高維特征向量轉(zhuǎn)換為簡潔的二進(jìn)制編碼的形式,減輕計算難度的同時提高檢索效率。顯而易見,將跨域圖像檢索方法與哈希學(xué)習(xí)相結(jié)合具有更大的優(yōu)勢,是未來研究的熱點之一。
跨域圖像檢索與傳統(tǒng)的哈希算法已經(jīng)有大量的研究,Kalantidis等人[63]使用局部敏感哈希[64]將圖像片段表示為二進(jìn)制向量,然后測量查詢和排名靠前列表中的結(jié)果之間的相似性,這種方法在節(jié)省查詢時間上非常有效。但是由于傳統(tǒng)的哈希算法對圖像的顏色、紋理和形狀等特征描述不清晰,導(dǎo)致傳統(tǒng)哈希算法的檢索精度并不高。Liu等人[65]為基于草圖的圖像檢索(sketch-based image retrieval,SBIR)提出了第一個深度哈希模型(deep sketch Hashing,DSH)來加速SBIR。該方法考慮了具有深度哈希技術(shù)的快速跨域檢索,提出了一種半異構(gòu)深度框架并將其合并到端到端二進(jìn)制編碼框架中,其中的哈希編碼顯著減少了檢索時間和內(nèi)存占用,加快了檢索速度。但是其也存在較明顯的缺陷,該方法訓(xùn)練和測試樣本都是固定的,在現(xiàn)實應(yīng)用中不能保證沒有新的樣本類型,所以在零樣本的情況下該方法通常會失敗。針對這個問題,Shen等人[66]隨后提出了一個端到端的三重網(wǎng)絡(luò)架構(gòu)ZSIH來學(xué)習(xí)共享的二進(jìn)制表示并對跨域數(shù)據(jù)進(jìn)行編碼,隨后利用Kronecker融合層[67]和圖卷積來減輕跨域圖像的異質(zhì)性并增強數(shù)據(jù)之間的語義關(guān)系,成功解決了大規(guī)??缬蛄銟颖竟H蝿?wù)。Xiong等人[68]則引入了一種圖像變換策略解決跨域檢索問題,通過提出的深度跨域哈希網(wǎng)絡(luò)DCMHN將RGB三個通道的圖像轉(zhuǎn)換為四種類型的單通道圖像,之后通過三重?fù)p失結(jié)合哈希編碼進(jìn)行特征降維,最后生成高效的二進(jìn)制碼后進(jìn)一步提高了檢索的準(zhǔn)確率和效率。Du等人[69]為跨域掌紋檢索提出了基于深度哈希的方法,該方法將對抗訓(xùn)練、最大均值差異和深度哈希統(tǒng)一起來,幫助網(wǎng)絡(luò)掌握跨域檢索的域不變特征,而哈希值使得模型更容易運算比較出跨域掌紋圖像的相似性。Wu等人[70]認(rèn)為深度哈希網(wǎng)絡(luò)繼承了深度學(xué)習(xí)和基于編碼方法的優(yōu)點,其對干擾的強魯棒性、低存儲成本和快速匹配速度的優(yōu)點適合進(jìn)行跨域圖像檢索,隨后又結(jié)合了空間變換網(wǎng)絡(luò)[71]克服圖像錯位和旋轉(zhuǎn)的問題,提高了跨域檢索精度。
綜上所述,應(yīng)用哈希學(xué)習(xí)處理跨域圖像檢索任務(wù)減輕了計算機處理大規(guī)模數(shù)據(jù)的壓力,提高了檢索速度。對于傳統(tǒng)的哈希學(xué)習(xí)方法,檢索效率比之前的方法有很大的提高,但是其對圖像顏色等特征描述不清晰導(dǎo)致在跨域檢索時精度不高。在深度哈希學(xué)習(xí)方面,由于深度學(xué)習(xí)擁有較強的特征提取能力,哈希學(xué)習(xí)開始更多地與深度學(xué)習(xí)結(jié)合完成跨域圖像檢索的任務(wù)。但是應(yīng)用哈希學(xué)習(xí)輕量化模型會對檢索精度造成一定的影響,從結(jié)果上來看精度沒有之前的高。因此如何彌補精度的損失是未來需要研究的重點,因為這是跨域圖像檢索能否廣泛實際應(yīng)用的關(guān)鍵。
總體看來,基于特征空間遷移的方法在跨域圖像檢索已經(jīng)有了實質(zhì)性的進(jìn)展,但在真實場景下仍然面臨許多挑戰(zhàn)。首先針對圖像特征區(qū)域建模的方式依賴人工在圖像上標(biāo)注特征點和添加注意立機制,因此需要耗費大量的人力和訓(xùn)練時間,同時標(biāo)注數(shù)據(jù)要具有專業(yè)領(lǐng)域的知識,對于成像光譜之間的差異也不能很好地彌補,因此如何優(yōu)化模型能更有效地獲取圖像最優(yōu)特征區(qū)域并減少對標(biāo)注信息的依賴是未來的一個研究方向。其次針對神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)建模的方式對正確配對的樣本需求很大,需要人工對樣本決定是否為正樣本或者負(fù)樣本,同時模型結(jié)構(gòu)也在不斷復(fù)雜,給未來實際應(yīng)用帶來了難題。未來研究可以考慮模型結(jié)構(gòu)復(fù)雜對于檢索造成的負(fù)面影響,在不降低檢索能力的情況下優(yōu)化模型結(jié)構(gòu)。針對損失函數(shù)建模的方式,研究人員充分考慮了不同的應(yīng)用場景,因此也提出了不同的損失函數(shù)以擬合不同視覺域之間的鴻溝。但是研究中發(fā)現(xiàn)如何使用損失函數(shù)并沒有明確的標(biāo)準(zhǔn),在很多情況下都是試用不同的損失函數(shù)或者以組合的方式探索最佳的方法,同時新提出的方法泛化性不高只能針對特定問題,所以該領(lǐng)域還需要進(jìn)一步研究提高損失函數(shù)的泛化性。最后針對編碼空間建模的方式從思考如何提高模型檢索效率的角度入手,將跨域圖像檢索與哈希學(xué)習(xí)結(jié)合,實現(xiàn)了在減輕計算難度和減少計算時間方面的突破,但是這勢必會帶來檢索精度的下降,如何平衡兩者關(guān)系是研究人員未來需要進(jìn)一步思考的問題。
為了解決視覺域鴻溝的問題,基于特征空間遷移使用標(biāo)記的數(shù)據(jù)、配對的數(shù)據(jù)訓(xùn)練模型,學(xué)習(xí)不同視覺域圖像之間的映射關(guān)系,但是在樣本不夠充足時存在局限性。而基于圖像域遷移的跨域圖像檢索方法把研究聚焦在了圖像本身,其核心思想是把源域圖像的視覺效果通過生成模型轉(zhuǎn)換為目標(biāo)域圖像的視覺效果,實現(xiàn)跨域圖像間的風(fēng)格統(tǒng)一,解決不同視覺域之間的風(fēng)格差異,這樣跨域檢索任務(wù)就變?yōu)榱送驁D像檢索任務(wù)。此外也可通過圖像域遷移的方式合成新的圖像用來擴展數(shù)據(jù)規(guī)模,提高模型的泛化性,緩解圖像的域差。因此該類方法是目前的研究熱點,也是未來跨域圖像檢索的研究趨勢?;趫D像域遷移的跨域圖像檢索方法如圖9所示。
圖9 基于圖像域遷移的跨域圖像檢索方法Fig.9 Cross-domain image retrieval method based on image domain adaptation
基于圖像域遷移的方法是通過生成模型實現(xiàn)的。研究者將常見的生成模型分為兩種:基于編碼器-解碼器和基于生成對抗網(wǎng)絡(luò)(generative adversarial network,GAN)[72]。
編碼器-解碼器是機器學(xué)習(xí)中較為常見的模型框架,它主要由兩部分構(gòu)成:編碼器(encoder)和解碼器(decoder)。編碼器是一個可以接受多種形式的輸入并輸出特征向量的網(wǎng)絡(luò),而解碼器是一個從編碼器獲取特征向量并輸出與實際輸入或預(yù)期輸出最近似結(jié)果的網(wǎng)絡(luò)。這樣的模型將圖像作為輸入,并通過編碼器生成潛在代碼,然后解碼器將其用作輸入以生成共享相同語義信息的圖像。
Pang等人[73]通過編碼器-解碼器的生成圖像,將原本具有豐富紋理和復(fù)雜背景信息的自然圖像轉(zhuǎn)換為簡單的草圖,消除了兩者的域差,實現(xiàn)了跨域之間的圖像檢索。通過此模型在數(shù)據(jù)集上的大量實驗表明,所提出的方法在未見過的測試數(shù)據(jù)上也有良好的效果。同樣的,Kampelmühler等人[74]提出了第一種通過完全卷積的編碼器-解碼器結(jié)構(gòu)來完成復(fù)雜圖像到抽象的線條轉(zhuǎn)換,通過自適應(yīng)實例歸一化(AdaIN)代替批量歸一化使得可以根據(jù)物體類別不同調(diào)節(jié)解碼器,同時利用感知相似性損失幫助實現(xiàn)具有域鴻溝的圖像轉(zhuǎn)換。Sajid等人[75]首先通過k-means聚類算法用于提取的特征,以獲得人臉圖像分區(qū)縮小檢索空間,隨后利用編碼器生成老化人臉圖像參考集補償人臉的變化,mAP較原先提高16.96%。Liu等人[76]利用編碼器結(jié)構(gòu)提取跨域圖像的共有特征和獨有特征,又采用最大均值差異約束兩個模態(tài)之間的共享特征,使它們具有相同的分布,并減少像素錯位和相似紅外圖像的干擾。上述方法都是在兩域之間通過一次相似度比較檢索圖像相似度,而Lei等人[77]認(rèn)為這樣產(chǎn)生的檢索結(jié)果易受到輸入圖像質(zhì)量的影響,所以提出了通過融合兩個檢索流的方式提高檢索精度。通過兩個檢索流的融合,避免了計算一次相似度容易受到輸入圖像質(zhì)量影響的弊端,同時提高了單一檢索流的檢索效果。大量轉(zhuǎn)換圖像會導(dǎo)致同類別圖像之間風(fēng)格差異較大,Sain等人[78]針對此類問題提出了一個基于跨域變分自編碼器(variational auto-encoder,VAE)[79]的模型,該模型將每個圖像分解為共享部分和獨有部分。同時為了將模型可以應(yīng)用到未來不同的圖像風(fēng)格,該模型添加了兩個風(fēng)格自適應(yīng)組件來訓(xùn)練跨域VAE模型,改善了由于類內(nèi)差異大造成的檢索誤差同時可以將其推廣到風(fēng)格不可知的情況。Zhao等人[80]引入編碼器解碼器來在語義上對齊兩種視覺域圖像之間的數(shù)據(jù)分布,不僅可以生成具有相同噪聲的跨域圖像,而且還能糾正未對齊的原始數(shù)據(jù)集,準(zhǔn)確率可以達(dá)到99.9%。
編碼器-解碼器能夠生成圖像的功能解決了跨域圖像檢索中域鴻溝的問題,它將源視覺域圖像轉(zhuǎn)換為目標(biāo)域圖像,從源頭解決了不同視覺域之間的差異。但是由于它們是對真實圖片和生成圖片進(jìn)行像素級別的監(jiān)督,所以對于全局信息沒有辦法很好的關(guān)注,會存在導(dǎo)致生成的圖片比較模糊的問題而影響檢索精度,因此大部分都應(yīng)用在了對紋理需求不高的領(lǐng)域,這是它存在的一個缺點,也阻礙了方法的廣泛使用。
Goodfellow在2014年提出的生成對抗網(wǎng)絡(luò)是生成式模型的另一個熱門方法,GAN網(wǎng)絡(luò)由生成器網(wǎng)絡(luò)和判別器網(wǎng)絡(luò)組成,通過兩者在訓(xùn)練過程中相互競爭使得它們共同進(jìn)步。生成器會不斷產(chǎn)生更真實的樣本,而判別器會不斷地識別假樣本提供判別能力。目前,基于生成對抗網(wǎng)絡(luò)的跨域圖像檢索方法是研究的熱門。根據(jù)生成對抗網(wǎng)絡(luò)在跨域圖像檢索任務(wù)中不同的目標(biāo),將方法歸納為以下兩種:轉(zhuǎn)換圖像風(fēng)格和增加樣本多樣性。
Regmi等人[81]使用單應(yīng)變換矩陣將航拍圖像轉(zhuǎn)換為街景并保留重疊視野中的像素,然后利用生成對抗網(wǎng)絡(luò)轉(zhuǎn)換地面圖像,實現(xiàn)了衛(wèi)星圖像的跨域檢索。Lin等人[82]利用cGAN[83]的兩個判別器強制生成的服裝圖像具有豐富的紋理,而且在語義上與時裝圖像相關(guān)。與非生成方法相比,平均可以實現(xiàn)5.34%的性能提升。但是提出的方法由兩個階段組成,因此不是端到端的模型,想應(yīng)用到現(xiàn)實場景下還需要進(jìn)一步改進(jìn)。受到CycleGAN[84]的啟發(fā),Xiong等人[85]提出了cycle-identity-GAN(CI-GAN),CI-GAN在CycleGAN的生成器和判別器之外設(shè)計了一個預(yù)訓(xùn)練的身份分類器模塊幫助模型提高判別能力。該模塊在訓(xùn)練期間給生成圖像賦予身份和類別信息,因此身份分類模塊保證了生成圖像后圖像內(nèi)容的不變性,在公共數(shù)據(jù)集上的實驗結(jié)果顯示了對提高跨域檢索性能的有效性。種衍文等人[86]提出姿態(tài)標(biāo)準(zhǔn)化網(wǎng)絡(luò)(IIPN)生成不同姿態(tài)的行人圖像,然后對行人進(jìn)行全局對齊和局部對齊,最后使用多粒度特征融合防止小尺度重要特征丟失,提升了模型性能,但是生成預(yù)定義的多姿態(tài)圖像也極易產(chǎn)生額外的推理誤差。Chen等人[87]利用CycleGAN將沒有紋理的BIM渲染圖像轉(zhuǎn)換為具有生動紋理的逼真圖像,用于從BIM模型中提取空間信息和估計室內(nèi)攝像頭位置來定位,定位和攝像頭方向誤差分別為1.38 m和10.1°。Zhang等人[88]受到了特征空間遷移中DSH的啟發(fā),提出了一個基于哈希的生成模型生成域遷移哈希(generative domain-migration Hashing,GDH)。GDH加入了一個注意力層,引導(dǎo)模型在學(xué)習(xí)過程中關(guān)注更具代表性的區(qū)域。實驗表明,GDH方法相比DSH方法能大幅提升準(zhǔn)確率,檢索時間和內(nèi)存使用度也有了下降。更進(jìn)一步的,Bai等人[89]提出DMGAN在轉(zhuǎn)換圖像風(fēng)格后進(jìn)行跨視覺域圖像檢索,同時提出一種孿生網(wǎng)絡(luò)SLN(similarity learning network),SLN包括用于學(xué)習(xí)類別信息的分類損失和用于減少自然圖像與生成圖像之間距離的相似度損失,該方法相比于單獨使用孿生網(wǎng)絡(luò)檢索精確度有了較大的提高。
Toker等人[90]利用圖像域遷移的思想解決包含巨大域鴻溝的街景圖像與衛(wèi)星圖像之間的跨域圖像檢索問題,提出的方法在農(nóng)村等沒有大型數(shù)據(jù)集的地方也能正常估計圖像的地理位置信息,檢索效果如圖10所示。結(jié)果顯示,提出的方法在top-10的召回率可以達(dá)到89.14%。Zhang等人[91]提出了新的TripleGAN模型用于處理從人體到平鋪圖像的跨域服裝圖像轉(zhuǎn)換,它考慮了在生成器中使用類別條件和用于生成具有更多細(xì)節(jié)服裝圖像的三元組損失結(jié)構(gòu),結(jié)果也表明了提出模型的有效性。
圖10 合成圖像后檢索Fig.10 Image retrieval after generation
跨域圖像檢索任務(wù)經(jīng)常面臨數(shù)據(jù)集的缺乏導(dǎo)致模型在訓(xùn)練時產(chǎn)生過擬合的問題,為了解決類似問題通過生成模型生成多樣的數(shù)據(jù)添加到訓(xùn)練數(shù)據(jù)中提高模型的泛化能力。Zhong等人[92]提出了CamStyle,其中使用CycleGAN和標(biāo)簽平滑正則化(label smooth regularization,LSR)[93]來補充訓(xùn)練圖像。但是CycleGAN生成的圖像包含大量噪聲,因此需要LSR幫助其減小噪聲造成的影響,同時隨著成像設(shè)備數(shù)量的增長,CamStyle的訓(xùn)練次數(shù)也會越來越多,造成了計算資源的浪費。為此Liu等人[94]提出了UnityGAN,依靠UnityGAN學(xué)習(xí)每個相機的風(fēng)格數(shù)據(jù)來獲得適合所有相機風(fēng)格的UnityStyle圖像,避免了多次訓(xùn)練的弊端,使得生成圖像更加高效。同時UnityGAN生成的圖像效果更加清晰,不需要額外的結(jié)構(gòu)減少噪聲的影響,克服了CycleGAN容易變形的問題。Zhou等人[95]應(yīng)用starGAN[96]在目標(biāo)數(shù)據(jù)集上學(xué)習(xí)圖像風(fēng)格轉(zhuǎn)移模型,以增強樣本多樣性。又提出增量優(yōu)化學(xué)習(xí),挖掘所有訓(xùn)練樣本的潛在相似性,改進(jìn)后對檢索準(zhǔn)確度有所改善。
基于生成對抗網(wǎng)絡(luò)的方法相比于編碼器-解碼器的方法最大的不同就是引入了對抗的思想。通過對抗模型可以幫助生成模型更好地學(xué)習(xí)觀測數(shù)據(jù)的條件分布,另一方面,利用生成對抗網(wǎng)絡(luò)生成更多樣性的圖片緩解了跨域圖像檢索數(shù)據(jù)不夠的問題幫助模型學(xué)習(xí)到更好的判別特征。但是生成對抗網(wǎng)絡(luò)訓(xùn)練難度大,需要大量的計算,而受限于現(xiàn)有生成模型的生成質(zhì)量并沒有達(dá)到理想狀態(tài),新生成的圖像有可能存在噪聲干擾、物體扭曲等現(xiàn)象,對檢索性能造成負(fù)面影響。此外,若是將含有噪聲的樣本作為訓(xùn)練數(shù)據(jù)也會對特征學(xué)習(xí)增加困難,因此在某些領(lǐng)域的跨域圖像檢索還沒有很好的普及。相信隨著生成模型的不斷進(jìn)步,這種方法將逐漸被更多領(lǐng)域的學(xué)者使用。
綜上所述,基于圖像域遷移的方法是繼特征空間遷移后新的熱門方法,相比特征空間遷移,它不需要人工標(biāo)注數(shù)據(jù)就可以生成新的圖像用于改善檢索環(huán)境?;诰幋a器解碼器的生成模型優(yōu)點在于它建立在神經(jīng)網(wǎng)絡(luò)之上可以使用隨機梯度下降進(jìn)行訓(xùn)練,在生成多種復(fù)雜數(shù)據(jù)方面顯示出廣闊的前景。但是由于該方法計算生成圖片和原始圖片的均方誤差,會更傾向于產(chǎn)生模糊的圖片而影響圖像檢索的精度,因此只能在對紋理要求不高的特定領(lǐng)域使用,具有一定的局限性?;谏蓪咕W(wǎng)絡(luò)的圖像域遷移跨域圖像檢索方法是無監(jiān)督的另一種生成模型,GAN網(wǎng)絡(luò)生成的圖片清晰度要好于編碼器-解碼器,正因如此也在更多的跨域任務(wù)中被選擇。但是生成對抗網(wǎng)絡(luò)訓(xùn)練難度比編碼器解碼器模型大,需要大量的計算成本,容易影響模型的泛化能力,因此未來探索更優(yōu)的訓(xùn)練策略和設(shè)計更好的生成對抗網(wǎng)絡(luò)是解決此類問題的關(guān)鍵。另外,此類方法的生成模型和檢索模型大多是分開進(jìn)行的,在實際應(yīng)用中也存在困難,因此也需要進(jìn)一步研究端到端的生成模型。
在跨域圖像檢索中訓(xùn)練數(shù)據(jù)一直是令研究人員想要解決的問題,豐富的數(shù)據(jù)也是算法進(jìn)步和評估模型能力的基礎(chǔ)。因此本文在查閱跨域圖像檢索各領(lǐng)域的文獻(xiàn)后,梳理總結(jié)了11類25個不同領(lǐng)域的跨域圖像數(shù)據(jù)集,供未來的學(xué)者使用,數(shù)據(jù)集詳細(xì)介紹如表1所示,部分?jǐn)?shù)據(jù)集和檢索結(jié)果如圖11所示。
圖11 部分?jǐn)?shù)據(jù)集和檢索結(jié)果Fig.11 Part of dataset and retrieval result
表1 常用跨域圖像檢索數(shù)據(jù)集Table 1 Common datasets of cross-domain image retrieval
為更加清晰地展現(xiàn)各類方法在實際實驗中取得的成果,對上文綜述過的文獻(xiàn)從關(guān)鍵結(jié)構(gòu)、數(shù)據(jù)集和性能進(jìn)行對比總結(jié)。其中常用的評價指標(biāo)包括:準(zhǔn)確率(accuracy)、查準(zhǔn)率(precision)、查全率(recall)、平均精度均值(mean average precision)。為了更好地說明性能評價標(biāo)準(zhǔn),對檢索結(jié)果定義如表2所示。性能對比結(jié)果如表3、表4所示,兩種方法的綜合比較結(jié)果如表5所示。
表2 結(jié)果定義Table 2 Definition of search results
表3 (續(xù))
表3 基于特征空間遷移的跨域圖像檢索方法性能對比Table 3 Performance comparison of cross-domain image retrieval method based on feature space migration
表4 (續(xù))
表4 基于圖像域遷移的跨域圖像檢索方法性能對比Table 4 Performance comparison of cross-domain image retrieval method based on image domain adaptation
表5 跨域圖像檢索方法對比Table 5 Comparison of cross-domain image retrieval method
準(zhǔn)確率是正確預(yù)測的樣本占總樣本的比例,準(zhǔn)確率定義為:
查準(zhǔn)率是預(yù)測的正樣本中實際為正樣本的比例,查準(zhǔn)率定義為:
查全率是預(yù)測為真的正樣本占所有正樣本的比例,查全率定義為:
平均精度均值是多個檢索的平均精度(AP)的均值,AP是求出多個檢索查準(zhǔn)率的平均值,因此平均精度和平均精度均值定義為:
N表示正樣本數(shù),position(i)表示第i個正樣本在檢索結(jié)果中的位置,n代表檢索的次數(shù)。
從文獻(xiàn)[20]和文獻(xiàn)[34]的實驗數(shù)據(jù)可以看出,文獻(xiàn)[20]通過預(yù)訓(xùn)練的單結(jié)構(gòu)神經(jīng)網(wǎng)絡(luò)模型在Flickr15k數(shù)據(jù)集上mAP為47.38%,而文獻(xiàn)[34]通過三重網(wǎng)絡(luò)在Flickr15k數(shù)據(jù)集上提高了檢索性能,達(dá)到了54.48%,證明了通過增加神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)可以提高檢索效果。而文獻(xiàn)[27]和文獻(xiàn)[59]的實驗數(shù)據(jù)相比,兩者都是通過孿生神經(jīng)網(wǎng)絡(luò)添加注意力機制在SYSU-MM01數(shù)據(jù)集上進(jìn)行實驗,但是文獻(xiàn)[59]針對紅外圖像提出了新的損失函數(shù)幫助檢索性能提高了14.1個百分點。文獻(xiàn)[32]和文獻(xiàn)[66]則證明了通過對特征進(jìn)行二進(jìn)制編碼可以有效提高檢索效率,兩者的檢索時間分別為3×10-2s和6.5×10-5s。文獻(xiàn)[44]通過孿生神經(jīng)網(wǎng)絡(luò)解決數(shù)據(jù)過少的問題,文獻(xiàn)[80]則利用編碼器解碼器生成樣本來解決圖像域之間的鴻溝,實驗結(jié)果從原有的87.1%提高到了99.9%,證明了圖像域遷移的方法可以解決跨域圖像檢索問題。文獻(xiàn)[90]利用生成對抗網(wǎng)絡(luò)生成新樣本并獲得了89.14%的檢索結(jié)果,但是其性能沒有特征空間遷移方法中文獻(xiàn)[31]的高,表明圖像域遷移方法想進(jìn)一步提高需要完善生成模型的性能。
綜上所述,隨著針對圖像特征、網(wǎng)絡(luò)結(jié)構(gòu)和各類損失函數(shù)的改進(jìn),基于特征空間遷移的跨域圖像檢索方法性能逐漸增強,檢索精度較高,但是關(guān)于檢索速度以及內(nèi)存占用方面沒有提及。而針對編碼空間建模的方法加入了哈希學(xué)習(xí)后,精度上有所下降,但是在輕量化模型方面取得了不錯的效果,因此如何保證精度的情況下減少檢索時間和內(nèi)存占用是未來需要研究的內(nèi)容。基于圖像域遷移的跨域圖像檢索方法是未來最值得關(guān)注的方向,隨著生成模型的性能提高,越來越多的跨域圖像檢索領(lǐng)域開始使用生成模型減少圖像域之間的鴻溝,此外在訓(xùn)練樣本不足時也能通過生成模型增加樣本數(shù)量,幫助模型學(xué)習(xí)特征。雖然在精度上沒有基于特征空間遷移方法突出,但是由于對訓(xùn)練樣本沒有過高的要求,也讓它成為近年來最熱門的研究方向。
跨域圖像檢索是一個重要的研究課題,旨在解決跨視覺域圖像檢索時的域間差異。本文深入分析了跨域圖像檢索問題,對跨域圖像檢索進(jìn)行了綜述,以促進(jìn)相關(guān)研究。實現(xiàn)跨域圖像檢索對于社會多個領(lǐng)域研究有著重要意義,隨著上述方法取得了一定成果,跨域圖像檢索的方法也在不斷改善和發(fā)展,但是目前也有一些問題需要未來進(jìn)一步解決。
(1)模型的自適應(yīng)?,F(xiàn)有跨域圖像檢索方法都是針對固定兩個域之間的,所提出的方法確實能夠在兩個特定視覺域之間獲得理想的檢索結(jié)果。然而,它們無法泛化到其他兩個域之間進(jìn)行檢索,而是需要重新訓(xùn)練模型。隨著圖像域種類越來越多,為不同視覺域都訓(xùn)練一個模型不現(xiàn)實。因此未來可以利用遷移學(xué)習(xí)的優(yōu)勢,將在一個視覺域訓(xùn)練的模型自適應(yīng)地遷移到另外一個視覺域,以此提高模型的泛化能力。
(2)基于特征空間遷移的弱監(jiān)督方法。在基于特征空間遷移的訓(xùn)練過程中,需要大量的樣本作為訓(xùn)練集。而如今多領(lǐng)域的跨域樣本數(shù)量并不能滿足需求,因此基于特征空間遷移的模型可能會面臨過擬合的問題。在未來,設(shè)計在弱監(jiān)督環(huán)境下使用的特征空間遷移方法是研究者需要研究的方向。
(3)模型實際部署。現(xiàn)有方法通過添加不同功能的分支結(jié)構(gòu)達(dá)到了提高跨域檢索準(zhǔn)確度的目的,但是受到實際應(yīng)用時設(shè)備的限制,這種方法無法在現(xiàn)實的移動設(shè)備中部署。因此,探索更輕量化的跨域圖像檢索模型也是未來研究的趨勢。
(4)模型不可跨多域檢索。兩個域之間的圖像檢索是研究人員主要的研究方向,但是在大數(shù)據(jù)的背景下對于模型可以跨多個域的檢索能力賦予了更大的期待。在未來,一定會有多視覺域的大型數(shù)據(jù)集,所以跨多域圖像檢索是該領(lǐng)域的一個研究難點也是未來需要突破的方向。