摘要:為了解決現(xiàn)有無監(jiān)督二元哈希方法由于存在較大量化損失而導(dǎo)致檢索精度較低的問題,在CIBHash方法的基礎(chǔ)上,提出了一種新的基于對(duì)比學(xué)習(xí)的無監(jiān)督三元哈希方法——CUTHash,將三元哈希編碼用于圖像檢索。具體來說,首先,使用融合了解耦對(duì)比損失的對(duì)比學(xué)習(xí)框架,在目標(biāo)數(shù)據(jù)集上進(jìn)行無監(jiān)督的圖像特征學(xué)習(xí);接著,為了得到三元哈希編碼,對(duì)學(xué)習(xí)到的圖像特征使用平滑函數(shù)進(jìn)行量化操作,解決離散函數(shù)量化后導(dǎo)致的零梯度問題;最后,應(yīng)用改進(jìn)后的對(duì)比損失,約束同屬一張圖像的增強(qiáng)視圖的特征在哈??臻g中盡可能地接近,從而使得三元哈希編碼具有一定的辨識(shí)力,使其更好地應(yīng)用于無監(jiān)督圖像檢索任務(wù)。在CIFAR-10、NUS-WIDE、MSCOCO以及ImageNet100數(shù)據(jù)集上進(jìn)行了大量對(duì)比實(shí)驗(yàn),取得了較當(dāng)前主流的無監(jiān)督哈希方法更好的檢索性能,從而驗(yàn)證了CUTHash方法的有效性。
關(guān)鍵詞:圖像檢索;無監(jiān)督哈希;對(duì)比學(xué)習(xí);三元哈希編碼;哈希量化
中圖分類號(hào):TP391文獻(xiàn)標(biāo)志碼:A文章編號(hào):1001-3695(2023)05-023-1434-07doi:10.19734/j.issn.1001-3695.2022.09.0479
Abstract:Tosolvetheproblemoflowretrievalaccuracyoftheexistingunsupervisedbinaryhashingmethodduetoquantizationloss,thispaperproposedanewunsupervisedternaryhashmethodbasedoncontrastivelearningreferstotheCIBHashmethod——CUTHash,usingternaryhashcodeforimageretrieval.Specifically,themethodusedthecontrastivelearningframeworkofdecoupledlosstoacquireacompactandaccuratefeaturerepresentationforeachsample.Then,toobtaintheternaryhashcodes,itusedthesmoothfunctionafterthefeaturerepresentationwhichcouldsolvethezerogradientproblemcausedbythequantificationofdiscretefunctions.Finally,therepresentationoftheenhancedviewofthesameimageaftertheapplicationofimprovedcontrastivelosscouldpreservethesemanticinformationandimprovethediscriminativeabilityintheHammingspace.Sothatitcanbebetterappliedtounsupervisedimageretrievaltasks.Itperformedalargenumberofcompa-rativeexperimentsontheCIFAR-10,NUS-WIDE,MSCOCO,andImageNet100datasets,andachievedbetterretrievalperformancesthanthecurrentmainstreamunsupervisedhashmethod,thusverifyingtheeffectivenessoftheCUTHashmethod.
Keywords:imageretrieval;unsupervisedhash;contrastivelearning;ternaryhashcode;hashquantization
0引言
近年來,數(shù)據(jù)的爆炸式增長(zhǎng)促使人們對(duì)具有更小存儲(chǔ)成本和更高計(jì)算效率的圖像檢索方法展開研究。其中,哈希方法作為一種用于大規(guī)模圖像檢索的手段之一,近年來得到了突飛猛進(jìn)的發(fā)展。它將高維連續(xù)空間的數(shù)據(jù)映射到低維二進(jìn)制空間,使用量化后的二元哈希編碼表示每個(gè)數(shù)據(jù)項(xiàng),并保存了項(xiàng)的相似信息,顯著地減少了內(nèi)存占用;同時(shí),在漢明空間中進(jìn)行檢索,提高了搜索效率。
雖然使用二元哈希編碼用于圖像檢索具有上述優(yōu)勢(shì),但是大多數(shù)哈希方法將連續(xù)值映射到離散值的過程中所造成的量化損失是不可避免的,此類直接將連續(xù)空間接近“0”的特征表示賦值為-1或1的處理方式,會(huì)導(dǎo)致較大的量化誤差,從而引起檢索精度的喪失。因此,有研究工作指出:引入第三態(tài)“0”來專門表示這種數(shù)值很小的特征值,再將這種{0,±1}表示的三元哈希編碼用于圖像檢索時(shí),其性能往往優(yōu)于二元哈希編碼,且在不損失計(jì)算時(shí)間的同時(shí),具有更好的檢索效率[1]。例如文獻(xiàn)[2]中,首先使用極化損失訓(xùn)練AlexNet[3]生成特征值,然后通過隨機(jī)選擇的兩個(gè)閾值將特征進(jìn)行三元化,再將得到的三元哈希編碼用于圖像檢索,取得了很好的效果。還有其他的工作圍繞三元哈希編碼的量化以及相關(guān)度計(jì)算展開研究[1,4]。然而這些現(xiàn)有的工作大多是圍繞有監(jiān)督學(xué)習(xí)生成三元哈希編碼,仍需要利用標(biāo)簽信息來指導(dǎo)視覺特征的學(xué)習(xí),沒有考慮無監(jiān)督條件下的三元哈希編碼學(xué)習(xí)情況。
考慮到無監(jiān)督二元哈希方法相關(guān)研究廣泛,在現(xiàn)有的無監(jiān)督二元哈希方法[5~7]中,CIBHash[8]方法取得了較高的檢索精度。與傳統(tǒng)的基于偽標(biāo)簽或數(shù)據(jù)重建的無監(jiān)督哈希方法不同,CIBHash方法首次將對(duì)比學(xué)習(xí)引入二元哈希編碼的學(xué)習(xí)中。受此啟發(fā),本文也同樣引入對(duì)比學(xué)習(xí),結(jié)合三元哈希編碼具有較高檢索性能的優(yōu)點(diǎn),使用對(duì)比學(xué)習(xí)框架從輸入中挖掘數(shù)據(jù)的語(yǔ)義信息來學(xué)習(xí)三元哈希編碼,然后將其應(yīng)用于無監(jiān)督圖像檢索任務(wù)。然而,將對(duì)比學(xué)習(xí)應(yīng)用于哈希編碼學(xué)習(xí)還有以下兩種問題有待完善:a)負(fù)樣本依賴,為了防止對(duì)比學(xué)習(xí)框架坍塌,傳統(tǒng)對(duì)比學(xué)習(xí)需要構(gòu)造大量的負(fù)樣本;為此,就需要大批量數(shù)據(jù),設(shè)計(jì)專門的數(shù)據(jù)優(yōu)化器以及特殊的數(shù)據(jù)結(jié)構(gòu)來保存負(fù)樣本;這種操作會(huì)使得對(duì)比學(xué)習(xí)框架變得更加復(fù)雜,同時(shí)也會(huì)影響到特征的學(xué)習(xí)效果;b)通常對(duì)比學(xué)習(xí)框架的學(xué)習(xí)效率與批次大小有著直接的聯(lián)系,在較小的batchsize下,其學(xué)習(xí)效果較差。
針對(duì)上述兩個(gè)問題,首先,本文選擇使用VIbCReg[9]對(duì)比學(xué)習(xí)框架來學(xué)習(xí)圖像特征,主要是考慮到該框架采用信息最大化的方法來進(jìn)行無監(jiān)督的圖像特征學(xué)習(xí)。不僅使其在不依賴負(fù)樣本的情況下也能取得較好的學(xué)習(xí)效果,同時(shí)還能有效地避免框架出現(xiàn)坍塌的問題。其次,引入解耦對(duì)比損失(decoupledcontrastivelearningloss,LDC)[10],進(jìn)一步解決樣本中的正負(fù)耦合效應(yīng)問題,從而使得VIbCReg對(duì)比學(xué)習(xí)框架在較小batchsize下具有較好的學(xué)習(xí)效果。最后,為了使得整體方法能夠進(jìn)行端到端的訓(xùn)練,從而保證特征學(xué)習(xí)和后續(xù)三元化得到的哈希編碼最優(yōu),參照文獻(xiàn)[4]的做法,在改進(jìn)框架后連上一個(gè)平滑函數(shù),作為三元哈希編碼的輸出。
綜上所述,本文提出了一種基于對(duì)比學(xué)習(xí)的無監(jiān)督三元哈希方法,用于圖像檢索任務(wù),具體來說貢獻(xiàn)如下:
a)引入解耦對(duì)比學(xué)習(xí)損失,使得VIbCReg對(duì)比學(xué)習(xí)框架在解決負(fù)樣本依賴問題的同時(shí),進(jìn)一步提升該框架在小batchsize下的效果;
b)將改進(jìn)后的對(duì)比學(xué)習(xí)框架應(yīng)用于三元哈希編碼的學(xué)習(xí),提升了圖像檢索性能;
c)在多個(gè)基準(zhǔn)圖像數(shù)據(jù)集上進(jìn)行了大量實(shí)驗(yàn),以評(píng)估所提出的三元哈希方法的性能;實(shí)驗(yàn)結(jié)果表明,本文所提方法在所有三個(gè)數(shù)據(jù)集上與當(dāng)前主流方法相比有顯著優(yōu)勢(shì)。
1相關(guān)工作
在有監(jiān)督圖像檢索領(lǐng)域,基于三元哈希編碼的圖像檢索方法取得了較高的檢索精度,但是由于帶標(biāo)簽的數(shù)據(jù)難以獲取,大部分有監(jiān)督學(xué)習(xí)方法難以在實(shí)際圖像檢索任務(wù)中部署,所以,本文專注于無監(jiān)督三元哈希編碼方法的研究。同時(shí)參考對(duì)比學(xué)習(xí)在無監(jiān)督學(xué)習(xí)領(lǐng)域的應(yīng)用成果,引入對(duì)比學(xué)習(xí)框架進(jìn)行圖像特征與三元哈希編碼的學(xué)習(xí)。
1.1對(duì)比學(xué)習(xí)
自監(jiān)督表示學(xué)習(xí)(self-supervisedlearning,SSL)主要是利用前置任務(wù)從大規(guī)模的無監(jiān)督數(shù)據(jù)中挖掘自身的監(jiān)督信息,通過這種構(gòu)造的監(jiān)督信息對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,從而可以學(xué)習(xí)到對(duì)下游任務(wù)有價(jià)值的表征。對(duì)比學(xué)習(xí)是自監(jiān)督表示學(xué)習(xí)中的一種,從防止框架坍塌的角度,可大致把現(xiàn)有的對(duì)比學(xué)習(xí)方法劃分為基于負(fù)樣本的方法[11,12]、基于聚類的方法[13,14]、基于不對(duì)稱網(wǎng)絡(luò)結(jié)構(gòu)[15,16]的方法,以及基于信息最大化[17,18]的方法。有關(guān)每一類方法的特點(diǎn)描述如下:
a)基于負(fù)樣本的方法,MoCo[11]和SimCLR[12]框架將屬于同一幅圖像的兩個(gè)增強(qiáng)視圖作為正樣本,拉近正樣本在投影空間的距離;而同一批次中的其他圖像作為這兩個(gè)視圖的負(fù)樣本,使其與正樣本的特征分離。然而,這些方法需要一個(gè)大批次或需要某種記憶庫(kù)來保存大量的負(fù)樣本,增加了額外的訓(xùn)練成本。
b)基于聚類的方法在訓(xùn)練中加入了聚類操作,其中以SWAV[14]框架為代表,它約束正樣本所屬相同的聚類類別而不是直接對(duì)比其特征,這種做法提高了訓(xùn)練速度,但其性能依賴聚類的效果,缺乏穩(wěn)定性。
c)基于不對(duì)稱網(wǎng)絡(luò)結(jié)構(gòu)的方法,如BYOL[15]、SimSiam[16]框架等。不同于SimCLR框架的對(duì)稱暹羅結(jié)構(gòu),BYOL框架在其中一支網(wǎng)絡(luò)的編碼器后添加了一個(gè)預(yù)測(cè)器,整體形成了一個(gè)不對(duì)稱的結(jié)構(gòu),并且使用動(dòng)量更新機(jī)制分別對(duì)兩個(gè)網(wǎng)絡(luò)的參數(shù)進(jìn)行更新。SimSiam框架的結(jié)構(gòu)與BYOL相同,但是它提出“stop-gradient”操作來進(jìn)行參數(shù)更新。這些基于不對(duì)稱網(wǎng)絡(luò)結(jié)構(gòu)的方法雖然有效地防止了模型坍塌,但是并不能從理論層面解釋該類方法取得較好效果的原因。
d)基于信息最大化的框架BarlowTwins[17]既沒有使用負(fù)樣本,也沒有使用其他結(jié)構(gòu)使整體變得不對(duì)稱,而是替換了一個(gè)新的損失函數(shù),來顯式地防止框架坍塌。VIbCReg框架同樣地提出了一個(gè)新的目標(biāo)函數(shù),并將其分解為三項(xiàng):用不變項(xiàng)學(xué)習(xí)不同視圖的不變性、用方差正則項(xiàng)避免模型特征的崩潰、用協(xié)方差正則項(xiàng)將信息分散到特征的不同維度。VICReg[18]框架僅僅使用了最簡(jiǎn)單的暹羅結(jié)構(gòu),就取得了很好的實(shí)驗(yàn)結(jié)果。后續(xù)的VIbCReg[9]框架在VICReg框架的基礎(chǔ)上改進(jìn)了協(xié)方差項(xiàng),從而具有更好的穩(wěn)定性。由于VIbCReg框架具有上述優(yōu)點(diǎn),本文將其引入圖像特征與三元哈希編碼的學(xué)習(xí)中,并將對(duì)比損失應(yīng)用到量化后的三元哈希編碼上,從而保證相似圖像的哈希編碼在漢明空間中保留較高的相似性。
1.2三元哈希編碼
針對(duì)二元哈希編碼量化時(shí)存在較大的量化誤差問題,部分工作提出了有監(jiān)督三元哈希編碼的方法,并將其用于圖像檢索等領(lǐng)域,取得了較好的效果。如DPN[2]使用監(jiān)督的類信息,利用極化損失約束輸出,然后通過隨機(jī)選取的兩個(gè)閾值m和-m,將位于區(qū)間(-m,m)內(nèi)的連續(xù)特征值映射到0,大于等于m的值映射成+1,小于等于-m的值映射成-1,從而得到三元哈希編碼,并以此為依據(jù)進(jìn)行圖像檢索,提高了檢索精度。STC[19]框架同樣在投影空間中使用三元哈希編碼表示特征,然后利用兩個(gè)查找表來輔助搜索,有效地降低了搜索的時(shí)間復(fù)雜度。由于STC框架使用的編碼方式保留了編碼與噪聲之間較多的互信息,部分工作[20,21]在STC框架的基礎(chǔ)上進(jìn)行了改進(jìn),將其應(yīng)用于隱私保護(hù)搜索。還有相關(guān)的工作針對(duì)三元哈希編碼的量化以及相關(guān)度計(jì)算展開研究,文獻(xiàn)[16]提出了一種尋找更好閾值的方法,并且進(jìn)一步證明了三元哈希編碼能夠減少鄰域歧義,使用Lukasiewicz或者Kleene公理計(jì)算的三元漢明距離分布比二元漢明距離分布具有更好的可分性,且在不損失計(jì)算時(shí)間的同時(shí),具有更好的檢索效率。為了將特征和三元哈希編碼進(jìn)行聯(lián)合學(xué)習(xí),文獻(xiàn)[4]提出了一個(gè)平滑的三元函數(shù)用于替代離散函數(shù),來解決哈希編碼的量化問題。本文也是基于這種做法,在無監(jiān)督特征學(xué)習(xí)之后,采用文獻(xiàn)[4]所提連續(xù)函數(shù)來得到三元哈希編碼,從而解決離散函數(shù)反向傳播導(dǎo)致的零梯度問題,并將特征與三元哈希編碼作為整體進(jìn)行端到端的訓(xùn)練。
2CUTHash方法
2.1問題定義
本文的目標(biāo)是學(xué)習(xí)一個(gè)映射R:x→t,其中R表示整個(gè)方法,x是包含在N個(gè)訓(xùn)練樣本數(shù)據(jù)集D中的圖像,D={xn}Nn=1,t是一個(gè)T位的三元哈希編碼,其中t∈{0,±1}T。經(jīng)過該方法將高維的圖像表示映射成一個(gè)低維的三元哈希編碼,并且盡可能地保留圖像的語(yǔ)義信息。如果原始圖像是相似的,那么生成的三元哈希編碼之間的三元漢明距離相對(duì)較小,反之三元漢明距離較大。
2.2方法框架
如圖1所示,本文方法由四個(gè)部分組成:
參見整體方法結(jié)構(gòu)如圖1所示。給定N個(gè)樣本,從中選擇Aug和Aug′兩種不同的數(shù)據(jù)增強(qiáng)策略。x(1)i=Aug(xi)和x(2)i=Aug′(xi)分別表示第i個(gè)圖像的兩個(gè)不同數(shù)據(jù)增強(qiáng)視圖。
圖1整體方法結(jié)構(gòu)
Fig.1Overallmethodstructure
訓(xùn)練階段:以x(1,2)為輸入,經(jīng)過一個(gè)encoder,分別將視圖編碼為y(1)=E(x(1)),y(2)=E(x(2))。然后,projector進(jìn)一步將這些表示處理為投影特征z(1)=P(y(1)),z(2)=P(y(2)),投影特征的維度與目標(biāo)哈希編碼長(zhǎng)度相同。投影特征接著輸入三元哈希層,sim_t(1)=TH(z(1)),sim_t(2)=TH(z(2))。最后,使用對(duì)比損失約束sim_t(1)、sim_t(2),從而使得相似圖像的哈希編碼在漢明空間中保持相似性。
檢索階段:將投影特征z通過離散函數(shù)映射成三元哈希編碼,t(1)=TH(z(1)),t(2)=TH(z(2)),t(1,2)={0,±1}T。然后按照映射規(guī)則{-1,0,1}→{01,00,10},將三元哈希編碼t(1,2)中的每一位,用雙位的{0,1}編碼表示,最后使用Lukasiewicz公理計(jì)算三元漢明距離,依據(jù)距離大小來進(jìn)行圖像的檢索。
2.3projector結(jié)構(gòu)
在基于暹羅結(jié)構(gòu)的對(duì)比學(xué)習(xí)框架中,圖像特征經(jīng)過了兩次非線性映射,分別是encoder和projector。在訓(xùn)練時(shí),特征依次經(jīng)過encoder和projector,訓(xùn)練完成之后,將訓(xùn)練好的框架遷移到下游任務(wù)時(shí),projector會(huì)被丟棄,而只采用經(jīng)過encoder的特征值。因?yàn)閜rojector是接近任務(wù)的高層網(wǎng)絡(luò),會(huì)編碼更多與對(duì)比學(xué)習(xí)任務(wù)相關(guān)的信息;低層encoder則會(huì)編碼更多與任務(wù)無關(guān)的通用細(xì)節(jié)信息。而對(duì)比學(xué)習(xí)的目標(biāo)是學(xué)習(xí)一個(gè)通用的特征提取網(wǎng)絡(luò),然后用于下游任務(wù),如果保留過多對(duì)比學(xué)習(xí)訓(xùn)練任務(wù)相關(guān)的特征,對(duì)于不同的下游任務(wù),可能會(huì)帶來負(fù)面影響。CIBHash方法將對(duì)比學(xué)習(xí)框架用于哈希編碼學(xué)習(xí)時(shí),也是仿照這樣的做法,在encoder得到連續(xù)特征值之后,直接使用線性層將特征轉(zhuǎn)變?yōu)樾枰木S度。與CIBhash的方法不同,本文選擇保留projector結(jié)構(gòu),因?yàn)楸疚牡哪康氖橇炕蟮墓>幋a仍能保留哈希任務(wù)相關(guān)的語(yǔ)義信息,加入projector結(jié)構(gòu)從而保留哈希任務(wù)相關(guān)的特征更符合無監(jiān)督哈希學(xué)習(xí)的目標(biāo)。此外本文發(fā)現(xiàn),使用VIbCReg框架進(jìn)行哈希編碼學(xué)習(xí)時(shí),簡(jiǎn)單的批量歸一化就能提高框架的效率。因此,本文使用批量歸一化代替projector中的IterativeNormalization[23],并將批量歸一化應(yīng)用于projector中最后的輸出。projector的結(jié)構(gòu)如圖2所示。
圖2projector結(jié)構(gòu)
Fig.2Structureofprojector
如圖2中顯示,將經(jīng)過encoder的特征y輸入projector,y∈EuclidExtraaBpN×4096,其中N為批次大小。經(jīng)過第一層全連接層后,y的維度變?yōu)镹×2048,接著特征依次經(jīng)過批量歸一化以及ReLU層。經(jīng)過第二個(gè)全連接層,特征維度保持不變,然后依次經(jīng)過批量歸一化以及ReLU層。再將其輸入第三個(gè)全連接層,該特征維度變?yōu)镹×T,其中T表示最終三元哈希編碼長(zhǎng)度,將批量歸一化應(yīng)用于最后的輸出,得到特征z。
2.4三元哈希層
為了得到三元哈希編碼,最簡(jiǎn)單的方法是使用一個(gè)離散函數(shù),將經(jīng)過projector得到的連續(xù)特征值z(mì)中每個(gè)維度上設(shè)置兩個(gè)閾值m和-m,從而進(jìn)行三元化操作。離散函數(shù)如式(1)所示。
g(x)=-1ifx≤m0-mlt;xlt;m1otherwise(1)
由于三元化的不可微性,不能直接將該操作納入到整個(gè)方法的聯(lián)合訓(xùn)練中。但是,如果使特征的優(yōu)化與三元化互相獨(dú)立,并不能保證后續(xù)三元化得到的三元哈希編碼達(dá)到最優(yōu)。
為此,本文采用了文獻(xiàn)[4]中的方法,在訓(xùn)練階段,采用連續(xù)的平滑函數(shù)f(x)來代替離散哈希函數(shù)g(x),再逐步地訓(xùn)練過平滑函數(shù)可以逐漸逼近本文所期望的離散函數(shù),從而達(dá)到優(yōu)化三元哈希編碼的效果。
f(x)=tanh((x/φ)k)(2)
其中:φ為常數(shù);k為大于1的奇數(shù),即k=3、5、7、9、11等。參數(shù)φ與式(1)中的閾值參數(shù)m相同,設(shè)置為0.5,并且參考文獻(xiàn)[4]在訓(xùn)練過程中依次增加k的值,使其逐漸逼近離散三元函數(shù)。
在檢索階段,本文使用式(1)來代替式(2),獲得三元哈希編碼t(1)、t(2),并進(jìn)一步將三元哈希編碼t中的每一位通過映射{-1,0,1}→{01,00,10},轉(zhuǎn)換為雙位{01}編碼bincode(1)和bincode(2),然后使用Lukasiewicz公理計(jì)算三元漢明距離,以此為根據(jù)進(jìn)行圖像檢索。
三元漢明距離計(jì)算如式(3)所示。
THD=12∑(bincode(1)⊕bincode(2))(3)
其中:⊕表示異或運(yùn)算;∑表示對(duì)編碼中1的個(gè)數(shù)求和。
2.5損失函數(shù)
如圖1中損失函數(shù)階段所示,為學(xué)習(xí)到更優(yōu)的三元哈希編碼,設(shè)計(jì)了一個(gè)損失函數(shù),LCUTHash=αLVIB+βLDC,其中LVIB為對(duì)比損失,LDC為解耦對(duì)比損失,α和β為超參數(shù)。對(duì)比損失LVIB能在防止對(duì)比學(xué)習(xí)框架坍塌的同時(shí)學(xué)習(xí)較好的特征表示;LDC能夠進(jìn)一步地利用負(fù)樣本信息,解決樣本中的正負(fù)耦合效應(yīng),使得框架在較小batchsize下取得較好的效果。
訓(xùn)練過程中,增強(qiáng)視圖的連續(xù)特征經(jīng)過三元哈希層后得到sim_t(1)、sim_t(2)。為了使得數(shù)據(jù)樣本與它的增強(qiáng)樣本在哈希空間中盡可能地接近,從而使得量化后的三元哈希編碼具有一定的辨識(shí)力,本文直接將對(duì)比損失應(yīng)用到sim_t上。通過目標(biāo)函數(shù)的約束,可以有效地將原始圖像的語(yǔ)義信息保留在哈希編碼中,進(jìn)而在漢明空間進(jìn)行查找時(shí)能夠返回相似程度高的圖像。
在選擇對(duì)比學(xué)習(xí)框架方面,本文參考VIbCReg框架,該框架的損失函數(shù)包含方差正則化項(xiàng)、相似度損失項(xiàng)和協(xié)方差損失項(xiàng)三項(xiàng)。
3實(shí)驗(yàn)
3.1數(shù)據(jù)集
為了評(píng)估CUTHash方法的性能,本文遵循最近無監(jiān)督圖像檢索方法的實(shí)驗(yàn)協(xié)議[24],在四個(gè)公共基準(zhǔn)數(shù)據(jù)集上進(jìn)行了綜合實(shí)驗(yàn)。有關(guān)四個(gè)數(shù)據(jù)集的詳細(xì)信息如下:
a)CIFAR-10是一個(gè)流行的圖像數(shù)據(jù)集,共包含10個(gè)類別60000張圖像。本文參考兩種典型的實(shí)驗(yàn)設(shè)置,將數(shù)據(jù)集劃分為兩類。CIFAR-10(Ⅰ):對(duì)于每個(gè)類,隨機(jī)選擇1000張圖像作為查詢集,500張圖像作為訓(xùn)練集,將整個(gè)數(shù)據(jù)集中除去查詢集剩下的50000張圖像作為檢索數(shù)據(jù)庫(kù)。CIFAR-10(Ⅱ):每個(gè)類隨機(jī)選擇100張圖像作為查詢集,其余的59000圖像用做檢索數(shù)據(jù)庫(kù),從檢索數(shù)據(jù)庫(kù)中每個(gè)類隨機(jī)抽取500幅圖像進(jìn)行訓(xùn)練。
b)NUSWIDE包含269648張圖像,每張圖像都帶有多個(gè)標(biāo)簽,所有圖像共計(jì)81個(gè)類別。本文挑選了包含21個(gè)最常見類別的圖像,對(duì)總共169643張圖像進(jìn)行實(shí)驗(yàn)。隨機(jī)選擇每個(gè)類別500張共10500張圖像作為訓(xùn)練集;每個(gè)類別100張,共2100張圖像作為查詢集,將除去查詢集的其余圖像作為檢索數(shù)據(jù)庫(kù)。
c)MSCOCO是一個(gè)用于多任務(wù)的數(shù)據(jù)集。本文使用處理之后的圖像集合,包括80個(gè)類別共122218張圖像來進(jìn)行實(shí)驗(yàn)。從中隨機(jī)選擇5000張圖像作為查詢集,從剩余圖像中選取10000張圖像進(jìn)行訓(xùn)練,將除去查詢集和訓(xùn)練集的其余圖像作為檢索數(shù)據(jù)庫(kù)。
d)ImageNet100是ImageNet的一個(gè)子集,包含100個(gè)類別。按照設(shè)置,將100個(gè)類別的所有驗(yàn)證圖像作為查詢集。而檢索數(shù)據(jù)庫(kù)由128530張圖像組成,從其中每個(gè)類別隨機(jī)選取100張圖像用于訓(xùn)練。
3.2基線
為了評(píng)估CUTHash方法的有效性,本文首先選取了以下具有代表性的無監(jiān)督深度二元哈希方法來進(jìn)行對(duì)比實(shí)驗(yàn):DeepBit[7]、SGH[25]、BGAN[26]、BinGAN[27]、GreedyHash[28]、HashGAN[29]、DVB[30]、TBH[31]、CIBHash[5]。除此之外,由于缺乏無監(jiān)督的三元哈希工作,為了評(píng)估CUTHash方法的有效性,本文選取了三個(gè)典型的有監(jiān)督三元哈希方法,即DPN[2]、TH[1]以及THC[4]來進(jìn)行性能的比較驗(yàn)證。
3.3評(píng)價(jià)指標(biāo)
在實(shí)驗(yàn)中,使用平均精度均值(MAP)來衡量檢索性能。
依次改變分配給三元哈希編碼的比特?cái)?shù)[8],來衡量檢索方法的MAP值。
平均精度均值為每個(gè)查詢數(shù)據(jù)的精度均值(AP)的平均:
AP@K=∑Kr=1p(r)δ(r)(12)
其中:p(r)為前r個(gè)檢索樣本的準(zhǔn)確率;δ(r)表示第r個(gè)返回的檢索樣本是否與查詢集中某查詢樣本標(biāo)簽相同,相同則取值為1,不同為0。若查詢集數(shù)據(jù)量為M,則平均精度均值MAP的計(jì)算公式為
MAP@K=1M×∑Mi=1APi(13)
MAP數(shù)值越大,表示檢索精度越高,所評(píng)估方法效果越好。
3.4實(shí)驗(yàn)設(shè)置
參考文獻(xiàn)[5]中的實(shí)驗(yàn)數(shù)據(jù)增強(qiáng)方法,本文以順序方式隨機(jī)應(yīng)用隨機(jī)裁剪、水平翻轉(zhuǎn)處理、顏色抖動(dòng)、灰度處理以及高斯模糊操作。對(duì)于訓(xùn)練集中的某一張圖像,經(jīng)過兩次數(shù)據(jù)增強(qiáng),得到兩張不同的視圖,然后輸入特征提取器。對(duì)于網(wǎng)絡(luò)訓(xùn)練,特征提取器是由預(yù)訓(xùn)練的VGG16實(shí)現(xiàn)的,并使用了一個(gè)投影頭替換其中的FC8層。在訓(xùn)練過程中,與文獻(xiàn)[5]相同,本文同樣固定了在ImageNet數(shù)據(jù)集上預(yù)先訓(xùn)練的VGG16參數(shù),而只訓(xùn)練新添加的投影頭以及三元哈希層。Adam優(yōu)化器的學(xué)習(xí)率設(shè)置為0.001,損失函數(shù)的三個(gè)參數(shù)α、β、τ分別設(shè)置為0.4、1、0.5。batchsize設(shè)置為256,在三個(gè)數(shù)據(jù)集上均迭代了150個(gè)epoch,整個(gè)方法使用PyTorch實(shí)現(xiàn),硬件使用NVIDIATeslaV100圖像處理器。
3.5實(shí)驗(yàn)結(jié)果
3.5.1檢索結(jié)果對(duì)比
參照前文的設(shè)計(jì),本節(jié)將CUTHash方法與其他基線方法進(jìn)行了對(duì)比實(shí)驗(yàn),具體實(shí)驗(yàn)結(jié)果如表1、2所示。表1和2分別展示了不同的二元哈希方法、三元哈希方法的哈希編碼長(zhǎng)度從16位依次變化到64位時(shí),在三個(gè)基準(zhǔn)數(shù)據(jù)集上獲得的平均精度均值。從表1可以看出,CUTHash方法檢索性能總體上超越了無監(jiān)督二元哈希方法,在三個(gè)數(shù)據(jù)集上都取得了較高的檢索分?jǐn)?shù),從而驗(yàn)證了本文方法的優(yōu)勢(shì)。同時(shí),本文也發(fā)現(xiàn)CUTHash方法在三個(gè)數(shù)據(jù)集上的檢索效果比較好,但隨著哈希編碼長(zhǎng)度的縮短,性能也在下降,原因是哈希編碼長(zhǎng)度越短,能夠保留下來的語(yǔ)義信息就會(huì)越少,從而影響最終的檢索效果。
從表2中可以看出,與現(xiàn)有效果最好的有監(jiān)督三元哈希方法THC相比較,本文所提的CUTHash方法在NUS-WIDE數(shù)據(jù)集、ImageNet100數(shù)據(jù)集上的MAP較高,在NUS-WIDE數(shù)據(jù)集上的MAP分?jǐn)?shù)達(dá)到了THC方法的95%,甚至在ImageNet100數(shù)據(jù)集上的MAP分?jǐn)?shù)超過了現(xiàn)有的有監(jiān)督三元哈希方法;相比之下,CUTHash方法在CIFAR-10(Ⅱ)數(shù)據(jù)集上表現(xiàn)效果就不如另外的兩個(gè)數(shù)據(jù)集,但MAP分?jǐn)?shù)平均能達(dá)到THC方法的74%。總的來說,本文使用對(duì)比學(xué)習(xí)框架來學(xué)習(xí)三元哈希編碼,然后用于無監(jiān)督圖像檢索任務(wù)是可行且有效的。
CUTHash方法在MSCOCO、ImageNet100數(shù)據(jù)集上的MAP分?jǐn)?shù)高,原因是這兩個(gè)數(shù)據(jù)集的訓(xùn)練集使用了10000張圖片樣本,通過設(shè)置的數(shù)據(jù)增強(qiáng)方法,將一張圖片裁剪成兩張?jiān)鰪?qiáng)視圖,進(jìn)一步地提高了訓(xùn)練集的樣本數(shù)量,因此最后的檢索精度略高。但是CUTHash方法在CIFAR-10(Ⅱ)的數(shù)據(jù)集上的效果就沒有那么明顯,其原因是CIFAR-10(Ⅱ)數(shù)據(jù)集采用的訓(xùn)練集樣本數(shù)量相對(duì)較少,同時(shí)原始圖片分辨率較低。而無監(jiān)督特征提取器需要輸入大小為224×224的圖像,使得對(duì)比學(xué)習(xí)框架不能從隨機(jī)縮放裁剪的視圖中很好地學(xué)到圖片的語(yǔ)義信息,降低了后續(xù)三元哈希編碼的辨識(shí)性。
在NUS-WIDE數(shù)據(jù)集上的檢索效果最好是因?yàn)樵摂?shù)據(jù)集是一個(gè)多標(biāo)簽數(shù)據(jù)集,只要檢索返回圖像中的標(biāo)簽信息有一個(gè)與查詢圖像相同就視為正確,這無疑降低了檢索的難度。同時(shí)該數(shù)據(jù)集的訓(xùn)練數(shù)據(jù)最多,CUTHash方法訓(xùn)練得更充分,對(duì)比學(xué)習(xí)框架能從中挖掘出更多的相似信息。此外,該數(shù)據(jù)集的查詢集樣本比MSCOCO、ImageNet100查詢集數(shù)量少,因此也減少了檢索出錯(cuò)的機(jī)率,MAP的數(shù)值也就相應(yīng)地比這兩個(gè)數(shù)據(jù)集高。
3.5.2消融實(shí)驗(yàn)
本節(jié)進(jìn)行消融實(shí)驗(yàn)比較,從而驗(yàn)證本文方法每部分的有效性。針對(duì)projector結(jié)構(gòu)、VIbCReg框架中的對(duì)比損失LVIB和解耦對(duì)比損失LDC三個(gè)部分共設(shè)計(jì)五個(gè)變體,分別為:
a)CUTHash:即本文所提的方法,包含projector結(jié)構(gòu)、對(duì)比損失LVIB和解耦對(duì)比損失LDC三個(gè)部分。
b)C-L:針對(duì)projector結(jié)構(gòu)進(jìn)行消融實(shí)驗(yàn),使用線性層代替projector,其余設(shè)置保留。
c)C-S:針對(duì)projector結(jié)構(gòu)進(jìn)行消融實(shí)驗(yàn),并使用iterativenormalization代替批量歸一化操作,應(yīng)用于projector的輸出,其余設(shè)置保留。
d)C-V:針對(duì)對(duì)比學(xué)習(xí)框架VIbCReg進(jìn)行消融實(shí)驗(yàn),移除VIbCReg框架中的損失LVIB,其余設(shè)置保留。
e)C-D:針對(duì)解耦對(duì)比損失LDC進(jìn)行消融實(shí)驗(yàn),移除LDC,其余設(shè)置保留。
分別在CIFAR-10(I)和NUSWIDE數(shù)據(jù)集,三元哈希編碼長(zhǎng)度為16位的條件下進(jìn)行消融實(shí)驗(yàn),并根據(jù)消融實(shí)驗(yàn)的結(jié)果,觀察每個(gè)實(shí)驗(yàn)元素對(duì)方法的結(jié)果影響。實(shí)驗(yàn)結(jié)果如表3所示。
從表3可以看出:a)在兩個(gè)數(shù)據(jù)集上,CUTHash均優(yōu)于C-L,這表明采用projector替換線性層,經(jīng)過projector的特征具有更多與哈希任務(wù)相關(guān)的特性,可以更多地保留所生成的三元哈希編碼中的語(yǔ)義信息;b)C-S在兩個(gè)數(shù)據(jù)集上的檢索結(jié)果均降低,這表明projector結(jié)構(gòu)中,相比于iterativenormalization操作,批量歸一化操作能夠加速神經(jīng)網(wǎng)絡(luò)訓(xùn)練,并且對(duì)于哈希任務(wù)有提升效果;c)對(duì)比CUTHash與C-V可知,整個(gè)方法采用信息最大化的對(duì)比學(xué)習(xí)框架進(jìn)行訓(xùn)練,減少了該框架對(duì)負(fù)樣本規(guī)模的依賴,使用對(duì)比損失LVIB,約束同屬一張圖像的增強(qiáng)視圖的特征在哈??臻g中盡可能地接近,從而提高哈希編碼的辨識(shí)力;d)CUTHash在兩個(gè)數(shù)據(jù)集上的檢索效果均優(yōu)于C-D,這表明在采用VIbCReg框架的基礎(chǔ)上,加入另一項(xiàng)解耦對(duì)比損失,有助于改進(jìn)對(duì)比學(xué)習(xí)框架的性能,從而進(jìn)一步提高檢索的精度。
3.5.3參數(shù)敏感性實(shí)驗(yàn)
本節(jié)對(duì)CUTHash方法中的超參數(shù)進(jìn)行了敏感性分析。主要討論損失函數(shù)中的三個(gè)參數(shù)α、β、τ以及batchisze大小對(duì)方法性能的影響。本文在CIFAR-10(I)數(shù)據(jù)集上并且三元哈希編碼長(zhǎng)度為16位的情況下進(jìn)行了實(shí)驗(yàn)。首先,為了驗(yàn)證損失函數(shù)LVIB的超參數(shù)α對(duì)方法性能的影響,將β的取值固定為1,α在0.1~1內(nèi)變化,結(jié)果如圖3所示。
從圖3中可以看出:固定參數(shù)β,隨著α的增加,MAP大體呈現(xiàn)先增加后減少的趨勢(shì),并且在α為0.4時(shí)表現(xiàn)最好。因此,在之后的實(shí)驗(yàn)中,固定α的值為0.4。
隨后,為了驗(yàn)證損失函數(shù)LVIB的超參數(shù)β對(duì)方法性能的影響,固定參數(shù)α的值為0.4,β在0.2~2內(nèi)變化,實(shí)驗(yàn)結(jié)果如圖4所示。
從圖4中可以看出,β為1時(shí)表現(xiàn)最好。因此,本文在其他實(shí)驗(yàn)中固定α=0.4和β=1。
τ是控制數(shù)據(jù)分布集中程度的溫度參數(shù)。為了討論τ對(duì)于方法性能的影響,固定損失項(xiàng)參數(shù)α=0.4和β=1,并通過在0.1~1變化溫度參數(shù)τ的取值,結(jié)果如圖5所示。
從圖5中可以看出,τ在取值0.5時(shí),CUTHash方法的圖像檢索分?jǐn)?shù)MAP最高。參照上述實(shí)驗(yàn)結(jié)果,在本文的實(shí)驗(yàn)中,將三個(gè)參數(shù)的取值設(shè)定為α=0.4、β=1以及τ=0.5。
此外,由于解耦對(duì)比損失LDC能夠提高對(duì)比學(xué)習(xí)框架在小批量數(shù)據(jù)下的學(xué)習(xí)效果,于是本文研究了batchsize大小對(duì)所提方法性能的影響。同時(shí),為了更好地展示CUTHash方法的檢索效果隨著批量大小的變化,避免編碼長(zhǎng)度太短對(duì)實(shí)驗(yàn)結(jié)果的影響,本文在三元哈希編碼長(zhǎng)度為64位的情況下,在CIFAR-10(I)數(shù)據(jù)集上改變batchsize的大小,結(jié)果顯示在圖6中。
可以看到,即使在batchsize取值16時(shí),MAP也能達(dá)到0.64以上的水平,超過CIBHash在哈希編碼長(zhǎng)度為64時(shí),batchsize為256時(shí)的效果。而隨著batchsize的增加,性能穩(wěn)定上升;當(dāng)batchsize等于256時(shí),性能達(dá)到最好;而當(dāng)batchsize繼續(xù)增加時(shí),MAP呈現(xiàn)下降趨勢(shì)。由此可見,CUTHash方法的性能會(huì)受到batchsize大小的影響,并且當(dāng)batchsize設(shè)定為256時(shí),CUTHash方法的性能達(dá)到最佳。因此,參照上述實(shí)驗(yàn)結(jié)果,在本文實(shí)驗(yàn)中,固定batchsize大小為256。
3.5.4可視化分析
為了驗(yàn)證使用CUTHash方法進(jìn)行檢索返回圖像的準(zhǔn)確率,將三元哈希編碼的長(zhǎng)度固定為64,從CIFAR-10(I)的三個(gè)類別中任選一張圖像作為檢索圖像,返回前10個(gè)搜索的圖像。如果返回圖像的類別和檢索圖像的類別相同,則視為正確。如圖7所示,CIFAR-10(I)數(shù)據(jù)集的top10平均檢索精度可以達(dá)到96.7%,這說明了本文所提CUTHash方法具有較高的查詢準(zhǔn)確率。
此外,為了更加直觀地展示CUTHash方法的性能,分別將CIFAR-10(I)數(shù)據(jù)集上運(yùn)用CIBHash、CUTHash方法所得到的64位三元哈希編碼投射到一個(gè)二維平面上,使用t-SNE來顯示特征的分布,其中每種顏色表示不同的類別標(biāo)簽。如圖8所示,通過CUTHash方法生成的三元哈希編碼明顯地分散了類間數(shù)據(jù)樣本,相較于CIBHash,每個(gè)類別較容易區(qū)分。
4結(jié)束語(yǔ)
針對(duì)無監(jiān)督哈希編碼學(xué)習(xí)問題,本文提出了一種基于對(duì)比學(xué)習(xí)的三元哈希方法。采用對(duì)比學(xué)習(xí)框架,聯(lián)合特征與三元哈希編碼的學(xué)習(xí),提升了三元哈希編碼的辨識(shí)力。在四個(gè)常用于評(píng)估哈希方法的數(shù)據(jù)集上進(jìn)行了大量的對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,本文方法在高分辨率的單標(biāo)簽和多標(biāo)簽數(shù)據(jù)集中均取得了較好的性能,能很好地適應(yīng)無監(jiān)督哈希檢索任務(wù)。但本文方法模型的健壯性并不能令人十分滿意,由于隨機(jī)裁剪的存在,使得該方法對(duì)于低分辨率的數(shù)據(jù)集的效果提升不明顯,所以在今后的工作中考慮使用更好的裁剪方法,得到準(zhǔn)確的對(duì)比圖像以提高方法的學(xué)習(xí)能力,同時(shí)如何在訓(xùn)練中動(dòng)態(tài)地選擇兩個(gè)閾值,從而獲得辨識(shí)度更高的三元哈希編碼也是值得探討的問題。
參考文獻(xiàn):
[1]LiuChang,F(xiàn)anLixin,NgKW,etal.Ternaryhashing[EB/OL].(2021-03-16)[2022-11-18].https://doi.org/10.48550/arxiv.2103.09173.
[2]FanLixin,NgKW,JuCe,etal.Deeppolarizednetworkforsupervisedlearningofaccuratebinaryhashingcodes[C]//ProcofInternationalJointConferenceonArtificialIntelligence.2020:825-831.
[3]KrizhevskyA,SutskeverI,HintonG,etal.ImageNetclassificationwithdeepconvolutionalneuralnetworks[J].CommunicationsoftheACM,2017,60(6):84-90.
[4]ChenMingrui,LiWeiyu,LuWeizhi.Deeplearningtoternaryhashcodesbycontinuation[J].ElectronicsLetters,2021,5(24):925-926.
[5]李長(zhǎng)升,閔齊星,成雨蓉,等.捕獲局部語(yǔ)義結(jié)構(gòu)和實(shí)例辨別的無監(jiān)督哈希[J].軟件學(xué)報(bào),2021,32(3):742-752.(LiChangsheng,MinQixing,ChengYurong,etal.Localsemanticstructurecapturedandinstancediscriminatedbyunsupervisedhashing[J].JournalofSoftware,2021,32(3):742-752.)
[6]楊粟,歐陽(yáng)智,杜逆索.基于相關(guān)度距離的無監(jiān)督并行哈希圖像檢索[J].計(jì)算機(jī)應(yīng)用,2021,41(7):1902-1907.(YangSu,OuyangZhi,DuNisuo.Unsupervisedparallelhashimageretrievalbasedoncorrelationdistance[J].JournalofComputerApplications,2021,41(7):1902-1907.)
[7]LinK,LuJiwen,ChenChusong,etal.Learningcompactbinarydescriptorswithunsuperviseddeepneuralnetworks[C]//ProcofIEEEConferenceonComputerVisionandPatternRecognition.Piscataway,NJ:IEEEPress,2016:1183-1192.
[8]QiuZexuan,SuQinliang,OuZijing,etal.Unsupervisedhashingwithcontrastiveinformationbottleneck[C]//ProcofInternationalJointConferenceonArtificialIntelligence.2021:959-965.
[9]LeeD,AuneE.VIbCReg:variance-invariance-better-covarianceregu-larizationforself-supervisedlearningontimeseries[EB/OL].(2021-01-12)[2022-11-18].https://doi.org/10.48550/arXiv.2109.00783.
[10]YehCH,HongCY,HsuYC,etal.Decoupledcontrastivelearning[C]//ProcofEuropeanConferenceonComputerVision.2022:668-684.
[11]HeKaiming,F(xiàn)anHaoqi,WuYuxin,etal.Momentumcontrastforunsupervisedvisualrepresentationlearning[C]//ProcofIEEE/CVFConferenceonComputerVisionandPatternRecognition.Piscataway,NJ:IEEEPress,2020:9729-9738.
[12]ChenT,KornblithS,NorouziM,etal.Asimpleframeworkforcon-trastivelearningofvisualrepresentations[C]//ProcofInternationalConferenceonMachineLearning.2020:1597-1607.
[13]CaronM,BojanowskiP,JoulinA,etal.Deepclusteringforunsupervisedlearningofvisualfeatures[C]//ProcofEuropeanConferenceonComputerVision.2018:132-149.
[14]CaronM,MisraI,MairalJ,etal.Unsupervisedlearningofvisualfeaturesbycontrastingclusterassignments[J].AdvancesinNeuralInformationProcessingSystems,2020,33:9912-9924.
[15]GrillJB,StrubF,AltchéF,etal.Bootstrapyourownlatent-anewapproachtoself-supervisedlearning[J].AdvancesinNeuralInformationProcessingSystems,2020,33:21271-21284.
[16]ChenXinlei,HeKaiming.Exploringsimplesiameserepresentationlearning[C]//ProcofIEEE/CVFConferenceonComputerVisionandPatternRecognition.Piscataway,NJ:IEEEPress,2021:15750-15758.
[17]ZbontarJ,LiJing,MisraI,etal.Barlowtwins:self-supervisedlear-ningviaredundancyreduction[C]//ProcofInternationalConfe-renceonMachineLearning.2021:12310-12320.
[18]BardesA,PonceJ,LeCunY.VICReg:variance-invariance-covarianceregularizationforself-supervisedlearning[C]//ProcofInternationalConferenceonLearningRepresentations.2022:1-9.
[19]FerdowsiS,VoloshynovskiyS,KostadinovD,etal.Fastcontentidentificationinhigh-dimensionalfeaturespacesusingsparseternarycodes[C]//ProcofWorkshoponInformationForensicsandSecurity.2016:1-6.
[20]RazeghiB,VoloshynovskiyS,KostadinovD,etal.Privacypreservingidentificationusingsparseapproximationwithambiguization[C]//ProcofWorkshoponInformationForensicsandSecurity.2017:1-6.
[21]RazeghiB,VoloshynovskiyS.Privacy-preservingoutsourcedmediasearchusingsecuresparseternarycodes[C]//ProcofInternationalConferenceonAcoustics,SpeechandSignalProcessing.Piscataway,NJ:IEEEPress,2018:1992-1996.
[22]LiuZhihao,WuJingzhu,F(xiàn)uLongsheng,etal.Improvedkiwifruitdetectionusingpre-trainedVGG16withRGBandNIRinformationfusion[J].IEEEAccess,2019,8:2327-2336.
[23]HuangLei,ZhouYi,ZhuFan,etal.Iterativenormalization:beyondstandardizationtowardsefficientwhitening[C]//ProcofIEEE/CVFConferenceonComputerVisionandPatternRecognition.2019:4874-4883.
[24]ZiebaM,SembereckiP,El-GaalyT,etal.BinGAN:learningcompactbinarydescriptorswitharegularizedGAN[J].AdvancesinNeuralInformationProcessingSystems,2018,31:3612-3622.
[25]DaiBo,GuoRuiqi,KumarS,etal.Stochasticgenerativehashing[C]//ProcofInternationalConferenceonMachineLearning.2017:913-922.
[26]SongJingkuang,HeTao,GaoLianli,etal.Binarygenerativeadversa-rialnetworksforimageretrieval[C]//ProcofAAAIConferenceonArtificialIntelligence.PaloAlto,CA:AAAIPress,2018:1-8.
[27]ZiebaM,SembereckiP,El-GaalyT,etal.BinGAN:learningcompactbinarydescriptorswitharegularizedGAN[J].AdvancesinNeuralInformationProcessingSystems,2018,31.
[28]SuShupeng,ZhangChao,HanKai,etal.GreedyHash:towardsfastoptimizationforaccuratehashcodinginCNN[C]//Procofthe32ndInternationalConferenceonNeuralInformationProcessingSystems.RedHook,NY:CurranAssociatesInc.,
2018:806-815.
[29]DizajiKG,ZhengFeng,SadoughiN,etal.Unsuperviseddeepgenera-tiveadversarialhashingnetwork[C]//ProcofIEEEConferenceonComputerVisionandPatternRecognition.Piscataway,NJ:IEEEPress,2018:3664-3673.
[30]ShenYuming,LiuLi,ShaoLing.Unsupervisedbinaryrepresentationlearningwithdeepvariationalnetworks[J].InternationalJournalofComputerVision,2019,127(11-12):1614-1628.
[31]ShenYuming,QinJie,ChenJiaxin,etal.Auto-encodingtwin-bottleneckhashing[C]//ProcofIEEE/CVFConferenceonComputerVisionandPatternRecognition.Piscataway,NJ:IEEEPress,2020:2818-2827.