郁 延 珍
(復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院 上海 201203)
隨著大規(guī)模圖像檢索需求的日益增加,為了解決使用實(shí)值特征進(jìn)行圖像檢索效率較低的問題,哈希方法開始被用來將高維的圖像數(shù)據(jù)映射到緊湊的二進(jìn)制編碼空間,產(chǎn)生可以近似地保留圖像原始空間信息的哈希碼[3-5]。在基于哈希的圖像檢索中,圖像由二進(jìn)制碼而不是實(shí)值特征表示,檢索的時(shí)間和空間開銷都大大降低,因而能夠在數(shù)據(jù)庫中更快地檢索到用戶所需要的圖像信息。
近年來,隨著深度學(xué)習(xí)理論的飛速發(fā)展,以卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neutral Network,CNN)為代表的多種神經(jīng)網(wǎng)絡(luò)在諸如圖像分類[6-8]、物體檢測(cè)[9]、人臉識(shí)別[10]以及其他視覺任務(wù)[11-12]領(lǐng)域不斷取得突破。這些任務(wù)的成功表明從CNN上學(xué)得的特征可以很好地捕捉到圖像的潛在語義結(jié)構(gòu)信息。
深度學(xué)習(xí)理論的飛速發(fā)展及其在眾多領(lǐng)域的成功應(yīng)用,向我們證明了CNN網(wǎng)絡(luò)的強(qiáng)大學(xué)習(xí)能力。然而,主流的深度學(xué)習(xí)方法往往使用較高維度的特征,這極大地增加了圖像檢索的時(shí)間和空間開銷。為了提高檢索的效率,哈希方法,如LSH[19]開始應(yīng)用于圖像檢索領(lǐng)域,哈希特征的使用大大降低了圖像檢索在空間和時(shí)間上的開銷。然而,哈希方法的檢索準(zhǔn)確率往往取決于它們所使用的特征,而手工編碼的特征只能編碼線性特征,無法捕捉圖像的深層語義信息。
最近,很多基于卷積神經(jīng)網(wǎng)絡(luò)的哈希方法被提出,如文獻(xiàn)[1-2,14-15,23,26-27],用來解決快速圖像檢索的問題。這些方法表明:深度卷積神經(jīng)網(wǎng)絡(luò)可以有效地編碼非線性函數(shù),圖像特征及其對(duì)應(yīng)的哈希函數(shù)都可以通過深度卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)得到。
文獻(xiàn)[2]通過挖掘深度卷積網(wǎng)絡(luò)中的一個(gè)隱藏層來代表決定圖像標(biāo)簽的隱藏信息,并通過哈希得到了可用于大規(guī)模圖像檢索的特征。文獻(xiàn)[23]通過挖掘圖像對(duì)之間的相似性矩陣來學(xué)習(xí)哈希編碼。文獻(xiàn)[1]利用圖像的相似信息訓(xùn)練網(wǎng)絡(luò)并提取特征,將求特征和哈希結(jié)合在同一個(gè)網(wǎng)絡(luò)中,避免了二次優(yōu)化的問題。文獻(xiàn)[14]通過將CNN卷積層的特征進(jìn)行組合,將圖像的局部特征應(yīng)用于尺度變化的圖像實(shí)例檢索并取得了較好的效果。在人臉識(shí)別領(lǐng)域中,DeepID2[13]首次將人臉的分類信息和驗(yàn)證信息聯(lián)系在一起,通過擴(kuò)大類間的距離并減小類內(nèi)距離大大提升了人臉識(shí)別算法的準(zhǔn)確率,但是這些方法存在以下缺點(diǎn),從而限制了檢索準(zhǔn)確率的提升:
1) 只使用了分類信息和驗(yàn)證信息的一種;
2) 沒有考慮數(shù)據(jù)不平衡的問題。
本文將圖像表示和哈希方法結(jié)合起來,提出了深度多監(jiān)督哈希DMSH,該方法從特征和哈希兩個(gè)角度來入手,使用多監(jiān)督信息來對(duì)網(wǎng)絡(luò)進(jìn)行調(diào)整,從而獲得更優(yōu)的哈希特征。實(shí)驗(yàn)表明,該方法比目前主流的方法檢索效果更好。本文工作的貢獻(xiàn)主要如下:
1) 提出了一個(gè)深度多監(jiān)督網(wǎng)絡(luò)模型(DMSH)來學(xué)習(xí)哈希編碼,使樣本之間的非線性關(guān)系可以被有效編碼。
2) 采用多監(jiān)督的方式,同時(shí)使用分類信息和驗(yàn)證信息來學(xué)習(xí)得到可區(qū)分的哈希編碼。
3) 針對(duì)正負(fù)樣本不平衡問題,采用了合適的方式進(jìn)行處理,解決了樣本不平衡的問題。
在圖像檢索領(lǐng)域,特征的魯棒性、可區(qū)分性以及編碼緊湊性對(duì)于提高圖像檢索的準(zhǔn)確率和效率至關(guān)重要。為了能夠同時(shí)滿足這三個(gè)方面的要求,提高圖像檢索的表現(xiàn),本文提出了一種深度多監(jiān)督哈希(DMSH)方法。
我們從DenseNet[24]得到啟發(fā),使用Block作為網(wǎng)絡(luò)的基礎(chǔ)結(jié)構(gòu),在每個(gè)Block內(nèi)部,層與層之間直接連接,保證了最大信息傳輸。DMSH網(wǎng)絡(luò)包含38個(gè)Block結(jié)構(gòu),每個(gè)結(jié)構(gòu)兩兩相連,后接兩個(gè)全連接層和一個(gè)特征層。DMSH網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
圖1 DMSH網(wǎng)絡(luò)結(jié)構(gòu)
目標(biāo)函數(shù)通過可區(qū)分項(xiàng)(分類信息、驗(yàn)證信息)以及哈希項(xiàng)來優(yōu)化網(wǎng)絡(luò),從而學(xué)習(xí)到具有可區(qū)分性的哈希特征。具體來說,網(wǎng)絡(luò)模型通過頂層的三個(gè)約束任務(wù)學(xué)習(xí)得到:
1) 通過分類任務(wù),增加圖像的類間距離;
2) 利用驗(yàn)證任務(wù),減小圖像的類內(nèi)距離;
3) 通過哈希監(jiān)督,獲得有效的哈希編碼。
訓(xùn)練模型時(shí),圖像以組為單位進(jìn)入網(wǎng)絡(luò),先經(jīng)過一個(gè)卷積層,然后經(jīng)過多個(gè)Block結(jié)構(gòu)以及其后的卷積采樣層,最后經(jīng)過兩個(gè)全連接層和一個(gè)特征層,分別進(jìn)入分類、驗(yàn)證和哈希分支。
在驗(yàn)證分支中,在網(wǎng)絡(luò)內(nèi)部組合成圖像對(duì),并根據(jù)標(biāo)簽信息來判斷兩圖像是否相似。
為了保證編碼的可區(qū)分性,學(xué)習(xí)到的特征應(yīng)該能很好地預(yù)測(cè)圖像的標(biāo)簽信息。因此,分類任務(wù)使用softmax層將每幅圖像分類到不同的n類中,softmax層輸出圖像在n類上的概率分布。輸入圖像i,損失函數(shù)表達(dá)式為:
(1)
圖像檢索的準(zhǔn)確率相似圖像對(duì)的特征也盡量相似,非相似圖像對(duì)的特征也盡量不相似。在衡量特征相似程度時(shí),一般采用三種方法,分別為:L1、L2和余弦相似性。因?yàn)榫W(wǎng)絡(luò)最終輸出結(jié)果為哈希特征,而L2在歐氏空間和漢明空間上一致,因此我們使用L2距離衡量特征之間的相似性。
驗(yàn)證任務(wù)的目的是使相似的圖像映射成相似的特征,非相似圖像映射成非相似的特征。因此,相似圖像對(duì)的特征應(yīng)該越近越好,而非相似的圖像對(duì)特征之間的距離應(yīng)該足夠大。
在圖像配對(duì)時(shí),非相似圖像對(duì)數(shù)要遠(yuǎn)多于相似圖像的對(duì)數(shù),從而造成了正負(fù)樣本不平衡問題。某些分類任務(wù)中,非平衡數(shù)據(jù)的存在,甚至造成了正樣本準(zhǔn)確率接近100%,而負(fù)樣本的準(zhǔn)確率卻只有0~10%。因此我們需要對(duì)這種不平衡問題進(jìn)行處理。應(yīng)對(duì)數(shù)據(jù)不平衡問題時(shí)常用的方法包括采樣、數(shù)據(jù)加成、加權(quán)等方法[25]。根據(jù)本文的情況,由于數(shù)據(jù)樣本足夠多且比例相差不是特別懸殊,因此本文采用加權(quán)的方法來解決數(shù)據(jù)不平衡問題,通過添加懲罰項(xiàng),增加相似圖像對(duì)的權(quán)重,降低非相似圖像對(duì)的權(quán)重,使得網(wǎng)絡(luò)能夠取得較好的效果。
基于以上考慮,我們?cè)O(shè)計(jì)了驗(yàn)證任務(wù)的損失函數(shù):
L2(a1,a2)=αδ(y1=y2)J(a1,a2)+
βδ(y1≠y2)K(a1,a2)
(2)
對(duì)于所有的圖像對(duì),驗(yàn)證任務(wù)的損失函數(shù)為:
(3)
式中:ai∈{+1,-1},i∈{1,2,…,N}。
經(jīng)過實(shí)驗(yàn)我們發(fā)現(xiàn),處理數(shù)據(jù)不平衡后,網(wǎng)絡(luò)性能會(huì)有2%~5%的提升。
為了降低圖像檢索的空間和時(shí)間開銷,本文將網(wǎng)絡(luò)最終的輸出為二進(jìn)制哈希碼。然而,如果直接將輸出限定為二進(jìn)制碼,反向傳播將變得很困難。而如果忽視這個(gè)限制,歐式空間和漢明空間會(huì)有很大的差異,從而造成檢索準(zhǔn)確率的下降。針對(duì)這個(gè)問題,常用的方法是使用sigmoid函數(shù)或者tanh函數(shù)來近似表示閾值,但是,使用這些非線性的函數(shù)會(huì)使網(wǎng)絡(luò)收斂速度變慢。因此,本文在網(wǎng)絡(luò)輸出上直接進(jìn)行正則化來輸出近似二值的特征。
網(wǎng)絡(luò)使用歐氏距離對(duì)輸出做一個(gè)二進(jìn)制的限制,使輸出近似二值的特征。我們使用基于L2的正則化。為了使輸出接近-1或+1,通過增加限制項(xiàng),使得輸出的每一維數(shù)據(jù)的絕對(duì)值與1的方差最大和最小化,即:
(4)
式中:a是一個(gè)k維的向量。
有了這個(gè)限制,網(wǎng)絡(luò)產(chǎn)生的輸出可以滿足近似二進(jìn)制的要求。此外,我們也測(cè)試了L1正則化的方法,最后證明L2優(yōu)于L1。
另外,對(duì)特征加入了平衡性的因素,假設(shè)網(wǎng)絡(luò)中每個(gè)哈希碼輸出的+1和-1的個(gè)數(shù)盡可能相同,這個(gè)要求可以通過讓每個(gè)訓(xùn)練樣本輸出的每個(gè)bit有50%的概率為+1,50%的概率為-1來達(dá)到,如下式所示:
(5)
本文方法受到了文獻(xiàn)[15,17]的啟發(fā),也使用類似的方法來達(dá)到平衡性的要求,提高了特征的表現(xiàn)。
根據(jù)上文所述,總體的損失函數(shù)如下:
(6)
式中:wi為權(quán)重系數(shù)。
對(duì)于輸入的任意圖像,都可以從特征層提取一個(gè)k維的哈希特征(k=12,24,36,48 bit)。哈希碼可以通過使用sgn()函數(shù)獲得,當(dāng)ai>0時(shí),sgn()=1; 反之sgn()=-1。
為了證明本文方法的有效性,我們?cè)趦蓚€(gè)廣泛使用的數(shù)據(jù)集(CIFAR-10、NUS-WIDE)上進(jìn)行實(shí)驗(yàn)。
在快速圖像檢索領(lǐng)域,CIFAR-10和NUS-WIDE是兩個(gè)常用的數(shù)據(jù)集,將本文所提到的方法與其他主流方法進(jìn)行了充分的比較。
CIFAR-10:該數(shù)據(jù)集由60 000幅32×32的圖像組成,共分為10個(gè)互不相交的類,每類6 000幅圖像。圖像類別由手工標(biāo)注。
NUS-WIDE:該數(shù)據(jù)集由269 648幅從Flicker上得到的圖像組成。每一幅圖像被手工標(biāo)注為81個(gè)類別中的某個(gè)或某幾個(gè)用于模型評(píng)估。參考DSH的方法,使用最常用的21個(gè)類別,每個(gè)類別下至少包含5 000幅圖像,共計(jì)195 834幅。
在基于CNN的哈希方法中,直接使用圖像作為網(wǎng)絡(luò)的輸入,對(duì)于傳統(tǒng)方法,使用512維的GIST特征作為輸入。
在我們的實(shí)驗(yàn)中,擁有相同標(biāo)簽的圖像被歸于相似圖像,而標(biāo)簽均不相同的圖像被認(rèn)為是非相似圖像。對(duì)于CIFAR-10,來自相同類的圖像被認(rèn)為是相似圖像,反之則認(rèn)為是非相似圖像。對(duì)于NUS-WIDE,如果兩幅圖像至少共享一個(gè)標(biāo)簽,則認(rèn)為它們是相似的,反之認(rèn)為它們是非相似的。
參照文獻(xiàn)[8,23,28],我們使用Mean Average Precision (MAP) 作為評(píng)價(jià)指標(biāo)。將數(shù)據(jù)集隨機(jī)劃分為兩部分,分別作為訓(xùn)練集與驗(yàn)證集。給定一幅查詢圖像,如果查詢圖與被查詢圖共享一個(gè)標(biāo)簽,那么它們是相似的;否則,它們是非相似的。實(shí)驗(yàn)將數(shù)據(jù)集隨機(jī)劃分為兩部分,分別作為訓(xùn)練集與驗(yàn)證集。在本文中,訓(xùn)練集與驗(yàn)證集的比例為5∶1。
我們通過實(shí)驗(yàn)結(jié)果的對(duì)比來驗(yàn)證本文所提到方法的有效性。
將本文提出的DMSH模型的檢索效果與其他哈希方法進(jìn)行比較,包括四個(gè)傳統(tǒng)網(wǎng)絡(luò)LSH[9]、MLH[21]、BRE[22]、KSH[5]和四個(gè)深度學(xué)習(xí)網(wǎng)絡(luò)CNNH[23]、DNNH[16]、DSH[1]、SDH[20]。實(shí)驗(yàn)使用特征層作為輸出,特征維度分別為12 bit、24 bit、36 bit和48 bit。實(shí)驗(yàn)在兩個(gè)廣泛使用的圖像檢索數(shù)據(jù)集上進(jìn)行:CIFAR-10和NUS-WIDE。
表1給出了不同方法在CIFAR-10和NUS-WIDE上的MAP結(jié)果。哈希碼的長(zhǎng)度從12 bit到48 bit。數(shù)據(jù)顯示,本文所提出的DMSH對(duì)比其他方法在檢索準(zhǔn)確率上有較大的提升。特別地,DMSH在兩個(gè)數(shù)據(jù)集上的檢索性能比DSH分別提升了18.26%和10.26%。在CIFAR-10數(shù)據(jù)集上,在不同的編碼長(zhǎng)度上的檢索效果,MAP在24 bit時(shí)取得最好的效果,從而表明了特征不是越長(zhǎng)越好,緊湊的編碼由此產(chǎn)生。
表1 DMSH與其他方法在CIFAR-10和NUS-WIDE上的檢索MAP對(duì)比
NUS-WIDE方法12 bit24 bit36 bit48 bitLSH[19]0.332 90.339 20.345 00.347 4MLH[21]0.382 90.393 00.395 90.399 0BRE[22]0.355 60.358 10.354 90.359 2KSH[5]0.433 10.459 20.465 90.469 2CNNH[23]0.431 50.435 80.445 10.433 2DNNH[16]0.547 10.536 70.525 80.524 8DSH[1]0.548 30.551 30.558 20.562 1LEBV[30]0.588 20.592 00.599 30.597 8SHAN[29]0.566 00.577 90.580 30.582 9DMSH0.623 10.623 60.627 20.615 4
由表1可知:(1) 本文提出的方法取得了最好的效果并且相比其他哈希方法有顯著提升;(2) 通過將圖像特征和哈希特征結(jié)合到同一個(gè)模塊中,取得了較好的效果;(3) 深層哈希方法比淺層哈希方法效果好。
DMSH的優(yōu)勢(shì)主要體現(xiàn)在下面三個(gè)方面:(1) DMSH同時(shí)使用了分類和驗(yàn)證信息,而DSH只使用了驗(yàn)證信息;(2) DMSH的網(wǎng)絡(luò)結(jié)構(gòu)可以更好地挖掘圖像的深層信息,DSH使用圖的網(wǎng)絡(luò)略顯簡(jiǎn)單;(3) DMSH增加了對(duì)數(shù)據(jù)不平衡問題的處理。
表2給出了多監(jiān)督方法與非多監(jiān)督在CIFAR-10上的MAP結(jié)果,可以看出,使用單一驗(yàn)證網(wǎng)絡(luò)比單一分類網(wǎng)絡(luò)效果好,而二者結(jié)合起來能夠取得更好的效果。
表2 多監(jiān)督方法與非多監(jiān)督方法的MAP的比較
表3給出了真值特征、哈希特征及其之間的損失,數(shù)據(jù)表明,真值特征和哈希特征之間損失很小。
表3 NUS-WIDE哈希效果對(duì)比 %
通過實(shí)驗(yàn)和分析,我們可以得出以下幾個(gè)結(jié)論:
1) 本文所使用的真值特征和哈希特征之間的損失很??;
2) 同時(shí)使用分類信息和驗(yàn)證信息可以更好地保留圖像信息,提高檢索精度;
3) 深度學(xué)習(xí)網(wǎng)絡(luò)可以很好地編碼哈希函數(shù),獲得優(yōu)秀的哈希特征。
在實(shí)際應(yīng)用中,對(duì)于一個(gè)新的圖像,應(yīng)該能夠快速地提取其哈希編碼。為了比較DMSH與其他8個(gè)監(jiān)督哈希方法的編碼時(shí)間,在CIFAR-10數(shù)據(jù)集上分別對(duì)24 bit和48 bit的編碼長(zhǎng)度進(jìn)行了實(shí)驗(yàn)。為了全面的比較,分別在CPU和GPU上對(duì)基于卷積神經(jīng)網(wǎng)絡(luò)的方法進(jìn)行了實(shí)驗(yàn),得到傳統(tǒng)哈希方法的特征提取時(shí)間,實(shí)驗(yàn)結(jié)果如圖2所示。
圖2 新圖像的編碼時(shí)間/μs
可以看出,基于卷積神經(jīng)網(wǎng)絡(luò)的哈希方法對(duì)新圖像的編碼時(shí)間幾乎相同,將特征提取時(shí)間包括在內(nèi)后,深度學(xué)習(xí)哈希方法的編碼速度比傳統(tǒng)哈希方法快10倍以上。
本文提出了一種基于深度多監(jiān)督的快速圖像檢索方法,該方法通過端到端的方式同時(shí)得到圖像的真值特征和哈希特征,在此基礎(chǔ)上,使用多監(jiān)督信息,達(dá)到同時(shí)降低類內(nèi)距離,增加類間距離的目的,大大提升了圖像檢索網(wǎng)絡(luò)的準(zhǔn)確率和效率。我們將DMSH的檢索效果歸功于以下三個(gè)方面:1) 使用多監(jiān)督方法,在減小類內(nèi)距離的同時(shí)增加類間距離;2) 采用合適的方法解決了正負(fù)樣本不平衡的問題;3) 采用端到端的方式得到圖像的哈希特征,并使用正則化的方式降低了圖像真值特征和哈希特征二者的差異。實(shí)驗(yàn)表明,該方法可以快速將任意圖像編碼成緊湊的二進(jìn)制哈希編碼,有效提升圖像檢索的準(zhǔn)確率。