敖宇翔,滕少華,張 巍,滕璐瑤
1(廣東工業(yè)大學(xué) 計(jì)算機(jī)學(xué)院,廣州 510006)
2(Monash University,Melbourne 3800,Australia)
近年來,隨著互聯(lián)網(wǎng)應(yīng)用展開,文本、圖像、視頻等不同模態(tài)數(shù)據(jù)和高維度數(shù)據(jù)迅速增長.多模態(tài)、高維度信息檢索,尤其是跨模態(tài)檢索需求大幅度增長.例如,給定一個關(guān)于動物的文本查詢,人們不滿足于僅從文本中檢索到該動物的信息,還希望從圖像和視頻等其他模態(tài)中瀏覽到該動物.這使傳統(tǒng)的最近鄰搜索無法滿足人們的需求,跨模態(tài)哈希檢索技術(shù)因其檢索效率高、存儲成本低而使其廣受關(guān)注[1-3].源模態(tài)數(shù)據(jù)轉(zhuǎn)換為二進(jìn)制哈希碼后能大幅度降低存儲開銷,并且哈希碼之間的硬件級異或操作也提高了漢明空間[4,5]中的搜索效率.
早期的許多工作都只關(guān)注單一模態(tài)[6,7],即查詢和搜索結(jié)果處于同一模態(tài).近年來,跨模態(tài)哈希研究成為熱點(diǎn).跨模態(tài)哈希檢索又可分為無監(jiān)督和有監(jiān)督方法兩個大類.
無監(jiān)督跨模態(tài)哈希的重點(diǎn)是利用不同模態(tài)數(shù)據(jù)的特征信息來尋找模態(tài)之間的相關(guān)性.其中跨模態(tài)哈希(IMH)[8]使用模態(tài)內(nèi)和模態(tài)間關(guān)系來構(gòu)造親和矩陣 再利用親和矩陣學(xué)習(xí)公共子空間.協(xié)同矩陣分解哈希(CMFH)[9]將多模態(tài)數(shù)據(jù)利用矩陣分解,分解為模態(tài)特有特征和模態(tài)共有特征,再利用共有特征獲得哈希碼.融合相似度哈希(FSH)[10]首先獲取多模態(tài)數(shù)據(jù)之間的相關(guān)性并構(gòu)建融合相似度,然后在漢明空間中保持融合相似度.潛在語義稀疏哈希(LSSH)[11]將稀疏編碼和矩陣分解相結(jié)合來獲取潛在語義特征,然后利用潛在語義特征獲取哈希碼.
而有監(jiān)督跨模態(tài)哈希方法則使用監(jiān)督信息(標(biāo)簽)填補(bǔ)模態(tài)之間的巨大差異.在有監(jiān)督的跨模態(tài)哈希方法中,語義相關(guān)性最大化哈希(SCM)[12]通過標(biāo)簽構(gòu)造余弦相似度矩陣來學(xué)習(xí)哈希碼.有監(jiān)督矩陣分解哈希(SMFH)[13]利用標(biāo)簽余弦相似度構(gòu)建圖正則化來約束協(xié)同矩陣分解得到的公共特征,從而在生成的哈希碼中保持標(biāo)簽相似度.然而上述方法都在學(xué)習(xí)哈希碼的過程中松弛了離散約束,導(dǎo)致可能產(chǎn)生量化誤差,降低哈希碼的質(zhì)量[14].離散交叉模態(tài)哈希(DCH)[14]構(gòu)建了一個線性分類框架將哈希碼映射到標(biāo)簽矩陣,DCH采用循環(huán)坐標(biāo)下降策略(DCC)[15]逐位更新哈希碼,減少了松弛離散約束造成的量化誤差.可擴(kuò)展的離散矩陣分解哈希(SCRATCH)[16]通過集合矩陣分解和語義嵌入來學(xué)習(xí)一個潛在的語義空間,然后利用潛在語義空間離散生成哈希碼,減少了較大的量化誤差.
近年來,隨著深度學(xué)習(xí)應(yīng)用展開,一些基于深度學(xué)習(xí)的跨模態(tài)哈希方法開始出現(xiàn),并且表現(xiàn)不俗,比如:深度跨模態(tài)哈希[17],自監(jiān)督對抗哈希[18],循環(huán)一致性深度生成哈希[19]等.
雖然許多跨模態(tài)哈希方法已經(jīng)被提出,并有較好的效果,但仍有一些問題需要探討:1)一些方法只提取了多模態(tài)數(shù)據(jù)中的信息,而忽略了具有更強(qiáng)語義的標(biāo)簽信息;2)一些方法只將標(biāo)簽信息轉(zhuǎn)化為相似度并嵌入到哈希碼中,但這種轉(zhuǎn)化也將引起標(biāo)簽的語義信息損失;3)一些方法沒有使用核函數(shù),難以捕捉到源數(shù)據(jù)間的非線性關(guān)系.
針對這些問題,本文提出了一種新穎的跨模態(tài)哈希方法——標(biāo)簽局部結(jié)構(gòu)保持離散哈希(LSPDH),不同于其他使用流形學(xué)習(xí)的跨模態(tài)哈希方法,本文方法分為哈希碼學(xué)習(xí)和哈希函數(shù)學(xué)習(xí)兩步.哈希碼學(xué)習(xí)中運(yùn)用流形學(xué)習(xí)在漢明空間中保持標(biāo)簽信息的局部結(jié)構(gòu),并將標(biāo)簽信息映射到哈希碼矩陣,融入哈希碼學(xué)習(xí)過程,減少了標(biāo)簽信息轉(zhuǎn)化為局部保持圖約束所造成的語義信息損失;哈希函數(shù)學(xué)習(xí)中使用了核函數(shù)來獲取數(shù)據(jù)間的非線性關(guān)系.最后,通過實(shí)驗(yàn)驗(yàn)證了本方法的有效性.
本文組織如下:第2節(jié)提供了相關(guān)工作的概述,第3節(jié)闡述了所提出的方法,第4節(jié)是實(shí)驗(yàn)的詳細(xì)描述和綜合分析,最后在第5節(jié)中給出了結(jié)論.
本節(jié)將介紹一些與LSPDH相關(guān)的研究,主要包括流形學(xué)習(xí)在哈希學(xué)習(xí)中的應(yīng)用和兩步哈希學(xué)習(xí).
流形學(xué)習(xí)自提出以來就受到了廣泛的關(guān)注.近年來哈希學(xué)習(xí)的一些研究結(jié)果表明,保持流形結(jié)構(gòu)可以有效地提高哈希碼的質(zhì)量.流形學(xué)習(xí)的應(yīng)用首先從單模態(tài)哈希檢索開始.譜哈希(SH)[6]希望在漢明空間中距離較大的兩個數(shù)據(jù)點(diǎn)在源數(shù)據(jù)空間中具有較小的相似度,它將流形學(xué)習(xí)轉(zhuǎn)化為Laplace-Beltrami特征函數(shù),通過簡單的閾值操作得到哈希碼.在此基礎(chǔ)上,錨點(diǎn)圖哈希(AGH)[20]被提出來了,它利用錨點(diǎn)將鄰接矩陣替換為近似鄰接矩陣,降低了時間復(fù)雜度.此外,還有其他使用流形學(xué)習(xí)的哈希方法,如離散圖哈希(DGH)[21]和離散多視圖哈希(DMVH)[22].
上述方法只能在單一模態(tài)下工作.近年來,在跨模態(tài)哈希檢索領(lǐng)域,流形學(xué)習(xí)的使用也開始變得頻繁起來,例如,跨模態(tài)哈希(IMH)[8]通過結(jié)合模態(tài)間一致性和模態(tài)內(nèi)一致性來學(xué)習(xí)哈希碼.監(jiān)督矩陣分解哈希(SMFH)[14]利用標(biāo)簽信息來計(jì)算余弦相似矩陣,并結(jié)合協(xié)同矩陣分解生成哈希碼.融合相似度哈希(FSH)[10]構(gòu)造一個融合圖來定義多模態(tài)數(shù)據(jù)之間的相似度,然后在漢明空間中保持融合相似度.此外,還有其他使用流形學(xué)習(xí)的交叉模態(tài)方法提出[23].但是,上述方法和本文方法有很大的不同.上述方法大部分利用流形學(xué)習(xí)提取原始數(shù)據(jù)的特征,而本文方法則利用流形學(xué)習(xí)提取標(biāo)簽信息的特征,在漢明空間中保持標(biāo)簽信息的局部結(jié)構(gòu).
早期跨模態(tài)方面的研究都是采用一步哈希的學(xué)習(xí)策略.近年來的一些研究[24,25],將哈希學(xué)習(xí)分解為兩個步驟:1)哈希碼學(xué)習(xí);2)哈希函數(shù)學(xué)習(xí).該學(xué)習(xí)策略使哈希學(xué)習(xí)過程更加高效和靈活,從而影響了很多研究.語義保持哈希(SEPH)[24]為哈希碼的每一位學(xué)習(xí)一個核邏輯回歸函數(shù),但這會增加大量時間消耗.兩步跨模態(tài)哈希(TECH)[25]在哈希函數(shù)學(xué)習(xí)的過程中加入了相似度保持.其他一些方法則是使用簡單的線性回歸來學(xué)習(xí)哈希函數(shù)[23].將哈希學(xué)習(xí)過程分解為兩步,可以將哈希函數(shù)學(xué)習(xí)視為一個分類任務(wù),可以在哈希函數(shù)學(xué)習(xí)中使用更復(fù)雜、更強(qiáng)大的模型.與此同時,使用過于復(fù)雜的模型會顯著增加訓(xùn)練時間[24].在本文中,將使用核回歸函數(shù)作為哈希函數(shù).
本文方法基于如下直觀知識:如果兩個樣本數(shù)據(jù)(文本、圖像、視頻等)共有的標(biāo)簽類別數(shù)越多,代表其描述的內(nèi)容相似性越高,為使變換不丟失原有標(biāo)簽信息,因而,要求變換后樣本數(shù)據(jù)的漢明空間距離也應(yīng)該保持相近.基于此,本文思路如下:樣本數(shù)據(jù)共有的標(biāo)簽數(shù)越多,其描述的內(nèi)容相似度越高,漢明空間應(yīng)距離越相近,最后,生成的哈希碼的相似性也應(yīng)越高.由此,本文方法在哈希碼學(xué)習(xí)過程中,盡量保持?jǐn)?shù)據(jù)的標(biāo)簽信息不變,其示意圖如圖1所示.
圖1 LSPDH示意圖
為便于描述,本文中使用的符號在此統(tǒng)一給出.
針對多模態(tài)哈希檢索現(xiàn)存的問題,本文提出一個基于標(biāo)簽局部結(jié)構(gòu)保持的離散哈希方法,分為哈希碼學(xué)習(xí)和哈希函數(shù)學(xué)習(xí)兩步,詳述如下:
3.2.1 哈希碼學(xué)習(xí)
1)標(biāo)簽信息局部結(jié)構(gòu)保持
許多方法利用流形學(xué)習(xí)在漢明空間中保持多模態(tài)數(shù)據(jù)的結(jié)構(gòu)特征.本文的方法則盡量在漢明空間保持?jǐn)?shù)據(jù)的標(biāo)簽信息不變,這符合檢索目標(biāo).因此,采用Locality Preserving Projection(LPP)[26]的思想構(gòu)造流形相似度矩陣來保持標(biāo)簽信息的局部結(jié)構(gòu):
(1)
如上所示,首先需要找到每個樣本數(shù)據(jù)的K個最鄰近點(diǎn), 如果Yi是Yj的一個鄰近點(diǎn),或者Yj是Yi的一個鄰近點(diǎn)(K個最鄰近點(diǎn)之一),則在這兩個點(diǎn)之間的邊上賦予一個熱核權(quán)值(其權(quán)值與距離成反比),否則這個權(quán)值為0,式(1)中t為寬度參數(shù),本文設(shè)置為1.在計(jì)算完流形相似度矩陣之后,使用它來構(gòu)建圖約束,以此在漢明空間中保持標(biāo)簽信息的局部結(jié)構(gòu).然而,由于哈希碼具有離散性, 在直接約束哈希碼之后,哈希碼的優(yōu)化求解將很難進(jìn)行.解決方法是在潛在空間V上施加約束,并讓它近似哈希碼矩陣B:
s.t.B∈{-1,1}k*n
(2)
2)標(biāo)簽線性映射
利用投影矩陣把標(biāo)簽矩陣直接映射到哈希碼矩陣B,以此減少構(gòu)建相似度矩陣所造成的語義信息損失,并使哈希碼包含更多語義信息:
(3)
3)整體目標(biāo)函數(shù)
s.t.B∈{-1,1}k*n
(4)
其中α,β為權(quán)重參數(shù),分別控制了流形學(xué)習(xí)和標(biāo)簽線性映射對方法效果的影響.
4)優(yōu)化算法
顯然,直接優(yōu)化具有3個變量(B,V,Q)的非凸目標(biāo)函數(shù)是很困難的.然而,如果每一次只優(yōu)化一個變量,然后固定住其他變量,這就變成一個凸優(yōu)化問題.因此,采用迭代優(yōu)化策略更新B,V,Q來獲得一個近似解.
更新B:固定V,Q,更新B.目標(biāo)函數(shù)式(4)可寫為如下形式:
s.t.B∈{-1,1}k*n
(5)
將式(5)展開:
(6)
第1項(xiàng)(β+1)tr(BTB)為常數(shù)項(xiàng),將它和與B無關(guān)的項(xiàng)舍去可得:
(7)
=-tr((VT+βYTQT)B)
s.t.B∈{-1,1}k*n
(8)
最終,可以在保持離散約束的同時得到B矩陣的優(yōu)化結(jié)果:
B=sgn(V+βQY)
(9)
更新V: 固定B,Q,更新V.拋棄與V不相關(guān)的項(xiàng), 可以將目標(biāo)函數(shù)式(4)寫為:
(10)
令式(10)對V的導(dǎo)數(shù)為零,則有等式:
-2B+2V+αV(L+LT)=0
(11)
V=2B(2I+α(LT+L))-1
(12)
更新Q:固定B,V,更新Q.類似于更新V,留下和Q相關(guān)的項(xiàng):
(13)
令式(13)對Q的導(dǎo)數(shù)為零,則有等式:
-2BY’+2QYY’=0
(14)
Q=BYT(YYT)-1
(15)
為了得到式(4)的最終局部最優(yōu)解,可以使用迭代更新策略,通過上述步驟更新B,V,Q,直到它們收斂.
3.2.2 哈希函數(shù)學(xué)習(xí)
如前所述,LSPDH為兩步哈希方法.哈希碼學(xué)習(xí)所得到的哈希碼矩陣B是用于檢索的數(shù)據(jù)庫.對于樣本外的數(shù)據(jù),需要為它們學(xué)習(xí)哈希函數(shù),將它們映射到漢明空間.為了捕捉數(shù)據(jù)間的非線性特征,本文采用核回歸作為哈希函數(shù),可以使得一些低維線性不可分的數(shù)據(jù)映射到高維后線性可分.t模態(tài)的目標(biāo)哈希函數(shù)如下:
(16)
Pt=Bφ(Xt)T(φ(Xt)φ(Xt)T+λI)-1
(17)
(18)
算法1總結(jié)了哈希碼學(xué)習(xí)和哈希函數(shù)學(xué)習(xí)的整個優(yōu)化過程.
算法1.LSPDH的優(yōu)化算法
輸入:訓(xùn)練集Xt;標(biāo)簽值Y; 參數(shù)α,β,λ.
輸出:哈希碼B;哈希函數(shù)Pt.
1.將訓(xùn)練集映射到核空間;
2.隨機(jī)初始化V,Q, 將B的值全部賦為-1;
3.迭代
4.根據(jù)式(9)更新B;
5.根據(jù)式(12)更新V;
6.根據(jù)式(15)更新Q;
7.直到式(4)收斂或達(dá)到最大迭代次數(shù);
8.根據(jù)式(17)學(xué)習(xí)哈希函數(shù)Pt;
9.返回哈希碼B和哈希函數(shù)Pt.
式(9)和式(15)的時間復(fù)雜度分別為O(kn+kln)和O(knl+l2n+l3+kl2).式(16)的時間復(fù)雜度為O(d2+d2k+d2n+dkn),k為哈希碼長度,n為訓(xùn)練數(shù)據(jù)個數(shù),l為類別總數(shù),d表示使用φ(·)后的特征維數(shù).由于k,l< 在3個基準(zhǔn)數(shù)據(jù)集上進(jìn)行了充分實(shí)驗(yàn),并與6種近期跨模態(tài)哈希方法進(jìn)行了比較,驗(yàn)證了本文提出的跨模態(tài)哈希方法的有效性.所有實(shí)驗(yàn)都是在Intel Core I5-8300H CPU和16GB RAM平臺上進(jìn)行. LabelMe[28]:數(shù)據(jù)集包含2688個圖像-文本樣本對.數(shù)據(jù)集中有8個類別,每個樣本對都屬于其中一個類別.文本用245維詞頻特征向量表示,圖像則用512維Gist特征向量表示.在這個數(shù)據(jù)集中,隨機(jī)選取2016個樣本對作為訓(xùn)練集,剩下的672個樣本對作為測試集. MIRFlickr[29]:它包含了從Flickr網(wǎng)站上下載的25000個圖像-文本樣本對.每個樣本對都用24個標(biāo)簽中的一個或多個標(biāo)簽進(jìn)行標(biāo)記.圖像通過PCA降維后用150維的邊緣直方圖特征向量表示,對應(yīng)的文本也通過PCA降維后用500維的特征向量表示.隨機(jī)選取5%的樣本對作為查詢集,其余的作為訓(xùn)練集. NUS-WIDE[30]:它由從Flickr抓取的269,648個圖像-文本樣本對組成.每個樣本對至少有一個或多個標(biāo)簽.數(shù)據(jù)集的所有樣本對可分為81類.由于原始數(shù)據(jù)集中部分類別樣本對較少,因此選擇樣本對數(shù)量最大的10個類別作為實(shí)驗(yàn)數(shù)據(jù)集,共186577個樣本對.在每個實(shí)例中,圖像用500維的視覺詞袋 SIFT直方圖特征向量表示,對應(yīng)的文本用1000維的索引特征向量表示.為了減少計(jì)算量,在NUS-WIDE中隨機(jī)選擇5000個訓(xùn)練樣本對和1867個測試樣本對來訓(xùn)練和測試所有的方法. 將本文方法與6種近期的跨模態(tài)哈希方法進(jìn)行了比較.分別是SCM,SMFH,DCH,SCRATCH,GSPH,SDCH-KDA. SCM[13]利用標(biāo)簽信息構(gòu)造成對相似度矩陣,采用松弛離散策略來生成哈希碼,本文使用SCM_seq版本. SMFH[14]構(gòu)建了一種新的哈希協(xié)同矩陣分解框架,并利用圖正則化來提高哈希碼的質(zhì)量. DCH[12]構(gòu)建了一個線性分類框架,并采用DCC離散優(yōu)化策略減少量化誤差,提高哈希碼的質(zhì)量. SCRATCH[15]結(jié)合了集體矩陣分解和語義嵌入,以保持模態(tài)內(nèi)和模態(tài)間的相似性,并離散生成二進(jìn)制代碼. GSPH[31]在不同場景下,利用數(shù)據(jù)點(diǎn)之間的相似性學(xué)習(xí)哈希碼,同時為哈希碼的每一位學(xué)習(xí)一個核邏輯回歸模型. SDCH-KDA[32]將核判別分析(KDA)整合進(jìn)離散哈??蚣?提高了哈希碼的判別能力. 所有對比方法的源代碼都是公開的.在實(shí)驗(yàn)中設(shè)置了兩個任務(wù),一個是圖像查詢文本任務(wù),另一個是文本查詢圖像任務(wù).在NUS-WIDE, MIRFlickr數(shù)據(jù)集上α=3,β=5,μ={0.035,0.3},在LabelMe數(shù)據(jù)集上α=3.5,β=3,μ=0.035. 為了評價各方法的性能,采用了檢索領(lǐng)域常用的評價指標(biāo):平均精度均值(mAP).在計(jì)算mAP之前,需要計(jì)算平均精度(AP).給定一個查詢q和一個檢索到的實(shí)例列表R,q的AP定義如下: (19) 其中N是檢索集中與q真實(shí)相關(guān)的實(shí)例個數(shù),n檢索到的實(shí)例列表R的大小,δ(r)=1表示第r個被檢索到的實(shí)例與查詢q相關(guān),否則δ(r)=0,precision(r)表示被檢索到的第r個實(shí)例的精度.最后對所有查詢實(shí)例計(jì)算AP值,再進(jìn)行平均就可以得到mAP.此外還將采用precision-recall曲線作為評價指標(biāo).在所有的評價指標(biāo)中,評價指標(biāo)值越大代表效果越好. 表1總結(jié)了LSPDH和對比方法在3個數(shù)據(jù)集上的mAP值.從表1中可以得出如下結(jié)論: 表1 各方法在3個數(shù)據(jù)集上的mAP值 1)LSPDH的表現(xiàn)在文本查詢圖像任務(wù)中要優(yōu)于所有對比方法,在NUS-WIDE數(shù)據(jù)集圖像查詢文本任務(wù)中,32和128比特位上略弱于SDCH-KDA,這表明了LSPDH的有效性. 2)在LabelMe數(shù)據(jù)集32位圖像查詢文本和文本查詢圖像任務(wù)中,LSPDH的mAP對比最優(yōu)方法分別提升約1.1%、0.3%,而在128位下提升分別約為2.7%、1.2%.在MIRFlickr數(shù)據(jù)集32位同任務(wù)中,mAP分別提升近0.2%、1.4%,128位下分別提升近1.1%、2.7%.在NUS-WIDE數(shù)據(jù)集上,文本查詢圖像任務(wù)下32位提升約為0.9%,128位下提升約為2%,而圖像查詢文本任務(wù)下則和最優(yōu)方法差距在0.3%以內(nèi).可以看出LSPDH在文本查詢圖像任務(wù)中表現(xiàn)更佳,在圖像查詢文本任務(wù)中則表現(xiàn)一般,特別是在NUS-WIDE上,表現(xiàn)與SDCH-KDA相似,這可能因?yàn)?文本相對于圖像可以更好描述實(shí)例,同時文本特征向量和標(biāo)簽向量在結(jié)構(gòu)上也有一些相似之處,例如一段描述汽車的文本,它里面的某些表述可能就是這個文本的標(biāo)簽. 3)LSPDH在32位圖像查詢文本任務(wù)和文本查詢圖像任務(wù)中,平均提升很低,分別約為0.4%、0.8%,而在128位同任務(wù)下,平均提升分別約為1.3%、2%.可能的原因是低位數(shù)哈希碼包含的語義信息不足所導(dǎo)致的.此外可以發(fā)現(xiàn),大部分方法的性能會隨著哈希碼的位數(shù)增加而增加,其原因是更長的哈希碼可以包含更多的信息. 圖2展示了LSPDH和對比方法的precision-recall曲線,理論上,方法的mAP值越高,其precision-recall曲線也會越高.從圖2中可以得出如下結(jié)論: 圖2 LSPDH與對比方法的precision-recall曲線圖 LSPDH基本上高于所有對比方法,在NUS-WIDE圖像查詢文本任務(wù)上表現(xiàn)和SDCH-KDA相似,這與表1的觀察結(jié)果是一致的. 綜上所述,LSPDH與一些先進(jìn)的方法相比表現(xiàn)出了良好的性能,說明LSPDH可以學(xué)習(xí)到更加精確的哈希碼. 圖3顯示了目標(biāo)函數(shù)值在3個數(shù)據(jù)集上隨迭代次數(shù)的變化曲線.如圖3所示,LSPDH可以快速收斂.在NUS-WIDE和LabelMe數(shù)據(jù)集上,可以觀察到LSPDH在5次迭代中收斂,而在MIRFlickr數(shù)據(jù)集上,它在15次迭代中收斂.這說明本文提出的方法在大多數(shù)據(jù)集上的訓(xùn)練是有效率的. 圖3 收斂性分析 本節(jié)進(jìn)行了參數(shù)敏感性分析實(shí)驗(yàn)來分析各參數(shù)(α,β和μ)的變化對mAP的影響.參數(shù)α控制流形學(xué)習(xí)在方法中的影響程度,參數(shù)β控制標(biāo)簽線性映射在方法中的影響程度,參數(shù)μ控制正則化項(xiàng)的懲罰程度.在測試每個參數(shù)的同時保持其他參數(shù)不變.3個參數(shù)的變化曲線如圖4所示.從圖4中可觀察到,本文方法可以在參數(shù)(α,β和μ)較大范圍內(nèi)表現(xiàn)良好,同時可以觀察到α和β分別在 [1e-3,1],[1e-2,10]范圍內(nèi)變化的時,mAP值有比較明顯的提升,這表明流形學(xué)習(xí)和標(biāo)簽線性映射對提升哈希碼的質(zhì)量是有效的.對于單個參數(shù)來說,β對mAP的影響大于α,這說明標(biāo)簽值所包含的語義信息非常重要.對于μ,可以看出,它的值不宜過大或過小,過大會導(dǎo)致欠擬合,而過小會導(dǎo)致過擬合,對于不同的模態(tài),其μ值可能不同.綜上所述,本文方法α設(shè)置在[0.1,10]之間,β設(shè)置在[1,10]之間,μ設(shè)置在[1e-2,1]之間. 圖4 參數(shù)敏感性分析 在MIRFlickr數(shù)據(jù)集上進(jìn)行了時間消耗實(shí)驗(yàn)來對方法復(fù)雜度做進(jìn)一步分析,結(jié)果如表2所示.從表2中可以看出,構(gòu)建圖約束的方法(LSPHS)由于時間復(fù)雜度為O(kn2),會比時間復(fù)雜度為O(n)的方法(SCRATCH)花費(fèi)更多的時間.此外可以觀察到,采用DCC策略學(xué)習(xí)哈希碼的方法(DCH)時間消耗也非常的高,這是因?yàn)槊恳淮蔚鷥?yōu)化過程中都要逐位學(xué)習(xí)哈希碼.GSPH由于為每一比特位學(xué)習(xí)了一個核邏輯回歸模型,因此GSPH的時間復(fù)雜度會隨著哈希碼位數(shù)的增長而顯著提升.SDCH-KDA需要計(jì)算散度矩陣,在使用了核函數(shù)后,SDCH-KDA的時間成本也會明顯上升.本文所提出的方法時間消耗較高,其主要原因是LSPDH在MIRFlickr數(shù)據(jù)集上需要迭代15次,而其他兩個數(shù)據(jù)集只需迭代5次. 表2 各方法在MIRFlickr-5k上的訓(xùn)練時間成本(單位:秒) 本文提出了一種新穎的有監(jiān)督跨模態(tài)哈希方法,命名為標(biāo)簽局部結(jié)構(gòu)保持的離散哈希,簡稱LSPDH.LSPDH是一個集哈希碼學(xué)習(xí)與哈希函數(shù)學(xué)習(xí)的兩步方法,第1步,該方法計(jì)算標(biāo)簽相似度矩陣并在潛在空間構(gòu)建圖約束來保持標(biāo)簽的局部結(jié)構(gòu),再使用標(biāo)簽線性映射降低構(gòu)建流形相似度所造成的語義損失,使哈希碼包含更多的語義信息,因而具有更高的質(zhì)量;第2步,在哈希函數(shù)學(xué)習(xí)中加入了核函數(shù),用于獲取源數(shù)據(jù)間的非線性信息.LSPDH在3個基準(zhǔn)數(shù)據(jù)上的實(shí)驗(yàn)結(jié)果表明其性能基本優(yōu)于近期跨模態(tài)哈希方法.在未來的工作中,將考慮保持標(biāo)簽語義的同時,解決使用圖約束導(dǎo)致時間復(fù)雜度過高的問題,結(jié)合深度學(xué)習(xí)進(jìn)一步研究跨模態(tài)哈希方法.4 實(shí)驗(yàn)與結(jié)果分析
4.1 數(shù)據(jù)集
4.2 對比方法及其簡介
4.3 評價指標(biāo)
4.4 實(shí)驗(yàn)結(jié)果分析
4.5 收斂性分析
4.6 參數(shù)敏感性分析
4.7 時間成本分析
5 結(jié)束語