李新衛(wèi),吳 飛,荊曉遠(yuǎn)
(南京郵電大學(xué) 自動(dòng)化學(xué)院,江蘇 南京 210023)
隨著互聯(lián)網(wǎng)的迅速發(fā)展,社會(huì)步入了大數(shù)據(jù)時(shí)代。大數(shù)據(jù)通常以圖像、文本等多種不同的模態(tài)表示,而模態(tài)間的數(shù)據(jù)并不是獨(dú)立的,而是有著本質(zhì)的聯(lián)系,如何挖掘出數(shù)據(jù)之間的關(guān)聯(lián)信息成為了人們關(guān)注的熱點(diǎn)??缒B(tài)檢索[1-3]作為一種基本的相關(guān)技術(shù),在機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺和數(shù)據(jù)挖掘等領(lǐng)域應(yīng)用廣泛,然而大數(shù)據(jù)具有數(shù)據(jù)量大、維度高以及模態(tài)間的語義鴻溝[4]等一系列特點(diǎn),從而使得針對(duì)大數(shù)據(jù)的跨模態(tài)檢索困難重重。
為了減輕模態(tài)間的差異性,相關(guān)學(xué)者提出了一系列方法,一部分關(guān)注于潛在子空間學(xué)習(xí),主要是用來學(xué)習(xí)兩個(gè)投影,將文本與圖像數(shù)據(jù)投影到公共空間進(jìn)行相關(guān)性分析,比如CCA[5]及其變形[6];而哈希算法[7-9]作為一種近似最近鄰檢索技術(shù),具有存儲(chǔ)量小、檢索速度快等特點(diǎn),典型方法有CVH[10]、IMH[11]和SCM[12]。然而,這些方法都有局限性,比如檢索精度低、速度慢,因此設(shè)計(jì)更好的算法是相關(guān)工作者亟需解決的難題?;诖?,文中提出一種基于協(xié)同矩陣分解的單標(biāo)簽跨模態(tài)檢索方法。
基于協(xié)同矩陣分解的單標(biāo)簽跨模態(tài)哈希檢索方法由三部分構(gòu)成:矩陣分解、哈希函數(shù)和圖正則化項(xiàng)。矩陣分解學(xué)習(xí)訓(xùn)練集在低維潛在語義子空間的哈希碼表示;哈希函數(shù)學(xué)習(xí)投影,將訓(xùn)練集外的樣本表示成低維的哈希碼;圖正則化是用來保持原數(shù)據(jù)的局部幾何結(jié)構(gòu)的稀疏圖[9]。
協(xié)同矩陣分解主要用于低秩表示學(xué)習(xí)[13]。假設(shè)圖像模態(tài)為X1,文本模態(tài)為X2,學(xué)習(xí)基矩陣U1∈Rd1×r、U2∈Rd2×r,將X1和X2投影到r維的二進(jìn)制語義空間V∈{0,1}r×N。其中r為二進(jìn)制哈希的長度,V表示不同模態(tài)的公共表示。一般來講,該過程可以通過下列目標(biāo)函數(shù)求得:
(1)
設(shè)訓(xùn)練集外的樣本為x,學(xué)習(xí)兩個(gè)哈希函數(shù)分別將x的圖像x1∈Rd1和文本x2∈Rd2進(jìn)行二進(jìn)制編碼。不妨假設(shè)采用簡單的線性函數(shù)
h(xi)=sign(xiPi+bi)
(2)
其中,sign(x)為符號(hào)函數(shù);Pi∈Rdi×r為映射矩陣;bi為用來保證哈希編碼平衡的偏置向量。
通過哈希函數(shù),原始的圖像x1和對(duì)應(yīng)的文本x2在低維的潛在語義空間分別表示為:
(3)
根據(jù)以上假設(shè),相似的樣本經(jīng)過編碼后的哈希距離應(yīng)盡可能小,因此具有目標(biāo)函數(shù):
(4)
圖正則項(xiàng)[14-15]在機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺等領(lǐng)域取得了不錯(cuò)的發(fā)展,其用來維護(hù)局部幾何結(jié)構(gòu),保證模態(tài)內(nèi)相似性和模態(tài)間相似性。
模態(tài)間相似性:不同模態(tài)具有不同的特征表示,但是同一樣本共享相同的語義表示。為了在低維語義中能夠保持模態(tài)間的相似性,定義圖像和文本的模態(tài)間相似性矩陣:
(5)
模態(tài)內(nèi)相似性:單模態(tài)相似的實(shí)例投影到低維語義中應(yīng)該保持近鄰關(guān)系,即哈希碼的關(guān)聯(lián)性盡可能大。定義單模態(tài)KNN相似矩陣:
(6)
整體的相似性矩陣為:
(7)
其中,β為保證模態(tài)間相似性和模態(tài)內(nèi)相似性平衡的參數(shù);W1、W2分別為圖像和文本的單模態(tài)相似性矩陣;W12、W21為模態(tài)間相似性矩陣,W12=W21。
綜上所述,整體目標(biāo)函數(shù)為:
(8)
其中,α和γ分別為對(duì)應(yīng)的權(quán)重因子。
目標(biāo)函數(shù)Φ整體來說是非凸的,是個(gè)NP難問題,然而對(duì)于其中一個(gè)參數(shù)是可解的,因此可以采用迭代優(yōu)化算法求解,具體步驟如下:
步驟1:更新U1、U2,固定V、P1和P2,通過拉格朗日乘子法可得:
(9)
步驟2:更新V,固定U1、U2、P1和P2,目標(biāo)函數(shù)可以寫成:
(10)
由于V是離散約束的,直接求解很棘手,故對(duì)其進(jìn)行松弛變換,將V∈{0,1}r×N松弛為0≤V≤1,通過拉格朗日乘子法可得:
(11)
利用KKT條件,得到V的更新公式為:
Vij=
(12)
步驟3:更新P1、P2,由拉格朗日乘子法解得:
(13)
為了驗(yàn)證該方法的有效性,在Wiki和Pascal VOC 2007數(shù)據(jù)集上與若干相關(guān)方法進(jìn)行了對(duì)比,包括CCA[4]、IMH[11]、CVH[10]、SCM_orth和SCM_seq[12]。
Wiki數(shù)據(jù)集[16]包含2 866多媒體數(shù)據(jù),分為10個(gè)主題,比如戰(zhàn)爭、藝術(shù)、天空等,其中每個(gè)樣本是圖像-文本對(duì),圖像是由128維的BOVW SIFT特征表示,文本是由10維的主題向量構(gòu)成。
Pascal VOC 2007數(shù)據(jù)集[17]包含5 011/4 952圖像文本對(duì),分為20類。部分圖像是多標(biāo)簽的,文中只研究單標(biāo)簽,因此對(duì)該數(shù)據(jù)集進(jìn)行相應(yīng)處理,圖像由512維的Gist特征表示,文本對(duì)應(yīng)319維的詞頻特征。
實(shí)驗(yàn)中進(jìn)行了兩種跨模態(tài)檢索任務(wù):以圖檢文,Img2Text,即用圖像去檢索相關(guān)的文本;以文檢圖,Text2Img,即用文本去檢索對(duì)應(yīng)的圖像。為了評(píng)估檢索精度,使用mAP[18]作為性能指標(biāo),其公式為:
(14)
其中,qi為一查詢樣本;N為查詢樣本量;AP()的計(jì)算公式為:
(15)
其中,T表示檢索集中與q相關(guān)的總量;R表示檢索到的樣本量;ξ(r)為指示函數(shù)。
實(shí)驗(yàn)1:在Wiki數(shù)據(jù)集上進(jìn)行了Img2Text和Text2Img實(shí)驗(yàn),隨機(jī)抽取2 173個(gè)樣本對(duì)作為訓(xùn)練集,其余的693個(gè)樣本為測試集,實(shí)驗(yàn)結(jié)果如表1所示。
表1 Wiki數(shù)據(jù)集下各方法的mAP
實(shí)驗(yàn)2:在Pascal VOC 2007數(shù)據(jù)集上進(jìn)行了Img2Text和Text2Img實(shí)驗(yàn),訓(xùn)練集為2 808對(duì)樣本,測試集為2 841對(duì)樣本,實(shí)驗(yàn)結(jié)果如表2所示。
表2 Pascal VOC 2007數(shù)據(jù)集下各方法的mAP
由表1、表2可知,文中方法比其他方法效果好;隨著哈希碼變長,檢索精度也越來越好,說明了長的哈希碼更能夠保持結(jié)構(gòu)特征。
提出了一種基于協(xié)同矩陣分解的單標(biāo)簽跨模態(tài)哈希檢索方法,目標(biāo)函數(shù)由三部分構(gòu)成,即矩陣分解、哈希函數(shù)和圖正則化項(xiàng)。矩陣分解學(xué)習(xí)訓(xùn)練集在低維潛在語義子空間的哈希碼;哈希函數(shù)用來學(xué)習(xí)投影,將訓(xùn)練集外的樣本表示成低維空間上的哈希碼,進(jìn)行相似性搜索;圖正則化用來保持原數(shù)據(jù)的局部流行幾何結(jié)構(gòu)。在兩種常用的數(shù)據(jù)集上進(jìn)行了大量的實(shí)驗(yàn),結(jié)果證明了該方法的優(yōu)越性。