康培培,林澤航,楊振國,張子同,劉文印
1.廣東工業(yè)大學(xué) 計(jì)算機(jī)學(xué)院,廣州 510006
2.香港理工大學(xué) 計(jì)算機(jī)學(xué)院,香港 999077
3.華南農(nóng)業(yè)大學(xué) 數(shù)學(xué)與信息學(xué)院,廣州 510642
跨模態(tài)檢索旨在根據(jù)一個模態(tài)的查詢樣本(如文本),檢索與其相關(guān)的其他模態(tài)的樣本(如圖像),具有研究和應(yīng)用價值[1]。例如,給定一段文本描述的語句,用于搜索其描述的語義場景圖像或視頻。由于各模態(tài)具有不同的數(shù)據(jù)表示,不同模態(tài)的樣本間并不能直接進(jìn)行相似性比較?,F(xiàn)有的跨模態(tài)檢索方法通常將各模態(tài)數(shù)據(jù)變換到潛在的共同空間,從而進(jìn)行相似度比較。由于哈希表示能夠節(jié)省存儲空間,加快檢索速度,基于哈希表示的跨模態(tài)檢索引起廣泛關(guān)注[2]。
依據(jù)訓(xùn)練過程中是否用到語義標(biāo)簽,跨模態(tài)哈希方法分為無監(jiān)督方法和有監(jiān)督方法。無監(jiān)督跨模態(tài)哈希方法在訓(xùn)練過程中不依賴于語義標(biāo)簽[3]。例如,Ding等人[4]提出聯(lián)合矩陣分解哈希(collective matrix factorization hashing,CMFH),對不同模態(tài)的數(shù)據(jù)進(jìn)行聯(lián)合矩陣分解,學(xué)習(xí)統(tǒng)一的哈希編碼。Irie等人[5]提出交互共量化方法(alternating co-quantization,CCA-ACQ),從最小化各模態(tài)二值化誤差的角度提高跨模態(tài)檢索準(zhǔn)確率。Zhou 等人[6]提出潛在語義稀疏哈希(latent semantic sparse hashing,LSSH),利用稀疏表示和矩陣分解探索多模態(tài)數(shù)據(jù)之間的相關(guān)性。
有監(jiān)督的跨模態(tài)哈希方法將語義信息融合到哈希編碼中,所以能取得更好的檢索效果[7-8]。Lin等人[9]提出語義保持哈希(semantics-preserving hashing,SEPH),將語義相似矩陣作為監(jiān)督信息,通過最小化KL 分布學(xué)習(xí)統(tǒng)一的哈希編碼,進(jìn)而利用核邏輯回歸學(xué)習(xí)非線性哈希函數(shù)。Zhang等人[10]研究大規(guī)模數(shù)據(jù)背景下的有監(jiān)督學(xué)習(xí),提出語義相關(guān)性最大化方法(semantic correlation maximization,SCM)。Xu 等人[11]提出有鑒別力的跨模態(tài)哈希(discrete cross-modal hashing,DCH),通過線性投影矩陣將各模態(tài)數(shù)據(jù)投影到漢明空間,再將共同哈希編碼變換到語義空間,使學(xué)習(xí)的哈希編碼具有鑒別性。隨著神經(jīng)網(wǎng)絡(luò)的發(fā)展,很多基于深度學(xué)習(xí)的跨模態(tài)方法成為研究的主流[12-13]。本文關(guān)注于研究語義結(jié)構(gòu)保持哈希方法的有效性,未來會將其擴(kuò)展到深度學(xué)習(xí)框架,進(jìn)一步提高檢索準(zhǔn)確率。
多數(shù)有監(jiān)督的跨模態(tài)哈希方法以一種邏輯回歸的方式學(xué)習(xí)有鑒別力的哈希編碼[14],或者構(gòu)造語義結(jié)構(gòu)圖將語義信息融入哈希編碼[15]。然而,這些方法忽略了哈希函數(shù)的語義鑒別性。在檢索過程中,哈希函數(shù)將查詢樣本變換到漢明空間,通過與數(shù)據(jù)庫樣本的哈希編碼進(jìn)行比對,返回檢索序列。在這一過程中,如果只是哈希編碼具有鑒別力,而哈希函數(shù)卻不能將新樣本變換為有鑒別力的哈希編碼,那么檢索效果也會受到很大影響。為了同時學(xué)習(xí)具有語義保持的哈希編碼和哈希函數(shù),本文提出一種語義保持哈希方法(semantic preserving hash,SPH)用于跨模態(tài)檢索。通過引入兩個不同模態(tài)的哈希函數(shù),本文將不同模態(tài)空間的樣本映射到共同的漢明空間。為使哈希編碼和哈希函數(shù)均具有較好的語義鑒別性,引入了語義結(jié)構(gòu)圖,并結(jié)合局部結(jié)構(gòu)保持的思想,將哈希編碼和哈希函數(shù)的學(xué)習(xí)融合到同一個框架,使兩者同時優(yōu)化。在三個公開的多模態(tài)數(shù)據(jù)集上的實(shí)驗(yàn)證明了該方法在跨模態(tài)檢索任務(wù)的有效性和優(yōu)越性。本文的主要貢獻(xiàn)總結(jié)如下:
(1)本文提出SPH,將哈希編碼和哈希函數(shù)的學(xué)習(xí)融合到同一個框架,共同保持語義結(jié)構(gòu)信息。
(2)本文為SPH 提出一種交替優(yōu)化算法,通過迭代的方式學(xué)習(xí)離散哈希編碼。
(3)本文在三個數(shù)據(jù)集上進(jìn)行大量實(shí)驗(yàn)對比,驗(yàn)證了SPH及優(yōu)化算法的有效性。
此外,DCH 通過兩個線性映射函數(shù)U∈Rdx×K和V∈Rdy×K將兩個模態(tài)的數(shù)據(jù)映射到共同哈希編碼,并最小化各模態(tài)的投影誤差,用來學(xué)習(xí)各自模態(tài)的哈希函數(shù)。其目標(biāo)函數(shù)為:
其中,μV和μT為懲罰參數(shù),λ為正則化參數(shù),||·||22為向量的L2范數(shù),|||·||2F為矩陣的Frobenius范數(shù)。
假定W∈Rd×c為投影矩陣,將原始數(shù)據(jù)T投影到潛在的低維表示H,LPP整體的目標(biāo)函數(shù)定義為:
本文的跨模態(tài)檢索關(guān)注于兩個模態(tài),為了方便闡述,以文本和圖像兩種模態(tài)為例,框架圖如圖1 所示。本章后續(xù)部分先進(jìn)行符號化的問題描述,而后介紹SPH的模型框架以及優(yōu)化算法。
為了消除不同模態(tài)間的語義鴻溝,本文為圖像和文本兩種模態(tài)的數(shù)據(jù)學(xué)習(xí)共同的哈希編碼B。理想情況下,B應(yīng)具有區(qū)分不同類別的特性,使得在檢索時更易檢索出同類的樣本,從而提高檢索準(zhǔn)確率。為此,引入一個線性映射矩陣W∈RK×c,將哈希編碼映射到其對應(yīng)的類別標(biāo)簽,使其具有語義鑒別性,公式表示為:||·||F為矩陣的F范數(shù)。此外,為使圖像和文本數(shù)據(jù)得到共同的哈希編碼,本文為兩種模態(tài)的數(shù)據(jù)各學(xué)習(xí)一個哈希函數(shù),即Hx(x)=sgn(UTx)和Hy(y)=sgn(VTy),用于將樣本在不同模態(tài)的表示變換到共同的哈希表示。考慮到符號函數(shù)sgn(·)難以優(yōu)化的問題,這里對不同模態(tài)的數(shù)據(jù)直接線性變換并逼近于哈希表示,即:
這樣,第i個樣本所對應(yīng)不同模態(tài)的數(shù)據(jù)表示即可變換到共同的哈希表示bi,從而進(jìn)行跨模態(tài)檢索。然而,該過程忽略了樣本間的局部結(jié)構(gòu)信息。直觀理解上,同一語義的樣本所擁有的哈希表示也應(yīng)近似,而不同語義的樣本所擁有的哈希表示也應(yīng)是遠(yuǎn)離的。為此,本文引入一個表示樣本間語義關(guān)系的矩陣S={0,1}n×n,如果li=lj,則Sij=1,否則,Sij=0。借用局部保持投影的思想,本文令哈希編碼保持樣本間的語義關(guān)系:
當(dāng)樣本oi與oj相似時,Sij=1,為使目標(biāo)函數(shù)最小,會學(xué)習(xí)到相似的bi與bj,從而使哈希表示保持樣本間原有的語義結(jié)構(gòu)關(guān)系。進(jìn)一步地,為使新樣本也保持語義結(jié)構(gòu)關(guān)系,希望哈希函數(shù)也具有語義鑒別性,即在學(xué)習(xí)過程中哈希函數(shù)與哈希編碼共同保持語義結(jié)構(gòu)關(guān)系。所以,公式(6)變?yōu)椋?/p>
當(dāng)樣本oi與oj相似時,Sij=1,為使目標(biāo)函數(shù)最小,會學(xué)習(xí)到相似的bi與UTxj、VTyj,從而將哈希函數(shù)融入語義結(jié)構(gòu)保持的目標(biāo)中,將新樣本變換到語義結(jié)構(gòu)保持的潛在空間。此外,為降低模型復(fù)雜度,對各變換矩陣施加Frobenius 范數(shù)約束,總的目標(biāo)函數(shù)表示為:
本文采用交替方向乘子法(alternating direction method of multipliers,ADMM)對目標(biāo)函數(shù)進(jìn)行優(yōu)化,即交替地對每個變量分別求解,迭代優(yōu)化至收斂到局部最優(yōu)解。具體分為以下幾步:
步驟1 更新W
其中,I2∈Rdx×dx為單位矩陣,D為S對應(yīng)的拉普拉斯矩陣。
步驟3 更新V
類似地,固定目標(biāo)函數(shù)中其他變量,得到關(guān)于V的表達(dá)式:
其中,I3∈Rdy×dy為單位矩陣。
步驟4 更新B
類似地,固定目標(biāo)函數(shù)中其他變量,得到關(guān)于B的表達(dá)式:
本文在三個公開數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),分別為Wikipedia[17]、MIRFlickr[18]、和NUS-WIDE[18]。
Wikipedia為最常用的數(shù)據(jù)集之一,包含2 866 個樣本,分別屬于10個類中的某一類,每個樣本對應(yīng)圖片和文本兩種模態(tài)的數(shù)據(jù)。實(shí)驗(yàn)中,隨機(jī)選取2 173 個樣本作為訓(xùn)練集和檢索數(shù)據(jù)庫,其余的693個樣本作為測試(查詢)集。每張圖像提取SIFT 特征表示為128 維的向量,文本經(jīng)LDA處理后表示為10維向量。
MIRFlickr 包含25 000 個圖片,每個圖片有相應(yīng)的詞語標(biāo)簽作為其對應(yīng)的文本數(shù)據(jù),并且人工標(biāo)注了24個類。剔除掉出現(xiàn)次數(shù)少于20 次的標(biāo)簽,最終得到16 783 個樣本。隨機(jī)選取836 個樣本作為測試集,其余的樣本用于訓(xùn)練和檢索。對于每個樣本,提取圖像的直方圖特征,表示為150維的向量,文本用索引向量表示,然后用PCA降維到500維。
NUS-WIDE 包含269 648 個圖片和對應(yīng)的425 059個詞語標(biāo)簽,共劃分為81 個語義類別。因?yàn)橛行╊悇e的樣本較少,選取前10個大類的樣本用于本實(shí)驗(yàn),所以共包含186 577個樣本。其中,隨機(jī)選取1 866個樣本作為測試集,其余的作為訓(xùn)練集和檢索集。提取500維的SIFT 特征向量作為圖像表示,1 000 維的標(biāo)簽索引向量作為文本表示。由于NUS-WIDE 數(shù)據(jù)量較大,本文采用分批的訓(xùn)練方式進(jìn)行學(xué)習(xí)。
本文采用網(wǎng)格搜索法確定各參數(shù)值,并在三個數(shù)據(jù)集上進(jìn)行兩種模態(tài)間的相互檢索任務(wù),即圖像檢索文本(Img2Txt)和文本檢索圖像(Txt2Img)。采用信息檢索普遍采用的評價指標(biāo)—均值平均準(zhǔn)確率(mean average precision,MAP)對方法進(jìn)行評測。每個查詢樣本都會得到一個平均準(zhǔn)確率(average precision,AP),而所有查詢樣本AP的均值則為MAP。AP的計(jì)算公式為:
其中,q為查詢樣本,R為數(shù)據(jù)庫中與該樣本語義相關(guān)的樣本數(shù),Rp為返回的前p個樣本中與q實(shí)際相關(guān)的個數(shù)。如果第p個樣本與q語義相關(guān),則rel(p)=1,否則rel(p)=0。此外,也采用Precision@scope 的評價指標(biāo)對方法進(jìn)行測評。Precision@scope 曲線展示了檢索準(zhǔn)確率隨檢索返回樣本數(shù)量變化的規(guī)律,其值越大,表明方法取得的效果越好。
表1報(bào)告了各數(shù)據(jù)集上SPH與各方法關(guān)于MAP的對比情況,包含了哈希編碼長度從16 位到128 位,在兩個檢索任務(wù)(Img2Txt及Txt2Img)的MAP 比較。從表1中,有以下發(fā)現(xiàn):
表1 各數(shù)據(jù)集上MAP的對比情況Table 1 MAP comparison on all datasets
(1)在所有數(shù)據(jù)集上,MAP隨哈希編碼的長度增加而有所提高。這是因?yàn)?,較長的哈希編碼可以記錄更多的識別信息。
(2)相較于其他對比方法,SPH 在Wikipedia 和MIRFlickr 數(shù)據(jù)集上取得最好的檢索結(jié)果,原因在于SPH將哈希編碼和哈希函數(shù)的學(xué)習(xí)融合到一個框架,使其共同保持語義結(jié)構(gòu)。
(3)相比于其他方法,DCH和SPH取得較好的檢索結(jié)果,其優(yōu)勢在于它們將哈希編碼映射到語義標(biāo)簽,使哈希編碼具有語義鑒別性。另外,SPH 比DCH 的檢索效果更好,原因在于SPH使哈希編碼和哈希函數(shù)進(jìn)一步保持了語義結(jié)構(gòu)關(guān)系。
(4)SPH在NUS-WIDE數(shù)據(jù)集上并不總是取得最好的結(jié)果,其原因可能為NUS-WIDE數(shù)據(jù)集過于龐大,學(xué)習(xí)過程中采用分批的訓(xùn)練方式導(dǎo)致哈希編碼不能保持整體的語義結(jié)構(gòu)信息,這也成為未來工作中需要解決的問題。
為了進(jìn)行更深入的對比研究,圖2 展示了在Wikipedia 和MIRFlickr 兩個數(shù)據(jù)集上各方法關(guān)于Img2Txt和Txt2Img 任務(wù)的Precision@scope 曲線的對比情況,其中哈希編碼固定為32 位,scope 表示檢索返回的樣本數(shù)。由圖可見,本文方法SPH 在Img2Txt 和Txt2Img任務(wù)上總能取得最高的檢索準(zhǔn)確率,特別是在MIRFlickr 數(shù)據(jù)集上,取得了更顯著的效果。這一結(jié)果的根本原因在于,SPH 借用局部結(jié)構(gòu)保持的思想,將哈希編碼和哈希函數(shù)的學(xué)習(xí)融合到同一個框架,使兩者同時優(yōu)化,共同保持語義結(jié)構(gòu),從而提高哈希編碼的語義鑒別能力。
圖3 展示了Wikipedia 和MIRFlickr 數(shù)據(jù)集上SPH的目標(biāo)函數(shù)值隨訓(xùn)練迭代次數(shù)而變化的曲線。由圖3可見,兩個數(shù)據(jù)集上,SPH 的目標(biāo)函數(shù)值隨著迭代次數(shù)的增加而迅速下降,并在數(shù)次迭代后趨于平衡,收斂于局部最小值。這一結(jié)果體現(xiàn)了本文優(yōu)化方法的快速收斂性,證明了其有效性。
本文將局部結(jié)構(gòu)保持的思想用于跨模態(tài)的語義結(jié)構(gòu)保持,并提出語義結(jié)構(gòu)保持哈希的方法(SPH),將其應(yīng)用于跨模態(tài)檢索。SPH通過構(gòu)造語義結(jié)構(gòu)圖,把哈希編碼和哈希函數(shù)的學(xué)習(xí)融合到同一個框架,并對兩者同時優(yōu)化,使其具有語義鑒別性。本文在三個多模態(tài)數(shù)據(jù)集上對SPH進(jìn)行評估,其效果廣泛優(yōu)于現(xiàn)有的線性跨模態(tài)檢索方法,且具有良好的收斂性。后續(xù)工作將會探索將SPH的思想擴(kuò)展到基于深度學(xué)習(xí)的框架,探討其在深度框架下的優(yōu)化方法,進(jìn)一步提高檢索準(zhǔn)確率。另外,在大規(guī)模數(shù)據(jù)集下保持?jǐn)?shù)據(jù)的語義結(jié)構(gòu)也在未來工作范疇內(nèi)。