梁林清,馮士華
(貴州師范大學(xué)數(shù)學(xué)科學(xué)學(xué)院,貴陽 550025)
隨著社交媒體的發(fā)展和普及,互聯(lián)網(wǎng)上產(chǎn)生了大量的多媒體數(shù)據(jù),如圖像、文本、視頻等。大量多模態(tài)數(shù)據(jù)的產(chǎn)生導(dǎo)致單一模態(tài)的數(shù)據(jù)處理方法已不能滿足人們的需求,而是需要跨不同模態(tài)分析這些數(shù)據(jù)。例如從一種模態(tài)的數(shù)據(jù)出發(fā),查詢與其語義相關(guān)的另一種模態(tài)數(shù)據(jù),即跨模態(tài)檢索。由于不同模態(tài)數(shù)據(jù)存在異構(gòu)鴻溝與語義鴻溝,跨模態(tài)檢索面臨的關(guān)鍵挑戰(zhàn)是如何彌合語義差距,以便獲取來自不同模態(tài)的異構(gòu)數(shù)據(jù)之間的語義相關(guān)性。
為解決這些問題,直觀的思路是利用異構(gòu)數(shù)據(jù)學(xué)習(xí)一個共同的空間,并在此空間中直接度量來自不同模態(tài)數(shù)據(jù)之間的相似性。這種思路代表性的方法有CCA[1],由于不同模態(tài)數(shù)據(jù)有不同的特征空間,CCA 方法只考慮共同語義表征的相關(guān)性顯然不夠。除此之外,現(xiàn)有的子空間方法需要計算大規(guī)模高維數(shù)據(jù),計算量非常大。近年來,跨模態(tài)哈希檢索方法[2]由于存儲成本低和查詢速度快得到了大量的研究??缒B(tài)哈希的主要思想是學(xué)習(xí)公共漢明空間,從而保留異構(gòu)數(shù)據(jù)之間的語義[3]相似性?,F(xiàn)有的跨模態(tài)哈希方法主要包括無監(jiān)督方法和有監(jiān)督方法。無監(jiān)督方法通過探索模態(tài)數(shù)據(jù)之間的相似性來學(xué)習(xí)公共漢明空間,如無監(jiān)督深度跨模態(tài)譜哈希(DCSH)[4]等。然而,在無監(jiān)督信息的情況下學(xué)習(xí)能保持異構(gòu)數(shù)據(jù)的語義相似性的哈希碼并不簡單,所以在樣本標簽的指導(dǎo)下,監(jiān)督方法可以學(xué)習(xí)到更有判別性的哈希碼。例如,Liu 等[5]提出通過集體矩陣分解的圖正則化來保持多模態(tài)原始特征之間的相似性。
雖然上述方法通過探索各種語義監(jiān)督信息取得了改進,但不同模態(tài)數(shù)據(jù)的異構(gòu)鴻溝并未有效彌合,我們應(yīng)該考慮公共語義表示是否能準確描述模態(tài)特定的表征。已有的很多工作都使用集體矩陣分解方法來建模公共語義表示,但只有共同的潛在語義表示,并不能充分表達各模態(tài)數(shù)據(jù)的特征,同時這些基于矩陣分解的方法都忽略了多標簽樣本對,不能發(fā)掘多標簽樣本對的語義信息。為了解決該問題,本文提出了一種標簽語義約束矩陣分解哈希方法,在學(xué)習(xí)模態(tài)特定的語義表示的同時,充分考慮到多標簽樣本對于模態(tài)間的語義相似性建模的重要性,即利用不同模態(tài)樣本的標簽信息來構(gòu)建語義相似度矩陣,以表征模態(tài)特定的語義表示的相關(guān)性。圖1為本文所提方法的框架圖,包括訓(xùn)練集哈希函數(shù)學(xué)習(xí)階段和訓(xùn)練集以外的樣本的哈希碼檢索階段??蚣軋D的基本流程如圖1所示:首先學(xué)習(xí)不同模態(tài)的潛在語義表征V1和V2,然后利用標簽語義相似度矩陣對特定模態(tài)的語義表征V1和V2的相關(guān)性進行建模。最后,將所有特定模態(tài)的語義表示都投影到二進制碼中,得到哈希碼的封閉解。我們在一個多標簽數(shù)據(jù)集上做了廣泛的實驗,其結(jié)果表明,所提出的方法優(yōu)于大多數(shù)現(xiàn)有的方法。
圖1 本文所提方法的框架圖
Yao 等[6]提出了一種有效的離散監(jiān)督哈希(EDSH),該方法首先通過集體矩陣分解學(xué)習(xí)公共空間,然后學(xué)習(xí)正交旋轉(zhuǎn)矩陣,將共享空間與漢明空間之間的語義相關(guān)性連接起來,最后學(xué)習(xí)離散哈希碼。集體矩陣分解是將原始表示分解為共同的潛在語義表示,但由于不同模態(tài)的數(shù)據(jù)有不同的統(tǒng)計屬性,學(xué)到的共同語義表示并不能充分表達各模態(tài)的信息。
為了分別表達不同模態(tài)的獨特,Wang 等[7]提出使用聯(lián)合和私有矩陣分解哈希(JIMFH),該方法使用聯(lián)合矩陣分解和私有矩陣分解方法,并同時學(xué)習(xí)特定模態(tài)表示和共同語義表示,然后通過量化公共語義表示獲得哈希碼。Xiong等[8]提出了一種特定模態(tài)的矩陣分解哈希(MsMFH),該方法首先使用矩陣分解來學(xué)習(xí)特定模態(tài)的語義表示,然后使用正交旋轉(zhuǎn)矩陣進行對齊。Mandai 等[9]提出了一種基于哈希的標簽一致矩陣分解來學(xué)習(xí)特定模態(tài)的哈希函數(shù)。為了充分利用語義信息的判別性,Liu 等[10]提出了一種有效的快速鑒別離散哈希(FDDH)方法,該方法利用正交基將目標哈希碼化歸到相應(yīng)的語義標簽上,并利用ε拖拽技術(shù)保證了較大的語義邊緣。
以上方法都沒有考慮到具有多個類別標簽的樣本對信息。事實上,在許多標準的跨模態(tài)基準數(shù)據(jù)集中,如MIRFLICKR-25K[11],NUSWIDE[12],每對實例對都具有多個標簽,若能充分利用多標簽樣本對這一信息,則模態(tài)間和模態(tài)內(nèi)的語義相似性都能被準確挖掘。在大多數(shù)情況下,多標簽包含豐富的語義信息,可以為語義相似度的計算提供更詳細的語義信息。為此我們提出了特定模態(tài)的標簽語義約束矩陣分解哈希算法。
受特定模態(tài)矩陣分解方法[8,13]的啟發(fā),為充分利用各模態(tài)數(shù)據(jù)的語義,分別學(xué)習(xí)各個模態(tài)的表征,然后在語義空間中對各表征進行對齊,建模如下:
其中,Ut∈Rdt×k和Vt∈Rk×N分別是基矩陣和表示矩陣,αt(t=1,2)和μ為平衡參數(shù)。
在跨模態(tài)檢索的研究中,有樣本對中存在多個標簽的情況,因此為了更好地保留模態(tài)間的信息,定義一個語義相似矩陣S=,其中sij的定義如下:
其中,li為第i個樣本對的標簽向量,lj為第j個樣本對的標簽向量,‖· ‖是零范數(shù)。由sij的定義可看出,其值越大,則表明第i個樣本對與第j個樣本對在語義上更為相似。因此使用語義相似矩陣對模態(tài)間的語義關(guān)系進行約束建模:
其中β為平衡參數(shù)。
同時,為了保留模態(tài)間的信息,本文從潛在語義表示中分別引入正交旋轉(zhuǎn)矩陣Rt,t=1,2用以生成哈希碼,并且有:
其中Rt∈Rk×k,t=1,2。通過該公式,可以在訓(xùn)練階段直接獲得哈希碼,能在最大程度上減少量化誤差。
為了處理訓(xùn)練集外的樣本,我們將對圖像和文本分別學(xué)習(xí)哈希映射函數(shù),以將原始的圖像和文本特征分別映射到潛在的空間中:
其中Wt∈Rk×d,t=1,2分別是圖像和文本的哈希映射矩陣,γ為平衡參數(shù)。
聯(lián)合公式(1)、(3)—(5),得到總的目標函數(shù)如下:
公式(6)對所有變量而言都是非凸函數(shù),但固定其他變量時,公式(6)關(guān)于非固定變量是凸函數(shù),因此采用最優(yōu)化算法來對各變量進行更新。
若將除U1以外的所有變量都固定,則公式(6)可變?yōu)?/p>
將公式(7)對變量U1求導(dǎo),并令該導(dǎo)數(shù)為0,得到關(guān)于Ut的封閉解如下:
同理,可求出其他變量的封閉解如下:
由于Rt∈Rk×k,t=1,2 是正交矩陣,故可使用奇異值分解算法(SVD)來求解。
重復(fù)以上迭代步驟,直至收斂。事實上,以上每個變量都能獲得封閉解。整體算法如算法1:
算法1:基于矩陣分解的標簽語義約束跨模態(tài)檢索
輸入:訓(xùn)練數(shù)據(jù){X,Y},相應(yīng)的樣本標簽,哈希碼長度k以及平衡參數(shù)α1、α2、β、γ、μ
1:隨機初始化B、V1、V2、R1、R2,以及哈希投影矩陣W1、W2
2:for 從第一步開始do
3: 利用公式(8)更新U1
4: 利用公式(9)更新U2
5: 利用公式(10)更新V1
6: 利用公式(11)更新V2
7: 利用公式(12)更新W1
8: 利用公式(13)更新W2
9: 利用公式(14)更新B
10: 使用SVD更新Rt∈Rk×k,t=1,2
11:返回
輸出:輸出投影矩陣Rt,以及哈希投影矩陣Wt,t=1,2
本文所提方法在公開數(shù)據(jù)集NUS-WIDE 上進行了驗證。NUS-WIDE[12]是一個真實世界的圖像數(shù)據(jù)集。包括186776 對圖像-文本對,每個圖像-文本對從10 個語義類別中進行標記。其中,隨機選擇5000 對圖像-文本對作為訓(xùn)練集,并選擇1867對圖像-文本對作為測試集。
本文通過實驗確定了參數(shù):αt=1,β=1,γ=1,μ=5,t=1,2。驗證了本文所提出方法的兩個檢索任務(wù):圖像檢索文本(I2T)和文本檢索圖像(T2I)。此外,使用平均精度(mAP)來評估本文方法的最終性能。
本文方法與CCA[1]、STMH[13]、CMFH[5]、SMFH[2]、EDSH[6]、JIMFH[7]、MsMFH[8]、SCMFH[14]方法進行比較。
表1 為本文方法和其他方法在NUS-WIDE數(shù)據(jù)集上的mAP分數(shù),其中,哈希碼長度從8位到64 位。從表1 可以看出,本文方法在多數(shù)情況下都是優(yōu)于其他方法的,這是因為我們采用了對各個模態(tài)數(shù)據(jù)的矩陣分解以學(xué)習(xí)到特定于各模態(tài)的語義表示,同時也利用標簽做語義相關(guān)性,這樣能極大地提高檢索精度。與此同時可以看到,在大多數(shù)方法上,T2I 檢索任務(wù)的性能優(yōu)于I2T 檢索任務(wù),這是因為文本數(shù)據(jù)比圖像數(shù)據(jù)編碼更多的鑒別信息。
表1 各方法在NUS-WIDE數(shù)據(jù)集上哈希碼長度從8到64之間的mAP
本文提出了一種用于跨模態(tài)檢索的標簽語義約束矩陣分解哈希算法,首先分別學(xué)習(xí)每個模態(tài)數(shù)據(jù)的語義表征,并且利用樣本類別來構(gòu)造的標簽語義相似度矩陣來建模不同模態(tài)之間的語義相關(guān)性,然后利用學(xué)到的模態(tài)表征學(xué)習(xí)哈希碼和哈希函數(shù)。在NUS-WIDE 數(shù)據(jù)集上做了大量實驗,實驗結(jié)果也證明了本文方法的有效性。