梁天佑,孟敏,武繼剛
(廣東工業(yè)大學 計算機學院,廣州 510006)
互聯(lián)網(wǎng)和自媒體的興起使得網(wǎng)絡上充斥著海量的數(shù)據(jù),且數(shù)據(jù)形式多樣而復雜(圖像、文本、聲音、視頻等)。為了能以靈活的方式從龐大的數(shù)據(jù)庫中找到感興趣的信息,跨模態(tài)檢索成為一項重要技術(shù),近年來引起研究者廣泛的研究興趣。哈希技術(shù)因其計算速度快、存儲需求低而成為跨模態(tài)檢索的熱門技術(shù),稱為跨模態(tài)哈希(Cross-Modal Hashing,CMH)??傮w而言,CMH 的目標是為每種數(shù)據(jù)模態(tài)學習一個哈希函數(shù),用哈希碼對數(shù)據(jù)進行編碼,使得內(nèi)容相關(guān)的數(shù)據(jù)漢明距離更短。
已有的CMH 研究可以分為2 類:有監(jiān)督的跨模態(tài) 哈希(Supervised CMH,SCMH)[1-7]和無監(jiān)督的跨模態(tài)哈希(Unsupervised CMH,UCMH)[8-14]。SCMH 方法假設每個訓練數(shù)據(jù)都有相應的人工標注,而這些標注可以導出數(shù)據(jù)之間真實的相似性關(guān)系,從而引導哈希函數(shù)的學習。這種設置往往能取得較好的檢索性能,但因為標注成本大而難以擴展到大規(guī)模數(shù)據(jù)集。UCMH 方法則不依賴于人工標注,一般借助其他任務的預訓練模型進行知識遷移,構(gòu)造較弱的監(jiān)督信息(如關(guān)系圖或相似矩陣)。筆者主要關(guān)注UCMH 方法。雖然近年來這方面研究取得了較好的進展,但現(xiàn)有方法依然存在以下2 個問題:
第一個問題是現(xiàn)有方法在設計哈希函數(shù)時,往往為不同模態(tài)設置獨立的哈希函數(shù),在生成哈希碼時只關(guān)注單一模態(tài)的信息,然而不同的模態(tài)數(shù)據(jù)往往包含互補的信息,例如圖像信息可以對場景、物體進行細節(jié)描繪,而文本、自然語言更抽象,且可能包含對多個實體、概念之間關(guān)系的描述。模態(tài)獨立的哈希函數(shù)并不能有效捕捉并綜合這種模態(tài)間的互補信息,從而導致生成的哈希碼表現(xiàn)欠佳。
第二個問題是現(xiàn)有多數(shù)方法[9-12,14]在構(gòu)造完相似矩陣之后整個訓練過程都保持不變,然而生成預提取特征的預訓練模型往往是在不同的數(shù)據(jù)集、用不同的任務進行訓練的,因此,預提取特征會帶有對原數(shù)據(jù)集和原訓練任務的偏見,其結(jié)構(gòu)信息并非完全適合跨模態(tài)檢索任務。例如,圖像的預訓練模型一般都是在ImageNet[15]數(shù)據(jù)集上按分類任務訓練的,文本W(wǎng)ord2Vec[16]模型的skip-gram 和CBoW 模型也并不是為跨模態(tài)檢索任務所設計,簡單地完全沿用預提取特征的結(jié)構(gòu)信息會帶來負面遷移的效果。
為解決上述2 個問題,本文分別提出多模態(tài)嵌入融合策略和相似矩陣動態(tài)更新策略。為不同模態(tài)設置單獨的嵌入函數(shù),之后再設置一個嵌入融合模塊用于融合來自不同模態(tài)的嵌入并生成統(tǒng)一哈希碼,從而充分利用不同模態(tài)信息。在訓練過程中,提出一種對預構(gòu)建的相似矩陣進行動態(tài)更新的策略,在保留預提取特征中有用結(jié)構(gòu)信息的同時,逐步緩解相似矩陣對原數(shù)據(jù)集和原訓練任務的偏見,使其更適合跨模態(tài)檢索任務,并避免因過度更新導致對訓練集過擬合、泛化性能變差的問題,保證在測試集上的泛化性能。最后在2 個常用數(shù)據(jù)集上對所提出的模型進行實驗和分析,驗證本文方法的有效性。
傳統(tǒng)淺層的跨模態(tài)哈希方法使用手工設計的數(shù)據(jù)特征進行學習。文獻[1]將哈希碼學習轉(zhuǎn)化為最小化漢明距離分布和標簽相關(guān)度分布之間的KL 散度。文獻[2]則構(gòu)建真實相似矩陣的似然函數(shù)并最大化,且使用了非對稱的哈希碼學習方法。文獻[3]也用了非對稱的方法,同時把映射矩陣拆分成公共部分和模態(tài)獨有的部分,挖掘不同模態(tài)之間的內(nèi)在聯(lián)系。
深度學習的興起使得跨模態(tài)哈希得到長足發(fā)展。文獻[4]是深度跨模態(tài)哈希的一個經(jīng)典工作,其以端到端的方式把表征學習和哈希碼學習統(tǒng)一到一個框架內(nèi)。文獻[5]引入標簽網(wǎng)絡學習多標簽表征,從表征和標簽2 個層面監(jiān)督哈希函數(shù)的學習。文獻[6]在進行表征學習時用圖卷積網(wǎng)絡[17]建模局部流形結(jié)構(gòu)。文獻[7]引入注意力[18]模塊學習表征,并使用非對稱的哈希碼生成方式。與無監(jiān)督方法相比,有監(jiān)督方法一般效果會更好,但往往需要大量的專家標注信息,難以擴展到大規(guī)模數(shù)據(jù)集。
由于沒有標簽信息,無監(jiān)督跨模態(tài)哈希的一個重要問題是監(jiān)督信號的構(gòu)造,一般是利用預提取特征構(gòu)建關(guān)系圖或相似矩陣。文獻[8]利用對抗學習的思想進行訓練,其中判別模型用預提取特征以k 近鄰法構(gòu)造關(guān)系圖,將相互連通的數(shù)據(jù)點視為相關(guān)數(shù)據(jù)。文獻[10,12]簡單地融合2 個模態(tài)預提取特征的距離信息來構(gòu)造相似度矩陣。文獻[9]則在聚合2 個模態(tài)的余弦相似度之后,進一步基于擴散過程計算二階相似性。文獻[11]首先融合2 個模態(tài)的余弦相似度,然后分別用正態(tài)分布和拉普拉斯分布擬合數(shù)據(jù)對的相似度分布,并利用擬合分布的參數(shù)對相似度分級和加權(quán)。文獻[15]則提出同時考慮余弦相似性和鄰域結(jié)構(gòu)。這些方法的問題在于關(guān)系圖或相似矩陣完全由預提取特征確定,簡單沿用預提取特征的結(jié)構(gòu)信息而沒有考慮預提取特征對原數(shù)據(jù)集的偏向,以及原訓練任務與跨模態(tài)檢索任務之間的差異。文獻[13]首先用k 近鄰構(gòu)建關(guān)系圖,然后在訓練過程中逐步用數(shù)據(jù)嵌入更新邊的權(quán)重,但沒有考慮鄰域結(jié)構(gòu)信息和過度更新可能造成的過擬合問題。
現(xiàn)有方法的另一個問題是,各模態(tài)的哈希函數(shù)是獨立的,在生成哈希碼時只用到單個模態(tài)的數(shù)據(jù),無法有效綜合多個模態(tài)的信息。根據(jù)以上分析,現(xiàn)有方法在相似矩陣構(gòu)造和哈希函數(shù)設計2 個方面依然存在不足。下文將詳細介紹本文針對這2 個方面的改進。
不失一般性,本文考慮圖像和文本2 個模態(tài)。給定一個具有n個樣本的訓練集,每個訓練樣本oi=(vi,ti)包括2 個模態(tài)的特征。其中:vi∈Rdv表示第i個樣本對應的dv維圖像預提取特征;ti∈Rdt是對應的dt維文本特征。UCMH 的目的是為2個模態(tài)各學習一個哈希函數(shù)h*:Rd*?{-1,1}K,使得內(nèi)容上相關(guān)的數(shù)據(jù)具有較短的漢明距離,而不相關(guān)的則距離較遠。其中:*=v,t 分別代表圖像和文本2 個模態(tài);K是哈希碼的長度。此處規(guī)定哈希碼的范圍是{-1,1},只是為了方便漢明距離的計算,后續(xù)可以通過簡單變換轉(zhuǎn)換為{0,1}范圍的哈希碼。本章首先介紹總體框架和訓練目標函數(shù),然后給出相似矩陣的構(gòu)造方法和更新策略,最后總結(jié)訓練算法。
本文模型的總體結(jié)構(gòu)如圖1 所示,其中主要包含5 個模塊,即圖像處理模塊、文本處理模塊、相似矩陣模塊、對偶預測模塊和模態(tài)融合模塊。
2.1.1 分模態(tài)處理
圖像處理模塊的左半部分是一個在ImageNet[15]上預訓練過的卷積神經(jīng)網(wǎng)絡,稱為骨干網(wǎng)絡,用以預先提取深度特征v;右半部分是圖像模態(tài)的嵌入函數(shù)ζv(·;θv),其將深度特征v映射至K維的圖像嵌入zv,θv為參數(shù)。
文本處理模塊結(jié)構(gòu)與圖像處理模塊類似:左半部分使用某種文本編碼模型預提取文本特征,例如LDA[19]、Word2Vec[16]、Doc2Vec[20]、詞袋模型;右半部分的嵌入函數(shù)類似地記為ζt(·;θt)。
2.1.2 模態(tài)融合
融合函數(shù)f:R2K?RK綜合來自2 個模態(tài)的信息,生成統(tǒng)一嵌入:
其中:θf為參數(shù)。測試時用符號函數(shù)sign將zf轉(zhuǎn)換為最終二值化的哈希碼b。sign 函數(shù)定義為:
由此,2 個模態(tài)的哈希函數(shù)可以表示為:其中:?表示函數(shù)復合。
2.1.3 跨模態(tài)生成
由于在測試時只有一個模態(tài)的輸入,因此在輸入融合函數(shù)f生成哈希碼之前,需要用對偶預測模塊生成另一個模態(tài)的嵌入。以圖像到文本的生成方向為例,生成過程可表示為:
其中:是基于圖像嵌入zv生成的文本嵌入;φv是生成函數(shù)的參數(shù)。文本到圖像的生成過程類似。
本文的總目標函數(shù)為:
其中:前3 項基于S對模態(tài)嵌入和統(tǒng)一嵌入進行結(jié)構(gòu)控制;第4 項用于約束跨模態(tài)生成函數(shù)。為方便描述,記分別為圖像、文 本和統(tǒng)一嵌入組成的矩陣。
LID是實例級的控制,用于強化統(tǒng)一樣本的圖像和文本之間的真實配對關(guān)系。這個思想在最近的對比學習[21-22]中很常用,稱為實例判別,表示為:
其中:tr{·}表示矩陣跡;I是單位矩陣;表示矩陣的F-范數(shù)。
LF以矩陣分解的形式控制嵌入空間的結(jié)構(gòu),表示為:
其中:p∈{v,t,f};q∈{v,t}。
LC約束模態(tài)內(nèi)、不同模態(tài)之間嵌入空間的結(jié)構(gòu)一致性,表示為:
其中:p,q,x,y∈{v,t,f}。
LG最小化真實嵌入z*和生成嵌入之間的差異,促使gv→t和gt→v生成真實的預測,表示為:
在現(xiàn)有的UCMH 方法[9-14]中有多種構(gòu)造方法,本文采用文獻[14]的方法,同時考慮距離和鄰域結(jié)構(gòu)2 種信息,給出一種動態(tài)更新的優(yōu)化策略。
2.3.1 余弦相似度
本文利用余弦相似度度量2 個向量之間的距離關(guān)系??紤]到2 個模態(tài)的預提取特征會從不同的角度表達數(shù)據(jù)之間的關(guān)系,為融合來自該模態(tài)的結(jié)構(gòu)信息,本文以加權(quán)平均的形式進行綜合:
其中:α∈[0,1]是調(diào)節(jié)2 個模態(tài)信息比重的參數(shù),保證綜合后的相似度與原本的余弦相似度是同一尺度,即范圍也是[-1,1]。
2.3.2 鄰域相似度
除了一階的距離信息,本文通過鄰域考慮2 個數(shù)據(jù)的二階相似性:先考慮一個數(shù)據(jù)與其鄰域點的相似性,再聚合2 個數(shù)據(jù)的公共鄰域相似性信息作為這2 個數(shù)據(jù)的綜合鄰域相似度。
對于一個數(shù)據(jù)oi和另外任一數(shù)據(jù)oq,本文將它們的鄰域相似度建模為一個概率。記σ(x,y)為表示x和y相似的謂詞,則oi和oq的鄰域相似度表示為:
2.3.3 總相似度
基于上述2 種相似度,oi和oj的總相似度為:
其中:γ調(diào)節(jié)2 種相似度的比重;β是縮放系數(shù)。這樣得出的相似度范圍是[0,1]??紤]到嵌入之間的余弦相似度范圍是[-1,1],本文對s做一次線性變換得到相似矩陣S中相應的一項,即:
2.3.4 動態(tài)更新
本文提出一種相似矩陣的動態(tài)更新策略。直觀來看,在前述的目標函數(shù)約束下,各模態(tài)嵌入所學習得到的結(jié)構(gòu)在保持預提取特征的語義信息之外,同時考慮到模態(tài)之間的關(guān)系,更適應跨模態(tài)檢索的任務。為保證訓練的穩(wěn)定性,在本文訓練過程中,用滑動平均的方式逐步更新S。當?shù)趖輪訓練結(jié)束時,用新學習得到的嵌入根據(jù)式(14)構(gòu)造相似矩陣S~來更新S:
其中:μ∈[0,1]是動量系數(shù)。
另一方面,為了避免對S的更新產(chǎn)生過擬合而影響泛化性能,本文限制更新只進行δ次,之后保持S固定不變。
本文采用交替訓練的策略,對每一個訓練輪次,首先固定S不變,用式(5)訓練更新θv、θt、θf、φv、φt;在一輪結(jié)束后,固定θv和θt,提取新學習得到的嵌入zv和zt計算~,并用式(15)更新S。完整的訓練過程見算法1。
算法1訓練算法
3.1.1 數(shù)據(jù)集
本文使用Flickr25k[23]和NUS-WIDE[24]這2個廣泛應用的數(shù)據(jù)集進行實驗和分析。根據(jù)文獻[14]的劃分,每個數(shù)據(jù)集都隨機劃分為3 個數(shù)據(jù)子集,即檢索集、測試查詢集、驗證查詢集。
Flickr25k 數(shù)據(jù)集包含20 015 個圖文對、24個類別,3 個數(shù)據(jù)子集的數(shù)據(jù)量分別為16 015、2 000、2 000對,訓練集是從檢索集中隨機選的5 000對。
原始NUS-WIDE 數(shù)據(jù)集包含269 648 個圖文對、81 個類別。根據(jù)文獻[2]的設置,本文取其中僅包含數(shù)據(jù)量最多的10 個類別的子集(即NUS-WIDE-TC10),共有186 577 個圖文對和10 個類別,3 個數(shù)據(jù)子集的數(shù)據(jù)量分別為182 577、2 000、2 000對,訓練集是從檢索集中隨機選的5 000對。
所有實驗都使用在ImageNet[15]上預訓練過的VGG-19[25]模型為圖像提取4 096 維特征向量作為圖像數(shù)據(jù);Flickr25k 和NUS-WIDE 的文本數(shù)據(jù)用詞袋模型分別處理成1 386 維和1 000 維的詞袋向量。
3.1.2 評價指標
本文通過以圖搜文(I→T)和以文搜圖(T→I)2 個方向的檢索任務測試模型效果,檢索性能用平均精度均值(mAP)指標評估,其定義為所有查詢數(shù)據(jù)的平均精度(AP)的均值。給定一個查詢樣本及其檢索結(jié)果序列的前R個結(jié)果,AP 的計算公式為:
其中:rel(q)=1 當且僅當?shù)趒個檢索數(shù)據(jù)與查詢數(shù)據(jù)相關(guān),否則rel(q)=0;P(q)是前q個位置的檢索精度。設定R為整個檢索集大小,所有實驗都重復進行5 次取平均。
圖像、文本模態(tài)的嵌入函數(shù)、融合函數(shù)和對偶生成函數(shù)都實現(xiàn)為多層感知機,它們的維度設置分別為(dv,4 096,K)、(dt,4 096,K)、(2K,4 096,K)、(K,2K,K)和(K,2K,K)。除了最后一層的激活函數(shù)是tanh,其他層都是ReLU。本文使用Adam[26]優(yōu)化器進行訓練,學習率為0.000 1,批次大小為128。
本文模型涉及的超參數(shù)有α、k、β、γ、μ、δ,共6個。其中:α是融合2個模態(tài)一階距離信息時的權(quán)重;k、β、γ是考慮二階鄰域相似性信息時的調(diào)節(jié)系數(shù);μ、δ是與相似矩陣動態(tài)更新相關(guān)的控制參數(shù)。根據(jù)這些參數(shù)的功能,本文相應地分3批對它們進行搜索。本節(jié)以Flickr25k數(shù)據(jù)集64 位哈希碼為例,分析它們的不同取值組合對本文模型性能的影響,圖2展示了在這些取值組合下I→T和T→I這2 個方向的mAP 曲線或柱狀圖。
圖2 參數(shù)敏感性分析Fig.2 Sensitivity analysis of parameters
第1 輪搜索α,候選范圍是0.01、0.99 和0.1 至0.9的等差序列,同時將γ置零以暫時屏蔽二階鄰域信息,并暫時禁用S更新。圖2(a)顯示,在α取較小值時效果較好,對照式(10)可以看出,在構(gòu)造初始相似矩陣時,圖像模態(tài)的預提取特征提供了較多有意義的結(jié)構(gòu)信息。筆者猜測這是因為圖像的特征預提取模型是在大規(guī)模圖像數(shù)據(jù)集ImageNet 上預訓練過的模型,故能提供較多有效的結(jié)構(gòu)信息;而文本模態(tài)是社交網(wǎng)絡的用戶標簽,噪聲大且詞袋模型較簡單,故提供的結(jié)構(gòu)信息有限。
第2 輪用網(wǎng)格法搜索k、β、γ,將α置為第1 輪搜索的最優(yōu)值,同時禁用S更新。k的范圍是[500,2 000],β是[2 000,4 500],步長都是500,γ的范圍同α。結(jié)合圖2(b)和式(13)可知,距離信息和鄰域結(jié)構(gòu)信息在比較均衡時能產(chǎn)生較好的結(jié)果,說明2 種信息的重要性相當。圖2(c)顯示,總體來說當k取較小值時效果較好。筆者猜測這是因為以k 近鄰方式選取鄰域點時,較小的k值可以保證采樣的鄰域點與中心點同處特征空間中一個高密度區(qū)域,減少了來自不相關(guān)點的影響,使式(11)估計更準確。
第3 輪以網(wǎng)格法搜索μ、δ,啟用S更新。μ的范圍同α、δ的范圍[8,14]。結(jié)合圖2(d)和式(15)可知,當μ取較大值時效果更好,此時相似矩陣S更新得更慢。筆者猜測這是因為緩慢的更新可使監(jiān)督信息更加穩(wěn)定,且保留更多的原始結(jié)構(gòu)信息,減少了對訓練集過擬合的風險。
在NUS-WIDE 數(shù)據(jù)集上的搜索過程類似,從而得到最終的搜索結(jié)果如下:
對于Flickr25k 數(shù)據(jù)集:α=0.01,k=500,β=2 000,γ=0.5,μ=0.99,δ=12;
對于NUS-WIDE 數(shù)據(jù)集:α=0.01,k=500,β=3 000,γ=0.3,μ=0.9,δ=8。
本文選取10 個最近本領(lǐng)域的模型進行對比,分別是CVH[27]、FSH[28]、CMFH[29]、LSSH[30]、UGACH[8]、DJSRH[9]、UKD-SS[10]、JDSH[11]、DSAH[12]、DGCPN[14]。其中:CVH、FSH、CMFH、LSSH 是傳統(tǒng)淺層模型;UGACH、DJSRH、UKD-SS、DSAH、JDSH、DGCPN 是深度模型。
在2 個數(shù)據(jù)集上,3 種不同哈希碼位長的檢索性能分別如表1 和表2 所示,其中:最優(yōu)的結(jié)果加粗標明;次優(yōu)的加下劃線標明;“本文-F”表示本文模型保留嵌入融合模塊、禁用相似矩陣的動態(tài)更新;“本文-M”表示本文模型啟用動態(tài)更新、移除嵌入融合模塊,此時哈希碼由其嵌入直接施加符號函數(shù)生成。
表1 Flickr25k 數(shù)據(jù)集上的實驗結(jié)果比較 Table 1 Comparison of experimental results on Flickr25k dataset
表2 NUS-WIDE 數(shù)據(jù)集上的結(jié)果比較 Table 2 Comparison of experimental results on NUS-WIDE dataset
由表1 和表2 可以看出,本文方法構(gòu)建的模型在所有數(shù)據(jù)集和哈希位長上的平均檢索性能和I→T 方向的檢索都取得最優(yōu)。具體來說,相比于較新的DGCPN 模型,本文模型在Flickr25k 數(shù)據(jù)集上3 種位長的平均檢索性能分別提升了1.43%、1.82% 和1.52%,在NUS-WIDE 數(shù)據(jù)集上則分別提升了3.72%、3.77%和1.99%。而在I→T 檢索方向的提升更為明顯,在Flickr25k 數(shù)據(jù)集上為5.69%、5.17%和4.14%,在NUS-WIDE 上為10.08%、9.02%和7.09%。這些提升展示了本文方法的有效性。
相對于I→T 方向的提升,本文模型在T→I 方向的檢索性能有所欠缺,其原因可能是Flickr25k 和NUS-WDIE 中的文本主要是社交網(wǎng)站上的用戶標簽,其中還包含一些與數(shù)據(jù)內(nèi)容無關(guān)的冗余信息,相對于圖像提供的有效信息較少。因此,在構(gòu)建相似矩陣和融合嵌入時,模型都更偏向于來自圖像模態(tài)的信息,故而對文本內(nèi)容的建模不夠理想。這一猜測在前一節(jié)α的選擇和后面的消融實驗中都得到部分驗證。如果換用質(zhì)量更高的關(guān)鍵字或句子描述作為文本模態(tài)數(shù)據(jù),可能在T→I方向會得到更好的效果。
通過分析本文模型在訓練過程中的損失函數(shù)值變化來分析其收斂性。圖3 展示了本文模型在Flickr25k 數(shù)據(jù)集64 位哈希碼實驗中的損失值隨訓練輪次增加的變化曲線。可以看到,模型在前30 輪訓練中損失下降明顯,80 輪之后基本穩(wěn)定,模型收斂。
圖3 收斂性分析Fig.3 Convergence analysis
為驗證本文提出的嵌入融合和相似矩陣動態(tài)更新2 個模塊的效果,本節(jié)從檢索性能和運行代價2 個方面進行考察。
對于檢索性能的影響,引入本文模型的2 個變體進行消融實驗,即表1和表2中的“本文-F”和“本文-M”。2 個變體模型在2 個數(shù)據(jù)集上的實驗結(jié)果也分別在表1和表2 中列出??梢钥闯?,移除任一模塊都會對平均檢索性能造成不同程度的影響。值得注意的是,在移除嵌入融合模塊之后,T→I方向的檢索性能有所提升,超過本文完整模型,這驗證了前文的猜測,即不使用嵌入融合模型減輕了模型對圖像信息的偏好,但代價是對圖像數(shù)據(jù)的建模效果下降,同時影響I→T 方向和平均檢索性能。
對運行代價的影響,通過參數(shù)量和計算量2 個方面進行比較,其中計算量以乘加累積操作數(shù)(Multiply-Accumulate Operations,MACs)為指標。由于相似矩陣動態(tài)更新不引入新的網(wǎng)絡,因此此處僅對比本文完整模型和本文-F 變體模型。兩者對比見表3,從中可以看到,模型大部分的參數(shù)和計算量都集中在各模態(tài)的嵌入函數(shù)里,而本文為多模態(tài)融合而引入的融合函數(shù)f和跨模態(tài)生成函數(shù)gv→t、gt→v參數(shù)量和計算量僅分別占總體的3.63%和3.61%,基本可以忽略。
表3 運行成本對比 Table 3 Comparison of running cost
本文針對無監(jiān)督跨模態(tài)檢索任務,提出多模態(tài)嵌入融合策略和相似矩陣動態(tài)更新策略。嵌入融合模塊能有效綜合來自不同模態(tài)的信息,生成質(zhì)量更優(yōu)的統(tǒng)一哈希碼;相似矩陣更新策略能在訓練過程中逐步優(yōu)化相似矩陣,緩解預提取特征過度偏向原始數(shù)據(jù)集和訓練任務的問題,減少負面遷移。在2 個數(shù)據(jù)集上的實驗和分析驗證了本文方法的有效性。未來的研究方向是優(yōu)化對文本模態(tài)信息的建模,利用大規(guī)模預訓練模型對文本數(shù)據(jù)進行特征預提取,從而更充分地利用文本模態(tài)的結(jié)構(gòu)信息,提高以文搜圖方向的檢索性能。