吳媛媛 夏沭濤 孫煒瑋
(1.91001部隊(duì) 北京 100036)(2.海軍航空大學(xué)信息融合研究所 煙臺 264001)
跨模態(tài)檢索任務(wù)是利用某一種模態(tài)信息的數(shù)據(jù)作為查詢?nèi)z索其他模態(tài)信息所對應(yīng)的數(shù)據(jù),模態(tài)間關(guān)聯(lián)關(guān)系的建立有助于人們從海量數(shù)據(jù)中快速準(zhǔn)確地找到感興趣的內(nèi)容。近年來衛(wèi)星與無人機(jī)等遙感探測技術(shù)飛速發(fā)展,遙感圖像文本跨模態(tài)檢索以其靈活高效的獲取感興趣信息的方式和實(shí)際應(yīng)用價(jià)值受到了廣泛關(guān)注。通過建立遙感圖像信息與文本信息之間準(zhǔn)確的關(guān)聯(lián)關(guān)系,實(shí)現(xiàn)兩種模態(tài)數(shù)據(jù)之間的關(guān)聯(lián)檢索,不僅能有效利用多源的情報(bào)資源,而且可以得到對同一目標(biāo)的多方面信息,有利于提高描述同一目標(biāo)情報(bào)信息的可靠性,有著重要的實(shí)際意義。
跨模態(tài)檢索的方法在自然領(lǐng)域已經(jīng)得到了廣泛的探索[1~3],國內(nèi)外學(xué)者也開始對遙感領(lǐng)域跨模態(tài)問題進(jìn)行探索。文獻(xiàn)[4]研究了基于哈希網(wǎng)絡(luò)的SAR與光學(xué)圖像之間的遙感跨模態(tài)檢索,通過引入圖像轉(zhuǎn)換的策略豐富了圖像信息的多樣性。Gou等[5]中提出了一種視覺-語音關(guān)聯(lián)學(xué)習(xí)網(wǎng)絡(luò),并構(gòu)建了圖像和語音的關(guān)聯(lián)數(shù)據(jù)集,驗(yàn)證了遙感圖像與語音數(shù)據(jù)之間關(guān)聯(lián)關(guān)系構(gòu)建的可能性。文獻(xiàn)[6]基于不同模態(tài)信息間潛在的語義一致性,提出了一種通用的跨模態(tài)遙感信息關(guān)聯(lián)學(xué)習(xí)方法,通過共同空間的構(gòu)建實(shí)現(xiàn)了多種模態(tài)數(shù)據(jù)的相互檢索。文獻(xiàn)[7]提出了一種深度語義對齊網(wǎng)絡(luò),并設(shè)計(jì)了語義對齊模塊來細(xì)化遙感圖像與文本的對應(yīng)關(guān)系,通過利用注意力和門機(jī)制對數(shù)據(jù)特征進(jìn)行過濾以得到更具辨別力的特征表示。Yuan 等[8]提出了一種適用于多源輸入的非對稱多模態(tài)特征匹配網(wǎng)絡(luò),同時(shí)構(gòu)建了一個細(xì)粒度且更具挑戰(zhàn)性的遙感圖像-文本匹配數(shù)據(jù)集。雖然現(xiàn)在已經(jīng)有許多對遙感圖像跨模態(tài)檢索方法的研究,但由于模型對各模態(tài)特征表示能力不足,關(guān)聯(lián)關(guān)系挖掘不夠充分等問題,造成現(xiàn)有的方法準(zhǔn)確率仍比較低,難以滿足更高準(zhǔn)確性的任務(wù)需求。
針對上述問題,為克服遙感圖像與文本描述之間的語義鴻溝,實(shí)現(xiàn)兩種模態(tài)數(shù)據(jù)之間的準(zhǔn)確檢索,本文提出了一種基于Transformer融合的遙感圖像文本跨模態(tài)檢索方法,用于開展面向遙感圖像文本的跨模態(tài)檢索問題研究,該模型主要由各模態(tài)特征提取部分和跨模態(tài)融合部分組成,單模態(tài)特征提取部分用于獲取各模態(tài)信息準(zhǔn)確的特征表示,跨模態(tài)信息融合部分用于進(jìn)一步發(fā)掘不同模態(tài)之間潛在的關(guān)聯(lián)關(guān)系,實(shí)現(xiàn)跨模態(tài)特征信息的交互。最后,通過對比損失和匹配損失對不同模態(tài)的特征信息進(jìn)行約束,增強(qiáng)跨模態(tài)信息間語義的一致性,以構(gòu)建準(zhǔn)確的關(guān)聯(lián)關(guān)系,并在多個公開數(shù)據(jù)集上驗(yàn)證了方法的有效性。
為提高遙感圖像跨模態(tài)檢索算法的準(zhǔn)確性,本文提出了一種基于Transformer 融合的模型(TFM)。所提模型對兩種不同模態(tài)數(shù)據(jù)分別設(shè)計(jì)了相應(yīng)的特征提取模塊,輸入的遙感圖像通過視覺Transformer(Vision Transformer,ViT)[9]來學(xué)習(xí)其特征表示,圖像輸入后首先被切分為一個個小塊,進(jìn)一步再經(jīng)Transformer 編碼器進(jìn)行處理。對于文本描述,采用BERT[10]模型進(jìn)行處理,BERT 是一種基于注意力的雙向語言模型,而且其有效性在多種自然語言處理任務(wù)中已得到證明。本文所提模型的基本結(jié)構(gòu)如圖1所示。
圖1 本文所提方法構(gòu)架
輸入遙感圖像的處理過程如圖2 所示,在提取遙感圖像的特征表示時(shí),視覺特征提取模塊首先會將輸入圖像分割為不重疊的小塊:
圖2 遙感圖像特征提取網(wǎng)絡(luò)
在圖像被分割成小塊后,首先會通過一個可訓(xùn)練的線性投影將圖像塊展平并映射成維度為Dm的向量,這個投影的輸出稱為圖像塊編碼,再加以表示整個圖像的[CLS]編碼,輸入遙感圖像被表示成一系列的編碼向量:
在圖像塊編碼中還加入了位置編碼以使模型能夠保留輸入圖像塊的有關(guān)位置信息,有助于獲得更準(zhǔn)確的特征表示。然后將所得到的向量序列輸入進(jìn)行特征提取,獲得最終的圖像特征表示向量序列,進(jìn)而將輸入遙感圖像的編碼向量映射到模型統(tǒng)一特征空間中,得到遙感圖像的視覺特征表示。
對于文本描述,使用BERT 作為其特征提取模塊,文本信息輸入后,首先由WordPieces[11]將輸入數(shù)據(jù)轉(zhuǎn)化成一個標(biāo)記序列,然后將序列分割成單詞塊的形式。
其中,ycls代表整個句子的向量表示;ysep為句子結(jié)尾標(biāo)識符向量;M是分割后單詞塊的數(shù)量。
單詞塊在文本特征編碼器初步處理后得到對應(yīng)詞塊的編碼向量,再與輸入序列文本的位置編碼向量相結(jié)合得到最終的序列文本輸入的向量形式。然后進(jìn)一步進(jìn)行特征表示的學(xué)習(xí),最后將學(xué)習(xí)到的特征向量映射到模型統(tǒng)一的特征空間中,獲得輸入序列文本信息的特征表示。
圖3 展示了輸入的序列文本信息處理過程,在文本描述輸入到特征編碼器后會先按單詞拆分,再進(jìn)一步提取輸入數(shù)據(jù)所包含的豐富淺層特征和深層語義特征信息。
圖3 文本特征提取網(wǎng)絡(luò)
為了實(shí)現(xiàn)遙感圖像與序列文本之間的跨模態(tài)信息間的交互,本文模型中構(gòu)建了跨模態(tài)信息融合模塊。模塊基于Transformer的基本架構(gòu),通過使用交叉注意機(jī)制進(jìn)一步挖掘跨模態(tài)信息間潛在的相關(guān)關(guān)系,提高關(guān)聯(lián)的準(zhǔn)確性。這種注意力機(jī)制與多頭注意力模塊結(jié)構(gòu)相類似,但存在一定區(qū)別,跨模態(tài)信息融合模塊中的注意力機(jī)理如圖4 所示,其中X和Y是來自不同模態(tài)的特征信息。設(shè)計(jì)的跨模態(tài)融合模塊,通過融合單模態(tài)的特征表示來獲取融合特征信息,以進(jìn)一步發(fā)掘不同模態(tài)信息間的關(guān)聯(lián)關(guān)系,提高特征表示的判別性。在融合之前,單模態(tài)編碼器已分別學(xué)習(xí)得到了視覺特征表示和序列文本特征表示,然后該模塊在單模態(tài)獲得的特征信息的基礎(chǔ)上,通過模態(tài)間信息的交互進(jìn)一步挖掘有助于構(gòu)建跨模態(tài)關(guān)聯(lián)關(guān)系的潛在語義信息。
圖4 跨模態(tài)融合模塊中的注意力機(jī)制
以輸入為同一模態(tài)信息時(shí)為例,該注意力機(jī)制的計(jì)算過程可表述如下:
3.學(xué)生在課堂中學(xué)習(xí)了一些有趣事實(shí)之后,通過Brainstorm的形式讓學(xué)生總結(jié)可以表達(dá)情感和觀點(diǎn)的形容詞,學(xué)生給出的詞匯非常豐富。
其中,Z?Rn×d為輸入向量,n為輸入向量長度,d為維度;WQi=?Rdm×D,WKi=?Rdm×D,WVi=?Rdm×D和WO=?RHD×dm是參數(shù)矩陣;dm表示模型的維數(shù),通常dm=d;H為多頭注意力的頭數(shù);D通過D=dm/H計(jì)算。其輸出結(jié)果會進(jìn)一步輸入到前饋模塊,經(jīng)前饋神經(jīng)網(wǎng)絡(luò)和激活函數(shù)處理后輸出。
在本文模型中,為了在共同的特征空間中對不同模態(tài)信息進(jìn)行約束,構(gòu)建準(zhǔn)確的跨模態(tài)關(guān)聯(lián)關(guān)系,所提模型設(shè)計(jì)的目標(biāo)函數(shù)是對比損失和匹配損失的組合。對比損失通過最大化遙感圖像和序列文本間的相互信息,使得不同模態(tài)的語義信息保持一致性。而匹配損失有助于提高本文所提模型對輸入的圖像和序列信息是否匹配的判別能力,以建立更準(zhǔn)確的關(guān)聯(lián)關(guān)系。所提模型整體的目標(biāo)函數(shù)可表示為
1)對比損失
對比學(xué)習(xí)在一定程度上可以使得不同模態(tài)特征表示間的相互信息最大化,讓相關(guān)的圖像和文本信息在共同特征空間中更接近,而不相關(guān)的圖像和文本的表征信息在共同特征空間中距離更遠(yuǎn)。采用與文獻(xiàn)[12]MoCo 類似的方式,使用動態(tài)字典作為存儲負(fù)樣本的隊(duì)列,其中的樣本在訓(xùn)練過程中會依次被替換,該過程由與對應(yīng)的模態(tài)特征編碼器共享相參數(shù)的動量編碼器實(shí)現(xiàn),所提模型中使用兩個隊(duì)列存儲來自動量單模態(tài)編碼器的視覺和文本表示。不同模態(tài)信息間的相似度計(jì)算公式如下:
其中,Xcls,Ycls分別是圖像和文本編碼器最終輸出中代表整體信息的[CLS]編碼;gx,gy將[CLS]編碼向量映射為歸一化的低維特征表示。
通過對遙感圖像和文本描述特征表示的對比學(xué)習(xí),所提模型可以更好地挖掘跨模態(tài)信息中潛在的語義信息,對比損失能夠使得相匹配的遙感圖像和序列文本的語義信息保持一致性,發(fā)掘不同模態(tài)信息間的潛在相關(guān)性,使單模態(tài)特征編碼器學(xué)習(xí)到的特征表示更具判別性。跨模態(tài)信息的對比損失有如下定義:
其中,h()表示交叉熵函數(shù);Lit(I)和Lti(T)表示跨模態(tài)信息間真實(shí)的相似度標(biāo)簽。
2)匹配損失
為了進(jìn)一步提高所提方法的關(guān)聯(lián)性能,在模型中引入匹配損失來預(yù)測遙感圖像與序列文本信息是否相匹配。針對部分?jǐn)?shù)據(jù)信息間具有很強(qiáng)的相似性,容易造成混淆,因此模型通過不同模態(tài)間的相似度找出硬負(fù)對來進(jìn)一步提高判別性能,硬負(fù)對是指其中的部分樣本和真值具有較高相似度,但在具體細(xì)節(jié)存在差異,影響關(guān)聯(lián)的精確性。在計(jì)算跨模態(tài)信息間的匹配損失時(shí),所提模型采用了硬負(fù)對的訓(xùn)練策略。匹配損失的計(jì)算公式定義為
式中,ym是表示對應(yīng)真值的二維獨(dú)熱編碼向量;pm是跨模態(tài)信息相互匹配的概率,由跨模態(tài)信息融合模塊輸出的[CLS]編碼向量進(jìn)行計(jì)算。
常用的遙感圖像文本公開數(shù)據(jù)集主要包括:SYD-Captions 數(shù)據(jù)集[13],數(shù)據(jù)集包含613 張遙感圖像,每幅圖像對應(yīng)5個描述語句。UCM-Captions數(shù)據(jù)集是在文獻(xiàn)[13]中構(gòu)造的,數(shù)據(jù)集包含2100 張遙感圖像,每幅圖像對應(yīng)5 個描述語句。遙感圖像文本匹配數(shù)據(jù)集(Remote sensing Image-Text Match dataset,RSITMD)[8]是最新公開的一個細(xì)粒度的遙感圖像與文本描述匹配數(shù)據(jù)集。該數(shù)據(jù)集共包含4743幅遙感圖像,且仍使用5 個句子來描述每幅圖像的內(nèi)容,但描述更注重細(xì)節(jié)信息,各句子之間的相似性更低。上述數(shù)據(jù)集中的部分樣例如圖5中所示。
圖5 SYD-Captions、RSITMD和UCM-Captions數(shù)據(jù)集樣例
為了充分驗(yàn)證本文所提方法的有效性,本文在上述數(shù)據(jù)集上進(jìn)行了大量實(shí)驗(yàn)。對于每個數(shù)據(jù)集,實(shí)驗(yàn)時(shí)將80%的數(shù)據(jù)用作訓(xùn)練,10%用作驗(yàn)證,剩下的10%作為測試。
在實(shí)驗(yàn)中,學(xué)習(xí)率設(shè)置為0.00003,迭代次數(shù)為20。在訓(xùn)練過程中使用余弦退火策略來衰減學(xué)習(xí)率,圖像特征提取模塊通過預(yù)先訓(xùn)練的權(quán)值的ViT[14]進(jìn)行初始化,文本描述特征提取模塊由預(yù)訓(xùn)練的BERT 模型進(jìn)行初始化,兩種模態(tài)數(shù)據(jù)輸出特征向量的維度均設(shè)置為768,使用AdamW優(yōu)化器[15]進(jìn)行訓(xùn)練。
跨模態(tài)檢索任務(wù)分為遙感圖像檢索文本(I→T)以及文本檢索遙感圖像(T→I)兩種類型。本文實(shí)驗(yàn)采用召回率作為算法的性能衡量指標(biāo),R@K表示針對某一模態(tài)的查詢數(shù)據(jù),返回的其他模態(tài)數(shù)據(jù)的前K 個返回值中包含的真值的比例,K 通常設(shè)置為1,5 和10。另一個來評估模型性能的度量指標(biāo)為R_mean,用R@K 所有數(shù)據(jù)的平均值表示,能夠更直觀地反映模型的整體性能。上述指標(biāo)的值越高,模型的表現(xiàn)越好。
為驗(yàn)證本文方法的有效性,我們在上述數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)驗(yàn)證,并與部分圖文跨模態(tài)檢索的基準(zhǔn)算法進(jìn)行了對比實(shí)驗(yàn)。對比算法分別為VSE++、SCAN、CAMP、MTFN,對比實(shí)驗(yàn)在相同的實(shí)驗(yàn)條件下進(jìn)行[8],方法AMFMN 的后面代表其模型不同的注意力計(jì)算方法。在遙感領(lǐng)域常用公開的跨模態(tài)數(shù)據(jù)集上的對比結(jié)果如表1~3 所示。
表1 不同方法在SYD-Captions數(shù)據(jù)集上的結(jié)果對比
表2 不同方法在UCM數(shù)據(jù)集上的結(jié)果對比
表3 不同方法在RSITMD數(shù)據(jù)集上的結(jié)果對比
對比結(jié)果如表1~3 所示,其中VSE++、SCAN、CAMP、MTFN 是計(jì)算機(jī)視覺領(lǐng)域用于解決自然場景圖像跨模態(tài)關(guān)聯(lián)檢索問題的算法,從表格中可以看出,與這些方法相比,本文所提方法在幾個公開數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果在反映模型整體性能的度量指標(biāo)R_mean 以及各任務(wù)R@K 指標(biāo)上大都有較大幅度的提高。這說明計(jì)算機(jī)視覺領(lǐng)域的部分方法在用于遙感領(lǐng)域時(shí),由于遙感圖像的語義信息相對更豐富,導(dǎo)致這些模型的檢索效果并不理想,難以獲得數(shù)據(jù)中的準(zhǔn)確表征信息來構(gòu)建關(guān)聯(lián)關(guān)系。AMEMN 是遙感領(lǐng)域最近提出的用于圖像文本跨模態(tài)關(guān)聯(lián)的非對稱多模態(tài)特征匹配網(wǎng)絡(luò),可用于多尺度輸入并能動態(tài)過濾冗余特征,與計(jì)算機(jī)視覺領(lǐng)域的幾種方法相比具有更好的性能。而本文所提的方法整體表現(xiàn)更為出色,在各個數(shù)據(jù)集的模型整體評價(jià)值指標(biāo)R_mean 上均達(dá)到了最佳的表現(xiàn),而且在兩個子任務(wù)的評價(jià)指標(biāo)上的表現(xiàn)也較好,實(shí)驗(yàn)結(jié)果優(yōu)于其他基準(zhǔn)算法。通過上述在常用公開數(shù)據(jù)集上與其他基準(zhǔn)算法的對比,實(shí)驗(yàn)結(jié)果有力說明了本文所提模型在實(shí)現(xiàn)遙感圖像跨模態(tài)關(guān)聯(lián)任務(wù)上的有效性,表明本文方法能夠較準(zhǔn)確地對各模態(tài)信息的特征進(jìn)行表征實(shí)現(xiàn)遙感圖像與文本描述之間的相互檢索。
本文提出了一種基于Transformer 融合的遙感圖像文本跨模態(tài)檢索方法。針對不同模態(tài)的信息,分別設(shè)計(jì)了對應(yīng)特征提取模塊,再通過基于注意力的融合模塊實(shí)現(xiàn)跨模態(tài)信息間的交互,有助于深入發(fā)掘不同模態(tài)信息間潛在的相關(guān)關(guān)系,增強(qiáng)語義相關(guān)性。進(jìn)一步通過對比學(xué)習(xí)損失函數(shù)以及不同模態(tài)數(shù)據(jù)間的匹配損失函數(shù)的設(shè)計(jì),使不同模態(tài)間的相互信息最大化,增強(qiáng)跨模態(tài)信息間的語義相關(guān)性及一致性,構(gòu)建準(zhǔn)確的關(guān)聯(lián)關(guān)系。最后在多個公開數(shù)據(jù)集上,通過與其他基準(zhǔn)方法的對比實(shí)驗(yàn),充分驗(yàn)證了所提方法的有效性。不過模型規(guī)模相對較大,后續(xù)將考慮輕量化的設(shè)計(jì)進(jìn)一步優(yōu)化所提算法。