金昌勝, 王海瑞
(昆明理工大學(xué)信息工程與自動化學(xué)院,昆明,650500)
基于文本的行人重識別(text-based person re-identification)是跨模態(tài)行人重識別的重要方向,它根據(jù)給定的文本描述從大型人物圖像數(shù)據(jù)庫中識別目標(biāo)人物圖像。在處理難以獲得合適的目標(biāo)人物照片的場景中尋找嫌疑人或?qū)ふ易呤Ю先伺c兒童等問題時,這種方法非常有用。
早期的研究[1-4]一般采用卷積神經(jīng)網(wǎng)絡(luò)和遞歸神經(jīng)網(wǎng)絡(luò)將圖像和文字分別編碼為全局特征,然后計算特征距離作為其相似度。然而,一方面由于遮擋、穿著相似和視角差異等因素,更加穩(wěn)健的視覺特征難以被提取;另一方面,不同圖像或文本描述的相似性很高,會導(dǎo)致模態(tài)間差異遠(yuǎn)大于模態(tài)內(nèi)差異。為了學(xué)習(xí)更有細(xì)粒度和判別性的特征,一些局部對齊的模型來匹配圖像和文字描述的方法被提出[5-11],這些方法表明準(zhǔn)確提取和匹配局部特征可以提高模型的性能,但是,大多數(shù)方法都使計算復(fù)雜度大大提高,并忽略了模態(tài)間和模態(tài)內(nèi)的相關(guān)信息。例如穿著相似的人容易和同一段文本描述相匹配,因此必須強(qiáng)調(diào)圖像-文本間不匹配的關(guān)系信息,以降低負(fù)圖像-文本對的整體相似性。如圖1(a)所示,2張圖像都能正確匹配“男性”“黃色短袖”“黑色鞋子”等詞匯,但是實際上左圖并非目標(biāo)圖像,因此應(yīng)更加關(guān)注匹配錯誤的區(qū)域,如“藍(lán)色雙肩包”和“白色短褲”(圖1(a)中用中紅色虛線框標(biāo)識)。此外,圖像和文本自身蘊(yùn)含的關(guān)系信息對模型性能有影響,如圖1(b)所示,文本描述中的“右肩膀”和“紅色背包”所蘊(yùn)含的關(guān)系信息可以幫助模型很好地過濾掉“背包在左肩”或者“背著雙肩包”等圖像。
(a)模態(tài)間關(guān)系信息 (b)模態(tài)內(nèi)關(guān)系信息
針對目前基于文本的行人重識別中缺少模態(tài)內(nèi)和模態(tài)間的關(guān)系信息挖掘的問題,本文提出了一種基于關(guān)系挖掘的跨模態(tài)行人重識別模型。該模型在全局特征對齊和局部特征對齊的基礎(chǔ)上,通過負(fù)相似度挖掘?qū)崿F(xiàn)更有細(xì)粒度的模態(tài)間特征辨別,從而過濾掉相似卻錯誤的識別結(jié)果,最后通過特征關(guān)系編碼器學(xué)習(xí)圖像和文本中隱含的關(guān)系信息,實現(xiàn)關(guān)系級別的特征對齊。該模型在基于文本的行人重識別大型數(shù)據(jù)集CUHK-PEDES和ICFG-PEDES上均取得了較高的識別精度。
目前,主流的跨模態(tài)檢索算法的基本思想是從不同模態(tài)中提取有效特征來表示挖掘跨模態(tài)數(shù)據(jù)之間的相關(guān)性。早期研究[12]將深度神經(jīng)網(wǎng)絡(luò)與典型關(guān)聯(lián)分析(CCA)相結(jié)合,提出深度典型關(guān)聯(lián)分析(Deep CCA)來實現(xiàn)不同模態(tài)之間復(fù)雜的非線性變換關(guān)系;文獻(xiàn)[13]為了充分利用訓(xùn)練數(shù)據(jù)的監(jiān)督信息,同時設(shè)計了多個深度網(wǎng)絡(luò),形成層次化網(wǎng)絡(luò)結(jié)構(gòu),通過約束模態(tài)內(nèi)和模態(tài)間的相關(guān)性來學(xué)習(xí)圖像和文本的表示;文獻(xiàn)[14]設(shè)計改進(jìn)的三元組損失函數(shù)用來監(jiān)督訓(xùn)練過程;文獻(xiàn)[15]中檢測圖像中的顯著區(qū)域并計算每個區(qū)域與文本描述詞之間的相似度以實現(xiàn)跨模態(tài)局部對齊;文獻(xiàn)[16]進(jìn)一步使用注意力機(jī)制來增強(qiáng)圖像區(qū)域和文本詞之間的相關(guān)性挖掘;文獻(xiàn)[17]針對少樣本場景,提出了一種跨模態(tài)記憶網(wǎng)絡(luò)來實現(xiàn)跨模態(tài)檢索;文獻(xiàn)[18]為了解決跨模態(tài)訓(xùn)練數(shù)據(jù)不足的問題,結(jié)合對抗學(xué)習(xí)和知識遷移技術(shù),實現(xiàn)了從單模態(tài)數(shù)據(jù)到跨模態(tài)數(shù)據(jù)的大規(guī)模數(shù)據(jù)遷移。上述方法雖然實現(xiàn)了全局或局部關(guān)系挖掘,但缺乏對模態(tài)間負(fù)面關(guān)系信息和模態(tài)內(nèi)關(guān)系信息的挖掘和利用。
基于文本的行人重識別最早由Li等[1]提出,提出用GNA-RNN模型計算每個圖像文本對之間的似度,并收集了一個名為CUHK-PEDES的大規(guī)模人物描述數(shù)據(jù)集。文獻(xiàn)[19]提出了一種深度對抗圖卷積網(wǎng)絡(luò)通過圖卷積操作學(xué)習(xí)圖像區(qū)域和文本描述詞之間的關(guān)系,有效地提高了跨模態(tài)表示的辨別力。文獻(xiàn)[20]提出了一種DSSL模型,明確分離環(huán)境信息和人物信息,從而獲得更高的檢索精度;NAFS[6]使用階梯式CNN和局部約束BERT在全尺度特征表示上進(jìn)行聯(lián)合對齊;ViTAA[8]從屬性對齊的角度將圖像和文本分解為屬性組件,并使用細(xì)粒度匹配策略將身份與多個屬性線索對齊,極大地提高了模型性能。然而由于對齊策略復(fù)雜、計算量巨大,這些方法仍無法簡潔高效地處理基于文本的人物重識別問題。
為了挖掘利用模態(tài)內(nèi)和模態(tài)間的關(guān)系信息,并設(shè)計簡單高效的網(wǎng)絡(luò),本文提出了基于關(guān)系挖掘的行人重識別模型,包含3個組件:①雙流主干網(wǎng)絡(luò):分別提取圖像和文本的多尺度特征;②負(fù)相似度挖掘模塊:增強(qiáng)圖像-文本對中不匹配區(qū)域的關(guān)注度;③特征關(guān)系編碼器:學(xué)習(xí)圖像和文本中隱含的關(guān)系信息。整體結(jié)構(gòu)如圖2所示。
本文模型首先采用預(yù)訓(xùn)練的ResNet50和BERT[21]模型分別對圖像和文字進(jìn)行全局特征提取;其次,利用PCB[22]的分割策略分別對CNN輸出的特征圖和經(jīng)過多分支殘差組合得到的文本特征圖進(jìn)行水平分割,進(jìn)而提取局部特征;然后通過負(fù)相似度挖掘以捕獲更具有細(xì)粒度的圖像-文本關(guān)系;最后,通過關(guān)系編碼器獲得圖像和文本的關(guān)系信息,實現(xiàn)關(guān)系級別的特征對齊。
圖2 基于關(guān)系挖掘的行人重識別模型
2.1.1 全局特征
對于全局圖像特征,首先將所有圖像調(diào)整為相同大小,其次,由于ResNet50原網(wǎng)絡(luò)最后2個殘差塊可以捕獲不同層次的視覺特征,本文采用在ImageNet上預(yù)訓(xùn)練的ResNet50網(wǎng)絡(luò)分別獲得完整的低級圖像特征與高級圖像特征,最后,在上述特征上應(yīng)用全局最大池化操作分別捕獲低級圖像特征Igl和高級圖像特征Igh。
對于全局文本特征,首先采用在大型語料庫訓(xùn)練好的BERT模型提取文本基礎(chǔ)特征,然后將提取的特征經(jīng)過一個1×1的卷積核、BN層,最后通過全局最大池化操作捕獲低級文本特征Tgl。值得注意的是,在訓(xùn)練之前,為了確保文本長度的一致性,當(dāng)文本長度大于L時,本文選擇前L個標(biāo)記,當(dāng)文本長度小于L時,在文本末尾用零填充,并且在每個句子的開頭和結(jié)尾插入[CLS]和 [SEP]。而在訓(xùn)練時,BERT參數(shù)會被固定,這種方法一方面可以有效利用BERT強(qiáng)大的語言建模能力,另一方面可以有效減少訓(xùn)練模型的時間消耗。
為了捕獲高級文本特征,與TIPCB[23]類似,本文所提的模型通過多分支殘差卷積模塊隱式提取與圖像區(qū)域相對應(yīng)的文本局部特征,文本特征每經(jīng)過一層殘差結(jié)構(gòu)就會生成一級部分級特征, 將所有生成的部分級文本特征進(jìn)行拼接, 再應(yīng)用全局最大池化操作得到最終的高級文本特征Tgh。具體的,多分支殘差卷積模塊由6層殘差結(jié)構(gòu)組成,每層殘差結(jié)構(gòu)由3組瓶頸層組成,第1組瓶頸層和第3組瓶頸層由1×1 的卷積核和BN層組成,第2組瓶頸層由1×3的卷積核和BN層組成。
2.1.2 局部特征
受到PCB[22]的啟發(fā),本文采用分割策略對經(jīng)過雙流網(wǎng)絡(luò)得到的高級圖像特征和高級文本特征進(jìn)行水平分割,局部圖像特征為:
局部文字特征為:
式中:K為水平切割條數(shù)。文中K取6。
如前文所述,負(fù)相似度挖掘的目標(biāo)是為了降低負(fù)圖像-文本對的整體相似度,以有效的方式突出不匹配的圖像-文本對對模型匹配結(jié)果的影響。
(3)
式中:θ(ik)=Wθik,φ(tj)=Wφtj。
圖3 負(fù)相似度挖掘
基于文本的行人重識別,圖像區(qū)域幾乎都可以被文本匹配到,因此對相似度矩陣進(jìn)行最大池化操作sj=max (sk,j)搜尋與所有圖像區(qū)域匹配相似度最低的文本區(qū)域,以此證明該文本與任何圖像區(qū)域都不匹配,最后,為了增強(qiáng)判斷的準(zhǔn)確性,通過掩碼挖掘過濾掉正相似度,并通過Sum求得最終的負(fù)相似度,其計算式為:
(4)
式中:Mmining表示輸入為正數(shù)時,輸出為0;輸入為負(fù)數(shù)時,輸出保持不變。
關(guān)系編碼器可以隱式捕獲圖像和文本的關(guān)系信息,從而實現(xiàn)關(guān)系級別的特征對齊。
然后通過下列轉(zhuǎn)置相加計算初步構(gòu)建2個局部區(qū)域之間的關(guān)系特征:
為了挖掘更加細(xì)膩的相鄰區(qū)域的關(guān)系信息,如圖4中的相鄰關(guān)系分支所示,本文構(gòu)建了1×1的卷積層和ReLu激活函數(shù)組成的組合層,將fpc通過N層組合層(圖4中N=3,得到低級的相鄰關(guān)系特征fl_ad_r∈RCr×K×K;最后,通過與(6)式類似的計算獲得最終的相鄰關(guān)系特征:
為了挖掘更加細(xì)膩的全局區(qū)域的關(guān)系信息,如圖4中全局關(guān)系分支所示,本文采用與相鄰關(guān)系分支類似的結(jié)構(gòu),獲得最終的全局關(guān)系特征可以表示為:
最后,將經(jīng)過上下2路分支分別獲得的相鄰關(guān)系特征fadr與全局關(guān)系特征fgr進(jìn)行拼接操作得到最終的關(guān)系特征Fr,其計算式為:
Fr=[fadr,fgr]
(9)
圖4 特征關(guān)系編碼器
多個研究證明,不同粒度的特征對齊可以有效的減少圖像和文本之間的特征差異性。受到相關(guān)研究的啟發(fā),本文在低級、高級和局部級特征上選擇跨模態(tài)投影匹配(CMPM)損失[24]監(jiān)督網(wǎng)絡(luò)訓(xùn)練;在負(fù)相似度挖掘模塊中,本文采用排序損失約束模態(tài)間差異、降低負(fù)樣本相似度;在特征關(guān)系編碼器中,采用MSE損失實現(xiàn)關(guān)系級別的特征對齊。
2.4.1 CMPM損失
對于全局特征而言,假設(shè)輸入的圖像-文本對數(shù)量為N,將全局圖像特征I與全局文本特征T組合起來得到圖像-文本對(由于全局低級特征與全局高級特征對齊方式類似,故省略其區(qū)分下標(biāo)),其表達(dá)式為:
式中:yi,j表示第i個圖像特征Ii與第j個文本特征Tj匹配情況,其匹配的概率為:
(11)
由此,可以計算出正確匹配圖片Ii的損失值為:
(12)
式中:qi,j為歸一化的真實匹配概率,為了避免數(shù)值問題,添加極小數(shù)ε在分母之中。于是,圖像到文本的CMPM損失可以計算為:
(13)
同理可以得出文字到圖像的CMPM損失Lt2i。故全局CMPM損失為:
LCMPM=Li2t+Lt2i
(14)
對于局部特征而言,首先計算出圖像與文本分割后對應(yīng)區(qū)域的CMPM損失,然后計算總的局部CMPM損失:
式中:K為水平切割的條數(shù)。
綜上,最終的CMPM損失為:
2.4.2 Ranking損失
為了抑制模型對錯誤匹配結(jié)果的相似區(qū)域的關(guān)注度,本文采用排序損失。具體而言,首先計算圖像與文本的局部相似度:
其次,由于在第2.2節(jié)已經(jīng)計算過樣本負(fù)相似度Sneg,故局部特征的排序損失為:
LRanking=max (α-sl_neg(I+,T+)+
sl_neg(I+,T-),0)+
max(α-sl_neg(I+,T+)+
sl_neg(I+,T-),0)
(18)
式中:sl_neg=sl+sneg,α代表排序損失的邊界值,(I+,T+)代表匹配的圖像-文本對,(I+,T-)或(I-,T+)代表不匹配的圖像-文本對。
2.4.3 MSE損失
對于關(guān)系特征而言,MSE損失函數(shù)可以縮小模態(tài)間關(guān)系特征的差異,其計算如下:
(19)
2.4.4 最終損失
通過前面的計算,分別得到了CMPM損失、Ranking損失和MSE損失。故最終損失函數(shù)為:
L=LCMPM+LRanking+Lr
(20)
式中:LCMPM為多尺度CMPM損失之和。
CUHK-PEDES[6]最早是唯一用于基于文本的行人重識別的大型數(shù)據(jù)集,現(xiàn)在也是主流的數(shù)據(jù)集。該數(shù)據(jù)集包含13 003名不同行人的40 206張圖像,每個行人圖像都用2個可變長度的描述性句子進(jìn)行注釋。在實驗中,本文采用與文獻(xiàn)[6]中相同的數(shù)據(jù)集拆分方法,得到一個包含來自11 003個不同行人的34 054張圖像的訓(xùn)練集,一個包含來自1 000個不同行人的3 078張圖像的驗證集,其余3 074張圖像用作測試集。
ICFG-PEDES[25]數(shù)據(jù)集是一個新收集的數(shù)據(jù)集,它包含 4 102 人的 54 522 張圖,每個圖像僅用1個文本描述。與CUHK-PEDES相比,ICFG-PEDES擁有細(xì)粒度更高的文本描述。ICFG-PEDES數(shù)據(jù)集被分為訓(xùn)練集和測試集,分別使用 3 102 人的 34 674 個圖像-文本對和其余 1 000 人的 19 848 個圖像-文本對。
為了評估行人重識別模型的性能,本文采用了經(jīng)典評價指標(biāo)累計匹配曲線(cumulative matching characteristic,CMC)和平均精度(mean average precision,mAP)。rank-N指模型在一系列結(jié)果中前N個包含正確行人的概率;mAP則表示正確結(jié)果在結(jié)果排序中的前列程度。通過綜合使用這2個指標(biāo),可以更全面地測量模型性能。
訓(xùn)練過程在基于文本的跨模態(tài)行人重識別數(shù)據(jù)集CUHK-PEDES和ICFG-PEDES上進(jìn)行。在圖像分支上采用預(yù)訓(xùn)練的ResNet50提取視覺特征,在文本分支上采用預(yù)訓(xùn)練的BERT模型。輸入圖像的尺寸統(tǒng)一調(diào)整為384×128,文本長度統(tǒng)一為64。預(yù)訓(xùn)練的ResNet50模型和本模型其他參數(shù)一起更新,而預(yù)訓(xùn)練的BERT參數(shù)則被凍結(jié)。設(shè)置局部特征分塊數(shù)K=6,設(shè)置關(guān)系編碼器模塊中的組合層個數(shù)N=3,設(shè)置排序損失中的α=0.2。在訓(xùn)練過程中訓(xùn)練批次設(shè)置為32,選擇Adam優(yōu)化器來優(yōu)化模型,訓(xùn)練90個epoch,學(xué)習(xí)率在開始訓(xùn)練時設(shè)置為 3×10-3,每30個epoch衰減到原來的1/3。本文模型都是在基于深度學(xué)習(xí)的框架PyTorch下實現(xiàn),實驗設(shè)備為單塊顯存為12 GB的NVIDIA GeForce GTX 3060 GPU。
在CUHK-PEDES數(shù)據(jù)集上將本文模型與其他模型進(jìn)行比較。主流模型可以大致分為: ①全局匹配方法,如GNA-RNN[1]、IATV[26]、Dual Path[2]和CMPM-CMPC[24];②全局-局部匹配方法,如PMA-VGG[7]、PMA-ResNet[7]、MIA[9]、ViTAA[8]、NAFS[6]、TIPCB[23];③其他方法,如CAIBC[27]、AXM-Net[28]和TFAF[29]。實驗結(jié)果具體如表1所示,通過分析可知:
表1 在CUHK-PEDES數(shù)據(jù)集上與其他方法比較
1)使用全局特征加上局部特征的多尺度匹配方法,相比于僅使用全局匹配方法,能夠捕獲更具有細(xì)粒度的特征,從而達(dá)到更好的識別效果。
2)優(yōu)秀的模態(tài)特征提取方法對模型性能有顯著提升。例如MIA方法在從使用VGG提取圖像特征到使用ResNet50提取圖像特征后,rank-1精度從48.00%提升到53.10%;同樣的,TIPCB從使用LSTM 提取文本特征到使用BERT提取文本特征后,rank-1精度從60.82%提升到63.63%。
3)本文提出的模型應(yīng)用了全局、局部、關(guān)系的特征對齊機(jī)制,并且采用了負(fù)相似度挖掘的方法實現(xiàn)更有細(xì)粒度的關(guān)系挖掘,通過在CUHK-PEDES數(shù)據(jù)集上實驗,實現(xiàn)了較高的識別精度提升,rank-1、rank-5、rank-10分別達(dá)到了66.37%、85.46%、90.78%。相比于圖像特征提取使用了金字塔視覺Transfomer的TFAF[29],本文模型在rank-1、rank-5、rank-10精度上仍舊提升了0.68%、1.71%、1.85%。
為了驗證模型的泛化性,本文還在ICFG-PEDES數(shù)據(jù)集上進(jìn)行了實驗,實驗結(jié)果如表2所示,其實驗結(jié)果與2022年的工作IVT[31]相比,rank-1、rank-5、rank-10精度分別提升了0.58%、2.29%、2.81%。
表2 在ICFG-PEDES數(shù)據(jù)集上不同方法試驗結(jié)果對比
為了進(jìn)一步驗證本文提出模型的有效性,實驗均在最常用的CUHK-PEDES數(shù)據(jù)集上進(jìn)行。
首先,在整體模型上分別刪除局部特征對齊模塊、負(fù)相似度挖掘模塊和關(guān)系編碼器模塊,其他參數(shù)保持不變,實驗結(jié)果如表3所示,其結(jié)果說明:
1)局部特征對齊可以有效提升識別精度:在只使用全局特征對齊的情況下,rank-1和mAP只有56.24%與48.45%,而加上局部特征對齊之后,rank-1和mAP分別提升了3.67%和3.00%達(dá)到了59.91%和51.45%。
2)負(fù)相似度挖掘和關(guān)系編碼器的有效性。在使用全局特征和局部特征對齊的基礎(chǔ)之上,本文提出
的負(fù)相似度挖掘模塊和關(guān)系編碼器模塊分別在rank-1和mAP上提升了4.03%、4.98%和2.34%、2.46%。
3)負(fù)相似度挖掘和關(guān)系編碼器可以很好地配合實現(xiàn)對齊特征。在同時采用負(fù)相似度挖掘和關(guān)系編碼器的情況下rank-1和mAP分別提升了6.46%和5.25%。負(fù)相似度挖掘和關(guān)系編碼器的共同使用可以有效提升識別精度,這是由于負(fù)相似度挖掘可以很好地探索模態(tài)間的關(guān)系信息,使模型關(guān)注模態(tài)間不匹配的區(qū)域,從而過濾掉相似卻錯誤的結(jié)果,而關(guān)系編碼器可以很好地探索模態(tài)內(nèi)的關(guān)系信息,實現(xiàn)更細(xì)膩的關(guān)系級別的特征對齊。
表3 模型不同模塊對實驗結(jié)果的影響 %
其次,為了驗證關(guān)系編碼器的相鄰關(guān)系分支和全局關(guān)系分支對模型整體性能的影響,分別采用相鄰、全局和相鄰-全局對同樣的數(shù)據(jù)集進(jìn)行訓(xùn)練和測試。實驗結(jié)果如表4所示,單獨(dú)使用相鄰關(guān)系挖掘或者全局關(guān)系挖掘,rank-1精度分別為64.27%和64.53%,而同時使用相鄰關(guān)系挖掘和全局關(guān)系挖掘,rank-1和mAP分別達(dá)到66.37%和56.70%。由此可見,同時使用相鄰關(guān)系挖掘和全局關(guān)系挖掘可以更全面精確地捕獲模態(tài)內(nèi)的關(guān)系信息,識別效果更好。
表4 關(guān)系編碼器中上下分支對模型性能影響 %
同時,為了驗證關(guān)系編碼器中的組合層個數(shù)對于模型性能的影響,本文將N∈{1,2,3,4,5,6}對CUHK-PEDES數(shù)據(jù)集進(jìn)行訓(xùn)練和測試,實驗結(jié)果如圖5所示。從圖5的實驗結(jié)果可以得出:模型的性能受組合層數(shù)量影響較為明顯,組合層數(shù)量過低或過高都會影響模型性能。當(dāng)N=1和N=6時,rank-1的精度只有65.56%和65.59%;而當(dāng)N=3時,模型性能較好,rank-1的精度為66.37%。綜合考慮模型識別精度和復(fù)雜度,本文模型中N取值為3。
圖5 組合層數(shù)量N對模型性能影響
最后,對于局部特征分塊數(shù)K,為了驗證不同的分割粒度對于模型性能的影響,本文將K∈{1,2,3,4,5,6}對相同的數(shù)據(jù)集進(jìn)行訓(xùn)練和測試,實驗結(jié)果如圖6所示,其表明當(dāng)K=6時,模型性能最好;當(dāng)K=1時,算法接近于全局特征匹配模型,性能顯著下降;當(dāng)K過大時,分割細(xì)粒度過高,無法捕獲完整的局部特征,性能同樣有所下降。綜上,本文模型中的K取6,這與PCB中的實驗結(jié)果也是一致的。
圖6 局部特征分塊數(shù)K對模型性能影響
為了捕獲模態(tài)內(nèi)相關(guān)信息、縮小模態(tài)間差異,本文提出了一種基于關(guān)系挖掘的跨模態(tài)行人重識別方法,其中包含雙流主干網(wǎng)絡(luò)、負(fù)相似度挖掘模塊、關(guān)系編碼器3個模塊。其中,雙流主干網(wǎng)絡(luò)通過殘差塊的結(jié)構(gòu)捕獲多尺度特征;負(fù)相似度挖掘模塊挖掘圖像-文本不匹配的關(guān)系信息,降低負(fù)樣本整體相似度;特征關(guān)系編碼器捕獲圖像以及文本模態(tài)內(nèi)關(guān)系信息實現(xiàn)更細(xì)膩的關(guān)系特征對齊。實驗結(jié)果表明,本文提出的模型有著不復(fù)雜的結(jié)構(gòu)和良好的識別精度。如何更加簡單高效的提取模態(tài)內(nèi)特征和縮小模態(tài)間差異,以及模態(tài)內(nèi)的關(guān)系信息對于跨模態(tài)問題中遮擋、背景干擾和姿態(tài)變化等問題是否有改善,都是今后重點(diǎn)研究的方向。