朱貴德,黃海
(浙江理工大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院(人工智能學(xué)院),浙江 杭州 310018)
視覺問答(VQA)[1]是計(jì)算機(jī)視覺、自然語言處理等領(lǐng)域中的學(xué)習(xí)任務(wù),它是將給定的一張圖像和一個(gè)自然語言問題作為輸入,通過理解圖像和問題來輸出自然語言答案。視覺問答任務(wù)通常只關(guān)注圖像中的視覺信息,并不考慮圖像中可能包含的文本信息,而這些文本信息對(duì)于圖像理解任務(wù)至關(guān)重要。例如,一個(gè)問題是“出現(xiàn)停車標(biāo)志的街道名稱是什么?”,圖像中的“街道名稱”文本即為問題所需的答案。因此,能夠閱讀并理解圖像中的文本是正確回答該問題的關(guān)鍵,文本視覺問答(TextVQA)[2]任務(wù)在這一背景下被提出。
文本視覺問答任務(wù)是將給定的一張包含文本的圖像和一個(gè)自然語言問題作為輸入,通過理解圖像和問題來輸出自然語言答案。文本視覺問答任務(wù)通過將問題、圖像中的視覺信息以及圖像中的文本信息3 個(gè)模態(tài)進(jìn)行聯(lián)合以推理出答案。與視覺問答任務(wù)不同,文本視覺問答任務(wù)除了關(guān)注圖像中的視覺信息外,還需要關(guān)注圖像中的文本信息,它是一個(gè)比視覺問答任務(wù)更具挑戰(zhàn)性的問題,主要表現(xiàn)在以下方面:
1)文本視覺問答任務(wù)需要關(guān)注圖像中的文本,如何提取有效的文本特征是需要考慮的問題,而視覺問答不需要考慮文本特征。
2)文本視覺問答需要處理文本、視覺以及問題3 個(gè)模態(tài)的信息,而視覺問答任務(wù)只考慮視覺和問題2 個(gè)模態(tài)。
3)文本視覺問答的問題通常比視覺問答更加復(fù)雜,大多都涉及圖像中視覺對(duì)象與文本的關(guān)系,而視覺問答一般只涉及單個(gè)視覺對(duì)象。
文本視覺問答任務(wù)的問題較為復(fù)雜,大多都涉及視覺對(duì)象與文本的關(guān)系,常見的問題有:
1)目標(biāo)檢測、文本識(shí)別,如“圖中指示牌上寫的是什么?”。
2)視覺對(duì)象與文本的空間關(guān)系,如“穿紅色衣服的人左邊是誰?”。
3)目標(biāo)檢測、文本間語義關(guān)系,如“香蕉與蘋果哪個(gè)便宜?”。
4)屬性分類、文本識(shí)別,如“白色的站牌寫的什么?”。
除此之外,文本視覺問答任務(wù)的問題還可能涉及更復(fù)雜的空間關(guān)系以及語義理解,比如“中間一臺(tái)手機(jī)的時(shí)間是多少?”。與視覺問答任務(wù)的問題相比,文本視覺問答任務(wù)更加復(fù)雜,它需要關(guān)注多個(gè)模態(tài)的信息,還需要聯(lián)合更多關(guān)系進(jìn)行推理。
自視覺問答任務(wù)被提出以來,在該領(lǐng)域涌現(xiàn)了眾多成果。文獻(xiàn)[3-5]提出了有效的VQA 模型。文獻(xiàn)[6]對(duì)視覺問答數(shù)據(jù)集進(jìn)行介紹并分析了數(shù)據(jù)集的優(yōu)缺點(diǎn),同時(shí)對(duì)模型進(jìn)行分類介紹。文獻(xiàn)[7]對(duì)比了目前的主流模型,并根據(jù)融合機(jī)制的不同對(duì)模型進(jìn)行分類介紹。文獻(xiàn)[8]分析VQA 任務(wù)中各個(gè)模型的原理以及它們的優(yōu)劣,其中對(duì)模型魯棒性進(jìn)行了研究。文獻(xiàn)[9]對(duì)VQA 任務(wù)的不同解答階段進(jìn)行分析和對(duì)比。然而,目前沒有相關(guān)文獻(xiàn)對(duì)文本視覺領(lǐng)域進(jìn)行綜述。
本文對(duì)文本視覺問答任務(wù)進(jìn)行系統(tǒng)性的綜述,主要工作如下:系統(tǒng)地綜述文本視覺問答領(lǐng)域近年來所出現(xiàn)的相關(guān)模型,并對(duì)模型進(jìn)行比較;介紹文本視覺問答任務(wù)常用數(shù)據(jù)集以及評(píng)估指標(biāo);給出文本視覺問答領(lǐng)域未來可能的研究方向。通過上述內(nèi)容的總結(jié)和歸納,以期為文本視覺問答領(lǐng)域的研究人員提供參考。
目前,文本視覺問答模型架構(gòu)主要包括以下3 個(gè)部分:1)特征提取,包括視覺特征提取、文本特征提取、問題特征提?。?)多模態(tài)特征融合,將多個(gè)模態(tài)特征融合并進(jìn)行推理;3)答案預(yù)測,主要分為多分類答案預(yù)測和解碼器迭代解碼答案預(yù)測。文本視覺問答模型架構(gòu)如圖1 所示。
圖1 文本視覺問答模型框架Fig.1 Text-based visual question answering model framework
特征提取階段常用的方法如下:視覺特征提取主要使用目標(biāo)檢測器(Faster R-CNN[10]、YOLO(You Only Look Once)[11])提取基于區(qū)域的特征,使用卷積網(wǎng)絡(luò)[12-13]提取基于網(wǎng)格的特征,以及使用骨干網(wǎng)絡(luò)[14-16]提取特征;文本特征提取主要采用文本檢測器[17-19]來檢測文本區(qū)域,然后使用文本識(shí)別器[20-22]根據(jù)文本區(qū)域提取文本內(nèi)容,通過特征編碼器FastText[23]、PHOC[24]等將文本詞編碼 為特征向量;問題特征提取主要采用詞袋、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)、長短期記憶(LSTM)[25]、GloVe[26]、基于Transformer的雙向編碼(BERT)[27]等提取特征。
特征融合階段常用的方法如下:利用元素拼接、元素相加或元素相乘等進(jìn)行融合[28-29];通過簡單注意力方法進(jìn)行融合,如LoRRA[2]、MM-GNN(Multi-Modal Graph Neural Network)[30]等;基于Transformer[31]架構(gòu)進(jìn)行融合,如M4C(Multimodal Multi-Copy Mesh)[32]、SA-M4C[33]、ssBaseline(simple strong Baseline)[34]等;基于預(yù)訓(xùn)練方法進(jìn)行融合,如TAP(Text-Aware Pretraining)[35]、TWA[36]、LaTr(Layoutaware Transformer)[37]。
根據(jù)模型所采用的融合方法進(jìn)行模型分類,由于簡單融合方法處理方式比較簡單,因此這里主要分為簡單注意力方法、基于Transformer 融合方法和基于預(yù)訓(xùn)練方法這3 個(gè)類別,如圖2 所示。
圖2 文本視覺問答任務(wù)相關(guān)模型分類Fig.2 Text-based visual question answering task-related models classification
簡單注意力方法將問題作為查詢條件,引導(dǎo)模型關(guān)注視覺和文本中與問題最相關(guān)的部分,它大幅增強(qiáng)了模型的推理能力。例如問題“公交車的路線是什么?”,模型應(yīng)該更關(guān)注圖像中與“公交車路線”相關(guān)的文本。模型通過關(guān)注圖像中的關(guān)鍵部分,去除圖像中存在的冗余及噪聲,減輕計(jì)算負(fù)擔(dān)。簡單注意力方法框架如圖3 所示。
圖3 簡單注意力方法框架Fig.3 Simple attention method framework
文獻(xiàn)[2]提出LoRRA 模型,它將自上而下注意力方法[38]運(yùn)用到文本視覺問答中,以問題作為查詢條件,引導(dǎo)更新文本以及視覺特征,去除了圖像中存在的冗余及噪聲,最后將更新后的特征串聯(lián)起來,通過多分類方法來預(yù)測答案。LoRRA 是早期聯(lián)合圖像文本進(jìn)行推理的模型,它采用答案復(fù)制機(jī)制,動(dòng)態(tài)地將識(shí)別的單詞添加到答案分類器中,允許從圖像中復(fù)制單個(gè)圖像文本作為答案。LoRRA 模型在TextVQA 數(shù)據(jù)集的驗(yàn)證集和測試集上準(zhǔn)確率分別達(dá)到26.56%、27.63%。但LoRRA 模型存在以下缺點(diǎn):1)文本特征不夠豐富,忽略了圖像中文本的外觀特征;2)忽略了空間關(guān)系的處理,無法回答包含空間關(guān)系的問題;3)無法輸出由多個(gè)單詞組成的長答案。
文獻(xiàn)[30]提出了MM-GNN 模型,它使用3 層圖神經(jīng)網(wǎng)絡(luò)(GNN)[39]對(duì)視覺特征和文本特征進(jìn)行聚合,以重建特征間的空間關(guān)系與語義關(guān)系。MMGNN 以問題作為查詢條件,引導(dǎo)圖推理,并在圖推理結(jié)束后使用自上而下注意力方法對(duì)視覺和文本特征進(jìn)行更新,最后采用多層感知機(jī)和答案復(fù)制機(jī)制[40]來預(yù)測答案。MM-GNN 算法利用圖像中的上下文信息來幫助理解圖像文本的含義,通過不同圖神經(jīng)網(wǎng)絡(luò)的引導(dǎo)優(yōu)化視覺和文本特征,模型可以更準(zhǔn)確地回答問題。與LoRRA 相比,MM-GNN 使用多層圖對(duì)特征進(jìn)行聚合,使得模型在融合階段可以更好地利用上下文信息進(jìn)行輔助推理。通過采用圖像上下文的豐富信息來幫助理解圖像文本含義,MM-GNN 的準(zhǔn)確度相對(duì)于LoRRA 有了進(jìn)一步的提升,其在TextVQA 數(shù)據(jù)集的驗(yàn)證集和測試集上準(zhǔn)確率分別達(dá)到32.92%、32.46%。但MM-GNN 模型的缺點(diǎn)為:1)無法生成包含多個(gè)單詞的長答案;2)文本特征不夠豐富,僅包含詞嵌入特征;3)模型采用多層圖結(jié)構(gòu),較為復(fù)雜。
文獻(xiàn)[41]將每個(gè)視覺對(duì)象和圖像文本分別作為單個(gè)實(shí)體,針對(duì)每個(gè)實(shí)體提取特征,使用問題做引導(dǎo)計(jì)算出每個(gè)特征的注意力分?jǐn)?shù),求出特征的加權(quán)平均和作為注意力模塊的輸出,最后,模型通過LSTM[25]迭代解碼來預(yù)測答案。與LoRRA 相比,該模型可以解碼生成包含多個(gè)單詞的答案。
文獻(xiàn)[42]采用視覺特征和文本特征構(gòu)建多模態(tài)特征網(wǎng)格,以問題作為推理?xiàng)l件,通過卷積網(wǎng)絡(luò)以及線性變換對(duì)多模態(tài)特征網(wǎng)格進(jìn)行推理,計(jì)算出每個(gè)網(wǎng)格的注意力權(quán)重,這些注意力權(quán)重即為答案在該空間網(wǎng)格位置的概率。模型通過特征網(wǎng)格的方式進(jìn)行融合推理,可以為答案提供依據(jù)。但是,這種方式對(duì)文本邊界框有限制,使得模型不能很好地處理較小的文本。
文獻(xiàn)[43]在LoRRA 的基礎(chǔ)上對(duì)視覺特征和文本特征進(jìn)行融合,通過雙線性函數(shù)去除文本中的噪聲,并通過語義注意力和位置注意力來捕獲文本與視覺對(duì)象之間的關(guān)系。在對(duì)視覺和文本特征融合時(shí),模型以文本特征為指導(dǎo),使用自上向下注意力方法更新視覺特征,視覺和文本特征融合方法如圖4所示。此外,為了增強(qiáng)文本特征表示,使用單步詞識(shí)別架構(gòu)[44]提取圖像中的文本詞,并引入費(fèi)舍爾向量(FV)[45]特征,它含有的信息更加豐富且易于計(jì)算。與LoRRA 相比,該模型沒有采用復(fù)制答案的方法,而是使用指針網(wǎng)絡(luò)[46]來預(yù)測答案,它可以直接預(yù)測來自文本的答案。
圖4 視覺-文本融合方法框架Fig.4 Vision-text fusion method framework
簡單注意力方法以問題作為查詢條件,引導(dǎo)模型關(guān)注圖像中與問題有關(guān)的信息,過濾特征中的冗余信息,減輕了模型的計(jì)算負(fù)擔(dān)。但是簡單注意力方法只針對(duì)2 個(gè)模態(tài)的融合,不能很好地處理多個(gè)模態(tài)的融合。此外,注意力方法只是使模型關(guān)注重點(diǎn)特征,并沒有聯(lián)合周圍特征進(jìn)行推理。如何獲取圖像文本和視覺對(duì)象的空間關(guān)系以及語義關(guān)系,并根據(jù)空間關(guān)系和語義關(guān)系進(jìn)行推理仍需要繼續(xù)研究。
基 于Transformer[31]融合方 法使用Transformer作為融合器,將多模態(tài)特征作為融合器的輸入進(jìn)行融合。與簡單注意力方法相比,Transformer 使用自注意力機(jī)制,可以很好地處理長序列數(shù)據(jù),輸入序列之間可以相互關(guān)注。Transformer 融合方法可以同時(shí)對(duì)多個(gè)模態(tài)特征進(jìn)行融合,特征間的聯(lián)系更加緊密。
文獻(xiàn)[32]提出M4C 模型,它首次使用Transformer[31]架構(gòu)對(duì)多模態(tài)進(jìn)行融合,將來自問題、視覺和文本3 個(gè)模態(tài)的特征映射到統(tǒng)一維度并進(jìn)行融合。Transformer 獨(dú)特的自注意力機(jī)制使得輸入的每個(gè)特征向量間可以相互學(xué)習(xí)。另外,M4C 模型通過動(dòng)態(tài)指針網(wǎng)絡(luò)[46]以自回歸的方式迭代解碼預(yù)測答案。M4C 模型添加了豐富的文本特征,如外觀特征、邊界框信息等,增強(qiáng)了文本特征的表達(dá)能力,通過迭代解碼預(yù)測答案,模型可以回答包含多個(gè)單詞長答案的問題。M4C 模型在TextVQA 數(shù)據(jù)集的驗(yàn)證集上準(zhǔn)確率達(dá)到39.4%,遠(yuǎn)高于之前方法,這得益于Transformer 獨(dú)特的自注意力機(jī)制以及使用了豐富的文本特征。M4C 模型框架如圖5 所示。
圖5 M4C 模型框架Fig.5 M4C model framework
但是M4C 模型存在以下缺點(diǎn):1)將全部特征作為融合器的輸入,會(huì)增加融合器的計(jì)算負(fù)擔(dān);2)無差別地對(duì)所有特征計(jì)算注意力,會(huì)引入冗余特征與噪聲;3)未對(duì)視覺特征和文本特征之間的空間關(guān)系進(jìn)行顯式處理。
以下模型在M4C 的基礎(chǔ)上進(jìn)行改進(jìn),根據(jù)不同特點(diǎn)主要分為聯(lián)合圖推理的模型、帶有答案解釋的模型、引入豐富特征表示的模型和引入外部知識(shí)的模型。
1.2.1 聯(lián)合圖推理的模型
圖神經(jīng)網(wǎng)絡(luò)(GNN)[39]在結(jié)構(gòu)特征學(xué)習(xí)中有較好的表現(xiàn),不僅能夠聚合周圍鄰居節(jié)點(diǎn)的信息,還能很好地捕獲節(jié)點(diǎn)之間的關(guān)系。聯(lián)合圖推理模型在Transformer 融合之前使用圖神經(jīng)網(wǎng)絡(luò)對(duì)輸入特征進(jìn)行處理,重建特征之間的空間關(guān)系和語義關(guān)系,增強(qiáng)模型推理能力。聯(lián)合圖推理模型框架如圖6 所示。
圖6 聯(lián)合圖推理模型框架Fig.6 Framework of joint graph reasoning model
文獻(xiàn)[33]提出SA-M4C 模型,它通過構(gòu)建空間圖網(wǎng)絡(luò)來捕獲相鄰視覺實(shí)體(檢測的視覺對(duì)象與文本)之間的空間關(guān)系[47],并通過修改Transformer 注意力層,使每個(gè)頭只關(guān)注存在固定關(guān)系的2 個(gè)特征向量。此外,SA-M4C 增加二分圖來構(gòu)建問題特征與視覺和文本特征的隱式關(guān)系。模型采用6 層Transformer 自注意力層,其中前2 層為經(jīng)典架構(gòu),后4 層被修改為空間感知層,通過在計(jì)算注意力分?jǐn)?shù)時(shí)添加偏置項(xiàng),使每個(gè)頭關(guān)注存在不同空間關(guān)系的實(shí)體。M4C 在融合階段隱式地學(xué)習(xí)來自特征中坐標(biāo)信息的空間關(guān)系,這對(duì)于空間推理幾乎沒有幫助,SAM4C 很好地解決了這個(gè)問題。SA-M4C 在TextVQA數(shù)據(jù)集的驗(yàn)證集上準(zhǔn)確率達(dá)到43.9%,比同等條件下M4C 的準(zhǔn)確率略高(同等條件下M4C 的準(zhǔn)確率為42.7%)。SA-M4C 有較好的結(jié)果得益于2 個(gè)方面:1)采用了準(zhǔn)確率更高的文本識(shí)別系統(tǒng);2)對(duì)視覺實(shí)體之間的空間關(guān)系進(jìn)行了處理。但是SA-M4C 模型存在以下缺點(diǎn):1)對(duì)于視覺實(shí)體之間空間關(guān)系的處理采用手工設(shè)置,方法較為粗粒度;2)將所有模態(tài)特征作為輸入,模型計(jì)算負(fù)擔(dān)較大。
文獻(xiàn)[48]提出MTXNet 模型,它擴(kuò)展了M4C 架構(gòu),為了更好地捕獲并編碼視覺對(duì)象和圖像文本之間的關(guān)系,它采用圖神經(jīng)網(wǎng)絡(luò)將多模態(tài)特征連接在一起,并通過圖注意力網(wǎng)絡(luò)(GAT)[49]對(duì)圖中節(jié)點(diǎn)信息進(jìn)行更新。與SA-M4C 相比,MTXNet 構(gòu)建的空間關(guān)系更加細(xì)粒度,但MTXNet 在構(gòu)建圖的邊時(shí),只有邊界框存在包含關(guān)系的2 個(gè)節(jié)點(diǎn)間才會(huì)構(gòu)建邊。
文獻(xiàn)[50]提出SMA 模型,它使用圖神經(jīng)網(wǎng)絡(luò)來捕獲節(jié)點(diǎn)之間的關(guān)系,增強(qiáng)文本閱讀能力和文本視覺推理能力。SMA 不使用整個(gè)問題特征來指導(dǎo)圖的更新,而是使用經(jīng)過自注意力模塊后的子問題特征作為查詢條件,指導(dǎo)圖神經(jīng)網(wǎng)絡(luò)更新。SMA 計(jì)算圖中每個(gè)節(jié)點(diǎn)的權(quán)重,然后根據(jù)權(quán)重分別求出視覺特征與文本特征的加權(quán)特征和,并將加權(quán)特征和作為全局特征送入Transformer 融合器中。SMA 并沒有聚合鄰居節(jié)點(diǎn)的信息,而是以問題為引導(dǎo),計(jì)算出節(jié)點(diǎn)自身的權(quán)重。與SA-M4C 相比,SMA 模型以節(jié)點(diǎn)之間的相對(duì)距離來確定節(jié)點(diǎn)之間的連接,拋棄了手工設(shè)置關(guān)系,捕獲到視覺實(shí)體之間更加細(xì)粒度的關(guān)系。SMA 在TextVQA 數(shù)據(jù)集的驗(yàn)證集和測試集上準(zhǔn)確率分別為43.74%、44.29%,它的性能提升得益于使用了準(zhǔn)確率更高的文本識(shí)別系統(tǒng)[51-52]以及對(duì)視覺實(shí)體之間的關(guān)系進(jìn)行了處理。但是SMA 模型有以下2 個(gè)缺點(diǎn):1)圖推理中只使用問題關(guān)注節(jié)點(diǎn)和節(jié)點(diǎn)之間的關(guān)系,沒有為節(jié)點(diǎn)加入上下文信息;2)模型需要對(duì)每個(gè)節(jié)點(diǎn)進(jìn)行處理,計(jì)算負(fù)擔(dān)較大。
文獻(xiàn)[53]提出CRN 模型,它使用多模態(tài)推理圖來構(gòu)建圖像文本和視覺對(duì)象之間的空間關(guān)系,解決了由于分別使用目標(biāo)檢測器和文本識(shí)別系統(tǒng)提取特征而導(dǎo)致的特征相互獨(dú)立且比較分散的問題。與SMA 模型不同,CRN 采用以問題為指導(dǎo)的注意力方法聚合鄰居節(jié)點(diǎn)信息,對(duì)每個(gè)節(jié)點(diǎn)進(jìn)行更新。此外,為了使模型可以從冗余的圖像信息中提取有用信息,CRN 中加入了漸進(jìn)式注意力模塊來過濾掉無用信息。CRN 還添加了策略梯度損失來減輕對(duì)文本識(shí)別系統(tǒng)的依賴,主要思想為訓(xùn)練過程中當(dāng)預(yù)測值與真實(shí)值相似但不相同時(shí),模型不會(huì)只獲得負(fù)的訓(xùn)練反饋。CRN 在TextVQA 數(shù)據(jù)集的驗(yàn)證集和測試集上準(zhǔn)確率分別為40.39%、40.96%,比同等條件下M4C 的準(zhǔn)確率高了1%。CRN 有較好的性能提升得益于使用了圖推理、漸進(jìn)式自注意力方法以及策略梯度損失。但是CRN 模型存在以下缺點(diǎn):1)模型在漸進(jìn)式自注意力模塊中不使用視覺特征,性能沒有明顯的變化,說明漸進(jìn)式自注意力模塊并未對(duì)視覺特征進(jìn)行很好的推理;2)模型僅處理了視覺和文本2 個(gè)不同模態(tài)間的關(guān)系,并沒有處理相同模態(tài)間的關(guān)系。
文獻(xiàn)[54]提出MGEN 模型,它使用問題特征和全局視覺特征引導(dǎo)圖神經(jīng)網(wǎng)絡(luò)進(jìn)行更新,通過圖網(wǎng)絡(luò)來重建文本之間的空間關(guān)系,并去除文本中的噪聲和冗余。CRN[53]通過使用多模態(tài)推理圖來構(gòu)建文本和視覺之間的關(guān)系,而MGEN 則是通過圖神經(jīng)網(wǎng)絡(luò)來重建文本之間的空間關(guān)系。另外,為了進(jìn)一步去除特征中的冗余信息,MGEN 對(duì)Transformer 融合器進(jìn)行修改,向其注入全局特征來引導(dǎo)融合器關(guān)注重要信息。
圖神經(jīng)網(wǎng)絡(luò)對(duì)于特征間關(guān)系的重建有著較強(qiáng)的能力,能夠建立更加細(xì)粒度的關(guān)系,引入豐富的上下文信息。使用圖神經(jīng)網(wǎng)絡(luò),模型可以更好地理解場景文本的含義,回答包含空間關(guān)系屬性的問題。
1.2.2 帶有答案解釋的模型
帶有答案解釋的模型是在圖像上構(gòu)建答案區(qū)域或者生成答案解釋,目的是為答案提供依據(jù)。如圖7所示,問“公交車的路線是什么?”,帶有答案解釋的模型為答案構(gòu)建答案區(qū)域以指示答案的合理性,或者生成答案解釋表示答案的位置、字體等信息。先前一些其他計(jì)算機(jī)視覺領(lǐng)域的工作研究了帶有答案解釋的方法,其中文獻(xiàn)[55-57]通過計(jì)算出注意力分?jǐn)?shù)在圖像上構(gòu)建答案區(qū)域,文獻(xiàn)[58-59]為答案生成答案解釋。然而,在文本視覺問答任務(wù)中為答案提供解釋的工作較少,目前只有文獻(xiàn)[48,60]。
圖7 在圖像中構(gòu)建答案區(qū)域以及生成文本解釋的示例Fig.7 Examples of constructing answer regions in images and generating text explanations
文獻(xiàn)[60]提出LaAP-Net 模型,它通過預(yù)測邊界框來為答案提供依據(jù),在答案評(píng)估階段對(duì)預(yù)測的邊界框和文本一同計(jì)算損失。另外,為了更好地利用視覺信息,模型根據(jù)圖像文本和視覺對(duì)象之間的空間關(guān)系,將視覺特征加入文本特征中。在此前的一些工作中(如LoRRA[2]、M4C[32]等),文本的位置信息未被充分利用,LaAP-Net 通過預(yù)測邊界框并將預(yù)測的邊界框參與答案預(yù)測以及損失計(jì)算,使模型在訓(xùn)練過程中充分考慮到文本的位置信息。與M4C 相比,LaAP-Net 不僅為答案提供了依據(jù),還更好地利用了文本的位置信息,提升了模型性能。LaAP-Net在TextVQA 數(shù)據(jù)集的驗(yàn)證集上準(zhǔn)確率為40.68%,優(yōu)于相同條件下的M4C。但是LaAP-Net 模型存在以下缺陷:1)根據(jù)空間關(guān)系將視覺特征加入文本特征中,并未使用問題進(jìn)行引導(dǎo),因此加入的視覺特征中包含很多冗余信息;2)在訓(xùn)練階段需要提供答案依據(jù)的數(shù)據(jù)集,目前這樣的數(shù)據(jù)集較少。
文獻(xiàn)[48]提出MTXNet 模型,它使用圖像語義分割在圖像上構(gòu)建答案區(qū)域,并且為答案提供文本解釋。MTXNet 根據(jù)圖像收集多種文本解釋,模型每次隨機(jī)選擇一個(gè)參與訓(xùn)練,以降低文本解釋存在的偏差。為了使模型具有更好的性能并較好地生成多模態(tài)解釋,MTXNet 設(shè)置多個(gè)訓(xùn)練任務(wù),分階段進(jìn)行訓(xùn)練。與LaAP-Net 不同,MTXNet 采用生成文本解釋和構(gòu)建答案區(qū)域的方式為答案提供依據(jù)。
帶有答案解釋的模型更加顯式地把推理過程展現(xiàn)出來,為答案來源提供依據(jù)。通過將答案依據(jù)參與損失計(jì)算,進(jìn)一步提升了模型性能。
1.2.3 引入豐富特征表示的模型
在文本視覺問答任務(wù)中,通常需要3 個(gè)模態(tài)的特征,分別是視覺特征、文本特征和問題特征。特征的提取對(duì)模型性能有著很大影響,通過引入豐富特征可以有效地提升模型性能。引入豐富特征的方法如下:1)增加一個(gè)模態(tài)特征,如增加全局特征;2)在原有特征中引入新的表示,如在視覺特征中加入對(duì)象標(biāo)簽特征;3)對(duì)原有特征進(jìn)行修改,如將文本特征劃分為文本視覺特征和文本語言特征。
文獻(xiàn)[61]提出PAT-EAM 模型,為了保留原始圖像信息,除了提取視覺特征和文本特征外模型還提取了全局圖像特征,以提供全局上下文信息輔助模型推理。同時(shí),PAT-EAM 采用實(shí)體對(duì)齊網(wǎng)格(全局特征網(wǎng)格)替代復(fù)雜的圖神經(jīng)網(wǎng)絡(luò),通過卷積操作更直接全面地捕捉視覺對(duì)象和圖像文本之間的語義和空間關(guān)系。
文獻(xiàn)[62]提出BOV 模型,它在原有文本特征基礎(chǔ)上加入額外的語義特征,由與文獻(xiàn)[63-64]類似的端到端模塊直接通過圖像的文本區(qū)域提取得到。該模塊除了直接獲取文本特征編碼外,也對(duì)文本區(qū)域做了文本識(shí)別,為答案預(yù)測提供候選文本。該模塊的使用降低了模型對(duì)文本識(shí)別系統(tǒng)的依賴,避免了文本識(shí)別系統(tǒng)誤差帶來的影響。另外,BOV 在視覺特征中引入對(duì)象標(biāo)簽特征,打破視覺和文本之間存在的差異,更好地對(duì)文本特征和視覺特征進(jìn)行融合。對(duì)象標(biāo)簽特征通過擴(kuò)展原始Faster R-CNN[10]模型,使其生成對(duì)象標(biāo)簽特征向量而得到。BOV 通過引入這些額外的特征,模型性能有了大幅提升,但是針對(duì)這些額外特征,模型需要訓(xùn)練額外模塊才能提取,模型復(fù)雜度較高。BOV 在TextVQA 數(shù)據(jù)集的驗(yàn)證集和測試集上準(zhǔn)確率分別為40.90%、41.23%,BOV能取得較好的性能提升得益于3 個(gè)方面:1)采用端到端的模塊提取文本特征;2)加入對(duì)象標(biāo)簽特征增強(qiáng)融合;3)使用端到端的模塊識(shí)別文本,并將其作為候選答案,減輕對(duì)文本識(shí)別系統(tǒng)的依賴。但是BOV模型的缺陷也很明顯:1)需要預(yù)先單獨(dú)訓(xùn)練多個(gè)模塊,增加了工作量;2)模型忽略了視覺實(shí)體間存在的空間關(guān)系;3)將所有特征作為融合器的輸入,融合器計(jì)算負(fù)擔(dān)較大。
文獻(xiàn)[65]提出MML&TM 模型,它采用文本合并算法,將圖像中具有鄰近關(guān)系的文本合并在一起,構(gòu)建行級(jí)和段落級(jí)的文本,然后對(duì)合并后的文本提取文本特征,這樣提取的文本特征包含文本上下文信息,更具有連續(xù)性。與M4C 不同,MML&TM 通過將文本進(jìn)行合并,在答案預(yù)測階段無須采用迭代解碼便可生成多個(gè)單詞的答案。
文獻(xiàn)[34]提出ssBaseline 模型,為了更有效地利用文本特征,該模型將文本特征分成文本視覺特征和文本語言特征,這樣更加符合人類推理的過程,即人類會(huì)從視覺和語義2 個(gè)方面理解場景文本。在之前的工作[32]中,將所有的特征送入融合器,模型計(jì)算負(fù)擔(dān)較重。為了減輕計(jì)算負(fù)擔(dān),過濾掉冗余特征,ssBaseline 模型采用注意力模塊,以問題引導(dǎo)模型關(guān)注特征。相較于其他模型,ssBaseline 在設(shè)計(jì)上非常簡單,降低了模型的計(jì)算負(fù)擔(dān),有效提升了模型性能。ssBaseline 在TextVQA 數(shù)據(jù)集的驗(yàn)證集和測試集上準(zhǔn)確率分別為43.95%、44.72%。ssBaseline 的性能提升主要得益于使用了與SMA[50]一樣的文本識(shí)別系統(tǒng)以及將文本特征分成兩部分,模型在保證性能的同時(shí)大幅減輕了計(jì)算負(fù)擔(dān)。但是ssBaseline 模型存在以下缺陷:1)忽略了視覺實(shí)體間存在的關(guān)系,沒有處理場景文本和視覺對(duì)象之間的關(guān)系;2)沒有充分利用視覺信息,在去除視覺特征時(shí)模型性能改變不大。
文獻(xiàn)[66]提出SC-Net 模型,它也將文本特征分為文本視覺特征和文本語言特征,并將文本視覺特征融入文本語言特征中,以突出場景文本語義在模型推理中的重要作用,減輕對(duì)文本識(shí)別系統(tǒng)的依賴。此外,SC-Net 通過融合器輸出的全局信息指導(dǎo)答案預(yù)測,以減少語言偏見。
豐富特征表示可以增強(qiáng)特征在模型中的表達(dá)能力,使模型更好地理解多模態(tài)信息。以上研究大多旨在增強(qiáng)文本特征的表達(dá)能力,忽略了視覺特征的作用。然而,在模型推理過程中往往需要根據(jù)視覺特征來輔助推理,找到問題的答案。在增強(qiáng)文本特征表達(dá)能力時(shí),充分利用視覺信息輔助推理也很關(guān)鍵。
1.2.4 引入外部知識(shí)的模型
文本視覺問答任務(wù)中一些問題僅僅通過圖像是不能正確回答的,比如“這杯牛奶是什么品牌?”。如果模型擁有外部知識(shí),它能預(yù)先理解“伊利”、“蒙牛”等文本是品牌名字,那么這些文本作為答案的概率將更大,像這種類型的問題都需要借助外部知識(shí)才能夠準(zhǔn)確地回答。在視覺問答任務(wù)中已有工作通過引入外部知識(shí)進(jìn)行輔助推理,如文獻(xiàn)[67-69]通過采用包含知識(shí)的數(shù)據(jù)集來使用知識(shí)輔助推理,文獻(xiàn)[70-72]則通過問題詞和對(duì)象標(biāo)簽從外部知識(shí)庫中查詢知識(shí)來使用知識(shí)輔助推理。但是在文本視覺問答任務(wù)中引入外部知識(shí)的工作較少,值得繼續(xù)研究。
文獻(xiàn)[73]提出EKTVQA 模型,它是文本視覺問答領(lǐng)域中首次引入外部知識(shí)來輔助推理的模型,通過從外部知識(shí)庫檢索來獲取知識(shí)。EKTVQA 利用場景文本從谷歌知識(shí)庫(GKB)中獲取候選知識(shí),并通過圖像上下文信息(問題詞、文本、對(duì)象標(biāo)簽)過濾掉候選知識(shí)中無效的知識(shí),將有效的知識(shí)聯(lián)合問題、文本和視覺對(duì)象進(jìn)行推理,指導(dǎo)答案生成。在融合推理期間,模型通過在自注意力層添加偏置項(xiàng)來保證文本與知識(shí)的一一對(duì)應(yīng)。EKTVQA 通過引入外部知識(shí),使模型能夠理解文本的含義,提升模型的理解能力。此外,EKTVQA 利用場景文本去外部查詢知識(shí),這種引入外部知識(shí)的方式不受數(shù)據(jù)集的影響。EKTVQA 模型在TextVQA 數(shù)據(jù)集的驗(yàn)證集和測試集上準(zhǔn)確率分別為44.26%、44.20%。EKTVQA 模型框架如圖8 所示。但是EKTVQA 模型存在以下缺陷:1)將所有模態(tài)特征送入融合器,模型計(jì)算負(fù)擔(dān)較大;2)增強(qiáng)了模型對(duì)場景文本的理解,但是忽略了視覺實(shí)體間的空間關(guān)系。
圖8 EKTVQA 模型框架Fig.8 EKTVQA model framework
基于Transformer 的融合方法對(duì)于2 種及以上模態(tài)的融合具有較好的效果,它可以均勻地捕捉模態(tài)內(nèi)和模態(tài)間的關(guān)系,可以很好地處理長序列數(shù)據(jù)。但是也正是由于Transformer 均勻地對(duì)各個(gè)特征進(jìn)行交互,模型會(huì)學(xué)習(xí)到很多冗余的信息或者噪聲,同時(shí)也會(huì)增加模型的計(jì)算負(fù)擔(dān)。
基于預(yù)訓(xùn)練的方法通常分為2 個(gè)階段,即預(yù)訓(xùn)練和微調(diào)。在預(yù)訓(xùn)練階段,模型通過在大量數(shù)據(jù)集上進(jìn)行無監(jiān)督預(yù)訓(xùn)練,以學(xué)習(xí)到通用知識(shí);在微調(diào)階段,模型使用小規(guī)模數(shù)據(jù)集針對(duì)具體任務(wù)進(jìn)行有監(jiān)督訓(xùn)練。預(yù)訓(xùn)練方法可以在有標(biāo)注數(shù)據(jù)集規(guī)模較小時(shí),通過在大規(guī)模無標(biāo)注數(shù)據(jù)集上訓(xùn)練來使得模型學(xué)習(xí)到有用知識(shí),它很好地解決了由于數(shù)據(jù)集規(guī)模較小導(dǎo)致模型性能較低的問題。先前一些工作[74]對(duì)視覺語言領(lǐng)域的預(yù)訓(xùn)練工作進(jìn)行了總結(jié),其中文獻(xiàn)[75-77]介紹了可用于視覺問答的預(yù)訓(xùn)練方法。然而,在文本視覺問答任務(wù)中使用預(yù)訓(xùn)練方法較少,目前只有文獻(xiàn)[35-37]。
文獻(xiàn)[35]提出TAP 模型,它除了采用屏蔽語言模型(MLM)、圖像文本匹配(ITM)作為預(yù)訓(xùn)練任務(wù)外,還引入相對(duì)(空間)位置預(yù)測(RPP)預(yù)訓(xùn)練任務(wù)。TAP 通過相對(duì)(空間)位置預(yù)測預(yù)訓(xùn)練任務(wù)來構(gòu)建圖像文本和視覺對(duì)象之間的空間關(guān)系[47],增強(qiáng)模型的空間推理能力。相對(duì)(空間)位置預(yù)測預(yù)訓(xùn)練任務(wù)隨機(jī)選擇2 個(gè)視覺實(shí)體,預(yù)測2 個(gè)實(shí)體之間的空間關(guān)系。TAP 使用文本視覺問答數(shù)據(jù)集來對(duì)預(yù)訓(xùn)練好的模型進(jìn)行微調(diào)。TAP 在TextVQA 數(shù)據(jù)集的驗(yàn)證集和測試集上準(zhǔn)確率分別為49.91%、49.71%,遠(yuǎn)高于傳統(tǒng)的不使用預(yù)訓(xùn)練方法的模型。TAP 模型框架如圖9所示。但是TAP 模型存在以下缺陷:1)需要較大規(guī)模的數(shù)據(jù)集,在預(yù)訓(xùn)練階段數(shù)據(jù)集規(guī)模越大,模型的理解推理能力越強(qiáng);2)預(yù)訓(xùn)練方案對(duì)硬件設(shè)施有要求,往往需要比較高的配置;3)忽略了文本之間的空間布局信息。
圖9 TAP 模型框架Fig.9 TAP model framework
文獻(xiàn)[36]提出TWA 模型,它在TAP[35]的基礎(chǔ)上增加圖像文本-單詞對(duì)比學(xué)習(xí)(TWC)預(yù)訓(xùn)練任務(wù),以減輕模型對(duì)外部文本識(shí)別系統(tǒng)的依賴以及增強(qiáng)模型的魯棒性,使得當(dāng)文本識(shí)別出錯(cuò)時(shí)模型仍能進(jìn)行正確的推理并預(yù)測出正確答案。TWC 具體任務(wù)是對(duì)識(shí)別的文本與使用CharBERT[78]修改的文本進(jìn)行對(duì)比學(xué)習(xí),然后預(yù)測兩者的關(guān)系。
文獻(xiàn)[37]提出LaTr 模型,它在IDL 文檔上采用布局感知預(yù)訓(xùn)練來學(xué)習(xí)文本信息和布局之間的對(duì)齊。通過大量文檔的訓(xùn)練,它可以推理任意形狀的句子,有效地捕獲文本上下文關(guān)系。布局感知預(yù)訓(xùn)練通過屏蔽文本標(biāo)記(文本信息和邊界框信息),讓模型預(yù)測被屏蔽的文本和邊界框,從而有效地學(xué)習(xí)到文本信息與布局間的對(duì)齊。與TAP 和TWA 不同,LaTr 并沒有使用視覺特征預(yù)訓(xùn)練,只對(duì)文本信息和布局進(jìn)行了學(xué)習(xí)。為了消除對(duì)外部對(duì)象檢測器的依賴,LaTr 在下游微調(diào)中采用ViT[79]進(jìn)行視覺特征提取。LaTr 進(jìn)行預(yù)訓(xùn)練與微調(diào)之后,在TextVQA 數(shù)據(jù)集的驗(yàn)證集上準(zhǔn)確率為52.29%,比同等條件下TAP高了2.38%。LaTr 模型框架如圖10 所示。但是LaTr模型存在以下缺陷:1)模型的性能與數(shù)據(jù)集規(guī)模有關(guān),數(shù)據(jù)集越大,模型性能越好;2)模型參數(shù)比TAP大,需要更高的配置;3)模型存在數(shù)據(jù)集偏差。
圖10 LaTr 模型框架Fig.10 LaTr model framework
與其他基于Transformer 架構(gòu)的模型相比,預(yù)訓(xùn)練模型在數(shù)據(jù)集上的表現(xiàn)有了明顯提升。但是,由于硬件的限制,目前在文本視覺問答任務(wù)中預(yù)訓(xùn)練模型較少。預(yù)訓(xùn)練模型通過大量訓(xùn)練可以達(dá)到很好的效果,模型潛力巨大,值得深入研究。
對(duì)前文所述主流模型進(jìn)行對(duì)比,對(duì)比內(nèi)容包括特征提取方法、文本特征以及在TextVQA 數(shù)據(jù)集上的準(zhǔn)確率,結(jié)果如表1 所示。模型特點(diǎn)對(duì)比如表2 所示。從表1、表2 可以得出:
表1 模型框架及在TextVQA 數(shù)據(jù)集上的性能對(duì)比 Table 1 Models framework and performance comparison on TextVQA dataset
表2 模型特點(diǎn)對(duì)比 Table 2 Comparison of models characteristics
1)模型的性能在很大程度上依賴于文本識(shí)別系統(tǒng)的準(zhǔn)確率,文本識(shí)別系統(tǒng)準(zhǔn)確率越高,模型性能越好;
2)模型使用Transformer 進(jìn)行融合比使用傳統(tǒng)的串聯(lián)效果更好;
3)使用預(yù)訓(xùn)練方法的模型可以更好地捕獲視覺實(shí)體(視覺對(duì)象和場景文本)間的空間關(guān)系以及問題與視覺實(shí)體之間的關(guān)系;
4)普通的Transformer 方法在M4C 之后雖然有改進(jìn),但是性能提升幅度不大,與預(yù)訓(xùn)練方法對(duì)比可知,普通方法的關(guān)系推理能力很弱,不能很好地捕獲實(shí)體間的空間關(guān)系以及多模態(tài)間的語義關(guān)系。
2.1.1 TextVQA 數(shù)據(jù)集
文獻(xiàn)[2]提出TextVQA 數(shù)據(jù)集,它使用Open Images v3[80]數(shù)據(jù)集作為圖像源,過濾掉不包含文本的圖像以及有噪聲的數(shù)據(jù),共得到28 408 幅圖像,其中多數(shù)為生活中常見的包含文本的場景圖像,如廣告牌、交通標(biāo)志等。TextVQA 數(shù)據(jù)集中一共包含45 336 個(gè)問題和453 360 個(gè)答案。平均每張圖像對(duì)應(yīng)1~2 個(gè)問題,平均問題長度為7.18 個(gè)單詞,平均答案長度為1.58 個(gè)單詞。訓(xùn)練集包含21 953 幅圖像、34 602 個(gè) 問題,驗(yàn)證 集包含3 166 幅圖像、5 000 個(gè)問題,測試集包含3 289 幅圖像、4 734 個(gè)問題。該數(shù)據(jù)集中每個(gè)問題都需要閱讀圖像中的文本才能回答,圖像中文本可以直接作為答案,也可以作為推理的依據(jù)。
TextVQA 數(shù)據(jù)集采用VQA 中廣泛使用的評(píng)估指標(biāo),假設(shè)模型預(yù)測輸出為ans,則單個(gè)問題樣本的分?jǐn)?shù)為:
其中:Nhumansthatsaidans表示人類注釋與預(yù)測相同的數(shù)量。TextVQA 數(shù)據(jù)集為每個(gè)問題都提供了10 個(gè)答案,如果預(yù)測答案至少與3 個(gè)注釋者提供的答案相同,則準(zhǔn)確率為100%。一共會(huì)出現(xiàn)4 種分?jǐn)?shù),即0、、1。最后,對(duì)所有問題分?jǐn)?shù)取平均值作為數(shù)據(jù)集準(zhǔn)確率。這種評(píng)估方法存在一些局限性,不同注釋者針對(duì)同一問題給出的答案不盡相同,從而使得無法在這種問題上獲得滿分。
2.1.2 ST-VQA 數(shù)據(jù)集
文獻(xiàn)[81]提出ST-VQA 數(shù)據(jù)集,它包括23 038 幅來自公共數(shù)據(jù)集的圖像,這些數(shù)據(jù)集包括場景文本理解數(shù)據(jù)集和通用計(jì)算機(jī)視覺數(shù)據(jù)集,使用多種數(shù)據(jù)源,分別為ICDAR 2013、ICDAR 2015、ImageNet、VizWiz[82]、IIIT Scene Text Retrieval、Visual Genome和COCO Text,共包含31 791 個(gè)問題和答案對(duì),該數(shù)據(jù)集每張圖片的問題數(shù)量、每個(gè)問題的平均長度以及答案的平均長度都與TextVQA 高度相似。訓(xùn)練集包含19 027 幅圖像、26 308 個(gè)問題,測試集包含2 993 幅圖像、4 163 個(gè)問題。ST-VQA 數(shù)據(jù)集旨在強(qiáng)調(diào)在視覺問答過程中利用圖像中的高級(jí)語義信息作為文本線索的重要性。在該數(shù)據(jù)集中,問題只能基于圖像中的文本進(jìn)行回答,不包含答案為“是/否”的問題,也不包含可以只根據(jù)視覺信息進(jìn)行回答的問題。
ST-VQA 采用平均歸一化Levenshtein 相似性(ANLS)作為評(píng)估指標(biāo),ANLS 定義如下:
其中:N表示數(shù)據(jù)集的問題總數(shù);j表示答案的索引(每個(gè)問題共有M個(gè)真值);aij表示第i個(gè)問題的第j個(gè)真實(shí)答案;oqi表示模型預(yù)測答案;定義閾值τ為0.5;NL(·)表示歸一化Levenshtein 距離。ST-VQA 使用Levenshtein 相似性作為評(píng)估指標(biāo),即只要推理正確,盡管文本識(shí)別出錯(cuò),也不會(huì)直接評(píng)判為錯(cuò)誤。
2.1.3 OCR-VQA 數(shù)據(jù)集
文獻(xiàn)[83]提出OCR-VQA 數(shù)據(jù)集,它主要是針對(duì)圖像文本的問答,包含207 572 幅封面圖片,1 002 146 個(gè)問題答案對(duì),其中的問題主要是針對(duì)書本封面進(jìn)行的提問。書籍封面包含作者、標(biāo)題、類型等元素信息,模型通過視覺信息和文本信息進(jìn)行推理,從而回答問題。數(shù)據(jù)來源于Book Cover Dataset,數(shù)據(jù)集中訓(xùn)練集、驗(yàn)證集和測試集的比例為8∶1∶1。該數(shù)據(jù)集中平均問題長度為6.46 個(gè)單詞,平均答案長度為3.31 個(gè)單詞,每個(gè)圖像平均有4.83 個(gè)問題。但是在該數(shù)據(jù)集中存在一些特殊的挑戰(zhàn):1)書籍封面有各種布局,需要模型推理各種布局的文本;2)數(shù)據(jù)封面字體較為獨(dú)特,需要穩(wěn)健的文本識(shí)別系統(tǒng);3)需要有額外的知識(shí)才能理解書籍封面的文本。
2.1.4 STE-VQA 數(shù)據(jù)集
文 獻(xiàn)[84]提 出STE-VQA 數(shù)據(jù)集,它收集 了25 239 幅圖像,這些圖像來自于Total-Text、ICDAR 2013、ICDAR 2015、CTW1500、MLT 和COCO Text,中文圖像來自于LSVT,這些場景文本數(shù)據(jù)集的圖像都由日常場景組成。英文訓(xùn)練集圖像有11 383 幅,測試集圖像有2 267 幅,訓(xùn)練集問題有12 556 個(gè),測試集問題有2 500 個(gè)。中文訓(xùn)練集圖像有9 374 幅,測試集圖像有2 215 幅,訓(xùn)練集問題有10 506 個(gè),測試集問題有2 500 個(gè)。平均問題長度為6~8 個(gè)單詞,平均答案長度為1~2 個(gè)單詞。數(shù)據(jù)集中問題只能通過閱讀圖像中的文本來回答,不包含答案為“是/否”的問題以及有多個(gè)正確答案的模糊問題。
STE-VQA 數(shù)據(jù)集除了提供圖像、問題和答案以外,還為每個(gè)問題提供了一個(gè)邊界框作為答案的證據(jù),指示答案基于圖像的哪個(gè)區(qū)域得到。
STE-VQA 數(shù)據(jù)集提出新的性能評(píng)估指標(biāo),該評(píng)估指標(biāo)更傾向于推理過程而非推理結(jié)果。評(píng)估協(xié)議包括2 個(gè)部分,一是檢查答案,二是檢查證據(jù)。對(duì)于答案的評(píng)估,采用歸一化Levenshtein 相似性分?jǐn)?shù),與ST-VQA 中的s(·)評(píng)估協(xié)議函數(shù)一致。對(duì)于證據(jù)(邊界框)的評(píng)估,采用IoU 度量來確定證據(jù)是否充分,對(duì)于單個(gè)問題樣本的評(píng)估分?jǐn)?shù)如下:
其中:Bgt表示答案邊界框;Bdet表示預(yù)測邊界框;θ設(shè)置為0.5;sl為式(2)中的s(·);gt 為真實(shí)答案;ans 為模型預(yù)測答案。最后,對(duì)所有問題分?jǐn)?shù)取平均值作為數(shù)據(jù)集準(zhǔn)確率。
對(duì)上述數(shù)據(jù)集進(jìn)行對(duì)比,主要包括數(shù)據(jù)集來源、數(shù)據(jù)集規(guī)模等,結(jié)果如表3 所示。
表3 數(shù)據(jù)集規(guī)模以及特點(diǎn) Table 3 Datasets size and characteristics
本文對(duì)文本視覺問答領(lǐng)域未來的研究方向進(jìn)行展望,具體如下:
1)空間關(guān)系推理
自然場景中的文本和物體都存在著空間關(guān)系,如方位關(guān)系(上、下、左、右)、包含關(guān)系(里面與外面、相交)等,輸入的問題中也涉及空間關(guān)系,如“左邊的瓶子里裝了什么?”??臻g關(guān)系對(duì)于模型理解圖像有著很重要的作用,理解空間關(guān)系可以更準(zhǔn)確地回答含有空間關(guān)系的問題。文獻(xiàn)[30,33,61]介紹了進(jìn)行空間處理的模型,但是它們都具有局限性,如空間關(guān)系不夠細(xì)粒度、未使用注意力機(jī)制引導(dǎo)關(guān)注指定空間關(guān)系等。因此,如何有效地處理空間關(guān)系以提升模型性能,是一個(gè)值得研究的方向。
2)模型的安全性問題
在計(jì)算機(jī)視覺領(lǐng)域,模型的安全性問題早已是一個(gè)重要的研究課題。例如,通過篡改輸入的圖片,可以讓模型輸出錯(cuò)誤的預(yù)測結(jié)果,這在一些安全要求較高的應(yīng)用領(lǐng)域(如無人駕駛場景)將會(huì)造成很嚴(yán)重的后果。文獻(xiàn)[85-87]介紹了針對(duì)圖像的對(duì)抗性攻擊和防御方法,文獻(xiàn)[88]研究了針對(duì)場景文本識(shí)別的對(duì)抗性攻擊和防御方法。目前文本視覺問答領(lǐng)域并沒有研究對(duì)抗性攻擊和防御方法,因此,模型的安全性問題值得研究。
3)端到端的文本視覺問答
目前文本視覺問答任務(wù)主要分為3 步,即特征提取、多模態(tài)特征融合、答案預(yù)測。特征提取一般都依賴于外部訓(xùn)練好的特征提取器,它們的性能會(huì)直接影響文本視覺問答模型的性能。此外,外部特征提取器并不是通過文本視覺問答任務(wù)而訓(xùn)練的,在運(yùn)用到文本視覺問答任務(wù)中時(shí),提取的特征會(huì)有偏差。如何將圖像檢測模塊以及文本識(shí)別模塊納入模型中以進(jìn)行端到端的訓(xùn)練,是一個(gè)值得研究的課題。
4)預(yù)訓(xùn)練模型
現(xiàn)有模型的性能與數(shù)據(jù)集緊密關(guān)聯(lián),模型需要較大的數(shù)據(jù)集才能獲得較高的性能。然而,獲取大數(shù)據(jù)集需要較高的成本,但是無標(biāo)注的數(shù)據(jù)集資源豐富。模型預(yù)訓(xùn)練方法可以首先在預(yù)訓(xùn)練階段利用無標(biāo)注數(shù)據(jù)集學(xué)習(xí)特征之間的關(guān)聯(lián),重建特征之間的關(guān)系,然后在微調(diào)階段使用小規(guī)模標(biāo)注數(shù)據(jù)集進(jìn)行訓(xùn)練。模型預(yù)訓(xùn)練方法解決了標(biāo)注數(shù)據(jù)集規(guī)模小的問題,并且能達(dá)到較好的性能。目前在文本視覺問答領(lǐng)域有了一些預(yù)訓(xùn)練方法[35-37],但是模型性能還有很大的提升空間。在文本視覺問答中使用預(yù)訓(xùn)練方法進(jìn)一步提升模型性能,也是值得研究的方向。
5)引入外部知識(shí)的方法
文本視覺問答任務(wù)中一些問題僅僅通過圖像是不能正確回答的,需要借助外部知識(shí)才能夠準(zhǔn)確回答。在視覺問答任務(wù)中,已有工作通過引入外部知識(shí)進(jìn)行輔助推理,但是它們的知識(shí)數(shù)據(jù)集圖像大多數(shù)不含文本,因此不適用于文本視覺問答任務(wù)。目前,在文本視覺問答領(lǐng)域只有極少的工作對(duì)引入外部知識(shí)進(jìn)行了研究,因此,在文本視覺問答任務(wù)中引入外部知識(shí)進(jìn)行輔助推理,可以作為未來的一個(gè)研究課題。
本文首先回顧文本視覺問答領(lǐng)域的最新進(jìn)展,根據(jù)融合方法的不同對(duì)已有模型進(jìn)行分類,并總結(jié)各個(gè)模型及其優(yōu)缺點(diǎn),分析主要方法在公開數(shù)據(jù)集中的表現(xiàn);然后歸納文本視覺問答任務(wù)中的數(shù)據(jù)集,并給出不同數(shù)據(jù)集的評(píng)估指標(biāo);最后對(duì)下一步的研究方向進(jìn)行了展望。在未來,文本視覺問答領(lǐng)域可以從預(yù)訓(xùn)練方法、安全性加固、空間關(guān)系增強(qiáng)等方面開展研究。