視覺問答語言處理方法綜述

2022-09-06 11:08:04王瑞平吳士泓張美航王小平

計(jì)算機(jī)工程與應(yīng)用 2022年17期

王瑞平，吳士泓，張美航，王小平

1.遠(yuǎn)光軟件股份有限公司遠(yuǎn)光研究院，廣東珠海 519085

2.華中科技大學(xué) 人工智能與自動化學(xué)院，武漢 430074

3.武漢科技大學(xué) 機(jī)械自動化學(xué)院，武漢 430081

視覺問答是隨計(jì)算機(jī)視覺和自然語言處理的成熟而衍生出的一門多學(xué)科跨模態(tài)人機(jī)交互技術(shù)，其過程伴隨著對視覺和語言特征的感知、識別和理解，以及跨模態(tài)融合推理，具有重要的理論研究價(jià)值，此外，視覺問答也被認(rèn)為是人工智能邁向更高層次的重要途徑，極具應(yīng)用潛力。

視覺問答系統(tǒng)主要由三部分組成，分別是視覺特征處理、語言特征處理和跨模態(tài)特征融合。語言特征處理是視覺問答任務(wù)的重點(diǎn)和難點(diǎn)之一，其核心方法和理論源于自然語言處理。語言特征處理涉及的關(guān)鍵技術(shù)包括但不限于命名實(shí)體識別、常識推理、關(guān)系抽取和邏輯推理，此外，還包括跨模態(tài)融合及答案生成。

針對視覺問答中的語言處理方法，相關(guān)綜述已經(jīng)對其進(jìn)行了歸納總結(jié)。例如Zhang等人[1]從圖像和視頻問答入手，簡要分析了相關(guān)研究中所使用的語言處理方法，并指出不論在圖像問答還是視頻問答，LSTM[2]和GRU[3]都是當(dāng)前最受歡迎的語言編碼方式；Manmadhan和Kovoor[4]對語言處理方法的研究則更為具體和深入，他們以單詞和文本嵌入為切入點(diǎn)進(jìn)行分類闡述，討論了詞嵌入近來的發(fā)展趨勢，并對最先進(jìn)視覺問答模型中所使用語言處理方法進(jìn)行了對比分析，其中使用情況統(tǒng)計(jì)結(jié)果如圖1所示。

圖1 語言處理方法使用情況統(tǒng)計(jì)Fig.1 Usage statistics of language processing methods

更普遍的情況出現(xiàn)在已公開發(fā)表的視覺問答論文當(dāng)中，每一篇研究視覺問答的文章都會對所涉及語言處理方法進(jìn)行描述。例如Zhang 等人[5]使用雙向GRU 進(jìn)行詞表達(dá)，以實(shí)現(xiàn)問題表征，而在答案生成階段，則使用了基礎(chǔ)GRU方法，同樣使用雙向GRU進(jìn)行問題表達(dá)的還有Urooj等人[6]；Sharma等人[7]利用GRU進(jìn)行問題表達(dá)，使用LSTM執(zhí)行答案生成；Rahman等人[8]使用GloVe[9]+LSTM 的方式來編碼輸入問題，其中GloVe 執(zhí)行單詞嵌入，LSTM 用于問題特征生成和與視覺特征的融合；Whitehead 等人[10]使用了BERT[11]對語言特征進(jìn)行提取和表達(dá)。盡管上述文獻(xiàn)均涉及到了對語言處理方法的描述，但多數(shù)情況下僅僅是指出所選用的方法及基礎(chǔ)理論模型，并不會給出選擇原因。此外，通過進(jìn)一步觀察和分析語言處理方法在每一篇文章中所占比重，能夠發(fā)現(xiàn)語言處理方法并不受視覺問答研究群體重視。

形成鮮明對比的是近年來自然語言處理技術(shù)的快速發(fā)展。李舟軍等人[12]將自然語言處理分為三個(gè)階段，分別是以Word2Vec[13-14]和GloVe[9]為代表的靜態(tài)詞嵌入技術(shù)，以ELMo[15]、GPT[16]和BERT 模型[11]為代表的動態(tài)預(yù)訓(xùn)練技術(shù)，以BERT改進(jìn)模型[17-18]和XLNet[19]為代表的新式預(yù)訓(xùn)練模型，其中靜態(tài)詞嵌入技術(shù)常與LSTM 和GRU 結(jié)合使用。陳德光等人[20]將自然語言處理的預(yù)訓(xùn)練方法分為傳統(tǒng)預(yù)訓(xùn)練技術(shù)和神經(jīng)網(wǎng)絡(luò)預(yù)訓(xùn)練技術(shù)，并對兩者進(jìn)行了細(xì)致闡述。此外，他們還針對自然語言處理算法模型的壓縮方法進(jìn)行了分類陳述，對具體應(yīng)用領(lǐng)域的研究進(jìn)展進(jìn)行了介紹。Otter 等人[21]重點(diǎn)調(diào)查了深度學(xué)習(xí)在自然語言處理中的應(yīng)用，并對自然語言處理的整個(gè)體系進(jìn)行了細(xì)致介紹，如語言模型和詞嵌入的關(guān)系，語言模型的構(gòu)建、評估，以及幾類具有不同理論基礎(chǔ)的語言模型，并進(jìn)一步對自然語言處理中涉及到的詞法、句法、語法和語義進(jìn)行了介紹；最后，還對自然語言處理應(yīng)用進(jìn)行了細(xì)致探討和分析，指出Transformer 已經(jīng)開始取代LSTM單元。結(jié)合上述調(diào)研結(jié)果，通過總結(jié)和分析，發(fā)現(xiàn)自然語言處理目前正朝著基礎(chǔ)理論研究和應(yīng)用性能提升兩個(gè)方向快速發(fā)展。

縱觀視覺問答中的語言處理方法和自然語言處理領(lǐng)域的發(fā)展現(xiàn)狀，很容易感受到兩者之間的發(fā)展進(jìn)程不一致。以圖1所展示的語言處理方法和李舟軍等人[12]提出的自然語言處理三個(gè)發(fā)展階段進(jìn)行對比，不難發(fā)現(xiàn)目前在視覺問答中廣泛使用的語言處理方法在整個(gè)自然語言處理體系中基本都處于第一階段，即以Word2Vec和GloVe 為代表的靜態(tài)詞嵌入技術(shù)，甚至還出現(xiàn)了像One-hot這種在自然語言處理領(lǐng)域已經(jīng)要被淘汰的語言編碼技術(shù)。較高層次的動態(tài)預(yù)訓(xùn)練技術(shù)僅在Whitehead等人[10]推薦的視覺問答中有所涉及，而更高層次的新式動態(tài)預(yù)訓(xùn)練技術(shù)[12]則尚未在視覺問答文獻(xiàn)中被發(fā)現(xiàn)。

本文重點(diǎn)分析了視覺問答中語言處理方法的重要價(jià)值，調(diào)查并整理了視覺問答中涉及到的語言處理方法和最新研究進(jìn)展，歸納總結(jié)了自然語言處理在視覺問答中涉及的相關(guān)應(yīng)用場景，并在文章結(jié)尾展望了語言處理方法的未來發(fā)展方向以及自然語言處理技術(shù)對視覺問答的推動作用。

1 視覺問答中的語言處理方法

傳統(tǒng)視覺問答系統(tǒng)中，語言處理是關(guān)注度最低的關(guān)鍵技術(shù)之一。大多數(shù)視覺問答的研究焦點(diǎn)是多模態(tài)融合及關(guān)系推理，對于視覺和語言處理方法的重視程度相對較低。但近年隨著來面向視覺的關(guān)系推理和視覺語義網(wǎng)絡(luò)提出，被看作是提升視覺問答準(zhǔn)確性的有效途徑，進(jìn)而推動了視覺處理在視覺問答中的快速發(fā)展。語言處理相對視覺處理而言，研究領(lǐng)域和應(yīng)用場景相對較窄，且目前廣泛使用的深度神經(jīng)網(wǎng)絡(luò)與自然語言處理的結(jié)合又比與計(jì)算機(jī)視覺要晚，在各種因素的影響下，導(dǎo)致視覺問答中語言處理方法的研究進(jìn)展較為緩慢。此處通過對近年來視覺問答領(lǐng)域相關(guān)性較強(qiáng)的論文進(jìn)行分析，得到如圖2所示結(jié)果。

圖2 視覺問答中關(guān)鍵支撐技術(shù)歷年情況統(tǒng)計(jì)Fig.2 Statistics of key supporting technologies in visual question answering over years

圖2 對視覺問答涉及的三類關(guān)鍵技術(shù)從2016 到2021 年近六年的相關(guān)研究情況進(jìn)行了統(tǒng)計(jì)，發(fā)現(xiàn)除2016年并沒有涉及多模態(tài)融合和推理外，其余每一年都有大量相關(guān)研究工作公開發(fā)表，且數(shù)量遠(yuǎn)超視覺和語言處理；而語言處理領(lǐng)域的論文數(shù)量除2018 和2019 年超過視覺處理外，其余年份均低于視覺處理。為了更加直觀展示兩者之間的關(guān)系變化情況，這里引入相關(guān)論文的累計(jì)發(fā)表數(shù)量進(jìn)行評價(jià)，如圖3所示。

圖3 視覺問答相關(guān)技術(shù)的論文累積發(fā)表情況Fig.3 Cumulative publications of papers on visual question answering technologies

圖3相比于圖2更加直觀地展示了各關(guān)鍵技術(shù)近年來相關(guān)研究成果的總體變化情況。在收集的92篇視覺問答論文中，研究多模態(tài)融合與推理的共計(jì)74篇（占比80.4%），研究視覺處理的31篇（占比33.7%），研究語言處理的24篇（占比26.1%）。很顯然，針對語言處理方法的研究在低于多模態(tài)融合與關(guān)系推理外，同樣也低于視覺處理。

然而，作為視覺問答中關(guān)注度最低的關(guān)鍵支撐技術(shù)，語言處理方法所發(fā)揮的作用和存在的意義卻極為重要。圖4展示了常規(guī)視覺問答組成。

圖4 常規(guī)視覺問答組成Fig.4 Regular visual question answering composition

其中“+”用來表示跨模態(tài)融合與推理，“=”表示生成或得到答案的過程。通過圖4可知，常規(guī)視覺問答是輸入一幅圖像和一個(gè)問題，得到一個(gè)答案，并循環(huán)往復(fù)這一過程。但在某些時(shí)候，這一標(biāo)準(zhǔn)模式會被改變，例如將輸入圖像、問題或輸出答案進(jìn)行壓縮合并，得到如圖5所示的情況。

圖5 壓縮某一部分輸入輸出后的視覺問答Fig.5 Visual question answering after compressing certain part of input and output

圖5（a）合并了輸入圖像，此時(shí)的視覺問答轉(zhuǎn)變?yōu)橐曈X對話；圖5（b）合并了輸入問題，即針對多張不同圖像，僅完成針對某一個(gè)問題的回復(fù)，此時(shí)的視覺問答退化成一個(gè)類似于目標(biāo)檢測、識別或者關(guān)系推理問題；圖5（c）合并了輸出答案，屬于視覺問答中的一種特殊情況，即面向不同圖像通過輸入不同問題后獲得了相同答案，這類研究可以用于科學(xué)問題探索，以找出不同現(xiàn)象背后的本質(zhì)原因。

進(jìn)一步對圖5（a）～（c）進(jìn)行分析能夠發(fā)現(xiàn)如下現(xiàn)象：（1）面對同一幅圖像，不同的輸入問題會產(chǎn)生不同的答案，如圖5（a）所示；（2）不同的輸入圖像，也有可能獲得完全相同的答案，這取決于輸入問題引導(dǎo)，如圖5（c）所示；（3）同一個(gè)問題，有可能會得到完全不同的答案，如圖5（b）所示，這源于問題的選擇。上述分析結(jié)果表明，視覺問答中輸入問題的選擇、設(shè)定和引導(dǎo)對于視覺問答最終結(jié)果具有極大影響，換言之，輸入問題不同可能會產(chǎn)生不同的答案類型和結(jié)果，因此，解析輸入問題的語言處理方法意義重大。

2 語言處理方法綜述

語言處理方法是視覺問答的重要組成部分，但針對視覺問答中語言處理方法的文獻(xiàn)綜述尚未被公開發(fā)表。本章將對圖2和圖3所整理的視覺問答相關(guān)論文進(jìn)行總結(jié)歸納，并按照是否針對語言處理方法展開研究，研究是在傳統(tǒng)自然語言處理的基礎(chǔ)上進(jìn)行改進(jìn)優(yōu)化，還是有針對性地提出一套全新理論，以此對語言處理方法進(jìn)行劃分。

其中第一類方法直接采用成熟的自然語言處理技術(shù)，未對其進(jìn)行改良和優(yōu)化而直接作為視覺問答的語言處理，這一類方法本文將其稱為基礎(chǔ)型方法；第二類引入了更加先進(jìn)的自然語言處理技術(shù)，或者在傳統(tǒng)技術(shù)的基礎(chǔ)上進(jìn)行了卓有成效的調(diào)整和改進(jìn)，使其能夠更好地與視覺特征進(jìn)行多模態(tài)融合及關(guān)系推理，以獲得更加準(zhǔn)確的答案，這一類語言處理方法被稱為進(jìn)階型語言處理方法；第三類方法不同于目前已經(jīng)公開的自然語言處理方法，而是研究人員根據(jù)提出的視覺問答模型中各個(gè)組成的內(nèi)在需求重新設(shè)計(jì)語言處理方法，此類方法被稱為專有型語言處理方法。

2.1 基礎(chǔ)型語言處理方法

語言處理作為視覺問答的關(guān)鍵支撐技術(shù)，在每一類視覺問答方法中都會被用到，然而，并不是所有新提出的視覺問答方法都會針對語言處理部分進(jìn)行研究，多數(shù)情況下僅僅是將自然語言處理中成熟的方法引入到視覺問答中，然后與視覺特征進(jìn)行跨模態(tài)融合，實(shí)現(xiàn)關(guān)系推理。

基礎(chǔ)型語言處理方法在三類方法中占有較高比重，因此這部分工作目前已經(jīng)在眾多視覺問答相關(guān)綜述中被涉及。例如Manmadhan 等人[4]針對視覺問答開展的綜述，以及Zhang 等人[1]針對信息融合開展的研究均對語言處理方法有所討論，但上述文獻(xiàn)對語言處理方法的討論過于籠統(tǒng)。同時(shí)，發(fā)現(xiàn)在閱讀某一篇論文時(shí)，常常會出現(xiàn)兩種或多種語言處理方法，究其原因，是相關(guān)研究人員在分析視覺問答的語言處理過程時(shí)并沒有將詞嵌入（word embedding）和詞表達(dá)（word representation）區(qū)分開來，從而導(dǎo)致了語言處理方法闡述的混亂。本節(jié)將針對語言處理過程中的詞嵌入和詞表達(dá)分別進(jìn)行分析，以獲得對語言處理方法更加清晰的認(rèn)知。表1對基礎(chǔ)型語言處理中的詞嵌入方法進(jìn)行了整理歸納。

表1 基礎(chǔ)型語言處理中的詞嵌入方法統(tǒng)計(jì)Table 1 Statistics of word embedding methods in language processing

通過對公開發(fā)表的92篇與視覺問答具有強(qiáng)相關(guān)性的論文進(jìn)行統(tǒng)計(jì)分析，發(fā)現(xiàn)屬于基礎(chǔ)型語言處理方法的共計(jì)64 篇，其中能夠明確找出詞嵌入方法類型的共計(jì)53篇，其余11篇作者并未提及具體使用的詞嵌入方法，例如Bai 等人[72]和Yu 等人[73]的研究成果。而在能夠確定詞嵌入方法類型的53篇論文中所使用的詞嵌入方法主要分為五類，分別是One-hot、BoW、Word2Vec、GloVe和Skip-thought。

進(jìn)一步對上述53篇論文中所使用的詞嵌入方法進(jìn)行分析，能夠發(fā)現(xiàn)如下現(xiàn)象：（1）GloVe詞嵌入方法在視覺問答中占據(jù)主要地位，特別是在2018 年之后，換言之，GloVe是目前使用最為廣泛的詞嵌入方法；（2）Onehot在2017 和2018 年使用較多，而在GloVe 出現(xiàn)并被廣泛使用后，One-hot逐漸被放棄；（3）BoW和Skip-thought僅僅在某一時(shí)間段被使用，這也說明這兩種方法存在著極大弊端；（4）Word2Vec 盡管每年數(shù)量不多，但持續(xù)在被使用，可見其本身具備某些優(yōu)異性能?？傮w來說，GloVe是目前使用最廣的詞嵌入方法，其余方法使用較少。進(jìn)一步的，對詞表達(dá)方法的使用情況也進(jìn)行總結(jié)歸納，見表2所示。

表2 基礎(chǔ)型語言處理中的詞表達(dá)方法統(tǒng)計(jì)Table 2 Statistics of word embedding methods in language processing

表2所展示的統(tǒng)計(jì)結(jié)果表明，基礎(chǔ)型語言處理方法中所包含的詞表達(dá)方法共有四類，分別是LSTM[2]、GRU[3]、Bi-LSTM和Bi-GRU，其中，Bi-LSTM和Bi-GRU表示雙向LSTM和雙向GRU。顯然，LSTM和GRU兩者相比于Bi-LSTM和Bi-GRU具有明顯優(yōu)勢，而LSTM和GRU之間并沒有顯著差異。為了直觀展示基礎(chǔ)型語言處理方法中詞嵌入方法和詞表達(dá)方法的歷年變化情況，本節(jié)將表1和表2的結(jié)果進(jìn)行了可視化處理，并展示在圖6中。

圖6 視覺問答語言處理方法隨時(shí)間變化曲線Fig.6 Time-varying curve of language processing methods for visual question answering

2.2 進(jìn)階型語言處理方法

相比基礎(chǔ)型語言處理方法，進(jìn)階型語言處理方法的最大區(qū)別在于并沒有在詞嵌入和詞表達(dá)過程中使用表1和表2中所涉及的傳統(tǒng)語言處理方法，而是引入了自然語言處理領(lǐng)域更加先進(jìn)的語義處理模型，例如Bert 和Transformer等，這些語言模型往往是在傳統(tǒng)的LSTM以及GRU 基礎(chǔ)上發(fā)展進(jìn)化而來。除此之外，進(jìn)階型語言處理方法還包含了那些針對基礎(chǔ)型語言處理方法的改進(jìn)版本，例如堆疊式GRU[82]，因此將這些語義處理方法統(tǒng)稱為進(jìn)階型語言處理方法。為了清晰展示這些方法，從詞嵌入、詞表達(dá)和時(shí)間維度來對進(jìn)階型語言處理方法進(jìn)行了可視化展示，結(jié)果見圖7所示。

圖7 進(jìn)階型語言處理方法相關(guān)論文發(fā)表統(tǒng)計(jì)Fig.7 Published statistics on advanced language processing methods

圖7中的實(shí)心圓用來表示進(jìn)階型詞嵌入方法，正方形用來代表詞表達(dá)方法，不同的顏色則表明具體方法不同。通過觀察圖7中的統(tǒng)計(jì)結(jié)果可以發(fā)現(xiàn)如下現(xiàn)象：（1）在進(jìn)階型語言處理方法中，詞表達(dá)方法所在比重更高，這表明視覺問答的相關(guān)研究人員更愿意針對詞表達(dá)方法進(jìn)行改進(jìn)優(yōu)化；（2）詞表達(dá)方法中，BERT 和Transformer各出現(xiàn)了兩次，結(jié)合引言部分關(guān)于自然語言處理部分的論述不難發(fā)現(xiàn)，視覺問答領(lǐng)域逐漸意識到需要從自然語言處理領(lǐng)域?qū)W習(xí)最先進(jìn)的算法，并將其引入到視覺問答當(dāng)中；（3）在詞表達(dá)一側(cè)，發(fā)現(xiàn)了堆疊式GRU，該方法是在GRU的基礎(chǔ)上改進(jìn)而來?？紤]到圖7展示得比較簡單，接下來，將對調(diào)查到的進(jìn)階型語言處理方法做進(jìn)一步闡述。

Whitehead 等人[10]和Gokhale 等人[83]在詞表達(dá)過程中引入了BERT[11]模型，以提升視覺問答過程中的語言處理精準(zhǔn)度。Liang 等人[84]提出了圖視覺問答，他們的核心觀點(diǎn)是將一個(gè)自然語言問題轉(zhuǎn)化為在圖節(jié)點(diǎn)之間傳遞多個(gè)消息迭代的問題，用到的語言處理方法是序列到序列的Transformer；同樣用到Transformer的還有Gao等人[85]，不同之處在于他們使用了Bi-Transformer[86]。Liu等人提出了一種空間語義注意力模型，用于學(xué)習(xí)圖像區(qū)域與疑問詞之間的視覺文本關(guān)聯(lián)和對齊。在注意力模型中，利用連體網(wǎng)絡(luò)來探討視覺內(nèi)容與文本內(nèi)容的一致性。然后，將樹結(jié)構(gòu)的LSTM模型和空間語義注意模型與聯(lián)合深度模型相結(jié)合，利用多任務(wù)學(xué)習(xí)方法訓(xùn)練模型進(jìn)行答案推理[87]。針對語言處理方法，作者使用了樹形結(jié)構(gòu)的LSTM來編碼問題語句。Fang等人[82]以GRU為基礎(chǔ)，設(shè)計(jì)了四種堆疊式GRU結(jié)構(gòu)用于問題編碼，并探討了性能差異。Zhu 等人[88]使用了一個(gè)簡單的MLP 模型進(jìn)行問題編碼和答案解碼。

除了上述提到的進(jìn)階型詞表達(dá)方法外，也有少量針對詞嵌入的改進(jìn)和優(yōu)化，例如Gupta等人提出了一種問題分割技術(shù)，并將該技術(shù)應(yīng)用到分層深度多模態(tài)網(wǎng)絡(luò)當(dāng)中用于產(chǎn)生可能的答案。在詞嵌入部分，作者首先使用了GloVe技術(shù)，除此之外也引入了子詞嵌入來捕獲醫(yī)學(xué)術(shù)語中未知詞的嵌入，而在字詞嵌入過程中，使用了FastText 詞嵌入技術(shù)[89]。Huasong 等人提出了一種新的自適應(yīng)神經(jīng)模塊Transformer，用來代替?zhèn)鹘y(tǒng)的前饋式編解碼結(jié)構(gòu)。

2.3 專有型語言處理方法

不同于基礎(chǔ)型和進(jìn)階型語言處理方法，專有型語言處理方法是作者根據(jù)視覺問答模型需要而專門設(shè)計(jì)的語言處理方法。因此，這些方法和對應(yīng)的模型往往都是獨(dú)一無二、且難以被其他類型的視覺問答系統(tǒng)所使用。然而，這并不是說研究專有型語言處理方法就沒有意義，恰恰相反，這些獨(dú)一無二的語言處理方法在解決某些問題時(shí)往往具有非常好的借鑒意義，因此把這一部分放在三類方法的最后來介紹。

視覺問答提出的早期，由于缺少實(shí)踐經(jīng)驗(yàn)，研究人員并不清楚哪一種類型的語言處理方法在視覺問答系統(tǒng)中能夠有更好表現(xiàn)，因此各種類型的語言處理方法紛紛涌現(xiàn)并被嘗試，其中專有型語言處理方法也不例外。

Shih等人[90]提出了一種圖像區(qū)域選擇機(jī)制，可以學(xué)習(xí)識別與問題相關(guān)的圖像區(qū)域。語言處理部分使用Word2Vec和一個(gè)三層網(wǎng)絡(luò)對解析后的問題和答案進(jìn)行編碼。此外，受到基于向量的語義表示方法啟發(fā)，Shih等人使用相似向量編碼相似單詞，以便于更好地回答開放式問題。在實(shí)驗(yàn)部分，作者展示了他們提出的向量平均語言模型明顯優(yōu)于更復(fù)雜的基于LSTM模型，從而證明了這種類似BoW 模型為VQA 任務(wù)提供了非常有效和簡單的語言表達(dá)。

Hu 等人[91]提出了一個(gè)端到端的模塊化網(wǎng)絡(luò)，該網(wǎng)絡(luò)能夠直接通過預(yù)測實(shí)例網(wǎng)絡(luò)層來學(xué)習(xí)推理，而并不需要解析器輔助。該模型能夠通過學(xué)習(xí)生成網(wǎng)絡(luò)結(jié)構(gòu)（通過模仿專家演示）和網(wǎng)絡(luò)參數(shù)。其語言處理部分采用了序列到序列的循環(huán)神經(jīng)網(wǎng)絡(luò)布局策略，作者希望為每個(gè)問題都能夠預(yù)測最為合理的推理結(jié)構(gòu)，再根據(jù)這個(gè)推理結(jié)構(gòu)組裝神經(jīng)網(wǎng)絡(luò)模型來輸出問題答案。但在實(shí)際使用過程中，該方法適應(yīng)性和泛化能力較差，因此難以獲得推廣。

Aditya 等人[92]提出了一個(gè)在端到端神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)上采用顯式推理層的集成系統(tǒng)。推理層支持推理和回答需要附加知識的問題，同時(shí)為最終用戶提供可解釋的接口。具體來說，推理層采用基于概率軟邏輯的引擎對視覺關(guān)系、問題的語義解析和來自ConceptNet[93]的本體論知識背景進(jìn)行推理。其中問題處理與通用解析器密切相關(guān)，通用解析器使用邏輯語言或標(biāo)記圖來表示句子。

Gao 等人[94]指出問題在視覺問答中起著主導(dǎo)作用，因?yàn)樗付藱C(jī)器應(yīng)該處理的視覺對象。為此，作者提出了問題引導(dǎo)的目標(biāo)注意力，即通過探索問題語義、細(xì)粒度圖像信息以及兩者之間的關(guān)系來提高視覺問答性能。在語言處理方面，Gao等人提出使用卷積神經(jīng)網(wǎng)絡(luò)來提取問題短語特征，之所以使用卷積神經(jīng)網(wǎng)絡(luò)，是因?yàn)樵谝曈X問答中，問題通常用一組短語描述關(guān)于查詢對象的重要信息，而與LSTM和GRU相比，具有權(quán)值共享能力的卷積單元擁有更好捕獲連續(xù)單詞之間豐富結(jié)構(gòu)和組成的能力。

Liu等人[95]提出了一種具有共同注意網(wǎng)絡(luò)的雙重自注意力視覺問答模型。具體來說，該模型包含三個(gè)子模塊，其中視覺自注意模塊通過對每個(gè)區(qū)域所有位置的視覺特征進(jìn)行加權(quán)求和，選擇性地聚合每個(gè)區(qū)域的視覺特征；文本自注意模塊通過整合句子中詞與詞之間的關(guān)聯(lián)特征，自動強(qiáng)調(diào)相互依賴詞特征；視覺-文本共注意模塊探討了從自注意模塊學(xué)習(xí)到的視覺特征和文本特征之間的密切關(guān)系，這三個(gè)模塊集成到一個(gè)端到端框架中來推斷答案。針對語言處理方法，作者發(fā)現(xiàn)傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)存在問題，即不能很好地捕捉不同位置單詞之間的內(nèi)部依賴關(guān)系，而為了解決這一問題，提出了將時(shí)間信息編碼為特征級的自注意力，以捕獲詞的依賴關(guān)系從而進(jìn)行表征學(xué)習(xí)。

專有型語言處理方法相比基礎(chǔ)型語言處理方法和進(jìn)階型語言處理方法而言，研究群體相對較小，且多出現(xiàn)在視覺問答提出的早期，因此整體成熟度和普及型較低，但因其與提取的視覺特征和多模態(tài)融合過程具有更好的嵌合度，因此同樣是一類比較重要的語言處理方法。

3 語言處理方法分析

通過對當(dāng)前已有的強(qiáng)關(guān)聯(lián)性視覺問答系統(tǒng)所涉及的語言處理方法系統(tǒng)綜述，基本可以了解該研究領(lǐng)域的研究現(xiàn)狀，但還缺少對各類型語言處理方法的深入分析和優(yōu)缺點(diǎn)解析。本章將對基本型、進(jìn)階型和專有型語言處理方法的特點(diǎn)進(jìn)行更加細(xì)致分析，從而揭示各自特點(diǎn)和適用情況。

基本型語言處理方法在三類語言處理方法中占比最重且應(yīng)用廣泛，但由于所涉及的詞嵌入和詞表達(dá)方法提出得較早，因此某些性能方面無法與進(jìn)階型語言處理方法相比。基本型語言處理方法的最大優(yōu)勢是模型簡單，簡單的模型往往更容易訓(xùn)練和改進(jìn)優(yōu)化，因此以基礎(chǔ)型語言處理方法作為底層，發(fā)展出了大量的新方法，這其中就包括有進(jìn)階型語言處理方法和專有型語言處理方法。

進(jìn)階型語言處理方法是從先進(jìn)的自然語言處理領(lǐng)域引入或者在基礎(chǔ)型語言處理方法的基礎(chǔ)上發(fā)展而來，因此在某些關(guān)鍵性能方面相比于基礎(chǔ)型語言處理方法具有先天優(yōu)勢，能夠獲得更好的語言識別效果。但進(jìn)階型語言處理方法的模型一般較大，訓(xùn)練過程更長，同時(shí)在進(jìn)行端側(cè)部署時(shí)難度也更大。

專有型語言處理方法是針對視覺問答模型特別開發(fā)的語言處理方法，其思想來源于基礎(chǔ)型語言處理方法和自然語言處理領(lǐng)域，原則上與視覺問答模型的切合度更高，融合性更好。但該方法的設(shè)計(jì)難度較大，且很多時(shí)候需要配合特定的訓(xùn)練數(shù)據(jù)集使用，適用范圍受限；此外，專有型語言處理方法往往僅針對特定視覺問答模型效果較好，當(dāng)遷移到其他模型上時(shí)會出現(xiàn)性能大幅度下降的問題?；谏鲜鰞煞矫嬖?，專有型語言處理方法的發(fā)展較為緩慢。

三類方法中，基礎(chǔ)型語言處理方法目前依然被廣泛使用，其原因在于視覺問答研究人員普遍將精力放在多模態(tài)融合上，而很少關(guān)注基礎(chǔ)的語言和視覺處理方法，所以針對語言和視覺處理方法往往直接引入現(xiàn)成的算法模型進(jìn)行使用，所以，基礎(chǔ)型語言處理方法適合于僅關(guān)注多模態(tài)融合及其他非語言處理方向的研究工作。進(jìn)階型語言處理方法模型相對比較復(fù)雜，性能也更加優(yōu)異，且具有一定的優(yōu)化改造空間，因此特別適合于實(shí)驗(yàn)設(shè)備性能較好，且有意通過改進(jìn)語言處理方法來提升視覺問答性能的研究人員，同時(shí)，針對企業(yè)級用戶，進(jìn)階型語言處理方法是更好的選擇。專有型語言處理方法適合于專門研究語言處理方法與視覺問答關(guān)系的相關(guān)研究人員，這類研究需要較好的自然語言處理知識和多模態(tài)融合知識，但整體而言，這類算法的價(jià)值相對較小。

盡管本文將語言處理方法分為了三種類型，但不可否認(rèn)的是自然語言處理領(lǐng)域的發(fā)展為語言處理方法的推陳出新提供了巨大幫助。正如基礎(chǔ)型語言處理方法本身脫胎于自然語言處理，進(jìn)階型語言處理方法源自于先進(jìn)的自然語言處理或者以自然語言處理為基礎(chǔ)而進(jìn)行的改進(jìn)優(yōu)化，即使是專有型語言處理方法，其創(chuàng)新的靈感往往也離不開自然語言處理，因此，可以毫不夸張的講，自然語言處理是視覺問答語言處理方法的基礎(chǔ)；而從另一個(gè)角度來看，視覺問答中語言處理方法面臨的困境，同樣也是在向自然語言處理領(lǐng)域提出的挑戰(zhàn)，這種挑戰(zhàn)可以促進(jìn)自然語言處理向著更有性能和更加完善的方向發(fā)展。

4 未來研究方向展望

4.1 基礎(chǔ)型語言處理方法的更新迭代

基礎(chǔ)型語言處理方法會長期占據(jù)主導(dǎo)地位，但這并不意味著本文中所述的基礎(chǔ)型詞嵌入和詞表達(dá)方法會一直存在并始終占據(jù)主導(dǎo)地位。未來，隨著自然語言處理的持續(xù)發(fā)展，會有新的、性能更加優(yōu)異的算法提出，并被引入到視覺問答的語言處理過程中，在此過程中，基礎(chǔ)型語言處理方法將會被目前的進(jìn)階型語言處理方法及其變體替代，基礎(chǔ)型語言處理方法將會是一個(gè)迭代更新的過程。既然如此，目前眾多的進(jìn)階型語言處理方法中哪一種會成為未來的基礎(chǔ)型語言處理方法，這是非常值得探討并研究的工作。

4.2 詞嵌入方法的研究

正如文中所述，視覺問答中的語言處理方法包括了詞嵌入方法和詞表達(dá)方法，而通過對第2章研究現(xiàn)狀的分析發(fā)現(xiàn)，從基礎(chǔ)型到進(jìn)階型語言處理方法，再到專有型語言處理方法，多數(shù)情況下發(fā)展的都是詞表達(dá)方法，而詞嵌入方法基本上一直沿用固定幾類，這幾類詞嵌入方法即使是最新的，提出時(shí)間也已經(jīng)有近十年。詞嵌入方法直接關(guān)系著語言處理模型的規(guī)模，未來如果想要將模型進(jìn)行無損壓縮，詞嵌入方法的發(fā)展必然是一個(gè)非常重要的研究方向。

4.3 端到端的視覺問答

目前的視覺問答系統(tǒng)都是由視覺處理、語言處理和多模態(tài)融合等幾個(gè)關(guān)鍵部分組成，因此需要對應(yīng)的圖像處理方法和語言處理方法，而不同的處理方法在處理模態(tài)數(shù)據(jù)并進(jìn)行理解的過程中，總會產(chǎn)生偏差，甚至出現(xiàn)偏置，正如某些論文中提到的即使沒有輸入圖像，僅僅給出問題，系統(tǒng)有時(shí)也能夠得到正確答案。為此，研究端到端的視覺問答系統(tǒng)，將圖像處理和語言處理部分直接取消，也許是另一個(gè)值得研究的內(nèi)容。但同時(shí)值得注意的是，這種針對某種模式的徹底改變，難度和可行性是首先需要評估和研究的。

5 結(jié)語

語言處理方法在視覺問答中起著溝通、引導(dǎo)圖像內(nèi)容和最終答案的作用，基于語言處理方法的問題解析對于最終答案的正確與否意義重大。本文首先分析并指出了語言處理方法對于視覺問答的價(jià)值和重要性；進(jìn)一步的，對于目前廣泛使用的語言處理方法進(jìn)行了系統(tǒng)性闡述，并根據(jù)其先進(jìn)性和構(gòu)成要素將其分為三類，分別是基礎(chǔ)型語言處理方法、進(jìn)階型語言處理方法和專有型語言處理方法，同時(shí)對每一類語言處理方法的研究現(xiàn)狀進(jìn)行了調(diào)研和分析；最后對于三類方法各自的特點(diǎn)和選用依據(jù)進(jìn)行了闡述，為后續(xù)研究人員開展視覺問答語言處理方法研究奠定了基礎(chǔ)。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放