亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        視覺問答語言處理方法綜述

        2022-09-06 11:08:04王瑞平吳士泓張美航王小平
        計算機工程與應用 2022年17期
        關(guān)鍵詞:表達方法進階模態(tài)

        王瑞平,吳士泓,張美航,王小平

        1.遠光軟件股份有限公司遠光研究院,廣東 珠海 519085

        2.華中科技大學 人工智能與自動化學院,武漢 430074

        3.武漢科技大學 機械自動化學院,武漢 430081

        視覺問答是隨計算機視覺和自然語言處理的成熟而衍生出的一門多學科跨模態(tài)人機交互技術(shù),其過程伴隨著對視覺和語言特征的感知、識別和理解,以及跨模態(tài)融合推理,具有重要的理論研究價值,此外,視覺問答也被認為是人工智能邁向更高層次的重要途徑,極具應用潛力。

        視覺問答系統(tǒng)主要由三部分組成,分別是視覺特征處理、語言特征處理和跨模態(tài)特征融合。語言特征處理是視覺問答任務的重點和難點之一,其核心方法和理論源于自然語言處理。語言特征處理涉及的關(guān)鍵技術(shù)包括但不限于命名實體識別、常識推理、關(guān)系抽取和邏輯推理,此外,還包括跨模態(tài)融合及答案生成。

        針對視覺問答中的語言處理方法,相關(guān)綜述已經(jīng)對其進行了歸納總結(jié)。例如Zhang等人[1]從圖像和視頻問答入手,簡要分析了相關(guān)研究中所使用的語言處理方法,并指出不論在圖像問答還是視頻問答,LSTM[2]和GRU[3]都是當前最受歡迎的語言編碼方式;Manmadhan和Kovoor[4]對語言處理方法的研究則更為具體和深入,他們以單詞和文本嵌入為切入點進行分類闡述,討論了詞嵌入近來的發(fā)展趨勢,并對最先進視覺問答模型中所使用語言處理方法進行了對比分析,其中使用情況統(tǒng)計結(jié)果如圖1所示。

        圖1 語言處理方法使用情況統(tǒng)計Fig.1 Usage statistics of language processing methods

        更普遍的情況出現(xiàn)在已公開發(fā)表的視覺問答論文當中,每一篇研究視覺問答的文章都會對所涉及語言處理方法進行描述。例如Zhang 等人[5]使用雙向GRU 進行詞表達,以實現(xiàn)問題表征,而在答案生成階段,則使用了基礎(chǔ)GRU方法,同樣使用雙向GRU進行問題表達的還有Urooj等人[6];Sharma等人[7]利用GRU進行問題表達,使用LSTM執(zhí)行答案生成;Rahman等人[8]使用GloVe[9]+LSTM 的方式來編碼輸入問題,其中GloVe 執(zhí)行單詞嵌入,LSTM 用于問題特征生成和與視覺特征的融合;Whitehead 等人[10]使用了BERT[11]對語言特征進行提取和表達。盡管上述文獻均涉及到了對語言處理方法的描述,但多數(shù)情況下僅僅是指出所選用的方法及基礎(chǔ)理論模型,并不會給出選擇原因。此外,通過進一步觀察和分析語言處理方法在每一篇文章中所占比重,能夠發(fā)現(xiàn)語言處理方法并不受視覺問答研究群體重視。

        形成鮮明對比的是近年來自然語言處理技術(shù)的快速發(fā)展。李舟軍等人[12]將自然語言處理分為三個階段,分別是以Word2Vec[13-14]和GloVe[9]為代表的靜態(tài)詞嵌入技術(shù),以ELMo[15]、GPT[16]和BERT 模型[11]為代表的動態(tài)預訓練技術(shù),以BERT改進模型[17-18]和XLNet[19]為代表的新式預訓練模型,其中靜態(tài)詞嵌入技術(shù)常與LSTM 和GRU 結(jié)合使用。陳德光等人[20]將自然語言處理的預訓練方法分為傳統(tǒng)預訓練技術(shù)和神經(jīng)網(wǎng)絡預訓練技術(shù),并對兩者進行了細致闡述。此外,他們還針對自然語言處理算法模型的壓縮方法進行了分類陳述,對具體應用領(lǐng)域的研究進展進行了介紹。Otter 等人[21]重點調(diào)查了深度學習在自然語言處理中的應用,并對自然語言處理的整個體系進行了細致介紹,如語言模型和詞嵌入的關(guān)系,語言模型的構(gòu)建、評估,以及幾類具有不同理論基礎(chǔ)的語言模型,并進一步對自然語言處理中涉及到的詞法、句法、語法和語義進行了介紹;最后,還對自然語言處理應用進行了細致探討和分析,指出Transformer 已經(jīng)開始取代LSTM單元。結(jié)合上述調(diào)研結(jié)果,通過總結(jié)和分析,發(fā)現(xiàn)自然語言處理目前正朝著基礎(chǔ)理論研究和應用性能提升兩個方向快速發(fā)展。

        縱觀視覺問答中的語言處理方法和自然語言處理領(lǐng)域的發(fā)展現(xiàn)狀,很容易感受到兩者之間的發(fā)展進程不一致。以圖1所展示的語言處理方法和李舟軍等人[12]提出的自然語言處理三個發(fā)展階段進行對比,不難發(fā)現(xiàn)目前在視覺問答中廣泛使用的語言處理方法在整個自然語言處理體系中基本都處于第一階段,即以Word2Vec和GloVe 為代表的靜態(tài)詞嵌入技術(shù),甚至還出現(xiàn)了像One-hot這種在自然語言處理領(lǐng)域已經(jīng)要被淘汰的語言編碼技術(shù)。較高層次的動態(tài)預訓練技術(shù)僅在Whitehead等人[10]推薦的視覺問答中有所涉及,而更高層次的新式動態(tài)預訓練技術(shù)[12]則尚未在視覺問答文獻中被發(fā)現(xiàn)。

        本文重點分析了視覺問答中語言處理方法的重要價值,調(diào)查并整理了視覺問答中涉及到的語言處理方法和最新研究進展,歸納總結(jié)了自然語言處理在視覺問答中涉及的相關(guān)應用場景,并在文章結(jié)尾展望了語言處理方法的未來發(fā)展方向以及自然語言處理技術(shù)對視覺問答的推動作用。

        1 視覺問答中的語言處理方法

        傳統(tǒng)視覺問答系統(tǒng)中,語言處理是關(guān)注度最低的關(guān)鍵技術(shù)之一。大多數(shù)視覺問答的研究焦點是多模態(tài)融合及關(guān)系推理,對于視覺和語言處理方法的重視程度相對較低。但近年隨著來面向視覺的關(guān)系推理和視覺語義網(wǎng)絡提出,被看作是提升視覺問答準確性的有效途徑,進而推動了視覺處理在視覺問答中的快速發(fā)展。語言處理相對視覺處理而言,研究領(lǐng)域和應用場景相對較窄,且目前廣泛使用的深度神經(jīng)網(wǎng)絡與自然語言處理的結(jié)合又比與計算機視覺要晚,在各種因素的影響下,導致視覺問答中語言處理方法的研究進展較為緩慢。此處通過對近年來視覺問答領(lǐng)域相關(guān)性較強的論文進行分析,得到如圖2所示結(jié)果。

        圖2 視覺問答中關(guān)鍵支撐技術(shù)歷年情況統(tǒng)計Fig.2 Statistics of key supporting technologies in visual question answering over years

        圖2 對視覺問答涉及的三類關(guān)鍵技術(shù)從2016 到2021 年近六年的相關(guān)研究情況進行了統(tǒng)計,發(fā)現(xiàn)除2016年并沒有涉及多模態(tài)融合和推理外,其余每一年都有大量相關(guān)研究工作公開發(fā)表,且數(shù)量遠超視覺和語言處理;而語言處理領(lǐng)域的論文數(shù)量除2018 和2019 年超過視覺處理外,其余年份均低于視覺處理。為了更加直觀展示兩者之間的關(guān)系變化情況,這里引入相關(guān)論文的累計發(fā)表數(shù)量進行評價,如圖3所示。

        圖3 視覺問答相關(guān)技術(shù)的論文累積發(fā)表情況Fig.3 Cumulative publications of papers on visual question answering technologies

        圖3相比于圖2更加直觀地展示了各關(guān)鍵技術(shù)近年來相關(guān)研究成果的總體變化情況。在收集的92篇視覺問答論文中,研究多模態(tài)融合與推理的共計74篇(占比80.4%),研究視覺處理的31篇(占比33.7%),研究語言處理的24篇(占比26.1%)。很顯然,針對語言處理方法的研究在低于多模態(tài)融合與關(guān)系推理外,同樣也低于視覺處理。

        然而,作為視覺問答中關(guān)注度最低的關(guān)鍵支撐技術(shù),語言處理方法所發(fā)揮的作用和存在的意義卻極為重要。圖4展示了常規(guī)視覺問答組成。

        圖4 常規(guī)視覺問答組成Fig.4 Regular visual question answering composition

        其中“+”用來表示跨模態(tài)融合與推理,“=”表示生成或得到答案的過程。通過圖4可知,常規(guī)視覺問答是輸入一幅圖像和一個問題,得到一個答案,并循環(huán)往復這一過程。但在某些時候,這一標準模式會被改變,例如將輸入圖像、問題或輸出答案進行壓縮合并,得到如圖5所示的情況。

        圖5 壓縮某一部分輸入輸出后的視覺問答Fig.5 Visual question answering after compressing certain part of input and output

        圖5(a)合并了輸入圖像,此時的視覺問答轉(zhuǎn)變?yōu)橐曈X對話;圖5(b)合并了輸入問題,即針對多張不同圖像,僅完成針對某一個問題的回復,此時的視覺問答退化成一個類似于目標檢測、識別或者關(guān)系推理問題;圖5(c)合并了輸出答案,屬于視覺問答中的一種特殊情況,即面向不同圖像通過輸入不同問題后獲得了相同答案,這類研究可以用于科學問題探索,以找出不同現(xiàn)象背后的本質(zhì)原因。

        進一步對圖5(a)~(c)進行分析能夠發(fā)現(xiàn)如下現(xiàn)象:(1)面對同一幅圖像,不同的輸入問題會產(chǎn)生不同的答案,如圖5(a)所示;(2)不同的輸入圖像,也有可能獲得完全相同的答案,這取決于輸入問題引導,如圖5(c)所示;(3)同一個問題,有可能會得到完全不同的答案,如圖5(b)所示,這源于問題的選擇。上述分析結(jié)果表明,視覺問答中輸入問題的選擇、設定和引導對于視覺問答最終結(jié)果具有極大影響,換言之,輸入問題不同可能會產(chǎn)生不同的答案類型和結(jié)果,因此,解析輸入問題的語言處理方法意義重大。

        2 語言處理方法綜述

        語言處理方法是視覺問答的重要組成部分,但針對視覺問答中語言處理方法的文獻綜述尚未被公開發(fā)表。本章將對圖2和圖3所整理的視覺問答相關(guān)論文進行總結(jié)歸納,并按照是否針對語言處理方法展開研究,研究是在傳統(tǒng)自然語言處理的基礎(chǔ)上進行改進優(yōu)化,還是有針對性地提出一套全新理論,以此對語言處理方法進行劃分。

        其中第一類方法直接采用成熟的自然語言處理技術(shù),未對其進行改良和優(yōu)化而直接作為視覺問答的語言處理,這一類方法本文將其稱為基礎(chǔ)型方法;第二類引入了更加先進的自然語言處理技術(shù),或者在傳統(tǒng)技術(shù)的基礎(chǔ)上進行了卓有成效的調(diào)整和改進,使其能夠更好地與視覺特征進行多模態(tài)融合及關(guān)系推理,以獲得更加準確的答案,這一類語言處理方法被稱為進階型語言處理方法;第三類方法不同于目前已經(jīng)公開的自然語言處理方法,而是研究人員根據(jù)提出的視覺問答模型中各個組成的內(nèi)在需求重新設計語言處理方法,此類方法被稱為專有型語言處理方法。

        2.1 基礎(chǔ)型語言處理方法

        語言處理作為視覺問答的關(guān)鍵支撐技術(shù),在每一類視覺問答方法中都會被用到,然而,并不是所有新提出的視覺問答方法都會針對語言處理部分進行研究,多數(shù)情況下僅僅是將自然語言處理中成熟的方法引入到視覺問答中,然后與視覺特征進行跨模態(tài)融合,實現(xiàn)關(guān)系推理。

        基礎(chǔ)型語言處理方法在三類方法中占有較高比重,因此這部分工作目前已經(jīng)在眾多視覺問答相關(guān)綜述中被涉及。例如Manmadhan 等人[4]針對視覺問答開展的綜述,以及Zhang 等人[1]針對信息融合開展的研究均對語言處理方法有所討論,但上述文獻對語言處理方法的討論過于籠統(tǒng)。同時,發(fā)現(xiàn)在閱讀某一篇論文時,常常會出現(xiàn)兩種或多種語言處理方法,究其原因,是相關(guān)研究人員在分析視覺問答的語言處理過程時并沒有將詞嵌入(word embedding)和詞表達(word representation)區(qū)分開來,從而導致了語言處理方法闡述的混亂。本節(jié)將針對語言處理過程中的詞嵌入和詞表達分別進行分析,以獲得對語言處理方法更加清晰的認知。表1對基礎(chǔ)型語言處理中的詞嵌入方法進行了整理歸納。

        表1 基礎(chǔ)型語言處理中的詞嵌入方法統(tǒng)計Table 1 Statistics of word embedding methods in language processing

        通過對公開發(fā)表的92篇與視覺問答具有強相關(guān)性的論文進行統(tǒng)計分析,發(fā)現(xiàn)屬于基礎(chǔ)型語言處理方法的共計64 篇,其中能夠明確找出詞嵌入方法類型的共計53篇,其余11篇作者并未提及具體使用的詞嵌入方法,例如Bai 等人[72]和Yu 等人[73]的研究成果。而在能夠確定詞嵌入方法類型的53篇論文中所使用的詞嵌入方法主要分為五類,分別是One-hot、BoW、Word2Vec、GloVe和Skip-thought。

        進一步對上述53篇論文中所使用的詞嵌入方法進行分析,能夠發(fā)現(xiàn)如下現(xiàn)象:(1)GloVe詞嵌入方法在視覺問答中占據(jù)主要地位,特別是在2018 年之后,換言之,GloVe是目前使用最為廣泛的詞嵌入方法;(2)Onehot在2017 和2018 年使用較多,而在GloVe 出現(xiàn)并被廣泛使用后,One-hot逐漸被放棄;(3)BoW和Skip-thought僅僅在某一時間段被使用,這也說明這兩種方法存在著極大弊端;(4)Word2Vec 盡管每年數(shù)量不多,但持續(xù)在被使用,可見其本身具備某些優(yōu)異性能??傮w來說,GloVe是目前使用最廣的詞嵌入方法,其余方法使用較少。進一步的,對詞表達方法的使用情況也進行總結(jié)歸納,見表2所示。

        表2 基礎(chǔ)型語言處理中的詞表達方法統(tǒng)計Table 2 Statistics of word embedding methods in language processing

        表2所展示的統(tǒng)計結(jié)果表明,基礎(chǔ)型語言處理方法中所包含的詞表達方法共有四類,分別是LSTM[2]、GRU[3]、Bi-LSTM和Bi-GRU,其中,Bi-LSTM和Bi-GRU表示雙向LSTM和雙向GRU。顯然,LSTM和GRU兩者相比于Bi-LSTM和Bi-GRU具有明顯優(yōu)勢,而LSTM和GRU之間并沒有顯著差異。為了直觀展示基礎(chǔ)型語言處理方法中詞嵌入方法和詞表達方法的歷年變化情況,本節(jié)將表1和表2的結(jié)果進行了可視化處理,并展示在圖6中。

        圖6 視覺問答語言處理方法隨時間變化曲線Fig.6 Time-varying curve of language processing methods for visual question answering

        2.2 進階型語言處理方法

        相比基礎(chǔ)型語言處理方法,進階型語言處理方法的最大區(qū)別在于并沒有在詞嵌入和詞表達過程中使用表1和表2中所涉及的傳統(tǒng)語言處理方法,而是引入了自然語言處理領(lǐng)域更加先進的語義處理模型,例如Bert 和Transformer等,這些語言模型往往是在傳統(tǒng)的LSTM以及GRU 基礎(chǔ)上發(fā)展進化而來。除此之外,進階型語言處理方法還包含了那些針對基礎(chǔ)型語言處理方法的改進版本,例如堆疊式GRU[82],因此將這些語義處理方法統(tǒng)稱為進階型語言處理方法。為了清晰展示這些方法,從詞嵌入、詞表達和時間維度來對進階型語言處理方法進行了可視化展示,結(jié)果見圖7所示。

        圖7 進階型語言處理方法相關(guān)論文發(fā)表統(tǒng)計Fig.7 Published statistics on advanced language processing methods

        圖7中的實心圓用來表示進階型詞嵌入方法,正方形用來代表詞表達方法,不同的顏色則表明具體方法不同。通過觀察圖7中的統(tǒng)計結(jié)果可以發(fā)現(xiàn)如下現(xiàn)象:(1)在進階型語言處理方法中,詞表達方法所在比重更高,這表明視覺問答的相關(guān)研究人員更愿意針對詞表達方法進行改進優(yōu)化;(2)詞表達方法中,BERT 和Transformer各出現(xiàn)了兩次,結(jié)合引言部分關(guān)于自然語言處理部分的論述不難發(fā)現(xiàn),視覺問答領(lǐng)域逐漸意識到需要從自然語言處理領(lǐng)域?qū)W習最先進的算法,并將其引入到視覺問答當中;(3)在詞表達一側(cè),發(fā)現(xiàn)了堆疊式GRU,該方法是在GRU的基礎(chǔ)上改進而來??紤]到圖7展示得比較簡單,接下來,將對調(diào)查到的進階型語言處理方法做進一步闡述。

        Whitehead 等人[10]和Gokhale 等人[83]在詞表達過程中引入了BERT[11]模型,以提升視覺問答過程中的語言處理精準度。Liang 等人[84]提出了圖視覺問答,他們的核心觀點是將一個自然語言問題轉(zhuǎn)化為在圖節(jié)點之間傳遞多個消息迭代的問題,用到的語言處理方法是序列到序列的Transformer;同樣用到Transformer的還有Gao等人[85],不同之處在于他們使用了Bi-Transformer[86]。Liu等人提出了一種空間語義注意力模型,用于學習圖像區(qū)域與疑問詞之間的視覺文本關(guān)聯(lián)和對齊。在注意力模型中,利用連體網(wǎng)絡來探討視覺內(nèi)容與文本內(nèi)容的一致性。然后,將樹結(jié)構(gòu)的LSTM模型和空間語義注意模型與聯(lián)合深度模型相結(jié)合,利用多任務學習方法訓練模型進行答案推理[87]。針對語言處理方法,作者使用了樹形結(jié)構(gòu)的LSTM來編碼問題語句。Fang等人[82]以GRU為基礎(chǔ),設計了四種堆疊式GRU結(jié)構(gòu)用于問題編碼,并探討了性能差異。Zhu 等人[88]使用了一個簡單的MLP 模型進行問題編碼和答案解碼。

        除了上述提到的進階型詞表達方法外,也有少量針對詞嵌入的改進和優(yōu)化,例如Gupta等人提出了一種問題分割技術(shù),并將該技術(shù)應用到分層深度多模態(tài)網(wǎng)絡當中用于產(chǎn)生可能的答案。在詞嵌入部分,作者首先使用了GloVe技術(shù),除此之外也引入了子詞嵌入來捕獲醫(yī)學術(shù)語中未知詞的嵌入,而在字詞嵌入過程中,使用了FastText 詞嵌入技術(shù)[89]。Huasong 等人提出了一種新的自適應神經(jīng)模塊Transformer,用來代替?zhèn)鹘y(tǒng)的前饋式編解碼結(jié)構(gòu)。

        2.3 專有型語言處理方法

        不同于基礎(chǔ)型和進階型語言處理方法,專有型語言處理方法是作者根據(jù)視覺問答模型需要而專門設計的語言處理方法。因此,這些方法和對應的模型往往都是獨一無二、且難以被其他類型的視覺問答系統(tǒng)所使用。然而,這并不是說研究專有型語言處理方法就沒有意義,恰恰相反,這些獨一無二的語言處理方法在解決某些問題時往往具有非常好的借鑒意義,因此把這一部分放在三類方法的最后來介紹。

        視覺問答提出的早期,由于缺少實踐經(jīng)驗,研究人員并不清楚哪一種類型的語言處理方法在視覺問答系統(tǒng)中能夠有更好表現(xiàn),因此各種類型的語言處理方法紛紛涌現(xiàn)并被嘗試,其中專有型語言處理方法也不例外。

        Shih等人[90]提出了一種圖像區(qū)域選擇機制,可以學習識別與問題相關(guān)的圖像區(qū)域。語言處理部分使用Word2Vec和一個三層網(wǎng)絡對解析后的問題和答案進行編碼。此外,受到基于向量的語義表示方法啟發(fā),Shih等人使用相似向量編碼相似單詞,以便于更好地回答開放式問題。在實驗部分,作者展示了他們提出的向量平均語言模型明顯優(yōu)于更復雜的基于LSTM模型,從而證明了這種類似BoW 模型為VQA 任務提供了非常有效和簡單的語言表達。

        Hu 等人[91]提出了一個端到端的模塊化網(wǎng)絡,該網(wǎng)絡能夠直接通過預測實例網(wǎng)絡層來學習推理,而并不需要解析器輔助。該模型能夠通過學習生成網(wǎng)絡結(jié)構(gòu)(通過模仿專家演示)和網(wǎng)絡參數(shù)。其語言處理部分采用了序列到序列的循環(huán)神經(jīng)網(wǎng)絡布局策略,作者希望為每個問題都能夠預測最為合理的推理結(jié)構(gòu),再根據(jù)這個推理結(jié)構(gòu)組裝神經(jīng)網(wǎng)絡模型來輸出問題答案。但在實際使用過程中,該方法適應性和泛化能力較差,因此難以獲得推廣。

        Aditya 等人[92]提出了一個在端到端神經(jīng)網(wǎng)絡結(jié)構(gòu)上采用顯式推理層的集成系統(tǒng)。推理層支持推理和回答需要附加知識的問題,同時為最終用戶提供可解釋的接口。具體來說,推理層采用基于概率軟邏輯的引擎對視覺關(guān)系、問題的語義解析和來自ConceptNet[93]的本體論知識背景進行推理。其中問題處理與通用解析器密切相關(guān),通用解析器使用邏輯語言或標記圖來表示句子。

        Gao 等人[94]指出問題在視覺問答中起著主導作用,因為它指定了機器應該處理的視覺對象。為此,作者提出了問題引導的目標注意力,即通過探索問題語義、細粒度圖像信息以及兩者之間的關(guān)系來提高視覺問答性能。在語言處理方面,Gao等人提出使用卷積神經(jīng)網(wǎng)絡來提取問題短語特征,之所以使用卷積神經(jīng)網(wǎng)絡,是因為在視覺問答中,問題通常用一組短語描述關(guān)于查詢對象的重要信息,而與LSTM和GRU相比,具有權(quán)值共享能力的卷積單元擁有更好捕獲連續(xù)單詞之間豐富結(jié)構(gòu)和組成的能力。

        Liu等人[95]提出了一種具有共同注意網(wǎng)絡的雙重自注意力視覺問答模型。具體來說,該模型包含三個子模塊,其中視覺自注意模塊通過對每個區(qū)域所有位置的視覺特征進行加權(quán)求和,選擇性地聚合每個區(qū)域的視覺特征;文本自注意模塊通過整合句子中詞與詞之間的關(guān)聯(lián)特征,自動強調(diào)相互依賴詞特征;視覺-文本共注意模塊探討了從自注意模塊學習到的視覺特征和文本特征之間的密切關(guān)系,這三個模塊集成到一個端到端框架中來推斷答案。針對語言處理方法,作者發(fā)現(xiàn)傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡存在問題,即不能很好地捕捉不同位置單詞之間的內(nèi)部依賴關(guān)系,而為了解決這一問題,提出了將時間信息編碼為特征級的自注意力,以捕獲詞的依賴關(guān)系從而進行表征學習。

        專有型語言處理方法相比基礎(chǔ)型語言處理方法和進階型語言處理方法而言,研究群體相對較小,且多出現(xiàn)在視覺問答提出的早期,因此整體成熟度和普及型較低,但因其與提取的視覺特征和多模態(tài)融合過程具有更好的嵌合度,因此同樣是一類比較重要的語言處理方法。

        3 語言處理方法分析

        通過對當前已有的強關(guān)聯(lián)性視覺問答系統(tǒng)所涉及的語言處理方法系統(tǒng)綜述,基本可以了解該研究領(lǐng)域的研究現(xiàn)狀,但還缺少對各類型語言處理方法的深入分析和優(yōu)缺點解析。本章將對基本型、進階型和專有型語言處理方法的特點進行更加細致分析,從而揭示各自特點和適用情況。

        基本型語言處理方法在三類語言處理方法中占比最重且應用廣泛,但由于所涉及的詞嵌入和詞表達方法提出得較早,因此某些性能方面無法與進階型語言處理方法相比?;拘驼Z言處理方法的最大優(yōu)勢是模型簡單,簡單的模型往往更容易訓練和改進優(yōu)化,因此以基礎(chǔ)型語言處理方法作為底層,發(fā)展出了大量的新方法,這其中就包括有進階型語言處理方法和專有型語言處理方法。

        進階型語言處理方法是從先進的自然語言處理領(lǐng)域引入或者在基礎(chǔ)型語言處理方法的基礎(chǔ)上發(fā)展而來,因此在某些關(guān)鍵性能方面相比于基礎(chǔ)型語言處理方法具有先天優(yōu)勢,能夠獲得更好的語言識別效果。但進階型語言處理方法的模型一般較大,訓練過程更長,同時在進行端側(cè)部署時難度也更大。

        專有型語言處理方法是針對視覺問答模型特別開發(fā)的語言處理方法,其思想來源于基礎(chǔ)型語言處理方法和自然語言處理領(lǐng)域,原則上與視覺問答模型的切合度更高,融合性更好。但該方法的設計難度較大,且很多時候需要配合特定的訓練數(shù)據(jù)集使用,適用范圍受限;此外,專有型語言處理方法往往僅針對特定視覺問答模型效果較好,當遷移到其他模型上時會出現(xiàn)性能大幅度下降的問題?;谏鲜鰞煞矫嬖?,專有型語言處理方法的發(fā)展較為緩慢。

        三類方法中,基礎(chǔ)型語言處理方法目前依然被廣泛使用,其原因在于視覺問答研究人員普遍將精力放在多模態(tài)融合上,而很少關(guān)注基礎(chǔ)的語言和視覺處理方法,所以針對語言和視覺處理方法往往直接引入現(xiàn)成的算法模型進行使用,所以,基礎(chǔ)型語言處理方法適合于僅關(guān)注多模態(tài)融合及其他非語言處理方向的研究工作。進階型語言處理方法模型相對比較復雜,性能也更加優(yōu)異,且具有一定的優(yōu)化改造空間,因此特別適合于實驗設備性能較好,且有意通過改進語言處理方法來提升視覺問答性能的研究人員,同時,針對企業(yè)級用戶,進階型語言處理方法是更好的選擇。專有型語言處理方法適合于專門研究語言處理方法與視覺問答關(guān)系的相關(guān)研究人員,這類研究需要較好的自然語言處理知識和多模態(tài)融合知識,但整體而言,這類算法的價值相對較小。

        盡管本文將語言處理方法分為了三種類型,但不可否認的是自然語言處理領(lǐng)域的發(fā)展為語言處理方法的推陳出新提供了巨大幫助。正如基礎(chǔ)型語言處理方法本身脫胎于自然語言處理,進階型語言處理方法源自于先進的自然語言處理或者以自然語言處理為基礎(chǔ)而進行的改進優(yōu)化,即使是專有型語言處理方法,其創(chuàng)新的靈感往往也離不開自然語言處理,因此,可以毫不夸張的講,自然語言處理是視覺問答語言處理方法的基礎(chǔ);而從另一個角度來看,視覺問答中語言處理方法面臨的困境,同樣也是在向自然語言處理領(lǐng)域提出的挑戰(zhàn),這種挑戰(zhàn)可以促進自然語言處理向著更有性能和更加完善的方向發(fā)展。

        4 未來研究方向展望

        4.1 基礎(chǔ)型語言處理方法的更新迭代

        基礎(chǔ)型語言處理方法會長期占據(jù)主導地位,但這并不意味著本文中所述的基礎(chǔ)型詞嵌入和詞表達方法會一直存在并始終占據(jù)主導地位。未來,隨著自然語言處理的持續(xù)發(fā)展,會有新的、性能更加優(yōu)異的算法提出,并被引入到視覺問答的語言處理過程中,在此過程中,基礎(chǔ)型語言處理方法將會被目前的進階型語言處理方法及其變體替代,基礎(chǔ)型語言處理方法將會是一個迭代更新的過程。既然如此,目前眾多的進階型語言處理方法中哪一種會成為未來的基礎(chǔ)型語言處理方法,這是非常值得探討并研究的工作。

        4.2 詞嵌入方法的研究

        正如文中所述,視覺問答中的語言處理方法包括了詞嵌入方法和詞表達方法,而通過對第2章研究現(xiàn)狀的分析發(fā)現(xiàn),從基礎(chǔ)型到進階型語言處理方法,再到專有型語言處理方法,多數(shù)情況下發(fā)展的都是詞表達方法,而詞嵌入方法基本上一直沿用固定幾類,這幾類詞嵌入方法即使是最新的,提出時間也已經(jīng)有近十年。詞嵌入方法直接關(guān)系著語言處理模型的規(guī)模,未來如果想要將模型進行無損壓縮,詞嵌入方法的發(fā)展必然是一個非常重要的研究方向。

        4.3 端到端的視覺問答

        目前的視覺問答系統(tǒng)都是由視覺處理、語言處理和多模態(tài)融合等幾個關(guān)鍵部分組成,因此需要對應的圖像處理方法和語言處理方法,而不同的處理方法在處理模態(tài)數(shù)據(jù)并進行理解的過程中,總會產(chǎn)生偏差,甚至出現(xiàn)偏置,正如某些論文中提到的即使沒有輸入圖像,僅僅給出問題,系統(tǒng)有時也能夠得到正確答案。為此,研究端到端的視覺問答系統(tǒng),將圖像處理和語言處理部分直接取消,也許是另一個值得研究的內(nèi)容。但同時值得注意的是,這種針對某種模式的徹底改變,難度和可行性是首先需要評估和研究的。

        5 結(jié)語

        語言處理方法在視覺問答中起著溝通、引導圖像內(nèi)容和最終答案的作用,基于語言處理方法的問題解析對于最終答案的正確與否意義重大。本文首先分析并指出了語言處理方法對于視覺問答的價值和重要性;進一步的,對于目前廣泛使用的語言處理方法進行了系統(tǒng)性闡述,并根據(jù)其先進性和構(gòu)成要素將其分為三類,分別是基礎(chǔ)型語言處理方法、進階型語言處理方法和專有型語言處理方法,同時對每一類語言處理方法的研究現(xiàn)狀進行了調(diào)研和分析;最后對于三類方法各自的特點和選用依據(jù)進行了闡述,為后續(xù)研究人員開展視覺問答語言處理方法研究奠定了基礎(chǔ)。

        猜你喜歡
        表達方法進階模態(tài)
        如果藝術(shù)有一萬種表達方法
        傳祺GM6:家用MPV新進階
        汽車觀察(2019年2期)2019-03-15 06:01:02
        領(lǐng)克進階
        汽車觀察(2018年12期)2018-12-26 01:05:32
        2018車企進階十字訣
        汽車觀察(2018年12期)2018-12-26 01:05:24
        進階中的北汽新能源
        能源(2018年8期)2018-09-21 07:57:30
        英語中序數(shù)詞的表達方法
        國內(nèi)多模態(tài)教學研究回顧與展望
        基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識別
        人腸系膜血管平滑肌細胞BKCa 通道在HEK293 細胞上的表達方法研究
        由單個模態(tài)構(gòu)造對稱簡支梁的抗彎剛度
        計算物理(2014年2期)2014-03-11 17:01:39
        99精品国产在热久久| 亚洲岛国一区二区三区| 一二三四五区av蜜桃| 亚洲欧美日韩国产精品一区二区 | 亚洲中文字幕在线第六区| 亚洲av无码乱码精品国产| 情侣黄网站免费看| 国产成人免费一区二区三区| 蜜臀精品一区二区三区| 国产性自爱拍偷在在线播放| 久热这里只有精品视频6| 粉嫩极品国产在线观看| 久久综合加勒比东京热| 国产在线无码精品无码| 国产精品无码a∨精品影院| 免费高清日本中文| 亚洲五月天中文字幕第一页| 国产午夜福利片在线观看| 天天摸日日摸狠狠添| 色综合色综合久久综合频道| 女优av性天堂网男人天堂| 免费欧洲毛片a级视频老妇女 | 果冻蜜桃传媒在线观看| 精品国产中文字幕久久久| 日韩中文字幕免费视频| 99久久免费国产精品2017| 成人短篇在线视频夫妻刺激自拍 | 中文字幕久无码免费久久| 美女高潮流白浆视频在线观看| 一区二区三区在线日本视频| 欧美熟妇另类久久久久久不卡| 欧美日韩中文国产一区| 一本色道久久综合中文字幕| 国产av天堂亚洲av刚刚碰| 国产女主播精品大秀系列| 亚洲aⅴ无码国精品中文字慕| 成人亚洲av网站在线看| 国产亚洲精品美女久久久m | 天天狠天天透天干天天| 国产一区二区三区在线av| 日本丰满熟妇videossexhd|