亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于語境輔助轉(zhuǎn)換器的圖像標(biāo)題生成算法

        2023-09-27 23:33:52李海昌胡曉惠
        自動化學(xué)報 2023年9期
        關(guān)鍵詞:解碼器交叉注意力

        連 政 王 瑞 李海昌 姚 輝 胡曉惠

        圖像標(biāo)題生成(Image captioning)是一項跨越計算機視覺與自然語言處理領(lǐng)域的多模態(tài)生成式任務(wù)[1-5],其主要目標(biāo)是自動為圖像生成準(zhǔn)確的描述性語句.這要求計算機不僅要充分理解圖像中的對象以及它們之間的關(guān)系,還要通過流暢的自然語言表達出圖像的內(nèi)容.圖像標(biāo)題生成技術(shù)具有廣泛的應(yīng)用價值.在學(xué)術(shù)研究當(dāng)中,它可以推動圖文檢索、視覺問答等多模態(tài)領(lǐng)域技術(shù)的發(fā)展.在實際生活當(dāng)中,這項技術(shù)在幼兒的早期教育和視障人群輔助設(shè)備的設(shè)計方面發(fā)揮著重要作用.

        受神經(jīng)機器翻譯領(lǐng)域研究的啟發(fā),早期的基于深度神經(jīng)網(wǎng)絡(luò)的圖像標(biāo)題生成算法[6]采用了經(jīng)典的編碼器-解碼器 (Encoder-decoder)框架,它將卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural network,CNN)作為編碼器,提取圖像的全局特征,再使用循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent neural network,RNN)作為解碼器對圖像特征進行解碼,生成圖像標(biāo)題.盡管經(jīng)典的編碼器-解碼器框架在圖像標(biāo)題生成領(lǐng)域取得了巨大的成功,但是兩個固有的缺陷嚴重限制了該框架的序列解碼能力: 1)圖像的全局信息在初始時刻被一次性地輸入到解碼器當(dāng)中,而解碼器缺少特征篩選的關(guān)鍵模塊,難以捕捉預(yù)測單詞時所需的相關(guān)視覺特征;2)在整個序列預(yù)測的過程中,作為解碼器的循環(huán)神經(jīng)網(wǎng)絡(luò)會不斷丟失一些重要的視覺信息,從而導(dǎo)致語言模型在預(yù)測后期逐漸缺少了視覺信息的指導(dǎo),產(chǎn)生明顯的誤差累積,降低圖像標(biāo)題的生成質(zhì)量.

        為了解決上述問題,注意力機制(Attention mechanism)被引入到圖像標(biāo)題生成算法當(dāng)中.注意力機制拓展了經(jīng)典的編碼器-解碼器框架,它允許解碼器在圖像標(biāo)題生成的不同時刻關(guān)注到與當(dāng)前語義查詢最為相關(guān)的圖像信息.具體來講,基于注意力機制的圖像標(biāo)題生成算法不再只是使用圖像的全局特征,而是首先通過CNN 提取圖像的局部區(qū)域特征,再使用基于長短期記憶(Long short-term memory,LSTM)網(wǎng)絡(luò)的解碼器對圖像特征進行解碼.在每一個解碼時刻,注意力模塊會將LSTM 提供的隱藏狀態(tài)作為語義查詢,為圖像的各個區(qū)域分配不同的注意力權(quán)重,再通過對各部分圖像特征進行加權(quán)求和,得到當(dāng)前時刻的注意力語境特征,進而指導(dǎo)語言模型生成圖像標(biāo)題.近年來,轉(zhuǎn)換器(Transformer)[7]在自然語言處理領(lǐng)域得到了廣泛的應(yīng)用,它通過多頭注意力 (Multi-head attention)機制在多個語義空間中建模查詢與鍵值對之間的關(guān)系.在圖像標(biāo)題生成領(lǐng)域,Transformer 首先依靠自注意力(Self-attention)機制實現(xiàn)圖像局部信息的融合,然后通過解碼器中的交叉注意力模塊向語言模型中引入融合后的視覺特征,實現(xiàn)不同模態(tài)的特征交互.

        在當(dāng)前主流的圖像標(biāo)題生成算法中,交叉注意力機制在建模語義查詢與圖像區(qū)域之間的關(guān)系方面,發(fā)揮著關(guān)鍵性的作用.然而,大多數(shù)現(xiàn)有的基于注意力機制的算法都忽視了視覺連貫性的潛在影響.事實上,我們?nèi)祟愅鶗挥勺灾鞯鼗仡櫹惹瓣P(guān)注過的信息,以便在當(dāng)前時刻做出更加合理的注意力決策.遺憾的是,傳統(tǒng)的交叉注意力機制無法實現(xiàn)這個意圖.為了彌補這項缺陷,本文提出了一種新穎的語境輔助的交叉注意力(Context-assisted cross attention,CACA)機制.具體來講,在每一個解碼時刻,CACA 模塊會首先根據(jù)當(dāng)前輸入的語義查詢,利用交叉注意力模塊從圖像特征中提取出與當(dāng)前查詢最為相關(guān)的臨時語境特征,并將其保存在歷史語境記憶(Historical context memory,HCM)中,然后將HCM 中全部的歷史語境特征與圖像的局部特征相拼接,作為鍵值對,再次輸入交叉注意力模塊,獲取當(dāng)前時刻最終的注意力語境特征.同時,為了限制每個CACA 模塊分配給歷史語境的權(quán)重總和,本文提出了一種名為“自適應(yīng)權(quán)重約束(Adaptive weight constraint,AWC)”的正則化方法,從優(yōu)化注意力權(quán)重分布的角度提升模型的泛化性能.本文將CACA 模塊與AWC 方法同時集成在轉(zhuǎn)換器(Transformer)模型上,構(gòu)建了語境輔助的轉(zhuǎn)換器(Context-assisted transformer,CAT)模型.盡管Transformer 模型可以通過自注意力層在一定程度上建模歷史語義信息,然而,從信息論的角度來講,根據(jù)數(shù)據(jù)處理不等式[8]可知,輸入模型的特征向量在神經(jīng)網(wǎng)絡(luò)逐層的特征處理與消息傳遞過程中,勢必會丟失一部分關(guān)鍵信息,這將導(dǎo)致交叉注意力模塊在某一時刻建模的語義信息無法完整地傳遞到后續(xù)解碼過程中并得到充分利用.為此,CAT 模型采用語境輔助的交叉注意力機制,通過歷史語境記憶保存了歷史時刻中完整的交叉注意力語義特征,充分利用序列預(yù)測過程中視覺信息的連貫性,為解碼過程提供更加豐富可靠的語境信息.本文在流行的MS COCO (Microsoft common objects in context)數(shù)據(jù)集[9]上,以多個基于Transformer 的圖像標(biāo)題生成算法作為基線模型,通過向解碼器中引入CACA 模塊與AWC 方法,對所提算法進行了評價.實驗結(jié)果表明,與眾多先進的基線模型相比,本文提出的方法在它們的基礎(chǔ)上均實現(xiàn)了穩(wěn)定的提升.

        本文的后續(xù)內(nèi)容安排如下: 第1 節(jié)主要介紹圖像標(biāo)題生成領(lǐng)域的相關(guān)工作;第2 節(jié)詳細介紹本文提出的方法;第3 節(jié)通過大量的對比實驗從眾多角度對本文方法進行分析;第4 節(jié)總結(jié)本文的研究成果,并提出下一步的工作設(shè)想.

        1 圖像標(biāo)題生成算法綜述

        迄今絕大多數(shù)的圖像標(biāo)題生成模型都采用了經(jīng)典的編碼器-解碼器框架.該框架最早被提出并應(yīng)用于神經(jīng)機器翻譯領(lǐng)域,取得了顯著的成就.編碼器-解碼器框架的成功應(yīng)用極大地促進了序列到序列(Sequence-to-sequence)任務(wù)的發(fā)展.在早期的圖像標(biāo)題生成模型[6]中,該框架首先利用CNN提取圖像的視覺表征,再使用RNN 解碼圖像特征生成圖像標(biāo)題.在編碼器-解碼器框架下,圖像標(biāo)題生成領(lǐng)域涌現(xiàn)出一大批出色的解決方案[10-12],這些方法主要從編碼器和解碼器的組成結(jié)構(gòu)上對圖像標(biāo)題生成模型進行了探索和改進,然而,由于在解碼器中缺少特征選擇的關(guān)鍵模塊,經(jīng)典的編碼器-解碼器框架在序列預(yù)測能力上受到了很大的限制.

        注意力機制是編碼器-解碼器框架的重要拓展,它允許解碼器在序列生成的每個時刻選擇性地關(guān)注與當(dāng)前查詢最為相關(guān)的特征.受到人類直覺與神經(jīng)機器翻譯領(lǐng)域研究的啟發(fā),Xu 等[13]首次嘗試將視覺注意力機制引入圖像標(biāo)題生成模型中,以便在生成描述時動態(tài)關(guān)注圖像的顯著區(qū)域.隨后,You 等[14]通過一種語義注意力模型,選擇性地關(guān)注編碼器提出的語義概念,并將它們與循環(huán)神經(jīng)網(wǎng)絡(luò)的隱藏狀態(tài)相結(jié)合.該模型中的選擇與融合形成了一個反饋,連接了自頂而下和自底而上兩種不同的計算方式.Lu 等[15]提出了一種帶有視覺哨兵的自適應(yīng)注意力模型,該模型可以決定是否關(guān)注視覺特征.Anderson 等[16]介紹了一種組合的自底向上和自頂向下的注意力機制,其中,自底向上的注意力利用Faster R-CNN 提取對象級別的圖像特征,而自頂向下的注意力負責(zé)預(yù)測視覺特征上的權(quán)重分布.Chen 等[17]在文獻中提出了一種增強的注意力機制,它將基于刺激的注意力與自頂而下的注意力相結(jié)合,為圖像的顯著區(qū)域提供可靠的先驗知識.Huang 等[18]設(shè)計了一種“注意力上的注意力”模塊,來確定注意力結(jié)果和查詢之間的相關(guān)性.Pan 等[19]提出了一種X-線性注意力模塊,來模擬多模態(tài)輸入的二階相互作用.最近,Yang 等[20]提出了一種因果注意力機制,來處理視覺-語言任務(wù).因果注意力從前門調(diào)整策略出發(fā),提出了樣本內(nèi)注意力機制和交叉樣本注意力機制.其中,樣本內(nèi)注意力機制采用了經(jīng)典的注意力網(wǎng)絡(luò),來捕獲語義查詢與當(dāng)前樣本中圖像特征的關(guān)系,而交叉樣本注意力機制負責(zé)在整個數(shù)據(jù)集的圖像樣本聚類后,捕獲語義查詢與各個質(zhì)心特征之間的關(guān)系.王鑫等[21]設(shè)計了一種顯著性特征提取機制,為語言模型提供最有價值的視覺特征,指導(dǎo)單詞的預(yù)測.

        近年來,Transformer[7]在圖像標(biāo)題生成領(lǐng)域得到了廣泛的應(yīng)用.Transformer 由堆疊的編碼器層和解碼器層組成,每一個編碼器層包括一個自注意力模塊和一個前饋模塊,每一個解碼器層包括一個掩碼自注意力模塊、一個交叉注意力模塊和一個前饋模塊.Herdade 等[22]在標(biāo)準(zhǔn)Transformer 模型的基礎(chǔ)上,對識別出的對象設(shè)計了一種幾何注意力機制,使得模型能夠在編碼圖像的過程中考慮到對象在空間上的相對信息.Li 等[23]沿用了Transformer架構(gòu),在編碼階段使用了兩個獨立的Transformer編碼器分別編碼視覺信息和語義信息,在解碼器部分設(shè)計了一種糾纏注意力機制,來彌補傳統(tǒng)注意力在兩類模態(tài)特征之間缺乏的互補性.此外,Yu 等[24]對Transformer 進行了拓展,提出了一種多模態(tài)Transformer 模型,該模型利用一種統(tǒng)一的注意力塊同時捕獲模態(tài)內(nèi)與模態(tài)間的特征交互.之后,Cornia 等[25]提出了一種完全基于注意力機制的圖像標(biāo)題生成模型,該模型首先通過記憶增強的編碼器學(xué)習(xí)圖像區(qū)域之間關(guān)系的多級表示,整合從圖像數(shù)據(jù)中學(xué)到的先驗知識,保存在記憶向量當(dāng)中,然后在解碼階段采用網(wǎng)狀解碼器同時利用底層和高層的視覺特征生成高質(zhì)量的圖像標(biāo)題.Zhang 等[26]提出了網(wǎng)格增強模塊與適應(yīng)性注意力模塊,并將二者嵌入到Transformer 中構(gòu)成RSTNet.其中,網(wǎng)格增強模塊通過融合圖像網(wǎng)格間的相對幾何特征增強模型的視覺表征能力,適應(yīng)性注意力模塊在解碼器做出單詞預(yù)測的決策之前自適應(yīng)地度量視覺和語言線索的貢獻.Luo 等[27]提出了一種雙層協(xié)同Transformer 網(wǎng)絡(luò),充分利用了圖像區(qū)域特征與網(wǎng)格特征之間的互補性.最近,Zeng 等[28]提出了空間與尺度感知的Transformer,它首先采用一個空間感知偽監(jiān)督模塊,利用特征聚類幫助模型保存網(wǎng)格特征的空間信息,然后通過一個簡單的加權(quán)殘差連接,同時探索具有豐富語義的低級和高級編碼特征.Wu等[29]在Transformer 解碼框架的基礎(chǔ)上提出了一種雙信息流網(wǎng)絡(luò),它將全景分割特征作為網(wǎng)格特征之外的另一個視覺信息源,來增強視覺信息對標(biāo)題序列預(yù)測的貢獻.

        盡管交叉注意力機制在建模語義查詢與圖像區(qū)域之間的關(guān)系方面發(fā)揮了重要的作用,極大地提升了編碼器-解碼器框架在圖像標(biāo)題生成任務(wù)上的性能,但是,其視覺連貫性對注意力語境生成的潛在影響尚未得到深入研究.當(dāng)前大多數(shù)基于注意力的圖像標(biāo)題生成算法都忽略了歷史語境對產(chǎn)生當(dāng)前注意力分布的影響.截至目前,只有少數(shù)研究在注意力機制的視覺連貫性方面進行了探索.Qin 等[10]提出了回顧算法,將上一時刻的注意力語境引入當(dāng)前時刻的語義查詢,以適應(yīng)人類的視覺連貫性.Lian等[30]使用注意力LSTM 擴展了傳統(tǒng)的時序注意力機制,以捕獲之前時間步中產(chǎn)生的注意力權(quán)重分布特征.盡管上述兩種解決方案充分考慮了注意力語境的歷史信息,有效地提升了圖像標(biāo)題生成模型的性能,然而,它們僅考慮了基于LSTM 的解碼框架,尚未在流行的Transformer 模型上實現(xiàn)進一步的探索.本文在交叉注意力模塊的設(shè)計上聚焦于Transformer 解碼框架,充分考慮了Transformer 在訓(xùn)練階段的并行解碼優(yōu)勢,在不向注意力網(wǎng)絡(luò)中添加額外的可訓(xùn)練參數(shù)的條件下,引入視覺連貫性,顯著提升了基線模型的性能.值得一提的是,本文提出的CACA 模塊不僅可以擴展Transformer 模型,還同樣適用于基于LSTM 的解碼框架.

        2 基于語境輔助轉(zhuǎn)換器的圖像標(biāo)題生成模型

        為了更加清晰地闡述模型的細節(jié),本節(jié)首先回顧了經(jīng)典的多頭注意力機制,其次基于Transformer解碼器結(jié)構(gòu)介紹了語境輔助的交叉注意力機制,以及其輕量級的網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計,然后介紹了基于語境輔助轉(zhuǎn)換器的圖像標(biāo)題生成模型的整體框架,最后提出了結(jié)合自適應(yīng)權(quán)重約束的模型優(yōu)化方法.

        2.1 多頭注意力機制

        多頭注意力機制fmhatt(Q,K,V)集成了多個并行的縮放點積注意力(Scaled dot-product attention)層,以捕獲不同特征子空間中與當(dāng)前查詢相關(guān)的語義信息.具體而言,它首先利用h組不同的線性轉(zhuǎn)換層對輸入的查詢Q,鍵K和值V進行投影,再利用縮放點積注意力網(wǎng)絡(luò)fdpatt(Q,K,V)對每一組投影后的特征進行建模,提取第i個子空間中的相關(guān)語義特征headi,最后,將這h組從特征子空間中提取到的語境向量拼接在一起,通過另一個可學(xué)習(xí)的線性轉(zhuǎn)換層進行投影,得到最終的多頭注意力語境特征.在此,本文假設(shè)Q,K,V的特征維度分別為dq,dk,dv.如圖1 所示,多頭注意力機制可由如下公式表達:

        圖1 多頭注意力機制的結(jié)構(gòu)Fig.1 The structure of multi-head attention mechanism

        2.2 語境輔助的交叉注意力機制

        在圖像標(biāo)題生成領(lǐng)域,交叉注意力模塊的查詢向量依賴于輸入的文本特征,而鍵值對往往采用固定不變的圖像區(qū)域特征.因此,傳統(tǒng)的交叉注意力機制無法捕獲先前時刻被關(guān)注過的語境特征,缺乏視覺信息的連貫性.針對這一問題,本文面向Transformer 解碼框架提出了一種語境輔助的交叉注意力CACA 機制.如圖2(a)所示,CACA 拓展了傳統(tǒng)的交叉注意力機制,通過歷史語境記憶HCM 為每一個解碼時刻提供豐富的歷史語境特征.具體而言,在第t時刻,CACA以當(dāng)前的語義查詢與鍵值對K,作為輸入,利用交叉注意力模塊與殘差連接得到當(dāng)前時刻的臨時語境向量.需要說明的是,Transformer解碼器中的交叉注意力模塊采用的是多頭注意力機制.

        圖2 語境輔助的交叉注意力機制與其輕量級的模型結(jié)構(gòu)Fig.2 Context-assisted cross attention mechanism and its light model structure

        值得一提的是,CACA 中兩次使用的層歸一化和多頭交叉注意力機制分別共享相同的模型參數(shù).綜上所述,相較于Transformer 解碼器中傳統(tǒng)的交叉注意力模塊,CACA 在不添加任何參數(shù)的條件下,引入了視覺信息的連貫性,建模了每一時刻語義查詢qt與鍵值對K,V之間的關(guān)系,得到了該時刻的最終語境特征ct:

        其中,fcaca表示語境輔助的交叉注意力機制.

        2.3 輕量級語境輔助的交叉注意力機制

        語境輔助的交叉注意力機制通過歷史語境記憶模塊為每一個解碼時刻提供了完整的歷史語境特征,向注意力模塊中引入了視覺信息的連貫性.然而,兩次使用交叉注意力機制大幅提高了模型推理的時間成本,降低了模型的解碼效率.因此,本文提出了一種輕量級的語境輔助的交叉注意力(Light context-assisted cross attention,LightCACA)模型,在保證視覺連貫性的前提下,以犧牲部分歷史語境信息為代價,換取與傳統(tǒng)的交叉注意力機制接近的解碼效率.

        如圖2(b)所示,LightCACA 首先將當(dāng)前時刻的查詢向量qt加入到歷史語境記憶當(dāng)中,構(gòu)建當(dāng)前完整的歷史語境特征:

        隨后,鍵值對K,V和完整歷史語境特征在空間維度上拼接,供交叉注意力模塊提取當(dāng)前時刻的語境特征:

        輕量級語境輔助的交叉注意力機制與其標(biāo)準(zhǔn)模型的主要區(qū)別在于歷史語境信息的不同.在Transformer 解碼器的層級結(jié)構(gòu)下,CACA 的歷史語境信息由當(dāng)前層的交叉注意力模塊產(chǎn)生,HCM 存儲的是當(dāng)前層在每一時刻產(chǎn)生的臨時語境特征,而Light-CACA 的歷史語境信息直接來源于當(dāng)前層掩碼自注意力模塊的輸出,間接來源于上一層LightCACA產(chǎn)生的語境特征.值得注意的是,最底層Light-CACA 模塊中HCM 存儲的歷史語境信息來自解碼器輸入的文本序列特征.

        2.4 語境輔助的轉(zhuǎn)換器

        圖3 展示了基于語境輔助轉(zhuǎn)換器(Context-assisted transformer,CAT)的圖像標(biāo)題生成算法框架.該框架主要包括三個部分: 提取圖像對象級特征的Faster R-CNN,優(yōu)化圖像特征的Transformer 編碼器,以及基于語境輔助的交叉注意力機制的Transformer 解碼器.

        圖3 基于語境輔助轉(zhuǎn)換器的圖像標(biāo)題生成模型Fig.3 Context-assisted transformer for image captioning

        給定一幅圖像I,CAT 首先使用預(yù)訓(xùn)練好的Faster R-CNN 從圖像中提取出一組對象級別的視覺特征V={v1,v2,···,vm},其中,vi∈Rdv,m為從圖像中提取到對象的數(shù)量.需要說明的是,在整個模型訓(xùn)練的過程中,Faster R-CNN 的參數(shù)固定.

        其中,fenc表示Faster R-CNN 特征提取模塊.

        隨后,視覺特征V將被輸入Transformer 編碼器進行優(yōu)化,建立不同對象特征之間的語義關(guān)系.值得一提的是,本文認為不同對象之間不存在明顯的位置順序,所以并未給視覺特征添加位置編碼信息.除此之外,本文方法與傳統(tǒng)Transformer 編碼器的算法流程一致.第n層Transformer 編碼器的操作可總結(jié)如下:

        其中,第一層Transformer 編碼器的輸入向量V1=V.在此,假設(shè)Transformer 編碼器共N層,則其優(yōu)化后的視覺特征可由如下操作得到:

        本文假設(shè)CAT 解碼器的層數(shù)與編碼器層數(shù)相同,在第t時刻,解碼器生成單詞wt的過程可由如下公式表示:

        輕量級語境輔助的轉(zhuǎn)換器(Light context-assisted transformer,LightCAT)在模型設(shè)計的思路上與CAT 完全相同,區(qū)別僅在于使用LightCACA替換了CAT 中的CACA 模塊.

        2.5 模型優(yōu)化

        其中,βn,h是一個可學(xué)習(xí)的參數(shù),?用于防止訓(xùn)練過程中的梯度爆炸.本文設(shè)置?為1×10-8.

        其中,γ是兩項損失的平衡因子,H是多頭注意力模塊的頭部數(shù)量,本文依據(jù)經(jīng)驗將其設(shè)置為0.5,N為(Light)CAT 解碼器的層數(shù).

        隨后,本文在強化學(xué)習(xí)階段采用自我批判序列訓(xùn)練(Self-critical sequence training,SCST)算法[31]直接優(yōu)化了不可微分的評價指標(biāo):

        其中,w1:l是生成的圖像標(biāo)題,本文中的獎勵r(·)采用了流行的CIDEr-D[32]分數(shù).

        3 實驗與分析

        3.1 數(shù)據(jù)集與評價標(biāo)準(zhǔn)

        本文在MS COCO (Microsoft common objects in context)數(shù)據(jù)集[9]上評估了(Light)CAT 的性能.該數(shù)據(jù)集共包含123287 幅圖像,每幅圖像由不同的AMT (Amazon mechanical turk)工作人員用至少5 條標(biāo)題進行標(biāo)注.為了與其他先進的基線方法進行公平的比較,本文采用了“Karpathy”分割[33]進行離線評估,其中,113287 幅圖像用于訓(xùn)練,5000 幅用于驗證,另外5000 幅用于測試.本文使用的評價方法包括BLEU[34],METEOR[35],ROUGE-L[36],CIDEr-D[32],以及SPICE[37].

        3.2 實現(xiàn)細節(jié)

        本文采用在視覺基因組(Visual genome)數(shù)據(jù)集[38]上預(yù)訓(xùn)練好的Faster R-CNN 作為圖像特征提取器,該編碼器為每一幅圖像檢測出10~100 個不同區(qū)域,每個區(qū)域特征向量的維數(shù)為2048,隨后將它們投影到512 維后輸入到Transformer 編碼器當(dāng)中進行特征優(yōu)化.對于Transformer 編碼器與(Light)CAT 解碼器而言,本文參照了之前的研究工作[25],將二者的層數(shù)設(shè)定為3,多頭注意力機制的頭數(shù)為8,每個模塊輸出的向量維度為512,每一個注意力網(wǎng)絡(luò)和前向網(wǎng)絡(luò)都采用了Dropout 方法,丟失率為0.1.在訓(xùn)練過程中,本文首先采用聯(lián)合優(yōu)化交叉熵損失和自適應(yīng)權(quán)重約束損失的方式訓(xùn)練模型,其中包括了10000 次熱身(Warm-up)訓(xùn)練.之后,在優(yōu)化CIDEr-D 分數(shù)時,本文采用了固定的學(xué)習(xí)率5×10-6,當(dāng)CIDEr-D 分數(shù)在連續(xù)五輪訓(xùn)練中均未出現(xiàn)提升時,終止訓(xùn)練過程.在兩個訓(xùn)練階段,本文都將批量大小設(shè)置為50,集束搜索的大小設(shè)置為5.

        3.3 語境輔助交叉注意力機制的性能分析

        為了驗證語境輔助的交叉注意力機制在Transformer 解碼框架中的有效性和通用性,本文采用Transformer,M2Transformer[25],DLCT[27],S2Transformer[28],DIFNet[29]作為基線模型,在MS COCO 數(shù)據(jù)集上設(shè)計了5 組對比實驗.每一組實驗均使用CACA 模塊與LightCACA 模塊替換了基線模型中的傳統(tǒng)的交叉注意力機制,除(Light)CACA模塊外,改進模型與原模型在結(jié)構(gòu)上完全一致.同時,改進模型在訓(xùn)練過程中加入了自適應(yīng)權(quán)重約束,來尋求一個更具泛化性的交叉注意力權(quán)重分布.如表1 所示,采用(Light)CACA 模塊改進后的模型在絕大多數(shù)評價指標(biāo)中都超越了基線模型的性能.值得一提的是,在與當(dāng)前最先進的S2Transformer和DIFNet 模型的比較中,采用標(biāo)準(zhǔn)CACA 模塊的改進模型實現(xiàn)了對基線方法的全面超越,在BLEU與CIDEr-D 分數(shù)上均取得了明顯的提升.同時,標(biāo)準(zhǔn)CACA 模塊給模型帶來的性能提升比Light-CACA 模塊更加明顯.舉例而言,以Transformer為基線模型,LightCAT 模型在BLEU-4 和CIDEr-D 分數(shù)上較Transformer 分別提升了1.1%和1.0%,而CAT 模型帶來的提升為2.4%和2.5%.該結(jié)果從定量分析的角度有力地證明了當(dāng)前層交叉注意力語境特征對解碼過程的實用價值.

        表1 基于Transformer 的圖像標(biāo)題生成模型結(jié)合(輕量級)語境輔助的交叉注意力機制在MS COCO 數(shù)據(jù)集上的性能表現(xiàn) (%)Table 1 Performance of Transformer-based image captioning models combined with(Light)CACA on MS COCO dataset (%)

        正如上文所提到的,本文設(shè)計的CACA 模塊與自適應(yīng)權(quán)重約束同樣適用于基于LSTM 的解碼框架.在此,本文以Att2in[31],BUTD[16],LB[10]作為基線模型,在MS COCO 數(shù)據(jù)集上設(shè)計了3 組對比實驗.由于這些基線模型的解碼器中只存在一個交叉注意力模塊,所以自適應(yīng)權(quán)重約束中的參數(shù)N=1.表2 是上述三種基于LSTM 的圖像標(biāo)題生成模型結(jié)合CACA 模塊后在MS COCO 數(shù)據(jù)集上的性能表現(xiàn).實驗結(jié)果表明,本文提出的CACA 模塊不僅適用于Transformer 解碼框架,還可以大幅提升LSTM 解碼模型的性能.

        表2 基于LSTM 的圖像標(biāo)題生成模型結(jié)合語境輔助的交叉注意力機制在MS COCO 數(shù)據(jù)集上的性能表現(xiàn) (%)Table 2 Performance of LSTM-based image captioning models combined with CACA on MS COCO dataset (%)

        為了分析語境輔助的交叉注意力機制對模型推理效率的影響,本文從MS COCO 測試集中隨機選出了1000 幅圖像,分別使用Transformer,CAT和LightCAT 模型生成圖像標(biāo)題.具體而言,每一輪解碼過程的輸入為50 幅圖像,集束搜索算法的束大小為5.本組實驗在單塊NVIDIA TITAN XP GPU 環(huán)境下進行,CUDA 版本為10.1.表3 記錄了3 種模型對每一輪輸入圖像的平均解碼時間.盡管語境輔助的交叉注意力機制大幅提高了圖像標(biāo)題的質(zhì)量,但由于兩次使用交叉注意力模塊,不可避免地導(dǎo)致了解碼效率的下降,在貪心和集束搜索算法下,使模型的解碼時間分別上升29.8%和35.5%.對于輕量級的語境輔助的交叉注意力機制而言,其模型結(jié)構(gòu)與傳統(tǒng)的交叉注意力模塊相似,僅通過擴充數(shù)據(jù)信息的方式引入視覺連貫性,所以,Light-CACA 可以在保證解碼效率的同時提升模型的性能.雖然CACA 模塊的結(jié)構(gòu)較為復(fù)雜,需要更長的解碼時間,但總體來講,它為模型帶來的性能提升更加明顯,且解碼效率仍在可接受的范圍之內(nèi),所以,本文中的大部分實驗均以CACA 模塊為代表,體現(xiàn)本文算法的優(yōu)勢.

        表3 語境輔助的交叉注意力機制對Transformer 推理效率的影響(ms)Table 3 The effect of context-assisted cross attention mechanism on Transformer's reasoning efficiency (ms)

        3.4 語境輔助轉(zhuǎn)換器與先進基線方法的比較

        本文將基于不同基線模型的語境輔助轉(zhuǎn)換器與當(dāng)前先進的基線方法在MS COCO 數(shù)據(jù)集上進行了比較.這些基線方法包括: 1)Att2in 與Att2all[31],使用視覺注意力機制,并采用不可微分的評價指標(biāo)對模型進行優(yōu)化;2)BUTD[16],使用Faster RCNN 提取圖像特征,再采用自頂向下的解碼器對視覺特征進行解碼;3)AoANet[18],使用注意力門從被關(guān)注的語境特征中篩選與語義查詢切實相關(guān)的知識;4)M2Transformer[25],通過網(wǎng)狀連接的編解碼框架充分利用低層與高層的視覺特征;5)X-LAN與X-Transformer[19],使用空間與管道雙線性注意力機制來建模不同模態(tài)間的二階相互作用;6)DLCT[27],通過圖像區(qū)域特征與網(wǎng)格特征的協(xié)作互補,增強視覺信息的表達能力;7)RSTNet[26],建立了一個基于BERT 的語言模型來捕獲文本上下文信息,并通過自適應(yīng)注意力模塊來衡量視覺與文本線索的貢獻;8)CATT[20],使用前門調(diào)整策略來消除視覺-語言模型中難以捕捉的混淆效應(yīng);9)S2Transformer[28],采用空間和尺度感知的Transformer 將圖像網(wǎng)格特征高效地融入圖像標(biāo)題生成模型;10)DIFNet[29],將圖像的全景分割特征作為網(wǎng)格特征之外的另一個視覺信息源,以增強視覺信息對圖像標(biāo)題生成的貢獻;11)CIIC[39],通過后門調(diào)整策略緩解由無法觀測的混淆因素引起的虛假相關(guān)性.與當(dāng)前先進方法的對比結(jié)果如表4 所示.本文的DIFNet+CACA 模型在全部評價指標(biāo)上都取得了當(dāng)前最優(yōu)的效果,其中,在BLEU-4 和CIDEr-D 上分別達到了40.5 與136.8.

        表4 本文模型與先進方法在MS COCO 數(shù)據(jù)集上的性能對比(%)Table 4 Performance comparison between our models and the state-of-the-art (%)

        3.5 語境輔助交叉注意力機制的消融實驗

        為了更加清晰地說明語境輔助的交叉注意力機制的設(shè)計思路,分析它為基線模型帶來的性能提升,本文以經(jīng)典的Transformer 解碼框架為基礎(chǔ),使用三種不同的語境輔助策略增強解碼器中傳統(tǒng)的交叉注意力(Traditional cross attention,TCA)模塊,在MS COCO 數(shù)據(jù)集上進行了對比實驗.具體而言,不同語境輔助策略的主要區(qū)別在于歷史語境特征的引入形式不同.如圖4 所示,左側(cè)的CACA 模塊在引入歷史語境特征時,并未與視覺特征相結(jié)合,而是僅將歷史語境記憶中的特征向量作為鍵值對(Only historical contexts,OHC),通過二次使用交叉注意力模塊,提取當(dāng)前時刻的語境特征;中間的CACA 模塊將之前時刻的歷史語境特征與視覺特征相拼接,構(gòu)建交叉注意力模塊的鍵值對輸入,此處的歷史語境特征不包括當(dāng)前時刻首次使用交叉注意力模塊時產(chǎn)生的臨時語境特征(Incomplete historical contexts,IHC);右側(cè)的CACA 模塊則是本文在第2.2 節(jié)中提到的方法,它為交叉注意力模塊同時提供了完整的歷史語境特征(Complete historical contexts,CHC)與視覺信息.為公平起見,本組對比實驗中均未加入自適應(yīng)權(quán)重約束.

        圖4 傳統(tǒng)交叉注意力機制的三種語境輔助策略Fig.4 Three context-assisted strategies of traditional cross attention

        表5 列出了在Transformer 解碼框架下,傳統(tǒng)交叉注意力機制在結(jié)合三種不同語境輔助策略時的性能表現(xiàn).從實驗結(jié)果中可以看出,TCA+OHC與傳統(tǒng)方法相比,在多數(shù)評價指標(biāo)中分數(shù)均有所下降,導(dǎo)致此結(jié)果的原因是,交叉注意力模塊在生成最終語境特征時缺少了原始視覺特征的參與和指導(dǎo),同時,每一時刻歷史語境記憶能夠為注意力模塊提供的特征向量十分有限,嚴重限制了注意力模塊的選擇能力.TCA+IHC 相較于傳統(tǒng)方法,在大多數(shù)評價指標(biāo)上均有所提升,說明歷史語境特征的加入豐富了交叉注意力模塊的選擇空間,為當(dāng)前語境特征的生成提供了更加豐富且有效的信息,也從側(cè)面反映出視覺連貫性在序列預(yù)測任務(wù)當(dāng)中的重要性.TCA+CHC 是本文提出的CACA 模型,與傳統(tǒng)交叉注意力機制相比,該方法在所有的評價指標(biāo)上均取得了明顯的提升.同時,從TCA+CHC 與TCA+IHC 的性能對比中可以得出結(jié)論,臨時語境特征的加入有助于每一個CACA 模塊產(chǎn)生更高質(zhì)量的最終語境特征,進而指導(dǎo)語言模型生成更加合理的圖像標(biāo)題.

        表5 傳統(tǒng)交叉注意力機制結(jié)合不同語境輔助策略在MS COCO 數(shù)據(jù)集上的表現(xiàn)(%)Table 5 Performance of the traditional cross attention mechanism combined with different context-assisted strategies on MS COCO dataset (%)

        本文在CACA 模塊上的設(shè)計理念是,在不添加任何額外的可訓(xùn)練模型參數(shù)的條件下,通過CACA模塊引入視覺信息的連貫性,提升基線模型的性能.具體來講,在CACA 中兩次使用的交叉注意力模塊共享(Shared)相同的參數(shù).為了分析在不共享(Not shared)模型參數(shù)的條件下CACA 模塊的性能表現(xiàn),本文在MS COCO 數(shù)據(jù)集上以不同解碼器層數(shù)的CAT 模型為基礎(chǔ)進行了對比實驗.在本組實驗中,不同CAT 模型的編碼器層數(shù)固定為3 層,且在訓(xùn)練過程中同樣未加入自適應(yīng)權(quán)重約束.

        表6 展示了三組不同解碼器層數(shù)的CAT 模型在共享與不共享交叉注意力模塊參數(shù)時的性能表現(xiàn).當(dāng)解碼器層數(shù)為2 層時,從實驗結(jié)果中可以看出,無論是否共享交叉注意力模塊的參數(shù),使用CACA模塊的CAT 模型的性能在所有評價指標(biāo)上都超越了使用TCA 模塊的模型的性能.進一步對CACA模塊進行分析,與共享參數(shù)的CACA 模型相比,不共享參數(shù)的模型擁有更多的可訓(xùn)練參數(shù),且模型性能明顯優(yōu)于共享參數(shù)的模型.3 層解碼器的模型實驗反映出了相似的實驗結(jié)論,不同的是,相較于共享參數(shù)的CACA 模型,不共享參數(shù)的模型性能提升較小.同時,在4 層解碼器的模型實驗中,TCA模型的性能較3 層解碼器的TCA 模型有所降低,且CACA 模塊對基線模型的性能產(chǎn)生了負面影響.綜合表6 中的實驗結(jié)果及上述分析,本文得出了以下兩點結(jié)論: 1)當(dāng)基于TCA 的模型尚未出現(xiàn)過擬合現(xiàn)象時,共享參數(shù)的CACA 模塊能夠有效提升基線模型的性能,而不共享參數(shù)的CACA 模塊在提升模型性能的同時,由于加入了更多的參數(shù),模型可能出現(xiàn)過擬合問題;2)當(dāng)基于TCA 的模型已經(jīng)出現(xiàn)過擬合現(xiàn)象時,CACA 模塊將擴大過擬合產(chǎn)生的負面影響,尤其是不共享參數(shù)的CACA 模塊,將大幅降低圖像標(biāo)題的質(zhì)量.

        表6 不同解碼器層數(shù)的CAT 模型在共享與不共享交叉注意力模塊參數(shù)時的性能表現(xiàn)(%)Table 6 Performance of CAT models with different decoder layers when sharing or not sharing parameters of the cross attention module (%)

        3.6 自適應(yīng)權(quán)重約束的消融實驗

        本文在MS COCO 數(shù)據(jù)集上設(shè)計了一組消融實驗來解釋自適應(yīng)權(quán)重約束給CAT 模型帶來的性能提升.通過觀察AWC 損失與CE 損失的數(shù)量級,本文依據(jù)經(jīng)驗將損失權(quán)衡系數(shù)γ設(shè)置為0.5.在本組實驗中,CAT 解碼器的層數(shù)為3 層.從表7 列出的實驗結(jié)果中可以看出,當(dāng)CAT 模型采用固定值作為CACA 模塊的權(quán)重約束時,其性能表現(xiàn)隨β值的增大,先緩慢提升,在β=0.5 附近達到最優(yōu),隨后迅速下降.結(jié)合表5 中的信息,本文發(fā)現(xiàn),當(dāng)固定權(quán)重約束β=0.1 時,即在少量引入歷史語境特征的條件下,CAT 模型的性能就可在僅使用TCA 的基礎(chǔ)上實現(xiàn)大幅提升,模型的CIDEr-D 分數(shù)由126.5提升至127.8.同時,當(dāng)固定權(quán)重約束β=0.9 時,即幾乎將全部的權(quán)重都分配給歷史語境特征時,CAT模型的性能將偏向表5 中TCA+OHC 的實驗結(jié)果,過度關(guān)注歷史語境信息而忽略原始的視覺信息,導(dǎo)致圖像標(biāo)題的質(zhì)量嚴重下降.當(dāng)固定權(quán)重約束β=0.5時,模型在視覺特征與歷史語境特征上的權(quán)重分配相對平衡,一定程度上提升了CAT 模型的性能.與固定權(quán)重約束相比,自適應(yīng)權(quán)重約束更加靈活,它能夠依據(jù)數(shù)據(jù)和模型的需要,學(xué)習(xí)到一組更具泛化性的參數(shù).從實驗結(jié)果上看,自適應(yīng)權(quán)重約束為CAT 模型帶來的提升要明顯優(yōu)于固定權(quán)重約束,同時,與無權(quán)重約束的模型相比,采用AWC的CAT 模型在所有評價指標(biāo)中均超越了基線模型.

        表7 采用自適應(yīng)權(quán)重約束的CAT 模型在MS COCO 數(shù)據(jù)集上的表現(xiàn)(%)Table 7 Performance of the CAT model with adaptive weight constraint on MS COCO dataset (%)

        3.7 注意力圖的可視化分析

        為了深入闡釋歷史語境記憶的重要作用以及自適應(yīng)權(quán)重約束的有效性,本文基于一組完整的圖像標(biāo)題生成示例,對視覺特征和歷史語境記憶上的注意力分布進行了可視化分析.考慮到頂層解碼器的輸出特征與圖像標(biāo)題的生成結(jié)果直接相關(guān),本文以Transformer 模型頂層解碼器中的CACA 模塊為例展開討論.

        如圖5 所示,中間部分展示了原始圖像,以及采用AWC 優(yōu)化的CACA 模塊在每個解碼時刻分配給圖像特征的注意力權(quán)重分布圖.圖5 頂部的折線圖展示了CACA 模塊在對應(yīng)時刻為歷史語境記憶分配的注意力權(quán)重總和.其中,橙黃色實線與金黃色虛線分別代表了“采用”與“未采用”AWC 優(yōu)化的CACA 模塊給歷史語境記憶的權(quán)重分配結(jié)果.在此,本文首先通過橙黃色的實驗數(shù)據(jù)深入分析歷史語境記憶存在的重要意義.在第一個解碼時刻,采用AWC 優(yōu)化的CACA 模塊將大部分注意力給予了圖像特征,僅為歷史語境記憶分配了0.0732 的注意力權(quán)重.直觀分析,在序列生成的初始時刻,解碼器亟待充分理解圖像中的顯著特征,同時,歷史語境記憶能夠為解碼過程提供的語義信息十分有限,因此,CACA 模塊主要依靠圖像特征完成第一個時間步的單詞預(yù)測.在后續(xù)的時刻中,隨著歷史語境記憶中的特征向量逐漸豐富,CACA 模塊為其分配的注意力權(quán)重也迅速增加,并最終穩(wěn)定在0.2左右.在圖像標(biāo)題的生成過程中,解碼器不斷尋求歷史語境記憶的指導(dǎo),說明歷史語境記憶蘊含了大量有價值的信息,進一步證實了該模塊存在的必要性.

        圖5 由語境輔助的交叉注意力模塊分配給圖像特征與歷史語境記憶的注意力分布可視化Fig.5 Visualization of attention distribution assigned to both image features and historical context memory by our CACA module

        與此同時,通過比較兩條折線中數(shù)據(jù)點的大小,本文發(fā)現(xiàn),未采用AWC 優(yōu)化的CACA 模型對歷史語境記憶的利用率遠不及采用AWC 優(yōu)化的CACA模型.結(jié)合前文的結(jié)論,若不采用AWC 對模型進行優(yōu)化,CACA 模塊則難以充分利用歷史語境記憶中的有效信息為解碼過程提供豐富的語義特征.綜上所述,自適應(yīng)權(quán)重能夠提升CACA 模塊對歷史語境記憶的利用率,為解碼器提供更多有價值的信息,從而提高圖像標(biāo)題的生成質(zhì)量.

        在圖5 的底部,本文對注意力權(quán)重在歷史語境記憶中的具體分配情況進行了可視化分析.為了清晰起見,本文挑選了三個具有代表性的時間步進行討論.具體而言,當(dāng)歷史語境記憶中的一條特征向量獲得大于0.05 的注意力權(quán)重時,則通過一條連線指向當(dāng)前時刻生成的單詞.此處展示的圖像標(biāo)題為采用AWC 優(yōu)化的模型生成的結(jié)果.值得一提的是,連線的顏色越深,表示特征被分配的權(quán)重越大.如圖5 所示,當(dāng)模型預(yù)測單詞“man (男人)”和“holding (拿著)”時,CACA 對當(dāng)前時刻新加入歷史語境記憶的特征向量格外關(guān)注,表明視覺特征在此刻發(fā)揮著重要作用;而當(dāng)模型預(yù)測單詞“on (在···之上)”時,由于圖像中缺少明顯的視覺線索表達這一概念,因此,CACA 重點關(guān)注了歷史語境記憶中可以輔助推斷當(dāng)前詞的語義特征.上述事實說明,歷史語境記憶可以發(fā)揮視覺哨兵[16]的作用,為CACA 模塊提供一個回退選項,在必要時舍棄部分低價值的視覺特征,利用之前時刻的歷史語境特征,協(xié)助解碼器完成單詞的預(yù)測.

        3.8 圖像標(biāo)題生成示例

        為了進一步證明本文方法在傳統(tǒng)的交叉注意力機制上的改進,本文在圖6 中展示了八組圖像標(biāo)題生成的案例.其中,每組案例包括了一幅圖像,Transformer 基線模型生成的標(biāo)題,CAT 模型生成的標(biāo)題,以及圖像對應(yīng)的真實(Ground truth,GT)標(biāo)題.舉例來講,在第一個案例中,Transformer 與CAT 模型都關(guān)注到了圖像中的主要目標(biāo)“dog”與“frisbee”,這得益于它們擁有相同的編碼器結(jié)構(gòu)Faster R-CNN 與Transformer 編碼器,Faster RCNN 能夠提取到圖像中的顯著目標(biāo),Transformer編碼器則可以隱性地建模不同目標(biāo)之間的關(guān)系.然而,由于缺少動作信息捕捉的相關(guān)模塊,這便要求解碼器承擔(dān)相應(yīng)的職責(zé).從模型結(jié)構(gòu)來看,Transformer 解碼器通過傳統(tǒng)的交叉注意力機制與圖像特征進行交互,認為圖像中狗是叼著飛盤在沙灘上“奔跑(running)”,然而實際上,圖像中的狗是通過“跳躍(jumping)”來接住空中的飛盤.本文提出的CAT 模型利用語境輔助的交叉注意力機制,在解碼過程中,不僅能夠關(guān)注到與當(dāng)前語義查詢最為相關(guān)的圖像信息,還能夠從歷史語境特征中受到啟發(fā).在這一案例中,CAT 模型通過CACA 模塊,進一步捕獲到歷史時刻與狗相關(guān)的語境特征,從而生成了更加符合圖像事實的描述“狗跳起接住(jumping to catch)飛盤”.另外,本文在圖6 中展示了一個失敗的案例.如案例八所示,圖中有一塊砧板,上面放著一塊被刀切開的奶酪.從兩個模型生成的標(biāo)題來看,它們都錯誤地將奶酪(cheese)描述成“橘子(orange)”.導(dǎo)致這一結(jié)果的原因主要有兩點: 1)形如圖中的奶酪在整個數(shù)據(jù)集中出現(xiàn)的次數(shù)較少,深度模型難以捕捉其內(nèi)在的判別特征;2)奶酪的顏色與生活中常見的橘子相似,外加明亮的白光環(huán)境,使得編碼器提取到的特征難以將二者進行區(qū)分.本文提出的CACA 模塊主要作用于模型的解碼器部分,對編碼器的特征提取能力影響較小,難以解決上述問題.針對此類現(xiàn)象,可以通過平衡數(shù)據(jù)分布、增強編碼器、采用小樣本學(xué)習(xí)[37]等方式提升模型性能.

        圖6 Transformer 與CAT 生成的圖像標(biāo)題展示Fig.6 Image captions generated by the Transformer and the CAT

        3.9 人工評價

        在人工評價環(huán)節(jié),本文從MS COCO 的測試集中隨機選擇了500 幅圖像,使用Transformer 模型與CAT 模型為其生成圖像標(biāo)題.為了提高評價的可信度,本文將每組標(biāo)題隨機打亂,并提供給5 名評測人員,由他們對標(biāo)題的“相關(guān)性”和“一致性”分別進行比較和評價.其中,相關(guān)性的評價標(biāo)準(zhǔn)是圖像與標(biāo)題之間的相關(guān)程度,而一致性代表了標(biāo)題的流暢程度與語義一致性.對于每一幅圖像,評測人員必須在上述兩種評價指標(biāo)上選出質(zhì)量更高的一條標(biāo)題,當(dāng)2 名以上評測人員對某一條標(biāo)題的相關(guān)性或一致性表示更加認可時,本文則認定該條標(biāo)題在對應(yīng)指標(biāo)上表現(xiàn)更好.從表8 中可以看出,在圖像與標(biāo)題的相關(guān)性方面,Transformer 與CAT 具備相近的生成能力.然而,本文提出的CAT 模型生成的標(biāo)題具有更強的一致性,評價結(jié)果明顯優(yōu)于Transformer 模型,這得益于CACA 模塊可以回顧歷史語境特征的能力,使語言模型在標(biāo)題生成的過程中,不斷參考過去關(guān)注過的信息,體現(xiàn)了視覺連貫性的優(yōu)勢.

        表8 Transformer 與CAT 模型的人工評價(%)Table 8 Human evaluation of Transformer and CAT (%)

        4 結(jié)束語

        本文面向圖像標(biāo)題生成任務(wù),針對傳統(tǒng)的交叉注意力機制缺乏視覺連貫性的問題,提出了一種語境輔助的交叉注意力(CACA)機制,通過歷史語境記憶為注意力模塊提供先前關(guān)注過的語義信息,為語言模型提供更加豐富的語境特征,從而提升圖像標(biāo)題的生成質(zhì)量.為了限制每一個CACA 模塊分配給歷史語境特征的權(quán)重總和,本文設(shè)計了一種自適應(yīng)權(quán)重約束(AWC),來提升模型的泛化能力.本文將CACA 模塊與AWC 方法集成到Transformer解碼框架中,構(gòu)建了一種語境輔助的轉(zhuǎn)換器(CAT)模型.基于MS COCO 數(shù)據(jù)集的實驗結(jié)果表明,與現(xiàn)有的多個基線模型相比,本文提出的方法均取得了穩(wěn)定的提升.本文未來的研究工作將圍繞歷史語境特征在Transformer 中的跨層交互展開探索.

        猜你喜歡
        解碼器交叉注意力
        讓注意力“飛”回來
        科學(xué)解碼器(一)
        科學(xué)解碼器(二)
        科學(xué)解碼器(三)
        線圣AudioQuest 發(fā)布第三代Dragonfly Cobalt藍蜻蜓解碼器
        “六法”巧解分式方程
        “揚眼”APP:讓注意力“變現(xiàn)”
        傳媒評論(2017年3期)2017-06-13 09:18:10
        A Beautiful Way Of Looking At Things
        連一連
        基于Fast-ICA的Wigner-Ville分布交叉項消除方法
        計算機工程(2015年8期)2015-07-03 12:19:54
        亚洲国产成人久久三区| 久久九九av久精品日产一区免费 | 区一区二区三区四视频在线观看| 真实的国产乱xxxx在线| 视频一区二区三区黄色| 国产精品av在线| 国产成熟人妻换╳╳╳╳| 亚洲一区二区三区成人| 中文字幕日韩人妻在线| 日本不卡的一区二区三区中文字幕 | 久久99精品久久久久久秒播| 亚洲男人精品| 精品国产午夜久久久久九九| 日本国产一区二区在线观看| 亚洲av成人无码久久精品老人| 天堂8中文在线最新版在线| 国产激情з∠视频一区二区| 亚洲最稳定资源在线观看| 无人视频在线播放免费| 品色堂永远免费| 中文字幕福利视频| 国产在线观看不卡网址| 亚洲av无一区二区三区久久蜜桃| 比较有韵味的熟妇无码| 一本色综合亚洲精品蜜桃冫| 果冻蜜桃传媒在线观看| 黄色潮片三级三级三级免费| 成人欧美一区二区三区在线观看 | 欧美亚洲另类 丝袜综合网| 激情五月天在线观看视频| 香港台湾经典三级a视频| 国产av天堂成人网| 中文字幕色婷婷在线视频| 亚洲综合欧美色五月俺也去| 欧美巨大xxxx做受l| 男人j进女人p免费视频| 美利坚亚洲天堂日韩精品| 亚洲av不卡免费在线| 欧美成人午夜精品久久久| 精品久久综合一区二区| 亚洲中文字幕一区精品|