亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于空間關(guān)聯(lián)性注意力的圖像描述生成方法

        2023-01-01 00:00:00張紅良李廣明

        作者簡(jiǎn)介:張紅良(1996-),男,河南信陽(yáng)人,碩士研究生,主要研究方向?yàn)樽匀徽Z(yǔ)言處理與嵌入式人工智能;李廣明(1968-),男(通信作者),河南信陽(yáng)人,特聘教授,碩導(dǎo),主要研究方向?yàn)榍度胧较到y(tǒng)與人工智能(ligm@dgut.edu.cn).

        摘 要:圖像中物體間的關(guān)聯(lián)性能夠有效提升圖像描述的效果,但是直接使用全局特征表示物體間的關(guān)系無(wú)法準(zhǔn)確捕獲圖像的關(guān)聯(lián)性特征。為準(zhǔn)確捕獲圖像的關(guān)聯(lián)性特征以提高描述的準(zhǔn)確性,提出了一種基于空間關(guān)聯(lián)性的圖像描述生成方法。該方法使用Faster R-CNN提取圖像的視覺(jué)特征和物體的空間位置信息,再將視覺(jué)特征與空間位置信息在高維空間融合后指導(dǎo)Transformer捕獲圖像的關(guān)聯(lián)性特征;最后將視覺(jué)特征和關(guān)聯(lián)性特征分別作為視覺(jué)注意力和空間關(guān)聯(lián)性注意力的高層語(yǔ)義輸入指導(dǎo)單詞序列的生成。使用COCO數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)驗(yàn)證,在BLEU_4和CIDEr上分別得分38.1%和124.8%,相較于基線模型提升了1.8%和4.7%,證明了該方法的可行性。

        關(guān)鍵詞:圖像描述;空間位置信息;關(guān)聯(lián)性特征;空間關(guān)聯(lián)性注意力;Transformer

        中圖分類(lèi)號(hào):TP391 文獻(xiàn)標(biāo)志碼:A

        文章編號(hào):1001-3695(2023)04-051-1275-06

        Abstract:The correlation between objects in the image can effectively improve the effect of image caption,but the direct use of global features to represent the relationship between objects cannot accurately capture the correlation characteristics of image.In order to capture the correlation features of images accurately and improve the accuracy of description,this paper proposed an image caption generation method based on spatial correlation.The proposed method used Faster R-CNN to extract the visual features of the image and the spatial position information of the objects.Then fused them in a high-dimensional space to guide the Transformer to capture the correlation features of the image.Finally,this paper made the visual features and correlation features as high-level semantic input of visual attention and spatial correlation attention to guide the generation of word sequences.This paper conducted experiments on the COCO dataset,and scores 38.1% and 124.8% on BLEU_4 and CIDEr,respectively,which are 1.8% and 4.7% higher than the baseline model,thus indicating the feasibility of the proposed method.

        Key words:image caption;spatial position information;correlation feature;spatial correlation attention;Transformer

        0 引言

        圖像描述生成是通過(guò)簡(jiǎn)短的自然語(yǔ)言描述圖像場(chǎng)景以及場(chǎng)景中的事件來(lái)生成圖像,是計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理的交叉領(lǐng)域,現(xiàn)已引起了學(xué)者們的廣泛關(guān)注[1,2]。相較圖像分類(lèi)和目標(biāo)檢測(cè),圖像描述生成則更側(cè)重于圖像認(rèn)知,是對(duì)圖像內(nèi)容的學(xué)習(xí)和推理,廣泛應(yīng)用于圖像語(yǔ)義摘要、基于內(nèi)容的圖像檢索和幫助視覺(jué)障礙人士。圖像描述生成不僅需要準(zhǔn)確識(shí)別出圖像中的物體,還需要合理地表達(dá)物體間的邏輯關(guān)系以及物體的屬性特征。人們?cè)趯?duì)一幅圖像進(jìn)行描述時(shí),通常會(huì)先關(guān)注圖像中的物體,確定描述語(yǔ)句的主體,然后根據(jù)圖像中物體間的關(guān)系,將主體信息串聯(lián)起來(lái),形成一句完整的描述。圖像中物體間的關(guān)系稱(chēng)為關(guān)聯(lián)性特征(correlation feature),是由物體的空間位置所決定,圖像中物體間的空間位置信息能夠準(zhǔn)確地表述不同物體的邏輯關(guān)系。因而,物體的空間位置信息在圖像描述生成任務(wù)中具有重要作用。

        在目標(biāo)檢測(cè)[3]和圖像檢索[4]等計(jì)算機(jī)視覺(jué)領(lǐng)域,使用物體的空間位置信息的研究已經(jīng)取得了顯著成就,表明物體的空間位置信息能夠有效地捕獲物體間的相互關(guān)系。然而在圖像描述生成任務(wù)中,卻并未能夠有效地利用物體的空間位置信息,通常是在像素層面捕獲物體間的相互關(guān)系[5,6],忽略了高層語(yǔ)義間物體的關(guān)聯(lián)性。Yao等人[5]使用物體的空間拓?fù)潢P(guān)系來(lái)捕捉物體間的相互關(guān)系,雖然能夠有效地捕獲物體間的相互關(guān)系,但忽略了物體在圖像中的準(zhǔn)確位置信息和物體間的相互位置信息所帶來(lái)的影響,無(wú)法準(zhǔn)確捕獲顯著區(qū)域的關(guān)聯(lián)性特征。Li等人[6]采用全局—局部注意力來(lái)處理全局特征與局部特征,該方法將圖像的全局特征視為物體間的相互關(guān)系,無(wú)法準(zhǔn)確表示圖像中物體間的關(guān)系,降低了描述的準(zhǔn)確性。

        為解決上述問(wèn)題,有效利用物體的空間位置信息,捕獲準(zhǔn)確的關(guān)聯(lián)性特征。本文提出了一種基于空間關(guān)聯(lián)性注意力的圖像描述生成模型,將物體的邊框坐標(biāo)作為其對(duì)應(yīng)的空間信息,并與視覺(jué)特征在高維特征空間進(jìn)行融合,通過(guò)Transformer[7]捕獲圖像的關(guān)聯(lián)性特征。該模型采用Faster R-CNN[8](faster region with convolutional neural network)提取圖像中物體的視覺(jué)特征和空間位置信息,利用空間位置信息指導(dǎo)Transformer捕獲圖像中物體間的關(guān)聯(lián)性特征,Transformer內(nèi)部的多頭自注意力機(jī)制能夠建立起不同對(duì)象之間隱含的復(fù)雜聯(lián)系,并且物體的空間位置所包含的對(duì)象拓?fù)潢P(guān)系[5]能夠提供精準(zhǔn)的物體位置信息和物體間的相對(duì)位置指導(dǎo)Transformer捕獲圖像的關(guān)聯(lián)性特征。采用關(guān)聯(lián)性注意力機(jī)制與視覺(jué)注意力機(jī)制分別捕獲圖像的顯著關(guān)聯(lián)性特征與視覺(jué)特征。最后使用GLU[9](gated linear unit)將視覺(jué)特征與關(guān)聯(lián)性特征進(jìn)行融合[10],提高對(duì)特征利用的準(zhǔn)確性。本文主要貢獻(xiàn)如下:

        a)提出了一種新穎的關(guān)聯(lián)性特征捕獲方法,采用物體的空間位置信息指導(dǎo)Transformer捕獲圖像的關(guān)聯(lián)性特征,準(zhǔn)確地捕獲圖像中不同物體間的邏輯關(guān)系。

        b)提出了一種空間關(guān)聯(lián)性注意力機(jī)制,能夠有效地捕獲當(dāng)前顯著物體的關(guān)聯(lián)性特征,減少圖像中無(wú)關(guān)區(qū)域的影響,提升了特征使用的準(zhǔn)確性。

        c)應(yīng)用GLU將視覺(jué)特征與關(guān)聯(lián)性特征進(jìn)行融合并通過(guò)殘差連接提高特征利用率,有效地滿(mǎn)足模型對(duì)不同特征的需求,進(jìn)一步提升模型性能。

        1 相關(guān)工作

        圖像描述是指給定一張圖像生成對(duì)應(yīng)的語(yǔ)言描述,當(dāng)前已經(jīng)有許多方法被用于圖像描述生成任務(wù)。圖像描述方法主要分為基于模板填充的方法、基于檢索的方法,以及基于深度學(xué)習(xí)的方法三類(lèi)。

        a)基于模板填充的方法。該方法通常設(shè)計(jì)或使用一個(gè)語(yǔ)言填充模板。Yang等人[11]利用圖像標(biāo)注技術(shù)對(duì)目標(biāo)對(duì)象、對(duì)象場(chǎng)景和組件進(jìn)行標(biāo)注,通過(guò)不同的場(chǎng)景生成模板,并將圖像特征填充進(jìn)模板生成描述。Girish等人[12]使用條件隨機(jī)場(chǎng)預(yù)測(cè)標(biāo)簽,并根據(jù)檢測(cè)器識(shí)別的圖像物體、物體屬性以及相互關(guān)系,在文本語(yǔ)料庫(kù)中選擇詞匯生成描述。該方法雖然能夠生成完整的圖像描述,但是生成的描述嚴(yán)重依賴(lài)所建立的模板,生成的描述語(yǔ)句單一、表述生硬。

        b)基于檢索的方法。該方法將圖像描述問(wèn)題轉(zhuǎn)換為圖文檢索[13]或圖文匹配[14]問(wèn)題,將與其相似圖像的描述經(jīng)過(guò)合理組織形成新的描述。Polina等人[15]在圖像描述數(shù)據(jù)集中檢索出與要描述圖像相似的圖像,并采用隨機(jī)樹(shù)型結(jié)構(gòu)算法對(duì)這些圖像的描述進(jìn)行提取生成新的詞組來(lái)生成圖像描述。Verma等人[16]根據(jù)圖像視覺(jué)特征的相似性,為描述圖像檢索出最優(yōu)描述。該方法嚴(yán)重依賴(lài)于圖像數(shù)據(jù)集的大小和檢索算法的準(zhǔn)確性,生成的描述僅局限于數(shù)據(jù)集中的描述。

        c)基于深度學(xué)習(xí)的方法。該方法通常使用編碼器—解碼器框架,使用卷積神經(jīng)網(wǎng)絡(luò)作為編碼器提取圖像特征向量,使用循環(huán)神經(jīng)網(wǎng)絡(luò)作為解碼器,根據(jù)捕獲的圖像特征向量來(lái)生成圖像對(duì)應(yīng)的文本描述。

        Mao等人[17]最先提出基于編碼—解碼結(jié)構(gòu)的圖像描述模型m-RNN,模型使用卷積神經(jīng)網(wǎng)絡(luò)提取圖像特征向量,利用循環(huán)神經(jīng)網(wǎng)絡(luò)根據(jù)已生成的單詞和圖像特征生成下一單詞,循環(huán)該過(guò)程生成完整的圖像描述。Oriol等人[18]采用長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)(long short-term memory,LSTM)代替循環(huán)神經(jīng)網(wǎng)絡(luò)。為進(jìn)一步提升圖像描述的性能,注意力機(jī)制被廣泛應(yīng)用于圖像描述算法中。其改變了編碼器與解碼器之間的連接方式,讓編碼器在生成每一個(gè)單詞時(shí)能夠自主選擇當(dāng)前最顯著的特征區(qū)域,主要包括視覺(jué)注意力機(jī)制和語(yǔ)義注意力機(jī)制。

        視覺(jué)注意力模型能將根據(jù)當(dāng)前語(yǔ)句的上下文信息自主地獲取對(duì)應(yīng)的圖像特征向量[20]。Xu等人[19]最先將注意力機(jī)制引入圖像描述,通過(guò)注意力機(jī)制動(dòng)態(tài)選擇與當(dāng)前時(shí)刻生成單詞相關(guān)的圖像區(qū)域特征。Chen等人[20]提出從空間和通道兩方面考慮顯著空間特征和顯著通道特征。Lu等人[21]提出一種帶有視覺(jué)哨兵的自適應(yīng)注意力模型,在解碼過(guò)程中依據(jù)語(yǔ)義信息的不同為單詞和圖像特征分配不同的權(quán)重。Anderson等人[22]提出使用Faster R-CNN作為編碼器提取圖像特征向量并標(biāo)記目標(biāo)所在區(qū)域,獲取更加豐富的圖像特征,生成的描述更加豐富。You等人[23]首先提出使用目標(biāo)檢測(cè)算法檢測(cè)圖像中主要目標(biāo)的名稱(chēng)屬性,將其作為高層語(yǔ)義信息,在生成描述時(shí)動(dòng)態(tài)地選擇名稱(chēng)屬性向量指導(dǎo)單詞的生成。

        當(dāng)前大部分圖像描述算法使用交叉熵作為損失函數(shù)訓(xùn)練模型,在訓(xùn)練過(guò)程中存在曝光偏差與衡量指標(biāo)不一致的問(wèn)題,導(dǎo)致訓(xùn)練過(guò)程中無(wú)法充分優(yōu)化衡量指標(biāo)。為了解決該問(wèn)題,強(qiáng)化學(xué)習(xí)[24]被研究人員引入來(lái)改進(jìn)圖像描述模型。Marc’aurelio等人[25]使用強(qiáng)化學(xué)習(xí)方法優(yōu)化序列生成模型。Rennie等人[26]使用SCST(self-critical sequence training)在訓(xùn)練過(guò)程中對(duì)整個(gè)句子進(jìn)行最大期望獎(jiǎng)勵(lì)。

        2 模型框架

        本文以Anderson等人[22]提出的模型為基礎(chǔ),提出了基于空間關(guān)聯(lián)性注意力的圖像描述模型,該模型主要由關(guān)聯(lián)性特征提取、注意力模型和特征融合等部分組成,如圖1所示。使用ResNet-101作為Faster R-CNN的主干網(wǎng)絡(luò)提取圖像中物體的視覺(jué)特征,將物體包圍框的坐標(biāo)作為該物體的空間位置信息。將視覺(jué)特征和空間位置信息在高維空間融合后,通過(guò)Transformer捕獲其內(nèi)部的關(guān)聯(lián)性特征,再采用注意力獲取顯著特征區(qū)域,最后將視覺(jué)特征和關(guān)聯(lián)性特征進(jìn)行融合指導(dǎo)描述語(yǔ)句的生成。

        3 實(shí)驗(yàn)及結(jié)果分析

        本文使用COCO[29]數(shù)據(jù)集驗(yàn)證所提出模型的有效性,該數(shù)據(jù)集由自然場(chǎng)景和人類(lèi)生活中常見(jiàn)的圖像組成,常應(yīng)用于圖像識(shí)別、圖像分割、圖像描述等任務(wù),在計(jì)算機(jī)視覺(jué)領(lǐng)域有著極其廣泛的應(yīng)用。

        3.1 數(shù)據(jù)集預(yù)處理

        本文采用Karpathy等人[30]的分割方法將數(shù)據(jù)集劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集,選擇113 287張圖像和對(duì)應(yīng)的人工標(biāo)注描述作為訓(xùn)練集,分別選取5 000張圖像和對(duì)應(yīng)的人工標(biāo)注描述作為驗(yàn)證集和測(cè)試集。

        訓(xùn)練模型前需要對(duì)數(shù)據(jù)集進(jìn)行預(yù)處理,將人工標(biāo)注描述中的所有單詞轉(zhuǎn)換為小寫(xiě)形式,統(tǒng)計(jì)單詞出現(xiàn)的次數(shù),將出現(xiàn)頻率超過(guò)5次的單詞構(gòu)成詞匯表,并使用〈UNK〉替換出現(xiàn)頻率小于5次的單詞,最終得到的詞匯表包含9 487個(gè)單詞。

        3.2 實(shí)驗(yàn)環(huán)境及評(píng)價(jià)指標(biāo)

        本文的實(shí)驗(yàn)平臺(tái)使用NVIDIA GTX 1070Ti顯卡,Ubuntu操作系統(tǒng),并使用PyTorch神經(jīng)網(wǎng)絡(luò)框架實(shí)現(xiàn)。

        模型中視覺(jué)特征和關(guān)聯(lián)性特征的維度均設(shè)置為512,Transformer內(nèi)部的維度設(shè)置為512、層數(shù)為6,詞向量的維度設(shè)置為512,長(zhǎng)短期記憶網(wǎng)絡(luò)隱藏層的維度設(shè)置為512,描述文本的最大長(zhǎng)度為16。模型訓(xùn)練時(shí)使用的批量大小設(shè)置為32,先采用Adam優(yōu)化算法迭代40次,再采用強(qiáng)化學(xué)習(xí)策略迭代20次。Adam優(yōu)化器的參數(shù)設(shè)置為α=0.9,β=0.999,ε=10-8。學(xué)習(xí)率初始設(shè)置為0.000 2,在6輪后,學(xué)習(xí)率每輪縮減為原來(lái)的0.5倍。模型在測(cè)試時(shí)使用beam search[28]方法進(jìn)行解碼,集束大小設(shè)置為5,從描述結(jié)果中選擇CIDEr評(píng)分最大的句子作為最終的描述語(yǔ)句。

        采用BLEU[31]、METEOR[32]、ROUGE_L[33]、CIDEr[34]四種評(píng)價(jià)指標(biāo)對(duì)模型進(jìn)行評(píng)價(jià),各指標(biāo)數(shù)值沒(méi)有單位,指標(biāo)數(shù)值越大表示模型效果越好。BLEU通過(guò)n-gram計(jì)算輸出文本域人工標(biāo)注語(yǔ)句間的匹配分?jǐn)?shù),考慮到更長(zhǎng)的匹配信息。METEOR對(duì)BLEU進(jìn)行改進(jìn)考慮到同義詞間的匹配關(guān)系,兼顧準(zhǔn)確率和召回率。ROUGE_L是一種基于召回率的相似性度量方法,考慮描述語(yǔ)句的完整性。CIDEr通過(guò)對(duì)每個(gè)n元組進(jìn)行TF-IDF權(quán)重計(jì)算,更能反映生成句子的質(zhì)量,考慮描述語(yǔ)句與參考語(yǔ)句間的一致性。

        3.3 消融實(shí)驗(yàn)

        為驗(yàn)證在2.1節(jié)提出的關(guān)聯(lián)性特征和在2.3節(jié)提出的mask-softmax的有效性,在COCO數(shù)據(jù)集上進(jìn)行了一系列消融實(shí)驗(yàn),結(jié)果如表1、2所示。使用add/one作為兩種方法的標(biāo)識(shí),其中add表示空間位置信息與圖像特征的融合方式,one表示mask-softmax中K的取值。

        3.4 實(shí)驗(yàn)對(duì)比

        為了進(jìn)一步驗(yàn)證本文所提出的圖像描述模型的有效性,在COCO數(shù)據(jù)上進(jìn)行實(shí)驗(yàn)對(duì)比,實(shí)驗(yàn)結(jié)果如表3所示。實(shí)驗(yàn)對(duì)比的模型主要是包括Google NIC[18]、Hard-Attention[19]、Adaptive-Attention[21]、SCST[26]、Up-Down[22]、LSTM-A[35]、RFNet[36]、StackCap[37]、SR-PL[38]、ASIS[39]、GO-AMN[40],其中Google NIC是最先使用編碼器解碼器框架的模型,Hard-Attention、AdaptiveAttention、ASIS、GO-AMN使用了注意力機(jī)制,SCST、Up-Down、LSTM-A、RFNet、StackCap和SR-PL采用了強(qiáng)化學(xué)習(xí)策略訓(xùn)練模型。

        從表3中可以看出,本文模型在BLEU、METEOR、ROUGE_L、CIDEr四種評(píng)價(jià)指標(biāo)上都有明顯提升,其中在BLEU_4上得分38.1,在METEOR上得分28.1,在ROUGE_L上得分58.2,在CIDEr上得分124.8,均取得了對(duì)比模型的最優(yōu)效果,評(píng)價(jià)指標(biāo)的提升驗(yàn)證了本文模型的有效性。與基線模型Up-Down相比所有評(píng)價(jià)指標(biāo)均有所提升,在BLEU_4上提升1.8,在METEOR上提升0.4,在ROUGE_L提升1.3,在CIDEr上提升了4.7,驗(yàn)證了本文所提出的空間信息與關(guān)聯(lián)性特征對(duì)生成描述的指導(dǎo)性作用。

        圖5為隨機(jī)挑選的樣例,包含圖片、人工標(biāo)注的五句描述、基線模型生成的模型,以及本文模型生成的描述。從圖中的描述可以看出,本文所提出的基于空間關(guān)聯(lián)性注意力的圖像描述生成模型能夠有效地捕捉圖像的內(nèi)容和細(xì)節(jié)。在樣例1中有效捕捉到“man”“kite”“beach”三個(gè)描述主體以及物體間的關(guān)系;在樣例2中也成功捕獲了“man”“bench”“water”三者之間的關(guān)系,進(jìn)一步表明所提出的關(guān)聯(lián)性特征的有效性;在樣例3和4中也都成功地展現(xiàn)了不同物體間的關(guān)系。本文所提出的模型相較于基線模型在圖像描述主體的捕捉和物體間關(guān)系的確定有更加突出的表現(xiàn),驗(yàn)證了本文模型的有效性。

        4 結(jié)束語(yǔ)

        本文提出了一種基于空間關(guān)聯(lián)性注意力的圖像描述生成模型,使用Faster R-CNN提取圖像的視覺(jué)特征和空間位置信息,將圖像的視覺(jué)特征和空間位置信息在高維空間融合后指導(dǎo)Transformer提取圖像的關(guān)聯(lián)性特征,最后將圖像的視覺(jué)特征和關(guān)聯(lián)性特征采用GLU進(jìn)行融合指導(dǎo)圖像描述的生成,提高描述的準(zhǔn)確性與細(xì)膩度??臻g位置信息與視覺(jué)特征的融合為T(mén)ransformer捕獲物體間的關(guān)聯(lián)性提供了準(zhǔn)確的位置信息和物體間的邏輯關(guān)系,自適應(yīng)特征融合機(jī)制提高了模型對(duì)特征的利用能力。實(shí)驗(yàn)結(jié)果和分析表明,本文算法在各項(xiàng)指標(biāo)上均優(yōu)于傳統(tǒng)算法,所生成的描述與基線模型相比更加符合圖像內(nèi)容和語(yǔ)義。未來(lái)的研究擬采用圖卷積神經(jīng)網(wǎng)絡(luò)提取物體間的關(guān)聯(lián)性特征,捕獲更為顯著的高維特征信息,指導(dǎo)圖像描述的生成。

        參考文獻(xiàn):

        [1]盛豪,易堯華,湯梓偉.融合圖像場(chǎng)景與目標(biāo)顯著性特征的圖像描述生成方法[J].計(jì)算機(jī)應(yīng)用研究,2021,38(12):3776-3780.(Sheng Hao,Yi Yaohua,Tang Ziwei.Image caption based on fusion of image scene and target saliency feature[J].Application Research of Computers,2012,38(12):3776-3780.)

        [2]卓亞琦,魏家輝,李志欣.基于雙注意模型的圖像描述生成方法研究[J].電子學(xué)報(bào),2022,50(5):1123-1130.(Zhuo Yaqi,Wei Jiahui,Li Zhixin.Research on image captioning based on double attention model[J].Acta Electronica Sinica,2022,50(5):1123-1130.)

        [3]Dong Jiansheng,Yuan Jingling,Li Lin,et al.A lightweight high-resolution representation backbone for real-time keypoint-based object detection[C]//Proc of IEEE International Conference on Multimedia and Expo.Piscataway,NJ:IEEE Press,2020:1-6.

        [4]Liu Zhen,Li Houqiang,Zhou Wengang,et al.Embedding spatial context information into inverted file for large-scale image retrieval[C]//Proc of the 20th ACM International Conference on Multimedia.New York:ACM Press,2012:199-208.

        [5]Yao Ting,Pan Yingwei,Li Yehao,et al.Exploring visual relationship for image captioning[C]//Proc of European Conference on Computer Vision.Cham:Springer,2018:684-699.

        [6]Li Linghui,Tang Sheng,Deng Lixi,et al.Image caption with global-local attention[C]//Proc of the 31st AAAI Conference on Artificial Intelligence.2017:4133-4139.

        [7]Vaswani A,Shazeer N,Parmar N,et al.Attention is all you need[C]//Proc of the 31st International Conference on Neural Information Processing Systems.New York:ACM Press,2017:6000-6010.

        [8]Ren Shaoqing,He Kaiming,Girshick R,et al.Faster R-CNN:towards realtime object detection with region proposal networks[J].IEEE Trans on Pattern Analysis amp; Machine Intelligence,2017,39(6):1137-1149.

        [9]Dauphin Y N,F(xiàn)an A,Auli M,et al.Language modeling with gated convolutional networks[C]//Proc of International Conference on Machine Learning.2017:933-941.

        [10]侯一雯,田玉玲.基于融合注意力機(jī)制的圖像標(biāo)題生成[J].計(jì)算機(jī)應(yīng)用研究,2021,38(7):2209-2212.(Hou Yiwen,Tian Yuling.Image caption generation based on fusion attention mechanism[J].Application Research of Computers,2021,38(7):2209-2212.)

        [11]Yang Yezhou,Teo C,Daumé III H,et al.Corpus-guided sentence ge-neration of natural images[C]//Proc of Conference on Empirical Methods in Natural Language Processing.2011:444-454.

        [12]Girish K,Visruth P,Sagnik D,et al.Babytalk:understanding and ge-nerating simple image descriptions[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2013,35(12):2891-2903.

        [13]Ji Zhong,Wang Haoran,Han Jungong,et al.SMAN:stacked multimodal attention network for cross-modal image-text retrieval[J].IEEE Trans on Cybernetics,2020,52(2):1086-1097.

        [14]Ji Zhong,Chen Kexin,Wang Haoran.Step-wise hierarchical alignment network for image-text matching[EB/OL].(2021-06-14).https://arxiv.org/pdf/2106.06509v1.

        [15]Polina K,Vicente O,Alexa C,et al.Collective generation of natural image descriptions[C]//Proc of the 50th Annual Meeting of the Association for Computational Linguistics.2012:359-368.

        [16]Verma Y V,Gupta A,Mannem P,et al.Generating image descriptions using semantic similarities in the output space[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition Workshops.Piscataway,NJ:IEEE Press,2013:288-293.

        [17]Mao Junhua,Xu Wei,Yang Yi,et al.Explain images with multimodal recurrent neural networks[EB/OL].(2014).https://arxiv.org/pdf/1410.1090.

        [18]Oriol V,Alexander T,Samy B,et al.Show and tell:a neural image caption generator[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2015:3156-3164.

        [19]Xu K,Ba J,Kiros R.Show,attend and tell:neural image caption ge-neration with visual attention[C]//Proc of International Conference on Machine Learning.New York:ACM Press,2015:2048-2057.

        [20]Chen Long,Zhang Hanwang,Xiao Jun,et al.SCACNN:spatial and channel-wise attention in convolutional networks for image captioning[C]//Proc of IEEE Conference on Computer Vision and Pattern Re-cognition.Piscataway,NJ:IEEE Press,2017:5659-5667.

        [21]Lu Jiasen,Xiong Caiming,Devi P,et al.Knowing when to look:adaptive attention via a visual sentinel for image captioning[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Pisca-taway,NJ:IEEE Press,2017:375-383.

        [22]Anderson P,He Xiaodong,Bueler C,et al.Bottom-up and top-down attention for image captioning and visual question answering[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:6077-6086.

        [23]You Quanzeng,Jin Hailin,Wang Zhaowen,et al.Image captioning with semantic attention[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2016:4651-4659.

        [24]Richard S,Sutton A,Barto G.Reinforcement learning:an introduction[M].Cambridge,MA:MIT Press,1998.

        [25]Marc’aurelio R,Sumit C,Michael A,et al.Sequence level training with recurrent neural networks[EB/OL].(2015).https://arxiv.org/pdf/1511.06732.

        [26]Rennie S J,Marcheret E,Mroueh Y,et al.Self-critical sequence training for image captioning[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2017:7008-7024.

        [27]Hu Han,Gu Jiayuan,Zhang Zheng,et al.Relation networks for object detection[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:3588-3597.

        [28]Wang Pidong,Hwee T N.A beam-search decoder for normalization of social media text with application to machine translation[C]//Proc of Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies.2013:471-481.

        [29]Lin T Y,Maire M,Belongie S,et al.Microsoft Coco:common objects in context[C]//Proc of European Conference on Computer Vision.Cham:Springer,2014:740-755.

        [30]Karpathy A,Li Feifei.Deep visual-semantic alignments for generating image descriptions[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2015:3128-3137.

        [31]Kishore P,Salim R,Todd W,et al.BLEU:a method for automatic evaluation of machine translation[C]//Proc of the 40th Annual Mee-ting on Association for Computational Linguistics.2002:311-318.

        [32]Satanjeev B,Alon L.METEOR:an automatic metric for MT evaluation with improved correlation with human judgments[C]//Proc of ACL Workshop on Intrinsic and Extrinsic Evaluation Measures for Machine Translation and/or Summarization.2005:65-72.

        [33]Lin C Y.ROUGE:a package for automatic evaluation of summaries[M]//Text Summarization Branches Out.

        Stroudsburg,PA:ACL Press,2004:74-81.

        [34]Vedantam R,C.Zitnick L,Parikh D.CIDEr:consensus-based image description evaluation[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2015:4566-4575.

        [35]Yao Ting,Pan Yingwei,Li Yehao,et al.Boosting image captioning with attributes[C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2017:4894-4902.

        [36]Jiang Wenhao,Ma Lin,Jiang Yugang,et al.Recurrent fusion network for image captioning[C]//Proc of European Conference on Computer Vision.2018:499-515.

        [37]Gu Jiusiang,Cai Jianfei,Wang Gang,et al.Stack-captioning:coarse to fine learning for image captioning[C]//Proc of AAAI Conference on Artificial Intelligence.2018 .

        [38]Liu Xihui,Li Hongsheng,Shao Jiang,et al.Show,tell and discriminate:image captioning by self-retrieval with partially labeled data[C]//Proc of European Conference on Computer Vision.2018:338-354.

        [39]Zhong Xian,Nie Guozhang,Huang Wenxin,et al.Attention-guided image captioning with adaptive global and local feature fusion[J].Journal of Visual Communication and Image Representation,2021,78:103138.

        [40]Yun Jing,Xu Zhiwei,Gao Guangkai.Gated object-attribute matching network for detailed image caption[J].Mathematical Problems in Engineering,2020,2020:1-11.

        国产一级三级三级在线视| 亚洲av综合色区| 亚洲h在线播放在线观看h| 亚洲福利视频一区 | 欧美日韩一区二区三区色综合| 精品人妻夜夜爽一区二区| 国产精品一区二区av不卡| 精品国内在视频线2019| 久久婷婷综合色丁香五月| 久久国产A∨一二三| 亚洲av手机在线播放| 4hu四虎永久免费地址ww416| 99久久久无码国产精品试看| 日本口爆吞精在线视频| 青青草免费观看视频免费 | 97高清国语自产拍| 国产一毛片| 国产一级一片内射视频在线| 西川结衣中文字幕在线| 成人午夜性a级毛片免费| 欧美乱妇日本无乱码特黄大片| 日本骚色老妇视频网站| 偷拍夫妻视频一区二区| 少妇下蹲露大唇无遮挡| 久久久99精品成人片中文字幕| 日韩午夜三级在线视频| 伊人久久大香线蕉av波多野结衣| 国产性生交xxxxx免费| 456亚洲人成在线播放网站| 日本一区二区三区女优在线| 伊人精品久久久久中文字幕| 久久久久久久99精品国产片| 美腿丝袜一区二区三区| 免费黄片小视频在线播放| 樱桃视频影视在线观看免费| 亚洲综合色区无码专区| 中文字幕人妻av四季| 亚洲av无码国产综合专区| 国产一区二区三区美女| 亚洲视频在线视频在线视频| 国产激情视频免费在线观看|