張大任,艾山·吾買爾,宜 年,劉婉月,韓 越
(1.新疆大學(xué)信息科學(xué)與工程學(xué)院,新疆 烏魯木齊 830046;2.新疆大學(xué)新疆多語種信息技術(shù)實(shí)驗(yàn)室,新疆 烏魯木齊 830046)
自然語言處理和計(jì)算機(jī)視覺兩個領(lǐng)域都是如今的研究熱點(diǎn),圖像標(biāo)題生成作為融合了自然語言處理和計(jì)算機(jī)視覺的交叉任務(wù),同樣是人工智能領(lǐng)域的一個熱門方向.圖像標(biāo)題生成是指利用機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等方法和技術(shù),生成能夠描述圖像視覺內(nèi)容的文本語言,其在圖文轉(zhuǎn)換、信息檢索、智能人機(jī)交互等領(lǐng)域都能給人類生活帶來許多方便,具有廣泛的應(yīng)用前景.
早期圖像標(biāo)題生成任務(wù)解決方案可以分為基于檢索的方法[1]和基于模板的方法[2].這兩種方法依賴于數(shù)據(jù)集大小,且需要事先定義完整的物體、屬性與場景等概念,因此在生成標(biāo)題的豐富性和流暢性上存在極大限制.近年來,人們把關(guān)注點(diǎn)放在基于深度神經(jīng)網(wǎng)絡(luò)的圖像標(biāo)題生成上,基于深度神經(jīng)網(wǎng)絡(luò)的方法生成的標(biāo)題在語法正確性、語義準(zhǔn)確性和泛化能力方面有很好的效果.其中最經(jīng)典的為Google公司提出的Neural Image Caption Generator模型[3],受機(jī)器翻譯領(lǐng)域編碼器-解碼器的框架[4]的啟發(fā),使用基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的GoogleNet替換機(jī)器翻譯模型中用于提取語言特征的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN),使用該網(wǎng)絡(luò)提取圖像特征,再以循環(huán)神經(jīng)網(wǎng)絡(luò)作為解碼器解碼卷積神經(jīng)網(wǎng)絡(luò)提取出的圖像特征.這種在機(jī)器翻譯編碼器-解碼器框架下修正的模型對圖像標(biāo)題生成任務(wù)產(chǎn)生很大的影響,相關(guān)工作主要是在此基礎(chǔ)上進(jìn)行修改和改進(jìn).Aneja等[5]將卷積神經(jīng)網(wǎng)絡(luò)作為解碼器并完成解碼操作,使訓(xùn)練速度得到快速提高,同時對于卷積神經(jīng)網(wǎng)絡(luò)存在的時序限制問題予以合理規(guī)避.
基于傳統(tǒng)CNN+RNN的編碼器解碼器的框架,Vinyals等[6]提出附加額外注意力機(jī)制的圖像標(biāo)題生成模型,將從編碼器的卷積層取得的圖像特征,對圖像特征注意力進(jìn)行加權(quán),將加權(quán)后的特征向量發(fā)送至循環(huán)神經(jīng)網(wǎng)絡(luò)對其完成解碼操作.Lu等[7]認(rèn)為傳統(tǒng)采用的空間注意力機(jī)制在提取圖像中新特征時缺乏便捷性,于是提出“視覺哨兵”概念,將注意力的圖像特征權(quán)重與“哨兵向量”權(quán)重分別控制,構(gòu)成Adaptive Attention模型.Anderson等[8]在2018年提出了結(jié)合自下而上和自上而下的注意力機(jī)制,采用Faster RCNN[9]等目標(biāo)檢測模型,再利用傳統(tǒng)的自上而下的注意力機(jī)制來動態(tài)關(guān)注不同的物體.與之類似的還有文獻(xiàn)[10],通過在模型中添加目標(biāo)檢測模塊,提高模型對圖像突出對象的描述能力.You等[11]試圖從圖像中發(fā)現(xiàn)更多的語義信息,并將語義屬性特征及視覺屬性特征融合到字幕模型中以提高描述質(zhì)量.Chen等[12]提出了抽象場景圖(ASG)結(jié)構(gòu)來表示用戶意圖,在細(xì)粒度的層次控制所生成的描述.Zhang等[13]通過與圖像描述模型相關(guān)任務(wù)之間的聯(lián)合訓(xùn)練,從其他任務(wù)獲取知識,提高模型的準(zhǔn)確性.
針對現(xiàn)有的圖像標(biāo)題生成存在模型的訓(xùn)練目標(biāo)和評測標(biāo)準(zhǔn)無法匹配的問題,Rennie等[14]提出SCST框架,用強(qiáng)化學(xué)習(xí)方法對CIDEr[15]評價指標(biāo)直接優(yōu)化來訓(xùn)練整體模型,使訓(xùn)練階段更加穩(wěn)定.Chen等[16]提出了一個新的基于條件生成對抗網(wǎng)的圖像字幕框架,作為傳統(tǒng)的基于強(qiáng)化學(xué)習(xí)的編解碼架構(gòu)的擴(kuò)展,顯著提高了圖像標(biāo)題生成模型性能.
盡管圖像標(biāo)題生成已取得如此優(yōu)異的成果,但不可避免地存在許多問題,一是目前模型還是使用LSTM作為解碼器,而LSTM對較長序列不能很好地支持限制了模型性能;二是現(xiàn)有圖像標(biāo)題生成模型基本都是針對英語且只能生成一種語言的文本描述.針對上述問題,本文提出了基于CNN與Transformer混合結(jié)構(gòu)的多語言圖像標(biāo)題生成模型.通過CNN對圖像提取后,使用Transformer中自注意力機(jī)制強(qiáng)化長序列單詞間的聯(lián)系,并通過多語言聯(lián)合訓(xùn)練增強(qiáng)圖像標(biāo)題生成質(zhì)量,提高模型魯棒性.實(shí)驗(yàn)表明,該模型比傳統(tǒng)基于LSTM的圖像標(biāo)題生成模型質(zhì)量更高,且可以同時生成多種語言的圖像標(biāo)題.
在計(jì)算機(jī)視覺領(lǐng)域,基于深度學(xué)習(xí)方法的模型通常使用卷積神經(jīng)網(wǎng)絡(luò)從圖像中提取特征,并輔以其他模塊來完成諸如分類和檢測之類的任務(wù).而自然語言處理領(lǐng)域是對文本詞匯編碼,依據(jù)不同任務(wù)使用不同解碼器完成任務(wù).與其他基于深度學(xué)習(xí)的研究工作一樣,當(dāng)前基于序列學(xué)習(xí)的圖像標(biāo)題生成模型也是端到端的訓(xùn)練,同樣遵循了機(jī)器翻譯任務(wù)中編碼器解碼器模型的基本框架,如圖1所示.在機(jī)器翻譯任務(wù)中,編碼器解碼器框架主要是為了解決不同語言的同一句子之間的長度不匹配的問題,該框架將待翻譯語句轉(zhuǎn)化為固定長度的中間向量,之后再借助循環(huán)神經(jīng)網(wǎng)絡(luò)作為解碼器解碼成為目標(biāo)語言的表達(dá)形式.
圖1 機(jī)器翻譯中編碼器解碼器結(jié)構(gòu)
以往有關(guān)機(jī)器翻譯的工作的研究為圖像標(biāo)題生成任務(wù)提供了一些啟發(fā).在機(jī)器翻譯任務(wù)中,輸入和輸出都是單詞序列.而在圖像標(biāo)題生成模型中,從卷積特征到自然語言生成的步驟非常相似.研究人員試圖對編解碼器進(jìn)行簡單的更改,在圖像標(biāo)題生成任務(wù)中取得了良好的效果.具體而言,基于卷積神經(jīng)網(wǎng)絡(luò)在計(jì)算機(jī)視覺領(lǐng)域的成功經(jīng)驗(yàn),將VGGNet、GoogleNet、ResNet等網(wǎng)絡(luò)結(jié)構(gòu)用作編碼器以提取圖像的卷積特征.在解碼階段,由于生成的描述語句中的單詞具有明顯的上下文關(guān)系,因此使用基于循環(huán)神經(jīng)網(wǎng)絡(luò)的解碼模塊.
圖2 注意力機(jī)制算法流程
注意力機(jī)制模型的算法流程如圖2所示,其計(jì)算過程可以分成3個階段,分別是相似度度量、權(quán)重值計(jì)算以及最后相對于基準(zhǔn)向量的注意力向量計(jì)算.
在相似度度量階段,假設(shè)解碼器上一時刻的隱藏層輸出St-1,通常是用一個Fatt函數(shù)將St-1與編碼器各位置的圖像特征vi做相似度計(jì)算,得到像素區(qū)域和語言之間的相似度eti,計(jì)算公式為
eti=Fatt(St-1,vi).
(1)
在完成第一階段的相似性度量之后,需要對得到的相似性數(shù)值進(jìn)行歸一化處理,避免數(shù)值取值范圍不同造成的不良影響.具體做法是把計(jì)算結(jié)果通過一個Softmax函數(shù)來轉(zhuǎn)化為概率,得到權(quán)重α,計(jì)算公式為
(2)
對得到的權(quán)重和相對應(yīng)的輸入進(jìn)行加權(quán)求和,即可得到最終的注意力向量Ct,并作為解碼器當(dāng)前的部分輸入,從而生成Yt,計(jì)算公式為:
(3)
Yt=Decoder(Ct,St-1,Yt-1).
(4)
在RNN或者LSTM中,需要按照單詞的連續(xù)序列進(jìn)行計(jì)算,從而獲得依賴信息,通過注意力機(jī)制,語言模型能夠生成單詞的不同時刻,找到需要關(guān)注的視覺區(qū)域,起到特征融合的作用.
機(jī)器翻譯領(lǐng)域提出的Transformer模型,是為了解決LSTM不能并行計(jì)算和不能較好支持較長距離序列依賴的問題,使用注意力機(jī)制去捕獲更深層的關(guān)聯(lián)特征.Transformer由多個模塊堆疊而成,其中每個模塊中的多頭注意力機(jī)制由多個自我注意力機(jī)制組成.Transformer對傳統(tǒng)的自我注意力機(jī)制進(jìn)行了改進(jìn),這里稱為縮放點(diǎn)積注意力機(jī)制(scaled dot-product attention),縮放點(diǎn)積注意力機(jī)制是Transformer 的核心組件,由查詢(Query)、鍵(Key)和值(Value)三部分組成.
縮放點(diǎn)積注意力機(jī)制的計(jì)算過程:使用所有鍵和查詢進(jìn)行點(diǎn)積計(jì)算并除以d,點(diǎn)積后的結(jié)果經(jīng)過一個Softmax函數(shù)獲得注意力機(jī)制在值上的權(quán)重.在計(jì)算注意力時,一般將鍵和值分別打包成矩陣K={k1,k2,…,kn}和矩陣V={v1,v2,…,vn}.加權(quán)在查詢對應(yīng)的矩陣Q={q1,q2,…,qn}上的注意力權(quán)重并行計(jì)算可以表示為
竹節(jié)蓼藥材的HPLC指紋圖譜建立及聚類分析…………………………………………………… 黎 理等(12):1640
(5)
Transformer中使用的不是單獨(dú)的自我注意力機(jī)制,而是一種多頭注意力機(jī)制,讓模型處理來自不同表示子空間的各種信息.多頭注意力機(jī)制包含n個平行的頭(head),其中每個頭都會經(jīng)過一個獨(dú)立的縮放點(diǎn)積注意力機(jī)制.經(jīng)過多頭注意力機(jī)制的加權(quán)特征MF可以表示為:
(6)
MultiHead(Q,K,V)=Concat(head1,…,headn)WO.
(7)
Transformer架構(gòu)在大小和計(jì)算規(guī)模上都比傳統(tǒng)的CNN更具效率和可擴(kuò)展性.在計(jì)算機(jī)視覺領(lǐng)域中采用Transformer的相關(guān)工作中主要有兩種模型架構(gòu):一種是純Transformer結(jié)構(gòu);另一種是將CNN主干網(wǎng)與Transformer相結(jié)合的混合結(jié)構(gòu).本文采用的是基于CNN與Transformer的混合結(jié)構(gòu)(見圖3).
圖3 CNN與Transformer混合模型
如圖3所示,本文的模型共分為3個模塊,分別是圖像特征提取部模塊、特征編碼模塊、語言模型解碼模塊.特征提取部分將輸入圖像通過卷積神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換為特征圖,添加位置編碼后輸入特征編碼模塊;特征編碼模塊將特征圖進(jìn)行轉(zhuǎn)換,學(xué)習(xí)特征圖像素之間的關(guān)系,傳入語言解碼模塊;語言模型解碼模塊根據(jù)編碼后的特征及傳入的文本標(biāo)題,生成預(yù)測標(biāo)題句子,將生成標(biāo)題與實(shí)際標(biāo)題計(jì)算損失得到損失值,反向傳播進(jìn)行參數(shù)優(yōu)化,最終生成符合人類語言習(xí)慣的圖像標(biāo)題句子.
在多語言圖像標(biāo)題生成方面,本文借鑒了多任務(wù)學(xué)習(xí)參數(shù)硬共享的模式,通過在不同任務(wù)中使用相同功能的網(wǎng)絡(luò)參數(shù),而同時保持不同任務(wù)中不同功能參數(shù)之間的差異性來設(shè)計(jì)模型.這種方式在一定程度上可以提升模型的性能,減輕過擬合.因?yàn)樵蕉嗳蝿?wù)同時學(xué)習(xí),模型就越能捕捉到多個任務(wù)中相同的特征表示,相當(dāng)于多個任務(wù)的數(shù)據(jù)集同時訓(xùn)練相同的網(wǎng)絡(luò)層從而提高模型的性能.
通過對不同語言的預(yù)處理,無須添加額外解碼器,單編碼器單解碼器同樣可以實(shí)現(xiàn)多語言圖像標(biāo)題生成,參考多語言機(jī)器翻譯,在語言輸入模型時提前在句子開頭添加語言標(biāo)簽,通過這樣的方式標(biāo)明輸入的句子屬于哪種語言,之后混合多種語言統(tǒng)一訓(xùn)練,實(shí)現(xiàn)一個模型輸出多個語言.
由于數(shù)據(jù)集中6種語言所屬語系的差別,不同語言間聯(lián)合訓(xùn)練可能會有不一樣的效果,因此我們根據(jù)語言相似度及語系,劃分出5種組合分別訓(xùn)練,由遠(yuǎn)至近分別為英語與漢語、英語與俄語、哈薩克語與維吾爾語、烏茲別克語與維吾爾語以及所有語言的混合訓(xùn)練.多語言圖像描述對于文本預(yù)處理有更高的要求,由于語言之間的差別,訓(xùn)練不可避免會出現(xiàn)許多干擾,為在這種情況下減少干擾,挖掘語言信息,提升多語言模型生成效果,由于多語言語料庫中的某些命名實(shí)體具有語音相似性,本文采取了將輸入模型的語言拉丁化,把多語言數(shù)據(jù)集中的不同語言轉(zhuǎn)換為普通拉丁文.
深度學(xué)習(xí)相關(guān)的圖像標(biāo)題生成方法的發(fā)展離不開包含成對圖像標(biāo)題的公開數(shù)據(jù)集.針對多語言數(shù)據(jù)集稀缺的情況,本文對圖像標(biāo)題生成領(lǐng)域的小型通用數(shù)據(jù)集Flickr8K[17]進(jìn)行多語言標(biāo)注,數(shù)據(jù)集規(guī)模如表1所示,為了把英語的數(shù)據(jù)集擴(kuò)展為多語言的數(shù)據(jù)集,采用機(jī)器翻譯的方法,其具有良好的擴(kuò)展性,更容易擴(kuò)大訓(xùn)練數(shù)據(jù)規(guī)模.機(jī)器翻譯與人工校對相結(jié)合的方式作為構(gòu)建數(shù)據(jù)集主要方法,盡可能獲得高質(zhì)量多語言圖像標(biāo)題生成數(shù)據(jù)集.
表1 數(shù)據(jù)集規(guī)模
本文對比谷歌翻譯、百度翻譯、有道翻譯和民族翻譯局等幾個公開翻譯網(wǎng)頁接口,選擇的構(gòu)建方案是將原始英文數(shù)據(jù)通過谷歌翻譯將其翻譯為俄語、哈薩克語和烏茲別克語.將原始英語通過有道翻譯將其翻譯為中文.將校對后的中文通過民族翻譯局將其翻譯為維吾爾語.最終獲得包含英語、漢語、俄語、哈薩克語、烏茲別克語和維吾爾語共6種語言的多語言Flickr8K圖像標(biāo)題生成數(shù)據(jù)集,將標(biāo)題句子分詞,去除標(biāo)點(diǎn)符后,對句子長度進(jìn)行統(tǒng)計(jì),結(jié)果如圖4所示,可以發(fā)現(xiàn)構(gòu)建的多語言數(shù)據(jù)集句子長度分布較為相似,通過機(jī)器翻譯與人工校對相結(jié)合構(gòu)建的多語言Flickr8K圖像標(biāo)題生成數(shù)據(jù)集與原始分布相近且標(biāo)注質(zhì)量較好.
圖4 6種語言句子長度統(tǒng)計(jì)
實(shí)驗(yàn)在Ubuntu18.04操作系統(tǒng)上進(jìn)行,GPU為GeForce RTX 2080 Ti(11 GB),CPU為Intel(R) Core(TM) i5-9400F CPU @ 2.90 GHz處理器,內(nèi)存32 GB.Pytorch版本1.4.0,Torchvision版本0.5.0,F(xiàn)airSeq版本0.9.0.使用預(yù)訓(xùn)練的resnet101作為特征提取器,解碼器為完整的Transformer模型,Transformer層數(shù)為4,詞向量維度為256,隱藏層維度為512,Batch Size為32,Dropout為0.5,激活函數(shù)為Swish,多頭注意力頭的個數(shù)為8,全連接隱藏層狀態(tài)為4 096,優(yōu)化器方法是Adam,Label smoothing=0.1,學(xué)習(xí)率衰減方法為noam,訓(xùn)練epoch為100.解碼階段采用Beam Search策略來進(jìn)行預(yù)測,Beam Size大小為5.預(yù)處理時使用Uroman工具將所有語言進(jìn)行拉丁轉(zhuǎn)化.
評價模型表現(xiàn)的優(yōu)劣會用不同的評價指標(biāo)描述,并且不同的評價指標(biāo)側(cè)重不同的角度進(jìn)行評估.本文實(shí)驗(yàn)使用的評測指標(biāo)有BLEU[18](Bilingual Evaluation Understudy)、METEOR[19](Metric for Evaluation of Translation with Explicit Ordering)、ROUGE[20](Recall-Oriented Understudy for Gisting Evaluation)和CIDEr[15](Consensus-based Image Description Evaluation).
BLEU是一個基于N-gram共線統(tǒng)計(jì)的指標(biāo),用來衡量兩個句子之間的相似性.根據(jù)兩個句子的N-gram共線頻率,可以計(jì)算出所生成的句子對于參考句的查準(zhǔn)率.METEOR在計(jì)算兩個句子的相似程度時,同時考慮同義詞等相關(guān)信息,利用同義詞庫作為輔助信息,計(jì)算生成的描述句對于參考描述性句的準(zhǔn)確性與召回率之間的調(diào)和平均.ROUGE類似于BLEU,本文采用了基于最大公共序列的ROUGE-L來計(jì)算召回率.CIDEr通過對每個n元組進(jìn)行TF-IDF權(quán)值計(jì)算測量圖像描述的一致性.這4個指標(biāo)均是值越大,表明模型越好.其中BLEU-1、BLEU-2、BLEU-3、BLEU-4、METEOR、ROUGEL、CIDEr指標(biāo)分?jǐn)?shù)分別由B_1,B_2,B_3,B_4,M,R,C表示.
僅使用英文單語言訓(xùn)練,與主流的神經(jīng)網(wǎng)絡(luò)圖像標(biāo)題生成模型對比,同時對比不使用混合結(jié)構(gòu)的Transformer圖像標(biāo)題生成模型,結(jié)果如表2所示.
表2 不同模型結(jié)構(gòu)下實(shí)驗(yàn)結(jié)果
從表2可以看出,與基礎(chǔ)的NIC模型相比,添加注意力后的圖像標(biāo)題生成模型提升效果顯著,在各個指標(biāo)上都有明顯提升,改進(jìn)的軟注意力機(jī)制與自適應(yīng)注意力機(jī)制有較為明顯的差距.與傳統(tǒng)的CNN+RNN圖像標(biāo)題生成模型不同,兩種基于Transformer的圖像標(biāo)題生成模型之間差距極大.僅靠Transformer模型進(jìn)行圖像特征提取及圖像標(biāo)題生成,最終結(jié)果極差,幾乎不能生成完整的句子;而CNN與Transformer的混合模型卻比傳統(tǒng)的圖像標(biāo)題生成模型有更好的評測分?jǐn)?shù),將BLEU-4值從18.3提升到23.6,相對于原始NIC模型提升幅度達(dá)到28.9%.這兩組實(shí)驗(yàn)說明在數(shù)據(jù)規(guī)模較小的情況下,僅靠Transformer模型實(shí)現(xiàn)圖像標(biāo)題生成并不可行,而使用CNN進(jìn)行特征提取,將原始LSTM替換為在自然語言處理領(lǐng)域效果更好的Transformer模型是提升小規(guī)模數(shù)據(jù)集效果的一種可行方法.
對于多語言聯(lián)合訓(xùn)練,本文根據(jù)語系按相關(guān)性由遠(yuǎn)至近的原則,對6種語言分成5組分別進(jìn)行實(shí)驗(yàn),英語、漢語屬于不同語系,英語、俄語屬于同一語系不同語族,哈薩克語、維吾爾語屬于統(tǒng)一語族不同語支,維吾爾語、烏茲別克語則語系語族語支都相同.將6種語言進(jìn)行混合訓(xùn)練,所有實(shí)驗(yàn)結(jié)果如表3所示.
表3 不同語言混合訓(xùn)練結(jié)果
通過實(shí)驗(yàn)結(jié)果可以看出,多語言聯(lián)合訓(xùn)練對大多數(shù)語言是有所提升的,烏茲別克語與維吾爾語聯(lián)合訓(xùn)練在質(zhì)量相對平均的情況下,兩種相似語言的聯(lián)合訓(xùn)練帶來了明顯的提升.英語和漢語聯(lián)合訓(xùn)練也有較好的提升,這兩種語言盡管形態(tài)差異大,但數(shù)據(jù)質(zhì)量較高,因此聯(lián)合訓(xùn)練會有較好結(jié)果.英語和俄語、高質(zhì)量與質(zhì)量一般形態(tài)相近的兩種語言聯(lián)合訓(xùn)練,效果反而有所下降.6種語言混合訓(xùn)練在英漢上會有進(jìn)一步提升,俄語和哈薩克語與混合前相當(dāng),而烏茲別克語與維吾爾語盡管有所提升但還是不如僅使用兩種語言聯(lián)合訓(xùn)練.這些都說明在小規(guī)模數(shù)據(jù)上,數(shù)據(jù)集質(zhì)量對模型的影響比語言學(xué)上的相關(guān)性要顯著得多.盡管如此,在數(shù)據(jù)集質(zhì)量相同的情況下,盡可能使用語種相近的語言進(jìn)行多語言聯(lián)合訓(xùn)練,是未來多語言圖像標(biāo)題生成的改進(jìn)方向.為了直觀地看出聯(lián)合訓(xùn)練后模型的性能,給出一些模型生成的例子,生成的例子如圖5所示.
圖5 圖像標(biāo)題生成結(jié)果
實(shí)驗(yàn)表明,本文提出的基于CNN與Transformer混合結(jié)構(gòu)的多語言圖像標(biāo)題生成模型比傳統(tǒng)基于LSTM的圖像標(biāo)題生成模型質(zhì)量更高,且可以同時生成多種語言的圖像標(biāo)題,顯著提升了圖像標(biāo)題生成模型的應(yīng)用范圍.
本文首先介紹了現(xiàn)有圖像標(biāo)題生成任務(wù)的常見方法,分析存在的問題:一是目前模型還是使用LSTM作為解碼器,而LSTM對較長序列不能很好地支持,限制了模型性能;二是現(xiàn)有圖像標(biāo)題生成模型基本都是針對英語且只能生成一種語言的文本描述.針對上述問題,本文拓展基于公開數(shù)據(jù)集的多語言圖像標(biāo)題生成數(shù)據(jù)集,提出了基于CNN與Transformer混合結(jié)構(gòu)的多語言圖像標(biāo)題生成模型.實(shí)驗(yàn)表明,該模型比傳統(tǒng)基于LSTM的圖像標(biāo)題生成模型質(zhì)量更高,且可以同時生成多種語言的圖像標(biāo)題,顯著提升了圖像標(biāo)題生成模型的應(yīng)用范圍.
雖然實(shí)驗(yàn)效果較好,但仍然存在不足之處.實(shí)驗(yàn)數(shù)據(jù)集規(guī)模相較于英文通用圖像標(biāo)題生成數(shù)據(jù)集還是較小.未來將在增加語料的同時可以引入強(qiáng)化學(xué)習(xí)方法,對最終結(jié)果進(jìn)行進(jìn)一步優(yōu)化,得到更好的評測分?jǐn)?shù),而如何在圖像標(biāo)題生成數(shù)據(jù)量不足的情況下,通過各種方法提升生成標(biāo)題的質(zhì)量也是未來需要研究的問題.