劉茂福 畢健旗 周冰穎 胡慧君
(武漢科技大學(xué)計算機科學(xué)與技術(shù)學(xué)院 武漢 430065)
(liumaofu@wust.edu.cn)
圖像描述生成,旨在給定一幅圖像,生成描述該幅圖像的自然語言文本.近年來,隨著社會媒體和電子商務(wù)的發(fā)展,圖像描述生成已廣泛應(yīng)用于商品描述生成等任務(wù),引起廣泛關(guān)注[1-2].為適應(yīng)需求,設(shè)計高效且具備可解釋性的圖像描述生成模型存在一定難度,原因包括:1)模型不易理解視覺目標(biāo)實體與其對應(yīng)文本之間復(fù)雜的關(guān)系;2)根據(jù)提取的視覺和語法特征,很難可控地、可解釋地生成圖像描述.
編碼器-解碼器框架在圖像描述生成任務(wù)中應(yīng)用廣泛[3-4].編碼器中,F(xiàn)aster R-CNN 被用于提取圖像中的區(qū)域特征[5],區(qū)域特征包括圖像區(qū)域中的實體、實體間關(guān)系和場景語義[6]的特征表示.在此基礎(chǔ)上,曾有工作將圖像中的實體根據(jù)位置等關(guān)系構(gòu)成場景圖[7],并應(yīng)用圖神經(jīng)網(wǎng)絡(luò)獲取實體詞結(jié)點的特征表示[8-9],旨在高效利用圖像中包含的各類信息.在Faster RCNN 提取出的圖像區(qū)域特征基礎(chǔ)上,Transformer 被廣泛應(yīng)用于提煉圖像實體及其關(guān)系的細(xì)粒度表征[10-11];但僅使用Transformer 提取的圖像實體及其關(guān)系特征易忽視與圖像實體詞間潛在的語法關(guān)系,進而忽略語言模型的可解釋性.解碼器中,當(dāng)前主流模型普遍采用長短期記憶網(wǎng)絡(luò)(long short-term memory,LSTM)或軟注意力機制LSTM[12],通過選擇性聚焦于重點圖像區(qū)域來生成圖像描述中的單詞;但基于軟注意力機制的模型僅根據(jù)圖像部分區(qū)域特征和某一時刻的文本詞特征之間的關(guān)系來生成圖像描述文本,并未將深層語法信息帶入生成模型,無法很好地體現(xiàn)語言模型的可解釋性.為了在模型中增加語法信息,曾有工作從模板庫中提取詞性序列[13-14]或句法樹[15]作為額外的語法信息,以提高生成描述的準(zhǔn)確性與多樣性.但利用詞性序列或句法樹僅考慮當(dāng)前文本詞的語法限制,而缺乏當(dāng)前文本詞與其他文本詞的長距離交互限制.此外,上述工作[10-15]在可解釋性上關(guān)注較少.依存句法反映了任意2 個長距離單詞之間依存關(guān)系的依存句法,可作為模型的補充語法信息用于提高模型的可解釋性.但由于每條圖像描述都對應(yīng)唯一獨特的依存句法三元組序列,而構(gòu)建一個依存句法模板庫較為困難.
為解決現(xiàn)有語言模型可解釋性不足和語法信息利用不全的問題,考慮設(shè)計同時生成依存句法三元組序列和圖像描述的模型.如圖1 所示,依存句法三元組序列(dependency syntax triplet sequence,DSTS)可以限制每個時間戳上的單詞選擇.例如,三元組“ 〈aux,2,3〉”不僅限制圖像描述中第3 個詞“is”的詞性為輔助動詞,還限制了圖像描述中位置2 和位置3對應(yīng)單詞之間的修飾關(guān)系,而模型Bottom-Up[16]模型和X-LAN[17]模型由于缺少“car”與“road”之間的長距離依賴而不能生成輔助動詞“is”.
Fig.1 Examples of generated image captions by Bottom-Up,X-LAN and IDSTM models圖1 Bottom-Up,X-LAN 和IDSTM 模型生成的圖像描述示例
本文提出基于依存句法三元組的可解釋圖像描述生成模型(interpretable image caption generation based on dependency syntax triplets modeling,IDSTM),該模型主要由圖像編碼和文本解碼2 部分組成,聯(lián)合生成依存句法三元組序列和圖像描述.圖像編碼部分,依存句法編碼器提取圖像區(qū)域?qū)嶓w詞之間潛在的依存關(guān)系;圖像描述編碼器增強視覺實體詞的特征表示.文本解碼部分,依存感知長短期記憶網(wǎng)絡(luò)(dependency-aware LSTM,DLSTM)以依存句法編碼器輸出作為輸入,輸出潛在的圖像描述文本對應(yīng)的依存句法;聚焦圖像信息的視覺感知長短期記憶網(wǎng)絡(luò)(vison-aware LSTM,VLSTM)和詞感知長短期記憶網(wǎng)絡(luò)(word-aware LSTM,WLSTM)交互地將DSTS 和視覺特征解碼為圖像描述文本.為評估生成DSTS 的質(zhì)量,本文還提出新的評價指標(biāo)B1-DS(BLEU-1-DS),B4-DS(BLEU-4-DS),M-DS(METEOR-DS).
本文的主要貢獻包括3 個方面:
1)設(shè)計了基于依存句法三元組序列建模的可解釋圖像描述生成模型,將多任務(wù)學(xué)習(xí)的目標(biāo)設(shè)定為聯(lián)合生成依存句法三元組序列和圖像描述文本.
2)將Transformer 作為圖像內(nèi)容編碼器融進圖像視覺實體詞間的依存關(guān)系挖掘,并建立圖像視覺實體詞和依存句法三元組之間的映射關(guān)系.
3)提出新的應(yīng)用于測評DSTS 生成質(zhì)量的評估指標(biāo),即B1-DS,B4-DS,M-DS,以證明提出的模型在生成DSTS 方面的能力.
目前大多數(shù)圖像描述生成模型傾向于應(yīng)用編碼器-解碼器框架將輸入圖像轉(zhuǎn)換為文本.最初,軟注意力機制[12]被用來捕獲生成的文本詞在圖像中對應(yīng)的顯著視覺區(qū)域.自適應(yīng)注意力機制[18]控制模型的圖像注意力機制僅在視覺顯著區(qū)域存在的時刻發(fā)揮作用,而在生成連接詞的時刻關(guān)注文本本身的信息.He等人[19]引入了視覺-語義雙重注意力機制,從視覺和語義2 個角度分別捕捉圖像及其描述文本的有益信息.Ben 等人[20]使用帶有語義約束的自批判性學(xué)習(xí)方法[21]優(yōu)化了圖像描述生成模型在訓(xùn)練階段和測試階段之間的差異.Anderson 等人[16]和Shi 等人[8]的圖像編碼階段采用了Faster R-CNN 方法,通過檢測圖像中實體的邊界和實體間的關(guān)系來表示圖像區(qū)域?qū)嶓w特征.基于屬性骨架分解[15]的模型使用Attr-LSTM和Skel-LSTM 生成由句法樹引導(dǎo)的圖像描述文本.Deshpande 等人[13]將詞性標(biāo)注序列作為模型的輸入,以提高生成圖像描述的速度和多樣性.Hou 等人[14]使用詞性標(biāo)注序列模板來改進視頻文本的語法表示.Yang 等人[22]將語言模型與視覺結(jié)構(gòu)對齊,使用詞性模板約束生成模型,而為圖像描述生成模型選擇合適的語法模板仍具有挑戰(zhàn)性.
Transformer 模型由于其強大的特征提取能力被廣泛使用.Luo 等人[10]使用雙層協(xié)同Transformer 來提高圖像描述生成模型的性能,并使用Transformer對齊了區(qū)域特征和網(wǎng)格特征.Ji 等人[11]利用Transformer中的層內(nèi)和層間的全局表示,通過LSTM 梳理Transformer 編碼器層中的所有輸出向量來探索圖像實體詞間潛在的語義信息.因此,本文選擇Transformer 作為編碼器,旨在提取更高級的依存句法特征.
在圖像描述生成領(lǐng)域,多任務(wù)學(xué)習(xí)(multi-task learning,MTL)也常用于增強文本詞的表示.Shi 等人[8]提出的模型在生成圖像描述的同時預(yù)測了單詞的詞性,詞性預(yù)測任務(wù)作為輔助任務(wù)提高了模型生成圖像描述的準(zhǔn)確率.Wang 等人[23]使用雙向長短期記憶網(wǎng)絡(luò)(bi-directional LSTM,BiLSTM)和多任務(wù)學(xué)習(xí)來完成圖像-句子檢索.多任務(wù)學(xué)習(xí)考慮了任務(wù)之間的共同性,可通過共享模型中的重要模塊降低模型參數(shù)大小.受多任務(wù)學(xué)習(xí)的啟發(fā),考慮增加依存句法三元組序列生成任務(wù)作為輔助任務(wù),使圖像描述生成任務(wù)更具可解釋性.
可解釋性是指模型為用戶解釋決策結(jié)果的能力[24].深度學(xué)習(xí)模型中的可解釋性研究大多集中在2個方向:1)可視化決策過程,如權(quán)重可視化或畫出一個決策樹等;2)多任務(wù)聯(lián)合訓(xùn)練,通過輔助任務(wù)的學(xué)習(xí)降低主要任務(wù)學(xué)習(xí)的難度.Lu 等人[25]提出了可解釋Hash 編碼方法,嵌入了不同類別的判別信息,使每次決策都具有固定意義.Tang 等人[26]采用從解碼器獲得的規(guī)則來解釋編碼器中事件分類器的結(jié)果,使分類更具可解釋性.計算機視覺領(lǐng)域中常用的可視化技術(shù)在自然語言處理中也被廣泛應(yīng)用,Gonen 等人[27]便基于視覺可視化方法提出了一種可解釋的錯誤單詞檢測方法,使錯誤單詞判定過程更具可解釋性.
依存句法是一種以謂語動詞為結(jié)構(gòu)中心的句法分析方法.Falenska 等人[28]采用基于BiLSTM 的模型驗證了依存句法中包含的結(jié)構(gòu)信息對文本分析的積極作用.Wang 等人[29]根據(jù)依存句法構(gòu)建了句法樹,并驗證了自注意力機制[30]中的位置標(biāo)記嵌入向量結(jié)合依存關(guān)系順序后可以提高Transformer 對文本編碼的性能.Bugliarello 等人[31]的研究表明,依存句法通過自注意力機制增強了模型在機器翻譯的表現(xiàn),而在圖像描述生成領(lǐng)域,沒有關(guān)于依存句法的開創(chuàng)性應(yīng)用.因此,本文嘗試采用依存句法來提高圖像描述生成模型的可解釋性.
本文提出的可解釋圖像描述生成模型IDSTM 如圖2 所示,該模型由圖像編碼和文本解碼2 個部分組成.IDSTM 模型在生成圖像描述文本之前,會先理解潛在的依存句法,再根據(jù)句法信息組織用以描述圖像的單詞,符合人類的學(xué)習(xí)思維.
Fig.2 IDSTM model framework圖2 IDSTM 模型框架
圖像編碼部分,依存句法編碼器DSEncoder 以圖像區(qū)域特征IR、圖像區(qū)域位置嵌入向量和全局視覺特征IG作為輸入,通過與圖像描述編碼器CEncoder 交互來確定文本解碼部分DLSTM,VLSTM,WLSTM 所需的視覺與依存關(guān)系信息.文本解碼部分,通過多任務(wù)聯(lián)合學(xué)習(xí)方式完成依存句法三元組序列和圖像描述文本2 個生成任務(wù).圖2 中,WLSTM 為詞感知LSTM,VLSTM 為視覺感知LSTM,DLSTM 是依存感知LSTM,生成依存句法三元組序列DSTS,ti表示第i個時間步,描述注意力CATT 和關(guān)系注意力RATT 為軟注意力機制.
其中∈Rn×E表示增強后的圖像區(qū)域特征.基于區(qū)域特征,按區(qū)域個數(shù)維度求和平均后得到全局視覺特征表示IG,
IDSTM 模型采用了2 個基于Transformer 的編碼器提取圖像區(qū)域特征,即圖2 中依存句法編碼器和圖像描述編碼器.依存句法編碼器從優(yōu)化后的圖像區(qū)域特征提取圖像內(nèi)實體詞間的句法特征,用于依存句法三元組序列生成.圖像描述編碼器增強圖像中包含實體詞的特征表示,用于圖像描述生成.將全局視覺特征IG和圖像區(qū)域特征拼接得到圖像區(qū)域特征IP,
其中concate(·)指連接操作.將IP∈R(n+1)×E輸入至依存句法編碼器進一步處理,
其中Ol代表編碼器第l層的輸出,依存句法編碼器的初始輸入為IP,即X0=IP,F(xiàn)FN(·)代表雙層前饋神經(jīng)網(wǎng)絡(luò).多頭注意力Multihead(·)的計算公式為:
1)依存句法三元組序列生成.參考描述表示為S={word1,word2,…,wordn},IDSTM 模型的輸入為由參考描述得到的依存句法三元組序列R={relation1,relation2,…,relationL}.利用視覺關(guān)系信息,首先采用了圖2 中的關(guān)系注意力機制RATT,使模型學(xué)習(xí)依存句法特征ID的有價值部分,用來指導(dǎo)時間步ti的三元組生成.注意力機制的計算過程為
為預(yù)測時間步ti的三元組,將與前一時間步ti-1三元組嵌入向量ri-1進行整合,作為DLSTM 輸入的ri-1,由依存句法三元組經(jīng)過線性層得到,如依存句法三元組“ 〈aux,4,3〉”的下標(biāo)為3,則線性層下標(biāo)為3 的位置對應(yīng)的參數(shù)即為三元組的嵌入向量,公式為:
其中wordi和relationi分別代表 S 和 R 中的第i個詞和依存句法三元組,L是依存句法三元組的長度,u指批次(其最大值為B),word0是初始化字符“ 〈start〉”.
2)圖像描述生成.給定包含n塊被選圖像區(qū)域特征和融合全局視覺特征的依存關(guān)系特征IC=,IDSTM 模型采用雙層LSTM來生成圖像描述.生成圖像描述的最小化交叉熵?fù)p失函數(shù)為
雙層LSTM 具體是指其底層和頂層.底層LSTM如圖2 的視覺感知VLSTM,由fVLSTM表示,向量與全局視覺特征表示IG作為輸入,
其中hv∈R1×H代表了VLSTM 的隱藏層狀態(tài).
頂層LSTM 如圖2 的詞感知WLSTM,由fWLSTM表示,它將VLSTM 隱向量、RATT 注意力模塊輸出的依存關(guān)系特征和由DLSTM 生成的三元組嵌入向量ri作為輸入,通過式(14)限制詞表可選擇的范圍:
現(xiàn)代市場營銷模式把消費者的利益和需求放在首要位置,這是市場營銷的一場巨大變革。很多企業(yè)在企劃市場營銷之前,都要對消費者的消費需求和消費欲望與市場行情進行客觀、詳細(xì)的深入了解。其次,企業(yè)要針對自身的產(chǎn)品對行業(yè)內(nèi)部的市場飽和程度進行調(diào)研,準(zhǔn)確針對自身的產(chǎn)品進行市場定位,結(jié)合企業(yè)自身的情況和未來發(fā)展的方向,對潛在的消費者、市場、客戶進行精準(zhǔn)的定位。在完成這一系列的前期轉(zhuǎn)化工作之后,企業(yè)集中所有的人力、物力、財力制定出準(zhǔn)確的市場營銷計劃和方案,很好地落實到實踐中去,實現(xiàn)社會、消費者和企業(yè)三方共贏的良好發(fā)展趨勢。
采用軟限制和硬限制2 種機制將依存句法三元組嵌入向量ri整合至WLSTM,如圖3 所示.軟限制首先生成整個依存句法三元組序列的嵌入向量,再根據(jù)注意力機制使WLSTM 在嵌入向量中尋得關(guān)注部分;硬限制將依存句法三元組嵌入向量,根據(jù)位置信息直接指導(dǎo)文本單詞的生成,這是因為每個在第i個位置的三元組描述的是第i個詞與其他某位置的詞之間的依存關(guān)系.
Fig.3 The image caption generation based on soft limitation圖3 基于軟限制的圖像描述生成
IDSTM 模型采用了多任務(wù)學(xué)習(xí)的方式來優(yōu)化目標(biāo),整體損失函數(shù)為
其中 γ為平衡系數(shù).當(dāng) γ=1.5 時,圖像描述生成任務(wù)對模型損失值的影響程度大于依存句法三元組序列生成任務(wù),符合模型最終目標(biāo).
IDSTM 模型在MSCOCO 數(shù)據(jù)集[32]上進行了廣泛實驗.數(shù)據(jù)集劃分與Karpathy 等人[1]操作相同,即訓(xùn)練集、驗證集和測試集圖像規(guī)模分別為113 000 幅、5 000 幅和5 000 幅,每幅圖像標(biāo)注有5 個描述文本.為評估模型在圖像描述生成方面的性能,采用了7個標(biāo)準(zhǔn)評估指標(biāo),B1(BLEU-1)至B4(BLEU-4)[33],METEOR[34],ROUGE-L[35]和CIDEr[36].
生成DSTS 的質(zhì)量間接反映所提出的IDSTM 模型的可解釋性.然而,與一般評測DSTS 任務(wù)不同,圖像描述生成任務(wù)的輸入不包含標(biāo)簽文本,因此,需要設(shè)計新的評價指標(biāo)來評估IDSTM 模型生成DSTS 的質(zhì)量.本文提出新的評價指標(biāo)B1-DS,B4-DS,M-DS,其采用了與B1,B4,METEOR 相同的計算公式,B1-DS 根據(jù)候選DSTS 和參考DSTS 的unigram 重復(fù)度來計算得分,M-DS 同時考慮了候選DSTS 和參考DSTS 之間的重疊塊的順序.
為直觀地評估生成DSTS 的可行性,在MSCOCO訓(xùn)練集[1]上,對其依存句法三元組類別、三元組序列、單詞數(shù)量進行了統(tǒng)計,分別為4 442,566 500,11 275,其中依存句法三元組序列與圖像描述的數(shù)量相同.實驗中,對于三元組和單詞維度而言,由于三元組類別數(shù)量少,三元組的選擇比模板或單詞選擇更加簡單.
本文采用Faster R-CNN 來檢測所有可能的區(qū)域,并控制每個圖像包含的區(qū)域數(shù)量為36 個.每個區(qū)域的圖像特征都是一個2 048 維的向量.在訓(xùn)練過程中,批大小設(shè)置為64.依存句法編碼器和圖像描述編碼器中,多頭注意力的層數(shù)為4,每層包含8 個頭、1 個線性層和1 個殘差連接.選擇Adam 作為模型訓(xùn)練階段的優(yōu)化器,編碼階段和解碼階段的初始學(xué)習(xí)率分別為0.001,0.0005.解碼階段,DLSTM,VLSTM,WLSTM隱向量維度均為1 024,每個單詞或三元組也被表示為1 024 維向量.軟注意力機制中的注意力維度為1 024.測試階段采用束搜索策略生成DSTS 和圖像描述文本,且束大小設(shè)置為5.在圖像描述生成過程中,采用教師強制(teacher-forcing)機制來提高訓(xùn)練階段的收斂速度.與常用圖像描述生成模型不同,IDSTM 模型中的WLSTM 將三元組嵌入向量作為輸入,避免DLSTM可能導(dǎo)致的梯度誤差積累.使用Stanford CoreNLP工具包[37]來解析圖像描述,得到對應(yīng)的由形如“〈relation,pos1,pos2〉”的三元組構(gòu)成的DSTS,“relation”表示索引pos1 和索引pos2 之間的依存關(guān)系.
為驗證IDSTM 模型中Transformer 結(jié)構(gòu)特征的提取能力,分別對圖2 依存句法編碼器和圖像描述編碼器注意力頭數(shù)進行參數(shù)優(yōu)化,如圖4 所示.
Fig.4 The variance of B4 with the attention heads圖4 指標(biāo) B4 隨注意力頭數(shù)的變化
圖4 中可以看出,注意力頭數(shù)對指標(biāo)B4 的影響呈波峰狀,在注意力頭數(shù)為8 時,模型取得最高B4 值;在注意力頭數(shù)從8 上升至16 時,模型的效果急劇下降,該現(xiàn)象表明大量注意力頭會使圖像在自注意力中的特征維度降低,進而影響特征表達,導(dǎo)致原本完整的特征被切分.此外,無論是依存句法特征還是依存關(guān)系特征均存在內(nèi)部長距離依存關(guān)系,因此不適合被切分過細(xì).
為驗證本文提出的IDSTM 模型的有效性,采用的對比模型為:
1)SCST[21]在重新訓(xùn)練基線模型的過程中,獎懲正確與錯誤采樣以提高模型選擇的準(zhǔn)確性.
2)LSTM-A[38]采用CNN 網(wǎng)絡(luò)來提取屬性信息,增強模型對圖像中實體間關(guān)系的理解.
3)Bottom-Up[16]提出利用自底向上和自頂向下的注意力機制來捕獲視覺特征,并將其用于語言模型來生成圖像描述文本.
4)ICSAD[15]將生成的語法樹作為圖像描述文本的語法框架,優(yōu)化粗糙文本提高模型的圖像描述生成能力.
5)POS+Joint[13]利用詞性標(biāo)注序列來提高模型的生成速度和文本多樣性.
6)X-LAN[17]采用X-Linear 注意力來捕獲多模態(tài)間二級交互關(guān)系,進而提取多模態(tài)間的高級特征表示,提高圖像描述的生成能力.
7)DLCT[10]沿用了Transformer 結(jié)構(gòu),將圖像網(wǎng)格特征與圖像區(qū)域特征對齊,提高模型對圖像的感知能力.
8)GET[11]在Transformer 結(jié)構(gòu)基礎(chǔ)上沿用了LSTM,將Transformer 內(nèi)部每層的輸出都作為LSTM 的輸入,并組合了所有圖像特征,用來指導(dǎo)圖像描述生成.
9)IDSTMwA 基于軟注意力機制選擇依存句法特征,指導(dǎo)圖像描述生成.
10)IDSTM 基于生成的依存句法三元組序列位置信息,指導(dǎo)WLSTM 生成圖像描述文本.
各模型的實驗結(jié)果如表1 所示,有3 個發(fā)現(xiàn):
Table 1 Experimental Results of IDSTM and Comparative Models on MSCOCO Dataset表1 在MSCOCO 數(shù)據(jù)集上IDSTM 模型和對比模型的實驗結(jié)果 %
1)對于3 個評價指標(biāo)B4,METEOR,ROUGE-L,IDSTM 模型比模型SCST,LSTM-A,Bottom-Up 的效果好,表明本文提出的IDSTM 模型可以生成更豐富的圖像描述文本,且模型生成的依存句法特征提供了足量句法信息,即IDSTM 模型能比其他基線模型發(fā)現(xiàn)更多的語法限制.然而,IDSTM 模型在CIDEr 分?jǐn)?shù)上略低于LSTM-A 等模型.原因可能在于IDSTM模型生成的圖像描述文本中存在不同于參考描述的同義詞,導(dǎo)致整體文本重復(fù)度變低.對于模型ICSAD和POS+Joint,IDSTM 模型在所有評價指標(biāo)上都表現(xiàn)更突出,相比于詞性標(biāo)注序列和句法樹,依存句法提供了更豐富的句法信息.
2)X-LAN,DLCT,GET 模型的表現(xiàn)十分突出,在CIDEr 指標(biāo)上體現(xiàn)最為明顯.主要原因是上述3 個模型均采用了強化學(xué)習(xí)的方法來獎勵模型,在模型得到的CIDEr 分?jǐn)?shù)更高時獎勵則更大.與上述模型不同,IDSTM 模型更關(guān)注于模型的可解釋性.與IDSTM 模型結(jié)構(gòu)更相似的X-LAN 模型在指標(biāo)B1 上的值低于IDSTM 模型,體現(xiàn)出依存句法三元組對選詞的語法限制.
3)IDSTM 模型在所有指標(biāo)上都優(yōu)于IDSTMwA模型,在B4 和CIDEr 指標(biāo)上,IDSTM 分別比IDSTMwA高0.71%和1.96%,這表明IDSTM 模型可以學(xué)習(xí)到質(zhì)量更高的依存句法三元組嵌入向量特征表示.
圖5 為Bottom-Up 與IDSTM 模型在訓(xùn)練階段的收斂速度對比圖,橫軸表示訓(xùn)練的迭代次數(shù),縱軸表示損失值或B4 值,訓(xùn)練最大迭代次數(shù)為40.從圖5可以發(fā)現(xiàn),在損失值和B4 值指標(biāo)上,IDSTM 模型都取得了更好的效果.IDSTM 模型的損失值曲線相較于Bottom-Up 模型顯得更加平滑,在第29 輪訓(xùn)練時取得最優(yōu)模型,而Bottom-Up 則需要34 輪訓(xùn)練.相較于模型Bottom-Up,IDSTM 模型在依存句法三元組序列生成和圖像描述生成2 個任務(wù)上共享圖像編碼區(qū)特征提取器的參數(shù),因此在損失函數(shù)上的限制更多,也反映出依存句法可以提高模型對文本單詞和依存句法三元組的特征學(xué)習(xí)表示能力.
Fig.5 Convergence of IDSTM and Bottom-Up in the training phase圖5 IDSTM 與 Bottom-Up 在訓(xùn)練階段的收斂情況
消融實驗通過替換至少1 個IDSTM 模型中的模塊來實現(xiàn),表2 列出了用于消融實驗的變體模型名稱以及模型的描述,移除圖像特征提取模塊的對應(yīng)模型會直接采用圖像區(qū)域特征代替,實驗結(jié)果如表3所示.
Table 2 Ablation Experiment Models表2 消融實驗?zāi)P?/p>
Table 3 Ablation Experiment Results表3 消融實驗結(jié)果 %
從表3 可得到6 個發(fā)現(xiàn):
1)w/o 1 m 模型在B1,B4,CIDEr 指標(biāo)上得分較低,然而在B1-DS,B4-DS,M-DS 指標(biāo)上卻得分較高,w/o 2 m 的效果與其恰好相反.此現(xiàn)象表明使用基于Transformer 的單層圖像特征提取器只能提高2 個生成任務(wù)中的1 個,缺少2 個任務(wù)間的交互.
2)相比表1 的Bottom-Up 模型,w/o ms 模型的CIDEr 提高3.92%.w/o ms 模型在生成圖像描述文本時,生成了更多的連接詞,如“is”和“are”,連接詞的出現(xiàn)會增大共現(xiàn)概率,從而提高基于TF-IDF 的CIDEr指標(biāo).從模型結(jié)構(gòu)上分析,w/o ms 模型與Bottom-Up模型只相差依存句法三元組序列生成模塊,表明依存句法三元組序列生成任務(wù)的有效性.
3)choms 模型在B1-DS,B4-DS,M-DS 指標(biāo)上比IDSTM 模型分別低3.64%,6.44%,2.57%,可知當(dāng)依存句法編碼器與圖像描述編碼器異構(gòu)時,交換2 個特征提取器的順序會降低模型性能.
4)w/o conn 在各個指標(biāo)上的效果均較差,表明殘差連接在IDSTM 模型中發(fā)揮了較重要的作用,使反向傳播更加穩(wěn)定.
5)cls 模型在各個指標(biāo)上的結(jié)果表明,將依存句法三元組序列的生成任務(wù)視為序列標(biāo)注任務(wù)增大了模型的復(fù)雜度,因此將其視為生成任務(wù)更為合理.
6)w/o 1 m,w/o 2 m,w/o ms,choms 模型的實驗結(jié)果表明,依存句法編碼器和圖像描述編碼器在IDSTM模型中起到了關(guān)鍵作用,為依存句法三元組序列和圖像描述的生成提供了關(guān)鍵視覺和語法信息.
在IDSTM 模型生成圖像描述的過程中,其依存句法三元組與圖像描述中詞的向量權(quán)重可視化圖如圖6 所示.
Fig.6 The visualization of dependency syntax triples and word attention weight in IDSTM model圖6 IDSTM 模型中依存句法三元組與詞的注意力權(quán)重可視化
由圖6 可知,每個依存句法三元組都與對應(yīng)位置文本詞的相關(guān)性最高,與其他長距離位置的文本詞的相關(guān)性較低.“ 〈nmod,5,11〉”三元組表示詞“tarmac”和詞“jetliner”存在“nmod(復(fù)合名詞修飾詞)”依存關(guān)系.“jetliner”作為依存句法中的詞“ROOT”與詞“l(fā)arge”也存在“amod(形容詞性修飾詞)”依存關(guān)系.此外,由三元組“ 〈case,7,6〉” 和“ 〈case,11,8〉”的嵌入向量存在的差異可知,依存句法三元組嵌入向量的計算不僅受到自身序列的限制,還受到單詞出現(xiàn)位置的影響.
通過分析Bottom-Up,X-LAN,IDSTM 模型在MSCOCO 數(shù)據(jù)集上圖像描述生成的實例,分析IDSTM模型的可解釋性,如圖7 所示.
Fig.7 The image captions generated by Bottom-Up,X-LAN and IDSTM models圖7 Bottom-Up,X-LAN,IDSTM 模型生成的圖像描述
每次圖像描述選詞決策時,IDSTM 模型都將依存句法三元組的嵌入向量考慮其中.IDSTM 模型首先從輸入圖像中提取實體詞對應(yīng)的依存句法特征.在圖像中的實體間,依存句法關(guān)系可能存在于任意2 個圖像區(qū)域中.圖7 圖像實線框?qū)R的實體單詞“men(男人們)”和圖像虛線框中對齊的文本單詞“standing(站立)”存在一個依存句法關(guān)系“acl(動名詞)”,文本單詞“top(頂部)”和文本單詞“snow(雪面)”可以形成一個依存句法關(guān)系“nmod(名詞性形容詞)”.單詞與單詞之間的依存句法關(guān)系可以為多種類型,如“top”可以指名詞,表示頂部,也可以指形容詞,表示某物是頂尖的.在得到實體間可能存在的依存關(guān)系后,IDSTM 模型將該特征與圖像自身視覺特征輸入DLSTM 中得到對應(yīng)的依存句法三元組.依存句法三元組嵌入向量作為指導(dǎo)信息會被輸入雙層LSTM,用來限制圖像描述生成模型在生成描述文本時的用詞.因此,IDSTM 模型是在依存句法信息已知的前提下生成對應(yīng)合適的圖像描述,具備一定可解釋性.
對比Bottom-Up 模型和X-LAN 模型,本文的IDSTM模型生成了可解釋的句法信息.例如,在圖7 中,Bottom-Up 模型和X-LAN 模型僅使用圖像區(qū)域特征就得到了單詞“people(人們)”,但“people(人們)”更適用在通用場景下的圖像描述任務(wù),然而IDSTM 模型采用了額外的可解釋的句法信息,即依存句法三元組“ 〈ROOT,0,4〉”的嵌入向量,生成了更加準(zhǔn)確的實體單詞“men(男人們)”.語料庫中文本詞“men(男人們)”以“ROOT(詞根)”身份出現(xiàn)41 083 次,而文本詞“people(人們)”僅出現(xiàn)22 792 次.因此,相比于文本詞“people(人們)”,文本詞“men(男人們)”更可能成為 “ROOT”詞.此外,文本詞“people(人們)”在基于依存句法的統(tǒng)計下更偏向于跟隨在“A group of(一群)”詞組之后,所以IDSTM 模型在考慮依存句法三元組信息后,將“people(人們)”改為“men(男人們)”.
本文提出了一種新的可解釋圖像描述生成模型,該模型采用多任務(wù)學(xué)習(xí)聯(lián)合生成依存句法三元組序列和圖像描述文本.多任務(wù)學(xué)習(xí)將依存句法三元組生成和圖像描述生成相結(jié)合,根據(jù)先生成句法再生成圖像描述的思路,使IDSTM 模型的可解釋性得到增強,使生成的依存句法三元組嵌入向量特征有效限制圖像描述生成過程中文本詞的選擇.提出新的評價指標(biāo)B1-DS,B4-DS,M-DS 有效驗證了IDSTM 模型生成DSTS 的有效性.大量實驗表明提出的IDSTM 模型具備可解釋性.
未來計劃找出圖像描述生成模型的可解釋性和準(zhǔn)確性之間的平衡.在損失函數(shù)的設(shè)計上引入基于多任務(wù)的強化學(xué)習(xí)來提高依存句法三元組序列生成和圖像描述生成的準(zhǔn)確性.
作者貢獻聲明:劉茂福提出研究思路和模型,負(fù)責(zé)論文寫作;畢健旗負(fù)責(zé)實驗和論文寫作;周冰穎協(xié)助實驗和完善論文;胡慧君參與問題討論和審閱論文.