劉青茹 李剛 趙創(chuàng) 顧廣華 趙耀
圖像密集描述是基于自然語(yǔ)言處理和計(jì)算機(jī)視覺(jué)兩大研究領(lǐng)域的任務(wù),是一個(gè)由圖像到語(yǔ)言的跨模態(tài)課題.其主要工作是為圖像生成多條細(xì)節(jié)描述語(yǔ)句,描述對(duì)象從整幅圖像擴(kuò)展到圖中局部物體細(xì)節(jié).近年來(lái),該任務(wù)頗受研究者關(guān)注.一方面,它具有實(shí)際的應(yīng)用場(chǎng)景[1],如人機(jī)交互[2]、導(dǎo)盲等;另一方面,它促進(jìn)了眾多研究任務(wù)的進(jìn)一步發(fā)展,如目標(biāo)檢測(cè)[3?4]、圖像分割[5]、圖像檢索[6]和視覺(jué)問(wèn)答[7]等.
作為圖像描述的精細(xì)化任務(wù),圖像密集描述實(shí)現(xiàn)了計(jì)算機(jī)對(duì)圖像的細(xì)粒度解讀.同時(shí),該任務(wù)沿用了圖像描述的一般網(wǎng)絡(luò)架構(gòu).受機(jī)器翻譯[8]啟發(fā),目前的圖像描述網(wǎng)絡(luò)[9?11]大多為編碼器?解碼器(Encoder-decoder,ED)框架,因此圖像密集描述任務(wù)也大多基于該傳統(tǒng)結(jié)構(gòu).該框架首先將卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural network,CNN)作為編碼器來(lái)提取圖像視覺(jué)信息[12],得到一個(gè)全局視覺(jué)向量,然后輸入到基于長(zhǎng)短期記憶網(wǎng)絡(luò)(Long-short term memory,LSTM)[13]的解碼器中,最后逐步輸出相應(yīng)的描述文本單詞.
基于上述編碼?解碼框架,為實(shí)現(xiàn)圖像區(qū)域密集描述,Karpathy等[14]試圖在區(qū)域上運(yùn)行圖像描述模型,但無(wú)法在同一模型中同時(shí)實(shí)現(xiàn)檢測(cè)和描述.在此基礎(chǔ)上,Johnson等[15]實(shí)現(xiàn)了模型的端到端訓(xùn)練,并首次提出了圖像密集描述概念.該工作為同時(shí)進(jìn)行檢測(cè)定位和語(yǔ)言描述提出了一種全卷積定位網(wǎng)絡(luò)架構(gòu),通過(guò)單一高效的前向傳遞機(jī)制處理圖像,不需要外部提供區(qū)域建議,并且可實(shí)現(xiàn)端到端的優(yōu)化.雖然全卷積定位網(wǎng)絡(luò)架構(gòu)可實(shí)現(xiàn)端到端密集描述,但仍存在兩個(gè)問(wèn)題:
1)模型送入解碼器的視覺(jué)信息僅為感興趣區(qū)域的深層特征向量,忽略了淺層網(wǎng)絡(luò)視覺(jué)信息和感興趣區(qū)域間的上下文信息,從而導(dǎo)致語(yǔ)言模型預(yù)測(cè)出的單詞缺乏場(chǎng)景信息的指導(dǎo),所生成的描述文本缺乏細(xì)節(jié)信息,甚至可能偏離圖像真實(shí)內(nèi)容.
2)對(duì)于單一圖像的某個(gè)區(qū)域而言,描述文本的生成過(guò)程即為一次圖像描述.圖像描述中,由于網(wǎng)絡(luò)僅使用單一LSTM 來(lái)預(yù)測(cè)每個(gè)單詞,故解碼器未能較好地捕捉到物體間的空間位置關(guān)系[16],從而造成描述文本的句式簡(jiǎn)單,表述不夠豐富.
為解決上下文場(chǎng)景信息缺失問(wèn)題,Yang等[17]基于聯(lián)合推理和上下文融合思想提出了一種多區(qū)域聯(lián)合推理模型.該模型將圖像特征和區(qū)域特征進(jìn)行集成,實(shí)現(xiàn)了較為準(zhǔn)確的密集描述.但是提出的上下文信息過(guò)于粗糙,且尚不完整.Yin等[18]通過(guò)相鄰區(qū)域與目標(biāo)區(qū)域間的多尺度信息傳播,提出一種上下文信息傳遞模塊.該模塊引入了局部、鄰居和全局信息,從而獲取較細(xì)粒度的上下文信息.此外,Li等[19]通過(guò)目標(biāo)檢測(cè)技術(shù)揭示了描述區(qū)域與目標(biāo)間的密切關(guān)系,提出一種互補(bǔ)上下文學(xué)習(xí)架構(gòu),也可實(shí)現(xiàn)上下文信息的細(xì)粒度獲取.在圖像密集描述任務(wù)的最新進(jìn)展中,Shao等[20]提出一種基于Transformer 的圖像密集描述網(wǎng)絡(luò),打破了傳統(tǒng)的編碼?解碼框架,致力于改進(jìn)LSTM 網(wǎng)絡(luò)和關(guān)注信息豐富區(qū)域.上述工作在一定程度上解決了上下文場(chǎng)景信息的缺失問(wèn)題,但尚未有研究能解決淺層特征信息利用不完全和區(qū)域內(nèi)空間位置信息獲取不完備的問(wèn)題.
為提高圖像區(qū)域描述的準(zhǔn)確性,本文提出一種基于多重注意結(jié)構(gòu)的圖像密集描述生成方法 —MAS-ED (Multi-attention structure-encoder decoder).該方法通過(guò)構(gòu)建多尺度特征環(huán)路融合(Multiscale feature loop fusion,MFLF)機(jī)制,為解碼器提供多尺度有效融合特征,增加比較細(xì)節(jié)的幾何信息;并設(shè)計(jì)多分支空間分步注意力(Multi-branch spatial step attention,MSSA)解碼器,通過(guò)提取目標(biāo)間的空間維度信息,以加強(qiáng)文本中目標(biāo)間的位置關(guān)系描述.模型訓(xùn)練過(guò)程中,MFLF 機(jī)制和MSSA解碼器之間交替優(yōu)化、相互促進(jìn).實(shí)驗(yàn)結(jié)果表明,本文的MAS-ED 方法在Visual Genome 數(shù)據(jù)集上獲得了具有競(jìng)爭(zhēng)力的結(jié)果.
本文提出的基于多重注意結(jié)構(gòu)的密集描述生成方法網(wǎng)絡(luò)框架如圖1 所示.模型是一個(gè)端到端的網(wǎng)絡(luò)模型.據(jù)圖1 可知,MAS-ED 模型是基于殘差網(wǎng)絡(luò)和LSTM 網(wǎng)絡(luò)的編碼?解碼架構(gòu),總體可分解為以下幾個(gè)階段.
圖1 基于多重注意結(jié)構(gòu)的圖像密集描述生成方法Fig.1 Dense captioning method based on multi-attention structure
1)區(qū)域視覺(jué)特征獲取.選用在ImageNet 數(shù)據(jù)集上預(yù)訓(xùn)練過(guò)的ResNet-152 網(wǎng)絡(luò)作為特征提取器,用來(lái)獲取含有整幅圖像視覺(jué)信息的全局視覺(jué)向量,然后將其送入?yún)^(qū)域建議網(wǎng)絡(luò)(Region proposal network,RPN),得到高質(zhì)量的區(qū)域建議候選框.
2)上下文信息處理.通過(guò)交并比(Intersection over union,IoU)計(jì)算兩個(gè)區(qū)域圖像塊間的交并比分?jǐn)?shù),并進(jìn)行排序.將分值最高的相鄰圖像塊特征作為當(dāng)前圖像塊的上下文特征.全局特征的獲取由全局池化層(Global pooling layer,GAP)來(lái)完成.
3)多尺度環(huán)路融合特征提取.MFLF 機(jī)制會(huì)從殘差網(wǎng)絡(luò)的各Block 層視覺(jué)特征中提取各向量上包含的幾何信息和語(yǔ)義信息,然后將其中顯著性視覺(jué)信息編碼進(jìn)一個(gè)和Block 層視覺(jué)特征維度相同的特征向量中.最后將該向量送入RPN 層,以得到含有幾何細(xì)節(jié)和語(yǔ)義信息豐富的多尺度環(huán)路融合特征.
4)空間位置信息提取.空間分步注意力(Spatial step attention,SSA)模塊會(huì)根據(jù)上一解碼器當(dāng)前的隱含層狀態(tài),動(dòng)態(tài)決定從多尺度環(huán)路融合特征中獲取哪些位置信息,同時(shí)決定位置信息在當(dāng)前單詞預(yù)測(cè)時(shí)刻的參與比例,從而向語(yǔ)言模型提供對(duì)預(yù)測(cè)本時(shí)刻單詞最有用的位置關(guān)系特征.
5)單詞預(yù)測(cè).本文采用表示物體間空間位置關(guān)系的注意力特征來(lái)引導(dǎo)LSTM 網(wǎng)絡(luò)的單詞序列建模過(guò)程.圖1 中L-LSTM 表示Language-LSTM,輸入的視覺(jué)特征由區(qū)域特征、上下文特征和全局特征組成;A-LSTM 表示Attention-LSTM,輸入的視覺(jué)特征是注意力引導(dǎo)的多尺度環(huán)路融合特征.為使空間位置信息更好地融入到解碼器的輸出中,本文將SSA 模塊和三個(gè)LSTM 網(wǎng)絡(luò)組成圖1 所示結(jié)構(gòu),以形成選擇和融合的反饋連接,并稱為多分支空間分步注意力(MSSA)解碼器.
圖像密集描述兼具標(biāo)簽密度大和復(fù)雜性高兩大難點(diǎn),其任務(wù)網(wǎng)絡(luò)模型較為龐大.現(xiàn)有研究方法僅將深層網(wǎng)絡(luò)特征用于文本生成,而淺層網(wǎng)絡(luò)特征并未有效利用.雖然深層網(wǎng)絡(luò)特征語(yǔ)義信息表征能力強(qiáng),但其特征圖分辨率低,幾何信息含量少.而淺層網(wǎng)絡(luò)特征的特征圖分辨率高,幾何信息表征能力強(qiáng).故本文在增加少許網(wǎng)絡(luò)參數(shù)量和計(jì)算量的情況下,提出一種多尺度特征環(huán)路融合機(jī)制,即MFLF 機(jī)制,將同一網(wǎng)絡(luò)的深層和淺層特征進(jìn)行多尺度融合,使模型可更完備地提取出圖中含有的幾何信息和語(yǔ)義信息.其結(jié)構(gòu)如圖2 所示.
受到特征金字塔算法[21]啟發(fā),MFLF 機(jī)制效仿其實(shí)現(xiàn)過(guò)程,改進(jìn)逐層流向結(jié)構(gòu),以減少計(jì)算資源開(kāi)支.MFLF 機(jī)制讓高層網(wǎng)絡(luò)輸出特征流向低層網(wǎng)絡(luò)輸出特征,以實(shí)現(xiàn)在低層特征圖中加權(quán)有效的語(yǔ)義信息.本文將此過(guò)程稱為語(yǔ)義流,其實(shí)現(xiàn)過(guò)程如圖2 中虛線子圖框所示.經(jīng)幾次語(yǔ)義流向過(guò)程后,最底層特征圖完成了全部有效語(yǔ)義信息的加權(quán).為使模型有效利用語(yǔ)義加權(quán)優(yōu)化后低層特征圖中的有效幾何信息,MFLF 機(jī)制設(shè)計(jì)了從低層特征流向高層的網(wǎng)絡(luò)結(jié)構(gòu),以實(shí)現(xiàn)在高層特征圖中加權(quán)有效幾何信息的目的.此過(guò)程稱為幾何流,其實(shí)現(xiàn)過(guò)程如圖2 中實(shí)線子圖框所示.需要注意的是,幾何流的初始特征是經(jīng)語(yǔ)義信息加權(quán)后的,故可削弱冗雜信息的比重.由圖2 可知,語(yǔ)義流和幾何流構(gòu)成了閉合回路,組成了多尺度特征環(huán)路融合(MFLF)機(jī)制.
ResNet-152 網(wǎng)絡(luò)可分為4 個(gè)Block,第1 個(gè)Block 層的網(wǎng)絡(luò)層數(shù)較少,其特征圖含有較多冗雜信息[22].因此在構(gòu)建MFLF 機(jī)制時(shí),僅考慮后3 個(gè)Block 的輸出特征,即圖2 中所示的C2、C3和C4.此外,語(yǔ)義流和幾何流的組合具有多種可能.本文將在消融實(shí)驗(yàn)部分闡述如何選擇語(yǔ)義流分支和幾何流分支.本文確定的最佳組合為語(yǔ)義流分支選擇C3-C2和C4-C2,幾何流分支選擇C2-C4,其中C3-C2 表示C3 層特征信息流向C2 層,以此類推.
圖2 多尺度特征環(huán)路融合機(jī)制Fig.2 Multi-scale feature loop fusion mechanism
如圖2 所示,單條語(yǔ)義流分支實(shí)現(xiàn)過(guò)程為: 1)將兩個(gè)不同尺度的特征圖送入1×1 卷積層,以保留原有平面結(jié)構(gòu),達(dá)到通道數(shù)統(tǒng)一;2)通過(guò)上采樣將高層特征表示映射到低層特征表示空間;3)將上采樣后的高層特征與低層特征進(jìn)行元素級(jí)相加操作,得到融合特征;4)將融合特征送入1×1 卷積層完成通道數(shù)調(diào)整.實(shí)際操作中,若殘差網(wǎng)絡(luò)Block 層輸出特征通道數(shù)統(tǒng)一,則不需要完成步驟1)和步驟4).本文為提高M(jìn)FLF 機(jī)制的健壯性和可遷移性,特意增加這兩個(gè)步驟.單條幾何流分支實(shí)現(xiàn)過(guò)程同單條語(yǔ)義流分支,僅將其中的上采樣操作更改為下采樣操作即可.最終,MFLF 機(jī)制將語(yǔ)義流分支和幾何流分支融合形成一組多尺度視覺(jué)特征.隨著訓(xùn)練過(guò)程中網(wǎng)絡(luò)參數(shù)的逐步優(yōu)化,各Block 層的輸出視覺(jué)特征也隨之優(yōu)化,使MFLF 機(jī)制動(dòng)態(tài)調(diào)整幾何信息和語(yǔ)義信息在輸出特征中的比例,為解碼器提供了可動(dòng)態(tài)優(yōu)化的多尺度融合特征,從而使模型能夠準(zhǔn)確生成含有豐富細(xì)節(jié)的文本描述.
1.3.1 空間分步注意力模塊
注意力機(jī)制在各個(gè)研究領(lǐng)域中得到廣泛應(yīng)用[23?25].本文引入注意力機(jī)制獲取目標(biāo)位置信息,并借鑒卷積塊注意模塊(Convolutional block attention module,CBAM)[26]模型方法,同時(shí)考慮通道和空間兩個(gè)維度,以獲得更好的注意效果.如圖3 所示,空間分步注意力模塊(SSA)的類通道注意力模塊(Channel-like attention module,CLAM)由維度變換操作和通道注意力模塊[27]共同組成,且通道注意與空間注意交叉進(jìn)行.
給定視覺(jué)特征F∈RH×W×C和預(yù)測(cè)單詞w∈RC,其中H,W,C分別表示特征圖的高、寬和通道.首先擴(kuò)充預(yù)測(cè)單詞的空間維度S∈RH×W×C,并與視覺(jué)特征進(jìn)行元素級(jí)加和及非線性 R eLu 函數(shù)激活,得到攜帶預(yù)測(cè)單詞信息的加和特征圖FS∈RH×W×C:
由圖3 可知,SSA 模塊包含上下兩支路,其作用過(guò)程類似.以上支路為例,先考慮預(yù)測(cè)單詞在特征圖height 維度的加權(quán),后考慮width 維度.SSA模塊將加和特征FS輸入CLAM 中,得到預(yù)測(cè)單詞在特征圖height 維度的注意力權(quán)重圖AH:
圖3 空間分步注意力模塊Fig.3 Spatial step attention module
其中,fT是維度變換函數(shù),目的是將特征圖空間維度中的height 維度信息映射到通道維度所在空間.利用式(3)將注意力權(quán)重圖AH與視覺(jué)特征F相乘進(jìn)行自適應(yīng)特征優(yōu)化,得到經(jīng)預(yù)測(cè)單詞加權(quán)height維度后的特征矩陣向量FH:其中,M atmul 函數(shù)表示兩個(gè)矩陣的乘積.
接下來(lái)介紹上支路中第二步空間注意,即考慮預(yù)測(cè)單詞在特征圖width 維度的加權(quán).將經(jīng)預(yù)測(cè)單詞加權(quán)height 維度后的特征矩陣FH送入式(2),得到預(yù)測(cè)單詞在width 維度各向量上的注意權(quán)重分布圖AH&W(H&W表示先考慮height 維度,后考慮width 維度).特別注意,此次fT函數(shù)是將特征圖中的width 維度信息映射到通道維度所在空間.由此得到基于預(yù)測(cè)單詞加權(quán)特征空間height,width兩維度的特征圖表示:
圖3 中下支路的作用流程與上支路類似,加和特征FS經(jīng)式(2)~式(4)操作后,可得到基于預(yù)測(cè)單詞加權(quán)特征空間width,height 兩維度的特征圖FW&H.最后,SSA 模塊將優(yōu)化后的上、下兩分支特征圖進(jìn)行元素級(jí)加和,得到預(yù)測(cè)單詞調(diào)整后的視覺(jué)特征:
綜上,SSA 模塊通過(guò)結(jié)合解碼器上一時(shí)刻的預(yù)測(cè)單詞,實(shí)現(xiàn)了在空間維度和通道維度的交叉注意,以加權(quán)視覺(jué)特征中的位置信息,并將其用于指導(dǎo)解碼器下一時(shí)刻的單詞預(yù)測(cè).在解碼器序列建模過(guò)程中,模型可根據(jù)當(dāng)前單詞的預(yù)測(cè)結(jié)果,完成有選擇性地關(guān)注視覺(jué)特征中的空間位置關(guān)系.
1.3.2 多分支解碼器
一般來(lái)說(shuō),若只將單一LSTM 網(wǎng)絡(luò)作為語(yǔ)言模型,則在本時(shí)刻的單詞預(yù)測(cè)僅可根據(jù)前幾個(gè)時(shí)刻的信息來(lái)推斷.然而,隨著時(shí)間軸的不斷延長(zhǎng),解碼器較大概率會(huì)出現(xiàn)錯(cuò)誤累積現(xiàn)象[16].因此在當(dāng)前時(shí)刻采用糾正手段來(lái)緩解錯(cuò)誤累積,可在一定程度上提高密集描述的準(zhǔn)確率.由第1.3.1 節(jié)可知,SSA 模塊可結(jié)合解碼器上一時(shí)刻的預(yù)測(cè)單詞,來(lái)指導(dǎo)下一時(shí)刻的單詞預(yù)測(cè).基于此,本文設(shè)計(jì)如圖4 所示的多分支解碼器結(jié)構(gòu)以實(shí)現(xiàn)在當(dāng)前時(shí)刻對(duì)預(yù)測(cè)單詞的及時(shí)糾正.多分支解碼器結(jié)構(gòu)由兩個(gè)SSA 模塊、一個(gè)L-LSTM 網(wǎng)絡(luò)和兩個(gè)A-LSTM 網(wǎng)絡(luò)組成.三個(gè)LSTM 網(wǎng)絡(luò)的輸入構(gòu)成級(jí)聯(lián)以實(shí)現(xiàn)同一時(shí)刻的錯(cuò)誤糾正,其輸出構(gòu)成并聯(lián)以完成本時(shí)刻預(yù)測(cè)單詞的反復(fù)驗(yàn)證.
圖4 多分支空間分步注意力模塊Fig.4 Multi-branch spatial step attention module
三個(gè)LSTM 網(wǎng)絡(luò)的初始化向量均為局部特征、全局特征及上下文特征的串行連接向量Fconcat.在密集描述文本生成前,網(wǎng)絡(luò)初始化過(guò)程為:
其中,Flocal,Fglobal和Fcontext分別表示描述區(qū)域特征,全局信息特征和上下文信息特征;Fconcat表示特征向量的拼接.在t時(shí)刻下,為生成預(yù)測(cè)單詞yt,解碼器 L -LSTM 的向量轉(zhuǎn)化如下:
其中,和表示經(jīng)過(guò) L -LSTM 解碼器一次糾正和二次糾正后的預(yù)測(cè)單詞向量,F1和F2表示經(jīng)SSA 模塊優(yōu)化后的多尺度環(huán)路融合特征.由此可知,多分支解碼器不僅可實(shí)現(xiàn)當(dāng)前時(shí)刻預(yù)測(cè)單詞的及時(shí)糾正,還為單詞預(yù)測(cè)過(guò)程引入了幾何信息和空間位置信息,從而使模型生成的描述文本更為精細(xì).最后,多分支解碼器更新當(dāng)前隱藏狀態(tài)ht:
MAS-ED 方法主要包括多尺度特征環(huán)路融合、空間位置注意權(quán)重獲取和多分支解碼器建模幾個(gè)步驟.在多尺度特征環(huán)路融合中,由于本文模型無(wú)需調(diào)整特征圖通道數(shù),因此可去除MFLF 機(jī)制的1×1卷積層,故MFLF 機(jī)制共有3 次加法運(yùn)算、3 次上采樣和2 次下采樣.實(shí)驗(yàn)中上采樣和下采樣由雙線性插值函數(shù)來(lái)完成,因此每個(gè)像素點(diǎn)坐標(biāo)需完成8次乘法和11 次加法運(yùn)算.因此MFLF 機(jī)制的乘法運(yùn)算次數(shù)為 4 0×(w×h),加法運(yùn)算次數(shù)為55×(w×h)+3.新增8 個(gè)輸出特征圖,故空間、時(shí)間復(fù)雜度分別為 O (8×(w×h×C))、O (95×(w×h)+3).而將同等w×h分辨率的高維特征圖送入單個(gè)卷積層后,其時(shí)間和空間復(fù)雜度可達(dá)到O(k2×w×h×Cin×Cout)和O (k2×Cin×Cout).由此可知,MFLF 機(jī)制增加的計(jì)算量和參數(shù)量尚不如一個(gè)卷積操作.
用SSA 模塊獲取空間位置注意權(quán)重時(shí),模型需要完成3 次加法運(yùn)算、4 次矩陣乘法運(yùn)算、2 次ReLu非線性變換和4 次CLAM 模塊.每個(gè)CLAM 模塊包含2 次池化、2 次 R eLu 變換、4 次卷積和1 次Sigmoid 變換.其中,僅卷積操作和中間新增特征圖涉及空間復(fù)雜度計(jì)算,故SSA 模塊增加的參數(shù)量為 O (k2×Cin×Cout+w×h×C),增加的計(jì)算量為O(k2×w×h×Cin×Cout+C+C2).此外,構(gòu)建多分支解碼器建模時(shí),模型僅增加了1 次加法運(yùn)算,可以忽略.
基于編碼器?解碼器框架下,CAG-Net[18]方法采用VGG16 網(wǎng)絡(luò)進(jìn)行特征提取,并將3 個(gè)LSTM網(wǎng)絡(luò)用于文本序列解碼;而MAS-ED 則采用Res-Net-152 網(wǎng)絡(luò),同樣使用3 個(gè)LSTM 網(wǎng)絡(luò)用于解碼.VGG16和ResNet-152 的計(jì)算復(fù)雜度大致等同[23],但前者參數(shù)量超出后者約21 MB.暫不考慮CAGNet 所提出的CFE和CCI 這兩個(gè)模塊,僅基礎(chǔ)架構(gòu)模型的參數(shù)量就已超MAS-ED 所有參數(shù)量;而且兩者計(jì)算復(fù)雜度基本持平.TDC (Transformerbased dense captioner)[20]模型同樣采用參數(shù)量較少的ResNet-152 網(wǎng)絡(luò),但其后端解碼網(wǎng)絡(luò)使用了Transformer[28].與3 個(gè)LSTM 網(wǎng)絡(luò)相比,Transformer 網(wǎng)絡(luò)增加的計(jì)算量和參數(shù)量相對(duì)較大.綜上可知,相對(duì)于CAG-Net和TDC,MAS-ED 雖然增加了MFLF 機(jī)制和MSSA 解碼器兩個(gè)模塊,但是增加的計(jì)算量和參數(shù)量均很小.
本文使用標(biāo)準(zhǔn)數(shù)據(jù)集Visual Genome 對(duì)MASED 方法進(jìn)行測(cè)試.該數(shù)據(jù)集有V1.0和V1.2 兩個(gè)版本,V1.2 比V1.0 標(biāo)注重復(fù)率更低,標(biāo)注語(yǔ)句也更符合人類習(xí)慣.對(duì)數(shù)據(jù)集的處理同文獻(xiàn)[15],將出現(xiàn)次數(shù)少于15 的單詞換為
與目標(biāo)檢測(cè)任務(wù)的平均準(zhǔn)確均值(Mean average precision,mAP)指標(biāo)不同,本文所用的mAP指標(biāo)專門用來(lái)評(píng)估圖像密集描述任務(wù),由文獻(xiàn)[15]首次提出.該指標(biāo)的計(jì)算過(guò)程為: 首先,利用交并比函數(shù)(IoU),將區(qū)域間重疊分值處于{0.2,0.3,0.4,0.5,0.6}的幾種精度均值(Average precision,AP)作為預(yù)測(cè)區(qū)域性定位的準(zhǔn)確性度量;之后,使用METEOR 指標(biāo)[29]將語(yǔ)義相似度處于{0,0.05,0.10,0.15,0.20,0.25}的幾種精度均值(AP),作為預(yù)測(cè)文本和真值標(biāo)注間的語(yǔ)義相似度度量;最后,計(jì)算這幾組AP 的平均值作為最終的mAP 分值.
本文采用文獻(xiàn)[17]的近似聯(lián)合訓(xùn)練方法來(lái)實(shí)現(xiàn)模型的端到端訓(xùn)練,并使用隨機(jī)梯度下降來(lái)優(yōu)化模型,其學(xué)習(xí)率和迭代數(shù)的設(shè)置均與基線方法相同.訓(xùn)練過(guò)程中,圖像批大小設(shè)為1,且每次前向訓(xùn)練中為單個(gè)圖像生成256 個(gè)感興趣區(qū)域.實(shí)驗(yàn)使用具有512 個(gè)隱藏節(jié)點(diǎn)的LSTM單元,并將單詞序列長(zhǎng)度設(shè)為12.對(duì)于測(cè)試評(píng)估,將高度重疊的框合并為具有多個(gè)參考標(biāo)題的單個(gè)框,來(lái)預(yù)處理驗(yàn)證/測(cè)試集中的真值標(biāo)注區(qū)域.具體地,對(duì)于每個(gè)圖像,迭代選擇具有最多重疊框的框(基于閾值為0.7 的IoU),將它們合并在具有多個(gè)標(biāo)注的單個(gè)框中.之后排除該組,并重復(fù)以上過(guò)程.
為驗(yàn)證MAS-ED 方法的有效性和可靠性,本文選取幾種典型的基線方法來(lái)完成對(duì)比實(shí)驗(yàn).基線方法根據(jù)網(wǎng)絡(luò)框架分為兩組: 基于LSTM 解碼網(wǎng)絡(luò)框架和基于Transformer 解碼網(wǎng)絡(luò)框架.其中,僅TDC[20]模型為基于Transformer 解碼網(wǎng)絡(luò)框架.密集描述模型性能由mAP 分值來(lái)評(píng)估.
基于LSTM 解碼網(wǎng)絡(luò)框架下的各模型性能如表1 所示.針對(duì)V1.0 數(shù)據(jù)集,與FCLN 相比,MASED 的mAP 分值提高了98.01%,性能提升明顯;與T-LSTM和COCG 相比,MAS-ED 的mAP 分別提升了14.64%和8.76%.由于T-LSTM和COCG模型僅致力于上下文信息的改進(jìn),而MAS-ED 不僅考慮到上下文關(guān)系,還有效利用淺層特征和空間位置關(guān)系,所以本文mAP 性能得到有效提升.與最先進(jìn)的CAG-Net 方法相比,為公平起見(jiàn),MAS-ED未使用ResNet-152 網(wǎng)絡(luò)而使用VGG16 網(wǎng)絡(luò),其mAP 性能仍提升1.55%.這表明,MAS-ED 優(yōu)于CAG-Net.針對(duì)V1.2 數(shù)據(jù)集,MAS-ED 性能同樣優(yōu)于基線方法,與最先進(jìn)的COCG 相比,MAS-ED獲得了6.26%的性能優(yōu)勢(shì).
表1 基于LSTM 解碼網(wǎng)絡(luò)密集描述算法mAP 性能Table 1 mAP performance of dense caption algorithms based on LSTM decoding network
表2 所示為基于Transformer 解碼網(wǎng)絡(luò)框架下的模型性能.由表2 可見(jiàn),MAS-ED 方法的mAP分值優(yōu)于TDC 方法,在V1.2 數(shù)據(jù)集上mAP 分值達(dá)到了11.04;而與TDC+ROCSU 模型相比,MASED 性能稍差.但TDC+ROCSU 模型算法復(fù)雜度遠(yuǎn)高于MAS-ED.具體來(lái)說(shuō),TDC+ROCSU 模型選用Transformer 作為序列解碼器,而本文選用LSTM 網(wǎng)絡(luò),前者所增加的計(jì)算量和參數(shù)量遠(yuǎn)遠(yuǎn)大于后者;其次,TDC+ROCSU 模型在使用ROCSU模塊獲取上下文時(shí),部分網(wǎng)絡(luò)不能進(jìn)行on-line 訓(xùn)練,無(wú)法實(shí)現(xiàn)整個(gè)網(wǎng)絡(luò)的端到端訓(xùn)練,而MAS-ED卻可實(shí)現(xiàn)端到端的網(wǎng)絡(luò)優(yōu)化;最后,TDC+ROCSU 致力于獲取準(zhǔn)確的文本描述,而MAS-ED 不僅考慮文本描述的準(zhǔn)確性,還試圖為文本增加幾何細(xì)節(jié)和空間位置關(guān)系,在一定程度上增加了文本的豐富度.所以相比于TDC+ROCSU 模型,本文方法MAS-ED 算法復(fù)雜度低,可端到端優(yōu)化且能提高文本豐富性.
表2 基于非LSTM 解碼網(wǎng)絡(luò)密集描述算法mAP 性能Table 2 mAP performance of dense caption algorithms based on non-LSTM decoding network
本文共實(shí)現(xiàn)了三種基于注意結(jié)構(gòu)的密集描述模型: 1)多尺度特征環(huán)路融合模型(MFLF-ED),使用深、淺層網(wǎng)絡(luò)的融合特征作為視覺(jué)信息,由標(biāo)準(zhǔn)三層LSTM 解碼;2)多分支空間分步注意力模型(MSSAED),僅使用深層網(wǎng)絡(luò)特征作為視覺(jué)信息,由多分支空間分步注意力解碼器解碼;3)多重注意結(jié)構(gòu)模型(MAS-ED),使用深、淺層網(wǎng)絡(luò)的融合特征作為視覺(jué)信息,由多分支空間分步注意力解碼器解碼.為驗(yàn)證兩個(gè)模塊的有效性,在相同實(shí)驗(yàn)條件下,本文設(shè)置了如表3 所示的對(duì)比實(shí)驗(yàn).
由表3 可知,在兩種不同網(wǎng)絡(luò)框架下,MSSAED 模型和MFLF-ED 模型的性能表現(xiàn)均優(yōu)于基線模型,這表明淺層細(xì)節(jié)信息和空間位置信息都利于圖像的密集描述.此外,MSSA-ED 模型要比MFLFED 模型表現(xiàn)更優(yōu).這是因?yàn)樵贛SSA 解碼器中,SSA 模塊通過(guò)上一解碼器的預(yù)測(cè)單詞指導(dǎo)下一解碼器的單詞生成時(shí),模塊有額外視覺(jué)特征輸入,所以MSSA-ED 模型除了可獲取物體的空間位置信息,還在一定程度上利用了視覺(jué)特征中區(qū)域目標(biāo)的相關(guān)信息.而MFLF-ED 模型僅使用MFLF 機(jī)制來(lái)融合多尺度特征,增加幾何信息,以此提升小目標(biāo)的檢測(cè)精度和增加大目標(biāo)的描述細(xì)節(jié).因此相對(duì)而言,MSSA-ED 模型的改進(jìn)方法較為多元,實(shí)驗(yàn)效果較好.
表3 VG 數(shù)據(jù)集上密集描述模型mAP 性能Table 3 mAP performance of dense caption models on VG dataset
此外,MAS-ED 模型性能優(yōu)于兩個(gè)單獨(dú)模型.這是因?yàn)樵贛AS-ED 模型訓(xùn)練過(guò)程中,MSSA 解碼器通過(guò)反向傳播機(jī)制,促使MFLF 機(jī)制不斷調(diào)整視覺(jué)融合特征中語(yǔ)義信息和幾何信息的參與比例;同時(shí),MFLF 機(jī)制通過(guò)提供優(yōu)質(zhì)融合特征,來(lái)輔助MSSA 解碼器盡最大可能地獲取區(qū)域?qū)嶓w間的空間位置關(guān)系.最后,由表3 可知,基于ResNet-152 的三個(gè)消融模型性能比基于VGG16 更優(yōu)越.說(shuō)明密集描述模型不僅需要具有幾何細(xì)節(jié)的淺層特征,也需要包含豐富語(yǔ)義的深層特征,從而也證明本文將深層殘差網(wǎng)絡(luò)ResNet-152 作為特征提取網(wǎng)絡(luò)的正確性.
2.4.1 MFLF-ED
為探索MFLF 機(jī)制的最佳實(shí)現(xiàn)方式,本文設(shè)計(jì)了不同語(yǔ)義流和幾何流支路組合的性能對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表4 所示.由MFLF 機(jī)理可知,語(yǔ)義流的源特征層應(yīng)為最高的C4 層,以保證最優(yōu)的語(yǔ)義信息可流向低層特征圖;其目的特征層應(yīng)為最低的C2 層,以確保較完整的幾何細(xì)節(jié)可流向高層特征圖.而幾何流的源特征層和目的特征層應(yīng)與語(yǔ)義流相反,從而幾何流和語(yǔ)義流構(gòu)成環(huán)路融合.語(yǔ)義流有4種情況: C4-C2,C4-C3 &C3-C2,C4-C2+(C3-C2),C4-C2+(C4-C3 &C3-C2),同樣幾何流有C2-C4,C2-C3 &C3-C4,C2-C4+(C3-C4)和C2-C4+(C2-C3 &C3-C4).本文將從源特征層直接流向目的特征層的分支(如C4-C2)稱為直接流向分支,而將途經(jīng)其他特征層的分支(如C4-C3 &C3-C2)稱為逐層流向分支.
由表4 可知,當(dāng)語(yǔ)義流和幾何流均采用單條直接流向分支[C4-C2]+[C2-C4]時(shí),其性能(10.530)優(yōu)于兩者均采用單條逐層流向分支[C4-C3 &C3-C2]+[C2-C3 &C3-C4](10.349),更優(yōu)于兩者均采用逐層流向分支和直接流向分支[C4-C2+(C4-C3 &C3-C2)]+[C2-C4+(C2-C3 &C3-C4)](7.704).這是由于直接流向結(jié)構(gòu)可確保源特征圖信息完整地融入目的特征圖,而逐層流向結(jié)構(gòu)會(huì)造成信息丟失.此外,若同時(shí)使用兩種結(jié)構(gòu)進(jìn)行信息傳播,由于信息含量過(guò)多且較為冗雜,會(huì)造成顯著性信息缺失,從而性能表現(xiàn)最差.
當(dāng)語(yǔ)義流和幾何流均選用單條直接流向分支和部分逐層流向分支[C4-C2+(C3-C2)]+[C2-C4+(C3-C4)] 時(shí),其模型性能(10.504)雖優(yōu)于逐層流向結(jié)構(gòu)模型(10.349),但劣于直接流向結(jié)構(gòu)模型(10.530).為進(jìn)一步提高模型性能,本文選擇分開(kāi)考慮語(yǔ)義流和幾何流配置.當(dāng)語(yǔ)義流選用直接流向分支,而幾何流選用直接流向分支和部分逐層流向分支[C4-C2]+[C2-C4+(C3-C4)]時(shí),其模型性能較差(9.727).而當(dāng)語(yǔ)義流選用直接流向分支和部分逐層流向分支,幾何流選用直接流向分支[C4-C2+(C3-C2)]+[C2-C4]時(shí),其模型性能(10.654)要優(yōu)于直接流向結(jié)構(gòu)模型(10.530).
除此之外,由表4 中前2 行數(shù)據(jù)可知,C4 層中的優(yōu)質(zhì)語(yǔ)義信息多于C3 層,C2 層中的幾何細(xì)節(jié)信息也比C3 層多,從而進(jìn)一步證明了MFLF 機(jī)制將C4 層和C2 層作為源特征層和目的特征層的正確性.
表4 不同分支組合模型的mAP 性能比較Table 4 Comparison of mAP performance of different branch combination models
綜上,[C4-C2+(C3-C2)]+[C2-C4]是MFLF機(jī)制的最優(yōu)組合方式.為了更加直觀,本文將各模型的描述結(jié)果可視化如圖5 所示.當(dāng)語(yǔ)義流和幾何流均采用直接流向和逐層流向的雙通路實(shí)現(xiàn)時(shí),由于信息冗雜,語(yǔ)句中含有的信息量少,甚至出現(xiàn)錯(cuò)誤信息,如 “A shelf of a shelf”.當(dāng)單獨(dú)采用直接流向或逐層流向時(shí),語(yǔ)句中含有的語(yǔ)義和幾何信息有所提升,如 “wood”和“yellow”.隨著網(wǎng)絡(luò)結(jié)構(gòu)不斷優(yōu)化,生成語(yǔ)句中的語(yǔ)義信息更抽象,如 “kitchen room”,幾何信息也更加具體,如 “many items”.
圖5 不同分支組合模型結(jié)果可視化(圖中每行上面 “[·]”表示語(yǔ)義流,下面 “[·]”表示幾何流)Fig.5 Visualization of results of different semantic flow branching models (The upper “[·]” of each line in the figure represents the semantic flow,and the lower “[·]” represents the geometric flow)
2.4.2 MSSA-ED
1) SSA 模塊.基于相同實(shí)驗(yàn)條件下,本文在模型MSSA-ED 上對(duì)SSA 模塊中上下兩分支進(jìn)行冗余性分析,實(shí)驗(yàn)結(jié)果如表5 所示.表中Up-ED 表示僅使用SSA 模塊上支路,即先考慮預(yù)測(cè)單詞在特征圖height 維度的加權(quán),后考慮width 維度;Down-ED 則僅使用SSA 模塊下支路,維度加權(quán)順序與上支路相反.由表5 可知,兩個(gè)單支路模型的性能相差不大,而采用雙支路的MSSA-ED 性能優(yōu)于兩個(gè)單支路模型.這是因?yàn)槊總€(gè)支路對(duì)兩個(gè)空間維度(height 維度和width 維度)都進(jìn)行加權(quán)考慮,加權(quán)先后順序?qū)δP托阅苡绊懖⒉淮?若將上下兩支路所得到的加權(quán)信息融合,模型便可獲得更加準(zhǔn)確的空間位置信息.
表5 SSA 模塊支路模型的mAP 性能Table 5 mAP performance of SSA module branch model
各模型的可視化效果如圖6 所示.Up-ED 能檢測(cè)出 “sign”與“wall”的左右關(guān)系,Down-ED 則捕捉到目標(biāo)物體與“refrigerator”的高低關(guān)系,而MSSA-ED 則通過(guò)融合兩個(gè)位置信息得出最符合真值標(biāo)注的預(yù)測(cè)語(yǔ)句.
圖6 SSA 模塊支路模型的結(jié)果可視化Fig.6 Visualization of results from the SSA module branch model
2)多分支解碼器.本文通過(guò)設(shè)計(jì)對(duì)比實(shí)驗(yàn)來(lái)確定多分支解碼器的支路數(shù),實(shí)驗(yàn)結(jié)果見(jiàn)表6.其中單支路表示僅添加一條A-LSTM 通路,依此類推兩支路與三支路表示.由表6 可知,基于三種不同SSA模塊,兩支路模型的性能都優(yōu)于單支路模型和三支路模型.這是因?yàn)椴捎肁-LSTM 對(duì)預(yù)測(cè)單詞進(jìn)行實(shí)時(shí)糾正時(shí),過(guò)少支路的模型不能在復(fù)雜特征信息中準(zhǔn)確定位描述目標(biāo);而過(guò)多支路的模型,雖對(duì)單目標(biāo)區(qū)域十分友好,但在多目標(biāo)區(qū)域描述時(shí),會(huì)過(guò)度關(guān)注每個(gè)目標(biāo),導(dǎo)致模型忽略目標(biāo)間的語(yǔ)義關(guān)系.
表6 不同支路數(shù)對(duì)多分支解碼器性能的影響Table 6 Effects of different branch numbers on the performance of multi-branch decoders
為了更加直觀,圖7 將基于MSSA-ED 的三種不同支路模型的注意權(quán)重可視化.圖中從左到右依次為原圖、單支路注意圖、兩支路注意圖和三支路注意圖,圖下方為各模型的預(yù)測(cè)語(yǔ)句.其中單支路模型的注意權(quán)重分布較分散,無(wú)法準(zhǔn)確捕捉到目標(biāo);三支路對(duì)單目標(biāo)注意相對(duì)集中,但對(duì)多目標(biāo)注意權(quán)重圖成點(diǎn)簇狀;而兩支路不僅能突出描述區(qū)域內(nèi)的目標(biāo),并且可關(guān)注到區(qū)域內(nèi)目標(biāo)間的空間位置關(guān)系.
圖7 注意圖可視化Fig.7 Attentional map visualization
為進(jìn)一步直觀表明各個(gè)模塊實(shí)驗(yàn)效果,圖8 給出了多個(gè)密集描述模型的定性表現(xiàn).由圖中的描述語(yǔ)句可得,MFLF-ED 模型可以描述出灌木叢 “bush”的 “small”和“green”,建筑物 “building”和公交車“bus”的顏色 “red”等細(xì)節(jié)信息,說(shuō)明MFLF 機(jī)制能為密集描述增加有效幾何信息,但描述語(yǔ)句均為簡(jiǎn)單句,較少體現(xiàn)物體間的邏輯關(guān)系;MSSA-ED 模型能夠捕捉到建筑物 “building”與植物 “plants”、樹(shù) “trees”與大象 “elephant”間的空間位置關(guān)系,證明MSSA 解碼器能為密集描述獲取有效位置關(guān)系,但因缺乏幾何細(xì)節(jié),左子圖中 “bush”的信息表述模糊,采用了廣泛的 “plant”來(lái)表述;而MAS-ED模型不僅可檢測(cè)出灌木叢 “bush”、建筑物 “building”以及公交車 “bus”的顏色、大小細(xì)節(jié),而且還在一定程度上能夠表達(dá)出各物體間的空間位置關(guān)系,如 “side”,“behind”等.
圖8 圖像密集描述模型的定性分析Fig.8 Qualitative analysis of image dense captioning model
值得注意的是,MAS-ED 模型的預(yù)測(cè)語(yǔ)句沿用了MSSA-ED 中的 “growing on”詞組,這表明 “bush”的一種生長(zhǎng)狀態(tài),是基準(zhǔn)描述語(yǔ)句中未體現(xiàn)的.類似地,右子圖中的 “beard man”也沒(méi)有存在于基準(zhǔn)語(yǔ)句中,這些都體現(xiàn)了MAS-ED 方法可為密集描述增加豐富度,能夠生成靈活多樣的描述語(yǔ)句.
特殊地,對(duì)于大目標(biāo)物體的細(xì)節(jié)信息,如 “building”,MAS-ED 模型指出了該物體的顏色 “red”和組成 “brick”.但GT和MFLF-ED 模型的語(yǔ)句中僅體現(xiàn)了顏色這一細(xì)節(jié),因此 “brick” 是MAS-ED模型自適應(yīng)添加的幾何細(xì)節(jié),且該幾何細(xì)節(jié)完全符合圖中物體.此外,MAS-ED 還一定程度上增加了小目標(biāo)物體的精確檢測(cè),如GT 語(yǔ)句中未體現(xiàn) “beard man”.該目標(biāo)是MAS-ED 模型在描述語(yǔ)句中自適應(yīng)增加的,并且由圖8 可知當(dāng)前描述區(qū)域中的確含有這一目標(biāo).此外,圖8 中間子圖的密集描述語(yǔ)句體現(xiàn)了MAS-ED 模型可自適應(yīng)加入位置信息.在該子圖中,MSSA-ED 模型捕捉到了 “tress”與“elephant”間的位置關(guān)系,但MAS-ED 模型中卻未體現(xiàn),而是指出了 “building”與“elephant”間的關(guān)系.這是由于MAS-ED 模型經(jīng)訓(xùn)練后,有選擇地篩選出了最為突出的目標(biāo)間位置信息.
本文提出了一種基于多重注意結(jié)構(gòu)的圖像密集描述生成方法,該方法通過(guò)構(gòu)建一個(gè)多尺度特征環(huán)路融合機(jī)制,為文本描述增加了較為細(xì)節(jié)的幾何信息;并設(shè)計(jì)了多分支空間分步注意力解碼器,以加強(qiáng)描述目標(biāo)間的空間位置關(guān)系.實(shí)驗(yàn)結(jié)果表明,基于LSTM 解碼網(wǎng)絡(luò)框架,本文MAS-ED 方法的性能優(yōu)于其他圖像密集描述方法.