反向聚焦細(xì)粒度多模態(tài)語義對齊的視頻字幕模型

2025-07-28 00:00:00蔡霞羅會蘭萬斯奇

計算機應(yīng)用研究 2025年7期

中圖分類號：TP391 文獻(xiàn)標(biāo)志碼：A 文章編號：1001-3695（2025）07-009-1986-08

doi：10.19734/j. issn.1001-3695.2024.11.0492

Abstract：Existingvideocaptioningoftenintroducemultimodal informationtoassistmodelsinextractingcriticalandfinegrained details fromcomplex anddynamic visual content.However，these methods tendtooverlook thesemantic gapscaused by representationaldiferencesamong modalities.Tobridgethesegaps，facilitateefectivecross-modalalignmentandeficientfusion，andenancetheextractionoffine-grainedsmanticinformatio，thispperproposedareverse-focusfingranedultio dal semanticalignmentforvideocaptioning（RM4Cap）.Thismodelcombinedanimage-textpaircorpusand facilitatedsemanticalignmentbetweenvideoandimage，indirectlyaligningvideorepresentationswithtextintheimage-textpairs.Anditdesignedareverse attention focusing algorithm to suppress redundant scene informationwhile highlighting inconspicuous objects and their interactions.Experimentsconductedonthe MSVDand MSRVTTdatasetsshow thatthe model significantlyoutperforms existing methods in metricssuch as CIDErand BLEU-4.It efectivelyresolves thealignmentchallenges andredundancy issues in multimodal fusion，further demonstrating its ability to narrow the cross-modal semantic gap.

Key words：video captioning；multimodal； reverse attention；semantic alignment； semantic gap

0 引言

視頻字幕是一個連接視覺和語言并將視覺內(nèi)容以自然語言描述的跨模態(tài)任務(wù)。視頻字幕在多個領(lǐng)域都有廣泛的應(yīng)用，尤其是在無障礙輔助系統(tǒng)的設(shè)計和多媒體教學(xué)任務(wù)[1.2]中具有重要作用。然而，理解視覺內(nèi)容是一項非常具有挑戰(zhàn)性的任務(wù)。與圖像視覺內(nèi)容的固定不變和文本語句主旨的直接表述不同，視頻內(nèi)容由于具有時序性，其表現(xiàn)形式在不同場景和時間點上會有所變化。例如，一只倉鼠在不同的鏡頭下可能有不同的姿態(tài)和難以避免的遮擋，而模型往往無法正確識別其類別，通常會用籠統(tǒng)的詞語，如用“動物”來描述。同樣地，對于細(xì)微的動作變化，模型也可能無法察覺，進(jìn)而用簡化的動作描述，如用“isplaying”或“iswith”概括所有的變化。這一局限性不僅妨礙了細(xì)粒度信息的呈現(xiàn)，還影響了模型對關(guān)鍵視覺關(guān)系的準(zhǔn)確推理。因此，如何有效地將學(xué)習(xí)到的這些細(xì)粒度的視覺信息轉(zhuǎn)換為更精確的文本描述成為一大挑戰(zhàn)。

為了應(yīng)對上述挑戰(zhàn)，近期的研究[3＼～5]探索了引入額外模態(tài)信息以彌補視覺內(nèi)容表達(dá)的不足，其中最廣泛應(yīng)用的是引人文本模態(tài)。文本不僅能彌合視覺內(nèi)容在變化過快或過慢時引發(fā)的理解不穩(wěn)定，還能在視覺信息稀缺的情況下提供語義支持，從而幫助模型準(zhǔn)確識別并表達(dá)關(guān)鍵信息。引入文本模態(tài)的模型常采用圖像-文本匹配方法，或者通過額外構(gòu)建支持集語料庫[]供模型參考，并引人注意力機制[89]以實現(xiàn)視覺與文本的跨模態(tài)融合。注意力機制能夠融合來自不同特征提取器的信息，并動態(tài)地總結(jié)視覺與文本特征，定位視頻中與目標(biāo)文本標(biāo)簽高度相關(guān)的視覺區(qū)域，從而增強對全局信息的捕捉。然而，這些方法仍然面臨信息冗余的問題，例如，視頻幀序列中可能包含大量不同的對象或場景，但并非所有的對象或細(xì)節(jié)都對字幕生成具有實質(zhì)性貢獻(xiàn)。模型通常難以有效篩選并聚焦于關(guān)鍵對象，導(dǎo)致一些不相關(guān)或次要信息被過度關(guān)注，影響了字幕生成的準(zhǔn)確性。此外，現(xiàn)有方法在處理細(xì)粒度目標(biāo)時，往往未能深入捕捉同類對象之間的微小差異。這種忽視細(xì)節(jié)的做法可能導(dǎo)致生成的描述過于籠統(tǒng)，無法充分表達(dá)視頻中的復(fù)雜變化和細(xì)節(jié)。

盡管現(xiàn)有方法在視覺與文本的跨模態(tài)融合上有所嘗試，但依然未能有效解決視覺與文本之間的語義鴻溝問題。具體來說，視覺模態(tài)中包含的細(xì)粒度信息和復(fù)雜的語義關(guān)系在轉(zhuǎn)換為文本描述時，往往未能完全反映或準(zhǔn)確傳達(dá)，導(dǎo)致視覺內(nèi)容中的深層次信息無法與文本特征充分對齊。這種語義鴻溝使得模型難以準(zhǔn)確捕捉視頻中的微小變化和細(xì)節(jié)，從而影響字幕生成的精確度與多樣性。雖然現(xiàn)有對齊方法能夠在一定程度上緩解信息融合的難題，但仍未能徹底消除視覺和文本模態(tài)間的語義差異。為解決上述所說的現(xiàn)有方法中存在的視覺和文本模態(tài)之間的對齊與融合難題，以及兩種模態(tài)間的語義鴻溝問題，本文提出了一種新穎的跨模態(tài)目標(biāo)語義對齊方法，并稱之為RM4Cap。

RM4Cap不同于傳統(tǒng)的圖像-文本匹配檢索，而是通過將原始視頻幀特征與圖文對中提取的圖視覺輔助特征進(jìn)行匹配，結(jié)合語料庫信息識別目標(biāo)對象的最接近類別。這種方法不僅顯著提升了尾部類別的生成能力，還在語義對齊和視覺關(guān)系推理中展現(xiàn)了更高的細(xì)粒度表現(xiàn)。由于視覺特征間的匹配相比跨模態(tài)的視覺-文本對齊更加直觀且具可解釋性，此策略有效緩解了視覺與文本語義間的鴻溝問題。此外，本文檳棄了傳統(tǒng)注意力機制中只關(guān)注幀間顯著目標(biāo)的學(xué)習(xí)方式，創(chuàng)新性地引入反向注意力機制，以捕捉小類別之間的細(xì)微差異，而非完全不同類別的顯著差異。這種機制有效緩解了語義簡化的傾向，從而提升了模型的描述細(xì)粒度和多樣性。本文的貢獻(xiàn)可以總結(jié)如下：

a）提出了一個新穎的多模態(tài)視頻字幕模型，通過引人額外的圖像-文本對，彌合圖像對中圖像的距離，實現(xiàn)圖像與視頻幀的對齊，間接實現(xiàn)低級視覺與跨模態(tài)高級語義的對齊，從而解決了語義鴻溝問題，實現(xiàn)了多模態(tài)信息的高效融合。

b）在引入多模態(tài)信息的基礎(chǔ)上，本文設(shè)計了反向注意力聚焦算法，在傳統(tǒng)注意力上進(jìn)行改動，提高模型發(fā)現(xiàn)視覺細(xì)微動態(tài)變化的能力，同時減少視覺冗余以及額外模態(tài)帶來的冗余。

c）在兩個廣泛使用的公共數(shù)據(jù)集MSVD和MSRVTT上進(jìn)行實驗，除了在大數(shù)據(jù)MSRVTT上的BLEU-4指標(biāo)，本文模型在所有其他指標(biāo)上都取得了顯著的提升。

1相關(guān)工作

a）視頻字幕。最早的視頻字幕任務(wù)基于SVO三元組[10]該方法不僅需要耗費大量的人工設(shè)計語言規(guī)則，且生成的字幕缺乏豐富性和準(zhǔn)確性，逐漸被深度學(xué)習(xí)的方法所取代，常見的視頻字幕任務(wù)范式是使用兩階段的編碼器解碼器架構(gòu)，使用經(jīng)過預(yù)訓(xùn)練的2DCNN[11]以及3DCNN[12]來編碼視頻幀序列的視覺、運動信息，然后使用RNN或者 LSTM^[13～15] 按順序解碼出單詞。如RLHMN[14]提出了一個層級式的模塊化網(wǎng)絡(luò)，編碼視頻中的對象、動作以及上下文信息配合LSTM解碼生成字幕。MGRMP[16]設(shè)計了一個循環(huán)區(qū)域注意模塊，以提取不同的空間特征，并通過使用運動引導(dǎo)的跨幀消息傳遞，建立不同區(qū)域之間的高階關(guān)系，共同鼓勵信息交流產(chǎn)生強大的視頻表示。SAAT[15]則是額外地引入了預(yù)訓(xùn)練對象檢測器，并設(shè)計了動作引導(dǎo)模塊，通過學(xué)習(xí)注意力分布，動態(tài)融合謂詞與先前預(yù)測單詞的信息，使模型能精準(zhǔn)地描述動作。

以上工作都圍繞數(shù)據(jù)集本身開展，外部知識和構(gòu)建額外的語料庫的思想被引人到視頻任務(wù)中，如ORG-TRL[17]創(chuàng)新地設(shè)計了一種教師推薦學(xué)習(xí)方法，將外部知識集成到字幕模型當(dāng)中，結(jié)合對象關(guān)系圖編碼器以捕獲更詳細(xì)的交互信息。Open-Book[13]構(gòu)建了可插入的視頻到文本檢索器，從訓(xùn)練語料庫中檢索句子作為提示，增強模型字幕生成能力。另外，視頻內(nèi)的視覺關(guān)系也是值得關(guān)注的，這關(guān)乎對視頻內(nèi)容的總結(jié)。

TVRD^[18] 提出了一個傳遞視覺關(guān)系的檢測模塊，細(xì)化視覺對象的動作，并構(gòu)造對象-動作圖來描述對象和動作之間的淺層關(guān)系，通過動作來彌合對象之間的差距。

視頻字幕任務(wù)是多模態(tài)任務(wù)的先驅(qū)，所以近期的視頻字幕研究開始引人多模態(tài)知識以輔助生成。如MGSA[19]提出了一種利用運動引導(dǎo)空間注意的新型視頻字幕框架，并結(jié)合了數(shù)據(jù)集的音頻信息來生成更細(xì)致的字幕。 HRNAT^[20] 提出了帶有輔助任務(wù)的分層表示網(wǎng)絡(luò)，其中跨模態(tài)匹配任務(wù)能夠在語言三級表示的指導(dǎo)下學(xué)習(xí)視頻的層級表示，以獲得具有語法感知的視頻字幕。SMRE提出了一種基于支持集的視頻字幕多模態(tài)表示增強模型，在樣本之間共享的語義子空間中構(gòu)建靈活的映射關(guān)系和挖掘信息。

b）語義引導(dǎo)視頻字幕。字幕生成的關(guān)鍵是對視頻內(nèi)語義信息的準(zhǔn)確把握，所以視覺語義嵌人在視頻字幕任務(wù)中有著至關(guān)重要的作用。研究人員通過構(gòu)建從視覺特征獲取視覺表示向量的視覺模型和把字幕投射到語言表示向量的語言模型兩個模型，將兩種表示映射到聯(lián)合的空間當(dāng)中以生成字幕。Sib-Net^[21] 使用雙分支架構(gòu)對豐富的視頻信息進(jìn)行編碼，利用了視覺信息的自動編碼器和語義信息的視覺語義嵌入。 SGN^[22] 提出了一種用于視頻字幕的語義分組網(wǎng)絡(luò)。該網(wǎng)絡(luò)通過將視頻編碼為由部分解碼的標(biāo)題和相關(guān)幀組成的語義組來全面了解字幕上下文。RSFD[23]提出了一種針對頻率擴散的新型細(xì)化語義增強方法，并設(shè)計了一個不同的語義監(jiān)督器（DSS）模塊來補償擴散過程帶來的高頻標(biāo)記的信息丟失，進(jìn)一步強調(diào)低頻標(biāo)記的語義來緩解長尾問題。相比之下，本文提出了一種多模態(tài)的方法，通過結(jié)合額外的圖文對來提供語義信息指導(dǎo)，輔助模型準(zhǔn)確地學(xué)習(xí)到視頻內(nèi)容的語義信息。

2方法

本文RM4Cap框架如圖1所示，主要由多模態(tài)特征編碼器、跨模態(tài)目標(biāo)語義關(guān)聯(lián)、字幕生成器三個模塊組成，充分利用視頻幀圖像與圖像之間的高效對齊，間接達(dá)到視頻幀與文本的跨模態(tài)的高效融合。

首先，通過多模態(tài)編碼器獲取原始視頻的全局視覺表示，同時對額外引入的圖像-文本對語料庫中的圖像和文本進(jìn)行編碼，得到圖像輔助特征表示和文本標(biāo)簽語義信息。隨后，在跨模態(tài)目標(biāo)語義關(guān)聯(lián)過程中，本文提出了跨模態(tài)目標(biāo)-語義關(guān)聯(lián)模塊CTSAM，以圖像輔助特征為橋梁，實現(xiàn)視頻與文本標(biāo)簽?zāi)繕?biāo)語義的對齊與關(guān)聯(lián)，并采用反向注意力聚焦算法對關(guān)聯(lián)后的新視覺語義進(jìn)行建模，在與不同幀的交互中，學(xué)習(xí)到細(xì)微差異，實現(xiàn)更加細(xì)粒度的特征表示。最后字幕生成模型將這些表示映射到文本空間，生成相對應(yīng)的描述。

2.1多模態(tài)特征編碼器

為了更好從視頻中獲取豐富的視覺表示，以及對圖像-文本對進(jìn)行特征編碼，本文使用了預(yù)訓(xùn)練的CLIP模型來搭建本文的多模態(tài)特征編碼器，CLIP模型并不是單純的視覺特征提取骨干網(wǎng)絡(luò)，如文獻(xiàn)[24]所述，該模型對大量的Image-Text即圖文對進(jìn)行訓(xùn)練，通過對比學(xué)習(xí)，使得當(dāng)其在編碼視覺模態(tài)信息時可以更加趨向文本表示，同樣地，當(dāng)其在編碼文本信息時，同時向圖像表示空間靠攏。如圖1所示，多模態(tài)編碼器主要由兩部分組成：a）對輸入的視頻幀序列進(jìn)行處理，采用的是CLIP模型中的視覺編碼器，并選擇 ViT^[25] 作為視覺編碼器的特征提取骨干；b）對輸入的圖文對進(jìn)行處理，對于圖像，依舊采用和視頻處理一樣的視覺編碼器，對于文本，則采用CLIP模型中的文本編碼器來進(jìn)行編碼。編碼視頻特征、圖文對圖像特征以及文本標(biāo)簽語義特征的具體實現(xiàn)如下：

a）采用視覺編碼器提取視頻特征。在這一步中，為了確保模型能夠有效捕獲視頻幀細(xì)粒度信息，在采樣階段執(zhí)行均勻采樣來避免過多相似視頻幀被輸入到編碼器。首先，從給定視頻片段提取 L 個關(guān)鍵幀，組成新的視頻幀序列 F_i（01，x₂，…，x_1p1} ，通過線性投影將每個塊展平并映射到 d_v 維的向量空間，得到每一個圖片的塊嵌入表示。

其中： E_pos 是所有圖像塊的位置編碼； Z⁰ 是Transformer初始輸入序列；Transformer由 N 層多頭自注意力層和MLP塊交替堆疊而成，負(fù)責(zé)對這些嵌入表示即初始輸人序列進(jìn)行特征編碼。具體實現(xiàn)公式如下：

Z^'n=MSA（LN（Z^n-1））+Z^n-1

Zⁿ=MLP（LN（Z^'n））+Z^'n

其中： Zⁿ 是Transformer重復(fù) n 層的輸出結(jié)果； Z_cls^N 是最后一層輸出的分類特征，然后對其進(jìn)行歸一化，得到最終的全局視覺特征 G_i 。需要注意的是，為了節(jié)約計算成本和訓(xùn)練時間，該過程的所有參數(shù)都采用凍結(jié)的預(yù)訓(xùn)練參數(shù)，不參與模型訓(xùn)練。

b）分別采用視覺編碼器、文本編碼器提取圖像輔助特征和文本標(biāo)簽語義特征。在編碼視瀕幀序列的同時，從圖像-文本對中采樣的圖像集 {I₁，I₂，…，I_M} 也被輸入到視覺編碼器visionTransformer（ViT-L/14）進(jìn)行處理，以提取輔助圖像特征 V_j

其中： M 為圖像對中圖像集的總數(shù)； V_j 為圖像集中第 j 張圖像對應(yīng)的圖像視覺輔助特征。

類似地，從圖像-文本對中采樣的文本標(biāo)簽集 {[token]₁ [token]₂，…，[token]_M} 由CLIP模型中的文本編碼器將其編碼為語義表示。文本編碼器同樣基于Transformer結(jié)構(gòu)，由于文本標(biāo)簽是一個一個單獨存在的單詞，并沒有像圖像那樣需要結(jié)合上下文語義信息進(jìn)行編碼，所以Transformer中多頭自注意力層并沒有起什么作用。在這一步中，本文丟棄多頭自注意力層，僅保留MLP塊作為Transformer的關(guān)鍵組件，通過多次疊加，生成類別標(biāo)簽的語義特征。其簡化的計算過程如下：

Eⁿ=MLP（LN（Eⁿ））+Eⁿn=1，2，…，N

其中： M 為圖文對中類別標(biāo)簽的總數(shù)； T_j 為圖文對中第 j 個文本類別標(biāo)簽。

2.2CTSAM跨模態(tài)目標(biāo)-語義關(guān)聯(lián)模塊

為了實現(xiàn)視覺和語義之間更好的對齊以及減少視覺冗余的負(fù)面影響，本文提出了CTSAM跨模態(tài)目標(biāo)-語義關(guān)聯(lián)模塊，分別由跨模態(tài)語義對齊（cross-modal semanticalignment，CMSA）和反向聚焦幀間特征細(xì)化（reverse-focusedframe-levelrefinement，RFFR）兩個關(guān)鍵組件組成。CMSA引入圖片進(jìn)行對齊來輔助文本對齊和融合，與直接對文本信息進(jìn)行注意力不同，CMSA可以提供更加豐富的包含準(zhǔn)確目標(biāo)的語義信息；同時結(jié)合使用了反向注意力的RFFR，又可以對模態(tài)存在的冗余信息進(jìn)行刪減，保留可以反映視覺關(guān)系的動態(tài)視覺變化，從而進(jìn)一步增強視頻幀的特征表達(dá)能力。圖2展示了CMSA的跨模態(tài)對齊融合以及RFFR的反向注意力簡略對比圖，各自的性能結(jié)果將在消融實驗3.3節(jié)中的2）進(jìn)行敘述，其中“visual\"代表視覺模態(tài)信息；“text”代表文本模態(tài)信息；“sem”代表語義信息。

圖2不同的融合注意力算法Fig.2Different fusionattentionalgorithms

2.2.1CMSA跨模態(tài)語義對齊組件

CMSA組件框架如圖1和圖2（b）所示，與傳統(tǒng)方法直接對接視頻與文本表示不同，CMSA通過構(gòu)建視頻與圖像-文本對中圖像的間接橋梁，實現(xiàn)視頻與文本的對齊和融合。此方法不僅有效對齊不同模態(tài)，還緩解了因模態(tài)不同步而產(chǎn)生的語義鴻溝問題。CMSA的跨模態(tài)語義對齊過程具體實現(xiàn)如下：

在跨模態(tài)語義對齊之前，多模態(tài)特征編碼器已將全局視覺特征、圖像輔助特征和文本特征映射到共享的語義空間中，并分別用 G_i，V_j 和 T_j 表示經(jīng)過映射后的特征。然后CMSA通過余弦相似度衡量視頻幀 G_i 與語料庫中圖像特征 V_j 的關(guān)聯(lián)性：

其中： S_i，j 表示第 χ_i 幀視頻幀與第 j 個輔助圖像特征之間的相似度。得到每一視頻幀與圖像集所有圖像的相似度之后，為進(jìn)一步確定視頻幀與圖像特征之間的語義匹配關(guān)系，使用softmax函數(shù)對該相似度進(jìn)行歸一化，得到每幀視頻幀對所有圖像特征的匹配概率分布Pij：

通過匹配概率 P_i，j ，模型能夠量化每幀視頻與圖像標(biāo)簽之間的匹配程度。接下來，選擇與每幀視頻最相關(guān)的前 K 個圖像對應(yīng)的文本類別標(biāo)簽，這些類別標(biāo)簽表示為 {T_j，1ⁱ，T_j，2ⁱ，… ，將這些類別標(biāo)簽與原始視頻幀關(guān)聯(lián)起來，得到新的圖像對集合：

C（V，T）=（G_i，T_（j，1）ⁱ，T_（j，2）ⁱ，…，T_（j，K）ⁱ）

同時讓這些類別標(biāo)簽通過加權(quán)的方式串接在一起，生成既

包含初始視覺信息又包含補充的文本類別標(biāo)簽信息的跨模態(tài)全局語義表示：

其中： P_i，jK 是第 i 幀匹配度第 K 高的輔助圖像，即匹配度第 K 高的文本類別的匹配概率; T_j，κⁱ 是對應(yīng)的文本類別特征。在對文本類別特征加權(quán)后，利用生成的語義表示對原始視覺特征進(jìn)行增強，得到包含豐富語義信息的增強視覺特征 R（K+1）xdv

2.2.2RFFR反向聚焦幀間特征細(xì)化組件

為進(jìn)一步捕捉視頻幀之間描述對象的細(xì)微差異，RFFR組件基于跨模態(tài)語義對齊（CMSA），在不同幀之間執(zhí)行反向注意力操作，以去除冗余背景信息并突出非冗余的細(xì)節(jié)部分，RFFR組件框架如圖3所示。

圖3RFFR組件結(jié)構(gòu)Fig.3Structure of RFFR component

具體來說，RFFR通過比較幀間特征，將當(dāng)前幀與其他幀進(jìn)行比較，突出當(dāng)前幀與其他幀的不同之處，即當(dāng)前幀中不顯著的特征，例如視頻中呈現(xiàn)的目標(biāo)對象發(fā)生變化或有新的場景出現(xiàn)時，該方法就可以凸顯視頻幀的動態(tài)變化，避免靜態(tài)冗余信息干擾，從而生成更精細(xì)的幀特征表示。RFFR的具體實現(xiàn)細(xì)節(jié)如下：

首先，RFFR利用CMSA組件生成的增強視覺特征，逐幀比較與相鄰幀之間的相似和不相似之處，構(gòu)建幀間的關(guān)系矩陣 A^ij

其中 ?A^ij∈R^{（K+1）×（K+1）} 表示第 i 幀與第 j 幀關(guān)聯(lián)的文本標(biāo)簽的關(guān)聯(lián)得分，能夠幫助模型區(qū)分哪些幀之間的內(nèi)容相似，哪些幀內(nèi)容變化較大。

接下來，為了強化與當(dāng)前幀內(nèi)容不同的部分，減少冗余信息，并進(jìn)一步精細(xì)化幀間的特征表示，RFFR利用反注意力機制，使用公式 1-A^ij 來量化幀間的差異性：

為進(jìn)一步明確幀間相似關(guān)系，RFFR對關(guān)系矩陣應(yīng)用soft-max操作對幀間相似度進(jìn)行歸一化處理，得到歸一化的相似度矩陣。最后，將當(dāng)前幀與其他剩余幀的歸一化矩陣進(jìn)行相加，并讓其作為一個權(quán)重，返回給當(dāng)前幀：

其中： D 表示第 χ_i 幀中與其他幀之間需要學(xué)習(xí)的差異化信息；則是修正后的細(xì)粒度特征； ω 和 b 是可學(xué)習(xí)的參數(shù)。通過加權(quán)的方式調(diào)整學(xué)習(xí)權(quán)重，使得模型能夠在幀間進(jìn)行細(xì)粒度的特征修正。將每一幀修正后的細(xì)粒度特征 R_i 進(jìn)行拼接，得到融合了全局視覺表示和與之高度相關(guān)的文本標(biāo)簽信息的新視頻表示V。

2.3字幕生成器（解碼器）

為了將修正后且融合了多模態(tài)文本標(biāo)簽信息的細(xì)粒度特征編碼為描述性語句，以文字形式展示視覺內(nèi)容，在CTSAM模塊之后，設(shè)計了一個字幕生成器。字幕生成器的實現(xiàn)過程如下：

字幕生成器旨在生成字幕 y={y₁，y₂，…，y_t} ，每個詞 y_t 的生成依賴于視頻表示V和前 χ_t 個時間步生成的單詞 y_{。在步驟 χ_t ，首先計算前一時間步生成單詞的嵌入 e_t ，具體公式如下：}

V是結(jié)合了低級全局視覺特征和細(xì)粒度修正后的視覺特征，接下來，將 E_?t={e₁，e₂，…，e_t} 和V輸入到字幕解碼器以生成詞的隱藏狀態(tài) h_t ·

其中： W_q?W_k 和 W_v 是可學(xué)習(xí)矩陣。最后，將 h_t 輸入到分類頭以預(yù)測下一個單詞 y_t

P（y_t|Y_{，w）=ClsHead（h_t）=softmax（h_tW^cls）}

其中：（y_t|Y_{，w）∈R^|w| 表示當(dāng)前單詞在詞匯表 w 上的概率分布； W^cls∈R^D×1w！是可學(xué)習(xí)矩陣。}

2.4 訓(xùn)練

通過計算生成字幕與真實字幕 Y^?={y₁^?，y₂^?，…，y_T^?} 的交叉熵?fù)p失來優(yōu)化整個視頻字幕生成模型：

其中： T 是預(yù)定義的最大序列長度； δ（y_t^*）∈R^|w| 是 y_t^* 的one-hot編碼，這意味著僅在位置 y_t^* 的值為1，其余為 0 。

3實驗

3.1 實驗設(shè)置及實現(xiàn)細(xì)節(jié)

a）實驗設(shè)置。關(guān)于視頻字幕任務(wù)，目前主流的數(shù)據(jù)集有MSVD[26]、MSR-VTT[27]和VaTeX[28]?？紤]到實驗成本及評估方法的全面性和公平性，本次實驗選擇了MSVD和MSR-VTT作為數(shù)據(jù)集，并采用BLEU-4[29]、ROUGE-L[30]、METEOR[31]和CIDEr[32]四個常用評價指標(biāo)來進(jìn)行評分。

MSVD數(shù)據(jù)集是最早流行的一個視頻字幕基準(zhǔn)數(shù)據(jù)集，由來自不同生活領(lǐng)域的1970個視頻片段組成。每個視頻片段都配有若干個長度不等的句子注釋。與現(xiàn)有工作一致，本實驗選取前1200個視頻片段作為訓(xùn)練數(shù)據(jù)，100個視頻片段作為驗證數(shù)據(jù)，剩余670個視頻片段作為測試數(shù)據(jù)。MSR-VTT數(shù)據(jù)集是另一個流行的視頻字幕基準(zhǔn)數(shù)據(jù)集，數(shù)據(jù)集大小是MSVD的五倍多，共由10000個視頻片段組成，每個視頻片段配有20個不同長度的句子注釋。相較于MSVD，MSR-VTT中的句子注釋更加豐富，內(nèi)容更為多樣。因此，本次實驗選擇MSR-VTT作為主數(shù)據(jù)集，以考察本文模型在生成準(zhǔn)確且多樣的描述性語句方面的能力。與現(xiàn)有工作一致，本實驗選取前6513個視頻片段作為訓(xùn)練數(shù)據(jù)，497個視頻片段作為驗證數(shù)據(jù)，剩余2990個視頻片段作為測試數(shù)據(jù)。

b）實現(xiàn)細(xì)節(jié)。在特征提取之前，首先從每個視頻片段中選擇相同數(shù)量的視頻幀，以構(gòu)成新的輸入序列。在本文中，選取的視頻幀數(shù)量設(shè)置為 L=15 。為了提取每一幀的視頻特征，采用了預(yù)訓(xùn)練的CLIP模型的ViT-L/14網(wǎng)絡(luò)。需要強調(diào)的是，

CLIP模型僅用于特征表示學(xué)習(xí)，并不參與本文所提出網(wǎng)絡(luò)的訓(xùn)練過程。同時，圖像-文本對中的圖像樣本也采用了相同的處理方式，以確保視覺和文本模態(tài)之間的有效對齊。

在特征提取具體實現(xiàn)中，視覺模態(tài)的特征維度遵循ViT-L/14 設(shè)置 d_v=768 ，即每個視頻幀的視覺表示被嵌人到一個768維的空間中，從而保留了足夠的視覺信息，以供后續(xù)的多模態(tài)處理使用。此外，文本模態(tài)的編碼采用了CLIP模型中預(yù)訓(xùn)練的文本編碼器，文本特征維度設(shè)置為，以確保文本特征能夠與視覺特征對齊，并在后續(xù)的跨模態(tài)對齊與融合中起到關(guān)鍵作用。在CTSAM的實現(xiàn)中，除非另有說明，否則在跨模態(tài)語義對齊（CMSA）過程中，選擇與每幀視頻最相關(guān)的文本類別標(biāo)簽的數(shù)量設(shè)置為 K=3 。對于字幕生成器，詞嵌入的維度設(shè)置為 D=768 ，以保持與視覺特征維度的一致性，整個詞匯表的大小設(shè)定為 ∣w∣=49408 。

本文基于深度學(xué)習(xí)框架PyTorch來構(gòu)建RM4Cap模型，并使用一塊11GB顯存的GeForceRTX2080TiGPU來加速網(wǎng)絡(luò)模型的訓(xùn)練和測試。在模型訓(xùn)練過程中，采用Adam優(yōu)化器，初始學(xué)習(xí)率設(shè)置為1E-4，訓(xùn)練批次大小設(shè)定為128，訓(xùn)練周期設(shè)定為20。

3.2 實驗結(jié)果

為了確保實驗的公平性和全面性，將本文模型分別和“只使用單個模態(tài)信息”的方法、“使用了多模態(tài)信息”的方法進(jìn)行了對比，實驗結(jié)果如表1（單模態(tài)）表2（多模態(tài)）所示。

表1展示了僅使用視覺模態(tài)特征的方法，包括2D外觀特征、3D運動特征以及目標(biāo)檢測特征等。從結(jié)果中可以看出，不使用目標(biāo)檢測特征的方法（如MGRMP和TVRD）在性能上往往遜色于使用目標(biāo)檢測特征的方法（如RLHMN），這一優(yōu)勢在小數(shù)據(jù)集MSVD上更為明顯。這從側(cè)面表明，豐富的視覺信息類型（包括目標(biāo)檢測特征）的加入有助于模型生成更高質(zhì)量的字幕。

表1在MSVD、MSR-VTT數(shù)據(jù)集上與單模態(tài)方法的比較結(jié)果

本文模型在提供更豐富的視覺信息的同時，還提供了更加精確的文本模態(tài)信息，從表1最后一行可以看到，剩余其他評分指標(biāo)都高過目前分?jǐn)?shù)最高的RLHMN，相比于只采用單個模態(tài)的方法，本文方法有非常明顯的優(yōu)勢。在表1中最后一行可以看到，除了BLEU-4（B4）評分指標(biāo)，本文模型在METEOR（M）ROUGE（R）和CIDEr（C）等評分指標(biāo)上均顯著超越其他單模態(tài)方法，尤其是在CIDEr指標(biāo)上，比得分最高的RLHMN方法有大幅提升，展示了多模態(tài)方法比單模態(tài)方法具有更加強大的性能。

表2展示了采用多模態(tài)信息方法的性能表現(xiàn)。這些方法中，有的結(jié)合了視覺和音頻模態(tài)（如RSFD），而有的結(jié)合了視覺和文本模態(tài)（如HRNAT）。本文采用視覺和文本信息的建模方式，與最佳的視覺和音頻結(jié)合方法（如MGSA）相比，除了在BLEU4指標(biāo)上略遜于MGSA，其余指標(biāo)均略勝一籌，尤其是CIDEr指標(biāo)，提升了高達(dá)7.2分。使用視覺和音頻結(jié)合方法的CIDEr分?jǐn)?shù)較低、其他指標(biāo)略高的原因在于音頻信息雖然有助于準(zhǔn)確描述內(nèi)容，但其語義信息的多樣性不如文本豐富，而CIDEr分?jǐn)?shù)主要考察字幕生成的多樣性。

表2在MSVD、MSR-VTT數(shù)據(jù)集上與多模態(tài)方法的比較結(jié)果Tab.2 Comparisonresultswith multimodal methodsMSVDandMSR-VTTdatasets

HRNAT、RSFD和CAT與本文模型一樣，通過輸人文本信息，來輔助模型訓(xùn)練。從表2的最后一行可以看出，本文模型在MSVD的所有評估指標(biāo)中獲得了最高分，在MSR-VTT數(shù)據(jù)集上，四個指標(biāo)中有三個領(lǐng)先于其他方法。值得注意的是，與小型MSVD數(shù)據(jù)集相比，MSR-VTT大型數(shù)據(jù)集的性能提升更為顯著。盡管本文模型在MSR-VTT數(shù)據(jù)集上的BLEU-4分?jǐn)?shù)并非最高，但在其他評估指標(biāo)上表現(xiàn)最佳，這些結(jié)果進(jìn)一步驗證了本文模型的有效性。

3.3消融實驗

本文CTSAM模塊中包含CMSA跨模態(tài)目標(biāo)語義對齊和RFFR反向注意力聚焦兩個核心組件（步驟）?？缒B(tài)目標(biāo)語義對齊旨在解決多模態(tài)任務(wù)中常見的語義鴻溝問題，即文本信息與視覺信息的不一致。通過精細(xì)對齊高級語義和低級語義，該組件可以有效地提升模型對多模態(tài)語義信息的融合能力。反向注意力聚焦則專注于通過捕捉幀間的細(xì)微差異，減少冗余的視覺信息，從而更精準(zhǔn)地突出動態(tài)變化。為驗證這兩個核心組件對模型性能的貢獻(xiàn)及其影響，本文設(shè)計了兩個消融實驗：a）評估各個組件在模型中的具體作用；b）評估各個組件算法組成對生成字幕效果的影響（詳情如圖2所示）。

1）CTSAM各個組件的作用

實驗結(jié)果如表3所示，其中“√”表示使用該模塊，“ x \"表示未使用該模塊。表3的五種設(shè)置分別驗證了CMSA跨模態(tài)語義對齊與RFFR反向注意力聚焦兩種模塊的獨立作用及其交互效果：第一行既不使用CMSA，也不使用RFFR;第二行僅使用CMSA進(jìn)行多模態(tài)信息融合，未引人RFFR；第三行與第一行相反，只使用RFFR以去除視覺冗余，但未使用CMSA對齊多模態(tài)信息；第四行則同時結(jié)合了CMSA與RFFR，是本文模型完整架構(gòu)組成。

表3在MSVD、MSR-VTT數(shù)據(jù)集上CTSAM各個組件的消融研究

研究CMSA的作用，可以參考第一行和第二行的結(jié)果。從第一行與第二行的對比可以看出，在使用多模態(tài)信息的情況下，采用跨模態(tài)語義對齊進(jìn)行融合的方式，能夠有效對齊不同模態(tài)的信息。如圖4所示，采用CMSA跨模態(tài)語義對齊進(jìn)行多模態(tài)對齊比單純視覺信息更具針對性，從而更有助于視頻內(nèi)容的視覺語義交互。然而，僅依賴跨模態(tài)語義對齊的方式可能面臨視覺信息本身的冗余問題，或者多模態(tài)信息之間存在冗余的挑戰(zhàn)，因此生成字幕的質(zhì)量仍未達(dá)到最佳。當(dāng)引入反向注意力聚焦后，模型的性能得到了顯著提升。

同樣地，研究RFFR的作用，可以通過對比第一行與第三行的結(jié)果進(jìn)一步研究RFFR的優(yōu)勢。從第一行與第三行的對比可以看出，在未使用CMSA的情況下，僅引入RFFR的模型顯著優(yōu)于引入傳統(tǒng)注意力機制的模型，這說明RFFR通過捕捉幀間細(xì)微差異，能夠有效去除冗余背景信息并保留關(guān)鍵動態(tài)特征，從而在沒有跨模態(tài)語義對齊的情況下仍能提升字幕生成效果。然而，通過對比第三行和最后一行的結(jié)果可以看出，單獨使用RFFR的方式也存在一定的局限性。由于缺乏對多模態(tài)語義信息的全局對齊，僅依靠反向注意力機制可能無法充分利用文本模態(tài)中豐富的語義信息，導(dǎo)致在一些場景下生成的字幕缺乏上下文的深度語義關(guān)聯(lián)。

通過最后一行與其他行的對比可以更直觀地驗證兩模塊的協(xié)同效果，圖4展示了單獨使用CMSA或RFFR時的可視化結(jié)果，可以發(fā)現(xiàn)CMSA能夠更好地對齊語義信息，而RFFR則更擅長于處理視覺冗余和動態(tài)變化。這兩個模塊各有側(cè)重，且作用相輔相成。當(dāng)引入CMSA或RFFR后，相對于之前單獨使用某個模塊，模型的性能都相應(yīng)地得到了顯著提升。這也就說明跨模態(tài)語義對齊與反向注意力聚焦的結(jié)合能夠顯著提升模型性能，不僅實現(xiàn)了多模態(tài)信息的精準(zhǔn)對齊，還有效減少了冗余，進(jìn)一步提升了字幕生成的語義準(zhǔn)確性和多樣性。

2）CMSA、RFFR組件算法組成對視頻模型的影響

實驗結(jié)果如表4所示，為了便于觀察結(jié)果，除最后一行外，表格的奇數(shù)行來自表3的結(jié)果，并將來自表3的結(jié)果添加下畫線以作區(qū)分。其中：“√”表示該模塊使用了原始模型提出的注意力或跨模態(tài)融合算法；“ × ”表示未使用該模塊；“區(qū)”表示使用傳統(tǒng)注意力機制替換該模塊原始算法，即使用圖2（a）。

表4在MSVD、MSR-VTT數(shù)據(jù)集上CMSA和RFFR組件算法組成的消融研究Tab.4Ablation studies of the CMSA and RFFR components ontheMSVDandMSR-VTTdatasets

第一行和第二行顯示的是在使用原始CMSA的情況下，RFFR分別采用傳統(tǒng)注意力機制和反注意力聚焦算法的結(jié)果。通過對比可以發(fā)現(xiàn)，使用傳統(tǒng)注意力機制生成字幕的效果并沒有很好的性能提升，性能反而還下降。這是由于注意力機制的作用是聚焦或更多地關(guān)注有用的信息，而視頻有視覺冗余這一局限性存在，不作細(xì)分地對任何問題都采用注意力機制并不理想，CIDEr分?jǐn)?shù)下降1.1分這一現(xiàn)象，很好地佐證了本文的觀點：當(dāng)處理豐富的視覺內(nèi)容時，模型的工作重點不宜放在看似非常重要的重復(fù)的視覺自標(biāo)，而是要學(xué)會從相同中我不同，從靜態(tài)內(nèi)容中找動態(tài)內(nèi)容。

另外，將第二行和最后一行進(jìn)行對比，可以發(fā)現(xiàn)反注意力聚焦算法可以凸顯特征差異、細(xì)化視覺特征，對模型有顯著的正向影響。其中CIDEr指標(biāo)分?jǐn)?shù)顯著提高，較使用傳統(tǒng)注意力機制提升了1.2。實驗結(jié)果說明，本文提出的反注意力聚焦算法能夠在保證學(xué)習(xí)內(nèi)容的準(zhǔn)確性的情況下，聚焦視頻中細(xì)微的動態(tài)變化，成功減少額外模態(tài)帶來的信息冗余，保留關(guān)鍵視覺信息。

接下來，通過觀察第三行和第四行的對比結(jié)果，探討在使用原始RFFR的情況下，在CMSA使用不同的跨模態(tài)融合機制對模型的影響。當(dāng)?shù)谒男胁捎脗鹘y(tǒng)注意力直接對文本和視頻幀進(jìn)行建模時，在大數(shù)據(jù)集MSR-VTT上生成結(jié)果的CIDEr分?jǐn)?shù)有明顯下降的趨勢，而準(zhǔn)確性卻有比較大幅度的提升，這樣的結(jié)果恰好說明了：當(dāng)視頻數(shù)據(jù)內(nèi)容復(fù)雜多變時，模型無法分辨主旨目標(biāo)，易將不顯著的其他目標(biāo)當(dāng)成描述主體，故加入多模態(tài)信息去提供更加有指代性的語義信息，有助于模型學(xué)習(xí)到真正的目標(biāo)主體。但又由于文本和視覺之間在表示空間存在語義鴻溝，所以模型會傾向用籠統(tǒng)的詞語介紹主體，從而降低了生成文本的多樣性，反過來也因為生成詞語可描述的內(nèi)容范圍變大，也會提高模型生成的準(zhǔn)確性。

而通過與最后一行即本文提出的反注意力聚焦算法對比，更加驗證了前文的說法：通過引入額外的圖像-文本對，彌合圖像對中圖像的距離，實現(xiàn)圖像與視頻幀的對齊，間接實現(xiàn)低級視覺與跨模態(tài)高級語義的對齊，從而解決了語義鴻溝問題，有效實現(xiàn)多模態(tài)信息的高效融合。

3.4 性能分析

將本文方法與兩個單模態(tài)方法（SAAT、RLHMN）及三個多模態(tài)方法（SGN、HRNAT、RSFD）在FLOPs、推理時間（time）和CIDEr（C）指標(biāo)上進(jìn)行了對比和排名，具體實驗結(jié)果如表5所示。

在計算復(fù)雜度方面，RM4Cap的計算復(fù)雜度為1.02G，在所有對比方法中排名第二，僅次于RSFD的 1.01G 相比復(fù)雜度更高的RLHMN，RM4Cap在保持較低FLOPs的同時，展現(xiàn)出更優(yōu)的性能。這得益于反向注意力聚焦算法，該算法通過對輸入視頻的視覺特征進(jìn)行動態(tài)篩選，有效剔除了冗余信息，從而大幅減少了計算開銷。相比之下，RLHMN由于其分層模塊化網(wǎng)絡(luò)需要在句子、謂詞和實體層面進(jìn)行獨立監(jiān)督，反而增加了模型的復(fù)雜性。RSFD盡管在計算復(fù)雜度上表現(xiàn)最佳，但其頻率感知擴散模塊主要聚焦于低頻標(biāo)簽語義信息，未能充分利用多模態(tài)特征的全局信息，在一定程度上限制了其CIDEr得分。

表5在MSR-VTT數(shù)據(jù)集上與最先進(jìn)方法的綜合性能比較結(jié)果 Tab.5Comprehensiveperformance comparison resultswith state-ofthe-artmethodsonMSR-VTTdatasets

在推理速度方面，RM4Cap以 62ms 的推理時間排名第二，僅次于SAAT的 32ms 。SAAT能夠取得最優(yōu)推理時間，主要得益于其對語法成分的顯式定位，從而顯著簡化了處理流程。然而，SAAT在CIDEr得分上表現(xiàn)較為遜色，表明其簡化的處理機制雖然提升了速度，但未能捕捉到更深層次的細(xì)粒度語義信息。相比之下，本文RM4Cap通過引人多模態(tài)語義對齊機制，在語義層面實現(xiàn)了對視覺特征和語言特征的精準(zhǔn)匹配。這種機制不僅提升了生成字幕的語義質(zhì)量，同時在推理效率上也達(dá)到了良好的平衡。而SGN則由于語義組構(gòu)建過程中依賴于復(fù)雜的視覺-文本對齊計算，其推理時間顯著較長，高達(dá) 194ms 是本文模型推理時間的3倍之多，這表明直接對視覺-文本進(jìn)行對比并不能夠在速度和性能之間取得平衡，也從側(cè)面說明RM4Cap提出通過實現(xiàn)視頻-圖像對齊來達(dá)到視覺-文本對齊思想的有效性。

在模型生成性能方面，RM4Cap在CIDEr得分上取得了57.3的最佳成績，高于所有對比方法。這一優(yōu)勢可以歸因于RM4Cap提出的反向注意力聚焦機制和多模態(tài)語義對齊模塊，它們共同增強了對視頻中細(xì)粒度動作變化的捕捉能力，顯著提升了字幕生成的質(zhì)量。相比之下，RLHMN雖然在分層監(jiān)督下對語義特征有較強的捕捉能力，但其復(fù)雜的層次化結(jié)構(gòu)導(dǎo)致了信息冗余問題。HRNAT則通過分層學(xué)習(xí)語義和語法特征，提升了語法感知能力，但多級特征生成過程的復(fù)雜性影響了對視頻中精細(xì)語義的捕捉能力。RSFD在CIDEr得分上次于RM4Cap，主要原因在于其對高頻標(biāo)簽的處理能力不足，未能充分展現(xiàn)視頻內(nèi)容的語義豐富性。

綜上所述，RM4Cap在推理時間、計算復(fù)雜度和生成質(zhì)量三方面實現(xiàn)了良好的平衡，并在CIDEr得分和綜合排名上表現(xiàn)出色。這不僅驗證了反向注意力聚焦算法在消除冗余信息、提升生成質(zhì)量上的有效性，也表明本文所提的多模態(tài)語義對齊機制在細(xì)粒度動作捕捉和語義表達(dá)優(yōu)化方面的潛力。

3.5 定性分析

圖5、6展示了本文模型在MSVD和MSR-VTT數(shù)據(jù)集上的生成字幕結(jié)果。為了更直觀地分析模型在生成字幕上的改進(jìn)與性能優(yōu)勢，將本文模型和SAAT模型進(jìn)行定性比較。SAAT模型采用的是額外的目標(biāo)檢測特征，在同樣的計算成本下，可視化多模態(tài)相比于單模態(tài)視頻字幕更具優(yōu)勢。在生成的結(jié)果中，特殊單詞被特別標(biāo)注，這些單詞通常是能夠反映視頻主題的名詞或體現(xiàn)內(nèi)容變化的動詞。從這些示例可以看出，本文模型相比使用單個模態(tài)的情況，生成的字幕更加貼合視頻內(nèi)容，且符合句法規(guī)律。定性分析表明，多模態(tài)信息的有效融合顯著提升了字幕生成的性能和多樣性。同時，得益于反向注意力聚焦模塊，模型能夠更加準(zhǔn)確地捕捉關(guān)鍵細(xì)節(jié)，生成更精準(zhǔn)、不籠統(tǒng)的描述結(jié)果。

圖5在MSVD數(shù)據(jù)集的定性結(jié)果Fig.5QualitativeresultsontheMSVD dataset

圖6在MSR-VTT數(shù)據(jù)集的定性結(jié)果Fig.6QualitativeresultsontheMSR-VTTdataset

4結(jié)束語

本文提出了一種基于多模態(tài)信息融合的創(chuàng)新視頻字幕生成方法，名為RM4Cap。該方法提出了CTSAM跨模態(tài)目標(biāo)-語義關(guān)聯(lián)模塊，具體來說通過引人跨模態(tài)語義對齊組件CMSA，增強了視覺特征與語言特征的協(xié)同表征能力；設(shè)計了反向注意力聚焦組件RFFR提高了模型對細(xì)粒度差異的捕捉能力，另外通過這種方式，能夠有效去除冗余背景信息并保留關(guān)鍵動態(tài)特征。CTASM模塊的提出有效對齊了視頻的視覺內(nèi)容與對應(yīng)的文本語義信息，從而提升了字幕生成的質(zhì)量和多樣性。實驗結(jié)果表明，RM4Cap在多個標(biāo)準(zhǔn)評估指標(biāo)上，如CIDEr和BLEU-4，顯著優(yōu)于現(xiàn)有的主流方法，表明該方法在多模態(tài)視頻字幕生成任務(wù)中的有效性和潛力，尤其是在捕捉細(xì)粒度對象差異和生成字幕的精細(xì)度上，RM4Cap展示出卓越的能力。遺憾的是，該模型并未將多模態(tài)特征編碼模塊一起進(jìn)行端到端訓(xùn)練，若可以進(jìn)行端到端訓(xùn)練，并將CTASM模塊中的CMSA或RFFR放入編碼器中發(fā)揮作用，預(yù)期效果應(yīng)該會好很多。未來，研究工作會集中在進(jìn)一步改進(jìn)視覺和語義對齊的精度方面，并通過更高效的訓(xùn)練方法提升模型的應(yīng)用能力。

參考文獻(xiàn)：

[1]趙博程，包蘭天，楊哲森，等.面向慕課視頻的關(guān)鍵信息檢索系統(tǒng) 設(shè)計［J].計算機科學(xué)，2024，51（10）：79-85．（ZhaoBocheng，Bao Lantian，YangZhesen，etal.Keyinformation retrievalsystemfor MOOCvideos[J].ComputerScience，2024，51（10）：79-85.）

[2]祝媚儀，蔣朱翊.多模態(tài)口譯教學(xué)改革探索：視頻字幕的認(rèn)知負(fù)荷研究[J].現(xiàn)代英語，2023（21）：13-16.（ZhuMeiyi，JiangZhuyi. Subtitles’effecton the cognitive loadof multimodal interpreting teaching[J].Modern English，2023（21）：13-16.）

[3]Wang Bairui，Ma Lin，Zhang Wei，et al. Controlable video captioning with POS sequence guidance based on gated fusion network [C]/′ Proc of IEEE/CVF International Conference on Computer Vision.Piscataway，NJ： IEEE Press，2019：2641-2650.

[4]Xu Jun， Yao Ting，Zhang Yongdong，et al. Learning multimodal attentionLSTM networks for video captioning[C]//Proc of the 25th ACM International Conference on Multimedia.NewYork：ACMPress，2017： 537-545.

[5]Wu Bofeng，Liu Buyu，Huang Peng，etal.Conept parser with multimodal graph learning for video captioning[J].IEEE Trans on CirCuits and Systems for Video Technology，2023，33（9）：4484- 4495.

[6]Sarto S，Barraco M，Cornia M，et al.Positive-augmented contrastive learning for image and video captioning evaluation [C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway，NJ：IEEE Press，2023：6914-6924.

[7]Chen Xiaoya，Song Jingkuan，Zeng Pengpeng，et al.Support-set based multi-modal representation enhancement for video captioning [C]/′ （204號 Proc of IEEE International Conferenceon Multimedia and Expo.Piscataway，NJ：IEEE Press，2022：1-6.

[8］郭寧寧，蔣林華.基于硬注意力機制的多模態(tài)視頻字幕的處理 [J].計算機應(yīng)用研究，2021，38（3）：956-960．（Guo Ningning， Jiang Linhua.Hard attention based multi-modal fusion for video caption generation[J].Application Research of Computers，2021，38 （3）：956-960. ）

[9］李銘興，徐成，李學(xué)偉，等.基于多模態(tài)融合的城市道路場景視頻描述模型研究[J].計算機應(yīng)用研究，2023，40（2）：607-611，640. （LiMingxing，XuCheng，LiXuewei，etal.Multimodal fusionforvideo captioning on urban road scene[J].Application Research of Computers，2023，40（2）：607-611，640.）

[10]Thomason J，VenugopalanS，Guadarrama S，et al.Integratinglanguage and vision to generate natural language descriptions of videos in the wild[C]//Proc of the 25th International Conference on Computational Linguistics. Stroudsburg，PA： Association for Computational Linguistics，2014：1218-1227.

[11]Szegedy C，Iofe S，VanhouckeV，etal.Inception-v4，inceptionResNet and the impact of residual connections on learning[C]//Proc of the 31st AAAI Conference on Artificial Intelligence.Palo Alto，CA： AAAI Press，2017 ：4278 - 4284.

[12] Tran D，BourdevL，F(xiàn)ergus R，et al.Learning spatiotemporal features with 3D convolutional networks[C]//Proc of IEEE International Conference on Computer Vision.Piscataway，NJ：IEEE Press，2015：4489- 4497.

[13]Zhang Ziqi，Qi Zhongang，Yuan Chunfeng，et al. Open-Book video captioning with retrieve-copy-generate network[C]//Proc of IEEE/ CVF Conference on Computer Vision and Pattern Recognition.Piscataway，NJ： IEEE Press，2021 ：9832-9841.

[14]Li Guorong，Ye Hanhua，Qi Yuankai，et al.Learning hierarchical modular networks for video captioning[J]. IEEE Trans on Pattern Analysis and Machine Intelligence，2024，46（2）：1049-1064.

[15] Zheng Qi，Wang Chaoyue，Tao Dacheng. Syntax-aware action targeting for video captioning[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway，NJ：IEEE Press，2020： 13093-13102.

[16]Chen Shaoxiang，Jiang Yugang. Motion guided region message passing for video captioning[C]//Proc of IEEE/CVF International Conference on ComputerVision.Piscataway，NJ： IEEE Press，2O21：1523- 1532.

[17]Zhang Ziqi，Shi Yaya，Yuan Chunfeng，et al.Object relational graph with teacher-recommended learning for video captioning[C]//Proc of IEE/CVF Conference on Computer Vision and Patern Recognition. Piscataway，NJ：IEEE Press，2020：13275-13285.

[18]Wu Bofeng，Niu Guocheng，Yu Jun，etal.Towards knowledge-aware video captioning via transitive visual relationship detection[J].IEEE Trans on Circuits and Systems for Video Technology，2022，32 （10）：6753-6765.

[19]Chen Shaoxiang，Jiang Yugang.Motionguidedspatialatentionforvideo captioning[C]//Proc of AAAI Conference on Artificial Intelligence. Palo Alto，CA ： AAAI Press，2019：8191-8198.

[20]Gao Lianli，Lei Yu，Zeng Pengpeng，et al.Hierarchical representation network with auxiliary tasks forvideocaptioningandvideo question answering[J]. IEEE Trans on Image Processing，2022，31：202- 215.

[21]Liu Sheng，Ren Zhou，Yuan Junsong.SibNet：sibling convolutional encoder for video captioning[J].IEEE Trans on Pattern Analysis andMachine Intelligence，2021，43（9）：3259-3272.

[22]Ryu H，Kang S，Kang H，etal.Semantic grouping network for video captioning[C]//Proc of AAAI Conference on Artificial Intelligence. Palo Alto，CA ： AAAI Press，2021 ：2514-2522.

[23]Zhong Xian，Li Zipeng，Chen Shuqin，et al. Refined semantic enhancement towards frequency diffusion for video captioning[C]//Proc of AAAI Conference on Artificial Intellgence.Palo Alto，CA：AAAI Press，2023 ;3724-3732.

[24]Radford A， Kim J W，Hallacy c，et al. Learning transferable visual models from natural language supervision[C]//Proc of International Conference on MachineLearning.[S.1.]：PMLR，2021：8748-8763.

[25]Alexey D.An image is worth 16× 16 words：Transformers for image recognition at scale[EB/OL].（2021-06-03）.https：//arxiv.org/abs/ 2010.11929.

[26]Chen D，Dolan W B. Collecting highly parallel data forparaphrase evaluation[C]//Proc of the 49th Annual Meeting of the Association for Computational Linguistics：Human Language Technologies. Stroudsburg，PA：Asociation for Computational Linguistics，2011：190- 200.

[27]Xu Jun，MeiTao，Yao Ting，et al. MSR-VTT：alarge video deseription dataset for bridging video and language[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway，NJ： IEEE Press，2016 ：5288-5296.

[28]Wang Xin，Wu Jiawei，Chen Junkun，et al. VaTeX：a large-scale，highquality multilingual dataset for video-and-language research[C]// Proc of IEEE/CVF International Conference on Computer Vision.Piscataway，NJ：IEEE Press，2019：4580-4590.

[29]Papineni K，Roukos S，Ward T，et al. BLEU：a method for automatic evaluation of machine translation[C]//Proc of the 4Oth Annual Meeting of the Association for Computational Linguistics.Stroudsburg，PA： Association for Computational Linguistics，2Oo2：311-318.

[30]Lin C Y.ROUGE：a package for automatic evaluation of summaries [C]//Text Summarization Branches Out. Stroudsburg，PA： Association for Computational Linguistics，2004：74-81.

[31]BanerjeeS，Lavie A.METEOR：an automatic metric forMT evaluation with improved correlation with human judgments[C]//Proc of ACL Workshop on Intrinsic and Extrinsic Evaluation Measures for Machine Translation and/or Summarization. Stroudsburg，PA：Association for Computational Linguistics，20o5：65-72.

[32] Vedantam R，Zitnick C L，Parikh D.CIDEr： consensus-based image description evaluation[C]//Proc of IEEE Conference on Computer Vision and Patern Recognition.Piscataway，NJ： IEEE Press，2015： 4566-4575.

[33]Li Liang，Gao Xingyu，Deng Jincan，etal.Long short-term relation Transformer with global gating for video captioning[J].IEEETrans on Imaqe Processinq.2022.31：2726-2738.

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

反向聚焦細(xì)粒度多模態(tài)語義對齊的視頻字幕模型