王麒鼎,姜 舟*
(1.昆明理工大學(xué) 信息工程與自動(dòng)化學(xué)院,云南 昆明 650500;2.昆明理工大學(xué) 云南省人工智能重點(diǎn)實(shí)驗(yàn)室,云南 昆明 650500)
隨著短視頻產(chǎn)業(yè)的發(fā)展,來(lái)自不同國(guó)家的視頻開(kāi)始在網(wǎng)上傳播。在文化、教育、金融、公益、國(guó)際環(huán)境等各個(gè)領(lǐng)域,視頻引導(dǎo)機(jī)器翻譯都有著很大的實(shí)用價(jià)值和市場(chǎng)前景。其不僅可以節(jié)省時(shí)間、提升體驗(yàn),還可以幫助人們快速地找到自己感興趣的內(nèi)容,為人們提供極大的便利,對(duì)于處理好國(guó)際關(guān)系,對(duì)經(jīng)濟(jì)發(fā)展、政治穩(wěn)定、文化交流及商務(wù)合作等方面有著重要的意義。在實(shí)際生活中,視頻引導(dǎo)機(jī)器翻譯可以幫助翻譯帶有社交媒體視頻內(nèi)容的帖子和新聞,支撐更多的自媒體App,為視障人士提供便利。
視頻引導(dǎo)機(jī)器翻譯是在給定一組視頻和相關(guān)文檔的情況下,根據(jù)視頻和語(yǔ)義的對(duì)應(yīng)增強(qiáng)文檔的翻譯,通過(guò)視頻線索解決機(jī)器翻譯的問(wèn)題。與圖像引導(dǎo)機(jī)器翻譯任務(wù)相比,視頻引導(dǎo)機(jī)器翻譯更具挑戰(zhàn)性,因?yàn)橐曨l是由連續(xù)的幀組成的,其中視頻模態(tài)包含的信息更豐富。視頻信息的質(zhì)量直接影響機(jī)器翻譯的質(zhì)量,而且在利用視頻信息的過(guò)程中,人們需要選取有價(jià)值的信息來(lái)輔助機(jī)器翻譯。但是在目前的視頻引導(dǎo)機(jī)器翻譯領(lǐng)域,機(jī)器翻譯的結(jié)果還沒(méi)有達(dá)到人們的要求。因此,本文對(duì)視頻信息的篩選以及視頻信息的特征提取開(kāi)展相關(guān)研究,從不同的角度為視頻引導(dǎo)機(jī)器翻譯任務(wù)提供可行的研究方案和技術(shù)路線。
視頻與句子匹配,是視頻引導(dǎo)機(jī)器翻譯的基本任務(wù)之一[1-3]。通過(guò)視頻幀與句子的相關(guān)性分?jǐn)?shù)選擇出更貼切的視頻幀是重要的步驟。這項(xiàng)任務(wù)在視頻字幕[4-5]、視頻生成[6-7]以及視覺(jué)問(wèn)答[4,8-9]領(lǐng)域受到關(guān)注并被廣泛應(yīng)用[10-14]。雖然近年來(lái)取得了重大進(jìn)展,但是在視頻引導(dǎo)機(jī)器翻譯領(lǐng)域仍然是一個(gè)具有挑戰(zhàn)性的問(wèn)題,因?yàn)樗枰斫庹Z(yǔ)言語(yǔ)義、視覺(jué)內(nèi)容、交叉模態(tài)關(guān)系以及對(duì)齊的方法。
由于視覺(jué)與語(yǔ)言之間存在巨大的視覺(jué)語(yǔ)義差異[2,15],圖像與句子的匹配問(wèn)題仍有待解決。針對(duì)該問(wèn)題,研究者們提出了各種方法,大體可分為一對(duì)一匹配[13,16-17]和多對(duì)多匹配[18-19]兩類(lèi)。一對(duì)一匹配方法通常提取圖像和句子的全局表示,然后利用視覺(jué)語(yǔ)義嵌入[15]將它們關(guān)聯(lián)起來(lái)。以往的方法都是將圖像和句子獨(dú)立地嵌入到同一個(gè)嵌入空間中,然后通過(guò)特征在空間中的距離來(lái)度量它們的相似度。在深度學(xué)習(xí)的成功推動(dòng)下,主流的方法已轉(zhuǎn)向針對(duì)特定形態(tài)的深度特征學(xué)習(xí),如學(xué)習(xí)視覺(jué)特征的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)和學(xué)習(xí)句子特征的循環(huán)神經(jīng)網(wǎng)絡(luò)(Rerrent Neural Network,RNN)。通過(guò)對(duì)理解視覺(jué)內(nèi)容任務(wù)的研究,目前已經(jīng)開(kāi)發(fā)了幾種深層骨干模型,包括ResNet、VGG 及GoogleNet[20],并證明了其在大型視覺(jué)數(shù)據(jù)集上的有效性[21-22]。使用多對(duì)多匹配方法時(shí),考慮到視頻幀與句子單詞之間的關(guān)系[25-27],現(xiàn)有的方法大多比較多對(duì)視頻幀和句子單詞,并對(duì)它們的局部相似度進(jìn)行聚合[28-30],綜合視頻幀和句子詞之間的關(guān)系,可以為圖像匹配和句子匹配提供細(xì)粒度的跨模態(tài)線索。本文提出了一種用于視頻幀和句子匹配的多模態(tài)交叉注意網(wǎng)絡(luò),通過(guò)統(tǒng)一的深度模型對(duì)視頻幀和句子詞的模態(tài)間關(guān)系和模態(tài)內(nèi)關(guān)系進(jìn)行建模。為了驗(yàn)證交叉模態(tài)匹配的魯棒性,本文設(shè)計(jì)了兩個(gè)有效的注意模塊,即交叉注意模塊和時(shí)間注意力模塊,它們?cè)谀B(tài)內(nèi)和模態(tài)間的關(guān)系建模中發(fā)揮著重要作用。
針對(duì)視頻引導(dǎo)機(jī)器翻譯中的圖像匹配和句子匹配的方法,在HUANG[10]的研究之后,相關(guān)方法大致分為一對(duì)一匹配和多對(duì)多匹配兩類(lèi)。
早期的大量研究提取圖像和句子的全局表示,然后將它們與基于鉸鏈的三聯(lián)體排序損失相關(guān)聯(lián),其中匹配的圖像-句子對(duì)距離較小。在近期研究中,F(xiàn)AGHRI 等人[2]嘗試在三重?fù)p失函數(shù)中使用硬負(fù)挖掘,并得到顯著的改善。在GU[25]和PENG[26]等人的研究中,生成目標(biāo)與交叉視圖特征嵌入學(xué)習(xí)相結(jié)合,學(xué)習(xí)可視和文本數(shù)據(jù)的更有區(qū)別的表示。同時(shí),YAN 等人[17]利用深度典型相關(guān)分析對(duì)圖像和句子的特征進(jìn)行關(guān)聯(lián),真實(shí)匹配的圖像-句子對(duì)具有較高的相關(guān)性。KLEIN 等人[24]也有類(lèi)似的目標(biāo),利用Fisher 向量來(lái)獲得判別句表示。此外,LEV 等人[19]利用RNN 對(duì)FV 進(jìn)行編碼,從而獲得更好的性能。在計(jì)算機(jī)視覺(jué)中,視覺(jué)注意的目標(biāo)是聚焦于特定的圖像或子區(qū)域[4,17-18]。同樣,自然語(yǔ)言處理的注意方法自適應(yīng)地選擇和聚合信息片段來(lái)推斷結(jié)果[12,21,29]。近年來(lái),人們提出了基于注意力的圖像-文本匹配模型。HUANG 等人[10]開(kāi)發(fā)了一種語(yǔ)境調(diào)制的注意方案,選擇性地注意出現(xiàn)在圖像和句子中的一對(duì)實(shí)例。同樣,NAM 等人[1]提出了雙注意網(wǎng)絡(luò)(Dual Attentional Network),通過(guò)多個(gè)步驟捕捉視覺(jué)與語(yǔ)言之間的細(xì)粒度相互作用。然而,盡管語(yǔ)義匹配的數(shù)量會(huì)因圖像和句子描述的不同而變化,這些模型還是采用了帶有預(yù)定義步驟數(shù)的多步推理來(lái)一次觀察一個(gè)語(yǔ)義匹配,然而,他們忽略了一個(gè)事實(shí),即全局相似性是由潛在的視覺(jué)-語(yǔ)言對(duì)應(yīng)在視頻幀和句子單詞層面的復(fù)雜聚合而產(chǎn)生的。
在視覺(jué)和語(yǔ)言領(lǐng)域,越來(lái)越多的人開(kāi)始考慮視頻幀與句子單詞之間的細(xì)粒度對(duì)齊。在ANDREJ和LI 等人[27]的研究中,第一個(gè)工作是對(duì)視頻幀和句子詞之間進(jìn)行有結(jié)構(gòu)目標(biāo)的局部相似度學(xué)習(xí)。HUANG 等人[10]的實(shí)驗(yàn)提出了一種用于實(shí)例感知圖像與句子匹配的選擇性多模態(tài)長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)。同樣,NAM 等人[1]的研究提出了一個(gè)雙重注意網(wǎng)絡(luò),通過(guò)多個(gè)步驟捕捉視覺(jué)與語(yǔ)言之間的細(xì)粒度相互作用。自底向上注意是ANDERSON 等人[4]在圖像字幕和視覺(jué)問(wèn)答研究中提出的一個(gè)術(shù)語(yǔ),指的是與人類(lèi)視覺(jué)系統(tǒng)自發(fā)地自底向上注意相似的純視覺(jué)前饋?zhàn)⒁鈾C(jī)制[14,21-23]。ANDREJ 和LI 等人[27]提出利用R-CNN 在物體水平上對(duì)圖像區(qū)域進(jìn)行檢測(cè)和編碼,然后將所有可能的區(qū)域-詞對(duì)的相似度分?jǐn)?shù)相加推斷出圖像-文本的相似度。NIU 等人[31]提出了一種模型,將句子中的名詞短語(yǔ)和圖像中的物體映射到一個(gè)共享的嵌入空間中,該空間位于完整的句子和完整的圖像嵌入之上。HUANG 等人[10]將用于模型學(xué)習(xí)的圖像-文本匹配和句子生成與改進(jìn)的圖像表示相結(jié)合。與本文的模型相比,這些研究沒(méi)有使用傳統(tǒng)的注意機(jī)制來(lái)學(xué)習(xí)在給定的語(yǔ)義背景下聚焦圖像區(qū)域。然而,通過(guò)采用多步驟的方法來(lái)實(shí)現(xiàn)整個(gè)圖像與句子之間的特征對(duì)齊,其可解釋性較差。所以研究者利用堆疊交叉注意機(jī)制提出了SCAN,以發(fā)現(xiàn)所有顯著對(duì)象與單詞之間的對(duì)齊。但它沒(méi)有考慮到視頻幀與句子詞之間的關(guān)系。隨后,SAEM[13]利用自我注意機(jī)制來(lái)探究每個(gè)模態(tài)內(nèi)的關(guān)系,而忽略了不同模態(tài)間的關(guān)系。然而,很少有人提出方法來(lái)調(diào)查跨模式和在一個(gè)統(tǒng)一的圖像和句子匹配框架內(nèi)的模內(nèi)關(guān)系??偟貋?lái)說(shuō),解決視頻引導(dǎo)機(jī)器翻譯任務(wù)中視頻帶來(lái)的噪聲干擾,可以根據(jù)文本和視頻幀匹配的方式,通過(guò)交叉注意力選取視頻特征。
本節(jié)主要描述基于交叉注意力的視頻引導(dǎo)機(jī)器翻譯網(wǎng)絡(luò)(Cross-Temporal Attention,CTA)?;诮徊孀⒁饬C(jī)制的視頻引導(dǎo)機(jī)器翻譯方法模型如圖1 所示。本文的目標(biāo)是將單詞和視頻幀映射到一個(gè)共同的嵌入空間,從而推斷出整個(gè)視頻與完整句子之間的相似性。從自底向上的注意開(kāi)始,檢測(cè)視頻幀并將其編碼為特征。此外,將句子中的單詞與句子上下文映射到特征上。然后,通過(guò)對(duì)齊視頻幀和單詞特征,應(yīng)用交叉注意來(lái)推斷視頻句子的相似性,提取重要視頻幀,降低視頻模態(tài)的噪聲。
圖1 基于交叉注意力的視頻引導(dǎo)機(jī)器翻譯模型圖
交叉注意力機(jī)制需要兩個(gè)輸入:其一是一組視頻特征V={v1,v2,…,vk},Vi∈RD,使每個(gè)視頻特征對(duì)視頻幀進(jìn)行編碼;其二是一組單詞特征E={e1,e2,…,en},ei∈RD,其中每個(gè)單詞特征都對(duì)句子中的一個(gè)單詞進(jìn)行編碼。交叉注意力機(jī)制的輸出是一個(gè)相似度分?jǐn)?shù),用來(lái)衡量視頻幀-句子的相似度。本文在推斷相似性時(shí),交叉注意力機(jī)制對(duì)視頻幀和將視頻幀和單詞作為上下文采用不同的注意力機(jī)制。視頻幀-文本交叉注意力機(jī)制方法如圖2 所示。
圖2 視頻-文本交叉注意力機(jī)制方法圖
視頻幀-文本交叉注意力機(jī)制包括兩個(gè)注意力階段。階段1:根據(jù)每個(gè)視頻幀來(lái)處理句子中的單詞。階段2:根據(jù)每個(gè)視頻幀與相應(yīng)的句子向量進(jìn)行比較,以確定視頻幀相對(duì)于句子的重要性。通過(guò)給定視頻I,包含k個(gè)視頻幀,句子T包含n個(gè)單詞,計(jì)算所有可能對(duì)的余弦相似度,即:
式中:i∈[1,k]表示視頻幀,j∈[1,n]表示單詞。
在階段1 中,首先關(guān)注句子中關(guān)于每一幀視頻特征vi的單詞,為第i幀視頻生成一個(gè)被關(guān)注的句子向量。在階段2 中,比較和vi,確定每個(gè)視頻幀的重要性,然后計(jì)算相似度得分。在計(jì)算過(guò)程中sij表示第i個(gè)視頻幀與第j個(gè)單詞之間的相似度。
對(duì)視頻信息加入一個(gè)時(shí)間注意力機(jī)制,將視頻中的每一幀賦予不同的權(quán)重,通過(guò)計(jì)算不同幀的影響力,選出一簇時(shí)間上關(guān)聯(lián)的關(guān)鍵幀作為最終的視頻特征,最后通過(guò)長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)解碼出目標(biāo)語(yǔ)言。通過(guò)視頻具有的時(shí)間特征,結(jié)合視頻中的動(dòng)作特征、時(shí)序特征,將源語(yǔ)言和目標(biāo)語(yǔ)言進(jìn)行一個(gè)空間上對(duì)齊的效果,從而提升模型翻譯質(zhì)量。根據(jù)KARPATHY 經(jīng)驗(yàn)[27]得知,將相似度閾值設(shè)為零對(duì)實(shí)驗(yàn)的效果最佳,然后將相似矩陣歸一化為:
式中:[x]+=max(x,0)。為了關(guān)注相對(duì)于每個(gè)視頻幀區(qū)域的單詞,本文定義了一個(gè)加權(quán)的單詞表示組合(即關(guān)注的句子向量):
式中:λ1是softmax 函數(shù)的逆向表達(dá),注意力的權(quán)重是點(diǎn)擊注意力的一種變形式。
在確定給句子上下文的每個(gè)視頻幀的重要性方面,本文將第i個(gè)視頻幀與句子之間的相關(guān)性定義為所關(guān)注的句子向量與每個(gè)視頻特征vi之間的余弦相似度,即:
受語(yǔ)音識(shí)別中最小分類(lèi)誤差公式的啟發(fā),視頻幀I與句子T的相似度通過(guò)Log Sum Exp pooling(LSE)來(lái)計(jì)算,即:
同樣,本文先關(guān)注每個(gè)單詞對(duì)應(yīng)的視頻幀,然后將每個(gè)單詞與相應(yīng)的被關(guān)注的視頻幀向量進(jìn)行比較,從而確定每個(gè)單詞的重要性??偟貋?lái)說(shuō),將第i個(gè)視頻幀和第j個(gè)單詞之間求取預(yù)先相似度sij,在第i幀和第j個(gè)單詞之間:
在關(guān)注視頻幀相對(duì)于每個(gè)單詞的重要性上,本文定義了視頻幀特征的加權(quán)組合(對(duì)第j個(gè)單詞的視頻幀向量):
利用參與視頻幀向量與單詞特征ej之間的余弦相似度,將第j個(gè)單詞與圖像之間的相關(guān)性度量為:
視頻幀I與句子T最終相似度得分由最大池化層(LSE)進(jìn)行計(jì)算,即:
通過(guò)平均池化層計(jì)算公式為:
在之前的工作中,將圖片與詞的相似度定義為vj與ej之間的點(diǎn)積,即:
并且通過(guò)聚合所有可能而不使用注意力機(jī)制的圖像-文本相識(shí)度計(jì)算:
Triplet loss 是視頻幀與文本匹配中常見(jiàn)的排序處理方式。過(guò)去的方法采用基于hinge-based 的Triplet loss,即:
式中:[x]+=max(x,0),S是相似度分?jǐn)?shù)函數(shù)。第一個(gè)求和是所有非準(zhǔn)確詞匯給定的圖像I,第二個(gè)求和考慮所有非準(zhǔn)確圖像匹配的句子T。如果在這里嵌入空間中,I和T比任何負(fù)采樣對(duì)都要接近,為了提高效率,通常只考慮小批量隨機(jī)梯度下降中的負(fù)采樣,而不是對(duì)所有負(fù)采樣求和,即:
本文采用Soft attention 機(jī)制,解碼器針對(duì)每個(gè)時(shí)間特征向量F={f1,f2,…,fn}。過(guò)去利用這種方法來(lái)挖掘圖像的底層空間結(jié)構(gòu),這里對(duì)其進(jìn)行調(diào)整,來(lái)處理視頻的時(shí)間結(jié)構(gòu)。不采用簡(jiǎn)單的平均策略,而是對(duì)時(shí)間特征向量進(jìn)行動(dòng)態(tài)加權(quán)求和,使得:
上述即是將注意力機(jī)制計(jì)算為歸一化相關(guān)分?jǐn)?shù)并歸一化得到注意力權(quán)重的整個(gè)過(guò)程。該注意機(jī)制允許解碼器通過(guò)增加相應(yīng)時(shí)間特征的注意權(quán)值來(lái)選擇性地聚焦于幀的一個(gè)子集。然而,本文并沒(méi)有明確地強(qiáng)行使這種選擇性注意發(fā)生。相反,這種注意力機(jī)制的包含使解碼器能夠利用時(shí)間結(jié)構(gòu)。
本文選擇LSTM 作為解碼器。與RNN 相比,除了使用通常的隱狀態(tài)hd外,本文還設(shè)定一個(gè)內(nèi)部?jī)?nèi)存狀態(tài)cd:
式中:⊙是基于元素的乘法。輸出門(mén)od的計(jì)算式為:
式中:σ是sigmoid 函數(shù),φd是對(duì)編碼器特征的時(shí)變函數(shù);Wo,Uo,Ao和bo依次為輸入權(quán)重矩陣,前一個(gè)隱狀態(tài),編碼器的上下文和偏差。E為嵌入矩陣,用E[yd-1]表示yd-1詞向量。
式中遺忘門(mén)和輸入門(mén)為:
當(dāng)計(jì)算出新的隱狀態(tài)hd,就可以使用單個(gè)隱藏層神經(jīng)網(wǎng)絡(luò)得到可能單詞集合上的概率分布:
式中:Up,Wp,bp,d為網(wǎng)絡(luò)參數(shù),softmax 函數(shù)分布在p(yd|y<d,F)之間。
之后從LSTM 解碼器生成一個(gè)句子。例如,可以從返回的p(yd|…)遞歸地求φ和樣本值,直到采樣的yd為序列結(jié)束符號(hào)。也可以通過(guò)使用簡(jiǎn)單的波束搜索來(lái)近似地找到概率最高的句子。
本實(shí)驗(yàn)數(shù)據(jù)集使用公共數(shù)據(jù)集Vatex 和筆者收集的漢-越視頻翻譯數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。Vatex 公共數(shù)據(jù)集包含41 269 個(gè)短視頻,每條視頻都配有由20 位人工注釋者標(biāo)注的5 個(gè)中文-英文的平行句對(duì),涵蓋了600 項(xiàng)人類(lèi)活動(dòng)和多種視頻內(nèi)容,其中每段視頻長(zhǎng)約10 s,Vatex 數(shù)據(jù)集有在線測(cè)試的方式,將在本地訓(xùn)練的包上傳到Vatex 官網(wǎng)在線測(cè)試,得到最終雙語(yǔ)互譯質(zhì)量評(píng)估(Bilingual Evaluation Understudy,BLEU)值。同時(shí),基于視頻引導(dǎo)機(jī)器翻譯任務(wù),本文從漢越新聞網(wǎng)和Youtube、Tiktok、微博等平臺(tái)共收集了10 500 個(gè)視頻片段,視頻片段約為10 s 同時(shí)配有5 個(gè)視頻描述的漢越平行句對(duì),其中測(cè)試集有2 000 條。
本文選用Python 語(yǔ)言以及Pytorch 作為框架實(shí)現(xiàn)模型,模型損失采用交叉熵?fù)p失函數(shù)并選用Adam 優(yōu)化器。使用單層LSTM,其中隱藏層大小設(shè)置為1 024,詞嵌入大小設(shè)置為512,學(xué)習(xí)率設(shè)置為10-4。Dropout 設(shè)置為0.1。
為了驗(yàn)證模型的有效性,本文考慮以下三個(gè)基線進(jìn)行比較。
(1)Base NMT 模型,在只考慮文本信息的情況下,通過(guò)LSTM 模型,輸入源語(yǔ)言,輸出目標(biāo)語(yǔ)言。
(2)Cross-attention+解碼器模型,帶有交叉注意力機(jī)制,無(wú)時(shí)間注意機(jī)制的模型結(jié)構(gòu),分別使用門(mén)控循環(huán)單元(Gated Recurrent Unit,GRU)模型和LSTM 模型進(jìn)行解碼。
(3)Averager 模型,Average 為每10 幀提取一幀的平均策略。
VMT 模型則是Vatex 視頻引導(dǎo)機(jī)器翻譯提供的基線翻譯結(jié)果,使用了時(shí)間注意力機(jī)制。本文模型(Cross-attention+Tempeoal attention)則使用交叉注意力方法的模型結(jié)構(gòu)并帶有時(shí)間注意力機(jī)制。采用Vatex 公共數(shù)據(jù)集的驗(yàn)證集進(jìn)行對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果(BLEU 值)如表1 所示。
表1 交叉注意力網(wǎng)絡(luò)模型對(duì)比實(shí)驗(yàn)BLEU 值
從表1 可以看出,在英文到中文的實(shí)驗(yàn)中,Cross-attention+Tempeoal attention 模型獲得了最高的BLEU 值,與Base NMT 實(shí)驗(yàn)相比獲得了顯著的提高。比較幾個(gè)基線模型在英文到中文實(shí)驗(yàn)的效果,Cross-attention+LSTM 模型和Cross-attention+GRU模型相比于Base NMT 模型分別提高了0.85 和1.3 個(gè)BLEU 值,說(shuō)明對(duì)視頻幀使用交叉注意力機(jī)制,能夠選擇出信息更重要的視頻幀。Crossattention+LSTM 模型與Cross-attention+GRU 模型相比有0.45 個(gè)BLEU 值提高,證明了使用LSTM 在視頻引導(dǎo)機(jī)器翻譯任務(wù)中的效果要更好。
VMT 是Vatex 視頻引導(dǎo)機(jī)器翻譯提供的基線翻譯結(jié)果,它的模型使用了時(shí)間注意力機(jī)制。與Averager 模型相比,時(shí)間注意力機(jī)制在Vatex 公共數(shù)據(jù)集上相比于平均提取視頻幀方式的BLEU 值提高了2.76 個(gè),說(shuō)明在視頻引導(dǎo)機(jī)器翻譯的任務(wù)中對(duì)視頻進(jìn)行時(shí)間注意力機(jī)制是有必要的,經(jīng)過(guò)時(shí)間注意力機(jī)制能夠使模型翻譯得更好。通過(guò)比較本文提出的交叉注意力機(jī)制與時(shí)間注意力機(jī)制結(jié)合的方法與VMT 的方法,實(shí)驗(yàn)結(jié)果的BLEU 值提高了0.55,證明了使用交叉注意力機(jī)制能夠篩選出與源句子更貼切的視頻幀作為輔助進(jìn)行機(jī)器翻譯。在中文到英文的對(duì)照實(shí)驗(yàn)中,本文方法同樣未損失BLUE 值甚至有一定的提升。
表2 是本文翻譯模型在Vatex 公共測(cè)試集上獲得的分?jǐn)?shù),為30.35 個(gè)BLUE 值。Vatex 公共測(cè)試集無(wú)法下載,只能通過(guò)網(wǎng)絡(luò)上傳模型得到實(shí)驗(yàn)結(jié)果。在英文到中文的實(shí)驗(yàn)上,相比于VMT 模型,本文模型同樣獲得了1.23 的BLUE 值提升。進(jìn)一步說(shuō)明了本文模型的可靠性。
表2 Vatex 公共測(cè)試集實(shí)驗(yàn)BLEU 值
表3 是基于筆者收集的漢-越低資源數(shù)據(jù)集進(jìn)行的實(shí)驗(yàn)結(jié)果。實(shí)驗(yàn)在52 500 個(gè)漢越平行句對(duì)的訓(xùn)練下得出實(shí)驗(yàn)結(jié)果,其中視頻有10 500 個(gè)。實(shí)驗(yàn)結(jié)果表明,在數(shù)據(jù)集為低資源的漢越視頻引導(dǎo)機(jī)器翻譯的情況下,BLEU 值依然有所提高;在低資源數(shù)據(jù)集中,依然對(duì)最后的翻譯結(jié)果有所改善,證明本文模型在公共數(shù)據(jù)集和低資源數(shù)據(jù)集上對(duì)機(jī)器翻譯的結(jié)果都有所改善。
表3 漢越語(yǔ)料對(duì)比實(shí)驗(yàn)BLEU 值
本文從視頻幀與文本匹配的角度對(duì)視頻引導(dǎo)機(jī)器翻譯進(jìn)行了深入的研究。視頻引導(dǎo)機(jī)器翻譯是以視頻模態(tài)作為額外模態(tài),幫助文本從源語(yǔ)言翻譯成目標(biāo)語(yǔ)言的任務(wù)。在多模態(tài)機(jī)器翻譯中,不同模態(tài)的重要程度是不同的,本文從視頻引導(dǎo)機(jī)器翻譯任務(wù)中文本模態(tài)的重要程度高于視頻模態(tài)的角度出發(fā),通過(guò)交叉注意力機(jī)制,用文本選擇出更重要的視頻幀,降低相對(duì)不重要的視頻幀對(duì)任務(wù)的干擾,從而可以幫助視頻引導(dǎo)機(jī)器翻譯任務(wù)達(dá)到去除噪聲的效果。實(shí)驗(yàn)結(jié)果表明,交叉注意力機(jī)制在視頻引導(dǎo)機(jī)器翻譯中是有效的。
在未來(lái)的工作中,將探索文本特征和視覺(jué)特征更好的交互,通過(guò)詞與視覺(jué)實(shí)體的文本相似度,對(duì)視覺(jué)特征的權(quán)重進(jìn)行調(diào)整。在文本表述模糊的時(shí)候,抑制文本模態(tài)信號(hào),使模型更關(guān)注視覺(jué)模態(tài),從而達(dá)到兩種模態(tài)互補(bǔ)的效果,進(jìn)一步增強(qiáng)視頻引導(dǎo)機(jī)器翻譯性能。