亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于多模態(tài)融合與多層注意力的視頻內(nèi)容文本表述研究

        2022-10-16 12:27:04趙宏郭嵐陳志文鄭厚澤
        計(jì)算機(jī)工程 2022年10期
        關(guān)鍵詞:音頻模態(tài)特征

        趙宏,郭嵐,陳志文,鄭厚澤

        (蘭州理工大學(xué)計(jì)算機(jī)與通信學(xué)院,蘭州 730050)

        0 概述

        隨著移動(dòng)互聯(lián)網(wǎng)的快速發(fā)展和智能設(shè)備的普及,人類信息化進(jìn)程進(jìn)入了新階段。視頻由于包含豐富內(nèi)容且能夠直觀表達(dá)觀點(diǎn),因此逐漸在互聯(lián)網(wǎng)上流行。例如,在各種社交平臺上由用戶生成的共享短視頻已成為人們社交的重要手段。當(dāng)前,如何自動(dòng)地分析和理解視頻內(nèi)容,并將其轉(zhuǎn)換為文本表達(dá)方式,成為視頻內(nèi)容文本表述領(lǐng)域的研究熱點(diǎn)。視頻內(nèi)容文本表述研究也一直是計(jì)算機(jī)和多媒體領(lǐng)域極具挑戰(zhàn)性的研究課題[1-2],該研究在回答圖像問題[3]、應(yīng)用圖像與視頻檢索[4-6]、協(xié)助視覺障礙的患者理解媒體內(nèi)容[7]等領(lǐng)域具有廣闊的應(yīng)用前景。

        視頻內(nèi)容文本表述的早期研究主要基于固定模板結(jié)構(gòu)[8-10],包括內(nèi)容識別和根據(jù)模板生成句子2 個(gè)階段。其中,內(nèi)容識別通過對視頻中的主要對象進(jìn)行視覺識別和分類;根據(jù)模板生成的句子將內(nèi)容識別的實(shí)體匹配到模板所需的類別,如主語、謂語、賓語和地點(diǎn)。但該方法過于依賴預(yù)先設(shè)定的模板,導(dǎo)致生成的描述靈活性差,生成的句子過于單一,不能全面覆蓋視頻內(nèi)容。受機(jī)器翻譯方向編碼器-解碼器框架的啟發(fā),目前視頻內(nèi)容文本表述主流方法預(yù)先采用在對象識別與檢測領(lǐng)域廣泛應(yīng)用的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)[11-13]獲取視覺信息并生成視覺表征向量,然后使用在自然語言處理方面取得巨大進(jìn)步的循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)[14-16]作為編碼器接收視覺表征向量并進(jìn)行編碼,生成中間隱藏向量,接著將其送到由RNN 組成的解碼器,生成序列化的自然語言表達(dá)。然而,現(xiàn)實(shí)中的視頻由不同模態(tài)的內(nèi)容構(gòu)建而成[17],其不僅包含圖像信息,還具有視頻中對象的運(yùn)動(dòng)、背景中的音頻、上下文的時(shí)序等信息,且不同模態(tài)信息之間具有高度相關(guān)性和互補(bǔ)性,這些模態(tài)通過相互配合提供完整的信息。

        本文基于不同模態(tài)信息之間具有高度相關(guān)性和互補(bǔ)性的特征,提出一種將多模態(tài)融合與多層注意力相結(jié)合的視頻內(nèi)容文本表述模型。采用融合互補(bǔ)模態(tài)信息訓(xùn)練視頻內(nèi)容文本表述模型,并針對不同的視頻模態(tài)信息,采用預(yù)訓(xùn)練模型提取視頻中靜態(tài)幀和音頻表征信息,提升視頻內(nèi)容文本表述的準(zhǔn)確率?;谧宰⒁饬C(jī)制設(shè)計(jì)嵌入層,對單模態(tài)特征向量進(jìn)行嵌入建模,使不同模態(tài)間的互補(bǔ)信息能更好地?cái)M合。最后,采用協(xié)作表示進(jìn)行跨模態(tài)特征融合,并通過融合特征有效提升模型對視頻內(nèi)容的描述質(zhì)量。

        1 相關(guān)工作

        視頻內(nèi)容文本表述研究旨在通過使用自然語言的方式對視頻所展示的內(nèi)容進(jìn)行分析、理解與表述,目前視頻內(nèi)容文本表述的主流方法以“編碼-解碼”架構(gòu)為基礎(chǔ),主要可以分為基于視覺特征均值/最大值、基于視頻序列記憶建模和基于三維卷積特征這3 種方法。

        基于視覺特征均值/最大值的方法對視覺特征進(jìn)行提取,并求解特征均值或最大值。其中,文獻(xiàn)[18]基于長短期記憶(Long Short-Term Memory,LSTM)網(wǎng)絡(luò)提出一種LSTM-MY 模型,采用幀特征均值池化的方式對視覺特征進(jìn)行提取,其性能相較于基于模板的方法有所改善。文獻(xiàn)[19]針對生成文本和視頻內(nèi)容關(guān)聯(lián)性不夠的問題提出RUC-UVA 模型,通過結(jié)合Video tagging 方法提取視頻關(guān)鍵詞,并將關(guān)鍵詞和視頻幀特征相結(jié)合作為解碼器的輸入,能有效提高生成文本的準(zhǔn)確性。但該類方法難以捕獲視頻片段內(nèi)的時(shí)序特征,極易造成動(dòng)態(tài)特征的丟失。

        在基于視頻序列記憶建模的方法中,文獻(xiàn)[20]針對視頻數(shù)據(jù)預(yù)處理時(shí)需要注意時(shí)序信息提出時(shí)間注意力(Temporal Attention,TA)模型,該模型在時(shí)間維度上結(jié)合注意力機(jī)制,將得到的特征輸入解碼器生成文本表述,生成的句子適應(yīng)性較高。文獻(xiàn)[21]針對視頻不定長的問題將序列到序列模型應(yīng)用到視頻到文本任務(wù)上,實(shí)現(xiàn)了對視頻幀序列輸入、文字序列輸出的端到端視頻描述。雖然該方法可以實(shí)現(xiàn)時(shí)序特征提取與語言模塊的端到端訓(xùn)練,但是CNN 特征經(jīng)過序列變換之后極易導(dǎo)致視頻幀中空間信息的破壞與丟失。

        基于三維卷積特征的方法對視頻的時(shí)空特征進(jìn)行編碼,挖掘視頻的靜態(tài)特征和時(shí)序動(dòng)態(tài)特征。文獻(xiàn)[22]提出M3-inv3 模型,通過提取視頻幀的2D 和3D 特征對視覺信息和語言信息共同建模,較好地解決了LSTM 中多模態(tài)信息長期依賴與語義錯(cuò)位的問題。文獻(xiàn)[23]提出一種用于圖像和視頻字幕的具有自適應(yīng)注意方法的分層LSTM,利用空間或時(shí)間注意力選擇區(qū)域預(yù)測相關(guān)詞。

        視頻所攜帶的音頻信號對視頻具有重要的意義,視頻配音能夠以聲音的形式說明視頻的要點(diǎn)和主題,例如掌聲、鳴笛、說話與唱歌的區(qū)別只能從音頻信息中捕獲到。如圖1 所示為一段視頻的3 個(gè)畫面,對其進(jìn)行描述的3 個(gè)文本如下:

        圖1 視頻內(nèi)容文本描述示例Fig.1 Example of video content text description

        1)a man giving a speech。

        2)a man wearing a suit is giving a speech。

        3)a man speech won applause from the audience。

        其中,第3 種文字描述最為準(zhǔn)確,因?yàn)槠浣Y(jié)合音頻特征,提取出了視頻中的“掌聲”信息。

        綜上,當(dāng)前視頻內(nèi)容文本表述模型對提取到的單模態(tài)表征信息利用不足,且未利用視頻所攜帶的音頻等信息,導(dǎo)致生成的文本對視頻內(nèi)容表述質(zhì)量不高。因此,本文綜合考慮單模態(tài)特征參數(shù)學(xué)習(xí)以及視頻多模態(tài)表征信息之間的互補(bǔ)性,通過提取視頻不同模態(tài)的表征信息獲得每種模態(tài)所表達(dá)的語義屬性,將其進(jìn)行融合后對視頻內(nèi)容進(jìn)行表述,從而提高模型對視頻內(nèi)容文本表述的性能。

        2 視頻內(nèi)容文本表述模型

        2.1 模型結(jié)構(gòu)

        圖2 所示為多層注意力的跨模態(tài)視頻內(nèi)容文本表述模型的結(jié)構(gòu),包括視頻預(yù)處理、單模態(tài)特征提取、編碼(單模態(tài)信息嵌入、多模態(tài)信息融合)和解碼4 部分。

        圖2 多模態(tài)視頻內(nèi)容文本生成模型Fig.2 Multi-modal video content text generation model

        在圖2 中,視頻預(yù)處理模塊主要提取視頻幀、抽取視頻的音頻信息。單模態(tài)特征提取模塊利用改進(jìn)的殘差網(wǎng)絡(luò)(Residual Network,ResNet)網(wǎng)絡(luò)[24]提取視頻的2D 幀特征、FFmpeg 提取音頻MFCC 特征。編碼器模塊由嵌入層與融合層組成,嵌入層包括自注意力機(jī)制[25]和兩層LSTM 網(wǎng)絡(luò)[26],融合層由協(xié)作表示構(gòu)成。編碼器將幀、音頻模態(tài)的特征向量作為輸入,并分別送入嵌入層進(jìn)行單模態(tài)信息建模,最終編碼為單獨(dú)的隱藏向量{hv,haudio},然后通過協(xié)作表征方式將各模態(tài)信息映射到統(tǒng)一的多模態(tài)向量空間Vmulti。解碼器接收Vmulti進(jìn)行解碼,預(yù)測當(dāng)前時(shí)間的隱藏狀態(tài),依次輸出每一時(shí)間步的概率分布向量。最后,利用貪心搜索算法取解碼時(shí)刻每一時(shí)間步上概率最大的單詞作為預(yù)測輸出結(jié)果。在當(dāng)前時(shí)間步t下各個(gè)單詞的概率分布表達(dá)式如式(1)所示:

        其中:ht是當(dāng)前隱藏狀態(tài);Yt-1是上一時(shí)間步得到的結(jié)果;Vmulti是統(tǒng)一的多模態(tài)向量空間;softmax 函數(shù)是歸一化指數(shù)函數(shù)。將結(jié)果映射到(0,1)之間作為概率值,并當(dāng)所有概率分布計(jì)算結(jié)束后,采用貪心搜索算法取解碼時(shí)刻每一個(gè)時(shí)間步上概率最大的單詞作為預(yù)測輸出結(jié)果,直到輸出<eos >,解碼完成。

        2.2 特征提取

        視頻數(shù)據(jù)與圖片數(shù)據(jù)的不同點(diǎn)在于視頻是連續(xù)的多幀畫面,該特性使視頻更適合描述連續(xù)性動(dòng)作,且視頻附帶對應(yīng)的音頻信息可以形象地記錄一個(gè)事件。相比單張圖片,視頻不僅包含了空間特征,還具有時(shí)序特征、音頻、動(dòng)作等特征[27]。因此,在上下文中確定需要表達(dá)的內(nèi)容并進(jìn)行準(zhǔn)確描述是一項(xiàng)很大的挑戰(zhàn)。

        本文采用融合視頻的多種模態(tài)特征進(jìn)行視頻內(nèi)容文本表述任務(wù)。對于視頻的靜態(tài)幀特征提取,在殘差網(wǎng)絡(luò)ResNet152 中加入文獻(xiàn)[28]提出的通道注意力(Squeeze and Excitation,SE)模塊,以提取幀級2D 特征。對于視頻中音頻信息的提取,采用FFmpeg 提取語音信號的Mel 頻率倒譜系數(shù)(Mel Frequency Cepstral Coefficient,MFCC)。特征提取具體如下。

        1)自注意力

        自注意力模塊對輸入的特征圖進(jìn)行自主學(xué)習(xí)并分配權(quán)重,從而獲取特征圖中的重要信息,減少模型對外部信息的依賴,使網(wǎng)絡(luò)更注重于捕捉信息內(nèi)部的相關(guān)性。此外,自注意力模塊的序列特征提取能力較強(qiáng),因此采用自注意力模塊結(jié)構(gòu)來設(shè)計(jì)本文模型的嵌入層,其結(jié)構(gòu)如圖3 所示。

        圖3 自注意力模塊的結(jié)構(gòu)Fig.3 Structure of self attention module

        由圖3 可知,自注意力模塊首先創(chuàng)建3 個(gè)向量Q、K和V,并在訓(xùn)練過程中對向量進(jìn)行調(diào)整優(yōu)化,通過向量Q與向量K的點(diǎn)積計(jì)算得到QKT向量,將結(jié)果除以維度平方根使梯度更加穩(wěn)定,再通過softmax函數(shù)歸一化計(jì)算得到權(quán)重信息。最后將計(jì)算得出的權(quán)重信息與向量V相乘,放大重點(diǎn)關(guān)注信息,弱化不重要的特征信號。具體計(jì)算式如式(2)所示:

        2)視頻幀特征提取

        在ResNet152 網(wǎng)絡(luò)中嵌入SE 模塊,并將其作為視頻幀特征提取網(wǎng)絡(luò),如圖4 所示為ResNet 模塊的原始結(jié)構(gòu)與嵌入SE 模塊的SE-ResNet 結(jié)構(gòu)。通過嵌入SE 模塊對ResNet 網(wǎng)絡(luò)提取的特征進(jìn)行重調(diào),并利用提取的全局信息衡量每一特征的重要性,使其得到各通道間的相關(guān)性,協(xié)助完成特征的重新標(biāo)定。此處,為簡化模型參數(shù)的復(fù)雜性,在SE 模塊的ReLU激活函數(shù)兩端依次采用1×1 的全連接層[29],從而使網(wǎng)絡(luò)具有更多的非線性,能夠擬合通道間的相關(guān)性,同時(shí)提升重要特征的權(quán)重并抑制非重要特征的權(quán)重。

        圖4 ResNet 模塊與SE-ResNet 模塊的結(jié)構(gòu)對比Fig.4 Structure comparison of ResNet module and SE-ResNet module

        將數(shù)據(jù)集中每條視頻預(yù)處理成固定幀,每條視頻等間隔取40 個(gè)關(guān)鍵樣本幀,然后送入經(jīng)過ImageNet 數(shù)據(jù)集預(yù)訓(xùn)練的SE-ResNet 模型中提取幀的特征信息,得到40×2 048 的高維特征向量。

        3)音頻MFCC 特征提取

        目前語音特征提取方法有線性預(yù)測倒譜系數(shù)(Linear Predictive Cepstral Coefficient,LPCC)提 取法[30]和MFCC 提取法[31]。其中,MFCC 提取法主要基于人的非線性聽覺機(jī)理,模仿人耳的功能分析語音的頻率,能夠更好地提取語音信號特征[32]。其中,Mel 是感知音調(diào)或音調(diào)頻率的度量單位,1 Mel 為1 000 Hz 的音調(diào)感知程度的1/1 000,其具體定義如式(3)所示:

        其中:fmel為Mel 頻標(biāo);fHz為實(shí)際線性頻率。

        Mel 濾波器倒譜參數(shù)特征在語音特征提取中占有重要的地位,且計(jì)算簡單、區(qū)分能力較突出。MFCC 的特征參數(shù)提取原理如圖5 所示。

        圖5 MFCC 特征參數(shù)提取Fig.5 MFCC feature parameter extraction

        由圖5 可知,MFCC 特征參數(shù)提取過程首先對抽取出來的音頻信號進(jìn)行預(yù)加重、分幀、加窗等預(yù)處理操作,并對分幀之后的單幀信號進(jìn)行離散傅里葉變換,最終得到頻域數(shù)據(jù),如式(4)所示:

        其中:xi(k)是第i幀的數(shù)據(jù);k表示頻域中第k條譜線。

        其次,將頻域數(shù)據(jù)通過w個(gè)Mel 頻率濾波器進(jìn)行濾波,提取頻譜、Mel 濾波器組和頻率包絡(luò),濾波器的頻域響應(yīng)Hw(k)表達(dá)式如式(5)所示:

        然后,對處理過的能量頻譜取對數(shù),使傅里葉變換中幅度乘法轉(zhuǎn)換為加法,得到對數(shù)能量Si(w),該過程的計(jì)算式如式(6)所示:

        其中:i為第i幀:k為頻域中第k條譜線。

        最后,將對數(shù)能量代入離散余弦變換(Discrete Cosine Transform,DCT),得到MFCC 系數(shù),計(jì)算式如式(7)所示:

        其中:w指第w個(gè)Mel 濾波器;i指第i幀;n為DCT 之后得到的譜線。

        將數(shù)據(jù)集中每條視頻抽取的音頻分成1 120 幀,并從每一幀中提取20 維的MFCC 信號,將其存儲為1 120×20 的高維音頻特征矩陣。

        2.3 特征融合

        采用聯(lián)合表示以及協(xié)作表示2 種多模態(tài)特征融合方法[33]。其中,聯(lián)合表示方法的示意圖如圖6 所示,其通過將多個(gè)模態(tài)的信息統(tǒng)一映射到一個(gè)多模態(tài)向量空間中,獲得多個(gè)模態(tài)特征,拼接融合得到表征,并在拼接向量維度較高時(shí)進(jìn)行主成分分析(Principal Component Analysis,PCA)降維操作,形成多維特征向量空間。協(xié)作表示方法的示意圖如圖7 所示,該策略并不尋求融合而是通過建模多種模態(tài)數(shù)據(jù)之間的相關(guān)性,將多個(gè)模態(tài)信息映射到協(xié)作空間,映射關(guān)系為f(x1)~f(xm),其中“~”表示一種協(xié)作關(guān)系。網(wǎng)絡(luò)的優(yōu)化目標(biāo)就是優(yōu)化協(xié)作關(guān)系。

        圖6 聯(lián)合表示方法的示意圖Fig.6 Schematic diagram of joint representation method

        圖7 協(xié)作表示方法的示意圖Fig.7 Schematic diagram of collaborative representation method

        將預(yù)訓(xùn)練模型提取到的模態(tài)特征作為自注意力機(jī)制嵌入層的輸入,并進(jìn)行單模態(tài)參數(shù)學(xué)習(xí),然后在特征融合階段分別利用聯(lián)合表示和協(xié)作表示對提取的單模態(tài)特征進(jìn)行融合實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,聯(lián)合表示方法保留了多個(gè)模態(tài)各自獨(dú)立的表示空間,而協(xié)作表示方法注重捕捉多個(gè)模態(tài)的互補(bǔ)性,通過融合多個(gè)輸入模態(tài)x1,x2,…,xm獲得多模態(tài)表征X=f(x1,x2,…,xm)。因此,本文選擇協(xié)作表示方法對多種模態(tài)數(shù)據(jù)之間的相關(guān)性進(jìn)行建模。

        3 實(shí)驗(yàn)結(jié)果與分析

        3.1 實(shí)驗(yàn)硬件平臺

        實(shí)驗(yàn)服務(wù)器配置為48 核Intel?Xeon?Gold 5118 CPU,內(nèi)存128 GB,顯存為32 GB 的NVIDIA Tesla V100 GPU,操作系統(tǒng)為Ubuntu18.04,加速庫為NVIDIA CUDA 11.3 和cuDNN v8.2.1,模型建立與訓(xùn)練框架為PyTorch。

        3.2 數(shù)據(jù)集

        本文選用MSR-VTT 數(shù)據(jù)集和大型電影描述挑戰(zhàn)賽(LSMDC)數(shù)據(jù)集,具體描述如下。

        1)MSR-VTT 數(shù)據(jù)集

        MSR-VTT[34]是微軟發(fā)布的視頻生成文本的大規(guī)模公共數(shù)據(jù)集。本文實(shí)驗(yàn)采用2017 年更新版MSR-VTT 數(shù)據(jù)集,該數(shù)據(jù)集包含10 000 個(gè)訓(xùn)練視頻片段和3 000 個(gè)測試視頻片段,總時(shí)長達(dá)41.2 h,平均每個(gè)片段包含20個(gè)自然語言標(biāo)注語句,共計(jì)200 000個(gè)語句。該數(shù)據(jù)集包含20 個(gè)代表性類別(包括烹飪和電影)的257 個(gè)熱門門類視頻片段,是當(dāng)前較全面和具有代表性的經(jīng)典數(shù)據(jù)集。數(shù)據(jù)集內(nèi)容分布如圖8所示,其中,X軸為視頻類別,共20 類,Y軸為各類別下的視頻總數(shù)。

        圖8 MSR-VTT 數(shù)據(jù)集的內(nèi)容分布Fig.8 Content distribution of MSR-VTT dataset

        2)LSMDC 數(shù)據(jù)集

        LSMDC 數(shù)據(jù)集由MPII 電影描述數(shù)據(jù)集(MPII-MD)[35]和蒙特利爾視頻注釋數(shù)據(jù)集(M-VAD)[36]兩組分組成。包含大約128 000 個(gè)句子片段和158 h 的視頻,其中訓(xùn)練、驗(yàn)證、公共、盲測試集分別有101 079、7 408、10 053、9 578 個(gè)視頻片段。由于用來描述動(dòng)作片的詞匯可能與喜劇電影中使用的詞匯差異較大,因此該劃分方式可以平衡每一組電影中的電影類型,使數(shù)據(jù)分布更合理。

        3.3 評價(jià)指標(biāo)

        為驗(yàn)證模型的有效性,采用當(dāng)前主流的視頻內(nèi)容文本表述評價(jià)指標(biāo),包括CIDEr[37]、METEOR[38]、ROUGEL[39]和BLEU[40],具體介紹如下。

        1)CIDEr 指標(biāo)是專門為圖像或視頻描述領(lǐng)域設(shè)定的評估指標(biāo),將模型生成的描述和真實(shí)描述表示為詞頻和逆向詞頻的向量形式,通過求其余弦相似度為生成的描述評分,在視頻描述領(lǐng)域該評價(jià)指標(biāo)具有較高的參考性。

        2)METEOR 指標(biāo)的計(jì)算基于單精度的加權(quán)調(diào)和平均數(shù)和單字召回率,其評價(jià)結(jié)果與人工評判結(jié)果具有一定相關(guān)性。

        3)ROUGEL 指標(biāo)在評價(jià)描述時(shí)考慮句子中單詞的順序,能夠評價(jià)句子層級的意義。

        4)BLEU 指標(biāo)通過定義4 元詞的個(gè)數(shù)來度量生成結(jié)果和目標(biāo)語句之間的語義相似度。

        以上4 種標(biāo)準(zhǔn)評價(jià)指標(biāo)值越高,均表明所生成的描述語義越接近真實(shí)描述,準(zhǔn)確率越高。

        3.4 實(shí)驗(yàn)結(jié)果

        3.4.1 實(shí)驗(yàn)參數(shù)設(shè)置

        在模型讀取每一幀圖像之前,先將提取到的原始幀大小縮放至256×256 像素,對每幀圖像進(jìn)行15°隨機(jī)旋轉(zhuǎn)后再進(jìn)行隨機(jī)裁剪,得到224×224 像素大小的圖像,最后對分詞之后的文本詞匯進(jìn)行匯總統(tǒng)計(jì),將大于低頻閾值的詞形成詞匯表,剔除低于低頻閾值的詞匯。本文將詞匯閾值設(shè)定為5,最終得到16 860 個(gè)詞匯。

        在模型訓(xùn)練階段,參數(shù)優(yōu)化采用Adam[41]算法,優(yōu)化器參數(shù)α=0.9,β=0.999,ε=10-8,模型初始學(xué)習(xí)率為0.001,學(xué)習(xí)衰減速率為0.8,設(shè)定連續(xù)50 輪訓(xùn)練損失沒有下降時(shí)的學(xué)習(xí)率衰減為0.8。采用負(fù)對數(shù)似然損失函數(shù)度量數(shù)據(jù)集標(biāo)注語句與模型生成語句間的距離,迭代輪次為3 000 次,批處理大小設(shè)置為128。單模態(tài)嵌入層網(wǎng)絡(luò)結(jié)構(gòu)采用2 層LSTM 網(wǎng)絡(luò),將融合特征編碼器以及解碼器部分LSTM 層數(shù)分別設(shè)置為1、2、3 層進(jìn)行實(shí)驗(yàn)。

        3.4.2 結(jié)果分析

        在模型訓(xùn)練過程中,每隔50 輪保存一次平均損失值,損失值下降曲線如圖9 所示??梢钥吹剑瑒傞_始時(shí)損失值下降較明顯,在2 200 輪以后,損失值整體趨于穩(wěn)定。

        圖9 訓(xùn)練損失值曲線Fig.9 Training loss value curve

        為驗(yàn)證本文模型的有效性以及具體參數(shù)對模型的影響,在相同實(shí)驗(yàn)環(huán)境下對視頻的靜態(tài)幀特征Vf、視頻所攜帶音頻的MFCC 特征Vaudio分別在模態(tài)Vf、雙模態(tài)Vf+Vaudio下進(jìn)行視頻內(nèi)容文本表述的訓(xùn)練,并在各模態(tài)組合的基礎(chǔ)上,將單模態(tài)嵌入模塊及編碼器模塊的LSTM 網(wǎng)絡(luò)層數(shù)分別設(shè)置為1、2、3 層進(jìn)行模型訓(xùn)練。模型在MSR-VTT 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果如表1 所示。可以看出,本文模型通過學(xué)習(xí)單模態(tài)信息的參數(shù)及融合互補(bǔ)模態(tài)的表征信息,各類指標(biāo)均有所提升,這驗(yàn)證了不同模態(tài)信息間具有高度的相關(guān)性以及互補(bǔ)性。由表1 還可以看出,在固定LSTM 層數(shù)時(shí),在融合2D 幀特征、音頻的MFCC 特征兩種互補(bǔ)模態(tài)信息時(shí)模型評價(jià)得分最高。在固定模態(tài)時(shí),當(dāng)嵌入層、編碼器2 個(gè)模塊中的LSTM 層數(shù)為2 時(shí),實(shí)驗(yàn)效果最佳。在固定模態(tài)以及LSTM 網(wǎng)絡(luò)層數(shù)情況下,多模態(tài)融合方案采用協(xié)作表示方法訓(xùn)練得到的模型相較于采用協(xié)作表示方法得到的模型測試得分較高,這表明在視頻內(nèi)容文本表述中,采用協(xié)作表示方法進(jìn)行模態(tài)信息融合效果較好。此外,表1 也驗(yàn)證了聯(lián)合表示方法能夠保留多個(gè)模態(tài)各自獨(dú)立的表示空間,更適合僅有一個(gè)模態(tài)作為輸入的應(yīng)用,如跨模態(tài)檢索、翻譯等任務(wù)。而協(xié)作表示方法較注重捕捉多模態(tài)的互補(bǔ)性,通過融合多個(gè)輸入模態(tài)x1,x2,…,xm獲得多模態(tài)表征X=f(x1,x2,…,xm),更適合多模態(tài)作為輸入的情況。

        表1 消融實(shí)驗(yàn)的結(jié)果對比Table 1 Comparison of results of ablation experiments

        本文模型首先對基于自注意力結(jié)構(gòu)的嵌入層進(jìn)行單模態(tài)相關(guān)參數(shù)學(xué)習(xí),然后再通過協(xié)作表示方法進(jìn)行多模態(tài)信息融合,融合后將其送入解碼器。通過表1 的消融實(shí)驗(yàn)結(jié)果對比可以看出,相較于單模態(tài)及無嵌入層結(jié)構(gòu)時(shí)的雙模態(tài)情況,本文模型能夠提升模型的性能,其評價(jià)指標(biāo)相較于單模態(tài)模型的BLEU4、METEOR、ROUGEL 和CIDEr分別提升了0.088、0.030、0.068、0.073。

        本文分別與第2 屆MSR-VTT 挑戰(zhàn)賽中排名前5的模型,即參賽組織RUC&CMU、TJU、NII、Tongji University 以及IIT DeIhi 所發(fā)布模型,以及當(dāng)前主流視頻內(nèi)容文本表述模型MPool、S2VT、TA、M3-Inv3、Shared Enc 進(jìn)行對比,結(jié)果分別如表2 和表3 所示。由表2 和表3 可知,本文模型相較于MSR-VTT 挑戰(zhàn)賽中IIT DeIhi 發(fā)布的模型,評價(jià)指標(biāo)BLEU4、METEOR、ROUGEL、CIDEr分別提升了0.082、0.037、0.115、0.257,相較于主流模型TA 分別提升了0.101、0.034、0.135、0.113,這證明多種互補(bǔ)模態(tài)相互融合對視頻內(nèi)容文本表述性能的提升具有積極作用。

        表2 本文模型與第2 屆MSR-VTT 挑戰(zhàn)賽排名前5 模型的結(jié)果對比Table 2 Comparison between the results of model in this paper and the top 5 models in the 2nd MSR-VTT challenge

        表3 不同模型的結(jié)果對比Table 3 Comparison of results of different models

        此外,為驗(yàn)證本文模型的泛化性能,本文對比了不同模型在LSMDC 數(shù)據(jù)集下的METEOR 指標(biāo)得分,結(jié)果如表4 所示。

        表4 不同模型在LSMDC數(shù)據(jù)集下的METEOR值對比Table 4 Comparison of METEDR value of different models under LSMDC dataset

        由表4 可知,相比當(dāng)前主流視頻內(nèi)容文本表述模型frcnnBigger 和rakshithShetty,本文模型的METEOR 指標(biāo)分別提升了0.018 以及0.005,雖然相比最優(yōu)模型EITanque 得分稍有不足,但差距甚微。表2~表4 的結(jié)果驗(yàn)證了本文模型在保持較好性能的基礎(chǔ)上,在不同數(shù)據(jù)集下也具有較好的泛化性能。

        綜合以上實(shí)驗(yàn)結(jié)果可知,通過引入視頻的多種模態(tài)信息,可以獲得更互補(bǔ)、更多樣化的表征信息,使模型具有更好的魯棒性。此外,多模態(tài)信息對復(fù)雜類視頻片段的文本生成也同樣具有積極作用,究其原因是視頻不同模態(tài)信息間具有高度的相關(guān)性和互補(bǔ)性。

        圖10 所示為本文模型在MSR-VTT 數(shù)據(jù)集分割測試集的4 個(gè)視頻片段示例,本文模型對以上4 個(gè)不同類別的視頻片段進(jìn)行文本生成,并挑選每個(gè)視頻片段的前5 個(gè)真實(shí)數(shù)據(jù)(Ground Truth,GT)進(jìn)行對比,分別用GT0~GT4 表示,結(jié)果如表5 所示。其中,本文模型輸出的數(shù)據(jù)為生成數(shù)據(jù)。由表5 可知,本文模型所生成的視頻文本內(nèi)容豐富,且準(zhǔn)確率更高,這驗(yàn)證了多種互補(bǔ)模態(tài)可以相互融合,提升模型性能。

        圖10 視頻內(nèi)容文本生成示例Fig.10 Example of video content text generation

        表5 本文模型對視頻片段的文本生成結(jié)果對比Table 5 Comparison of text generation results of video clips by model in this paper

        4 結(jié)束語

        本文提出一種將多模態(tài)融合與多層注意力相結(jié)合的視頻內(nèi)容文本表述模型,通過預(yù)訓(xùn)練模型提取視頻所包含的靜態(tài)幀及音頻信息,利用自注意力模塊的嵌入層進(jìn)行單個(gè)模態(tài)的特征參數(shù)學(xué)習(xí),以增強(qiáng)各模態(tài)間的互補(bǔ)性,為視頻生成文本提供較為豐富、全面的表征信息,使模型生成的自然語言表達(dá)更加準(zhǔn)確。在MSRVTT 及LSMDC 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本文模型相較于MPool、S2VT、TA 等當(dāng)前主流模型,在BLEU4、METEOR、ROUGEL、CIDEr 這4 個(gè)評價(jià)指標(biāo)上的得分均有明顯提升,生成的文本準(zhǔn)確率更高。下一步將充分利用視頻中對象與真實(shí)描述之間的對應(yīng)關(guān)系及各種模態(tài)信息間的互補(bǔ)性,并結(jié)合注意力機(jī)制改進(jìn)模型,使各種模態(tài)信息與文本信息對齊,在生成高質(zhì)量文本的同時(shí)保證模型的輕量性。

        猜你喜歡
        音頻模態(tài)特征
        如何表達(dá)“特征”
        不忠誠的四個(gè)特征
        必須了解的音頻基礎(chǔ)知識 家庭影院入門攻略:音頻認(rèn)證與推薦標(biāo)準(zhǔn)篇
        基于Daubechies(dbN)的飛行器音頻特征提取
        電子制作(2018年19期)2018-11-14 02:37:08
        抓住特征巧觀察
        音頻分析儀中低失真音頻信號的發(fā)生方法
        電子制作(2017年9期)2017-04-17 03:00:46
        Pro Tools音頻剪輯及修正
        人間(2015年8期)2016-01-09 13:12:42
        國內(nèi)多模態(tài)教學(xué)研究回顧與展望
        基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識別
        由單個(gè)模態(tài)構(gòu)造對稱簡支梁的抗彎剛度
        成人aaa片一区国产精品| 亚洲第一页视频在线观看| av网站免费线看| 欧美日韩精品乱国产| 精品视频一区二区在线观看| 欧美人与动牲交片免费| 成人精品一区二区三区电影| 伊人影院成人在线观看| 一本久道久久综合五月丁香| 极品少妇一区二区三区四区| 久久亚洲中文字幕精品熟| 巨臀精品无码AV在线播放| 97无码人妻福利免费公开在线视频| 久久免费看黄a级毛片| 自拍视频在线观看成人| 国产成人v爽在线免播放观看| 伊甸园亚洲av久久精品| 亚洲视频在线中文字幕乱码| 一级午夜视频| 女人被狂c躁到高潮视频| 人妻少妇中文字幕久久| 日韩精品成人一区二区三区久久久 | 丰满少妇棚拍无码视频| 免费观看又污又黄的网站| 99精品国产成人一区二区| 白浆高潮国产免费一区二区三区 | 亚洲日本中文字幕高清在线| 99久久综合狠狠综合久久一区| 国产毛片一区二区三区| 国产欧美日韩视频一区二区三区| 欧美丰满熟妇性xxxx| 中文字日产幕码三区做法| 无码免费午夜福利片在线| 一本色综合亚洲精品蜜桃冫| 欧美人妻少妇精品久久黑人| 黄片视频免费在线播放观看| 中文字幕久久国产精品| 欧美zozo另类人禽交| 亚洲人成综合网站在线| 欧美大屁股xxxxhd黑色| 日本动漫瀑乳h动漫啪啪免费|