于海濤 楊小汕 徐常勝,
1(合肥工業(yè)大學(xué)計(jì)算機(jī)與信息學(xué)院 合肥 230031)2(模式識(shí)別國(guó)家重點(diǎn)實(shí)驗(yàn)室(中國(guó)科學(xué)院自動(dòng)化研究所) 北京 100190)
視頻的自動(dòng)生成技術(shù)具有廣泛的應(yīng)用前景,例如視頻編輯、增強(qiáng)現(xiàn)實(shí)、電影和游戲制作等.早期針對(duì)圖像視頻生成技術(shù)的研究主要集中在計(jì)算機(jī)圖形學(xué)領(lǐng)域展開[1-3].最先進(jìn)的計(jì)算機(jī)圖形學(xué)算法能夠合成逼真的照片和視頻,但這些技術(shù)需要依賴于專用的設(shè)計(jì)軟件和大量專家的手工勞動(dòng),而且通常被限制在特定的人物、物體或者場(chǎng)景.近年來,隨著深度學(xué)習(xí)技術(shù)在物體檢測(cè)、行為識(shí)別等領(lǐng)域取得突破性進(jìn)展[4-6],視頻生成這一更具有挑戰(zhàn)性的問題逐漸走入了計(jì)算機(jī)視覺和多媒體等領(lǐng)域研究人員的視野.實(shí)現(xiàn)能夠自動(dòng)生成真實(shí)視頻的人工智能算法是更完備的視覺表觀信息和運(yùn)動(dòng)信息理解的一個(gè)重要標(biāo)志.
傳統(tǒng)的深度神經(jīng)網(wǎng)絡(luò)分類模型需要監(jiān)督式地在大規(guī)模標(biāo)注樣本上進(jìn)行訓(xùn)練,而生成對(duì)抗網(wǎng)絡(luò)(generative adversarial network, GAN)[7]通過對(duì)抗式地訓(xùn)練生成式網(wǎng)絡(luò)和判別器網(wǎng)絡(luò)來無監(jiān)督地學(xué)習(xí)樣本的特征分布,進(jìn)而可以根據(jù)隨機(jī)種子,生成真實(shí)樣本.基于這一思想,GAN在圖片風(fēng)格化和圖像生成領(lǐng)域取得了優(yōu)異性能[8-10],同時(shí)也被應(yīng)用于視頻生成并成為目前的主流方法[11-14].相比圖像生成算法,視頻生成是一項(xiàng)具有更多挑戰(zhàn)的任務(wù).盡管視頻只比圖像數(shù)據(jù)多了一個(gè)時(shí)間維度,但因此帶來的運(yùn)動(dòng)信息的動(dòng)態(tài)變化以及視覺內(nèi)容的多樣性都使得可能生成的結(jié)果空間變得十分巨大.此外視頻是對(duì)執(zhí)行各種動(dòng)作的對(duì)象的視覺信息進(jìn)行時(shí)空記錄,生成模型除了要學(xué)習(xí)對(duì)象的外觀模型外,還需要學(xué)習(xí)對(duì)象的物理結(jié)構(gòu).這些都是視頻生成的困難所在.Vondrick等人[15]把視頻表示為潛在隱空間中的特征點(diǎn),可以訓(xùn)練生成網(wǎng)絡(luò)來表示從隱空間到視頻片段的映射.Tulyakov等人[12]把視頻的潛在特征空間分解為運(yùn)動(dòng)子空間與內(nèi)容子空間,大大減小了模型的復(fù)雜度.但由于這些方法是基于隨機(jī)噪聲生成視頻,生成的視頻存在視覺外觀模糊不清、運(yùn)動(dòng)信息規(guī)律性不強(qiáng)的問題.
針對(duì)上述問題,大量基于條件式生成對(duì)抗網(wǎng)絡(luò)的方法被提出.Li等人[14]提出用自然語言作為輸入條件來指導(dǎo)視頻生成.雖然自然語言對(duì)描述視頻中的關(guān)鍵內(nèi)容和主要運(yùn)動(dòng)信息有很大的幫助,但是僅用語言作為條件,最終生成的視頻難以準(zhǔn)確表達(dá)物體背景的細(xì)節(jié)信息以及長(zhǎng)期的動(dòng)態(tài)變化.在一些條件視頻生成[16-18]中,運(yùn)動(dòng)軌跡、人臉AUs(action units)值和語義圖等信息分別被作為輸入條件來指導(dǎo)視頻內(nèi)容生成.雖然這些方法在特定領(lǐng)域的視頻上得到了較好結(jié)果,但這些輸入條件的標(biāo)注仍然需要較為專業(yè)的技術(shù)人員才能提供.
本文我們希望建立更為簡(jiǎn)單、有效的輸入條件來得到更加魯棒、可控的視頻生成模型.為了提供充足的視覺外觀信息,我們采用圖片作為輸入來表達(dá)視頻中包含的主要物體和場(chǎng)景信息.考慮到自然語言是人類用于描述事物或者表達(dá)意圖的最有效的工具,因此在運(yùn)動(dòng)信息方面,我們采用自然語言作為引導(dǎo).基于以上討論,我們提出基于圖片和文本輸入的多模態(tài)對(duì)抗式視頻生成模型.一方面,我們將輸入的文本信息通過循環(huán)神經(jīng)網(wǎng)絡(luò)進(jìn)行編碼來提取語義特征.這些語義特征將被解碼為運(yùn)動(dòng)特征來輔助視頻中的視覺信息生成和運(yùn)動(dòng)信息生成.另一方面,考慮到視頻片段中的物體或者場(chǎng)景在較短時(shí)間內(nèi)通常比較相似,我們學(xué)習(xí)輸入圖片到視頻幀的仿射變換來得到更為準(zhǔn)確和連貫的視頻序列.由于缺乏運(yùn)動(dòng)信息的監(jiān)督標(biāo)簽,我們采用了生成對(duì)抗網(wǎng)絡(luò)捕捉幀與幀之間的運(yùn)動(dòng)信息,為特征提取網(wǎng)絡(luò)提供反饋,使其能夠生成連續(xù)有意義的運(yùn)動(dòng)特征.
本文的主要貢獻(xiàn)是提出了一個(gè)新的多模態(tài)對(duì)抗式視頻生成模型,將文本信息和圖片信息同時(shí)引入視頻生成,使得生成模型更加可控、生成結(jié)果更加魯棒.
我們簡(jiǎn)要地將相關(guān)工作分為兩大類:圖像生成和視頻生成,下面將分別圍繞這2個(gè)方面詳細(xì)介紹相關(guān)工作.
隨著深度學(xué)習(xí)在圖像分類和物體檢測(cè)領(lǐng)域取得突破性進(jìn)展,如何生成真實(shí)的圖像在人工智能領(lǐng)域也得到了廣泛的研究和分析.最早在2014年Goodfellow等人[7]提出了GAN網(wǎng)絡(luò)的理論框架,利用GAN以無監(jiān)督的方式生成圖像.雖然早期的GAN為圖像生成提供了一個(gè)獨(dú)特而有前景的方向,但是生成結(jié)果存在模糊不清、細(xì)節(jié)丟失等問題.為了得到高質(zhì)量的圖像,Denton等人[19]進(jìn)一步將拉普拉斯金字塔引入GAN.最近,Reed等人[20]利用GAN基于給定的文本描述進(jìn)行圖像生成,實(shí)現(xiàn)了從字符級(jí)到像素級(jí)的翻譯.Zhang等人[21]將2個(gè)生成網(wǎng)絡(luò)疊加在一起,逐步渲染出逼真的圖像.CoupledGAN[8]構(gòu)建了在不同域中生成圖像的模型,可以無監(jiān)督地將一個(gè)域中的圖像轉(zhuǎn)換為另一個(gè)域中的圖像.InfoGAN[22]學(xué)習(xí)了一種更具解釋性的隱特征來表示圖像.Arjovsky等人[23]提出了一種更穩(wěn)定的對(duì)抗網(wǎng)絡(luò)算法框架Wasserstein GAN.
視頻生成在計(jì)算機(jī)視覺領(lǐng)域并不是一個(gè)全新的問題.由于計(jì)算、數(shù)據(jù)和建模工具的限制,早期的視頻生成工作側(cè)重于生成動(dòng)態(tài)紋理模式[1-3].近年來,隨著GPU(graphics processing unit)、網(wǎng)絡(luò)視頻和深度神經(jīng)網(wǎng)絡(luò)的出現(xiàn),越來越多的基于深度學(xué)習(xí)的視頻生成方法被提出.但要將對(duì)抗式圖片生成模型擴(kuò)展到視頻,需要對(duì)空間和時(shí)間的復(fù)雜變化進(jìn)行描述,這使得問題具有更多的挑戰(zhàn).最早基于GAN的視頻生成模型是Vondrick等人[15]提出的,該算法采用時(shí)空3D反卷積分別生成前景與背景.最近,基于GAN的3D反卷積[13]被進(jìn)一步分解為1D反卷積層和2D反卷積層來生成視頻.同時(shí)大量基于條件式生成對(duì)抗網(wǎng)絡(luò)的視頻生成方法被提出.Li等人[14]提出了用自然語言編碼來指導(dǎo)視頻生成.Marwah等人[24]采用了循環(huán)的VAE(variational autoencoder)和分層的注意機(jī)制來通過文本生成圖像序列.Pumarola等人[17]以人臉AUs值和圖片作為輸入,通過無監(jiān)督的方式訓(xùn)練,并借助連續(xù)變化的AUs值生成動(dòng)態(tài)的表情視頻.Pan等人[18]提出基于語義圖的視頻預(yù)測(cè),通過語義圖實(shí)現(xiàn)多樣化的圖片生成,同時(shí)使用VAE對(duì)視頻幀中的運(yùn)動(dòng)信息進(jìn)行編碼,最終生成真實(shí)的街景視頻.
根據(jù)上述分析,本文的工作是提出了以圖片和文本作為輸入條件的對(duì)抗式視頻生成模型.與已有的基于條件對(duì)抗網(wǎng)絡(luò)的視頻生成方法相比,我們提出的多模態(tài)視頻生成方法的輸入條件更簡(jiǎn)潔、有效.
圖1顯示了本文所使用的基于多模態(tài)輸入的條件視頻生成模型的框架圖.整個(gè)網(wǎng)絡(luò)結(jié)構(gòu)由5個(gè)子網(wǎng)絡(luò)組成,包括文本特征編碼網(wǎng)絡(luò)RT、運(yùn)動(dòng)特征解碼網(wǎng)絡(luò)DV、圖片生成網(wǎng)絡(luò)GI、圖片判別網(wǎng)絡(luò)DI、視頻判別網(wǎng)絡(luò)DV.整個(gè)網(wǎng)絡(luò)基于GAN框架進(jìn)行訓(xùn)練.
Fig. 1 Framework of antagonistic video generation method based on multimodal input圖1 基于多模態(tài)輸入的對(duì)抗式視頻生成方法框架
文本特征編碼網(wǎng)絡(luò)DV用于提取輸入文本的語義特征,運(yùn)動(dòng)特征解碼網(wǎng)絡(luò)Rm根據(jù)文本的語義特征進(jìn)一步生成運(yùn)動(dòng)特征來表達(dá)目標(biāo)的運(yùn)動(dòng)信息.圖片生成網(wǎng)絡(luò)GI能夠根據(jù)輸入圖片和對(duì)應(yīng)的運(yùn)動(dòng)特征生成最終的視頻幀.在對(duì)抗式訓(xùn)練中,視頻判別網(wǎng)絡(luò)DV用于捕捉幀與幀之間的運(yùn)動(dòng)信息,從而為圖片生成網(wǎng)絡(luò)GI,文本特征編碼網(wǎng)絡(luò)RT和運(yùn)動(dòng)特征解碼網(wǎng)絡(luò)Rm提供反饋.而圖片判別網(wǎng)絡(luò)DI則專注于單幀圖片的視覺內(nèi)容判別,為輸出更清晰的圖片增加更多的細(xì)節(jié)約束.每個(gè)模塊的實(shí)現(xiàn)細(xì)節(jié)將在后面章節(jié)進(jìn)行詳細(xì)介紹.
長(zhǎng)短期記憶網(wǎng)絡(luò)(long short term memory, LSTM)是一種針對(duì)序列型數(shù)據(jù)而設(shè)計(jì)的前饋神經(jīng)網(wǎng)絡(luò),主要用來處理序列有關(guān)數(shù).其通過在相鄰時(shí)刻的隱藏層神經(jīng)元之間加入連接形成循環(huán)結(jié)構(gòu),LSTM可以重復(fù)利用之前時(shí)刻的歷史信息,為了提取文本的語義特征以及圖像序列的運(yùn)動(dòng)特征,本文采用LSTM搭建了文本特征編碼網(wǎng)絡(luò)RT和運(yùn)動(dòng)特征解碼網(wǎng)絡(luò)Rm.
本文提出的模型中,我們通過圖片輸入得到待生成目標(biāo)的視覺內(nèi)容信息.但要想生成視覺上連續(xù)變化的視頻序列,則還需要為模型引入運(yùn)動(dòng)信息.我們使用文本描述來提供運(yùn)動(dòng)信息.由于LSTM處理序列數(shù)據(jù)時(shí)的優(yōu)勢(shì),在自然語言處理(natural language processing, NLP)領(lǐng)域常被用于機(jī)器翻譯[25]和句子語義特征提取.類似地,我們采用LSTM搭建了一個(gè)編碼-解碼結(jié)構(gòu).為了處理變長(zhǎng)的文本輸入信息,我們用一個(gè)LSTM網(wǎng)絡(luò)來對(duì)文本信息進(jìn)行編碼,將輸入的文本信息編碼為一個(gè)定長(zhǎng)向量.同時(shí)為了產(chǎn)生前后關(guān)聯(lián)的運(yùn)動(dòng)編碼信息,使用另一個(gè)LSTM對(duì)定長(zhǎng)向量進(jìn)行解碼,得到一系列的運(yùn)動(dòng)編碼信息.具體如下.
首先,描述語句分詞后被表示為詞向量并依次輸入文本特征提取網(wǎng)絡(luò)RT,網(wǎng)絡(luò)RT是初始狀態(tài)為h0的LSTM.最終文本描述語句(W1,W2,…,WK)被表示為最后一個(gè)單元對(duì)應(yīng)的隱藏層特征(記為M0).其中網(wǎng)絡(luò)RT的初始狀態(tài)h0用全0向量表示,Wi為第i個(gè)詞向量,K為句子長(zhǎng)度.文本特征提取網(wǎng)絡(luò)的輸出M0將用于運(yùn)動(dòng)特征解碼網(wǎng)絡(luò)Rm的輸入.運(yùn)動(dòng)特征解碼網(wǎng)絡(luò)Rm由另一個(gè)LSTM構(gòu)成.以文本特征M0作為初始狀態(tài),全0向量作為初始輸入,以后每一次的輸入為前一層的輸出,Rm網(wǎng)絡(luò)將M0解碼為生成每幀圖像所需的運(yùn)動(dòng)特征(M1,M2,…,Mk),Mi表示第i幀的運(yùn)動(dòng)特征,k表示生成視頻的長(zhǎng)度,在實(shí)驗(yàn)中我們固定k=16.
根據(jù)Hao等人[16]的研究表明:視頻生成任務(wù)需要預(yù)測(cè)的輸出幀中大部分像素都可以直接從第1幀復(fù)制,這些像素只在位置上發(fā)生了一定的偏移.而第1幀中的少數(shù)像素區(qū)域由于被遮擋和劇烈運(yùn)動(dòng)等因素,需要用算法重新生成.基于以上分析,本文的視頻生成網(wǎng)絡(luò)GI采取與Hao等人類似的分治方法,把要預(yù)測(cè)的視頻幀分解為變換圖和新生成圖.其中變換圖由輸入圖片根據(jù)光流特征扭曲變換得到,而新生成圖由圖片和文本特征直接解碼得到,最后通過合并變換圖和新生成圖得到最終的輸出結(jié)果.視頻生成網(wǎng)絡(luò)GI的結(jié)構(gòu)如圖2所示.具體實(shí)現(xiàn)過程將在下面詳細(xì)展開介紹.
Fig. 2 Video generation network based on pictures and motion features圖2 基于圖片和運(yùn)動(dòng)特征的視頻幀生成網(wǎng)絡(luò)GI
給定圖片I0∈RW×H×N和運(yùn)動(dòng)特征Mi∈RDM,i=1,2,…,k,視頻生成網(wǎng)絡(luò)GI將輸出當(dāng)前時(shí)刻的視頻幀O∈RW×H×N.對(duì)于圖片I0,我們首先用一個(gè)具有9個(gè)3×3卷積層和3個(gè)池化層結(jié)構(gòu)的卷積網(wǎng)絡(luò)得到(W8)×(H8)尺度的視覺特征.Mi是一個(gè)DM維向量,其在輸入后將被擴(kuò)展為Mi∈Ri=1,2,…,k,每個(gè)大小為(W8)×(H8)的特征通道上的值都相同,以適應(yīng)圖片的卷積特征的尺度.W和H分別表示圖片的寬和高,N為輸入圖片的通道數(shù).最終擴(kuò)展后的運(yùn)動(dòng)特征將與圖片卷積特征按通道進(jìn)行合并.
基于合并后的圖片視覺特征和運(yùn)動(dòng)特征,我們首先用一個(gè)具有9個(gè)3×3卷積層和3個(gè)反卷積層結(jié)構(gòu)的卷積網(wǎng)絡(luò)進(jìn)行上采樣.最后通過3個(gè)不同的卷積層生成3個(gè)子圖,包括稠密光流圖D、掩模圖M和新生成圖Oh.其中稠密光流圖D用于描述原始輸入圖片中每個(gè)像素的位移情況,掩模圖M用于描述輸入圖片中哪些區(qū)域因?yàn)檎趽趸蛘吣繕?biāo)快速移動(dòng)需要新生成像素,新生成圖Oh則表示新生成的圖片像素信息.
在得到稠密光流圖D之后,我們采用一個(gè)可微分的扭曲變換將輸入圖片I0做仿射變換得到變換圖Of.具體來說,變換圖Of的(x,y)位置的像素值是從原始圖片I0的(x0,y0)=(x+Δx,y+Δy)位置變換得來,其中Dx,y=(Δx,Δy).由于Dx,y生成結(jié)果是實(shí)數(shù),因此采用雙線性插值來計(jì)算變換圖Of中的每個(gè)像素值:
(1)
其中,(i,j)是(x0,y0)的四鄰域.
最終輸出圖片可以通過合并變換圖Of和新生成圖Oh來得到:
(2)
傳統(tǒng)的GAN網(wǎng)絡(luò)由2個(gè)網(wǎng)絡(luò)組成:生成網(wǎng)絡(luò)和判別網(wǎng)絡(luò).生成網(wǎng)絡(luò)的目的是生成盡可能真實(shí)的圖像,而判別網(wǎng)絡(luò)的目的是盡可能區(qū)分真實(shí)圖像和模型生成圖像.這2個(gè)網(wǎng)絡(luò)在一個(gè)最大最小的博弈游戲中不斷優(yōu)化,共同提升.在實(shí)際應(yīng)用中,生成網(wǎng)絡(luò)和判別網(wǎng)絡(luò)都被實(shí)際化為卷積神經(jīng)網(wǎng)絡(luò).其目標(biāo)函數(shù)為
(3)
在本文模型中我們?cè)谏蓤D像的同時(shí)還要保證視頻序列之間的動(dòng)態(tài)連貫性.因此我們的網(wǎng)絡(luò)框架包含了2個(gè)判別器:視頻判別器DV和圖片判別器DI.這2個(gè)判別器與生成網(wǎng)絡(luò)協(xié)同訓(xùn)練,使得模型能夠提供更為高質(zhì)量的生成結(jié)果.同時(shí)我們采用改進(jìn)的WGAN[23]來穩(wěn)定模型的訓(xùn)練.本文模型的優(yōu)化目標(biāo)可以表示為
(4)
圖片判別網(wǎng)絡(luò)DI采用常規(guī)的包含4個(gè)3×3卷積層(每層都包含一個(gè)池化操作)和1個(gè)全連接層的2D卷積網(wǎng)絡(luò)來實(shí)現(xiàn).訓(xùn)練時(shí),當(dāng)輸入真實(shí)圖片時(shí)使其輸出1,當(dāng)輸入由網(wǎng)絡(luò)生成的圖片時(shí)使其輸出0.而視頻判別網(wǎng)絡(luò)DV則采用包含4個(gè)3×3卷積層(每層都包含一個(gè)池化操作)和1個(gè)全連接層的3D卷積網(wǎng)絡(luò)來實(shí)現(xiàn).這是因?yàn)镈V的輸入是連續(xù)的k幀圖片,而3D卷積能夠提取其中的時(shí)域信息.同樣,當(dāng)輸入真實(shí)視頻時(shí)使其輸出1,當(dāng)輸入由模型生成的視頻時(shí)使其輸出0.視頻判別網(wǎng)絡(luò)可以捕捉幀與幀之間的動(dòng)態(tài)變化信息,為文本特征編碼網(wǎng)絡(luò)RT和運(yùn)動(dòng)特征解碼網(wǎng)絡(luò)Rm提供反饋.
我們將總損失函數(shù)定義為
(5)
其中:
Ii為真實(shí)的第i幀圖片,該項(xiàng)使得生成圖片與真實(shí)圖片更接近,加快模型收斂速度.
與傳統(tǒng)的GAN網(wǎng)絡(luò)框架相同,我們先訓(xùn)練圖片判別網(wǎng)絡(luò)DI、視頻判別網(wǎng)絡(luò)DV,再對(duì)抗式地訓(xùn)練文本特征編碼網(wǎng)絡(luò)RT、運(yùn)動(dòng)特征解碼網(wǎng)絡(luò)Rm、圖片生成網(wǎng)絡(luò)GI.我們使用Adam優(yōu)化器進(jìn)行訓(xùn)練,batch size為16,學(xué)習(xí)率為0.000 5,β1=0.9,β2=0.99.
本文所用數(shù)據(jù)集示例如圖3所示:
Fig. 3 Dataset examples圖3 數(shù)據(jù)集示例
SBMG(single-digit bouncing MNIST gifs)數(shù)據(jù)集為了驗(yàn)證模型的有效性,我們采用了和Mittal等人[26]一樣的方法合成動(dòng)態(tài)的手寫數(shù)字視頻樣本.SBMG是包含單個(gè)數(shù)字運(yùn)動(dòng)的視頻,每個(gè)視頻樣本是由手寫數(shù)字?jǐn)?shù)據(jù)集MNIST[27]中隨機(jī)采樣的圖像生成.對(duì)于給定大小為64×64的數(shù)字圖像,根據(jù)指定運(yùn)動(dòng)描述語句(例如數(shù)字7上下移動(dòng))移動(dòng)手寫數(shù)字對(duì)應(yīng)的白色像素點(diǎn)來模擬生成數(shù)字的運(yùn)動(dòng)視頻.我們生成了60 000個(gè)視頻樣本,每個(gè)視頻樣本都對(duì)應(yīng)著一個(gè)描述語句.圖3(a)顯示了由數(shù)字7構(gòu)造生成的視頻以及對(duì)應(yīng)的描述語句.實(shí)驗(yàn)中,我們隨機(jī)選取50 000個(gè)視頻用于訓(xùn)練,10 000個(gè)用于測(cè)試.
TBMG(two-digit bouncing MNIST gifs)數(shù)據(jù)集也是由MNIST數(shù)據(jù)集中的數(shù)字圖片生成.區(qū)別在于TBMG是包含2個(gè)數(shù)字同時(shí)運(yùn)動(dòng)的視頻.采用MNIST數(shù)據(jù)集中的2張圖片,按照描述語句移動(dòng)2張圖片的白色像素區(qū)域并疊加得到視頻樣本.TBMG數(shù)據(jù)集包含30 000個(gè)視頻樣本.圖3(b)顯示了由數(shù)字4和8構(gòu)造生成的視頻以及對(duì)應(yīng)的描述語句.實(shí)驗(yàn)中,我們隨機(jī)選取25 000個(gè)視頻用于訓(xùn)練,5 000個(gè)用于測(cè)試.
KTH(kungliga tekniska h?gskolan human actions)數(shù)據(jù)集為了在更真實(shí)的數(shù)據(jù)集上評(píng)估本文模型的性能,使用了KTH數(shù)據(jù)集[28].這個(gè)數(shù)據(jù)集包含超過2 000個(gè)視頻序列,是通過拍攝25個(gè)人執(zhí)行6種不同的動(dòng)作得到.我們選取人物步行的視頻序列來進(jìn)行實(shí)驗(yàn).通過把人物步行的視頻進(jìn)行切分和人工標(biāo)記,我們得到了200個(gè)包含“從右向左走”和“從左向右走”2種行為的視頻.每個(gè)視頻有16幀,視頻幀大小為64×64.圖3(c)顯示了人物“從左向右走”的視頻和其對(duì)應(yīng)的描述語句.實(shí)驗(yàn)中,我們隨機(jī)選取175個(gè)視頻用于訓(xùn)練,25個(gè)用于測(cè)試.
為了評(píng)估我們的模型,我們與現(xiàn)有的模型Cap2vid[24]和Sync-DRAW[26]進(jìn)行了比較.Cap2vid通過學(xué)習(xí)文本與視頻幀之間的長(zhǎng)期和短期依賴關(guān)系,通過LSTM建模以增量的方式生成視頻.Sync-DRAW使用一個(gè)循環(huán)的變分自編碼器(R-VAE)和一個(gè)分層的注意機(jī)制來創(chuàng)建一個(gè)隨時(shí)間逐漸變化的視頻幀.
Fig. 4 Comparison of effects of different models on SBMG圖4 不同模型在SBMG上的效果對(duì)比
圖4顯示了不同方法在SBMG數(shù)據(jù)集上的數(shù)字視頻生成結(jié)果.
由圖4可以看到Cap2vid生成的視頻中數(shù)字外觀上前后有一定差異.而Sync-DRAW和本文的方法基本保持了原有的內(nèi)容.
圖5展示了不同方法在TBMG數(shù)據(jù)集上的數(shù)字視頻生成結(jié)果.
Fig. 5 Comparison of the effects of different models on TBMG datasets圖5 不同模型在TBMG數(shù)據(jù)集上的效果對(duì)比
由圖5可以看到,Cap2vid僅通過文本生成視頻,生成結(jié)果雖然能保持?jǐn)?shù)字的運(yùn)動(dòng),但是數(shù)字在前后幀的變化過大.而我們的方法生成的視頻具有更好的清晰度和連貫性.Sync-DRAW方法生成的結(jié)果同樣不夠清晰,而我們通過對(duì)輸入圖片進(jìn)行變換得到視頻幀,能夠?yàn)樯扇蝿?wù)提供更多的細(xì)節(jié),同時(shí)保證了視頻內(nèi)容在前后幀的連貫性.
圖6顯示了不同方法在KTH數(shù)據(jù)集上的結(jié)果對(duì)比.
Fig. 6 Qualitative comparison of models on KTH圖6 模型在KTH上的定性對(duì)比
由圖6可以看到Cap2vid生成的人物姿態(tài)過于單一,未能模擬人物行走的完整動(dòng)作,而Sync-DRAW的生成結(jié)果同樣不夠清晰.我們的方法生成的視頻結(jié)果在人物的清晰度以及動(dòng)作的完整性上都有更好的表現(xiàn).
由于Cap2vid與Sync-DRAW為無監(jiān)督方法,無法計(jì)算定量指標(biāo),我們基于模型生成的結(jié)果進(jìn)行了定性比較,同時(shí)我們將本文提出的方法與Hao等人[16]提出的方法進(jìn)行了定量比較.從表1來看,PSNR,SSIM(2個(gè)指標(biāo)值越大越好)都有所提升,其中BMG為SBMG和TBMG的合并.
Table 1 Model Contrast Analysis表1 模型性能量化分析
為了驗(yàn)證本文模型各個(gè)組件的有效性,我們?cè)O(shè)置了模型變體進(jìn)行對(duì)比實(shí)驗(yàn):圖7(a)基于文本輸入(將圖片輸入置0)的視頻生成方法;圖7(b)基于圖片和文本特征直接解碼生成視頻幀,不采用變換圖與新生成圖合并的方式;圖7(c)本文提出的完整生成模型.
如圖7所示,通過3個(gè)方法的實(shí)驗(yàn)對(duì)比我們可以看到,僅輸入文本的模型圖7(a)能生成一部分運(yùn)動(dòng)信息,但由于缺乏目標(biāo)的視覺信息,生成視頻過于模糊.模型圖7(b)雖然能夠生成可辨識(shí)的視頻結(jié)果,但由于生成結(jié)果是直接通過解碼圖片和文本特征得到,因此細(xì)節(jié)信息不如完整模型圖7(c)通過合并變換圖和新生成圖得到的結(jié)果.
Fig. 7 Comparison of model variants on KTH datasets圖7 模型變體在KTH數(shù)據(jù)集上的結(jié)果對(duì)比
下面我們通過計(jì)算預(yù)測(cè)視頻幀和真實(shí)視頻幀之間的PSNR和SSIM[29]指標(biāo)進(jìn)一步評(píng)估不同模型性能.如表2所示,通過比較SSIM和PSNR,可以看到完整模型圖7(c)在BMG數(shù)據(jù)集和KTH數(shù)據(jù)集上的結(jié)果都優(yōu)于模型變體圖7(a)和圖7(b)的結(jié)果.圖6和表2中的實(shí)驗(yàn)對(duì)比都表明我們提出的多模態(tài)輸入更有益于得到魯棒可控的視頻結(jié)果.此外,通過把視頻生成結(jié)果分解為由輸入圖片變換得到的內(nèi)容與新生成內(nèi)容,可以得到更清晰、連貫的視頻序列.
Table 2 Quantitative Analysis of Model Variation and Complete Model
圖8顯示了我們模型更多的生成結(jié)果.由圖8可以看出我們的模型在清晰度以及動(dòng)作的連貫性上都有不錯(cuò)的表現(xiàn).
Fig. 8 Model generation results圖8 模型生成結(jié)果
基于生成對(duì)抗網(wǎng)絡(luò)的視頻生成算法近年來得到了研究人員的廣泛關(guān)注.本文提出一種新的基于多模態(tài)輸入的條件式視頻生成模型.一方面基于圖片信息輸入為生成視頻提供更多細(xì)節(jié),并基于仿射變換來預(yù)測(cè)視頻幀;另一方面使用文本特征編碼網(wǎng)絡(luò)和運(yùn)動(dòng)特征解碼網(wǎng)絡(luò)得到運(yùn)動(dòng)信息,進(jìn)而輔助生成網(wǎng)絡(luò)輸出連貫的視頻序列.在SBMG,TBMG,KTH數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,我們的模型在運(yùn)動(dòng)連貫性和內(nèi)容前后一致性上都優(yōu)于現(xiàn)有的模型.我們的方法使得生成模型更加可控、生成結(jié)果更加魯棒.但本文提出的視頻生成算法仍然有很大的改進(jìn)空間,在未來我們將繼續(xù)探索更有效的模型,以適應(yīng)更為復(fù)雜環(huán)境下的視頻生成需求.