馬境遠(yuǎn),王川銘
1(北郵感知技術(shù)研究院(江蘇)有限公司,江蘇 無錫 214115) 2(北京郵電大學(xué) 智能通信軟件與多媒體北京市實(shí)驗(yàn)室,北京100876) E-mail:2219063829@qq.com
隨著生活水平的提升,人們對(duì)于視頻的觀看質(zhì)量要求越來越高.普通攝像設(shè)備拍攝的視頻幀速率有限,從而影響觀眾的特殊觀感體驗(yàn).因此,在視頻拍攝后對(duì)其進(jìn)行適當(dāng)?shù)暮筇幚?,也成了視頻制作中十分重要的一環(huán),視頻插幀就是其中關(guān)鍵技術(shù).視頻插幀[1-9]目標(biāo)是通過兩個(gè)連續(xù)的輸入視頻幀數(shù)據(jù),用以合成其中間幀的數(shù)據(jù).視頻插幀能夠有效地提高視頻播放的幀率,保證視頻中目標(biāo)運(yùn)動(dòng)的連續(xù)性,減少用戶觀看時(shí)的卡頓感,提升用戶的觀看體驗(yàn),因此被廣泛應(yīng)用于影視作品、體育比賽視頻精彩片段的慢動(dòng)作回放[1]等方面.視頻插幀對(duì)幀率的改變也使得其能夠被用于視頻壓縮傳輸?shù)热蝿?wù)中.此外,具有產(chǎn)生新圖像的特性也使得它能夠在視頻內(nèi)容編輯、多視角視頻合成等方面發(fā)揮作用.
如圖1所示,傳統(tǒng)的基于光流的視頻插幀方法[2,9]主要由以下兩個(gè)步驟組成:光流估計(jì)和中間幀合成.光流估計(jì)是指對(duì)兩個(gè)連續(xù)視頻幀圖像(I0、I1),分別估計(jì)它們與待生成中間幀的光流信息(Ft→0、Ft→1).中間幀合成指的是通過估計(jì)得到的光流信息,對(duì)視頻幀圖像對(duì)進(jìn)行映射變換,得到最后的中間幀(It).其中,光流估計(jì)的效果對(duì)插幀結(jié)果有著關(guān)鍵的影響.但是,視頻插幀任務(wù)中光流估計(jì)十分具有挑戰(zhàn)性,與一般的光流估計(jì)任務(wù)存在本質(zhì)上的不同.一般的光流估計(jì)方法能夠獲得需要估計(jì)光流的兩張圖像,但是在視頻插幀任務(wù)中,需要被估計(jì)光流的圖像數(shù)據(jù)是不完整的,即其中一張圖像是要生成的目標(biāo)圖像,因此只能利用可獲得的連續(xù)兩幅視頻幀圖像.
圖1 基于光流的視頻插幀方法Fig.1 Optical flow-based video interpolation method
為解決視頻插幀任務(wù)中光流估計(jì)難的問題,人們提出了一系列方法.這些方法圍繞著如何更準(zhǔn)確地預(yù)測(cè)光流信息和如何更充分利用光流信息兩方面進(jìn)行研究,但是它們往往需要兩次光流估計(jì),嚴(yán)重降低了深度神經(jīng)網(wǎng)絡(luò)模型的運(yùn)行效率,使得這些插幀方法很難應(yīng)用于實(shí)時(shí)視頻分析任務(wù)中.
針對(duì)如何利用光流信息進(jìn)行實(shí)時(shí)視頻插幀的難點(diǎn)問題,本文遵循當(dāng)前的視頻插幀框架,提出一種基于多尺度光流預(yù)測(cè)與融合的實(shí)時(shí)視頻插幀方法.本文的方法由光流預(yù)測(cè)和中間幀合成兩部分組成,首先采用不損失信息的下采樣方法對(duì)圖像進(jìn)行多規(guī)模的下采樣,獲得不同尺度的圖像數(shù)據(jù);之后通過帶有注意力機(jī)制的特征提取網(wǎng)絡(luò)來提取視頻幀對(duì)的特征,并根據(jù)該特征得到預(yù)測(cè)光流信息.因?yàn)檩斎雸D像是多尺度的,所以獲得的光流信息也具有不同的尺度信息,本文采用了一個(gè)光流融合網(wǎng)絡(luò)將這些多尺度的光流信息進(jìn)行融合得到最后的結(jié)果用于圖像合成.
在大規(guī)模視頻插幀基準(zhǔn)數(shù)據(jù)集上,對(duì)所提方法進(jìn)行了訓(xùn)練和測(cè)試,實(shí)驗(yàn)結(jié)果表明本文的方法能夠?qū)崟r(shí)地生成高質(zhì)量的視頻插幀效果.同時(shí)將所提方法與當(dāng)前的經(jīng)典方法進(jìn)行了實(shí)驗(yàn)對(duì)比,比較結(jié)果展示本文方法的優(yōu)越性.
視頻插幀任務(wù),由于其廣泛的應(yīng)用性,一直是計(jì)算機(jī)視覺與多媒體技術(shù)領(lǐng)域研究的熱點(diǎn)問題.傳統(tǒng)的視頻插幀方法往往都伴隨著視頻編碼策略的設(shè)計(jì),目的也是為了優(yōu)化傳輸?shù)男?而近年來,隨著深度學(xué)習(xí)的日益發(fā)展,深度神經(jīng)網(wǎng)絡(luò)因其強(qiáng)大的特征提取能力,在諸多視覺任務(wù)上取得了很大突破.因此,現(xiàn)階段有一系列的方法期望通過深度學(xué)習(xí)技術(shù)來完成視頻插幀任務(wù).
Liu[1]等受到自編碼器的啟發(fā),設(shè)計(jì)了一種基于神經(jīng)網(wǎng)絡(luò)編碼器-解碼器的模型去學(xué)習(xí)體素流,從而合成插幀圖像.但是對(duì)不同尺度的體素間關(guān)系的忽略導(dǎo)致了其不能較好處理不同體素移動(dòng)速度不一致的問題.Jiang[2]等提出了一種雙向光流估計(jì)方法,通過神經(jīng)網(wǎng)絡(luò)梯度輸入圖像對(duì)之間的光流,再結(jié)合這種雙向光流,得到輸入圖像與待合成圖像的光流信息.但是,這種迭代估計(jì)的方法導(dǎo)致了光流估計(jì)的速度較慢,使得無法應(yīng)用于實(shí)時(shí)視頻任務(wù)中.Bao[3]等除了光流信息,還設(shè)計(jì)了一個(gè)深度估計(jì)網(wǎng)絡(luò)來促進(jìn)光流估計(jì)的結(jié)果.這種多信息融合的特性使得其估計(jì)得到的光流結(jié)果更加精確,從而合成更加高質(zhì)量的中間幀.但是,引入了深度估計(jì)模型同樣導(dǎo)致了該方法計(jì)算量的增加,從而降低了方法的運(yùn)行速度.除了深度信息,Bao[4]等還提出了一個(gè)利用運(yùn)動(dòng)估計(jì)信息的視頻插幀方法,通過設(shè)計(jì)的運(yùn)動(dòng)估計(jì)和運(yùn)動(dòng)補(bǔ)償神經(jīng)網(wǎng)絡(luò),生成更具有魯棒性的視頻插幀結(jié)果,但是同樣降低了方法的運(yùn)行速度.
還有一部分方法探究如何更好地進(jìn)行圖像合成操作.Niklaus[5]等通過預(yù)訓(xùn)練后的光流估計(jì)模型得到光流估計(jì),并將光流信息與圖像的深度特征進(jìn)行結(jié)合,一同送入到一個(gè)合成網(wǎng)絡(luò)中,得到最后的結(jié)果.
除了基于光流的方法,還有一些方法使用深度神經(jīng)網(wǎng)絡(luò)直接生成中間幀的結(jié)果.SepConv[6]和AdapConv[7]是屬于此類的兩個(gè)典型方法,它們通過使用自適應(yīng)卷積學(xué)習(xí)圖像對(duì)之間的移動(dòng)變換和融合策略.但是沒有準(zhǔn)確的移動(dòng)指導(dǎo)信息,生成的結(jié)果缺乏了魯棒性.CAIN[8]利用通道注意力來增強(qiáng)網(wǎng)絡(luò)學(xué)習(xí)能力,實(shí)現(xiàn)端到端的視頻插幀.
光流估計(jì)的效果對(duì)于視頻插幀的質(zhì)量有著重大的影響,為了提升視頻插幀的性能,本文提出了一種多尺度光流預(yù)測(cè)與融合方法.整體框架如圖2所示,包括圖像下采樣、卷積操作、特征拼接、光流預(yù)測(cè)、光流融合等模塊.對(duì)于輸入的一對(duì)連續(xù)視頻幀,首先進(jìn)行下采樣.不同階段的下采樣的尺度是不同的,圖像中使用Sk來進(jìn)行表示.在下采樣之后,通過一個(gè)簡單的卷積模塊獨(dú)立地提取兩張圖像特征,再將兩組特征沿通道維度進(jìn)行拼接.拼接得到的結(jié)果送入光流預(yù)測(cè)網(wǎng)絡(luò)中,得到當(dāng)前尺度圖像的光流估計(jì)結(jié)果.對(duì)于該結(jié)果,一方面被用于將圖像進(jìn)行映射變換,從而送入下一階段的模型,另一方面,與下一階段預(yù)測(cè)的光流進(jìn)行融合,得到更細(xì)化的光流結(jié)果.本節(jié)詳細(xì)介紹下采樣方法、提取與光流預(yù)測(cè)方法和多尺度光流融合.
圖2 多尺度光流預(yù)測(cè)與融合框架Fig.2 Framework of multi-scale optical flow prediction and fusion
運(yùn)動(dòng)距離小的像素在小尺度的圖像中更易被忽略,而運(yùn)動(dòng)距離大的像素在小尺度的圖像中仍能被觀察到.基于這樣一種觀察,多尺度學(xué)習(xí)常被應(yīng)用于視頻插幀任務(wù)中.圖像常被下采樣為不同的尺度,從而學(xué)習(xí)不同尺度下的光流信息.但是現(xiàn)階段方法,對(duì)于圖像的多尺度變化,通常采用的是圖像插值,導(dǎo)致了信息上的丟失.因此本文設(shè)計(jì)一種信息無損的多尺度下采樣方法.
圖3分別展示了基于插值的下采樣方法和本文使用的下采樣方法.對(duì)于基于插值的方法,下采樣只能產(chǎn)生一張圖像,而本文的方法會(huì)產(chǎn)生多張圖像,這些圖像是原始圖像的一種互補(bǔ)的分割表示,包含了原始圖像的全部信息.
圖3 不同下采樣方法的比較Fig.3 Comparison of different down-sampling methods
基于插值的下采樣方法勢(shì)必會(huì)導(dǎo)致部分信息的丟失.而本文采用的下采樣方法是將空間信息壓縮到通道維度上,因此沒有信息的損失,同時(shí),這些子圖在細(xì)節(jié)上的不同也使得網(wǎng)絡(luò)能夠?qū)W習(xí)更加魯棒的光流信息.
對(duì)于3.2節(jié)中得到的輸入數(shù)據(jù),本文先通過一個(gè)簡單的卷積神經(jīng)網(wǎng)絡(luò),對(duì)兩張圖像分別提取特征.該卷積神經(jīng)網(wǎng)絡(luò)由兩層組成,每層都包含一個(gè)卷積層和PReLU[10]層.之后將兩個(gè)圖像對(duì)應(yīng)的特征沿通道維度進(jìn)行拼接,得到光流預(yù)測(cè)模塊的輸入.
如圖4所示,光流預(yù)測(cè)網(wǎng)絡(luò)由多個(gè)殘差模塊和一個(gè)轉(zhuǎn)置卷積組成.其中殘差模塊由順序排列的卷積模塊和注意力模塊組成.卷積模塊與之前圖像特征提取網(wǎng)絡(luò)相同,都是由卷積核是3的卷積與PReLU層組成.而注意力模塊是由卷積核是1的卷積操作和通道注意力結(jié)合而成,其數(shù)學(xué)表達(dá)式為:
圖4 光流預(yù)測(cè)網(wǎng)絡(luò)結(jié)構(gòu)Fig.4 Network of optical flow prediction
X′=C(X*π(F(θ(F(X)))))
(1)
其中X為特征,C是卷積核大小為1的卷積,θ是ReLU[11]函數(shù),π是Sigmoid函數(shù),F(xiàn)是線性層,*表示按元素相乘.與SENet[12]保持一致,本文也在FC中使用了縮減系數(shù)a來降低維度數(shù).在具體實(shí)現(xiàn)中,每個(gè)階段的卷積通道數(shù)目、縮減系數(shù)都有所不同,在實(shí)驗(yàn)部分將詳細(xì)介紹這些參數(shù).最后,本文使用了一個(gè)卷積核為4,間隔為2的轉(zhuǎn)置卷積輸出預(yù)測(cè)的光流信息.因此,特征提取與光流預(yù)測(cè)的整體結(jié)構(gòu)參數(shù)如表1所示.
表1 光流預(yù)測(cè)網(wǎng)絡(luò)結(jié)構(gòu)Table 1 Network of optical prediction
Fi=D(∏j,U(F′j))
(2)
其中,U表示上采樣操作,將所有光流上采樣到固定的尺度.∏表示沿通道維度將上采樣后的光流進(jìn)行拼接.D表示可變形卷積操作,其卷積核為3,間隔為1,填充為1.與傳統(tǒng)卷積相比,可變形卷積對(duì)每個(gè)通道都自適應(yīng)地學(xué)習(xí)一個(gè)偏移量,通過該偏移量,可以捕獲不同尺度光流中更加相關(guān)性的部分,從而生成更加魯棒性的輸出信息.同時(shí),可以看出,階段i的光流輸出,是對(duì)之前所有階段輸出光流的一個(gè)融合.
4.1.1 訓(xùn)練數(shù)據(jù)
本文在Vimeo90K-Triplet[14]數(shù)據(jù)集上進(jìn)行模型的訓(xùn)練和測(cè)試.Vimeo90K-Triplet是專為視頻插幀任務(wù)構(gòu)建的數(shù)據(jù)集,包含73,171個(gè)3幀連續(xù)序列的數(shù)據(jù)集,所有圖像分辨率都是448×256.
本文采用3幀中的第1和第3幀作為模型的輸入,而第2幀作為模型的真值.在訓(xùn)練階段,隨機(jī)從原圖中裁剪224×224大小的圖像作為輸入,同時(shí)帶用了隨機(jī)水平翻轉(zhuǎn)、隨機(jī)垂直翻轉(zhuǎn)、隨機(jī)通道打亂、隨機(jī)時(shí)序翻轉(zhuǎn)等數(shù)據(jù)增強(qiáng)方法.而在測(cè)試階段,保持圖像的原始大小,不做數(shù)據(jù)增強(qiáng).
此外,為了訓(xùn)練模型對(duì)光流信息的預(yù)測(cè)的準(zhǔn)確性,本文采用ListFlowNet[15]預(yù)先在數(shù)據(jù)集上生成所有的光流信息,作為模型訓(xùn)練時(shí)的監(jiān)督信息.
如圖5所示,一個(gè)訓(xùn)練樣本數(shù)據(jù)包含了3張連續(xù)的圖像I0,It,I1,以及光流圖Ft->0,Ft->1.為了更好地展示視頻幀之間的區(qū)別,本文將I0,I1結(jié)合,可以看到其差異性.
圖5 訓(xùn)練數(shù)據(jù)可視化展示Fig.5 Visualization of training data
4.1.2 模型參數(shù)
對(duì)于光流估計(jì)模型,本文將階段數(shù)目設(shè)置為3,每個(gè)階段的光流預(yù)測(cè)網(wǎng)絡(luò)中殘差模塊數(shù)目為2,通道數(shù)分別是240,128和96.此外,下采樣層的尺度分別是4,2和1.對(duì)于注意力模塊,本文統(tǒng)一將下采樣系數(shù)設(shè)置為16.本文主要是提出了一種光流預(yù)測(cè)模型,因此,直接采用RIFE[9]方法中提出的上下文內(nèi)容提取與融合網(wǎng)絡(luò)作為圖像合成模型.此外,圖2中的映射變換,本文采用了在視頻插幀領(lǐng)域廣泛采用的“后向映射”方法,該方法具體細(xì)節(jié)可以參考RIFE[9].
4.1.3 訓(xùn)練策略
在損失函數(shù)方面,對(duì)于光流預(yù)測(cè)結(jié)果,本文使用了在視頻插幀領(lǐng)域廣泛采用的L1范式損失作為優(yōu)化函數(shù):
(3)
其中fgt為光流真值,fpred為光流預(yù)測(cè)值.該損失將所有預(yù)測(cè)的光流都與光流真值計(jì)算損失并求和.此外,還使用了恢復(fù)損失函數(shù):
(4)
和統(tǒng)計(jì)損失函數(shù)[16]對(duì)預(yù)測(cè)圖像進(jìn)行損失計(jì)算.最終將三者相加作為最終優(yōu)化損失.
本文采用AdamW[17]作為優(yōu)化器,將其衰減設(shè)置為1e-4,總共訓(xùn)練300輪.每一批次數(shù)據(jù)的大小是48,學(xué)習(xí)率使用余弦函數(shù)進(jìn)行調(diào)節(jié),從同一個(gè)1e-4逐漸降低到0.在測(cè)試方面,本文度量了峰值信噪比(PSNR,peak signal-to-noise ratio)和結(jié)構(gòu)相似性(SSIM,structural similarity)兩個(gè)被廣泛使用的圖像質(zhì)量評(píng)價(jià)指標(biāo).在硬件配置方面,采用了TITAN XP (Pascal)GPU作為訓(xùn)練和測(cè)試硬件.
本文與當(dāng)前視頻插幀方法進(jìn)行了比較,比較的方法有:DVF[1]、Slomo[2]、DAIN[3]、MEMC[4]、SepConv[6]、CAIN[8]、RIFE[9].其中,重新實(shí)現(xiàn)了RIFE,以達(dá)到公平比較的目的.表2展示了比較的結(jié)果,可以看出,本文的方法在PSNR和SSIM兩個(gè)方面都能取得很好的效果.
表2 不同方法的比較Table 2 Comparison with different methods
在圖6中,本文可視化了光流預(yù)測(cè)和插幀的結(jié)果.共有3組圖片,每一組圖片上面兩張分別是光流預(yù)測(cè)的結(jié)果和光流真值的可視化,而每組下面兩張圖像是視頻插幀的結(jié)果和真值圖像.可以看出,本文的方法較好地預(yù)測(cè)了光流信息,同時(shí)得到了魯棒的插幀結(jié)果圖像.
圖6 光流預(yù)測(cè)結(jié)果、真值與視頻插幀結(jié)果、真值的可視化Fig.6 Visualization of the prediction and ground truth for optical and video interpolation
為了證明方法中不同模塊的有效性,本文對(duì)其進(jìn)行了消融實(shí)驗(yàn).實(shí)驗(yàn)數(shù)據(jù)是基于640p的視頻幀計(jì)算得到的.本文將一個(gè)帶有6層卷積模塊的殘差網(wǎng)絡(luò)作為BaseNet,然后依次添加下采樣模塊(DS,Down-Sampling),注意力模塊(AM,Attention Module)和光流融合模塊(FM,F(xiàn)usion Module).實(shí)驗(yàn)結(jié)果如表3所示,可以看出,所提模塊能夠有效地提升模型插幀結(jié)果的性能,同時(shí)在時(shí)間開銷上的增加較少,能夠良好地滿足算法實(shí)時(shí)性的要求.
表3 不同模塊對(duì)模型的影響Table 3 Effect of different components
視頻插幀因其廣泛應(yīng)用性,很多學(xué)者進(jìn)行了研究.但是現(xiàn)階段的方法運(yùn)行效率較低,實(shí)時(shí)性難以保證.本文提出了一個(gè)多尺度光流預(yù)測(cè)和融合模型,利用輕量級(jí)神經(jīng)網(wǎng)絡(luò),充分學(xué)習(xí)視頻中光流的變化,得到了較好的視頻插針效果.具體地,本文采用了信息無損的下采樣策略,基于注意力的特征提取和多尺度光流融合方法,達(dá)到了較好實(shí)時(shí)性和可靠性的平衡.在大規(guī)模視頻插幀基準(zhǔn)數(shù)據(jù)集上的實(shí)驗(yàn)也表明了方法的有效性.通過本文提出方法,視頻后處理可以更好地解決視頻慢動(dòng)作回放問題,人們可以更清晰、生動(dòng)地觀看到影視作品、體育比賽精彩視頻片段慢動(dòng)作回放,并對(duì)其中細(xì)節(jié)進(jìn)行分析利用.