許倬維 池漫釗 蔡文康 羅金濤
摘 要 視頻超分辨率是指采用信號處理的方法通過對低分辨率視頻的退化圖像通過處理以獲得一幅或者多幅高分辨率復原圖像,該技術(shù)可以彌補硬件實現(xiàn)的局限并且成本低,在視頻、遙感等領(lǐng)域有著重要的應用前景。近幾年來,視頻超分辨率的方法被大量提出。其中,基于機器學習的視頻超分辨率方式以其強大的性能、可觀的輸出結(jié)果,成為視頻超分辨率之主流以及眾人才研究與發(fā)展的方向。在該文章中,作者通過介紹主流視頻超分辨率模型的提出背景,核心框架與工作貢獻,呈現(xiàn)近年來視頻超分辨率的主要發(fā)展情況。
關(guān)鍵詞 視頻超分辨率(VSR);模型框架;近況
1視頻超分辨率(VSR)介紹
視頻超分辨率(video super-resolution)技術(shù)是指結(jié)合了來自同一動態(tài)過程的多個低分辨率圖像序列的信息,通過信號處理的方式對低分辨率圖像進行加工處理,重新構(gòu)建出具有高時空分辨率的圖像序列集,也就是重新構(gòu)建出具有更高清晰度更多信息量的視頻。由于視頻是在時間域上一連串具備空間信息的圖像集合,因此,視頻超分辨率技術(shù)處理方法上分為了時間超分辨率和空間超分辨率。視頻的時間超分辨率技術(shù)是通過時間域一連串視頻幀畫面之間的相關(guān)性,恢復出丟失的細節(jié)信息,而視頻空間超分辨率則是通過對一幀畫面進行圖像超分辨率,直接得到具有更高分辨率的圖像序列集。因此,該技術(shù)可以彌補硬件實現(xiàn)的局限并且使用成本低,使用范圍廣,在視頻、遙感、生物醫(yī)學等領(lǐng)域有著重要的應用前景[1]。
2視頻超分辨率的實現(xiàn)方式
頻超分辨率技術(shù)實現(xiàn)的方式主要是通過以下三種:模型重建,插值運動幀補償以及機器學習。
2.1 模型重建
基于幀內(nèi)模型重建的視頻超分辨率方法主要針對單幀圖像空域信息的提取,其算法基礎(chǔ)與圖像超分辨率是相同的,都是基于均衡及非均衡采樣定理的,目的是從低分辨率空間信息中預估高分辨率信息,從而分出了頻率域處理與空間域處理。頻域處理的模型基礎(chǔ)是傅里葉變換的性質(zhì),盡管在頻域內(nèi)進行圖像插值的方法,設(shè)計復雜度低,運算成本可觀,操作易實現(xiàn),但是其只能應用于全局平行移動與線性空間不變降質(zhì)模型的局限,以及先驗知識有限的劣勢,使得不再成為研究主流??沼蛱幚矸绞较碌挠^測模型包括了全局和局部運動、光學模糊、幀內(nèi)運動模糊、空間可變點擴散函數(shù)、非理想采樣等內(nèi)容,具有很強的先驗約束能力, 現(xiàn)研究較多的是凸集投影(POCS)和最大后驗概率估計(MAP)方法[2]。
2.2 插值運動幀補償
通過插值運動補償?shù)姆椒ㄊ腔谝曨l時域信息進行實現(xiàn),通過運動補償算法將視頻信息中正在運動的物體插值到時域上正確的位置上,提高視頻幀率,彌補視頻采樣設(shè)備采樣幀率的限制,從而生成高質(zhì)量的視頻。Zhongding Jiang采用了一種光流場方法來準確預估視頻幀之間的運動變化情況,同時提供了一個穩(wěn)定有效的機制以檢測與剔除會影響超分辨率效果的錯誤視頻幀的匹配,從而實現(xiàn)視頻中連續(xù)幀的圖像調(diào)整與修正。該方法在應用于大量復雜動態(tài)視頻序列后,證明了有效性。
2.3 機器學習
近年來,主流的視頻超分辨率方法都是基于機器學習的,這類方法著重對先驗知識的模型識別,通過算法去學習識別指定類別,如實驗對象、場景、圖像,將識別所得的先驗知識應用于超分辨率中,從而得到比傳統(tǒng)超分辨率方法更好的結(jié)果。盡管如此,基于學習的視頻超分辨率無論是在理論依據(jù)或是在實踐技巧上,都是以模型重建與插值運動幀補償為指導方向的[3]。
3近年視頻超分辨率發(fā)展路程
基于機器學習的視頻超分辨率方法是近幾年來各大計算機視覺頂級會議的熱論話題,也是現(xiàn)階段發(fā)展速度最快的視頻超分辨率方式。視頻超分辨率的發(fā)展起步較晚,幾乎是在圖像超分辨率發(fā)展至成熟的今日才稍有成果。這也不難理解,視頻是圖像基于時間的大規(guī)模擴展,對信息量與信息間相關(guān)性的研究一定程度上需要能夠?qū)σ粠瑘D像進行深入了解。
2016年6月,Armin KappelerI等人于電氣和電子工程師協(xié)會(IEEE)的期刊上發(fā)表了基于卷積神經(jīng)網(wǎng)絡的視頻超分辨率(VSRnet)模型,將計算機視覺中相對成熟的網(wǎng)絡結(jié)構(gòu)與運動補償相結(jié)合,應用于視頻超分辨率處理上。但是,模型VSRnet運算速率并不可觀,并且不能實時處理,這很大程度上限制了模型的可塑性。
3.1 提取特征信息進行訓練
非常碰巧,同年9月,Jose Caballero的團隊就解決了如何快速進行超分辨率的問題。
Jose Caballero等人發(fā)現(xiàn),在過往的超分辨率模型,諸如SRCNN,通常是將低分辨率(LR)圖像通過上采樣插值的方式,進行尺寸放大到高分辨率(HR)空間,之后在高分辨率空間上實施超分辨率(SR)操作,從而增加了計算成本;于是,該團隊提出了使用亞像素卷積神經(jīng)網(wǎng)絡的實時單圖像與視頻超分辨率(ESPCN)模型。
ESPCN模型運用神經(jīng)卷積網(wǎng)絡(CNN) 結(jié)構(gòu),突出于低分辨率圖像空間中提取出特征圖形,獲得與高分辨率相同尺寸的高分辨率圖像特征,并通過之后的高效亞像素卷積層的學習,將最終的低分辨率特征圖轉(zhuǎn)換為高分辨率圖像輸出。
ESPCN模型的優(yōu)勢在于,只在最后一層對圖像尺寸做變換,前面的網(wǎng)絡結(jié)構(gòu)在運算時輸入計算的是較小規(guī)模的低分辨率數(shù)據(jù),從而降低了計算與存儲器的復雜度;同時,各網(wǎng)絡層學習目標是特征圖像而不是原始圖像,能夠使網(wǎng)絡學習到更好更復雜的低分辨率至高分辨率映射,從而具有更高的重建精度與額外增益[4]。
自此,提取圖像特征信息進行學習訓練幾乎成為主流超分辨率模型的必備選擇。
3.2 高效結(jié)合運動補償
ESPCN模型在超分辨率速率上擁有著極大的提升,但是該方法僅僅是對每一幀進行處理而沒有整合幀間關(guān)聯(lián)信息。
整合了ESPCN與VSRnet兩大模型后,Jose Caballero等人利用Max Jaderberg所提出的空間變換網(wǎng)絡具有反映圖像間映射關(guān)系這一能力,首次將空間變換網(wǎng)絡應用于幀間運動補償,于2017年出了結(jié)合運動補償?shù)膶崟r視頻超分辨率VESPCN模型,獲得了很可觀的輸出質(zhì)量。
VESPCN模型的提出后,引起了計算機視覺界的熱烈討論。在經(jīng)過一定實驗后,香港中文大學的Xin Tao及他的團隊得到了以下三個結(jié)論:①VESPCN模型在視頻幀的尺寸縮放靈活度還可以提高;②前向扭曲的運動補償方式并非最佳方式;③對齊多幀以構(gòu)建準確對應關(guān)系與有效融合圖像細節(jié)的操作對高質(zhì)量的輸出尤為重要,
最終,Xin Tao團隊提出了基于細節(jié)揭示的視頻超分辨率(DVSR)模型。在適當幀對齊的基礎(chǔ)上,DVSR模型通過亞像素運動關(guān)系恢復細節(jié),得到視覺與數(shù)量上更加高質(zhì)量的輸出結(jié)果。
DVSR模型將一系列低分辨率圖像作為輸入并產(chǎn)生一個高分辨率圖像,包括三個模塊:運動估計,運動補償和細節(jié)融合。運動估計模塊負責幀之間的運動場估計,這部分使用的正是前文的VESPCN模型;運動補償層利用通過運動估計所得的亞像素信息,完成實時運動補償與分辨率增強,并形成有效的幀對齊。細節(jié)融合網(wǎng)絡是帶跳躍連接形式的編碼器-解碼器模塊,著重于圖像細節(jié)的添加與訓練的加速[5]。
亞像素運動補償層的運用,可以同時實現(xiàn)運動補償與分辨率增強,值得一提的是,這在先前的工作中是分開獨立處理的。同時,該層無多余參數(shù),反向傳播損失能夠在場中平穩(wěn)流動,從而能夠有效地整合至神經(jīng)網(wǎng)絡中,在不增加額外成本的同時,得到良好的輸出表現(xiàn)。
至此,運動補償所得的細節(jié)成果可以被高效地融入高分辨率輸出中。
3.3 幀循環(huán)處理
大部分主流視頻超分辨率方法都會結(jié)合運動信息,諸如:VESPCN, DVSR框架中加入的運動補償模塊,Zhaowen Wang等人提出的時間動態(tài)自學習模塊等。他們處理多幀接連處理的方法是通過卷積神經(jīng)網(wǎng)絡與運動補償相結(jié)合,處理一批低分辨率幀以生成單個預估高分辨率幀并在整個視頻上以滑動窗口方式持續(xù)該操作。
Mehdi S. M. Sajjadi等人發(fā)現(xiàn),該方法使得每個輸入幀會被多次處理,從而增加了計算成本; 同時,每個輸出幀是獨立地根據(jù)輸入幀進行估計的,這將大大限制了訓練模型會產(chǎn)生在時間上能夠趨于一致結(jié)果的能力。于是,他們提出了一個端到端可訓練的幀循環(huán)視頻超分辨率(FRVSR)框架,在促進時間上結(jié)果一致的同時,通過每個步驟只進行一次幀扭曲來降低運算成本。該模型被錄入2018年的cvpr文章中[6]。
模型包括了可訓練的光流估計網(wǎng)絡和超分辨率網(wǎng)絡。光流估計網(wǎng)絡負責通過相鄰的低分辨率輸入圖像的運動流,生成映射關(guān)系圖;超分辨率網(wǎng)絡則負責某一時間幀低分辨率圖像與其上一幀超分辨率圖像的融合,生成該時間幀上的超分辨率,并應用于下一幀中。
FRVSR框架通過參考大量的先前超分辨率輸出以有效幫助網(wǎng)絡進行下一幀的超分辨率輸出,不僅使每個輸入幀只被處理一次,同時所有輸出結(jié)果都趨于時間一致。同時,該訓練模型框架在較大的時間范圍內(nèi)傳播信息,而無須增加計算量。
3.4 遞歸反投影以實現(xiàn)多路徑結(jié)合
超分辨率的發(fā)展形勢趨近于:新的模型都基于在已有模型的改進,這使得網(wǎng)絡主體框架的類型并沒有改變。Muhammad Haris的團隊經(jīng)過總結(jié),將已有的超分辨率網(wǎng)絡分為三類:①預定義增采樣:預定地將圖像增采樣至特定尺寸,一定程度上引入了噪聲;②單一增采樣:僅在最后一步進行增持采樣,可能無法學習到復雜的映射;③逐步采樣:在網(wǎng)絡層中間斷插入增采樣層,例如LapSRN框架,這會受低分辨率特征的限制; 并在這三類網(wǎng)絡以外,于2018年提出了使用迭代增減采樣的深度反投影超分辨率網(wǎng)絡(DBPN)。DBPN框架允許保留部分高分辨率內(nèi)容,在龐大的訓練集下,獲得了較好的成果[7]。
該團隊清楚地知道,基于循環(huán)網(wǎng)絡(RNN)的視頻超分辨率,無論是否進行明確的幀對齊,多幀的同時處理會使得訓練成本大大提高。并且,構(gòu)造出能夠?qū)λ幸曨l幀中內(nèi)容所包含的微妙或顯著運動變化進行精確觀察的循環(huán)網(wǎng)絡絕非易事。嘗試整合FRVSR模型的優(yōu)勢之后,Muhammad Haris等人改進了原有模型,于2019年提出了循環(huán)反投影網(wǎng)絡(RBPN)。
RBPN的操作可分為三個階段:基于運動流的特征提取、整合多路徑細節(jié)信息的多重投影以及根據(jù)多重投影所得的高分辨率特征信息而進行的超分辨率重建。RBPN創(chuàng)新點在于,將單圖片超分辨率和多圖片超分辨率集成在一個統(tǒng)一的超分辨率框架中:單圖片超分辨率和多圖片超分辨率從不同路徑的資源中提取缺失的細節(jié)信息:單圖片超分辨率提取表示目標幀細節(jié)的各種特征圖、多圖片超分辨率從其他幀提供多組特征映射,并通過用于視頻超分辨率的循環(huán)神經(jīng)網(wǎng)絡以時間順序迭代地更新這些不同的路徑源,最終通過反投影合并在單圖片超分辨率和多圖片超分辨率路徑中提取的細節(jié),因而生成更佳的訓練效果[8]。
4結(jié)束語
現(xiàn)階段基于機器學習的視頻超分辨率主流框架是卷積神經(jīng)網(wǎng)絡與循環(huán)神經(jīng)網(wǎng)絡的結(jié)合。視頻超分辨率方法的研究是在單張圖像與多張圖像超分辨率方法的基礎(chǔ)上進行改進,使模型能夠提取空間與時間上的細節(jié)特征并進行融合。每個新的構(gòu)架會利用優(yōu)秀的舊框架進行延伸與改進而得,在未來有著極大的發(fā)展前景。
參考文獻
[1] Shi W,Caballero J ,Huszár,F(xiàn)erenc,et al. Real-Time Single Image and Video Super-Resolution Using an Efficient Sub-Pixel Convolutional Neural Network[J]. IEEE CVPR,2016,(1):1874–1883.
[2] Kappeler A,Yoo S, Dai Q, et al. Video Super-Resolution With Convolutional Neural Networks[J]. IEEE Transactions on Computational Imaging,2016,2(2):109-122.
[3] Tao X,Gao H,Liao R,et al. Detail-revealing Deep Video Super-resolution [J]. IEEE International Conference on Computer Vision(ICCV),2017,(1):4482-4490.
[4] Liu D,Wang Z,F(xiàn)an Y,et al. Robust Video Super-Resolution with Learned Temporal Dynamics[C]. 2017 IEEE International Conference on Computer Vision (ICCV),IEEE,2017:1-7.
[5] Sajjadi M S M,Vemulapalli R,Brown M . Frame-Recurrent Video Super-Resolution[J]. IEEE Conference on Computer Vision and Pattern Recognition (CVPR),2018,(1):6626–6634.
[6] 張曉玲,沈蘭蓀.超分辨率圖像復原技術(shù)的研究進展[J].測控技術(shù),2005,24(5):1-5.
[7] 蘇衡,周杰,張志浩.超分辨率圖像重建方法綜述[J].自動化學報,2013,39(8):1202-1213.
[8] 王勇,鄭輝,胡德文.視頻的超分辨率增強技術(shù)綜述[J].計算機應用研究,2005,22(1):4-7.
作者簡介
許倬維,池漫釗,蔡文康,羅金濤均為深圳大學在讀本科生,多次獲得美國數(shù)學建模大賽獎項,跟隨導師王妙輝進行計算機視覺方面的研究學習。