技術(shù)宅
經(jīng)常在愛奇藝、優(yōu)酷看視頻的朋友都知道,如果你的網(wǎng)速較快,可以在播放界面點(diǎn)擊畫質(zhì)切換,將視頻畫質(zhì)切換到“高清540P”、“720P”、“1080P”等(圖2)。
這些畫質(zhì)實(shí)際就是分辨率的簡稱,比如540P是960×540,在720P是1280×720,分辨率越高,視頻畫面就由越多的點(diǎn)組成,展示的畫面細(xì)節(jié)就越豐富(圖3)。
另外一個(gè)影響視頻流暢度的參數(shù)為幀速率,視頻的幀速率越高,畫面就顯得越流暢,特別是運(yùn)動(dòng)物體,就越不容易出現(xiàn)拖影。
在網(wǎng)友展示的“翻拍”老電影中,主要就是利用神經(jīng)網(wǎng)絡(luò)對原視頻的分辨率和幀速率進(jìn)行了提升。
首先是分辨率的增強(qiáng),在傳統(tǒng)的操作中如果我們需要將低分辨率圖像或者視頻擴(kuò)展為高分辨率,使用的是插值算法。它的原理是基于目標(biāo)分辨率中的點(diǎn),將其按照縮放關(guān)系對應(yīng)到原圖像中,同時(shí)在圖像邊緣的模糊和鋸齒間獲得平衡。不過傳統(tǒng)算法放大的圖像(視頻)很容易出現(xiàn)模糊和鋸齒(圖4)。
現(xiàn)在結(jié)合神經(jīng)網(wǎng)絡(luò)技術(shù)的插值算法則可以有效地避免這種現(xiàn)象的出現(xiàn),比如https://bigjpg.com/提供的放大圖片技術(shù)(借助的正是神經(jīng)網(wǎng)絡(luò)技術(shù))。它先制作一個(gè)機(jī)器訓(xùn)練模型,然后使用大量低分辨率的圖像作為輸入源并得到對應(yīng)的高分辨率結(jié)果圖像。接著通過神經(jīng)網(wǎng)絡(luò),針對放大圖片的線條、顏色、網(wǎng)點(diǎn)等特點(diǎn),對放大算法不斷調(diào)整和優(yōu)化,最后生成一套最優(yōu)的算法。這個(gè)算法可以保證放大后的圖像色彩保留較好, 圖片邊緣也不會(huì)有模糊和鋸齒,從而實(shí)現(xiàn)將低分辨率圖片“無損”放大為高分辨率清晰圖片(圖5)。這次網(wǎng)友在視頻“翻新”操作中使用的則是源于Gigapixel AI的技術(shù),它使用的技術(shù)類似ht t p s: //bigjpg.com/,只不過它可以對視頻每一幀的圖像都進(jìn)行無損放大,在大幅提高電影分辨率的同時(shí)畫面又不會(huì)產(chǎn)生明顯的模糊和鋸齒(圖6)。
其次則是結(jié)合神經(jīng)網(wǎng)絡(luò)的插幀技術(shù)。它也是先構(gòu)建了一個(gè)可以感知視頻運(yùn)動(dòng)加速度的網(wǎng)絡(luò)模型,該模型會(huì)先通過大量的數(shù)據(jù)訓(xùn)練來感知物體運(yùn)動(dòng)軌跡,并在其中加入中間幀,從而提升幀速率讓視頻播放變得更為流暢。以拋橄欖球的運(yùn)動(dòng)視頻為例,它的運(yùn)動(dòng)軌跡是一條拋物線,如果拍攝時(shí)視頻的幀速率較低,那么在播放時(shí)是看不到球體運(yùn)動(dòng)的拋物線?,F(xiàn)在結(jié)合神經(jīng)網(wǎng)絡(luò)就可以先計(jì)算出拋橄欖球運(yùn)動(dòng)的實(shí)際路徑,然后在原視幀拋物線路徑中間添加新幀,這樣增加幀數(shù)后視頻播放會(huì)更流暢,而且畫面不會(huì)有任何違和感(圖7)。
這次網(wǎng)友通過神經(jīng)網(wǎng)絡(luò)計(jì)算出原來電影中火車的運(yùn)動(dòng)軌跡,然后通過插幀技術(shù)將原來老電影的幀速率從20FPS提高了60FPS,再結(jié)合上述分辨率的提升,實(shí)現(xiàn)老電影變身。其畫面流暢度和清晰度幾乎可以與現(xiàn)在主流智能手機(jī)拍攝的視頻相媲美,比如現(xiàn)在iPhone 11最高也只支持拍攝4K/60FPS的視頻。
如上所述,借助神經(jīng)網(wǎng)絡(luò)我們可以對圖片和視頻進(jìn)行分辨率和幀速率的提升。這些技術(shù)可以用在生活中的很多方面,比如我們可以使用它來提升老照片的清晰度,比如將抽屜里那些原來用傻瓜機(jī)拍攝的照片、保存時(shí)間比較久遠(yuǎn)的黑白模糊照片等,都可以掃描到電腦中,處理成為更加清晰的數(shù)碼記憶。
當(dāng)然我們也可以用神經(jīng)網(wǎng)絡(luò)來處理視頻,比如華為Mate 30 Pro就可以將960FPS的視頻插幀生成7680FPS的慢動(dòng)作視頻,在官方展示的視頻中完美地演示一滴水從高處落到杯中并濺出水花的整個(gè)過程(圖8)。它借助的正是手機(jī)內(nèi)置的神經(jīng)網(wǎng)絡(luò)技術(shù)。