白曉飛
(中國電影資料館,北京100082)
2018年,愛奇藝將人工智能技術(shù)應(yīng)用于視頻畫質(zhì)增強,并推出自主研發(fā)的Zoom AI視頻增強技術(shù),為影片修復(fù)提出一個全新的思路。而2019年上映的《決勝時刻》《開國大典》等電影中的珍貴歷史畫面也紛紛采用了人工智能技術(shù)進(jìn)行修復(fù)。那么到底什么是人工智能技術(shù),它究竟有哪些技術(shù)優(yōu)勢呢?
首先,人工智能是用于研究、開發(fā)用于模擬、延伸和擴展人的智能的理論、方法、技術(shù)及應(yīng)用系統(tǒng)的一門新的技術(shù)科學(xué)。它包括機器學(xué)習(xí)、計算機視覺等不同領(lǐng)域,其主旨是使機器能夠勝任一些通常需要人類智能才能完成的復(fù)雜工作。其中深度學(xué)習(xí)是機器學(xué)習(xí)的一種,作為其分支之一,深度學(xué)習(xí)是基于人工神經(jīng)網(wǎng)絡(luò)對數(shù)據(jù)進(jìn)行特征學(xué)習(xí)的算法。同時我們也可以認(rèn)為深度學(xué)習(xí)的本質(zhì)是基于概率統(tǒng)計,即對沒有處理過的數(shù)據(jù)用概率統(tǒng)計的方法來尋找它的規(guī)律。
在了解了人工智能技術(shù)的概念后,我們來看看他在影片修復(fù)方面有哪些應(yīng)用吧??偨Y(jié)目前市場上已經(jīng)進(jìn)行開發(fā)出的相關(guān)應(yīng)用,大致可分為以下幾個功能:
(1)分辨率增強,即低分辨率視頻轉(zhuǎn)換為高分辨率視頻。
(2)畫面修復(fù),主要包括:降噪、去場、去臟點、去劃痕、去除馬賽克等。
(3)黑白影片上色,將原本的黑白影片變成彩色影片。
(4)提高幀速率,將低幀率影片變?yōu)楦邘l影片。
(5)影片聲音修復(fù)。
分辨率增強即超分辨率問題,就是將一張低分辨率的畫面,通過一個模型計算以后變成一張高分辨率畫面。傳統(tǒng)的圖像超分辨率重建技術(shù)是基于插值法進(jìn)行計算的,即通過某個點周圍若干個已知點的值,以及周圍點和此點的位置關(guān)系,根據(jù)一定的公式,算出此點的值,這就是插值法。但是實際上,通過這些插值算法,提升的圖像細(xì)節(jié)有限,因此需要通過多幅圖像之間的插值算法來進(jìn)行重建。而通過深度學(xué)習(xí)進(jìn)行圖像超分辨率重建的原理,是通過數(shù)據(jù)加訓(xùn)練找到一個模型,去描述其背后的規(guī)律,然后將它應(yīng)用到圖像超分辨率重建領(lǐng)域。首先我們找到一組原始圖像P1,將這組圖片降低分辨率為一組圖像P2,通過人工神經(jīng)網(wǎng)絡(luò),將P2超分辨率重建為 P3 (P3 和 P1 分 辨 率 一 樣 ), 通 過 比 較 P1 與P3,驗證超分辨率重建的效果,根據(jù)效果調(diào)節(jié)人工神經(jīng)網(wǎng)絡(luò)中的節(jié)點模型和參數(shù)。反復(fù)執(zhí)行,直到第四步比較的結(jié)果滿意通過。這項技術(shù)可以把原本的標(biāo)清畫面轉(zhuǎn)換為高清甚至2K 畫面。如中國電影集團參與的 《厲害了,我的國》中,總書記出現(xiàn)的11分42秒內(nèi)容,以及 “蛟龍?zhí)枴薄俺穬S事件”“神舟火箭”等原始標(biāo)清內(nèi)容都是通過這項技術(shù)提升到2K畫面。
圖1 標(biāo)清轉(zhuǎn)2k對比畫面
畫面修復(fù)也是人工智能技術(shù)應(yīng)用較多的方面。在數(shù)字世界中,它指的是應(yīng)用復(fù)雜算法以替代圖像數(shù)據(jù)中缺失或者損壞部分。傳統(tǒng)圖像修復(fù)是基于擴散方法來處理,這種方法將局部結(jié)構(gòu)傳播到位置部分,或者基于示例的方法,每一次構(gòu)建缺失部分的一個像素點同時保持和周圍像素點的一致性。而通過深度學(xué)習(xí)技術(shù),我們可以依賴預(yù)訓(xùn)練人工神經(jīng)網(wǎng)絡(luò)的幻覺來填補圖像中的較大缺失。人工神經(jīng)網(wǎng)絡(luò)使用監(jiān)督圖像分類,在監(jiān)督圖像分類中,每個圖像都有一個特定的標(biāo)簽,并且人工神經(jīng)網(wǎng)絡(luò)通過一連串的基本操作運算來學(xué)習(xí)圖像到標(biāo)簽之間的映射。當(dāng)在巨大的數(shù)據(jù)集 (數(shù)百萬張帶有成千個標(biāo)簽的圖像)上被訓(xùn)練后,人工神經(jīng)網(wǎng)絡(luò)具有卓越的分類表現(xiàn)。在此基礎(chǔ)上,人工神經(jīng)網(wǎng)絡(luò)可以正確地使圖形的形狀完整。人工神經(jīng)網(wǎng)絡(luò)的幻想性和正則化的結(jié)合可以完成有效的圖像恢復(fù)。如來自Nvidia的Guilin Liu等人的團隊,他們發(fā)布了一種可以重建已損壞圖像的深度學(xué)習(xí)方法,即使圖像穿了個 “洞”或丟失了像素也可以恢復(fù)。
圖2 損壞圖像修復(fù)對比
圖3 影片損失樣本
該方法叫做 “image inpainting”,可以在圖片編輯軟件中實現(xiàn)去除不需要的內(nèi)容,同時用計算機生成的逼真的替代方式填補空白。此模型可以很好地處理任何形狀、大小、位置或距離圖像邊界任何距離的空白。以前的深度學(xué)習(xí)方法主要集中在位于圖像中心附近的矩形區(qū)域,并且通常需要依賴成本很高的后期處理,而基于深度學(xué)習(xí)的新模型能夠很好地處理越來越大的空白區(qū)域。為了訓(xùn)練人工神經(jīng)網(wǎng)絡(luò),研究團隊首先生成了55116個隨機色條、形狀和大小任意的蒙版用于訓(xùn)練。此外,他們還生成了25000個圖像用于測試,以保證最終修復(fù)畫面更加完美。又如著名影片修復(fù)軟件Diamant團隊也發(fā)布他們基于深度學(xué)習(xí)技術(shù)的Deep restore項目,該項目基于10000個影片損失訓(xùn)練樣本集,以實現(xiàn)各類影片臟點劃痕的完美修復(fù)。其他諸如去除噪點、場、馬賽克等,基本上都是通過相關(guān)的訓(xùn)練集來讓人工智能可以識別出視頻中瑕疵,再通過圖像重建來將畫面上的問題去除。
影片上色是基于圖像上色的技術(shù)發(fā)展起來的。傳統(tǒng)的圖像上色都是人手工用Photoshop做的,一張圖片要花好幾個月才能完成,需要進(jìn)行大量調(diào)查研究,僅是其中的一張臉就需要多達(dá)20層圖層。但是,基于人工神經(jīng)網(wǎng)絡(luò)的自動著色功能,可以幾秒鐘就實現(xiàn)Photoshop幾個月的效果,而且成效越來越驚人。自動上色的核心技術(shù)是發(fā)現(xiàn)灰度與彩色間的特征。黑白圖像每個像素具有對應(yīng)于其亮度的值,范圍為0―255,從黑色到白色。彩色圖像由三層組成:紅色層、綠色層和藍(lán)色層。直觀地,你可能會認(rèn)為植物只存在于綠色層。但是,實際上綠色的葉子在三個通道中都有。這些層不僅可以確定顏色,還可以確定亮度。為了得到白色這個顏色,需要將所有顏色均勻分布。通過添加等量的紅色和藍(lán)色,綠色會變得更亮。就像黑白圖像一樣,彩色圖像中每個圖層的值也都為0―255。值為0意味著該圖層中沒有顏色。如果所有顏色通道的值都為0,則圖像為黑色。人工神經(jīng)網(wǎng)絡(luò)會創(chuàng)建輸入值和輸出值之間的關(guān)系。更準(zhǔn)確地說,著色任務(wù)實際上就是人工神經(jīng)網(wǎng)絡(luò)需要找到鏈接灰度圖像與彩色圖像的特征。因此,人工智能要尋找的就是將灰度值網(wǎng)格鏈接到三色網(wǎng)格的特征。以上是人工智能給圖像上色的基本原理,但是要是給一段視頻上色,其復(fù)雜度還要更大一點。例如谷歌發(fā)布一段視頻上色的演示里,首先人工智能從彩色視頻里截取某一幀作為參考,再將視頻中所有幀的顏色變成了黑白色,然后僅僅依靠著參考幀的顏色,人工智能就能還原出整段視頻的色彩。不僅如此,人工智能還能自動識別視頻中的人和物體等不同元素。而從轉(zhuǎn)變的結(jié)果來看,最終上色的效果還是很真實的,從人的膚色、動物的毛發(fā)再到景色都得到比較自然的還原。谷歌表示,雖然人工神經(jīng)網(wǎng)絡(luò)在某些方面比較擅長,比如將草坪變成綠色等,但在準(zhǔn)確識別細(xì)小事物等,還需要進(jìn)行改進(jìn)。再如中國電影集團北京影視制作基地也在積極探索對老電影的影片上色,其中運用 “中影·神思”系統(tǒng),對 《馬路天使》一片的經(jīng)典唱詞片段進(jìn)行了上色。其具體做法類似于谷歌,也是先對鏡頭關(guān)鍵幀進(jìn)行手繪上色創(chuàng)作,然后再利用人工智能算法進(jìn)行機器學(xué)習(xí)后完成整段視頻的上色工作。
圖4 上色對比畫面
人工智能目前已經(jīng)可以通過自動增加影片幀頻的技術(shù),來使低幀頻影片播放變得更加平滑。這項技術(shù)也稱為視頻內(nèi)插或者視頻幀率轉(zhuǎn)換,即給定兩個連續(xù)的幀,視頻插值旨在生成中間幀,以形成空間和時間相干的視頻序列。大多已有的方法都集中于單幀插值上,這種方式生成的視頻往往動作很僵硬,并且轉(zhuǎn)向會很突然,不順滑。而使用人工智能可以做到可變長度多幀視頻插值,這種方式生成的視頻過渡自然、順滑,如同真實的動作一樣。通常這涉及兩個步驟:運動估計和像素合成。即將內(nèi)插幀的像素合成視為兩個輸入幀的局部卷積。卷積核捕獲輸入幀之間的局部運動和像素合成的系數(shù),然后采用深度全卷積人工神經(jīng)網(wǎng)絡(luò) (FCN)來估計每個像素的空間自適應(yīng)卷積核。但是這項技術(shù)對于影片修復(fù)有什么意義呢? 我們知道通常電影的幀頻為24幀/秒,之所以采用24幀/秒的幀頻是因為傳統(tǒng)膠片電影技術(shù)所限,高幀頻電影能使電影播放更加順滑,避免畫面抖動等問題,因此提高幀頻對于影片修復(fù)來說有著一定的意義。在實際應(yīng)用中,NVIDIA 技術(shù)團隊通過人工神經(jīng)網(wǎng)絡(luò)每天對超過11000個視頻進(jìn)行訓(xùn)練后,將普通30fps視頻插幀成240fps的視頻。之前絕大部分的插幀技術(shù)都是利用前后幀的關(guān)系生成更多的中間幀,而NVIDIA 則是只利用其中的一幀就可以辦到,不但插幀數(shù)目顯著提高,還能保持圖像不失真,不影響觀看效果。
在聲音修復(fù)方面人工智能目前有兩項比較突出的應(yīng)用,首先人工智能可以通過訓(xùn)練將低分辨率音頻提升為高分辨率音頻。傳統(tǒng)的音頻提升方案是使用音頻剪輯的數(shù)據(jù)庫,憑借相似性指標(biāo)來填充下采樣波形中缺失的頻率。而通過深度學(xué)習(xí)的方法可以使用人工神經(jīng)網(wǎng)絡(luò)來完成原始音頻波形的上采樣。具體方法是通過大量的訓(xùn)練令人工智能學(xué)習(xí)高分辨率音頻的波形特征,然后將低分辨率音頻輸入其中,并重新構(gòu)建音頻波形以生成高分辨率音頻。此外,人工智能還可以通過學(xué)習(xí)為完全無聲的視頻生成一段聲音。該系統(tǒng)被稱為視覺指示聲音系統(tǒng),MIT 計算機科學(xué)和人工智能實驗室開發(fā)。該系統(tǒng)目前能夠?qū)髯訐舸?、刮擦等一系列物體發(fā)出的聲音進(jìn)行分析。此外,它的本領(lǐng)可以延伸至很多其他場景,在未來的版本中可以為電影和電視生成比傳統(tǒng)方法更逼真的聲音效果。其具體訓(xùn)練的方法是,向其輸入包含4.6萬種聲音的1000段視頻,這些聲音是鼓槌在不同堅實度的物體上敲打或劃過而產(chǎn)生的。之后,通過深度學(xué)習(xí)幫計算機在大量數(shù)據(jù)中找到一種模式,對這些聲音進(jìn)行解構(gòu)。為了從無聲視頻片斷中預(yù)測一種新聲音,Vis會查看最可能與每個視頻畫面相關(guān)的音頻屬性,并把這些音頻串在一起編輯成連貫的聲音。目前來看這兩項應(yīng)用對于影片修復(fù)來說都有不小的意義,因為老電影聲音普遍是低分辨率音頻,因此在現(xiàn)代影院中播放效果很差,同時老電影也經(jīng)常會出現(xiàn)音頻缺失、丟失的情況,因此如果未來上述兩項技術(shù)得以實際應(yīng)用的話,必將會對于老電影的聲音修復(fù)產(chǎn)生跨時代的意義。
目前人工智能算法最大的優(yōu)勢是能夠通過訓(xùn)練對數(shù)據(jù)的特征進(jìn)行自動學(xué)習(xí),在算法模型建立過程中盡量減少人為干預(yù)。在影片數(shù)字修復(fù)領(lǐng)域的一些應(yīng)用中,基于深度學(xué)習(xí)的模型算法已經(jīng)超越了原有算法的識別和分類能力。因此對于影片修復(fù)而言,以前很多常規(guī)手段無法修復(fù)的畫面聲音現(xiàn)在可以修復(fù)了,以前需要花費很多人力時間才能完成的工作,現(xiàn)在通通可以交給計算機自動完成了,而相應(yīng)的工作效率也提高。正如中國電影集團北京影視制作基地馬平主任所說那樣,人工智能將會把工作人員從簡單繁重的工作中解放出來,并滿足我們所有的創(chuàng)作需求,未來必將引領(lǐng)影片修復(fù)工作進(jìn)入一個全新的時代。