深圳廣播電影電視集團(tuán) 廣東 深圳 518026
廣電行業(yè)擁有大量的老舊媒體資源等珍貴的影視資料,比如1906年大地震前的舊金山影像、100多年前北京晚清的集市影像等,這些老舊影片不僅僅記錄了當(dāng)時(shí)的真實(shí)景象,更記錄了當(dāng)時(shí)的風(fēng)土人情等珍貴信息,為了更好的將他們展示給大眾,近年來廣電行業(yè)一直在專注研究老舊影片的AI修復(fù)技術(shù)。
AI修復(fù)包含很多步驟,比如超分辨率、消除噪聲、增強(qiáng)對(duì)比度、智能著色等,目標(biāo)是為了使老舊影片的視頻狀態(tài)恢復(fù)到原始甚至更優(yōu)的狀態(tài),因?yàn)樘囟〞r(shí)代的技術(shù)發(fā)展限制,相當(dāng)大量的老舊影片是黑白影片,或者是色彩質(zhì)量較低的低質(zhì)彩色影片,為了更好的呈現(xiàn)效果,智能著色在AI修復(fù)技術(shù)中起到了相當(dāng)重要的作用。
圖像超分辨率就是通過信號(hào)處理的方法,對(duì)圖像截止頻率之外的信號(hào)高頻成分來估計(jì),提高圖像的空間分辨率。應(yīng)用角度分為單圖的超分辨率和多圖的超分辨率兩種,相關(guān)技術(shù)大致包含定參數(shù)的線性濾波器技術(shù)、圖像邊緣結(jié)構(gòu)技術(shù)、圖像重構(gòu)約束技術(shù)、機(jī)器學(xué)習(xí)技術(shù)等,圖像超分辨率技術(shù)作為圖像的后處理技術(shù),可改善圖像離散化,退化引起的分辨率下降,彌補(bǔ)原有分辨率不足的問題,發(fā)掘原圖像數(shù)據(jù)的多角度、多時(shí)相等潛力。目前已有相對(duì)成熟的相關(guān)技術(shù),如上海交大提出的開源DAIN插幀技術(shù),日本筑波大學(xué)和早稻田大學(xué)的兩位研究者合作提出的Deep-Remaster技術(shù)等。
本文重點(diǎn)研究Deep Remaster技術(shù)在視頻的智能修復(fù)過程中的應(yīng)用,區(qū)別于遞歸模型處理視頻的方法,DeepRemaster是利用全卷積網(wǎng)絡(luò)來實(shí)現(xiàn)對(duì)老舊影像的修復(fù)。在這項(xiàng)技術(shù)中,利用單一框架以半交互的方式處理所有修復(fù)任務(wù),該框架基于帶有注意力機(jī)制的時(shí)間卷積神經(jīng)網(wǎng)絡(luò),在視頻上訓(xùn)練注意力機(jī)制(即source-reference),這種注意力允許模型處理任意數(shù)量的彩色參考圖像,在不需要分割的情況下給長(zhǎng)視頻著色,同時(shí)保持時(shí)間一致性,與之前的方法相比,該方法的性能隨著視頻長(zhǎng)度和彩色參考圖像數(shù)量的增長(zhǎng)而增長(zhǎng),尤其適用于廣電行業(yè)。
在上圖模型中的輸入端輸入多張黑白圖像,經(jīng)過時(shí)間卷積網(wǎng)絡(luò)和空間卷積網(wǎng)絡(luò)的預(yù)處理,綜合Source-Reference注意力機(jī)制與Self-Reference注意力機(jī)制的深度訓(xùn)練后,與參考彩色圖像的空間卷積處理結(jié)果一起結(jié)合,即深度訓(xùn)練結(jié)果結(jié)合任意數(shù)量的彩色圖像來生成最終的色度信道,這一網(wǎng)絡(luò)修復(fù)過程中,Source-Reference注意力機(jī)制允許模型再給視頻上色時(shí),參考彩色圖像(Reference Images)中的相似區(qū)域,模型輸出部分就是輸入視頻重制后的版本?;谶f歸的卷積神經(jīng)網(wǎng)絡(luò),在傳播信息時(shí),通常是逐幀傳播,不能進(jìn)行并行處理,并形成依賴關(guān)系。因此,在參考彩色圖像時(shí),圖像會(huì)反復(fù)重新開始,這樣時(shí)間上的相關(guān)性就會(huì)丟失。而基于Source-Reference注意力機(jī)制的卷積神經(jīng)網(wǎng)絡(luò)在處理任何幀時(shí)能夠并行使用所有的參考信息。
對(duì)比以往的方法,Deep Remaster技術(shù)利用source-reference注意力機(jī)制,可以達(dá)到使用極少量參考圖像就能獲得高效、穩(wěn)定、一致的數(shù)千幀圖圖像。如上圖可見,圖a)中的原始圖像失真度極高,經(jīng)過以往的方法進(jìn)行網(wǎng)絡(luò)修復(fù)效果不是特別顯著,圖像的噪點(diǎn)還是非常高,但通過Deep-Remaster技術(shù)修復(fù)后,無論從噪聲噪聲處理方面,還是從著色處理方面,DeepRemaster技術(shù)重制的圖像c)更貼近真實(shí)世界的色彩,同時(shí)也能更好的處理多種類型噪聲,對(duì)輸入圖像進(jìn)行相當(dāng)高程度的銳化,實(shí)現(xiàn)高保真的狀態(tài)。
DeepRemaster技術(shù)本身也是有瓶頸的,不能所有視頻都直接套用,對(duì)于動(dòng)作劇烈,或者人臉較多的場(chǎng)景使用起來會(huì)出現(xiàn)畫面抖動(dòng)或邊緣不平滑的現(xiàn)象,它更適用于那些畫面干凈或平移的場(chǎng)景,比如老北京街上的二胡表演視頻等。
對(duì)老舊影片修復(fù)除了視頻方面,還涉及到音頻方面的修復(fù)??梢圆捎肁E或PR里的去噪功能,系統(tǒng)需要先訓(xùn)練學(xué)習(xí)一小段噪音波形,訓(xùn)練完成后會(huì)自動(dòng)將輸入音頻內(nèi)的噪音部分消除,但因?yàn)槿ピ胫饕槍?duì)低頻聲音,處理完成的音頻整體效果比較單調(diào),所以還要在去噪后加入混響,讓音頻聽起來更貼近生活,更自然。
在老舊影片的AI修復(fù)研究上,技術(shù)不斷革新,工程師們不斷探索,旨在將我們所“經(jīng)過”的,未見過的世界重新展現(xiàn)在我們眼前,拉近我們與先輩的距離,更清晰的了解“現(xiàn)在”的來歷。