謝 韻 曾可依 李 秀
清華大學(xué)深圳國際研究院,深圳 518000
數(shù)字人是一種通過計算機技術(shù)模擬和復(fù)制人類構(gòu)造、形態(tài)和行為的虛擬實體。隨著科技的不斷進步和創(chuàng)新,電影制作團隊能夠利用數(shù)字人技術(shù)為觀眾呈現(xiàn)出更加逼真和震撼的視覺效果。這種技術(shù)的飛速發(fā)展為電影行業(yè)帶來了無限的可能性,許多優(yōu)秀的電影作品都運用了數(shù)字人技術(shù),使歷史人物、虛構(gòu)角色和神奇生物在銀幕上栩栩如生。比如,詹姆斯·卡梅隆執(zhí)導(dǎo)的科幻巨作《阿凡達:水之道》就采用了先進的數(shù)字人技術(shù),將人類與納美族的虛構(gòu)世界相融合,為觀眾提供了逼真的視覺享受?!稄?fù)仇者聯(lián)盟4:終局之戰(zhàn)》這部漫威超級英雄大片則利用數(shù)字人技術(shù)成功實現(xiàn)了許多角色的復(fù)刻和重塑,使觀眾能夠看到年輕版的托尼·斯塔克、史蒂夫·羅杰斯和索爾·奧丁森等角色,這些數(shù)字人角色與真實演員的表演無縫銜接,為電影增添了情感沖擊和戲劇張力。
2012 年深度學(xué)習(xí)(DL)技術(shù)進入大眾視野,數(shù)字人產(chǎn)業(yè)從費用高且耗時較長的動畫制作開始逐步向人工智能(AI)制作過渡,大幅降低了數(shù)字人的制作成本并提升了制作效率。在人工智能生成內(nèi)容(AIGC)技術(shù)的有力賦能下,虛擬數(shù)字人作為多個跨領(lǐng)域技術(shù)的集成體,在顯著提升電影制作效能與質(zhì)量的同時,為往后的應(yīng)用發(fā)展提供了更多的可能性。
真人數(shù)字替身和虛擬創(chuàng)造角色是數(shù)字人發(fā)展的兩個階段。真人數(shù)字替身利用數(shù)字技術(shù)代替真實演員進行場景拍攝,而虛擬創(chuàng)造角色是完全由計算機程序生成的數(shù)字人。隨著技術(shù)的發(fā)展,真人數(shù)字替身和虛擬創(chuàng)造角色的制作精度與技術(shù)不斷提升,為電影創(chuàng)作提供了更廣闊的創(chuàng)作空間,也使數(shù)字人的表演更加逼真。
真人數(shù)字替身是數(shù)字人發(fā)展的早期類型,替身是指利用數(shù)字技術(shù)制作的人物,代替真實演員出現(xiàn)在電影中。傳統(tǒng)的電影拍攝由于涉及到武打爆炸與特效等危險性較大的情節(jié)設(shè)計,往往會采用數(shù)字替身的形式降低風(fēng)險與成本。數(shù)字替身最早可追溯到1985年的電影《少年福爾摩斯》,工業(yè)光魔公司(ILM)創(chuàng)造了電影史上第一個CG 角色,通過對騎士的數(shù)字替身制作實現(xiàn)了戰(zhàn)斗的鏡頭。1997 年,電影《泰坦尼克號》的水下場景首次使用了完全由計算機技術(shù)制造的數(shù)字替身演員,使得水下片段更真實、震撼。
通過掃描真實演員構(gòu)建對應(yīng)的數(shù)字人替身是電影工業(yè)中的常用做法,電影制作公司通過光臺拍攝獲得高保真的三維采集重建演員形象,通過模擬環(huán)境光、膚色重建、面部綁定等將真實演員的形象數(shù)字化,再將數(shù)字形象與實際演員的表演結(jié)合在一起,實現(xiàn)數(shù)字替身進行拍攝的效果,從而規(guī)避很多電影無法避免的拍攝挑戰(zhàn),如時間進度、拍攝難度、影片質(zhì)量等[1]。
當(dāng)電影全面進入數(shù)字時代后,數(shù)字替身便進入了以二維圖像換臉與三維動作捕捉換臉的階段。例如,電影《速度與激情7》中的主演保羅·沃克在影片拍攝過程中遭遇嚴(yán)重車禍不幸去世,為了保證電影的順利制作,劇組選擇了二維數(shù)字圖像換臉技術(shù),通過保羅·沃克生前存留的影像資料及其弟弟的替身表演完成了最終拍攝。而數(shù)字替身在三維動作捕捉換臉技術(shù)的應(yīng)用則更為廣泛,無論是《雙子殺手》中角色與自身克隆體遭遇的場景,亦或是突破年齡限制、出演不同年齡段的同一角色的電影《銀翼殺手2049》《金剛狼3:殊死一戰(zhàn)》等,三維動作捕捉換臉技術(shù)讓真人數(shù)字替身的演出更為精湛逼真,也為導(dǎo)演提供了更多的創(chuàng)作空間。
隨著技術(shù)的發(fā)展,真人數(shù)字替身技術(shù)的制作成本及實現(xiàn)效果都獲得了顯著優(yōu)化。早在2008 年,為電影《本杰明·巴頓奇事》制作特效的特效公司就已經(jīng)運用面部捕捉技術(shù)將主角的表演與3D 數(shù)字模型結(jié)合,實現(xiàn)了讓主角跨越老年、中年、青少年和嬰兒四個人生階段的“返老還童”般演繹,并斬獲了2009年奧斯卡最佳視覺效果獎。2019 年奧斯卡最佳影片《綠皮書》中主角彈奏鋼琴鏡頭的拍攝也是通過替身鋼琴師與AI換臉技術(shù)進行后期合成。
在技術(shù)優(yōu)化上,AI 深度合成技術(shù)門檻正在不斷降低,該類技術(shù)的發(fā)展迭代為系列電影中保持演員外觀不變的難題提供了解決方案。漫威電影《蜘蛛俠:英雄無歸》中就利用AI換臉合成技術(shù)讓章魚博士和綠魔看起來更年輕;《愛爾蘭人》里羅伯特·德尼羅、阿爾·帕西諾和喬·佩西三位年逾七旬演員實現(xiàn)了無痕減齡扮演年輕版的自己。繼2020 年發(fā)布高分辨率版本Deepfake 工具后[2],迪士尼近期又發(fā)布了首個可適用于真實場景、自動化的AI 視頻人臉處理模型FRAN(Face Re-Aging Network)[3],該模型進一步提升了AI 改變演員外貌視覺效果的能力。FRAN 能夠使用數(shù)據(jù)信息來預(yù)測真人演員面部會老化的區(qū)域,以及實現(xiàn)將皺紋和下巴疊加到既有視頻片段上,或者從既有畫面的人物臉上刪除皺紋。FRAN 算法的出現(xiàn)為數(shù)字替身的使用擴展了創(chuàng)作空間。
在實時反饋上,英國生成式AI 代表公司Metaphysic 提出了Metaphysic Live 產(chǎn)品,該產(chǎn)品能夠在演員現(xiàn)場表演的基礎(chǔ)上實時創(chuàng)建高分辨率、逼真的換臉和去老化效果,無需進一步合成或視效(VFX)工作,并能夠以30FPS 的速度將AI 生成的逼真內(nèi)容流傳輸?shù)浆F(xiàn)實世界場景。電影《Here》就是通過AIGC快速實時展現(xiàn)現(xiàn)場演員表演驅(qū)動的超真實換臉和去老化技術(shù),讓導(dǎo)演、演員和制片人得以實時查看并調(diào)整表演,極大地縮短了影片制作周期,同樣的減齡工作在2019年的《雙子殺手》中曾花去制作公司兩年的時間。
虛擬創(chuàng)造角色是數(shù)字人發(fā)展的中期類型,它們是指完全由計算機程序生成的數(shù)字人,沒有實際的物理形體與現(xiàn)實身份,只存在于計算機的虛擬空間中。CG技術(shù)的發(fā)展讓數(shù)字人不再局限于真人演員的生物模型,而是可以通過藝術(shù)家創(chuàng)造和計算機合成等形式創(chuàng)造出無法在電影中進行實拍的人物及生物。
早期的虛擬創(chuàng)造角色可以追溯到1989 年詹姆斯·卡梅隆的《深淵》,該影片中外星智慧生物操控水柱運動到男女主角面前,水柱呈現(xiàn)出了與男女主角一樣的面容。2001 年,彼得·杰克遜的《指環(huán)王1:護戒使者》創(chuàng)造了一個具有里程碑意義的虛擬創(chuàng)造角色咕嚕姆。后來,維塔數(shù)碼推出“金剛”和《猩球崛起》系列中的“凱撒”等虛擬角色形象。2006 年,電影特效公司工業(yè)光魔在《加勒比海盜2:亡靈的寶藏》里創(chuàng)造了一位會彈管風(fēng)琴的章魚船長,徹底開啟了虛擬創(chuàng)造角色在電影制作中的應(yīng)用。
動作捕捉技術(shù)的發(fā)展讓虛擬創(chuàng)造角色在電影制作中更顯自然。2001 年,由游戲衍生的科幻電影《最終幻想:靈魂深處》作為動作捕捉史上的一部標(biāo)桿性作品,不僅女主角Aki的全程動畫都由動作捕捉技術(shù)進行驅(qū)動,同時也讓她擁有了一頭纖毫畢現(xiàn)、輕柔飄逸的頭發(fā),這是虛擬創(chuàng)造角色首次實現(xiàn)毛發(fā)在CG 世界里甩動、旋轉(zhuǎn),并對其進行光線動態(tài)處理。2004年,執(zhí)導(dǎo)過《阿甘正傳》的羅伯特·澤米吉斯拍攝了好萊塢第一部全真人CG 電影《極地特快》,奧斯卡影帝湯姆·漢克斯在影片中先后飾演了包括圣誕老人在內(nèi)的6個虛擬數(shù)字角色,所有的數(shù)字人動畫均由動作捕捉技術(shù)實現(xiàn)。
在AI 技術(shù)的加持下,虛擬創(chuàng)造角色無論在制作精度上還是在效果呈現(xiàn)上都有了飛速提升。2019年《阿麗塔:戰(zhàn)斗天使》影片的主角阿麗塔就是第一位完全采用數(shù)字人技術(shù)制作的超高精度角色。工程師們?yōu)榱藢崿F(xiàn)阿麗塔臉上細小絨毛的自然毛發(fā)效果,利用AI算法設(shè)計了全新的毛孔生長技術(shù),使阿麗塔擁有超寫實的數(shù)字人形象。在驅(qū)動方面,《阿麗塔:戰(zhàn)斗天使》將動作捕捉升級到了“表演捕捉”,維塔工作室通過演員“羅莎·薩拉查——CG 羅莎·薩拉查——阿麗塔”的流程重定向表演,讓阿麗塔的面部表情追蹤更能真實帶入表達演員的情感和表演。同樣,在《復(fù)仇者聯(lián)盟3:無限戰(zhàn)爭》中,迪士尼使用了AI算法對演員的臉部進行高分辨率掃描,并自動將人臉圖像映射到滅霸的身體上,使滅霸能夠展現(xiàn)出逼真擬人化的表演。在《阿凡達:水之道》中,維塔工作室開發(fā)出了全新的APFS 系統(tǒng)(Anatomically Plausible Facial System)為虛擬創(chuàng)造角色的表演提升了質(zhì)量。這個系統(tǒng)在輔助工作人員繪制面部動畫的同時,還會收集大量的面部掃描數(shù)據(jù)以用于之后的神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練,通過AI深度學(xué)習(xí)模型與算法,學(xué)習(xí)演員的潛在肌肉行為,快速輔助納美人的面部動畫生成,并結(jié)合納美人的獨特外形修復(fù)彌補牙齒和頭骨解剖的偏差[4]。
高成本投入和較長的制作周期一直是數(shù)字人在電影制作中面臨的兩大挑戰(zhàn)。傳統(tǒng)的數(shù)字人生產(chǎn)流程幾乎全部依賴人工實現(xiàn),從人物建模到動畫制作再到語音合成,各個環(huán)節(jié)都需要大量的時間成本和人力投入。而隨著生成算法、預(yù)訓(xùn)練模型和多模態(tài)等技術(shù)的不斷創(chuàng)新,AIGC 的發(fā)展大幅加速數(shù)字人的生產(chǎn)流程,并顯著降低數(shù)字人的制作成本,極大提高數(shù)字人的制作效能。
數(shù)字人生產(chǎn)制作流程主要可分成三個板塊,分別為形象生成、語音合成、動畫驅(qū)動。在AIGC 技術(shù)的加持下,形象生成可利用算法模型快速生成高精度的數(shù)字人形象,語音合成能夠利用語音轉(zhuǎn)換等技術(shù)生成逼真的語音表達,動畫驅(qū)動則可利用深度學(xué)習(xí)模型驅(qū)動數(shù)字人的表情和動作。
(1)數(shù)字人形象的智能化生成
傳統(tǒng)的寫實數(shù)字人生成過程依賴于設(shè)計師使用諸如Maya、3ds Max 和CAD 等3D 建模軟件手動創(chuàng)建人體的三維模型。然而,由于這些軟件的學(xué)習(xí)成本高且建模效率低,很難快速批量生成數(shù)字人形象。
隨著AI 生成算法的提速迭代,針對寫實虛擬人的形象生成,現(xiàn)階段出現(xiàn)了兩種主要的模型生成方式:第一種是基于圖像和視頻的生成,已經(jīng)初步實現(xiàn)產(chǎn)品化,并能夠達到次時代游戲人物的精度水平。用戶可以通過上傳照片或視頻來生成寫實類型的數(shù)字人。這種生成方式的代表性應(yīng)用有英偉達的Omniverse Avatar 和Unreal Engine 的MetaHuman Creator,用戶可以通過自定義方式快速生成對應(yīng)的數(shù)字人形象。第二種方式是基于參數(shù)化模型進行數(shù)字人生成,此領(lǐng)域也是近年來學(xué)術(shù)界的研究熱點。該類方法通過參數(shù)化模型將原本復(fù)雜的數(shù)字人空間解耦,將數(shù)字人抽象為規(guī)則約束下一定數(shù)目的參數(shù),這也是近年來學(xué)術(shù)界的研究熱點。
基于圖片和視頻的數(shù)字人形象生成已經(jīng)具備較為成熟的制作流程。以MetaHuman Creator 為例,它是基于云端的在線編輯器,可以選擇混合取樣庫中的元素或自定義建模來實現(xiàn)所需的結(jié)果。根據(jù)圖片生成寫實數(shù)字人的過程從圍繞真實人物進行拍照開始,通過多張臉部拍攝照片,將其導(dǎo)入RealityCapture等軟件中生成高質(zhì)量的網(wǎng)格體和貼圖。接下來再通過將網(wǎng)格體導(dǎo)入Unreal Engine 中進行面部標(biāo)記幀追蹤,并運行身份解析,將模型的網(wǎng)格體提交到Meta-Human 后端,即可快速生成對應(yīng)的人物模型。此外,還可以在MetaHuman Creator 中繼續(xù)編輯數(shù)字人的皮膚、眼睛等五官細節(jié)和服裝、發(fā)型、身材比例等。
而基于參數(shù)化模型的數(shù)字人生成也是AIGC 在數(shù)字人建模領(lǐng)域的研究熱點。該類方法的思路是通過大型真實人體掃描模型數(shù)據(jù)庫,學(xué)習(xí)人體結(jié)構(gòu)的共性,構(gòu)建統(tǒng)一的參數(shù)化模型,將原本復(fù)雜的人體網(wǎng)格空間解耦為有限的參數(shù)表達。這些參數(shù)覆蓋了身高、體型、肌肉定義、臉部特征等人體信息,通過調(diào)整這些參數(shù)的數(shù)值,可以實現(xiàn)對人體模型的變形和定制。2015 年基于線性的混合模型SMPL[5]實現(xiàn)了通過少量的參數(shù)來表示和改變?nèi)梭w的姿勢和形狀。SMPL-X[6]在其基礎(chǔ)上引入了人臉和手勢的參數(shù)化表示,該類參數(shù)化模型被廣泛應(yīng)用于ICON[7]等人體重建任務(wù)中。除了真實人體外,RaBit[8]模型對卡通人物的參數(shù)化模型進行了探索,可通過更改參數(shù)得到卡通人、熊、兔子等多種卡通生物的個性化3D 模型,其提出的SVR 方法可以通過單張卡通圖片重建得到相同模樣與姿勢的卡通模型。
(2)數(shù)字人語音的智能化合成
高自然度和個性化語音合成也是數(shù)字人制作中的重要模塊,相較于數(shù)字人生產(chǎn)的其他板塊,語音AI合成技術(shù)已進入成熟期,現(xiàn)被廣泛應(yīng)用于廣播電視、網(wǎng)絡(luò)視聽等多個領(lǐng)域。語音合成技術(shù)是AIGC 領(lǐng)域中的重要分支之一,能夠快速將文本轉(zhuǎn)化為音頻,使計算機實時自動生成高質(zhì)量的語音音頻。
2016 年谷歌提出WaveNet[9],其利用膨脹因果卷積解決語音的大跨度時間依賴問題,使得模型能在短時間內(nèi)完成高質(zhì)量語音合成。2017 年,在WaveNet 基礎(chǔ)上,谷歌提出首個端到端的TTS 語音合成模型Tacotron[10],并于2018 年發(fā)布Tacotron 2。Tacotron 2 由聲譜預(yù)測網(wǎng)絡(luò)和聲碼器組成,其中聲譜預(yù)測網(wǎng)絡(luò)將輸入的字符序列映射為梅爾頻譜的幀序列,聲碼器則負責(zé)將預(yù)測得到的梅爾頻譜幀序列還原為波形[11]。2019 年,浙江大學(xué)聯(lián)合微軟提出Fast-Speech 模型[12],F(xiàn)astSpeech 是一個非回歸模型,較于之前的自回歸TTS 模型,其具有更快的生成速度和更好的語音質(zhì)量,一年后FastSpeech 2 發(fā)布,能直接從文本生成預(yù)測音頻波形,且訓(xùn)練速度達到Fast-Speech 的3 倍[13]。近年來,語音合成任務(wù)開始轉(zhuǎn)向表現(xiàn)力語音合成(Expressive TTS),相比TTS,其更關(guān)注如何合成語音的風(fēng)格、韻律、情感等。由于該類訓(xùn)練所需的標(biāo)注數(shù)據(jù)較少,因此此類方法通常采用無監(jiān)督學(xué)習(xí)方式,從參考音頻中解耦出情感和韻律特征,然后將這種特征與文本向量結(jié)合,實現(xiàn)風(fēng)格可控化[14][15]。
(3)數(shù)字人動畫的智能化驅(qū)動
除了外形表現(xiàn),身體動作的自然性和面部表情的靈活性對于虛擬人的真實感至關(guān)重要。與虛擬人形象生成不同,動畫驅(qū)動數(shù)字人不僅需要具備流暢性、真實感,還對交互反饋的實時性有一定要求,該類動畫制作復(fù)雜,短短幾分鐘的動畫便需要一個經(jīng)驗豐富的動畫師花費幾小時。而隨著AIGC 技術(shù)的發(fā)展與應(yīng)用,迭代更新后AI 算法已經(jīng)可以生成符合人體運動學(xué)的動作和表情。
真人驅(qū)動依賴動作捕捉技術(shù)。動作捕捉技術(shù)可分為慣性式動作捕捉、光學(xué)式動作捕捉及基于視頻的動作捕捉三類。業(yè)內(nèi)通常采用光學(xué)式動作捕捉,利用攝像機陣列和傳感器來記錄和跟蹤人體的運動數(shù)據(jù),但該類方法成本較高,讓不少人望而卻步。隨著AIGC 技術(shù)的發(fā)展,基于視頻的低成本動作捕捉技術(shù)越發(fā)成熟。Zhang提出的實時面部捕捉系統(tǒng)能利用固定的數(shù)字人頭部結(jié)合輸入的任意視角的人臉視頻實現(xiàn)精細到微表情級別的人臉視頻輸出[16]。而DeepMotion等基于視頻的全身動作捕捉應(yīng)用的出現(xiàn)使得全身動作捕捉門檻大大降低,用戶上傳的視頻通過姿態(tài)估計等AI算法計算出視頻中人體的全局位置及關(guān)節(jié)旋轉(zhuǎn)信息,從而得到一段與視頻對應(yīng)的骨骼動畫序列。
隨著動作捕捉技術(shù)和視頻內(nèi)容數(shù)據(jù)的豐富,動作數(shù)據(jù)的積累變得更加簡單,這為AI 算法驅(qū)動數(shù)字人動畫提供了龐大的數(shù)據(jù)基礎(chǔ)。目前AI算法驅(qū)動的數(shù)字人主要是通過文本、音樂和視頻的形式跨模態(tài)生成數(shù)字人動畫,根據(jù)生成內(nèi)容也分為三個方向:唇部動畫生成、面部動畫生成與身體動作生成。
唇部動畫根據(jù)輸入的不同,可分為文本驅(qū)動和語音驅(qū)動。無論是文本特征或是語音特征,在指定語言限制下其與唇部運動之間是一對一的簡單映射關(guān)系,這種映射關(guān)系易從數(shù)據(jù)中學(xué)習(xí)到,相對簡單,目前該類模型在行業(yè)內(nèi)已經(jīng)廣泛應(yīng)用。
面部動畫生成主要是通過對3D 模型對應(yīng)的Blendshape 的向量表達。截至目前,國內(nèi)外科技企業(yè)在數(shù)字人面部動畫智能合成方面都有一定進展,國際上如Reallusion 公司研究的利用語音生成面部表情的Craytalk 技術(shù)已在動畫制作中被成功商用,國內(nèi)搜狗、相芯科技等公司也有部分項目落地應(yīng)用。
動作生成主要指由動作序列或文本、音樂、視頻等跨模態(tài)信息驅(qū)動生成的骨骼動畫。這類輸入與骨骼動畫之間都是多對多的映射關(guān)系,同一個輸入對應(yīng)真實空間可能包含各種各樣的肢體動作,這給3D化身動畫提出了兩大挑戰(zhàn):個性化動作生成和可控制的動作生成。以文本驅(qū)動為例,用戶通過給定文本腳本生成身體動作,需要對輸入文本進行特征提取,再利用提取到的文本特征指導(dǎo)動作生成模塊工作。人體動作生成擴散模型(Human Motion Diffusion Model)[17]利用CLIP提取文本描述特征,結(jié)合擴散模型生成動作序列,而Action-GPT[18]則基于GPT-3 的架構(gòu),采用了自回歸的方式生成動作序列,通過生成細粒度高的動作描述指導(dǎo)解碼器生成動作。上述模型都得到了較好的短時動作生成效果,但生成長時動作序列時易出現(xiàn)動作凍結(jié)、動作模糊等情況,離落地應(yīng)用還有一段距離。
在AIGC 技術(shù)支撐下,數(shù)字人的批量化生成和智能化交互為其在電影制作中的應(yīng)用發(fā)展提供了更多可能性。
隨著數(shù)字人制作流程的優(yōu)化加強,這類數(shù)字資產(chǎn)的生產(chǎn)必將變得成本更低且更加高效[19]。利用批量化生成替代真人背景演員是數(shù)字人在電影制作中一個可行的發(fā)展方向。首先,相比于真實演員,生成的虛擬數(shù)字人具有高靈活性和高可控性,可以根據(jù)導(dǎo)演需求進行實時調(diào)整和控制。他們可以在不同的場景和角色之間快速切換,無需擔(dān)心時間限制或合同問題。而制作人員可以根據(jù)具體需要隨時調(diào)整虛擬數(shù)字人的數(shù)量、外貌和動作,以實現(xiàn)更好的視覺效果。其次,虛擬數(shù)字人完美解決了與真實演員相關(guān)的人力資源管理問題,減輕管理和協(xié)調(diào)工作,且具有額外的保密性優(yōu)勢,可以避免潛在的信息泄露問題。
同時,愈加智能化的“獨化數(shù)字人”也成為繼真人數(shù)字替身、虛擬創(chuàng)造角色后數(shù)字人在電影制作中新的發(fā)展階段。獨化數(shù)字人指的是具有完整的人格和意識,擁有自主思考和行動能力的數(shù)字人,它們具有人類的智慧和意識,能夠自主思考、學(xué)習(xí)和行動,它們具備智能體(Agent),依托于先進的人工智能技術(shù),例如深度學(xué)習(xí)(DL)、自然語言處理(NLP)、神經(jīng)網(wǎng)絡(luò)等[20]。在交互性更強的“引擎電影”以及在傳統(tǒng)電影技術(shù)的持續(xù)深挖中,計算機驅(qū)動數(shù)字人應(yīng)用嘗試逐漸增多已成事實。
早期的獨化數(shù)字人概念主要存在于元宇宙電影中,它們體現(xiàn)了導(dǎo)演對于人工智能技術(shù)在未來與人類關(guān)系的一切遐想,《銀翼殺手》《終結(jié)者》《我,機器人》中均出現(xiàn)了具有獨立意識的數(shù)字人。隨著自然語言處理(NLP)、多模態(tài)轉(zhuǎn)化等領(lǐng)域的不斷突破,數(shù)字人的智能化得到顯著提升,獨化數(shù)字人不再以單純的概念存在于電影內(nèi)容中,而是以真實形象出現(xiàn)在現(xiàn)實世界里。
以曾出品獲得奧斯卡提名的《至愛梵高·星空之謎》的Bondit Media Capital 公司投資拍攝的科幻電影《b》為例,由日本AI 機器人Erica 擔(dān)任主演,開發(fā)團隊為Erica 進行了電影演技培訓(xùn)。Erica 在片中本色出演AI 機器人,突破傳統(tǒng)以特效制作機器人的拍攝模式,引起了國內(nèi)外觀眾的關(guān)注和討論,成為第一部由人工智能擔(dān)任主演的電影。2022 年,一位由北京蔚領(lǐng)時代科技有限公司推出的虛擬數(shù)字人演員春草正式面世,在其背后的AI算法支撐下,春草能夠?qū)θ祟惖闹噶钭龀黾皶r反饋,同時也能在與人類的溝通中不斷學(xué)習(xí)。正如其CEO 宋震在訪談中提到:“春草的定位除了游戲《春草傳》外,導(dǎo)演也可以直接與這位演員互動講戲,然后讓她現(xiàn)場表演?!?/p>
由此觀之,AIGC 技術(shù)為數(shù)字人在電影制作的應(yīng)用帶來了更多可能性,包括批量化生成的虛擬數(shù)字人替代背景演員和智能獨化數(shù)字人的交互應(yīng)用。這些數(shù)字人技術(shù)的進步發(fā)展為電影創(chuàng)作提供了新機遇,也為今后電影行業(yè)的發(fā)展提供了更多創(chuàng)造性與可能性。
數(shù)字人作為電影制作的關(guān)鍵要素,已經(jīng)成為電影敘事過程中不可或缺的重要組成部分。本研究主要介紹了數(shù)字人在電影行業(yè)中的應(yīng)用現(xiàn)狀和未來發(fā)展趨勢,在形象生成、語音合成以及動畫驅(qū)動方面對現(xiàn)有AIGC 技術(shù)進行梳理總結(jié),為電影行業(yè)的數(shù)字人制作效能優(yōu)化流程提供一些參考,并在批量化生成與智能化交互方面,為數(shù)字人對電影行業(yè)的創(chuàng)新變革應(yīng)用提供了一些啟示。
隨著AIGC 技術(shù)的不斷發(fā)展和支持,數(shù)字人的應(yīng)用將超越過去僅僅在特效方面的應(yīng)用,擴展到更廣泛的領(lǐng)域,如自主劇情發(fā)展、實時情感反饋等方面。未來,數(shù)字人的進一步發(fā)展將為電影制作帶來更多創(chuàng)造性和技術(shù)上的突破,豐富電影體驗并引領(lǐng)電影行業(yè)向著新的輝煌時代邁進。