亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

AIGC 賦能下數(shù)字人在電影中的應(yīng)用概述

2023-11-20 04:19:08曾可依

現(xiàn)代電影技術(shù) 2023年10期

謝韻曾可依李秀

清華大學(xué)深圳國際研究院，深圳 518000

1 引言

數(shù)字人是一種通過計算機技術(shù)模擬和復(fù)制人類構(gòu)造、形態(tài)和行為的虛擬實體。隨著科技的不斷進步和創(chuàng)新，電影制作團隊能夠利用數(shù)字人技術(shù)為觀眾呈現(xiàn)出更加逼真和震撼的視覺效果。這種技術(shù)的飛速發(fā)展為電影行業(yè)帶來了無限的可能性，許多優(yōu)秀的電影作品都運用了數(shù)字人技術(shù)，使歷史人物、虛構(gòu)角色和神奇生物在銀幕上栩栩如生。比如，詹姆斯·卡梅隆執(zhí)導(dǎo)的科幻巨作《阿凡達：水之道》就采用了先進的數(shù)字人技術(shù)，將人類與納美族的虛構(gòu)世界相融合，為觀眾提供了逼真的視覺享受?！稄?fù)仇者聯(lián)盟4：終局之戰(zhàn)》這部漫威超級英雄大片則利用數(shù)字人技術(shù)成功實現(xiàn)了許多角色的復(fù)刻和重塑，使觀眾能夠看到年輕版的托尼·斯塔克、史蒂夫·羅杰斯和索爾·奧丁森等角色，這些數(shù)字人角色與真實演員的表演無縫銜接，為電影增添了情感沖擊和戲劇張力。

2012 年深度學(xué)習(xí)（DL）技術(shù)進入大眾視野，數(shù)字人產(chǎn)業(yè)從費用高且耗時較長的動畫制作開始逐步向人工智能（AI）制作過渡，大幅降低了數(shù)字人的制作成本并提升了制作效率。在人工智能生成內(nèi)容（AIGC）技術(shù)的有力賦能下，虛擬數(shù)字人作為多個跨領(lǐng)域技術(shù)的集成體，在顯著提升電影制作效能與質(zhì)量的同時，為往后的應(yīng)用發(fā)展提供了更多的可能性。

2 數(shù)字人在電影行業(yè)中的應(yīng)用

真人數(shù)字替身和虛擬創(chuàng)造角色是數(shù)字人發(fā)展的兩個階段。真人數(shù)字替身利用數(shù)字技術(shù)代替真實演員進行場景拍攝，而虛擬創(chuàng)造角色是完全由計算機程序生成的數(shù)字人。隨著技術(shù)的發(fā)展，真人數(shù)字替身和虛擬創(chuàng)造角色的制作精度與技術(shù)不斷提升，為電影創(chuàng)作提供了更廣闊的創(chuàng)作空間，也使數(shù)字人的表演更加逼真。

2.1 真人數(shù)字替身

真人數(shù)字替身是數(shù)字人發(fā)展的早期類型，替身是指利用數(shù)字技術(shù)制作的人物，代替真實演員出現(xiàn)在電影中。傳統(tǒng)的電影拍攝由于涉及到武打爆炸與特效等危險性較大的情節(jié)設(shè)計，往往會采用數(shù)字替身的形式降低風(fēng)險與成本。數(shù)字替身最早可追溯到1985年的電影《少年福爾摩斯》，工業(yè)光魔公司（ILM）創(chuàng)造了電影史上第一個CG 角色，通過對騎士的數(shù)字替身制作實現(xiàn)了戰(zhàn)斗的鏡頭。1997 年，電影《泰坦尼克號》的水下場景首次使用了完全由計算機技術(shù)制造的數(shù)字替身演員，使得水下片段更真實、震撼。

通過掃描真實演員構(gòu)建對應(yīng)的數(shù)字人替身是電影工業(yè)中的常用做法，電影制作公司通過光臺拍攝獲得高保真的三維采集重建演員形象，通過模擬環(huán)境光、膚色重建、面部綁定等將真實演員的形象數(shù)字化，再將數(shù)字形象與實際演員的表演結(jié)合在一起，實現(xiàn)數(shù)字替身進行拍攝的效果，從而規(guī)避很多電影無法避免的拍攝挑戰(zhàn)，如時間進度、拍攝難度、影片質(zhì)量等[1]。

當(dāng)電影全面進入數(shù)字時代后，數(shù)字替身便進入了以二維圖像換臉與三維動作捕捉換臉的階段。例如，電影《速度與激情7》中的主演保羅·沃克在影片拍攝過程中遭遇嚴(yán)重車禍不幸去世，為了保證電影的順利制作，劇組選擇了二維數(shù)字圖像換臉技術(shù)，通過保羅·沃克生前存留的影像資料及其弟弟的替身表演完成了最終拍攝。而數(shù)字替身在三維動作捕捉換臉技術(shù)的應(yīng)用則更為廣泛，無論是《雙子殺手》中角色與自身克隆體遭遇的場景，亦或是突破年齡限制、出演不同年齡段的同一角色的電影《銀翼殺手2049》《金剛狼3：殊死一戰(zhàn)》等，三維動作捕捉換臉技術(shù)讓真人數(shù)字替身的演出更為精湛逼真，也為導(dǎo)演提供了更多的創(chuàng)作空間。

隨著技術(shù)的發(fā)展，真人數(shù)字替身技術(shù)的制作成本及實現(xiàn)效果都獲得了顯著優(yōu)化。早在2008 年，為電影《本杰明·巴頓奇事》制作特效的特效公司就已經(jīng)運用面部捕捉技術(shù)將主角的表演與3D 數(shù)字模型結(jié)合，實現(xiàn)了讓主角跨越老年、中年、青少年和嬰兒四個人生階段的“返老還童”般演繹，并斬獲了2009年奧斯卡最佳視覺效果獎。2019 年奧斯卡最佳影片《綠皮書》中主角彈奏鋼琴鏡頭的拍攝也是通過替身鋼琴師與AI換臉技術(shù)進行后期合成。

在技術(shù)優(yōu)化上，AI 深度合成技術(shù)門檻正在不斷降低，該類技術(shù)的發(fā)展迭代為系列電影中保持演員外觀不變的難題提供了解決方案。漫威電影《蜘蛛俠:英雄無歸》中就利用AI換臉合成技術(shù)讓章魚博士和綠魔看起來更年輕;《愛爾蘭人》里羅伯特·德尼羅、阿爾·帕西諾和喬·佩西三位年逾七旬演員實現(xiàn)了無痕減齡扮演年輕版的自己。繼2020 年發(fā)布高分辨率版本Deepfake 工具后[2]，迪士尼近期又發(fā)布了首個可適用于真實場景、自動化的AI 視頻人臉處理模型FRAN（Face Re-Aging Network）[3]，該模型進一步提升了AI 改變演員外貌視覺效果的能力。FRAN 能夠使用數(shù)據(jù)信息來預(yù)測真人演員面部會老化的區(qū)域，以及實現(xiàn)將皺紋和下巴疊加到既有視頻片段上，或者從既有畫面的人物臉上刪除皺紋。FRAN 算法的出現(xiàn)為數(shù)字替身的使用擴展了創(chuàng)作空間。

在實時反饋上，英國生成式AI 代表公司Metaphysic 提出了Metaphysic Live 產(chǎn)品，該產(chǎn)品能夠在演員現(xiàn)場表演的基礎(chǔ)上實時創(chuàng)建高分辨率、逼真的換臉和去老化效果，無需進一步合成或視效（VFX）工作，并能夠以30FPS 的速度將AI 生成的逼真內(nèi)容流傳輸?shù)浆F(xiàn)實世界場景。電影《Here》就是通過AIGC快速實時展現(xiàn)現(xiàn)場演員表演驅(qū)動的超真實換臉和去老化技術(shù)，讓導(dǎo)演、演員和制片人得以實時查看并調(diào)整表演，極大地縮短了影片制作周期，同樣的減齡工作在2019年的《雙子殺手》中曾花去制作公司兩年的時間。

2.2 虛擬創(chuàng)造角色

虛擬創(chuàng)造角色是數(shù)字人發(fā)展的中期類型，它們是指完全由計算機程序生成的數(shù)字人，沒有實際的物理形體與現(xiàn)實身份，只存在于計算機的虛擬空間中。CG技術(shù)的發(fā)展讓數(shù)字人不再局限于真人演員的生物模型，而是可以通過藝術(shù)家創(chuàng)造和計算機合成等形式創(chuàng)造出無法在電影中進行實拍的人物及生物。

早期的虛擬創(chuàng)造角色可以追溯到1989 年詹姆斯·卡梅隆的《深淵》，該影片中外星智慧生物操控水柱運動到男女主角面前，水柱呈現(xiàn)出了與男女主角一樣的面容。2001 年，彼得·杰克遜的《指環(huán)王1：護戒使者》創(chuàng)造了一個具有里程碑意義的虛擬創(chuàng)造角色咕嚕姆。后來，維塔數(shù)碼推出“金剛”和《猩球崛起》系列中的“凱撒”等虛擬角色形象。2006 年，電影特效公司工業(yè)光魔在《加勒比海盜2：亡靈的寶藏》里創(chuàng)造了一位會彈管風(fēng)琴的章魚船長，徹底開啟了虛擬創(chuàng)造角色在電影制作中的應(yīng)用。

動作捕捉技術(shù)的發(fā)展讓虛擬創(chuàng)造角色在電影制作中更顯自然。2001 年，由游戲衍生的科幻電影《最終幻想：靈魂深處》作為動作捕捉史上的一部標(biāo)桿性作品，不僅女主角Aki的全程動畫都由動作捕捉技術(shù)進行驅(qū)動，同時也讓她擁有了一頭纖毫畢現(xiàn)、輕柔飄逸的頭發(fā)，這是虛擬創(chuàng)造角色首次實現(xiàn)毛發(fā)在CG 世界里甩動、旋轉(zhuǎn)，并對其進行光線動態(tài)處理。2004年，執(zhí)導(dǎo)過《阿甘正傳》的羅伯特·澤米吉斯拍攝了好萊塢第一部全真人CG 電影《極地特快》，奧斯卡影帝湯姆·漢克斯在影片中先后飾演了包括圣誕老人在內(nèi)的6個虛擬數(shù)字角色，所有的數(shù)字人動畫均由動作捕捉技術(shù)實現(xiàn)。

在AI 技術(shù)的加持下，虛擬創(chuàng)造角色無論在制作精度上還是在效果呈現(xiàn)上都有了飛速提升。2019年《阿麗塔：戰(zhàn)斗天使》影片的主角阿麗塔就是第一位完全采用數(shù)字人技術(shù)制作的超高精度角色。工程師們?yōu)榱藢崿F(xiàn)阿麗塔臉上細小絨毛的自然毛發(fā)效果，利用AI算法設(shè)計了全新的毛孔生長技術(shù)，使阿麗塔擁有超寫實的數(shù)字人形象。在驅(qū)動方面，《阿麗塔：戰(zhàn)斗天使》將動作捕捉升級到了“表演捕捉”，維塔工作室通過演員“羅莎·薩拉查——CG 羅莎·薩拉查——阿麗塔”的流程重定向表演，讓阿麗塔的面部表情追蹤更能真實帶入表達演員的情感和表演。同樣，在《復(fù)仇者聯(lián)盟3:無限戰(zhàn)爭》中，迪士尼使用了AI算法對演員的臉部進行高分辨率掃描，并自動將人臉圖像映射到滅霸的身體上，使滅霸能夠展現(xiàn)出逼真擬人化的表演。在《阿凡達：水之道》中，維塔工作室開發(fā)出了全新的APFS 系統(tǒng)(Anatomically Plausible Facial System)為虛擬創(chuàng)造角色的表演提升了質(zhì)量。這個系統(tǒng)在輔助工作人員繪制面部動畫的同時，還會收集大量的面部掃描數(shù)據(jù)以用于之后的神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練，通過AI深度學(xué)習(xí)模型與算法，學(xué)習(xí)演員的潛在肌肉行為，快速輔助納美人的面部動畫生成，并結(jié)合納美人的獨特外形修復(fù)彌補牙齒和頭骨解剖的偏差[4]。

3 AIGC 賦能數(shù)字人在電影中的制作與應(yīng)用

3.1 AIGC 助力數(shù)字人生產(chǎn)

高成本投入和較長的制作周期一直是數(shù)字人在電影制作中面臨的兩大挑戰(zhàn)。傳統(tǒng)的數(shù)字人生產(chǎn)流程幾乎全部依賴人工實現(xiàn)，從人物建模到動畫制作再到語音合成，各個環(huán)節(jié)都需要大量的時間成本和人力投入。而隨著生成算法、預(yù)訓(xùn)練模型和多模態(tài)等技術(shù)的不斷創(chuàng)新，AIGC 的發(fā)展大幅加速數(shù)字人的生產(chǎn)流程，并顯著降低數(shù)字人的制作成本，極大提高數(shù)字人的制作效能。

數(shù)字人生產(chǎn)制作流程主要可分成三個板塊，分別為形象生成、語音合成、動畫驅(qū)動。在AIGC 技術(shù)的加持下，形象生成可利用算法模型快速生成高精度的數(shù)字人形象，語音合成能夠利用語音轉(zhuǎn)換等技術(shù)生成逼真的語音表達，動畫驅(qū)動則可利用深度學(xué)習(xí)模型驅(qū)動數(shù)字人的表情和動作。

（1）數(shù)字人形象的智能化生成

傳統(tǒng)的寫實數(shù)字人生成過程依賴于設(shè)計師使用諸如Maya、3ds Max 和CAD 等3D 建模軟件手動創(chuàng)建人體的三維模型。然而，由于這些軟件的學(xué)習(xí)成本高且建模效率低，很難快速批量生成數(shù)字人形象。

隨著AI 生成算法的提速迭代，針對寫實虛擬人的形象生成，現(xiàn)階段出現(xiàn)了兩種主要的模型生成方式：第一種是基于圖像和視頻的生成，已經(jīng)初步實現(xiàn)產(chǎn)品化，并能夠達到次時代游戲人物的精度水平。用戶可以通過上傳照片或視頻來生成寫實類型的數(shù)字人。這種生成方式的代表性應(yīng)用有英偉達的Omniverse Avatar 和Unreal Engine 的MetaHuman Creator，用戶可以通過自定義方式快速生成對應(yīng)的數(shù)字人形象。第二種方式是基于參數(shù)化模型進行數(shù)字人生成，此領(lǐng)域也是近年來學(xué)術(shù)界的研究熱點。該類方法通過參數(shù)化模型將原本復(fù)雜的數(shù)字人空間解耦，將數(shù)字人抽象為規(guī)則約束下一定數(shù)目的參數(shù)，這也是近年來學(xué)術(shù)界的研究熱點。

基于圖片和視頻的數(shù)字人形象生成已經(jīng)具備較為成熟的制作流程。以MetaHuman Creator 為例，它是基于云端的在線編輯器，可以選擇混合取樣庫中的元素或自定義建模來實現(xiàn)所需的結(jié)果。根據(jù)圖片生成寫實數(shù)字人的過程從圍繞真實人物進行拍照開始，通過多張臉部拍攝照片，將其導(dǎo)入RealityCapture等軟件中生成高質(zhì)量的網(wǎng)格體和貼圖。接下來再通過將網(wǎng)格體導(dǎo)入Unreal Engine 中進行面部標(biāo)記幀追蹤，并運行身份解析，將模型的網(wǎng)格體提交到Meta-Human 后端，即可快速生成對應(yīng)的人物模型。此外，還可以在MetaHuman Creator 中繼續(xù)編輯數(shù)字人的皮膚、眼睛等五官細節(jié)和服裝、發(fā)型、身材比例等。

而基于參數(shù)化模型的數(shù)字人生成也是AIGC 在數(shù)字人建模領(lǐng)域的研究熱點。該類方法的思路是通過大型真實人體掃描模型數(shù)據(jù)庫，學(xué)習(xí)人體結(jié)構(gòu)的共性，構(gòu)建統(tǒng)一的參數(shù)化模型，將原本復(fù)雜的人體網(wǎng)格空間解耦為有限的參數(shù)表達。這些參數(shù)覆蓋了身高、體型、肌肉定義、臉部特征等人體信息，通過調(diào)整這些參數(shù)的數(shù)值，可以實現(xiàn)對人體模型的變形和定制。2015 年基于線性的混合模型SMPL[5]實現(xiàn)了通過少量的參數(shù)來表示和改變?nèi)梭w的姿勢和形狀。SMPL-X[6]在其基礎(chǔ)上引入了人臉和手勢的參數(shù)化表示，該類參數(shù)化模型被廣泛應(yīng)用于ICON[7]等人體重建任務(wù)中。除了真實人體外，RaBit[8]模型對卡通人物的參數(shù)化模型進行了探索，可通過更改參數(shù)得到卡通人、熊、兔子等多種卡通生物的個性化3D 模型，其提出的SVR 方法可以通過單張卡通圖片重建得到相同模樣與姿勢的卡通模型。

（2）數(shù)字人語音的智能化合成

高自然度和個性化語音合成也是數(shù)字人制作中的重要模塊，相較于數(shù)字人生產(chǎn)的其他板塊，語音AI合成技術(shù)已進入成熟期，現(xiàn)被廣泛應(yīng)用于廣播電視、網(wǎng)絡(luò)視聽等多個領(lǐng)域。語音合成技術(shù)是AIGC 領(lǐng)域中的重要分支之一，能夠快速將文本轉(zhuǎn)化為音頻，使計算機實時自動生成高質(zhì)量的語音音頻。

2016 年谷歌提出WaveNet[9]，其利用膨脹因果卷積解決語音的大跨度時間依賴問題，使得模型能在短時間內(nèi)完成高質(zhì)量語音合成。2017 年，在WaveNet 基礎(chǔ)上，谷歌提出首個端到端的TTS 語音合成模型Tacotron[10]，并于2018 年發(fā)布Tacotron 2。Tacotron 2 由聲譜預(yù)測網(wǎng)絡(luò)和聲碼器組成，其中聲譜預(yù)測網(wǎng)絡(luò)將輸入的字符序列映射為梅爾頻譜的幀序列，聲碼器則負責(zé)將預(yù)測得到的梅爾頻譜幀序列還原為波形[11]。2019 年，浙江大學(xué)聯(lián)合微軟提出Fast-Speech 模型[12]，F(xiàn)astSpeech 是一個非回歸模型，較于之前的自回歸TTS 模型，其具有更快的生成速度和更好的語音質(zhì)量，一年后FastSpeech 2 發(fā)布，能直接從文本生成預(yù)測音頻波形，且訓(xùn)練速度達到Fast-Speech 的3 倍[13]。近年來，語音合成任務(wù)開始轉(zhuǎn)向表現(xiàn)力語音合成（Expressive TTS），相比TTS，其更關(guān)注如何合成語音的風(fēng)格、韻律、情感等。由于該類訓(xùn)練所需的標(biāo)注數(shù)據(jù)較少，因此此類方法通常采用無監(jiān)督學(xué)習(xí)方式，從參考音頻中解耦出情感和韻律特征，然后將這種特征與文本向量結(jié)合，實現(xiàn)風(fēng)格可控化[14][15]。

（3）數(shù)字人動畫的智能化驅(qū)動

除了外形表現(xiàn)，身體動作的自然性和面部表情的靈活性對于虛擬人的真實感至關(guān)重要。與虛擬人形象生成不同，動畫驅(qū)動數(shù)字人不僅需要具備流暢性、真實感，還對交互反饋的實時性有一定要求，該類動畫制作復(fù)雜，短短幾分鐘的動畫便需要一個經(jīng)驗豐富的動畫師花費幾小時。而隨著AIGC 技術(shù)的發(fā)展與應(yīng)用，迭代更新后AI 算法已經(jīng)可以生成符合人體運動學(xué)的動作和表情。

真人驅(qū)動依賴動作捕捉技術(shù)。動作捕捉技術(shù)可分為慣性式動作捕捉、光學(xué)式動作捕捉及基于視頻的動作捕捉三類。業(yè)內(nèi)通常采用光學(xué)式動作捕捉，利用攝像機陣列和傳感器來記錄和跟蹤人體的運動數(shù)據(jù)，但該類方法成本較高，讓不少人望而卻步。隨著AIGC 技術(shù)的發(fā)展，基于視頻的低成本動作捕捉技術(shù)越發(fā)成熟。Zhang提出的實時面部捕捉系統(tǒng)能利用固定的數(shù)字人頭部結(jié)合輸入的任意視角的人臉視頻實現(xiàn)精細到微表情級別的人臉視頻輸出[16]。而DeepMotion等基于視頻的全身動作捕捉應(yīng)用的出現(xiàn)使得全身動作捕捉門檻大大降低，用戶上傳的視頻通過姿態(tài)估計等AI算法計算出視頻中人體的全局位置及關(guān)節(jié)旋轉(zhuǎn)信息，從而得到一段與視頻對應(yīng)的骨骼動畫序列。

隨著動作捕捉技術(shù)和視頻內(nèi)容數(shù)據(jù)的豐富，動作數(shù)據(jù)的積累變得更加簡單，這為AI 算法驅(qū)動數(shù)字人動畫提供了龐大的數(shù)據(jù)基礎(chǔ)。目前AI算法驅(qū)動的數(shù)字人主要是通過文本、音樂和視頻的形式跨模態(tài)生成數(shù)字人動畫，根據(jù)生成內(nèi)容也分為三個方向：唇部動畫生成、面部動畫生成與身體動作生成。

唇部動畫根據(jù)輸入的不同，可分為文本驅(qū)動和語音驅(qū)動。無論是文本特征或是語音特征，在指定語言限制下其與唇部運動之間是一對一的簡單映射關(guān)系，這種映射關(guān)系易從數(shù)據(jù)中學(xué)習(xí)到，相對簡單，目前該類模型在行業(yè)內(nèi)已經(jīng)廣泛應(yīng)用。

面部動畫生成主要是通過對3D 模型對應(yīng)的Blendshape 的向量表達。截至目前，國內(nèi)外科技企業(yè)在數(shù)字人面部動畫智能合成方面都有一定進展，國際上如Reallusion 公司研究的利用語音生成面部表情的Craytalk 技術(shù)已在動畫制作中被成功商用，國內(nèi)搜狗、相芯科技等公司也有部分項目落地應(yīng)用。

動作生成主要指由動作序列或文本、音樂、視頻等跨模態(tài)信息驅(qū)動生成的骨骼動畫。這類輸入與骨骼動畫之間都是多對多的映射關(guān)系，同一個輸入對應(yīng)真實空間可能包含各種各樣的肢體動作，這給3D化身動畫提出了兩大挑戰(zhàn)：個性化動作生成和可控制的動作生成。以文本驅(qū)動為例，用戶通過給定文本腳本生成身體動作，需要對輸入文本進行特征提取，再利用提取到的文本特征指導(dǎo)動作生成模塊工作。人體動作生成擴散模型（Human Motion Diffusion Model）[17]利用CLIP提取文本描述特征，結(jié)合擴散模型生成動作序列，而Action-GPT[18]則基于GPT-3 的架構(gòu)，采用了自回歸的方式生成動作序列，通過生成細粒度高的動作描述指導(dǎo)解碼器生成動作。上述模型都得到了較好的短時動作生成效果，但生成長時動作序列時易出現(xiàn)動作凍結(jié)、動作模糊等情況，離落地應(yīng)用還有一段距離。

3.2 應(yīng)用前景

在AIGC 技術(shù)支撐下，數(shù)字人的批量化生成和智能化交互為其在電影制作中的應(yīng)用發(fā)展提供了更多可能性。

隨著數(shù)字人制作流程的優(yōu)化加強，這類數(shù)字資產(chǎn)的生產(chǎn)必將變得成本更低且更加高效[19]。利用批量化生成替代真人背景演員是數(shù)字人在電影制作中一個可行的發(fā)展方向。首先，相比于真實演員，生成的虛擬數(shù)字人具有高靈活性和高可控性，可以根據(jù)導(dǎo)演需求進行實時調(diào)整和控制。他們可以在不同的場景和角色之間快速切換，無需擔(dān)心時間限制或合同問題。而制作人員可以根據(jù)具體需要隨時調(diào)整虛擬數(shù)字人的數(shù)量、外貌和動作，以實現(xiàn)更好的視覺效果。其次，虛擬數(shù)字人完美解決了與真實演員相關(guān)的人力資源管理問題，減輕管理和協(xié)調(diào)工作，且具有額外的保密性優(yōu)勢，可以避免潛在的信息泄露問題。

同時，愈加智能化的“獨化數(shù)字人”也成為繼真人數(shù)字替身、虛擬創(chuàng)造角色后數(shù)字人在電影制作中新的發(fā)展階段。獨化數(shù)字人指的是具有完整的人格和意識，擁有自主思考和行動能力的數(shù)字人，它們具有人類的智慧和意識，能夠自主思考、學(xué)習(xí)和行動，它們具備智能體（Agent），依托于先進的人工智能技術(shù)，例如深度學(xué)習(xí)（DL）、自然語言處理（NLP）、神經(jīng)網(wǎng)絡(luò)等[20]。在交互性更強的“引擎電影”以及在傳統(tǒng)電影技術(shù)的持續(xù)深挖中，計算機驅(qū)動數(shù)字人應(yīng)用嘗試逐漸增多已成事實。

早期的獨化數(shù)字人概念主要存在于元宇宙電影中，它們體現(xiàn)了導(dǎo)演對于人工智能技術(shù)在未來與人類關(guān)系的一切遐想，《銀翼殺手》《終結(jié)者》《我，機器人》中均出現(xiàn)了具有獨立意識的數(shù)字人。隨著自然語言處理（NLP）、多模態(tài)轉(zhuǎn)化等領(lǐng)域的不斷突破，數(shù)字人的智能化得到顯著提升，獨化數(shù)字人不再以單純的概念存在于電影內(nèi)容中，而是以真實形象出現(xiàn)在現(xiàn)實世界里。

以曾出品獲得奧斯卡提名的《至愛梵高·星空之謎》的Bondit Media Capital 公司投資拍攝的科幻電影《b》為例，由日本AI 機器人Erica 擔(dān)任主演，開發(fā)團隊為Erica 進行了電影演技培訓(xùn)。Erica 在片中本色出演AI 機器人，突破傳統(tǒng)以特效制作機器人的拍攝模式，引起了國內(nèi)外觀眾的關(guān)注和討論，成為第一部由人工智能擔(dān)任主演的電影。2022 年，一位由北京蔚領(lǐng)時代科技有限公司推出的虛擬數(shù)字人演員春草正式面世，在其背后的AI算法支撐下，春草能夠?qū)θ祟惖闹噶钭龀黾皶r反饋，同時也能在與人類的溝通中不斷學(xué)習(xí)。正如其CEO 宋震在訪談中提到：“春草的定位除了游戲《春草傳》外，導(dǎo)演也可以直接與這位演員互動講戲，然后讓她現(xiàn)場表演?！?/p>

由此觀之，AIGC 技術(shù)為數(shù)字人在電影制作的應(yīng)用帶來了更多可能性，包括批量化生成的虛擬數(shù)字人替代背景演員和智能獨化數(shù)字人的交互應(yīng)用。這些數(shù)字人技術(shù)的進步發(fā)展為電影創(chuàng)作提供了新機遇，也為今后電影行業(yè)的發(fā)展提供了更多創(chuàng)造性與可能性。

4 結(jié)語

數(shù)字人作為電影制作的關(guān)鍵要素，已經(jīng)成為電影敘事過程中不可或缺的重要組成部分。本研究主要介紹了數(shù)字人在電影行業(yè)中的應(yīng)用現(xiàn)狀和未來發(fā)展趨勢，在形象生成、語音合成以及動畫驅(qū)動方面對現(xiàn)有AIGC 技術(shù)進行梳理總結(jié)，為電影行業(yè)的數(shù)字人制作效能優(yōu)化流程提供一些參考，并在批量化生成與智能化交互方面，為數(shù)字人對電影行業(yè)的創(chuàng)新變革應(yīng)用提供了一些啟示。

隨著AIGC 技術(shù)的不斷發(fā)展和支持，數(shù)字人的應(yīng)用將超越過去僅僅在特效方面的應(yīng)用，擴展到更廣泛的領(lǐng)域，如自主劇情發(fā)展、實時情感反饋等方面。未來，數(shù)字人的進一步發(fā)展將為電影制作帶來更多創(chuàng)造性和技術(shù)上的突破，豐富電影體驗并引領(lǐng)電影行業(yè)向著新的輝煌時代邁進。