吳 昊
浙江傳媒學(xué)院動畫與數(shù)字藝術(shù)學(xué)院,浙江杭州 310018
數(shù)字人的概念可以追溯到20 世紀60 年代,當(dāng)時計算機科學(xué)家伊凡·蘇澤蘭(Ivan Sutherland)提出了“虛擬現(xiàn)實”的概念,并在此基礎(chǔ)上提出了“數(shù)字人”概念。他認為,數(shù)字人是一種可以在計算機中創(chuàng)建、操縱和顯示的虛擬人類。這個概念在后來的幾十年中得到了不斷發(fā)展和完善,如今已經(jīng)成為了虛擬現(xiàn)實(VR)和計算機圖形學(xué)(CG)領(lǐng)域中一個非常重要的概念。1964 年由波音公司研究員威廉·費特(William Fetter)首次使用電腦圖形技術(shù)制作的第一個數(shù)字人物形象“波音人”(圖1),用于駕駛員座艙設(shè)計及功效學(xué)研究。之所以將該“波音人”界定為數(shù)字人,“數(shù)字”是與計算機技術(shù)相關(guān),“波音人”是第一個利用計算機創(chuàng)建的人物形象,標志著數(shù)字人技術(shù)在工業(yè)設(shè)計中的首次應(yīng)用。
圖1 威廉·費特制作的“波音人”
最近,產(chǎn)業(yè)界、教育界等多個群體正在關(guān)注元宇宙市場,元宇宙概念正以迅雷不及掩耳之勢席卷各個行業(yè),其已逐漸被廣大機構(gòu)視為數(shù)字世界未來發(fā)展的形態(tài)。元宇宙發(fā)展趨勢下,虛擬數(shù)字人將是不可或缺的因素[1]。元宇宙中的虛擬數(shù)字人不僅是虛擬的商業(yè)或藝術(shù)形象,也不是對人單純靜態(tài)的生理模擬,而是綜合利用各種新技術(shù)對人的生理屬性和社會屬性的全方位模擬和系統(tǒng)性仿真,是具備社交功能的社會人[2]。在數(shù)字技術(shù)的早期階段,數(shù)字人主要應(yīng)用于計算機圖形學(xué)、動畫和游戲等領(lǐng)域,用于創(chuàng)建數(shù)字人的二維、三維圖像或動畫。到了虛擬人階段,數(shù)字技術(shù)的應(yīng)用更加廣泛,虛擬人可以通過數(shù)字技術(shù)模擬人的外貌、動作和行為等多個方面,并應(yīng)用于虛擬現(xiàn)實、視頻游戲、影視制作和教育等領(lǐng)域。虛擬人一般具有比數(shù)字人更為真實的外觀和行為表現(xiàn)。而到了虛擬數(shù)字人階段,數(shù)字技術(shù)的應(yīng)用進一步提高,虛擬數(shù)字人不僅能夠模擬人的外貌和行為,還能夠生成具有感情和智能化的虛擬人。虛擬數(shù)字人的應(yīng)用范圍更加廣泛,不僅可以用于虛擬現(xiàn)實、游戲、影視制作和教育等領(lǐng)域,還可以用于虛擬購物、虛擬醫(yī)療、人機交互、社交媒體和數(shù)字營銷等領(lǐng)域。有學(xué)者認為,虛擬數(shù)字人是數(shù)字科技與二次元文化結(jié)合的產(chǎn)物,其本身并不以實體形式存在,是建立在后現(xiàn)代消費主義下的文化產(chǎn)物[3]。虛擬數(shù)字人的出現(xiàn)標志著數(shù)字技術(shù)已經(jīng)進入到一個全新的發(fā)展階段。虛擬數(shù)字人對于元宇宙的發(fā)展和應(yīng)用具有重要的推動作用。
數(shù)字人技術(shù)可以制作具有與真人相同的人物形象,這在各種媒體平臺中的使用由來已久。例如,2001 年,維塔工作室的團隊利用動作捕捉技術(shù)打造了《指環(huán)王》中的經(jīng)典角色咕嚕姆。但是,直到2012年,科切拉音樂節(jié)上,數(shù)字王國(Digital Domain Media Group,DDMG)利用全息技術(shù)將已故說唱歌手圖帕克·夏庫爾(Tupac Shakur)“復(fù)活”,在舞臺上呈現(xiàn)出他的形象并表演了幾首歌曲(圖2)。這項技術(shù)引起了廣泛的關(guān)注和討論,也表明了虛擬數(shù)字人技術(shù)在娛樂產(chǎn)業(yè)中的潛力和前景。在“虛擬”與“現(xiàn)實”并行的元宇宙中,每個人在不同的平臺上都會出現(xiàn)對應(yīng)的“虛擬化身”,即“虛擬數(shù)字人(MetaHuman)”,這是運用先進技術(shù)所構(gòu)建真人的“數(shù)字孿生”。作為人的虛擬化身,這是綜合利用數(shù)字技術(shù)對人的生理屬性和社會屬性的全方位模擬[2]。最近,以深度學(xué)習(xí)為基礎(chǔ)的人工智能(AI)技術(shù)的發(fā)展極大地改進了基于真人動作的數(shù)字人生成技術(shù)。十多年前,寫實數(shù)字人形象創(chuàng)作還需要專業(yè)設(shè)計師使用3D 動畫軟件完成,因此,除了以3D 動畫片為特色的電影產(chǎn)業(yè)外,在現(xiàn)實中很難為公眾提供人體虛擬形象的服務(wù)。例如,虛擬數(shù)字人羅茜(Rozy)(圖3)是由韓國Sidus Studio X 公司制作的虛擬人,早在2020 年8 月便在社交媒體SNS 上展開活動[4]。近些年,技術(shù)環(huán)境的改善為虛擬數(shù)字人的發(fā)展提供了更多機遇。隨著技術(shù)的不斷進步,虛擬數(shù)字人的形象更加逼真,交互體驗也更加流暢,為各個領(lǐng)域帶來更多創(chuàng)新和應(yīng)用機會。
圖2 數(shù)字虛擬歌手圖帕克·夏庫爾
圖3 虛擬網(wǎng)紅羅茜
虛擬數(shù)字人的目標主要是積極利用社交媒體(SNS)來迎合“Z 世代”受眾群體,即在1995~2010 年出生的青年群體,他們伴隨著數(shù)字技術(shù)的一路成長,對新鮮事物的個性選擇以及對數(shù)字化與自身生活的結(jié)合表現(xiàn)出超越以往人群的強烈意愿[5]。當(dāng)前,流通業(yè)之所以關(guān)注虛擬數(shù)字人,是因為通過社交媒體可以與主要消費層“Z 世代”群體進行近距離溝通。根據(jù)量子位智庫發(fā)布的《虛擬數(shù)字人深度產(chǎn)業(yè)報告》,2030 年我國虛擬數(shù)字人市場規(guī)模將達到2700 億元,目前市場仍處于前期培育階段,有著廣闊的發(fā)展前景[6]。因此,預(yù)計數(shù)字人的市場規(guī)模也將會逐步擴大。
數(shù)字人技術(shù)起源于影視領(lǐng)域。隨著游戲行業(yè)的發(fā)展,數(shù)字人領(lǐng)域中已經(jīng)開始獲得越來越多的技術(shù)賦能,包括建模、綁定、動態(tài)抓取、渲染、AI 語音識別以及圖像識別等,而這些技術(shù)也大大提高了數(shù)字人的生成效率[7]。近些年,人工智能技術(shù)的發(fā)展,虛擬數(shù)字人制作技術(shù)取得新突破,角色建模方式不再是依賴于專業(yè)人員在三維建模軟件里創(chuàng)建出人體的三維模型,而是可以通過幾張人體的掃描照片就能自動生成高精度數(shù)字人模型,并且這些模型還可以呈現(xiàn)出不同的藝術(shù)風(fēng)格[8]。例如,可以制作真實虛擬人的MetaHuman、Daz 3D,或可以制作動畫片的Mixamo、可以制作卡通風(fēng)格2D 角色的VRoid、可以制作各種3D 角色的Character Creator 4 等。下面將具體對數(shù)字人創(chuàng)作流程中的各項技術(shù)進行研究。
MetaHuman 應(yīng)用程序是一種基于人工智能技術(shù)的創(chuàng)作軟件,可以生成高度逼真的虛擬人物,并為其賦予各種行為和情感表現(xiàn)能力。這項技術(shù)將大量的數(shù)據(jù)和算法應(yīng)用于計算機視覺(CV)、自然語言處理(NLP)和運動學(xué)等領(lǐng)域,使得虛擬人物能夠以與真實人類相似的方式交互和表現(xiàn)。MetaHuman 可以在游戲、電影、虛擬現(xiàn)實等多個領(lǐng)域應(yīng)用,成為數(shù)字娛樂產(chǎn)業(yè)的一個重要組成部分。
MetaHuman 主要特點是可以將動畫實時應(yīng)用到逼真的角色上,實現(xiàn)不同年齡、體型和種族的多樣性。MetaHuman 為所有創(chuàng)作者提供非常逼真的人類角色制作功能的框架,且具有直觀的界面,即使是新手也可以輕松應(yīng)用。更改角色細節(jié)的方式有三種,第一種是混合模式(Blend Mode)。混合模式用戶可以通過調(diào)整數(shù)字人物的面部表情和身體動作等關(guān)鍵點,實現(xiàn)對角色表情和姿態(tài)的微調(diào)和改變。這種模式適用于需要對數(shù)字人物進行微調(diào)的情況。第二種是雕刻模式(Sculpt Mode)。雕刻模式下用戶可以在MetaHuman 編輯器中直接對數(shù)字人物的頭部、身體、四肢等部位進行手動編輯和更改,實現(xiàn)角色的重塑和調(diào)整。這種模式適用于需要對數(shù)字人物進行大范圍改動的情況,同時相對于其他兩種方法,需要更多的時間,但可以進行更精細的調(diào)整。第三種是移動模式(Move Mode)。通過調(diào)整標記組來調(diào)整臉部較大的部分,相對于精細的調(diào)整,這種方式可以在較短時間內(nèi)修改整體外觀,特別適用于修改整體外觀而非精細調(diào)整的情況。
MetaHuman 軟件可以實現(xiàn)數(shù)字人的自然面部表情動畫的工具。利用這些工具,無需專業(yè)知識,可以輕松制作高質(zhì)量逼真的數(shù)字人物,只需掌握應(yīng)用簡單的照明、姿勢和表情預(yù)設(shè)即可制作生動的數(shù)字人。然而,MetaHuman 提供的身材種類(苗條、普通、豐滿)、性別和身高選擇范圍較窄,只能根據(jù)模型庫所提供的角色骨架、發(fā)型等類型內(nèi)部使用,因此其使用范圍較為有限。因此,對于實現(xiàn)所需人物或預(yù)設(shè)角色的設(shè)定方面通用性較低。為了彌補這一點,新引入的技術(shù)是“Mesh to MetaHuman”。
Mesh to MetaHuman 技術(shù)是一種使用外部應(yīng)用程序生成的3D 角色網(wǎng)格(Mesh)來創(chuàng)建MetaHuman 的新方法。該功能允許創(chuàng)作人員將自己或其他藝術(shù)家創(chuàng)造的現(xiàn)有模型(如角色、生物、機械等)轉(zhuǎn)換為MetaHuman 數(shù)字人物,從而在更短的時間內(nèi)創(chuàng)建更多的數(shù)字人物。利用該技術(shù),可以克服MetaHuman 創(chuàng)作者的缺點,突破變形限制,更自由地生成網(wǎng)格。Mesh to MetaHuman 通過在虛幻引擎5 中啟用Meta-Human 插件并通過Quixel Bridge 導(dǎo)入MetaHuman 來實現(xiàn)連接。最重要的部分是Mesh Morpher 算法,可以將多邊形信息應(yīng)用于現(xiàn)有的面部特征網(wǎng)格數(shù)據(jù),從而通過該算法給予變化,以便輕松快速地獲得效率更高的面部制作,脫離原有的框架。利用這項技術(shù)對面部細節(jié)進行微調(diào),以達到更高的逼真度。Morpher 算法在MetaHuman Creator 中被廣泛使用,可以幫助數(shù)字人物表現(xiàn)出豐富的情感和表情,使其更加生動。
在MetaHuman 中,將3D 角色模型網(wǎng)格導(dǎo)入到項目中。模型網(wǎng)格可以是已有的模型素材,也可以是掃描現(xiàn)實中的對象,生成glTF、FBX 或OBJ 等幾種格式為基本模型。筆者在項目實驗應(yīng)用中結(jié)合手機App 寶麗來軟件工具進行現(xiàn)實人的掃描,按照螺旋運動軌跡掃描錄制完整的人物面部,并進行解算。然后生成glTF 格式文件導(dǎo)入到三維軟件中,將掃描過程中錯誤和不需要的多邊形面進行刪除。新建并打開UE5 中的插件MetaHuman 本體,將模型導(dǎo)入,選擇中立姿勢(Neutral Pose),進行提升幀數(shù)操作。下一步進行追蹤活動幀,此時將完成對角色模型眼睛、法令紋和嘴部的跟蹤。之后,進行MetaHuman 的本體解算,生成MetaHuman 的網(wǎng)格模型。最后,選擇創(chuàng)建身體部分,并選擇網(wǎng)格體轉(zhuǎn)為MetaHuman 命令,完成MetaHuman 網(wǎng)格模型的創(chuàng)建,該結(jié)果上傳到Bridge中的賬號中(圖4)。
圖4 將掃描完成的模型進行修改調(diào)整后進行臉部的模型追蹤活動幀的操作
下面通過Bridge 中的MetaHuman,對模型進行導(dǎo)入,在自定義網(wǎng)格體中對面部各結(jié)構(gòu)的區(qū)域形體(包括皮膚、牙齒、眼睛、毛發(fā)以及身體等部位)進行調(diào)節(jié)(圖5)。
圖5 自定義網(wǎng)格體和角色模型各部分調(diào)節(jié)
對角色頭部的局部調(diào)節(jié),可以在混合模式下通過添加3~6 個角色模型區(qū)進行面部特征細微調(diào)整。根據(jù)角色面部特征進行調(diào)節(jié),即將這幾個添加的預(yù)制角色特征去做插值。此外,可以對角色的身體動作和面部表情動畫進行設(shè)置,MetaHuman 提供了各種姿勢和動作,包括行走、跑步、跳躍等。在面部表情方面,可以通過選擇設(shè)置實現(xiàn)不同的表情動畫(圖6)。
圖6 混合模式下對模型面部的局部調(diào)整并添加表情動畫
動作捕捉技術(shù)已經(jīng)發(fā)展了很長時間,自20 世紀70 年代,動作捕捉技術(shù)開始應(yīng)用于醫(yī)療和軍事領(lǐng)域;到了80 年代,其應(yīng)用逐漸蔓延至CGI 產(chǎn)業(yè),開始被人們所熟知,一直活躍至今,目前主要應(yīng)用于電影,并廣泛用于動畫和游戲中[9]。隨著科技的發(fā)展,動作捕捉技術(shù)不斷更新,從最初的磁感應(yīng)式方法發(fā)展到基于慣性傳感器和光學(xué)式方法等更加先進的技術(shù),實現(xiàn)了更加精確和逼真的動作捕捉。如今,人工智能技術(shù)的應(yīng)用讓動作捕捉技術(shù)更加智能化和高效化。比如,基于深度學(xué)習(xí)和計算機視覺技術(shù)的人體姿態(tài)估計算法可以通過對攝影場景中的人體姿態(tài)和動作進行分析和識別,從而實時估計和預(yù)測出未被捕捉到的部分,如手臂、腿部等遮蔽或未被捕捉到的部位,從而實現(xiàn)更加完整和準確的動作捕捉。
主要應(yīng)用于電影或游戲等領(lǐng)域的光學(xué)式動作捕捉技術(shù)可以實時拍攝目標的動作,無需受到限制,并且可以應(yīng)用于非人類生物,具有強大的優(yōu)勢,但需要額外的空間安裝相機,并且只能在相應(yīng)空間內(nèi)進行捕捉。該技術(shù)最大的缺點是成本,根據(jù)制造商的不同,引進成本不同,對于中小型工作室來說,使用該類設(shè)備的成本是很大的負擔(dān)。此外,由于相機必須照射標記,因此根據(jù)演員的動作,相機陰影區(qū)域的產(chǎn)生可能會導(dǎo)致數(shù)據(jù)丟失。
為了彌補這些缺點,可以使用傳感器式的動作捕捉工具Rokoko。Rokoko 是將傳感器添加到套裝面料之內(nèi),內(nèi)置共19個傳感器,每個傳感器內(nèi)都有陀螺儀、羅盤儀和加速計。通過套裝將運動數(shù)據(jù)記錄在本地或者通過Wi-Fi 將數(shù)據(jù)傳輸?shù)奖镜鼐W(wǎng)絡(luò)。Rokoko 與實時3D 角色動畫軟件Rokoko Studio 相結(jié)合使用,最具特色的部分是雖然能夠進行面部捕捉、動作捕捉和手部捕捉,但其價格相對便宜,而且可以實時進行互動和錄制。通常進行動作捕捉時需要寬敞的空間和沒有反射的物體,但Rokoko 通過安裝在套裝上的傳感器進行捕捉,擁有比傳統(tǒng)動畫工作流更直觀的界面,并可以在成本方面大大節(jié)省,是一種有效的動作捕捉工具。利用Rokoko 拍攝的動作捕捉數(shù)據(jù)可以使用虛幻引擎的動畫重定向技術(shù)。動畫重定向允許不同比例的角色共享相同的骨架資產(chǎn),以便重用動畫。加載從動作捕捉中獲得的動畫數(shù)據(jù),然后輕松地使用它們而無需進行精細的修改。在重定位之前,不同形狀的角色具有不同的骨骼,因此在應(yīng)用相同動作時形狀會崩潰。但是通過動畫重定位,動畫以角色的骨盆和關(guān)節(jié)為中心重新設(shè)置以適應(yīng)骨骼(圖7)。
圖7 通過虛幻引擎5對動畫重新定位
面部表情技術(shù)的發(fā)展讓數(shù)字虛擬角色的神情更加生動且充滿活力。傳統(tǒng)的面部表情捕捉設(shè)備一般需要佩戴專用頭盔和捕捉套件,便捷性較差[10]。本次測試中面部捕捉思路則是以手機攝像頭拍攝采集為基礎(chǔ),實現(xiàn)面部數(shù)據(jù)捕捉。以Live Link Face 應(yīng)用為例,Live Link Face 軟件可以將用攝像頭捕捉到的人臉動作和表情實時傳輸?shù)饺S虛擬角色上,從而實現(xiàn)人臉捕捉和動畫制作。它廣泛用于電影、電視、游戲和虛擬現(xiàn)實等領(lǐng)域。Live Link Face 軟件可以與虛幻引擎和iOS 設(shè)備一起使用,用戶可以使用手機的前置攝像頭捕捉面部表情和動作,并將這些數(shù)據(jù)傳輸?shù)教摶靡嬷校缓髴?yīng)用到虛擬角色上,實現(xiàn)高度逼真的面部動畫效果。此外,Live Link Face 還支持實時流媒體,用戶可以將捕捉到的面部動畫實時傳輸?shù)狡渌O(shè)備或平臺上,以便遠程協(xié)作和實時表演。這種技術(shù)在電影、電視、游戲和虛擬現(xiàn)實等領(lǐng)域有著廣泛的應(yīng)用。
隨著虛幻引擎5.0 的發(fā)布,Live Link Face 變得更加先進,可以精細和準確地實現(xiàn)面部表情。由于面部跟蹤數(shù)據(jù)包括頭部和頸部旋轉(zhuǎn)數(shù)據(jù),因此即使沒有運動作捕捉套裝或頭戴式設(shè)備,也可以自由地創(chuàng)建數(shù)字化角色的動作。由于不需要額外的工具,無論是個人藝術(shù)家還是專業(yè)公司,都可以在所有拍攝現(xiàn)場捕捉高質(zhì)量的面部動畫。
在測試應(yīng)用中,Live Link Face 軟件需要配備具有TrueDepth 原深感前置攝像頭的iPhone 手機和ARKit 技術(shù),可以對表演者的面部進行Z 軸深度檢測和交互追蹤,并通過虛幻引擎內(nèi)置的Live Link 接收功能直接將該數(shù)據(jù)從手機發(fā)送到電腦端的虛幻引擎中。此外,通過Live Link Face 中打開流送頭像旋轉(zhuǎn)命令可對頭部轉(zhuǎn)動進行跟蹤。通過這種方式,用戶可以更加方便地實現(xiàn)高度逼真的面部表情動畫效果,從而提高制作效率和質(zhì)量(圖8)。
圖8 使用MetaHuman 和Live Link Face 的面部捕捉設(shè)置
通過以上簡易動作捕捉的其中一種方法的制作流程示例,使用一部手機和相對廉價的傳感器動作捕捉工具Rokoko,能夠?qū)崿F(xiàn)讓肢體動作捕捉和面部表情跟蹤捕捉同時進行,完成高效率、便捷化的數(shù)字虛擬形象整體交互動作驅(qū)動(圖9)。
圖9 MetaHuman 虛擬數(shù)字人應(yīng)用整體驅(qū)動實現(xiàn)流程示意圖
人工智能(AI)時代,媒體行業(yè)被徹底重構(gòu)和顛覆。大數(shù)據(jù)和人工智能技術(shù)已經(jīng)進入媒體行業(yè)的每一個環(huán)節(jié),并對新聞內(nèi)容的制作、分發(fā)以及觀眾的互動交流等進行了全面重建。隨著ChatGPT 等大語言模型的進步通過未來將強大的自然語言處理(NLP)能力應(yīng)用于虛擬數(shù)字人領(lǐng)域,將為虛擬數(shù)字人賦予一定程度具備思維能力的大腦。使其能更加智能地與人類進行交流和互動,并進一步提升了虛擬數(shù)字人的逼真性和人性化。ChatGPT 對虛擬人技術(shù)發(fā)展的潛力在媒體、娛樂和其他領(lǐng)域的應(yīng)用都有著廣闊的前景。
(1)虛擬數(shù)字人與ChatGPT 類大語言模型技術(shù)的結(jié)合,可以更準確地理解用戶的情感狀態(tài),并以適當(dāng)方式進行情感和情緒的表達,這將增強用戶與數(shù)字虛擬人之間的感情連接,從而提升用戶體驗。此外,ChatGPT 類大語言模型技術(shù)可以通過深度學(xué)習(xí)和大量數(shù)據(jù)訓(xùn)練,獲得更豐富的語言知識和理解能力。這也使它能夠生成具有邏輯性和連貫性的回答,從而提供更加真實和流暢的體驗,進一步推動虛擬數(shù)字人在其應(yīng)用領(lǐng)域的拓展。
(2)ChatGPT 類大語言模型技術(shù)可用于多種平臺和設(shè)備,包括智能手機、智能音響和虛擬現(xiàn)實設(shè)備等。虛擬數(shù)字人可以脫離物理的軀殼,通過與Chat-GPT 類大語言模型技術(shù)的結(jié)合,實現(xiàn)虛擬數(shù)字人在不同平臺上的統(tǒng)一性和連續(xù)性。用戶可以在不同設(shè)備上與虛擬數(shù)字人進行交互,感受智能化的服務(wù)和體驗。例如,總部位于新西蘭的Soul Machines 公司專注于虛擬數(shù)字人技術(shù)和人工智能交互解決方案。他們的目標是通過創(chuàng)造高度逼真、情感豐富和可交互的虛擬數(shù)字人來提供更具人性化和智能化的用戶體驗。他們開發(fā)了一種名為“Digital DNA”的技術(shù),該技術(shù)結(jié)合了虛擬數(shù)字人和GPT 的能力,是一種基于人工智能和生物學(xué)原理的技術(shù),旨在模擬和復(fù)制人的情感和互動方式。通過深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)算法,將人類的語音、面部表情、身體動作等特征進行模擬仿真,從而創(chuàng)造出逼真的虛擬數(shù)字人。該技術(shù)的發(fā)展有望為各個行業(yè)帶來革命性的變革。
通過對用戶的語言交互和行為數(shù)據(jù)進行分析,虛擬數(shù)字人可以深入了解用戶的喜好和需求?;谶@些信息,虛擬數(shù)字人可以向用戶提供個性化的推薦內(nèi)容,如新聞、音樂、電影等,以滿足用戶的個性化興趣和需求。首先,通過對用戶的語言交互進行分析,虛擬數(shù)字人可以了解用戶的喜好和習(xí)慣。通過分析用戶的提問、回答和表達,從中提取關(guān)鍵詞和意圖,進而推斷用戶對不同話題的喜好和偏好,從而為用戶提供個性化的服務(wù)。其次,通過對用戶的行為數(shù)據(jù)分析,虛擬數(shù)字人可以了解用戶的使用習(xí)慣和消費偏好,根據(jù)用戶的行為數(shù)據(jù)向其推薦類似的內(nèi)容,以滿足個性化需求。通過與用戶建立長期互動,從而建立起對用戶的個性化認識,并為其量身定制服務(wù),這種個性化定制和精準推薦的能力將進一步提高用戶對虛擬數(shù)字人的依賴和信任。同時,也能夠增強用戶與虛擬數(shù)字人之間的情感聯(lián)結(jié),從而推動虛擬數(shù)字人技術(shù)在各個領(lǐng)域的應(yīng)用。
虛擬數(shù)字人交互體驗是否滿意主要涉及到人物形象設(shè)計、肢體動作以及語音交互等方面。首先,人物形象設(shè)置至關(guān)重要,通過使用先進技術(shù)如MetaHuman 可以快速而準確地創(chuàng)建出高度逼真和個性化的角色。其次,動作捕捉技術(shù)和面部識別技術(shù)可以實現(xiàn)虛擬數(shù)字人自然、流暢和逼真的肢體動作和情感表達;通過高度準確的驅(qū)動技術(shù)可以使虛擬數(shù)字人的動作和用戶指令實時同步,并展現(xiàn)出豐富的情感和肢體語言。最后,語音交互也是影響虛擬數(shù)字人交互體驗的重要因素。具有個性化人類思想的語音交互技術(shù)可以增強虛擬數(shù)字人與用戶之間的親切感和溝通效果。預(yù)先錄制的傳統(tǒng)語音交互技術(shù)往往具有機械和生硬感,難以滿足用戶個性化的需求。隨著人工智能技術(shù)發(fā)展,個性化語音技術(shù)為虛擬數(shù)字人的交互體驗帶來許多優(yōu)勢,為用戶提供更溫暖、個性化的交互體驗。這種情感化的交互使得虛擬數(shù)字人在各個領(lǐng)域的應(yīng)用更具吸引力和實用性。
綜上所述,人工智能技術(shù)的發(fā)展必將對虛擬數(shù)字人技術(shù)產(chǎn)生深遠影響。虛擬數(shù)字人通過與Chat-GPT 類大語言模型技術(shù)等智能技術(shù)的結(jié)合,實現(xiàn)了思維的賦能、情感識別和表達的增強。這些進步將推動虛擬數(shù)字人技術(shù)在教育、娛樂、客戶服務(wù)領(lǐng)域的廣泛應(yīng)用,并為用戶提供更加智能、個性化和沉浸式的交互體驗。隨著元宇宙概念的興起和發(fā)展,虛擬數(shù)字人將在虛擬現(xiàn)實、增強現(xiàn)實和在線社交等場景中發(fā)揮重要作用。虛擬數(shù)字人的應(yīng)用潛力是巨大的,它可以是模擬當(dāng)下現(xiàn)實世界中存在的人物形象,也可以創(chuàng)建歷史上公眾記憶中已故的人物形象,通過結(jié)合模擬語音和人工智能思維,將為用戶提供豐富多樣的體驗和服務(wù)。然而,我們也應(yīng)該發(fā)現(xiàn)虛擬數(shù)字人的應(yīng)用也面臨著一些挑戰(zhàn)和問題,例如,如何保護虛擬數(shù)字人的知識產(chǎn)權(quán)和個人隱私,如何處理虛擬數(shù)字人與現(xiàn)實人的交互界限等都是需要考慮的問題。總而言之,虛擬數(shù)字人在未來有著巨大的發(fā)展?jié)摿Γ覀兛梢酝ㄟ^逐步建立倫理、法律和社會規(guī)范,推動虛擬數(shù)字人的可持續(xù)發(fā)展,使其能在數(shù)字藝術(shù)、娛樂和其他領(lǐng)域中發(fā)揮積極的作用。