趙鋆凡 蘇明揚(yáng) 李 秀
清華大學(xué)深圳國(guó)際研究生院,廣東深圳 518055
深度學(xué)習(xí)的飛速發(fā)展為各行各業(yè)帶來了巨大的變革,GAN、Transformer、Diffusion 等一系列生成模型的提出讓人工智能(AI)在自然語言處理(NLP)、計(jì)算機(jī)視覺(CV)等領(lǐng)域不斷逼近甚至超越人類。人工智能生成內(nèi)容(Artificial Intelligence Generated Content,AIGC)憑借其低成本、高效率的內(nèi)容產(chǎn)出能力正在受到各行各業(yè)的重視。2019 年,Stable Diffusion 以其驚人的圖像繪制能力讓AIGC 正式進(jìn)入工業(yè)界的視野,而2022 年ChatGPT 的提出讓人們?cè)隗@嘆于人工智能的超高速發(fā)展之余也開始暢想AIGC 將能為各產(chǎn)業(yè)帶來怎樣的變革。
事實(shí)上,在電影及其相關(guān)產(chǎn)業(yè)中,AIGC 已經(jīng)開始發(fā)揮重要作用。大量的游戲公司采用圖像生成平臺(tái)Midjourney 作為原畫產(chǎn)出工具,菲律賓28 Squared和Moon Ventures 工作室運(yùn)用ChatGPT 輔助劇本創(chuàng)作,7 天內(nèi)創(chuàng)作了時(shí)長(zhǎng)6 分38 秒的短片《安全地帶》;而Blender、Maya 等三維軟件也集成了相關(guān)AIGC 模型,輔助建模師的日常工作,提高3D 動(dòng)畫生成流水線的效率。
3D 人體動(dòng)畫生成(3D Human Motion Animation Generation)一直是深度學(xué)習(xí)領(lǐng)域的研究重點(diǎn),隨著各類生成模型的發(fā)展,AI 已經(jīng)可以根據(jù)文本、音樂等輸入信息生成符合人類需求的3D 人體動(dòng)畫。
3D 人體動(dòng)畫生成包含多個(gè)細(xì)分的研究領(lǐng)域,例如文本驅(qū)動(dòng)的人體動(dòng)畫生成、音樂驅(qū)動(dòng)的舞蹈動(dòng)畫生成、視頻驅(qū)動(dòng)的人體動(dòng)畫生成等,這些3D 動(dòng)畫生成方法將為影視、游戲、廣告等多個(gè)行業(yè)帶來更優(yōu)質(zhì)的解決方案。以人類最古老藝術(shù)之一的舞蹈為例,得益于動(dòng)作捕捉、3D 圖形學(xué)等技術(shù)的飛速發(fā)展,舞蹈藝術(shù)以數(shù)字化的形式在多個(gè)行業(yè)扮演著越來越重要的角色。然而,在實(shí)際的3D 舞蹈動(dòng)畫制作過程中,成本往往極其昂貴且效率低下。一條5 分鐘的3D 舞蹈動(dòng)畫需要昂貴的動(dòng)作捕捉系統(tǒng)、有經(jīng)驗(yàn)的動(dòng)畫工程師和專業(yè)舞者耗時(shí)數(shù)十天去打磨。于是AI生成舞蹈成為優(yōu)化影視行業(yè)動(dòng)畫制作管線的重要手段。
本文介紹了目前3D 人體動(dòng)畫生成在國(guó)內(nèi)外的研究現(xiàn)狀,并對(duì)目前學(xué)界前沿的三種人體動(dòng)作生成算法進(jìn)行了集成,結(jié)合Blender 軟件,實(shí)現(xiàn)了一個(gè)可用于實(shí)際生產(chǎn)的3D 人體動(dòng)畫生成工具。
在劇本、圖像、聲音等創(chuàng)作領(lǐng)域,AIGC 已經(jīng)在實(shí)際賦能電影行業(yè),也讓人們看到了AIGC 更廣闊的應(yīng)用前景。CG 電影或3D 動(dòng)畫電影中需要大量的角色動(dòng)作,而目前這些動(dòng)作仍然是依賴于動(dòng)畫師手動(dòng)制作或動(dòng)作捕捉系統(tǒng)完成。比如《阿凡達(dá)》全程通過動(dòng)作捕捉系統(tǒng)賦予超現(xiàn)實(shí)的角色各種動(dòng)態(tài),又如國(guó)內(nèi)知名的3D 動(dòng)畫電影《哪吒之魔童降世》《大圣歸來》等,也都完全依靠經(jīng)驗(yàn)豐富的3D 動(dòng)畫師在Maya 等3D 軟件中手動(dòng)制作。
盡管動(dòng)作捕捉系統(tǒng)的開發(fā)提供了更精準(zhǔn)、更真實(shí)的動(dòng)畫制作方案,但是仍存在系統(tǒng)價(jià)格昂貴、后期處理工作量較大等問題,且對(duì)于表演場(chǎng)地的光照、反射情況要求較高,給電影攝制帶來了較大困擾。另一方面,邀請(qǐng)經(jīng)驗(yàn)豐富的3D 動(dòng)畫師制作,則需較長(zhǎng)的制作周期與較高的人力成本,即無論是動(dòng)作捕捉獲得還是動(dòng)畫師制作都存在成本高、效率低的問題。
而在深度學(xué)習(xí)領(lǐng)域,動(dòng)作生成已經(jīng)成為一個(gè)備受關(guān)注的研究課題。隨著GAN、Diffusion 等生成式模型的提出,AIGC 已經(jīng)可以生成高真實(shí)感的3D 人體動(dòng)作。目前國(guó)內(nèi)外主流的3D 人體動(dòng)畫生成算法可以分為合成式和生成式兩類。合成式方法在生成人體動(dòng)作的時(shí)長(zhǎng)和真實(shí)感上占據(jù)優(yōu)勢(shì),生成式方法則在生成人體動(dòng)作的多樣性上占據(jù)優(yōu)勢(shì)。
合成式方法通常是基于經(jīng)典的動(dòng)作圖搜索相應(yīng)算法并合成舞蹈,其核心思想是:在動(dòng)作圖中選擇最符合輸入特征的動(dòng)作片段,并將多個(gè)片段拼接成一個(gè)完整且流暢的動(dòng)作序列。在這類任務(wù)中,最具代表性的是音樂到舞蹈的跨模態(tài)生成。
Arikan[1]早在2002 年就正式引入了基于圖的運(yùn)動(dòng)合成概念,將動(dòng)作合成問題轉(zhuǎn)化為找尋并拼接轉(zhuǎn)移代價(jià)總和最小的動(dòng)作序列來合成一段長(zhǎng)時(shí)動(dòng)作。在這種思路的指導(dǎo)下,動(dòng)作合成任務(wù)通常被認(rèn)為是在構(gòu)造的運(yùn)動(dòng)圖中找到最優(yōu)路徑。
網(wǎng)易所推出的ChoreoMaster[2]通過將配對(duì)的音樂-舞蹈數(shù)據(jù)進(jìn)行聯(lián)合訓(xùn)練,將音樂和舞蹈信息映射到一個(gè)統(tǒng)一的隱空間中,獲取音樂與舞蹈的關(guān)聯(lián)性,并在傳統(tǒng)動(dòng)作圖的方法上,加入了風(fēng)格節(jié)奏匹配和編舞規(guī)則約束。同時(shí),其生成結(jié)果已應(yīng)用到其游戲開發(fā)當(dāng)中,也是首個(gè)落地的舞蹈合成系統(tǒng)。
Ho[3]等人則基于ChoreoMaster 的工作,著重對(duì)舞蹈音樂的節(jié)奏匹配和圖搜索進(jìn)行了優(yōu)化。通過對(duì)運(yùn)動(dòng)序列做隨機(jī)扭曲,提取出運(yùn)動(dòng)的節(jié)奏特征,以表征配對(duì)音樂與動(dòng)作的節(jié)奏信息,從而訓(xùn)練一個(gè)匹配音樂的節(jié)奏特征網(wǎng)絡(luò)。
合成式方法的優(yōu)點(diǎn)在于可以獲取長(zhǎng)時(shí)穩(wěn)定的動(dòng)作序列,但卻缺乏生成的多樣性,只能從已有的動(dòng)作數(shù)據(jù)中合成,不利于電影創(chuàng)作過程中創(chuàng)作者進(jìn)行再創(chuàng)作的需要。
深度學(xué)習(xí)中的生成式模型已廣泛應(yīng)用于生成各種形式的數(shù)據(jù)內(nèi)容?;诖?,研究者們也提出了3D人體動(dòng)作生成算法。
Zhang 等[4]提出了一個(gè)基于Diffusion 模型的人體動(dòng)作生成網(wǎng)絡(luò)。該網(wǎng)絡(luò)通過對(duì)輸入的文本進(jìn)行編碼,經(jīng)過Diffusion 模型,可以將一個(gè)噪聲去噪為一個(gè)動(dòng)作序列。Tevet 等[5]在其基礎(chǔ)上進(jìn)一步改進(jìn),提出了動(dòng)作擴(kuò)散模型(Motion Diffusion Model,MDM),其不僅支持文本作為輸入,同時(shí)支持音樂、文本、動(dòng)作等多模態(tài)信息的輸入,最終生成符合約束條件的3D人體動(dòng)作序列。
Lee 等[6]提出了首個(gè)音樂驅(qū)動(dòng)的2D 舞蹈生成網(wǎng)絡(luò),該網(wǎng)絡(luò)使用變分自編碼器(VAE)對(duì)舞蹈單元建模,并使用生成式對(duì)抗網(wǎng)絡(luò)(GAN)循環(huán)生成舞蹈序列。由于人體骨骼自然形成了一個(gè)圖形結(jié)構(gòu),Ren等[7]和Ferreira 等[8]采用了Graph Convolutional Network來提高生成的二維舞蹈動(dòng)作的自然度。Yang 等[9]則利用Normalize Flow 構(gòu)建了基于關(guān)鍵幀控制的舞蹈生成網(wǎng)絡(luò),實(shí)現(xiàn)了一定程度的動(dòng)作可編輯。Tseng等[10]則基于Diffusion 網(wǎng)絡(luò)實(shí)現(xiàn)了完整的動(dòng)作可編輯,不只是基于關(guān)鍵幀的生成,還可對(duì)局部動(dòng)作進(jìn)行調(diào)節(jié)。Gong 等[11]則基于VQ-VAE 和將不同的動(dòng)作信息映射到同一碼本空間中,生成了同時(shí)包含文本和音樂輸入條件的多模態(tài)舞蹈生成網(wǎng)絡(luò)。
生成式方法可以根據(jù)約束條件生成新的人體動(dòng)作,并在生成動(dòng)作的多樣性上有更好的表現(xiàn),然而受限于生成式網(wǎng)絡(luò)的長(zhǎng)時(shí)建模能力,生成式方法很難生成長(zhǎng)時(shí)穩(wěn)定的3D 人體動(dòng)畫,并且可控性也更差。
筆者集成的3D 人體動(dòng)畫生成工具包括兩個(gè)部分,即3D 人體動(dòng)畫生成算法和基于Blender 的3D 人體動(dòng)畫數(shù)據(jù)處理與可視化插件。我們挑選了三種目前學(xué)界前沿的3D 人體動(dòng)畫生成算法,在Python 環(huán)境下進(jìn)行了集成,讓用戶可以自由選擇模型進(jìn)行動(dòng)畫生成。為了幫助用戶便捷地將算法生成的動(dòng)作數(shù)據(jù)轉(zhuǎn)化為實(shí)際制作中可用的動(dòng)畫素材,我們編寫了一個(gè)基于Blender 的插件,不僅能夠?qū)?dòng)作數(shù)據(jù)進(jìn)行重定向和數(shù)據(jù)增強(qiáng),而且可以直接將算法生成的結(jié)果可視化并導(dǎo)出為fbx 格式的動(dòng)畫文件,直接運(yùn)用在實(shí)際內(nèi)容的生產(chǎn)中。
考慮到實(shí)際的應(yīng)用場(chǎng)景和ChatGPT 的普及應(yīng)用,文本到3D 人體動(dòng)畫的跨模態(tài)生成應(yīng)該被優(yōu)先考慮。除此之外,隨著數(shù)字化舞蹈在影視、游戲等行業(yè)中占據(jù)越來越重要的角色,且相關(guān)生成技術(shù)較為成熟,音樂到3D 舞蹈動(dòng)畫的跨模態(tài)生成模型也被集成在內(nèi)。
綜合真實(shí)性、多樣性、約束條件匹配度等維度的指標(biāo),筆者選擇了三個(gè)3D 人體動(dòng)作生成模型集成在我們的工具中,分別是文本約束的生成模型MDM、音樂約束的生成模型EDGE[12]和音樂約束的合成模型ChoreoMaster。
筆者選取了HumanML3D 數(shù)據(jù)集[13]和FineDance數(shù)據(jù)集對(duì)三個(gè)模型進(jìn)行了重新訓(xùn)練。HumanML3D是由HumanAct12 和Amass 數(shù)據(jù)集結(jié)合而成的3D 人體運(yùn)動(dòng)語言數(shù)據(jù)集。它涵蓋了廣泛的人類活動(dòng),如日?;顒?dòng)(“走路”“跳躍”等)、運(yùn)動(dòng)(“游泳”“打高爾夫球”等)、雜技(“側(cè)手翻”等)和藝術(shù)(“跳舞”等)。HumanML3D 數(shù)據(jù)集包含14,616 個(gè)動(dòng)作和由5,371 個(gè)不同單詞組成的44,970 個(gè)描述,其總時(shí)長(zhǎng)為28.59 小時(shí),平均動(dòng)作長(zhǎng)度為7.1 秒,平均描述長(zhǎng)度為12 個(gè)單詞。FineDance 數(shù)據(jù)集是一個(gè)3D 人體舞蹈動(dòng)畫數(shù)據(jù)集,所有舞蹈動(dòng)作全部由動(dòng)作捕捉系統(tǒng)捕捉完成,一共包含22 個(gè)舞蹈流派,346 首音樂舞蹈配對(duì)數(shù)據(jù)對(duì),總計(jì)52,701 秒的數(shù)據(jù)量,是目前已公布的數(shù)據(jù)量最大、包含舞蹈流派最多的3D 人體舞蹈動(dòng)畫數(shù)據(jù)集(圖1)。
圖1 風(fēng)格多樣化的舞蹈動(dòng)畫生成
MDM[5]是在2022 年由Tevet 等提出的基于無分類器擴(kuò)散的3D 人體動(dòng)作生成模型。MDM 是基于之前已有的文本到動(dòng)作的Diffusion 模型改進(jìn)而來。MDM 在每個(gè)擴(kuò)散步驟中對(duì)樣本進(jìn)行預(yù)測(cè),而不是對(duì)噪聲預(yù)測(cè),并且提出了多種損失,包括運(yùn)動(dòng)姿勢(shì)損失、足部接觸損失、運(yùn)動(dòng)速度損失等,提高了動(dòng)作生成的真實(shí)性。MDM 采用Transformer 模型編碼器部分對(duì)音樂信息和動(dòng)作信息進(jìn)行編碼,通過Diffusion模型來生成符合約束條件的動(dòng)作。此外MDM 支持多種約束條件的輸入,包括文本、音樂、動(dòng)作,是擴(kuò)展性非常強(qiáng)的3D 人體動(dòng)作生成模型。筆者使用了HumanML3D 人體動(dòng)作數(shù)據(jù)集和FineDance 音樂舞蹈數(shù)據(jù)集對(duì)MDM 進(jìn)行了訓(xùn)練,讓MDM 可以根據(jù)文本、音樂等多模態(tài)信息生成動(dòng)作。
EDGE[10](Editable Dance Generation)是在2022 年由Tseng 等提出的基于Diffusion 模型的3D 人體舞蹈動(dòng)畫生成式模型。EDGE 創(chuàng)新地將Jukebox 引入,將其作為音樂特征的提取器,并采用Transformer 模型的解碼器部分對(duì)音樂和動(dòng)作信息進(jìn)行編碼,再通過Diffusion 模型生成符合約束條件的動(dòng)作。EDGE 最大的特色在于其可編輯性,能夠生成任意長(zhǎng)時(shí)的舞蹈動(dòng)畫,并可以對(duì)指定的舞蹈動(dòng)作進(jìn)行替換。此外EDGE 提出了接觸一致性損失來消除生成運(yùn)動(dòng)中的足部滑動(dòng)。我們?cè)贔ineDance 數(shù)據(jù)集對(duì)EDGE 進(jìn)行了重新訓(xùn)練,讓其擁有生成更多流派舞蹈動(dòng)作的能力。
ChoreoMaster[2]是由Chen 等在2021 年提出的一種合成式3D 舞蹈動(dòng)畫生成算法。這個(gè)算法包括一個(gè)動(dòng)作音樂的嵌入框架和一個(gè)基于圖搜索的動(dòng)作合成框架。在嵌入框架中,他們對(duì)動(dòng)作和音樂數(shù)據(jù)先各自進(jìn)行聚類,再用配對(duì)的音樂舞蹈數(shù)據(jù)對(duì)進(jìn)行聯(lián)合訓(xùn)練,最終將音樂和舞蹈映射到一個(gè)統(tǒng)一的隱空間中,這樣的方法在找到音樂和舞蹈的風(fēng)格關(guān)聯(lián)性的同時(shí),大幅降低了對(duì)數(shù)據(jù)的需求量。之后他們又設(shè)計(jì)了一個(gè)節(jié)奏特征分類網(wǎng)絡(luò)以尋找音樂和舞蹈節(jié)奏的關(guān)聯(lián)性。尋找到音樂和舞蹈的風(fēng)格、節(jié)奏關(guān)聯(lián)性后,在傳統(tǒng)動(dòng)作圖的方法上,加入了風(fēng)格節(jié)奏匹配的約束和一些已有編舞規(guī)則的約束。我們同樣在FineDance 數(shù)據(jù)集上對(duì)ChoreoMaster 進(jìn)行了重新訓(xùn)練,讓其具備生成更多樣舞蹈動(dòng)作的能力。
總體上看,MDM 可以實(shí)現(xiàn)文本到動(dòng)作的跨模態(tài)生成,EDGE 作為一種生成式方法可以生成多樣化的舞蹈動(dòng)畫,ChoreoMaster 作為合成式方法可以提供長(zhǎng)時(shí)穩(wěn)定且流暢的舞蹈動(dòng)畫。
AIGC 的迅速發(fā)展為各行各業(yè)都帶來了巨大影響。AIGC 生成3D 人體動(dòng)畫算法發(fā)展迅猛,生成結(jié)果已經(jīng)達(dá)到了實(shí)際應(yīng)用標(biāo)準(zhǔn)。然而,目前由算法生成的三維動(dòng)畫結(jié)果都是以矩陣形式存儲(chǔ)的人體關(guān)節(jié)點(diǎn)姿勢(shì)信息,雖然可以通過SMPL-X 和PyRender 進(jìn)行圖片和視頻展示,但無法直接應(yīng)用于影視場(chǎng)景中,且角色模型的重定向也存在困難,易用性較差。為了將學(xué)界的先進(jìn)算法真正落地在實(shí)際應(yīng)用場(chǎng)景中,筆者集成了一款基于Blender 的數(shù)據(jù)處理和可視化工具(圖2)。該工具有兩種功能,第一種功能可以對(duì)動(dòng)作捕捉采集或者動(dòng)畫師制作的舞蹈數(shù)據(jù)進(jìn)行批處理,方便對(duì)生成模型再訓(xùn)練;第二種功能可以將生成的數(shù)據(jù)可視化并導(dǎo)出為fbx格式動(dòng)畫文件。
圖2 基于Blender的可視化工具
在筆者構(gòu)建的工具中,首先可以對(duì)AIGC 所依賴的動(dòng)畫數(shù)據(jù)進(jìn)行提取和鏡像增強(qiáng)。研究選擇了在學(xué)術(shù)界廣泛應(yīng)用的SMPL-X 模型作為目標(biāo)角色模型。SMPL-X 模型包含55 個(gè)骨骼點(diǎn),其中包括1 個(gè)全局控制的根骨骼骨盆(Pelvis)節(jié)點(diǎn)、21 個(gè)身體骨骼、30 個(gè)手部骨骼和3 個(gè)臉部骨骼。通過讀取骨骼的旋轉(zhuǎn)信息并添加根骨骼的全局位置信息,將其存儲(chǔ)在NumPy 數(shù)組中,以實(shí)現(xiàn)高效的動(dòng)作數(shù)據(jù)提取。這種格式的文件不僅信息集中、存儲(chǔ)消耗小、讀取方便,而且可以高效地處理大量數(shù)據(jù),對(duì)于深度學(xué)習(xí)的應(yīng)用具有重要意義。
為了增加數(shù)據(jù)的多樣性和實(shí)用性,筆者采用鏡像技術(shù)對(duì)數(shù)據(jù)進(jìn)行了增強(qiáng)。通過交換身體左右部分(包括手部和腿部)的骨骼信息,實(shí)現(xiàn)了批量式的數(shù)據(jù)增強(qiáng),從而提升AIGC 算法所需數(shù)據(jù)內(nèi)容的豐富性。
為進(jìn)一步提高效率,筆者將整個(gè)數(shù)據(jù)處理流程實(shí)現(xiàn)了自動(dòng)化。用戶只需要簡(jiǎn)單地在Blender 中指定待處理的批量動(dòng)作捕捉數(shù)據(jù)文件路徑以及相應(yīng)的輸出路徑,我們的工具就會(huì)自動(dòng)進(jìn)行數(shù)據(jù)提取和鏡像增強(qiáng)。這一流程大大簡(jiǎn)化了數(shù)據(jù)處理的步驟,同時(shí)也有效節(jié)省了動(dòng)畫制作的時(shí)間和精力(圖3)。
圖3 動(dòng)作數(shù)據(jù)提取與增強(qiáng)功能
在完成動(dòng)作數(shù)據(jù)的處理和增強(qiáng)后,筆者還完成了對(duì)AIGC 生成的動(dòng)作數(shù)據(jù)的可視化和格式轉(zhuǎn)換,使生成的3D 人體動(dòng)畫可以實(shí)際應(yīng)用于影視制作中(圖4)。這一工具讀取并解析存儲(chǔ)在數(shù)組中的SMPL-X骨骼旋轉(zhuǎn)信息,并將其應(yīng)用到用戶指定的角色模型中。這意味著用戶可以自由地更換角色模型,而不需要改變底層的動(dòng)作數(shù)據(jù),從而將豐富的AIGC 動(dòng)作生成算法運(yùn)用到動(dòng)畫電影制作中。
圖4 AIGC 算法生成動(dòng)畫可視化功能
用戶指定待可視化的動(dòng)作數(shù)據(jù)文件和角色模型,將其導(dǎo)入到場(chǎng)景中。工具會(huì)讀取數(shù)組動(dòng)作文件的長(zhǎng)度,設(shè)置當(dāng)前動(dòng)畫的時(shí)間幀長(zhǎng)度,之后對(duì)每一幀進(jìn)行處理,基于骨骼層級(jí),讀取每一幀根骨骼pelvis的位置信息以及每一個(gè)骨骼節(jié)點(diǎn)的旋轉(zhuǎn)信息,并將這些信息賦予對(duì)應(yīng)的骨骼屬性,將其烘焙到當(dāng)前幀中。最后,將已經(jīng)烘焙動(dòng)作的角色模型導(dǎo)出為fbx 格式,直接作為動(dòng)畫資產(chǎn)應(yīng)用于影視制作中。
隨著AIGC 在各行各業(yè)中展現(xiàn)出越來越大的應(yīng)用潛力,其在電影行業(yè)的應(yīng)用場(chǎng)景也在不斷被探索。目前圖像生成、音樂生成、文本生成等AIGC 工具已經(jīng)逐步應(yīng)用到電影制作管線中,并展現(xiàn)出低成本、高效率的優(yōu)勢(shì)。
3D 人體動(dòng)畫生成對(duì)于電影行業(yè)中3D 動(dòng)畫制作具有重要的應(yīng)用價(jià)值。目前學(xué)界主流的生成式方法和合成式方法發(fā)展迅猛,生成的3D 人體動(dòng)畫已經(jīng)可以滿足一些較低質(zhì)量要求的3D 動(dòng)畫需求,然而受限于缺失綜合能力強(qiáng)的AI 大模型和易用性差的缺陷,主流算法尚未被實(shí)際應(yīng)用于電影制作中。
為了探索AIGC 在電影行業(yè)更多的應(yīng)用可能,筆者針對(duì)3D 人體動(dòng)畫生成這一具體研究領(lǐng)域,集成了一款可用于實(shí)際生產(chǎn)的3D 人體動(dòng)畫生成工具。這個(gè)工具集成了目前表現(xiàn)最好的三種3D 人體動(dòng)畫生成算法,該工具能夠根據(jù)用戶輸入的文本、音樂信息生成相應(yīng)的3D 動(dòng)畫,此外,考慮到工具的易用性,筆者還開發(fā)了基于Blender 的動(dòng)作數(shù)據(jù)批處理和可視化插件,幫助用戶便捷地將模型輸出結(jié)果轉(zhuǎn)化為可實(shí)際使用的fbx格式的動(dòng)畫文件。
此工具仍然存在一些不足之處。由于目前沒有能夠同時(shí)支持多模態(tài)信息輸入的動(dòng)畫生成模型,只能選擇將三個(gè)模型集成在一起,導(dǎo)致工具體量過于龐大和冗余;而Blender 的可視化插件也暫時(shí)不能支持同時(shí)顯示多個(gè)動(dòng)畫。這些都有待持續(xù)改進(jìn)和迭代。fbx 是通用的動(dòng)畫文件格式,支持多種軟件讀取和編輯,動(dòng)畫文件在相應(yīng)的軟件中被渲染成最終的視頻,未來我們將把動(dòng)畫視頻渲染流程也集成在工具中,并著重關(guān)注小屏幕到大銀幕的適配問題,幫助從業(yè)者更便捷地實(shí)現(xiàn)動(dòng)畫視頻的高效生產(chǎn)。
可以預(yù)見,AIGC 將在未來深度賦能電影行業(yè),從圖像、劇本、聲音到動(dòng)畫,多項(xiàng)資源都可以通過AIGC 生產(chǎn)實(shí)現(xiàn)降本增效的效果。作為相關(guān)行業(yè)從業(yè)者,我們應(yīng)積極探索新技術(shù)的應(yīng)用前景,同時(shí)考慮到技術(shù)的局限性與風(fēng)險(xiǎn)性,揚(yáng)長(zhǎng)避短,共同促進(jìn)行業(yè)繁榮。
作者貢獻(xiàn)聲明:
趙鋆凡:設(shè)計(jì)論文框架與整體思路,撰寫和修訂論文,集成3D 人體動(dòng)畫生成算法,全文文字貢獻(xiàn)50%;
蘇明揚(yáng):撰寫和修訂論文,開發(fā)blender插件,全文文字貢獻(xiàn)40%;
李秀:指導(dǎo)論文工作,全文文字貢獻(xiàn)10%。