亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于語音驅(qū)動(dòng)的三維人臉動(dòng)畫技術(shù)綜述①

2022-11-07 09:07:04劉賢梅

計(jì)算機(jī)系統(tǒng)應(yīng)用 2022年10期

劉賢梅,劉露,賈迪,趙婭,田楓

(東北石油大學(xué) 計(jì)算機(jī)與信息技術(shù)學(xué)院,大慶 163318)

1 引言

近年來,三維數(shù)字虛擬人正逐漸走入大眾視野,如2021年登上春晚舞臺(tái)的虛擬偶像“洛天依”,央視推出的虛擬主持人“小C”等.雖然目前大多三維數(shù)字虛擬人模型精美、動(dòng)作逼真,但面部動(dòng)畫的合成嚴(yán)重依賴人為設(shè)定,使用動(dòng)作捕捉設(shè)備[1]、三維掃描設(shè)備[2]、單攝像頭設(shè)備[3]等硬件設(shè)備的表演驅(qū)動(dòng)方法,因設(shè)備價(jià)格昂貴、獲取和處理數(shù)據(jù)過程復(fù)雜、受面部遮擋、光照、姿態(tài)的影響較大等原因限制了應(yīng)用場景.由于語音獲取方便,受外界影響較小,因此有學(xué)者提出使用語音驅(qū)動(dòng)的方法合成三維人臉動(dòng)畫,提高用戶的體驗(yàn)感及交互的友好性.

人對(duì)面部的細(xì)微變化敏感,面部運(yùn)動(dòng)與語音不一致,會(huì)使用戶產(chǎn)生違和感.語音驅(qū)動(dòng)三維人臉動(dòng)畫主要涉及語音到視覺的映射和三維人臉動(dòng)畫合成兩個(gè)關(guān)鍵技術(shù)問題.語音到視覺的映射技術(shù)是從語音中預(yù)測視覺信息,通過尋找語音與視覺信息之間的復(fù)雜聯(lián)系,建立非線性映射模型,得到與語音保持同步的嘴部運(yùn)動(dòng)信息和面部表情信息.三維人臉動(dòng)畫合成通過視覺信息使靜態(tài)人臉模型發(fā)生形變,實(shí)現(xiàn)眼睛、眉毛、嘴唇及面部其他部位的運(yùn)動(dòng),完成聲畫同步的三維人臉動(dòng)畫.語音驅(qū)動(dòng)三維人臉動(dòng)畫應(yīng)用領(lǐng)域廣泛,在服務(wù)行業(yè)實(shí)現(xiàn)虛擬客服、虛擬助手,提高用戶服務(wù)體驗(yàn); 在影視行業(yè)實(shí)現(xiàn)自動(dòng)化真實(shí)感虛擬角色動(dòng)畫制作,減少人工成本,提高生產(chǎn)效率; 在教育行業(yè)實(shí)現(xiàn)智慧教室,促進(jìn)學(xué)生個(gè)性化學(xué)習(xí); 在娛樂行業(yè)實(shí)現(xiàn)虛擬偶像、游戲制作,提高玩家趣味性.

本文將從語音-視覺映射、三維人臉動(dòng)畫合成,以及語音驅(qū)動(dòng)三維人臉動(dòng)畫效果的評(píng)價(jià)3 個(gè)方面對(duì)已有的研究進(jìn)行闡述,分析各種方法的優(yōu)缺點(diǎn),對(duì)三維人臉動(dòng)畫的未來發(fā)展方向做出展望.

2 語音-視覺映射技術(shù)

2.1 音-視素匹配

音素是語音中的最小單位,一個(gè)發(fā)音動(dòng)作構(gòu)成一個(gè)音素,通常使用語音識(shí)別技術(shù)提取語音中的音素.視素(viseme)[4]起源于視覺(visual)和音素(phoneme)兩個(gè)單詞,表示音素對(duì)應(yīng)的面部動(dòng)作模型.

音-視素匹配分為傳統(tǒng)機(jī)器學(xué)習(xí)方法和深度學(xué)習(xí)方法.傳統(tǒng)機(jī)器學(xué)習(xí)方法方面,Hofer[5]提出多階段隱馬爾科夫模型(multi-stream hidden Markov model,MHMM),通過隱馬爾科夫模型(hidden Markov model,HMM)根據(jù)語音特征流生成相應(yīng)的視素序列,并送入基于軌跡的HMM,生成平滑的唇部運(yùn)動(dòng)軌跡.深度學(xué)習(xí)方法方面,Zhou 等人[6]提出VisemeNet 模型,使用三級(jí)長短期記憶網(wǎng)絡(luò)(long short-term memory,LSTM)完成音素組的提取、面部標(biāo)志幾何位置的預(yù)測、下顎與嘴部的權(quán)重預(yù)測,實(shí)現(xiàn)語音可視化.

音-視素匹配依賴語音識(shí)別技術(shù),忽略了語音中語氣變化、語調(diào)頓挫等情感信息,在虛擬人語音交互時(shí)缺乏生動(dòng)的面部表情.

2.2 音-視覺參數(shù)映射

音-視覺參數(shù)映射通過建立語音特征和視覺參數(shù)序列的映射模型,完成語音可視化.

2.2.1 語音特征提取

語音特征提取主要分為手工提取方法和深度學(xué)習(xí)提取方法,手工提取方法主要提取語音低級(jí)描述符(low level descriptions,LLDs),采用全局統(tǒng)計(jì)的方式(如方差、極值、極值范圍等)表征語音特征.LLDs 分類如表1 所示.

表1 LLDs 分類

Englebienne 等人[7]使用梅爾倒譜系數(shù)(Mel-frequency cepstral coefficients,MFCC)提取語音的語義和韻律信息.Xie 等人[8]在MFCC 中加入一階導(dǎo)數(shù)和二階導(dǎo)數(shù),描述語音的動(dòng)態(tài)信息.Bandela 等人[9]將Teager 能量算子和MFCC 融合形成新的特征,用于識(shí)別語音信號(hào)的情緒.目前常用的LLDs 提取的開源工具為Eyben 等人[10,11]開發(fā)的OpenSMILE 和OpenEAR,可批量自動(dòng)提取包括時(shí)長、基頻、能量和MFCC 等常用的聲學(xué)特征.Ramanarayanan 等人[12]使用OpenSMILE 從音頻中提取短時(shí)特征,用于識(shí)別語音中的副語言信息.

由于手工定義的LLDs 不能完整描述語音信號(hào),因此近年來學(xué)者嘗試使用深度學(xué)習(xí)的方法從LLDs 中進(jìn)一步提取語音高級(jí)特征或者直接處理原始語音.常用的方法有深度神經(jīng)網(wǎng)絡(luò)(deep neural networks,DNN)、卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)等.Zhang 等人[13]設(shè)計(jì)一個(gè)從大量原始數(shù)據(jù)中學(xué)習(xí)幀級(jí)說話者特征的DNN 模型,此模型在短的語音段中獲得良好的識(shí)別準(zhǔn)確率.Mustaqeem 等人[14]采用CNN 從語譜圖中提取語音特征,改善MFCC 對(duì)語音高頻信息識(shí)別準(zhǔn)確率不高的問題.Wu 等人[15]采用兩個(gè)循環(huán)鏈接的膠囊網(wǎng)絡(luò)提取特征,增強(qiáng)語音的時(shí)空信息表達(dá)能力.Zhao 等人[16]采用局部特征學(xué)習(xí)塊,從MFCC 中提取局部特征,然后使用LSTM 進(jìn)一步提取語音全局的上下文特征.

2.2.2 視覺參數(shù)定義

Parke[17]將視覺參數(shù)分為形狀參數(shù)和表情參數(shù),形狀參數(shù)控制個(gè)性化人臉細(xì)節(jié),表情參數(shù)控制人臉表情.

形狀控制參數(shù)使用三維坐標(biāo)點(diǎn)(x,y,z)表示.倪虎[18]定義8 個(gè)三維特征點(diǎn)表示三維人臉嘴部運(yùn)動(dòng).文獻(xiàn)[19-21]使用三維人臉模型中的全部頂點(diǎn)坐標(biāo)表示面部及嘴部運(yùn)動(dòng).

Blendshape 權(quán)重是具有語義信息的表情參數(shù),可以直接控制嘴角、眉眼等部位運(yùn)動(dòng).Pham 等人[22,23]、Tian 等人[24]分別采用46 維和51 維blendshape 權(quán)重控制blendshape 三維人臉模型合成三維人臉表情.

視覺參數(shù)定義與后續(xù)三維人臉模型運(yùn)動(dòng)控制方法一一對(duì)應(yīng).使用三維坐標(biāo)點(diǎn)作為視覺參數(shù)時(shí),動(dòng)畫實(shí)現(xiàn)效果與定義的三維特征點(diǎn)數(shù)量相關(guān),數(shù)量越多,人臉運(yùn)動(dòng)精度越高,但計(jì)算量會(huì)增加,達(dá)到一定數(shù)量之后難以實(shí)現(xiàn)實(shí)時(shí)計(jì)算.使用blendshape 權(quán)重作為視覺參數(shù)時(shí),三維人臉模型運(yùn)動(dòng)控制方法簡單、控制數(shù)據(jù)量較少,是目前常用的視覺參數(shù).

2.2.3 音-視覺映射模型建立

音視覺映射模型建立分為傳統(tǒng)機(jī)器學(xué)習(xí)方法和深度學(xué)習(xí)方法.傳統(tǒng)機(jī)器學(xué)習(xí)方法主要采用HMM 和高斯混合模型(Gaussian mixture model,GMM).Brand[25]根據(jù)HMM 可以存儲(chǔ)上下文信息的能力從語音中獲得的信息來預(yù)測全臉動(dòng)畫.Xie 等人[26]在文獻(xiàn)[25]的基礎(chǔ)上提出雙層HMM,訓(xùn)練多流HMM 模型建立對(duì)應(yīng)關(guān)系.之后Xie 等人[27]引入了耦合HMM 來解決由協(xié)同發(fā)音引起的視聽活動(dòng)之間的異步性.HMM 在訓(xùn)練階段具有較大的計(jì)算量,沒有考慮輸入語音的個(gè)體差異,且難以對(duì)復(fù)雜的上下文依賴關(guān)系進(jìn)行建模,精確度不高.Deena 等人[28]采用GMM 實(shí)現(xiàn)語音參數(shù)與人臉動(dòng)畫的匹配,對(duì)表情動(dòng)作和語音參數(shù)分別建立數(shù)據(jù)模型,建立表情與語音的相互聯(lián)系,實(shí)現(xiàn)語音信息與表情細(xì)節(jié)的同步.Luo 等人[29]對(duì)傳統(tǒng)的GMM 方法進(jìn)行改進(jìn),提出基于雙高斯混合模型的音頻到視覺的轉(zhuǎn)換方法,解決了視覺參數(shù)誤差的積累.但是GMM 無法改變訓(xùn)練數(shù)據(jù)的內(nèi)在結(jié)構(gòu),對(duì)數(shù)據(jù)的依賴性較大,導(dǎo)致了跨數(shù)據(jù)庫的通用性不強(qiáng).

由于深度學(xué)習(xí)在建立非線性映射上效果較好,因此有學(xué)者使用該方法建立音-視覺映射模型,Karras 等人[19]將網(wǎng)絡(luò)劃分為頻率分析層、發(fā)音分析層、頂點(diǎn)輸出層,使用LPCC 語音特征點(diǎn)輸出視覺參數(shù).該方法忽略了語音情緒與表情關(guān)聯(lián)的時(shí)序性,難以合成真實(shí)的人臉表情.Cudeiro 等人[20]提出了Voca 網(wǎng)絡(luò),該網(wǎng)絡(luò)采用基于CNN 的編碼器-解碼器結(jié)構(gòu),編碼器將語音特征轉(zhuǎn)換為低維嵌入,使用解碼器得到三維頂點(diǎn)位移的高維空間.Richard 等人[21]提出MeshTalk 網(wǎng)絡(luò),該網(wǎng)絡(luò)通過判斷面部與音頻相關(guān)性的強(qiáng)弱,對(duì)人臉上下區(qū)域的視覺參數(shù)分別建模,合成帶眉眼運(yùn)動(dòng)的三維人臉動(dòng)畫.Pham 等人[22]使用LSTM 通過分析語音頻譜圖、MFCC 和色譜圖預(yù)測三維人臉表情動(dòng)畫參數(shù),該方法一定程度上解決語音協(xié)同發(fā)音的現(xiàn)象,但因語音特征的限制,對(duì)快樂的情緒擬合較差.之后Pham 等人[23]首次將經(jīng)典的CRNN (convolutional recurrent neural network)模型結(jié)構(gòu)應(yīng)用于端到端音視覺映射模型的建立,并且該網(wǎng)絡(luò)模型無需加入額外表征情緒的語音特征,就可以推斷出眉、眼等表征情緒的視覺參數(shù).網(wǎng)絡(luò)模型結(jié)構(gòu)如圖1 所示,使用CNN 從語譜圖中完成語音頻域和時(shí)域信息的特征提取,其中,F-Conv1到F-Conv5 用于頻域特征提取,T-Conv1 到T-Conv3用于時(shí)域特征提取.由于語譜圖的橫縱坐標(biāo)的物理意義不同,兩個(gè)維度包含的信息也不同,因此使用一維卷積核分別遍歷語譜圖的橫軸和縱軸,提取不同維度的語音全局特征.該方法相比二維卷積可以有效地減少計(jì)算量,加速語音提取的過程.每個(gè)卷積層包括卷積、批處理歸一化和ReLU 激活3 個(gè)操作,使用卷積步長為2 的方式進(jìn)行下采樣.然后使用不同的RNN 接入全連接層(fully connected layers,FC)分別建立語音與視覺參數(shù)的時(shí)序關(guān)聯(lián)性建模,提高視覺參數(shù)精度.

圖1 CRNN 網(wǎng)絡(luò)模型結(jié)構(gòu)

使用深度學(xué)習(xí)建立音-視覺映射模型需要三維視聽數(shù)據(jù)集作為支撐.Fanelli 等人[30]提出B3D(AC)?2,該數(shù)據(jù)集共有14 名演員、1 109 條語音,包括消極、悲傷、憤怒、壓力、誘惑、恐懼、驚喜、興奮、自信、快樂、積極,共計(jì)11 種情緒.視覺參數(shù)采用三維坐標(biāo)點(diǎn)的形式,共計(jì)23 370 個(gè)頂點(diǎn).該數(shù)據(jù)集的視覺參數(shù)僅包含人臉結(jié)構(gòu),并不包含頭部等運(yùn)動(dòng)信息.Pham等人[23]提出一種視覺參數(shù)為blendshape 權(quán)重的三維視聽數(shù)據(jù)集,該數(shù)據(jù)集包括24 名演員,每名演員有60 條語音,包括自然、平靜、快樂、悲傷、憤怒、恐懼、驚訝和厭惡,共8 種情緒,每種情緒有平緩、強(qiáng)烈兩種情況.Cudeiro 等人[20]提出VOCASET,包含12 個(gè)主題和480 條語音,視覺參數(shù)使用三維坐標(biāo)點(diǎn)形式,共計(jì)5 023 個(gè)頂點(diǎn),包含頭部旋轉(zhuǎn)等運(yùn)動(dòng)信息.該數(shù)據(jù)集僅有中立的可視化語音信息,不包含其他情緒.

由于三維人臉數(shù)據(jù)集的構(gòu)造需要借助三維運(yùn)動(dòng)捕捉等硬件設(shè)備,需要耗費(fèi)大量的人力物力,導(dǎo)致目前開源數(shù)據(jù)集較少.

3 三維人臉動(dòng)畫合成技術(shù)

3.1 三維人臉模型建立

由于人臉生理結(jié)構(gòu)和幾何外觀的復(fù)雜多樣性,不同膚色、不同性別的人,其五官比例、面部特征具有極大的差異,因此建立逼真、自然的三維人臉模型具有較大的難度.目前建模方式主要有基于三維建模軟件的手工建模、基于硬件設(shè)備的捕捉建模和基于二維圖像的人臉建模.

基于三維建模軟件的手工建模主要使用3DS MAX,MAYA 等商業(yè)軟件.此方法建模效果精致、形狀可控度高,但對(duì)操作者的專業(yè)知識(shí)要求較高、建立過程耗時(shí)耗力,效果受人為因素影響較大.

基于硬件設(shè)備的捕捉建模主要是通過先進(jìn)的工業(yè)設(shè)備(如三維激光掃描儀、結(jié)構(gòu)光掃描儀),通過傳感器獲取人臉面部特征點(diǎn)信息與紋理特征等信息,然后將獲得的信息經(jīng)過計(jì)算機(jī)圖形學(xué)技術(shù)恢復(fù)三維人臉幾何模型.Peszor 等人[31]首先通過結(jié)構(gòu)光掃描儀獲得真實(shí)人臉模型,然后通過修正模型來建立合適的人臉幾何模型.Li 等人[32]采用多個(gè)攝像機(jī)捕獲高質(zhì)量的三維頭部掃描數(shù)據(jù).Ye 等人[33]使用結(jié)構(gòu)光掃描儀構(gòu)建了SIAT-3DFE 高精度三維人臉表情數(shù)據(jù)集.該類方法雖然可以建立高精度人臉模型,但其設(shè)備價(jià)格昂貴、且獲取的數(shù)據(jù)量較大、數(shù)據(jù)處理較復(fù)雜.

基于二維圖像的人臉建模使用二維圖像結(jié)合視覺技術(shù)重構(gòu)面部的三維數(shù)據(jù).Jackson 等人[34]提出VRN(volumetric regression networks)端到端的神經(jīng)網(wǎng)絡(luò)從單幅圖像直接進(jìn)行三維面部重建.Chen 等人[35]使用基于條件生成對(duì)抗網(wǎng)絡(luò)的深度面部細(xì)節(jié)網(wǎng)絡(luò),直接從人臉圖像中重建細(xì)節(jié)豐富的三維人臉.Feng 等人[36]設(shè)計(jì)UV 位置圖的二維表示方法,記錄三維形狀在UV 空間中的表示,然后使用CNN 從圖像中回歸.該類方法獲取數(shù)據(jù)方便、成本低、建模過程自動(dòng)化,但重建時(shí)可能會(huì)因三維人臉形狀過度泛化導(dǎo)致人臉個(gè)性化信息缺失.

3.2 三維人臉模型運(yùn)動(dòng)控制

在建立好三維人臉模型后,需要控制三維人臉模型運(yùn)動(dòng),使人臉模型發(fā)生形變,合成三維人臉動(dòng)畫.依據(jù)三維人臉模型表示方法的不同,三維人臉模型運(yùn)動(dòng)控制方法分為參數(shù)模型運(yùn)動(dòng)控制方法和肌肉模型運(yùn)動(dòng)控制方法.

參數(shù)模型依據(jù)運(yùn)動(dòng)方式的不同,分為多邊形形變模型和blendshape 模型.多邊形形變模型將三維人臉模型用多邊形面片表示,通過控制面片上三維坐標(biāo)點(diǎn)來實(shí)現(xiàn)三維人臉模型運(yùn)動(dòng).Richard 等人[21]通過控制5 023 個(gè)頂點(diǎn)的多邊形形變模型,實(shí)現(xiàn)三維人臉模型運(yùn)動(dòng).多邊形形變模型雖然可以控制高精度的三維人臉模型運(yùn)動(dòng),但調(diào)整參數(shù)過程復(fù)雜.

Blendshape 模型將人臉表示為一組拓?fù)浣Y(jié)構(gòu)相同的表情基的線性組合,包括一個(gè)基準(zhǔn)三維人臉模型和一系列具有指定人臉動(dòng)作的表情基,通過調(diào)整不同的表情基權(quán)重,完成三維人臉模型的運(yùn)動(dòng)控制.Blendshape模型如式(1)所示:

其中,N是表情基個(gè)數(shù),ei是blendshape 權(quán)重,S是三維人臉模型形變后的狀態(tài),B0是基準(zhǔn)三維人臉模型,Bi是第i個(gè)人臉動(dòng)作的表情基.

Yu 等人[37]使用blendshape 模型對(duì)面部表情進(jìn)行重建與優(yōu)化,提高了表情的精準(zhǔn)度的同時(shí),維持了blendshape 方法的高效性.Alkawaz 等人[38]使用blendshape 模型設(shè)計(jì)一個(gè)面部表情動(dòng)畫系統(tǒng).Wang 等人[3]使用RGBD 相機(jī)和blendshape 模型實(shí)現(xiàn)了支持表情細(xì)節(jié)變化的實(shí)時(shí)面部跟蹤系統(tǒng).blendshape 模型的運(yùn)動(dòng)控制操作簡單,但其實(shí)現(xiàn)效果依賴表情基精度和完備性.

手工建立blendshape 表情基的方法耗時(shí)耗力,并且建立的表情基不能重復(fù)使用,因此有學(xué)者使用表情遷移自動(dòng)化建立不同人臉模型的表情基.表情遷移是將已有角色模型(源模型)的人臉表情克隆到新模型(目標(biāo)模型)上.表情遷移分為標(biāo)記點(diǎn)遷移方法和深度學(xué)習(xí)遷移方法.標(biāo)記點(diǎn)遷移方法方面,Sumner 等人[39]使用手工標(biāo)記的頂點(diǎn)建立源模型到目標(biāo)模型的相對(duì)映射,通過線性優(yōu)化函數(shù)和映射關(guān)系完成表情遷移.深度學(xué)習(xí)遷移方法方面,Gao 等人[40]提出了自動(dòng)形變兩個(gè)不成對(duì)形狀集(VAE-CycleGAN)方法,使用兩個(gè)卷積變分自編碼器將源模型表情和目標(biāo)模型映射到潛在空間,然后使用GAN 將潛在空間的信息映射到目標(biāo)模型上,最后采用相似性約束條件保證遷移表情一致性.Jiang 等人[41]使用三維頂點(diǎn)形變表示高維模型表情信息,并使用圖卷積網(wǎng)絡(luò)(graph convolutional network,GCN)實(shí)現(xiàn)表情遷移.由于人臉結(jié)構(gòu)空間維度高,并且人們對(duì)表情變化細(xì)節(jié)極其敏感,因此保證遷移后表情模型的個(gè)性細(xì)節(jié)特征是該方法的難點(diǎn).

肌肉模型是通過模擬肌肉底層的位移來控制三維人臉模型運(yùn)動(dòng),依據(jù)解剖學(xué)原理將面部肌肉分為線性肌、括約肌和塊狀肌等.Platt 等人[42]率先提出該模型,使用彈簧特性對(duì)人臉肌肉建模,通過肌肉的彈力控制人臉運(yùn)動(dòng).Zhang 等人[43]采用彈簧-質(zhì)點(diǎn)模型建立肌肉模型,模擬人臉皮膚的彈性效果.Yue 等人[44]建立下巴旋轉(zhuǎn)模型與口部肌肉模型,然后運(yùn)用GFFD (廣義自由變形)面模擬面部皮膚運(yùn)動(dòng),最后通過融合肌肉模型與皮膚變形實(shí)現(xiàn)面部表情的變化.基于肌肉模型的運(yùn)動(dòng)控制法通過對(duì)人臉結(jié)構(gòu)進(jìn)行物理仿真,可以真實(shí)的模擬人臉運(yùn)動(dòng),但由于人臉肌肉結(jié)構(gòu)復(fù)雜,使用該方法生成動(dòng)畫需要大量的人工交互輔助,因此不適用普通消費(fèi)級(jí)用戶.

4 語音驅(qū)動(dòng)的三維人臉動(dòng)畫效果評(píng)價(jià)

語音驅(qū)動(dòng)三維人臉動(dòng)畫效果評(píng)價(jià)包括主觀評(píng)價(jià)和客觀評(píng)價(jià)兩種方法.主觀評(píng)價(jià)通過給出不同分值的動(dòng)畫參考樣例,使用平均分(mean opinion score,MOS)[45]、診斷可接受性測量(diagnostic acceptability measure,DAM)[46]方法進(jìn)行評(píng)價(jià).評(píng)價(jià)內(nèi)容包括合成人臉動(dòng)畫整體的自然度、流暢度,以及語音與嘴部運(yùn)動(dòng)及面部神態(tài)的一致性.

客觀評(píng)價(jià)包括合成動(dòng)畫實(shí)時(shí)性評(píng)價(jià)、語音-視覺映射精度評(píng)價(jià)、動(dòng)畫流暢度評(píng)價(jià).在實(shí)時(shí)性方面,通過計(jì)算語音預(yù)處理、語音-視覺映射、三維人臉模型形變渲染的總時(shí)間判斷合成動(dòng)畫的實(shí)時(shí)性[23,24].在語音-視覺映射精度方面,通過計(jì)算真實(shí)值與動(dòng)畫面部關(guān)鍵點(diǎn)的差值判斷語音-視覺映射的精度,計(jì)算方法如歐氏距離[20,21]、均方根誤差[22,24]、關(guān)鍵點(diǎn)運(yùn)動(dòng)軌跡差值評(píng)估[18]等.在動(dòng)畫流暢度方面,通過計(jì)算當(dāng)前動(dòng)畫幀面部關(guān)鍵點(diǎn)位置與前后幀的位移判斷動(dòng)畫流暢度[23].

5 結(jié)論及展望

隨著人工智能與虛擬人的不斷結(jié)合,使用深度學(xué)習(xí)方法實(shí)現(xiàn)端到端的語音驅(qū)動(dòng)三維人臉動(dòng)畫成為研究的主流方向.綜合國內(nèi)外對(duì)該技術(shù)的研究現(xiàn)狀,在未來的發(fā)展中仍然有許多挑戰(zhàn),特別是在數(shù)據(jù)集、面部表情細(xì)節(jié)動(dòng)畫、頭部運(yùn)動(dòng)姿態(tài)等方面.

(1)由于深度學(xué)習(xí)需要大量數(shù)據(jù)作為支撐,數(shù)據(jù)集的全面性直接影響了語音-視覺映射模型的構(gòu)建效果,現(xiàn)有的公開三維視聽數(shù)據(jù)集較少,且沒有統(tǒng)一的構(gòu)建標(biāo)準(zhǔn),因此很難對(duì)不同的語音-視覺映射模型進(jìn)行統(tǒng)一的客觀評(píng)價(jià).

(2)人們會(huì)通過細(xì)微的表情變化揣摩說話時(shí)人的情感,虛擬人的面部微表情可以增強(qiáng)角色的感染力,因此可以考慮從提高語音情緒細(xì)節(jié)特征的表達(dá)能力入手,模擬眼角、嘴角、眉毛等面部細(xì)節(jié)的變化.

(3)目前語音驅(qū)動(dòng)三維人臉動(dòng)畫的表情合成是基于離散情緒的,只能刻畫有限的幾種情緒類型.但在現(xiàn)實(shí)生活中,人類的情緒是復(fù)雜的,存在悲喜交加、驚喜交集等情況.因此可以使用語音情緒識(shí)別中的連續(xù)情感模型,分析可視化的復(fù)合語音情緒,實(shí)現(xiàn)人臉表情的豐富性.

(4)人們?cè)谡f話時(shí)會(huì)產(chǎn)生不同頻率的頭部運(yùn)動(dòng),然而語音與頭部姿態(tài)關(guān)聯(lián)性較弱,因此可以考慮使用眼動(dòng)追蹤等相關(guān)技術(shù)實(shí)現(xiàn)頭部姿態(tài)估計(jì),增強(qiáng)語音動(dòng)畫的真實(shí)感.

(5)由于人臉的結(jié)構(gòu)復(fù)雜,在生成人臉動(dòng)畫時(shí)需要復(fù)雜的協(xié)同控制模擬真實(shí)的人臉運(yùn)動(dòng)和表情變化,使用基于三維頂點(diǎn)坐標(biāo)的形狀參數(shù)控制多邊形形變模型,雖然可以擬合表情細(xì)節(jié)運(yùn)動(dòng),但是難以達(dá)到實(shí)時(shí)的運(yùn)行效率.因此可以使用基于blendshape 權(quán)重的表情語義參數(shù)控制blendshape 模型,合成三維人臉動(dòng)畫,通過優(yōu)化表情基中的面部皺紋等個(gè)性細(xì)節(jié)特征,實(shí)現(xiàn)高精度的三維人臉動(dòng)畫.