亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Transformer的面部動(dòng)畫生成

        2023-12-06 11:33:54豆子聞李文書
        軟件工程 2023年12期
        關(guān)鍵詞:音素編碼器音頻

        豆子聞, 李文書

        (浙江理工大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院, 浙江 杭州 310018)

        0 引言(Introduction)

        在過去的幾年里,數(shù)字人類引起了廣泛關(guān)注,它們以高度逼真的方式模擬真實(shí)人類,現(xiàn)已被應(yīng)用于各個(gè)領(lǐng)域,比如游戲中的虛擬化身、電影中的角色等[1]。VR設(shè)備的普及,使數(shù)字人類被更廣泛地應(yīng)用于虛擬現(xiàn)實(shí)場景中,這些數(shù)字人通過附著于用戶各個(gè)關(guān)節(jié)的傳感器聯(lián)合驅(qū)動(dòng),能夠?qū)崟r(shí)模擬現(xiàn)實(shí)中真人的動(dòng)作,但是對(duì)于面部的表情,只能通過面捕設(shè)備的攝像頭捕捉,其不僅操作不便,更會(huì)因?yàn)檎趽醯仍驅(qū)е聼o法跟蹤。

        在過去的研究中,英偉達(dá)(NVIDIA)公司發(fā)布的唇音同步算法Audio2Face基于深度卷積神經(jīng)網(wǎng)絡(luò),主要集中在學(xué)習(xí)短音頻窗口的音素級(jí)特征,偶爾會(huì)導(dǎo)致嘴唇運(yùn)動(dòng)不準(zhǔn)確[2]。TIAN等[3]采用兩個(gè)雙向長短時(shí)記憶網(wǎng)絡(luò)(Bidirectional LSTM),將音頻特征作為輸入提取高級(jí)語義信息,并輸出到注意力層學(xué)習(xí)注意力權(quán)重。這種結(jié)構(gòu)使網(wǎng)絡(luò)能夠記住以往的音頻特征,并可鑒別對(duì)當(dāng)前動(dòng)畫幀產(chǎn)生影響的音頻特征,但是LSTM作為順序模型仍然存在瓶頸,在有效學(xué)習(xí)音頻數(shù)據(jù)中跨足夠長的時(shí)間間隔提取相關(guān)信息的能力不足。

        Transformer在自然語言處理和計(jì)算機(jī)視覺任務(wù)中都取得了卓越的表現(xiàn)[4]。研究人員在音頻特征的提取方面,加入循環(huán)卷積和注意力機(jī)制,使得輸入不再局限于短時(shí)特征,并且顯著提高了特征精度。受線性偏差注意力的啟發(fā),研究人員在查詢鍵注意力評(píng)分中添加了時(shí)間偏差,并設(shè)計(jì)了周期性位置編碼策略,以提高模型對(duì)較長音頻序列的泛化能力。在本文研究中,主要關(guān)注三維模型上的面部動(dòng)畫,而三維人臉的復(fù)現(xiàn)主要分為基于語言的方法和基于學(xué)習(xí)的方法[5]。

        1 相關(guān)理論(Related theory)

        1.1 唇音同步

        基于語言學(xué)的方法通常在音素和視覺對(duì)應(yīng)物之間建立一套復(fù)雜的映射規(guī)則,即視覺語音音素(Visemes)。Visemes用于表示人類口型和面部表情的視覺表示,它們對(duì)應(yīng)于發(fā)音時(shí)嘴巴的不同形狀,在計(jì)算機(jī)圖形學(xué)、動(dòng)畫和虛擬現(xiàn)實(shí)領(lǐng)域有著廣泛的應(yīng)用,尤其是在語音同步(Lip-Sync)動(dòng)畫中。

        也有一些方法考慮了音素和音素之間的多對(duì)多映射關(guān)系[6]。例如,基于心理語言學(xué)的考慮,在面部動(dòng)作編碼系統(tǒng)的基礎(chǔ)上,將嘴巴運(yùn)動(dòng)音素納入嘴唇和綁定后的下巴動(dòng)畫,可以產(chǎn)生良好的聯(lián)合發(fā)音效果。唇音同步的理論基于對(duì)音頻的分解,從每段音素中提取梅爾頻譜,得到獨(dú)立的音素級(jí)特征。

        1.2 Transformer

        Transformer基于encoder-decoder進(jìn)行架構(gòu),使用了自注意力機(jī)制(Self-Attention)捕捉序列中任意兩個(gè)位置之間的依賴關(guān)系,解決了長期依賴問題。通過多頭注意力機(jī)制(Multi-Head Attention)同時(shí)關(guān)注不同位置和不同語義的信息[7]。整體由多個(gè)Encoder和Decoder層堆疊在一起,每一層都包含Self-Attention和Feed Forward Neural Network。每個(gè)Encoder和Decoder層都接收整個(gè)句子所有的詞作為輸入,然后為句子中的每個(gè)詞都做出一個(gè)輸出。Transformer的機(jī)制使得它相較于RNN和CNN每層計(jì)算復(fù)雜度更優(yōu),并且可直接計(jì)算點(diǎn)乘結(jié)果,不用考慮序列的順序,可以進(jìn)行并行處理。在自然語言處理(NLP)和計(jì)算機(jī)視覺(CV)領(lǐng)域都應(yīng)用廣泛。

        1.3 Wav2Vec2.0

        Wav2Vec2.0相比Wav2Vec,使用Transformer代替RNN,同時(shí)引用了一個(gè)乘積量化的操作,使得語音表示更加緊湊或離散[8];其通過對(duì)比學(xué)習(xí)進(jìn)行自監(jiān)督學(xué)習(xí),首先使用一個(gè)卷積神經(jīng)網(wǎng)絡(luò)將原始音頻信號(hào)編碼成一個(gè)連續(xù)的隱層表示,其次使用一個(gè)量化模塊將這個(gè)表示轉(zhuǎn)換成一個(gè)離散的潛在表示,最后使用一個(gè)Transformer網(wǎng)絡(luò)捕捉這個(gè)潛在表示的上下文信息。Wav2Vec2.0在訓(xùn)練過程中會(huì)隨機(jī)地掩蓋一些潛在表示,然后讓Transformer網(wǎng)絡(luò)預(yù)測被掩蓋的部分,這樣就可以學(xué)習(xí)到語音信號(hào)中有用的結(jié)構(gòu)和模式。

        2 本文所提方法(The proposed method)

        圖1 唇音同步模型流程圖Fig.1 Flow chart of labial synchronization model

        2.1 音頻編碼器

        在編碼器的設(shè)計(jì)方面,研究人員參考了最先進(jìn)的運(yùn)動(dòng)合成模型,使用廣義語音模型Wav2Vec2.0編碼音頻輸入。編碼器以自監(jiān)督和半監(jiān)督的方式訓(xùn)練模型,通過使用對(duì)比損失預(yù)測當(dāng)前輸入語音的近期未來值,使模型能夠從大量未標(biāo)記的數(shù)據(jù)中學(xué)習(xí)。

        Wav2Vec2.0接受原始音頻信號(hào)作為輸入,然后在不用手動(dòng)標(biāo)注的情況下學(xué)習(xí)音頻特征表示,對(duì)原始音頻的潛在表示進(jìn)行建模。Wav2Vec2.0的輸出序列是一組潛在向量,這些向量表示輸入音頻信號(hào)的時(shí)間結(jié)構(gòu)特征。每個(gè)潛在向量都對(duì)應(yīng)輸入音頻的一小段時(shí)間。在音頻特征提取階段,使用一維卷積處理具有時(shí)間順序的數(shù)據(jù),它可以捕捉局部特征并保留輸入數(shù)據(jù)的順序結(jié)構(gòu),并且在計(jì)算方面更加高效,適用于處理大規(guī)模數(shù)據(jù)。一維卷積層的參數(shù)如表1所示。

        表1 一維卷積層參數(shù)

        為了捕捉序列中的全局依賴關(guān)系,將多頭自注意力機(jī)制應(yīng)用于輸出序列,在Transformer編碼器層中,輸入序列首先經(jīng)過多頭自注意力子層,其次通過位置前饋網(wǎng)絡(luò)(Position-wise Feed-Forward Network,FFN)。該輸出將作為動(dòng)作編碼器中Biased Cross-Modal MH Attention層的輸入。

        經(jīng)過多頭自注意力機(jī)制處理后,將序列輸入后續(xù)的池化層和線性映射層,最終結(jié)果作為Postional Encoding層的輸入。

        2.2 自回歸解碼器

        (1)

        其中,θv為Transformer的可學(xué)習(xí)參數(shù)。

        與產(chǎn)生離散文本的傳統(tǒng)神經(jīng)機(jī)器翻譯(NMT)架構(gòu)相比,本文研究的輸出表示是一個(gè)連續(xù)的向量。NMT模型使用一個(gè)開始和結(jié)束的標(biāo)記指示序列的開始和結(jié)束。在推理過程中,NMT模型自回歸地生成標(biāo)記,直到結(jié)束。研究人員在輸入特征時(shí)進(jìn)行Linear操作,在開始處包含輸入信息。然而,由于序列長度T是由音頻輸入的長度給出的,所以不適用于結(jié)束標(biāo)記。通常將編碼時(shí)間添加到序列中的Viseme特征中,將時(shí)間信息注入序列中。將位置編碼的中間表示表述為

        (2)

        2.3 動(dòng)作解碼器

        3 實(shí)驗(yàn)與結(jié)果(Experiment and result)

        3.1 實(shí)驗(yàn)數(shù)據(jù)集

        研究人員使用公開的3D數(shù)據(jù)集BIWI對(duì)本文中的面部動(dòng)畫生成模型進(jìn)行訓(xùn)練和測試。該數(shù)據(jù)集提供了英語口語的音頻-3D掃描對(duì)。BIWI包含40個(gè)獨(dú)特的句子,該40個(gè)句子覆蓋了常用的發(fā)音口型,適用于所有說話者。

        BIWI數(shù)據(jù)集是一個(gè)包含情感語音和相應(yīng)的密集動(dòng)態(tài)三維人臉幾何的語料庫。14名受試者被要求閱讀40個(gè)英語句子,每個(gè)句子分別在中性或情緒化的語境中被錄下兩次。3D面部幾何圖形以25 fps的速度捕獲,每個(gè)圖形有23 379個(gè)頂點(diǎn)。每個(gè)片段平均時(shí)長為4.67 s。實(shí)驗(yàn)中使用了在情感語境中記錄句子的子集。具體來說,將數(shù)據(jù)分為6名受試者共說192句話的訓(xùn)練集(BIWI-Train),每名受試者說32句話,以及兩個(gè)測試集(BIWI-Test-A和BIWI-Test-B)。BIWI-Test-A包含6個(gè)可見的被試者共說的24句話(每人說4句話),BIWI-Test-B包含8個(gè)不可見的被試者共說的32句話(每人說4句話)。

        3.2 訓(xùn)練細(xì)節(jié)

        訓(xùn)練Transformer編碼器、解碼器和嵌入塊進(jìn)行跨模態(tài)映射。為了從大規(guī)模語料庫的語音表示學(xué)習(xí)中受益,使用預(yù)先訓(xùn)練好的Wav2vec2.0權(quán)重初始化Transformer編碼器。

        在編碼器的第一階段,選擇AdamW作為優(yōu)化器,其參數(shù)如表2所示。

        表2 AdamW參數(shù)設(shè)置

        在第二階段,用Adam優(yōu)化器訓(xùn)練時(shí)間自回歸模型,訓(xùn)練時(shí)間為100個(gè)epoch,其他超參數(shù)不變。

        3.3 評(píng)價(jià)結(jié)果

        使用唇形同步度量評(píng)估嘴唇運(yùn)動(dòng)的質(zhì)量。所有唇邊頂點(diǎn)的最大誤差定義為每一幀的唇型誤差。誤差是通過比較預(yù)測和捕獲的三維人臉幾何數(shù)據(jù)計(jì)算得來的。表3統(tǒng)計(jì)了使用MeshTalk[9]、FaceFormer[10]和本文方法得出的唇形頂點(diǎn)誤差比較結(jié)果。

        表3 唇形頂點(diǎn)誤差率比較

        3.4 相關(guān)方法之間的結(jié)果比較

        人類的感知系統(tǒng)能夠理解細(xì)微的面部動(dòng)作和捕捉唇形同步。因此,在語音驅(qū)動(dòng)的面部動(dòng)畫任務(wù)中,人類的感知仍然是一個(gè)最可靠的度量。本文進(jìn)行了一項(xiàng)用戶調(diào)查研究,并與MeshTalk、FaceFormer和Ground Truth(GT)進(jìn)行感知結(jié)果比較。采用A/B(兩種方法在各種數(shù)據(jù)上的比值)測試每個(gè)比較,即在逼真的面部動(dòng)畫和口型方面與上述方法的比較。對(duì)于BIWI,分別從BIWI-test-B中隨機(jī)選取30個(gè)樣本,得到四種比較的結(jié)果。為了在說話風(fēng)格方面達(dá)到最大的變化,必須確保抽樣結(jié)果可以相應(yīng)地涵蓋所有的條件反射風(fēng)格。因此,本文基于BIWI-test-B創(chuàng)建了120對(duì)A和B,共30個(gè)樣本、4個(gè)對(duì)照。每組由至少3名不同的參賽者分別評(píng)判,最終共收集到372組評(píng)價(jià)結(jié)果。表4為模型在測試集BIWI-Test-B上的用戶學(xué)習(xí)結(jié)果的對(duì)比,分別比較了同步率和真實(shí)值,證明本文所提方法相比MeshTalk和FaceFormer有較顯著的提升。

        表4 在BIWI-Test-B上的感知評(píng)價(jià)對(duì)比

        3.5 結(jié)果可視化

        為了驗(yàn)證算法的效果,以美國前總統(tǒng)奧巴馬的一次演講Obama Delivers Thanksgiving Greeting中的片段作為音頻輸入用于合成面部動(dòng)畫幀,從音頻到面部動(dòng)畫的生成結(jié)果如圖2所示。

        4 結(jié)論(Conclusion)

        通過使用一維卷積和自注意力機(jī)制,本文所提的方法更好地捕捉到了Wave2Vec2.0輸出的特征,幫助研究人員在面部動(dòng)畫合成算法中合成高質(zhì)量的動(dòng)畫。此外,研究人員展示了在離散空間中將語音驅(qū)動(dòng)的面部動(dòng)畫轉(zhuǎn)換為代碼查詢?nèi)蝿?wù)的優(yōu)勢,即顯著地提高了對(duì)抗跨模態(tài)模糊運(yùn)動(dòng)的合成質(zhì)量。實(shí)驗(yàn)結(jié)果表明,該方法在實(shí)現(xiàn)準(zhǔn)確的唇形同步和生動(dòng)的面部表情方面具有優(yōu)勢。

        猜你喜歡
        音素編碼器音頻
        新目標(biāo)英語七年級(jí)(上)Starter Units 1-3 STEP BY STEP 隨堂通
        依托繪本課程,培養(yǎng)學(xué)生英語音素意識(shí)
        小學(xué)英語課堂中音素意識(shí)與自然拼讀整合訓(xùn)練的探索
        必須了解的音頻基礎(chǔ)知識(shí) 家庭影院入門攻略:音頻認(rèn)證與推薦標(biāo)準(zhǔn)篇
        基于Daubechies(dbN)的飛行器音頻特征提取
        電子制作(2018年19期)2018-11-14 02:37:08
        ?不定冠詞a與an
        基于FPGA的同步機(jī)軸角編碼器
        音頻分析儀中低失真音頻信號(hào)的發(fā)生方法
        電子制作(2017年9期)2017-04-17 03:00:46
        基于PRBS檢測的8B/IOB編碼器設(shè)計(jì)
        Pro Tools音頻剪輯及修正
        人間(2015年8期)2016-01-09 13:12:42
        内射爆草少妇精品视频| 欧美a视频在线观看| 亚洲欧美日韩在线精品2021| 久久青草免费视频| 最新亚洲无码网站| 久久五月精品中文字幕| 日韩人妻精品中文字幕专区| 97在线观看播放| 亚洲有码转帖| 久久国产精品老人性| 中文乱码字幕在线亚洲av| 草草地址线路①屁屁影院成人| 人妻av乱片av出轨| 亚洲人成7777影视在线观看| 九九久久国产精品大片| 久久精品国产亚洲av日韩精品| 精品视频在线观看日韩| 人成午夜免费视频无码| 国产第19页精品| 成年男人裸j照无遮挡无码| 青春草在线观看免费视频| 青青草亚洲视频社区在线播放观看 | 日本一区二区三区在线| 一二三四在线观看韩国视频| 国产大屁股喷水视频在线观看| 国产又黄又爽又色的免费| 荡女精品导航| 亚洲国产色图在线视频| 丝袜美腿福利一区二区| 在线观看免费人成视频| 天天干夜夜躁| 亚洲男同免费视频网站| 久久天天躁狠狠躁夜夜躁2014| 国农村精品国产自线拍| 亚洲中文字幕av一区二区三区人 | 黑人巨大无码中文字幕无码| 日本免费不卡一区| 日韩av一区二区三区在线观看| av免费播放网站在线| 无码人妻久久一区二区三区不卡 | 亚洲精品国产福利在线观看|