亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Transformer的面部動畫生成

        2023-12-06 11:33:54豆子聞李文書
        軟件工程 2023年12期
        關鍵詞:音素編碼器音頻

        豆子聞, 李文書

        (浙江理工大學計算機科學與技術學院, 浙江 杭州 310018)

        0 引言(Introduction)

        在過去的幾年里,數(shù)字人類引起了廣泛關注,它們以高度逼真的方式模擬真實人類,現(xiàn)已被應用于各個領域,比如游戲中的虛擬化身、電影中的角色等[1]。VR設備的普及,使數(shù)字人類被更廣泛地應用于虛擬現(xiàn)實場景中,這些數(shù)字人通過附著于用戶各個關節(jié)的傳感器聯(lián)合驅(qū)動,能夠?qū)崟r模擬現(xiàn)實中真人的動作,但是對于面部的表情,只能通過面捕設備的攝像頭捕捉,其不僅操作不便,更會因為遮擋等原因?qū)е聼o法跟蹤。

        在過去的研究中,英偉達(NVIDIA)公司發(fā)布的唇音同步算法Audio2Face基于深度卷積神經(jīng)網(wǎng)絡,主要集中在學習短音頻窗口的音素級特征,偶爾會導致嘴唇運動不準確[2]。TIAN等[3]采用兩個雙向長短時記憶網(wǎng)絡(Bidirectional LSTM),將音頻特征作為輸入提取高級語義信息,并輸出到注意力層學習注意力權重。這種結(jié)構使網(wǎng)絡能夠記住以往的音頻特征,并可鑒別對當前動畫幀產(chǎn)生影響的音頻特征,但是LSTM作為順序模型仍然存在瓶頸,在有效學習音頻數(shù)據(jù)中跨足夠長的時間間隔提取相關信息的能力不足。

        Transformer在自然語言處理和計算機視覺任務中都取得了卓越的表現(xiàn)[4]。研究人員在音頻特征的提取方面,加入循環(huán)卷積和注意力機制,使得輸入不再局限于短時特征,并且顯著提高了特征精度。受線性偏差注意力的啟發(fā),研究人員在查詢鍵注意力評分中添加了時間偏差,并設計了周期性位置編碼策略,以提高模型對較長音頻序列的泛化能力。在本文研究中,主要關注三維模型上的面部動畫,而三維人臉的復現(xiàn)主要分為基于語言的方法和基于學習的方法[5]。

        1 相關理論(Related theory)

        1.1 唇音同步

        基于語言學的方法通常在音素和視覺對應物之間建立一套復雜的映射規(guī)則,即視覺語音音素(Visemes)。Visemes用于表示人類口型和面部表情的視覺表示,它們對應于發(fā)音時嘴巴的不同形狀,在計算機圖形學、動畫和虛擬現(xiàn)實領域有著廣泛的應用,尤其是在語音同步(Lip-Sync)動畫中。

        也有一些方法考慮了音素和音素之間的多對多映射關系[6]。例如,基于心理語言學的考慮,在面部動作編碼系統(tǒng)的基礎上,將嘴巴運動音素納入嘴唇和綁定后的下巴動畫,可以產(chǎn)生良好的聯(lián)合發(fā)音效果。唇音同步的理論基于對音頻的分解,從每段音素中提取梅爾頻譜,得到獨立的音素級特征。

        1.2 Transformer

        Transformer基于encoder-decoder進行架構,使用了自注意力機制(Self-Attention)捕捉序列中任意兩個位置之間的依賴關系,解決了長期依賴問題。通過多頭注意力機制(Multi-Head Attention)同時關注不同位置和不同語義的信息[7]。整體由多個Encoder和Decoder層堆疊在一起,每一層都包含Self-Attention和Feed Forward Neural Network。每個Encoder和Decoder層都接收整個句子所有的詞作為輸入,然后為句子中的每個詞都做出一個輸出。Transformer的機制使得它相較于RNN和CNN每層計算復雜度更優(yōu),并且可直接計算點乘結(jié)果,不用考慮序列的順序,可以進行并行處理。在自然語言處理(NLP)和計算機視覺(CV)領域都應用廣泛。

        1.3 Wav2Vec2.0

        Wav2Vec2.0相比Wav2Vec,使用Transformer代替RNN,同時引用了一個乘積量化的操作,使得語音表示更加緊湊或離散[8];其通過對比學習進行自監(jiān)督學習,首先使用一個卷積神經(jīng)網(wǎng)絡將原始音頻信號編碼成一個連續(xù)的隱層表示,其次使用一個量化模塊將這個表示轉(zhuǎn)換成一個離散的潛在表示,最后使用一個Transformer網(wǎng)絡捕捉這個潛在表示的上下文信息。Wav2Vec2.0在訓練過程中會隨機地掩蓋一些潛在表示,然后讓Transformer網(wǎng)絡預測被掩蓋的部分,這樣就可以學習到語音信號中有用的結(jié)構和模式。

        2 本文所提方法(The proposed method)

        圖1 唇音同步模型流程圖Fig.1 Flow chart of labial synchronization model

        2.1 音頻編碼器

        在編碼器的設計方面,研究人員參考了最先進的運動合成模型,使用廣義語音模型Wav2Vec2.0編碼音頻輸入。編碼器以自監(jiān)督和半監(jiān)督的方式訓練模型,通過使用對比損失預測當前輸入語音的近期未來值,使模型能夠從大量未標記的數(shù)據(jù)中學習。

        Wav2Vec2.0接受原始音頻信號作為輸入,然后在不用手動標注的情況下學習音頻特征表示,對原始音頻的潛在表示進行建模。Wav2Vec2.0的輸出序列是一組潛在向量,這些向量表示輸入音頻信號的時間結(jié)構特征。每個潛在向量都對應輸入音頻的一小段時間。在音頻特征提取階段,使用一維卷積處理具有時間順序的數(shù)據(jù),它可以捕捉局部特征并保留輸入數(shù)據(jù)的順序結(jié)構,并且在計算方面更加高效,適用于處理大規(guī)模數(shù)據(jù)。一維卷積層的參數(shù)如表1所示。

        表1 一維卷積層參數(shù)

        為了捕捉序列中的全局依賴關系,將多頭自注意力機制應用于輸出序列,在Transformer編碼器層中,輸入序列首先經(jīng)過多頭自注意力子層,其次通過位置前饋網(wǎng)絡(Position-wise Feed-Forward Network,FFN)。該輸出將作為動作編碼器中Biased Cross-Modal MH Attention層的輸入。

        經(jīng)過多頭自注意力機制處理后,將序列輸入后續(xù)的池化層和線性映射層,最終結(jié)果作為Postional Encoding層的輸入。

        2.2 自回歸解碼器

        (1)

        其中,θv為Transformer的可學習參數(shù)。

        與產(chǎn)生離散文本的傳統(tǒng)神經(jīng)機器翻譯(NMT)架構相比,本文研究的輸出表示是一個連續(xù)的向量。NMT模型使用一個開始和結(jié)束的標記指示序列的開始和結(jié)束。在推理過程中,NMT模型自回歸地生成標記,直到結(jié)束。研究人員在輸入特征時進行Linear操作,在開始處包含輸入信息。然而,由于序列長度T是由音頻輸入的長度給出的,所以不適用于結(jié)束標記。通常將編碼時間添加到序列中的Viseme特征中,將時間信息注入序列中。將位置編碼的中間表示表述為

        (2)

        2.3 動作解碼器

        3 實驗與結(jié)果(Experiment and result)

        3.1 實驗數(shù)據(jù)集

        研究人員使用公開的3D數(shù)據(jù)集BIWI對本文中的面部動畫生成模型進行訓練和測試。該數(shù)據(jù)集提供了英語口語的音頻-3D掃描對。BIWI包含40個獨特的句子,該40個句子覆蓋了常用的發(fā)音口型,適用于所有說話者。

        BIWI數(shù)據(jù)集是一個包含情感語音和相應的密集動態(tài)三維人臉幾何的語料庫。14名受試者被要求閱讀40個英語句子,每個句子分別在中性或情緒化的語境中被錄下兩次。3D面部幾何圖形以25 fps的速度捕獲,每個圖形有23 379個頂點。每個片段平均時長為4.67 s。實驗中使用了在情感語境中記錄句子的子集。具體來說,將數(shù)據(jù)分為6名受試者共說192句話的訓練集(BIWI-Train),每名受試者說32句話,以及兩個測試集(BIWI-Test-A和BIWI-Test-B)。BIWI-Test-A包含6個可見的被試者共說的24句話(每人說4句話),BIWI-Test-B包含8個不可見的被試者共說的32句話(每人說4句話)。

        3.2 訓練細節(jié)

        訓練Transformer編碼器、解碼器和嵌入塊進行跨模態(tài)映射。為了從大規(guī)模語料庫的語音表示學習中受益,使用預先訓練好的Wav2vec2.0權重初始化Transformer編碼器。

        在編碼器的第一階段,選擇AdamW作為優(yōu)化器,其參數(shù)如表2所示。

        表2 AdamW參數(shù)設置

        在第二階段,用Adam優(yōu)化器訓練時間自回歸模型,訓練時間為100個epoch,其他超參數(shù)不變。

        3.3 評價結(jié)果

        使用唇形同步度量評估嘴唇運動的質(zhì)量。所有唇邊頂點的最大誤差定義為每一幀的唇型誤差。誤差是通過比較預測和捕獲的三維人臉幾何數(shù)據(jù)計算得來的。表3統(tǒng)計了使用MeshTalk[9]、FaceFormer[10]和本文方法得出的唇形頂點誤差比較結(jié)果。

        表3 唇形頂點誤差率比較

        3.4 相關方法之間的結(jié)果比較

        人類的感知系統(tǒng)能夠理解細微的面部動作和捕捉唇形同步。因此,在語音驅(qū)動的面部動畫任務中,人類的感知仍然是一個最可靠的度量。本文進行了一項用戶調(diào)查研究,并與MeshTalk、FaceFormer和Ground Truth(GT)進行感知結(jié)果比較。采用A/B(兩種方法在各種數(shù)據(jù)上的比值)測試每個比較,即在逼真的面部動畫和口型方面與上述方法的比較。對于BIWI,分別從BIWI-test-B中隨機選取30個樣本,得到四種比較的結(jié)果。為了在說話風格方面達到最大的變化,必須確保抽樣結(jié)果可以相應地涵蓋所有的條件反射風格。因此,本文基于BIWI-test-B創(chuàng)建了120對A和B,共30個樣本、4個對照。每組由至少3名不同的參賽者分別評判,最終共收集到372組評價結(jié)果。表4為模型在測試集BIWI-Test-B上的用戶學習結(jié)果的對比,分別比較了同步率和真實值,證明本文所提方法相比MeshTalk和FaceFormer有較顯著的提升。

        表4 在BIWI-Test-B上的感知評價對比

        3.5 結(jié)果可視化

        為了驗證算法的效果,以美國前總統(tǒng)奧巴馬的一次演講Obama Delivers Thanksgiving Greeting中的片段作為音頻輸入用于合成面部動畫幀,從音頻到面部動畫的生成結(jié)果如圖2所示。

        4 結(jié)論(Conclusion)

        通過使用一維卷積和自注意力機制,本文所提的方法更好地捕捉到了Wave2Vec2.0輸出的特征,幫助研究人員在面部動畫合成算法中合成高質(zhì)量的動畫。此外,研究人員展示了在離散空間中將語音驅(qū)動的面部動畫轉(zhuǎn)換為代碼查詢?nèi)蝿盏膬?yōu)勢,即顯著地提高了對抗跨模態(tài)模糊運動的合成質(zhì)量。實驗結(jié)果表明,該方法在實現(xiàn)準確的唇形同步和生動的面部表情方面具有優(yōu)勢。

        猜你喜歡
        音素編碼器音頻
        新目標英語七年級(上)Starter Units 1-3 STEP BY STEP 隨堂通
        依托繪本課程,培養(yǎng)學生英語音素意識
        小學英語課堂中音素意識與自然拼讀整合訓練的探索
        必須了解的音頻基礎知識 家庭影院入門攻略:音頻認證與推薦標準篇
        基于Daubechies(dbN)的飛行器音頻特征提取
        電子制作(2018年19期)2018-11-14 02:37:08
        ?不定冠詞a與an
        基于FPGA的同步機軸角編碼器
        音頻分析儀中低失真音頻信號的發(fā)生方法
        電子制作(2017年9期)2017-04-17 03:00:46
        基于PRBS檢測的8B/IOB編碼器設計
        Pro Tools音頻剪輯及修正
        人間(2015年8期)2016-01-09 13:12:42
        亚洲福利第一页在线观看| 国产女同va一区二区三区| 麻豆文化传媒精品一区观看| 东京热人妻无码一区二区av| 久久人妻内射无码一区三区| 91国视频| 搡老女人老妇女老熟妇69| 黄色精品一区二区三区| 所有视频在线观看免费| 色婷婷五月综合激情中文字幕| 成人综合婷婷国产精品久久蜜臀 | 久久国产A∨一二三| 白白色视频这里只有精品| 少妇人妻中文字幕hd| 人人妻人人爽人人做夜欢视频九色| 女同亚洲女同精品| 蜜桃av噜噜一区二区三区香| 久久伊人精品中文字幕有尤物 | 精品国偷自产在线不卡短视频| 久久久2019精品视频中文字幕| 少妇又紧又爽丰满在线视频| 国产成年女人毛片80s网站| 欧洲精品免费一区二区三区| 国产精品亚洲A∨天堂| 不打码在线观看一区二区三区视频| 四季极品偷拍一区二区三区视频 | 天天爽夜夜爽人人爽曰喷水| 日本中出熟女一区二区| 亚洲精品1区2区在线观看| 精品少妇人妻av一区二区| 黄色资源在线观看| 精品日韩欧美| 日韩精品极品系列在线免费视频 | 草色噜噜噜av在线观看香蕉| 国产国拍亚洲精品mv在线观看| 国产精品-区区久久久狼| 极品美女尤物嫩模啪啪| 日本乱熟人妻中文字幕乱码69 | 白色白色视频在线观看| 欧美国产激情二区三区| 日韩精品一区二区三区视频|