亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        500 Internal Server Error


        nginx
        500 Internal Server Error

        500 Internal Server Error


        nginx
        500 Internal Server Error

        500 Internal Server Error


        nginx
        500 Internal Server Error

        500 Internal Server Error


        nginx

        數字人生成和驅動技術研究

        2023-06-26 03:42:58楊文韜劉沛卿佟佳欣
        現代電影技術 2023年6期
        關鍵詞:模型

        楊文韜 劉沛卿 佟佳欣 柳 楊

        1.廣西美術出版社,廣西南寧 530023

        2.北京郵電大學,北京 100876

        1 引言

        元宇宙的概念是科幻小說《雪崩》第一次提出的,如今我們描述的元宇宙是一個高度沉浸且永續(xù)發(fā)展的三維時空互聯(lián)網,是與現實世界映射和交互的虛擬世界(圖1)。

        圖1 元宇宙應用行為邏輯①

        近年來,網絡技術、人工智能、虛擬現實等領域快速發(fā)展,元宇宙也從概念走向實踐。目前元宇宙的發(fā)展受到了政府、企業(yè)和社會的廣泛關注和支持,根據麥肯錫2022 年6 月發(fā)布的《元宇宙中的價值創(chuàng)造-虛擬世界的真實業(yè)務》報告,預計2030 年全球元宇宙的市場規(guī)模有望高達5萬億美元。

        在元宇宙中,數字人作為虛擬人和人形機器人的統(tǒng)稱,是元宇宙中最重要的參與者和創(chuàng)造者,也是元宇宙中最具價值和影響力的數字資產。因此如何自動生成數字人,并實現實時驅動是元宇宙中的關鍵問題之一,它涉及到大量前沿技術,如人工智能(AI)、計算機圖形學(CG)、區(qū)塊鏈(Blockchain)、非同質化通證(NFT)等,這些技術為數字人提供了形象、語言、行為等多方面的支持。

        與此同時,數字人可以提高影視作品的制作水平和表現方式,也有望成為影視行業(yè)新的增長點和內容創(chuàng)作工具。數字人可以作為虛擬演員,參與影視劇、游戲、動畫等作品的制作和表演。數字演員可以根據劇本和導演的指導,表現出各種復雜和細致的情感和動作,增強作品的真實感和美感。例如,迪士尼公司利用面部捕捉技術和三維建模技術,制作了電影《獅子王》中的虛擬動物角色;《阿凡達》的續(xù)作《阿凡達:水之道》使用了實時渲染、水下動作捕捉、表情捕捉等技術,對水下目標上的特定光點進行跟蹤,將捕捉到的光點進行數據處理和分析,建立的CG 三維模型高度擬真,使虛擬角色的動作、表情以及在水中的光影動態(tài)清晰地展現出來,栩栩如生;其他應用到數字人技術的經典影視作品還包括《玩具總動員》系列、《變形金剛》系列、《星球大戰(zhàn)》系列作品等。數字人技術可以幫助影視制片方創(chuàng)造出更加逼真、華麗的視覺效果,同時也拓展了藝術表現的范圍和可能性。

        本文將對目前主流的數字人生成和驅動技術進行系統(tǒng)梳理,同時結合多種技術,提出一種可行的基于照片的數字人生成和實時驅動架構。

        2 數字人簡介

        2.1 數字人概念

        數字人(Digital Human)是指利用計算機技術和人工智能技術,根據真實人類的外貌、動作、聲音等特征,生成的具有高逼真度以及高交互性的虛擬人物。數字人是一種集成了計算機圖形學、計算機視覺、自然語言處理、機器學習等多個領域的知識和技術的復雜系統(tǒng),是人工智能技術在虛擬現實(VR)、增強現實(AR)、影視娛樂等領域的重要應用之一。數字人不僅可以模仿真實人類的表情、語言、情感,與人類或虛擬對象進行真實的交互行為,還可以根據不同的場景和需求,自主地做出合理與有意義的反應。

        2.2 數字人發(fā)展歷程

        數字人的發(fā)展歷程主要經歷了以下四個階段,分別是萌芽階段、探索階段、初級階段和成長階段。

        (1)萌芽階段(20 世紀80 年代至21 世紀初)。在這個階段,人們開始嘗試將虛擬人物引入到現實世界,技術主要以手繪為主。例如,日本的二次元文化興起,動漫角色逐漸受到歡迎,出現了一些動漫角色作為虛擬歌手等形象出現在大眾視野,如《超時空要塞》中的林明美就被制作方打造成虛擬主播,其出品的音樂專輯還進入日本當時的Oricon 音樂排行榜。

        (2)探索階段(2000-2016 年)。在這個階段,3D動畫、動作捕捉等技術逐步發(fā)展,開始應用在影視制作中?;谡Z音合成軟件VOCALOID 以及CG 合成技術,出現了以初音未來為代表的一批虛擬數字人,形象以二次元風格、3D 表現為主。

        (3)初級階段(2017-2020 年)。在這個階段,受益于深度學習(Deep Learning)算法的發(fā)展與提升,數字人的生成技術開始步入正軌,進入初級階段。例如,伴隨嗶哩嗶哩、YouTube 等渠道的推動,以“絆愛”“洛天依”“小央”“小視”為代表的一批虛擬主播開始出現,這些虛擬數字人通常由專業(yè)團隊來制作和運營,通過直播等渠道面向用戶,形象以二次元風格為主。

        (4)成長階段(2020 年至今)。在這個階段,人工智能的內容生產能力極大提升,同時伴隨元宇宙對虛擬人賽道的催化,虛擬數字人開始得到進一步的發(fā)展和應用,出現了Lil Miquela、柳夜熙等一批在社交媒體上受到極大關注的虛擬人,同時,相關應用也開始從虛擬主播、虛擬偶像的范疇向外拓展,形象也開始脫離單純的二次元風格,出現了類寫實、AI 合成真人等,行業(yè)逐步進入成長階段。例如,坐擁百萬粉絲的Lil Miquela 是一款由美國公司Brud 開發(fā)的虛擬模特軟件,用戶可以通過Instagram 等社交平臺來關注Lil Miquela 的生活和動態(tài),并與她進行互動。

        3 數字人自動生成技術

        在發(fā)展早期,大部分數字人是依靠人工建模生成,但是這種方法效率非常低。如今隨著計算機視覺和人工智能技術的發(fā)展,涌現出越來越多的自動化生成數字人的技術。這些技術主要分為兩類:基于圖像的數字人(Image-based Digital Human)生成技術和基于模型的數字人(Model-based Digital Human)生成技術。本節(jié)將分別介紹這兩種技術。

        3.1 基于圖像的數字人生成技術

        3.1.1 基于圖像的數字人生成技術概述

        基于圖像的數字人生成技術,是指利用真實人類的圖像或視頻作為輸入,通過圖像處理和圖像合成技術對人臉圖像進行三維重建,生成具有相同或相似外貌和動作的數字人,通常具有較高的真實感和細節(jié),但是這種數字人在后期驅動時需要對模型進行重拓撲。

        這種方法的流程如下:

        (1)圖像采集:構建多種光照環(huán)境,從真實人類的圖像或視頻中采集出在各種光照環(huán)境下,面部的表情樣本以及面部特征點,并構建出二維或三維的特征點云。

        (2)三維重建:將輸入后的真實人臉圖像,通過圖像處理和圖像合成技術,對每張二維人臉圖像進行一次三維重建,得出各個人臉模型。

        (3)模型對齊:在得出的各個人臉模型中,選擇一定數量可信度較高的結果,以分區(qū)的方式按照權重進行結合。

        (4)模型計算:將對齊后的模型進行計算,生成具有連貫性和一致性的新模型,從而得到該個體的三維重建結果。生成具有相同或相似外貌和動作的數字人。

        (5)模型渲染:將融合后的模型進行渲染,增加一些細節(jié)和效果,使得生成的數字人更加逼真和自然。渲染的方法有多種,例如紋理映射、光照模型、陰影效果、反射效果等。

        3.1.2 運動恢復結構

        基于運動恢復結構(Structure from Motion,SfM)的人臉三維重建技術[1]是指從不同的角度拍攝運動中的人物,捕獲一組或多組二維人臉圖像,捕獲設備如圖2 所示,通過計算機視覺和機器學習的方法,恢復出三維的人臉模型?;赟fM 的人臉三維重建的基本思想是利用圖像之間的對應關系,通過幾何原理和優(yōu)化算法,求解出相機參數和三維點坐標,從而實現從二維到三維的轉換?;赟fM 的三維重建技術主要包括以下幾個步驟:

        圖2 實驗室中基于SfM 方法生成數字人的設備

        (1)人臉對齊:從輸入的二維人臉圖像中檢測出人臉的位置和姿態(tài),以及一些關鍵點,如眼睛、鼻子、嘴巴等,然后將不同圖像中的人臉對齊到一個統(tǒng)一的坐標系中,以便于后續(xù)的特征提取和匹配。

        (2)特征提?。簭妮斎氲亩S圖像中提取出一些具有區(qū)分性和穩(wěn)定性的特征點,如角點、邊緣、區(qū)域等,以及對應的特征描述符,如SIFT、SURF、ORB 等,用于后續(xù)的特征匹配。然后根據這些特征進行圖像匹配和對應。

        (3)特征匹配:根據特征描述符的相似度,找出不同圖像中對應的特征點,進行特征匹配,用于后續(xù)的運動估計。

        (4)相機標定:根據一些已知的相機參數或者通過一些標定方法,確定相機的內參(Intrinsic Parameters)和外參(Extrinsic Parameters)。

        (5)運動估計:根據特征匹配,估計出相機之間的相對運動關系,即旋轉矩陣(Rotation Matrix)和平移向量(Translation Vector)。

        (6)稀疏重建:根據相機的內參、外參和特征匹配,利用三角測量(Triangulation)方法,恢復出場景中特征點的三維坐標,形成稀疏的三維點云。稀疏重建還可以利用捆集調整(Bundle Adjustment)方法,來同時優(yōu)化相機參數和三維點坐標,提高重建的精度和魯棒性。

        (7)稠密重建:根據相機的內參、外參和稀疏的三維點云,利用立體視覺(Stereo Vision)或者多視圖立體(Multi-view Stereo)方法,恢復出場景中更多的三維點或者表面,形成稠密的三維點云或者網格。稠密重建可以分為基于像素的方法和基于塊的方法,基于像素的方法是指直接在像素級別進行深度估計,基于塊的方法是指在一些預定義的塊或者窗口上進行深度估計。

        基于SfM 的人臉三維重建技術有以下幾個優(yōu)點。首先,無需人為干預或者先驗知識,只需要自動地提取和匹配特征,以及求解和優(yōu)化相機參數和三維點坐標,從而提高了效率和準確性;其次,適用于各種大規(guī)?;蛘邉討B(tài)場景中的人臉圖像,只需要保證圖像之間有足夠的重疊和視差,就可以恢復出人臉的三維結構,從而提高了魯棒性和多樣性;再次,可以從無序或者稀疏的圖像集合中進行重建;最后,無需特殊的設備或者標定對象,只需要普通的相機或者手機就可以拍攝人臉圖像,從而降低了成本和難度。

        基于SfM 的三維重建技術同時也面臨以下幾個挑戰(zhàn)。首先,人臉在不同的表情下,會產生不同的形變和紋理變化,這會影響特征提取和匹配的穩(wěn)定性和一致性,以及運動估計和重建的準確性和完整性;其次,人臉在不同的光照條件下,會產生不同的亮度和陰影變化,這會影響特征提取和匹配的區(qū)分性和可靠性,以及重建的真實性和自然性;再次,人臉在拍攝過程中,可能會被一些物體或者頭發(fā)等遮擋部分區(qū)域,這會影響特征提取和匹配的完整性和對應性,以及重建的連續(xù)性和光滑性;最后,隨著圖像數量的增加,SfM 的計算量和內存消耗也會隨之增加,這會影響SfM 的速度和效率,以及重建的規(guī)模和質量。

        3.2 基于模型的數字人生成技術

        3.2.1 基于模型的數字人生成技術概述

        基于模型的數字人(Model-based Digital Human)生成技術是一種參數化的生成技術。首先采集大量三維人臉模型,然后通過重拓撲讓所有模型具有相同的點數,而且每個點具有同樣的語義,最后,基于數據分析得到平均人臉模型,并通過主成分分析等方法得到若干基向量和對應的系數。因此只需要得到對應的系數就能重建三維人臉。這種類型的數字人通常具有較高的靈活性和可編輯性,但是缺乏逼真度和自然性,難以表現細微和復雜的情感或動作。

        這種技術通常包括以下幾個步驟:

        (1)模型構建:根據真實人類或虛構角色的特征,構建出平均人臉形變模型。模型可以分為靜態(tài)模型和動態(tài)模型。靜態(tài)模型是指只包含形狀信息的模型,動態(tài)模型是指包含形狀信息和運動信息的模型。

        (2)模型參數化:將平均人臉形變模型轉化為一組參數,方便對模型進行編輯和控制。

        (3)參數估計:設計算法,從輸入的圖像或視頻中估計模型的參數,使得到的模型和照片中的人盡可能接近。

        3.2.2 基于3DMM 的數字人生成

        3.2.2.1 3DMM 介紹

        三維可變形模型(3D Morphable Model,3DMM)[2]是一類通用的三維人臉模型,用固定的點數來表示人臉。它的核心思想就是人臉可以在三維空間中進行一一匹配,并且可以由其他許多幅人臉正交基加權線性相加而來。3DMM 模型可以分解為形狀和紋理兩個部分,每個部分都可以用主成分分析(PCA)得到一組特征向量和特征值,用于描述人臉的變化。常見的3DMM 模型有Basel Face Model 和Large Scale Face Model 等?;?DMM 的數字人生成技術是指以3DMM 模型作為先驗知識,利用三維可變形人臉模型,從單張或多張二維圖像中恢復出三維的人臉模型,并根據需要進行編輯和渲染的技術。這種技術可以實現對真實人物或虛擬人物的三維重建和生成,也可以實現不同表情、姿態(tài)、光照、風格等屬性的三維變換。

        表1 常見的3DMM 模型和參數

        3.2.2.2 基于深度學習的3DMM 參數估計

        3DMM 參數估計是指從二維人臉圖像中恢復出對應的3DMM 參數,從而實現三維人臉重建。傳統(tǒng)的3DMM 參數估計方法通?;诜治?合成(Analysis-by-synthesis)的框架,通過迭代優(yōu)化一個目標函數來擬合輸入圖像,這種方法需要消耗大量的計算資源,且容易陷入局部最優(yōu)解。

        近年來,隨著深度學習技術的發(fā)展,基于深度學習的3DMM 參數估計方法逐漸受到關注。這類方法利用深度神經網絡來直接從二維人臉圖像中預測出3DMM 參數,無需進行迭代優(yōu)化,因此具有更高的效率和魯棒性?;谏疃葘W習的3DMM 參數估計方法可以分為兩類,即監(jiān)督學習方法和非監(jiān)督學習方法。

        監(jiān)督學習方法是指使用帶有真實3DMM 參數標簽的人臉圖像作為訓練數據,訓練一個深度神經網絡來回歸出3DMM 參數。這類方法的優(yōu)點是可以直接利用現有的3DMM 模型和數據集,如Basel Face Model(BFM)和300W-LP 等,而不需要額外的數據處理或標注[3]。缺點則是需要大量的帶標簽數據來訓練網絡,而且真實的3DMM 參數標簽往往不容易獲取或不準確,導致網絡泛化能力受限。

        非監(jiān)督學習方法是指使用無標簽或弱標簽的人臉圖像作為訓練數據,訓練一個深度神經網絡來預測出3DMM 參數,并使用一些自監(jiān)督或弱監(jiān)督的損失函數來約束網絡輸出[4]。這類方法的優(yōu)點是可以利用大量的無標簽或弱標簽數據來訓練網絡,提高網絡泛化能力和表達能力,而且可以避免依賴于特定的3DMM 模型或數據集。該方法的缺點是需要設計合適的損失函數來保證網絡輸出與輸入圖像之間的一致性和可解釋性,而且需要考慮一些影響因素,如光照、表情、姿態(tài)等。

        總之,基于深度學習的3DMM 參數估計是一種新興且有前景的三維人臉重建技術,它可以有效地從二維人臉圖像中恢復出三維人臉結構和外觀信息,為人臉分析、識別、編輯等應用提供有價值的輸入。未來的研究方向包括提高網絡精度和魯棒性、擴展網絡表達能力和泛化能力。

        3.3 MetaHuman

        虛幻引擎(Unreal Engine,UE)是Epic Games 公司開發(fā)的主流游戲引擎。它在數字人類領域也有著深入的探索和突破,如在2018 年推出了Siren 項目展示了實時捕捉和渲染高保真數字人類的能力;在2019年推出了Unreal Engine 4.23 版本,增加了對MetaHuman Framework(MHF)的支持,提供了一套用于創(chuàng)建和控制數字人類的工具集;在2020 年推出了Unreal Engine 5 版本,進一步提升了數字人類的渲染質量和性能。

        MetaHuman Creator 是虛幻引擎提供的一種基于云端的軟件工具,可以在幾分鐘內創(chuàng)建高保真數字人類,并將其導入到虛幻引擎中進行動畫制作和交互。MetaHuman Creator 是基于MHF 開發(fā)的,利用了云計算、機器學習、計算機圖形學等技術,實現了快速、簡單、靈活、逼真地生成數字人類的目標。

        4 數字人驅動技術

        4.1 數字人驅動技術概述

        數字人的驅動是指通過不同的方式控制數字人的動作和表情,使其能夠與用戶或環(huán)境進行交互。根據驅動方式的不同,數字人的驅動可以分為內驅和外驅兩種。

        內驅是指通過數字人自身的智能系統(tǒng),自動讀取并解析識別外界輸入信息,根據解析結果決策數字人后續(xù)的輸出文本,驅動人物模型生成相應的語音與動作來使數字人與用戶互動。內驅的優(yōu)點是可以實現數字人的自主性和靈活性,不需要依賴于外部設備或人工操作;缺點是需要設計復雜的智能算法和模型,以及大量的數據和知識來支持數字人的理解和表達能力。其典型應用場景有虛擬客服、虛擬講師、虛擬員工等服務領域。經典的內驅方法有:

        (1)語音驅動:將語音輸入到深度模型,預測嘴型和面部微表情系數。

        (2)音素驅動:將文本序列轉換成音素序列,并通過深度學習模型預測嘴型和面部微表情系數。

        (3)語音和音素多模融合驅動:融合語言和音素兩個模態(tài)的信息預測嘴型和面部微表情系數。一般這種方法得到的系數更準確,效果更好。

        (4)傳感器數字人驅動:通過少量的動作捕捉設備輔助,其余依靠AI 智能算法模型的解析及推理生成實時動作數據。

        (5)語義和聲音驅動:根據語義和聲音生成特定場合下的數字人動作,如手勢、步伐等。

        外驅是指通過外部設備或人工操作,采集真人的動作和表情數據,然后將這些數據轉換為數字人模型的控制信號,從而驅動數字人進行相應的動作和表情。外驅的優(yōu)點是可以實現數字人的真實性和逼真性,以及高度的個性化和定制化;缺點是需要使用專業(yè)的設備或軟件,以及大量的人力和時間來完成數據采集和處理。其典型應用場景有直播、影視、游戲等娛樂領域。經典的外驅方法有:

        (1)動作捕捉:通過在真人不同的關節(jié)增加慣性、光學等動作捕捉設備傳感器來獲取真人的動作數據,以提升動作還原精度。

        (2)面部捕捉:通過在真人的面部貼上標記點或使用面部識別技術來獲取真人的面部表情數據,以提升表情還原精度。

        (3)聲音捕捉:通過在真人的嘴邊安裝麥克風或使用語音識別技術來獲取真人的聲音數據,以提升語音還原精度。

        總之,內驅和外驅是兩種不同的數字人驅動方式,各有優(yōu)缺點,也適用于不同的應用場景。未來可能會出現更多結合內外驅優(yōu)勢的混合驅動方式用以提高數字人的交互性能和體驗效果。本文接下來將重點介紹外驅方法。

        4.2 基于BlendShape 的數字人驅動技術

        基于BlendShape 的數字人驅動技術是指通過預設不同的面部表情形狀(如微笑、皺眉、張嘴等),并給每個形狀賦予一個權重,通過調節(jié)權重的大小來混合不同的形狀,從而生成各種表情[5]。BlendShape在Unity、Unreal等游戲引擎中有很好的支持。

        應用BlendShape 技術進行驅動有2 個關鍵的步驟:

        (1)得到預設的表情基。這一步可以借助一些人工操作來制作預設的表情基,或者利用3DMM 中的表情系數來構建表情基。目前業(yè)內最常用的是蘋果發(fā)布的ARKit 中提供的52 個表情基,這套表情基涵蓋了臉部大部分區(qū)域和基礎表情。

        (2)估計BlendShape 系數。確定好BlendShape的表情基后,只需要估計各表情基的系數就能實現驅動了。估計表情基的系數有兩種主流方法:一是用最小二乘法求解,針對數字人模型上的所有點和帶權重的表情基建立等式,進而使用最小二乘法得到誤差最小的系數;二是利用深度學習技術,在大規(guī)模數據集上訓練能直接估計BlendShape 系數的深度學習模型。

        4.3 基于骨骼的數字人驅動技術

        三維模型中的骨骼是指一種用于驅動模型運動的技術,它是由一系列的關節(jié)和骨骼組成,形成一個層級結構。骨骼需要與模型進行綁定和蒙皮操作,即將模型的頂點與骨骼關聯(lián)起來,賦予每個頂點一個或多個權重值,表示該頂點受到哪些骨骼的影響。通過對骨骼進行位移和旋轉等操作可以實現動畫效果。

        在計算機視覺中有一系列方法可以估計人臉部的關鍵點[6],機器學習算法工具包dlib 提供的算法能檢測出人臉部68 個關鍵點,MediaPipe 能檢測400 多個關鍵點[7]。因此可以根據關鍵點位置在模型上添加對應的骨骼,然后通過算法實時檢測關鍵點位置并實時驅動骨骼,進而實時驅動數字人。

        5 數字人生成和實時驅動架構

        基于上述各關鍵技術,本文提出一種數字人生成和實時驅動架構,該架構的流程如圖3所示。

        圖3 數字人生成和實時驅動架構示意圖

        該架構基于Unity 實現,并利用flask 搭建web端,其中Unity 主要提供用戶界面,web 端實現數字人生成和驅動算法。該架構能同時完成生成和驅動的任務。

        5.1 數字人生成

        本文設計一種基于深度學習的,不需要三維數據訓練的數字人自動生成方法。該算法能依次完成下列任務:使用3DMM 描述人臉、使用深度學習網絡從照片中估計3DMM 系數、基于骨骼點實現臉部和頭部的融合、基于模板為模型自動綁定骨骼和UV 映射關系。

        (1)基于深度學習的3DMM 系數估計。本方法搭建了一個無監(jiān)督深度學習網絡,該網絡只需要輸入一張照片即可完成數字人重建。同時該網絡在訓練階段也不需要三維數據,因此極大降低了對訓練數據集的要求。從網絡結構上,它由編碼器和解碼器組成,編碼器使用經典的ResNet 網絡從圖像中提取特征,再將特征送入解碼器估計3DMM 系數。同時本網絡是使用可微分的渲染模塊,所以網絡在訓練時,可以通過計算得到的3DMM 重新渲染到二維空間,并通過和輸入照片的比較構建損失函數,實現網絡參數的更新。

        (2)臉部生成。作者在Unity 平臺下搭建了數字人生成和驅動系統(tǒng),用戶在Unity 中上傳圖片,Unity將圖片傳送給Web 端,調用前面訓練好的網絡,即可得到對應人物的3DMM 系數,并生成對應的臉部模型,最后存入數據庫中,等待下次調用。

        (3)臉部和頭部模型融合。根據3DMM 系數只能得到臉部模型,因此作者準備一個頭部模型,并將臉部和頭部融合。但是不同的人生成的臉部形狀不一,所以在臉部和頭部重疊的區(qū)域添加了8 個骨骼點,編寫Python 腳本,首先通過位移和縮放進行初步對齊,初步對齊后,頭部和臉部的朝向一樣,臉部的長度一樣,然后再調整頭部左右兩側的骨骼點使其和臉部貼合,最后再融合頭部和臉部,得到完整的數字人頭部模型。

        (4)自動綁定骨骼和UV 映射。根據3DMM 系數只能得到臉部的網格模型,為了驅動需要增加骨骼,為了展示皮膚細節(jié),需要添加UV 貼圖。因此作者在選定3DMM 模型后,就使用標準的3DMM 模型手工完成了骨骼綁定,并確定了UV 貼圖映射關系。因為3DMM 模型具有一致的拓撲結構,因此可以通過編寫Python 腳本從模板中讀取骨骼和UV 映射,并遷移至新生成的模型中。

        通過上述方法,可以無監(jiān)督地訓練能從照片中估計3DMM 系數的深度學習網絡,可以將生成的臉部模型和頭部模型融合,并給生成的模型做骨骼綁定,增加UV 映射,最后得到一個帶有骨骼和紋理,可以驅動的頭部模型。

        5.2 數字人實時驅動

        4.2 和4.3 小節(jié)分別介紹了2 種主流的數字人驅動技術,但是它們各有特點。

        基于BlendShape 的數字人驅動技術適合完成幅度不大的表情驅動。BlendShape 是通過加權的表情基來驅動數字人的,它能表達的表情受限于表情基的選擇,因此當面對較夸張的表情時,它無法讓數字人做到和真人一樣的表情。

        基于骨骼的數字人驅動技術直接通過人臉關鍵點控制骨骼點,因此具有很強的表達能力,但是當關鍵點檢測不穩(wěn)定時,會影響驅動效果。

        因此我們提出融合BlendShape 的思想和骨骼實現數字人驅動。主要分五步:

        (1)人臉關鍵點提取。人臉關鍵點是基于骨骼驅動的數據來源,本文使用MediaPipe 框架提供的人臉關鍵點檢測算法。該算法能提取出人臉上468 個關鍵點,我們從中選出47 個點作為骨骼點來驅動臉部表情。

        (2)人臉關鍵點坐標平滑。使用算法從視頻中提取人臉關鍵點時,會因為光照變化、劇烈運動等原因導致估計的關鍵點位置抖動,這會嚴重影響驅動效果。作者提出使用卡爾曼濾波器對數據進行平滑,成功消除了大部分抖動。

        (3)表情系數提取。3DMM 中包含了表情系數,因此可以利用訓練好的深度神經網絡估計表情系數,并得到該表情下臉部各點的三維坐標變化量。這些變化量可以看做基于BlendShape 驅動的結果。

        (4)融合BlendShape 和骨骼的數字人驅動?;贐lendShape 和基于骨骼驅動各有特點,因此作者提出一種融合驅動算法,該算法即能表示較夸張的表情,同時約束各點的坐標,確保它們在表情空間內。該算法基于卡爾曼濾波器的思路設計,通過計算基于BlendShape 和基于骨骼驅動的結果在上一幀模型關鍵點的速率來作為影響兩套數據權重的因素。

        (5)眼球驅動。生成的3DMM 模型眼球是無法運動的,而對數字人來說,眼睛是很關鍵的部位,因此作者針對性地提出了眼球驅動算法。該算法利用MediaPipe 的結果,得到左右瞳孔上10 個關鍵點的位置,基于三維剛體變換,相機模型,通過在左右眼旋轉矩陣上增加額外約束推導出求解公式,得到左右眼的旋轉歐拉角。

        通過上述方法,可以得到BlendShape 系數和平滑的人臉關鍵點位置,并通過二者的融合提升驅動效果,同時本方法能計算驅動眼球所需的歐拉角。

        6 結束語

        數字人作為一種新興的虛擬人物形式,具有很強的創(chuàng)造性和靈活性,可以在各種場合和領域發(fā)揮重要的作用。隨著計算機技術和人工智能技術的不斷發(fā)展和進步,數字人應用的趨勢也越來越多樣化、個性化以及智能化。相信在不久的將來,隨著技術進步、市場需求、政策支持等多方面因素的推動,數字人作為一種新興的數字化“人力”資產,將在各個領域發(fā)揮更大的作用,成為虛實融合世界的重要參與者和創(chuàng)造者。

        作者貢獻聲明:

        楊文韜:生成技術調研,撰寫和修訂論文,全文文字貢獻40%;

        劉沛卿:驅動技術調研,修訂論文第四章,全文文字貢獻25%;

        佟佳欣:組織實驗測試,修訂論文第五章,全文文字貢獻20%;

        柳楊:論文整體架構,確定技術方案,修訂論文,全文文字貢獻15%。

        注釋

        ①圖片源自:龔才春,中國元宇宙白皮書,2022.1(26):89。

        猜你喜歡
        模型
        一半模型
        一種去中心化的域名服務本地化模型
        適用于BDS-3 PPP的隨機模型
        提煉模型 突破難點
        函數模型及應用
        p150Glued在帕金森病模型中的表達及分布
        函數模型及應用
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權M-估計的漸近分布
        3D打印中的模型分割與打包
        500 Internal Server Error

        500 Internal Server Error


        nginx
        500 Internal Server Error

        500 Internal Server Error


        nginx
        500 Internal Server Error

        500 Internal Server Error


        nginx
        500 Internal Server Error

        500 Internal Server Error


        nginx
        500 Internal Server Error

        500 Internal Server Error


        nginx
        久久婷婷夜色精品国产| 亚洲av无码第一区二区三区| 中文字幕隔壁人妻欲求不满| 永久天堂网av手机版| 性一交一乱一透一a级| 亚洲av男人的天堂在线观看 | 久久91精品国产91久| av毛片在线播放网址| 亚洲成人激情深爱影院在线| 性无码一区二区三区在线观看| 人妻系列无码专区久久五月天| 婷婷丁香社区| 无码专区亚洲avl| 国产丝袜美腿中文字幕| 久久精品国产亚洲av果冻传媒| 大陆极品少妇内射aaaaa| 人妻丰满av∨中文久久不卡| AV中文码一区二区三区| 可以直接在线看国产在线片网址| 亚洲一区二区三区特色视频| 久久久www成人免费精品| 国产精品亚洲欧美天海翼| 日韩熟妇精品视频一区二区| 日本一区二区三区专区| 女人被躁到高潮嗷嗷叫免| 内射中出日韩无国产剧情| 欧美黑人又粗又硬xxxxx喷水| 亚洲精品aⅴ无码精品丝袜足| 亚洲精品国产主播一区二区| 在线观看中文字幕二区| 亚洲熟妇av日韩熟妇在线| 亚洲成av人片天堂网九九| 国产午夜精品av一区二区三| av免费观看网站大全| 人妻仑乱a级毛片免费看| 中文字幕亚洲欧美日韩在线不卡| 亚洲av不卡电影在线网址最新| 国产午夜三级精品久久久| 熟女一区二区中文字幕| 日本久久高清一区二区三区毛片| 91亚洲国产成人aⅴ毛片大全|