亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

淺析3D超寫實(shí)數(shù)字人技術(shù)在直播場景中的應(yīng)用與創(chuàng)新

2022-05-13 06:19:52武海玲譚景瑜谷忠偉支環(huán)宇

中國傳媒科技 2022年5期

武海玲譚景瑜谷忠偉支環(huán)宇金騰

（央視國際網(wǎng)絡(luò)有限公司，北京 100142）

1.背景

2021年兩會，中央廣播電視總臺央視網(wǎng)推出了兩會特別節(jié)目“C+ 真探”，總臺數(shù)字虛擬小編小C（以下簡稱“小C”）首次亮相，以新鮮、獨(dú)特兼具趣味性的兩會報道方式快速出圈。[1]2022年，央視網(wǎng)繼續(xù)對數(shù)字人技術(shù)成果升級并擴(kuò)大創(chuàng)新應(yīng)用范圍，通過融合數(shù)字人系統(tǒng)、實(shí)時面捕/動捕系統(tǒng)、虛擬演播室系統(tǒng)等多個系統(tǒng)，推出虛擬世界的小C與演播室的真人嘉賓、前方兩會代表三方同框的兩會融媒直播節(jié)目《兩會C+時刻》，真正讓3D超寫實(shí)數(shù)字人技術(shù)在主流思想的表達(dá)中發(fā)揮關(guān)鍵作用。

圖1 2022年《兩會C+時刻》直播畫面

2.數(shù)字人直播技術(shù)方案

本次直播需將數(shù)字人小C、兩地嘉賓、虛擬場景、虛擬演播室等多方融合，復(fù)雜的直播場景涉及到數(shù)據(jù)采集、實(shí)時渲染、連線播出等多個直播環(huán)節(jié)，如何實(shí)現(xiàn)上下游數(shù)據(jù)流暢對接實(shí)時傳輸，是本次直播面臨的技術(shù)難點(diǎn)和挑戰(zhàn)。為確保直播畫面逼真立體、流暢清晰，在技術(shù)層面也需攻關(guān)解決數(shù)字人面部及動作的實(shí)時驅(qū)動、與虛擬三維場景等融合實(shí)時渲染等多個問題。央視國際網(wǎng)絡(luò)有限公司通過在UE工程融合、燈光融合、數(shù)據(jù)融合、驅(qū)動效果等多個層面進(jìn)行針對性調(diào)優(yōu)，對每一個直播環(huán)節(jié)進(jìn)行逐項(xiàng)優(yōu)化，實(shí)現(xiàn)多個部分的有效聯(lián)接，最終確保了直播效果和直播安全。

圖2 系統(tǒng)架構(gòu)圖

2.1 數(shù)字人面部數(shù)據(jù)采集驅(qū)動

在直播中，小C需要基于演播室嘉賓、云連線嘉賓的現(xiàn)場表現(xiàn)，及時做出個性化反饋。數(shù)字人的面部表情與口型實(shí)時驅(qū)動技術(shù)是核心也是難點(diǎn)。為提高直播中小C面部表情驅(qū)動的真實(shí)性與靈活性，小C面部建模采用了4D掃描+高保真3D數(shù)字人像綁定技術(shù)，參見圖3。具體分為兩個步驟：首先，對靜態(tài)臉和FACS表情進(jìn)行掃描建模，并以此為基準(zhǔn)，對人像面部進(jìn)行初步blendshape綁定；其次，基于前期采集的高精頂點(diǎn)流數(shù)據(jù)和多階段頂點(diǎn)流解算算法，在控制亞毫米級誤差表情重建的同時，實(shí)現(xiàn)準(zhǔn)確的跨人像表情語義遷移，并針對實(shí)時場景優(yōu)化人像面部綁定效果。

圖3 人像綁定優(yōu)化與4D掃描數(shù)據(jù)采集、解算

在口型驅(qū)動方面，依托前期積累的大量口型數(shù)據(jù)和人臉數(shù)據(jù)標(biāo)注，通過輕量級的深度神經(jīng)網(wǎng)絡(luò)模型進(jìn)行人像驅(qū)動綁定并反復(fù)迭代調(diào)優(yōu)，實(shí)現(xiàn)端到端的口型還原及表情實(shí)時控制，參見圖4。同時，加入詞匹配、停頓位置匹配、拼音模糊字匹配等功能，降低匹配錯誤率，小C目前的逐字口型準(zhǔn)確率均大于98.5%，且驅(qū)動渲染性能優(yōu)異、連線延遲低。

圖4 語音預(yù)測口型/表情參數(shù)

2.2 數(shù)字人動作數(shù)據(jù)采集驅(qū)動

在動作驅(qū)動上，小C采用低時延、高精度、高穩(wěn)定的專業(yè)慣性捕捉方案，把集成了加速度計、陀螺儀和磁力計的IMU 綁在人體的特定骨骼節(jié)點(diǎn)上，通過算法對測量數(shù)值進(jìn)行計算實(shí)現(xiàn)動作捕捉。該方案采用先進(jìn)的微型慣性傳感器、生物力學(xué)模型以及傳感器融合算法，精準(zhǔn)捕捉人體上的細(xì)微動作，對采集的傳感數(shù)據(jù)經(jīng)過校準(zhǔn)、誤差檢測和補(bǔ)償、數(shù)據(jù)融合后，統(tǒng)一進(jìn)行三維運(yùn)動分析。該方案的優(yōu)勢在于實(shí)時捕獲的空間位移數(shù)據(jù)不受磁性失真的影響，解決了過去慣性捕捉系統(tǒng)漂移、滑腳以及高度跟蹤扭曲等缺陷，在做雙腳同時離地、跳躍、爬樓等動作時均不會產(chǎn)生數(shù)據(jù)漂移現(xiàn)象。同時，輸出的動作捕捉數(shù)據(jù)可靠、純凈、完整，不需要進(jìn)行后處理即可直接使用。

在實(shí)際執(zhí)行中，借助上述傳感器融合技術(shù)和動作捕捉引擎，精準(zhǔn)采集人的骨骼三維運(yùn)動數(shù)據(jù)并分發(fā)至虛擬演播室的多個直播機(jī)位，平滑連接MotionBuilder、UE4等三維引擎系統(tǒng)，成功將穩(wěn)定、精準(zhǔn)又具備個性化特征的運(yùn)動數(shù)據(jù)實(shí)時映射至小C模型（參見圖5），準(zhǔn)確還原每個動作，實(shí)現(xiàn)在直播中與真人嘉賓的實(shí)時流暢互動。

圖5 實(shí)時動捕參數(shù)配置界面

2.3 虛擬3D場景制作

本次直播的主題是“兩會+科技”，小C和現(xiàn)場嘉賓共同置身于一個科技感、未來感超強(qiáng)的虛擬空間進(jìn)行對話，決定虛擬場景效果的主要因素是燈光。在燈光設(shè)計中，使用了基于PBR光照模型中的全局光照算法和光學(xué)模型來模擬環(huán)境整體光線效果，對反照率紋理、法線貼圖紋理、金屬貼圖、粗糙度貼圖、環(huán)境光遮蔽貼圖進(jìn)行參數(shù)化建模（參見圖6），盡量還原現(xiàn)實(shí)世界的光照效果。由于場景中的人物和物體對光照的需求不同，在燈光配置時，對場景中的小C和虛擬場景利用不同通道進(jìn)行燈光配置，減少人物光和環(huán)境光的相互干擾，并將照向小C的燈光與人物的位置關(guān)系綁定，避免人物在移動時光源隨之移動的問題。燈光的資源消耗是影響直播效果的因素之一。通過對大量光線——物理進(jìn)行相交測試，進(jìn)一步提升3D空間中路徑“采樣”的效率，使光線盡可能直接到達(dá)觀測點(diǎn)或經(jīng)過單次反射到達(dá)觀測點(diǎn)，從而減少由于多個燈光重疊而產(chǎn)生的復(fù)雜光影對計算資源的消耗。同時，采用BRDF對光照反射進(jìn)行建模，提高渲染效率，有效減少畫面噪點(diǎn)。

圖6 參數(shù)化建模截圖

2.4 虛擬演播室融合

虛擬演播室技術(shù)將虛擬場景與攝像機(jī)現(xiàn)場拍攝的活動圖像進(jìn)行數(shù)字化實(shí)時合成，使得虛擬元素和畫面的三維透視關(guān)系完全一致，同步變化，達(dá)到逼真、立體的節(jié)目效果。本節(jié)目使用高精度、可自動跟蹤的攝像機(jī)，虛擬渲染主機(jī)根據(jù)攝像機(jī)獲取的跟蹤數(shù)據(jù)對三維虛擬演播室模型進(jìn)行位置定位，基于亞像素細(xì)節(jié)的實(shí)時摳像技術(shù)，將攝像機(jī)信號和虛擬演播室模型進(jìn)行摳像合成，并將非綠箱部分進(jìn)行遮罩處理。3DTrackMaker軟件根據(jù)跟蹤信息制作鏡頭文件，1：1還原虛擬物體與人物比例，最終輸出逼真豐富的畫面。在直播中，還將虛擬場景的相機(jī)與現(xiàn)實(shí)相機(jī)的推拉搖移實(shí)時關(guān)聯(lián)驅(qū)動，為用戶呈現(xiàn)無縫融合的光影效果，實(shí)現(xiàn)了高質(zhì)量的節(jié)目播出效果。

2.5 連線播出處理

連線播出系統(tǒng)以超高清切換臺為核心，前端可實(shí)現(xiàn)攝像機(jī)、4K多通道錄放機(jī)、手機(jī)、筆記本、VR、4G/5G背包等多種信號源的輸入、處理和分發(fā)，具備字幕編輯制作、IP流信號接入、網(wǎng)絡(luò)推流、多通道多碼率錄制等功能。信號輸出通過4K多通道錄放機(jī)以及可編輯延時器實(shí)現(xiàn)超高清節(jié)目錄制和超高清信號網(wǎng)絡(luò)延時直播功能。

在實(shí)際直播中，連線播出系統(tǒng)在接入端接入虛擬演播室主備信號、小C主備信號、連線嘉賓主備信號等6套信號源，由導(dǎo)播臺進(jìn)行鏡頭切換。小C、現(xiàn)場嘉賓、連線嘉賓的聲音收錄后均輸入調(diào)音臺，經(jīng)EQ及音頻壓縮處理器進(jìn)行降噪、混音、聲畫同步處理后，推送至收錄設(shè)備將處理好的聲音與畫面合成，最后推流到播出端。在播出端可利用可編輯延時器將直播信號延遲，并推至下游內(nèi)容分發(fā)系統(tǒng)進(jìn)行多渠道分發(fā)播出。

2.6 網(wǎng)絡(luò)與安全保障

本次直播準(zhǔn)備時間緊，直播活動的上下流鏈條較多，需要一套相對完整且安全的網(wǎng)絡(luò)環(huán)境，服務(wù)于虛擬場景、動作捕捉、面部捕捉等多個應(yīng)用數(shù)據(jù)分發(fā)系統(tǒng)。本次直播網(wǎng)絡(luò)上采用了扁平化結(jié)構(gòu)，可快速部署、輕維護(hù)，并在通訊傳輸及物理鏈路上充分考慮備份方案，確保當(dāng)主路出現(xiàn)問題時可以快速切換到備路，確保安全播出。由于數(shù)字人、虛擬場景渲染碼率要求高，對網(wǎng)絡(luò)流量需求較大，故采用高性能網(wǎng)絡(luò)交換機(jī)進(jìn)行網(wǎng)絡(luò)連接及數(shù)據(jù)分發(fā)，不同需求的業(yè)務(wù)通過交換機(jī)設(shè)置VLAN實(shí)現(xiàn)網(wǎng)絡(luò)隔離和多種數(shù)據(jù)類型交換和傳輸。參見圖7。

圖7 網(wǎng)絡(luò)部署示意圖

內(nèi)容安全涉及數(shù)據(jù)采集、實(shí)時渲染、播出畫面等多個環(huán)節(jié)。在數(shù)據(jù)采集上制定了多臺手機(jī)面捕備播方案，將多臺面捕手機(jī)添加至同一局域網(wǎng)中，直播中若主手機(jī)出現(xiàn)問題，可自動切換至備用手機(jī)。實(shí)時渲染層面小C特寫畫面和虛擬演播室均采用主備方案，利用4臺攝像機(jī)和6臺渲染引擎同時拍攝、渲染，互相作為備份，一旦有一臺渲染引擎出現(xiàn)故障，迅速切換其他機(jī)位進(jìn)行節(jié)目直播。播出層面則由導(dǎo)播臺配置好6臺渲染機(jī)畫面和一條備片，提前演練畫面切換，在直播中配置專人審核畫面效果和畫面內(nèi)容，確保內(nèi)容安全。

3.技術(shù)難點(diǎn)及應(yīng)對措施

3.1 低成本無穿戴實(shí)時面捕

數(shù)字人的面部驅(qū)動通常采用捕捉技術(shù)采集真人演員的動作和面部表情數(shù)據(jù)，之后將這些數(shù)據(jù)遷移合成到虛擬數(shù)字人身上，再由動畫師手K方式處理異常數(shù)據(jù)，整個流程時間長、成本高。為滿足直播低延時、低成本要求，在應(yīng)用層基于手機(jī)自帶的ARKit框架開發(fā)了一套無穿戴式的低成本實(shí)時面捕應(yīng)用。利用手機(jī)的景深攝像頭采集真人的表情參數(shù)和人臉位姿，生成面部3D點(diǎn)陣云圖，通過表情重定向、位姿校正與映射等處理后，輸出3D人像的表情參數(shù)、人臉位姿（參見圖8），一次采集的數(shù)據(jù)可以同時發(fā)送到四套UE（主備數(shù)字人工程、主備虛擬演播室工程）工程中，實(shí)時驅(qū)動小C做出各種表情，確保多畫面輸出時小C面部效果的一致性，且表情和動作延遲控制在秒級。

圖8 目標(biāo)人像表情參數(shù)、人臉位姿生成

3.2 直播場景下的多來源UE工程融合

現(xiàn)有虛擬演播室系統(tǒng)大多是基于（或兼容）Epic Games公司的UE4系統(tǒng)做深度研發(fā)，能夠兼容標(biāo)準(zhǔn)UE4工程，但在實(shí)際使用中因工程個性化開發(fā)、多系統(tǒng)協(xié)同等原因，往往會出現(xiàn)融合失敗現(xiàn)象。本次活動中，在虛擬演播室工程中嵌入小C和虛擬場景時，出現(xiàn)了工程遷移不成功的情況，原因是小C的UE工程既有動畫藍(lán)圖也有角色藍(lán)圖，但虛擬演播室系統(tǒng)一般只兼容動畫藍(lán)圖。經(jīng)技術(shù)人員多次嘗試探索，最終制定了兩種可行的解決方案，一是將小C工程和虛擬場景融合后，再將虛擬演播室工程遷入融合。二是將小C工程與虛擬場景工程融合后獨(dú)立運(yùn)行，虛擬演播室系統(tǒng)設(shè)置為獨(dú)立運(yùn)行模式，最后再將兩者合成。最終兩套方案在本次直播中均加以應(yīng)用，實(shí)現(xiàn)了虛擬場景、小C、現(xiàn)場嘉賓在同一畫面下的實(shí)時動態(tài)聯(lián)動。

3.3 多鏡頭燈光效果和質(zhì)量控制

節(jié)目播出過程中需呈現(xiàn)多個鏡頭切換效果，包括小C和現(xiàn)場嘉賓的大全景、小C特寫、嘉賓特寫等，為提升整體畫面的自然逼真程度，確保用戶視覺體驗(yàn)，必須保持多鏡頭下燈光效果的一致性。UE4系統(tǒng)擁有完整的虛擬燈光系統(tǒng)，直接影響小C和虛擬場景的亮度、色彩以及光影效果。虛擬演播室系統(tǒng)要調(diào)整實(shí)景環(huán)境專業(yè)燈光設(shè)備對面光、逆光、側(cè)面光、背景光等打光效果，并通過自身的整套燈光控制系統(tǒng)來實(shí)現(xiàn)虛實(shí)場景燈光融合。兩套系統(tǒng)燈光融合效果的好壞，直接影響燈光的輸出效果。在聯(lián)調(diào)中，燈光師在最終渲染界面對UE4和虛擬演播室燈光的配置參數(shù)反復(fù)調(diào)優(yōu)，確保畫面輸出效果統(tǒng)一。此外，過度強(qiáng)調(diào)虛擬燈光效果會占用大量的計算資源，影響渲染效果，降低畫面質(zhì)量，所以利用減少燈光數(shù)量、調(diào)整燈光位置、強(qiáng)化人物燈光等手段，在有限的計算資源范圍內(nèi)對燈光性能調(diào)優(yōu)，在確保高質(zhì)量燈光的同時盡量減少計算資源消耗。

3.4 數(shù)字人實(shí)時渲染畫面質(zhì)量和性能的平衡

虛擬引擎實(shí)時渲染的質(zhì)量控制，本質(zhì)是分配計算資源、管控性能損耗的過程。小C作為3D超寫實(shí)數(shù)字人，僅面部面數(shù)就接近10萬面，而面數(shù)越多就意味著需要越多的計算資源。同時，虛擬場景的靜態(tài)及動態(tài)燈光、動態(tài)陰影、著色器、虛擬演播室的實(shí)時摳像合成等都需要大量的計算資源。如何在功能、品質(zhì)、性能三者中取得平衡，并在直播安全的前提下達(dá)到畫面的逼真、精細(xì)、流暢，這都需要反復(fù)測試與驗(yàn)證。經(jīng)過多天聯(lián)調(diào)測試，在小C發(fā)型和服裝上采用對渲染性能消耗更少的面片頭發(fā)和較緊身西裝，將小C獨(dú)立工程的直播幀率提升至80FPS以上；進(jìn)一步優(yōu)化虛擬場景和半透明物體控制，去掉較為消耗性能的粒子特效，并將場景燈光聚焦于大全景和小C特寫，對非核心區(qū)域的元素和燈光做減化處理；優(yōu)化虛擬演播室合成畫面，在測試播出畫面時發(fā)現(xiàn)全景下小C出現(xiàn)局部模糊和畫面錯位問題。問題出在UE4系統(tǒng)自身邏輯及系統(tǒng)插件的使用上，通過拉近相機(jī)、關(guān)掉動態(tài)模糊和發(fā)質(zhì)增強(qiáng)、調(diào)整燈光設(shè)置、調(diào)整深度學(xué)習(xí)超級采樣（DLSS）設(shè)置等方式，進(jìn)一步優(yōu)化了小C面部質(zhì)量和大全景畫面效果，參見圖9。通過多種優(yōu)化舉措，最終在直播安全穩(wěn)定的前提下，實(shí)現(xiàn)了畫面質(zhì)量、渲染速度、系統(tǒng)穩(wěn)定三者的平衡。

圖9 DLSS高級質(zhì)量功能打開前后對比圖

結(jié)語

近期虛擬人呈現(xiàn)井噴式發(fā)展，并被廣泛應(yīng)用于媒體場景，而真正將3D超寫實(shí)數(shù)字人技術(shù)與虛擬演播室技術(shù)相結(jié)合，并應(yīng)用于融媒體直播的案例還較少。央視網(wǎng)在《兩會C+時刻》節(jié)目實(shí)踐中，綜合運(yùn)用實(shí)時面部/動作捕捉、實(shí)時渲染、深度學(xué)習(xí)等多種技術(shù)，構(gòu)建了“3D超寫實(shí)數(shù)字人+虛擬演播室+直播”虛實(shí)結(jié)合的直播節(jié)目形態(tài)，實(shí)現(xiàn)了“技術(shù)+藝術(shù)+思想”的創(chuàng)新表達(dá)。加大3D超寫實(shí)數(shù)字人技術(shù)應(yīng)用力度也是業(yè)界探索的方向之一，未來將加大3D超寫實(shí)數(shù)字人的技術(shù)攻關(guān)力度，進(jìn)一步探索將3D超寫實(shí)數(shù)字人落地更多應(yīng)用場景。