亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        超寫實虛擬主播的技術(shù)演進分析與思考

        2022-05-30 22:54:06林小慧
        藝術(shù)科技 2022年19期

        摘要:科技是媒體行業(yè)發(fā)展的重要支撐。數(shù)字人被預判為元宇宙產(chǎn)業(yè)的入口,成為資本、技術(shù)、政策、媒體等關(guān)注的焦點。虛擬主播作為數(shù)字人的主要呈現(xiàn)形式,當下被融媒體行業(yè)作為一種創(chuàng)新應用不斷推廣。在多方助力之下,虛擬主播技術(shù)在數(shù)字建模、AI智能驅(qū)動、語音生成、數(shù)字渲染等多個方面均取得了較大的進步。文章從超寫實虛擬主播制作技術(shù)切入,分析制作過程中各模塊的技術(shù)演進,以及不同的技術(shù)形態(tài)對虛擬主播制作的影響,旨在讓公眾對超寫實虛擬主播有更深入的了解,并為高校影視制作、播音主持等專業(yè)人才的培養(yǎng)帶來一定的啟示。

        關(guān)鍵詞:虛擬主播;數(shù)字建模;驅(qū)動技術(shù);語音生成;數(shù)字渲染

        中圖分類號:G222.2 文獻標識碼:A 文章編號:1004-9436(2022)19-00-04

        虛擬主播也被稱為合成主播、人工智能主播,數(shù)字人主播是其當下比較熱門的稱謂。虛擬主播作為數(shù)字人的主要呈現(xiàn)形式,是元宇宙產(chǎn)業(yè)中各方發(fā)力的重點。正因為自身還在不斷進化發(fā)展,虛擬主播目前還沒有一個能讓公眾信服、經(jīng)得起檢驗的定義。單純從技術(shù)角度來看,虛擬主播的特征還是比較明顯的:虛擬主播是指基于計算機圖像技術(shù)(CG)、自然語言處理技術(shù)(NLP)、5G、大數(shù)據(jù)和人工智能技術(shù)等制作,在電視、互聯(lián)網(wǎng)等融媒體平臺中承擔主持與播報任務的智能產(chǎn)品。其中,超寫實虛擬主播更趨近真人,具有“照片級”的畫面形象,身體動作和微表情逼真,聲音流暢自然,代表著當下虛擬主播最新的技術(shù)水平和行業(yè)動向。

        有研究認為,擬人化能夠增強觀眾對虛擬主播的熟悉感和信任感,虛擬主播一直沿著虛擬人不“虛擬”的技術(shù)方向發(fā)展,目前技術(shù)早已越過了“恐怖谷效應”[1]。例如,2018年全球首個AI合成主播新小浩、2021年社交APP小紅書發(fā)布的虛擬人AYAYI和短視頻APP抖音發(fā)布的超寫實美妝虛擬主播柳夜熙、2022年北京冬奧會AI虛擬氣象主播馮小殊……這些產(chǎn)品在形象和聲音方面已經(jīng)接近真人,但還無法完全代替真人主播。技術(shù)演進的路線和發(fā)展速度表明,在某些行業(yè)虛擬主播完全代替真人主播可能已經(jīng)不太遠了。虛擬主播不僅形象真實、語音生成自然,而且深度神經(jīng)網(wǎng)絡學習技術(shù)正在嘗試賦予虛擬主播情感和類人思維(如GPT-3)。不斷進化的虛擬主播產(chǎn)品也會對高校人才培養(yǎng)產(chǎn)生影響,如虛擬主播會不會讓主持專業(yè)學生失去工作,學校所學知識和技能能否適應快速發(fā)展的行業(yè),學校如何更有針對性地制訂人才培養(yǎng)方案等。針對這些疑問,只有研究清楚虛擬主播的技術(shù)初衷、演進歷程、關(guān)鍵點和邊界后,才能給出真正可行的建議。

        無限接近真人是虛擬主播技術(shù)演進的方向,虛擬主播技術(shù)是多學科交叉共同促進的,演進過程中的每一次重大進步又呈現(xiàn)出科技強權(quán)的特點,即技術(shù)是虛擬主播發(fā)展的第一要素。從虛擬主播生成的技術(shù)流程來看,其中的技術(shù)條塊大致可分為數(shù)字建模、關(guān)鍵點驅(qū)動、語音生成、渲染合成四個方面。

        1 數(shù)字建模技術(shù)的演進

        數(shù)字建模是電腦圖像技術(shù)(CG)領域比較基礎的概念,通過靜態(tài)手工重建或高保真度的三維掃描重建技術(shù),實現(xiàn)虛擬人形象的基礎構(gòu)建。建模的重點在于形象的細節(jié)制作或還原,建模方式的演進可分為傳統(tǒng)三維軟件手工建模、3D掃描建模和人工智能建模三個階段。

        1.1 傳統(tǒng)三維軟件手工建模

        建模技術(shù)決定虛擬數(shù)字主播的人物形象。早期虛擬主播逼真度低,多是二維半身形象或二次元形象,如2000年英國研發(fā)的全球第一個虛擬主播阿娜諾娃(Ananova),以及同年國內(nèi)出現(xiàn)的首個虛擬網(wǎng)絡主播GoGir,都是二維半身形象。早期的三維軟件建模技術(shù)主要依靠人工:在設定好的原畫基礎上使用電腦建模軟件(如雕刻軟件ZBrush),手工慢慢打磨成型。2000年在上海國際電視節(jié)亮相的比爾·鄧(后改名為“言東方”)是國內(nèi)最早的電視虛擬主播,其最大的亮點是初步實現(xiàn)了3D立體建模,但受限于技術(shù),當時還只能生成一個光頭的半身形象。2004年央視電影頻道推出《光影周刊》欄目,虛擬主持人小龍的建模技術(shù)已經(jīng)有了明顯的進步,臉部建模融合了多位國內(nèi)男明星的特點,還能適應周播的需要,變化服裝和發(fā)型。到此,虛擬主播在建模方面實現(xiàn)了從半身到全身,從2D到3D的進步。此后數(shù)十年,雖然傳統(tǒng)建模技術(shù)不斷進步,建模軟件不斷更新,但都沒有質(zhì)的飛躍,建模依然是一個耗時費力的大工程,只能算是藝術(shù)家們的手工作品。

        1.2 3D掃描建模

        3D掃描技術(shù)在工業(yè)領域運用較為成熟,由此延伸出了拍攝制圖技術(shù),可通過對真實主播進行3D拍攝,從而獲得孿生數(shù)字虛擬主播形象,成為行業(yè)追求效率的首選。其根據(jù)光場采集原理的不同,又可以分為相機陣列掃描和動態(tài)光場重建兩類。

        相機陣列掃描技術(shù)能夠通過搭建的球形相機陣列對被攝物體進行全方位拍照,利用不同圖片之間重疊的相同像素點實現(xiàn)3D物體模擬。當下比較流行的手機拍照獲取人臉三維模型的攝影制圖法算是相機陣列掃描技術(shù)的初級版。相機陣列掃描建模技術(shù)是目前國內(nèi)制作數(shù)字孿生虛擬主播的主要方式,2018年發(fā)布的全球首個AI合成主播新小浩正是使用相機陣列掃描技術(shù)進行2D建模的。相機陣列掃描受相機分辨率、被攝體光場照明情況等因素的影響較大,缺乏物體動態(tài)的反射光場信息,制作出來的模型細節(jié)較為扁平。

        動態(tài)光場重建技術(shù)是目前國際上最先進的掃描建模技術(shù),美國南加州大學ICT Graphic Lab的保羅·德貝維奇(Paul Debevec)領導開發(fā)了三維采集重建平臺系統(tǒng)Light Stage,從2000年問世至今已發(fā)展到第六代,被命名為Light Stage X。目前相關(guān)技術(shù)國內(nèi)還在研發(fā)之中,投入商業(yè)使用的較少。動態(tài)光場重建技術(shù)除了能像相機陣列那樣得到被攝體的三維模型,還能夠獲得物體表面的反射場信息,如在掃描人物面部時分別獲取皮膚表面的鏡面反射光信息和光線深入表皮毛細血管和組織所形成的漫反射光信息,實現(xiàn)不同光照及不同視角下的模型光場效果,通過在模型上重建反射光場信息,逼真地渲染重現(xiàn)超寫實的人臉模型[2]。

        1.3 人工智能建模

        高精度的三維掃描建模技術(shù)需要強大的硬件配置,2022年上半年由Epic開發(fā)的Unreal Engine 5完整版正式推出,其中的MetaHuman Creator可以利用自身的掃描數(shù)據(jù)庫,再加上類似游戲軟件的捏臉交互系統(tǒng),讓普通用戶免費生成“照片級”超寫實虛擬人,這標志著建模技術(shù)進入了大數(shù)據(jù)和人工智能助力發(fā)展的新階段,實現(xiàn)了傳統(tǒng)三維軟件手工建模與三維掃描建模技術(shù)(基于現(xiàn)有數(shù)據(jù)庫)的有機結(jié)合。小紅書在2020年5月正式上線的虛擬主播AYAYI就是使用MetaHuman Creator制作出來的。技術(shù)進步讓普通用戶“捏制”虛擬數(shù)字人成為現(xiàn)實,用戶可以利用這項技術(shù)制作自己理想的虛擬主播形象。

        2 虛擬主播驅(qū)動技術(shù)的演進

        綁定模型中的關(guān)鍵點,驅(qū)動模型模仿真人主播身體和面部的運動是虛擬主播驅(qū)動技術(shù)的關(guān)鍵。驅(qū)動技術(shù)的演進可分為關(guān)鍵幀動畫、動作捕捉和人工智能驅(qū)動三個階段。

        2.1 關(guān)鍵幀動畫

        關(guān)鍵幀動畫技術(shù)由建模人員繪制關(guān)鍵幀圖片,由電腦動畫軟件計算相鄰關(guān)鍵幀圖片之間的差值并平滑過渡。早期的虛擬主播阿娜諾娃、比爾·鄧、伊妹兒、小龍等在驅(qū)動方面使用的都是電腦關(guān)鍵幀動畫技術(shù)。為了避免呈現(xiàn)出來的動作過于僵硬,虛擬主播往往只有簡單的手部、頭部動作和固定的幾個唇動。關(guān)鍵幀動畫目前在電腦動畫合成軟件中依然經(jīng)常使用。

        2.2 動作捕捉

        電影特效技術(shù)一直處于影視科技的最前沿。早在2001年,電影《指環(huán)王》就通過動作捕捉技術(shù)和CG技術(shù)制作了咕嚕。2008年的電影《阿凡達》運用動作捕捉技術(shù)完成全部表演。2016年,日本首先將動作捕捉技術(shù)運用到網(wǎng)絡虛擬主播生產(chǎn)上,推出了動漫虛擬主播絆愛(Kizuna AI)。絆愛通過真人“中之人”佩戴運動捕捉設備來控制,模型的面部表情和前后運動由“中之人”完成,再由配音演員配音,最后形成真人幕后扮演的直播或錄像,“中之人”需要實時驅(qū)動虛擬數(shù)字主播表演[3]。

        根據(jù)捕捉設備的不同,動作捕捉技術(shù)可以分為光學動作捕捉技術(shù)、慣性動作捕捉技術(shù)和視頻識別動作捕捉技術(shù)。光學動作捕捉技術(shù)利用“中之人”身體上的紅外光反射點來采集動作,精確度高,對場地要求苛刻,國內(nèi)大型媒體運用較多。慣性動作捕捉技術(shù)是目前比較普及的技術(shù)形式,使用穿戴設備且不受場地影響,由于慣性誤差其精度降低,目前網(wǎng)絡虛擬主播領域使用較多。視頻識別動作捕捉技術(shù)是利用電腦或手機自身攝像頭,通過視頻采集拍攝對象面部和肢體動作并驅(qū)動虛擬主播運動,操作簡單。如果技術(shù)精度能夠大幅提升,將有廣闊的發(fā)展前景。

        2.3 人工智能驅(qū)動

        文本輸入后,系統(tǒng)實時“翻譯”成語音,再經(jīng)過深度神經(jīng)網(wǎng)絡學習實現(xiàn)模型對真人運動的智能化模仿,這樣的AI智能驅(qū)動技術(shù)是行業(yè)的發(fā)展方向。2018年新華社聯(lián)合搜狗發(fā)布了全球首個AI合成主播新小浩,標志著虛擬主播進入AI智能驅(qū)動的時代。模型通過前期采集邱浩動捕數(shù)據(jù),在深度學習的基礎上實現(xiàn)了基于AI算法實時驅(qū)動,只需輸入文本內(nèi)容,新小浩就能根據(jù)語義實時播報,并實現(xiàn)表情唇動、肢體動作和語音表達的高度契合。2019年新華社聯(lián)合搜狗又發(fā)布了首個3D版AI合成主播新小微。AI虛擬主播的“分身”技術(shù)基于“自然交互+知識計算”技術(shù),將真人主播的聲音、唇形、表情動作等特征提取出來,然后再通過人臉識別、人臉建模、語音合成、唇形合成、表情合成及深度學習等多項人工智能技術(shù)將真人主播“克隆”出來,展現(xiàn)出與真人相似度極高的信息播出效果。

        AI合成主播開創(chuàng)了新聞領域?qū)崟r音頻與AI真人形象合成的先河,只需要輸入需要播發(fā)的文本內(nèi)容,計算機就會生成相應AI合成主播播報的新聞視頻,每天24小時無限時投入工作,不會生病,不會受情感因素影響,極大地提升了電視新聞的制作效率,降低了制作成本,提高了報道的質(zhì)量[4]。

        3 虛擬主播聲音技術(shù)的演進

        虛擬主播聲音技術(shù)的演進可以分為演員配音合成、AI語音合成和具有交互能力的自然語言生成三個階段。

        3.1 演員配音合成

        虛擬主播說話的聲音早期是采用演員配音的方式實現(xiàn),如小龍是配音演員按照寫好的臺詞完成聲音部分,再通過后期動畫軟件為每一段聲音匹配上合適的唇動和面部表情。配音合成限制較多,修改成本較高。

        3.2 AI語音合成

        AI語音合成技術(shù)使虛擬主播擁有真人一樣的說話能力,是超寫實虛擬主播發(fā)聲的基礎。2015年,微軟小冰以人工智能氣象主播的身份出現(xiàn)在東方衛(wèi)視《看東方》節(jié)目中,小冰沒有視覺形象,工作團隊采用人工智能技術(shù),讓小冰能夠基于智能云和大數(shù)據(jù)解析與預測天氣數(shù)據(jù),不需要提前人工給定播報文本,在直播現(xiàn)場即可完成純聲音互動播報。2018年科大訊飛打造的AI虛擬主播康曉輝亮相央視《直播長江》節(jié)目,既生成了康輝人物形象,又智能合成了康輝的聲音。目前科大訊飛已實現(xiàn)多語言新聞播報,支持文本到視頻的自動輸出。

        語音識別技術(shù)使虛擬主播能夠“聽懂”人類的語音,并將語音中包含的文字信息提取出來,相當于給虛擬主播裝上了“耳朵”。2022年北京冬奧會期間,百度和央視聯(lián)合推出“AI手語主播”,利用語音識別技術(shù)實現(xiàn)從文字及音視頻內(nèi)容到手語的翻譯,再通過專為手語優(yōu)化的自然動作引擎驅(qū)動虛擬形象,將手語實時演繹為數(shù)字人的表情動作,為聽障用戶提供手語服務,完全可以替代人工手語主播。

        3.3 可期的自然語言生成

        在自然語言生成(NLP)方面,2020年OpenAI公司推出第三代通用預訓練轉(zhuǎn)換器GPT-3,全稱是“General Pre-trained Transformer-3”,它具有1750億參數(shù)量。GPT-3利用深度學習將文本轉(zhuǎn)化為需求,并將計算結(jié)果回歸成自然語言文本傳遞給使用者,實現(xiàn)了人與計算機程序自然語言化的溝通。除了能實現(xiàn)智能人機對話,GPT-3還能自動創(chuàng)作,如寫小說、做網(wǎng)頁、編寫程序等。如果將GPT-3與智能語音合成技術(shù)、圖像處理技術(shù)等整合,虛擬主播將不需要給定文本,直接從新聞大數(shù)據(jù)中抓取信息,并自動生成播報內(nèi)容,且可以根據(jù)話題與觀眾互動。

        4 虛擬主播渲染技術(shù)的演進

        電腦3D圖形的解算是由各種復雜的坐標轉(zhuǎn)換和光源計算組成的,建模和渲染主要依靠電腦GPU技術(shù)的發(fā)展。1999年NVIDIA發(fā)布了標志性的產(chǎn)品GeForce256,支持3D圖形的坐標轉(zhuǎn)換和光源追蹤功能,從此電腦3D圖像制作和渲染所使用的坐標處理和光源運算可以靠GPU來處理,CPU從繁重的圖形計算中解放出來,使個人計算機3D圖形加速能力突飛猛進,具有向大眾普及3D圖形加速的使用場景和能力,此項技術(shù)為2000年至2004年3D虛擬主播的問世提供了技術(shù)保障。

        通過掃描獲取到的模型通常存在瑕疵,美術(shù)人員利用3D建模工具(如Maya、3DMax等)調(diào)整、優(yōu)化、重新拓撲,然后利用建模軟件或材質(zhì)制作軟件(如Substance)進行高精度模型烘焙或制作出漫反射、法線、粗糙度、散射、高光等貼圖,之后將制作的模型和貼圖導入渲染引擎(如UnrealEngine5,Unity3D等),加入光照、材質(zhì)、場景等元素,使用PBR(Physically Based Rendering)渲染和著色技術(shù),獲得最終成像。渲染技術(shù)可以分為實時渲染和離線渲染兩類,前者主要應用于游戲領域,實現(xiàn)玩家與角色的實時互動。Unreal Engine作為商業(yè)渲染引擎的巨頭,在實時渲染領域做了很多創(chuàng)新,采用“漫反射+粗糙度+高光度+散射+法線”等貼圖結(jié)合的方式,高精度還原人類皮膚細節(jié)。

        超寫實虛擬主播的模型、驅(qū)動、光場等數(shù)據(jù)量較大,普通電腦受硬件配置限制,達不到實時渲染的條件,所以超寫實虛擬主播主要以離線渲染后的視頻形式傳播給觀眾。以2021年抖音發(fā)布的超寫實美妝虛擬主播柳夜熙為例,其妝容細膩,皮膚渲染效果令人驚嘆,這樣的效果還只能通過離線渲染來實現(xiàn)。

        5 結(jié)語

        以2016年基于深度學習的圍棋程序AlphaGo擊敗頂尖職業(yè)棋手作為標志性事件,人工智能走進了公眾視野。超寫實虛擬主播技術(shù)在人工智能的助力下不斷創(chuàng)造驚喜。技術(shù)終究是為人服務的,從技術(shù)演進的角度進行分析發(fā)現(xiàn),虛擬主播技術(shù)的應用并非為了取代人類主播,而是強調(diào)人和虛擬主播之間的協(xié)同關(guān)系。應勇于嘗試,讓新技術(shù)彌補真人主播的不足。虛擬主播能一直保持工作狀態(tài),適合時間長、重復性強、需要快速播報的情況,從而成為真人主播的幫手。從高校人才培養(yǎng)的角度來看,影視制作專業(yè)在人才培養(yǎng)方面需要緊跟技術(shù)發(fā)展步伐,主動引導學生學習并掌握新技術(shù),如最新的動作捕捉技術(shù)、聲音合成技術(shù)、智能建模和渲染技術(shù)等,增強學生的市場競爭力,供給行業(yè)發(fā)展急需的專精人才;播音主持專業(yè)在人才培養(yǎng)目標方面要樹立人機協(xié)作觀,構(gòu)建具有前瞻性的知識體系。在教學模式方面要積極投入,打造超寫實虛擬主播實踐平臺,加強校外相關(guān)實習基地建設。從技術(shù)導向、人文導向和實踐導向三方面完善課程體系,增強學生情感交流、挖掘新聞深度和即興口語表達等能力。高校培養(yǎng)或引進虛擬主播相關(guān)技術(shù)人才,也有利于影視制作和播音主持專業(yè)人才的培養(yǎng)。

        參考文獻:

        [1] 杜嚴勇.恐怖谷效應探析[J].云南社會科學,2020(3):37-44.

        [2] 城主.虛擬人的手工前世和AI今生[EB/OL].騰訊網(wǎng),https://baijiahao.baidu.com/s?id=1731820457505264744&wfr=spider&for=pc,2022-05-04.

        [3] 吳鋒,劉昭希.人工智能主播歷史沿革、應用現(xiàn)狀及行業(yè)影響[J].西南民族大學學報(人文社會科學版),2021,42(5):174-183.

        [4] 李仁虎,毛偉.從“AI合成主播”和“媒體大腦”看新華社融合創(chuàng)新發(fā)展[EB/OL].新華網(wǎng)時政欄目,http://www.xinhuanet.com/politics/2019-08/08/c_1124850634.htm,2019-08-08.

        作者簡介:林小慧(1984—),女,河南商丘人,碩士,研究員,研究方向:影視專業(yè)教學。

        亚洲色图+国产精品| 亚洲国产婷婷六月丁香| 亚洲国产av玩弄放荡人妇| 国产真人无遮挡作爱免费视频| 日韩欧美亚洲国产一区二区三区| 精品国产亚洲av高清日韩专区| 国产午夜精品无码| av片在线观看免费| 国内视频偷拍一区,二区,三区| 国产午夜视频高清在线观看| 综合偷自拍亚洲乱中文字幕| 人妻av中文字幕无码专区| 国产一级在线现免费观看| 国产精品成年人毛片毛片| 国产精品免费一区二区三区四区| 日韩亚洲av无码一区二区不卡| 黑人巨大精品欧美在线观看| 亚洲中文乱码在线观看| 久久无码字幕中文久久无码| 久久精品国产亚洲av忘忧草18| japanese色国产在线看视频| 午夜视频一区二区三区播放| 日本艳妓bbw高潮一19| 一本大道香蕉最新在线视频| 人妻在线中文字幕视频| 青青草亚洲视频社区在线播放观看 | 蜜桃a人妻精品一区二区三区| 国产又色又爽又黄的| 日本一本久道| 三级日本午夜在线观看| 色综合天天综合网国产成人网| 激情综合色五月丁香六月亚洲 | 精品极品视频在线观看| 亚洲国产精品无码中文字| 91精品一区国产高清在线gif| 日本熟妇高潮爽视频在线观看| 日本女优在线一区二区三区| 国产乱xxⅹxx国语对白| 国产精品一区二区三级| 免费在线国产不卡视频 | 日韩人妻精品中文字幕专区 |