本刊編輯部
2021年,元宇宙概念帶動(dòng)了很多人對(duì)未來(lái)的無(wú)限遐想,與元宇宙緊密相關(guān)的數(shù)字人的熱度也在提升,多家科技企業(yè)發(fā)布了數(shù)字人相關(guān)產(chǎn)品。
2021年12月,百度公司發(fā)布國(guó)內(nèi)首個(gè)可在APP內(nèi)互動(dòng)的超寫(xiě)實(shí)數(shù)字人;此前,阿里巴巴集團(tuán)開(kāi)發(fā)的超寫(xiě)實(shí)數(shù)字人AYAYI 正式入職阿里,成為天貓超級(jí)品牌日的數(shù)字主理人;OPPO 發(fā)布了基于虛擬人多模態(tài)交互的手機(jī)智能助手,能與用戶在多個(gè)場(chǎng)景生態(tài)下實(shí)時(shí)交互;Bilibili 網(wǎng)站專門(mén)為虛擬主播開(kāi)設(shè)了分區(qū)。2 0 2 2年2月初,數(shù)字女孩李未可獲得字節(jié)跳動(dòng)的獨(dú)家投資,這也是今年數(shù)字人領(lǐng)域的首筆融資……不知不覺(jué)間,數(shù)字人已經(jīng)開(kāi)始走進(jìn)我們的生活,隨著相關(guān)技術(shù)逐漸成熟,數(shù)字人作為我們與虛擬世界交互的重要載體,表現(xiàn)出廣闊的潛在市場(chǎng)。調(diào)研機(jī)構(gòu)的數(shù)據(jù)顯示,到2030年,我國(guó)虛擬數(shù)字人整體市場(chǎng)規(guī)模將達(dá)到2700億元。
當(dāng)然,伴隨著數(shù)字人一同出現(xiàn)的還有各種爭(zhēng)議。盡管概念的熱度很高,但目前產(chǎn)業(yè)仍處于較為初期的階段,發(fā)展還面臨政策、資金、技術(shù)、人才等層面的限制。作為新生事物,人們對(duì)數(shù)字人的認(rèn)識(shí)還存在不少空白。在體系標(biāo)準(zhǔn)層面、安全倫理層面,不僅行業(yè)內(nèi)缺乏統(tǒng)一技術(shù)標(biāo)準(zhǔn)和要求,產(chǎn)品質(zhì)量良莠不齊,在法律法規(guī)、倫理規(guī)范方面也存在潛在風(fēng)險(xiǎn),需要社會(huì)各方加緊研究各類數(shù)字人應(yīng)用可能對(duì)人的心理帶來(lái)的影響,以及對(duì)人類社會(huì)造成的影響,并盡快出臺(tái)相關(guān)法律法規(guī)和倫理規(guī)范。
那么,數(shù)字人到底是什么,具有哪些特征,分為哪幾種類型,以及都應(yīng)用在什么行業(yè)呢?
數(shù)字人的三方面特征
根據(jù)百度網(wǎng)“科普中國(guó)·科學(xué)百科”的解釋,狹義的數(shù)字人,是利用信息科學(xué)對(duì)人體進(jìn)行虛擬仿真,是一種信息科學(xué)與生命科學(xué)融合的產(chǎn)物,最終目的是建立多學(xué)科、多層次的數(shù)字模型,達(dá)到對(duì)人體從微觀到宏觀的精確模擬。廣義的數(shù)字人,是指數(shù)字技術(shù)在人體解剖、物理、生理及智能的各個(gè)層次、各個(gè)階段的滲透。
那么,現(xiàn)在出現(xiàn)在我們身邊的虛擬人、虛擬數(shù)字人又是什么呢?按照目前較常見(jiàn)的定義,數(shù)字人的范疇中包含虛擬人,虛擬人的范疇中又包含虛擬數(shù)字人。虛擬數(shù)字人是具有數(shù)字化外形的虛擬人物。與具備實(shí)體的機(jī)器人不同,虛擬數(shù)字人只能依賴顯示設(shè)備存在。我們所知的很多虛擬人都要通過(guò)手機(jī)、電腦或者智慧大屏等設(shè)備才能顯示,目標(biāo)是通過(guò)CG(Computer Graphics,即計(jì)算機(jī)圖形學(xué),簡(jiǎn)寫(xiě)為CG)技術(shù)創(chuàng)造出與人類形象接近的數(shù)字化形象,并賦予其特定的人物身份設(shè)定,在視覺(jué)上拉近和人的心理距離,為人類帶來(lái)更加真實(shí)的情感互動(dòng)。拋開(kāi)交流互動(dòng)能力不談,數(shù)字人、虛擬人、虛擬數(shù)字人在概念上可以是相同的。但在嚴(yán)格意義下,三者又有細(xì)微差別——虛擬人的身份是虛構(gòu)的,現(xiàn)實(shí)世界中并不存在;數(shù)字人強(qiáng)調(diào)角色、數(shù)據(jù)等存在于數(shù)字世界;虛擬數(shù)字人強(qiáng)調(diào)虛擬身份和數(shù)字化制作的特性。
從最小的范疇說(shuō)起,虛擬數(shù)字人具備三方面特征:一是擁有類人的外觀,具有特定的相貌、性別和性格;二是擁有類人的行為,能夠用語(yǔ)言、面部表情和肢體動(dòng)作進(jìn)行“自我”表達(dá);三是擁有類人的思考方式,能夠識(shí)別外部環(huán)境,并與人交流互動(dòng)。綜合來(lái)看,就是具備四方面的能力,即形象能力、感知能力、表達(dá)能力和娛樂(lè)互動(dòng)能力。如果我們下次再看到有新的虛擬數(shù)字人,就可以結(jié)合這些特征和能力來(lái)判斷這個(gè)虛擬數(shù)字人的可信度。
數(shù)字人的運(yùn)作原理
知道了什么是數(shù)字人,接下來(lái)就要搞清楚數(shù)字人到底是怎么說(shuō)話、互動(dòng)的,是背后有真人在操控,還是完全通過(guò)技術(shù)生成?
顯而易見(jiàn),數(shù)字人能否走遠(yuǎn),核心在技術(shù)。數(shù)字人的誕生發(fā)展和AI 人工智能密不可分,想了解數(shù)字人的運(yùn)作原理,首先要知道數(shù)字人的通用系統(tǒng)框架。數(shù)字人系統(tǒng)一般情況下由人物形象、語(yǔ)音生成、動(dòng)畫(huà)生成、音視頻合成顯示、交互等5個(gè)模塊構(gòu)成,其中交互模塊為擴(kuò)展項(xiàng),根據(jù)其有無(wú),可將數(shù)字人分為交互型數(shù)字人和非交互型數(shù)字人。
非交互型數(shù)字人是系統(tǒng)依據(jù)目標(biāo)文本生成對(duì)應(yīng)的人物語(yǔ)音及動(dòng)畫(huà),并合成音視頻呈現(xiàn)給用戶。交互型數(shù)字人則根據(jù)驅(qū)動(dòng)方式的不同,可分為智能驅(qū)動(dòng)型、真人驅(qū)動(dòng)型兩類:
智能驅(qū)動(dòng)型數(shù)字人,通過(guò)智能系統(tǒng)自動(dòng)讀取并解析識(shí)別外界的輸入信息,并根據(jù)解析結(jié)果決策數(shù)字人后續(xù)的輸出文本,驅(qū)動(dòng)人物模型生成相應(yīng)的語(yǔ)音與動(dòng)作來(lái)使數(shù)字人跟用戶互動(dòng)。這種人物模型是預(yù)先通過(guò)AI 技術(shù)訓(xùn)練得到的,能夠通過(guò)文本驅(qū)動(dòng)生成語(yǔ)音和對(duì)應(yīng)動(dòng)畫(huà),業(yè)內(nèi)將這種模型稱為T(mén)TSA(Text to Speech & Animation,即文本轉(zhuǎn)語(yǔ)音和動(dòng)畫(huà),簡(jiǎn)寫(xiě)為T(mén)TSA)人物模型。
真人驅(qū)動(dòng)型數(shù)字人,是真人根據(jù)視頻監(jiān)控系統(tǒng)傳來(lái)的用戶視頻,與用戶實(shí)時(shí)語(yǔ)音,同時(shí)通過(guò)動(dòng)作捕捉采集系統(tǒng)將真人的表情、動(dòng)作呈現(xiàn)在數(shù)字人形象上,從而與用戶進(jìn)行交互。
目前,數(shù)字人的制作方式自動(dòng)化程度還很低,生產(chǎn)門(mén)檻又很高,關(guān)鍵技術(shù)還不完全成熟。下一步,相關(guān)廠商和行業(yè)會(huì)繼續(xù)加大關(guān)鍵核心技術(shù)的創(chuàng)新,降低數(shù)字人的生產(chǎn)制作成本,提高對(duì)數(shù)字人面部和聲音的還原度,推進(jìn)數(shù)字人開(kāi)放平臺(tái)建設(shè),增強(qiáng)技術(shù)可及性,最終實(shí)現(xiàn)更加自然、逼真的互動(dòng)體驗(yàn)。
數(shù)字人常見(jiàn)的類型和應(yīng)用場(chǎng)景
調(diào)研分析當(dāng)前市場(chǎng)上的數(shù)字人,從外形上,可以分為卡通、寫(xiě)實(shí)等風(fēng)格;根據(jù)人物圖形維度,可以分為二次元、3D卡通、3D高寫(xiě)實(shí)和真人形象4種類型。這些種類繁多的數(shù)字人到底能否走遠(yuǎn),關(guān)鍵還是看應(yīng)用場(chǎng)景。
目前,數(shù)字人市場(chǎng)正處于前期培育階段,替代真人的虛擬主播、虛擬偶像是目前的市場(chǎng)熱點(diǎn),應(yīng)用偏向娛樂(lè)化。按照應(yīng)用場(chǎng)景或行業(yè)的不同,已經(jīng)出現(xiàn)了娛樂(lè)型數(shù)字人(如虛擬偶像、歌手、網(wǎng)紅,虛擬代言人)、教育型數(shù)字人(如虛擬教師)、助手型數(shù)字人(如虛擬客服、導(dǎo)游、智能助手)、主播型數(shù)字人(如虛擬主播)、影視數(shù)字人(如替身演員、虛擬演員)等。虛擬數(shù)字人技術(shù)結(jié)合實(shí)際應(yīng)用場(chǎng)景,越來(lái)越多地進(jìn)入影視、傳媒、游戲、金融、文旅等領(lǐng)域,根據(jù)需求為用戶提供定制化服務(wù)。