馬迪
不久前,一個(gè)默默無(wú)聞的抖音新號(hào)“柳夜熙”發(fā)布了一條題為《現(xiàn)在,我看到的世界,你也能看到了》的視頻。短短兩分鐘的時(shí)間,賽博朋克和奇幻古風(fēng)的場(chǎng)景交叉上演,借著Facebook改名Meta的“東風(fēng)”,一下打開(kāi)了數(shù)百萬(wàn)觀眾的“元宇宙”想象。
這大概是虛擬人第一次如此高調(diào)地進(jìn)入大眾視野。“柳夜熙”首發(fā)視頻在當(dāng)晚5小時(shí)內(nèi)獲贊247.7萬(wàn),創(chuàng)造了兩條視頻漲粉500萬(wàn)的“奇跡”。#柳夜熙#柳夜熙是誰(shuí)#當(dāng)美妝遇上元宇宙……各種相關(guān)話題在抖音上已有超過(guò)10億次播放,向大眾普及“虛擬人”“元宇宙”可謂功不可沒(méi)。
事實(shí)上,虛擬偶像并不是全新概念。最早的虛擬偶像鼻祖要算2007年出現(xiàn)的“初音未來(lái)”。這是由日本雅馬哈公司以語(yǔ)音合成程序?yàn)榛A(chǔ)開(kāi)發(fā)的虛擬少女偶像,有著官方設(shè)定的水藍(lán)色頭發(fā)和眼睛,穿著水手服,動(dòng)人的聲音能唱無(wú)數(shù)首歌曲,在二次元文化盛行的日本社會(huì)可謂家喻戶曉,甚至跟LadyGaga同過(guò)臺(tái)。
2004年,雅馬哈開(kāi)發(fā)出語(yǔ)音合成核心引擎Vocaloid,這就是后來(lái)初音未來(lái)和中國(guó)第一位虛擬歌手“洛天依”的核心。作為目前最主流的語(yǔ)音合成方式,Vocaloid采用的是“拼接合成”技術(shù)來(lái)進(jìn)行電子音樂(lè)制作?;A(chǔ)聲音數(shù)據(jù)則來(lái)自于配音演員,使用者只要輸入音符和歌詞即可生成一首歌曲,并且可以通過(guò)更改音調(diào)、調(diào)整參數(shù)對(duì)“歌聲”進(jìn)行微調(diào),模擬出類(lèi)似人的呼吸、口型甚至顫音。原本破碎的聲音數(shù)據(jù),就這樣變成了連貫的電子聲音。
采用這種方式來(lái)創(chuàng)作,可以實(shí)現(xiàn)對(duì)歌曲最精確的控制,但另一方面,也很需要作者調(diào)整各項(xiàng)參數(shù)的功力。Vocaloid就像一把樂(lè)器,創(chuàng)作者擁有完全的自由。
隨著AI技術(shù)的進(jìn)步,新一代的“虛擬歌姬”開(kāi)始了更深的進(jìn)化。比如首位簽約華納、正式發(fā)行單曲的虛擬音樂(lè)藝人“哈醬”就是首個(gè)AI仿真人聲,采用了微軟智能語(yǔ)音定制技術(shù),背靠強(qiáng)大的神經(jīng)網(wǎng)絡(luò)語(yǔ)音模型,累積、分析了人類(lèi)語(yǔ)音的各種元素比如音色、年齡、口音、韻律等等。在這樣的一個(gè)“胚子”上精雕細(xì)刻,不斷訓(xùn)練數(shù)據(jù),最終形成了屬于“哈醬”自己的中文語(yǔ)音音色。雖然“哈醬”擁有敘述、新聞、客服等15種風(fēng)格,可以挑戰(zhàn)真人做不到的音調(diào)和語(yǔ)速,堪稱(chēng)是一個(gè)十分豐富的人聲模型,但情感演繹仍然是AI界的超級(jí)難題。
此次迅速出圈的柳夜熙,實(shí)現(xiàn)了仿真虛擬人在短視頻上的首次嘗試。按照出品公司的說(shuō)法,這是一個(gè)2.5次元的形象設(shè)計(jì),處于二次元?jiǎng)勇蜗蠛腿卧恼鎸?shí)世界人物形象之間的位置。
其實(shí)這類(lèi)“超仿真”形象的后期開(kāi)發(fā)過(guò)程非常漫長(zhǎng),需要高水準(zhǔn)的原畫(huà)設(shè)計(jì)、高寫(xiě)實(shí)的3D建模、高效率的虛擬人引擎、高精度的動(dòng)作捕捉、高清晰的修幀渲染。每個(gè)步驟都耗時(shí)耗力,幾乎就是用金錢(qián)和技術(shù)堆出來(lái)的“寶貝”。
柳夜熙的連貫動(dòng)作也和背后的演員分不開(kāi)。由于純動(dòng)畫(huà)的特效制作成本高昂,所以虛擬人普遍采用真人動(dòng)作捕捉技術(shù),即由行動(dòng)演員穿著包含多個(gè)傳感器節(jié)點(diǎn)的動(dòng)捕服,將他們的動(dòng)作嫁接到角色身上。超高精度的動(dòng)態(tài)捕捉甚至可以捕捉到演員眼球的顫動(dòng)。
AI技術(shù)甚至還能彌補(bǔ)動(dòng)作捕捉的不足。以面部表情為例,假設(shè)通過(guò)攝像頭能夠定位演員面部的150個(gè)跟蹤點(diǎn),AI可以通過(guò)面部表情大數(shù)據(jù)訓(xùn)練,由150個(gè)跟蹤點(diǎn)推導(dǎo)出40000個(gè)點(diǎn),從而模擬出更精細(xì)的表情。
從本質(zhì)上講,柳夜熙確實(shí)是一個(gè)出色的后期特效作品,但也僅此而已。作為虛擬人物,柳夜熙類(lèi)似于游戲、電影中的角色,不能和觀眾互動(dòng),進(jìn)行有邏輯、有個(gè)性的交互和反饋,更別提像人一樣思考和學(xué)習(xí)了。
這就是虛擬偶像難以走出2.5次元的原因—能夠?yàn)橛^眾帶來(lái)新的視覺(jué)、聽(tīng)覺(jué)體驗(yàn),但刺激過(guò)后總讓人感覺(jué)到空虛。像人一樣,這四個(gè)字簡(jiǎn)簡(jiǎn)單單,代表的是人們對(duì)下一代AI的沉重期待和漫長(zhǎng)探索。虛擬偶像能否突破次元壁,也將在此一舉。