文|《小康》·中國小康網(wǎng) 孫媛媛
數(shù)字栩生CEO宋震
不斷擴展 目前,數(shù)字人在服務行業(yè)場景的覆蓋面大,但參與程度還不深,隨著技術進步,其應用廣度和深度將不斷擴展。攝影/寧穎
隨著虛擬數(shù)字人在關鍵平臺上的運用,它在許多行業(yè)里發(fā)揮了重要作用,虛擬數(shù)字人引發(fā)了人們對它的好奇與關注。與模擬機器人相比,虛擬數(shù)字人在形象、表達和理解層面漸漸貼近日常生活,那么,現(xiàn)如今的虛擬數(shù)字人可以為我們做什么?它具體應用于哪些領域以及具備哪些優(yōu)勢呢?國內領先的超寫實數(shù)字人創(chuàng)作平臺—數(shù)字栩生CEO宋震有著他的專業(yè)解答。
數(shù)字栩生是一家掌握光場重建核心技術的數(shù)字人垂直領域硬核科技公司,成立僅一年多,團隊成員大部分都是90后?,F(xiàn)有30多位員工,以技術團隊為主,公司剛完成由聯(lián)想創(chuàng)投領投、藍色光標和蔚領時代跟投的Pre A輪融資?!拔覀兎浅?春肁I和數(shù)字人的結合,以AI技術賦能數(shù)字人的各個環(huán)節(jié),實現(xiàn)與NLP(自然語言處理,Natural Language Processing)系統(tǒng),甚至大模型系統(tǒng)的對接,為他們的AI能力提供數(shù)字人接口和數(shù)字人服務,我們主要的研究都聚焦在數(shù)字小腦上,用數(shù)字小腦去驅動數(shù)字人,讓數(shù)字人不再是千篇一律,而是千人千面,每個數(shù)字人都有自己的獨立個性和特征。”
在宋震看來,數(shù)字人需要有自己的思想,能夠思考問題,能夠學習?!拔覀儼雅cAI系統(tǒng)連接驅動數(shù)字人的中臺叫數(shù)字小腦,它跟真實人類的腦結構是一樣的,大腦是負責理性思考,也就是現(xiàn)在NLP部分。它只負責理性思考,產(chǎn)生不了感情,但是人在交流過程中,更多的是很多帶感情色彩的溝通,而不是冷冰冰的理性?!北热纭澳阏鎵摹边@句話,從不同人嘴里說出來,以及面對不同的對象說,意義完全不同,而AI大腦只能理解這三個字的表面意義,理解不了其情感意義,做不到深度的思考。
“數(shù)字人的理性知識具備了,但距離感情交流還比較遠。我們認為未來數(shù)字人應該是帶感情交流的獨立個體,他不光有視覺、聽覺,還應有觸覺、嗅覺?!庇辛艘曈X之后,他早上打招呼可以很自然地表達:“嘿,你今天穿這件衣服真漂亮!”比如嗅覺,“好香!你今天噴的什么香水?”但目前的數(shù)字人交互是做不到的,AI大腦停留在知識層面的邏輯思考?!八梢韵聡澹A過世界冠軍,但是談戀愛肯定不如一個普通人那樣富有情感。”
“當數(shù)字人具有了視覺和嗅覺,有了人類五官的這些功能之后,他才有可能更像一個人,但現(xiàn)在他還是一臺思考和工作的機器。”宋震坦言,目前的技術只負責把人還原出來?!拔覀儾蛔鯝I的大模型系統(tǒng),比較樂觀地看,未來三到五年還會有一些更好的成果出現(xiàn)。我們看到一些內測,如果咱們之間隔著一塊布互相看不到彼此的時候,我可能并不知道我在跟AI聊天,現(xiàn)在能做到聊二三十個話題都不會露餡?!?/p>
業(yè)內人士表示,數(shù)字人在可控性、可編程性和規(guī)模成本等方面具有優(yōu)勢。目前,數(shù)字人在服務行業(yè)場景的覆蓋面大,但參與程度還不深,隨著技術進步,其應用廣度和深度將不斷擴展。據(jù)宋震介紹,數(shù)字人目前有做主持人、主播、游戲里的演員,以及服務型的場景,比如金融、保險類的客服,問題和回答標準化,沒有太多個性化內容,是AI比較好的應用落地場景。
“我們的愿景是以數(shù)字技術構建人性光芒,幫助用戶創(chuàng)造價值,讓人機交互不再是冷冰冰的屏幕,為生活帶來更多美好的情感?!睌?shù)字栩生CEO宋震表示。
互聯(lián)網(wǎng)剛興起的時候,流行一句話叫:“網(wǎng)上聊天的時候,你不知道對方是不是一條狗?!彪S著未來虛擬人越來越真實,越來越規(guī)?;螅杀疽苍絹碓降??!坝辛嗣李佭@些功能以后,我們看到的已經(jīng)不是真實世界里的那個人了。像抖音、快手這樣的平臺,我們不知道視頻背后的人真實的模樣,潛移默化中接受了虛擬人的存在。比如,我希望我的家人永生,而他是可以活在虛擬的世界里的,我想他的時候就可以和他聊天,而這在技術上是可以實現(xiàn)的。如果數(shù)字人能夠提供足夠的情感價值,那么我為什么非要跟真人談戀愛呢?”宋震表示,數(shù)字人可能會改變現(xiàn)有社會的運行規(guī)則,也會帶來很多哲學和倫理問題,“現(xiàn)實世界里如果同時跟三個人談戀愛,肯定不道德,但在虛擬世界里,同時跟十個虛擬人談戀愛,我是不是不道德的?所以,數(shù)字人現(xiàn)在只是開始,未來十年會迎來屬于它的黃金階段。”
春草是今年8月剛推出來數(shù)字人,她是一名高三女生,18歲,正處青春期,叛逆,卻積極陽光,熱愛攀巖運動,是小有成績的運動員,她鼻子上的傷疤,是第一次參加攀巖錦標賽時留下的印記,是一個熱血元氣的女孩。這是由蔚領時代和海西傳媒合作開發(fā)的中國數(shù)字人演員,智能數(shù)字面部技術從渲染到算法,由數(shù)字栩生研發(fā)制作,從采集原型的50多個表情,到拆分成400多個子表情,自動綁定系統(tǒng)后,再組合成2000多個微妙表情,最后通過AI支配實現(xiàn)動態(tài)呈現(xiàn),通過AI交互實驗不同情境的演繹。
“春草的定位除了游戲里的角色之外,導演可以直接跟這個演員互動講戲,然后讓她現(xiàn)場表演。春草是在我們的光場采集錄影棚里制作的,采用了我們獨有的面部支持技術,能夠讓演員直接驅動春草,進行表演,導演能直接看到結果,這個技術是顛覆性的?!彼握鸾榻B說。
之前的數(shù)字人完成面部表情捕捉之后,導演不能直接看到結果,需要精修、渲染。但是春草在表演時,可以實現(xiàn)實時的互動,作為演員,她能聽到導演的指令?!按翰莸恼Q生標志著實時驅動的數(shù)字人能進入到表演環(huán)節(jié)了。以前的數(shù)字人更多是功能性的,做一個主播,或者服務員,情緒表達沒有那么強烈。但演戲需要技術,而且是一種人工智能的技術?!?/p>
數(shù)字手語主持人“千言”是數(shù)字栩生的另一個成功案例,她可以實現(xiàn)電視轉播手語的自動生成,可以完成從漢語到手語、手語到漢語的雙向翻譯,實現(xiàn)聽障聾人群的信息無障礙交流。千言現(xiàn)在已經(jīng)簽了幾百家電視臺,做手語主播,還有一些教育場景,比如給聾啞人進行教學的時候使用。此外,還有政府的無障礙通道,如果聾啞人去辦事,千言可以擔任AI翻譯。
“通過計算機模仿聽障人士的大腦,將播報文本輸入進系統(tǒng)中,千言便可進行實時手語播報。除了實時手語播報,千言還能演唱三山五園歌曲、跳手語舞蹈?!彼握鸾榻B,千言是和千博信息公司合作的,“千博信息是國內非常領先的AI公司,主要是把我們說的話翻譯成聾啞人能夠理解的手語,我們覺得這個素材特別好,通過數(shù)字人實現(xiàn)對殘疾人的關心和幫助,用數(shù)字人技術提高他們的生活質量?!?/p>
“AI大腦”實現(xiàn)自然語言處理、知識管理、對話系統(tǒng)等功能,并實現(xiàn)對多個業(yè)務系統(tǒng)的實時連接,提供人機交流的主題邏輯功能。 “AI小腦”實現(xiàn)基于深度學習的個性化數(shù)字人動作表情自動生成,為人機交流提供更自然的交互體驗。
AI小腦就是人和數(shù)字人的交互轉化成文本或是音頻,能夠自動翻譯成個性化的表情和動作。宋震介紹,“我們在看鄧麗君這個虛擬人的時候,就發(fā)現(xiàn)她不光是用鄧麗君的聲音在說話,還有一些她本人的小調皮的表情和動作,可以跟人開玩笑,給人感覺仿佛是在和鄧麗君說話。這就是深度學習在語言領域的一種處理方法,只要上傳一段鄧麗君的聲音,經(jīng)過訓練之后,再開口講話,就變成鄧麗君的聲音了?!睌?shù)字栩生引入了“AI小腦”理念,為現(xiàn)有AI大腦平臺與虛擬人的驅動間搭建“橋梁”,豐富了虛擬人的信息靈敏度與范圍,也將語音和文字信息轉化為帶有情感的、可聽可視的信息,為虛擬人“注入”情感,解決現(xiàn)有數(shù)字人感情表達不真實的問題。
學習思考 數(shù)字栩生CEO宋震在接受采訪時表示,數(shù)字人需要有自己的思想,能夠思考問題,能夠學習。攝影/寧穎
人的表情非常復雜。人類在長達十幾萬年的進化過程中,養(yǎng)成了人的眼睛對表情的敏感度非常高,我們可以從一個微妙的表情,就能感受到他人所傳遞出來的情緒?!叭四樀膹碗s性體現(xiàn)在40多塊肌肉,能組合出來5000多種不同的表情。沒經(jīng)過表演訓練的人可能做不出來那么多表情。表情不光是可視化的符號,還是可以傳遞很多信息的內容。‘我生氣了’,可以通過表情馬上就能看出來。前幾年我們所有的科研方向都聚焦在怎么真實地再現(xiàn)和表達表情?!?/p>
光場采集,是數(shù)字栩生為了采集到真實個人的表情專門制作的一套設備。“比如說采集人的50個表情,我們會把它拆成將近500個表情,然后讓這些表情再運動起來,又能組合出來幾千種表情,以期達到傳遞很微妙信息的效果,能夠非常真實地再現(xiàn)人臉的表情。即便是經(jīng)過專業(yè)訓練演員也不過如此了?!彼握鹬v述說,前幾年,在采集表情的時候,幾乎采了北京電影學院表演系的所有學生,因為他們受過表演訓練,能夠做出更豐富、更準確的表情,能夠更精準地傳達自己的情緒,“就是我們俗話說的表演級表情。”
表情采集之后,用數(shù)字栩生自有的一套算法,重建三維模型,做表情的重建,包括表情的拆分和組合,一整套技術組合以后,才能得到一個面部栩栩如生的人。
“數(shù)字人的動作則使用動作捕捉技術來呈現(xiàn),這是一套比較成熟的技術體系,從好萊塢電影技術中萌發(fā)和誕生,迄今為止已經(jīng)發(fā)展幾十年了。我們目前的研究重點是使用AI技術自動生成動作,也取得了不少成果。每次動作都用捕捉的方式,復雜而且困難,如果自動生成,就變成一種自動化的動作?!?/p>
數(shù)字人無法實時交互的話,就缺少了很多應用場景,只能用于生產(chǎn)視頻,因此數(shù)字栩生的研究方向就是生產(chǎn)能夠實時交互數(shù)字人?!爸挥性跀?shù)字人能實現(xiàn)交互以后,他才可以干很多事情,脫離了原來的偶像身份,走進千家萬戶了。這是一種跨時代的新技術,在國內也是先進的?!?/p>
宋震介紹,目前公司的幾個聯(lián)合創(chuàng)始人,背景都跟虛擬世界相關,他個人的主要研究方向是仿真,研究怎么把世界虛擬化,而合伙人則分別是研究VR、AR的。“怎么在虛擬世界里去做更沉浸的交互,共同點就是虛擬世界。五六年前,我們發(fā)現(xiàn)了一個痛點,虛擬世界里的人質量很差,傳遞不了、也表達不了任何的東西,就是個假人。如果想達到非常真實的交互,需要付出的代價非常大,周期長、成本高,鄧麗君這一版的數(shù)字人做了兩年。這樣的話,如果想進行大規(guī)模的商業(yè)化是不可能的。我們就圍繞著這個痛點,想著怎么在虛擬世界里做好一個能交互的高真實的數(shù)字人。數(shù)字人的真實度的追求是無止境的,所以目前數(shù)字栩生鎖定的客戶主要是要求更高的類型,“未來我們在不斷地提高,同時也努力降低數(shù)字人的生產(chǎn)成本,讓更多的人能用上,需求和成本之間更加匹配?!?/p>
從產(chǎn)業(yè)發(fā)展來看,數(shù)字人現(xiàn)在才剛剛嶄露頭角,其實人最喜歡的是人和人的交互?!拔也⒉徽J為數(shù)字人是臺機器,對人機交互來講,它是一場革命。”宋震說。
“我們的愿景是以數(shù)字技術構建人性光芒,幫助用戶創(chuàng)造價值,讓人機交互不再是冷冰冰的屏幕,為生活帶來更多美好的情感?!彼握鸨硎緯掷m(xù)致力于改變人機交互的方式,“目前,我們跟手機、電腦的交互是沒有感情的,希望將來在AI技術的支持下,跟機器交互的時候,實現(xiàn)情感的連接和流動,讓更加真實的數(shù)字人參與進我們的生活?!?/p>