劉四海
the rightsverse lab創(chuàng)始人、穹宇世界聯(lián)合發(fā)起人
數(shù)字人也需要臨場應(yīng)變,也需要自我成長,目前看來還做不到
最近數(shù)字分身挺火的,我想知道數(shù)字人直播有沒有前途。于是問了問身邊的幾個朋友。朋友甲是直播賣葫蘆的,他說試過數(shù)字人直播,效果很差,把他剛剛有點(diǎn)起色的號給干廢了。朋友乙本身是做數(shù)字分身代理生意的,在她看來,“數(shù)字人和真人無異”“你能看得出這是數(shù)字人嗎”“大批數(shù)字人律師上線”,言下之意數(shù)字人直播很有前途。
看來只對少數(shù)幾個朋友調(diào)研還不能說明問題。于是,我在騰訊混元大模型里輸入了一個問題:數(shù)字人直播的利弊。騰訊混元給出了一長串的答案:大概意思是優(yōu)劣勢兼具,優(yōu)勢是數(shù)字人直播不受時間和空間的限制,可以24小時不間斷進(jìn)行,不需要支付薪資,可以根據(jù)不同的場景和需求進(jìn)行定制,成本低,花樣多。劣勢是真實(shí)度和互動性較差,雖然數(shù)字人可以通過技術(shù)模擬真人的外觀和行為,但依然無法達(dá)到真實(shí)人的情感表達(dá)和溝通效果,雖然可以通過算法回復(fù)觀眾的問題,但無法像真人一樣進(jìn)行實(shí)時交流和情感共鳴。對于騰訊混元給出的這個“參考答案”,該如何分析呢?我想從幾個關(guān)鍵
詞入手。
第一個關(guān)鍵詞是“互動性”。和短視頻不同,直播更強(qiáng)調(diào)互動性。如果數(shù)字人直播互動性差,那肯定是個致命漏洞。人們可以接受董宇輝不是屌絲、年薪千萬,可以接受董宇輝背后有文案團(tuán)隊,但一定不能接受董宇輝用數(shù)字分身直播。為什么呢?因為董宇輝的真正魅力,就藏在直播互動的一些細(xì)節(jié)里。真人的臉部和表情可以傳達(dá)很多信息,如情感、態(tài)度和信任度等,戴著面具和人說話已經(jīng)被人反感,何況數(shù)字人呢?直播如果無法進(jìn)行真誠、深入的溝通和交流,那效果勢必大打折扣。
第二個關(guān)鍵詞是“情感表達(dá)”。雖然數(shù)字人可以模擬人類情感,但它們?nèi)匀皇且粋€機(jī)器學(xué)習(xí)模型,因此可能無法像真正的人類一樣真實(shí)和深刻地表達(dá)情感。目前,數(shù)字人直播的情感表達(dá)還是通過編程和模型訓(xùn)練對面部表情、語言、肢體動作進(jìn)行控制,但是,溝通的美妙之處恰恰在于有些東西是“表情、語言、動作”所不能傳達(dá)的,類似于心有靈犀,拈花一笑,懂者自懂。
基于編程的數(shù)字人直播類似于寫作,而真人直播類似于演講。早在古希臘時代,蘇格拉底等人就意識到了演講和寫作是兩種完全不同的技藝。有些話,你寫出來的時候覺得邏輯精妙無比、見人所未見,但真正講出來則覺得佶屈聱牙。所以像康德、黑格爾這樣的人注定只能是哲學(xué)家,當(dāng)不了演講大師。
加州大學(xué)神經(jīng)科學(xué)系羅伯特 · 李文斯頓曾有個比喻,把大腦比喻成“一個和諧且紀(jì)律良好的交響樂團(tuán)”,大腦就像指揮家,而動作、想法、情緒、記憶和生理感受等類似于演奏者,共同組成了一個交響樂團(tuán)。當(dāng)你看到別人打哈欠、眨眼、打噴嚏,甚至只是舉起手臂,你的大腦也會進(jìn)行一系列復(fù)雜的反應(yīng)。好的直播也是一次交響樂團(tuán)演出,主播和受眾的情感表達(dá)共同組成了樂章。
其實(shí),說數(shù)字人直播的利弊這個話題,還想衍生出一個更關(guān)鍵的問題,那就是:人設(shè)的統(tǒng)一。很多情況下,你一直認(rèn)為自己是一只兔子,但在外人看來也許是只鼴鼠,其實(shí)你的生物學(xué)身份是頭綿羊。數(shù)字人之所以大火,是因為所有人都相信數(shù)字人和人設(shè)能實(shí)現(xiàn)真正統(tǒng)一,不存在任何的矛盾或偏差。這種真正的統(tǒng)一性可以增強(qiáng)數(shù)字人的可信度和吸引力,從而吸引更多的觀眾和粉絲。實(shí)際上,一個真實(shí)的人往往有多面性,有多變性,唯其如此,才成為一個有血有
肉的人。
最后,我想說,數(shù)字人直播也并非一無是處,對于一些只需要簡單互動的崗位,數(shù)字人直播還是可以試試的。