文/王照涵 呂欣
以虛擬數(shù)字人為載體的“具身在場(chǎng)”將改變傳統(tǒng)媒介的信息表達(dá)方式,用戶可以借助數(shù)字化身以“在場(chǎng)”的方式在虛擬空間中進(jìn)行互動(dòng)。然而,既有的數(shù)字人由于缺少智能化技術(shù)支持,無法與人類進(jìn)行真正的智能交互,只能作為人類內(nèi)容生產(chǎn)者的“數(shù)字傀儡”,這一點(diǎn)在模型、驅(qū)動(dòng)、內(nèi)容、情感等層面均有所體現(xiàn),而在語義理解、情感識(shí)別與表達(dá)方面尤為突出。如今,作為數(shù)字人重要底層技術(shù)支撐部分的人工智能技術(shù)已實(shí)現(xiàn)了躍遷式發(fā)展,為數(shù)字人的智能化發(fā)展提供了全新可能。通過融合生成式人工智能模型與情感計(jì)算技術(shù),數(shù)字人將能更為有效地理解用戶情感,從過去僅具備單向輸出的“數(shù)字皮囊”轉(zhuǎn)向?yàn)榫哂姓Z義識(shí)別、情感識(shí)別及多模態(tài)表達(dá)能力的“數(shù)智人”,其媒介表達(dá)方式以及落地應(yīng)用場(chǎng)景也將更為豐富。
傳統(tǒng)文娛行業(yè)中的主流數(shù)字人驅(qū)動(dòng)方式主要有兩種:真人映射驅(qū)動(dòng)型(通過捕捉真人的動(dòng)作并映射到數(shù)字人骨骼上進(jìn)行驅(qū)動(dòng)),以及自動(dòng)算法驅(qū)動(dòng)型(通過文字進(jìn)行語音合成并生成相應(yīng)表情動(dòng)畫)。
1.與真人映射驅(qū)動(dòng)型數(shù)字人交互本質(zhì)上是與其背后的“中之人”進(jìn)行互動(dòng)。從生產(chǎn)效能上看,此類數(shù)字人需要借助成本高昂的動(dòng)作捕捉設(shè)備以實(shí)現(xiàn)對(duì)動(dòng)捕演員動(dòng)作的再現(xiàn),無法大規(guī)模部署。無論基于慣性動(dòng)捕還是光學(xué)動(dòng)捕,數(shù)字人均無法獨(dú)立自主地進(jìn)行互動(dòng)表演。巨大的經(jīng)濟(jì)開銷使得此類數(shù)字人只能應(yīng)用在虛擬偶像等依托粉絲經(jīng)濟(jì)收回成本的行業(yè)中;從交互體驗(yàn)上看,這類數(shù)字人針對(duì)觀眾做出的反應(yīng)也同樣是由“中之人”對(duì)評(píng)論進(jìn)行接收和反饋實(shí)現(xiàn)的,用戶體驗(yàn)的好壞完全取決于“中之人”的表演能力和臨場(chǎng)經(jīng)驗(yàn),數(shù)字人本身沒有自主性可言。
2.自動(dòng)算法驅(qū)動(dòng)型數(shù)字人的智能同樣是基于人類內(nèi)容創(chuàng)作者的表達(dá)。此類數(shù)字人利用TTS (Text to Speech)技術(shù)將文本轉(zhuǎn)化為語音,并結(jié)合相應(yīng)的口型動(dòng)畫算法和動(dòng)畫庫生成動(dòng)作,其內(nèi)容生產(chǎn)成本較低,個(gè)體便能夠支付。然而,不加修飾合成的視音頻往往動(dòng)作單調(diào)、語調(diào)平坦,這限制了它們的應(yīng)用場(chǎng)景。換句話說,TTS技術(shù)需要依賴專業(yè)設(shè)備和藝術(shù)家對(duì)輸出結(jié)果的調(diào)校,以消除明顯的電子音。此外,此類數(shù)字人只能夠根據(jù)用戶預(yù)設(shè)的時(shí)間點(diǎn)執(zhí)行動(dòng)作庫中的動(dòng)作,依賴于制作者的選擇,且相對(duì)單一。它們無法實(shí)時(shí)生成內(nèi)容,也無法與觀眾互動(dòng),缺乏交互性。
數(shù)字人自然交互模式的兩個(gè)最主要影響因素是語義和情感。在語義層面,數(shù)字人首先將語音轉(zhuǎn)為文字符號(hào),然后通過這些符號(hào)來理解其中包含的概念與具象化實(shí)體。而在情感層,數(shù)字人負(fù)責(zé)準(zhǔn)確捕捉用戶的情感,支持對(duì)用戶情感的分析,最后將語義和情感結(jié)果綜合起來,并以一種人類用戶可以感知的方式進(jìn)行表達(dá)。
1.語義層。數(shù)字人僅通過自然語言處理算法能夠?qū)崿F(xiàn)的功能較為有限,難以滿足對(duì)用戶短文本輸入的實(shí)時(shí)理解和實(shí)時(shí)輸出的需求。而OpenAI的ChatGPT、百度文心一言等大語言模型能夠生成超越預(yù)定文本范圍的回復(fù)內(nèi)容,為數(shù)字人帶來更多更具創(chuàng)造性的可能。
生成式語言模型的創(chuàng)造性需要一定的框架限制才能有效應(yīng)用在數(shù)字人的語義理解上,本文提出的語義層框架包含對(duì)話策略生成與對(duì)話歷史管理兩個(gè)關(guān)鍵模塊。通過對(duì)話歷史管理模塊數(shù)字人能夠?qū)?duì)話內(nèi)容進(jìn)行記憶并能夠據(jù)此作出回應(yīng)。僅針對(duì)單句輸入進(jìn)行的回復(fù)難以給用戶代入感,因此針對(duì)不同的應(yīng)用場(chǎng)景,數(shù)字人需要有短期記憶與長期記憶的能力與之搭配。
通過歷史管理,數(shù)字人應(yīng)該建立一個(gè)針對(duì)用戶與數(shù)字人之間對(duì)話歷史的記錄系統(tǒng),從中提取用戶的特點(diǎn)、需求等信息,并基于這些信息創(chuàng)建一個(gè)對(duì)話歷史數(shù)據(jù)庫。在后續(xù)的內(nèi)容生成過程中,數(shù)字人可以通過參考對(duì)話歷史信息,生成更符合用戶需求的回復(fù)。對(duì)話策略管理是數(shù)字人進(jìn)行對(duì)話內(nèi)容生成的提綱。其核心在于運(yùn)用決策狀態(tài)機(jī)明確交互邏輯、跟蹤對(duì)話狀態(tài),并根據(jù)用戶反饋和上下文信息進(jìn)行實(shí)時(shí)調(diào)整與更新。通過狀態(tài)機(jī),數(shù)字人能夠察覺應(yīng)用場(chǎng)景的變化,并依據(jù)當(dāng)前對(duì)話狀態(tài)生成相應(yīng)的回復(fù),以完成對(duì)話。通過對(duì)話策略管理,數(shù)字人可以清晰地定義對(duì)話所需采取的路徑、要達(dá)成的目標(biāo),并通過判斷用戶的意圖和對(duì)話語境來選擇最優(yōu)的回復(fù)。
2.情感層。為了讓數(shù)字人更好地理解人類情感,本文提出了一套稱為“情感智能”的體系,它包括感知輸入、分析和表達(dá)輸出三個(gè)關(guān)鍵組成部分,用于協(xié)助數(shù)字人理解人類用戶的情感,進(jìn)而具備更準(zhǔn)確地捕捉及模擬人類情感表達(dá)的能力。
情感感知系統(tǒng)作為情感智能的輸入,為系統(tǒng)提供多模態(tài)的用戶數(shù)據(jù)。在假定生理檢測(cè)模式有效性的前提下,情感感知系統(tǒng)分析獲取用戶語音信息中的語氣、節(jié)奏等信息,通過傳感器采集用戶的心率、血壓、皮膚電導(dǎo)等指標(biāo),以推斷其情緒狀態(tài)。同時(shí),還可以引入眼動(dòng)、表情與手勢(shì)等生物信息作為輸入源,這些信息將作為表征用戶情感的重要參考,供后續(xù)的情感分析模塊使用。
情感分析模塊負(fù)責(zé)將感知來的情感信號(hào)轉(zhuǎn)化為計(jì)算機(jī)可理解的情感狀態(tài)。數(shù)字人可以進(jìn)一步通過情感理解進(jìn)行有效的情感推理,包括通過語音的速度、音調(diào)、強(qiáng)度、間隙等理解對(duì)話者的說話方式,反推其情感狀態(tài),實(shí)現(xiàn)對(duì)人類用戶情緒的理解。同時(shí),其他模態(tài)的信息也可以作為對(duì)情緒理解的補(bǔ)充,相關(guān)的情感分析技術(shù)能夠幫助數(shù)字人更好的理解人類用戶持有的情感狀態(tài),并制定后續(xù)的交互策略。
情感表達(dá)模塊使數(shù)字人能進(jìn)行人類可感知的情感輸出。該模塊是“情感智能”系統(tǒng)中與傳統(tǒng)的情感計(jì)算系統(tǒng)區(qū)別最大的部分,同時(shí)也是實(shí)現(xiàn)更自然、更有說服力的交互體驗(yàn)不可或缺的部分。該模塊需要將通過計(jì)算與分析得到的多模態(tài)輸出反映在數(shù)字人的行為上,從而使數(shù)字人以類似人類的方式回應(yīng)用戶的情感狀態(tài)和需求,并將結(jié)果投射到數(shù)字人的語音語調(diào)、面部表情、身體語言中。
通過這三個(gè)模塊的協(xié)同工作,數(shù)字人能夠更準(zhǔn)確地捕捉和模擬人類的情感表達(dá),這不僅提高了數(shù)字人情感系統(tǒng)的精度,還增強(qiáng)了數(shù)字人對(duì)復(fù)雜情感交互場(chǎng)景的理解和處理能力。
通過結(jié)合生成式人工智能進(jìn)行語義理解與情感計(jì)算,數(shù)字人能夠在一套完整的“情感智能”系統(tǒng)下與人類用戶進(jìn)行自然交互,從而實(shí)現(xiàn)更高級(jí)別的智能化,將其從數(shù)字虛擬人躍升為數(shù)字智能人。這種智能化不僅能夠顯著提升用戶體驗(yàn),還能夠有效地?cái)U(kuò)展其應(yīng)用場(chǎng)景。
1.?dāng)?shù)字智能人可以通過與人類用戶共情以緩解人類的孤獨(dú)感。搭載情感人工智能的數(shù)字人能夠更好地理解用戶情感,實(shí)現(xiàn)更人性化的反饋,實(shí)現(xiàn)對(duì)用戶的陪伴與支持。
2.?dāng)?shù)字智能人可以承擔(dān)起部分人工客服的工作。通過對(duì)話策略管理與情感計(jì)算,數(shù)智虛擬人能夠提供24小時(shí)不間斷的引導(dǎo)服務(wù),勝任大多數(shù)人工客服的任務(wù),及時(shí)解決用戶的困難,并提供更合理的服務(wù)流程。
3.?dāng)?shù)字智能人可以承擔(dān)起教師的職責(zé)。搭載大語言模型與情感計(jì)算功能的數(shù)智虛擬人為在線教育提供了全新的可能性和選擇,能夠通過學(xué)生的反饋與情感信息實(shí)時(shí)調(diào)整難易程度與教學(xué)策略,從而更好地完成教學(xué)目標(biāo)。
4.?dāng)?shù)字智能人在電子游戲領(lǐng)域中的重要性不容忽視。通過情感計(jì)算,數(shù)字人能夠根據(jù)玩家的行為與偏好調(diào)整自身的行為方式和反應(yīng)速度,從而增進(jìn)游戲的趣味性和挑戰(zhàn)性。帶有獨(dú)特人格與情感的數(shù)字人能夠增強(qiáng)游戲的定制性,也將為玩家提供更廣闊的創(chuàng)新空間。