彭冬雪
( 云南藝術(shù)學(xué)院 ,云南 昆明 650500)
人工智能的應(yīng)用自落地以來(lái),相關(guān)技術(shù)逐漸從理論研究和應(yīng)用研究走向落地實(shí)踐,互聯(lián)網(wǎng)和大數(shù)據(jù)的技術(shù)發(fā)展使得人工智能的數(shù)據(jù)和算法應(yīng)用也逐漸普及,隨著人工智能技術(shù)的不斷發(fā)展和應(yīng)用,AI 虛擬數(shù)字人也逐漸與其他技術(shù)和領(lǐng)域進(jìn)行融合,形成了更加復(fù)雜和綜合的應(yīng)用場(chǎng)景。而形成的大多數(shù)產(chǎn)品和應(yīng)用都與用戶使用脫不開(kāi)關(guān)系,以往的文獻(xiàn)重在人機(jī)交互的層面,方向多是以“由下向上”為主,也就是在產(chǎn)品的服務(wù)環(huán)節(jié)上,多以用戶的需求為重點(diǎn),尤其在特定的場(chǎng)景下,如何迎合與適配用戶體驗(yàn)成為AIGC 產(chǎn)品尤其是AI 虛擬數(shù)字人的改進(jìn)目標(biāo)和方向。探討AI 虛擬數(shù)字人與用戶關(guān)系建構(gòu)的原理、方法和實(shí)際應(yīng)用是本文關(guān)注的重點(diǎn),尤其“發(fā)音人”的作用不容小覷。
AI 虛擬數(shù)字人是一種具有多重人類(lèi)特征(外貌特征、人類(lèi)表演能力、人類(lèi)交互能力等)的綜合產(chǎn)物,由計(jì)算機(jī)圖形學(xué)、圖形渲染、動(dòng)作捕捉、深度學(xué)習(xí)、語(yǔ)音合成等計(jì)算機(jī)手段創(chuàng)造及使用,具有語(yǔ)言交流、表情傳遞、行為決策等多種功能。AI 虛擬數(shù)字人從20世紀(jì)80 年代開(kāi)始發(fā)展,起初受限于技術(shù),虛擬人制作以手繪和化妝為主,制作形式主要是2D、3D 動(dòng)畫(huà),代表性虛擬偶像有:日本虛擬歌姬林明美和英國(guó)虛擬演員Max Headroom。到21 世紀(jì)初期,隨著CG 技術(shù)、動(dòng)作面部捕捉技術(shù)的發(fā)展,逐漸取代了傳統(tǒng)手繪,虛擬人開(kāi)始加速運(yùn)用到影視行業(yè)。2007 年~2016 年,這個(gè)階段主要是音樂(lè)軟件的二次元虛擬形象,直到2016年被稱(chēng)為人工智能元年,人工智能開(kāi)始帶動(dòng)虛擬偶像的發(fā)展。2020 年至今是AI 虛擬數(shù)字人的成長(zhǎng)階段。
AI 虛擬數(shù)字人可以應(yīng)用于虛擬助手、虛擬客服、虛擬偶像/主播等多個(gè)領(lǐng)域,但更強(qiáng)調(diào)其多重人類(lèi)特征的模擬和呈現(xiàn)。目前比較成功的AI 虛擬數(shù)字人形象有以下:
清華數(shù)字學(xué)生“華智冰”是人工智能全新聊天機(jī)器人,能夠與人對(duì)話互動(dòng),作詩(shī)、作畫(huà)、作曲、翻譯,都游刃有余。柳夜熙是虛擬美妝博主,不僅擁有完美的身材和顏值,還會(huì)定期更新視頻,教網(wǎng)友如何化妝、如何搭配等。度曉曉、希加加是百度推出的AI 數(shù)字人,擁有二次元的形象,可以幫助人們搜索信息、回答問(wèn)題等。
AI 虛擬數(shù)字人、人工智能主播和虛擬偶像都是基于人工智能技術(shù)創(chuàng)建的角色,但它們的應(yīng)用場(chǎng)景、功能和形態(tài)存在一些區(qū)別:人工智能主播是基于人工智能技術(shù)開(kāi)發(fā)的,具有語(yǔ)音識(shí)別、語(yǔ)音合成、自然語(yǔ)言處理等功能,能夠與用戶進(jìn)行交互的虛擬主播。它通常被應(yīng)用于直播帶貨、新聞播報(bào)等領(lǐng)域,能夠自動(dòng)化地進(jìn)行播報(bào)和回答用戶的問(wèn)題。我們?cè)谝恍┟襟w平臺(tái)看到的人工智能主播有的是以真人主播為原型,比較有代表性的人工智能主播有:新華社首位AI 合成主播“新小浩”,搜狗聯(lián)合新華社推出的全球首個(gè)3D AI合成主播“新小微”,科大訊飛推出的AI 主播“康曉輝”和“時(shí)間小妮”,央視的AI 主播“小白”,女主播“新小萌”。
虛擬偶像是基于人工智能技術(shù)開(kāi)發(fā)的,具有音樂(lè)表演、舞蹈表演、形象設(shè)計(jì)等功能的虛擬人物。它們通常被應(yīng)用于娛樂(lè)、音樂(lè)等領(lǐng)域,能夠進(jìn)行多樣化的表演和互動(dòng)。代表性的虛擬偶像有——翎:由魔琺科技與次世文化共同打造的虛擬偶 像,以京劇梅派第三代傳人的聲音,現(xiàn)場(chǎng)演繹梅蘭芳代表作《天女散花》,成為首個(gè)登上央視舞臺(tái)的虛擬偶像。其發(fā)布于社交平臺(tái)的內(nèi)容涉及琴棋書(shū)畫(huà)、梅蘭竹菊,均營(yíng)造出一種“科技國(guó)風(fēng)感”。洛天依:上海禾念信息科技有限公司運(yùn)營(yíng)的虛擬歌手,也是中國(guó)第一個(gè)擁有自己的專(zhuān)業(yè)聲庫(kù)和形象設(shè)定的虛擬歌手。ASoul:字節(jié)跳動(dòng)旗下品牌朝夕光年的虛擬偶像組合,包括嘉然、向晚、乃琳、貝拉和珈樂(lè)。A-SOUL 第二任看板娘:米哈游發(fā)布的一個(gè)二次元虛擬偶像。K/DA:韓國(guó)女子團(tuán)體,由阿貍、卡莎、莎彌拉和迦娜四位英雄組成。初音未來(lái):CRYPTON FUTURE MEDIA 開(kāi)發(fā)的音源庫(kù),也是日本第一個(gè)使用全息投影技術(shù)舉辦演唱會(huì)的虛擬偶像。絆愛(ài):日本女子團(tuán)體,也是世界上第一個(gè)虛擬主播。未來(lái)明:日本的一位虛擬主播,因其游戲和直播內(nèi)容而受到關(guān)注。七海Nana7mi:中國(guó)的一位虛擬主播,因其游戲和直播內(nèi)容而受到關(guān)注。時(shí)乃空:中國(guó)的一位虛擬主播,因其音樂(lè)和直播內(nèi)容而受到關(guān)注。
AI 虛擬數(shù)字人、人工智能主播和虛擬偶像雖然應(yīng)用于不同場(chǎng)景,但是他們之間還有一點(diǎn)不同 :“中之人”—發(fā)音人的作用不同。
AI 虛擬數(shù)字人是一種基于人工智能技術(shù)的虛擬形象,可以與用戶進(jìn)行交互和交往,日常中的互動(dòng)是社會(huì)上個(gè)人與個(gè)人之間,群體與群體之間等通過(guò)語(yǔ)言或其他手段傳播信息而發(fā)生的相互依賴(lài)性行為的過(guò)程,因此AI 虛擬數(shù)字人在與用戶互動(dòng)的過(guò)程中也應(yīng)該有一定的社會(huì)行為,以更好地實(shí)現(xiàn)人機(jī)互動(dòng)。人工智能、圖形學(xué)和機(jī)器人方面的進(jìn)展正在加速實(shí)現(xiàn)工具人身代理,如社交機(jī)器人、虛擬化身和數(shù)字人類(lèi)。體現(xiàn)的虛擬人工代理的非語(yǔ)言行為是與現(xiàn)有媒介的關(guān)鍵區(qū)別。當(dāng)我們與具有人類(lèi)外形的代理人互動(dòng)時(shí),我們自然希望他們能像人類(lèi)一樣做一些社會(huì)行為,這通常被稱(chēng)為“社會(huì)負(fù)擔(dān)”,這種非語(yǔ)言行為在許多人與人的互動(dòng)和人與代理的互動(dòng)研究中被證明是有效的。代理人適當(dāng)?shù)氖謩?shì)和表情有助于揭示代理人的意圖,使聽(tīng)眾集中注意力,并與人類(lèi)建立融洽的關(guān)系。[1]個(gè)人與具有類(lèi)似人類(lèi)存在的物體互動(dòng)的方式與無(wú)生命的物體不同。他們傾向于將類(lèi)似的社會(huì)規(guī)則賦予具有人類(lèi)外觀的計(jì)算機(jī)技術(shù),盡管他們完全意識(shí)到他們?cè)谂c機(jī)器互動(dòng)。擬人化的存在引起了個(gè)人的基本社會(huì)腳本,如禮貌和互惠,這導(dǎo)致了與機(jī)器的情感、認(rèn)知和社會(huì)反應(yīng)。過(guò)去的研究表明,非人類(lèi)伙伴的可感知的人類(lèi)相似性是寄生社會(huì)互動(dòng)發(fā)生的重要前提,這使得它是真實(shí)的而不是虛構(gòu)的。寄生社會(huì)關(guān)系的發(fā)展取決于對(duì)應(yīng)方的真實(shí)性、現(xiàn)實(shí)性或可信度水平。[2]如何建立與用戶的真實(shí)的交往關(guān)系?在關(guān)系的這一層面里具有很多維度:情感關(guān)系、建立信任、互動(dòng)的有效性等。接下來(lái)筆者將以百度的AI 虛擬數(shù)字人度曉曉為例,在多方面進(jìn)行分析。
信任被定義為某人愿意在某個(gè)問(wèn)題、背景或信息方面變得易受影響。[3]這就是為什么當(dāng)涉及人機(jī)交互時(shí),信任具有特殊的重要性,用戶需要信任和依賴(lài)數(shù)字代理或虛擬助手,因?yàn)樗麄儽仨毚硭麄冃惺?。[4]度曉曉是百度公司推出的手機(jī)虛擬AI 助手,是國(guó)內(nèi)首個(gè)可交互虛擬數(shù)字人。度曉曉具備較為完整的語(yǔ)音交互體驗(yàn),與以往的智能音箱一樣,用戶通過(guò)語(yǔ)音喚醒App,就可以進(jìn)行1to1 的對(duì)話體驗(yàn)。除了能回答用戶的問(wèn)題外,還可以主動(dòng)感知用戶需求,分析用戶的行為、興趣和環(huán)境等信息進(jìn)行智能分析,主動(dòng)為用戶提供服務(wù)。目前度曉曉的應(yīng)用場(chǎng)景也比較豐富,包括語(yǔ)音交互、內(nèi)容創(chuàng)作、知識(shí)回答、情感陪伴等。而用戶對(duì)互動(dòng)的內(nèi)容也會(huì)有一個(gè)基本的判斷和要求,互動(dòng)是自然的,并且這些服務(wù)以及提供的信息必須是真實(shí)的有效的。在今年5 月底舉行的2023 萬(wàn)象·百度移動(dòng)生態(tài)大會(huì)上,肖陽(yáng)就演示了“AI 伙伴”的能力?;?dòng)過(guò)程中,這位“Al 伙伴”,能夠聽(tīng)懂用戶的任何問(wèn)題,并用語(yǔ)音進(jìn)行互動(dòng),同時(shí)為用戶標(biāo)記出答案中的重點(diǎn),提供權(quán)威的來(lái)源,以及根據(jù)用戶意圖制作圖片或進(jìn)行文案創(chuàng)作,重要的是所回答的問(wèn)題都符合了用戶所問(wèn)問(wèn)題的主題。[5]不難看出,在用戶提問(wèn)后,AI 虛擬數(shù)字人需要理解用戶的問(wèn)題,并給出準(zhǔn)確的回答,如果AI 虛擬數(shù)字人的回答與用戶問(wèn)題不相關(guān),用戶可能會(huì)感到困惑和不滿。
由于以人為本的設(shè)計(jì)理念,人們期望在AI 虛擬數(shù)字人那里獲得具有效益的信息并且期望符合內(nèi)心的預(yù)測(cè),Luke Balcombe 和 Diego De Leo 在《關(guān)于數(shù)字心理健康中的人機(jī)互動(dòng)》指出機(jī)器學(xué)習(xí)的可用性挑戰(zhàn),包括開(kāi)發(fā)和運(yùn)行模型需要足夠的技能和時(shí)間,用戶對(duì)模型缺乏信任,以及扎根于人機(jī)學(xué)習(xí)分歧的斗爭(zhēng),重要的是建立信任,減少分歧,提高責(zé)任感,解釋模型的邏輯,量化對(duì)預(yù)測(cè)的具體貢獻(xiàn),評(píng)估性能指標(biāo),并說(shuō)明以前研究的歷史預(yù)測(cè)。[6]AI 虛擬數(shù)字人需要建立起與用戶之間的信任,才能達(dá)成長(zhǎng)期的關(guān)系,這里的信任很大程度上指的是互動(dòng)中給出信息的真實(shí)度和準(zhǔn)確度。而在這個(gè)環(huán)節(jié)之前,發(fā)音人作為“存放聲音的倉(cāng)庫(kù)”,也就是語(yǔ)音庫(kù),是按照詞語(yǔ)或者句組的方式錄制的聲音,然后集中存儲(chǔ)到一個(gè)數(shù)據(jù)庫(kù)中,通常語(yǔ)音庫(kù)的文件體積越大,處理文本的能力就越強(qiáng),發(fā)音效果就越好,也就越接近于真人發(fā)音,從而增強(qiáng)AI 虛擬數(shù)字人的“真實(shí)感”。另外信息的準(zhǔn)確度來(lái)源之一是對(duì)互動(dòng)中自然語(yǔ)言的理解,這同樣需要在發(fā)音人工作階段有大量的文本積累,從而通過(guò)計(jì)算機(jī)算法進(jìn)行深度學(xué)習(xí),更好地理解語(yǔ)義回答問(wèn)題。在其他方面回答用戶問(wèn)題的權(quán)威性和準(zhǔn)確性也來(lái)源于知識(shí)庫(kù)和企業(yè)信息庫(kù),綜合來(lái)說(shuō)這些都可以進(jìn)一步增強(qiáng)用戶與AI 虛擬數(shù)字人之間的信任感。
另一個(gè)必須考慮的方面是性別,這個(gè)領(lǐng)域的一些主要參與者,如蘋(píng)果、谷歌或亞馬遜,已經(jīng)確保設(shè)備不僅有類(lèi)似人類(lèi)的語(yǔ)調(diào),而且是女性的語(yǔ)調(diào),因?yàn)樗齻儽徽J(rèn)為是更溫暖的、更值得信任的、更容易理解的,總之,更容易被人喜歡。[7]彭蘭在《AIGC 與智能時(shí)代的新生存特征》中提到,虛擬形象對(duì)人的另一種反射,是它所內(nèi)隱的設(shè)計(jì)者的價(jià)值觀與文化,今天的智能機(jī)器在外觀上的設(shè)計(jì)更是如此,不管是外貌還是聲音,總是以女性為主,人類(lèi)社會(huì)現(xiàn)有的性別偏見(jiàn),通過(guò)設(shè)計(jì)者也延續(xù)到了機(jī)器身上。[8]這也是我們經(jīng)??吹降囊恍┨摂M形象多是以女性角色出現(xiàn)的原因。
AI 虛擬數(shù)字人需要與用戶進(jìn)行互動(dòng),以了解用戶的需求和偏好,增強(qiáng)自身深度學(xué)習(xí)的效果。這可以通過(guò)語(yǔ)音交互、文本聊天、手勢(shì)識(shí)別等方式實(shí)現(xiàn)。而這些動(dòng)態(tài)交互不能只是有,還要準(zhǔn)確。機(jī)器像一面鏡子,反射著與之交流的人,影響其自我認(rèn)知。有研究者認(rèn)為,在人機(jī)交往中,虛擬的自我認(rèn)同與現(xiàn)實(shí)的自我認(rèn)同互相影響,共同建立起完整的“自我”。作為人的“化身”的虛擬交往對(duì)象,既讓“我”看到了另一個(gè)自己,也幫助“我”建立了“理想的他者”。[9]這也意味著這些互動(dòng)有時(shí)不單單是為了獲取信息,還可能是一種情感陪伴和自我療愈的過(guò)程,數(shù)字平臺(tái)和人工智能(AI)在改善心理健康護(hù)理和自殺預(yù)防服務(wù)的預(yù)測(cè)、識(shí)別、協(xié)調(diào)和治療方面具有良好的潛力?;?dòng)式人工智能可能有助于在過(guò)時(shí)的、緊張的精神保健系統(tǒng)中進(jìn)行實(shí)時(shí)篩查和治療。[10]譬如:如果有人在數(shù)字平臺(tái)的輸入欄輸入“該如何自殺”,這時(shí)AI 虛擬數(shù)字人是否可以探測(cè)到異常,能自然并擬人化的與用戶溝通,聊天甚至開(kāi)導(dǎo)。這都是值得討論的問(wèn)題。發(fā)音人在此環(huán)節(jié)創(chuàng)造的價(jià)值是,通過(guò)自然、流暢的語(yǔ)音交互,使用戶與AI 虛擬數(shù)字人之間建立自然有效的情感互動(dòng)。例如,情感互動(dòng)需要一定情境和背景,也就是我們常說(shuō)的虛擬互動(dòng)中的應(yīng)用場(chǎng)景,發(fā)音人在采集數(shù)據(jù)時(shí),被要求需要在不同場(chǎng)景表達(dá)出譬如喜悅、難過(guò)、平靜、驚恐等一系列情緒的話語(yǔ)和表情動(dòng)作,并且體量很大,因此呈現(xiàn)在AI 虛擬數(shù)字人互動(dòng)中的各種情緒性表達(dá)一定意義上來(lái)說(shuō)都是由發(fā)音人賦予,以此讓用戶感受到AI 虛擬數(shù)字人的親切感,增強(qiáng)情感互動(dòng)從而增強(qiáng)用戶的信任感。
基于大數(shù)據(jù)模型和計(jì)算機(jī)應(yīng)用的深度學(xué)習(xí)以及算法應(yīng)用,深度學(xué)習(xí)是AI 虛擬數(shù)字人在了解用戶習(xí)慣時(shí)經(jīng)常提到的詞,這需要AI 虛擬數(shù)字人在面對(duì)不同群體不同問(wèn)題時(shí)表現(xiàn)出專(zhuān)業(yè)性以及內(nèi)容的垂直性,還是以百度AI 虛擬數(shù)字人度曉曉為例。2022 年度曉曉作答了全國(guó)新高考Ⅰ卷題為《本手、妙手、俗手》的議論文,拿下了48 分的高分,戰(zhàn)勝了超75%的考生,文章更是在全網(wǎng)刷屏,2023 年,在一場(chǎng)關(guān)于高考直播的中,百度“AI 伙伴”現(xiàn)場(chǎng)挑戰(zhàn)高考語(yǔ)文考試,包括作文、微寫(xiě)作、古詩(shī)詞賞析、文言文翻譯等。一篇文言文作文甚至迷惑了資深語(yǔ)文老師莊臨旭,誤以為是真人所寫(xiě),給了很高的評(píng)價(jià),認(rèn)為水平超過(guò)95%的同學(xué)。這樣的互動(dòng)實(shí)例就給了更多人愿意去嘗試AI 助手的信心。發(fā)音人在進(jìn)行前期基礎(chǔ)工作時(shí),可以根據(jù)用戶需求和偏好,提供個(gè)性化的語(yǔ)音,比如根據(jù)用戶的興趣再合成相關(guān)的語(yǔ)音推薦。還可以通過(guò)其知識(shí)儲(chǔ)備和信息來(lái)源,提供各種豐富的信息和建議,發(fā)音人和技術(shù)的結(jié)合讓AI 虛擬數(shù)字人幫助用戶更好地理解和應(yīng)對(duì)各種情況,更好地解決問(wèn)題獲得成長(zhǎng)。
擬人化被表示為 “一個(gè)形象看起來(lái)像人的程度”。[11]從AI 虛擬數(shù)字人的發(fā)展來(lái)看,幾乎所有的虛擬形象都有一個(gè)角色設(shè)定,這樣方便用戶能夠更好地理解他們的身份,角色設(shè)定應(yīng)該與應(yīng)用程序或網(wǎng)站的目標(biāo)相一致,并能夠?yàn)橛脩籼峁┯袃r(jià)值的服務(wù)。而且虛擬數(shù)字人的發(fā)展方向在于交互能力的提升和形象呈現(xiàn)的進(jìn)步,擬人化是發(fā)展的核心,表現(xiàn)為對(duì)真人的替代能力。彭蘭提出虛擬偶像部分采用的是“皮套”+“中之人”模式,對(duì)于虛擬數(shù)字人來(lái)說(shuō),發(fā)音人也類(lèi)似于其中“中之人”,但與虛擬偶像的“中之人”不同的是,或許虛擬偶像的互動(dòng)與在數(shù)字平臺(tái)的表現(xiàn)可能就來(lái)自真實(shí)的人,而虛擬數(shù)字人的互動(dòng)表現(xiàn)是發(fā)音人語(yǔ)音和表情動(dòng)作的深度學(xué)習(xí)與算法合成,并且“中之人”不會(huì)表現(xiàn)出特定某個(gè)人的具體特征。在現(xiàn)存的文獻(xiàn)中,幾乎70%的文章指出,擬人化的表現(xiàn)對(duì)虛擬人物的發(fā)展至關(guān)重要,因?yàn)樗峁┝似渖鐣?huì)存在的線索,研究表明,虛擬人物越是擬人化,其可信度和熟練度就越高。[12]在Lisa Alazraki 和Ali Ghachem 等人在用于心理治療的人工智能聊天軟件的非臨床試驗(yàn)結(jié)果中得出,聊天軟件中類(lèi)人角色得到了更多的最高范圍的回應(yīng)。[13]發(fā)音人如何在讓AI 虛擬數(shù)字人在深度學(xué)習(xí)后的互動(dòng)時(shí)擬人化程度高,最主要的是在表達(dá)時(shí)語(yǔ)流的流暢度高、不同場(chǎng)景下情緒的飽滿程度好、動(dòng)作表達(dá)更合時(shí)宜以及唇動(dòng)幅度明顯和自然。但是是否交互過(guò)程擬人化程度越高用戶的接受度就越高呢?這是下一步需要大量調(diào)研去驗(yàn)證的事情。
發(fā)音人是指掌握并運(yùn)用某種方言的人,在人工智能領(lǐng)域中,發(fā)音人是指為語(yǔ)音合成、語(yǔ)音識(shí)別、口語(yǔ)評(píng)測(cè)等人工智能技術(shù)提供聲音數(shù)據(jù)的人。發(fā)音人的聲音質(zhì)量、發(fā)音標(biāo)準(zhǔn)程度和口音特點(diǎn)等因素都會(huì)影響人工智能技術(shù)的性能和應(yīng)用效果。筆者從2015 年開(kāi)始接觸并參與人工智能語(yǔ)音合成項(xiàng)目,工作是為智能語(yǔ)音項(xiàng)目做前期的發(fā)音和播報(bào),落地的產(chǎn)品就是智能音箱,通過(guò)TTS 語(yǔ)音合成技術(shù)將輸入的文本合成為語(yǔ)音。然而在技術(shù)合成之前需要有一個(gè)足量的語(yǔ)音數(shù)據(jù)庫(kù),以便在后期合成時(shí),在計(jì)算機(jī)算法的支持下形成具體的語(yǔ)音內(nèi)容。2019 年開(kāi)始參與AI 虛擬數(shù)字人的聲音及面部表情的采集工作,與智能語(yǔ)音項(xiàng)目不同的一點(diǎn)是,除了對(duì)發(fā)音人的聲音有要求外,對(duì)發(fā)音人的上鏡形象也有一定的要求,落地的產(chǎn)品就是具有動(dòng)畫(huà)形象的虛擬助手。因此,如何給數(shù)據(jù)賦能,重要之一就是發(fā)音人的語(yǔ)音和行為及面部動(dòng)作數(shù)據(jù)的采集。
在發(fā)音人的選擇方面,也有一些固定的標(biāo)準(zhǔn),尤其在智能語(yǔ)音項(xiàng)目中,發(fā)音人的語(yǔ)音質(zhì)量要足夠高,聲音要清晰、自然、流暢,沒(méi)有雜音和干擾。隨后就是對(duì)發(fā)音人音色的要求,這里說(shuō)的音色并不是單純指其定義(指聲音的特色,也可以說(shuō)是聲音的本質(zhì),又叫音質(zhì)。是不同的聲音能夠相互區(qū)別的最基本的特征。它決定于物體振動(dòng)所形成的音波波紋的曲折形式不同。)而是發(fā)音人在不同場(chǎng)景下模擬出的聲音,在這一方面有點(diǎn)相似于配音演員。如發(fā)音人按要求模仿15歲左右的女生聲音,并且以俏皮可愛(ài)、生氣憤怒、撒嬌等情緒表達(dá)出來(lái),在每個(gè)場(chǎng)景下需要的數(shù)據(jù)發(fā)音人大概要錄制三千句左右,但錄制的過(guò)程有嚴(yán)格的要求,需要每一句不論長(zhǎng)短都保持同樣的音量、音高和音質(zhì),也就是錄制過(guò)程中錄音師經(jīng)常對(duì)發(fā)音人提出的一項(xiàng)要求就是狀態(tài)要始終保持一致。錄制內(nèi)容上面則是隨機(jī)的,并不會(huì)根據(jù)情緒表達(dá)的不同而在文本上會(huì)有所設(shè)計(jì),這樣是為了確?;A(chǔ)數(shù)據(jù)的準(zhǔn)確性和概括性。而對(duì)于年齡和性別在人工智能項(xiàng)目里的傾向,在之后會(huì)詳細(xì)闡明。
AI 虛擬數(shù)字人對(duì)發(fā)音人的要求在聲音方面跟智能語(yǔ)音項(xiàng)目大致相同,語(yǔ)速要適中,不要太快或太慢,同時(shí)要有適當(dāng)?shù)耐nD,以便后期AI 虛擬數(shù)字人能夠把語(yǔ)句意思與唇形變化匹配起來(lái)。發(fā)音人的聲音類(lèi)型要與AI 虛擬數(shù)字人的形象和角色要求相符合,例如,如果是創(chuàng)建年輕女性的數(shù)字人,則需要年輕女性的聲音。除此之外,AI 虛擬數(shù)字人項(xiàng)目對(duì)發(fā)音人另一個(gè)重要的要求就是較好的上鏡形象,錄制時(shí)需要頭發(fā)扎好,顯露臉部,發(fā)音人臉部清晰明亮;口部正對(duì)攝像頭,面部與錄制手機(jī)保持平行;頭部動(dòng)作幅度不要太大,盡量保持一致;口型豐富、生動(dòng)、咬字清晰;錄制語(yǔ)速平穩(wěn),句子與句子之間需要自然閉嘴。隨著技術(shù)的更新,采集數(shù)據(jù)的要求也變高了,在動(dòng)態(tài)捕捉方面更多開(kāi)始往唇形的幅度靠攏,這里注重的是唇形變化的幅度而不是準(zhǔn)確度,因?yàn)樵谝曈X(jué)效果方面AI 虛擬數(shù)字人說(shuō)出來(lái)的話要像真人一樣有唇動(dòng)的變化,加之面部眉眼的動(dòng)態(tài),力求讓AI 虛擬數(shù)字人在與用戶交互的過(guò)程中能更生動(dòng)與自然,也就是更擬人化。
發(fā)音人的工作對(duì)AI 虛擬數(shù)字人的影響很大,因?yàn)榘l(fā)音人是AI 虛擬數(shù)字人的聲音基礎(chǔ)和動(dòng)態(tài)表達(dá)的形象基礎(chǔ),其聲音質(zhì)量、表達(dá)方式、語(yǔ)速、表情、唇形、動(dòng)作幅度等都會(huì)直接影響AI 虛擬數(shù)字人的交互效果。如果發(fā)音人的聲音質(zhì)量不好、表達(dá)方式不準(zhǔn)確、語(yǔ)速過(guò)快或過(guò)慢,都會(huì)導(dǎo)致AI 虛擬數(shù)字人的語(yǔ)音交互效果變差,甚至讓用戶無(wú)法理解或產(chǎn)生誤解。如果發(fā)音人的面部動(dòng)作捕捉幅度過(guò)小,顯示在AI 虛擬數(shù)字人上的動(dòng)態(tài)會(huì)非常不明顯,從而降低交互的效果。因此,選擇合適的發(fā)音人是非常重要的,需要考慮到發(fā)音人的語(yǔ)音質(zhì)量、表達(dá)方式、語(yǔ)速、動(dòng)作幅度等因素,以確保AI 虛擬數(shù)字人的交互效果良好。綜上所述,AI 虛擬數(shù)字人對(duì)發(fā)音人的要求比較高,需要發(fā)音人具備專(zhuān)業(yè)的語(yǔ)音知識(shí)和技能,同時(shí)要根據(jù)數(shù)字人的要求進(jìn)行針對(duì)性的語(yǔ)音錄制和表情動(dòng)作的調(diào)整。
發(fā)音人可以為人工智能技術(shù)提供多語(yǔ)種、多地域的聲音數(shù)據(jù),使人工智能技術(shù)的性能更加豐富和多樣化。筆者參與的AI 虛擬數(shù)字人項(xiàng)目主要以普通話為主,其間有少部分英文。發(fā)音人在語(yǔ)音和面部動(dòng)態(tài)捕捉方面的工作可以不斷優(yōu)化計(jì)算機(jī)深度學(xué)習(xí)算法,提高語(yǔ)音識(shí)別的準(zhǔn)確性和自然度,使虛擬數(shù)字人的發(fā)音更加準(zhǔn)確,面部表情和唇動(dòng)變化更加真實(shí)和自然。除了語(yǔ)音數(shù)據(jù),還可以引入圖像、視頻、文本等多模態(tài)數(shù)據(jù),通過(guò)多模態(tài)融合技術(shù),提高虛擬數(shù)字人的智能和自然度,而在加強(qiáng)語(yǔ)言的理解方面則通過(guò)發(fā)音人提供的準(zhǔn)確標(biāo)準(zhǔn)的語(yǔ)音數(shù)據(jù),通過(guò)強(qiáng)化學(xué)習(xí)等技術(shù),提高虛擬數(shù)字人對(duì)不同語(yǔ)言的理解和表達(dá)能力,使其更好地適應(yīng)不同場(chǎng)景和用戶需求?;ヂ?lián)網(wǎng)產(chǎn)業(yè)時(shí)評(píng)人張書(shū)樂(lè)表示,虛擬數(shù)字人某種意義上是各大互聯(lián)網(wǎng)科技廠商展示“肌肉”的一個(gè)集中呈現(xiàn)物,即內(nèi)容創(chuàng)造、人工智能、動(dòng)作捕捉和各種與之相關(guān)技術(shù)的融合,本質(zhì)上虛擬數(shù)字人不誕生新技術(shù),而是用受眾最容易理解的方式展示黑科技成果。[14]
發(fā)音人可以為人工智能技術(shù)提供不同年齡、性別、文化背景、表情動(dòng)作等特征的聲音和形象數(shù)據(jù),使得人工智能技術(shù)能夠更好地適應(yīng)不同的應(yīng)用場(chǎng)景和用戶需求。與智能語(yǔ)音的交互不同,AI 數(shù)字人的交互需要通過(guò)畫(huà)面的動(dòng)態(tài)形象來(lái)實(shí)現(xiàn),而大量的基礎(chǔ)數(shù)據(jù)支持仍然來(lái)源于發(fā)音人,我作為發(fā)音人截至目前一共錄制了42.2 個(gè)成品小時(shí)的內(nèi)容,內(nèi)容的要求隨著產(chǎn)品的更新迭代也有不同,最初的19 個(gè)小時(shí)內(nèi)容的要求主要是面部表情的動(dòng)態(tài)識(shí)別,需要在不同的情緒下,如平靜、開(kāi)心、憤怒、驚恐等展現(xiàn)不同的面部動(dòng)態(tài),每個(gè)表情的錄制內(nèi)容在三千句左右。其中錄制最多的表情是平靜,以獲取更精準(zhǔn)的面部識(shí)別數(shù)據(jù)。之后的內(nèi)容則更加注重唇動(dòng)數(shù)據(jù)的采集,在表達(dá)內(nèi)容時(shí)要求唇形的變化要明顯,幅度要大要準(zhǔn)確,更像“真人”在表達(dá)。
發(fā)音人可以為人工智能技術(shù)提供聲音數(shù)據(jù),并協(xié)助開(kāi)發(fā)者進(jìn)行技術(shù)調(diào)試和優(yōu)化,提高人工智能技術(shù)的準(zhǔn)確性和可靠性。前文區(qū)分了AI 虛擬數(shù)字人、人工智能主播和虛擬偶像的區(qū)別,這三種人工智能角色在一定程度雖然都可以稱(chēng)為AI 虛擬數(shù)字人,但值得注意的是,人工智能主播在真人數(shù)據(jù)采集,并以真人為原型作為基礎(chǔ)的情況下合成為智能主播時(shí),在語(yǔ)音的采集和動(dòng)作捕捉上面相對(duì)容易一些,呈現(xiàn)出的2D 或者3D形象也更像真人,尤其在唇動(dòng)數(shù)據(jù)和動(dòng)作自然程度上更加貼切,這都是因?yàn)橐磺卸肌坝雄E可循”。而不以現(xiàn)實(shí)中真人形象作為基礎(chǔ)的AI 虛擬數(shù)字人則在語(yǔ)音的采集和動(dòng)作捕捉上面難度更大,還原到虛擬人物上時(shí),唇動(dòng)數(shù)據(jù)和動(dòng)作自然程度的逼真度要低,這就要求發(fā)音人在進(jìn)行內(nèi)容表達(dá)的時(shí)候要做到絕對(duì)的準(zhǔn)確。
在采集的數(shù)據(jù)應(yīng)用到模型上之前,計(jì)算機(jī)需要對(duì)語(yǔ)音和面部動(dòng)態(tài)數(shù)據(jù)進(jìn)行深度學(xué)習(xí),因?yàn)檫@進(jìn)一步影響到交互中語(yǔ)義理解的問(wèn)題,在語(yǔ)音交互中,語(yǔ)義理解要處理的問(wèn)題是用戶在口語(yǔ)化表達(dá),也就是自然語(yǔ)言表達(dá)下的意圖,而現(xiàn)實(shí)生活中的自然語(yǔ)言表達(dá)通常存在上下文關(guān)聯(lián)、場(chǎng)景特定用語(yǔ)、口語(yǔ)化、常識(shí)背景、省略說(shuō)法等語(yǔ)言現(xiàn)象,同時(shí)一些垂直領(lǐng)域?qū)嶓w取名復(fù)雜,存在大量實(shí)體歧義的現(xiàn)象(比如“三只羊”是一個(gè)通常詞匯,也是一個(gè)公司的名字)。場(chǎng)景、語(yǔ)境、交互對(duì)象的不斷切換讓語(yǔ)音交互中的語(yǔ)義理解更加困難。對(duì)于缺乏較大量訓(xùn)練數(shù)據(jù)的特定對(duì)話任務(wù),為了提升模型的語(yǔ)義理解能力,通常還需要結(jié)合相應(yīng)實(shí)體或句式等其他資源,抑或者通過(guò)底層句子語(yǔ)義建模能力的提高來(lái)獲得泛化性能的增強(qiáng)。[15]在一些文章中會(huì)把AI 虛擬數(shù)字人稱(chēng)為虛擬代理,其中的研究表明,虛擬代理在交互中的積極影響隨著代理的質(zhì)量而增加:虛擬代理越看起來(lái)越擬人化就越好。因此,代理功能的質(zhì)量,如作為類(lèi)似人類(lèi)的聲音、手勢(shì)、面部表情、眼睛注視和身體運(yùn)動(dòng)等發(fā)揮著重要作用。[16]而這些工作都需要處在基礎(chǔ)環(huán)節(jié)的發(fā)音人去完成。由此,我們提出AI 虛擬數(shù)字人的發(fā)展依靠技術(shù)升級(jí)的同時(shí),還要結(jié)合更多方面,例如發(fā)音人在基礎(chǔ)工作中的表現(xiàn)。
AI 虛擬數(shù)字人喚起用戶的感知真實(shí)需要落到具體的交互過(guò)程中,體現(xiàn)在AI 虛擬數(shù)字人上就是在語(yǔ)言表達(dá)和面部動(dòng)作呈現(xiàn)尤其是唇動(dòng)數(shù)據(jù)的采集上,而落實(shí)在實(shí)操上面的語(yǔ)音和唇動(dòng)就與發(fā)音人在表達(dá)過(guò)程中與實(shí)驗(yàn)語(yǔ)音學(xué)之間的關(guān)系有關(guān)聯(lián)了。實(shí)驗(yàn)語(yǔ)音學(xué)是研究語(yǔ)音的生理、物理和心理因素的學(xué)科,而AI 虛擬數(shù)字人則是利用計(jì)算機(jī)技術(shù)和人工智能技術(shù)來(lái)創(chuàng)建和模擬人類(lèi)語(yǔ)音的數(shù)字人物,兩者之間互相影響。在前文筆者也提到一直參與人工智能語(yǔ)音項(xiàng)目和AI 虛擬數(shù)字人數(shù)據(jù)采集工作,接下來(lái)筆者將以部分工作經(jīng)歷和發(fā)音人的采訪作為內(nèi)容分析的出發(fā)點(diǎn)和落腳點(diǎn)。
實(shí)驗(yàn)語(yǔ)音學(xué)可以通過(guò)對(duì)語(yǔ)音生成的生理和聲學(xué)機(jī)制的研究,開(kāi)發(fā)出更準(zhǔn)確的語(yǔ)音識(shí)別算法和語(yǔ)音合成算法,使得虛擬數(shù)字人和智能語(yǔ)音工具的聲音更加自然和真實(shí)。實(shí)驗(yàn)語(yǔ)音學(xué)的研究成果可以為AI 虛擬數(shù)字人的語(yǔ)音合成、語(yǔ)音識(shí)別、語(yǔ)音評(píng)估等方面提供重要的支持和參考。例如,實(shí)驗(yàn)語(yǔ)音學(xué)的研究成果可以用于優(yōu)化AI 虛擬數(shù)字人的語(yǔ)音質(zhì)量、語(yǔ)音表達(dá)方式和語(yǔ)速等,從而提高其語(yǔ)音交互效果,喚起用戶在互動(dòng)中的交流真實(shí)感,激發(fā)交流欲望。筆者從事智能語(yǔ)音工作時(shí),有一階段發(fā)音人需要在脖子上佩戴儀器監(jiān)測(cè)聲音發(fā)出時(shí)的振幅,但在進(jìn)行過(guò)程中很有難度,為了保證一致性,在統(tǒng)一情緒的表達(dá)下(如開(kāi)心、難過(guò)、憤怒等)振幅差別太大需要重錄,并且儀器的佩戴需要緊貼脖子,發(fā)音人的表達(dá)舒適度降低,進(jìn)程也會(huì)放緩。而在這一過(guò)程中發(fā)音人要始終保持一個(gè)狀態(tài),這是為了在固定場(chǎng)景下保證交流效果的統(tǒng)一性和準(zhǔn)確性,確保在真實(shí)交流環(huán)境下,用戶不會(huì)因?yàn)椴环€(wěn)定情緒而表達(dá)“出戲”。在前文提到的,進(jìn)行AI 虛擬數(shù)字人的發(fā)音人數(shù)據(jù)采集工作時(shí),尤其注意唇動(dòng)數(shù)據(jù)的采集。但是從實(shí)驗(yàn)語(yǔ)音學(xué)的角度來(lái)講,正常人在日常表達(dá)中是有語(yǔ)流音變的,再加上發(fā)音規(guī)律中涉及唇形和舌位的變化,最后加上語(yǔ)境,很多句子和詞匯的在表達(dá)過(guò)程中唇形的變化就沒(méi)有那么的明顯,例如裊裊炊煙一詞,裊的發(fā)音在唇形的變化體現(xiàn)在從展唇到圓唇,但對(duì)于疊詞裊裊,如果想表現(xiàn)出語(yǔ)流的自然,唇形在建模系統(tǒng)中的采集就不會(huì)很明顯,呈現(xiàn)出來(lái)的就只是上下唇的輕微張合;再比如知識(shí)一詞,如果都按照展唇發(fā)音,就會(huì)出現(xiàn)聲音發(fā)出的時(shí)候唇部沒(méi)有變化。而在視頻互動(dòng)中缺少明顯的動(dòng)態(tài)表達(dá),似乎是AI 虛擬數(shù)字人與用戶交互的大忌,那該如何改變呢?在整個(gè)錄制的過(guò)程中也達(dá)成了一種“規(guī)范”,在遇到唇動(dòng)不明顯的疊詞時(shí),語(yǔ)速可以稍微放緩,唇動(dòng)的變化稍許夸張,動(dòng)程做到位,盡量體現(xiàn)出唇形的變化。對(duì)于zh、ch、sh 的組合發(fā)音,則可以輕微撮唇。在效果的呈現(xiàn)上,唇形的豐富度使得虛擬數(shù)字人在與用戶交互時(shí)更加自然流暢,機(jī)械感降低,擬人化程度也提高。但是與此同時(shí)實(shí)驗(yàn)語(yǔ)音學(xué)也需要大量的數(shù)據(jù)和實(shí)驗(yàn)來(lái)支持,來(lái)驗(yàn)證在多場(chǎng)景下部分唇動(dòng)的不規(guī)則變化是否會(huì)影響語(yǔ)音的語(yǔ)義理解,而這些數(shù)據(jù)和實(shí)驗(yàn)往往需要較高的成本和時(shí)間。
例如,AI 虛擬數(shù)字人可以用于模擬不同條件下的語(yǔ)音信號(hào)和唇形數(shù)據(jù),為實(shí)驗(yàn)語(yǔ)音學(xué)的研究提供可靠的實(shí)驗(yàn)數(shù)據(jù)和實(shí)驗(yàn)環(huán)境。大部分的數(shù)字虛擬助手都采用自然語(yǔ)言理解技術(shù),可以解析用戶的語(yǔ)言,理解其含義,并作出相應(yīng)的回應(yīng),除了普通話和外國(guó)語(yǔ)的區(qū)別之外,國(guó)內(nèi)的少數(shù)民族語(yǔ)言和方言的使用情況復(fù)雜,口音問(wèn)題也在普通話的表現(xiàn)明顯,中國(guó)的方言有一百多種,而這一百多種方言可以細(xì)分到一個(gè)具體的地點(diǎn),比如某市、某縣、某鎮(zhèn)、某村的方言,正所謂“十里不同音,百里不同俗”。中國(guó)有五十六個(gè)民族,在五十五個(gè)少數(shù)民族中,一個(gè)民族說(shuō)一種語(yǔ)言的比較多,有的民族說(shuō)兩種或兩種以上的語(yǔ)言,據(jù)統(tǒng)計(jì),我國(guó)少數(shù)民族語(yǔ)言的數(shù)目在七十種以上。面對(duì)如此龐大的數(shù)量,AI 虛擬數(shù)字人的廣泛應(yīng)用可以為實(shí)驗(yàn)語(yǔ)音學(xué)的多方面研究帶來(lái)助力。還是以度曉曉為例,度曉曉基于多模態(tài)交互技術(shù),可以實(shí)現(xiàn)語(yǔ)音識(shí)別、文本輸入、語(yǔ)音合成等多種交互方式,交互的頻次越多,數(shù)據(jù)就越豐富。度曉曉還具備機(jī)器翻譯能力,可以自動(dòng)翻譯語(yǔ)音或文本,為用戶提供多語(yǔ)言的服務(wù),這樣可以吸引更多使用不同語(yǔ)言的群體。此外,度曉曉采用自然語(yǔ)言理解技術(shù),可以解析用戶的語(yǔ)言,理解其含義,并作出相應(yīng)的回應(yīng)。基于深度學(xué)習(xí)技術(shù),可以進(jìn)行語(yǔ)音識(shí)別、文本分類(lèi)、情感分析等任務(wù),為用戶提供更加智能、個(gè)性化的服務(wù),互動(dòng)方式和服務(wù)越完善,擬人化程度越高,就能吸引更多的用戶使用。AI 虛擬數(shù)字人和實(shí)驗(yàn)語(yǔ)音學(xué)共同推動(dòng)語(yǔ)音技術(shù)和人工智能技術(shù)的發(fā)展和應(yīng)用。
人工智能技術(shù)的飛速發(fā)展,使AI 虛擬數(shù)字人在各個(gè)領(lǐng)域的應(yīng)用都越來(lái)越廣泛,人機(jī)交互技術(shù)的不斷提升,讓AI 虛擬數(shù)字人與用戶的關(guān)系建構(gòu)方面變得越來(lái)越重要。通過(guò)分析現(xiàn)有研究,筆者發(fā)現(xiàn)AI 虛擬數(shù)字人在用戶關(guān)系建構(gòu)中的應(yīng)用主要集中在以下幾個(gè)方面:用戶體驗(yàn)、情感傳遞、行為影響等。其中從發(fā)音人的視角來(lái)看,發(fā)音人在數(shù)據(jù)采集的工作中發(fā)揮重要作用,提供的聲音數(shù)據(jù)是人工智能技術(shù)的基礎(chǔ),為語(yǔ)音合成、語(yǔ)音識(shí)別、口語(yǔ)評(píng)測(cè)等技術(shù)提供訓(xùn)練和測(cè)試的數(shù)據(jù)。其聲音質(zhì)量、發(fā)音標(biāo)準(zhǔn)程度和口音特點(diǎn)等因素都會(huì)影響人工智能技術(shù)的性能和應(yīng)用效果。發(fā)音人可以為人工智能技術(shù)提供多語(yǔ)種、多地域的聲音數(shù)據(jù),使得人工智能技術(shù)的性能更加豐富和多樣化。也能為人工智能技術(shù)提供不同年齡、性別、文化背景等特征的聲音數(shù)據(jù),使得人工智能技術(shù)能夠更好地適應(yīng)不同的應(yīng)用場(chǎng)景和用戶需求,協(xié)助開(kāi)發(fā)者進(jìn)行技術(shù)調(diào)試和優(yōu)化,提高人工智能技術(shù)的準(zhǔn)確性和可靠性,因此在AI 虛擬數(shù)字人的生產(chǎn)和設(shè)計(jì)過(guò)程中也參與解決了一個(gè)最核心的問(wèn)題——與用戶的關(guān)系建構(gòu)。而在與實(shí)驗(yàn)語(yǔ)音學(xué)的相互影響中,也探討了更多理論在具體實(shí)踐中的差別與應(yīng)用,即唇動(dòng)的變化在擬人化表現(xiàn)和語(yǔ)義理解中的作用。最后,期望AI 虛擬數(shù)字人能夠應(yīng)用到更多的領(lǐng)域和場(chǎng)景中去。