馬一民 中國(guó)傳媒大學(xué)
人的聲音是我們表達(dá)內(nèi)心想法,溝通情感的一個(gè)重要方式。我們表現(xiàn)不同的情緒狀態(tài),傳達(dá)不同的信息,會(huì)用不同的語調(diào)、語氣,有輕生弱氣,有高聲大氣,有凝重深沉,有尖銳犀利,有溫順平抑、有堅(jiān)強(qiáng)剛毅……聲音是人類溝通最重要的工具,用人工智能創(chuàng)造的聲音這些年開始出現(xiàn)在我們的生活中,如導(dǎo)航、手機(jī)助手、智能音箱等等。當(dāng)機(jī)器有了聲音,人機(jī)交互也變得自然有趣。但人工智能在未來能否替代人類完成如配音、播音、主持等專業(yè)性較強(qiáng)的工作呢?在應(yīng)用方面會(huì)有什么樣的限制和優(yōu)勢(shì)?
本次的研究對(duì)象是中國(guó)電視歷史上第一個(gè)正式上崗的人工智能少女“小冰”。2015年12月22日,小冰首次作為見習(xí)主持人身份亮相電視節(jié)目。為了讓虛擬少女小冰的聲音更加富有情感,研發(fā)團(tuán)隊(duì)不斷用算法幫助她學(xué)習(xí)人類說話的音色,語氣、節(jié)奏和情感。讓“小冰”可以更加自然的用語言和人類溝通,也可以富有情感的講故事。研發(fā)團(tuán)隊(duì)介紹,小冰的聲音是通過聲音定制技術(shù)創(chuàng)造出來的,她的聲音并不是一成不變的,而是時(shí)而高興,時(shí)而憂傷。通過聲音的變化,能讓人覺得小冰是一個(gè)有血有肉,一個(gè)情感豐富的小姑娘。新一代人工智能機(jī)器人“小冰”全聲音模型在人聲模擬技術(shù)上取得了新的成果,開始嘗試展現(xiàn)人類的情感,它將人類的情感類型分成幾個(gè)大類,將表現(xiàn)不同情感的錄音分別建立模型,使整個(gè)的聲音對(duì)連續(xù)的情感空間能夠持續(xù)建模,使其變成一個(gè)整體模型,其中任何一個(gè)點(diǎn)對(duì)應(yīng)位置的情感都可以通過建模輸出表現(xiàn)。同時(shí)只需要采集目標(biāo)說話人少量的錄音數(shù)據(jù)就可以為他定制出專屬于自己的全聲音模型,演繹豐富的聲音內(nèi)容。
但“小冰”目前的發(fā)展還存在一些問題,而且近兩年來并沒有取得太大的突破,當(dāng)然,人工智能的發(fā)展也為人類的生活工作帶來了很多便利。
機(jī)器與人類最大的差別就在于情感。人是自然而然表達(dá)情感的生物,機(jī)器卻只能呈現(xiàn)冷冰冰的程序代碼,無論再高級(jí)的人工智能機(jī)器人,也只是深度學(xué)習(xí)的成果,不可能有自己的思維。
在電視配音方面,人類配音員在進(jìn)行有聲語言創(chuàng)作時(shí),會(huì)分析文字背后隱藏的情感從而調(diào)動(dòng)全身器官去呈現(xiàn)內(nèi)在情感,而機(jī)器沒有理解力和感受力等高級(jí)生物才具備的能力,必然不能達(dá)到很好的展現(xiàn)情感這一要求。
舉個(gè)例子來說,中央電視臺(tái)綜藝《機(jī)智過人》第二季第九期就是人工智能語音機(jī)器人與人類配音員同臺(tái)對(duì)決的主題。為了測(cè)試“小冰”的配音能力是否可以“以假亂真”,進(jìn)而替代人類,節(jié)目現(xiàn)場(chǎng)設(shè)計(jì)了一個(gè)互動(dòng)游戲:三位人類配音演員和小冰分別隱藏在四扇門后,現(xiàn)場(chǎng)播放四個(gè)影視片段,三位人類配音演員和小冰分別進(jìn)行配音后,現(xiàn)場(chǎng)觀眾和嘉賓猜出哪個(gè)門后的聲音是由人工智能語音機(jī)器人小冰發(fā)出的。在表演結(jié)束后,現(xiàn)場(chǎng)觀眾、嘉賓以及線上觀眾都非常容易的給出了正確答案。這主要是因?yàn)闄C(jī)器在配音的時(shí)候缺乏恰當(dāng)?shù)那楦?。在配音片段《追捕》中有這樣一幕:女主人公真由美在急奔的馬背上說出了一句臺(tái)詞“我喜歡你”,當(dāng)由機(jī)器人對(duì)這樣一句簡(jiǎn)單的臺(tái)詞進(jìn)行配音時(shí),只是刻板的復(fù)制了人類的聲音去說出了這4個(gè)字。但是,配音界泰斗級(jí)人物、著名譯制片配音演員丁建華老師給大家提出了這樣的啟示:配音剛開始的時(shí)候有點(diǎn)兒懵,覺得好像是我說的,但是一直到“我喜歡你”這里,就感覺缺乏了一點(diǎn)人性,應(yīng)該把真由美的一個(gè)靈魂深處的東西表達(dá)出來,應(yīng)該是“偷著樂”的感覺,人類能很好的體會(huì)并表達(dá)出這種情感而機(jī)器卻很難。
正如丁建華老師所說:“她(小冰)在展現(xiàn)我40年前所配音的角色,在音色上是可以比我現(xiàn)在強(qiáng),但是在細(xì)微的情感的變化上可能她會(huì)稍欠一些?!睆氖侣曇艄ぷ鞯娜耍軌蛞凰查g把這個(gè)角色內(nèi)心的情感淋漓盡致的表達(dá)出來,有時(shí)候說著說著笑了,有時(shí)候說著說著哭了,有時(shí)候說著說著聲音顫抖了,像這樣的一些,可能唯有人能做到,機(jī)器人是很難做到的,這是目前人工智能配音的局限所在。
說到人工智能語音大家都能發(fā)現(xiàn)其發(fā)音的最特點(diǎn)是語音語調(diào)生硬,字與字之間、字詞之間不能很好的銜接停頓,有點(diǎn)像字與字之間的拼湊,不利于文本意思的傳達(dá)。語言表達(dá)講究按照意思劃分意群,然而人工智能技術(shù)卻無法去理解文本意思從而自行判斷停連重音等,這些工作還是得有專業(yè)配音人員的指導(dǎo)并提前錄入相關(guān)指令,所以根本上并沒有做到擺脫人力獨(dú)立工作,在這一點(diǎn)上人工智能將永遠(yuǎn)不會(huì)超過人類的能力。
在《機(jī)智過人》節(jié)目的開始,小冰用主持人朱廣權(quán)的聲音為節(jié)目做了一個(gè)開場(chǎng)白:“中國(guó)智慧,機(jī)智過人,我是主持人小冰。接下來,我將為大家隆重介紹‘機(jī)智天團(tuán)’——‘撒白雪’組合。他們分別是研究神經(jīng)不神經(jīng)的魯白、北大還行撒貝寧、聲音會(huì)百變,美貌永在線的韓雪。”即使小冰的介紹非常有趣,但是在音色和語音語調(diào)上還是有機(jī)器人的影子。團(tuán)隊(duì)說這是因?yàn)椴杉鞆V權(quán)老師數(shù)據(jù)的時(shí)候,絕大部分?jǐn)?shù)據(jù)是來自朱廣權(quán)在紀(jì)錄片解說的配音,由于紀(jì)錄片的語調(diào)非常平穩(wěn),只能從其他人的數(shù)據(jù)里面去學(xué)習(xí)情感的表現(xiàn),這種通用的情感雖然也可以用到主持人朱廣權(quán)的聲音上,但是它的真實(shí)度會(huì)稍微欠缺。所以這就要求人工智能在前期采集的數(shù)據(jù)足夠多、足夠全面,需要采集這個(gè)人對(duì)七情六欲等全方面的表現(xiàn)才會(huì)使人工智能對(duì)情感的呈現(xiàn)更加的真實(shí)。人工進(jìn)行篩選和輸入的信息量,將直接影響人工智能的輸出表現(xiàn)。
2018年1月,中央電視臺(tái)推出了全球第一部完全采用人工智能配音的紀(jì)錄片《創(chuàng)新中國(guó)》,這部紀(jì)錄片運(yùn)用智能語音和人工智能技術(shù),讓已故的著名配音藝術(shù)家李易老師的聲音重現(xiàn)熒屏。在這次配音過程中,人工智能的語音合成技術(shù)適度的運(yùn)用播音創(chuàng)作的外部技巧,如重音、停連、語氣、節(jié)奏等各種要素,將影片內(nèi)容流暢的表現(xiàn)出來。也如丁建華老師說的“聽到小冰在模仿‘茜茜公主’的時(shí)候,油然而生一種親切感,就像當(dāng)年一樣,非常的感動(dòng)。跟我比40年前的角色,在音色上可能比現(xiàn)在的我強(qiáng)?!?/p>
世界上沒有一個(gè)人是完美的,所以在工作的時(shí)候難免會(huì)出現(xiàn)失誤,而且由于人體的生理結(jié)構(gòu)存在一些局限,人類主播長(zhǎng)時(shí)間的工作會(huì)讓身體狀態(tài)出現(xiàn)波動(dòng),從而影響播出效果。相比較而言,人工智能可以很好的解決這個(gè)問題:人工智能配音員的稿件預(yù)處理能力和播讀穩(wěn)定性要優(yōu)于人類配音員,不僅極少出現(xiàn)“口誤”等失誤情況,它的優(yōu)勢(shì)還體現(xiàn)在工作時(shí)間和工作地點(diǎn)不受約束,可以大幅度提高配音的工作效率。此外,高效率、低成本、標(biāo)準(zhǔn)化是目前語音合成的主要優(yōu)勢(shì),如此一來,像廣告片,紀(jì)錄片這種有相對(duì)固定創(chuàng)作樣態(tài)的部分簡(jiǎn)單工作將有可能被人工智能取代。
目前的人工智能語音機(jī)器人在音色的模仿、語句的表達(dá)和內(nèi)容的處理等方面已經(jīng)達(dá)到了不錯(cuò)的水平,可以替代人類完成一些基礎(chǔ)性工作,為現(xiàn)代生活帶來了非常多的便利。但是由于機(jī)器和人類在思維和情感上有本質(zhì)的不同,所以在播音主持領(lǐng)域只能通過更深度的學(xué)習(xí)去模仿人類,永遠(yuǎn)不可能完全替代人類。或許在將來,人工智能還可以做到深入陪伴,給人心靈的慰藉。但同時(shí)我們也要謹(jǐn)慎利用這項(xiàng)技術(shù),如果被不當(dāng)利用,就為詐騙等犯罪提供了便捷的武器。