齊小瑜
伴隨信息技術(shù)日新月異的發(fā)展,人工智能技術(shù)愈加成熟且完備,被廣泛應(yīng)用于各個領(lǐng)域。其中,與人工語音創(chuàng)作相比,智能語音技術(shù)成本低、效率高,還有高精度的語言語料庫,同時具有規(guī)范語音,表達錯誤較少,隨時在崗,應(yīng)用成本低廉等優(yōu)勢。因此,智能語音技術(shù)被廣泛應(yīng)用在各個場景中。這給配音行業(yè)帶來了機遇和挑戰(zhàn)。現(xiàn)著重探討智能語音技術(shù)對播音主持專業(yè)分支配音專業(yè)帶來的影響,從目前智能語音技術(shù)在配音行業(yè)的應(yīng)用情況以及智能語音技術(shù)對配音領(lǐng)域的各個分支的沖擊等方面著手,討論市場用戶的收聽喜好情況對配音市場未來的影響,以期在培養(yǎng)配音專業(yè)人才中調(diào)整培養(yǎng)內(nèi)容與方向,探討“人工智能+配音創(chuàng)作”的未來發(fā)展方向。
目前智能語音技術(shù)在配音領(lǐng)域的應(yīng)用情況
隨著新一輪產(chǎn)業(yè)的變革和5G技術(shù)的進步,人工智能技術(shù)愈加成熟并滲透到各個領(lǐng)域[1]。在此背景下,智能語音合成技術(shù)逐漸進入人們的生活中,從早晨起床打開微信推文《早啊!新聞來了》聽到康輝的智能語音播報,到喚醒家里的天貓精靈收聽智能語音播報獲取當(dāng)日天氣情況,到上班路上開車時聽到的車載導(dǎo)航沈騰智能語音包,到休息時打開短視頻收聽文本轉(zhuǎn)換語音后的解說,再到打開喜馬拉雅收聽用tts技術(shù)完美還原的單田芳老先生聲音的評書等。智能語音技術(shù)成本低、效率高的特征和豐富的語言語料庫給配音行業(yè)的真人配音員帶來了巨大的挑戰(zhàn)。
目前,語音播報領(lǐng)域如天氣播報、導(dǎo)航播報、游戲語音等已被智能語音所占領(lǐng);在有聲書配音領(lǐng)域,向讀者提供了人工配音、智能語音配音或者人工加智能配音多種選擇方式;在紀錄片配音領(lǐng)域,先進的tts技術(shù)重塑了很多著名配音員的聲音,因紀錄片的情感變化幅度相對較小,音高和情緒相對穩(wěn)定,后期的調(diào)節(jié)工作也很方便,但目前只應(yīng)用在復(fù)原一些著名配音員的經(jīng)典聲音上;在動漫配音領(lǐng)域,語音合成演示成熟度高到語調(diào)、情緒、停頓都很融洽,與真人的區(qū)別不大,因其勢頭剛起,目前還在嘗試推行階段,尚未被廣泛運用;在廣告配音領(lǐng)域,因智能語音智能化程度不夠,配音的情緒無法貼合畫面,且語言生硬、腔調(diào)固定,故而對高端聲音市場的影響尚且不大;在影視配音領(lǐng)域,因其藝術(shù)化程度較高、形式生動豐富,智能語音達不到要求,所以目前很難取代真人配音員。
智能語音技術(shù)對人工配音領(lǐng)域各個分支的沖擊與影響
語音播報領(lǐng)域已大幅度被占領(lǐng)
隨著智能化時代的到來,在人工智能語音環(huán)境下,智能語音播報已經(jīng)融入人們的生活場景中。語音播報是利用語音合成技術(shù)將文字迅速轉(zhuǎn)換為清晰的智能語音,主要運用在話費查詢、車站播報、信息咨詢、語音信息播報等服務(wù)場景中。
智能語音播報需要在后臺系統(tǒng)設(shè)置播音員的聲音,然后選擇播報行業(yè)的音庫,操作人員可以輸入文字或者導(dǎo)入TXT文本文件,再通過設(shè)置音量、音頻、數(shù)字讀法、英文讀法等控制選項對播音內(nèi)容進行操控,根據(jù)需要還可以加入背景音和播音的發(fā)音風(fēng)格,直接生成本次播報,也可以保存項目下次調(diào)用[2]。
在電信服務(wù)、交通服務(wù)等行業(yè),智能語音播報已被常態(tài)化使用;在手機客戶端中,隨著配音軟件越來越多,聽眾可以直接使用文字轉(zhuǎn)語音的功能;家居生活中的機器人更是能通過識別用戶語音迅速查找信息并完成實時對話播報;出行的導(dǎo)航系統(tǒng)更是推出了定制播報語音的功能,讓用戶錄制自己的專屬語音包。智能語音播報一是具有便利性;二是提升了各行業(yè)的服務(wù)效率,緩解了播音員的壓力;三是用戶能夠及時獲取信息;四是大幅度降低了人工播報出錯率。因此,傳統(tǒng)的人工語音播報已經(jīng)無法更好地滿足用戶日益增長的個性化需求,語音播報領(lǐng)域已大幅度被人工智能語音所占領(lǐng)。
對有聲書人工配音市場影響參半
口述故事和聲覺空間構(gòu)成了有聲故事書的內(nèi)核和外衣,用戶在有聲書的非線性互動敘事中創(chuàng)建自己的故事。有聲讀物從印刷書籍的外圍副產(chǎn)品轉(zhuǎn)變?yōu)閿?shù)字出版和閱讀的中心,從實體發(fā)展為純數(shù)字形式,逐步成為大眾娛樂休閑的一種方式,其不僅數(shù)量龐大、形式多樣,閱讀量也遙遙領(lǐng)先[3]。
有聲書市場上已經(jīng)出現(xiàn)人工配音、AI主播配音與AI真人相結(jié)合的聽書模式,但目前大多有聲書平臺熱門的有聲書仍采用以配音員為主導(dǎo)的傳統(tǒng)模式。隨著市場的不斷擴容,人工配音存在生產(chǎn)效率低、制作成本高等問題,而中文在線的文本轉(zhuǎn)換語音技術(shù)一天即可實現(xiàn)500萬字的內(nèi)容轉(zhuǎn)錄,大大節(jié)約了制作成本,實現(xiàn)了高效的音頻生產(chǎn),因此文本轉(zhuǎn)換語音的快速合成方式被各大有聲書生產(chǎn)商嘗試使用,如咪咕閱讀為其售出的電子書提供語音朗讀功能。
同時,智能語音技術(shù)能夠給受眾提供多種選擇,如訊飛有聲書采用科大訊飛語音合成4.0技術(shù),擁有幾十位風(fēng)格不同的男聲、女聲朗讀主播,還支持多種方言、趣味童聲及外語聽書,但聲音空間與用戶使用場景的匹配度不夠高,如聽眾在睡前需要沉浸式聲音體驗,在休閑場景需要輕松愉悅的聲音體驗等,目前科大訊飛正在開發(fā)聲音空間匹配聽眾使用場景的功能。
另外,逐漸成熟的語音合成技術(shù)使得聽眾可以聽到經(jīng)典名人配音員的作品,如喜馬拉雅平臺上線的用語音合成技術(shù)完美還原單田芳先生聲音的評書深受用戶喜愛,長期位列熱播榜前列,AI配音的優(yōu)勢愈發(fā)明顯。
但AI配音的聲音仍存在壁壘,一方面,缺乏溫度,語氣轉(zhuǎn)換不靈活,輕重音變化不明顯等,使得文字包含的情感難以有效傳達;另一方面,智能語音的音量是比較恒定的,聽眾難以感知立體化的聲覺空間。有聲讀物應(yīng)該給聽眾打造更加直觀的視覺立體場景,聽眾收聽后會被喚起聽覺感知,產(chǎn)生情景感,而AI在進行講述時由于恒定的音量導(dǎo)致聽眾只能自己發(fā)揮想象,自行在大腦中構(gòu)建故事場景。
因此,在短期內(nèi),AI配音難以完全替代人工配音,但生產(chǎn)商為了提升工作效率和節(jié)約成本會選擇出品在AI輔助下人機結(jié)合的有聲書。
對電視紀錄片配音解說的影響有待觀察
紀錄片《創(chuàng)新中國》是世界首部采用人工智能配音的大型紀錄片。在制作中,制作團隊利用智能語音和人工智能技術(shù),讓已逝的著名配音藝術(shù)家李易老師的聲音重現(xiàn)熒幕,并將李易老師的聲音分為三類分別運用在情緒高昂的宣傳片、平緩敘事的紀錄片、聲調(diào)較低且松弛的自然類紀錄片中,團隊把音色、韻律和內(nèi)容三方面進行量化,再解決斷句、重音及連貫性的問題,然后進行精剪,最后呈現(xiàn)出的作品讓人贊嘆!
但是紀錄片需要有配音員自身獨特的思想性、創(chuàng)造性及分寸感,穩(wěn)定的發(fā)音狀態(tài)及有微妙變化的情緒,這些是計算機的精妙算法所無法實現(xiàn)的。人與人之間的溝通表達經(jīng)歷了漫長的變化,這種技能人工智能學(xué)習(xí)起來尚且困難[4]。因此,真人解說具有獨特的優(yōu)勢。
語音合成技術(shù)可以還原經(jīng)典名人的聲音。這需要掌握語料中個人聲音的獨有特質(zhì),再模擬出與本人非常相似的聲音,通過后續(xù)細節(jié)調(diào)整才能讓合成音基本貼合本人。紀錄片制作周期長,對解說時間的要求比較寬松,與智能語音相比,人工配音解說能夠更好地傳達出紀錄片獨特的內(nèi)涵。因此,智能語音在影視紀錄片領(lǐng)域的應(yīng)用情況有待進一步觀察[5]。
對動漫配音領(lǐng)域的影響正在開啟
目前,動漫配音在我國處于蓬勃發(fā)展的階段,動漫配音要求聲音富有彈性,生成的聲音符合動漫人物或動物的個性,而人工智能語音做出固定強調(diào)和適當(dāng)夸張的語音成分是其擅長之處,情緒起伏變化也在不斷突破和更新。目前,市場推出的部分智能語音作品已經(jīng)基本聽不出太多生硬的痕跡。由于人工智能具有極大的優(yōu)勢,人工動漫配音領(lǐng)域未來很有可能被其分一杯羹。
廣告配音的低端市場將被擠占
廣告配音是通過聲音展現(xiàn)出某一產(chǎn)品的特點,使得觀眾產(chǎn)生購買欲望,其主要目的是宣傳產(chǎn)品特性,引發(fā)消費者情感共鳴,讓消費者產(chǎn)生購買行為。此外,情聲畫有機結(jié)合才是一條完整的廣告。因此,廣告不僅需要適合特定產(chǎn)品的聲音形象,也需要分析用戶的消費心理、產(chǎn)品定位等,以形成獨特的配音風(fēng)格,還要貼合畫面對聲音進行有機變化,而這些都是機器目前難以量化和實現(xiàn)的[6]。
在傳統(tǒng)配音市場中,固定腔調(diào)的表達和音質(zhì)較差的作品在語音合成中可以輕易實現(xiàn)甚至被超越。當(dāng)前智能語音合成在標準統(tǒng)一化和個性發(fā)展化中有足夠的優(yōu)勢,工作效率高和成本低的優(yōu)勢使其迅速占領(lǐng)低端市場。但是高質(zhì)量、符合產(chǎn)品特性、迎合消費者心理、樹立品牌形象的人工配音創(chuàng)作的宣傳片和廣告片在市場上仍具有極強的競爭優(yōu)勢。
對影視劇人物配音的影響不大
影視人物配音是由配音員或者演員本人面對拍攝的畫面以有聲語言為表現(xiàn)手段,為片中角色進行后期配音的創(chuàng)作活動。影視人物配音是建立在劇作家一度創(chuàng)作和演員二度創(chuàng)作基礎(chǔ)上的三度創(chuàng)作。在配音前,配音員需要和配音導(dǎo)演進行深入溝通,理解一度創(chuàng)作表達的思想情感,然后結(jié)合視頻成品觀看演員臺詞和劇情情境進行備稿、創(chuàng)作,通過一次次調(diào)試完成貼合作品情景畫面,貼合演員動作及口型以及貼合臺詞情緒的成音。而這些對人工智能語音來說非常困難,其很難識別和理解豐富的人物情緒、細微的動作變化,并配出相應(yīng)的聲音,即使啟用后期調(diào)試功能,一是畫面中一幀幀變化耗費時間較長,二是機器難以思考和表達出導(dǎo)演及演員想要表達的情感內(nèi)容。因此,人工智能語音合成技術(shù)對影視劇人物配音的影響微乎其微。
用戶收聽喜好的發(fā)展對配音市場的影響
一項針對人工智能配音適應(yīng)性的抽樣問卷調(diào)查顯示,在資訊消息和語音播報等場景中,超過半數(shù)人從一開始就沒有排斥;將近五分之一的人在使用中不適感逐漸消失;只有16%的人認為人工智能配音缺乏獨特性,更傾向真人配音。這些場景中,人們的情感交互需求并不強,絕大多數(shù)人也沒有明顯的排斥,因此在一些用戶情感要求不高的配音作品中,智能語音占據(jù)極大優(yōu)勢。
調(diào)查還顯示,在一些情感交互較強的文本中,用戶更傾向高質(zhì)量的真人配音,無思想感情的智能語音本身就不存在獨立思考的能力,它必須依附人類為其提前設(shè)定好的編碼程序才能工作,即使擁有豐富的語料庫,具備停連、輕重音、語氣的綜合處理能力,但對于藝術(shù)性、創(chuàng)造性、個性化有要求的廣告配音、紀錄片配音作品來說,智能語音無法滿足其需求。另外,對于部分情緒及聲音變化豐富的影視人物、動漫角色、有聲小說角色,如果使用智能語音,就需要大量的后期調(diào)節(jié)工作,處理起來麻煩且不一定能達到很好的效果。
因此,隨著合成技術(shù)的不斷升級,人工智能語音技術(shù)不斷提升,其能夠更加逼真地還原出真實的人聲,但在理解用戶意圖、獨立思考和呈現(xiàn)豐富的聲音變化上,還要走很長的路。而在一些情感交互要求較強的配音作品中,其仍然無法替代人工配音。
結(jié)語
綜上所述,人工智能語音的發(fā)展給配音行業(yè)帶來了巨大的沖擊?!叭斯ぶ悄?配音創(chuàng)作”已經(jīng)成為時代發(fā)展的必然趨勢,也是順應(yīng)市場發(fā)展和滿足用戶需求的必然方向。在未來,應(yīng)當(dāng)順應(yīng)時代發(fā)展,提升行業(yè)整體水平,在培養(yǎng)配音專業(yè)人才方面:第一,著力于提升語言功底,創(chuàng)作內(nèi)涵豐富、深刻、獨特、獨具魅力的作品;第二,加強對多學(xué)科基礎(chǔ)的學(xué)習(xí),如語言學(xué)、社會學(xué)、心理學(xué)等,通過分析文本需要傳遞的精神實質(zhì)及用戶心理創(chuàng)作出更多深入人心的作品;第三,對有聲書、廣告片、宣傳片、影視配音等進行深刻研究,打磨好每一個細節(jié),創(chuàng)作出更好的配音作品。在人工智能輔助下,人工配音創(chuàng)作應(yīng)找準方向,發(fā)揮出自身的獨特優(yōu)勢,碰撞出璀璨的“創(chuàng)新之花”。
(作者單位:江蘇師范大學(xué)科文學(xué)院)
[1]郭棟,肖愛云.“互聯(lián)網(wǎng)+”趨勢下人工智能在配音中的應(yīng)用[J].西部廣播電視,2018(20):186+188.
[2]翁佳.智能語音技術(shù)對播音主持專業(yè)與行業(yè)影響探究[J].電視研究,2017(12):57-59.
[3]劉銀娣,楊楊.媒介本體論視域下有聲故事書智能生產(chǎn)研究[J].出版發(fā)行研究,2022(03):32-39.
[4]吳婉璐.我國影視劇配音現(xiàn)狀及發(fā)展研究[D].南昌:南昌大學(xué),2018.
[5]曾誰飛,王仁波.語音合成技術(shù)在智能語音播報系統(tǒng)中的應(yīng)用探析[J].電信科學(xué),2010,26(03):64-68.
[6]王偉.廣告配音的個性化傳達與實現(xiàn)路徑[J].記者觀察,2022(23):25-27.