引言
近年來,隨著人工智能技術(shù)在媒體領(lǐng)域的應用日益廣泛,AI配音的身影出現(xiàn)在了新聞節(jié)目、紀錄片創(chuàng)作和新媒體視頻生產(chǎn)中。相較于此前的語音喚醒、語音識別等智能語音技術(shù)的應用,AI配音更側(cè)重語音合成的效果及“擬人化”程度,本文將結(jié)合當下AI配音的應用現(xiàn)狀,從聲畫關(guān)系的視角,探討該技術(shù)的階段性成效與顯著問題。
從手機端的Siri語音助手到汽車導航軟件里的各類定制聲音,人工智能語音技術(shù)早已在不知不覺中融入了人們的日常生活。事實上,除了較為常見的這些應用場景之外,人工智能語音技術(shù)也在媒體創(chuàng)作和內(nèi)容生產(chǎn)等領(lǐng)域取得了階段性的成果。其中,較具有影響力的當屬AI新聞主播和紀錄片中的AI配音。而隨著短視頻內(nèi)容生產(chǎn)的體量逐漸增大,不少新媒體平臺也開發(fā)了圖文自動生成視頻的技術(shù),其中的AI配音應用作為關(guān)鍵部分也備受關(guān)注。由于應用場景的差異,在語音助手、導航等語音喚醒及識別的應用方面,人們會在一定程度上產(chǎn)生與機器對話的感受。而在新聞、紀錄片或是短視頻內(nèi)容中,從受眾角度來說會不自覺地更加關(guān)注人工智能語音的“擬人化”程度,因此,媒體內(nèi)容生產(chǎn)領(lǐng)域的人工智能語音技術(shù)亟待解決如何“更像”的問題。
媒體內(nèi)容生產(chǎn)中的“文語轉(zhuǎn)換”
“文語轉(zhuǎn)換”(Text To Speech)是語音合成技術(shù)的一項重要應用,它是聲學、語言學、計算機科學等多學科知識交叉研究的成果。該技術(shù)的實現(xiàn)主要分為兩個環(huán)節(jié)進行,分別是文本處理與波形生成。在進行文本處理時需要以音素級別為單位進行標注,其精細程度則依賴一套完善的語言學標注系統(tǒng)。無論是基于何種思路的語音合成技術(shù)實現(xiàn),“文語轉(zhuǎn)換”首要解決的是語音庫的建立。相較于英文來說,漢語普通話的“文語轉(zhuǎn)換”技術(shù)實現(xiàn)要更難一些,這和語音庫方面存在很大的關(guān)系。不少相關(guān)領(lǐng)域的研究人員都曾指出,漢語語音庫的開源數(shù)據(jù)較少,這讓前端部分在構(gòu)建更為豐富的音素級別素材時就顯得有些先天不足。眾所周知,由于英文在使用范圍和技術(shù)算法的開發(fā)程度上較為成熟,其“文語轉(zhuǎn)換”的實現(xiàn)在前端部分就具有較大優(yōu)勢。而漢語普通話的語音學特質(zhì)與英文相比又更為復雜,技術(shù)人員如果在前端部分無法獲得比較有語言表現(xiàn)力的音素級別素材,最終合成的語音效果必然與真人的聲音存在差距。這方面的問題在我國現(xiàn)階段新媒體內(nèi)容生產(chǎn)中AI配音的表現(xiàn)可見一斑。
一方面,各類視頻網(wǎng)站的自媒體內(nèi)容生產(chǎn)者自發(fā)選擇了一些可提供圖文轉(zhuǎn)視頻的軟件,這類軟件中所謂的“AI智能配音”在實現(xiàn)程度上往往并不太智能??蛇x的聲音類型劃分較為生硬,缺少語音的修飾處理能力,聽感整體較差,或是僅在搞笑聲效等方面有亮點。另一方面,以知乎為代表的新媒體平臺研發(fā)了自主的圖文轉(zhuǎn)視頻功能,平臺創(chuàng)作者可以實現(xiàn)快捷的智能剪輯。知乎的智能剪輯將傳統(tǒng)的非線性編輯軟件界面進行了“傻瓜式”的簡化,主要分為兩個軌道?;A軌道上是素材,其次是字幕和聲音的軌道。在生成智能配音前,需要對文字進行簡單地排版。此外,在其操作界面的底部還有一個朗讀設置,主要從音色、朗讀速度、配音音量三個參數(shù)角度進行調(diào)整。但從呈現(xiàn)效果來看,AI的配音并沒有太理想的“擬人化”效果,整體聽感是接近語音喚醒類型的人工智能語音狀態(tài)。音色選擇范圍較少,限制了AI配音的多樣性。在這一類的視頻內(nèi)容中,聲音與畫面的關(guān)系時常是處在一種錯亂的狀態(tài),聲畫的表意功能配合效果較差。無論是旅游、美食或是知識分享內(nèi)容,視頻中的主要信息來源依然來自于圖片和文字,AI配音的功能性尚不明顯。在當下自媒體內(nèi)容生產(chǎn)中,無論是個人的創(chuàng)作參與或是新媒體平臺的統(tǒng)一操作,在AI配音的實現(xiàn)上仍沒有實質(zhì)性的進步,這與漢語普通話“文語轉(zhuǎn)換”中的難題有著很大的關(guān)系。由于漢語普通話的聲學特性十分顯著,技術(shù)人員還需要關(guān)注停頓、重音等語音特征,這在一定程度上給漢語普通話的“文語轉(zhuǎn)換”實現(xiàn)提出了更高的技術(shù)要求。比如,在漢語普通話中,音節(jié)持續(xù)時間因各種語言和非語言因素(氣息處理等)而差異很大。如果一個句子由相同時間的音節(jié)連接,它聽起來必然會顯得非常機械化。因此,此類系統(tǒng)的設計在很大程度上依賴于普通話的特點,它是一個基于單音節(jié)的系統(tǒng)。其基本原理是,大多數(shù)普通話語素都是單音節(jié)的,具有相對簡單的音節(jié)結(jié)構(gòu)。另一個主要考慮因素是普通話的音調(diào),因為普通話是一種特色鮮明的音調(diào)語言。即便是建構(gòu)了多種“文語轉(zhuǎn)換”的模式,現(xiàn)有技術(shù)解決的仍是一些局部問題,具體差異性問題依然難以覆蓋。如果以媒體內(nèi)容生產(chǎn)的對象來看,人工智能技術(shù)參與其中的語音合成主要表現(xiàn)為AI配音的形態(tài)。這些場景中出現(xiàn)的擬人化聲音,只有更好地與畫面等要素形成一套有效的敘事或表意系統(tǒng),它才能真正實現(xiàn)其技術(shù)成果轉(zhuǎn)化的價值,而這就對AI配音技術(shù)應用在媒體內(nèi)容創(chuàng)作方面提出了一個無法回避的問題——聲畫關(guān)系。
聲畫關(guān)系視角下的“高品質(zhì)”AI配音
聲畫關(guān)系是個十分復雜的問題,它體現(xiàn)在影視作品的每個角落,可以說凡是視聽結(jié)合即出現(xiàn)聲畫關(guān)系,在紀錄片、新聞視頻節(jié)目、短視頻內(nèi)容中均有所體現(xiàn)。無論是從編創(chuàng)視角看聲畫構(gòu)成,還是從理論分析角度拆解或重構(gòu)聲畫文本,當我們分析這種聲畫元素相互作用的綜合藝術(shù)時,畫面和聲音實際上都是以一種語言的形式被認知。而這種作為語言來解讀的訊息,在媒體內(nèi)容生產(chǎn)中又主要體現(xiàn)在畫面和解說這兩方面。畫面是圖像即視的語言,解說是聽覺所接收的社會語言的語音。
解說是一種社會語言的語音外在表現(xiàn),是紀錄片信息傳播的重要載體。語音作為語言的符號形式,本身沒有意義,它的信息傳播的作用是社會賦予的。當觀眾聽到解說時,是由聽覺接收一種語音訊息,再過渡到文字語言來理解,最終將其轉(zhuǎn)換為一種臆想的含義。這種想象的空間正如文學作品帶給人的無限遐想一樣,往往出現(xiàn)“有一千個讀者就有一千個哈姆雷特”的效果。這種信息處理的轉(zhuǎn)化也體現(xiàn)了解說的重要作用,它不僅開拓了受眾視野,也為畫面本身的敘事難點輔以化解和提升。例如,在《舌尖上的中國》的第二季第三集“三餐”中,創(chuàng)作者采用對比的平行敘事方法,選取了同在富士康工作的年輕員工楊圓圓和老員工徐磊,通過對兩人日常餐食的呈現(xiàn),映射出快餐、流水化作業(yè)、鄉(xiāng)愁、留守老人和兒童等問題。但創(chuàng)作者仍然將主視角對準了富士康員工的生存與生活現(xiàn)狀。“數(shù)百萬年輕人,在這座工業(yè)帝國里為全世界源源不斷地提供國籍模糊,更難分辨?zhèn)€人印記的全球化產(chǎn)品。一日三餐,浸透著青春和汗水。”這段解說以簡潔的語言道出了敏感的社會問題,為一個小節(jié)的內(nèi)容提升了思想高度。解說的支撐作用在大多數(shù)紀錄片中都不可或缺,因為作為一個以主題形式呈現(xiàn)創(chuàng)作者意圖的影像在被觀者理解時,單靠畫面的直接表現(xiàn)往往很難提煉主題或顯現(xiàn)紀錄片的視角。無論是客觀記錄實時的人生百態(tài)還是還原歷史人物,解說作為一種承擔著訊息傳遞作用的語言形式,是具有社會性含義的符號系統(tǒng)。它實際體現(xiàn)的是人類語言的或者更準確地說是語音的社會屬性。
那么,AI配音能否實現(xiàn)這種體現(xiàn)社會性的解說語言的特質(zhì)呢?近年來央視推出的世界首部AI配音紀錄片《創(chuàng)新中國》給出了答案。這部紀錄片的誕生,從技術(shù)層面來說,標志著我國的AI配音技術(shù)已經(jīng)實現(xiàn)了更加高水準的媒體內(nèi)容生產(chǎn)能力,其“擬人化”的美學意義是基于技術(shù)與藝術(shù)的雙重維度。全片的解說部分全部采用人工智能語音合成技術(shù),精妙還原了已逝知名配音員李易先生的解說風采。這部佳作的呈現(xiàn)得益于背后兩大支撐團隊,一個是國內(nèi)領(lǐng)先的人工智能語音技術(shù)供應商科大訊飛,另一個則是國內(nèi)解說大咖聚集的頭部團隊沐肆洲。從第一步語音庫的建立來說,AI配音此次模擬的對象人聲具有重要的基礎優(yōu)勢。它主要表現(xiàn)在,李易先生生前為央視紀錄頻道錄制了大量高品質(zhì)的解說聲音素材,由于都是近年來錄制的音頻,其各項優(yōu)質(zhì)參數(shù)都為人工智能技術(shù)的介入提供了肥沃的土壤。其次,李易先生本人標志性的頻道聲是無可比擬的完美參照對象,他的聲音與普通人甚至其他專業(yè)配音員相比在吐字清晰度、語音規(guī)范化和語速平穩(wěn)方面都有著高標準的優(yōu)勢。因此,從“文語轉(zhuǎn)換”的角度來說,紀錄片《創(chuàng)新中國》的AI配音可謂是擁有了一個無可比擬的理想語音庫作為前提。而在其后的實施過程中,專業(yè)配音團隊為AI配音逐字逐句的合成提供了很多聲音藝術(shù)塑造方面的指導。而科大訊飛的團隊也從“音色、韻律、內(nèi)容”三個方面做了很多細微的校對與修改工作,這可以說是站在巨人肩膀上的一次AI配音技術(shù)嘗試,也對未來人工智能技術(shù)參與的高質(zhì)量媒體內(nèi)容生產(chǎn)提供了一個優(yōu)秀的行業(yè)典范。
由此可見,AI配音技術(shù)在參與以紀錄片為代表的高質(zhì)量媒體內(nèi)容生產(chǎn)時,解說的“擬人化”特性建立在高品質(zhì)語音庫基礎上,同時,也依賴對社會語音的技術(shù)實現(xiàn),因其建立在使用某種語言的人在認同語音的特定含義的基礎上,解說者和聽者才能將語音作為傳播信息和接收信息的載體,聽者進而結(jié)合圖像或文字等其他因素延展語音含義。對于解說者而言,其解說是結(jié)合畫面、字幕、音樂、音響等元素,向受眾傳達主題思想,闡釋內(nèi)容含義,抒發(fā)思想情感,傳遞美的感受。而對于受眾來說,是在這一過程中獲得美的享受。人工智能語音合成將不再局限于“助手”的角色,甚至可以成為主導聲畫關(guān)系的“主人”。
AI配音在聲畫關(guān)系中的定位
毫無疑問,未來AI配音技術(shù)應用在媒體內(nèi)容生產(chǎn)中一定是朝著更加精細化的方向發(fā)展。人工智能技術(shù)作為一種新的“語言”形式參與其中,需要明確與其他聲畫語言的關(guān)系。
首先,無論是在新聞視頻節(jié)目、紀錄片或是短視頻中,畫面語言都是一種現(xiàn)實內(nèi)容的直觀呈現(xiàn)。這里的現(xiàn)實內(nèi)容可以是拍攝的紀實影像素材,也可以是影片、圖片等材料。對觀者而言,畫面語言是色彩、光線、客觀事物及人物等綜合元素的實時視覺感受。而同畫面內(nèi)容一樣以“視像”直觀體現(xiàn)的字幕語言,卻更接近于解說這種符號系統(tǒng)轉(zhuǎn)化的語言形式。字幕語言就是文字直接“走入”畫面,它同文字一樣,本質(zhì)上是沒有意義的符號,是社會賦予了它特定的含義。例如“迷惑”這個中文詞語,在日文中有完全同形的語言符號,但是從翻譯的角度看,含義卻不同。所以,當一位不懂中文的日本人觀看附有中文字幕的畫面時,出現(xiàn)這個詞時他可能會嘗試按照日文的含義去理解,就詞義而言,實際上就是曲解了??梢姡嬅嬲Z言和字幕語言在表意和會意上存在很大的區(qū)別,例如當我們觀看自然類紀錄片《遷徙的鳥》時,片頭畫面出現(xiàn)一輪滿月,被濃墨般的夜色籠罩著。單就這個畫面內(nèi)容來說,不同國度的觀者對它的理解應該是一樣。但當滿月旁的畫面上出現(xiàn)字幕時,就需要掌握這門語言的觀眾才能領(lǐng)會含義。
其次,認識字幕語言對解說語言的輔助作用。解說語言是靠聽覺接收的,具有很強的實效性,在一定程度上它比畫面語言更具有轉(zhuǎn)瞬即逝的特點。與二者相比,字幕語言就更有突出創(chuàng)作者意圖的作用。從人們獲取信息的不同渠道來看,自古以來,閱讀文字信息的方式比口耳相傳要莊重很多。另外,人們下意識地會更注意文字語言,這在紀錄片中體現(xiàn)得尤為突出。在大段解說的信息獲取后,適時出現(xiàn)的字幕能有效提高觀者的注意力。當AI配音能夠與字幕形成較理想的配合,而不是從頭到尾鋪滿時,字幕語言可以發(fā)揮更為顯性的作用。字幕語言還有一個重要的作用——“幫襯”解說。一方面,由于解說語言的“伴隨性”較強,正如人們在交際時或多或少會丟失部分信息一樣,解說語言本身作為一種語音信息在傳遞時也容易受到多重因素影響,但當解說詞以字幕形式出現(xiàn)時,既是增加了一條通過視覺獲取信息的途徑,能有效提高觀者接收信息的完整度。
再次,要明確音樂語言對解說意境的提升作用。音樂被稱作是人類共同的語言,它是不同國度的人們都能共同感悟和欣賞的一種語言形式。這也使它從根本上有別于受社會屬性制約的解說語言。因此,解說語言的聽覺美化需要音樂語言的修飾。而縱觀當下媒體內(nèi)容生產(chǎn)中AI配音與音樂的關(guān)系,真正起到這種修飾作用的做法并不多。在絕大多數(shù)新媒體內(nèi)容中,過于不協(xié)調(diào)的音樂或是喧賓奪主,或是直接干擾了AI配音的內(nèi)容呈現(xiàn)。解說與音樂的融合至關(guān)重要,它體現(xiàn)在音樂流動中解說的適時介入與淡出等諸多方面,這需要解說語言創(chuàng)作者在理解音樂的基礎上,能夠與內(nèi)容產(chǎn)生情感共鳴。而AI配音在這方面的技術(shù)層面實現(xiàn)上要特別關(guān)注以下兩個方面。第一,體現(xiàn)節(jié)奏性。節(jié)奏是諸多藝術(shù)形式所共有的特性,不僅聽音樂時能感覺到音符韻律的節(jié)奏,當穿過長廊或?qū)m殿式建筑時也能感受到節(jié)奏的震撼。未來AI配音的使命一定是引領(lǐng)人們感受到科技與藝術(shù)融合之美,這要求技術(shù)實現(xiàn)路徑中要特別關(guān)注到節(jié)奏的算法設計,否則始終難以消除機器化的陌生感。第二,契合解說內(nèi)容。選擇與主題相關(guān)的音樂不僅能更好地引導受眾沉浸其中,更能為解說語言錦上添花。AI配音在與音樂的契合度方面同樣依賴更為精準的算法進行優(yōu)化。這不僅是指在類似紀錄片《創(chuàng)新中國》中的個案,而是需要逐步應用到各類體量龐大的新媒體內(nèi)容場景中。
科技的高速發(fā)展帶動著媒體內(nèi)容生產(chǎn)方式的日新月異。某個階段的技術(shù)手段總會存在著這樣或那樣的局限性,而在配音方面,不僅是人工智能,即便是專業(yè)創(chuàng)作者在把握聲畫語言的關(guān)系時也會有諸多遺憾和不足。當普及性的AI配音已經(jīng)完成了基礎層面的信息傳達功能后,無論是技術(shù)發(fā)展還是受眾需求,都在指引著AI配音技術(shù)走向更加精細化的聲畫關(guān)系創(chuàng)作范疇。這不僅對未來的AI配音技術(shù)發(fā)展提出了更高的行業(yè)標準,也在提醒著當下的媒體內(nèi)容生產(chǎn)者一定要注重內(nèi)容產(chǎn)出的質(zhì)量。一部優(yōu)秀藝術(shù)作品的誕生需要創(chuàng)作者付出多方面的努力,解說語言作為一種由聽覺直觀接收的語言形式,其創(chuàng)作者占據(jù)的重要作用不言而喻。尤其是在AI配音出現(xiàn)并不斷完善后,藝術(shù)與科技高度融合的特點在其領(lǐng)域中會更加凸顯。如何在提高AI配音技術(shù)“擬人化”水準的同時,又能與構(gòu)成整體的其他部分有機結(jié)合,特別是有效把握整體的聲畫關(guān)系,這或?qū)⒊蔀閯?chuàng)作者們不斷嘗試和探索的方向。
參考文獻:
[1]李佐豐.電視專題片聲畫語言結(jié)構(gòu)[M].北京:北京廣播學院出版社,1999:1-39,218-282.
[2]邢福義.普通話培訓測試指要[M].武漢:華中師范大學出版社,2011:20-98.
[3]王同.《創(chuàng)新中國》解說制作全記錄[EB/OL].http://www.musizhou.com/companynews/311911206.html,2018-01-22.
[4]姜燕.影視聲音藝術(shù)與制作[M].北京:中國傳媒大學出版社,2008:308-329.
作者簡介:張璇(1991—),安徽人,高校講師,碩士研究生,現(xiàn)就職于廣州華商學院傳播與傳媒學院。