摘要:聲音作為一種媒介,影響著人與場景之間的關(guān)系,讓人感知并涉入世界。當下,迅速發(fā)展的智能語音合成技術(shù)不僅可以用于人機協(xié)作、自然語言理解等領(lǐng)域,而且在改善語音交互體驗、服務(wù)于特定人群等方面也具有廣泛的應(yīng)用價值。作為AIGC(人工智能生產(chǎn)內(nèi)容)的分支之一,AI配音在短視頻領(lǐng)域也迎來了極大的發(fā)展和創(chuàng)新。一方面,智能音色在語音轉(zhuǎn)換、音效增強、畫面配音等方面能夠起到增益效果,促進內(nèi)容創(chuàng)作的繁榮。另一方面,基于技術(shù)創(chuàng)造的標簽、話題、熱梗開辟了網(wǎng)絡(luò)傳播的新形式。低成本、效果優(yōu)、差異化的優(yōu)點讓智能語音在某種程度上代替甚至超越真人人聲,以一種貼合大眾的視點轉(zhuǎn)述用戶的表達并提供全新的聽覺審美體驗。為了進一步探索AI配音在短視頻領(lǐng)域所凸顯的功能,本研究采用文獻調(diào)查法、觀察法等,分析短視頻中AI配音所呈現(xiàn)的特征,將其總結(jié)為資源預(yù)置化、聲音賽博化、聽覺審美化三點。文章以使用與滿足理論為依據(jù),從技術(shù)手段、語音符號、聽覺方式、傳播模因多角度入手,探討短視頻AI配音對受眾的娛樂、情感、認知、整合等需求的滿足。文章認為,對于短視頻AI配音應(yīng)保持關(guān)注和反思,雖然AI配音存在同質(zhì)化、版權(quán)等問題,但是相信隨著社會技術(shù)的變革,智能語音的發(fā)展會適配更多短視頻場景,為更便捷高效的生活方式創(chuàng)造更多可能。
關(guān)鍵詞:AI配音;人工智能;使用與滿足;聽覺文化;模因傳播
中圖分類號:TP18;G206 文獻標志碼:A 文章編號:1674-8883(2024)04-0001-03
基金項目:本論文為2023年度中共遼寧省委黨校國家社科辦社科基金項目“數(shù)據(jù)驅(qū)動國家治理現(xiàn)代化的內(nèi)在機理與實現(xiàn)路徑”研究成果,項目編號:23BZZ084
智能語音即實現(xiàn)人與機器以語言為紐帶的通信[1]。AI配音是基于語音合成技術(shù),運用計算機采集人類聲音樣本生成語言模型以此完成配音任務(wù)的過程。TTS(語音合成)能夠?qū)⑽淖洲D(zhuǎn)化為聲音(朗讀出來),是AI配音的技術(shù)支撐。抖音短視頻對應(yīng)的剪輯軟件“剪映”、快手短視頻的“快影”,都提供各式各樣的AI配音。如今技術(shù)的發(fā)展與賦權(quán)使得眾多UGC進入短視頻市場,AI配音的使用主體迅速下沉到各個圈層,極大地豐富了視聽元素。聲音比影視更具滲透力、爆破力,正常人可以將眼睛長時間閉上,卻無法長時間把耳朵捂著[2]。短視頻作為視聽藝術(shù)的載體,畫面配音直接或間接地影響受眾對視頻內(nèi)容的解讀,能夠滿足用戶不同的視聽需求。
(一)資源預(yù)置化
正如保羅·萊文森所說:“一切媒介的性能終將越來越人性化?!盵3]AI配音的聲音是通過“爬數(shù)據(jù)”來組成,迭代速度快。只要采集到足夠多的聲音樣本,其在不同的場景就可以隨意變換音色。對聲音來說,可選擇的原聲、預(yù)置的音色,為用戶提供了一種模式化、可復(fù)制的表演前臺,人們原本豐富多彩的個性被劃分為了不同的“人設(shè)”[4]。
AI配音現(xiàn)象在短視頻平臺隨處可見,小到生活記錄、大到主流媒體玩“?!保砻嫔鲜遣煌挠耙暯巧?、地域方言講述著不符合他們形象的故事,實際上是大眾通過網(wǎng)絡(luò)切換身份向世界袒露心聲、表達傾向。如剪映APP從最初的通用基礎(chǔ)男女聲,到現(xiàn)在擁有百余種音色選擇,主要包括影視人物、動漫角色、地域方言等。這些一鍵生成的預(yù)設(shè)選項降低了視頻創(chuàng)作成本,滿足了不愿出鏡或不想使用同期聲的用戶的需求,保護了用戶隱私,給予了用戶足夠的自由。
(二)聲音賽博化
約斯·德·穆爾總結(jié)了數(shù)字媒介的三種特性:多媒體性、互動性、虛擬性[5]。19世紀七八十年代,留聲機、唱片的發(fā)明和使用讓人聲脫離了身體實在。隨著互聯(lián)網(wǎng)時代的到來,人們只需輕點指尖便可游離于形形色色的場景之中,當身體被隱藏,聲音作為一種物理現(xiàn)象在網(wǎng)絡(luò)中呈現(xiàn)出賽博化的特征。
短視頻功能的開發(fā)和細化不斷挖掘著聲音的價值和魅力,平衡了視與聽之間的關(guān)系,也在無形中改變了大眾的生活方式與感知模式。對于用戶而言,在視頻中發(fā)聲也屬于一種情感實踐。
在講述相關(guān)故事的過程中,智能音色發(fā)揮了重要作用,“猴哥”開始進行知識科普、“主持人”吐槽起了日常瑣碎。如果說一般的真人配音是對文本內(nèi)容的物理加工,那么AI配音作用于文本,帶來的則是熟悉而又陌生的化學反應(yīng)。
(三)聽覺審美化
人們在接觸視聽作品的過程中,由于視覺的直觀性,審美對象仍以承載意義的文字為主,而聲音的審美價值可能被有意無意地忽略?;谥悄芤羯a(chǎn)生的信息產(chǎn)品雖難以被納入繪畫、音樂等藝術(shù)范疇,但也會在一定程度上影響受眾的認知、態(tài)度、行為等。不同的音色呈現(xiàn)多元的個性風格和審美特征:動漫音活潑、年輕化;播音腔莊重,凸顯專業(yè)度;方言親切,消解距離感。和能夠辨別方向的眼睛相比,耳朵是一種情感性媒介[6]。
AI配音正以全新的聽覺方式塑造新的聲音景觀。短視頻能夠直接抓取用戶眼球,并產(chǎn)生指向性讓用戶投入畫面當中,開啟第一次內(nèi)容解讀,而聲音揭示了另一層解讀意義,引導(dǎo)用戶跟隨博主的步調(diào)繼續(xù)了解視頻內(nèi)容。一般來說,真人人聲聽起來更加親切,但帶有科技紋理的AI配音未嘗不能響應(yīng)用戶的心聲。
1974年,美國社會學家卡茨提出,“使用與滿足”理論,把受眾看作有特定需求的個人,把他們的媒介接觸活動看作基于特定需求的動機“使用”媒介,從而使這些需求得到“滿足”的過程[7]。
新媒體時代,傳受雙方的地位發(fā)生了“融合性”變化,用戶既是生產(chǎn)者也是傳播者。短視頻AI配音讓用戶與內(nèi)容之間的聯(lián)系更加緊密,逐漸影響用戶的使用習慣,滿足不同的使用需求。
(一)賽博聲音滿足情感需求
聲音不像目光那樣帶有方向性地向其對象投射,卻總是形成一個將聽覺主體沉浸其中的環(huán)境[8]。AI配音的特質(zhì)提高了用戶講故事的能力,助力個人表達內(nèi)心情感。
如果說短視頻打開了人們抒發(fā)情感的另一扇門,那么AI配音就是他們細化喜怒哀樂的窗口。不管是虛擬世界還是現(xiàn)實世界,總有“沉默的大多數(shù)”,AI配音授予那些在現(xiàn)實世界中“開不了口”的用戶開口的權(quán)限,讓那些在虛擬世界中“開不了口”的用戶有了開口的勇氣。
當智能語音技術(shù)加入口語傳播行列后,有聲語言傳播便可擺脫人的限制,進行非器官發(fā)聲[9]。熱門的“猴哥”“譯制片男”語音包,不論是用于個人日常Vlog創(chuàng)作,還是評論其他熱點現(xiàn)象,僅僅通過一鍵生成,靈動、厚重的聲音能為單薄的文本增色添彩,視頻創(chuàng)作也更加便捷和富有表現(xiàn)力。互聯(lián)網(wǎng)自帶的趣緣性特征讓用戶交際處于弱關(guān)系狀態(tài),而賽博化的聲音提高了人們表達情感的自由度,從而加強對自我世界的“強建構(gòu)”。
(二)語言質(zhì)感滿足娛樂需求
美國社會學家戈夫曼在《日常生活中的自我呈現(xiàn)》一書中提出擬劇理論。他指出,人生是一場表演,社會是一個舞臺,社會成員通過運用各種符號按照事先準備的腳本進行表演[10]。用戶通過這些預(yù)置的音色即刻達到配音效果,扮演不同的角色。
對于生活類短視頻來說,受眾使用AI配音更多的是想嘗試喜愛的風格來釋放情緒、卸下偽裝,聽眾也不需要過多思考,二者互為陪伴。在分享的過程中,人們被重視、被認可、被崇拜的需要得到了滿足[11]。
泛娛樂化媒體有自身的聲音標識,統(tǒng)一聲音風格也是樹立創(chuàng)作者形象的標準之一。如抖音“會火”“巨星火火”等百萬級資訊媒體多使用甜美音、溫柔音來輸出豐富的生活信息,既適應(yīng)短視頻平臺的調(diào)性,也滿足了目標受眾的視聽習慣和娛樂需求。如今,媒體和用戶互為內(nèi)容素材,通過視頻中各種有趣的聲音符號來傳播,活化了平凡的生活文本,訴說著嚴肅,又消解著嚴肅。
(三)高效生成滿足認知需求
對于專業(yè)性內(nèi)容生產(chǎn)而言,畫面與聲音具有強烈的相關(guān)性和匹配度。短視頻中的影視解說往往以沉穩(wěn)聲、播音腔為標志,配合劇情的畫面片段和BGM(背景音樂),造就一部高質(zhì)量短片。
對于短視頻新聞而言,音色或磁性沉穩(wěn),或溫柔輕快,在沒有人工配音的基礎(chǔ)上能做到與畫面有機配合、智能產(chǎn)出,滿足用戶需求。從當前的情況來看,AI配音作為輔助工具,可能會在一定程度上代替人類進行新聞報道[12]。
值得注意的是,當這樣一種文本朗讀模式被套用在文學讀物中時,也別有一番滋味。在文字還沒有成熟之時,以口語傳誦的荷馬史詩、《詩經(jīng)》等詩歌作品,就已經(jīng)開始傳達人們的思想與情感,記錄人們的生活與文化[13]。AI配音能夠模仿抑揚頓挫的人聲,將相關(guān)內(nèi)容以歌唱的形式表現(xiàn)出來。抖音短視頻中#AI讀詩#有8000萬次播放量,理性的人工智能把感性的文藝詩詞唱出來之后,在某種程度上強化了人們對文化的感知。
(四)網(wǎng)絡(luò)模因滿足整合需求
模因是通過模仿而傳播的文化基因,由于模仿而導(dǎo)致的大規(guī)模傳播行為,被稱為“模因傳播”[14]。在技術(shù)賦權(quán)時代,網(wǎng)絡(luò)傳播的內(nèi)容、形式、范圍和速度都發(fā)生了變化,人們往往更傾向于模因傳播來引發(fā)網(wǎng)絡(luò)狂歡,重視創(chuàng)新參與和趣味互動。
由于生產(chǎn)中不同的編碼意圖和傳播中不同的改進意愿,同一音色能建構(gòu)龐大的內(nèi)容矩陣。雖表不同意,然聲從同源。曾經(jīng)流行的“鼠鼠文學”便是大眾通過“鼠鼠”這個意象來進行自我消解,配上“譯制片聲”,講述自己微不足道的底層經(jīng)驗。相比于真人人聲,配音能夠更好地傳達平等交流的理念,這既是對自我信心的強化,也能夠加強個人與群體的連接。除此之外,AI音色與特定內(nèi)容的綁定,也可成為視頻創(chuàng)作和傳播的模因,如短視頻平臺大量涌現(xiàn)的“在校大學生宿舍好物分享”“買家秀與賣家秀”等主題內(nèi)容,該類模因已具備語言模因的性質(zhì)。聲音不僅具有解釋畫面的功能,更能夠呈現(xiàn)人的回憶與想象[15]。
短視頻AI配音改變了人們的視聽體驗,拓展了用戶創(chuàng)作和網(wǎng)絡(luò)傳播的邊界。多元音色不僅能滿足用戶基本的娛樂需求,還能起到替代性作用,為“沉默的大多數(shù)”打開與外界交流的窗口。專業(yè)領(lǐng)域?qū)υ摷夹g(shù)的應(yīng)用客觀上也加強了圈層之間的交流,促進了社會的整合。AI配音在AIGC領(lǐng)域扮演著越來越重要的角色,提供各式資源供大眾娛樂和訴情,同時也在塑造著新的聽覺方式和聲音景觀。盡管AI配音目前存在一些問題,如內(nèi)容同質(zhì)、聲音版權(quán)等,但這些都沒能阻止它在各個領(lǐng)域的廣泛應(yīng)用。相信隨著社會技術(shù)的變革,智能語音會適配更多的短視頻場景,為人們的休閑娛樂創(chuàng)造更多的可能,讓人們獲取信息更加便捷高效。
參考文獻:
[1] 2020年中國智能語音行業(yè)研究報告[R].艾瑞咨詢,2020-02-10.
[2] 廖賈克·阿達利.噪音:音樂的政治經(jīng)濟學[M].宋素鳳,翁桂堂,譯.開封:河南大學出版社,2017:3.
[3] 保羅·萊文森.軟利器:信息革命的自然歷史與未來[M].何道寬,譯.上海:復(fù)旦大學出版社,2011:5.
[4] 王洋溢.短視頻聲音創(chuàng)作中“網(wǎng)感”的生成模式研究[J].新聞研究導(dǎo)刊,2023,14(2):1-4.
[5] 約斯·德·穆爾.賽博空間的奧德賽[M].麥永雄,譯.南寧:廣西師范大學出版社,2007:89.
[6] 許加彪,張宇然.耳朵的蘇醒:場景時代下的聲音景觀與聽覺文化[J].編輯之友,2021(8):12-17,23.
[7] 郭慶光.傳播學教程[M].北京:中國人民大學出版社,2011:167-168.
[8] 季凌霄.從“聲景”思考傳播:聲音、空間與聽覺感官文化[J].國際新聞界,2019,41(3):24-41.
[9] 白貴,任青青.人工智能環(huán)境下有聲語言傳播創(chuàng)新的趨向及影響[J].海河傳媒,2020(3):1-6.
[10] 歐文·戈夫曼.日常生活中的自我呈現(xiàn)[M].馮鋼,譯.北京:北京大學出版社,2016:103-107.
[11] 董晨宇,丁依然.當戈夫曼遇到互聯(lián)網(wǎng):社交媒體中的自我呈現(xiàn)與表演[J].新聞與寫作,2018(1):56-62.
[12] 劉慧君. AI配音的優(yōu)勢與劣勢探究:以《創(chuàng)新中國》中解說詞配音的功能為例[J].新聞研究導(dǎo)刊,2023,14(7):7-9.
[13] 炸糕. AI讀詩:浪漫而空寂的回音,不是詩的回音[EB/OL].微信公眾號“知著網(wǎng)”,(2022-11-29)[2023-12-18]. https:// mp.weixin.qq.com/s/T9Y5a744K4_lD7MJAoUuag.
[14] 理查德·道金斯.自私的基因[M].盧允中,等譯.北京:中信出版社,2012:217-227.
[15] 王珍,胡銳.聲音景觀建構(gòu)視角下短視頻AI配音濫用行為研究[J].電聲技術(shù),2022,46(10):31-33,46.
作者簡介 夏春秋,研究方向:網(wǎng)絡(luò)與新媒體。