亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

短視頻AI配音的使用與滿足研究

2024-03-17 11:31:04夏春秋

新聞研究導(dǎo)刊 2024年4期

摘要：聲音作為一種媒介，影響著人與場景之間的關(guān)系，讓人感知并涉入世界。當下，迅速發(fā)展的智能語音合成技術(shù)不僅可以用于人機協(xié)作、自然語言理解等領(lǐng)域，而且在改善語音交互體驗、服務(wù)于特定人群等方面也具有廣泛的應(yīng)用價值。作為AIGC（人工智能生產(chǎn)內(nèi)容）的分支之一，AI配音在短視頻領(lǐng)域也迎來了極大的發(fā)展和創(chuàng)新。一方面，智能音色在語音轉(zhuǎn)換、音效增強、畫面配音等方面能夠起到增益效果，促進內(nèi)容創(chuàng)作的繁榮。另一方面，基于技術(shù)創(chuàng)造的標簽、話題、熱梗開辟了網(wǎng)絡(luò)傳播的新形式。低成本、效果優(yōu)、差異化的優(yōu)點讓智能語音在某種程度上代替甚至超越真人人聲，以一種貼合大眾的視點轉(zhuǎn)述用戶的表達并提供全新的聽覺審美體驗。為了進一步探索AI配音在短視頻領(lǐng)域所凸顯的功能，本研究采用文獻調(diào)查法、觀察法等，分析短視頻中AI配音所呈現(xiàn)的特征，將其總結(jié)為資源預(yù)置化、聲音賽博化、聽覺審美化三點。文章以使用與滿足理論為依據(jù)，從技術(shù)手段、語音符號、聽覺方式、傳播模因多角度入手，探討短視頻AI配音對受眾的娛樂、情感、認知、整合等需求的滿足。文章認為，對于短視頻AI配音應(yīng)保持關(guān)注和反思，雖然AI配音存在同質(zhì)化、版權(quán)等問題，但是相信隨著社會技術(shù)的變革，智能語音的發(fā)展會適配更多短視頻場景，為更便捷高效的生活方式創(chuàng)造更多可能。

關(guān)鍵詞：AI配音；人工智能；使用與滿足；聽覺文化；模因傳播

中圖分類號：TP18；G206 文獻標志碼：A 文章編號：1674-8883（2024）04-0001-03

基金項目：本論文為2023年度中共遼寧省委黨校國家社科辦社科基金項目“數(shù)據(jù)驅(qū)動國家治理現(xiàn)代化的內(nèi)在機理與實現(xiàn)路徑”研究成果，項目編號：23BZZ084

一、引言

智能語音即實現(xiàn)人與機器以語言為紐帶的通信[1]。AI配音是基于語音合成技術(shù)，運用計算機采集人類聲音樣本生成語言模型以此完成配音任務(wù)的過程。TTS（語音合成）能夠?qū)⑽淖洲D(zhuǎn)化為聲音（朗讀出來），是AI配音的技術(shù)支撐。抖音短視頻對應(yīng)的剪輯軟件“剪映”、快手短視頻的“快影”，都提供各式各樣的AI配音。如今技術(shù)的發(fā)展與賦權(quán)使得眾多UGC進入短視頻市場，AI配音的使用主體迅速下沉到各個圈層，極大地豐富了視聽元素。聲音比影視更具滲透力、爆破力，正常人可以將眼睛長時間閉上，卻無法長時間把耳朵捂著[2]。短視頻作為視聽藝術(shù)的載體，畫面配音直接或間接地影響受眾對視頻內(nèi)容的解讀，能夠滿足用戶不同的視聽需求。

二、短視頻AI配音的應(yīng)用特征

（一）資源預(yù)置化

正如保羅·萊文森所說：“一切媒介的性能終將越來越人性化?！盵3]AI配音的聲音是通過“爬數(shù)據(jù)”來組成，迭代速度快。只要采集到足夠多的聲音樣本，其在不同的場景就可以隨意變換音色。對聲音來說，可選擇的原聲、預(yù)置的音色，為用戶提供了一種模式化、可復(fù)制的表演前臺，人們原本豐富多彩的個性被劃分為了不同的“人設(shè)”[4]。

AI配音現(xiàn)象在短視頻平臺隨處可見，小到生活記錄、大到主流媒體玩“?！保砻嫔鲜遣煌挠耙暯巧?、地域方言講述著不符合他們形象的故事，實際上是大眾通過網(wǎng)絡(luò)切換身份向世界袒露心聲、表達傾向。如剪映APP從最初的通用基礎(chǔ)男女聲，到現(xiàn)在擁有百余種音色選擇，主要包括影視人物、動漫角色、地域方言等。這些一鍵生成的預(yù)設(shè)選項降低了視頻創(chuàng)作成本，滿足了不愿出鏡或不想使用同期聲的用戶的需求，保護了用戶隱私，給予了用戶足夠的自由。

（二）聲音賽博化

約斯·德·穆爾總結(jié)了數(shù)字媒介的三種特性：多媒體性、互動性、虛擬性[5]。19世紀七八十年代，留聲機、唱片的發(fā)明和使用讓人聲脫離了身體實在。隨著互聯(lián)網(wǎng)時代的到來，人們只需輕點指尖便可游離于形形色色的場景之中，當身體被隱藏，聲音作為一種物理現(xiàn)象在網(wǎng)絡(luò)中呈現(xiàn)出賽博化的特征。

短視頻功能的開發(fā)和細化不斷挖掘著聲音的價值和魅力，平衡了視與聽之間的關(guān)系，也在無形中改變了大眾的生活方式與感知模式。對于用戶而言，在視頻中發(fā)聲也屬于一種情感實踐。

在講述相關(guān)故事的過程中，智能音色發(fā)揮了重要作用，“猴哥”開始進行知識科普、“主持人”吐槽起了日常瑣碎。如果說一般的真人配音是對文本內(nèi)容的物理加工，那么AI配音作用于文本，帶來的則是熟悉而又陌生的化學反應(yīng)。

（三）聽覺審美化

人們在接觸視聽作品的過程中，由于視覺的直觀性，審美對象仍以承載意義的文字為主，而聲音的審美價值可能被有意無意地忽略?；谥悄芤羯a(chǎn)生的信息產(chǎn)品雖難以被納入繪畫、音樂等藝術(shù)范疇，但也會在一定程度上影響受眾的認知、態(tài)度、行為等。不同的音色呈現(xiàn)多元的個性風格和審美特征：動漫音活潑、年輕化；播音腔莊重，凸顯專業(yè)度；方言親切，消解距離感。和能夠辨別方向的眼睛相比，耳朵是一種情感性媒介[6]。

AI配音正以全新的聽覺方式塑造新的聲音景觀。短視頻能夠直接抓取用戶眼球，并產(chǎn)生指向性讓用戶投入畫面當中，開啟第一次內(nèi)容解讀，而聲音揭示了另一層解讀意義，引導(dǎo)用戶跟隨博主的步調(diào)繼續(xù)了解視頻內(nèi)容。一般來說，真人人聲聽起來更加親切，但帶有科技紋理的AI配音未嘗不能響應(yīng)用戶的心聲。

三、短視頻AI配音的使用與滿足

1974年，美國社會學家卡茨提出，“使用與滿足”理論，把受眾看作有特定需求的個人，把他們的媒介接觸活動看作基于特定需求的動機“使用”媒介，從而使這些需求得到“滿足”的過程[7]。

新媒體時代，傳受雙方的地位發(fā)生了“融合性”變化，用戶既是生產(chǎn)者也是傳播者。短視頻AI配音讓用戶與內(nèi)容之間的聯(lián)系更加緊密，逐漸影響用戶的使用習慣，滿足不同的使用需求。

（一）賽博聲音滿足情感需求

聲音不像目光那樣帶有方向性地向其對象投射，卻總是形成一個將聽覺主體沉浸其中的環(huán)境[8]。AI配音的特質(zhì)提高了用戶講故事的能力，助力個人表達內(nèi)心情感。

如果說短視頻打開了人們抒發(fā)情感的另一扇門，那么AI配音就是他們細化喜怒哀樂的窗口。不管是虛擬世界還是現(xiàn)實世界，總有“沉默的大多數(shù)”，AI配音授予那些在現(xiàn)實世界中“開不了口”的用戶開口的權(quán)限，讓那些在虛擬世界中“開不了口”的用戶有了開口的勇氣。

當智能語音技術(shù)加入口語傳播行列后，有聲語言傳播便可擺脫人的限制，進行非器官發(fā)聲[9]。熱門的“猴哥”“譯制片男”語音包，不論是用于個人日常Vlog創(chuàng)作，還是評論其他熱點現(xiàn)象，僅僅通過一鍵生成，靈動、厚重的聲音能為單薄的文本增色添彩，視頻創(chuàng)作也更加便捷和富有表現(xiàn)力。互聯(lián)網(wǎng)自帶的趣緣性特征讓用戶交際處于弱關(guān)系狀態(tài)，而賽博化的聲音提高了人們表達情感的自由度，從而加強對自我世界的“強建構(gòu)”。

（二）語言質(zhì)感滿足娛樂需求

美國社會學家戈夫曼在《日常生活中的自我呈現(xiàn)》一書中提出擬劇理論。他指出，人生是一場表演，社會是一個舞臺，社會成員通過運用各種符號按照事先準備的腳本進行表演[10]。用戶通過這些預(yù)置的音色即刻達到配音效果，扮演不同的角色。

對于生活類短視頻來說，受眾使用AI配音更多的是想嘗試喜愛的風格來釋放情緒、卸下偽裝，聽眾也不需要過多思考，二者互為陪伴。在分享的過程中，人們被重視、被認可、被崇拜的需要得到了滿足[11]。

泛娛樂化媒體有自身的聲音標識，統(tǒng)一聲音風格也是樹立創(chuàng)作者形象的標準之一。如抖音“會火”“巨星火火”等百萬級資訊媒體多使用甜美音、溫柔音來輸出豐富的生活信息，既適應(yīng)短視頻平臺的調(diào)性，也滿足了目標受眾的視聽習慣和娛樂需求。如今，媒體和用戶互為內(nèi)容素材，通過視頻中各種有趣的聲音符號來傳播，活化了平凡的生活文本，訴說著嚴肅，又消解著嚴肅。

（三）高效生成滿足認知需求

對于專業(yè)性內(nèi)容生產(chǎn)而言，畫面與聲音具有強烈的相關(guān)性和匹配度。短視頻中的影視解說往往以沉穩(wěn)聲、播音腔為標志，配合劇情的畫面片段和BGM（背景音樂），造就一部高質(zhì)量短片。

對于短視頻新聞而言，音色或磁性沉穩(wěn)，或溫柔輕快，在沒有人工配音的基礎(chǔ)上能做到與畫面有機配合、智能產(chǎn)出，滿足用戶需求。從當前的情況來看，AI配音作為輔助工具，可能會在一定程度上代替人類進行新聞報道[12]。

值得注意的是，當這樣一種文本朗讀模式被套用在文學讀物中時，也別有一番滋味。在文字還沒有成熟之時，以口語傳誦的荷馬史詩、《詩經(jīng)》等詩歌作品，就已經(jīng)開始傳達人們的思想與情感，記錄人們的生活與文化[13]。AI配音能夠模仿抑揚頓挫的人聲，將相關(guān)內(nèi)容以歌唱的形式表現(xiàn)出來。抖音短視頻中#AI讀詩#有8000萬次播放量，理性的人工智能把感性的文藝詩詞唱出來之后，在某種程度上強化了人們對文化的感知。

（四）網(wǎng)絡(luò)模因滿足整合需求

模因是通過模仿而傳播的文化基因，由于模仿而導(dǎo)致的大規(guī)模傳播行為，被稱為“模因傳播”[14]。在技術(shù)賦權(quán)時代，網(wǎng)絡(luò)傳播的內(nèi)容、形式、范圍和速度都發(fā)生了變化，人們往往更傾向于模因傳播來引發(fā)網(wǎng)絡(luò)狂歡，重視創(chuàng)新參與和趣味互動。

由于生產(chǎn)中不同的編碼意圖和傳播中不同的改進意愿，同一音色能建構(gòu)龐大的內(nèi)容矩陣。雖表不同意，然聲從同源。曾經(jīng)流行的“鼠鼠文學”便是大眾通過“鼠鼠”這個意象來進行自我消解，配上“譯制片聲”，講述自己微不足道的底層經(jīng)驗。相比于真人人聲，配音能夠更好地傳達平等交流的理念，這既是對自我信心的強化，也能夠加強個人與群體的連接。除此之外，AI音色與特定內(nèi)容的綁定，也可成為視頻創(chuàng)作和傳播的模因，如短視頻平臺大量涌現(xiàn)的“在校大學生宿舍好物分享”“買家秀與賣家秀”等主題內(nèi)容，該類模因已具備語言模因的性質(zhì)。聲音不僅具有解釋畫面的功能，更能夠呈現(xiàn)人的回憶與想象[15]。

四、結(jié)語

短視頻AI配音改變了人們的視聽體驗，拓展了用戶創(chuàng)作和網(wǎng)絡(luò)傳播的邊界。多元音色不僅能滿足用戶基本的娛樂需求，還能起到替代性作用，為“沉默的大多數(shù)”打開與外界交流的窗口。專業(yè)領(lǐng)域?qū)υ摷夹g(shù)的應(yīng)用客觀上也加強了圈層之間的交流，促進了社會的整合。AI配音在AIGC領(lǐng)域扮演著越來越重要的角色，提供各式資源供大眾娛樂和訴情，同時也在塑造著新的聽覺方式和聲音景觀。盡管AI配音目前存在一些問題，如內(nèi)容同質(zhì)、聲音版權(quán)等，但這些都沒能阻止它在各個領(lǐng)域的廣泛應(yīng)用。相信隨著社會技術(shù)的變革，智能語音會適配更多的短視頻場景，為人們的休閑娛樂創(chuàng)造更多的可能，讓人們獲取信息更加便捷高效。

參考文獻：

[1] 2020年中國智能語音行業(yè)研究報告[R].艾瑞咨詢，2020-02-10.

[2] 廖賈克·阿達利.噪音：音樂的政治經(jīng)濟學[M].宋素鳳，翁桂堂，譯.開封：河南大學出版社，2017：3.

[3] 保羅·萊文森.軟利器：信息革命的自然歷史與未來[M].何道寬，譯.上海：復(fù)旦大學出版社，2011：5.

[4] 王洋溢.短視頻聲音創(chuàng)作中“網(wǎng)感”的生成模式研究[J].新聞研究導(dǎo)刊，2023，14（2）：1-4.

[5] 約斯·德·穆爾.賽博空間的奧德賽[M].麥永雄，譯.南寧：廣西師范大學出版社，2007：89.

[6] 許加彪，張宇然.耳朵的蘇醒：場景時代下的聲音景觀與聽覺文化[J].編輯之友，2021（8）：12-17，23.

[7] 郭慶光.傳播學教程[M].北京：中國人民大學出版社，2011：167-168.

[8] 季凌霄.從“聲景”思考傳播：聲音、空間與聽覺感官文化[J].國際新聞界，2019，41（3）：24-41.

[9] 白貴，任青青.人工智能環(huán)境下有聲語言傳播創(chuàng)新的趨向及影響[J].海河傳媒，2020（3）：1-6.

[10] 歐文·戈夫曼.日常生活中的自我呈現(xiàn)[M].馮鋼，譯.北京：北京大學出版社，2016：103-107.

[11] 董晨宇，丁依然.當戈夫曼遇到互聯(lián)網(wǎng)：社交媒體中的自我呈現(xiàn)與表演[J].新聞與寫作，2018（1）：56-62.

[12] 劉慧君. AI配音的優(yōu)勢與劣勢探究：以《創(chuàng)新中國》中解說詞配音的功能為例[J].新聞研究導(dǎo)刊，2023，14（7）：7-9.

[13] 炸糕. AI讀詩：浪漫而空寂的回音，不是詩的回音[EB/OL].微信公眾號“知著網(wǎng)”，（2022-11-29）[2023-12-18]. https：// mp.weixin.qq.com/s/T9Y5a744K4_lD7MJAoUuag.

[14] 理查德·道金斯.自私的基因[M].盧允中，等譯.北京：中信出版社，2012：217-227.

[15] 王珍，胡銳.聲音景觀建構(gòu)視角下短視頻AI配音濫用行為研究[J].電聲技術(shù)，2022，46（10）：31-33，46.

作者簡介夏春秋，研究方向：網(wǎng)絡(luò)與新媒體。