AIGC技術(shù)賦能數(shù)字音頻內(nèi)容生產(chǎn)：應(yīng)用場景、存在問題與應(yīng)對(duì)策略

2023-04-29 00:00:00李雅箏劉宇星

數(shù)字出版研究 2023年3期

摘要：在人工智能技術(shù)應(yīng)用快速發(fā)展的今天，AIGC技術(shù)正在加速推動(dòng)著數(shù)字音頻內(nèi)容生產(chǎn)模式的變革。在賦能產(chǎn)業(yè)實(shí)踐提質(zhì)增效的同時(shí)，智能語音技術(shù)也引發(fā)了一些問題與風(fēng)險(xiǎn)。基于案例分析發(fā)現(xiàn)，AIGC技術(shù)在有聲讀物等音頻內(nèi)容生產(chǎn)、數(shù)字音樂創(chuàng)作、新聞廣播智能播報(bào)和多元需求的配音等多個(gè)應(yīng)用場景具有較好的賦能潛力?；趯?shí)際應(yīng)用中尚存的AI合成語音精度、用戶聲音權(quán)和作品版權(quán)侵權(quán)、虛假信息及用戶隱私數(shù)據(jù)泄露等問題的剖析，提出：應(yīng)提升語音數(shù)據(jù)庫的質(zhì)量管理，注重隱私保護(hù)措施，確保用戶數(shù)據(jù)的安全性和隱私性；通過添加音頻數(shù)字水印，保護(hù)音頻作品版權(quán)；盡快制定音頻法律規(guī)范和行業(yè)準(zhǔn)則，強(qiáng)化著作權(quán)授權(quán)許可，規(guī)范市場傳播行為。

關(guān)鍵詞：AIGC；AI語音技術(shù)；數(shù)字音頻內(nèi)容；有聲讀物；應(yīng)用場景；內(nèi)容生產(chǎn)

DOl： 10.3969/j.issn.2097-1869.2023.03.003 文獻(xiàn)標(biāo)識(shí)碼：A

本文著錄格式：李雅箏，劉宇星. AIGC技術(shù)賦能數(shù)字音頻內(nèi)容生產(chǎn)：應(yīng)用場景、存在問題與應(yīng)對(duì)策略[J]. 數(shù)字出版研究， 2023， 2（3）： 13-20.

人工智能生成內(nèi)容（Artificial Intelligence Generated Content，AIGC）技術(shù)是一種基于人工智能自動(dòng)生成文本、圖像、音頻、視頻等多模態(tài)內(nèi)容的技術(shù)，被認(rèn)為是驅(qū)動(dòng)數(shù)字內(nèi)容創(chuàng)新的新引擎。在數(shù)字音頻內(nèi)容生產(chǎn)領(lǐng)域，ChatGPT、Claude、訊飛星火等大語言模型（Large Language Model，LLM）具備強(qiáng)大的語言理解和生成能力，可以高效輔助有聲讀物、廣播劇本等初稿內(nèi)容文本的生成與優(yōu)化。而基于從文本到語音（Text To Speech，TTS）技術(shù)，可以快速將文本內(nèi)容轉(zhuǎn)化為配音員風(fēng)格的有聲讀物或歌手風(fēng)格的人聲歌曲，從而顯著提高數(shù)字音頻內(nèi)容生產(chǎn)效率，實(shí)現(xiàn)降本增效的目的。

在AIGC技術(shù)應(yīng)用不斷迭代發(fā)展的背景下，本文主要探討AIGC技術(shù)在數(shù)字音頻內(nèi)容生產(chǎn)中的幾個(gè)潛在應(yīng)用場景及需要關(guān)注的相關(guān)問題，以期通過全面理解人工智能介入下的數(shù)字音頻內(nèi)容生成實(shí)踐，為相關(guān)研究和應(yīng)用提供參考。

1 AIGC技術(shù)賦能數(shù)字音頻內(nèi)容生產(chǎn)的應(yīng)用場景

隨著AIGC技術(shù)的發(fā)展，尤其是智能語音技術(shù)的廣泛應(yīng)用，傳統(tǒng)的人工配音、真人朗讀場景正在發(fā)生深刻變革。AIGC技術(shù)有望成為有聲讀物、有聲劇、數(shù)字音樂、新聞廣播智能播報(bào)等多元數(shù)字音頻內(nèi)容生產(chǎn)轉(zhuǎn)型和升級(jí)的重要?jiǎng)恿Α?/p>

1.1 賦能有聲讀物、有聲劇等多元化音頻內(nèi)容生產(chǎn)

目前，TTS技術(shù)可以根據(jù)不同的文本風(fēng)格和應(yīng)用場景，將文本內(nèi)容轉(zhuǎn)換為配音員風(fēng)格的有聲讀物，該技術(shù)已逐步被應(yīng)用到廣告配音、社交媒體內(nèi)容朗讀、有聲讀物和有聲劇等生產(chǎn)過程中。

在數(shù)字閱讀融合出版領(lǐng)域，書旗小說、晉江小說閱讀、七貓小說和掌閱等小說在線閱讀平臺(tái)中的語音朗讀功能可以朗讀整本書或指定章節(jié)。以番茄免費(fèi)小說閱讀平臺(tái)為例，該平臺(tái)的語音朗讀功能不僅能根據(jù)不同題材的小說匹配相對(duì)應(yīng)的音色，還可以在朗讀過程中匹配合適的背景音樂以增強(qiáng)閱讀的氛圍感，同時(shí)提供多檔語速調(diào)節(jié)功能和多角色對(duì)話功能[1]。這種基于TTS技術(shù)的數(shù)字出版融合應(yīng)用，不僅優(yōu)化了用戶的閱讀體驗(yàn)感，還可賦能在線閱讀的多元化、多場景發(fā)展。

在新媒體內(nèi)容有聲化領(lǐng)域，一些網(wǎng)站文章、博客內(nèi)容或公眾號(hào)的長篇推送也可以通過語音合成直接轉(zhuǎn)換為音頻文件，供用戶瀏覽時(shí)聽取或下載以便離線聽讀。對(duì)于較長內(nèi)容，還可以適當(dāng)分割生成對(duì)應(yīng)的音頻文件，供用戶逐段播放，幫助讀者更好地理解和吸收內(nèi)容。這種便捷且人性化的文字轉(zhuǎn)語音功能打破了傳統(tǒng)閱讀的時(shí)間和空間限制，簡化了用戶學(xué)習(xí)和獲取信息的方式，是數(shù)字音頻內(nèi)容生產(chǎn)領(lǐng)域的重要發(fā)展方向之一。

在專業(yè)的有聲讀物內(nèi)容生產(chǎn)領(lǐng)域，除利用TTS技術(shù)替代真人朗讀制作有聲讀物、有聲劇外，喜馬拉雅平臺(tái)已嘗試進(jìn)行頭部主播的訓(xùn)練或者AI分身的運(yùn)營。在此應(yīng)用場景下，可以利用人工智能技術(shù)克隆還原任何人的聲音，并基于訓(xùn)練好的聲庫模型進(jìn)行有聲讀物或有聲劇的多元化智能創(chuàng)作。例如，喜馬拉雅的“單田芳原音重現(xiàn)”項(xiàng)目使用人工智能技術(shù)模擬評(píng)書大師單田芳獨(dú)特的嗓音?；贏IGC的能力，可生成單田芳未讀完的作品或新的作品，如以單田芳嗓音朗讀《明朝那些事兒》。這種個(gè)性化的聲音模擬和再應(yīng)用的人工智能技術(shù)，可以提高有聲內(nèi)容主播的創(chuàng)作效率，賦予更多UGC創(chuàng)作者進(jìn)行有聲內(nèi)容創(chuàng)作的能力，從而提高有聲讀物的內(nèi)容生產(chǎn)力，為有聲閱讀市場提供更加豐富的多元和個(gè)性化內(nèi)容。

1.2 賦能數(shù)字音樂的創(chuàng)作場景

在數(shù)字音樂創(chuàng)作領(lǐng)域，人工智能技術(shù)已經(jīng)滲透到音樂行業(yè)的各個(gè)方面。作為算法和藝術(shù)的交叉產(chǎn)物，人工智能音樂已為公眾所熟知。從1957年計(jì)算機(jī)生成的《伊利亞克組曲》到2020年網(wǎng)易發(fā)布的全流程人工智能歌曲《醒來》，人工智能介入音樂已成為必然發(fā)展趨勢，智能語音技術(shù)在音樂創(chuàng)作中將占據(jù)越來越重要的地位。

一方面，智能語音技術(shù)可用于音樂歌曲的快速生產(chǎn)，通過算法對(duì)海量音樂數(shù)據(jù)進(jìn)行解構(gòu)、分析和學(xué)習(xí)，形成相對(duì)確定的審美風(fēng)格的AI音樂模型。然后根據(jù)用戶要求在選定風(fēng)格基礎(chǔ)上生成內(nèi)容：輸入歌詞或旋律，智能語音技術(shù)可以自動(dòng)合成相應(yīng)的人聲或和弦。對(duì)專業(yè)音樂人來說，使用人工智能技術(shù)制作音樂demo比使用真人錄制更快捷方便。AI聲音克隆技術(shù)還可以收集歌手干聲素材進(jìn)行聲線克隆，模仿歌手演唱風(fēng)格。近期，網(wǎng)絡(luò)上爆火的“AI孫燕姿”就是用AI技術(shù)完美復(fù)刻了孫燕姿的聲音，并因在各大網(wǎng)絡(luò)平臺(tái)上翻唱一系列新老歌星的成名曲而“出圈”登上熱搜。QQ音樂數(shù)據(jù)顯示，歌手孫燕姿自出道以來共發(fā)布435首作品，而在B站上“AI孫燕姿”翻唱的作品就超過了1 000首，可以看出AI技術(shù)驚人的工作效率。另一方面，這項(xiàng)技術(shù)也可以幫助已故音樂人重新發(fā)聲：在鄧麗君逝世27周年之際，酷狗音樂用人工智能技術(shù)延續(xù)她的真人之聲，為“鄧麗君”量身打造新曲《沒有寄出的信》，以她的聲線和演唱風(fēng)格重新創(chuàng)作歌曲，表達(dá)敬意和滿足歌迷心愿?？傊?，智能語音技術(shù)賦能音樂領(lǐng)域，既降低音樂歌曲制作門檻，又能提高音樂歌曲準(zhǔn)入門檻。作為創(chuàng)作工具和拓展工具，智能語音技術(shù)為音樂創(chuàng)作提供更加豐富多元的可能性。

1.3 賦能新聞廣播智能播報(bào)場景

語音合成技術(shù)不斷優(yōu)化的模型使合成語音的表現(xiàn)力和個(gè)性化程度持續(xù)提高，為新聞廣播電臺(tái)等場景帶來更真實(shí)自然的人聲體驗(yàn)。在新聞和廣播電臺(tái)中，將新聞稿或熱點(diǎn)資訊輸入系統(tǒng)，智能語音技術(shù)可以自動(dòng)為稿件合成配音并生成播報(bào)音頻，直接用于電臺(tái)新聞廣播或數(shù)字音頻廣播電臺(tái)制作。這不僅降低了人工播報(bào)成本，還實(shí)現(xiàn)了全天播報(bào)。例如，騰訊新聞通過語音合成技術(shù)生成每日新聞播報(bào)音頻，同步在騰訊新聞App、微信公眾號(hào)和各大音頻分享平臺(tái)，用戶隨時(shí)可以收聽和獲取新聞，實(shí)現(xiàn)新聞?dòng)新曢喿x。此外，智能語音技術(shù)還可以實(shí)現(xiàn)電臺(tái)節(jié)目的語音填充。采用語音合成技術(shù)和人工錄制相結(jié)合的方式，生成對(duì)話或解說來制作電臺(tái)DJ采訪和精選內(nèi)容等欄目。這既能滿足一定的節(jié)目時(shí)長和效果要求，又降低了節(jié)目制作難度和成本。

當(dāng)下語音合成技術(shù)輸出的語音內(nèi)容除清晰流暢外，在語速、發(fā)音、停頓方面也無限接近真人語調(diào)和講話節(jié)奏，輸出的語音內(nèi)容與人工播音的差距越來越小，因此被廣泛運(yùn)用在天氣、路況、敘事等的新聞電臺(tái)媒體播報(bào)中。而運(yùn)用語音克隆技術(shù)還能將主持人的聲音復(fù)刻出來，以進(jìn)一步提升受眾的可接受程度[2]。一些新聞媒體也在訓(xùn)練完全的人工智能虛擬動(dòng)漫或仿真主持人形象。通過利用語音合成技術(shù)錄制大量訓(xùn)練語音素材，實(shí)現(xiàn)主持人新聞播報(bào)和電臺(tái)節(jié)目的全自動(dòng)模擬，為聽眾帶來全新的體驗(yàn)。例如，北京衛(wèi)視的數(shù)字人主播“時(shí)間小妮”便是依據(jù)主持人春妮的發(fā)音特點(diǎn)和形象表情進(jìn)行語言處理和影像采集，通過情緒仿真引擎賦予其更加擬真的語音語調(diào)和情感表達(dá)，實(shí)現(xiàn)了97%的真人相似度。在2022年安徽春節(jié)聯(lián)歡晚會(huì)上首次亮相的“二次元”甜妹小安是安徽廣播電視臺(tái)的一個(gè)虛擬AI主持人，其陽光的形象和樂天的性格為整臺(tái)晚會(huì)注入了更多的科技元素和年輕氣息，體現(xiàn)了AI系統(tǒng)生成虛擬主持人形象的巨大潛力。盡管虛擬主持人或AI主播在很多語音應(yīng)用中還處于起步階段，但這無疑是數(shù)字音頻內(nèi)容生產(chǎn)轉(zhuǎn)型的一種重要方式。可以說，智能語音技術(shù)在一定程度上實(shí)現(xiàn)了新聞的多模態(tài)呈現(xiàn)和廣播媒體播報(bào)的智能化，提升了新聞和廣播電臺(tái)媒體節(jié)目的制作效率。

1.4 賦能多元需求的后期配音場景

智能語音技術(shù)在許多其他領(lǐng)域也具有廣泛的應(yīng)用潛力。隨著智能語音生成模式的簡便化，作為互聯(lián)網(wǎng)和資本市場內(nèi)容傳播的主流，短視頻的制作門檻大大降低。聲音是視頻內(nèi)容的附屬品，人工智能配音自然就成為短視頻內(nèi)容創(chuàng)作的首選。使用AI配音為視頻內(nèi)容添加人物語音或畫外音，能夠?yàn)橛新曇曨l增添真實(shí)性和吸引力，在一定程度上賦能了UGC視頻內(nèi)容創(chuàng)作。例如，抖音中的“一鍵成片”和“人工智能創(chuàng)作”等功能簡化了創(chuàng)作步驟，提高了用戶創(chuàng)作效率，進(jìn)一步促進(jìn)了短視頻用戶資源的爆發(fā)[3]。

一些影視作品和動(dòng)畫片也廣泛使用人工智能配音進(jìn)行內(nèi)容創(chuàng)作。例如，紀(jì)錄片《創(chuàng)新中國》采用AI模擬人聲對(duì)解說詞進(jìn)行改編，實(shí)現(xiàn)對(duì)重要畫面信息的解釋和補(bǔ)充。日本動(dòng)畫《魔法禁書目錄》的中文配音版本中，部分角色的臺(tái)詞配音全部由AI完成。許多動(dòng)畫在制作過程中也通過AI技術(shù)生成群眾的嘈雜聲和畫外音，以增添動(dòng)畫氛圍感和代入感。在音頻內(nèi)容后期制作中，智能語音技術(shù)還可以自動(dòng)識(shí)別不同內(nèi)容用于剪輯和處理，包括添加背景內(nèi)容、去噪和增強(qiáng)音頻信號(hào)等。應(yīng)用語音改編和定制技術(shù)可以對(duì)預(yù)先錄制或生成的語音進(jìn)行編輯和修飾，如阿里云的語音加速和變聲技術(shù)通過改變語速、音高、音色或拼接不同語音片段生成新語音，減輕音頻后期制作難度且提高輸出質(zhì)量。

在一些游戲領(lǐng)域的后期配音中，與真人配音相比，智能語音技術(shù)可以實(shí)現(xiàn)真人和角色聲音的分離，同時(shí)避免真人配音者由于個(gè)人原因影響整個(gè)項(xiàng)目推進(jìn)。例如，米哈游旗下手游《未定事件簿》中，真人配音者由于個(gè)人原因無法完成后續(xù)語音收錄工作，公司使用逆熵人工智能技術(shù)為游戲角色“莫弈”生成人工智能配音，在一定程度上提高了項(xiàng)目的商業(yè)穩(wěn)定性。

總體而言，智能語音技術(shù)與各個(gè)領(lǐng)域的融合程度日益加深，使數(shù)字音頻內(nèi)容的生產(chǎn)和傳播變得更加頻繁，并不斷向內(nèi)容服務(wù)靠攏，為數(shù)字音頻內(nèi)容生產(chǎn)注入了源源不斷的活力。

2 AIGC技術(shù)在數(shù)字音頻內(nèi)容生產(chǎn)中存在的問題

盡管AIGC技術(shù)給數(shù)字音頻內(nèi)容生產(chǎn)帶來諸多便利，但其應(yīng)用中也存在不可忽視的問題。AI合成語音技術(shù)雖然水平不斷提高，但輸出語音的精度和情感表達(dá)仍有待改進(jìn)；其給用戶聲音權(quán)和數(shù)字音頻作品版權(quán)帶來的威脅也值得關(guān)注；AI人聲克隆技術(shù)可能造成虛假信息的泛濫；用戶隱私也面臨泄漏的風(fēng)險(xiǎn)。如何在發(fā)揮AIGC技術(shù)優(yōu)勢的同時(shí)，加強(qiáng)對(duì)信息安全、用戶隱私和作品版權(quán)的保護(hù)，不僅是相關(guān)企業(yè)面臨的挑戰(zhàn)，也是需要社會(huì)共同關(guān)注和解決的問題。

2.1 AI合成語音的精度不高

音頻AIGC主要基于TTS技術(shù)，但在實(shí)際生產(chǎn)應(yīng)用中，將文本直接轉(zhuǎn)化為語音的過程往往會(huì)存在一些難以控制的問題。

首先，輸出的語音目前仍存在識(shí)別不準(zhǔn)確和拼讀斷句錯(cuò)誤等問題。就智能語音技術(shù)前端的文本處理而言，統(tǒng)一規(guī)范化處理文本格式和兼容文本編碼標(biāo)準(zhǔn)是語音合成技術(shù)前端處理的一大難點(diǎn)。要輸出準(zhǔn)確連貫的語音，輸入的文本應(yīng)進(jìn)行韻律的分詞分段和語義分析。由于切分長度適中的句子并標(biāo)注讀音需要人工完成，因此這項(xiàng)工作難以避免標(biāo)點(diǎn)錯(cuò)誤或錯(cuò)別字等現(xiàn)象。同時(shí)，要準(zhǔn)確朗讀文本中的日期、符號(hào)或縮略詞等，語音合成系統(tǒng)的文本糾錯(cuò)和分析能力面臨一定挑戰(zhàn)。目前，在線閱讀平臺(tái)廣泛采用語音合成技術(shù)進(jìn)行語音朗讀，但AI系統(tǒng)模型生成能力的差異導(dǎo)致合成語音質(zhì)量參差不齊，最常見的問題是多音字錯(cuò)誤、詞句停頓不自然、語氣詞發(fā)音不準(zhǔn)確、吞音漏音等。一些專業(yè)術(shù)語、人名和地名等較為生僻的詞匯在輸出過程中也很容易出現(xiàn)聽讀錯(cuò)誤和不準(zhǔn)確的問題。這些錯(cuò)誤不僅降低了音頻用戶的聽覺體驗(yàn)，導(dǎo)致其誤解原內(nèi)容，影響其對(duì)原文的理解，甚至還會(huì)誤導(dǎo)兒童或老年人，傳遞錯(cuò)誤知識(shí)，極大降低數(shù)字音頻內(nèi)容的輸出質(zhì)量和準(zhǔn)確性[4]。

其次，智能語音技術(shù)對(duì)上下文語境的理解和情感表達(dá)能力還有待提高。現(xiàn)實(shí)生活中面對(duì)不同應(yīng)用環(huán)境和語言，需要匹配不同口音、語速和音調(diào)等，所以多個(gè)語種、復(fù)雜音色和情感風(fēng)格的還原對(duì)語音合成技術(shù)來說仍需改進(jìn)。從合成語音的語調(diào)來看，目前的AI技術(shù)尚無法準(zhǔn)確識(shí)別不同語氣和情感狀態(tài)，無法根據(jù)需要調(diào)整語調(diào)和音量。在合成表達(dá)強(qiáng)烈情感的語音時(shí)，輸出的語音存在失真和僵硬等問題，難以將文字內(nèi)容的情感充分演繹和表達(dá)，無法給用戶提供很好的情感體驗(yàn)。因此，人工智能合成語音的精度和情感表現(xiàn)力仍需要提高，才能使合成的數(shù)字音頻內(nèi)容更加準(zhǔn)確、生動(dòng)和富有表現(xiàn)力。

2.2 用戶聲音權(quán)和作品版權(quán)侵權(quán)問題不易監(jiān)管

TTS技術(shù)具有大眾化和自動(dòng)化的特征，降低了數(shù)字音頻內(nèi)容的制作難度，甚至可以合成已經(jīng)達(dá)到以假亂真程度的任何人的聲音。一旦一些不法分子利用語音合成技術(shù)來合成特定用戶的聲音，將很可能會(huì)侵犯該用戶的聲音權(quán)，對(duì)用戶的人身及財(cái)產(chǎn)權(quán)益造成威脅。在AIGC賦能數(shù)字音頻內(nèi)容生產(chǎn)中，AI語音合成是侵犯用戶聲音權(quán)的主要方式。語音克隆等開源AI工具的易得性使得進(jìn)行語音合成的成本較低，虛假語音信息增多，導(dǎo)致信息監(jiān)管難度加大。雖然AI語音合成算法需要大量語音庫來訓(xùn)練克隆人聲，但互聯(lián)網(wǎng)的普及使得用戶的語音數(shù)據(jù)在互聯(lián)網(wǎng)上隨處可見，獲取聲源變得簡單且難以監(jiān)管，這給聲音權(quán)的保護(hù)帶來了巨大的威脅和挑戰(zhàn)[5]。在將智能語音技術(shù)應(yīng)用于數(shù)字音頻內(nèi)容創(chuàng)作時(shí)，用戶聲音權(quán)和數(shù)字音頻作品版權(quán)侵權(quán)問題亟待各方關(guān)注和解決。

盡管聲音像人的肖像一樣具有明顯的識(shí)別度，但聲音本身并不受著作權(quán)法保護(hù)。將聲音制作成作品，形成聲音作品或音頻作品，才能成為著作權(quán)法的保護(hù)對(duì)象。目前，我國對(duì)聲音權(quán)的法律保護(hù)主要參照適用于肖像權(quán)保護(hù)的相關(guān)規(guī)定，將其作為自然人的權(quán)益進(jìn)行法律保護(hù)。但針對(duì)人工智能相關(guān)技術(shù)的運(yùn)用，我國暫未出臺(tái)相關(guān)法律進(jìn)行約束。利用AI技術(shù)生成的侵權(quán)音頻的權(quán)責(zé)主體尚難以界定。

有聲讀物內(nèi)容生產(chǎn)者可以利用AI技術(shù)，訓(xùn)練識(shí)別性更強(qiáng)的聲庫模型，以豐富閱讀資源。例如，喜馬拉雅音頻平臺(tái)利用AI語音重新演繹評(píng)書大師單田芳的聲音，讓一代評(píng)書大師的聲音再次響起；運(yùn)用智能語音技術(shù)進(jìn)行音色定制，生成了一系列基于中國著名經(jīng)濟(jì)學(xué)家管清友音色的AIGC專輯。盡管這些應(yīng)用降低了數(shù)字音頻內(nèi)容的制作成本，但涉及的內(nèi)容版權(quán)的界限變得愈加模糊，且難以監(jiān)管[6]。此外，一鍵生成式的AI配音使得短視頻配音門檻不斷降低，導(dǎo)致當(dāng)前市場上的AI配音短視頻背后的聲音樣本來源版權(quán)模糊不清?！癆I孫燕姿”等音樂領(lǐng)域的AIGC作為一種由全新創(chuàng)作方式生成的產(chǎn)物，其版權(quán)界定引發(fā)了不少爭議，法律上也尚未對(duì)AI音樂的性質(zhì)做出規(guī)定。因此，創(chuàng)作者在事先未獲得他人作品的使用授權(quán)和某一歌手聲音授權(quán)的情況下，使用AI進(jìn)行音樂創(chuàng)作和傳播也一定會(huì)產(chǎn)生侵權(quán)行為。

2.3 AI克隆人聲造成虛假信息泛濫

智能語音技術(shù)的應(yīng)用與發(fā)展使內(nèi)容創(chuàng)作變得更加智能化，但同時(shí)也使普通人有機(jī)會(huì)成為虛假音頻的制造者，從而埋下了很多隱患。合成語音擬人度的不斷優(yōu)化，使虛假信息的表現(xiàn)形式從斷章取義的文字和PS的圖片發(fā)展到技術(shù)合成的虛假音頻，增大了分辨真實(shí)信息的難度，易造成虛假信息和電信詐騙等非法活動(dòng)的泛濫。

如果偽造者運(yùn)用人工智能語音合成技術(shù)模仿那些在社會(huì)上具有一定話語權(quán)和粉絲效應(yīng)的人的聲音，在公共社交媒體平臺(tái)發(fā)布不正當(dāng)言論、輸出錯(cuò)誤的價(jià)值觀或惡意帶動(dòng)輿論導(dǎo)向，不僅會(huì)損害他人的名譽(yù)、丑化歪曲他人的形象、侵犯他人的名譽(yù)權(quán)，甚至?xí)せ鐣?huì)矛盾、擾亂社會(huì)秩序。

此外，犯罪分子可通過非法搜集他人聲源，偽造他人聲音對(duì)其家人進(jìn)行電信詐騙，或者制作虛假配音視頻進(jìn)行敲詐勒索，損害他人名譽(yù)權(quán)、財(cái)產(chǎn)權(quán)甚至生命權(quán)，不僅逾越了道德的準(zhǔn)繩，更觸碰了法律的底線。因此，如果對(duì)AI克隆人聲不加限制，互聯(lián)網(wǎng)上的虛假信息將層出不窮，法律底線和公眾的道德底線不斷被試探，媒體機(jī)構(gòu)的公信力也將在很大程度上被削減。

2.4 用戶隱私數(shù)據(jù)存在泄露風(fēng)險(xiǎn)

由于智能語音技術(shù)需要收集用戶的聲音數(shù)據(jù)進(jìn)行語音識(shí)別和語音指令的處理，因此在使用過程中存在一定的聲音數(shù)據(jù)泄露風(fēng)險(xiǎn)。為提升用戶體驗(yàn)，相關(guān)技術(shù)服務(wù)企業(yè)可能通過不正規(guī)的渠道收集用戶的語音數(shù)據(jù)資源，比如通過手機(jī)語音助手、智能手環(huán)、智能家居和手機(jī)App等設(shè)備竊聽用戶日常生活中的對(duì)話來構(gòu)建和豐富大語料庫，這些語音收集行為多數(shù)情況下都沒有獲得用戶的許可。

由于聲音具有身份識(shí)別的作用，其中還隱藏了個(gè)人行為、喜好和身體狀況等隱私信息，因此在用戶使用這些智能音頻產(chǎn)品的過程中很容易造成個(gè)人隱私的泄漏[7]。盡管我國的網(wǎng)絡(luò)安全保護(hù)法對(duì)個(gè)人信息保護(hù)提出了明確的要求，隱私數(shù)據(jù)的收集方應(yīng)當(dāng)秉持“誰收集、誰負(fù)責(zé)”的原則對(duì)用戶隱私信息的安全承擔(dān)起保障義務(wù)，但在實(shí)際操作中，無論是研發(fā)人工智能語音應(yīng)用的公司還是傳播數(shù)字音頻作品的社交媒體平臺(tái)都很難對(duì)收集到的聲音等個(gè)人生物識(shí)別信息進(jìn)行有效的保護(hù)。

在有聲閱讀領(lǐng)域，在用戶想要用聲音復(fù)刻技術(shù)去定制個(gè)人聲線進(jìn)行作品朗讀時(shí)，后臺(tái)會(huì)對(duì)用戶的聲音進(jìn)行捕捉分析和模仿，從而形成個(gè)人的語音數(shù)據(jù)庫。但在平臺(tái)傳輸過程中一旦出現(xiàn)系統(tǒng)漏洞或者遭遇黑客攻擊，用戶的聲音等個(gè)人生物識(shí)別信息將很容易被泄漏，存在一定的安全隱患。同時(shí)，一些科技公司會(huì)通過融資、并購等手段共享用戶信息來達(dá)成擴(kuò)充自己數(shù)據(jù)庫的目的，個(gè)人信息的流轉(zhuǎn)過程也加大了用戶個(gè)人隱私數(shù)據(jù)泄漏風(fēng)險(xiǎn)，給用戶的生命財(cái)產(chǎn)安全帶來隱患。

3 AIGC技術(shù)介入數(shù)字音頻內(nèi)容生產(chǎn)的問題應(yīng)對(duì)建議

隨著人工智能技術(shù)不斷成熟，AIGC技術(shù)將深度介入數(shù)字音頻內(nèi)容生產(chǎn)，這是產(chǎn)業(yè)發(fā)展大勢所趨。然而，在問題和風(fēng)險(xiǎn)尚未完全解決的當(dāng)下，數(shù)字音頻內(nèi)容生產(chǎn)要實(shí)現(xiàn)高效和可持續(xù)的發(fā)展，還迫切需要相關(guān)技術(shù)的迭代與創(chuàng)新，更需要相關(guān)制度的進(jìn)一步完善與監(jiān)管，以及行業(yè)內(nèi)的規(guī)范與自律。針對(duì)相關(guān)問題與風(fēng)險(xiǎn)，需要各方攜手應(yīng)對(duì)，不斷推進(jìn)法規(guī)立法、技術(shù)變革和市場培育，保護(hù)數(shù)字音頻內(nèi)容生產(chǎn)的秩序與權(quán)益，以推動(dòng)AIGC與內(nèi)容產(chǎn)業(yè)的高效融合發(fā)展。

3.1 添加音頻數(shù)字水印，保護(hù)音頻作品版權(quán)

數(shù)字音頻作品主要通過聲音進(jìn)行內(nèi)容輸出，產(chǎn)出的作品既不是實(shí)體又無法用肉眼看見，因此和其他文字、圖畫或視頻作品的版權(quán)保護(hù)方式有所不同，而聲音權(quán)的保護(hù)對(duì)數(shù)字音頻作品來說顯得尤為重要。

面對(duì)音頻盜版侵權(quán)現(xiàn)象，首先要從技術(shù)層面加強(qiáng)對(duì)聲音權(quán)和數(shù)字音頻作品版權(quán)的保護(hù)。針對(duì)AI合成的虛擬語音無法與真實(shí)的聲音區(qū)別開的問題，可以用添加數(shù)字水印的方法來解決，即在合成的語音中添加數(shù)字印痕來區(qū)分真聲與模擬，同時(shí)將音頻作品附加的版權(quán)信息通過水印的方式嵌入。由于音頻數(shù)字水印技術(shù)不會(huì)影響原始音頻的音質(zhì)，且無論音頻作品被轉(zhuǎn)化為何種格式，其水印信息都不會(huì)消失。因此該技術(shù)不僅能夠保護(hù)數(shù)字音頻作品的版權(quán)，還能夠明確版權(quán)所有方到底是誰，在一定程度上能約束數(shù)字音頻非法復(fù)制行為[8]。

此外，隨著Web3.0時(shí)代的到來，在音頻作品的版權(quán)保護(hù)方面，可以利用區(qū)塊鏈技術(shù)進(jìn)行音頻作品的版權(quán)認(rèn)證，以確保數(shù)字音頻作品的唯一性和原創(chuàng)性。區(qū)塊鏈技術(shù)能夠提供一個(gè)分布式的、不可篡改的記賬系統(tǒng)，通過將音頻作品的版權(quán)信息與區(qū)塊鏈上的唯一標(biāo)識(shí)進(jìn)行綁定，可以確保該作品的版權(quán)歸屬不會(huì)被篡改或抵賴。區(qū)塊鏈技術(shù)還可以用于監(jiān)督和追責(zé)合成語音的算法。通過在區(qū)塊鏈上記錄算法的訓(xùn)練數(shù)據(jù)、模型參數(shù)和生成的語音樣本等信息，可以確保算法的透明性和可追溯性。這有助于監(jiān)督算法的使用，防止濫用或侵權(quán)行為的發(fā)生。

3.2 提升語音數(shù)據(jù)庫質(zhì)量，避免隱私泄漏風(fēng)險(xiǎn)

在注重?cái)?shù)字音頻作品版權(quán)問題的同時(shí)，也要持續(xù)精進(jìn)AI語音技術(shù)在數(shù)字音頻領(lǐng)域的深入應(yīng)用。面對(duì)現(xiàn)階段合成語音精度方面存在的問題，智能語音開發(fā)公司應(yīng)當(dāng)優(yōu)化語音合成的模型，采用深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)來進(jìn)行語言合成模型的訓(xùn)練和預(yù)測；在音頻制作過程中改進(jìn)聲音特征提取算法，提高語言合成模型對(duì)音頻信息的理解和分析能力，以提升音頻作品的準(zhǔn)確性和自然度；及時(shí)進(jìn)行數(shù)據(jù)集的擴(kuò)充和優(yōu)化，將更多高質(zhì)量的語言數(shù)據(jù)集添加到語音合成模型中。就有聲閱讀領(lǐng)域來說，語音技術(shù)提供方應(yīng)當(dāng)盡可能完善語音數(shù)據(jù)資源包，設(shè)置實(shí)時(shí)更新的詞庫和多音字的發(fā)音規(guī)則等，調(diào)整正確的發(fā)音及詞語斷讀的位置，以提升智能語音的情感表現(xiàn)力。

針對(duì)音頻用戶隱私數(shù)據(jù)泄露的風(fēng)險(xiǎn)，平臺(tái)方和軟件制作方也應(yīng)當(dāng)采用相關(guān)隱私保護(hù)技術(shù)對(duì)用戶隱私進(jìn)行保護(hù)。例如，運(yùn)用模擬音頻、模糊化等技術(shù)在音頻生成之前將音頻中的個(gè)人隱私進(jìn)行模擬和模糊處理；或采用數(shù)據(jù)隔離手段，將智能語音設(shè)備記錄的相關(guān)語音信息進(jìn)行單項(xiàng)隔離，阻止數(shù)據(jù)傳輸至云端或其他設(shè)備上。同時(shí)使用數(shù)據(jù)安全監(jiān)控技術(shù)，在數(shù)字音頻作品生成和傳輸?shù)倪^程中對(duì)音頻數(shù)據(jù)進(jìn)行實(shí)時(shí)監(jiān)控和溯源，及時(shí)發(fā)現(xiàn)和處理隱私泄漏的問題，以保障用戶的隱私信息不被盜用。

由智能語音技術(shù)應(yīng)用所產(chǎn)生的技術(shù)問題，理應(yīng)用技術(shù)手段進(jìn)行規(guī)避和處理，來提升智能語音技術(shù)在數(shù)字音頻制作環(huán)節(jié)的應(yīng)用能力，保障上游制作、中游傳播和下游用戶的合法權(quán)益。如此，才能使數(shù)字音頻產(chǎn)業(yè)在AIGC賦能下獲得長足發(fā)展。

3.3 制定音頻法律規(guī)范，強(qiáng)化著作權(quán)授權(quán)許可

數(shù)字音頻內(nèi)容產(chǎn)業(yè)的健康高效發(fā)展，離不開智能語音技術(shù)的不斷進(jìn)步，同時(shí)也需要政府的宏觀引導(dǎo)和相關(guān)法律法規(guī)的制定。由于音頻作品與其他內(nèi)容形式的作品有所不同，且涉及人工智能的特殊性和復(fù)雜性，因此現(xiàn)有的法律法規(guī)還無法完全涵蓋所有權(quán)責(zé)范圍。對(duì)此，政府相關(guān)部門應(yīng)當(dāng)出臺(tái)相關(guān)法律法規(guī)，明確數(shù)字音頻作品的版權(quán)歸屬問題，規(guī)定音頻作品的侵權(quán)責(zé)任范圍，以保護(hù)權(quán)益主體的合法權(quán)利。

語音數(shù)據(jù)收集應(yīng)受到權(quán)威性法規(guī)的約束?？梢蟛杉黧w獲得授權(quán)，并確保后續(xù)的聲音使用符合授權(quán)范圍，以保證聲音的合規(guī)使用。大型公司應(yīng)在兼顧隱私、法律和商業(yè)價(jià)值的基礎(chǔ)上，公開透明地進(jìn)行數(shù)據(jù)收集，并制定相關(guān)監(jiān)督機(jī)制。法律應(yīng)采用技術(shù)手段對(duì)數(shù)字音頻信息的傳播和使用進(jìn)行監(jiān)督和審查，建立完善的責(zé)任制度和侵權(quán)懲處制度。數(shù)字音頻作品的創(chuàng)作與傳播，應(yīng)根據(jù)內(nèi)容、創(chuàng)作者和聲音進(jìn)行授權(quán)分割，合理界定傳播平臺(tái)的著作權(quán)保護(hù)義務(wù)，避免中間環(huán)節(jié)出現(xiàn)侵權(quán)現(xiàn)象。對(duì)于已經(jīng)完成的數(shù)字音頻作品，應(yīng)加強(qiáng)音頻著作權(quán)的授權(quán)許可制度，分別強(qiáng)化著作權(quán)人、錄音制作和傳播平臺(tái)等各個(gè)環(huán)節(jié)對(duì)著作權(quán)的授權(quán)管理。通過法律的形式對(duì)數(shù)字音頻作品的制作和傳播進(jìn)行引導(dǎo)和規(guī)范，以保護(hù)數(shù)字音頻著作權(quán)人的合法權(quán)益。

3.4 制定音頻行業(yè)準(zhǔn)則，規(guī)范市場傳播行為

應(yīng)對(duì)智能語音技術(shù)在數(shù)字音頻內(nèi)容生產(chǎn)過程中存在的問題和風(fēng)險(xiǎn)，除制定相關(guān)法律法規(guī)進(jìn)行約束外，也應(yīng)當(dāng)制定相應(yīng)的行業(yè)準(zhǔn)則來規(guī)范市場行為。例如，建立完善的音頻質(zhì)量標(biāo)準(zhǔn)來規(guī)范數(shù)字音頻作品運(yùn)用智能語音技術(shù)進(jìn)行生產(chǎn)的制作過程，加強(qiáng)對(duì)數(shù)字音頻作品的監(jiān)管力度，規(guī)范使用渠道，保障數(shù)字音頻內(nèi)容的合法性和可信性。數(shù)字音頻內(nèi)容分發(fā)傳播的平臺(tái)方應(yīng)當(dāng)對(duì)用戶傳播的音頻內(nèi)容承擔(dān)起審核的義務(wù)，對(duì)一些由未授權(quán)的聲音或用其他語音克隆技術(shù)和語音合成技術(shù)制作生成卻沒有標(biāo)注AI標(biāo)識(shí)的音頻作品，從源頭上阻斷其傳播。

相關(guān)企業(yè)在提供智能語音服務(wù)之前應(yīng)當(dāng)向用戶出示使用協(xié)議，明確語音適用的范圍與權(quán)責(zé)歸屬等，同時(shí)將運(yùn)用了AI語音技術(shù)的數(shù)字音頻作品標(biāo)注AI標(biāo)識(shí)；選擇與自身技術(shù)優(yōu)勢相契合的內(nèi)容側(cè)重點(diǎn)進(jìn)行生產(chǎn)，構(gòu)建和打造具有特色的音頻內(nèi)容資源庫和專業(yè)的音頻內(nèi)容生產(chǎn)能力，從而形成自己的音頻內(nèi)容資本，提升市場競爭力。從優(yōu)化用戶體驗(yàn)的角度，可建立專門的用戶反饋和偏好收集渠道，收集用戶對(duì)數(shù)字音頻作品表現(xiàn)力的建議與期望，并根據(jù)用戶反饋進(jìn)行技術(shù)和算法的升級(jí)，同時(shí)實(shí)現(xiàn)個(gè)性化的數(shù)字音頻內(nèi)容生產(chǎn)，用技術(shù)創(chuàng)新和個(gè)性化的內(nèi)容來推動(dòng)音頻內(nèi)容產(chǎn)業(yè)發(fā)展，促進(jìn)數(shù)字音頻市場的良性循環(huán)。

作者簡介

李雅箏，男，安徽大學(xué)新聞傳播學(xué)院講師、碩士生導(dǎo)師，安徽新華發(fā)行（集團(tuán)）控股有限公司博士后科研工作站在站博士后。研究方向：數(shù)字出版、智能傳播。

劉宇星，女，安徽大學(xué)新聞傳播學(xué)院碩士研究生。研究方向：數(shù)字出版。

參考文獻(xiàn)

高丁雪.智能語音合成技術(shù)應(yīng)用于在線閱讀APP的現(xiàn)狀和進(jìn)路研究[D].青島：青島科技大學(xué)，2022.

沈智婉.人工智能時(shí)代播音主持人的機(jī)遇與挑戰(zhàn)[J].傳媒，2022（20）：45-47.

王珍，胡銳.聲音景觀建構(gòu)視角下短視頻AI配音濫用行為研究[J].電聲技術(shù)，2022，46（10）：31-33，46.

任子寒，姚瑤，余人.語音交互技術(shù)在有聲讀物中的應(yīng)用風(fēng)險(xiǎn)與防范策略[J].編輯學(xué)刊，2021（4）：18-23.

馬瑞萍.AI語音合成技術(shù)的應(yīng)用和風(fēng)險(xiǎn)與聲音權(quán)的保護(hù)研究[D].廣州：暨南大學(xué)，2021.

郝明英.人工智能語音合成有聲書著作權(quán)保護(hù)研究[J].中國出版，2023（1）：55-59.

王懿.芻議智能語音技術(shù)的應(yīng)用與風(fēng)險(xiǎn)防范[J].法制與社會(huì)，2020（14）：222-223.

李海芳.面向數(shù)字化資源產(chǎn)權(quán)保護(hù)的數(shù)字音頻水印技術(shù)研究[D].沈陽：遼寧師范大學(xué)，2019.

AIGC Technology Empowers Digital Audio Content Production ： Application Scenarios， Existing Problems and Countermeasures

LI Yazheng1，2， LIU Yuxing1

1.School of Journalism and Communication， Anhui University， 230601， Hefei， China; 2. Postdoctoral Programme， Anhui Xinhua Distribution （Group） Holding Co.， Ltd.， 230061， Hefei， China

Abstract： With the rapid development of artificial intelligence technology application， artificial intelligence generated content （AIGC） technology is accelerating the transformation of digital audio content production mode. While empowering industrial practice to improve quality and efficiency， intelligent speech technology also triggers problems and risks. Based on case analysis， it was found that AIGC technology had potential to empower several application scenarios such as audio content production including audio books， digital music creation， intelligent news broadcasts， and multi-demand dubbing. Based on analysis of the existing problems in actual application， such as the accuracy of AI synthetic speech， infringement of voice right of users and copyright of works， 1 information and leakage of user privacy data， it was proposed that： the quality management of voice database should be improved and privacy protection measures should be paid attention to ensure the security and privacy of user data; audio digital watermarks should be added to protect copyright of audio works; audio legal norms and industry guidelines should be formulated as soon as possible to strengthen copyright authorization licensing and regulate market communication behavior.

Keywords： AIGC; AI speech technology; Digital audio content; Audio books; Application scenarios; Content production

數(shù)字出版研究2023年3期

數(shù)字出版研究的其它文章: Web3.0與未來出版; 主持人語; 基于沉浸式閱讀體驗(yàn)的數(shù)字交互漫畫：理論與實(shí)踐進(jìn)展; 我國數(shù)字閱讀行業(yè)的發(fā)展現(xiàn)狀、特征與趨勢; 以數(shù)字技術(shù)透視內(nèi)容產(chǎn)業(yè); 基于用戶評(píng)論的數(shù)字漫畫閱讀痕跡特征識(shí)別與分析

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

AIGC技術(shù)賦能數(shù)字音頻內(nèi)容生產(chǎn)：應(yīng)用場景、存在問題與應(yīng)對(duì)策略

AIGC技術(shù)賦能數(shù)字音頻內(nèi)容生產(chǎn)：應(yīng)用場景、存在問題與應(yīng)對(duì)策略