李 潔 張書勤
從便攜式盒式磁帶播放器、MP3 播放器、iPod、智能手機、智能音箱,到智能車載等載體介質(zhì)的發(fā)展,“公共場所的私人收聽”成為當(dāng)代文化景觀中熟悉的元素。狹義上數(shù)字音頻包括在線音頻和在線音樂。廣義的音頻包括播客、有聲書、音頻知識付費、數(shù)字音樂、音頻直播、現(xiàn)場音頻及音頻硬件等。截至2021 年12 月,中國在線音頻行業(yè)用戶規(guī)模達6 億人,網(wǎng)絡(luò)音樂用戶規(guī)模達7.29 億,在線音頻行業(yè)活躍人數(shù)規(guī)模達3.39 億,中國在線音樂行業(yè)市場規(guī)模達到395 億元。[1]2021 年我國移動端用戶使用在線音頻的日均時長為131.2 分鐘,高于長、短視頻和在線音樂。[2]我國音頻產(chǎn)業(yè)市場規(guī)模穩(wěn)定增長,發(fā)展?jié)摿薮蟆?shù)字音頻喚醒了聽眾的陪伴需求,調(diào)度聽覺互動對社會整體情感的建構(gòu)不可缺少。[3]音頻解放了眼睛和雙手,開啟了用戶多線程任務(wù)模式。它不僅豐富了消費者的精神生活,還幫助視障人士和老年人跨越生理缺陷和數(shù)字鴻溝來獲取知識和信息。因此,聲音經(jīng)濟值得關(guān)注。
近來,作為人工智能領(lǐng)域的熱點應(yīng)用,ChatGPT引起了社會各界的廣泛關(guān)注。如今,人工智能深度應(yīng)用于音頻行業(yè),顯著推動了音頻內(nèi)容檢索、內(nèi)容識別和內(nèi)容生成。如AIGC 音頻創(chuàng)作、AI 主播+AI 續(xù)寫、ASR 自動語音識別、SP 音頻處理、內(nèi)容推薦、內(nèi)容鑒權(quán)等。人工智能賦能音頻產(chǎn)業(yè)的核心優(yōu)勢包括準確性、高效率、定制化和可訪問性。技術(shù)加持下,耳朵經(jīng)濟的聲音價值愈發(fā)凸顯。(見表1)
表1 人工智能賦能音頻的核心特征
人工智能與其他智能技術(shù)協(xié)同還會產(chǎn)生新效應(yīng)。5G 和AI 技術(shù)下音頻傳播新場景與產(chǎn)業(yè)鏈形成了有效對接。[4]伴隨AI 技術(shù)與5G 時代的疊加出現(xiàn),通過對用戶數(shù)據(jù)的挖掘進行內(nèi)容生產(chǎn)與精準分發(fā)已成為當(dāng)下文化產(chǎn)業(yè)發(fā)展的常態(tài)。[5]基于自動化語言識別、可接近性、云計算技術(shù)及自然語言處理等技術(shù)崛起的智能音箱和語音助手,運用算法模型和機器技術(shù)迭代提升了語義識別準確度,還可以根據(jù)用戶后臺數(shù)據(jù)繪制畫像進而精準分發(fā)音頻信息。[6]AI 在文字識別、語音播報的融合應(yīng)用,使有聲書產(chǎn)品的內(nèi)容場景設(shè)計有了先進的突破升級。[7]艾媒咨詢數(shù)據(jù)顯示,2022 年我國車載音樂市場規(guī)模達169.8 億元。AIoT 時代開啟了音頻的智能家居和車載新場景。[8]通過人工智能、大數(shù)據(jù)、云計算等技術(shù),相關(guān)組織對數(shù)字版權(quán)交易鏈條上的數(shù)字版權(quán)信息做全網(wǎng)掃描,可以分析數(shù)字文化產(chǎn)品的流轉(zhuǎn)與侵權(quán)狀況。通過文獻回顧,現(xiàn)有研究在人工智能技術(shù)賦能音頻產(chǎn)業(yè),即具體各細分行業(yè)的功能路徑建設(shè)方面的研究略顯空白,因此本研究致力于探索AI 賦能音頻各行業(yè)的功能路徑。(見圖1)
圖1 網(wǎng)絡(luò)音頻產(chǎn)業(yè)標志性事件
人工智能在播客行業(yè)中扮演著越來越重要的角色,從制作到分發(fā),幫助自動化和改進播客過程的各個方面。AI 技術(shù)幫助播客提高了內(nèi)容質(zhì)量,接觸新受眾,更有效地盈利。(見圖2)
圖2 人工智能賦能播客領(lǐng)域的功能路徑
自動轉(zhuǎn)錄:AI 驅(qū)動的轉(zhuǎn)錄工具可以幫助播客快速準確地轉(zhuǎn)錄音頻內(nèi)容。與手動轉(zhuǎn)錄相比,這節(jié)省了大量時間,還可以通過將其作為文本提供來提高內(nèi)容的可訪問性。
音頻增強:人工智能驅(qū)動的降噪算法可以通過去除背景噪音、調(diào)整音量級別和提高整體音質(zhì)增強播客的音頻質(zhì)量,讓聽眾更享受播客,并改善整體的收聽體驗。人工智能還可用于恢復(fù)舊的或損壞的錄音,消除嘶嘶聲、砰砰聲和其他失真,并提高其整體音質(zhì)。
內(nèi)容分析:人工智能可用于分析播客的內(nèi)容,并對所討論的主題、表達的情感和播客的整體基調(diào)提供見解。這有助于播客了解他們的受眾并改進他們制作的內(nèi)容。
個性化:人工智能可用于個性化聽眾的收聽體驗,根據(jù)每個聽眾的興趣、收聽歷史和其他因素推薦相關(guān)播客,這可以幫助播客獲得更廣泛的受眾,并提高內(nèi)容的參與度。
廣告:AI 驅(qū)動的工具可以幫助廣告商根據(jù)人口統(tǒng)計、興趣和收聽行為,更有效地將廣告投放到播客,這可以提高播客廣告活動的投資回報率ROI,并幫助播客更有效地將其內(nèi)容變現(xiàn)。
人工智能正在改變有聲讀物領(lǐng)域,使制作流程更加高效,改善增強用戶的聽力體驗,并為個性化和定制提供新的機會。(見圖3)
圖3 人工智能賦能有聲讀物領(lǐng)域的功能路徑
語音識別:AI 驅(qū)動的語音識別技術(shù)用于為有聲讀物應(yīng)用程序啟用語音激活命令。用戶只需說出自己的命令,例如“播放”“暫?!薄疤^章節(jié)”,應(yīng)用程序就會做出相應(yīng)的響應(yīng)。
文本到語音:AI 驅(qū)動的文本到語音(TTS)技術(shù)可用于將書面內(nèi)容自動生成有聲讀物,減少人類敘述的時間和成本。TTS 引擎可以被訓(xùn)練以產(chǎn)生與人類敘述者無法區(qū)分的自然聲音,甚至可以定制匹配特定書籍的風(fēng)格和音調(diào)。
質(zhì)量控制:AI 可以通過自動識別和糾正錯誤(如發(fā)音錯誤或背景噪聲)來提高有聲讀物錄音的質(zhì)量。這可以在制作過程中節(jié)省時間、精力、金錢等資源,并確保用戶獲得更好的聆聽體驗。
個性化:AI 算法可根據(jù)用戶的偏好和行為為用戶提供個性化收聽體驗。例如,一個AI 驅(qū)動的有聲讀物應(yīng)用程序可以根據(jù)用戶的收聽歷史提出新的標題,或者根據(jù)用戶的閱讀水平調(diào)整播放速度。
人工智能可能徹底改變數(shù)字音樂領(lǐng)域,實現(xiàn)新形式的音樂創(chuàng)作和發(fā)現(xiàn),并使分析和理解音樂變得更容易。(見圖4)
圖4 人工智能賦能數(shù)字音樂領(lǐng)域的功能路徑
音樂分析:人工智能可以用來分析音樂,并提取有關(guān)其結(jié)構(gòu)和特征的有用信息。例如,AI 算法可以分析歌曲的音調(diào)、節(jié)奏和和弦進行,這對音樂制作人和藝術(shù)家很有用。音樂識別技術(shù)PDM(Predictive Model Transformer)算法模型可以預(yù)測新歌是否動聽且容易流行。
音樂創(chuàng)作:人工智能正在被用來創(chuàng)作新的音樂作品。通過在現(xiàn)有音樂的大型數(shù)據(jù)集上訓(xùn)練人工智能算法,人工智能驅(qū)動的軟件可以分析大型音樂數(shù)據(jù)庫,以學(xué)習(xí)不同流派的模式、風(fēng)格和特征,分析和分類不同的聲音。AI 利用這些知識創(chuàng)作原創(chuàng)音樂或生成模仿特定藝術(shù)家或流派風(fēng)格的新曲目。這種能力節(jié)省了音樂制作人的時間和精力,并可以在音樂制作中開辟新的創(chuàng)意可能性。如索尼公司開發(fā)的AI 寫歌系統(tǒng)可以創(chuàng)作具有樂隊風(fēng)格的音樂作品。
音樂轉(zhuǎn)錄:人工智能也可用于轉(zhuǎn)錄音樂,或?qū)⒁魳蜂浺艮D(zhuǎn)換成書面符號,這對于想要學(xué)習(xí)特定歌曲的音樂家或想要學(xué)習(xí)特定音樂的音樂學(xué)家來說都是有用的。
音樂推薦:Spotify 和Pandora 等流媒體服務(wù)正在使用AI 算法,根據(jù)聽眾的收聽習(xí)慣和偏好向他們推薦音樂。這些算法考慮了用戶的收聽歷史、喜歡的歌曲的特點以及其他用戶的收聽習(xí)慣等因素。
人工智能在現(xiàn)場音頻領(lǐng)域的應(yīng)用顯著提高了現(xiàn)場音頻體驗的質(zhì)量和可訪問性,并為表演者和觀眾創(chuàng)造新的互動方式,改善了聽力障礙者的可及性。(見圖5)
圖5 人工智能賦能現(xiàn)場音樂領(lǐng)域的功能路徑
音頻優(yōu)化:人工智能在現(xiàn)場音頻中的主要用途之一是音頻處理、聲音處理和優(yōu)化。AI 算法可以實時分析音頻信號,識別聲音,實時自動調(diào)整音量分離音頻源,分析空間的聲學(xué)特性并相應(yīng)地調(diào)整音響系統(tǒng),從而優(yōu)化有多個音頻源和復(fù)雜的音頻環(huán)境的現(xiàn)場演出或特定空間音質(zhì),提高聲音的清晰度、平衡性和整體質(zhì)量,使聽眾更加享受。
音頻增強表演:人工智能可以通過實現(xiàn)實時聲音操縱和效果來增強現(xiàn)場音樂表演。如,人工智能可以用來改變音樂家樂器或聲音的聲音,添加濾鏡、混響和其他效果來增強演奏,這可以為觀眾創(chuàng)造更具活力和吸引力的體驗。
聲音合成:基于AI 的系統(tǒng)可以用于創(chuàng)建新的聲音和修改現(xiàn)有的聲音。人工智能算法可以分析和復(fù)制特定樂器的聲音,從而創(chuàng)建用于現(xiàn)場表演的真實虛擬樂器,創(chuàng)造更具沉浸感和互動性的現(xiàn)場音頻體驗。AI算法還可以用于創(chuàng)建空間音頻,這允許聲音在3D 空間中定位和移動,為聽眾創(chuàng)造更真實、更吸引人的體驗。
音頻自動化:人工智能也可以用于音頻自動化,控制現(xiàn)場音頻制作的各個方面,例如混音、掌握和音效。這幫助聲音工程師自動化重復(fù)任務(wù),并專注于聲音現(xiàn)場制作過程中更具創(chuàng)造性的方面。
實時分析和反饋:人工智能可以用于實時音頻分析和反饋,提高現(xiàn)場音樂家的表現(xiàn)。例如,人工智能算法可以用于分析人群噪聲,并向表演者提供實時反饋,幫助他們根據(jù)觀眾的反應(yīng)調(diào)整表演。AI 算法可用于實時分析歌手的聲音和鼓手的節(jié)奏,檢測音調(diào),并提供反饋以幫助表演保持狀態(tài)。人工智能還可以用于分析和分類大量的現(xiàn)場音頻數(shù)據(jù),例如現(xiàn)場事件的記錄,幫助識別觀眾行為的模式和趨勢,并為不同聲音處理技術(shù)的有效性提供見解。
語音識別:即使在嘈雜的環(huán)境中,人工智能算法也可以被訓(xùn)練成準確的轉(zhuǎn)錄實時語音。例如,AI 驅(qū)動的系統(tǒng)可以提供實時隱藏字幕或口語轉(zhuǎn)錄,讓聽力困難的人更容易理解,在現(xiàn)場音頻中獲得內(nèi)容。
人工智能通過為音頻處理、合成、自動化和分析提供新的工具和技術(shù),可能徹底改變聲音直播領(lǐng)域。AI 改變了我們消費和創(chuàng)作音頻內(nèi)容的方式,改善了用戶體驗、提高參與度和簡化內(nèi)容創(chuàng)作。(見圖6)
圖6 人工智能賦能音頻直播領(lǐng)域的功能路徑
語音識別:在人工智能的幫助下,在線音頻廣播結(jié)合語音識別技術(shù)來理解用戶輸入并做出相應(yīng)響應(yīng),可以增強用戶體驗并創(chuàng)建一個更具互動性的平臺。
觀眾參與:人工智能聊天機器人可用于在直播過程中與觀眾互動,回答問題并實時提供信息,提高用戶參與度,創(chuàng)造更具互動性的體驗。
內(nèi)容生成:AI 算法可以基于特定標準(如音調(diào)、聲音和風(fēng)格)生成和編輯高質(zhì)量音頻內(nèi)容,包括音頻直播流中的亮點和剪輯。這有助于簡化內(nèi)容創(chuàng)作流程,并使創(chuàng)作者更容易制作高質(zhì)量的內(nèi)容,便于隨后創(chuàng)建播客、有聲讀物等。
推薦引擎:AI 驅(qū)動的推薦引擎算法可以分析用戶數(shù)據(jù),根據(jù)用戶的收聽歷史和偏好向用戶推薦個性化或相關(guān)音頻內(nèi)容,并創(chuàng)建量身定制的收聽體驗。這可以提高用戶長期參與度,幫助內(nèi)容創(chuàng)作者和音頻直播平臺接觸更廣泛的受眾;幫助用戶發(fā)現(xiàn)新內(nèi)容,并讓他們與平臺保持聯(lián)系。
自動轉(zhuǎn)錄:人工智能可用于將音頻內(nèi)容自動轉(zhuǎn)錄為文本,使其更容易被更廣泛的受眾訪問。這也有助于內(nèi)容適度,并有助于識別潛在的有害或冒犯性內(nèi)容。
內(nèi)容適度:AI 算法可用于實時自動檢測和刪除不適當(dāng)或冒犯性的內(nèi)容。自動語音識別(ASR)技術(shù)也可以應(yīng)用在智能審核、AI 文稿上。這對于音頻直播平臺監(jiān)測實時創(chuàng)建和廣播內(nèi)容尤為重要。如云聽APP在2022 年卡塔爾世界杯期間應(yīng)用人工智能技術(shù)監(jiān)測,自11 月21 日開賽,截至12 月8 日18 點,共發(fā)現(xiàn)近440 起涉嫌直播侵權(quán)、70 余起涉嫌點播回聽侵權(quán)。
人工智能在音頻硬件中有許多應(yīng)用,從改善音頻設(shè)備的音質(zhì)到提高其整體性能。(見圖7)
圖7 人工智能賦能音頻硬件領(lǐng)域的功能路徑
語音識別:AI 算法用于識別和理解人類語音,應(yīng)用于智能音箱、虛擬助理和其他語音控制設(shè)備(智能車載、智能家居等)。語音識別可以高精度地識別和轉(zhuǎn)錄口語。從Siri 和Alexa 這樣的虛擬助手到企業(yè)的自動轉(zhuǎn)錄服務(wù),人工智能正在改變我們與設(shè)備交互的方式,使使用語音命令和其他應(yīng)用程序控制工具成為可能。主打語音交互的智能音箱、智能家居作為家庭和各種互聯(lián)網(wǎng)服務(wù)的入口,打通了音頻全場景應(yīng)用的重要一環(huán)。
設(shè)備音質(zhì)性能提升:人工智能提升設(shè)備音質(zhì)性能,包括噪聲消除、均衡、音頻放大、聲場控制和自動音頻校準。AI 算法被用于消除耳機、揚聲器和其他音頻設(shè)備中的背景噪聲,可以分析音頻信號并調(diào)整音頻硬件的頻率響應(yīng),以產(chǎn)生更好的音質(zhì)。AI 算法通過填充缺失的音頻數(shù)據(jù)和增強音頻信號來改善低質(zhì)量音頻文件的音質(zhì)。AI 算法用于控制聲波在空間中的分布,將音頻設(shè)備校準到他們所在的特定房間,并根據(jù)房間聲學(xué)和揚聲器位置等因素進行調(diào)整,改善整體聆聽體驗。
揚聲器設(shè)計:AI 算法用于設(shè)計能夠產(chǎn)生特定音質(zhì)的揚聲器,同時考慮揚聲器尺寸和形狀、材料和位置等因素。
然而,技術(shù)是把雙刃劍,人工智能技術(shù)也不例外。
首先是著作權(quán)、版權(quán)問題,內(nèi)容創(chuàng)作機器人或機器程序的專利權(quán)問題,即AI 內(nèi)容生產(chǎn)的著作權(quán)問題亟須被提上議程[9]。人工智能生成音頻的作品歸屬權(quán)問題各國仍沒有統(tǒng)一標準。英國1988 年實施的《版權(quán)、設(shè)計和專利法案》,不但對作品的著作權(quán)進行界定,還強調(diào)“作者”是指創(chuàng)造作品的人,如果是計算機生成的作品,則作者為創(chuàng)作作品所需安排的人員。[10]美國2019 年實施的《美國專利客體審查指南》、我國2020 年實施的《專利審查指南》、日本政府的知識產(chǎn)權(quán)戰(zhàn)略本部及澳大利亞的版權(quán)審議委員會認為計算機生成的內(nèi)容不具有著作權(quán)。[11]英美法系把自然人創(chuàng)作的作品視為受著作權(quán)保護,植根于法國著作權(quán)法和《伯爾尼公約》的大陸法系將獨創(chuàng)性解釋為作者人格的體現(xiàn)。因此人工智能生成音頻,達不到演繹、表演或改編作品要求的獨創(chuàng)性標準。而基于算法具體應(yīng)用的機器程序是具有專利權(quán)的,美聯(lián)社Quakebot、騰訊Dreamwriter、百度Wrinting-bots、微軟小冰、阿里魯班等內(nèi)容生產(chǎn)機器程序都擁有專利權(quán)。[12]總之AI 內(nèi)容生產(chǎn)所引發(fā)的著作權(quán)、版權(quán)等問題需要制度層面的規(guī)約。
其次是訓(xùn)練數(shù)據(jù)缺乏多樣性問題,AI 算法創(chuàng)新需要以大量數(shù)據(jù)積累為基礎(chǔ)。詹姆斯·凱利追求媒介的動態(tài)平衡,使我們注意媒介偏向造成的傷害,他研究具體的媒介關(guān)懷、市場價值與民主精神融合的問題,主張抵抗技術(shù)的知識壟斷偏向。[13]今天可用的大多數(shù)音頻數(shù)據(jù)集都是在受控環(huán)境中收集的,限制了它們在現(xiàn)實世界中的適用性。訓(xùn)練數(shù)據(jù)缺乏多樣性可能導(dǎo)致有偏見的模型,這些模型無法推廣到不同的聲學(xué)環(huán)境、語言或口音。偏見問題:如果用于訓(xùn)練它們的數(shù)據(jù)不夠多樣化或精心策劃,支持人工智能的音頻技術(shù)可以復(fù)制語言和社會中現(xiàn)有的偏見。模型的可解釋性有限:雖然深度學(xué)習(xí)模型在音頻相關(guān)任務(wù)中取得了令人印象深刻的成果,但它們通常被視為黑匣子。了解模型如何做出決策并確定有助于輸出的特征可能很困難,這限制了模型的可解釋性。人工智能技術(shù)超越人類認知、不確定性巨大、不具備道德決策能力,從信息爆炸、數(shù)據(jù)安全、隱私保護到算法歧視,各種科技負面問題不容忽視。對用戶數(shù)據(jù)的分析乃至濫用也容易造成個人隱私泄露等問題,亟須制度創(chuàng)新協(xié)同跟進。[14]
最后是安全問題。艾呂爾認為,追求效率范式,默許把一切任務(wù)交給更加有效的技術(shù)的傾向,最終會把道德話語驅(qū)逐出公共政策,直接間接地使人類社會失去人性,自主的技術(shù)至上破壞了人的反躬自省和人生質(zhì)量。[15]數(shù)據(jù)的大規(guī)模運用使數(shù)據(jù)安全問題逐漸凸顯。正是有海量數(shù)據(jù)作為AI 的“食物”,才使AI可以生產(chǎn)出更高質(zhì)量的內(nèi)容。由于AI 文化生產(chǎn)與傳播的發(fā)展得益于大數(shù)據(jù)的積累和算法的不斷迭代,文化內(nèi)容生產(chǎn)與傳播所涉及的大數(shù)據(jù)是用戶數(shù)據(jù)的聚合。用戶隱私處于黑箱狀態(tài),在界面的持續(xù)監(jiān)聽方面存在隱私和安全的問題。??绿岢隽恕叭氨O(jiān)獄”的概念,像谷歌Nest 這樣的智能家居全方位監(jiān)視著用戶。過度的廣告營銷充斥著網(wǎng)絡(luò)音頻界面,用戶的使用行為偏好被日趨成熟的大數(shù)據(jù)算法系統(tǒng)看透并進行誘導(dǎo)式的推演,實施了大數(shù)據(jù)殺熟。AIGC 音頻,也稱為合成或深度偽造音頻,是指使用人工智能生成或操作音頻記錄,使其聽起來像真實的人類語言。雖然這項技術(shù)可以有積極的應(yīng)用,例如為殘疾人改進文本轉(zhuǎn)語音系統(tǒng)或創(chuàng)建聽起來逼真的虛擬助理,但它也有可能用于有害目的,例如傳播錯誤信息或被不法分子利用實施電信欺詐等犯罪。由于對智能技術(shù)監(jiān)管的缺失,網(wǎng)絡(luò)音頻產(chǎn)業(yè)還存在一些私利驅(qū)動下的非邏輯和非理性內(nèi)容,如色情淫穢。與任何新興技術(shù)一樣,人工智能賦能音頻產(chǎn)生的同時帶來監(jiān)管挑戰(zhàn)。
綜上,各方必須意識到風(fēng)險并采取措施減輕風(fēng)險。應(yīng)對這些挑戰(zhàn)需要創(chuàng)新研究和開發(fā)大型和多樣化數(shù)據(jù)集的結(jié)合。
首先,本文提出通過法律和技術(shù)手段,規(guī)范音頻產(chǎn)品的版權(quán)授權(quán)與保護。如人工智能(語音識別)協(xié)同區(qū)塊鏈技術(shù)能夠追溯每一位著作權(quán)人,版稅的分配結(jié)構(gòu)將公平地按合同執(zhí)行,讓存證公開透明,避免版權(quán)糾紛,拓寬優(yōu)質(zhì)作品來源。各國頒布數(shù)據(jù)保護法律,既可以確保個人數(shù)據(jù)和網(wǎng)絡(luò)數(shù)據(jù)的安全,也使AI 技術(shù)及相關(guān)產(chǎn)業(yè)得以安全發(fā)展。[16]如2018 年歐盟提出的《通用數(shù)據(jù)保護條例》(GDPR),強調(diào)保護歐盟境內(nèi)的用戶數(shù)據(jù)安全[17];2019 年我國提出的《新一代人工智能治理原則——發(fā)展負責(zé)任的人工智能》,強調(diào)將尊重隱私、安全可控作為人工智能的重要原則。政府通過制定法律或指導(dǎo)方針,禁止為某些目的(如政治運動或金融欺詐行為)創(chuàng)建或傳播深度偽造音頻的風(fēng)險。我國《民法典》規(guī)定了對自然人聲音的授權(quán)和保護;第一千零一十九條強調(diào)對聲音權(quán)的侵害行為包括:丑化、污損或者利用信息技術(shù)偽造他人聲音;未經(jīng)同意擅自錄制、使用、公開他人聲音。[18]2020年全國“掃黃打非”辦公室約談查處涉色情低俗問題的ASMR,存在傳播色情低俗歌曲、青少年模式形同虛設(shè)等突出問題。
其次,AI 領(lǐng)域各方應(yīng)堅持價值理性(踐行傳播倫理規(guī)范和價值準則)糾偏,建立科技倫理,引導(dǎo)科技向善,即科技發(fā)展要以人為本、造福人類,用科技解決可持續(xù)發(fā)展問題。通過規(guī)制算法偏向以實現(xiàn)技術(shù)歸化,堅守智能傳播倫理以重建人機關(guān)系,從系統(tǒng)上根本性解決信息安全問題,助推和規(guī)范AI 技術(shù)與音頻產(chǎn)業(yè)的健康發(fā)展。2021 年中國國家互聯(lián)網(wǎng)信息辦公室曾就未履行安全評估程序的語音社交軟件和涉“深度偽造”技術(shù)的應(yīng)用,督促相關(guān)企業(yè)開展安全評估,完善風(fēng)險防控機制和措施,切實履行企業(yè)信息內(nèi)容安全主體責(zé)任。[19]開發(fā)和部署支持人工智能的音頻技術(shù)的公司應(yīng)優(yōu)先建立防止惡意使用的保障措施。包括開發(fā)可以檢測深度偽造音頻的算法,創(chuàng)建用于驗證音頻錄音真實性的透明過程,并為該技術(shù)的可接受使用建立明確的指南。決策者應(yīng)與技術(shù)公司和其他利益相關(guān)者合作,為負責(zé)任地使用人工智能音頻技術(shù)制定最佳實踐和標準。
最后,音頻內(nèi)容創(chuàng)作者應(yīng)該警惕使用深度偽造音頻來歪曲他們的作品或傳播虛假信息的可能性,采取措施保護他們的內(nèi)容,如添加水印或使用數(shù)字簽名來驗證他們的錄音。社會要不斷地促進媒介素養(yǎng)教育,在享受技術(shù)帶來的便捷性同時,用戶應(yīng)考慮使用事實核查工具(如時間戳或上下文信息)或從可信來源尋求更多信息,以在共享之前驗證音頻的準確性。
烏托邦里的人說,技術(shù)和媒介本身就具有解放的效應(yīng),但它不會給人太多道德引導(dǎo)。麥克盧漢應(yīng)用實用批評去喚醒人們的媒介意識。機器意識形態(tài)的基礎(chǔ)是秩序、控制、效率和權(quán)利。[20][21]開發(fā)工具和機器的目的,既是為了延伸有機體依傍工具的能力,也是為了在人體之外造就一套有利的條件,以維護有機體的平衡并保證其生存。[22]芒福德和艾呂爾共同的目標是“去除技術(shù)文明的神化色彩,還原技術(shù)適當(dāng)?shù)牡哂薪ㄔO(shè)性的角色,使之進入人生一個更加有機的視野,進入為人謀利的更加廣闊的視野”。[23]在技術(shù)賦能和人機共生的多元化發(fā)展下,對人類主體性的探討逐漸被弱化,人們在技術(shù)演化的途徑中需要逐步找到“人機物共存”的均衡狀態(tài)。[24]通過采取積極的行動來解決與該技術(shù)相關(guān)的風(fēng)險,各方協(xié)同合作,確保以負責(zé)任和道德的方式使用它。這也是人工智能技術(shù)賦能音頻產(chǎn)業(yè)希冀的未來。