■文/程 輝
在生成式人工智能時(shí)代,有聲書行業(yè)的生產(chǎn)流程將重塑,生產(chǎn)力會(huì)有突破性提高。
隨著人工智能(Artificial Intelligence,AI)技術(shù)的不斷發(fā)展,聊天生成式預(yù)訓(xùn)練模型(Chat Generative Pre-trained Transformers,ChatGPT)橫空出世,我們迎來了生成式人工智能(Artificial Intelligence Generated Content,AIGC)時(shí)代。
AI 正加速滲透各行各業(yè),以塑造產(chǎn)業(yè)新范式,一場新的生產(chǎn)力與創(chuàng)造力革命蓄勢待發(fā)。AI 語音技術(shù)是AIGC 領(lǐng)域的重要分支之一,隨著AI 技術(shù)的發(fā)展,其角色功能、產(chǎn)品服務(wù)和行業(yè)生態(tài)等都發(fā)生了巨大的變化。
2022 年,ChatGPT 憑借其在語義理解、文本創(chuàng)作、代碼編寫、邏輯推理、知識(shí)問答等方面的卓越表現(xiàn),以及自然語言對話的低門檻交互方式,迅速躥紅網(wǎng)絡(luò),收獲了大批用戶。ChatGPT-4 引起了人們對AIGC 的廣泛關(guān)注。第50 次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》顯示,截至2022 年6 月,中國互聯(lián)網(wǎng)普及率已高達(dá)74.4%。在網(wǎng)民規(guī)模不斷提升、網(wǎng)絡(luò)接入環(huán)境日漸多元、AI 技術(shù)助推行業(yè)數(shù)字化轉(zhuǎn)型升級的宏觀環(huán)境下,作為新型內(nèi)容生產(chǎn)方式的AIGC 技術(shù),為行業(yè)轉(zhuǎn)型的落地提供了想象空間。
AIGC 是一種基于人工智能技術(shù)的自動(dòng)化內(nèi)容生成系統(tǒng),可以使用機(jī)器學(xué)習(xí)和自然語言處理(Natural Language Processing,NLP)等技術(shù),學(xué)習(xí)和分析海量數(shù)據(jù),讓計(jì)算機(jī)模擬人類的創(chuàng)造力和判斷力,自動(dòng)生成符合人類需求的各種文本、圖像、音頻和視頻等多媒體內(nèi)容。
AIGC 興起主要源于自然語言處理和擴(kuò)散模型(Diffusion Model)的發(fā)展與開源。20世紀(jì)50年代,計(jì)算機(jī)科學(xué)家就開始嘗試使用計(jì)算機(jī)生成語言模型。隨著機(jī)器學(xué)習(xí)和深度學(xué)習(xí)等技術(shù)的不斷突破,AIGC 技術(shù)得到了快速的發(fā)展。
AIGC 是一次新技術(shù)革命,具有極強(qiáng)的普適性,可以改造和升級人類生產(chǎn)、生活的方方面面。它的發(fā)展分為3 個(gè)時(shí)期:醞釀萌芽階段(20 世紀(jì)50年代至90 年代中期)、穩(wěn)步推進(jìn)階段(20 世紀(jì)90 年代中期至21 世紀(jì)第二個(gè)十年中期),以及迅猛發(fā)展階段(21 世紀(jì)第二個(gè)十年中期至今)。
在醞釀萌芽階段,AIGC 處于實(shí)驗(yàn)室探索中。在穩(wěn)步推進(jìn)階段,隨著算法的不斷優(yōu)化,AIGC 逐步出現(xiàn)在各式各樣的應(yīng)用場景和商業(yè)模式中,在圖像、音樂、視頻等領(lǐng)域得到了廣泛應(yīng)用。在迅猛發(fā)展階段,AIGC 開始與其他技術(shù)深度融合,如自然語言處理、計(jì)算機(jī)視覺、機(jī)器學(xué)習(xí)等,融合后,AIGC 更加全面,可以實(shí)現(xiàn)更復(fù)雜、更高級的內(nèi)容生成和創(chuàng)作等。
艾瑞咨詢2023 年發(fā)布的《AIGC 系列報(bào)告——中國AIGC 產(chǎn)業(yè)全景報(bào)告》指出,內(nèi)容生成與理解是大模型的核心能力,AIGC 的產(chǎn)業(yè)價(jià)值主要體現(xiàn)在以此為核心的“變革內(nèi)容生產(chǎn)方式”與“變革人機(jī)交互方式”兩方面。大模型對內(nèi)容理解和內(nèi)容生成的雙向能力使AIGC 既能以極低門檻實(shí)現(xiàn)多模態(tài)內(nèi)容生成,也可脫離內(nèi)容生產(chǎn)核心場景泛化為一種人機(jī)對話的媒介。基于此種理解,AIGC 將實(shí)現(xiàn)內(nèi)容創(chuàng)作權(quán)的下放,借助針對各垂直領(lǐng)域衍生的大量AI 生產(chǎn)工具,實(shí)現(xiàn)全行業(yè)內(nèi)容生產(chǎn)效率的飛升。
AIGC 會(huì)引發(fā)內(nèi)容行業(yè)巨變。2023 年9 月21 日,愛奇藝創(chuàng)始人、首席執(zhí)行官龔宇在“2023 愛奇藝iJOY 悅享會(huì)”上分享了他對行業(yè)的最新思考。在他看來,AI 在影視內(nèi)容策劃、開發(fā)、制作以及宣發(fā)等方面將有重要的應(yīng)用空間。其實(shí),不僅在影視行業(yè),AIGC 還會(huì)在許多其他內(nèi)容行業(yè)如編輯出版、新聞、設(shè)計(jì)等的生產(chǎn)端、分發(fā)端、產(chǎn)業(yè)端重構(gòu)生產(chǎn)模式。
AIGC 可幫助教育行業(yè)突破傳統(tǒng)教育模式及人工生產(chǎn)效率的限制,實(shí)施個(gè)性化教學(xué)、智能輔導(dǎo)、自動(dòng)化評估,構(gòu)建在線學(xué)習(xí)平臺(tái)以及提供全面的管理。它的介入會(huì)提升教學(xué)效率和質(zhì)量,實(shí)現(xiàn)個(gè)性化教育和精準(zhǔn)教育,助力教育行業(yè)的數(shù)字化轉(zhuǎn)型和教學(xué)模式的變革。
AIGC 與金融業(yè)的結(jié)合也格外引人注目。目前,摩根士丹利、彭博、德意志銀行等都已有初具雛形的應(yīng)用落地。有學(xué)者指出,AIGC 可以在金融行業(yè)中的客戶服務(wù)、產(chǎn)品創(chuàng)新、智慧辦公、研發(fā)管理、監(jiān)管合規(guī)知識(shí)庫建設(shè)和代碼開發(fā)等方面發(fā)揮作用。有了AIGC 的加持,金融行業(yè)將發(fā)生質(zhì)的蛻變。
對網(wǎng)絡(luò)視聽行業(yè)而言,置身以內(nèi)容分發(fā)平臺(tái)為核心的內(nèi)容消費(fèi)賽道,連接供應(yīng)端的創(chuàng)作者和需求端的大量用戶,線上內(nèi)容資源是最核心的生產(chǎn)力,創(chuàng)作者需要將內(nèi)容質(zhì)量保持在可持續(xù)吸引用戶注意力的水平。AIGC 主要影響的是內(nèi)容創(chuàng)作與人機(jī)交互,線上化程度越高、內(nèi)容占比越大的行業(yè),變革越深刻和廣泛。由此,它的入局對業(yè)態(tài)而言勢必是一場深刻的顛覆與變革。
近年來,國內(nèi)各大互聯(lián)網(wǎng)巨頭的發(fā)展軌跡都有一個(gè)“共性”:利用AI 技術(shù)賦能傳統(tǒng)行業(yè)。AI語音技術(shù)作為AIGC 的重要分支之一,被應(yīng)用于傳統(tǒng)有聲書出版業(yè),為有聲書行業(yè)重塑生產(chǎn)流程、提高生產(chǎn)力提供了可能性。
AI 語音技術(shù)包括語音識(shí)別(Automatic Speech Recognition,ASR)、自然語言處理和語音合成(Text to Speech,TTS)等三大技術(shù)。其中,語音合成技術(shù)在有聲書行業(yè)的生產(chǎn)端已顯現(xiàn)出強(qiáng)大的生產(chǎn)力。
語音合成是將計(jì)算機(jī)自己產(chǎn)生的或外部輸入的文字信息轉(zhuǎn)變?yōu)榭谡Z輸出的技術(shù)。它涉及聲學(xué)、語言學(xué)、數(shù)字信號處理、計(jì)算機(jī)科學(xué)等多個(gè)學(xué)科,主攻如何將文字信息轉(zhuǎn)化為可聽的聲音信息,讓機(jī)器像人一樣開口說話。不同于錄音機(jī)式的聲音回放設(shè)備,語音合成是將任意文本轉(zhuǎn)換成具有高自然度的語音。
語音合成流水線包含文本前端(text frontend)、聲學(xué)模型(acoustic model)和聲碼器(vocoder)等3 個(gè)主要模塊。語音合成的流程是:通過文本前端模塊將原始文本轉(zhuǎn)換為字符/音素;通過聲學(xué)模型將字符/ 音素轉(zhuǎn)換為聲學(xué)特征,如線性頻譜圖、mel 頻譜圖、LPC特征等;通過聲碼器將聲學(xué)特征轉(zhuǎn)換為波形,最終合成語音。
隨著AI 的進(jìn)步,神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí)等技術(shù)出現(xiàn),“TTS+AI”的組合使得電子合成語音愈發(fā)自然和準(zhǔn)確。針對情感起伏大、音色個(gè)性化、聲線多元、貼合人聲等更精細(xì)化的需求,目前已有AI 語音廠商提供“情感TTS”定制,旨在通過調(diào)整音色的語調(diào)、音高、語速,甚至模擬人類的生氣、傷心、高興等語氣,讓電子合成語音符合語境或場景,具有“情感”。
得益于互聯(lián)網(wǎng)技術(shù)發(fā)展與移動(dòng)終端的普及,近年來,人們更青睞于“內(nèi)化”的居家生活方式,有聲讀物市場呈爆發(fā)式增長。智研咨詢認(rèn)為,2023 年中國有聲讀物市場規(guī)模有望突破100億元(見圖1)。
圖1 2015—2023 年中國有聲讀物行業(yè)市場規(guī)模
有聲書行業(yè)的傳統(tǒng)制作流程由人工手動(dòng)操作。審聽音頻、拼接多名主播的人聲、制作后期墊樂等依靠純?nèi)斯ね瓿?,僅20 萬字的讀物需要耗費(fèi)近1 個(gè)月的時(shí)間才能完成制作。此外,有聲書行業(yè)存在大量重復(fù)勞動(dòng)的工作,準(zhǔn)入門檻低,從業(yè)人員多由利用閑散時(shí)間發(fā)展副業(yè)的兼職人員組成,內(nèi)容裂變雖然增長迅速,優(yōu)質(zhì)精品卻是鳳毛麟角,目前尚未形成行之有效、監(jiān)管有力的行業(yè)規(guī)范?,F(xiàn)存有聲書普遍存在制作流程周期長、成本高、質(zhì)量不穩(wěn)定、水平良莠不齊的問題,傳統(tǒng)低效的制作方式很難滿足井噴式增長的有聲書市場需求。AI 入局,其內(nèi)容創(chuàng)作方式與人機(jī)交互模式會(huì)充分發(fā)揮技術(shù)優(yōu)勢,為有聲書行業(yè)的轉(zhuǎn)型提供參考路徑。
首先,AI 音色具有高擬人度、高流暢度的特色。語音合成平臺(tái)能提供多樣化、個(gè)性化的音色,可模擬人在不同場景下的語氣、狀態(tài)與情感,在一定程度上媲美真人,其提供的大量音色素材,為有聲書創(chuàng)作奠定了技術(shù)基礎(chǔ)。
其次,有聲讀物的制作周期縮短。TTS 技術(shù)在短時(shí)間內(nèi)將海量文本生成語音,極大地縮短了錄制時(shí)間。例如,在Reflect Audio 推出的有聲讀物制作平臺(tái)上,AI 主播的制作速度超過500 萬字/天。
最后,制作成本降低。用AI 代替真人,音色可從語音合成平臺(tái)提供的豐富音色中選擇,實(shí)實(shí)在在地省去了高昂的錄制費(fèi)用,低廉的成本即可獲得一級主播的優(yōu)質(zhì)聲音,實(shí)現(xiàn)高品質(zhì)的創(chuàng)作。
在大量AI 生產(chǎn)工具的應(yīng)用陸續(xù)落地的背景下,各類企業(yè)數(shù)字化語音廠商都在圍繞大模型尋找自身的優(yōu)勢空間與定位。在有聲書行業(yè)這一垂直領(lǐng)域內(nèi),涌現(xiàn)一大批在AI 語音發(fā)力的企業(yè),或能實(shí)現(xiàn)AI 語音生產(chǎn)的實(shí)際落地。
國內(nèi)一家首創(chuàng)“AI+真人”混合錄制形式的企業(yè)——上海家瑤網(wǎng)絡(luò)科技有限公司的業(yè)務(wù)模式與成長路徑,或能為“AI+有聲”的應(yīng)用層落地提供注腳。除利用“情感TTS”音色批量錄制有聲讀物之外,針對有聲書行業(yè)存在的核心痛點(diǎn)問題,公司獨(dú)立研發(fā)的AI 自動(dòng)對軌、AI 輔助審聽的應(yīng)用級產(chǎn)品“愛對軌”,借助行業(yè)領(lǐng)先的語音識(shí)別模型,實(shí)現(xiàn)了AI 全流程參與制作,由AI 自動(dòng)完成繁復(fù)低效的操作,并輔助對音頻內(nèi)容進(jìn)行審校,“以看代聽”,極大地縮短了制作周期,提高了內(nèi)容準(zhǔn)確率。
AIGC 在內(nèi)容消費(fèi)領(lǐng)域引起了生產(chǎn)力變革,從技術(shù)到商業(yè)模式的路徑已全線打通,各類企業(yè)借助技術(shù)背景發(fā)揮自身優(yōu)勢,帶來的海量下游應(yīng)用優(yōu)化將進(jìn)一步釋放行業(yè)創(chuàng)作活力與創(chuàng)新力?!癆I+有聲”模式作為其中一個(gè)縮影,也將拓展有聲書行業(yè)市場規(guī)模,助力形成更加蓬勃發(fā)展的有聲書市場。