孫艷華
【摘要】智能合成語(yǔ)音具有智能化、標(biāo)準(zhǔn)化、制作門(mén)檻低等優(yōu)點(diǎn),越來(lái)越成為閱讀聽(tīng)書(shū)平臺(tái)信息有聲化道路上的新寵。評(píng)價(jià)觀察和聽(tīng)審實(shí)驗(yàn)結(jié)果均表明,閱讀聽(tīng)書(shū)平臺(tái)AI合成語(yǔ)音的質(zhì)量還存在較大提升空間,針對(duì)情感表現(xiàn)力弱、通順性差、部分作品語(yǔ)速快等問(wèn)題,可通過(guò)AI語(yǔ)音技術(shù)和人工的結(jié)合、強(qiáng)化標(biāo)點(diǎn)的作用、1倍語(yǔ)速設(shè)計(jì)為270字/分~290字/分、審校等方式完善。從播放量和評(píng)分看,AI主播版作品的用戶(hù)接受度優(yōu)于人工主播版,這與AI主播版更新及時(shí)、斷更現(xiàn)象少、價(jià)格優(yōu)勢(shì)有關(guān)。通過(guò)AI語(yǔ)音產(chǎn)品的二次開(kāi)發(fā)為用戶(hù)提供更加豐富的產(chǎn)品和優(yōu)質(zhì)的服務(wù),將成為閱讀聽(tīng)書(shū)平臺(tái)后期的工作重心。
【關(guān)鍵詞】閱讀聽(tīng)書(shū) 智能合成語(yǔ)音 應(yīng)用 質(zhì)量 用戶(hù)接受
【中圖分類(lèi)號(hào)】G206 【文獻(xiàn)標(biāo)識(shí)碼】A 【文章編號(hào)】1003-6687(2021)12-081-08
【DOI】 10.13786/j.cnki.cn14-1066/g2.2021.12.012
由于音頻能更好地解放我們的雙手、雙眼,滿(mǎn)足特殊時(shí)段(如做飯、開(kāi)車(chē))、特殊人群(如視力障礙群體)的讀書(shū)需求,越來(lái)越多的網(wǎng)絡(luò)信息服務(wù)提供商加入有聲化的行列。中廣聯(lián)合會(huì)有聲閱讀委員會(huì)會(huì)長(zhǎng)王秋指出,2022年我國(guó)有聲書(shū)用戶(hù)將達(dá)到5.6億,[1]“耳朵經(jīng)濟(jì)”正在成為一個(gè)新風(fēng)口。
2021年是人工智能提出的第65年,智能語(yǔ)音(以下簡(jiǎn)稱(chēng)AI語(yǔ)音)已經(jīng)成為人工智能發(fā)展到今天最成熟、最重要的板塊之一。AI語(yǔ)音是我國(guó)為數(shù)不多具有自主知識(shí)產(chǎn)權(quán)且達(dá)到國(guó)際先進(jìn)水平的產(chǎn)業(yè),且最近5年的發(fā)展超過(guò)了過(guò)去50年的發(fā)展。[2]
AI語(yǔ)音的多項(xiàng)子技術(shù)中,作為關(guān)鍵技術(shù)的語(yǔ)音合成技術(shù)成熟最早,它是指將文本信息自動(dòng)轉(zhuǎn)換成語(yǔ)音信息(如銀行排隊(duì)叫號(hào)機(jī)),其應(yīng)用場(chǎng)景包括閱讀聽(tīng)書(shū)、資訊播報(bào)、訂單播報(bào)、智能硬件,①本文對(duì)其中的閱讀聽(tīng)書(shū)場(chǎng)景展開(kāi)研究。
一、調(diào)研平臺(tái)
參照艾瑞數(shù)據(jù)提供的平臺(tái)類(lèi)別,提供閱讀聽(tīng)書(shū)服務(wù)的平臺(tái)類(lèi)別有在線(xiàn)閱讀、有聲聽(tīng)書(shū)、有聲音頻。根據(jù)艾瑞數(shù)據(jù)“移動(dòng)APP獨(dú)立設(shè)備使用量”2021年6月榜,筆者選取月度獨(dú)立設(shè)備使用量超1 000萬(wàn)臺(tái)的平臺(tái)為調(diào)研對(duì)象,結(jié)果如下。
在線(xiàn)閱讀平臺(tái)方面:符合條件的在線(xiàn)閱讀平臺(tái)共10個(gè),分別為掌閱、QQ閱讀、番茄免費(fèi)小說(shuō)、七貓免費(fèi)小說(shuō)、書(shū)旗小說(shuō)、咪咕閱讀、搜狗閱讀、米讀小說(shuō)、連尚免費(fèi)讀書(shū)、微信讀書(shū)。
有聲平臺(tái)方面:符合條件的有聲聽(tīng)書(shū)平臺(tái)為懶人暢聽(tīng),符合條件的有聲音頻平臺(tái)為喜馬拉雅、蜻蜓FM、荔枝①,共計(jì)4個(gè)有聲平臺(tái)。
在研究過(guò)程中,首先,基于平臺(tái)樣本對(duì)在線(xiàn)閱讀平臺(tái)AI合成語(yǔ)音的應(yīng)用進(jìn)程進(jìn)行縱向梳理;其次,立足當(dāng)下,對(duì)AI合成語(yǔ)音應(yīng)用中的熱點(diǎn)——質(zhì)量展開(kāi)調(diào)查;再次,從效用的視角,分析AI合成語(yǔ)音的用戶(hù)接受。
二、AI合成語(yǔ)音在閱讀聽(tīng)書(shū)平臺(tái)的應(yīng)用進(jìn)展
1. 在線(xiàn)閱讀平臺(tái)
各在線(xiàn)閱讀平臺(tái)上線(xiàn)后,相繼開(kāi)通了智能語(yǔ)音朗讀服務(wù)。據(jù)筆者統(tǒng)計(jì),截至目前,10個(gè)在線(xiàn)閱讀平臺(tái)的AI入局率為100%。各平臺(tái)中,除開(kāi)通AI語(yǔ)音最晚的連尚免費(fèi)讀書(shū)平臺(tái)有較多作品不支持AI語(yǔ)音,掌閱、七貓免費(fèi)小說(shuō)等平臺(tái)有少量作品未獲得音頻版權(quán)外,其他作品均提供AI語(yǔ)音服務(wù)。
2. 有聲平臺(tái)
筆者在4個(gè)有聲平臺(tái)通過(guò)搜索詞“AI”“智能語(yǔ)音”對(duì)“專(zhuān)輯”“聲音”“用戶(hù)”“節(jié)目”“書(shū)籍”“主播”等進(jìn)行搜索。首先,4個(gè)平臺(tái)均存在AI語(yǔ)音作品,AI入局率為100%。其次,截至2021年7月31日,有效結(jié)果共計(jì)597部。其中,喜馬拉雅481部,占比80.6%;懶人暢聽(tīng)113部,占比18.9%;蜻蜓FM2部;荔枝1部。對(duì)597部作品的發(fā)布時(shí)間、主播、主題等信息進(jìn)行統(tǒng)計(jì)梳理,結(jié)果如下。
(1)AI合成語(yǔ)音的應(yīng)用源起——AI導(dǎo)讀。有聲平臺(tái)最早的AI語(yǔ)音作品形態(tài)為喜馬拉雅和懶人暢聽(tīng)平臺(tái)的AI導(dǎo)讀。AI導(dǎo)讀為國(guó)內(nèi)首個(gè)實(shí)現(xiàn)智能濃縮書(shū)的產(chǎn)品,通過(guò)智能、客觀提取一定比例(通常為10%)全書(shū)干貨,②用AI語(yǔ)音朗讀,起到導(dǎo)讀的作用。
喜馬拉雅平臺(tái)方面。AI導(dǎo)讀作品共計(jì)283部,上傳時(shí)間集中于2019年1月至2019年6月。其中,最早的作品為2019年1月29日上傳的《AI導(dǎo)讀︱全球通史(中)》和《AI導(dǎo)讀︱全球通史(下)》。作品播放量在
1~2.8萬(wàn)之間,超過(guò)1萬(wàn)的作品僅2部——《AI導(dǎo)讀︱十人以下小團(tuán)隊(duì)管理》(2.8萬(wàn))和《AI導(dǎo)讀︱邁向權(quán)利巔峰的希拉里》(1.1萬(wàn))。平均播放量688,多為付費(fèi)收聽(tīng)(少量免費(fèi)),收費(fèi)區(qū)間為0喜點(diǎn)/部~19.21喜點(diǎn)/部。③
懶人暢聽(tīng)平臺(tái)方面。AI導(dǎo)讀作品共計(jì)98部,上傳時(shí)間集中于2019年2月至2019年12月。其中,最早的作品為2019年2月26日上傳的《AI導(dǎo)讀:全球通史》《AI導(dǎo)讀:誰(shuí)是下一個(gè)中國(guó)首富》《AI導(dǎo)讀:75分鐘塑造高情商領(lǐng)導(dǎo)》。播放量介于1萬(wàn)~243萬(wàn)之間,平均值為5.9萬(wàn),遠(yuǎn)超喜馬拉雅。收費(fèi)區(qū)間為0.99元/部~22.99元/部。
喜馬拉雅和懶人暢聽(tīng)可謂有聲平臺(tái)AI合成語(yǔ)音的試水者。根據(jù)統(tǒng)計(jì)結(jié)果,兩平臺(tái)的AI導(dǎo)讀作品數(shù)量變化趨勢(shì)如圖1所示。所有AI導(dǎo)讀作品的主播均為“AI導(dǎo)讀”“谷臻小簡(jiǎn)”,音頻技術(shù)均由訊飛有聲提供。遺憾的是,這一具有歷史突破意義的AI產(chǎn)品形態(tài)于2019年12月12日退出歷史舞臺(tái)。
(2)AI主播、作品內(nèi)容、作品數(shù)量不斷豐富。主播“AI導(dǎo)讀”“谷臻小簡(jiǎn)”自2019年6月13日起,停更喜馬拉雅平臺(tái)的AI導(dǎo)讀作品,自2019年12月12日起,停更懶人暢聽(tīng)平臺(tái)的AI導(dǎo)讀作品。但這并不意味著AI語(yǔ)音退出有聲平臺(tái),接踵而至的是AI語(yǔ)音主體的多元化、合成內(nèi)容的豐富和作品數(shù)量的逐漸增多。
最早的非導(dǎo)讀AI作品為2019年6月5日主播“華章有聲讀物”在喜馬拉雅平臺(tái)分享的作品《學(xué)會(huì)決斷AI版》。之后,“陽(yáng)光科技AI”“任性_ae”“虛擬鏡像”“有聲小于”“AI合成”“愛(ài)閱讀de電子書(shū)”等AI主播紛紛入駐有聲平臺(tái),其中不僅有專(zhuān)業(yè)的AI團(tuán)隊(duì),也有普通網(wǎng)民個(gè)人。AI語(yǔ)音開(kāi)始被較廣泛地應(yīng)用于小說(shuō)、商業(yè)、生活等各類(lèi)主題的作品朗讀中,作品數(shù)量變化趨勢(shì)如下頁(yè)圖2所示??梢钥闯?,近兩年來(lái),AI語(yǔ)音在有聲平臺(tái)的應(yīng)用總體呈上升趨勢(shì),特別是2021年7月達(dá)到歷史峰值。需要說(shuō)明的是,在調(diào)研過(guò)程中發(fā)現(xiàn),AI語(yǔ)音作品的實(shí)際數(shù)量遠(yuǎn)不止圖2所列,特別是喜馬拉雅平臺(tái),近一年來(lái)的AI語(yǔ)音服務(wù)已經(jīng)較為普遍,但由于大部分缺少AI標(biāo)識(shí),因此搜索到的樣本有限。
3. 應(yīng)用進(jìn)展分析
無(wú)論是在線(xiàn)閱讀平臺(tái),還是有聲平臺(tái),AI合成語(yǔ)音的應(yīng)用趨勢(shì)向好,主要有以下兩方面原因。
(1)在線(xiàn)閱讀平臺(tái)的主播有專(zhuān)業(yè)播音員、名人(如專(zhuān)家)、AI,有聲平臺(tái)的主播有專(zhuān)業(yè)播音員、網(wǎng)民、名人、AI。與專(zhuān)業(yè)播音員、網(wǎng)民、名人等人工主播相比,各平臺(tái)的AI語(yǔ)音雖然技術(shù)提供商不同(如喜馬拉雅、QQ閱讀平臺(tái)為科大訊飛開(kāi)放平臺(tái)的合作伙伴,掌閱、七貓免費(fèi)小說(shuō)平臺(tái)由百度語(yǔ)音提供AI語(yǔ)音支持,微信讀書(shū)的AI合成語(yǔ)音由微信團(tuán)隊(duì)提供①),但均具有生產(chǎn)效率高、成本低、標(biāo)準(zhǔn)化程度高、發(fā)音穩(wěn)定、語(yǔ)速可調(diào)、音色優(yōu)美干凈、無(wú)情緒波動(dòng)、隨時(shí)在崗、不疲勞、無(wú)須備稿等優(yōu)點(diǎn)。
(2)市面上有聲書(shū)的數(shù)量遠(yuǎn)少于電子書(shū)數(shù)量,通過(guò)AI合成語(yǔ)音技術(shù),用戶(hù)端輸入文本,就可以7×24小時(shí)無(wú)間斷合成語(yǔ)音,大大緩解了由于人工錄播效率低而導(dǎo)致的有聲內(nèi)容供給端產(chǎn)能不足的問(wèn)題。特別是對(duì)于網(wǎng)民而言,AI語(yǔ)音合成技術(shù)可謂其福音。人工錄播門(mén)檻高,對(duì)主播的自身?xiàng)l件、水平、時(shí)間、精力都有很高的要求,大部分網(wǎng)民苦于自身沒(méi)有好的音色或音準(zhǔn)條件,亦缺少聘請(qǐng)專(zhuān)業(yè)主播的條件或意愿,而通過(guò)AI語(yǔ)音合成軟件,普通網(wǎng)民可以將感興趣的文章轉(zhuǎn)化為AI語(yǔ)音進(jìn)行傳播,而且音頻質(zhì)量?jī)?yōu)于自產(chǎn)。百度語(yǔ)音技術(shù)接口永久免費(fèi)開(kāi)放更是為“人人都可當(dāng)主播”創(chuàng)造了更多的可能性。[3]而大量網(wǎng)民的加入,獻(xiàn)聲門(mén)檻的降低,進(jìn)一步豐富了聽(tīng)書(shū)資料來(lái)源,對(duì)于推動(dòng)全民閱讀具有重要意義。
三、閱讀聽(tīng)書(shū)平臺(tái)AI合成語(yǔ)音質(zhì)量現(xiàn)狀
達(dá)到專(zhuān)業(yè)人工主播的質(zhì)量水準(zhǔn)一直是AI合成語(yǔ)音的奮斗目標(biāo),閱讀聽(tīng)書(shū)平臺(tái)AI語(yǔ)音質(zhì)量現(xiàn)狀如何?筆者通過(guò)觀察用戶(hù)評(píng)價(jià)和開(kāi)展聽(tīng)審實(shí)驗(yàn)展開(kāi)探索。
評(píng)價(jià)方面。通過(guò)觀察閱讀聽(tīng)書(shū)平臺(tái)評(píng)論區(qū)的文字評(píng)論來(lái)了解聽(tīng)眾對(duì)AI語(yǔ)音質(zhì)量的評(píng)價(jià)。
實(shí)驗(yàn)方面。為了客觀地呈現(xiàn)閱讀聽(tīng)書(shū)平臺(tái)AI語(yǔ)音的質(zhì)量現(xiàn)狀,開(kāi)展對(duì)照文稿審校AI語(yǔ)音的實(shí)驗(yàn)??紤]到對(duì)照與音頻內(nèi)容相同的文稿更有助于聽(tīng)審實(shí)驗(yàn)的開(kāi)展,且符合音頻審校實(shí)際,而有聲平臺(tái)無(wú)對(duì)照文本,因此,以10個(gè)在線(xiàn)閱讀平臺(tái)為實(shí)驗(yàn)素材庫(kù),選取各平臺(tái)2021年7月31日推薦閱讀的前5本提供AI語(yǔ)音服務(wù)的圖書(shū)的第1章為聽(tīng)審對(duì)象,總計(jì)50個(gè)樣本,約12萬(wàn)字。
1. 整體質(zhì)量不達(dá)標(biāo)
從評(píng)論看,類(lèi)似“被這平淡不帶感情但又機(jī)械板正的聲音圈粉了”“微信讀書(shū)的AI男聲有點(diǎn)拽,AI女聲像實(shí)驗(yàn)課上老師放過(guò)的20世紀(jì)錄像課程的聲音”的好評(píng)和中性評(píng)論相對(duì)較少,不少用戶(hù)抱怨AI語(yǔ)音在流水播報(bào)中“多音字從來(lái)沒(méi)有念對(duì)過(guò),斷句奇奇怪怪,語(yǔ)流鈍澀,邏輯不清”,頻率較高的差評(píng)詞為:沒(méi)情感、不通順、速度快。
從實(shí)驗(yàn)統(tǒng)計(jì)結(jié)果看,10個(gè)在線(xiàn)閱讀平臺(tái)的AI語(yǔ)音出錯(cuò)率區(qū)間為0.8‰~15.8‰,參考圖書(shū)質(zhì)量合格標(biāo)準(zhǔn)(差錯(cuò)率≤0.2‰),出錯(cuò)率均超標(biāo),平均出錯(cuò)率4.1‰,為標(biāo)準(zhǔn)值的20.5倍。從分項(xiàng)統(tǒng)計(jì)結(jié)果看,AI語(yǔ)音錯(cuò)誤主要集中在語(yǔ)氣不當(dāng)(占比32.9%)、多音字讀錯(cuò)(占比34.3%)、停頓位置不當(dāng)(占比27.2%)三個(gè)方面,其他錯(cuò)誤如多讀(如將“注”的編號(hào)讀出)、發(fā)音錯(cuò)誤(如“娘”錯(cuò)發(fā)為一聲)、英文發(fā)音磕磕絆絆等。
2. 情感表現(xiàn)力弱是最大痛點(diǎn)
評(píng)論中,抱怨AI語(yǔ)音沒(méi)感情者居多。實(shí)驗(yàn)結(jié)果亦表明,兒化音、輕聲、感嘆或問(wèn)話(huà)等語(yǔ)氣不當(dāng),以及重音出錯(cuò)引發(fā)的情感不足是AI語(yǔ)音的主要問(wèn)題之一,諸如“那玩意兒”的“兒”錯(cuò)發(fā)二聲、“丈夫”的“夫”錯(cuò)發(fā)一聲、“不怕死?”錯(cuò)為陳述語(yǔ)氣等錯(cuò)誤非常普遍。情感表現(xiàn)力弱成為AI語(yǔ)音的質(zhì)量短版,從技術(shù)角度看,亦為最難攻克的關(guān)卡。究其原因,AI語(yǔ)音合成技術(shù)催生了見(jiàn)字出聲、語(yǔ)氣生硬的讀字,而情感是一個(gè)復(fù)雜的心理活動(dòng),相同的字、詞、句在不同的語(yǔ)境中含義不同,情感色彩有異,專(zhuān)業(yè)人工主播能夠充滿(mǎn)情感、富于變化地將其準(zhǔn)確朗讀出來(lái),是基于主播對(duì)文本的準(zhǔn)確理解和用心感受,而AI主播情感匱乏,缺少變化,不會(huì)理解,也無(wú)法感受。[4]
有些主播為了提高AI語(yǔ)音的情感,置入了背景音樂(lè),但并未因此收獲好評(píng)。從評(píng)論看,有不少聽(tīng)眾抱怨背景音樂(lè)影響了收聽(tīng)體驗(yàn)。樣本統(tǒng)計(jì)結(jié)果顯示,大部分AI作品并未置入背景音樂(lè),配樂(lè)版和無(wú)配樂(lè)版比例約為1:9。AI語(yǔ)音的機(jī)械式播報(bào)使聽(tīng)眾對(duì)內(nèi)容的理解難度加大,因此,要均衡考量背景音樂(lè)對(duì)內(nèi)容情感的促進(jìn)作用,及背景音樂(lè)對(duì)內(nèi)容理解和接收的負(fù)面影響之間的關(guān)系,背景音樂(lè)的處理要謹(jǐn)慎,在決定置入時(shí),要注意控制音量,以免得不償失。
2021年4月上旬,AI合成語(yǔ)音情感控制取得一項(xiàng)突破,使AI語(yǔ)音在接近人類(lèi)情感方面又邁進(jìn)了一步。微軟發(fā)布支持輕松調(diào)節(jié)情感程度的AI合成語(yǔ)音技術(shù),將情感分為平靜、開(kāi)心、溫柔、撒嬌、尷尬、嚴(yán)厲、憤怒、悲傷、恐懼、不滿(mǎn)、沮喪11個(gè)類(lèi)別,以平靜語(yǔ)氣為零點(diǎn),以1%為情感程度量化單元,使情感更加細(xì)膩豐富。[5]另外,建議AI語(yǔ)音技術(shù)商和內(nèi)容商強(qiáng)化標(biāo)點(diǎn)符號(hào)的情感表現(xiàn)作用,如問(wèn)號(hào)為上揚(yáng)語(yǔ)氣,嘆號(hào)對(duì)應(yīng)為加深語(yǔ)氣,要表現(xiàn)重音可借助著重號(hào)等。
3. 通順性差是普遍現(xiàn)象
多音字讀錯(cuò)、停頓位置不當(dāng)是引起AI語(yǔ)音表達(dá)不通順的主要原因。首先,關(guān)于多音字,錯(cuò)讀現(xiàn)象普遍,且與難易關(guān)聯(lián)不大,如長(zhǎng)、重、背、行、發(fā)、悶、干、倒、得、覺(jué)、暈、看、都、著、落、相、少、沖、喝等簡(jiǎn)單常見(jiàn)的多音字讀錯(cuò)率都很高,因此,聽(tīng)起來(lái)特別“刺耳”。其次,關(guān)于停頓位置,除了各平臺(tái)普遍存在的錯(cuò)誤,如將“讓人討厭”讀成“讓#人討厭”,還包括個(gè)別平臺(tái)的特有錯(cuò)誤,如七貓免費(fèi)小說(shuō)平臺(tái)標(biāo)題中的空格(如“第一章 我的女兒”)、章標(biāo)題與段之間缺少停頓,微信讀書(shū)平臺(tái)破折號(hào)沒(méi)有停頓作用,書(shū)旗小說(shuō)平臺(tái)的語(yǔ)句在跨頁(yè)處停頓等。
無(wú)論是閱讀聽(tīng)書(shū)平臺(tái)的內(nèi)容生產(chǎn)者還是用戶(hù),都對(duì)網(wǎng)絡(luò)小說(shuō)投入了很高的熱情,50個(gè)質(zhì)量調(diào)查樣本均為此類(lèi)。網(wǎng)絡(luò)小說(shuō)多采用大眾化表達(dá),AI語(yǔ)音的通順性況且如此,如果遇到句式復(fù)雜、表達(dá)晦澀、語(yǔ)義多變、邏輯性強(qiáng)的內(nèi)容,AI語(yǔ)音更難像人聲那樣自如、流暢和準(zhǔn)確。
實(shí)際上,當(dāng)前已經(jīng)具備解決影響AI語(yǔ)音通順性的多音字、停頓問(wèn)題的技術(shù)條件??拼笥嶏w推出的“訊飛快讀”,在制作語(yǔ)音時(shí),不僅可以進(jìn)行多音字糾正,還可以插入停頓,停頓時(shí)長(zhǎng)可設(shè)置為0.2秒、0.5秒、1秒、2秒。百度提供的“百度AI”也支持在合成語(yǔ)音時(shí)進(jìn)行多音字標(biāo)注。因此,在AI語(yǔ)音技術(shù)的加持下,如果想獲得通順的AI音頻,可以采用智能與人工相結(jié)合的方式,對(duì)內(nèi)容進(jìn)行細(xì)加工。另外,AI語(yǔ)音合成軟件應(yīng)進(jìn)一步完善通用設(shè)置,如所有點(diǎn)號(hào),標(biāo)號(hào)中的破折號(hào)、省略號(hào)、間隔號(hào),空格,回車(chē)都有停頓作用;跨頁(yè)不是停頓的標(biāo)識(shí)。
4. 部分作品語(yǔ)速偏快
從評(píng)論看,有不少作品被指出AI語(yǔ)速太快。實(shí)驗(yàn)中,為了方便聽(tīng)審,根據(jù)需要調(diào)整播放速度,因此,并未將速度納入出錯(cuò)范疇,但有些作品采用默認(rèn)1倍語(yǔ)速收聽(tīng)時(shí),確實(shí)有和網(wǎng)友一樣的感受。雖然速度可調(diào),但要考慮到一些網(wǎng)友不方便或不會(huì)調(diào)速,為了提升服務(wù)質(zhì)量,建議重視1倍語(yǔ)速的設(shè)計(jì)。通過(guò)測(cè)算,不滿(mǎn)度較高的1倍AI語(yǔ)速區(qū)間為290字/分~320字/分(其中,起停頓作用的標(biāo)點(diǎn)符號(hào)計(jì)1字符)。中央廣播電臺(tái)播音員語(yǔ)速不超過(guò)300字/分,[6]人工主播結(jié)合文本語(yǔ)境和情感進(jìn)行語(yǔ)音播報(bào),抑揚(yáng)頓挫,有利于信息的接收和理解,而AI語(yǔ)音的每一句話(huà)采用基本相同的情感,還附帶多音字等錯(cuò)誤,290字/分~320字/分的速度確實(shí)給人偏快的感覺(jué)。參考多部評(píng)價(jià)高作品的AI語(yǔ)速的做法,經(jīng)測(cè)算,發(fā)現(xiàn)1倍語(yǔ)速區(qū)間為270字/分~290字/分時(shí)聽(tīng)眾接受度最高。
無(wú)論是語(yǔ)速,還是前文提到的情感表現(xiàn)力、通順性問(wèn)題的解決,建議AI語(yǔ)音借鑒人工錄播的質(zhì)量控制方法——審校。閱讀聽(tīng)書(shū)平臺(tái)多為大部頭作品,人工錄音工作量大,AI合成語(yǔ)音質(zhì)量雖然遜色些,但省時(shí)省力省成本,因此,各平臺(tái)的常見(jiàn)做法是:為暢銷(xiāo)書(shū)、經(jīng)典長(zhǎng)銷(xiāo)書(shū)錄制人工主播版(以下簡(jiǎn)稱(chēng)人工版),或全部只提供AI主播版(以下簡(jiǎn)稱(chēng)AI版),AI版音頻未審校。其實(shí),考慮到AI語(yǔ)音出錯(cuò)類(lèi)型和出錯(cuò)點(diǎn)比較固定,有規(guī)律可循,容易識(shí)別,發(fā)音的標(biāo)準(zhǔn)化也使錯(cuò)誤更容易被客觀評(píng)判,所以,AI語(yǔ)音的審校難度比人工語(yǔ)音小很多,一次審校就能起到很好的質(zhì)量提升效果。因此,對(duì)于有競(jìng)爭(zhēng)力的作品,建議對(duì)AI語(yǔ)音進(jìn)行至少一次審校,在質(zhì)量和效率間尋找平衡點(diǎn)。
四、閱讀聽(tīng)書(shū)平臺(tái)AI合成語(yǔ)音的用戶(hù)接受
通過(guò)AI版作品和人工版作品的對(duì)比,可以看出聽(tīng)眾對(duì)AI合成語(yǔ)音的接受情況。對(duì)于在線(xiàn)閱讀平臺(tái),常常較難判斷讀者對(duì)作品的評(píng)價(jià)是基于文本還是AI語(yǔ)音,因此,筆者從不提供文本的有聲平臺(tái)入手,對(duì)597部AI樣本信息進(jìn)行統(tǒng)計(jì),播放量超過(guò)10萬(wàn)的73部作品中,有13部能在同一平臺(tái)搜索到人工版,且均為喜馬拉雅平臺(tái)的作品,這13部作品的播放量、評(píng)分、上傳時(shí)間等信息見(jiàn)表1。
1. AI版的用戶(hù)接受優(yōu)于人工版
從表1中的播放量看,人工版超過(guò)AI版的作品只有3部(分別為“梅花六有聲小說(shuō)”的《小地主(梅花六演播)》、“播小文”的《〈大秦賦〉全集劇情解說(shuō)》、“拔刀問(wèn)情”的《三國(guó)之宅行天下》),其中2部上傳時(shí)間早于AI版。其余10部中,AI版播放量更高,其中7部是在上傳時(shí)間晚于人工版的情況下依然勝出,彰顯了AI版強(qiáng)大的競(jìng)爭(zhēng)力。
從表1中的評(píng)分看,首先,從平均分看,兩個(gè)版本有評(píng)分者均為8部,AI版平均分為9.1,人工版平均分為8.7,AI版勝出。其次,從高分作品數(shù)量看,考慮到可比性,選取表中AI版和人工版均有評(píng)分者,即序號(hào)為3、4、5、6、7、13的6部作品做對(duì)比。4部AI版得分高于人工版(分別為《唐朝工科生》《無(wú)敵大魔王反派》《深海直播間》《我是林正英的僵尸徒弟》),2部AI版得分低于人工版(分別為《KN之我不是蛇精病》《我真的不是氣運(yùn)之子》),AI版勝出。
2. AI版用戶(hù)接受優(yōu)于人工版的原因
以上統(tǒng)計(jì)結(jié)果表明,聽(tīng)眾對(duì)AI版作品的接受度高于人工版。這一統(tǒng)計(jì)結(jié)果超出預(yù)期,但細(xì)致觀察分析后,不難發(fā)現(xiàn)其中一些深層的原因。
(1)更新頻率。通過(guò)表1中的上傳時(shí)間跨度和集數(shù)可以分別計(jì)算出AI版及人工版的更新頻率平均值,結(jié)果為AI版更新頻率9.1集/天,人工版1.1集/天??梢钥闯觯珹I版的更新頻率更快、更及時(shí),這與AI語(yǔ)音合成技術(shù)的優(yōu)勢(shì)有關(guān)。人工錄播模式下,一部有聲書(shū)的制作周期通常為數(shù)月,對(duì)于精品有聲書(shū),甚至長(zhǎng)達(dá)數(shù)年,而AI語(yǔ)音的生產(chǎn)效率可達(dá)同水平人工的500倍。[7]在催更的呼聲中,AI版更能滿(mǎn)足用戶(hù)的需求。
(2)集數(shù)。根據(jù)表1中的集數(shù)統(tǒng)計(jì)結(jié)果,首先,從單部作品看,除“拔刀問(wèn)情”的《三國(guó)之宅行天下》外,其他作品的人工版集數(shù)均少于(且大部分遠(yuǎn)少于)AI版。其次,從綜合對(duì)比看,通過(guò)表中的集數(shù)和作品數(shù)量可以分別計(jì)算出13部AI版及24部人工版作品集數(shù)的平均值,結(jié)果為AI版794集/部,人工版209集/部,前者為后者的近4倍。而無(wú)論是AI版還是人工版,每集的時(shí)長(zhǎng)均為10分鐘左右。因此可以看出,人工版不能善終、半途斷更現(xiàn)象非常普遍,AI版的集數(shù)通常更完整。
(3)價(jià)格。從表1中的價(jià)格數(shù)據(jù)可以看出,付費(fèi)作品共4部,均為人工版,AI版均免費(fèi),價(jià)格優(yōu)勢(shì)是AI版的又一競(jìng)爭(zhēng)力 。
AI語(yǔ)音技術(shù)提供商角度。語(yǔ)音合成技術(shù)投資大,但在科技向善和普惠的愿景下,技術(shù)免費(fèi)、增值服務(wù)收費(fèi),開(kāi)放平臺(tái)尋求軟硬件及內(nèi)容合作成為主要商業(yè)模式,收益并不高。因此,小公司的發(fā)展較為困難,需形成規(guī)模優(yōu)勢(shì)。國(guó)際上,AI語(yǔ)音專(zhuān)業(yè)公司基本都被Nuance收購(gòu)。國(guó)內(nèi)反壟斷管制嚴(yán)格,情況好很多,形成了專(zhuān)業(yè)公司(如標(biāo)桿企業(yè)科大訊飛)+互聯(lián)網(wǎng)公司(如百度語(yǔ)音、騰訊、搜狗、思必馳、出門(mén)問(wèn)問(wèn))+創(chuàng)業(yè)公司(如智能360、云知聲、阿里巴巴)+高校和科研機(jī)構(gòu)(如清華大學(xué)、中國(guó)科學(xué)技術(shù)大學(xué)、北京大學(xué)、中科院聲學(xué)所)競(jìng)爭(zhēng)發(fā)展的產(chǎn)業(yè)布局。[2]根據(jù)《2020年中國(guó)智能語(yǔ)音行業(yè)研究報(bào)告》,我國(guó)已有約250家企業(yè)參與智能語(yǔ)音市場(chǎng)。閱讀聽(tīng)書(shū)平臺(tái)要借此東風(fēng),加快有聲內(nèi)容智能化轉(zhuǎn)型的步伐。
有聲內(nèi)容提供方角度。專(zhuān)業(yè)的人工錄播投入成本高,首先需要編導(dǎo)、設(shè)備技術(shù)人員、主播等多角色參與,且按時(shí)計(jì)費(fèi),其次需要采用專(zhuān)用的設(shè)備、專(zhuān)業(yè)的錄播場(chǎng)地。對(duì)于普通網(wǎng)民而言,聲音錄制對(duì)設(shè)備、場(chǎng)地要求低,但音頻質(zhì)量也低。因此,要保證人工語(yǔ)音的質(zhì)量,就需要投入高昂的成本,而AI的成本為同水平人類(lèi)的1/80000。[7]對(duì)于閱讀聽(tīng)書(shū)平臺(tái)而言,可以充分發(fā)揮AI版的優(yōu)勢(shì),或?qū)I版作品作為探試市場(chǎng)的工具,以考慮后期是否出人工版。
3. 用戶(hù)高點(diǎn)播、高評(píng)分與以貶為主的評(píng)論間的矛盾
需要說(shuō)明的是,用戶(hù)評(píng)論是評(píng)判用戶(hù)接受的重要指標(biāo)之一,但在評(píng)論觀測(cè)過(guò)程中,筆者發(fā)現(xiàn)用戶(hù)評(píng)論內(nèi)容聚焦于質(zhì)量方面,故將其置于上一節(jié)質(zhì)量現(xiàn)狀部分。根據(jù)該節(jié)的用戶(hù)評(píng)論觀測(cè)結(jié)果,用戶(hù)對(duì)AI語(yǔ)音質(zhì)量褒貶不一,甚至以貶為主。但從表1的分析結(jié)果看,實(shí)際上大部分用戶(hù)選擇收聽(tīng)AI版作品,且給出了高分。點(diǎn)播、評(píng)分、評(píng)論的主體均為用戶(hù),而三者表現(xiàn)出的用戶(hù)接受為何會(huì)出現(xiàn)矛盾之處?
仔細(xì)觀察后發(fā)現(xiàn),差評(píng)用戶(hù)以AI語(yǔ)音的新聽(tīng)眾為主。“原來(lái)是機(jī)器人?。 薄爸鞑ツ軒c(diǎn)感情就好了”“這速度,主播是要趕著下班嗎?”“這主播肺活量真好,感覺(jué)一口氣能讀完一本書(shū)啊”,從評(píng)論內(nèi)容和語(yǔ)氣看,這些聽(tīng)眾剛知道甚至還不知道AI語(yǔ)音的存在。由于是AI語(yǔ)音新接觸者,不習(xí)慣這一新事物,給出差評(píng)也是可以理解的。用戶(hù)對(duì)AI語(yǔ)音的接受需要一個(gè)過(guò)程,相應(yīng)地,新聽(tīng)眾對(duì)AI語(yǔ)音也要多點(diǎn)耐心。目前的AI語(yǔ)音合成技術(shù)總體還處在初級(jí)智能階段,進(jìn)入閱讀聽(tīng)書(shū)平臺(tái)時(shí)間尚短,但質(zhì)量已經(jīng)有了較大的提升,老用戶(hù)已經(jīng)越來(lái)越習(xí)慣,有人甚至“愛(ài)上了這個(gè)寶藏聲音”,而且“已經(jīng)不習(xí)慣聲情并茂、戲份過(guò)多的真人演繹”。例如《首席醫(yī)官后傳(AI有聲書(shū))》有些用戶(hù)甚至聽(tīng)了3~6遍。①雖然依然有人吐槽AI語(yǔ)音像無(wú)感情的讀書(shū)機(jī)器人,但今天AI合成語(yǔ)音的違和感已經(jīng)很低了,自然度甚至達(dá)到并超過(guò)普通人水平,[8]技術(shù)服務(wù)提供商也在加大前進(jìn)的步伐,并將質(zhì)量提升作為重中之重,使AI合成語(yǔ)音不斷向人性化邁進(jìn)。
五、前景預(yù)測(cè)
綜上,閱讀聽(tīng)書(shū)平臺(tái)的AI合成語(yǔ)音呈現(xiàn)多元化發(fā)展態(tài)勢(shì),用戶(hù)接受趕超人工語(yǔ)音,但質(zhì)量有待進(jìn)一步提升。根據(jù)AI合成語(yǔ)音應(yīng)用于閱讀聽(tīng)書(shū)平臺(tái)以來(lái)的走勢(shì),以及AI語(yǔ)音技術(shù)的發(fā)展方向,不難做出如下判斷:閱讀聽(tīng)書(shū)平臺(tái)在保證基礎(chǔ)服務(wù),特別是產(chǎn)品質(zhì)量的基礎(chǔ)上,后期的工作重心將放在AI語(yǔ)音產(chǎn)品的二次開(kāi)發(fā)上,力求通過(guò)文化和發(fā)展模式的創(chuàng)新,為用戶(hù)帶來(lái)更豐富的產(chǎn)品和體驗(yàn)。
1. AI主播類(lèi)型進(jìn)一步豐富
首先,豐富AI主播選項(xiàng)成為閱讀聽(tīng)書(shū)平臺(tái)的開(kāi)發(fā)空間。在線(xiàn)閱讀平臺(tái)方面,各平臺(tái)主播可選范圍區(qū)別較大,如連尚免費(fèi)讀書(shū)平臺(tái)只有一個(gè)AI主播,而掌閱、QQ閱讀等平臺(tái)有十多個(gè)AI主播選項(xiàng);有聲平臺(tái)方面,目前用戶(hù)端AI主播不可選,此場(chǎng)景下,大眾音、普通話(huà)是保證播放量的做法,但這不利于聽(tīng)眾個(gè)性化需求的滿(mǎn)足。其次,方言成為滿(mǎn)足用戶(hù)個(gè)性化需求的新入口。方言作為可選項(xiàng),有利于增進(jìn)聽(tīng)眾的親切感。內(nèi)容方角度上,目前提供方言服務(wù)的平臺(tái)有掌閱、QQ閱讀、咪咕閱讀、米讀小說(shuō);技術(shù)方角度上,方言領(lǐng)域走在前端的訊飛有聲支持200種聲音,但大部分的方言還不行。再次,個(gè)性化語(yǔ)音定制將成為趨勢(shì)。早在2013年,科大訊飛為高德地圖定制了林志玲、郭德綱的導(dǎo)航語(yǔ)音包,[9]這種專(zhuān)業(yè)定制聲音的方式,現(xiàn)在普通網(wǎng)民用戶(hù)也可以輕易實(shí)現(xiàn)。2018年9月,訊飛閱讀推出定制聲音功能,用戶(hù)按要求朗讀1 000字左右的指定文本,上傳聲音后,系統(tǒng)會(huì)自動(dòng)采集音色,使用戶(hù)成為主播。2020年5月,與科大訊飛合作的咪咕閱讀開(kāi)始推出定制朗讀語(yǔ)言包。相信語(yǔ)音定制服務(wù)在各閱讀聽(tīng)書(shū)平臺(tái)的普及指日可待,未來(lái),每個(gè)人都可以自己當(dāng)主播。
2. 場(chǎng)景服務(wù)理念進(jìn)一步加強(qiáng)
首先,有望實(shí)現(xiàn)智能區(qū)分內(nèi)容場(chǎng)景,分角色匹配AI語(yǔ)音。語(yǔ)音合成可以發(fā)展到根據(jù)文本內(nèi)容,或人工對(duì)文本做特殊標(biāo)識(shí),AI自動(dòng)區(qū)分情景,并為各發(fā)言人匹配對(duì)應(yīng)的AI角色語(yǔ)音,甚至匹配適合該場(chǎng)景的情感,通過(guò)情景代入演繹出更完美的聲音。其次,有望實(shí)現(xiàn)場(chǎng)景分發(fā)機(jī)制,為聽(tīng)眾提供基于“場(chǎng)景+興趣”的AI語(yǔ)音推薦。用戶(hù)在不同時(shí)間、地點(diǎn)、場(chǎng)合,傾向于選擇收聽(tīng)的內(nèi)容、AI主播類(lèi)型、音量等均可通過(guò)該用戶(hù)的大數(shù)據(jù)分析得出,通過(guò)繪制千人千面的個(gè)人場(chǎng)景圖譜,完成場(chǎng)景分發(fā),逐步實(shí)現(xiàn)從感知智能向認(rèn)知智能的跨越。
3. 智能融合思維進(jìn)一步深化
首先,通過(guò)融入AI語(yǔ)音識(shí)別理解技術(shù)方便聽(tīng)眾互動(dòng)可能會(huì)成為閱讀聽(tīng)書(shū)平臺(tái)的剛需性應(yīng)用。人們聽(tīng)書(shū)常處于雙手、雙眼不便時(shí),所以,交互操作如果能通過(guò)語(yǔ)音喚醒、語(yǔ)音交互、人機(jī)對(duì)話(huà)指令來(lái)完成,聽(tīng)書(shū)將能適應(yīng)更多的場(chǎng)景,而這可以通過(guò)融入AI語(yǔ)音識(shí)別理解技術(shù)來(lái)實(shí)現(xiàn)。該技術(shù)是指將語(yǔ)音信息自動(dòng)轉(zhuǎn)換成數(shù)字設(shè)備可理解的文本信息,并給出正確的回應(yīng)。[10]目前,語(yǔ)音識(shí)別系統(tǒng)對(duì)普通話(huà)的識(shí)別準(zhǔn)確率可達(dá)98%,方言準(zhǔn)確率可達(dá)80%,[11]且支持中英語(yǔ)音混合輸入,語(yǔ)音識(shí)別理解技術(shù)已被應(yīng)用于智能客服、智能電子設(shè)備(如小愛(ài)音箱)等領(lǐng)域。因此,閱讀聽(tīng)書(shū)平臺(tái)已經(jīng)具備通過(guò)語(yǔ)音指令實(shí)現(xiàn)人機(jī)交互的技術(shù)條件。其次,為了迎接“5G+物聯(lián)網(wǎng)”的時(shí)代變革,閱讀聽(tīng)書(shū)平臺(tái)已經(jīng)開(kāi)始對(duì)接智能家居、智能穿戴、智能車(chē)載系統(tǒng)等聲音驅(qū)動(dòng)設(shè)備,未來(lái),融合將進(jìn)一步加深,AI語(yǔ)音系統(tǒng)格局將被拓寬,閱讀場(chǎng)景越來(lái)越豐富,聽(tīng)書(shū)越來(lái)越便捷。
結(jié)語(yǔ)
AI合成語(yǔ)音改變了閱讀聽(tīng)書(shū)的方向,為語(yǔ)音信息的生成和傳播提供了新的選擇,且更加高效、便捷。用戶(hù)的支持和熱情使閱讀聽(tīng)書(shū)越來(lái)越成為AI合成語(yǔ)音技術(shù)重要的應(yīng)用場(chǎng)景,但AI語(yǔ)音質(zhì)量提升需要技術(shù)商和內(nèi)容商的共同發(fā)力。作為具有顛覆性的技術(shù),AI合成語(yǔ)音帶來(lái)的影響是深遠(yuǎn)的。作為初入局的閱讀聽(tīng)書(shū)平臺(tái),對(duì)其輕視可能意味著與強(qiáng)者地位失之交臂。[12]在AI語(yǔ)音技術(shù)取得日新月異發(fā)展的當(dāng)下,閱讀聽(tīng)書(shū)平臺(tái)要做好靈活應(yīng)對(duì)甚至切換賽道的準(zhǔn)備。相信在價(jià)值堅(jiān)守與創(chuàng)新驅(qū)動(dòng)的雙重加持下,AI語(yǔ)音與閱讀聽(tīng)書(shū)的融合可以更好地服務(wù)社會(huì),促進(jìn)文化的傳播。
參考文獻(xiàn):
[1] 王秋:2022年中國(guó)將成有聲書(shū)市場(chǎng)第一大國(guó) 用戶(hù)將達(dá)5.62億[EB/OL].[2020-10-20].http://finance.sina.com.cn/meeting/2020-10-21/doc-iiznezxr7205015.shtml.
[2] 牛祿青. 智能語(yǔ)音時(shí)代來(lái)臨——專(zhuān)訪(fǎng)清華大學(xué)電子工程系副教授吳及[J]. 新經(jīng)濟(jì)導(dǎo)刊,2013(7):32-37.
[3] 郝麗娜. 新媒體形勢(shì)下智能語(yǔ)音的發(fā)展[J]. 新媒體研究,2018(5):35-36.
[4] 姚爭(zhēng),劉力軍,張樹(shù)楠. 智能語(yǔ)音技術(shù)視域下播音與主持專(zhuān)業(yè)應(yīng)變策略研究——基于申報(bào)國(guó)家一流專(zhuān)業(yè)建設(shè)點(diǎn)的數(shù)據(jù)分析[J]. 吉林藝術(shù)學(xué)院學(xué)報(bào),2020(4):48-59.
[5] IT之家. 微軟人工智能語(yǔ)音技術(shù)支持“多情感程度”調(diào)節(jié),細(xì)膩演繹“人聲”[EB/OL].[2021-04-12].https://baijiahao.baidu.com/s?id=1696822476206922372&wfr=spider&for=pc.
[6] 喻國(guó)明,王文軒,馮菲,等. 合成語(yǔ)音新聞的傳播效果評(píng)測(cè)——關(guān)于語(yǔ)速影響的EEG證據(jù)[J]. 國(guó)際新聞界,2021(2):6-26.
[7] 劉一鳴,高玥. 人工智能語(yǔ)音在有聲讀物中的應(yīng)用研究[J]. 出版發(fā)行研究,2019(11):35-39.
[8] 張建中. 聲音作為下一個(gè)平臺(tái):智能語(yǔ)音新聞報(bào)道的創(chuàng)新與實(shí)踐[J]. 現(xiàn)代傳播,2018(1):148-153.
[9] 于繼棟,劉勝男. 當(dāng)傳媒業(yè)遇到智能語(yǔ)音技術(shù)[J]. 中國(guó)傳媒科技,2015(7):14-17.
[10] 李剛. 智能語(yǔ)音識(shí)別技術(shù)的架構(gòu)與設(shè)計(jì)[J]. 電腦知識(shí)與技術(shù),2018(18):175-177.
[11] 朱飛虎,徐康生. 智能語(yǔ)音平臺(tái)上媒體的發(fā)展邏輯[J]. 新聞世界,2018(10):36-38.
[12] 石群峰. 智能語(yǔ)音催生傳媒發(fā)展新機(jī)遇[J]. 中國(guó)傳媒科技,2015(7):18.
Application Progress, Quality Status and User Acceptance of? AI Synthetic Voice on Reading and Listening Platforms
SUN Yan-hua(College of Communication, Qingdao University of Science and Technology, Qingdao 266061, China)
Abstract: AI synthetic voice has the advantages of intelligence, standardization and low production threshold, and increasingly become a new favorite on the audiolization of reading and listening platforms. The evaluation observation, listening and proofreading experiment results show that there is still much room to improve the AI synthetic voice quality on the reading and listening platforms. As to the problems of weak emotion, a lack of smoothness and fast speed, we can improve them by the combination of AI technology and manual labor, emphasizing the role of punctuation, designing original speed as 270-290 words / min, proofreading and so on. Judging from the playback volume and rating, the users' acceptance of the AI versions is better than that of the manual version, which is related to the timely updating, less interruption and price advantage of the AI version. Providing users with richer products and better services through the secondary development of AI voice products will become the focus of the reading and listening platforms in the future stage.
Key words: reading and listening platform; AI synthetic voice; application; quality; user acceptance