亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

AI播音與人工播音的語音差異性考察

2020-09-12 14:16:20姜澤瑋

新聞世界 2020年9期

姜澤瑋

【摘? ? 要】隨著人工智能語音技術(shù)與播音行業(yè)的接軌，AI播音逐漸開始在新聞媒體中嶄露頭角。本文以新華社APP的AI新聞播音為對象，從中國播音學(xué)、漢語語音學(xué)的角度，通過定量定性結(jié)合的實(shí)證研究，從速度、語音、停頓、重音四個角度入手，對AI播音與人工播音的差異性作出分析。今后人工智能語音合成技術(shù)的研究應(yīng)首先重點(diǎn)把握AI播音中的具象層面問題，從“詞團(tuán)內(nèi)部語流速度”、“音節(jié)的聲調(diào)調(diào)值”、“句中停頓”以及“重音的表現(xiàn)形式”四個角度入手，在現(xiàn)有的理論基礎(chǔ)與技術(shù)條件下有針對性地進(jìn)一步完善AI播音的質(zhì)量。

【關(guān)鍵詞】AI播音;語速;調(diào)值;停頓;重音

一、前言

近年來人工智能語音技術(shù)正不斷與播音行業(yè)接軌，機(jī)器人主播這一新形態(tài)的播音主體應(yīng)運(yùn)而生。所謂AI（人工智能）播音，是基于智能語音技術(shù)中的語音合成技術(shù)（Text to Speech，TTS），首先由計(jì)算機(jī)對播音文本進(jìn)行分析處理，再將已有語音庫的聲音樣本通過各項(xiàng)合成規(guī)則與算法模型形成韻律、音節(jié)與波形，最終將合成的語音進(jìn)行輸出的過程。語音合成的發(fā)展經(jīng)歷了機(jī)械式語音合成、電子式語音合成和基于計(jì)算機(jī)的語音合成發(fā)展階段，[1]近年來DNN深度學(xué)習(xí)網(wǎng)絡(luò)以及“自適應(yīng)說話人技術(shù)”的產(chǎn)生使語音合成技術(shù)進(jìn)入了一個新的階段。[2][3]但目前的人工智能語音技術(shù)仍然處于初級階段，在播音領(lǐng)域內(nèi)尚不能具備普適性的應(yīng)用空間，但隨著人工智能語音技術(shù)的科學(xué)研發(fā)不斷進(jìn)步，未來將能夠擁有越來越廣泛的應(yīng)用空間。[4]對于AI播音的研究，不僅需要計(jì)算機(jī)科學(xué)的技術(shù)研究，也需要傳媒、播音業(yè)界、學(xué)界從應(yīng)用角度進(jìn)行分析，進(jìn)而對現(xiàn)有AI技術(shù)的研發(fā)成果提出問題，對今后技術(shù)的繼續(xù)完善與開發(fā)提供借鑒。隨著AI播音的應(yīng)用與發(fā)展，國內(nèi)近年來的相關(guān)研究基本圍繞著AI播音未來的發(fā)展前景、應(yīng)用方向以及傳統(tǒng)播音主持業(yè)務(wù)、教育面對新技術(shù)應(yīng)作出的調(diào)整等議題上進(jìn)行了宏觀層面的探討。[5][6]在先前關(guān)于AI播音的討論中，情感問題被普遍認(rèn)為是AI播音工作的短板，[7]機(jī)器無法擁有人類的真實(shí)情感，只能通過“模擬”來仿造情感，[8]而語言的傳播過程終究是一種建立在個人思想與情感之上的思維活動。[9]人工智能的情感在當(dāng)前技術(shù)發(fā)展水平仍處于弱人工智能的前提下，難以做到大幅度提升與本質(zhì)上的改變。除情感問題之外，AI播音的語言本身也存在問題，即播讀速度、字音、聲調(diào)、停頓、重音等問題。本文將通過微觀層面的實(shí)證研究，以新華社APP中消息類新聞的AI語音播報(bào)為對象，從速度、語音、停頓、重音四個方面入手，基于中國播音學(xué)、漢語語音學(xué)的角度，定性定量結(jié)合地對AI播音與人工播音的具體差異作出實(shí)證分析。一方面為人工智能語音技術(shù)今后的開發(fā)研究提供借鑒，另一方面對先前學(xué)界關(guān)于AI播音的相關(guān)研究進(jìn)行驗(yàn)證與補(bǔ)充。

二、新華社APP中AI新聞播音研究

（一）AI播音的速度考察

1.播音平均速度

播音平均速度指單個稿件中播音的平均速度，基于單個稿件的總字?jǐn)?shù)與播音凈時間計(jì)算，以字符/秒的單位呈現(xiàn)。播音平均速度可以反映出相同時間內(nèi)信息傳播量的多少，但由于播音工作中存在對稿件“重音停連”的處理，因而平均速度與受眾聽覺中的“快慢”、“舒緩”或“緊湊”有時不一定準(zhǔn)確對應(yīng)。本研究于2019年7月10日至8月10日的30天內(nèi)在新華社APP時政類新聞的AI語音播報(bào)中每日隨機(jī)抽取一篇新聞作為樣本分析，統(tǒng)計(jì)稿件字?jǐn)?shù)（標(biāo)點(diǎn)符號記為1字符，空格不計(jì)字符）與播讀凈時間，并測算播讀的平均速度，以“字符/秒”的形式進(jìn)行統(tǒng)計(jì)。并同樣于此30天內(nèi)在CCTV《新聞聯(lián)播》節(jié)目中的“聯(lián)播快訊”板塊內(nèi)每日隨機(jī)抽取一條新聞作為樣本，以同樣的方式對其播讀時間、稿件字?jǐn)?shù)進(jìn)行統(tǒng)計(jì)，并計(jì)算出每條新聞的平均播讀速度，以“字符/秒”的形式進(jìn)行統(tǒng)計(jì)。之后將兩組平均播讀速度的樣本數(shù)據(jù)錄入IBMSPSS軟件進(jìn)行描述統(tǒng)計(jì)分析，生成兩組數(shù)據(jù)的直方圖，見組圖1。

通過對上述兩組平均播讀速度樣本的直方圖對比，可以發(fā)現(xiàn)AI播音的平均語速慢于人工播音的語速，每秒相差0.82個字符;且AI播音樣本的標(biāo)準(zhǔn)差為0.09，離散度較低，而人工播音樣本的標(biāo)準(zhǔn)差為0.491，離散度較高。由此可以看出AI播音的風(fēng)格存在同質(zhì)化的問題，當(dāng)受眾聽到每日的新聞播報(bào)都是同一個語速時，將可能產(chǎn)生聽覺疲勞。而不同的人工播音員之間播讀速度差異較大，即便是同一位播音員在不同時期、播讀不同稿件時的播音速度也有較大差異。[10][11]

2.語句詞團(tuán)內(nèi)部語流速度

漢語語句在聲音傳播的形式下會呈現(xiàn)出由多個“詞團(tuán)”構(gòu)成的態(tài)勢，所謂詞團(tuán)即漢語語句內(nèi)部詞與詞之間的聚合情況。[12]語句詞團(tuán)內(nèi)部語流速度則指這種聚合的快慢，也就是播音學(xué)中常常談到的“語句停連”中“連”的部分的速度快慢。因?yàn)樵~團(tuán)的構(gòu)成不具有固定化的特性，[13]因而難以對詞團(tuán)內(nèi)部語流速度作出量化分析。本研究對新華社APP中時政類新聞的AI語音播報(bào)與CCTV《新聞聯(lián)播》中時政類新聞播音進(jìn)行了對比考察，發(fā)現(xiàn)對于人工播音而言，其中不同詞團(tuán)內(nèi)部的語流速度差異比較明顯，簡而言之便是有的詞團(tuán)內(nèi)部播讀速度相對較快，而有的詞團(tuán)播讀速度則較慢，這種快慢之間的差異性遠(yuǎn)高于AI播音的語流。AI播音對于不同詞團(tuán)內(nèi)部的播讀速度并無太大區(qū)別，例如以下一段新聞文稿，摘自CCTV《新聞聯(lián)播》節(jié)目2019年8月4日國內(nèi)快訊：

“2019全球電競大會今天（3日）在上海舉行，同時啟動上海電競周活動。本次大會就產(chǎn)業(yè)發(fā)展、體系建設(shè)、商業(yè)思考、業(yè)態(tài)新增長等角度展開討論。會上還發(fā)布了首個《電競場館建設(shè)規(guī)范》和《電競場館運(yùn)營服務(wù)規(guī)范》。”

其中，“2019全球電競大會”作為一個詞語聚合的詞團(tuán)，播讀速度相對較快;“產(chǎn)業(yè)發(fā)展、體系建設(shè)、商業(yè)思考、業(yè)態(tài)新增長”這一組并列關(guān)系的詞語的播讀速度較慢;“電競場館建設(shè)規(guī)范”、“電競場館運(yùn)營服務(wù)規(guī)范”這兩個詞團(tuán)的播讀速度則明顯緩慢。而對于AI播音而言，不同詞團(tuán)內(nèi)部的播讀速度則大體一致，并沒有人工播音時那樣顯著的快慢區(qū)別。

2.句中停頓

“句中停頓”指播音語流在沒有標(biāo)點(diǎn)符號的位置處進(jìn)行停頓的現(xiàn)象，屬于播音員對稿件的“創(chuàng)作”過程，人工播音與AI播音在停頓方面最主要的差異在“句中停頓”。“句中停頓”主要基于上文談到的播音工作中對“詞團(tuán)”的劃分，通?！霸~團(tuán)”之間會產(chǎn)生停頓，“詞團(tuán)”內(nèi)部會產(chǎn)生“聚合”。為更好地呈現(xiàn)AI播音與人工播音時“句中停頓”的差異，將新華社APP中時政新聞的AI語音播報(bào)與CCTV《新聞聯(lián)播》節(jié)目的時政新聞播音做對比，分別抽取三篇（部分）內(nèi)容完全相同的新聞稿：1）“李克強(qiáng)簽署國務(wù)院令公布《國務(wù)院關(guān)于修改〈烈士褒揚(yáng)條例〉的決定》，2019-08-09”、2）“新華社評論員：美方踐踏國際規(guī)則終將失敗，2019-08-09”、3）“王岐山會見法國總統(tǒng)外事顧問，2019-07-19”的播音音頻作為樣本，對各自的“句中停頓”進(jìn)行研究，見表3。

據(jù)表3中 AI播音與人工播音在“句中停頓”次數(shù)上的對比可以發(fā)現(xiàn)，AI播音的“句中停頓”次數(shù)遠(yuǎn)低于人工播音，且消息類新聞的“句中停頓”次數(shù)比例差高于評論類文章。除數(shù)量之外，《新聞聯(lián)播》播音員對于“句中停頓”的時間處理更為靈活，而AI播音對于“句中停頓”的時間均呈現(xiàn)一致。人工播音員不僅在明顯的“句中停頓”數(shù)量上遠(yuǎn)高于AI播音，在不作停頓處理的句子中因不同“詞團(tuán)”內(nèi)部語流速度存在變化，最終在聽覺上呈現(xiàn)的“節(jié)奏感”則遠(yuǎn)高于AI播音。

（四）AI播音的重音考察

播音工作中的“重音”是稿件中相對重要且需要被強(qiáng)調(diào)的字、詞或短語。重音的強(qiáng)調(diào)、突出是在與非重音的對比中實(shí)現(xiàn)的，主要表現(xiàn)為輕重、虛實(shí)、長短、抑揚(yáng)等的對立統(tǒng)一。[15]在實(shí)際播讀中通常會以降低播讀速度、加大字音飽滿度、提高音量、改變音色等表現(xiàn)手法來體現(xiàn)重音。筆者通過對新華社AI新聞?wù)Z音播報(bào)的觀察研究發(fā)現(xiàn)，現(xiàn)階段的AI播音并非不存在重音的處理，只是對于重音的處理方式過于簡單，基本上以單純增大重音詞語的音量為手段，導(dǎo)致聽覺感受上的“突?！?。而人工播音員對于重音的處理更加多樣化。決定停連和重音的原因是多方面、復(fù)雜的，[16]重音處理又與播音員情感的聯(lián)系較為緊密，人類自然情感下的重音表現(xiàn)更加細(xì)膩。因而單純從物理角度很難對重音的表現(xiàn)形式進(jìn)行量化，重音問題也將是今后長期內(nèi)AI播音難以突破的壁壘。但對于現(xiàn)階段的人工智能語音合成技術(shù)而言，雖然不能做到完全模仿人類的自然情感，但仍然可以在字音飽和度、播讀速度等方面對重音進(jìn)行進(jìn)一步的細(xì)化處理，使重音的表現(xiàn)形式更加立體、飽滿。

結(jié)語

本文通過速度、字音、停頓、重音四個部分對AI播音與人工播音的差異性進(jìn)行了定量定性結(jié)合的研究。綜上所述，當(dāng)前AI播音在一定程度上已經(jīng)可以擔(dān)起新聞播報(bào)的功能，但與國家級媒體的專業(yè)播音員相比仍然存在較大差距，在速度、重音、停頓以及字音四個方面均存在不同程度的差異性。除本文談及的幾個具象方面外，作為抽象存在的情感問題也是AI播音與人工播音員之間極其重要的差別，今后人工智能語音合成技術(shù)的開發(fā)研究應(yīng)重點(diǎn)把握AI播音中的具象層面問題，從“詞團(tuán)內(nèi)部語流速度”、“音節(jié)的聲調(diào)調(diào)值”、“句中停頓”以及“重音的表現(xiàn)形式”四個角度入手，在現(xiàn)有的理論基礎(chǔ)與技術(shù)條件下有針對性地進(jìn)一步完善AI播音的質(zhì)量。對于人工智能播音與播音員隊(duì)伍之間的關(guān)系，在相當(dāng)長的時間內(nèi)并不會產(chǎn)生明顯的替代性，隨著技術(shù)的發(fā)展，未來會向著“人機(jī)協(xié)作、互補(bǔ)發(fā)展”的方向演進(jìn)。人工智能播音作為一項(xiàng)傳媒界的新鮮事物，今后的研發(fā)與應(yīng)用將是一條漫長的道路，未來會面臨更多的困難與挑戰(zhàn)，需要多學(xué)科、多領(lǐng)域的長期不斷研究、實(shí)踐與探索。

注釋：

[1]張斌，全昌勤，任福繼.語音合成方法和發(fā)展綜述[J].小型微型計(jì)算機(jī)系統(tǒng)，2016（01）.

[2]FahimehBahmaninezhad，HosseinSameti，HMM-

based persian speech synthesis using limited adaptation[C].2012 IEEE 11th In- ternational Conference on Data Signal Processing（ICSP），2012：21-25.

[3]Junichi Yamagishi，TakashiNose，HeigaZen，et al. Robust speaker- adaptive HMM-based text-to-speech synthesis[J]. IEEE Transac- tions on Audio，Speech，and Language Processing，2009，17（6）.

[4][5]翁佳.智能語音技術(shù)對播音主持專業(yè)與行業(yè)影響探究[J].電視研究，2017（12）.

[6]李穎.人工智能技術(shù)在播音主持領(lǐng)域的應(yīng)用[J].中國廣播電視學(xué)刊，2018（11）.

[7]謝曉旻，林小玨.人工智能為播音與主持藝術(shù)專業(yè)帶來的新思考[J].當(dāng)代電視，2018（11）.

[8]劉悅笛.人工智能、情感機(jī)器與“情智悖論”[J].探索與爭鳴，2019（06）.

[9]樊強(qiáng).語言學(xué)視域下言語行為的影像建構(gòu)研究[J].西安外國語大學(xué)學(xué)報(bào)，2018（12）.

[10]劉迎新.新聞播音語言停連模式的時代特點(diǎn)分析[J].現(xiàn)代傳播，2015（03）.

[11]劉琦.淺論廣播新聞播音的時代語言與語速[J].中國廣播，2009（07）.

[12][13]樊強(qiáng).人工智能（AI）播音語鏈內(nèi)生成結(jié)構(gòu)研究[J].電視研究，2019（02）.

[14]宋欣橋.“普通話水平測試”評分中的幾個問題[J].語言文字應(yīng)用，1997（08）.

[15]李水仙.新聞播音中的重音處理[J].河南大學(xué)學(xué)報(bào)（社會科學(xué)版），2002（01）.

[16]姚喜雙.文章做在耳朵上——聽覺是確定播音停連和重音位置的重要依據(jù)[J].語言文字應(yīng)用，1992（09）.

（作者：西北大學(xué)新聞傳播學(xué)院碩士研究生）

責(zé)編：姚少寶

新聞世界2020年9期

新聞世界的其它文章: 中華傳統(tǒng)文化融入播音主持專業(yè)教育的路徑與方法; 全媒體環(huán)境下新聞學(xué)專業(yè)實(shí)踐教學(xué)改革探索; 廉政公益廣告中多模態(tài)隱喻的建構(gòu)與創(chuàng)意; 試論媒體傳播如何助推基層治理; 地方高校廣告學(xué)專業(yè) 實(shí)踐教學(xué)體系優(yōu)化路徑分析; 淺談視頻“畫面寬高比” 在互聯(lián)網(wǎng)環(huán)境下的發(fā)展