文/王姝雅
2019年央視網(wǎng)絡春晚,AI虛擬主播“小小撒”首次上崗,中國中央電視臺與真人撒貝寧同臺合作。“小小撒”打破了大眾對機器人主持“提前輸入好固定文本”的刻板印象。在節(jié)目進行過程中,小小撒隨機應變參與控場,與撒貝寧和觀眾互動、打趣。背后的技術方表示,打造一個這樣的AI仿生主播,僅僅需要30分鐘。
所謂的AI技術就是人工智能(Artificial Intelligence),英文縮寫為AI。它是研究、開發(fā)用于模擬、延伸和擴展人的智能的理論、方法、技術及應用系統(tǒng)的一門新的技術科學。 人工智能從誕生以來,理論和技術日益成熟,應用領域不斷擴大。?
近年來,隨著人工智能概念的推出,語音交互成了一個熱點,智能助手、智能客服等應用層出不窮。在語音交互中,主要有三個關鍵技術,即語音識別、語音合成和語義理解,語音合成在其中的作用顯而易見。大眾相對了解的“聲音轉文字”的技術,稱為ASR技術(Automatic Speech Recognition,語音識別)。而所謂的TTS技術(Text-To-Speech,語音合成)就是“文字轉化為聲音”再播讀出來,如今在很多手機和智能產(chǎn)品中應用,例如蘋果的Siri、三星的Bixby、小米的小愛同學、Vivo的Jovi等聲音都是應用TTS技術生成的。
語音合成就是以一種靈活的方式,只用極少數(shù)的基礎數(shù)據(jù),將語音波形文件重現(xiàn)。當前,語音合成研究已經(jīng)進入“文字-語音轉換(TTS)階段”,它的功能主要模塊可以劃分3大板塊:數(shù)據(jù)分析、聲音模型建立以及語音合成調(diào)整。概括起來說,語音合成的主要功能是:從語料庫中提取適合的語音元素,用TTS技術對語音元素進行符合人類語言習慣的修改和整合,最終輸出符合人類聽覺習慣的語音。
人工智能語音合成技術在新聞播報領域運用時間更長、范圍更廣。在文本信息轉音頻方面,最早為了解放人們的雙眼,2016年,央視新聞客戶端、新華社客戶端率先推出智能語音播報,用戶只要在界面旁邊的小按鈕一點就可以完整順暢地聽完所選擇的新聞播報。這樣新媒體客戶端的廣泛應用對于受眾而言提供了更多的便捷。首先,用戶對這類有聲語言表達有非常大的寬容度。試想,在碎片時間獲取核心新聞資訊,雖然聲音整體表達美感不及真實主播,但誰又會在獲取信息之后再花費時間去聽主播進行播讀呢?其次,也是對用戶私人定制化內(nèi)容乃至聲音類型的滿足。以往的新聞音頻節(jié)目,用戶處于一個被動接收的地位,釋放雙眼做事情和聽感興趣的新聞成為二選一的選項。對于新媒體客戶端而言,低成本、高效率、無限長的工作時間、零失誤率,這顯然是現(xiàn)在乃至不久將來人工智能大施拳腳的空間。
在文本信息轉視頻方面,在2018年第五屆世界互聯(lián)網(wǎng)大會上,搜狗和新華社聯(lián)合推出全球第一個AI合成男主播“新小浩”,到2019年2月19日推出首個AI女主播“新小萌”。這一項技術充分運用尖端人工智能,是進一步推進從媒介融合向媒體縱深發(fā)展的最新成果。新推出的AI合成主播采用了搜狗公司的“分身”技術,打造出聲音更具情感、表情以及唇動效果更加逼真自然、副語言運用更加恰當?shù)闹鞑バ蜗?,讓AI主播更有溫度、更加貼合真人的播講習慣。同時,還可以適用于坐播或者站播等多樣播講方式,極大地豐富了AI主播的主持樣態(tài),拓展了應用領域。在工作效率方面,不僅可以每天24小時不停歇地提供服務,還掌握多國語言,只需后臺輸入所需播出文字內(nèi)容就可以在短時間內(nèi)高質量生成相應播讀視頻,展現(xiàn)與真人主播姿態(tài)、表情、聲音無異的信息傳達效果。AI合成主播上線后立即投入到新聞報道中并實現(xiàn)量產(chǎn),參與了包括第五屆世界互聯(lián)網(wǎng)大會、2019年的春運等重要報道。這些報道憑借人工智能高度的信息整合優(yōu)勢,充分結合圖片、視頻、文字等各個元素,形成一系列擁有較強可讀性的融媒體新聞產(chǎn)品。
2018年,中央電視臺制作了世界上第一部全片運用人工智能和智能語音技術配音的紀錄片——《創(chuàng)新中國》,讓已逝著名配音家李易老師的聲音重現(xiàn)熒屏,并且將李易老師低沉磁性的音色模仿得淋漓盡致。這是運用精準的算法和量化手段, 將過去配音的紀錄片中聲音素材進行提取和重組, 并且使更加貼合原聲對字、句的停連變化的相關技術算法實現(xiàn)突破。
人工智能語音合成技術對人類聲音的模擬和再塑造,在《創(chuàng)新中國》之前就已經(jīng)得到普及應用, 比如高德地圖運用林志玲、楊洋等明星的聲音素材進行導航;Angela baby(楊穎)聲音版本的天氣播報;有聲小說解放使讀者看書不再枯燥……這一系列的AI配音充分體現(xiàn)了人工智能在配音領域的廣泛運用。
在一些成本預算較低的低端廣告配音市場,由于語言生硬、腔調(diào)固定的特點與語音合成在建立聲紋模型之后不斷復刻所產(chǎn)生的效果特征相似。人工智能利用語音合成技術,可以大大降低配音的成本和周期,并且通過算法調(diào)整完美達到廣告商的個性化需求,甚至可以通過調(diào)整聲紋模型,形成該品牌獨有的聲音標志。由此可見,人工智能在不久的將來可能會觸動低端廣告配音工作者的奶酪。
AI的一些衍生技術應用于媒體傳播領域,在美國天氣頻道(The Weather Channel),利用AR和MR技術的結合制造出逼真的場景,并把這種技術稱為IMR(Immersive Mixed Reality,沉浸式混合現(xiàn)實)。它把360度高清視頻、基于實時數(shù)據(jù)的增強和虛擬現(xiàn)實元素以及經(jīng)驗豐富的實況播報員有機結合起來,帶領觀眾體驗真實的天氣狀況,?從而使觀眾可以想象,如果自身處于這種情況,該如何自我保護。完美的視覺效果配合主持人的演技和講解,讓觀眾仿佛身臨其境于惡劣天氣的中央,所產(chǎn)生的播出效果不僅沒有那么死板無聊,反而像VR游戲、災難類影片一樣引人入勝。在介紹美國大颶風時,隨著“洪水”效果的變化,主持人站在洪水中央,表演與講解結合向觀眾展示天氣局勢,然后提供自我保護的建議。
結果顯示,干預1學年后,兒童進行休閑性體力活動時間明顯增加(469.31±345.89 min vs 563.10±345.88 min,P=0.005)。體力活動水平不足(<180 min/周)的比例明顯下降(P=0.003)。尤其是每周體力活動時間≥300min的比例明顯增加(P=0.029)。見表2。但干預前后屏幕時間差異無顯著性,7.00±50419 vs 6.13±5.838, P=0.085。
沉浸式混合現(xiàn)實技術在媒體領域的充分運用,讓觀眾在直觀獲取信息的同時給予視覺上的享受與互動。通過觀眾的一致好評以及技術的不斷進步,可以看出“一個更好的(天氣)故事講述者”不僅是天氣預報節(jié)目的未來,更是媒體行業(yè)進步的一個方向。在這類技術的推動下,主持人身臨其境的演技顯得尤為重要。
人工智能技術雖然憑借高效率低成本,以及可以打破時空局限讓場景和聲音再現(xiàn)等獨特優(yōu)勢替代了播音一部分領域的工作,但由于它們過于“理性”而“感性”不足,這很大程度決定了其在具有藝術性的播音主持領域很難全面取代人類主持。面對人工智能這個潛在的競爭“對手”,我們更應該尋找自身不可替代的獨特優(yōu)勢加以發(fā)揚。
鳳凰衛(wèi)視主持人吳小莉曾說:“機器人會替代我的體溫、但不會替代我說話的溫度?!钡拇_,人工智能主持人雖“智”而不“能”,就算其再智能歸根到底是機器以及背后的程序代碼,想要達到人類的情感高度還需要更久的時間。
相比人工智能,主持人的不可替代之處在于他們的主持是有溫度的,飽含濃濃的人文情懷。在2017年的《開學第一課》上,董卿在采訪著名翻譯家許淵沖老先生時,因為老先生腿腳不便只能坐在輪椅上。董卿在主持過程中數(shù)次為老人蹲下,甚至跪得更低。這樣的一個細節(jié)不僅照顧了輪椅上的老人而且還表達了對老人的尊重,贏得觀眾的一致好評。
在人工智能迅速發(fā)展的背景下,“做一個更有溫度的主持人”是播音主持行業(yè)和學校學習需更加注重的一項。微笑、點頭、姿態(tài)、眼神及身體接觸等副語言的表達都是一個優(yōu)秀主持人必不可少的素質。如何讓主持人植根內(nèi)心的人文情懷帶給觀眾更加溫暖的觀感體驗,是提高當代主持人核心競爭力的要素之一。
如今,AI主播后期所有的表情動作都依賴最開始錄制模擬的真人主播的動作素材,再后期進行自我整合而成的??梢韵胂?,動作素材的單一化可能適用于一些肢體語言并不豐富的節(jié)目類型,帶有很大程度的局限性。
因此,在主持人表演元素的融合和培養(yǎng)方面,我們可以發(fā)現(xiàn),如今表演元素不僅在綜藝節(jié)目中廣泛運用,甚至在新聞播報、天氣預報等在大眾觀念上較嚴肅的節(jié)目類型中出現(xiàn)?!把胍暥巫邮帧敝鞆V權,將新聞通過精心設計的押韻的語句講出,觀眾網(wǎng)友對此熱烈反響,可以引發(fā)我們關于“主持人表演性”的思考。
互聯(lián)網(wǎng)核心的思維是在一體化環(huán)境下,由傳統(tǒng)宣傳思維轉變?yōu)橐龑季S、對話思維、服務思維等大互聯(lián)網(wǎng)思維。的確,人工智能時代我們更應該做到的就是思維的轉變升級。從美國的TWC運用的沉浸式混合現(xiàn)實技術與主持人的演技呈現(xiàn)的天氣預報,到如今江蘇衛(wèi)視等各大衛(wèi)視先后引進“融媒體新聞演播室”,再至“一帶一路”紀錄片歐陽夏丹互動式講解等一系列舉措,我們可以看到播音主持領域的新風向——只會坐著的“念稿機器”隨時有被替代的可能性。根據(jù)節(jié)目類型適當融入表演元素以及高校開設播音主持專業(yè)表演課程,更好地應對當下乃至未來的節(jié)目形態(tài)升級是非常有必要的。
如今,開發(fā)者仍在不斷嘗試訓練和提高人工智能的自學能力,但由于其抽象能力較差往往需要更多的訓練樣本,即使擁有較高的自學能力人工智能也很難具備記者型主持人和突發(fā)事件的主持的相關能力。例如,對現(xiàn)場的敏感、語言的接地氣、出鏡地點的選擇、道具的妥善運用,等等。
就像在主持直播現(xiàn)場時經(jīng)常會遇到各種突發(fā)情況,而主持人最大的功能就是讓節(jié)目完整銜接、順利進行。湖南衛(wèi)視主持人汪涵在《我是歌手》總決賽時遭遇孫楠意外退賽,在所有人不知所措時,汪涵短暫的幾秒鐘的準備,應急說了一段入情入理的主持詞,讓湖南衛(wèi)視、孫楠和觀眾各方都釋然,讓現(xiàn)場氣氛繼續(xù)高漲,成為主持界的范本。而對于人工智能,即使有再多的訓練樣本、再高的自學能力,也很難完美、有人文關懷地應對突如其來的現(xiàn)場事故。
同樣,對于同一個新聞話題而言,不同的切入角度就會產(chǎn)生不同的效果。雖然人工智能在未來會改善提高自學能力,但就邏輯角度的靈活度而言很難達到人類這樣能隨著易變因素而改變策略的策劃分析。在如今通信工具極為方便的時代,角度切入引人入勝的重要性可見一斑。
因此,在人工智能時代的媒體行業(yè)中,對從業(yè)者的報道角度、邏輯線條、融媒體意識等方面有了更高的要求。白巖松在接受人民網(wǎng)專訪時曾談道:好的記者都是啄木鳥,而不是喜鵲,不是天天讓人開心,應該從“小我”中能有所跳離,去關注一個時代,憂心忡忡地看到很多問題,并希望它改變。的確,主持人既可以從同一新聞的不同角度進行切入,形成不同的播出效果;也可以對新聞報道背后的事實進行挖掘,增強新聞的深度、多維結合的沖擊力,給觀眾帶來另一種思維和角度的分析及解讀。而這時候強調(diào)的就是“新”“深”,如何做到“內(nèi)容為王”,更需要主持人不斷提高自身對內(nèi)容發(fā)現(xiàn)、分析、挖掘的能力。
AI主持人如今還處于努力模仿真人主播的階段。對于一些社教節(jié)目、娛樂節(jié)目等節(jié)目類別而言,人工智能很難取代主持人在用戶大眾心中的地位,也很難完全逼真模仿再創(chuàng)新其主持風格與人文情懷。在生活中,說起娛樂綜藝節(jié)目女主持,可能第一反應是謝娜;說起文化類節(jié)目女主持,可能第一反應是董卿;說起新聞評論節(jié)目,可能第一反應是白巖松;說起紀錄片聲音,可能第一反應是趙忠祥。所謂的“第一反應”就是一種主持人多年形成的特有主持風格和主持特色。
著名主持人汪涵曾經(jīng)用3句話總結自己多年的主持生涯:“學會聽話;不要迷戀掌聲;甘為綠葉,襯托嘉賓”??梢钥闯鲆粋€優(yōu)秀的主持人,他們的人格魅力、語言溫度和功力往往是一個品牌,甚至代表著一個城市乃至國家形象,再先進的人工智能也無法替代其軟實力。而風格千篇一律甚至采、編、播不能三位一體的主持人,他們播讀內(nèi)容的機械性、不靈活性的特點恰好與人工智能的優(yōu)點相吻合。因此,當代主持人想提高自身核心競爭力,更應該形成自身特色風格,打造品牌。
在人工智能時代大背景下,人工智能新技術的引入給播音主持領域帶來了更多新的機遇與挑戰(zhàn)。面對挑戰(zhàn),播音主持從業(yè)者以及人才培養(yǎng)更應該堅定信心,認識到自身在一些領域的不可替代性,積極投入到藝術創(chuàng)作之中,在人工智能不能做到的地方繼續(xù)深挖自己的潛力,通過謀求自身的獨特優(yōu)勢更好地應對挑戰(zhàn)。
在提高自身核心競爭力的同時,更需要順應時代發(fā)展趨勢,以一個開放包容的姿態(tài)、兼收并蓄的胸懷正確面對人工智能技術在行業(yè)內(nèi)的推廣應用,加強主持人與人工智能的各方面配合,形成優(yōu)勢互補。發(fā)揮其在數(shù)據(jù)匯總、融媒體展示等方面的優(yōu)勢,才可以“人盡其才,物盡其用,用當其時”。