亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

音訊：新華社“語音智能+”采編應用矩陣

2020-11-13 03:43:55李澤魁孫霏劉一聞

中國傳媒科技 2020年9期

李澤魁孫霏劉一聞

摘? 要：音視頻新聞相比于文字、圖片等新聞類型，往往在攜帶信息量、傳播影響力等方面更具優(yōu)勢。近年來，音視頻新聞數(shù)據(jù)量爆發(fā)式增長、人工智能理論與技術(shù)創(chuàng)新式發(fā)展，為新聞生產(chǎn)傳播流程與語音智能技術(shù)深度融合創(chuàng)造了無限可能。本文從媒體智能化升級探索中，語音智能在多場景應用、多語種識別、多品類終端與強算力支撐等不同角度切入，對新華社“語音智能+”采編應用矩陣“音訊”的相關(guān)工作進行了闡述與展望。

關(guān)鍵詞：語音智能;人工智能;新聞生產(chǎn)? ? ? ? ? ? ? ? ? ? ? ? ? 中圖分類號：TN912.3;G210.7? ? ? ? ? ? ? ? ? ? ? ? 文獻標識碼：A

文章編號：1671-0134（2020）09-105-04? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?DOI：10.19483/j.cnki.11-4653/n.2020.09.031

本文著錄格式：李澤魁，孫霏，劉一聞.音訊：新華社“語音智能+”采編應用矩陣[J].中國傳媒科技，2020（9）：105-107，124.

導語

新華社作為國家通訊社、世界性現(xiàn)代通訊社，每天24小時同時使用十余種語言滾動發(fā)稿，權(quán)威、準確、及時播發(fā)國內(nèi)外重要新聞和重大突發(fā)事件。近年來，音視頻素材與稿件的制作需求與日俱增，這既對音視頻智能化分析技術(shù)提出了更多的挑戰(zhàn)，也給相關(guān)技術(shù)的更大空間發(fā)展創(chuàng)造了無限可能。

從全球范圍看，媒體智能化進入快速發(fā)展階段[1]。人工智能技術(shù)正深刻改變著人類社會生活，改變著世界，同時也成為突破媒體融合發(fā)展的前沿技術(shù)和體現(xiàn)國際競爭力的關(guān)鍵技術(shù)之一。語音智能技術(shù)作為音視頻智能化處理領(lǐng)域的代表組成部分，新的科研成果也層出不窮。

為進一步利用人工智能技術(shù)提升“采編發(fā)供”各階段生產(chǎn)傳播效率，新華社技術(shù)局推出“語音智能+”采編應用矩陣（下簡稱“音訊”）。經(jīng)過一年多的技術(shù)建設，目前已支持9種國內(nèi)外語種、8種國內(nèi)方言的語音智能分析功能，包含移動客戶端、PC桌面端、網(wǎng)頁端以及多款智能硬件等產(chǎn)品形態(tài)，全面賦能記者編輯采訪整理、會議記錄、唱詞制作、稿件校對及旁白配音等采編場景。同時，音訊業(yè)界領(lǐng)先的智能算法、各具特色的智能終端、自主可控的超級算力與安全高效的使用體驗，實現(xiàn)了移動化與智能化下音視頻素材整理與新聞制作效率的大幅提升。

1.語音智能應用，加速媒體智能化升級

1.1 多場景語音智能，賦能采編業(yè)務

1.1.1 AI實時速記，采訪邊說邊識別

時間性越強，新聞的社會效果就越大。音訊將語音實時轉(zhuǎn)寫技術(shù)有效嵌入至新華社采編客戶端中（如圖1所示），可將語音信息實時轉(zhuǎn)換成文字，并支持一鍵建稿至新華社采編系統(tǒng)。在實際采訪過程中，記者僅需攜帶安裝有客戶端的智能手機，即可實現(xiàn)“AI錄音筆”與“AI速記本”的效果，進一步提高編稿與簽發(fā)時效。

圍繞PC機音視頻信息實時轉(zhuǎn)寫文字的采編需求，音訊同步推出桌面版應用，實現(xiàn)了PC機音頻信息的實時采錄與轉(zhuǎn)寫等功能（如圖2所示）。該工具不僅能實現(xiàn)瀏覽器內(nèi)的各種直播、點播音視頻同傳字幕，而且能對系統(tǒng)播放軟件的音視頻進行實時轉(zhuǎn)寫，可對重要報道中領(lǐng)導人或記者會的發(fā)言與翻譯內(nèi)容進行實時記錄與快速整理，有效壓縮稿件生產(chǎn)過程中錄音整理方面的重復工作。

1.1.2 AI錄音轉(zhuǎn)寫，素材整理好助手

面對采訪過程中收集的大量錄音或視頻素材，記者從中去粗取精，提煉新聞靈感與線索，往往需要反復回放錄音與核查信息。為此，音訊定制研發(fā)了音視頻語音轉(zhuǎn)錄工具，可支持小時級的錄音或視頻文件在數(shù)分鐘內(nèi)的高效轉(zhuǎn)寫，準確率可達95%以上，并針對實際業(yè)務場景推出采訪發(fā)音角色分離、口語表達智能過濾、視頻唱詞智能切分及SRT字幕導出等采編功能（如圖3所示），可大幅提升采訪素材整理與視頻后期的工作效率。

1.1.3 AI語音互聯(lián)，解放雙手更省勁

人機交互的方式正在因語音輸入而改變，其便捷、快速與個性化等特點賦予媒體領(lǐng)域更多落地場景。在全國兩會前夕，音訊推出了“大屏智能聲控”方案。管理員僅需對著遙控拾音設備口述大屏頁面跳轉(zhuǎn)指令，大屏即可根據(jù)指令內(nèi)容做出切換（如圖4所示），實現(xiàn)更智能、便捷地大屏操控體驗。

1.1.4 AI稿件唱校，機器輔助讀校審

語音合成技術(shù)即將文字信息轉(zhuǎn)化為聲音信息，使文字化的新聞更加“聲情并茂”。音訊結(jié)合新聞稿件檢校需求推出了“AI唱校”功能，稿件校對時可以選擇不同的播放語速、男女聲進行智能唱校，同時支持各個標點符號、回車換行等字符的朗讀，一定程度上緩解了人工校對的工作壓力（如圖5所示）。

1.1.5 AI視頻配音，一鍵搞定畫外音

音訊“智能配音工具”則主打音視頻制作需求（如圖6所示）。它具有57位AI配音員，包括9大語種及6種地方方言。該工具操作簡單，用戶可一鍵合成純正地道的AI配音，也可根據(jù)實際采編需求修改音色、音調(diào)、語速，甚至可以指定插入圖片與變更多音字的讀法，實現(xiàn)了方便快捷的視頻多語種配音制作，為視頻新聞創(chuàng)作帶來無限可能。

1.2 多語種語音智能，堅持內(nèi)外并重

進入新時代，構(gòu)建內(nèi)外并重的體制機制成為新華社技術(shù)建設新目標之一[2]。音訊近年來不斷拓寬語音智能技術(shù)的支持語種（如表1所示）。目前已支持中、英、西、法、俄、阿、葡、日、韓語在內(nèi)的9種語種（其中還包括加拿大法語、墨西哥西語等8國語言變種），廣東話、河南話、四川話等8種國內(nèi)方言的語音智能處理功能，推動對內(nèi)對外報道新聞素材整理與制作效率進一步提升。

1.3 多品類定制終端，錄音提質(zhì)增效

“音訊盒子”是基于3D技術(shù)打造、具有自主知識產(chǎn)權(quán)的智能硬件系列產(chǎn)品，可與電視、固定電話、終端及機頂盒等設備外接（如圖7所示），通過對音視頻信號的高保真降噪與極速轉(zhuǎn)碼，實現(xiàn)音源更精準的實時轉(zhuǎn)寫效果。適合于新聞采訪、新聞發(fā)布會等業(yè)務場景，可提高采訪報道新聞生產(chǎn)效率。

除此之外，音訊還與市面在售的若干款錄音筆硬件實現(xiàn)“智能互聯(lián)”。圖8是一款具有8麥環(huán)形高保真拾音、數(shù)據(jù)多重保障、智能電池控制等特性的專業(yè)錄音筆，經(jīng)過新華社技術(shù)人員的研發(fā)，目前已實現(xiàn)了與新華社新采編客戶端的無線信息傳輸，支持手機遠程控制錄音筆啟停、錄音轉(zhuǎn)錄及采編一鍵建稿等功能，滿足了更高品質(zhì)拾音與轉(zhuǎn)寫、安全距離采訪與整理等場景需求，可進一步提升采訪智能化體驗。

1.4 強算力極致安全，架構(gòu)穩(wěn)若磐石

目前，音訊具有新華社遍布全球各地的龐大采編用戶群體，基礎(chǔ)設施的自主可控、核心數(shù)據(jù)的存儲傳輸?shù)劝踩匾诧@得尤為重要。為此，音訊圍繞實際需求打造了“超強算力+智能中臺+全球加速”的全鏈路一體化系統(tǒng)架構(gòu)。

與市面商業(yè)化產(chǎn)品不同，其核心功能均部署在新華社自主可控的GPU高性能計算平臺之上，處理性能大幅提升的同時，也完全保證了數(shù)據(jù)安全;音訊“智能語音中臺”目前具有強大定制與高擴展能力，可通過靈活開發(fā)，滿足新華社不同部門與分社定制化語音智能需求;同時，為保證駐外采編人員的使用體驗，音訊針對性實現(xiàn)全球內(nèi)容分發(fā)網(wǎng)絡（CDN）鏈路加速優(yōu)化，大幅降低了海外訪問延遲，使北美等地區(qū)的使用體驗進一步提升。

2.產(chǎn)品效能初顯，用戶活躍度口碑高漲

當前，音訊產(chǎn)品的用戶已達數(shù)千人，分布在全球各地。自2019年上線至今，已累計語音轉(zhuǎn)寫各語種素材超1.9萬小時，共計7.3萬余單，平均1小時錄音僅需9分鐘即可獲得轉(zhuǎn)寫結(jié)果（圖9為轉(zhuǎn)寫工具用戶數(shù)目及轉(zhuǎn)寫單數(shù)月活躍量數(shù)據(jù)示例）;另一方面，累計語音合成超過4700萬字的稿件內(nèi)容，合成時長超過2400小時。音訊通過與新華社采編流程打通并融合，為采編人員節(jié)省了大量寶貴的人力與物力，受到了廣泛認可。

在2019年一帶一路高峰論壇及中國國際進口博覽會等重大報道期間，音訊多次輔助新華社前后方采編人員素材整理素材，提升各語種出稿效率;亞洲文明交流大會開幕式的報道前方，音訊盒子對領(lǐng)導人講話中文原聲和英文同聲進行實時語音轉(zhuǎn)寫，在無英文稿情況下供新華社多個編輯部參考與發(fā)稿，加快了發(fā)稿時效;2020年全國兩會期間，音訊轉(zhuǎn)寫工具輔助音視頻編輯聽打唱詞，節(jié)省了大量人工拍詞工作;抗擊疫情期間，音訊“智能遠程錄音”的采訪模式，使記者在采訪錄音與記錄的同時，保證了采訪安全距離，成為疫情相關(guān)報道的重要助力。

3.融合潛力巨大，媒體智能化未來可期

近年來，音視頻產(chǎn)業(yè)爆發(fā)式增長，逐漸成為新聞傳播的重要媒介載體。媒體融合發(fā)展的路上，語音智能未來仍具有很大的應用空間。音訊將圍繞采編需求，繼續(xù)在如下方面進行更深入的研究，持續(xù)推進媒體智能化工作縱深發(fā)展。

3.1增強語音智能應用的融合力度

本文所闡述的語音智能的應用主要集中在新聞生產(chǎn)系統(tǒng)，當前新華社技術(shù)局還在對語音識別與合成技術(shù)在智能硬件及交互式AR/VR產(chǎn)品等方面的集成應用等方面不斷拓展，增強系統(tǒng)實用性、激發(fā)產(chǎn)品趣味性，將現(xiàn)有技術(shù)更全面地賦能新聞生產(chǎn)傳播各個流程。

3.2擴展語音成熟技術(shù)的應用廣度

語音智能的新技術(shù)也日新月異。例如，語音識別中的聲紋識別技術(shù)，不僅可用于標記采訪錄音中更多的講話者，亦可用于權(quán)限認證，提升新聞素材整理的便捷性與新聞審核簽發(fā)的安全性;基于語音遷移學習、小樣本學習等技術(shù)[3]，可在數(shù)分鐘內(nèi)實現(xiàn)個性化配音角色的快速制作，合成語音的自然度和相似度均可以假亂真;藏語及維語等少數(shù)民族語言語音智能技術(shù)，可輔助記者提升采訪溝通與記錄效率。

3.3細化音視頻的跨媒介檢索粒度

隨著語音轉(zhuǎn)文字技術(shù)準確度的不斷提升，所有音視頻稿件中的語音內(nèi)容，均可以文字形式予以保存并建立索引，進而實現(xiàn)稿件中語音內(nèi)容的精準檢索。這樣可大幅提升新聞采編素材的選擇范圍，即使是文字稿件也能廣泛采用視頻同期聲等文字內(nèi)容。

[1]習近平.加快推動媒體融合發(fā)展構(gòu)建全媒體傳播格局[J].當代江西，2019（3）： 4-7.

[2]蔡名照.始終履行好黨中央“喉舌”“耳目”職能[J].求是，2016（6）：33-34.

[3]俞棟，鄧力.解析深度學習：語音識別實踐[M].電子工業(yè)出版社，2016.

作者簡介：李澤魁（1992-），男，山西人，工程師，研究方向：語音識別、語義分析、圖像處理等領(lǐng)域智能化采編應用;孫霏（1981-），女，北京人，高級工程師，研究方向：語音識別、視頻標引等人工智能技術(shù);劉一聞（1984-），男，湖北人，工程師，研究方向：智能寫作、圖像識別等領(lǐng)域智能化采編應用。