俸永燾
(來賓市廣播電視臺,廣西 來賓 546100)
隨著5G、深度學習、大數(shù)據(jù)以及云計算等現(xiàn)代計算機行業(yè)基石技術的不斷發(fā)展,許多行業(yè)都在用這些新型技術去改造自身業(yè)務,以期提高效率或探索行業(yè)發(fā)展規(guī)律,掀起了新一輪的信息系統(tǒng)“新基建”浪潮。
來賓市廣播電視臺將目前的融合媒體業(yè)務場景與5G、深度學習相關技術進行有機結合,在當前的傳統(tǒng)業(yè)務基礎上,開展利用新技術提升日播新聞以及新媒體內容生產(chǎn)的嘗試,利用5G網(wǎng)絡進行遠程高清素材回傳,結合公有云深度學習服務中的人臉識別、語音識別、畫面識別等技術進行臺內部分欄目的媒資智能化管理,并通過語音轉文字方式快速進行成品新聞節(jié)目的定位與拆條。
第五代移動通信技術(5th Generation Mobile Communication Technology,5G)是最新一代蜂窩移動通信技術,是繼4G(LTE-A、WiMax)、3G(UMTS、LTE)及2G(GSM)系統(tǒng)之后的延伸。5G的性能目標是提高數(shù)據(jù)速率、減少延遲、節(jié)省能源、降低成本、提高系統(tǒng)容量以及連接大規(guī)模設備[1]。5G的峰值速率、空口時延、網(wǎng)絡容量以及頻譜效率都遠遠優(yōu)于4G。媒體新聞生產(chǎn)業(yè)務對于帶寬、延遲以及抗干擾性都極為敏感。因此,傳媒行業(yè)是5G落地場景中的一個典型。
深度學習(Deep Learning,DL)是機器學習(Machine Learning,ML)領域一個新的研究方向,它被引入機器學習使其更接近于最初的目標——人工智能(Artificial Intelligence,AI)[2]。相對于人工智能這樣宏大的命題,深度學習更能體現(xiàn)這種技術的本質。目前,視頻、語音以及圖片的識別本身就是深度學習的主要訓練模式之一。在實際應用場景中,深度學習已經(jīng)在媒體處理等方面取得了相當多的成果。
本系統(tǒng)主要基于來賓市廣播電視臺現(xiàn)有節(jié)目生產(chǎn)平臺,增加了5G傳輸資源以及公有云深度學習處理平臺,為臺內開拓了5G回傳、低延時直播以及5G云編輯的新型業(yè)務場景,并應用神經(jīng)網(wǎng)絡的計算機視覺、語音識別以及自然語言處理等特性,實現(xiàn)對臺內媒資系統(tǒng)內的素材進行智能化識別,實現(xiàn)素材入庫的自動化收錄及拆條、智能標簽處理以及語義文本分析,為多屏生產(chǎn)提供高效的內容和檢索支持。根據(jù)安全等保的需要,所有增加的業(yè)務均與制作內網(wǎng)隔離,增加的業(yè)務運行與否不影響臺內業(yè)務的正常運行。整體采用從基礎設施即服務(Infrastructure as a Service,Iaas)到平臺即服務(Platform as a Service,PaaS)再到軟件即服務(Software as a Service,SAAS)的3層結構,逐漸從硬件資源抽象到業(yè)務層,系統(tǒng)架構如圖1所示。
圖1 基于5G+深度學習技術的融合生產(chǎn)業(yè)務系統(tǒng)架構圖
IaaS基礎資源層主要提供存儲資源、計算資源、網(wǎng)絡資源以及5G傳輸設備資源,為上層PaaS提供硬件基礎支撐。
PaaS層服務層主要提供數(shù)據(jù)庫、Web以及資源管理等基礎后臺服務,媒體處理相關合成、轉碼、校驗等基礎后臺服務以及智能媒資服務,為上層SaaS層業(yè)務工具提供全面的服務支撐。其中智能媒資服務的能力來自于公有云提供的深度學習智能服務。
SaaS應用工具層主要提供新聞、文稿、串聯(lián)單以及協(xié)同生產(chǎn)工具,實現(xiàn)5G直播、5G回傳以及5G跨網(wǎng)域協(xié)同編輯等,為臺內日常新聞生產(chǎn)以及內容生產(chǎn)提供具體的業(yè)務支撐。
由于在該架構下,臺內的業(yè)務需要對公有云服務進行調用,并且涉及到互聯(lián)網(wǎng)的回傳和直播等業(yè)務,因此所有具體業(yè)務服務器都建設在臺內的私有云平臺上,與互聯(lián)網(wǎng)通過安全等保設備進行連接。網(wǎng)絡拓撲如圖2所示。
圖2 基于5G+深度學習技術的融合生產(chǎn)業(yè)務系統(tǒng)網(wǎng)絡拓撲圖
平臺通過5G信號接收外來直播信號或記者回傳的素材,在接收的同時,平臺進行錄制采集。錄制采集后交由公有云提供的智能化媒資服務進行處理,將素材內的語音識別為對應的文本字幕,同時標記出人物信息。編輯可利用識別出的文本字幕進行文稿編輯,同時對于帶標記信息的素材,編輯可以進行挑選使用。在編輯的過程中,互聯(lián)網(wǎng)端的云編輯客戶端可以就正在編輯的工程進行協(xié)同編輯,生產(chǎn)面向新媒體方面的內容。
2.4.1 5G技術特性帶來的多種應用場景改善
目前廣電行業(yè)常用的4G遠程回傳設備,其設計受限于4G網(wǎng)絡帶寬限制,均采用多卡聚合綁定的方式。由于戶外網(wǎng)絡連接存在環(huán)境復雜和網(wǎng)絡阻塞等因素,畫面仍然會出現(xiàn)卡斷和延時較大的情況。而目前普及的5G技術NSA階段,設備對基站的理論速率可達到20 Gb·s-1,實測數(shù)據(jù)顯示,實際應用中的5G速率下行穩(wěn)定在870 Mb·s-1,上行能夠穩(wěn)定保持在95 Mb·s-1,單卡完全滿足高清視頻信號低壓縮甚至無壓縮的傳輸帶寬需求,并且在覆蓋滿足的情況下,還可以實現(xiàn)長時間的移動直播。
2.4.2 深度學習提升生產(chǎn)效率
通過在日常的新聞匯聚、生產(chǎn)及發(fā)布業(yè)務流程中加入深度學習的各種智能處理能力,大幅度提升了新聞內容生產(chǎn)的敏捷性,并且使前端工作人員的編輯方式發(fā)生了巨大的變化。例如,新聞匯聚過程中的圖像識別、語音識別以及人物識別,可以使編輯人員不再需要從頭到尾瀏覽一遍素材,直接從識別出來的人物標簽或語音轉換的字幕即可定位到所需場景,打點之后即可進入時間線編輯,大大減輕了編輯人員的工作量,使編輯人員有時間和精力專注于內容的創(chuàng)作,提高了媒體生產(chǎn)力和傳播力。
2.4.3 跨網(wǎng)域的云編輯業(yè)務
5G與媒體融合的關鍵是基于5G網(wǎng)絡的網(wǎng)絡能力和邊緣云平臺等特性,實現(xiàn)媒體業(yè)務的移動化、遠程化及云化[3]?;?G的云非編可以幫助廣電用戶快速構建多種形式的混合云編輯平臺,在家里、辦公網(wǎng)及異地都能夠實現(xiàn)節(jié)目的編輯,工程文件、字幕文件及模板文件可以相互調用,實現(xiàn)隨時隨地的編輯,同時,不同的終端還可以基于同一個素材進行不同傳播方向上的內容生產(chǎn)。
5G技術將在下一階段進入SA獨立組網(wǎng)階段。屆時,5G單卡數(shù)據(jù)上傳速率能夠達到現(xiàn)在95 Mb·s-1的數(shù)倍,完全達到超高清直播的帶寬要求,并且可以加入H.265編碼方式進一步壓縮超高清直播所需的碼率。目前基于TCP的直播傳輸技術主要有HLS和RTMP/HTTP-FLV兩種協(xié)議,其中,HLS直播的延遲一般在10 s以上,HTTP-FLV直播的延遲一般在6~9 s。但基于TCP的直播傳輸協(xié)議完成一次建連需要進行9次會話,且始終難以實現(xiàn)帶寬自適應以及針對于數(shù)據(jù)包的擁塞控制。而基于UDP的安全可靠傳輸協(xié)議(Secure Reliable Transport,SRT)是一種開源互聯(lián)網(wǎng)傳輸協(xié)議,憑借強大的數(shù)據(jù)恢復機制,配合UDP協(xié)議自身速度快和開銷低的特點,可以實現(xiàn)安全、可靠及低延遲的傳輸效果,結合5G自身的帶寬和低延遲特性即可實現(xiàn)超高清視頻的低延時直播。目前國內測試的場景延遲可低至數(shù)百毫秒,大大提高了用戶體驗[4]。
隨著對本地大量音視頻素材的累積,廣播電視臺可以直接將自身的智能化影音資料查看與檢索作為服務對外輸出。智能化影音資料庫應當以內容管理為核心,將各種視、音頻資料及生產(chǎn)過程需要的圖片、文檔、圖表及工程文件等按照存儲策略的設置有序地保存到各種存儲設備中。系統(tǒng)在為內部提供存儲設備管理和存儲策略定義等基礎服務模塊的同時,向外提供素材上載、關鍵幀抽取、挑選整理、資料檢索、編目、轉碼、資料交換以及版權管理等應用軟件供資料加工使用,可以同時滿足各個單位對于本級行政單位影音資料的存儲與再利用需求,為各單位提供簡潔、高效的資料檢索與再利用服務。
來賓市廣播電視臺在現(xiàn)有內容生產(chǎn)平臺上搭建的5G+深度學習的服務接入屬于該方面的初步嘗試。實際應用驗證了5G技術對于高碼率直播回傳和云編輯的促進作用,同時,公有云提供的深度學習智能化服務也為臺內的生產(chǎn)和媒資管理提供了非常積極的經(jīng)驗,能夠為臺內后期的融媒體平臺提供一定的幫助?;?G+深度學習技術的融媒體業(yè)務的應用,需要深挖5G、人工智能、大數(shù)據(jù)和云計算等新技術,建立策、采、編、發(fā)融合業(yè)務流程,實現(xiàn)新聞、資訊及信息的一次性采集、多媒體呈現(xiàn)以及多渠道發(fā)布,完善全媒體傳播架構,早日實現(xiàn)智能化內容生產(chǎn)傳播體系建設的目標。