羅列異
(浙江廣播電視集團(tuán)新藍(lán)網(wǎng),浙江 杭州 310000)
5G時(shí)代的來(lái)臨,依托移動(dòng)網(wǎng)高速低延時(shí)的傳輸能力、云計(jì)算彈性伸縮的擴(kuò)展能力、音視頻超高清實(shí)時(shí)編碼能力以及AR/VR人工智能無(wú)限想象力,5G+4K/8K、5G+VR等多種創(chuàng)新性技術(shù)形態(tài)應(yīng)運(yùn)而生。2020年在新冠肺炎疫情的催生下,直播教育、直播帶貨、遠(yuǎn)程視頻辦公等云直播產(chǎn)業(yè)更是異軍突起,直播已從傳統(tǒng)廣電行業(yè)迅速拓展到社交、教育、旅游、購(gòu)物等多個(gè)領(lǐng)域。
傳統(tǒng)廣播電視直播借助于演播室導(dǎo)播切換臺(tái),對(duì)攝像機(jī)、轉(zhuǎn)播車(chē)等專(zhuān)業(yè)攝錄設(shè)備采集的視音頻信號(hào)進(jìn)行導(dǎo)播切換、特技處理后播出。為了滿(mǎn)足多樣化的直播體驗(yàn),在直播中借助于虛擬演播室或利用大屏技術(shù)及前置虛擬技術(shù),實(shí)現(xiàn)AR/VR沉浸化的虛擬體驗(yàn)。
融媒直播云平臺(tái)由云直播、云導(dǎo)播、云編輯、云收錄、短視頻制剪、AR/VR人工智能處理等直播功能模塊構(gòu)成,構(gòu)建采、編、錄、發(fā)、播一站式、全鏈路、全方位的直播能力,并提供延時(shí)、墊播、轉(zhuǎn)碼等相關(guān)各類(lèi)輔助工具。如圖1所示。
圖1 網(wǎng)絡(luò)直播流程圖
融媒直播云平臺(tái)具有以下特點(diǎn):
(1)融合多場(chǎng)景:滿(mǎn)足傳統(tǒng)廣電直播和網(wǎng)絡(luò)直播的融合應(yīng)用場(chǎng)景,實(shí)現(xiàn)融媒跨域直播。網(wǎng)絡(luò)直播信號(hào)能提供給演播室進(jìn)行電視互動(dòng)直播,電視直播信號(hào)能通過(guò)編碼推流提供網(wǎng)絡(luò)直播。
(2)兼容多協(xié)議:兼容傳統(tǒng)攝錄設(shè)備推流、4G/5G直播設(shè)備以及手機(jī)、VR設(shè)備、無(wú)人機(jī)航拍等網(wǎng)絡(luò)直播設(shè)備源,適配多協(xié)議的流格式和碼率,提供不間斷的HLS/RTMP流媒體直播服務(wù),滿(mǎn)足手機(jī)、電腦端直播播放的要求。
(3)智能化處理:通過(guò)人工智能技術(shù)和服務(wù),搭建起智能化的業(yè)務(wù)生產(chǎn)和應(yīng)用場(chǎng)景模型,實(shí)現(xiàn)AR/VR、語(yǔ)音識(shí)別、人臉場(chǎng)景識(shí)別等常規(guī)業(yè)務(wù)難以實(shí)現(xiàn)的能力。
融媒直播云平臺(tái)核心是實(shí)現(xiàn)直播流傳輸編碼、導(dǎo)播合成切換以及解碼播放技術(shù)。
為了做到幀精度的導(dǎo)播切換,編碼傳輸?shù)囊曇纛l流經(jīng)過(guò)解封裝、解碼兩套流程解出視音頻幀,輸入給導(dǎo)播切換的核心過(guò)濾器。過(guò)濾器不僅能實(shí)現(xiàn)對(duì)各路輸入流的無(wú)縫切換,同時(shí)還能夠疊加輔助信息,如字幕、臺(tái)標(biāo)等信息,最終經(jīng)過(guò)編碼、封裝后輸出。
在導(dǎo)播算法模型設(shè)計(jì)上,切換精度和碼流格式是實(shí)現(xiàn)關(guān)鍵。首先,對(duì)多路音視頻源進(jìn)行歸一化處理,轉(zhuǎn)換為統(tǒng)一的分辨率和碼率,并歸一化時(shí)間戳、解碼時(shí)序和播出線(xiàn)程,保障了多路視音頻源在解封裝解碼切換時(shí)的整體一致性,達(dá)到幀精度。切換是人與系統(tǒng)交互的過(guò)程,播出線(xiàn)程會(huì)實(shí)時(shí)從在播音頻和視頻的幀隊(duì)伍中取出音視頻幀壓入播出PGM隊(duì)列中,然后輸出給處理單元進(jìn)行視頻變換,最后編碼、封裝合成后播出。
過(guò)濾器單元除了導(dǎo)播切換功能外,還具有特技能力,實(shí)現(xiàn)對(duì)輸入幀變換功能,視頻翻轉(zhuǎn),旋轉(zhuǎn),縮放等。過(guò)濾器核心采用了libavfilter庫(kù)。過(guò)濾器使用有過(guò)濾鏈Filterchain和過(guò)濾圖Filtergraph兩種方式,前者適合單鏈條一對(duì)一視音頻處理流程,后者適合于overlay等多對(duì)一,多對(duì)多的復(fù)雜視音頻處理。
解碼播放技術(shù)難點(diǎn)是解決好音視頻的時(shí)序問(wèn)題,處理好聲畫(huà)同步。正常編碼時(shí)視頻數(shù)據(jù)和音頻輸出是交替寫(xiě)入的,解碼時(shí)音視頻可以同步解碼。為了提高編碼效率,引入雙向預(yù)測(cè)內(nèi)插編碼幀(Bframe)。FFmpeg在A(yíng)VFrame幀結(jié)構(gòu)定義上加入PTS和DTS兩個(gè)字段[2]。PTS定義解碼后的視頻幀顯示的時(shí)間戳,而DTS定義了視頻流送入解碼器解碼的時(shí)間戳??紤]到音頻沒(méi)有B幀,解碼時(shí)序單一,在音視頻同步播放算法中以音頻為基準(zhǔn),視頻同步到音頻時(shí)間。播放流程啟動(dòng)四個(gè)線(xiàn)程[1]:
(1)時(shí)間線(xiàn)程:提供系統(tǒng)統(tǒng)一的時(shí)鐘,控制系統(tǒng)播放時(shí)間的精確運(yùn)行。
(2)解封裝解碼線(xiàn)程:為各路音視頻源解碼、解封裝為視頻幀和音頻幀,裝入各自隊(duì)列。
(3)音頻渲染流程:按序把音頻幀送入聲卡播放,提取音頻流PTS,并動(dòng)態(tài)更新系統(tǒng)當(dāng)前播放時(shí)間。
(4)視頻渲染線(xiàn)程:按序取出視頻幀,提取PTS時(shí)間。設(shè)定門(mén)限為±1/2fps,如果PST在播放區(qū)間內(nèi)則進(jìn)行視頻幀渲染,如果PTS超出播放區(qū)間則降低播放速率,反之進(jìn)行丟幀處理。
借助了人工智能能力,通過(guò)機(jī)器學(xué)習(xí)和深度學(xué)習(xí),建立起更具智能的直播云平臺(tái)業(yè)務(wù)場(chǎng)景模型,滿(mǎn)足常規(guī)業(yè)務(wù)無(wú)法實(shí)現(xiàn)或難以實(shí)現(xiàn)的能力,讓云平臺(tái)更智慧、更省心、更懂你。
國(guó)內(nèi)科大訊飛、百度、騰訊等主流云服務(wù)商的語(yǔ)音技術(shù)識(shí)別率均已經(jīng)達(dá)到95%以上。AI云服務(wù)商提供實(shí)時(shí)語(yǔ)音服務(wù)首次識(shí)別延時(shí)1s左右,根據(jù)語(yǔ)義環(huán)境最終識(shí)別在4s左右,識(shí)別率高,能較好地滿(mǎn)足直播業(yè)務(wù)需求,并為現(xiàn)場(chǎng)直播提供實(shí)時(shí)字幕,提升直播效果。
主流實(shí)時(shí)語(yǔ)音字幕能力實(shí)時(shí)性要求強(qiáng),客戶(hù)端邊上傳,服務(wù)端邊識(shí)別。對(duì)音頻幀實(shí)時(shí)發(fā)送給AI服務(wù)商,同時(shí)接收進(jìn)程實(shí)時(shí)獲取轉(zhuǎn)義文字內(nèi)容,本地進(jìn)行分句后輸出字幕內(nèi)容,通過(guò)在線(xiàn)包裝合成,疊加到直播視頻上。
人物識(shí)別在直播應(yīng)用中有著極其廣泛的應(yīng)用。比如直播人物字幕流程,當(dāng)關(guān)鍵人物進(jìn)入畫(huà)面后,手動(dòng)拍出提前準(zhǔn)備好關(guān)鍵人物字幕條,傳統(tǒng)方式無(wú)法實(shí)現(xiàn)突發(fā)事件及無(wú)法預(yù)測(cè)場(chǎng)景。通過(guò)人工智能技術(shù),建立可能出現(xiàn)的關(guān)鍵人物庫(kù),通過(guò)臉部識(shí)別技術(shù)自動(dòng)識(shí)別人物,并自動(dòng)輸出人物字幕條。建立面部識(shí)別庫(kù),一類(lèi)基于Dlib、dnn為主流的離線(xiàn)識(shí)別,另一類(lèi)是百度、騰訊、訊飛為主流的在線(xiàn)識(shí)別。以離線(xiàn)識(shí)別庫(kù)為例,對(duì)比Dlib使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)和方向梯度直方圖(HOG),CNN方法準(zhǔn)確度高,但速度慢,而HOG方法速度快,但準(zhǔn)確性有所下降。啟動(dòng)GPU cuda加速能力后CNN計(jì)算時(shí)間大大縮小,HOG和CNN時(shí)間相仿。
直播目的為了更好、更快地傳播熱點(diǎn)內(nèi)容的聚焦和時(shí)效性,直播中需要快速提取熱點(diǎn)和亮點(diǎn)內(nèi)容制成短視頻,通過(guò)App或者社交媒體快速傳播,如果采用傳統(tǒng)手動(dòng)流程,往往耗時(shí)耗力。
借助于轉(zhuǎn)語(yǔ)音能力,文字內(nèi)容與視頻內(nèi)容的位置是對(duì)應(yīng)的,選擇所需文字內(nèi)容就能夠確定視頻片段的出入點(diǎn),實(shí)現(xiàn)基于文字內(nèi)容的人工智能快速拆條。
借助于人物識(shí)別能力,可以準(zhǔn)確獲得焦點(diǎn)人物出現(xiàn)的時(shí)間,實(shí)現(xiàn)基于人物的人工智能拆條。后臺(tái)根據(jù)焦點(diǎn)人物在鏡頭中出現(xiàn)的準(zhǔn)確時(shí)間點(diǎn),快速生成短視頻。
融媒直播云平臺(tái)不僅適用于活動(dòng)、電商、游戲等直播場(chǎng)景外,人工智能+云端直播方式也賦予了更廣泛、更新穎的應(yīng)用場(chǎng)景及業(yè)務(wù)模式。
(1)云綜藝錄制/直播:新冠肺炎疫情對(duì)直播產(chǎn)業(yè)催生了不少創(chuàng)新應(yīng)用。伴隨5G技術(shù)的成熟,云綜藝真正實(shí)現(xiàn)了多地多機(jī)位互動(dòng)的錄制直播,參與錄制節(jié)目的嘉賓無(wú)需到演播室現(xiàn)場(chǎng),只需通過(guò)視頻設(shè)備和云綜藝軟件就可以實(shí)現(xiàn)跨越空間的互動(dòng)演繹。
(2)VR直播:特指環(huán)視VR直播,以相機(jī)為中心向周?chē)臄z[3];利用VR攝像機(jī)拍攝,然后編碼推流直播。觀(guān)眾佩戴VR眼鏡可以720度環(huán)視,有著身臨其境的臨場(chǎng)感,更具感染力和真實(shí)感。以往,VR直播無(wú)法突破的原因是帶寬、實(shí)時(shí)高清編碼以及VR眼鏡。5G+8K技術(shù)突破了網(wǎng)速和畫(huà)質(zhì)的限制,讓VR直播產(chǎn)業(yè)化發(fā)展掃清了障礙。VR演唱會(huì)、VR云觀(guān)賽、VR云旅游等均為VR直播的典型應(yīng)用。
(3)子彈時(shí)間:指環(huán)物VR直播,以被拍攝物為中心,相機(jī)環(huán)繞被攝物拍攝[3]。采用時(shí)間凝結(jié)技術(shù),現(xiàn)場(chǎng)布置一套有若干臺(tái)與被拍攝物在同一聚焦平面上,但彼此時(shí)間碼同步,可以依次觸發(fā)的攝像機(jī)組成的360度環(huán)繞拍攝制作系統(tǒng),用戶(hù)不需要戴眼鏡就能觀(guān)看到運(yùn)動(dòng)或靜止中的人或物不同視角的瞬間,整體效果炫酷完美[4]。典型應(yīng)用為競(jìng)技類(lèi)體育賽事、舞蹈演唱會(huì)等場(chǎng)合。
(4)直播帶貨:近年來(lái)直播帶貨異軍突起,開(kāi)辟了直播及短視頻變現(xiàn)盈利的新途徑。通過(guò)直播手段重構(gòu)“人、貨、場(chǎng)”三要素,具有強(qiáng)互動(dòng)性、社交性和高轉(zhuǎn)化率。為了提高商品到消費(fèi)者觸達(dá)率,調(diào)動(dòng)購(gòu)買(mǎi)熱情,借助VR直播模式,提供沉浸式購(gòu)物體驗(yàn),如臨現(xiàn)場(chǎng),讓直播與消費(fèi)完美結(jié)合。
融合了人工智能的能力,直播系統(tǒng)更智能、更高效、更人性化,同時(shí)也會(huì)加速直播產(chǎn)業(yè)業(yè)務(wù)形態(tài)和模式的創(chuàng)新發(fā)展,催生業(yè)務(wù)向更具有創(chuàng)新性的領(lǐng)域發(fā)展。