亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融媒直播云平臺(tái)的設(shè)計(jì)研究

        2021-08-04 01:58:28羅列異
        數(shù)字通信世界 2021年7期
        關(guān)鍵詞:視音頻音視頻字幕

        羅列異

        (浙江廣播電視集團(tuán)新藍(lán)網(wǎng),浙江 杭州 310000)

        0 引言

        5G時(shí)代的來(lái)臨,依托移動(dòng)網(wǎng)高速低延時(shí)的傳輸能力、云計(jì)算彈性伸縮的擴(kuò)展能力、音視頻超高清實(shí)時(shí)編碼能力以及AR/VR人工智能無(wú)限想象力,5G+4K/8K、5G+VR等多種創(chuàng)新性技術(shù)形態(tài)應(yīng)運(yùn)而生。2020年在新冠肺炎疫情的催生下,直播教育、直播帶貨、遠(yuǎn)程視頻辦公等云直播產(chǎn)業(yè)更是異軍突起,直播已從傳統(tǒng)廣電行業(yè)迅速拓展到社交、教育、旅游、購(gòu)物等多個(gè)領(lǐng)域。

        1 系統(tǒng)架構(gòu)

        傳統(tǒng)廣播電視直播借助于演播室導(dǎo)播切換臺(tái),對(duì)攝像機(jī)、轉(zhuǎn)播車(chē)等專(zhuān)業(yè)攝錄設(shè)備采集的視音頻信號(hào)進(jìn)行導(dǎo)播切換、特技處理后播出。為了滿(mǎn)足多樣化的直播體驗(yàn),在直播中借助于虛擬演播室或利用大屏技術(shù)及前置虛擬技術(shù),實(shí)現(xiàn)AR/VR沉浸化的虛擬體驗(yàn)。

        融媒直播云平臺(tái)由云直播、云導(dǎo)播、云編輯、云收錄、短視頻制剪、AR/VR人工智能處理等直播功能模塊構(gòu)成,構(gòu)建采、編、錄、發(fā)、播一站式、全鏈路、全方位的直播能力,并提供延時(shí)、墊播、轉(zhuǎn)碼等相關(guān)各類(lèi)輔助工具。如圖1所示。

        圖1 網(wǎng)絡(luò)直播流程圖

        融媒直播云平臺(tái)具有以下特點(diǎn):

        (1)融合多場(chǎng)景:滿(mǎn)足傳統(tǒng)廣電直播和網(wǎng)絡(luò)直播的融合應(yīng)用場(chǎng)景,實(shí)現(xiàn)融媒跨域直播。網(wǎng)絡(luò)直播信號(hào)能提供給演播室進(jìn)行電視互動(dòng)直播,電視直播信號(hào)能通過(guò)編碼推流提供網(wǎng)絡(luò)直播。

        (2)兼容多協(xié)議:兼容傳統(tǒng)攝錄設(shè)備推流、4G/5G直播設(shè)備以及手機(jī)、VR設(shè)備、無(wú)人機(jī)航拍等網(wǎng)絡(luò)直播設(shè)備源,適配多協(xié)議的流格式和碼率,提供不間斷的HLS/RTMP流媒體直播服務(wù),滿(mǎn)足手機(jī)、電腦端直播播放的要求。

        (3)智能化處理:通過(guò)人工智能技術(shù)和服務(wù),搭建起智能化的業(yè)務(wù)生產(chǎn)和應(yīng)用場(chǎng)景模型,實(shí)現(xiàn)AR/VR、語(yǔ)音識(shí)別、人臉場(chǎng)景識(shí)別等常規(guī)業(yè)務(wù)難以實(shí)現(xiàn)的能力。

        2 研發(fā)實(shí)現(xiàn)

        融媒直播云平臺(tái)核心是實(shí)現(xiàn)直播流傳輸編碼、導(dǎo)播合成切換以及解碼播放技術(shù)。

        2.1 導(dǎo)播技術(shù)

        為了做到幀精度的導(dǎo)播切換,編碼傳輸?shù)囊曇纛l流經(jīng)過(guò)解封裝、解碼兩套流程解出視音頻幀,輸入給導(dǎo)播切換的核心過(guò)濾器。過(guò)濾器不僅能實(shí)現(xiàn)對(duì)各路輸入流的無(wú)縫切換,同時(shí)還能夠疊加輔助信息,如字幕、臺(tái)標(biāo)等信息,最終經(jīng)過(guò)編碼、封裝后輸出。

        在導(dǎo)播算法模型設(shè)計(jì)上,切換精度和碼流格式是實(shí)現(xiàn)關(guān)鍵。首先,對(duì)多路音視頻源進(jìn)行歸一化處理,轉(zhuǎn)換為統(tǒng)一的分辨率和碼率,并歸一化時(shí)間戳、解碼時(shí)序和播出線(xiàn)程,保障了多路視音頻源在解封裝解碼切換時(shí)的整體一致性,達(dá)到幀精度。切換是人與系統(tǒng)交互的過(guò)程,播出線(xiàn)程會(huì)實(shí)時(shí)從在播音頻和視頻的幀隊(duì)伍中取出音視頻幀壓入播出PGM隊(duì)列中,然后輸出給處理單元進(jìn)行視頻變換,最后編碼、封裝合成后播出。

        過(guò)濾器單元除了導(dǎo)播切換功能外,還具有特技能力,實(shí)現(xiàn)對(duì)輸入幀變換功能,視頻翻轉(zhuǎn),旋轉(zhuǎn),縮放等。過(guò)濾器核心采用了libavfilter庫(kù)。過(guò)濾器使用有過(guò)濾鏈Filterchain和過(guò)濾圖Filtergraph兩種方式,前者適合單鏈條一對(duì)一視音頻處理流程,后者適合于overlay等多對(duì)一,多對(duì)多的復(fù)雜視音頻處理。

        2.2 解碼播放技術(shù)

        解碼播放技術(shù)難點(diǎn)是解決好音視頻的時(shí)序問(wèn)題,處理好聲畫(huà)同步。正常編碼時(shí)視頻數(shù)據(jù)和音頻輸出是交替寫(xiě)入的,解碼時(shí)音視頻可以同步解碼。為了提高編碼效率,引入雙向預(yù)測(cè)內(nèi)插編碼幀(Bframe)。FFmpeg在A(yíng)VFrame幀結(jié)構(gòu)定義上加入PTS和DTS兩個(gè)字段[2]。PTS定義解碼后的視頻幀顯示的時(shí)間戳,而DTS定義了視頻流送入解碼器解碼的時(shí)間戳??紤]到音頻沒(méi)有B幀,解碼時(shí)序單一,在音視頻同步播放算法中以音頻為基準(zhǔn),視頻同步到音頻時(shí)間。播放流程啟動(dòng)四個(gè)線(xiàn)程[1]:

        (1)時(shí)間線(xiàn)程:提供系統(tǒng)統(tǒng)一的時(shí)鐘,控制系統(tǒng)播放時(shí)間的精確運(yùn)行。

        (2)解封裝解碼線(xiàn)程:為各路音視頻源解碼、解封裝為視頻幀和音頻幀,裝入各自隊(duì)列。

        (3)音頻渲染流程:按序把音頻幀送入聲卡播放,提取音頻流PTS,并動(dòng)態(tài)更新系統(tǒng)當(dāng)前播放時(shí)間。

        (4)視頻渲染線(xiàn)程:按序取出視頻幀,提取PTS時(shí)間。設(shè)定門(mén)限為±1/2fps,如果PST在播放區(qū)間內(nèi)則進(jìn)行視頻幀渲染,如果PTS超出播放區(qū)間則降低播放速率,反之進(jìn)行丟幀處理。

        3 融合人工智能

        借助了人工智能能力,通過(guò)機(jī)器學(xué)習(xí)和深度學(xué)習(xí),建立起更具智能的直播云平臺(tái)業(yè)務(wù)場(chǎng)景模型,滿(mǎn)足常規(guī)業(yè)務(wù)無(wú)法實(shí)現(xiàn)或難以實(shí)現(xiàn)的能力,讓云平臺(tái)更智慧、更省心、更懂你。

        3.1 語(yǔ)音識(shí)別和實(shí)時(shí)字幕

        國(guó)內(nèi)科大訊飛、百度、騰訊等主流云服務(wù)商的語(yǔ)音技術(shù)識(shí)別率均已經(jīng)達(dá)到95%以上。AI云服務(wù)商提供實(shí)時(shí)語(yǔ)音服務(wù)首次識(shí)別延時(shí)1s左右,根據(jù)語(yǔ)義環(huán)境最終識(shí)別在4s左右,識(shí)別率高,能較好地滿(mǎn)足直播業(yè)務(wù)需求,并為現(xiàn)場(chǎng)直播提供實(shí)時(shí)字幕,提升直播效果。

        主流實(shí)時(shí)語(yǔ)音字幕能力實(shí)時(shí)性要求強(qiáng),客戶(hù)端邊上傳,服務(wù)端邊識(shí)別。對(duì)音頻幀實(shí)時(shí)發(fā)送給AI服務(wù)商,同時(shí)接收進(jìn)程實(shí)時(shí)獲取轉(zhuǎn)義文字內(nèi)容,本地進(jìn)行分句后輸出字幕內(nèi)容,通過(guò)在線(xiàn)包裝合成,疊加到直播視頻上。

        3.2 場(chǎng)景和人臉識(shí)別

        人物識(shí)別在直播應(yīng)用中有著極其廣泛的應(yīng)用。比如直播人物字幕流程,當(dāng)關(guān)鍵人物進(jìn)入畫(huà)面后,手動(dòng)拍出提前準(zhǔn)備好關(guān)鍵人物字幕條,傳統(tǒng)方式無(wú)法實(shí)現(xiàn)突發(fā)事件及無(wú)法預(yù)測(cè)場(chǎng)景。通過(guò)人工智能技術(shù),建立可能出現(xiàn)的關(guān)鍵人物庫(kù),通過(guò)臉部識(shí)別技術(shù)自動(dòng)識(shí)別人物,并自動(dòng)輸出人物字幕條。建立面部識(shí)別庫(kù),一類(lèi)基于Dlib、dnn為主流的離線(xiàn)識(shí)別,另一類(lèi)是百度、騰訊、訊飛為主流的在線(xiàn)識(shí)別。以離線(xiàn)識(shí)別庫(kù)為例,對(duì)比Dlib使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)和方向梯度直方圖(HOG),CNN方法準(zhǔn)確度高,但速度慢,而HOG方法速度快,但準(zhǔn)確性有所下降。啟動(dòng)GPU cuda加速能力后CNN計(jì)算時(shí)間大大縮小,HOG和CNN時(shí)間相仿。

        3.3 實(shí)時(shí)短視頻制作

        直播目的為了更好、更快地傳播熱點(diǎn)內(nèi)容的聚焦和時(shí)效性,直播中需要快速提取熱點(diǎn)和亮點(diǎn)內(nèi)容制成短視頻,通過(guò)App或者社交媒體快速傳播,如果采用傳統(tǒng)手動(dòng)流程,往往耗時(shí)耗力。

        借助于轉(zhuǎn)語(yǔ)音能力,文字內(nèi)容與視頻內(nèi)容的位置是對(duì)應(yīng)的,選擇所需文字內(nèi)容就能夠確定視頻片段的出入點(diǎn),實(shí)現(xiàn)基于文字內(nèi)容的人工智能快速拆條。

        借助于人物識(shí)別能力,可以準(zhǔn)確獲得焦點(diǎn)人物出現(xiàn)的時(shí)間,實(shí)現(xiàn)基于人物的人工智能拆條。后臺(tái)根據(jù)焦點(diǎn)人物在鏡頭中出現(xiàn)的準(zhǔn)確時(shí)間點(diǎn),快速生成短視頻。

        4 應(yīng)用實(shí)踐

        融媒直播云平臺(tái)不僅適用于活動(dòng)、電商、游戲等直播場(chǎng)景外,人工智能+云端直播方式也賦予了更廣泛、更新穎的應(yīng)用場(chǎng)景及業(yè)務(wù)模式。

        (1)云綜藝錄制/直播:新冠肺炎疫情對(duì)直播產(chǎn)業(yè)催生了不少創(chuàng)新應(yīng)用。伴隨5G技術(shù)的成熟,云綜藝真正實(shí)現(xiàn)了多地多機(jī)位互動(dòng)的錄制直播,參與錄制節(jié)目的嘉賓無(wú)需到演播室現(xiàn)場(chǎng),只需通過(guò)視頻設(shè)備和云綜藝軟件就可以實(shí)現(xiàn)跨越空間的互動(dòng)演繹。

        (2)VR直播:特指環(huán)視VR直播,以相機(jī)為中心向周?chē)臄z[3];利用VR攝像機(jī)拍攝,然后編碼推流直播。觀(guān)眾佩戴VR眼鏡可以720度環(huán)視,有著身臨其境的臨場(chǎng)感,更具感染力和真實(shí)感。以往,VR直播無(wú)法突破的原因是帶寬、實(shí)時(shí)高清編碼以及VR眼鏡。5G+8K技術(shù)突破了網(wǎng)速和畫(huà)質(zhì)的限制,讓VR直播產(chǎn)業(yè)化發(fā)展掃清了障礙。VR演唱會(huì)、VR云觀(guān)賽、VR云旅游等均為VR直播的典型應(yīng)用。

        (3)子彈時(shí)間:指環(huán)物VR直播,以被拍攝物為中心,相機(jī)環(huán)繞被攝物拍攝[3]。采用時(shí)間凝結(jié)技術(shù),現(xiàn)場(chǎng)布置一套有若干臺(tái)與被拍攝物在同一聚焦平面上,但彼此時(shí)間碼同步,可以依次觸發(fā)的攝像機(jī)組成的360度環(huán)繞拍攝制作系統(tǒng),用戶(hù)不需要戴眼鏡就能觀(guān)看到運(yùn)動(dòng)或靜止中的人或物不同視角的瞬間,整體效果炫酷完美[4]。典型應(yīng)用為競(jìng)技類(lèi)體育賽事、舞蹈演唱會(huì)等場(chǎng)合。

        (4)直播帶貨:近年來(lái)直播帶貨異軍突起,開(kāi)辟了直播及短視頻變現(xiàn)盈利的新途徑。通過(guò)直播手段重構(gòu)“人、貨、場(chǎng)”三要素,具有強(qiáng)互動(dòng)性、社交性和高轉(zhuǎn)化率。為了提高商品到消費(fèi)者觸達(dá)率,調(diào)動(dòng)購(gòu)買(mǎi)熱情,借助VR直播模式,提供沉浸式購(gòu)物體驗(yàn),如臨現(xiàn)場(chǎng),讓直播與消費(fèi)完美結(jié)合。

        5 結(jié)束語(yǔ)

        融合了人工智能的能力,直播系統(tǒng)更智能、更高效、更人性化,同時(shí)也會(huì)加速直播產(chǎn)業(yè)業(yè)務(wù)形態(tài)和模式的創(chuàng)新發(fā)展,催生業(yè)務(wù)向更具有創(chuàng)新性的領(lǐng)域發(fā)展。

        猜你喜歡
        視音頻音視頻字幕
        Word和Excel聯(lián)手字幕添加更高效
        我國(guó)首個(gè)超高清視音頻國(guó)家重點(diǎn)實(shí)驗(yàn)室在滬啟動(dòng)建設(shè)
        3KB深圳市一禾音視頻科技有限公司
        WIFI音視頻信號(hào)傳輸?shù)年P(guān)鍵問(wèn)題探究
        電子制作(2018年12期)2018-08-01 00:48:06
        高速公路整合移動(dòng)音視頻系統(tǒng)應(yīng)用
        整合適應(yīng)選擇度下的動(dòng)畫(huà)電影字幕翻譯——以《冰河世紀(jì)》的字幕漢譯為例
        論紀(jì)錄片的字幕翻譯策略
        人間(2015年22期)2016-01-04 12:47:26
        基于內(nèi)容結(jié)構(gòu)特征的Flash電影視音頻特征的提取研究
        電視臺(tái)視音頻資料數(shù)字化存儲(chǔ)
        Roland專(zhuān)業(yè)音視頻新技術(shù)研討會(huì)在上海召開(kāi)
        女人被狂躁高潮啊的视频在线看| 中文字幕亚洲视频三区| 亚洲中文字幕一区二区在线| 无码人妻一区二区三区免费看 | 国产精品三区四区亚洲av| 国产欧美一区二区三区在线看| 无码国产激情在线观看| 欧美日韩国产高清| 黑丝美腿国产在线观看| 三年片免费观看影视大全视频 | 亚洲一区sm无码| 亚洲国产中文字幕九色| 国精产品一区一区三区| av潮喷大喷水系列无码| 熟女人妻丰满熟妇啪啪| 亚洲精品天堂日本亚洲精品| 欧美黑人又粗又大xxxx| 久久亚洲精品ab无码播放| 亚洲欧美日韩在线精品2021| 日本熟妇中出高潮视频| 国产色在线 | 日韩| 欧美黑人又粗又大久久久| 日韩在线精品视频观看| 亚洲乱在线播放| 成人av资源在线观看| 国产精品av在线| 日本一区二区三区高清千人斩| 久久伊人精品只有这里有| 亚洲处破女av日韩精品中出| 奇米影视777撸吧| 国产免费看网站v片不遮挡| 国产精品久久久久久久y| 久久99精品综合国产女同| 337p人体粉嫩胞高清视频| 嫖妓丰满肥熟妇在线精品| 欧美二区视频| 日本高清人妻一区二区| 国产猛烈高潮尖叫视频免费| 中文天堂在线www| 精品蜜桃一区二区三区| 国产18禁黄网站免费观看|