亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

廣播電視節(jié)目制作中的深度學(xué)習(xí)和智能剪輯技術(shù)

2022-02-10 08:42:20劉超

電視技術(shù) 2022年12期

關(guān)鍵詞：音頻電視節(jié)目廣播

劉超

（吉林廣播電視臺，吉林長春 130033）

1 相關(guān)概念闡述

1.1 廣播電視節(jié)目

廣播電視節(jié)目也稱廣電節(jié)目，指電視臺和廣播電臺所播出內(nèi)容的基本組織與播出形式。從時間段角度來看，廣播電視節(jié)目是一個多層次的系統(tǒng)，按時間段劃分，表現(xiàn)內(nèi)容的方式是線性結(jié)構(gòu)傳播的方式，根據(jù)節(jié)目的時間長短順序來播放節(jié)目。廣播電視臺主要播送音頻，而電視臺主要播送視頻節(jié)目。近幾年，網(wǎng)絡(luò)、科學(xué)技術(shù)發(fā)展迅速，也為廣播電視臺的音視頻節(jié)目制作提供了技術(shù)幫助。

1.2 深度學(xué)習(xí)

深度學(xué)習(xí)的英文是Deep Learning，簡稱DL，是機(jī)器學(xué)習(xí)（Machine Learning，ML）領(lǐng)域一個新的研究方向?？梢赃@樣理解：深度學(xué)習(xí)融入機(jī)器學(xué)習(xí)，也就是人們所說的人工只智能（Artificial Intelligence，AI）。人工智能的范圍較大，其本質(zhì)可以通過深度學(xué)習(xí)表現(xiàn)出來。當(dāng)前，深度學(xué)習(xí)的主要訓(xùn)練模式就是識別音頻、視頻、圖片等[1-2]。在現(xiàn)實(shí)生活中，深度學(xué)習(xí)已經(jīng)被應(yīng)用在媒體處理等方面，也取得了一定的成就。

1.3 智能剪輯概述

智能剪輯是通過豐富的剪輯手法，自動讓視頻呈現(xiàn)不同風(fēng)格，一般用于照片、錄音、視頻等的剪輯，以去掉不需要的、留下精彩的部分。細(xì)分智能剪輯，其過程可以分為四個步驟：視頻采集、特征提取、關(guān)鍵幀提取以及視頻生成，即根據(jù)數(shù)據(jù)庫的主題，提取視頻片段的特征，對視頻片段的關(guān)鍵幀進(jìn)行提取，通過將相關(guān)片段進(jìn)行拼接，最終生成視頻[3-4]。

2 深度學(xué)習(xí)在廣播電視節(jié)目制作中的應(yīng)用

2.1 在音頻節(jié)目制作中的應(yīng)用

音頻信號具有時序性、語義性等特征，計(jì)算機(jī)不能直接對音頻信號進(jìn)行處理，但是可以通過對信號進(jìn)行評估和預(yù)測，實(shí)現(xiàn)對音頻的處理加工。

2.1.1 語音識別

很早之前，人工智能技術(shù)就應(yīng)用在語音識別領(lǐng)域，主要應(yīng)用在音頻識別和自動朗讀等方面。應(yīng)用深度學(xué)習(xí)模型，可以準(zhǔn)確地識別出目標(biāo)音視。例如，不同地區(qū)方言不同，利用深度學(xué)習(xí)模型可以準(zhǔn)確識別方言、合成方言等，也可以區(qū)別音頻中的音調(diào)、音色等物理指標(biāo)，并學(xué)會對其進(jìn)行判斷[5]。

2.1.2 說話人識別與合成

說話人識別與合成的應(yīng)用廣泛，可以在很多方面加以應(yīng)用。當(dāng)前，深度學(xué)習(xí)的重點(diǎn)研究領(lǐng)域?yàn)橥ㄟ^計(jì)算機(jī)建模判別音頻信號，以此來分辨聲音的來源。例如，各種聲音一同發(fā)聲時比較混亂，此時可以通過深度學(xué)習(xí)來辨別聲音，根據(jù)聲音的獨(dú)有特色，自動識別出某個特殊人物的講話或者有特點(diǎn)的背景聲音等[6]。這些操作可以提升廣播電視臺在音頻制作方面的效率，再配以快編、媒體資產(chǎn)編目等模塊，使得音頻信號的處理實(shí)現(xiàn)智能化、自動化。

2.1.3 語義識別

在音頻節(jié)目制作中，語義識別是一個具有挑戰(zhàn)性的項(xiàng)目，在節(jié)目制作中是難度較大的部分，在音頻制作生產(chǎn)中有非常重要的作用。語義識別是人類等高級動物所特有的，需要大腦參與，是一項(xiàng)較智能的活動，其大致過程如下：通過深度學(xué)習(xí)模型對音頻信號的內(nèi)容、來源等進(jìn)行掌握，對音頻信號進(jìn)行整體的把握，理解音頻信號，并對音頻信號的內(nèi)容進(jìn)行想象、推理。眾所周知，信號相對音頻來說較為抽象，因?yàn)槠錄]有畫面性，人們根本不能通過肉眼的觀察來了解人物的情緒、心理活動等。但事物都具有兩面性，也正是因?yàn)樾盘栞^抽象，也就使得其傳遞出的語義較為豐富，人們便可通過音調(diào)、語調(diào)節(jié)奏等對音頻進(jìn)行區(qū)分，也可以通過音頻來判斷人的需求、情緒、喜好。根據(jù)相關(guān)實(shí)驗(yàn)可知，深度學(xué)習(xí)模型是具有時序處理的能力的，當(dāng)前已經(jīng)應(yīng)用在語義識別、預(yù)測、合成等方面[7-8]。

2.2 在視頻節(jié)目制作中的應(yīng)用

深度學(xué)習(xí)技術(shù)已經(jīng)在音視頻中廣泛應(yīng)用，但由于音頻信號較抽象，因此在視頻制作中，深度學(xué)習(xí)技術(shù)的應(yīng)用更加廣泛[9]。目前，在視頻制作過程中，視頻內(nèi)容的合成主要使用計(jì)算機(jī)來完成。國外對這方面的研究較早，有很多研究成果值得借鑒學(xué)習(xí)。在我國，深度學(xué)習(xí)技術(shù)的應(yīng)用也逐漸廣泛。隨著媒體融合越來越深入，無論是新興的自媒體，還是傳統(tǒng)的廣電節(jié)目制作等領(lǐng)域也都將人工智能技術(shù)融入其中，不斷提高制作效率、產(chǎn)品質(zhì)量。

2.2.1 場景與人物識別

場景與人物識別在廣播電視節(jié)目制作和生產(chǎn)中非常重要。最早的場景與人物識別工作是由記者、編輯人員來完成的，由于識別量大，所以需要花費(fèi)相關(guān)工作人員很多時間?，F(xiàn)在，工作人員可以借助成熟的深度學(xué)習(xí)技術(shù)來進(jìn)行視頻的智能處理，使整個過程自動化。應(yīng)用計(jì)算機(jī)，可以自動地對視頻中的畫面和人物進(jìn)行打點(diǎn)、分割，對周圍環(huán)境、特殊鏡頭等的捕捉也可以實(shí)現(xiàn)自動化。智能化的操作，很大程度上提高了節(jié)目的制作效率，減輕了工作人員的壓力，可以使工作人員有更多時間和精力去研究剪輯、創(chuàng)作等。

2.2.2 字幕識別與處理

字幕識別與處理是廣播電視節(jié)目制作中，制作人比較關(guān)注的一個步驟。由于技術(shù)水平優(yōu)先，一般情況下，字母與視頻素材往往是重疊的，如果要去掉字母，就需要使用圖像處理工具，或者使用馬賽克等將字母遮掉。這樣處理給工作人員帶來巨大的壓力，而且處理后視頻的質(zhì)量也會大不如前。利用深度學(xué)習(xí)技術(shù)，可以解決這一問題，在對畫面質(zhì)量不產(chǎn)生影響的前提下，可以自動識別字母與視頻，將字母提取出來，還可以在去掉字母之后增強(qiáng)視頻效果。這些智能化的技術(shù)對電視廣播節(jié)目制作意義重大。

2.2.3 自動合成

在廣播電視制作中，自動合成具有重要作用。隨科學(xué)技術(shù)的發(fā)展，深度學(xué)習(xí)模型應(yīng)用越來越廣泛，目前已經(jīng)實(shí)現(xiàn)了根據(jù)節(jié)目的主題、素材、類型等，智能化地合成節(jié)目的音頻、視頻、字幕及特效等，自動變換音頻的節(jié)奏、鏡頭等，還可以根據(jù)預(yù)設(shè)情境自動渲染氣氛。這種自動合成水平不亞于廣播電視制播人員的水平，可以稱得上有專業(yè)水準(zhǔn)。

3 智能剪輯在廣播電視節(jié)目制作中的應(yīng)用

廣播電視的后期制作需要投入大量的人力、物力，而需要耗費(fèi)人力、物力最多的要數(shù)視頻剪輯過程，后期人員需要認(rèn)真觀看視頻的內(nèi)容，選出有代表性的片段。隨著人工智能技術(shù)的不斷發(fā)展，智能剪輯技術(shù)已經(jīng)能夠自動預(yù)測摘要片段，而且準(zhǔn)確性高。后期制作時，利用人工進(jìn)行視頻剪輯效率較低，而且花費(fèi)的時間較長，智能化剪輯的使用可以大大提高剪輯效率，節(jié)約剪輯需要花費(fèi)的成本。由于智能化剪輯的種種優(yōu)點(diǎn)，人們開始逐漸重視并深入研究它。當(dāng)前國內(nèi)外的觀點(diǎn)較多，其中有關(guān)智能視頻摘要算法的成果顯著，應(yīng)用范圍廣泛。根據(jù)輸出內(nèi)容的形式進(jìn)行分類，智能視頻摘要算法可分為動態(tài)和靜態(tài)兩種。動態(tài)摘要算法的定義是，將從視頻中抽取的精彩片段以串聯(lián)組合的形式生成摘要視頻并向用戶展示；靜態(tài)視頻摘要的定義是，向用戶展示在視頻中抽取的關(guān)鍵幀。目前，各大網(wǎng)站門戶與短視頻生成平臺已經(jīng)應(yīng)用智能視頻摘要技術(shù)，如生成視頻讓用戶快速預(yù)覽頻、生成新聞片段發(fā)布等。智能視頻摘要算法助力廣電制作人員提升工作效率，幫助后期剪輯快速且高質(zhì)量完成。在廣播電視行業(yè)與人工智能融合發(fā)展的形勢下，探究人工智能在廣播電視后期制作中的應(yīng)用尤為重要，利于后期制作的發(fā)展。

3.1 有監(jiān)督動態(tài)視頻摘要

與圖片不同，視頻幀之間具有相關(guān)性。有專家學(xué)者提出一種基于監(jiān)督學(xué)習(xí)的動態(tài)視頻摘要技術(shù)，該方法使用長短期記憶（Long Short-term Memory，LSTM）網(wǎng)絡(luò)預(yù)測視頻結(jié)構(gòu)，對視頻幀間的可變范圍時間相關(guān)性進(jìn)行建模，輸出具有代表性的片段和時空相關(guān)性緊密的片段，如圖1的 vsLSTM網(wǎng)絡(luò)結(jié)構(gòu)所示。

圖1 vsLSTM網(wǎng)絡(luò)結(jié)構(gòu)圖

3.2 無監(jiān)督動態(tài)視頻摘要

有專家學(xué)者提出了基于無監(jiān)督學(xué)習(xí)的深度摘要網(wǎng)絡(luò)（DSN）實(shí)現(xiàn)動態(tài)視頻摘要，視頻摘要轉(zhuǎn)化為順序決策過程，其結(jié)構(gòu)如圖2所示。在頻率分布的確定上，DSN首先預(yù)測每幀被選擇的概率，其次通過系統(tǒng)解析，確定所選擇的視頻幀率，并以此為依據(jù)，選取關(guān)鍵幀，最終形成視頻片段。如此看來，如何提高DSN的解析水平，便成為廣大編輯工作者主要的研究課題，因此有必要建設(shè)一個端對端的學(xué)習(xí)框架平臺，從而使DSN生成的視頻摘要片段更具多樣性和代表性。MAHASSENI等人提出的無監(jiān)督學(xué)習(xí)的動態(tài)視頻摘要方法，通過選擇最具代表輸入視頻的視頻幀動作為析出子集以生成片段，如圖3所示。這種方法學(xué)習(xí)一個摘要網(wǎng)絡(luò)時，不需要人值守監(jiān)督，能夠縮短訓(xùn)練視頻和摘要之間的距離，并且生成了一種新的對抗式網(wǎng)絡(luò)。這個新的網(wǎng)絡(luò)包括摘要器和鑒別器，在進(jìn)行視頻摘要的時候使用的是自動編碼器長短期存儲網(wǎng)絡(luò)。在甄別原始視頻與摘要視頻時，使用的則是LSTM網(wǎng)絡(luò)。

圖2 DSN網(wǎng)絡(luò)結(jié)構(gòu)

圖3 基于無監(jiān)督學(xué)習(xí)的動態(tài)視頻摘要方法網(wǎng)絡(luò)結(jié)構(gòu)圖

3.3 探究

前文提到過，基于深度學(xué)習(xí)技術(shù)的動態(tài)視頻摘要片段生成的過程可以分為四個步驟：視頻采集、特征提取、關(guān)鍵幀提取以及視頻生成。這四步中的關(guān)鍵是有效的時序特征和語義特征提取方法。由于不同幀之間信息量不同，人們常常通過特征聚合的方法來進(jìn)行優(yōu)化。受限于傳統(tǒng)視頻摘要方法準(zhǔn)確度不高的狀況，后來慢慢地被基于深度學(xué)習(xí)技術(shù)的視頻摘要算法替代，基于GAN網(wǎng)絡(luò)的動態(tài)視頻摘要算法性能較高，也常常用來替代部分人工參與視頻剪輯的過程，這些都是目前視頻摘要中性能較好的算法。

4 結(jié) 語

音視頻的優(yōu)點(diǎn)有很多，如時間短、娛樂性強(qiáng)、內(nèi)容豐富、制作簡單、傳播迅速等，但音視頻在快速發(fā)展的同時也暴露出了一些問題，只有妥善處理這些問題，靈活運(yùn)用技術(shù)手段，才能創(chuàng)作出更優(yōu)秀的音視頻，為用戶提供更好的體驗(yàn)。當(dāng)前，我國在各個領(lǐng)域都已應(yīng)用深度學(xué)習(xí)關(guān)鍵技術(shù)，創(chuàng)造的商業(yè)價值非常大，廣播電視行業(yè)應(yīng)該抓住機(jī)會，不斷創(chuàng)新，在廣播電視節(jié)目制作中充分利用深度學(xué)習(xí)關(guān)鍵技術(shù)，制作出更多人們喜愛的音視頻節(jié)目。