亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

人工智能技術(shù)在視頻編輯中的應(yīng)用實(shí)踐

2020-10-12 14:41:05譚樂娟

中國傳媒科技 2020年8期

摘? 要：隨著互聯(lián)網(wǎng)技術(shù)以及傳媒業(yè)的發(fā)展，短視頻已成為了人們獲取新聞資訊的一種主要形態(tài)。近年來，自然語言、語音、圖像領(lǐng)域的人工智能技術(shù)不斷取得突破，使得人工智能技術(shù)在生產(chǎn)系統(tǒng)中的工程化應(yīng)用成為可能。在視頻編輯中合理地運(yùn)用人工智能技術(shù)，能有效地降低視頻編輯的難度和工作量，讓更多的人參與到短視頻制作中來，實(shí)現(xiàn)短視頻發(fā)稿量和質(zhì)量的快速提升。新華AI視頻是人工智能技術(shù)在視頻編輯中的應(yīng)用實(shí)踐，提供了字幕自動配音、視頻字幕提取、多語種字幕翻譯、虛擬主播、智能編目與檢索、圖片視頻化、文字視頻化等多種智能輔助編輯功能，有效地降低了視頻制作門檻，為新華社短視頻專線的快速發(fā)展起到積極作用。

關(guān)鍵詞：新媒體;人工智能;短視頻;視頻編輯? ? ? ? ? ? ? ? ? ? ? ? ? ? ?中圖分類號：TP393? ? ? ? ? ? ? ? ? ? ? ? ? ?文獻(xiàn)標(biāo)識碼：A

文章編號：1671-0134（2020）08-125-04? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?DOI：10.19483/j.cnki.11-4653/n.2020.08.034

本文著錄格式：譚樂娟.人工智能技術(shù)在視頻編輯中的應(yīng)用實(shí)踐[J].中國傳媒科技，2020（8）：125-128.

隨著互聯(lián)網(wǎng)技術(shù)以及傳媒業(yè)的發(fā)展，短視頻具有播放時間短、傳播速度快等傳播特點(diǎn)，深度切合當(dāng)前用戶碎片化的使用場景，已成為人們獲取新聞資訊的一種主要形態(tài)。根據(jù)網(wǎng)信辦第45次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報告》，截至2020年3月，我國網(wǎng)絡(luò)視頻（含短視頻）用戶規(guī)模達(dá)8.50億，占網(wǎng)民整體的94.1%，其中短視頻用戶規(guī)模為7.33億，占網(wǎng)民整體的85.6。網(wǎng)絡(luò)視頻（含短視頻）已成為僅次于即時通信的第二大互聯(lián)網(wǎng)應(yīng)用類型。[1]2019年，我國5G商用環(huán)境持續(xù)完善、標(biāo)準(zhǔn)技術(shù)取得新突破、應(yīng)用孵化進(jìn)入全面啟動期。[2]隨著5G時代到來，短視頻預(yù)計(jì)會迎來新一輪爆發(fā)，可以預(yù)見，短視頻會成為了下一輪各類媒體開展競爭的最重要領(lǐng)域。

專業(yè)視頻制作的學(xué)習(xí)高門檻、制作的復(fù)雜度和時間成本讓很多傳統(tǒng)文字及圖片編輯望而卻步，難以參與短視頻制作中去，限制了媒體通過短視頻作為報道手段的發(fā)展。近年來，人工智能關(guān)鍵技術(shù)日趨成熟，自然語言處理、語音圖像領(lǐng)域的人工智能技術(shù)不斷取得突破，使得人工智能技術(shù)在生產(chǎn)系統(tǒng)中的工程化應(yīng)用成為可能。[3]如果能在視頻編輯中合理地運(yùn)用人工智能技術(shù)，就能有效地降低視頻編輯的難度和工作量，讓更多的人參與到短視頻制作中來，實(shí)現(xiàn)短視頻發(fā)稿量的快速增長，文稿質(zhì)量的不斷提升。

1.新華AI視頻編輯工具的設(shè)計(jì)

為了更好地整合內(nèi)部編輯系統(tǒng)，新華AI視頻編輯工具設(shè)計(jì)為基于瀏覽器的輕量級智能化在線短視頻制作工具。設(shè)計(jì)的目標(biāo)用戶為所有有短視頻制作需求的采編業(yè)務(wù)人員，特別是非專業(yè)視頻編輯。設(shè)計(jì)上需要兼顧以下功能：

1.1強(qiáng)大的視頻編輯能力

支持多軌道、幀精度的非線性視頻編輯，提供剪切、配音、字幕條、唱詞字幕、貼圖、轉(zhuǎn)場特效、幀動畫、摳像、模糊、數(shù)據(jù)圖等多種實(shí)用編輯功能。提供多種字幕條模板、轉(zhuǎn)場模板、特效模板、數(shù)據(jù)圖模板。高清橫屏16：9、標(biāo)清橫屏4：3、手機(jī)豎屏9：16、twitter方屏1：1四種畫幅編輯模式靈活切換。支持一鍵添加預(yù)設(shè)的片頭片尾角標(biāo)。支持多種分辨率輸出。所有素材拖曳上軌，所有編輯操作所見即所得，方便非專業(yè)人員使用。

1.2智能化能力

提供多種智能化輔助編輯功能，包括字幕自動配音、視頻字幕提取、多語種字幕翻譯、虛擬主播、智能編目與檢索、圖片視頻化、文字視頻化等。此外，還可以基于一篇文字稿或一組圖片稿自動生成視頻。

1.3資源整合

和內(nèi)部的資源整合，支持和新華社內(nèi)部稿件、素材中的視頻、音頻、圖片素材導(dǎo)入視頻編輯項(xiàng)目中再利用，提高了資源的利用率。

1.4與采編流程無縫對接

與新華社核心發(fā)稿系統(tǒng)無縫對接，支持成品視頻一鍵建稿，支持對稿件中的視頻進(jìn)行編輯修改。實(shí)現(xiàn)了稿件編簽過程中的多人、異地共享編輯修改視頻。

2.人工智能技術(shù)的運(yùn)用

相較于傳統(tǒng)的視頻編輯軟件，新華AI視頻編輯工具的一個最大的特色就是對人工智能技術(shù)的運(yùn)用，大大簡化了視頻編輯的工作，對非專業(yè)視頻編輯人員來說易于操作。該工具靈活運(yùn)用了自然語言處理、語音識別、語音合成、智能翻譯、虛擬主播合成、視頻內(nèi)容識別等人工智能技術(shù)，提供了字幕自動配音、視頻字幕提取、多語種字幕翻譯、虛擬主播、智能編目與檢索、圖片視頻化、文字視頻化等多種智能編輯輔助功能。

2.1字幕自動配音

視頻編輯過程中經(jīng)常需要對編排好的解說詞進(jìn)行配音播報。一般是通過人工錄制的方式進(jìn)行配音，配音后還需要對字幕的時間進(jìn)行調(diào)整，讓字幕和配音的時間點(diǎn)對應(yīng)上，工作量很大。而且非專業(yè)配音人員的配音，也存在發(fā)音不夠標(biāo)準(zhǔn)的問題。通過語音合成的智能服務(wù)，就能一鍵將字幕生成配音，并自動將字幕時間與配音進(jìn)行同步。新華AI視頻支持中、英、西、法、俄、阿、葡、日、韓9個語種的字幕配音功能，提供多種男聲、女聲模板供選擇，并可對語速進(jìn)行調(diào)節(jié)。

2.2視頻字幕提取

另一種需求是給視頻中的同期聲配上字幕，一般在會議發(fā)言、采訪訪談等場景中比較常見。傳統(tǒng)編輯需要逐句聽打同期聲上字幕，還需要對字幕的時間進(jìn)行人工調(diào)整，也是一件很繁瑣的工作。在語音識別技術(shù)的支持下，可以實(shí)現(xiàn)一鍵識別視頻中的語音生成唱詞字幕，且字幕和語音自動匹配，只需要少許糾錯即可。目前，在環(huán)境和發(fā)音情況良好的情況下，中英文語音轉(zhuǎn)寫的準(zhǔn)確率能達(dá)到98%以上，可用性較高。

2.3多語種字幕翻譯

在國際化發(fā)稿中，為了滿足各小語種專線的發(fā)稿需求，需要給同一個視頻配上不同語種的字幕和配音，通常需要先制作一個不帶字幕和配音的裸視頻，再找不同語種的專業(yè)人員翻譯后分別制作不同字幕和配音。通過智能翻譯服務(wù)，可以在一個項(xiàng)目中一鍵生成多種不同語種的字幕，只需要專業(yè)小語種編輯對智能翻譯后的結(jié)果進(jìn)行人工審核和糾錯，再結(jié)合字幕的小語種配音功能，自動生成不同語種的配音，就能在一個項(xiàng)目里輸出多個不同語種版本。新華AI視頻支持中、英、西、法、俄、日、西、阿、葡、泰、藏11個語種的字幕互譯，支持同時合成多個語種的成品。操作非常簡單，沒有視頻制作經(jīng)驗(yàn)的小語種編輯也能很快上手制作，極大地節(jié)省了視頻國際化的工作量和時間。

2.4虛擬主播

除了字幕和配音，新聞主播也可以由人工智能自動生成。在需要添加新聞主播的場景下，只需要輸入主播的解說詞，就可以一鍵生成虛擬主播，主播口型與語音播報的內(nèi)容完全匹配。主播可以選擇不同的形象和背景，還可以調(diào)整語速，生成后按需插入到視頻項(xiàng)目中即可。綠幕背景的主播可以進(jìn)一步通過AI視頻編輯的摳像功能一鍵去掉背景，完美嵌入到視頻內(nèi)容中。

2.5智能編目與檢索

在視頻制作過程中，素材的挑選也是一項(xiàng)很困難的工作。特別是視頻素材庫編目做得不夠細(xì)致的情況下，要在龐大的歷史素材中找到想要的片段，更是難上加難。傳統(tǒng)的人工編目工作費(fèi)時費(fèi)力，編目的標(biāo)準(zhǔn)也不是很適合做內(nèi)容檢索。通過智能視頻內(nèi)容識別技術(shù)，可以自動識別視頻素材中的關(guān)鍵要素，包括人臉識別、文字OCR識別、語音識別、物體/場景識別，從而實(shí)現(xiàn)片段級的內(nèi)容檢索，快速找到所需要的片段加入項(xiàng)目，節(jié)省大量的時間。

2.6圖片視頻化

針對攝影部圖片視頻化的需求，使用AI視頻編輯可以快速將稿庫的一組圖片稿轉(zhuǎn)換成視頻項(xiàng)目，并自動添加轉(zhuǎn)場特效、字幕說明、配樂/配音，用戶只需要對自動生成的項(xiàng)目進(jìn)行微調(diào)后就可以完成視頻制作。

攝影部圖片稿通常使用組圖的方式，一組圖片稿講述同一個事件，通常有十幾二十多張，圖片之間的關(guān)聯(lián)度很高，并配有圖片總說明和分說明，很適合做成一個短視頻。除了組圖，盤點(diǎn)型的新聞，例如一周看天下，也很適合制作短視頻。在稿庫批量選取圖片后，再選擇圖片時長、轉(zhuǎn)場特效、背景音樂，就能一鍵生成一個視頻項(xiàng)目。再根據(jù)具體的音樂節(jié)拍和時長對圖片時長進(jìn)行調(diào)節(jié)，根據(jù)畫面內(nèi)容對圖片進(jìn)行適度的縮放、位移、背景模糊，對字幕內(nèi)容進(jìn)行修改，使之適合視頻顯示，加上包裝，就完成了短視頻的制作。

下一步，還可以針對具體的節(jié)目要求，將圖片視頻化的效果和細(xì)節(jié)模板化，一個模板生產(chǎn)一檔節(jié)目，結(jié)合音樂的自動分析，優(yōu)化素材的拼接效果，提高自動化項(xiàng)目的成片度，進(jìn)一步節(jié)省用戶工作量。

2.7文字視頻化

AI視頻編輯還將文字稿當(dāng)做文字腳本創(chuàng)作視頻。選擇一篇文字稿后，對文字進(jìn)行自然語言處理提取關(guān)鍵詞，在資源庫檢索視頻、圖片素材后挑選匹配度最高的素材自動上軌，生成視頻項(xiàng)目，并自動將文字腳本生成字幕和配音。

關(guān)鍵詞提取和片段檢索的準(zhǔn)確度是合成效果好壞的關(guān)鍵。通常一個素材如果很長，內(nèi)容也會比較復(fù)雜，特別是成品素材，通常由多個新聞組成，還包括片頭片尾等要素，在使用時需要精準(zhǔn)定位到具體的片段進(jìn)行切割。在一篇文章關(guān)鍵詞提取后，還需要留意它的時效性，比如兩會、奧運(yùn)會這種周期性的報道需要明確年份。還有關(guān)鍵詞之間的邏輯關(guān)系，同一事件的不同階段或者不同角度，報道的內(nèi)容也是有區(qū)別的，例如港珠澳大橋通車，報道的是工程建設(shè)的情況還是車流通行情況，選取的素材也是不一樣的。對于比較長的多個段落的文章，可能每個段落講述的內(nèi)容有所區(qū)別，為了更好的效果，還可以分段進(jìn)行關(guān)鍵詞提取和素材篩選。

為了提高項(xiàng)目的成片度，我們在自動篩選素材的基礎(chǔ)上增加了人工二次篩選，可以人工修改檢索的關(guān)鍵詞并設(shè)置更多的檢索條件，刪除不合適的素材或增加新的素材，讓選中的素材更符合腳本上下文。

3.AI視頻編輯技術(shù)實(shí)現(xiàn)

新華AI視頻編輯工具采用B/S架構(gòu)，系統(tǒng)由前端發(fā)布層、后端業(yè)務(wù)層、底層服務(wù)層、數(shù)據(jù)存儲層四層構(gòu)成。

前端發(fā)布層包括web頁面和流媒體播放服務(wù)。web頁面使用最新的HTML5 canvas和webgl技術(shù)實(shí)現(xiàn)，無須安裝任何額外軟件或插件，全程在瀏覽器上訪問操作，所有編輯操作所見即所得，Windows 操作系統(tǒng)和 Mac OSX 操作系統(tǒng)均可使用。流媒體服務(wù)基于nginx構(gòu)建，負(fù)責(zé)視音頻、圖片等文件的預(yù)覽和下載。

后端業(yè)務(wù)層負(fù)責(zé)進(jìn)行編輯的業(yè)務(wù)邏輯處理和數(shù)據(jù)管理，提供包括項(xiàng)目管理、素材檢索、剪輯操作、成品發(fā)布、素材管理、成品管理、模板管理、用戶管理等功能。后端業(yè)務(wù)層也是前端和底層的橋梁，前端的用戶編輯操作，通過業(yè)務(wù)層轉(zhuǎn)換成底層渲染可以識別的指令。底層渲染的進(jìn)度和狀態(tài)，也通過業(yè)務(wù)層實(shí)時通知前端頁面。

底層服務(wù)層包括渲染服務(wù)和智能服務(wù)兩部分。渲染服務(wù)負(fù)責(zé)進(jìn)行素材的預(yù)處理和成品的渲染合成。智能服務(wù)負(fù)責(zé)所有的人工智能處理，包括自然語言處理、全文檢索、語音識別、語音合成、智能翻譯、虛擬主播等。

數(shù)據(jù)存儲層使用NAS存儲用戶素材、系統(tǒng)素材、編輯過程文件和成品文件，使用mysql存儲業(yè)務(wù)數(shù)據(jù)。

AI視頻編輯還提供開放API接口，供第三方系統(tǒng)調(diào)用。除了用戶直接創(chuàng)建視頻項(xiàng)目進(jìn)行編輯以外，也支持對稿件中的視頻進(jìn)行編輯，或者由智能分析服務(wù)自動創(chuàng)建項(xiàng)目。項(xiàng)目創(chuàng)建后，需要導(dǎo)入素材，包括本地上傳的素材和資源庫里的素材。素材導(dǎo)入后，要先通過渲染服務(wù)初始化成適合前端預(yù)覽的一系列小碼流文件，包括預(yù)覽用的低碼視頻、縮略圖、序列圖、音頻、波形數(shù)據(jù)等。編輯時用戶預(yù)覽的是小碼流文件，以及通過canvas繪制的特效。編輯過程中，所有的項(xiàng)目數(shù)據(jù)將實(shí)時轉(zhuǎn)換成一個json結(jié)構(gòu)傳遞給后臺。項(xiàng)目編輯完合成時，由渲染服務(wù)對json數(shù)據(jù)進(jìn)行解析并轉(zhuǎn)換成具體的ffmpeg命令進(jìn)行渲染合成，最終生成成品。合成使用的素材為用戶上傳的原始數(shù)據(jù)，保證成品的質(zhì)量。

結(jié)語

新華AI視頻編輯工具上線以后，截至2020年5月16日，訪問用戶數(shù)達(dá)1587人，視頻生成數(shù)量達(dá)23397個。

新華AI視頻編輯工具作為一種新形態(tài)、輕量級、智能化、簡單易用的在線視頻編輯工具，是傳統(tǒng)視頻編輯軟件的一種補(bǔ)充。人工智能技術(shù)的運(yùn)用降低了視頻制作的門檻，提高了資源的利用率，讓傳統(tǒng)的文字、圖片編輯也能快速參與到短視頻制作中來，提高了短視頻生產(chǎn)的效率和數(shù)量，為新華社短視頻專線的快速發(fā)展起到積極作用。

參考文獻(xiàn)

[1]第45次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報告》[R].網(wǎng)信辦，2020：53-55.

[2]第45次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報告》[R].網(wǎng)信辦，2020：81-82.

[3]第45次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報告》[R].網(wǎng)信辦，2020：82-83.

作者簡介：譚樂娟（1987-），女，湖南省瀏陽市，工程師。