摘? 要:隨著互聯(lián)網(wǎng)技術(shù)以及傳媒業(yè)的發(fā)展,短視頻已成為了人們獲取新聞資訊的一種主要形態(tài)。近年來,自然語言、語音、圖像領(lǐng)域的人工智能技術(shù)不斷取得突破,使得人工智能技術(shù)在生產(chǎn)系統(tǒng)中的工程化應(yīng)用成為可能。在視頻編輯中合理地運(yùn)用人工智能技術(shù),能有效地降低視頻編輯的難度和工作量,讓更多的人參與到短視頻制作中來,實(shí)現(xiàn)短視頻發(fā)稿量和質(zhì)量的快速提升。新華AI視頻是人工智能技術(shù)在視頻編輯中的應(yīng)用實(shí)踐,提供了字幕自動配音、視頻字幕提取、多語種字幕翻譯、虛擬主播、智能編目與檢索、圖片視頻化、文字視頻化等多種智能輔助編輯功能,有效地降低了視頻制作門檻,為新華社短視頻專線的快速發(fā)展起到積極作用。
關(guān)鍵詞:新媒體;人工智能;短視頻;視頻編輯? ? ? ? ? ? ? ? ? ? ? ? ? ? ?中圖分類號:TP393? ? ? ? ? ? ? ? ? ? ? ? ? ?文獻(xiàn)標(biāo)識碼:A
文章編號:1671-0134(2020)08-125-04? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?DOI:10.19483/j.cnki.11-4653/n.2020.08.034
本文著錄格式:譚樂娟.人工智能技術(shù)在視頻編輯中的應(yīng)用實(shí)踐[J].中國傳媒科技,2020(8):125-128.
隨著互聯(lián)網(wǎng)技術(shù)以及傳媒業(yè)的發(fā)展,短視頻具有播放時間短、傳播速度快等傳播特點(diǎn),深度切合當(dāng)前用戶碎片化的使用場景,已成為人們獲取新聞資訊的一種主要形態(tài)。根據(jù)網(wǎng)信辦第45次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報告》,截至2020年3月,我國網(wǎng)絡(luò)視頻(含短視頻)用戶規(guī)模達(dá)8.50億,占網(wǎng)民整體的94.1%,其中短視頻用戶規(guī)模為7.33億,占網(wǎng)民整體的85.6。網(wǎng)絡(luò)視頻(含短視頻)已成為僅次于即時通信的第二大互聯(lián)網(wǎng)應(yīng)用類型。[1]2019年,我國5G商用環(huán)境持續(xù)完善、標(biāo)準(zhǔn)技術(shù)取得新突破、應(yīng)用孵化進(jìn)入全面啟動期。[2]隨著5G時代到來,短視頻預(yù)計(jì)會迎來新一輪爆發(fā),可以預(yù)見,短視頻會成為了下一輪各類媒體開展競爭的最重要領(lǐng)域。
專業(yè)視頻制作的學(xué)習(xí)高門檻、制作的復(fù)雜度和時間成本讓很多傳統(tǒng)文字及圖片編輯望而卻步,難以參與短視頻制作中去,限制了媒體通過短視頻作為報道手段的發(fā)展。近年來,人工智能關(guān)鍵技術(shù)日趨成熟,自然語言處理、語音圖像領(lǐng)域的人工智能技術(shù)不斷取得突破,使得人工智能技術(shù)在生產(chǎn)系統(tǒng)中的工程化應(yīng)用成為可能。[3]如果能在視頻編輯中合理地運(yùn)用人工智能技術(shù),就能有效地降低視頻編輯的難度和工作量,讓更多的人參與到短視頻制作中來,實(shí)現(xiàn)短視頻發(fā)稿量的快速增長,文稿質(zhì)量的不斷提升。
1.新華AI視頻編輯工具的設(shè)計(jì)
為了更好地整合內(nèi)部編輯系統(tǒng),新華AI視頻編輯工具設(shè)計(jì)為基于瀏覽器的輕量級智能化在線短視頻制作工具。設(shè)計(jì)的目標(biāo)用戶為所有有短視頻制作需求的采編業(yè)務(wù)人員,特別是非專業(yè)視頻編輯。設(shè)計(jì)上需要兼顧以下功能:
1.1強(qiáng)大的視頻編輯能力
支持多軌道、幀精度的非線性視頻編輯,提供剪切、配音、字幕條、唱詞字幕、貼圖、轉(zhuǎn)場特效、幀動畫、摳像、模糊、數(shù)據(jù)圖等多種實(shí)用編輯功能。提供多種字幕條模板、轉(zhuǎn)場模板、特效模板、數(shù)據(jù)圖模板。高清橫屏16:9、標(biāo)清橫屏4:3、手機(jī)豎屏9:16、twitter方屏1:1四種畫幅編輯模式靈活切換。支持一鍵添加預(yù)設(shè)的片頭片尾角標(biāo)。支持多種分辨率輸出。所有素材拖曳上軌,所有編輯操作所見即所得,方便非專業(yè)人員使用。
1.2智能化能力
提供多種智能化輔助編輯功能,包括字幕自動配音、視頻字幕提取、多語種字幕翻譯、虛擬主播、智能編目與檢索、圖片視頻化、文字視頻化等。此外,還可以基于一篇文字稿或一組圖片稿自動生成視頻。
1.3資源整合
和內(nèi)部的資源整合,支持和新華社內(nèi)部稿件、素材中的視頻、音頻、圖片素材導(dǎo)入視頻編輯項(xiàng)目中再利用,提高了資源的利用率。
1.4與采編流程無縫對接
與新華社核心發(fā)稿系統(tǒng)無縫對接,支持成品視頻一鍵建稿,支持對稿件中的視頻進(jìn)行編輯修改。實(shí)現(xiàn)了稿件編簽過程中的多人、異地共享編輯修改視頻。
2.人工智能技術(shù)的運(yùn)用
相較于傳統(tǒng)的視頻編輯軟件,新華AI視頻編輯工具的一個最大的特色就是對人工智能技術(shù)的運(yùn)用,大大簡化了視頻編輯的工作,對非專業(yè)視頻編輯人員來說易于操作。該工具靈活運(yùn)用了自然語言處理、語音識別、語音合成、智能翻譯、虛擬主播合成、視頻內(nèi)容識別等人工智能技術(shù),提供了字幕自動配音、視頻字幕提取、多語種字幕翻譯、虛擬主播、智能編目與檢索、圖片視頻化、文字視頻化等多種智能編輯輔助功能。
2.1字幕自動配音
視頻編輯過程中經(jīng)常需要對編排好的解說詞進(jìn)行配音播報。一般是通過人工錄制的方式進(jìn)行配音,配音后還需要對字幕的時間進(jìn)行調(diào)整,讓字幕和配音的時間點(diǎn)對應(yīng)上,工作量很大。而且非專業(yè)配音人員的配音,也存在發(fā)音不夠標(biāo)準(zhǔn)的問題。通過語音合成的智能服務(wù),就能一鍵將字幕生成配音,并自動將字幕時間與配音進(jìn)行同步。新華AI視頻支持中、英、西、法、俄、阿、葡、日、韓9個語種的字幕配音功能,提供多種男聲、女聲模板供選擇,并可對語速進(jìn)行調(diào)節(jié)。
2.2視頻字幕提取
另一種需求是給視頻中的同期聲配上字幕,一般在會議發(fā)言、采訪訪談等場景中比較常見。傳統(tǒng)編輯需要逐句聽打同期聲上字幕,還需要對字幕的時間進(jìn)行人工調(diào)整,也是一件很繁瑣的工作。在語音識別技術(shù)的支持下,可以實(shí)現(xiàn)一鍵識別視頻中的語音生成唱詞字幕,且字幕和語音自動匹配,只需要少許糾錯即可。目前,在環(huán)境和發(fā)音情況良好的情況下,中英文語音轉(zhuǎn)寫的準(zhǔn)確率能達(dá)到98%以上,可用性較高。
2.3多語種字幕翻譯
在國際化發(fā)稿中,為了滿足各小語種專線的發(fā)稿需求,需要給同一個視頻配上不同語種的字幕和配音,通常需要先制作一個不帶字幕和配音的裸視頻,再找不同語種的專業(yè)人員翻譯后分別制作不同字幕和配音。通過智能翻譯服務(wù),可以在一個項(xiàng)目中一鍵生成多種不同語種的字幕,只需要專業(yè)小語種編輯對智能翻譯后的結(jié)果進(jìn)行人工審核和糾錯,再結(jié)合字幕的小語種配音功能,自動生成不同語種的配音,就能在一個項(xiàng)目里輸出多個不同語種版本。新華AI視頻支持中、英、西、法、俄、日、西、阿、葡、泰、藏11個語種的字幕互譯,支持同時合成多個語種的成品。操作非常簡單,沒有視頻制作經(jīng)驗(yàn)的小語種編輯也能很快上手制作,極大地節(jié)省了視頻國際化的工作量和時間。
2.4虛擬主播
除了字幕和配音,新聞主播也可以由人工智能自動生成。在需要添加新聞主播的場景下,只需要輸入主播的解說詞,就可以一鍵生成虛擬主播,主播口型與語音播報的內(nèi)容完全匹配。主播可以選擇不同的形象和背景,還可以調(diào)整語速,生成后按需插入到視頻項(xiàng)目中即可。綠幕背景的主播可以進(jìn)一步通過AI視頻編輯的摳像功能一鍵去掉背景,完美嵌入到視頻內(nèi)容中。
2.5智能編目與檢索
在視頻制作過程中,素材的挑選也是一項(xiàng)很困難的工作。特別是視頻素材庫編目做得不夠細(xì)致的情況下,要在龐大的歷史素材中找到想要的片段,更是難上加難。傳統(tǒng)的人工編目工作費(fèi)時費(fèi)力,編目的標(biāo)準(zhǔn)也不是很適合做內(nèi)容檢索。通過智能視頻內(nèi)容識別技術(shù),可以自動識別視頻素材中的關(guān)鍵要素,包括人臉識別、文字OCR識別、語音識別、物體/場景識別,從而實(shí)現(xiàn)片段級的內(nèi)容檢索,快速找到所需要的片段加入項(xiàng)目,節(jié)省大量的時間。
2.6圖片視頻化
針對攝影部圖片視頻化的需求,使用AI視頻編輯可以快速將稿庫的一組圖片稿轉(zhuǎn)換成視頻項(xiàng)目,并自動添加轉(zhuǎn)場特效、字幕說明、配樂/配音,用戶只需要對自動生成的項(xiàng)目進(jìn)行微調(diào)后就可以完成視頻制作。
攝影部圖片稿通常使用組圖的方式,一組圖片稿講述同一個事件,通常有十幾二十多張,圖片之間的關(guān)聯(lián)度很高,并配有圖片總說明和分說明,很適合做成一個短視頻。除了組圖,盤點(diǎn)型的新聞,例如一周看天下,也很適合制作短視頻。在稿庫批量選取圖片后,再選擇圖片時長、轉(zhuǎn)場特效、背景音樂,就能一鍵生成一個視頻項(xiàng)目。再根據(jù)具體的音樂節(jié)拍和時長對圖片時長進(jìn)行調(diào)節(jié),根據(jù)畫面內(nèi)容對圖片進(jìn)行適度的縮放、位移、背景模糊,對字幕內(nèi)容進(jìn)行修改,使之適合視頻顯示,加上包裝,就完成了短視頻的制作。
下一步,還可以針對具體的節(jié)目要求,將圖片視頻化的效果和細(xì)節(jié)模板化,一個模板生產(chǎn)一檔節(jié)目,結(jié)合音樂的自動分析,優(yōu)化素材的拼接效果,提高自動化項(xiàng)目的成片度,進(jìn)一步節(jié)省用戶工作量。
2.7文字視頻化
AI視頻編輯還將文字稿當(dāng)做文字腳本創(chuàng)作視頻。選擇一篇文字稿后,對文字進(jìn)行自然語言處理提取關(guān)鍵詞,在資源庫檢索視頻、圖片素材后挑選匹配度最高的素材自動上軌,生成視頻項(xiàng)目,并自動將文字腳本生成字幕和配音。
關(guān)鍵詞提取和片段檢索的準(zhǔn)確度是合成效果好壞的關(guān)鍵。通常一個素材如果很長,內(nèi)容也會比較復(fù)雜,特別是成品素材,通常由多個新聞組成,還包括片頭片尾等要素,在使用時需要精準(zhǔn)定位到具體的片段進(jìn)行切割。在一篇文章關(guān)鍵詞提取后,還需要留意它的時效性,比如兩會、奧運(yùn)會這種周期性的報道需要明確年份。還有關(guān)鍵詞之間的邏輯關(guān)系,同一事件的不同階段或者不同角度,報道的內(nèi)容也是有區(qū)別的,例如港珠澳大橋通車,報道的是工程建設(shè)的情況還是車流通行情況,選取的素材也是不一樣的。對于比較長的多個段落的文章,可能每個段落講述的內(nèi)容有所區(qū)別,為了更好的效果,還可以分段進(jìn)行關(guān)鍵詞提取和素材篩選。
為了提高項(xiàng)目的成片度,我們在自動篩選素材的基礎(chǔ)上增加了人工二次篩選,可以人工修改檢索的關(guān)鍵詞并設(shè)置更多的檢索條件,刪除不合適的素材或增加新的素材,讓選中的素材更符合腳本上下文。
3.AI視頻編輯技術(shù)實(shí)現(xiàn)
新華AI視頻編輯工具采用B/S架構(gòu),系統(tǒng)由前端發(fā)布層、后端業(yè)務(wù)層、底層服務(wù)層、數(shù)據(jù)存儲層四層構(gòu)成。
前端發(fā)布層包括web頁面和流媒體播放服務(wù)。web頁面使用最新的HTML5 canvas和webgl技術(shù)實(shí)現(xiàn),無須安裝任何額外軟件或插件,全程在瀏覽器上訪問操作,所有編輯操作所見即所得,Windows 操作系統(tǒng)和 Mac OSX 操作系統(tǒng)均可使用。流媒體服務(wù)基于nginx構(gòu)建,負(fù)責(zé)視音頻、圖片等文件的預(yù)覽和下載。
后端業(yè)務(wù)層負(fù)責(zé)進(jìn)行編輯的業(yè)務(wù)邏輯處理和數(shù)據(jù)管理,提供包括項(xiàng)目管理、素材檢索、剪輯操作、成品發(fā)布、素材管理、成品管理、模板管理、用戶管理等功能。后端業(yè)務(wù)層也是前端和底層的橋梁,前端的用戶編輯操作,通過業(yè)務(wù)層轉(zhuǎn)換成底層渲染可以識別的指令。底層渲染的進(jìn)度和狀態(tài),也通過業(yè)務(wù)層實(shí)時通知前端頁面。
底層服務(wù)層包括渲染服務(wù)和智能服務(wù)兩部分。渲染服務(wù)負(fù)責(zé)進(jìn)行素材的預(yù)處理和成品的渲染合成。智能服務(wù)負(fù)責(zé)所有的人工智能處理,包括自然語言處理、全文檢索、語音識別、語音合成、智能翻譯、虛擬主播等。
數(shù)據(jù)存儲層使用NAS存儲用戶素材、系統(tǒng)素材、編輯過程文件和成品文件,使用mysql存儲業(yè)務(wù)數(shù)據(jù)。
AI視頻編輯還提供開放API接口,供第三方系統(tǒng)調(diào)用。除了用戶直接創(chuàng)建視頻項(xiàng)目進(jìn)行編輯以外,也支持對稿件中的視頻進(jìn)行編輯,或者由智能分析服務(wù)自動創(chuàng)建項(xiàng)目。項(xiàng)目創(chuàng)建后,需要導(dǎo)入素材,包括本地上傳的素材和資源庫里的素材。素材導(dǎo)入后,要先通過渲染服務(wù)初始化成適合前端預(yù)覽的一系列小碼流文件,包括預(yù)覽用的低碼視頻、縮略圖、序列圖、音頻、波形數(shù)據(jù)等。編輯時用戶預(yù)覽的是小碼流文件,以及通過canvas繪制的特效。編輯過程中,所有的項(xiàng)目數(shù)據(jù)將實(shí)時轉(zhuǎn)換成一個json結(jié)構(gòu)傳遞給后臺。項(xiàng)目編輯完合成時,由渲染服務(wù)對json數(shù)據(jù)進(jìn)行解析并轉(zhuǎn)換成具體的ffmpeg命令進(jìn)行渲染合成,最終生成成品。合成使用的素材為用戶上傳的原始數(shù)據(jù),保證成品的質(zhì)量。
結(jié)語
新華AI視頻編輯工具上線以后,截至2020年5月16日,訪問用戶數(shù)達(dá)1587人,視頻生成數(shù)量達(dá)23397個。
新華AI視頻編輯工具作為一種新形態(tài)、輕量級、智能化、簡單易用的在線視頻編輯工具,是傳統(tǒng)視頻編輯軟件的一種補(bǔ)充。人工智能技術(shù)的運(yùn)用降低了視頻制作的門檻,提高了資源的利用率,讓傳統(tǒng)的文字、圖片編輯也能快速參與到短視頻制作中來,提高了短視頻生產(chǎn)的效率和數(shù)量,為新華社短視頻專線的快速發(fā)展起到積極作用。
參考文獻(xiàn)
[1]第45次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報告》[R].網(wǎng)信辦,2020:53-55.
[2]第45次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報告》[R].網(wǎng)信辦,2020:81-82.
[3]第45次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報告》[R].網(wǎng)信辦,2020:82-83.
作者簡介:譚樂娟(1987-),女,湖南省瀏陽市,工程師。