韓文琳
摘要:媒體資產(chǎn)管理系統(tǒng)是廣播電視聲像檔案進行數(shù)字化存儲的載體。當人工智能與數(shù)字媒體資產(chǎn)管理系統(tǒng)融合,勢必產(chǎn)生新型的智能化媒體資產(chǎn)管理系統(tǒng)。這不僅能大幅度提高生產(chǎn)效率,還會喚醒沉睡在存儲深處的檔案內(nèi)容,讓媒體數(shù)據(jù)更加有溫度、可感知。本文詳細描述圖像識別、語音識別等技術(shù)在聲像檔案管理中的應(yīng)用。
關(guān)鍵詞:聲像檔案,媒資,人工智能,圖像識別,語音識別。
廣播電視聲像檔案是各級廣播電視臺宣傳活動的真實記錄,是城市記憶的重要組成部分。近年來,伴隨著媒體融合發(fā)展,廣播電視聲像檔案數(shù)量倍增,存儲載體也由傳統(tǒng)的磁帶庫發(fā)展為現(xiàn)代的媒體資產(chǎn)管理系統(tǒng)(簡稱媒資系統(tǒng))。媒資系統(tǒng)主要是對各種類型的視頻資料、音頻資料、文字、圖片等媒體資料的數(shù)字化存儲、編目管理、檢索查詢等進行全面管理的系統(tǒng)。2019年5月,國家廣電總局頒布了《廣播電視人工智能應(yīng)用白皮書(2018)》,進一步規(guī)范引導人工智能在廣電行業(yè)的應(yīng)用,推動人工智能與廣播電視行業(yè)的融合發(fā)展走上快車道。
1媒資業(yè)務(wù)流程
媒資系統(tǒng)是指使用國家相關(guān)標準和規(guī)范,完成對媒體數(shù)字化視音頻文件的文字描述和存儲。在業(yè)務(wù)方面主要有兩個方向,一是入庫保存方向,包含上載、編目、審核、近線歸檔、發(fā)布;二是查找輸出方向,包含檢索、下載申請、審批、導出。通常在媒資系統(tǒng)中還會加入一些以把控媒體文件質(zhì)量和提高編目效率為目的功能,例如自動技審、轉(zhuǎn)碼等。入庫流程如下圖所示:
檢索下載流程如下圖所示:
2人工智能
人工智能(ArtificialIntelligence),英文縮寫為AI。它是研究、開發(fā)用于模擬、延伸和擴展人的智能的理論、方法、技術(shù)及應(yīng)用系統(tǒng)的一門新的技術(shù)科學。在當前媒體行業(yè)中普遍開始接觸和應(yīng)用的AI技術(shù)包含:圖像識別、人臉識別、語音識別、聲紋識別等技術(shù)。
圖像識別,是指利用計算機對圖像進行處理、分析和理解,以識別各種不同模式的目標和對像的技術(shù)。
人臉識別,是基于人的臉部特征信息進行身份識別的一種生物識別技術(shù)。用攝像機或攝像頭采集含有人臉的圖像或視頻流,并自動在圖像中檢測和跟蹤人臉,進而對檢測到的人臉進行臉部識別的一系列相關(guān)技術(shù),通常也叫作人像識別、面部識別。人臉識別是當前媒體行業(yè)中應(yīng)用較多的一種AI技術(shù)。
語音識別,是讓機器通過識別和理解過程把語音信號轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的一項技術(shù),在當前媒體行業(yè)中應(yīng)用也非常頻繁。
聲紋識別,是生物識別技術(shù)的一種,聲紋識別可以把聲信號轉(zhuǎn)換成電信號,再用計算機進行識別,在媒體行業(yè)中通常應(yīng)用于檢索和對比。
3人工智能在媒資系統(tǒng)的應(yīng)用
長春廣播電視臺于2016年開始建立現(xiàn)代媒資系統(tǒng),擬對建臺以來的海量珍貴音像資料進行數(shù)字化存儲和管理?,F(xiàn)有的音視頻資料具有種類多、數(shù)量大、增長快的特點,目前已完成數(shù)字化磁帶上載10萬本,包含自制文藝、專題、新聞、晚會、臺史資料、素材、電視劇等多個品類。不可否認,傳統(tǒng)媒體資產(chǎn)管理系統(tǒng)(簡稱媒資)對數(shù)字化視音頻內(nèi)容進行規(guī)定格式的文字化描述,盡管便于用戶對視音頻資料進行檢索使用,但不能滿足當前融合媒體發(fā)展的需要。人工智能應(yīng)用于廣播電視聲像檔案管理,必將在效率提升、規(guī)范管理、提高內(nèi)容活躍度等方面起到巨大作用。
3.1圖像識別的應(yīng)用
圖像識別的應(yīng)用主要應(yīng)用于媒資媒體內(nèi)容的內(nèi)容識別上,例如視音頻文件的字幕識別、暴恐畫面等的識別。在媒資系統(tǒng)中,對上載入庫的視音頻內(nèi)容都會經(jīng)過處理描述,在傳統(tǒng)的流程方式中,處理手段較少,例如自動技審僅檢測該視頻中是否有錯誤畫面,這些錯誤畫面如花幀、黑場、彩條等。當圖像識別技術(shù)引入后,在檢測環(huán)節(jié)將會有更多的內(nèi)容被處理,包括:
畫面中使用到的字幕將轉(zhuǎn)換為文字,作為媒資視音頻文件的自動編目數(shù)據(jù);
畫面中出現(xiàn)的暴恐、黃色鏡頭,將以時間點的方式為人工復核提供準確的鏡頭呈現(xiàn),以提示后續(xù)處理將著重考慮畫面是否合法可用;
通過圖像識別技術(shù)與原自動技審技術(shù)的疊加,增強審核檢測節(jié)點對視音頻文件的描述,對視音頻入庫的質(zhì)量提供了保障。完成圖像識別技術(shù)的融合后,媒資入庫流程將出現(xiàn)的變化如下:
通過圖像識別后的流程與傳統(tǒng)媒資流程雖然差別不是很大,但對內(nèi)容入庫的質(zhì)量提供了更好的保證。
3.2人臉識別的應(yīng)用
人臉識別在媒資系統(tǒng)中的應(yīng)用主要體現(xiàn)在兩個方面:一是視音頻素材入庫后的人臉信息提取,主要用來做鏡頭層自動提取后的輔助自動編目;二是對敏感人物識別后的自動標記,以控制內(nèi)容發(fā)布后的可見范圍。
加入人臉識別功能后,一方面在編目節(jié)點可以填充自動提取的鏡頭信息,另一方面可以輔助編目人員在編目過程中設(shè)置內(nèi)容的可見范圍。例如某些政治敏感人物是否能對其檢索開發(fā),或是開發(fā)的范圍有多大,以及內(nèi)容在視音頻編目規(guī)范中的密級設(shè)置等都可以提供參考。
通過人臉識別發(fā)布后的內(nèi)容,用戶可以有多種檢索方式來查詢內(nèi)容,例如文字搜索、以圖搜圖等形式,同時還可以為今后內(nèi)容運營提供數(shù)據(jù)支撐,為運營者提供內(nèi)容推薦。
3.3語音識別的應(yīng)用
語音識別最大的應(yīng)用方面是將視音頻內(nèi)容的語音識別成時間線文字。時間線文字定義為在該視音頻文件內(nèi)的相對時間上出現(xiàn)的語音轉(zhuǎn)化后的文字。通過語音識別后的視音頻內(nèi)容,可以附帶所有文件中的語音文字。在現(xiàn)代媒資管理中,有了語音識別的輔助后,將大大地提高新聞類、專題類的編目效率。轉(zhuǎn)換后的時間線文字如下圖:
完成語音識別后的視音頻素材,在媒資編目中將提高編目效率,能快速將視音頻文件中的內(nèi)容體現(xiàn)到“片段層”編目的內(nèi)容中去。其入庫流程變化為:
3.4聲紋識別的應(yīng)用
聲紋識別在媒資中的應(yīng)用主要體現(xiàn)在檢索階段。對于媒資中的海量素材,除了提供全文檢索、高級檢索的文字檢索方式外,還會提供以圖搜圖(關(guān)鍵字檢索)和聲紋檢索方式。聲紋檢索的應(yīng)用場景將是用戶面對檢索界面“哼唱”或應(yīng)用移動設(shè)備“播放”片段旋律,從而通過聲紋識別,將“合唱”和“播放”的旋律識別到媒資系統(tǒng)中,同時在通過聲紋檢索將識別后相近的內(nèi)容呈現(xiàn)給檢索用戶。聲紋檢索是媒資檢索手段的擴充,是提高用戶查詢內(nèi)容的重要手段。
聲紋檢索下載的流程通常為:
自動技審、圖像識別、人臉識別、語音識別保證了內(nèi)容入庫的質(zhì)量,提高了媒資系統(tǒng)在編目中的效率,不僅縮短了人工編目的時間,同時極大豐富了編目內(nèi)容,在提高效率的同時還使對視音頻文件的描述更加詳細。
聲紋識別豐富了媒資系統(tǒng)的檢索手段,讓用戶能更快、更便捷地找到自己想要的內(nèi)容。
在媒資系統(tǒng),特別是視音頻媒資系統(tǒng)中,通過圖像識別、人臉識別、語音識別和聲紋識別等AI技術(shù),不僅可以對媒資系統(tǒng)入庫的內(nèi)容進行質(zhì)量方面的把控,同時還可以極大地提高媒資系統(tǒng)的運轉(zhuǎn)效率,讓媒資系統(tǒng)能更好地服務(wù)于為節(jié)目生產(chǎn)和播出。毫無疑問,在未來的廣播電視聲像檔案管理中,利用人工智能和大數(shù)據(jù)技術(shù)會使其保存的內(nèi)容更加活躍、更有溫度。
長春廣播電視臺將結(jié)合“智慧長春”建設(shè),努力在“存量數(shù)字化、增量電子化、利用網(wǎng)絡(luò)化”方面下功夫,不斷提升聲像檔案工作現(xiàn)代化水平,對內(nèi)積極服務(wù)于采編播生產(chǎn)部門,對外提高與省廣電音像資料館、省圖書館、市圖書館、市城建檔案館、長影集團等單位的數(shù)據(jù)交互能力,更大限度地展現(xiàn)其獨特的歷史價值、重要的文藝欣賞和收藏價值,讓廣播電視臺的歷史更完整、現(xiàn)實更豐富、未來更輝煌。
參考文獻:
[1]廣播電視人工智能應(yīng)用白皮書(2018)
[2]廣播電視行業(yè)應(yīng)用大數(shù)據(jù)技術(shù)白皮書(2018)
[3]廣播電視音像資料編目規(guī)范第1部分電視資料
[4]廣播電視音像資料編目規(guī)范第2部分音頻
[5]倪明昊,單文火.人工智能時代新型媒資管理系統(tǒng)的構(gòu)建思路及技術(shù)實現(xiàn).廣播與電視技術(shù),2019(3).
[6]唐百慧,曹三省.人工智能在廣播電視行業(yè)中的應(yīng)用研究.廣播電視信息,2018(8).