徐 莉
(浙江廣播電視集團,浙江 杭州 310005)
在“媒體融合”的國家戰(zhàn)略下,各種業(yè)態(tài)的新興媒體迅猛發(fā)展,如移動直播、H5 應用、機器人寫稿及AI 合成主播等新生事物不斷涌現。傳統(tǒng)媒體內部和傳統(tǒng)媒體與新媒體之間,相互交叉、相互滲透的需求越來越強烈,促使廣電行業(yè)進入全媒體融合發(fā)展的嶄新時代。作為廣電行業(yè)融媒發(fā)展的重要戰(zhàn)略資源和核心競爭力,媒資日益受到重視。在存儲與管理技術已經相對成熟的今天,數據再利用成為媒資管理的核心內容。因此,作為數據再利用基礎的媒資檢索顯得尤為重要。然而,媒資系統(tǒng)依賴編目信息進行檢索,而目前的編目方式仍沿用著傳統(tǒng)的編目思維[1],存在難以適應融媒發(fā)展新業(yè)態(tài)的瓶頸問題。一是編目信息由人工標注,隨著信息化的不斷發(fā)展,媒資數據呈幾何倍速增長,增加了維護數據的人力成本和時間成本。二是編目標簽范圍受到制約,難以涵蓋媒體數據涉及的所有維度[2],且不具備通用性和可擴展性,難以在不同系統(tǒng)間實現信息共享。三是在融媒體時代,素材檢索、內容制作及分發(fā)效率受到人工編目水平高低的制約,難以適應新媒體對“快”的要求。
因此,結合浙江廣播電視集團在智能化媒資建設方面的探索與實踐,研究如何利用人臉識別、語音識別、OCR 識別、敏感信息識別及NLP 處理等智能處理服務來構建智能化多模態(tài)檢索系統(tǒng),以提高媒體資源管理的效率及深度,從而為內容生產方提供更多更好的素材,制作層次豐富的高質量節(jié)目,進一步提升浙江廣播電視集團在媒體市場中的競爭力。
目前,浙江廣播電視集團在互聯網和“兩微一端”全面拓展業(yè)務,逐步進入全媒體化的快車道,使得媒體的管理理念、運營機制及業(yè)務流程隨之發(fā)生變化。媒資除了要為傳統(tǒng)廣播電視制播提供內容支撐,還需滿足新媒體應用、內容分發(fā)與營銷等更多的新要求。如何最大效率地利用媒資,關鍵在于如何提供高效檢索。傳統(tǒng)搜索使用文本方式,即輸入關鍵詞等文字信息,檢出簡單的文本信息。在信息時代,圖片、聲音及視頻等互聯網信息已經遠超文字所能承載的信息量。AI 技術的快速發(fā)展使得用戶需求不局限于文字檢索,而是希望通過上傳人像圖片,在媒資中檢索出包含此人物圖像的全部視頻,并且標記出每一段視頻中人物出現的時間點,實現相關人物在海量媒資中的快速檢索?;蛘咄ㄟ^輸入一段語音或者關鍵詞,利用語音自動識別技術,實現關鍵詞及其他相關編目信息的高效檢索等。因此,多模態(tài)檢索方案應運而生,為開發(fā)媒資應用潛力和挖掘媒資生命力提供了多種可能。
以浙江廣播電視集團在建的智能化多模態(tài)檢索系統(tǒng)為例,對智能化多模態(tài)檢索系統(tǒng)的主要功能進行闡述。系統(tǒng)運用智能化標簽檢索、全文檢索、分級分類檢索、二次檢索、同音同義詞檢索以及聯想詞檢索等智能檢索技術[3],從多種維度提高檢索效率。例如,支持對檢索詞分析詞義,通過后臺算法翻譯成更具備搜索語義的檢索詞,從而提高檢索到達率;輸入檢索詞時,直接在搜索框顯示與該檢索詞相關的資源數量,并提示性顯示與此相關的關聯詞資源數量;輸入錯誤時,提示用戶重新輸入。除關鍵詞和標題等一般檢索方式外,系統(tǒng)還可以實現語音檢索、人臉檢索及視頻文件檢索等,同時可以根據AI 迭代升級不斷提高全媒體資源檢索效率和準確度,從而提升用戶檢索體驗。
智能化多模態(tài)檢索系統(tǒng)的主要功能如下。
(1)語音檢索。通過語音收集,對關鍵詞和題名等進行匹配并快速檢索,精準定位,同時支持同期聲轉字幕,支持新媒體端快速發(fā)稿及輔助人工編目,支持敏感詞匯提示[4]。
(2)人臉檢索。在搜索欄上傳人臉圖像后,后臺進行分析處理,提取人臉特征值存放到特征值索引庫中,然后與庫中已有人臉特征值進行匹配。若匹配到特征值,系統(tǒng)可快速檢索出含有該關鍵信息的人物素材;若匹配不到特征值,系統(tǒng)自動標記人臉為未命名,并在后續(xù)人工維護過程中對未命名人臉進行信息補充。
(3)視頻檢索。分析導入的視頻,提取音頻文字和關鍵幀等信息要素,對文字、人名及圖像等要素進行關聯搜索,檢索視頻涉及的圖文資料和視頻內容等信息,并同步自動定位關鍵詞的位置。
(4)圖像檢索。提取圖像文件關鍵幀,快速檢索圖片、文稿以及視頻等有關聯的素材,并同步自動定位關鍵詞在視頻中的位置[5]。
(5)自動快速分類。建立人物庫、機構庫及事件庫等多維度數據庫,將各庫數據進行歸一化處理。媒體素材可按照多個維度進行分類,并利用多維庫關聯實現媒體素材分類維度的擴展。因此,搜索時可通過模糊匹配實現多個維度的關鍵詞匹配。
(6)關鍵詞優(yōu)化。根據記者和編導的搜索習慣,定期優(yōu)化關鍵詞庫,將互聯網熱搜詞加入關鍵詞庫,提高搜索匹配精度,提高素材利用率。
智能化多模態(tài)檢索主要通過語音識別技術、聲紋識別技術、人臉識別技術以及自然語言處理(Natural Language Processing,NLP)技術等解決現今媒資管理中常見的檢索瓶頸問題,滿足對媒資內容檢索和自動化標簽的需求。它的后臺技術實現離不開內容識別和內容檢索兩部分,如圖1 所示。
智能化多模態(tài)檢索系統(tǒng)采用的主要技術如下。
(1)語音識別技術。在媒資系統(tǒng)部署智能語音離線轉寫引擎并設置轉寫目標格式。一方面對視頻進行預處理,提取音頻文件,并只針對音頻進行轉寫。另一方面,自動識別音視頻中的語音,將其轉化為文本內容并記錄時間戳,在每個視頻素材的詳情頁進行展示并與媒資低碼流相關聯。文本轉寫結束后可進行人工查對核驗,并與原有視頻相匹配,以提高查詢和檢索的效率及精準度。
(2)聲紋識別技術。聲紋識別技術是一項提取說話人聲音特征與說話內容信息并自動核驗說話人身份的技術。使用聲紋識別需要在系統(tǒng)建立聲紋庫,將新輸入的聲紋信息與庫中的已知聲紋特征值做比對進行分析檢索。
(3)人臉識別技術。人臉識別技術是基于人的臉部特征信息進行身份識別的一種生物學識別技術。系統(tǒng)采集含有人臉的圖像或視頻流,并分析人臉特征,自動在圖像中進行檢測和跟蹤,直觀性和后驗性好。
(4)自然語言處理技術。自然語言處理(Natural Language Processing,NLP)技術通過語音識別把庫中的視音頻語音轉成文字進行自然語言理解。機器在前期訓練階段會接收大量關鍵詞和主題詞并對兩者進行匹配,當接收到一段新的音頻時會自動提取關鍵詞,根據前面訓練將關鍵詞導向主題詞,從而完成自動標簽過程。按照以上步驟將信息存到底層數據庫,支持通過文字、音頻、聲紋以及多維度標簽進行全方位檢索。
(5)音視頻比對技術。在新的視音頻文件進入媒資系統(tǒng)時,系統(tǒng)提示與已有媒資相同聲畫重復引用的冗余資料片段并提示重復率,由人工或系統(tǒng)判斷后刪除,減少庫存資料冗余。
(6)移動端實現技術。目前,移動終端是人們接入互聯網的主要方式,提供了如語音、拍照等大量互動的可能。浙江廣播電視集團在系統(tǒng)建設中提出實現移動端多模態(tài)檢索,充分挖掘移動設備的交互優(yōu)勢。媒資底庫支持實時更新,語音和圖片的檢索速度達到毫秒級,視頻檢索高達百倍速。移動端實現技術延展了媒資系統(tǒng)在時間和空間上的使用邊界,使其能夠以更多維度服務突發(fā)新聞和重要專題的報道需求,更好地適應融媒發(fā)展。
圖1 智能化多模態(tài)檢索技術結構
從浙江廣播電視集團智能媒資系統(tǒng)建設實際出發(fā),結合融媒發(fā)展需求,對系統(tǒng)中多模態(tài)檢索進行研究,提出便捷、實用及高效的媒資檢索方案。研究表明,廣電媒體在充分發(fā)揮多年節(jié)目制播積累的媒資優(yōu)勢時需積極引入AI 賦能,以全新的視角開發(fā)利用媒資。