夏 暢
新華報業(yè)傳媒集團 江蘇省 南京市 210092
新華日報自成立以來,珍貴有價值的音視頻內(nèi)容總量持續(xù)增多。因此,如何最大化的挖掘媒體資源內(nèi)在價值,為經(jīng)營及采編部門提供高質(zhì)量服務(wù),深度研究AI智能新技術(shù)在媒體資源系統(tǒng)中的應(yīng)用,是目前亟需解決的問題。
近年來,隨著新媒體的發(fā)展,音視頻等非結(jié)構(gòu)化數(shù)據(jù)量突增,傳統(tǒng)媒資編目技術(shù)已經(jīng)?無法滿足現(xiàn)階段需求。通過引入大數(shù)據(jù)及AI智能技術(shù),全面匯聚集團媒體資源,解決海量音視頻、圖片等資源的長期保存管理問題,集團以智能數(shù)據(jù)中臺為基礎(chǔ),媒資管理平臺為核心,建設(shè)新一代智能媒資業(yè)務(wù)平臺。
智能媒資業(yè)務(wù)平臺采用對象存儲+軟件平臺的方式搭建,分為基礎(chǔ)設(shè)施層、資源服務(wù)層、應(yīng)用層。其中,基礎(chǔ)設(shè)施層采用虛擬服務(wù)器+對象存儲+核心數(shù)據(jù)庫搭建,智能數(shù)據(jù)中臺和媒資管理平臺部署在新華報業(yè)集團內(nèi)部私有云平臺上,海量音視頻等非結(jié)構(gòu)化數(shù)據(jù)存儲在對象存儲中。資源服務(wù)層包含媒資服務(wù)、公共服務(wù)、快速加工服務(wù)三大模塊。最上層為應(yīng)用層,提供多種資源入庫、篩選整理、資源管理、資源調(diào)用、資源處理以及資源交換等業(yè)務(wù)應(yīng)用模塊。圖1為系統(tǒng)總體架構(gòu)圖。
圖1 系統(tǒng)總體架構(gòu)圖
平臺整體采用服務(wù)分層架構(gòu),保證了系統(tǒng)訪問的可靠性與安全性,避免了內(nèi)部核心服務(wù)對外直接暴露從而帶來的安全隱患。用戶訪問使用應(yīng)用層,由應(yīng)用層對內(nèi)訪問調(diào)用資源服務(wù)層,再由資源服務(wù)層最終訪問數(shù)據(jù)庫、基礎(chǔ)計算資源與對象存儲等,由此實現(xiàn)智能媒資業(yè)務(wù)平臺的鏈路訪問安全與數(shù)據(jù)訪問安全。
平臺設(shè)計使用微服務(wù)體系,充分對模塊間、服務(wù)間關(guān)聯(lián)關(guān)系解耦合,保證了系統(tǒng)的高吞吐性、高安全性,根據(jù)業(yè)務(wù)負載情況按需動態(tài)靈活擴展某些服務(wù)的彈性伸縮機制,整體設(shè)計特點如下:
微服務(wù)架構(gòu)讓持續(xù)部署成為可能,大大減少應(yīng)用交付周期。
單個服務(wù)可以各自進行擴展,且可根據(jù)需要部署到合適的基礎(chǔ)資源上,彈性更靈活、資源利用更高效。
業(yè)務(wù)創(chuàng)新便捷,可根據(jù)需求獨立修改單個服務(wù)滿足創(chuàng)新需求,避免應(yīng)用整體改動帶來的復雜性。
高可靠性與容錯性,單個服務(wù)的故障并不會讓整個系統(tǒng)癱瘓,容錯機制能夠保障可用服務(wù)的正常運行。
智能媒資平臺在軟件架構(gòu)上也同時采用了服務(wù)分層架構(gòu),保證了系統(tǒng)訪問的可靠性與安全性,避免了內(nèi)部核心服務(wù)對外直接暴露而帶來的安全隱患。用戶訪問使用的是應(yīng)用層,由應(yīng)用層對內(nèi)訪問調(diào)用核心服務(wù)層,再由核心服務(wù)層最終訪問數(shù)據(jù)庫、基礎(chǔ)計算資源等,由此實現(xiàn)媒資業(yè)務(wù)平臺的鏈路訪問安全與數(shù)據(jù)訪問安全。
智能數(shù)據(jù)中臺,為上層業(yè)務(wù)應(yīng)用提供統(tǒng)一的人工智能能力,包含人臉識別、語音識別、OCR處理、語義分析等人工智能引擎,進而提供多種新技術(shù)編目方式,并且能隨著技術(shù)的進步不斷更新編目數(shù)據(jù),不斷增加新型編目類型。
采用人工智能、對象存儲等技術(shù),實現(xiàn)媒體資產(chǎn)從內(nèi)容匯聚到生產(chǎn)、審核、管理等全流程的智能處理,包括自動編目、內(nèi)容分析匹配、自動唱詞、自動摘要、自動標簽、自動水印、快速索引、校對審核、媒資百科、主動推送、互聯(lián)網(wǎng)訪問等新功能,提升內(nèi)容產(chǎn)生效率和實時度,為各類節(jié)目資料的分類管理提供自動化技術(shù)手段。主要功能如下:
2.1.1 人工智能預(yù)處理
支持集成豐富的預(yù)處理組件,包括全格式文件支持、智能轉(zhuǎn)碼、音頻提取、圖片抽幀、關(guān)鍵幀提取等,根據(jù)不同類型的任務(wù)需要進行智能化預(yù)處理。
2.1.2 語音識別
可將媒體包含的語音音頻自動轉(zhuǎn)換為文本,同時可以查看語音識別結(jié)果的文本。支持具備把語音轉(zhuǎn)寫為文字信息的語音識別功能。
2.1.3OCR識別
支持常用文件格式:包括但 不 限 于tiff、bmp、jpg、png等圖像格式和mp4、wmv、mxf、avi、flv等視頻格式。對常見中英文、標點符號等文本內(nèi)容及楷體、宋體等多種常用字體均可識別。
2.1.4 文字校對
對重點詞、敏感詞進行專業(yè)校對,也可自定義用戶庫、錯誤庫、重點詞監(jiān)控庫等,校對標準符合全國科學技術(shù)名詞審定委員會標準。
2.1.5 自動視頻水印
具備最新的視頻水印技術(shù),支持對音視頻等數(shù)字內(nèi)容產(chǎn)品的版權(quán)提供保護,針對低碼率內(nèi)容資源使用顯式水印,實現(xiàn)新媒體發(fā)布的同時對盜版行為起到警示作用。
媒資管理平臺匯聚文字、圖片、音視頻等資源。通過引入AI智能技術(shù),實現(xiàn)音視頻資源從入庫、編目、存儲、技審、出庫等全流程的管理,支持以文字、圖片、音視頻為檢索條件以及根據(jù)業(yè)務(wù)、用戶群體特征提供個性化高效檢索服務(wù),也可以對用戶操作界面進行不同權(quán)限的靈活配置。
2.2.1 媒資匯集
突破傳統(tǒng)媒資管理的局限性,實現(xiàn)音視頻、圖片等各類媒資的自動匯聚、快速上載、批量導入、智能處理、長期保存管理和便捷調(diào)用,滿足對各類資源向多渠道分發(fā)和調(diào)用的業(yè)務(wù)需求。支持處理高清、4K超高清視音頻,提供對現(xiàn)有歷史資源提供數(shù)字化、規(guī)范化加工處理服務(wù),完成初級編目,包括資源的分類、欄目信息等標注。能夠根據(jù)不同的賬號權(quán)限使用智能媒資業(yè)務(wù)平臺。
2.2.2 智能檢索
支持根據(jù)不同業(yè)務(wù)用戶群體的特點提供個性化檢索服務(wù)。打通現(xiàn)有媒體資源的數(shù)據(jù)交互,做到統(tǒng)一檢索,實現(xiàn)圖文搜索和以圖搜圖等多維度檢索、智能檢索等,并結(jié)合知識圖譜功能,對檢索結(jié)果中的相關(guān)詞條以及詞條的知識圖譜進行展示,向業(yè)務(wù)人員提供基于媒資內(nèi)容的智能推薦,全面提升媒資素材的檢索效率。
2.2.3 大數(shù)據(jù)輔助
采集央視、省電視臺等重點頻道數(shù)據(jù),通過大數(shù)據(jù)和人工智能技術(shù),進行語音、文字、圖像、場景自動識別,實現(xiàn)視頻內(nèi)容的快速查找,建立人臉庫、場景庫等,支持以圖搜圖,為新聞內(nèi)容生產(chǎn)提供輔助。
智能媒資業(yè)務(wù)平臺中存放著各種類型的數(shù)據(jù),傳統(tǒng)的關(guān)系型數(shù)據(jù)庫無法滿足現(xiàn)在、未來快速檢索的業(yè)務(wù)需求。因此,數(shù)據(jù)庫平臺建設(shè)采用關(guān)系型數(shù)據(jù)庫+非關(guān)系型數(shù)據(jù)庫結(jié)合的方式,其中:
MySQL數(shù)據(jù)庫:關(guān)系型數(shù)據(jù)庫,存放所有完備的系統(tǒng)數(shù)據(jù),作為核心數(shù)據(jù)庫。
Redis緩存數(shù)據(jù)庫:存放數(shù)據(jù)較小且訪問頻次很高的數(shù)據(jù),例如入庫參數(shù)、編目類配置、系統(tǒng)參數(shù)等,便于數(shù)據(jù)快速調(diào)用,優(yōu)化用戶訪問系統(tǒng)以及內(nèi)部流程處理時間效率。
MongoDB文件存儲數(shù)據(jù)庫:非關(guān)系型數(shù)據(jù)庫,存放系統(tǒng)的人臉特征數(shù)據(jù)、標簽數(shù)據(jù)等,便于快速調(diào)用。
針對資源入庫、編目、訪問等業(yè)務(wù),系統(tǒng)對數(shù)據(jù)庫進行寫操作:
若發(fā)生配置信息、用戶信息等變化,系統(tǒng)會同時寫入MySQL與Redis,保證數(shù)據(jù)的一致性和同步性。
若資源入庫,則寫入MySQL任務(wù)相關(guān)信息、資源記錄,以及編目數(shù)據(jù)等。
若存在AI的識別處理,則將AI結(jié)果寫入MongoDB。針對用戶登錄、檢索等業(yè)務(wù),系統(tǒng)對數(shù)據(jù)庫進行讀操作。
若查詢配置信息、用戶信息等,系統(tǒng)會優(yōu)先從Redis讀取,一旦讀不到或Redis無法訪問,則從MySQL進行讀取。
若顯示資源詳情,例如展示頁面,則從MySQL讀取編目信息,同時從MongoDB讀取AI結(jié)果數(shù)據(jù)。
數(shù)據(jù)庫平臺流程圖如圖2所示。
圖2 數(shù)據(jù)庫平臺流程圖
通過新一代智能媒資業(yè)務(wù)平臺的建設(shè),可以看到以下幾點價值。
平臺使用面更廣更寬,傳統(tǒng)紙媒及新媒體部門均可使用,通過智能技術(shù)的引入,豐富了搜索字段,編目能力提升明顯,人臉、語音等搜索方式也更加多樣化和便捷化。
采編人員結(jié)合采用傳統(tǒng)編目+智能編目的方式,縮短了編目時間,對后續(xù)審核環(huán)節(jié)等流程的效率提升也很顯著。
對于編目審核、使用詳細區(qū)分,配置不同權(quán)限,通過智能技術(shù)對敏感音視頻自動標記,確保系統(tǒng)安全性及合規(guī)性。
建設(shè)智能媒資業(yè)務(wù)平臺,對集團已有的珍貴檔案進行統(tǒng)一保存,為外部單位提供不同時期、不同場景下的各種音視頻素材,提高版權(quán)收益。
本文介紹了新一代智能媒資業(yè)務(wù)平臺的總體架構(gòu)及技術(shù)特點,引入AI技術(shù),建設(shè)從高清視頻、直播、制作、入庫,到音視頻、圖片等媒資的分類、檢索、管理、審核、分發(fā)等全流程一體化的專業(yè)視頻生產(chǎn)發(fā)布綜合平臺,實現(xiàn)“一庫打盡、服務(wù)內(nèi)外、互聯(lián)互通”,形成一套完整的音視頻管理體系和開放服務(wù)平臺,為集團各媒體、外部合作媒體等提供全流程服務(wù),對媒體行業(yè)搭建智能媒資庫平臺起到了很好的探索實踐意義。