章 濤
(金華市新聞傳媒中心,浙江 金華 321000)
隨著媒體融合不斷向縱深發(fā)展,廣播電視制作系統(tǒng)傳統(tǒng)“前臺+后臺”架構(gòu)的缺陷日益顯著,如部署維護復(fù)雜、資源利用率低、能力單一等,已經(jīng)不能滿足內(nèi)容生產(chǎn)快速變化的需求,其原因主要在于前臺需求與后臺特性不匹配。前臺以用戶為中心,具有敏捷性,而后臺的作用是保證核心業(yè)務(wù)系統(tǒng)運行,具有穩(wěn)定性。后臺的穩(wěn)定性和前臺的敏捷性之間存在匹配速度的差異問題,導(dǎo)致后臺不能及時響應(yīng)前臺的需求[1]。提取前臺、后臺的一些資源,使其具備一定的可復(fù)用能力,并以應(yīng)用程序編程接口(Application Programming Interface,API)的形式服務(wù)于前臺應(yīng)用,從而形成中臺的架構(gòu)。
金華市新聞傳媒中心“金彩云”平臺自2017 年完成建設(shè)并投入運行以來,經(jīng)過不斷迭代和完善,覆蓋了廣電采編制作全流程業(yè)務(wù)。在運行過程中,同樣遇到了用戶需求與平臺架構(gòu)不匹配的問題,其中最為顯著的是智能化需求難以滿足。常規(guī)的廣播電視制作系統(tǒng)的智能化升級往往局限于媒資系統(tǒng)或內(nèi)容庫,將智能化能力與系統(tǒng)進行緊耦合,因此難以在其他生產(chǎn)制作環(huán)節(jié)實現(xiàn)能力復(fù)用,造成極大的資源浪費?!敖鸩试啤逼脚_從架構(gòu)入手,進行智能中臺技術(shù)系統(tǒng)的建設(shè),并在此基礎(chǔ)上完成智能化內(nèi)容庫的應(yīng)用實踐。
通過分析浙江省多個地市級電視臺的情況,發(fā)現(xiàn)智能化需求主要集中在以下3 個方面:一是能否顯著降低人員的重復(fù)勞動;二是能否賦能用戶提升作品質(zhì)量;三是能否充分發(fā)揮媒資作用創(chuàng)造價值?;谝陨闲枨笠?guī)劃了3 類應(yīng)用,便于智能中臺貫穿于融媒體業(yè)務(wù)流程。
貫穿線索、報題、選題、任務(wù)等環(huán)節(jié),為融合媒體內(nèi)容生產(chǎn)發(fā)布提供數(shù)字化、流程化手段,協(xié)助業(yè)務(wù)部門強化媒體融合生產(chǎn)的指揮決策能力,構(gòu)建媒體生產(chǎn)的“作戰(zhàn)指揮室”。
支持圖文稿、音視頻稿、圖集稿等全媒體稿件生產(chǎn),在新聞采集、生產(chǎn)、分發(fā)、接收、反饋中,利用文本、語音及視頻的三模態(tài)大模型,兼具跨模態(tài)理解和生成能力,結(jié)合海量全媒體數(shù)據(jù)積累和媒體融合業(yè)務(wù)需求,實現(xiàn)對媒體內(nèi)容的創(chuàng)作、分析、處理,以及媒體內(nèi)容的智能化、自動化處理,能夠幫助記者或者編輯更快地創(chuàng)作出大量高質(zhì)量的內(nèi)容,解決傳統(tǒng)人工創(chuàng)作過程中面臨的時間、成本及跨語種、跨領(lǐng)域等問題。同時,輔助媒體內(nèi)容創(chuàng)作、生產(chǎn)和加工,提高媒體業(yè)務(wù)的效率和質(zhì)量[2]。
基于知識庫、機器學(xué)習(xí)、自然語言處理(Natural Language Processing,NLP)、光學(xué)字符識別(Optical Character Recognition,OCR)等相結(jié)合的內(nèi)容檢查模型算法,建設(shè)專屬多模態(tài)內(nèi)容的安全審核系統(tǒng),實現(xiàn)對文字、圖片、視頻和音頻等的智能審核。支持常見錯誤檢查、用戶自定義錯誤校對,支持涉政、涉黃、暴恐、粗俗、廣告等內(nèi)容的智能識別,降低業(yè)務(wù)違規(guī)風(fēng)險。通過云校對服務(wù)接口結(jié)合私有化軟件開發(fā)工具包(Software Development Kit,SDK),實現(xiàn)同步和異步檢校,全面提升內(nèi)容安全風(fēng)險管控。
以上3 類應(yīng)用基本覆蓋了媒體資源的生命周期,在技術(shù)實現(xiàn)上都依賴于中臺系統(tǒng)底部的內(nèi)容庫場景。后文將解析智能中臺整體架構(gòu)的設(shè)計,重點介紹智能中臺支撐下內(nèi)容庫場景的構(gòu)建。
智能中臺在技術(shù)上采用容器+微服務(wù)的架構(gòu),一方面實現(xiàn)模型一鍵部署,自動調(diào)整彈性計算資源,具備虛擬化異構(gòu)算力和彈性擴縮容能力,能夠滿足用戶快速業(yè)務(wù)創(chuàng)新需求。另一方面,利用微服務(wù)技術(shù)性能特性,將算法、數(shù)據(jù)、應(yīng)用以微服務(wù)的方式解耦,其中任一模塊的調(diào)整對于整個人工智能(Artificial Intelligence,AI)技術(shù)應(yīng)用的影響都是可控的,具備灰度發(fā)布、彈性伸縮、高可用性和無單點性能瓶頸等特點,從而加速新AI 應(yīng)用場景的開發(fā)。智能中臺架構(gòu),如圖1 所示。
智能中臺在技術(shù)上采用容器和微服務(wù)架構(gòu),具備以下優(yōu)勢。第一,快速滿足創(chuàng)新需求優(yōu)勢。由于平臺采用的是容器和微服務(wù)架構(gòu),一方面能夠快速部署,另一方面將算法、數(shù)據(jù)、應(yīng)用以微服務(wù)的方式解耦,可對任一模塊進行調(diào)整,從而加速實現(xiàn)AI 新應(yīng)用場景的開發(fā)。第二,具備技術(shù)性能資源優(yōu)勢。擁有自動調(diào)整彈性計算資源和模型一鍵部署能力,在灰度發(fā)布、彈性伸縮和高可用上具有無單點性能瓶頸等特點。通過虛擬化異構(gòu)算力和彈性擴縮容能力,能夠解決模型部署復(fù)雜、資源浪費、手工擴展資源效率低的問題。第三,使用統(tǒng)一標(biāo)準(zhǔn)接口優(yōu)勢。包括統(tǒng)一API 網(wǎng)關(guān)、調(diào)用接口、業(yè)務(wù)計量、用戶管理和運維管理,為二次開發(fā)提供良好基礎(chǔ)。支持多業(yè)務(wù)系統(tǒng)對接驗證及能力調(diào)用,支持第三方媒體應(yīng)用、AI 算法模型及AI 服務(wù)能力接入,并支持單一原子能力API 的調(diào)用等[3]。
內(nèi)容庫是內(nèi)容資源整合、管理、共享和使用的樞紐,是節(jié)目“多元生成”和媒體融合生產(chǎn)的基礎(chǔ)支撐系統(tǒng),更是實現(xiàn)其他媒體業(yè)務(wù)智能化場景的必要條件。在智能中臺基礎(chǔ)上進行內(nèi)容庫場景搭建,就是在實現(xiàn)公共能力服務(wù)、流程定制服務(wù)及開放接口服務(wù)的基礎(chǔ)上,提供以數(shù)據(jù)為核心、面向平臺業(yè)務(wù)、基于融合生產(chǎn)及全媒體應(yīng)用特性的統(tǒng)一內(nèi)容服務(wù)能力[4]。團隊以業(yè)務(wù)為驅(qū)動,以自主構(gòu)建智能化模型為核心,基于自身及生態(tài)圈用戶需求進行模型調(diào)試訓(xùn)練,完成內(nèi)容庫場景的落地。
在浙江全省媒體融合之際,對接廣電和報社現(xiàn)有歷史媒體素材,對歷史素材進行AI 識別,提升歷史素材的可用性,通過素材資源庫上傳的素材也可以自主選擇AI 識別的方式,實現(xiàn)基于互聯(lián)網(wǎng)的上載、存儲、編目、加工、分析、分發(fā)和下載等業(yè)務(wù)流程。充分利用AI 人工智能中臺,提供多媒體素材的智能識別,包括智能編目、人臉識別、語音識別、場景識別以及智能標(biāo)簽在內(nèi)的分析與處理功能,實現(xiàn)資源管理的高效化與智能化。同時,賦能數(shù)據(jù)統(tǒng)一融合、協(xié)同發(fā)展,盤活數(shù)據(jù)資產(chǎn),實現(xiàn)數(shù)據(jù)資產(chǎn)的高效利用[5]。
智能化模型是智能中臺的技術(shù)核心,其性能決定了內(nèi)容庫的業(yè)務(wù)能力。團隊基于NLP、OCR 和人臉圖像識別等基礎(chǔ)原子能力,從媒體業(yè)務(wù)需求出發(fā)構(gòu)建模型。按業(yè)務(wù)的時間順序劃分,模型主要由智能調(diào)度處理中心、智能學(xué)習(xí)分析中心和智能算法引擎中心3 部分組成。智能調(diào)度處理中心完成媒體文件預(yù)處理,分析調(diào)度管理和輸出處理結(jié)果等。智能學(xué)習(xí)分析中心實現(xiàn)對數(shù)據(jù)文件的分析提取,并進行邏輯判斷、數(shù)據(jù)提煉和數(shù)據(jù)推送等。智能算法引擎中心提供如人臉識別、語音識別、文字識別和場景識別等識別處理的智能化應(yīng)用。
3.2.1 智能調(diào)度處理中心
智能調(diào)度處理中心負責(zé)整個AI 智能中臺的能力調(diào)度與管理。媒體文件輸入后,智能調(diào)度處理中心通過調(diào)用各種AI 算法,根據(jù)調(diào)度規(guī)則管理完成媒體文件視頻的分類、視頻的切分、視頻文字識別與分類等預(yù)處理,并將預(yù)處理結(jié)果輸出至智能學(xué)習(xí)分析中心進行進一步處理。智能調(diào)度處理中心業(yè)務(wù)邏輯,如圖2 所示。
3.2.2 智能學(xué)習(xí)分析中心
進一步分析音頻、圖像、視頻、文字等媒體文件類型,根據(jù)預(yù)測的視頻結(jié)構(gòu)化處理模板進行邏輯判斷、數(shù)據(jù)提煉和數(shù)據(jù)推送,實現(xiàn)對數(shù)據(jù)類型的智能化分析提取。智能學(xué)習(xí)分析中心業(yè)務(wù)邏輯如圖3 所示,智能化分析詳情頁面如圖4 所示。
圖3 智能學(xué)習(xí)分析中心業(yè)務(wù)邏輯圖
圖4 智能化分析詳情頁面
3.2.3 智能算法引擎中心
部分場景較為復(fù)雜的媒體文件通過智能學(xué)習(xí)分析中心分析提取標(biāo)簽后,經(jīng)智能調(diào)度處理中心判斷為分析結(jié)果不完整的,將轉(zhuǎn)入智能算法引擎中心進行深度分析。智能算法引擎中心包含多種智能算法能力(圖5),集成多個AI 算法工作流模版,具備音頻算法能力、圖像算法能力、自然語言算法能力等核心能力。
圖5 智能算法能力
經(jīng)過充分的研發(fā)調(diào)試,內(nèi)容庫已經(jīng)能夠準(zhǔn)確處理不同類型的媒體文件。針對較為復(fù)雜的視頻文件,內(nèi)容庫調(diào)用智能化模型從片段層、場景層和鏡頭層3 個維度進行分析,實現(xiàn)標(biāo)簽精準(zhǔn)提取,內(nèi)容要素?zé)o遺漏。內(nèi)容庫于2022 年7 月正式投入使用,截至2023 年12 月已完成分析媒體文件31 939 個。內(nèi)容庫數(shù)據(jù)統(tǒng)計系統(tǒng)詳情頁面如圖6 所示。
圖6 內(nèi)容庫數(shù)據(jù)統(tǒng)計系統(tǒng)詳情頁面
此前的廣播電視技術(shù)系統(tǒng)智能化平臺以及具備智能化能力的內(nèi)容庫,在實際運行的各環(huán)節(jié)中人工介入的占比仍然較大。經(jīng)分析,可以歸納為以下3 點原因。第一,AI 能力的跨模態(tài)協(xié)同不深入,導(dǎo)致內(nèi)容分析識別不準(zhǔn)確,需要人工調(diào)試。第二,內(nèi)容標(biāo)簽邏輯與實際場景不匹配,需要人工反復(fù)修正。第三,創(chuàng)建實例過于復(fù)雜,需要專業(yè)人員進行操作。針對上述問題,“金彩云”進行一次次技術(shù)攻關(guān)和軟件功能迭代,不僅解決了現(xiàn)有問題,還實現(xiàn)了新技術(shù)的探索實踐和創(chuàng)新運用。
中臺結(jié)合多維度能力輸入,融合場景識別、語音識別和人臉識別算法模型打造精準(zhǔn)的視頻切分能力,新聞視頻拆分支持鏡頭切分、場景切分和片段切分?;谥悄芊饷?、智能摘要、臺標(biāo)識別、片段類型識別、公眾人物識別、實體關(guān)鍵詞識別、抽象關(guān)鍵詞識別和新聞幀標(biāo)簽等多種算法,自動獲取各新聞片段、場景和鏡頭的標(biāo)題、類型、封面、摘要、標(biāo)簽內(nèi)容。相較于常規(guī)的多模態(tài)AI 分析,中臺系統(tǒng)基于廣電需求進行針對性的優(yōu)化,有效提升了分析識別的準(zhǔn)確度。
基于標(biāo)簽治理和清洗規(guī)則以及20 多種治理預(yù)處理和后處理策略,對標(biāo)簽數(shù)據(jù)進行校驗、過濾、排序、糾錯、匹配等處理。中臺系統(tǒng)識別模型的自優(yōu)化,在實際應(yīng)用中不僅減少了無效數(shù)據(jù)項所帶來的運算存儲負荷,而且有效提升了基于中臺系統(tǒng)各項應(yīng)用的易用性和準(zhǔn)確度。
中臺以分布式容器編排平臺Kubernetes 作為基座,能夠托管100 多種平臺鏡像倉庫和模型服務(wù),支持第三方算法/模型托管,平均算法接入時間為1 d。在算法的開發(fā)和接入過程中,制作鏡像往往有比較高的時間成本和技術(shù)門檻,要求用戶掌握一定的Docker 相關(guān)指令。中臺系統(tǒng)通過統(tǒng)一鏡像接入平臺和可視化界面使得普通用戶也可以輕松制作算法微服務(wù),大大提升了接入效率。針對鏡像生成耗時較長和鏡像文件體積較大的問題,中臺使用鏡像倉庫的方式進行動態(tài)管理。通過動態(tài)分析鏡像制作任務(wù),采用以空間換時間的策略提前預(yù)備組件使用中頻率和耗時大的鏡像,將基礎(chǔ)鏡像里安裝的常用組件構(gòu)建成模型鏡像,實現(xiàn)類似組件場景的快速復(fù)用,縮短制作鏡像的時間。
智能中臺采用云計算、大數(shù)據(jù)和人工智能等新技術(shù),建設(shè)了混合云架構(gòu)的云服務(wù)體系,實現(xiàn)了媒體融合生產(chǎn)、管理、發(fā)布業(yè)務(wù)的一體化?;陂_放設(shè)計思維,平臺為各類創(chuàng)新應(yīng)用提供底層支撐,引入多種第三方功能,集約化管理多種類應(yīng)用,實現(xiàn)媒體泛智造能力的統(tǒng)一匯聚。
自2022 年8 月運行以來,“金彩云”智能中臺實現(xiàn)了用戶多終端參與媒體內(nèi)容生產(chǎn)的雙向、多樣化的平臺管理方式,在支撐臺內(nèi)和全市媒體新聞融合生產(chǎn)上發(fā)揮了重要作用。平臺以先進技術(shù)支撐生態(tài)圈的協(xié)力合作,通過服務(wù)變現(xiàn)保證了智造模式的可持續(xù)發(fā)展。平臺將不斷更新迭代,力求在廣播影視、智慧城市、網(wǎng)絡(luò)安全、醫(yī)療健康和工業(yè)制造等領(lǐng)域進行開拓,引領(lǐng)產(chǎn)業(yè)協(xié)同創(chuàng)新,促進產(chǎn)業(yè)鏈的協(xié)同共進,為各項事業(yè)的發(fā)展提供強勁助力。