譚榮皓
(作者單位:甘孜州廣播電視臺(tái))
國(guó)家廣播電視總局在“十四五”規(guī)劃中提到:建立人工智能技術(shù)開發(fā)服務(wù)平臺(tái),為人工智能算法訓(xùn)練、智能工具、服務(wù)優(yōu)化、測(cè)試評(píng)估、服務(wù)認(rèn)證等提供支撐服務(wù),推進(jìn)人工智能在內(nèi)容生產(chǎn)、傳播分發(fā)、終端呈現(xiàn)等環(huán)節(jié)的全面應(yīng)用。甘孜州廣播電視臺(tái)建設(shè)經(jīng)歷了從模擬到數(shù)字,從模塊建設(shè)到全網(wǎng)一體化智慧建設(shè)的過程,目前,已經(jīng)建成“貢嘎云”州縣融媒本地化部署的技術(shù)平臺(tái),實(shí)現(xiàn)了媒體數(shù)字化目標(biāo)。推進(jìn)媒體深度融合,原有的業(yè)務(wù)范圍更廣,需要生產(chǎn)和發(fā)布的內(nèi)容更多,迫切需要借助先進(jìn)的人工智能技術(shù)為前臺(tái)各種應(yīng)用工具提供智能化、多樣化、便捷化的服務(wù),以便提升臺(tái)內(nèi)的節(jié)目生產(chǎn)、審核、發(fā)布效率。
構(gòu)建一套滿足使用需求的智能媒體服務(wù)平臺(tái),為甘孜州廣播電視臺(tái)提供完善的智能處理能力,完成對(duì)視頻、音頻、圖片、文字等類型的內(nèi)容資源進(jìn)行智能處理,包括人臉識(shí)別、場(chǎng)景識(shí)別、文字識(shí)別(optical character recognition,OCR)、語音識(shí)別、圖片識(shí)別、內(nèi)容分類、標(biāo)簽提取、主題識(shí)別與智能藏漢翻譯等,系統(tǒng)建成后具備較為全面的智能處理能力,能夠隨著業(yè)務(wù)需求變化進(jìn)行智能服務(wù)擴(kuò)展。
智能媒體服務(wù)平臺(tái)從功能設(shè)計(jì)、應(yīng)用交互、業(yè)務(wù)流程設(shè)計(jì)各方面按照全媒體業(yè)務(wù)需求進(jìn)行,以互聯(lián)網(wǎng)思維、全媒體思維進(jìn)行業(yè)務(wù)適配,將廣播業(yè)務(wù)、電視業(yè)務(wù)、新媒體業(yè)務(wù)等對(duì)媒體內(nèi)容的需求進(jìn)行整合,既適配傳統(tǒng)媒體生產(chǎn)、審核、發(fā)布,又能適配面向互聯(lián)網(wǎng)的媒體服務(wù)需求。
通過智能媒體服務(wù)平臺(tái)的建設(shè),搭建起“自用+租戶”的運(yùn)營(yíng)模式,在滿足甘孜州廣播電視臺(tái)對(duì)智能媒體服務(wù)的基礎(chǔ)上,為平級(jí)企事業(yè)單位、下級(jí)縣級(jí)融媒體中心單位等提供一些智能的媒體處理功能,提供基礎(chǔ)資源、平臺(tái)服務(wù)能力、應(yīng)用工具等租賃服務(wù),為單位持續(xù)地創(chuàng)收增效。
基礎(chǔ)平臺(tái)充分采用甘孜州廣播電視臺(tái)原有的私有云平臺(tái)資源、虛擬化計(jì)算資源、圖形渲染資源、存儲(chǔ)資源,部分輕量級(jí)人工智能服務(wù)直接對(duì)接公有云平臺(tái),如語音合成服務(wù)、藏漢翻譯服務(wù)。系統(tǒng)總體設(shè)計(jì)如圖1所示。

圖1 智能媒體服務(wù)系統(tǒng)總體設(shè)計(jì)
通過智能媒體服務(wù)平臺(tái)提供的各種智能引擎,將甘孜州廣播電視臺(tái)私有云現(xiàn)有的各類數(shù)字媒體資產(chǎn)結(jié)構(gòu)化處理,包括媒資元數(shù)據(jù)、語音數(shù)據(jù)、圖片數(shù)據(jù)、視頻數(shù)據(jù)、標(biāo)簽數(shù)據(jù)、OCR數(shù)據(jù)等,打造智能媒體服務(wù)平臺(tái)的智能數(shù)據(jù)中心。智能媒體服務(wù)平臺(tái)提供了包括語音識(shí)別、人臉識(shí)別、場(chǎng)景識(shí)別等多種智能化服務(wù),為前端的應(yīng)用提供具體的智能化輔助[1]。
智能媒體服務(wù)平臺(tái)和原有“貢嘎云”融媒體平臺(tái)、圣潔甘孜新媒體應(yīng)用程序(Application,App)發(fā)布平臺(tái)、互聯(lián)網(wǎng)視頻生產(chǎn)平臺(tái)、傳統(tǒng)音視頻生產(chǎn)(非編網(wǎng))、媒資網(wǎng)、文稿系統(tǒng)等業(yè)務(wù)系統(tǒng)對(duì)接,為原有業(yè)務(wù)系統(tǒng)的應(yīng)用智慧賦能。智能媒體服務(wù)平臺(tái)主要提供語音智能服務(wù)、圖片智能服務(wù)、視頻智能服務(wù)、語言文字處理、內(nèi)容智能審核這幾大類服務(wù),并把以上的智能服務(wù)和現(xiàn)有的業(yè)務(wù)工具對(duì)接,解放更多的生產(chǎn)力,賦予現(xiàn)有應(yīng)用工具更多的智能處理能力。
人臉識(shí)別模塊能快速識(shí)別視頻中的人臉信息并快速定位出視頻中的人物所在幀畫面,以及人臉?biāo)趨^(qū)域??烧{(diào)用自定義的甘孜州本地人物庫(kù)或調(diào)用已經(jīng)創(chuàng)建的視頻公共人物庫(kù)進(jìn)行人臉識(shí)別。
語音識(shí)別模塊能快速識(shí)別視頻中的聲音并轉(zhuǎn)化成文字,支持自定義關(guān)鍵詞并定位出關(guān)鍵詞所在視頻的時(shí)間點(diǎn)。
場(chǎng)景識(shí)別模塊基于深度學(xué)習(xí)方案,能夠設(shè)定視頻截幀間隔,自動(dòng)識(shí)別截幀畫面內(nèi)的各種預(yù)設(shè)場(chǎng)景,并定位場(chǎng)景標(biāo)簽所在的視頻位置;涵蓋人物、風(fēng)景、人造物、建筑、動(dòng)植物、食物等多個(gè)大類,包含日常生活的各個(gè)信息維度。
OCR識(shí)別模塊能對(duì)視頻圖像文件進(jìn)行分析處理,獲取文字及版面信息,可用于視頻內(nèi)的自定義關(guān)鍵詞的提取。
基于連續(xù)亮度灰度直方圖的相似度比較算法來轉(zhuǎn)場(chǎng)識(shí)別素材的鏡頭信息,形成一系列的鏡頭信息和鏡頭封面,并且提供鏡頭信息的合并、拆分以及形成新的片段。
智能翻譯模塊集成應(yīng)用深度神經(jīng)網(wǎng)絡(luò)、高級(jí)機(jī)器學(xué)習(xí)、大數(shù)據(jù)智能等人工智能技術(shù),大規(guī)模采集并構(gòu)建藏語(含詞匯、短語等)庫(kù),建立數(shù)據(jù)驅(qū)動(dòng)、以自然語言理解為核心的認(rèn)知計(jì)算模型,構(gòu)建甘孜州廣播電視臺(tái)藏漢互譯系統(tǒng)。
基于對(duì)視頻內(nèi)容進(jìn)行深度學(xué)習(xí)和理解,輸出場(chǎng)景識(shí)別信息、人物識(shí)別信息,并利用語音識(shí)別以及自然語音處理技術(shù),智能生成多元素視頻標(biāo)簽,用于視頻的管理和檢索應(yīng)用。
甘孜州廣播電視臺(tái)利用智能媒體服務(wù)平臺(tái)提供的人工智能能力,具體賦能到各項(xiàng)業(yè)務(wù)系統(tǒng)中的應(yīng)用工具,設(shè)計(jì)如下:
非編系統(tǒng)能夠通過智能媒體服務(wù)平臺(tái)提供的語音合成引擎將文字轉(zhuǎn)化為自然流暢的人聲,把非編系統(tǒng)時(shí)間線上的字幕自動(dòng)生成音頻文件[2]。根據(jù)節(jié)目類型的不同,可預(yù)先定義好音色、語速、音量、合成音頻采樣率等,定制完成多種不同類型的人聲,提升臺(tái)里某些講解類、資訊類、廣告類節(jié)目的生產(chǎn)效率。
媒資管理系統(tǒng)能夠通過智能媒體服務(wù)平臺(tái)提供的語音轉(zhuǎn)寫引擎對(duì)內(nèi)容庫(kù)中已有的音頻文件、視頻文件進(jìn)行識(shí)別,將音頻內(nèi)容轉(zhuǎn)寫為文本信息,輔助人工進(jìn)行快速檢索,提升內(nèi)容的檢出率,并支持在檢索選項(xiàng)欄錄入語音進(jìn)行內(nèi)容檢索[3]。
非編系統(tǒng)能夠通過智能媒體服務(wù)平臺(tái)提供的語音轉(zhuǎn)寫引擎對(duì)時(shí)間線上的視頻進(jìn)行智能分析,并自動(dòng)輸出帶有時(shí)間戳的字幕。為了提升字幕整理速度,充分利用聲紋技術(shù),根據(jù)聲紋特征,自動(dòng)將采訪者和被采訪者說的內(nèi)容分開。
非編系統(tǒng)能夠通過智能媒體服務(wù)平臺(tái)提供的人臉識(shí)別引擎對(duì)時(shí)間線上的視頻進(jìn)行智能拆條,根據(jù)人臉自動(dòng)定位。該功能可將相同的人物條目進(jìn)行分段合并處理,并以人工進(jìn)行鏡頭批注,只需要極少的人力對(duì)拆條后的素材進(jìn)行微調(diào)即可,減少了大量的人工拆條的工作,這樣既提升了效率,也節(jié)約了人力成本。
媒資系統(tǒng)通過智能媒體服務(wù)平臺(tái)提供的人臉識(shí)別引擎對(duì)內(nèi)容庫(kù)中的視頻、圖片進(jìn)行人物標(biāo)簽管理,自動(dòng)對(duì)人臉特征庫(kù)中的人物信息進(jìn)行標(biāo)簽標(biāo)注處理,在檢索時(shí)支持人名和圖片兩種方式,凡是包含該人臉的素材都會(huì)出現(xiàn)在檢索結(jié)果中[4]。若該人臉在敏感人物庫(kù)中,會(huì)在檢索結(jié)果中進(jìn)行高亮提示。
在新媒體發(fā)布平臺(tái)中,能夠?qū)θ霂?kù)的視頻、圖片進(jìn)行敏感人物識(shí)別,增強(qiáng)新媒體發(fā)布內(nèi)容的安全性。
非編系統(tǒng)、媒資系統(tǒng)均能通過智能媒體服務(wù)平臺(tái)提供的其他智能識(shí)別引擎,基于對(duì)視頻內(nèi)容進(jìn)行深度學(xué)習(xí)和理解,輸出場(chǎng)景識(shí)別信息、OCR識(shí)別信息、地標(biāo)信息等,智能生成多元素視頻標(biāo)簽,用于視頻的管理和檢索應(yīng)用。
在新媒體發(fā)布平臺(tái)中,對(duì)新媒體內(nèi)容庫(kù)進(jìn)行結(jié)構(gòu)化處理,基于對(duì)視頻的場(chǎng)景分類、人物識(shí)別、OCR文字識(shí)別、地標(biāo)識(shí)別等分析,形成層次化的分類標(biāo)簽,支撐新媒體發(fā)布平臺(tái)根據(jù)觀看用戶的愛好進(jìn)行推薦。
新媒體發(fā)布平臺(tái)和媒資系統(tǒng)均能通過智能媒體服務(wù)平臺(tái)提供的內(nèi)容審核引擎,對(duì)上傳的圖片、視頻進(jìn)行內(nèi)容安全檢測(cè),包括色情、低俗內(nèi)容檢測(cè);涉恐涉政識(shí)別;Logo識(shí)別,對(duì)含有旗幟、臺(tái)標(biāo)、水印、商標(biāo)的內(nèi)容進(jìn)行檢測(cè);垃圾廣告識(shí)別,對(duì)含有廣告信息的內(nèi)容進(jìn)行識(shí)別;不良場(chǎng)景識(shí)別,對(duì)涉及毒品、賭博、畫中畫的內(nèi)容進(jìn)行識(shí)別;風(fēng)險(xiǎn)人物識(shí)別,對(duì)敏感人物進(jìn)行識(shí)別。對(duì)待發(fā)布內(nèi)容進(jìn)行安全審核,可以提升發(fā)布安全性。
文稿系統(tǒng)能夠通過智能媒體服務(wù)平臺(tái)提供的智能翻譯引擎,實(shí)現(xiàn)漢語到藏語的翻譯。首先,自動(dòng)將視頻的字幕或語音提取成文字,并按時(shí)間點(diǎn)分割成一段段的文字,形成列表;其次,將漢語文字結(jié)果列表,自動(dòng)翻譯成藏語列表,并包含人工的角色和標(biāo)簽信息,工作人員能夠?qū)φ諠h語文字,調(diào)整翻譯的藏語結(jié)果。提供專有名詞、短語片段、句子級(jí)的翻譯糾正功能。在后期人工配音時(shí),點(diǎn)擊某段,能夠自動(dòng)跳轉(zhuǎn)到視頻的對(duì)應(yīng)位置(可提前1秒或10幀),對(duì)視頻重新進(jìn)行藏語配音,并細(xì)調(diào)語音和視頻對(duì)應(yīng)的位置,提升藏語譯制節(jié)目的生產(chǎn)效率。
通過集成各種人工智能引擎技術(shù),打造了甘孜州廣播電視臺(tái)的智能媒體服務(wù)中臺(tái),硬件資源由原有私有云提供,節(jié)省了投入。甘孜州原有業(yè)務(wù)系統(tǒng)的媒資、非編網(wǎng)、新媒體發(fā)布平臺(tái)均能對(duì)接。智能媒體服務(wù)平臺(tái)能夠從人物、語音、場(chǎng)景、地標(biāo)等多維度自動(dòng)添加標(biāo)簽,支持快速檢索,提升了各個(gè)業(yè)務(wù)系統(tǒng)的素材使用率。通過人工智能技術(shù)進(jìn)行自動(dòng)拆條、語音合成、藏漢翻譯,使得臺(tái)內(nèi)節(jié)目生產(chǎn)的質(zhì)量和效率得到顯著提高,同時(shí)也節(jié)約了大量人力成本。通過內(nèi)容智能審核服務(wù),讓內(nèi)容中可能存在的黃、暴、恐安全隱患無處可藏,提高內(nèi)容安全鑒別效率和準(zhǔn)確度。未來,還將繼續(xù)拓展智能媒體服務(wù)平臺(tái)的人工智能能力,并在此基礎(chǔ)上,賦能現(xiàn)有業(yè)務(wù)工具,創(chuàng)建更多用應(yīng)用場(chǎng)景。