亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

AI 智能技術(shù)在融媒體平臺中的應(yīng)用

2022-08-19 00:53:48傅高強

電視技術(shù) 2022年7期

關(guān)鍵詞：智能

傅高強

（浙江省磐安縣融媒體中心，浙江金華 322300）

0 引言

傳統(tǒng)融媒體平臺的媒資處理方式深刻影響著廣播電視平臺的工作效率，尤其是隨著媒介傳輸能力增強，媒資數(shù)量呈幾何式增長，媒資系統(tǒng)的存儲、檢索和媒資處理方式都難以滿足新媒體的需求。因此，磐安縣融媒體中心在既有的融媒體技術(shù)平臺基礎(chǔ)上，引入人工智能（Artificial Intelligence，AI）技術(shù)，設(shè)計、開發(fā)新媒體智能項目技術(shù)方案，對現(xiàn)有的媒資系統(tǒng)進行了深度優(yōu)化。本文就AI 智能技術(shù)在融媒體平臺中的應(yīng)用進行詳細闡述。

1 融媒體平臺AI 智能媒資系統(tǒng)平臺的設(shè)計概覽

1.1 智能媒資處理系統(tǒng)的AI 中臺技術(shù)框架

智能媒資處理系統(tǒng)的核心功能包括語音識別（Automatic Speech Recognition，ASR）、語義理解、動態(tài)人臉識別、人流量統(tǒng)計、人臉核身、文字識別（Optical Character Recognition，OCR）以及自然語言處理（Natural Language Processing，NLP）等重要功能，在傳統(tǒng)媒資系統(tǒng)上開放接口，接入AI 數(shù)據(jù)平臺，以實現(xiàn)媒資的智能化管理。技術(shù)框架如圖1 所示。

圖1 智能媒資處理系統(tǒng)的AI 中臺技術(shù)框架

這一平臺框架采取分布式多線程，任務(wù)調(diào)度精度可達到秒級以內(nèi)，配置水平擴展的大量能力節(jié)點，極端情況下能力節(jié)點上限達到500 個，是傳統(tǒng)媒資系統(tǒng)信息任務(wù)處理能力的30 倍。分布式處理、多點多線程能夠最大限度地發(fā)揮AI 的技術(shù)潛力，提高技術(shù)效率。通過統(tǒng)一接口，AI 大數(shù)據(jù)平臺整合底層的智能分析技術(shù)，能夠?qū)覣I 智能中臺，使上層應(yīng)用隨時得到技術(shù)支撐。

在第三方應(yīng)用技術(shù)上，該方案也提供了由彈性調(diào)度框架和智能中臺作為媒介方的開放插件式思路。第三方應(yīng)用、AI 智能分析引擎以及新的自研技術(shù)可以隨時通過平臺的軟件更新開放新接口，像安裝應(yīng)用一樣集成到AI 平臺。

1.2 媒資處理方案的實現(xiàn)基礎(chǔ)

該方案以技術(shù)合作方自研的目標檢測網(wǎng)絡(luò)為主，對視頻中的目標進行結(jié)構(gòu)化分析。視頻是融媒體平臺的主要媒資和處理對象。近年來，視頻結(jié)構(gòu)化已成為AI 智能視頻處理的主流思路。視頻結(jié)構(gòu)化處理部分采用嵌入式方式，使用深度壓縮（Deep Compression）方案[1]，旨在減輕帶寬壓力；在采集端輔以自動智能語音識別（ASR）、自然語言處理（NLP）以及文字識別（OCR）等基礎(chǔ)網(wǎng)絡(luò)可承載的識別技術(shù)，能夠?qū)σ曨l進行初步分析、裁剪及有效畫面篩選，并將有意義的畫面回傳至服務(wù)器，等待服務(wù)器端的進一步智能處理。

針對融媒體平臺的主要媒體資源即新聞節(jié)目，視頻結(jié)構(gòu)化的初步思路是將其拆分為三個基礎(chǔ)層級，即項目（Program）層、報道（Story）層和場景（Scene）層，其關(guān)系如圖2 所示。

圖2 視頻結(jié)構(gòu)化后3 個層級的關(guān)系

完整的Program 層在一般情況下指一段錄制完成的新聞節(jié)目，須包含基礎(chǔ)的有效信息，如節(jié)目名稱（項目名稱）、項目時間、主持人及內(nèi)容提要等。

經(jīng)過智能識別后，視頻被分為數(shù)個不同的報道段落，即Story 層。不同的Story 層必須包含獨立的主題和獨立的內(nèi)容，由完整的音、視頻單元組成。

Story 層的各單元包括了大量的Scene。這些Scene 包括實鏡頭（Shot）如主持人鏡頭、拍攝場景、主題講述、采訪鏡頭及一些空鏡頭等。視頻結(jié)構(gòu)化后，這些鏡頭將被采集端的初步AI 智能分析和回傳至服務(wù)端的精準AI 智能分析進行整理，形成具有明顯標簽、明顯類目的素材堆放，作為智能媒資管理和媒資復(fù)用的基礎(chǔ)。

2 智能融媒體媒資處理系統(tǒng)設(shè)計中的AI 技術(shù)應(yīng)用

2.1 基于智能連續(xù)音頻流識別技術(shù)的ASR 音頻識別

針對音頻部分，AI 平臺服務(wù)端的主要功能是ASR，即智能語音識別，將視頻中的人聲輸出為文字。采集端獲取視頻源素材后，通過視頻結(jié)構(gòu)化拆分出音頻流，去除無聲紋部分后，將有效音頻回傳至服務(wù)端，由AI 連續(xù)音頻流識別引擎進行分析。

識別過程中，引擎將音頻流分為每幀25 ms的多幀音頻，濾去背景噪聲、非人聲、無效人聲，再利用聲道長度歸一化（Vocal Tract Length Normalization，VTLN）技術(shù)[2]，逐句提取語言特征部分。語言特征提取完成后，將特征段落上傳至加權(quán)有限狀態(tài)轉(zhuǎn)換器解碼系統(tǒng)（Weighted Finite-State Transducers，WFST）。該系統(tǒng)根據(jù)大量數(shù)據(jù)訓(xùn)練后的AI 聲學(xué)模型和語義模型，采用靜態(tài)搜索空間算法，將一些明顯的拼音搭配在語義通順的基礎(chǔ)上確定下來，并為語音的識別按照場景分配權(quán)重，最終輸出多達10 條的識別結(jié)果，供人工比對和選擇。經(jīng)過測試，在現(xiàn)場實時收音識別過程中，該系統(tǒng)的準確率在85%以上；針對主持人獨白、朗讀和大型節(jié)目的錄制聲源識別，該系統(tǒng)的準確率識別達到95%以上。系統(tǒng)所提供的識別建議均能覆蓋源音頻的人工識別結(jié)果。

2.2 視頻畫面處理中的AI 智能分析

將采集端接入AI 平臺后，對純視頻部分的文字識讀改為結(jié)合算法的OCR 文字識別。OCR 技術(shù)主要應(yīng)用于兩部分：其一是視頻的前處理階段，即視頻中的區(qū)域性文字識別；其二是視頻的后處理階段，即已經(jīng)制作成節(jié)目后的字幕識別。二者的技術(shù)原理相同。人臉識別則利用人臉建立統(tǒng)一的五官坐標，并采集視頻中的數(shù)值特征進行人物庫的智能匹配，給出人臉相似的可能程度。

2.2.1 基于智能OCR 技術(shù)的視頻文字處理和字幕識別

智能OCR 技術(shù)框架分布于采集端和服務(wù)端。采集端負責(zé)文本的檢測與文字區(qū)域的抓取，服務(wù)端則負責(zé)需要大量GPU 算力的文字識別。

在采集端，基于圖像的分割算法，視頻被逐幀檢測是否存在文字區(qū)域。每一幀圖像中的符合特征的像素點被進行算法檢測，識別其是否屬于背景中的文字或獨立文字，再通過連通域算法，逐層擴張，抓取文字所在的矩形區(qū)域（有時是不規(guī)則多邊形）。當(dāng)一個項目的區(qū)域抓取完成后，采集端對抓取區(qū)域中的文字像素點進行裁剪，將裁剪后的結(jié)果回傳至服務(wù)端。

在服務(wù)端，利用集成的經(jīng)過中文數(shù)據(jù)集、合成字庫集等訓(xùn)練成熟的循環(huán)卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Recurrent Neural Network，CRNN）算法模型[3]，排除文字模糊、扭曲、形變等干擾，分析得出準確的文字。在視頻前處理應(yīng)用場景下，得出的文字可以用來規(guī)避敏感詞、排除無效幀和定位Program 中各Story 的出入節(jié)點。在視頻的后處理應(yīng)用場景下，采集端整合多條字幕，將各字幕幀去重，組合并識別出段落文字，生成對文字內(nèi)容的分析結(jié)果。

2.2.2 基于坐標算法、特征提取和人物庫比對的智能人臉識別

人臉識別主要用于識別新聞視頻素材包含的大量人臉信息，根據(jù)人臉信息準確判斷人物身份、人物信息。在智能媒資系統(tǒng)的設(shè)計思路中，引入AI的作用是利用算法找出人物五官的關(guān)鍵點，并對提取出的特征數(shù)值串進行智能比對，并實時擴充人物比對庫。

這一過程的主要邏輯如下。首先，在算法模型中設(shè)立一個對人臉五官坐標的判定基準，即不同的人臉在統(tǒng)一模型中的五官數(shù)值計算坐標系。人的面部不同，識別出的五官數(shù)據(jù)是不同的。這些數(shù)據(jù)在統(tǒng)一的計算體系內(nèi)就有了提取特征的依據(jù)。其次，采集端在識別出的人臉幀中應(yīng)用這一算法，給出一組代表人臉五官特征的獨一數(shù)值串。這一數(shù)值串中的數(shù)值可能代表人物五官相對于基準人臉的偏斜、縮放、移位等參數(shù)。最后，這些參數(shù)回傳至服務(wù)端后，服務(wù)端將這些特征數(shù)值串與已經(jīng)組建好的人物庫進行比對，依照相似度給出與其最相似的人物信息。

該系統(tǒng)所提供的融媒體類人物庫，目前已有2 000 多名重要人物，包括政治敏感人物、落馬官員、失德藝人等。在允許算法結(jié)合大數(shù)據(jù)實時補充人物對比庫的同時，開放對使用者的權(quán)限，管理員后期可以通過媒資系統(tǒng)對該庫的人物資料進行管理、刪改及豐富條目等操作。

3 引入AI 技術(shù)的智能媒資管理系統(tǒng)

3.1 引入自然語言處理技術(shù)（NLP）的智能媒資入庫

在媒資智能入庫部分，除了調(diào)用前文2.1、2.2章節(jié)所述的語音識別和視頻內(nèi)容識別外，在使用這些AI 技術(shù)識別出的文本、語音資源的基礎(chǔ)上，媒資管理系統(tǒng)中預(yù)置的自然語言處理（Natural Language Processing，NLP）引擎，能夠快速轉(zhuǎn)譯文本，對文本中的語言性質(zhì)進行識讀、提取關(guān)鍵詞，將這些關(guān)鍵詞按照新聞常用的特征標簽（包括時間、場景、人物、地點等）進行分類。對于不同的標簽，還可以依據(jù)提取轉(zhuǎn)譯出的文本內(nèi)容智能地生成摘要，供檢索者預(yù)覽。當(dāng)標簽達到一定數(shù)量時，NLP 引擎進一步細分素材內(nèi)容[4]，對碎片資料進行深度清洗，結(jié)合算法吸收的互聯(lián)網(wǎng)新內(nèi)容，生成新的關(guān)鍵詞和標簽，保證標簽檢索的精準程度。與傳統(tǒng)的入庫方式相比，智能媒資管理系統(tǒng)對數(shù)據(jù)的整理方式，為最大化實現(xiàn)素材的檢索、傳輸和復(fù)用提供了先決條件。

3.2 結(jié)合大數(shù)據(jù)分析的智能媒資檢索

在標簽多元化的基礎(chǔ)上，媒資管理系統(tǒng)提供媒資百科和知識圖譜，進一步優(yōu)化媒資檢索的工作效率。本地檢索媒資后，將以標簽和文本檢索快捷生成檢索結(jié)果，引入AI 大數(shù)據(jù)分析后，檢索結(jié)果更加人性化。在用戶檢索本地媒資的同時，系統(tǒng)將檢索內(nèi)容和結(jié)果上傳至服務(wù)端交由AI 分析[5]，根據(jù)大數(shù)據(jù)所展示的標簽關(guān)聯(lián)性，實時提供更多可選的搜索標簽建議，或提供在線版權(quán)媒資以供使用。

4 結(jié) 語

回顧磐安縣的融媒體智能媒資系統(tǒng)建設(shè)方案，其引入了AI 技術(shù)平臺，憑借本地采集端和云上服務(wù)端的雙端優(yōu)化，完成了在音頻、視頻、文字識讀功能上的AI 智能化，同時在媒資管理上發(fā)力，引入NLP 技術(shù)，對既有的媒資管理方式進行了革新。在看到AI 智能技術(shù)在融媒體平臺的建設(shè)和發(fā)展中所扮演的突出角色的同時，融媒體平臺的建設(shè)者也應(yīng)注意甄別技術(shù)的可行性和適配性，規(guī)避技術(shù)風(fēng)險，合理控制成本，做到有的放矢，不斷深化AI 智能技術(shù)與融媒體工作的結(jié)合程度，積極推進大數(shù)據(jù)時代的融媒體數(shù)字化轉(zhuǎn)型。