潘文宇 邢青
摘要:精彩的足球賽事給大眾文娛生活帶來(lái)很多樂(lè)趣,針對(duì)直播賽事中無(wú)法實(shí)時(shí)識(shí)別出精彩的點(diǎn)球、任意球、球員個(gè)人信息等問(wèn)題,本文利用深度學(xué)習(xí)視頻識(shí)別處理技術(shù),提出一種智能的賽事分析方案,探討了足球直播賽事智能分析的可行性,研究了智能分析方案的具體技術(shù)實(shí)現(xiàn)。
關(guān)鍵詞:智能視頻分析技術(shù);實(shí)時(shí)分析;足球比賽
隨著人工智能技術(shù)的發(fā)展,基于深度學(xué)習(xí)的視頻流分析模型在識(shí)別、監(jiān)測(cè)領(lǐng)域得到了廣泛應(yīng)用。在體育賽事直播中,尤其是足球比賽中,觀眾一般只能通過(guò)足球解說(shuō)人員獲取球員的個(gè)人介紹,包括對(duì)球員的球技、球員的任意球、點(diǎn)球等進(jìn)行分析解說(shuō),因此觀眾獲得的僅僅是聽覺信息。提高觀眾的現(xiàn)場(chǎng)體驗(yàn)感,將此類信息可視化是一個(gè)可行的方法。基于深度學(xué)習(xí)視頻處理技術(shù)可以識(shí)別和播報(bào)賽事中發(fā)生的行為事件(比如點(diǎn)球、任意球等);識(shí)別場(chǎng)上的行為發(fā)生的球員,將球員的歷史數(shù)據(jù)與比賽進(jìn)行中的事件進(jìn)行關(guān)聯(lián),智能化地對(duì)一場(chǎng)足球賽進(jìn)行集錦剪輯等,做到關(guān)鍵信息的可視化、實(shí)時(shí)解說(shuō)、實(shí)時(shí)展示。因此,本文提出一種足球賽事實(shí)時(shí)智能分析系統(tǒng)。
1 技術(shù)背景
首先,大數(shù)據(jù)是深度學(xué)習(xí)成功的重要路基。在如今的互聯(lián)網(wǎng)時(shí)代,數(shù)據(jù)量的累積是爆炸式的,越來(lái)越多的領(lǐng)域正持續(xù)積累著日趨豐富的應(yīng)用數(shù)據(jù),這對(duì)深度學(xué)習(xí)的進(jìn)一步發(fā)展和應(yīng)用至關(guān)重要。不過(guò)大數(shù)據(jù)收集是有成本的,并且標(biāo)注成本已經(jīng)開始水漲船高,樣本的好壞直接決定了模型的精確度,所以只有擁有一定技術(shù)實(shí)力的公司才能持續(xù)投入研究。在安防領(lǐng)域,像??低暤扔凶灾餮邪l(fā)實(shí)力且在安防行業(yè)深耕多年的公司,運(yùn)用大量真實(shí)視頻監(jiān)控場(chǎng)景的視頻、圖片數(shù)據(jù)作為訓(xùn)練樣本庫(kù),數(shù)據(jù)量大且質(zhì)量較好,通過(guò)超過(guò)百人團(tuán)隊(duì)的數(shù)據(jù)組,對(duì)視頻圖像打標(biāo)簽,積累了千萬(wàn)級(jí)別的樣本數(shù)據(jù),在使用這些數(shù)據(jù)量大且質(zhì)量良好的樣本不斷訓(xùn)練下,對(duì)安防監(jiān)控場(chǎng)景下的人、車、物進(jìn)行模式識(shí)別的模型也會(huì)越來(lái)越精確。
其次,高性能硬件平臺(tái)計(jì)算是引擎助力。深度學(xué)習(xí)模型需要大量的樣本,這就避免不了大量的計(jì)算,而以前的硬件設(shè)備不足以訓(xùn)練出復(fù)雜的上百層的深度學(xué)習(xí)模型。2011年谷歌DeepMind用了1000臺(tái)機(jī)器、16000個(gè)CPU處理的深度模型大概有10億個(gè)神經(jīng)元,而現(xiàn)在,只要用幾個(gè)GPU,我們就可以完成同樣的計(jì)算,并且迭代速度更快。因此,GPU、超級(jí)計(jì)算機(jī)、云計(jì)算等高性能硬件平臺(tái)的迅猛發(fā)展讓深度學(xué)習(xí)成為可能,強(qiáng)大的計(jì)算能力有助于深度學(xué)習(xí)算法快速實(shí)現(xiàn)驗(yàn)證,并積累更多經(jīng)驗(yàn)進(jìn)行模型修正,進(jìn)一步提高模型精度。
2 總體設(shè)計(jì)
總體架構(gòu)是以海量圖像和視頻、文本、音頻等多源異構(gòu)數(shù)據(jù)存儲(chǔ)為基礎(chǔ),引入先進(jìn)的人工智能技術(shù),容器技術(shù)、分布式計(jì)算、高性能存儲(chǔ)以及機(jī)器學(xué)習(xí)引擎為支撐,搭建的一套面向媒體行業(yè)的智能分析人工平臺(tái)。其主要包括基礎(chǔ)平臺(tái)層、學(xué)習(xí)引擎層和業(yè)務(wù)應(yīng)用層,如圖所示:
總體架構(gòu)圖
其基礎(chǔ)平臺(tái)層包括分布式存儲(chǔ)平臺(tái)、分布式計(jì)算平臺(tái)、容器編排系統(tǒng)、數(shù)據(jù)庫(kù)系統(tǒng)、計(jì)算引擎系統(tǒng)、服務(wù)管理發(fā)放、日志系統(tǒng);學(xué)習(xí)引擎層包括視頻識(shí)別引擎、語(yǔ)音識(shí)別引擎;業(yè)務(wù)應(yīng)用層包括球員識(shí)別、類型球識(shí)別、智能剪輯、信息可視化。
3 技術(shù)原理
3.1 基礎(chǔ)平臺(tái)層
(1)分布式存儲(chǔ)[1]平臺(tái)通過(guò)構(gòu)建大規(guī)模彈性存儲(chǔ)系統(tǒng),保證可靠性、可用性和性能的前提下,達(dá)到業(yè)務(wù)的快速拓展。分布式存儲(chǔ)通過(guò)緩存達(dá)到加速的目的,通過(guò)熱點(diǎn)數(shù)據(jù)的識(shí)別達(dá)到性能的高性價(jià)比。分布式計(jì)算平臺(tái)調(diào)度分布式系統(tǒng)的計(jì)算資源,包括普通的CPU和GPU資源。設(shè)定資源的算力能力和最優(yōu)計(jì)算場(chǎng)景、調(diào)度優(yōu)先級(jí)。比如推理時(shí)先選擇GPU,當(dāng)GPU資源不滿足時(shí)選擇CPU以達(dá)到最大利用率地使用計(jì)算資源。當(dāng)任務(wù)計(jì)算節(jié)點(diǎn)出現(xiàn)故障時(shí),發(fā)送任務(wù)到其他節(jié)點(diǎn)繼續(xù)運(yùn)算。
(2)容器編排系統(tǒng)支持多層安全防護(hù)、準(zhǔn)入機(jī)制、多租戶應(yīng)用支撐、透明的服務(wù)注冊(cè)、服務(wù)發(fā)現(xiàn)、內(nèi)建負(fù)載均衡、強(qiáng)大的故障發(fā)現(xiàn)和自我修復(fù)機(jī)制、服務(wù)滾動(dòng)升級(jí)和在線擴(kuò)容、可擴(kuò)展的資源自動(dòng)調(diào)度機(jī)制、多粒度的資源配額管理能力。
(3)數(shù)據(jù)庫(kù)系統(tǒng)滿足元數(shù)據(jù)存儲(chǔ),知識(shí)存儲(chǔ),關(guān)系存儲(chǔ)以及不同維度的搜索需要。
(4)計(jì)算引擎系統(tǒng)包括離線批處理平臺(tái)和實(shí)時(shí)處理平臺(tái)。離線批處理平臺(tái)建立在公有云環(huán)境上,計(jì)算引擎采用Apache Spark 2.0,支持分布式彈性數(shù)據(jù)集的快速計(jì)算和緩存。在計(jì)算引擎基礎(chǔ)上部署了Spark Job Server,最大化地利用了集群的計(jì)算資源,簡(jiǎn)化了任務(wù)提交方法,提升了任務(wù)提交響應(yīng),可通過(guò)Restful接口提交和管理離線批處理任務(wù)。平臺(tái)定期對(duì)Spark Job Server和計(jì)算引擎進(jìn)行心跳、任務(wù)數(shù)、任務(wù)運(yùn)行情況的測(cè)量和監(jiān)控,確保發(fā)生系統(tǒng)故障或系統(tǒng)過(guò)載時(shí)能及時(shí)處理。
(5)實(shí)時(shí)處理平臺(tái)從數(shù)據(jù)管道實(shí)時(shí)訂閱數(shù)據(jù)流,并進(jìn)行分布式實(shí)時(shí)處理,采用的核心技術(shù)主要包括Apache Storm及Apache Spark Streaming。
(6)服務(wù)管理發(fā)放主要針對(duì)計(jì)算資源、存儲(chǔ)資源進(jìn)行管理。對(duì)于離線批處理平臺(tái)、實(shí)時(shí)處理平臺(tái),需對(duì)計(jì)算資源進(jìn)行集中整合,并且具備計(jì)算資源的按需伸縮能力。
(7)日志系統(tǒng)提供針對(duì)日志類數(shù)據(jù)的存儲(chǔ)、檢索與分析服務(wù),用戶無(wú)須開發(fā)就能快捷完成數(shù)據(jù)定制化分詞、存儲(chǔ)、檢索、分析功能,幫助提升運(yùn)維、運(yùn)營(yíng)效率,快速查找和定位問(wèn)題,高效索引和搜索海量數(shù)據(jù),建立海量索引處理能力。
3.2 學(xué)習(xí)引擎層
(1)原始的視頻圖像實(shí)際上是一種非結(jié)構(gòu)化的數(shù)據(jù),它不能直接被計(jì)算機(jī)讀取和識(shí)別,為了讓視頻圖像在足球賽事中更好地應(yīng)用,使用視頻識(shí)別引擎對(duì)視頻圖像進(jìn)行結(jié)構(gòu)化處理。將視頻內(nèi)容(人、物、活動(dòng)目標(biāo))特征屬性自動(dòng)提取技術(shù),對(duì)視頻內(nèi)容按照語(yǔ)義關(guān)系,采用目標(biāo)分割、時(shí)序分析、對(duì)象識(shí)別、深度學(xué)習(xí)等處理手段,分析和識(shí)別目標(biāo)信息,組織成可供計(jì)算機(jī)和人理解的文本信息的技術(shù)。主要包括以下內(nèi)容:
①事件拆條:通過(guò)智能化技術(shù)將已播出的節(jié)目拆條成一條條獨(dú)立的條目,然后用于豐富和完善新聞資訊節(jié)目數(shù)據(jù)的信息通道,提高節(jié)目?jī)?nèi)容的生產(chǎn)效率以及拆條后的視頻質(zhì)量。
②字幕提?。褐贫ㄊ称肺募瑢?duì)指定區(qū)域的字幕進(jìn)行識(shí)別,識(shí)別出文字;支持中文、英文的字幕識(shí)別[3]。節(jié)目畫面中往往已經(jīng)有編輯好的標(biāo)題,可以直接用于拆條后素材片段的標(biāo)題。使用字幕識(shí)別技術(shù),拆條系統(tǒng)只需要框選需要識(shí)別的標(biāo)題畫面,系統(tǒng)會(huì)自動(dòng)將畫面識(shí)別成標(biāo)題文字,簡(jiǎn)單快捷。
③結(jié)構(gòu)化標(biāo)準(zhǔn):事件元數(shù)據(jù)管理[4],所屬頻道、節(jié)目、播出時(shí)間;按日期、時(shí)間段分段管理,某日期/時(shí)間內(nèi)拆條事件;事件預(yù)覽,時(shí)間視頻、內(nèi)容、文本、標(biāo)題等匹配預(yù)覽。
(2)語(yǔ)音識(shí)別引擎將音頻文件識(shí)別成文字[4],以文本形式輸出,支持聲紋識(shí)別,并支持語(yǔ)音斷點(diǎn)識(shí)別。語(yǔ)音識(shí)別模塊通過(guò)對(duì)指定音頻通道的音頻基帶信號(hào)進(jìn)行解析,按照語(yǔ)音斷句記錄每個(gè)識(shí)別語(yǔ)句的起始時(shí)碼、結(jié)束時(shí)碼和識(shí)別的文本,識(shí)別結(jié)果會(huì)在物理素材的同目錄下生成一個(gè)和物理素材同txt文檔。拆條系統(tǒng)將此識(shí)別結(jié)果封裝成字幕文件,并和素材的其他數(shù)據(jù)信息一同存入數(shù)據(jù)庫(kù)的素材信息表中。
利用視頻識(shí)別及語(yǔ)音識(shí)別服務(wù),智能判定直播開始與結(jié)束。利用語(yǔ)音識(shí)別技術(shù),識(shí)別不同人物語(yǔ)音,并據(jù)此對(duì)直播進(jìn)行打點(diǎn),實(shí)現(xiàn)快速拆條。
3.3 業(yè)務(wù)應(yīng)用層
包括球員識(shí)別、類型球識(shí)別、智能剪輯、信息可視化。利用學(xué)習(xí)引擎層訓(xùn)練提取的模型參數(shù),對(duì)輸入的直播視頻流進(jìn)行目標(biāo)監(jiān)測(cè)、圖像分割,獲取的信息通過(guò)大數(shù)據(jù)技術(shù)構(gòu)建可視化模型[5],直觀地展示處理結(jié)果。
4 結(jié)語(yǔ)
通過(guò)三層架構(gòu)的視頻處理模型,對(duì)直播的足球比賽進(jìn)行實(shí)時(shí)處理,以識(shí)別和播報(bào)賽事中發(fā)生的行為事件(比如點(diǎn)球、任意球等);識(shí)別場(chǎng)上的行為發(fā)生的球員,將球員的歷史數(shù)據(jù)與比賽進(jìn)行中的事件進(jìn)行關(guān)聯(lián),智能化地對(duì)一場(chǎng)足球賽進(jìn)行集錦剪輯等,做到關(guān)鍵信息的可視化、實(shí)時(shí)解說(shuō)、實(shí)時(shí)展示。日后的業(yè)務(wù)中會(huì)有更多的需求將被實(shí)現(xiàn),利用智能視頻處理分析技術(shù)將極大地提高體育賽事的節(jié)目效果,同時(shí)節(jié)省了人力物力,將會(huì)取得良好的經(jīng)濟(jì)效益和社會(huì)效益。
參考文獻(xiàn):
[1]謝沖.海量矢量數(shù)據(jù)的分布式存儲(chǔ)及時(shí)空查詢[D].湖北:武漢大學(xué),2019.
[2]張鈺,基于云架構(gòu)的音頻采錄拆條系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].電聲技術(shù),2017,41(2):4853.
[3]王智慧,李佳桐,謝斯言,等.兩階段的視頻字幕檢測(cè)和提取算法[J].計(jì)算機(jī)科學(xué),2018,45(8):5053,62.
[4]張末.新一代硬盤播出系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].遼寧:東北大學(xué),2012.
[5]胡立如,陳高偉.可視化學(xué)習(xí)分析:審視可視化技術(shù)的作用和價(jià)值[J].開放教育研究,2020,26(2):6374.