亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

圖像識別技術(shù)在廣播電視節(jié)目內(nèi)容監(jiān)播中的應(yīng)用

2024-05-02 23:44:43王賢

電視技術(shù) 2024年1期

王賢

（肥東縣融媒體中心，安徽合肥 231600）

0 引言

隨著智慧電視、交互式技術(shù)等的發(fā)展，內(nèi)容安全、知識產(chǎn)權(quán)、播出安全及播出質(zhì)量等問題日益凸顯，給廣播電視節(jié)目內(nèi)容的監(jiān)播帶來更大的考驗[1]。傳統(tǒng)的廣播電視節(jié)目內(nèi)容監(jiān)播主要有人工監(jiān)播、錄像監(jiān)播及音頻監(jiān)播等方式，但存在監(jiān)播工作量大、成本高、操作復(fù)雜以及監(jiān)播不全面等問題，難以滿足現(xiàn)代廣播電視內(nèi)容監(jiān)播需要。雖有部分先進的智能監(jiān)播系統(tǒng)實現(xiàn)了對靜幀、黑場等播出異態(tài)的智能監(jiān)播，但在內(nèi)容安全方面的智能監(jiān)播能力較弱。當前，人工智能圖像識別技術(shù)已經(jīng)被廣泛應(yīng)用于交通管理、醫(yī)療診斷、安防監(jiān)控及自動駕駛等領(lǐng)域，具有識別速度快、穩(wěn)定性高、成本低、準確度高的優(yōu)點，應(yīng)用于廣播電視節(jié)目內(nèi)容的智能監(jiān)播時，能以更低的監(jiān)播成本提高廣播電視節(jié)目的播出質(zhì)量和播出安全。

1 圖像識別技術(shù)

1.1 圖像識別技術(shù)概述

圖像識別技術(shù)是人工智能領(lǐng)域的重要技術(shù)，是人工智能、深度學習及機器視覺相結(jié)合的產(chǎn)物。該技術(shù)通過編制計算機程序來模擬人眼識別圖像和大腦判斷圖像內(nèi)容的機制，通過深度學習算法和人工智能技術(shù)學習并理解圖像中的主要特征，準確地對圖像內(nèi)容進行識別和分類，從而如同人類一樣對圖像內(nèi)容進行解釋，以實現(xiàn)圖像識別任務(wù)的智能化、自動化，代替人工工作并解決人工識別容易出錯的問題，提高圖像識別的效率和效果。經(jīng)過多年的發(fā)展，目前圖像識別技術(shù)已經(jīng)較為成熟，能夠滿足多種場景下的應(yīng)用需求，如軍事領(lǐng)域、公安刑偵領(lǐng)域和廣播電視節(jié)目內(nèi)容監(jiān)播領(lǐng)域等。

1.2 圖像識別技術(shù)的分類

圖像識別技術(shù)有多種分類方法，目前較常用的方法是按學習算法和識別目標進行分類。根據(jù)學習算法的不同，圖像識別技術(shù)可以分為監(jiān)督學習、無監(jiān)督學習、自我監(jiān)督學習3 類。監(jiān)督學習是人工事先對學習樣本圖像進行明確的標注分類，指明圖像內(nèi)容所代表的語義，程序?qū)W習樣本圖像進行學習后提取相應(yīng)語義和圖像特征，從而實現(xiàn)對圖像的識別理解。無監(jiān)督學習是直接將未經(jīng)人工標注的學習樣本賦予圖像識別程序，由程序提取圖像特征，根據(jù)圖像特征的相似性或差異性來實現(xiàn)對圖像的識別理解。自我監(jiān)督學習同樣使用未經(jīng)人工標注的學習樣本賦予圖像識別程序。與無監(jiān)督學習不同，自我監(jiān)督學習會由程序給圖像創(chuàng)建語義標簽，以不太精確的語義表示圖像。

2 圖像識別技術(shù)的工作原理與工作過程

2.1 圖像識別技術(shù)的工作原理

圖像識別技術(shù)實質(zhì)上是利用圖像識別算法編制計算機軟件程序，以模擬人類識別圖像的圖像信息收集和分類識別的神經(jīng)網(wǎng)絡(luò)過程。圖像識別技術(shù)同樣如此，通過提取圖像中的特征信息，與學習經(jīng)驗進行對應(yīng)，從而對圖像內(nèi)容進行識別、辨認和描述。圖像的特征信息是圖像識別技術(shù)的基礎(chǔ)。圖像識別技術(shù)實質(zhì)上就是提取圖像特征信息，排除多余信息，運用概率與統(tǒng)計方法對圖像特征信息進行分類以識別圖像內(nèi)容。

2.2 圖像識別技術(shù)的工作過程

圖像識別技術(shù)的工作過程與人類識別圖像的工作過程基本相同，可分為模型訓練、特征提取、辨識描述3 個過程。模型訓練相當于人類通過學習積累經(jīng)驗，這一階段通過大量的圖像進行學習訓練，理解不同圖像的模式和特征。特征提取是對需要識別的圖像進行分析，提取圖像的特征信息。辨識描述是根據(jù)提取出的特征信息，與學習經(jīng)驗進行匹配，從而完成圖像內(nèi)容的識別和語義描述。在廣播電視節(jié)目內(nèi)容的監(jiān)播中，首先要收集大量的內(nèi)容安全和質(zhì)量問題節(jié)目圖片，輸入圖像識別模型進行訓練，讓模型建立內(nèi)容安全和質(zhì)量問題節(jié)目內(nèi)容圖像經(jīng)驗。監(jiān)播時，則通過獲取節(jié)目內(nèi)容的實時幀，提取實時幀圖像上的特征信息，與之前學習的經(jīng)驗進行比對，辨別該幀圖像是否存在內(nèi)容安全或質(zhì)量問題。

3 圖像識別技術(shù)的關(guān)鍵算法

圖像識別技術(shù)常用的有基于統(tǒng)計學習理論的二分類模型支持向量機（Support Vector Machine，SVM），基于圖像顏色、紋理、形狀等特征的特征提取算法，基于深度學習的卷積神經(jīng)網(wǎng)絡(luò)算法等。目前，應(yīng)用最為廣泛的是卷積神經(jīng)網(wǎng)絡(luò)算法（Convolutional Neural Networks，CNN）。該類算法綜合了SVM 算法和特征提取算法的優(yōu)點，通過卷積計算和深度前饋神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)來模仿生物視知覺機制，具有運算速度快、可適應(yīng)圖像形態(tài)改變、適用范圍廣的優(yōu)點。其細粒度類別圖像識別能力甚至優(yōu)于人類，在廣播電視節(jié)目內(nèi)容監(jiān)播中有更高的適用性[2]。文章主要對較流行的ResNet101 算法、Faster R-CNN 算法、XGBoost 分類算法進行探討。

3.1 ResNet101 算法

在廣播電視節(jié)目內(nèi)容監(jiān)播中，文字、黑場、彩條、噪點以及靜幀等的圖像識別相對簡單，但違規(guī)內(nèi)容等安全監(jiān)播和廣告響應(yīng)則存在多元性和異質(zhì)性問題，需要更為復(fù)雜的運算以提取細節(jié)特征。標準的卷積神經(jīng)網(wǎng)絡(luò)由輸入層、卷積層、池化層、全連接層及輸出層構(gòu)成。圖像特征的提取由卷積層完成，通過多個類似于神經(jīng)元的卷積核進行卷積操作，構(gòu)建圖像特征矩陣，完成對輸入圖像的特征信息的提取[3]。理論上，卷積層內(nèi)部的層數(shù)越多，提取的圖像特征信息就越豐富，但過多的層數(shù)會導致梯度消失和梯度爆炸問題，增加計算難度并出現(xiàn)網(wǎng)絡(luò)退化問題，導致識別能力下降。

ResNet 又稱殘差網(wǎng)絡(luò)算法。該算法將殘差塊引入卷積神經(jīng)網(wǎng)絡(luò)，構(gòu)建了一種深度殘差卷積神經(jīng)網(wǎng)絡(luò)算法。ResNet101 是ResNet 算法的一種，其網(wǎng)絡(luò)結(jié)構(gòu)共有101 層。該算法在Conv1 首先對輸入圖像進行卷積核為7×7 的卷積操作，提取圖像的全局特征，再接入Conv2_x、Conv3_x、Conv4_x、Conv5_x 逐層提取圖像特征。Conv2_x、Conv3_x、Conv4_x、Conv5_x 分別由3、4、23、3 個殘差塊構(gòu)成，每個殘差塊包含兩個3×3 的卷積層和一個跳躍連接層，共99 層。經(jīng)過99 層的殘差卷積操作，提取圖像的小尺寸局部特征后，對最后一個殘差塊輸出的圖像特征矩陣進行全局池化，輸出1×1×2 048的特征圖，以提高圖像特征的語義解釋能力。通過淺層特征和深層特征的組合，使得所提取出的圖像特征信息極為豐富，有效提高了圖像識別的準確率，在廣播電視節(jié)目內(nèi)容監(jiān)播上，滿足了內(nèi)容安全識別的需要。

3.2 Faster R-CNN 目標檢測算法

ResNet101 算法通過多層卷積運算和池化操作，雖然使圖像的全局特征和細節(jié)特征都得以提取識別，但由于網(wǎng)絡(luò)層數(shù)太深、結(jié)構(gòu)復(fù)雜，導致其運算量極為龐大，當計算機性能不足時對圖像的識別速度較慢。而廣播電視節(jié)目內(nèi)容監(jiān)播需要在極短的時間內(nèi)完成對節(jié)目內(nèi)容的識別并作出截播、插播等響應(yīng)操作，單純依靠ResNet101 算法很難滿足廣播電視節(jié)目內(nèi)容監(jiān)播的實時響應(yīng)需求。Faster R-CNN 算法能解決ResNet101 算法識別速度過慢的問題。該算法通過感興趣區(qū)域的檢測進行裁剪后進行分類識別，使得計算量大幅度下降，能在200 ms 內(nèi)完成一張圖像的識別，足以滿足廣播電視節(jié)目內(nèi)容實時監(jiān)播的需要。

Faster R-CNN算法也是卷積神經(jīng)網(wǎng)絡(luò)算法的一種，同樣采用了卷積神經(jīng)網(wǎng)絡(luò)的卷積層、池化層、連接層結(jié)構(gòu)。但在具體的工作流程上，與ResNet101算法不同，該算法首先通過Conv Layers 提取圖像的全局特征，其次生成候選框，根據(jù)候選框內(nèi)包含的全局特征信息來判斷是否存在需要識別的目標，并對候選框進行修正以得到更為準確的感興趣區(qū)域，再次對感興趣區(qū)域進行池化操作，最后對感興趣區(qū)域的圖像特征信息進行識別和語義描述。由于僅對感興趣區(qū)域進行深層次的圖像特征信息提取，使得計算量大幅下降，識別速度遠快于ResNet101 算法。

3.3 XGBoost 分類算法

在廣播電視節(jié)目內(nèi)容監(jiān)播中，除了要識別節(jié)目內(nèi)容的安全性、質(zhì)量，還需要進行語義描述，作為截播系統(tǒng)的響應(yīng)函數(shù)，供監(jiān)播人員參考。內(nèi)容安全問題較為復(fù)雜，需要更高精度的分類運算。ResNet101算法和Faster R-CNN 算法雖然能提取出豐富準確的圖像特征信息，但在分類識別和語義描述上較弱，還需要結(jié)合XGBoost 分類算法來提高分類精度和語義描述能力[4]。

XGBoost 算法通過串行多個弱分類器整合為一個強分類器，采用梯度提升決策樹的方法，經(jīng)過大量的反復(fù)迭代運算和交叉驗證，從而提高分類計算精度。在計算中，多棵決策樹共同參與分類決策，每棵決策樹的結(jié)果是目標值與所有樹的預(yù)測結(jié)果之差，將所有決策樹的結(jié)果進行累加從而得到最終結(jié)果[5]。通過梯度提升決策樹集成學習計算，XGBoost 分類算法不僅能快速準確地分類決策多數(shù)據(jù)問題，還可以解決示例之外的問題。其分類示例可達到上億個，具有極高的分類精度和極準確的語義描述能力。

4 結(jié)語

人工智能技術(shù)在圖像識別領(lǐng)域已經(jīng)得到廣泛應(yīng)用，表現(xiàn)出極高的實用性。相較于醫(yī)療、安防、交通等領(lǐng)域圖像識別需求，廣播電視節(jié)目內(nèi)容的違法違規(guī)、內(nèi)容安全、播出安全、播出質(zhì)量有更突出的圖像特異性，在廣播電視節(jié)目內(nèi)容監(jiān)播上應(yīng)用人工智能圖像識別技術(shù)有極大的可行性。但廣播電視節(jié)目內(nèi)容監(jiān)播需要極高的圖像識別速度，過深的圖像特征提取計算需要更多的運算時間。ResNet101 算法可以提取更豐富的圖像特征信息但運算速度較慢，F(xiàn)aster R-CNN 算法計算速度快但只對感興趣區(qū)域進行識別。在具體應(yīng)用中，可以將兩種算法結(jié)合，同時滿足識別精度和識別速度的需要。XGBoost 分類算法則具有更快速準確的分類能力和精確的語義描述能力，可以將分類和語義描述功能交由XGBoost分類算法來完成。