王 賢
(肥東縣融媒體中心,安徽 合肥 231600)
隨著智慧電視、交互式技術(shù)等的發(fā)展,內(nèi)容安全、知識產(chǎn)權(quán)、播出安全及播出質(zhì)量等問題日益凸顯,給廣播電視節(jié)目內(nèi)容的監(jiān)播帶來更大的考驗[1]。傳統(tǒng)的廣播電視節(jié)目內(nèi)容監(jiān)播主要有人工監(jiān)播、錄像監(jiān)播及音頻監(jiān)播等方式,但存在監(jiān)播工作量大、成本高、操作復(fù)雜以及監(jiān)播不全面等問題,難以滿足現(xiàn)代廣播電視內(nèi)容監(jiān)播需要。雖有部分先進的智能監(jiān)播系統(tǒng)實現(xiàn)了對靜幀、黑場等播出異態(tài)的智能監(jiān)播,但在內(nèi)容安全方面的智能監(jiān)播能力較弱。當前,人工智能圖像識別技術(shù)已經(jīng)被廣泛應(yīng)用于交通管理、醫(yī)療診斷、安防監(jiān)控及自動駕駛等領(lǐng)域,具有識別速度快、穩(wěn)定性高、成本低、準確度高的優(yōu)點,應(yīng)用于廣播電視節(jié)目內(nèi)容的智能監(jiān)播時,能以更低的監(jiān)播成本提高廣播電視節(jié)目的播出質(zhì)量和播出安全。
圖像識別技術(shù)是人工智能領(lǐng)域的重要技術(shù),是人工智能、深度學習及機器視覺相結(jié)合的產(chǎn)物。該技術(shù)通過編制計算機程序來模擬人眼識別圖像和大腦判斷圖像內(nèi)容的機制,通過深度學習算法和人工智能技術(shù)學習并理解圖像中的主要特征,準確地對圖像內(nèi)容進行識別和分類,從而如同人類一樣對圖像內(nèi)容進行解釋,以實現(xiàn)圖像識別任務(wù)的智能化、自動化,代替人工工作并解決人工識別容易出錯的問題,提高圖像識別的效率和效果。經(jīng)過多年的發(fā)展,目前圖像識別技術(shù)已經(jīng)較為成熟,能夠滿足多種場景下的應(yīng)用需求,如軍事領(lǐng)域、公安刑偵領(lǐng)域和廣播電視節(jié)目內(nèi)容監(jiān)播領(lǐng)域等。
圖像識別技術(shù)有多種分類方法,目前較常用的方法是按學習算法和識別目標進行分類。根據(jù)學習算法的不同,圖像識別技術(shù)可以分為監(jiān)督學習、無監(jiān)督學習、自我監(jiān)督學習3 類。監(jiān)督學習是人工事先對學習樣本圖像進行明確的標注分類,指明圖像內(nèi)容所代表的語義,程序?qū)W習樣本圖像進行學習后提取相應(yīng)語義和圖像特征,從而實現(xiàn)對圖像的識別理解。無監(jiān)督學習是直接將未經(jīng)人工標注的學習樣本賦予圖像識別程序,由程序提取圖像特征,根據(jù)圖像特征的相似性或差異性來實現(xiàn)對圖像的識別理解。自我監(jiān)督學習同樣使用未經(jīng)人工標注的學習樣本賦予圖像識別程序。與無監(jiān)督學習不同,自我監(jiān)督學習會由程序給圖像創(chuàng)建語義標簽,以不太精確的語義表示圖像。
圖像識別技術(shù)實質(zhì)上是利用圖像識別算法編制計算機軟件程序,以模擬人類識別圖像的圖像信息收集和分類識別的神經(jīng)網(wǎng)絡(luò)過程。圖像識別技術(shù)同樣如此,通過提取圖像中的特征信息,與學習經(jīng)驗進行對應(yīng),從而對圖像內(nèi)容進行識別、辨認和描述。圖像的特征信息是圖像識別技術(shù)的基礎(chǔ)。圖像識別技術(shù)實質(zhì)上就是提取圖像特征信息,排除多余信息,運用概率與統(tǒng)計方法對圖像特征信息進行分類以識別圖像內(nèi)容。
圖像識別技術(shù)的工作過程與人類識別圖像的工作過程基本相同,可分為模型訓練、特征提取、辨識描述3 個過程。模型訓練相當于人類通過學習積累經(jīng)驗,這一階段通過大量的圖像進行學習訓練,理解不同圖像的模式和特征。特征提取是對需要識別的圖像進行分析,提取圖像的特征信息。辨識描述是根據(jù)提取出的特征信息,與學習經(jīng)驗進行匹配,從而完成圖像內(nèi)容的識別和語義描述。在廣播電視節(jié)目內(nèi)容的監(jiān)播中,首先要收集大量的內(nèi)容安全和質(zhì)量問題節(jié)目圖片,輸入圖像識別模型進行訓練,讓模型建立內(nèi)容安全和質(zhì)量問題節(jié)目內(nèi)容圖像經(jīng)驗。監(jiān)播時,則通過獲取節(jié)目內(nèi)容的實時幀,提取實時幀圖像上的特征信息,與之前學習的經(jīng)驗進行比對,辨別該幀圖像是否存在內(nèi)容安全或質(zhì)量問題。
圖像識別技術(shù)常用的有基于統(tǒng)計學習理論的二分類模型支持向量機(Support Vector Machine,SVM),基于圖像顏色、紋理、形狀等特征的特征提取算法,基于深度學習的卷積神經(jīng)網(wǎng)絡(luò)算法等。目前,應(yīng)用最為廣泛的是卷積神經(jīng)網(wǎng)絡(luò)算法(Convolutional Neural Networks,CNN)。該類算法綜合了SVM 算法和特征提取算法的優(yōu)點,通過卷積計算和深度前饋神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)來模仿生物視知覺機制,具有運算速度快、可適應(yīng)圖像形態(tài)改變、適用范圍廣的優(yōu)點。其細粒度類別圖像識別能力甚至優(yōu)于人類,在廣播電視節(jié)目內(nèi)容監(jiān)播中有更高的適用性[2]。文章主要對較流行的ResNet101 算法、Faster R-CNN 算法、XGBoost 分類算法進行探討。
在廣播電視節(jié)目內(nèi)容監(jiān)播中,文字、黑場、彩條、噪點以及靜幀等的圖像識別相對簡單,但違規(guī)內(nèi)容等安全監(jiān)播和廣告響應(yīng)則存在多元性和異質(zhì)性問題,需要更為復(fù)雜的運算以提取細節(jié)特征。標準的卷積神經(jīng)網(wǎng)絡(luò)由輸入層、卷積層、池化層、全連接層及輸出層構(gòu)成。圖像特征的提取由卷積層完成,通過多個類似于神經(jīng)元的卷積核進行卷積操作,構(gòu)建圖像特征矩陣,完成對輸入圖像的特征信息的提取[3]。理論上,卷積層內(nèi)部的層數(shù)越多,提取的圖像特征信息就越豐富,但過多的層數(shù)會導致梯度消失和梯度爆炸問題,增加計算難度并出現(xiàn)網(wǎng)絡(luò)退化問題,導致識別能力下降。
ResNet 又稱殘差網(wǎng)絡(luò)算法。該算法將殘差塊引入卷積神經(jīng)網(wǎng)絡(luò),構(gòu)建了一種深度殘差卷積神經(jīng)網(wǎng)絡(luò)算法。ResNet101 是ResNet 算法的一種,其網(wǎng)絡(luò)結(jié)構(gòu)共有101 層。該算法在Conv1 首先對輸入圖像進行卷積核為7×7 的卷積操作,提取圖像的全局特征,再接入Conv2_x、Conv3_x、Conv4_x、Conv5_x 逐層提取圖像特征。Conv2_x、Conv3_x、Conv4_x、Conv5_x 分別由3、4、23、3 個殘差塊構(gòu)成,每個殘差塊包含兩個3×3 的卷積層和一個跳躍連接層,共99 層。經(jīng)過99 層的殘差卷積操作,提取圖像的小尺寸局部特征后,對最后一個殘差塊輸出的圖像特征矩陣進行全局池化,輸出1×1×2 048的特征圖,以提高圖像特征的語義解釋能力。通過淺層特征和深層特征的組合,使得所提取出的圖像特征信息極為豐富,有效提高了圖像識別的準確率,在廣播電視節(jié)目內(nèi)容監(jiān)播上,滿足了內(nèi)容安全識別的需要。
ResNet101 算法通過多層卷積運算和池化操作,雖然使圖像的全局特征和細節(jié)特征都得以提取識別,但由于網(wǎng)絡(luò)層數(shù)太深、結(jié)構(gòu)復(fù)雜,導致其運算量極為龐大,當計算機性能不足時對圖像的識別速度較慢。而廣播電視節(jié)目內(nèi)容監(jiān)播需要在極短的時間內(nèi)完成對節(jié)目內(nèi)容的識別并作出截播、插播等響應(yīng)操作,單純依靠ResNet101 算法很難滿足廣播電視節(jié)目內(nèi)容監(jiān)播的實時響應(yīng)需求。Faster R-CNN 算法能解決ResNet101 算法識別速度過慢的問題。該算法通過感興趣區(qū)域的檢測進行裁剪后進行分類識別,使得計算量大幅度下降,能在200 ms 內(nèi)完成一張圖像的識別,足以滿足廣播電視節(jié)目內(nèi)容實時監(jiān)播的需要。
Faster R-CNN算法也是卷積神經(jīng)網(wǎng)絡(luò)算法的一種,同樣采用了卷積神經(jīng)網(wǎng)絡(luò)的卷積層、池化層、連接層結(jié)構(gòu)。但在具體的工作流程上,與ResNet101算法不同,該算法首先通過Conv Layers 提取圖像的全局特征,其次生成候選框,根據(jù)候選框內(nèi)包含的全局特征信息來判斷是否存在需要識別的目標,并對候選框進行修正以得到更為準確的感興趣區(qū)域,再次對感興趣區(qū)域進行池化操作,最后對感興趣區(qū)域的圖像特征信息進行識別和語義描述。由于僅對感興趣區(qū)域進行深層次的圖像特征信息提取,使得計算量大幅下降,識別速度遠快于ResNet101 算法。
在廣播電視節(jié)目內(nèi)容監(jiān)播中,除了要識別節(jié)目內(nèi)容的安全性、質(zhì)量,還需要進行語義描述,作為截播系統(tǒng)的響應(yīng)函數(shù),供監(jiān)播人員參考。內(nèi)容安全問題較為復(fù)雜,需要更高精度的分類運算。ResNet101算法和Faster R-CNN 算法雖然能提取出豐富準確的圖像特征信息,但在分類識別和語義描述上較弱,還需要結(jié)合XGBoost 分類算法來提高分類精度和語義描述能力[4]。
XGBoost 算法通過串行多個弱分類器整合為一個強分類器,采用梯度提升決策樹的方法,經(jīng)過大量的反復(fù)迭代運算和交叉驗證,從而提高分類計算精度。在計算中,多棵決策樹共同參與分類決策,每棵決策樹的結(jié)果是目標值與所有樹的預(yù)測結(jié)果之差,將所有決策樹的結(jié)果進行累加從而得到最終結(jié)果[5]。通過梯度提升決策樹集成學習計算,XGBoost 分類算法不僅能快速準確地分類決策多數(shù)據(jù)問題,還可以解決示例之外的問題。其分類示例可達到上億個,具有極高的分類精度和極準確的語義描述能力。
人工智能技術(shù)在圖像識別領(lǐng)域已經(jīng)得到廣泛應(yīng)用,表現(xiàn)出極高的實用性。相較于醫(yī)療、安防、交通等領(lǐng)域圖像識別需求,廣播電視節(jié)目內(nèi)容的違法違規(guī)、內(nèi)容安全、播出安全、播出質(zhì)量有更突出的圖像特異性,在廣播電視節(jié)目內(nèi)容監(jiān)播上應(yīng)用人工智能圖像識別技術(shù)有極大的可行性。但廣播電視節(jié)目內(nèi)容監(jiān)播需要極高的圖像識別速度,過深的圖像特征提取計算需要更多的運算時間。ResNet101 算法可以提取更豐富的圖像特征信息但運算速度較慢,F(xiàn)aster R-CNN 算法計算速度快但只對感興趣區(qū)域進行識別。在具體應(yīng)用中,可以將兩種算法結(jié)合,同時滿足識別精度和識別速度的需要。XGBoost 分類算法則具有更快速準確的分類能力和精確的語義描述能力,可以將分類和語義描述功能交由XGBoost分類算法來完成。