□萬玉萍 楊 玲
在通信與互聯(lián)網(wǎng)普及的今天,數(shù)字視頻在網(wǎng)絡(luò)上的傳播更加容易,在全世界范圍內(nèi)形成了海量的數(shù)據(jù)庫。面對這些海量的視頻信息,如何對它進(jìn)行有效地組織、管理、分類以及檢索,近年來已經(jīng)成為國內(nèi)外眾多學(xué)者研究的主要熱點(diǎn)之一,也是極具挑戰(zhàn)性的研究課題。
目前,視頻分類的主流解決思路是采用基于視頻內(nèi)容的處理和檢索,主要通過以下兩類方式實(shí)現(xiàn):
一、部分區(qū)域固定特征監(jiān)測方式。即通過逐幀的分析視頻圖像,定位圖像中需要查詢的相關(guān)特征,根據(jù)此特征的匹配程度,確定圖形和視頻是否屬于暴恐視頻。此類方法的代表性處理手段有:匹配暴恐組織旗幟或臺標(biāo),匹配服飾特征,匹配特定性人物等。通常要實(shí)現(xiàn)此類方法,需要采用人臉識別、紋理識別、相似度計(jì)算等方法。
該方式的缺點(diǎn)是由于過度依賴固定特征和固定區(qū)域,當(dāng)暴恐視頻內(nèi)容發(fā)生變化時,難以有效區(qū)分。具體而言,在采用一些暴恐組織的旗幟、臺標(biāo)等特定特征進(jìn)行識別時,對于基于該類組織的暴視頻的識別效果會比較好。然而一旦出現(xiàn)新的暴恐組織或者該組織改用新的旗幟和臺標(biāo),即這些特定特征發(fā)生變化了,新的暴恐視頻就很難在該類識別算法中被分類出來。
二、圖像整體特征方式。即通過圖像特征提取算法,獲得圖像整體系統(tǒng)特征,通過大量數(shù)據(jù)的訓(xùn)練,獲得分類器模型,利用此分類器模型實(shí)現(xiàn)對后續(xù)的圖像視頻的分類識別。此類方法中采用的圖像特征提取算法通常有:SIFT 算法、灰度共生矩陣法、傅里葉功率譜法等。
該方式的缺點(diǎn)是由于采用的是固定特征提取算法,當(dāng)視頻中摻雜了干擾數(shù)據(jù)后,此類算法將會獲得大量帶噪音的特征,極大降低分類的效果。尤其在海量數(shù)據(jù)下,難以適應(yīng)特定需求。具體而言,在采用一些現(xiàn)成的暴恐視頻比如暴恐組織進(jìn)行教授爆炸物制作方法的視頻進(jìn)行整體特征提取后,一旦遇到跟此特征比較相似行為的視頻(如影視劇中相似的情節(jié),甚至是動畫片中有類似的情節(jié))等,都可能會被歸類為暴恐而被識別出來,導(dǎo)致分類效果大打折扣。
通過對現(xiàn)有視頻分類技術(shù)深入分析,現(xiàn)在出現(xiàn)了基于內(nèi)容的深度網(wǎng)絡(luò)特征的視頻分類技術(shù),該技術(shù)分為線下訓(xùn)練和線上預(yù)測兩大部分。
線下訓(xùn)練部分:用戶提供同時包含敏感視頻和正常視頻的訓(xùn)練數(shù)據(jù)。該技術(shù)從這些訓(xùn)練數(shù)據(jù)中提取視頻幀并利用深度人工神經(jīng)網(wǎng)絡(luò)從中抽取能夠表示視頻內(nèi)容的視覺特征。深度神經(jīng)網(wǎng)絡(luò)在一定程度上模仿了人腦對于外在世界的從粗到細(xì)的視覺感知過程。因此,較傳統(tǒng)經(jīng)驗(yàn)設(shè)計(jì)的諸如顏色、紋理、SIFT 直方圖等特征,基于深度網(wǎng)絡(luò)得到的視覺特征能夠在多個粒度上更有效地描述視頻內(nèi)容。因此該種特征特別適用于分析含有復(fù)雜內(nèi)容的視頻數(shù)據(jù)。再進(jìn)一步通過結(jié)合后續(xù)的有監(jiān)督學(xué)習(xí),該描述能夠自動識別區(qū)分暴恐視頻與正常視頻的視覺模式。該技術(shù)與其他視頻檢索分類算法相比,其優(yōu)勢在于識別過程不依賴于人為指定的特征庫,比如特定臺標(biāo)、旗幟等,這就使得該技術(shù)對于未知暴恐視頻有更好的適應(yīng)性。
分類器訓(xùn)練模塊主要是建立用于區(qū)分敏感視頻和正常視頻的決策模型。考慮到訓(xùn)練數(shù)據(jù)量很大,且正負(fù)樣本分布極不平衡,即敏感視頻相對只占極少部分。因此,傳統(tǒng)的分類器訓(xùn)練方法在此場景下并不適用。為此,設(shè)計(jì)了一種基于迭代集成學(xué)習(xí)的訓(xùn)練算法,即通過多次加權(quán)采樣,解決大數(shù)據(jù)量和樣本分布不平衡問題——綿羊sheep。該技術(shù)通過多輪迭代,自動從海量數(shù)據(jù)中找到最容易被錯分為sheep的訓(xùn)練樣本。將這些樣本加到線下訓(xùn)練部分,可提高視頻分類技術(shù)的判別能力。
線上預(yù)測部分:未知視頻數(shù)據(jù)。同樣調(diào)用特征提取模塊從中抽取視頻特征,然后利用已訓(xùn)練好的決策模型對它們進(jìn)行預(yù)測,并返回可能性最大的視頻供人工檢驗(yàn)。在保證100%召回率(把所有目標(biāo)視頻都找到)的前提下,該技術(shù)能夠有效排除大量正常視頻,從而極大提高人工檢索的效率。
將一組(10 個)暴恐測試視頻的視頻幀集隨機(jī)摻入一個包含120 萬張網(wǎng)絡(luò)圖片的數(shù)據(jù)集中,技術(shù)對所有圖像、視頻進(jìn)行打分并排序,檢查需要查看多少張圖片,才能完全找到這10 個暴恐視頻(檢測準(zhǔn)確率)。
這10 個暴恐視頻,在技術(shù)打分排序后的位置分別為:第1,24,28,35,69,90,121,123,125,135 處。也就是說要完全確定這10 個暴恐視頻,只需要人工查看前135 個預(yù)測結(jié)果即可,檢測準(zhǔn)確率為:10/135=7%
在上述實(shí)驗(yàn)中,針對模糊暴恐視頻如何提高技術(shù)的識別分類能力。采用增加訓(xùn)練集合樣例的方式,重新訓(xùn)練模型。讓技術(shù)識別能力得到進(jìn)一步提升。為個別類型的視頻,建立單獨(dú)的分類器,從而更精確區(qū)分特殊視頻。利用音頻處理技術(shù),實(shí)現(xiàn)對特定暴恐聲音分類,輔助于圖像的分類技術(shù),將會進(jìn)一步提高視頻的檢測準(zhǔn)確率。