陳繡瑤
摘? 要: 為了提高視頻的識(shí)別檢測(cè)速度,提出基于融合特征的網(wǎng)絡(luò)不良視頻識(shí)別框架。先分離視頻音頻,利用MFCC特征匹配篩查部分恐怖視頻,減少視頻圖像提取、識(shí)別總量,以達(dá)到提高檢測(cè)速度目的;再通過(guò)OpenCV視覺(jué)軟件庫(kù),結(jié)合顏色直方圖+SURF算法進(jìn)行視頻鏡頭邊界檢測(cè)及MoSIFT特征、顏色信息等其他視頻特征的檢測(cè),在保證識(shí)別準(zhǔn)確率的基礎(chǔ)上進(jìn)一步提升視頻檢測(cè)速率。
關(guān)鍵詞: MFCC特征; SURF特征; MoSIFT特征; 鏡頭邊界檢測(cè); OpenCV
中圖分類號(hào):TP37? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A? ? ?文章編號(hào):1006-8228(2020)11-19-04
Abstract: In order to improve the video recognition ability and detection speed, this paper proposes a network bad video recognition framework based on features. Firstly, the video and audio are separated, and MFCC feature matching is used to screen some horror videos to reduce the total amount of video image for extraction and recognition, so as to improve the detection speed. In addition, by using OpenCV, combining with colour histogram and SURF algorithm, video lens boundary detection, and the detection of MoSIFT feature and motion, colour information and other video features are carried out to further improve video detection rate on the basis of ensuring recognition accuracy.
Key words: MFCC feature; SURF feature; MoSIFT feature; Lens boundary detection; OpenCV
0 引言
移動(dòng)互聯(lián)網(wǎng)時(shí)代,視頻分享的規(guī)模呈現(xiàn)爆炸式增長(zhǎng),網(wǎng)絡(luò)視頻成了信息傳播的重要手段之一。然而,網(wǎng)絡(luò)視頻資源共享為人們提供便利的同時(shí),一些恐暴、色情等不良視頻趁虛而入,嚴(yán)重危害青少年的身心健康,成為誘發(fā)青少年犯罪的重要因素。我國(guó)《憲法》《未成年人保護(hù)法》等對(duì)不良視頻內(nèi)容明文禁止,廣電總局、各地公安局對(duì)遏制不良視頻內(nèi)容的傳播也采取了相應(yīng)措施,但收效甚微[1]。因此,如何有效、快速地過(guò)濾不良視頻,己成為視頻分析領(lǐng)域的研究重點(diǎn)。
網(wǎng)絡(luò)不良視頻主要包括恐怖、暴力和色情三種。不良視頻的過(guò)濾,其關(guān)鍵技術(shù)在于視頻內(nèi)容的識(shí)別。在視頻檢測(cè)分析的相關(guān)研究中,通過(guò)查閱已有文獻(xiàn)發(fā)現(xiàn),大部分只注重視頻的圖像信息,忽略了視頻的音頻及運(yùn)動(dòng)信息特征。因此,本文綜合各類不良視頻的信息特征如音頻、運(yùn)動(dòng)、紋理及顏色信息等進(jìn)行視頻識(shí)別。另外,為了提高視頻識(shí)別速率,引入了MFCC特征匹配及直方圖結(jié)合SURF算法的鏡頭邊界檢測(cè)。
1 基于融合特征的不良視頻識(shí)別
1.1 不良視頻系統(tǒng)識(shí)別框架
視頻識(shí)別框架總體思路如圖1所示:首先通過(guò)視頻的音頻軌道提取視頻背景音樂(lè),進(jìn)行MFCC特征匹配,判斷輸入視頻是否符合不良視頻特征,有的話則直接判別為不良視頻,沒(méi)有則進(jìn)一步進(jìn)行視頻畫面的提取,并根據(jù)顏色特征、運(yùn)動(dòng)特征及特殊部分等特征進(jìn)行視頻內(nèi)容識(shí)別,直至分類結(jié)束。
1.2 基于MFCC特征的視頻檢測(cè)
常用的聲音特征提取方法有線性預(yù)測(cè)倒譜系數(shù)LPCC、多媒體內(nèi)容描述接口MPEG7、梅爾頻率倒譜系數(shù)MFCC等,其中MFCC是在Mel標(biāo)度頻率域提取出來(lái)的倒譜參數(shù),其特征信息不依賴于信號(hào)的性質(zhì),對(duì)輸入的信號(hào)無(wú)任何限制要求,而且利用了聽(tīng)覺(jué)模型的研究成果,相比其他方法更具魯棒性,當(dāng)信噪比降低時(shí)仍然具有較好的識(shí)別性能[2]。
因此,本文采用MFCC方法對(duì)提取的背景音樂(lè)進(jìn)行音頻特征提取,再利用隱馬爾科夫模型(HMM) 算法對(duì)提取的特征進(jìn)行匹配識(shí)別,如圖2所示。首先提取視頻背景音樂(lè),對(duì)聲音做前期處理:模數(shù)轉(zhuǎn)換、預(yù)加重和分幀、加窗等操作,預(yù)加重的目的是使信號(hào)的頻譜維持在高低頻區(qū)間,以達(dá)到用同樣的信噪比求頻譜[3]?!胺謳哟啊笔菍⒚恳粠艘詽h明窗,以增加幀的連續(xù)性。接著對(duì)各幀信號(hào)進(jìn)行快速傅里葉變換得到各幀的頻譜,然后對(duì)頻譜取模平方得到語(yǔ)音信號(hào)的譜線能量,再將能量譜通過(guò)一組Mel尺度的三角形濾波器組,對(duì)頻譜進(jìn)行平滑化處理[3]。最后經(jīng)離散余弦變換(DCT)得到MFCC參數(shù)向量,利用隱馬爾科夫模型( HMM)獲取隱藏語(yǔ)音信號(hào)背后的字符序列,和已訓(xùn)練好的樣本集進(jìn)行匹配識(shí)別,即可得到識(shí)別結(jié)果。
1.3 融合直方圖及SURF特征點(diǎn)的鏡頭邊界檢測(cè)
常用的鏡頭邊界檢測(cè)方法包括圖像顏色直方圖對(duì)比、基于圖像塊的對(duì)比、基于像素的對(duì)比、基于特征的視頻切割以及基于聚類的方法等[4]。其中,顏色直方圖是一種全局特征檢測(cè)方法,通過(guò)判斷相鄰兩個(gè)圖像幀的相似度進(jìn)行檢測(cè)。其優(yōu)點(diǎn)是算法簡(jiǎn)單、計(jì)算迅速,缺點(diǎn)是容易丟失圖像的細(xì)節(jié)信息,導(dǎo)致顏色相似的漸變鏡頭漏檢。
尺度不變特征變換(SIFT)和加速穩(wěn)健特征(SURF)屬于局部特征檢測(cè)算法:能夠較好地彌補(bǔ)漸變鏡頭漏檢問(wèn)題。其中SIFT特征算法對(duì)旋轉(zhuǎn)變換、尺度縮放、亮度變化等保持不變的特性,具有較好的穩(wěn)定性,但效率低,實(shí)時(shí)性不高,不適合大量視頻的檢測(cè)。SURF算法采用快速Hessian算法檢測(cè)關(guān)鍵點(diǎn),與SIFT算法相似,如圖3所示。不同之處在于SURF算法通過(guò)特征向量描述關(guān)鍵點(diǎn)周圍區(qū)域的情況,改良了SIFT算法的特征點(diǎn)提取方式,而且SURF算法采用了Harr小波特征和積分圖像的方法,運(yùn)行效率大大提高,適合用于海量視頻的檢測(cè)[5]。
因此,為了提高視頻的檢測(cè)速度和準(zhǔn)確率。整合全局特征檢測(cè)顏色直方圖算法與局部特征檢測(cè)SURF算法進(jìn)行視頻鏡頭邊界檢測(cè)及關(guān)鍵幀的提取。對(duì)每段視頻進(jìn)行分幀讀取,利用顏色直方圖的自適應(yīng)閾值算法對(duì)鏡頭邊界識(shí)別,再采用SURF 特征點(diǎn)匹配算法對(duì)檢測(cè)后屬于同一鏡頭的視頻幀進(jìn)行二次檢測(cè),得出最終的視頻關(guān)鍵幀圖像[6]。
1.4 基于OpenCV的不良視頻顏色特征信息的提取
OpenCV是一個(gè)開(kāi)源的計(jì)算機(jī)視覺(jué)庫(kù),提供多種函數(shù)及語(yǔ)言接口,能夠高效實(shí)現(xiàn)計(jì)算機(jī)視覺(jué)算法。利用OpenCV圖像處理庫(kù)RGB模型,將圖像分離為RGB三通道,定位血液、火焰的像素位置,利用直方圖均衡化處理成二值圖像,識(shí)別、分割目標(biāo)像素區(qū)域。其中火焰識(shí)別比較特殊,其顏色由紅色、綠色和藍(lán)色三種顏色組成,單一顏色模型的判據(jù)存在較大的誤差。因此,在RGB判據(jù)基礎(chǔ)上,先轉(zhuǎn)換成HSV模式,并添加HIS約束,條件如下[7]。
// HIS約束條件:
Rule1:R[≥]G[≥]B
Rule2:R[≥]RT
Rule3:S[≥]((255-R)*ST/RT)
其中,Rt是紅色分量閾值,St是飽和度閾值。為提高火焰識(shí)別的準(zhǔn)確率,設(shè)置兩個(gè)滑動(dòng)塊,改變Rt和St閾值的大小,選取最佳閥值。
同樣的方法,在形成的RGB數(shù)據(jù)基礎(chǔ)上,將RGB圖像轉(zhuǎn)換到Y(jié)CrCb顏色空間,利用openCV自帶的橢圓函數(shù)生成膚色橢圓模型,相關(guān)代碼如圖4。皮膚像素點(diǎn)分布近似橢圓形狀,因此根據(jù)CrCb的形狀分布,判斷像素點(diǎn)坐標(biāo)(Cr, Cb)是否在橢圓內(nèi)(包括邊界),是則判斷為皮膚,否則排除[5,7]。
1.5 基于MoSIFT特征的暴恐視頻檢測(cè)
暴恐視頻通常包含大量打斗動(dòng)作畫面,并伴有血液,火焰等特征信息。因此在1.4.1篩選出火焰及血液圖像的基礎(chǔ)上,使用MoSIFT算法進(jìn)行跟蹤提取。MoSIFT算法能夠檢測(cè)空間上具有一定運(yùn)動(dòng)且區(qū)分性強(qiáng)的興趣點(diǎn),運(yùn)動(dòng)強(qiáng)弱由興趣點(diǎn)周圍的光流強(qiáng)度來(lái)衡量,方法如圖5所示[8,10]。輸入相鄰兩幀圖像,通過(guò)高斯差分形成多尺度金字塔;接著找出DoG空間中的局部極值點(diǎn)作為SIFT特征點(diǎn),同時(shí)通過(guò)光流計(jì)算,分析判斷是否存在足夠的運(yùn)動(dòng)信息,提取運(yùn)動(dòng)興趣點(diǎn);最后將SIFT 特征點(diǎn)與光流相結(jié)合,去除與運(yùn)動(dòng)無(wú)關(guān)的興趣點(diǎn),提取最終描述運(yùn)動(dòng)的MoSIFT特征。
2 實(shí)驗(yàn)與分析
為了驗(yàn)證上述識(shí)別方法的實(shí)時(shí)性和準(zhǔn)確性,根據(jù)以上框架及算法,收集正負(fù)樣本視頻共200份,各視頻時(shí)長(zhǎng)介于10-60秒之間,總時(shí)長(zhǎng)112分鐘。由于色情視頻比較敏感,因此以負(fù)樣本為主進(jìn)行反驗(yàn)證。得出各類不良視頻查準(zhǔn)率如表1所示。
另外,在同樣實(shí)驗(yàn)環(huán)境下對(duì)比不同的關(guān)鍵幀提取方法的查準(zhǔn)率及運(yùn)行速度,選取K-Means聚類算法與本文的直方圖+SURF算法進(jìn)行識(shí)別測(cè)試,得出各種類型視頻查準(zhǔn)率如圖6所示。
從圖6中數(shù)據(jù)顯示不同的關(guān)鍵幀提取方法查準(zhǔn)率比較接近,不同類型視頻總的查準(zhǔn)率如表2所示,直方圖+SURF算法為91.1%,K-means算法為91.4%。但由于直方圖+SURF算法不需要反復(fù)迭代,因此檢測(cè)總時(shí)長(zhǎng)優(yōu)于K-means算法,如表2所示。
根據(jù)實(shí)驗(yàn)結(jié)果,對(duì)于不同類型的視頻,總的查準(zhǔn)率接近 91%,說(shuō)明使用的特征匹配得到的結(jié)果均較為穩(wěn)定,也驗(yàn)證了1.1框架算法的魯棒性。另外,總時(shí)長(zhǎng)112分鐘的視頻,56分鐘之內(nèi)完成檢測(cè),檢測(cè)速率接近48F/S,基本上能夠滿足在線視頻檢測(cè)要求。
3 結(jié)束語(yǔ)
從以上實(shí)驗(yàn)結(jié)果可以看出,本文提出的基于融合特征的網(wǎng)絡(luò)不良視頻識(shí)別框架,能夠有效地識(shí)別暴恐等不良視頻,且檢測(cè)速度優(yōu)于基于K-Means的邊界檢測(cè)算法,能夠較好滿足在線檢測(cè)要求;而且利用MFCC特征提前匹配篩查恐怖視頻,減少視頻圖像提取、識(shí)別總量,有效提升視頻檢測(cè)識(shí)別速度,能夠滿足海量視頻的檢測(cè)需求。但從實(shí)驗(yàn)結(jié)果數(shù)據(jù)角度看,還存在進(jìn)一步的提升空間。因此,接下來(lái)將會(huì)繼續(xù)改進(jìn)識(shí)別框架,進(jìn)一步提高視頻的檢測(cè)速度和準(zhǔn)確率。
參考文獻(xiàn)(References):
[1] 齊振國(guó).視頻內(nèi)容識(shí)別算法研究[D].北京交通大學(xué)電子信息工程學(xué)院,2014.
[2] 邵明強(qiáng),徐志京.基于改進(jìn)MFCC特征的語(yǔ)音識(shí)別算法[J].微型機(jī)與應(yīng)用,2017.21:48-50
[3] JamesJuZhang.語(yǔ)音特征參數(shù)MFCC提取過(guò)程詳解[EB/OL].2014-01.https://blog.csdn.net/jojozhangju/article/details/18678861
[4] 蔡軼珩,胡朝陽(yáng),崔益澤.融合顏色信息與特征點(diǎn)的鏡頭邊界檢測(cè)算法[J].計(jì)算機(jī)應(yīng)用,201737.S2:95-98,111
[5] 王辰龍.基于結(jié)構(gòu)和整合的特定敏感視頻識(shí)別技術(shù)[D].北京交通大學(xué),2015:32-35
[6] 張昊骕,朱曉龍,胡新洲,任洪娥.基于SURF和SIFT特征的視頻鏡頭分割算法[J].液晶與顯示,2019.36: 512-516
[7] csdn:https://blog.csdn.net/coldplayplay/article/details/70212483
[8] 米陽(yáng),孫錟鋒,蔣興浩.基于聯(lián)合特征的暴恐視頻檢測(cè)算法[J].信息技術(shù),2016.10:152-155
[9] 陳攀,王泰.一種不良視頻檢測(cè)方法[J].計(jì)算機(jī)工程,2011.12:386-387
[10] 王文詩(shī),黃樟欽,王偉東,田銳.視頻鏡頭分割與關(guān)鍵幀提取算法研究[J].湘潭大學(xué)自然科學(xué)學(xué)報(bào),2018.4:75-78