亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于融合特征的視頻關(guān)鍵幀提取方法①

2019-11-15 07:07:18張曉宇張云華

計算機系統(tǒng)應(yīng)用 2019年11期

張曉宇，張云華

(浙江理工大學(xué) 信息學(xué)院，杭州 310018)

引言

隨著5G 技術(shù)的普及，各種網(wǎng)絡(luò)視頻數(shù)量將會迎來進一步的增長，由此對視頻的分類、檢測、識別也必將被更廣泛的應(yīng)用.當(dāng)前視頻分類等研究通常是對視頻幀的特征進行分析，然而視頻由于自身原因通常會存在大量冗余幀，如果對所有幀進行特征分析，必然會對速度和效率有極大的影響，而用關(guān)鍵幀可以大大降低視頻幀的冗余問題.

當(dāng)前對關(guān)鍵幀的提取方法是基于圖像的傳統(tǒng)手工特征，如紋理特征、形狀特征等，但這種提取方法通常只提取視頻幀的相鄰幀之間的關(guān)系從而忽略了距離較遠(yuǎn)幀的前后運動特征的依賴分析，出現(xiàn)漏幀的現(xiàn)象.因此有學(xué)者采用運動特征來提取關(guān)鍵幀，如通過分析視頻幀的光流場進而根據(jù)運動場的變化提取運動特征，雖然相對顏色等特征，這種方法提高了準(zhǔn)確度但光流場特征的提取通常比較復(fù)雜.本文選取并融合了圖像的顏色特征和圖像目標(biāo)的形狀特征作為傳統(tǒng)手工特征.

在1989年Yann LeCun 初次提出“卷積”的概念，并構(gòu)建應(yīng)用于圖像分類的卷積神經(jīng)網(wǎng)絡(luò)模型LeNet.在ILSVRC-2012 比賽中，Krizhevsky 等人設(shè)計出深度卷積網(wǎng)絡(luò)模型AlexNet[1]，將圖像分類錯誤率從26.2%降到了15.3%，識別準(zhǔn)確度遠(yuǎn)高于其他方法，這促進卷積神經(jīng)網(wǎng)絡(luò)在視覺圖像領(lǐng)域得到快速的發(fā)展，發(fā)展至今，其在圖像方面顯示出了更優(yōu)秀的表現(xiàn).因此本文使用卷積神經(jīng)網(wǎng)絡(luò)提取特征向量作為視頻幀的深度特征，然后選擇合適的圖像相似度度量方法計算圖像間相似性.

基于以上思想，本文主要有以下3 個方面工作：(1)相對以往固定閾值的方法，本文采用自適應(yīng)閾值，動態(tài)獲取視頻的關(guān)鍵幀數(shù)量；(2)分別提取深度特征與手工特征并計算相似度，融合兩者相似度提取關(guān)鍵幀；(3)對比3 種視頻關(guān)鍵幀提取方法實驗數(shù)據(jù)，驗證本文算法的有效性.

1 相關(guān)研究

早期對關(guān)鍵幀的提取大多是基于圖像的底層特征，主要包含圖像顏色特征、圖像紋理特征、圖像形狀特征等[2].對于顏色特征的提取方法通常利用RGB 空間的顏色直方圖、HSV 空間的顏色直方圖、顏色聚合向量等[3]；對紋理特征的提取方法通常利用LBP 方法、馬爾可夫隨機場模型法、灰度共生矩陣等；對形狀特征的方法通常利用幾何參數(shù)法、傅里葉形狀描述法、小波描述子等.現(xiàn)有的特征提取方法大部分都是基于一種或多種特征的融合，但圖像的底層特征通常提取有限，無法獲取圖片高級特征，雖然目前提取的效果不錯，但仍有待提高.

隨著深度網(wǎng)絡(luò)結(jié)果的發(fā)展，人們發(fā)現(xiàn)對于視頻類的圖像分析，用卷積神經(jīng)網(wǎng)絡(luò)通過二維卷積核對視頻幀進行滑動卷積操作，如圖1所示，對視頻幀底層特征進行抽象提取并組合，最終可獲得視頻幀更深層次特征的抽象描述.然而單個二維卷積核不能很好提取視頻幀時間特性，所以文獻[4]提出3D 卷積神經(jīng)網(wǎng)絡(luò)(3D Convolutional Neural Networks)，如圖2所示.3DCNN 對相鄰的3 張視頻幀用3 個二維卷積核卷積，并將卷積的結(jié)果相加，從而提取了某種時間的相關(guān)性，因此對特征的描述更為充分.

圖1 2D 卷積

圖2 3D 卷積

2 基于融合特征的關(guān)鍵幀提取方法

本文的底層手工特征由將顏色直方圖特征和方向梯度直方圖表示，深度特征通過3D 卷積神經(jīng)網(wǎng)絡(luò)提取，最后將深度特征向量相似度和手工特征向量相似度進行加權(quán)融合的方法進行相似度計算，最后得到視頻的關(guān)鍵幀.整體結(jié)構(gòu)流程如圖3所示.

圖3 整體結(jié)構(gòu)圖

2.1 視頻幀手工特征的提取

HSV (Hue，Saturation，Value)[5]顏色空間的概念是Smith AR 于1978年初次提出的，其中H表示色相，S表示飽和度，V表示明度.色相H表示色彩屬性，范圍區(qū)間[0°，360°]，其中0°表示紅色，120°表示綠色，240°表示藍(lán)色[6]，整體呈為環(huán)形，色調(diào)隨著角度的變化而變化.飽和度S表示顏色的深淺，取值區(qū)間為0%～100%，一般認(rèn)為S值越高，顏色就越深，S取0 時為灰度圖像.明度V表示色彩的明暗程度，范圍區(qū)間也是0%～100%，隨V值的增大，色彩逐漸變暗.HSV 顏色空間模型是RGB 顏色空間的另一種表示方式，但HSV 顏色空間模型相對來說更為直觀，所以實際應(yīng)用中更為廣泛.視頻幀為RGB 表示，本文要從視頻幀中提取顏色特征需要將視頻幀轉(zhuǎn)換為HSV 表示，如圖4所示.

圖4 RGB2HSV 示意圖

根據(jù)式(1)對H、S、V三通道特征量化構(gòu)造特征矢量

其中，Ls、LV分別為S通道和V通道的量化因子，量化比例為16：4：4.通過HSV 顏色空間的3 個通道顏色特征，可以得到每個通道上像素的分布，從而獲取到每個像素值對應(yīng)的光譜信息，將顏色空間進行顏色量化，得到視頻幀的量化顏色直方圖，如式(2)表示：

其中，Ni，j，k表示滿足圖像中H分量上第i個值、S分量上第j個值以及V分量上第k個值的像素點個數(shù)，M表示圖像像素點總個數(shù).

定義Hn(I) 和Hn+1(I) 分別是視頻第n幀和第n+1 幀圖像的顏色直方圖，則兩幀圖像之間的相似度SHSV可以用兩者之間的余弦距離D(Hn，Hn+1)近似表示，余弦計算公式如式(3)所示.余弦距離范圍是0～1，值越小，則表示兩幀圖像越相似，反之表示差異越大.

顏色直方圖不關(guān)心色彩所處的位置，對視頻幀中由于光照變化帶來的陰影干擾，抖動等有很好的區(qū)分去除能力，同時顏色直方圖對背景的干擾也有很好的抑制作用，因此可以用來增強關(guān)鍵幀提取的抗噪性.

本文采用方向梯度直方圖HOG (Histogram of Oriented Gradient)[7]來表征視頻幀的目標(biāo)對象形狀特征.方向梯度直方圖的重要思想是像素梯度或邊緣的方向密度分布能夠很好地表示圖片中的目標(biāo)形狀.對梯度直方圖的計算首先對圖像進行標(biāo)準(zhǔn)化處理，之后用梯度算子[-1，0，1]及其轉(zhuǎn)秩對視頻幀分別進行卷積運算[8]，從而得到x方向和y方向的梯度分量xGradient與yGradient.最后分別用式(4)、式(5)計算出像素點的梯度大小和方向.

式中，H(x，y)，Gx(x，y)，Gy(x，y)分別為輸入的視頻幀在像素點(x，y)處的像素值、水平方向梯度、垂直方向梯度[9].像素點(x，y)處的梯度幅值和梯度方向分用式(6)、式(7)所示：

將視頻幀進一步劃分為若干單元塊，對單元塊內(nèi)若干cell 中每個像素點根據(jù)梯度方向做統(tǒng)計分析，得到以梯度方向為坐標(biāo)軸的直方圖[9]，然后對cell 組成塊并進行塊內(nèi)歸一化，歸一化公式如式(8)所示.將所有塊的特征向量組合起來即可得到目標(biāo)對象的特征向量.

式中，V表示包含給定塊的統(tǒng)計直方圖信息的未歸一化向量，δ為趨于零的常數(shù)，‖V‖2為v的2-范數(shù).假定第i幀整體特征向量用Vi表示，第i+1 幀用Vi+1表示，則兩幀的相似度SHOG可根據(jù)向量夾角余弦值表示，值越接近1 則方向越吻合，兩幀的相似度也越高，余弦值的計算如式(9)所示.

2.2 視頻幀深度特征的提取

3D-CNN 結(jié)構(gòu)由一個硬連接線層、3 個卷積層、2 個下采樣層，1 個全連接層組成[4].本文提出用3DCNN 來提取視頻幀的深度特征，計算其相似度，并與傳統(tǒng)手工提取特征計算的相似度進行加權(quán)融合，進而根據(jù)融合相似度提取出視頻的關(guān)鍵幀.對于深度特征，首先取視頻中連續(xù)幀作為3D-CNN 的輸入，經(jīng)過第一層硬連線(hardwired)層編碼獲得視頻幀的灰度、梯度以及光流特征信息，其中梯度描述視頻幀的邊緣分布，光流描述目標(biāo)的運動趨向，然后將梯度信息和光流信息作為下一層卷積層的輸入進行后續(xù)識別處理.在像素值(x，y)處，提取的特征單位值用Vijxyz表示，i表示層數(shù)，j表示特征圖序號，單位值計算方法如式(10)所示.

其中，bij表示特征圖的偏置值，Wijnpqr是連接第n個特征圖的核第(p，q，r) 的值，Pi和Qi表示核的高和寬，Ri表示卷積核在時間維度的大小.

通過多次卷積核卷積和下采樣后，3D-CNN 將輸入的連續(xù)視頻幀轉(zhuǎn)換為特征向量表示，這里，我們?nèi)サ粼W(wǎng)絡(luò)結(jié)構(gòu)中最后的全連接層，選擇最后一個卷積層的feature map 作為要提取的n幀特征向量Gdf.

由于深度卷積采樣到的特征具有高維度的特性，因此本文使用哈希 (Hashing) 算法處理圖像的深度特征.哈希算法將高維數(shù)據(jù)編碼為一組二進制代碼，并能維持圖像或視頻高維數(shù)據(jù)的元相似性[10].本文在卷積層后加入了Hash 層，用Sigmoid 函數(shù)作為卷積網(wǎng)絡(luò)的激活函數(shù)[11]，將特征值限制在0～1 之間，構(gòu)造特征的Hash 碼，最后通過Hash 碼計算視頻幀的Hamming 距離，Hamming 距離越小則表示視頻幀的相似度Sdf就越高.假設(shè)兩幀的Hash 碼分別為α、β，則Hamming 距離D定義如式(11)所示.

2.3 基于深度特征與手工特征融合的關(guān)鍵幀提取

基于傳統(tǒng)手工特征和深度特征的關(guān)鍵幀提取分為兩步，首先使用傳統(tǒng)手工方法提取出視頻幀的手工特征，然后用3D-CNN 提取視頻的深度特征，由于兩者特征維度的不同，所以分別計算兩者的相似度.首先根據(jù)2.1 節(jié)計算手工特征顏色直方圖和方向梯度直方圖特征的余弦距離得到傳統(tǒng)手工特征的相似度SHSV和SHOG，然后根據(jù)2.2 節(jié)通過哈希算法計算得到深度特征的哈希碼，并通過Hamming 距離得到深度特征的相似度Sdf，最后融合兩種特征的相似度作為提取視頻關(guān)鍵幀的依據(jù).

特征融合方法分為拼接融合、加權(quán)融合、基于系數(shù)特征表示理論的特征融合、基于貝葉斯理論融合等.由于手工特征和深度特征有維度差異，本文選擇加權(quán)融合方式，將兩者相似度進行融合.首先對兩者相似度根據(jù)權(quán)重大小做加權(quán)處理，然后線性融合傳統(tǒng)特征和深度特征相似度，避免了手工特征與深度特征的維度差異，最后通過融合后的相似度根據(jù)閾值提取關(guān)鍵幀.相似度S計算方法如式(12)所示：

式中，α、μ、β分別為手工特征和深度特征的權(quán)重因子，比例采用1∶1∶2.在相似度計算時為了使關(guān)鍵幀的數(shù)目根據(jù)視頻內(nèi)容自動調(diào)整閾值，本文使用自適應(yīng)閾值的方法設(shè)置相似度的閾值.

式(13)中，ε為相似度閾值，n為總的視頻幀數(shù)量，fi表示當(dāng)前幀，τ為域值的自適應(yīng)調(diào)節(jié)因子.本文總體算法步驟如下所示：

Begin將視頻分割為視頻幀集F {f1，f2，f3，…，fn}；定義空的關(guān)鍵幀集合KF{}；輸入融合后的視頻級相似度集S{s1，s2，…，sn}；For i=1：n;If (相似度S＞閾值ε) Then 將fi+1 放入關(guān)鍵幀集KF{}Else i++；End if End for i輸出采集到的視頻關(guān)鍵幀集合KF{kf1，kf2，…}End

3 實驗及分析

在本節(jié)中，為驗證本文算法的有效性，本文使用Xshell遠(yuǎn)程工具在服務(wù)器上搭建PyTorch深度學(xué)習(xí)框架，使用python3.6進行實驗及其相關(guān)分析.為了度量不同方法的實驗結(jié)果，本文分別使用查準(zhǔn)率、查全率、F1度量來評估算法的性能[3]，公式如式(14)所示.

其中，TP表示真正例，F(xiàn)N表示假反例，F(xiàn)P表示假正例，TN表示真反例，F(xiàn)1是基于查準(zhǔn)率和查全率的調(diào)和平均分?jǐn)?shù).

本文實驗視頻集從公開視頻項目Open Video Project[12]網(wǎng)站上下載得到，下載的視頻集共分為5 類，其中記錄片、教育、歷史、公共服務(wù)各選4 個視頻，并隨機從Youtube 網(wǎng)站另外選擇4 個視頻，共20 個視頻構(gòu)成實驗數(shù)據(jù)集.為驗證算法的有效性，本文選擇兩種常用方法進行對比實驗，一種是基于幀間差分[13]的方法，一種是基于感知哈希算法[14]的方法.實驗從5 類視頻集中各選擇一個代表視頻進行實驗，3 種算法提取的結(jié)果統(tǒng)計情況如表1所示，其中Video3 的可視化效果如圖5-圖7所示.

圖5 基于幀差局部最大值提取結(jié)果

圖6 基于感知Hash 匹配提取結(jié)果

圖7 本文算法提取結(jié)果

Video3 是從長歷史片中截取的一段，描述了生態(tài)學(xué)家研究云對麋鹿覓食的影響.從圖5-圖7可以看出基于感知哈希匹配相似度的方法提取效果最差，不僅存在冗余幀，而且存在大量漏檢幀，基于幀差法的提取結(jié)果與本文結(jié)果數(shù)量相似，但本文提取的結(jié)果比幀差法提取結(jié)果更豐富，漏檢幀更少.

表1中A表示基于幀差法提取算法，B表示基于感知Hash 相似度匹配算法，C表示本文算法.由表中數(shù)據(jù)可以看出3 種算法中，基于感知Hash 匹配相似度的算法F1值普遍偏小，基于幀差法的F1值與本文算法得到的F1值相比，本文算法在Video5 視頻類型上與幀差提取算法有一定差距，這是因為Video5 視頻整體色彩變化不明顯，所以本文的手工提取特征部分提取效果稍差.但從整體來看，本文算法比幀差法和感知Hash 匹配法提取效果更好，準(zhǔn)確率更高，冗余度更小，提取結(jié)果可以更全面的描述視頻內(nèi)容.

表1 對比實驗統(tǒng)計結(jié)果

4 結(jié)束語

本文提出基于融合特征的視頻關(guān)鍵幀提取的方法，充分利用了傳統(tǒng)手工特征和深度特征的特點及優(yōu)勢.將提取到的視頻圖像的傳統(tǒng)手工特征與基于深度神經(jīng)網(wǎng)絡(luò)提取的深度特征計算得到相似度并進行融合，以自適應(yīng)閾值作為門限提取關(guān)鍵幀.通過對公共視頻集進行實驗，實驗結(jié)果表明對關(guān)鍵幀提取有更為準(zhǔn)確和全面的提高，與傳統(tǒng)方式提取的方法相比，本文方法提取的特征更豐富，提高了視頻關(guān)鍵幀的準(zhǔn)確度并在冗余度方面也有良好的表現(xiàn)，對視頻的分析研究具有重要的作用.