姜家皓,張易誠,康宇哲,沈 煒
(1.浙江理工大學信息科學與工程學院,杭州 浙江 310018;2.浙江理工大學計算機科學與技術(shù)學院)
近年來,隨著數(shù)字化技術(shù)的迅速發(fā)展,視頻信息在版權(quán)保護問題日益嚴重,因此設計一種能夠評估視頻相似度并定位同源片段的方法有重要意義。目前的同源視頻檢測方法大致分為三類:①基于視頻全局特征的相似度計算;②基于視頻幀級特征的檢測;③基于視頻時空特征的檢測。由于視頻存在裁剪、融合、合并等規(guī)避侵權(quán)檢測算法的操作,而基于視頻幀內(nèi)容的同源視頻檢測被認為是解決這一難題的有效方法,因此本課題利用Vision Transformer[1]模型提取語義信息的特點,提出了基于ViT 的具有細粒度的片段級同源視頻檢測模型。
同源視頻片段檢測[3]的目標是在目標視頻中找到一個或多個查詢視頻片段,并定位同源片段在目標視頻與查詢視頻的所在位置。
本文視頻相似性評估模型的主要架構(gòu)如圖1 所示,主要包括四個部分:數(shù)據(jù)處理層,將視頻解碼抽幀并做圖像增強,作為模型的輸入;幀間時空特征提取層,提取視頻幀的圖像信息,并在時間維度做注意力操作,獲取視頻時空特征;相似度計算層,將視頻對的視頻時空特征序列做向量點乘得到幀間相似度矩陣,然后對矩陣進行倒角相似度計算,得出兩視頻相似度;同源片段定位層,若相似度大于閾值,則利用基于圖的視頻重復片段定位算法在視頻相似度矩陣中定位同源片段。
圖1 模型基本框架
本文數(shù)據(jù)集共24類視頻,從數(shù)據(jù)集選取視頻組成視頻對作為輸入,每個視頻對由錨點視頻、同源視頻與其他23 類視頻的非同源視頻組成。首先將數(shù)據(jù)集中的視頻進行解碼并統(tǒng)一以200ms采樣一次的速度進行抽幀,彌補了數(shù)據(jù)集視頻在FPS上的差異,將視頻分割成視頻片段。其次,將每幀圖像的長和高變換為224 像素。最后,借鑒SimCLR[10]中提出的多種圖像增強方法的組合可以在視覺任務中發(fā)揮出更好的作用,本文采用隨機裁剪與顏色失真的組合做數(shù)據(jù)增強,效果如圖2所示。
圖2 圖像增強
ViT 具有高效性和可拓展性,且其不需要大量的圖像先驗知識,在大規(guī)模數(shù)據(jù)集預訓練后,圖像表征就可以取得很好的效果。這些特性證明了ViT是視覺領域通用的骨干網(wǎng)絡。因此,本文采用ViT 作為特征提取器。其中,采用Divided space-time attention[2]架構(gòu),如圖3。首先,在時間維度做一維的自注意力操作,學習幀間的時間特征,從而捕捉視頻的內(nèi)部相關(guān)性。其次,利用空間二維自注意力學習圖像的空間特征。以此獲取時空特征向量,不僅將深度學習從圖片分類拓展到視頻分類,還加速了計算,取得了更好的分類能力。相較于只針對時間或空間維度的注意力操作具有更好的提取視頻語義信息的能力,相較于同時做時間、空間維度的注意力操作具有降維、減少參數(shù)的效果。
將提取的兩個視頻時空特征向量Mij與Mkl做點積得到幀間相似度矩陣Sim,如公式⑴:
并使用倒角相似度算法[6]計算幀間相似度CSf(Mij,Mkl),詳見公式⑵。其中,N定義為時空特征向量的編碼維度,本文參考ViT,設置為768。
這個過程利用區(qū)域向量捕獲了空間維度的信息,有利于模型學習細粒度視頻信息,幀間視頻相似度矩陣如圖4所示。其中視頻相似度矩陣橫縱軸的單位均為幀。坐標(a,b)對應的數(shù)值表示Mij的第a 幀與Mkl的第b 幀的相似度,相似度范圍[-1~1],相似度越大,表示這兩幀的時空向量相似程度越高,圖4 中相似度越大亮度越高。
借鑒對比學習思想,相似視頻之間的特征信息需要盡可能的接近,其視頻相似度高,不相似視頻之間的特征信息需要盡可能的原理,其相似度低[11]。因此,本文使用N-pair-ms loss[8]作為損失函數(shù),利用數(shù)據(jù)之間的結(jié)構(gòu)信息來學習到更有區(qū)別性的表示,利用錨點視頻與其他多個不同源的負樣本之間的關(guān)系,加快模型的收斂速度。
N-pair-ms loss 的每個訓練樣本有N+1 元組,即MT,M+,,其中M+是MT的正樣本是N-1 個負樣本。N+1 元組不會提前構(gòu)建好,而是在訓練過程中從一個batch中構(gòu)建出來。公式如下:
此外,本文定義了一個正則化函數(shù),該函數(shù)將視頻相似度規(guī)范在范圍[-1,1]內(nèi),抑制相似度過高值。為了計算正則化損失,只需將剪切范圍之外的輸出值累加,公式如下:
因此,總loss方程如下:
其中,r是超參數(shù),用來調(diào)整相似性正則化對總損失的占比,本文設置為0.5。
在模型驗證階段,若視頻對的相似度大于閾值,則認為其具有同源視頻片段,利用基于圖的Temporal Network[9]算法進行同源視頻片段定位。此方法通過部分對齊視頻內(nèi)容之間的連接,將部分對齊問題轉(zhuǎn)換為網(wǎng)絡流問題:此網(wǎng)絡由視頻A 的一組幀與視頻B 的一組幀的相似度形成,搜索到承載最大容量(相似度)的最長路徑即為視頻A與B之間的同源片段。
⑴ 將Mb={b1,...,blen(Mb)}與Md={d1,...,dlen(Md)}分別表示為查詢視頻與參考視頻的時空特征向量,其中bi?[0,len(Mb)]與di?[0,len(Md)]分別為查詢視頻與參考視頻的一系列幀集合。
⑵圖定義為G=(N,E),其中N和E分別是節(jié)點和邊的集合。
⑷邊定義為E={eij},其中eij表示從相似度最高的數(shù)量為K 的集合中連接列表Ni到Nj的任意兩個節(jié)點的加權(quán)有向邊。
⑴采用CC_WEB_VIDEO[4]數(shù)據(jù)集作為測試數(shù)據(jù)集,其是由香港大學和卡內(nèi)基梅隆大學從視頻網(wǎng)站YouTube和視頻搜索引擎Google Video、Yahoo Video中收集的近似重復網(wǎng)絡視頻數(shù)據(jù)集。總共包含了24 個查詢集和12790個視頻。
⑵采用VCDB[5]數(shù)據(jù)集作為同源視頻定位的測試數(shù)據(jù)集,由28 個查詢集和528 個視頻組成,且具有9236 個同源視頻片段對的精確時間位置的手動注釋,是視頻部分拷貝檢測的大規(guī)模數(shù)據(jù)集。
此模型的好壞以以下方式對結(jié)果進行評價:
⑴加權(quán)平均準確率(weighted-mAP)可以反映系統(tǒng)在檢索相關(guān)視頻的性能指標,同時減輕數(shù)據(jù)不平衡帶來的影響。在計算查準率Pweighted和召回率Rweighted時,需要各個類別的查準率Pi和召回率Ri乘以該類在總樣本中的占比來求和。
其中,i 代表CC_WEB_VIDEO 的類別編號,則 |L|表示類別數(shù)量。TPi表示相似視頻對且被模型判定為相似視頻對的樣本數(shù),F(xiàn)Pi表示非相似視頻對且被模型判定為相似視頻對的樣本數(shù),F(xiàn)Ni表示相似視頻對且被模型判定為非相似視頻對的樣本數(shù),wi表示第i類別在總樣本中的占比。
⑵ F1-Scores[7]引入幀級查準率(FP)、幀級召回率(FR)以及最佳F1 值作為評價標準,定義如公式⑺,其中FA 表示檢測的所有幀數(shù),F(xiàn)C 表示檢索的正確幀數(shù),F(xiàn)M表示數(shù)據(jù)集中標注的同源視頻片段幀數(shù)。
⑴同源視頻相似度評估模型
本文比較了不同特征提取方式、損失函數(shù)相互組合的模型在訓練時的表現(xiàn)效果,結(jié)果如表1 所示。其中,ResNet、Vision Transformer 為特征提取方式,Npair-ms表示N 對損失函數(shù)、triplets表示三聯(lián)體損失函數(shù)。由實驗數(shù)據(jù)可知,相比三聯(lián)體損失函數(shù),N對損失函數(shù)能夠在一定程度上提高模型準確率。相比ResNet 特征提取器,ViT 能夠更好更準確的學習視頻時空向量的語義信息,且向量維度更小,計算量更小。
表1 對比模型mAP值
對照實驗中,模型Vit+N-pair-ms 在對比實驗中準確率最高,基于該模型,本文進行了變體測試。變體測試主要測試Divided space-time attention 結(jié)構(gòu)對模型學習的幫助程度,實驗證明,在特征提取層中使用時間維度的自注意力機制在一定程度上可以提高模型準確率,增強特征提取層的語義提取效果。
⑵同源片段定位方法評估
HV 表示霍夫投票算法、DP 表示動態(tài)規(guī)劃算法、DTW 表示動態(tài)時間扭曲算法、TN 表示基于圖的時域網(wǎng)絡算法。
表2 的對比試驗顯示,TN 算法可以較好的F1 值,同源片段定位效果如圖5所示。
表2 不同同源片段定位方法F1值
圖5 視頻同源片段定位效果圖
本文提出了基于ViT 的同源視頻檢測模型,并將其應用于同源片段檢測與定位任務。該模型借鑒對比學習思想,將一對同源視頻及N 對非同源視頻組成視頻對作為輸入,通過其時空特征向量的相似度進行二分類預測。若預測結(jié)果高于閾值則認為視頻對是同源視頻,對其幀級相似度矩陣作基于圖的同源片段定位;若預測結(jié)果低于閾值則認為視頻對不是同源視頻。
基于視頻檢索數(shù)據(jù)集的實驗證明,本文提出的同源視頻相似度評估模型使用Transformers 進行時空特征提取,并在時間維度上做注意力處理,學習視頻幀之間的時間維度信息。CC_WEB_VIDEO 數(shù)據(jù)集的weight-mAP能夠達到0.9223,高于其他對照組。此外,通過基于圖的視頻重復片段定位算法定位同源片段,從而實現(xiàn)同源性檢測,于VCDB 數(shù)據(jù)集上F1-Scores達到0.7459,高于benchmark的0.6566。