梁雪霞 唐振華,2*
1(廣西大學(xué)計算機與電子信息學(xué)院 廣西 南寧 530004)2(廣西多媒體通信與網(wǎng)絡(luò)技術(shù)重點實驗室 廣西 南寧 530004)
自從步入信息化時代,隨著各種數(shù)字移動設(shè)備如手機、電腦、MP4等的不斷涌現(xiàn),人們可以隨時觀看各種數(shù)字圖像及視頻等媒體內(nèi)容。一段原始視頻的尺寸通常是固定的,但不同終端設(shè)備的屏幕尺寸和寬高比例卻呈現(xiàn)多樣性。當(dāng)用不同的設(shè)備播放同一視頻的時候,就需要改變視頻的寬高比例以使該視頻能與設(shè)備屏幕的尺寸相吻合,這種技術(shù)稱之為視頻重定向技術(shù)。
視頻重定向的目的是在改變視頻內(nèi)容的寬高比和分辨率以適應(yīng)目標(biāo)顯示設(shè)備的同時,保持盡可能多的重要內(nèi)容并避免可見的偽影,算法還應(yīng)高效。傳統(tǒng)的幾種方法都沒有考慮視頻本身內(nèi)容,各自有自己的缺陷:均勻縮放方法采用線性插值法均勻地刪除或增加視頻幀中的像素,當(dāng)視頻中的重要對象比較單一時,影響內(nèi)容的可讀性;邊緣填充方法雖然保留了原始視頻內(nèi)容的寬高比例,但造成有限屏幕的浪費;而簡單的裁剪法則往往容易造成視頻重要信息的丟失。為了克服這些問題,有學(xué)者提出了基于內(nèi)容的視頻重定向(Video Retargeting)方法[1-25]?;趦?nèi)容的重定向方法著重考慮保持重要內(nèi)容的同時保持時間連貫性,此種方法取得的視覺效果顯著,因此備受關(guān)注。
本文提出了一種基于運動歷史圖的網(wǎng)格變形方法進行視頻大小的調(diào)整。首先通過估計幀間攝像機的運動,將各視頻對齊在相機坐標(biāo)下,從而獲得全局運動歷史圖;然后利用運動歷史圖來順序指導(dǎo)單幀圖像形變,將單幀圖像的放縮問題轉(zhuǎn)換為網(wǎng)格變形問題,通過構(gòu)造一系列約束條件在網(wǎng)格上建立保持整體形狀的最優(yōu)化模型,實現(xiàn)背景的時間連續(xù)性的同時又有效地保持運動對象的形狀。應(yīng)用歷史圖順序指導(dǎo)圖像變形,節(jié)省內(nèi)存空間,提高了優(yōu)化效率,能夠?qū)崟r處理視頻流。
與文獻(xiàn)[19]不同的是,本文的重要度圖通過取運動歷史圖和當(dāng)前幀顯著區(qū)域的最大值將更多的重要內(nèi)容包含其中;在對網(wǎng)格進行變形時,更注重保持重要度高的網(wǎng)格的整體比例與全局方向;文獻(xiàn)[19]通過對不同的坐標(biāo)頂點賦予不同的時間權(quán)重來調(diào)節(jié)背景與運動對象,但當(dāng)相鄰兩幀的時間權(quán)重不一樣時極易產(chǎn)生抖動。本文通過將視頻幀對齊在公共的相機坐標(biāo)下,因此無須再對背景與運動對象施加不同的時間連貫性約束;同時在時間軸上增加了對應(yīng)頂點的約束,進一步減少了抖動。
傳統(tǒng)的幾種方法由于沒有注重視頻內(nèi)容的差異,導(dǎo)致大多數(shù)情況下用戶觀感不佳,因此研究人員便把注意力放在了基于內(nèi)容的重定向方法上。目前基于內(nèi)容的視頻重定向方法主要分為以下4類:基于智能裁剪的方法、基于細(xì)縫裁剪(Seam Carving,SC)的方法、基于網(wǎng)格非均勻映射的方法,以及基于多算子的方法。
基于智能裁剪的方法首先檢測出視頻內(nèi)容的重要區(qū)域,然后裁去重要內(nèi)容以外的區(qū)域,從而獲得多個與目標(biāo)屏幕寬高比一致的視頻幀,然后將它們等比縮放到目標(biāo)屏幕上。具有代表性的工作有文獻(xiàn)[3-5]?;谥悄懿眉舻姆椒词贡4媪藞D像的主要內(nèi)容,但仍造成內(nèi)容丟失,尤其是當(dāng)重要對象占比較大時這種失真則更為嚴(yán)重。另外,對于運動的視頻來說,為了保證重要對象盡可能地顯示在鏡頭里,裁剪窗口需要頻繁移動,這樣會給人以不佳的觀看感受?;赟C的方法主要通過重復(fù)地從圖像中插入或者刪除重要度值較低的細(xì)縫來達(dá)到視頻重定向的目的。具有代表性的工作有文獻(xiàn)[6-11]。但當(dāng)視頻中有快速運動的物體存在時,采取基于SC的方法實現(xiàn)重定向容易把視頻中快速運動的重要物體一并裁掉,造成空間內(nèi)容的不連續(xù)現(xiàn)象?;诙嗨阕拥姆椒ň褪菓?yīng)用兩種或者兩種以上的操作符對視頻進行重定向處理,具有代表性的工作有文獻(xiàn)[12-15]?;诙嗨阕拥姆椒m然承襲了每種算子的優(yōu)點,但其缺點也一并體現(xiàn)在重定向結(jié)果上,且當(dāng)選取的多種算子越復(fù)雜時,相應(yīng)的算法時間復(fù)雜度也越高。
基于網(wǎng)格變形的方法首先把視頻幀劃分為多個規(guī)則或者不規(guī)則網(wǎng)格,在此基礎(chǔ)上根據(jù)網(wǎng)格的重要程度及相關(guān)的約束對網(wǎng)格進行映射。具有代表性的工作有:Wolf等[16]提出了一種基于網(wǎng)格的非線性變形方法,該方法首先應(yīng)用空間梯度值、人臉檢測和基于塊的運動檢測三部分為視頻中的每個像素分配重要度值,然后遵循盡量把變形部分放到非重要區(qū)域的原則進行非均勻映射。但是該方法得到的重定向結(jié)果一般,對處理具有明顯運動的視頻結(jié)果存在有內(nèi)容的不連續(xù)現(xiàn)象。Wang等[17]在文獻(xiàn)[18]的基礎(chǔ)上提出了一個基于運動信息的視頻重定向方法,該方法首先通過估計相鄰幀之間的相機運動,將視頻幀對齊在一個同相機坐標(biāo)下,其目的是為了對鏡頭運動做出補償。然后同時求解所有視頻幀在空間和時間的約束下的最小化函數(shù)。該方法的結(jié)果視頻能較好地保持時間連貫性,但由于運算量大,無法實時處理視頻流。Niu等[19]在Wang等[17]的基礎(chǔ)上進一步提出一種基于變形傳播的順序處理視頻幀的方法,該方法應(yīng)用運動歷史圖對背景和運動對象施加不同的約束。該方法能夠?qū)崿F(xiàn)對視頻流的實時處理,但是一旦相鄰兩幀的對應(yīng)頂點時間約束力度不同時,容易引起抖動。Lin等[20]提出了一個保持重要目標(biāo)物體形狀的重定向方法。首先應(yīng)用基于層次圖的視頻分割方法對輸入視頻進行分割,獲得了分割的目標(biāo)對象和像素顯著值之后,對每個目標(biāo)對象進行非均勻映射。該方法能較好地保持主要對象重定向前后的結(jié)構(gòu)比例不變。Li等[21]將視頻分成時空網(wǎng)格流,利用網(wǎng)格流來選擇關(guān)鍵幀,然后通過二次規(guī)劃來調(diào)整這些關(guān)鍵幀的大小,剩下的非關(guān)鍵幀根據(jù)最近的重定向關(guān)鍵幀的內(nèi)容,通過網(wǎng)格插值調(diào)整大小。該方法能較好地保護視頻主要對象的時空一致性,但當(dāng)選擇的關(guān)鍵幀數(shù)量越多時,該方法的時間復(fù)雜度也隨之越高。Yan等[22]在文獻(xiàn)[23]的基礎(chǔ)上進行了拓展,將基于軸對稱的圖像重定向應(yīng)用到視頻上,并利用運動矢量來約束相鄰幀之間的運動物體以保持時間連貫性。但由于該方法網(wǎng)格劃分的特殊性,重定向視頻會產(chǎn)生空間內(nèi)容的不連續(xù)現(xiàn)象。Lee等[24]提出了一種最優(yōu)化時空網(wǎng)格(SmartGrid)的方法,通過SmartGrid來保持連續(xù)幀中相同內(nèi)容的時空一致性。該方法對視頻重定向到大屏幕時具有顯著效果,但當(dāng)視頻重定向到小屏幕上時,該方法的取得效果不佳。
圖1為本文方法的整體框架流程。本文提出的視頻重定向方法主要步驟如下:
步驟1采用基于上下文顯著性特征的方法,計算得到當(dāng)前幀的顯著度圖;同時利用視頻分割的方法計算得到當(dāng)前幀運動顯著性區(qū)域。
步驟2運用特征點匹配將視頻幀在時間軸上對齊,利用視頻對象在幀間運動的聯(lián)系,獲得其對應(yīng)的運動歷史圖。
步驟3將顯著度圖與運動歷史圖進行融合得到當(dāng)前幀的重要度圖。
步驟4根據(jù)視頻幀各像素點的重要程度,使用基于網(wǎng)格非均勻映射的方法對當(dāng)前幀進行變形并獲得其重定向結(jié)果。
步驟5重復(fù)步驟1-步驟4直至最后完成全部視頻幀重定向。
圖1 本文工作流程
由于圖像的重要度圖在很大程度上決定了每個像素的變形,因此需要對兩個連續(xù)幀的重要度圖添加時間連貫性以確保每兩個連續(xù)幀具有相似的重要度圖。因此,本文方法通過將圖像顯著度圖與運動歷史圖進行對比融合得到重要度圖,以此作為基準(zhǔn)來指導(dǎo)單幀圖像的順序變形,從而有效減少視頻抖動并提高求解效率。
2.1.1圖像顯著度圖
本文參考文獻(xiàn)[25]的方法,采用基于上下文顯著性特征的方法計算得到每幀圖像的顯著度區(qū)域。該方法的計算步驟主要有以下三步:首先初步確定顯著性像素:將圖像切分成多個塊,將像素所對應(yīng)的塊與所有的其他塊在Lab顏色空間做對比,如果該塊與其他塊差距大,則說明是顯著性特征。然后增強對比度:按照上述步驟得出像素單個尺度的顯著度值之后,再在多個尺度下計算顯著度值,此時像素顯著度值為它們的平均值。最后更正顯著度結(jié)果:先獲得圖中最感興趣的范圍并保持該部分像素值不變,對不在此范圍里的像素賦予新的顯著度值,該值由與它距離最短的感興趣像素之間的歐幾里得距離加權(quán)得到。由于某些高層次的信息通常為觀看視頻時不可忽略的一部分,本文選用的高層次信息為人臉,因此本文最終的顯著度圖It融合了用上述步驟得到的顯著度圖Is與人臉信息If:
It(i,j)=max(Is(i,j),If(i,j))
(1)
圖像顯著度圖示例如圖2所示。
(a) 原始圖像 (b) 顯著度圖圖2 圖像顯著度圖
2.1.2運動歷史圖
為了獲得運動歷史圖,必須先將視頻幀在時間軸上對齊,建立全局運動模型。本文通過計算相鄰兩幀之間的相機運動將視頻幀在時間軸上對齊,這樣做的目的在于將視頻中相機運動、對象運動與背景有效分離出來。本文使用幀間特征點匹配的方法來衡量相機運動,類似于文獻(xiàn)[17],首先使用SIFT算法檢測每個幀的特征點,然后使用RANSAC算法進一步提取相鄰幀之間正確的特征對應(yīng)關(guān)系,并估計幀間縮放和平移參數(shù),最后得到表示相鄰幀之間的對應(yīng)特征匹配點關(guān)系的3×3變換矩陣Ht→t-1:
(2)
(a) Stefan序列 (b) Bus序列圖3 視頻序列的全局運動模型
建立全局運動模型后,采用文獻(xiàn)[26]來計算得到整個視頻序列的運動顯著性區(qū)域MS,與光流法相比,該方法能消除更多不必要的背景。計算步驟如下:首先,將輸入視頻序列過度分割成超像素,對于每個超像素點提取兩種類型的邊緣:幀內(nèi)空間靜態(tài)邊緣和幀間運動邊緣。然后定義圖像上兩個超像素之間的最短路徑為測地線距離并采用該指標(biāo)計算幀內(nèi)每個超像素的目標(biāo)概率。一旦檢測到高時空邊緣值所包圍的區(qū)域,則認(rèn)為該區(qū)域是運動顯著性區(qū)域,其值為到幀邊界的最短測地線距離。
(3)
a b c d e圖4 當(dāng)k=2時的一個實例
2.1.3圖像融合
(4)
2.2.1空間連貫性約束
由于重要對象的比例、方向及形狀都在極大程度上影響人們對它的識別,因此本節(jié)主要通過定義圖像在這三個方面的變形能量約束項將變形盡量隱藏在非重要區(qū)域,以獲得最小視覺變形結(jié)果。圖5為單一網(wǎng)格Gij形變的示意說明圖。
圖5 單一網(wǎng)格Gij形變示意說明圖
(1) 比例變形。當(dāng)圖像的寬高比例發(fā)生變化時,為了使用戶感興趣的區(qū)域不發(fā)生拉伸變形,必須盡量保持它的原始結(jié)構(gòu)比例。這就要求在網(wǎng)格形變的過程中,保證覆蓋重要區(qū)域的網(wǎng)格盡量不改變長寬比例。因此,定義如下公式度量單一網(wǎng)格Gij比例變形:
(5)
式中:St(Gij)為網(wǎng)格Gij內(nèi)所有像素的重要度值的平方和。
(2) 尺度變形。在圖像縮放過程中,除了重要對象的比例變形之外,還應(yīng)關(guān)注重要對象在縮放前后的尺度變化。為了避免視覺尺度變形,使得重要對象在重定向前后能較好地保持整體形狀,定義如下公式度量單一網(wǎng)格Gij尺度變形:
(6)
(3) 方向變形。由于一些重要對象往往占據(jù)多個相連的四邊形網(wǎng)格,如果方向發(fā)生變化,則全局結(jié)構(gòu)信息也會隨之改變。為了保持結(jié)果圖像的全局結(jié)構(gòu),必須盡量減少網(wǎng)格線的彎曲,即網(wǎng)格在豎直方向和水平方向的變形能夠最小。因此,定義如下公式度量單一網(wǎng)格Gij方向變形:
(7)
2.2.2時間連貫性約束
為了保持時間連貫性,本文方法鼓勵當(dāng)前幀的變形盡可能與前一幀保持一致。由于運動歷史圖已經(jīng)包含了當(dāng)前窗口運動目標(biāo)的所有運動信息,因此它在時間上的變化是平穩(wěn)的,這就保證了視頻幀的變形結(jié)果在時間上是連續(xù)的。這樣就可以把重定向問題轉(zhuǎn)換為順序求解單幀圖像的問題,提高求解效率。并且由于運動歷史圖已經(jīng)將視頻幀在時間軸上對齊,即在對圖像進行重定向的過程中已經(jīng)對各視頻幀的時間連貫性進行了約束,因此無須對背景和運動物體做不同約束。
(1) 相機運動保持。對相機運動的保持是在重定向過程中保持時間連貫性不容忽視的一個步驟。而幀與幀之間的位置轉(zhuǎn)換則反映了相機的運動,因此可以通過在全局運動模型中保存連續(xù)對齊幀的相對位置來保持相機運動,即要求重定向后相鄰幀中的相應(yīng)像素(在相機坐標(biāo)中對齊)的位置相同。具體來說,對于第t幀的每一個頂點vi,j,t,使用變換矩陣Ht→t-1來計算該頂點在第t-1幀中的位置,表示為wi,j,t-1,并用wi,j,t-1所在圖像塊的四個頂點來線性表示該點,如圖6所示。
圖6 第t幀的一個頂點vi,j,t在第t-1幀中表示為wi,j,t-1
(8)
式中:vx,y,t-1是幀中包含wi,j,t-1點的圖像塊的四個頂點;ax,y,t-1是其對應(yīng)的系數(shù),其和為1。
得到了相機坐標(biāo)中頂點的對應(yīng)關(guān)系后,約束重定向后相鄰幀中的相應(yīng)頂點與原來保持一致的對應(yīng)關(guān)系:
(9)
用矩陣T來彌補視頻尺寸的變化,T表示從目標(biāo)屏幕尺寸到原始屏幕尺寸的放縮矩陣:
(10)
(2) Z軸方向保持。為了進一步減少視頻的抖動,必須盡可能保持相鄰兩幀圖像的對應(yīng)頂點的位置相一致。與度量空間網(wǎng)格線彎曲的網(wǎng)格方向變形類似,用Z軸彎曲的能量項度量時間網(wǎng)格線彎曲。這一能量項表示為第t幀和前一幀t-1幀中頂點的位置差:
(11)
2.3.1邊界約束
為了保證視頻幀位于邊界的頂點重定向之后仍然處于邊界上,設(shè)定如下約束:
(12)
2.3.2防折疊約束
為了防止圖像過度縮放進而形成網(wǎng)格折疊情況,設(shè)定如下約束:
(13)
2.3.3系統(tǒng)求解
通過聯(lián)合2.2所述的所有圖像塊的空間連貫性約束以及所有頂點的時間連貫性約束,可得到最終的優(yōu)化能量E:
(14)
式中:λ1、λ2、λ3、λ4與λ5為各個約束函數(shù)的權(quán)重;q是屬于圖像塊集合Q的一個圖像塊;v是屬于頂點集合V的一個頂點。本文使用MATLAB中的優(yōu)化函數(shù)來求解上述能量最小化問題。當(dāng)邊界和內(nèi)部頂點的移動小于0.5像素時,迭代過程終止。由于相鄰幀通常具有相似的變形,因此可以直接將前一幀的結(jié)果作為下一幀的初始值進行優(yōu)化,減少迭代次數(shù),提高求解效率。
為了驗證本文視頻重定向算法的性能,選用含括相機靜止以及相機運動、物體快速運動以及中慢速運動等類型在內(nèi)的多種視頻進行測試,同時用MATLAB軟件對裁剪、邊緣填充、均勻縮放、文獻(xiàn)[22]、文獻(xiàn)[19]的視頻重定向算法與本文算法進行了對比,實驗在CPU為3.20 GHz,內(nèi)存為4 GB的計算機上完成。設(shè)定網(wǎng)格初始大小為20×20,本節(jié)分別對視頻的寬度分別縮小至原來的70%、60%、50%和40%的情況進行了測試,部分結(jié)果如圖7-圖10所示,從左到右依次為各視頻原始幀、基于裁剪、邊緣填充、均勻縮放、文獻(xiàn)[22]、文獻(xiàn)[19]算法,以及本文方法得到的結(jié)果視頻幀。
(a) 原始幀 (b) 裁剪 (c) 邊緣填充 (d) 均勻縮放 (e) 文獻(xiàn)[22] (f) 文獻(xiàn)[19] (g) 本文方法圖7 sign_irene視頻幀的寬度縮小至原來的70%
(a) 原始幀 (b) 裁剪 (c) 邊緣填充 (d) 均勻縮放 (e) 文獻(xiàn)[22] (f) 文獻(xiàn)[19] (g) 本文方法圖8 tempete視頻幀的寬度縮小至原來的60%
(a) 原始幀 (b) 裁剪 (c) 邊緣填充 (d) 均勻縮放 (e) 文獻(xiàn)[22] (f) 文獻(xiàn)[19] (g) 本文方法圖9 soccer視頻幀的寬度縮小至原來的50%
(a) 原始幀 (b) 裁剪 (c) 邊緣填充 (d) 均勻縮放 (e) 文獻(xiàn)[22] (f) 文獻(xiàn)[19] (g) 本文方法圖10 waterfall視頻幀的寬度縮小至原來的40%
使用基于裁剪方法獲得的結(jié)果如圖7(b)-圖10(b)所示。裁剪方法遵循的原則是保留視頻內(nèi)容的重要區(qū)域,然后裁去重要內(nèi)容以外的區(qū)域,從而達(dá)到視頻與播放設(shè)備尺寸相一致的效果。如果重要對象的占比或(和)視頻縮小比例也較小時,裁剪方法具有明顯的優(yōu)勢,如圖7(b)中的女士、圖8(b)的黃花、圖10(b)的瀑布都得到了較好的保存。但當(dāng)重要對象的占比或(和)視頻縮小比例較大時,由于播放設(shè)備屏幕尺寸的限制,基于裁剪的重定向方法會使得視頻的一部分重要區(qū)域也被裁剪掉,例如圖9(b)中左右側(cè)的運動員均被裁去,圖像的整體結(jié)構(gòu)遭到破壞。
使用基于邊緣填充的方法獲得的結(jié)果如圖7(c)-圖10(c)所示。從結(jié)果可看出,盡管使用該方法獲得的結(jié)果重要內(nèi)容并沒有產(chǎn)生失真現(xiàn)象,但是填充的黑邊既造成了播放設(shè)備屏幕的浪費,又給用戶以視覺體驗不佳的感官效果。這是由于邊緣填充方法為了在縮放時保持視頻的原始寬高比而在目標(biāo)屏幕上填充黑邊,尤其當(dāng)視頻的目標(biāo)尺寸與原始尺寸差別越大時,相對應(yīng)的黑邊越多,用戶的體驗越不好。
使用基于均勻縮放的方法獲得的結(jié)果如圖7(d)-圖10(d)所示。從結(jié)果可看出,圖中的顯著對象均因為縮小了寬度而出現(xiàn)不同程度的縱向拉伸變形。尤其是當(dāng)視頻尺寸的變化越大時,由均勻縮放帶來的拉伸變形也越大,這是由于均勻縮放方法沒有考慮對重要對象的保持而采取對所有像素進行統(tǒng)一的線性插值或刪值,從而造成顯著對象變形。
使用文獻(xiàn)[22]算法獲得的結(jié)果如圖7(e)-圖10(e)所示。由結(jié)果可看出,采用該方法的結(jié)果雖能較好地保持視頻的時間連貫性,但該算法的空間上則出現(xiàn)了內(nèi)容不連續(xù)現(xiàn)象,視頻的重要對象出現(xiàn)了明顯的變形:圖7(e)和圖8(e)中的重要均出現(xiàn)了一定的擠壓現(xiàn)象,圖9(e)則與均勻縮放的結(jié)果一致,運動員被拉伸變形,圖10(e)的瀑布則幾乎丟失了。主要在于該方法在對視頻進行重定向時沒有考慮同一視頻幀相鄰的網(wǎng)格縮放程度應(yīng)相似的問題,因此圖像整體結(jié)構(gòu)得不到較好的保持,導(dǎo)致重定向效果不佳。
使用文獻(xiàn)[19]算法獲得的結(jié)果如圖7(f)-圖10(f)所示。由結(jié)果可看出,采用該方法得到的結(jié)果會產(chǎn)生抖動現(xiàn)象,如圖7(f)第三行和第四行之間能明顯看出有抖動。這是由于該方法對不同的頂點有不同的時間約束力度,當(dāng)連續(xù)兩幀對同一頂點的時間約束力度不同時,就容易引起抖動。
使用本文算法獲得的結(jié)果如圖7(g)-圖10(g)所示。由結(jié)果可看出,本文方法在保持重定向視頻良好時間連貫性的前提下,把失真盡量隱藏在背景中,視頻重要內(nèi)容得到較好的保持。
時域非連續(xù)性失真(Temporal Inconsistency Distortion,TID)和顯著度相似性量度(Saliency Similarity Measurement,SSM)兩種客觀評價指標(biāo)[30]可用于衡量視頻對象在時域和空間域上的不連續(xù)變化。TID主要用于衡量視頻中的主要對象運動較為劇烈時產(chǎn)生的時域不連續(xù)失真,但當(dāng)一個突出物體的大小在連續(xù)的幀中隨時間緩慢變化時,TID評價指標(biāo)可能無法捕捉到這種微小的時間變化。因此,用SSM評價指標(biāo)來度量兩個連續(xù)重定向幀的突出物體的在空間上的相似性。本文擬采用上述兩種客觀指標(biāo)對重定向視頻的質(zhì)量進行評價。
本節(jié)對利用不同方法得到的sign_irene、tempete、soccer、waterfall結(jié)果視頻序列進行了相應(yīng)的客觀評價。由于基于裁剪、邊緣填充、均勻縮放這三種傳統(tǒng)方法只是對視頻內(nèi)容簡單地做了線性縮放而不考慮視頻內(nèi)容的差異,因此失真較大,故本文僅與基于內(nèi)容的視頻重定向方法進行比較。表1、表2為文獻(xiàn)[22]、文獻(xiàn)[19]算法以及本文方法的重定向視頻幀對應(yīng)的TID失真值dTID與SSM失真值dSSM,加粗的數(shù)據(jù)為同一視頻序列在幾種不同重定向方法下的最小值,對應(yīng)的視頻質(zhì)量最優(yōu)。
表1 各視頻序列的dTID
表2 各視頻序列的dSSM
由表1及表2的結(jié)果可看出,對于sign_irene、tempete、waterfall視頻序列來說,本文方法的dTID值以及dSSM值都是最小的,即空間域失真與時域失真最??;對于soccer序列來說,雖然本文方法的dTID值略高于文獻(xiàn)[22],但dSSM值遠(yuǎn)遠(yuǎn)優(yōu)于文獻(xiàn)[22]的dSSM值,這是由于soccer序列中運動對象占據(jù)了屏幕的一半以上導(dǎo)致文獻(xiàn)[22]的重定向視頻幀接近于均勻縮放的結(jié)果,此時文獻(xiàn)[22]的方法犧牲了空間連貫性來保持時間連貫性,也因此該項的dSSM值最大。綜合來看,本文提出的重定向方法在保護重要對象的同時也保持了良好的時間連貫性。
由于本文主要研究的是基于內(nèi)容的視頻重定向算法,而均勻縮放、裁剪、邊緣填充均為傳統(tǒng)的視頻縮放方法,在不考慮保護重要內(nèi)容的情況下進行簡單的縮放操作,時間復(fù)雜度極低。因此,本節(jié)僅比較文獻(xiàn)[22]、文獻(xiàn)[19]以及本文方法的時間復(fù)雜度。
表3 視頻序列平均每幀時間消耗比較
如表3所示,對圖7至圖10中的4個視頻序列在文獻(xiàn)[22]、文獻(xiàn)[19]、本文方法實驗中平均每一幀消耗的時間進行比較,可以看到:文獻(xiàn)[22]的方法平均每幀的耗時約0.4 s,文獻(xiàn)[19]的方法耗時約60 s,本文方法耗時約10 s。顯然,文獻(xiàn)[22]的方法耗時最低,這是因為文獻(xiàn)[22]的方法對于網(wǎng)格劃分比較粗糙,這種方法雖然降低了運算復(fù)雜度,但重定向后的視頻內(nèi)容質(zhì)量不夠好。文獻(xiàn)[19]的方法耗時最高,這是因為文獻(xiàn)[19]的方法對于不同的網(wǎng)格頂點有不同的時間權(quán)重,當(dāng)同一頂點的相鄰幀時間權(quán)重相差較大時,迭代次數(shù)也隨之增加。本文方法的時間復(fù)雜度介于兩者之間,且重定向后的視頻結(jié)果性能也較好。
為了保持重定向視頻的時空連貫性,提升視頻重建的質(zhì)量,本文提出了一種基于運動歷史圖的網(wǎng)格變形視頻重定向方法進行視頻大小的調(diào)整。該方法在獲得圖像的顯著性區(qū)域和運動顯著性區(qū)域的前提下,以視頻首幀為基準(zhǔn),通過估計幀間攝像機的運動,將各視頻對齊在相機坐標(biāo)下,從而獲得全局運動歷史圖;然后利用運動歷史圖來順序指導(dǎo)單幀圖像形變,將單幀圖像的放縮問題轉(zhuǎn)換為網(wǎng)格變形問題,通過構(gòu)造一系列約束條件在網(wǎng)格上建立保持整體形狀的最優(yōu)化模型,實現(xiàn)背景的時間連續(xù)性的同時又有效地保持運動對象的形狀。測試結(jié)果顯示本文重定向方法在處理視頻縮放方面能獲得較優(yōu)的視覺效果。如何與其他算子結(jié)合來進一步提升視頻重定向性能將成為本文的后續(xù)工作。同時對于背景特征不明顯的視頻內(nèi)容來說,如何有效地實現(xiàn)背景拼接和獲得當(dāng)前幀的運動區(qū)域以得到更準(zhǔn)確的運動歷史圖,也可以作為之后提升視頻重定向性能的努力方向。