張 鑫,楊棉絨
(1.新鄉(xiāng)學(xué)院 a.網(wǎng)絡(luò)管理中心;b.計(jì)算機(jī)與信息工程學(xué)院,河南 新鄉(xiāng) 453003;2.解放軍信息工程大學(xué),河南 鄭州 450052)
基于ROI內(nèi)容保留變形算法的三維視頻快速穩(wěn)定
張 鑫1a,2,楊棉絨1b
(1.新鄉(xiāng)學(xué)院 a.網(wǎng)絡(luò)管理中心;b.計(jì)算機(jī)與信息工程學(xué)院,河南 新鄉(xiāng) 453003;2.解放軍信息工程大學(xué),河南 鄭州 450052)
針對(duì)傳統(tǒng)的三維視頻穩(wěn)定算法計(jì)算量較大的問(wèn)題,提出了一種基于感興趣區(qū)域內(nèi)容保護(hù)的變形算法。首先,估計(jì)每個(gè)輸入幀特征點(diǎn)的三維信息并確定感興趣區(qū)域;然后,利用基于ROI整幀的圖像變形算法和保持顯著性的圖像變形算法去除輸入幀的抖動(dòng);最后,利用交叉方法去除ROI邊界偽跡。在5個(gè)HD視頻序列上的仿真實(shí)驗(yàn)結(jié)果表明,該算法可獲得與其他先進(jìn)算法相同的去抖動(dòng)性能,且算法執(zhí)行時(shí)間降低了至少14%。
三維視頻;數(shù)字圖像穩(wěn)定;感興趣區(qū)域;變形算法;特征點(diǎn)
隨著圖像處理和圖像傳感技術(shù)快速發(fā)展,數(shù)碼設(shè)備的使用者也對(duì)視覺(jué)質(zhì)量要求越來(lái)越高[1]。由于許多數(shù)碼相機(jī)和攝像機(jī)足夠小并且可以單手操作,它們對(duì)人手的抖動(dòng)很敏感,導(dǎo)致經(jīng)常得到視覺(jué)抖動(dòng)的視頻。因此,找到一種較好的數(shù)字圖像去抖動(dòng)(Digital Image Stabilization, DIS)[2]技術(shù)對(duì)獲取高質(zhì)量視覺(jué)效果顯得至關(guān)重要。
為了降低三維視訊穩(wěn)定算法的計(jì)算量,提出了一種快速視頻去抖動(dòng)算法,從每幀提取足夠多的特征點(diǎn)并估計(jì)每個(gè)特征點(diǎn)的三維運(yùn)動(dòng)信息,在三維運(yùn)動(dòng)信息的基礎(chǔ)上確定感興趣區(qū)域(Regions of Interest, ROI)[3],如果ROI區(qū)域的特征點(diǎn)數(shù)大于閾值,則利用基于ROI的圖像預(yù)變形和保持顯著性圖像變形算法對(duì)輸入幀進(jìn)行處理。仿真結(jié)果表明,在保持與先進(jìn)算法相同的去抖動(dòng)性能的同時(shí),本文算法的計(jì)算復(fù)雜度降低了14%以上。
傳統(tǒng)的DIS算法首先估計(jì)每幀的攝像機(jī)運(yùn)動(dòng),接著,被估計(jì)的攝像機(jī)運(yùn)動(dòng)被修正成接近一個(gè)預(yù)定義的相機(jī)運(yùn)動(dòng)軌跡,通過(guò)低通濾波輸入攝像機(jī)的運(yùn)動(dòng)軌跡來(lái)定義并作為自然軌跡[3]。然而,這樣的攝像機(jī)軌跡存在一個(gè)缺點(diǎn),如果原攝像機(jī)軌跡對(duì)攝像機(jī)運(yùn)動(dòng)有重要意義,它將可能引起嚴(yán)重的圖像變形。
文獻(xiàn)[4-5]提出了一種二維視頻去抖動(dòng)算法通過(guò)低通濾波器獲取參數(shù)并用于消除攝像機(jī)抖動(dòng)的高頻信息。雖然二維去抖動(dòng)算法對(duì)許多攝像機(jī)抖動(dòng)很有效,但是,它不能合成一個(gè)理想化的三維攝像機(jī)軌跡,因?yàn)樗恢罃z像機(jī)輸入的是否為三維軌跡 。
為了解決上述二維方法的缺點(diǎn),學(xué)者們提出了許多三維去抖動(dòng)技術(shù)[6-8],例如,文獻(xiàn)[6]設(shè)計(jì)了一種基于可靠特征集合匹配的內(nèi)容完整的視頻穩(wěn)定算法,為了避免運(yùn)動(dòng)前景上的特征點(diǎn)參與運(yùn)動(dòng)估計(jì),由經(jīng)典的KLT算法提取特征點(diǎn),對(duì)于運(yùn)動(dòng)補(bǔ)償造成的無(wú)定義區(qū),首先計(jì)算當(dāng)前幀的定義區(qū)與相鄰幀的光流,從而為向?qū)Цg無(wú)定義區(qū),利用拼接方法填充仍為無(wú)定義區(qū)的像素,提高了魯棒性,并且獲得較為穩(wěn)定的視頻序列。為了更好地去除抖動(dòng)并改善視頻效果,文獻(xiàn)[7]采用改進(jìn)的SIFT算法進(jìn)行特征提取,并根據(jù)動(dòng)態(tài)視頻相鄰幀匹配的實(shí)際應(yīng)用,采用鄰域搜索方法進(jìn)行特征匹配,提高了視頻匹配的精度,通過(guò)采用Kalman濾波對(duì)運(yùn)動(dòng)參數(shù)平滑后進(jìn)行視頻圖像的校正補(bǔ)償,得到穩(wěn)定的視頻輸出。文獻(xiàn)[8]提出了一種基于特征塊匹配的視頻穩(wěn)定算法,采用均勻分布的方式確定特征塊,根據(jù)視頻圖像抖動(dòng)特性對(duì)運(yùn)動(dòng)矢量進(jìn)行預(yù)測(cè),并將大鉆石與小鉆石搜索模板相結(jié)合,從而在閾值和搜索空間的約束下完成特征塊匹配,通過(guò)運(yùn)動(dòng)平滑選擇有效的運(yùn)動(dòng)矢量,有效地穩(wěn)定了圖像序列。文獻(xiàn)[9]提出了一種基于保持顯著性的圖像變形去抖動(dòng)算法(CPWS),因其優(yōu)越去抖動(dòng)性能而廣為人知,然而,在第三步最小二乘優(yōu)化過(guò)程需要較大的計(jì)算量,例如,針對(duì)一個(gè)720p的圖像幀,它可能花費(fèi)三小時(shí)去變形處理。
本文算法僅通過(guò)在每幀的感興趣區(qū)域運(yùn)用CPW即可有效降低計(jì)算復(fù)雜度,圖1所示為本文算法的流程圖。首先,均勻分布從SFM獲取的特征點(diǎn),然后,使用選擇特征點(diǎn)的深度信息提取初始ROI,利用去除極端值進(jìn)行適當(dāng)優(yōu)化。接著,通過(guò)分割ROI特征點(diǎn)的數(shù)量確定最佳模型,即NFP。如果NFP比設(shè)定的閾值大,則運(yùn)用基于ROI的圖像變形,否則,運(yùn)用傳統(tǒng)的整個(gè)幀變形。
圖1 本文算法的框圖
2.1 確定ROI
假設(shè)使用攝像機(jī)跟蹤器通過(guò)運(yùn)動(dòng)恢復(fù)結(jié)構(gòu)(Structure from Motion,SFM)[10]處理過(guò)程已經(jīng)提取了特征點(diǎn),特征點(diǎn)的分布可能影響去抖動(dòng)算法的性能,圖2所示為特征點(diǎn)提取過(guò)程,從圖2a可以看出,右邊比左邊存在更多的特征點(diǎn)。由于這種分布類型沒(méi)有完全反映幀的顯著性特點(diǎn),所以幀的去抖動(dòng)質(zhì)量下降了[11]。為了解決該問(wèn)題,適當(dāng)?shù)卦黾犹崛√卣鼽c(diǎn)的數(shù)量,如圖2b所示,并通過(guò)最小化相鄰特征點(diǎn)水平和垂直距離選擇合適的均勻分布特征點(diǎn),如圖2c所示。本文算法中最小距離設(shè)為20個(gè)像素,F(xiàn)uni表示近似均勻分布特征點(diǎn)集,圖2c的特征點(diǎn)分布比圖2a更加均勻,甚至數(shù)量更少。
圖2 特征點(diǎn)的提取過(guò)程
接著,根據(jù)特征點(diǎn)的深度信息分割初始ROI,每個(gè)特征點(diǎn)的深度表示特征點(diǎn)三維坐標(biāo)的Z軸值,這個(gè)三維坐標(biāo)從SFM得到,Z軸表示特征點(diǎn)和攝像機(jī)的距離。ROI存在于每幀的中間部分,因此,首先確定每幀的中心作為ROI,在該中心區(qū)域去除每幀的四分之一邊界并提取特征點(diǎn)。Fcen表示中心區(qū)域的特征點(diǎn),F(xiàn)cen從Funi中選擇如下
(1)
(2)
(3)
100是根據(jù)經(jīng)驗(yàn)確定的。若獲取δmax,則提取初始ROI,通過(guò)特征點(diǎn)滿足下列條件
(4)
到深度大于δmax的特征點(diǎn)組成了ROI,這是由于遠(yuǎn)處對(duì)象的運(yùn)動(dòng)抖動(dòng)引起了視覺(jué)敏感抖動(dòng)。
從FROI中去除可能的離群值,通過(guò)網(wǎng)格特征點(diǎn)直方圖去除離群值,組成特征點(diǎn)水平方向直方圖的離群值首先被去除,如圖3所示,且保留下來(lái)的值隨后在垂直直方圖執(zhí)行與水平直方圖相同的操作。
圖3 基于直方圖的區(qū)域分割
例如,首先通過(guò)下列條件去除離群值
(5)
式中:H(X)表示網(wǎng)格位置x的特征點(diǎn)數(shù)。如果x周圍遮擋頻率小于THp,則將相應(yīng)的特征點(diǎn)作為離群值去除。THp為特征點(diǎn)總數(shù)除以100,圖3b所示為去除后的結(jié)果。特征點(diǎn)滿足式(6)的兩個(gè)條件將被再次優(yōu)化
(6)
式中:TH為特征點(diǎn)總數(shù)除以10,且L表示直方圖最后的單元值。從每行第一個(gè)網(wǎng)格開(kāi)始,式(6)的第一個(gè)條件從右向左掃描去除左邊離群值。此外,從每行的最后一個(gè)網(wǎng)格開(kāi)始,式(6)的第二個(gè)條件向左掃描去除右邊的離群值。同樣,保留下來(lái)的值隨后從特征點(diǎn)垂直直方圖中除去離群值。最終,獲取了FROI,圖4所示為一個(gè)最后優(yōu)化的ROI示例。
圖4 ROI中的特征點(diǎn)分布
2.2 基于ROI整幀的圖像變形
傳統(tǒng)的整幀變形依靠一個(gè)從一幀中獲取所有深度運(yùn)動(dòng)信息的普通運(yùn)動(dòng)模型[12]。然而,如果在圖像的前景和背景中存在一個(gè)大的深度差值,盡管使用同一個(gè)攝像機(jī)運(yùn)動(dòng)模型,前景和背景可能存在明顯不同的運(yùn)動(dòng)。因此,因?yàn)閹恼w運(yùn)動(dòng)很難使用單一的投射模型來(lái)描述,傳統(tǒng)的整幀變形又常常引起抖動(dòng)現(xiàn)象,在某些區(qū)域像素值發(fā)生連續(xù)性的突變[13]。為了減緩這種現(xiàn)象,僅僅利用ROI中的特征點(diǎn)FROI代替所有特征點(diǎn)作為整幅圖像的變形參數(shù)。因?yàn)樵赗OI中的特征點(diǎn)趨于相同的運(yùn)動(dòng),本文提出的基于ROI整幀變形能最大化去抖動(dòng)性能。
然而,如果特征點(diǎn)NFP的數(shù)量太小,整幀變形可能效果不佳,因此,如果NFP的數(shù)量小于THs,利用Funi傳統(tǒng)整幀變形替代基于ROI的整幀變形。
2.3 基于ROI保持顯著性的圖像變形
如果NFP的數(shù)量大于THs,基于ROI的CPW被應(yīng)用在基于ROI整幀變形后。在這種情況下,在ROI邊界會(huì)產(chǎn)生一些偽跡。特別是在區(qū)域邊界頻發(fā)出現(xiàn)的偽跡有很少有特征點(diǎn),因此,本文利用交叉方法[14]減少那些區(qū)域的偽跡。首先,如果網(wǎng)格包括至少一個(gè)特征點(diǎn),它的索引Gk就為1,否則為0。接下來(lái),對(duì)索引圖像應(yīng)用閉操作,這個(gè)交叉方法在網(wǎng)格位置被完成
(7)
式中:dk表示Vk與ROI邊界的最小距離,且Dk表示邊界與圖像中心之間的距離。此外,F(xiàn)Vk和CVk分別表示通過(guò)整幀變形和CPW更新的網(wǎng)格位置,最后,ROI邊界的偽跡明顯已被去除。
為了評(píng)估本文算法的性能,使用5個(gè)HD(720p)視頻序列[15],如圖5所示。實(shí)驗(yàn)從每個(gè)視頻中提取200幀圖像,使用默認(rèn)的平滑權(quán)重α=20計(jì)算機(jī)結(jié)果,N,T,THs分別設(shè)為20、50、70,所有結(jié)果都在大小為64×36的網(wǎng)格上計(jì)算,KLT[6]追蹤從攝像機(jī)跟蹤器提供的一些方法中選擇。將本文算法與去抖動(dòng)效果非常好的文獻(xiàn)[9]算法進(jìn)行比較,使用C語(yǔ)言實(shí)現(xiàn),所有實(shí)驗(yàn)均在配置為3 Gbyte RAM、2.66 GHz主頻、雙核英特爾CPU的主機(jī)上運(yùn)行。
圖5 測(cè)試視頻序列
首先,將本文算法的CPU運(yùn)行時(shí)間與其他算法進(jìn)行比較,其中,SFM部分被排除在模擬結(jié)果以外,比較結(jié)果如表1所示。
表1 各個(gè)算法的CPU運(yùn)行時(shí)間
從表1可以看出,文獻(xiàn)[9]提出的算法每幀大約需要 3 min。 針對(duì)視頻1序列,相比文獻(xiàn)[9]提出的算法,本文算法消耗時(shí)間降低了至少14%。由于視頻4序列的NFP小于THs,其沒(méi)有包含到該比較結(jié)果中。
接著,圖6和圖7所示為在視覺(jué)質(zhì)量上兩種算法的實(shí)驗(yàn)結(jié)果。觀察參考線可以發(fā)現(xiàn),相比CPWS算法,本文算法幾乎達(dá)到了相同的去抖動(dòng)效果。例如,如圖6所示,輸入幀的窗口存在一些抖動(dòng),但是通過(guò)兩種算法都達(dá)到了幾乎相同的效果。從圖7可以看出,兩種算法均獲得了優(yōu)越的去抖動(dòng)性能,可見(jiàn)本文算法的去抖動(dòng)效果幾乎與CPWS算法相同。
圖6 視頻1序列的仿真結(jié)果
圖7 視頻5序列的仿真結(jié)果
為了更好地評(píng)估本文算法的去抖動(dòng)性能,使用數(shù)字顯示所有特征點(diǎn)的統(tǒng)計(jì)結(jié)果,如表2所示。首先,每個(gè)特征點(diǎn)理想的直線軌跡通過(guò)線性回歸擬合,然后,按照式(8),計(jì)算每個(gè)序列的理想直線和真實(shí)特征點(diǎn)的均方差MSE
(8)
式中:Lk(t)和Fk(t)分別表示第k個(gè)特征點(diǎn)線性回歸的第k個(gè)位置和真實(shí)特征點(diǎn)的位置。
為了顯示可信的實(shí)驗(yàn)結(jié)果,僅使用前60幀圖像FROI中的特征點(diǎn)。從表2可以看出,相比文獻(xiàn)[9]提出的算法,本文算法獲得了更小的MSE。
表2 MSE線性定量比較
此外,計(jì)算每個(gè)序列前60幀每幀的MSE標(biāo)準(zhǔn)差,觀察每幀MSE隨時(shí)間的變化情況,見(jiàn)表2。由于本文算法獲得的標(biāo)準(zhǔn)差小于文獻(xiàn)[9]提出的算法,可見(jiàn)本文算法具有更加優(yōu)越的性能。
本文提出了一種快速三維視頻去抖動(dòng)算法,通過(guò)估計(jì)每個(gè)輸入幀特征點(diǎn)的三維信息確定感興趣區(qū)域,利用基于ROI整幀的圖像變形算法和保持顯著性的圖像變形算法去除輸入幀的抖動(dòng),并利用交叉方法去除ROI邊界偽跡。仿真結(jié)果表明,相比其他的較為先進(jìn)的視頻穩(wěn)定算法,本文算法獲得了相同的去抖動(dòng)效果,并且降低了至少14%的計(jì)算量。
未來(lái)會(huì)將本文算法應(yīng)用于其他視頻數(shù)據(jù)庫(kù),并結(jié)合新穎技術(shù),改變初始參數(shù)設(shè)置,進(jìn)行大量實(shí)驗(yàn),在保證去抖動(dòng)性能的同時(shí),進(jìn)一步改善算法的執(zhí)行效率。
[1] 彭藝,葉齊祥,黃鈞,等. 一種內(nèi)容完整的視頻穩(wěn)定算法[J]. 中國(guó)圖象圖形學(xué)報(bào),2010,15(9):1384-1390.
[2] KUMAR S, AZARTASH H, BISWAS M, et al. Real-time affine global motion estimation using phase correlation and its application for digital image stabilization[J]. IEEE Trans. Image Processing,2011,20(12):3406-3418.
[3] 張陽(yáng), 王宣銀. 基于人眼特性的視頻穩(wěn)定方法[J]. 吉林大學(xué)學(xué)報(bào): 工學(xué)版, 2010, 32(2): 529-533.
[4] ZHANG K, XU T F, WANG P, et al. Real-time full-frame digital image stabilization system by SURF[J]. Guangxue Jingmi Gongcheng(Optics and Precision Engineering), 2011, 19(8): 1964-1972.
[5] GOLDSTEIN A, FATTAL R. Video stabilization using epipolar geometry[J]. ACM Trans. Graphics (TOG), 2012, 31(5): 126-132.
[6] LIAO J, CAO J, TANG L. Research on video stabilization algorithm based on SIFT and improved RANSAC[C]//Proc. 2012 Second International Conference on Electric Information and Control Engineering. [S.l.]:IEEE Press, 2012: 755-758.
[7] 林錦梅, 周付根,金挺. 采用SIFT特征的空基動(dòng)態(tài)視頻穩(wěn)定技術(shù)[J]. 紅外與激光工程,2012,40(12): 2552-2557.
[8] ZHOU Z, JIN H, MA Y. Plane-based content preserving warps for video stabilization[C]//Proc. 2013 IEEE Conference on Computer Vision and Pattern Recognition(CVPR). [S.l.]:IEEE Press,2013: 2299-2306.
[9] ZHOU Z, JIN H, MA Y. Plane-based content preserving warps for video stabilization[C]//Proc. 2013 IEEE Conference on Computer Vision and Pattern Recognition(CVPR). [S.l.]:IEEE Press,2013: 2299-2306.
[10] 張劍. 融合SFM和動(dòng)態(tài)紋理映射的視頻流三維表情重建[J]. 計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào), 2010, 31(6): 949-958.
[11] KIM S W, YIN S, YUN K, et al. Spatio-temporal weighting in local patches for direct estimation of camera motion in video stabilization[J]. Computer Vision and Image Understanding, 2014, 118(3): 71-83.
[12] TANG C, WANG R. Sparse moving factorization for subspace video stabilization[C]//Proc. 2014 IEEE International Conference on Acoustics,Speech and Signal Processing (ICASSP). [S.l.]:IEEE Press,2014: 4314-4318.
[13] ZHOU Z, JIN H, MA Y. Plane-based content preserving warps for video stabilization[C]//Proc. 2013 IEEE Conference on Computer Vision and Pattern Recognition(CVPR). [S.l.]:IEEE Press,2013: 2299-2306.[14] 張淼.視頻穩(wěn)像技術(shù)研究[D]. 上海:上海交通大學(xué), 2011.
[15] ZAHARIA C, BIGIOI P, CORCORAN P M. Hybrid video-frame pre-processing architecture for HD-video[C]//Proc. 2011 IEEE International Conference on Consumer Electronics(ICCE).[S.l.]:IEEE Press,2011:89-90.
張 鑫(1979— ),碩士,講師,主要研究方向?yàn)橐曨l處理、圖像處理、人工智能等;
楊棉絨(1979— ),女,碩士,講師,主要研究方向視頻處理、圖像處理、人工智能等。
責(zé)任編輯:時(shí) 雯
Three Dimensional Video Fast Stabilization Based on Warping Algorithm with Content Preserving in Region-of-Nterest
ZHANG Xin1a,2, YANG Mianrong1b
(1a.NetworkManagementCenter;1b.CollegeofComputerandInformationEngineering,XinxiangUniversity,HenanXinxiang453003,China;2.ThePLAInformationEngineeringUniversity,Zhengzhou450052,China)
For the issue that it exists large amount of calculation in traditional 3D video stabilization algorithms, a warping algorithm based on content protection in region-of-interest is proposed. Firstly, the 3D information of each input frame feature points is estimated so as to determine ROI. Then, warping algorithm based on ROI whole frame and keeping the significant is used to remove the jitter of input frame. Finally, intersect method is used to remove the boundary artifact of ROI. Simulation experimental results on five HD video sequences show that proposed algorithm can get same stabilization performance with state-of-the-art algorithm, and it has reduced above 14% executing time.
three dimensional video; digital image stabilization; region-of-interest; warping algorithm; feature point
【本文獻(xiàn)信息】張?chǎng)危瑮蠲藿q.基于ROI內(nèi)容保留變形算法的三維視頻快速穩(wěn)定[J].電視技術(shù),2015,39(11).
河南省科學(xué)技術(shù)計(jì)劃發(fā)展項(xiàng)目(122400450245)
TP399
A
10.16280/j.videoe.2015.11.010
2014-08-21