孔 悅,周 軍,谷 瀟
(上海交通大學(xué) 圖像通信與網(wǎng)絡(luò)工程研究所,上海 200240)
?
基于時空一致性的立體視頻穩(wěn)像改進方法
孔 悅,周 軍,谷 瀟
(上海交通大學(xué) 圖像通信與網(wǎng)絡(luò)工程研究所,上海 200240)
隨著立體拍攝設(shè)備的普及,立體影視的后期穩(wěn)像需求大大增加。直接觀看帶有抖動的立體視頻,極易造成視覺疲勞。利用傳統(tǒng)2D穩(wěn)像方法分別穩(wěn)像合成的立體視頻很可能引入新的垂直視差,并且會導(dǎo)致水平視差的不穩(wěn)定,大大影響視覺體驗。因此,提出了一種改進的立體視頻穩(wěn)像方法,在3D運動模型進行單目穩(wěn)像的基礎(chǔ)上,增強兩路視頻的時空一致性約束,更好地穩(wěn)定水平視差及消除垂直視差。最后對穩(wěn)定后的序列進行合理的裁切放大。對幾組不同的立體抖動視頻進行了試驗,測試結(jié)果表明所提出的方法是有效的。
立體視頻穩(wěn)像;視差;時空一致性
近年來,3D電影引發(fā)了一陣數(shù)字風(fēng)潮,立體拍攝設(shè)備也正從專業(yè)級別轉(zhuǎn)向大眾消費級別。除了立體攝像機,一些手機也具備了立體照片和短片的拍攝功能。因此,對于立體視頻處理的需求也日益增多。雖然2D穩(wěn)像已被廣泛研究,并且有些成熟的算法已被整合進日常軟件,但是立體視頻穩(wěn)像處理還處在起步階段,相關(guān)研究并不多。本文即探討如何進行立體視頻穩(wěn)像,以獲得較好的視覺效果。
視頻穩(wěn)定,即從視頻中去除無意識、不需要的相機抖動,使得消費級的設(shè)備拍攝出來的視頻,經(jīng)過穩(wěn)像處理,可以達到較為專業(yè)的效果。如果原視頻存在抖動,不經(jīng)處理直接觀看的話,會產(chǎn)生視覺疲勞,可能會對眼睛造成短暫性的損傷,長期觀看,則會造成視力下降。觀看不穩(wěn)定的立體視頻時,除了兩路視頻原本的抖動之外,還會引入垂直視差,并造成水平視差的不穩(wěn)定,更容易造成視覺疲勞,并產(chǎn)生明顯的不舒適感。
只利用傳統(tǒng)的穩(wěn)像方法對左右兩路視頻序列進行單獨穩(wěn)像,無法保證立體視頻模式下的觀看效果。由于地面的不平整性或拍攝人員移動拍攝時對攝像機控制的不穩(wěn)定性,以及垂直支架的兩路攝像機位置是相對垂直的,產(chǎn)生抖動時,各自的抖動是不一致的。而對于雙目攝錄一體機來說,兩個鏡頭水平固定,產(chǎn)生的同步抖動可以直接利用單目穩(wěn)像的方法進行去除。然而由于左右兩路視頻的水平視差是個較小的固定值,無法調(diào)節(jié),雙目攝錄一體機拍攝適用范圍較小。因此在研究的時候,視頻素材的獲取都是利用垂直支架的立體攝像機進行拍攝的。
為了達到較好的立體視頻穩(wěn)像效果,本文提出了一種改進的基于時空一致性的立體視頻穩(wěn)像方法。首先使用SURF算法進行特征點的檢測以及匹配,接著使用基于特征點追蹤的SFM[1-3]算法獲取攝像機的內(nèi)置參數(shù)和外部參數(shù),對兩路相機參數(shù)分別進行平滑。然后加上改進的基于特征點時域和空間匹配的左右關(guān)聯(lián)一致性約束來解決視差問題。最后對視頻序列進行合理的裁切及放大,呈現(xiàn)出視覺效果較好的立體穩(wěn)定視頻。
傳統(tǒng)的單目視頻穩(wěn)像按所使用的運動模型,可以分為2D、2.5D和3D穩(wěn)像。
2D視頻穩(wěn)像,這里主要討論電子穩(wěn)像。利用一系列2D圖像變換方法,如相似變換、單應(yīng)變換、仿射變換等,來表示相機的運動,并且通過平滑這些變換以達到視頻穩(wěn)像的目的。早期的2D視頻穩(wěn)像算法應(yīng)用了連續(xù)幀之間的仿射變換估計算法[4-5],仿射變換和相似變換相結(jié)合的估計算法[6],仿射變換和單應(yīng)性變換相結(jié)合的估計算法[7-8]等,并且通過低通濾波來減少高頻的相機抖動,以達到穩(wěn)像的目的。陳等人[9]大量運用仿射變換,使用了多項式曲線來擬合理想的相機軌跡,達到抑制相機低頻抖動的效果。Gleicher等人[10-11]將相機路徑進行分割,然后分段進行平滑,并且運用了攝影規(guī)則,最終得到效果比較理想的相機路徑。Grundman[12]使用了仿射變換和高維的單應(yīng)變換相結(jié)合的方法,提出了利用L1范數(shù)進行相機路徑優(yōu)化的穩(wěn)像算法。
2.5D視頻穩(wěn)像,即在2D穩(wěn)像算法的適用性和3D穩(wěn)像算法的復(fù)雜度上做了一個權(quán)衡,雖然不要求完整的3D重建,減少了計算成本,但是需要長時間的特征追蹤,例如連續(xù)30幀以上。早在1998年,朱等人[13]就提出了2.5D穩(wěn)像的概念,即在2D穩(wěn)像基礎(chǔ)上加入深度信息。該算法分為4個模塊:基于金字塔的運動檢測、運動識別和2.5D運動參數(shù)的估計、慣性運動濾波和基于仿射變換的運動補償。算法中每一個點都引入了一個深度相關(guān)的參數(shù)。這個運動模型又包含了3個子模型:2.5D移動攝影車模型、2.5D水平運動跟蹤模型和2.5D垂直運動跟蹤模型。近年來劉等人[14]利用從連續(xù)50幀以上的特征跟蹤中提取出來的子空間的軌跡進行平滑,達到了類似3D穩(wěn)像的效果。
3D視頻穩(wěn)像,即建立在明確的三維結(jié)構(gòu)上的單目視頻穩(wěn)定方法,需要知道攝像機的三維姿態(tài)以及場景的深度。利用SFM算法[2-3]或者采用額外的深度傳感器[15],根據(jù)原先抖動的3D相機路徑,經(jīng)過平滑處理得到虛擬的理想相機路徑。也有人利用RGBD照相機[16]獲取深度信息,來進行3D穩(wěn)像。劉等人[17]提出了一種基于內(nèi)容保持的翹曲的3D視頻穩(wěn)像算法。
以上方法都是針對單目穩(wěn)像,而對于雙目甚至多目穩(wěn)像,相關(guān)研究很少。劉等人[18]將子空間穩(wěn)像的方法延伸到了雙目穩(wěn)像上。Chu等人[19]將陀螺儀和加速劑嵌入3D手機,獲取相機的幾何結(jié)構(gòu)信息,以進行運動補償。但是這種移動設(shè)備上的雙鏡頭是非常同步的,用傳統(tǒng)方法進行穩(wěn)像也可以得到不錯的效果。筆者所討論的是垂直支架式3D立體攝像機進行拍攝時的情形,水平機位與垂直機位的抖動并不完全同步。那么在單目穩(wěn)像的基礎(chǔ)上,就要考慮添加雙目立體穩(wěn)像的特殊性,即需要呈現(xiàn)較為穩(wěn)定的水平視差和零垂直視差。
本文所要介紹的是基于3D模型進行的雙目立體視頻穩(wěn)像的改進方法,主要包含運動估計、運動平滑以及圖像合成三個模塊。和傳統(tǒng)2D穩(wěn)像不同的是,運動估計是在SURF特征點匹配并經(jīng)過RANSAC[20]去除異值之后,利用張等人基于特征跟蹤的SFM[3]算法得到攝像機的內(nèi)置參數(shù)以及外部參數(shù)。然后利用其結(jié)果,對攝像機的運動進行平滑,通過最小化相機的旋轉(zhuǎn)、平移以及尺度變化的加速度來對相機自身運動進行平滑,并且同時考慮未定義區(qū)域的控制[21]。接著,本文將文獻[21]中利用3D模型進行的單目穩(wěn)像方法擴展到立體穩(wěn)像上,為了控制左右序列的一致性,除了在時域上進行了特征點的匹配和跟蹤,在空間上也進行了左右視點特征點的匹配,通過控制左右視點水平視差的相對穩(wěn)定程度以及最小化垂直視差來達到左右一致性的約束。C.W. Liu[22]在傳統(tǒng)2D穩(wěn)像方法上加入了一種視差約束。本文將其與3D運動估計模型相結(jié)合,并且對視差約束方法進行了改進。最后圖像合成,利用攝影規(guī)則對穩(wěn)定后的視頻進行合理裁切和修復(fù)。本文立體視頻穩(wěn)像方法的流程圖如圖1所示。
圖1 立體穩(wěn)像算法流程圖
第一步,在單目穩(wěn)像部分,本文利用SURF快速特征點檢測算法對原抖動的左右兩路視頻序列VΙ,l,VΙ,r的每一幀進行檢測,在時域上進行前后關(guān)聯(lián)幀的特征點匹配,并且在每一幀,對左右圖也進行特征點的匹配,并使用RANSAC去除誤匹配的點,得到內(nèi)點所占比例最高的最小點集。得到有效特征匹配點集后,進行特征跟蹤,得到多條魯棒的特征軌跡。但是對于視頻穩(wěn)像來說,軌跡越長,說明特征點越有可能屬于相對靜止的背景,越有利于穩(wěn)像,軌跡越短,說明特征點很可能屬于運動物體,這樣的軌跡在穩(wěn)像處理時會產(chǎn)生干擾。這里,設(shè)最短有效軌跡長度為20幀(根據(jù)不同視頻可以調(diào)整設(shè)置),剔除較短的軌跡之后,得到一個有效特征軌跡的集合。
第二步,利用基于特征追蹤的SFM算法獲取攝像機的內(nèi)部參數(shù)和外部參數(shù)。內(nèi)部參數(shù)K為一個3×3的矩陣,包含了焦距的初始值f以及原點坐標的初始值(cx,cy)(一般選取圖像的中心),η為像素長寬比,這里處理的都是方形像素,即η=1。
(1)
外部參數(shù)由一個3×3的旋轉(zhuǎn)參數(shù)矩陣和一個三維的平移向量構(gòu)成,其中旋轉(zhuǎn)參數(shù)矩陣由歐拉角表示。世界坐標系和相機坐標系之間的關(guān)系可以表示為
Xworld=R·Xcam+t
(2)
利用得到的相機參數(shù),進行相機軌跡的優(yōu)化。對于單目穩(wěn)像,進行兩方面的約束。一是視頻的平滑程度Esm,二是對于未定義區(qū)域的控制項Esl。
Es=Esm+Esl
(3)
視頻的平滑程度Esm用攝像機運動的旋轉(zhuǎn)、平移、尺度變換的平滑度Erm,Etm,Efm的加權(quán)和來表示。而平滑度,這里用其加速度來表示。
(4)
Erm,Etm,Efm定義[21]如下:
(5)
(6)
(7)
未定義區(qū)域的控制項Esl是為了讓穩(wěn)定后的視頻邊緣出現(xiàn)的黑邊不會過大,避免穩(wěn)像后需要過多的裁切處理。
(8)
其中Erl,Etl,Efl定義[21]如下:
(9)
(10)
(11)
使用SFM算法得到相機運動參數(shù)后,進行平滑處理,相應(yīng)的視頻抖動也就可以去除,得到較為穩(wěn)定的效果。旋轉(zhuǎn)、平移、縮放相對獨立,轉(zhuǎn)化成式(12),可分別利用最小二乘法進行線性最優(yōu)化求解,這里權(quán)值均用平方項,是為了計算方便。
(12)
第三步,利用得到的左右兩路視頻平滑后的相機參數(shù)和軌跡,如果直接將兩路單獨穩(wěn)像的視頻以立體模式呈現(xiàn),會有比較差的視覺體驗。立體視頻左右?guī)乃揭暡钚枰3址€(wěn)定,以免造成視覺疲勞。同時,需要消除引入的垂直視差,在立體觀看模式下,扭曲的畫面會對人眼造成一定的傷害。
(13)
其中θi表示第i幀的旋轉(zhuǎn)角,Δi,x和Δi,y是第i幀平移向量的x和y分量,i為第i幀的縮放系數(shù)。
雙目約束Ed原定義[22]如下:
(14)
(15)
(16)
本文對雙目約束進行改進,增強左右視點的視差約束:
(17)
(18)
(19)
第四步,圖像合成。對視頻序列進行合理裁切,去掉邊緣少量未定義區(qū)域,盡量保證立體視頻窗口中主要物體不觸及邊緣,且始終在窗口中,如果此時某些幀還存在未定義區(qū)域,則利用相鄰幀進行圖像邊緣缺失信息的修復(fù)。
本文是利用MATLAB2013進行編譯,在Intel Xeon F5-2643四核,主頻3.30 GHz的CPU,內(nèi)存16 Gbyte的DELL Precision T7600臺式機上進行的測試,測試視頻為立體攝像機實拍的室外場景,視頻原格式均為HD1080 25i,分辨率為1 920×1 080,25 f/s(幀/秒)。
本文選取了3段不同的測試視頻,如圖2所示,一段是攝像機不動人動的視頻“茶”,一段是攝像機在動人也動的視頻“世博”,還有一段是攝像機在動,拍攝靜態(tài)景物的視頻“盛宣懷”。視頻長度均為10 s,即250 f。這三段實拍的立體視頻均出現(xiàn)了不同程度的抖動,可見立體視頻穩(wěn)像算法研究的必要性。
圖2 實驗視頻序列
這里以“世博”視頻序列為例。圖3為左右視點進行特征點匹配的示例??梢钥吹接悬c誤匹配情況,后面可以利用RANSAC去除。匹配點對基數(shù)相對較大,即使不能完全去除誤匹配點對,對整體并沒有太大影響。
圖3 左右視點SURF特征點匹配
得到特征點軌跡后,利用SFM算法獲取相機參數(shù),得到250 f每一幀所對應(yīng)的內(nèi)置參數(shù)矩陣以及外部旋轉(zhuǎn)參數(shù)矩陣和平移向量。取λrm=λtm=λfm=100,λrl=λtl=λfl=1,對相機外參進行平滑。相機平移參數(shù)平滑前后的路徑如圖4所示。從抖動的幅度可以看到左路比右路受到的影響更大,說明水平機位比垂直機位更容易受到影響。
圖4 左右兩路相機平滑前后運動路徑
該視頻序列在時域和空域上特征點的匹配的關(guān)系如圖5所示。利用特征匹配點對的位置信息控制左右視點水平視差的相對穩(wěn)定程度以及最小化垂直視差進行左右一致性約束,兼顧視差的穩(wěn)定度與相似度,這里取ρ=1進行處理。
圖5 特征點時域空域匹配關(guān)系示意圖
立體視頻穩(wěn)像結(jié)果如圖6所示。截取視頻的序列相同位置觀察其中運動物體的穩(wěn)像效果,并選取第177幀、第208幀和第248幀進行觀察比對。第一排為利用3D模型進行單目穩(wěn)像[21]輸出的序列,垂直視差較為明顯,第二排為使用劉[22]的弱視差約束方法輸出的穩(wěn)像序列,垂直視差得到了一定的控制,第三排為本文提出方法的穩(wěn)像結(jié)果,垂直視差得到了進一步減小,說明本文方法是有效的。
圖6 穩(wěn)像結(jié)果
圖7 “世博“穩(wěn)像后視差絕對值均值的變化量的絕對值
圖8 3種方法主觀評分
為進一步驗證視差處理效果,本文將3種方法穩(wěn)像后水平視差以及垂直視差絕對值均值的變化量的絕對值進行計算,如式(20)~(21),對比結(jié)果如圖7所示。弱視差約束方法比分別穩(wěn)像的視差變化量要小,本文提出的約束方法則進一步穩(wěn)定了水平視差以及減小垂直視差。
(20)
(21)
本文將這3種方法分別對“茶”“盛宣懷”“世博”這3個立體視頻進行處理,然后邀請20個對立體視覺有感知能力的測試者對視頻的穩(wěn)像效果進行主觀評價。測試時,3個視頻的順序是隨機的,但對同一個視頻進行主觀評價時,3種處理后的序列會連續(xù)出現(xiàn),但3種方式出現(xiàn)的順序依然是隨機的。20組評分結(jié)果如圖8所示,可以看到經(jīng)本文方法處理后,立體視頻的穩(wěn)像視覺體驗較好。
本文提出了一種改進的基于時空一致性的立體視頻穩(wěn)像方法,在單目穩(wěn)像的基礎(chǔ)上,進行了立體視頻穩(wěn)像的特殊性研究,提出了一種視差的強約束,以達到更加有效的穩(wěn)定水平視差以及最小化垂直視差的目的。本文方法經(jīng)過一系列視頻序列測試,結(jié)果表明可以獲得較好的立體穩(wěn)像效果。本文方法的局限性在于運動估計的結(jié)果依賴于SFM算法對相機參數(shù)估計的準確性。在未來工作中,將會對這方面的問題進行更深入的思考。
致謝:
本論文成果要感謝周軍老師的指導(dǎo),以及參與主觀測試的同學(xué)。
[1]HARTLEY R, ZISSERMAN A. Multiple view geometry in computer vision[M]. Cambridge: Cambridge University Press, 2000.
[2]TOMASI C, KANADE T. Shape and motion from image streams under orthography: a factorization method[J]. International journal of computer vision, 1992, 9(2): 137-154.
[3]ZHANG G, QIN X, HUA W, et al. Robust metric reconstruction from challenging video sequences[C]//Proc. IEEE Conference on Computer Vision and Pattern Recognition.[S.l.]:IEEE, 2007: 1-8.
[4]CHO W, HONG K S. Affine motion based CMOS distortion analysis and CMOS digital image stabilization[J]. IEEE transactions on consumer electronics, 2007, 53(3): 833-841.
[5]CHANG H C, LAI S H, LU K R. A robust and efficient video stabilization algorithm[C]//Proc. IEEE International Conference on Multimedia and Expo.[S.l.]:IEEE,2004: 29-32.
[6]LEE K Y, CHUANG Y Y, CHEN B Y, et al. Video stabilization using robust feature trajectories [C]//Proc.IEEE 12th International Conference on Computer Vision.[S.l.]:IEEE,2009: 1397-1404.
[7]MATSUSHITA Y, OFEK E, TANG X, et al. Full-frame video stabilization[C]// Proc. IEEE Computer Society Conference on Computer Vision and Pattern Recognition.[S.l.]:IEEE,2005: 50-57.
[8]MATSUSHITA Y, OFEK E, GE W, et al. Full-frame video stabilization with motion inpainting[J]. IEEE transactions on pattern analysis and machine intelligence,2006, 28(7): 1150-1163.
[9]CHEN B Y, LEE K Y, HUANG W T, et al. Capturing intention-based full-frame video stabilization [C]//Computer Graphics Forum.[S.l.]:Blackwell Publishing Ltd., 2008, 27(7): 1805-1814.
[10]GLEICHER M L, LIU F. Re-cinematography: improving the camera dynamics of casual video [C]//Proc. the 15th International Conference on Multimedia. [S.l.]:ACM, 2007: 27-36.
[11]GLEICHER M L, LIU F. Re-cinematography: Improving the camerawork of casual video[J]. ACM transactions on multimedia computing, communications, and applications (TOMM), 2008, 5(1): 2.
[12]GRUNDMANN M, KWATRA V, ESSA I. Auto-directed video stabilization with robust l1 optimal camera paths[C]// Proc. 2011 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). [S.l.]: IEEE, 2011: 225-232.
[13]ZHU Z, XU G, YANG Y, et al. Camera stabilization based on 2.5 D motion estimation and inertial motion filtering[C]// Proc. IEEE Int. Conf. on Intelligent Vehicles. [S.l.]:IEEE,1998: 329-334.
[14]LIU F, GLEICHER M, WANG J, et al. Subspace video stabilization[J]. ACM Transactions on Graphics (TOG), 2011, 30(1): 4.
[15]SMITH B M, ZHANG L, JIN H, et al. Light field video stabilization[C]//Proc. 2009 IEEE 12th International Conference on Computer Vision. [S.l.]:IEEE, 2009: 341-348.
[16]LIU S, WANG Y, YUAN L, et al. Video stabilization with a depth camera[C]//Proc. 2012 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).[S.l.]:IEEE, 2012: 89-95.
[17]LIU F, GLEICHER M, JIN H, et al. Content-preserving warps for 3D video stabilization[C]// Proc.ACM Transactions on Graphics (TOG). [S.l.]:ACM,2009,28(3): 44.
[18]LIU F, NIU Y, JIN H. Joint subspace stabilization for stereoscopic video[C]//Proc. the IEEE International Conference on Computer Vision. [S.l.]:IEEE,2013: 73-80.
[19]CHU C H. Video stabilization for stereoscopic 3D on 3D mobile devices[C]// Proc. 2014 IEEE International Conference on Multimedia and Expo (ICME).[S.l.]:IEEE, 2014: 1-6.
[20]FISCHLER M A, BOLLES R C. Random sample consensus: a paradigm for model fitting with applications to image analysis and automated cartography[J]. Communications of the ACM, 1981, 24(6): 381-395.
[21]ZHANG G, HUA W, QIN X, et al. Video stabilization based on a 3D perspective camera model[J]. The visual computer, 2009, 25(11): 997-1008.
[22]LIU C W, HUANG T H, CHANG M H, et al. 3D cinematography principles and their applications to stereoscopic media processing[C]//Proc. the 19th ACM international conference on Multimedia. [S.l.]:ACM, 2011: 253-262.
孔 悅,女,碩士生,主研3D視頻處理;
周 軍,副教授,主要研究方向為網(wǎng)絡(luò)多媒體信息處理;
谷 瀟,女,高工,主要研究方向為多媒體內(nèi)容制作與設(shè)計呈現(xiàn)。
責(zé)任編輯:閆雯雯
Improved stereoscopic video stabilization method based on spatial-temporal consistency
KONG Yue, ZHOU Jun, GU Xiao
(InstituteofImageCommunication&NetworkEngineering,ShanghaiJiaoTongUniversity,Shanghai200240,China)
With the prevalence of stereo shooting equipment, there is an increasing need for stereoscopic video stabilization. Directly watching stereoscopic videos with jitter will easily generate visual fatigue. If traditional 2D video stabilization method is applied independently to left and right videos, additional vertical parallax will be introduced and horizontal parallax will become unsteady, which will lead to bad viewing experience. Therefore, an improved stereoscopic video stabilization method based on 3D-modeled monocular image stabilization is presented, strengthening spatial-temporal consistency constraint to stable horizontal parallax and minimize vertical parallax more effectively. Finally, the video sequences are cropped and enlarged properly. Several different shaky stereoscopic videos have been tested, and the results show that the method is effective.
stereoscopic video stabilization; parallax; spatial-temporal consistency
孔悅,周軍,谷瀟. 基于時空一致性的立體視頻穩(wěn)像改進方法[J]. 電視技術(shù),2016,40(11):100-106. KONG Y, ZHOU J, GU X. Improved stereoscopic video stabilization method based on spatial-temporal consistency [J]. Video engineering,2016,40(11):100-106.
TN919.82
A
10.16280/j.videoe.2016.11.021
國家科技支撐計劃項目(2015BAK05B03);國家自然科學(xué)基金項目(61471234)
2016-03-02