熊 俊,周 軍,湯 毅
(1.上海交通大學圖像通信與網(wǎng)絡工程研究所,上海 200240;2.上海文廣科技集團,上海 200072)
隨著3D顯示技術的飛速發(fā)展與日益進步,市場上出現(xiàn)了越來越多的3D電視、3D顯示器、3D投影機等3D顯示設備[1],而3D照片、3D游戲、3D視頻的漸漸普及也體現(xiàn)了3D顯示技術已成為現(xiàn)代顯示技術的必然趨勢。
在3D圖像顯示技術不斷發(fā)展和成熟的同時,3D內(nèi)容插入技術也迫切需要革新。這里的插入的內(nèi)容[2]是指為了豐富觀看者需要在圖像中插入的字幕、選單、圖標[3]等。拿字幕來說,傳統(tǒng)的2D字幕只是將字幕覆蓋在圖像上,而對于3D圖像,在3D視頻的播放過程中,立體圖像會不斷的有景深的變化,如果像2D視頻一樣直接將字幕顯示在銀屏上,那么隨著視頻的播放,觀看者在觀看時往往會很難同時看清圖像和字幕,因為人眼視覺的雙目會聚與焦點會產(chǎn)生不一致[4],并且長時間觀看會產(chǎn)生視覺疲勞問題,所以在插入3D字幕時一定要考慮立體圖像的深度變化??紤]到觀看者觀看字幕的習慣與圖像深度變化等因素,本文提出了一種3D字幕的混合插入技術,將字幕以3D的顯示效果添加到立體圖像中,并根據(jù)場景的情況來確認景物與3D字幕的遮擋關系,解決3D圖像中字幕與圖像深度混亂的問題,能達到更好的立體觀看效果。
在二維視頻上插入字幕,只是簡單地將其覆蓋到圖像上,已添加的字幕在視覺上遮擋住了原始圖像中的物體,所以字幕會相對于圖像上的其他物體顯得隔觀看者更近。而3D視頻是基于立體視覺系統(tǒng)的,為人的雙眼提供了一個立體圖像對,這個立體圖像對中相同物體位置的視差會在人腦中產(chǎn)生一定的深度。在這種情況下,僅僅在左圖和右圖上疊加字幕是不夠的,因為這時的立體圖像具有深度信息,它們的深度不僅通過視覺遮擋來反映,而且與左右圖像的視差有關。因此,當在3D圖像上插入字幕時,要確認字幕和景物的遮擋關系來保證視差和遮擋關系的一致性。為了達到這個目標,有必要知道圖像中不同景物的深度。當字幕的深度小于圖像的深度時,字幕隔觀看者更近,這時字幕會遮擋住圖像;當字幕的深度小于圖像的深度時,圖像隔觀看者更近,這時字幕會被圖像遮擋住。因此,為了得到一個合適插入的3D字幕,必須要知道圖像的深度信息。
現(xiàn)有的立體字幕主要是將字幕直接放置在立體圖像的最前面,字幕自始至終浮現(xiàn)在銀幕前,并沒有考慮到立體圖像內(nèi)容的景深變化,會形成位于屏幕上的字幕遮擋住了浮現(xiàn)在屏幕之前圖像的情況,觀眾很難同時看到字幕和內(nèi)容,并且觀眾同時觀看立體圖像和字幕時,眼睛聚焦不斷改變,會感到累甚至頭昏眼花,沒有解決視覺疲勞問題,所以立體圖像強烈的縱深感是添加3D字幕時必須考慮的因素。
文獻[5]提出了一種3D視頻中立體字幕疊加技術,該方法將3D字幕以立體圖像對最大的負視差添加到立體視頻中,使得字幕一直遮擋住圖像,浮現(xiàn)在圖像之前,相對于圖像離人眼最近。這樣即能將字幕以3D的形式顯示在屏幕之前,同時也解決了3D字幕會對立體圖像的內(nèi)容造成干擾的問題。但是考慮到在播放過程中圖像會出現(xiàn)浮現(xiàn)在眼前的特效,如果此時字幕依然出現(xiàn)在圖像之前,將會非常嚴重的影響觀眾的觀看;另外字幕的深度隨著場景深度的變化不斷變化,會容易出現(xiàn)字幕變化不連貫的現(xiàn)象;最后,人們習慣了觀看大小和位置固定的字幕,如果字幕在視頻中有太多的變化,會有喧賓奪主的感覺,所以這種3D字幕的添加方法也有很多弊端。
本文在3D視頻中插入3D字幕是立體實現(xiàn)和增強實現(xiàn)兩個過程。在立體實現(xiàn)中,將字幕以一個確定的負視差插入到左右視圖中,以前景的立體效果顯示在觀看者的眼前;在增強實現(xiàn)中,將字幕融入到場景中,字幕與景物的遮擋關系會根據(jù)場景的深度變化,從而解除字幕與場景深度混亂的問題,達到字幕與場景虛實結合的效果。
本文在3D視頻中插入3D字幕的方法可以理解成是立體實現(xiàn)和增強實現(xiàn)兩個過程,如圖1所示。立體實現(xiàn)是將字幕以3D形式顯示在觀看者眼前,字幕會立體地浮現(xiàn)在屏幕之外;增強實現(xiàn)是為了將虛擬的3D字幕融入到真實的場景中,考慮到場景的深度不斷的變化,通過比較場景與字幕的深度,來得出字幕與場景相互遮擋的關系,然后根據(jù)這個遮擋關系對圖像進行修復,從而解決字幕和場景深度混亂的問題。
圖1 3D字幕的實現(xiàn)流程
所謂3D字幕,就是在播放3D視頻的過程中,字幕也以立體的形式顯示出來,與傳統(tǒng)的2D字幕不同,2D字幕只是將字幕覆蓋在圖像上面,這樣字幕自始自終都固定在屏幕上,因此為了實現(xiàn)3D字幕,不只是將字幕簡單的覆蓋在圖像上,而需要考慮字幕浮出屏幕的深度問題。3D圖像的深度由立體圖像對中同一物體的視差所決定,所以為了讓字幕以立體的形式浮現(xiàn)在顯示屏上,需要將字幕以一定的視差添加到立體圖像對上。
公式(1)、(2)以相似三角形的關系顯示了圖2a中正視差與深度的關系;公式(3)、(4)顯示了圖2b中負視差與深度的關系。圖中的紅色圓形為物體在人眼中顯示的實際深度位置。式中:b為左右眼的距離,d為左右兩幅圖的視差值大小,R為每個單位距離上像素的個數(shù),h為人眼與顯示屏的距離,x為物體會出現(xiàn)在顯示屏之外深度的距離。
圖2 正視差和負視差時的深度情況
由公式(1)~(4)以及圖2可以看出,左右立體視圖上具有正視差的場景會以遠景的形式出現(xiàn),在人眼觀看時會呈現(xiàn)在屏幕后方,而左右立體視圖上具有負視差的場景會以近景的形式出現(xiàn),在人眼觀看時呈現(xiàn)在屏幕前方,而零視差的場景就會直接顯示在顯示屏上面。因此,添加3D字幕時,為了讓字幕能夠浮現(xiàn)在屏幕之前,需要將同樣的字幕以一定的負視差分別添加到立體圖像對中,即左圖中的字幕相對于右圖中的字幕會在水平方向偏右。不過視差管理要求考慮長時間觀看3D可能引發(fā)人體不良反應,因此視差的容許范圍很小,比如好萊塢的3D電影負視差時畫面水平方向的2%以內(nèi)[6]。所以將字幕以一定負視差添加到左右立體視圖上去能夠得到浮現(xiàn)在屏幕之外的3D字幕。
圖3為3D字幕立體實現(xiàn)后的效果圖和視差圖,當字幕以一定的負視差添加時,字幕會以前景的效果顯示出來,如圖3a所示。但是由圖3b可以看出,在字幕區(qū)域里,灰度值較小的字幕遮擋住了灰度值較大的景物,這種不正常的遮擋現(xiàn)象會造成觀看時本來位于景物后面的字幕會到圖像前面來,造成觀看時視覺混淆,戴上立體眼鏡看圖3a,就會發(fā)現(xiàn)本該位于木柱和蜻蜓翅膀后面的字幕反而遮擋住了這些景物,所以為了達到更好的觀看效果,僅僅對字幕進行立體實現(xiàn)是不夠的,還需要正確地處理字幕和場景的相互遮擋關系。
圖3 3D字幕的立體實現(xiàn)圖與視差圖
增強實現(xiàn)是將虛擬的物體疊加到真實的場景中,讓虛擬的物體與真實的場景共同存在。在3D字幕的增強實現(xiàn)中,虛擬的3D字幕將會被插入到圖像的場景中。文獻[7]闡述了遮擋和視差的關聯(lián)性,以及觀看者在獲得場景的深度信息時怎樣防止它們的不一致性。融合虛擬和真實的物體需要一個理想的環(huán)境,文獻[8]的研究表明了視覺的效果與物體的相對深度有關,觀看者往往對在顯示屏附近的深度很敏感,而這種敏感隨著物體在重建在顯示屏前或后而減少。所以要想將3D字幕融入到立體圖像中,需要解決字幕與圖像場景相互遮擋的問題。
圖4為結合公式(2)、(4)所得的視差與深度的關系圖??梢?,視差與深度成正相關關系,當字幕的深度小于圖像的深度,離人眼更近時,字幕會遮擋住圖像,而反過來,當字幕的深度大于圖像,圖像離人眼更近時,圖像會遮擋住字幕。再結合公式(2)、(4)與圖4,當左右視圖同一場景具有正視差時,深度大小與正視差大小呈正相關關系,而當左右立體視圖中的同一場景為負視差時,深度大小與負視差的大小呈反相關關系,所以字幕與圖像場景的相互遮擋問題可以由比較它們的深度問題歸結為比較它們的視差問題。因為將左右字幕以負視差分別添加到左右視圖上,所以負視差比字幕視差寬的場景會遮擋住字幕,負視差比字幕視差窄的場景會被字幕遮擋。
圖4 與深度的關系圖
2.2.1 基于SAD算法的立體匹配獲得校準的視差圖
本文在添加3D字幕時,以一個確定的值來作為負視差,所以需要得到左右視圖中場景的視差值來與字幕的視差值進行對比。這里利用SAD算法來得到立體圖像對的視差圖。SAD算法是以左目圖像的源匹配點為中心,定義一個窗口,統(tǒng)計其窗口的灰度值的和,然后在右目圖像中逐步計算其左右窗口的灰度和的差值,最后搜索到的差值最小的區(qū)域的中心像素,即為匹配點。
由SAD匹配算法得到的視差圖可能含有一些需要被消除的孤立噪聲,如圖5b中的白點??梢杂弥兄禐V波來處理這些噪聲。圖5為未進行濾波和進行了濾波的視差圖的比較。在使用中值濾波時,相對大的窗口選擇會使圖像內(nèi)容變得更連貫,所以對于插入的3D字幕來說,為了使字幕在場景中的遮擋關系具有連貫性,往往選擇比較大的窗口進行中值濾波。
圖5 測試圖、視差圖與濾波后的視差圖
圖5a,5b,5c分別為原始的測試圖、由SAD算法的到的視差圖、經(jīng)過中值濾波后的視差圖。經(jīng)過濾波后的視差圖中景物的灰度值變化連貫,適合添加3D字幕,保證字幕與景物遮擋關系的連貫性。
2.2.2 去除被遮擋字幕的圖像修復
圖像修復是指對受到損壞的圖像進行修復或者去除圖像中的多余物體[9]。圖像修復者需要采取最恰當?shù)姆椒ɑ謴蛨D像的原始狀態(tài),同時保證圖像達到最理想的藝術效果。本文根據(jù)上面得到的濾波后的視差圖,將場景視差值與字幕的視差值進行對比,然后對已添加立體字幕的左右圖像對進行圖像修復。結合公式(2)、(4)與圖4,可以得到視差與深度的關系,字幕會遮擋住深度大于它的場景,也就是字幕會遮擋住視差值大于字幕視差的場景。對已經(jīng)進行字幕立體實現(xiàn)的圖像以原始視差圖為基準進行視差值的搜索,對于景物遮擋住字幕的區(qū)域需要進行圖像修復,以讓景物遮擋住字幕。這里本文將所需修復的區(qū)域用原圖的像素點來替代,得到結果圖。
圖6為去字幕后的紅藍效果圖與它的視差圖,圖6a為對圖3a進行增強實現(xiàn)的效果,在圖中,部分字幕被場景中蜻蜓的翅膀和木柱所遮擋住,而在它的視差圖圖6b中,蜻蜓翅膀和木柱的灰度值較大,它們遮擋住了字幕,而字幕遮擋住了灰度值最小的背景。經(jīng)過去除遮擋字幕的圖像修復,在圖中字幕區(qū)域里,字幕與場景的灰度值都呈現(xiàn)了正常的遮擋關系,沒有錯誤遮擋的現(xiàn)象。
圖7是通過本文介紹的方法添加3D字幕的的實驗結果左右雙目圖。圖6a為圖7的紅藍立體圖。圖中蜻蜓的翅膀和木樁的負視差絕對值大于字幕的負視差絕對值,據(jù)圖4可得它們相對于字幕隔觀看者更近,所以翅膀和木樁會遮擋住字幕。戴上3D眼鏡觀看圖6a,除了會看到字幕的立體效果外,還能看到蜻蜓和木樁遮擋住字幕,位于字幕前的立體效果。
圖7 本實驗的左右雙目圖
本文提出了一種在3D圖像中插入立體字幕的新的方法。首先將字幕以一定的負視差添加到左右視圖上,使字幕產(chǎn)生立體效果,然后考慮到遮擋和視差的關系是避免視覺不適的關鍵因素,通過對比3D字幕的視差與景物的視差,確定字幕與景物的遮擋關系,并進行圖像修復,將3D字幕融入到圖像的場景中,得到字幕與場景虛實結合的圖像。這種插入3D字幕的技術還可以用于在3D電視中插入圖標、選單等內(nèi)容,能夠有利于觀眾更真實地觀看顯示的3D效果。
[1]中關村在線.未來是3D時代?細數(shù)3D技術的發(fā)展[EB/OL].[2012-01-01].http://vga.zol.com.cn/175/1759743.html.
[2]BLONDE L,DOYEN D,BOREL T.3D stereo rendering challenges and techniques[C]//Proc.44th Conference on Information Sciences and Systems.Princeton:IEEE Press,2010:1-6.
[3]RODRIGO J A,JIMENEZ D,MENENDEZ J M.Real-time 3-D HDTV depth cue conflict optimizatio[C]//Proc.IEEE 2011 International Conference on Consumer Electronics.Berlin:IEEE Press,2011:5-9.
[4]王愛華,王瓊?cè)A.光柵式自由立體顯示器概述[J].現(xiàn)代顯示,2009(10):14-17.
[5]梁麗,禇晶輝,張小佩,等.一種3D視頻中立體字幕疊加技術[J].電視技術,2011,35(20):32-34.
[6]奕悅.3D 電視踏上征途[EB/OL].[2012-04-01].http://www.zongyiweekly.com/list0215576.html.
[7]DRASCIC D,MILGRAM P.Perceptual issues in augmented reality[C]//Proc.SPIE,Stereoscopic Displays VII and Virtual Systems III:vol 2653.California:SPIE Press,1996:123-143.
[8]DE SILVA V,F(xiàn)ERNANDO A,WORRALL S,et al.Sensitivity analysis of the human visual system for depth cues in stereoscopic 3-D displays[J].IEEE Trans.Multimedia,2011,13(3):498-506.
[9]ANUPAM,GOYAL P,DIWAKAR S.Fast and enhanced algorithm for exemplar based image inpainting[C]//Proc.Fourth Pacific-Rim Symposium on Image and Video Technology.[S.l.]:IEEE Press,2011:325-330.