成于慶,姜秀華
(中國(guó)傳媒大學(xué) 信息工程學(xué)院,北京 100024)
立體電視(Stereoscopic Television)又稱三維電視(Three Dimension Television,3DTV),是數(shù)字電視和新媒體領(lǐng)域的一大熱點(diǎn)。與現(xiàn)行電視相比,主要區(qū)別在于現(xiàn)行電視只傳送一個(gè)平面的信息,而立體電視還傳送物體的深度信息。立體電視在一個(gè)平面內(nèi)使人們可直接看到三維立體圖,畫中事物既可以凸出于畫面之外,也可以深藏其中,給人身臨其境的感覺(jué),有很高的藝術(shù)欣賞價(jià)值。立體電視視頻的質(zhì)量直接影響著立體電視技術(shù)的發(fā)展。目前關(guān)于立體電視視頻質(zhì)量評(píng)價(jià)缺乏科學(xué)體系和行業(yè)統(tǒng)一的測(cè)定標(biāo)準(zhǔn),國(guó)內(nèi)外很多學(xué)者已經(jīng)開始關(guān)注研究。筆者基于目前各方提出的測(cè)定標(biāo)準(zhǔn),從立體電視技術(shù)鏈的角度,歸納出可能影響立體電視視頻質(zhì)量的各個(gè)因素,以及對(duì)視頻質(zhì)量的具體影響表現(xiàn)。
人的視覺(jué)特性和電視的電光轉(zhuǎn)換成像原理是立體電視的2個(gè)最基本的依據(jù),2個(gè)稍有差別的圖像進(jìn)入相距6~7 cm的雙眼后,由于雙目視差的存在,在大腦中綜合成有立體感的圖像。引起這種立體感覺(jué)的效應(yīng)叫做“視覺(jué)位移”。兩眼同時(shí)觀察一個(gè)物體時(shí),物體上每一點(diǎn)對(duì)兩只眼睛都有一個(gè)張角。物體離雙眼越近,其上每一點(diǎn)對(duì)雙眼的張角越大,視差位移也越大。
對(duì)于平面圖像序列,由于進(jìn)入眼睛的是一幅幅角度完全相同的圖像,所以視覺(jué)和大腦無(wú)法提取畫面上物體真實(shí)意義上的空間立體感,不能體現(xiàn)其三維關(guān)系。而立體圖像與平面圖像有著本質(zhì)的區(qū)別,平面圖像反映了物體上下、左右二維關(guān)系。人們看到的一些平面圖也有立體感,這主要是運(yùn)用光影、虛實(shí)、明暗對(duì)比來(lái)體現(xiàn)的,而真正的立體畫是模擬人眼看世界的原理,利用光學(xué)折射制作出來(lái),它可以使眼睛感觀上看到物體的上下、左右、前后三維關(guān)系,是真正視覺(jué)意義上的立體畫。
Julesz曾經(jīng)就利用隨機(jī)點(diǎn)圖證明雙眼視差可以同任何視覺(jué)經(jīng)驗(yàn)無(wú)關(guān)[1]。后人據(jù)此建立了基于雙眼視差的立體視頻質(zhì)量客觀評(píng)價(jià)的模型。
從立體電視技術(shù)鏈的角度分析,一個(gè)完整的立體電視系統(tǒng)主要由采集制作、發(fā)端壓縮編碼、信號(hào)傳輸、收端硬件解碼和立體顯示這5大環(huán)節(jié)組成[2],如圖1所示。最后觀眾通過(guò)佩戴立體眼鏡或者裸眼方式看到立體視頻。每個(gè)環(huán)節(jié)都可能造成視頻質(zhì)量不同程度的損傷,影響最后的立體效果。
立體視頻質(zhì)量的好壞很大程度上取決于前端立體視頻信號(hào)源的質(zhì)量。首先考慮立體視頻內(nèi)容的獲取途徑??偟膩?lái)說(shuō),途徑可分為3大類:立體拍攝、立體動(dòng)畫制作以及2D轉(zhuǎn)3D視頻方法,如圖2所示。
立體拍攝方法有多種:
1)使用三維掃描儀刻畫出相機(jī)到場(chǎng)景中每一個(gè)物體像素點(diǎn)的物理距離,深度信息刻畫非常精確。但是其價(jià)格昂貴,掃描時(shí)間長(zhǎng),只能掃描靜態(tài)物體,不能進(jìn)行動(dòng)態(tài)場(chǎng)地的三維掃描,掃描場(chǎng)景區(qū)域有限,因此不具備普適性。
2)使用深度相機(jī),同樣也能獲取場(chǎng)景中的三維信息,但是因?yàn)樯疃认鄼C(jī)較多地采用紅外線方式進(jìn)行深度測(cè)量,如果發(fā)射出去的射線經(jīng)過(guò)了若干個(gè)面的反射,比如反射到墻上,墻反射到地上,地又反射到桌子上,然后反射回接收器,深度計(jì)算就會(huì)產(chǎn)生比較大的偏差,因此精度比較低,產(chǎn)生的立體畫面質(zhì)量比較差。
3)使用多相機(jī)拍攝系統(tǒng)。雙目采集通過(guò)2個(gè)攝像頭模擬人的雙眼,方便得到場(chǎng)景跟人眼匹配的立體信息。但是缺點(diǎn)在于:首先2個(gè)攝像鏡頭不可調(diào)整,其次只有2個(gè)視點(diǎn),用戶無(wú)法選擇新的視點(diǎn)觀看場(chǎng)景,即缺乏交互功能。多目采集正好彌補(bǔ)了這些缺點(diǎn),但攝像機(jī)數(shù)量多,攜帶不便,數(shù)據(jù)量非常大,壓縮起來(lái)困難。清華大學(xué)建立了一個(gè)環(huán)形的光場(chǎng)采集系統(tǒng),在籠子里鋪上一圈攝像機(jī),配不同的光照,采集過(guò)程中實(shí)現(xiàn)變光照,然后多相機(jī)多角度采集。當(dāng)然,這個(gè)系統(tǒng)攝像機(jī)數(shù)量多,數(shù)據(jù)量也非常大,而且采集過(guò)程中光照不停變化,分析數(shù)據(jù)特性比較困難。Ijsselsteijn等人專門研究了拍攝機(jī)器參數(shù)變化對(duì)立體圖像質(zhì)量的影響,對(duì)3D電視系統(tǒng)數(shù)據(jù)采集的攝像機(jī)參數(shù)優(yōu)化有指導(dǎo)意義[3]。用多相機(jī)模擬系統(tǒng)代替人眼拍攝立體視頻存在2個(gè)問(wèn)題。首先,人眼具有快速的視線聚合距離調(diào)整功能,模擬系統(tǒng)附加自動(dòng)控制裝置模擬這些人眼的細(xì)微運(yùn)動(dòng)比較困難。其次,多臺(tái)攝像機(jī)的曝光、鏡頭縮放和聚焦控制必須做到同步,否則會(huì)存在stonekey,crosstalk等扭曲效應(yīng)[4]。圖3為立體拍攝設(shè)備實(shí)物舉例。
計(jì)算機(jī)制作生成三維動(dòng)畫的軟件非常多,如3ds Max,Maya等。這方面對(duì)立體視頻源質(zhì)量不在討論范圍內(nèi)。
目前通過(guò)2D轉(zhuǎn)3D技術(shù)獲得的立體視頻質(zhì)量普遍不高。2D轉(zhuǎn)3D方式首先使用普通攝像機(jī)拍攝立體環(huán)境,通過(guò)光線透過(guò)鏡頭在CCD成像面上得到二維圖像,通過(guò)二維信息換算或者反算回原有的三維信息,在視覺(jué)上是一種求解過(guò)程,但未知變量個(gè)數(shù)遠(yuǎn)遠(yuǎn)大于所能建立起來(lái)的方程數(shù),因此解非常多。正因如此,最終恢復(fù)出來(lái)的三維場(chǎng)景的結(jié)果只能是一個(gè)近似結(jié)果,不可能還原成真實(shí)的三維場(chǎng)景。此外,還有一個(gè)問(wèn)題,因?yàn)樽兞總€(gè)數(shù)很多,方程個(gè)數(shù)同樣很多,整個(gè)求解復(fù)雜度非常高,導(dǎo)致立體效果較差。
立體電視的拍攝制作都是在保持左眼信號(hào)與右眼信號(hào)分離與獨(dú)立的情況下進(jìn)行的,不進(jìn)行混合與碼流壓縮,保持2個(gè)信號(hào)的高質(zhì)量,一旦完成制作,就要根據(jù)應(yīng)用考慮下一步的處理。
現(xiàn)行電視只傳送一個(gè)平面的信息,而立體視頻還需傳送深度信息,立體視頻要拍攝左右眼2路視頻。這種逼真感的直接代價(jià)就是2倍甚至更多于普通視頻的數(shù)據(jù)量,這給立體視頻的傳輸和存儲(chǔ)帶來(lái)困難,所以必須借助于高效的編碼技術(shù)壓縮數(shù)據(jù)量。
目前立體視頻壓縮編碼方法主要有基于視差估計(jì)的編碼、多視點(diǎn)視頻編碼和三維網(wǎng)格編碼3種技術(shù)[5]?;谝暡罟烙?jì)的編碼是尋找各視點(diǎn)圖像間的空域相關(guān)性,但重建的目標(biāo)圖像塊效應(yīng)比較嚴(yán)重。多視點(diǎn)視頻由放置于不同位置的攝像機(jī)對(duì)同一場(chǎng)景同步拍攝獲取的多個(gè)視頻序列構(gòu)成,用戶觀看時(shí)可改變視點(diǎn)或視角。同一個(gè)場(chǎng)景內(nèi)多個(gè)視點(diǎn)的畫面之間存在很高的相關(guān)性,編碼時(shí)通過(guò)消除空間冗余和時(shí)間冗余壓縮數(shù)據(jù)量,但由于不同視頻有其基于內(nèi)容的特殊性,壓縮方式不一定適用于所有內(nèi)容的立體視頻。三維網(wǎng)格用于描述三維場(chǎng)景、人臉部表情和身體動(dòng)作的變化,通過(guò)三維建模軟件和三維掃描獲取三維網(wǎng)格模型,數(shù)據(jù)量巨大,一般通過(guò)量化法向、紋理坐標(biāo)、顏色、頂點(diǎn)軌跡等屬性達(dá)到壓縮的目的,而量化造成了視頻質(zhì)量不可避免的下降[6]。
Stelmach等人研究了立體視頻編碼技術(shù)與主觀感知質(zhì)量間的關(guān)系。通過(guò)研究左右2視點(diǎn)在不同壓縮率和不同空間分辨力對(duì)立體圖像質(zhì)量的影響時(shí)發(fā)現(xiàn),立體圖像質(zhì)量主要取決于質(zhì)量較高的圖像視點(diǎn),這意味著只要保持主觀質(zhì)量較好的那個(gè)視點(diǎn)碼率不變,適當(dāng)降低另一個(gè)視點(diǎn)圖像的編碼碼率,不會(huì)影響立體圖像的主觀質(zhì)量[7]。
在研的編碼方法還包括多描述編碼(Multiple Description Coding)、信道自適應(yīng)編碼(Channel Adaptive Coding)以及多視點(diǎn)視頻編碼(Multiple Visual Coding),不斷減小編碼環(huán)節(jié)對(duì)源視頻造成的損傷。
立體信號(hào)的傳輸離不開目前的電視傳輸手段——有線傳輸、衛(wèi)星傳輸、地面?zhèn)鬏斠约靶屡d的互聯(lián)網(wǎng)傳輸(IPTV)。3D電視數(shù)據(jù)量巨大,傳輸帶寬加大,而且數(shù)據(jù)之間還有非常緊密的聯(lián)系,傳統(tǒng)傳輸技術(shù)面臨挑戰(zhàn)。
目前國(guó)際上立體電視主要是基于衛(wèi)星傳輸?shù)牧Ⅲw電視業(yè)務(wù)。為了讓已安裝機(jī)頂盒的用戶解碼立體信號(hào),基于衛(wèi)星傳輸?shù)牧Ⅲw電視業(yè)務(wù)傳輸?shù)氖强臻g交錯(cuò)的SBS(Side-by-Side)的半高清立體信號(hào),需戴眼鏡觀看。SBS方式將每幀圖像一分為二,顯然這種方式以犧牲水平分解力為代價(jià)。與SBS相對(duì)應(yīng)的是up/down方式,減半垂直分解力,即每幀圖像在垂直方向上像素減半,減半的左右眼圖像合并成新的一幀,其碼流與SBS方式相當(dāng),都造成清晰度下降。
新興的基于互聯(lián)網(wǎng)的立體視頻點(diǎn)播傳輸系統(tǒng)框架如圖4所示。在整個(gè)框架中,立體視頻點(diǎn)播服務(wù)端可以和多個(gè)客戶端相連,負(fù)責(zé)立體視頻數(shù)據(jù)的RTP封裝、發(fā)送,RTSP命令的響應(yīng)等,客戶端利用RTSP協(xié)議點(diǎn)播立體視頻節(jié)目,實(shí)現(xiàn)節(jié)目的播放、暫停、停止、隨機(jī)訪問(wèn)等操作。網(wǎng)絡(luò)服務(wù)端利用網(wǎng)頁(yè)的方式發(fā)布節(jié)目,客戶端利用瀏覽器了解節(jié)目的相關(guān)信息并進(jìn)行點(diǎn)播。傳輸對(duì)視頻質(zhì)量造成的影響主要包括以下4點(diǎn):
1)音視頻同步。當(dāng)聲音與顯示的視頻圖像不匹配時(shí),稱為音視頻失同步,通常由于視頻鏈路傳送端和接收端之間的時(shí)鐘差異導(dǎo)致。如果通過(guò)IP網(wǎng)絡(luò)傳輸立體視頻信號(hào),由于IP網(wǎng)絡(luò)與生俱來(lái)就是異步的,只能通過(guò)確保充足的網(wǎng)絡(luò)帶寬和不存在處理瓶頸(如路由器過(guò)載等會(huì)導(dǎo)致分組次序錯(cuò)亂)加以解決。
2)丟包。丟包是IP視頻傳輸系統(tǒng)經(jīng)常發(fā)生的差錯(cuò)之一,原因包括IP報(bào)頭破壞、鏈路過(guò)載、數(shù)量不足或網(wǎng)絡(luò)設(shè)備故障等。IP系統(tǒng)只能最大限度地降低丟包率,但對(duì)于偶爾發(fā)生的丟包現(xiàn)象很難避免。
3)分組抖動(dòng)。當(dāng)組成視頻數(shù)據(jù)流的分組無(wú)法以一種平滑連續(xù)的方式到達(dá)時(shí),就會(huì)產(chǎn)生分組抖動(dòng)。對(duì)于時(shí)效性要求不高的數(shù)據(jù),例如Web網(wǎng)頁(yè),抖動(dòng)無(wú)影響,但是對(duì)于實(shí)時(shí)的視音頻數(shù)據(jù)流而言,抖動(dòng)的危害性很大。
4)誤碼。當(dāng)用戶接收的信號(hào)與最初發(fā)出的數(shù)據(jù)不同時(shí),就出現(xiàn)了誤碼。不同的傳輸介質(zhì)(無(wú)線、光纖、同軸電纜、雙絞線等)導(dǎo)致誤碼出現(xiàn)的原因各不相同。一些差錯(cuò)僅會(huì)影響到一個(gè)像素,無(wú)害;而多數(shù)差錯(cuò)會(huì)影響到一連串的視頻幀,非常嚴(yán)重。由于誤碼趨向于隨機(jī)分布,沒(méi)有太好的方法預(yù)測(cè)。目前糾正誤碼的主要方法有差錯(cuò)重傳、前向糾錯(cuò)等。但差錯(cuò)重傳會(huì)導(dǎo)致延時(shí),前向糾錯(cuò)會(huì)消耗額外帶寬,實(shí)際使用時(shí)還需綜合考慮[8]。
3D顯示是3D電視技術(shù)鏈中的最后一環(huán),也是最影響終端用戶的一環(huán)。要顯示3D內(nèi)容,就要表示出每個(gè)點(diǎn)的深度或距離信息。3D顯示技術(shù)直接影響立體視頻清晰度、視場(chǎng)、深度、亮度、色度、對(duì)比度等各方面。
實(shí)現(xiàn)3D成像的方法有多種,設(shè)備上可分為液晶顯示器、等離子顯示器、投影儀以及新出現(xiàn)的手機(jī)等移動(dòng)設(shè)備;技術(shù)上可分為眼鏡式3D和裸眼式3D技術(shù)2大類。表1分別對(duì)2大類立體顯示技術(shù)對(duì)立體視頻質(zhì)量的影響進(jìn)行了比較。
從表1中可看出,不同的顯示技術(shù)直接導(dǎo)致不同的立體顯示效果。雖然3種眼鏡式3D技術(shù)最終都將發(fā)展為更高一級(jí)的裸眼3D技術(shù),但偏光式和主動(dòng)快門式3D顯示技術(shù)成像效果好、技術(shù)成熟,是目前3D顯示的較好選擇。
人類的立體視覺(jué)一般由心理立體視覺(jué)與生理立體視覺(jué)兩部分組成[9]。心理立體視覺(jué)是人通過(guò)觀察事物形成的一種立體視覺(jué)經(jīng)驗(yàn)和視覺(jué)記憶,可以幫助人們觀看平面圖像時(shí)感覺(jué)到一定的深度信息。生理立體視覺(jué)是由人眼的晶狀體調(diào)節(jié)、雙眼會(huì)聚和雙眼視差等因素構(gòu)成的立體視覺(jué),其中雙眼視差是人眼最強(qiáng)烈的生理立體視覺(jué)因素。但據(jù)統(tǒng)計(jì),約有4%~6%的人由于先天或后天的原因,存在視差立體感視盲,看任何物體都是平面,沒(méi)有空間距離感和深淺度。進(jìn)一步估計(jì),一般來(lái)說(shuō)雙眼視力相差度數(shù)在250°以上,就可能成為“立體視覺(jué)異?!薄_@類人觀看立體電視時(shí),立體感必然也會(huì)大打折扣[10]。此外,每個(gè)人由于個(gè)體的差異,雙眼視差有所不同,所看立體景深有出入,而拍攝攝像機(jī)的視差是固定的,這也會(huì)導(dǎo)致部分人觀看立體視頻時(shí)立體效果有所降低,或出現(xiàn)雙眼疲倦、身體不適感。
表1 立體顯示技術(shù)對(duì)立體視頻質(zhì)量的影響
影響立體視頻質(zhì)量的原因是多方面的,隨著技術(shù)的進(jìn)步,研究人員正在不斷采取新的方法,提高立體視頻質(zhì)量。
在編解碼方面,中國(guó)具備自主知識(shí)產(chǎn)權(quán)的第二代信源編碼標(biāo)準(zhǔn)AVS2定義了關(guān)于立體視頻編解碼的標(biāo)準(zhǔn),支持深度編碼、場(chǎng)景編碼等新的立體視頻表示方法,并介入ISO/IEC MPEG的高效視頻編碼(HVC)的制定;國(guó)際上,藍(lán)光光盤協(xié)會(huì)制定的藍(lán)光3D標(biāo)準(zhǔn)采用了基于多視角視頻編碼(MVC)的3D視頻編碼技術(shù),該技術(shù)是基于ITU H.264的AVC視頻編碼技術(shù)上的拓展,相比2D內(nèi)容,藍(lán)光3D標(biāo)準(zhǔn)使用的MPEG-4-MVC技術(shù)對(duì)左右眼畫面的數(shù)據(jù)進(jìn)行壓縮后數(shù)據(jù)增量大約為50%,能夠?qū)崿F(xiàn)與現(xiàn)有2D藍(lán)光播放機(jī)的全高清1 080p高分辨力的后向兼容性。
在傳輸方面,HDMI高清晰度多媒體接口協(xié)議標(biāo)準(zhǔn)在HDMI 1.4的基礎(chǔ)上,專門為3D立體影像傳輸進(jìn)行升級(jí),改進(jìn)的1.4a版規(guī)范和對(duì)應(yīng)的兼容性測(cè)試標(biāo)準(zhǔn)(CTS)也已發(fā)布,通過(guò)改進(jìn)的HDMI接口可以在一根傳輸電纜內(nèi)傳送無(wú)壓縮的音頻信號(hào)及高分辨力的立體視頻信號(hào)。
在顯示方面,近日美國(guó)CES2011消費(fèi)類電子展上出現(xiàn)了不少新型顯示器。Cinema 3D電視采用FPR(Film Patterned Retarder)技術(shù),很好解決了主動(dòng)快門式立體電視圖像模糊及閃爍問(wèn)題。3D Light Boost技術(shù)采用液晶板表面薄型的薄膜,使3D影像的清晰度達(dá)到最大化。Cinema 3D電視同時(shí)配備Local Diming、微型像素控制以及支持減少運(yùn)動(dòng)模糊的“Tru Motion 400 Hz”功能,極大提高了立體電視的顯示效果,液晶顯示器的響應(yīng)時(shí)間也得到縮減,這樣不但可使3D圖像更加清晰,還能減少鬼影現(xiàn)象,避免觀眾視覺(jué)疲勞[11]。多款新型主動(dòng)快門式3D眼鏡重量越來(lái)越輕。其中一款用戶可以定做有度數(shù)的鏡片,方便了近視眼患者;另一款采用全新鏡架邊緣設(shè)計(jì),鏡架連接于LCD鏡片上沿,為觀眾提供更大的畫面觀看范圍。
可以預(yù)見(jiàn),隨著立體視頻技術(shù)的不斷進(jìn)步,立體視頻質(zhì)量將不斷提高,立體電視將成為今后一種新型主流的娛樂(lè)形式。
[1]JULESZ B.Binocular depth perception of computer-generated patterns[J].Bell System Technical Journal,1960,39(5):1125-1162.
[2]李小蘭.立體電視編碼傳輸技術(shù)及業(yè)務(wù)實(shí)現(xiàn)[J].電視技術(shù),2010,34(11):4-9.
[3]IJSSELSTEIJN W,DE RIDDER H,VLIEGEN J.Subjective evaluation of stereoscopic images:effects of camera parameters and display duration[J].IEEE Trans.Circuits and Systems for Video Technology,2000,10(2):225-233.
[4]WOODS A,DOCHERTY T,KOCH R.Image distortions in stereoscopic video systems[EB/OL].[2010-12-21].http://www.andrewwoods3d.com/spie93pa.html.
[5]沈縈華,呂朝輝.3DTV中的編碼技術(shù)綜述[J].電視技術(shù),2009,33(11):28-30.
[6]DEERING M.Geometry compression[EB/OL].[2010-12-21].http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.2.8941&rep=rep1&type=pdf.
[7]STELMACH L B,TAM W J.Stereoscopic image coding:effect of disparate image-quality in left-and right eye views[J].Signal Processing:Image Communication,1998,14:111-117.
[8]辛普森,格林菲爾.IPTV與網(wǎng)絡(luò)視頻:拓展廣播電視的應(yīng)用范圍[M].郎為民,集巧,譯.北京:機(jī)械工業(yè)出版社,2008.
[9]侯春萍.平面圖像立體化技術(shù)的研究[D].天津:天津大學(xué),1998.
[10]孫延祿.3D影像顯示方法叢談[J].現(xiàn)代電影技術(shù),2010(1):49-53.
[11]美國(guó)2011電子消費(fèi)展CES2011專題報(bào)告[EB/OL].[2010-12-21].http://www.pconline.com.cn/zt/ces2011/datafamily/datafamilynews/1101/2314065.html.