■文/張 磊 姜世杰
電視音頻技術(shù)發(fā)展現(xiàn)狀和展望
■文/張 磊 姜世杰
隨著電視視頻技術(shù)的不斷發(fā)展,電視音頻也從單聲道、雙聲道發(fā)展到多聲道及3D環(huán)繞聲的形式。本文從音頻技術(shù)高清化演進路線入手,介紹了當今主流的多聲道及3D環(huán)繞聲格式,并對元數(shù)據(jù)的控制功能進行闡述。通過對現(xiàn)有技術(shù)的梳理,預測了電視音頻技術(shù)會向著全維度再現(xiàn)發(fā)展,并且隨著元數(shù)據(jù)功能的完善,未來的電視音頻會具有更好的交互性及靈活性。
高清時代;3D環(huán)繞聲;元數(shù)據(jù);全維度
自從20世紀人類發(fā)明黑白電視以來,電視已經(jīng)成為信息采集、交換和傳播的主流媒體。電視技術(shù)已經(jīng)經(jīng)歷三次質(zhì)的飛躍,20世紀50年代電視從黑白過渡到彩色,給觀眾帶來了前所未有的彩色視覺體驗;20世紀90年代隨著數(shù)字技術(shù)和網(wǎng)絡技術(shù)的發(fā)展,電視從模擬的單一傳像功能向數(shù)字化的智能型、交互式、多用途方式轉(zhuǎn)變;而第三代電視是數(shù)字高清晰度電視和3D立體電視,帶給觀眾臨場感極強的高清晰度視頻圖像和極具震撼力的音響效果。在模擬電視時代,電視系統(tǒng)最多只能提供兩個聲道的鏈路。當電視的傳輸鏈路從模擬進入數(shù)字時代以后,電視伴音也從單聲道過渡到雙聲道和多聲道。尤其當數(shù)字電視的高清時代到來以后,多聲道的環(huán)繞聲系統(tǒng)已經(jīng)成為一種必然。
人類對于電視伴音重放質(zhì)量的要求總是在隨著科技水平的提高而不斷增長。而這其中最顯著的變化,就體現(xiàn)在重放系統(tǒng)聲道數(shù)量的增加上。人類的聽覺是一種對多種信息的綜合性反應。除了最基本的聲音要素,如響度、音調(diào)和音色以外,還包括反映聲音空間特性的因素,比如聲源的方向、聲源的遠近、聲場的大小、聲場的色彩等。而電視伴音系統(tǒng)聲道數(shù)的不斷增長,也就是為了能夠?qū)⑦@些信息盡可能多地予以體現(xiàn)。
在模擬電視時代,電視伴音采用單聲道系統(tǒng),只使用一只或幾只揚聲器來重放由一只傳聲器記錄的聲音信號。這種重放系統(tǒng)只能表現(xiàn)聲音的響度、音調(diào)和音色,并在一定程度上體現(xiàn)聲源的遠近,而對于聲源的空間定位等重要特性并不能表現(xiàn)出來。單聲道的電視伴音為模擬信號,采用調(diào)頻傳輸,這種信號在在傳輸、存儲和變換過程中常會產(chǎn)生下列問題:
①音頻信號存儲載體的信號動態(tài)范圍只有40~50 dB,遠低于節(jié)目源的最大信號動態(tài)范圍(120 dB);
②在信號編輯和變換中(節(jié)目編輯、轉(zhuǎn)錄和延時效果處理等)隨著變換次數(shù)的增加,音質(zhì)會迅速惡化。
因此,為了改善模擬單聲道電視伴音質(zhì)量,音頻的數(shù)字化發(fā)展成為必然趨勢。進入數(shù)字電視時代,針對標清數(shù)字電視,電視伴音為單聲道或雙聲道立體聲數(shù)字信號;針對高清數(shù)字電視,電視伴音為多聲道數(shù)字環(huán)繞聲信號。音頻信號的數(shù)字化,很容易實現(xiàn)大于90dB的動態(tài)范圍。此外數(shù)字音頻信號可以進行非線性編輯,而不會增加音頻信號的失真。
對于標清數(shù)字電視的立體聲雙聲道系統(tǒng),能夠利用“雙耳效應”來產(chǎn)生“聽覺幻像”,實現(xiàn)對前方聲源橫向、縱向的定位,并產(chǎn)生比較明顯的表現(xiàn)聲音空間特性。雖然該重放系統(tǒng)相對模擬單聲道時代在音質(zhì)和聽音效果上有了較大提升,但是與實際的聲場還有很大的差距,其主要問題是聽者的側(cè)方和后方區(qū)域聲場沒有如實地反映出來。
進入高清時代以后,隨著電視畫面的清晰度越來越高,為了得到更佳的視聽享受,多聲道環(huán)繞聲系統(tǒng)的電視伴音成為必然。多聲道環(huán)繞聲系統(tǒng)追求的是對聲音空間特性的全方位表現(xiàn),給人們?nèi)S的立體空間印象。目前數(shù)字電視音頻標準中都采用5.1環(huán)繞聲系統(tǒng),也就是3/2/.1的配置方案。這種方法是按照ITU-R BS.775的建議來確定用于重放的揚聲器擺放位置[1],如圖1所示。
圖1 ITU-R建議的5.1聲道揚聲器設置
人們?yōu)榱双@得更穩(wěn)定的聲像定位和覆蓋范圍更大的聽音區(qū)域,多聲道環(huán)繞聲系統(tǒng)已經(jīng)由5.1聲道擴展為7.1、10.2,甚至22.2聲道系統(tǒng),極大地豐富了聲音的再現(xiàn)能力。目前10.2和22.2聲道的環(huán)繞聲系統(tǒng)還處于體驗階段,而7.1聲道的環(huán)繞聲系統(tǒng)已經(jīng)成為絕大多數(shù)高清影片的伴音格式,常用的揚聲器擺位如圖2所示。7.1聲道環(huán)繞聲系統(tǒng)增加了一組環(huán)繞聲揚聲器(Lb和Rb),而將5.1聲道系統(tǒng)的環(huán)繞揚聲器(Ls和Rs)前置,將環(huán)繞聲場分解成前側(cè)方(30°~90°)、后側(cè)方(90°~150°)和后方(150°~180°)三個部分,進一步增強了環(huán)繞聲場聲像定位的連續(xù)性和包圍感。
圖2 7.1聲道環(huán)繞聲系統(tǒng)揚聲器擺位
與立體聲雙聲道系統(tǒng)對比,多聲道環(huán)繞聲系統(tǒng)存在以下優(yōu)勢:
①多聲道環(huán)繞聲由于添加了側(cè)后方揚聲器,可以在一定程度上實現(xiàn)對后方聲源的重放。
②多聲道系統(tǒng)對聲源方向的安排更加靈活。在奧運會轉(zhuǎn)播過程中,評論員的聲音由中置聲道重放,運動聲響主要由左、右聲道重放,觀眾的歡呼聲及運動場環(huán)境聲則由左、右、左環(huán)繞和右環(huán)繞聲道重放,可以較好地將不同聲音元素分離開[2]。
③相比于雙聲道立體聲,多聲道環(huán)繞聲拓展了聆聽區(qū)域。雙聲道立體聲系統(tǒng),要求聽者必須位于距兩揚聲器等距離的某一點,才能獲得比較滿意的聲像感。而多聲道環(huán)繞聲系統(tǒng)的聽音范圍比較寬,處于環(huán)繞聲系統(tǒng)最佳聽音位置附近的聽者對聲像的感受不會產(chǎn)生很大差異,有利于多人一起欣賞。
④運用多聲道環(huán)繞聲系統(tǒng)能夠還原聲源所在聲場的聲學特點,即空間感、包圍感、溫暖感等。人們在觀賞多聲道環(huán)繞聲的音樂會轉(zhuǎn)播時,就好像在真實的音樂廳中聆聽現(xiàn)場演奏一般。
多聲道環(huán)繞聲格式在20世紀90年代初開始逐漸普及,到現(xiàn)在為止已經(jīng)有十幾種多聲道環(huán)繞聲格式,下面按照聲道數(shù)的遞增,選取典型的環(huán)繞聲格式進行梳理和闡述。
2.1 5.1聲道環(huán)繞聲格式
目前5.1聲道的環(huán)繞聲格式是最為普及的系統(tǒng),常見的環(huán)繞聲格式包括Dolby Digital、DTS等。Dolby Digital格式由Dolby公司開發(fā)[3],主要應用于專業(yè)電影、廣播電視和家庭影院。該格式采用AC-3編解碼技術(shù),壓縮率可達10∶1,支持的最高數(shù)據(jù)傳輸率為640kbit/s。目前在廣播電視領域,多數(shù)電視臺采用Dolby Digital和Dolby E技術(shù)進行數(shù)字高清電視節(jié)目的錄制和傳輸,如圖3所示。在電視制作端采用Dolby E技術(shù)[4],該技術(shù)可以通過一個AES數(shù)字音頻對傳輸多達8聲道的數(shù)字音頻信號。目前電視廣播基礎設施(錄像機)絕大部分只有2聲道或4聲道的音頻處理能力,采用Dolby E技術(shù)可以將多聲道信號存儲在現(xiàn)有的設備上,不用更新設備即可傳輸多聲道音頻信號。此外經(jīng)過Dolby E技術(shù)編碼的音頻幀時長為40ms,與視頻幀相同便于進行聲畫的同步編輯。在電視播出前用Dolby Digital編碼將多種格式(5.1聲道、單聲道、雙聲道立體聲)數(shù)字音頻信號進行壓縮編碼為一對Dolby Digital碼流,輸入MPEQ編碼/復用。在用戶接收端,利用機頂盒對Dolby Digital碼流進行解碼,還原編碼前的音頻信號,輸入到用戶的家庭影院。
圖3 Dolby公司推出的數(shù)字電視音頻解決方案
DTS格式由DTS公司開發(fā),主要應用在專業(yè)電影、家庭影院和純音樂領域中。該格式采用相干聲學編解碼技術(shù),壓縮率在2.9∶1到4.3∶1之間,取樣率在8~192kHz之間,量化精度在16~24bit之間。在1993年6月11日放映的《侏羅紀公園》首次采用了該系統(tǒng),該系統(tǒng)使用了聲畫分離的方式,DTS碼流記錄在CD-ROM上。因此只要將錄制數(shù)字音頻信號的CD單獨拿出來播放,就能得到多聲道環(huán)繞聲音效。如果將多聲道音樂按DTS格式錄制在一張CD上,用普通的CD機播放,并在其數(shù)字輸出口處接上一臺DTS解碼器,就可以得到環(huán)繞聲音樂。這種光盤被稱為DTS-CD。
2.2 7.1聲道環(huán)繞聲格式
在電影領域,隨著BD光盤的普及,高清電影已經(jīng)成為主流形式。各大公司都為在高清領域爭得一席之地而努力研發(fā)自己的新型環(huán)繞聲系統(tǒng)。杜比公司就在2004年的東京AES大會上,首次展示了全新的Dolby Digital Plus系統(tǒng)[5],隨后還推出了Dolby True HD系統(tǒng)[7],這兩個系統(tǒng)都是為高清光盤格式的發(fā)展而設計的多聲道音頻格式。而DTS公司也不甘示弱,推出了DTS HD系統(tǒng)[6]。目前這三款音頻格式都已經(jīng)納入BD光盤的音頻標準格式中??v觀這幾種新型的系統(tǒng),它們都以7.1聲道為起點,可向上擴展。此外聲音的再現(xiàn)也不僅僅局限在水平維度上,通過揚聲器的配置可再現(xiàn)垂直維度的定位感,極大增強了聲音的表現(xiàn)力。
2.3 加入高度聲道的3D環(huán)繞聲格式
當前人們對聲音的再現(xiàn)能力開始追求“全息立體聲”的效果。SMPTE成立的DC28數(shù)字電影技術(shù)委員會給未來數(shù)字電影制定了可容納聲道數(shù)量與揚聲器的配置方式(《SMPTE 428.3M協(xié)議》),如圖4所示。該配置方式描述了20個聲道的設定,除了水平維度設置的16個聲道,還有4個聲道當作垂直陣列,用于增強高度層次感。
圖4 SMPTE 428.3M的揚聲器配置及分布
日本NHK公司為了配合超高清電視(UHDTV)而推出了22.2聲道的環(huán)繞聲系統(tǒng)[7],如圖5所示。整個系統(tǒng)有10只揚聲器位于聽者頭部所在的水平面,9只揚聲器高于聽者頭部水平面,其他3只揚聲器和2只重低音揚聲器設置在低于聽者頭部水平面。雖然該系統(tǒng)仍在推廣體驗階段,但是由此可以看出數(shù)字電視的音頻系統(tǒng)將朝著多通道的全維度方向發(fā)展。
圖5 NHK針對超高清電視推出的22.2聲道環(huán)繞聲系統(tǒng)
Dolby、DTS和Baccro等公司近幾年也分別推出了Dobly Atmos、DTS∶X和Auro-3D等3D環(huán)繞聲重放系統(tǒng)。Dolby Atmos及DTS∶X針對家庭影院推出了7.1.4,7.1.2,5.1.4,5.1.2等四種重放格式,圖6顯示了DTS∶X的7.1.4重放系統(tǒng)。Auro-3D的家庭影院系統(tǒng)包括9.1和10.1兩種格式,圖7顯示了Auro 3D的10.1格式重放系統(tǒng)。由于高度聲道的增加,可以增強空間聲源的定位及有效的擴展三維空間感,為觀眾帶來更加真實的體驗。
圖6 DTS∶X的7.1.4重放示意圖
圖7 Auro 3D的10.1重放系統(tǒng)示意圖
為保證數(shù)字電視音頻信號的正確傳輸和接收,需要使用元數(shù)據(jù)作為貫穿節(jié)目從制作到播出和接收完整鏈路的控制手段。所謂元數(shù)據(jù),其本質(zhì)的意義是關于音頻數(shù)據(jù)的數(shù)據(jù),即一些音頻描述和控制參數(shù),例如下混合參數(shù)和對白歸一化參數(shù)等。不同的多聲道編解碼技術(shù)都采用元數(shù)據(jù)來進行音頻信號的控制。
3.1 下混合元數(shù)據(jù)
下混合元數(shù)據(jù)是為使多聲道節(jié)目能夠被立體聲和單聲道用戶收看收聽而設定的。由于低音增強LFE聲道記錄的音頻信號主要用于渲染烘托氣氛,所以在多聲道節(jié)目下變換成雙聲道或單聲道時,只用其中的L、R、C、Ls、Rs五個主聲道。圖8和圖9分別顯示了Dolby Digital和MPEG 2-AAC[8]提供的多聲道節(jié)目下變換到雙聲道的算法。
圖8 Dolby Digital提供的兩種下變換算法
圖9 MPEG 2-AAC提供的兩種下變換算法
3.2 對白歸一化
當重放不同來源的音頻時,進行節(jié)目切換時常常出現(xiàn)響度不一致的情況。播放的音頻可能是同一頻道不同的節(jié)目類型(新聞,廣告),也可能是不同的播放頻道。為了解決這個問題,在進行編碼時往往將參考電平直接編碼到音頻數(shù)據(jù)流中。通常使用正??陬^對白的主觀聲壓級作為參考電平。
在解碼端,參考電平值被用在重放系統(tǒng)中設定重放音量,對系統(tǒng)的音量控制一般根據(jù)聽眾期望的響度或根據(jù)聲壓級(SPL)來設定。應用參考電平值,主要包含以下的功能:達到聽眾期望的對白聲壓級,以及指出在音頻信號中對白聲壓級的參考電平值。這樣不論被解碼的什么類型的節(jié)目,聽眾都能夠設定對白音量,讓對白的主觀響度保持一致。
如圖10所示幾種不同的音頻信號,其平均對白電平如圖數(shù)字標記所示。在切換不同節(jié)目時,由于電平的不一致,會導致不同的主觀聲壓級。如果將電影的對白電平降低3dB到-30dB作為主觀聲級,即參考電平值,通過應用參考電平值,再切換成不同類型節(jié)目時,都會自動的將節(jié)目中的對白電平歸一化為-30dB,以達到一致的相同主觀感知,如圖11所示。
模擬電視時代人們對聲音在電視系統(tǒng)中所起的作用有所忽視,一直將其稱為電視伴音。隨著電視從模擬標清發(fā)展到數(shù)字高清晰度電視、超高清晰度電視以及立體電視,人們在追求視覺臨場感的過程中,音頻將對視頻起到極大的輔助作用。聲音從單聲道、雙聲道立體聲發(fā)展到多聲道環(huán)繞聲格式已經(jīng)成為一種必然趨勢,相信隨著數(shù)字電視音頻技術(shù)的進一步發(fā)展,聲音將實現(xiàn)全維度的再現(xiàn)。而隨著元數(shù)據(jù)功能越來越完善,未來的電視音頻技術(shù)會增加更多的互動性及靈活性。
圖10 幾種典型的音頻信號
圖11 歸一化后的音頻信號
[1] ITU-R Recommendation BS.775-1. Multichannel Stereophonic Sound System with and without Accompanying Picture. International Telecommunication Union, Geneva, Switzerland, 1992-1994.
[2]王樹森. 奧運轉(zhuǎn)播國際公用信號制作的音頻技術(shù)應用[J].電聲技術(shù), 2008, 32(5):4-10.
[3] ATSC A/52B:2010. Digital Audio Compression Standard(AC-3, E-AC-3). Advanced Television Systems Committee, Washington, D.C., 22 November 2010.
[4]孔曉蕾. 杜比E技術(shù)簡介. 電聲技術(shù), 2003(5):61-63.
[5] Roger Dressler. Dolby Audio Coding for Future Entertainment Formats. Dolby Laboratories, Inc., San Francisco, CA, White Paper, 2006.
[6] DTS-HD Audio Consumer White Paper for Blu-ray Disc and HD DVD Applications. DTS, Inc., White Paper, 2006.
[7] Kimio Hamasaki, Toshiyuki Nishiguchi, Reiko Okumura, Yasushige Nakayama, Akio Ando1. A 22.2 Multichannel Sound System for Ultrahigh-Definition TV (UHDTV). SMPTE Motion Imaging Journal, 2008, 117:40–49.
[8] ISO/IEC 13818-7. Information technology - Generic coding of moving pictures and associated audio information-Part 7:Advanced Audio Coding (AAC).
(作者單位:北京電視臺)
G220.7
A
1671-0134(2017)12-061-04
10.19483/j.cnki.11-4653/n.2017.02.011