李秋萍
一.數(shù)字音頻編碼技術(shù)概述
聲音的傳播是以波的形式進(jìn)行的,在物理學(xué)的角度是一種能量。在電聲領(lǐng)域,發(fā)生設(shè)備在拾音、傳輸、放音的環(huán)節(jié)其實就是能量的轉(zhuǎn)換,聲音在拾音設(shè)備中從振動的聲音能量轉(zhuǎn)換為電能,電能傳輸至放音設(shè)備,從電能轉(zhuǎn)換為振動的聲能傳輸至我們?nèi)硕?,這是從能量角度的理解。從信息的角度理解,聲音就是一種信源,而信源傳遞的信息可以理解為一系列的變化,因此在拾音環(huán)節(jié),可以將聲音理解為聲的變化轉(zhuǎn)換為電的變化,在放音環(huán)節(jié),則可以理解為將電的變化轉(zhuǎn)換為聲的變化。在上世紀(jì)八九十年代,聲音和電的轉(zhuǎn)換和傳輸時以模擬信號為基礎(chǔ)進(jìn)行的,所謂模擬信號,就是通過一個感應(yīng)設(shè)備,實時感應(yīng)聲的變化,實時轉(zhuǎn)換為電的變化,實時傳輸,實時將電的變化轉(zhuǎn)換為聲的變化。以上的過程是連續(xù)的,其優(yōu)勢在于,可以完整的采集、傳輸、還原音頻的信號的變化,沒有信息的遺漏,完整還原;但是其也有天然的劣勢,那就是在傳輸過程中,信息難免會有損失,因為整個拾音、傳輸、放音是一個連續(xù)的過程,所以只要一有損失或干擾,聽眾就會有很直觀的感受;這個缺點同時也存在于音頻存儲過程。所以模擬音頻的缺點在于,抗干擾能力差。因此后續(xù)的技術(shù)在聲音的傳輸之前和之后各加入了一個環(huán)節(jié),即數(shù)模轉(zhuǎn)換和模數(shù)轉(zhuǎn)換,因此前文討論的過程變?yōu)槭耙?模數(shù)轉(zhuǎn)換-傳輸-數(shù)模轉(zhuǎn)換-放音,這個過程的作用是將模擬信號轉(zhuǎn)換為數(shù)字信號,這其中已經(jīng)涉及了音頻編碼,加入這兩個環(huán)節(jié)的優(yōu)點在于數(shù)字信號是不連續(xù)的、而且是電壓值得判斷,可以承受一定的損失,抗干擾能力強(qiáng)。隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,音頻開始在網(wǎng)絡(luò)中傳輸,這又產(chǎn)生了新的問題,傳統(tǒng)的數(shù)字信號在網(wǎng)絡(luò)中傳輸占用很大的帶寬,為了解決這個問題,產(chǎn)生了一系列壓縮編碼技術(shù),將音頻中的冗余信息去掉,減少了數(shù)據(jù)量,使音頻信號可以在網(wǎng)絡(luò)中傳輸。本文以下要討論音頻的數(shù)模轉(zhuǎn)換過程,和音頻壓縮編碼的原理,對比目前主流的音頻編碼技術(shù),探討在廣電領(lǐng)域中音頻編碼技術(shù)的應(yīng)用。
二.音頻壓縮編碼技術(shù)探討
1.模數(shù)轉(zhuǎn)換
模數(shù)轉(zhuǎn)換是將模擬信號轉(zhuǎn)換為數(shù)字信號的過程,該過程分為采樣、量化和編碼三部分。采樣過程是將連續(xù)的模擬電信號變?yōu)殡x散的數(shù)字電信號的過程,即在1秒內(nèi)多次記錄模擬電信號的幅度值,形成多個離散的幅度值,1秒內(nèi)記錄的次數(shù)為采樣率,一般廣播信號的采樣率為48kHZ或44.KHZ,即每秒采樣48000次或44100次。采樣后,每個幅度值需要經(jīng)過量化轉(zhuǎn)換為可以用數(shù)字信號表達(dá)的值,量化即對幅度值進(jìn)行分割,將無限多個幅度信號取值分割為有限個取值。分割完成后,編碼部分就是將分割的幅度值,進(jìn)行表達(dá),即用二進(jìn)制的形式記錄每一個經(jīng)過采樣和量化的幅度值,形成二進(jìn)制編碼。在量化過程中,對幅度值得分割越精細(xì),二進(jìn)制編碼中采用的位數(shù)越多,一般廣播信號采用24位或者16位的位數(shù)記錄音頻信號的幅度值,即經(jīng)過采樣的音頻信號的幅度值可以有2的24次方或者16次方種表示。以上過程就是模擬信號轉(zhuǎn)換為數(shù)字信號的過程,在聲音播放時,通過逆過程將數(shù)字信號轉(zhuǎn)換為模擬信號進(jìn)行播放。以上的編碼過程稱為脈沖編碼調(diào)制PCM(Pulse Coding Modulation)技術(shù)??梢园l(fā)現(xiàn)運(yùn)用該技術(shù)對音頻質(zhì)量有兩個關(guān)鍵的影響點,即采樣率和量化位數(shù),采樣率越高、量化位數(shù)越多,音頻的本身包含的信息量越多,但同時數(shù)據(jù)量越大。一般CD音質(zhì)均用16位的量化編碼,44.1kHZ的采樣率,立體聲聲道,其1s的數(shù)據(jù)量為44.1k*16*2=1.411M,即1.41Mbit/s,這種數(shù)據(jù)量在網(wǎng)絡(luò)傳輸中會占用較大的帶寬,實用性差,因此后續(xù)發(fā)展的音頻編碼技術(shù)致力于降低音頻中的數(shù)據(jù)量,為音頻壓縮編碼。
2.音頻編碼技術(shù)原理
音頻壓縮編碼分為有損壓縮編碼和無損壓縮編碼。
·無損壓縮編碼
無損壓縮編碼并沒有減少音頻中的信息量,其主要是根據(jù)數(shù)據(jù)的統(tǒng)計學(xué)原理,進(jìn)行數(shù)據(jù)壓縮,可以完全恢復(fù)原始數(shù)據(jù)。無損音頻壓縮編碼雖然沒有減少信息量,但壓縮比較低,一般可實現(xiàn)1.5:1至3.5比1的比特率壓縮,取決于信息的復(fù)雜度。較為常見的無損壓縮編碼有Huffman 哈夫曼編碼。其主要統(tǒng)計最頻繁出現(xiàn)的信息,分配這類信息較低的比特;同時分配最不頻繁出現(xiàn)的信息較多的比特,這樣可以減低整個信息的平均碼長,達(dá)到數(shù)據(jù)壓縮的目的。
·有損壓縮編碼
有損壓縮編碼的主要原理是消除音頻中的冗余信息,雖然是冗余信息,但也包含了一定的信息量,因此有損壓縮編碼對音頻有信息損失,壓縮比越高,損失越大。數(shù)字音頻信號中的冗余可以分為時域冗余,頻域冗余和聽覺冗余。有損壓縮編碼就是去掉以上冗余信息,實現(xiàn)音頻壓縮的目的。其中時域冗余包括幅度冗余,即小幅度信號針對動態(tài)范圍的數(shù)據(jù)位閑置;也包括時域上相鄰信號間的相似性,可以通過相似信號的差值表達(dá)壓縮數(shù)據(jù),同時還包括信號周期的相關(guān)性。頻域冗余主要表現(xiàn)為功率譜密度的非均勻性,即大部分音頻低頻的能量分布高于高頻的能量分布。聽覺冗余是主要的壓縮依據(jù),其主要原理是通過人耳的聽覺特征,設(shè)計心理學(xué)模型,去掉音頻中人耳無法感受到的音頻信息,實現(xiàn)音頻壓縮的目的。應(yīng)用最廣泛的是利用人耳的掩蔽效應(yīng),如下圖1所示,人耳掩蔽效應(yīng)是指在一個頻率上較強(qiáng)的聲音可以掩蓋對其周邊頻率內(nèi)的聲音,被掩蔽的聲音本來是可聞的,但是由于有掩蔽聲音的存在,變得不可聞。掩蔽聲音對其周邊頻率形成的掩蔽閾值曲線,低于掩蔽曲線下的聲音都被掩蔽,在音頻壓縮中可以去除掉。以上是頻域掩蔽,時域掩蔽是指一個瞬時強(qiáng)音會對其前段時間和后段時間的弱音造成掩蔽,使其不可聞。
大部分低碼率的壓縮算法,充分利用了人耳的掩蔽效應(yīng),如子帶編碼。子帶編碼通過濾波器將音頻分為多個子帶,計算每個子帶內(nèi)的平均聲級和掩蔽聲級,對比心理學(xué)模型,確定量化位數(shù),保證量化噪聲不可聞,并將量化比特分配給可聞的音頻。
三.幾種音頻編碼技術(shù)分析
所有目前流行的音頻編碼技術(shù)主要是在三個方面進(jìn)行取舍,音頻信息量、壓縮比、計算復(fù)雜度。音頻信息量高,就意味著更低的壓縮比,音頻的數(shù)據(jù)量就大。如果要實現(xiàn)信息量高,同時壓縮比低,就要采取比較復(fù)雜的運(yùn)算過程。隨著計算硬件能力的提升,目前高復(fù)雜的運(yùn)算已經(jīng)可以短時間內(nèi)完成,因此高壓縮比而且高保真度的音頻壓縮算法廣泛發(fā)展。下文探討目前比較流行的音頻壓縮算法。
·MP3編碼
MPEG編碼為1988年成立的圖像活動專家組開發(fā)的,旨在為音頻和視頻開發(fā)數(shù)據(jù)縮減技術(shù),其中M P E G-1分為三層,MP3為MPEG-1的第三層編碼。主要使用ASPEC(Audio Spectral Perceptual Entropy Encoding)自適應(yīng)譜分析聽覺熵編碼。MP3編碼可以實現(xiàn)10:1到12:1的壓縮比,使用可變換的編解碼器,設(shè)計比較復(fù)雜,但是可以在較低的碼率下獲得中等的保真度。其普遍的碼率為64Kbit/s,在該碼率下依然能保證高品質(zhì)傳輸,非常適合網(wǎng)絡(luò)傳輸。
MPEG層3使用臨界頻帶濾波器,把聲音頻帶分成非等帶寬的子帶。心理學(xué)模型使用頻域遮蔽和時域遮蔽特性,并考慮了立體聲數(shù)據(jù)的冗余,用哈夫曼編碼進(jìn)行統(tǒng)計壓縮。其編碼過程為先將一個1152采樣點的寬帶數(shù)據(jù)塊通過多相濾波器分為32個子帶,每個子帶進(jìn)行MDCT變換,通過心理學(xué)模型進(jìn)行動態(tài)的比特分配,最后通過霍夫曼和游程長度熵編碼通過統(tǒng)計屬性進(jìn)行數(shù)據(jù)進(jìn)一步的無損壓縮。在編碼過程中,幀與幀之間的數(shù)據(jù)率是可以變化的,通過心理學(xué)模型動態(tài)進(jìn)行比特率分配,以此實現(xiàn)較少的比特展現(xiàn)相對飽滿的音質(zhì)。MPEG層3編碼可以在多種立體聲編碼方法中選擇,可選四種基本模式,包括普通立體聲模式、相互獨立的左右聲道,M/S(Mid/side processing)立體聲模式,對整個頻譜進(jìn)行M/S編碼;強(qiáng)度立體聲模式,對低頻進(jìn)行左/右編碼,對高頻區(qū)域進(jìn)行強(qiáng)度編碼。
·AAC編碼
AAC編碼不同于傳統(tǒng)的編碼
AAC是MPEG-2中基于聲音感知編碼標(biāo)準(zhǔn)。在MPEG-4中也有改進(jìn)。與MP3相同,主要使用聽覺系統(tǒng)的掩蔽特性來減少聲音的數(shù)據(jù)量。但各項指標(biāo)方面更由于MP3編碼。AAC支持8kHz到96kHz采樣頻率,支持5.1聲道編碼,最多可提供48個聲道。壓縮比可達(dá)到18:1。在聆聽測試中,320bit/s的多聲道AAC編碼在性能上超過了傳統(tǒng)編碼,基本很難區(qū)分還原聲音與原始聲音的區(qū)別。
AAC技術(shù)使用參考模型結(jié)構(gòu),該結(jié)構(gòu)定義了各種接口,可以在三種不同的描述文件中進(jìn)行組合,這種模塊化結(jié)構(gòu)使編碼技術(shù)升級變得簡單易行。AAC編碼是MPEG-4標(biāo)準(zhǔn)中編碼高質(zhì)量音頻工具的核心,并支持無損壓縮編碼。
·AC3編碼
AC3編碼也被稱為杜比編碼?;诟杏X編碼設(shè)計,設(shè)計初衷是應(yīng)用于商業(yè)電影中,因此AC3編碼支持多聲道編碼,支持5.1聲道編碼格式。5.1聲道能以384bit/S進(jìn)行編碼,壓縮比可以達(dá)到13:1.AC3編碼支持32-640kbit/S的多種比特率。編碼器可以解碼出環(huán)繞聲、雙聲道立體聲等多種格式。其優(yōu)勢在于可以將一組多聲道音頻高效率的編碼為單一低比特率音頻流。
四.音頻編碼技術(shù)廣電的應(yīng)用
目前廣播電臺已經(jīng)實現(xiàn)了數(shù)字化的節(jié)目制作、播出和傳輸;同時隨著新媒體的發(fā)展,網(wǎng)絡(luò)化播出節(jié)目量快速增長,因此音頻編碼技術(shù)在廣播電臺中廣泛應(yīng)用。
1.音頻編碼技術(shù)在廣播電臺中的應(yīng)用
在音頻制作中,廣播電臺早已經(jīng)完成了數(shù)字化制播,通過音頻工作站進(jìn)行節(jié)目制作,未來可能進(jìn)一步向云制作過程轉(zhuǎn)變。音頻工作站制作一般采用無損壓縮格式,如wav格式,采樣率為44.1k,16bit或24bit編碼,立體聲聲道。wav文件數(shù)據(jù)塊由脈沖調(diào)制編碼(PCM)格式組成,其中聲道0代表左聲道,聲道1代表右聲道。wav編碼相對簡單,屬于無損壓縮編碼,作為音頻制作端產(chǎn)出的節(jié)目,便于后續(xù)的壓縮成文件播出或傳輸。wav文件的缺點是占用存儲空間大,對于多路節(jié)目播出的播出工作站來說,是較大的存儲開銷。因此需要進(jìn)行文件壓縮,目前大部分音頻播出站采用mp3格式進(jìn)行播出,而且很多廣播電臺音頻素材庫中的音頻也用mp3的形式進(jìn)行存儲,mp3文件中包含ID3標(biāo)簽,包含了音頻文件的標(biāo)題、藝術(shù)家、專輯、年份、等種類信息,便于文件的分類存儲和檢索;同時mp3可以實現(xiàn)高品質(zhì)的音頻壓縮,既保證了小的數(shù)據(jù)量,同時也保證了相對高質(zhì)量的音頻播出。隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,以網(wǎng)絡(luò)點播、組播的形式進(jìn)行廣播節(jié)目網(wǎng)絡(luò)化播出的應(yīng)用越來越廣泛,網(wǎng)絡(luò)播出音頻主要是數(shù)據(jù)流的傳輸,由路由器進(jìn)行復(fù)制和分發(fā)數(shù)據(jù),同時實時傳輸協(xié)議RTP進(jìn)行實時數(shù)據(jù)同步,通過QoS服務(wù)保證協(xié)議保證傳輸質(zhì)量,實時流傳輸一些(RSTP)專門進(jìn)行流傳輸應(yīng)用,將多媒體的系統(tǒng)開銷降至最低。在信源編碼部分,為了保證小的數(shù)據(jù)量傳輸,節(jié)省網(wǎng)絡(luò)帶寬,需要進(jìn)行信源編碼,在保證音頻解碼質(zhì)量的前提下降數(shù)據(jù)量壓縮至最低,應(yīng)用比較廣泛的音頻編碼有MP3、RM、WMA、AAC等。
音頻編碼在中國國際廣播電臺網(wǎng)絡(luò)直播中的應(yīng)用:國際臺網(wǎng)絡(luò)壓縮系統(tǒng)從音頻矩陣取AES3音頻信號,如下圖2所示,傳輸至音頻編碼器進(jìn)行編碼,編碼后傳輸至服務(wù)器提供網(wǎng)絡(luò)音頻直播服務(wù)。系統(tǒng)連接如圖2所示:
國際臺編碼器采用VIEWCAST公司的移動式編碼設(shè)備niagaragostream,實時將AES3音頻信號編碼成MPEG-4 AAC音頻格式進(jìn)行網(wǎng)絡(luò)直播,該設(shè)備具有簡單的編碼設(shè)定頁面和遠(yuǎn)程編碼監(jiān)控頁面,支持平衡、非平衡多種音頻接口,可將單一節(jié)目源編碼至不同碼率、不同格式。在實際應(yīng)用中,綜合節(jié)目實際情況和帶寬環(huán)境調(diào)整碼率,一般對音質(zhì)要求較高的音樂節(jié)目碼率為128kbit/s,普通節(jié)目碼率為48kbit/s。
音頻編碼在中國國際廣播電臺傳輸系統(tǒng)中的應(yīng)用:國際臺傳輸至地球站的傳輸系統(tǒng)通過哈雷編碼器接收切換器輸出的AES3信號,編碼器統(tǒng)一編碼為MPEG-2標(biāo)準(zhǔn)音頻格式,MPEG-2的聲音壓縮編碼采用與MPEG-1聲音相同的編譯碼器,層1、層2和層3的結(jié)構(gòu)也相同,但能支持5.1聲道和7.1聲道的環(huán)繞立體聲。國際臺大部分節(jié)目壓縮碼率為96kb/s,封裝成TS流復(fù)用,通過ASI接口進(jìn)行傳輸。如下圖3所示。
音頻編碼在中國國際廣播電臺轉(zhuǎn)播活動中的應(yīng)用:在轉(zhuǎn)播活動中,有時面對復(fù)雜的轉(zhuǎn)播環(huán)境,或者重要的轉(zhuǎn)播活動;需要利用網(wǎng)絡(luò)通路作為主要或者備份傳輸通路。網(wǎng)絡(luò)通路如果不是專線傳輸,網(wǎng)絡(luò)環(huán)境復(fù)雜多變,而且如果通過無線網(wǎng)絡(luò)傳輸,碼率傳輸受到網(wǎng)絡(luò)因素影響更大。因此需要采用壓縮編碼的方式減少碼率,減少網(wǎng)絡(luò)碰撞或堵塞,保證傳輸信息的完整度。
國際臺采用COMREX公司的COMREX ACCESS設(shè)備完成轉(zhuǎn)播活動,系統(tǒng)圖如下圖4所示所示:
利用COMREX公司的BRIC(Broad Reliable Internet Codec,可靠的廣播互聯(lián)網(wǎng)編解碼)技術(shù),可以通過編解碼算法,利用極小的帶寬傳輸高質(zhì)量的音頻信號。該技術(shù)內(nèi)置錯誤隱藏算法,容忍數(shù)據(jù)包丟失,將延時做到最??;采用智能抖動緩存管理技術(shù),根據(jù)網(wǎng)絡(luò)狀況調(diào)整緩存大小,動態(tài)調(diào)整延時,使音質(zhì)所受損失降低至最小。BRIC技術(shù)中運(yùn)用三種編碼算法,分別是BRIC-ULB、BRIC-HQ1、BRIC-HQ2,其中ULB算法壓縮比最高,輸出碼率為14kb/s,音頻質(zhì)量相當(dāng)于G.722標(biāo)準(zhǔn),而碼率只有標(biāo)準(zhǔn)的四分之一。G.722編碼采樣頻率為16Khz,采用ADPCM(adaptive different pulse code modulation)自適應(yīng)脈沖編碼原理進(jìn)行編碼,只采用聲音樣本中增量變化的信息,低頻部分被分配較多比特。HQ1算法支持雙聲道和立體聲音頻編碼,可對音頻上限為15kHz的音頻進(jìn)行編碼,碼率為28kb/s。HQ2算法碼率為30kb/s,可以進(jìn)行立體聲編碼,能保證高質(zhì)量的音頻傳輸。同時該comrex access設(shè)備還支持mepg等多種音頻格式編碼和無損編碼的音頻傳輸,可以根據(jù)實際使用情況靈活調(diào)整,國際臺在應(yīng)用中使用AAC編碼較多。
2.音頻編碼技術(shù)在廣電其他領(lǐng)域的應(yīng)用
·AVS編碼在國內(nèi)廣電中的應(yīng)用
AVS(Audio Video coding Standard,音視頻編碼標(biāo)準(zhǔn))編碼是我國自主研發(fā)的編碼技術(shù),主要分為系統(tǒng)、視頻、音頻、數(shù)字版權(quán)管理等四個主要部分。其中音頻編碼應(yīng)用了感知音頻編碼框架,在地碼率64kb/s的碼率下,效果優(yōu)于MP3編碼技術(shù)。該編碼標(biāo)準(zhǔn)最多支持32個主聲道,輸出碼率為16-96kb/s。目前AVS+編碼格式廣泛應(yīng)用于國內(nèi)衛(wèi)星傳輸高清頻道與地面高清頻道;國內(nèi)大部分有限電視數(shù)字機(jī)頂盒也內(nèi)置AVS+芯片,并應(yīng)用AVS+編碼器。目前國內(nèi)已經(jīng)成了AVS產(chǎn)業(yè)聯(lián)盟,未來在家電、廣電、電信、音響等多個產(chǎn)業(yè)領(lǐng)域,AVS將得到廣泛應(yīng)用。
·CDR融合數(shù)字廣播中的編碼技術(shù)應(yīng)用
CDR(China Digital Radio)原為中國數(shù)字廣播,2017年正式更名為融合數(shù)字廣播(Convergent Digital Radio),是中國自主開發(fā)的數(shù)字廣播標(biāo)準(zhǔn),其音頻編碼部分采用DRA編碼的地碼率擴(kuò)展版本DRA+,DRA編碼是中國自主開發(fā)的音頻編碼標(biāo)準(zhǔn),廣泛應(yīng)用于數(shù)字電視、網(wǎng)絡(luò)、移動流媒體領(lǐng)域。DRA+編碼增加了頻帶復(fù)制、參數(shù)立體聲、分層模塊等技術(shù)對DRA音頻編碼進(jìn)行擴(kuò)展,輸出碼率范圍為16Kb/s至384kb/s,其中碼率為48kb/s的立體聲編碼音頻收聽效果優(yōu)于FM廣播,碼率為96kb/s的立體聲編碼效果接近CD音質(zhì)。目前國外,尤其歐洲正在逐步完成廣播的數(shù)字化改造,中國該項工作也在穩(wěn)步進(jìn)行中。CDR已經(jīng)完成了多個行業(yè)標(biāo)準(zhǔn),并穩(wěn)步推進(jìn)標(biāo)準(zhǔn)的國際化進(jìn)程。在實際應(yīng)用中,相關(guān)設(shè)備包括、音頻編碼器、復(fù)用器和發(fā)射接收設(shè)備已經(jīng)開始生產(chǎn),并與多個廠商制定了CDR芯片和車載接收方案,中央覆蓋工程也在穩(wěn)步推進(jìn),目前使用各地現(xiàn)有的中央一套頻率資源進(jìn)行數(shù)字化改造,全國多個省市已經(jīng)完成了臺站建設(shè)。相信在不久的將來,中國將會實現(xiàn)用自主研發(fā)的音頻編碼技術(shù)進(jìn)行數(shù)字化廣播全覆蓋。
未來隨著技術(shù)的發(fā)展和受眾理念的變化,網(wǎng)絡(luò)播出化需求越來越多,直播和錄播的網(wǎng)絡(luò)化播出是未來的趨勢,隨著硬件能力的提升,可以輕松實時完成復(fù)雜編解碼算法;另外隨著AOIP技術(shù)技術(shù)發(fā)展,利用虛擬聲卡技術(shù)、分布式計算等云計算技術(shù)可進(jìn)行大規(guī)模的虛擬化編碼。同時高品質(zhì)的視頻播出產(chǎn)生了多聲道的音頻編碼需求,因此未來音頻編碼算法的還有很大發(fā)展空間。B&P;
參考文獻(xiàn)
1.《淺析數(shù)字音頻編碼技術(shù)》,于麗娟,《山西電子技術(shù)》2006年第1期。
2.《數(shù)字音頻編碼及其應(yīng)用》,汪波、黃佩偉、鐘幼平、范戈,《信息技術(shù)》2006年第9期。