王 淼
(南陽(yáng)市圖書館,河南 南陽(yáng) 473000)
音頻信息資源數(shù)字化最常見(jiàn)的方式是脈沖編碼調(diào)制(PCM,Pulse Code Modulation)。其基本原理是:首先,通過(guò)播放設(shè)備將模擬音頻轉(zhuǎn)換成一連串電壓變化的信號(hào);其次,沿橫坐標(biāo)軸將信號(hào)進(jìn)行等時(shí)距分割,這個(gè)分割時(shí)距就是采樣頻率;再次,把分割線與信號(hào)圖形交叉處的坐標(biāo)位置記錄下來(lái),得到每交叉點(diǎn)坐標(biāo),其中用于表示縱坐標(biāo)數(shù)字的二進(jìn)制的位數(shù)就是采樣位數(shù),由于已經(jīng)知道時(shí)間間隔,可以去除橫坐標(biāo),得到縱坐標(biāo)的一個(gè)數(shù)字序列,這一序列數(shù)字就是將以上模擬信號(hào)進(jìn)行數(shù)字化生產(chǎn)的結(jié)果。影響這種模擬信號(hào)數(shù)字化生產(chǎn)質(zhì)量因素如下。
采樣是指用每隔一定時(shí)間間隔的信號(hào)樣本值序列代替原來(lái)在時(shí)間上連續(xù)的信號(hào),即在時(shí)間上將模擬信號(hào)離散化。每秒的采樣次數(shù)稱為采樣頻率,以千赫茲(即,每秒幾千個(gè)樣本)來(lái)描述。根據(jù)奈奎斯特(Nyquist)采樣定理,只要采樣頻率大于或等于被采樣信號(hào)的最高頻率的兩倍,借助一定設(shè)備,就可以從樣值序列信號(hào)中無(wú)失真地恢復(fù)出原始模擬音頻信號(hào)。因此,一個(gè)數(shù)字音頻樣本所能記載的最高模擬頻率值應(yīng)是其采樣頻率的一半,如:采樣頻率為44.1kHz的音頻光盤介質(zhì)只能記錄最高頻率為22.05kHz的模擬聲音。這意味著當(dāng)聲波經(jīng)過(guò)某一點(diǎn)時(shí),每秒就有44,100個(gè)離散的振幅測(cè)量值對(duì)其進(jìn)行表示。
人耳可以聽到的聲音是頻率在20~20kHz之間的聲波,根據(jù)奈奎斯特采樣定理,理論上只要用40kHz以上的采樣頻率就可以完整記錄20kHz以下的信號(hào)。那么,為什么CD唱盤的規(guī)格是44.1kHz(而不是40kHz)呢?因?yàn)樵贑D發(fā)明前,硬盤價(jià)格昂貴,存儲(chǔ)數(shù)字音頻信號(hào)的主要媒體是錄像帶,用“黑”與“白”來(lái)記錄0與1。而當(dāng)時(shí)的錄像帶格式為每秒30張,而一張圖又可以分為490條線,每一條線又可以儲(chǔ)存三個(gè)取樣信號(hào),因此每秒有30×490×3=44,100個(gè)取樣點(diǎn),為了研發(fā)方便,CD唱盤也繼承了這個(gè)規(guī)格。實(shí)際上,無(wú)論使用多么高的采樣頻率,記錄的數(shù)字與實(shí)際的信號(hào)之間總會(huì)有誤差,這種誤差稱為數(shù)字轉(zhuǎn)換失真,或稱為量化失真。
目前采樣頻率主要有96kHz和44.1kHz兩種規(guī)范。其中,檔案保存標(biāo)準(zhǔn)采樣頻率為96kHz。如果沒(méi)有資源(計(jì)算機(jī)處理能力、人員、時(shí)間及數(shù)字存儲(chǔ)空間等)上的限制,一般以采樣頻率為96kHz來(lái)進(jìn)行音頻資源數(shù)字化生產(chǎn),并以該頻率來(lái)保存數(shù)字主文檔。對(duì)于那些數(shù)字化生產(chǎn)資源不充足的項(xiàng)目,采樣頻率的選擇應(yīng)基于對(duì)模擬音頻類型和質(zhì)量的分析。
對(duì)于某些原始音頻資源來(lái)說(shuō),采用比44.1kHz更高的采樣頻率并不能更有效地表達(dá)出更多的信息,如乙烯錄音帶或模擬盒式錄音帶,因?yàn)檫@些資源不能記錄頻率高于22.05kHz的聲音。
從聲源角度,模擬音頻主要有三種類型:
(1)人類發(fā)音。所有人類發(fā)音的頻率都在20-50kHz之間,所以這類音頻信息資源數(shù)字化時(shí)的采樣頻率應(yīng)該是44.1kHz。
(2)場(chǎng)景錄音。一般是指在一個(gè)特定場(chǎng)景下對(duì)人類發(fā)音進(jìn)行的錄音。所以,數(shù)字化時(shí)采樣頻率也是44.1kHz。但是,如果場(chǎng)景錄音包括了音樂(lè),或來(lái)自自然界的其他聲音(如昆蟲聲音,鳥叫的聲音等),數(shù)字化時(shí)的采樣頻率應(yīng)該考慮96kHz。
(3)音樂(lè)錄音。是指樂(lè)器產(chǎn)生的寬范圍頻率的錄音。對(duì)這些錄音數(shù)字化時(shí),雖然大多數(shù)可以以44.1kHz頻率進(jìn)行采樣,但有些超過(guò)了這個(gè)采樣頻率的范圍,所以,一般都采用96kHz,這樣也有助于數(shù)字音頻的編輯。
采樣位數(shù)是指表示振幅測(cè)量值的二進(jìn)制碼的位數(shù),其單位是比特(bit)。比如,8比特位數(shù)的取值范圍是0~255,16比特位數(shù)的取值范圍為0~65,535,而24比特位數(shù)的取值范圍0~16,777,215。由于人耳對(duì)于音量較為敏感,所以,以較高采樣位數(shù)進(jìn)行采樣的音頻會(huì)聽起來(lái)“更平滑”,更能真實(shí)地再現(xiàn)原始模擬音頻。
一般來(lái)說(shuō),人耳僅可以辨別出15比特及17比特的音頻樣本差別。有些聽音者,尤其是受過(guò)專門訓(xùn)練的音頻工程師,可以辨別出同一音頻資源的24比特錄音和16比特錄音之間的差異,但一般人很難辨別出它們的差別。
錄音設(shè)備不大可能也沒(méi)必要絲毫不差地將某一音頻資源再現(xiàn)出來(lái)。以24比特進(jìn)行高數(shù)據(jù)位數(shù)的采樣,可以明顯地消除因設(shè)備配置帶來(lái)的缺陷,并可為計(jì)算機(jī)音頻編輯系統(tǒng)附加的音頻處理提供更多的提升空間。
此外,數(shù)字轉(zhuǎn)換時(shí)采用的采樣頻率和采樣位數(shù)與原始音頻資源息息相關(guān),不僅僅局限于人耳所能聽到的音域。許多聲音所表現(xiàn)的頻率范圍要遠(yuǎn)遠(yuǎn)高出22.05kHz,24比特的采樣位數(shù)比16比特的采樣位數(shù)更能清晰地記錄更多的語(yǔ)音信息。還有,技術(shù)飛速發(fā)展使得數(shù)字音頻的未來(lái)應(yīng)用存在著諸多變化。因此,在進(jìn)行音頻信息資源數(shù)字化時(shí),最佳采樣位數(shù)的選擇受制于眾多因素。筆者列出了目前數(shù)字化項(xiàng)目采用不同的采樣頻率和采樣位數(shù)的優(yōu)缺點(diǎn)(見(jiàn)表1)。
表1 不同采樣頻率和采樣位數(shù)的優(yōu)缺點(diǎn)分析
記錄數(shù)字音頻時(shí),如果每次生成一個(gè)聲波數(shù)據(jù),稱為單聲道;每次生成二個(gè)聲波數(shù)據(jù),稱為雙聲道(立體聲)。另外,還有四聲道、5.1聲道等。聲道數(shù)量越多,聽覺(jué)感受越好,但音頻文件存儲(chǔ)所占空間越大。目前為止,有下述幾種主要類型的聲道。
(1)單聲道。單聲道是比較原始的聲音轉(zhuǎn)換形式,在音頻信息資源數(shù)字化初期應(yīng)用比較廣泛,但現(xiàn)在已很少使用。單聲道音頻播放時(shí)缺乏聲音的位置定位。
(2)雙聲道(立體聲)。雙聲道技術(shù)是指聲音在錄制過(guò)程中被分配到兩個(gè)獨(dú)立的聲道,從而達(dá)到較好的聲音定位效果,克服了單聲道的缺點(diǎn)。該技術(shù)可以使聽眾清晰地分辨出各種聲音的方向,使音樂(lè)更富想象力,更接近于臨場(chǎng)感受。時(shí)至今日,這種技術(shù)應(yīng)用還比較廣泛,并且仍然有不少產(chǎn)品遵循該標(biāo)準(zhǔn)。
(3)準(zhǔn)雙聲道(準(zhǔn)立體聲)。準(zhǔn)雙聲道是指在錄制聲音時(shí)采用單聲道,但在放音時(shí),有時(shí)采用立體聲,有時(shí)采用單聲道。這種技術(shù)曾經(jīng)使用一時(shí),但現(xiàn)在已基本不再使用。
(4)四聲道。技術(shù)的發(fā)展,出現(xiàn)了三維音效,四聲道也應(yīng)運(yùn)而生。三維音效是指一個(gè)虛擬的聲音環(huán)境,通過(guò)特殊技術(shù)營(yíng)造一個(gè)趨于真實(shí)的聲場(chǎng),從而獲得更好的聽覺(jué)效果和聲場(chǎng)定位。
四聲道有4個(gè)發(fā)音點(diǎn):前左、前右,后左、后右,聽眾則被包圍在中間,有時(shí)還增加一個(gè)低音(有人稱為4.1聲道),以加強(qiáng)對(duì)低頻信號(hào)的回放處理。四聲道技術(shù)為聽眾帶來(lái)了來(lái)自多個(gè)不同方向的聲音環(huán)繞,獲得各種不同環(huán)境的聽覺(jué)感受。如今,四聲道技術(shù)已經(jīng)融入到不少產(chǎn)品的設(shè)計(jì)中,可能成為未來(lái)發(fā)展的主流趨勢(shì)。
(5)5.1聲道。5.1聲道已廣泛運(yùn)用于各類影院中,一些比較知名的聲音錄制壓縮格式(如,杜比AC-3、DTS等)都是以5.1聲道為技術(shù)藍(lán)本。5.1聲道來(lái)源于4.1聲道,只是增加了一個(gè)中置單元。該單元負(fù)責(zé)傳送低于80Hz的聲音信號(hào)。
聲道技術(shù)發(fā)展很快,目前已出現(xiàn)了7.1聲道系統(tǒng),該聲道是在5.1聲道基礎(chǔ)上增加了中左和中右兩個(gè)發(fā)音點(diǎn)。
模擬音頻信息資源數(shù)字轉(zhuǎn)換后以文件的形式存儲(chǔ)、播放和傳播。目前,數(shù)字音頻文件的格式有很多種,不同格式所采用的編碼不同,采樣頻率、采樣位數(shù)和聲道個(gè)數(shù)不一樣,壓縮算法、壓縮比例以及壓縮效果也存在一定差別。所以,數(shù)字音頻文件的保存格式也是影響模擬音頻數(shù)字轉(zhuǎn)換質(zhì)量的因素之一。
目前,音頻信息資源數(shù)字化生產(chǎn)中常用的文件格式 有:WAV、CD、MP3、MP3PRO、WMA、MP4、SACD、QuickTime、VQF、DVD Audio、MD、RealAudio、Audible、AIFF、MAC、S48、AAC 等。
除了上述四個(gè)因素外,模擬音頻信息資源數(shù)字化生產(chǎn)的質(zhì)量還受其他一些因素的影響,如:揚(yáng)聲器質(zhì)量、計(jì)算機(jī)聲卡A/D與 D/A(模/數(shù)、數(shù)/模)轉(zhuǎn)換芯片質(zhì)量及各個(gè)設(shè)備連接線屏蔽效果等。
[1]林俊桂.音頻數(shù)字化簡(jiǎn)單原理[EB/OL].[2011-02-10].http://www.nhlcgz.com/blog/u/21/archives/2007/80.html
[2]CDP.Digital Audio Best Practices Version 2.0[EB/OL].[2010-11-15].www.cdpheritage.org/digital/audio/documents/cdpdabp_1-2.pdf