羅海濤
(廣東外語外貿(mào)大學信息學院,廣東 廣州 510420)
數(shù)字語音處理是采用計算機對語音信號進行處理。數(shù)字語音處理涉及到語音、語言學、認知科學、數(shù)字信號處理等諸多領域,是一門跨學科的新興技術。隨著集成電路技術、計算機技術、數(shù)字信號處理技術的發(fā)展,語音信號處理廣泛應用于語音識別、語音合成、語音編碼等方面。
用數(shù)字化的方法對語音進行傳送、存儲、識別、合成、增強和編碼,已成為整個數(shù)字化社會中最重要、最基本的組成部分。數(shù)字電話通信、窄帶語音通信、語言學習機、聲控打字機、自動翻譯機、智能機器人、計算機語音智能終端,以及許多軍事上的應用等,都要用到信號處理技術,而隨著集成電路和微電子技術的發(fā)展,語音信號處理系統(tǒng)已逐步實用化。
本文采用濾波的方法,設計一個濾波器,對語音信號進行處理。處理的語音是經(jīng)過采樣和量化后的wav格式的音頻文件,這種格式的音頻文件廣泛應用在各種數(shù)字音頻文件的存儲。wav格式是微軟公司開發(fā)的一種聲音文件格式,具有RIFF(Resource Interchange File Format)格式。RIFF 格式的wav 文件由若干個塊(Chunk)組成,按先后順序為RIFF WAVE Chunk、Format Chunk、Fact Chunk(可選)和Data Chunk。每個塊的格式都固定且相似,一般一塊的第一部分是該塊的ID,作為標識;第二部分是該塊的大小;第三部分略有差異。wav格式文件的壓縮率比較低,比較容易進行讀取,以及進一步的處理。
濾波器在語音信號的共振峰估計、語譜圖等方面有著重要的作用。在語音信號的頻譜中,低頻分量往往包含了語音信號的重要特征。這些特征是語音信號處理、識別,以及說話人識別、語譜圖形成等重要依據(jù)。獲得語音信號的低頻分量有著很大的實用價值。本文在Visual C++環(huán)境下設計濾波器,再用設計的濾波器對語音采樣數(shù)據(jù)進行濾波,以期在后面的工作中用于語譜圖的形成。
按照時域單位抽樣響應h(n)來分類,濾波器有兩種,分別是FIR (Finite Impulse Response)濾波器和IIR (Infinite Impulse Response)濾波器。FIR 濾波器在時域是有限長的,其系統(tǒng)函數(shù)H(z)可表示為:
如果用時域沖擊響應h(n)來表示,則可表示為:
其系統(tǒng)函數(shù)H(z)的極點全部位于z=0 處。從結構上看,F(xiàn)IR 濾波器沒有從輸出到輸入的反饋,即FIR 濾波器屬于非遞歸型。
IIR濾波器在時域是無限長的,其系統(tǒng)函數(shù)H(z)可表示為:
H(z)在有限z 平面(0<|z|<+∞)上存在極點。從結構上看,IIR 濾波器有從輸出到輸入的反饋,即IIR 濾波器屬于遞歸型。
兩者相比較,實現(xiàn)同樣的幅頻特性時,IIR 濾波器的階數(shù)可以少得多。但IIR 濾波器的相位是非線性的,這限制了IIR濾波器的應用。而FIR濾波器可以實現(xiàn)線性相位,同時,由于其單位抽樣響應是有限長的,因而這種系統(tǒng)一定是穩(wěn)定的。另外,F(xiàn)IR 濾波器的濾波可以采用FFT 算法來實現(xiàn),極大地提高了其運算和處理的效率。因而,F(xiàn)IR濾波器得到了廣泛的應用。
考慮到FIR 濾波器可以實現(xiàn)線性相位,本文采用頻率抽樣法設計一個FIR 低通濾波器,對語音采樣數(shù)據(jù)進行濾波。頻率抽樣法就是在離散的頻域有:
對濾波器的每一個頻域點()的幅度和相位進行設計,再利用離散傅里葉反變換,得到濾波器的時域單位抽樣響應()?;蛘咧苯討妙l域響應進行濾波,再把頻域濾波結果利用離散傅里葉反變換得到時域結果。
設計的濾波器的截止頻率取30Hz,而語音信號的采樣頻率為44100Hz,這樣可以得到濾波器的數(shù)字截止頻率
為了提高阻帶最小衰減,使阻帶最小衰減δ≥40dB,從通帶到阻帶之間增加一個過渡帶點,設定過渡帶寬Δω=ω/4=0.00034π,濾波器應具有第一類線性相位。
確定過渡帶抽樣點數(shù)=1,可以滿足阻帶最小衰減δ≥40dB的條件。
構造頻率響應函數(shù)H(eω)
上述構造的濾波器的相位為:
頻域抽樣求(),先計算通帶寬度k
k實際上是通帶對應的頻域抽樣點數(shù),再取一點過渡帶的值為0.38,則有
上述結果其實是根據(jù)FIR 濾波器的特性得到的。FIR濾波器在頻域是共軛對稱的,即有:
進一步,當取奇數(shù)時,有如下結論:
這樣就有了式⑻的結論。根據(jù)該結論可以進一步得到:
=H,=H,即有=1,而=,…,=,故有:H=1,=0,1,…,8,11751,…,11758。
由此得低通濾波器完整的頻率抽樣響應為:
根據(jù)其頻率響應,可以畫出濾波器的幅頻特性如圖1所示:
圖1 低通濾波器的幅度Hk與離散頻率關系圖
雖然對()求離散傅里葉反變換,可以求得時域單位抽樣響應(),但是,實際上本文直接在頻域應用()對語音信號采樣數(shù)據(jù)濾波,為下一步處理做準備。
本文在Visual C++環(huán)境下編程實現(xiàn),對幾個英文單詞的音頻文件數(shù)據(jù)進行低通濾波,為后面的工作做準備。
前面述及的低通濾波器的時域波形()如圖2所示。
圖2 低通濾波器時域波形圖
英文單詞“important”的波形如圖3所示。
圖3 “important”的原始音頻波形圖
用低通濾波器濾波的結果如圖4所示。
圖4 “important”低通濾波后的波形圖
對比圖3 和圖4 可以清楚地看出,低通濾波后,原來語音的波形所包含的高頻分量全部被過濾,只剩下低頻部分,圖4中波形變化頻率明顯很低。
英文單詞“dictionary”的波形如圖5所示。
圖5 “dictionary”的原始音頻波形圖
用低通濾波器濾波的結果如圖6所示。
圖6 “dictionary”低通濾波后的波形圖
對比圖5 和圖6 可以清楚地看出,低通濾波后,原來語音的波形所包含的高頻分量全部被過濾,只剩下低頻部分,圖6中波形變化頻率明顯很低。
其他語音濾波結果沒有一一展示。
本文是在Visual C++環(huán)境下,設計低通濾波器,對語音信號進行低通濾波,生成濾波語音的時域和頻域波形。數(shù)字濾波器在數(shù)字信號處理領域有著廣泛的應用,數(shù)字濾波器有兩種,分別是FIR 濾波器和IIR濾波器,其中FIR 濾波器由于具有線性相位特征而得到廣泛應用。本文采用頻域抽樣法設計了一個低通濾波器,得到了濾波器的頻域抽樣值,并直接在頻域對語音采樣數(shù)據(jù)進行濾波,得到頻域濾波結果,再通過傅里葉反變換轉換為時域波形,為后面的進一步處理做準備。