梁瑞宇,王國偉,薛萬里,倪 燁
(南京工程學院通信工程學院,南京211167)
?
面向助聽器的語音信號處理算法開發(fā)平臺設(shè)計*
梁瑞宇*,王國偉,薛萬里,倪燁
(南京工程學院通信工程學院,南京211167)
摘要:綜合考慮助聽器體積小,功耗低等特點,設(shè)計了一種基于嵌入式系統(tǒng)的實時語音處理算法的開發(fā)平臺。該平臺的硬件核心主要由CortexA8嵌入式處理芯片和FPGA芯片綜合構(gòu)成,共包含4個關(guān)鍵模塊:音頻輸入模塊、內(nèi)部時鐘模塊、FPGA控制模塊和信號處理模塊。為了提高系統(tǒng)的處理效率,系統(tǒng)設(shè)計了基于FPGA的多路語音處理轉(zhuǎn)換模塊。為驗證平臺性能,設(shè)計并實現(xiàn)了基于維納濾波的助聽器語音增強算法,并進行了主觀測試,實驗效果良好。
關(guān)鍵詞:助聽器;語音信號;維納濾波;嵌入式系統(tǒng)
聽力損失會嚴重影響聽障患者的身心健康,佩戴助聽器是目前聽障患者改善聽力最有效的手段。在中國,龐大的老齡聽損人口、落后的助聽器技術(shù)、以及漢語與英語本身的差異性,都使得漢語數(shù)字助聽器技術(shù)研究面臨嚴峻的挑戰(zhàn)[1]。因此,研究面向漢語,面向老齡患者的助聽器算法具有急迫的現(xiàn)實意義。
我國助聽器研究起步較晚,軟硬件條件都落后于歐美等發(fā)達國家。目前從事助聽器算法研究的科研人員多局限在PC機上的仿真,由于缺少合適的硬件開發(fā)測試平臺,導致所研究的成果離產(chǎn)業(yè)化仍有不少的距離。為此,面向助聽器需求,在多年助聽器算法研究的基礎(chǔ)上,本文設(shè)計并實現(xiàn)了一種基于嵌入式系統(tǒng)的多路麥克風語音信號處理開發(fā)平臺。平臺以高性能的Cortex-A8微處理器作為主處理器,利用FPGA設(shè)計靈活的語音信號采集與預處理模塊,以實現(xiàn)實時語音處理算法。相比于基于DSP的硬件平臺[2],嵌入式系統(tǒng)更靈活,更便于科研人員進行算法驗證。
在助聽器算法中,降噪算法是最基本的助聽器算法。目前的單通道的降噪算法主要分為4類:小波變換法[3]、模型類語音增強算法[4]、短時譜估計類語音增強算法(維納濾波算法[5]等)和基于聽覺掩蔽效應的語音增強算法[6]。因此,為了驗證平臺性能,本文研究并設(shè)計了一種基于維納濾波的語音增強算法。算法采用基于先驗信噪比估計的維納濾波器[7]進行語音增強處理,信號的噪聲功率譜估計采用最小值統(tǒng)計算法估計,從而得到增強后的語音。實驗表明,與傳統(tǒng)維納濾波法相比,該方法能更有效地抑制殘留噪聲,提高語音可懂度,具有較高的實用價值。
本文語音信號處理實驗平臺的硬件平臺如圖1所示。各模塊具體參數(shù)與指標如下:(1)麥克風:一路駐極體麥克風/耳機接口,用于常規(guī)語音信號采集、處理和回放實驗,8路硅微麥克風陣列輸入,用于聲源定位、語音增強等實驗; (2)A/D轉(zhuǎn)換模塊:不使用編解碼芯片(CODEC),采用CS5368高速8路音頻AD轉(zhuǎn)換器; (3)D/A轉(zhuǎn)換模塊:采用CS4382芯片將串行數(shù)字信號轉(zhuǎn)換成8路音頻模擬信號; (4)Cortex-A8微處理器模塊:采用Samsung公司出品,業(yè)界廣泛使用的S5PV210微處理器; (5)計算機接口:UART串口、I2S音頻接口以及其他接口; (6)數(shù)據(jù)存儲模塊:FLASH閃存本地存儲,或者通過計算機接口存儲在計算機上; (7)立體聲D/A轉(zhuǎn)換模塊:CS4382; (8)揚聲器:將經(jīng)過處理的音頻信號轉(zhuǎn)換為可以感知的聲信號。
圖1 系統(tǒng)架構(gòu)框圖
1.1系統(tǒng)關(guān)鍵模塊設(shè)計與實現(xiàn)
在平臺設(shè)計中,音頻模塊和信號處理模塊相對比較重要,本平臺的關(guān)鍵模塊框圖如圖2所示。系統(tǒng)關(guān)鍵模塊主要包括音頻輸入模塊、內(nèi)部時鐘模塊、FPGA控制模塊和信號處理模塊。音頻輸入模塊采用Cirrus Logic公司推出的一款模擬數(shù)字音頻轉(zhuǎn)換器集成芯片,完成8路差分模擬輸入信號的同步采樣; FPGA控制模塊主要用于實現(xiàn)模數(shù)轉(zhuǎn)換芯片的采樣控制、采樣數(shù)據(jù)的串并轉(zhuǎn)換處理以及數(shù)據(jù)的緩存和傳輸;信號處理模塊主要完成采樣數(shù)據(jù)的處理和各種算法的實現(xiàn);時鐘模塊則負責為各個模塊提供準確的時鐘信號。設(shè)計中采用ASIC+FPGA的設(shè)計理念,其好處在于利用FPGA的并行處理能力,提高數(shù)據(jù)的吞吐率;同時保證ASIC只負責信號的運算處理,提高系統(tǒng)的運算效率。
數(shù)據(jù)采集板的核心邏輯控制芯片采用ALTERA公司CycloneII系列的EP2C5,其內(nèi)部功能模塊設(shè)計主要包括時鐘控制模塊、串并轉(zhuǎn)換模塊、先入先出(First In,F(xiàn)irst Out,F(xiàn)IFO)模塊和DSP接口模塊,如圖3所示。串并轉(zhuǎn)換模塊也是FPGA與模數(shù)器件的接口模塊,與模數(shù)轉(zhuǎn)換器的采樣時鐘和FIFO的寫時鐘同步; DSP接口模塊則與FIFO的讀時鐘同步。所以,為了實現(xiàn)數(shù)據(jù)的緩存和傳輸,系統(tǒng)在兩者之間加入異步FIFO。
圖2 數(shù)字助聽器研發(fā)平臺組成框圖
圖3 FPGA功能模塊設(shè)計
1.2系統(tǒng)同步設(shè)計及抗干擾設(shè)計
在多通道數(shù)據(jù)采集處理系統(tǒng)中,信號的同步和抗干擾設(shè)計對于系統(tǒng)性能起到至關(guān)重要的作用。因此,本系統(tǒng)在硬件電路設(shè)計上采用以下措施來提高系統(tǒng)性能。(1)為了避免各個信號之間的串擾和保證信號的完整性,印制電路板設(shè)計采用4層板結(jié)構(gòu)。大面積的電源和地層使信號線與地平面或電源平面之間形成一個緊耦合層,從而減少了信號線之間的串擾。同時,電路設(shè)計根據(jù)元器件位置將電源平面分割為獨立的模擬區(qū)和數(shù)字區(qū)。模擬和數(shù)字信號在各自的區(qū)域內(nèi)走線,互不交叉; (2)綜合使用濾波電容、濾波電感,減少電源擾動; (3)使用淚滴焊盤和圓弧拐角布線技術(shù)減少信號線的輻射和反射,降低串擾; (4)保持多路時鐘和觸發(fā)信號之間的延遲盡量一致; (5)系統(tǒng)的模擬部分和數(shù)字部分分別采用隔離獨立電源進行供電,而且數(shù)字部分采用低壓差電源,模擬部分則采用低噪聲的線性穩(wěn)壓電源; (6)在去耦降噪設(shè)計上,每個芯片的電源引腳,用0.1 μF 和0.01 μF的貼片瓷片電容進行去耦。在系統(tǒng)電源的輸入端,使用10 μF~100 μF的電解電容器對電源進行濾波; (7)如圖4所示,采用鏡像法設(shè)計8通道語音處理電路,使每通道的元件相對位置與間距相同,從而保證信號在電氣連接上的同步性。
圖4 八通道語音信號采集板
2.1算法原理
傳統(tǒng)的維納濾波法需要估計出純凈語音信號的功率譜,一般用類似譜減法的方法得到,即用帶噪語音功率譜減去估計到的噪聲功率譜,這種方法會存在殘留噪聲大的問題。本文采用改進的維納濾波器進行子帶語音增強,即基于先驗信噪比的維納濾波器[8],且子帶噪聲譜的估計采用最小值統(tǒng)計方法,算法實現(xiàn)框圖如圖5所示。
圖5 維納濾波原理框圖
對于第m幀帶噪語音信號:
式中,sm(n)是第m幀純凈語音信號,nm(n)為第m幀噪聲信號,維納濾波器就是在最小均方誤差準則(MSE)下實現(xiàn)對語音信號sm(n)的估計。在sm(n)與nm(n)不相關(guān)且均為平穩(wěn)隨機過程條件下,對式(2)進行離散傅里葉變換,得:
式中:ξ(m,k)(SNRpriori)為先驗信噪比,m為幀號,k為頻點。則第m幀增強語音可表示為:
采用直接判決(Decision-Directed)法來估計先驗信噪比SNRpriori:
譜增益函數(shù)為
式中:SNRpost表示后驗信噪比,^S2(m-1,k)表示估計的第m-1幀純語音功率譜,^N2(m,k)表示估計的第m幀噪聲功率譜,α一般取0.98。
采用基于先驗信噪比的維納濾波算法的關(guān)鍵在于對噪聲功率譜進行估計。傳統(tǒng)的噪聲譜的準確估計。傳統(tǒng)方法是使用語音激活檢測技術(shù)(VAD)來判斷帶噪語音中的有聲段和無聲段,通過無聲段的功率譜來估計噪聲功率譜。但實際應用中會經(jīng)常遇到背景噪聲是非平穩(wěn)的噪聲和低輸入信噪比的情況,此時的VAD的準確率會較低,很難保證估計出來的噪聲的準確性。為此,本文采用一種快速的噪聲譜估計方法[9],該方法基于Doblinger的最小值統(tǒng)計方法,引入了語音出現(xiàn)的概率,根據(jù)語音出現(xiàn)概率來更新噪聲譜。
2.2實驗與仿真
利用MATLAB對基于先驗信噪比的維納濾波算法進行測試,并與傳統(tǒng)維納濾波法進行對比。實驗語音為錄制的一段語音,噪聲選自NOISEX-92噪聲庫中的White、Speech babble和Destroyer engine噪聲,輸入信噪比分別為0 dB、5 dB、10 dB。實驗中語音信號的采樣率為8 kHz,幀長為256點,幀移50%。增強后的語音從輸出信噪比和MOS得分兩個方面來評價增強效果(MOS得分在0~5之間,得分越高表示語音質(zhì)量越好)。測試結(jié)果見表1。
表1 傳統(tǒng)維納濾波法與本文方法的測試結(jié)果對比表
受限于助聽器硬件和算法實用性的特殊性,本文設(shè)計了一種基于嵌入式系統(tǒng)的語音算法處理平臺。該硬件平臺基于多路麥克風設(shè)計,并采用高性能的Cortex-A8微處理器實現(xiàn)語音處理算法。在硬件實現(xiàn)上,算法綜合考率了硬件的可靠性,并采用FPGA對硬件性能進行了優(yōu)化。最后,基于該平臺,本文實現(xiàn)了基于先驗維納濾波的語音增強算法,并進行了主客觀測試。實驗結(jié)果顯示,同傳統(tǒng)的維納濾波算法相比,該算法的實際性能更好。
參考文獻:
[1]Ruiyu Liang J X,Jian Zhou,Cairong Zou,et al.An Improved Method to Enhance High-Frequency Speech Intelligibility in Noise [J].Applied Acoustics,2013,74(1):71-78.
[2]戴紅霞,王劍,趙力.麥克風陣數(shù)字助聽器實驗平臺研究與設(shè)計[J].電子器件,2012,34(6):723-726.
[3]Ghamry N.An FPGA Implementation of Hearing Aids based on Wavelet-Packets[J].Journal of Computers,2012,7(3):680-684.
[4]Ma N,Bouchard M,Goubran R A.Speech Enhancement Using a Masking Threshold Constrained Kalman Filter and Its Heuristic Implementations[J].Audio,Speech,and Language Processing,IEEE Transactions on,2006,14(1):19-32.
[5]Spriet A,Moonen M,Wouters J.Robustness Analysis of Multichannel Wiener Filtering and Generalized Sidelobe Cancellation for Multimicrophone Noise Reduction in Hearing Aid Applications[J].Speech and Audio Processing,IEEE Transactions on,2005,13(4):487-503.
[6]Virag N.Single Channel Speech Enhancement Based on Masking Properties of the Human Auditory System[J].Speech and AudioProcessing,IEEE Transactions on,1999,7(2):126-137.
[7]Hasan M K,Salahuddin S,Khan M R.A Modified a Priori SNR for Speech Enhancement Using Spectral Subtraction Rules[J].Signal Processing Letters,IEEE,2004,11(4):450-453.
[8]張亮,龔衛(wèi)國.一種改進的維納濾波語音增強算法[J].計算機工程與應用,2010,46(26):126-131.
[9]焦人杰,侯麗敏.一種快速自適應噪聲譜估計方法[J].聲學技術(shù),2007,26(4):735-740.
梁瑞宇(1978-),男,南京工程學院,副教授,研究方向為語音信號處理,助聽器信號處理;
王國偉(1992-),男,南京工程學院,本科,研究方向為語音信號處理。
Design of Hardware and Software of FXS Voice Gateway Based on CM5000*
HUANG Xueda*,LIN Feng
(Chongqing University of Posts and Telecomminications,Chongqing CYIT Communication Technologies Co.,Ltd.,Chongqing 400065,China)
Abstract:We developed IP telephone voice gateway devices on H.323 protocol and MGCP Protocol,then there are very complicated to do for us,which resulted in a lot of problem.In order to improve design of IP telephone,a portable design of FXS terminal devices is put forward on CM5000,which may be implemented by using simple SIP protocols,not only ensure QoS of telephone operation,but also MOS value of 4.5,so telephone operation interface accorded with correlative criterion; How to design and implement the hardware and software of FXS terminal device on CM5000 was described; Performance testing result of telephone interface indicated the design doing all right on Internet.
Key words:IP Telephone; voice gateway; Session Initiation Protocol; Foreign Exchange Station; Foreign Exchange Office
doi:EEACC:645010.3969/j.issn.1005-9490.2015.04.037
收稿日期:2014-03-24修改日期:2014-04-15
中圖分類號:TN912.34
文獻標識碼:A
文章編號:1005-9490(2015)04-0898-05
項目來源:國家自然科學基金項目(61301219,61375028,61301295);江蘇省自然科學基金項目(BK20130241);江蘇省大學生實踐創(chuàng)新訓練計劃項目(201411276019Z)