李 飛,張松軼,冀 峰,白 清
(河北遠(yuǎn)東通信系統(tǒng)工程有限公司,河北 石家莊 050200)
專業(yè)數(shù)字集群標(biāo)準(zhǔn)是具有我國自主知識產(chǎn)權(quán)的數(shù)字集群通信標(biāo)準(zhǔn),是我國倡導(dǎo)的數(shù)字集群技術(shù)體制,可滿足關(guān)鍵領(lǐng)域用戶對高效、專業(yè)無線調(diào)度指揮業(yè)務(wù)的迫切需求。該標(biāo)準(zhǔn)采用半雙工通信模式、TDMA多址方式和4FSK調(diào)制方式,信道間隔為12.5 kHz,數(shù)據(jù)傳輸速率為9.6 kb/s[1],具有業(yè)務(wù)功能豐富、可擴展性好、建設(shè)和運維成本低等特點,主要設(shè)備包括交換管理中心、基站、調(diào)度臺和終端[2]。
話音調(diào)度是通信系統(tǒng)最基本的功能,是各行各業(yè)開展日常工作最重要的通信手段,PDT終端應(yīng)用環(huán)境復(fù)雜多變,需要對環(huán)境噪聲有出色的抑制能力,可以在更廣范圍內(nèi)傳送準(zhǔn)確的語音和數(shù)據(jù),保證在非常嘈雜的環(huán)境下也能通信自如[3]。音頻是衡量終端性能優(yōu)劣的重要指標(biāo),良好的設(shè)計以及優(yōu)良的性能具有重要和現(xiàn)實的意義。
相關(guān)參考文獻已經(jīng)對各種終端設(shè)備的語音增強與優(yōu)化技術(shù)進行了詳盡的研究,但是大多針對的是全雙工通信體制和設(shè)備,PDT手持終端采用了半雙工的通信模式,在實現(xiàn)語音增強和優(yōu)化方面有所不同,因此本設(shè)計對現(xiàn)有通用技術(shù)和方法進行了優(yōu)化和改進。
PDT手持終端音頻子系統(tǒng)(子系統(tǒng))總體設(shè)計如圖1所示,包括子系統(tǒng)及其相關(guān)的MCU控制單元、音頻設(shè)備單元和射頻及基帶單元。
① 子系統(tǒng)采用高性能DSP處理器,主要負(fù)責(zé)上下行語音信號的處理;
② MCU控制單元采用ARM平臺處理器,主要負(fù)責(zé)子系統(tǒng)和音頻設(shè)備單元的配置管理;
③ 音頻設(shè)備單元包括MIC、揚聲器和CODEC等器件,主要負(fù)責(zé)語音信號的輸入與輸出;
④ 射頻及基帶單元負(fù)責(zé)收發(fā)空口數(shù)據(jù)并完成數(shù)據(jù)的調(diào)制解調(diào);
⑤ 語音處理功能集中在音頻子系統(tǒng)上,MCU控制單元、音頻設(shè)備單元和射頻及基帶單元是子系統(tǒng)外圍模塊。
圖1 子系統(tǒng)總體設(shè)計
子系統(tǒng)內(nèi)部主要包括4部分:
① 運行配置管理模塊,負(fù)責(zé)子系統(tǒng)任務(wù)調(diào)度、配置管理和模式切換;
② McASP EDMA接口模塊,負(fù)責(zé)同CODEC的交互,完成PCM語音數(shù)據(jù)收發(fā);
③ 上下行語音數(shù)據(jù)處理模塊,負(fù)責(zé)上行和下行語音數(shù)據(jù)的預(yù)處理和嘯叫識別及抑制處理;
④ 聲碼器模塊,完成話音分析和合成的編、譯碼工作[4],PDT標(biāo)準(zhǔn)采用了NVOC聲碼器。
為了提高設(shè)備的音頻性能,保證良好的用戶體驗,子系統(tǒng)設(shè)計與實現(xiàn)需解決如下2個核心問題。
PDT手持終端需要在野外嘈雜環(huán)境下具有良好的使用效果,終端采用了2 W的大功率揚聲器,但是隨著音量的增加,噪音和語音失真的問題也更加突出。在提高音量的同時抑制噪音和語音失真,保證聲音的清晰洪亮是本設(shè)計要解決的第1個核心問題[5]。
聲反饋是聲音能量的一部分通過聲傳播的方式傳到話筒而引起的嘯叫現(xiàn)象,聲源與擴音設(shè)備之間距離越近,傳到話筒的音量越大,嘯叫現(xiàn)象越明顯,嘯叫會嚴(yán)重影響用戶體驗甚至?xí)斐山K端損壞[6]。聲反饋環(huán)境的復(fù)雜多樣性,增加了嘯叫抑制的難度,設(shè)計一個實時、高效的嘯叫識別和抑制算法是本設(shè)計要解決的第2個核心問題。
解決上述核心問題的思路和關(guān)鍵技術(shù)如下。
采用基于濾波器的語音預(yù)處理技術(shù),對上下行語音信號進行預(yù)處理,在實現(xiàn)增強音量的同時,避免音質(zhì)的下降。
常用的濾波器算法包括有限脈沖響應(yīng)(Finite Impulse Response,F(xiàn)IR)濾波器和無限脈沖響應(yīng)(Infinite Impulse Response,IIR)濾波器[7],本設(shè)計采用的FIR濾波器算法能夠在保證任意幅頻特性的同時具有嚴(yán)格的線性相頻特性,其單位抽樣響應(yīng)是有限長的,濾波效果穩(wěn)定,在通信、圖像處理和模式識別等領(lǐng)域都有廣泛的應(yīng)用[8]。
由于人聲的頻帶范圍是300~3 400 Hz,同時300 Hz以下的低頻信號對語音音質(zhì)影響很小,因此FIR濾波器需重點過濾3 400 Hz以上的高頻非人聲信號[9]。采用理論分析和實際測試相結(jié)合的辦法,綜合考慮處理器性能和濾波效果,得到最佳濾波器參數(shù)如表1所示。
表1 FIR濾波器參數(shù)表
FIR參數(shù)設(shè)計值采樣率/Hz8 000階數(shù)63通帶頻率/Hz3 300阻帶頻率/Hz3 400通帶權(quán)重0.1阻帶權(quán)重40
3.2.1 嘯叫的產(chǎn)生原理及其抑制算法
PDT手持終端采用半雙工通信模式[10],單部終端不存在聲反饋問題。2部終端通話時,如果主叫的MIC和被叫揚聲器距離過近,某些頻率的信號會通過聲反饋路徑傳回主叫的MIC被拾取,并與輸入信號疊加,在某頻點形成正反饋,形成嘯叫[11-12],如圖2所示。
圖2 PDT手持終端嘯叫原理
業(yè)內(nèi)廣泛采用的嘯叫抑制算法包括移頻法、隨機相位法、陷波法及自適應(yīng)濾波法等。移頻法簡單易實現(xiàn),但容易導(dǎo)致語音嚴(yán)重失真;隨機相位法雖然不會導(dǎo)致語音嚴(yán)重失真,但隨機加入的相位有可能產(chǎn)生新的嘯叫頻點;陷波法需要人工尋找嘯叫頻點/頻帶,如果嘯叫頻點/頻帶判斷不準(zhǔn),會導(dǎo)致語音失真;自適應(yīng)濾波法自動調(diào)節(jié)語音的沖激響應(yīng)特性,適應(yīng)信號變化達(dá)到最優(yōu)濾波,但是要頻繁調(diào)整濾波器參數(shù),計算量大,系統(tǒng)設(shè)計復(fù)雜[13]。
結(jié)合陷波法和自適應(yīng)濾波法的優(yōu)點,通過自動尋找嘯叫頻點,并對該頻點周邊頻段進行陷波處理的方法,可以有效減低設(shè)計復(fù)雜度,保證嘯叫抑制效果。
3.2.2 嘯叫識別原理分析
嘯叫從無到有的過程中,伴隨著音頻信號能量向嘯叫頻點不斷聚集,逐漸破壞了正常語音的能量分布規(guī)律,因此從能量分布的角度出發(fā),分析嘯叫語音同正常語音之間的差異,即可實現(xiàn)嘯叫的識別[14]。
語音信號既有時域特征又有頻域特征,嘯叫識別的目的是識別出嘯叫頻點,借助于傅里葉變換,將時域語音信號轉(zhuǎn)換為頻域,得到語音信號頻譜,通過對比正常語音信號頻譜和不同嘯叫語音頻譜,可歸納總結(jié)出嘯叫語音區(qū)別于正常語音的頻譜特征[15]。
為了獲取嘯叫頻譜特征,采集一系列語音樣本,樣本包含以下五類:正常語音、輕度嘯叫語音、高頻(2 000 Hz以上)劇烈嘯叫語音、中頻(1 000~2 000 Hz)嘯叫語音和低頻(1 000 Hz以下)嘯叫語音。典型頻譜如圖3~圖7所示,為了更直觀地表示語音頻率成分變化,圖中縱坐標(biāo)直接采用PCM量化幅值,沒有轉(zhuǎn)化為對應(yīng)分貝值。
圖3 正常語音信號特征頻譜
圖4 輕微嘯叫語音信號特征頻譜
圖5 劇烈高頻嘯叫語音信號特征頻譜
圖6 劇烈中頻嘯叫語音信號特征頻譜
圖7 劇烈低頻嘯叫語音信號特征頻譜
通過大量樣本的分析,總結(jié)出如下6個規(guī)律:
① 嘯叫頻點在頻帶上隨機出現(xiàn),并且會在一定范圍內(nèi)漂移抖動;
② 輕微嘯叫通常表現(xiàn)為在頻譜上同時出現(xiàn)多個能量集中的頻點;
③ 劇烈嘯叫通常表現(xiàn)為在頻譜上出現(xiàn)單一能量集中的頻點;
④ 正常語音的信號最大幅值頻點在低頻段,在0~500 Hz范圍內(nèi)能量譜密度(能量譜密度是當(dāng)信號的頻帶寬度趨近于零時,每單位帶寬的均方根值[16])最大;
⑤ 低頻嘯叫最大幅值頻點在低頻段500~1 000 Hz,在0~500 Hz范圍內(nèi)能量譜密度幾乎為0;
⑥ 中頻嘯叫的最大幅值頻點在中頻段,高頻嘯叫的最大幅值頻點在高頻段,高頻嘯叫的帶寬大于中頻嘯叫。
3.2.3 嘯叫識別和抑制算法設(shè)計
綜合吸收陷波法和自適應(yīng)濾波法的優(yōu)點,采用了一種基于頻域分析的嘯叫抑制算法,主要流程如圖8所示。
圖8 嘯叫識別和抑制算法流程
上下行的嘯叫識別和抑制算法流程基本相同,本文以上行處理為例進行介紹,流程分為5個階段:
① 語音輸入及預(yù)處理階段:MIC端以8 000 Hz速率采樣語音數(shù)據(jù),通過0~3 400 Hz的FIR低通濾波器,濾掉高頻干擾信號。
② 頻譜分析階段:將信號進行快速傅里葉變換,得到語音信號頻譜;獲取語音頻譜的最大幅值頻點,重點分析該頻點是否具備嘯叫特征。
③ 嘯叫識別邏輯階段:根據(jù)語音樣本分析總結(jié)的規(guī)律,針對低、中、高頻嘯叫形態(tài)不同、頻域特征不同的特點,采用不同的方法進一步識別。如果最大幅值頻點落在低頻帶,則計算500 Hz以下能量譜密度,如果小于臨界值,則判斷為低頻嘯叫,反之則為正常語音信號。如果最大幅值頻點落在中頻和高頻帶,則判定一定產(chǎn)生了嘯叫。
④ 嘯叫抑制階段:判定產(chǎn)生嘯叫后,采用陷波器(帶阻濾波器)技術(shù)對該頻點及附近的信號強度進行衰減,不同子頻帶內(nèi)嘯叫的帶寬不同,因此不同子頻帶內(nèi)需采用不同帶寬的陷波器[17]。
⑤ 語音輸出階段:將經(jīng)過嘯叫識別和抑制后的頻域數(shù)據(jù)和正常語音數(shù)據(jù),直接進行反向快速傅里葉變換,恢復(fù)為時域數(shù)據(jù)輸出。
該方法不需要建立整個聲反饋環(huán)境模型,只在上下行鏈路對語音信號進行頻域分析,進行嘯叫識別并進行陷波抑制,就可達(dá)到抑制嘯叫,同時不損失語音信號[18]的目的。
該設(shè)計已經(jīng)通過測試驗證并在實際產(chǎn)品上部署和應(yīng)用,測試驗證情況如下。
通過FIR低通濾波器后的語音信號帶寬限制在了3 400 Hz以內(nèi),高頻信號被有效濾除。如圖9所示,語音信號經(jīng)過低通濾波后,頻帶被限制在3 400 Hz以內(nèi),音量有明顯提升,滿足了嘈雜環(huán)境中正常使用的要求。
圖9 FIR低通濾波后語音頻譜
信號通過基于頻域分析的嘯叫抑制算法處理后,2臺終端在較近距離(20~50 cm)呼叫時,不會產(chǎn)生劇烈嘯叫,在較遠(yuǎn)距離(50 cm以上)呼叫時,不會產(chǎn)生嘯叫,語音頻譜如圖10所示。
圖10 嘯叫抑制處理后語音頻譜
針對音頻子系統(tǒng)進行了總體設(shè)計,對影響音量、音質(zhì)等音頻性能的2個核心問題的關(guān)鍵技術(shù)進行了分析及論證,詳細(xì)闡述了語音的增強處理和基于頻域分析算法的嘯叫識別與抑制處理,測試證明,通過上述方法,終端的音頻性能和用戶體驗得到明顯改善,終端對于環(huán)境的適應(yīng)能力也得到有效提升。