李戰(zhàn)明,張 璇
(蘭州理工大學(xué) 電氣工程與信息工程學(xué)院,甘肅 蘭州730050)
基于頻率轉(zhuǎn)移的數(shù)字助聽器單通道響度補(bǔ)償算法
李戰(zhàn)明,張 璇
(蘭州理工大學(xué) 電氣工程與信息工程學(xué)院,甘肅 蘭州730050)
為了實(shí)現(xiàn)數(shù)字助聽器響度補(bǔ)償?shù)哪康?,本文提出了一種基于頻率轉(zhuǎn)移的單通道響度補(bǔ)償算法。該算法在頻域分析的基礎(chǔ)上,對(duì)語音信號(hào)高頻部分按比例壓縮并搬移到目標(biāo)頻段,再利用多分辨率小波對(duì)信號(hào)進(jìn)行分解與重構(gòu),提取頻譜包絡(luò),得到特征頻率點(diǎn)初期信息;以特征點(diǎn)為端點(diǎn)進(jìn)行分段,在各頻段內(nèi)進(jìn)行響度補(bǔ)償和增益控制。該算法使得補(bǔ)償后語音的響度完全映射到患者的聽覺范圍內(nèi)。仿真實(shí)驗(yàn)結(jié)果表明,該方法有效補(bǔ)償了患者缺失的語音高頻能量,顯著提高了患者的聽力水平及言語辨識(shí)率,同時(shí)保護(hù)了語音特征,達(dá)到了理想的效果。
響度補(bǔ)償;頻率轉(zhuǎn)移;多分辨率小波;特征頻率點(diǎn)
響度補(bǔ)償是數(shù)字助聽器設(shè)計(jì)的首要任務(wù)。目前數(shù)字助聽器中多采用多通道響度補(bǔ)償算法[1],其基本思想是把信號(hào)按頻率劃分成多個(gè)頻帶,然后在各頻帶內(nèi)進(jìn)行響度補(bǔ)償。該算法通常是對(duì)衰減小的頻帶進(jìn)行小幅度增益,對(duì)衰減大的頻帶進(jìn)行大幅度增益[2-3]。然而有研究表明,當(dāng)聽力損失超過60 dB時(shí),對(duì)高頻進(jìn)行高增益不但達(dá)不到補(bǔ)償?shù)男Ч?,而且?huì)對(duì)言語的理解產(chǎn)生副作用[4-5];同時(shí)該研究表明,人腦對(duì)頻率的覺察不是依賴絕對(duì)頻率,而是相對(duì)比率。按比例壓縮可以保持語音中各語素之間的相應(yīng)頻譜位置關(guān)系[6]。語音頻譜中的許多特征(如頻譜包絡(luò)和共振峰等)對(duì)言語的識(shí)別具有很重要的意義,而多通道響度補(bǔ)償算法幾乎忽略了對(duì)這些特征的保護(hù),造成語音結(jié)構(gòu)變形和識(shí)別率低等問題。
文中在流行算法的基礎(chǔ)上,針對(duì)以上各方面不足,提出一種基于頻率轉(zhuǎn)移的單通道響度補(bǔ)償方案。即首先將語音高頻譜(患者聽力損失超過60 dB)部分按比例壓縮后搬移到其殘余的較好的聽力范圍內(nèi),然后通過小波多分辨率分析的方法提取信號(hào)頻譜包絡(luò),以特征頻率點(diǎn)為端點(diǎn)進(jìn)行分段補(bǔ)償。既保留了多通道響度補(bǔ)償?shù)膬?yōu)點(diǎn),又解決了其對(duì)語音特征如共振峰的忽略所造成的語音結(jié)構(gòu)變形問題;而采用壓縮移頻技術(shù)可有效改進(jìn)聽損患者的言語辨識(shí)率,特別對(duì)女聲、童聲這些高頻分量豐富的語音有更好的效果[7]。實(shí)驗(yàn)結(jié)果表明,該算法具有可行性與有效性。
1.1 響度補(bǔ)償及增益控制原理
當(dāng)聲音的聲壓能剛好能被人耳感知時(shí),該聲壓值稱為“聽閾”;如果加大聲音的強(qiáng)度,使它大到人的耳朵感到疼痛,這個(gè)聲壓稱為“痛閾”。人耳對(duì)不同頻率上聲強(qiáng)的感覺是不同的[8]。圖1為正常人和聽損患者的純音聽力比較。
圖1 聽損患者(~u)與正常人(~n)的聽力測(cè)試曲線對(duì)比
從圖1中可以看出,患者在不同頻段上的聽損情況是不相同的,所以需要在不同的頻帶上進(jìn)行不同的增益??傮w來看,頻率越高,衰減越嚴(yán)重,聽力范圍越窄。
1.2 壓縮移頻技術(shù)
壓縮移頻就是將語音信號(hào)某段頻域信息按比例壓縮后搬移到另一頻段上的方法[9-10]。這種算法能夠?qū)崿F(xiàn)的主要原因是語音的一些特殊性質(zhì),也就是在語音元素之間有著相對(duì)的關(guān)系,按比例壓縮可以保持語音中語素之間的相應(yīng)關(guān)系。將患者感知不到的語音高頻部分按比例壓縮搬移到殘余的有較好的聽力范圍內(nèi),這可以保證患者能夠感知到原本無法獲取到的語音高頻信息,有助于提高患者的言語辨識(shí)率。
不同患者的聽損情況不同,故要根據(jù)患者的真實(shí)情況選定要搬移的頻段和目標(biāo)頻段,然后計(jì)算壓縮比,設(shè)壓縮比為γ,則:
其中,fomax和fomin分別為原頻段的最高頻率和最低頻率,fgmax和fgmin分別為目標(biāo)頻段的最高頻率和最低頻率。壓縮后信號(hào)頻譜表達(dá)式為:
1.3 基于小波多分辨率分析的單通道頻段劃分
由于患者在不同頻段上的聽損情況不同,故要把語音信號(hào)劃分為不同的頻段。利用小波多分辨率分析[11-12]對(duì)信號(hào)進(jìn)行分解與重構(gòu),提取信號(hào)頻譜包絡(luò),找出特征頻率點(diǎn)進(jìn)行不同頻段的劃分。這里的特征點(diǎn)指的是小波分解與重構(gòu)使信號(hào)聲壓級(jí)頻譜更加平滑,繼而檢測(cè)出重構(gòu)后的音頻聲壓級(jí)頻譜包絡(luò)的各極值所在,確定為信號(hào)聲壓級(jí)頻譜的特征點(diǎn)。
1.4 系統(tǒng)結(jié)構(gòu)框圖
首先對(duì)一段語音信號(hào)進(jìn)行預(yù)處理,然后根據(jù)病人的聽力測(cè)試曲線選取語音高頻部分進(jìn)行壓縮搬移,再對(duì)該信號(hào)提取頻譜包絡(luò)進(jìn)而提取特征頻率點(diǎn),根據(jù)特征點(diǎn)劃分頻段并在各頻段內(nèi)進(jìn)行響度補(bǔ)償和增益調(diào)節(jié),最后得到補(bǔ)償后的語音。系統(tǒng)的結(jié)構(gòu)框圖如圖2所示。
圖2 系統(tǒng)結(jié)構(gòu)框圖
具體步驟如下:
第1步:語音信號(hào)預(yù)處理。語音信號(hào)采樣頻率為16 kHz,加hamming窗分幀,取一幀為16 ms,幀移為幀長(zhǎng)的一半;對(duì)每一幀信號(hào)進(jìn)行傅里葉變換得到信號(hào)頻譜,其變換公式如公式(3)所示:
第2步:高頻譜壓縮搬移。以某病患為例,測(cè)得其聽力特性曲線如圖1所示,可以看出在4000~8000Hz頻段上患者的聽覺范圍極小,且聽力損失超過60 dB,而在2 000~4 000 Hz頻段上的聽覺范圍較大,因此將語音的高頻段(4 000~8 000 Hz)按公式(1)進(jìn)行壓縮,取壓縮比N=2,并根據(jù)移頻表達(dá)式(2)將壓縮后的頻譜搬移到目標(biāo)頻段(2 000~4 000 Hz)上。要根據(jù)患者的具體情況來選取原頻段與目標(biāo)頻段;
第3步:單通道增益補(bǔ)償。多分辨率分析又稱多尺度分析,是指在不同尺度或分辨率上,由粗到細(xì)或由細(xì)到粗的對(duì)事物進(jìn)行描述和分析[13]。Mallat算法[14-15]將函數(shù)空間逐級(jí)二分解,產(chǎn)生一組逐級(jí)包含的子空間,每級(jí)輸入被分解成離散平滑逼近和離散細(xì)節(jié)信號(hào),輸出采樣率減半。語音信號(hào)是一維信號(hào),利用小波分解與重構(gòu),能夠提取出信號(hào)的相對(duì)低頻包絡(luò),也能夠反映信號(hào)的高頻細(xì)節(jié)。
Mallat算法分解原理可以用式(4)(5)表示。Sj(n)和Dj(n)分別為信號(hào)第j層的離散平滑逼近(低頻信號(hào))和離散細(xì)節(jié)信號(hào)(高頻信號(hào)),h(n)是與尺度數(shù)相關(guān)的低通濾波器的脈沖響應(yīng),g(n)是與小波函數(shù)相關(guān)的高通濾波器的脈沖響應(yīng)。
小波重構(gòu)為小波分解的逆過程,Mallat小波逐層重構(gòu)原理可以表示為式(6)。
單通道增益補(bǔ)償步驟:
1)小波分解與重構(gòu)(提取語音頻譜包絡(luò))
本設(shè)計(jì)對(duì)語音信號(hào)幀進(jìn)行4級(jí)小波分解與重構(gòu),其計(jì)算過程如下:
① 將聲壓級(jí)頻譜最高階高頻小波特征信號(hào)置零,即D4(n)=0;
② 利用Mallat算法對(duì)聲壓級(jí)頻譜進(jìn)行逐級(jí)重構(gòu)。 首先由式(6)計(jì)算出(n):
2)提取特征點(diǎn)(共振峰與波谷)
由(1)獲得信號(hào)重構(gòu)后的頻譜包絡(luò),然后對(duì)其進(jìn)行幅值檢測(cè),以某頻率點(diǎn)的幅值與其前后頻率點(diǎn)幅值之差的變化來判斷該點(diǎn)是否為極值點(diǎn),如果兩差值正負(fù)性相同,則為極值點(diǎn),以此選定該點(diǎn)為特征點(diǎn);差值為正,則為波峰(包含共振峰);差值為負(fù),則為波谷。
3)增益補(bǔ)償
圖3為增益控制曲線,圖中橫坐標(biāo)表示輸入的聲壓級(jí),縱坐標(biāo)表示輸出的聲壓級(jí)。THRn、MCLn、UCLn分別表示正常人的聽閾值、最舒適閾值、痛閾值。THRu、MCLu、UCLu分別表示患者的聽閾值、最舒適閾值、痛閾值。這些參數(shù)在不同頻段上的值各不相同,可根據(jù)患者的聽力檢查曲線來確定。以某病患為例,測(cè)得其聽力特性如圖1所示,計(jì)算各特征點(diǎn)Wx所需增益Gwx。
圖3 增益控制曲線
對(duì)于某特征點(diǎn),首先由圖1確定該頻點(diǎn)THRn、THRu、UCLn、UCLu、MCLn、MCLu 6個(gè)參數(shù)。然后計(jì)算該頻點(diǎn)增益調(diào)節(jié)因子,即a和b兩段直線的斜率,如下式所示:
整個(gè)聽力頻帶被m個(gè)特征點(diǎn)劃分成m+1個(gè)頻帶,特征頻率點(diǎn)增益前文已給出了具體算法;對(duì)任一頻點(diǎn)W,首先判斷其所在頻帶,設(shè)其所在頻帶的兩個(gè)端點(diǎn)(特征頻率點(diǎn))wl、wl-1,增益值為 Gwl、Gwl-1,則該頻點(diǎn)的增益值為:
由此便可確定適合患者的全頻帶增益特性;
第4步:傅里葉逆變換。對(duì)補(bǔ)償后的音頻頻譜進(jìn)行傅里葉逆變換,最終得到符合患者聽力需求的語音信號(hào)。傅立葉逆變換算法如下:
最后合成各幀信號(hào),便得到響度補(bǔ)償后的語音信號(hào)。
圖4為一幀語音的頻譜搬移前后的比較圖,經(jīng)過γ=2的壓縮并進(jìn)行頻率轉(zhuǎn)移。其中原頻段取為0~8 000 Hz,目標(biāo)頻段為0~4 000 Hz。
圖4 頻譜搬移前后比較
實(shí)驗(yàn)語音為語音室錄制的一段語音。采樣頻率為16 kHz,首先對(duì)語音信號(hào)進(jìn)行分幀,幀長(zhǎng)為20 ms(320點(diǎn)),幀移為幀長(zhǎng)的一半。對(duì)其一幀信號(hào)進(jìn)行上文提到的Mallat小波分解與重構(gòu),得到重構(gòu)后的譜線(下文稱為Mallat頻譜),仿真結(jié)果如圖5所示。
圖5 頻譜包絡(luò)圖
從圖5中可看出,用Mallat算法進(jìn)行小波分解與重構(gòu),可有效提取出語音信號(hào)頻譜包絡(luò)。
對(duì)文中示例患者進(jìn)行文中算法的仿真補(bǔ)償,其中一幀信號(hào)的補(bǔ)償結(jié)果如圖6所示。
圖6 響度補(bǔ)償及增益控制
從圖6可以看出,原語音在大部分頻段內(nèi)的響度值都低于患者的聽閾值,在2 000~4 000 Hz頻段內(nèi),患者基本聽不清聲音。經(jīng)過本文算法補(bǔ)償后的語音信號(hào),其整個(gè)頻段上的聲壓級(jí)明顯處于患者的聽覺范圍內(nèi),實(shí)現(xiàn)了響度補(bǔ)償?shù)哪康摹?/p>
圖7是語音信號(hào)經(jīng)過響度補(bǔ)償前后的振幅譜圖。
圖7 響度補(bǔ)償前后語音信號(hào)的振幅譜圖
從圖7可以看出,經(jīng)過頻率轉(zhuǎn)移的響度補(bǔ)償,其高頻能量得到正確補(bǔ)償,中頻能量明顯豐富了很多。這可以保證患者能夠感知到原本無法獲取到的語音高頻信息,有助于提高患者的言語辨識(shí)率。
圖8是原語音、經(jīng)過響度補(bǔ)償后后語音的時(shí)域波形比較圖。
從圖8語音信號(hào)的時(shí)域波形比較圖可以看出,補(bǔ)償后的語音與原語音波形的擬合度很高,基本保持一致,較好地保留了語音特征,提高了言語辨識(shí)率;且語音的幅度明顯增強(qiáng),達(dá)到了響度補(bǔ)償?shù)哪康摹?/p>
以上結(jié)果表明,通過壓縮移頻可以將患者不容易聽到的高頻部分搬移到患者可以較容易感知的聽力殘留區(qū),并在該區(qū)域進(jìn)行了響度補(bǔ)償,通過小波分析[16]提取特征頻率點(diǎn),以其為端點(diǎn)分段,在各段內(nèi)各自補(bǔ)償,使得補(bǔ)償后語音的強(qiáng)度完全映射到聽損患者的聽力范圍內(nèi),有效防止了對(duì)患者的二次傷害。相對(duì)于傳統(tǒng)助聽器補(bǔ)償算法,本算法在對(duì)語音進(jìn)行補(bǔ)償?shù)耐瑫r(shí)能更有效地保護(hù)語音特征,提高言語識(shí)別率,達(dá)到比較理想的效果。需要指出的是,小波函數(shù)的選取會(huì)直接影響所提取包絡(luò)的結(jié)構(gòu),本文實(shí)驗(yàn)中利用Db6小波進(jìn)行分析,取得了良好的效果。
圖8 原語音及響度補(bǔ)償后語音的時(shí)域波形圖
[1]Kwen-Siong Chong,Bah-Hwee Gwee,Chang,J S A 16-Channel Low-Power nonuniform spaced filter bank corefor digital hearing aids[J].IEEE Transactions on Circuits and Systems II:Express Briefs,2006,53(9):853-857.
[2]王青云,趙力,趙立業(yè),鄒采榮.一種數(shù)字助聽器多通道響度補(bǔ)償方法[J].電子與信息學(xué)報(bào),2009,31(4):832-835.
[3]Wyrsch S,Kaelin A.Subband signal processing for hearing aids[C]//Proceedings of the 1999 IEEE International Symposium on Circuits and Systems,1999:29-32.
[4]Miller-Hansen D R,Nelson P B,Widen J E,et al.Evaluating the benefit of speech recoding hearing aids in children[J].American Journal of Audiology,2003,12:106-113.
[5]Stelmachowicz P G,Pittman A L,Hoover B M,et al,MoellerM.The Importance of high-frequency audibility in the speech and language development of children with hearing loss[J].Arch Otolaryngol Head Neck Surg.2004,130(5):556-562.
[6]Goldbaum S M,Halpin C.Exploring the Damaged Ear.The NIDCD national temporal bone registry[J].ASHA,1999,Jan-Feb,41(1):29-33.
[7]Deniz B,Robert V S.Combined effects of frequency compression-Expansion and shift on speech recognition[J].Ear&Hearing,Jun 2007,28(3):277-289.
[8]喬杰.利用人耳聽覺特性的子帶雙聲道回波抵消[J].應(yīng)用科學(xué)學(xué)報(bào),2007,25(4):331-336.
[9]Ling D.Three experiments on frequency transposition[J].American annals of the deaf,1968,113(2):283-94.
[10]Sakamoto S,Goto K,Tateno M,et al.Frequency compression hearing aid for severe-to-profound hearing impairments[J].Auris Nasus Larynx,2000,27(4):327-334.
[11]楊建國.小波分析及其工程應(yīng)用[M].北京:機(jī)械工業(yè)出版社,2005.
[12]孫勇,景博,覃征,等.基于小波分析的信噪分離方法研究[J].計(jì)量學(xué)報(bào),2006,26(2):153-155.
[13]MallatS.A theory formultiresolution signal decomposition the wavelet representation[J].IEEE Trans on Pattern Analysis and Machine Intelligence,1989,11:674-693.
[14]張杰.Mallat算法分析及C語言實(shí)現(xiàn)[J].微計(jì)算機(jī)信息,2010,26(3):229-230,237.
[15]周凱,吳旦.基于多分辨分析的Mallat算法研究[J].軟件導(dǎo)刊,2008,7(10):54-55.
[16]楊勇明.基于小波分析的蝸輪蝸桿減速器故障診斷系統(tǒng)[J].電子科技,2016(11):65-69.
A single-channel loudness compensation algorithm based on frequency transfer for digital hearing aids
LI Zhan-ming,ZHANG Xuan
(College of Electrical and Information Engineering of Lanzhou University of Technology,Lanzhou 730050,China)
In order to achieve the purpose of loudness compensation,a single-channel loudness compensation algorithm is proposed based on frequency transfer technology for digital hearing aids.On the basis of frequency domain analysis for the algorithm,high frequency part of speech signal is compressed according to the proportion and transferred to the target band.And then the signal is decomposed and reconstructed by using the multi-resolution analysis of wavelet.Extract the speech spectral envelope,get the early information of frequency characteristics.Segmentation is performed by the feature points,then execute loudness compensation and gain control in each band.After loudness compensation,the identity of the signal is enhanced obviously and restricted within earshot of the hearing-impaired listeners.Simulation results indicate that the loss energy of the high frequency sound is well compensated,the level of hearing and speech recognition rate is improved,at the same time the speech feature is protected,which realized an ideal effect.
loudness compensation;frequency shift;multi-resolution wavelet;characteristic frequency
TN912
:A
:1674-6236(2017)05-0083-05
2016-03-03稿件編號(hào):201603025
李戰(zhàn)明(1962—),男,陜西西安人,碩士,教授。研究方向:復(fù)雜系統(tǒng)的建模與控制,神經(jīng)模糊系統(tǒng)與軟計(jì)算,智能信息處理與模式識(shí)別,計(jì)算機(jī)控制系統(tǒng)的理論與工程等。