孟慶林
聲信號處理的一個重要目的是讓聽者更好地感受聲音,但由于各種原因,一些人的聽覺系統(tǒng)出現(xiàn)了故障,這些故障可能導致他們聽不到小聲、受不了大聲或頻率分辨率降低等,甚至完全聽不到聲音。那些由于外周聽覺系統(tǒng)(包括外耳、中耳和內耳)損傷導致的聽力損失都可通過人工聽覺設備得到補償[1],其中,由于內毛細胞功能缺失導致的重度以上感音神經(jīng)性聾患者大多可以通過人工耳蝸植入(cochlear implant, CI)來獲得或恢復部分聽覺功能;僅中國,每年滿足CI條件的新生兒就數(shù)以萬計[2]。
CI能幫助耳聾患者回到有聲世界,到目前為止,全球CI人數(shù)估計已超過40萬。從上世紀六七十年代開發(fā)出最早的單通道CI至今,CI的主要研發(fā)工作在澳大利亞、美國和歐洲開展;我國也有很多研發(fā)機構努力嘗試過開發(fā)CI產(chǎn)品,目前國產(chǎn)品牌也已經(jīng)初步打開了國內市場,具有一定的創(chuàng)新能力;本文對CI聲音處理中的一些問題進行介紹和討論。
CI系統(tǒng)的簡要結構框圖見圖1。CI由兩大部分組成,一部分通過外科手術植入體內,稱為植入體,即虛線右側部分;另一部分通常是掛在耳背,稱為體外機,即虛線左側部分。體外機和植入體通過兩個線圈之間的無線射頻耦合進行能量和數(shù)據(jù)傳輸。具體的聲音處理流程是:首先由體外機上的傳聲器(也稱麥克風,microphone)將空氣中的聲壓變化轉換為電壓信號,電壓信號被放大和采樣后進入言語處理器(通常其核心為一塊數(shù)字信號處理芯片),言語處理器負責對得到的采樣信號進行編碼(包括聲信號編碼和控制指令編碼),然后由射頻發(fā)射電路將言語處理器的編碼結果調制到射頻載波信號(CI商用頻段為5~50 MHz范圍,依廠家而不同[3])上,射頻信號沿著導線到達固定于頭皮外側的發(fā)射線圈(發(fā)射線圈和植于皮下的接收線圈通過各自中心處的一個磁鐵相互吸引來固定發(fā)射線圈的位置),通過線圈之間的電磁耦合,編碼信號進入植入體內,然后在植入體專用芯片中被解碼為每個電極上即將產(chǎn)生的刺激參數(shù)值,由刺激器負責按照該參數(shù)值產(chǎn)生對應電極的電流,電流沿著導線到達已預先植入耳蝸內的電極陣列,在相應的電極觸點(12~24個,依廠家而不同)上產(chǎn)生刺激。
圖1 人工耳蝸系統(tǒng)結構框圖
正常聽力者或助聽器佩戴者的聽覺可以被稱為聲聽覺(acoustic hearing),而CI(還包括刺激更高級聽覺神經(jīng)的聽覺腦干植入在內的其他植入式電刺激聽覺假體)植入者的聽覺被稱為電聽覺(electric hearing)。
聲聽覺依賴自然耳蝸的聲音處理和編碼,由于耳蝸中基底膜的物理特性,聲振動信號被按照頻率分解。不同的頻率成分引起基底膜不同位置處的最大響應,靠近蝸底的區(qū)域響應高頻,靠近蝸頂?shù)膮^(qū)域響應低頻,即位置編碼理論(place theory);某一個基底膜位置上振動信號的時域波動也可能被基底膜撿拾并進入聽神經(jīng)處理,即時間編碼理論(time theory);這兩個理論共同支配著現(xiàn)今的耳蝸聲音編碼理論[4]。需要注意的是,正常耳蝸中的聲音編碼不僅僅是被動接收的過程,還可能受到更高級神經(jīng)系統(tǒng)的主動控制。
CI產(chǎn)生的電聽覺也利用了這兩個理論,以音高感知為例,圖2所示為現(xiàn)代CI的基本刺激波形[5];現(xiàn)代CI絕大多數(shù)采用脈沖串式刺激波形,其中脈沖串多采用負正雙相脈沖,a~f為一些基本脈沖串波形形式,其中a比b的刺激位置更靠近蝸頂,故而a引起的音高更低,這是利用位置編碼理論[6];c比d的刺激速率更低,e比f的時域波動更慢,故c和e引起的音高可能相對更低,這是利用時間編碼理論[7]。但是由于植入耳蝸內的電極觸點離聽神經(jīng)有一定距離,電極數(shù)目遠小于聽神經(jīng)數(shù)目,且單個電極的電場擴散會影響相鄰電極的電場分布,這些因素導致CI只能傳遞粗糙的頻率信息,而不能實現(xiàn)正常耳蝸的精細的頻率分析功能。另外,在時間編碼能力方面,CI電聽覺也遠弱于正常聲聽覺,多數(shù)植入者不能有效檢測單個電極上超過300 Hz的時域信息,而正常聽力者可以通過時域相位鎖定檢測到2 kHz或更高頻的純音頻率[8]。
圖2 現(xiàn)代人工耳蝸的基本刺激波形
CI將傳聲器采集到的聲音信號轉換為電極上的電信號,轉換的方法被稱為CI編碼策略或CI信號處理策略[4]。從多通道CI編碼策略的開發(fā)歷史來看,其主要有三個開發(fā)思路:①精確模擬正常耳蝸內聽覺生理結構和處理過程;②人為提取語言學家(或語音學家)公認的對言語感知起重要作用的聲學特征(例如:基頻和共振峰信息),再將這些特征想方設法表達到可用電極上;③在考慮神經(jīng)的接受能力的基礎上,用盡量簡單的工程手段獲得盡可能大的聽覺康復效果。
1991年前后,正是由于CI編碼策略方面取得的突破[9],才使得多通道CI能給多數(shù)植入者帶來安靜環(huán)境下的開放式言語交流能力;這個突破來源于設計的變化,它擺脫了前兩個思路的限制,發(fā)揮了第三個思路的優(yōu)勢。具體實現(xiàn)方式是將采集到的聲音信號進行分頻帶濾波(通常是將8 000 Hz以下的頻率成分按照類似對數(shù)的形式劃分為6個或更多頻帶),然后對每個頻帶的濾波結果進行時域包絡提取,再對時域包絡進行非線性壓縮和映射,最后對固定速率的雙相電脈沖串進行幅度調制后產(chǎn)生相應電極通道上的刺激;其中時域包絡的非線性壓縮過程僅保留了約40 dB或更小的聲壓級動態(tài)范圍,隨后映射為一個小于8比特(256級)的電流取值范圍。還有一個關鍵點是,不同電極之間不同時產(chǎn)生刺激,這樣也許可以減小或避免通道間電場干擾?,F(xiàn)在,這個思路被用在絕大多數(shù)的商用CI策略中,不同的策略僅在工程實現(xiàn)上略有區(qū)別(例如:圖3所示為一種基于快速傅里葉變換的實現(xiàn)方式),這種處理思路也被稱為是“聲碼器”模式[10]。
因為電刺激信號中快變信號不容易被神經(jīng)檢測到(即:電聽覺時域音高限制),所以選擇保留時域包絡,而丟棄時域精細結構(取而代之的是固定速率的脈沖串)。近十余年,有很多研究者提出了增加時域精細結構的策略,但是尚未經(jīng)過實際CI驗證的重大突破。近期本文作者也提出了一種新的策略[11],用移頻操作代替了時域包絡提取操作,將快變帶限信號移頻為慢變帶限信號,并且考慮到了單個通道內的電聽覺時域處理限制,理論上有明顯優(yōu)勢[12],尚有待大量實際CI實驗來驗證效果。
CI最重要的功能是幫助耳聾患者獲得言語交流能力,圖4為普通話男聲“我不能肯定哪個隊會贏”的聲學時譜圖和人工耳蝸電極圖,其中電極圖是采用圖3所示的處理方法得到的??梢姡珻I僅傳遞了約8 000 Hz以下的信息;更為關鍵的是,聲學時譜圖中的頻域信息(例如:諧波成分、共振峰等)表達得非常精細,而電極圖中頻域信息表達得非常粗糙;但語音信號的冗余度很大,這樣少數(shù)有限頻率通道數(shù)目的時域變化信息已經(jīng)可以提供足夠的語音可懂度[9, 13]。另外,由于聽覺系統(tǒng)強大的可塑性,聽覺神經(jīng)系統(tǒng)經(jīng)過一段時間的訓練,能夠適應和掌握這種人造的不精確的電刺激信號模式。盡管如此,這并不意味著CI植入者可以像正常聽力者一樣輕松地聽懂語音,他們往往需要說話者更清晰、更慢、更標準地發(fā)音,且音量不能太小,耳語對他們來說也是困難的[14]。另外,在言語音高(voice pitch)信息方面,CI植入者利用每個通道上的時域周期性信息來獲得部分音高信息,從而感受聲調等,但仍存在一定的困難。很多研究者提出了一些增強聲調表達的策略,但性能提升的空間較為有限[15~18]。如何提高時域和頻率的精細結構表達才是提升CI言語感知能力的關鍵。
圖3 現(xiàn)代人工耳蝸中常用的一種編碼策略處理流程
圖4 普通話男聲“我不能肯定哪個隊會贏”的聲學時譜圖(左)和人工耳蝸電極圖(右)
相較于言語識別,音樂感知所需的聲學線索就更加復雜和精細;CI策略中沒有保留音樂感知所必須的一些基本聲學線索,其中最重要的是諧波信息。圖5所示為一段音樂旋律的時譜圖和CI電極圖。從聲學時譜圖中,可以清晰地分辨不同時刻的各個諧波成分,且這些諧波都清晰地出現(xiàn)在基頻的整數(shù)倍頻率;但是在電極圖上,雖然有些諧波成分在不同的頻率通道上還能夠進行區(qū)分,但是他們的整數(shù)倍關系已經(jīng)體現(xiàn)不出來了;并且由于電極植入位置的不確定性和頻率分配的人為因素,每個諧波成分不能被準確映射為原有的頻率感知,這些因素直接導致植入者的音高分辨能力很差[19]。另外,對于音色(例如:樂器)識別,這種有限通道數(shù)的刺激模式可以保留一定的可感知的音色信息[20],但是多數(shù)植入者的音色識別能力會比正常聽力者差,這可能是CI設計的不足,也有可能是由于CI植入者沒有經(jīng)過音樂訓練甚至很少聽音樂,導致大腦對音色沒有足夠的認知能力。當然,CI植入者的節(jié)奏感知還是與正常人相當?shù)?,音樂旋律和音色等的感知改善目前尚是個難題[21, 22]。
圖5 一段音樂旋律的聲學時譜圖(左)和人工耳蝸電極圖(右)
在有關CI文獻中經(jīng)常研究的噪聲有兩種:一是穩(wěn)態(tài)噪聲(steady state noise),即統(tǒng)計特性(通常是指功率譜分布特性)不隨時間變化的噪聲;實驗中經(jīng)常使用的穩(wěn)態(tài)噪聲是語譜噪聲(speech-shaped noise, SSN[23],或speech weighted noise, SWN[24]);二是多人交談噪聲(babble noise),即有兩個或以上的人同時說話的聲音(注意:說話的人數(shù)越多越趨近于穩(wěn)態(tài)噪聲)。
正常聽力者往往不被噪聲影響,能夠較好地理解目標說話人的說話內容,最典型的例子就是“雞尾酒會現(xiàn)象”[25, 26],人們可以在嘈雜的社交酒會上將聽覺注意力集中在某一個人身上,而不受到其他人或物發(fā)出的噪聲影響。由于語音的高冗余度和正常人耳聽覺的強大性能,很多時候很難進一步提升正常聽力者在噪聲中的言語識別能力,所以很多針對正常聽力者的降噪算法的主要目的是提高聲音質量,即正常聽力者的聽感舒適程度。然而對于CI者來說,語音可懂度非常容易受到噪聲的影響,可能的原因有:①噪聲能量覆蓋了原本的語音間隙(gap);②對于采用n-of-m類型(即:每一幀僅從全部m個電極通道中選擇能量較大的n個通道產(chǎn)生刺激)策略的CI來說,噪聲的出現(xiàn)會導致在篩選較大能量的通道時產(chǎn)生錯選,即:選擇了噪聲所在通道而不是語音所在通道[27]。研究表明,降噪算法可以顯著提升植入者在噪聲下的言語可懂度,尤其是對于近似穩(wěn)態(tài)噪聲[23, 28, 29],而對于聲音質量,植入者較少抱怨[30]。各個人工耳蝸生產(chǎn)廠家已經(jīng)或準備在聲信號預處理階段集成降噪模塊,基本流程是:直接利用CI編碼策略中已有的快速傅里葉變換結果,逐幀更新噪聲功率譜,計算當前幀當前通道的信噪比,根據(jù)預先設定的增益函數(shù)(gain function)來換算出增益值(可理解衰減倍數(shù)),與相應頻點的帶噪語音功率值相乘即可。對于非穩(wěn)態(tài)噪聲,尚沒有很好的CI單通道聲信號處理解決方案。
另外,語音在房間內經(jīng)過多次反射匯聚到聽者耳內,構成混響,這比直接到達人耳的聲音(直達聲)來的晚,可能對直達聲的可懂度產(chǎn)生負面影響;并且對不同的房間而言,這種影響可能隨著混響時間的增加而加劇[31];近期有研究提出了針對CI的抗混響算法,提高了混響環(huán)境下的言語可懂度[31],但相關技術暫未應用于產(chǎn)品中。
由于聲源所在的空間位置不同,聲音被聽者接收時所具有的聲學特征也會產(chǎn)生差異,這種差異可能被聽者用來感知聲源屬性,包括:①判斷聲源的位置(包括方向和距離):聲源定位所需的聲學線索包括雙耳時間差、雙耳強度差、單耳譜因素等,這些因素可以用聲源到雙耳的頻域聲學傳輸函數(shù),即頭相關傳遞函數(shù)來定義[32]。②增強噪聲下的言語識別能力:由于說話人和噪聲源的空間位置不同,或者由于聽者頭部的聲學傳輸特性,造成兩耳接收到的語音信號存在差異(例如:信噪比不同),這些差異可能給聽者理解目標語音提供有用線索[33]。
大多數(shù)人工耳蝸植入者都是單側植入,不能獲得上述雙耳空間聽覺優(yōu)勢。近十余年來,雙側人工耳蝸植入者越來越多,雙側CI的空間聽覺成為研究熱點[34~36]。雙側CI可以在一定程度上提高空間聽覺能力,這些植入者能夠利用雙耳強度差和雙耳間時域包絡時間差,但是雙側人工耳蝸植入者的空間聽覺能力總體上與正常聽力者仍有較大差距,其原因來自多個方面,例如:①由于生理或手術造成的雙耳電刺激間不匹配;②電刺激時域處理能力的上限為300 Hz左右,更高頻率的雙耳時間差信息不能被有效傳入,這意味著要想通過電刺激脈沖速率的變化來傳遞更多時域精細結構中的雙耳時間差信息,需要將刺激率降低到約300 Hz以下;然而這與言語識別需要高刺激率(約800 Hz以上)的事實產(chǎn)生了矛盾。有很多策略上的改進和嘗試來增強雙耳時間差信息,但目前尚無經(jīng)過大量實際CI實驗驗證的實質性進展[36]。
人工耳蝸作為一個成功的人工聽覺設備,幫助數(shù)十萬人獲得了聽力,也為聽覺研究打開了一扇窗。CI可以讓人們對耳蝸的某個特定位置以特定的時域形式進行刺激,使得研究耳蝸的時間和位置編碼理論時能夠將時間因素和位置因素在一定程度上進行分離討論[37],這在正常聲聽覺中是做不到的。人工耳蝸的研究還使人們對言語感知的認知不斷加深,例如,人工耳蝸植入者僅利用粗糙的有限幾個通道的時域包絡信息獲得良好的言語感知能力,說明基頻和共振峰的精確表達并不是言語理解的必要因素。CI這種電聽覺聲音感知效果的改善,不僅是聽覺研究者的研究目的之一,也是檢驗聽覺理論正確性的試金石。
人工耳蝸植入者的聲音感知效果和正常聽力者相比仍有較大差距,且仍然有大量耳聾患者負擔不起CI的高昂費用[38]。未來的研究方向有:①預處理的改進,各家公司都在進行這方面研發(fā),包括單傳聲器或多傳聲器降噪、音高增強(針對聲調和音樂)等;②編碼策略的改進,例如:如何增加時域精細結構;③神經(jīng)接口的改進,這是目前的人工聽覺最難開展、但同時也是必須要研究的方向,只有設計出更接近正常耳蝸的神經(jīng)接口才能從根本上提升時域和頻域的精細結構表達,可能的努力方向有插入神經(jīng)式電刺激和光學刺激等。
9參考文獻
1 孟慶林. 書評:《人工聽覺——新視野》[J]. 聲學學報, 2016, 41: 143.
2 孫喜斌, 于麗玫, 曲成毅, 等. 中國聽力殘疾構成特點及康復對策[J]. 中國聽力語言康復科學雜志, 2008(2): 21.
3 Zeng FG, Rebscher SJ, Fu QJ, et al. Development and evaluation of the Nurotron 26-electrode cochlear implant system [J]. Hear Res, 2015, 322: 188.
4 馮海泓, 孟慶林, 平利川, 等. 人工耳蝸信號處理策略研究[J]. 聲學技術, 2010, 29: 607.
5 孟慶林, 牟宏宇, 平利川, 等. 人工耳蝸非實時研究平臺開發(fā)與驗證[J]. 聲學技術, 2016, 35: 111.
6 平利川, 原猛, 唐國芳, 等. 語后聾人工耳蝸使用者電刺激聽覺部位音調感知研究[J]. 聲學學報, 2012, 37: 204.
7 Luo X, Padilla M, Landsberger DM. Pitch contour identification with combined place and temporal cues using cochlear implants [J]. J Acoust Soc Am, 2012, 131: 1325.
8 Venter P, Hanekom J. Is there a fundamental 300 Hz limit to pulse rate discrimination in cochlear implants[J]? J Assoc Res Otolaryngol, 2014, 15: 849.
9 Wilson BS, Finley CC, Lawson DT, et al. Better speech recognition with cochlear implants [J]. Nature, 1991, 352: 236.
10 Loizou PC. Speech processing in vocoder-centric cochlear implants [J]. Adv Otorhinolaryngol, 2006, 64: 109.
11 孟慶林, 鄭能恒, 李霞. 一種電聽覺假體信號處理方法及系統(tǒng): 中國, ZL201510136851.3[P]. 2017-06-16.http://www.soopat.com/patent/201510136851
12 Meng Q, Zheng N, Li X. Mandarin speech-in-noise and tone recognition using vocoder simulations of the temporal limits encoder for cochlear implants [J]. J Acoust Soc Am, 2016, 139: 301.
13 Shannon RV, Zeng FG, Kamath V, et al. Speech recognition with primarily temporal cues [J]. Science, 1995, 270: 303.
14 Hazrati O, Ali H, Hansen JHL, et al. Evaluation and analysis of whispered speech for cochlear implant users: Gender identification and intelligibility [J]. J Acoust Soc Am, 2015, 138: 74.
15 Vandali AE, Dawson PW, Arora K. Results using the OPAL strategy in Mandarin speaking cochlear implant recipients [J]. International Journal of Audiology, 2017, 56:S74.
16 Xu L, Zhou N. Tonal languages and cochlear implants in auditory prostheses: new horizons[M].In: Zeng FG, Popper AN, Fay RR, Eds. New York: Springer, 2012.341~364.
17 Meng Q, Zheng N, Li X. Loudness contour can influence Mandarin tone recognition: vocoder simulation and cochlear implants [J]. IEEE Transactions on Neural Systems and Rehabilitation Engineering, 2017, 25: 641.
18 Ping L, Wang N, Tang G, et al. Implementation and preliminary evaluation of C-tone': A novel algorithm to improve lexical tone recognition in Mandarin-speaking cochlear implant users [J]. Cochlear Implants International, 2017, 18: 240.
19 Ping L, Yuan M, Feng H. Musical pitch discrimination by cochlear implant Users[J]. Ann Oto Rhino Laryngo, 2012, 121: 328.
20 孟慶林, 原猛, 夏洋, 等. 幅度調制信息對樂器識別的影響[J]. 聲學學報, 2015, 40: 300.
21 Limb CJ, Roy AT. Technological, biological, and acoustical constraints to music perception in cochlear implant users[J]. Hear Res, 2014, 308: 13.
22 McDermott HJ. Music perception with cochlear implants: a review [J]. Trends in Amplification, 2004, 8: 49.
23 Nogueira W, Rode T, Buchner A. Spectral contrast enhancement improves speech intelligibility in noise for cochlear implants[J]. J Acoust Soc Am, 2016, 139: 728.
24 Dawson PW, Mauger SJ, Hersbach AA. Clinical evaluation of signal-to-noise ratio based noise reduction in Nucleus cochlear implant recipients[J]. Ear Hear, 2011, 32: 382.
25 Bronkhorst AW. The cocktail party phenomenon: a review of research on speech intelligibility in multiple-talker conditions [J]. Acta Acustica United with Acustica, 2000, 86: 117.
26 Cherry EC. Some experiments on the recognition of speech, with one and with two ears[J]. J Acoust Soc Am,1953, 25: 975.
27 Qazi OU, van Dijk B, Moonen M, et al. Understanding the effect of noise on electrical stimulation sequences in cochlear implants and its impact on speech intelligibility[J]. Hear Res, 2013, 299: 79.
28 Chen F, Hu Y, Yuan M. Evaluation of noise reduction methods for sentence recognition by Mandarin-speaking cochlear implant listeners[J]. Ear Hear, 2015, 36: 61.
29 Yang LP, Fu QJ. Spectral subtraction-based speech enhancement for cochlear implant patients in background noise[J]. J Acoust Soc Am,2005, 117: 1001.
30 Koning R, Madhu N, Wouters J. Ideal time-frequency masking algorithms lead to different speech intelligibility and quality in normal-hearing and cochlear implant listeners[J]. IEEE Trans Biomed Eng, 2015, 62: 331.
31 Kokkinakis K, Runge C, Tahmina Q. Evaluation of a spectral subtraction strategy to suppress reverberant energy in cochlear implant devices[J]. J Acoust Soc Am, 2015, 138: 115.
32 Xie B. Head-related transfer function and virtual auditory display [M]. US: Ross Publishing, 2013. 1~30.
33 Moore BC. Spatial hearing and advantages of binaural hearing, cochlear hearing loss: physiological, psychological and technical issues Second Edition[M].Second Edition. US: Wiley-Interscience, 2002. 173~199.
34 Hoesel R. Bilateral cochlear implants, in auditory prostheses: new horizons [M]. In: vol. 39, Zeng FG, Popper AN, and Fay RR, Eds. New York: Springer, 2012.13~30.
35 Kan A, Litovsky RY. Binaural hearing with electrical stimulation[J]. Hear Res, 2015, 322: 127.
36 Laback B, Egger K, Majdak P. Perception and coding of interaural time differences with bilateral cochlear implants [J]. Hear Res, 2015, 322: 138.
37 Zeng FG. Temporal pitch in electric hearing [J]. Hear Res., 2002, 174: 101.
38 Zeng FG. Challenges in improving cochlear implant performance and accessibility[J]. IEEE Trans Biomed Eng, 2017, 64: 1662.