亓貝爾 劉佳星 古鑫 劉博
漢語作為一種聲調(diào)語言,聲調(diào)信息對于安靜和噪聲環(huán)境下識別言語、理解語義均具有重要作用[1,2]。圍繞包絡(luò)信息(envelope,Env)和精細(xì)結(jié)構(gòu)信息(temproal fine sturcture,TFS)對言語識別作用的研究已證實,在安靜環(huán)境下Env對非聲調(diào)語言識別起重要作用,TFS對音調(diào)和聲調(diào)識別起重要作用[3~5]。但是,在噪聲環(huán)境下TFS和Env對言語識別中所起作用以及重要程度尚無定論。本研究擬通過分析不同類型噪聲環(huán)境下聽力正常人的漢語普通話聲調(diào)識別能力,探討TFS和Env在噪聲下聲調(diào)識別中的作用,分析在不同類型噪聲環(huán)境下TFS和Env作用的差異。
1.1研究對象 受試者納入標(biāo)準(zhǔn):母語為漢語普通話、無耳聾家族史、無耳科疾病史,雙耳0.25~8 kHz倍頻程純音聽閾≤20 dB HL,226 Hz探測音鼓室導(dǎo)抗圖A型,1 kHz同、對側(cè)聲反射均可引出。共納入符合上述標(biāo)準(zhǔn)的受試者20例(男10例,女10例)為研究對象,年齡19~30歲,平均24.2±3.2歲,均經(jīng)本人同意并簽署知情同意書。
1.2研究方法
1.2.1編制噪聲下聲調(diào)識別能力測試材料 采用聽覺嵌合體處理方案(圖1)[6],編制本研究所需的噪聲下聲調(diào)識別能力測試材料。原始語音材料為男女兩位母語為漢語普通話播音者錄制的80個單音節(jié)詞(10個音節(jié)×4聲×2位播音者),背景噪聲分別為基于播音者語譜特性的言語譜噪聲(speech spectrum-shaped noise,SSN)以及兩人談話噪聲(two-talker babble,TTB),其中談話噪聲由上述兩名播音者的單軌音頻資料混合至多軌而產(chǎn)生。將原始材料與背景噪聲按照信噪比(signal-to-noise ratios,SNR)為-18、-12、-6、0、+6 dB進(jìn)行合成,最終形成包含2 000 個測試音的正式測試材料(即80個單音節(jié)詞×5 SNRTFS×5 SNREnv)以及包含80個測試音的練習(xí)材料(即20個單音節(jié)詞×2 SNRTFS×2 SNREnv),上述提取與合成過程均使用MATLAB軟件編程實現(xiàn)。語音平衡對聲調(diào)識別無顯著影響,即使音節(jié)之間有小差異也不影響總的聲調(diào)識別結(jié)果,因此,測試材料并未考慮語音平衡問題。
1.2.2噪聲下聲調(diào)識別能力測試 在基于MATLAB語言的GUI交互系統(tǒng)控制下以“四選一”(four alternative forced-choice,4AFC)方法完成噪聲下聲調(diào)識別能力測試(圖2)。受試者通過練習(xí)掌握測試方法后,隨機(jī)選擇一側(cè)耳以其自覺舒適的強(qiáng)度聆聽正式測試材料。正式測試時每個測試項只播放一次,允許受試者猜測沒把握的選項,測試過程中不對結(jié)果做出反饋。全部測試在本底噪聲≤45 dB A的安靜房間內(nèi)由同一個聲卡在同一臺電腦的控制下完成,使用Sennheiser HD 280 pro壓耳式耳機(jī)給聲;測試成績(%)=(正確選項/總測試項)×100%。
1.3統(tǒng)計學(xué)方法 采用廣義線性模型(generalized linear model,GLM)分析不同信噪比條件下TFS成分和Env成分在聲調(diào)識別中的作用,以MATLAB統(tǒng)計學(xué)工具箱完成統(tǒng)計分析,以P<0.05為差異有統(tǒng)計學(xué)意義。
2.1言語譜噪聲下聲調(diào)識別成績與時域信息的關(guān)系 SSN條件下,本組受試者聲調(diào)識別成績與時域信息的函數(shù)曲線關(guān)系見圖3,當(dāng)某一種信息量固定時,增加另一種信息量可以改善聲調(diào)識別成績,即時域包絡(luò)信息一定時,增加時域精細(xì)結(jié)構(gòu)信息有利于聲調(diào)識別,反之亦然。當(dāng)SNRTFS和SNREnv信息量相等時,SSN噪聲五種信噪比條件下的聲調(diào)識別平均正確率分別為27.6%、60.2%、82.1%、93.9%和94.7%,提示當(dāng)兩者信息量相等時,信噪比越高聲調(diào)識別能力越好。
2.2兩人談話噪聲下聲調(diào)識別成績與時域信息的關(guān)系 兩人談話噪聲條件下,本組受試者聲調(diào)識別成績與時域信息的函數(shù)曲線關(guān)系見圖4,當(dāng)某一種信息量固定時,增加另一種信息量可以改善聲調(diào)識別成績,但這種相互改善的趨勢較SSN噪聲下弱。當(dāng)SNRTFS和SNREnv相等時,TTB噪聲下五種信噪比時的聲調(diào)識別平均正確率分別為53.5%、 72.0%、 86.4%、92.7%和95.0%。提示當(dāng)兩者信息量相等時,信噪比越高聲調(diào)識別能力越好。
2.3時域包絡(luò)與時域精細(xì)結(jié)構(gòu)在噪聲下聲調(diào)識別中的作用 采用廣義線性模型(generalized linear model,GLM)方法評估時域包絡(luò)信息和時域精細(xì)結(jié)構(gòu)信息在噪聲下聲調(diào)識別中的作用。在SSN噪聲條件下,Env、TFS以及二者協(xié)同作用與聲調(diào)識別成績的回歸系數(shù)分別為0.095(t=36.7,P<0.000 1)、0.070(t=26.0,P<0.000 1)和-0.002(t=8.8,P<0.000 1)。在TTB噪聲條件下,Env、TFS以及二者協(xié)同作用與聲調(diào)識別成績回歸系數(shù)分別為0.052(t=19.6,P<0.000 1)、0.073(t=28.8,P<0.000 1)和-0.000 3(t=1.5,P=0.13),提示兩種噪聲條件下時域包絡(luò)信息和時域精細(xì)結(jié)構(gòu)信息對聲調(diào)識別中均具有重要作用,但是兩者的協(xié)同作用更有助于提高言語譜噪聲條件下的聲調(diào)識別能力,在多人談話噪聲條件下聲調(diào)識別能力沒有明顯改善。
Rosen[7]指出任何一個聲信號的時域波形都可以通過Hilbert變化用數(shù)學(xué)方法描述為包絡(luò)(envelop)成分和精細(xì)結(jié)構(gòu)(fine structure)成分的組合。精細(xì)結(jié)構(gòu)信息反映的是聲音信號中快速變化的成分,其中時域精細(xì)結(jié)構(gòu)指0.5~10.0 kHz的時域信息,包含言語信號的瞬時相位信息[6]。包絡(luò)信息反映的是聲音信號中緩慢變化的成分,其中時域包絡(luò)是指500 Hz以下時域信息,包含信號的時長、幅值輪廓及周期性信息[6]。Smith等[3]提出了基于聽覺感知二分法構(gòu)建刺激聲的“聲嵌合”(auditory chimera)技術(shù),即通過Hilbert轉(zhuǎn)換分別提取A和B兩個聲信號的Env成分和TFS成分, 然后將兩個聲信號的包絡(luò)與精細(xì)結(jié)構(gòu)成分互換形成“嫁接聲”, 受試者根據(jù)“嫁接聲”判斷其聽到的是A還是B, 從而獲得受試者依靠何種成分進(jìn)行言語識別。利用該技術(shù)發(fā)現(xiàn),在安靜環(huán)境下包絡(luò)信息對非聲調(diào)言語感知起決定性作用[3],精細(xì)結(jié)構(gòu)信息對聲調(diào)語言感知和音樂識別起決定性作用[4]。Füllgrabe等[8]和Moore[9]發(fā)現(xiàn)利用聲碼器方法將時域精細(xì)結(jié)構(gòu)信息替代后,受試者在噪聲環(huán)境下的言語(英語)識別成績明顯下降,從而推測TFS信息在噪聲環(huán)境下的言語(英語)識別中起主要作用;Apoux等[6]則發(fā)現(xiàn)無論是穩(wěn)態(tài)噪聲還是競爭言語噪聲環(huán)境下,Env信息在語句(英語)識別中占主導(dǎo)地位,TFS信息作用甚微。
Env 和TFS信息對于噪聲環(huán)境下的聲調(diào)語言感知所起的作用與噪聲環(huán)境下的非聲調(diào)語言識別中起主要作用是相同還是不同值得探討。為此,本研究選用了日常社交中最常遇到的噪聲場景,即多人談話噪聲(babble noise,BN),常用的有2、4、8、12人及以上人數(shù)談話的噪聲,多人談話噪聲作為一種波動性噪聲,對言語信號的掩蔽作用主要體現(xiàn)在能量掩蔽和信息掩蔽。有研究顯示隨著談話者人數(shù)減少,多人談話噪聲的信息掩蔽效應(yīng)作用增大、能量掩蔽效應(yīng)作用減小[10];其中2人談話噪聲信息掩蔽作用較強(qiáng),常與言語譜噪聲共同用于研究能量掩蔽和信息掩蔽對聽覺信號獲取的影響機(jī)制。故本研究選用兩人談話噪聲和言語譜噪聲作為競爭噪聲,觀察這兩種噪聲下聽力正常人的聲調(diào)識別能力及TFS和Env的作用。結(jié)果顯示噪聲環(huán)境下的聲調(diào)識別需同時依靠TFS信息和Env信息,而非獨(dú)立依靠TFS信息,該結(jié)果既不同于安靜環(huán)境下聲調(diào)識別研究結(jié)論,亦不同于噪聲下言語(英語)識別研究結(jié)論。噪聲環(huán)境下TFS線索在聲調(diào)識別的主導(dǎo)地位減弱,其原因考慮與聲音信號各成分的特性相關(guān),TFS反映的是聲音信號中快速變化的成分,其中時域精細(xì)結(jié)構(gòu)指0.5~10.0 kHz的時域信息,包含言語信號的瞬時相位信息[5]。Env反映的是聲音信號中緩慢變化的成分,其中時域包絡(luò)是指500 Hz以下時域信息,包含信號的時長、幅值輪廓及周期性信息[5]。無論是穩(wěn)態(tài)噪聲或競爭性言語噪聲,其掩蔽作對于聆聽者獲取瞬時信息的影響較其獲得緩慢變化信息的更大。因此非目標(biāo)聲音(噪聲)對目標(biāo)聲音(漢語單音節(jié)詞)的掩蔽作用,限制了TFS信息在噪聲下聲調(diào)識別中的作用地位。但是,在競爭性言語噪聲條件下,TFS對于聲調(diào)識別的作用較Env大,可能與語音掩蔽釋放(speech masking release)理論相關(guān)[11,12]。該理論認(rèn)為波動背景噪聲比穩(wěn)定背景噪聲提供了更多獲取目標(biāo)語音TFS的機(jī)會。在波動背景噪聲下,非目標(biāo)聲音時域和頻域的波谷區(qū)域?qū)δ繕?biāo)信號的掩蔽作用相對減弱,有助于聽覺系統(tǒng)“瞥見(glimpse)”目標(biāo)信號的生理學(xué)特點,即聽力正常人可以從目標(biāo)信號相對不受背景影響的時頻區(qū)域中提取語音信息[13~15]。另外,本研究采用的是4AFC測試,機(jī)會概率為25%;測試結(jié)果顯示只有在最難的測試條件下(即SNR=-18 dB),平均正確率(28%)才會接近機(jī)會概率,因此地板效應(yīng)(floor effect)對本研究影響很小,故未予考慮。本研究結(jié)果顯示無論是TFS信噪比較好(如:SNRTFS≥0 dB)、Env信噪比較差(如:SNREnv≤-6 dB)條件下,亦或TFS信噪比較差(SNRTFS≤-6 dB)、Env信噪比較好(SNREnv≥0 dB)條件下,聽力正常者均可獲得較好的聲調(diào)識別,提示TFS和Env 信息協(xié)同作用于噪聲環(huán)境下的聲調(diào)識別,兩種信息成分互相補(bǔ)充。該結(jié)果支持隨著聽力損失程度加重、外周感受器提取和利用TFS信息的能力下降后,聽障者將更多依賴Env線索進(jìn)行聲調(diào)識別的研究結(jié)果[16,17]。
綜上所述,時域精細(xì)結(jié)構(gòu)信息和時域包絡(luò)信息對于聽力正常人噪聲下聲調(diào)識別具有同等作用,兩者協(xié)同作用更有助于提高噪聲條件下的聲調(diào)識別成績。本研究結(jié)果為進(jìn)一步了解人工耳蝸植入者進(jìn)行噪聲下言語識別的困難所在、改進(jìn)人工耳蝸言語編碼策略提供參考。