吳迪 李葆明 胡旭君
音樂與言語在信息加工、認知和聲學層面上有許多相似性,音樂訓練能夠提高大腦自上而下(top-down)和自下而上(bottom-up)的言語加工,改善噪聲下的言語識別[1]。同時,音樂訓練也能提高時域處理能力,即聽覺系統(tǒng)對聲信號頻率的精細結構進行分析和處理的能力,這對語音識別尤其是噪聲中的語音識別意義重大[2]。聲音信號可以通過數(shù)學方法分解成緩慢隨時間相位變化的波形幅值,即時間包絡(temporal envelope,TE)以及瞬間變化的相位信息,即精細結構(temporal fine structure,TFS),TFS在噪聲環(huán)境下的語音識別中起主要作用[3]。感音神經性聽力損失患者就是由于其聽覺系統(tǒng)處理精細結構的能力出現(xiàn)障礙,導致噪聲環(huán)境下言語識別表現(xiàn)不佳[4]。經過音樂訓練具備音樂經驗能否促進大腦對噪聲下言語精細結構的分析和拾取,從而提高噪聲下的言語識別率,值得探討。
本研究通過對業(yè)余音樂愛好者的音樂經驗多維方面的量化值,與對融合不同時間包絡信噪比(signal-to-noise ratio in temporal envelope,SNR in TE)和不同精細結構信噪比(signal-to-noise ratio in temporal fine structure,SNR in TFS)聲信號的言語識別率(speech recogniton socres,SRS)進行相關分析,從而探討積極的音樂活動對提高噪聲下言語識別的重要意義及相應的認知機制,以期為增強聽力障礙患者的言語感知提供一種更有趣味性的、更加日常的康復訓練方法。
1.1研究對象 以浙江中醫(yī)藥大學聽力正常、日常生活中對音樂有不同程度興趣的學生52例為研究對象,男25例,女27例;平均年齡21.12±0.12歲;500、1 000、2 000和4 000 Hz純音氣導聽閾均小于20 dB HL,無聽覺或言語方面的病史,沒有受過專業(yè)的音樂訓練。
1.2研究方法
1.2.1環(huán)境及設備 本研究使用MADSEN Astera純音聽力計, 在本底噪聲小于30 dB A、符合國家標準的隔聲室中進行測試。通過計算機聲卡將言語材料輸入聽力計的Channel1中,受試者坐位于隔聲室內,佩戴TDH-39氣導耳機進行測試,播放聲音強度為65 dB HL。
1.2.2噪聲下的言語測試 刺激聲為固定言語聲,SNR in TE為-18 dB,選擇SNR in TFS分別為-18、-12、-6、0、6 dB五種條件下(分別對應為條件1、2、3、4、5)時長相同的/fu/、/ji/、/ma/、/qi/、/wan/5種單音節(jié)詞,其中/fu/、/ma/代表低頻刺激,/wan/代表中頻刺激,/ji/、/qi/代表高頻刺激;每個詞有4個音調,由男女播音員各朗讀1遍(聲音刺激材料錄音播放)。每個信噪比下共有40個單音節(jié)詞(5個單音節(jié)×4種音調×2個播音員),合計200個單音節(jié)詞(5個單音節(jié)×4種音調×2個播音員×5種信噪比),掩蔽聲為語譜噪聲,由白噪聲經過言語譜濾波處理獲得[5]。應用E-prime軟件在電腦顯示屏上呈現(xiàn)4個音調,讓受試者在4個音調中選出所聽到的正確音調。初始有50次的練習測試,讓受試者熟練操作與材料;正式測試時,每50試次有休息間隔,減少測試產生的疲勞效應。每個試次提供2次重聽機會,在播放聲音后如沒聽清,受試者可以自行點擊重聽按鈕,重新聆聽,選擇音調后,方能進入下一個試次。測試結果在E-prime軟件中自動保存,不反饋給受試者。
1.2.3金·史密斯音樂多維指數(shù)(Goldsmiths musical sophistication index, GOLD-MSI)量表測試 Gold-MSI量表[6]是一種音樂能力自陳量表,是用來測量音樂態(tài)度、行為和技能的心理測量工具,共有5個分量表、1個總量表,已經過漢化驗證,有良好的信效度[7]。分量表1為“積極參與”(例如,“我持續(xù)關注新音樂”);分量表2為“音樂感知”(例如,“我可以比較和討論2個表演或音樂作品之間的差異”);分量表3為“音樂訓練”(例如,“我定期每天練習1種樂器”);分量表4為“歌唱能力”(例如,“聽過一首新歌兩三次后,我通常可以自己唱出來”);分量表5為“音樂情感”(例如,“我能夠談論一段音樂在我身上喚起的情感”)??偭勘頌椤耙话隳芰Α?,它是驅動所有維度音樂行為表現(xiàn)的一般因素(例如,“我花了很多空閑時間做與音樂有關的活動”),代表受試者音樂方面的成熟度,也就是音樂的綜合能力。參與者對每個陳述的回答均以7分制利克特量表進行評分(“完全不同意”計1分、“強烈反對”計2分、“不同意”計3分、“既不贊成也不反對”計4分、“同意”計5分、“非常同意”計6分、“完全同意”計7分,有些題目需要反向計分)。音樂態(tài)度與行為通過“積極參與”、“音樂訓練”分量表測得;音樂技能通過“音樂感知”、“歌唱能力”、“音樂情感”分量表測得;通過這兩種性質不同的項目,可以評估受試者在音樂方面的綜合能力。量表材料來源于http://www.gold.ac.uk/music-mind-brain/gold-msi/,可免費下載。
1.3統(tǒng)計學方法 本研究采用SPSS 22.0統(tǒng)計軟件進行數(shù)據(jù)分析。K-S檢驗表明,除條件1(SNR in TFS為-18 dB)情況下的言語識別率和Gold-MSI量表中“音樂訓練”分量表得分外,其余測試條件下的數(shù)據(jù)均成正態(tài)分布。隨后,將條件1和條件2 (SNR in TFS分別為-18、-12 dB)下的言語識別率進行符號秩和檢驗分析;將噪聲下言語測試結果按照信噪比、性別因素劃分的正確率進行雙因素方差分析;將噪聲下言語測試結果按照聲調、性別因素劃分的正確率進行雙因素方差分析;將Gold-MSI不同分量表得分與噪聲下言語測試成績進行Pearson相關分析。
2.1噪聲下言語測試及GOLD-MSI量表測試結果分析 SNR in TE固定為-18 dB,在SNR in TFS分別為-18、-12、-6、0、6 dB時,測得的噪聲下言語識別率平均值分別為0.266±0.060、0.276±0.060、0.330±0.086、0.461±0.131、0.625±0.126,隨精細結構信噪比升高而升高;在條件1、2的情況下,言語線索較微弱,受試者大多報告只聽到了噪聲,噪聲下言語識別率接近機會概率(0.25)(圖1)。一聲調、二聲調、三聲調、四聲調測得的噪聲下言語識別率分別為0.510±0.156、0.510±0.135、0.210±0.089、0.328±0.108。
應用符號等級檢驗法(Wilcoxon signed-rank test)分析條件1和條件2情況下的言語識別率,發(fā)現(xiàn)兩者差異無統(tǒng)計學意義(P=0.192>0.05),表明這兩組數(shù)據(jù)均為受試者在言語信號極其微弱條件下的語音識別情況,因此不分析-18 dB SNR in TFS條件下的言語識別率,僅對其余4種條件下的言語識別率進一步的分析。
信噪比×性別兩因素方差分析結果表明,不同信噪比條件下,受試者的言語識別率差異有統(tǒng)計學意義(F(3,150)=202.3,P<0.05),且隨信噪比提升,言語識別率逐漸升高,事后多重比較(multiple comparision procedures)結果表明,每兩組之間差異均有統(tǒng)計學意義(P<0.01);不同性別受試者的言語識別率差異無統(tǒng)計學意義(F(1,50)=0.303,P>0.05);信噪比與性別的交互作用不顯著,差異無統(tǒng)計學意義(F(3,150)=0.762,P>0.05)(表1、2)。
表1 信噪比×性別兩因素噪聲下言語識別率方差分析
表2 SNR in TE為-18 dB時不同SNR in TFS下言語識別率事后多重比較
音調×性別兩因素方差分析結果表明,不同音調條件下,受試者的言語識別率差異有統(tǒng)計學意義(F(3,150)=75.742,P<0.05),且在四聲調中,受試者最易聽清一、二聲調,最難辨別三聲調,事后多重比較結果表明,除一聲調與二聲調外,其余兩組之間差異均有統(tǒng)計學意義(P<0.01);不同性別受試者的言語識別率差異無統(tǒng)計學意義(F(1,50)=0.514,P>0.05);音調與性別的交互作用不顯著(F(3,150)=0.671,P>0.05)(表3、4)。
表3 音調×性別兩因素噪聲下言語識別率方差分析
表4 噪聲下不同音調言語識別率事后多重比較
在GOLD-MSI量表測試中,除“音樂訓練”分量表外,其余4個分量表及1個總量表得分符合正態(tài)分布,沒有出現(xiàn)天花板及地板效應,表明受試者具有分布較為廣泛的音樂經驗(圖2)。由于實驗受試者的納入標準是未接受過專業(yè)音樂訓練的大學生,所以“音樂訓練”分量表得分僅作為該標準的驗證,而沒有納入進一步分析處理。
2.2噪聲下言語識別能力與音樂能力的相關分析 條件2(SNR in TFS為-12 dB)的情況下,由于語言線索微弱,受試者得分均較低,噪聲下言語識別能力與音樂經驗(GOLD-MSI音樂能力自陳量表中的“積極參與”、“音樂感知”、“歌唱能力”、“音樂情感”和“一般能力”)之間無顯著相關性(圖3、表5)。
表5 不同SNR in TFS下言語識別率與GOLD-MSI量表得分的相關性分析
條件3、4、5(SNR in TFS分別為-6、0、6 dB)的情況下,噪聲下言語識別率與 “積極參與”、“音樂情感”和“一般能力”得分呈弱至中等強度的正相關(圖3、表3),且在條件4的情況下相關性最高(“積極參與”:r=0.49,P<0.01;“音樂情感”:r=0.46,P<0.01;“一般能力”:r=0.46,P<0.01)。
條件4、5(SNR in TFS分別為0和6 dB)的情況下,噪聲下言語識別率與“音樂感知”和“歌唱能力”得分呈弱至中等強度的正相關(圖3、表5);與“音樂感知”得分的正相關性在條件4的情況下最高(r=0.32,P<0.05);與“歌唱能力”得分的正相關性在條件5的情況下最高(r=0.47,P<0.01)。
但是,經過Bonferroni校正后,僅在條件4(SNR in TFS為0 dB)的情況下,噪聲下言語識別率與“積極參與”、“音樂情感”和“一般能力”得分呈中等程度的正相關,相關系數(shù)分別為r=0.50、r=0.46、r=0.46(P<0.01);在條件5的情況下,噪聲下言語識別率與“歌唱能力”呈中等程度的正相關(r=0.47,P<0.01)(圖3、表5)。
本研究探究了大學生的噪聲下言語識別能力與音樂經驗之間的相關性。有報導大學生隱性聽力損失者的心理聲學測試及噪聲下言語測試結果均未見異常[8],基于此,本研究沒有特別考慮隱性聽力損失這種情況,結果表明,受試者噪聲下言語識別能力與音樂經驗之間顯著正相關,提示積極的音樂參與和強力感知能夠增強噪聲下的言語識別能力。
3.1信噪比及音調對噪聲下言語識別能力的影響 本研究結果表明,在SNR in TE為-18 dB、SNR in TFS為-12 dB時,言語識別率接近猜測率,表明在極低信噪比條件下,絕大多數(shù)受試者都不能識別語音,超過了聽覺識別的客觀閾限;在SNR in TE為-18 dB、SNR in TFS為-6 dB或0 dB時,言語識別率在客觀閾限與主觀閾限之間,部分受試者可能產生了無覺察知覺;在SNR in TE為-18 dB、SNR in TFS為6 dB時,大部分音調較易分辨,但成績最好的受試者言語識別率依然未能達到100%,表明時間包絡信息對噪聲環(huán)境下的言語識別依然重要,或者說要達到更好的噪聲下言語識別率,精細結構信息需要更高的信噪比。
從聲調識別的角度來看,本研究結果顯示一、二聲調較易識別,三、四聲調較難識別。究其原因可能有兩方面:①三聲調的時間包絡中含有更多的音調辨別相關信息,而本研究設計削弱了包絡信息,所以導致三聲調識別率最低;②聲音材料處理時,平衡了所有音調的時長,導致本來可以依靠時長信息判斷的三、四聲調,識別難度加大,識別率較低。
3.2音樂經驗對噪聲下言語識別能力的影響 本研究結果表明,噪聲下言語識別率與音樂“一般能力”量表得分之間具有顯著的相關性,且在較低信噪比條件下,音樂經驗豐富的受試者能獲得噪聲下聆聽的最大優(yōu)勢。Whitton等[9]設計了一款音樂訓練游戲,對老年受試者訓練8周之后發(fā)現(xiàn),其語音識別能力顯著提高,且增強效應發(fā)生在 “可懂度懸崖”中,即在言語清晰度S型曲線的拐點附近,在這個范圍內隨語音信噪比升高,言語識別率急速增加。本研究結果顯示在語音識別率為50%左右的范圍內(在TFS為0 dB時,受試者的言語識別率為0.461),言語識別與音樂經驗的相關性最強,音樂經驗給較低信噪比環(huán)境下的語言理解帶來最大增益;而在極低信噪比的條件下,受試者只能依靠猜測選擇答案,因此音樂經驗與能力很難發(fā)揮作用。
3.3音樂多維能力對噪聲下言語識別的影響 GOLD-MSI量表中,“積極參與”分量表測試的是受試者對音樂活動的積極參與程度。本研究結果表明,對音樂有濃厚興趣、積極參與音樂活動(例如,聽音樂、參加演唱會)能夠增強受試者對聲音精細結構信息的拾取能力,從而在一定程度上提高他們噪聲下的言語識別能力。有研究通過記錄言語聲聽性腦干反應(speech-ABR)和噪聲下言語詞表測試(HINT)得分發(fā)現(xiàn),長時間參加音樂社團的學生,其噪聲下言語識別的神經響應潛伏期縮短了0.25 ms,多數(shù)學生的信噪比閾值提高了1 dB及以上[10,11]。本研究結果也表明,音樂業(yè)余愛好者能夠通過日常的音樂參與提高噪聲環(huán)境下的聽覺能力。
“音樂感知”分量表測量的是音高(頻率分辨)、節(jié)拍這類音樂基本元素的覺察和分辨能力;“歌唱能力”分量表測量的是旋律的感知與記憶能力;“音樂情感”分量表測量的是理解音樂中的模式和節(jié)奏線索的能力。本研究中,受試者的噪聲下言語識別率與“音樂感知”、“歌唱能力”、“音樂情感”量表得分均呈正相關,這或許表明了某些具體音樂能力的增強,是音樂參與導致噪聲下言語識別能力提高的潛在機制。
從認知加工的角度來說,音樂參與能促進大腦對噪聲下言語信號自上而下及自下而上地加工,從而提高噪聲下的言語識別能力。研究發(fā)現(xiàn)音高處理能力的提高可能是噪聲下言語知覺變佳的機制之一[12];對節(jié)拍的敏感知覺使得受試者產生預期注意,從而能預測每個音節(jié)的開始,并將注意力集中在語音重要信息部分的時間節(jié)點上[13];Yoo等[14]發(fā)現(xiàn),相比普通受試者,音樂家在選擇性注意、工作記憶、噪聲下言語測試任務上均有更好的表現(xiàn);也就是說大腦通過自上而下地分析和監(jiān)控,增強對言語信息的音高處理、預期注意、工作記憶,從而提高噪聲下的言語識別。Strait等[15]通過FFRs研究發(fā)現(xiàn),相比普通受試者,音樂家對嬰兒哭聲中最能表達情感的聲音片段反應增強; Slater等[16]發(fā)現(xiàn),打擊樂手能更好跟蹤音符序列節(jié)奏和覺察微小的時間偏差,所以有更好的噪聲下言語感知;對應的也就是大腦通過自下而上地表征與加工,增強對言語信息的情感表達、節(jié)奏跟蹤,從而提高噪聲下的言語識別能力。這兩種認知加工在本研究中的具體任務表現(xiàn)為對噪聲下言語精細結構的分析和拾取。但是,由于研究采用的是對音樂知覺與技能的自陳測試,并不能完全代表實際的能力高低,因此,音樂參與導致噪聲下言語能力提高的具體機制還需要進一步研究。
綜上所述,豐富的音樂經驗有利于促進大腦對言語精細結構信號的分析和拾取,從而提高聽覺能力;在較低信噪比的情況下,改善效應最為明顯;積極的音樂參與可能更好的促進噪聲下言語聽覺能力;該結果可為提高助聽器戴者、人工耳蝸植入者及雙模式助聽者的噪聲下語音識別、音調識別開拓新的思路。