陳梁杰 劉 雷 葛鐘書 楊曉東 李 量
節(jié)律在聽覺言語理解中的作用*
陳梁杰 劉 雷 葛鐘書 楊曉東 李 量
(北京大學(xué)心理與認知科學(xué)學(xué)院, 北京 100080)
言語理解是聽者接受外部語音輸入并且獲得意義的心理過程。日常交流中, 聽覺言語理解受多尺度節(jié)律信息的影響, 常見有韻律結(jié)構(gòu)節(jié)律、語境節(jié)律、和說話者身體語言節(jié)律三方面外部節(jié)律。它們改變聽者在言語理解中的音素判別、詞匯感知以及言語可懂度等過程。內(nèi)部節(jié)律表現(xiàn)為大腦內(nèi)神經(jīng)振蕩, 其能夠表征外部言語輸入在不同時間尺度下的層級特征。外部節(jié)律性刺激與內(nèi)部神經(jīng)活動的神經(jīng)夾帶能夠優(yōu)化大腦對言語刺激的處理, 并受到聽者自上而下的認知過程的調(diào)節(jié)進一步增強目標言語的內(nèi)在表征。我們認為它可能是實現(xiàn)內(nèi)外節(jié)律相互聯(lián)系并共同影響言語理解的關(guān)鍵機制。對內(nèi)外節(jié)律及其聯(lián)系機制的揭示能夠為理解言語這種在多層級時間尺度上具有結(jié)構(gòu)規(guī)律的復(fù)雜序列提供了一個研究窗口。
節(jié)律, 言語理解, 神經(jīng)振蕩, 神經(jīng)夾帶, 自上而下調(diào)節(jié)
從生命更迭到晝夜交替, 自然界中充溢著繁雜的節(jié)律變化。擊鼓、起舞或歌唱, 這些活動中的拍手、踏步或發(fā)聲通常按照一定的周期循環(huán)往復(fù)。在人類演化進程中節(jié)律無處不在, 它們承載著信息傳遞的重要作用(Kotz et al., 2018), 是社會交流和互動的重要媒介。長期以來, 節(jié)律研究主要關(guān)注于感知覺加工, 忽視了其在更為復(fù)雜的言語理解中的作用。直到近期, 研究者逐漸重視起節(jié)律對言語理解的影響, 并通過記錄聽者內(nèi)部的神經(jīng)活動揭示節(jié)律影響的作用機制。
節(jié)律的內(nèi)在時間組織調(diào)節(jié)著個體間溝通和互動方式, 口頭言語作為人類社會中重要的信息交流渠道具有豐富節(jié)律特性。在判定對象是否具有節(jié)律特性時存在兩種方式, 一種強調(diào)時間上規(guī)律性, 另一種強調(diào)時間上的結(jié)構(gòu)關(guān)系。前者定義的節(jié)律可以被稱為協(xié)調(diào)節(jié)律或周期性節(jié)律, 它意味著固定間隔或模式的不斷重復(fù)(White, 2014; White et al., 2012)。例如, 鐘表轉(zhuǎn)動過程中發(fā)出的“滴答、滴答”聲響和正常心臟的起伏跳動, 這些都具有時間上的規(guī)律性或近似規(guī)律性。而言語的節(jié)律性更偏向后者, 即一個給定的屬性或?qū)傩蚤g的組合在一段時間跨度中的穩(wěn)定關(guān)系(Fujii & Wan, 2014; Ramus et al., 1999), 例如, 樹干中的硬結(jié)讓鋸木出現(xiàn)卡頓, 但我們?nèi)耘f會認為伐木工來回的動作具有節(jié)律性。
在語言學(xué)中, 早期對西班牙語中“機關(guān)槍”式, 英語的“莫爾斯電碼”式與日語發(fā)音的感知使研究者關(guān)注于語系間不同言語層的等時性現(xiàn)象, 據(jù)此將節(jié)律感知劃分為重音計時(stress-timed)、音節(jié)計時(syllable-timed)和亞音節(jié)(mora)三類形式(Ladefoged, 1975; Pike, 1945; Ramus et al., 1999)。但這種分類方式過于強調(diào)單元間的等時性, 在多語系的語音信號分析中無法為“等時理論”提供經(jīng)驗支持(Dauer, 1983; Ramus, 2002; Roach, 1982)。后來基于元音持續(xù)時間變化的分類方法更具有實證性, 它依照口語中元音所占時間比例的不同試圖建立起一種更為廣泛的節(jié)律量化方式(Ramus et al., 1999)。如重音計時相比音節(jié)計時語系, 元音持續(xù)時間更加多變(Ling et al., 2000)。這些分類方式說明言語相比于單一振蕩器形成的特定間隔的重復(fù)活動并不具有客觀的等時周期特點, 但仍可以被直觀地感知為節(jié)律活動(Jadoul et al., 2016; Kayser, 2019; Turk & Shattuck-Hufnagel, 2013)。與音樂中的節(jié)奏感相近的是, 言語中的單個屬性, 如音調(diào)變化或音節(jié)持續(xù)時間長短, 也能帶來的主觀上的節(jié)律感受(Dellwo, 2006)。但只專注于個別屬性的度量并不能囊括言語節(jié)律的所有特征, 言語的節(jié)律感知還取決于一系列其他因素, 包括整體響度變化和語速高低等(Nooteboom, 1997)。這些因素共同作用于聽者的知覺加工過程, 使聽者感受到言語中的節(jié)律性。
言語理解是聽者根據(jù)外部言語輸入(如目標語音)和背景信息(如語境或非言語信息)獲得意義的心理過程(楊玉芳, 2021), 包括音節(jié)、詞匯和句子不同層級的加工(Farbood et al., 2013; Sheng et al., 2019)。說話者口語在韻律結(jié)構(gòu)上具有一定的節(jié)律特性, 如重音位置和語速快慢等。這些節(jié)律的變化會影響聽者對目標語音的理解水平。當(dāng)說話者的說話語速或音節(jié)產(chǎn)生速率超出正常范圍(3~8 Hz), 言語可懂度會出現(xiàn)顯著地降低(Ahissar et al., 2001)。相比之下, 背景語境節(jié)律則會改變聽者的音節(jié)層面感知, 如事先呈現(xiàn)一串有規(guī)律的純音序列, 其呈現(xiàn)速率的不同會改變個體感知后續(xù)出現(xiàn)的輔音, 即節(jié)律較快的純音序列會使聽者將輔音更多知覺為/w/而不是/b/ (Wade & Holt, 2005)。背景信息不單表現(xiàn)在聲學(xué)層面的變化上, 由于言語語音的時域包絡(luò)、發(fā)聲者的聲道活動與肢體動作三者之間是高度關(guān)聯(lián)的, 這決定了影響言語理解還涉及非言語節(jié)律, 如說話者的身體語言(body language)。身體語言包括面部運動、身體姿勢、手勢等活動(Müller et al., 2013), 說話者的面部運動往往與言語的時域包絡(luò)起伏具有相似的節(jié)律特性, 這有助于聽者更好理解言語信息(Ghazanfar & Takahashi, 2014)。據(jù)此本文提及的外部節(jié)律定義為聽覺言語理解過程中能夠?qū)ρ哉Z理解產(chǎn)生影響的客觀世界中具有節(jié)律特征的物理輸入。我們將圍繞言語理解涉及的言語輸入和背景信息所包含的三類常見外部節(jié)律, 分別為韻律結(jié)構(gòu)節(jié)律、語境節(jié)律和說話者身體語言節(jié)律, 闡述其在言語理解中對音素、詞匯和句子三個層級的影響, 借此說明外部節(jié)律對言語理解的作用。
聽者大腦是如何利用外部節(jié)律促進或改變言語理解的呢?這一過程被認為和內(nèi)部節(jié)律, 即一系列顱內(nèi)神經(jīng)元集群節(jié)律性地、同步性地電活動產(chǎn)生的神經(jīng)振蕩(neural oscillation)存在明顯聯(lián)系(Haegens & Golumbic, 2018; K?sem & van Wassenhove, 2016; Zion-Golumbic & Schroeder, 2012)。神經(jīng)振蕩被認為介導(dǎo)了不同的認知加工過程, 包括言語加工, 抑制干擾等(Jensen et al., 2012; Schroeder & Lakatos, 2009)。近期研究認為內(nèi)部節(jié)律活動可能受外部節(jié)律所影響, 表現(xiàn)出內(nèi)外節(jié)律隨時間推移相趨近的現(xiàn)象(Lakatos et al., 2019; Obleser & Kayser, 2019), 這種現(xiàn)象被稱為神經(jīng)夾帶(neural entrainment)。當(dāng)內(nèi)部節(jié)律與外部目標言語發(fā)生夾帶時, 聽者表現(xiàn)出更好的言語理解成績(Riecke et al., 2018; Vanthornhout et al., 2018)。同時, 言語理解的多種高級認知過程同樣能夠調(diào)節(jié)神經(jīng)夾帶的表現(xiàn), 如選擇性注意(Arnal & Giraud, 2012; Helfrich et al., 2019)、先驗語法知識(Ding et al., 2016; Ding, Melloni et al., 2017)和語境預(yù)期(Broderick et al., 2019)等?;诖? 我們認為神經(jīng)夾帶可能是言語理解過程中實現(xiàn)內(nèi)外節(jié)律相互聯(lián)系與共同作用的關(guān)鍵機制。
綜上, 本文首先論述三種常見的外部節(jié)律如何影響聽覺言語理解, 說明節(jié)律對言語理解影響的普遍性。接著, 我們總結(jié)了作為內(nèi)部節(jié)律的神經(jīng)振蕩在言語理解中的功能。最后結(jié)合神經(jīng)夾帶在言語加工中的作用與其受自上而下認知過程的影響, 討論神經(jīng)夾帶在言語理解中作為聯(lián)系內(nèi)外節(jié)律機制的可能性。未來研究需要從不同層級、不同尺度和不同背景中去探究節(jié)律在聽覺言語理解中的意義。
言語產(chǎn)生是隨著時間推移而展開, 這使得時間順序?qū)β犝呃斫庑畔⒅陵P(guān)重要。為了理解言語內(nèi)容, 聽者需要根據(jù)外部節(jié)律特征從持續(xù)的語音流中感知音素、音節(jié)、單詞和短語的時間組織(Ding & He, 2016; Kotz & Schwartze, 2010; Peelle & Davis, 2012)。此部分我們依據(jù)言語輸入和背景信息將影響言語理解的外部節(jié)律劃分為三種常見類型, 主要涉及韻律結(jié)構(gòu)節(jié)律、語境節(jié)律和說話者身體語言節(jié)律。
言語的韻律結(jié)構(gòu)節(jié)律在閱讀和口語交流中表現(xiàn)各不相同。視覺閱讀中詞與詞組合而形成的音節(jié)數(shù)目的搭配會動態(tài)影響局部短語分析和整體句子整合(Luo & Zhou, 2010; Luo et al., 2015), 視覺輸入為主的閱讀并不能直接提供韻律結(jié)構(gòu)信息而需要讀者借助內(nèi)部表征如默讀等方式實現(xiàn)。此部分主要關(guān)注于聽覺場景中外部節(jié)律的韻律結(jié)構(gòu)節(jié)律, 即口語中的音節(jié)長短、音節(jié)間間隔和重音分布等特征上(Dellwo, 2006; Ramus et al., 1999; 方嵐等, 2021)。
音節(jié)間間隔能夠直接影響言語可懂度。研究者通過對句子進行時間上的壓縮降低了音節(jié)間停頓時間, 導(dǎo)致整體語速加快, 結(jié)果發(fā)現(xiàn)聽者對句子的可懂度出現(xiàn)了劇烈的下降(Bosker & Ghitza, 2018; Ghitza & Greenberg, 2009)。聽者表現(xiàn)出難以加工韻律結(jié)構(gòu)節(jié)律被破壞的言語刺激, 但這可能是源自于句子加工依賴于特定節(jié)律的感覺輸入, 又或者時間壓縮后音節(jié)內(nèi)的聲學(xué)結(jié)構(gòu)被破壞使聽者難以識別。為了回答這一問題, 研究者將壓縮后的言語波形進行等距的切分, 切分后每段內(nèi)的音節(jié)仍舊處于壓縮狀態(tài), 而后在每個片段后加入一段無聲的間隔以產(chǎn)生人為的節(jié)律特性。聽者加工這類句子的可懂度得到了恢復(fù)。需要注意的是, 只有在插入的間隔是以固定規(guī)律形式時言語可懂度才會恢復(fù), 無規(guī)律的間隔則沒有任何效應(yīng)(Ghitza & Greenberg, 2009)。所以聽者對于言語的理解依賴于言語自身節(jié)律特性, 在壓縮后的句子中加入無聲間隔的過程可以理解為是對句子內(nèi)音節(jié)的“重新打包” (repackage), 即將時域上的波形分割成不同部分。這些包以規(guī)定的速率傳導(dǎo)至雙耳, 協(xié)助聽者預(yù)測包內(nèi)音節(jié)的最大信息傳輸速率從而在一定程度上恢復(fù)了言語可理解性。
韻律結(jié)構(gòu)節(jié)律對可懂度的影響反映了聽覺系統(tǒng)在處理不同傳輸速率的信息流時的自適應(yīng)性。自然言語中, 音節(jié)間停頓的長短主要涉及到兩個方面因素(Ghitza & Greenberg, 2009), 一個是人類發(fā)音器官的生物力學(xué)特性和大腦的神經(jīng)動力學(xué)特性。發(fā)音器官/大腦內(nèi)在振蕩導(dǎo)致口唇運動和言語的時域包絡(luò)大約為5 Hz的節(jié)律, 以此調(diào)制沉默時間的長短; 另一個因素是言語的層次韻律結(jié)構(gòu)。例如, 當(dāng)一個音節(jié)在一個單詞內(nèi)時, 它后面的停頓期通常很短, 但當(dāng)它與一個更高層的語言結(jié)構(gòu)(例如韻律詞、韻律短語和語調(diào)短語)的邊界重合時, 沉默會逐漸拉長。言語中的沉默給大腦提供了額外的時間來處理間隙之前的音節(jié), 當(dāng)沉默時間被縮小或擴大并違反自然語言的時間規(guī)律時, 會增加聽者加工所需的負載, 進而破壞句子的可懂度(Ding & He, 2016)。
除了停頓的長短外, 停頓的位置也被認為能夠改變聽者對于言語的節(jié)律感知, 主要涉及口語句子中韻律邊界(prosodic boundary)。這些邊界與感知停頓、邊界前音節(jié)延長和短語末尾的音高都具有聯(lián)系(Li & Yang, 2009, 2010), 所以韻律邊界的感知能夠促進聽者將言語切分成不同層次的組塊, 并與口語的感知流暢性和可理解性密切相關(guān)(方嵐等, 2021; 于澤等, 2010), 漢語作為聲調(diào)言語在口語的結(jié)構(gòu)分析、語義加工和情緒感知等方面均受到韻律邊界的影響(Li & Yang, 2010; Li, Zhang et al., 2019)。近期研究以漢語中同時可理解為偏正結(jié)構(gòu)(modifier noun construction)或述賓結(jié)構(gòu)(narrative object structure)的歧義短語為材料發(fā)現(xiàn), 當(dāng)聽者注意到韻律信息時, 韻律邊界會改變聽者對歧義短語的結(jié)構(gòu)分析過程(Li, Zhang et al., 2019)。韻律邊界能夠在歧義語境下幫助聽者進行句式結(jié)構(gòu)的分析, 通過消除結(jié)構(gòu)上的歧義從而促進言語可懂度。此外, 漢語韻律中的重音位置還能夠改變聽者對言語中不同位置詞匯的選擇性注意, 使得重音后的詞匯被更強的加工(Li & Ren, 2012)。
目標言語前后的聲學(xué)場景我們一般會稱為語境(context), 可以在時間上與目標語音相鄰或不相鄰(Stilp, 2020)。語境對言語理解的影響主要源于語速快慢, 這是因為在詞匯感知或邊界切分中聽者需要依賴語境中提供的相對速率線索(Brown et al., 2011; Dilley et al., 2010; Dilley & McAuley, 2008)。說話者語速變化一般通過句子中元音和輔音間間隔調(diào)節(jié)來實現(xiàn)(Dellwo, 2006), 而這兩類音素間間隔的分布能夠反應(yīng)語句中節(jié)律性(Ling et al., 2000; Ramus et al., 1999)。當(dāng)說話者的語速較慢時, 聽者容易將句子中所包含的一個虛詞(如:or或are)忽略, 即在知覺層面表現(xiàn)出詞匯消失的現(xiàn)象(Dilley & Pitt, 2010)。有趣的是, 如果把語速加快聽者反而會知覺到句子中本來沒有的虛詞。這種現(xiàn)象會隨著語境時間拉長而加劇, Baese- Berk等人(2014)同時操縱了全局語境(global-context,整段材料)的語速和遠端語境(distal-context, 目標詞所在句子)的語速, 發(fā)現(xiàn)隨著時間推移全局語速對目標單詞數(shù)量感知的影響增大, 即隨著語速的減慢單詞數(shù)量感知呈現(xiàn)下降趨勢。這些發(fā)現(xiàn)表明隨著語境節(jié)律的加速或減慢, 聽者對言語中詞匯數(shù)量的知覺會向補償方向移動以確保感知保持穩(wěn)定, 即聽者會自發(fā)調(diào)整對于后續(xù)出現(xiàn)詞匯的持續(xù)時間或者邊界位置的主觀感知來契合整體語境節(jié)律。值得注意的是, 這一現(xiàn)象可能特異于語境內(nèi)容, 人為降低語境內(nèi)語音的可懂度或者采用其他音調(diào)序列時, 聽者對單詞數(shù)量的識別將不受影響(Pitt et al., 2016)。
語速除了改變聽者對語境下詞匯數(shù)量的判斷, 還會影響單詞內(nèi)元音和輔音的辨識, 這是因為言語感知很大程度上依賴于從特定頻率信息中恢復(fù)音位線索(Di Liberto et al., 2019; O'Brien et al., 2020)。例如, 一個快速的語音環(huán)境會使聽者更偏好于將一個模糊元音判斷為長元音(如:/a, a:/), 因為相鄰語境內(nèi)的音節(jié)持續(xù)時間會改變后續(xù)音節(jié)持續(xù)時間的主觀評估, 快節(jié)律的語境會使聽者對客觀時間的判斷變短使后續(xù)元音聽起來相對較長(Bosker, Sjerps et al., 2020; K?sem et al., 2018; Reinisch, 2016)。語境速率對音素間語音邊界的影響被稱為語音邊界移位(phonetic boundary shift, PBS) (Maslowski et al., 2019; Reinisch, 2016)。這種現(xiàn)象同樣發(fā)生在輔音感知中, 即較快節(jié)律的語境對/ba/-/wa/的模糊音節(jié)判斷中, 聽者會更大可能性認為是/wa/ (Wade & Holt, 2005)。言語中音素知覺受語境帶來的外部節(jié)律影響, 由于在非言語環(huán)境下這種現(xiàn)象同樣會被誘發(fā), 如純音序列(Bosker, 2017), 所以這種速率依賴的知覺被認為涉及一般的聽覺過程。
知覺從來不是對感覺信息的客觀登記。就像任何形態(tài)的感知一樣, 言語感知是相對于語境的, 它會依據(jù)先前的經(jīng)驗和背景發(fā)生改變(Stilp, 2020)。上述研究表明在外部節(jié)律的誘導(dǎo)下, 聽者對給定語境下感知到的單詞數(shù)量和音節(jié)判別會發(fā)生改變。這些結(jié)果有助于解釋在言語信號失真情況下, 語音識別能力下降的原因。
身體語言是一種非語言交流模式, 說話者通過面部活動和手部擺動等方式輔助自身的信息表達(Holler & Levinson, 2019)。在面對面的交流中聽者同時感知到的說話者的身體活動和言語節(jié)律往往在特定頻率上匹配, 這有利于它們之間的耦合, 就像“手舞足蹈”的演講者會更容易讓聽眾關(guān)注于演講內(nèi)容(Morillon & Baillet, 2017; Morillon et al., 2014; Rimmele et al., 2018)。
說話者發(fā)音器官內(nèi)的一系列協(xié)作運動體現(xiàn)在聲道的開放和縮小的循環(huán)中(Abbs et al., 1984; Browman & Goldstein, 1992; Cho et al., 2019; Proctor et al., 2019)。例如, 在發(fā)音/b/時需要封閉聲道的前部, 因此口唇和下巴的運動之間有一個協(xié)同過程, 以實現(xiàn)完全閉合。目前許多研究都集中在言語中的聲音和運動的相互作用上, 如聽者在觀測說話者的口唇運動時, 通過人為改變運動速率會影響聽者對實際言語的語速判定(Bosker, Peeters et al., 2020)。而在多說話人場景中, 研究者還發(fā)現(xiàn)說話者的口唇運動信息能夠提升聽者對目標言語的識別成績(Wu et al., 2013)。聽者對言語的加工除了利用說話者的口唇運動, 還會根據(jù)其自發(fā)的手部運動來理解言語(Iani & Bucciarelli, 2017; 殷融, 2020)。說話者為了表明言語中的重點往往會利用手勢的擺動突顯重音位置, 研究者發(fā)現(xiàn)說話人的手部兩相運動(上下擺動手臂)會顯著改變聽者對詞匯中的重音感知位置(Bosker & Peeters, 2021)。這些結(jié)果都在說明言語知覺不僅受聽覺層面外部節(jié)律的影響還受說話者的非聽覺的運動節(jié)律的影響。
聽者能夠利用非聲學(xué)的身體語言節(jié)律信息促進言語理解, 可能說明聽者和說話者之間存在某種重合的先驗知識。言語知覺的運動理論(motor theory of speech perception)認為說話者和聽者會共享一套相似的神經(jīng)運動指令(neuromotor command), 當(dāng)聽者加工說話者的運動信息并將其映射到自身的指令時, 這將有助于聽者理解說話者的言語內(nèi)容(Poeppel & Assaneo, 2020)。
綜上, 外部節(jié)律對聽覺言語理解的影響存在于廣泛聽覺與非聽覺刺激中, 語境語速能夠改變聽者對后續(xù)音素的判別和詞匯數(shù)量的估計, 言語內(nèi)在節(jié)律能夠改變句子可懂度的高低, 身體語言節(jié)律可以改變重音位置感知。但是我們的大腦是如何利用這些節(jié)律信息指導(dǎo)言語感知, 接下來我們將從神經(jīng)元集群的節(jié)律性振蕩方面進行討論。
早期關(guān)于聽覺言語理解的大腦內(nèi)部過程研究主要采用事件相關(guān)電位(event-related potentials, ERPs)和功能磁共振成像(functional magnetic resonance imaging, fMRI)技術(shù)展開。音節(jié)探測、言語理解涉及N1-P2、N400、P600等事件相關(guān)電位成份的參與(Bridwell et al., 2018; Broderick et al., 2018; Morris & Klerke, 2016)。近年來隨著研究方法的改進, 通過顱內(nèi)電極記錄和時頻分析等手段, 大腦內(nèi)自發(fā)的神經(jīng)振蕩開始成為關(guān)注的對象, 從神經(jīng)振蕩層面揭示聽覺言語理解的研究越來越多。本部分將關(guān)注言語加工中大腦的內(nèi)部節(jié)律變化, 以及神經(jīng)夾帶現(xiàn)象在其中的作用。
言語本身的節(jié)律特性作為其內(nèi)在屬性是如何在大腦中得以表征, 以及外部節(jié)律如何影響言語感知?為了回答這些問題, 研究者開始關(guān)注大腦內(nèi)部節(jié)律活動的作用(Ding et al., 2016; Zion-Golumbic & Schroeder, 2012; Haegens & Golumbic, 2018)。在早期, 通過頭皮記錄到的電活動變化一直被認為是大腦活動的背景噪音, 后來研究者開始意識到神經(jīng)元集群的振蕩活動體現(xiàn)了神經(jīng)元興奮性的周期變化(Bishop, 1933; Raichle, 2010), 如振蕩的瞬時相位反映了神經(jīng)集群在給定時刻的興奮性水平(excitability level)。當(dāng)振蕩的興奮性階段被調(diào)整, 使神經(jīng)元集群高興奮性與任務(wù)相關(guān)的感官輸入相一致, 對齊的輸入將得到最優(yōu)處理(Schroeder & Lakatos, 2009), 所以大腦的內(nèi)部節(jié)律可能是完成外部節(jié)律性刺激加工的理想工具。
神經(jīng)振蕩依照頻率高低的常被劃分為delta頻帶(1~4 Hz)、theta頻帶(4~10 Hz)、alpha頻帶(8~15 Hz)、beta頻帶(12~30 Hz)和gamma頻帶(30~200 Hz)。在聽覺言語加工中, theta頻帶振蕩被認為能夠?qū)⑤斎氲倪B續(xù)語音信號分解為離散的單詞單元, 而delta頻帶振蕩則把分割的單詞結(jié)合為更高層的基于語法或語義組合的言語結(jié)構(gòu)(K?sem & van Wassenhove, 2016; Ding et al., 2016)。近期在漢語的韻律語境加工中也發(fā)現(xiàn), 韻律節(jié)律可能通過增強與語音加工相關(guān)的頻帶活動促進語音理解。相比于不規(guī)則韻律節(jié)律的語境, 規(guī)則韻律節(jié)律能夠誘發(fā)聽者在加工目標名詞前的beta頻帶和目標名詞后的alpha頻帶增強(Li, Shao et al., 2019)。而更高頻的gamma頻帶的包絡(luò)變化則被發(fā)現(xiàn)能夠表征語音在功率譜上的多層次編碼并受到聽者目標選擇的影響(Zion-Golumbic & Schroeder, 2012; Mesgarani & Chang, 2012)。
與言語中的層級結(jié)構(gòu)相似, 不同頻率的神經(jīng)振蕩也趨向于以一種層級化的模式相互耦合。大腦內(nèi)的低頻振蕩(如theta頻帶)可能反應(yīng)了音節(jié)層面加工, 而高頻振蕩(如gamma頻帶)更多表征了音素或發(fā)音特征等信息, 頻帶間的相互耦合反應(yīng)了遠距離腦區(qū)信息交流以及協(xié)調(diào)全局神經(jīng)網(wǎng)絡(luò)的信息整合(Baltus & Herrman, 2016)。在A1中, Gamma頻帶振幅隨theta振蕩的相位系統(tǒng)變化, theta振幅還與delta (1~2 Hz)相位耦合(Lakatos et al., 2005; Lakatos et al., 2007)。有趣的是這類效應(yīng)受言語可懂度的影響, 相比于倒放言語(無法理解的), 加工自然言語(可理解的)時, 聽者的左側(cè)額下區(qū)的delta頻帶和中央前回的theta頻帶才能夠調(diào)節(jié)左側(cè)聽覺區(qū)域25 Hz振蕩的相位活動(Park et al., 2015)。所以不同節(jié)律的神經(jīng)振蕩能夠表征言語刺激中不同時間尺度的層級信息, 通過相互協(xié)調(diào)對這些信息進行整合處理, 完成聽覺言語理解(Kayser et al., 2015)。
外部節(jié)律性刺激輸入時, 聽者大腦會記錄到與外部節(jié)律在相位上相對齊或相同頻帶下能量增大的現(xiàn)象(K?sem et al., 2018; Obleser & Kayser, 2019)。這些過程被認為可能是由于持續(xù)的神經(jīng)振蕩的相位被外部節(jié)律刺激所“重置” (reset)而產(chǎn)生的(Lakatos et al., 2009), 我們通常將這種內(nèi)部節(jié)律與外部節(jié)律的時間對齊現(xiàn)象稱為神經(jīng)夾帶。研究者一般認為神經(jīng)夾帶的發(fā)生是基于神經(jīng)系統(tǒng)自身具有的節(jié)律性活動, 它們能夠在缺乏外界連續(xù)性刺激輸入的情況下維持活動, 所以夾帶能夠在外部刺激消失后維持一段時間(K?sem et al., 2018; Tass et al., 1998)。常見的神經(jīng)夾帶計算方法包括外部刺激和大腦活動之間的相位相干性, 以及以正向(如時間響應(yīng)函數(shù))或反向 (如刺激重構(gòu))的方式連接大腦和刺激的回歸模型(Fiedler et al., 2019; Fuglsang et al., 2017; Zhang & Ding, 2017)。所以神經(jīng)夾帶有時也被稱為同步化(synchronization), 或外部刺激為聽覺言語時還被稱為言語追隨(speech tracking)反應(yīng)。
在言語理解中, 外部節(jié)律可能源于音節(jié)、詞匯邊界或其他聲學(xué)線索。神經(jīng)夾帶能夠通過這些外部節(jié)律特征完成語音分析, 從連續(xù)的聲音信號中提取離散的語言成分(Haegens & Golumbic, 2018; Obleser & Kayser, 2019)。經(jīng)典神經(jīng)夾帶觀點認為產(chǎn)生夾帶的神經(jīng)活動相位與言語中韻律或音節(jié)邊界一致(Giraud & Poeppel, 2012; Peelle & Davis, 2012), 例如通過delta節(jié)律振蕩追蹤韻律線索(Bourguignon et al., 2013), theta節(jié)律振蕩反映音節(jié)和詞匯結(jié)構(gòu)(Doelling et al., 2014; Ding et al., 2016)。Luo和Poeppel (2007)通過記錄聽者在加工自然言語情況下的皮層腦磁圖信號發(fā)現(xiàn), 大腦的theta節(jié)律振蕩的相位模式穩(wěn)定地追隨口語句子中的音節(jié)節(jié)律。此研究還發(fā)現(xiàn)當(dāng)言語與噪聲相互嵌合后, 外部言語的節(jié)律性喪失以及句子可懂度下降會破壞聽者的神經(jīng)夾帶反應(yīng)。除了其他聲學(xué)刺激干擾外, 言語本身的語速也會影響神經(jīng)夾帶, 一旦語速過快, 聽者將難以跟上句子內(nèi)容使夾帶被中斷(Ahissar et al., 2001)。有趣的是, 對于言語內(nèi)的物理聲學(xué)特征的夾帶是自動的, 如睡眠期間也能記錄到夾帶(Ding & He, 2016; Makov et al., 2017)。但涉及句子內(nèi)的語言學(xué)單元則需要言語被注意或者理解時才能夠被夾帶(Brodbeck et al., 2018)。雖然可理解性與語速快慢的研究反映神經(jīng)夾帶在言語處理中的作用, 但此類研究仍舊存在一些問題。降低語音可理解性通常涉及刺激聲學(xué)的變化, 因此觀察到的語音跟蹤反應(yīng)的差異可能與改變的聲音輸入有關(guān)(Ding & Simon, 2012;K?sem & van Wassenhove, 2017; Steinmetzger & Rosen, 2017)。所以未來研究中, 探索言語理解與神經(jīng)夾帶的關(guān)系, 需要仔細控制語音刺激的聲學(xué)特性。
在面對面的交談中, 聽者言語理解受身體語言的影響(Morillon & Baillet, 2017; Morillon et al., 2014; Poeppel & Assaneo, 2020)。Park等人(2016)發(fā)現(xiàn)這一過程同樣涉及說話者運動與聽者神經(jīng)活動的夾帶過程。他們通過計算說話者口唇開合面積隨時間變化模式與聽者初級視聽皮層和左側(cè)運動區(qū)的神經(jīng)活動, 發(fā)現(xiàn)二者在1 Hz上有顯著的夾帶效應(yīng), 并且目標言語的理解程度能被夾帶的同步性所預(yù)測。聽者大腦對身體言語的夾帶使聽者能夠?qū)崟r利用運動區(qū)“模擬”的發(fā)聲過程幫助聽覺區(qū)預(yù)測即將輸入的感覺刺激, 進而促進言語理解(Morillon & Baillet, 2017; Morillon et al., 2014)。
神經(jīng)夾帶反映了節(jié)律信息對言語理解的影響。言語在時間結(jié)構(gòu)上的規(guī)律性作為外部節(jié)律被聽者感知時, 大腦內(nèi)部神經(jīng)活動的重置使內(nèi)部節(jié)律的變化模式與外部節(jié)律相似, 這使得相近相位模式下的神經(jīng)活動成為言語理解的理想環(huán)境(Haegens & Golumbic, 2018; Schroeder & Lakatos, 2009)。然而, 神經(jīng)夾帶并非單一對外部節(jié)律信息的被動追隨, 它還受聽者主觀調(diào)控的影響。我們將從言語理解過程中涉及的幾個自上而下的認知過程對神經(jīng)夾帶的影響, 進一步探討神經(jīng)夾帶在言語理解的作用。
神經(jīng)夾帶能根據(jù)聽者當(dāng)前的認知狀態(tài)動態(tài)選擇或增強與外部輸入的同步性, 便于大腦更有針對性的預(yù)測目標信息(Lakatos et al., 2019)。在言語理解過程中, 自上而下的調(diào)控可能源于聽者的選擇性注意(Helfrich et al., 2019; Lakatos et al., 2013; Obleser & Kayser, 2019)、語法的先驗知識(Ding et al., 2016; Ding, Melloni et al., 2017)和言語語境產(chǎn)生的預(yù)期(Broderick et al., 2019)等認知過程。
嘈雜的聲學(xué)環(huán)境使目標言語理解變得困難, 選擇性注意有助于放大注意刺激流與非注意刺激間的夾帶差異, 前者與神經(jīng)活動的相位同步有利于獲取更多的加工資源, 后者則傳遞到了非最優(yōu)相位階段使其更容易被抑制, 這有助于嘈雜環(huán)境中的言語理解(Calderone et al., 2014; Knudsen, 2018; Lavie, 1995; Zion-Golumbic & Schroeder, 2012)。多說話者的場景中, 聽者選擇性注意單一說話人的言語內(nèi)容時, 聽覺皮層區(qū)域(如:顳上回)和高層級的腦區(qū)(如:額下皮層, 顳前部)都發(fā)現(xiàn)增強了神經(jīng)振蕩的振幅調(diào)制, 高級皮層區(qū)域還表現(xiàn)出更明顯的選擇性增強對注意言語夾帶的現(xiàn)象(Golumbic et al., 2013)。此外, 選擇性注意還有助于身體語言促進聽覺言語理解過程。當(dāng)聽者更加注意說話者的口唇運動時, 左側(cè)運動皮層與口唇運動間的夾帶增強, 并且這種增強能直接預(yù)測言語理解的準確性(Park et al., 2016)。所以不同腦區(qū)間的神經(jīng)夾帶能夠通過選擇性注意建立起時間上的耦合, 提高腦區(qū)間的信息整合的精確度。
言語理解過程需要通過語音特征檢索對應(yīng)的詞匯信息, 再基于聽者先驗的語法知識組合成短語和句子(Poeppel et al., 2008; Phillips et al., 2003)。在排除口語韻律和統(tǒng)計層面線索的影響下, 研究者發(fā)現(xiàn)不同頻率的皮層活動能夠同時追隨言語中單詞、短語和句子等不同層次的抽象語言結(jié)構(gòu)的時間進程(Ding et al., 2016)。不同時間尺度的言語單元的同步神經(jīng)夾帶可能預(yù)示著一種層級嵌入模式, 即更小的言語單元表征嵌入在更高層次的言語單元表征下(Christiansen & Chater, 2015; Lerner et al., 2011; Poeppel et al., 2008), 從而實現(xiàn)言語中不同層級信息間的及時整合(Ding, Patel et al., 2017; Ding et al., 2016)。當(dāng)聽者理解言語內(nèi)容后, 依據(jù)上下文產(chǎn)生的語境預(yù)期同樣能夠影響之后出現(xiàn)詞匯的語音包絡(luò)的神經(jīng)夾帶程度, 即詞匯的語義與上下文越接近時目標詞匯的皮層腦電信號的神經(jīng)夾帶越強(Broderick et al., 2019)。這表明神經(jīng)夾帶還受到聽者基于上下文預(yù)測的影響, 能夠最大限度地提高未來事件的可預(yù)測性, 并精確地安排資源的分配時間(Henry et al., 2014), 從而促進即將到來的單詞的初級編碼階段處理。這一機制還解釋了為什么外部可預(yù)測的節(jié)律性刺激相比不可預(yù)測的非節(jié)律性刺激更容易被感知(Mathewson et al., 2010; Rohenkohl et al., 2012)。
神經(jīng)夾帶受聽者自上而下認知過程的影響能夠更好的表征復(fù)雜聽覺環(huán)境中的節(jié)律信息, 促進目標言語的理解。它可以作為一個“濾波器”, 根據(jù)聽者的選擇性注意減弱或消除高級腦區(qū)在嘈雜環(huán)境中對非注意語音流的神經(jīng)響應(yīng); 還可以作為一個“增益器”, 依據(jù)聽者的預(yù)期來增強言語中相應(yīng)成分的表征和加工; 最后神經(jīng)夾帶可以作為一個“連接器”, 根據(jù)聽者已有的先驗知識完成言語內(nèi)不同層級間成分或跨腦區(qū)間信息的整合。所以聽者的主動調(diào)控使言語理解過程中的關(guān)鍵信息具有更大的可能性處于神經(jīng)元集群活動的最佳興奮性水平, 從而獲得更多的加工資源。據(jù)此我們認為神經(jīng)夾帶可能為外部節(jié)律和內(nèi)部節(jié)律提供了一座聯(lián)系的“橋梁”。
談及言語節(jié)律時, 研究者往往從語音信號的時域?qū)用孢M行討論, 如語音包絡(luò)或聲學(xué)單位的持續(xù)時間等。這些對象的起伏變化構(gòu)成了聽者對外部節(jié)律的感知, 是構(gòu)建可理解言語過程所必需的。外部節(jié)律能夠幫助聽者關(guān)注單詞或它們的組成元素(如音素或音節(jié))進而促進理解。聽者大腦的神經(jīng)振蕩作為內(nèi)部節(jié)律, 能夠表征與整合言語內(nèi)不同層級信息。而神經(jīng)夾帶可能是實現(xiàn)言語理解中內(nèi)外節(jié)律相互聯(lián)系的關(guān)鍵。
口語中的詞匯間停頓、停頓位置等韻律結(jié)構(gòu)節(jié)律影響聽者在口語加工中可懂度的高低以及對歧義語境的結(jié)構(gòu)分析, 合適的韻律結(jié)構(gòu)節(jié)律能夠促進正確的言語理解, 恢復(fù)難以理解的語義內(nèi)容(Ghitza & Greenberg, 2009; Li & Yang, 2009, 2010)。而于不同的語速的語境則改變聽者對隨后出現(xiàn)的音節(jié)判別乃至詞匯數(shù)量感知(Dilley & Pitt, 2010; Bosker, Sjerps et al., 2020; Reinisch, 2016)。此外, 說話者在言語產(chǎn)生過程中伴隨的同步運動行為能夠通過視覺通道同時與言語信息傳入聽者大腦。這些非聽覺的運動節(jié)律與言語節(jié)律之間的協(xié)同性能夠幫助聽者更好的捕捉目標言語內(nèi)容(Bosker & Peeters, 2021; Poeppel & Assaneo, 2020)。所以言語理解得益于這些外部節(jié)律特征, 它們不但能夠幫助聽者理解和降低處理成本, 還能調(diào)節(jié)音素、詞匯和句子層面的語音處理。
當(dāng)以語音材料的持續(xù)時間為對象研究言語節(jié)律時, 口語中聲學(xué)單元的持續(xù)時間會改變說話者語速的感知。語速快慢通常是改變口語中元音音程百分比(the percentage of vocalic intervals, %V)和輔音音程的標準差(the standard deviation of consonantal intervals, deltaC)進而影響節(jié)律感知, 但這一現(xiàn)象并非所有語種中都存在, 如法語的語速快慢并不影響deltaC的變異系數(shù)(Dellwo, 2006; Dellwo & Wagner, 2003)。所以不同語種中涉及語速變化是否能直接影響言語節(jié)律感知仍舊存在爭議, 這提示進行不同語言中涉及聲學(xué)單元持續(xù)時間的研究必須關(guān)注語速的操控。
大腦神經(jīng)活動的揭示使研究者認為, 內(nèi)部節(jié)律性神經(jīng)振蕩表征了言語信號, 從而實現(xiàn)聽者對信號中關(guān)鍵信息的加工, 在音節(jié)感知、語義加工和句法理解方面得到了證實(Cason & Schoen, 2012; Kotz & Schmidt-Kassow, 2015; Schmidt-Kassow et al., 2013)。近些年, 大量的研究發(fā)現(xiàn)大腦內(nèi)的神經(jīng)振蕩在時間上可能存在與外部節(jié)律性刺激間的夾帶現(xiàn)象(K?sem et al., 2018; Obleser & Kayser, 2019)。由于持續(xù)性神經(jīng)活動的相位反映了神經(jīng)元興奮性的節(jié)律性波動, 當(dāng)夾帶發(fā)生時, 產(chǎn)生夾帶效應(yīng)的神經(jīng)活動與外部刺激在時間上相互對齊時, 能夠?qū)崿F(xiàn)穩(wěn)定地調(diào)整對輸入刺激的加工增益(Buzsaki & Draguhn, 2004; Lakatos et al., 2005; Vanthornhout et al., 2018)。所以我們認為神經(jīng)夾帶是實現(xiàn)言語理解中內(nèi)外部節(jié)律相互聯(lián)系的可能機制。
神經(jīng)夾帶現(xiàn)象廣泛的存在于外部節(jié)律影響言語理解的過程中。它為大腦如何表征言語中不同層級信息提供了途徑。對言語刺激的夾帶并非發(fā)生于某一特定頻段中, 從反應(yīng)聲學(xué)特征的gamma頻段到語音的時域包絡(luò)的theta頻段, 或是漢語中字, 詞和句中更低的delta頻帶, 不同層級下的節(jié)律大腦都有相對應(yīng)的神經(jīng)振蕩產(chǎn)生夾帶(Giraud & Poeppel, 2012; Peelle & Davis, 2012)。神經(jīng)夾帶還說明了韻律結(jié)構(gòu)節(jié)律或語境節(jié)律的建立對當(dāng)下言語理解的影響可能是由于自身所具有的自我維持特性。即在事先輸入的節(jié)律刺激變化后已經(jīng)產(chǎn)生的夾帶仍舊可以持續(xù)一段時間進而影響當(dāng)前輸入言語刺激的加工(K?sem et al., 2018)。對身體言語的夾帶有助于跨腦區(qū)間信息交流的鎖時性, 確保運動信息能夠與言語信息精確的整合(Park et al., 2016)。
聽者自上而下認知過程調(diào)節(jié)神經(jīng)夾帶為選擇性注意、先驗知識和預(yù)期在言語理解中的作用提供了生理層面解釋。聽者的選擇性注意通過神經(jīng)夾帶使得高興奮性的神經(jīng)集群能夠更為集中地表征目標刺激, 進而提高目標言語的識別率(Calderone et al., 2014; Golumbic et al., 2013; Knudsen, 2018; Lavie, 1995)。反之, 神經(jīng)活動會阻礙無法對齊的感覺刺激的表征建立, 因為它們會隨機地放大或衰減信息(Lakatos et al., 2019)。先驗的語法知識則通過同時對言語中不同層級單位的夾帶實現(xiàn)層級間的整合的精確性(Ding et al., 2016; Ding, Melloni et al., 2017)。而當(dāng)聽者理解上下文內(nèi)容時, 對于之后出現(xiàn)詞匯的預(yù)期能夠加強在加工詞匯時的夾帶強度, 促進詞匯的早期發(fā)音編碼加工(Broderick et al., 2019)。所以我們認為神經(jīng)夾帶不單是一種被動相應(yīng)外部節(jié)律性刺激的大腦活動, 還能夠根據(jù)聽者的認知狀態(tài)創(chuàng)建一個合適的當(dāng)前言語理解的加工環(huán)境。它作為量化兩種節(jié)律性活動一致性關(guān)系的指標, 已成為描述外部言語與大腦之間雙向關(guān)系的方法, 允許研究者探究節(jié)律或聽者認知過程是如何影響言語理解。
長期以來關(guān)于大腦對感覺刺激的反應(yīng)是否與內(nèi)在的、持續(xù)的神經(jīng)振蕩有關(guān)一直存在爭議(Doelling & Assaneo, 2021), 大腦的神經(jīng)夾帶是否由神經(jīng)振蕩所產(chǎn)生也缺少直接證據(jù)。研究者需要嚴謹?shù)嘏袛嘟Y(jié)果中的夾帶現(xiàn)象是由外部刺激和內(nèi)在神經(jīng)振蕩之間的耦合產(chǎn)生, 還是一連串刺激引起的一系列神經(jīng)元誘發(fā)電位。在許多情況下, 所謂的夾帶可能只是來自于聲音的規(guī)律性輸入而引起的一系列神經(jīng)元誘發(fā)響應(yīng), 而非真正的神經(jīng)振蕩(Obleser & Kayser, 2019; Poeppel & Assaneo, 2020)。
隨著非侵入性腦刺激技術(shù)的發(fā)展, 研究者不在局限于被動記錄聽者的大腦活動, 而開始采用外加干預(yù)的形式探究神經(jīng)振蕩對言語理解的影響。經(jīng)顱交流電刺激(tACS)相比于經(jīng)顱磁刺激(TMS)是一種完全無聲的刺激手段, 可以排除任務(wù)中實驗外聲音的干擾(Feher et al., 2017; Raco et al., 2016)。當(dāng)聽者在加工言語刺激時對其顳葉區(qū)施加tACS, 干擾theta頻段神經(jīng)振蕩的活動, 結(jié)果發(fā)現(xiàn)受到干擾的神經(jīng)活動導(dǎo)致神經(jīng)夾帶破壞, 并表現(xiàn)出言語可懂度成績的下降(Riecke et al., 2018; Wilsch et al., 2018; Zoefel et al., 2018)。相反, 如果將言語刺激的包絡(luò)作為電刺激模態(tài)時, 對頭皮的刺激能夠提高聽者在噪聲環(huán)境下的言語理解能力(Keshavarzi & Reichenbach, 2020)。tACS在刺激頻率和相位上與節(jié)律性聽覺刺激對齊, 有助于聽皮層對連續(xù)聽覺事件的感知(Wilsch et al., 2018; Zoefel et al., 2018)。未來研究中, 無論是控制神經(jīng)振蕩與外部刺激的同步化還是去同步化, 都有助于提供神經(jīng)振蕩在言語知覺中的作用的更直接證據(jù)。并且這種對大腦振蕩的“實驗性”影響允許通過檢查其功能結(jié)果來確定大腦振蕩是否因果驅(qū)動大腦功能, 而不是一種副現(xiàn)象活動(Vosskuhl et al., 2018)。
聽覺言語理解涉及多尺度內(nèi)外部節(jié)律的共同參與。我們首先通過韻律結(jié)構(gòu)節(jié)律、語境節(jié)律和說話者身體語言節(jié)律三類常見的外部節(jié)律, 揭示了外部節(jié)律能夠影響聽覺言語理解。其次, 我們描述了聽者內(nèi)部神經(jīng)振蕩與神經(jīng)夾帶現(xiàn)象在言語理解過程中的作用。最后, 我們根據(jù)神經(jīng)夾帶受聽者自上而下認知過程的影響, 探討神經(jīng)夾帶可能是聯(lián)系內(nèi)外節(jié)律的關(guān)鍵機制。
方嵐, 鄭苑儀, 金晗, 李曉慶, 楊玉芳, 王瑞明. (2021). 口語句子的韻律邊界: 窺探言語理解的秘窗.,(3), 425?437. https://dx.doi.org/10.3724/SP.J.1042. 2021.00425
楊玉芳. (2021).. 科學(xué)出版社.
殷融. (2020). “動手不動口”: 手部動作與語言進化的關(guān)系.,(7), 1141?1155. https://doi.org/10.3724/ SP.J.1042.2020.01141
于澤, 韓玉昌, 任桂琴. (2010). 韻律在語言加工中的作用及其神經(jīng)機制.,(3), 420?425.
Abbs, J. H., Gracco, V. L., & Cole, K. J. (1984). Control of multimovement coordination: Sensorimotor mechanisms in speech motor programming.,(2), 195?231. https://doi.org/10.1080/00222895.1984. 10735318
Ahissar, E., Nagarajan, S., Ahissar, M., Protopapas, A., Mahncke, H., & Merzenich, M. M. (2001). Speech comprehension is correlated with temporal response patterns recorded from auditory cortex.,(23), 13367? 13372. https://doi.org/10.1073/pnas.201400998
Arnal, L. H., & Giraud, A.-L. (2012). Cortical oscillations and sensory predictions.,(7), 390?398. https://doi.org/10.1016/j.tics.2012.05.003
Baese-Berk, M. M., Heffner, C. C., Dilley, L. C., Pitt, M. A., Morrill, T. H., & McAuley, J. D. (2014). Long-term temporal tracking of speech rate affects spoken-word recognition.,(8), 1546?1553. https://doi.org/10.1177/0956797614533705
Baltus, A., & Herrman, C. S. (2016). The importance of individual frequencies of endogenous brain oscillations for auditory cognition - A short review.,, 243?250. https://doi.org/10.1016/j.brainres.2015.09. 030
Bishop, G. H. (1933). Cyclic changes in excitability of the optic pathway of the rabbit.,(1), 213?224. https://doi.org/10.1152/ajplegacy.1932. 103.1.213
Bosker, H. R. (2017). Accounting for rate-dependent category boundary shifts in speech perception.,(1), 333?343. https://doi.org/10.3758/ s13414-016-1206-4
Bosker, H. R., & Ghitza, O. (2018). Entrained theta oscillationsguide perception of subsequent speech: behavioural evidencefrom rate normalisation.,(8), 955?967. https://doi.org/10.1080/23273798.2018. 1439179
Bosker, H. R., & Peeters, D. (2021). Beat gestures influence which speech sounds you hear.,(1943). https://doi.org/ 10.1098/rspb.2020.2419
Bosker, H. R., Peeters, D., & Holler, J. (2020). How visual cues to speech rate influence speech perception.,(10), 1523?1536. https://doi.org/10.1177/1747021820914564
Bosker, H. R., Sjerps, M. J., & Reinisch, E. (2020). Temporal contrast effects in human speech perception are immune to selective attention.,(1), 1?11. https://doi.org/10.1038/s41598-020-62613-8
Bourguignon, M., de Tiege, X., Op de Beeck, M., Ligot, N., Paquier, P., van Bogaert, P., ... Jousmaki, V. (2013). The pace of prosodic phrasing couples the listener's cortex to the reader's voice.,(2), 314?326. https://doi.org/10.1002/hbm.21442
Breska, A., & Deouell, L. Y. (2017). Neural mechanisms of rhythm-based temporal prediction: Delta phase-locking reflects temporal predictability but not rhythmic entrainment.,(2), e2001665. https://doi.org/10.1371/ journal.pbio.2001665
Bridwell, D. A., Henderson, S., Sorge, M., Plis, S., & Calhoun, V. D. (2018). Relationships between alpha oscillations during speech preparation and the listener N400 ERP to the produced speech.,(1), 1?10. https://doi.org/10.1038/s41598-018-31038-9
Brodbeck, C., Hong, L. E., & Simon, J. Z. (2018). Rapid transformation from auditory to linguistic representations of continuous speech.,(24), 3976?3983. https://doi.org/10.1016/j.cub.2018.10.042
Broderick, M. P., Anderson, A. J., Di Liberto, G. M., Crosse, M. J., & Lalor, E. C. (2018). Electrophysiological correlates of semantic dissimilarity reflect the comprehension of natural, narrative speech.,(5), 803?809. https://doi.org/10.1016/j.cub.2018.01.080
Broderick, M. P., Anderson, A. J., & Lalor, E. C. (2019). Semantic context enhances the early auditory encoding of natural speech.,(38), 7564? 7575. https://doi.org/10.1523/jneurosci.0584-19.2019
Browman, C. P., & Goldstein, L. (1992). Articulatory phonology: An overview.,(3-4), 155?180. https://doi.org/10.1159/000261913
Brown, M., Salverda, A. P., Dilley, L. C., & Tanenhaus, M. K. (2011). Expectations from preceding prosody influence segmentation in online sentence processing.,(6), 1189?1196. https://doi.org/ 10.3758/s13423-011-0167-9
Buzsaki, G., & Draguhn, A. (2004). Neuronal oscillations in cortical networks.,(5679), 1926?1929. https:// doi.org/10.1126/science.1099745
Calderone, D. J., Lakatos, P., Butler, P. D., & Castellanos, F. X. (2014). Entrainment of neural oscillations as a modifiable substrate of attention.,(6), 300?309. https://doi.org/10.1016/j.tics. 2014.02.005
Cason, N., & Sch?n, D. (2012). Rhythmic priming enhances thephonological processing of speech.,(11),2652?2658. https://doi.org/10.1016/j.neuropsychologia.2012. 07.018
Cho, T., Whalen, D. H., & Docherty, G. (2019). Voice onset time and beyond: Exploring laryngeal contrast in 19 languages.,, 52?65. https://doi.org/ 10.1016/j.wocn.2018.11.002
Christiansen, M. H., & Chater, N. (2015). The now-or-Never bottleneck: A fundamental constraint on language.,, E62. https://doi.org/10.1017/ s0140525x1500031x
Dauer, R. M. (1983). Stress-timing and syllable-timing reanalyzed.,(1), 51?62. https:// doi.org/10.1016/s0095-4470(19)30776-4
Dellwo, V. (2006). Rhythm and speech rate: A variation coefficient for deltaC. In P. Karnowski & I. Szigeti (Eds.),(pp. 231?241). Frankfurt/Main: Peter Lang.
Dellwo, V., & Wagner, P. (2003). Relations between language rhythm and speech rate.(pp. 471?474), Barcelona/Spain.
Di Liberto, G. M., Wong, D., Melnik, G. A., & de Cheveigne, A. (2019). Low-frequency cortical responses to natural speech reflect probabilistic phonotactics.,, 237?247. https://doi.org/10.1016/j.neuroimage.2019.04.037
Dilley, L. C., Mattys, S. L., & Vinke, L. (2010). Potent prosody: Comparing the effects of distal prosody, proximalprosody, and semantic context on word segmentation.,(3), 274?294. https://doi.org/ 10.1016/j.jml.2010.06.003
Dilley, L. C., & McAuley, J. D. (2008). Distal prosodic context affects word segmentation and lexical processing.,(3), 294?311. https: //doi.org/10.1016/j.jml.2008.06.006
Dilley, L. C., & Pitt, M. A. (2010). Altering context speech rate can cause words to appear or disappear.,(11), 1664?1670. https://doi.org/10.1177/ 0956797610384743
Ding, N., & He, H. (2016). Rhythm of silence.,(2), 82?84. https://doi.org/10.1016/ j.tics.2015.12.006
Ding, N., Melloni, L., Yang, A., Wang, Y., Zhang, W., & Poeppel, D. (2017). Characterizing neural entrainment to hierarchical linguistic units using electroencephalography (EEG).,. https://doi.org/ 10.3389/fnhum.2017.00481
Ding, N., Melloni, L., Zhang, H., Tian, X., & Poeppel, D. (2016). Cortical tracking of hierarchical linguistic structures in connected speech.,(1), 158?164. https://doi.org/10.1038/nn.4186
Ding, N., Patel, A. D., Chen, L., Butler, H., Luo, C., & Poeppel, D. (2017). Temporal modulations in speech and music.,, 181?187. https://doi.org/10.1016/j.neubiorev.2017.02.011
Ding, N., & Simon, J. Z. (2012). Neural coding of continuous speech in auditory cortex during monaural and dichotic listening.,(1), 78?89. https://doi.org/10.1152/jn.00297.2011
Doelling, K. B., Arnal, L. H., Ghitza, O., & Poeppel, D. (2014). Acoustic landmarks drive delta-theta oscillations to enable speech comprehension by facilitating perceptual parsing.,, 761?768. https://doi.org/10. 1016/j.neuroimage.2013.06.035
Doelling, K. B., & Assaneo, M. F. (2021). Neural oscillations are a start toward understanding brain activity rather than the end.,(5), e3001234. https://doi.org/10. 1371/journal.pbio.3001234
Farbood, M. M., Marcus, G., & Poeppel, D. (2013). Temporal dynamics and the identification of musical key.,(4), 911?918. https://doi.org/10.1037/ a0031087
Feher, K. D., Nakataki, M., & Morishima, Y. (2017). Phase- dependent modulation of signal transmission in cortical networks through tACS-induced neural oscillations.,, 1?13. https://doi.org/10.3389/ fnhum.2017.00471
Fiedler, L., W?stmann, M., Herbst, S. K., & Obleser, J. (2019). Late cortical tracking of ignored speech facilitates neural selectivity in acoustically challenging conditions.,, 33?42. https://doi.org/10.1016/j.neuroimage. 2018.10.057
Fuglsang, S. A., Dau, T., & Hjortkjaer, J. (2017). Noise-robust cortical tracking of attended speech in real-world acoustic scenes.,, 435?444. https://doi.org/10.1016/ j.neuroimage.2017.04.026
Fujii, S., & Wan, C. Y. (2014). The role of rhythm in speech and language rehabilitation: The SEP hypothesis.,, 1?15. https://doi.org/10.3389/ fnhum.2014.00777
Ghazanfar, A. A., & Takahashi, D. Y. (2014). The evolution of speech: Vision, rhythm, cooperation.,(10), 543?553. https://doi.org/10.1016/j.tics. 2014.06.004
Ghitza, O., & Greenberg, S. (2009). On the possible role of brain rhythms in speech perception: Intelligibility of time- compressed speech with periodic and aperiodic insertions of silence.,(1-2), 113?126. https://doi.org/ 10.1159/000208934
Giraud, A.-L., & Poeppel, D. (2012). Cortical oscillations and speech processing: Emerging computational principles and operations.,(4), 511?517. https://doi.org/10.1038/nn.3063
Golumbic, E. M. Z., Ding, N., Bickel, S., Lakatos, P., Schevon, C. A., McKhann, G. M., ... Schroeder, C. E. (2013). Mechanisms underlying selective neuronal tracking of attended speech at a "Cocktail Party".,(5), 980?991. https://doi.org/10.1016/j.neuron.2012.12.037
Haegens, S., & Golumbic, E. Z. (2018). Rhythmic facilitation of sensory processing: A critical review.,, 150?165. https://doi.org/10.1016/ j.neubiorev.2017.12.002
Helfrich, R. F., Breska, A., & Knight, R. T. (2019). Neural entrainment and network resonance in support of top-down guided attention.,, 82?89. https://doi.org/10.1016/j.copsyc.2018.12.016
Henry, M. J., Herrmann, B., & Obleser, J. (2014). Entrained neural oscillations in multiple frequency bands comodulatebehavior.,(41), 14935?14940. https://doi.org/10.1073/pnas.1408741111
Holler, J., & Levinson, S. C. (2019). Multimodal language processing in human communication.,(8), 639?652. https://doi.org/10.1016/j.tics. 2019.05.006
Iani, F., & Bucciarelli, M. (2017). Mechanisms underlying the beneficial effect of a speaker's gestures on the listener.,, 110?121. https: //doi.org/10.1016/j.jml.2017.05.004
Jadoul, Y., Ravignani, A., Thompson, B., Filippi, P., & de Boer, B. (2016). Seeking temporal predictability in speech: Comparing statistical approaches on 18 world languages.,. https://doi.org/ 10.3389/fnhum.2016.00586
Jensen, O., Bonnefond, M., & VanRullen, R. (2012). An oscillatory mechanism for prioritizing salient unattended stimuli.,(4), 200?206. https: //doi.org/10.1016/j.tics.2012.03.002
Kayser, C. (2019). Evidence for the rhythmic perceptual sampling of auditory scenes.,, https://doi.org/10.3389/fnhum.2019.00249
Kayser, C., Wilson, C., Safaai, H., Sakata, S., & Panzeri, S. (2015). Rhythmic auditory cortex activity at multiple timescales shapes stimulus-response gain and background firing.,(20), 7750?7762. https: //doi.org/10.1523/jneurosci.0268-15.2015
Keshavarzi, M., & Reichenbach, T. (2020). Transcranial alternating current stimulation with the theta-band portion of the temporally-aligned speech envelope improves speech-in-noise comprehension.,, https://doi.org/10.3389/fnhum.2020.00187
Knudsen, E. I. (2018). Neural circuits that mediate selective attention: A comparative perspective.,(11), 789?805. https://doi.org/10.1016/j.tins.2018.06.006
K?sem, A., Bosker, H. R., Takashima, A., Meyer, A., Jensen, O., & Hagoort, P. (2018). Neural entrainment determines the words we hear.,(18), 2867?2875. https://doi.org/10.1016/j.cub.2018.07.023
K?sem, A., & van Wassenhove, V. (2017). Distinct contributions of low- and high-frequency neural oscillations to speech comprehension.,(5), 536?544. https://doi.org/10.1080/23273798.2016.1238495
Kotz, S. A., Ravignani, A., & Fitch, W. T. (2018). The evolution of rhythm processing.,(10), 896?910. https://doi.org/10.1016/j.tics.2018.08.002
Kotz, S. A., & Schmidt-Kassow, M. (2015). Basal ganglia contribution to rule expectancy and temporal predictability in speech.,, 48?60. https://doi.org/10.1016/j. cortex.2015.02.021
Kotz, S. A., & Schwartze, M. (2010). Cortical speech processingunplugged: A timely subcortico-cortical framework.,(9), 392?399. https://doi.org/10.1016/ j.tics.2010.06.005
Ladefoged, P. (1975).. New York: Harcourt Brace Jovanovich College.
Lakatos, P., Chen, C.-M., O'Connell, M. N., Mills, A., & Schroeder, C. E. (2007). Neuronal oscillations and multisensory interaction in primary auditory cortex.,(2), 279?292. https://doi.org/10.1016/j.neuron.2006.12. 011
Lakatos, P., Gross, J., & Thut, G. (2019). A new unifying account of the roles of neuronal entrainment.,(18), 890?905. https://doi.org/10.1016/j.cub. 2019.07.075
Lakatos, P., Musacchia, G., O'Connel, M. N., Falchier, A. Y., Javitt, D. C., & Schroeder, C. E. (2013). The spectrotemporal filter mechanism of auditory selective attention.,(4), 750?761. https://doi.org/10.1016/j.neuron.2012.11.034
Lakatos, P., O'Connell, M. N., Barczak, A., Mills, A., Javitt, D. C., & Schroeder, C. E. (2009). The leading sense: Supramodal control of neurophysiological context by attention.,(3), 419?430. https://doi.org/10.1016/ j.neuron.2009.10.014
Lakatos, P., Shah, A. S., Knuth, K. H., Ulbert, I., Karmos, G., & Schroeder, C. E. (2005). An oscillatory hierarchy controlling neuronal excitability and stimulus processing in the auditory cortex.,(3), 1904?1911. https://doi.org/10.1152/jn.00263.2005
Lavie, N. (1995). Perceptual load as a necessary condition for selective attention.,(3), 451?468. https://doi.org/10.1037/0096-1523.21.3.451
Lerner, Y., Honey, C. J., Silbert, L. J., & Hasson, U. (2011). Topographic mapping of a hierarchy of temporal receptive Windows using a narrated story.,(8), 2906?2915. https://doi.org/10.1523/jneurosci.3684- 10.2011
Ling, L. E., Grabe, E., & Nolan, F. (2000). Quantitative characterizations of speech rhythm: Syllable-timing in Singapore English.,, 377?401. https://doi.org/10.1177/00238309000430040301
Li, W., & Yang, Y. (2009). Perception of prosodic hierarchical boundaries in mandarin Chinese sentences.,(4), 1416?1425. https://doi.org/10.1016/j.neuroscience. 2008.10.065
Li, W., & Yang, Y. (2010). Perception of chinese poem and itselectrophysiological effects.,(3), 757?768. https://doi.org/10.1016/j.neuroscience.2010.03.069
Li, W., Zhang, H., Zheng, Z., & Li, X. (2019). Prosodic phrase priming during listening to Chinese ambiguous phrasesin different experimental tasks.,, 135?150. https://doi.org/10.1016/j.jneuroling.2019.02. 003
Li, X., & Ren, G. (2012). How and when accentuation influences temporally selective attention and subsequent semantic processing during on-line spoken language comprehension: An ERP study.,(8), 1882?1894. https://doi.org/10.1016/j.neuropsychologia.2012.04.013
Li, X., Shao, X., Xia, J., & Xu, X. (2019). The cognitive and neural oscillatory mechanisms underlying the facilitating effect of rhythm regularity on speech comprehension.,, 155?167. https://doi.org/ 10.1016/j.jneuroling.2018.05.004
Luo, H., & Poeppel, D. (2007). Phase patterns of neuronal responses reliably discriminate speech in human auditory cortex.,(6), 1001?1010. https://doi.org/10.1016/ j.neuron.2007.06.004
Luo, Y., Duan, Y., & Zhou, X. (2015). Processing rhythmic pattern during Chinese sentence reading: An eye movement study.,. https://doi.org/10.3389/ fpsyg.2015.01881
Luo, Y., & Zhou, X. (2010). ERP evidence for the online processing of rhythmic pattern during Chinese sentence reading.,(3), 2836?2849. https://doi.org/ 10.1016/j.neuroimage.2009.10.008
Makov, S., Sharon, O., Ding, N., Ben-Shachar, M., Nir, Y., & Golumbic, E. Z. (2017). Sleep disrupts high-level speech parsing despite significant basic auditory processing.,(32), 7772-7781. https://doi.org/10. 1523/jneurosci.0168?17.2017
Maslowski, M., Meyer, A. S., & Bosker, H. R. (2019). How the tracking of habitual rate influences speech perception.,(1), 128?138. https://doi.org/10.1037/ xlm0000579
Mathewson, K. E., Fabiani, M., Gratton, G., Beck, D. M., & Lleras, A. (2010). Rescuing stimuli from invisibility: Inducing a momentary release from visual masking with pre-target entrainment.,(1), 186?191. https: //doi.org/10.1016/j.cognition.2009.11.010
Mesgarani, N., & Chang, E. F. (2012). Selective cortical representation of attended speaker in multi-talker speech perception.,(7397), 233?236. https://doi.org/ 10.1038/nature11020
Morillon, B., & Baillet, S. (2017). Motor origin of temporal predictions in auditory attention.,(42), 8913?8921. https://doi.org/10.1073/pnas.1705373114
Morillon, B., Schroeder, C. E., & Wyart, V. (2014). Motor contributions to the temporal precision of auditory attention.,, 1?9. https://doi.org/ 10.1038/ncomms6255
Morris, D. J., & Klerke, S. (2016). Machine classification of P1-N1-P2 responses elicited with a gated syllable.,(4), 3155?3155. https://doi.org/10.1121/1.4969899
Müller, C., Cienki, A., Fricke, E., Ladewig, S. H., McNeill, D., & Tessendorf, S. (2013). Body-language-communication:. In(pp. 131?232). De Gruyter Mouton.
Nooteboom, S. (1997). The prosody of speech: Melody and rhythm. In W. J. Hardcastle & J. Laver (Eds.),(pp. 640?673). Blackwell Publishers.
Obleser, J., & Kayser, C. (2019). Neural entrainment and attentional selection in the listening brain.,(11), 913?926. https://doi.org/10.1016/j.tics. 2019.08.004
O'Brien, G. E., Gijbels, L., & Yeatman, J. D. (2020). Context effects on phoneme categorization in children with dyslexia.,(4), 2209?2222. https://doi.org/10.1121/10.0002181
Park, H., Ince, R. A. A., Schyns, P. G., Thut, G., & Gross, J. (2015). Frontal top-down signals increase coupling of auditory low-frequency oscillations to continuous speech in human listeners.,(12), 1649?1653. https://doi.org/10.1016/j.cub.2015.04.049
Park, H., Kayser, C., Thut, G., & Gross, J. (2016). Lip movements entrain the observers’ low-frequency brain oscillations to facilitate speech intelligibility.,. https://doi.org/10.7554/elife.14521
Peelle, J. E., & Davis, M. H. (2012). Neural oscillations carry speech rhythm through to comprehension.,, https://doi.org/10.3389/fpsyg.2012. 00320
Phillips, D., Vigneault-MacLean, B., Boehnke, S., & Hall, S. (2003). Acoustic Hemifields in the spatial release from masking of speech by noise.,(9), 518?524. https://doi.org/10. 3766/jaaa.14.9.7
Pike, K. L. (1945)., University of Michigan Press.
Pitt, M. A., Szostak, C., & Dilley, L. C. (2016). Rate dependent speech processing can be speech specific: Evidence from the perceptual disappearance of words under changes in context speech rate.,(1), 334?345. https://doi.org/10.3758/s13414-015-0981-7
Poeppel, D., & Assaneo, M. F. (2020). Speech rhythms and their neural foundations.,(6), 322?334. https://doi.org/10.1038/s41583-020-0304-4
Poeppel, D., Idsardi, W. J., & van Wassenhove, V. (2008). Speech perception at the interface of neurobiology and linguistics.,(1493), 1071?1086. https://doi. org/10.1098/rstb.2007.2160
Proctor, M., Walker, R., Smith, C., Szalay, T., Goldstein, L., & Narayanan, S. (2019). Articulatory characterization of English liquid-final rimes.,, https: //doi.org/10.1016/j.wocn.2019.100921
Raco, V., Bauer, R., Tharsan, S., & Gharabaghi, A. (2016). Combining TMS and tACS for closed-loop phase-dependent modulation of corticospinal excitability: A feasibility study.,, https://doi. org/10.3389/fncel.2016.00143
Ramus, F. (2002).Proc Speech Prosody, Aix-en-Provence.
Ramus, F., Nespor, M., & Mehler, J. (1999). Correlates of linguistic rhythm in the speech signal.,(3), 265?292. https://doi.org/10.1016/s0010-0277(99)00058-x
Raichle, M. E. (2010). Two views of brain function.,(4), 180?190. https://doi.org/10. 1016/j.tics.2010.01.008
Reinisch, E. (2016). Natural fast speech is perceived as faster than linearly time-compressed speech.,(4), 1203?1217. https: //doi.org/10.3758/s13414-016-1067-x
Riecke, L., Formisano, E., Sorger, B., Baskent, D., & Gaudrain, E. (2018). Neural entrainment to speech modulates speech intelligibility.,(2), 161?169. https://doi.org/ 10.1016/j.cub.2017.11.033
Rimmele, J. M., Morillon, B., Poeppel, D., & Arnal, L. H. (2018). Proactive sensing of periodic and aperiodic auditory patterns.,(10), 870?882. https://doi.org/10.1016/j.tics.2018.08.003
Roach, P. (1982). On the distinction between ‘stress-timed’ and ‘syllable-timed’ languages. In D. Crystal (Eds.),(pp. 73?79). London: Arnold.
Rohenkohl, G., Cravo, A. M., Wyart, V., & Nobre, A. C. (2012). Temporal expectation improves the quality of sensory information.,(24), 8424?8428. https://doi.org/10.1523/jneurosci.0804-12.2012
Schmidt-Kassow, M., Roncaglia-Denissen, M. P., & Kotz, S. A. (2013). Speech rhythm facilitates syntactic ambiguity resolution: ERP Evidence.,(2), e56000. /https: //doi.org/10.1371/journal.pone.0056000
Schroeder, C. E., & Lakatos, P. (2009). Low-frequency neuronal oscillations as instruments of sensory selection.,(1), 9?18. https://doi.org/ 10.1016/j.tins.2008.09.012
Sheng, J., Zheng, L., Lyu, B., Cen, Z., Qin, L., Tan, L. H., ... Gao, J.-H. (2019). The cortical maps of hierarchical linguistic structures during speech perception.,(8), 3232?3240. https://doi.org/10.1093/cercor/ bhy191
Steinmetzger, K., & Rosen, S. (2017). Effects of acoustic periodicity and intelligibility on the neural oscillations in response to speech.,, 173?181. https://doi.org/10.1016/j.neuropsychologia.2016.12.003
Stilp, C. (2020). Acoustic context effects in speech perception.,(1), 1?18. https://doi.org/10.1002/wcs.1517
Tass, P., Rosenblum, M. G., Weule, J., Kurths, J., Pikovsky, A., Volkmann, J., ... Freund, H. J. (1998). Detection of n : M phase locking from noisy data: Application to magnetoencephalography.,(15), 3291?3294. https://doi.org/10.1103/PhysRevLett.81.3291
Turk, A., & Shattuck-Hufnagel, S. (2013). What is speech rhythm? A commentary on Arvaniti and Rodriquez, Krivokapic, and Goswami and Leong.,(1), 93?118. https://doi.org/10.1515/lp-2013-0005
Vanthornhout, J., Decruy, L., Wouters, J., Simon, J. Z., & Francart, T. (2018). Speech intelligibility predicted from neural entrainment of the speech envelope.,(2), 181?191. https://doi.org/10.1007/s10162-018-0654-z
Vosskuhl, J., Strüber, D., & Herrmann, C. S. (2018). Non- invasive brain stimulation: A paradigm shift in understanding brain oscillations.,, 1?19. https://doi.org/10.3389/fnhum. 2018.00211
Wade, T., & Holt, L. L. (2005). Perceptual effects of preceding nonspeech rate on temporal properties of speech categories.,(6), 939?950. https://doi.org/10.3758/bf03193621
White, L. (2014). Communicative function and prosodic form in speech timing.,, 38?54. https://doi.org/10.1016/j.specom.2014.04.003
White, L., Mattys, S. L., & Wiget, L. (2012). Language categorization by adults is based on sensitivity to durational cues, not rhythm class.,(4), 665?679. https://doi.org/10.1016/j.jml.2011.12.010
Wilsch, A., Neuling, T., Obleser, J., & Herrmann, C. S. (2018). Transcranial alternating current stimulation with speech envelopes modulates speech comprehension.,, 766?774. https://doi.org/10.1016/j.neuroimage.2018. 01.038
Wu, C., Cao, S., Wu, X., & Li, L. (2013). Temporally pre-presented lipreading cues release speech from informational masking.,(4), 281?285. https://doi.org/10.1121/ 1.4794933
Zhang, W., & Ding, N. (2017). Time-domain analysis of neural tracking of hierarchical linguistic structures.,, 333?340. https://doi.org/10.1016/j.neuroimage.2016. 11.016
Zion-Golumbic, E., & Schroeder, C. E. (2012). Attention modulates 'speech-tracking' at a cocktail party.,(7), 363?364. https://doi.org/10. 1016/j.tics.2012.05.004
Zoefel, B., Archer-Boyd, A., & Davis, M. H. (2018). Phase entrainment of brain oscillations causally modulates neural responses to intelligible speech.,(3), 401?408. https://doi.org/10.1016/j.cub.2017.11.071
The role of rhythm in auditory speech understanding
CHEN Liangjie, LIU Lei, GE Zhongshu, YANG Xiaodong, LI Liang
(School of Psychological and Cognitive Sciences, Peking University, Beijing 100080, China)
Speech understanding is a mental process in which the listener receives external speech input and acquires meaning. In daily communication, speech comprehension is influenced by multi-scale rhythmic information, which usually includes the rhythm of prosodic structure, the rate of context, and the speaker's body language. They alter the listeners' phoneme discrimination, word perception, and speech intelligence in auditory speech understanding. Internal rhythms are neural oscillations in the brain, which can represent the hierarchical characteristics of external speech input at different time scales. The neural entrainment of external rhythmic stimulus and internal neural activity can optimize the brain's processing of speech stimulus and further enhance the internal representation of target speech by the top-down modulation of the listener's cognitive process. We think that it may be the key mechanism to build the interrelationship between internal and external rhythms and jointly affect speech understanding. The discovery of its mechanism can provide a window for the study of speech, which is a complex sequence with structural rules on multi-level time scales.
rhythm, speech understanding, neural oscillation, neural entrainment, top-down modulation
2021-07-07
* 國家自然科學(xué)基金面上項目(項目批準號:31771252, 32071057)支持。
李量, E-mail: liangli@pku.edu.cn
B842