羅霄驍 康冠蘭 周曉林,2,3,4
?
McGurk效應(yīng)的影響因素與神經(jīng)基礎(chǔ)*
羅霄驍1康冠蘭1周曉林1,2,3,4
(1北京大學(xué)心理與認(rèn)知科學(xué)學(xué)院, 北京 100871) (2北京大學(xué)機(jī)器感知與智能教育部重點(diǎn)實(shí)驗(yàn)室, 北京 100871) (3北京大學(xué)IDG麥戈文腦科學(xué)研究所, 北京 100871) (4浙江師范大學(xué)心理與腦科學(xué)研究院, 金華 321004)
McGurk效應(yīng)(麥格克效應(yīng))是典型的視聽整合現(xiàn)象, 該效應(yīng)受到刺激的物理特征、注意分配、個(gè)體視聽信息依賴程度、視聽整合能力、語言文化差異的影響。引發(fā)McGurk效應(yīng)的關(guān)鍵視覺信息主要來自說話者的嘴部區(qū)域。產(chǎn)生McGurk效應(yīng)的認(rèn)知過程包含早期的視聽整合(與顳上皮層有關(guān))以及晚期的視聽不一致沖突(與額下皮層有關(guān))。未來研究應(yīng)關(guān)注面孔社會(huì)信息對(duì)McGurk效應(yīng)的影響, McGurk效應(yīng)中單通道信息加工與視聽整合的關(guān)系, 結(jié)合計(jì)算模型探討其認(rèn)知神經(jīng)機(jī)制等。
McGurk效應(yīng); 視聽言語感知; 視聽整合; 多感覺整合
多感覺整合(multisensory integration)是將不同感覺通道輸入的信息有效合并為統(tǒng)一、連貫、穩(wěn)定的知覺的過程(Stein & Stanford, 2008; 文小輝, 李國強(qiáng), 劉強(qiáng), 2011; 文小輝等, 2009)。視聽言語感知(audiovisual speech perception)是一種典型的多感覺整合過程——在與他人面對(duì)面交流時(shí), 個(gè)體會(huì)整合視覺信息和聽覺信息進(jìn)行言語理解, 也即視聽整合(audiovisual integration)。其中, “視覺信息”指的是說話人的口唇發(fā)音動(dòng)作、面部肌肉活動(dòng)及表情等。個(gè)體可以利用這些信息形成連續(xù)的視知覺, 并與頭腦中儲(chǔ)存的詞語表象相比較和聯(lián)系, 進(jìn)而理解說話者表達(dá)的內(nèi)容。該過程也稱為“唇讀” (lipreading) (Summerfield, 1992; 樸永馨, 2006; 徐誠, 2013)。例如:聽力障礙者主要依賴視覺信息進(jìn)行言語感知(雷江華, 方俊明, 2005)?!奥犛X信息”指的是說話人的語音信息。對(duì)聽力正常者 而言, 聽覺信息在言語感知中起主導(dǎo)作用, 視覺信息是輔助信息。即使如此, 視覺信息對(duì)言語感知的影響仍然存在, 例如同時(shí)呈現(xiàn)聽覺信息和相應(yīng)的視覺信息時(shí), 言語感知準(zhǔn)確率比單獨(dú)呈現(xiàn)聽覺信息時(shí)高(Ross, Saint-Amour, Leavitt, Javitt, & Foxe, 2007)——這體現(xiàn)了視聽整合的益處。
McGurk效應(yīng)(McGurk effect / McGurk illusion) (McGurk & MacDonald, 1976)是一種典型的視聽整合現(xiàn)象, 指的是當(dāng)特定發(fā)音的視覺刺激與特定發(fā)音的聽覺刺激同時(shí)呈現(xiàn)時(shí), 個(gè)體可能產(chǎn)生新感知的現(xiàn)象(例如:說話者說“ga”的視頻和說“ba”的音頻同時(shí)呈現(xiàn), 聽話者可能會(huì)感知到另一個(gè)音節(jié)“da”), 這反映了視覺信息對(duì)聽覺感知的影響。一般認(rèn)為, 發(fā)生了McGurk效應(yīng)即發(fā)生了視聽整合, 所以McGurk效應(yīng)發(fā)生率可以作為視聽整合強(qiáng)弱的指標(biāo)(Fernández, Macaluso, & Soto-Faraco, 2017; Marques, Lapenta, Costa, & Boggio, 2016; Tiippana, 2014)。
McGurk效應(yīng)一直是視聽言語感知研究中的熱點(diǎn)問題。自McGurk和MacDonald (1976)發(fā)表該效應(yīng), 到2016年40年間, 原文已經(jīng)被引用近5000次(Alsius, Paré, & Munhall, 2018; MacDonald, 2018)。即使如此, 目前仍然缺乏全面、系統(tǒng)的McGurk效應(yīng)綜述。Marques等人(2016)的綜述主要關(guān)注McGurk效應(yīng)的研究對(duì)理解視聽整合過程的啟示, 尤其是如何用視聽整合的理論模型來解釋McGurk效應(yīng), 以及McGurk效應(yīng)在特殊人群言語感知研究中的應(yīng)用。但該綜述集中于視聽整合問題, 對(duì)McGurk效應(yīng)本身關(guān)注不足。例如:沒有關(guān)注McGurk效應(yīng)的測(cè)量和界定; 對(duì)McGurk效應(yīng)的影響因素討論較少(文中只涉及了外界物理刺激的影響); 沒有關(guān)注McGurk效應(yīng)中可能存在的視聽不一致沖突問題等。Alsius等人(2018)的綜述主要關(guān)注McGurk效應(yīng)作為視聽言語感知過程的研究工具有哪些局限性以及需要注意的問題, 尤其是影響McGurk效應(yīng)發(fā)生率的因素以及McGurk刺激與視聽一致刺激的差異。但該綜述的主要目的在于反思當(dāng)前研究使用McGurk范式的合理性, 沒有涉及神經(jīng)基礎(chǔ)問題; 且其對(duì)McGurk效應(yīng)的影響因素的闡述系統(tǒng)性不足。MacDonald (2018)的綜述回顧了40年前McGurk效應(yīng)的發(fā)現(xiàn)過程以及作者的心路歷程, 是對(duì)歷史事件的回顧, 沒有關(guān)注McGurk效應(yīng)的最新研究進(jìn)展。
本文嘗試對(duì)McGurk效應(yīng)進(jìn)行全面、系統(tǒng)的綜述。首先探討McGurk效應(yīng)的測(cè)量與界定問題。再從個(gè)體內(nèi)變異和個(gè)體間變異的角度出發(fā), 闡述影響McGurk效應(yīng)的相關(guān)因素。進(jìn)一步從眼動(dòng)模式、動(dòng)態(tài)神經(jīng)加工過程、相關(guān)腦區(qū)三個(gè)方面, 闡述McGurk效應(yīng)的認(rèn)知神經(jīng)基礎(chǔ)。最后提出未來研究展望以及需要注意的問題。
已有研究一般采用“McGurk效應(yīng)發(fā)生率”作為評(píng)價(jià)McGurk效應(yīng)強(qiáng)弱(多少)的指標(biāo)——使用McGurk刺激實(shí)施多次測(cè)量后, 計(jì)算其中發(fā)生McGurk效應(yīng)的次數(shù)比例(在測(cè)量的過程中需要加入視聽一致刺激或視聽不一致但不會(huì)誘發(fā)McGurk效應(yīng)的刺激作為填充試次)。研究中最常用的McGurk刺激是視覺“ga”加聽覺“ba”的視聽組合, 發(fā)生McGurk效應(yīng)時(shí)可能感知到“da” (Beauchamp, Nath, & Pasalar, 2010; Fernández et al., 2017; Nath & Beauchamp, 2012)。除此之外, 視覺“ka”加聽覺“pa”可能感知到“ta” (Gurler, Doyle, Walker, Magnotti, & Beauchamp, 2015)。另一方面, 也有研究在元音上采用“i”等其他搭配, 例如視覺“gi”加聽覺“bi”可能感知到“di” (Colin, Radeau, Soquet, Demolin, Colin, & Deltenre, 2002)。也有研究在輔音之前添加元音, 例如視覺“aga”加聽覺“aba”可能感知到“ada” (Bertelson, Vroomen, & de Gelder, 2003; Buchan & Munhall, 2012)。還有研究會(huì)重復(fù)兩次音節(jié), 例如視覺“gaga”加聽覺“baba”可能感知到“dada” (Mallick, Magnotti, & Beauchamp, 2015; McGurk & MacDonald, 1976)。雖然McGurk刺激有很多種, 但是其核心都是特定視覺輔音和聽覺輔音的組合, 使個(gè)體感知到的聽覺刺激發(fā)生改變。
為什么只有特定的視聽信息組合才會(huì)產(chǎn)生McGurk效應(yīng), 而其他組合則不會(huì)?分層預(yù)測(cè)編碼模型(hierarchical predictive coding model, Olasagasti, Bouton, & Giraud, 2015)給出了解釋。該模型考慮到視覺和聽覺信息的動(dòng)態(tài)交互過程, 建立了視覺信息(唇形, lip aperture)和聽覺信息(第二共振峰, second formant)在物理維度上的動(dòng)態(tài)變化二維空間, 以探究不同感覺通道對(duì)輸入的感知信息進(jìn)行預(yù)測(cè)和判斷的動(dòng)態(tài)變化過程。在典型的McGurk效應(yīng)中, 視覺“ga”和聽覺“ba”的視聽不一致輸入與視覺“da”和聽覺“da”的視聽一致輸入在上述二維空間中的坐標(biāo)非常接近, 所以這種情況下的視聽不一致并不會(huì)造成很強(qiáng)的跨通道沖突, 而可能會(huì)更接近“da”的表征。但如果反過來, 對(duì)于視覺“ba”和聽覺“ga”的不一致輸入, 其坐標(biāo)與其他視聽一致音節(jié)的坐標(biāo)都不接近, 因此, 這種視聽不一致信息輸入會(huì)造成較強(qiáng)跨通道沖突, 無法融合。所以, 融合的發(fā)生可能是因?yàn)橐暵牪灰恢麓碳さ囊暵犕ǖ辣碚髟诙S動(dòng)態(tài)編碼空間中非常接近某個(gè)視聽一致刺激的表征, 大腦就更容易預(yù)期當(dāng)前刺激是視聽一致的, 進(jìn)而表征出在二維空間中坐標(biāo)接近的視聽一致感知。
關(guān)于McGurk效應(yīng)的界定, 即“被試的什么反應(yīng)可以算作發(fā)生了McGurk效應(yīng)”, 不同的研究之間存在一定差異。部分研究的界定比較嚴(yán)格——只有個(gè)體感知到了特定的融合音節(jié)(例如在呈現(xiàn)視覺“ga”和聽覺“ba”時(shí)感知到“da”), 才能算是發(fā)生了McGurk效應(yīng)(Colin et al., 2002; Rosenblum, Schmuckler, & Johnson, 1997)。但是這種界定方式忽略了很多其他情況(例如:依據(jù)該界定, 如果被試報(bào)告感知到“tha”“ga”等其他音節(jié), 就不能算作發(fā)生了McGurk效應(yīng))。所以, 另一部分研究采用的是自由度更高的界定——只要被試報(bào)告不同于實(shí)際聽覺刺激的感知, 都算是發(fā)生了McGurk效應(yīng)(Gurler et al., 2015; Mallick et al., 2015; Wilson, Alsius, Paré, & Munhall, 2016)。這種定義更符合“McGurk效應(yīng)反映了視覺信息對(duì)聽覺感知的影響”這一觀點(diǎn)。目前, 多數(shù)研究者傾向于采取后者這種高自由度的界定, 以納入所有視聽信息交互的情況(Alsius et al., 2018; Tiippana, 2014)。本文中涉及的研究多數(shù)是后一種界定。
McGurk效應(yīng)的個(gè)體內(nèi)變異是指對(duì)同一個(gè)體而言, 其McGurk效應(yīng)發(fā)生率由于受到某些因素的影響而發(fā)生改變的現(xiàn)象(即在被試內(nèi)設(shè)計(jì)中, 不同實(shí)驗(yàn)條件之間的McGurk效應(yīng)發(fā)生率改變)。造成McGurk效應(yīng)個(gè)體內(nèi)變異的因素主要有物理刺激(例如:視覺、聽覺刺激及其同步性等自下而上的外部因素)和認(rèn)知因素(例如:注意分配、心理預(yù)期等自上而下的內(nèi)部因素)。
3.1.1 物理刺激因素
視覺刺激變化可能影響個(gè)體對(duì)視覺信息的加工效果(即影響唇讀過程), 進(jìn)而造成McGurk效應(yīng)的個(gè)體內(nèi)變異。視覺信息呈現(xiàn)的質(zhì)量越好(越清晰、越完整), 越容易發(fā)生McGurk效應(yīng); 而破壞視覺信息的呈現(xiàn)會(huì)降低其對(duì)聽覺感知的影響, 即減少M(fèi)cGurk效應(yīng)。研究者通過降低視頻分辨率(Wilson et al., 2016)、對(duì)視頻進(jìn)行馬賽克轉(zhuǎn)換(MacDonald, Andersen, & Bachmann, 2000)、對(duì)視頻進(jìn)行空間像素化處理(Thomas & Jordan, 2002)等技術(shù)手段來降低視頻的清晰程度。結(jié)果均表明, McGurk效應(yīng)隨視頻清晰度的降低而減少。也有研究將視頻切分后只呈現(xiàn)其中一部分(Jordan & Thomas, 2011; Ujiie, Asai, & Wakabayashi, 2015)、或是用光點(diǎn)來呈現(xiàn)說話者的面部運(yùn)動(dòng)信息(損失了很多原有面部運(yùn)動(dòng)信息) (Jordan, McCotter, & Thomas, 2000), McGurk效應(yīng)(相比于呈現(xiàn)完整的面部視頻)也會(huì)減少。還有研究在10米或20米之外呈現(xiàn)視頻(距離越遠(yuǎn)視頻越看不清), McGurk效應(yīng)會(huì)隨距離增加而減少(Jordan & Sergeant, 2000)。此外, 將視頻里的面孔倒置(人們對(duì)倒置的面孔加工更困難) (Thomas & Jordan, 2002), 或是將正立面孔的嘴部倒置(這種奇怪的面孔也會(huì)增加人們對(duì)面孔的加工難度), McGurk效應(yīng)也會(huì)減少(Rosenblum, Yakel, & Green, 2000; Ujiie, Asai, & Wakabayashi, 2018)。近來還有研究發(fā)現(xiàn), 降低視頻的播放速度(這可能破壞原本流暢的視覺信息)也會(huì)減少M(fèi)cGurk效應(yīng)(Magnotti, Mallick, & Beauchamp, 2018)。
雖然視覺信息的呈現(xiàn)質(zhì)量對(duì)McGurk效應(yīng)影響較大, 但通過破壞視覺信息很難完全消除McGurk效應(yīng)。只要仍有少量有效的視覺信息線索, 效應(yīng)都還會(huì)發(fā)生。即McGurk效應(yīng)較為穩(wěn)定、不易消除。研究表明, 即使呈現(xiàn)馬賽克程度最高的視覺信息(MacDonald et al., 2000), 或是將面部距離增加到20米之遠(yuǎn)(Jordan & Sergeant, 2000), 甚至將視頻的嘴部區(qū)域刪除(Jordan & Thomas, 2011), McGurk效應(yīng)仍會(huì)發(fā)生。
不過, 如果視覺信息沒有被意識(shí)覺察(閾下呈現(xiàn)), 就不會(huì)發(fā)生McGurk效應(yīng)。即對(duì)于McGurk效應(yīng)而言, 閾下視覺加工不足以引發(fā)視聽整合(Munhall, ten Hove, Brammer, & Paré, 2009), 視覺信息需要被意識(shí)覺察才可能引起McGurk效應(yīng)。有研究使用連續(xù)閃爍抑制范式(continuous flashing suppression, CFS, Fang & He, 2005; Tsuchiya & Koch, 2005)將McGurk刺激的視覺信息呈現(xiàn)在閾下。結(jié)果表明, 在CFS條件下, McGurk效應(yīng)消失了(Palmer & Ramsey, 2012)。還有研究設(shè)計(jì)了一種動(dòng)態(tài)雙歧圖的McGurk刺激呈現(xiàn)方法(一個(gè)花瓶的邊緣構(gòu)成兩個(gè)面對(duì)面的側(cè)臉?;ㄆ吭谛D(zhuǎn), 其邊緣構(gòu)成的側(cè)臉在旋轉(zhuǎn)過程中呈現(xiàn)出嘴型的變化。被試對(duì)該動(dòng)態(tài)雙歧圖的感知會(huì)在“側(cè)臉”和“花瓶”之間變化)。如果McGurk效應(yīng)的發(fā)生無需意識(shí)覺察視覺信息, 那么無論個(gè)體對(duì)雙歧圖的感知如何, 都應(yīng)該會(huì)發(fā)生McGurk效應(yīng)。但如果McGurk效應(yīng)的發(fā)生需要意識(shí)覺察視覺信息, 則只有在個(gè)體對(duì)雙歧圖的感知是“側(cè)臉”時(shí), 才會(huì)發(fā)生McGurk效應(yīng)(當(dāng)感知為“花瓶”時(shí), 不會(huì)發(fā)生McGurk效應(yīng))。實(shí)驗(yàn)結(jié)果也支持了后一個(gè)推論(Munhall et al., 2009)。
當(dāng)然, 有的視覺信息對(duì)McGurk效應(yīng)影響不大。McGurk效應(yīng)只對(duì)視覺言語信息(相關(guān)面部肌肉的運(yùn)動(dòng))敏感, 只要不影響視覺言語信息的呈現(xiàn)效果, 就不會(huì)影響McGurk效應(yīng)。例如:有研究表明, 無論將視覺刺激用彩色呈現(xiàn)還是用黑白呈現(xiàn), 其McGurk效應(yīng)發(fā)生率都沒有差異(Jordan et al., 2000)。
相比于視覺信息, 改變聽覺信息影響McGurk效應(yīng)的研究很少。這可能是因?yàn)镸cGurk效應(yīng)本身就是“對(duì)聽覺信息的感知受到視覺信息的影響而發(fā)生變化”, 如果改變聽覺刺激, 就難以區(qū)分聽覺感知發(fā)生的變化究竟是來自視覺信息的影響, 還是來自聽覺信息本身改變的影響。不過, 仍有研究者從聽覺刺激的角度揭示了McGurk效應(yīng)的穩(wěn)定性——音調(diào)、音高等因素對(duì)McGurk效應(yīng)的影響不大。他們比較了正常說出音節(jié)和唱出音節(jié)(用升調(diào)、降調(diào)兩種唱法)對(duì)McGurk效應(yīng)的影響, 結(jié)果表明在“唱出”和“說出”兩種條件下的McGurk效應(yīng)發(fā)生率沒有顯著差異(Quinto, Thompson, Russo, & Trehub, 2010)。
還有研究者針對(duì)聽覺信息的呈現(xiàn)來拓展McGurk效應(yīng)的研究范式。他們?cè)谝曈X刺激不變的情況下, 改變聽覺刺激的呈現(xiàn)條件。即視覺刺激總是“ba”, 而聽覺刺激可能是“ba”(與視覺信息一致), 也可能是一種聽起來像“a”的音頻(將“ba”的輔音信息減弱)。如此一來, 后者的刺激組合也會(huì)誘發(fā)被試報(bào)告聽到了“ba” (但實(shí)際的聽覺刺激是“a”), 即視覺言語信息對(duì)聽覺感知形成了“補(bǔ)充”。這與經(jīng)典McGurk效應(yīng)類似(Irwin, Avery, Brancazio, Turcios, Ryherd, & Landi, 2018)。該范式可以歸為McGurk范式的一種變式——經(jīng)典McGurk效應(yīng)關(guān)注的是聽覺信息不變, 改變視覺信息可能改變個(gè)體的聽覺感知; 而該變式關(guān)注的是視覺信息不變, 改變聽覺信息后, 視覺信息會(huì)對(duì)聽覺感知進(jìn)行補(bǔ)充, 也體現(xiàn)了視覺信息影響聽覺感知。未來研究可以嘗試將該范式與傳統(tǒng)的McGurk范式進(jìn)行比較, 驗(yàn)證二者是否有類似的機(jī)制(例如兩種范式的效應(yīng)發(fā)生率是否相似?是否激活了相似的視聽整合相關(guān)腦區(qū)?), 可考慮將該變式作為另一個(gè)視聽整合的指標(biāo)。
最后, 視覺和聽覺刺激呈現(xiàn)的同步性也可能造成McGurk效應(yīng)的個(gè)體內(nèi)變異。在視聽整合研究中, 視覺和聽覺刺激不一定要精確地同步呈現(xiàn)才會(huì)引起視聽整合, 在一定時(shí)間窗內(nèi)的視聽刺激異步對(duì)視聽整合影響不大(Munhall, Gribble, Sacco, & Ward, 1996; Stevenson, Zemtsov, & Wallace, 2012)。McGurk效應(yīng)也不例外。研究發(fā)現(xiàn), 只要聽覺刺激(相比于視覺刺激)呈現(xiàn)的延遲在–360~ 360 ms的時(shí)間窗內(nèi), 都會(huì)產(chǎn)生McGurk效應(yīng)。當(dāng)然, 同步性的降低同時(shí)也會(huì)導(dǎo)致McGurk效應(yīng)減少(Munhall et al., 1996)。此外, 即使被試能夠感知到視聽信息呈現(xiàn)的不同步, 也仍然可能產(chǎn)生McGurk效應(yīng)(Soto-Faraco & Alsius, 2009), 這也體現(xiàn)了McGurk效應(yīng)的穩(wěn)定性。
總體而言, McGurk效應(yīng)一方面容易受到物理刺激因素影響而發(fā)生個(gè)體內(nèi)變異, 但另一方面又具有較強(qiáng)的穩(wěn)定性(不容易完全消失)。現(xiàn)有研究大都關(guān)注自下而上的物理刺激因素如何影響McGurk效應(yīng)(尤其關(guān)注視覺信息的影響), 也得出了較為一致的結(jié)論; 然而卻忽視了聽覺信息的作用。一個(gè)值得探究的問題是:當(dāng)聽覺信息的可靠性下降時(shí)(信噪比降低), McGurk效應(yīng)如何變化?這是實(shí)際生活中很常見的視聽言語感知情景(例如在嘈雜的環(huán)境中與別人聊天)。針對(duì)這一問題, 我們預(yù)期:由于聽覺信息可靠性降低, 個(gè)體對(duì)視覺信息的權(quán)重增加, 即視覺信息對(duì)聽覺感知的影響增加, 這可能引發(fā)更多McGurk效應(yīng)。
3.1.2 認(rèn)知因素
如上文所述, 物理刺激的改變對(duì)McGurk效應(yīng)的影響較大。但即使面對(duì)相同的物理刺激, 個(gè)體的認(rèn)知狀態(tài)不同, 也可能造成McGurk效應(yīng)發(fā)生率改變。而且, 相比于物理刺激這類自下而上的調(diào)節(jié)因素, 自上而下的認(rèn)知因素變化在實(shí)際生活中更常見(例如我們面對(duì)的常常是物理刺激相同的面孔, 但自身的認(rèn)知狀態(tài)容易發(fā)生改變)。然而這類研究并不多。已有研究主要圍繞注意分配進(jìn)行探討——當(dāng)個(gè)體分配給McGurk任務(wù)的注意減少時(shí), McGurk效應(yīng)就會(huì)減少。研究采用雙任務(wù)范式, 要求被試在進(jìn)行視聽判斷任務(wù)(McGurk任務(wù))的同時(shí)進(jìn)行一項(xiàng)無關(guān)的視覺或聽覺任務(wù)(這降低了被試分配在McGurk任務(wù)上的注意)。結(jié)果表明, McGurk效應(yīng)發(fā)生率在雙任務(wù)條件下比單任務(wù)條件低(Alsius, Navarra, Campbell, & Soto-Faraco, 2005)。進(jìn)一步研究還發(fā)現(xiàn), 如果被試同時(shí)進(jìn)行一項(xiàng)觸覺任務(wù)(不同于視覺、聽覺通道的第三個(gè)感覺通道), 則McGurk效應(yīng)發(fā)生率也會(huì)降低(Alsius, Navarra, & Soto-Faraco, 2007)。這提示注意分配對(duì)McGurk效應(yīng)的影響并不僅僅局限于視覺或聽覺通道, 而是受到一般性的注意分配的影響。另一項(xiàng)采用雙任務(wù)范式的研究讓被試同時(shí)進(jìn)行一項(xiàng)工作記憶任務(wù), 也發(fā)現(xiàn)了一致的結(jié)果(Buchan & Munhall, 2012)。還有研究在呈現(xiàn)面部視覺信息時(shí), 同時(shí)呈現(xiàn)一個(gè)分心刺激(一片葉子劃過面部)。當(dāng)要求被試忽略面部去注意分心刺激時(shí)(相比于要求被試忽略分心刺激去注意面部的情況), McGurk效應(yīng)的發(fā)生率更低(Tiippana, Andersen, & Sams, 2004)。
除了注意分配, 還有研究探討了預(yù)期對(duì)McGurk效應(yīng)的影響——如果明確告訴被試接下來呈現(xiàn)視聽一致刺激(但實(shí)際上仍會(huì)包含視聽不一致的McGurk刺激), 相比于告知被試視聽刺激可能不一致的情況, McGurk效應(yīng)的發(fā)生率更高(Gau & Noppeney, 2016)。即個(gè)體預(yù)期視聽一致會(huì)促進(jìn)McGurk效應(yīng)的發(fā)生。
綜上所述, 在McGurk效應(yīng)的個(gè)體內(nèi)變異研究中, 研究者更多關(guān)注自下而上的物理刺激因素對(duì)McGurk效應(yīng)的影響, 但對(duì)自上而下的認(rèn)知相關(guān)因素關(guān)注較少。雖然已有研究探討注意分配和預(yù)期如何影響McGurk效應(yīng), 但這一方向仍有較大的發(fā)展空間。未來可以考慮探究其它自上而下的認(rèn)知因素, 例如個(gè)體的情緒狀態(tài)對(duì)McGurk效應(yīng)的影響——在不同的情緒狀態(tài)下, 個(gè)體的視聽整合或許會(huì)發(fā)生變化, 這也更貼近日常視聽言語感知情景。
另一個(gè)生活中常見但卻研究較少的問題是:面孔本身的社會(huì)屬性如何影響視聽言語感知。我們常常與不同的人交流, 而不同人的面孔具有不同的社會(huì)屬性(面孔情緒、吸引力、重要性、熟悉度等), 這與視覺言語信息加工可能發(fā)生交互, 進(jìn)而影響言語感知。有研究探討了面孔熟悉度、以及聲音面孔是否匹配對(duì)McGurk效應(yīng)的影響, 結(jié)果表明, 當(dāng)聲音與面孔不匹配時(shí), 對(duì)面孔熟悉的被試感知到更少的McGurk效應(yīng) (Walker, Bruce, & O'Malley, 1995)。另一項(xiàng)研究發(fā)現(xiàn), 如果將不同情緒的聲音和面部一起呈現(xiàn), 要求被試判斷聲音的情緒, 那么被試的判斷會(huì)受到面部情緒的影響而產(chǎn)生偏差。而且當(dāng)對(duì)聽覺信息的性別進(jìn)行判斷時(shí), 被試也會(huì)受到視覺信息性別的影響(de Gelder & Vroomen, 2000)。所以, 我們有理由推測(cè), 在McGurk效應(yīng)中, 即使不改變視覺信息的物理特性, 面孔本身就具有的社會(huì)屬性也可能影響聽覺感知, 這值得進(jìn)一步研究。最近, 我們嘗試探究了與獎(jiǎng)賞聯(lián)結(jié)的面孔如何影響McGurk效應(yīng)。結(jié)果表明, 相比于沒有與獎(jiǎng)賞聯(lián)結(jié)的面孔, 與獎(jiǎng)賞聯(lián)結(jié)的面孔McGurk效應(yīng)發(fā)生率更高。
McGurk效應(yīng)的個(gè)體間變異(即個(gè)體差異)指的是在同樣的測(cè)量條件下, 不同個(gè)體的McGurk效應(yīng)發(fā)生率仍會(huì)有差異的現(xiàn)象(即在被試間設(shè)計(jì)中, 不同組別之間的McGurk效應(yīng)差異)。研究表明, 雖然McGurk效應(yīng)在不同測(cè)量條件下可能發(fā)生個(gè)體內(nèi)變異, 但如果測(cè)試條件相同, McGurk效應(yīng)發(fā)生率在個(gè)體內(nèi)是較穩(wěn)定的。對(duì)同一批被試間隔1年的兩次同等條件測(cè)量的皮爾遜相關(guān)為0.91 (Mallick et al., 2015); 另一項(xiàng)間隔2個(gè)月的測(cè)量相關(guān)為0.77(Strand, Cooperman, Rowe, & Simenstad, 2014)。但是, McGurk效應(yīng)在不同個(gè)體間就沒那么穩(wěn)定了。Mallick等人(2015)測(cè)試了165名被試, 結(jié)果表明不同個(gè)體的McGurk效應(yīng)發(fā)生率有很大差異(從0%到100%)。所以在進(jìn)行組間比較時(shí), 研究者應(yīng)謹(jǐn)慎分析組間差異的來源。下文將闡述三個(gè)可能與McGurk效應(yīng)個(gè)體間變異相關(guān)的因素:對(duì)視聽信息的依賴程度差異、視聽整合能力及其發(fā)展差異、語言文化差異。
3.2.1 對(duì)視聽信息的依賴程度差異
McGurk效應(yīng)的個(gè)體差異可能來自個(gè)體對(duì)視覺或聽覺信息的依賴程度差異——對(duì)視覺信息依賴程度高的個(gè)體更容易受到視覺信息的影響, 進(jìn)而發(fā)生更多McGurk效應(yīng); 而對(duì)聽覺信息依賴程度高的個(gè)體則更不易受到視覺信息影響, McGurk效應(yīng)也更少。研究發(fā)現(xiàn), 高水平音樂家(8~13年專業(yè)音樂訓(xùn)練)相比于沒有音樂訓(xùn)練的普通人McGurk效應(yīng)發(fā)生率更低, 這可能是因?yàn)橐魳芳彝ㄟ^長(zhǎng)期訓(xùn)練培養(yǎng)了出色的聽覺能力使其更傾向于使用聽覺信息(Proverbio, Massetti, Rizzi, & Zani, 2016)。另一項(xiàng)研究表明, 相比于雙眼進(jìn)行McGurk任務(wù)的被試, 閉上一只眼睛進(jìn)行任務(wù)的被試McGurk效應(yīng)發(fā)生率更低(Moro & Steeves, 2018), 這可能是因?yàn)橐曈X通道部分受阻之后, 個(gè)體對(duì)聽覺通道的依賴程度增加。還有研究發(fā)現(xiàn), 在視聽言語感知任務(wù)中, 老年人更容易受到視覺信息的影響(即老年人的McGurk效應(yīng)發(fā)生率比年輕人高), 這可能是因?yàn)殡S著年齡的增長(zhǎng), 老年人的聽覺機(jī)能退化得比視覺快, 進(jìn)而對(duì)視覺信息的依賴增強(qiáng)(Sekiyama, Soshi, & Sakamoto, 2014)。
對(duì)特殊人群(高自閉特質(zhì)者、聽力受損者、視力受損者)的McGurk效應(yīng)研究也支持上述觀點(diǎn)(即對(duì)視聽信息的依賴程度差異可能造成McGurk效應(yīng)的個(gè)體間變異)。研究發(fā)現(xiàn), 自閉癥譜系障礙(autism spectrum disorder, ASD)的兒童在面孔記憶任務(wù)上表現(xiàn)更差, 在視聽言語感知任務(wù)中也更少受到視覺信息的影響, 即McGurk效應(yīng)發(fā)生率比正常兒童低(de Gelder, Vroomen, & van der Heide, 1991)。這可能是因?yàn)锳SD兒童加工面部整體信息的能力較低, 無法有效利用視覺信息(即對(duì)視覺信息依賴程度低)。也有研究測(cè)量了被試的自閉癥譜系商數(shù)(autism spectrum quotient, AQ), 結(jié)果表明, 高AQ者的McGurk效應(yīng)比低AQ者少(Ujiie et al., 2018), 并且AQ得分與McGurk效應(yīng)發(fā)生率負(fù)相關(guān)(Ujiie et al., 2015), 即自閉特質(zhì)越高, McGurk效應(yīng)發(fā)生率越低, 這也與上述de Gelder等人(1991)的結(jié)論一致。另一方面, 聽力受損者(有人工耳蝸植入或配備有助聽器)和聽力正常者一樣會(huì)發(fā)生McGurk效應(yīng), 但是聽力受損者對(duì)視覺信息的依賴程度更高, McGurk效應(yīng)發(fā)生率也更高(Rouger, Fraysse, Deguine, & Barone, 2008)。這一結(jié)果在聽力受損兒童中得到了重復(fù)(石涯, 王永華, 李文靖, 2016)。此外, 聽力受損者的McGurk效應(yīng)會(huì)受到手語的影響:如果手語和唇形一致(但與聲音不一致), 則他們更容易報(bào)告聽到視覺信息的音節(jié)(手語或唇形), 這提示他們?cè)谝暵牳兄蟹浅R蕾囈曈X信息(Bayard, Colin, & Leybaert, 2014)。最后, 視力受損者(從小失去了一只眼睛)的McGurk效應(yīng)發(fā)生率低于單眼(或雙眼)進(jìn)行任務(wù)的視力正常者(Moro & Steeves, 2018), 這可能是因?yàn)橐暳κ軗p者更傾向于依賴聽覺信息。
總體而言, 不同人群之間的比較均體現(xiàn)了視聽信息依賴程度對(duì)McGurk效應(yīng)的影響。然而, 組間比較存在的問題是:除了視聽信息依賴程度的差異, McGurk效應(yīng)還可能受到其它人群間差異的影響。所以, 未來研究可考慮直接操縱影響視聽信息依賴程度的因素, 提供更完善的因果關(guān)系證據(jù)。例如:可以考慮將Moro和Steeves (2018)的研究修改為組內(nèi)設(shè)計(jì), 即比較同一組個(gè)體在單眼進(jìn)行任務(wù)和雙眼進(jìn)行任務(wù)時(shí)的McGurk效應(yīng)發(fā)生率。也可以考慮進(jìn)行縱向追蹤研究(例如:比較樂器學(xué)習(xí)者學(xué)習(xí)樂器前后的McGurk效應(yīng)差異)。
3.2.2 視聽整合能力及其發(fā)展差異
個(gè)體在分別接收視聽信息后對(duì)二者的整合(即視聽整合)能力的差異也可能與McGurk效應(yīng)的個(gè)體差異有關(guān)。整合能力較強(qiáng)者可能更容易發(fā)生McGurk效應(yīng)。相對(duì)的, 整合能力較弱者M(jìn)cGurk效應(yīng)更少。研究表明, 視聽整合時(shí)間窗的范圍大小存在個(gè)體間差異, 并在一定程度上反映了視聽整合能力(Stevenson et al., 2012)——個(gè)體整合時(shí)間窗邊界越靠右(即在仍能發(fā)生整合的情況下, 視覺刺激呈現(xiàn)后, 聽覺刺激呈現(xiàn)得越晚; 也即整合時(shí)間窗的范圍越大), 該個(gè)體發(fā)生McGurk效應(yīng)的可能性也越大(Stevenson et al., 2012), 即視聽整合能力越強(qiáng)的個(gè)體, 越容易發(fā)生McGurk效應(yīng)。
關(guān)于McGurk效應(yīng)的發(fā)展研究也支持上述觀點(diǎn)(即視聽整合能力差異是造成McGurk效應(yīng)個(gè)體間變異的因素之一)。研究表明, 12歲前兒童的McGurk效應(yīng)發(fā)生率比成人低(Hockley & Polka, 1994; McGurk & MacDonald, 1976), 這可能是因?yàn)閮和囊暵犝夏芰ι性诎l(fā)展中(較低), 而成人的視聽整合能力已經(jīng)發(fā)展成熟(較高)。不過, 即使是4~5個(gè)月大的還未學(xué)會(huì)說話的嬰兒就已經(jīng)會(huì)發(fā)生McGurk效應(yīng)(Burnham & Dodd, 2004; Rosenblum et al., 1997)。即嬰兒在學(xué)會(huì)說話前, 視聽整合能力就已經(jīng)開始發(fā)展, 而且大約12歲左右就能發(fā)展到成人水平。所以兒童與成人的McGurk效應(yīng)差異可能就是來自視聽整合能力的差異。
綜上所述, 個(gè)體整合能力越強(qiáng)、發(fā)展越完善, McGurk效應(yīng)就越強(qiáng)。然而, 大部分研究都以McGurk效應(yīng)本身作為視聽整合能力的指標(biāo), 很少有研究利用別的指標(biāo)測(cè)量視聽整合能力, 并與McGurk效應(yīng)的測(cè)量結(jié)果相比較。所以, 視聽整合能力與McGurk效應(yīng)的關(guān)系還需要進(jìn)一步探究。這樣一方面有助于確認(rèn)視聽整合能力差異是否確實(shí)是McGurk效應(yīng)個(gè)體間變異的來源, 另一方面有助于確認(rèn)利用McGurk范式探究視聽整合的有效性。值得注意的是, 最近有研究發(fā)現(xiàn):個(gè)體在噪聲中利用視覺信息輔助聽覺理解句子的能力(也常被視為視聽整合能力的指標(biāo))與個(gè)體的McGurk效應(yīng)發(fā)生率沒有顯著相關(guān)(Van Engen, Xie, & Chandrasekaran, 2017)。這進(jìn)一步警示我們, McGurk效應(yīng)發(fā)生率與視聽整合能力的關(guān)系需要更細(xì)致的探討。未來研究應(yīng)該采用更多指標(biāo)(例如上文提到的視聽整合時(shí)間窗大小、對(duì)視聽刺激的反應(yīng)時(shí)、以及其它視聽整合相關(guān)任務(wù)等)評(píng)價(jià)視聽整合能力, 并探究這些指標(biāo)與McGurk效應(yīng)的關(guān)系。
值得一提的是, 上述視聽整合能力的發(fā)展情況在漢語母語兒童中有不一致的結(jié)果。研究發(fā)現(xiàn)漢語母語的二年級(jí)、五年級(jí)小學(xué)生以及一年級(jí)大學(xué)生都表現(xiàn)出McGurk效應(yīng), 但這三類人之間的McGurk效應(yīng)發(fā)生率沒有差異, 即沒有表現(xiàn)出上述英語母語者的發(fā)展趨勢(shì)(李燕芳, 梅磊磊, 董奇, 2008)。后續(xù)研究發(fā)現(xiàn), 漢語母語兒童在視聽不一致、視聽一致、單獨(dú)聽覺條件下, 判斷聲音刺激的正確率沒有差異; 但是漢語母語大學(xué)生在視聽不一致條件下正確率低于單獨(dú)聽覺和視聽一致條件, 即成人更容易受視覺信息影響(李燕芳, 梅磊磊, 董奇, 2009)。這又與英語母語者的研究結(jié)果一致。這些研究體現(xiàn)出了語言文化差異與視聽整合能力發(fā)展的交互。下文將對(duì)語言文化差異的影響進(jìn)行詳細(xì)闡述。
3.2.3 語言文化差異
McGurk效應(yīng)是一種言語感知現(xiàn)象, 具有不同文化背景(使用不同母語)的人在McGurk效應(yīng)上可能存在差異, 即語言文化差異也是造成McGurk效應(yīng)個(gè)體間變異的因素之一。研究發(fā)現(xiàn)日語母語者的McGurk效應(yīng)發(fā)生率比英語母語者低(Hisanaga, Sekiyama, Igasaki, & Murayama, 2016; Sekiyama & Tohkura, 1993)。這可能是由于日語母語者相比于英語母語者更少受到面部視覺信息的影響。在日本文化中, 注視別人面部是不禮貌的, 所以日本人在面對(duì)面交流中更傾向于使用聽覺信息, 而不是視覺信息。后續(xù)研究還發(fā)現(xiàn)漢語母語者的McGurk效應(yīng)發(fā)生率也比英語母語者低(Sekiyama, 1997)。
不過, 也有研究者沒有發(fā)現(xiàn)漢語、英語母語者之間的McGurk效應(yīng)差異(Magnotti, Mallick, Feng, Zhou, Zhou, & Beauchamp, 2015)。他們認(rèn)為McGurk效應(yīng)本身就有較大的個(gè)體差異, 組間比較的樣本不宜太少, 于是采用較大樣本(307人)、較多McGurk刺激(9個(gè))進(jìn)行測(cè)量。結(jié)果表明McGurk效應(yīng)發(fā)生率在漢語、英語母語者人群內(nèi)部有較大的個(gè)體差異, 但在兩類人群之間整體而言沒有顯著差異。
除了McGurk效應(yīng)發(fā)生率的差異, 不同語言文化背景還可能影響個(gè)體在發(fā)生McGurk效應(yīng)時(shí)感知到的音節(jié)類型。研究發(fā)現(xiàn), 對(duì)于經(jīng)典的McGurk刺激(視覺“ga”聽覺“ba”), 英語母語者更多報(bào)告感知到“tha”, 而日語母語者更多報(bào)告感知到“da”。這可能與母語差異有關(guān)——日語中并沒有“th”的發(fā)音, 而英語日常生活中“tha”的發(fā)音多于“da”的發(fā)音(Burnham & Dodd, 2018)。
總體而言, 語言文化差異影響McGurk效應(yīng)發(fā)生率的研究結(jié)果不一致。其中獲得陽性結(jié)果的研究樣本量較小, 而大樣本研究沒有發(fā)現(xiàn)顯著差異??紤]到McGurk效應(yīng)發(fā)生率本身具有較大的個(gè)體差異, 所以語言文化因素究竟是不是McGurk效應(yīng)個(gè)體差異的來源, 仍舊存疑。一種解釋是:語言文化差異確實(shí)會(huì)對(duì)視聽言語感知產(chǎn)生影響(例如上文提到的音節(jié)感知類型差異), 只是對(duì)McGurk效應(yīng)發(fā)生率的影響不夠明顯。這可能是因?yàn)椴煌Z言文化背景者對(duì)McGurk刺激的加工趨于某個(gè)相似的“閾限”——有研究表明, 即使McGurk效應(yīng)沒有發(fā)生, 視覺信息也已經(jīng)對(duì)聽覺感知產(chǎn)生了影響(Brancazio & Miller, 2005)。所以McGurk效應(yīng)的發(fā)生可能是連續(xù)的過程, 視覺信息的影響需要達(dá)到一定程度才會(huì)產(chǎn)生效應(yīng)(即存在某個(gè)“閾限”)。在世界文化交融的當(dāng)今社會(huì), 各國大學(xué)生被試在視聽言語感知中對(duì)視覺信息的加工越來越相似, 即達(dá)到McGurk“閾限”的程度越來越相似, 故難以體現(xiàn)出文化差異。所以未來研究除了考慮擴(kuò)大樣本量之外, 還應(yīng)該選取更為典型的語言文化群體(而不是容易接觸到不同文化的大學(xué)生群體), 或許會(huì)有進(jìn)一步發(fā)現(xiàn)。
動(dòng)態(tài)人臉是一種包含很多信息的復(fù)雜刺激, 那么導(dǎo)致McGurk效應(yīng)發(fā)生的視覺信息究竟是人臉的什么信息?研究者們嘗試采用眼動(dòng)實(shí)驗(yàn)來探究此問題。目前的研究結(jié)果提示:引發(fā)McGurk效應(yīng)的視覺信息主要來自人臉的嘴部區(qū)域。但對(duì)嘴部的直接注視不是引起McGurk效應(yīng)的必要條件。除嘴部之外, 面部的其它區(qū)域同樣能提供少量但有效的視覺言語信息, 進(jìn)而引發(fā)McGurk效應(yīng)。
在言語感知中, 視覺言語信息主要來自嘴部區(qū)域的運(yùn)動(dòng)。所以引發(fā)McGurk效應(yīng)的視覺信息也主要來自嘴部區(qū)域。有研究探討了眼動(dòng)模式的個(gè)體差異與McGurk效應(yīng)個(gè)體差異的關(guān)系。結(jié)果表明, 容易產(chǎn)生McGurk效應(yīng)的個(gè)體看嘴部區(qū)域的時(shí)間更長(zhǎng), 且看嘴部區(qū)域的時(shí)間與McGurk效應(yīng)發(fā)生率正相關(guān)(Gurler et al., 2015)。類似的, 英語母語者的McGurk效應(yīng)發(fā)生率比日語母語者高, 而英語母語者看嘴部區(qū)域的時(shí)間也更長(zhǎng)(Hisanaga et al., 2016)。另一方面, 采用雙任務(wù)范式的研究發(fā)現(xiàn), 相比于單任務(wù)條件, 在雙任務(wù)條件下McGurk效應(yīng)發(fā)生率更低, 并且被試對(duì)視覺刺激的面部區(qū)域注視更少, 對(duì)嘴部區(qū)域的注視也更少(Buchan & Munhall, 2012)。
但是, 也有不一致的結(jié)果——研究發(fā)現(xiàn), 被試是否看嘴部區(qū)域與McGurk效應(yīng)的變化并沒有關(guān)系(Hisanaga et al., 2016; Paré, Richler, ten Hove, & Munhall, 2003; Wilson et al., 2016)。這提示對(duì)嘴部區(qū)域的中央視野加工對(duì)McGurk效應(yīng)的發(fā)生并不是必須的, 外周視野就能獲取足夠誘發(fā)McGurk效應(yīng)的嘴部視覺言語信息。例如:Paré等人(2003)進(jìn)行的一系列實(shí)驗(yàn)發(fā)現(xiàn), McGurk效應(yīng)的感知與個(gè)體注視點(diǎn)是否在嘴部區(qū)域沒有相關(guān)。他們還直接控制了個(gè)體的注視點(diǎn)位置, 結(jié)果表明, 只要個(gè)體的注視點(diǎn)還在面部區(qū)域內(nèi), 無論是注視嘴部、眼睛、還是額頭, 都不影響McGurk效應(yīng)發(fā)生率。只有當(dāng)個(gè)體注視點(diǎn)離開嘴部區(qū)域10°~20°時(shí), McGurk效應(yīng)才會(huì)顯著減少(但仍然存在), 只有離開嘴部區(qū)域60°以上, McGurk效應(yīng)才會(huì)完全消失。
考慮到上述不一致的研究結(jié)果, 嘴部區(qū)域注視時(shí)間與McGurk效應(yīng)發(fā)生率的關(guān)系還需要進(jìn)一步探究。已有研究結(jié)果不一致可能有兩個(gè)原因:(1)不同研究之間使用的研究范式或分析方法不同。例如:Buchan和Munhall (2012)比較的是雙任務(wù)和單任務(wù)條件下的人群內(nèi)差異; Gurler等人(2015)比較的是自由注視狀態(tài)下的人群間差異; Paré等人(2003)的研究不是自由注視(他們嘗試控制被試的注視位置), 并且記錄眼動(dòng)的方法與其他研究不同(使用粘附人眼角膜的感應(yīng)線圈, 而非其他研究常用的紅外捕捉技術(shù))。以上實(shí)驗(yàn)設(shè)計(jì)或操作上的差異都可能導(dǎo)致研究之間結(jié)果不同。(2)不同研究之間的興趣區(qū)劃分方法存在差異。例如Gurler等人(2015)以及Buchan和Munhall (2012)采用的是方形興趣區(qū), 而Wilson等人(2016)則采用圓形興趣區(qū), 這也可能影響注視時(shí)間的結(jié)果。
除了嘴部區(qū)域, 面部其它區(qū)域同樣能提供足以誘發(fā)McGurk效應(yīng)的視覺言語信息。研究發(fā)現(xiàn), 即使不呈現(xiàn)嘴部區(qū)域(將視頻沿對(duì)角線切分, 只呈現(xiàn)沒有嘴部的那一部分; 或?qū)⒁曨l沿水平中軸切分, 只呈現(xiàn)上半部分), McGurk效應(yīng)也不會(huì)完全消失(Jordan & Thomas, 2011)。在使用其它范式的視聽整合研究中也發(fā)現(xiàn)了類似的效應(yīng)——即使消除嘴部運(yùn)動(dòng)信息(只留下面部其它區(qū)域的運(yùn)動(dòng)信息), 視聽整合仍然會(huì)發(fā)生(Thomas & Jordan, 2004)。遺憾的是, 這些研究均沒有采用眼動(dòng)技術(shù)。而在其它采用眼動(dòng)技術(shù)的McGurk效應(yīng)研究中, 研究者都只關(guān)注了嘴部以及眼睛區(qū)域, 忽略了面部其它區(qū)域。所以未來研究除了關(guān)注嘴部區(qū)域, 還應(yīng)該比較面部其它區(qū)域的眼動(dòng)差異(例如鼻子、臉頰等嘴部周邊區(qū)域。即在保證興趣區(qū)大小基本一致的前提下, 盡量讓所有興趣區(qū)覆蓋整個(gè)面部區(qū)域)。這可能為我們進(jìn)一步理解McGurk效應(yīng)提供證據(jù)。例如:我們最近的一項(xiàng)研究表明, 與獎(jiǎng)賞聯(lián)結(jié)的面孔(相比于未與獎(jiǎng)賞聯(lián)結(jié)的面孔)發(fā)生更多McGurk效應(yīng), 且被試對(duì)其嘴部周邊區(qū)域(鼻子、臉頰)的注視時(shí)間更長(zhǎng)、注視點(diǎn)個(gè)數(shù)更多; 但對(duì)嘴部區(qū)域的注視時(shí)間卻反而更短、注視點(diǎn)個(gè)數(shù)更少。該結(jié)果也支持了上文提到的推論(面部其它區(qū)域也能提供有效的視覺言語信息; 而對(duì)嘴部區(qū)域的注視不是發(fā)生McGurk效應(yīng)的必要條件)。
大腦接收了視聽信息的輸入之后, 開始對(duì)其進(jìn)行整合加工。此時(shí)涉及的問題是:大腦在接收刺激后的不同階段里如何加工視聽刺激, 進(jìn)而產(chǎn)生McGurk效應(yīng)?研究者們嘗試用具有較高時(shí)間分辨率的腦電技術(shù)(electroencephalogram, EEG)或是腦磁圖技術(shù)(magnetoencephalography, MEG)回答該問題。目前的研究結(jié)果提示:對(duì)視聽信息的整合發(fā)生在加工早期階段; 而在加工晚期階段, 大腦會(huì)嘗試解決McGurk刺激的視聽不一致沖突。
發(fā)生McGurk效應(yīng)時(shí), 視聽整合過程在加工早期就已經(jīng)發(fā)生。研究發(fā)現(xiàn), 對(duì)于McGurk刺激而言, 當(dāng)發(fā)生McGurk效應(yīng)時(shí), N1波幅相比于視聽一致刺激更小; 而且相比于沒有發(fā)生McGurk效應(yīng)的McGurk刺激也更小(Romero, Senkowski, & Keil, 2015)。N1主要由聽覺刺激造成。相比于單獨(dú)聽覺刺激, 視聽刺激引發(fā)的N1波幅更小, 這可能反映了視聽整合過程中視覺信息利用率的增加(Besle, Fort, Delpuech, & Giard, 2004)。所以, 發(fā)生McGurk效應(yīng)時(shí)的N1波幅降低可能提示了此時(shí)視覺信息對(duì)聽覺信息的影響更明顯。而且N1是事件相關(guān)電位(event related potential, ERP)的第一個(gè)負(fù)波, 這也提示這種影響發(fā)生在加工早期階段。神經(jīng)振蕩結(jié)果也表明, 當(dāng)McGurk效應(yīng)發(fā)生時(shí), Beta頻段的抑制相比于視聽一致的刺激在加工早期(0~500 ms)更強(qiáng) (Romero et al., 2015)。這與上述N1結(jié)果類似, 提示了McGurk效應(yīng)的發(fā)生(相比于視聽一致的情況)需要更強(qiáng)的視聽整合, 而且這種整合在加工早期就已經(jīng)發(fā)生。
采用oddball范式進(jìn)行的研究也支持McGurk效應(yīng)中的視聽整合過程發(fā)生在加工早期的觀點(diǎn)。這類研究將視聽一致刺激作為標(biāo)準(zhǔn)刺激, McGurk刺激作為偏差刺激, 比較McGurk刺激和視聽一致刺激的ERP。結(jié)果表明, 在早期加工階段(聽覺刺激呈現(xiàn)后200~300 ms), McGurk刺激會(huì)誘發(fā)失匹配負(fù)波(mismatch negativity, MMN) (Saint- Amour, De Sanctis, Molholma, Ritter, & Foxe, 2007)。MMN反映了對(duì)出現(xiàn)頻率較低的新異聽覺刺激的探知; 反映了大腦將當(dāng)前聽覺刺激與之前的一系列聽覺刺激進(jìn)行比較的加工過程。當(dāng)聽覺感知改變時(shí), 就會(huì)產(chǎn)生MMN。因此, MMN可以作為聽覺辨別能力的電生理指標(biāo)。MMN常由聽覺刺激的物理屬性改變而誘發(fā)。不過, 對(duì)McGurk刺激而言, 聽覺刺激的物理屬性沒有發(fā)生變化, 但主觀感知變化也引起了MMN, 這被稱為McGurk-MMN。McGurk-MMN在很多研究中得到了重復(fù)(Colin et al., 2002; Colin, Radeau, Soquet, & Deltenre, 2004; Eskelund, MacDonald, & Andersen, 2015)。這提示在加工McGurk刺激的早期階段, 個(gè)體就已經(jīng)感知到了新異的聽覺刺激(雖然聽覺刺激的物理屬性實(shí)際上并沒有改變), 即視聽整合已經(jīng)發(fā)生了(辛昕, 任桂琴, 李金彩, 唐曉雨, 2017)。采用類似oddball范式的MEG研究也表明, 發(fā)生McGurk效應(yīng)時(shí), 在早期加工階段(聽覺刺激呈現(xiàn)后160 ms以及270 ms), 不同腦區(qū)的Gamma振蕩活動(dòng)會(huì)增強(qiáng)(Kaiser, Hertrich, Ackermann, Mathiak, & Lutzenberger, 2005)。而Gamma神經(jīng)振蕩與信息整合加工有關(guān)(錢浩悅, 黃逸慧, 高湘萍, 2018)。這與上述McGurk-MMN的結(jié)果類似, 即此時(shí)視聽整合已經(jīng)開始發(fā)生, 大腦探測(cè)到了聽覺信號(hào)的“改變” (實(shí)際上是主觀感受改變, 物理刺激并沒有變化)。
在上述McGurk-MMN的相關(guān)研究中(采用oddball范式), 研究者主要比較了McGurk刺激(偏差刺激)與視聽一致刺激(標(biāo)準(zhǔn)刺激)的差異, 但是這類研究忽略了以下問題:此時(shí)產(chǎn)生的MMN究竟是由于聽覺感知發(fā)生改變, 還是由于視覺信息與聽覺信息不一致?所以, 在未來的相關(guān)研究中應(yīng)該考慮加入一組對(duì)照條件——將視聽一致刺激作為標(biāo)準(zhǔn)刺激、視聽不一致且不會(huì)誘發(fā)McGurk效應(yīng)的刺激作為偏差刺激。依據(jù)聽覺感知發(fā)生改變才會(huì)發(fā)生MMN的假設(shè), 這種情況下的視聽不一致刺激相比于視聽一致刺激應(yīng)該不會(huì)產(chǎn)生MMN。這一推論值得進(jìn)一步探究。
在加工的相對(duì)晚期階段(上述視聽整合過程已經(jīng)開始之后), 大腦會(huì)嘗試解決視聽不一致沖突(McGurk刺激的視聽信息實(shí)際上是不一致的, 所以可能發(fā)生沖突)。研究表明, 在刺激呈現(xiàn)后500~ 800 ms, McGurk刺激相比于視聽一致刺激有更強(qiáng)的Beta頻段抑制。依據(jù)已有研究, 視聽不一致刺激的Beta頻段抑制比視聽一致刺激強(qiáng)(Lange, Christian, & Schnitzler, 2013), 這可能反映了視聽不一致的沖突效應(yīng)以及自上而下的沖突解決過程。即大腦可能在加工的相對(duì)晚期階段才探測(cè)到視聽不一致沖突, 并且嘗試解決。另一方面, 采用oddball范式的MEG研究也表明, 發(fā)生McGurk效應(yīng)時(shí), 加工晚期的Gamma頻段活動(dòng)會(huì)增強(qiáng), 這也提示了與聽覺信息不一致的視覺信息對(duì)聽覺感知的影響(Kaiser et al., 2005)。有趣的是, 即使被試報(bào)告感知到視聽不一致, McGurk效應(yīng)仍會(huì)發(fā)生(Soto-Faraco & Alsius, 2009)。這提示, 即使視聽不一致沖突沒有解決, 視聽整合也會(huì)發(fā)生, 二者是相對(duì)獨(dú)立的過程。
除了時(shí)間進(jìn)程問題, 在大腦加工McGurk刺激的過程中, 另一個(gè)重要問題是:哪些腦區(qū)參與了加工以及這些腦區(qū)起何作用?研究者們嘗試用具有較高空間分辨率的功能性磁共振成像技術(shù)(functional magnetic resonance imaging, fMRI)、經(jīng)顱磁刺激技術(shù)(transcranial magnetic stimulation, TMS)和MEG回答此問題。目前的研究結(jié)果提示:顳上皮層(superior temporal cortex)與視聽整合過程相關(guān); 額下皮層(inferior frontal cortex)與視聽不一致沖突相關(guān)。
在發(fā)生McGurk效應(yīng)的過程中, 顳上皮層與視聽整合密切相關(guān)(Beauchamp et al., 2010; Miller & D'Esposito, 2005; Nath & Beauchamp, 2012)。早期fMRI研究表明, 相比于沒有發(fā)生McGurk效應(yīng), 當(dāng)發(fā)生McGurk效應(yīng)時(shí), 顳上皮層的激活更強(qiáng)(Jones & Callan, 2003)。對(duì)McGurk效應(yīng)個(gè)體差異的神經(jīng)基礎(chǔ)研究發(fā)現(xiàn), McGurk效應(yīng)發(fā)生率在50%以上的被試(強(qiáng)McGurk感知者)相比于發(fā)生率在50%以下的被試(弱McGurk感知者), 左側(cè)顳上溝(left superior temporal sulcus, lSTS)的激活更強(qiáng), 且其激活程度與McGurk效應(yīng)發(fā)生率有顯著正相關(guān)(Nath & Beauchamp, 2012)。該結(jié)果在6~12歲兒童的研究中得到了重復(fù)(Nath, Fava, & Beauchamp, 2011)。更重要的是, Beauchamp等人(2010)使用fMRI技術(shù)定位每個(gè)被試的STS, 之后使用TMS抑制STS的激活。結(jié)果表明, 使用TMS刺激STS之后, 被試的McGurk效應(yīng)發(fā)生率降低了, 但是對(duì)一般視聽材料的判斷不受影響。類似的, Marques, Lapenta, Merabet, Bolognini和Boggio (2014)使用經(jīng)顱電刺激技術(shù)(transcranial direct current stimulation)刺激STS, 也得到了與Beauchamp等人(2010)一致的結(jié)果。在EEG研究中, Saint-Amour等人(2007)對(duì)上文提到的McGurk-MMN進(jìn)行了溯源分析, 發(fā)現(xiàn)了左側(cè)顳葉皮層的主導(dǎo)效應(yīng)。MEG研究也發(fā)現(xiàn), 在發(fā)生McGurk效應(yīng)之前會(huì)伴隨著多個(gè)腦區(qū)的神經(jīng)振蕩, 尤其是左側(cè)顳上回(left superior temporal gyrus)的Beta神經(jīng)振蕩, 研究者認(rèn)為這提示了視聽整合的過程(Keil, Müller, Ihssen, & Weisz, 2012)。
McGurk效應(yīng)與顳上皮層的關(guān)系研究結(jié)果較為一致, 但仍有進(jìn)一步探索的空間。最近, 一項(xiàng)視聽整合的研究發(fā)現(xiàn), STS對(duì)視聽整合的反應(yīng)可以再細(xì)分:STS的某些體素(voxels)對(duì)面孔的嘴部運(yùn)動(dòng)更敏感, 而另一些體素對(duì)面孔的眼部運(yùn)動(dòng)更敏感。當(dāng)視聽信息呈現(xiàn)時(shí), STS激活, 且只有對(duì)嘴部運(yùn)動(dòng)敏感的體素會(huì)對(duì)聽覺刺激有較強(qiáng)的反應(yīng)。這提示STS腦區(qū)在整合視聽信息的過程中, 視覺和聽覺信息都會(huì)一起加工, 但是對(duì)整合影響較大的視覺信息(例如嘴部運(yùn)動(dòng))相比于對(duì)整合影響較小的視覺信息(例如眼部運(yùn)動(dòng))在其中的加工方式可能不同(Zhu & Beauchamp, 2017)。該研究提示, 對(duì)McGurk效應(yīng)而言, STS的激活也可能有類似的效應(yīng)(例如:對(duì)嘴部運(yùn)動(dòng)敏感的體素或許可以預(yù)測(cè)McGurk效應(yīng)發(fā)生與否, 而對(duì)眼部運(yùn)動(dòng)敏感的體素則不能)。未來值得從細(xì)分腦區(qū)激活模式的角度進(jìn)一步探討STS在McGurk效應(yīng)中的作用。
除了顳上皮層, 另一個(gè)備受關(guān)注的McGurk效應(yīng)相關(guān)腦區(qū)是額下皮層。該腦區(qū)與視聽不一致沖突有關(guān)(Fernández et al., 2017; Gau & Noppeney, 2016; Nath & Beauchamp, 2012)。在早期的McGurk效應(yīng)fMRI研究中就發(fā)現(xiàn)了額下皮層的激活(Jones & Callan, 2003)。在MEG研究中也發(fā)現(xiàn)了左側(cè)額下皮層的神經(jīng)振蕩活動(dòng)增強(qiáng)(Kaiser et al., 2005)。對(duì)McGurk效應(yīng)個(gè)體差異的神經(jīng)基礎(chǔ)研究也發(fā)現(xiàn), 相比于視聽一致刺激, 額下回(inferior frontal gyrus, IFG)對(duì)視聽不一致刺激(包括McGurk刺激)的激活更強(qiáng)。但是IFG的激活在強(qiáng)McGurk感知者和弱McGurk感知者之間沒有差異。研究者由此推斷:IFG可能與視聽不一致沖突有關(guān), 但與視聽整合過程關(guān)系不大(Nath & Beauchamp, 2012)。還有研究發(fā)現(xiàn), 相比于沒有發(fā)生McGurk效應(yīng)的情況, 當(dāng)發(fā)生McGurk效應(yīng)時(shí), IFG的激活更強(qiáng)。而且與沖突探測(cè)相關(guān)的腦區(qū)——前扣帶回(anterior cingulatecortex, ACC)的激活也更強(qiáng)(Fernández et al., 2017)。這也提示了McGurk效應(yīng)中存在視聽不一致沖突的過程。
Gau和Noppeney (2016)的研究也涉及額下皮層激活模式與McGurk效應(yīng)的關(guān)系, 但與上述Fernández等人(2017)的研究結(jié)果不一致。具體而言, Gau和Noppeney (2016) 使用fMRI探究預(yù)期對(duì)McGurk效應(yīng)的影響。在該研究中, 研究者明確告訴被試這一組刺激的視聽信息是一致還是不一致(即“告知一致”和“告知不一致”條件)。結(jié)果表明, 相比于告知不一致條件, 在告知一致條件下, 被試的McGurk效應(yīng)發(fā)生率更高(即被試預(yù)期刺激是視聽一致時(shí)更容易發(fā)生McGurk效應(yīng))。在神經(jīng)層面, 左額下溝(left inferior frontal sulcus, lIFS)在視聽不一致時(shí)(相比于視聽一致)激活更強(qiáng), 這與上述Fernández等人(2017)的結(jié)果相似。但當(dāng)被試發(fā)生了McGurk效應(yīng)(相比于沒有發(fā)生McGurk效應(yīng))時(shí), lIFS激活減弱。而且, 這種效應(yīng)在被試預(yù)期視聽一致(發(fā)生更多McGurk效應(yīng))時(shí)比預(yù)期視聽不一致(發(fā)生更少M(fèi)cGurk效應(yīng))時(shí)更明顯。這似乎與Fernández等人(2017)的結(jié)果相反——Fernández等人(2017)發(fā)現(xiàn):發(fā)生McGurk效應(yīng)時(shí), IFG激活更強(qiáng)。
即使有不一致的研究結(jié)果, 仍可以肯定的是:額下皮層在McGurk效應(yīng)中與視聽不一致沖突有關(guān)。只是目前還需要進(jìn)一步探究其激活模式。上述研究結(jié)果不一致可能有三個(gè)原因:(1)兩項(xiàng)研究的范式不同。Fernández等人(2017)關(guān)注的是自然狀態(tài)下的McGurk刺激感知; 而Gau和Noppeney (2016)關(guān)注的是有心理預(yù)期條件下對(duì)McGurk刺激的感知。即后者可能還包括了預(yù)期的效應(yīng)。(2) fMRI無法細(xì)致區(qū)分加工的時(shí)間進(jìn)程。額下皮層確實(shí)與視聽不一致沖突有關(guān), 但是其在沖突解決的過程中可能有不同的激活模式。具體而言:大腦探測(cè)到?jīng)_突并剛開始嘗試解決時(shí), 額下皮層激活增強(qiáng); 而激活越強(qiáng), 就越有利于沖突解決, 進(jìn)而有利于McGurk效應(yīng)的發(fā)生。此時(shí)比較McGurk效應(yīng)發(fā)生和沒發(fā)生時(shí)的額下皮層激活程度, 就可能得到Fernández等人(2017)的結(jié)果。但當(dāng)過了大腦嘗試解決沖突的時(shí)間段, 如果發(fā)生了McGurk效應(yīng), 則可能沖突已經(jīng)基本解決。所以由于沖突變?nèi)? 額下皮層的激活也就隨之減小。相對(duì)的, 如果沒有發(fā)生McGurk效應(yīng), 則沖突還沒有解決, 其激活可能仍然較強(qiáng)。此時(shí)比較McGurk效應(yīng)發(fā)生和沒發(fā)生時(shí)的額下皮層激活程度, 就可能得到Gau和Noppeney (2016)的結(jié)果。(3)額下皮層的不同區(qū)域可能在不同的時(shí)間進(jìn)程上起到不同的作用。Fernández等人(2017)定位的是IFG, 而Gau和Noppeney (2016)定位的是IFS, 位置稍有區(qū)別。二者可能在上述加工時(shí)間進(jìn)程中起到承接的作用——隨著沖突解決程度的改變, 額下回的激活模式也隨之改變。這個(gè)問題值得進(jìn)一步采用時(shí)間、空間分辨率都較高的MEG技術(shù)深入探究。
綜上所述, 對(duì)McGurk效應(yīng)的相關(guān)腦區(qū)分析仍有較大探索空間。除了上述額下皮層激活模式之外, 未來研究還可以考慮進(jìn)行功能連接分析。例如對(duì)刺激的加工是如何在顳上皮層與額下皮層二者之間傳遞的?這有助于我們理解McGurk效應(yīng)中的視聽整合過程和視聽不一致沖突過程。還可以考慮進(jìn)行多體素模式分析(multivoxel pattern analysis, MVPA), 以探究McGurk刺激相比于視聽一致刺激或是不能誘發(fā)McGurk效應(yīng)的視聽不一致刺激的大腦激活模式有何差異。這有助于我們進(jìn)一步理解大腦對(duì)McGurk刺激的加工相比于其他視聽刺激有何本質(zhì)差別。
McGurk效應(yīng)反映了視覺信息對(duì)聽覺感知的影響。該效應(yīng)提出至今40多年, 仍舊是視聽言語感知研究中的熱點(diǎn)問題。本文嘗試對(duì)McGurk效應(yīng)的研究要點(diǎn)進(jìn)行系統(tǒng)性梳理, 概括如下:(1) McGurk效應(yīng)的測(cè)量與界定:誘發(fā)McGurk效應(yīng)需要特定輔音的視頻和特定輔音的音頻組合。目前較常用視覺輔音“g”和聽覺輔音“b”的組合。相關(guān)研究中最普遍的因變量指標(biāo)為McGurk效應(yīng)發(fā)生率, 即對(duì)McGurk刺激實(shí)施多次測(cè)量后計(jì)算其中發(fā)生McGurk效應(yīng)的次數(shù)比例。多數(shù)研究將McGurk效應(yīng)界定為:只要感知到不同于實(shí)際聽覺刺激的音節(jié), 就算是發(fā)生了McGurk效應(yīng)。(2) McGurk效應(yīng)的影響因素:包括物理刺激(例如:視覺、聽覺刺激、視聽刺激異步性)、認(rèn)知因素(例如:注意分配、心理預(yù)期)等造成個(gè)體內(nèi)變異的因素。還包括視聽信息依賴程度、視聽整合能力、語言文化差異等造成個(gè)體間變異的因素。(3) McGurk效應(yīng)的認(rèn)知神經(jīng)機(jī)制:McGurk效應(yīng)發(fā)生時(shí), 視覺言語信息主要來自說話者的嘴部區(qū)域(不過, 說話者面部其它區(qū)域也能提供有效的視覺言語信息)。視聽整合過程發(fā)生在加工早期階段、與顳上皮層有關(guān)。視聽不一致沖突發(fā)生在加工晚期階段、與額下皮層有關(guān)。
雖然前人研究對(duì)McGurk效應(yīng)進(jìn)行了細(xì)致深入的探討, 但仍然存在一些問題與不足, 這在上文已經(jīng)有所討論(例如:現(xiàn)有研究很少關(guān)注面孔社會(huì)屬性對(duì)McGurk效應(yīng)的影響, 也很少關(guān)注面部其它區(qū)域提供的視覺言語信息, 而且眼動(dòng)和fMRI研究中存在不一致的結(jié)果等)。下文將從McGurk效應(yīng)中單通道信息加工與視聽整合的關(guān)系、McGurk效應(yīng)的刺激間變異、與計(jì)算模型的關(guān)系、對(duì)后續(xù)認(rèn)知過程的影響、以及范式的標(biāo)準(zhǔn)化與推廣性出發(fā), 結(jié)合已有研究的不足, 提出未來研究的可能方向。
視聽整合過程應(yīng)該涉及兩個(gè)方面:一是加工外界輸入的單通道的視覺和聽覺信息; 二是對(duì)輸入的視聽信息進(jìn)行整合。遺憾的是, 很少有研究細(xì)致區(qū)分McGurk效應(yīng)發(fā)生率的改變究竟是來自哪個(gè)方面, 大部分研究只是粗略地解釋為“某因素影響了視聽整合過程”, 而沒有進(jìn)一步討論該因素究竟是直接影響了視聽整合能力本身, 還是影響了個(gè)體對(duì)單通道信息的加工過程(視聽整合能力可能不變), 進(jìn)而影響了視聽整合的程度。這是未來研究在解釋McGurk效應(yīng)發(fā)生率的變化時(shí)需要注意的問題。換言之, 雖然研究者們公認(rèn)發(fā)生McGurk效應(yīng)就是發(fā)生了視聽整合, 但是直接把McGurk效應(yīng)發(fā)生率等同于視聽整合能力顯得過于武斷。因?yàn)镸cGurk效應(yīng)發(fā)生率(即視聽整合的程度)除了與個(gè)體視聽整合能力有關(guān)之外, 還與個(gè)體對(duì)單通道信息(視覺、聽覺信息)的加工有關(guān)(也見本文3.2)。相應(yīng)的, 在神經(jīng)機(jī)制方面, 已有研究大都關(guān)注McGurk效應(yīng)中的視聽整合過程(最近也有研究開始關(guān)注McGurk效應(yīng)與視聽不一致沖突, 見本文4.3), 但很少有研究關(guān)注對(duì)單通道信息的加工在McGurk效應(yīng)神經(jīng)機(jī)制中所起的作用, 這在未來同樣值得進(jìn)一步探討。
以對(duì)視覺信息的加工過程(即唇讀過程)為例——我們推測(cè), McGurk效應(yīng)的發(fā)生與否可能與個(gè)體對(duì)視覺信息的加工策略(傾向于自上而下地控制還是自下而上地反應(yīng))有關(guān), 這一假設(shè)主要基于唇讀的神經(jīng)機(jī)制研究。研究表明, McGurk效應(yīng)的發(fā)生率與唇讀能力顯著正相關(guān)(Strand et al., 2014)。而聽力正常者唇讀過程的神經(jīng)機(jī)制與視聽整合過程很相似——唇讀與顳上皮層的激活相關(guān)(Macsweeney, et al., 2000)。然而, 聽力障礙者的唇讀卻是與海馬和后部扣帶皮層的活動(dòng)相關(guān), 而非顳上皮層(Macsweeney, et al., 2002)。其中, 海馬的激活提示了記憶在唇讀中的重要作用, 而后部扣帶皮層則可能是負(fù)責(zé)將記憶中的語言知識(shí)與外部輸入的視覺信息進(jìn)行比較, 進(jìn)而完成言語感知。這提示聽力障礙者在對(duì)視覺信息的加工過程(即唇讀過程)中更傾向于采取自上而下的加工策略。而聽力正常者可能只在更困難的言語加工情境下(例如有噪音時(shí))才調(diào)動(dòng)這種自上而下的加工(張明, 陳騏, 2003)。所以, 我們推測(cè), 不同加工策略并不是非此即彼, 而是連續(xù)變化、有所權(quán)重, 而個(gè)體加工視覺信息時(shí)采取的兩種加工策略的權(quán)重可能與McGurk效應(yīng)有關(guān)。
McGurk效應(yīng)存在較大的刺激間變異。即不同的McGurk刺激(例如不同的說話人、不同的視聽音節(jié)組合)對(duì)同一個(gè)被試而言, 其McGurk效應(yīng)發(fā)生率可能有較大差異(Mallick et al., 2015)。目前大部分研究都只采用1個(gè)或2個(gè)McGurk刺激, 所以在進(jìn)行研究之間的比較時(shí), 刺激間的變異也可能導(dǎo)致研究結(jié)果差異。但很少有研究者考慮這個(gè)問題。未來研究可以考慮使用多個(gè)McGurk刺激, 以期降低McGurk效應(yīng)的刺激間變異的影響。不過, 這樣也會(huì)帶來另一個(gè)問題:如何控制本研究中的刺激間變異。
研究者可以考慮使用McGurk效應(yīng)的差異噪聲編碼模型(noisy encoding of disparity model, NED, Magnotti & Beauchamp, 2015)來分離McGurk效應(yīng)的刺激間變異。該模型認(rèn)為不同個(gè)體受視覺信息影響的程度、以及表征視聽信息的清晰度不同, 不同刺激引起McGurk效應(yīng)的“能力”也不同(有的刺激更容易誘發(fā)McGurk效應(yīng), 有的更不容易), 這些因素共同影響McGurk效應(yīng)是否發(fā)生。相應(yīng)地, NED模型包括三個(gè)參數(shù):感知噪聲(sensory noise,s)、區(qū)別閾限(disparity threshold, T)、刺激差異(stimulus disparity, D)。其中, 感知噪聲(σ)描述了個(gè)體在表征視聽信息時(shí)的清晰、準(zhǔn)確程度。感知噪聲越低, 表征越清晰。區(qū)別閾限(T)描述了個(gè)體依據(jù)視覺信息進(jìn)行判斷的傾向高低。區(qū)別閾限越高, 個(gè)體越傾向于依賴視覺信息進(jìn)行判斷(即更可能產(chǎn)生McGurk效應(yīng))。感知噪聲和區(qū)別閾限都是描述個(gè)體間變異的參數(shù)。而刺激差異(D)描述了單個(gè)McGurk刺激引起McGurk效應(yīng)的可能性大小, 是描述刺激間變異的參數(shù)。該模型區(qū)分了刺激引起的變異和個(gè)體的內(nèi)部差異, 這讓研究者可以利用該模型分離出由刺激的差異帶來的McGurk效應(yīng)變異。所以, 未來研究可以考慮采用多個(gè)McGurk刺激、并使用NED模型來控制刺激間差異的影響。可以考慮在經(jīng)過預(yù)實(shí)驗(yàn)之后, 篩選出刺激差異相似的McGurk刺激。也可考慮不直接比較McGurk效應(yīng)發(fā)生率, 而是比較模型擬合后的個(gè)體相關(guān)參數(shù), 即感知噪聲和區(qū)別閾限的變化。這樣一方面可以增加結(jié)論的可推廣性, 另一方面可以控制由于增加McGurk刺激數(shù)量而帶來的刺激差異混淆。尤其是涉及使用不同刺激進(jìn)行組間比較的實(shí)驗(yàn)、或是不同刺激在被試間交叉平衡的實(shí)驗(yàn)。
除了上文探討的腦機(jī)制相關(guān)研究, 計(jì)算模型研究也嘗試從新的角度對(duì)McGurk效應(yīng)的機(jī)制進(jìn)行解釋(Marques et al., 2016; Samuel, 2011)。例如上文已經(jīng)提到的分層預(yù)測(cè)編碼模型(Olasagasti et al., 2015)以及NED模型(Magnotti & Beauchamp, 2015)。未來研究應(yīng)考慮將腦科學(xué)技術(shù)與計(jì)算模型相結(jié)合。不同于通過實(shí)驗(yàn)操縱或是利用神經(jīng)生理技術(shù)來探究機(jī)制的方法, 計(jì)算模型研究嘗試先假定其中的加工過程, 并利用不同的參數(shù)來描述不同的加工過程, 參數(shù)在其中代表的意義與特定加工過程相對(duì)應(yīng)。這可能為我們理解某個(gè)認(rèn)知過程提供新的思路。但是, 計(jì)算模型比較依賴事先對(duì)模型的假設(shè), 其參數(shù)擬合大多是依據(jù)行為結(jié)果(例如McGurk效應(yīng)發(fā)生率)或是視聽刺激的物理參數(shù), 這與其它探討McGurk效應(yīng)腦機(jī)制的研究(例如EEG、fMRI結(jié)果)關(guān)聯(lián)較小。遺憾的是, 很少有McGurk效應(yīng)的研究將神經(jīng)生理技術(shù)與計(jì)算模型相結(jié)合。所以, 未來的計(jì)算模型研究可以考慮利用EEG、fMRI結(jié)果等神經(jīng)科學(xué)指標(biāo)進(jìn)行參數(shù)擬合, 抑或是神經(jīng)科學(xué)研究可以考慮利用計(jì)算模型尋找相應(yīng)參數(shù)的對(duì)應(yīng)腦區(qū), 為模型的參數(shù)找到神經(jīng)基礎(chǔ)。例如:將神經(jīng)生理結(jié)果與NED模型相結(jié)合, 嘗試尋找刺激差異(D)、感知噪聲(σ)、區(qū)別閾限(T)的相關(guān)腦區(qū)。這有助于我們定位哪些腦區(qū)負(fù)責(zé)編碼刺激差異、哪些腦區(qū)負(fù)責(zé)表征視聽信息的清晰度、以及哪些腦區(qū)負(fù)責(zé)對(duì)視覺信息的利用等。再如:最近提出的多感覺語言感知的因果推斷模型(model of causal inference in multisensory speech perception, Magnotti & Beauchamp, 2017)認(rèn)為, 人們?cè)诿鎸?duì)多通道信息時(shí)并不是直接進(jìn)行整合, 而是先判斷這些不同通道的信息是否同源的可能性(因果推斷), 并據(jù)此給“整合”或“不整合”分配權(quán)重——即在面對(duì)視聽不一致的McGurk刺激時(shí), 大腦會(huì)先判斷視聽信息是來自同一個(gè)人的可能性(以及不是來自同一個(gè)人的可能性), 并據(jù)此給“整合”或“不整合”命令分配權(quán)重、并平均表征。在完成因果推斷之后, 如果執(zhí)行“整合”命令, 則會(huì)產(chǎn)生McGurk效應(yīng); 反之, 則不會(huì)發(fā)生McGurk效應(yīng)。這提示我們, 除了視聽整合過程和視聽不一致沖突之外, 在那之前的因果推斷過程可能也是發(fā)生McGurk效應(yīng)時(shí)的一個(gè)步驟。為之尋找相關(guān)神經(jīng)基礎(chǔ)有助于我們補(bǔ)充、完善對(duì)McGurk效應(yīng)機(jī)制的理解。
多數(shù)研究都在關(guān)注影響McGurk效應(yīng)的因素, 或是直接探討McGurk效應(yīng)的機(jī)制, 很少有研究關(guān)注McGurk效應(yīng)發(fā)生之后的“后續(xù)影響”。即McGurk效應(yīng)是否以及如何影響其他認(rèn)知過程。圍繞這個(gè)要點(diǎn), 可以提出很多有趣的研究問題。例如:有研究發(fā)現(xiàn), 當(dāng)被試感受過McGurk刺激之后, 在接下來的單獨(dú)聲音判斷任務(wù)中, 被試會(huì)更傾向于認(rèn)為聽到的聲音是之前看到的嘴型的聲音。即McGurk效應(yīng)會(huì)重新校準(zhǔn)個(gè)體對(duì)聽覺語音的識(shí)別(Bertelson et al., 2003)。類似的, 另一項(xiàng)研究也發(fā)現(xiàn), 當(dāng)McGurk效應(yīng)發(fā)生(聽覺“aba”和視覺“aga”被感知為“ada”)之后, 對(duì)純聽覺“aba”的判斷更容易被錯(cuò)誤地知覺為“ada” (McGurk知覺)。而且當(dāng)這種情況發(fā)生時(shí), 大腦的聽覺皮層的激活模式與實(shí)際聽到“ada”時(shí)更相似(相比于沒有把純聽覺“aba”錯(cuò)誤地知覺為“ada”的情況)。這提示當(dāng)感知到McGurk效應(yīng)時(shí), 大腦的神經(jīng)表征模式會(huì)從表征“aba”向“ada”轉(zhuǎn)換, 這會(huì)影響到后續(xù)的純聽覺任務(wù)(Lüttke, Ekman, van Gerven, & de Lange, 2016)。這些研究都提示, McGurk效應(yīng)的發(fā)生確實(shí)會(huì)對(duì)后續(xù)認(rèn)知過程產(chǎn)生影響, 探究該問題有助于我們更加全面地認(rèn)識(shí)McGurk效應(yīng)。與此相關(guān)的另一個(gè)有趣問題是:在McGurk效應(yīng)研究中, 刺激材料多采用的是無意義音節(jié)(例如聽覺“ba”和視覺“ga”感知到“da”)。但有少部分研究采用的是詞匯刺激(例如:聽覺“bait”和視覺“gate”感知到“date”, Alsius et al., 2005, 2007)。那么當(dāng)采用詞匯刺激時(shí), McGurk效應(yīng)發(fā)生(或沒發(fā)生)后的語義激活情況如何變化?是激活了聽覺詞的語義、還是視覺詞的語義、還是整合后感知的語義?抑或是所有語義都有激活, 只是激活程度不同?這有助于我們理解McGurk效應(yīng)發(fā)生后, 原本的聽覺與視覺刺激在加工過程中如何變化。
雖然對(duì)McGurk效應(yīng)的研究很多, 但不同研究之間在細(xì)節(jié)上存在較大差異, 研究范式的標(biāo)準(zhǔn)化是未來需要重視的問題, 主要包括:采用標(biāo)準(zhǔn)化刺激、使用一致的McGurk效應(yīng)界定標(biāo)準(zhǔn)、在實(shí)驗(yàn)中加入填充試次、報(bào)告完整的描述統(tǒng)計(jì)結(jié)果。Alsius等人(2018)嘗試對(duì)McGurk效應(yīng)的強(qiáng)度進(jìn)行元分析。但在初步篩出的276項(xiàng)研究中, 最終符合元分析標(biāo)準(zhǔn)的只有21項(xiàng)。而在這21項(xiàng)研究之中, 只有2項(xiàng)研究用表格報(bào)告了均值標(biāo)準(zhǔn)差; 不同研究之間范式的使用也千差萬別。而且, 考慮到McGurk效應(yīng)的刺激間變異和個(gè)體間變異, 在確定造成這些變異的主要原因之前(即可能的調(diào)節(jié)變量), 對(duì)McGurk效應(yīng)的強(qiáng)度進(jìn)行元分析似乎是不可能的。這強(qiáng)烈提示我們:在未來的研究中, 應(yīng)注意以下問題:(1)采用標(biāo)準(zhǔn)化刺激。研究者們應(yīng)該建立標(biāo)準(zhǔn)McGurk刺激的開放數(shù)據(jù)庫, 一方面免去自行錄制視頻的投入, 另一方面可以更好地控制McGurk效應(yīng)的刺激間變異, 有助于進(jìn)行研究間的比較。(2)使用一致的McGurk效應(yīng)界定標(biāo)準(zhǔn)。建議采用寬松的McGurk效應(yīng)界定標(biāo)準(zhǔn)。即只要聽覺感知不同于實(shí)際的聽覺刺激, 就算是發(fā)生了McGurk效應(yīng)(Alsius et al., 2018; Tiippana, 2014)。(3)在實(shí)驗(yàn)中加入填充試次。建議除了視聽一致刺激之外, 增加單獨(dú)聽覺的條件作為填充試次, 以確認(rèn)在McGurk效應(yīng)中確實(shí)是視覺信息對(duì)聽覺感知造成了影響, 而不是被試聽覺感知本身的問題(Alsius et al., 2018)。(4)應(yīng)該報(bào)告完整的描述性統(tǒng)計(jì)結(jié)果, 這是將來進(jìn)行元分析的必要數(shù)據(jù)。
最后, 研究者還需要注意McGurk效應(yīng)的推廣性問題——將McGurk效應(yīng)的研究結(jié)論推廣到視聽一致的言語感知情景中時(shí), 需要謹(jǐn)慎(Alsius et al., 2018)。因?yàn)镸cGurk效應(yīng)的加工過程無論在現(xiàn)象上還是神經(jīng)上都與視聽一致時(shí)的加工過程不完全一樣。主要體現(xiàn)在以下研究中:(1)個(gè)體對(duì)視聽一致刺激的加工不涉及視聽沖突, 但對(duì)McGurk刺激的加工可能涉及視聽不一致沖突的探測(cè)和解決(Fernández et al., 2017)。而且McGurk效應(yīng)的發(fā)生率與探測(cè)視聽不一致的能力(分辨真實(shí)的視聽一致刺激和McGurk刺激)有顯著負(fù)相關(guān)(Strand et al., 2014)。(2)相比于McGurk刺激, 顳上皮層對(duì)視聽一致刺激更偏好, 即對(duì)視聽一致刺激的激活更強(qiáng)(Lüttke, Ekman, van Gerven, & de Lange, 2015)。(3)個(gè)體的McGurk效應(yīng)發(fā)生率與個(gè)體在噪聲中利用視覺信息輔助聽覺理解句子的能力沒有顯著相關(guān)。而后者的刺激主要是視聽一致刺激。這提示我們McGurk效應(yīng)不一定能直接替代對(duì)視聽一致刺激的研究(Van Engen et al., 2017)。
雷江華, 方俊明. (2005). 聾人唇讀的大腦機(jī)制研究.(1), 10–12.
李燕芳, 梅磊磊, 董奇. (2008). 漢語母語者視聽雙通道言語知覺的特點(diǎn)及發(fā)展研究.,(3), 43–47.
李燕芳, 梅磊磊, 董奇. (2009). 視覺言語在漢語母語兒童和成人英語語音知覺中的作用.,(5), 1038–1041.
樸永馨. (2006).. 北京: 華夏出版社.
錢浩悅, 黃逸慧, 高湘萍. (2018). Gamma神經(jīng)振蕩和信息整合加工.(3), 433–441.
石涯, 王永華, 李文靖. (2016). 唇讀對(duì)聽障兒童語音識(shí)別的幫助作用.,(5), 482–485.
文小輝, 李國強(qiáng), 劉強(qiáng). (2011). 視聽整合加工及其神經(jīng)機(jī)制.,(7), 976–982.
文小輝, 劉強(qiáng), 孫弘進(jìn), 張慶林, 尹秦清, 郝明潔, 牟海蓉. (2009). 多感官線索整合的理論模型.,(4), 659–666.
辛昕, 任桂琴, 李金彩, 唐曉雨. (2017). 早期視聽整合加工——來自MMN的證據(jù).,(5), 757–768.
徐誠. (2013). 唇讀研究回顧:從聾人到正常人.(1), 56–61.
張明, 陳騏. (2003). 聽覺障礙人群的言語機(jī)制.(5), 486–493.
Alsius, A., Navarra, J., Campbell, R., & Soto-Faraco, S. (2005). Audiovisual integration of speech falters under high attention demands.,(9), 839–843.
Alsius, A., Navarra, J., & Soto-Faraco, S. (2007). Attention to touch weakens audiovisual speech integration.,(3), 399–404.
Alsius, A., Paré, M., & Munhall, K. G. (2018). Forty years after hearing lips and seeing voices: The McGurk effect revisited.,(1-2), 111–144.
Bayard, C., Colin, C., & Leybaert, J. (2014). How is the McGurk effect modulated by cued speech in deaf and hearing adults?,, 416.
Beauchamp, M. S., Nath, A. R., & Pasalar, S. (2010). fMRI-guided transcranial magnetic stimulation reveals that the superior temporal sulcus is a cortical locus of the McGurk effect.,(7), 2414–2417.
Bertelson, P., Vroomen, J., & de Gelder, B. (2003). Visual recalibration of auditory speech identification: A McGurk after effect.,(6), 592–597.
Besle, J., Fort, A., Delpuech, C., & Giard, M. (2004). Bimodal speech: Early suppressive visual effects in human auditory cortex.,(8), 2225–2234.
Brancazio, L., & Miller, J. L. (2005). Use of visual information in speech perception: Evidence for a visual rate effect both with and without a McGurk effect.,(5), 759–769.
Buchan, J. N., & Munhall, K. G. (2012). The effect of a concurrent working memory task and temporal offsets on the integration of auditory and visual speech information.,(1), 87–106.
Burnham, D., & Dodd, B. (2004). Auditory-visual speech integration by prelinguistic infants: Perception of an emergent consonant in the McGurk effect.,(4), 204–220.
Burnham, D., & Dodd, B. (2018). Language-general auditory- visual speech perception: Thai-English and Japanese- English McGurk effects.,(1-2), 79–110.
Colin, C., Radeau, M., Soquet, A., & Deltenre, P. (2004). Generalization of the generation of an MMN by illusory McGurk percepts: Voiceless consonants.,(9), 1989–2000.
Colin, C., Radeau, M., Soquet, A., Demolin, D., Colin, F., & Deltenre, P. (2002). Mismatch negativity evoked by the McGurk-MacDonald effect: A phonetic representation within short-term memory.,(4), 495–506.
de Gelder, B., & Vroomen, J. (2000). The perception of emotions by ear and by eye.,(3), 289–311.
de Gelder, B., Vroomen, J., & van der Heide, L. (1991). Face recognition and lip-reading in autism.,(1), 69–86.
Eskelund, K., MacDonald, E. N., & Andersen, T. S. (2015). Face configuration affects speech perception: Evidence from a McGurk mismatch negativity study.,, 48–54.
Fang, F., & He, S. (2005). Cortical responses to invisible objects in the human dorsal and ventral pathways.,(10), 1380–1385.
Fernández, L. M., Macaluso, E., & Soto-Faraco, S. (2017). Audiovisual integration as conflict resolution: The conflict of the McGurk illusion.,(11), 5691–5705.
Gau, R., & Noppeney, U. (2016). How prior expectations shape multisensory perception.,, 876–886.
Gurler, D., Doyle, N., Walker, E., Magnotti, J., & Beauchamp, M. (2015). A link between individual differences in multisensory speech perception and eye movements.,(4), 1333–1341.
Hisanaga, S., Sekiyama, K., Igasaki, T., & Murayama, N. (2016). Language/culture modulates brain and gaze processes in audiovisual speech perception.,, 35265.
Hockley, N. S., & Polka, L. (1994). A developmental study of audiovisual speech perception using the McGurk paradigm.,(5), 3309–3318.
Irwin, J., Avery, T., Brancazio, L., Turcios, J., Ryherd, K., & Landi, N. (2018). Electrophysiological indices of audiovisual speech perception: Beyond the McGurk effect and speech in noise.,(1-2), 39–56.
Jones, J. A., & Callan, D. E. (2003). Brain activity during audiovisual speech perception: An fMRI study of the McGurk effect.,(8), 1129–1133.
Jordan, T. R., McCotter, M. V., & Thomas, S. M. (2000). Visual and audiovisual speech perception with color and gray-scale facial images.,(7), 1394–1404.
Jordan, T. R., & Sergeant, P. (2000). Effects of distance on visual and audiovisual speech recognition.,(1), 107–124.
Jordan, T. R., & Thomas, S. M. (2011). When half a face is as good as a whole: Effects of simple substantial occlusion on visual and audiovisual speech perception.,(7), 2270–2285.
Kaiser, J., Hertrich, I., Ackermann, H., Mathiak, K., & Lutzenberger, W. (2005). Hearing lips: Gamma-band activity during audiovisual speech perception.,(5), 646–653.
Keil, J., Müller, N., Ihssen, N., & Weisz, N. (2012). On the variability of the McGurk effect: Audiovisual integration depends on prestimulus brain states.,(1), 221–231.
Lange, J., Christian, N., & Schnitzler, A. (2013). Audio- visual congruency alters power and coherence of oscillatory activity within and between cortical areas.,, 111–120.
Lüttke, C. S., Ekman, M., van Gerven, M. A., & de Lange, F. P. (2015). Preference for audiovisual speech congruency in superior temporal cortex.,(1), 1–7.
Lüttke, C. S., Ekman, M., van Gerven, M. A. J., & de Lange, F. P. (2016). McGurk illusion recalibrates subsequent auditory perception.,, 32891.
MacDonald, J. (2018). Hearing lips and seeing voices: The origins and development of the 'McGurk effect' and reflections on audio–visual speech perception over the last 40 years.,(1-2), 7–18.
MacDonald, J., Andersen, S., & Bachmann, T. (2000). Hearing by eye: How much spatial degradation can be tolerated?,(10), 1155–1168.
Macsweeney, M., Amaro, E., Calvert, G. A., Campbell, R., David, A. S., McGuire, P., ... Brammer, M. J. (2000). Silent speechreading in the absence of scanner noise: An event-related fMRI study.(8), 1729–1733.
Macsweeney, M., Calvert, G. A., Campbell, R., McGuire, P. K., David, A. S., Williams, S. C. R., ... Brammer, M. J. (2002). Speechreading circuits in people born deaf.(7), 801–807.
Magnotti, J. F., & Beauchamp, M. S. (2015). The noisy encoding of disparity model of the McGurk effect.,(3), 701–709.
Magnotti, J. F., & Beauchamp, M. S. (2017). A causal inference model explains perception of the McGurk effect and other incongruent audiovisual speech.,(2), e1005229.
Magnotti, J. F., Mallick, D. B., & Beauchamp, M. S. (2018). Reducing playback rate of audiovisual speech leads to a surprising decrease in the McGurk effect.,(1-2), 19–38.
Magnotti, J. F., Mallick, D. B., Feng, G., Zhou, B., Zhou, W., & Beauchamp, M. S. (2015). Similar frequency of the McGurk effect in large samples of native Mandarin Chinese and American English speakers.,(9), 2581–2586.
Mallick, D. B., Magnotti, J. F., & Beauchamp, M. S. (2015). Variability and stability in the McGurk effect: Contributionsof participants, stimuli, time, and response type.,(5), 1299–1307.
Marques, L. M., Lapenta, O. M., Costa, T. L., & Boggio, P. S. (2016). Multisensory integration processes underlying speech perception as revealed by the McGurk illusion.,(9), 1115–1129.
Marques, L. M., Lapenta, O. M., Merabet, L. B., Bolognini, N., & Boggio, P. S. (2014). Tuning and disrupting the brain-modulating the McGurk illusion with electrical stimulation., 533.
McGurk, H., & MacDonald, J. (1976). Hearing lips and seeing voices.,(5588), 746–748.
Miller, L. M., & D'Esposito, M. (2005). Perceptual fusion and stimulus coincidence in the cross-modal integration of speech.,(25), 5884–5893.
Moro, S. S., & Steeves, J. K. E. (2018). Audiovisual plasticity following early abnormal visual experience: Reduced McGurk effect in people with one eye., 103–107.
Munhall, K. G., Gribble, P., Sacco, L., & Ward, M. (1996). Temporal constraints on the McGurk effect.,(3), 351–362.
Munhall, K. G., ten Hove, M. W., Brammer, M., & Paré, M. (2009). Audiovisual integration of speech in a bistable illusion.,(9), 735–739.
Nath, A. R., & Beauchamp, M. S. (2012). A neural basis for interindividual differences in the McGurk Eeffect, a multisensory speech illusion.,(1), 781–787.
Nath, A. R., Fava, E. E., & Beauchamp, M. S. (2011). Neural correlates of interindividual differences in children's audiovisual speech perception.,(39), 13963–13971.
Olasagasti, I., Bouton, S., & Giraud, A. L. (2015). Prediction across sensory modalities: A neurocomputational model of the McGurk effect.,, 61–75.
Palmer, T. D., & Ramsey, A. K. (2012). The function of consciousness in multisensory integration.,(3), 353–364.
Paré, M., Richler, R. C., ten Hove, M., & Munhall, K. G. (2003). Gaze behavior in audiovisual speech perception: The influence of ocular fixations on the McGurk effect.,(4), 553–567.
Proverbio, A. M., Massetti, G., Rizzi, E., & Zani, A. (2016). Skilled musicians are not subject to the McGurk effect.,, 30423.
Quinto, L., Thompson, W. F., Russo, F. A., & Trehub, S. E. (2010). A comparison of the McGurk effect for spoken and sung syllables.,(6), 1450–1454.
Romero, Y. R., Senkowski, D., & Keil, J. (2015). Early and late beta-band power reflect audiovisual perception in the McGurk illusion.,(7), 2342–2350.
Rosenblum, L. D., Schmuckler, M. A., & Johnson, J. A. (1997). The McGurk effect in infants.,(3), 347–357.
Rosenblum, L. D., Yakel, D. A., & Green, K. P. (2000). Face and mouth inversion effects on visual and audiovisual speech perception.,(2), 806–819.
Ross, L. A., Saint-Amour, D., Leavitt, V. M., Javitt, D. C., & Foxe, J. J. (2007). Do you see what I am saying? Exploring visual enhancement of speech comprehension in noisy environments.,(5), 1147–1153.
Rouger, J., Fraysse, B., Deguine, O., & Barone, P. (2008). McGurk effects in cochlear-implanted deaf subjects.,(1), 87–99.
Saint-Amour, D., De Sanctis, P., Molholma, S., Ritter, W., & Foxe, J. J. (2007). Seeing voices: High-density electrical mapping and source-analysis of the multisensory mismatch negativity evoked during the McGurk illusion.,(3), 587–597.
Samuel, A. G. (2011). Speech perception.,(1), 49–72.
Sekiyama, K. (1997). Cultural and linguistic factors in audiovisual speech processing: The McGurk effect in Chinese subjects.,(1), 73–80.
Sekiyama, K., Soshi, T., & Sakamoto, S. (2014). Enhanced audiovisual integration with aging in speech perception: A heightened McGurk effect in older adults.,, 323.
Sekiyama, K., & Tohkura, Y. (1993). Inter-language differences in the influence of visual cues in speech perception.,(4), 427–444.
Soto-Faraco, S., & Alsius, A. (2009). Deconstructing the McGurk–MacDonald illusion.,(2), 580–587.
Stein, B. E., & Stanford, T. R. (2008). Multisensory integration: Current issues from the perspective of the single neuron.,, 255–266.
Stevenson, R. A., Zemtsov, R. K., & Wallace, M. T. (2012). Individual differences in the multisensory temporal binding window predict susceptibility to audiovisual illusions.,(6), 1517–1529.
Strand, J., Cooperman, A., Rowe, J., & Simenstad, A. (2014). Individual differences in susceptibility to the McGurk effect: Links with lipreading and detecting audiovisual incongruity.,(6), 2322–2331.
Summerfield, Q. (1992). Lipreading and audio-visual speech perception.(1273), 71–78.
Thomas, S. M., & Jordan, T. R. (2002). Determining the influence of Gaussian blurring on inversion effects with talking faces.,(6), 932–944.
Thomas, S. M., & Jordan, T. R. (2004). Contributions of oral and extraoral facial movement to visual and audiovisual speech perception.,(5), 873–888.
Tiippana, K. (2014). What is the McGurk effect?,, 725.
Tiippana, K., Andersen, T. S., & Sams, M. (2004). Visual attention modulates audiovisual speech perception.,(3), 457–472.
Tsuchiya, N., & Koch, C. (2005). Continuous flash suppression reduces negative afterimages.,(8), 1096–1101.
Ujiie, Y., Asai, T., & Wakabayashi, A. (2015). The relationship between level of autistic traits and local bias in the context of the McGurk effect.,, 891.
Ujiie, Y., Asai, T., & Wakabayashi, A. (2018). Individual differences and the effect of face configuration information in the McGurk effect.(4), 973–986.
Van Engen, K. J., Xie, Z., & Chandrasekaran, B. (2017). Audiovisual sentence recognition not predicted by susceptibility to the McGurk effect.,(2), 396–403.
Walker, S., Bruce, V., & O'Malley, C. (1995). Facial identity and facial speech processing: Familiar faces and voices in the McGurk effect.,(8), 1124–1133.
Wilson, A. H., Alsius, A., Paré, M., & Munhall, K. G. (2016). Spatial frequency requirements and gaze strategy in visual-only and audiovisual speech perception.,(4), 601–615.
Zhu, L. L., & Beauchamp, M. S. (2017). Mouth and voice: A relationship between visual and auditory preference in the human superior temporal sulcus.,(10), 2697–2708.
The influential factors and neural mechanisms of McGurk effect
LUO Xiaoxiao1; KANG Guanlan1; ZHOU Xiaolin1,2,3,4
(1School of Psychological and Cognitive Sciences, Peking University, Beijing, 100871, China) (2Key Laboratory of Machine Perception (Ministry of Education), Peking University, Beijing 100871, China) (3PKU-IDG/McGovern Institute for Brain Research, Peking University, Beijing 100871, China) (4Institute of Psychological and Brain Sciences, Zhejiang Normal University, Jinhua 321004, China)
The McGurk effect is a typical audiovisual integration phenomenon, influenced by characteristics of physical stimuli, attentional allocation, the extent that individuals rely on visual or auditory information in processing, the ability of audiovisual integration, and language/culture differences. Key visual information that leads to the McGurk effect is mainly extracted from the mouth area of the talker. The McGurk effect implicates both audiovisual integration (which occurs in the early processing stage and is related to the activation of superior temporal cortex) and the conflict of the incongruent audiovisual stimuli (which occurs in the late processing stage and is related to the activation of inferior frontal cortex). Future studies should further investigate the influence of social factors on the McGurk effect, pay attention to the relationship between unimodal information processing and audiovisual integration in the McGurk effect, and explore the neural mechanisms of McGurk effect with computational modeling.
McGurk effect; audiovisual speech perception; audiovisual integration; multisensory integration
10.3724/SP.J.1042.2018.01935
2018-03-13
*國家自然科學(xué)基金面上項(xiàng)目(31470976), 科技部973項(xiàng)目(2015CB856400), 機(jī)器感知與智能教育部重點(diǎn)實(shí)驗(yàn)室開放課題基金項(xiàng)目(K-2017-05)。
周曉林, E-mail: xz104@pku.edu.cn
B842