王少楠,張家俊,宗成慶,3
(1.中國科學院 自動化研究所 模式識別國家重點實驗室,北京 100190;2. 中國科學院大學 人工智能學院,北京 100049; 3. 中國科學院腦科學與智能技術卓越創(chuàng)新中心,北京100190)
本文中所提的語言認知指人腦對語言的理解,泛指個體在接受語音、文本等信息時,從聽覺、視覺等感知覺信息中提取抽象的符號信息的過程,重點關注語言的認知神經(jīng)科學研究,沒有涉及語言的行為實驗。語言認知是一個復雜的過程,不同層次和不同單位的語言結構,以及不同類型的語言信息的加工機制各有不同,所依賴的腦網(wǎng)絡也非常復雜,比如語音理解過程中需要聽覺系統(tǒng)對語音的基本聲學特征進行編碼,隨后涉及詞匯識別、語法語義分析等多個步驟,最終才可以實現(xiàn)語言理解。
目前的語言認知研究主要圍繞“語言認知的單元和維度”“定位不同類型語言信息的腦網(wǎng)絡”“語言信息加工的時間進程和控制”“語言信息的神經(jīng)編碼形式和計算機制”四個研究問題展開。首先,語言中有不同大小的單元,如果研究人腦對語言的加工,應當以對哪種語言單元的加工作為切入點呢?大腦在加工語言的過程中,是否也是以某種單元作為最核心的加工單元呢?另一方面,大腦的信息加工過程非常復雜。不同類型的信息往往是由不同的腦區(qū)加工的,而且加工次序有先有后。那么不同腦區(qū)在語言加工時的作用是什么?加工的時間進程又是怎樣的呢?最后,無論是對腦區(qū)還是對加工時序的觀測都還只是對大腦語言加工進行現(xiàn)象上的描述,這些現(xiàn)象背后蘊含著哪些認知、計算機制呢?
為了探索上述問題,以往的大多數(shù)研究采取假設驅動的語言認知實驗范式——研究人員在實驗前會明確實驗所要驗證的假設,并且明確怎樣的實驗結果與假設的預期一致。比如,研究人員想要驗證的假設是: 聽覺皮層不僅編碼了語音的聲學特征,還編碼了音位特征。根據(jù)這個假設,研究人員要設計實驗來區(qū)分聲學特征與音位特征,然后分析后者是不是影響了聽覺皮層的響應[1]。
這類方法實驗目的明確,所以較為容易獲得穩(wěn)定的結果。但是,這類方法采用嚴格控制的實驗設計,針對特定的,甚至是非常細節(jié)的語言現(xiàn)象展開研究。由于要嚴格控制實驗變量,所以實驗中的語料往往趨于一致,因此實驗結論很可能只適用于實驗中所涉及的高度一致的語料。另外,嚴格控制的實驗導致研究趨于碎片化,一項研究只關心一種特定的語言現(xiàn)象。如果每項研究關注一種語言現(xiàn)象,而語言中只包含有限的幾種語言現(xiàn)象, 那么就可以通過整合不同的局部研究得到一個總體結論。但是,由于語言過于復雜,無法統(tǒng)一地劃分為若干基本現(xiàn)象,而且實驗手段過于多樣,導致各種研究結論之間的整合非常困難。
與假設驅動的研究相對的是數(shù)據(jù)驅動的研究。數(shù)據(jù)驅動的研究是探索性的,它不先提出假設,而是通過收集實驗數(shù)據(jù)來探索有怎樣可能的結果。數(shù)據(jù)驅動的研究往往使用自然文本作為實驗刺激,克服了假設驅動研究中使用人工設計實驗材料帶來的局限,可以進行更具全局性的高生態(tài)效度的研究。但是,使用自然文本采集的人腦活動數(shù)據(jù)中會包含大量的實驗變量,增加了后續(xù)數(shù)據(jù)分析的難度,也會給分析結果帶來更多不確定性。
隨著以深度學習為代表的通用人工智能技術的出現(xiàn),語言計算領域迎來了新一輪技術變革。目前,計算機完成語言處理任務的性能大幅度超過傳統(tǒng)方法,基于神經(jīng)網(wǎng)絡方法的語言計算模型在實際場景中得到了大規(guī)模應用[2-6]。語言計算模型的快速發(fā)展也重新引起了認知科學領域的關注,利用計算模型進行數(shù)據(jù)驅動的語言認知實驗也得到了快速發(fā)展,積累了大量高水平研究工作[7-9]。如圖1所示,這類方法采集被試在閱讀或收聽自然文本時的神經(jīng)活動數(shù)據(jù),然后使用語言計算模型編碼實驗刺激,最后利用編碼后的刺激研究大腦語言理解的問題。利用計算方法的語言認知實驗,為建立精確到詞的神經(jīng)表征模型提供了極大的便利,在分析自然語言加工數(shù)據(jù)時展現(xiàn)了巨大的潛力。
圖1 基于語言計算方法的語言認知實驗范式
綜上所述,語言計算模型的快速發(fā)展為語言認知研究帶來了新的機遇和發(fā)展,結合兩者開展跨學科交叉研究已經(jīng)成為新的研究趨勢。為了給后續(xù)利用計算模型進行語言認知實驗的研究提供借鑒,本文對典型的相關工作進行總結和展望。下文首先介紹語言計算方法應用在語言認知問題上的相關研究工作(第1~4節(jié)); 接著總結已有開源的人腦活動數(shù)據(jù)(第5節(jié));然后分析已有研究的局限性,并且重點對未來的研究方向進行展望(第6節(jié));最后對全文進行總結(第7節(jié))。
語言信息非常復雜,語言學中定義了大量不同粒度、不同類型的語言單元,如音位、音節(jié)、語素、詞、詞組、語句等。語言認知研究中關心的一個關鍵問題是: 這些語言單元只是語言學家便于研究提出的一些概念,還是確實是大腦進行語言理解所依賴的加工單元?大腦在加工這些語言單元時是否激活了細分維度?這些加工維度是什么?這些都是語言認知研究所關注的內容。
由于語言使用者對詞、詞組、句子等不同粒度的語言信息都敏感[10],因此在語言理解過程中,大腦可能會對多種單元的信息進行加工。研究大腦語言加工單元的一個經(jīng)典工作是Ding等人[11]提出的穩(wěn)態(tài)范式——設計一組音頻實驗材料,語音中每秒出現(xiàn)4個音節(jié)構成的語句,其中每兩個音節(jié)可以合成一個詞組。利用這種范式,他們研究了大腦編碼語言的單元是什么、是否可以同時編碼多個層級的語言單元等問題。他們的研究假設是: 如果大腦同時編碼了音節(jié)、詞組和語句單元,而且編碼某個語言單元的神經(jīng)活動應當在時間上與這個語言單元同步,那么大腦編碼這些不同大小的語言單元的神經(jīng)活動將具有不同的更新速率。實驗發(fā)現(xiàn): 在聽語音的過程中,人腦的MEG/EEG 響應確實包含4Hz、2Hz和1Hz的成分,對應于假設的音節(jié)、詞組、語句的神經(jīng)響應,這證明了大腦在理解語言時會同時加工音節(jié)、詞組和語句單元。
為了研究語言加工的維度,F(xiàn)ernandino 等研究了顏色、形狀、感覺運動、聲音和操作(manipulation)這5種屬性在大腦中的表征[12]。他們選擇了900個詞,標注了每種特征對詞義的貢獻程度,并采集了被試閱讀每個詞時的fMRI數(shù)據(jù)。通過對每種特征的標注值和各腦區(qū)激活程度之間的聯(lián)系,他們發(fā)現(xiàn)這5種屬性均在大腦中表征。Binder 等進一步擴展了這項工作,按照大腦的功能劃分提出了65個語義屬性,包括感覺、運動、空間、時間等[13]。
為了在同一個實驗中研究更加全面的語言加工單元及其細分維度,研究人員提出利用計算模型分析詞匯或自然文本下采集的人腦活動數(shù)據(jù)的實驗范式。一個典型工作是關于大腦語義編碼的維度的研究,Mitchell 等人[14]結合詞匯表示方法探討了大腦表征名詞概念的模式,他們采集了被試閱讀60 個名詞刺激(圖片+詞匯文本)時的 fMRI 數(shù)據(jù),在包含萬億字符的語料庫中分別計算這60 個名詞和25 個感覺運動相關的代表性動詞(如看、聽、說、吃等)的共現(xiàn)頻率,并當作名詞的25 維表示向量;然后利用交叉驗證的方法訓練這些表示向量預測fMRI數(shù)據(jù)的回歸模型,每次交叉驗證都會預測兩個測試詞匯的fMRI 數(shù)據(jù),并和真實的fMRI數(shù)據(jù)進行對比,計算測試準確率。結果表明,他們采用的語言計算方法建立的回歸模型對fMRI數(shù)據(jù)中名詞所誘發(fā)的腦激活模式具有顯著大于隨機值的分類準確率,提示了詞表示模型和fMRI數(shù)據(jù)之間存在直接的可預測的關系,并且表明了大腦表征名詞語義時顯著依賴感覺運動屬性,即大腦表征名詞語義的維度包括多種感覺運動屬性。不同于上述研究具體概念表征的工作,Wang等人[16]利用語言計算的方法研究了大腦是如何表征抽象詞匯概念的,他們采集了被試在理解360個抽象詞匯時的fMRI數(shù)據(jù),使用Word2Vec方法計算每個詞匯的語言表示向量,采用人工評價方法收集了每個詞匯的13個語義屬性,構造了13維語義表示向量;然后采用表征相似性分析的方法分別研究了抽象詞匯的語言屬性和語義屬性在大腦中的表征。結果表明語言屬性編碼在語言相關的腦區(qū),而語義屬性在大腦中是分布式編碼的。為了研究更多的語義信息在大腦中的表征維度,Huth 等人[15]采集了被試收聽故事時的fMRI數(shù)據(jù),在語料庫中選擇了985個描述不同主題的基本詞匯作為不同的語義屬性,接著通過統(tǒng)計共現(xiàn)頻率的方式構造了每個詞匯的985維向量表示。最后他們訓練嶺回歸模型,使得985維詞匯向量預測fMRI數(shù)據(jù)中的每個體素,同時提取模型中的“985×體素個數(shù)”大小的參數(shù)矩陣作為985個語義屬性的大腦表征。結果表明,不同語義特征在特定的腦區(qū)中進行編碼,說明了大腦語義表征的維度十分豐富。
Wehbe等人[17]將上述詞匯表征維度工作拓展到篇章級別,研究了大腦處理篇章信息時的細分維度。他們使用快速閱讀范式采集了被試在閱讀自然文本時的fMRI數(shù)據(jù),并且對實驗刺激材料標注了195個語言屬性,包括表層特征(如字母個數(shù)等)、句法特征(詞性、位置、依存關系等)、語義特征(100維詞向量)和篇章特征(某個故事角色等)。他們采用回歸預測和交叉驗證的方法進行了實驗,發(fā)現(xiàn)上述語言屬性會顯著激活某些腦區(qū),說明上述語言屬性屬于篇章加工的細分維度。
此外,類似的研究工作還有文獻[18-23]。此類工作尤其是探討語言加工維度的,往往也涉及下一節(jié)中討論的腦網(wǎng)絡的定位,也可作為下一節(jié)的的參考工作。
語言是大腦的功能,但是這項功能到底依賴于大腦的哪些部分呢?這也是語言認知研究所關注的重要問題。神經(jīng)科學研究發(fā)現(xiàn)大腦可以從結構和功能上進行分區(qū),而最早的關于大腦功能分區(qū)的證據(jù)就來自于失語癥研究。失語癥研究以及現(xiàn)代神經(jīng)影像學研究都發(fā)現(xiàn)語言不是單一功能,而是包含許多功能模塊,因此當前語言認知研究更加關注定位具體功能模塊所涉及的腦網(wǎng)絡。
關于定位大腦語言理解依賴的腦網(wǎng)絡的問題,以往研究大多數(shù)采用對比分析的方法[24-34]。如研究句子加工對應的腦區(qū),則設計兩組實驗變量——一組為正常句子,另一組為一串相同長度的假詞序列;然后收集與兩組實驗刺激對應的大腦激活數(shù)據(jù),句子加工對應的腦區(qū)就是那些正常句子激活了但是控制材料沒有激活的腦區(qū)。
不同于上述研究思路,使用計算模型可以研究比人工設計材料更加廣泛的語言功能,如細粒度的句法結構、語義組合、語義關系等[14-17,35-44]。下面介紹典型的研究工作。
Reddy等人[35]提出一種新的句法編碼方法,用于探究人腦編碼句法結構所涉及的腦網(wǎng)絡。不同于傳統(tǒng)的利用一個數(shù)值來編碼詞匯在某一時刻的句法復雜度/結構的方法,他們提出的方法可以編碼每一個時刻詞匯更復雜的句法信息,包括層級結構和句法解析規(guī)則等。他們使用被試在閱讀自然文本時的大腦活動數(shù)據(jù),利用提出的句法編碼方法計算實驗刺激中的每個詞匯的句法結構向量,然后使用嶺回歸方法計算句法結構向量預測大腦不同體素活動數(shù)據(jù)的準確性。如果句法結構向量可以顯著預測某個腦區(qū)的人腦活動數(shù)據(jù),則說明這個腦區(qū)編碼了句法結構信息。他們發(fā)現(xiàn): 相比傳統(tǒng)方法,他們提出的句法結構向量更顯著地預測了大腦語言處理系統(tǒng)的多個腦區(qū),說明了大腦在理解語言時編碼了句法結構信息,且使用了大腦語言網(wǎng)絡中的多個與語義處理相同的腦區(qū)。
類似的還有Wang等人[36]的工作,利用計算模型分別編碼句子的語義和語法屬性,進而研究了句子語義和語法屬性在大腦中的表征。他們使用被試在閱讀句子時采集的fMRI數(shù)據(jù),并將數(shù)據(jù)根據(jù)Gordon分區(qū)模板劃分為333個腦區(qū),如此可以得到333個腦區(qū)的fMRI向量。他們提出了一種解糾纏的特征表示模型,將句子編碼為100維的語義向量和100維的語法向量,然后利用表征相似性分析的方法分別將語義向量和語法向量與333個腦區(qū)的fMRI向量進行回歸預測,不同腦區(qū)的相關性結果為語義和語法屬性在這個腦區(qū)的編碼強度。實驗結果表明,相比語法屬性,語義屬性激活了更多腦區(qū),且兩者激活的腦區(qū)有部分重疊。
為了定位語義組合操作對應的腦區(qū),Toneva等人[37]提出可以利用計算模型來區(qū)分詞匯語義和語義組合。具體來說,他們利用ELMo模型對句子進行編碼,然后提取每個時刻的詞匯表示和隱層表示;接著他們訓練了一個線性回歸模型,使得當前時刻及之前的詞匯表示作為輸入來預測當前時刻的隱層表示。由于隱層表示中同時包含了詞匯表示和語義組合信息,因此,實際的隱層表示和預測的隱層表示的差值就是語義組合;最后,用神經(jīng)編碼模型就可以計算詞匯表示和語義組合操作對應的腦區(qū)。他們發(fā)現(xiàn)已有研究認為的負責詞匯語義表征的腦區(qū)也在同時負責加工語義組合,表明了詞匯語義表征和組合語義具有共同的神經(jīng)基礎。
借助語言計算方法,Zhang等人[38]定位了語義關系在大腦中的表征。他們采集了不同被試收聽故事時的fMRI數(shù)據(jù),使用Word2Vec方法計算每個故事詞匯的300維詞向量,然后訓練嶺回歸模型使300維詞向量預測fMRI數(shù)據(jù)中的每個體素;然后利用詞匯間詞向量的差值計算詞匯間的語義關系,如“手—手指”反映“整體—局部”關系,接著利用嶺回歸模型中詞向量空間到fMRI數(shù)據(jù)空間的映射關系,將語義關系向量映射到大腦皮層(fMRI數(shù)據(jù))空間中,這樣就可以研究不同語義關系在大腦中的表征模式。結果表明: 詞匯語義表征和語義關系在大腦中都是分布式表征且在空間上是重疊的;相比抽象的語義關系,具象的語義關系會更多地激活額頂頁注意網(wǎng)絡,更少地激活默認網(wǎng)絡。
在大腦進行語言加工的過程中,不同模塊的加工次序是怎樣的?比如大腦是不是會先解析語法結構,然后再理解語義?每個步驟的加工大約需要多少時間?比如大腦經(jīng)過多長時間可以識別一個詞匯中的不同特征?大腦加工語言的步驟和次序是自動化發(fā)生的、一成不變的過程,還是受注意力、工作記憶等認知功能的影響和調節(jié)?這些也是語言認知研究所關注的內容。
同語言認知的其他研究問題類似,以往的工作多采用人工設計實驗材料和對比分析的方法來研究語言加工的時間進程[45-59]。一個例子是,Pylkk?nen等人[60]設計兩組實驗材料——一組為形容詞加名詞短語(如“read boat”),另一組為非詞加名詞短語(如“xtp boat”),通過對比兩組實驗材料在第二個詞匯出現(xiàn)時引發(fā)的腦激活,就可以找到語義組合操作發(fā)生的時間。
利用計算模型研究語言加工的時間進程和控制過程主要有以下兩種思路: 一種是利用模型計算語言的表征,例如,Lyu等人[61]利用LDA模型編碼詞匯語義,進而研究了大腦語義組合過程在何時何處發(fā)生及其計算機制。他們首先構造了360個句式為“名詞短語+動詞+名詞”的句子(如“the elderly man ate the apple”),采集了被試在收聽這些句子時的MEG信號;然后利用LDA模型計算了名詞和動詞的主題表示向量,并將兩者相乘得到在特定動詞限制下的名詞的主題表示向量;最后用表征相似性分析方法分別計算了上下文無關的名詞主題向量和受到上文動詞限制的名詞主題向量與相應名詞出現(xiàn)600毫秒內MEG信號的相關性。結果發(fā)現(xiàn): 受到動詞約束的名詞主題向量,在名詞出現(xiàn)后198~244毫秒?yún)^(qū)間內與左側顳葉和左額下回腦區(qū)的活動數(shù)據(jù)顯著相關。這說明在單詞出現(xiàn)的早期,大腦只激活了受到上文約束的單詞語義子集。后續(xù)功能連接分析發(fā)現(xiàn)在關鍵語言腦區(qū)出現(xiàn)了自上而下和自下而上的信息流動,這些均說明大腦在進行語義組合的加工。
又如,已有研究發(fā)現(xiàn)皮層電信號可以追蹤大腦動態(tài)處理語音的過程,而且驗證了使用人工構造的語句(如句子中包含一個與上文不一致的詞匯)作為實驗刺激時,大腦處理詞匯信息的能力會受到上文的影響。為了探究人在自然語音理解時的大腦處理機制,Broderick等人[62]采集了多個被試在收聽自然語音及其反轉語音時的EEG數(shù)據(jù),然后利用Word2Vec方法計算語音中每個詞匯的語義表示向量,接著計算句子中每個詞匯向量與上文向量(上文詞匯向量的平均值)的余弦相似度,用1減去相似度來模擬詞匯在句子中的不一致程度。最后,用詞匯的不一致度得分與對應的EEG數(shù)據(jù)做回歸分析。他們通過實驗發(fā)現(xiàn): 在200~600毫秒的時間窗內出現(xiàn)了類似傳統(tǒng)實驗發(fā)現(xiàn)的N400效應,且只有在被試理解了語音刺激時(收聽自然語音時)才會出現(xiàn)這種效應。這表明人腦在理解自然語音時,會在一個特定的時間處理上文對于詞匯理解的影響。相關研究工作還有文獻[63-65]。
另一種思路是利用語言計算模型的內部表征。一個代表性的例子是Wehbe等人[66]提出的將循環(huán)神經(jīng)網(wǎng)絡語言模型(Recurrent Neural Network Language Model,RNNLM)和大腦在閱讀時的工作機制進行類比。他們使用快速閱讀范式采集被試閱讀故事時的MEG數(shù)據(jù),并用訓練好的RNNLM模型在這些故事材料上進行預測,如此得到文本對齊的MEG數(shù)據(jù)和模型預測數(shù)據(jù);然后他們取出每個詞匯語言模型預測的三種模型向量:①編碼歷史信息的隱層向量; ②編碼當前時刻詞匯信息的詞向量; ③當前時刻模型輸出的概率分布向量。用這三種模型向量來分別解碼MEG數(shù)據(jù),進而通過對比三種模型向量對特定腦區(qū)MEG數(shù)據(jù)的預測準確率來提示該腦區(qū)在特定時刻編碼了哪種類型的信息。結果表明: 在看到一個新詞匯之前,第一種模型向量就可以準確預測這個詞匯的MEG數(shù)據(jù),且當看到這個詞匯并整合為新的上文之后,第一種模型向量的預測準確率下降;第二種模型向量可以準確預測當前詞的MEG數(shù)據(jù),而且預測準確率最高的腦區(qū)隨著時間推進會由視覺皮層移動到負責更高級認知活動的腦區(qū)上;第三種模型向量可以準確預測當前詞與歷史信息整合時的MEG數(shù)據(jù)。上述結果說明,人腦語言理解過程是首先根據(jù)歷史信息進行預測,然后理解當前詞匯,最后整合歷史和當前詞匯信息。相關研究工作還有文獻[67]。
對腦區(qū)和加工進程的研究主要是在現(xiàn)象上描述語言加工。這些現(xiàn)象到底是如何產(chǎn)生的呢?從計算的角度來說,大腦中進行計算的“數(shù)據(jù)結構”是什么呢?又是通過什么算法來操作這些數(shù)據(jù)結構的呢?對加工機制的研究勢必涉及數(shù)學模型,研究難度也很大。
由于涉及到底層計算機制,因此計算模型在這個問題上具有很大的優(yōu)勢,也得到了成功的應用[68-76]。其中典型的工作有,Li 等人[77]利用多種語言認知模型和神經(jīng)網(wǎng)絡模型來研究大腦理解代詞指代關系時的神經(jīng)機制。他們采集了被試在收聽完整故事時的fMRI數(shù)據(jù),然后計算與代詞解析相關的腦區(qū)。結果表明: 理解代詞指代關系時會顯著激活左前顳中回、左后顳中回前和角回腦區(qū)。為了進一步探究大腦解析指代關系時的計算機制,他們首先構造了 5 種針對代詞指代消解問題的計算模型,分別是基于句法理論的Hobbs 模型、基于篇章理論的Centering 模型、基于記憶理論的ACT-R 模型、基于神經(jīng)網(wǎng)絡ELMo 結構和BERT 結構的指代消解模型。隨后檢測了上述模型在解析故事中指代關系的有效性,并將上述模型中計算的代詞指代概率與fMRI 數(shù)據(jù)做相關分析。結果表明,只有基于記憶理論的ACT-R 模型可以顯著預測中英文實驗材料對應的神經(jīng)激活數(shù)據(jù),表明了大腦在解析代詞指代關系時采取了記憶檢索策略。
另一項工作是Hale等人[78]使用循環(huán)神經(jīng)網(wǎng)絡語法解析(RNNG)模型中產(chǎn)生的語法組合指標研究人腦句法的解析過程。他們采集被試收聽故事時的EEG數(shù)據(jù),然后使用一部分故事文本訓練RNNG模型,并且用訓練好的模型解析另一部分故事的文本,最后從中提取每個詞的句法組合數(shù)據(jù)作為回歸因子,和EEG數(shù)據(jù)進行回歸分析。結果表明RNNG中提取的句法組合數(shù)據(jù)引發(fā)了EEG早期的句法組合效應和類似P600的效應,在其他沒有顯式使用句法規(guī)則的語法解析器上沒有發(fā)現(xiàn)類似效應,說明RNNG模型的工作原理在一定程度上可以解釋人腦在理解語言時的句法解析過程。
類似的,Martin等人[79]發(fā)現(xiàn)一種符號連結模型(symbolic-connectionist)——DORA,在編碼句子語義信息時,模型結點會產(chǎn)生與大腦皮層對相同刺激反應時非常類似的振蕩激活模式[11]。在使用控制實驗材料或者RNN模型處理相同句子時,卻沒有發(fā)現(xiàn)這種激活模式。因此,他們認為DORA模型提供了一種可能性,用于說明大腦如何將感知特征轉換為跨越多個時間尺度的分層表示,并且將語言和大腦計算機制相關聯(lián)。同時,這種使用時間對分層網(wǎng)絡中的層次進行編碼的計算機制,可以實現(xiàn)組合性,滿足語言和其他認知功能的計算要求。結果還表明,大腦皮層的振蕩機制可能是人理解語言的計算基礎。
另外有研究提出新的語言計算模型來研究大腦語言計算機制。Chien等人[80]通過分析兩組被試在不同背景下(先收聽一個不同的語音片段)收聽相同句子時的fMRI數(shù)據(jù)發(fā)現(xiàn),兩組被試的神經(jīng)活動最初不同,但是會逐漸趨于一致,而且在腦皮層上呈現(xiàn)出層級結構——感知覺皮層信號最快對齊;其次是中間的腦區(qū),高級皮層的腦區(qū)會在10秒后才對齊。另外,他們通過分析兩組被試在相同背景下收聽不同句子時的數(shù)據(jù)時,還發(fā)現(xiàn)了與傳統(tǒng)線性整合模型預測的不同,高級皮層整合信息較慢但是遺忘信息卻很快。為了探究這種層級結構背后的計算機制,他們提出一種層級線性整合模型(Hierarchical Linear Integrator),該模型通過非線性整合和上文門控機制,可以靈活整合上文信息,如在新的事件開始時,模型會生成少量依賴上文的響應,并且該模型產(chǎn)生的響應與實際觀測的fMRI信號相吻合。這表明了大腦皮層的層級結構在每個時刻都會保留上幾個時刻的信息,而且會不斷將過去的信息和現(xiàn)在的信息進行整合,在收到不一致的輸入時狀態(tài)也會進行重置。
研究大腦語言認知離不開大腦活動數(shù)據(jù)的采集,尤其是利用計算方法研究語言認知問題更加依賴高質量、大規(guī)模、不同類型的大腦活動數(shù)據(jù)集。本節(jié)總結了與語言相關的常用開源神經(jīng)活動數(shù)據(jù)集。
(1) Mitchell等人[14]開源的60個實體名詞的fMRI數(shù)據(jù)(1)http://www.cs.cmu.edu/~tom/science2008/。
(2) Wehbe等人[17]開源的被試在閱讀包括5 176個詞的哈利波特與魔法石第九章的fMRI數(shù)據(jù)(2)http://www.cs.cmu.edu/~fmri/plosone/。
(3) Pereira等人[81]開源的閱讀不同主題的180個詞匯和637個句子的fMRI數(shù)據(jù)(3)https://osf.io/crwz7/。
(4) Zhang等人[38]開源的不同被試聽51個故事包括47 356 個詞匯的fMRI數(shù)據(jù)(4)https://osf.io/eq2ba/。
(5) Brennan等人[70,82,83]開源的被試收聽《愛麗絲夢游仙境》第一章包括2 169個詞匯的fMRI(5)https://openneuro.org/datasets/ds002322/versions/1.0.1和EEG數(shù)據(jù)(6)https://deepblue.lib.umich.edu/data/concern/data_sets/bg257f92t。
(6) Nastase等人[84]開源的345個不同被試收聽27個3~56min故事時的fMRI數(shù)據(jù)(7)http://datasets.datalad.org/?dir=/labs/hasson/narratives。
(7) Li等人[85]開源的英文、中文、法語母語者在分別收聽英文版、中文版、法語版《小王子》時的多語言fMRI數(shù)據(jù)(8)https://openneuro.org/datasets/ds003643/versions/1.0.2。
(8)Schoffelen等人[86]開源的204個荷蘭語母語被試閱讀360個正常和對應打亂順序的句子時的fMRI和MEG數(shù)據(jù)(9)https://data.donders.ru.nl/collections/di/dccn/DSC_3011020.09_236?0。
(9) Hanke等人[87]開源的20位被試收聽電影ForrestGump時的fMRI數(shù)據(jù)(10)http://openfmri.org/dataset/ds000113。
(10) Ayyash等人[88]開源的共86個被試收聽45種母語版《愛麗絲夢游仙境》片段的fMRI數(shù)據(jù)(11)https://osf.io/cw89s/?view_only=49981c407d784d2e88e bf6087e12fb3a(平均每種語言兩個被試)。
語言認知研究初步揭示了人腦語言理解的部分規(guī)律,但是距離真正解析人腦語言理解機理還有很大差距。即使利用語言計算模型的大部分工作也局限于局部問題上的定性解釋,缺乏對定量機制的探討。另外,研究大腦語言認知的底層工作機理,一個重要的思路是將語言認知與更加底層的神經(jīng)活動進行結合。比如2005年Poeppel 與 Embick 提出的語言認知與底層神經(jīng)機制研究的對應關系[89]。如表1所示,目前語言認知的研究和神經(jīng)科學的研究之間存在不匹配的問題,絕大部分語言認知研究僅考慮了語言學理論而忽略了其與神經(jīng)科學之間的聯(lián)系。因此,筆者認為,未來在研究人的語言理解問題上,結合計算模型進行語言認知實驗大有可為,具體有以下四個重要研究方向。
表1 語言學和神經(jīng)科學研究間的映射問題(the mapping problem)
(1) 收集多語言多模態(tài)神經(jīng)活動數(shù)據(jù)。已有的語言認知研究大多局限于使用單一數(shù)據(jù)采集方式(如僅使用fMRI或MEG)來研究某一種語言的特定語言現(xiàn)象,往往導致得出的結論魯棒性低和可重復性差的問題。因此,未來的語言認知研究一定是要在多種語言和多種類型的數(shù)據(jù)上進行多重驗證。尤其對于結合計算模型的研究來說,數(shù)據(jù)的規(guī)模和質量直接決定了結果的可靠性,因此利用侵入式和非侵入式的多種工具針對不同語種采集大規(guī)模高質量的神經(jīng)活動數(shù)據(jù)十分重要。同時,數(shù)據(jù)的開放和共享也在逐漸成為語言認知研究的趨勢,這將會極大地促進語言認知的研究。
(2) 啟發(fā)新的認知機制假設。語言計算模型的運行過程在一定程度上是透明的、全局的,其計算過程也是可見的,即模型學習到的詞匯表示、將詞匯表示組合成短語和句子表示的計算方式、預測推理出某一結果的計算步驟都是可觀測的。從計算機制層面上解釋大腦的工作原理是認知科學的重要任務,筆者認為未來可以深入探索計算模型中的表征和計算模塊是否確實可以解釋一些腦區(qū)在語言加工過程中的神經(jīng)活動。如果一個腦區(qū)的神經(jīng)活動可以被某種計算模型所解釋,那么可以認為這個腦區(qū)進行了模型中清晰可見的計算功能。換而言之,我們可以把不同語言計算模型中的各個模塊當作大腦計算機制的假設,用認知科學實驗進行驗證。
(3) 關聯(lián)多種語言變量和認知功能。語言理解的過程十分復雜,不僅涉及多種語言變量的加工,如詞法、句法、語義等,同時也與多個認知功能密切相關,如執(zhí)行控制、注意力、記憶等。以往的研究往往通過嚴格控制實驗變量來消除其他語言變量和認知功能的影響,在一個實驗中只研究某一個語言變量或某種認知功能的作用。筆者認為,結合計算模型進行語言認知實驗可以消除上述研究限制。例如,利用計算模型的方法可以分離不同實驗變量,在自然文本采集的神經(jīng)活動數(shù)據(jù)基礎上,研究不同語言變量和認知功能的作用。隨著基于神經(jīng)網(wǎng)絡方法的語言計算方法性能不斷提升,使得用模型分離不同語言特征越來越準確,從而使得在同一批數(shù)據(jù)上計算出大腦不同區(qū)域在視聽覺感知、多模態(tài)信息融合和語言理解中的其他功能機制成為可能。
(4) 解析大腦語言理解的底層計算機制。已有的語言認知研究大多基于語言學理論,而語言學與神經(jīng)科學研究的問題之間存在很大差距,如對于大腦如何操縱最基礎的語言單元,語言學主要研究短語結構和語義組合,而神經(jīng)科學主要關注神經(jīng)震蕩和同步。這就導致了目前語言認知的研究缺乏神經(jīng)基礎,無法匹配神經(jīng)科學發(fā)現(xiàn)的結論。隨著脈沖神經(jīng)網(wǎng)絡(Spike Neural Network)和震蕩神經(jīng)網(wǎng)絡(Oscillatory Neural Network)的不斷發(fā)展,未來的計算模型可以嘗試融合神經(jīng)科學的結論來模擬底層神經(jīng)元的工作模式,同時也可以根據(jù)語言學理論對語言單元進行操作從而完成語言理解的任務,這樣就為關聯(lián)語言學和神經(jīng)科學的研究提供一種新的解決方案。
語言認知的研究是認知科學和腦科學的核心問題之一,不僅對揭示人類語言智能的基礎、揭示大腦工作原理的奧秘有重要意義,也有助于推動腦啟發(fā)的語言智能技術的發(fā)展。語言計算模型的快速發(fā)展為語言認知的研究注入了新的活力,未來的語言認知實驗會更多地利用語言計算方法,這方面的交叉研究的前景非常值得期待。