據Giordano B 2023年4月10日[Nat Neurosci,2023,26(4):664-672.]報道,法國國家科學研究中心等機構的研究人員通過研究嘗試利用計算模型來預測人類大腦是如何將聲音轉化成為周圍環(huán)境中所發(fā)生的事情的語義表征的; 一些基于深度神經網絡(deep neural network,DNN)的模型或許就能更好地預測來自神經成像和實驗數據的神經過程。 研究人員利用了一個模型對比框架,并對比了聲學、語義(連續(xù)和分類)和聲音-事件深度神經網絡表示模型預測感知聲音差異和7 T 人類聽覺皮層fMRI 反應的能力。
研究人員對自然聲音是如何在大腦中被感知和表現進行數值預測, 而且利用計算模型來理解如何將所聽到的聲音轉化為聽覺環(huán)境中物體和事件的語義表征;目前在這方面所面臨的一個大的障礙并不是缺乏計算模型(新的模型會定期被發(fā)表),而是缺少對其所解釋的行為或神經成像數據能力的系統(tǒng)性比較。 于是研究人員的關鍵目標就是系統(tǒng)性地比較不同計算模型在預測自然聲音的神經表征方面的表現,在實驗中,研究人員評估了三類計算模型,即聲學、語義和聲音到事件的DNN。在COVID 流行的頭幾個月,研究人員討論了需要對計算模型進行系統(tǒng)性地比較,經過幾次遠程頭腦風暴會議后,研究人員意識到他們已經獲得了回答問題所需要的數據:在2009年所收集的行為數據庫中有20 例加拿大參與者,其評估了一組80 個自然聲音的感知差異;2016年收集的fMRI 數據庫中有5 例荷蘭參與者,其聽到了一組不同的288 個自然聲音,同時研究人員還記錄了其機體fMRI 的反應。 在不需要在實驗室中收集新數據的情況下,研究人員開始著手利用在此前實驗中所收集的數據來測試3 種計算模型方法的性能和表現;具體而言,他們將呈遞給人類參與者的聲音刺激投射到了不同的計算模型中,隨后測定其能預測參與者對刺激所產生的反應及在大腦中所發(fā)生事情的程度。
研究人員被谷歌公司所開發(fā)的聲音到事件DNN 優(yōu)于競爭性的聲學和語義模型的程度所震驚; 同時也能很好地預測行為和fMRI 數據以便將聲音投射到DNN 上, 這樣研究人員就能從2016年荷蘭參與者的fMRI 反應來預測2009年加拿大參與者機體的行為,即使其所聽到的聲音完全不同。 研究人員發(fā)現,基于DNN 的模型能大大超過基于聲學的計算方法和將聲音歸入不同類別(比如聲音、街道上的聲音等等)從而反映大腦反應的技術,與這些更為傳統(tǒng)的計算方法相比,DNN 能以更高的準確度來預測神經活動和參與者的行為。
根據研究人員的觀察及基于DNN 模型所產生的輸出數據,研究人員還推測,人類大腦對聲音的理解方式與其處理單詞的方式相類似,盡管單詞的意義是通過處理單個字母、聲音和音節(jié)來進行推斷的,然而,聲音的意義則可能是通過結合一組不同的基本單元來進行提取的。 目前研究人員正在收集新的神經成像數據來測試研究人員在研究中所提出的關于這些基本單元可能是什么的具體假設,他們正在訓練新型及更像大腦的神經網絡從而進行自然的聲音處理;比如研究人員開發(fā)出了一種特殊的神經網絡,其能學習語言聲音描述符的數字表示(語義嵌入),而并不是聲音事件類別。
該研究結果表明,大腦的顳上回(STG)需要從聲學到語義的中間聲音表征,這些表征既不是聲學模型也并不是語義模型所能解釋的,而且這些表征在本質上具有一定的構成性,與行為無關。