從視覺(jué)信息編解碼的角度出發(fā),建立人類視覺(jué)神經(jīng)信息與外界視覺(jué)刺激之間的映射模型,探索大腦視覺(jué)信息處理的過(guò)程,有望利用機(jī)器智能實(shí)現(xiàn)對(duì)人類視覺(jué)感知功能的模擬,從而提升計(jì)算機(jī)處理視覺(jué)信息的能力。
深度學(xué)習(xí)是機(jī)器學(xué)習(xí)研究的一個(gè)新的領(lǐng)域,通過(guò)深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)大量樣本的內(nèi)在規(guī)律和層次表征,其在計(jì)算機(jī)視覺(jué)、語(yǔ)音識(shí)別、自然語(yǔ)言處理等多個(gè)領(lǐng)域都取得了巨大的進(jìn)步。最早的深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)受到了生物神經(jīng)系統(tǒng)的啟發(fā),深度神經(jīng)網(wǎng)絡(luò)的層次化結(jié)構(gòu)借鑒了人腦中前饋視覺(jué)表征的層次化結(jié)構(gòu)。多項(xiàng)功能性磁共振成像(fMRI)研究表明,深度神經(jīng)網(wǎng)絡(luò)在視覺(jué)信息處理方面與人類大腦的視覺(jué)處理過(guò)程具有相似的表現(xiàn)。然而,深度學(xué)習(xí)是否類腦?目前并沒(méi)有統(tǒng)一的結(jié)論。在此,我們將從視覺(jué)信息編解碼的角度來(lái)探討深度學(xué)習(xí)的類腦機(jī)制。
大腦是人體最為神秘且復(fù)雜的部分,我們的思想和記憶都寄放在其中。也許你會(huì)認(rèn)為思想是無(wú)形無(wú)實(shí)且無(wú)法預(yù)測(cè)的,但實(shí)際上我們的思想就隱藏在這復(fù)雜的大腦活動(dòng)信號(hào)之中。伴隨著成像設(shè)備的進(jìn)步以及人類對(duì)大腦認(rèn)識(shí)的日益加深,人類將有望解讀大腦信號(hào),將大腦中的想法轉(zhuǎn)化成自動(dòng)化設(shè)備的驅(qū)動(dòng)力。
近年來(lái),認(rèn)知心理學(xué)和認(rèn)知神經(jīng)科學(xué)不斷發(fā)展,腦電圖(EEG)、fMRI以及腦磁圖(MEG)等大腦成像技術(shù)先后問(wèn)世,使得采用科學(xué)手段對(duì)大腦活動(dòng)進(jìn)行解讀成為可能。研究人員通過(guò)采集不同時(shí)空尺度的大腦活動(dòng)信號(hào),利用數(shù)學(xué)模型建立這些信號(hào)與大腦感知及認(rèn)知狀態(tài)間的映射關(guān)系,實(shí)現(xiàn)對(duì)人類的認(rèn)知進(jìn)行辨識(shí)或重構(gòu)的目的。以視覺(jué)認(rèn)知為例,目前已經(jīng)有很多視覺(jué)信息編解碼的實(shí)驗(yàn),涵蓋了從初級(jí)視覺(jué)特征(方向、對(duì)比度、顏色)、中級(jí)視覺(jué)特征(輪廓、深度信息)到高級(jí)視覺(jué)特征(語(yǔ)義、類別)的識(shí)別或重構(gòu)。
這些技術(shù)都說(shuō)明,“讀腦術(shù)”已經(jīng)不再是一個(gè)遙不可及的幻想,視覺(jué)信息編解碼的出現(xiàn)使“讀腦術(shù)”的實(shí)現(xiàn)成為可能。
那么,視覺(jué)信息編碼和解碼又是一個(gè)怎樣的過(guò)程?比如,針對(duì)一個(gè)刺激(是stimulus),大腦會(huì)有一個(gè)響應(yīng)(response),建立從刺激到響應(yīng)的映射關(guān)系就是一個(gè)編碼過(guò)程,當(dāng)提供一個(gè)新的刺激時(shí),就能夠據(jù)此映射關(guān)系預(yù)測(cè)大腦的響應(yīng)。反之,如果已知大腦響應(yīng),去推測(cè)受到什么樣的刺激,這就是一個(gè)解碼過(guò)程。解碼過(guò)程可以看作是編碼過(guò)程的逆過(guò)程。
如果建立了一個(gè)好的編碼模型,可以通過(guò)模型求逆得到解碼模型。當(dāng)模型不能夠求逆時(shí),可以通過(guò)最大后驗(yàn)估計(jì)(maximum a posteriori estimation,MAP)或者貝葉斯估計(jì)(bayesian estimation,BE)來(lái)推出解碼模型。因此,編碼是一個(gè)非常重要的步驟。
視覺(jué)信息編解碼以視覺(jué)認(rèn)知理論為基礎(chǔ),通過(guò)采集人眼接受不同圖像刺激時(shí)大腦響應(yīng)的時(shí)空數(shù)據(jù)來(lái)建立并訓(xùn)練數(shù)學(xué)模型,可以預(yù)測(cè)人眼看到新的圖像時(shí)的大腦響應(yīng),或者根據(jù)采集到的大腦響應(yīng)來(lái)識(shí)別、重構(gòu)人眼所看到的圖像。視覺(jué)信息編解碼為探究大腦的認(rèn)知機(jī)理提供了一個(gè)強(qiáng)有力的工具。借助視覺(jué)信息編解碼,研究人員可以通過(guò)實(shí)驗(yàn)來(lái)發(fā)現(xiàn)不同的視覺(jué)處理區(qū)域?qū)σ曈X(jué)對(duì)象的何種特征進(jìn)行編碼以及如何進(jìn)行編碼。這些研究結(jié)果不但可以增進(jìn)我們對(duì)大腦的認(rèn)識(shí),還可以促進(jìn)類腦智能的發(fā)展。
基于深度多視圖生成式模型的視覺(jué)信息編解碼框架
視覺(jué)信息解碼是通過(guò)fMRI技術(shù)來(lái)識(shí)別或重構(gòu)人眼所看到的視覺(jué)刺激,被廣泛應(yīng)用于視覺(jué)認(rèn)知研究。目前,fMRI采集到的是大腦體素的血氧水平依賴(BOLD)信號(hào)。BOLD信號(hào)的信噪比低,且具有很強(qiáng)的時(shí)域非平穩(wěn)特性。每次對(duì)大腦的掃描可以得到數(shù)十萬(wàn)個(gè)體素的BOLD時(shí)間序列。如何對(duì)高維度、高噪聲、高動(dòng)態(tài)變化的大腦信號(hào)進(jìn)行有效特征的提取至關(guān)重要,也是實(shí)現(xiàn)視覺(jué)信息解碼的關(guān)鍵問(wèn)題。基于大腦信號(hào)的視覺(jué)信息解碼按照解碼難度和層次的不同可以分為分類、識(shí)別和重構(gòu)。視覺(jué)信息的解碼分類比較簡(jiǎn)單,即根據(jù)大腦信號(hào)預(yù)測(cè)人眼看到圖像的種類。
視覺(jué)信息的解碼識(shí)別根據(jù)大腦信號(hào)從數(shù)據(jù)庫(kù)中識(shí)別出人眼看到的圖像。2008年3月5日,美國(guó)加利福尼亞大學(xué)伯克利分校的神經(jīng)學(xué)專家杰克·格蘭特(Jack Gallant)在國(guó)際期刊《自然》(Nature)上首次利用fMRI技術(shù)“讀”出了人眼看到的圖像。其原理很簡(jiǎn)單,格蘭特選擇2名受試者,在第一階段,2名受試者觀看1 750張圖片,包括動(dòng)物、建筑、食物、室外風(fēng)景、室內(nèi)景物、人造物體等。研究人員利用fMRI技術(shù)監(jiān)測(cè)2名受試者大腦視覺(jué)皮層的活動(dòng)?;讷@得的數(shù)據(jù),研究人員在機(jī)器上創(chuàng)建了一個(gè)數(shù)學(xué)模型來(lái)分析大腦對(duì)不同視覺(jué)特征的反應(yīng)。在第二階段,2名受試者觀看了任意挑選的120張新圖片,同時(shí)fMRI技術(shù)繼續(xù)記錄他們的大腦信號(hào)。通過(guò)數(shù)學(xué)模型的分析,機(jī)器分別預(yù)測(cè)對(duì)了2名受試者看到的110張和86張圖片,預(yù)測(cè)準(zhǔn)確率達(dá)到92%和72%。當(dāng)受試者看到的圖片數(shù)量增加到1 000張時(shí),機(jī)器預(yù)測(cè)準(zhǔn)確率有所下降,但對(duì)其中1人的預(yù)測(cè)準(zhǔn)確率仍能達(dá)到82%。然而,這還不是真正意義上的圖像重建,只是根據(jù)給定的大腦信號(hào)進(jìn)行圖像辨識(shí)。視覺(jué)信息的解碼重建是根據(jù)獲得的大腦活動(dòng)信號(hào),通過(guò)數(shù)學(xué)模型,恢復(fù)出受試者所看到的圖像,這是大腦解碼研究中難度最大、最具挑戰(zhàn)性的一個(gè)問(wèn)題。首先,人們對(duì)神經(jīng)編碼的理解還十分有限,這導(dǎo)致我們的建模未必能抓住fMRI數(shù)據(jù)最本質(zhì)的特征。其次,數(shù)據(jù)采集技術(shù)具有一定的信息局限性。由于不同技術(shù)對(duì)數(shù)據(jù)采集的精度和對(duì)神經(jīng)系統(tǒng)的損傷程度不同,人們獲取時(shí)空數(shù)據(jù)就會(huì)非常有限。最后,在有限精度下,兩幅圖像對(duì)應(yīng)的fMRI數(shù)據(jù)可能相差不大,根據(jù)某個(gè)fMRI模式,人們并不能很快地反推出哪幅圖像是最初的刺激圖像。
目前,基于簡(jiǎn)單的視覺(jué)信息編碼模型而進(jìn)行的解碼研究只適合于初級(jí)視覺(jué)皮層,對(duì)于高級(jí)視覺(jué)皮層及視覺(jué)區(qū)域之間的相關(guān)性研究還不是很理想。為了有效利用來(lái)自高級(jí)腦區(qū)及腦區(qū)間的深層次信息,我們需要一個(gè)復(fù)雜的層次化建模的工具。
深度學(xué)習(xí)是指利用基于深度神經(jīng)網(wǎng)絡(luò)的各種算法來(lái)解決圖像、文本等各領(lǐng)域?qū)嶋H問(wèn)題的研究。因此,我們可以將深度學(xué)習(xí)作為視覺(jué)信息編碼所需的層次化建模的工具。然而,人們對(duì)深度學(xué)習(xí)內(nèi)在理論的研究還不夠全面,深度學(xué)習(xí)常常被當(dāng)作“黑盒子”來(lái)使用?;谥暗难芯浚覀兪状翁岢隽嘶谏疃榷嘁晥D生成式模型(deep generative multi-view model,DGMM)的視覺(jué)信息編解碼研究:假定大腦信號(hào)和外部刺激是由同一隱含變量生成的,通過(guò)學(xué)習(xí)一個(gè)多視圖變分自動(dòng)編碼器可以建立外部刺激到腦信號(hào)的雙向映射關(guān)系,有效地建立大腦信號(hào)和外部刺激之間的關(guān)系。
基于深度多視圖生成式模型的視覺(jué)信息編解碼以一種科學(xué)合理的方式建立了視覺(jué)圖像和大腦響應(yīng)之間的關(guān)系,將視覺(jué)圖像重建問(wèn)題轉(zhuǎn)化成多視圖隱含變量模型中缺失視圖的貝葉斯推斷問(wèn)題。受層次化、卷積神經(jīng)網(wǎng)絡(luò)從下至上及從上到下等人腦視覺(jué)信息處理機(jī)制的啟發(fā),該研究采用了深度神經(jīng)網(wǎng)絡(luò)從視覺(jué)圖像中逐層提取視覺(jué)特征和概念,提高了模型的表達(dá)能力和可解釋性。受視覺(jué)區(qū)域的體素感受野和視覺(jué)信息的稀疏表達(dá)準(zhǔn)則的啟發(fā),該研究采用了稀疏貝葉斯學(xué)習(xí)從大量體素中自動(dòng)篩選對(duì)視覺(jué)信息解碼貢獻(xiàn)較大的體素,提高了模型的穩(wěn)定性和泛化能力。深度多視圖生成式模型的視覺(jué)信息編解碼充分利用了體素之間的相關(guān)性信息,有效地抑制了體素噪聲的干擾,增強(qiáng)了算法的魯棒性。得益于貝葉斯方法的優(yōu)點(diǎn),深度多視圖生成式模型的視覺(jué)信息編解碼能夠更方便、更靈活地融合先驗(yàn)知識(shí),提升預(yù)測(cè)性能。大量的實(shí)驗(yàn)數(shù)據(jù)驗(yàn)證了深度多視圖生成式模型的視覺(jué)信息編解碼的優(yōu)越性,為大腦信號(hào)解碼問(wèn)題提供了一個(gè)行之有效的通用框架——允許從不同角度對(duì)其進(jìn)行擴(kuò)展以適應(yīng)不同的任務(wù),具有很強(qiáng)的擴(kuò)展性。該研究不僅為探究大腦的視覺(jué)信息處理機(jī)制提供了一個(gè)強(qiáng)有力的工具,而且為腦-機(jī)接口(brain-computer interface,BCI)的發(fā)展提供了技術(shù)支持,將對(duì)類腦智能的發(fā)展起到一定的促進(jìn)作用。
此外,我們還研究了深度特征在大腦皮層上的表達(dá),但現(xiàn)有的研究仍存在一定的局限性。例如,自然圖像刺激的fMRI樣本量很少,因此,只能在數(shù)字、字母、符號(hào)上有較好的重建效果,對(duì)自然圖像的重建效果還有待研究。目前采用的是靜態(tài)編解碼,下一步將采用動(dòng)態(tài)編解碼。例如,利用循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural networks,RNN)、長(zhǎng)短時(shí)記憶(long short term memory,LSTM)模型等進(jìn)行輔助。此外,我們認(rèn)為解決編解碼問(wèn)題的方法可以借鑒機(jī)器翻譯中的對(duì)偶學(xué)習(xí)思想。例如,將變分自動(dòng)編碼器(variational auto-encoder,VAE)和生成式對(duì)抗網(wǎng)絡(luò)(generative adversarial networks,GAN)進(jìn)行結(jié)合。
綜上所述,我們提出了一個(gè)基于深度多視圖生成式模型的視覺(jué)圖像重建框架,該框架具有很好的擴(kuò)展性,它可以挖掘不同模式之間的共同表征并建立兩者之間的關(guān)系,使得理解大腦活動(dòng)信號(hào)成為可能。
基于深度多視圖生成式模型的視覺(jué)信息編解碼以一種科學(xué)合理的方式建立了視覺(jué)圖像和大腦響應(yīng)之間的關(guān)系,將視覺(jué)圖像重建問(wèn)題轉(zhuǎn)化成多視圖隱含變量模型中缺失視圖的貝葉斯推斷問(wèn)題。