楊 曦,閆 杰,王 文,李少毅,林 健
1.西北工業(yè)大學(xué) 航天學(xué)院,西安7 10072
2.空軍軍醫(yī)大學(xué) 放射科 陜西省功能與分子影像重點實驗室,西安 710038
3.西北工業(yè)大學(xué) 無人系統(tǒng)技術(shù)研究院,西安 710072
人類通過視覺、觸覺、聽覺和嗅覺等感覺器官獲取外部信息,從而實現(xiàn)與外部世界的交互,其中視覺在人類的感覺世界中擔(dān)負(fù)著重要任務(wù)。研究表明人類視覺系統(tǒng)具備并行計算與處理模擬信息的能力,同時對外界信息的處理具有很強的篩選能力。人類與靈長類動物的大腦視覺皮層具有多級互連結(jié)構(gòu),同一層中的神經(jīng)細(xì)胞在獲取信息后高速、并行地進(jìn)行特定的信息處理,并逐層簡化數(shù)據(jù)規(guī)模,實現(xiàn)圖像特征信息的提取,最終完成對物體的認(rèn)知理解。
盡管神經(jīng)科學(xué)取得了重大進(jìn)展,但仍然對大腦視覺通路如何組織、產(chǎn)生物體識別和學(xué)習(xí)的行為知之甚少。在缺乏明確的構(gòu)建指令的情況下,神經(jīng)科學(xué)和受腦啟發(fā)的目標(biāo)識別之間的互動一直是一種共同進(jìn)化。腦啟發(fā)的目標(biāo)識別模型是一個開放而有吸引力的研究領(lǐng)域(如圖1所示),具有廣泛的類別和應(yīng)用范圍。很多研究者在設(shè)計目標(biāo)識別算法時嘗試模擬視覺皮層的信息處理機制。類腦視覺是以生物大腦為研究參考的人工智能技術(shù)在機器視覺領(lǐng)域的應(yīng)用,通過研究和理解大腦皮層中的神經(jīng)回路如何實現(xiàn)準(zhǔn)確快速的目標(biāo)識別機制,嘗試將神經(jīng)科學(xué)轉(zhuǎn)化為目標(biāo)識別算法,促進(jìn)計算機視覺與模式識別的發(fā)展。經(jīng)過幾十年的開發(fā),研究人員構(gòu)建出的深度神經(jīng)網(wǎng)絡(luò),在目標(biāo)識別任務(wù)達(dá)到甚至超過人類的表現(xiàn)。但是,用于深度學(xué)習(xí)的人工神經(jīng)網(wǎng)絡(luò)是否類似于人們大腦中的生物神經(jīng)網(wǎng)絡(luò)?兩者在很多方面可以進(jìn)行對比研究。
圖1 視覺物體識別的腦啟發(fā)模型綜述Fig.1 Review of brain-inspired model for object recognition
在泛化推理方面,人類可以從視覺環(huán)境中提取信息,通過復(fù)雜的操作使人類擁有遷移學(xué)習(xí)的能力。理解和因果關(guān)系仍然是人類大腦的獨特優(yōu)勢。人工神經(jīng)網(wǎng)絡(luò)具有一定的決策推理能力,但常常被認(rèn)為是無法解釋的熏盒子,因為深度神經(jīng)網(wǎng)絡(luò)檢查數(shù)百萬張圖像及其相關(guān)標(biāo)簽,然后無意識地將數(shù)百萬個參數(shù)調(diào)整到從圖像中提取的模式,并沒有理解更高層次的語義概念和知識。研究人員試圖在訓(xùn)練過程中添加更多樣本提高深度學(xué)習(xí)模型的魯棒性,但這通常不能解決問題。在網(wǎng)絡(luò)輸入方面,與人工神經(jīng)網(wǎng)絡(luò)相比,人類大腦的神經(jīng)網(wǎng)絡(luò)輸入機制非常差,不具備攝取和處理大量數(shù)據(jù)的能力,這使得人類的大腦不可避免地學(xué)習(xí)新的任務(wù)而不是學(xué)習(xí)潛在的規(guī)則。但是人們經(jīng)常低估了大腦處理的數(shù)據(jù)量,可能接觸到成千上萬個樣本被取樣很多次,所以視覺系統(tǒng)輸入的數(shù)據(jù)量也是相當(dāng)驚人的。
此外,隨著互聯(lián)網(wǎng)、大數(shù)據(jù)時代的到來,擁有海量數(shù)據(jù)和尖端儀器探索靈長類大腦視覺信息處理的奧秘。一些組織或團隊已經(jīng)開始發(fā)起了大型的、跨國的努力,使用深度神經(jīng)網(wǎng)絡(luò)模擬部分大腦視覺通路的生理功能或神經(jīng)機制。與此同時,一些研究團隊正在研制突觸結(jié)構(gòu),其基本構(gòu)件的工作原理更像神經(jīng)元突觸。除非在神經(jīng)元功能的基本本質(zhì)上有大的意外,可能會在不久的將來完成模擬整個視覺通路的工作。
在這里,本文研究工作回顧了近二十年在視覺目標(biāo)識別的研究方向,重點關(guān)注視覺神經(jīng)科學(xué)和計算機視覺之間在目標(biāo)識別任務(wù)的聯(lián)系。在許多方面,視覺處于神經(jīng)科學(xué)和機器感知的前沿;可以說,人們對大腦視覺系統(tǒng)的了解比人們對幾乎任何其他大腦子系統(tǒng)的了解都要多,而且計算機視覺在機器學(xué)習(xí)、機器感知和腦啟發(fā)的計算[1]的發(fā)展中發(fā)揮了主導(dǎo)作用。物體識別為神經(jīng)科學(xué)和計算機科學(xué)的交叉提供了一個經(jīng)典的案例。
本文第一部分主要描述了從神經(jīng)科學(xué)理論試圖分析大腦視覺系統(tǒng)在目標(biāo)識別任務(wù)中可能使用的計算原理,以準(zhǔn)確有效地將神經(jīng)活動和識別行為整合到生物啟發(fā)的計算模型中。具體地,通過實驗獲得的大腦活動數(shù)據(jù),旨在表征大腦激活的皮層動力學(xué),將視覺神經(jīng)活動與目標(biāo)識別任務(wù)中的行為聯(lián)系起來,總結(jié)出視覺目標(biāo)表征的內(nèi)容和信號流向形式,揭示目標(biāo)識別任務(wù)背后的計算機制。第二部分主要探索了基于大腦啟發(fā)的目標(biāo)識別模型的發(fā)展,建立了從神經(jīng)科學(xué)到計算機視覺的橋梁?;仡櫫俗罱囊恍╊惸X目標(biāo)識別模型的研究工作,使用大腦或識別行為數(shù)據(jù)訓(xùn)練和測試執(zhí)行識別任務(wù)的計算模型。其中的深度卷積神經(jīng)網(wǎng)絡(luò)模型整合并抽象了神經(jīng)生物學(xué)的部分特征,被證明與靈長類視覺神經(jīng)通路具有很強的相似性。這些模型通過神經(jīng)科學(xué)提供的功能機理執(zhí)行目標(biāo)識別任務(wù),其計算機制同時可以反向解釋神經(jīng)活動和識別行為。本文主要的貢獻(xiàn)總結(jié)如下。
(1)類腦模型的全面、深入探索:針對目前最先進(jìn)的基于大腦啟發(fā)的目標(biāo)識別方法,根據(jù)模型架構(gòu)(CNN、SNN、HMAX)、模型開發(fā)(神經(jīng)激活預(yù)測和神經(jīng)功能機制模擬)進(jìn)行詳細(xì)分類的研究,涵蓋了這些所有方面,在之前是沒有的。
(2)網(wǎng)絡(luò)對比分析:總結(jié)了基于CNN的目標(biāo)識別模型與靈長類動物視覺神經(jīng)系統(tǒng)的相似性研究(神經(jīng)活動預(yù)測、識別行為匹配和功能相似性比較)。據(jù)大家所知,這種在人工神經(jīng)網(wǎng)絡(luò)與生物神經(jīng)網(wǎng)絡(luò)的比較分析方面從未被提出過,這種分類為設(shè)計在生物學(xué)上可信的視覺目標(biāo)識別模型提供了適當(dāng)?shù)闹笇?dǎo)方向和參考標(biāo)準(zhǔn)。
(3)實驗設(shè)計總結(jié):視覺目標(biāo)識別實驗設(shè)計一個基礎(chǔ)而關(guān)鍵的任務(wù)。本文從視覺數(shù)據(jù)集、腦視覺信號獲取、數(shù)據(jù)分析三個方面回顧了實驗條件及方法,對視覺神經(jīng)活動和識別行為表現(xiàn)的實驗設(shè)計進(jìn)行了總結(jié)。
本文首先對近年來提出的幾類基于腦啟發(fā)的視覺物體識別模型進(jìn)行詳細(xì)介紹,并根據(jù)模型的發(fā)展階段和模型構(gòu)建方式進(jìn)行分類;接著介紹基于DNN的目標(biāo)識別模型于視覺系統(tǒng)的相似性分析;然后介紹腦啟發(fā)模型的實驗條件和評價方法;最后是本文的總結(jié)。
基于腦啟發(fā)的目標(biāo)識別模型的主要動機是通過模擬視覺功能機理、神經(jīng)活動預(yù)測的方式提取、抽離大腦中視覺目標(biāo)表征和識別過程的生物網(wǎng)絡(luò)模型,進(jìn)而構(gòu)建生物學(xué)上可信的類腦目標(biāo)識別模型。它們一般通過心理物理學(xué)實驗或腦信號采集實驗發(fā)現(xiàn)大腦目標(biāo)識別的一般規(guī)律,進(jìn)而采用人工神經(jīng)網(wǎng)絡(luò)模型映射到人類視覺皮層,揭示出大腦目標(biāo)識別的大規(guī)模動力學(xué)。隨著認(rèn)知心理學(xué)和認(rèn)知神經(jīng)科學(xué)不斷發(fā)展,腦電圖(EEG)、fMRI以及腦磁圖(MEG)等腦信號獲取技術(shù)先后問世,使得采用科學(xué)手段對大腦活動進(jìn)行解讀成為可能。研究人員通過采集不同時空尺度的大腦活動信號,利用數(shù)學(xué)模型建立這些信號與大腦視覺感知與認(rèn)知狀態(tài)間的映射關(guān)系,實現(xiàn)對人類的視覺認(rèn)知進(jìn)行辨識或重構(gòu)的目的,將大腦中的想法轉(zhuǎn)化成自動化設(shè)備的驅(qū)動力。
然而,目前利用先進(jìn)的成像設(shè)備已經(jīng)探索出大腦視覺系統(tǒng)的部分神經(jīng)機制和功能特性,如何將其映射到人類可以修改和控制的計算機軟件或設(shè)備上,模擬腦視覺功能實現(xiàn)機器視覺智能。因此類腦視覺成為計算機視覺領(lǐng)域最新的熱點方向。視覺信息編解碼技術(shù)為類腦視覺領(lǐng)域發(fā)展提供了可能。如圖2所示,視覺信息編解碼以視覺認(rèn)知理論為基礎(chǔ),通過采集人眼接受不同圖像刺激時大腦響應(yīng)的時空數(shù)據(jù)建立并訓(xùn)練數(shù)學(xué)模型,可以預(yù)測人眼看到新的圖像時的大腦響應(yīng),或者根據(jù)采集到的大腦響應(yīng)進(jìn)而識別、重構(gòu)人眼所看到的圖像。通過視覺信息編解碼技術(shù),探究大腦的認(rèn)知機理,模擬人類視覺處理信息的過程。
圖2 受腦啟發(fā)的目標(biāo)識別模型的邏輯關(guān)系Fig.2 Logical relationship of brain-inspired object recognition model
許多受生物啟發(fā)的目標(biāo)識別模型試圖通過視覺信息編解碼的方式復(fù)制靈長類動物腹側(cè)流中觀察到的現(xiàn)象,并應(yīng)用于計算機視覺領(lǐng)域。盡管最近重新發(fā)現(xiàn)了卷積神經(jīng)網(wǎng)絡(luò)已導(dǎo)致機器視覺分類性能的顯著改進(jìn),但是在目標(biāo)識別、解釋視覺場景方面,機器仍然無法達(dá)到人類表現(xiàn)出的出色性能。在這里,回顧神經(jīng)科學(xué)與計算機視覺之間在視覺目標(biāo)識別任務(wù)中的相互作用,并對未來的交叉授粉提出可能的途徑。
在梳理和查閱大量文獻(xiàn)的基礎(chǔ)上,根據(jù)發(fā)展階段,腦啟發(fā)模型的構(gòu)建大致分為宏觀模型和微觀模型,宏觀模型側(cè)重于整體結(jié)構(gòu)層面,微觀模型更側(cè)重于微觀神經(jīng)元的模擬。此外,根據(jù)第2章中所述的視覺物體識別的神經(jīng)機制,構(gòu)建大腦激發(fā)的物體識別模型主要需要以下特征:視覺神經(jīng)結(jié)構(gòu)、視覺特征、視覺皮層的神經(jīng)功能和信息表達(dá)。因此,將從模型架構(gòu)和模型發(fā)展兩個角度對腦源性物體識別模型進(jìn)行綜合分類。從模型構(gòu)建所采用的基本框架來劃分模型架構(gòu),包括模擬視覺通路結(jié)構(gòu)和神經(jīng)功能兩個特點,分為基于CNN、基于SNN和仿生突觸。從模型建立的方法來看,模型發(fā)展分類包括兩個特征:模擬視覺特征和視覺皮層信息表達(dá)。該模型分為視覺神經(jīng)功能模擬模型和神經(jīng)激活預(yù)測模型。所提出的基于腦啟發(fā)的視覺目標(biāo)識別模型分類如圖3所示。在本章中,不僅對最先進(jìn)的基于腦啟發(fā)的目標(biāo)識別方法進(jìn)行分類,還對這些方法的主要動機和貢獻(xiàn)進(jìn)行分類,為確定未來的方向提供了有益的視角。
圖3 腦啟發(fā)目標(biāo)識別的研究分類Fig.3 Research classification of brain-inspired object recognition
1.1.1 宏觀層次模型
如圖4所示,表示腦啟發(fā)的視覺目標(biāo)是被模型的時間軸,其中的里程碑分別為Hubel和Wiesel[2-3]、HMAX模型[4-5]、AlexNet[6]、Look and Think Twice[7]、Spaminato[8]。生物視覺系統(tǒng)模型的研究起始于Hubel和Wiesel[2-3]獲得諾貝爾獎的工作。
圖4 腦啟發(fā)的視覺目標(biāo)識別模型的時間軸Fig.4 Timeline of brain-inspired object recognition model
他們的關(guān)鍵發(fā)現(xiàn)是:視覺皮層中的神經(jīng)元形成一種包含局部濾波器的結(jié)構(gòu),濾波器以空間頻率和方向性的成欄排列與組織。他們指出形狀、顏色、運動和深度等視覺信息,是采取了既平行又分級的串行信息處理方式,從視網(wǎng)膜、外側(cè)膝狀體、V1區(qū)、V2區(qū)到V4區(qū)的視覺通路流動。基于視覺感知機理的分層結(jié)構(gòu)模型則是根據(jù)上述生理結(jié)構(gòu)以及視覺感受野理論提出的。
Mel[9]在1997年結(jié)合視覺系統(tǒng)的并行處理機制提出了一種前饋等級結(jié)構(gòu)的SEEMORE模型。該模型兼顧了顏色、形狀、紋理等102種特征,提高了識別的準(zhǔn)確性和健壯性。但是每個特征通道對圖像單獨進(jìn)行一次運算,導(dǎo)致運算量過大。Rybak等人[10]首先于1998年提出了著名的Rybak模型,該模型主要用于場景感知和物體識別。其包括三個子系統(tǒng),低層子系統(tǒng)模擬視網(wǎng)膜中央凹的特性,將原始圖像進(jìn)行初級變換并檢測對應(yīng)的初級特征;中層子系統(tǒng)主要對初級特征集進(jìn)行變換以獲得具有一定不變性的二級特征;最后高級子系統(tǒng)通過分離的“what”結(jié)構(gòu)(感覺記憶)和“where”結(jié)構(gòu)(動作記憶)實現(xiàn)目標(biāo)識別。模型存在的缺陷是它是基于符號表示的,并注重復(fù)雜的視覺搜索語義問題。
HMAX模型最先由Riesenhuber和Poggio[4]在1999年提出。該模型總結(jié)了靈長類動物的視覺皮層腹側(cè)視覺流的要點,嘗試通過研究大腦區(qū)域的層次特征模擬視覺皮層的目標(biāo)識別過程。HMAX模型總結(jié)了靈長類動物的視覺皮層的腹側(cè)視覺流的要點,通過研究大腦區(qū)域的層次特征模擬視覺皮層的目標(biāo)識別過程。HMAX的體系結(jié)構(gòu)由四個層次的計算層組成,命名為S1、C1、S2和C2,其中簡單的S單元與復(fù)雜的C單元[11]交替使用。S單元和C單元的設(shè)計靈感分別來自于簡單細(xì)胞和復(fù)雜細(xì)胞的特性,同時,該模型的輸出特征不受比例、位置和方向的影響。自引入HMAX模型以來,基于視覺顯著性的注意機制和HMAX模擬哺乳動物視覺系統(tǒng)功能[12],被應(yīng)用到圖像目標(biāo)識別任務(wù)當(dāng)中。同時,人們提出了許多方法來開發(fā)和提高該模型的識別性能。其中一些方法專注于特定應(yīng)用[13]的模型增強,還有一些方法提高了所有應(yīng)用模型的一般性能[14]:基于視覺注意計算模型的啟發(fā),提出了用于物體識別的patch選擇方法。還有一些研究工作基于主旨的場景識別、基于顯著性的注意和基于HMAX設(shè)計物體識別模型,并將模型移植到硬件加速系統(tǒng)中實現(xiàn)[12]。該模型基于對哺乳動物大腦視覺皮層中視覺系統(tǒng)的理解。在這些前人的基礎(chǔ)上,一些科研人員以靈長類為實驗?zāi)繕?biāo),研究其視覺皮層的工作過程,并提出了新的分層結(jié)構(gòu)模型[15-16]、感受野模型[17]和注意機制模型[18]。
早期模型主要停留在模擬腹側(cè)通路的初級視覺區(qū)域(V1和V2),忽略了更高層次視覺皮層神經(jīng)機制對目標(biāo)表達(dá)的重要作用[19]。2013年,Azzopardi等人[20-22]從形狀選擇性V4神經(jīng)元的功能中獲得靈感,設(shè)計了可訓(xùn)練的視覺模式識別濾波器COSFIRE,可以檢測線、頂點和更復(fù)雜的輪廓特征。通過選擇一組定向選擇性濾波器的給定信道,并通過加權(quán)幾何平均值組合響應(yīng)配置COSFIRE,使其對形成給定原型模式的線條和邊緣的空間安排具有選擇性。同時,COSFIRE濾波器實現(xiàn)了旋轉(zhuǎn)、尺度和反射不變性。
1.1.2 神經(jīng)元微觀模型
以上的模型研究致力于視覺功能模擬的類腦計算,但是與人類視覺依舊存在較大的差距。2004年,Deco等人[23]提出了一種神經(jīng)元處理意義上的模型,該模型通過模擬來自后頂葉或顳葉皮層(IT)的自上而下的注意力反饋,以及V1和V2區(qū)中兩視覺通路的相互作用,實現(xiàn)基于空間和基于目標(biāo)的視覺搜索。研究發(fā)現(xiàn)了神經(jīng)元群體的交錯連接構(gòu)成神經(jīng)網(wǎng)絡(luò),并受此啟發(fā)構(gòu)建了具有自適應(yīng)性單神經(jīng)元組成的逐級并行互聯(lián)的人工神經(jīng)網(wǎng)絡(luò)(artificial neural network,ANN)[24]。進(jìn)一步發(fā)展的深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)大量樣本的內(nèi)在規(guī)律和層次表征,其在計算機視覺領(lǐng)域取得了巨大的進(jìn)步。深度神經(jīng)網(wǎng)絡(luò)使用的計算概念可以追溯到Hubel和Wiesel[3]的靈長類動物視覺系統(tǒng)的早期模型,他們假設(shè)在初級視覺皮層中存在更復(fù)雜的功能反應(yīng)(“復(fù)雜”細(xì)胞)是由更簡單的響應(yīng)(“簡單”單元格)構(gòu)建。深度神經(jīng)網(wǎng)絡(luò)的層次化結(jié)構(gòu)借鑒了人腦中前饋視覺表征的層次化結(jié)構(gòu)。主要思想是從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)各層的呈現(xiàn)形式,在進(jìn)行參數(shù)優(yōu)化時使用監(jiān)督或非監(jiān)督學(xué)習(xí)。層次卷積網(wǎng)絡(luò)的關(guān)鍵在于學(xué)習(xí)一系列具有層級體系的濾波器組,這些模型的深度導(dǎo)致了有相當(dāng)數(shù)量的參數(shù)需要學(xué)習(xí),以及需要解決復(fù)雜的非凸優(yōu)化問題。然而,目前的神經(jīng)網(wǎng)絡(luò)(CNN、SNN)已逐漸遠(yuǎn)離生物學(xué)主題,這主要是由于過去幾年的工程突破已經(jīng)改變了計算機視覺領(lǐng)域。神經(jīng)網(wǎng)絡(luò)的進(jìn)一步工程設(shè)計已達(dá)到飽和點、層數(shù)、激活函數(shù)、參數(shù)調(diào)整、梯度函數(shù)等方面的新穎性帶來的準(zhǔn)確性提高幅度較小。盡管有證據(jù)表明在某些狹義的任務(wù)上目標(biāo)分類已經(jīng)達(dá)到了人類的水平[25],但對于一般應(yīng)用而言,生物視覺系統(tǒng)要遠(yuǎn)遠(yuǎn)優(yōu)于任何計算機。
盡管CNN已經(jīng)廣泛應(yīng)用于基于深度學(xué)習(xí)的目標(biāo)識別方法,近年來,其他結(jié)構(gòu)也用于模擬大腦視覺目標(biāo)識別機制,提高識別準(zhǔn)確率和魯棒性。根據(jù)模型框架的不同,分為基于CNN、基于SNN和基于仿生突觸的模型。
CNN-based模型是一類包含卷積計算且具有深度結(jié)構(gòu)的前饋神經(jīng)網(wǎng)絡(luò),具有表征學(xué)習(xí)能力,能夠按其階層結(jié)構(gòu)對輸入信息進(jìn)行平移不變分類,卷積神經(jīng)網(wǎng)絡(luò)仿造生物的視知覺機制構(gòu)建,由S層(simple-layer)和C層(complex-layer)交替構(gòu)成網(wǎng)絡(luò)的層級結(jié)構(gòu)。但是其神經(jīng)元結(jié)構(gòu)進(jìn)行了簡化和抽象,與視皮層的神經(jīng)元特性相去甚遠(yuǎn)。SNN-based模型精確地建立基于脈沖產(chǎn)生時間神經(jīng)網(wǎng)絡(luò)模型,這種新型的神經(jīng)網(wǎng)絡(luò)采用脈沖編碼,通過獲得脈沖發(fā)生的精確時間,獲得更多的信息和更強的計算能力。同時,脈沖網(wǎng)絡(luò)的神經(jīng)元在膜電位達(dá)到閥值才被激活,相較于CNN-based模型,其模擬神經(jīng)元的特性更加接近實際。其中,每個類別中按照開發(fā)模型的不同方式進(jìn)行分類,包括神經(jīng)激活預(yù)測和神經(jīng)功能機理模擬兩個方面。
1.2.1 基于CNN的模型
最近的基于深度神經(jīng)網(wǎng)絡(luò)的目標(biāo)識別模型都在試圖復(fù)制靈長類動物視覺系統(tǒng)中觀察到的神經(jīng)機制和功能特性。這些模型中使用的計算概念可以追溯到Hubel和Wiesel[3]的靈長類動物視覺系統(tǒng)的早期模型。生物視覺模型通過暗示更高的視覺區(qū)域概括了這種機制并形成了等級結(jié)構(gòu),從而擴展了這一假設(shè)[4,9,26-29]。在過去的幾年中,已經(jīng)產(chǎn)生了一系列利用深度神經(jīng)網(wǎng)絡(luò)的視覺目標(biāo)識別系統(tǒng),并在計算機視覺基準(zhǔn)上取得了最先進(jìn)的性能[24,30-31]。卷積神經(jīng)網(wǎng)絡(luò)(CNN)框架最近的成功很大程度上歸功于其大腦啟發(fā)性的體系結(jié)構(gòu),類似于Hubel和Wiesel[3]描述的簡單和復(fù)雜的細(xì)胞層次結(jié)構(gòu)。因此,大量的研究人員通過獲取靈長類動物大腦信號,指導(dǎo)和設(shè)計DNN模型模擬腦視覺神經(jīng)機制,實現(xiàn)類腦目標(biāo)識別。因此,基于CNN的類腦目標(biāo)識別模型根據(jù)以下方式分類。
視覺神經(jīng)功能機理模擬:視覺系統(tǒng)的信息處理過程被認(rèn)為是復(fù)雜的行為目標(biāo)識別能力的基礎(chǔ),模型也必須在性能指標(biāo)上與其相匹配,在目標(biāo)識別任務(wù)上等于或超過視覺皮層的性能。在這里,為了實現(xiàn)模擬視覺信息處理和神經(jīng)機制并構(gòu)建類腦目標(biāo)識別模型的目標(biāo),研究人員通過觀察和聯(lián)想信息處理的過程設(shè)計視覺認(rèn)知水平上的目標(biāo)識別模型,而不必同時處理其執(zhí)行在神經(jīng)活動上可信的成分,如表1中的方法所示[32-39]。這一類模型抽象、簡化了部分視覺功能機理,即使是一種連接機制也可以用神經(jīng)網(wǎng)絡(luò)模型捕獲。
表1 模擬視覺系統(tǒng)功能機理的CNN類腦目標(biāo)識別模型Table 1 CNN-based brain-inspired object recognition models based on functional mechanism simulation of visual system
(1)模擬視覺皮層目標(biāo)感知能力從而提供穩(wěn)定的目標(biāo)表征:結(jié)合初級視覺皮層自上而下的影響在輪廓整合和視覺顯著性過程中發(fā)揮的重要作用[40]。反饋連接機制也參與視覺目標(biāo)特征提取過程,Karimi-Rouzbahani等人[41]建立網(wǎng)絡(luò)模型整合這一研究成果。還有部分研究[42-43]在建立腦啟發(fā)的深度網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練視覺目標(biāo)識別的過程中,自發(fā)的產(chǎn)生了數(shù)字選擇神經(jīng)元,解釋了基于視覺系統(tǒng)固有機制的數(shù)字感的自發(fā)出現(xiàn)。
(2)模擬神經(jīng)反饋連接機制:反饋機制作為最先引入基于CNN模型進(jìn)行改進(jìn)的方法,模擬視覺皮層自上而下的影響,顯著提高了傳統(tǒng)的前饋架構(gòu)的識別性能。Cao等人[7]受到人類視覺皮層中的反饋機制的啟發(fā),最先提出一種反饋卷積神經(jīng)網(wǎng)絡(luò)體系架構(gòu),保持前饋階段不變,通過共同推理類節(jié)點的輸出以及在反饋循環(huán)期間激活隱藏層神經(jīng)元實現(xiàn)分類。后續(xù)的研究者[32-33,36,41]普遍都采取了自上而下的反饋機制增強標(biāo)準(zhǔn)的前饋深度模型,即便還添加了其他的連接機制。
(3)模擬神經(jīng)元橫向連接機制:視覺皮層中豐富的循環(huán)(橫向)連接在環(huán)境調(diào)節(jié)中起著重要作用[44]。鑒于CNN模型是典型的前饋結(jié)構(gòu),Liang等人[45]根據(jù)視覺系統(tǒng)中具有豐富的循環(huán)連接,提出一種循環(huán)CNN(RCNN)框架(神經(jīng)科學(xué)領(lǐng)域常用橫向連接),通過將循環(huán)連接合并到每個卷積層中進(jìn)行目標(biāo)識別。這一特性增強了模型整合上下文信息的能力,這對目標(biāo)識別非常重要。之后很多研究人員考慮到了缺乏橫向連接的CNN結(jié)構(gòu)與生物目標(biāo)處理嚴(yán)格地區(qū)分開來,在網(wǎng)絡(luò)學(xué)習(xí)過程中引入遞歸連接結(jié)構(gòu)修改經(jīng)典的CNN結(jié)構(gòu)。Zweig等人[32]從視覺皮層的填充過程受到啟發(fā),將神經(jīng)元之間的橫向依賴性和多層監(jiān)督引入網(wǎng)絡(luò)學(xué)習(xí)過程,顯著提高性能。其后有更多的研究者通過引入橫向抑制[33]、橫向連接[36]的方式修改經(jīng)典的CNN架構(gòu),在網(wǎng)絡(luò)中引入自底向上和自頂向下計算的遞歸循環(huán),更新其內(nèi)部表示,減少每層自底向上輸入和自頂向下預(yù)測的差異。Park等人[39]發(fā)現(xiàn)并模擬了視覺皮層中的遠(yuǎn)程水平連接(LRCs)機制并添加到淺層前饋網(wǎng)絡(luò)中,實現(xiàn)在淺層層次深度的物理約束下的目標(biāo)識別,進(jìn)一步挖掘了橫向連接機制的在目標(biāo)識別任務(wù)中的性能。
(4)注意力控制:物體檢測是由注意力控制機制介導(dǎo)的,認(rèn)為物體檢測是由注意力控制機制介導(dǎo)的,計算機視覺和生物視覺在本質(zhì)上具有相似性。利用這種共性,Adeli等人[34]將基于CNN的網(wǎng)絡(luò)結(jié)構(gòu)與靈長類注意力控制系統(tǒng)的注意偏見競爭(BC)理論融合,使用注意力啟發(fā)的深度網(wǎng)絡(luò)(DNN)預(yù)測人類的目標(biāo)定向行為。還有研究使用類別一致特征(CCFs)表示目標(biāo)類別設(shè)計的基于靈長類腹側(cè)流的卷積神經(jīng)網(wǎng)絡(luò)(VsNet)可以通過提取和使用類別一致的特征預(yù)測目標(biāo)導(dǎo)向的注意力控制[35]。
神經(jīng)激活預(yù)測:另一種可能的解決方案是采用逆向工程的方式,即通過神經(jīng)生理學(xué)或神經(jīng)成像技術(shù)記錄大腦神經(jīng)激活數(shù)據(jù),進(jìn)而識別大腦用于視覺分類的特征空間。與此相關(guān)的是,較高的視覺神經(jīng)通路也被認(rèn)為是復(fù)雜的行為目標(biāo)識別能力的基礎(chǔ)[46-47]。很多研究人員通過建模的方式在性能指標(biāo)上匹配視覺皮層,一個在視覺皮層中具有完美神經(jīng)預(yù)測能力的模型必然會表現(xiàn)出高性能。因此,結(jié)合fMRI和EEG等技術(shù),大量研究工作探索了多種生物學(xué)上可信的層次神經(jīng)網(wǎng)絡(luò)模型,根據(jù)測量的視覺神經(jīng)反應(yīng)數(shù)據(jù)對它們進(jìn)行評估。如表2的最新研究結(jié)果表明[8,48-55],在一個具有挑戰(zhàn)性的視覺目標(biāo)識別任務(wù)上,基于CNN架構(gòu)的目標(biāo)識別模型的表現(xiàn)與其預(yù)測視覺神經(jīng)單元反應(yīng)的能力之間有很強的相關(guān)性。盡管這些模型沒有明確地限制在匹配神經(jīng)數(shù)據(jù)上,但輸出層能夠高度預(yù)測視覺皮層的神經(jīng)反應(yīng)。下面從神經(jīng)激活信號獲取途徑的角度對類腦目標(biāo)識別模型進(jìn)行分類。
表2 基于神經(jīng)激活預(yù)測的CNN類腦目標(biāo)識別模型Table 2 CNN-based brain-inspired object recognition models based on visual neural activation prediction
(1)基于BOLD fMRI技術(shù):功能磁共振成像(functional MRI)是一種非常有效的研究腦功能的非介入技術(shù),已經(jīng)成為最廣泛使用的腦功能研究手段。通過顯示大腦各個區(qū)域內(nèi)靜脈毛細(xì)血管中血液氧合狀態(tài)發(fā)現(xiàn)腦區(qū)激活部位,實現(xiàn)大腦活動的功能定位。同時,由于CNN模型的表現(xiàn)與其預(yù)測視覺神經(jīng)單元反應(yīng)的能力之間的相關(guān)性,因此,大量的科研團隊借助fMRI技術(shù)生成的大腦活動信號映射到基于CNN架構(gòu)的預(yù)測編碼模型,使用圖像識別驅(qū)動的人工網(wǎng)絡(luò)模型模擬視覺皮層的目標(biāo)識別性能。Eickenberg等人[49]利用卷積網(wǎng)絡(luò)的層次組織識別目標(biāo),通過構(gòu)建基于不同層次和BOLD fMRI激活的預(yù)測模型模擬人類大腦活動。為了解決大腦分布式視覺表示如何實現(xiàn)目標(biāo)分類的問題,Wen等人[50]建立了基于深度殘差網(wǎng)絡(luò)的預(yù)測編碼模型,其以高通量和準(zhǔn)確性將皮層映射到的視覺目標(biāo)涵蓋了腹側(cè)和背側(cè)通路,反映了目標(biāo)特征的多個級別,同時還保留了類別之間的語義關(guān)系,以預(yù)測對自然動作的皮層反應(yīng)。針對較少的研究目標(biāo)得到的實驗結(jié)果在整個人群中推廣的困難,還提出一種針對受試者和人群的高維和層次視覺特征的皮層表征預(yù)測DNN模型,使用圖像識別驅(qū)動的深度殘差神經(jīng)網(wǎng)絡(luò)模擬視覺皮層處理[51]。Seeliger等人[52]基于BOLD fMRI的大腦活動信號預(yù)測生成模型的潛在空間,探索了使用深度卷積生成對抗網(wǎng)絡(luò)(DCGAN)[56]重建任意自然圖像的能力。以上的模型開發(fā)雖然解決的問題略有差異,但是都具有共同的特征:基于fMRI視覺功能數(shù)據(jù)的CNN模型關(guān)注于視覺皮層表征預(yù)測,通過被試在自然圖像刺激下采集到的fMRI視覺功能數(shù)據(jù),利用fMRI數(shù)據(jù)以及刺激圖像構(gòu)造、優(yōu)化和訓(xùn)練深度卷積神經(jīng)網(wǎng)絡(luò)模型,提高基于CNN模型的目標(biāo)識別準(zhǔn)確性。
(2)基于腦電信號采集技術(shù):腦電圖是腦神經(jīng)細(xì)胞群的電生理活動在大腦皮層或頭皮表面的總體反映。視覺皮層的腦電波中包含了大量視覺信息處理過程的表征,通過對腦電圖信號進(jìn)行分類探索直接的人類參與形式,學(xué)習(xí)一種視覺類別的大腦信號鑒別流形,用于自動視覺分類。通過對腦電波的采集和處理,可以為類腦目標(biāo)識別模型的構(gòu)建提供依據(jù)。最新的一些研究[48]結(jié)合高通量計算和電生理技術(shù),提出了一種可以生成定量的下顳葉(IT)皮層(最高腹側(cè)皮層區(qū)域)層次神經(jīng)網(wǎng)絡(luò)模型,該模型在視覺目標(biāo)識別任務(wù)上的性能與其預(yù)測單個IT神經(jīng)單元響應(yīng)數(shù)據(jù)的能力之間存在很強的相關(guān)性。Federer等人[53]使用多電極陣列采集神經(jīng)活動的統(tǒng)計屬性作為訓(xùn)練DNNs的指導(dǎo)信號,模擬大腦對物體識別任務(wù)的表征,觀察到所有的訓(xùn)練網(wǎng)絡(luò)都得到了性能提升,包括較小的(CORNet-Z)架構(gòu)與較大的(VGG-16)架構(gòu),證明了這種方法的潛在效用。Spampinato等人[8]開發(fā)了由人腦信號驅(qū)動的視覺目標(biāo)分類器,利用由視覺目標(biāo)刺激誘發(fā)的腦電圖數(shù)據(jù)結(jié)合遞歸神經(jīng)網(wǎng)絡(luò)(RNN)學(xué)習(xí)進(jìn)行視覺類別的判別性大腦活動流形,并基于此,發(fā)布了用于視覺目標(biāo)分析的最大的EEG數(shù)據(jù)集。借助腦電信號技術(shù)具有較好的時間分辨率的特性,利用由視覺目標(biāo)誘發(fā)的腦電圖數(shù)據(jù)“指導(dǎo)”深度神經(jīng)網(wǎng)絡(luò)的構(gòu)建與學(xué)習(xí),開發(fā)由人腦信號驅(qū)動的視覺目標(biāo)分類器,一方面可能為人類視覺感知系統(tǒng)提供有意義的見解;另一方面,這一新的生物啟發(fā)方式對計算機視覺方法的影響是巨大的,可能從根本上改變目標(biāo)分類器的發(fā)展方式。
綜上所述,雖然現(xiàn)有的基于CNN架構(gòu)的類腦目標(biāo)識別模型在視覺功能模擬和神經(jīng)激活預(yù)測方面都具有優(yōu)異的表現(xiàn),但仍然有一些主要的局限性:一個受監(jiān)督的框架必須使用大型手動標(biāo)記的訓(xùn)練集對其訓(xùn)練。同時,缺乏一個正式的框架引入更高層次的抽象——用于對不同目標(biāo)和概念一起出現(xiàn)的場景進(jìn)行上下文理解,這是發(fā)展一個強健的視覺框架所必需的。另一方面,生物視覺系統(tǒng)基本上是無監(jiān)督的學(xué)習(xí)系統(tǒng),可以基于熟悉程度和在不同環(huán)境中反復(fù)的視覺刺激學(xué)習(xí)高度靈活的目標(biāo)模型。其次可以在各種規(guī)模下檢測學(xué)習(xí)到的目標(biāo),并且保持很高的分辨率和計算效率。因此,探索生物系統(tǒng)和深度卷積神經(jīng)網(wǎng)絡(luò)之間的潛在協(xié)同作用仍然是一個令人關(guān)注的話題。
1.2.2 基于SNN的模型
通過生物可解釋的方式建立人工神經(jīng)系統(tǒng),科學(xué)家希望可以通過神經(jīng)科學(xué)和行為實驗達(dá)到預(yù)期目的。大腦中的學(xué)習(xí)可以理解為突觸連接強度隨時間的變化過程,這種能力稱為突觸可塑性。為了設(shè)計更具有生物學(xué)合理性的計算模型,神經(jīng)可塑性在自組織中的作用及其對神經(jīng)網(wǎng)絡(luò)完成分類任務(wù)學(xué)習(xí)性能的影響越來越受到關(guān)注。SNN作為第三代神經(jīng)網(wǎng)絡(luò),正是這種基于脈沖時間層次的學(xué)習(xí)方法研究,其模擬神經(jīng)元更加實際,同時考慮了時間信息的影響,這對于通過理論模型驗證生物神經(jīng)系統(tǒng)的信息處理和學(xué)習(xí)機制是必須的。
與傳統(tǒng)的人工神經(jīng)網(wǎng)絡(luò)相似,脈沖神經(jīng)網(wǎng)絡(luò)同樣分為功能機理模擬和神經(jīng)激活預(yù)測,如表3所示[57-62]。在功能機理模擬方面,引入突觸神經(jīng)機制模擬神經(jīng)元的學(xué)習(xí)規(guī)則。由于視覺皮層通過不同的神經(jīng)連接結(jié)構(gòu)和接受野實現(xiàn)快速的物體識別,這種不均勻性是通過神經(jīng)可塑性過程的自組織進(jìn)化而來的。并基于此,Liu等人[57]提出了一種層次自組織尖刺神經(jīng)網(wǎng)絡(luò)(SOSNN),該網(wǎng)絡(luò)模擬人體腹側(cè)通路的結(jié)構(gòu)和功能組織,應(yīng)用了突觸可塑性、穩(wěn)態(tài)可塑性和側(cè)抑制等多種神經(jīng)機制。同樣,Liang等人[63]動態(tài)調(diào)節(jié)脈沖的時間依賴可塑性學(xué)習(xí)規(guī)則構(gòu)成模擬區(qū)域的神經(jīng)元之間的興奮性和抑制性連接。同時,受腦皮層-紋狀體環(huán)機制的啟發(fā),構(gòu)建了時序信息編碼的依賴時序模塊。Kheradpisheh等人[59]提出一種生物啟發(fā)的異步前饋SNN,較高層的神經(jīng)元具有脈沖時間依賴可塑性,這些神經(jīng)元逐漸成為選擇中等復(fù)雜性的視覺特征適合目標(biāo)分類。Liu等人[61]提出了一種分層尖峰神經(jīng)網(wǎng)絡(luò)(HSNN)模擬人腦腹側(cè)通路的視覺信息處理,同時該模型引入了側(cè)抑制、內(nèi)穩(wěn)態(tài)(適應(yīng)閥值)和不應(yīng)期等生物機制,證明了生物啟發(fā)的網(wǎng)絡(luò)結(jié)構(gòu)和生物機制的結(jié)合可以顯著提高模型的性能。Song等人[62]整合高級突觸學(xué)習(xí),提出基于腦啟發(fā)的無監(jiān)督匹配追蹤編碼方法,設(shè)計了一個用于圖像識別的統(tǒng)一SNN框架。該方法使用較少的神經(jīng)元和峰值,實現(xiàn)了當(dāng)時最佳的基于時間的精度性能。此外,還有一些研究基于反饋機制的學(xué)習(xí)規(guī)則開發(fā)的小樣本學(xué)習(xí)SNN[15]。在神經(jīng)激活預(yù)測方面,Doborjeh等人[64]提出一種基于脈沖神經(jīng)網(wǎng)絡(luò)(SNN)模型學(xué)習(xí)腦電/ERP數(shù)據(jù)的深度時空模式。該模型表現(xiàn)出熟悉的刺激具有更強的連通性和更廣泛的動態(tài)時空模式,支持了SNN模型可以作為探索腦感知機制的新工具。還有研究[58]通過修改的脈沖神經(jīng)網(wǎng)絡(luò)證明了該時間模型更好地反映了人類在物體識別任務(wù)中的準(zhǔn)確性,并預(yù)測了人類在物體識別上的反應(yīng)時間。
表3 基于SNN的類腦目標(biāo)識別模型Table 3 SNN-based brain-inspired models for object recognition
然而,當(dāng)前深度學(xué)習(xí)的成功浪潮并不包括任何峰值的概念,而是通過網(wǎng)絡(luò)以離散時間步長傳播標(biāo)量值的“激活”。即使在神經(jīng)科學(xué)領(lǐng)域,雖然沒有人懷疑神經(jīng)元中存在許多時間依賴的現(xiàn)象(如尖峰時間依賴的可塑性[65]),但關(guān)于了解詳細(xì)的脈沖神經(jīng)網(wǎng)絡(luò)對理解感覺編碼是否至關(guān)重要,仍存在大量爭論[66]。而理論神經(jīng)科學(xué)的一個日益增長的分支領(lǐng)域正在使用生物神經(jīng)動力系統(tǒng)和統(tǒng)計力學(xué)的工具描述和理解相互關(guān)聯(lián)的峰值神經(jīng)元群體的行為[67]。雖然可以肯定地說,脈沖神經(jīng)網(wǎng)絡(luò)迄今為止從未作為機器視覺領(lǐng)域的佼佼者參與進(jìn)來,但隨著理論和可用計算能力的發(fā)展,這種情況可能很容易改變。
1.2.3 仿生突觸
通過引入能夠識別視覺目標(biāo),并以一種認(rèn)知的、類似人類的方式與外部世界互動的機器,大腦啟發(fā)的視覺計算可以徹底改變信息技術(shù)。要實現(xiàn)這一目標(biāo),除了需要對大腦的神經(jīng)計算模式有一個詳細(xì)的了解,其次需要確定一種可擴展的微電子技術(shù),能夠復(fù)制一些人類大腦固有的功能,如高突觸連通性(104)和特殊的依賴時間的突觸可塑性。在詳細(xì)研究大腦視覺系統(tǒng)的功能特性的同時,一種可編程邏輯器件的構(gòu)造思路——基于憶阻器交叉陣列的突觸設(shè)計。這種計算裝置就是試圖通過盡可能微型的元器件模擬神經(jīng)元,進(jìn)而實現(xiàn)與大腦神經(jīng)元相似的連接模式進(jìn)行類腦計算。這種能夠復(fù)制大腦神經(jīng)突觸的固有功能的類腦計算機,結(jié)合類腦視覺目標(biāo)識別模型的開發(fā),為未來達(dá)到甚至超越人類視覺系統(tǒng)性能的硬件實現(xiàn)帶來可能。目前已經(jīng)有研究團隊在Pedretti等人[68]通過一個具有記憶性突觸的無監(jiān)督學(xué)習(xí)和跟蹤神經(jīng)網(wǎng)絡(luò)復(fù)制部分人類大腦固有的功能,其中突觸權(quán)重通過大腦激發(fā)的放電時序依賴可塑性(spike timing dependent,STDP)更新。在一個混合單晶體管/單電阻(1T1R)記憶性突觸內(nèi),突觸電導(dǎo)通過突觸前和突觸后的局部時域疊加而更新,突觸的高低阻狀態(tài)可以滿足學(xué)習(xí)和識別模型?;诔墒斓亩唐谕挥|可塑性(STP)模型,Berberian等人[69]開發(fā)了一個由尖突神經(jīng)元組成的微電路基序,誘發(fā)大量單位表現(xiàn)出初級視覺皮層(V1)所觀察到的典型皮層方向選擇特性。然后將該模型的視覺反應(yīng)與V1多電極記錄進(jìn)行比較,驗證了STP可以作為解釋來自V1的方向選擇性的補充機制。
以上,主要考慮了三種技術(shù)架構(gòu)的類腦目標(biāo)識別模型,可以幫助人們從大腦活動數(shù)據(jù)中提取、模仿視覺目標(biāo)識別能力??梢苑治隹偨Y(jié)出,基于CNN的模型和基于SNN的模型共同點在于模擬視覺皮層的層次結(jié)構(gòu)特性,同時抽象和模擬了神經(jīng)元的功能特性,在視覺特性和識別能力上都具有一定的生物可信度。差別在于SNN-based模型更加細(xì)化神經(jīng)元模型,采用膜電位的累積效果激活神經(jīng)元。CNN-based模型具有易訓(xùn)練和結(jié)構(gòu)靈活多變的特性,導(dǎo)致CNN的發(fā)展已經(jīng)逐漸脫離生物學(xué)的主題,其改進(jìn)模型更契合于實際工程應(yīng)用。此外,文獻(xiàn)中介紹的目標(biāo)識別模型可以駐留在不同的描述層次,在認(rèn)知水平和神經(jīng)激活水平之間進(jìn)行權(quán)衡。僅捕捉神經(jīng)元成分和動態(tài)的模型往往無法解釋視覺認(rèn)知功能。相反,只捕捉視覺認(rèn)知行為的模型很難與大腦聯(lián)系起來。為了將思維和大腦聯(lián)系起來,模型必須試圖捕捉行為和神經(jīng)元動力學(xué)方面內(nèi)容。
人類的視覺物體識別是由復(fù)雜的多階段視覺信息處理過程實現(xiàn)的,這些視覺信息是在一個分布的皮層區(qū)域網(wǎng)絡(luò)中快速出現(xiàn)的。因此,理解皮層中的視覺目標(biāo)識別需要一個預(yù)測和定量的模型,該模型能夠捕獲潛在時空動力學(xué)的復(fù)雜性。最主要的挑戰(zhàn)是執(zhí)行目標(biāo)識別任務(wù)的計算模型與目標(biāo)識別過程的大腦神經(jīng)激活或行為表現(xiàn)數(shù)據(jù)之間建立堅實的橋梁。這樣一個模型與視覺皮層的相似性判斷關(guān)鍵在于中、高級視覺區(qū)域神經(jīng)調(diào)諧特性的高度非線性和稀疏性質(zhì)[70-72],這很難在實驗中捕捉。
一種新興的文獻(xiàn)開始用大腦活動數(shù)據(jù)測試目標(biāo)識別模型,特別是深度神經(jīng)網(wǎng)絡(luò)模型。最近的一些研究多項功能性磁共振成像(fMRI)研究表明,卷積神經(jīng)網(wǎng)絡(luò)在視覺信息處理方面預(yù)測了靈長類動物腹側(cè)視覺流中圖像信息的表征[3,73]。然而,深度學(xué)習(xí)方法是否達(dá)到或者超過了大腦視覺性能,目前并沒有統(tǒng)一的結(jié)論。本文這一部分描述了從實驗數(shù)據(jù)向計算模型建立聯(lián)系的自下而上的發(fā)展,將重點關(guān)注最近在目標(biāo)識別任務(wù)上成功的模型,這些模型分別從神經(jīng)激活、功能機理和行為表現(xiàn)三個角度解釋了視覺目標(biāo)認(rèn)知功能。為了保證視覺皮層預(yù)測的準(zhǔn)確性,在實驗過程中被試的刺激集與模型的測試集均保持一致(如果模型需要訓(xùn)練的話)。值得說明的一點是,與1.2.1小節(jié)中基于CNN的目標(biāo)識別模型的本質(zhì)區(qū)別在于,本節(jié)所總結(jié)的研究成果是將在目標(biāo)識別任務(wù)中表現(xiàn)優(yōu)異的已有模型或架構(gòu)(例如基于CNN的模型、基于HMAX的模型)與腦視覺系統(tǒng)的神經(jīng)活動或行為表現(xiàn)進(jìn)行對比分析,目的是探索人工網(wǎng)絡(luò)與人類視覺皮層的神經(jīng)激活表征相似性,驗證與人類視覺系統(tǒng)的目標(biāo)識別性能一致性,而不是構(gòu)造了一個全新的模型。
從詳細(xì)的腦信號測量到腦視覺信息處理的理解,一直是突出的。人們通過測量和建模視覺神經(jīng)動力學(xué)實現(xiàn)對大腦視覺目標(biāo)識別的理解,從細(xì)胞層次的信息描述到更大規(guī)模的識別行為表現(xiàn)。為了與人工神經(jīng)網(wǎng)絡(luò)相比較,與類腦目標(biāo)識別建模相同,通過神經(jīng)激活信號采集的方式表達(dá)人類大腦中物體表征過程與DNN的處理階段之間的有序關(guān)系。
CNN是目前計算機視覺目標(biāo)識別基準(zhǔn)上表現(xiàn)最好的模型,并在目標(biāo)分類方面達(dá)到人類的表現(xiàn)水平。
由表4所示[48,74-82],最近的神經(jīng)影像學(xué)研究比較了CNN輸出和視覺腹側(cè)通路的相似性分析。有研究[51]發(fā)現(xiàn)早期視覺皮層(V1)和CNN的早期層編碼形狀信息,顳前腹側(cè)皮層和CNN的最后一層對類別信息進(jìn)行編碼,人類視覺的腹通路與多個深度網(wǎng)絡(luò)均發(fā)現(xiàn)了形狀和類別之間的相互作用。同時,具有中央選擇性和圖像背景選擇性的模型單元分別對具有中央偏向和外周偏向的大腦視覺區(qū)域表現(xiàn)出強烈的表征相似性[75],這些層次對應(yīng)關(guān)系說明目標(biāo)分類的DCNN模型是生物神經(jīng)網(wǎng)絡(luò)產(chǎn)生感知表征的良好近似。Agrawal等人[79]探索了基于Fisher向量(FV)和CNN的模型都能準(zhǔn)確地預(yù)測高級別視覺區(qū)域的大腦活動,直接從像素出發(fā),而不需要任何語義標(biāo)簽或圖像的手動注釋。還有一些研究是將基于CNN的編碼模型與腦磁圖(MEG)結(jié)合的方式探索CNN模型與大腦信號之間的對應(yīng)關(guān)系,同樣發(fā)現(xiàn)了層次網(wǎng)絡(luò)模型中的刺激表征與視覺腹側(cè)流不同部位的空間對應(yīng)關(guān)系[76],以及模型中處理過程的各個階段與目標(biāo)在人腦中呈現(xiàn)的時間進(jìn)程之間的時間有序關(guān)系[77]。
表4 測量CNN模型對視覺神經(jīng)激活的預(yù)測精度研究Table 4 Research on measuring prediction accuracy of CNN-based models for neural activation
此外,部分研究工作利用多級陣列電生理系統(tǒng),將模型表示性能與同一任務(wù)和視覺圖像上的神經(jīng)反應(yīng)進(jìn)行比較,重點關(guān)注了最新的CNN模型在視覺目標(biāo)識別任務(wù)上的性能與其預(yù)測IT皮層響應(yīng)數(shù)據(jù)的能力之間的相關(guān)性[48,78,82]。有研究[78]觀察到性能相關(guān)性,并給出了生物學(xué)科新的實際IT神經(jīng)響應(yīng)模型。而前饋深度CNN激活對后期IT響應(yīng)模式的預(yù)測,論證了循環(huán)回路對快速物體識別的重要性[82]。Dong等人[80]分析了圖像刺激對AIT神經(jīng)元的響應(yīng)統(tǒng)計和DNN神經(jīng)元在單神經(jīng)元選擇性和種群稀疏性上的響應(yīng)統(tǒng)計量存在的差異。特別的是,有研究[81]使用DCNN研究沿腹側(cè)視覺通路的復(fù)雜特征轉(zhuǎn)換與頻域信號的相關(guān)性,證明深度神經(jīng)網(wǎng)絡(luò)的活動在頻域上也具有生物目標(biāo)識別的本質(zhì)特征。
一個綜合的視覺目標(biāo)識別模型不僅要產(chǎn)生感知結(jié)果,而且要捕捉適應(yīng)的神經(jīng)生理動態(tài)。廣泛應(yīng)用于計算機視覺的CNN模型通過一些固定的結(jié)構(gòu)保證一些視覺功能特性,它們在很大程度上依賴于通過大量數(shù)據(jù)或數(shù)據(jù)增強學(xué)習(xí)其他變換的屬性。然而,還不清楚編碼這些內(nèi)在屬性的人工模型是否與人類視覺系統(tǒng)相一致。
表5展示了最近的研究通過關(guān)鍵的神經(jīng)生理和心理物理實驗評估所提出的實現(xiàn)類腦目標(biāo)識別的計算模型是否具有人類視覺系統(tǒng)的功能特性[42-43,82-87]。Georgin等人[83]通過距離比較重新塑造了眾所周知的知覺和神經(jīng)現(xiàn)象,并且分析了為物體識別而訓(xùn)練的前饋深度神經(jīng)網(wǎng)絡(luò)對這些現(xiàn)象的存在情況。部分現(xiàn)象在訓(xùn)練網(wǎng)絡(luò)中是缺乏的,如三維形狀處理,表面不變性,遮擋,自然部分和全局優(yōu)勢。這些對比發(fā)現(xiàn)為改進(jìn)深層網(wǎng)絡(luò)的特性提供了線索。Vinken等人[84]通過視覺處理的前饋深度神經(jīng)網(wǎng)絡(luò)模型捕獲自適應(yīng)現(xiàn)象的內(nèi)在抑制機制,結(jié)果表明了內(nèi)在抑制的前饋傳播改變了網(wǎng)絡(luò)的功能形態(tài),復(fù)制了適應(yīng)的關(guān)鍵神經(jīng)生理和知覺特性。由于目標(biāo)識別行為被由密集循環(huán)的下顳葉皮層(IT)支持,Kar等人[82]通過前饋深度CNN激活對后期IT響應(yīng)模式的預(yù)測,淺層的循環(huán)CNN能更好地預(yù)測這些晚期IT反應(yīng),論證了循環(huán)回路對快速物體識別至關(guān)重要。Han等人[86]通過實驗測試結(jié)果指導(dǎo)神經(jīng)網(wǎng)絡(luò)建模應(yīng)該通過神經(jīng)元的感受野大小和采樣密度捕捉到的偏心相關(guān)表示,以及編碼不同的尺度通道,內(nèi)置尺度不變性功能。Hong等人[87]系統(tǒng)地探索了多個腹側(cè)視覺區(qū)域支持各種“類別正交”物體屬性的能力,發(fā)現(xiàn)下顳種群編碼所有測量的類別正交目標(biāo)屬性,比早期的腹流區(qū)域更明確。同時,他們基于簡單計算原理的層次神經(jīng)網(wǎng)絡(luò)模型解釋了這種跨區(qū)域?qū)哟谓Y(jié)構(gòu)??梢园l(fā)現(xiàn),盡管目前的卷積神經(jīng)網(wǎng)絡(luò)在許多方面與生物視覺不同[88]但它們構(gòu)成了一個合理的一階近似建模腹側(cè)流處理,使得沿著腹側(cè)視覺流顯示與神經(jīng)元表征相似的內(nèi)部特征表征[48,78]。并為建立一般和全面的適應(yīng)模型提供了一個合適的契機。
表5 測量CNN模型反映視覺功能特性研究Table 5 Research on verifying visual neural mechanism of CNN-based models
同樣,人腦的目標(biāo)識別行為表現(xiàn)是否與模型的行為模式相一致,最近的心理物理研究對這一方面進(jìn)行了多方面的探索,如表6所示[41,89-93]。為了尋求計算機系統(tǒng)和人腦使用的計算模式是相似的還是不同,Ullman等人[90]通過結(jié)合一種最小可識別圖像的新方法和仿真表明,人類識別系統(tǒng)的特征提取和學(xué)習(xí)過程。并且展示了在非最小圖像中,圖像的微小變化會對其識別產(chǎn)生巨大影響。為了驗證深度卷積神經(jīng)網(wǎng)絡(luò)(DCNN)在視點不變的物體識別任務(wù)中是否與人類的表現(xiàn)相匹配,Kheradpisheh等人[91]對8個當(dāng)時最先進(jìn)的DNN、HMAX模型和基線淺模型進(jìn)行了基準(zhǔn)測試和比較,發(fā)現(xiàn)視點變化的幅度決定了DNN的網(wǎng)絡(luò)深度,以匹配人類的性能和錯誤分布。因此,基于CNN的模型的行為模式與靈長類動物的行為模式相似[89,91],可以為靈長類核心物體識別的行為表現(xiàn)提供定量解釋。Rajalingham等人[89]使用靈長類視覺的主要機制模型(DCNNIC)與靈長類的行為特征進(jìn)行比較,發(fā)現(xiàn)現(xiàn)有的DCNNIC模型不能解釋靈長類動物的圖像級行為模式,而且不是由簡單地模型修改所解釋,需要更精確的網(wǎng)絡(luò)模型捕捉靈長類動物目標(biāo)視覺的神經(jīng)機制。為了證明人類和機器的性能差距是否是由于目標(biāo)表示的系統(tǒng)差異造成的,部分研究的實驗結(jié)果展示出所有的計算模型都顯示出了感知的系統(tǒng)性偏差,揭示了計算機視覺算法中缺失的關(guān)鍵元素,并指出了大腦高級視覺區(qū)域?qū)@些屬性的明確編碼[92]。
表6 評估CNN模型匹配靈長類識別行為表現(xiàn)Table 6 CNN models for achieving primate recognition behavioral performance
綜上所述,基于CNN的目標(biāo)識別模型與人類視覺系統(tǒng)在神經(jīng)預(yù)測、神經(jīng)機理特性和識別行為表現(xiàn)等方面都具有一定的相似性表現(xiàn),深度神經(jīng)網(wǎng)絡(luò)模型單元編碼的特征是由一組豐富的、為目標(biāo)識別優(yōu)化的、日益復(fù)雜的特征組成,這與靈長類動物腹側(cè)流[48,78]的神經(jīng)元編碼的特征相當(dāng)吻合。其次,在層次網(wǎng)絡(luò)中,被訓(xùn)練識別目標(biāo)的早期深度神經(jīng)網(wǎng)絡(luò)層包含了類似于早期視覺皮層的表征。當(dāng)沿著腹側(cè)視覺流移動時,神經(jīng)網(wǎng)絡(luò)需要復(fù)雜的多層模型捕捉層疊的適應(yīng)[94]。但是人類與當(dāng)前深度神經(jīng)網(wǎng)絡(luò)的一個重要的區(qū)別在于所需訓(xùn)練集的規(guī)模大小。人類可以通過短暫的視覺信息中準(zhǔn)確地學(xué)習(xí)到復(fù)雜的視覺目標(biāo)類別[95]。相比之下,目前基于CNN的模型需要大量數(shù)據(jù)才能工作。
無論是開展人腦目標(biāo)識別神經(jīng)機理研究,或是構(gòu)建大腦啟發(fā)的目標(biāo)識別網(wǎng)絡(luò)或模型,需要引入靈長類動物腦實驗設(shè)計方法,對視覺系統(tǒng)的功能機理或神經(jīng)激活進(jìn)行提取,定量描述視覺通路的神經(jīng)機制。實驗開展首先對刺激集選取有一定的要求,其主要動機是選擇統(tǒng)一、多樣的視覺目標(biāo)圖像激發(fā)靈長類動物識別行為表現(xiàn)或視覺皮層的神經(jīng)反應(yīng)。接著,腦信號獲取途徑旨在有效的測量用于被試。他們的一般動機分為定量測量被試的行為表現(xiàn)或神經(jīng)反應(yīng)(例如,fMRI、EEG、心理物理學(xué)實驗)。最后,對獲得的腦視覺目標(biāo)識別反應(yīng)的測量數(shù)據(jù)進(jìn)行統(tǒng)計分析,其主要分為表征相似性分析、統(tǒng)計分析、分類準(zhǔn)確性、相關(guān)性。下面從圖像數(shù)據(jù)集選取、腦信號獲取途徑以及數(shù)據(jù)分析方法三個方面對目標(biāo)識別神經(jīng)機理研究方法和類腦目標(biāo)識別建模方法進(jìn)行綜合分類。
根據(jù)第2章分析可知,視覺通路上的各個腦區(qū)在視覺目標(biāo)識別過程中產(chǎn)生的神經(jīng)活動和功能機理各不相同,因此,圖像數(shù)據(jù)集的選取與需要探究的視覺神經(jīng)機制具有較強的相關(guān)性,這些腦視覺目標(biāo)識別的神經(jīng)機制研究方法所采用的刺激集依據(jù)實驗?zāi)康亩?。按照獲取的途徑進(jìn)行分類如下所示。
視覺刺激集:大多數(shù)研究靈長類動物的視覺目標(biāo)識別的神經(jīng)機制,通過視覺刺激輸入分析腦神經(jīng)激活狀態(tài)或識別行為表現(xiàn)。其中,根據(jù)實際研究的神經(jīng)機制和方法,采用公開的彩色圖像數(shù)據(jù)集或互聯(lián)網(wǎng)收集的方式建立視覺圖像刺激集,有針對性地誘發(fā)出可識別的、具有特征性的神經(jīng)活動或識別行為表現(xiàn)。
(1)根據(jù)實際研究的視覺神經(jīng)功能機理自建數(shù)據(jù)集:文獻(xiàn)[49],[51],[74],[75],[81],[86],[89],[91],[92],[96],[97],[98],[99],[100],[101],[102],[103],[104]。
(2)基于已有的計算機建模軟件生成(如表7所示):文獻(xiàn)[1],[41],[78],[82],[93],[105],[106],[107],[108]。
表7 基于計算機模型軟件生成視覺刺激集Table 7 Generate visual stimulus sets based on computer modeling software
(3)采用公開數(shù)據(jù)集:文獻(xiàn)[85],[109],[110](hemera photo objects);文獻(xiàn)[111](Radboud[112]);文獻(xiàn)[41](3D car mesh models);文獻(xiàn)[113],[114](LabelMe[115]);文獻(xiàn)[116](super formula[117]);文獻(xiàn)[118](PICS);文獻(xiàn)[119],[120](Snodgrass and Vanderwart normed set);文獻(xiàn)[121],[122](a standardized set of 260 pictures[123]);文獻(xiàn)[124](Kriegeskorte[125]);文獻(xiàn)[102](PrimFace);文獻(xiàn)[82],[108](COCO[126]);文獻(xiàn)[127](Caltech-256[128]);文獻(xiàn)[48](neural representation benchmark[129]);文獻(xiàn)[7](ImageNet[130]);文獻(xiàn)[52](GRAINS、vim-1、generic object decoding[131]);文 獻(xiàn)[58](Caltech 101[132]);文 獻(xiàn)[53](CIFAR100[133]);文獻(xiàn)[84](quick,draw!);文獻(xiàn)[83](IISc Indian face dataset[134]);文獻(xiàn)[76](BOSS[135]、ALOI[136]);文獻(xiàn)[90](PASCAL[137]、ILSVRC2015);文獻(xiàn)[79](ImageNet、PASCAL、SUN[138])。
根據(jù)腦視覺神經(jīng)功能機理模擬方式設(shè)計數(shù)據(jù)集:一部分模擬神經(jīng)連接機制設(shè)計人工網(wǎng)絡(luò)模型,與一般網(wǎng)絡(luò)設(shè)計采用的數(shù)據(jù)集相同;另一部分方法為了最大限度地模擬在生物學(xué)上可信的目標(biāo)識別模型,使用了同一個數(shù)據(jù)集作為實驗被試的刺激集和網(wǎng)絡(luò)模型的測試集,驗證人工網(wǎng)絡(luò)模型的神經(jīng)激活預(yù)測能力和目標(biāo)識別性能,如表8所示。
表8 設(shè)計圖像數(shù)據(jù)集模擬腦視覺神經(jīng)功能機理Table 8 Datasets used to construct and validate brain-inspired visual object recognition models
比較人工模型與大腦視覺通路的功能特性采用的數(shù)據(jù)集:為了最大限度地模擬在生物學(xué)上可信的目標(biāo)識別模型,表9所示的方法使用了同一個數(shù)據(jù)集作為實驗被試的刺激集和網(wǎng)絡(luò)模型的訓(xùn)練集。視覺神經(jīng)系統(tǒng)和人工神經(jīng)網(wǎng)絡(luò)共享同一個數(shù)據(jù)集進(jìn)行訓(xùn)練,主要是通過保證相同的刺激輸入比較表現(xiàn)輸出或神經(jīng)激活的狀態(tài)?;贒NN的目標(biāo)識別模型在腹側(cè)流的神經(jīng)激活預(yù)測和目標(biāo)識別表現(xiàn)都具有一致性。由表可以發(fā)現(xiàn),所有參與比較的模型均采用大型ImageNet數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練,目的是對模型通過大型數(shù)據(jù)集的訓(xùn)練以盡可能逼近人類的目標(biāo)識別和分類能力,進(jìn)而預(yù)測其中可能存在的神經(jīng)機制和行為表現(xiàn)。
表9 比較人工、生物神經(jīng)系統(tǒng)功能特性選取的數(shù)據(jù)集Table 9 Datasets selected for comparing functional characteristics of artificial and biological neural systems
用于視覺目標(biāo)分類或識別數(shù)據(jù)集之一,MNIST[142]是機器學(xué)習(xí)領(lǐng)域中非常經(jīng)典的數(shù)據(jù)集,包括60 000個訓(xùn)練樣本和10 000個測試樣本,其中的訓(xùn)練集由來自250個不同人手寫的數(shù)字構(gòu)成,測試集(test set)也是同樣比例的手寫數(shù)字?jǐn)?shù)據(jù)。PASCALVOC(pattern analysis,statistical modelling and computational learning,visual object classes)為圖像識別和分類提供了一整套標(biāo)準(zhǔn)化的優(yōu)秀的數(shù)據(jù)集,它包括20類物體,從2005年到2012年每年會舉行一場圖像識別競賽。在目標(biāo)分類、圖像分割網(wǎng)絡(luò)對比實驗與模型效果評估中被頻頻使用。SVHN[147]是一個真實世界的圖像數(shù)據(jù)集,來源于谷歌街景門牌號碼,常用于開發(fā)機器學(xué)習(xí)和目標(biāo)識別算法。與MNIST具有相似的風(fēng)格,但包含更多的標(biāo)簽數(shù)據(jù)(超過60萬數(shù)字圖像),并來自一個明顯更難、未解決的真實世界問題(識別自然場景圖像中的數(shù)字)。CIFAR10/100數(shù)據(jù)集(2009)[133]是包括8 000萬張微型自然圖像數(shù)據(jù)集,其中CIFAR數(shù)據(jù)集又根據(jù)所涉及分為
CIFAR-10和CIFAR-100,這些類間是完全互斥的。該數(shù)據(jù)集主要用于深度學(xué)習(xí)的圖像分類,目前已被廣泛應(yīng)用。Caltech 101數(shù)據(jù)集[132]是加利福尼亞理工學(xué)院收集整理的圖像物體識別數(shù)據(jù)集,包含有101類視覺物體,每個類別中最小包含31張圖片。Caltech 256數(shù)據(jù)集[128]是Caltech-101的改進(jìn)版,圖片被分為256類,每個類別的圖片超過80張,其中的部分類別包含了Caltech-101的圖像。在Caltech-101的基礎(chǔ)上,Caltech 256增加了類別數(shù)量,避免因圖像旋轉(zhuǎn)造成的偽影,并且引入了一個新的更大的雜波類別測試背景。
這些小的、飽和的視覺目標(biāo)分類數(shù)據(jù)集大多用于視覺目標(biāo)分類任務(wù)。2009年,李飛飛教授提出了用于視覺目標(biāo)識別軟件研究的大型可視化數(shù)據(jù)庫ImageNet,旨在為世界各地的研究人員提供易于訪問的圖像數(shù)據(jù)。目前ImageNet共有14 197 122幅圖像,總共分為21 841個類別。ILSVRC(ImageNet large scale visual recognition challenge)是ImageNet大規(guī)模視覺識別挑戰(zhàn)賽,其中使用到的數(shù)據(jù)是ImageNet的子集。視覺神經(jīng)科學(xué)家主要關(guān)注于大量的可視化的彩色自然圖像,對于視覺目標(biāo)分類研究和構(gòu)建人工分類模型具有較好的普適度和自由度。最近的類腦目標(biāo)識別模型研究中絕大多數(shù)都在使用ImageNet作為預(yù)訓(xùn)練數(shù)據(jù)集,并采用ILSVRC作為刺激集和測試集,得到的網(wǎng)絡(luò)模型與大腦視覺神經(jīng)反應(yīng)具有較強的一致性,體現(xiàn)出了數(shù)據(jù)集在視覺目標(biāo)識別研究中的地位。
人們的視覺目標(biāo)識別過程隱藏在復(fù)雜的大腦信號中,視覺神經(jīng)活動的獲取是視覺目標(biāo)識別的神經(jīng)機理研究和類腦目標(biāo)識別建模的重要的階段。借助成像等生理記錄設(shè)備和視覺心理物理學(xué)的快速發(fā)展,對腦視覺目標(biāo)識別的神經(jīng)機制研究逐漸深入,甚至可以將大腦中的想法轉(zhuǎn)化成自動目標(biāo)識別設(shè)備的驅(qū)動力。根據(jù)獲取方式,將視覺目標(biāo)識別的神經(jīng)機制和模型構(gòu)建研究方法分類如下所示。
(1)心理物理學(xué)實驗(生成視覺目標(biāo)識別行為數(shù)據(jù)):文獻(xiàn)[1],[82],[85],[89],[90],[96],[109],[111],[157](Amazon Mechanical Turk(MTurk));文 獻(xiàn)[41],[86],[91],[92],[113],[158](MATLAB心理物理學(xué)工具箱);文獻(xiàn)[93](Visual Basic(Microsoft))。
(2)BOLD fMRI信號獲取實驗:文獻(xiàn)[49],[50],[51],[52],[54],[74],[75],[76],[77],[79],[97],[98],[99],[100],[101],[102],[107],[114],[116],[120],[121],[122],[158],[159],[160],[161],[162],[163]。
(3)腦電信號獲取實驗:EEG,文獻(xiàn)[7],[64],[113],[119],[127];ERP,文獻(xiàn)[64],[122];MEG,文獻(xiàn)[76],[77],[101],[118],[124];ECOG,文獻(xiàn)[120];multi-electrode array,文 獻(xiàn)[48],[53],[78],[80],[81],[82],[87],[101],[105],[106],[108],[110],[164],[165],[166]。
為了在大規(guī)模數(shù)據(jù)集上對目標(biāo)識別過程中的神經(jīng)活動數(shù)據(jù)進(jìn)行分析,并且與人工模型的神經(jīng)元激活狀態(tài)進(jìn)行實驗比較,本文根據(jù)數(shù)據(jù)采集方法總結(jié)了常用于數(shù)據(jù)分析和模型性能評價的方法如下。
3.3.1 神經(jīng)數(shù)據(jù)分析
為了研究神經(jīng)活動數(shù)據(jù)蘊含的內(nèi)在神經(jīng)機理,人們提出了各種數(shù)據(jù)分析的軟件和方法,試圖直觀、準(zhǔn)確地提取大腦目標(biāo)識別的內(nèi)在神經(jīng)機制和功能特性。下面對這些方法進(jìn)行簡要介紹。
用于人腦結(jié)構(gòu)和腦成像數(shù)據(jù)分析和可視化的交互式軟件:統(tǒng)計參數(shù)圖(statistical parametric mapping,SPM)[101,121,163]、VoxBo[100]、AFNI[102,107,114]、Brain Voyager軟件包[99,122,158]。
多體素模式分析(multivoxel pattern analysis,MVPA):是用分類的機器學(xué)習(xí)算法(例如SVM分類器)進(jìn)行多體素分析,從大量體素的BOLD信號中解碼大腦的視覺信息表示,探索大腦視覺目標(biāo)識別的編碼機制:文獻(xiàn)[52],[111],[116]。
皮爾遜相關(guān)系數(shù)(Pearson’s correlation coefficient):又稱“皮爾遜積矩相關(guān)系數(shù)“,是一種線性相關(guān)系數(shù)如式所示,用來反映兩個變量線性相關(guān)程度的統(tǒng)計量。該方法可用于顯著性檢驗,視覺神經(jīng)科學(xué)實驗中常用來測量兩個目標(biāo)表示之間的相似度:文獻(xiàn)[41],[54],[55],[79],[89],[116],[120]。
方差分析(analysis of variance,ANOVA):用于兩個及兩個以上樣本均數(shù)差別的顯著性檢驗。神經(jīng)科學(xué)實驗通過方差分析方法確定各因素的互作用效應(yīng)以及對對比效應(yīng)百分比的影響,通常采用兩種方差分析方法:單因素方差分析(one-way ANOVA)用來研究單個控制變量的不同水平對觀測變量產(chǎn)生的顯著影響。而重復(fù)量測變異數(shù)分析(repeated-measures ANOVA)進(jìn)一步確定了控制變量的不同水平對觀測變量的影響程度:文獻(xiàn)[64],[82],[85],[86],[87],[96],[100],[102],[105],[106],[107],[116],[118],[119],[121],[122],[157],[167]。
滑動t檢驗(student t-test):統(tǒng)計推斷中非常常見的一種檢驗方法,使用t分布理論推論差異發(fā)生的概率,從而比較兩個目標(biāo)表示的差異是否顯著。與方差分析相同,通過對神經(jīng)數(shù)據(jù)或人類行為表現(xiàn)進(jìn)行定量的統(tǒng)計分析:文獻(xiàn)[82],[87],[100],[105],[116],[118],[157],[168]。
3.3.2 模型性能評價
為了反映視覺分類模型的性能,在大型數(shù)據(jù)集中測量模型對視覺圖像或場景的分類精度。同時,利用相似性度量方法,試圖比較視覺神經(jīng)活動或行為表現(xiàn)與目標(biāo)識別模型之間在不同因素的預(yù)測程度。
在不同的大型數(shù)據(jù)集中評價模型的分類精度或誤差:文獻(xiàn)[6],[7],[20],[32],[35],[36],[37],[38],[45],[50],[53],[57],[58],[59],[60],[61],[62],[90],[91],[93],[103]。
表征相似性分析(RSA):提供了一個有用的和說明性的工具,給定一組實驗條件下的一組活動模式(生物的、行為的或人工的),模式之間的相似性計算為1減去組成模式的單元之間的相關(guān)性。通過將每層CNN的表現(xiàn)與行為表現(xiàn)或神經(jīng)活動數(shù)據(jù)進(jìn)行比較,研究不同的視覺刺激產(chǎn)生的表征幾何響應(yīng),并檢查是否相同類別的圖像產(chǎn)生相似的響應(yīng)在表征空間。RSA比較的相似性表征矩陣(representational dissimilarity matrix,RDM)描述了大腦或模型的代表性信息:文獻(xiàn)[51],[54],[59],[60],[74],[75],[77],[78],[81],[91],[101],[116]。
針對視覺目標(biāo)識別任務(wù),大腦神經(jīng)機理研究和類腦模型構(gòu)建可以根據(jù)模型架構(gòu)和開發(fā)途徑進(jìn)行分類。此外,對腦視覺通路與人工模型的一致性表現(xiàn)進(jìn)行了分析和研究,對這些方法從比較對比方法方面進(jìn)行了分類。同時,簡要介紹了這些研究中設(shè)計的實驗條件和數(shù)據(jù)分析方法。
人工神經(jīng)網(wǎng)絡(luò)整體都受到了20世紀(jì)中期開始發(fā)展的神經(jīng)生物學(xué)的啟發(fā)。設(shè)計人工神經(jīng)元模擬神經(jīng)元接收和轉(zhuǎn)換信息的基本特性,卷積網(wǎng)絡(luò)模擬人腦層次化信息處理機制,所執(zhí)行的主要功能和計算受到了某些關(guān)于視覺系統(tǒng)的早期發(fā)現(xiàn)的啟發(fā)[8]。隨著越來越多的研究人員對大腦視覺神經(jīng)機理開展研究,淺層的神經(jīng)連接機制和激活狀態(tài)被開發(fā)出來,最近的人工神經(jīng)網(wǎng)絡(luò)的很多設(shè)計都源于神經(jīng)科學(xué)的啟發(fā),例如:反饋、遞歸、注意力機制。另一方面,最近的很多神經(jīng)科學(xué)領(lǐng)域的研究將CNN模型與視覺系統(tǒng)相關(guān)聯(lián),通過神經(jīng)激活預(yù)測或信息表征方式評估兩者在目標(biāo)識別任務(wù)上的一致性表現(xiàn)。不同的實驗證明了同一個結(jié)果,CNN模型的層級結(jié)構(gòu)與視覺通路之間存在對應(yīng)關(guān)系,可以更好地預(yù)測視覺皮層的神經(jīng)活動,超越了其他方法。人工神經(jīng)網(wǎng)絡(luò)是在視覺神經(jīng)科學(xué)與計算機視覺之間的相互作用下逐漸發(fā)展的。
反觀基于CNN的目標(biāo)識別模型對視覺皮層具有較強的預(yù)測能力,可以借助CNN這一工具嘗試反推出視覺神經(jīng)的工作原理,了解有關(guān)視覺系統(tǒng)的信息處理機制。這些研究的方法見解和發(fā)展都需要通過與實驗數(shù)據(jù)的交互而進(jìn)行驗證和分析。CNN對理解視覺系統(tǒng)的方式主要有以下三點:首先,CNN模型在目標(biāo)識別任務(wù)上的成功,證明了從整體、直觀的角度對視覺系統(tǒng)的理解基本上是正確的,只是缺少訓(xùn)練數(shù)據(jù)和計算能力。其次,基于已有的數(shù)據(jù)建立所感興趣的內(nèi)容的合理模型是允許的。最后,將關(guān)于視覺系統(tǒng)的工作方式整合成具體的數(shù)學(xué)計算模型,盡管在建模時通常需要進(jìn)一步假設(shè)和簡化,但這仍然能為模型行為的一般趨勢和局限性提供有幫助的見解。
深度神經(jīng)網(wǎng)絡(luò)模型提供了一個生物學(xué)上可信的快速識別視覺目標(biāo)的技術(shù)元素,可以解釋高效計算的模式識別成分。然而,他們無法解釋人類是如何理解元素之間的語義關(guān)系以及物體之間的物理相互作用。貝葉斯非參數(shù)模型解釋了從單一經(jīng)驗形成深刻的推論和概念。該模型可以解釋大腦驚人的統(tǒng)計效率,通過建立生成式模型,提供抽象的先驗知識,從小樣本數(shù)據(jù)中推斷出很多能力[169]。因此,根據(jù)深度卷積神經(jīng)網(wǎng)絡(luò)的設(shè)計來源和突出表現(xiàn)可以整理出一些未來的發(fā)展方向。要理解大腦的視覺目標(biāo)識別機制,需要先從需要解釋的視覺行為功能開始發(fā)展理論框架,設(shè)計的類腦視覺計算模型需要能夠執(zhí)行有助于靈長類動物視覺目標(biāo)識別的功能。其次,通過數(shù)據(jù)驅(qū)動的方法補充理論驅(qū)動的模型架構(gòu),根據(jù)視覺神經(jīng)活動的豐富測量實驗有效的推動模型架構(gòu)的完備性和生物可信性。
類腦視覺的目標(biāo)識別模型已取得了階段性的進(jìn)展,但是目標(biāo)仍然沒有任何一個模型或方法能夠接近人類的水平,對復(fù)雜視覺環(huán)境具備較強的自適應(yīng)能力和自主學(xué)習(xí)、自主決策能力等。一方面,在未來的腦啟發(fā)目標(biāo)識別模型的研究中,需要基于多模態(tài)、多尺度的腦神經(jīng)數(shù)據(jù)分析結(jié)果對腦視覺通路進(jìn)行建模計算,構(gòu)建識別視覺目標(biāo)的多模態(tài)、多尺度的神經(jīng)網(wǎng)絡(luò)計算模型,滿足自主感知、自主決策等智能行為能力;另一方面,需要更多關(guān)注視覺神經(jīng)系統(tǒng)在不同尺度上的神經(jīng)區(qū)域是如何協(xié)同工作,進(jìn)行動態(tài)感知、認(rèn)知、決策,完成目標(biāo)識別任務(wù)。對于模型開發(fā)框架方面,傳統(tǒng)的人工神經(jīng)網(wǎng)絡(luò)雖然受到腦神經(jīng)網(wǎng)絡(luò)工作機制的啟發(fā),但是經(jīng)過簡化和抽象,其神經(jīng)元的訓(xùn)練并不具備原有突觸的神經(jīng)機理支撐,因此,未來的類腦目標(biāo)識別模型需要依據(jù)相關(guān)視覺神經(jīng)工作機理作為支撐設(shè)計和構(gòu)建多尺度目標(biāo)識別模型框架。
然而,當(dāng)前人工神經(jīng)網(wǎng)絡(luò)的快速發(fā)展,在計算方面已逐漸遠(yuǎn)離生物學(xué)主題。這主要是由于過去幾年的工程突破已經(jīng)改變了計算機視覺領(lǐng)域。因此,有人提出疑問:人工神經(jīng)網(wǎng)絡(luò)未來的發(fā)展是否需要神經(jīng)科學(xué)的指導(dǎo)?這些網(wǎng)絡(luò)的成功也有助于人們對計算機目標(biāo)識別領(lǐng)域的未來進(jìn)行思考。一方面,這些網(wǎng)絡(luò)的進(jìn)一步工程設(shè)計已達(dá)到飽和點,層數(shù)、激活函數(shù)、參數(shù)調(diào)整、梯度函數(shù)等方面的新穎性不斷提高,其準(zhǔn)確性僅得到提高。對于一般應(yīng)用而言,生物視覺系統(tǒng)要遠(yuǎn)遠(yuǎn)優(yōu)于任何計算機;另一方面,雖然神經(jīng)科學(xué)和計算機視覺之間的思想交流經(jīng)歷了起起落落,但人們很難不對以神經(jīng)科學(xué)為基礎(chǔ)的計算機視覺的未來充滿熱情。在許多方面,神經(jīng)科學(xué)、計算機視覺和機器學(xué)習(xí)領(lǐng)域之間從未有過如此多的交流,最近在機器學(xué)習(xí)方面的成功和最近在神經(jīng)科學(xué)技術(shù)方面的進(jìn)展高度重合,而且這兩個領(lǐng)域可能準(zhǔn)備以前所未有的規(guī)模利用彼此的洞察力。然而,抓住這個機會需要努力和文化的轉(zhuǎn)變,因為這兩個領(lǐng)域通常有非常不同的目標(biāo)和方法。