李夢琪 陳志敏 鄭元杰 任衍具
場景主旨加工及其機制*
李夢琪1陳志敏1鄭元杰2任衍具1
(1山東師范大學(xué)心理學(xué)院;2山東師范大學(xué)信息科學(xué)與工程學(xué)院, 濟南 250358)
場景主旨是指觀察者在一次注視場景的過程中所獲得知覺和語義信息。近年來, 場景主旨加工研究已經(jīng)成為視知覺領(lǐng)域的重要內(nèi)容, 對該問題的研究將有助于揭示視覺信息加工的機制, 對智能機器視覺的研制也有一定的借鑒意義。對場景主旨加工的影響因素、爭議性的問題以及場景主旨的神經(jīng)基礎(chǔ)進行評論; 未來可以在場景主旨加工的基本單元、相關(guān)的理論解釋、層級加工的調(diào)節(jié)因素、注意的調(diào)節(jié)作用、時間動力特性和腦功能網(wǎng)絡(luò)的構(gòu)建等方面做進一步的探討。
場景主旨; 層級加工; 注意
人類的生存離不開對周圍環(huán)境的感知與判斷, 因此人類的視覺系統(tǒng)進化出了可以在極短的時間內(nèi)獲取場景中的必要信息, 并進一步對其做出類別判斷的能力(例如:這是一幅街道的景象)。場景主旨(scene gist, 也稱scene schema)被界定為觀察者在單次注視(數(shù)百毫秒)場景的過程中所獲得的知覺和語義表征(Fei-Fei, Iyer, Koch, & Perona, 2007; Friedman, 1979; 程昊, 2010; 見綜述Oliva, 2005; Oliva & Torralba, 2006)。例如, 我們可以將一幅場景描述為“海灘”、“臥室”或者“街道”。本文中涉及的場景主旨加工研究主要指觀察者在較短時間內(nèi)對場景刺激進行檢測、再認或分類的研究。
場景主旨加工研究可以追溯到上個世紀六七十年代。Potter和Biederman這兩位心理學(xué)家及同事進行了開創(chuàng)性的工作, 他們發(fā)現(xiàn)人類視覺系統(tǒng)能夠迅速提取場景的主旨信息并用于后續(xù)的類別判斷(Potter, 1975; Potter & Levy, 1969)、目標搜索和記憶等(Biederman, 1972; 也見Torralba, Oliva, Castelhano, & Henderson, 2006)。迄今為止, 盡管已有大量研究證實了人類視覺系統(tǒng)具有加工場景主旨的超凡能力, 但關(guān)于這種加工能力的認知與神經(jīng)機制仍處于探索之中。已有關(guān)于場景主旨加工的研究主要涉及以下五個方面的內(nèi)容: (1)場景主旨加工的影響因素有哪些?(2)場景主旨的層級加工優(yōu)先性問題, 即在場景主旨加工過程中, 是上級水平(“自然場景”和“人工場景”、“室內(nèi)”和“室外”)場景主旨, 還是基本水平(“森林”、“山川”、“街道”和“建筑”等)場景主旨優(yōu)先得到加工?(3)場景主旨加工的過程是否需要注意資源的參與?(4)場景主旨加工有哪些重要的理論觀點?(5)場景主旨加工的神經(jīng)生理基礎(chǔ), 即有哪些腦區(qū)參與了場景主旨的加工, 它們是如何協(xié)同作用完成場景主旨的加工?
場景主旨加工是場景知覺研究的重要內(nèi)容, 有其重要的理論意義和應(yīng)用價值。一方面有助于增進我們對視覺系統(tǒng)加工機制的理解(如, Malcolm, Groen, & Baker, 2016); 另一方面相關(guān)研究成果在機器視覺(如, Wei, Phung, & Bouzerdoum, 2016)、廣告設(shè)計(如, Wedel & Pieters, 2015)、安全檢查(如, Biggs & Mitroff, 2015)和醫(yī)學(xué)影像診斷(如, Evans, Haygood, Cooper, Culpan, & Wolfe, 2016)等方面均得到了廣泛的應(yīng)用。
場景中的哪些特征會影響場景主旨的加工呢?前人對該問題進行了大量的研究, 下面將重點介紹顏色、空間頻率、視野區(qū)域等因素在場景主旨加工中的作用。
Gegenfurtner和Rieger (2000)采用快速呈現(xiàn)?掩蔽?再認范式, 操縱場景圖片呈現(xiàn)與再認時的顏色信息, 探討顏色在場景編碼和提取加工中的作用, 結(jié)果發(fā)現(xiàn), 顏色信息既能夠為早期感覺加工的編碼提供線索, 也有助于鞏固場景圖片的記憶表征(但見Yao & Einh?user, 2008)。Goffaux等人(2005)選用4類將顏色作為診斷性特征的場景(沙漠、森林、峽谷、海岸), 經(jīng)過處理獲得3種顏色類型的場景:正常顏色場景、灰色場景和異常顏色場景(將原場景中的顏色進行紅綠置換和藍黃置換); 要求被試完成快速場景分類的go/no-go任務(wù), 結(jié)果發(fā)現(xiàn)視覺系統(tǒng)對正常顏色場景的分類最快最準確, 其次是對灰色場景的分類成績, 而對異常顏色場景的分類成績最差。Castelhano和Henderson (2008)采用情境偏向范式(contextual bias paradigm)探討顏色在場景主旨加工中的作用,先向被試呈現(xiàn)場景圖片, 接著呈現(xiàn)掩蔽圖片, 掩蔽圖片過后呈現(xiàn)物體標簽(單詞), 要求被試判斷該標簽所對應(yīng)的物體與場景情境是否一致。其實驗邏輯是: 當場景圖片的呈現(xiàn)時間足夠長時, 視覺系統(tǒng)能夠較為充分地提取場景的主旨信息, 被試對物體與場景情境是否一致的判斷會更準確, 在二者一致的情況下, 就會出現(xiàn)“Yes”比“No”多的反應(yīng)偏向效應(yīng), 因此一旦產(chǎn)生了此類反應(yīng)偏向效應(yīng), 則意味著場景主旨在呈現(xiàn)的時間內(nèi)得到了較為充分的激活。結(jié)果發(fā)現(xiàn), 相同反應(yīng)偏向情況下, 正常顏色場景所需要的呈現(xiàn)時間明顯短于黑白場景所需要的呈現(xiàn)時間。由此可見, 正常顏色場景的主旨較黑白場景的主旨激活需要的時間更少, 即正常顏色信息對場景主旨的加工具有顯著的促進作用。
然而, 也有研究者認為顏色信息并不是場景主旨加工中的關(guān)鍵因素, 它所產(chǎn)生的影響會受到其他因素的調(diào)節(jié)(如, Marx, Hansen-Goos, Thrun, & Einh?user, 2014; Otsuka & Kawaguchi, 2009)。首先, 顏色信息的診斷性會影響其在場景主旨加工中的作用。例如, 在“森林”場景中, 綠色具有較高的診斷性, 因此綠色對場景“森林”的主旨加工具有促進作用; 而在”城市”場景中, 不存在一種固定的、具有診斷性的顏色信息, 那么顏色信息對 “城市”場景的主旨加工則沒有明顯的影響(Oliva & Schyns, 2000; Rousselet, Joubert, & Fabre- Thorpe, 2005)。其次, 場景圖像本身是否清晰也會影響場景早期階段加工對顏色信息的利用程度。有研究發(fā)現(xiàn), 顏色信息有利于模糊廣告的內(nèi)容識別, 但當廣告圖片變得清晰時, 彩色廣告的優(yōu)勢就不復(fù)存在了(Wedel & Pieters, 2015)。雖然目前顏色信息在場景主旨中作用存在靈活性的觀點是肯定的, 但其他因素所產(chǎn)生的調(diào)節(jié)作用的機制還需要進一步的研究。
人類的視覺系統(tǒng)包含多個對不同空間頻率信息敏感的通道, 不同空間頻率信息在面孔、物體和場景分類中有著不同的作用(Morrison & Schyns, 2001)。Schyns和Oliva (1994)為了探討視覺系統(tǒng)在分類場景圖片時對不同空間頻率信息的選擇偏向, 要求被試完成對疊加圖片 (hybrid image, 將某一場景圖片的低頻成分與另一場景圖片的高頻成分疊加成一個新的圖片)的分類任務(wù), 結(jié)果發(fā)現(xiàn)當疊加圖片的呈現(xiàn)時間較短(30 ms)時, 被試更偏向于使用其低頻信息進行分類, 而當呈現(xiàn)時間較長時(150 ms)時, 被試更偏向于使用其高頻信息來分類; 他們由此提出場景主旨的早期加工采用的是 “由粗糙到精細(coarse to fine, CtF)” 的加工模式。近期的發(fā)展性研究表明7~8個月的嬰兒(Otsuka, Ichikawa, Kanazawa, Yamaguchi, & Spehar, 2014)和18~22歲的年輕人(Musel, Chauvin, Guyader, Chokron, & Peyrin, 2012)均存在這種加工模式, 而且這種加工也存在于場景選擇性加工的大腦區(qū)域中(Awasthi, Sowman, Friedman, & Williams, 2013; Musel et al., 2014)。
需要注意的是, 場景主旨的CtF加工模式并不是固定的, 會受到其他因素的調(diào)節(jié)。首先, 任務(wù)與場景材料也能影響視覺系統(tǒng)對空間頻率信息加工的偏向性(Oliva & Schyns, 1997)。例如, 當使用不同帶寬的情境信息來引導(dǎo)被試進行場景中的物體進行快速檢測時, 物體的細節(jié)信息能夠促使視覺系統(tǒng)利用高頻情境信息來完成任務(wù)(Patai, Buckley, & Nobre, 2013); 疊加圖片中與任務(wù)無關(guān)的信息會影響視覺系統(tǒng)對任務(wù)相關(guān)場景信息空間頻率的反應(yīng)偏向性(Rotshtein, Schofield, Funes, & Humphreys, 2010)。其次, 場景分類過程中視覺系統(tǒng)對空間頻率信息的早期加工會受到注意模式的影響(如, Vanmarcke & Wagemans, 2016)。近期, Brand和Johnson (2014)采用Navon任務(wù)操縱被試的注意模式(注意整體/注意局部), 并結(jié)合場景分類任務(wù)探討視覺系統(tǒng)對空間頻率信息加工的偏向性是否會受到注意模式的調(diào)節(jié), 結(jié)果發(fā)現(xiàn)整體性Navon任務(wù)的啟動能更快將疊加場景歸類為其低頻信息所屬的類別, 當?shù)皖l信息受到抑制時, 分類速度有所減緩??偠灾? 空間頻率對場景主旨加工的影響具有一定的靈活性, 但這種靈活性僅表現(xiàn)為對粗糙到精細加工過程的促進或干擾, 但還不足以打破這種模式的時間發(fā)展順序。
盡管視覺系統(tǒng)對真實場景中不同空間頻率信息的加工有其相對固定的選擇偏向, 但大腦對不同空間頻率信息的整合是非常迅速(在100 ms之內(nèi)即可完成), 且整合過程幾乎不需要注意的參與(Kihara & Takeda, 2010, 2012)。神經(jīng)科學(xué)的研究提出了快速“M”假設(shè), 該假設(shè)認為, 大腦皮層中通過大細胞通道傳輸信息較小細胞通道更快速, 在場景主旨加工過程中, 低頻信息通過大細胞通道首先被相關(guān)腦區(qū)獲取并形成初級表征(Hagmann & Potter, 2016), 為隨后小細胞通道獲得其他細節(jié)信息提供反饋和背景框架, 啟動自上而下的促進作用(Kveraga, Boshyan, & Bar, 2007; Maguire & Howe, 2016; Mu & Li, 2013; 也見Malcolm, Nuthmann, & Schyns, 2014; 但見Potter, Wyble, Hagmann, & McCourt, 2014), 也可用于后期高頻信息的加工(Kauffmann, Chauvin, Pichat, & Peyrin, 2015; Kauffmann, Ramano?l, & Peyrin, 2014)。快速”M”假設(shè)為CtF的觀點提供了神經(jīng)基礎(chǔ), 但目前仍缺少有力證據(jù)為相關(guān)腦區(qū)的協(xié)作運行方式做出解釋, 后續(xù)還需進一步的實驗驗證。
人眼視野根據(jù)投影從中心到邊緣可以分為中央凹區(qū), 副中央凹區(qū), 外周區(qū)域, 三個區(qū)域?qū)ν獠啃畔⒌姆直媪Σ煌? 中央凹區(qū)域的分辨力最高, 其次是副中央凹區(qū)域, 外周區(qū)域的分辨力最低。這種差異導(dǎo)致了不同視野區(qū)域在場景主旨識別上的作用也不盡相同(見評論Loschky, Nuthmann, Fortenbaugh, & Levi, 2017)。值得一提的是知名的視覺研究期刊Journal of Vision在2016年第2期專輯論述不同視野區(qū)域在場景知覺中的作用(http://jov.arvojournals.org/issues.aspx#issueid=934904)。由此可見, 視野區(qū)域是近年來研究者所關(guān)注的一個重要影響因素。
最初的研究發(fā)現(xiàn)視覺系統(tǒng)僅通過外周視野所獲取的低分辨率信息即可完成對場景主旨的判斷。如, Larson和Loschky (2009)采用”窗口(window, 只保留場景的中央視野信息)”和”盲點(scotoma, 只保留場景的邊緣視野信息)”范式, 要求被試完成場景?單詞匹配任務(wù), 結(jié)果發(fā)現(xiàn)利用邊緣視野比中心視野完成匹配任務(wù)的正確率更高, 且僅利用邊緣視野與利用完整視野的正確率無顯著差異。Boucart, Moroni, Thibaut, Szaffarczyk和Greene (2013)發(fā)現(xiàn)觀察者在場景與視野中央離心率70°的情況下對場景主旨進行分類時, 可以達到70%左右的正確率。上述結(jié)論在Wang和Cottrell (2016)的建模研究中也得到了證實。這些證據(jù)均表明外周視野利用低分辨率信息能夠完成場景分類任務(wù)。
Larson和Loschky (2009)認為這可能是由于外周視野較中心視野的面積更大, 二者在同一時間內(nèi)獲取的信息量不同所致。當控制二者的面積相同時, 表現(xiàn)出中央視野的加工優(yōu)勢。利用老年黃斑病變(neovascular age related macular degeneration, AMD)的病人進行的研究也得到了類似的結(jié)果, 該病癥會引起中央視野的缺失, 結(jié)果發(fā)現(xiàn)無論場景呈現(xiàn)在視野中心還是外周, AMD病人較正常人對主旨分類的靈敏度和反應(yīng)時均降低, 且這種降低在場景刺激出現(xiàn)在視野中央時更嚴重(Thibaut, Tran, Szaffarczyk, & Boucart, 2014)。這表明中央視野在場景主旨加工中扮演更為重要的作用。
近期, Larson, Freeman, Ringer和Loschky (2014)采用類似的窗口和盲點范式, 對場景主旨早期加工中不同視野區(qū)域作用的時空動態(tài)進程做了探究, 通過控制目標場景后掩蔽出現(xiàn)的時間長度來操縱場景的加工時間。結(jié)果發(fā)現(xiàn)在當場景的加工時間為24 ms時, 中央視野的信息對基本水平場景分類任務(wù)正確率更高; 而增加到70 ms時, 中央視野與外周視野對基本水平場景分類任務(wù)的正確率沒有顯著差異。表明在早期場景主旨加工的時間進程中, 注意首先獲取中央視野的場景信息, 隨后注意從中心視野擴展至邊緣視野以提取更多的信息。
上述的研究結(jié)果證實, 雖然視覺系統(tǒng)僅僅依據(jù)外周視野的信息即可進行場景分類, 但中心視野在場景主旨的加工中仍具有比外周視野更高的效率。有意思的是, 只需外周視野足以完成場景主旨分類任務(wù)的觀點, 也暗示了場景主旨分類不需要集中的注意資源即可完成, 這與注意在場景主旨加工中的作用的部分觀點(見本文第三部分的相關(guān)內(nèi)容)相符。
除顏色信息、空間頻率和視野區(qū)域外, 場景主旨加工還會受到場景本身的邊界(edge-based) (如, Fu et al., 2016; Walther & Shen, 2014)、振幅譜(amplitude spectra) (如, Hansen & Loschky, 2013; Joubert, Rousselet, Fabre-Thorpe, & Fize, 2009)、后向掩蔽(backward mask)的類型(Freeman, Loschky, & Hansen, 2015; Loschky, Hansen, Sethi, & Pydimarri, 2010)、情緒信息(Subramanian, Shankar, Sebe, & Melcher, 2014; 李畢琴, 郭畢鵬, 胡竹菁, 羅躍嘉, 2015)、觀察者的觀察視角(viewpoint) (Loschky, Ringer, Ellis, & Hansen, 2015)、工作記憶負載(孫琪, 任衍具, 傅根躍, 2015)、個體差異(Vanmarcke & Wagemans, 2015; Vanmarcke et al., 2016)和先前經(jīng)驗/期望(Duh & Wang, 2014; Greene, Botros, Beck, & Fei-Fei, 2015; 孫雨生, 張智君, 吳彬星, 2017)等因素的影響?,F(xiàn)實場景中包含的信息錯綜復(fù)雜, 任何條件的改變都有可能影響人眼對當前場景的感知。視覺系統(tǒng)無法在一瞥的時間內(nèi)讀入所有信息, 但大腦能夠靈活地運用自身的有限資源來獲取最有診斷性并易于提取的信息, 對場景主旨做出識別。
近年來, 場景主旨加工的層級加工優(yōu)先性成為場景知覺研究領(lǐng)域的熱點問題。對該問題的研究源于早期認知心理學(xué)關(guān)于概念表征通達的問題, 存在兩種截然相反的觀點:基本水平加工優(yōu)先(basic level superority)和上級水平加工優(yōu)先(superordinate level superority)的觀點。對同一幅場景圖片, 我們能夠使用不同層級的概念來對其進行命名。例如, 一幅森林的場景圖片可以被命名為“森林”、“戶外”或者“自然”, 這幾個概念雖然都能夠在一定程度上反映森林的意義, 卻具有不同的內(nèi)涵和外延。基本水平概念曾被認為是優(yōu)先獲取的場景主旨概念, 如“森林”、“湖泊”、“臥室”、“廚房”等屬于基本水平概念。而上級水平概念較基本水平概念有更大的外延, 常用于該問題研究的上級水平場景概念是“自然”與“人工”或者“室內(nèi)”與“室外”等。那么在場景主旨加工過程中, 視覺系統(tǒng)會優(yōu)先加工哪個層級的視覺信息呢?
物體加工的研究發(fā)現(xiàn), 人類對表征物體的基本水平概念的通達先于對上級水平概念的通達(如, Rosch, Mervis, Gray, Johnson, & Boyes-Braem, 1976; 但見Mack & Palmeri, 2015; Wu, Crouzet, Thorpe, & Fabre-Thorpe, 2015)。后來這一觀點被引申到場景主旨加工的問題上。Tversky和Hemenway(1983)最先對場景主旨的層級加工進行研究, 結(jié)果發(fā)現(xiàn)被試偏向于使用具有基本概念屬性的詞語來對場景進行描述, 并由此認為場景主旨的基本水平得到優(yōu)先加工。
然而, 近年來研究者指出列屬性的方式來檢驗層級加工優(yōu)先性會受到屬性詞詞頻的影響, 而基本水平屬性詞的詞頻更高, 這可能會抵消原有的上級水平優(yōu)勢(見綜述, Fabre-Thorpe, 2011)。該觀點也得到了相關(guān)研究的支持: 首先, 視覺系統(tǒng)對上級水平信息的獲取用時更短。例如, Fabre- Thorpe領(lǐng)導(dǎo)的研究小組采用go/no-go范式要求被試盡可能快地對場景進行上級水平(“自然場景”或“人工場景”)或基本水平(“海洋”、“山脈”、“城市”、“街道”等)的分類判斷, 結(jié)果發(fā)現(xiàn)上級水平判斷任務(wù)的耗時(380~390 ms)顯著小于基本水平(400~460 ms) (如, Joubert, Rousselet, Fize, & Fabre-Thorpe, 2007; Macé, Joubert, Nespoulous, & Fabre-Thorpe, 2009)。Greene和Oliva (2009a, 2009b)采用心理物理學(xué)方法將場景分類任務(wù)的正確率達到75%時所需要的場景刺激呈現(xiàn)時間定義為完成該分類任務(wù)所需要的最小時間閾限, 將被試完成基本水平和上級水平分類任務(wù)的最小時間閾限相比較, 發(fā)現(xiàn)上級水平閾限顯著小于基本水平。其次, 視覺系統(tǒng)對上級水平的信息獲取更敏感。Loschky和Larson (2010)采用迫選任務(wù), 在目標場景后呈現(xiàn)掩蔽圖片和提示詞, 要求被試對場景圖片和提示詞做類別匹配判斷, 結(jié)果發(fā)現(xiàn)在目標場景的呈現(xiàn)時間小于72 ms的情況下被試對上級水平概念的敏感度更高。近期Sun, Ren, Zheng, Sun和Zheng (2016)采用雙任務(wù)范式結(jié)合工作記憶任務(wù)和場景主旨類別辨別任務(wù), 探討場景主旨加工的層級性, 結(jié)果發(fā)現(xiàn)了上級水平的加工優(yōu)勢, 且在場景主旨類別辨別過程中, 先利用的是場景中的空間信息, 而后利用場景中的客體信息。這些研究均支持了上級水平的概念相較于基本水平能夠更快被獲取的觀點。
然而, 常用來作為場景主旨研究的不同上級水平概念(室內(nèi)?室外與人工?自然)之間的本質(zhì)也并不相同。Kadar和Ben-Shahar (2012)將場景類別擴大到15種, 以考察上級水平分類優(yōu)勢是否具有普遍性, 結(jié)果發(fā)現(xiàn)在類別判斷任務(wù)中, 場景主旨加工首先進行的是自然性/非自然性的判斷, 隨后才會進行室內(nèi)/室外或是基本水平類別判斷。除此之外, 室內(nèi)與室外場景還具有相似的光譜特性, 這與自然和人工概念光譜特性的區(qū)別不同(Oliva & Torralba, 2001), 且采用go/no-go范式獲得的自然/人工概念的上級水平優(yōu)勢在室內(nèi)/室外類別中消失不見了(Banno & Saiki, 2015)。因此, 在考慮場景主旨層級加工優(yōu)先性問題的過程中, 對不同上級水平概念的區(qū)別也是有必要的。
針對這兩種相互矛盾的觀點, 目前的研究更偏向于認為場景主旨的研究具有上級水平加工優(yōu)勢, 但這種優(yōu)勢效應(yīng)并不穩(wěn)定。首先, 場景的類間/類內(nèi)關(guān)系會對場景主旨分類任務(wù)產(chǎn)生影響。Greene和Fei-Fei (2014)采用stroop范式之變式對視覺分類的自動性進行研究, 結(jié)果發(fā)現(xiàn)基本水平的分類是自動的, 而上級水平的分類不是, 支持基本水平優(yōu)先加工的觀點。其次, 基本水平類別的相似性程度(例如, 街道和市中心的相似性大于高速公路和市中心的相似性)能夠調(diào)節(jié)場景主旨加工的上級水平優(yōu)勢, 甚至使結(jié)果反轉(zhuǎn)而產(chǎn)生基本水平優(yōu)勢(Banno & Saiki, 2015)。近期的計算模型研究暗示, 場景主旨層級加工的優(yōu)先順序與刺激的相似性有關(guān)(Serre, 2016; Sofer, Crouzet, & Serre, 2015)。由此可見, 場景主旨的上級水平加工優(yōu)勢可能受個體詞匯結(jié)構(gòu)、上級水平概念種類、任務(wù)中的干擾項和不同類別間相似性等因素的影響, 但對于這種不穩(wěn)定性產(chǎn)生的原因仍不清楚, 有待進一步的研究。
與層級加工密切相關(guān)的另一個問題就是場景主旨加工對注意資源的需求。早期的研究發(fā)現(xiàn)場景主旨加工是一項非常高效的認知活動, 可以在極短的時間內(nèi)完成; 那么場景主旨加工是否需要注意資源的參與吸引了諸多研究者的興趣。前人對此問題的回答正在經(jīng)歷一個富有爭議的過程。部分研究者認為場景主旨的加工不需要注意資源的參與, 是一個自動化的過程(如, Li, VanRullen, Koch, & Perona, 2002); 另一些研究者認為場景主旨的提取需要注意參與, 注意資源的不足會導(dǎo)致場景主旨加工績效的下降(如, Cohen, Alvarez, & Nakayama, 2011)。目前對該問題的研究多采用雙任務(wù)范式, 即要求被試在同一時間內(nèi)完成兩種任務(wù), 中心任務(wù)需要注意的參與, 考察被試集中注意來完成中心任務(wù)是否對場景主旨的分類或識別成績產(chǎn)生影響, 若不產(chǎn)生影響, 則說明兩者在注意資源的使用上不存在相互干擾, 即場景主旨的加工不需要注意的參與。
一些研究者采用字母辨別任務(wù)(Li et al., 2002; Poncet, Reddy, & Fabre-Thorpe, 2012)、元音字母有無判斷任務(wù)(Walker, Stafford, & Davis, 2008)作為中心任務(wù)時發(fā)現(xiàn), 視覺系統(tǒng)對自然場景進行識別和分類能力沒有受到損害, 這意味著場景主旨加工不需要注意資源的參與。有研究者采用負啟動范式獲得了類似的發(fā)現(xiàn)(Otsuka & Kawaguchi, 2007)。還有研究者發(fā)現(xiàn), 人類視覺系統(tǒng)可以在無意識的條件下習(xí)得場景類別規(guī)則的統(tǒng)計信息(Brady & Oliva, 2008)。然而, Cohen等人(2011)對上述的研究設(shè)計提出了質(zhì)疑, 認為可能是場景主旨加工需要的注意資源相對較少, 而雙任務(wù)范式中用來占用注意資源的無關(guān)任務(wù)難度較小, 因此單/雙任務(wù)對場景分類任務(wù)的成績幾乎不產(chǎn)生影響。他們采用多物體追蹤任務(wù)(multiple object task, MOT)作為分散注意的中心任務(wù), 該任務(wù)的特點是需要連續(xù)不間斷的持續(xù)注意才能完成。結(jié)果發(fā)現(xiàn)場景主旨任務(wù)成績顯著下降, 意味著場景主旨的加工需要注意資源的參與。Mack和Clarke (2012)在外周采用十字架水平?豎直長短判斷任務(wù), 而中心呈現(xiàn)一張場景或馬賽克掩蔽圖片, 實驗中僅僅要求被試完成十字架長短判斷任務(wù), 結(jié)果發(fā)現(xiàn), 那些在任務(wù)結(jié)束后報告注意到場景圖片的被試, 在十字架長短判斷任務(wù)上的成績顯著低于那些沒有注意到其他刺激的被試。結(jié)果表明對場景刺激的無意識注意會降低其他耗費注意資源任務(wù)的成績(也見Clarke & Mack, 2014)。這些結(jié)果均支持場景主旨提取需要注意參與的觀點。
除此之外, Greene和Fei-Fei (2014)年采用stroop范式之變式, 在場景圖片中央嵌入與場景主旨類別一致或不一致的單詞, 并要求被試迅速對單詞進行識別, 結(jié)果發(fā)現(xiàn)當背景場景與目標單詞意義一致時, 對單詞的識別需要時間更短, 說明場景與單詞的語義一致性對單詞的識別產(chǎn)生了促進作用。該結(jié)果表明背景場景在沒有任務(wù)要求的情況下得到自動化加工, 暗示這種自動化并未占用注意資源。對此, Gronau和Izoutcheev (2017)發(fā)現(xiàn)當場景主旨識別作為無關(guān)任務(wù)(處于邊緣視野)時, 視覺系統(tǒng)在完成相關(guān)任務(wù)(處于中心視野)的同時, 不能夠自動地對場景主旨進行識別。根據(jù)Gronau和Izoutcheev (2017)的結(jié)論可以認為Greene和Fei-Fei (2014)研究結(jié)果產(chǎn)生的原因可能是視覺系統(tǒng)在完成中心任務(wù)的同時會對呈現(xiàn)在注意中心的背景進行自動化加工, 這種加工建立在中心任務(wù)與無關(guān)背景重疊的空間關(guān)系之上, 當兩者分離且場景刺激與任務(wù)無關(guān)時, 這種自動化加工就不復(fù)存在了。這一猜測還有待進一步的實驗驗證。
為了解釋行為實驗的這些相互矛盾的觀點, 研究者在近期的ERPs研究中, 仍然采用雙任務(wù)范式, 發(fā)現(xiàn)在刺激呈現(xiàn)的250ms以內(nèi)(大約220 ms), 對場景刺激做自然/人工分類時的腦電變化不受注意資源是否減少的影響, 但注意資源的減少會調(diào)節(jié)不同類別場景在腦電上差異表現(xiàn)的時間。對此研究者認為, 注意資源的多少不影響場景的早期加工, 但會對后期場景局部和細節(jié)信息的加工產(chǎn)生影響, 并決定大腦對場景記憶的深度(Groen, Ghebreab, Lamme, & Scholte, 2016; Harel, Groen, Kravitz, Deouell, & Baker, 2016)。
場景主旨加工可能需要少量注意資源的參與。如果當前任務(wù)需要將注意集中在與場景存在空間重疊的刺激上, 抑或當前任務(wù)難度不足以耗盡所有的注意資源, 這些情況下場景主旨加工對注意資源的占用可能難以察覺; 反之則不然。雖然有研究為場景主旨加工不需要注意參與提供了證據(jù), 但該研究中的不同任務(wù)相關(guān)刺激是同時呈現(xiàn), 這可能會對結(jié)果產(chǎn)生影響(Gronau & Izoutcheev, 2017), 這樣的猜測還有待將來進一步的實驗驗證。
最初的場景主旨加工理論是以物體為中心的(object-centered)場景加工理論。該理論認為場景中的具有診斷性意義的物體是視覺系統(tǒng)進行場景主旨識別和分類的依據(jù), 視覺系統(tǒng)通過結(jié)合場景中的物體以及先前經(jīng)驗中物體可能出現(xiàn)的位置來對當前的場景主旨進行判斷(如, De Graef, Christaens & D’Ydewalle, 1990)?;蛘呖梢哉f, 視覺系統(tǒng)對場景中的一個或者幾個突出物體的識別即可以實現(xiàn)對場景主旨的有效識別(Friedman, 1979)。這類理論很早就遭到質(zhì)疑和反駁, 因為有研究者發(fā)現(xiàn)觀察者不需要對場景中的物體進行識別就能夠?qū)鼍白龀稣_的分類判斷。
針對以物體為中心的場景加工理論的不足, 研究者又提出了以場景為中心的(scene-centered)場景加工理論(如, Schyns & Oliva, 1994)。其基本觀點為, 場景的整體特性才是場景主旨加工所需要的信息成分。同時, 大量研究也表明, 多種場景整體特性(如場景的紋理、顏色、體積或者空間頻率等)的變化均會對視覺系統(tǒng)的場景識別過程產(chǎn)生影響。然而這些研究僅僅證明多種整體特征在場景加工中的作用和價值, 卻難以解釋信息是以怎樣的形式被提取和進一步加工的。
為了回答上述的問題, Oliva及其同事提出了以場景為中心的加工理論?空間包裹(spatial envelope)理論, 該理論試圖尋找視覺系統(tǒng)在場景早期加工過程中提取的基本單元(primary element), 假設(shè)大腦僅通過對基本單元的編碼和表征就能完成對場景主旨的加工。空間包裹理論提出5種全局特征, 分別是自然性(naturalness)、開放性(openness)、粗糙度(roughness)、延伸性(expansion)、堅固性(ruggedness) (Oliva & Torralba, 2001), 并在隨后的研究中將其擴展到7種(Greene & Oliva, 2009b)。Oliva等人認為這些全局特征是由多種低水平特征整合形成, 涵蓋了不同頻率的空間信息, 能夠為場景主旨的識別提供粗略但充分的信息資源。同時也有研究指出, 全局特性的加工不受視覺疲勞的影響, 被認為是一種自動化的信息加工(Csathó, van der Linden, & Gács, 2015)。
Greene和Oliva (2006)發(fā)現(xiàn), 在對場景圖片進行快速分類時, 對與目標場景擁有某種相同全局特性的干擾場景更容易虛報。例如, 要求被試判斷快速呈現(xiàn)的場景圖片是否屬于“森林”, 那么與森林一樣具有“低開放性”全局特征的非森林場景較其他不具有此特征的干擾項更容易被識別為“屬于森林”, 他們認為產(chǎn)生這種混淆的原因可能是全局特征被視覺系統(tǒng)用來作為主旨識別的依據(jù)。Greene和Oliva (2009a)利用計算機編寫了以7種全局特征為依據(jù)的場景識別算法, 同時使用該計算機算法和人類被試來完成相同的場景分類任務(wù), 結(jié)果發(fā)現(xiàn)二者在反應(yīng)時、正確率甚至虛報率上均無顯著差異, 表明計算機全局特征算法較好地模擬了人類視覺系統(tǒng)在場景識別和分類中的決策偏向, 支持了場景主旨能夠僅僅通過對全局特征提取和整合而獲得的理論假設(shè)。然而, 最近的一項研究采用重復(fù)盲視(repetition blindness)范式發(fā)現(xiàn), 觀察者在加工場景的前100~150 ms內(nèi), 所表征的是局部的視覺特征, 而不是更抽象的類別特征(Goldzieher, Andrews, & Harris, 2017)。
以物體為中心的場景加工理論過分強調(diào)了物體的作用, 而空間包裹理論過分看重全局特性的作用, 二者皆忽略了場景、物體、物體情境關(guān)系之間天然存在不可分割的空間和語義聯(lián)系, 且缺乏相關(guān)神經(jīng)機制的研究。隨著研究的深入, 研究者逐步將ERP和fMRI技術(shù)應(yīng)用到對場景加工機制的研究上來, 提出了場景聯(lián)結(jié)加工假設(shè)。
場景聯(lián)結(jié)加工(associative processing)假設(shè)有兩點核心內(nèi)容。首先, 大腦中儲存了在長期經(jīng)驗中同時出現(xiàn)并已形成聯(lián)結(jié)的重要場景信息, 而對場景的加工則是激活這種聯(lián)結(jié)信息并加以提取的過程; 其次, 大腦的視覺系統(tǒng)中并不存在獨立的場景加工區(qū)域, 這些已知場景選擇性區(qū)域的作用實質(zhì)是完成對外界信息中聯(lián)結(jié)的加工, 這種聯(lián)結(jié)信息可以是場景的整體特性、場景中物體間的情境關(guān)系等視覺信息, 也可以是聽覺信息或其他感覺通道的信息(Aminoff & Tarr, 2015; Bar, Aminoff, Mason, & Fenske, 2007)。例如, 桌子和椅子在場景中經(jīng)常一同出現(xiàn), 大腦皮層可以根據(jù)經(jīng)驗將這兩種刺激形成語義聯(lián)結(jié)并儲存在長時記憶中, 當新的外界刺激中出現(xiàn)了這種聯(lián)結(jié)關(guān)系, 便會對長時記憶的語義聯(lián)結(jié)信息進行激活, 利用這種聯(lián)結(jié)信息完成對當前場景的加工。值得注意的是, 聯(lián)結(jié)的形式并不是固定的, 可以是語義聯(lián)結(jié)、空間關(guān)系聯(lián)結(jié)或情緒聯(lián)結(jié)等, 是在長期經(jīng)驗中通過學(xué)習(xí)而形成并穩(wěn)定下來的(Bar et al., 2007)。
Aminoff和Tarr (2015)設(shè)計了一些由無意義圖形組成的人工聯(lián)結(jié)刺激: 保留圖形間形狀聯(lián)合信息(圖形類型不變, 位置變化, 黑色背景)的刺激集或者保留圖形間空間聯(lián)合信息(圖形類型變化, 位置不變, 黑色背景)的刺激集, 通過學(xué)習(xí)讓大腦對圖形中兩種聯(lián)結(jié)信息納入記憶, 在正式實驗過程中要求被試判斷刺激中包含了哪一種聯(lián)結(jié)信息, 結(jié)果大腦皮層的場景選擇區(qū)域?qū)θ斯ぢ?lián)結(jié)刺激的激活與真實場景類似, 表明大腦對人工聯(lián)結(jié)刺激的加工與真實場景相似, 支持了場景選擇區(qū)域的作用是對場景中的聯(lián)結(jié)信息進行加工的觀點。
場景聯(lián)結(jié)加工假設(shè)為大量研究的結(jié)果提供了可能的解釋。首先, 場景聯(lián)結(jié)加工理論為物體與場景在加工過程中的相互促進提供了解釋。一方面, 場景對處于其中物體的識別、搜索和記憶存在促進作用。例如, 處于一致物體間情境關(guān)系中的物體更容易被搜索和識別(如, Castelhano & Heaven, 2011; Davenport & Potter, 2004; 白學(xué)軍, 康廷虎, 閆國利, 2008; 田宏杰, 王福興, 徐菲菲, 申繼亮, 2010); 對場景背景中的目標物體完成搜索任務(wù)和有意記憶任務(wù), 搜索任務(wù)中目標物體的回憶效果更佳(Draschkow, Wolfe, & V?, 2014; Josephs, Draschkow, Wolfe, & V?, 2016)等; 另一方面, 已有研究發(fā)現(xiàn)物體也能促進對所處場景信息的加工。Davenport和Potter (2004)發(fā)現(xiàn)當物體與場景情境一致時, 被試對該場景識別的正確率提升。Wu, Wang和Pomplun (2014)將場景圖片中的中心物體取出與灰色背景融合并打亂其空間關(guān)系, 要求被試完成對合成場景的分類任務(wù), 結(jié)果發(fā)現(xiàn)任務(wù)的正確率顯著高于平均水平。這表明在只保留物體間情境關(guān)系的情況下, 視覺系統(tǒng)仍然能夠根據(jù)物體間的聯(lián)結(jié)信息來完成場景的類別判斷任務(wù), 近期確有研究暗示場景的情境一致性確實會影響場景的分類(Collet, Fize, & VanRullen, 2015)。另外在fMRI研究中, 情境一致的場景和物體對PPA區(qū)域的激活更強(Bar & Aminoff, 2003; Troiani, Stigliani, Smith, & Epstein, 2014)。同時, Stansbury, Naselaris和Gallant (2013)發(fā)現(xiàn)視覺系統(tǒng)對場景分類的過程中物體出現(xiàn)的可能性參與了場景表征的形成。這些結(jié)果暗示, 場景與物體的加工并不是分離的, 而是相互關(guān)聯(lián)共同完成的, 這種聯(lián)合信息的存在為聯(lián)結(jié)加工理論提供了支持。
其次, 場景聯(lián)結(jié)加工理論為語義和句法不一致的ERPs研究結(jié)果提供了解釋。Biederman, Mezzanotte和Rabinowitz (1982)首次提出用語義和句法來描述不同的場景?物體的一致性關(guān)系, 比如消防栓樹立在街道旁屬于語義一致, 而懸浮在街道旁就屬于語法不一致。將肥皂盒放在桌面上屬于語法一致, 但與筆記本電腦擺在一起就屬于語義不一致。一項ERPs的研究結(jié)果發(fā)現(xiàn)場景與物體的語義不一致引發(fā)N400波, 句法結(jié)構(gòu)不一致引發(fā)P600波(V? & Wolfe, 2013), 而對應(yīng)的腦電成分在句子理解的語義與句法不一致情況下也會出現(xiàn)。如果假設(shè)大腦皮層對刺激的加工是對不同刺激之間聯(lián)結(jié)的提取和激活, 那么這種物體與背景不同聯(lián)結(jié)方式(語義不一致/句法不一致)引起不同加工方式和腦電成分的現(xiàn)象就可以得到解釋。N400效應(yīng)在多種形式的刺激中被發(fā)現(xiàn), 例如:語言、圖片、物體、動作、聲音等(Kutas & Federmeier, 2011), 這意味著不同類型刺激的語義加工存在一個共同的腦機制, 那么語義/句法這種物體與場景信息聯(lián)結(jié)方式的一致性也可能是不同刺激類型出現(xiàn)相同腦電成分的原因。
再次, 場景聯(lián)結(jié)加工理論為現(xiàn)有的場景選擇區(qū)域?qū)Ψ菆鼍按碳さ膹娂せ钐峁┝私忉?。大腦皮層目前已知的場景選擇區(qū)域是根據(jù)其對場景刺激區(qū)別于其他類型刺激所產(chǎn)生的反應(yīng)偏向性確定而來的。然而隨著研究的深入, 一些場景選擇性區(qū)域被發(fā)現(xiàn)參與了“非場景”類刺激的編碼。以旁海馬空間加工區(qū)(Parahippocampal Place Area, PPA)為例:PPA區(qū)域?qū)κ煜さ拿婵妆炔皇煜っ婵椎姆磻?yīng)更大(Bar, Aminoff, & Ishai, 2008), 對具有高空間情境性的物體(如, 車燈)比具有低空間情境性的物體(如, 水壺)的激活更大(Bar, Aminoff, & Schacter, 2008), 對脫離背景的物體較面孔刺激的激活更大(Epstein & Kanwisher, 1998)等。場景選擇性腦區(qū)對非場景類型刺激的反應(yīng)體現(xiàn)了聯(lián)結(jié)加工理論中“無獨立場景加工腦區(qū)”的觀點, 即大腦對聯(lián)結(jié)信息的加工并不根據(jù)信息類型的不同而做出區(qū)分。
場景主旨加工的神經(jīng)基礎(chǔ)研究主要包括兩個方面的內(nèi)容: 場景主旨加工的時間動力特性(時程特點)和場景主旨加工特異性的腦區(qū)。
人類視覺系統(tǒng)能夠迅速提取場景主旨的信息, 對場景主旨加工的時間時程的研究往往采用較為短暫的呈現(xiàn)時間, 要求記錄生理信號的儀器設(shè)備需要有較高的時間分辨力, 相關(guān)的研究工作主要是通過腦電和腦磁信號來完成的, 目前這方面的研究相對較少。
Thorpe, Fize和Marlot (1996)率先采用腦電技術(shù)測量了視覺系統(tǒng)的加工速度, 結(jié)果發(fā)現(xiàn)人類視覺系統(tǒng)在刺激呈現(xiàn)后的大約150 ms就可以將包含動物的場景與包含非動物的場景區(qū)分開來。隨后Sato等人(1999)率先利用腦磁圖(magnetoencephalography, MEG)技術(shù), 比較了大腦對場景和面孔的神經(jīng)反應(yīng), 以此探討場景主旨加工的時間動力特性。結(jié)果發(fā)現(xiàn), 場景圖片誘發(fā)的MEG信號的潛伏期(約300 ms)長于面孔圖片誘發(fā)的MEG信號的潛伏期(約160 ms)。然而, Rivolta, Palermo, Schmalzl和Williams (2012)利用同樣的技術(shù), 卻發(fā)現(xiàn)場景刺激產(chǎn)生了與面孔同樣早的類別特異性的MEG成分(M100p, 100~130 ms)。Bastin等人(2013)采用腦電技術(shù)通過兩個實驗分離出神經(jīng)活動中早期(200~500 ms)的刺激驅(qū)動效應(yīng)和晚期(600~800 ms)的任務(wù)相關(guān)效應(yīng), 并同時記錄到了最強的γ波(50~150 Hz)。Groen及其同事將場景圖像的兩個統(tǒng)計特征—空間相干(spatial coherence)和對比能量(energy contrast)與場景主旨加工聯(lián)系起來, 發(fā)現(xiàn)這兩個統(tǒng)計指標均對早期(100~150 ms)單個試次的事件相關(guān)電位的波幅具有調(diào)節(jié)作用, 且空間相干的影響可以持續(xù)到晚期(約250 ms)的活動水平, 對場景進行自然/人工的分類判斷時, 神經(jīng)活動的幅度大小與空間相干有關(guān), 但與對比能量無關(guān)(Groen, Ghebreab, Prins, Lamme, & Scholte, 2013)。在后續(xù)的研究中, 他們還發(fā)現(xiàn)雖然注意資源對場景刺激所誘發(fā)的早期(< 250 ms)電位活動幾乎沒有影響, 但會對誘發(fā)的晚期(300~500 ms)電位活動產(chǎn)生較大的影響(Groen et al., 2016)。針對以往研究可能混淆了非場景刺激與場景刺激之間的物理差異所導(dǎo)致的神經(jīng)信號的不同, 最近的一項研究確定P2成分(潛伏期為約為220 ms)是場景主旨加工的標記(Harel et al., 2016)。
相比較而言, 對場景主旨加工特異性腦區(qū)的研究則探討的是在更長時間尺度(數(shù)秒鐘)上呈現(xiàn)場景刺激時, 大腦不同區(qū)域的選擇性激活, 這類研究要求儀器設(shè)備需要有較高的空間分辨力, 相關(guān)工作主要是通過fMRI技術(shù)來完成的, 這方面的研究相對較為豐富。
研究主要采用fMRI技術(shù), 涉及到3個對場景類刺激具有反應(yīng)偏向性的腦區(qū):海馬旁區(qū)(parahippocampal place area, PPA) (如, Epstein & Kanwisher, 1998; Epstein, 2005)、壓后皮層(retrosplenial complex, RSC) (Maguire, 2001)、枕區(qū)(occipital place area, OPA) (Dilks, Julian, Paunov, & Kanwisher, 2013), 以及一個對物體類刺激具有反應(yīng)偏向的腦區(qū): 枕葉外側(cè)復(fù)合體(lateral occipital complex, LOC) (Malach et al., 1995)。
早期研究發(fā)現(xiàn)PPA與場景幾何構(gòu)型或空間布局(Rajimehr, Devaney, Bilenko, Young, & Tootell, 2011)以及空間延伸性(Kravitz, Peng, & Baker, 2011; Park, Brady, Greene, & Oliva, 2011)等特性的編碼有關(guān)。這些研究認為PPA就像大腦中的“空間布局分析器”, 承擔(dān)著場景空間信息表征建構(gòu)的工作。后續(xù)研究發(fā)現(xiàn)PPA區(qū)域還與場景中物體信息的加工有關(guān), 包括物體大小(如, Cant & Xu, 2012; Konkle & Oliva, 2012)、物體引發(fā)場景聯(lián)想的難易(Mullally & Maguire, 2011)和場景分類(Dilks, Julian, Kubilius, Spelke, & Kanwisher, 2011; Peelen, Fei-Fei, & Kastner, 2009; Walther, Caddigan, Fei-Fei, & Beck, 2009)等。這些發(fā)現(xiàn)表明PPA不僅是一個“空間布局分析器”, 而且對場景中的物體也具有強的敏感性。
壓后皮層(retrosplenial cortex, RSC)也是具有場景反應(yīng)偏向性的重要腦區(qū), 并與視覺系統(tǒng)的空間定位和導(dǎo)航能力有關(guān)(Epstein, Parker, & Feiler, 2007; Marchette, Vass, Ryan, & Epstein, 2014; Vann, Aggleton, & Maguire, 2009; Vass & Epstein, 2013)。RSC與PPA且都與場景的空間延伸性有關(guān)(Henderson, Zhu, & Larson, 2011), 但PPA能夠分辨出場景中細節(jié)的改變, 卻不能判斷視角改變前后的兩個場景是否是同一個位置, 而RSC則能夠?qū)⒉煌暯堑淖兓c不同場景的變化區(qū)別開。PPA與RSC的這種功能上的互補幫助視覺系統(tǒng)建立起完整且細節(jié)豐富的多方位場景表征(Park & Chun, 2009)。
不同于PPA和RSC, 人們對OPA區(qū)域在場景加工中的功能知之甚少。Dilks等人(2013)認為OPA 可能是最先獲得感受器傳入的場景信息的腦區(qū), 而Silson, Chan, Reynolds, Kravitz和Baker (2015)認為PPA與OPA分別具有的上下視野偏差(upper and lower visual field biases)可能是兩者在功能上存在互補性的證據(jù)。除此之外, OPA與其他兩個場景選擇性腦區(qū)在場景加工中的反應(yīng)偏向性有許多相似之處, 例如, 三者都具有熟悉性偏向(Epstein, Higgins, Jablonski, & Feiler, 2007)、直線偏向(Nasr, Echavarria, & Tootell, 2014)等。目前關(guān)于OPA腦區(qū)的更多功能仍然在探索之中, 關(guān)于3個場景選擇腦區(qū)的反應(yīng)偏向性和OPA的真正功能還需要進一步的實驗驗證。
枕葉外側(cè)復(fù)合體(lateral occipital complex, LOC)最初由于其對物體的反應(yīng)偏向性而被發(fā)現(xiàn), 并被認為與物體形狀和類別的編碼有關(guān)(如, Eger, Ashburner, Haynes, Dolan, & Rees, 2008), 近來人們發(fā)現(xiàn)其在場景加工過程中也承擔(dān)著重要作用。Walther等人(2009)發(fā)現(xiàn)在此過程中PPA、RSC和LOC在協(xié)同作用下完成了對場景信息的加工。Harel, Kravitz和Baker (2013)發(fā)現(xiàn), RSC和PPA同時對場景的空間布局敏感, 而LOC和PPA則同時對場景中的物體敏感。
那么, 這些腦區(qū)究竟是怎樣在場景加工的過程中協(xié)同完成任務(wù)的呢?PPA在空間信息和物體屬性加工上的雙重作用應(yīng)如何解釋呢?為了探索這種協(xié)同運作的具體方式, Baldassano, Beck和Fei-Fei (2013)采用功能聯(lián)結(jié)分析(functional connectivity analysis)技術(shù), 發(fā)現(xiàn)PPA區(qū)域的前部與RSC區(qū)域反應(yīng)相關(guān)性很大, 而PPA區(qū)域的后部則與LOC區(qū)域反應(yīng)相關(guān)性很大, 證明PPA是由前后兩個功能不一致的部分組成:前部與場景的記憶和情境加工有關(guān), 而后部與低水平特征和物體形狀的加工有關(guān)。近期一項研究發(fā)現(xiàn), 視覺系統(tǒng)在針對不同空間布局、紋理材料, 以及具有開放或封閉、自然或人工屬性的材料完成不同種類的判斷任務(wù)時, PPA、RSC和OPA區(qū)域的激活程度受到任務(wù)種類和場景屬性交互作用的影響, 證明視覺系統(tǒng)雖然會對場景的多種信息進行提取和整合, 但這個過程會隨著任務(wù)目的和場景特征的不同而變化(Lowe, Gallivan, Ferber, & Cant, 2016)。這樣的結(jié)果與聯(lián)結(jié)加工理論對場景加工的解釋一致, 為未來對場景加工機制的探索提供了可行方向。
綜上可知, PPA的前部與RSC主要參與場景的空間信息編碼, PPA后部與LOC主要參與場景中物體的加工, 而OPA的真正功能以及這些腦區(qū)在場景加工中的協(xié)同工作方式仍不清楚。目前有研究認為主旨表征是場景空間信息編碼不可缺少的信息(Siddiqui & Brown, 2015), 其中場景的快速分類任務(wù)也與這些腦區(qū)相關(guān)(Ramkumar, Hansen, Pannasch, & Loschky, 2016), 但究竟它們在場景主旨加工中起到哪些具體作用?這些問題的答案仍需要進一步的探索研究。
本文對真實場景主旨加工的影響因素、相關(guān)的爭議性問題、加工機制的理論解釋以及場景主旨加工的神經(jīng)基礎(chǔ)等方面進行評述。盡管該領(lǐng)域的相關(guān)研究已經(jīng)取得了一些重要性的成果, 但這些研究成果中仍然存在一些亟待解決重要問題。
首先, 目前的研究結(jié)果支持場景主旨的識別需要全局特性作為診斷性信息, 而顏色、空間頻率、線條朝向等低水平信息對主旨的加工也具有一定影響。據(jù)此可以對場景主旨的加工進行兩個方面的研究:(1)已有研究表明視覺系統(tǒng)對真實場景的信息加工具有一定程度的靈活性, 這種靈活性在多大程度上影響了場景早期加工的信息提取仍不清楚, 因此可通過在同一實驗范式中操縱任務(wù)或者經(jīng)驗等變量來研究它們對信息提取的影響,以此來探討視覺信息的前饋(feedforward)和反饋(feedback)加工之間的相互關(guān)系(Maguire & Howe, 2016; Potter et al., 2014; 孫雨生等, 2017); (2)已有研究對全局特征的種類表述不夠規(guī)范, 因此可以進一步探討是否存在場景信息加工的基本單元, 究竟哪些特征(如自然性、開放性、粗糙度等)可以作為場景信息加工的基本單元, 這些特征對于不同類型的場景圖像是否具有特異性, 此方向的研究有利于找到更好的計算機分類算法, 使機器視覺更加接近人類的視覺系統(tǒng)。(3)場景圖像中全局特征的加工與群集表征(assembly representation)加工之間有什么樣的關(guān)系, 二者的加工是否具有共同的機制(Alvarez, 2011; Brady, Shafer-Skelton, & Alvarez, 2017; Cohen, Dennett, & Kanwisher, 2016; De Cesarei, Loftus, Mastria, & Codispoti, 2017)。
其次, 就場景主旨加工的理論解釋而言, 我們認為一般情況下主旨是以場景的全局特征作為診斷性信息的, 而場景主旨加工會影響注意引導(dǎo)和記憶(Malcolm et al., 2016)。但場景中的物體是否會影響, 如何影響場景主旨的加工仍不清楚。為了回答該問題, 未來研究可以從以下兩個方面展開研究:(1)已有研究表明場景與物體的語義一致性對物體的加工具有促進作用, 這種一致性是否能夠促進場景主旨的加工以及這種一致性判斷在場景主旨識別過程中是否為必要過程; (2)已有研究表明場景主旨與物體加工存在交互作用, 這種交互作用是否暗示場景與物體加工并不是平行過程而是相互促進、相互制約, 如果是, 那么這種交互作用是怎樣在注意的調(diào)節(jié)下完成的。
第三, 目前的研究結(jié)果在場景的層級加工優(yōu)先性上存在矛盾: 早期研究者發(fā)現(xiàn)了場景分類基本水平優(yōu)勢; 然而后來的研究采用不同的實驗范式和方法獲得了上級水平優(yōu)勢。我們認為這種看似存在矛盾的層級加工優(yōu)先性的模式可能并不那么穩(wěn)定, 會受到一些因素的調(diào)節(jié), 未來研究可從以下幾個方面做進一步的探討: (1)近期已有研究探討了場景圖片的相似性對層級加工優(yōu)先性的影響(Banno & Saiki, 2015, Poncet & Fabre-Thorpe, 2014); 后續(xù)研究可以探討其他調(diào)節(jié)這種層級加工優(yōu)先性的邊界條件, 如場景圖片的典型性等。(2)已有研究表明工作記憶內(nèi)容能夠增強視知覺表征(如, Soto, Wriglesworth, Bahrami-Balani, & Humphreys, 2010); 后續(xù)研究可以探討工作記憶的內(nèi)容對場景層級加工優(yōu)先性的調(diào)節(jié)作用。(3)有研究表明獎賞能夠改變知覺(Failing & Theeuwes, 2016), 那么場景中包含的具有生存價值/情緒性意義的信息是否也會影響場景主旨加工的層級優(yōu)先性也是一個值得探討的問題(李畢琴等, 2015)。另外, 還有研究暗示場景主旨的加工具有個體差異性, 那么個體差異是否也會影響場景主旨層級加工優(yōu)先性值得進一步的研究。對這類問題的研究將有助于揭示場景主旨加工的時間進程。
第四, 目前的研究對場景主旨的加工或分類是否需要注意資源的問題尚未有定論。當前對場景主旨是否需要注意參與的問題可以從以下方向進行研究:(1) Groen等人(2016)發(fā)現(xiàn)除了任務(wù)難度, 在雙任務(wù)條件下的兩種目標刺激在空間上是否發(fā)生重疊可能會影響到兩種任務(wù)在注意分配上是否存在競爭, 這一假設(shè)有待進一步考證; (2) Kay, Weiner和Grill-Spector (2015)在一項fMRI研究中使用人臉作為刺激材料發(fā)現(xiàn)注意狀態(tài)對早期視覺皮層的激活沒有影響, 僅僅影響晚期高水平類別選擇區(qū)域(high-level category selective area), 表明人臉刺激中的早期低水平信息加工不易受注意資源多少的影響。在這一研究的啟示下, 可分開探討場景不同水平信息加工與注意資源的關(guān)系, 即是否場景的部分信息需要注意參與才能完成提取和加工, 而另一些信息的加工則不需要注意參與。
第五, 關(guān)于場景主旨加工的時間動力特性的神經(jīng)基礎(chǔ)方面, 目前的研究還相對較為薄弱, 結(jié)果也不盡相同, 還需要設(shè)計巧妙的實驗, 利用高時間分辨率的ERP技術(shù)來明確場景主旨加工的時間進程。在場景主旨加工的特異性腦區(qū)方面的研究較為豐富, 大多數(shù)研究主要提及了PPA、RSC、OPA和LOC四個區(qū)域在場景主旨加工中的作用, 但對這些區(qū)域在場景主旨加工過程中是如何協(xié)同作用的研究相對較少, 未來研究可以考慮利用腦功能聯(lián)結(jié)分析技術(shù)探討這些區(qū)域的協(xié)同作用, 為場景知覺加工建立相應(yīng)的腦功能網(wǎng)絡(luò)。這個領(lǐng)域的研究對于智能機器視覺的研制和深度神經(jīng)網(wǎng)絡(luò)的構(gòu)建具有啟示意義。
到目前為止, 場景主旨加工的研究雖然取得了豐碩的成果, 但還存在諸多爭議性的問題亟待解決。我們期待將來有更多研究者加入到該領(lǐng)域的研究中來, 將行為實驗、眼動技術(shù)、計算建模和現(xiàn)代化腦成像技術(shù)等多種方法相融合, 對場景主旨加工進行全面立體的研究, 以豐富人們對真實場景加工過程的理解。
白學(xué)軍, 康廷虎, 閆國利. (2008). 真實情景中刺激物識別的理論模型與研究回顧.(5), 679–686.
程昊. (2010).(碩士學(xué)位論文). 浙江大學(xué), 杭州.
李畢琴, 郭畢鵬, 胡竹菁, 羅躍嘉. (2015). 場景主旨對恐懼刺激加工影響的ERP研究.(4), 318– 323.
孫琪, 任衍具, 傅根躍. (2015). 視空工作記憶負載對場景主旨加工的影響.(6), 1311–1318.
孫雨生, 張智君, 吳彬星. (2017). 上下文預(yù)期在快速場景識別中的作用.(5), 577–589.
田宏杰, 王福興, 徐菲菲, 申繼亮. (2010). 場景知覺中物體加工的背景效應(yīng).(6), 878–886.
Alvarez, G. A. (2011). Representing multiple objects as an ensemble enhances visual cognition.(3), 122–131.
Aminoff, E. M., & Tarr, M. J. (2015). Associative processing is inherent in scene perception.(6), e0128840.
Awasthi, B., Sowman, P. F., Friedman, J., & Williams, M. A. (2013). Distinct spatial scale sensitivities for early categorization of faces and places: Neuromagnetic and behavioral findings., 91.
Baldassano, C., Beck, D. M., & Fei-Fei, L. (2013). Differential connectivity within the parahippocampal place area., 228–237.
Banno, H., & Saiki, J. (2015). The processing speed of scene categorization at multiple levels of description: The superordinate advantage revisited.(3), 269– 288.
Bar, M., & Aminoff, E. (2003). Cortical analysis of visual context.(2), 347–358.
Bar, M., Aminoff, E., Mason, M., & Fenske, M. (2007). The units of thought., 420–428.
Bar, M., Aminoff, E., & Ishai, A. (2008). Famous faces activate contextual associations in the parahippocampal cortex.(6), 1233–1238.
Bar M., Aminoff, E., & Schacter, D. L. (2008). Scenes unseen: The parahippocampal cortex intrinsically subserves contextual associations, not scenes or places per se.(34), 8539–8544.
Bastin, J., Committeri, G., Kahane, P., Galati, G., Minotti, L., Lachaux, J. P., & Berthoz, A. (2013). Timing of posterior parahippocampal gyrus activity reveals multiple scene processing stages.(6), 1357–1370.
Biederman, I. (1972). Perceiving real-world scenes.(4043), 77–80.
Biederman, I., Mezzanotte, R. J., & Rabinowitz, J. C. (1982). Scene perception: Detecting and judging objects undergoing relational violations.(2), 143– 177.
Biggs, A. T., & Mitroff, S. R. (2015). Improving the efficacy of security screening tasks: A review of visual search challenges and ways to mitigate their adverse effects.(1), 142–148.
Boucart, M., Moroni, C., Thibaut, M., Szaffarczyk, S., & Greene, M. (2013). Scene categorization at large visual eccentricities., 35–42.
Brady, T. F., & Oliva, A. (2008). Statistical learning using real-world scenes: Extracting categorical regularities without conscious intent.(7), 678–685.
Brady, T. F., Shafer-skelton, A., & Alvarez, G. A. (2017). Global ensemble texture representations are critical to rapid scene perception.(6), 1160–1176.
Brand, J., & Johnson, A. P. (2014). Attention to local and global levels of hierarchical Navon figures affects rapid scene categorization., 1274.
Cant, J. S., & Xu, Y. (2012). Object ensemble processing in human anterior-medial ventral visual cortex.(22), 7685–7700.
Castelhano, M. S., & Henderson, J. M. (2008). The influence of color on the perception of scene gist.(3), 660–675.
Castelhano, M. S., & Heaven, C. (2011). Scene context influences without scene gist: Eye movements guided by spatial associations in visual search.(5), 890–896.
Clarke, J., & Mack, A. (2014). Iconic memory for the gist of natural scenes., 256– 265.
Cohen, M. A., Alvarez, G. A., & Nakayama, K. (2011). Natural-scene perception requires attention.(9), 1165–1172.
Cohen, M. A., Dennett, D. C., & Kanwisher, N. (2016). What is the bandwidth of perceptual experience?(5), 324–335.
Collet, A.C., Fize, D., & VanRullen, R. (2015). Contextual congruency effect in natural scene categorization: Different strategies in humans and monkeys ().(7), e0133721.
Csathó, á., van der Linden, D., & Gács, B. (2015). Natural scene recognition with increasing time-on-task: The role of typicality and global image properties.(4), 814–828.
Davenport, J. L., & Potter, M. C. (2004). Scene consistency in object and background perception.(8), 559–564.
De Graef, P., Christiaens, D., & D’Ydewalle, G. (1990). Perceptual effects of scene context on object identification.(4), 317–329.
De Cesarei, A., Loftus, G. R., Mastria, S., & Codispoti, M. (2017). Understanding natural scenes: Contributions of image statistics.(Part A), 44–57.
Dilks, D. D., Julian, J. B., Kubilius, J., Spelke, E. S., & Kanwisher, N. (2011). Mirror-image sensitivity and invariance in object and scene processing pathways.(31), 11305–11312.
Dilks, D. D., Julian, J. B., Paunov, A. M., & Kanwisher, N. (2013). The occipital place area is causally and selectively involved in scene perception.(4), 1331–1336.
Draschkow, D., Wolfe, J. M., & V?, M. L.-H. (2014). Seek and you shall remember: Scene semantics interact with visual search to build better memories.(8), 10.
Duh, S., & Wang, S.-H. (2014). Infants detect changes in everyday scenes: The role of scene gist., 142–161.
Eger, E., Ashburner, J., Haynes, J. D., Dolan, R. J., & Rees, G. (2008). fMRI activity patterns in human LOC carry information about object exemplars within category.(2), 356–370.
Epstein, R. (2005). The cortical basis of visual scene processing.(6), 954–978.
Epstein, R. A., Higgins, J. S., Jablonski, K., & Feiler, A. M. (2007). Visual scene processing in familiar and unfamiliar environments.(5), 3670– 3683.
Epstein, R., & Kanwisher, N. (1998). A cortical representation of the local visual environment.(6676), 598–601.
Epstein, R. A., Parker, W. E., & Feiler, A. M. (2007). Where am I now? Distinct roles for parahippocampal and retrosplenial cortices in place recognition.(23), 6141–6149.
Evans, K. K., Haygood, T. M., Cooper, J., Culpan, A.-M., & Wolfe, J. M. (2016). A half-second glimpse often lets radiologists identify breast cancer cases even when viewing the mammogram of the opposite breast.(37), 10292–10297.
Fabre-Thorpe, M. (2011). The characteristics and limits of rapid visual categorization., 243.
Failing, M., & Theeuwes, J. (2016). Reward alters the perception of time., 19–26.
Fei-Fei, L., Iyer, A., Koch, C., & Perona, P. (2007). What do we perceive in a glance of a real-world scene?(1), 10.
Freeman, T. E., Loschky, L. C., & Hansen, B. C. (2015). Scene masking is affected by trial blank-screen luminance.(Part B), 319–327.
Friedman, A. (1979). Framing pictures: The role of knowledge in automatized encoding and memory for gist.(3), 316–355.
Fu, Q. F., Liu, Y.-J., Dienes, Z., Wu, J. H., Chen, W. F., & Fu, X. L. (2016). The role of edge-based and surface-based information in natural scene categorization: Evidence from behavior and event-related potentials., 152–166.
Gegenfurtner, K. R., & Rieger, J. (2000). Sensory and cognitive contributions of color to the recognition of natural scenes.(13), 805–808.
Goffaux, V., Jacques, C., Mouraux, A., Oliva, A., Schyns, P. G., & Rossion, B. (2005). Diagnostic colours contribute to the early stages of scene categorization: Behavioural and neurophysiological evidence.(6), 878–892.
Goldzieher, M. J., Andrews, S., & Harris, I. M. (2017). Two scenes or not two scenes: The effects of stimulus repetition and view-similarity on scene categorization from brief displays.(1), 49–62.
Greene, M. R., & Oliva, A. (2006, July).. Proceedings of the 28th Annual Conference of the Cognitive Science Society (pp. 291–296), Vancouver, Canada.
Greene, M. R., & Oliva, A. (2009a). Recognition of natural scenes from global properties: Seeing the forest without representing the trees.(2), 137– 176.
Greene, M. R., & Oliva, A. (2009b). The briefest of glances: The time course of natural scene understanding.(4), 464–472.
Greene, M. R., & Fei-Fei, L. (2014). Visual categorization is automatic and obligatory: Evidence from Stroop-like paradigm.(1), 14.
Greene, M. R., Botros, A. P., Beck, D. M., & Fei-Fei, L. (2015). What you see is what you expect: Rapid scene understanding benefits from prior experience.(4), 1239–1251.
Groen, I. I. A., Ghebreab, S., Lamme, V. A. F., & Scholte, H. S. (2016). The time course of natural scene perception with reduced attention.(2), 931–946.
Groen, I. I. A., Ghebreab, S., Prins, H., Lamme, V. A. F., & Scholte, H. S. (2013). From image statistics to scene gist: Evoked neural activity reveals transition from low-level natural image structure to scene category.(48), 18814–18824.
Gronau, N., & Izoutcheev, A. (2017). The necessary of visual attention to scene categorization: Dissociating ‘task-relevant’ and ‘task-irrelevant’ scene distractors.(5), 954–970.
Hagmann, C. E., & Potter, M. C. (2016). Ultrafast scene detection and recognition with limited visual information.,(1), 2–14.
Hansen, B. C., & Loschky, L. C. (2013). The contribution of amplitude and phase spectra-defined scene statistics to the masking of rapid scene categorization.(13), 21.
Harel, A., Kravitz, D. J., & Baker, C. I. (2013). Deconstructing visual scenes in cortex: Gradients of object and spatial layout information.(4), 947–957.
Harel, A., Groen, I. I. A., Kravitz, D. J., Deouell, L. Y., & Baker, C. I. (2016). The temporal dynamics of scene processing: A multifaceted EEG investigation.(5), e0139-16.
Henderson, J. M., Zhu, D. C., & Larson, C. L. (2011). Functions of parahippocampal place area and retrosplenial cortex in real-world scene analysis: An fMRI study.(7), 910–927.
Josephs, E. L., Draschkow, D., Wolfe, J. M., & V?, M. L.-H. (2016). Gist in time: Scene semantics and structure enhance recall of searched objects., 100–108.
Joubert, O. R., Rousselet, G. A., Fize, D., & Fabre-Thorpe, M. (2007). Processing scene context: Fast categorization and object interference.(26), 3286– 3297.
Joubert, O. R., Rousselet, G. A., Fabre-Thorpe, M., & Fize, D. (2009). Rapid visual categorization of natural scene contexts with equalized amplitude spectrum and increasing phase noise.(1), 2.
Kadar, I., & Ben-Shahar, O. (2012). A perceptual paradigm and psychophysical evidence for hierarchy in scene gist processing.(13), 16.
Kauffmann, L., Chauvin, A., Pichat, C., & Peyrin, C. (2015). Effective connectivity in the neural network underlying coarse-to-fine categorization of visual scenes. A dynamic causal modeling study., 46–56.
Kauffmann, L., Ramano?l, S., & Peyrin, C. (2014). The neural bases of spatial frequency processing during scene perception., 37.
Kay, K. N., Weiner, K. S., & Grill-Spector, K. (2015). Attention reduces spatial uncertainty in human ventral temporal cortex.(5), 595–600.
Kihara, K., & Takeda, Y. (2010). Time course of the integration of spatial frequency-based information in natural scenes.(21), 2158–2162.
Kihara, K., & Takeda, Y. (2012). Attention-free integration of spatial frequency-based information in natural scenes., 38–44.
Konkle, T., & Oliva, A., (2012). A real-world size organization of object responses in occipitotemporal cortex.(6), 1114–1124.
Kravitz, D. J., Peng, C. S., & Baker, C. I. (2011). Real-world scene representations in high-level visual cortex: It's the spaces more than the places.(20), 7322–7333.
Kutas, M., & Federmeier, K. D. (2011). Thirty years and counting: Finding meaning in the N400 component of the event-related brain potential (ERP).(1), 621–647.
Kveraga, K., Boshyan, J., & Bar, M. (2007). Magnocellular projections as the trigger of top-down facilitation in recognition.(48), 13232– 13240.
Larson, A. M., & Loschky, L. C. (2009). The contributions of central versus peripheral vision to scene gist recognition.(10), 6.
Larson, A. M., Freeman, T. E., Ringer, R. V., & Loschky, L. C. (2014). The spatiotemporal dynamics of scene gist recognition.(2), 471–487.
Li, F. F., VanRullen, R., Koch, C., & Perona, P. (2002). Rapid natural scene categorization in the near absence of attention.(14), 9596– 9601.
Loschky, L. C., Hansen, B. C., Sethi, A., & Pydimarri, T. N. (2010). The role of higher order image statistics in masking scene gist recognition.(2), 427–444.
Loschky, L. C., & Larson, A. M. (2010). The natural/man-made distinction is made before basic-level distinctions in scene gist processing.(4), 513–536.
Loschky, L. C., Ringer, R. V., Ellis, K., & Hansen, B. (2015). Comparing rapid scene categorization of aerial and terrestrial views: A new perspective on scene gist.(6), 11.
Loschky, L. C., Nuthmann, A., Fortenbaugh, F. C., & Levi, D. M. (2017). Scene perception from central to peripheral vision.(1), 6.
Lowe, M. X., Gallivan, J. P., Ferber, S., & Cant, J. S. (2016). Feature diagnosticity and task context shape activity in human scene-selective cortex., 681–692.
Macé, M. J.-M., Joubert, O. R., Nespoulous, J. L., & Fabre-Thorpe, M. (2009). The time-course of visual categorizations: You spot the animal faster than the bird.(6), e5927.
Mack, A., & Clarke, J. (2012). Gist perception requires attention.(3), 300–327.
Mack, M. L., & Palmeri, T. J. (2015). The dynamics of categorization: Unraveling rapid categorization.(3), 551–569.
Maguire, E. A. (2001). The retrosplenial contribution to human navigation: A review of lesion and neuroimaging findings.(3), 225– 238.
Maguire, J. F., & Howe, P. D. L. (2016). Failure to detect meaning in RSVP at 27 ms per picture.(5), 1405–1413.
Malach, R., Reppas, J. B., Benson, R. R., Kwong, K. K., Jiang, H, Kennedy, W. A., … Tootell, R. B. (1995). Object-related activity revealed by functional magnetic resonance imaging in human occipital cortex.(18), 8135–8139.
Malcolm, G. L., Nuthmann, A., & Schyns, P. G. (2014). Beyond gist: Strategic and incremental information accumulation for scene categorization.(5), 1087–1097.
Malcolm, G. L., Groen, I. I. A., & Baker, C. I. (2016). Making sense of real-world scenes.(11), 843–856.
Marchette, S. A., Vass, L. K., Ryan, J., & Epstein, R. A. (2014). Anchoring the neural compass: Coding of local spatial reference frames in human medial parietal lobe.(11), 1598–1606.
Marx, S., Hansen-Goos, O., Thrun, M. C., & Einh?user, W. (2014). Rapid serial processing of natural scenes: Color modulates detection but neither recognition nor the attentional blink.(14), 4.
Morrison, D. J., & Schyns, P. G. (2001). Usage of spatial scales for the categorization of faces, objects, and scenes.(3), 454–469.
Mu, T. L., & Li, S. (2013). The neural signature of spatial frequency-based information integration in scene perception.(3), 367– 377.
Mullally, S. L., & Maguire, E. A. (2011). A new role for the parahippocampal cortex in representing space.(20), 7441–7449.
Musel, B., Chauvin, A., Guyader, N., Chokron, S., & Peyrin, C. (2012). Is coarse-to-fine strategy sensitive to normal aging?(6), e38493.
Musel, B., Kauffmann L., Ramano?l, S., Giavarini, C., Guyader, N., Chauvin, A., & Peyrin, C. (2014). Coarse-to-fine categorization of visual scenes in scene-selective cortex.(10), 2287–2297.
Nasr, S., Echavarria, C. E., & Tootell, R. B. H. (2014). Thinking outside the box: Rectilinear shapes selectively activate scene-selective cortex.(20), 6721–6735.
Oliva, A., & Schyns, P. G. (1997). Coarse blobs or fine edges? Evidence that information diagnosticity changes the perception of complex visual stimuli.(1), 72–107.
Oliva, A. (2005). Gist of the scene. In L. Itti, G. Rees, & J. K. Tsotsos (Eds.),(pp. 251–256). San Diego, CA: Elsevier.
Oliva, A., & Schyns, P. G. (2000). Diagnostic colors mediate scene recognition.(2), 176–210.
Oliva, A., & Torralba, A. (2001). Modeling the shape of the scene: A global representation of the spatial envelope.(3), 145–175.
Oliva, A., & Torralba, A. (2006). Building the gist of a scene: The role of global image features in recognition., 23–36.
Otsuka, S., & Kawaguchi, J. (2007). Natural scene categorization with minimal attention: Evidence from negative priming.(7), 1126–1139.
Otsuka, S., & Kawaguchi, J. (2009). Direct versus indirect processing changes the influence of color in natural scene categorization.(7), 1588–1597.
Otsuka, Y., Ichikawa, H., Kanazawa, S., Yamaguchi, M. K., & Spehar, B. (2014). Temporal dynamics of spatial frequency processing in infants.(3), 995–1008.
Park, S., & Chun, M. M. (2009). Different roles of the parahippocampal place area (PPA) and retrosplenial cortex (RSC) in panoramic scene perception.(4), 1747–1756.
Park, S., Brady, T. F., Greene, M. R., & Oliva, A. (2011). Disentangling scene content from spatial boundary: Complementary roles for the parahippocampal place area and lateral occipital complex in representing real-world scenes.(4), 1333–1340.
Patai, E. Z., Buckley, A., & Nobre, A. C. (2013). Is attention based on spatial contextual memory preferentially guided by low spatial frequency signals?(6), e65601.
Peelen, M. V., Fei-Fei, L., & Kastner, S. (2009). Neural mechanisms of rapid natural scene categorization in human visual cortex.(7251), 94–97.
Poncet, M., Reddy, L., & Fabre-Thorpe, M. (2012). A need for more information uptake but not focused attention to access basic-level representations.(1), 15.
Poncet, M., & Fabre-Thorpe, M. (2014). Stimulus duration and diversity do not reverse the advantage for superordinate-level representations: The animal is seen before the bird.(9), 1508–1516.
Potter, M. C. (1975). Meaning in visual search.(4180), 965–966.
Potter, M. C., & Levy, E. I. (1969). Recognition memory for a rapid sequence of pictures.(1), 10–15.
Potter, M. C., Wyble, B., Hagmann, C. E., & McCourt, E. S. (2014). Detecting meaning in RSVP at 13 ms per picture.(2), 270–279.
Rajimehr, R., Devaney, K. J., Bilenko, N. Y., Young, J. C., & Tootell, R. B. H. (2011). The “parahippocampal place area” responds preferentially to high spatial frequencies in humans and monkeys.(4), e1000608.
Ramkumar, P., Hansen, B. C., Pannasch, S., & Loschky, L. C. (2016). Visual information representation and rapid-scene categorization are simultaneous across cortex: An MEG study., 295–304.
Rivolta, D., Palermo, R., Schmalzl, L., & Williams, M. A. (2012). An early category-specific neural response for the perception of both places and faces.(1), 45–51.
Rosch, E., Mervis, C. B., Gray, W. D., Johnson, D. M., & Boyes-Braem, P. (1976). Basic objects in natural categories.(3), 382–439.
Rotshtein, P., Schofield, A., Funes, M. J., & Humphreys, G. W. (2010). Effects of spatial frequency bands on perceptual decision: It is not the stimuli but the comparison.(10), 25.
Rousselet, G., Joubert, O., & Fabre-Thorpe, M. (2005). How long to get the “gist” of real-world natural scene?(6), 852–877.
Sato, N., Nakamura, K., Nakamura, A., Sugiura, M., Ito, K., Fukuda, H., & Kawashima, R. (1999). Different time course between scene processing and face processing: An MEG study.(17), 3633–3637.
Schyns, P. G., & Oliva, A. (1994). From blobs to boundary edges: Evidence for time- and spatial-scale-dependent scene recognition.(4), 195–200.
Serre, T. (2016). Models of visual categorization.(3), 197– 213.
Siddiqui, A., & Brown, J. (2015). The role of gist processing in boundary extension.(12), 354.
Silson, E. H., Chan, A. W.-Y., Reynolds, R. C., Kravitz, D. J., & Baker, C. I. (2015). A retinotopic basis for the division of high-level scene processing between lateral and ventral human occipitotemporal cortex.(34), 11921–11935.
Sofer, I., Crouzet, S. M., & Serre, T. (2015). Explaining the timing of natural scene understanding with a computational model of perceptual categorization.(9), e1004456.
Soto, D., Wriglesworth, A., Bahrami-Balani, A., & Humphreys, G. W. (2010). Working memory enhances visual perception: Evidence from signal detection analysis.(2), 441–456.
Stansbury, D. E., Naselaris, T., & Gallant, J. L. (2013). Natural scene statistics account for the representation of scene categories in human visual cortex.(5), 1025–1034.
Subramanian, R., Shankar, D., Sebe, N., & Melcher, D. (2014). Emotion modulates eye movement patterns and subsequent memory for the gist and details of movie scenes.(3), 31.
Sun, Q., Ren, Y. J., Zheng, Y., Sun, M. X., & Zheng, Y. J. (2016). Superordinate level processing has priority over basic-level processing in scene gist recognition.(6), 1–18.
Thibaut, M., Tran, T. H. C., Szaffarczyk, S., & Boucart, M. (2014). The contribution of central and peripheral vision in scene categorization: A study on people with central vision loss., 46–53.
Thorpe, S., Fize, D., & Marlot, C. (1996). Speed of processing in the human visual system.(6582), 520–522.
Torralba, A., Oliva, A., Castelhano, M. S., & Henderson, J. M. (2006). Contextual guidance of eye movements and attention in real-world scenes: The role of global features in object search.(4), 766–786.
Troiani, V., Stigliani, A., Smith, M. E., & Epstein, R. A. (2014). Multiple object properties drive scene-selective regions.(4), 883–897.
Tversky, B., & Hemenway, K. (1983). Categories of environmental scenes.(1), 121– 149.
Vanmarcke, S., & Wagemans, J. (2015). Rapid gist perception of meaningful real-life scenes: Exploring individual and gender differences in multiple categorization tasks.(1), 19–37.
Vanmarcke, S., & Wagemans, J. (2016). Individual differences in spatial frequency processing in scene perception: The influence of autism-related traits.,(2), 115–131.
Vanmarcke, S., van Esch, L., van der Hallen, R., Evers, K., Noens, I., Steyaert, J., & Wagemans, J. (2016). Gist perception in adolescents with and without ASD: Ultra- rapid categorization of meaningful real-life scenes., 30–47.
Vann, S. D., Aggleton, J. P., & Maguire, E. A. (2009). What does the retrosplenial cortex do?(11), 792–802.
Vass, L. K., & Epstein, R. A. (2013). Abstract representations of location and facing direction in the human brain.(14), 6133– 6142.
V?, M. L.-H., & Wolfe, J. M. (2013). Differential electrophysiological signatures of semantic and syntactic scene processing.(9), 1816–1823.
Walker, S., Stafford, P., & Davis, G. (2008). Ultra-rapid categorization requires visual attention: Scenes with multiple foreground objects.(4), 21.
Walther, D. B., Caddigan, E., Fei-Fei, L., & Beck, D. M. (2009). Natural scene categories revealed in distributed patterns of activity in the human brain.(34), 10573–10581.
Walther, D. B., & Shen, D. D. (2014). Nonaccidental properties underlie human categorization of complex natural scenes.(4), 851–860.
Wang, P. Q., & Cottrell, G. (2016). Modeling the contribution of central versus peripheral vision in scene, object, and face recognition. In A. Papafragou, D. Grodner, D. Mirman, & J. C. Trueswell (Eds.),. Austin, TX: Cognitive Science Society.
Wedel, M., & Pieters, R. (2015). The buffer effect: The role of color when advertising exposures are brief and blurred.(1), 134–143.
Wei, X., Phung, S. L., & Bouzerdoum, A. (2016). Visual descriptors for scene categorization: Experimental evaluation.(3), 333–368.
Wu, C.-C., Wang, H.-C., & Pomplun, M. (2014). The roles of scene gist and spatial dependency among objects in the semantic guidance of attention in real-world scenes., 10–20.
Wu, C.-T., Crouzet, S. M., Thorpe, S. J., & Fabre-Thorpe, M. (2015). At 120 msec you can spot the animal but you don't yet know it's a dog.(1), 141–149.
Yao, A. Y., & Einh?user, W. (2008). Color aids late but not early stages of rapid natural scene recognition.(16), 12.
Scene gist processing and its mechanisms
LI Mengqi1; CHEN Zhimin1; ZHENG Yuanjie2; REN Yanju1
(1School of Psychology, Shandong Normal University, Jinan 250358, China) (2School of Information Science and Engineering, Shandong Normal University, Jinan 250358, China)
With a mere glimpse of a scene, observers can grasp a variety of perceptual and semantic information. This is referred to as scene gist. In recent years, scene gist processing has become an important topic in visual perception domain. Research on this theme can reveal the processing mechanisms for visual information and provide important implications for developing intelligent machine vision. The influencing factors, the controversial issues, and the neural basis of scene gist processing are reviewed. Some important issues, including the primary element of scene gist processing, the relevant theoretical explanations, the modulating factors of the hierarchical processing, the modulatory effect of attention, the timing dynamic characteristics and the construction of the brain function network, should be further explored.
scene gist; hierarchical processing; attention
2017-02-28
* 山東省自然科學(xué)基金面上項目(ZR2017MC058); 山東省高等學(xué)校人文社會科學(xué)研究計劃項目(J13WH07); 山東省“泰山學(xué)者海外特聘專家”項目(TSHW201502038); 山東省高校人類認知與行為發(fā)展重點實驗室; 山東師范大學(xué)“二層次”人才資助項目。
任衍具, E-mail: renyanju@gmail.com
10.3724/SP.J.1042.2018.00081
B842