李恒威 康文煌
提要:預測加工被認為是一種能統(tǒng)一解釋所有心智現(xiàn)象的基本機制。預測加工理論認為,腦基于模型進行預測,知覺是腦內模型的自發(fā)性預測信號與外界作用于感官的刺激信號相互作用建構的結果。霍威、克拉克、斯旺森等人認為,預測加工與康德的心智理論有很深的淵源,并且康德的心智理論以赫姆霍茨為中介預示了預測加工。但奧蘭迪、本尼、扎哈維等人對這種觀點有異議。例如,他們認為,預測加工的具身性和生態(tài)心理學的解讀與康德鮮有關聯(lián)。通過考察當前關于預測加工與康德的心智理論之關系的討論和爭論,我們嘗試論述預測加工與康德關于心智工作原理上的關聯(lián)和差別。盡管預測加工與康德思想存在跨越歷史的呼應,但這還不足以表明預測加工是康德思想的直接歷史后承,更不能得出“預測加工根源于康德”這種過強的主張。
近年來,預測加工(Predictive processing,PP)在哲學和認知科學領域受到廣泛和強烈的關注,呈現(xiàn)出強勁的發(fā)展勢頭。預測加工被認為是認知科學理論領域中的下一個大事件,是一種可以統(tǒng)一解釋所有心智現(xiàn)象(諸如知覺、記憶、注意、想象、情緒、意圖、行動),尤其是知覺與行動之關系的機制,“它為心智和行動的統(tǒng)一科學的形成提供了迄今為止最好的線索”(1)A. Clark,“Whatever Next? Predictive Brains, Situated Agents, and the Future of Cognitive Science,”Behavioral And Brain Sciences,Vol. 36,No. 3,2013,pp.181-253.。預測加工有悠久的前史,目前它有許多變體名稱,諸如預測編碼(predictive coding)、主動推斷(active inference)、貝葉斯腦(Bayesian brain)、自由能原理(free energy principle)等。
預測加工理論認為腦是一種“預測機器”或“假說檢驗機器”。腦基于有機體對其生活世界的過往經驗(或者說,對其生活世界的“先驗”信念或“先驗”模型),不斷地對環(huán)境狀況進行主動、自發(fā)的預測,并針對來自環(huán)境的感官信號流與預測的匹配程度來檢驗這些預測,從而形成知覺,以此指導行動和推動學習。通常,腦通過某種近似貝葉斯推斷(Bayesian inference)的機制來實現(xiàn)預測檢驗。
根據(jù)傳統(tǒng)的標準知覺理論,知覺是感官信息不斷前饋的結果。腦“從感官中獲得能量輸入,通過一個逐步建構的、累積式的復雜結構,以類似于拼裝樂高積木的方式將其轉化為連貫的知覺經驗”(2)安迪·克拉克:《預測算法:具身智能如何應對不確定性》,劉林澍譯,機械工業(yè)出版社,2020年,第58頁。。這種傳統(tǒng)知覺理論將腦看成是一個被動的、受外源刺激驅動的裝置,而知覺是感官信息自下而上不斷前饋的線性轉變的結果。
與這種以客體為中心的、外源的、被動的、單向的、線性的知覺理論不同,預測加工理論確實蘊含了某種意義上的革命性轉變,因為“它揭示知覺是一個主動的、建構的過程,而不是對外部客觀現(xiàn)實的被動登記”(3)D. Mendonca, M. Curado and S. Gouveia,eds.,The Philosophy and Science of Predictive Processing, Bloomsbury Publishing,2020,pp.xvi, xiv.。概括地說,預測加工所論的知覺既不是純粹的客觀主義,也不是純粹的主觀主義,而是一種兼取兩者的、調和的、居間的理論——即建構主義。(4)D. Mendonca, M. Curado and S. Gouveia,eds.,The Philosophy and Science of Predictive Processing, Bloomsbury Publishing,2020,pp.xvi, xiv.建構主義對知覺的理解是以生命在環(huán)境中的生存和適應為中心的,知覺是有機體的內在認知架構與外部環(huán)境相互作用的建構的結果。因此,知覺既是外源的也是內源的,既是被動的也是主動的,既是前饋的(自下而上的或自外而內的)也是反饋的(自上而下的或自內而外的)——它不是由一個線性的而是由一個循環(huán)的過程實現(xiàn)的?!霸谖业哪X中,知覺依賴于先驗信念。它并不是像在照片或電視上產生圖像一樣的線性過程。對于我的腦來說,知覺是一個循環(huán)的過程。”(5)C. Frith,Making up the Mind: How the Brain Creates Our Mental World,Blackwell Publishing,2007,p.126.
與傳統(tǒng)的標準知覺理論相比,預測加工理論像其他建構主義的認識論一樣,賦予生命主體內在的認知架構在認識活動以必要的、恰當?shù)淖饔煤偷匚?,而這種作用是生命主體通過其已有的世界模型(或先驗信念)自發(fā)地啟動對感官刺激的預測實現(xiàn)的。預測加工理論的這一思想很容易讓人聯(lián)想到康德認識論中的范疇(category)及其自發(fā)性。事實上,康德的認識論本就與哲學認識論之后出現(xiàn)的心理學和認知科學存在深刻的聯(lián)系,康德甚至被認為是“認知科學的鼻祖”(6)A. Brook,“Kant and Cognitive Science,” in A. Brook,ed.,The Prehistory of Cognitive Science, NY: Palgrave,2007,pp.117-136.,“康德在理解‘心智是如何認識’這個問題上所做的努力,已經在這個領域中占據(jù)了重要的地位??档聦ΜF(xiàn)代心理學也有重大影響。事實上,他提出的許多認識論問題現(xiàn)在正被認知科學所研究,而認知科學的宗旨就在于解開知覺、學習、認識和思維之謎。”(7)D. J. Soccio,Archetypes of Wisdom: An Introduction to Philosophy (Ninth Edition),Cengage Learning,2016,p.333.
霍威(Jakob Hohwy)、克拉克(Andy Clark)、格拉齊耶夫斯基(Gladziejewski)、斯旺森(Lin R. Swanson)等人認為,預測加工理論與康德思想之間存在相似之處——預測加工“給人的印象是近乎康德式的”(8)A. Clark,“Whatever Next? Predictive Brains, Situated Agents, and the Future of Cognitive Science,”Behavioral And Brain Sciences,Vol. 36,2013,pp.181-253.,它“在精神上為我們呈現(xiàn)了一種康德式的知覺觀”(9)P. Gadziejewski,“Predictive Coding and Representationalism,”Synthese,Vol.193,2016,pp.559-582.。特別是斯旺森,他不滿于僅僅泛泛地認為“預測加工是康德式的”,而是力圖對預測加工與康德心智理論之間的關系做一番深入審查。在“預測加工范式根源于康德”一文中,斯旺森提出:
(1)預測加工研究中的如此幾個活躍的主題——強調“自上而下”的知覺生成;“超先驗”(hyperpriors,priors over priors)的作用;“生成模型”的一般功能;“分析-綜合”過程;想象在知覺中的關鍵作用——皆與康德心智理論有深刻的淵源。
(2)預測加工范式可以追溯到心理學家兼新康德主義者赫爾曼·馮·赫爾姆霍茨(Hermann von Helmholtz)的“知覺作為無意識推斷”(unconscious inference)”的觀點,他認為,這是對康德心智理論的科學實現(xiàn)和印證。
(3)預測加工不應被視為一種全新的范式,而應被理解為由康德開創(chuàng)、并由赫爾姆霍茨完善的知覺和認知研究進路的最新體現(xiàn)。(10)L. R. Swanson,“The Predictive Processing Paradigm has Roots in Kant,”Frontiers in Systems Neuroscience,Vol.10,2016,p.79.
但是,奧蘭迪(Nico Orlandi)認為,預測加工理論的生態(tài)心理學意蘊與康德心智理論不相符,并總結說預測編碼的知覺系統(tǒng)不是康德式系統(tǒng)。(11)N. Orlandi,“Predictive Perceptual Systems,”Synthese,Vol.195,2018,pp.2367-2386.本尼(Majid D. Beni)不完全否認預測加工理論中的康德思想淵源,但認為強調康德思想的淵源會使人們忽視預測加工的不同解讀之間的差異,并可能導致對預測加工的曲解。(12)M. D. Beni,“Commentary: The Predictive Processing Paradigm has Roots in Kant,”Frontiers in Systems Neuroscience,Vol.11,2018,p. 98.扎哈維(Zahavi)則覺得斯旺森的觀點太過輕率,認為預測加工的自然主義與康德的超越論(transcendental)框架的兼容并非易事。(13)D. Zahavi,“Brain, Mind, World: Predictive Coding, Neo-Kantianism, and Transcendental Idealism,”Husserl Studies,Vol.34,2018,pp.47-61.
為了澄清預測加工與康德心智理論之間的關系,我們將適度考察當前圍繞預測加工與康德心智理論之關系的爭論。為此,我們會首先闡述預測加工理論的相關概念和要義;之后,我們會分析預測加工與康德心智理論的關聯(lián)和異同;最后,我們認為,盡管預測加工與康德心智理論存在跨越歷史的呼應,但這還不足以表明預測加工是康德思想的直接歷史后承,更不能得出“預測加工根源于康德”這種主張。
與傳統(tǒng)的自下而上的知覺觀不同,預測加工非常強調上層模型對可能的刺激的自上而下的預測。預測的觀點表明,知覺是主動的、建構的。引申開來的一個更一般的觀點是:生命是一個積極的(或主動的)建構過程。例如,拉茲洛(Ervin Laszlo)說,“‘我’的世界是一個被建構的世界,盡管建構常常出錯,但我們明白,腦是生命系統(tǒng)的一個有活力的開放的組成部分,它不是被動的照相機,而是一個整體運作的復雜的釋譯系統(tǒng),不斷地監(jiān)督和調節(jié)生命系統(tǒng)與世界之間的關系?!?14)歐文·拉茲洛:《微漪之塘》,錢兆華譯,社會科學文獻出版社,2001年,第51頁。羅森也明確地說:生命是一個主動的預期系統(tǒng)(anticipatory systems)而不是一個被動的反應系統(tǒng)(reactive system)?!耙粋€預期系統(tǒng)是這樣的系統(tǒng):其當前狀態(tài)的改變依賴于[對]未來環(huán)境[的預期],而不是僅僅依賴于當前或過去的環(huán)境?!飳W中充滿了這樣的情況:有機體能夠產生和維持關于自身和環(huán)境的內在預期模型,并且能為當前控制的目的而利用這些模型對未來的預期。只有考慮了這些內在的模型,有機體的許多獨一無二的屬性才會得到真正的理解?!?15)R. Rosen,Anticipatory Systems:Philosophical, Mathematical, and Methodological Foundations (Second Edition),Springer US,2012,p.v.
知覺的經典理論將腦看作是一個被動的、受刺激驅動的裝置。相反,近來越來越多的研究表明,知覺是一個主動且高度選擇的建構性過程。沒有自上而下的過程,有機體不過是一個應對刺激的反應裝置——這樣,有機體的主體性就消失了。與這種建構的知覺觀相呼應,預測加工理論認為腦不是被動的照相機而是一臺進行自發(fā)的、主動預測的“機器”。
基于本文的目的,我們首先從三個方面簡要地介紹預測加工理論的基本含義。
腦中信息流的編碼方式并不像照相機那樣對環(huán)境細節(jié)做復刻,而是采用預測編碼機制。預測編碼具有高效節(jié)能的特點,是神經學家受電視通訊中的信號傳輸策略的啟發(fā)而提出的。電視的前后兩個畫面經常只有部分差別,比如相同場景下電視中的人物從站著變成坐著。若此時從零開始重新完整地傳遞兩個畫面會因為重復而浪費不必要的信道資源,而一種高效的傳輸方式是只傳輸?shù)?個畫面,然后傳輸?shù)?個畫面與第1個畫面的差異。由第1個畫面加上新增差異就建構出第2個畫面。如果是持續(xù)幾秒的靜止畫面,則傳輸?shù)谝环螅瑃1、t2時只需傳輸“與t0畫面無差異”。因此,傳輸前后差異比從零開始重新傳輸所有信息要高效和節(jié)約資源。當初始畫面?zhèn)鬏敽螅邮照咝纬伞跋乱粋€畫面會與前一個大體相似”的期望(expectation)。此期望接著生成下一個畫面具體像素值的預測(prediction)。此預測與現(xiàn)實的下一個畫面的差別稱為差異或誤差(error)。(16)C. W. Harrison,“Experiments with Linear Prediction in Television,”Bell System Technical Journal,Vol.31,1952,pp.764-783.“通過僅僅對“意料之外”(unexpected)的變動(即實際值與預測值的偏離)進行編碼,一幅圖像的代碼可以由一個‘充分知情’的接收裝置進行有效的壓縮。一個最為簡單的預測原則是相鄰的像素點具有相同的值(如相同的灰度值)……。只要存在可檢測的規(guī)律性,就可以實時預測,進而可以實施特定類型的數(shù)據(jù)壓縮。我們感興趣的是實際值與預測值的偏離,它們被量化為實際信號與預測信號之間的差異,即‘預測誤差’。這種數(shù)據(jù)壓縮策略大大節(jié)約了帶寬?!?17)安迪·克拉克:《預測算法:具身智能如何應對不確定性》,劉林澍譯,第29頁。20世紀80年代,一些腦科學家認為,神經系統(tǒng)也使用了預測編碼的傳輸方式。例如,在神經的自身時序抑制中,持續(xù)的光引發(fā)神經最初反應后,神經就只產生中性反應或不反應,因為神經系統(tǒng)“預測”接下來也是相同的光強;而當光停止,前后差別巨大,神經系統(tǒng)接收到誤差,產生抑制反應,表示光停止了,以此節(jié)省神經資源。(18)M. V. Srinivasan,S. B. Laughlin and A. Dubs,“Predictive Coding: a Fresh View of Inhibition in the Retina,”Proceedings of the Royal Society of London. Series B. Biological Sciences,Vol.216(1205),1982,pp. 427-459.
就像電視傳輸時以剛過去的畫面為基準,用來與下一個畫面做對比,腦把過去的感官刺激、經歷和信息保留和積淀為模型(基本的世界觀、事物規(guī)律、人際行動規(guī)律等),而之后的感官刺激會與已經歷過的信息做對比。當然,腦比電視通訊復雜得多。通俗地講,腦(神經系統(tǒng)上層)因為遺傳和過往經歷積淀形成一個關于內外環(huán)境的模型(包括基礎性世界觀、當下環(huán)境、身體姿態(tài)等),這個上層模型主動地向神經系統(tǒng)中層和下層傳送預測信號。預測信號是對感覺信號的模擬,即“如果眼前是紅蘋果,則視網膜上的真實信號應該會是如何”。這些預測信號最后與神經末梢進來的實際刺激比對,如果有較大誤差則逐級向上傳遞誤差。此外,這些誤差會被賦予不同權重,比如在霧蒙蒙的環(huán)境中,視覺誤差就被賦予較低權重,因為腦認為霧蒙蒙的環(huán)境下的感官刺激的可信度不高;而在集中精神的注視時產生的視覺誤差就被賦予更大的權重,因為集中精神收集的數(shù)據(jù)理應有更高精度和可信度。之后,權重足夠大的誤差會引起上層模型的修改,或通過行動改變環(huán)境,繼而改變刺激信號,以規(guī)避重復的誤差,減小模型與環(huán)境之間的差異。通過感官提供的非常有限的、不完整的信息,腦基于模型的預測機制創(chuàng)造了關于世界的圖像。(19)C. Frith,Making up the Mind: How the Brain Creates our Mental World,John Wiley & Sons,2013,p.85.
上述是從神經生理層面做出的說明,就日常心理而言,我們可以用如下例子來進行說明。例如,當我遠遠地看到一個模糊的像人一樣的東西向我走來。腦會基于這個形象(“那個模糊的東西是人”這一假設)對那個模糊東西可能的舉止進行預測。但隨著那個東西越走越近,由于其體姿不變以及其具有的塑料感的膚色紋理等,我會驚異地認識到自己看錯了,轉而認為“那是人偶”。即由于真人假說與體姿、塑料膚色等之間的巨大差異,腦把“那是真人”的知覺假說修改為那是人偶。如果人偶實際上是真人因行為藝術而故意為之的,那么就會是另一次修正。修正之后,之前的預測誤差就會消除。預測加工理論下的知覺和學習機制大體可用下圖表示:
圖1 預測加工機制示意圖
預測加工理論中,模型的一個基本功能就是生成預測,因此,模型也稱為“生成模型”(generative model)。(20)李恒威:《心智的生命觀:從實用主義到預測心智》,《社會科學戰(zhàn)線》2021年第9期。
生命有機體及其腦具有的模型由遺傳而來的本能習性和后天習得的經驗組成。要消除感官刺激與有機體既有模型之間的誤差,有兩種途徑:一是,有機體修正其既有的模型,即改變其既有信念或和世界觀;二是,有機體采取行動,從而引發(fā)與既有模型相匹配的新的感官刺激。對于模型修正或更新而言,其過程類似于貝葉斯推斷(概率統(tǒng)計學對假說或模型更新的數(shù)學刻畫),即神經系統(tǒng)進行著近似符合貝葉斯定理——其簡易形式為p(h|e)=p(h)× p(e|h)÷p(e))(22)盛驟、謝式千、潘承毅:《概率論與數(shù)理統(tǒng)計》(第四版),高等教育出版社,2008年,第18頁?!母怕蔬\算。其中p(h|e)表示在新經驗e出現(xiàn)后h的后驗概率,其值等于腦先前的世界觀所含的先驗概率p(h)乘以基于新經驗e的調整項。比如“物體為人形則這物體是真人”的概率p(z|r)通常大于90%,但人偶工廠中工作的工人的腦中的p(z|r)就低得多。
以前面的真人和人偶變更為例。設s為塑料膚色,用貝葉斯定理求塑料膚色情況下是真人的概率:p(z|s)=p(z)×p(s|z)÷p(s),p(z)表示所在正常環(huán)境中見到真人的概率,這在正常生活情景中通常為0.9。p(s|z)表示真人帶有塑料膚色的概率,一般人的腦中此項值為很低的0.01,而彩妝演員則對此見怪不怪。p(s)代表所有塑料膚色出現(xiàn)的概率,包括真人、演員和人偶等,假設其在一般人中的值為0.05。則p(z|s)=0.9×0.01÷0.05=0.18。即塑料膚色情況下仍是真人的概率為0.18(即一般人也仍有極低概率猜測其是涂漆的真人演員)。但多數(shù)時候,這種低概率會讓我們放棄其為真人的判斷,轉而判斷其為人偶,即更改自己的環(huán)境模型。
有機體以減小預測誤差的長期平均值方式進行近似的貝葉斯推斷。自然生命中的貝葉斯推斷非常難解,只能以變分貝葉斯方法做逼近計算。而自由能是變分貝葉斯中的一個概念,因此也叫變分自由能。弗里斯頓定義自由能的原因是誤差(驚異情形)的長期平均值難以獲得,但其上界在數(shù)學上可以確定。自由能函數(shù)的表示方式之一為F(s, u) = Dkl ( q(φ|u) ||p(φ|s, m) ) - log p(s|m),(24)K. Friston,“The Free-energy Principle: a Unified Brain Theory?”Nature Reviews Neuroscience,Vol.11,2010,pp.127-138.; K. Friston,“A Free Energy Principle for Biological Systems,”Entropy,Vol.14,2012,pp.2100-2121.其中等式右邊的左半部散度函數(shù)為正數(shù),右項-log p(s|m) 代表了誤差的長期平均值,F(xiàn)(自由能)≥誤差的長期均值(-log p(s|m))。誤差的長期均值等于信息熵,因此,減小自由能并維持熵小狀態(tài)也等于生命維持在限定的健康狀態(tài)集中(生命和腦在其所有可能狀態(tài)空間中集中于特定有益區(qū)域,而不是均勻的高熵分布),這也意味著生命抵抗各種不健康狀態(tài)。由此,通過取上界以及變分貝葉斯逼近的方式,神經科學家和預測加工理論家得以用數(shù)學刻畫生命和腦的一般原理:自由能原理。生命、腦等自組織和適應系統(tǒng)在數(shù)學刻畫上都以減小自由能為目的,或者說,生命和腦抵抗死亡、維持非死寂的穩(wěn)定狀態(tài)的方式在數(shù)學形式上表現(xiàn)為減小自由能,宏觀上表現(xiàn)為通過改變模型以適應環(huán)境,或以行動直接改變環(huán)境以獲得與模型匹配的刺激。因此,自由能原理是個試圖統(tǒng)一解釋生命、腦和心智的富有雄心的原理。從這個抽象的最終原理回過頭來看,腦實際上是通過減小自由能的方式而表現(xiàn)出其在進行著近似貝葉斯推斷,因此腦是貝葉斯機器的論題其實是自由能原理的推論。(25)K. Friston,“The History of the Future of the Bayesian Brain,”NeuroImage,Vol.62,2012,pp.1230-1233.預測加工理論也因此具有心智生命觀的意蘊。
知覺是腦的上層模型自發(fā)、主動的下行預測與上行的感官刺激相互作用建構的結果。這種知覺觀令人聯(lián)想到康德對理性主義(推崇理智概念)和經驗主義(推崇感官經驗)的調和。腦中的世界模型,以及模型中的抽象元素使人聯(lián)想到康德的知性(understanding)范疇,自上而下的加工使人聯(lián)想到康德的范疇和概念對感性直觀的加工,層級預測使人聯(lián)想到康德的三重綜合(感性的直觀綜合、想象力的綜合、知性的概念綜合)??死苏f到“知覺涉及使用已有知識結構(康德式范疇和概念)去預測一串串感覺輸入”(26)A. Clark,“Radical Predictive Processing,”South. J. Philos,Vol.53,2016,pp.3-27.。具體的與康德的知性概念相近的是預測加工中的“超先驗”(27)A. Clark,Surfing Uncertainty: Prediction, Action, and the Embodied Mind,Oxford University Press, USA. 2016,p.174. 關于“prior”翻譯有很多爭論,本文把“prior”譯為“先驗”,把“transcendental”譯為“超越論的”。。超先驗指的是一些抽象的知覺規(guī)則,比如物體被遮掩后也持續(xù)存在、相近的多個感官刺激會有單一的原因或最佳解釋等?;敉J為,“知覺是當腦利用其對世界的先驗概念(空間和時間的直覺形式,以及諸范疇等)來組織感官系統(tǒng)面對的混亂的感官雜多時產生的,這一觀點當然也有顯著的康德主義成分”(28)J. Hohwy,The Predictive Mind,Oxford,2013,p.5.。格拉茲耶夫斯基(Gladziejewski)說到,“預測編碼的知覺觀具有康德精神,知覺是自發(fā)的解釋活動?!?29)P. Gadziejewski,“Predictive Coding and Representationalism,”Synthese,Vol.193,2016,pp.559-582.斯旺森明確地提出預測加工范式根源于康德。(30)L. R. Swanson,“The Predictive Processing Paradigm has Roots in Kant,”Frontiers in Systems Neuroscience,Vol.10,2016,p.79.總結地看,預測加工與康德心智理論的關聯(lián)表現(xiàn)在兩者都強調知覺的自上而下特征、自發(fā)性和主動性。具體可分為四點。
第一,兩者都強調知覺印象(percepts)的自上而下的產生。傳統(tǒng)的洛克、休謨的經驗主義和原子主義心理學認為觀念是感官接收到的感覺原子的自下而上的組合(線條、色塊組成形狀和物體)。預測加工反駁了感覺原子組合的觀點,認為如果沒有上層自發(fā)的、主動的預測的話,感覺原子沒法被組合,這呼應了康德的“直觀無概念則盲”的上層知性的自發(fā)性和主動性?;敉趶娬{知覺的自發(fā)性和主動性時甚至說感覺輸入最好被構想為是“對腦發(fā)出的詢問的反饋”(31)J. Hohwy,The Predictive Mind,Oxford,2013,p.2.,即感官刺激只是對上級腦皮層的預測信號的檢測。這把感官刺激放在不重要的位置,因而與經驗主義的刺激印象為先的觀點極為不同。
第二,兩者都有“超先驗”。腦內模型發(fā)出的預測并不是隨意的,而是被既有概率所約束,既有的概率約束稱為先驗(來自遺傳和習得積累下的經驗、知識、習慣等),超先驗是先驗的先驗,是更抽象、更根基的先驗。房間里的聲音最有可能來自家人、空中飛影應該是鳥而不是狗,這些是先驗;同一時空應該只有一個事物、人不能同時左轉且右轉,這些是超先驗?!拔覀兙哂嘘P于世界更一般性的知識,這使得以上‘混搭’并不會成為多么強大的假設——因為這些更一般性的知識告訴我們(比如說),房子和人臉不會在同一時間以同一大小出現(xiàn)在同一個地方。此類知識本身可以被視作系統(tǒng)性先驗(systemic prior),盡管這種先驗的抽象程度相對更高,我們有時稱其為超先驗”(32)安迪·克拉克:《預測算法:具身智能如何應對不確定性》,劉林澍譯,第40頁。。斯旺森說這些特定的超先驗類似于康德的的時空直觀形式。直觀形式規(guī)范了直觀,超先驗規(guī)范了知覺預測。有機體的模型和模型中的元素對應著康德的各種概念。斯旺森還提到一種神經學式觀念論,援引霍夫曼(Hoffman)和普拉卡什(Prakash)的“客體和時空只是物種特有的知覺適應”,知覺只提供“現(xiàn)象”而非“物自體”(33)See L. R. Swanson,“The Predictive Processing Paradigm has Roots in Kant,”Frontiers in Systems Neuroscience,Vol.10,2016,p.79.。但這種神經學式觀念論并非主流,而且其在認為所見之物不是物自體時,卻又矛盾地認定有機體及其腦是實在的物自體。
第三,生成模型生成的抽象預測對應著康德心智理論中想象力生成的圖式??档略谔幚砀拍钊绾螒糜谥庇^時引入了作為中介的超越論想象力(transcendental imagination)和其產生的圖式(schema)。想象力是感性、知性之外的心智的第三種功能。“想象力是一種先天地規(guī)定感性的能力,……[是]知性在我們所可能有的直觀的對象上的最初的應用”(34)康德:《純粹理性批判》,鄧曉芒譯,楊祖陶校,人民出版社,2004年,第101、140、101頁。。類似地,在預測加工中,上層生成模型與底層刺激中間存在多層預測,某些層次的抽象預測類似于康德的圖式。由此,預測加工的模型、預測、刺激可對應康德的知性以及范疇、想象力、感性直觀。以狗的概念為例。“狗這個概念意味著一條規(guī)則,我們的想象力可以根據(jù)它來普遍地描畫一個四足動物的形狀”(35)康德:《純粹理性批判》,鄧曉芒譯,楊祖陶校,人民出版社,2004年,第101、140、101頁。,狗的圖式能適用于各種各樣的現(xiàn)實狗。由此,在康德這里是狗的概念、狗的圖式、具體狗的感性材料,而在預測加工這里對應的是狗的生成模型、狗的抽象預測、具體狗的感官刺激。
第四,想象在知覺中的關鍵作用。在預測加工中,想象力是使得生成模型促進知覺的引擎,生成模型是一種構架,想象力以此構架生成預測,想象力的運轉需要生成模型構架,這正如人工智能巨擘辛頓(Hinton)的文章名《要識別形狀,首先要學會生成圖像》(36)G. Hinton,“To Recognize Shapes, First Learn to Generate Images”,Progress in Brain Research,Vol.165,2007,pp.535-547.所顯示的??死艘矊懙溃爸X(至少在像我們這樣的生物身上出現(xiàn)的知覺)是與想象力(或類似想象力的東西)共同涌現(xiàn)的?!?37)A. Clark,“Perception as Prediction,”in Perception and Its Modalities,New York, NY: Oxford University Press, 2015,pp.23-43.對應地,康德的想象力在其知覺理論中也有相似地位。康德指出生成性想象力是綜合的關鍵,而綜合是知覺和知性的基礎,進而想象是知覺的基礎。(38)康德:《純粹理性批判》,鄧曉芒譯,楊祖陶校,人民出版社,2004年,第101、140、101頁。
推崇預測加工與康德的關聯(lián)的學者認為兩者的橋梁是赫爾姆霍茲。早期生成模型的研究者達彥等人(Dayan et al)寫道,“繼赫爾姆霍茲之后,我們將人類的知覺系統(tǒng)視為統(tǒng)計推理機”(39)P. Dayan,G. E. Hinton,R. M. Neal,R. S. Zemel,“The Helmholtz Machine,”Neural Computation,Vol.7.5,1995,pp.889-904.。弗里斯頓(40)K. Friston,“The History of the Future of the Bayesian Brain,”Neuroimage,Vol.62,2012,pp.1230-1233.、克拉克、霍威等人也把預測加工追溯到赫爾姆霍茲。(41)See A. Clark,“Whatever Next? Predictive Brains, Situated Agents, and the Future of Cognitive Science,”Behavioral and Brain Sciences,Vol.36,2013,pp.181-204.其中一個理由是,相同的感覺刺激可以對應多種可能的環(huán)境情況,因此,腦必須主動地推斷和預測出最正確的外部情況。另外一個理由是,末梢刺激經過神經通路到達腦部時必然已不同于原初了,因而不是對環(huán)境的復制。赫爾姆霍茲的見解啟發(fā)了認知心理學中的“以綜合進行分析”的學派,也啟發(fā)了人工智能深度學習的反向傳播算法(42)See A. Clark,“Whatever Next? Predictive Brains, Situated Agents, and the Future of Cognitive Science,”Behavioral and Brain Sciences,Vol.36,2013,pp.181-204.。赫爾姆霍茲則把他的觀點追溯到康德。(43)H. Helmholtz,“Treatise on Physiological Optics [Translated from the 3rd German ed. Edited by J.Powell],”Rochester: Optical Society of America,1925,p.2.由此,一些學者認為,存在一條從康德經赫爾姆霍茲到預測加工的思想演化鏈條。
上述論及的預測加工與康德心智理論的相似和關聯(lián)未曾涉及預測誤差、模型來源、模型更新等關鍵概念。雖然預測加工的上層模型類似康德的范疇和概念,感官刺激類似康德的感性,但上層模型至少有兩點不同于康德范疇,一是模型來自有機體及其腦的演化歷史以及有機體的成長經歷,而康德的十二范疇是固定的。另外,上層模型與感官刺激的交互中的預測誤差是康德的范疇綜合感性的過程所沒有的。此外,預測加工理論與康德心智理論之間還有在超越論框架、統(tǒng)覺、自我意識等方面的差別。具體說來,兩者至少有如下四個差別。
第一,康德心智理論屬于內部主義認知觀(認識由天生固有的理智概念引導),但預測加工則有明顯的外部主義特征。預測加工大體可分為霍威某一時期的內部主義的、神經中心主義版本(44)J. Hohwy,“The Predictive Processing Hypothesis,”in The Oxford Handbook of 4E Cognition,2018,pp.129-146.和克拉克的外部主義版本。內部主義版本的預測加工不強調腦的演化歷史、腦的具身性和環(huán)境依賴性,因而與康德的關聯(lián)更大。但這種內部主義版明顯是不完整的,因此強調演化史和具身性的外部主義版本更加可信。這種外部主義的預測加工有很多吉布森(James J. Gibson)開創(chuàng)的生態(tài)心理學的影子,而生態(tài)心理學又深受杜威和梅洛龐蒂等人的影響。如此,康德的認識論思想在這方面的影響就變得次要了。
具體地說,康德心智理論更多是主體內部理智概念主導的操作,范疇是天生和固定的,與經驗無關。但預測加工的模型不是天生和固定的,涉及演化史和經驗積淀。其運作方式也不盡是模型指引下的操作,預測加工并非單方面強調從上到下的預測,腦的上層模型和模型生成的預測兩者本身的建成就需要底層的信息,模型更多是由底層環(huán)境刺激和生物演化所選擇的。再者,具體運行中,底層信息和上層模型也處于動態(tài)溝通中。而康德的范疇和直觀形式對感性雜多具有絕對的領導地位。另外,腦中預測編碼需要奠基于外部自然場景統(tǒng)計學(statistics of natural scenes)以及自然場景產生的從下到上的輸入的類型的統(tǒng)計學。外部環(huán)境本身帶有確定性和信息,并非高度不確定。霍威等人的早期的預測加工版本過分強調了知覺機制中的不確定和噪聲處理,進而過分強調腦內加工的理智主義和康德味道。而一旦澄清了自然環(huán)境本身的確定性和自下而上的重要性,康德的味道就會減少。
在預測加工的不同版本中,奧蘭迪認為預測加工也是具身的(embodied)、生成的(enactive)、嵌入環(huán)境的(embeded)、延展的(extended),乃至是生態(tài)的(ecological)。(45)N. Orlandi,“Bayesian Perception is Ecological Perception,”Philosophical Topics,Vol.44,2016,pp.327-352.克拉克持類似看法:“在預測加工范式下,神經加工過程嵌套在一個宏大的、錯綜復雜的行動網絡之中,這些行動是具身的,并且與現(xiàn)實世界緊密關聯(lián)。在分析各類常態(tài)性與病理性現(xiàn)象時,預測加工模型能為我們理解人類經驗的形式與結構提供更多啟迪,并能與自組織、系統(tǒng)動力學和具身認知領域的相關研究建立起橫向的聯(lián)系。”(46)安迪·克拉克:《預測算法:具身智能如何應對不確定性》,劉林澍譯,第3頁。而康德心智理論與“4E認知”有多處沖突。比如康德不認為身體和環(huán)境是心智的構成要素,也不會像延展認知那樣認為紙筆是構成認知系統(tǒng)的一部分。雖然部分預測加工學者認為知覺是自發(fā)性的解釋活動,但更多的學者認為不能低估刺激的作用,因為腦內模型和預測來自受環(huán)境選擇的遺傳(包括腦特征和身體特征)和后天收到的刺激和學習,腦內模型是有機體在適應環(huán)境過程中形塑而成的。奧蘭迪強調預測編碼要與環(huán)境場景統(tǒng)計學相結合,由環(huán)境引起的感性雜多并不是混亂的,而是有統(tǒng)計學規(guī)律和結構的,腦對特定的線條組合起反應,是因為這線條組合在我們靈長類祖先的生活環(huán)境中有特定意義,而非隨意出現(xiàn)。甚至可以說,腦的結構和機制之所以如此,那是因為地球環(huán)境本就如此。而康德認為感性雜多在未經處理前是混亂的、無意義的、無法指明物自體世界。另外,感官刺激與現(xiàn)實世界并非分離,赫爾姆霍茲以新康德主義的口吻說“我們只通達感官刺激,而沒有直接通達環(huán)境”。但這其實是把我們等同于我們的腦,但“我”不是腦,4E認知解讀下的“我”直接連著環(huán)境,不局限于腦,甚至也不局限于皮膚。正如4E認知的先驅梅洛-龐蒂所言,我是身體性的存在,主體即身體,而康德的心智理論中忽略身體。因此,堅持預測加工與4E認知、生態(tài)認知存在強關聯(lián)的奧蘭迪認為預測加工理論主要不是康德系統(tǒng)的。(47)N. Orlandi,“Predictive Perceptual Systems,”Synthese,Vol.195,2018,pp.2367-2386.
第二,預測加工與康德理論在預測誤差概念上有差別。高層模型與感官刺激之間的預測誤差對于預測加工理論而言至關重要,而在康德的心智理論中并無對應的論述??档录葲]提到想象力與感性直觀的預測誤差,也沒有最高級知性范疇與想象力之間的預測誤差。其實康德在《判斷力批判》中有過類似預測誤差的說法,即滑稽作為預期錯誤的結果:“笑是一種緊張的預期突然轉變成虛無而來的情緒。這種不會使知性感到高興的轉變,間接地使人在一瞬間高興”(48)康德:《判斷力批判》,李秋零譯注,中國人民大學出版社,2010年,第155頁。。但康德并不把這個涉及審美情感的預期失算作為心智的普遍因素。或許有人會替康德辯護,從心智對世界的表征和實在世界本身之間的不匹配,即錯誤認識世界的情況,來替康德尋找其理論中與預測誤差的對應項,從而通過對康德的合理闡發(fā)使其理論能容納預測誤差。按此理解,減小誤差等價于一步步減小關于世界的錯誤認識,增進正確認識。但預測加工中的預測誤差主要是生命系統(tǒng)過去已獲得的信息與當下刺激信息之間的不匹配,而不在于高級的對世界的語言命題式的信念,而且生命在減小誤差的過程中直接涉及的是有用性,直接目的是趨利避害,而非獲取世界“真相”。
第三,預測加工的自然主義與康德哲學的超越論框架并不容易兼容。扎哈維在其文章的一句腳注里稍微提及這點。(49)D. Zahavi,“Brain, Mind, World: Predictive Coding, Neo-Kantianism, and Transcendental Idealism,”Husserl Studies,Vol.34,2018,pp.47-61.預測加工所屬的自然主義認知科學預設世界的客觀性,因此不懷疑也無需去論證世界的客觀性。而超越論哲學試圖解釋和論證世界的客觀性,試圖嚴格地反駁懷疑主義??档逻@樣定義超越論——“我把一切與其說是關注于對象,不如說是一般地關注于我們有關對象的、就其應當為先天可能的而言的認識方式的知識,稱之為先驗的”(50)康德:《純粹理性批判》,鄧曉芒譯,楊祖陶校,第19頁。其中的“先驗”等于本文的“超越論”,參見倪梁康:《Transzendental:含義與中譯》,《南京大學學報》2004年第3期。[即本文的超越論的]。因此康德的超越論哲學是研究對客體的認識方式,探討對世界的客觀認識的來源,并最終把客觀知識追溯到我們心智的結構上。因此,超越論哲學探索何為客觀性,何為“獨立于心智”或“超出心智”。康德《純粹理性批判》是服務于其超越論哲學的。實用主義哲學家詹姆斯(William James)也持有相似看法“我們對實在有什么樣的看法,就要看我們通過什么視角來看待它。實在的存在是它本身的事;但實在是什么則取決于用什么樣的視角;而采取什么樣的視角則要取決于我們自己。實在的感覺部分和關系部分都是無聲無息的;它們絕對不可能說自己是什么。正是我們才是為它們說話的人?!?51)威廉·詹姆斯:《實用主義:一些舊思想方法的新名稱》,李步樓譯,商務印書館,2009年,第138頁。簡言之,超越論哲學探討何為客觀性,并且其結論是客觀性和主觀性相互依賴,不能把主觀性、心智、意識等徹底還原為物理學、生物學等自然科學,因此也叫超越論觀念論(transcendental idealism),但同時反對經驗觀念論(或主觀觀念論)。
康德這樣定義自己的超越論觀念論:“先驗觀念論是這樣一種學說,依據(jù)它我們就把一切現(xiàn)象全都看作單純的表象,而不是看作自在之物本身,因此時間和空間就只是我們直觀的感性形式……相對立的是先驗的實在論,它把時間和空間看作某種自在地(不依賴我們的感性)被給予的東西?!?52)康德:《純粹理性批判》,鄧曉芒譯,楊祖陶校,第324、405頁??档逻@里作批評的“先驗實在論”就是預測加工等自然主義科學通常所隱默認為世界時空完全與主體無關的觀點,而康德認為“先驗實在論”是常識的偏見、常識的錯誤預設。一切事物要有意義,包括“存在”意義,就必須要涉及主體,完全不涉及主體的“客觀存在”其實也無法被理解。同時要說的是,康德的超越論觀念論也不同于貝克萊等人的經驗觀念論。“[經驗]觀念論由于它假定了空間的特有的現(xiàn)實性,它就否定了廣延的存在物在空間中的存有……它甚至還主張,只有內部的經驗才惟一地充分證明了其客體(自在本身)的(連同這一切時間規(guī)定的)現(xiàn)實存有?!?53)康德:《純粹理性批判》,鄧曉芒譯,楊祖陶校,第324、405頁。經驗觀念論認為我們只能知道自己心中的經驗,貝克萊的存在即被知覺,也即存在即知覺經驗的總和。簡單地說,康德的超越論觀念處在極端客觀主義與主觀觀念論之間,類似于概念范疇實在論,即世界是實在的,但總是被范疇、概念所塑造,也因為被塑造,對象也總是符合我們的范疇等認知結構。一方是貝克萊等的觀念論,另一方是極端的客觀實在論,而康德處于這兩者之間。
不過,部分預測加工理論家和神經科學家也有思考世界客觀性問題,認為世界的樣貌與進行認識活動的高級器官(即腦)的結構有關。比如神經表征主義者認為,我們的知覺對象只是表征,而不是事物本身,腦構造了世界的表征。“如果我們有機體被設計的結構不同,那么我們關于周圍世界的構造也將是不同的。我們不知道,而且將來也無法知道,‘絕對的’實在到底是什么樣的?!?54)A. Damasio,Descartes’ Error: Emotion, Reason, and the Human Brain,New York: G. P. Putnam’s Son,1994,p.98.“大量輸入模式純粹靠巧合而反復出現(xiàn)在同一關系中的機率微乎其微,可預測性以特定的方式說明了世界上不同的事件是相互聯(lián)系著的。因此,我們體驗世界序列的依據(jù)就是世界的真正結構以及腦皮層所記憶的內容。當然,我們在任何一刻只能直接知覺這個世界的一小部分,并通過這一小部分來喚醒與之相關的記憶內容,因而,對‘什么是現(xiàn)實’的回答很大程度上取決于腦皮層建立的模型能在多大程度上反映世界的真實情況?!?55)杰夫·霍金斯:《人工智能的未來》,賀俊杰等譯,陜西科學技術出版社,2006年,第208頁。這些看似很像康德所說的知識既不純粹由作為客體的刺激決定,也不純粹由能夠做出反應的主體決定,而是來自這兩者相互作用中的建構。那么,這種神經表征主義是某種形式的超越論嗎?應該不是,因為其缺乏認識論的嚴格分析,(56)D. Zahavi,“Brain, Mind, World: Predictive Coding, Neo-Kantianism, and Transcendental Idealism,”Husserl Studies,Vol.34,2018,pp. 47-61.比如神經表征主義者認為由腦構造的世界表征可能是假,但卻預設腦科學為真。這些神經表征主義者隱含地認為對腦科學比描述世界的物理學更基礎。所以,即便預測加工引入神經表征主義也仍然與超越論框架有分歧。自然主義、神經表征主義都默認存在“事物本然的樣子”。對此,我們想稍加引申地說,認識(以及認識的結果——知識),必然是與人相關的;因為,知識的發(fā)生是這樣的:知識是在主體與客體相互作用時、在主體內形成的對客體的表征;而主體形成客體表征的目的在于服務于主體,因為主體本然是一個價值、目的和意義性的存在,離開了價值、目的、意義這樣的概念,主體也就無法理解了;任何相互作用都是一種觸動、影響,并且必然會帶來改變——無論多么微小,因此,人類無法不經過這個相互作用而先驗地知道事物不受這種相互作用影響的本然的樣子。正因為如此,并沒有認識論意義上的事物的本然的樣子,所有知識——無論是意見,還是真理或謬誤——都隱含了人類本性和人類形象于其中,而這就是人本主義的根本所在,或者也是超越論的旨趣所在。
第四,兩者還有一個涉及康德的綜合與統(tǒng)覺關系的分歧。康德理論中,綜合過程不僅建立了知覺和認識,也建立了統(tǒng)覺(apperception)和自我。先驗想象力對直觀雜多的綜合性構成統(tǒng)覺和自我意識的基礎。“綜合是呈現(xiàn)雜多所需要的,也是自我意識所需要的”,即那個把紅色、圓形粘連為同一個物體的兩個特征的綜合,也是那個把一串串表象粘連為都是“我的表象”的綜合??梢杂萌缦吕雍唵握f明:為了看到一本封面有橙色和棕色的書,主體心智要先把握(并分列登記)這片橙色塊和那片棕色塊(感性綜合),這二個色塊就叫感性雜多。這份感性雜多不是多個東西的簡單綜合,而是心智在把握其它新感覺材料時,同時保留(或通過想象重新再造)之前的感覺材料。然后心智按照書的概念去把這些感性雜多綜合為完整的一本書(概念綜合)。這過程需要一個統(tǒng)一且同一的意識。(57)S. Kaufer and A. Chemero,Phenomenology: an Introduction. John Wiley & Sons,2015,p.22.而預測加工未在知覺理論中談及自我意識與意識的統(tǒng)一,傾向于把自我意識和具體的心智活動分離開,作為單獨議題進行研究。在這個方面,康德或許可以給預測加工以某種啟發(fā)。
康德是心理學、認知科學(心智科學)的偉大先驅,其心智理論強調了心智的先天結構和自發(fā)性。主流心理學因受經驗主義的強烈影響,在某種程度上更加關注感官刺激的自下而上的作用。在此背景下,因強調模型及其主動預測的預測加工理論很容易讓人聯(lián)想到康德,因為兩者都認為認識不是被動反映的單向作用的結果。這也顯示了康德心智理論的開創(chuàng)性、洞見性和遷移性。但預測加工與康德心智理論之間的關系要比“預測加工源于康德”這個斷言要復雜。事實上,預測加工理論的崛起與通訊中的預測編碼、腦科學、計算神經學和人工智能中的機器學習等科學方面的進步有更加直接的關聯(lián)。此外,預測加工的模型、預測和預測誤差也與康德心智理論有較大差異:模型比康德的知性范疇和概念復雜,預測比康德的圖式更廣,預測誤差則在康德理論中沒有對應項;再者,康德心智理論還缺乏預測加工所具有的具身性、生態(tài)心理學、外部主義和生命心智連續(xù)性等的意蘊。反之,預測加工也缺乏康德認識論哲學中極為鮮明的超越論維度。