關(guān)鍵詞:人工智能;知識表示;知識工程;智能傳播;ChatCJPT
一、前言
根據(jù)彼得·帕克(Peter Burke)對知識社會的斷代劃分和對知識系統(tǒng)大轉(zhuǎn)型的時期描述,自20世紀90年代以來,知識社會進入了“自反性時代”①。知識的“自反性”體現(xiàn)為知識的自我修正、自我更新、自我懷疑不斷涌現(xiàn),在不斷懷疑、修正和更新過程中知識對變動中的社會的反映能力也在逐漸增強,曾經(jīng)的不斷修改補充的維基百科如此,今日不斷吸收新的訓練數(shù)據(jù)以生成更新的、更準確的知識的ChatGPT也是如此?!白苑葱浴边€體現(xiàn)為今天圍繞知識的人類行為不僅是對“知識”的創(chuàng)建,更是對“知識的知識”的創(chuàng)建,這體現(xiàn)為大量的知識史類研究成為這一時期各個學科的新興領(lǐng)域,對知識體系和知識建構(gòu)過程的索驥和解剖構(gòu)成了一種建立“元知識”的努力。而在這一系列建立“元知識”的壯志圖景中,人工智能自誕生之日起就表明了其決心和勇氣,并在起起伏伏的發(fā)展周期中不斷地被寄予厚望。
人工智能的知識自反性和創(chuàng)建元知識的愿景似乎走得更遠,因為人工智能的知識工作不僅包含對知識的存儲、管理、理解、分析和調(diào)動,更包括一種關(guān)于知識的基底性工作,那就是知識表示(knowledge representation)。以羅杰·香客(Roger Schank)為首的人工智能理論家們曾聲明,
“組織世界的知識問題是人工智能的最大難題”②,而知識表示就是用來解決這一“最大難題”的必經(jīng)之路。知識表示是人工智能的一項本體論工程,它需要回答世界是什么的問題,但更重要的是,它需要將關(guān)于世界的知識轉(zhuǎn)化為計算機可以處理的形式。因此知識表示不僅是人工智能儲存機器獲知信息的必備能力,更是一種創(chuàng)造“知識的知識”的不懈努力。知識表示是人工智能推理和行動的載體,可以說,如果沒有恰切的知識表示方法,任何構(gòu)建智能機器的愿景都無法得到實現(xiàn)。知識表示作為一種技術(shù)哲學意義的結(jié)構(gòu)性力量建構(gòu)著智能傳播時代的知識樣貌,也反映著人工智能存續(xù)以來的知識困境和智識極限。
二、人工智能的形式化知識表示
對知識表示的重視和人工智能專家系統(tǒng)的發(fā)展密不可分。專家系統(tǒng)也被稱為基于知識的系統(tǒng)。人工智能專家系統(tǒng)是一個高度依賴知識表示的系統(tǒng),如果給定合適的領(lǐng)域知識,在狹窄定義的問題上,人工智能足以匹敵甚至超過人類專家的表現(xiàn)。例如,第一個人工智能專家系統(tǒng)DENDRAL就能夠像化學專家一樣精確地解釋質(zhì)譜儀的輸出,DENDRAL的發(fā)明者愛德華·菲根鮑姆(EdwardFeigenbaum)更是將在該程序和此后用于推導質(zhì)量微量測定規(guī)則的程序METADENDRAL等所做的工作稱為“知識工程”③。雖然DENDRAL的成功有助于使人工智能研究團體相信知識表示的重要性,但需要注意的是,在DENDRAL中使用的表示形式是高度特定于某一知識領(lǐng)域的。
隨著專家系統(tǒng)取得鼓舞人心的進展,研究者更加對標準化和形式化的知識表示方法和知識本體論感興趣,形式化知識表示能夠使創(chuàng)建新的專家系統(tǒng)的過程簡化且更有效率。于是,人工智能在知識層面進入先前由語言學家、哲學家們探索的領(lǐng)域。形式化知識表示并非是計算機和人工智能領(lǐng)域特有的行動過程,實際上任何領(lǐng)域的技術(shù)術(shù)語的發(fā)展都可以被視作一種形式化知識表示。從這一更大范圍的定義來看,古希臘對數(shù)學術(shù)語定義的使用可以被看作西方形式化知識表示的最早樣例,而在東方,形式化知識表示開始于公元前第一個千年時古印度對梵語語法的理論化。當人工智能加入往日在科學領(lǐng)域、語言領(lǐng)域等早已被思考過的形式化知識表示問題時,或者說,當形式化的知識表示位移至人工智能領(lǐng)域后,知識表示這一問題就變成了“如何在有關(guān)的情景中建立規(guī)則并用以描述特殊事物”的問題變種,其重要性正如麻省理工學院人工智能實驗室主任帕特里克·溫斯頓(Patrick Winston)在其人工智能集大成之作中所說:“知識表示是用來描述一類事物的一套成規(guī)慣例,好的知識表示是問題求解的關(guān)鍵,挖掘合適的知識表示是解決問題的主要步驟?!?/p>
知識表示一直是人工智能研究的關(guān)鍵問題,但在人工智能的知識工程時期,對于知識表示的探究更多聚焦于用盡可能少的知識取得盡可能多的成績。然而沿著這一研究思路,問題也逐漸浮現(xiàn),知識工程時期的瓶頸正如香客等人所說:“研究人員開始懂得,程序編制中的特技是有趣的,但卻無法推廣……人工智能研究者認識到,人們?nèi)绾问褂煤捅硎局R是這一領(lǐng)域中的關(guān)鍵問題?!盌ENDRAL程序非常典型地代表了20世紀70年代人工智能發(fā)展的成就和特點。這一時期,人工智能研究者們的確在語言理解、場景分析、概念學習、機器人制造等方面取得了某種程度的成功,而這些工作的基礎(chǔ)都是依據(jù)對某一任務(wù)領(lǐng)域的特定知識特性的利用,這導致這些程序雖具有專業(yè)性但缺乏推廣性。面臨專家系統(tǒng)的知識限制特點,人工智能最終不得不面對一個關(guān)鍵性的同時在哲學層面非常具有吸引力的問題——人工智能如何表示日常知識?
對日常知識進行形式化知識表示之所以成為人工智能向“智慧體”進發(fā)途中的一大困境,是因為一方面日常知識構(gòu)成人工智能進行認知和行動的重要背景常識和上下文語境,它直接關(guān)乎人工智能對信息處理和輸出的準確性與有效性;另一方面,人類對日常知識的獲得高度依賴于人類在日常生活中的具體實踐活動和相伴生的思維過程,日常知識是個人依靠自己的身體,借由同物質(zhì)世界的相互作用,并在日復一日的訓練和對訓練的熟練化過程中領(lǐng)悟得來。需要注意的是,此“訓練”遠非今日如火如荼的生成式人工智能的“訓練”,生成式人工智能的訓練并不是基于其和物質(zhì)世界的交互,而是基于被多次中介化的訓練數(shù)據(jù)、語料。被譽為卷積神經(jīng)網(wǎng)絡(luò)之父的楊立昆(Yann LeCun)曾表明:深度學習的能力十分強大卻又十分有限。只受過國際象棋訓練的機器根本無法下圍棋,反之亦然,而且它完全不理解自己所做的事情,它只不過是機械化地執(zhí)行指令,它所掌握的常識甚至還不如一只野貓。
一壁是人類日常知識獲取途徑的不可機械性復制與重現(xiàn),一壁是信息加工模型對人工智能知識認識論的影響,在二者共同作用下,人工智能對日常知識、背景知識、常識性知識的需要就轉(zhuǎn)化為對人類一般性全部知識和信念進行明晰表現(xiàn)和有序組織的需要。而由于在人工智能兩個派別并行發(fā)展的過程中,樹搜索和專家系統(tǒng)先于神經(jīng)網(wǎng)絡(luò)和學習機器成為人工智能底層邏輯的代言人,因此在通向人工智能的常識化、一般化和通用化目標之時,早期人們借助的也是從專家系統(tǒng)中衍生而來的概念——微世界。
所謂微世界,是一個個可以孤立地進行分析的領(lǐng)域,20世紀的專家系統(tǒng)就誕生了大量的人工智能微世界,比如用于處理符號代數(shù)式的MATHLAB,可以激發(fā)積木運動的自然語言理解程序SHEDLU,以及上文提到的用于從質(zhì)譜數(shù)據(jù)中推導化學結(jié)構(gòu)的DENDRAL?!拔⑹澜纭备拍钏闹R觀念在于:雖然某種知識的各個方面都可以引申到人類活動的其他方面,但是這一知識及其無窮無盡的衍生物也可以成為一個由事實和關(guān)系組成的自足的集合。用人工智能科學家、SHEDLU的開發(fā)者特里·威諾格拉德(Terry Winograd)的描述來說:我們希望研究出一種形式化系統(tǒng),或者說,形式化表示,用來描寫知識,我們探索組成知識的“原子”“粒子”,以及用于各種知識的各種“力”。
棋盤世界、積木世界都屬于典型的微世界,它包含著非常明確和特定的背景知識、行動對象和方法路徑,機器的理解和行動是在一個有限度、有范圍、有邊界、有指向的語境中做出的。雖然今天人工智能的代表物和言說者已經(jīng)由專家系統(tǒng)輪轉(zhuǎn)為依賴神經(jīng)網(wǎng)絡(luò)和深度學習的認知機器,但是微世界的知識觀念并未消失在技術(shù)的地表之下,人們依然可以從今天的人工智能知識表示中窺見一二。
以ChatGPT為例,雖然ChatGPT是一個通用式的生成式人工智能,其大語言模型之“大”、訓練數(shù)據(jù)之“廣”似乎與“微世界”相去甚遠。但是仔細觀察ChatGPT的人機交互界面會發(fā)現(xiàn),ChatGPT采取的是“多對話界面”的形式,用戶可以隨時點擊左側(cè)任務(wù)欄的書寫按鈕來創(chuàng)建一個新的對話界面。ChatGPT的“多對話界面”“創(chuàng)建新對話框”的設(shè)計本質(zhì)是在建立和隔離不同的孤立且自足的“微世界”。當用戶打開一個新的對話界面發(fā)出第一個提問的同時,一個微世界的模型也正在搭建,而在用戶和聊天機器人不停地就這一問題和該問題的衍生問題、相關(guān)問題進行循環(huán)往復的問答、補充和確認的時候,關(guān)于這個微世界的背景知識、話語規(guī)則、常識系統(tǒng)、思維指南也隨之完善。因此,在借助ChatGPT進行知識獲取的操作過程中經(jīng)常會出現(xiàn)的現(xiàn)象是,當用戶完成了上一輪的知識交互并打算對新的問題展開提問時,在既有的對話框里繼續(xù)提問和創(chuàng)建一個新的對話框重啟提問,兩種操作方式所得到的結(jié)果并不相同,而后者往往能得到比前者更準確和有效的回答。
誠然,大規(guī)模知識表示需要通用本體論來組織和結(jié)合各種特定論域的知識。通用本體論需要包含全面化、多樣化的各種知識,且原則上應(yīng)當能夠處理所有論域。但是構(gòu)建大型通用本體論是一項尚未被完全了解的重大挑戰(zhàn)。因此,由不同的微世界和特定有限的常識框架構(gòu)建的知識集合依然是今天知識表示的一種有效的但也是簡化的手段。換言之,將自己區(qū)別于專家系統(tǒng)的今日通用式人工智能依然無法依靠“訓練”和“學習”完全突破人工智能的形式化知識表示的難題,人工智能的智識極限依然尚未突破。
三、人工智能的非形式化批判
對人工智能展開非形式化批判起源于圖靈在《計算機機器和智能》中提到的人類行為的非形式化論據(jù)。圖靈認為不可能制定一套規(guī)則來描述一個人在每一種可以想象的情況下應(yīng)該做什么。他以交通行為為例:人們可能有一條規(guī)則,即看到紅色交通燈就停車,看到綠色交通燈就走,但如果由于某種錯誤兩者同時出現(xiàn)怎么辦?人們也許會認為停止是最安全的。但此決定稍后可能會帶來一些進一步的困難。試圖以行為規(guī)則來涵蓋所有可能發(fā)生的情況,包括交通信號燈引起的情況,似乎是不可能的。圖靈緊接著區(qū)分了兩個容易使問題變得含糊不清的概念——“行為規(guī)則”和“行為法則”?!靶袨橐?guī)則”是指諸如“看到紅燈就停下來”這樣的規(guī)則,人們可以GS9Gm2NmAGkE3Q9d66KdkihJdKCW07vGy5E3XDLePH0=根據(jù)這些規(guī)則采取行動,也可以意識到這些規(guī)則。而“行為法則”是指應(yīng)用于人類身體的自然法則,例如“如果你捏一個人,他就會發(fā)出聲音”。
按照圖靈對這兩個概念的區(qū)分和闡釋可以進一步總結(jié),“規(guī)則”是一種機器屬性,而“法則”更體現(xiàn)為人類屬性,對人類行為的預測和模擬不能局限于對人類社會一系列規(guī)則的熟知,因為人類行為并不完全是在一套諸如交通信號燈之類的語境中誕生的,“交通信號燈”不起作用甚至是人類與世界交互時的常態(tài)。因此對人類行為,以及進一步地,對人類思想的理解,需要建立在對人類法則的完整獲知基礎(chǔ)之上,因此對“機器是否能夠思考”或者說“機器是否能夠擁有人類智識”等問題的探討就更細致地導向了另一個問題——是否存在一套完整的關(guān)于人類的行為法則?這一點尚不能確定,但是唯一可以確定的是,即使存在一套可以稱之為完整體的人類法則,那么唯一能從客觀層面獲得這一整套知識的手段就是科學觀察,而圖靈斷言:“如果每個人都有一套明確的行為規(guī)則,那么他/她跟一臺機器沒什么兩樣。但沒有這樣的規(guī)則,所以人不能成為機器?!睋Q言之,機器也不能通過“規(guī)則化的行為”這條路徑來模擬人、成為人、替代人。
對人類行為的非形式化論證,旨在說明智能機器所做的不過是規(guī)則的集合,而人類行為太過復雜且無法通過任何簡單的規(guī)則集合進行捕捉,所以,機器無法產(chǎn)生同人類一樣的智能行為。這種從行為的非形式化人手論證機器不智能的思路被哲學家休伯特·德萊弗斯(Hubert Dreyfus)發(fā)揚光大。德萊弗斯是人工智能知識表示的形式化/非形式化論爭的重要旗手,且德萊弗斯比圖靈的非形式化觀點更進了一步——圖靈的非形式化主要針對的是人類行為的不可形式化,而德萊弗斯則將非形式化批判更廣泛地指向人工智能所試圖完成的知識形式化、語言形式化和行為形式化。
德萊弗斯將人工智能企圖把一切知識形式化的意圖溯源到古希臘的哲學偏向,古希臘的邏輯和幾何將一切推理歸結(jié)為計算,同時也將一些行為化約為程序。似乎借由這種形式化的努力,幾乎所有論證都可以得到一勞永逸的解決。蘇格拉底是指明這一形式化路徑極具可能性的開創(chuàng)者——蘇格拉底說道:“我想知道使所有行為變得溫良的虔誠之心有什么特點……這樣我便可以當作判斷你的行為和其他人行為的標準來使用?!碧K格拉底這里想獲得的也即人工智能工程師們致力研發(fā)的“程序”,或用人工智能的重要先驅(qū)馬文·明斯基(MarvinMinsky)的話說,它是可以不斷地告訴人們?nèi)绾涡袆拥摹耙?guī)則”。在這一邏輯主義哲學傾向上,德萊弗斯戲稱:人工智能可能早在公元前450年就已經(jīng)開始。德萊弗斯以古希臘為起點,列舉了人工智能的形式化知識觀的思想來源。比如,霍布斯被視為第一個清晰地把思維句法概念表達為計算的人——“推理不過是在計算”.二元制的發(fā)明者萊布尼茲也自認為找到了一種通用的符號系統(tǒng),它具有“可以用來把確定的特征數(shù)賦予每種事物的通用特點”。
將全部知識形式化的信念構(gòu)成了西方傳統(tǒng)哲學的底色,西方傳統(tǒng)哲學認為凡是有序的事物都可以經(jīng)由形式化成為一套“規(guī)則”或“程序”。人工智能中的邏輯主義流派就在這樣的哲學基礎(chǔ)上建立起來。然而,這種以“理性主義”為基點,認為存在一種合理化的“思維法則”并依循它而構(gòu)建的人工智能路徑存在兩個主要的障礙。首先,一個問題原則上的可解性并不意味著這個問題事實上的可解性。將解決問題的知識程序化和問題求解過程結(jié)構(gòu)化與實際解決該問題之間存在巨大的縫隙。求解有限事實的問題就可耗散智能機器的龐大計算資源,更不要說人類的智識成果是一個沒有邊際的、無法窮盡事實的知識曠野,雖然人工智能理論家和實踐家更多地使用“知識庫”一詞來指稱人工智能的訓練材料,但這一稱謂的迷惑性在于它設(shè)定了一個邊界將可以被形式化、可以被框架化的知識納入一個有限性的“庫”中(即使知識庫總是在不斷更新,但它始終包含疆界和范圍),而閉口不言那些無法被框定、難以被分類的非形式化知識其蹤何處。其次,人類知識并非都是形式化的(比如依靠轉(zhuǎn)瞬間的靈感創(chuàng)作的詩歌和依靠數(shù)十年的經(jīng)驗直覺制作的佳肴),而獲取非形式的知識并用邏輯表示法要求的形式術(shù)語來對其展開陳述幾乎是不可能的,更何況這些非形式化知識的生產(chǎn)者也只停留在“知其所以然”而不“知其然”的難以言喻的“非理性”狀況之下??偨Y(jié)來說,將人類的智慧理念化和將人類的知識程式化既面臨著形式化知識的障礙,也面臨著非形式化知識的障礙。
雖然這兩個障礙最先出現(xiàn)在邏輯主義流派中,但是建造計算推理系統(tǒng)的任何人工智能都需要直面這一機器智識極限。今天的生成式人工智能浪潮并不是以合理性為尺度追求思維法則的最高價值,而是以人腦為尺度尋求認知建模的路徑軌跡。當基于邏輯主義的傳統(tǒng)人工智能觸及其發(fā)展極限之時,機器學習的擁護者們便找到了創(chuàng)造知識的更高階的方法——創(chuàng)造人腦。對人工智能的神經(jīng)學派而言,與其重現(xiàn)人類推理的完整邏輯序列,不如探索邏輯的載體,也就是大腦這個強大的生物處理器。這種機器學習的方式類似于一種原創(chuàng)體系架構(gòu),它類似人類的神經(jīng)網(wǎng)絡(luò),當網(wǎng)絡(luò)接收了輸入信號,神經(jīng)元以原創(chuàng)體系架構(gòu)對信號進行處理以使輸出端能夠識別該信號,如是,通過大腦的基本功能單位——神經(jīng)元之間的相互作用,思想得以產(chǎn)生。
然而,如果將“思想的產(chǎn)生“和“知識的創(chuàng)造”進行順滑的聯(lián)結(jié),則會陷入形而上學的哲學陷阱之中。柏拉圖將思維、智力、理性、心靈與技能、感情、身體、欲望相區(qū)分,這種身心二元論將知識與思維緊密聯(lián)結(jié)在一起,將知識視為思維的結(jié)果和思維的獨有創(chuàng)造。因此,當人工智能以為通過復制人類的思維過程就能重現(xiàn)知識的創(chuàng)造時,就會出現(xiàn)繞過軀體追求理性所必然遭遇的失落結(jié)果。因為基于思維推理的理性主義并不能解決人碰到熱鍋就立刻退縮的問題,基于感知覺的反射行為往往比審慎推理仔細思考后的結(jié)果更加迅速有效。知識并不僅僅產(chǎn)生于思維過程,它更產(chǎn)生于身體的需要、欲望、情緒和感知,更重要的是,它產(chǎn)生于身體和物質(zhì)世界相互作用的實在過程之中。
人工智能的智識局限也是理性主義的哲學局限。人工智能試圖通過對頭腦的模擬解決“知識的載體”問題,寄希望于通過制定周密的邏輯規(guī)則來解決“知識的生產(chǎn)”問題,后又將目光鎖定在一個包含所有“宇宙之書”的龐大知識庫,試圖通過該知識庫來解決“知識的來源”問題。人工智能的以上訴求和路徑本質(zhì)上是在將大腦形式化、思維形式化和知識形式化。然而,這種形式化終究是與知識的生產(chǎn)背道而馳的,因為人類的知識起源于“無知”以及由這種“無知”帶來的不安、好奇與探索的欲望。換言之,知識來源于“不確定”,而人工智能所搭建的知識工程也好,認知模擬也罷,都在無限追求一種“確定性”,智能機器有著明確的目標、詳細的指令、完備的數(shù)據(jù)、周密的規(guī)則,但最終所得到的也只能是對知識的逆退性理解和自反性重復。今天以ChatGPT為代表的聊天機器人更是在實踐一種“知識的悖論”——你想獲知某知識的前提,是你已經(jīng)基本掌握了這項知識。生成式人工智能對提示詞(prompt)精準度的要求極高。與使用搜索引擎的體驗不同,用戶無法再通過輸入模糊的檢索詞然后在所有可能的答案中進行篩選,相反,用戶只有在輸入精準、完備的提示詞之后才能得到想要的答案。至此,借由對人工智能形式化/非形式化論爭的討論,今日隱藏在生成式人工智能的知識大眾化、知識民主化、知識通用化之下的知識表示限度也得以揭開。
四、“標簽”“學習”“局勢”——生成式人工智能知識表示的本體、隱喻和限度
自生成式人工智能投入應(yīng)用以來,圍繞生成式人工智能和知識生產(chǎn)、知識獲取、知識使用等一系列與知識相關(guān)問題的討論層出不窮。今天的生成式人工智能究竟是一個知識新神的誕生,還是披著通用式外衣的另一種“知識工程”?今天的生成式人工智能在知識表示上采取了哪些新的手段,它或沿用或產(chǎn)生了關(guān)于知識表示的哪些關(guān)鍵詞?這些手段是否回應(yīng)了曾經(jīng)由人工智能理論家們發(fā)出的對形式化的批判?這些關(guān)鍵詞是切實有效的創(chuàng)新還是另一種技術(shù)話語的障眼法?在生成式人工智能知識表示的法則和觀念確立的過程中,需要對其與它試圖區(qū)別并超越的對象展開反復的對比性研究。生成式人工智能和曾經(jīng)的知識存儲載體、知識行為代理之間是否依然共享某一種承繼性的知識觀?在承繼與變動之下生成式人工智能的知識表示在未來又需解決怎樣的問題?這些是本節(jié)試圖從本體、隱喻和限度三個層面回答的問題。
(一)“標簽”作為一種本體論:知識表示的分類哲學
正如前文所述,知識表示雖然今天已經(jīng)成為人工智能領(lǐng)域的核心工程和關(guān)鍵領(lǐng)域,但是關(guān)于知識表示的理想和實踐卻古已有之。自書寫文化替代口語文化以來,相較于人類對知識的處理能力,人類對知識的存儲能力毫無疑問是過載的,表現(xiàn)這種過載關(guān)系的經(jīng)典具象就是圖書館和互聯(lián)網(wǎng)。面對浩如煙海的世界之書,如何緩解有限的記憶面對無限的知識時的焦慮感與不安感?如何滿足人類主體對知識客體的掌控和征服的欲望?在這一傾斜的杠桿兩端,輔助平衡的砝碼之于圖書館,是檢索系統(tǒng);之于互聯(lián)網(wǎng),是搜索引擎;之于人工智能,是知識表示。而圖書館的檢索系統(tǒng)和互聯(lián)網(wǎng)的搜索引擎其實也是一種知識表示的愿望和實踐。
在喪失了口頭文化時代面對知識的“結(jié)構(gòu)性遺忘”的權(quán)力之后,面對無限增長的書寫痕跡和相應(yīng)的知識累計,圖書館和互聯(lián)網(wǎng)都面臨知識表示的問題,這些存儲載體需要借助一個工具,使圖書館和互聯(lián)網(wǎng)以及它們的使用者完成信息的輸入、存儲、輸出。這一點和人工智能試圖借助知識表示方法所想要達成的目標別無二致。而對于知識表示而言,“分類”是其中的重要環(huán)節(jié),把知識對象組織成“類別”是知識表示的不可或缺的步驟。雖然具體的知識往往產(chǎn)生于世界和個別對象的互動過程中,但是人工智能的推理和預測是在“類別”這一層次上發(fā)生的。而知識載體也通常是在“類別”這一層次上完成對知識的存儲和獲取。比如,19世紀70年代圖書館管理學發(fā)展出知識領(lǐng)域的第一個分類系統(tǒng)——杜威十進制系統(tǒng);谷歌等搜索引擎也通過給網(wǎng)頁附上分類標簽來實現(xiàn)對信息的檢索。
圖書分類系統(tǒng)、搜索引擎的標簽和人工智能的類別化知識表示都在昭示著一個事實——“分類”已經(jīng)成為今日知識的本體論。書籍因被編碼而被找到,網(wǎng)頁因被附上標簽而被搜索到,通用常識性知識因被分類而得以被推理出來。知識的“存在”以及這種存在的“被感知”完全取決于知識是否被分類。如果說書寫文化創(chuàng)造的本體論是“被記錄下來的知識只是易于記錄的知識”,那么在知識庫時代,知識的本體論是“被查找到的知識只是易于被分類的知識”。我們可以據(jù)此推斷,生成式人工智能雖聲稱其“知識庫”無所不包——f63qsnvzVrIWuwRcQLz9qGomyuA9AE97I5Q/VEZl6D4=幾乎包含互聯(lián)網(wǎng)上的全部信息內(nèi)容,但是訓練模型依賴的是“有標記”的數(shù)據(jù),⑩“標記知識”的背后是對“未標記知識”的舍棄和掩埋,在分類與標簽的本體論籠罩下,生成式人工智能實際是一種以“剔除知識”而非“保存知識”為實質(zhì)的知識工程。
(二)“學習”作為一種隱喻法:知識表示的謊言效果
今日的生成式人工智能以機器的自主學習為方法論。“機器學習”偏向于表達這樣一種隱喻:機器可以在預編程好的、常規(guī)的、自動化的任務(wù)中得到改進和完善,它隱含著機器的“自主權(quán)”。畢竟“學習”一詞更多地是與有感知能力的、有智慧的生命體相掛鉤,“知識”也多緊跟在“學習”后面充當對象。于是“機器學習”從能指系統(tǒng)上造成一種混淆——機器能產(chǎn)生知識。
如果我們查找機器學習的官方定義,會發(fā)現(xiàn)今天人工智能所謂的深度學習與知識并不掛鉤。Python機器學習庫Scikit-Iearn對機器學習的定義為:“機器學習是學習一個數(shù)據(jù)集的一些屬性,并將它們應(yīng)用到新數(shù)據(jù)上。因此,在機器學習中,評估一個算法的常見做法是將數(shù)據(jù)分成兩組,一組為訓練集,用以學習數(shù)據(jù)屬性;另一組為測試集,用以監(jiān)測數(shù)據(jù)屬性?!庇嬎銠C學家湯姆,米歇爾(Tom Mitchell)也給機器學習下了一個定義:“對于某類指定任務(wù)T、性能指標P和經(jīng)驗E,如果一臺機器在T上以P衡量的性能隨著經(jīng)驗E而不斷自我完善,那么我們稱這臺機器在向經(jīng)驗E學習。根據(jù)我們對T、P、E的具體設(shè)定,學習任務(wù)也可以這樣命名:數(shù)據(jù)挖掘、自主發(fā)現(xiàn)、數(shù)據(jù)庫更新、示例編程等?!笨梢姡斯ぶ悄苷Z境下的“學習”并不意味著機器擁有了智識,而是指機器根據(jù)預先定義的衡量指標,在執(zhí)行某個特定任務(wù)時更加準確。這種學習的結(jié)果更導向一種“任務(wù)的完成”而非“知識的習得”。
“任務(wù)是否完成”曾是知識工程的首要指標。曾經(jīng),適用于狹窄有限領(lǐng)域的專家系統(tǒng)秉持這樣一種評價標準:無論人們是否采納這一方法,只要達到目的,該程序就被證明為有效程序。這一評價標準背后的潛臺詞是:通往目的的路徑不是重要的,目的的達成才是重要的;達成目的的過程中是否真的獲得了知識和技能不是重要的,一個符合評判標準的結(jié)果才是重要的。這是機器學習時代的“智能應(yīng)試主義”和“智能優(yōu)績主義”。
然而,當人工智能理論家們逐漸放棄這一評價標準后,通用式人工智能又將其承襲下來,其具體體現(xiàn)為今日的生成式人工智能只要通過概率計算出一個最為通順的語句并能夠通順地回答出用戶的問題,或者畫出一幅看似符合主題的圖畫,就被認為是完成了任務(wù)。大語言模型究其根本是一種概率模型,它用來計算一個句子出現(xiàn)的概率,比如,“我喜歡知識”和“我知識喜歡”,前者計算的概率值較大,因此更容易被判定為一個“正確的”文本生成。因此,在“學習知識”的隱喻謊言效果之下,概率才是生成式人工智能生產(chǎn)知識的機理,組成智能文本的、被編譯為語義處理單元的詞元(token)才是生成式人工智能所生產(chǎn)的知識的基本單位。
(三)“局勢”作為一種限度:知識表示的終極目標
人工智能對知識進行形式化表示的執(zhí)念來源于從古希臘開啟的一條西方傳統(tǒng)哲學脈絡(luò),這條以邏輯和推理為軸心的思想體系發(fā)現(xiàn)了世界的有序性并將其形式化為規(guī)則。人工智能先驅(qū)之一明斯基就曾立論說:“每當其在我們的行動中觀察到一種定律時,便轉(zhuǎn)交給確定性規(guī)則來表達?!比欢?,將知識形式化、將事實定律化、將行為規(guī)則化的做法往往在“微世界”的語境下才有成功的可能,因為微世界是一個閉合的世界,它擁有確定的對象、明確的標準和可控的變量。然而,還存在大量“知識”,其解決的問題是一些結(jié)構(gòu)性開放問題,在這類問題中,“規(guī)則”不再起作用,“局勢”(situation)成為更大的求解語境和限制性他律。
局勢與規(guī)則不同。我們繼續(xù)以圖靈的交通信號燈為例,規(guī)則是在信號燈正常運轉(zhuǎn)之下所產(chǎn)生的行為指令,而局勢是在信號燈失效或者根本不存在信號燈的情況下對認知和行為的指引。簡單來說,局勢要求對當下情形的全面理解,有時還需要對過往經(jīng)驗和未來預期的縱向考量。以下棋為例,人類棋手并不能做到如同人工智能一樣窮盡所有可能,但人類棋手依然能和人工智能在棋局上展開較量的原因在于,對人類棋手而言,對局勢的理解要先于對局面的理解。局面指向當前的棋子位置和其背后的特征信息,而局勢指向比賽的整體狀況和長遠判斷。
局勢來自經(jīng)驗和認知,而知識表示并不足以表達經(jīng)驗和認知。只有當上下文環(huán)境和其所包含的所有可能性事實可以用人工智能的語義網(wǎng)絡(luò)和模型識別到、捕捉到的時候,這種局勢才有被表達的可能。而當上下文環(huán)境是通過人的技藝、直覺、經(jīng)驗、情緒、情感來確立的時候,那么對一切知識表示的符號系統(tǒng)來說,其理解能力根本不能解釋任何關(guān)于該局勢的認知。正因如此,即使崇尚“確定性規(guī)則”的明斯基也承認大模型在邏輯定律上效果欠佳:“一個人思考問題過程中的每一時刻,都要接觸大量的陳述、定義、聯(lián)想以及一個目的網(wǎng)絡(luò)。他不僅要處理有關(guān)事物的事實及事物之間關(guān)系的事實等,還要處理有關(guān)事實的事實及事實之間關(guān)系的事實,以及關(guān)于這些類之間關(guān)系的事實等。我們將會看到,啟發(fā)程序在運用到小模型上時能順利地證明一些原則,一旦用到大模型上就不好使了。”
對局勢的把握和編碼,不管是在人工智能發(fā)展的歷史中還是在其流行的當下,都成為機器智能表示知識、獲得智力的途中無法繞越的門檻,也因此成為人工智能的智慧限度。人類社會中的大量知識因其簡單性、通俗性和難以言喻等特點而注定是隱晦的,但同時也代表著社會共識意義上的默契,這部分知識恰恰是人工智能無法進行符號化理解、結(jié)構(gòu)化儲存和邏輯性表達的“自然事實”。于是,人工智能的知識局限就荒誕地體現(xiàn)為:它可以幫助人類草擬文書、撰寫編碼,但它卻無法解決人類如何使用雙手、如何避免傷害等基本的自我生存法和自我維持問題。那么,當一個智慧體知道如何博弈和解答卻不知如何存在和生活時,它在什么意義上是擁有知識的呢?
五、結(jié)語:人有人的用途
知識表示可以讓人工智能機器從現(xiàn)有信息、經(jīng)驗或?qū)<抑袑W習,從而使機器的行為與人類無異。人工智能研究者爭辯說(就像人工智能創(chuàng)始人約翰·麥卡錫那樣),符號處理機有可能表示所有知識,而不管人類是否以同樣的方式表示知識。德雷福斯認為,這種假設(shè)是沒有道理的,因為人類的許多知識都不是符號性的。愛因斯坦說過:
“純粹的邏輯思維無法讓我們獲得任何關(guān)于經(jīng)驗世界的知識;所有關(guān)于現(xiàn)實的知識都始于經(jīng)驗,止于經(jīng)驗?!?/p>
這涉及認識論方面的哲學問題。威諾格拉德曾有言:“發(fā)展人工智能的收獲首先不在于我們創(chuàng)造的程序,而在于我們研究出的這套概念,在于我們把它們用于理解人類智能的方式?!比绻麑⑷祟惐茸髦悄荏w的話,其知識系統(tǒng)是由形式化的準則、規(guī)范、公理和非形式化的技藝、靈感、直覺組成的復合系統(tǒng),那些無法結(jié)構(gòu)化的情緒、難以復制的感知覺神經(jīng)活動、基于長遠考量的目的及其解釋都與人類所創(chuàng)造的知識緊密地聯(lián)系在一起,日常生活的實踐和分秒之間的靈光乍現(xiàn)永遠無法用一套可抽象化的、精確明晰的信念網(wǎng)來代替。正如存在主義哲學家們所堅信的:那些關(guān)乎人類日常實踐和興趣的知識無須表達。因此,今日人工智能時代的知識哲學就不僅是機器無法用知識表示形式化所有知識的“不能”,更是機器無須用知識表示形式化所有知識的“不必”。
畢加索對計算機的看法是討論人工智能局限性的一個很好的開端:“它們毫無用處。它們只能給你答案?!笔聦嵣?,計算機和人工智能遠非一無是處,正如機器學習最近取得的成功所顯示的那樣,但畢加索的觀點仍然具有深刻的洞察力。人工智能是回答問題的工具,而不是提出問題的工具。這就意味著,企業(yè)家、創(chuàng)新者、科學家、創(chuàng)造者以及其他能夠找出下一個要解決的問題或敢于探索新領(lǐng)域的人,將繼續(xù)發(fā)揮至關(guān)重要的作用。