內容摘要:ChatGPT爆火后,老牌巨頭、后起新銳紛紛涌入大語言模型賽道,掀起一波生成式人工智能代理熱潮。實際上,人工智能代理并不是一個新興概念,其歷史可追溯至互聯(lián)網誕生之初,其蘊含于過往的媒介想象中,經歷了從理念建構到實踐落地的范式轉型??山梃b媒介考古學的媒介史研究視角,通過重訪與串聯(lián)那些未被重視的歷史細節(jié),勾勒關于人工智能代理的媒介想象與傳播史線索。新近涌現(xiàn)的生成式人工智能代理的技術路線與平臺模式呈現(xiàn)若干特征。圍繞人工智能代理展開的媒介實踐史生動地呈現(xiàn)了新舊媒介的交錯、糾纏與融合。如今,被視為“下一個平臺”的生成式人工智能代理本質上是大語言模型范式的實體化產物,其開發(fā)與應用深嵌于以算力資源為核心的基礎設施網絡,而后者早已呈現(xiàn)日益深化的平臺化趨勢。
關鍵詞:人工智能代理;通用人工智能;媒介考古;平臺化;API
DOI:10.3969/j.issn.2095-0330.2024.06.003
一、引言
2023年4月7日,斯坦福大學與谷歌(Google)公司的研究者們發(fā)表了一篇轟動人工智能領域的論文。他們構建了一個名為“Smallville”的虛擬小鎮(zhèn),25個人工智能代理在這個交互式沙盒環(huán)境中模擬人類行為——它們在小鎮(zhèn)散步、約會、聊天、用餐以及分享當天的新聞,可謂讓美劇《西部世界》走進現(xiàn)實。此后,Voyager、GITM、SIMA等生成式人工智能代理涌現(xiàn)出來,被視為強大的通用問題求解器。2023年11月,微軟(Microsoft)公司創(chuàng)始人比爾·蓋茨(Bill Gates)在文章《人工智能即將徹底改變你使用計算機的方式》(AI Is about to Completely Change How You Use Computers)中描繪了人工智能代理成為“平臺”(platform)的未來景觀:“在計算行業(yè),我們談論平臺——構建應用程序和服務的技術。Android、iOS和Windows都是平臺。人工智能代理將是下一個平臺?!?/p>
此前,源自西方的“平臺”概念被定義為一種旨在組織用戶之間交互的可編程架構,主要指由美國的五大科技巨頭GAFAM(Google-Alphabet,Amazon,F(xiàn)acebook-Meta,Apple和Microsoft)主導的社交媒體和其他數字服務市場;“平臺化”(platformization)則被用來描述平臺作為社交網絡的主導基礎設施和經濟模式的崛起,以及社交媒體平臺擴展到其他在線空間的后果。如今,孕育于人工智能領域的新型平臺備受矚目:新銳科技公司OpenAI于2022年11月30日發(fā)布GPT-3.5大語言模型以及根據該模型進行微調的聊天機器人程序ChatGPT,又于2024年年初推出GPT商店(GPT Store),引發(fā)社會對新一波人工智能熱潮的追捧,大語言模型被視為正在崛起的新型平臺,而基于大語言模型的人工智能代理亦展現(xiàn)出平臺的潛力。
傳統(tǒng)的線性媒介史敘事或新媒體研究往往并不在意作為“旁枝末節(jié)”的媒介技術實踐,重在考察某種特定的媒介技術之于社會變遷的功能性作用;在這一媒介研究視野下,2023年以來人們津津樂道的“AI Agent”(人工智能代理)被描述為具有革新與顛覆意義的全新媒介技術。然而,被忽略的豐富歷史碎片表明,“AI Agent”并不是一個新興概念,關于技術代理的媒介想象與技術實踐早已有之,對“agent”的使用甚至可以追溯到20世紀互聯(lián)網誕生之初。從媒介考古的歷史研究視角來看,“當下”與“未來”或許早已潛藏于“過去”之中,即便是偶一為之的“幻想媒介”(imaginary media)也可能不同程度上左右了媒介的發(fā)明與實踐。因此,對媒介運作機制或權力關系的討論不能脫離設備、系統(tǒng)、編程、平臺等物質基礎,研究者應重訪更為豐富與復雜的媒介實踐歷史,考察那些似曾相識的媒介變體如何交錯糾纏、循環(huán)往復。
借鑒媒介考古學的媒介史觀考掘人工智能代理的技術實踐史,或將揭開當下科技市場熱點“智能體”的神秘面紗。人工智能的技術實踐何以演進至今,又將通往何處?人工智能代理經歷了怎樣的“前世今生”?新一波生成式智能代理的技術路線有哪些特征?人工智能代理領域緣何呈現(xiàn)鮮明的平臺化趨勢?以這些問題為指引,本文將重訪未被重視的關于人工智能代理的未來想象與傳播歷史,梳理其從理念建構到實踐成形的歷史脈絡,再落腳到當下技術實踐的物質基礎,以此窺見科技行業(yè)的平臺化趨勢。
二、未來考古:從未來想象到翻譯傳播
“未來考古學”(prospective archaeology)是德國學者西格弗里德·齊林斯基(Siegfried Zielinski)近年來重點關注的媒介研究路徑,意在重構古老的媒介機器以期獲知過去以及可能的未來,從而提供一種不同于線性目的論的歷史敘述方式。與齊林斯基的技術路徑相比,“未來考古學”在偏向文本路徑的文學研究領域的根基更為深厚。美國文學研究學者弗雷德里克·詹姆遜(Fredric Jameson)在《未來考古學:烏托邦欲望和其他科幻小說》(2005)一書中提出的“未來考古學”(archaeologies of the future),從歷史角度審視文學文本中的烏托邦世界與現(xiàn)世社會意識形態(tài)之關聯(lián)。兩條路徑的媒介考古意識并不相同,卻為審視既新亦舊的“人工智能代理”媒介提供了鏡鑒——作為媒介的技術代理周而復始地浮沉于歷史之中,對其進行“未來考古”,就是對歷史過程中關于技術代理的未來想象及傳播進行發(fā)掘、考據與剖析。
(一)人類助手與電子管家
技術代理的未來想象文本,在1995年兩部摹畫即將到來的數字化時代的力作中可以清晰地看到。蓋茨在《未來之路》(The Road Ahead) -書中主張將扮演人類助手角色的“agent”視為內置于軟件中的合作者,其通過不斷學習計算機捕捉到的用戶與界面的交互行為,以類似人際交談的形式為用戶提供幫助。同年,蓋茨的這一設想在微軟的人機界面Bob中得到嘗試,其內置虛擬助手,指引用戶在主界面或應用程序中執(zhí)行任務。在Bob失敗之后,微軟又在1997年推出Office助手Clippy,其形似回形針,位于電腦屏幕的一邊,意在幫助用戶掌握不易使用的軟件。然而Clippy由于交互體驗令人沮喪也未能成功。
計算機科學家尼古拉·尼葛洛龐帝(Nicholas Negroponte)比蓋茨更早意識到人機交互的未來將建立在“agent”的基礎上。1970年,他最早將“agent”描述為電子“管家”,其可以執(zhí)行過濾電子郵件、安排約會、通知投資和安排旅行等任務。在1995年的暢銷書《數字化生存》(Being Digital)中,他寫道:“界面應該設計得像人一樣,而不是像儀表板一樣?!薄拔磥?,今天我們所謂的‘代理人界面’(agent-based interface)將崛起成為電腦和人類互相交談的主要方式?!痹缭?967年,尼葛洛龐帝就在麻省理工學院(MIT)創(chuàng)建了媒體實驗室(Media Lab)的前身建筑機器小組(Architecture Machine Group,ArcMac),創(chuàng)建這一團隊的部分靈感來自伊凡·蘇澤蘭(Ivan Sutherland)有關“畫板”(Sketchpad)的博士論文,其對于計算機圖形和界面設計都有著開創(chuàng)性的意義。實際上,蘋果公司和微軟公司的很多計算產品的想法出自尼葛洛龐帝早期對電腦在建筑領域影響的探究。尼葛洛龐帝的研究團隊創(chuàng)造了一個名為“空間數據管理系統(tǒng)”的可視化數據管理系統(tǒng)原型,把系統(tǒng)設計得能讓用戶在30秒之內學會操作,其作為一種對“不同的尺寸、形狀、顏色和語調”的界面的嘗試,日后影響了蘋果公司1987年的“知識導航員”(Knowledge Navigator)愿景和2011年面世的以會話為基礎的人機交互系統(tǒng)Siri。
(二)軟件代理人
在蘋果公司的愿景中,用戶與平板電腦的交互是通過軟件代理人來實現(xiàn)的。這代表了一種與從前截然不同的人機交互模式。與被動的應用程序相比,一個代理人扮演的是更積極主動的角色,就像人類助手一樣。代理人會以助手的身份與用戶合作,積極配合用戶做他想做的事情。到了20世紀90年代中期,在萬維網迅速擴張的刺激下,人們對軟件代理人的興趣迅速增長。在媒體實驗室追隨尼葛洛龐帝的帕蒂·梅斯(Pattie Maes)早已開始開發(fā)代表用戶完成任務的軟件助理。1994年,她發(fā)表了一篇廣受讀者歡迎的文章,題為《代理入能夠幫助人們減少工作量和信息過載》,文章描述了實驗室開發(fā)的許多原型代理人的功用——電子郵件管理、會議日程安排、新聞過濾和音樂推薦等。1995年,梅斯和實驗室的幾個伙伴一起創(chuàng)立了Agents公司——一家音樂推薦服務公司。最終,這家公司被賣給微軟公司,后者使用了該公司的隱私技術Firefly,但并沒有對它最初的軟件助理構想進行商業(yè)化。
隨后的10年里,上百種類似的代理人問世,其中許多都基于互聯(lián)網。軟件代理技術似乎是一種很有前景的技術,而一大批軟件開發(fā)公司,也很快成了網絡泡沫的一部分。從互聯(lián)網的大發(fā)展來講,軟件代理人只是其故事的很小一部分,但它卻是跟人工智能相關的最明顯的部分。如尼葛洛龐帝所說:“當我談到界面代理人(interface agent)時,經常有人問我:‘你指的是人工智能嗎?’答案是‘沒錯’。但是這個問題中夾雜著些微的懷疑,主要是因為過去人工智能給人們許多虛無的希望和過高的承諾。此外,很多人對機器能夠擁有智慧這樣的觀念,仍然深感不安?!逼鋵嵢斯ぶ悄苎芯空叩膲粝氩]有錯,只是在那一時期太超前而已。
Siri是20世紀90年代軟件代理人努力的直接產物,它是一個基于軟件的代理人,用戶可以用自然語言與之交互,它代替用戶執(zhí)行簡單的任務。其他大眾市場的應用商迅速跟進:亞馬遜公司的Alexa、微軟公司的Cortana和谷歌公司的Google Assistant都實現(xiàn)了類似功能。無一例外,它們都將開發(fā)起源追溯到基于代理人的人工智能,當然,實際上它們不可能在20世紀90年代出現(xiàn),因為當時的硬件不足以支持其運行。曾擔任Microsoft Bob營銷經理的梅琳達·蓋茨(Melinda Gates) 2017年承認,該軟件“需要一臺比當時大多數人所擁有的電腦更加強大的電腦”。至少到2010年后,移動設備的計算能力才足以支持類似軟件。
(三)中文譯法之辨
“agent”是一個舶來的概念,其在進入中文語境的過程中衍生出不同的譯法,主要包括“代理/代理人”與“智能體”兩類。在中國剛剛接入國際互聯(lián)網的20世紀90年代中期,前述兩本預測未來科技的著作迅速被翻譯成中文,由北京大學出版社出版于1996年的《未來之路》(辜正坤主譯)將“agent”譯為“代理者(程序)”,由海南出版社同年出版的《數字化生存》(胡泳、范海燕譯)則將“agent”譯為“代理人”。將人工智能領域的“agent”概念譯為“代理(者/人)”的方式實際上都考慮到內含于技術物“agent”中的“委托代理”的經濟邏輯。經典教科書《人工智能:一種現(xiàn)代方法》(Artificial Intelligence:A Modern Approach)的第一章和第二章指出,人工智能向經濟學借用了術語“理性代理人”(rational agent)來表述具有目標導向的“智能代理”(intelligence agent),并指出,任何通過傳感器(sensor)感知環(huán)境(environment)并通過執(zhí)行器(actuator)作用于該環(huán)境的事物都可以被視為代理(agent)。
然而,人工智能學界從20世紀90年代初開始將“intelligent agent”翻譯為“智能體”,在出版于2004年的中譯本《人工智能:一種現(xiàn)代方法》中,“agent”與“intelligent agent”都被翻譯為“智能體”。近年來,曾經被尼葛洛龐帝視為通往“界面代理人”未來圖景的人工智能技術成功將當時的許多科幻想象轉變?yōu)楝F(xiàn)實。同時,國內人工智能學界的學術發(fā)表仍以英文為主,并不重視中文語境下的概念內涵與外延。于是,在勢不可當的人工智能熱潮推動下,“AI Agent”被部分國內媒體與學界人士直接譯作“AI智能體”或“智能體”,并被廣泛傳播。
雖然“智能體”相較于“人工智能代理”更為簡短易記,但是這種譯法不僅存在成分贅余之嫌,還遺失了其原初的“人幫助人”的經濟學理念,忽略了將技術作為相對自主的“主體”的社會性命題。因此,在國內尚未形成統(tǒng)一使用規(guī)范的情況下,本文主張以“人工智能代理”或“人工智能主體”來指代正處于風口浪尖的英文“AI Agent”一詞,其指的是一種能夠理解、分析和響應人類輸入的信息,并像人類一樣執(zhí)行任務、作出決策并與環(huán)境互動,通過行動來達成目標的自主實體。
三、歷史脈絡:從理念建構到實踐成形
前文追溯了歷史上關于“agent”的未來想象與翻譯傳播歷程,那么誕生于英文語境的“AI Agent”理念與實踐又經歷了怎樣的轉型過程?人工智能領域的科學家、工程師們從探討人工產品是否具有能動性(agency)的哲學概念及經濟學中的代理人術語獲得啟發(fā),拼湊出“AI Agent”這一概念,并推動其理念的落地與進化。
(一)初探期(1956-1995年):概念實體化
20世紀50年代,阿蘭·圖靈(Alan Turing)提出著名的圖靈測試,以判斷人工實體是否具有智能——如果人不能區(qū)分置于黑箱子里的機器是人還是機器的話,這臺機器就被判定為有智能。這些人工智能實體通常被稱為“agent”,成為人工智能系統(tǒng)的基本構建模塊。由于人類只能觀察到機器的外在行為,難以洞察形而上學的機器“意識”,包括圖靈在內的許多人工智能研究人員都建議暫時擱置“agent”是否能夠思考或擁有意識的辯題,而以自主性、反應性、主動性和社交性等屬性來描述人工智能代理,將其從形而上的理論概念轉化為“可見”的計算實體。
在人工智能發(fā)展的最初30年里,符號人工智能(symbolic AI)占據了主導地位,其受到數學邏輯以及人們描述自身思考過程的方式的啟發(fā),意在發(fā)展通用問題求解器,如專家系統(tǒng)。亞符號人工智能(subsymbolic AI)則從神經科學中汲取靈感,試圖捕捉隱藏在“快速感知”(fast perception)背后的無意識思考過程,如識別人臉或語音等,一個早期的例子是感知機,由心理學家弗蘭克·羅森布拉特(Frank Rosenblatt)于20世紀50年代末提出。20世紀50年代至60年代的人工智能,在符號演算和感知機兩個方向上都陷入了停滯。于是,20世紀60年代末和70年代初,人工智能進入第一個寒冬。此后,以5至10年為周期,人工智能不斷上演“春天”-過度承諾和媒體炒作-“寒冬”的循環(huán)。到20世紀80年代,雖然有若干聚焦面狹窄的專家系統(tǒng)得到了成功部署,但之前研究者承諾的更通用的人工智能突破并未實現(xiàn)。1987年,專家系統(tǒng)計算機市場崩潰,第二個人工智能寒冬到來,一直持續(xù)到2000年。
在漫長的人工智能寒冬中,人工智能學者仍然對“AI Agent”葆有濃厚興趣。1995年,英國人工智能學者邁克爾·伍爾德里奇(Michael Wooldridge)和尼克·詹寧斯(Nicholas R.Jennings)將“AI Agent”定義為能夠在某個環(huán)境中自主行動以實現(xiàn)其設計目標的計算實體。1998年,兩人合編了《代理技術:基礎、應用和市場》(Agent Technology:Foundations,Applica tions,and Markets),這是第一本綜合介紹設計、構建和使用代理應用程序時遇到的問題、挑戰(zhàn)的著作,既有對代理技術基礎的概述,也有在實踐中處理特定代理系統(tǒng)的報告。同期,美國人工智能學者彼得·諾維格(Peter Norvig)和斯圖爾特·J.羅素(Stuart J.Russell)將“AI Agent”的類型細分為簡單反射代理(simple reflex agents)、基于模型的代理(model-based agents)、基于目標的代理(goal-based agents)、基于實用程序的代理(utility-based agents)和學習型代理(learning agents)5類。至此,“AI Agent”概念獲得了明確的功能指向和實踐目標,利用人工智能技術開發(fā)的能夠解決特定問題的軟件或硬件都可被納入人工智能代理范疇。
(二)分化期(1996-2011年):產品類型化
根據人工智能研究者在20世紀90年代給出的定義,后來的圍棋機器人AlphaGo、蘋果手機助手Siri、天貓精靈智能音箱等技術產品都可以被納入人工智能代理的范疇。此時,人工智能開發(fā)的目標從構建可以像人類一樣選擇的代理人轉向構建能夠作出最優(yōu)選擇的代理人。也就是說,是否通過圖靈測試并不重要,重要的是,能否代替人類執(zhí)行最優(yōu)的選擇。
1997年,由IBM開發(fā)的超級電腦“深藍”(Deep Blue)擊敗世界圍棋冠軍加里·卡斯帕羅夫(Gary Kasparov),成為首臺在“人機對戰(zhàn)”中戰(zhàn)勝人類象棋冠軍的機器。“深藍”的對弈決策在通用超級計算機處理器和480顆特制的VLSI象棋加速器芯片的支持下完成,前者的軟件只執(zhí)行部分象棋運算,后者則處理更復雜的棋步。盡管后來遭到質疑的IBM拒絕與卡斯帕羅夫再戰(zhàn),但人工智能也已經能夠在“有完全信息的組合游戲”中擊敗人類。根據“摩爾定律”(Moore's law),計算機芯片的性能平均每隔18個月就會翻一番,與之并駕齊驅的是突飛猛進的計算機軟件。由此可以推論,由軟硬件驅動的人工智能將會不斷進化。的確,盡管“深藍”已經被IBM大卸八塊,其后的人工智能代理產品卻推陳出新,且功能逐漸分化,拓展至算法推薦、智能家居、虛擬助手、航空航天等領域(見表1)。
(三)涌現(xiàn)期(2012年以來):功能通用化
然而,在“深藍”之后的近20年內,暴力搜索法、Alpha-beta剪枝、啟發(fā)式搜索等傳統(tǒng)的人工智能方法在面對組合可能性更多的圍棋游戲時都顯得無能為力。直到2015年左右,Google DeepMind才扭轉了這一僵局,其利用強化學習(reinforcement learning)技術訓練的人工智能圍棋系統(tǒng)AlphaGo于2016年3月以4:1的總比分擊敗了曾經14次榮膺世界冠軍的韓國職業(yè)九段棋手李世石。然而,雖說AlphaGo在圍棋、國際象棋、日本象棋等棋類游戲中的表現(xiàn)震撼人心,但它卻只能做下棋這一件事,既不能玩轉任何其他游戲,也無法完成現(xiàn)實生活中的簡單任務。所以,人類對AlphaGo的集體焦慮很快就消退了,因為下棋下得好并不需要通用智能。人工智能先驅之一約翰·麥卡錫(John McCarthy)精準地概括了人工智能發(fā)展的一個困境:“一旦它開始奏效,就沒人再稱它為人工智能了?!币簿褪钦f,人工智能存在移動的球門柱:當計算機在某一特定任務上超越人類時,我們就得出結論,該任務實際上并不需要智能。
對通用人工智能孜孜以求的科學家與工程師們不甘心將對人工智能代理的想象與探索止步于此,他們期待將《機器人瓦力》(Wall-E)、《星球大戰(zhàn)》(Star Wars)、《頭號玩家》(Ready Player One)等科幻作品變?yōu)楝F(xiàn)實,創(chuàng)造出充滿好奇心、能夠進行終身學習的通用人工智能代理。在計算機軟硬件的支持下,人工智能領域在神經網絡(neural network)、機器學習(machine learning)、大數據(big data)等方向取得新突破,一系列更為普遍的人工智能成果開始在我們身邊悄然出現(xiàn)。從IBM的深藍到沃森(Watson)再到AlphaGo,統(tǒng)稱為“深度學習”(deep learning)的人工智能方法已經成了主流的人工智能范式,開始在計算機視覺、語言、翻譯、預測、生成和無數其他問題上顯示出明顯優(yōu)于其他方法的優(yōu)勢。到21世紀第二個10年,基于大語言模型的方法在語義理解與表達方面實現(xiàn)突破,掀起一波以ChatGPT為代表的生成式人工智能浪潮。2023年以來,Camel(3月21日)、AutoGPT(3月30日)、BabyAGI(4月3日)、Voyager(5月27日)等多個人工智能代理如雨后春筍般面世。不同于只能玩棋類游戲的AlphaGo,這些由大語言模型驅動的生成式智能代理被設計為能夠適應跨游戲環(huán)境、自主學習游戲技能、自由探索游戲玩法的“玩家”。比如,2023年5月25日,商湯科技聯(lián)合清華大學、上海人工智能實驗室等機構發(fā)布的GITM(Ghost in the Minecraft)能夠玩轉《我的世界》(Minecraft);Google DeepMind于2024年3月14日推出的SIMA(Scalable Instructable Multiworld Agent)在《無人天空》(No Man’s Sky)、《拆遷》(Teardown)、《英靈神殿》(Valheim)和《模擬山羊3》(Goat Simulator 3等9款游戲中都進行了訓練與測試。
如今,在以GPT平臺(GPT Platform)為核心的開發(fā)環(huán)境支持下,通用化的人工智能代理還在持續(xù)涌現(xiàn)。GPT(生成式預訓練轉換器)是機器學習模型的核心架構,為ChatGPT等大語言模型(LLM)提供動力。而代理雖然也是一種大語言模型,但需要將其設置為在確定某些目標/任務的情況下反復運行。這與大語言模型在ChatGPT等工具中的“通?!笔褂梅绞讲煌?。在這種工具中,用戶提出一個問題,得到一個單獨的響應作為答案。而代理具有復雜的工作流程,模型基本上是在沒有人強制干預的情況下進行自我對話。隨著時間的推移,代理將在更強大的模型和工具的支持下變得越來越復雜,從而在未來化身為由通用人工智能驅動、可以解決眾多任務的實體。
四、前沿趨勢:生成式人工智能代理
前述圍繞人工智能代理展開的人工智能簡史講述了人工智能的理念落地與進化歷程,當前的人工智能代理熱潮則是大模型驅動下通用人工智能(Artificial General Intelligence,AGI)發(fā)展的階段性成果,涌現(xiàn)于人工智能領域的平臺化進程之中。
(一)擬真式環(huán)境:游戲版真實世界
如上文所述,盡管深藍與AlphaGo等人工智能產品已經展現(xiàn)出令人震撼的卓越能力,但它們仍然不符合科學家關于智能代理的未來想象——它們還不能“像人類一樣生存、探索和創(chuàng)造”。為了實現(xiàn)這一終極目標,研究者們延承了始于20世紀70年代的擬真實驗技術路線,即令人工智能代理在擬真式環(huán)境中進行交互式學習,從而提高解決通用問題的能力。1972年,為了將問題的復雜性降到可管理的程度,計算機博士特里·威諾格拉德(Terry Winograd)搭建了一個模擬空間,其中包含了許多彩色物體(方塊、盒子和錐體),名為SHRDLU的虛擬機器人可以根據用戶的指令來排列對象,也可以使用模擬機械手臂來操作對象。人和機器人之間的交流通過鍵盤進行,機器人的回復出現(xiàn)于屏幕底部。SHRDLU可以進行關于虛擬世界的對話,也可以制訂及執(zhí)行行動計劃,甚至還可以回答有關自身動機的問題——巧妙地“展示”(demo)了人類通過發(fā)出指令讓機器人在特定環(huán)境中工作的場景。至20世紀80年代,源自麻省理工學院媒體實驗室的“展示不了就去死”(demo or die)文化在人工智能圈盛行開來。秉持這種實驗室精神,在尚難以直接將智能代理嵌入真實世界的情況下,人工智能代理研究亦采取了先在擬真式虛擬環(huán)境中測試,再轉向現(xiàn)實物理世界的技術路線。
那么,如何為人工智能代理搭建一個擬真式實驗環(huán)境呢?當前,培育人工智能代理的“實驗室”主要包括兩類——現(xiàn)成的游戲平臺與后建的測試平臺。在現(xiàn)成的游戲平臺中,最受歡迎的莫過于微軟旗下游戲公司Mojang Studios開發(fā)的沙盒類游戲《我的世界》,從美國的DeepMind、OpenAI到國內的商湯科技、清華大學、北京大學等,研究團隊利用該游戲開展人工智能代理訓練?!段业氖澜纭穫涫芮嗖A的原因不難理解。首先,它仿佛一個縮小版的現(xiàn)實世界,為研究人員提供了一個觀察人工智能代理對復雜環(huán)境適應性的模擬實驗室;人工智能代理身處由隨機程序生成的形態(tài)各異的游戲環(huán)境中,可以通過使用原始的機械設備、電路、邏輯門以及內置于游戲的材料“紅石塊”來構建更為復雜的機械,在相互協(xié)作與競爭中完成生存、探索和創(chuàng)造等各類復雜的社會性活動。其次,人類玩家的對局數據被“投喂”給大模型,為其訓練提供了豐富的“學習資料”。此外,《我的世界》代碼相對簡單,容易接入,便于研究團隊利用現(xiàn)有資源搭建新的測試環(huán)境。當然,與其他實驗方式相比,擬真游戲環(huán)境成本更低、安全系數更高,亦促使其成為“從0到1”的探索性研究的不二之選。
除了利用現(xiàn)成的游戲平臺,亦有研究團隊選擇利用來自真實世界的環(huán)境數據搭建虛擬環(huán)境,比如來自香港大學的Jihan Yang和紐約大學的謝賽寧等人通過APIs接入數字地圖、街景圖像等多種已成型的地理信息軟件或平臺,調用現(xiàn)有的環(huán)境數據與應用界面,為人工智能代理創(chuàng)造了更加接近現(xiàn)實世界的、可擴展的平臺——V-IRL,由此,人工智能代理在多個地理信息軟件“交互”而成的虛擬空間中完成探索性任務,如同被嵌入地球的真實城市街巷之中。
(二)交互式學習:社會化智能主體
按照主流智能理論,人工智能代理不僅需要在與環(huán)境交互過程中利用工具、規(guī)劃任務以解決問題,還應當掌握與其他人工智能代理及人類交互協(xié)作的能力,因而研究者在探索階段往往給予其“交互式”的工作任務,測試與提升人工智能代理的協(xié)作能力及協(xié)助人類活動的能力。“交互式學習”包括兩層含義。其一,人工智能代理與不確定的環(huán)境進行交互,并從中掌握處理非線性任務的技能。其二,人工智能代理間交互、人機交互等多主體互動模式,從根本上模擬了人類社會的運作機制——勞動分工,致力于使智能主體的行動更具“社會化”特征。
一方面,人工智能代理不是只能線性執(zhí)行人類給出的程序指令的機器,而是在大語言模型的統(tǒng)籌指揮下開展自主探索活動,其學習過程具有非線性、創(chuàng)造性和靈活性特征。比如,英偉達的JimFan團隊在向大語言模型下達“盡可能多地用各種工具挖礦”的總目標,再針對基本規(guī)則與動作進行提示后,將人工智能代理Voyager“扔”進《我的世界》中。在大語言模型的驅動下,Voyager針對最終目標生成細分任務,通過對世界環(huán)境的觀察和交互了解各種操作的效果,將正向操作(如用斧子砍樹比用手刨快)存儲于短期記憶之中,不斷優(yōu)化自身的子目標,最終實現(xiàn)“挖礦”的總目標。在這種情境下,Voyager并未遵循預設的程序與算法執(zhí)行確定的任務,而是在充滿不確定性的未知環(huán)境中“因地制宜”地采取多元化的行動策略,“無師自通”地掌握了挖掘、建房屋、收集、打獵等技能。
另一方面,參照人類的行動交往模式,人工智能代理不僅需要完成“單打獨斗”式的任務,還應能參與團隊行動,因此除了單一代理(single agent),多代理(agent-agent)、混合代理(agent-human)亦成為目前研究的重要類型。多智能代理間協(xié)作的模式主要包括兩種。一是任務分配不均的雙代理模式,其前提在于假設現(xiàn)實社會存在大量a輔助b的任務執(zhí)行情況。二是任務分配均勻的多代理模式和人類一代理人協(xié)作模式,其前提在于假設責任平等。作為—種用于新興游戲交互的基礎設施,MindAgent支持多NPC(Non-Player Character,指游戲中的非玩家角色)協(xié)作和人類NPC協(xié)作,較全面地涵蓋了多智能代理間協(xié)作模式。它以多人合作模擬廚房游戲《分手廚房》(Overcooked)為參照,通過簡化游戲的部分復雜操作,為人工智能代理搭建了新的支持人工智能代理間協(xié)作、人機協(xié)作以及VR交互的游戲場景CuisineWorld,作為玩家的多個人工智能代理須在規(guī)定時間內合作完成各種菜品的制作并送到顧客手中。
實際上,早在1986年,美國人工智能科學家馬文·明斯基(Marvin Minsky)就在其著作《心智社會》(Society of Mind)中設想過人工智能代理的交互模式——智力是由許多具有特定功能的較小主體的相互作用產生的,這一新穎的智力理論不失為當前多人工智能代理協(xié)作模式的一種前瞻性預測。
(三)生成式智能:通用人工智能之路
有趣的是,人工智能代理的應用場景已經覆蓋機器人、游戲、虛擬助理、自動駕駛等細分領域,然而其技術功能卻始終未超出尼葛洛龐帝的電子“管家”設想,只不過媒介形態(tài)從內置于計算機的軟件程序拓展至各類物理實體。例如,瑞典大型金融科技公司Klarna表示,由OpenAI提供支持的AI助手在短短一個月內承擔了700名全職客服的工作,完成了230萬次對話,其客戶滿意程度“與人工客服人員相當”。人工智能初創(chuàng)公司Rabbit在2024年CES(美國拉斯維加斯消費電子展)上展出了一款主打語音交互功能的AI產品Rabbit Rl,這款智能助手形似縮小版的手機,卻不內含應用程序,能夠在GPT-4和其他大模型的驅動下理解人的語音內容,模仿人使用軟件的方式自動完成點外賣、聽音樂、軟件叫車等任務,仿佛一臺人與智能手機之間的智能對講機。
這類被稱為智能助手(AI Assistant)的人工智能代理在社會生產生活中擔任替代或者優(yōu)化部分人類勞動的“秘書”,而面向組織的人工智能代理則更像一個能夠通過分工協(xié)作自行解決問題的合作團隊。比如,人工智能實驗室Cognition Labs于2024年3月12日推出世界上“第一位AI軟件工程師”,充分展現(xiàn)多代理協(xié)作。這個名為“Devin”的人工智能代理產品被設計為一個軟件團隊,它不再像GitHub Copilot等編程AI助手那樣扮演程序員的“副駕駛”角色,而是在接收任務指令后自行進行方案規(guī)劃、需求創(chuàng)建和任務分配,創(chuàng)建出更多小型AI助手,它們在各自的沙盒終端、代碼編輯器和瀏覽器之間穿梭以完成特定任務。整個團隊經過持續(xù)測試、調試并迭代,直至創(chuàng)建出完整的應用程序供用戶檢查并請求更改。
從這些簡略的描述即可窺見,新一波人工智能代理熱潮的核心關鍵詞為“通用”。與受控于預先確定的參數、只能完成單一任務的人工智能相比,通用人工智能的目標是完成規(guī)定參數之外的任務。所謂的“通用”指的是人工智能面對不確定性環(huán)境處理多個任務的自學能力??梢?,不同于由確定的計算機程序控制的NPC,生成式人工智能代理不受固定的動作參數限制,而是探索限定動作之外的多元“玩法”,更接近通用人工智能的設想。那么,人工智能代理的“通用”潛質從何而來?近年來,大語言模型的突破性進展表現(xiàn)為ChatGPT、Midjourney、Runway、Pika等原生AI應用的流行,但是這些模型不僅具有文案、圖片和視頻的生成以及學習、體驗與搜索的優(yōu)化功能,還被研究者視為通用問題求解器。在此背景下涌現(xiàn)的GITM等人工智能代理代表了智能代理研究范式轉型的實踐成果——人工智能代理突破了強化學習的傳統(tǒng)技術架構,轉向以大語言模型為智能驅動力的新范式。此前,強化學習式人工智能代理面臨的難題在于如何將極為復雜的任務映射到最底層的鍵盤鼠標操作。與之相比,生成式人工智能模型利用海量數據集進行訓練,能夠使用類似于人類創(chuàng)作的文本、音頻或視覺效果來響應人類查詢;同時,大語言模型還具備量級巨大的知識庫和緊急零樣本規(guī)劃能力,能夠將自然語言指令分解為一系列子任務,再使用低級控制器執(zhí)行子任務,逐步將復雜任務分解為子任務、結構化動作,直到最底層的鍵盤鼠標操作。圍繞人工智能代理展開的游戲化訓練與商業(yè)化應用本質上受制于大語言模型處理文本、統(tǒng)籌規(guī)劃的能力,實驗環(huán)境運轉的前提是對擁有龐大知識庫、具備緊急零樣本規(guī)劃能力的大語言模型的穩(wěn)定接入;而生成于擬真訓練過程的數據資源最終也將“反哺”大語言模型的改進與迭代,進一步擴充其量級巨大的知識庫,提升其語言處理、任務分配與主體調度的靈活度和創(chuàng)造力。
不過,大語言模型的幻覺問題依然難以解決,人們發(fā)現(xiàn)以“命令-執(zhí)行”的線性方式來要求大語言模型輸出答案常常并不奏效。實際上,人工智能代理的技術理念最終要回歸作為技術設計者與使用者的人本身——研發(fā)者通過調整“提示”(prompt)來調用大語言模型,激發(fā)后者未被利用的技術實力,以構建符合自身需求的定制版人工智能代理。
五、余論:平臺化滲透人工智能市場
行文至此,人工智能代理起源與發(fā)展的歷史脈絡已然浮現(xiàn)。對人工智能代理的媒介考古表明,盛行于各個時段的人工智能代理項目,都曾是當時人工智能領域核心范式的實體化產物。當然,任何由商業(yè)力量推動的技術浪潮都難以避免炒作色彩,同時也反映出階段性的科技趨勢與市場形勢。因此,我們暫且擱置2023年以來被冠以“智能體”的技術熱潮是否可能化為泡沫的預測,而是將其視為生成式人工智能技術實體化的產物,討論其何以形成,以及如何帶動市場資源的流動與市場關系的整合。
新一輪人工智能代理熱潮的技術路線以大語言模型為范式,游戲測試本質上是為了測試和提高大語言模型的多智能代理規(guī)劃能力,即為多個人工智能代理制定協(xié)作計劃、避免發(fā)生沖突的能力;而各大科技公司紛紛推出的人工智能代理商業(yè)應用也無非是大語言模型應用的變體,對接的是科技行業(yè)的變現(xiàn)需求,即將消耗巨大算力資源的大模型落地為創(chuàng)收項目。
大語言模型驅動的人工智能代理被視為下一代平臺的前提在于智能代理根植于以算力資源為核心的基礎設施網絡,而后者早已呈現(xiàn)不可逆轉的平臺化趨勢。也就是說,任何個人或組織想“定制”自己的人工智能代理,都無法脫離由各種外部工具構成的復雜基礎設施環(huán)境,而這一可編程的智能代理開發(fā)環(huán)境本就由平臺公司及其合作伙伴搭建。
首先,在政治經濟轉型(金融化和放松管制)的宏觀影響和網絡效應、數據驅動等獨特因素的塑造下,網絡計算資源從傳統(tǒng)壟斷基礎設施模式轉向平臺化基礎設施模式,呈現(xiàn)出鮮明的私有化與分裂化趨勢。在“基礎設施即服務”(Infrastructure as a Service,IaaS)模式下,任何算力資源都能被轉變?yōu)榉仗峁┙o不同用戶(包括企業(yè)、科研機構、個人用戶等),企業(yè)無須購買包括軟件、硬件等在內的復雜架構的產品并在現(xiàn)場安裝以創(chuàng)建網絡,只需為自己所需的特定服務付費,從而極大地節(jié)省成本與盤活資源。算力資源基礎設施的私有化與分裂化也意味著,算力資源持有者構成相互牽制的關系網絡,任何技術力量都無法獨立運行。比如,掌握有限算力資源的OpenAI等新銳巨頭通過向第三方租借GPT-4等基礎設施型資源形成在大語言模型乃至人工智能領域的優(yōu)勢地位;而OpenAI的ChatGPT亦非獨立存在的技術產品,其采取向微軟、谷歌、英偉達等老牌科技巨頭租用芯片、云服務的算力租賃方式完成復雜的訓練與運行過程,因而人工智能代理的發(fā)展亦可能進一步強化微軟、英偉達等老牌巨頭在科技行業(yè)的壟斷地位。其中,支撐GPT服務的硬件設備主要是芯片及搭載芯片的數千臺服務器和數百個標準機柜。根據英偉達估算,訓練一個ChatGPT-175B大模型需使用1,024塊Al00芯片,即128臺8卡Al00服務器,硬件采購成本就高達1.54億元人民幣。囿于高昂的硬件采買成本,OpenAI及其他中小企業(yè)便采取算力租賃方式進行大模型訓練,以控制成本。在云服務一側,受微軟注入資本影響,ChatGPT的合作伙伴從谷歌云服務平臺轉向微軟的Azure平臺,但仍然消耗巨大的成本。可以說,具備算力與資本優(yōu)勢的微軟等老牌科技巨頭以出租云服務、注入資本等方式布局人工智能領域,成為人工智能平臺市場的底座式玩家。
其次,老牌巨頭的觸角不僅抵達ChatGPT背后的OpenAI,還零散分布于游戲等細分市場之中——此前較少被關注的“游戲即平臺”模式隨著人工智能代理訓練的流行而浮出水面?!段业氖澜纭返扔螒蛑栽谌斯ぶ悄艽頍岢敝邪缪菽M實驗室角色,是因為其商業(yè)模式越來越趨近于平臺模式,作為第三方的研究人員可以通過租賃服務、API接口接入游戲環(huán)境,根據自身需要搭建新的基礎設施環(huán)境?!段业氖澜纭纷?009年誕生起便被描述為一個“平臺”,但其含義更多指向“社區(qū)”,即強調業(yè)余粉絲玩家對游戲演進的共同參與,與“平臺資本主義”的定義相去甚遠。近年來,杰弗里·帕克(Geoffrey Parker)等人提出的數據驅動的“網絡效應”逐漸凸顯于該游戲的發(fā)展歷程中,起因是《我的世界》于2014年被微軟收購,至今已擁有3億銷量與1.5億月活躍用戶,成為全球有史以來最暢銷的視頻游戲,儲備了龐大的用戶數據。學者大衛(wèi)·墨菲(David Murphy)指出,《我的世界》仿佛游戲界的Facebook和Google,在過去10年的發(fā)展過程中建立了游戲史上前所未有的用戶規(guī)模基礎,從一種實驗性的、令人驚訝的社交游戲轉變?yōu)椤坝螒蚣雌脚_”的商業(yè)模式,已化身為基礎設施型平臺。
最后,對于提供算力資源服務的平臺公司來說,可繼續(xù)編寫或重新組裝的Web應用框架是其提供給“用戶”的產品之一。這些軟件應用程序既不相互獨立,也不緊密聯(lián)結,而是呈現(xiàn)模塊化狀態(tài)。作為“用戶”的程序員利用像“鉤子”一樣的應用程序接口(Application Programming Interface,API)將像“模塊”一樣的軟件應用程序組裝成新的軟件產品,節(jié)省了從頭編寫或構建軟件的成本。所謂的API實際上是一組編程代碼,是軟件間通信與數據交換的媒介,支持軟件系統(tǒng)(例如數字平臺)之間的編程通信以及數據和功能交換,并作為核心基礎設施元素為第三方和合作伙伴創(chuàng)建的應用程序和服務保駕護航。隨著平臺商業(yè)模式的崛起,平臺研究學者通過追溯Google和Facebook等的平臺演化歷程,認識到平臺公司在當今社會的“數據主導地位”與API在數字基礎設施中的核心地位,指出API業(yè)已成為“主宰數字世界”的一種方式。也就是說,利用API與第三方共享數據或集成服務成為平臺商業(yè)模式的核心技術環(huán)節(jié)。通過API接入平臺現(xiàn)成資源的“第三方”開發(fā)人員基于自身的創(chuàng)造性需求,在平臺的核心基礎設施之上搭建新的應用場景,生成新的技術產品或服務;與此同時,平臺本身也在這些外部力量的共同參與下不斷演化,通過控制“接口使用”的標準化以維持自身穩(wěn)定性。API的工作原理如圖1所示。
與傳統(tǒng)的信息通信公司相比,平臺公司的經濟和組織特性表現(xiàn)為“可編程性”(programmability),即通過將“用戶”(包括但不限于非營利組織、政府、企業(yè)、內容開發(fā)商和廣告商)聚集在一起運營“多邊市場”,其功能在于促成用戶間的交互與交易,仿佛一個容納多元主體的“生態(tài)系統(tǒng)”。曾經主導基礎設施的“系統(tǒng)構建者”可能要讓位于“生態(tài)系統(tǒng)構建者”,后者不是靠直接提供資源而是利用可編程性和互聯(lián)互通來實現(xiàn)控制。誰將成為新的“生態(tài)系統(tǒng)構建者”?現(xiàn)在給出定論還為時過早,但到熱潮退卻的那一天,這將是科技行業(yè)面臨的核心問題。
(作者胡泳系北京大學新聞與傳播學院教授、博士生導師;張文杰系北京大學新聞與傳播學院2023級博士研究生)