內(nèi)容摘要:ChatGPT爆火后,老牌巨頭、后起新銳紛紛涌入大語言模型賽道,掀起一波生成式人工智能代理熱潮。實(shí)際上,人工智能代理并不是一個(gè)新興概念,其歷史可追溯至互聯(lián)網(wǎng)誕生之初,其蘊(yùn)含于過往的媒介想象中,經(jīng)歷了從理念建構(gòu)到實(shí)踐落地的范式轉(zhuǎn)型??山梃b媒介考古學(xué)的媒介史研究視角,通過重訪與串聯(lián)那些未被重視的歷史細(xì)節(jié),勾勒關(guān)于人工智能代理的媒介想象與傳播史線索。新近涌現(xiàn)的生成式人工智能代理的技術(shù)路線與平臺(tái)模式呈現(xiàn)若干特征。圍繞人工智能代理展開的媒介實(shí)踐史生動(dòng)地呈現(xiàn)了新舊媒介的交錯(cuò)、糾纏與融合。如今,被視為“下一個(gè)平臺(tái)”的生成式人工智能代理本質(zhì)上是大語言模型范式的實(shí)體化產(chǎn)物,其開發(fā)與應(yīng)用深嵌于以算力資源為核心的基礎(chǔ)設(shè)施網(wǎng)絡(luò),而后者早已呈現(xiàn)日益深化的平臺(tái)化趨勢(shì)。
關(guān)鍵詞:人工智能代理;通用人工智能;媒介考古;平臺(tái)化;API
DOI:10.3969/j.issn.2095-0330.2024.06.003
一、引言
2023年4月7日,斯坦福大學(xué)與谷歌(Google)公司的研究者們發(fā)表了一篇轟動(dòng)人工智能領(lǐng)域的論文。他們構(gòu)建了一個(gè)名為“Smallville”的虛擬小鎮(zhèn),25個(gè)人工智能代理在這個(gè)交互式沙盒環(huán)境中模擬人類行為——它們?cè)谛℃?zhèn)散步、約會(huì)、聊天、用餐以及分享當(dāng)天的新聞,可謂讓美劇《西部世界》走進(jìn)現(xiàn)實(shí)。此后,Voyager、GITM、SIMA等生成式人工智能代理涌現(xiàn)出來,被視為強(qiáng)大的通用問題求解器。2023年11月,微軟(Microsoft)公司創(chuàng)始人比爾·蓋茨(Bill Gates)在文章《人工智能即將徹底改變你使用計(jì)算機(jī)的方式》(AI Is about to Completely Change How You Use Computers)中描繪了人工智能代理成為“平臺(tái)”(platform)的未來景觀:“在計(jì)算行業(yè),我們談?wù)撈脚_(tái)——構(gòu)建應(yīng)用程序和服務(wù)的技術(shù)。Android、iOS和Windows都是平臺(tái)。人工智能代理將是下一個(gè)平臺(tái)?!?/p>
此前,源自西方的“平臺(tái)”概念被定義為一種旨在組織用戶之間交互的可編程架構(gòu),主要指由美國的五大科技巨頭GAFAM(Google-Alphabet,Amazon,F(xiàn)acebook-Meta,Apple和Microsoft)主導(dǎo)的社交媒體和其他數(shù)字服務(wù)市場(chǎng);“平臺(tái)化”(platformization)則被用來描述平臺(tái)作為社交網(wǎng)絡(luò)的主導(dǎo)基礎(chǔ)設(shè)施和經(jīng)濟(jì)模式的崛起,以及社交媒體平臺(tái)擴(kuò)展到其他在線空間的后果。如今,孕育于人工智能領(lǐng)域的新型平臺(tái)備受矚目:新銳科技公司OpenAI于2022年11月30日發(fā)布GPT-3.5大語言模型以及根據(jù)該模型進(jìn)行微調(diào)的聊天機(jī)器人程序ChatGPT,又于2024年年初推出GPT商店(GPT Store),引發(fā)社會(huì)對(duì)新一波人工智能熱潮的追捧,大語言模型被視為正在崛起的新型平臺(tái),而基于大語言模型的人工智能代理亦展現(xiàn)出平臺(tái)的潛力。
傳統(tǒng)的線性媒介史敘事或新媒體研究往往并不在意作為“旁枝末節(jié)”的媒介技術(shù)實(shí)踐,重在考察某種特定的媒介技術(shù)之于社會(huì)變遷的功能性作用;在這一媒介研究視野下,2023年以來人們津津樂道的“AI Agent”(人工智能代理)被描述為具有革新與顛覆意義的全新媒介技術(shù)。然而,被忽略的豐富歷史碎片表明,“AI Agent”并不是一個(gè)新興概念,關(guān)于技術(shù)代理的媒介想象與技術(shù)實(shí)踐早已有之,對(duì)“agent”的使用甚至可以追溯到20世紀(jì)互聯(lián)網(wǎng)誕生之初。從媒介考古的歷史研究視角來看,“當(dāng)下”與“未來”或許早已潛藏于“過去”之中,即便是偶一為之的“幻想媒介”(imaginary media)也可能不同程度上左右了媒介的發(fā)明與實(shí)踐。因此,對(duì)媒介運(yùn)作機(jī)制或權(quán)力關(guān)系的討論不能脫離設(shè)備、系統(tǒng)、編程、平臺(tái)等物質(zhì)基礎(chǔ),研究者應(yīng)重訪更為豐富與復(fù)雜的媒介實(shí)踐歷史,考察那些似曾相識(shí)的媒介變體如何交錯(cuò)糾纏、循環(huán)往復(fù)。
借鑒媒介考古學(xué)的媒介史觀考掘人工智能代理的技術(shù)實(shí)踐史,或?qū)⒔议_當(dāng)下科技市場(chǎng)熱點(diǎn)“智能體”的神秘面紗。人工智能的技術(shù)實(shí)踐何以演進(jìn)至今,又將通往何處?人工智能代理經(jīng)歷了怎樣的“前世今生”?新一波生成式智能代理的技術(shù)路線有哪些特征?人工智能代理領(lǐng)域緣何呈現(xiàn)鮮明的平臺(tái)化趨勢(shì)?以這些問題為指引,本文將重訪未被重視的關(guān)于人工智能代理的未來想象與傳播歷史,梳理其從理念建構(gòu)到實(shí)踐成形的歷史脈絡(luò),再落腳到當(dāng)下技術(shù)實(shí)踐的物質(zhì)基礎(chǔ),以此窺見科技行業(yè)的平臺(tái)化趨勢(shì)。
二、未來考古:從未來想象到翻譯傳播
“未來考古學(xué)”(prospective archaeology)是德國學(xué)者西格弗里德·齊林斯基(Siegfried Zielinski)近年來重點(diǎn)關(guān)注的媒介研究路徑,意在重構(gòu)古老的媒介機(jī)器以期獲知過去以及可能的未來,從而提供一種不同于線性目的論的歷史敘述方式。與齊林斯基的技術(shù)路徑相比,“未來考古學(xué)”在偏向文本路徑的文學(xué)研究領(lǐng)域的根基更為深厚。美國文學(xué)研究學(xué)者弗雷德里克·詹姆遜(Fredric Jameson)在《未來考古學(xué):烏托邦欲望和其他科幻小說》(2005)一書中提出的“未來考古學(xué)”(archaeologies of the future),從歷史角度審視文學(xué)文本中的烏托邦世界與現(xiàn)世社會(huì)意識(shí)形態(tài)之關(guān)聯(lián)。兩條路徑的媒介考古意識(shí)并不相同,卻為審視既新亦舊的“人工智能代理”媒介提供了鏡鑒——作為媒介的技術(shù)代理周而復(fù)始地浮沉于歷史之中,對(duì)其進(jìn)行“未來考古”,就是對(duì)歷史過程中關(guān)于技術(shù)代理的未來想象及傳播進(jìn)行發(fā)掘、考據(jù)與剖析。
(一)人類助手與電子管家
技術(shù)代理的未來想象文本,在1995年兩部摹畫即將到來的數(shù)字化時(shí)代的力作中可以清晰地看到。蓋茨在《未來之路》(The Road Ahead) -書中主張將扮演人類助手角色的“agent”視為內(nèi)置于軟件中的合作者,其通過不斷學(xué)習(xí)計(jì)算機(jī)捕捉到的用戶與界面的交互行為,以類似人際交談的形式為用戶提供幫助。同年,蓋茨的這一設(shè)想在微軟的人機(jī)界面Bob中得到嘗試,其內(nèi)置虛擬助手,指引用戶在主界面或應(yīng)用程序中執(zhí)行任務(wù)。在Bob失敗之后,微軟又在1997年推出Office助手Clippy,其形似回形針,位于電腦屏幕的一邊,意在幫助用戶掌握不易使用的軟件。然而Clippy由于交互體驗(yàn)令人沮喪也未能成功。
計(jì)算機(jī)科學(xué)家尼古拉·尼葛洛龐帝(Nicholas Negroponte)比蓋茨更早意識(shí)到人機(jī)交互的未來將建立在“agent”的基礎(chǔ)上。1970年,他最早將“agent”描述為電子“管家”,其可以執(zhí)行過濾電子郵件、安排約會(huì)、通知投資和安排旅行等任務(wù)。在1995年的暢銷書《數(shù)字化生存》(Being Digital)中,他寫道:“界面應(yīng)該設(shè)計(jì)得像人一樣,而不是像儀表板一樣?!薄拔磥?,今天我們所謂的‘代理人界面’(agent-based interface)將崛起成為電腦和人類互相交談的主要方式?!痹缭?967年,尼葛洛龐帝就在麻省理工學(xué)院(MIT)創(chuàng)建了媒體實(shí)驗(yàn)室(Media Lab)的前身建筑機(jī)器小組(Architecture Machine Group,ArcMac),創(chuàng)建這一團(tuán)隊(duì)的部分靈感來自伊凡·蘇澤蘭(Ivan Sutherland)有關(guān)“畫板”(Sketchpad)的博士論文,其對(duì)于計(jì)算機(jī)圖形和界面設(shè)計(jì)都有著開創(chuàng)性的意義。實(shí)際上,蘋果公司和微軟公司的很多計(jì)算產(chǎn)品的想法出自尼葛洛龐帝早期對(duì)電腦在建筑領(lǐng)域影響的探究。尼葛洛龐帝的研究團(tuán)隊(duì)創(chuàng)造了一個(gè)名為“空間數(shù)據(jù)管理系統(tǒng)”的可視化數(shù)據(jù)管理系統(tǒng)原型,把系統(tǒng)設(shè)計(jì)得能讓用戶在30秒之內(nèi)學(xué)會(huì)操作,其作為一種對(duì)“不同的尺寸、形狀、顏色和語調(diào)”的界面的嘗試,日后影響了蘋果公司1987年的“知識(shí)導(dǎo)航員”(Knowledge Navigator)愿景和2011年面世的以會(huì)話為基礎(chǔ)的人機(jī)交互系統(tǒng)Siri。
(二)軟件代理人
在蘋果公司的愿景中,用戶與平板電腦的交互是通過軟件代理人來實(shí)現(xiàn)的。這代表了一種與從前截然不同的人機(jī)交互模式。與被動(dòng)的應(yīng)用程序相比,一個(gè)代理人扮演的是更積極主動(dòng)的角色,就像人類助手一樣。代理人會(huì)以助手的身份與用戶合作,積極配合用戶做他想做的事情。到了20世紀(jì)90年代中期,在萬維網(wǎng)迅速擴(kuò)張的刺激下,人們對(duì)軟件代理人的興趣迅速增長(zhǎng)。在媒體實(shí)驗(yàn)室追隨尼葛洛龐帝的帕蒂·梅斯(Pattie Maes)早已開始開發(fā)代表用戶完成任務(wù)的軟件助理。1994年,她發(fā)表了一篇廣受讀者歡迎的文章,題為《代理入能夠幫助人們減少工作量和信息過載》,文章描述了實(shí)驗(yàn)室開發(fā)的許多原型代理人的功用——電子郵件管理、會(huì)議日程安排、新聞過濾和音樂推薦等。1995年,梅斯和實(shí)驗(yàn)室的幾個(gè)伙伴一起創(chuàng)立了Agents公司——一家音樂推薦服務(wù)公司。最終,這家公司被賣給微軟公司,后者使用了該公司的隱私技術(shù)Firefly,但并沒有對(duì)它最初的軟件助理構(gòu)想進(jìn)行商業(yè)化。
隨后的10年里,上百種類似的代理人問世,其中許多都基于互聯(lián)網(wǎng)。軟件代理技術(shù)似乎是一種很有前景的技術(shù),而一大批軟件開發(fā)公司,也很快成了網(wǎng)絡(luò)泡沫的一部分。從互聯(lián)網(wǎng)的大發(fā)展來講,軟件代理人只是其故事的很小一部分,但它卻是跟人工智能相關(guān)的最明顯的部分。如尼葛洛龐帝所說:“當(dāng)我談到界面代理人(interface agent)時(shí),經(jīng)常有人問我:‘你指的是人工智能嗎?’答案是‘沒錯(cuò)’。但是這個(gè)問題中夾雜著些微的懷疑,主要是因?yàn)檫^去人工智能給人們?cè)S多虛無的希望和過高的承諾。此外,很多人對(duì)機(jī)器能夠擁有智慧這樣的觀念,仍然深感不安。”其實(shí)人工智能研究者的夢(mèng)想并沒有錯(cuò),只是在那一時(shí)期太超前而已。
Siri是20世紀(jì)90年代軟件代理人努力的直接產(chǎn)物,它是一個(gè)基于軟件的代理人,用戶可以用自然語言與之交互,它代替用戶執(zhí)行簡(jiǎn)單的任務(wù)。其他大眾市場(chǎng)的應(yīng)用商迅速跟進(jìn):亞馬遜公司的Alexa、微軟公司的Cortana和谷歌公司的Google Assistant都實(shí)現(xiàn)了類似功能。無一例外,它們都將開發(fā)起源追溯到基于代理人的人工智能,當(dāng)然,實(shí)際上它們不可能在20世紀(jì)90年代出現(xiàn),因?yàn)楫?dāng)時(shí)的硬件不足以支持其運(yùn)行。曾擔(dān)任Microsoft Bob營(yíng)銷經(jīng)理的梅琳達(dá)·蓋茨(Melinda Gates) 2017年承認(rèn),該軟件“需要一臺(tái)比當(dāng)時(shí)大多數(shù)人所擁有的電腦更加強(qiáng)大的電腦”。至少到2010年后,移動(dòng)設(shè)備的計(jì)算能力才足以支持類似軟件。
(三)中文譯法之辨
“agent”是一個(gè)舶來的概念,其在進(jìn)入中文語境的過程中衍生出不同的譯法,主要包括“代理/代理人”與“智能體”兩類。在中國剛剛接入國際互聯(lián)網(wǎng)的20世紀(jì)90年代中期,前述兩本預(yù)測(cè)未來科技的著作迅速被翻譯成中文,由北京大學(xué)出版社出版于1996年的《未來之路》(辜正坤主譯)將“agent”譯為“代理者(程序)”,由海南出版社同年出版的《數(shù)字化生存》(胡泳、范海燕譯)則將“agent”譯為“代理人”。將人工智能領(lǐng)域的“agent”概念譯為“代理(者/人)”的方式實(shí)際上都考慮到內(nèi)含于技術(shù)物“agent”中的“委托代理”的經(jīng)濟(jì)邏輯。經(jīng)典教科書《人工智能:一種現(xiàn)代方法》(Artificial Intelligence:A Modern Approach)的第一章和第二章指出,人工智能向經(jīng)濟(jì)學(xué)借用了術(shù)語“理性代理人”(rational agent)來表述具有目標(biāo)導(dǎo)向的“智能代理”(intelligence agent),并指出,任何通過傳感器(sensor)感知環(huán)境(environment)并通過執(zhí)行器(actuator)作用于該環(huán)境的事物都可以被視為代理(agent)。
然而,人工智能學(xué)界從20世紀(jì)90年代初開始將“intelligent agent”翻譯為“智能體”,在出版于2004年的中譯本《人工智能:一種現(xiàn)代方法》中,“agent”與“intelligent agent”都被翻譯為“智能體”。近年來,曾經(jīng)被尼葛洛龐帝視為通往“界面代理人”未來圖景的人工智能技術(shù)成功將當(dāng)時(shí)的許多科幻想象轉(zhuǎn)變?yōu)楝F(xiàn)實(shí)。同時(shí),國內(nèi)人工智能學(xué)界的學(xué)術(shù)發(fā)表仍以英文為主,并不重視中文語境下的概念內(nèi)涵與外延。于是,在勢(shì)不可當(dāng)?shù)娜斯ぶ悄軣岢蓖苿?dòng)下,“AI Agent”被部分國內(nèi)媒體與學(xué)界人士直接譯作“AI智能體”或“智能體”,并被廣泛傳播。
雖然“智能體”相較于“人工智能代理”更為簡(jiǎn)短易記,但是這種譯法不僅存在成分贅余之嫌,還遺失了其原初的“人幫助人”的經(jīng)濟(jì)學(xué)理念,忽略了將技術(shù)作為相對(duì)自主的“主體”的社會(huì)性命題。因此,在國內(nèi)尚未形成統(tǒng)一使用規(guī)范的情況下,本文主張以“人工智能代理”或“人工智能主體”來指代正處于風(fēng)口浪尖的英文“AI Agent”一詞,其指的是一種能夠理解、分析和響應(yīng)人類輸入的信息,并像人類一樣執(zhí)行任務(wù)、作出決策并與環(huán)境互動(dòng),通過行動(dòng)來達(dá)成目標(biāo)的自主實(shí)體。
三、歷史脈絡(luò):從理念建構(gòu)到實(shí)踐成形
前文追溯了歷史上關(guān)于“agent”的未來想象與翻譯傳播歷程,那么誕生于英文語境的“AI Agent”理念與實(shí)踐又經(jīng)歷了怎樣的轉(zhuǎn)型過程?人工智能領(lǐng)域的科學(xué)家、工程師們從探討人工產(chǎn)品是否具有能動(dòng)性(agency)的哲學(xué)概念及經(jīng)濟(jì)學(xué)中的代理人術(shù)語獲得啟發(fā),拼湊出“AI Agent”這一概念,并推動(dòng)其理念的落地與進(jìn)化。
(一)初探期(1956-1995年):概念實(shí)體化
20世紀(jì)50年代,阿蘭·圖靈(Alan Turing)提出著名的圖靈測(cè)試,以判斷人工實(shí)體是否具有智能——如果人不能區(qū)分置于黑箱子里的機(jī)器是人還是機(jī)器的話,這臺(tái)機(jī)器就被判定為有智能。這些人工智能實(shí)體通常被稱為“agent”,成為人工智能系統(tǒng)的基本構(gòu)建模塊。由于人類只能觀察到機(jī)器的外在行為,難以洞察形而上學(xué)的機(jī)器“意識(shí)”,包括圖靈在內(nèi)的許多人工智能研究人員都建議暫時(shí)擱置“agent”是否能夠思考或擁有意識(shí)的辯題,而以自主性、反應(yīng)性、主動(dòng)性和社交性等屬性來描述人工智能代理,將其從形而上的理論概念轉(zhuǎn)化為“可見”的計(jì)算實(shí)體。
在人工智能發(fā)展的最初30年里,符號(hào)人工智能(symbolic AI)占據(jù)了主導(dǎo)地位,其受到數(shù)學(xué)邏輯以及人們描述自身思考過程的方式的啟發(fā),意在發(fā)展通用問題求解器,如專家系統(tǒng)。亞符號(hào)人工智能(subsymbolic AI)則從神經(jīng)科學(xué)中汲取靈感,試圖捕捉隱藏在“快速感知”(fast perception)背后的無意識(shí)思考過程,如識(shí)別人臉或語音等,一個(gè)早期的例子是感知機(jī),由心理學(xué)家弗蘭克·羅森布拉特(Frank Rosenblatt)于20世紀(jì)50年代末提出。20世紀(jì)50年代至60年代的人工智能,在符號(hào)演算和感知機(jī)兩個(gè)方向上都陷入了停滯。于是,20世紀(jì)60年代末和70年代初,人工智能進(jìn)入第一個(gè)寒冬。此后,以5至10年為周期,人工智能不斷上演“春天”-過度承諾和媒體炒作-“寒冬”的循環(huán)。到20世紀(jì)80年代,雖然有若干聚焦面狹窄的專家系統(tǒng)得到了成功部署,但之前研究者承諾的更通用的人工智能突破并未實(shí)現(xiàn)。1987年,專家系統(tǒng)計(jì)算機(jī)市場(chǎng)崩潰,第二個(gè)人工智能寒冬到來,一直持續(xù)到2000年。
在漫長(zhǎng)的人工智能寒冬中,人工智能學(xué)者仍然對(duì)“AI Agent”葆有濃厚興趣。1995年,英國人工智能學(xué)者邁克爾·伍爾德里奇(Michael Wooldridge)和尼克·詹寧斯(Nicholas R.Jennings)將“AI Agent”定義為能夠在某個(gè)環(huán)境中自主行動(dòng)以實(shí)現(xiàn)其設(shè)計(jì)目標(biāo)的計(jì)算實(shí)體。1998年,兩人合編了《代理技術(shù):基礎(chǔ)、應(yīng)用和市場(chǎng)》(Agent Technology:Foundations,Applica tions,and Markets),這是第一本綜合介紹設(shè)計(jì)、構(gòu)建和使用代理應(yīng)用程序時(shí)遇到的問題、挑戰(zhàn)的著作,既有對(duì)代理技術(shù)基礎(chǔ)的概述,也有在實(shí)踐中處理特定代理系統(tǒng)的報(bào)告。同期,美國人工智能學(xué)者彼得·諾維格(Peter Norvig)和斯圖爾特·J.羅素(Stuart J.Russell)將“AI Agent”的類型細(xì)分為簡(jiǎn)單反射代理(simple reflex agents)、基于模型的代理(model-based agents)、基于目標(biāo)的代理(goal-based agents)、基于實(shí)用程序的代理(utility-based agents)和學(xué)習(xí)型代理(learning agents)5類。至此,“AI Agent”概念獲得了明確的功能指向和實(shí)踐目標(biāo),利用人工智能技術(shù)開發(fā)的能夠解決特定問題的軟件或硬件都可被納入人工智能代理范疇。
(二)分化期(1996-2011年):產(chǎn)品類型化
根據(jù)人工智能研究者在20世紀(jì)90年代給出的定義,后來的圍棋機(jī)器人AlphaGo、蘋果手機(jī)助手Siri、天貓精靈智能音箱等技術(shù)產(chǎn)品都可以被納入人工智能代理的范疇。此時(shí),人工智能開發(fā)的目標(biāo)從構(gòu)建可以像人類一樣選擇的代理人轉(zhuǎn)向構(gòu)建能夠作出最優(yōu)選擇的代理人。也就是說,是否通過圖靈測(cè)試并不重要,重要的是,能否代替人類執(zhí)行最優(yōu)的選擇。
1997年,由IBM開發(fā)的超級(jí)電腦“深藍(lán)”(Deep Blue)擊敗世界圍棋冠軍加里·卡斯帕羅夫(Gary Kasparov),成為首臺(tái)在“人機(jī)對(duì)戰(zhàn)”中戰(zhàn)勝人類象棋冠軍的機(jī)器。“深藍(lán)”的對(duì)弈決策在通用超級(jí)計(jì)算機(jī)處理器和480顆特制的VLSI象棋加速器芯片的支持下完成,前者的軟件只執(zhí)行部分象棋運(yùn)算,后者則處理更復(fù)雜的棋步。盡管后來遭到質(zhì)疑的IBM拒絕與卡斯帕羅夫再戰(zhàn),但人工智能也已經(jīng)能夠在“有完全信息的組合游戲”中擊敗人類。根據(jù)“摩爾定律”(Moore's law),計(jì)算機(jī)芯片的性能平均每隔18個(gè)月就會(huì)翻一番,與之并駕齊驅(qū)的是突飛猛進(jìn)的計(jì)算機(jī)軟件。由此可以推論,由軟硬件驅(qū)動(dòng)的人工智能將會(huì)不斷進(jìn)化。的確,盡管“深藍(lán)”已經(jīng)被IBM大卸八塊,其后的人工智能代理產(chǎn)品卻推陳出新,且功能逐漸分化,拓展至算法推薦、智能家居、虛擬助手、航空航天等領(lǐng)域(見表1)。
(三)涌現(xiàn)期(2012年以來):功能通用化
然而,在“深藍(lán)”之后的近20年內(nèi),暴力搜索法、Alpha-beta剪枝、啟發(fā)式搜索等傳統(tǒng)的人工智能方法在面對(duì)組合可能性更多的圍棋游戲時(shí)都顯得無能為力。直到2015年左右,Google DeepMind才扭轉(zhuǎn)了這一僵局,其利用強(qiáng)化學(xué)習(xí)(reinforcement learning)技術(shù)訓(xùn)練的人工智能圍棋系統(tǒng)AlphaGo于2016年3月以4:1的總比分擊敗了曾經(jīng)14次榮膺世界冠軍的韓國職業(yè)九段棋手李世石。然而,雖說AlphaGo在圍棋、國際象棋、日本象棋等棋類游戲中的表現(xiàn)震撼人心,但它卻只能做下棋這一件事,既不能玩轉(zhuǎn)任何其他游戲,也無法完成現(xiàn)實(shí)生活中的簡(jiǎn)單任務(wù)。所以,人類對(duì)AlphaGo的集體焦慮很快就消退了,因?yàn)橄缕逑碌煤貌⒉恍枰ㄓ弥悄?。人工智能先?qū)之一約翰·麥卡錫(John McCarthy)精準(zhǔn)地概括了人工智能發(fā)展的一個(gè)困境:“一旦它開始奏效,就沒人再稱它為人工智能了?!币簿褪钦f,人工智能存在移動(dòng)的球門柱:當(dāng)計(jì)算機(jī)在某一特定任務(wù)上超越人類時(shí),我們就得出結(jié)論,該任務(wù)實(shí)際上并不需要智能。
對(duì)通用人工智能孜孜以求的科學(xué)家與工程師們不甘心將對(duì)人工智能代理的想象與探索止步于此,他們期待將《機(jī)器人瓦力》(Wall-E)、《星球大戰(zhàn)》(Star Wars)、《頭號(hào)玩家》(Ready Player One)等科幻作品變?yōu)楝F(xiàn)實(shí),創(chuàng)造出充滿好奇心、能夠進(jìn)行終身學(xué)習(xí)的通用人工智能代理。在計(jì)算機(jī)軟硬件的支持下,人工智能領(lǐng)域在神經(jīng)網(wǎng)絡(luò)(neural network)、機(jī)器學(xué)習(xí)(machine learning)、大數(shù)據(jù)(big data)等方向取得新突破,一系列更為普遍的人工智能成果開始在我們身邊悄然出現(xiàn)。從IBM的深藍(lán)到沃森(Watson)再到AlphaGo,統(tǒng)稱為“深度學(xué)習(xí)”(deep learning)的人工智能方法已經(jīng)成了主流的人工智能范式,開始在計(jì)算機(jī)視覺、語言、翻譯、預(yù)測(cè)、生成和無數(shù)其他問題上顯示出明顯優(yōu)于其他方法的優(yōu)勢(shì)。到21世紀(jì)第二個(gè)10年,基于大語言模型的方法在語義理解與表達(dá)方面實(shí)現(xiàn)突破,掀起一波以ChatGPT為代表的生成式人工智能浪潮。2023年以來,Camel(3月21日)、AutoGPT(3月30日)、BabyAGI(4月3日)、Voyager(5月27日)等多個(gè)人工智能代理如雨后春筍般面世。不同于只能玩棋類游戲的AlphaGo,這些由大語言模型驅(qū)動(dòng)的生成式智能代理被設(shè)計(jì)為能夠適應(yīng)跨游戲環(huán)境、自主學(xué)習(xí)游戲技能、自由探索游戲玩法的“玩家”。比如,2023年5月25日,商湯科技聯(lián)合清華大學(xué)、上海人工智能實(shí)驗(yàn)室等機(jī)構(gòu)發(fā)布的GITM(Ghost in the Minecraft)能夠玩轉(zhuǎn)《我的世界》(Minecraft);Google DeepMind于2024年3月14日推出的SIMA(Scalable Instructable Multiworld Agent)在《無人天空》(No Man’s Sky)、《拆遷》(Teardown)、《英靈神殿》(Valheim)和《模擬山羊3》(Goat Simulator 3等9款游戲中都進(jìn)行了訓(xùn)練與測(cè)試。
如今,在以GPT平臺(tái)(GPT Platform)為核心的開發(fā)環(huán)境支持下,通用化的人工智能代理還在持續(xù)涌現(xiàn)。GPT(生成式預(yù)訓(xùn)練轉(zhuǎn)換器)是機(jī)器學(xué)習(xí)模型的核心架構(gòu),為ChatGPT等大語言模型(LLM)提供動(dòng)力。而代理雖然也是一種大語言模型,但需要將其設(shè)置為在確定某些目標(biāo)/任務(wù)的情況下反復(fù)運(yùn)行。這與大語言模型在ChatGPT等工具中的“通?!笔褂梅绞讲煌T谶@種工具中,用戶提出一個(gè)問題,得到一個(gè)單獨(dú)的響應(yīng)作為答案。而代理具有復(fù)雜的工作流程,模型基本上是在沒有人強(qiáng)制干預(yù)的情況下進(jìn)行自我對(duì)話。隨著時(shí)間的推移,代理將在更強(qiáng)大的模型和工具的支持下變得越來越復(fù)雜,從而在未來化身為由通用人工智能驅(qū)動(dòng)、可以解決眾多任務(wù)的實(shí)體。
四、前沿趨勢(shì):生成式人工智能代理
前述圍繞人工智能代理展開的人工智能簡(jiǎn)史講述了人工智能的理念落地與進(jìn)化歷程,當(dāng)前的人工智能代理熱潮則是大模型驅(qū)動(dòng)下通用人工智能(Artificial General Intelligence,AGI)發(fā)展的階段性成果,涌現(xiàn)于人工智能領(lǐng)域的平臺(tái)化進(jìn)程之中。
(一)擬真式環(huán)境:游戲版真實(shí)世界
如上文所述,盡管深藍(lán)與AlphaGo等人工智能產(chǎn)品已經(jīng)展現(xiàn)出令人震撼的卓越能力,但它們?nèi)匀徊环峡茖W(xué)家關(guān)于智能代理的未來想象——它們還不能“像人類一樣生存、探索和創(chuàng)造”。為了實(shí)現(xiàn)這一終極目標(biāo),研究者們延承了始于20世紀(jì)70年代的擬真實(shí)驗(yàn)技術(shù)路線,即令人工智能代理在擬真式環(huán)境中進(jìn)行交互式學(xué)習(xí),從而提高解決通用問題的能力。1972年,為了將問題的復(fù)雜性降到可管理的程度,計(jì)算機(jī)博士特里·威諾格拉德(Terry Winograd)搭建了一個(gè)模擬空間,其中包含了許多彩色物體(方塊、盒子和錐體),名為SHRDLU的虛擬機(jī)器人可以根據(jù)用戶的指令來排列對(duì)象,也可以使用模擬機(jī)械手臂來操作對(duì)象。人和機(jī)器人之間的交流通過鍵盤進(jìn)行,機(jī)器人的回復(fù)出現(xiàn)于屏幕底部。SHRDLU可以進(jìn)行關(guān)于虛擬世界的對(duì)話,也可以制訂及執(zhí)行行動(dòng)計(jì)劃,甚至還可以回答有關(guān)自身動(dòng)機(jī)的問題——巧妙地“展示”(demo)了人類通過發(fā)出指令讓機(jī)器人在特定環(huán)境中工作的場(chǎng)景。至20世紀(jì)80年代,源自麻省理工學(xué)院媒體實(shí)驗(yàn)室的“展示不了就去死”(demo or die)文化在人工智能圈盛行開來。秉持這種實(shí)驗(yàn)室精神,在尚難以直接將智能代理嵌入真實(shí)世界的情況下,人工智能代理研究亦采取了先在擬真式虛擬環(huán)境中測(cè)試,再轉(zhuǎn)向現(xiàn)實(shí)物理世界的技術(shù)路線。
那么,如何為人工智能代理搭建一個(gè)擬真式實(shí)驗(yàn)環(huán)境呢?當(dāng)前,培育人工智能代理的“實(shí)驗(yàn)室”主要包括兩類——現(xiàn)成的游戲平臺(tái)與后建的測(cè)試平臺(tái)。在現(xiàn)成的游戲平臺(tái)中,最受歡迎的莫過于微軟旗下游戲公司Mojang Studios開發(fā)的沙盒類游戲《我的世界》,從美國的DeepMind、OpenAI到國內(nèi)的商湯科技、清華大學(xué)、北京大學(xué)等,研究團(tuán)隊(duì)利用該游戲開展人工智能代理訓(xùn)練?!段业氖澜纭穫涫芮嗖A的原因不難理解。首先,它仿佛一個(gè)縮小版的現(xiàn)實(shí)世界,為研究人員提供了一個(gè)觀察人工智能代理對(duì)復(fù)雜環(huán)境適應(yīng)性的模擬實(shí)驗(yàn)室;人工智能代理身處由隨機(jī)程序生成的形態(tài)各異的游戲環(huán)境中,可以通過使用原始的機(jī)械設(shè)備、電路、邏輯門以及內(nèi)置于游戲的材料“紅石塊”來構(gòu)建更為復(fù)雜的機(jī)械,在相互協(xié)作與競(jìng)爭(zhēng)中完成生存、探索和創(chuàng)造等各類復(fù)雜的社會(huì)性活動(dòng)。其次,人類玩家的對(duì)局?jǐn)?shù)據(jù)被“投喂”給大模型,為其訓(xùn)練提供了豐富的“學(xué)習(xí)資料”。此外,《我的世界》代碼相對(duì)簡(jiǎn)單,容易接入,便于研究團(tuán)隊(duì)利用現(xiàn)有資源搭建新的測(cè)試環(huán)境。當(dāng)然,與其他實(shí)驗(yàn)方式相比,擬真游戲環(huán)境成本更低、安全系數(shù)更高,亦促使其成為“從0到1”的探索性研究的不二之選。
除了利用現(xiàn)成的游戲平臺(tái),亦有研究團(tuán)隊(duì)選擇利用來自真實(shí)世界的環(huán)境數(shù)據(jù)搭建虛擬環(huán)境,比如來自香港大學(xué)的Jihan Yang和紐約大學(xué)的謝賽寧等人通過APIs接入數(shù)字地圖、街景圖像等多種已成型的地理信息軟件或平臺(tái),調(diào)用現(xiàn)有的環(huán)境數(shù)據(jù)與應(yīng)用界面,為人工智能代理創(chuàng)造了更加接近現(xiàn)實(shí)世界的、可擴(kuò)展的平臺(tái)——V-IRL,由此,人工智能代理在多個(gè)地理信息軟件“交互”而成的虛擬空間中完成探索性任務(wù),如同被嵌入地球的真實(shí)城市街巷之中。
(二)交互式學(xué)習(xí):社會(huì)化智能主體
按照主流智能理論,人工智能代理不僅需要在與環(huán)境交互過程中利用工具、規(guī)劃任務(wù)以解決問題,還應(yīng)當(dāng)掌握與其他人工智能代理及人類交互協(xié)作的能力,因而研究者在探索階段往往給予其“交互式”的工作任務(wù),測(cè)試與提升人工智能代理的協(xié)作能力及協(xié)助人類活動(dòng)的能力?!敖换ナ綄W(xué)習(xí)”包括兩層含義。其一,人工智能代理與不確定的環(huán)境進(jìn)行交互,并從中掌握處理非線性任務(wù)的技能。其二,人工智能代理間交互、人機(jī)交互等多主體互動(dòng)模式,從根本上模擬了人類社會(huì)的運(yùn)作機(jī)制——?jiǎng)趧?dòng)分工,致力于使智能主體的行動(dòng)更具“社會(huì)化”特征。
一方面,人工智能代理不是只能線性執(zhí)行人類給出的程序指令的機(jī)器,而是在大語言模型的統(tǒng)籌指揮下開展自主探索活動(dòng),其學(xué)習(xí)過程具有非線性、創(chuàng)造性和靈活性特征。比如,英偉達(dá)的JimFan團(tuán)隊(duì)在向大語言模型下達(dá)“盡可能多地用各種工具挖礦”的總目標(biāo),再針對(duì)基本規(guī)則與動(dòng)作進(jìn)行提示后,將人工智能代理Voyager“扔”進(jìn)《我的世界》中。在大語言模型的驅(qū)動(dòng)下,Voyager針對(duì)最終目標(biāo)生成細(xì)分任務(wù),通過對(duì)世界環(huán)境的觀察和交互了解各種操作的效果,將正向操作(如用斧子砍樹比用手刨快)存儲(chǔ)于短期記憶之中,不斷優(yōu)化自身的子目標(biāo),最終實(shí)現(xiàn)“挖礦”的總目標(biāo)。在這種情境下,Voyager并未遵循預(yù)設(shè)的程序與算法執(zhí)行確定的任務(wù),而是在充滿不確定性的未知環(huán)境中“因地制宜”地采取多元化的行動(dòng)策略,“無師自通”地掌握了挖掘、建房屋、收集、打獵等技能。
另一方面,參照人類的行動(dòng)交往模式,人工智能代理不僅需要完成“單打獨(dú)斗”式的任務(wù),還應(yīng)能參與團(tuán)隊(duì)行動(dòng),因此除了單一代理(single agent),多代理(agent-agent)、混合代理(agent-human)亦成為目前研究的重要類型。多智能代理間協(xié)作的模式主要包括兩種。一是任務(wù)分配不均的雙代理模式,其前提在于假設(shè)現(xiàn)實(shí)社會(huì)存在大量a輔助b的任務(wù)執(zhí)行情況。二是任務(wù)分配均勻的多代理模式和人類一代理人協(xié)作模式,其前提在于假設(shè)責(zé)任平等。作為—種用于新興游戲交互的基礎(chǔ)設(shè)施,MindAgent支持多NPC(Non-Player Character,指游戲中的非玩家角色)協(xié)作和人類NPC協(xié)作,較全面地涵蓋了多智能代理間協(xié)作模式。它以多人合作模擬廚房游戲《分手廚房》(Overcooked)為參照,通過簡(jiǎn)化游戲的部分復(fù)雜操作,為人工智能代理搭建了新的支持人工智能代理間協(xié)作、人機(jī)協(xié)作以及VR交互的游戲場(chǎng)景CuisineWorld,作為玩家的多個(gè)人工智能代理須在規(guī)定時(shí)間內(nèi)合作完成各種菜品的制作并送到顧客手中。
實(shí)際上,早在1986年,美國人工智能科學(xué)家馬文·明斯基(Marvin Minsky)就在其著作《心智社會(huì)》(Society of Mind)中設(shè)想過人工智能代理的交互模式——智力是由許多具有特定功能的較小主體的相互作用產(chǎn)生的,這一新穎的智力理論不失為當(dāng)前多人工智能代理協(xié)作模式的一種前瞻性預(yù)測(cè)。
(三)生成式智能:通用人工智能之路
有趣的是,人工智能代理的應(yīng)用場(chǎng)景已經(jīng)覆蓋機(jī)器人、游戲、虛擬助理、自動(dòng)駕駛等細(xì)分領(lǐng)域,然而其技術(shù)功能卻始終未超出尼葛洛龐帝的電子“管家”設(shè)想,只不過媒介形態(tài)從內(nèi)置于計(jì)算機(jī)的軟件程序拓展至各類物理實(shí)體。例如,瑞典大型金融科技公司Klarna表示,由OpenAI提供支持的AI助手在短短一個(gè)月內(nèi)承擔(dān)了700名全職客服的工作,完成了230萬次對(duì)話,其客戶滿意程度“與人工客服人員相當(dāng)”。人工智能初創(chuàng)公司Rabbit在2024年CES(美國拉斯維加斯消費(fèi)電子展)上展出了一款主打語音交互功能的AI產(chǎn)品Rabbit Rl,這款智能助手形似縮小版的手機(jī),卻不內(nèi)含應(yīng)用程序,能夠在GPT-4和其他大模型的驅(qū)動(dòng)下理解人的語音內(nèi)容,模仿人使用軟件的方式自動(dòng)完成點(diǎn)外賣、聽音樂、軟件叫車等任務(wù),仿佛一臺(tái)人與智能手機(jī)之間的智能對(duì)講機(jī)。
這類被稱為智能助手(AI Assistant)的人工智能代理在社會(huì)生產(chǎn)生活中擔(dān)任替代或者優(yōu)化部分人類勞動(dòng)的“秘書”,而面向組織的人工智能代理則更像一個(gè)能夠通過分工協(xié)作自行解決問題的合作團(tuán)隊(duì)。比如,人工智能實(shí)驗(yàn)室Cognition Labs于2024年3月12日推出世界上“第一位AI軟件工程師”,充分展現(xiàn)多代理協(xié)作。這個(gè)名為“Devin”的人工智能代理產(chǎn)品被設(shè)計(jì)為一個(gè)軟件團(tuán)隊(duì),它不再像GitHub Copilot等編程AI助手那樣扮演程序員的“副駕駛”角色,而是在接收任務(wù)指令后自行進(jìn)行方案規(guī)劃、需求創(chuàng)建和任務(wù)分配,創(chuàng)建出更多小型AI助手,它們?cè)诟髯缘纳澈薪K端、代碼編輯器和瀏覽器之間穿梭以完成特定任務(wù)。整個(gè)團(tuán)隊(duì)經(jīng)過持續(xù)測(cè)試、調(diào)試并迭代,直至創(chuàng)建出完整的應(yīng)用程序供用戶檢查并請(qǐng)求更改。
從這些簡(jiǎn)略的描述即可窺見,新一波人工智能代理熱潮的核心關(guān)鍵詞為“通用”。與受控于預(yù)先確定的參數(shù)、只能完成單一任務(wù)的人工智能相比,通用人工智能的目標(biāo)是完成規(guī)定參數(shù)之外的任務(wù)。所謂的“通用”指的是人工智能面對(duì)不確定性環(huán)境處理多個(gè)任務(wù)的自學(xué)能力??梢姡煌谟纱_定的計(jì)算機(jī)程序控制的NPC,生成式人工智能代理不受固定的動(dòng)作參數(shù)限制,而是探索限定動(dòng)作之外的多元“玩法”,更接近通用人工智能的設(shè)想。那么,人工智能代理的“通用”潛質(zhì)從何而來?近年來,大語言模型的突破性進(jìn)展表現(xiàn)為ChatGPT、Midjourney、Runway、Pika等原生AI應(yīng)用的流行,但是這些模型不僅具有文案、圖片和視頻的生成以及學(xué)習(xí)、體驗(yàn)與搜索的優(yōu)化功能,還被研究者視為通用問題求解器。在此背景下涌現(xiàn)的GITM等人工智能代理代表了智能代理研究范式轉(zhuǎn)型的實(shí)踐成果——人工智能代理突破了強(qiáng)化學(xué)習(xí)的傳統(tǒng)技術(shù)架構(gòu),轉(zhuǎn)向以大語言模型為智能驅(qū)動(dòng)力的新范式。此前,強(qiáng)化學(xué)習(xí)式人工智能代理面臨的難題在于如何將極為復(fù)雜的任務(wù)映射到最底層的鍵盤鼠標(biāo)操作。與之相比,生成式人工智能模型利用海量數(shù)據(jù)集進(jìn)行訓(xùn)練,能夠使用類似于人類創(chuàng)作的文本、音頻或視覺效果來響應(yīng)人類查詢;同時(shí),大語言模型還具備量級(jí)巨大的知識(shí)庫和緊急零樣本規(guī)劃能力,能夠?qū)⒆匀徽Z言指令分解為一系列子任務(wù),再使用低級(jí)控制器執(zhí)行子任務(wù),逐步將復(fù)雜任務(wù)分解為子任務(wù)、結(jié)構(gòu)化動(dòng)作,直到最底層的鍵盤鼠標(biāo)操作。圍繞人工智能代理展開的游戲化訓(xùn)練與商業(yè)化應(yīng)用本質(zhì)上受制于大語言模型處理文本、統(tǒng)籌規(guī)劃的能力,實(shí)驗(yàn)環(huán)境運(yùn)轉(zhuǎn)的前提是對(duì)擁有龐大知識(shí)庫、具備緊急零樣本規(guī)劃能力的大語言模型的穩(wěn)定接入;而生成于擬真訓(xùn)練過程的數(shù)據(jù)資源最終也將“反哺”大語言模型的改進(jìn)與迭代,進(jìn)一步擴(kuò)充其量級(jí)巨大的知識(shí)庫,提升其語言處理、任務(wù)分配與主體調(diào)度的靈活度和創(chuàng)造力。
不過,大語言模型的幻覺問題依然難以解決,人們發(fā)現(xiàn)以“命令-執(zhí)行”的線性方式來要求大語言模型輸出答案常常并不奏效。實(shí)際上,人工智能代理的技術(shù)理念最終要回歸作為技術(shù)設(shè)計(jì)者與使用者的人本身——研發(fā)者通過調(diào)整“提示”(prompt)來調(diào)用大語言模型,激發(fā)后者未被利用的技術(shù)實(shí)力,以構(gòu)建符合自身需求的定制版人工智能代理。
五、余論:平臺(tái)化滲透人工智能市場(chǎng)
行文至此,人工智能代理起源與發(fā)展的歷史脈絡(luò)已然浮現(xiàn)。對(duì)人工智能代理的媒介考古表明,盛行于各個(gè)時(shí)段的人工智能代理項(xiàng)目,都曾是當(dāng)時(shí)人工智能領(lǐng)域核心范式的實(shí)體化產(chǎn)物。當(dāng)然,任何由商業(yè)力量推動(dòng)的技術(shù)浪潮都難以避免炒作色彩,同時(shí)也反映出階段性的科技趨勢(shì)與市場(chǎng)形勢(shì)。因此,我們暫且擱置2023年以來被冠以“智能體”的技術(shù)熱潮是否可能化為泡沫的預(yù)測(cè),而是將其視為生成式人工智能技術(shù)實(shí)體化的產(chǎn)物,討論其何以形成,以及如何帶動(dòng)市場(chǎng)資源的流動(dòng)與市場(chǎng)關(guān)系的整合。
新一輪人工智能代理熱潮的技術(shù)路線以大語言模型為范式,游戲測(cè)試本質(zhì)上是為了測(cè)試和提高大語言模型的多智能代理規(guī)劃能力,即為多個(gè)人工智能代理制定協(xié)作計(jì)劃、避免發(fā)生沖突的能力;而各大科技公司紛紛推出的人工智能代理商業(yè)應(yīng)用也無非是大語言模型應(yīng)用的變體,對(duì)接的是科技行業(yè)的變現(xiàn)需求,即將消耗巨大算力資源的大模型落地為創(chuàng)收項(xiàng)目。
大語言模型驅(qū)動(dòng)的人工智能代理被視為下一代平臺(tái)的前提在于智能代理根植于以算力資源為核心的基礎(chǔ)設(shè)施網(wǎng)絡(luò),而后者早已呈現(xiàn)不可逆轉(zhuǎn)的平臺(tái)化趨勢(shì)。也就是說,任何個(gè)人或組織想“定制”自己的人工智能代理,都無法脫離由各種外部工具構(gòu)成的復(fù)雜基礎(chǔ)設(shè)施環(huán)境,而這一可編程的智能代理開發(fā)環(huán)境本就由平臺(tái)公司及其合作伙伴搭建。
首先,在政治經(jīng)濟(jì)轉(zhuǎn)型(金融化和放松管制)的宏觀影響和網(wǎng)絡(luò)效應(yīng)、數(shù)據(jù)驅(qū)動(dòng)等獨(dú)特因素的塑造下,網(wǎng)絡(luò)計(jì)算資源從傳統(tǒng)壟斷基礎(chǔ)設(shè)施模式轉(zhuǎn)向平臺(tái)化基礎(chǔ)設(shè)施模式,呈現(xiàn)出鮮明的私有化與分裂化趨勢(shì)。在“基礎(chǔ)設(shè)施即服務(wù)”(Infrastructure as a Service,IaaS)模式下,任何算力資源都能被轉(zhuǎn)變?yōu)榉?wù)提供給不同用戶(包括企業(yè)、科研機(jī)構(gòu)、個(gè)人用戶等),企業(yè)無須購買包括軟件、硬件等在內(nèi)的復(fù)雜架構(gòu)的產(chǎn)品并在現(xiàn)場(chǎng)安裝以創(chuàng)建網(wǎng)絡(luò),只需為自己所需的特定服務(wù)付費(fèi),從而極大地節(jié)省成本與盤活資源。算力資源基礎(chǔ)設(shè)施的私有化與分裂化也意味著,算力資源持有者構(gòu)成相互牽制的關(guān)系網(wǎng)絡(luò),任何技術(shù)力量都無法獨(dú)立運(yùn)行。比如,掌握有限算力資源的OpenAI等新銳巨頭通過向第三方租借GPT-4等基礎(chǔ)設(shè)施型資源形成在大語言模型乃至人工智能領(lǐng)域的優(yōu)勢(shì)地位;而OpenAI的ChatGPT亦非獨(dú)立存在的技術(shù)產(chǎn)品,其采取向微軟、谷歌、英偉達(dá)等老牌科技巨頭租用芯片、云服務(wù)的算力租賃方式完成復(fù)雜的訓(xùn)練與運(yùn)行過程,因而人工智能代理的發(fā)展亦可能進(jìn)一步強(qiáng)化微軟、英偉達(dá)等老牌巨頭在科技行業(yè)的壟斷地位。其中,支撐GPT服務(wù)的硬件設(shè)備主要是芯片及搭載芯片的數(shù)千臺(tái)服務(wù)器和數(shù)百個(gè)標(biāo)準(zhǔn)機(jī)柜。根據(jù)英偉達(dá)估算,訓(xùn)練一個(gè)ChatGPT-175B大模型需使用1,024塊Al00芯片,即128臺(tái)8卡Al00服務(wù)器,硬件采購成本就高達(dá)1.54億元人民幣。囿于高昂的硬件采買成本,OpenAI及其他中小企業(yè)便采取算力租賃方式進(jìn)行大模型訓(xùn)練,以控制成本。在云服務(wù)一側(cè),受微軟注入資本影響,ChatGPT的合作伙伴從谷歌云服務(wù)平臺(tái)轉(zhuǎn)向微軟的Azure平臺(tái),但仍然消耗巨大的成本??梢哉f,具備算力與資本優(yōu)勢(shì)的微軟等老牌科技巨頭以出租云服務(wù)、注入資本等方式布局人工智能領(lǐng)域,成為人工智能平臺(tái)市場(chǎng)的底座式玩家。
其次,老牌巨頭的觸角不僅抵達(dá)ChatGPT背后的OpenAI,還零散分布于游戲等細(xì)分市場(chǎng)之中——此前較少被關(guān)注的“游戲即平臺(tái)”模式隨著人工智能代理訓(xùn)練的流行而浮出水面?!段业氖澜纭返扔螒蛑栽谌斯ぶ悄艽頍岢敝邪缪菽M實(shí)驗(yàn)室角色,是因?yàn)槠渖虡I(yè)模式越來越趨近于平臺(tái)模式,作為第三方的研究人員可以通過租賃服務(wù)、API接口接入游戲環(huán)境,根據(jù)自身需要搭建新的基礎(chǔ)設(shè)施環(huán)境?!段业氖澜纭纷?009年誕生起便被描述為一個(gè)“平臺(tái)”,但其含義更多指向“社區(qū)”,即強(qiáng)調(diào)業(yè)余粉絲玩家對(duì)游戲演進(jìn)的共同參與,與“平臺(tái)資本主義”的定義相去甚遠(yuǎn)。近年來,杰弗里·帕克(Geoffrey Parker)等人提出的數(shù)據(jù)驅(qū)動(dòng)的“網(wǎng)絡(luò)效應(yīng)”逐漸凸顯于該游戲的發(fā)展歷程中,起因是《我的世界》于2014年被微軟收購,至今已擁有3億銷量與1.5億月活躍用戶,成為全球有史以來最暢銷的視頻游戲,儲(chǔ)備了龐大的用戶數(shù)據(jù)。學(xué)者大衛(wèi)·墨菲(David Murphy)指出,《我的世界》仿佛游戲界的Facebook和Google,在過去10年的發(fā)展過程中建立了游戲史上前所未有的用戶規(guī)?;A(chǔ),從一種實(shí)驗(yàn)性的、令人驚訝的社交游戲轉(zhuǎn)變?yōu)椤坝螒蚣雌脚_(tái)”的商業(yè)模式,已化身為基礎(chǔ)設(shè)施型平臺(tái)。
最后,對(duì)于提供算力資源服務(wù)的平臺(tái)公司來說,可繼續(xù)編寫或重新組裝的Web應(yīng)用框架是其提供給“用戶”的產(chǎn)品之一。這些軟件應(yīng)用程序既不相互獨(dú)立,也不緊密聯(lián)結(jié),而是呈現(xiàn)模塊化狀態(tài)。作為“用戶”的程序員利用像“鉤子”一樣的應(yīng)用程序接口(Application Programming Interface,API)將像“模塊”一樣的軟件應(yīng)用程序組裝成新的軟件產(chǎn)品,節(jié)省了從頭編寫或構(gòu)建軟件的成本。所謂的API實(shí)際上是一組編程代碼,是軟件間通信與數(shù)據(jù)交換的媒介,支持軟件系統(tǒng)(例如數(shù)字平臺(tái))之間的編程通信以及數(shù)據(jù)和功能交換,并作為核心基礎(chǔ)設(shè)施元素為第三方和合作伙伴創(chuàng)建的應(yīng)用程序和服務(wù)保駕護(hù)航。隨著平臺(tái)商業(yè)模式的崛起,平臺(tái)研究學(xué)者通過追溯Google和Facebook等的平臺(tái)演化歷程,認(rèn)識(shí)到平臺(tái)公司在當(dāng)今社會(huì)的“數(shù)據(jù)主導(dǎo)地位”與API在數(shù)字基礎(chǔ)設(shè)施中的核心地位,指出API業(yè)已成為“主宰數(shù)字世界”的一種方式。也就是說,利用API與第三方共享數(shù)據(jù)或集成服務(wù)成為平臺(tái)商業(yè)模式的核心技術(shù)環(huán)節(jié)。通過API接入平臺(tái)現(xiàn)成資源的“第三方”開發(fā)人員基于自身的創(chuàng)造性需求,在平臺(tái)的核心基礎(chǔ)設(shè)施之上搭建新的應(yīng)用場(chǎng)景,生成新的技術(shù)產(chǎn)品或服務(wù);與此同時(shí),平臺(tái)本身也在這些外部力量的共同參與下不斷演化,通過控制“接口使用”的標(biāo)準(zhǔn)化以維持自身穩(wěn)定性。API的工作原理如圖1所示。
與傳統(tǒng)的信息通信公司相比,平臺(tái)公司的經(jīng)濟(jì)和組織特性表現(xiàn)為“可編程性”(programmability),即通過將“用戶”(包括但不限于非營(yíng)利組織、政府、企業(yè)、內(nèi)容開發(fā)商和廣告商)聚集在一起運(yùn)營(yíng)“多邊市場(chǎng)”,其功能在于促成用戶間的交互與交易,仿佛一個(gè)容納多元主體的“生態(tài)系統(tǒng)”。曾經(jīng)主導(dǎo)基礎(chǔ)設(shè)施的“系統(tǒng)構(gòu)建者”可能要讓位于“生態(tài)系統(tǒng)構(gòu)建者”,后者不是靠直接提供資源而是利用可編程性和互聯(lián)互通來實(shí)現(xiàn)控制。誰將成為新的“生態(tài)系統(tǒng)構(gòu)建者”?現(xiàn)在給出定論還為時(shí)過早,但到熱潮退卻的那一天,這將是科技行業(yè)面臨的核心問題。
(作者胡泳系北京大學(xué)新聞與傳播學(xué)院教授、博士生導(dǎo)師;張文杰系北京大學(xué)新聞與傳播學(xué)院2023級(jí)博士研究生)