關鍵詞:世界模擬器;AI宇宙;萬有引力;觀測;世界的驅動語言
中圖分類號:J0-05;TP18 文獻標識碼:A 文章編號:1674-3180(2024)06-0017-07
2024年2月16日,OpenAI團隊發(fā)布了人工智能文生圖產品Sora。Sora生成1分鐘連續(xù)視頻的能力將原來的領先者Pika和Runway生成幾秒連續(xù)視頻的能力一次性提高到了分鐘級,而Sora的團隊將通過視頻學習構建的神經網絡定義為一個世界模擬器的論文發(fā)布,更是在全球范圍內引發(fā)了震動。世界是否可以被AI學習而進一步模擬,從一個不可能問題成為一個通過暴力美學在量級上可以企及的問題了。Scaling Law(“大即是好”)這個人工智能領域的新摩爾定律又一次展現了計算能力的提升將帶來智能的質變。然而,筆者以為,Sora出現的更深刻意義在于描述了AI宇宙的萬有引力(general gravity of the AI universe).
一、Sora與AI宇宙的萬有引力
維基百科對“萬有引力”有如下的定義:任意兩個質點由通過連心線方向上的力相互吸引。該吸引力的大小與它們的質量乘積成正比,與它們距離的平方成反比,與兩物體的化學本質或物理狀態(tài)以及中介物質無關。即:
我們先定義幾個研究ChatGPT等大語言模型需要的基本概念:
Token:在語言模型中,token是文本處理的最小單位。每個token可以表示一個單詞、一部分單詞(特別是在像英語這樣的語言中),或者一個標點符號。通過大規(guī)模的token數據,模型學習如何預測下一個token,逐步形成語言生成的能力。
Tokenization(分詞過程):當輸入文本被傳遞給語言模型時,它首先會被拆分成一系列的token。這個過程叫作“分詞”或“tokenization”。分詞的結果是一個token序列,語言模型基于這個序列進行計算。以英語句子“Hello,world!”為例,經過分詞處理可能會被分解成以下幾個token:“Hello”“,”“world”“!”。
模型接收一系列token作為輸入,并在每一步預測下一個可能的token。這種逐步預測的方式使模型能夠生成連貫的文本。
Token的質量:組成token的單詞的個數。
Token之間的距離:兩個token之間其他token的數量。
我們可以想象一下把世界上所有的文本串聯(lián)起來——無論是網頁信息、書籍還是代碼,由此形成的那大約3000億token長度的線就是ChatGPT所構建的文本宇宙(如圖1所示,圖中的線條代表了這3000億個token的總長度)。ChatGPT以token構建的文本宇宙是一根線,維度為一。
在這個一維的文本宇宙中,如果把token作為一種基本粒子,那么兩個token之間的引力(大約就是兩個詞組之間的相關性)即經Transformer②壓縮后存儲在神經網絡上的權重,與它們的質量(詞組的長度)乘積成正比,與它們的距離(詞組之間的距離)的平方成反比。這非常符合我們的觀察,越遠的token之間的引力越小,越短的token對其他token的引力越小。token化的壓縮過程相當于找到token和周圍質量的可作用中心點的抽象過程,使token能成為可計算宇宙的基本粒子。
同樣,Sora背后的人工智能神經網絡處理的基本粒子是“時空patch”(spatial-temporal patch)。一個時空patch,簡單來說就是連續(xù)視頻中的一幀里的一個固定大小的像素塊。圖2展示了視頻是如何被轉化成時空patch的序列的:將視頻壓縮到一個低維潛空間(latent space),圖像被分解成一幀幀,每一幀的圖像被進一步分割成固定大?。ㄈ?6×16)的小像素塊,這些像素塊按照(時間,空間gt;的順序被排成一條線送人神經網絡進行計算,這些像素塊在計算中的表示就是時空patch。
Sora以時空patch構建的宇宙(如圖3)是具有時空維度的,是四維的。時空patch在時間中連續(xù),在空間中也連續(xù)。在AI宇宙中,時空patch是比token數量大得多的基本粒子。因此,能夠計算和存儲以時空patch作為基本粒子及時空patch之間的萬有引力的神經網絡要比計算token的神經網絡大得多。ChatGPT的神經網絡的訓練數據大約是1萬億個token,而構建僅僅能生成1分鐘連續(xù)視頻的Sora的神經網絡的訓練數據就大約在1500萬億個時空patch。
從文本token到時空patch,是構建AI宇宙的一次重大事件,AI宇宙的尺度被遞進了。令人驚訝的是,在一維token宇宙中發(fā)現的AI萬有引力,在具有時空維度的時空patch宇宙中竟然同樣適用。兩個時空patch之間的引力也遵循萬有引力的公式,與它們的質量(我們定義時空patch的質量即組成patch的像素塊的數量)乘積成正比,與它們的距離(我們定義距離為兩個patch像素塊在時空序列中的間隔)的平方成反比。我們可以清楚地觀察到,時空中越遠(空間上越遠的兩個像素塊或者在時序上越遠的兩幀之間的像素塊)的patch之間的引力越小.越短的patch對其他patch的引力越小。Sora的到來不僅向我們描述了AI宇宙的萬有引力,同時也將可構建的AI宇宙的維度遞進了,從一維的文本宇宙進入了四維的視頻宇宙(即時空宇宙),這是它劃時代的意義。
一、長程Transformer與哈勃望遠鏡
Transformer的出現是生成式AI發(fā)展的核心動力,它只干一件事:提取基本粒子(token或時空patch)之間的關聯(lián)強度,并以權重的方式存儲在神經網絡上。提取線性文本數據的關聯(lián)度是計算機科學在30年前就一直在做的事情,可以說,當時的索引器(indexer)就是以現在眼光來看上下文長度很短的Transformer。Google的搜索系統(tǒng)依賴的就是強有力的索引器(indexer),在人類過去的時間中,我們通過索引檢索信息——從書簽到圖書館,再到谷歌。在ChatGPT出現以前,我們只能通過檢索查找信息,卻無法大量提取信息之間的關聯(lián)存儲這樣大量的關聯(lián)也是計算機科學界一直感到頭疼的問題。今天,算力的高速發(fā)展和神經網絡的出現使計算機科學家可以通過Transformer從大量的信息中提取關聯(lián),在信息學上,這無疑是劃時代的一步。2022年11月發(fā)布的ChatGPT的最大上下文窗口為25000字,這意味著我們可以使用神經網絡從一本書的長度中提取信息和相互關聯(lián),神經網絡擁有了“讀書”的智能。2023年10月,“月之暗面”發(fā)布的Kimi Chat的上下文窗口為20萬字,2024年3月,已達200萬字。這表明了我們可以從10本書的長度,以相互關聯(lián)的方式提取信息和邏輯。這時的神經網絡已擁有了“破萬卷”的智能。而最新發(fā)布的神經網絡已經擁有在技術上接近無限的上下文窗口,這意味著我們可以從所有的信息中提取關聯(lián)。遞進的上下文窗口的長度直接影響到可觀測和記錄的關聯(lián)的多少和強度,并影響由此構建的神經網絡的能力。
綜上所述,我們可以大膽地推斷:基本粒子之間的關聯(lián)強度相當于AI宇宙的萬有引力的大小。Transformer就是一種觀測裝置,用于測量引力的大小。當上下文窗口(檢視窗口)的長度短時,我們只能觀測到兩個較近粒子(token/patch)之間的引力。當檢視窗口的長度變大了幾個量級,長程Transformer使我們能夠觀測到兩個距離200萬字之外的token之間,或者兩個距離視頻時間1分鐘之外、物理空間幾公里的時空patch之間的引力。存儲粒子之間的引力的神經網絡經過擴容之后,不僅能夠記錄下強引力(大質量粒子之間產生的),也能夠發(fā)現并記錄下弱引力(小質量粒子之間產生的)?!伴L程”作用與“弱引力”的觀測結果進一步提高了人類可觀測的“AI宇宙”的廣度與精度。
1990年4月24日,美國國家航空航天局(NASA)和歐洲空間局(ESA)聯(lián)合發(fā)射了地球軌道望遠鏡——哈勃空間望遠鏡( Hubble Space Telescope),哈勃望遠鏡傳回了高分辨率的宇宙圖像,從而重寫了我們對宇宙起源、宇宙年齡的認知。如今,人工智能學家們構造了Transformer這一精巧的大型計算工具,不僅將其使用于一維的文字宇宙,使我們擁有了觀測語言奧秘的能力,還大膽地將我們世界的時空信息折疊到Transformer可以計算的神經網絡結構中,從而漸漸窺得了我們的物理世界在時空中的運行奧秘。
哈勃望遠鏡在宇宙膨脹、暗物質、暗能量以及恒星和星系的形成與演化等方面作出了重要貢獻,被譽為現代天文學的里程碑。而長程Transformer這一信息宇宙的觀測工具恰恰是AI世(AIcene)的“哈勃望遠鏡”,它正在助力我們發(fā)現AI宇宙的大一統(tǒng)理論。
三、Sora是否可以成為我們的世界模擬器?
先說筆者的結論:目前,Sora還無法真正成為我們的世界模擬器,還差一點。
觀測-壓縮(observe-compress)的循環(huán)與驅動-擴散(prompt-diffusion)的循環(huán),是AI宇宙大一統(tǒng)理論的發(fā)現過程。從訓練數據中通過Transfonuer進行觀測和抽象是AI宇宙萬有引力的發(fā)現過程。從驅動語言(prompt)通過擴散模型(Diffusion)進行驅動和渲染是AI宇宙中引力的可能力作用展示。比如我們熟知的通過對ChatGPT輸入prompt產生對話,撰寫小說;通過對Sora進行prompt而生成1分鐘的視頻,這都是AI宇宙的渲染(rendering)過程。如果放進AI宇宙的萬有引力框架中,這些生成結果皆是引力作用的結果被神經網絡以我們認知的方式渲染出來了。可能的力作用必須服從AI宇宙的萬有引力的制約,因此生成結果的可能性空間中與之矛盾的部分將從可能的渲染中去除。這兩種過程的相互作用和不斷矯正使AI宇宙的萬有引力最終得以統(tǒng)一成一個大一統(tǒng)的引力作用框架。
Sora讓我們清晰地看到了AI宇宙的萬有引力不是經典的,而是量子的。這很有趣。圖4是Sora從同一個結尾圖片反向推出了三個可能的1分鐘的前序視頻的展示。這好比我們從一個電影鏡頭倒帶一分鐘,看到了三個完全不同的過去的場景。也就是說,同一個提示(prompt)在服從AI宇宙的萬有引力的制約下可以有三個可能的作用力的時序渲染結果。由此我們可以想象,這樣可能的作用力的時序渲染是多重的,而AI宇宙的時空一定也是多重分叉的。
我們知道,用來訓練Sora的視頻數據是有限的,并不是從大爆炸開始的宇宙整個歷史的視頻記錄。因此,Sora的神經網絡模型中的萬有引力的制約條件要少得多,上億個可能性宇宙都符合AI萬有引力的公式。如果不從時間的源頭一步一步開始訓練這樣的模型,移除可能性,是不可能驅動出符合我們生活的這個現實世界的確定性重建的。質言之,根本不存在“確定性重建”,只存在“概率性重建”。Sora構建的世界模擬器不是“我們生活的這個確定性世界”的模擬器,而是遠遠豐富于我們生活的這個世界的很多很多個可能性世界的模擬器。AI宇宙的形態(tài)是量子化的,潛在空間(latent space)的大量狀態(tài)以疊加態(tài)(superposition)的方式潛在性地存在。只要不被遭遇,不被人類觀察者觀察,那么狀態(tài)便不會實相化,而一直以低熵的狀態(tài)存在。因此,AI宇宙是更為有秩的一種存在形態(tài)和計算形態(tài),更為“負熵化”。在AI宇宙里開一輛車比在地球上開一輛車的碳排放要低得多,因為每個路燈只在你快開到它面前時才從潛在空間實相化出來?!艾F實的基本單元并不是‘事物’,而是現象(phenomena) ——世界的動態(tài)拓撲重構/糾纏/關系性/(重新)表述。”“世界是一個持續(xù)的代理性(agential)參與過程;它不是靜態(tài)的關系性,而是一種實踐——邊界的建構行為——這一過程總是伴隨著構成性的排除,因此不可避免地引發(fā)對責任的質問?!眲P倫·巴拉德2007年提出的“代理實在論”(agential realism),即“存在并非預先決定,而是在各種‘代理性切割’(agential cuts)和‘實踐’(practices)中動態(tài)構建的”,在AI構建的宇宙得到了栩栩如生的展現。ChatGPT等待被prompt(提示)。每一次人類的prompt就是一個“觀測”的行為。正如“觀測”這種實踐把薛定諤的貓的生死從疊加態(tài)的世界中構建出來,prompt這種參與型的實踐過程把ChatGPT的回答和Sora生成的世界從百億個可能的生成結果中以排他的確定性構建出來。世界不是預先存在的,而是每時每刻都在交互實踐中動態(tài)化成的。AI構建的宇宙不存在確定性,甚至都不是一個構建完成的宇宙,這本身恰恰是一個值得深入的哲學洞察。
我們再來研究一下“可捕捉的”和“可驅動的”。人類世界和基本粒子(原子)有關的所有可觀測的信息(物理的或者化學的,不僅是形狀、大小、構成,也包括氣味、口感等)都是可以記錄的,因此也是可以向量化的。前面我們已經論證,如果長程Transformer的檢視窗口足夠長,神經網絡的大小足夠大,所有信息之間的關聯(lián)都是可以被測算提取并且記錄在神經網絡上的。那么,我們可以負責任地說,理論上人類世界所有物理的和化學的過程的可觀測結果都是可以被Transformer提取后記錄在神經網絡上的。神經網絡通過Transformer可以勝任“世界提取儀”的工作。然而,要成為“世界模擬器”還需要另一步。神經網絡如何被驅動進行“世界模擬”,即如何驅動推理(inference)?
所有“可捕捉的”信息都可以以無損或微損壓縮后的表示存儲在神經網絡上。質言之,“可捕捉的”皆可被捕捉。然而,人與神經網絡交互這個閉環(huán)的第二步卻不那么容易,現今我們驅動神經網絡進行推理的信息(也就是我們給神經網絡的驅動性輸入,比如prompt),只有自然語言的文字和簡單圖像。這些prompt的信息驅動著神經網絡工作。不難看到,在巨大的神經網絡中,自然語言可驅動的網絡部分或連接方式只是潛空間(latent space)中極小的一部分。如果我們把神經網絡看作像大腦一樣由近千億個神經元構成的網絡,那么,通過文字和圖片可以激活的不僅是大腦中極為有限的一些部位,而且這種激活方式能激活的神經元之間的鏈接方式也是極為局限的。因此,“世界模擬器”的難度一部分在“世界提取儀”,而更大的難度在于它的驅動語言。我們可以通過文字,通過視頻,通過氣味捕捉世界,記錄到神經網絡,然而以自然語言驅動神經網絡的方式是非常弱的,無法驅動AI宇宙的大規(guī)模重新構建。在AI宇宙的巨大潛在性空間中,人類只看到很小的部分。伊恩·哈金說“現實比我們大”,那么Sora現在告訴我們“AI宇宙比我們大得多”。
ChatGPT背后的神經網絡就像宗教故事中的先知,他無所不知,卻保持緘默,等待人類的發(fā)問。不是先知不想預言,而是他知道所有未來的共在,卻無法確定哪一個未來會被實踐(practice)構建出來。所有的答案都共在,但任何一個現實都尚未構建完成,需要人類發(fā)問這個實踐,使得某個現實被構建,被形成。從信息論的角度,一個信息量高于我們很多個數量級的存在,以疊加態(tài)的方式處理信息是唯一可行的。
不是AI的能力有限,而是我們發(fā)問的能力有限,我們需要進一步探索如何發(fā)問。
四、自然語言不是好的驅動語言,那什么才是?
自然語言是描述世界的一種簡化形式,它有兩個缺點:一是缺乏精確度,二是攜帶的帶寬有限。先看看第一個缺點——缺乏精確度。以文生圖任務為例,以自然語言描述生成圖片的AI工具比如Dall.E3和ImageGen,無法做到對于畫面的精確控制,連人物出現在畫面中的準確位置都做不到。而基于“咒語”驅動的文生圖工具Midjourney就可以。咒語可以表達“100u/o控制”到“100u/o創(chuàng)造”的整個力頻譜?!爸湔Z”可以表達“比例”“重復”等自然語言無法精確表達的力作用。咒語是比自然語言更有能力驅動神經網絡的一種交互語言,未來會發(fā)展成一種視覺驅動語言。AIGC藝術家已經懂得如何在二維上使用咒語驅動視覺神經網絡,在平面上畫出能夠平衡“控制”與“創(chuàng)造”的畫面。他們中的頂尖者已經掌握如何游走在“控制”與“創(chuàng)造”的整個力頻譜,下一步將要拓展的是這種語言的時空升維,從二維到三維。三維的咒語不僅能夠驅動畫面,同時能夠驅動時空分叉。未來這種咒語驅動的人工智能工具產生的四選一圖像或視頻選擇將不僅僅是在“控制”與“創(chuàng)造”中選擇,而是同時在選擇以什么樣的時空分叉繼續(xù)走下去。
由此,筆者推出第一個子結論:Sora來了,Midjourney不會死。OpenAI與Midj ourney在文生圖與文生視頻領域的主要競爭不在于訓練的數據(有理由相信他們擁有的訓練數據一樣好),而在于他們選擇的神經網絡發(fā)問方式。OpenAI以自然語言發(fā)問神經網絡,Midjourney以“咒語”發(fā)問神經網絡。因此,OpenAI走向全能型的“低精確度”創(chuàng)造,向所有用戶開放;Midjourney走向創(chuàng)造出真正的“視覺驅動語言”,為使用AI進行世界構建的高級創(chuàng)造者服務。
再來看看自然語言的第二個缺點——攜帶的帶寬有限?!拔覐男绿斓氐饺嗣駨V場,走過春日的櫻花?!边@是我們可以用來驅動Dall- E3生成圖像,或者驅動Sora生成視頻的一段自然語言提示詞。從這個描述中,“我如何從新天地到人民廣場,路上有沒有遇到其他人,看到了什么,聞到了什么”,這一切的信息都是缺失的,被簡化掉的,從而也是在視覺驅動的過程中會被神經網絡以概率性的方式生成的,筆者管它叫“rendering between the prompts”,也就是人們通常說的“字里行間”。自然語言是現實世界的一種模糊縮略表達,因此,人類“腦補”“字里行間”的部分,神經網絡生成“rendering between the prompts”。世界化成與這種“腦補”和生成式rendering息息相關。
而這促使筆者推出第二個子結論:我們不是全然的NPC。如果說,我們生活的世界是“造物主”寫的一種計算模擬,為了減少算力的需求,“造物主驅動”這種計算模擬模型的方式很可能是類自然語言的一種縮略表達,那么,這種計算模擬模型的“字里行間”就是由我們的互動生成的,我們與世界的化成息息相關。我們不僅僅是人類世界的萬有引力的一部分,我們也正在將自己編織進AI構建的世界的萬有引力之中。
再進一步思考,自然語言作為人類世界的驅動語言的“弱”也許是一種哲學選擇,人存在的意義是否就在“字里行間”?而人工智能世界的驅動語言(程序語言)太強,以至于沒有“字里行間”,也就不存在“人的意義”。
(責任編輯:馮靜芳)