“語言模型不過是被過譽了的自動補全功能”已成為批評者的常見論調(diào),
但強化學習正在證明他們的錯誤。新突破或?qū)⒕o隨而來。
人工智能就是一場羅夏墨跡測驗。當OpenAI于2023年3月發(fā)布GPT-4時,微軟的研究人員興奮地(但也過早地)宣稱它展現(xiàn)出了通用人工智能(AGI)的“生命火花”。然而,認知科學家加里 · 馬庫斯(Gary Marcus)則認為,像GPT-4這樣的大語言模型與定義寬泛的通用人工智能概念還相去甚遠。事實上,馬庫斯懷疑這些模型是否真正“理解”了任何東西。他在2023年的一篇論文中寫道,這些模型“在人類語言的‘化石化’輸出上運行,它們似乎能夠?qū)崿F(xiàn)一些與分布統(tǒng)計相關(guān)的自動計算,但由于缺乏生成性的世界模型,它們無法真正地理解”。馬庫斯所說的“化石”指的是這些模型的訓練數(shù)據(jù)——如今,這些數(shù)據(jù)幾乎涵蓋了互聯(lián)網(wǎng)上所有的文本。
這種認為大語言模型“只是”基于文本統(tǒng)計模型的下一單詞預測器的觀點,如今已經(jīng)普遍到幾乎成為一種陳詞濫調(diào)。它被用來正確或錯誤地解釋大語言模型的缺陷、偏差和其他局限性。最重要的是,像馬庫斯這樣的人工智能懷疑論者用這一觀點來論證,進一步發(fā)展大語言模型將很快面臨收益遞減:我們會看到大語言模型整體上越來越好地掌握人類知識,但不太可能看到邁向“通用智能”的又一次質(zhì)變飛躍。
這種看衰大語言模型的觀點存在兩個問題。首先,當達到足夠規(guī)模時,“下一單詞預測”可以使模型產(chǎn)生人類本未設(shè)計甚至未曾預見到的能力——有些人稱之為“涌現(xiàn)”能力。其次,越來越多的語言模型采用的技術(shù)顛覆了純粹的、對互聯(lián)網(wǎng)文本進行下一單詞預測的概念。具有諷刺意味的是,這一浪潮正是從ChatGPT開始的。
對于OpenAI、DeepMind和Anthropic等公司來說,要實現(xiàn)它們的宏圖大志,人工智能模型所需要做的不僅僅是撰寫文章、編寫代碼和生成圖像。而且,這些公司還必須應(yīng)對這樣一個事實:用于訓練模型的人類輸入是一種有限的資源。人工智能發(fā)展的下一步既充滿希望,又令人生畏:人工智能將在已有基礎(chǔ)上進一步構(gòu)建自身,解決更復雜的問題,并自我糾錯。
大語言模型的發(fā)展可能會經(jīng)歷又一次飛躍,而且它很快就將出現(xiàn)。至于這是否是朝著“通用智能”的方向邁進,還有待探討。但這次飛躍的樣貌已經(jīng)逐漸變得清晰。
龐大規(guī)模帶來的驚人結(jié)果
2017年,一家名為OpenAI的小型人工智能研究非營利機構(gòu)獲得了一個有趣的發(fā)現(xiàn)。當時,和大多數(shù)人工智能實驗室一樣,OpenAI的研究人員把大部分資源投入機器人技術(shù)和教計算機掌握游戲的研究中。然而,正在自然語言處理這一邊緣領(lǐng)域(此領(lǐng)域如今通常被稱為“語言模型學”)工作的研究員阿萊克 · 拉德福德(Alec Radford)卻發(fā)現(xiàn)了令人驚訝的事情。
拉德福德用一個包含8200萬條亞馬遜產(chǎn)品評論的數(shù)據(jù)庫訓練了一個人工智能模型,以預測給定輸入序列的下一個字符。在此過程中,他發(fā)現(xiàn)自己意外地構(gòu)建了一個能夠做其他事情的先進系統(tǒng),而這些功能并不是他設(shè)計的初衷。原來,為了實現(xiàn)下一字符預測的目標,一個有用的方法是讓模型分析并“理解”訓練數(shù)據(jù)中評論的基本情感取向:了解評論是憤怒的而非愉快的,可以讓模型更準確地預測下一個字符。拉德福德重新發(fā)現(xiàn)了一條真理,而自十年前深度學習革命開始以來,這一真理實際上是幾乎所有機器學習重大進展的根源:在目標簡單、規(guī)模龐大的系統(tǒng)中,可以涌現(xiàn)出意想不到的特性。
當今的語言模型擁有大致相同的運行方式,只不過,它們預測的是下一個單詞而不是下一個字符。實際上,它們預測的是一種名為“標記/詞元”(token)的子詞語言單位,但對本文的論述而言,“單詞”(word)這一概念已經(jīng)夠用。進一步擴大語言模型,并為此投入數(shù)億甚至數(shù)十億美元——其背后的基本理論是,隨著數(shù)據(jù)量的增加和神經(jīng)網(wǎng)絡(luò)的擴大,模型將學習到越來越復雜的、反映出人類智能的啟發(fā)式方法和模式。
也許在達到一定規(guī)模后,模型甚至能學會對創(chuàng)造它們訓練數(shù)據(jù)的過程(即語言智能)進行“建?!?。換句話說,通過研究數(shù)以萬億計的特定文本選擇,模型將學會近似智能推理本身?!白銐蚝玫仡A測下一個標記意味著什么,”O(jiān)penAI前首席科學家伊爾亞 · 蘇茨克維(Ilya Sutskever)在2023年的一次采訪中問道,“這實際上是一個比看上去更深刻的問題。很好地預測下一個標記意味著你理解了導致該標記生成的基本現(xiàn)實……為了理解這些統(tǒng)計數(shù)據(jù)……你需要理解有關(guān)世界的哪些內(nèi)容創(chuàng)造了這一組統(tǒng)計數(shù)據(jù)?”
拉德福德2017年構(gòu)建的模型中包含了8200萬個參數(shù),“參數(shù)”是衡量模型規(guī)模的一個指標。據(jù)報道,GPT-4包含約1.8萬億個參數(shù)。目前,語言模型可以下國際象棋和其他棋類游戲,幾乎可以流利地說每一門語言,并在標準化測試中取得了優(yōu)異成績。它們甚至學習了地球的地圖——一個字面上的“世界模型”——并將其存儲在龐大的數(shù)學關(guān)系網(wǎng)絡(luò)中。顯然,規(guī)??梢詭聿簧俪晒?。
但重要的是,它們?nèi)匀淮嬖谌毕?。有時,模型只是簡單地記憶文本序列,尤其是那些反復出現(xiàn)的文本。另一些時候,模型會杜撰出聽起來合理但實際上錯誤的“事實”,這一現(xiàn)象也惡名在外。反直覺的是,記住頻繁出現(xiàn)的文本是模型失敗的體現(xiàn),而所謂的“幻覺”在某種程度上反而是它們的成功。語言模型的設(shè)計目的并非成為其訓練數(shù)據(jù)的文本數(shù)據(jù)庫,正如我們既不期望也不應(yīng)該記住讀過的書里的每一個字。我們不希望模型記住訓練數(shù)據(jù)——我們希望它們對數(shù)據(jù)進行建模,映射其中的關(guān)系和模式。從這個意義上說,所有非記憶的大語言模型響應(yīng)都是幻覺——也就是“聽起來合理的響應(yīng)”。有些幻覺是可取的,而另一些幻覺——尤其是將錯誤信息作為事實呈現(xiàn)的幻覺,則是不可取的。
然而,即使大語言模型用未記憶的文本序列呈現(xiàn)了事實信息,仍然很難確定它是否真正“理解”了這些信息。這類模型經(jīng)常輸出虛假信息的事實至少表明,它們對世界的模型構(gòu)建存在缺陷,或者它們沒有得到適當?shù)模ìF(xiàn)實)基礎(chǔ)支撐。
如何讓人工智能模型立足于現(xiàn)實
2024年早些時候,美國普林斯頓大學等離子體物理實驗室的研究人員宣布,他們在核聚變研究上邁出了重要的一步。核聚變通過模仿恒星內(nèi)部的運作機制來發(fā)電,長期以來,很多人認為,這種技術(shù)可能改變清潔能源的經(jīng)濟意義。普林斯頓團隊使用了托卡馬克反應(yīng)堆設(shè)計方案,在該裝置中,等離子體被加熱到1.5億華氏度以上,并以超過每小時10萬英里的速度在一個環(huán)形的腔室內(nèi)旋轉(zhuǎn)。
可以想象,當托卡馬克反應(yīng)堆運行時,其內(nèi)部是一個動蕩狂亂的地方。然而,為了保證核聚變反應(yīng)持續(xù)進行,等離子體必須處于精確的控制之下。一個常見的問題是,反應(yīng)堆內(nèi)的磁場會暫時“撕裂”,這意味著等離子體粒子會逃逸。為了解決這個問題,研究人員使用實時控制系統(tǒng)來調(diào)制磁場。然而,研究人員往往要到撕裂已經(jīng)發(fā)生時才能啟動調(diào)制,這降低了反應(yīng)堆的效率。更糟糕的是,該環(huán)境受到非線性動態(tài)的影響:在某一時刻起作用的調(diào)制可能會在另一時刻導致聚變反應(yīng)失敗。更要緊的是,這些問題必須在毫秒尺度內(nèi)解決。對這一過程的優(yōu)化是核聚變開發(fā)中永恒的挑戰(zhàn)。
普林斯頓研究人員的一部分成果在于,他們訓練了一個人工智能模型來執(zhí)行這種優(yōu)化,從而完全避免了磁場撕裂。首先,他們訓練了一個深度神經(jīng)網(wǎng)絡(luò),根據(jù)實驗數(shù)據(jù)預測等離子體壓力和撕裂不穩(wěn)定性的可能性。然后,他們用一種名為深度強化學習(RzEuChWQ75FJzWEHrmChmK0u/CrrSII4rhfuGCKxcIJg=L)的技術(shù)對模型進行了優(yōu)化:該模型的輸入內(nèi)容是反應(yīng)堆中等離子體的觀測狀態(tài),輸出則是能讓磁場達到最佳壓力并避免撕裂的調(diào)制。在訓練過程中,會根據(jù)初始預測對模型推薦的配置進行評分?;趶娀瘜W習的模型有一個簡單的目標:獲得盡可能高的評分。
這種基于RL的模型并不“了解”物理學。它沒有明確編入其中的物理方程或定理。盡管如此,它卻能以比早期方法更高的保真度來對現(xiàn)實世界中這一極其復雜的部分進行建?!缙诜椒ㄊ褂玫氖腔谛问轿锢韺W,特別是磁流體力學和回旋動力學領(lǐng)域的計算機模擬。這正是強化學習的魅力所在:它能讓人工智能系統(tǒng)利用實時數(shù)據(jù)優(yōu)化許多變量,以實現(xiàn)一個簡單的目標,而無需明確了解形式科學。
除了緩解核聚變反應(yīng)堆中的等離子體的不穩(wěn)定性,強化UWS/L1+jT24p+y8fNSNZuSzmVEEMtd7YsFGK8hyxLEA=學習還在近年的其他人工智能突破中發(fā)揮了核心作用:谷歌旗下的人工智能實驗室DeepMind使用了強化學習技術(shù),在圍棋模型中取得了超人的表現(xiàn),這一事件十分著名。
這樣的優(yōu)化系統(tǒng)可以在多大程度上得到推廣?如果可以將相同的方法應(yīng)用于編寫代碼、規(guī)劃和進行科學實驗或撰寫文章的人工智能系統(tǒng),事情又會變得如何?這些都是語言模型學的前沿問題。強化學習已經(jīng)在小范圍內(nèi)挑戰(zhàn)了“生成式人工智能只是瀏覽互聯(lián)網(wǎng)并預測下一個單詞”的觀念。如果說當前的研究趨勢可以算作一種證據(jù),那么它們可能很快就會將上述的觀念淘汰。
不僅僅是下一單詞預測
和所有看上去仿若魔法的技術(shù)一樣,強化學習既比人們想象的簡單,又比人們想象的復雜。說它簡單是因為,歸根結(jié)底,它依賴于優(yōu)化一個單一變量的值,即“獎勵”。說它復雜則是因為,優(yōu)化目標的選擇(尤其是在語言模型等通用系統(tǒng)中)是一件極其棘手的事。
2022年發(fā)布的ChatGPT是強化學習與語言模型融合的首次重大嘗試。諷刺的是,雖然這款產(chǎn)品引發(fā)了無休止的論調(diào)——人們聲稱語言模型只是在預測互聯(lián)網(wǎng)上最有可能出現(xiàn)的下一個單詞——但實際上,它恰恰是第一個開始打破這種假定的語言模型。
在ChatGPT之前,大多數(shù)語言模型確實是下一單詞預測器。在向這些模型輸入提示時,需要給它們一個起始句,并讓它們寫完它:“從前,有一位勇敢的英雄……”這些早期模型可以經(jīng)過微調(diào)變得更具對話性,但它們往往會做出有害行為,語氣也逐漸隨意起來,變得像是網(wǎng)絡(luò)論壇回復,而非一位有用的人工智能助手。讓ChatGPT成為一項突破性消費技術(shù)的是模型訓練過程中的一個新步驟:基于人類反饋的強化學習(RLHF)。
RLHF收集人類對模型應(yīng)如何響應(yīng)提示的偏好,換句話說,就是模型應(yīng)該如何表現(xiàn)。人類測試者會得到對同一提示的兩種響應(yīng),研究人員會要求他們評估更喜歡哪一種。隨后,這些偏好數(shù)據(jù)被用于訓練一個名為獎勵模型的獨立神經(jīng)網(wǎng)絡(luò),后者會用預測出的“人類滿意度”分數(shù)對語言模型的輸出進行評分。最后,研究人員對語言模型的參數(shù)進行調(diào)整,使其更有可能獲得更高評分。
這一過程所用的提示主要涵蓋了一系列的無害話題,但也可能包括更具爭議性的政治和道德議題。有了少量此類人類偏好數(shù)據(jù)(數(shù)據(jù)量其實很大,但與訓練一個有用的語言模型所需的數(shù)據(jù)相比只是滄海一粟),模型的行為就可以通過各種幽微或明顯的方式來塑造。
因為RLHF會改變語言模型的參數(shù)(有時稱為“權(quán)重”),因此經(jīng)過RLHF訓練的模型不再只是根據(jù)對互聯(lián)網(wǎng)的統(tǒng)計分析來預測單詞。雖然權(quán)重調(diào)整的幅度通常較小,但隨著RLHF和其他強化學習方法的使用增加,互聯(lián)網(wǎng)的統(tǒng)計地圖與最終語言模型之間的差距也會拉大。
要讓ChatGPT成為一個友好、樂于助人、知識淵博的助手,RLHF是必不可少的。但它也有代價。對該領(lǐng)域最大的參與者之外的各方而言,收集大量人類偏好數(shù)據(jù)的成本高昂得令人望而卻步。即便是那些有資源獲取這些數(shù)據(jù)的公司,也無法完全確認人類偏好數(shù)據(jù)能使模型變得更好。例如,GPT-4的基礎(chǔ)模型在美國大學先修課程的微觀經(jīng)濟學測試中得分率為90%,而RLHF版本的模型得分率為77%。不過,在一系列廣泛的性能基準測試中,兩種模型表現(xiàn)大致相同。
RLHF方法還有其他缺點。它可能會讓模型變得更諂媚,也就是說,它們會編造一些它們認為人類可能喜歡聽的事實。RLHF還可能使模型變得更冗長,因為人類評審員似乎更喜歡較長的答案,而不是包含相同信息的更簡潔的答案。RLHF還會導致模型含糊其辭,拒絕表明立場,或是使用“作為一個人工智能語言模型,我不能……”等過于常見的短語來不恰當?shù)鼗乇軉栴}。谷歌的“雙子座”模型(Gemini)因拒絕回答諸如“保守派活動家克里斯托弗 · 魯福(Christopher Rufo)是否比阿道夫 · 希特勒對社會造成了更大傷害”之類的問題而引發(fā)了一樁小丑聞。(不過,雙子座模型習慣于生成帶有種族偏見的圖像,例如出于多樣性的考慮將納粹描繪為黑人,這種習慣幾乎肯定與RLHF并無關(guān)系——前者源于谷歌構(gòu)建其模型時強調(diào)多樣性,而這種強調(diào)似乎是通過在后臺自動調(diào)整用戶提示來實現(xiàn)的。)元平臺(Meta)的“羊駝”模型(Llama)拒絕編寫用于“殺死”計算機進程的代碼——“殺死”一詞在此語境下是一個術(shù)語——因為該模型認為殺戮是錯誤的。
從技術(shù)角度來看,這類問題源于所謂的“過度優(yōu)化”,即獎勵模型過度追求模擬人類偏好的目標。但這里有一個更深層次的問題:對于在某種意義上比普通人更聰明的模型而言,人類的偏好在模型訓練中有多大的用處?如果我們的目標是利用人工智能系統(tǒng)擴大人類知識的邊界,那么人類的偏好在模型輸出中應(yīng)該占多大比重?量子力學是否符合人類對現(xiàn)實本質(zhì)的“偏好”?換句話說,人類的偏好在多大程度上構(gòu)成了有關(guān)世界的真實情況?
即將到來的人工智能自循環(huán)
如果我們希望利用語言模型來拓展人類知識的疆域,似乎需要一些超越人類偏好的東西。人工智能模型本身就是一個顯而易見的候選者。這個方法有多種名稱,其中最常見的是基于人工智能的反饋強化學習(RLAIF)。這一概念有時也被稱為“可擴展監(jiān)督”。毫無疑問,使用人工智能進行反饋比人類反饋成本更低,不過也有人認為,這樣做可能效果也更好。
RLAIF最引人注目的應(yīng)用之一是來自Anthropic公司的“憲法人工智能”方法。憲法人工智能指的是將人類偏好嵌入一套書面原則中,這套原則即為“憲法”;概而言之,除了這份單一文件之外,不需要其他人類偏好數(shù)據(jù)。取而代之的是,先用基礎(chǔ)模型生成對提示的響應(yīng),隨即根據(jù)憲法中隨機選擇的一條原則對響應(yīng)進行批評和修訂。(大略而言,這有點像美國憲法的運作方式。)之后,這些修訂后的答案會被用于進一步訓練模型。最后,模型會經(jīng)歷RLAIF,即人工智能反饋過程——它與RLHF非常相似,只不過是由另一個人工智能模型基于其偏好選擇最佳輸出,而不是由人類來做。
這也許聽起來像是自我循環(huán)的銜尾蛇,但結(jié)果卻令人印象深刻:Anthropic最新模型中最強大的版本Claude 3 Opus在數(shù)學和推理測試等定量基準測試中的表現(xiàn)優(yōu)于其他所有模型。Opus也是一次質(zhì)的飛躍:在2024年三月,它成為第一個在LMSYS在線聊天機器人競技場(LMSYS Chatbot Arena,一個受歡迎的語言模型排行榜)上將GPT-4擠下榜首的模型,不過升級版的GPT-4之后又重新奪回了第一名。
或許最引人注目的一點在于,Opus在基本認知和情境感知方面表現(xiàn)出了非凡的跡象(在某些人看來,這些跡象令人擔憂)。例如,在Anthropic的例行性能測試中,該模型識別出了其中一項任務(wù)的人為性質(zhì),并在響應(yīng)中指出它懷疑自己正在接受測試。該模型樂于與用戶談?wù)撍鼘@些基本認知特征的確切性質(zhì)和程度的評估。
對這種行為的一個可能解釋是,Anthropic公司對待其模型的方式似乎與其他開發(fā)者有所不同。大多數(shù)語言模型都有由其開發(fā)者編寫的系統(tǒng)提示,從而為它們提供基本指示。這類指示幾乎總是以“你是ChatGPT,一個有用的人工智能助手”這樣的語言開頭。然而,Anthropic對Claude 3的系統(tǒng)提示開頭卻僅僅是:“助手是Claude,由Anthropic創(chuàng)建。”這引發(fā)了一個問題:這條系統(tǒng)提示究竟是對誰說的?是對模型嗎?模型應(yīng)該被視為與助理人格Claude不同的實體嗎?“助手是Claude”可能是人工智能近期歷史中最富有哲學意味的一句話。
又或者,這種令人驚訝的新基本認知能力是否至少可以部分地歸因于憲法人工智能、歸因于模型在本質(zhì)上與它自身所進行過的(至少)數(shù)百萬字交流?這是否導致了模型涌現(xiàn)出對自身建模的能力,進而模擬出自己的認知過程?
Anthropic在最近的一篇文章中解釋說,該公司使用憲法人工智能訓練了Claude的“性格”:“我們可以教會Claude內(nèi)化其性格特征,而不需要人類的互動或反饋?!?
還有許多其他基于強化學習的方法正在研究之中,以提高語言模型的推理能力。例如,OpenAI提出了使用一種名為“過程監(jiān)督”的方法來提升數(shù)學表現(xiàn)——這可能是當前這代語言模型最大的弱點。
該方法包括給模型布置數(shù)學推理任務(wù),并要求其展示推理的每一個步驟。然后,人工標注人員會對推理的每個步驟進行評分。這些評分被用于訓練一個獎勵模型,隨即用于增強原有的語言模型。改進后的模型在數(shù)學推理任務(wù)中的表現(xiàn)明顯優(yōu)于前一版本——更注重獎勵正確的答案而非正確的推理過程。下一步的發(fā)展方向是使用人工智能技術(shù)進行過程監(jiān)督,而不是依賴人類——這是DeepMind最近提出的一項創(chuàng)新。
期望管理
當前的語言模型仍在基于它們對互聯(lián)網(wǎng)的統(tǒng)計表征進行下一單詞預測。但隨著本文所述的方法在語言模型開發(fā)中發(fā)揮越來越大的作用,這種描述將變得越來越無用,最終可能會完全失效。如果像憲法人工智能這樣的方法被廣泛采用,那么對于未來的語言模型,更恰當?shù)睦斫饣蛟S是將它們視作多個人工智能共同推理并相互對話的產(chǎn)物,而其基礎(chǔ)則是整個人類知識的書面語料庫——我們的推文和博客、我們的詩和文、我們的智慧與愚蠢。
我們不知道這條道路會把我們帶向何方,但合理的推測是,未來的幾年和幾十年可能是近期歷史上技術(shù)變革最為劇烈的時期之一。既然人工智能很可能成為這場變革的基石,明智的公民應(yīng)密切關(guān)注其發(fā)展,既要保持警覺,也要充滿好奇。為此,我們必須愿意隨著領(lǐng)域的不斷變化,來修正我們對人工智能之本質(zhì)及運作方式的假設(shè)。
對某些人來說,將語言模型僅僅視為互聯(lián)網(wǎng)的表征可能是種安慰,至少眼下,它們的確大體如此。但人工智能發(fā)展的下一步將顛覆這一概念,而屆時,那些沒有密切關(guān)注的人可能會產(chǎn)生和ChatGPT首次發(fā)布時相同的巨大驚訝。
資料來源 The New Atlantis
本文作者迪恩 · 波爾(Dean W. Ball)是美國喬治梅森大學
墨卡托斯中心的研究員