嚴昊,劉禹良*,金連文,白翔
1.華中科技大學(xué)人工智能與自動化學(xué)院,武漢 430074;2.華南理工大學(xué)電子與信息學(xué)院,廣州 510640
自2022 年11 月OpenAI 公布了ChatGPT 以來,生成式人工智能的發(fā)展迎來了爆發(fā)式的增長。在過去的數(shù)月里,生成式人工智能不斷突破邊界,實現(xiàn)了從文本、圖像到音頻等多領(lǐng)域的自動化和智能化生成。不僅如此,得益于相關(guān)技術(shù)的飛速發(fā)展,目前市面上大模型(large language model,LLM)的智能程度已有了質(zhì)的飛躍。這些產(chǎn)品中性能最佳的就是GPT-4(generative pre-training transformer-4),它 是OpenAI 在ChatGPT 基礎(chǔ)上進一步優(yōu)化和擴展的最新模型,Dimitris 教授只通過兩段提示,GPT-4 就給出了與DeepMind 發(fā)表在Nature 的AlphaDev(Mankowitz 等,2023)發(fā)表的排序算法一致的結(jié)果。GPT-4 的驚人表現(xiàn)引發(fā)了全球人工智能(artificial intelligence,AI)領(lǐng)域的強烈反響,也促使眾多學(xué)者投入到LLM的相關(guān)研究中。
LLM 的發(fā)展歷史離不開Google 和OpenAI 的貢獻。作為AI領(lǐng)域的引領(lǐng)者,Google與OpenAI之間展開了全球范圍內(nèi)的激烈競爭。二者都擁有深厚的AI 研究基礎(chǔ)以及海量的數(shù)據(jù)資源,使得他們在該領(lǐng)域具有壓倒性的優(yōu)勢。Google 最早提出了Transformer結(jié)構(gòu)(Vaswani等,2017)作為LLM的基礎(chǔ)構(gòu)成單元。隨后,LLM 逐漸往encode-only、encode-decode和decode-only 等3 個方向演化。Google 公司聚焦于encode-only 與encode-decode 結(jié)構(gòu),并且在該階段遙遙領(lǐng)先,提出的BERT(bidirectional encoder representations from transformers)模 型(Devlin 等,2019)幾乎統(tǒng)治了所有自然語言處理領(lǐng)域。2022 年后,研究開始逐漸聚焦于LLM 的生成能力(Yang 等,2023a)。由于采用的位置掩碼方法不利于文本生成,encode-only結(jié)構(gòu)模型生成能力的缺陷開始被廣泛討論并大幅度放大(Tay 等,2023)。相比之下,decode-only結(jié)構(gòu)的GPT系列模型在生成能力方面表現(xiàn)出了encode-only 結(jié)構(gòu)模型所不具備的優(yōu)勢。由OpenAI發(fā)布的decode-only模型ChatGPT,在自然語言處理領(lǐng)域展現(xiàn)了較高的水平,并且在多個推理任務(wù)上的性能超越了BERT模型(Zhong等,2023)。decodeonly結(jié)構(gòu)模型逐漸主導(dǎo)了LLM的發(fā)展。為了在LLM競爭賽道上追趕OpenAI,將專注LLM的Blue Shift整體移入Deepmind 后,Google 合并了兩個旗下的頂級AI團隊Google Brain和DeepMind。同時,發(fā)布了對標ChatGPT 和GPT-4 的競品Bard 和PaLM-2。ChatGPT的出現(xiàn),不僅在國外引發(fā)了AI領(lǐng)域的變革,也在國內(nèi)掀起了一股熱潮。國內(nèi)互聯(lián)網(wǎng)巨頭和高校紛紛涌入這一賽道,發(fā)布各自的類ChatGPT 模型:阿里的通義大模型、百度的文心大模型、商湯的SenseChat和面壁智能的Luca等。這些產(chǎn)品的問世依賴于其發(fā)布者背后龐大的私有數(shù)據(jù)庫:阿里的電商物流數(shù)據(jù)、百度的內(nèi)容檢索數(shù)據(jù)、商湯科技公司的大規(guī)模商業(yè)數(shù)據(jù)以及知乎的問答數(shù)據(jù)。不同于國外致力于開發(fā)更為智能的語言模型,國內(nèi)更加關(guān)注產(chǎn)業(yè)鏈的整合和布局,在芯片、模型底座、預(yù)訓(xùn)練LLM、智能應(yīng)用等多個領(lǐng)域同時發(fā)力,以實現(xiàn)基礎(chǔ)研究與產(chǎn)品應(yīng)用的平衡發(fā)展。
在各大公司進行激烈角逐的同時,開源模型作為一匹黑馬悄然崛起。開源模型除了在質(zhì)量方面存在急速縮小的劣勢外,還具有訓(xùn)練快、私密性強、功能完善、維護成本低、技術(shù)迭代快等優(yōu)勢。而LLaMA(Touvron 等,2023)正是其中的佼佼者。開源模型的發(fā)展受益于各種參數(shù)優(yōu)化技術(shù)和調(diào)優(yōu)指令集構(gòu)建技術(shù),這些技術(shù)在提高模型質(zhì)量的同時降低了模型構(gòu)建的成本。自從2023年3月初Meta公開LLaMA 后,開源模型的崛起使得訓(xùn)練和實驗的門檻大幅度降低,幾乎所有機構(gòu)和個體研究者都能夠參與其中,甚至一人一臺筆記本電腦即可部署模型。其結(jié)果就是高質(zhì)量的開源模型吸引了大量的人才與機構(gòu),加速了LLM 的產(chǎn)生和迭代,反過來也促進了開源LLM 發(fā)布公司的技術(shù)和產(chǎn)品更新,且這種循環(huán)正不斷重復(fù)。目前的現(xiàn)狀是大型AI 公司發(fā)布的產(chǎn)品處于領(lǐng)先地位,而眾多開源模型在不斷追趕,并快速縮小差距。這也預(yù)示著生成式人工智能領(lǐng)域開源開放是未來,協(xié)同創(chuàng)新是趨勢,人人都可積極參與推進相關(guān)研究。因此生成式人工智正持續(xù)成為全球熱議的話題。
本文對LLM 進行了深度剖析,評估后續(xù)數(shù)月內(nèi)相關(guān)的輿論影響力和應(yīng)用;歸納GPT 系列產(chǎn)品在性能方面的提升;簡要分析相關(guān)技術(shù)原理;評估當(dāng)前仍存在的局限,并討論各個行業(yè)潛在的應(yīng)用前景以及未來可能的研究方向。
ChatGPT 作為一種基于對話式互動的生成式人工智能產(chǎn)品,自發(fā)布短短兩月后,活躍用戶數(shù)已達1 億,訪問量持續(xù)飆升。據(jù)統(tǒng)計,其2023 年4 月份全球訪問量達17.6 億次,占谷歌的2%,占百度的60%左右,已超過DuckDuckGo等其他國際搜索引擎。
相關(guān)技術(shù)的持續(xù)發(fā)展也引發(fā)了搜索引擎革命。據(jù)SimilarWeb統(tǒng)計,微軟旗下必應(yīng)在2023年2月份宣布集成ChatGPT能力后,訪問量增漲9%,而同時谷歌下降了3.1%。而在移動端,據(jù)data.ai統(tǒng)計,必應(yīng)APP下載量達到了之前的8 倍,而谷歌APP 下載量下降2%。DeepMind聯(lián)合創(chuàng)始人Mustafa Suleyman表示,互聯(lián)網(wǎng)即將發(fā)生根本性變革,傳統(tǒng)搜索引擎將在10 年內(nèi)消失,對話式互動產(chǎn)品將引發(fā)新一輪技術(shù)浪潮。
資本熱潮開始不斷涌入AI 相關(guān)領(lǐng)域:相比于1 月份,2023 年4 月份全球范圍內(nèi)資本對于AI 的投入次數(shù)大約翻了3.3 倍、發(fā)布的產(chǎn)品數(shù)量大約翻了6.5倍;OpenAI于4月底完成新一輪約3 億美元的融資,其市值介于270 億~290 億美元之間;美國著名證券公司W(wǎng)edbush 發(fā)布的一份分析報告顯示,隨著微軟將ChatGPT 和生成式AI 功能整合在產(chǎn)品矩陣中,2023年其市值預(yù)計將飆升3 000 億美元。
此外,生成式人工智能相關(guān)技術(shù)及產(chǎn)品的風(fēng)靡與推廣,國內(nèi)外政府對其也給予了不同程度的重視和支持。美國政府對于生成式人工智能相關(guān)產(chǎn)品和技術(shù)采取了較為寬松的態(tài)度,主要關(guān)注其倫理道德方面的問題,以確保該技術(shù)的發(fā)展符合國家法律和倫理標準,并保證美國在全球科技競爭中處于領(lǐng)先地位。日本政府致力于推動生成式人工智能的發(fā)展和普及,橫須賀市則是率先實踐的地區(qū),宣布自2023 年5 月20 日起采用ChatGPT 作為公務(wù)輔助工具,涉及會議紀要、政策規(guī)劃等方面。相比之下,歐盟國家的態(tài)度則更為保守和謹慎,關(guān)切ChatGPT 所帶來的數(shù)據(jù)隱私問題。歐洲數(shù)據(jù)保護委員會認為ChatGPT 利用互聯(lián)網(wǎng)信息與用戶個人數(shù)據(jù)進行訓(xùn)練和迭代不符合條例。2023 年5 月11 日,歐洲議會的兩個委員會通過立法,明確禁止“對人類安全構(gòu)成不可容忍風(fēng)險的人工智能系統(tǒng)”。中國政府高度重視AI 的發(fā)展,早在2017 年頒布實施了發(fā)展規(guī)劃,部署重大項目,建設(shè)開放平臺,擴展應(yīng)用場景,為國產(chǎn)LLM 的發(fā)展提供有利條件。同時,也加強了對生成式人工智能的監(jiān)管,于2023 年4 月發(fā)布國內(nèi)首份專門針對AIGC的監(jiān)管文件《生成式人工智能服務(wù)管理辦法(征求意見稿)》,提出“利用生成式人工智能生成的內(nèi)容應(yīng)當(dāng)真實準確”等多項要求。
經(jīng)過數(shù)月的迭代和發(fā)展,LLM 已經(jīng)不再是OpenAI 的ChatGPT 一家獨大。目前已經(jīng)出現(xiàn)了在通用LLM的基礎(chǔ)上,針對不同領(lǐng)域構(gòu)建更加具體的模型:
1)教育領(lǐng)域。目前運用于教育領(lǐng)域的模型有訊飛星火、MathGPT 等。該類模型通常由通用LLM經(jīng)過相關(guān)教學(xué)知識的訓(xùn)練微調(diào),可以幫助學(xué)生和老師提高學(xué)習(xí)與教學(xué)的效率和質(zhì)量,豐富教育內(nèi)容和形式,拓展教育場景和對象,為教育領(lǐng)域帶來了新的可能性和機遇。
2)醫(yī)療領(lǐng)域。目前運用于醫(yī)療領(lǐng)域相關(guān)的模型有SurgicalGPT(Seenivasan 等,2023)、ChatCAD(Wang 等,2023a)和Med-PaLM(Singhal 等,2023)等。該類模型通常經(jīng)過醫(yī)療領(lǐng)域知識微調(diào)后形成專業(yè)的醫(yī)學(xué)LLM。它們能夠?qū)崿F(xiàn)手術(shù)問答、輔助診斷、個性化治療方案設(shè)計以及藥物推薦等功能。
3)金融領(lǐng)域。目前運用于金融領(lǐng)域相關(guān)的LLM 有軒轅大模型、BloombergGPT(Wu 等,2023a)等。該領(lǐng)域的LLM 需要具備股票、基金和保險等復(fù)雜知識,能夠有效提高從業(yè)人員的專業(yè)水平和服務(wù)能力,同時大幅度降低運營成本。
4)法律領(lǐng)域。目前運用于法律領(lǐng)域的LLM 有LawGPT、ChatLaw 等。該領(lǐng)域的類ChatGPT 需要了解專業(yè)的法律詞匯,具備理解法律語義的能力。它們能夠成為從業(yè)者的智能助理,幫助撰寫法律文件、法律文件分析、查詢案例和法律條款。
5)編碼領(lǐng)域。目前運用于協(xié)助編碼的LLM 有PromptAppGPT、HuggingGPT(Shen 等,2023)等。該領(lǐng)域的類ChatGPT 模型需要具備理解不同類型的編程語言的能力和更加強大的邏輯推理能力。它們能夠替程序員閱讀或編寫代碼,并添加詳細的注釋。
6)論文寫作領(lǐng)域。目前運用于該領(lǐng)域的LLM有ChatGPT Academic。該領(lǐng)域的類ChatGPT 模型需要具有更強大的語言理解與寫作能力以及更加專業(yè)的學(xué)術(shù)知識,能夠協(xié)助用戶潤色文章、快速閱讀和摘要生成等。值得注意的是,盡管大多數(shù)經(jīng)過LLM 本身就具有較強的閱讀和寫作能力,但它們并不能滿足專業(yè)學(xué)術(shù)寫作任務(wù)的要求。
應(yīng)用于不同領(lǐng)域LLMs 的項目鏈接如表1 所示。除此之外,經(jīng)過專業(yè)知識微調(diào)訓(xùn)練的LLM 還可以應(yīng)用于諸多科研領(lǐng)域,例如,物理、化學(xué)、哲學(xué)以及計算機領(lǐng)域。除了幫助文獻資料查閱和總結(jié),撰寫學(xué)術(shù)性郵件,它們有時還能給予科研人員創(chuàng)新的靈感或者參考意見??梢钥闯觯?jīng)過數(shù)月的技術(shù)沉淀,ChatGPT 相關(guān)技術(shù)已經(jīng)從各領(lǐng)域中的新鮮事物進化到能夠初步走入部分領(lǐng)域并且協(xié)助工作的程度。
表1 不同領(lǐng)域LLMs及其項目/論文鏈接Table 1 Projects or papers links of LLMs in different fields
相比于先前的GPT版本,GPT-4在以下7個方面的性能有了大幅度的提升:
1)專業(yè)知識。GPT-4 擁有更豐富的專業(yè)知識,這使得它能夠在各類考核中更有優(yōu)勢。例如,在法律執(zhí)業(yè)資格考試中,GPT-4 的成績位于前10%的水平,而GPT-3.5 則僅位于前90%。在其他的專業(yè)考試中,GPT-4 可以達到與人類相當(dāng)?shù)乃?,但GPT-3.5則表現(xiàn)不佳。
2)多模態(tài)能力。GPT-4 擁有初步的多模態(tài)能力。雖然GPT-4 和GPT-3.5 在訓(xùn)練過程中都未涉及圖像,但GPT-4 能夠較為準確地掌握了一些基本圖像的概念。作為一個多模態(tài)模型,GPT-4 可以接收圖像和文本作為輸入,并輸出文本。這使得GPT-4可以應(yīng)對更復(fù)雜且含有視覺信息的任務(wù),如圖像描述、圖像問答、圖像生成文本等。
3)推理能力。GPT-4具有更強的推理能力。在多數(shù)的推理任務(wù)中,如演繹、歸納、溯因、類比和因果等,GPT-4 相較于GPT-3.5 都展現(xiàn)出了顯著優(yōu)勢,各項指標均有提高。GPT-4 通過推理得出的答案更加精確和嚴密。
4)編程能力。GPT-4 的編程能力有了顯著提升。GPT-4 和GPT-3.5 在代碼生成能力上相對于其他LLM 具有巨大的優(yōu)勢,而GPT-4 的代碼能力又比GPT-3.5有大幅提高。同時,GPT-4還具有更高的穩(wěn)定性。
5)可信度。GPT-4能夠生成更加符合事實的準確陳述。相比于GPT3.5,GPT-4 減少了在回答問題時胡言亂語的可能性。此外,GPT-4 能夠更加注重對話中的細節(jié)邏輯,基于對話中的潛藏邏輯,生成更合理可信的回答。
6)安全性。GPT-4 在安全性上有了更大提升。在一些敏感和不允許的prompts上,對一些不該回答的內(nèi)容也能更好地檢測出來。GPT-4 在敏感問題上的不正確回答比例相比GPT-3.5的不正確回答比例明顯減少。
7)遷移能力。GPT-4具有更強的遷移能力。在僅使用few-shot 的情況下,GPT-4 在多數(shù)的NLP 任務(wù)評估中超越了現(xiàn)有SOTA,而GPT-3.5則只能接近現(xiàn)有SOTA。同時GPT-4 在多個評測基準中體現(xiàn)出了更全面的能力。
然而,值得注意的是,盡管GPT-4在上述各方面的性能都有了顯著提升,但是,它仍然不是完美的。例如仍然存在產(chǎn)生錯覺、社會偏見和對抗性提示等問題。因此,在使用模型的過程中,仍需要進一步的驗證與核對。
GPT-4 的卓越表現(xiàn)和優(yōu)秀的生成能力迅速引起了社會關(guān)注,各大企業(yè)和學(xué)術(shù)機構(gòu)紛紛投入了大量的資源開展了相關(guān)研究。
如圖1 所示,要獲得一個類ChatGPT 模型,首先需要在大量無監(jiān)督的數(shù)據(jù)集上進行預(yù)訓(xùn)練,得到一個基礎(chǔ)模型。然后,通過指令微調(diào)(instruction finetuning,IFT)、基于人類反饋的強化學(xué)習(xí)(reinforcement learning from human feedback,RLHF)和思維鏈(chain-of-thought,CoT)等技術(shù)(劉禹良 等,2023),訓(xùn)練出一個助理模型。需要說明的是,雖然基礎(chǔ)模型可以回答問題,但它所給出的回答并不可靠,因此需要通過監(jiān)督微調(diào)來優(yōu)化生成回復(fù)和文本理解的能力。因此,市面上發(fā)布的類ChatGPT 模型大多屬于助理模型。
圖1 類ChatGPT模型構(gòu)建流程Fig.1 Construction of LLMs similar to chatGPT
國內(nèi)外類ChatGPT模型的現(xiàn)狀如表2所示,OpenAI 和Google 分別采用了不同的策略來提升GPT 系列模型的性能。OpenAI 通過增加LLM 參數(shù)量和預(yù)訓(xùn)練數(shù)據(jù)量來提升GPT系列模型的知識覆蓋面和問題解決能力,Google 則更加關(guān)注模型的結(jié)構(gòu)效率和遷移能力,使得PaLM2 在推理速度、參數(shù)數(shù)量和成本方面具有優(yōu)勢。目前,這兩家公司均未開源。然而,從長期來看,各類開源模型憑借其免費、高質(zhì)量、易遷移和低維護等特點,在與閉源LLM 的競爭中展現(xiàn)出一定的優(yōu)勢。
表2 類ChatGPT大模型相關(guān)工作Table 2 Related work of LLMs similar to ChatGPT
高質(zhì)量的中文數(shù)據(jù)集與中文預(yù)訓(xùn)練LLM 也是國內(nèi)學(xué)者關(guān)注的重要問題。現(xiàn)有高性能的開源LLM都以英文為主,這樣訓(xùn)練出的LLM 具有英文思維的傾向。當(dāng)這些模型應(yīng)用于非英語語言時,模型內(nèi)部可能需要先將輸入轉(zhuǎn)換成英語才能進行理解和生成任務(wù),將降低模型的理解和生成能力。單純將英文模型應(yīng)用于其他語言時,無法發(fā)揮其最佳性能。因此,本文認為,針對其他語言特別是中文模型的研究具有重要意義。
LLaMA 是Meta 于2023 年2 月發(fā)布的模型集合,包含7 B、13 B、33 B 和65 B 共4 個版本。其中LLaMA-13 B 在多數(shù)數(shù)據(jù)集上的表現(xiàn)超越了GPT-3并且使用開源語料作為訓(xùn)練語料。而羊駝家族是指一些基于LLaMA模型結(jié)合2.1節(jié)中涉及方法構(gòu)建的模型,以下針對Alpace、Vicuna、Koala 和Baize 4 個羊駝家族成員進行簡要介紹。
1)Alpaca:Alpaca 由斯坦福大學(xué)于2023 年3 月發(fā)布。該模型的訓(xùn)練過程大體上分為基于Selfinstruct(Wang 等,2023b)方法自動構(gòu)建調(diào)優(yōu)數(shù)據(jù)集并基于構(gòu)建的調(diào)優(yōu)數(shù)據(jù)集監(jiān)督微調(diào)LLaMA。它的優(yōu)勢在于其極低的微調(diào)成本以及極少的資源消耗。更重要的是,作為羊駝家族早期成員,它為開源LLM研究提供了一個低門檻的平臺,吸引了更多的研究者參與其中。
2)Vicuna:Vicuna由伯克利大學(xué)、卡內(nèi)基梅隆大學(xué)等機構(gòu)的研究團隊于2023 年4 月聯(lián)合發(fā)布。Vicuna 調(diào)優(yōu)數(shù)據(jù)集從ShareGPT 收集并且篩選得來。此外,模型在Alpaca的基礎(chǔ)上,改進了訓(xùn)練損失函數(shù)以適應(yīng)多輪對話場景,增加了最大上下文長度以提升長文本理解能力,以及利用SkyPilot服務(wù)部署了具有自動恢復(fù)功能的Spot 實例以進一步降低計算成本。相較于Alpaca,Vicuna 的性能有了顯著的性能提升,并且更加接近ChatGPT模型的水平。
3)Koala:Koala 由伯克利人工智能研究院于2023年4月發(fā)布。他們專注于構(gòu)建小規(guī)模高質(zhì)量的數(shù)據(jù)集,其調(diào)優(yōu)數(shù)據(jù)集來源于經(jīng)過知識蒸餾的公開對話數(shù)據(jù)集以及一系列開源數(shù)據(jù)集。Koala 的意義在于強調(diào)了高質(zhì)量數(shù)據(jù)集對于對話模型性能的影響,甚至能夠在一定程度上彌補開源模型參數(shù)規(guī)模小的缺陷。
4)Baize:Baize 由加州大學(xué)洛杉磯分校、中山大學(xué)、微軟于2023 年4 月聯(lián)合發(fā)布。他們提出一種名為Self-Chat 的ChatGPT 對話數(shù)據(jù)自動收集的方法,批量生成高質(zhì)量多輪對話數(shù)據(jù)集用于調(diào)優(yōu)。同時,在訓(xùn)練階段應(yīng)用了低秩適配(low-rank adaptation,LoRA)方法(Hu等,2022)進一步降低了微調(diào)成本。
羊駝家族成員們的訓(xùn)練流程大體相當(dāng),其區(qū)別主要在于調(diào)優(yōu)數(shù)據(jù)集的構(gòu)成和參數(shù)優(yōu)化方法。因此以下給出部分常用的參數(shù)優(yōu)化方法以及調(diào)優(yōu)數(shù)據(jù)集構(gòu)成方法簡介。
1)參數(shù)優(yōu)化的LoRA 技術(shù)。LoRA 技術(shù)是由微軟在2021 年10 月提出,旨在加速LLM 的訓(xùn)練并降低其微調(diào)的成本。LoRA 對于初始的預(yù)訓(xùn)練權(quán)重矩陣W∈Rd×d引入兩個秩分解矩陣A∈Rr×d和B∈Rd×r替代現(xiàn)有權(quán)重進行微調(diào),其中d為預(yù)訓(xùn)練權(quán)重的輸出維度,而內(nèi)在秩r遠小于d,其值通常根據(jù)任務(wù)需求預(yù)先設(shè)定。Hu 等人(2022)針對Transformer 中的權(quán)重矩陣,提出了兩種不同的低秩適配方案,分別適用于調(diào)整兩種類型和一種類型的注意力機制的情況,其中r=4 和r=8 分別為最優(yōu)選擇。參數(shù)更新過程可視為W+ΔW=W+BA,其中,A和B分別使用隨機高斯和零初始化。在訓(xùn)練過程中W保持不變。LoRA 將原本需要微調(diào)的權(quán)重矩陣W轉(zhuǎn)換成了A和B,顯著減少了參數(shù)量。同時通過更換不同的重參數(shù)化組合,使得該技術(shù)能夠靈活地在不同下游任務(wù)中應(yīng)用。目前除了Baize,LoRA 技術(shù)已應(yīng)用于Alpace(https://github.com/tloen/alpaca-lora)和Vicuna(https://github.com/jackaduma/Vicuna-LoRARLHF-PyTorch)模型。
2)調(diào)優(yōu)指令數(shù)據(jù)集構(gòu)造。目前主流的調(diào)優(yōu)指令數(shù)據(jù)集構(gòu)造方法除了人工編寫指令外,還有Selfinstruct 和Automatic prompt engineer(Zhou 等,2023)兩種自動化方法。Self-instruct方法主要包括指令生成、指令分類、實例生成和數(shù)據(jù)過濾4 個步驟,利用人工編寫的種子指令和LLM 的生成能力、上下文理解能力以及指令理解能力,擴充指令數(shù)量和類型,生成完整的數(shù)據(jù)實例,并過濾掉低質(zhì)量的數(shù)據(jù)。Automatic prompt engineer 方法主要包括指令候選集生成、指令評估和指令變體生成3個步驟,利用LLM 和現(xiàn)有的輸入輸出對,逆向生成和選擇最優(yōu)的prompt指令,并利用LLM 生成相似變體增加指令的多樣性。二者都是基于現(xiàn)有的LLM 生成高質(zhì)量調(diào)優(yōu)指令數(shù)據(jù)集,其區(qū)別在于,Self-instruct方法是基于多樣的種子指令,利用LLM 的多任務(wù)學(xué)習(xí)能力,以生成更豐富的指令樣本。而Automatic prompt engineer 方法是基于輸入輸出對,利用LLM 的逆向推理能力,以生成和挑選最優(yōu)的prompt指令。
羊駝家族作為開源LLM 的代表,其快速發(fā)展展示了開源LLM 的可行性和潛力。而其中涉及的參數(shù)優(yōu)化技術(shù)和調(diào)優(yōu)數(shù)據(jù)集構(gòu)造技術(shù)有效地降低了LLM 的訓(xùn)練成本和計算資源消耗,同時提升了模型的多樣性和泛化能力。因此,羊駝家族及相關(guān)技術(shù)對于LLM產(chǎn)品普及與技術(shù)迭代具有重要意義。
多模態(tài)技術(shù)是生成式人工智能領(lǐng)域中的一種關(guān)鍵技術(shù),能夠執(zhí)行跨模態(tài)生成任務(wù),例如根據(jù)文本生成圖像、根據(jù)圖像生成文本等。隨著LLM 的發(fā)展,多模態(tài)技術(shù)也取得了重大突破。以GPT-4 為例,它可以根據(jù)圖像生成不同類型的文本,如描述、解釋、總結(jié)和問答等,也可以根據(jù)文本生成或編輯圖像,完成創(chuàng)意和技術(shù)寫作任務(wù)。但是目前GPT-4模型和技術(shù)細節(jié)還未被公布,因此許多學(xué)者嘗試構(gòu)建一個類似GPT-4的多模態(tài)大模型。本文總結(jié)了目前主流的圖像—文本的多模態(tài)技術(shù)實現(xiàn)方法,大體上可劃分為3類:
1)訓(xùn)練中間層以對齊視覺模塊和語言模型。該類方法首先預(yù)訓(xùn)練視覺模塊,將這些視覺模塊與LLM 凍結(jié),然后在視覺模塊與LLM 之間插入可訓(xùn)練的中間層,構(gòu)建多模態(tài)模型。接著在大規(guī)模的圖像—文本對數(shù)據(jù)集上對多模態(tài)模型進行微調(diào),更新中間層的可訓(xùn)練參數(shù),實現(xiàn)視覺模塊與LLM 的對齊,完成跨模態(tài)任務(wù)。該類方法的大體流程如圖2 所示,F(xiàn)lamingo(Alayrac 等,2022)、BLIP2(Li 等,2023)和ImageBind(Girdhar 等,2023)都使用該類方法構(gòu)成多模態(tài)大模型。
圖2 訓(xùn)練中間層對齊視覺模塊和大模型Fig.2 Training adaptation layers to align visual modules and language models
2)多模態(tài)指令微調(diào)。該類方法在模態(tài)對齊的基礎(chǔ)上,進一步進行指令微調(diào)訓(xùn)練,用多模態(tài)指令數(shù)據(jù)集對視覺編碼器等額外結(jié)構(gòu)進行適配,使其能夠與LLM 協(xié)同工作,從而達到與GPT-4 類似的多模態(tài)能力。這類模型的訓(xùn)練通常包含兩個階段:第1 階段利用大規(guī)模的圖像-文本對數(shù)據(jù)對模型進行預(yù)訓(xùn)練,學(xué)習(xí)視覺和語言模態(tài)間的對齊;第2 個階段通過多模態(tài)指令數(shù)據(jù)集對模型進行微調(diào),讓模型獲得多模態(tài)指令跟隨能力。該類方法的大體流程如圖3 所示,MiniGPT4(Zhu等,2023)、LLaVA(Liu等,2023a)和mPLUG-Owl(Ye 等,2023)都使用該類方法構(gòu)成多模態(tài)大模型。
圖3 多模態(tài)指令微調(diào)Fig.3 Multimodal instruction fine-tuning
3)LLM 作為理解中樞。該類方法利用LLM 實現(xiàn)多模態(tài)處理,它將多模態(tài)數(shù)據(jù)轉(zhuǎn)化為文本數(shù)據(jù)輸入LLM,作為與用戶交流的理解中樞,LLM根據(jù)用戶需求調(diào)用其它視覺基礎(chǔ)模型,從而達到跨模態(tài)輸入輸出和完成多種任務(wù)的效果。該類方法的大體流程如圖4 所示。目前Visual ChatGPT(Wu 等,2023b),MM-REACT(Yang 等,2023b)采用這種方式構(gòu)成多模態(tài)大模型。
目前,多模態(tài)大模型技術(shù)尚處于初級階段,面臨著訓(xùn)練數(shù)據(jù)不足、多模態(tài)信息表示不一致和對齊算法不精確等挑戰(zhàn)。然而,多模態(tài)大模型具有融合多種感知維度的信息的能力,更接近人類認知世界的方式,是大模型未來的重要發(fā)展方向之一。
為了有效衡量和優(yōu)化LLM 的性能和泛化能力,并揭示其優(yōu)勢和局限,建立合理的LLM 評價基準具有重要意義。現(xiàn)階段,主流的LLM 評估方法可劃分為3類:
1)人工評估?;谌斯さ脑u估方法通常需要邀請大量的志愿者或相關(guān)領(lǐng)域?qū)<覍LM 的生成進行主觀評估和打分。以專業(yè)領(lǐng)域知識評估為例(Guo 等,2023),首先需要收集不同領(lǐng)域?qū)<腋鶕?jù)該領(lǐng)域?qū)I(yè)問題給出的答案作為參考,然后根據(jù)已有知識與LLM 生成的輸出,主觀評估LLM 專業(yè)領(lǐng)域知識的掌握程度。此外,人工評估還可以運用于評估生成內(nèi)容與人類意愿高度相關(guān)的指標,例如語義一致性、邏輯合理性和文體風(fēng)格等方面。
人工評估方法依賴于人類評估者對生成內(nèi)容的主觀判斷,可以更好地反映生成內(nèi)容的質(zhì)量以及LLM 在不同專業(yè)領(lǐng)域的能力。此外,它還可以靈活適應(yīng)不同的任務(wù)場景。但是,基于人工的評估方法需要耗費大量的時間、金錢和人力。因此,基于人工的評估方法不利于當(dāng)前LLM研究發(fā)展的快速迭代。
2)自動評估。自動評估方法是通過使用標準化的數(shù)據(jù)集和指標來對LLM 進行自動化評估。該類評估方法所采用的綜合評測基準通常涵蓋主流LLM 評估任務(wù),并且可以快速對比不同LLM 在相同任務(wù)下的性能差距。以下介紹兩個具有代表性且在當(dāng)前階段流行的綜合評估基準。
首先是由Berkeley 研究者發(fā)布的MMLU(massive multitask language understanding)評測基準(Hendrycks 等,2021)。MMLU 包含57 個任務(wù),涵蓋了數(shù)學(xué)、歷史、計算機科學(xué)和法律等領(lǐng)域,通過零樣本和少樣本設(shè)置來評估模型蘊含的知識。其次是AI2 提出的ARC(AI2 reasoning challenge)評測基準(Clark 等,2018)。ARC 包含7 787 個來自不同科學(xué)領(lǐng)域的考試問題,根據(jù)難易程度,可以劃分為2 590個問題組成的ARC-Challenge 和5 197 個問題的ARCEasy。這些問題用以評估LLM 在多步推理、語言匹配等多方面的高級能力。在這兩個評測基準中,GPT-4取得了最好的成績,明顯超過其他LLM。
自動評估方法可以快速地對比不同LLM 在相同條件下的性能差異,也可以提供一些可量化和可解釋的結(jié)果。同時,區(qū)別于人工評估方法,該類方法不受主觀因素影響,可重復(fù)性較強。因此,自動評估方法是3 類方法中最廣泛使用的一種。但是,自動評估方法也有一定的缺陷,例如機械化、忽視人類偏好、數(shù)據(jù)集質(zhì)量與覆蓋度無法保證等。
3)其他LLM 評估。除了人工評估和自動評估,利用LLM 本身作為評估器,來比較不同LLM 的輸出,并給出相對的優(yōu)劣判斷也是一種思路。該類方法通常設(shè)定一系列用來評估LLM 綜合性能的開放式問題集合,用以得到LLM 的輸出,并且采用現(xiàn)有先進的LLM 作為評估者,對LLM 的輸出進行標注輸出對比或打分以評估LLM 的綜合性能。以下介紹3種最新的基于其他LLM的評估方法MMBench(Liu等,2023)、AlpacaEval(Dubois 等,2023)和MT-Bench(Zheng等,2023)。
MMBench 是上海人工智能實驗室提出的一種客觀評估大型視覺語言模型不同能力的評估基準。它從模型的感知和推理能力出發(fā),構(gòu)建了3 級能力維度,并采用一種循環(huán)評估策略CircularEval,以提高評估過程的穩(wěn)定性。對于某一具體的評估題目,首先,從多模態(tài)大模型的輸出中提取與選項匹配的內(nèi)容。若匹配失敗,則用ChatGPT 預(yù)測和選項,生成選項標簽。如果仍然無法提取選擇,則用隨機選擇來標記預(yù)測,并添加評論信息。最后使用ChatGPT作為自動評估器,評估多模態(tài)大模型的性能。AlpacaEval 由斯坦福大學(xué)的研究人員發(fā)布,是一種基于AlpacaFarm 數(shù)據(jù)集來測試LLM 遵循一般用戶指令的能力的評估方法。具體來說,研究人員以強大的LLM(如GPT-4、Claude 或ChatGPT)為自動評估器,以GPT-3.5 為基準,將目標模型與GPT-3.5 的回復(fù)進行比較,計算獲勝率。而MT-Bench是一種基于多輪對話來評估LLM 聊天機器人能力和用戶偏好的評估方法。它是一個由80 個多輪問題組成的基準測試集,旨在評估聊天機器人的對話和指令跟隨能力。同樣使用強大的LLM(如GPT-4、Claude 或ChatGPT)作為評估器,將不同的聊天機器人的回復(fù)進行比較,并給出優(yōu)劣判斷。
基于其他LLM 評估方法具有快速、廉價、可復(fù)現(xiàn)且與人類偏好高度一致的特點,可以作為開發(fā)和測試LLM 的有用工具。但是,目前該類方法的發(fā)展時間較短,技術(shù)不完善,仍具有較多的局限性,例如無法用于評估LLM 的高階能力、評估結(jié)果存在偏差以及缺乏安全評估等。
在上述3 種方法中,人工評估方法最符合人類意愿,數(shù)據(jù)集自動評估方法應(yīng)用最廣泛,而利用其他LLM 評估方法具有最高的新穎性和可拓展性。但是,現(xiàn)階段尚未存在完善的LLM 綜合能力評估方法,因此,現(xiàn)階段應(yīng)該多種方法互補使用以全面地評估LLM的性能和質(zhì)量。
Chatbot Arena 基準平臺(https://chat.lmsys.org/)上發(fā)布的部分LLM 排行如表3 所示??梢钥闯?,GPT-4 在多數(shù)指標上都大幅領(lǐng)先其他模型,大量開源模型在生成質(zhì)量上仍存在較大差距。
表3 Chatbot Arena平臺上部分LLM評估結(jié)果Table 3 LLM evaluation results on the Chatbot Arena
盡管類ChatGPT 模型經(jīng)過數(shù)月的迭代和完善,已經(jīng)初步融入了部分領(lǐng)域以及人們的日常生活,但目前市面上的產(chǎn)品和相關(guān)技術(shù)仍然存在一些問題,以下列出一些局限性進行詳細說明與成因分析:
1)互聯(lián)網(wǎng)上高質(zhì)量、大規(guī)模、經(jīng)過清洗的公開數(shù)據(jù)集和開源、結(jié)構(gòu)高效的預(yù)訓(xùn)練LLM 仍然不足。這是因為收集和清洗數(shù)據(jù)集的過程非常煩瑣和復(fù)雜,且預(yù)訓(xùn)練LLM 的訓(xùn)練需要高性能設(shè)備和大量優(yōu)質(zhì)數(shù)據(jù)集。
2)針對同一問題,重復(fù)輸入會導(dǎo)致不一致的回答。有時也會出現(xiàn)稍微改變一些詞語,模型的回答就會從無法回答轉(zhuǎn)變?yōu)檎_回答的情況。這是因為訓(xùn)練時得到的LLM 缺乏泛化能力,輸入格式不規(guī)范且噪聲多。
3)模型雖然能夠回答一些通用性問題,但是在涉及一些專業(yè)領(lǐng)域或者具體情境的問題時,就會顯得力不從心。這是因為LLM 訓(xùn)練數(shù)據(jù)并沒有覆蓋所有領(lǐng)域和場景,而且模型本身也缺乏足夠的知識庫和推理能力來處理復(fù)雜的問題。
4)LLM 由于缺乏常識知識,輸入缺乏事實依據(jù)和事實驗證,因此在類ChatGPT 模型在大規(guī)模運用時容易產(chǎn)生幻覺,生成錯誤答案,并出現(xiàn)推理錯誤等問題。
5)類ChatGPT 模型在生成文本時,存在輸出很難被人類理解和解釋且很難被人類監(jiān)督并糾正的問題,這是因為模型基于深度學(xué)習(xí),生成文本時并不遵循任何明確的規(guī)則或邏輯,而是根據(jù)概率分布來選擇最可能的詞匯。
6)類ChatGPT 模型依賴于基礎(chǔ)模型,但基礎(chǔ)模型為了產(chǎn)生能力“涌現(xiàn)”的現(xiàn)象,需要龐大的參數(shù)量來支撐其存儲的知識規(guī)模。因此,相關(guān)產(chǎn)品的部署和運行不僅需要高昂的硬件成本和資源消耗,而且難以適應(yīng)移動設(shè)備和邊緣計算等場景。
7)類ChatGPT 模型使用獎勵機制作為訓(xùn)練類ChatGPT 模型的主要方法,并不受法律和道德準則的約束。因此可能會被惡意利用,造成嚴重的安全隱患或者法律風(fēng)險。此外,與用戶交互時,能夠記住與會話相關(guān)的項目以及用戶輸入、緩存、日志等隱私信息。以及可能存在利用模型邏輯強大的對話能力與豐富的知識進行詐騙或作弊的情況。
除了上述局限外,目前,作為構(gòu)建基石的基礎(chǔ)模型仍存在一些原理問題尚未得到突破,例如無法保持自我一致性、無法處理比token更小的單元以及多模態(tài)領(lǐng)域表示困難等問題。
類ChatGPT 模型在多個領(lǐng)域具有非常強大的潛在應(yīng)用價值,各大公司都在積極布局該類模型。以下列出部分類ChatGPT模型潛在的應(yīng)用前景。
1)賦能內(nèi)容創(chuàng)作?;谝曈X語言模型的內(nèi)容創(chuàng)作已經(jīng)得到了廣泛應(yīng)用,如文字或圖片內(nèi)容補全。利用多模態(tài)模型更強大的多模態(tài)和推理能力,可以實現(xiàn)大型內(nèi)容創(chuàng)作,如直接創(chuàng)作劇情嚴密的影片劇本。
2)革新交互體驗。借助LLM 的語言理解能力,人機交互體驗有望發(fā)生革命性進步,機器可以理解人類的指令與需求,并生成模擬內(nèi)容予以輔助。
3)誕生“數(shù)字生命”。將LLM 引入虛擬世界中,實現(xiàn)了智能體全場景的終身學(xué)習(xí),具備快速學(xué)習(xí)、反饋環(huán)境、探索世界的能力。相信在不久的未來,智能體有望對多模態(tài)數(shù)據(jù)進行感知與學(xué)習(xí),距離通用人工智能更進一步,從游戲模擬跨向現(xiàn)實應(yīng)用。
4)智能家居與家庭助理。利用LLM 建立各種智能家居設(shè)備的中樞管理,提供更加智能化、更懂人類需求的智能家居解決方案,實現(xiàn)根據(jù)用戶指令和環(huán)境自動制定規(guī)劃控制,并提供處理家庭日常事務(wù)、排疑解惑以及腦洞聊天等助理服務(wù)。
5)自動駕駛與智能汽車交互。類ChatGPT 模型能夠給自動駕駛帶來語音交互提升,成為提升智能座艙語音交互質(zhì)量的重要工具,并啟發(fā)自動駕駛底層算法躍遷升級。此外,生成式AI 為自動駕駛模型訓(xùn)練提供高質(zhì)量合成數(shù)據(jù),破解自動駕駛數(shù)據(jù)和測試難題。
現(xiàn)階段,LLM仍存在許多問題和挑戰(zhàn),LLM未來在數(shù)據(jù)方面、技術(shù)方面和應(yīng)用等方面仍有較大的發(fā)展空間。
1)數(shù)據(jù)方面。數(shù)據(jù)方面的研究主要關(guān)注LLM的輸入和輸出,包括數(shù)據(jù)集的構(gòu)建和專業(yè)知識的嵌入等方面。未來的研究方向可以從以下兩個角度展開:
(1)訓(xùn)練數(shù)據(jù)集構(gòu)建,這是影響LLM 產(chǎn)品成功與否的關(guān)鍵因素,對數(shù)據(jù)集的質(zhì)量和規(guī)模有較高的要求。為了提高數(shù)據(jù)集的可靠性和多樣性,建立統(tǒng)一范式的人工數(shù)據(jù)集構(gòu)造方法和各類高質(zhì)量數(shù)據(jù)集生成算法設(shè)計,是未來重要且基礎(chǔ)的研究方向之一;
(2)在LLM 中嵌入特定領(lǐng)域的具體知識,旨在應(yīng)對LLM 中蘊含知識無法被完全利用與LLM 專業(yè)領(lǐng)域知識不足的矛盾??梢允占延刑囟I(lǐng)域(例如醫(yī)療、教育、法律等)的知識,構(gòu)成特定領(lǐng)域的專業(yè)數(shù)據(jù)集并融合到LLM 中,使其在該領(lǐng)域表現(xiàn)更好,以此打造針對某領(lǐng)域或某群體的專用LLM。
2)技術(shù)方面。技術(shù)方面主要關(guān)注LLM 的內(nèi)部結(jié)構(gòu)和功能,涵蓋了模型的搭建、擴展、革新和瘦身4個方面:
(1)完整搭建并訓(xùn)練LLM。這是最基礎(chǔ)且核心的研究方向之一,需要面對如何高效地訓(xùn)練、如何充分利用現(xiàn)有語料、如何構(gòu)建多語言的LLM 等多種挑戰(zhàn);
(2)擴展LLM 的多模態(tài)能力。目前大部分成熟的LLM 多模態(tài)功能仍存在諸多缺陷,其中的多模態(tài)技術(shù)面臨的挑戰(zhàn)大體上可概括為模態(tài)表示、跨模態(tài)對齊、跨模特模型推理、跨模態(tài)信息生成、跨模態(tài)知識遷移和跨模態(tài)模型量化分析6 個方面(Liang 等,2022)。合理解決這些問題和進一步完善多模態(tài)技術(shù)是LLM 實現(xiàn)對世界深入認知與轉(zhuǎn)變?yōu)橥ㄓ萌斯ぶ悄艿年P(guān)鍵步驟;
(3)對核心原理進行創(chuàng)新改進。這是LLM 技術(shù)迭代更新與發(fā)展過程中的重要研究方向之一,旨在探究如何在現(xiàn)有LLM 中使用的上下文學(xué)習(xí)、模型自適應(yīng)選擇或級聯(lián)等原理,以及從LLM 到ChatGPT 的演化過程中采用的技術(shù),例如RLHF、COT、IFT 等技術(shù)的基礎(chǔ)上進行創(chuàng)新改進,提高模型的性能和效率。目前已有對LLM 核心原理創(chuàng)新的工作包括ALMoST(Kim 等,2023)、TOT(Yao 等,2023)、SuperICL(Xu等,2023)和FedIT(Zhang等,2023)等;
(4)LLM 裁剪瘦身。這是LLM 進一步推廣與普及的核心問題之一,旨在優(yōu)化LLM 過于龐大、使用成本過高以及部署困難等問題。通常可以采用量化、剪枝和蒸餾等方法進行模型瘦身與優(yōu)化。此外,還可以結(jié)合融入特定領(lǐng)域知識或保留數(shù)據(jù)中重要信息,打造某個具體領(lǐng)域的輕量級專用模型。
3)應(yīng)用方面。應(yīng)用方面的研究關(guān)注LLM 的實際效果和價值。未來的研究方向可從以下3 個方面展開:
(1)安全性優(yōu)化,解決LLM 輸出惡意內(nèi)容、泄漏隱私數(shù)據(jù)等安全問題。這些問題在迭代迅速的開源模型中尤為嚴重,而目前業(yè)界對LLM 安全性優(yōu)化的方法缺乏統(tǒng)一的標準和框架。在不損害LLM 性能和效率的基礎(chǔ)上,保障其安全性,是LLM 成為一項成熟、實用且面向大眾的高科技產(chǎn)品的必要條件。
(2)建立評估體系,制定一個全面、公認的LLM評估方法,實現(xiàn)對LLM 的生成、推理、知識儲備等基本能力,以及對齊人類意愿、正確使用工具等高階能力進行客觀、有效的評估。然而,目前的評價方法都存在局限性和不足。因此,如何完善、融合現(xiàn)有的評價方法,是一個亟待解決的問題。此外,評估體系的建立還有助于開發(fā)糾錯模型,用于LLM訓(xùn)練。
(3)發(fā)展LLM 應(yīng)用工程,進一步推廣和普及LLM 相關(guān)技術(shù)。當(dāng)前,各種LLM 的廣泛應(yīng)用已經(jīng)是一個大趨勢,但大多數(shù)缺乏提示工程相關(guān)知識的普通人無法充分利用市面上成熟的LLM 產(chǎn)品。因此,如何高效利用這些產(chǎn)品更好地解決實際問題是一個新穎而實用的研究領(lǐng)域。
在過去的數(shù)月中,生成式人工智能相關(guān)技術(shù)及類ChatGPT 模型經(jīng)過了各大型AI 公司以及大量科研人員的改進和優(yōu)化,相比于最初的ChatGPT 版本有了巨大的蛻變。目前,性能最優(yōu)的GPT-4 已展現(xiàn)出非常明顯的初級通用人工智能的能力(Bubeck等,2023)。然而,現(xiàn)有的LLM 仍然面臨著諸多挑戰(zhàn)和問題,例如專業(yè)知識缺乏、安全隱私風(fēng)險和訓(xùn)練數(shù)據(jù)不透明等。為了突破這些局限,亟需在參數(shù)優(yōu)化、數(shù)據(jù)集構(gòu)建和多模態(tài)融合等方面進行技術(shù)創(chuàng)新,并建立統(tǒng)一、全面、便捷的評估基準來衡量LLM 的性能和效果。另一方面,先進的LLM 產(chǎn)品已經(jīng)具備了提高人類辦公效率的能力。因此,本文認為,對于大多數(shù)用戶而言,學(xué)習(xí)并應(yīng)用提示工程技巧是一種有效的方法,可以增強現(xiàn)有LLM 的性能和靈活性,從而顯著提高社會總體生產(chǎn)力。最后,必須承認的是,LLM領(lǐng)域相關(guān)技術(shù)的改進和創(chuàng)新離不開頭部公司與開源社區(qū)的相互協(xié)同和促進,以及“開源開放是未來,協(xié)同創(chuàng)新是趨勢”將成為主流。因此,為了迎接即將到來的生成式人工智能發(fā)展潮流,需要大量科研人員以有組織的科研模式推進原創(chuàng)性、引領(lǐng)性創(chuàng)新。