羅錦釗,孫玉龍,錢增志,周 魯,王金橋*
(1.中國科學(xué)院自動化研究所,北京 100190;2.中鐵建設(shè)集團(tuán)有限公司,北京 100040;3.北京工業(yè)大學(xué) 城市建設(shè)學(xué)部,北京 100124;4.中國鐵建建筑工業(yè)化工程實(shí)驗室,北京 100041)
人工智能的迅速發(fā)展為人類社會帶來了巨大的變革。經(jīng)過多年的發(fā)展,人工智能已經(jīng)進(jìn)入了大規(guī)模產(chǎn)業(yè)應(yīng)用階段,在金融、安防和醫(yī)療等多個領(lǐng)域?qū)崿F(xiàn)應(yīng)用。從模型發(fā)展來看,人工智能經(jīng)歷了機(jī)器學(xué)習(xí)模型、深度學(xué)習(xí)模型、預(yù)訓(xùn)練模型和大規(guī)模預(yù)訓(xùn)練模型4個階段。
在人工智能研究的早期階段,傳統(tǒng)的機(jī)器學(xué)習(xí)模型依賴于手工制作特征和統(tǒng)計方法。2014年以來,深度學(xué)習(xí)模型如卷積神經(jīng)網(wǎng)絡(luò)(CNN)[1]、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)[2]、圖神經(jīng)網(wǎng)絡(luò)(GNN)[3]等被廣泛應(yīng)用于各種人工智能任務(wù)。深度學(xué)習(xí)模型需要大量標(biāo)記數(shù)據(jù)進(jìn)行訓(xùn)練才能達(dá)到良好性能,然而手工標(biāo)記數(shù)據(jù)耗時耗力,并且特定任務(wù)領(lǐng)域的數(shù)據(jù)往往比較稀缺,限制了深度學(xué)習(xí)模型的應(yīng)用。此外,在有限的數(shù)據(jù)量下,當(dāng)參數(shù)量增加時,模型容易出現(xiàn)過擬合問題,難以泛化到不同的任務(wù)領(lǐng)域。
為了減少數(shù)據(jù)集構(gòu)建的工作量,提升模型的領(lǐng)域遷移能力,研究者提出使用基于大規(guī)模數(shù)據(jù)集訓(xùn)練的模型來處理不同的任務(wù)。預(yù)訓(xùn)練模型(Pretrained Model,PM)提供了一種基于預(yù)訓(xùn)練和微調(diào)的兩階段解決方案:在預(yù)訓(xùn)練階段,模型從大規(guī)模無監(jiān)督數(shù)據(jù)中學(xué)習(xí)領(lǐng)域知識;在微調(diào)階段,只需要少量的標(biāo)注數(shù)據(jù),就可以將預(yù)訓(xùn)練階段學(xué)到的領(lǐng)域知識轉(zhuǎn)移到特定任務(wù)中,無需從頭開始訓(xùn)練模型,也不需要耗費(fèi)大量的時間和精力進(jìn)行數(shù)據(jù)標(biāo)注工作,從而提高模型的泛化能力。
預(yù)訓(xùn)練模型首先應(yīng)用于計算機(jī)視覺(Computer Vision,CV)領(lǐng)域。大規(guī)模圖像數(shù)據(jù)集,如ImageNet[4]的出現(xiàn)為圖像預(yù)訓(xùn)練模型提供了數(shù)據(jù)基礎(chǔ)。通過預(yù)訓(xùn)練,模型能夠?qū)W習(xí)到大量的視覺知識,只需要在少量的任務(wù)相關(guān)數(shù)據(jù)集上進(jìn)行微調(diào),即可在圖像分類、目標(biāo)檢測和場景分割等下游任務(wù)中取得良好表現(xiàn)。隨著預(yù)訓(xùn)練模型在CV領(lǐng)域取得成功,類似的研究也在自然語言處理(Natural Language Processing,NLP)領(lǐng)域進(jìn)行。早期的深度語言模型采用Word2Vec[5]等淺層網(wǎng)絡(luò),然而淺層網(wǎng)絡(luò)無法捕獲單詞和句子中的上下文信息?;赗NN的模型能夠結(jié)合上下文信息,然而隨著模型層數(shù)加深,容易出現(xiàn)梯度消失和梯度爆炸問題。Transformer的出現(xiàn)使得在NLP領(lǐng)域構(gòu)建深度模型變得可行。此后,預(yù)訓(xùn)練模型在NLP領(lǐng)域取得了一系列突破,在多個下游任務(wù)上取得了先進(jìn)性能,超越了傳統(tǒng)的深度學(xué)習(xí)模型。
人工智能技術(shù)的三大要素包括數(shù)據(jù)、算法以及算力,這三者的有機(jī)結(jié)合共同構(gòu)建了模型。近年來,傳統(tǒng)的“特定任務(wù)特定模型”的構(gòu)建模式逐漸被“一個大規(guī)模預(yù)訓(xùn)練模型適用于多個下游任務(wù)”的模式取代。在這種新模式中,大規(guī)模預(yù)訓(xùn)練模型也被簡稱為大模型。研究人員設(shè)計先進(jìn)的算法,并借助海量算力和大規(guī)模計算系統(tǒng)的支持,為不同需求的用戶訓(xùn)練大模型,以服務(wù)于各類人工智能應(yīng)用。
最近,人工智能生成內(nèi)容(AI Generated Content,AIGC)引起了廣泛關(guān)注。AIGC是指基于人工智能模型,通過大量數(shù)據(jù)學(xué)習(xí)和模型訓(xùn)練,根據(jù)輸入的指令,生成文字、圖像和音頻等相關(guān)內(nèi)容的技術(shù)。AIGC技術(shù)的廣泛應(yīng)用得益于大模型的快速發(fā)展。2018年,谷歌提出BERT[6],模型參數(shù)量達(dá)到3億;2019年2月,OpenAI推出15億參數(shù)量的GPT-2[7];2020年6月,OpenAI繼續(xù)推出1 750億參數(shù)量的GPT-3[8]。GPT-3在多個下游NLP任務(wù)上表現(xiàn)良好,尤其是在生成任務(wù)方面表現(xiàn)突出。 GPT-3促進(jìn)了大規(guī)模預(yù)訓(xùn)練模型的研究,模型的參數(shù)規(guī)模從數(shù)十億迅速增長到千億,并且仍然保持快速上升的趨勢。通過不斷擴(kuò)大模型參數(shù),研究人員正在嘗試探索其性能提升的極限。
本文概述了大模型的發(fā)展歷程以及代表性的大模型算法,介紹了大模型的基礎(chǔ)架構(gòu)及其核心原理,分析了大模型的特點(diǎn),討論了大模型的局限性以及未來發(fā)展方向。
本節(jié)將分別簡述語言模型和視覺模型的發(fā)展,并介紹具有代表性的大型語言模型和大型視覺模型。從模型發(fā)展歷程來看,大模型的發(fā)展先后經(jīng)歷了機(jī)器學(xué)習(xí)模型、深度學(xué)習(xí)模型、預(yù)訓(xùn)練模型和大規(guī)模預(yù)訓(xùn)練模型4個階段。目前,大規(guī)模預(yù)訓(xùn)練模型的參數(shù)量已經(jīng)突破了萬億級。
語言模型(Language Model,LM)是完成NLP領(lǐng)域各種下游任務(wù)的基礎(chǔ)。早期的語言模型通過統(tǒng)計方法預(yù)測詞的概率,對于一個長度為N的詞序列s,其概率可以表示為:
P(s)=P(w1)P(w2|w1)…P(wN|w1w2…wN-1),
(1)
式中:P(wi)為第i個詞出現(xiàn)的概率,P(s)為在給定前i-1個詞的情況下第i個詞出現(xiàn)的概率。當(dāng)詞序列較長時,式(1)的計算量較大,模型難以學(xué)習(xí),因此研究者采用N元模型對上述公式進(jìn)行近似計算:
P(wt|w1w2…wt-1)≈P(wt|wt-k…wt-1)。
(2)
N元模型在估算條件概率時,只需要對當(dāng)前詞的前N-1個詞進(jìn)行計算,然而,N元模型缺乏對句子的長期依賴建模能力,并且隨著N增大,參數(shù)空間呈指數(shù)增長,限制了模型在大語料庫上的建模能力。
為了解決這個問題,研究者提出了神經(jīng)網(wǎng)絡(luò)模型。2003年,Bengio等[9]提出了前饋神經(jīng)網(wǎng)絡(luò)(FFNN)來學(xué)習(xí)單詞的分布式特征表示,通過將單詞投影為低維向量,減少了模型的計算復(fù)雜度。然而,FFNN只能處理固定長度的單詞序列。隨后,Mikolov等[10]提出了RNN,可以處理變長的詞序列。然而RNN模型在訓(xùn)練過程中容易出現(xiàn)梯度爆炸和梯度消失問題。Sundermeyer等[11]提出了長短期記憶RNN模型(LSTM-RNN),它能夠?qū)W習(xí)到單詞序列的長期依賴關(guān)系,并且能夠有效地緩解梯度消失和梯度爆炸問題。
盡管神經(jīng)網(wǎng)絡(luò)模型在NLP領(lǐng)域取得了一定的成功,但與CV領(lǐng)域相比,性能提升相對較小。主要原因在于大多數(shù)NLP任務(wù)的監(jiān)督數(shù)據(jù)集規(guī)模較小。由于神經(jīng)網(wǎng)絡(luò)模型通常具有較深的網(wǎng)絡(luò)結(jié)構(gòu),因此在小數(shù)據(jù)集上容易發(fā)生過擬合,并且泛化性能較差,難以在各種下游任務(wù)中應(yīng)用。
得益于大規(guī)模圖像數(shù)據(jù)集ImageNet的發(fā)展,預(yù)訓(xùn)練技術(shù)在CV領(lǐng)域得到廣泛應(yīng)用,緩解了深度視覺模型在下游任務(wù)上的遷移問題。為了解決語言模型過擬合和泛化性差的問題,研究者將預(yù)訓(xùn)練技術(shù)引入到NLP領(lǐng)域。首先在大規(guī)模文本語料庫上進(jìn)行模型預(yù)訓(xùn)練,然后針對不同的下游任務(wù)在較小的數(shù)據(jù)集上進(jìn)一步微調(diào),經(jīng)過預(yù)訓(xùn)練的模型性能遠(yuǎn)遠(yuǎn)優(yōu)于隨機(jī)初始化的模型。Word2Vec[5]首先在不同的NLP任務(wù)中驗證了預(yù)訓(xùn)練技術(shù)的有效性。Dai等[12]提出了利用LSTM初始化語言模型的方法,提升了模型在多個文本分類任務(wù)中的訓(xùn)練速度和泛化能力。Ramachandran等[13]提出了無監(jiān)督預(yù)訓(xùn)練的Seq2Seq模型,使用預(yù)訓(xùn)練權(quán)重初始化編碼器和解碼器,然后在下游數(shù)據(jù)進(jìn)行微調(diào),從而顯著改善模型的泛化性能。
然而,上述模型學(xué)習(xí)到的詞嵌入與上下文無關(guān),因此在遷移到下游任務(wù)時仍需要對模型進(jìn)行重新訓(xùn)練和調(diào)整。為了解決這個問題,研究者開始在句子級別以上的層次進(jìn)行預(yù)訓(xùn)練。Sarzynska-wawer等[14]提出了嵌入語言模型(Embeddings from Language Models,ELMo),采用正向和反向的雙層LSTM編碼器結(jié)構(gòu),學(xué)習(xí)詞的上下文語義表示。ELMo在多種NLP下游任務(wù)上帶來了巨大的改進(jìn)。然而,ELMo通常被用作特征提取器,生成上下文詞嵌入向量,并將其輸入到下游主模型中,而模型的其他部分仍需從頭開始訓(xùn)練。
近年來,基于Transformer架構(gòu)的預(yù)訓(xùn)練模型(PTM)出現(xiàn),并能夠?qū)W習(xí)到通用的語言表示。通過在大規(guī)模語料庫上進(jìn)行預(yù)訓(xùn)練,模型初始化得到了改善,避免了從頭開始訓(xùn)練模型,加快了模型在目標(biāo)任務(wù)上的收斂速度,并能更好地泛化到各種下游任務(wù),從而避免了在小數(shù)據(jù)集上的過擬合問題。隨著計算機(jī)算力的提升、更深層模型的出現(xiàn)以及訓(xùn)練技巧的增強(qiáng),PTM架構(gòu)的深度和參數(shù)量也在不斷增加。
語言大模型(LLM)是指參數(shù)量在十億及以上的大型預(yù)訓(xùn)練語言模型。在大規(guī)模文本語料數(shù)據(jù)庫和自監(jiān)督預(yù)訓(xùn)練技術(shù)的加持下[15],LLM顯示了強(qiáng)大的通用語言表示能力,并且在解決復(fù)雜任務(wù)時展現(xiàn)出卓越的性能。LLM的快速發(fā)展給人工智能領(lǐng)域的研究帶來了革命性的變化,吸引了越來越多研究者的關(guān)注。從圖1可以看出,GPT-1[16]發(fā)布后,與LLM相關(guān)的arXiv論文急劇增加。
圖1 arXiv論文累計數(shù)量趨勢Fig.1 The trends of cumulative numbers of arXiv papers
2018年,谷歌提出了大規(guī)模預(yù)訓(xùn)練語言模型BERT[6],采用自編碼(Autoencoding)方式進(jìn)行預(yù)訓(xùn)練。BERT首先通過自監(jiān)督預(yù)訓(xùn)練學(xué)習(xí)文本表示,然后基于掩碼語言模型(Masked Language Model,MLM)和下一句預(yù)測(Next Sentence Prediction,NSP)學(xué)習(xí)單詞和句子級的語義表示。BERT只需要針對特定的下游任務(wù)對輸出層進(jìn)行微調(diào),即可在多個NLP任務(wù)中取得最先進(jìn)水平,模型參數(shù)量首次超過3億。谷歌在BERT基礎(chǔ)上繼續(xù)進(jìn)行優(yōu)化,使用更多的訓(xùn)練數(shù)據(jù)和訓(xùn)練資源,提出動態(tài)掩碼調(diào)整策略,得到了精度更高的RoBERTa模型[17],在多個下游任務(wù)上達(dá)到最先進(jìn)水平。
2018年,OpenAI提出了生成式預(yù)訓(xùn)練模型GPT-1[16],GPT-1基于自回歸模型進(jìn)行預(yù)訓(xùn)練。不同于自編碼模型通過掩碼-重建方式預(yù)測單詞的位置,自回歸模型假定一個詞在特定位置的概率分布是由之前所有詞的分布決定的。因此,GPT的注意力是單向的,無法利用下文的信息。GPT-1采用無監(jiān)督預(yù)訓(xùn)練和有監(jiān)督微調(diào)的混合方法,對于不同任務(wù)采用不同的輸出層,只需簡單的微調(diào)便能取得非常好的效果。BERT和GPT-1的成功引起了語言大模型的研究熱潮,由圖2可以看出,GPT-1發(fā)布后,語言大模型的參數(shù)規(guī)模短時間內(nèi)快速增長。2019年,OpenAI繼續(xù)發(fā)布了GPT-2[7]。GPT-2采用與GPT-1類似的架構(gòu),參數(shù)規(guī)模增加到15億,基于大型網(wǎng)頁數(shù)據(jù)集WebText進(jìn)行預(yù)訓(xùn)練。研究者認(rèn)為,任何一個有監(jiān)督NLP任務(wù),都可以看成世界文本子集上的單詞預(yù)測問題,只要預(yù)訓(xùn)練語言模型足夠大,理論上就能解決任何NLP任務(wù)[18]。GPT-2通過無監(jiān)督語言建模的形式進(jìn)行多任務(wù)學(xué)習(xí),采用語言文本作為格式化輸入、輸出和任務(wù)信息的統(tǒng)一表示,將解決任務(wù)的過程看作一個單詞預(yù)測問題。GPT-2通過擴(kuò)展模型的容量和數(shù)據(jù)多樣性達(dá)到了良好性能,但由于模型尺寸相對較小,與最先進(jìn)的有監(jiān)督微調(diào)方法相比,總體性能較差。2020年,OpenAI發(fā)布了GPT-3[8]模型。GPT-3基于GPT-2擴(kuò)展模型架構(gòu),參數(shù)量達(dá)到了1 750億,實(shí)現(xiàn)了模型參數(shù)量的飛躍提升。GPT-3引入了上下文學(xué)習(xí)的概念,指導(dǎo)模型以自然語言文本的形式理解任務(wù)?;谏舷挛膶W(xué)習(xí),GPT-3的預(yù)訓(xùn)練目標(biāo)和輸出收斂到相同的語言建模范式:預(yù)訓(xùn)練根據(jù)上下文預(yù)測文本序列,下游任務(wù)通過上下文學(xué)習(xí)預(yù)測任務(wù)解決方案,然后將其格式化,并輸出文本序列。GPT-3在多個NLP任務(wù)中表現(xiàn)出了非常出色的性能,在需要推理或領(lǐng)域適應(yīng)能力的任務(wù)上也表現(xiàn)了出色的能力。以GPT-3模型為基礎(chǔ)的人工智能對話系統(tǒng)ChatGPT在發(fā)布后吸引了社會對人工智能技術(shù)的廣泛關(guān)注。
由于GPT-3的強(qiáng)大性能,OpenAI將其作為基礎(chǔ)模型開發(fā)更強(qiáng)的LLM。原始GPT-3模型的主要不足之一是缺少復(fù)雜推理能力,例如解決數(shù)學(xué)問題和生成代碼。為了解決這個問題,OpenAI推出了Codex[19],基于大量GitHub代碼庫對GPT-3進(jìn)行微調(diào)。Codex可以解決復(fù)雜的編程問題,解決數(shù)學(xué)問題的能力也得到極大提升[20]。在此基礎(chǔ)上,OpenAI提出了GPT-3.5[21]模型,通過對比學(xué)習(xí)文本和代碼嵌入,模型的復(fù)雜推理能力得到顯著提升。InstructGPT[22]提出三階段人類反饋強(qiáng)化學(xué)習(xí)(Reinforcement Learning from Human Feedback,RLHF)算法,通過強(qiáng)化學(xué)習(xí)引入人類監(jiān)督以學(xué)習(xí)人類偏好,提高模型在NLP任務(wù)上的能力。GPT-3的訓(xùn)練語料大多來自于網(wǎng)絡(luò),可能包含大量錯誤的、惡意的、帶有攻擊性的“有毒”文本。RLHF算法能夠有效緩解LLM產(chǎn)生危害內(nèi)容的問題,使模型輸出更安全、更有用、更符合人類想法的結(jié)果,實(shí)現(xiàn)LLM的安全部署。
圖2 語言大模型規(guī)模變化趨勢Fig.2 The trends of the LLM scale changes
2020年,谷歌發(fā)布了T5模型[23],T5提出將NLP任務(wù)轉(zhuǎn)換成Text-to-Text形式,使用相同的模型、訓(xùn)練和解碼方式將所有NLP任務(wù)納入一個統(tǒng)一框架。T5模型參數(shù)量達(dá)到110億。在T5基礎(chǔ)上,谷歌發(fā)布了Flan-T5[24],提出一套多任務(wù)的模型微調(diào)方案。通過在超大規(guī)模的任務(wù)上進(jìn)行微調(diào),Flan-T5表現(xiàn)出極強(qiáng)的泛化性能,在1 800多個NLP任務(wù)上都有良好的表現(xiàn)。2021年,清華大學(xué)發(fā)布GLM模型[25],試圖通過一個預(yù)訓(xùn)練框架統(tǒng)一NLP領(lǐng)域的三大類任務(wù):自然語言理解、無條件生成和有條件生成。GLM提出了基于自回歸空白填充的預(yù)訓(xùn)練框架,通過改進(jìn)空白填充方式,在3類任務(wù)上實(shí)現(xiàn)了優(yōu)于BERT、T5和GPT的性能,在不同下游任務(wù)上表現(xiàn)出極強(qiáng)的泛化性能。2022年,谷歌發(fā)布了PaLM模型[26],參數(shù)量突破千億規(guī)模,達(dá)到5 400億。PaLM延續(xù)了語言大模型的優(yōu)化路徑,在7 800億個高質(zhì)量文本的token上進(jìn)行高效訓(xùn)練。PaLM在各種下游任務(wù)上超越了之前最先進(jìn)的模型,這表明大模型的參數(shù)量提升還沒有到達(dá)頂點(diǎn),PaLM還表現(xiàn)出了零樣本學(xué)習(xí)、語言理解和復(fù)雜推理的能力,充分展示了大模型的發(fā)展?jié)摿Α?/p>
2023年2月,Meta AI發(fā)布了LLaMA模型[27],初始版本包括70億、130億、300億和650億4種規(guī)模。自發(fā)布以來,LLaMA引起了研究界和工業(yè)界的廣泛關(guān)注。LLaMA模型在各種開放基準(zhǔn)上取得了優(yōu)異性能,已經(jīng)成為迄今為止最流行的開源語言大模型。許多研究者通過指令微調(diào)或預(yù)訓(xùn)練來擴(kuò)展LLaMA模型,由于相對較低的計算成本,基于LLaMA模型微調(diào)成為開發(fā)或定制專用模型的主流。Vicuna[28]是其中一種流行的LLaMA變體,使用從ShareGPT收集的用戶共享對話數(shù)據(jù)進(jìn)行訓(xùn)練,用GPT-4評測可以達(dá)到ChatGPT 90%的水平。 2023年7月,Meta開源了性能更強(qiáng)的LLaMA-2[29], LLaMA-2使用更大、質(zhì)量更好的語料庫進(jìn)行訓(xùn)練,在模型性能、推理效率以及安全性等方面得到全面提升。LLaMA-2在40多個評測集上進(jìn)行了全方位的評測,在學(xué)科、語言、知識、理解和推理五大維度,相比LLaMA-1都有明顯提升。然而由于訓(xùn)練語料中的中文數(shù)據(jù)占比較少,LLaMA-2在中文能力上仍顯不足;此外,LLaMA-2采用相對保守的安全對齊方案,導(dǎo)致模型的安全性和模型能力平衡較差。由于LLaMA系列模型的出色性能和可用性,許多多模態(tài)模型將其作為基礎(chǔ)語言模型,以實(shí)現(xiàn)較強(qiáng)的語言理解和生成能力。LLaMA的發(fā)布極大地推進(jìn)了大模型的研究進(jìn)展。
早期的視覺模型采用手工設(shè)計特征和機(jī)器學(xué)習(xí)方法解決圖像分類等視覺問題。然而,手工設(shè)計特征局限于像素層面,損失了過多圖像信息,導(dǎo)致模型的精度較低。與基于手工特征的方法不同,基于CNN的模型具有強(qiáng)大的特征提取能力和相對較低的計算復(fù)雜度。
2012年,研究者提出了基于CNN架構(gòu)的AlexNet[30],其在ImageNet圖像識別挑戰(zhàn)賽中的識別精度首次超越手工特征方法。在此基礎(chǔ)上,VGGNet[31]證明了更深的網(wǎng)絡(luò)結(jié)構(gòu)能夠有效提升模型精度。ResNet[32]提出在每個模塊中添加殘差連接,以解決深層模型的優(yōu)化問題,同時引入了瓶頸塊來減少參數(shù)數(shù)量。簡單的實(shí)現(xiàn)和良好的性能使ResNet仍然是當(dāng)今最常用的架構(gòu)。此外,研究者探索了CNN模型的輕量化,MobileNets[33]提出了深度可分離卷積、反向殘差塊和神經(jīng)架構(gòu)搜索(NAS),以實(shí)現(xiàn)更好的精度-復(fù)雜度權(quán)衡。
隨著Transformer架構(gòu)在NLP領(lǐng)域大獲成功,研究者開始探索將其應(yīng)用到CV領(lǐng)域。視覺Transformer(Vision Transformer,ViT)[34]提出將圖像分成一系列不重疊的圖像塊,然后通過線性變換將其投影為圖像塊嵌入編碼,并添加位置編碼標(biāo)記圖像塊的位置。輸入嵌入向量中添加了圖像類別嵌入向量,三者結(jié)合共同作為ViT的輸入,然后通過自注意力機(jī)制捕獲圖像之間的遠(yuǎn)程依賴性。ViT巧妙地將圖片構(gòu)造成patch序列,啟發(fā)了研究者在CV領(lǐng)域正確使用Transformer的方式。實(shí)驗表明,在大型數(shù)據(jù)集上預(yù)訓(xùn)練后,ViT能夠?qū)崿F(xiàn)較好的性能。
經(jīng)過精心設(shè)計的深度視覺模型能夠處理各種下游視覺任務(wù),在自動駕駛、智能監(jiān)控和安防等領(lǐng)域有重要應(yīng)用。然而,隨著模型規(guī)模的不斷擴(kuò)大,針對特定任務(wù)進(jìn)行數(shù)據(jù)收集和標(biāo)注需要耗費(fèi)大量時間和成本,模型訓(xùn)練需要消耗大量訓(xùn)練資源。為了解決這個問題,研究者引入預(yù)訓(xùn)練技術(shù)來學(xué)習(xí)通用的視覺表示,以減少訓(xùn)練資源的消耗和訓(xùn)練數(shù)據(jù)的收集成本。隨著大規(guī)模圖像數(shù)據(jù)集(如ImageNet)的出現(xiàn),研究者開始探索CV領(lǐng)域的預(yù)訓(xùn)練模型。預(yù)訓(xùn)練視覺模型在海量圖像數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,得到通用視覺特征表示,然后基于較小的下游標(biāo)注數(shù)據(jù)集對模型進(jìn)行精細(xì)調(diào)整。在微調(diào)階段,模型只需要消耗較少的訓(xùn)練資源就能取得比從頭開始訓(xùn)練更好的性能。
主流的預(yù)訓(xùn)練視覺模型包括ResNet[32]、ViT[34]、EfficientNet[35]和Swin Transformer[36]等?;诖笠?guī)模視覺數(shù)據(jù)庫,模型能夠更有效地學(xué)習(xí)通用視覺特征表示,理解下游任務(wù)中的圖像,從而提高模型在下游任務(wù)上的泛化性[37]。然而,預(yù)訓(xùn)練數(shù)據(jù)集和下游任務(wù)的特定數(shù)據(jù)集之間存在領(lǐng)域差異,導(dǎo)致模型的遷移能力仍有不足。
ViT首次將Transformer架構(gòu)應(yīng)用于CV領(lǐng)域,驗證了Transformer作為統(tǒng)一視覺模型架構(gòu)的可行性。在NLP領(lǐng)域,基于掩碼語言模型(Masked Language Model)的BERT模型引領(lǐng)了自監(jiān)督預(yù)訓(xùn)練的學(xué)習(xí)范式。受此啟發(fā),2022年,He等[38]提出了視覺掩碼自編碼(Masked Autoencoders,MAE)模型,MAE使用編碼器-解碼器(encoder-decoder)架構(gòu),在encoder部分,首先將圖片構(gòu)建成patch序列,學(xué)習(xí)圖片的細(xì)粒度特征;在decoder部分,基于原始的圖片token和掩碼token對掩碼圖片進(jìn)行重建。MAE對圖像重建進(jìn)行解耦,能夠?qū)W習(xí)到更加有效的圖像特征,基于像素點(diǎn)的重建目標(biāo)能夠避免監(jiān)督信息的丟失,提高重建的質(zhì)量。MAE能夠在高達(dá)75%的掩碼率下對圖像進(jìn)行重建,并且在下游的目標(biāo)檢測和語義分割任務(wù)等任務(wù)上有不俗的表現(xiàn)?;贛AE重建的圖像雖然具有與原始圖像相似的語義信息,但會出現(xiàn)嚴(yán)重的模糊與失真問題。為了解決這個問題,MIT提出MAGE[39],MAGE使用基于圖像語義符圖像掩碼建模方法,首先使用VQGAN[40]編碼器將原始圖像轉(zhuǎn)換為離散語義符,然后對其進(jìn)行隨機(jī)掩碼,之后基于encoder-decoder結(jié)構(gòu)對掩碼進(jìn)行重構(gòu),最后通過VQGAN解碼器將重構(gòu)后的語義符還原為原始圖像。MAGE重建出的圖像能夠保持與原始圖像一致的語義信息,還能保證生成圖像的多樣性與真實(shí)性,在多個圖像生成與圖像識別任務(wù)上都達(dá)到或超過了最先進(jìn)水平,實(shí)現(xiàn)了圖像生成和圖像識別的統(tǒng)一框架。2022年,南京大學(xué)提出視頻掩碼自編碼器(VideoMAE)[41],將預(yù)訓(xùn)練大模型擴(kuò)展到視頻領(lǐng)域,用于解決動作識別和動作檢測等視頻任務(wù)。VideoMAE采用帶有時序間隔的采樣策略來進(jìn)行更加高效的視頻自監(jiān)督預(yù)訓(xùn)練,在輸入到編碼器中之前,對采樣得到的視頻片段采用時空聯(lián)合的形式進(jìn)行像素塊嵌入,在自監(jiān)督預(yù)訓(xùn)練的過程中采用管道式掩碼策略,以解決由視頻數(shù)據(jù)中的時序冗余性和時序相關(guān)性導(dǎo)致的“信息泄漏”問題。VideoMAE在多個下游任務(wù)上表現(xiàn)出良好的泛化能力和遷移能力,推動了后續(xù)基于Transformer的視頻理解大模型發(fā)展。隨后,南京大學(xué)團(tuán)隊提出了VideoMAE V2[42],研究VideoMAE的可擴(kuò)展性,探索視頻大模型在多種視頻下游任務(wù)上的性能極限。VideoMAE V2的模型參數(shù)量達(dá)到了十億級別,預(yù)訓(xùn)練數(shù)據(jù)增加到百萬量級。VideoMAE V2在動作識別、時空動作檢測、時序動作檢測等多種下游任務(wù)上取得了先進(jìn)的性能。
圖像分割是CV的一項核心任務(wù),需要識別圖像像素所屬對象。2023年,Meta AI提出了通用圖像分割模型SAM[43],SAM基于超過10億個掩模的多樣化、高質(zhì)量大型分割數(shù)據(jù)集——Segment Anything 1-Billion mask dataset(SA-1B)進(jìn)行預(yù)訓(xùn)練,利用提示工程(Prompt Engineering)處理下游分割任務(wù)[44],這使其能夠泛化到從未見過的新對象和圖像類型,且不需要對下游任務(wù)進(jìn)行微調(diào)。SAM分為三部分:圖像編碼器、提示編碼器和掩模解碼器,這種結(jié)構(gòu)可以有效地降低計算成本,增強(qiáng)模型靈活性和魯棒性,實(shí)現(xiàn)了具有泛化性和通用性的分割模型?;诖笠?guī)模預(yù)訓(xùn)練和提示工程,SAM學(xué)習(xí)到了分割對象的一般表示,可以分割任何圖像或任何視頻中的任何對象。SAM的通用性使其可以覆蓋廣泛的對象用例,甚至在新圖像“域”(如水下照片或顯微鏡細(xì)胞)也能較好地完成分割任務(wù)。SAM-Track[45]提出了一種視頻分割框架,該框架結(jié)合了Grounding-DINO、DeAOT和SAM,以實(shí)現(xiàn)跨多種模式的交互式和自動化對象跟蹤和分割。該框架在視頻第一幀中結(jié)合了點(diǎn)擊提示、框提示和文本提示等形式的交互式提示來指導(dǎo)SAM的分割過程。隨后,在接下來的框架中使用文本提示來進(jìn)一步細(xì)化結(jié)果。這種多功能框架可應(yīng)用于廣泛的領(lǐng)域,包括無人機(jī)技術(shù)、自動駕駛、醫(yī)學(xué)成像、增強(qiáng)現(xiàn)實(shí)和生物分析等。
Painter[46]將自然語言中的上下文學(xué)習(xí)能力遷移到視覺任務(wù)中,可以根據(jù)輸入提示自動切換任務(wù)功能,在語義分割、深度估計和姿態(tài)估計等任務(wù)中均取得了良好的泛化性能。
在國內(nèi)工業(yè)界,大模型發(fā)展也十分迅速。2021年4月華為發(fā)布了盤古大模型,參數(shù)量超過30億,是當(dāng)時最大的視覺預(yù)訓(xùn)練模型,盤古大模型在ImageNet 1%、10%數(shù)據(jù)集上的小樣本分類精度達(dá)到了業(yè)界最高水平。百度提出了170億參數(shù)的視覺多任務(wù)模型UFO[47],在人臉、人體、車輛、商品和食物細(xì)粒度分類等多個CV任務(wù)上取得了先進(jìn)水平。UFO提出了針對視覺多任務(wù)的訓(xùn)練方案,解決大模型參數(shù)量大、推理能力差的問題。
視覺大模型已成為人工智能領(lǐng)域的一個發(fā)展趨勢,然而,目前其性能仍然受到特定視覺領(lǐng)域知識的限制,缺少類似于ChatGPT這樣一個現(xiàn)象級的模型應(yīng)用。為了解決這一問題,未來的研究方向應(yīng)當(dāng)側(cè)重于整合多樣化的數(shù)據(jù)集,促進(jìn)不同領(lǐng)域的專有模型融合,擴(kuò)展模型知識的廣度,以充分發(fā)揮視覺大模型的潛力。
視覺-語言大模型是指利用視覺和語言數(shù)據(jù)之間的跨模態(tài)交互,學(xué)習(xí)視覺的一般特征,然后將其轉(zhuǎn)移到下游的分類、檢索、目標(biāo)檢測、視頻理解、視覺問答、圖像描述和圖像生成等視覺任務(wù)的大模型。在Transformer架構(gòu)[48]中,最小的特征單元是嵌入向量,這種特性使其非常適合處理多模態(tài)數(shù)據(jù),因為嵌入層可以將任何模態(tài)的輸入轉(zhuǎn)換為嵌入向量。
2021年,OpenAI提出視覺-語言大模型CLIP[49],CLIP收集了來自互聯(lián)網(wǎng)的4億個圖像文本對的海量數(shù)據(jù),利用圖像和文本之間的關(guān)聯(lián)性,基于對比學(xué)習(xí)進(jìn)行弱監(jiān)督預(yù)訓(xùn)練?;谌斯ぴO(shè)計的提示(prompt),CLIP在下游任務(wù)上可以實(shí)現(xiàn)零樣本預(yù)測,并且實(shí)現(xiàn)了最先進(jìn)的少樣本預(yù)測性能。CLIP展示了大模型學(xué)習(xí)通用視覺-文本表示的能力,驗證了文本-圖像結(jié)合的大規(guī)模弱監(jiān)督預(yù)訓(xùn)練的有效性。在此基礎(chǔ)上,許多大型視覺-語言模型,例如Clip4clip[50]、ActionCLIP[51]等得到進(jìn)一步發(fā)展,為通用視覺-文本表示的發(fā)展提供了新的見解。
2022年,Salesforce提出BLIP[52],BLIP通過聯(lián)合訓(xùn)練視覺和語言模型來提升多模態(tài)任務(wù)的性能。BLIP引入了的多模態(tài)混合編碼器-解碼器結(jié)構(gòu)(Multimodal Mixture of Encoder-Decoder,MED),通過3個損失函數(shù)進(jìn)行多任務(wù)聯(lián)合預(yù)訓(xùn)練。BLIP在圖像-文本檢索、圖像標(biāo)題、視覺問答、視覺推理和視覺對話等多個下游任務(wù)上取得了良好的性能。傳統(tǒng)的多模態(tài)視覺任務(wù)(如VQA)中包含文字和圖像理解內(nèi)容,如何將它們結(jié)合起來,是一個重要問題。Flamingo[53]提出“以視覺為prompt,輸出文本預(yù)測”的框架,將多模態(tài)任務(wù)轉(zhuǎn)化為文本預(yù)測任務(wù)。Flamingo通過凍結(jié)預(yù)訓(xùn)練視覺模型和預(yù)訓(xùn)練語言模型的參數(shù)充分保留單模態(tài)的大模型知識,可以處理任意交錯的視覺和文本數(shù)據(jù)序列,無縫使用圖像或視頻作為輸入。Flamingo在多個下游任務(wù)上表現(xiàn)出極強(qiáng)的少樣本學(xué)習(xí)能力。BLIP-2[54]提出了更簡潔的預(yù)訓(xùn)練方法,利用現(xiàn)有的單模態(tài)視覺和文本預(yù)訓(xùn)練模型,以減少計算成本,避免災(zāi)難性遺忘問題。BLIP和BLIP-2是視覺語言-預(yù)訓(xùn)練領(lǐng)域取得的重要進(jìn)展,為多模態(tài)任務(wù)的研究提供了新的思路和方法。
2023年3月,GPT-4[55]正式發(fā)布,它將文本輸入擴(kuò)展到多模態(tài)輸入。GPT-4解決復(fù)雜任務(wù)的能力比 GPT-3.5更強(qiáng),在許多評估任務(wù)上表現(xiàn)出較大的性能提升。由于GPT-4未開源,MiniGPT-4[56]基于BLIP-2對GPT-4進(jìn)行復(fù)現(xiàn)。MiniGPT-4采用BLIP-2預(yù)訓(xùn)練好的Q-Former作為視覺編碼器,Vicuna[28]作為語言編碼器,然后通過一個線性層將視覺特征映射到Vicuna的特征空間,MiniGPT-4首先采用圖像文本對數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練,然后構(gòu)建了一個高質(zhì)量的圖像文本數(shù)據(jù)集來進(jìn)行微調(diào)。相較于BLIP-2,MiniGPT-4提升的關(guān)鍵在于采用了更好的LLM,同時采用了高質(zhì)量數(shù)據(jù)集進(jìn)行微調(diào)。但MiniGPT-4也存在一定的局限性,比如無法從圖像中獲取細(xì)粒度的信息以及無法識別位置信息。PaLM-E[57]提出具身多模態(tài)語言模型,使得模型具備具身推理能力。視覺指令調(diào)整(Visual Instruction Tuning)[58]構(gòu)建了多模態(tài)的圖文指令數(shù)據(jù)庫,并提升了模型在新任務(wù)中的零樣本遷移能力。
良好的視覺特征表示對于解決下游視覺任務(wù)(圖像檢索、圖像分類、視頻理解)至關(guān)重要,然而,學(xué)習(xí)視覺特征表示依然嚴(yán)重依賴于大規(guī)模視覺監(jiān)督數(shù)據(jù)集。為了解決這個問題,谷歌提出了ALIGN模型[59],使用超過10億圖像文本對的噪聲數(shù)據(jù)集,基于對比學(xué)習(xí)損失,來學(xué)習(xí)對齊圖像文本對的視覺-語言表示。ALIGN證明了大規(guī)模的語料庫可以掩蓋數(shù)據(jù)內(nèi)部存在的噪聲,只使用簡單的學(xué)習(xí)方式,模型也能學(xué)習(xí)到良好的特征表示。
視覺-語言大模型研究方興未艾,還存在許多挑戰(zhàn)和潛在的研究方向。Transformer的出現(xiàn)使得圖像和文字可以通過相同的方式進(jìn)行學(xué)習(xí),若采用統(tǒng)一的Transformer架構(gòu)同時處理圖像和文字輸入可以有效提升預(yù)訓(xùn)練的效率;目前大多數(shù)視覺-語言模型僅使用單一語言進(jìn)行預(yù)訓(xùn)練,采用多種語言文本進(jìn)行預(yù)訓(xùn)練可以提高模型在不同語言環(huán)境下的泛化性;此外,視覺語言模型的高效輕量化也是值得探索的方向。
2017年,谷歌提出了Transformer架構(gòu)[48],由于其出色的模型容量和并行能力,Transformer已經(jīng)成為開發(fā)各種大模型的標(biāo)準(zhǔn)骨干模型,基于Transformer架構(gòu)可以將大模型擴(kuò)展到數(shù)百億甚至數(shù)千億參數(shù)規(guī)模。
自注意力(Self Attention,SA)是Transformer中的基本模塊。SA通過3個可學(xué)習(xí)的線性映射矩陣WQ,WK,WV將輸入序列投影為一組維度為C的查詢Q、鍵K和值V,然后通過以下公式計算得到自注意力權(quán)重:
(3)
通過對輸入序列進(jìn)行線性變換,SA能夠捕捉輸入序列的語義特征和遠(yuǎn)距離的依賴關(guān)系。多頭自注意力(Multi-head Self-Attention,MSA)是自注意力的擴(kuò)展,由n個自注意力頭構(gòu)成,通過并行實(shí)現(xiàn)注意力操作,經(jīng)過線性投影層后將所有自注意力頭的輸出進(jìn)行拼接:
MSA(Q,K,V)=Concat(SA1,SA2,…,SAn)*WO,
(4)
式中:WO表示線性變換矩陣,SAn表示第n個自注意力頭的輸出。
Transformer的模型架構(gòu)如圖3所示,由多個編碼器和解碼器疊加構(gòu)成,每個編碼器由2個基本模塊組成,即MSA模塊和前饋全連接(Feed Forward Network,FFN)模塊。MSA模塊利用自注意力機(jī)制學(xué)習(xí)輸入序列內(nèi)部的相關(guān)關(guān)系,FFN模塊包含激活函數(shù)和2個線性層,MSA模塊和FFN模塊均使用殘差連接和層歸一化(Layer Normalization,LN)結(jié)構(gòu)。給定輸入序列x0,第k個編碼器的輸出如下:
(5)
式中:xpos表示位置嵌入,xk表示第k個編碼器的輸出。解碼器與編碼器的結(jié)構(gòu)稍有不同,由2個多頭自注意力模塊和一個前饋全連接模塊組成,其中一個MSA模塊增加了單向注意力掩碼,使得輸入嵌入向量只能關(guān)注過去的嵌入向量和它本身,確保預(yù)測結(jié)果只依賴于已生成的輸出詞元,然后,掩碼多頭注意力模塊的輸出和編碼器的輸出通過第二個MSA模塊進(jìn)行處理。
圖3 Transformer架構(gòu)示意Fig.3 Schematic diagram of Transformer architecture
視覺Transformer的結(jié)構(gòu)與原始的Transformer類似,輸入由一維語言嵌入序列改為二維圖像塊的向量,然后使用線性層將向量投影為圖像塊嵌入編碼,添加位置編碼標(biāo)記圖像塊的位置。輸入嵌入向量中還添加了類別嵌入向量,三者結(jié)合共同作為視覺Transformer的輸入。
Transformer架構(gòu)有效解決了長序列輸入的長時依賴問題,模型的并行性提高了訓(xùn)練效率,有效緩解了模型過大導(dǎo)致的梯度消失和梯度爆炸問題,在NLP和CV領(lǐng)域的多個任務(wù)中取得了良好效果,為大模型的快速發(fā)展奠定了基礎(chǔ)。
目前,大模型主要基于深層的Transformer架構(gòu)進(jìn)行構(gòu)建,采用和較小的預(yù)訓(xùn)練模型類似的預(yù)訓(xùn)練目標(biāo)。然而,大模型表現(xiàn)出較小的預(yù)訓(xùn)練模型不具有的特點(diǎn)。本節(jié)將討論大模型的特點(diǎn)并探究背后的機(jī)理。
廣泛的研究表明,擴(kuò)展訓(xùn)練數(shù)據(jù)大小或模型大小可以很大程度上提高大模型的能力[7-8,60]。語言大模型可以更好地根據(jù)上下文理解自然語言并生成高質(zhì)量的文本。視覺大模型可以學(xué)習(xí)到通用的視覺表示并泛化到新的圖像域。大模型這一能力提升可以部分通過擴(kuò)展定律來描述,即模型性能大致隨著模型大小、數(shù)據(jù)大小和總運(yùn)算量的增加而提高[60]。GPT-3[8]和PaLM[26]通過將模型大小分別增加到 1 750億和5 400億來探索擴(kuò)展定理的極限。然而,現(xiàn)實(shí)中的計算資源通常是有限的,研究者開始探索模型大小、數(shù)據(jù)大小和模型計算量之間的最佳配置關(guān)系[61-62]。Hoffmann等[61]提出了Chinchilla縮放定律,即當(dāng)可用計算資源增加時,模型大小和數(shù)據(jù)量大小應(yīng)當(dāng)?shù)缺壤鲩L。此外,預(yù)訓(xùn)練數(shù)據(jù)的質(zhì)量極大影響大模型的性能,因此在擴(kuò)展預(yù)訓(xùn)練數(shù)據(jù)庫時,數(shù)據(jù)收集和清洗策略相當(dāng)重要。對大模型擴(kuò)展定理的研究為大模型訓(xùn)練過程提供了較為直觀的理解,使得大模型在訓(xùn)練過程中的表現(xiàn)更加有跡可循。
大模型的涌現(xiàn)能力是指在小模型中不存在但在大模型中出現(xiàn)的能力。即當(dāng)模型規(guī)模超過某個閾值后才能被觀測到的能力。這是區(qū)分大模型與以前的預(yù)訓(xùn)練模型最顯著的特征之一。模型規(guī)模達(dá)到一定水平時,模型性能顯著提高,類似于物理學(xué)中的相變現(xiàn)象,是一種量變引起質(zhì)變的過程。以下將簡單介紹代表性的LLM涌現(xiàn)能力。
上下文學(xué)習(xí)。上下文學(xué)習(xí)能力首先出現(xiàn)在GPT-3模型中。通過輸入自然語言指令,GPT-3可以以完成輸入文本的單詞序列預(yù)測的方式生成期望的輸出,無需額外的訓(xùn)練。
逐步推理。小語言模型通常難以解決涉及多個推理步驟的復(fù)雜任務(wù),例如數(shù)學(xué)問題和代碼生成。通過采用“思維鏈”推理策略[15],LLM可以利用包含中間推理步驟的提示機(jī)制解決這類任務(wù),這種能力可能來自于對代碼的訓(xùn)練。
合適的任務(wù)指令或上下文學(xué)習(xí)策略可以激發(fā)大模型的能力。例如,通過恰當(dāng)?shù)淖匀徽Z言描述任務(wù),對LLM進(jìn)行指令微調(diào),可以提高模型在新任務(wù)上的泛化能力;思維鏈提示有助于模型解決復(fù)雜的邏輯推理和數(shù)學(xué)運(yùn)算任務(wù)。大模型表現(xiàn)出的涌現(xiàn)能力是其解決復(fù)雜任務(wù)的關(guān)鍵,也是實(shí)現(xiàn)通用統(tǒng)一模型的基礎(chǔ)。
大模型的快速發(fā)展為人工智能的研究和應(yīng)用帶來了新的機(jī)遇和方向。然而,大模型研究也面臨一些潛在的問題和挑戰(zhàn)。本節(jié)將介紹大模型所面臨的挑戰(zhàn)性問題以及未來的發(fā)展方向。
大模型采用深度神經(jīng)網(wǎng)絡(luò)架構(gòu),但其可解釋性較差,難以對模型的訓(xùn)練過程和推理結(jié)果進(jìn)行有效的跟蹤和解釋,在實(shí)際應(yīng)用中面臨安全問題,在可靠性要求較高的領(lǐng)域(如自動駕駛、AI醫(yī)療)存在巨大風(fēng)險。此外,研究者對大模型的涌現(xiàn)能力產(chǎn)生機(jī)制仍不清楚。因此,關(guān)于大模型原理和能力的理論研究是一個重要方向,對大模型的實(shí)際應(yīng)用和下一代大模型的發(fā)展至關(guān)重要。
隨著大模型參數(shù)規(guī)模的不斷增大,由模型規(guī)模帶來的性能提升出現(xiàn)邊際遞減效應(yīng)。此外,更大的模型導(dǎo)致了更高的訓(xùn)練成本,包括算力、數(shù)據(jù)和更加復(fù)雜的訓(xùn)練過程。因此,開發(fā)更系統(tǒng)、經(jīng)濟(jì)的預(yù)訓(xùn)練框架以優(yōu)化大模型訓(xùn)練過程變得尤為重要。大模型訓(xùn)練過程需要考慮模型有效性、效率優(yōu)化和訓(xùn)練穩(wěn)定性等因素。此外,還需要更靈活的硬件支持和資源調(diào)度機(jī)制,以便更好地組織和利用計算集群中的資源。
大模型訓(xùn)練所需的大數(shù)據(jù)涉及隱私、倫理問題。例如,訓(xùn)練數(shù)據(jù)被篡改、破壞、泄露或非法獲取,將會對公共安全和個人隱私造成嚴(yán)重?fù)p害。此外,訓(xùn)練數(shù)據(jù)中可能存在粗俗、暴力、色情等內(nèi)容,導(dǎo)致大模型存在偏見問題。因此,大模型的安全和倫理問題也是一個相當(dāng)重要的研究方向。
大模型的發(fā)展為探索AI應(yīng)用鋪平了道路,揭示了許多前景并迎來了前所未有的機(jī)遇。大模型有可能引領(lǐng)未來幾年的技術(shù)變革,帶來新的產(chǎn)業(yè)格局。如圖4所示,大模型在文本、代碼和圖像等領(lǐng)域已經(jīng)得到廣泛應(yīng)用,開始取代文字編輯、記錄等簡單重復(fù)的工作崗位,輔助開發(fā)者編寫程序,進(jìn)行AI藝術(shù)創(chuàng)作等。在電子信息、生物醫(yī)學(xué)等領(lǐng)域,大模型可以加快研究進(jìn)程;大模型與傳統(tǒng)產(chǎn)業(yè)的融合發(fā)展可以幫助企業(yè)提升智能化水平,推進(jìn)實(shí)體經(jīng)濟(jì)智能化發(fā)展。
此外,大模型發(fā)展還將為具身智能帶來變革。具身智能是有身體并支持物理交互的智能體,它能夠像人一樣與真實(shí)物理世界進(jìn)行互動,并具備自主決策、規(guī)劃和主動感知等能力。大模型可將多模態(tài)知識遷移至具身推理中,使機(jī)器人執(zhí)行特定指令,真正具備具身智能。
圖4 大模型的應(yīng)用前景Fig.4 Application prospect of large model
大模型已成為人工智能領(lǐng)域的一個重要發(fā)展方向。從其發(fā)展歷程來看,先后經(jīng)歷了機(jī)器學(xué)習(xí)模型、深度學(xué)習(xí)模型、預(yù)訓(xùn)練模型和大規(guī)模預(yù)訓(xùn)練模型 4個階段。在NLP和CV領(lǐng)域,大模型的發(fā)展不斷刷新相關(guān)任務(wù)的性能,隨著大模型參數(shù)量不斷突破新高,研究者發(fā)現(xiàn)了大模型區(qū)別于普通預(yù)訓(xùn)練模型的新能力,稱之為大模型的涌現(xiàn)能力,這是大模型能夠勝任復(fù)雜任務(wù)的關(guān)鍵。此外,大模型的發(fā)展也面臨許多挑戰(zhàn)性問題,例如模型可解釋性差、訓(xùn)練成本高、存在隱私和倫理風(fēng)險等。未來的大模型參數(shù)規(guī)模發(fā)展可能進(jìn)入平臺期,研究者將更加關(guān)注大模型開發(fā)架構(gòu)的優(yōu)化以及大模型產(chǎn)業(yè)落地的相關(guān)研究,以充分發(fā)揮大模型的能力。