秦濤,杜尚恒,常元元,王晨旭
(西安交通大學(xué)智能網(wǎng)絡(luò)與網(wǎng)絡(luò)安全教育部重點實驗室,710049,西安)
自然語言處理作為人工智能領(lǐng)域的關(guān)鍵技術(shù)之一,具有重要的應(yīng)用價值,在信息提取與知識管理領(lǐng)域,商業(yè)機構(gòu)可利用該技術(shù)布局線上系統(tǒng),開發(fā)智能客服系統(tǒng)自動理解客戶問題并及時響應(yīng)客戶需求,從而協(xié)助辦理業(yè)務(wù),提升服務(wù)效率;也能通過對海量多源數(shù)據(jù)的處理分析,構(gòu)建多層次多維度用戶畫像,制定精細化、個性化服務(wù)方案來優(yōu)化服務(wù)質(zhì)量。監(jiān)管人員[1]可以結(jié)合分詞、實體識別、熱詞發(fā)現(xiàn)和情感傾向分析等技術(shù),對社交媒體數(shù)據(jù)進行情感分析[1-2],盡早發(fā)現(xiàn)負面消極的言論和煽動性的話題,采用信息抽取與文本聚類技術(shù)從信息流中檢測并聚合突發(fā)事件,并利用網(wǎng)絡(luò)分析和深度學(xué)習(xí)技術(shù)分析事件在社交網(wǎng)絡(luò)中的傳播途徑,理解信息的擴散模式從而進行事件演化與趨勢預(yù)測,為輿情管控和引導(dǎo)提供決策支持,推動社會管理的智能化和精細化。但是,自然語言處理技術(shù)的發(fā)展仍受到可用標注數(shù)據(jù)稀缺、數(shù)據(jù)多源時變、語義信息多樣復(fù)雜等問題的困擾。
正是在這樣的需求推動下,領(lǐng)域內(nèi)的技術(shù)框架不斷更新進步,自然語言處理技術(shù)的演進階段可以分為小規(guī)模專家知識、淺層機器學(xué)習(xí)[3]、深度學(xué)習(xí)[4]、預(yù)訓(xùn)練語言模型[5]等,每個技術(shù)階段的演進周期大致為前一階段的一半,迭代速度越發(fā)迅速。ChatGPT作為大規(guī)模預(yù)訓(xùn)練模型的一種典型代表,極大地推動了自然語言處理技術(shù)的發(fā)展,引發(fā)了自然語言處理研究范式的轉(zhuǎn)變,其通過大規(guī)模的預(yù)訓(xùn)練和上下文理解,具備了生成自然語言文本的能力,可以進行對話、回答問題和提供信息等任務(wù),與人類交互的能力更加自然和靈活。
為進一步理解ChatGPT,本文首先介紹ChatGPT的模型架構(gòu)和技術(shù)演進過程,然后回顧了其所用的核心技術(shù),包括提示學(xué)習(xí)、思維鏈和基于人類反饋的強化學(xué)習(xí),這些技術(shù)共同構(gòu)成了ChatGPT的基礎(chǔ)框架,使其能夠在各種情景下生成連貫且自然的文本回應(yīng)。然后,結(jié)合ChatGPT運行原理,本文分析了其面臨的缺陷與挑戰(zhàn),包括生成不準確或具有誤導(dǎo)性的信息、潛在的惡意應(yīng)用風(fēng)險以及對話中的道德和隱私問題等。最后,針對ChatGPT在特定領(lǐng)域的缺陷與不足,結(jié)合實際應(yīng)用,探討了ChatGPT未來可能的發(fā)展方向,包括對訓(xùn)練語料進行道德篩選、采用遷移學(xué)習(xí)[6]和領(lǐng)域適應(yīng)技術(shù)、引入外部專家知識[7]、增強多模態(tài)處理能力[8]等途徑來優(yōu)化改進。
GPT(generative pre-trained transformer)[9]是由OpenAI提出的采用Transformer解碼器的預(yù)訓(xùn)練模型,采用預(yù)訓(xùn)練加微調(diào)的范式。為深入理解ChatGPT,本節(jié)簡要分析ChatGPT的模型架構(gòu)和其演進進程。
ChatGPT的主體架構(gòu)遵從“基礎(chǔ)語料+預(yù)訓(xùn)練+微調(diào)”的基本范式,如圖1所示?!邦A(yù)訓(xùn)練+微調(diào)”是指首先在大數(shù)據(jù)集上訓(xùn)練得到一個具有強泛化能力的模型(預(yù)訓(xùn)練模型),然后在下游任務(wù)上進行微調(diào)的過程,是基于模型的遷移方法。
海量高質(zhì)量的基礎(chǔ)語料是ChatGPT技術(shù)突破的關(guān)鍵因素。其語料體系包括預(yù)訓(xùn)練語料與微調(diào)語料,后者包括代碼和對話微調(diào)語料。預(yù)訓(xùn)練語料包括從書籍、雜志、百科等渠道收集的海量文本數(shù)據(jù),具體分布見表1[10],提供了豐富的語義語境和詞匯,幫助模型深入學(xué)習(xí)理解自然語言中的基礎(chǔ)詞匯與邏輯關(guān)系表達規(guī)則;微調(diào)語料包括從開源代碼庫爬取、專家標注、用戶對話等方式加工而成的高質(zhì)量標注文本數(shù)據(jù),進一步增強其對話能力。
圖1 ChatGPT架構(gòu)示意圖Fig.1 Diagram of ChatGPT architecture
表1 GPT系列預(yù)訓(xùn)練語料數(shù)據(jù)大小[10]
預(yù)訓(xùn)練是構(gòu)建大規(guī)模語言模型的基礎(chǔ),指先在大規(guī)模訓(xùn)練數(shù)據(jù)上進行大量通用的訓(xùn)練,采用無監(jiān)督學(xué)習(xí)方法以得到通用且強泛化能力的語言模型。在大規(guī)模數(shù)據(jù)的基礎(chǔ)上,通過預(yù)訓(xùn)練,模型初步具備了人類語言理解和上下文學(xué)習(xí)的能力,能夠捕捉文本片段和代碼片段的語義相似性特征,從而生成更準確的文本和代碼向量,為后續(xù)微調(diào)任務(wù)提供支持。
微調(diào)是實現(xiàn)模型實際應(yīng)用的保障,是指在特定任務(wù)的數(shù)據(jù)集上對預(yù)訓(xùn)練模型進行進一步的訓(xùn)練,通常包括凍結(jié)預(yù)訓(xùn)練模型的底層層級(如詞向量)與調(diào)整上層層級(如分類器)的權(quán)重。對預(yù)訓(xùn)練模型微調(diào)將大大縮短訓(xùn)練時間,節(jié)省計算資源并加快訓(xùn)練收斂速度。ChatGPT在具有強泛化能力的預(yù)訓(xùn)練模型基礎(chǔ)上,通過整合基于代碼數(shù)據(jù)的訓(xùn)練和基于指令的微調(diào),利用特定的數(shù)據(jù)集進行微調(diào),使之具有更強的問答式對話文本生成能力。其“預(yù)訓(xùn)練+微調(diào)”的流程如圖2所示。
圖2 “預(yù)訓(xùn)練+微調(diào)”流程Fig.2 Pre-training and fine-tuning flow chart
GPT-1[9]是比BERT[11]提出更早的預(yù)訓(xùn)練模型,但與BERT相比效果較差。GPT-1奠定了關(guān)鍵的技術(shù)路徑,后續(xù)的系列模型采用類似的架構(gòu)(例如BART[12]和GPT-2[13])以及預(yù)訓(xùn)練策略[14-16]。GPT系列是一種基于自回歸解碼的、僅包含解碼器的Transformer架構(gòu)開發(fā)的生成式預(yù)訓(xùn)練模型,這種架構(gòu)具有自回歸(AR)特性,它利用多層堆疊的Transformer解碼器架構(gòu)進行解碼。
自回歸是統(tǒng)計學(xué)中處理時間序列的方法,用同一變量之前各時刻的觀測值預(yù)測該變量當(dāng)前時刻的觀測值。類似地,自回歸生成模型的基本思想是在序列生成的過程中,每個位置的元素都依賴于前面已經(jīng)生成的元素。自回歸模型適用于各種序列到序列的任務(wù),它又分為線性自回歸和神經(jīng)自回歸兩種,基于Transformer解碼器的自回歸模型屬于后者,其生成過程如圖3所示。
圖3 自回歸生成模型生成過程Fig.3 Autoregressive model generation process
圖4 GPT-1生成過程Fig.4 GPT-1 generation process
GPT-2[13]通過模型結(jié)構(gòu)的改進,在下游任務(wù)的微調(diào)上取得了更好的結(jié)果。GPT-2在以下兩個方面進行了優(yōu)化。
(1)擴大參數(shù)規(guī)模。使用更多高質(zhì)量的網(wǎng)頁數(shù)據(jù),將模型參數(shù)規(guī)模擴大到1.5×109。
(2)更自然的任務(wù)模型融合方式。GPT-2將下游任務(wù)通過prompt方式加入到預(yù)訓(xùn)練模型中,從而讓模型獲得零樣本學(xué)習(xí)的能力,即引入了一種多任務(wù)求解的概率形式,通過給定輸入與任務(wù)條件對結(jié)果進行預(yù)測。
雖然GPT-2在下游任務(wù)的微調(diào)中并沒有BERT模型表現(xiàn)優(yōu)越,但其更自然的任務(wù)融合方式為后續(xù)ChatGPT的指令理解能力奠定了基礎(chǔ),即對輸入文本信息按照特定模板進行處理,將任務(wù)重構(gòu)成一個更能充分利用語言模型處理的形式。
通過上述方式,每個自然語言處理的任務(wù)都可以被視作基于世界文本子集的單詞預(yù)測問題[18]。這種思想表明,只要模型足夠大、學(xué)到的知識足夠豐富,任何有監(jiān)督任務(wù)都可以通過無監(jiān)督的方式來完成,GPT-2下游任務(wù)中的對話任務(wù)[19-20]更是進行了全面的微調(diào),為后續(xù)的ChatGPT對話奠定了基礎(chǔ)。
在GPT-2的基礎(chǔ)上,GPT-3[21]通過擴展生成預(yù)訓(xùn)練架構(gòu),實現(xiàn)了容量飛躍。GPT-3的顯著特點就是規(guī)模大。由于GPT-2的實驗中發(fā)現(xiàn)隨著參數(shù)規(guī)模的增大其效果的增長依舊顯著[22-23],因此選擇繼續(xù)擴大參數(shù)規(guī)模,用更多優(yōu)質(zhì)的數(shù)據(jù),一方面是模型本身規(guī)模大,參數(shù)量眾多,具有96層Transformer解碼器,每一層有96個128維的注意力頭,單詞嵌入的維度也達到了12 288維;另一方面是訓(xùn)練過程中使用到的數(shù)據(jù)集規(guī)模大,達到了45 TB,參數(shù)規(guī)模達到1.75×1011。
此外,GPT-3在模型能力上轉(zhuǎn)變思路,采用情景學(xué)習(xí)的思想,使模型能夠在少樣本學(xué)習(xí)上取得較好的效果。大量實驗證明GPT-3在少樣本情況下具有良好的表現(xiàn),如圖6所示。
由于規(guī)模巨大,GPT-3在各領(lǐng)域均有廣泛的應(yīng)用,衍生了多種應(yīng)用生態(tài),被視為從預(yù)訓(xùn)練模型發(fā)展到大模型過程中的一個里程碑。
盡管GPT-3擁有大量知識,但生成文本質(zhì)量不一且語言表達冗余,ChatGPT通過人工標注的微調(diào),引導(dǎo)模型輸出更有價值的文本結(jié)果,即實施了人類反饋的強化學(xué)習(xí)機制。
OpenAI對于混合人類反饋增強機器智能的研究可以追溯到2017年[24],并且在當(dāng)年發(fā)布了近端策略優(yōu)化(PPO)[25]算法作為強化學(xué)習(xí)的基礎(chǔ)算法,該算法通過多個訓(xùn)練步驟實現(xiàn)小批量更新,以克服傳統(tǒng)策略梯度算法中步長難確定、可能導(dǎo)致學(xué)習(xí)性能下降的問題,引入保守的策略更新機制有效緩解了策略更新過快導(dǎo)致的不穩(wěn)定性,提高了訓(xùn)練的魯棒性和穩(wěn)定性。PPO算法根據(jù)當(dāng)前策略與環(huán)境互動產(chǎn)生軌跡,并記錄各狀態(tài)、動作與獎勵,使用軌跡信息更新策略限制策略步長,使得目標散度既足以顯著改變策略,又足以使更新穩(wěn)定,防止新舊策略過遠,并在每次更新后重新計算優(yōu)勢函數(shù)。
具體來說,近端策略優(yōu)化算法的流程如下。
(1)初始化。初始化網(wǎng)絡(luò)參數(shù)θ和值函數(shù)參數(shù)φ。強化學(xué)習(xí)中,值函數(shù)通常用于估計一個給定狀態(tài)s在當(dāng)前策略πθ下的期望累積折扣獎勵。這個函數(shù)通常用神經(jīng)網(wǎng)絡(luò)或其他函數(shù)逼近器來表示,逼近器的參數(shù)記作φ。
(2)數(shù)據(jù)收集。在環(huán)境中用當(dāng)前策略πθ進行多步操作,收集狀態(tài)st、動作at和獎勵rt。狀態(tài)st用于描述環(huán)境在某一時刻的觀察結(jié)果。動作at是智能體在某一狀態(tài)下決定執(zhí)行的操作。獎勵rt是環(huán)境給予智能體的反饋,用于量化智能體執(zhí)行某個動作的效果或價值。
(3)優(yōu)勢函數(shù)估計。對每一個狀態(tài)s,使用累計折扣獎勵和值函數(shù)Vφ(st)來估計優(yōu)勢函數(shù)A,用于量化一個動作相對于平均情況下的預(yù)期效果或好處。
(4)策略更新。將當(dāng)前策略備份為πold。通過目標函數(shù)JPPO(θ)來更新策略。目標函數(shù)JPPO(θ)為組合了優(yōu)勢函數(shù)和舊策略的有界目標函數(shù),包括KL散度項用于確保新舊策略不會相差太遠,是一個綜合考慮策略改進和穩(wěn)定性的目標函數(shù)。
(5)值函數(shù)更新。使用損失函數(shù)LBL(φ)來更新值函數(shù)Vφ(st)。損失函數(shù)LBL(φ)量化了實際累計獎勵和值函數(shù)預(yù)測之間的誤差,通常定義為均方差誤差,更新次數(shù)由參數(shù)B控制。
(6)適應(yīng)性調(diào)整正則化系數(shù)λ。如果新舊策略之間的KL散度超過了一個高閾值,增大λ以減少策略更新幅度。反之,如果KL散度低于一個低閾值,減小λ以允許更大幅度的策略更新。
(7)循環(huán)。以上步驟會被重復(fù)N次,以不斷優(yōu)化策略和值函數(shù)。
OpenAI在GPT-2時便開始使用上述強化學(xué)習(xí)算法[24-25]來進行微調(diào),同年以類似方法訓(xùn)練了文本摘要模型[26]。
ChatGPT的前身,InstructGPT[27]模型正式使用了基于人類反饋強化學(xué)習(xí)(RLHF)算法,通過結(jié)合智能體自主學(xué)習(xí)與人類專家反饋兩種策略,選擇基于策略梯度的算法搭建強化學(xué)習(xí)模型從而訓(xùn)練智能體,并在每個時間步上記錄智能體行為并且由人類專家對其進行評估反饋,以進行參數(shù)更新優(yōu)化行為策略。該算法的第一階段[27]是指令調(diào)優(yōu)。除了提高指令理解能力外,RLHF算法還有助于緩解大模型產(chǎn)生危害或不當(dāng)內(nèi)容的問題,這也是大模型在安全實踐部署的關(guān)鍵。OpenAI在技術(shù)文章[27]中描述了他們的對齊研究方法,該文章總結(jié)了3個有希望的方向,即“使用人類反饋訓(xùn)練AI系統(tǒng),幫助人類評估和進行對齊研究”。
GPT-4是對ChatGPT的多模態(tài)升級,可對圖文輸入產(chǎn)生應(yīng)答文字,并可引用于視覺分類分析、隱含語義等領(lǐng)域。多模態(tài)輸入能力對語言模型至關(guān)重要,使其可以獲得除文本描述外的常識性知識,并為多模態(tài)感知與語義理解的結(jié)合提供了可能性。
新范式可歸納為“預(yù)訓(xùn)練+提示+預(yù)測”。各種下游任務(wù)被調(diào)整為類似預(yù)訓(xùn)練任務(wù)的形式,尤其GPT-4的多模態(tài)提示工程針對多模態(tài)數(shù)據(jù)集,涉及合適的模型架構(gòu)參數(shù)、精心設(shè)計的提示格式結(jié)構(gòu)和選定的數(shù)據(jù)微調(diào)模型,來使得模型生成高質(zhì)量文本。
傳統(tǒng)的監(jiān)督學(xué)習(xí)使用包含輸入x與標簽y的數(shù)據(jù)集來訓(xùn)練一個模型P(y|x;θ),從而學(xué)習(xí)模型參數(shù)θ預(yù)測條件概率。提示學(xué)習(xí)[28]試圖學(xué)習(xí)模擬概率P(x;θ)的x本身來預(yù)測y,從而減少或消除對大型監(jiān)督數(shù)據(jù)集的需求。
(1)
通過編輯任務(wù)的輸入,提示學(xué)習(xí)在形式上模擬模型訓(xùn)練中的數(shù)據(jù)與任務(wù)。以情感分類任務(wù)為例,相比于監(jiān)督學(xué)習(xí)中輸入一句話,模型輸出情感分類判斷,提示學(xué)習(xí)是設(shè)計一種模板,將原有語句嵌入其中,為模型留出判斷類別的位置,讓模型做類似完形填空的工作生成情感類別。提示學(xué)習(xí)旨在激發(fā)語言模型的補全能力,指令精調(diào)(instruction tuning)[29]則是提示學(xué)習(xí)的加強版,激發(fā)模型的理解能力。通過指令調(diào)優(yōu),模型能夠在不使用顯式示例的情況下遵循新任務(wù)的任務(wù)指令,從而提高了泛化能力[29-30],即便在多語言環(huán)境下也有卓越能力[31]。這種學(xué)習(xí)人類交互模式的分布讓模型可以更好地理解人類意圖[32]、與人類行為對齊[27]。從解釋性上來說,這類似于打開大門的鑰匙,從大模型在預(yù)訓(xùn)練中學(xué)習(xí)到的龐大知識中激活特定的部分完成指定任務(wù)。ChatGPT能響應(yīng)人類指令的能力就是指令微調(diào)的直接產(chǎn)物,對沒有見過的指令做出反饋的泛化能力是在指令數(shù)超過一定程度之后自動出現(xiàn)的,T0 模型[15]、Flan模型[29]等工作都進一步證明了這一點。
對于模型未訓(xùn)練的新任務(wù),只需設(shè)計任務(wù)的語言描述,并給出任務(wù)實例作為模型輸入,即可讓模型從給定的情景中學(xué)習(xí)新任務(wù)并給出恰當(dāng)?shù)幕卮鸾Y(jié)果。這種訓(xùn)練方式能夠有效提升模型小樣本學(xué)習(xí)[33]的能力。
谷歌研究人員Wei等提出了思維鏈(chain of thought, COT)[34]的概念,即在小樣本提示學(xué)習(xí)中插入一系列中間推理的步驟示范,從而有效提高語言模型的推理能力。與一般的提示詞不同,思維鏈提示由多個分別解釋子問題的中間步驟組成,提示詞模式從之前的問題、答案變成輸入問題、思維鏈、輸出問題。如圖7所示,以數(shù)學(xué)計算解答為例,一般的提示詞模板通過輸入內(nèi)嵌入樣例,使得模型學(xué)習(xí)任務(wù)答案,而思維鏈提示詞增加推理步驟,參考人類解決問題方法,嵌入自然語言形式的推理步驟直至答案生成。在思維鏈的加持下,通過將問題分解為一系列的分步推理,根據(jù)前一步驟結(jié)果與當(dāng)前問題要求共同推斷下一步驟。通過這種逐步推理的方式,模型可以逐漸獲得更多信息,并在整個推理過程中累積正確的推斷,從而大幅度提升模型在復(fù)雜推理時的準確率,表現(xiàn)在數(shù)學(xué)計算結(jié)果的正確與否,同時也為模型的推理行為提供了一個可解釋的窗口[27,35-36]。
圖7 思維鏈示意圖Fig.7 Diagram of chain of thought
人類反饋強化學(xué)習(xí)[24,37]是ChatGPT實現(xiàn)理解人類指令、對齊人類行為[38-39]的重要技術(shù)。圖8所示為模型訓(xùn)練過程。此算法[40]在強化學(xué)習(xí)[41]的框架下大體可以分為3個階段。
(1)深度模型訓(xùn)練,對應(yīng)圖8中的第一步。利用大規(guī)模的文本數(shù)據(jù),對每一個給定的提示,深度模型會生成一個初始的回復(fù),然后返還給標注人員。標注人員檢查并評價這個回復(fù),這種方法允許從人類反饋中獲得有價值的修正建議和方向,從而提高模型的準確性和可靠性。收集到這些經(jīng)過人類評估和修正的數(shù)據(jù)后,使用監(jiān)督學(xué)習(xí)(supervised fine-tuning)方法來在GPT-3模型上進行微調(diào)。
(2)獎勵模型訓(xùn)練[42],對應(yīng)圖8中第2步。該階段旨在獲取擬合人類偏好的獎勵模型。獎勵模型以提示和回復(fù)作為輸入,計算標量獎勵值作為輸出。獎勵模型的訓(xùn)練過程通過擬合人類對于不同回復(fù)的傾向性實現(xiàn)。具體而言,首先基于在人類撰寫數(shù)據(jù)上精調(diào)的模型,針對同一提示采樣多條不同回復(fù)。然后,將回復(fù)兩兩組合構(gòu)成一條獎勵模型訓(xùn)練樣本,由人類給出傾向性標簽。最終,獎勵模型通過每條樣本中兩個回復(fù)的獎勵值之差計算傾向性概率擬合人類標簽,完成獎勵模型的訓(xùn)練。
(3)生成策略優(yōu)化與迭代,對應(yīng)圖8中第3步。給定訓(xùn)練的獎勵模型,GPT模型的參數(shù)將被視為一種策略,在強化學(xué)習(xí)的框架下進行訓(xùn)練。首先,當(dāng)前策略根據(jù)輸入的查詢采樣回復(fù)。然后,獎勵模型針對回復(fù)的質(zhì)量計算獎勵、反饋回當(dāng)前策略用以更新。
圖8 ChatGPT訓(xùn)練過程示意圖Fig.8 Diagram of ChatGPT training process
為防止上述過程的過度優(yōu)化,損失函數(shù)引入了詞級別的KL懲罰項。此外,為了避免在公開NLP數(shù)據(jù)集上的性能退化,策略更新過程兼顧了預(yù)訓(xùn)練損失。
雖然ChatGPT在多個任務(wù)中都表現(xiàn)出不錯的性能,其現(xiàn)有運行原理決定了其有很多局限性。
(1)對某個領(lǐng)域的深入程度不夠[35,43],因此生成的內(nèi)容可能不夠合理。此外,ChatGPT也存在潛在的偏見問題,因為它是基于大量數(shù)據(jù)訓(xùn)練的,訓(xùn)練數(shù)據(jù)中的固有偏差會滲透到神經(jīng)網(wǎng)絡(luò)中,導(dǎo)致模型會受到數(shù)據(jù)中存在的偏見的影響[27,44]。
(2)對抗魯棒性[45]。對抗魯棒性在自然語言處理與強化學(xué)習(xí)中是決定系統(tǒng)適用性的關(guān)鍵要素[46],對于干擾示例x′=x+δ,其中,x指原始輸入,δ指擾動,高魯棒性系統(tǒng)會產(chǎn)生原始輸出y,而低魯棒性系統(tǒng)會產(chǎn)生不一樣的輸出y′。ChatGPT容易受到對抗性攻擊,例如數(shù)據(jù)集中攻擊[47]、后門攻擊[48]和快速特定攻擊[49]等,從而誘導(dǎo)模型產(chǎn)生有害輸出。
(3)安全保障。由于ChatGPT是一種強大的人工智能技術(shù),它可能被惡意利用,造成嚴重的安全隱患及產(chǎn)生法律風(fēng)險[50]。同時,它的答復(fù)尚不明確是否具有知識產(chǎn)權(quán),從而可能產(chǎn)生不利的社會影響[51]。因此,開發(fā)者在設(shè)計和使用ChatGPT時,需要采取相應(yīng)措施,例如去偏方法和校準技術(shù)[52]來保障安全性問題。
(4)推理可信度。與其他神經(jīng)網(wǎng)絡(luò)類似,ChatGPT很難精確地表達其預(yù)測的確定性[53],即所謂的校準問題,導(dǎo)致代理輸出與人類意圖不一致[54]。它有時會回答荒謬的內(nèi)容,這也是目前發(fā)現(xiàn)的最為普遍的問題,即對于不知道或不確定的事實,它會強行根據(jù)用戶的輸入毫無根據(jù)地展開論述[55],產(chǎn)生偏離事實的文本。
(5)可解釋性差。黑盒特性使得ChatGPT的回答看似合理但卻無跡可尋,同時由于它沒有辦法通過充足的理由去解釋它的回答是否正確,導(dǎo)致在一些需要精確、嚴謹?shù)念I(lǐng)域沒有辦法很好的應(yīng)用[56]。此外,它也可能在表述的時候存在語法錯誤或不合理的表述。
(6)無法在線更新近期知識。目前的范式增加新知識的方式只能通過重新訓(xùn)練大模型。現(xiàn)有研究探索了利用外部知識源來補充大模型[57],利用檢索插件來訪問最新的信息源[58],然而,這種做法似乎仍然停留在表面上。研究結(jié)果表明,很難直接修正內(nèi)在知識或?qū)⑻囟ㄖR注入大模型,這仍然是一個懸而未決的研究問題[59]。
ChatGPT在自然語言處理技術(shù)的發(fā)展中有里程碑式的意義,在語言和意圖理解、推理、記憶以及情感遷移方面具有強大的能力,在決策和計劃方面表現(xiàn)出色,只需一個任務(wù)描述或演示,就可以有效地處理以前未見過的任務(wù)。此外,ChatGPT可以適應(yīng)不同的語言、文化和領(lǐng)域,具有通用性,減少了復(fù)雜的培訓(xùn)過程和數(shù)據(jù)收集的需要[60],在各領(lǐng)域得到了廣泛應(yīng)用。
在學(xué)術(shù)界積極探索能力背后的技術(shù)原因的同時,工業(yè)界已將ChatGPT優(yōu)異的對話生成能力融入各種場景中,根據(jù)對話對象的不同,將應(yīng)用分為以下幾種層次。
(1)數(shù)據(jù)生成加工。利用ChatGPT強大的信息搜索與整合能力,用戶根據(jù)自身需求直接返回特定數(shù)據(jù),主要應(yīng)用場景包括文案生成、代碼生成和對話生成等。同時,其可以充當(dāng)知識挖掘工具對數(shù)據(jù)進行再加工,一些在線應(yīng)用可幫助翻譯、潤色等,例如文檔分析工具ChatPDF。
(2)模型調(diào)度。ChatGPT可以調(diào)用其他機器學(xué)習(xí)模型共同完成用戶需求并輸出結(jié)果,例如微軟近期發(fā)布的HuggingGPT。作為人類與其他模型的智能中臺,其有望解決AI賦能長期面臨的痛點問題,實現(xiàn)模塊化模型管理、簡化技術(shù)集成部署,提高賦能效率。
(3)人機混合交互。ChatGPT一定程度上統(tǒng)一了人類語言與計算機語言,使得人機交互界面從鍵盤鼠標圖形進化到自然語言接口。微軟的365 Copilot將其嵌入到Office,極大地提高了人機自然交互體驗;OpenAI近期發(fā)布的Plugins插件集嘗試了大語言模型應(yīng)用的開發(fā)框架。在未來其有望成為智能時代的操作系統(tǒng),調(diào)用更廣泛的應(yīng)用程序解決實際問題。
結(jié)合實際應(yīng)用中可能存在的問題和實際應(yīng)用需求,對ChatGPT在具體領(lǐng)域存在問題的可能解決方案進行了分析討論。
(1)商業(yè)服務(wù)優(yōu)化領(lǐng)域。提升商品服務(wù)質(zhì)量[61]需要對用戶評論進行細粒度情感分析,通常需要對特定商品領(lǐng)域的知識有深入的理解。然而,ChatGPT作為通用語言模型,可能缺乏不同商品領(lǐng)域中的專業(yè)知識,這可能導(dǎo)致模型無法準確識別和分析特定領(lǐng)域的優(yōu)缺點??梢钥紤]利用遷移學(xué)習(xí)的方法,將ChatGPT在通用領(lǐng)域中的知識遷移到特定領(lǐng)域中,使ChatGPT更加適應(yīng)特定領(lǐng)域的問題和需求。
(2)智慧醫(yī)療領(lǐng)域。ChatGPT在醫(yī)療領(lǐng)域可以做為輔助工具用作醫(yī)療診斷與腫瘤圖像分割[62],有助于精準醫(yī)療、靶向治療等方案的落實。然而,目前ChatGPT主要針對文本進行處理,對于其他模態(tài)的信息理解相對較弱,這使得模型應(yīng)用僅限制在輔助診斷和醫(yī)療數(shù)據(jù)挖掘等方面,無法融合其他模態(tài)的信息來增強模型通用性與泛化性。因此為了實現(xiàn)更加有效表達的通用人工智能模型,需要進行多模態(tài)聯(lián)合學(xué)習(xí),關(guān)注內(nèi)容關(guān)聯(lián)特性與跨模態(tài)轉(zhuǎn)換問題。此外,風(fēng)險責(zé)任問題、溝通限制狀況以及模型引發(fā)的算法偏見與個人隱私安全問題同樣不容忽視。
(3)輿情監(jiān)管引導(dǎo)領(lǐng)域。輿情引導(dǎo)和特定內(nèi)容生成[63]需要在構(gòu)建訓(xùn)練數(shù)據(jù)階段進行意圖對齊和質(zhì)量篩選。由于GPT系列的訓(xùn)練語料來自于西方的語言價值框架,受到模型訓(xùn)練數(shù)據(jù)的偏見和傾向性影響,ChatGPT生成內(nèi)容中存在對于中國的大量偏見言論,不一定符合中國的價值觀,這可能引發(fā)輿情操縱和認知戰(zhàn)[64]的風(fēng)險。因此訓(xùn)練國產(chǎn)大模型時需要對訓(xùn)練數(shù)據(jù)進行篩選,構(gòu)建合適公正的中文語料,并不斷維護更新基礎(chǔ)詞庫。
很多研究者認為ChatGPT開啟了第四次技術(shù)革命,其作為催化劑整合人工智能學(xué)科,并激發(fā)學(xué)術(shù)界與工業(yè)界深入探討和實踐交叉學(xué)科與跨學(xué)科應(yīng)用[65]的可能性,科技部近期啟動的“AI for Science”專項部署工作也從一定程度上反映了國家導(dǎo)向。未來其從應(yīng)用拓展上將呈現(xiàn)垂直化、個性化與工程化,如何增強其人機交互協(xié)同性,如考慮生物學(xué)特性、身體感知等因素;以及如何增強模型可信性,構(gòu)建新的可信測試基準,都是未來可能的發(fā)展趨勢。
本文探討了ChatGPT在自然語言處理領(lǐng)域發(fā)展中的地位以及未來可能的發(fā)展方向,著重分析了GPT系列模型的演進以及核心技術(shù),包括語料體系、提示學(xué)習(xí)、思維鏈和基于人類反饋的強化學(xué)習(xí)等。隨后,分析了其存在的顯著缺陷,如理解與推理能力的局限性、專業(yè)知識的不深入、事實的不一致性以及信息安全泄露等風(fēng)險;最后,結(jié)合實際應(yīng)用,ChatGPT有著很大的改進和發(fā)展空間,包括采用遷移學(xué)習(xí)和領(lǐng)域適應(yīng)技術(shù)、引入外部專家知識、增強多模態(tài)處理能力、篩選訓(xùn)練語料等都是可能的解決方案與發(fā)展趨勢。通過上述分析,本文對深入理解ChatGPT和在相關(guān)領(lǐng)域展開進一步研究提供參考。