盧宇 余京蕾 陳鵬鶴 李沐云
摘要:生成式人工智能(Generative Artificial Intelligence)旨在利用人工智能技術(shù)自動(dòng)化生成文本、圖像、視頻、音頻等多模態(tài)數(shù)據(jù),受到教育領(lǐng)域的廣泛關(guān)注。其中,ChatGPT系統(tǒng)因其良好的自然語言理解和生成能力,體現(xiàn)出較高的多領(lǐng)域應(yīng)用潛力。本研究以ChatGPT作為主要對象,基于其四項(xiàng)核心能力,即啟發(fā)性內(nèi)容生成能力、對話情境理解能力、序列任務(wù)執(zhí)行能力和程序語言解析能力,探討在教師教學(xué)、學(xué)習(xí)過程、教育評(píng)價(jià)、學(xué)業(yè)輔導(dǎo)四個(gè)方面的潛在教育應(yīng)用。在此基礎(chǔ)上,在真實(shí)系統(tǒng)中進(jìn)行了習(xí)題生成、自動(dòng)解題、輔助批閱等教育應(yīng)用的初步驗(yàn)證。最后,本文進(jìn)一步探討了以ChatGPT為代表的生成式人工智能在教育應(yīng)用中所面臨的局限和對教育的啟示。
關(guān)鍵詞:生成式人工智能;ChatGPT;大語言模型;人工智能教育應(yīng)用
中圖分類號(hào):G434? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A? ? ? ? ?文章編號(hào):1009-458x(2023)4-0024-09
一、引言
2017年7月由國務(wù)院印發(fā)的《新一代人工智能發(fā)展規(guī)劃》中提出了我國對人工智能發(fā)展的戰(zhàn)略規(guī)劃,明確指出要抓住人工智能發(fā)展的重大歷史機(jī)遇(國務(wù)院, 2017)。2022年11月,生成式人工智能系統(tǒng)ChatGPT正式發(fā)布(OpenAI, 2022),迅速成為教育領(lǐng)域關(guān)注和討論的焦點(diǎn)。生成式人工智能(Generative Artificial Intelligence)指通過人工智能相關(guān)技術(shù),自動(dòng)化生成文本、圖像、視頻、音頻等多類型內(nèi)容。近年來,隨著人工智能技術(shù)、算力水平與可獲取數(shù)據(jù)量的提升,生成式人工智能技術(shù)依托語言、圖像以及多模態(tài)大模型(Foundation Model),可以實(shí)現(xiàn)較好的內(nèi)容生成效果(Bommasani et al., 2021),并在傳媒、零售、法律、醫(yī)療、金融等領(lǐng)域逐步開始提供專業(yè)化與個(gè)性化內(nèi)容生成服務(wù)。
針對生成式人工智能技術(shù),國內(nèi)外產(chǎn)業(yè)界與學(xué)術(shù)界都開展了較多的前期研發(fā)與投入。國內(nèi)以百度為代表的AI企業(yè)致力于研發(fā)基于大模型的生成式人工智能系統(tǒng),并實(shí)現(xiàn)快速落地。例如,ERNIE 3.0(Zhang et al., 2019)是基于知識(shí)增強(qiáng)的大語言模型,通過增強(qiáng)學(xué)習(xí)通識(shí)性知識(shí),可進(jìn)行具備知識(shí)可靠性的高質(zhì)量文本創(chuàng)作;ERNIE-ViLG 2.0(Ho et al., 2020)作為多模態(tài)大模型,可通過輸入文字描述,生成具備較好清晰度、可控性與創(chuàng)造性的圖像,并基于擴(kuò)散模型增強(qiáng)圖文關(guān)鍵信息獲取以及進(jìn)行降噪過程優(yōu)化。國外以O(shè)penAI公司為典型代表,在跨模態(tài)內(nèi)容生成、自然語言內(nèi)容生成等領(lǐng)域,都做出了引領(lǐng)性貢獻(xiàn)。例如,DALL·E 2(OpenAI, 2022)跨模態(tài)生成系統(tǒng)可依據(jù)用戶文字描述,生成、擴(kuò)展、修改和多樣性遷移生成原創(chuàng)高清圖片;GPT系列的人工智能系統(tǒng)可以生成文本類內(nèi)容,逐步逼近實(shí)現(xiàn)類人的語言理解與交互能力,并于近期推出了基于大語言模型的多輪對話系統(tǒng)ChatGPT。
ChatGPT系統(tǒng)一經(jīng)問世,便引發(fā)了產(chǎn)業(yè)界和學(xué)術(shù)界的廣泛關(guān)注,用戶規(guī)模迅速超過一億,并在互聯(lián)網(wǎng)領(lǐng)域迅速實(shí)現(xiàn)落地應(yīng)用。微軟“必應(yīng)”搜索已開始借助ChatGPT,為用戶提供結(jié)構(gòu)化整合搜索結(jié)果、建議及聊天等功能,顯著提升了搜索效率、改善了用戶體驗(yàn)。在智能性方面,斯坦福學(xué)者依據(jù)心智理論測試發(fā)現(xiàn)GPT-3.5(ChatGPT的同源模型)可解決100%的意外遷移任務(wù)以及85%的意外內(nèi)容任務(wù),相當(dāng)于9歲兒童的水平(Kosinski, 2023);在專業(yè)考試方面,ChatGPT及其同源產(chǎn)品可基本通過谷歌L3級(jí)軟件工程師水平測試、美國執(zhí)業(yè)醫(yī)師資格考試、美國司法考試中的證據(jù)和侵權(quán)行為測試、美國賓夕法尼亞大學(xué)沃頓商學(xué)院MBA運(yùn)營管理課程考試等。
ChatGPT在文本類內(nèi)容生成、上下文情境理解等方面所表現(xiàn)出的卓越性能,對教育領(lǐng)域也產(chǎn)生了巨大影響和深刻的啟示意義,并可能促進(jìn)和催化從教育理念到教育實(shí)踐的深層次變革。長期受技術(shù)條件制約的啟發(fā)式教學(xué)與個(gè)性化反饋等潛在智能教育應(yīng)用也開始成為可能。本研究將以ChatGPT為主要研究對象,基于其技術(shù)維度的核心能力分析其在教育中的潛在應(yīng)用,在對部分應(yīng)用進(jìn)行初步驗(yàn)證的基礎(chǔ)上,探討其局限性及對教育的啟示。
二、ChatGPT概述
(一)歷史演變
人工智能領(lǐng)域的研究目標(biāo)是通過模擬人類智能,使機(jī)器能夠像人類一樣思考和行動(dòng)。科學(xué)家并從模仿人類語言交互的角度提出了著名的“圖靈測試”。人工智能發(fā)展初期,主要關(guān)注知識(shí)形式化表征與符號(hào)化推理,但一直難以處理復(fù)雜多變且具有較強(qiáng)歧義性的人類自然語言。進(jìn)入21世紀(jì),研究人員開始嘗試構(gòu)建基于統(tǒng)計(jì)推斷和機(jī)器學(xué)習(xí)技術(shù)的自然語言處理模型。雖然這些模型可以提升典型自然語言處理任務(wù)的性能,但是仍然難以深入分析和準(zhǔn)確生成人類的自然語言。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,對人類自然語言進(jìn)行高維分布式表征和隱含特征提取逐漸成為可能,人工智能技術(shù)在多項(xiàng)自然語言處理任務(wù)上的表現(xiàn)也有了極大提升。2017年谷歌公司提出Transformer(Vaswani et al., 2017)模型,促使自然語言處理模型的參數(shù)量得到大幅擴(kuò)展。在此基礎(chǔ)上,研究人員提出了預(yù)訓(xùn)練語言模型的概念,即基于大規(guī)模語料庫并利用自監(jiān)督學(xué)習(xí)技術(shù)訓(xùn)練語言模型,以提升機(jī)器對自然語言的理解能力,并由此開啟了自然語言處理領(lǐng)域的大模型時(shí)代。
2018年6月,美國OpenAI公司提出了基于Transformer的預(yù)訓(xùn)練語言模型(Generative Pre-trained Transformer)GPT-1。GPT-1(Radford et al., 2018)基于自回歸理念,采用12個(gè)Transformer解碼器,構(gòu)建從左向右單向預(yù)測的語言模型,參數(shù)量達(dá)1.17億。GPT-1的構(gòu)建首先基于大型語料庫進(jìn)行無監(jiān)督的預(yù)訓(xùn)練,然后通過有監(jiān)督的微調(diào)技術(shù)為下游自然語言處理任務(wù)提供解決方案。同年10月,谷歌推出了基于自編碼理念的BERT(Bidirectional Encoder Representations from Transformers)模型,基于多層的Transformer編碼器,采用從左右雙向進(jìn)行填空學(xué)習(xí)的方式開展訓(xùn)練(Devlin et al., 2019)。2019年2月,OpenAI發(fā)布了GPT-2模型(Radford et al., 2019),其核心理念與GPT-1相似,但采用了更多的Transformer解碼器和更大的語料庫進(jìn)行訓(xùn)練,參數(shù)量達(dá)15億。GPT-2在多項(xiàng)自然語言處理任務(wù)上均有較為出色的表現(xiàn)。同年谷歌進(jìn)一步提出了T5(Raffel et al., 2019)模型,并在機(jī)器翻譯與知識(shí)問答等任務(wù)上表現(xiàn)出更好的性能。2020年5月,OpenAI推出GPT-3(Brown et al., 2020),其參數(shù)量相較GPT-2提升了兩個(gè)數(shù)量級(jí),達(dá)到1,750億。參數(shù)量的提升使GPT-3在對話生成、文本摘要、機(jī)器翻譯等任務(wù)上展現(xiàn)出了卓越的性能。2022年初,OpenAI在GPT-3的基礎(chǔ)上推出InstructGPT(Ouyang et al., 2022),并于同年11月推出其同源模型ChatGPT,在文本生成以及自然語言交互等任務(wù)上實(shí)現(xiàn)了較為驚人的進(jìn)步。
(二)相關(guān)技術(shù)
為實(shí)現(xiàn)高質(zhì)量的生成內(nèi)容,以ChatGPT為代表的GPT系列系統(tǒng),主要涉及了五項(xiàng)關(guān)鍵技術(shù)和架構(gòu)。
1. Transformer模型
該模型是ChatGPT等系統(tǒng)的基本組成單元,本質(zhì)上是一種基于自注意力機(jī)制的深度神經(jīng)網(wǎng)絡(luò),主要包含編碼器和解碼器兩部分。編碼器主要包括一個(gè)自注意力子層和一個(gè)全連接前饋神經(jīng)網(wǎng)絡(luò)子層:前者計(jì)算輸入序列中不同位置之間的依賴關(guān)系結(jié)構(gòu)并進(jìn)行特征表示,后者則對新生成的特征表示進(jìn)行處理,生成最終的表征向量。解碼器的基本結(jié)構(gòu)與編碼器類似,但針對編碼器的輸出增加了新的多頭注意力層,并加入了掩碼設(shè)定,以防止解碼過程中后繼位置信息泄漏。Transformer模型能夠高效捕捉序列數(shù)據(jù)中不同位置之間的依賴關(guān)系,并處理任意長度的自然語言序列數(shù)據(jù)。
2. 基于Transformer的基本架構(gòu)
GPT系列系統(tǒng)基于Transformer模型構(gòu)成其基本系統(tǒng)架構(gòu),由于ChatGPT系統(tǒng)的具體技術(shù)結(jié)構(gòu)信息目前并沒有被完整披露,我們以其前身GPT-3為例進(jìn)行介紹。如圖1所示,GPT-3主要是由96層的Transformer 解碼器組成,其中每層的解碼器包含掩碼多頭注意力機(jī)制子層和全連接前饋神經(jīng)網(wǎng)絡(luò)子層,單詞的嵌入維度和上下文窗口長度均進(jìn)行了擴(kuò)展,且采用稀疏注意力模式提升運(yùn)行效率。模型訓(xùn)練的過程基于自回歸思想,即給定上文內(nèi)容預(yù)測下文單詞或給定下文內(nèi)容預(yù)測上文單詞。此外,針對不同自然語言處理任務(wù),GPT-3轉(zhuǎn)換不同格式的文本語料進(jìn)行模型訓(xùn)練。例如,針對機(jī)器翻譯任務(wù),訓(xùn)練數(shù)據(jù)會(huì)轉(zhuǎn)換成類似“翻譯成英文:他來自中國。He is from China.”格式的文本。這些技術(shù)與思想直接幫助GPT系列系統(tǒng)逐步具備了優(yōu)秀的文本生成能力。
3. 基于人類反饋的強(qiáng)化學(xué)習(xí)(Reinforcement Learning from Human Feedback, RLHF)技術(shù)
該技術(shù)是ChatGPT內(nèi)容生成能力提升的關(guān)鍵(Christinao et al., 2017)。RLHF技術(shù)包含三個(gè)步驟:第一步是監(jiān)督式微調(diào),其核心理念是利用符合人類預(yù)期的少量標(biāo)注數(shù)據(jù)對預(yù)訓(xùn)練模型參數(shù)進(jìn)行調(diào)整,初步優(yōu)化文本生成模型;第二步是構(gòu)建獎(jiǎng)勵(lì)模型,核心目標(biāo)是通過對監(jiān)督式微調(diào)生成的多個(gè)結(jié)果進(jìn)行人工排序標(biāo)記,訓(xùn)練獎(jiǎng)勵(lì)函數(shù)模型,用于強(qiáng)化學(xué)習(xí)模型輸出結(jié)果的自動(dòng)化評(píng)價(jià);第三步是利用近端策略優(yōu)化(Proximal Policy Optimization, PPO)算法,結(jié)合獎(jiǎng)勵(lì)模型對文本生成模型的結(jié)果進(jìn)行自動(dòng)評(píng)估,并采用強(qiáng)化學(xué)習(xí)對文本生成模型進(jìn)行優(yōu)化,使其最終具備生成符合人類預(yù)期的文本的能力(Schulman et al., 2017)。
4. 指示微調(diào)(Instruction Tuning)技術(shù)
該技術(shù)可以輔助ChatGPT等系統(tǒng)生成高質(zhì)量的文本(Wei et al., 2021)。指示微調(diào)是一項(xiàng)語言模型訓(xùn)練技術(shù),通過將預(yù)設(shè)的指令描述與生成文本相結(jié)合,構(gòu)建訓(xùn)練數(shù)據(jù),從而微調(diào)文本生成模型的參數(shù)。其核心思想是將自然語言處理相關(guān)任務(wù)轉(zhuǎn)化為基于指令描述的文本生成問題?;谥噶蠲枋觯梢源偈鼓P屠斫庵噶钊蝿?wù),從而生成預(yù)期文本。例如,用戶輸入“判斷這句話的對錯(cuò):三角形的內(nèi)角和為360度”,其中“判斷這句話的對錯(cuò)”是指令描述,指令任務(wù)是對“三角形的內(nèi)角和為360度”進(jìn)行正誤判斷,從而生成預(yù)期的答案文本“該句話錯(cuò)誤”。
5. 思維鏈(Chain of Thought)技術(shù)
該技術(shù)通過一系列前后關(guān)聯(lián)的指令,可以輔助ChatGPT等系統(tǒng)完成復(fù)雜推理任務(wù)(Wei et al., 2022)。語言模型雖然在對人類自然語言表征和建模上取得了顯著進(jìn)展,但在復(fù)雜邏輯問題推理上,仍較難達(dá)到滿意的效果。思維鏈技術(shù)可以針對性地設(shè)計(jì)模型的指令輸入,促使模型將單步驟推理任務(wù)拆解為包含多個(gè)中間步驟的任務(wù)。其中,每一個(gè)中間步驟由一個(gè)相對簡單的指令輸入作為引導(dǎo),其結(jié)果代表了多步驟任務(wù)的邏輯分析過程。思維鏈技術(shù)可以引導(dǎo)文本類內(nèi)容生成,輔助模型生成和解決復(fù)雜邏輯推理任務(wù)。
同時(shí),為解決文本生成過程中產(chǎn)生與用戶預(yù)期不符的行為問題,例如捏造事實(shí)、生成有偏見或有害文本、不遵循用戶指示等,ChatGPT等系統(tǒng)的技術(shù)研發(fā)遵循3H基本原則,即幫助性(Helpful)——模型應(yīng)幫助用戶解決問題、真實(shí)性(Honest)——模型不能捏造信息或誤導(dǎo)用戶、無害性(Harmless)——模型不能對人或環(huán)境造成身體、心理或社會(huì)性的傷害(Askell et al., 2021;Ouyang et al., 2022)。
(三)核心能力
上述相關(guān)技術(shù)與基本原則的科學(xué)合理使用,促使ChatGPT等系統(tǒng)在自然語言理解與內(nèi)容生成方面,顯示出以下四項(xiàng)較為突出的核心能力。
1. 啟發(fā)性內(nèi)容生成能力
ChatGPT等系統(tǒng)能夠基于給定的主題或在多輪對話過程中識(shí)別的上下文信息,生成有啟發(fā)性和創(chuàng)意性的文本,包括詩詞、故事、評(píng)論等。這些文本不僅可以成為用戶的創(chuàng)作素材,也可以在思維廣度上為用戶帶來啟發(fā)。
2. 對話情境理解能力
ChatGPT等系統(tǒng)能夠基于多輪對話中的上下文信息,進(jìn)行語義理解和推理,捕捉用戶意圖與對話情境,生成符合邏輯的連貫性回復(fù),為用戶帶來良好的交互體驗(yàn)。
3. 序列任務(wù)執(zhí)行能力
ChatGPT等系統(tǒng)能夠基于用戶的序列指令描述,理解指令之間的關(guān)聯(lián)關(guān)系,逐步對任務(wù)進(jìn)行推進(jìn),完成基于組合指令的復(fù)雜任務(wù),從而較好地執(zhí)行用戶給出的多步驟序列任務(wù)。
4. 程序語言解析能力
ChatGPT等系統(tǒng)能夠根據(jù)多種編程語言的語法規(guī)則、數(shù)據(jù)結(jié)構(gòu)、算法構(gòu)建與編程規(guī)范,對代碼程序進(jìn)行結(jié)構(gòu)與算法分析,并根據(jù)用戶任務(wù)需求自動(dòng)生成符合任務(wù)要求的代碼程序或錯(cuò)因解析。
上述四項(xiàng)核心能力體現(xiàn)了當(dāng)前生成式人工智能領(lǐng)域的重要突破和價(jià)值,也為其在教育領(lǐng)域的應(yīng)用提供了諸多可能性。
三、潛在教育應(yīng)用
基于當(dāng)前ChatGPT系統(tǒng)所具備的啟發(fā)性內(nèi)容生成、對話情境理解、序列任務(wù)執(zhí)行、程序語言解析四項(xiàng)核心能力,我們從教、學(xué)、評(píng)、輔四個(gè)典型教育環(huán)節(jié),梳理了不同核心能力可以支持的潛在教育應(yīng)用,如圖2所示。
(一)教師教學(xué)
ChatGPT等系統(tǒng)可以為教師教學(xué)提供多種形態(tài)的幫助和服務(wù)?;趩l(fā)性內(nèi)容生成能力,ChatGPT等系統(tǒng)可以依據(jù)教師的教學(xué)目標(biāo)生成創(chuàng)作型教學(xué)素材,輔助教師設(shè)計(jì)有創(chuàng)新性的教學(xué)活動(dòng);基于對話情境理解能力,ChatGPT等系統(tǒng)可以在課堂教學(xué)中充當(dāng)助教角色,根據(jù)當(dāng)前教學(xué)活動(dòng)情境,為教師提供教學(xué)過程的交互式支持;基于序列任務(wù)執(zhí)行能力,ChatGPT等系統(tǒng)可以依據(jù)教學(xué)場景與個(gè)體教師的教學(xué)需求,生成個(gè)性化教學(xué)方案;基于程序語言解析能力,ChatGPT等系統(tǒng)可以為教師提供編程課程案例,支持典型問題及其變形的示例性代碼生成與說明。
具體而言,在輔助教師生成個(gè)性化教學(xué)方案的過程中,ChatGPT等系統(tǒng)可以依據(jù)教師的教學(xué)需求,分步驟生成多種適切的教學(xué)設(shè)計(jì),為教師在備課過程中提供思路啟發(fā)與多種備選方案,提升教師的備課效率與授課質(zhì)量。例如,在中學(xué)語文課程《荷塘月色》的教案設(shè)計(jì)過程中,教師可以首先要求系統(tǒng)制作一份基礎(chǔ)方案,包括教學(xué)主題、教學(xué)目標(biāo)、教學(xué)內(nèi)容、教學(xué)步驟、教學(xué)方法、教學(xué)評(píng)價(jià)、教學(xué)資源等模塊。在此基礎(chǔ)上,教師可以繼續(xù)要求系統(tǒng)增加互動(dòng)環(huán)節(jié),并自動(dòng)生成朱自清生平小測驗(yàn)、荷塘故事續(xù)寫等趣味教學(xué)活動(dòng),供自己參考和選擇性補(bǔ)充到教案中。教師也可以要求系統(tǒng)增加課外拓展素材,系統(tǒng)則會(huì)從作者的其他代表作品、書信與日記、故鄉(xiāng)文化等方面提供參考教學(xué)資源。
(二)學(xué)習(xí)過程
ChatGPT等系統(tǒng)也可以為學(xué)習(xí)過程提供良好的支持和服務(wù)。基于啟發(fā)性內(nèi)容生成能力,ChatGPT等系統(tǒng)可以自動(dòng)生成范文段落示例或啟發(fā)性思路提示,為學(xué)生提供創(chuàng)意寫作素材,以人機(jī)協(xié)同共創(chuàng)方式輔助學(xué)生寫作;基于對話情境理解能力,ChatGPT等系統(tǒng)可以識(shí)別學(xué)生學(xué)習(xí)情境,結(jié)合學(xué)科專業(yè)知識(shí),為學(xué)生提供基于情境的學(xué)科知識(shí)問答;基于序列任務(wù)執(zhí)行能力,ChatGPT等系統(tǒng)可以依據(jù)學(xué)生的學(xué)習(xí)需求與知識(shí)掌握情況,為學(xué)生提供動(dòng)態(tài)教學(xué)支架與反饋,并優(yōu)化其學(xué)習(xí)路徑;基于程序語言解析能力,ChatGPT等系統(tǒng)可以結(jié)合學(xué)生實(shí)際需求與編程任務(wù),為學(xué)生推薦相關(guān)代碼片段與運(yùn)行解析,幫助其高效理解程序的設(shè)計(jì)思路與編寫方式。
具體而言,在支持學(xué)生學(xué)科知識(shí)問答的過程中,ChatGPT系統(tǒng)可以基于多輪對話,為學(xué)生提供從現(xiàn)象分析、知識(shí)點(diǎn)講解、應(yīng)用影響等多層次服務(wù)。例如,系統(tǒng)可以為學(xué)生解答“蘋果會(huì)落地”的物理學(xué)原理是地球引力作用,并進(jìn)一步為學(xué)生講解牛頓運(yùn)動(dòng)定律的知識(shí)點(diǎn)。如果學(xué)生繼續(xù)提問“這些原理和定律的用途”,系統(tǒng)可以準(zhǔn)確理解其問題指向,并從日常生活到航空航天等角度進(jìn)行解答并做合理擴(kuò)展。
(三)教育評(píng)價(jià)
ChatGPT等系統(tǒng)還可以針對性完成教育評(píng)價(jià)的多項(xiàng)任務(wù)?;趩l(fā)性內(nèi)容生成能力,ChatGPT等系統(tǒng)可以為學(xué)生作品和答案進(jìn)行客觀點(diǎn)評(píng),引導(dǎo)學(xué)生發(fā)掘作品優(yōu)點(diǎn)并提供改進(jìn)思路;基于對話情境理解能力,ChatGPT等系統(tǒng)可以對學(xué)生的語言表達(dá)能力進(jìn)行評(píng)測,通過分析學(xué)生對話過程中的詞匯、語法、句子結(jié)構(gòu),以及觀點(diǎn)表達(dá)與事件描述方式,給出針對性的反饋建議;基于序列任務(wù)執(zhí)行能力,ChatGPT等系統(tǒng)可以依據(jù)測試科目、考察目標(biāo)、題目類型等組卷需求,自動(dòng)生成多種備選測試題目,支持教師智能組卷;基于程序語言解析能力,ChatGPT等系統(tǒng)可以進(jìn)行高效代碼反饋與評(píng)價(jià),糾正代碼錯(cuò)誤并提出優(yōu)化建議。
具體而言,在為學(xué)生提供程序代碼評(píng)價(jià)中,ChatGPT等系統(tǒng)可以通過自動(dòng)識(shí)別程序語言、數(shù)據(jù)結(jié)構(gòu)、函數(shù)類型與代碼結(jié)構(gòu),整體評(píng)價(jià)典型算法程序的編寫正誤,并提供關(guān)于代碼規(guī)范性、復(fù)雜度等多個(gè)維度的細(xì)顆粒度反饋與評(píng)價(jià)。例如,學(xué)生輸入指令“請對下面這段代碼進(jìn)行評(píng)價(jià)反饋”并提供代碼,系統(tǒng)可以指出該典型算法是否編寫正確,并提供針對性建議與改進(jìn)代碼示例。此外,系統(tǒng)還可以從函數(shù)命名方式、函數(shù)功能注釋、參數(shù)合法性檢驗(yàn)、返回值設(shè)計(jì)、變量命名等方面提供改進(jìn)提示。
(四)學(xué)業(yè)輔導(dǎo)
ChatGPT等系統(tǒng)還可以嘗試完成較為復(fù)雜和專業(yè)的學(xué)業(yè)輔導(dǎo)任務(wù)?;趩l(fā)性內(nèi)容生成能力,ChatGPT等系統(tǒng)可以生成針對性資源和素材,引導(dǎo)學(xué)生從不同角度對知識(shí)點(diǎn)進(jìn)行理解,輔助提升學(xué)生的知識(shí)探究與創(chuàng)新能力;基于對話情境理解能力,ChatGPT等系統(tǒng)可以依據(jù)歷史對話信息理解學(xué)生的實(shí)際輔導(dǎo)需求,結(jié)合當(dāng)前學(xué)習(xí)內(nèi)容,為學(xué)生提供個(gè)性化學(xué)習(xí)支持;基于序列任務(wù)執(zhí)行能力,ChatGPT等系統(tǒng)可以針對學(xué)生的疑難問題進(jìn)行分步驟解析,幫助學(xué)生理解問題求解的要點(diǎn)與難點(diǎn);基于程序語言解析能力,ChatGPT等系統(tǒng)可以生成多維度代碼解釋,包括參數(shù)設(shè)置、算法思路、邏輯關(guān)系等,幫助學(xué)生理解程序內(nèi)涵與功能,輔助提升學(xué)生編程能力。
具體而言,在為學(xué)生生成知識(shí)探究與創(chuàng)新素材的過程中,ChatGPT等系統(tǒng)除可以生成以事實(shí)為依托的素材外,還可以生成基于假設(shè)的啟發(fā)性素材,引導(dǎo)學(xué)生從不同維度解構(gòu)知識(shí),培養(yǎng)學(xué)生的思辨能力與探究意識(shí)。例如,當(dāng)學(xué)生提問“如果荊軻刺秦王成功了,將會(huì)發(fā)生什么”,系統(tǒng)可以基于這種假設(shè),為學(xué)生分析秦國是否還能統(tǒng)一六國以及中國歷史的多種可能發(fā)展走向,啟發(fā)學(xué)生對歷史問題進(jìn)行深入思考。
四、教育應(yīng)用初步驗(yàn)證
本研究從教師教學(xué)、學(xué)習(xí)過程與教育評(píng)價(jià)三個(gè)維度,分別選取題目生成、自動(dòng)解題與輔助批閱三個(gè)具體教育應(yīng)用,對系統(tǒng)進(jìn)行初步驗(yàn)證。所選用的系統(tǒng)是2023年2月最新版本的ChatGPT。
(一)題目生成
如表1所示,當(dāng)用戶給出數(shù)學(xué)應(yīng)用題生成的指令后,系統(tǒng)可以自動(dòng)生成符合指令要求且具備合理情境信息的題目及其答案,即通過小明購買水果的情境設(shè)置考察乘法與加法的運(yùn)算。在此基礎(chǔ)上,如果給出更改情境的指令,系統(tǒng)會(huì)進(jìn)一步生成小明購買文具的情境并考查相同的數(shù)學(xué)知識(shí)點(diǎn)。最后,如果繼續(xù)用中文給出“請?jiān)俪鲆坏李愃频挠⑽牧?xí)題”的指令,系統(tǒng)可以生成描述清晰且考查知識(shí)點(diǎn)相同的英文題目,而其具體情境可以有所不同。
經(jīng)過多輪測試,系統(tǒng)可以持續(xù)生成質(zhì)量和難度均適中的多學(xué)科、多情境習(xí)題,且大多數(shù)生成的題目包含參考答案,便于在教育實(shí)際場景中使用。同時(shí),通過給出后續(xù)指令,可以對所生成習(xí)題的細(xì)節(jié)性信息進(jìn)行修改,并可以生成多語種題目。由此可見,在教師教學(xué)的應(yīng)用維度,系統(tǒng)初步具備了依據(jù)教學(xué)目標(biāo)生成創(chuàng)作型教學(xué)素材的應(yīng)用能力,可以輔助教師完成包括題目生成在內(nèi)的多項(xiàng)具體教學(xué)任務(wù)。
(二)自動(dòng)解題
如表2所示,用戶輸入一道涉及加法、除法、百分比等相關(guān)知識(shí)的數(shù)學(xué)問題,系統(tǒng)可以自動(dòng)生成解答內(nèi)容。在解答內(nèi)容中,系統(tǒng)首先指出已知條件,即鹽的質(zhì)量為2克,然后解析鹽和水的總質(zhì)量為202克,進(jìn)而給出質(zhì)量占比的具體計(jì)算公式并計(jì)算出正確結(jié)果。最后,系統(tǒng)用規(guī)范的語句正面回答了該數(shù)學(xué)問題。
為更好地驗(yàn)證系統(tǒng)的自動(dòng)解題能力,我們從Multiarith數(shù)據(jù)集(Roy & Dan, 2016)中選取了50道習(xí)題組成測試集。Multiarith數(shù)據(jù)集是一個(gè)多步驟算法數(shù)據(jù)集,包含600道小學(xué)級(jí)別的情景類數(shù)學(xué)題。通過調(diào)用InstructGPT相關(guān)模型接口進(jìn)行持續(xù)測試,我們發(fā)現(xiàn)系統(tǒng)解題的平均準(zhǔn)確率約為68%。該結(jié)果已經(jīng)明顯高于GPT-3的準(zhǔn)確率,且解答錯(cuò)誤的原因大多是源于對情境中所需常識(shí)性知識(shí)的誤判。我們進(jìn)一步對系統(tǒng)解題過程中的推理文字進(jìn)行分析,發(fā)現(xiàn)所生成的文字合理且易懂,大幅度超過了之前GPT-3的邏輯表達(dá)能力。例如,GPT-3生成的解題思路通常會(huì)存在錯(cuò)誤的因果關(guān)系和推理,但ChatGPT系統(tǒng)已經(jīng)可以給出完整清晰的解題邏輯,且在關(guān)鍵步驟上均配有計(jì)算公式和描述。
通過以上試驗(yàn),我們可以初步驗(yàn)證系統(tǒng)已經(jīng)具有較好的自動(dòng)解題功能,所生成的解題結(jié)果具有一定的準(zhǔn)確性與可讀性,其邏輯表達(dá)清晰且形式豐富。由此可見,在學(xué)習(xí)過程維度,系統(tǒng)已經(jīng)初步具備了完成個(gè)性化學(xué)科知識(shí)問答與支架式教學(xué)反饋等教育應(yīng)用的能力。另外需要指出的是,對于具有較為復(fù)雜情境的題目,ChatGPT系統(tǒng)自動(dòng)解題和反饋能力還有待提高。
(三)輔助批閱
如表3所示,用戶輸入一道完整的題目及其錯(cuò)誤解答,系統(tǒng)可以根據(jù)用戶指示,自動(dòng)判斷答案正誤并給出具體反饋,從而完成輔助批閱的基本任務(wù)。在生成的輔助批閱文本中,系統(tǒng)首先明確給出了正確與否的判斷,然后用合理準(zhǔn)確的語言給出了錯(cuò)誤原因的分析,即指出桃樹數(shù)量“不是僅僅是蘋果樹數(shù)量的1/5”,而應(yīng)是“蘋果樹數(shù)量的1/5加上蘋果樹數(shù)量”。在此基礎(chǔ)上,系統(tǒng)可以繼續(xù)自動(dòng)給出合理的解題過程與正確的答案。
我們進(jìn)一步對題目內(nèi)容和答案進(jìn)行更改并測試,發(fā)現(xiàn)系統(tǒng)可以持續(xù)輸出類似的輔助批閱結(jié)果。由此可見,系統(tǒng)已經(jīng)具有題目答案正誤判斷和錯(cuò)因分析等基本功能,即具備了對學(xué)生作品和習(xí)題答案進(jìn)行客觀點(diǎn)評(píng)和判斷的能力。這種診斷性評(píng)價(jià)能力具有很高的教育應(yīng)用價(jià)值,是構(gòu)建全流程自動(dòng)化教育評(píng)價(jià)服務(wù)的關(guān)鍵性技術(shù)保障和基礎(chǔ)。
五、局限與啟示
(一)局限與問題
以ChatGPT為代表的生成式人工智能系統(tǒng)仍然面臨諸多局限。首先,系統(tǒng)仍然難以充分理解信息和分析信息內(nèi)在的邏輯關(guān)系,因此很容易生成不合理的內(nèi)容或者犯事實(shí)性的錯(cuò)誤。例如ChatGPT會(huì)非常自然地回答諸如“諸葛亮是如何打敗秦始皇”或“林黛玉初見曹雪芹的情景”,所給出的錯(cuò)誤且荒謬的答案體現(xiàn)了該技術(shù)并不能像人類一樣完整理解知識(shí)體系與內(nèi)在聯(lián)系。這種事實(shí)性的錯(cuò)誤也容易誤導(dǎo)不具備專業(yè)知識(shí)或相關(guān)常識(shí)的學(xué)習(xí)者,引起學(xué)習(xí)迷航與認(rèn)知障礙。
其次,生成式人工智能的過程仍然是黑箱,所生成的內(nèi)容不具備可解釋性與明確的依據(jù)。例如讓ChatGPT 寫出“低時(shí)間復(fù)雜度的字符串匹配”代碼,即使所生成的長段代碼可以運(yùn)行且結(jié)果看似正確,但由于其中代碼生成的來源和算法依據(jù)都不清晰,代碼中細(xì)微的邏輯錯(cuò)誤或步驟冗余也難以精確識(shí)別,因此難以直接應(yīng)用于重要的課程實(shí)踐和高利害的考試任務(wù)中。
另外,生成式人工智能在中文語境和文字上的理解和表達(dá)能力總體上要弱于英文。例如對于“蘋果比梨多1/6”這樣含義的語句,ChatGPT經(jīng)常會(huì)生成“蘋果是梨的1/6”或“蘋果是梨的1/6倍”這樣的錯(cuò)誤或不符合中文語言習(xí)慣的表述。這種能力差距源于預(yù)訓(xùn)練語料中以英文為主的現(xiàn)實(shí)情況,也因此可能導(dǎo)致非英語母語的學(xué)習(xí)者理解困難甚至理解錯(cuò)誤。
同時(shí),生成式人工智能技術(shù)也可能被惡意利用,造成較為嚴(yán)重的安全隱患。例如,可以用多步提示的方式,引導(dǎo)系統(tǒng)給出“如何入室盜竊”或“如何制造傷人工具”這類問題的危險(xiǎn)答案。這些危險(xiǎn)信息如果被各學(xué)段學(xué)習(xí)者獲得和傳播,會(huì)帶來較為嚴(yán)重的青少年問題和社會(huì)危害。另外,生成式人工智能技術(shù)的數(shù)據(jù)源本身復(fù)雜且龐大,其生成的內(nèi)容可能有知識(shí)產(chǎn)權(quán)問題,且容易產(chǎn)生法律風(fēng)險(xiǎn)。例如在模型訓(xùn)練和微調(diào)過程中,ChatGPT等產(chǎn)品所需的大規(guī)模數(shù)據(jù)集不可避免要涉及各類受法律保護(hù)的知識(shí)產(chǎn)權(quán)類數(shù)據(jù),這些未經(jīng)著作權(quán)人授權(quán)的數(shù)據(jù)的使用以及所生成的相應(yīng)內(nèi)容,存在侵犯他人著作權(quán)或?qū)@麢?quán)的風(fēng)險(xiǎn)。
最后,需要指出的是,以ChatGPT為代表的生成式人工智能雖然在教育領(lǐng)域有廣泛的應(yīng)用前景,但并非在所有場景都有重要應(yīng)用潛力和作用。例如在教育智能化管理與服務(wù)中,通常需要依靠準(zhǔn)確的數(shù)據(jù)支撐和透明的決策模型,很難簡單依賴“黑箱式”的生成式人工智能技術(shù)。另外,生成式人工智能的模型訓(xùn)練、測試與下游任務(wù)適配,均需要較大規(guī)模的計(jì)算資源和存儲(chǔ)資源進(jìn)行支持,這種高成本對于相當(dāng)一部分教育業(yè)務(wù)是難以承受的。因此,人工智能生成內(nèi)容技術(shù)的教育應(yīng)用范圍和場景也有一定的局限性,應(yīng)避免在教育領(lǐng)域盲目推廣和普及。
(二)啟示與展望
1. 推進(jìn)教育理念變革
雖然以ChatGPT為代表的人工智能生成內(nèi)容仍然存在諸多局限,但其所具備的核心能力已開始對教育理念產(chǎn)生直接影響和啟示作用。我國現(xiàn)階段教育仍重視通過大量記憶、識(shí)別和練習(xí)而獲取知識(shí),忽視通過分析思考而發(fā)現(xiàn)并掌握知識(shí)的方法與技能。生成式人工智能技術(shù)已逐步顯現(xiàn)出高效積累知識(shí)與合理使用知識(shí)的基本能力,可以預(yù)見將替代和超越只能獲取和存儲(chǔ)知識(shí)的低階思維腦力勞動(dòng)者。因此,教育應(yīng)該更加側(cè)重于培養(yǎng)學(xué)生的高階思維能力,尤其是跨學(xué)科多元思維能力、批判性思維能力與創(chuàng)造性思維能力。只有具備較強(qiáng)的跨學(xué)科多元思維能力,學(xué)生才能認(rèn)識(shí)和區(qū)分現(xiàn)實(shí)世界的復(fù)雜問題和情境,并最終完成人工智能難以應(yīng)對的實(shí)際任務(wù);只有具備良好的批判性思維能力,學(xué)生才能對知識(shí)和技能有超越人工智能模型的深入理解和分析,并充分認(rèn)識(shí)到人工智能技術(shù)的局限及其工具屬性;只有具備一定的創(chuàng)造性思維能力,學(xué)生才能充分挖掘和發(fā)揮自身在特定領(lǐng)域的創(chuàng)新潛力和作用,避免被智能機(jī)器在專業(yè)領(lǐng)域簡單替代。同時(shí),新技術(shù)條件下的教育,需要加速教師隊(duì)伍的觀念轉(zhuǎn)變,讓一線教育工作者充分認(rèn)識(shí)到技術(shù)變革所帶來的社會(huì)需求變革,充分調(diào)動(dòng)教師在教育理念變革過程中的積極性和創(chuàng)造力。
2. 創(chuàng)新教學(xué)方式與內(nèi)容
在重視高階思維能力培養(yǎng)的教育理念驅(qū)動(dòng)下,生成式人工智能技術(shù)與產(chǎn)品對教學(xué)方式與教學(xué)內(nèi)容的影響也會(huì)逐漸顯現(xiàn),并扮演不同的角色和發(fā)揮不同的作用。在教學(xué)方式上,需要鼓勵(lì)教師積極創(chuàng)新課堂教學(xué)方式,將相關(guān)技術(shù)納入不同學(xué)科的教學(xué)過程中,豐富課堂活動(dòng)內(nèi)容及其趣味性。例如,通過設(shè)置具備良好交互能力的人工智能助教,提供實(shí)時(shí)機(jī)器反饋甚至人機(jī)辯論環(huán)境,鼓勵(lì)學(xué)生與機(jī)器助教開展共創(chuàng)性學(xué)習(xí),持續(xù)性獲取所需的個(gè)性化學(xué)習(xí)信息與資源,從而培養(yǎng)學(xué)生高階思維能力和自主學(xué)習(xí)能力。在教學(xué)內(nèi)容上,需要積極調(diào)整不同學(xué)科的培養(yǎng)目標(biāo)和教學(xué)要求,更加強(qiáng)調(diào)學(xué)科核心素養(yǎng)導(dǎo)向的教學(xué)內(nèi)容設(shè)置。例如當(dāng)前人工智能生成內(nèi)容技術(shù)已經(jīng)具備良好的多語言代碼生成與調(diào)試能力,初級(jí)程序員的社會(huì)分工可能將逐步消失。因此,對于基礎(chǔ)教育與職業(yè)教育階段的編程類教學(xué),需要更加強(qiáng)調(diào)計(jì)算思維、人工智能素養(yǎng)與算法思維的培養(yǎng),減少對于程序語言中語法細(xì)節(jié)的記憶性學(xué)習(xí)。
3. 鼓勵(lì)教育與技術(shù)互促共進(jìn)
人工智能生成內(nèi)容相關(guān)技術(shù)的演進(jìn)速度非???。以GPT系列為例,從第一代GPT-1到目前的ChatGPT經(jīng)歷了四代更新,每一代的性能都有明顯提升,但更新?lián)Q代的時(shí)間不足五年。因此,可以預(yù)見更加智能化和人性化的生成式人工智能技術(shù)與產(chǎn)品將會(huì)在短期內(nèi)出現(xiàn),其在自然語言處理等任務(wù)上的性能將進(jìn)一步提升,也將具備更優(yōu)秀的內(nèi)容理解、生成與泛化能力。因此,教育需要積極適應(yīng)人工智能技術(shù)的快速發(fā)展,對其持有更加開放和包容的態(tài)度,鼓勵(lì)教育工作者秉持技術(shù)向善理念,研究和使用相關(guān)技術(shù)和工具,協(xié)作完成各類教學(xué)任務(wù)。同時(shí),需要充分認(rèn)識(shí)這類新技術(shù)不再是“拍照搜題”或“換臉軟件”,而可能成為未來教育的重要組成部分并對教育領(lǐng)域具有深刻的變革性意義。另外,教育領(lǐng)域也需要高度關(guān)注生成式人工智能技術(shù)的潛在安全與倫理風(fēng)險(xiǎn),針對教育領(lǐng)域的應(yīng)用場景,推進(jìn)制定相關(guān)法律法規(guī),形成技術(shù)與教育雙螺旋式的互促共進(jìn)。當(dāng)通用人工智能已經(jīng)逐步接近人類社會(huì),教育作為人類文明進(jìn)步的基石,應(yīng)該從容應(yīng)對挑戰(zhàn)且充滿自信。
[參考文獻(xiàn)]
國務(wù)院. (2017-07-20). 新一代人工智能發(fā)展規(guī)劃(國發(fā)〔2017〕35號(hào)). 中華人民共和國中央人民政府網(wǎng)站. http://www.gov.cn/zhengce/content/2017-07/20/content5211996.htm
Askell, A., Bai, Y., Chen, A., Darin, D., Ganguli, D., Henighan, T., Jones, A., Joseph, N., Mann, B., DasSarma, N., Elhage, N., Hatfield-Dodds, Z., Hernandez, D., Kernion, J., Ndousse, K., Olsson, C., Amodei, D., Brown, T., Clark, J., ... Olah, C.(2021). A general language assistant as a laboratory for alignment. arXiv preprint arXiv, 2112.00861.
Bommasani, R., Hudon, D. A., Adeli, E., Altman, R., Arora, S., Arx, S., Bernstein, M., Bohg, J., Bosselut, A., Brunskill, E., Brynjolfsson, E., Buch, S., Card, D., Castellon, R., Chatterji, N., Chen, A., Creel, K., Davis, J., Demszky, D., ... Liang, P.(2021). On the opportunities and risks of foundation models. arXiv preprint arXiv, 2021:2108.07258.
Brown, T., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., Neelakantan, A., Shyam, P., Sastry, G., Askell, A., Agarwal, S., Herbert-Voss, A., Krueger, G., Henighan, T., Child, R., Ramesh, A., Ziegler, D., Wu, J., Winter, C., ... Amodei, D.(2020). Language models are few-shot learners. Advances in neural information processing systems, 33, 1877-1901.
Christiano, P. F., Leike, J., Brown, T., Martic, M., Legg, S., & Amodei, D.(2017). Deep reinforcement learning from human preferences. Advances in neural information processing systems, 30.
Devlin, J., Chang, W., Lee, K., & Toutanova, K. (2019). Bert: Pre-training of deep bidirectional transformers for language understanding. Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, 4171-4186.
Ho, J., Jain, A., & Abbeel, P. (2020). Denoising diffusion probabilistic models. Advances in Neural Information Processing Systems, 33, 6840-6851.
Kosinski, M. (2023). Theory of Mind May Have Spontaneously Emerged in Large Language Models. arXiv preprint arXiv, 2302.02083.
OpenAI. (2022-04-06). DALL·E 2. OpenAI. https://openai.com/dall-e-2/OpenAI. (2022-11-30). ChatGPT: Optimizing Language Models for Dialogue.OpenAI. https://openai.com/blog/chatgpt/
Ouyang, L., Wu, J., Jiang, X., Almeida, D., Wainwright, C., Mishkin, P., Zhang, C., Agarwal, S., Slama, K., Ray, A., Schulman, J., Hilton, J., Kelton, F., Miller, L., Simens, M., Askell, A., Welinder, P., Christiano, P., ... Lowe, R.(2022). Training language models to follow instructions with human feedback. arXiv preprint arXiv, 2203.02155.
Roy, S., & Dan, R. (2015). Solving general arithmetic word problems. Proceedings of the Conference on Empirical Methods in Natural Language Processing, 15, 1743-1752.
Radford, A., Narasimhan, K., Salimans, T., & Sutskever, I.(2018). Improving language understanding by generative pre-training.
Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., & Sutskever, I.(2019). Language models are unsupervised multitask learners. OpenAI blog, 1(8), 9.
Raffel, C., Shazeer, N., Roberts, A., Lee, K., Narang, S., Matena, M., Zhou, Y., Li, Wei., & Liu, P. (2019). Exploring the limits of transfer learning with a unified text-to-text transformer. Journal of Machine Learning Research, 21, 1-67.
Schulman, J., Wolski, F., Dhariwal, P., Radford, A., & Klimov, O.(2017). Proximal policy optimization algorithms. arXiv preprint arXiv, 1707.06347.
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A., Kaiser, L., & Polosukhin, I. (2017). Attention is all you need. Advances in Neural Information Processing Systems, 30.
Wei, J., Bosma, M., Zhao, Y., Guu, K., Yu, W., Lester, B., Du, N., Dai, A. M., & Le, V. (2021). Finetuned language models are zero-shot learners. International Conference on Learning Representations, 10.
Wei, J., Wang, X., Schuurmans, D., Bosma, M., Chi, E., Le, Q., & Zhou, D. (2022). Chain-of-thought prompting elicits reasoning in large language models. Advances in Neural Information Processing Systems, 36.
Zhang, Z., Han, X., Liu, Z., Jiang, X., Sun, M., & Liu, Q. (2019). ERNIE: Enhanced Language Representation with Informative Entities. Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, 1441-1451.
基金項(xiàng)目:本文系北京市教育科學(xué)“十四五”規(guī)劃2021年度重點(diǎn)課題“人工智能驅(qū)動(dòng)的新一代智能導(dǎo)學(xué)系統(tǒng)構(gòu)建研究”(課題編號(hào):CHAA21036)的研究成果。
作者簡介:盧宇,北京師范大學(xué)教育學(xué)部未來教育高精尖創(chuàng)新中心副教授。
余京蕾,北京師范大學(xué)教育學(xué)部教育技術(shù)學(xué)院博士研究生。
陳鵬鶴,北京師范大學(xué)教育學(xué)部未來教育高精尖創(chuàng)新中心講師(通訊作者:chenpenghe@bnu.eu.cn)。
李沐云,北京師范大學(xué)教育學(xué)部教育技術(shù)學(xué)院碩士研究生。