苗逢春
(1. 北京師范大學(xué) 互聯(lián)網(wǎng)教育智能技術(shù)及應(yīng)用國家工程實驗室,北京 1000875;2. 聯(lián)合國教科文組織總部,巴黎 75007)
2022 年11 月,美國開放人工智能研究中心(OpenAI Artificial Intelligence Research Center INC,OpenAI)發(fā)布了第三代聊天生成式預(yù)訓(xùn)練轉(zhuǎn)換模型(Chat Generative Pre-trained Transformers,ChatGPT)—ChatGPT-3,開啟了生成式人工智能(Generative AI)從研發(fā)轉(zhuǎn)向商用和民用的新歷史時期。在ChatGPT 發(fā)布近一年時間里,其引發(fā)的影響及管制反彈主要體現(xiàn)為四個方面。1)壟斷與多元。OpenAI、谷歌公司和Meta 公司的生成式人工智能平臺形成了貫穿基礎(chǔ)模型、網(wǎng)絡(luò)基礎(chǔ)設(shè)施和文圖音視內(nèi)容加工等領(lǐng)域的垂直壟斷。同時,其他大型公司和開源大模型社群等發(fā)起了基礎(chǔ)模型開源化、平臺選擇多元化、語言文化多樣化的研發(fā)追趕與生態(tài)布局抗衡。2)應(yīng)用與替代。生成式人工智能在商業(yè)領(lǐng)域迅速推廣,引發(fā)相關(guān)行業(yè)工作崗位快速自動化。3)爭議與治理。生成式人工智能的安全和倫理威脅從理論憂患浮現(xiàn)為實際法律案例,形成堅信其積極變革潛力和憂慮其潛在人文威脅之間的對立,加速中國、美國、歐盟等國家和經(jīng)濟體的針對性立法。4)愿景與現(xiàn)實。迅速涌現(xiàn)的生成式人工智能正在顛覆和變革教育等社會服務(wù)領(lǐng)域,但與該技術(shù)對本土學(xué)生尤其是未成年人的教育適用性和實用性的理性研判之間存在明顯斷層。其中,社會各界對生成式人工智能可能引發(fā)的安全及倫理憂患眾說紛紜、莫衷一是。聯(lián)合國教科文組織2023 年9 月發(fā)布的《生成式人工智能教育與研究應(yīng)用指南》(簡稱《指南》)(Miao,2023)首次在對該類技術(shù)的工作原理進(jìn)行溯源的基礎(chǔ)上,系統(tǒng)總結(jié)了八個有關(guān)生成式人工智能的基本爭議,進(jìn)而揭示了爭議對生成式人工智能教育應(yīng)用的根本影響?!吨改稀丰槍π缘靥岢鰬?yīng)對這些基本爭議的公共治理策略、生成式人工智能教育應(yīng)用的政策和引導(dǎo)主體適用的人機互動應(yīng)用的實踐框架。
本研究是對《指南》的第二篇解讀,聚焦于系統(tǒng)總結(jié)和剖析生成式人工智能及其教育應(yīng)用的基本爭議,并針對這些爭議的起因和責(zé)任主體提出治理對策和實踐應(yīng)用建議。本研究的相關(guān)解讀基于三個相互關(guān)聯(lián)的基本假設(shè):第一,人工智能科技創(chuàng)新、人工智能的安全可信性、包容平等的社會應(yīng)用不應(yīng)成為三難悖論(trilemma),人類應(yīng)追求三維同頻共振;第二,生成式人工智能對全社會及教育平等與包容、學(xué)習(xí)主體能動性、價值觀及語言文化多樣性、知識建構(gòu)的多元性等教育核心價值的威脅最為直接和深入,這些核心價值應(yīng)成為考證生成式人工智能教育適用性的邏輯起點;第三,生成式人工智能的教育應(yīng)用應(yīng)遵循“優(yōu)先管制、確保包容、引導(dǎo)應(yīng)用”的邏輯。
對生成式人工智能教育應(yīng)用爭議的討論須以其工作原理、技術(shù)缺陷及其對社會的顯性和潛在影響為依據(jù)。
《指南》從人工智能對人類思維表征符號系統(tǒng)模擬的角度界定生成式人工智能:生成式人工智能是基于人類思維符號表征系統(tǒng)表達(dá)的提示工程(prompt engineering)自動生成內(nèi)容的人工智能技術(shù)。生成式人工智能技術(shù)對借助各類符號表征系統(tǒng)呈現(xiàn)的內(nèi)容進(jìn)行模式識別和內(nèi)容生產(chǎn)方面的性能日益強大,目前已能貫通文字、語音、聲音、圖像、視頻、計算機編碼等格式進(jìn)行模式識別,并借助上述符合表征系統(tǒng)生成新內(nèi)容。文本生成式人工智能使用人工神經(jīng)網(wǎng)絡(luò)技術(shù)的通用文本轉(zhuǎn)換器,通常被稱為“大語言模型”(Large Language Model),是一種利用從互聯(lián)網(wǎng)網(wǎng)頁內(nèi)容、社交媒體對話和其他在線媒體收集數(shù)據(jù)進(jìn)行訓(xùn)練的內(nèi)容生成深度學(xué)習(xí)模型。文本或語音生成式預(yù)訓(xùn)練轉(zhuǎn)換模型,可以對訓(xùn)練用數(shù)據(jù)集的各類句法模式進(jìn)行識別和學(xué)習(xí),然后經(jīng)過反復(fù)訓(xùn)練、測試和優(yōu)化,獲得根據(jù)提示、通過重復(fù)執(zhí)行事先確認(rèn)的模式生成內(nèi)容或提供答案的能力。其關(guān)鍵技術(shù)環(huán)節(jié)包括:1)將提示指令分解為人工智能可處理的文本最小單位字節(jié)(token)后,輸入到生成式預(yù)訓(xùn)練轉(zhuǎn)換器中;2)轉(zhuǎn)換器根據(jù)從訓(xùn)練數(shù)據(jù)集中確認(rèn)的語言模式,預(yù)測特定單詞或短語在特定語境出現(xiàn)的概率,通過統(tǒng)計模型預(yù)測的擬合度組合為連貫反應(yīng)的詞語及其連綴方式(即句法),并借此預(yù)測后續(xù)最有可能使用的單詞或短語;3)將預(yù)測產(chǎn)生的單詞或短語轉(zhuǎn)化為可閱讀的文本(或可理解的聲音)??衫斫獾奈谋净蚵曇艚?jīng)過“護(hù)欄技術(shù)”(guardrails)過濾明顯違法或不合標(biāo)準(zhǔn)的不良輸出,并通過處理技術(shù)提高句法的擬人化程度和可理解性。上述過程不斷循環(huán)重復(fù),直到完成一個完整的響應(yīng)。
圖像或音樂生成式人工智能多采用生成對抗網(wǎng)絡(luò)(generative adversarial networks,GANs)人工神經(jīng)網(wǎng)絡(luò)技術(shù),并可與變分自編碼器(variational autoencoders)技術(shù)結(jié)合使用。也有圖像生成式人工采取擴散模型(diffusion models)等無監(jiān)督生成模型。例如,生成對抗網(wǎng)絡(luò)模型由兩個對抗器組成,即生成器(generator)和判別器(discriminator)。生成器針對提示識別圖像或音樂要素組合模式并生成隨機圖像或音樂片段,判別器對比生成的圖像或音樂與真實圖像或音樂(或范例)之間的擬合度。生成器隨后根據(jù)判別器的對比結(jié)果調(diào)整其使用的參數(shù)以便生成更優(yōu)化的圖像。通過千百次不斷的迭代訓(xùn)練,生成器創(chuàng)作的圖像或音樂越來越逼真。
生成式預(yù)訓(xùn)練轉(zhuǎn)換器的功能依賴于模型架構(gòu)、訓(xùn)練方法和預(yù)訓(xùn)練數(shù)據(jù)集的質(zhì)量、數(shù)量和模型使用的參數(shù)。其中,參數(shù)是決定人工神經(jīng)網(wǎng)絡(luò)系統(tǒng)如何加工輸入和產(chǎn)生輸出的數(shù)值,它通過界定訓(xùn)練中的數(shù)據(jù)對模型的內(nèi)容要素進(jìn)行編碼。參數(shù)的定義和數(shù)量決定預(yù)訓(xùn)練轉(zhuǎn)換器的性能和應(yīng)用表現(xiàn)。GPT-3 使用了約1750 億個參數(shù),而GPT-4 使用的參數(shù)據(jù)稱達(dá)1.8 萬億。從模型架構(gòu)的成熟度、所用的參數(shù)規(guī)模、內(nèi)容處理和生產(chǎn)能力、語言覆蓋范圍等方面考量,占全球壟斷地位的大模型包括OpenAI 的ChatGPT 系列產(chǎn)品、Meta 公司的 “羊駝”大語言模型(Alpaca)和 Meta 大語言人工智能模型(簡稱Llama 大模型)、谷歌公司“詩人”大語言模型(Bard,基于谷歌的PaLM2 基礎(chǔ)模型)和“雙子座”多模態(tài)大模型(Gemini)。已有生成式人工智能模型的訓(xùn)練用數(shù)據(jù)集主要包括通過爬蟲軟件讀取互聯(lián)網(wǎng)網(wǎng)頁信息、社交媒體對話信息、在線圖書館圖書資料和互聯(lián)網(wǎng)百科類平臺的百科內(nèi)容。以ChatGPT-3 為例,其訓(xùn)練用文本數(shù)據(jù)(即語料)約1 TB 左右((即語料)約1 TB 左右(Thompson,2023),主要來源包括:自2012 年以來持續(xù)通過“網(wǎng)絡(luò)爬蟲數(shù)據(jù)集”(common crawl)從互聯(lián)網(wǎng)收集的數(shù)據(jù),約占數(shù)據(jù)總量的61.75%;通過“紅迪”電子布告欄(Reddit)收集的點贊數(shù)超過3 個的社交媒體發(fā)帖和討論數(shù)據(jù),約占18.86%;兩個在線圖書平臺(Library Genesis 和Smashwords)的在線圖書,約占15.9%;維基百科數(shù)據(jù),約占3.49%。目前壟斷性生成式人工智能模型的訓(xùn)練用數(shù)據(jù)集以美國和歐洲國家的語言為主。在ChatGPT-3 的訓(xùn)練數(shù)據(jù)集中,英語語料約占92.65%,歐洲各國語言占比超過5%,漢語語料占比不到0.1%。Meta 公司開發(fā)的Llama 2 語料中,英語占比有所下降但仍占89.7%,其他占比排前15 的語言幾乎沒有改變,漢語語料占比為0.13%(Touvron et al., 2023) 。預(yù)訓(xùn)練用數(shù)據(jù)集和參數(shù)的幾何級數(shù)增長要求超算能力同步加速。在超級計算支撐方面,從2012 年到2019 年,用于生成式人工智能模型訓(xùn)練的算力的翻倍周期為3~4 個月(Stanford University,2019)。
生成式人工智能在多種深度學(xué)習(xí)技術(shù)中的綜合應(yīng)用、模型架構(gòu)的優(yōu)化、所用參數(shù)以千億級為基點的持續(xù)細(xì)化、訓(xùn)練用數(shù)據(jù)的跨平臺動態(tài)挖掘與疊增、處理海量數(shù)據(jù)和參數(shù)所需計算能力的周期倍增等核心技術(shù)和支撐技術(shù)領(lǐng)域都取得了集成性的突破。這種集成性技術(shù)突破在技術(shù)和實踐領(lǐng)域產(chǎn)生了“逃逸效應(yīng)”(runaway effect,又譯為“失控效應(yīng)”)。首先,生成式人工智能的近期成果表現(xiàn)為人工智能技術(shù)在跨符號表征系統(tǒng)數(shù)據(jù)加工和呈現(xiàn)方面的突破,提升了人類挖掘技術(shù)能力,由此加速了人工智能芯片、超算技術(shù)、數(shù)據(jù)加工模型等全領(lǐng)域的技術(shù)研發(fā)。鑒于其基礎(chǔ)性技術(shù)突破和影響,斯坦福大學(xué)學(xué)者2021 年提出的“基礎(chǔ)模型”(foundation models)概念已被廣泛接受(Bommasani,2021)。其次,生成式人工智能已引發(fā)網(wǎng)絡(luò)瀏覽器和網(wǎng)絡(luò)搜索引擎等數(shù)字基礎(chǔ)設(shè)施的全面升級,成為最底層國家數(shù)據(jù)安全和個人數(shù)據(jù)隱私保護(hù)的核心控制節(jié)點,并將引發(fā)數(shù)字管制政策和數(shù)字安全設(shè)施的全面升級。再次,生成式人工智能為直接和間接以內(nèi)容生產(chǎn)和內(nèi)容綜述為目的的經(jīng)濟和社會領(lǐng)域提供了提高生產(chǎn)效率的基礎(chǔ)工具,將引發(fā)大規(guī)模的生產(chǎn)方式變革。但生成式人工智能對教育等不以內(nèi)容生產(chǎn)為目的的行業(yè)的效能提升和行業(yè)變革能力會有極大的局限性。
從可知的技術(shù)路線分析發(fā)現(xiàn),生成式人工智能采用的人工神經(jīng)網(wǎng)絡(luò)技術(shù)取得的成就皆屬統(tǒng)計曲線擬合,它不同于人類結(jié)合時間、地點和因果關(guān)系等的推理智能(Pearl, et al., 2018)。如果生成式人工智能所代表的深度學(xué)習(xí)技術(shù)路線是對人類智能問題解決進(jìn)行可計算性模擬的正確路徑,那么其持續(xù)的迭代突破將會產(chǎn)生超越內(nèi)容加工范疇的通用人工智能逃逸效應(yīng),即積蓄足夠的技術(shù)勢能后會全面趕超人類智能的奇點并進(jìn)入通用人工智能,進(jìn)入相對脫離人類控制的發(fā)展軌道。但據(jù)目前可知的基礎(chǔ)模型工作原理,生成式人工智能的底層技術(shù)似乎還停留在內(nèi)容綜述、借助符號表征系統(tǒng)的內(nèi)容加工和格式轉(zhuǎn)換范疇,尚未進(jìn)入模擬人類理解力的技術(shù)路線,仍屬“范疇性錯誤”(a category mistake)(Bishop,2021)。目前取得的技術(shù)突破是否屬于范疇錯誤瓶頸前的技術(shù)性能躍遷有待觀察。
生成式人工智能的基本爭議本質(zhì)上屬于人機互動引發(fā)的人文憂患,本研究從人機互動的技術(shù)和人文兩個維度解析。其中,技術(shù)維度是人工智能系統(tǒng)生命周期的主要環(huán)節(jié),主要包含以下向度:數(shù)據(jù)的產(chǎn)生與保存、數(shù)據(jù)及數(shù)據(jù)設(shè)備的訪問權(quán)與控制權(quán)、基于數(shù)據(jù)與算法的預(yù)測與決策影響的外顯行為、智能人機界面及智能設(shè)備等實體人工智能。人文維度即人類借助技術(shù)以個體存在、社會交往、國家治理以及人類與生態(tài)系統(tǒng)互動等的多層次人文活動,主要包括以下彼此關(guān)聯(lián)的向度:人類個體、人與人互動的群體、以主權(quán)國家形式存在的人與人關(guān)系體、人與環(huán)境及生態(tài)系統(tǒng)的互動(苗逢春,2022)。在大面積推廣使用該技術(shù)前,使用者有必要從其訓(xùn)練數(shù)據(jù)采集、數(shù)據(jù)使用、基礎(chǔ)技術(shù)架構(gòu)、基于模式識別的內(nèi)容輸出等方面加以分析,研判對個體、社會和國家的現(xiàn)實威脅和潛在影響。
中共中央、國務(wù)院(2022)頒布的《關(guān)于構(gòu)建數(shù)據(jù)基礎(chǔ)制度更好發(fā)揮數(shù)據(jù)要素作用的意見》是人類進(jìn)入數(shù)據(jù)財產(chǎn)和數(shù)據(jù)產(chǎn)權(quán)保護(hù)時代的法律標(biāo)志。從此視域出發(fā),生成式人工智能對個體和商業(yè)數(shù)據(jù)的免費采集使用并借助基于數(shù)據(jù)訓(xùn)練的技術(shù)產(chǎn)品進(jìn)行商業(yè)謀利,會將原本潛藏的數(shù)據(jù)生產(chǎn)要素跨國跨行業(yè)價值挖掘爭議推向前臺。
訪問和應(yīng)用高質(zhì)量數(shù)據(jù)、隨時生產(chǎn)高質(zhì)量在線數(shù)據(jù)和轉(zhuǎn)化數(shù)據(jù)的能力已成為人工智能時代支撐國家經(jīng)濟發(fā)展和個體獲得數(shù)字發(fā)展機會的基本條件。故而,缺乏數(shù)據(jù)訪問機會、不具備數(shù)據(jù)挖掘所需的技術(shù)能力和超算能力的國家或不具備數(shù)據(jù)應(yīng)用支付能力的個體將處于“數(shù)據(jù)貧窮”(data poverty)(Marwala, 2023)的境地。生成式人工智能提供商基于免費數(shù)據(jù)訓(xùn)練基礎(chǔ)模型和借助訓(xùn)練成熟的模型提供有償服務(wù)的數(shù)據(jù)剝削生產(chǎn)方式會加劇數(shù)據(jù)貧窮的惡化。生成式人工智能對數(shù)據(jù)生產(chǎn)要素的挖掘依賴于三個必要條件:人工智能架構(gòu)設(shè)計和訓(xùn)練方法的迭代創(chuàng)新、海量數(shù)據(jù)集和超級計算能力。目前全球僅美國、中國和歐盟或極少數(shù)超大型數(shù)字技術(shù)公司同時具備參與基礎(chǔ)模型競爭所需的必備條件,數(shù)據(jù)貧窮國家在生成式人工智能領(lǐng)域的差距迅速拉大并被排斥在基礎(chǔ)模型核心研發(fā)圈外。生成式人工智能的跨領(lǐng)域普及加快了人工智能領(lǐng)先國家和公司數(shù)據(jù)生成和技術(shù)迭代的速度,成為加速數(shù)字鴻溝惡性循環(huán)的底層技術(shù)成因。
逆轉(zhuǎn)數(shù)據(jù)貧窮惡性循環(huán)的當(dāng)務(wù)之急,是從國家層面解析和補足轉(zhuǎn)化數(shù)據(jù)要素生產(chǎn)所需的各層次短板,基于下述“數(shù)據(jù)貧窮成因分類目錄”解構(gòu)和配給轉(zhuǎn)化數(shù)據(jù)生產(chǎn)所需的各類生產(chǎn)要素:大數(shù)據(jù)生產(chǎn)所需的互聯(lián)網(wǎng)普及率、全民數(shù)字素養(yǎng)普及率、數(shù)據(jù)流量成本可承受性、人工智能創(chuàng)新人才儲備和創(chuàng)新激發(fā)機制、人工智能芯片及超算能力的可及性和性能、借助本地或國際可信數(shù)據(jù)訓(xùn)練本地模型的能力等。針對該爭議的延伸問題是:如果跨國生成式人工智能提供商從低收入國家搜集使用的數(shù)據(jù)達(dá)到一定規(guī)模,是否應(yīng)通過征收數(shù)據(jù)使用稅等國際立法措施平衡數(shù)據(jù)生產(chǎn)要素剩余價值的分配機制?在具體立法方面,如何界定和追蹤數(shù)據(jù)要素的使用量、如何計算數(shù)據(jù)生產(chǎn)剩余價值及其稅收標(biāo)準(zhǔn)、如何在鼓勵技術(shù)創(chuàng)新和保護(hù)數(shù)據(jù)貧窮人口基本利益方面取得平衡等問題,都將是國際數(shù)據(jù)要素治理的前沿難題。
生成式人工智能系統(tǒng)的跨境服務(wù)應(yīng)接受其服務(wù)覆蓋區(qū)域當(dāng)?shù)卣卫頇C構(gòu)的管制,但生成式人工智能基于技術(shù)不透明的跨境服務(wù)已引發(fā)治理領(lǐng)域的多重爭議。首先,壟斷生成式人工智能系統(tǒng)提供商拒絕向獨立學(xué)術(shù)機構(gòu)提供基本的透明性資料并接受基本學(xué)術(shù)評估(Bommasani, 2023)。其次,生成式人工智能的基礎(chǔ)性技術(shù)多受以美國為主的提供商所在國知識產(chǎn)權(quán)保護(hù)而不向其服務(wù)覆蓋的國家開放,導(dǎo)致已有用戶所在國家在管制技術(shù)系統(tǒng)和應(yīng)用實踐安全性方面面臨極大挑戰(zhàn)(Lin, 2023)。第三,盡管有專家呼吁暫緩生成式人工智能的研發(fā)并謀求與公共治理機制同頻共振,但資本驅(qū)動的人工智能研發(fā)迭代節(jié)奏遠(yuǎn)超各國監(jiān)管法規(guī)的起草速度,對各國治理機構(gòu)應(yīng)對相關(guān)法律和倫理憂患提出了技術(shù)不對等的巨大挑戰(zhàn)。
各國生成式人工智能的治理呈現(xiàn)梯度性制度缺失和滯后:1)通用數(shù)據(jù)隱私保護(hù)法尚未形成覆蓋全球的完整圖譜。截至2023 年7 月,全球只有137個國家制定并頒布數(shù)據(jù)隱私保護(hù)的法律框架,近三分之一的國家無基本數(shù)據(jù)隱私保護(hù)法(UNCTAD,2023)。2)整體性國家人工智能戰(zhàn)略缺失。《指南》頒布前,約67 個國家制定了國家人工智能戰(zhàn)略規(guī)劃?!吨改稀奉C布后,盧旺達(dá)和多米尼加共和國發(fā)布各自的人工智能戰(zhàn)略。3)國家人工智能倫理治理框架制定滯后。調(diào)研發(fā)現(xiàn),截至2023 年7 月,全球僅約40 個國家制定了針對人工智能倫理治理的相關(guān)政策。4)應(yīng)對生成式人工智能的立法無力。調(diào)研發(fā)現(xiàn),截至2023 年7 月,針對生成式人工智能技術(shù)合成內(nèi)容作品能否受知識產(chǎn)權(quán)保護(hù)進(jìn)行論證并提出明確管理意見的只有中國、美國和歐盟三個國家或經(jīng)濟體。在《指南》發(fā)布前,只有中國制定并發(fā)布了《生成式人工智能暫行管理辦法》。此后,美國政府2023 年10 月底發(fā)布了《關(guān)于安全有保障和可信地開發(fā)與使用人工智能的行政命令》(The White House, 2023)。歐洲議會2023 年7 月啟動《人工智能法案》的起草和談判程序,并于2023年12 月通過全球最具有法律綁定效力的人工智能管制法律(European Parliament, 2023)。
生成式人工智能在搜集和使用訓(xùn)練用數(shù)據(jù)集方面存在未經(jīng)許可使用個體或機構(gòu)數(shù)據(jù)以及版權(quán)保護(hù)內(nèi)容的巨大爭議。
如前所述,生成式人工智能模型主要基于數(shù)據(jù)爬蟲軟件從互聯(lián)網(wǎng)爬取的文本、聲音、計算機代碼、圖像等數(shù)據(jù)集訓(xùn)練。已有壟斷性大模型在爬取數(shù)據(jù)時大多未事先取得個體和機構(gòu)的許可,易引發(fā)廣泛且深刻的知識產(chǎn)權(quán)爭議和法律糾紛。這種行為已被控違反了包括歐盟《公用數(shù)據(jù)保護(hù)條例》(European Union,2016)在內(nèi)的數(shù)據(jù)保護(hù)法,已進(jìn)入法律訴訟的案例集中在新聞媒體行業(yè)。2023 年10 月底,代表2200 多個新聞出版?zhèn)€體和組織權(quán)益的美國新聞媒體聯(lián)盟指控ChatGPT 借助爬蟲軟件,爬取數(shù)以百萬計的付費新聞報道和報告作為訓(xùn)練語料,但未征得版權(quán)擁有者許可,并通過法律程序要求Crawl Common 刪除非法搜集的內(nèi)容(Robertson, 2023)。生成式預(yù)訓(xùn)練模型未經(jīng)數(shù)據(jù)擁有者許可使用網(wǎng)絡(luò)數(shù)據(jù)的做法被進(jìn)一步質(zhì)疑侵犯了用戶的“數(shù)據(jù)遺忘權(quán)”,即數(shù)據(jù)擁有者有權(quán)要求有關(guān)產(chǎn)品和平臺刪除未經(jīng)許可搜集的數(shù)據(jù)。但在基礎(chǔ)模型研發(fā)領(lǐng)域,一旦用戶數(shù)據(jù)被基礎(chǔ)模型用作訓(xùn)練轉(zhuǎn)換器,已生成的模型從技術(shù)上不存在反學(xué)習(xí)(unlearning)的可能性,不可能從平臺輸出中刪除基于用戶數(shù)據(jù)的深度學(xué)習(xí)結(jié)果,包括反映數(shù)據(jù)擁有者觀點、語言文化習(xí)慣等特征的應(yīng)答(Zhang, 2023)。
生成式人工智能采用的人工神經(jīng)網(wǎng)絡(luò)模型一直存在模型架構(gòu)“黑盒”的缺陷,在人工神經(jīng)節(jié)點的節(jié)點數(shù)和節(jié)點層數(shù)、參數(shù)定義及其計算方法等方面不可解釋,這一爭議在生成式人工智能的近期突破中得到放大。盡管生成式人工智能包括算法在內(nèi)的總體技術(shù)路徑具有一定的可解釋性,但難以解釋具體模型尤其是模型的具體參數(shù)及其在決定內(nèi)容輸出中的權(quán)重。GPT-4 等基礎(chǔ)模型,通過數(shù)以十億級的參數(shù)及其權(quán)重界定復(fù)雜學(xué)習(xí)過程識別模式并決定基于模型識別的應(yīng)答輸出,導(dǎo)致難以解釋某一預(yù)訓(xùn)練模型為什么生成特定的輸出。基礎(chǔ)模型的主要迭代路徑仍依賴參數(shù)數(shù)量和模型架構(gòu)復(fù)雜性的增加,其不可解釋性問題會更加嚴(yán)重。
基礎(chǔ)模型客觀存在的技術(shù)不可解釋性與提供商不愿公開必要技術(shù)指標(biāo)的主觀行為相交織,給監(jiān)管機構(gòu)和獨立研究人員檢測模型的有意風(fēng)險和無意危害造成難以克服的障礙。斯坦福大學(xué)針對基礎(chǔ)模型的核心技術(shù)要素研制了基礎(chǔ)模型透明性指數(shù)(Bommasani, 2023)。該大學(xué)基于該指標(biāo)體系對十多個主流基礎(chǔ)模型的透明性作了綜合評估。其中,三個主要壟斷性生成式人工智能基礎(chǔ)模型的透明性得分見表1?;A(chǔ)模型的不可解釋性和風(fēng)險的不可檢測性導(dǎo)致其產(chǎn)生錯誤時無法追溯原因且無法通過透明機制評估和防范風(fēng)險。為此,有專家建議不能將生成式人工智能用于高風(fēng)險任務(wù)。
表1 生成式人工智能平臺透明性得分
生成式人工智能借助概率對文本上下文進(jìn)行模式識別,根據(jù)句法規(guī)則生成文本內(nèi)容。但因其不理解語言的語義(semantics),容易生成關(guān)于事實性、史實性甚至科學(xué)性錯誤輸出內(nèi)容幻象(hallucination)。根據(jù)代碼托管平臺GitHub(2023)基于英文問答的測算,ChatGPT 系列平臺的出錯率在3%~3.5%區(qū)間,Llama 系列平臺出錯率為5.1%~5.9%,谷歌PaLM 平臺出錯率為12.1%?;谥形牡绕渌Z言的出錯率應(yīng)顯著高于這一范圍。缺乏堅實基礎(chǔ)知識的未成年學(xué)生通過與生成式人工智能平臺的獨立對話開展學(xué)習(xí),會將學(xué)生置于一種基于不確信內(nèi)容開展學(xué)習(xí)的爭議境地。這一局限意味著基于目前技術(shù)的生成式人工智能不能被用作可靠的教學(xué)內(nèi)容來源。此外,生成式人工智能也不能借助句法理解文本和圖像等格式背后的現(xiàn)實世界、物體及其關(guān)系、人類和社會關(guān)系、人與物體的關(guān)系或人與技術(shù)的關(guān)系的真正意義。迄今為止,人類主要的科學(xué)發(fā)現(xiàn)方法主要是基于對真實世界的觀察、科學(xué)實驗和科學(xué)推理。生成式人工智能主要基于對已有文獻(xiàn)的綜述生成新內(nèi)容,除非用戶基于自身能動性并借助人工智能輔助發(fā)現(xiàn)知識,否則生成式人工智能不能輸出新知識。依據(jù)目前各主要國家的版權(quán)保護(hù)法,生成式人工智能生成的內(nèi)容并不被認(rèn)可為“知識”。與此關(guān)聯(lián),現(xiàn)有基礎(chǔ)模型為現(xiàn)實世界的具體復(fù)雜挑戰(zhàn)提供有針對性或創(chuàng)新性的解決方案方面表現(xiàn)不佳(Candelon, 2023),更不能作出社會價值判斷。故而,目前生成式人工智能尚不能脫離人類教師成為引導(dǎo)學(xué)生復(fù)雜知識學(xué)習(xí)和結(jié)構(gòu)不良問題解決的獨立導(dǎo)學(xué)系統(tǒng)。
上述技術(shù)局限會限制生成式人工智能變革教育的正面支持價值。生成式人工智能的現(xiàn)有技術(shù)性能在基礎(chǔ)性教育內(nèi)容提供、高階思維和復(fù)雜問題解決過程導(dǎo)學(xué)、價值觀引導(dǎo)或育人實踐等領(lǐng)域可提供的變革性影響有限。目前,生成式人工智能對教育變革的作用似乎更多體現(xiàn)在通過逆向挑戰(zhàn)學(xué)習(xí)結(jié)果和評價方式倒逼教育改革:生成式人工智能提高了內(nèi)容加工的自動化程度和防偽難度,降低了低階內(nèi)容綜述和作品制作作為核心學(xué)習(xí)結(jié)果的必要價值。處于低水平思維階段的基本拼寫和句法、文獻(xiàn)綜述報告、演示文稿制作、低階藝術(shù)作品制作等在形成性評價和低利害性考試中的占比降低,將會倒逼教育系統(tǒng)重新界定學(xué)習(xí)結(jié)果的側(cè)重點和相應(yīng)的評價方式。
生成式人工智能輸出和傳播的內(nèi)容對互聯(lián)網(wǎng)的污染體現(xiàn)在以下兩方面。
一方面,生成式人工智能存在通過生成和傳播不良內(nèi)容、污染互聯(lián)網(wǎng)信息的爭議。目前基礎(chǔ)模型訓(xùn)練均從互聯(lián)網(wǎng)提取訓(xùn)練用數(shù)據(jù)集,充斥互聯(lián)網(wǎng)的有害信息、錯誤信息、歧視信息、憎恨言論等會被轉(zhuǎn)換成有害信息再次輸出并通過互聯(lián)網(wǎng)二次傳播,會對不同年齡學(xué)習(xí)者造成難以逆轉(zhuǎn)的污染。
另一方面,被機器合成內(nèi)容污染的互聯(lián)網(wǎng)會影響后續(xù)基礎(chǔ)模型的培訓(xùn)。優(yōu)質(zhì)的深度學(xué)習(xí)模型依賴于人類產(chǎn)生的高個性化數(shù)據(jù),它通過從人類創(chuàng)造和使用的差異性表達(dá)方式中識別和學(xué)習(xí)高差異化的句法和模式,以維持機器的深度學(xué)習(xí)進(jìn)程并生成帶有模式差異的輸出。生成式人工智能大規(guī)模生成的內(nèi)容經(jīng)互聯(lián)網(wǎng)的二次傳播導(dǎo)致后續(xù)的基礎(chǔ)模型不可避免地從其先前生成的內(nèi)容中學(xué)習(xí)。在基于技術(shù)自身生產(chǎn)的數(shù)據(jù)開展訓(xùn)練的進(jìn)程中,已有統(tǒng)計模型的高概率事件會被過度高估、低概率事件會被過度低估,導(dǎo)致訓(xùn)練用數(shù)據(jù)集中低概率事件的(統(tǒng)計曲線)長尾逐步消失。而訓(xùn)練數(shù)據(jù)的小概率長尾在提高內(nèi)容輸出的準(zhǔn)確性和差異性方面具有重要價值,其消失導(dǎo)致的模型過于強化先前識別的模型會引發(fā)模型的性能衰退,主要表現(xiàn)為越來越多地生成與機器合成內(nèi)容趨同而非擬合現(xiàn)實內(nèi)容的同質(zhì)應(yīng)答,出錯率上升,最終可能導(dǎo)致模型坍塌。這對后續(xù)的基礎(chǔ)模型開發(fā)者提取優(yōu)質(zhì)互聯(lián)網(wǎng)訓(xùn)練數(shù)據(jù)提出更大的挑戰(zhàn)(Lutkevich, 2023)。
生成式人工智能輸出內(nèi)容的趨同性價值觀投射會壓制數(shù)字弱勢群體和教育領(lǐng)域知識建構(gòu)的多元性和多元化觀點表達(dá)。
如果一個字符串在訓(xùn)練用數(shù)據(jù)集中頻繁出現(xiàn),轉(zhuǎn)換器傾向于在其輸出中重復(fù)這些字符及其連綴成的語句。ChatGPT 等壟斷性基礎(chǔ)模型采用的歐美數(shù)據(jù)集中表達(dá)的共識性觀點、主流信念或主流媒體主導(dǎo)性觀念等都會被識別為與這些價值觀和語言文化習(xí)慣擬合的“標(biāo)準(zhǔn)答案”輸出,從而形成越是互聯(lián)網(wǎng)強勢價值觀和語言文化習(xí)慣越會在生成式人工智能輸出中得到強化的反饋閉環(huán)。如果不辨析生成式人工智能平臺所用訓(xùn)練數(shù)據(jù)集的文化和語言來源,大量盲目采用當(dāng)前壟斷性基礎(chǔ)模型,會強化美歐價值觀及其文化刻板印象。例如,醫(yī)學(xué)領(lǐng)域?qū)hatGPT-3、ChatGPT-4、詩人大模型和Anthronopic 公司的Claude 大模型問答結(jié)果的大量反復(fù)檢測發(fā)現(xiàn),這些基礎(chǔ)模型在回答有關(guān)肺活量、估算腎小球濾過率、皮膚厚度、腦容量等客觀醫(yī)學(xué)問題時,均會生成基于黑人和白人種族刻板印象的偏見性答案(Omiye, 2023)。相反,數(shù)據(jù)貧窮群體包括邊緣群體中的在線數(shù)字化“足跡”稀少,在基礎(chǔ)模型訓(xùn)練數(shù)據(jù)集中的占比很小,其價值觀和語言文化習(xí)慣無法被基礎(chǔ)模式加工、識別和強化。如果沒有突出語言文化多樣性的本地模型的強勢出現(xiàn),歐美基礎(chǔ)模型的全球壟斷會危及土著語言和文化的可持續(xù)發(fā)展和弱勢群體的合法利益(苗逢春,2023)。
另外,過分依賴生成式人工智能尋求“標(biāo)準(zhǔn)答案”或問題解決方案,會導(dǎo)致觀點的趨同性,削弱多樣性創(chuàng)新觀點的建構(gòu)。波士頓咨詢集團(tuán)針對750多名被試的研究發(fā)現(xiàn),借助ChatGPT-4 尋求創(chuàng)新方案的被試所形成觀點的多樣性比不使用者低41%,而且被試收到ChatGPT-4 提供的建議后多缺乏增加觀點多樣性的意愿。同時,70%的被調(diào)查者認(rèn)為長期使用生成式人工智能尋求答案會導(dǎo)致人類創(chuàng)造能力的退化(Candelon, 2023)。
生成式人工智能極大地降低了生成違法性深偽(deeper deepfakes)內(nèi)容的技術(shù)和成本門檻,提高了識別深偽的技術(shù)難度,助推了違法性深偽的合成與傳播。
生成式人工智能可支持新聞編輯能力低、零音樂和視頻制作的用戶獲得零基礎(chǔ)、零成本制作和發(fā)布高仿真深偽內(nèi)容的能力,包括模仿真人的語言風(fēng)格生成虛假新聞或網(wǎng)絡(luò)消息用以傳播虛假信息、宣傳憎恨言論或詆毀他人,或通過修改和操縱已有圖像和視頻生成難辨真假的偽造視頻非法牟利或達(dá)到其他不法目的等。換言之,生成式人工智能也許尚不能為解決人類面臨的公益問題提供有效解決方案,但已為別有用心者借助深偽內(nèi)容產(chǎn)品達(dá)到違法目的提供了低成本便捷工具。根據(jù)“2023 深偽狀態(tài)報告”(Home Security Hero, 2023)的統(tǒng)計和分析,借助生成式人工智能,只需一張清晰的面部照片,平均不到25 分鐘就可零成本生成一段60 秒長的色情深偽視頻;由于生成式人工智能的助推,2023 年新增在線深偽視頻達(dá)近一百萬段,是2019 年的5.5 倍;在所有深偽視頻中,色情類深偽視頻占98%,其中借助女性肖像生成的占99%。
為應(yīng)對生成式人工智能引發(fā)的上述基本爭議并挖掘其教育潛能,《指南》提出了以人為本的人工智能開發(fā)和應(yīng)用指導(dǎo)原則,并遵循“優(yōu)先管制、確保包容、引導(dǎo)應(yīng)用”的邏輯路徑,確保合乎倫理、安全可信、公平包容和富有意義的應(yīng)用。
自2019 年以來,聯(lián)合國教科文組織一直倡導(dǎo)以人為本的人工智能研發(fā)和應(yīng)用取向,并通過《人工智能倫理問題建議書》(UNESCO, 2022)、《關(guān)于人工智能與教育的北京共識》(UNESCO, 2019)、《人工智能與教育:決策者指南》(Miao, 2022)等多份文獻(xiàn)對以人為本的人工智能的應(yīng)用取向進(jìn)行了系統(tǒng)深入的界定。要義如下:人工智能的應(yīng)用與治理須以人為本,確保人的基本權(quán)利、尊嚴(yán)和文化多樣性,并追求人與環(huán)境和生態(tài)系統(tǒng)協(xié)調(diào)發(fā)展的生物中心主義(bio-centred)發(fā)展觀;人工智能的開發(fā)應(yīng)以技術(shù)服務(wù)于人為目的,確保人工智能致力于增強人類進(jìn)行有效人機協(xié)作所需的能力;人工智能系統(tǒng)設(shè)計、開發(fā)、應(yīng)用、迭代的全生命周期應(yīng)以確保人機互動的人類主體能動性為原則,確保人工智能系統(tǒng)及其應(yīng)用的安全可信性(trustable)、主體和領(lǐng)域適用性(proportional)、可解釋性(explainable)、人類可控性(human-controlled)、人類問責(zé)(humanaccountable)(苗逢春,2022)。
《指南》建議制定和實施政府一體化、明確跨領(lǐng)域和行業(yè)的主體責(zé)權(quán)和義務(wù)的協(xié)同共治策略。
1. 協(xié)商跨國通用數(shù)據(jù)保護(hù)法等國際法規(guī)
協(xié)商和制定跨國互認(rèn)的通用數(shù)據(jù)保護(hù)法和跨境治理機制是應(yīng)對轄域內(nèi)治理失序的必要國際共治前提。歐盟的《通用數(shù)據(jù)保護(hù)法》(簡稱《保護(hù)法》)為針對跨境數(shù)據(jù)服務(wù)開展轄域內(nèi)治理提供了國際法律框架的先例。
2. 制定政府一體化的跨部門、跨領(lǐng)域人工智能發(fā)展戰(zhàn)略和倫理共治機制
政府一體化的人工智能發(fā)展戰(zhàn)略是保證本國各領(lǐng)域和各部門協(xié)同治理人工智能的關(guān)鍵機制。其中,人工智能倫理治理機制需清晰界定國家數(shù)據(jù)主權(quán)、機構(gòu)和個體數(shù)據(jù)擁有權(quán)與隱私等核心權(quán)益、合法的數(shù)據(jù)要素生產(chǎn)關(guān)系、人工智能技術(shù)開發(fā)和應(yīng)用的核心倫理原則以及基于公共和他人數(shù)據(jù)生產(chǎn)的人工智能產(chǎn)品剩余價值分配關(guān)系等。
3. 研制針對生成式人工智能的專門管理辦法
2023 年7 月,中國發(fā)布了《生成式人工智能暫行管理辦法》(簡稱《管理辦法》),是全球首部對生成式人工智能進(jìn)行服務(wù)轄區(qū)管制的正式法規(guī)。該法規(guī)可進(jìn)一步借鑒《指南》以及歐洲與美國近期的立法舉措,修改完善其中的諸多法律和倫理要點。其中與教育應(yīng)用息息相關(guān)的要點有以下方面:
1)對生成式人工智能的安全風(fēng)險進(jìn)行技術(shù)分類和分級監(jiān)管。歐洲議會頒布的《人工智能法案》草案將人工智能系統(tǒng)對人類安全和基本權(quán)利等的風(fēng)險分成不可接受的風(fēng)險(包括引誘未成年對人工智能聊天平臺產(chǎn)生依賴的技術(shù)、情感識別技術(shù)、智力和行為預(yù)測人工智能等)、高風(fēng)險、有限風(fēng)險和輕微風(fēng)險四類,并針對不同類型采取禁用(禁止開發(fā)和投入市場)、重點監(jiān)管(教育領(lǐng)域?qū)僦攸c監(jiān)管領(lǐng)域)、審查監(jiān)督和行業(yè)自律的分級監(jiān)管措施。
2)未成年人獨立使用生成式人工智能聊天的年齡限制。基于聊天預(yù)訓(xùn)練模型會生成不適合未成年人的輸出等安全隱患,《指南》建議各國將13歲設(shè)為未成年人獨立使用生成式人工智能聊天服務(wù)的年齡下限,并考慮16 歲的更嚴(yán)格年齡限制。最近,生成式人工智能的技術(shù)服務(wù)方式開始實現(xiàn)從基于平臺的聊天服務(wù)向手機等個人終端應(yīng)用軟件的延伸,監(jiān)管部門和成人將更難監(jiān)督未成年人的獨立聊天安全隱患?!豆芾磙k法》的修訂需深入研判相關(guān)風(fēng)險,明確對成年人獨立使用生成式人工智能聊天類軟件的多方監(jiān)管責(zé)任。
3)明確其他責(zé)任主體的責(zé)任和義務(wù)?!豆芾磙k法》的具體條款主要針對的是生成式人工智能提供商,而美國的“行政命令”則較為全面地對各類應(yīng)用機構(gòu)的集體責(zé)任和義務(wù)作了界定。《管理辦法》的修訂應(yīng)明確集中采購和部署生成式人工智能系統(tǒng)的機構(gòu)在協(xié)同審核數(shù)據(jù)、工具和內(nèi)容服務(wù)合法性等方面的共治職責(zé),并協(xié)助開展對用戶尤其是弱勢群體影響的動態(tài)監(jiān)督和評估;在明確機構(gòu)治理責(zé)任的基礎(chǔ)上,考慮個體用戶應(yīng)用相關(guān)技術(shù)應(yīng)履行的法律和倫理責(zé)任,包括個體對其潛在威脅和自我安全保障的基本意識和技能、合乎法律法規(guī)地使用相關(guān)工具和生成內(nèi)容的知識和技能等。
4)對人工智能生成內(nèi)容的版權(quán)識別和應(yīng)用范疇界定?!豆芾磙k法》要求“提供者應(yīng)當(dāng)按照《互聯(lián)網(wǎng)信息服務(wù)深度合成管理規(guī)定》對圖片、視頻等生成內(nèi)容進(jìn)行標(biāo)識”,歐盟的《保護(hù)法》要求明確標(biāo)注說明人工智能生成的內(nèi)容。然而,上述三份最有針對性的法律法規(guī)均未對人工智能生成的內(nèi)容產(chǎn)品的合法使用作出清晰界定。“如何有效限制非法性深偽內(nèi)容的生成和傳播”“付費生成內(nèi)容產(chǎn)品的用戶對內(nèi)容的擁有權(quán)如何界定和如何保護(hù)”“借助生成式人工智能文獻(xiàn)綜述支持人類主導(dǎo)的科研活動與完全違背學(xué)術(shù)道德或教學(xué)紀(jì)律的生成式人工智能作弊之間如何劃定界限及如何識別”等都是有待深入研判的監(jiān)管難題。
《指南》對確保生成式人工智能有效教育應(yīng)用的政策和實踐提出了詳細(xì)建議,要點如下:
生成式人工智能與包容、公平、語言與文化多樣等人本原則的雙向關(guān)系包含以下政策和實踐意蘊。1)包容公平的技術(shù)使用權(quán)和使用機會是借助人工智能促進(jìn)教育公平包容的前提:應(yīng)確保無論何種性別、種族、能力水平、社會經(jīng)濟地位或有無固定居住地的人群都有能包容性地使用人工智能的機會。為此,各國應(yīng)借鑒前述“數(shù)據(jù)貧窮成因分類目錄”精準(zhǔn)確定缺乏使用人工智能機會的人群及其成因,并采取專項措施補齊短板,縮小數(shù)字鴻溝。2)面向不同能力水平和年齡階段終身學(xué)習(xí)者的包容:通過專項經(jīng)費開發(fā)和推廣有針對性的人工智能技術(shù)和工具,滿足有特殊需要和不同能力水平的群體和不同年齡段的學(xué)習(xí)者的終身學(xué)習(xí)需要。3)確保數(shù)據(jù)和技術(shù)去偏:生成式人工智能評估體系應(yīng)該重點考核數(shù)據(jù)來源和數(shù)據(jù)預(yù)處理、模型設(shè)計和輸出內(nèi)容中的性別偏見、特殊群體刻板印象、邊緣群體歧視、憎恨言論等。4)倡導(dǎo)開發(fā)具有語言文化多樣的基礎(chǔ)模型:制定和實施確保生成式人工智能語言文化多樣性的指標(biāo)體系,確保預(yù)訓(xùn)練數(shù)據(jù)集、模型架構(gòu)和訓(xùn)練方法對少數(shù)或土著語言文化的包容性,嚴(yán)禁提供商有意或無意從預(yù)訓(xùn)練數(shù)據(jù)中剔除少數(shù)族群的語言和添加帶有語言文化偏見的數(shù)據(jù)過濾或輸出的后處理技術(shù)。
由于生成式人工智能性能日益精細(xì)并在一定程度上部分替代人類的初級內(nèi)容加工活動,其教育應(yīng)用存在壓制人類能動性的可能。借助生成式人工智能工具撰寫論文和提交基礎(chǔ)藝術(shù)作品帶來的便利,會誘使學(xué)生對借助工具加工外部內(nèi)容形成依賴。對外部創(chuàng)作的長期依賴會使學(xué)生失去鍛煉心智和形成基礎(chǔ)知識、基本技能的機會。為此,保護(hù)和增強人類的能動性應(yīng)是設(shè)計和采用任何人工智能技術(shù)的核心原則,應(yīng)堅守生成式人工智能可被用于挑戰(zhàn)和拓展人類的思維,但決不能用來篡越人類思維活動的底線原則?!吨改稀方ㄗh從以下方面界定人機互動的主體性,保護(hù)生成式人工智能教育應(yīng)用的師生能動性:1)明確告知生成式人工智能會搜集和使用的學(xué)生數(shù)據(jù)類型、數(shù)據(jù)將被如何使用以及相關(guān)數(shù)據(jù)應(yīng)用會對其教育和社會生活的影響;2)保護(hù)學(xué)生成長和學(xué)習(xí)的內(nèi)部動機,強化人類在基于日益復(fù)雜的人工智能系統(tǒng)開展教和學(xué)中的決策和行為自主性;3)防止生成式人工智能的使用剝奪學(xué)生通過觀察現(xiàn)實世界、實證方法(如實驗、與他人的討論等)和邏輯推理發(fā)展其認(rèn)知能力和社會技能的機會;4)在學(xué)習(xí)活動中確保學(xué)生有足夠的社會互動和接觸人類創(chuàng)作作品的機會,防止學(xué)生過度依賴生成式人工智能或成癮;5)在審核并決定是否大規(guī)模采納生成式人工智能工具前,充分咨詢研究人員、教師和學(xué)生的意見;6)鼓勵學(xué)生和教師批判和質(zhì)疑生成式人工智能背后采用的技術(shù)方法、輸出內(nèi)容的準(zhǔn)確性、隱含的價值觀以及對教學(xué)方法和過程的潛在影響等;7)師生在借助人工智能作決策和選擇時,應(yīng)避免將人類的決策責(zé)任讓渡給生成式人工智能系統(tǒng)。
教育生成式人工智能工具的開發(fā)和部署在遵循“設(shè)計倫理”指導(dǎo)原則的基礎(chǔ)上,應(yīng)從人工智能系統(tǒng)的全生命周期出發(fā),避免具有潛在技術(shù)和倫理風(fēng)險或不具備對教學(xué)適用性的人工智能技術(shù)對師生和各類教育主體關(guān)系的影響。針對已有生成式人工智能的教育應(yīng)用,《指南》建議通過以下機制開展審核、準(zhǔn)入和全程監(jiān)控:在準(zhǔn)入審查中強化倫理檢測,考核生成式人工智能系統(tǒng)是否有去除偏見尤其是性別偏見的技術(shù)和機制、是否采用代表語言文化多樣性的訓(xùn)練數(shù)據(jù)集;在給予準(zhǔn)入權(quán)限前,確保被審查的系統(tǒng)不會對師生產(chǎn)生可預(yù)測的傷害,提高教育有效性、針對不同年齡和能力學(xué)生的適用性并符合教育機構(gòu)確認(rèn)的教學(xué)原則(如適用于相關(guān)的知識技能類型、預(yù)期的學(xué)習(xí)結(jié)果和價值觀培養(yǎng)目標(biāo)等);采取有效措施解決數(shù)據(jù)使用和服務(wù)許可授權(quán)等難題。例如,針對未成年人和殘障人士等不具備完全刑事能力的主體,如果其被告知數(shù)據(jù)隱私和安全等風(fēng)險的前提下被授權(quán)使用數(shù)據(jù)和接受服務(wù)的難題等;審查生成式人工智能輸出內(nèi)容中是否含有深偽圖像、虛假新聞或憎恨言論等不良或非法信息;結(jié)合當(dāng)?shù)氐沫h(huán)境影響評估結(jié)果,分析生成式人工智能系統(tǒng)教育應(yīng)用的環(huán)境成本,尤其是模型訓(xùn)練的電耗和水耗等因素。
現(xiàn)有壟斷性大模型對歐美之外其他國家的語言文化適用性較低,在保障對合法國際競爭的前提下,應(yīng)采取積極自主的開發(fā)策略提高教育生成式人工智能的本地適用性;在鼓勵版權(quán)自主、安全可控的本國基礎(chǔ)模型開發(fā)基礎(chǔ)上,支持基于本地價值觀、語言文化多樣性和本國課程標(biāo)準(zhǔn)的教育生成式預(yù)訓(xùn)練轉(zhuǎn)換器(EdGPT)或教育大模型的研制、試用與迭代;通過激勵機制鼓勵開發(fā)基于本國基礎(chǔ)模型的面向探究性學(xué)習(xí)和多樣化學(xué)習(xí)選擇等需求的生成式人工智能教育平臺和應(yīng)用插件,培育基于本國語言文化多樣性和課程標(biāo)準(zhǔn)、基礎(chǔ)模型與中下游應(yīng)用軟件同步的教育生成式人工智能生態(tài)系統(tǒng)。
培養(yǎng)學(xué)生尤其是中小學(xué)生的人工智能能力對確保學(xué)生安全、符合倫理和有意義地應(yīng)用人工智能至關(guān)重要。截至2022 年中,全球只有約15 個國家制定并通過國家認(rèn)可的中小學(xué)人工智能課程(UNESCO, 2022)。隨著生成式人工智能的迅速推廣應(yīng)用,培養(yǎng)面向所有人的基礎(chǔ)性人工智能素養(yǎng)(AI Literacy)的需求更加迫切。聯(lián)合國教科文組織正在研制的“中小學(xué)生人工智能能力框架”,從“能力表現(xiàn)”和“能力層面”兩個維度界定可通過課堂教學(xué)和課外課程結(jié)合的方式培養(yǎng)的中小學(xué)生人工智能能力。能力表現(xiàn)維度包括“人工智能觀念”“人工智能倫理”“人工智能底層技術(shù)與應(yīng)用”“人工智能系統(tǒng)設(shè)計”;能力層面維度則從對相關(guān)知識、技能和情感態(tài)度的“理解”“應(yīng)用”和“創(chuàng)造”三個方面界定學(xué)生的能力表現(xiàn)(見表2)。
表2 聯(lián)合國教科文組織中小學(xué)生人工智能能力框架(研制中)
與此同時,聯(lián)合國教科文組織在組織研制中小學(xué)教師人工智能能力框架,旨在引導(dǎo)各國制定相關(guān)標(biāo)準(zhǔn)和教師培訓(xùn)課程以支持教師做好合理應(yīng)用生成式人工智能的能力準(zhǔn)備(見表3)。該框架倡議從以下能力層面界定教師的能力:人本人工智能觀念、人工智能倫理、人工智能基礎(chǔ)與應(yīng)用、人工智能與教學(xué)整合和人工智能支持教師專業(yè)發(fā)展,并建議從“獲取”“深化”和“創(chuàng)造”三個水平劃分不同能力背景的教師通過培訓(xùn)可以達(dá)到的能力表現(xiàn)。其中,“獲取”水平是預(yù)期所有教師經(jīng)過培訓(xùn)均能達(dá)到的能力表現(xiàn),包括缺乏人工智能知識技能準(zhǔn)備的教師以及技術(shù)條件貧乏地區(qū)的教師;“深化”水平是預(yù)期具有中等先前知識基礎(chǔ)的骨干教師經(jīng)過培訓(xùn)可以達(dá)到的能力表現(xiàn);“創(chuàng)造”水平針對在人工智能教育應(yīng)用方面有深厚的知識技能儲備的教師,預(yù)期經(jīng)過培訓(xùn)后可以達(dá)到專家的能力表現(xiàn)。
表3 聯(lián)合國教科文組織中小學(xué)教師人工智能能力框架(研制中)
教育擔(dān)負(fù)著維持和促進(jìn)文明延續(xù)和持續(xù)繁榮的歷史使命。實現(xiàn)這一教育使命的支柱性原則是確保教育過程中語言文化的多樣化、鼓勵個性化觀點的建構(gòu)和多樣化表達(dá)。生成式人工智能通過復(fù)制或強化訓(xùn)練數(shù)據(jù)擁有者的世界觀和語言文化觀念,壓制多樣性觀點的形成和多元表達(dá),并對教育的文化多樣性和觀點多元化使命造成直接威脅。為此,借助生成式人工智能查詢或深化某個(些)主題教學(xué)的根本前提是:無論圍繞任何主題開展人機互動,均不能將生成式人工智能作為權(quán)威的知識來源,應(yīng)引導(dǎo)教師和學(xué)生堅守對生成式人工智能輸出內(nèi)容進(jìn)行批判性思維的正確定位,即明確生成式人工智能可用于快速查詢信息、支持文獻(xiàn)檢索和格式轉(zhuǎn)換,但會含有不可靠內(nèi)容的信息來源。在具體教學(xué)中,教師應(yīng)基于主體適用原則設(shè)計教學(xué)活動,激勵和輔助學(xué)生評價和批判其輸出內(nèi)容對價值觀和語言文化觀念的投射,并借助生成式人工智能在文獻(xiàn)綜述和數(shù)據(jù)加工方面的優(yōu)勢支持探究性學(xué)習(xí);與此同時,為學(xué)生提供足夠的不依賴人工智能工具的試錯學(xué)習(xí)機會、實證性實驗和對真實世界的觀察機會。
盡管本研究對目前可知的生成式人工智能工作過程進(jìn)行了概括和追溯,但面對迅速進(jìn)化的基礎(chǔ)模式和快速裂變的中下游應(yīng)用軟件,以及人類教育活動的互動場景千差萬別并充滿不確定性,不能僅基于現(xiàn)有技術(shù)缺陷或單純從消極懷疑論的視角出發(fā)短視地分析其教育影響?!吨改稀方ㄗh教育決策者仍應(yīng)與人工智能研究者和提供商、教育教學(xué)理論研究者、認(rèn)知神經(jīng)科學(xué)等學(xué)科研究人員以及教師、學(xué)生和家長等合作,跨領(lǐng)域、跨學(xué)科評判生成式人工智能對知識生產(chǎn)和學(xué)習(xí)過程、版權(quán)與科學(xué)研究、課程與評價、人類協(xié)作和社會動態(tài)發(fā)展等領(lǐng)域的深遠(yuǎn)影響,并以此為基礎(chǔ)審慎地反思迅速迭代的人工智能技術(shù)對課程框架、教學(xué)目標(biāo)界定和考試評價方式的影響,從而作出相應(yīng)的系統(tǒng)調(diào)適。
面對一項在內(nèi)容加工功能上出現(xiàn)代際躍遷的人工智能技術(shù),論證其教育潛能的邏輯起點不應(yīng)限于關(guān)于其技術(shù)性能的商業(yè)宣傳,也不應(yīng)始于其在內(nèi)容創(chuàng)作等商業(yè)領(lǐng)域的生產(chǎn)力提升表現(xiàn),仍應(yīng)堅守以人為本的基本原則。以此為出發(fā)點,教育者辯證分析生成式人工智能系統(tǒng)全生命周期的關(guān)鍵技術(shù)環(huán)節(jié)可能引發(fā)的根本爭議,系統(tǒng)考證和應(yīng)對其對公平、包容、價值觀培養(yǎng)、語言文化多樣性等教育核心價值的影響,唯此才能避免作為教育主體和教育服務(wù)對象的人類個體和人類群體成為商業(yè)驅(qū)動的人工智能技術(shù)的實驗品和仆從者。