【摘 要】本研究旨在以生成式人工智能技術(shù)為例,探索大模型在題目生成、測(cè)量學(xué)分析、自動(dòng)評(píng)分和過程性評(píng)價(jià)等關(guān)鍵教育測(cè)量與評(píng)價(jià)領(lǐng)域的變革和應(yīng)用。通過對(duì)大模型的應(yīng)用實(shí)例進(jìn)行綜合論證、分析,意在揭示其在教育測(cè)量與評(píng)價(jià)中的應(yīng)用效能,從而推動(dòng)對(duì)該技術(shù)的進(jìn)一步研究和討論。
【關(guān)鍵詞】大模型;教育測(cè)量與評(píng)價(jià);生成式人工智能
【中圖分類號(hào)】G434" "【文獻(xiàn)標(biāo)志碼】B
【論文編號(hào)】1671-7384(2024)05-012-03
在當(dāng)前社會(huì)的數(shù)字化轉(zhuǎn)型過程中,人工智能(AI)已成為不可或缺的力量。特別是AI大模型,以其高級(jí)的自動(dòng)化執(zhí)行任務(wù)、深刻的語義理解、創(chuàng)新的輸出生成、精確的邏輯判斷以及處理大規(guī)模數(shù)據(jù)的能力,正在從根本上改變我們生活的各個(gè)方面[1]。生成式人工智能,作為一種能夠基于自然語言提示(Prompt)自動(dòng)產(chǎn)生回應(yīng)內(nèi)容的AI技術(shù)[2],進(jìn)一步深化了大模型的應(yīng)用范圍,尤其是在變革教育測(cè)量與評(píng)價(jià)這一復(fù)雜領(lǐng)域的潛能上。盡管在該領(lǐng)域應(yīng)用AI的例子屢見不鮮,但以生成式人工智能技術(shù)為核心的大模型在這一領(lǐng)域的變革潛力、實(shí)踐過程及應(yīng)用效果的深入研究仍然缺乏?;诖?,本研究嘗試從題目生成、測(cè)量學(xué)分析、自動(dòng)評(píng)分和過程性評(píng)價(jià)四個(gè)方面系統(tǒng)地審視AI大模型對(duì)教育測(cè)量與評(píng)價(jià)領(lǐng)域的變革,全面評(píng)估大模型的潛力和面臨的挑戰(zhàn)。
大模型在題目生成中的應(yīng)用
在教育評(píng)估領(lǐng)域,題目生成是核心環(huán)節(jié)之一,其質(zhì)量直接影響評(píng)估的有效性和準(zhǔn)確性。傳統(tǒng)的題目生成過程往往依賴于教師或?qū)<业慕?jīng)驗(yàn)和創(chuàng)造力,不僅耗時(shí)耗力,而且在題目的多樣性、創(chuàng)新性及個(gè)性化方面存在局限。大模型的高度智能化和自動(dòng)化能力使得這一過程得到顯著改善和加速,其能夠基于廣泛的知識(shí)庫生成各類型、各難度級(jí)別的題目,同時(shí)提供更高效、更個(gè)性化的題目創(chuàng)作解決方案。
在生成常規(guī)題目方面,大模型能夠基于預(yù)設(shè)的知識(shí)點(diǎn)快速生成題目,如選擇題、填空題等,這類題目是檢測(cè)學(xué)生對(duì)基礎(chǔ)知識(shí)掌握情況的重要方式。大模型的應(yīng)用顯著提高了題目生成的效率和多樣性,降低了人工編題的時(shí)間成本。生成此類題目時(shí),用戶需要提供清晰的知識(shí)點(diǎn)和期望的題型。
在生成分層類題目方面,針對(duì)不同能力層次的學(xué)生,大模型可以定制生成分層類題目,以實(shí)現(xiàn)教學(xué)的個(gè)性化。這一應(yīng)用幫助教師針對(duì)學(xué)生的不同理解程度提供相應(yīng)難度的練習(xí)題,優(yōu)化學(xué)習(xí)路徑。在生成分層題目時(shí),需指定知識(shí)點(diǎn)及不同難度級(jí)別的描述。因此,要確保難度分級(jí)的合理性,以及分層題目涵蓋知識(shí)點(diǎn)的全面性。
在生成探究類題目方面,大模型能夠根據(jù)最新研究和情境,生成旨在培養(yǎng)學(xué)生批判性思維和解決問題能力的探究性題目。這種應(yīng)用促進(jìn)了學(xué)生的深度學(xué)習(xí),鼓勵(lì)學(xué)生超越傳統(tǒng)的記憶式學(xué)習(xí)。生成探究性題目時(shí),用戶需要提供探究的主題和目的,確保題目具有開放性,能夠激發(fā)學(xué)生的思考和探索。
下面通過教師與大模型的對(duì)話進(jìn)行實(shí)例展示。教師:“我需要一組圍繞‘生態(tài)系統(tǒng)的能量流動(dòng)’主題的分層題目,從基礎(chǔ)知識(shí)到應(yīng)用分析?!贝竽P停骸盎A(chǔ)層次,我生成了一道選擇題‘在生態(tài)系統(tǒng)中,能量的傳遞順序是?’;中級(jí)層次,是一道簡(jiǎn)答題‘解釋食物鏈中每個(gè)環(huán)節(jié)能量傳遞的效率問題’;高級(jí)層次,則是一道探究題‘設(shè)計(jì)一個(gè)實(shí)驗(yàn),來研究不同生態(tài)系統(tǒng)能量流動(dòng)的差異’?!?/p>
教師:“對(duì)于高級(jí)層次的探究題,我希望增加跨學(xué)科的要求,比如結(jié)合數(shù)學(xué)建模?!贝竽P停骸袄斫饬耍疑蛇@樣一個(gè)問題‘使用數(shù)學(xué)模型來預(yù)測(cè)和比較兩個(gè)不同生態(tài)系統(tǒng)能量流動(dòng)的效率,并解釋可能導(dǎo)致差異的生態(tài)因素’?!?/p>
從表現(xiàn)來看,大模型在題目生成時(shí)具有靈活性和實(shí)用性,不僅能根據(jù)教師的需求快速生成不同類型的題目,還能夠根據(jù)具體要求調(diào)整題目難度和內(nèi)容,展現(xiàn)了其在教育領(lǐng)域的巨大潛力。為確保題目的質(zhì)量和準(zhǔn)確性,生成后的題目應(yīng)通過專家或教師進(jìn)行審核。
大模型在測(cè)量學(xué)分析中的應(yīng)用
測(cè)量學(xué)分析是保證工具質(zhì)量的關(guān)鍵。從數(shù)據(jù)層面看,往往需要關(guān)注難度系數(shù)、區(qū)分度系數(shù)、內(nèi)部一致性系數(shù)、效標(biāo)相關(guān)等指標(biāo);從內(nèi)容層面看,還需要關(guān)注工具的內(nèi)容效度,判斷工具是否能夠充分反映所測(cè)構(gòu)念。大模型能夠幫助初學(xué)者了解測(cè)量學(xué)分析的相關(guān)原理、步驟和解釋方法等,并輔助對(duì)內(nèi)容效度做出初步判斷(以PISA的閱讀元認(rèn)知策略的測(cè)評(píng)題目為例),實(shí)例展示如下(相關(guān)語句經(jīng)過提煉總結(jié))。
例1:輔助開展測(cè)量學(xué)分析
用戶:“你能告訴我計(jì)算克隆巴赫系數(shù)的SPSS語句和R代碼嗎?”
大模型:
“SPSS語句:Reliability
/VARIABLES=var1 var2 var3 var4 var5 var6 var7
/SCALE('All variables') ALL
/MODEL=ALPHA.
R 代碼:
library(psych)
data lt;- read.csv(\"data.csv\")
alpha(data)”
用戶:“我從SPSS得到的克隆巴赫系數(shù)為 0.909,我該如何解釋它?”
大模型:“通常,克隆巴赫系數(shù)高于0.7被認(rèn)為是可接受的,高于 0.8表示良好的內(nèi)部一致性。”
例2:輔助開展內(nèi)容效度評(píng)估
用戶:“幫我評(píng)估這道測(cè)量學(xué)生閱讀元認(rèn)知的題目‘快速瀏覽兩遍文章’?!贝竽P停骸霸擃}項(xiàng)不能提供有關(guān)文本理解詳細(xì)程度的信息。該項(xiàng)目的有效性取決于閱讀的目的以及文本的類型和復(fù)雜性。該項(xiàng)目沒有明確表明學(xué)生是否理解了文章。更好的題目是‘我快速通讀了兩遍文本,可以識(shí)別主要思想和支持細(xì)節(jié)’?!?/p>
從表現(xiàn)來看,大模型所提供的建議能夠幫助初學(xué)者迅速熟悉相關(guān)分析的操作方法,為評(píng)估內(nèi)容效度提供參考。但其給出的建議也存在誤區(qū),需要謹(jǐn)慎對(duì)待,如信度高低的判斷標(biāo)準(zhǔn)事實(shí)上與工具的應(yīng)用場(chǎng)景有關(guān),在高利害測(cè)驗(yàn)的情景下,大模型給出的判斷標(biāo)準(zhǔn)并不適用,以及所給出的題目修改意見包含多重表述。
大模型在自動(dòng)評(píng)分中的應(yīng)用
自動(dòng)評(píng)分是將被試在測(cè)驗(yàn)中的表現(xiàn)自動(dòng)轉(zhuǎn)換為分?jǐn)?shù)的過程。自動(dòng)評(píng)分的研究熱點(diǎn)集中在較為復(fù)雜的作文評(píng)分等任務(wù)上,大模型在這方面具有強(qiáng)大的潛力。表1展示的是人類和大模型對(duì)三篇作文的評(píng)分差異。在這三個(gè)有限樣本中,大模型在每個(gè)維度上的評(píng)分和人類評(píng)分者相比分差最大為1分,考慮到人類評(píng)分者之間也可能存在差異,這在容忍范圍內(nèi)。
表1" 人類和大模型的評(píng)分對(duì)比
人類
評(píng)分 大模型
評(píng)分 人類基于維度的評(píng)分 大模型基于維度的評(píng)分
3 4 1;1;1;0 1;1;1;1
6 7 2;2;1;1/1;2;2;1
(兩位人類評(píng)分者) 2;2;1;2
12 9 3;3;3;3 2;2;2;3
大模型不僅能夠提供總分,還能提供每個(gè)維度的分?jǐn)?shù),并給出一些評(píng)分原因。例如,它對(duì)第二篇文章的評(píng)論如下。
主題(2分):作者講述了一個(gè)關(guān)于制作一款游戲的故事,主題鮮明,但還需要添加更多具體細(xì)節(jié)。
結(jié)構(gòu)(2 分):寫作具有一定的邏輯順序,但過渡不夠清晰。
語言(1 分):寫作中語言使用較差,詞語選擇和語句結(jié)構(gòu)缺乏多樣性。
語法(2 分):在語法、標(biāo)點(diǎn)符號(hào)使用等方面符合慣例。
大模型提供的評(píng)分依據(jù)與評(píng)分標(biāo)準(zhǔn)高度一致,像是對(duì)評(píng)分標(biāo)準(zhǔn)的重述。整體而言,大模型在自動(dòng)評(píng)分方面的表現(xiàn)處于可以接受的水平,可以替代非高利害場(chǎng)景下、重復(fù)性的評(píng)分工作(如日常作業(yè)),也可以為人類評(píng)分者提供參照,但尚不能獨(dú)立承擔(dān)高利害場(chǎng)景的評(píng)分工作。
大模型在過程性評(píng)價(jià)中的應(yīng)用
大模型在支持過程性評(píng)價(jià)方面提供了顯著價(jià)值,尤其是在設(shè)計(jì)評(píng)價(jià)標(biāo)準(zhǔn)和指標(biāo)、制定評(píng)價(jià)計(jì)劃、開展數(shù)據(jù)分析和結(jié)果呈現(xiàn)上,下面展示大模型提供的科學(xué)課程過程性評(píng)價(jià)流程和建議。
1.設(shè)計(jì)評(píng)價(jià)標(biāo)準(zhǔn)和指標(biāo)
(1)定義評(píng)價(jià)目標(biāo):清晰定義評(píng)價(jià)目標(biāo),如評(píng)估學(xué)生對(duì)科學(xué)概念的掌握程度、實(shí)驗(yàn)設(shè)計(jì)技能和科學(xué)思維。(2)制定評(píng)價(jià)標(biāo)準(zhǔn):根據(jù)評(píng)價(jià)目標(biāo)建立相應(yīng)的評(píng)價(jià)標(biāo)準(zhǔn)。例如,掌握程度可以包括知識(shí)的正確性、深度和廣度;實(shí)驗(yàn)設(shè)計(jì)技能可以涉及設(shè)計(jì)實(shí)驗(yàn)、觀察數(shù)據(jù)和分析結(jié)果;科學(xué)思維可以包括推理、解決問題和創(chuàng)新。(3)選擇評(píng)價(jià)指標(biāo):基于評(píng)價(jià)標(biāo)準(zhǔn),選擇具體的評(píng)價(jià)指標(biāo)。例如,在評(píng)估掌握程度時(shí),選擇學(xué)生的測(cè)試分?jǐn)?shù)和他們?cè)谡n堂討論中的表現(xiàn)作為指標(biāo);在實(shí)驗(yàn)設(shè)計(jì)技能方面,選擇學(xué)生的實(shí)驗(yàn)報(bào)告和實(shí)驗(yàn)數(shù)據(jù)的質(zhì)量作為指標(biāo);在評(píng)估科學(xué)思維時(shí),選擇學(xué)生的思維導(dǎo)圖、論文寫作和解決實(shí)際問題的能力作為指標(biāo)。
2.制定評(píng)價(jià)計(jì)劃
(1)確定評(píng)價(jià)時(shí)機(jī):提供建議,說明評(píng)價(jià)將在何時(shí)進(jìn)行,如每個(gè)學(xué)期結(jié)束時(shí)、每個(gè)單元結(jié)束時(shí)或每次實(shí)驗(yàn)后。(2)定義評(píng)價(jià)內(nèi)容:基于評(píng)價(jià)目標(biāo)和標(biāo)準(zhǔn),清楚地概述評(píng)價(jià)的具體內(nèi)容。(3)選擇數(shù)據(jù)收集方法:基于評(píng)價(jià)內(nèi)容,選擇適當(dāng)?shù)臄?shù)據(jù)收集方法,如測(cè)試、實(shí)驗(yàn)報(bào)告、問卷、觀察、自評(píng)和同伴互評(píng)等。(4)制定數(shù)據(jù)分析計(jì)劃:創(chuàng)建一個(gè)分析數(shù)據(jù)的計(jì)劃。這涉及組織數(shù)據(jù)、選擇合適的分析方法,并規(guī)劃結(jié)果將如何呈現(xiàn)。
3.開展數(shù)據(jù)分析和結(jié)果呈現(xiàn)
(1)數(shù)據(jù)分析:使用適當(dāng)?shù)臄?shù)據(jù)分析方法,如使用Excel、SPSS、Mplus、R和Python等軟件分析數(shù)據(jù),涉及計(jì)算平均值、標(biāo)準(zhǔn)差和頻率分布等,以更好地理解學(xué)生的學(xué)習(xí)表現(xiàn)。(2)結(jié)果呈現(xiàn):以圖表、報(bào)告或其他適當(dāng)?shù)母袷匠尸F(xiàn)分析結(jié)果。根據(jù)評(píng)價(jià)結(jié)果提供反饋和建議,以改進(jìn)教學(xué)和學(xué)習(xí)過程。例如,可以創(chuàng)建成績(jī)報(bào)告、學(xué)生評(píng)價(jià)報(bào)告、教師反饋報(bào)告,向?qū)W生和教師展示評(píng)價(jià)結(jié)果,并基于發(fā)現(xiàn)提供反饋和建議。
通過上述指導(dǎo),大模型可以在廣泛的過程性評(píng)價(jià)領(lǐng)域中提供支持,促進(jìn)教育評(píng)價(jià)活動(dòng)的高效、科學(xué)進(jìn)行。在實(shí)際應(yīng)用中,教育者應(yīng)結(jié)合教學(xué)和學(xué)生的具體情況進(jìn)行具體步驟的細(xì)化和需求迭代。
結(jié)論與展望
大模型在教育測(cè)量與評(píng)價(jià)的題目生成、測(cè)量學(xué)分析、自動(dòng)評(píng)分、過程性評(píng)價(jià)四個(gè)關(guān)鍵領(lǐng)域已經(jīng)展現(xiàn)出了變革應(yīng)用的初步成效。然而,這些應(yīng)用在不同場(chǎng)景的適用性以及脫離人類專家工作的能力方面,仍面臨一定的局限。
此外,大模型變革教育測(cè)量與評(píng)價(jià)面臨的挑戰(zhàn)和風(fēng)險(xiǎn)也不容忽視,包括算法性能的局限、倫理問題(如評(píng)價(jià)的公平性、隱私保護(hù))以及技術(shù)風(fēng)險(xiǎn)(如生成不實(shí)內(nèi)容、對(duì)技術(shù)的過度依賴)。為有效應(yīng)對(duì)這些挑戰(zhàn),關(guān)鍵在于培養(yǎng)批判性的評(píng)估技能、探索大模型的新應(yīng)用模式,并確保在使用過程中保持人的主導(dǎo)地位,確保以一種負(fù)責(zé)任和遵循倫理的方式利用AI大模型,從而最大化其對(duì)教育測(cè)量與評(píng)價(jià)領(lǐng)域的變革效益。
注:本文系國(guó)家重點(diǎn)研發(fā)計(jì)劃“社會(huì)治理與智慧社會(huì)科技支撐”重點(diǎn)專項(xiàng)項(xiàng)目——“大規(guī)模學(xué)生跨學(xué)段成長(zhǎng)跟蹤研究,綜合素養(yǎng)測(cè)評(píng)的構(gòu)建課題”(課題編號(hào):2021YFC3340801)的研究成果
參考文獻(xiàn)
Liu S, Wright AP, Patterson BL, et al. Using AI-generated suggestions from ChatGPT to optimize clinical decision support [J]. Journal of the American Medical Informatics Association,2023,30 (7):1237-1245.
UNESCO. Guidance for Generative AI in Education and Research [EB/OL]. (2023-09-08)[2024-03-28].https://www.unesco.org/en/articles/guidance-generative-ai-education-and-research.