亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于大模型的教育測(cè)量與評(píng)價(jià)變革探索

2024-05-30 00:00:00王雪李文碩王雅薇張生

中小學(xué)信息技術(shù)教育 2024年5期

【摘要】本研究旨在以生成式人工智能技術(shù)為例，探索大模型在題目生成、測(cè)量學(xué)分析、自動(dòng)評(píng)分和過程性評(píng)價(jià)等關(guān)鍵教育測(cè)量與評(píng)價(jià)領(lǐng)域的變革和應(yīng)用。通過對(duì)大模型的應(yīng)用實(shí)例進(jìn)行綜合論證、分析，意在揭示其在教育測(cè)量與評(píng)價(jià)中的應(yīng)用效能，從而推動(dòng)對(duì)該技術(shù)的進(jìn)一步研究和討論。

【關(guān)鍵詞】大模型；教育測(cè)量與評(píng)價(jià)；生成式人工智能

【中圖分類號(hào)】G434" "【文獻(xiàn)標(biāo)志碼】B

【論文編號(hào)】1671-7384（2024）05-012-03

在當(dāng)前社會(huì)的數(shù)字化轉(zhuǎn)型過程中，人工智能（AI）已成為不可或缺的力量。特別是AI大模型，以其高級(jí)的自動(dòng)化執(zhí)行任務(wù)、深刻的語義理解、創(chuàng)新的輸出生成、精確的邏輯判斷以及處理大規(guī)模數(shù)據(jù)的能力，正在從根本上改變我們生活的各個(gè)方面[1]。生成式人工智能，作為一種能夠基于自然語言提示（Prompt）自動(dòng)產(chǎn)生回應(yīng)內(nèi)容的AI技術(shù)[2]，進(jìn)一步深化了大模型的應(yīng)用范圍，尤其是在變革教育測(cè)量與評(píng)價(jià)這一復(fù)雜領(lǐng)域的潛能上。盡管在該領(lǐng)域應(yīng)用AI的例子屢見不鮮，但以生成式人工智能技術(shù)為核心的大模型在這一領(lǐng)域的變革潛力、實(shí)踐過程及應(yīng)用效果的深入研究仍然缺乏?；诖?，本研究嘗試從題目生成、測(cè)量學(xué)分析、自動(dòng)評(píng)分和過程性評(píng)價(jià)四個(gè)方面系統(tǒng)地審視AI大模型對(duì)教育測(cè)量與評(píng)價(jià)領(lǐng)域的變革，全面評(píng)估大模型的潛力和面臨的挑戰(zhàn)。

大模型在題目生成中的應(yīng)用

在教育評(píng)估領(lǐng)域，題目生成是核心環(huán)節(jié)之一，其質(zhì)量直接影響評(píng)估的有效性和準(zhǔn)確性。傳統(tǒng)的題目生成過程往往依賴于教師或?qū)＜业慕?jīng)驗(yàn)和創(chuàng)造力，不僅耗時(shí)耗力，而且在題目的多樣性、創(chuàng)新性及個(gè)性化方面存在局限。大模型的高度智能化和自動(dòng)化能力使得這一過程得到顯著改善和加速，其能夠基于廣泛的知識(shí)庫生成各類型、各難度級(jí)別的題目，同時(shí)提供更高效、更個(gè)性化的題目創(chuàng)作解決方案。

在生成常規(guī)題目方面，大模型能夠基于預(yù)設(shè)的知識(shí)點(diǎn)快速生成題目，如選擇題、填空題等，這類題目是檢測(cè)學(xué)生對(duì)基礎(chǔ)知識(shí)掌握情況的重要方式。大模型的應(yīng)用顯著提高了題目生成的效率和多樣性，降低了人工編題的時(shí)間成本。生成此類題目時(shí)，用戶需要提供清晰的知識(shí)點(diǎn)和期望的題型。

在生成分層類題目方面，針對(duì)不同能力層次的學(xué)生，大模型可以定制生成分層類題目，以實(shí)現(xiàn)教學(xué)的個(gè)性化。這一應(yīng)用幫助教師針對(duì)學(xué)生的不同理解程度提供相應(yīng)難度的練習(xí)題，優(yōu)化學(xué)習(xí)路徑。在生成分層題目時(shí)，需指定知識(shí)點(diǎn)及不同難度級(jí)別的描述。因此，要確保難度分級(jí)的合理性，以及分層題目涵蓋知識(shí)點(diǎn)的全面性。

在生成探究類題目方面，大模型能夠根據(jù)最新研究和情境，生成旨在培養(yǎng)學(xué)生批判性思維和解決問題能力的探究性題目。這種應(yīng)用促進(jìn)了學(xué)生的深度學(xué)習(xí)，鼓勵(lì)學(xué)生超越傳統(tǒng)的記憶式學(xué)習(xí)。生成探究性題目時(shí)，用戶需要提供探究的主題和目的，確保題目具有開放性，能夠激發(fā)學(xué)生的思考和探索。

下面通過教師與大模型的對(duì)話進(jìn)行實(shí)例展示。教師：“我需要一組圍繞‘生態(tài)系統(tǒng)的能量流動(dòng)’主題的分層題目，從基礎(chǔ)知識(shí)到應(yīng)用分析?！贝竽Ｐ停骸盎A(chǔ)層次，我生成了一道選擇題‘在生態(tài)系統(tǒng)中，能量的傳遞順序是？’；中級(jí)層次，是一道簡(jiǎn)答題‘解釋食物鏈中每個(gè)環(huán)節(jié)能量傳遞的效率問題’；高級(jí)層次，則是一道探究題‘設(shè)計(jì)一個(gè)實(shí)驗(yàn)，來研究不同生態(tài)系統(tǒng)能量流動(dòng)的差異’?！?/p>

教師：“對(duì)于高級(jí)層次的探究題，我希望增加跨學(xué)科的要求，比如結(jié)合數(shù)學(xué)建模?！贝竽Ｐ停骸袄斫饬耍疑蛇@樣一個(gè)問題‘使用數(shù)學(xué)模型來預(yù)測(cè)和比較兩個(gè)不同生態(tài)系統(tǒng)能量流動(dòng)的效率，并解釋可能導(dǎo)致差異的生態(tài)因素’?！?/p>

從表現(xiàn)來看，大模型在題目生成時(shí)具有靈活性和實(shí)用性，不僅能根據(jù)教師的需求快速生成不同類型的題目，還能夠根據(jù)具體要求調(diào)整題目難度和內(nèi)容，展現(xiàn)了其在教育領(lǐng)域的巨大潛力。為確保題目的質(zhì)量和準(zhǔn)確性，生成后的題目應(yīng)通過專家或教師進(jìn)行審核。

大模型在測(cè)量學(xué)分析中的應(yīng)用

測(cè)量學(xué)分析是保證工具質(zhì)量的關(guān)鍵。從數(shù)據(jù)層面看，往往需要關(guān)注難度系數(shù)、區(qū)分度系數(shù)、內(nèi)部一致性系數(shù)、效標(biāo)相關(guān)等指標(biāo)；從內(nèi)容層面看，還需要關(guān)注工具的內(nèi)容效度，判斷工具是否能夠充分反映所測(cè)構(gòu)念。大模型能夠幫助初學(xué)者了解測(cè)量學(xué)分析的相關(guān)原理、步驟和解釋方法等，并輔助對(duì)內(nèi)容效度做出初步判斷（以PISA的閱讀元認(rèn)知策略的測(cè)評(píng)題目為例），實(shí)例展示如下（相關(guān)語句經(jīng)過提煉總結(jié)）。

例1：輔助開展測(cè)量學(xué)分析

用戶：“你能告訴我計(jì)算克隆巴赫系數(shù)的SPSS語句和R代碼嗎？”

大模型：

“SPSS語句：Reliability

/VARIABLES=var1 var2 var3 var4 var5 var6 var7

/SCALE（'All variables'） ALL

/MODEL=ALPHA.

R 代碼：

library（psych）

data lt;- read.csv（\"data.csv\"）

alpha（data）”

用戶：“我從SPSS得到的克隆巴赫系數(shù)為 0.909，我該如何解釋它？”

大模型：“通常，克隆巴赫系數(shù)高于0.7被認(rèn)為是可接受的，高于 0.8表示良好的內(nèi)部一致性。”

例2：輔助開展內(nèi)容效度評(píng)估

用戶：“幫我評(píng)估這道測(cè)量學(xué)生閱讀元認(rèn)知的題目‘快速瀏覽兩遍文章’?！贝竽Ｐ停骸霸擃}項(xiàng)不能提供有關(guān)文本理解詳細(xì)程度的信息。該項(xiàng)目的有效性取決于閱讀的目的以及文本的類型和復(fù)雜性。該項(xiàng)目沒有明確表明學(xué)生是否理解了文章。更好的題目是‘我快速通讀了兩遍文本，可以識(shí)別主要思想和支持細(xì)節(jié)’?！?/p>

從表現(xiàn)來看，大模型所提供的建議能夠幫助初學(xué)者迅速熟悉相關(guān)分析的操作方法，為評(píng)估內(nèi)容效度提供參考。但其給出的建議也存在誤區(qū)，需要謹(jǐn)慎對(duì)待，如信度高低的判斷標(biāo)準(zhǔn)事實(shí)上與工具的應(yīng)用場(chǎng)景有關(guān)，在高利害測(cè)驗(yàn)的情景下，大模型給出的判斷標(biāo)準(zhǔn)并不適用，以及所給出的題目修改意見包含多重表述。

大模型在自動(dòng)評(píng)分中的應(yīng)用

自動(dòng)評(píng)分是將被試在測(cè)驗(yàn)中的表現(xiàn)自動(dòng)轉(zhuǎn)換為分?jǐn)?shù)的過程。自動(dòng)評(píng)分的研究熱點(diǎn)集中在較為復(fù)雜的作文評(píng)分等任務(wù)上，大模型在這方面具有強(qiáng)大的潛力。表1展示的是人類和大模型對(duì)三篇作文的評(píng)分差異。在這三個(gè)有限樣本中，大模型在每個(gè)維度上的評(píng)分和人類評(píng)分者相比分差最大為1分，考慮到人類評(píng)分者之間也可能存在差異，這在容忍范圍內(nèi)。

表1" 人類和大模型的評(píng)分對(duì)比

人類

評(píng)分大模型

評(píng)分人類基于維度的評(píng)分大模型基于維度的評(píng)分

3 4 1；1；1；0 1；1；1；1

6 7 2；2；1；1/1；2；2；1

（兩位人類評(píng)分者） 2；2；1；2

12 9 3；3；3；3 2；2；2；3

大模型不僅能夠提供總分，還能提供每個(gè)維度的分?jǐn)?shù)，并給出一些評(píng)分原因。例如，它對(duì)第二篇文章的評(píng)論如下。

主題（2分）：作者講述了一個(gè)關(guān)于制作一款游戲的故事，主題鮮明，但還需要添加更多具體細(xì)節(jié)。

結(jié)構(gòu)（2 分）：寫作具有一定的邏輯順序，但過渡不夠清晰。

語言（1 分）：寫作中語言使用較差，詞語選擇和語句結(jié)構(gòu)缺乏多樣性。

語法（2 分）：在語法、標(biāo)點(diǎn)符號(hào)使用等方面符合慣例。

大模型提供的評(píng)分依據(jù)與評(píng)分標(biāo)準(zhǔn)高度一致，像是對(duì)評(píng)分標(biāo)準(zhǔn)的重述。整體而言，大模型在自動(dòng)評(píng)分方面的表現(xiàn)處于可以接受的水平，可以替代非高利害場(chǎng)景下、重復(fù)性的評(píng)分工作（如日常作業(yè)），也可以為人類評(píng)分者提供參照，但尚不能獨(dú)立承擔(dān)高利害場(chǎng)景的評(píng)分工作。

大模型在過程性評(píng)價(jià)中的應(yīng)用

大模型在支持過程性評(píng)價(jià)方面提供了顯著價(jià)值，尤其是在設(shè)計(jì)評(píng)價(jià)標(biāo)準(zhǔn)和指標(biāo)、制定評(píng)價(jià)計(jì)劃、開展數(shù)據(jù)分析和結(jié)果呈現(xiàn)上，下面展示大模型提供的科學(xué)課程過程性評(píng)價(jià)流程和建議。

1.設(shè)計(jì)評(píng)價(jià)標(biāo)準(zhǔn)和指標(biāo)

（1）定義評(píng)價(jià)目標(biāo)：清晰定義評(píng)價(jià)目標(biāo)，如評(píng)估學(xué)生對(duì)科學(xué)概念的掌握程度、實(shí)驗(yàn)設(shè)計(jì)技能和科學(xué)思維。（2）制定評(píng)價(jià)標(biāo)準(zhǔn)：根據(jù)評(píng)價(jià)目標(biāo)建立相應(yīng)的評(píng)價(jià)標(biāo)準(zhǔn)。例如，掌握程度可以包括知識(shí)的正確性、深度和廣度；實(shí)驗(yàn)設(shè)計(jì)技能可以涉及設(shè)計(jì)實(shí)驗(yàn)、觀察數(shù)據(jù)和分析結(jié)果；科學(xué)思維可以包括推理、解決問題和創(chuàng)新。（3）選擇評(píng)價(jià)指標(biāo)：基于評(píng)價(jià)標(biāo)準(zhǔn)，選擇具體的評(píng)價(jià)指標(biāo)。例如，在評(píng)估掌握程度時(shí)，選擇學(xué)生的測(cè)試分?jǐn)?shù)和他們?cè)谡n堂討論中的表現(xiàn)作為指標(biāo)；在實(shí)驗(yàn)設(shè)計(jì)技能方面，選擇學(xué)生的實(shí)驗(yàn)報(bào)告和實(shí)驗(yàn)數(shù)據(jù)的質(zhì)量作為指標(biāo)；在評(píng)估科學(xué)思維時(shí)，選擇學(xué)生的思維導(dǎo)圖、論文寫作和解決實(shí)際問題的能力作為指標(biāo)。

2.制定評(píng)價(jià)計(jì)劃

（1）確定評(píng)價(jià)時(shí)機(jī)：提供建議，說明評(píng)價(jià)將在何時(shí)進(jìn)行，如每個(gè)學(xué)期結(jié)束時(shí)、每個(gè)單元結(jié)束時(shí)或每次實(shí)驗(yàn)后。（2）定義評(píng)價(jià)內(nèi)容：基于評(píng)價(jià)目標(biāo)和標(biāo)準(zhǔn)，清楚地概述評(píng)價(jià)的具體內(nèi)容。（3）選擇數(shù)據(jù)收集方法：基于評(píng)價(jià)內(nèi)容，選擇適當(dāng)?shù)臄?shù)據(jù)收集方法，如測(cè)試、實(shí)驗(yàn)報(bào)告、問卷、觀察、自評(píng)和同伴互評(píng)等。（4）制定數(shù)據(jù)分析計(jì)劃：創(chuàng)建一個(gè)分析數(shù)據(jù)的計(jì)劃。這涉及組織數(shù)據(jù)、選擇合適的分析方法，并規(guī)劃結(jié)果將如何呈現(xiàn)。

3.開展數(shù)據(jù)分析和結(jié)果呈現(xiàn)

（1）數(shù)據(jù)分析：使用適當(dāng)?shù)臄?shù)據(jù)分析方法，如使用Excel、SPSS、Mplus、R和Python等軟件分析數(shù)據(jù)，涉及計(jì)算平均值、標(biāo)準(zhǔn)差和頻率分布等，以更好地理解學(xué)生的學(xué)習(xí)表現(xiàn)。（2）結(jié)果呈現(xiàn)：以圖表、報(bào)告或其他適當(dāng)?shù)母袷匠尸F(xiàn)分析結(jié)果。根據(jù)評(píng)價(jià)結(jié)果提供反饋和建議，以改進(jìn)教學(xué)和學(xué)習(xí)過程。例如，可以創(chuàng)建成績(jī)報(bào)告、學(xué)生評(píng)價(jià)報(bào)告、教師反饋報(bào)告，向?qū)W生和教師展示評(píng)價(jià)結(jié)果，并基于發(fā)現(xiàn)提供反饋和建議。

通過上述指導(dǎo)，大模型可以在廣泛的過程性評(píng)價(jià)領(lǐng)域中提供支持，促進(jìn)教育評(píng)價(jià)活動(dòng)的高效、科學(xué)進(jìn)行。在實(shí)際應(yīng)用中，教育者應(yīng)結(jié)合教學(xué)和學(xué)生的具體情況進(jìn)行具體步驟的細(xì)化和需求迭代。

結(jié)論與展望

大模型在教育測(cè)量與評(píng)價(jià)的題目生成、測(cè)量學(xué)分析、自動(dòng)評(píng)分、過程性評(píng)價(jià)四個(gè)關(guān)鍵領(lǐng)域已經(jīng)展現(xiàn)出了變革應(yīng)用的初步成效。然而，這些應(yīng)用在不同場(chǎng)景的適用性以及脫離人類專家工作的能力方面，仍面臨一定的局限。

此外，大模型變革教育測(cè)量與評(píng)價(jià)面臨的挑戰(zhàn)和風(fēng)險(xiǎn)也不容忽視，包括算法性能的局限、倫理問題（如評(píng)價(jià)的公平性、隱私保護(hù)）以及技術(shù)風(fēng)險(xiǎn)（如生成不實(shí)內(nèi)容、對(duì)技術(shù)的過度依賴）。為有效應(yīng)對(duì)這些挑戰(zhàn)，關(guān)鍵在于培養(yǎng)批判性的評(píng)估技能、探索大模型的新應(yīng)用模式，并確保在使用過程中保持人的主導(dǎo)地位，確保以一種負(fù)責(zé)任和遵循倫理的方式利用AI大模型，從而最大化其對(duì)教育測(cè)量與評(píng)價(jià)領(lǐng)域的變革效益。

注：本文系國(guó)家重點(diǎn)研發(fā)計(jì)劃“社會(huì)治理與智慧社會(huì)科技支撐”重點(diǎn)專項(xiàng)項(xiàng)目——“大規(guī)模學(xué)生跨學(xué)段成長(zhǎng)跟蹤研究，綜合素養(yǎng)測(cè)評(píng)的構(gòu)建課題”（課題編號(hào)：2021YFC3340801）的研究成果

參考文獻(xiàn)

Liu S， Wright AP， Patterson BL， et al. Using AI-generated suggestions from ChatGPT to optimize clinical decision support [J]. Journal of the American Medical Informatics Association，2023，30 （7）：1237-1245.

UNESCO. Guidance for Generative AI in Education and Research [EB/OL]. （2023-09-08）[2024-03-28].https：//www.unesco.org/en/articles/guidance-generative-ai-education-and-research.

中小學(xué)信息技術(shù)教育2024年5期

中小學(xué)信息技術(shù)教育的其它文章: 小學(xué)信息科技跨學(xué)科主題學(xué)習(xí)的策略與實(shí)踐; 數(shù)字化視域下運(yùn)河文化的活態(tài)傳承; 基于國(guó)家課程校本化的跨學(xué)科項(xiàng)目設(shè)計(jì)與實(shí)施; 初中數(shù)學(xué)項(xiàng)目化綜合實(shí)踐活動(dòng)創(chuàng)新研究; 基于核心素養(yǎng)的信息科技“五維數(shù)字畫像”育人評(píng)價(jià)體系構(gòu)建與應(yīng)用; 生成式AI大模型教育應(yīng)用的四大秘訣