亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于大模型的教育測(cè)量與評(píng)價(jià)變革探索

        2024-05-30 00:00:00王雪李文碩王雅薇張生

        【摘 要】本研究旨在以生成式人工智能技術(shù)為例,探索大模型在題目生成、測(cè)量學(xué)分析、自動(dòng)評(píng)分和過程性評(píng)價(jià)等關(guān)鍵教育測(cè)量與評(píng)價(jià)領(lǐng)域的變革和應(yīng)用。通過對(duì)大模型的應(yīng)用實(shí)例進(jìn)行綜合論證、分析,意在揭示其在教育測(cè)量與評(píng)價(jià)中的應(yīng)用效能,從而推動(dòng)對(duì)該技術(shù)的進(jìn)一步研究和討論。

        【關(guān)鍵詞】大模型;教育測(cè)量與評(píng)價(jià);生成式人工智能

        【中圖分類號(hào)】G434" "【文獻(xiàn)標(biāo)志碼】B

        【論文編號(hào)】1671-7384(2024)05-012-03

        在當(dāng)前社會(huì)的數(shù)字化轉(zhuǎn)型過程中,人工智能(AI)已成為不可或缺的力量。特別是AI大模型,以其高級(jí)的自動(dòng)化執(zhí)行任務(wù)、深刻的語義理解、創(chuàng)新的輸出生成、精確的邏輯判斷以及處理大規(guī)模數(shù)據(jù)的能力,正在從根本上改變我們生活的各個(gè)方面[1]。生成式人工智能,作為一種能夠基于自然語言提示(Prompt)自動(dòng)產(chǎn)生回應(yīng)內(nèi)容的AI技術(shù)[2],進(jìn)一步深化了大模型的應(yīng)用范圍,尤其是在變革教育測(cè)量與評(píng)價(jià)這一復(fù)雜領(lǐng)域的潛能上。盡管在該領(lǐng)域應(yīng)用AI的例子屢見不鮮,但以生成式人工智能技術(shù)為核心的大模型在這一領(lǐng)域的變革潛力、實(shí)踐過程及應(yīng)用效果的深入研究仍然缺乏?;诖?,本研究嘗試從題目生成、測(cè)量學(xué)分析、自動(dòng)評(píng)分和過程性評(píng)價(jià)四個(gè)方面系統(tǒng)地審視AI大模型對(duì)教育測(cè)量與評(píng)價(jià)領(lǐng)域的變革,全面評(píng)估大模型的潛力和面臨的挑戰(zhàn)。

        大模型在題目生成中的應(yīng)用

        在教育評(píng)估領(lǐng)域,題目生成是核心環(huán)節(jié)之一,其質(zhì)量直接影響評(píng)估的有效性和準(zhǔn)確性。傳統(tǒng)的題目生成過程往往依賴于教師或?qū)<业慕?jīng)驗(yàn)和創(chuàng)造力,不僅耗時(shí)耗力,而且在題目的多樣性、創(chuàng)新性及個(gè)性化方面存在局限。大模型的高度智能化和自動(dòng)化能力使得這一過程得到顯著改善和加速,其能夠基于廣泛的知識(shí)庫生成各類型、各難度級(jí)別的題目,同時(shí)提供更高效、更個(gè)性化的題目創(chuàng)作解決方案。

        在生成常規(guī)題目方面,大模型能夠基于預(yù)設(shè)的知識(shí)點(diǎn)快速生成題目,如選擇題、填空題等,這類題目是檢測(cè)學(xué)生對(duì)基礎(chǔ)知識(shí)掌握情況的重要方式。大模型的應(yīng)用顯著提高了題目生成的效率和多樣性,降低了人工編題的時(shí)間成本。生成此類題目時(shí),用戶需要提供清晰的知識(shí)點(diǎn)和期望的題型。

        在生成分層類題目方面,針對(duì)不同能力層次的學(xué)生,大模型可以定制生成分層類題目,以實(shí)現(xiàn)教學(xué)的個(gè)性化。這一應(yīng)用幫助教師針對(duì)學(xué)生的不同理解程度提供相應(yīng)難度的練習(xí)題,優(yōu)化學(xué)習(xí)路徑。在生成分層題目時(shí),需指定知識(shí)點(diǎn)及不同難度級(jí)別的描述。因此,要確保難度分級(jí)的合理性,以及分層題目涵蓋知識(shí)點(diǎn)的全面性。

        在生成探究類題目方面,大模型能夠根據(jù)最新研究和情境,生成旨在培養(yǎng)學(xué)生批判性思維和解決問題能力的探究性題目。這種應(yīng)用促進(jìn)了學(xué)生的深度學(xué)習(xí),鼓勵(lì)學(xué)生超越傳統(tǒng)的記憶式學(xué)習(xí)。生成探究性題目時(shí),用戶需要提供探究的主題和目的,確保題目具有開放性,能夠激發(fā)學(xué)生的思考和探索。

        下面通過教師與大模型的對(duì)話進(jìn)行實(shí)例展示。教師:“我需要一組圍繞‘生態(tài)系統(tǒng)的能量流動(dòng)’主題的分層題目,從基礎(chǔ)知識(shí)到應(yīng)用分析?!贝竽P停骸盎A(chǔ)層次,我生成了一道選擇題‘在生態(tài)系統(tǒng)中,能量的傳遞順序是?’;中級(jí)層次,是一道簡(jiǎn)答題‘解釋食物鏈中每個(gè)環(huán)節(jié)能量傳遞的效率問題’;高級(jí)層次,則是一道探究題‘設(shè)計(jì)一個(gè)實(shí)驗(yàn),來研究不同生態(tài)系統(tǒng)能量流動(dòng)的差異’?!?/p>

        教師:“對(duì)于高級(jí)層次的探究題,我希望增加跨學(xué)科的要求,比如結(jié)合數(shù)學(xué)建模?!贝竽P停骸袄斫饬耍疑蛇@樣一個(gè)問題‘使用數(shù)學(xué)模型來預(yù)測(cè)和比較兩個(gè)不同生態(tài)系統(tǒng)能量流動(dòng)的效率,并解釋可能導(dǎo)致差異的生態(tài)因素’?!?/p>

        從表現(xiàn)來看,大模型在題目生成時(shí)具有靈活性和實(shí)用性,不僅能根據(jù)教師的需求快速生成不同類型的題目,還能夠根據(jù)具體要求調(diào)整題目難度和內(nèi)容,展現(xiàn)了其在教育領(lǐng)域的巨大潛力。為確保題目的質(zhì)量和準(zhǔn)確性,生成后的題目應(yīng)通過專家或教師進(jìn)行審核。

        大模型在測(cè)量學(xué)分析中的應(yīng)用

        測(cè)量學(xué)分析是保證工具質(zhì)量的關(guān)鍵。從數(shù)據(jù)層面看,往往需要關(guān)注難度系數(shù)、區(qū)分度系數(shù)、內(nèi)部一致性系數(shù)、效標(biāo)相關(guān)等指標(biāo);從內(nèi)容層面看,還需要關(guān)注工具的內(nèi)容效度,判斷工具是否能夠充分反映所測(cè)構(gòu)念。大模型能夠幫助初學(xué)者了解測(cè)量學(xué)分析的相關(guān)原理、步驟和解釋方法等,并輔助對(duì)內(nèi)容效度做出初步判斷(以PISA的閱讀元認(rèn)知策略的測(cè)評(píng)題目為例),實(shí)例展示如下(相關(guān)語句經(jīng)過提煉總結(jié))。

        例1:輔助開展測(cè)量學(xué)分析

        用戶:“你能告訴我計(jì)算克隆巴赫系數(shù)的SPSS語句和R代碼嗎?”

        大模型:

        “SPSS語句:Reliability

        /VARIABLES=var1 var2 var3 var4 var5 var6 var7

        /SCALE('All variables') ALL

        /MODEL=ALPHA.

        R 代碼:

        library(psych)

        data lt;- read.csv(\"data.csv\")

        alpha(data)”

        用戶:“我從SPSS得到的克隆巴赫系數(shù)為 0.909,我該如何解釋它?”

        大模型:“通常,克隆巴赫系數(shù)高于0.7被認(rèn)為是可接受的,高于 0.8表示良好的內(nèi)部一致性。”

        例2:輔助開展內(nèi)容效度評(píng)估

        用戶:“幫我評(píng)估這道測(cè)量學(xué)生閱讀元認(rèn)知的題目‘快速瀏覽兩遍文章’?!贝竽P停骸霸擃}項(xiàng)不能提供有關(guān)文本理解詳細(xì)程度的信息。該項(xiàng)目的有效性取決于閱讀的目的以及文本的類型和復(fù)雜性。該項(xiàng)目沒有明確表明學(xué)生是否理解了文章。更好的題目是‘我快速通讀了兩遍文本,可以識(shí)別主要思想和支持細(xì)節(jié)’?!?/p>

        從表現(xiàn)來看,大模型所提供的建議能夠幫助初學(xué)者迅速熟悉相關(guān)分析的操作方法,為評(píng)估內(nèi)容效度提供參考。但其給出的建議也存在誤區(qū),需要謹(jǐn)慎對(duì)待,如信度高低的判斷標(biāo)準(zhǔn)事實(shí)上與工具的應(yīng)用場(chǎng)景有關(guān),在高利害測(cè)驗(yàn)的情景下,大模型給出的判斷標(biāo)準(zhǔn)并不適用,以及所給出的題目修改意見包含多重表述。

        大模型在自動(dòng)評(píng)分中的應(yīng)用

        自動(dòng)評(píng)分是將被試在測(cè)驗(yàn)中的表現(xiàn)自動(dòng)轉(zhuǎn)換為分?jǐn)?shù)的過程。自動(dòng)評(píng)分的研究熱點(diǎn)集中在較為復(fù)雜的作文評(píng)分等任務(wù)上,大模型在這方面具有強(qiáng)大的潛力。表1展示的是人類和大模型對(duì)三篇作文的評(píng)分差異。在這三個(gè)有限樣本中,大模型在每個(gè)維度上的評(píng)分和人類評(píng)分者相比分差最大為1分,考慮到人類評(píng)分者之間也可能存在差異,這在容忍范圍內(nèi)。

        表1" 人類和大模型的評(píng)分對(duì)比

        人類

        評(píng)分 大模型

        評(píng)分 人類基于維度的評(píng)分 大模型基于維度的評(píng)分

        3 4 1;1;1;0 1;1;1;1

        6 7 2;2;1;1/1;2;2;1

        (兩位人類評(píng)分者) 2;2;1;2

        12 9 3;3;3;3 2;2;2;3

        大模型不僅能夠提供總分,還能提供每個(gè)維度的分?jǐn)?shù),并給出一些評(píng)分原因。例如,它對(duì)第二篇文章的評(píng)論如下。

        主題(2分):作者講述了一個(gè)關(guān)于制作一款游戲的故事,主題鮮明,但還需要添加更多具體細(xì)節(jié)。

        結(jié)構(gòu)(2 分):寫作具有一定的邏輯順序,但過渡不夠清晰。

        語言(1 分):寫作中語言使用較差,詞語選擇和語句結(jié)構(gòu)缺乏多樣性。

        語法(2 分):在語法、標(biāo)點(diǎn)符號(hào)使用等方面符合慣例。

        大模型提供的評(píng)分依據(jù)與評(píng)分標(biāo)準(zhǔn)高度一致,像是對(duì)評(píng)分標(biāo)準(zhǔn)的重述。整體而言,大模型在自動(dòng)評(píng)分方面的表現(xiàn)處于可以接受的水平,可以替代非高利害場(chǎng)景下、重復(fù)性的評(píng)分工作(如日常作業(yè)),也可以為人類評(píng)分者提供參照,但尚不能獨(dú)立承擔(dān)高利害場(chǎng)景的評(píng)分工作。

        大模型在過程性評(píng)價(jià)中的應(yīng)用

        大模型在支持過程性評(píng)價(jià)方面提供了顯著價(jià)值,尤其是在設(shè)計(jì)評(píng)價(jià)標(biāo)準(zhǔn)和指標(biāo)、制定評(píng)價(jià)計(jì)劃、開展數(shù)據(jù)分析和結(jié)果呈現(xiàn)上,下面展示大模型提供的科學(xué)課程過程性評(píng)價(jià)流程和建議。

        1.設(shè)計(jì)評(píng)價(jià)標(biāo)準(zhǔn)和指標(biāo)

        (1)定義評(píng)價(jià)目標(biāo):清晰定義評(píng)價(jià)目標(biāo),如評(píng)估學(xué)生對(duì)科學(xué)概念的掌握程度、實(shí)驗(yàn)設(shè)計(jì)技能和科學(xué)思維。(2)制定評(píng)價(jià)標(biāo)準(zhǔn):根據(jù)評(píng)價(jià)目標(biāo)建立相應(yīng)的評(píng)價(jià)標(biāo)準(zhǔn)。例如,掌握程度可以包括知識(shí)的正確性、深度和廣度;實(shí)驗(yàn)設(shè)計(jì)技能可以涉及設(shè)計(jì)實(shí)驗(yàn)、觀察數(shù)據(jù)和分析結(jié)果;科學(xué)思維可以包括推理、解決問題和創(chuàng)新。(3)選擇評(píng)價(jià)指標(biāo):基于評(píng)價(jià)標(biāo)準(zhǔn),選擇具體的評(píng)價(jià)指標(biāo)。例如,在評(píng)估掌握程度時(shí),選擇學(xué)生的測(cè)試分?jǐn)?shù)和他們?cè)谡n堂討論中的表現(xiàn)作為指標(biāo);在實(shí)驗(yàn)設(shè)計(jì)技能方面,選擇學(xué)生的實(shí)驗(yàn)報(bào)告和實(shí)驗(yàn)數(shù)據(jù)的質(zhì)量作為指標(biāo);在評(píng)估科學(xué)思維時(shí),選擇學(xué)生的思維導(dǎo)圖、論文寫作和解決實(shí)際問題的能力作為指標(biāo)。

        2.制定評(píng)價(jià)計(jì)劃

        (1)確定評(píng)價(jià)時(shí)機(jī):提供建議,說明評(píng)價(jià)將在何時(shí)進(jìn)行,如每個(gè)學(xué)期結(jié)束時(shí)、每個(gè)單元結(jié)束時(shí)或每次實(shí)驗(yàn)后。(2)定義評(píng)價(jià)內(nèi)容:基于評(píng)價(jià)目標(biāo)和標(biāo)準(zhǔn),清楚地概述評(píng)價(jià)的具體內(nèi)容。(3)選擇數(shù)據(jù)收集方法:基于評(píng)價(jià)內(nèi)容,選擇適當(dāng)?shù)臄?shù)據(jù)收集方法,如測(cè)試、實(shí)驗(yàn)報(bào)告、問卷、觀察、自評(píng)和同伴互評(píng)等。(4)制定數(shù)據(jù)分析計(jì)劃:創(chuàng)建一個(gè)分析數(shù)據(jù)的計(jì)劃。這涉及組織數(shù)據(jù)、選擇合適的分析方法,并規(guī)劃結(jié)果將如何呈現(xiàn)。

        3.開展數(shù)據(jù)分析和結(jié)果呈現(xiàn)

        (1)數(shù)據(jù)分析:使用適當(dāng)?shù)臄?shù)據(jù)分析方法,如使用Excel、SPSS、Mplus、R和Python等軟件分析數(shù)據(jù),涉及計(jì)算平均值、標(biāo)準(zhǔn)差和頻率分布等,以更好地理解學(xué)生的學(xué)習(xí)表現(xiàn)。(2)結(jié)果呈現(xiàn):以圖表、報(bào)告或其他適當(dāng)?shù)母袷匠尸F(xiàn)分析結(jié)果。根據(jù)評(píng)價(jià)結(jié)果提供反饋和建議,以改進(jìn)教學(xué)和學(xué)習(xí)過程。例如,可以創(chuàng)建成績(jī)報(bào)告、學(xué)生評(píng)價(jià)報(bào)告、教師反饋報(bào)告,向?qū)W生和教師展示評(píng)價(jià)結(jié)果,并基于發(fā)現(xiàn)提供反饋和建議。

        通過上述指導(dǎo),大模型可以在廣泛的過程性評(píng)價(jià)領(lǐng)域中提供支持,促進(jìn)教育評(píng)價(jià)活動(dòng)的高效、科學(xué)進(jìn)行。在實(shí)際應(yīng)用中,教育者應(yīng)結(jié)合教學(xué)和學(xué)生的具體情況進(jìn)行具體步驟的細(xì)化和需求迭代。

        結(jié)論與展望

        大模型在教育測(cè)量與評(píng)價(jià)的題目生成、測(cè)量學(xué)分析、自動(dòng)評(píng)分、過程性評(píng)價(jià)四個(gè)關(guān)鍵領(lǐng)域已經(jīng)展現(xiàn)出了變革應(yīng)用的初步成效。然而,這些應(yīng)用在不同場(chǎng)景的適用性以及脫離人類專家工作的能力方面,仍面臨一定的局限。

        此外,大模型變革教育測(cè)量與評(píng)價(jià)面臨的挑戰(zhàn)和風(fēng)險(xiǎn)也不容忽視,包括算法性能的局限、倫理問題(如評(píng)價(jià)的公平性、隱私保護(hù))以及技術(shù)風(fēng)險(xiǎn)(如生成不實(shí)內(nèi)容、對(duì)技術(shù)的過度依賴)。為有效應(yīng)對(duì)這些挑戰(zhàn),關(guān)鍵在于培養(yǎng)批判性的評(píng)估技能、探索大模型的新應(yīng)用模式,并確保在使用過程中保持人的主導(dǎo)地位,確保以一種負(fù)責(zé)任和遵循倫理的方式利用AI大模型,從而最大化其對(duì)教育測(cè)量與評(píng)價(jià)領(lǐng)域的變革效益。

        注:本文系國(guó)家重點(diǎn)研發(fā)計(jì)劃“社會(huì)治理與智慧社會(huì)科技支撐”重點(diǎn)專項(xiàng)項(xiàng)目——“大規(guī)模學(xué)生跨學(xué)段成長(zhǎng)跟蹤研究,綜合素養(yǎng)測(cè)評(píng)的構(gòu)建課題”(課題編號(hào):2021YFC3340801)的研究成果

        參考文獻(xiàn)

        Liu S, Wright AP, Patterson BL, et al. Using AI-generated suggestions from ChatGPT to optimize clinical decision support [J]. Journal of the American Medical Informatics Association,2023,30 (7):1237-1245.

        UNESCO. Guidance for Generative AI in Education and Research [EB/OL]. (2023-09-08)[2024-03-28].https://www.unesco.org/en/articles/guidance-generative-ai-education-and-research.

        台湾佬中文网站| av有码在线一区二区| 水蜜桃在线观看一区二区国产| 国产夫妻自拍视频在线播放| 国产午夜成人av在线播放| 国产免费av手机在线观看片| 又湿又紧又大又爽a视频国产| 狠狠色噜噜狠狠狠狠色综合久 | 久久精品国产亚洲片| 日韩少妇人妻精品中文字幕| 国产精品女老熟女一区二区久久夜 | 麻豆资源在线观看视频| 色偷偷av男人的天堂| 91综合在线| 亚洲精品乱码久久麻豆| 国产精品无码制服丝袜| 午夜少妇高潮在线观看| 国产午夜鲁丝片av无码| 久久久久国产一区二区三区| 国产精品原创av片国产日韩| 白白色发布永久免费观看视频| 野花视频在线观看免费| 国产国产裸模裸模私拍视频| 海角国精产品一区一区三区糖心 | 亚洲精品无码久久久久去q| 玩弄放荡人妻一区二区三区| 亚洲国产高清在线视频| 性感女教师在线免费观看| 啦啦啦www播放日本观看| 欧美视频九九一区二区| 久久精品国产亚洲av沈先生| av在线免费高清观看| 伊甸园亚洲av久久精品| 国产微拍精品一区二区| 超高清丝袜美腿视频在线| 日本av一区二区在线| 久久久久国色av免费观看性色| 六月丁香婷婷色狠狠久久| 亚洲av国产大片在线观看| 中文字幕亚洲乱码熟女1区| 国产精品久久国产三级国不卡顿|