中圖分類號(hào):G420文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1672-1217(2025)04-0139-09收稿日期:2025-05-09
基金項(xiàng)目:聊城大學(xué)教學(xué)改革項(xiàng)目(311162346):《強(qiáng)師計(jì)劃》背景下高等學(xué)校公共基礎(chǔ)課《教育學(xué)》教學(xué)改革研究與實(shí)踐。
作者簡(jiǎn)介:(1971-),女,山東冠縣人,聊城大學(xué)教育科學(xué)學(xué)院副教授,教育學(xué)博士。
科技發(fā)展和科技風(fēng)險(xiǎn)總是相伴相隨。近年來(lái),人工智能教育測(cè)評(píng)的發(fā)展突飛猛進(jìn),它不僅對(duì)學(xué)生提交的作業(yè)、考試文本或圖像、音頻等自動(dòng)批改和評(píng)分,還能自動(dòng)生成測(cè)試項(xiàng)目,并提供個(gè)性化的反饋。人工智能教育測(cè)評(píng)不僅為教師“精準(zhǔn)教\"和學(xué)生“個(gè)性學(xué)\"提供了幫助,而且提升了教育境界和品質(zhì),甚至有改變教育圖景之勢(shì)。但與此同時(shí),人工智能教育測(cè)評(píng)也面臨諸多的風(fēng)險(xiǎn)。本來(lái),人工智能教育風(fēng)險(xiǎn)一直都是學(xué)術(shù)界、企業(yè)界、媒體界和政策立法爭(zhēng)論的熱點(diǎn)話題。但具體到人工智能教育測(cè)評(píng)的風(fēng)險(xiǎn)和規(guī)避,目前國(guó)內(nèi)外尚未達(dá)成共識(shí)。本文通過(guò)梳理和研究國(guó)際社會(huì)人工智能教育測(cè)評(píng)應(yīng)用,分析其優(yōu)勢(shì)、提示其風(fēng)險(xiǎn),并提供相應(yīng)的風(fēng)險(xiǎn)規(guī)避框架,希冀能為人工智能教育測(cè)評(píng)應(yīng)用提供一些指導(dǎo)和幫助。
一、人工智能教育測(cè)評(píng):“數(shù)智化\"時(shí)代教育測(cè)評(píng)的發(fā)展趨勢(shì)
當(dāng)今社會(huì)是向\"數(shù)智化\"時(shí)代轉(zhuǎn)型的時(shí)期,在這一時(shí)期,以數(shù)據(jù)和數(shù)字為基礎(chǔ)的智能化技術(shù)深度融入各個(gè)行業(yè)和領(lǐng)域,推動(dòng)了社會(huì)經(jīng)濟(jì)、文化、生活方式等方面發(fā)生了深刻變革,教育領(lǐng)域也不例外。人工智能教育測(cè)評(píng)是“數(shù)智化\"時(shí)代教育測(cè)評(píng)的發(fā)展趨勢(shì)。因?yàn)槿斯ぶ悄芙逃郎y(cè)評(píng)不僅是人工智能在教育場(chǎng)景的典型應(yīng)用,也是人工智能教育場(chǎng)景應(yīng)用的基礎(chǔ),像智能學(xué)習(xí)系統(tǒng)、智能輔導(dǎo)系統(tǒng)、虛擬學(xué)習(xí)助手等都需要根據(jù)學(xué)習(xí)者不同的學(xué)習(xí)偏好和學(xué)習(xí)進(jìn)程,自動(dòng)化預(yù)測(cè)和評(píng)估學(xué)習(xí)效果,并智能調(diào)整學(xué)習(xí)內(nèi)容、學(xué)習(xí)節(jié)奏和學(xué)習(xí)目標(biāo)。本文的人工智能教育測(cè)評(píng)是利用人工智能強(qiáng)大的數(shù)據(jù)分析和處理能力,通過(guò)算法收集、分析大量的教育教學(xué)相關(guān)數(shù)據(jù),如學(xué)生表現(xiàn)、作業(yè)完成速度和質(zhì)量、項(xiàng)目完成過(guò)程和結(jié)果等,對(duì)學(xué)生的學(xué)習(xí)過(guò)程和結(jié)果進(jìn)行判斷和評(píng)估。
(一)依據(jù)其功能,目前的人工智能教育測(cè)評(píng)主要類型有:
1.自動(dòng)化評(píng)分系統(tǒng)。自動(dòng)化評(píng)分系統(tǒng)常見(jiàn)應(yīng)用之一是根據(jù)預(yù)設(shè)的標(biāo)準(zhǔn)或模型,利用機(jī)器學(xué)習(xí)、自然語(yǔ)言處理等人工智能技術(shù)對(duì)文本、圖像、音頻等多種類型的數(shù)據(jù)進(jìn)行分析,并給出相應(yīng)的評(píng)分結(jié)果。我國(guó)中小學(xué)“作業(yè)幫”“科大訊飛”作業(yè)自動(dòng)批改系統(tǒng);國(guó)際社會(huì)批閱英語(yǔ)作文常用的“交上吧”(Turnitin)、“電子評(píng)分系統(tǒng)”(E-Rater)都屬于這一類。自動(dòng)化評(píng)分系統(tǒng)的另一個(gè)應(yīng)用是根據(jù)已有的數(shù)據(jù)和相應(yīng)的算法,來(lái)測(cè)算學(xué)生的成績(jī)。一些學(xué)校利用這種工具來(lái)招生,早在2013年德克薩斯大學(xué)奧斯汀分校計(jì)算機(jī)科學(xué)系開(kāi)始使用\"評(píng)分”(Grade)系統(tǒng)來(lái)遴選博士資格候選人。2020年春夏英國(guó)A-level考試(General Certificate ofEducation A-level,簡(jiǎn)稱 A-level)及國(guó)際文憑項(xiàng)目(International Baccalaureate Diploma Programme)的畢業(yè)考(這兩種考試都類似于中國(guó)高考),都因新冠疫情求助于自動(dòng)化評(píng)分系統(tǒng)來(lái)評(píng)定學(xué)生成績(jī)。
2.計(jì)算機(jī)自適應(yīng)測(cè)試。傳統(tǒng)人工測(cè)試使用固定的測(cè)試題目評(píng)定學(xué)生成績(jī);而計(jì)算機(jī)自適應(yīng)測(cè)試是利用機(jī)器學(xué)習(xí),根據(jù)考生對(duì)測(cè)試題目的回答情況動(dòng)態(tài)調(diào)整后續(xù)的測(cè)試項(xiàng)目,并能即時(shí)自動(dòng)評(píng)分。起初,計(jì)算機(jī)自適應(yīng)測(cè)試通常用于利害攸關(guān)的總結(jié)性評(píng)估,如美國(guó)教育測(cè)試服務(wù)中心(ETS)提供的經(jīng)企管理類研究生人學(xué)考試(GMAT)、北美地區(qū)研究生申請(qǐng)考試(GRE)等?,F(xiàn)在,隨著生成性人工智能的興起,計(jì)算機(jī)自適應(yīng)測(cè)試可以根據(jù)教學(xué)任務(wù)、學(xué)生水平自動(dòng)生成高質(zhì)量的測(cè)試題目,越來(lái)越多的形成性測(cè)評(píng)使用這種形式發(fā)布隨堂練習(xí)、單元測(cè)驗(yàn)等。
3.基于過(guò)程數(shù)據(jù)的形成性測(cè)評(píng)和預(yù)測(cè)系統(tǒng)。在人工智能教學(xué)情境中,當(dāng)學(xué)生與計(jì)算機(jī)互動(dòng)時(shí),軟件可以捕捉到學(xué)生所有的活動(dòng)痕跡并將其存儲(chǔ)于數(shù)字日志文件。這些活動(dòng)痕跡包括學(xué)生查看各個(gè)項(xiàng)目的次數(shù)、項(xiàng)目之間移動(dòng)路徑、項(xiàng)目完成過(guò)程、完成時(shí)間和結(jié)果以及整個(gè)學(xué)習(xí)過(guò)程中學(xué)生活動(dòng)的全面點(diǎn)擊流。依據(jù)這些數(shù)據(jù)可以生成完整、連續(xù)的學(xué)生參與圖和形成性反饋報(bào)告。此外,一些學(xué)校常用的學(xué)業(yè)預(yù)警系統(tǒng)也屬于這一類。人工智能通過(guò)分析學(xué)生的過(guò)程數(shù)據(jù)如出勤情況、課堂參與度、課堂表現(xiàn)和課堂作業(yè)完成的速度和質(zhì)量等,識(shí)別出可能面臨學(xué)業(yè)挫折的學(xué)生,從而使得教師和學(xué)校能夠?qū)@些學(xué)生進(jìn)行針對(duì)性的干預(yù)。
4.為保護(hù)測(cè)評(píng)誠(chéng)信的自動(dòng)檢測(cè)系統(tǒng)或者自動(dòng)監(jiān)考系統(tǒng)。為了保護(hù)教育測(cè)評(píng)的誠(chéng)信,絕大部分自動(dòng)化評(píng)分系統(tǒng)都自帶檢測(cè)功能,能檢測(cè)到所提交的作業(yè)或測(cè)試是否有學(xué)術(shù)不端。另外,獨(dú)立的論文檢測(cè)系統(tǒng)如“中國(guó)知網(wǎng)\"能檢測(cè)到提交論文是否有學(xué)術(shù)剽竊或抄襲。至于監(jiān)考系統(tǒng),傳統(tǒng)上利害攸關(guān)考試通常在有教師實(shí)體監(jiān)考的場(chǎng)地進(jìn)行;而2020年新冠疫情加速了人們對(duì)遠(yuǎn)程監(jiān)考的接受。在線遠(yuǎn)程監(jiān)考系統(tǒng)通過(guò)網(wǎng)絡(luò)攝像頭對(duì)考生周?chē)h(huán)境和考生本人的行為、面部表情、眼神等方面的信息進(jìn)行監(jiān)控、檢查、追蹤和記錄,以判斷學(xué)生是否作弊。
5.互動(dòng)、體驗(yàn)式人工智能教育測(cè)評(píng)情境。目前虛擬現(xiàn)實(shí)和增強(qiáng)現(xiàn)實(shí)工具使用沉浸式技術(shù)為學(xué)生提供互動(dòng)、體驗(yàn)式測(cè)評(píng)情境。在這一情境中,學(xué)生通過(guò)參與活動(dòng),體驗(yàn)解決現(xiàn)實(shí)問(wèn)題的真實(shí)情境。
(二)相對(duì)于傳統(tǒng)的人工測(cè)評(píng),人工智能教育測(cè)評(píng)有以下優(yōu)勢(shì):
1.教育測(cè)評(píng)的工作量從繁重到易行。傳統(tǒng)人工測(cè)評(píng)工作可能非常繁重,并且還有出錯(cuò)的風(fēng)險(xiǎn)。因?yàn)槿斯y(cè)評(píng)需要精心設(shè)計(jì)測(cè)評(píng)項(xiàng)目、參考答案或評(píng)分標(biāo)準(zhǔn),隨后人工評(píng)分以及越來(lái)越復(fù)雜的成績(jī)統(tǒng)計(jì)分析。而人工智能教育測(cè)評(píng)可以部分或完全自動(dòng)化測(cè)評(píng)某些環(huán)節(jié),甚至可以智能化生成教育測(cè)評(píng)項(xiàng)目,并能即時(shí)評(píng)分和反饋。這樣不僅使得教育測(cè)評(píng)更加方便易行,而且也能為師生提供即時(shí)化反饋。心理學(xué)的研究表明,學(xué)習(xí)過(guò)程中的即時(shí)化反饋有助于及時(shí)發(fā)現(xiàn)并糾正學(xué)生學(xué)習(xí)中的錯(cuò)誤,提高學(xué)習(xí)效率。同時(shí),有助于增強(qiáng)學(xué)生的學(xué)習(xí)興趣和動(dòng)機(jī),進(jìn)而提升學(xué)習(xí)效果。
2.教育測(cè)評(píng)的方式從離散性到連續(xù)性。傳統(tǒng)人工測(cè)評(píng)提供的是學(xué)生在特定時(shí)間點(diǎn)的某種特征或能力快照。雖然這些快照可以表明學(xué)生在特定時(shí)間點(diǎn)所知道和不知道的內(nèi)容,但這些快照是孤立和零散的,通常只反映了學(xué)生當(dāng)前表現(xiàn),很難反應(yīng)學(xué)生從過(guò)去到現(xiàn)在的變化。①而人工智能教育測(cè)評(píng)可以嵌人到學(xué)生的學(xué)習(xí)過(guò)程之中,以非侵入性方式捕捉和模擬學(xué)生潛在學(xué)習(xí)、思維過(guò)程痕跡與圖景,從而提供連續(xù)性的學(xué)生表現(xiàn)或成績(jī)視圖??梢?jiàn),人工智能教育測(cè)評(píng)不僅提供學(xué)生的學(xué)習(xí)結(jié)果,還能揭示學(xué)生的學(xué)習(xí)過(guò)程。據(jù)此,師生能夠有效地調(diào)整自己的教學(xué)或?qū)W習(xí)策略。
3.教育測(cè)評(píng)的性質(zhì)從統(tǒng)一性到個(gè)性化。傳統(tǒng)人工測(cè)評(píng)項(xiàng)目或試題通常都是統(tǒng)一的,即無(wú)論學(xué)生的先前知識(shí)、能力、經(jīng)驗(yàn)和文化背景如何,都會(huì)被分配到統(tǒng)一的任務(wù)或題目。有研究認(rèn)為,這種將一套測(cè)評(píng)工具視為適合所有人的做法可能是不公平的,因?yàn)椴⒎撬袑W(xué)生都有同樣的知識(shí)和能力基礎(chǔ)。而人工智能教育測(cè)評(píng)可以根據(jù)學(xué)生個(gè)體的能力、表現(xiàn)、興趣、文化背景量身定制測(cè)評(píng)任務(wù)和項(xiàng)目,并生成個(gè)性化反饋意見(jiàn)
和測(cè)評(píng)報(bào)告。①
4.教育測(cè)評(píng)的指標(biāo)從單維度到多維度。傳統(tǒng)人工測(cè)評(píng)指標(biāo)相對(duì)比較單一,往往只是考察學(xué)生掌握了哪些知識(shí)以及掌握這些知識(shí)的程度。而人工智能教育測(cè)評(píng)可以設(shè)計(jì)更多維的測(cè)評(píng)指標(biāo),利用增強(qiáng)的圖形和模擬技術(shù)使測(cè)評(píng)項(xiàng)目更具響應(yīng)性和情境化,如用戶交互的日志數(shù)據(jù)或構(gòu)建響應(yīng)性自然語(yǔ)言,評(píng)估更復(fù)雜的學(xué)習(xí)成果,如解決問(wèn)題技能、非認(rèn)知能力等。
5.教育測(cè)評(píng)情境從教室到真實(shí)。在需要問(wèn)題解決的測(cè)評(píng)中,傳統(tǒng)人工測(cè)評(píng)情境往往不太真實(shí)。以醫(yī)學(xué)專業(yè)學(xué)生為例,其測(cè)評(píng)任務(wù)主要是考察醫(yī)學(xué)生是否具備或在多大程度上具備了診斷和治療病人專業(yè)知識(shí)、專業(yè)能力和專業(yè)道德。但是,把醫(yī)學(xué)生尤其是低年級(jí)醫(yī)學(xué)生放在真實(shí)醫(yī)院和真實(shí)病人情境中,可能過(guò)于危險(xiǎn)。只能在教室筆試或面試,而教室的測(cè)評(píng)情境可能影響測(cè)評(píng)的有效性和可靠性。因?yàn)楫?dāng)真實(shí)的活動(dòng)被轉(zhuǎn)移到教室里時(shí),其所處環(huán)境不可避免地發(fā)生了變化。它們變成了教室里的任務(wù),成為學(xué)校文化的一部分,隨后的學(xué)習(xí)、測(cè)評(píng)體系被完全封閉在自我證實(shí)的學(xué)校文化中??墒?,在學(xué)校文化中學(xué)生取得的成功往往與真實(shí)情境表現(xiàn)不一致。② 而人工智能可以通過(guò)模擬或創(chuàng)建真實(shí)情境,檢測(cè)學(xué)生在真實(shí)情境的表現(xiàn)。
除了以上優(yōu)勢(shì),人工智能教育測(cè)評(píng)對(duì)所有學(xué)生提交信息使用統(tǒng)一的評(píng)分標(biāo)準(zhǔn),有助于減少教師評(píng)分時(shí)的主觀偏見(jiàn)和評(píng)分不一致。有研究者認(rèn)為,人工智能教育測(cè)評(píng)可能是人工智能教育場(chǎng)景應(yīng)用最具革新性的領(lǐng)域,前景廣闊、潛力巨大。③但與此同時(shí),也伴隨著諸多的風(fēng)險(xiǎn)。
二、人工智能教育測(cè)評(píng)的風(fēng)險(xiǎn)
薩洛蒙等人將技術(shù)對(duì)學(xué)生的影響分為兩種主要類型:“技術(shù)本身\"的影響和“使用技術(shù)\"的影響。④由此,我們也可以將人工智能教育測(cè)評(píng)的風(fēng)險(xiǎn)分為\"人工智能教育測(cè)評(píng)本身\"的風(fēng)險(xiǎn)、“使用人工智能教育測(cè)評(píng)\"的風(fēng)險(xiǎn)以及二者共同面臨的風(fēng)險(xiǎn)。
(一)人工智能教育測(cè)評(píng)本身的風(fēng)險(xiǎn)
從\"技術(shù)本身\"來(lái)說(shuō),人工智能教育測(cè)評(píng)就是一種技術(shù)人工物。簡(jiǎn)單地說(shuō),所謂技術(shù)人工物就是既在技術(shù)中產(chǎn)生,也在技術(shù)中使用的物體,是人類使用的技術(shù)對(duì)象經(jīng)過(guò)現(xiàn)象學(xué)還原后的物質(zhì)(虛擬)客體。③荷蘭技術(shù)哲學(xué)家皮特·克羅斯和梅萊斯認(rèn)為,任何技術(shù)人工物都具有雙重屬性——物理屬性和功能屬性。一方面,物理屬性是具有特定物質(zhì)結(jié)構(gòu)的物質(zhì)體,它必須服從自然法則的統(tǒng)治。另一方面,技術(shù)人工物又具有功能這一本質(zhì)屬性。這意味著在人類行動(dòng)情境中,該人工物能夠被當(dāng)作是實(shí)現(xiàn)某種目的的手段。易言之,該人工物是某種功能的載體。③ 據(jù)此,人工智能教育測(cè)評(píng)作為一種技術(shù)人工物,具有結(jié)構(gòu)和功能雙重屬性。人工智能教育測(cè)評(píng)結(jié)構(gòu)上的核心要素是數(shù)據(jù)和算法,服從算法法則。至于功能,人們之所以開(kāi)發(fā)和使用人工智能教育測(cè)評(píng),是因?yàn)樗哂薪逃郎y(cè)評(píng)的功能——教育性或管理性功能,能滿足某種教育和管理需求。對(duì)于教育測(cè)評(píng)來(lái)說(shuō),有效性和公平性是最重要的指標(biāo)。那么在這些指標(biāo)上,人工智能教育測(cè)評(píng)所面臨的風(fēng)險(xiǎn)有哪些?
1.測(cè)評(píng)有效性和可靠性偏差。盡管有研究表明,一些自動(dòng)化評(píng)分系統(tǒng)與人工評(píng)分高度相關(guān)( ρ(r≈0
92),而且自動(dòng)化評(píng)分和人工評(píng)分在評(píng)估項(xiàng)目難度方面也呈現(xiàn)出高度相似性,這也是自動(dòng)化評(píng)分有效性的
證據(jù)。①但不同的觀點(diǎn)一直存在,有研究發(fā)現(xiàn),自動(dòng)化評(píng)分系統(tǒng)對(duì)不同族裔、文化背景和性別的學(xué)生論文評(píng)分有效性和可靠性存在顯著差異。美國(guó)一款自動(dòng)評(píng)分系統(tǒng)對(duì)非裔土味英語(yǔ)作文的評(píng)分明顯低于對(duì)標(biāo)準(zhǔn)美式英語(yǔ)作文的評(píng)分。美國(guó)教育測(cè)試服務(wù)中心(ETS)的數(shù)據(jù)顯示,女性研究生申請(qǐng)考試(GRE)平均得分比男性低80分。②
此外,在各類招生任務(wù)中,使用或輔助使用人工智能測(cè)評(píng)正變得越來(lái)越普遍。雖然這種方式簡(jiǎn)化了決策過(guò)程,減少了測(cè)評(píng)專家可能的偏見(jiàn),但有時(shí)其有效性和可靠性也會(huì)引發(fā)人們的爭(zhēng)議。
2020年的春夏,英國(guó)政府把取消A-level常規(guī)考試作為對(duì)付新冠疫情的一種策略。但英國(guó)資格認(rèn)證和考試管理辦公室認(rèn)為僅僅依靠教師的估計(jì)成績(jī)不僅會(huì)導(dǎo)致分?jǐn)?shù)膨脹,而且主觀性也太強(qiáng),有失公允。于是設(shè)計(jì)了一種自動(dòng)化評(píng)分系統(tǒng)來(lái)評(píng)定學(xué)生的A-level分?jǐn)?shù),然而,2020年8月,A-level成績(jī)公布后,引起了一場(chǎng)軒然大波。盡管相關(guān)部門(mén)聲稱:“人工智能評(píng)定的總體成績(jī)與前幾年學(xué)生親自參加考試的成績(jī)大致相當(dāng),沒(méi)有證據(jù)表明2020年人工智能評(píng)分過(guò)程引入了任何系統(tǒng)性偏見(jiàn)?!钡獳-level考生并不買(mǎi)賬,他們認(rèn)為人工智能系統(tǒng)對(duì)他們的評(píng)分與他們的平時(shí)成績(jī)和教師估計(jì)成績(jī)有不可解釋的偏差。因?yàn)橄啾群髢煞N分?jǐn)?shù),成千上萬(wàn)學(xué)生的分?jǐn)?shù)被下調(diào): 35.6% 的學(xué)生的分?jǐn)?shù)被下調(diào)了一個(gè)等級(jí), 3.3% 的學(xué)生下降了兩個(gè)等級(jí),0.2% 的學(xué)生下降了三個(gè)等級(jí)。這意味著總共有近 40% 學(xué)生成績(jī)被降級(jí)。③這個(gè)成績(jī)直接影響到他們能否被心儀大學(xué)錄取、能否獲得獎(jiǎng)學(xué)金以及進(jìn)行學(xué)分互換。
無(wú)獨(dú)有偶,由于同樣的原因,2020年國(guó)際文憑項(xiàng)目組織也使用人工智能來(lái)測(cè)評(píng)學(xué)生的成績(jī)。2020年7月成績(jī)公布后,也引發(fā)了大規(guī)模的抗議和不滿。大約兩萬(wàn)四千學(xué)生,約占2020年修習(xí)國(guó)際文憑項(xiàng)目學(xué)生總數(shù)的 15% ,簽署了抗議書(shū)。國(guó)際文憑組織社交媒體頁(yè)面上充滿憤怒的評(píng)論,質(zhì)疑智能測(cè)評(píng)結(jié)果的有效性和可靠性。 ④
2.數(shù)據(jù)偏頗和算法偏見(jiàn)所導(dǎo)致的測(cè)評(píng)結(jié)果不公平。上述人工智能測(cè)評(píng)系統(tǒng)有效性和可靠性偏差可能源于系統(tǒng)收集和訓(xùn)練的數(shù)據(jù)偏頗及算法偏見(jiàn),比如自動(dòng)化英語(yǔ)評(píng)分系統(tǒng)的數(shù)據(jù)依賴的群體往往是說(shuō)標(biāo)準(zhǔn)英語(yǔ)、中產(chǎn)階層的男性。這樣導(dǎo)致智能評(píng)分系統(tǒng)可能低估了少數(shù)族裔、女性和處境不利群體的語(yǔ)言結(jié)構(gòu),將語(yǔ)言習(xí)慣、文化或性別差異誤評(píng)為語(yǔ)言能力的高低。易言之,人工智能教育測(cè)評(píng)的關(guān)鍵要素是數(shù)據(jù)和算法,如果收集和訓(xùn)練算法的數(shù)據(jù)不具有足夠包容性和代表性,算法可能因數(shù)據(jù)偏頗或開(kāi)發(fā)者無(wú)意識(shí)的偏見(jiàn),導(dǎo)致測(cè)評(píng)結(jié)果出現(xiàn)系統(tǒng)性、可重復(fù)性偏差——可能特別有利于或者特別不利于某些群體,從而延續(xù)和加劇現(xiàn)有教育不公平現(xiàn)象。上述非裔和女性得分較低就是典型案例。2O20英國(guó)A-level成績(jī)特別有利于學(xué)生人數(shù)較少私立學(xué)校的普通學(xué)生,部分原因是因?yàn)檫@些學(xué)校歷年A-level成績(jī)優(yōu)秀;歷史上成績(jī)不佳的公立學(xué)校優(yōu)等生得分則受到了限制。③在國(guó)際文憑項(xiàng)目考試中,也有類似情況,美國(guó)科羅拉多州西敏斯特高中的伊莎貝爾的母語(yǔ)是西班牙語(yǔ),在以往的西班牙語(yǔ)課上,連續(xù)兩年獲得 A+ 的成績(jī),但這次人工智能系統(tǒng)給她測(cè)評(píng)的西班牙語(yǔ)成績(jī)不及格,部分原因是她所在學(xué)校的歷史上西班牙語(yǔ)成績(jī)不佳。德克薩斯大學(xué)奧斯汀分校計(jì)算機(jī)科學(xué)系使用的“評(píng)分\"項(xiàng)目也由于其算法過(guò)于依賴歷史錄取數(shù)據(jù)而備受指責(zé)。①
哪怕是在線監(jiān)考系統(tǒng),也可能由于考生膚色較深而無(wú)法被系統(tǒng)正確識(shí)別。阿姆斯特丹自由大學(xué)的訴訟案中,在線監(jiān)考未能正確判斷學(xué)生是否作弊,就是因?yàn)榭忌w色問(wèn)題。② 以上種種涉嫌數(shù)據(jù)歧視和算法偏見(jiàn),延續(xù)甚至放大了社會(huì)對(duì)女性、有色人種和社會(huì)處境不利學(xué)生的歧視,限制了這些學(xué)生的平等權(quán)利和機(jī)會(huì)。
(二)使用人工智能教育測(cè)評(píng)相關(guān)的風(fēng)險(xiǎn)
1.使用人工智能教育測(cè)評(píng)可能會(huì)限制測(cè)評(píng)的某些教學(xué)功能。人工智能教育測(cè)評(píng)不僅是一種測(cè)評(píng)工具,即衡量學(xué)生掌握了哪些知識(shí)、技能以及掌握程度。而且還是一種隱性課程,具備教學(xué)功能。比如,教師通常會(huì)利用傳統(tǒng)人工評(píng)分形式來(lái)激勵(lì)和引導(dǎo)學(xué)生,如果一個(gè)教師覺(jué)得某生會(huì)從鼓勵(lì)中受益可能對(duì)該生的評(píng)分比較寬容?;蛘?,教師覺(jué)得某生可能需要從干預(yù)中受益,評(píng)分就會(huì)更嚴(yán)謹(jǐn)。③這兩種情況下評(píng)分都植根于教師對(duì)學(xué)生的了解以及教師與學(xué)生建立的個(gè)人關(guān)系。這兩位學(xué)生不僅得到分?jǐn)?shù)的反饋,還可能因體會(huì)到教師良苦用心,從而更加努力或更加嚴(yán)格要求自己。這就是人工測(cè)評(píng)的教學(xué)功能。而人工智能教育測(cè)評(píng),可能會(huì)削弱教師對(duì)學(xué)生的全面了解,使測(cè)評(píng)過(guò)程過(guò)于機(jī)械和缺乏人性化,從而限制了某些教學(xué)功能的發(fā)揮。
2.使用人工智能教育測(cè)評(píng)可能會(huì)帶來(lái)某些教育性風(fēng)險(xiǎn)。使用人工智能測(cè)評(píng)還可能會(huì)出現(xiàn)出乎教育者預(yù)料、對(duì)學(xué)生隱性、負(fù)向的影響,我們可以將其稱為“教育性風(fēng)險(xiǎn)”。如前所述的課業(yè)預(yù)警系統(tǒng),就算技術(shù)上測(cè)評(píng)結(jié)果再準(zhǔn)確,那些被預(yù)測(cè)到課業(yè)成績(jī)可能不佳的學(xué)生,一個(gè)可能后果就是該生還沒(méi)有開(kāi)始學(xué)習(xí)課程就放棄了自己的努力,因?yàn)榉凑悄軠y(cè)評(píng)工具已經(jīng)預(yù)測(cè)到自已課業(yè)成績(jī)不佳。教師也可能因?yàn)榭吹矫麊味档土藢?duì)這些學(xué)生的期望,下意識(shí)地不愿意付出額外的努力。這是“羅森塔爾效應(yīng)\"的反向應(yīng)用。還有,人工智能教育測(cè)評(píng)是非常精準(zhǔn)化的,這種\"精準(zhǔn)化”可能會(huì)一定程度上限制了學(xué)生信息選擇,產(chǎn)生“信息繭房效應(yīng)”,影響學(xué)生的全面性發(fā)展。這都是使用人工智能教育測(cè)評(píng)或使用不當(dāng)帶來(lái)的教育性風(fēng)險(xiǎn)。而這種教育性風(fēng)險(xiǎn)通常是隱性的,因其內(nèi)隱性和滯后性不易被發(fā)現(xiàn)。不僅如此,人工智能教育測(cè)評(píng)本身也是一種價(jià)值導(dǎo)向,暗含了一定的價(jià)值基礎(chǔ)——關(guān)于教育是什么以及教育為什么的價(jià)值觀。這些都是開(kāi)發(fā)和使用人工智能教育測(cè)評(píng)所應(yīng)該考慮的基本問(wèn)題。
(三)人工智能教育測(cè)評(píng)本身和使用人工智能教育測(cè)評(píng)共同面臨的風(fēng)險(xiǎn)
1.可能會(huì)對(duì)學(xué)生造成侵權(quán)。首先,可能會(huì)侵犯學(xué)生的隱私權(quán)和個(gè)人數(shù)據(jù)保護(hù)權(quán)。隱私權(quán)和個(gè)人數(shù)據(jù)保護(hù)權(quán)在教育技術(shù)中并非新鮮話題。然而,人工智能教育測(cè)評(píng)由于需要海量數(shù)據(jù),使得隱私權(quán)和個(gè)人數(shù)據(jù)保護(hù)權(quán)問(wèn)題更加突顯。人工智能教育測(cè)評(píng)數(shù)據(jù)通常是記錄學(xué)生的課堂表現(xiàn)、成績(jī)、所學(xué)知識(shí)和學(xué)習(xí)能力,但也可能包括他們的性格特征、偏好、健康狀況、家庭情況以及其他有助于評(píng)估其能力的個(gè)人信息。盡管現(xiàn)有立法和標(biāo)準(zhǔn)旨在保護(hù)敏感的個(gè)人數(shù)據(jù)、保護(hù)個(gè)人隱私權(quán)。但人工智能技術(shù)公司由于利益驅(qū)使或技術(shù)原因,不斷爆出數(shù)據(jù)訪問(wèn)的安全性事件,加劇了人們的擔(dān)憂。④比如在線監(jiān)考系統(tǒng)常常涉嫌侵犯學(xué)生隱私權(quán)和個(gè)人數(shù)據(jù)保護(hù)權(quán)。2020年,荷蘭烏特勒支大學(xué)的數(shù)據(jù)保護(hù)官因該大學(xué)使用在線監(jiān)考軟件的隱私問(wèn)題與執(zhí)行董事會(huì)產(chǎn)生了沖突。2021年,華盛頓大學(xué)等一些知名高校宣布取消與一家知名在線監(jiān)考公司續(xù)簽合同。2022年,美國(guó)俄亥俄州克利夫蘭州立大學(xué)一名大學(xué)生贏得了聯(lián)邦法官的支持,法官裁定“在線監(jiān)考進(jìn)行房間掃描違反憲法”。③
其次,可能會(huì)侵犯學(xué)生的被公平評(píng)價(jià)權(quán)。如前所述,人工智能教育測(cè)評(píng)系統(tǒng)可能將種族、性別和社會(huì)文化背景編碼到程序中,低估了女性、有色人種或者處境不利的學(xué)生,涉嫌性別、種族和社會(huì)背景歧視。英國(guó)A-level和國(guó)際文憑項(xiàng)目的考試中,有兩個(gè)關(guān)鍵數(shù)據(jù)點(diǎn)是自動(dòng)評(píng)分系統(tǒng)的依據(jù),一個(gè)是考生所在學(xué)校歷史成績(jī)。一般來(lái)說(shuō),處境不利考生所在學(xué)校歷史成績(jī)往往表現(xiàn)不佳,哪怕考生本人很優(yōu)秀。另一個(gè)數(shù)據(jù)點(diǎn)是教師估計(jì)的學(xué)生成績(jī),與白人學(xué)生相比,教師對(duì)黑人和棕色人種學(xué)生的期望往往較低。①人工智能教育測(cè)評(píng)系統(tǒng)會(huì)放大這種偏見(jiàn)。
最后,人工智能教育測(cè)評(píng)系統(tǒng)可能會(huì)侵犯學(xué)生的知情同意權(quán)、版權(quán)或其他權(quán)利。比如,有學(xué)生在自動(dòng)評(píng)分系統(tǒng)提交的論文在其毫不知情的情況下竟然成了某個(gè)平臺(tái)的范文。這不僅侵犯了學(xué)生的知情同意權(quán),還侵犯了學(xué)生的版權(quán)。
2.學(xué)生的主體性和自主性可能會(huì)被削弱。如前所述,人工智能測(cè)評(píng)系統(tǒng)的即時(shí)評(píng)分和反饋雖然有助于學(xué)生學(xué)習(xí),但也可能讓學(xué)生對(duì)系統(tǒng)產(chǎn)生依賴,削弱了學(xué)生自身的主體性和自主性。并且智能測(cè)評(píng)輸出被自動(dòng)視為正確更暗示了他們不需要獨(dú)立思考和自主決策。不僅是學(xué)生,教師主體性和自主性都會(huì)受到影響。過(guò)去學(xué)生提交的作品是否與其他作品相似或雷同由教師來(lái)決定;而現(xiàn)在,由于可獲得的資源數(shù)量龐大以及自然語(yǔ)言處理技術(shù)進(jìn)步,教師更依賴于人工智能處理這項(xiàng)任務(wù)。②這樣,教師對(duì)智能測(cè)評(píng)系統(tǒng)的依賴又以隱性課程方式微妙地影響了學(xué)生的自主性。
三、人工智能教育測(cè)評(píng)風(fēng)險(xiǎn)規(guī)避框架
綜上可見(jiàn),開(kāi)發(fā)和使用人工智能教育測(cè)評(píng)有明顯優(yōu)勢(shì),但也伴隨著諸多的風(fēng)險(xiǎn),那么怎樣規(guī)避這些風(fēng)險(xiǎn)呢?圖1提供了人工智能教育測(cè)評(píng)的風(fēng)險(xiǎn)規(guī)避框架。這個(gè)框架要求開(kāi)發(fā)和使用人工智能教育測(cè)評(píng)首先要評(píng)估這一系統(tǒng)對(duì)學(xué)生的益處及可能的風(fēng)險(xiǎn)或可能對(duì)學(xué)生的傷害。其次,在測(cè)評(píng)的任何環(huán)節(jié),都應(yīng)該保障學(xué)生各種權(quán)利,避免侵犯學(xué)生權(quán)利。當(dāng)然,這些要求實(shí)現(xiàn)的前提是人工智能教育測(cè)評(píng)開(kāi)發(fā)和使用必須以人為中心,以尊重和補(bǔ)充人尤其是學(xué)生的主體性和自主性為宗旨。最后,這些要求實(shí)現(xiàn)的保障是可問(wèn)責(zé)性,一旦出現(xiàn)對(duì)學(xué)生的侵權(quán)和風(fēng)險(xiǎn),相關(guān)人員能夠被追責(zé)。以下是具體的分析:
(一)人應(yīng)該是人工智能教育測(cè)評(píng)的監(jiān)督者和最終決策者
人工智能必須以人類為中心,開(kāi)發(fā)和使用人工智能測(cè)評(píng)系統(tǒng)的任何環(huán)節(jié)都需要人類監(jiān)督,最終決策應(yīng)該由人來(lái)做出。2020年的國(guó)際文憑項(xiàng)目和英國(guó)A-level考試人工智能測(cè)評(píng)風(fēng)波之所以引起這么大的憤怒和抗議,第一,面對(duì)考生質(zhì)疑和申訴,不管是國(guó)際文憑組織還是英國(guó)當(dāng)局起初都堅(jiān)持認(rèn)為人工智能測(cè)評(píng)是準(zhǔn)確的,過(guò)于信賴和依靠機(jī)器。第二,在國(guó)際文憑項(xiàng)目和英國(guó)的 A-level人工智能評(píng)分過(guò)程中和公布成績(jī)之后,相關(guān)人員沒(méi)有發(fā)揮有效的監(jiān)督和調(diào)整作用。如國(guó)際文憑項(xiàng)目成績(jī)申訴程序并沒(méi)有因?yàn)闇y(cè)評(píng)系統(tǒng)變成人工智能而做出針對(duì)性調(diào)整。面對(duì)申訴國(guó)際文憑組織沒(méi)有預(yù)案,他們本應(yīng)該對(duì)申訴人的異常分?jǐn)?shù)進(jìn)行由人主導(dǎo)的重新評(píng)估,審慎評(píng)估他們輸入的數(shù)據(jù),并研究如何系統(tǒng)解決問(wèn)題。③但顯然國(guó)際文憑項(xiàng)目組織并沒(méi)有這么做。英國(guó)的A-level成績(jī)申訴程序也沒(méi)有因評(píng)分方式轉(zhuǎn)變進(jìn)行有效性調(diào)整??忌鷤儽桓嬷麄兛梢杂媚M考試成績(jī)作為申訴的依據(jù)。然而,因?yàn)橐咔橛行W(xué)校并沒(méi)有組織模擬考試,沒(méi)有模擬考試成績(jī)的學(xué)生怎么申訴?申訴主體是學(xué)生還是學(xué)校?費(fèi)用由誰(shuí)承擔(dān)?④這些規(guī)定都非常不明確,加劇了考生及家長(zhǎng)對(duì)人工智能評(píng)定成績(jī)的不滿。第三,對(duì)于學(xué)生利害攸關(guān)的考試成績(jī)由自動(dòng)評(píng)分系統(tǒng)評(píng)定,涉嫌違法。不少人認(rèn)為,2020年國(guó)際文憑項(xiàng)目人工智能評(píng)分有違歐盟的《通用數(shù)據(jù)保護(hù)條例》有關(guān)條款?!皵?shù)據(jù)主體有權(quán)不受僅僅基于自動(dòng)處理(包括分析)而做出的決定約束,如果該決定對(duì)數(shù)據(jù)主體產(chǎn)生法律效力或類似的重大影響。”①其實(shí),在A-level成績(jī)公布的幾個(gè)月前,英國(guó)皇家統(tǒng)計(jì)學(xué)會(huì)曾對(duì)英國(guó)資格認(rèn)證和考試管理辦公室發(fā)出警告:“永遠(yuǎn)不可能有一個(gè)完美的算法或一個(gè)完全公平的系統(tǒng),必須有健全的人類決策,否則可能是一場(chǎng)慘敗”。②但英國(guó)當(dāng)局對(duì)此沒(méi)有做出回應(yīng)??梢?jiàn),在開(kāi)發(fā)、使用人工智能測(cè)評(píng)的每個(gè)環(huán)節(jié)都需要建立由人主導(dǎo)的評(píng)估機(jī)制,以監(jiān)測(cè)人工智能測(cè)評(píng)的過(guò)程、結(jié)果以及對(duì)學(xué)生的影響,并根據(jù)監(jiān)測(cè)進(jìn)行相應(yīng)的調(diào)整。
(二)人工智能教育測(cè)評(píng)開(kāi)發(fā)、使用的任何層面,學(xué)生主體性和自主性必須被尊重
隨著人工智能自主控制和自主決策能力不斷增強(qiáng),越來(lái)越具有擬主體的身份。為了避免人類主體性被人工智能反噬帶來(lái)不可控制的風(fēng)險(xiǎn),在開(kāi)發(fā)和使用人工智能過(guò)程中,人作為人的自主性、主體性必須被尊重。2019年4月歐盟頒布《可信賴的人工智能倫理準(zhǔn)則》,把\"尊重人類自主性\"視為人工智能開(kāi)發(fā)和使用的首要倫理準(zhǔn)則。2019年5月,北京智源人工智能研究院聯(lián)合北京大學(xué)、清華大學(xué)、中國(guó)科學(xué)院自動(dòng)化研究所、中國(guó)科學(xué)院計(jì)算技術(shù)研究所、新一代人工智能產(chǎn)業(yè)技術(shù)創(chuàng)新戰(zhàn)略聯(lián)盟等高校、科研院所和產(chǎn)業(yè)聯(lián)盟共同發(fā)布《人工智能北京共識(shí)》,在\"服務(wù)于人\"條款中明確提出“應(yīng)充分尊重人類的隱私、尊嚴(yán)、自由、自主、權(quán)利”。其他國(guó)家或者相關(guān)人工智能組織也都發(fā)布過(guò)類似倫理準(zhǔn)則。具體到人工智能教育測(cè)評(píng)系統(tǒng),其預(yù)設(shè)前提、價(jià)值基礎(chǔ)都需要把人的主體性尤其是學(xué)生的主體性放在優(yōu)先位置。以自動(dòng)化作業(yè)批改系統(tǒng)為例,其價(jià)值預(yù)設(shè)應(yīng)該是培養(yǎng)學(xué)生的自我反思能力和元認(rèn)知能力,鼓勵(lì)學(xué)習(xí)者本人反思、研究自己的答案究競(jìng)錯(cuò)在哪里?為什么會(huì)出現(xiàn)錯(cuò)誤?而不是養(yǎng)成學(xué)生完全依賴自動(dòng)化作業(yè)批改系統(tǒng)來(lái)修正答案的習(xí)慣。而對(duì)于教育者來(lái)說(shuō),人工智能測(cè)評(píng)教育功能的發(fā)揮不僅依賴智能系統(tǒng)本身的結(jié)構(gòu)數(shù)據(jù)和算法,而且也依賴于師生主體性的努力。如前所述的人工智能預(yù)測(cè)學(xué)生成績(jī)及其輟學(xué)率,既可能造成師生不愿意努力而放棄學(xué)生學(xué)業(yè)的\"羅森塔爾效應(yīng)\"反向應(yīng)用;也可以通師生的主動(dòng)性努力將這種負(fù)面影響轉(zhuǎn)化為正面影響。那些被預(yù)測(cè)到學(xué)業(yè)可能受挫的學(xué)生,他們提前知曉了學(xué)習(xí)難度,學(xué)生選擇更加刻苦學(xué)習(xí),教師也針對(duì)這些學(xué)生提供額外支持和鼓勵(lì)。這樣,通過(guò)師生的主觀性努力,人工智能預(yù)測(cè)所可能帶來(lái)的消極影響就變成了對(duì)學(xué)生積極影響。還有,人工智能教育測(cè)評(píng)的精準(zhǔn)化、個(gè)性化帶來(lái)的“信息繭房效應(yīng)”,也可以通過(guò)教師有意識(shí)地輔導(dǎo)和
學(xué)生補(bǔ)充練習(xí)在很大程度上預(yù)防和消解。
(三)開(kāi)發(fā)和使用人工智能教育測(cè)評(píng)需要遵循審慎原則,評(píng)估其益處和風(fēng)險(xiǎn)
從教育學(xué)的角度來(lái)看,教育測(cè)評(píng)直接功能主要有兩個(gè):第一,教育教學(xué)功能,即為了促進(jìn)學(xué)生的學(xué)習(xí)和全面發(fā)展。第二,行政管理功能,通常表現(xiàn)為利用測(cè)評(píng)區(qū)別學(xué)生水平,給予適當(dāng)安置或選拔淘汰;或?yàn)樘岣咝姓驶驕p輕教師負(fù)擔(dān)。當(dāng)然教育測(cè)評(píng)的終極追求依然是教育性,管理功能最終需要符合教育功能。人們開(kāi)發(fā)和使用人工智能教育測(cè)評(píng)系統(tǒng)初衷是期待發(fā)揮上述兩個(gè)或一個(gè)功能的發(fā)揮。如前所述的德克薩斯大學(xué)奧斯汀分校計(jì)算機(jī)科學(xué)系采取“評(píng)分\"項(xiàng)目主要是為了節(jié)省該系招生委員會(huì)成員的時(shí)間,減輕招生教師負(fù)擔(dān),從而使這些教師有更多的精力和時(shí)間服務(wù)于學(xué)生。
不管哪一種情況,開(kāi)發(fā)和使用人工智能教育測(cè)評(píng)首先需要考量它作為測(cè)評(píng)工具的有效性、可靠性和公平性等指標(biāo),評(píng)估它對(duì)學(xué)生的益處。與此同時(shí),還需要評(píng)估可能對(duì)學(xué)生造成的負(fù)面影響,比如一款智能測(cè)評(píng)軟件可以提高學(xué)生的學(xué)習(xí)興趣和學(xué)習(xí)效率而對(duì)學(xué)生有益。但學(xué)生長(zhǎng)期沉湎于人機(jī)互動(dòng),可能造成真實(shí)世界的情感冷漠,那么在開(kāi)發(fā)和使用過(guò)程中需要輔以哪些措施才能避免這種情況發(fā)生等諸如此類問(wèn)題,都需要充分討論和監(jiān)測(cè)。哪怕初衷是行政管理或者不得已而為之的情形,也需要考慮會(huì)不會(huì)對(duì)學(xué)生造成負(fù)面影響,需要采取哪些措施去規(guī)避。易言之,開(kāi)發(fā)和使用人工智能教育測(cè)評(píng)需要遵循審慎原則,評(píng)估收益的同時(shí)進(jìn)行充分的風(fēng)險(xiǎn)評(píng)估、風(fēng)險(xiǎn)管理和風(fēng)險(xiǎn)控制。其實(shí),2O20年英國(guó)的A-Level考試,英國(guó)皇家統(tǒng)計(jì)學(xué)會(huì)曾向英國(guó)資格證和考試管理辦公室發(fā)出過(guò)警告,說(shuō)用于測(cè)評(píng)成績(jī)的算法不穩(wěn)定,風(fēng)險(xiǎn)很大。①但該機(jī)構(gòu)置若罔聞,還是繼續(xù)推進(jìn)自動(dòng)化評(píng)分。先不說(shuō)這些利害攸關(guān)的教育測(cè)評(píng)對(duì)學(xué)生的影響是關(guān)鍵性的,影響其升學(xué)、就業(yè)甚至改變一生的命運(yùn)。即使平時(shí)測(cè)評(píng)對(duì)學(xué)生的影響也是不可低估的,所以最大限度地發(fā)揮人工智能教育測(cè)評(píng)對(duì)學(xué)生的益處、最小化對(duì)學(xué)生的負(fù)面影響至關(guān)重要。
(四)人工智能教育測(cè)評(píng)開(kāi)發(fā)和使用要保證學(xué)生的權(quán)利不被侵犯
如前所述,人工智能教育測(cè)評(píng)需要海量的數(shù)據(jù)支持,而很多數(shù)據(jù)與個(gè)人信息和隱私權(quán)相關(guān)聯(lián)。而且怎樣使用數(shù)據(jù)、使用數(shù)據(jù)的性質(zhì)(依賴于算法)都可能會(huì)侵犯學(xué)生隱私權(quán)、被公正評(píng)價(jià)權(quán)、版權(quán)等其他權(quán)利。雖然,面對(duì)飛速發(fā)展的人工智能技術(shù)和鋪天蓋地的數(shù)據(jù),各個(gè)國(guó)家和地區(qū)紛紛制定法律和標(biāo)準(zhǔn)以保護(hù)個(gè)人基本權(quán)利。但是,人工智能教育測(cè)評(píng)侵犯學(xué)生權(quán)利的事件屢見(jiàn)不鮮。為了解決這些問(wèn)題,在訓(xùn)練人工智能教育測(cè)評(píng)系統(tǒng)之前,開(kāi)發(fā)人員必須采取措施保證數(shù)據(jù)的包容性和代表性,避免數(shù)據(jù)歧視和算法偏見(jiàn)。確保數(shù)據(jù)的機(jī)密性、完整性和可用性以及防止數(shù)據(jù)泄露。同時(shí),部署和使用人工智能教育測(cè)評(píng)的機(jī)構(gòu)和個(gè)人負(fù)有同樣重要的倫理責(zé)任。因?yàn)閿?shù)據(jù)不僅在智能測(cè)評(píng)系統(tǒng)開(kāi)發(fā)階段至關(guān)重要,在使用過(guò)程中也同樣重要,系統(tǒng)運(yùn)行使用過(guò)程中產(chǎn)生的數(shù)據(jù)甚至需要作為新的輸入再次使用。所以在開(kāi)發(fā)和使用人工智能教育測(cè)評(píng)的任何環(huán)節(jié)都需要明確規(guī)定和嚴(yán)格執(zhí)行訪問(wèn)權(quán)限,防止未經(jīng)授權(quán)的訪問(wèn)。此外,學(xué)生知情同意權(quán)和的版權(quán)等其他權(quán)利都需要被保護(hù),明確人工智能教育測(cè)評(píng)數(shù)據(jù)信息在整個(gè)生命周期都不能用于規(guī)定之外的功能,最大限度避免對(duì)學(xué)生權(quán)利的侵犯。
(五)人工智能教育測(cè)評(píng)系統(tǒng)的算法要穩(wěn)健、透明
算法是人工智能教育測(cè)評(píng)的核心結(jié)構(gòu)之一,它指導(dǎo)計(jì)算機(jī)如何處理數(shù)據(jù)、學(xué)習(xí)模式、做出決策和生成輸出。為了規(guī)避相應(yīng)風(fēng)險(xiǎn),對(duì)人工智能教育測(cè)評(píng)算法的要求通常有兩個(gè)方面,一方面是穩(wěn)健,要求算法準(zhǔn)確、可靠、可重復(fù),避免算法的錯(cuò)誤、算法不一致或不穩(wěn)定帶來(lái)的風(fēng)險(xiǎn)。顯然,英國(guó)2020年A-level人工智能評(píng)分系統(tǒng)的算法是不一致的。雖然大部分學(xué)生的成績(jī)依據(jù)是學(xué)校的歷史表現(xiàn)和教師的估計(jì)成績(jī),但如果一所學(xué)校選考某一學(xué)科的學(xué)生少于五個(gè),那么他們的成績(jī)只根據(jù)老師的估計(jì)成績(jī)來(lái)決定。如果某一學(xué)校選考某門(mén)學(xué)科的學(xué)生有五到十個(gè),教師的估計(jì)成績(jī)?nèi)匀粫?huì)被賦予更多的權(quán)重。私立學(xué)校人數(shù)相對(duì)較少,這也是導(dǎo)致私立學(xué)校學(xué)生得分較高的一個(gè)原因。②另一個(gè)方面算法透明,表現(xiàn)為可解釋、可追溯??山忉屢馕吨斯ぶ悄芙逃郎y(cè)評(píng)系統(tǒng)的工作原理、工作機(jī)制都是可以被解釋的??勺匪葜傅氖侨斯ぶ悄芙逃郎y(cè)評(píng)系統(tǒng)做出決策的所有基礎(chǔ),包括收集數(shù)據(jù)、標(biāo)記數(shù)據(jù)、使用算法等過(guò)程都應(yīng)該被詳細(xì)、系統(tǒng)記錄,即系統(tǒng)所做出的任何決策都是有跡可循的。① 這樣一旦出現(xiàn)問(wèn)題,從算法上可以追溯到原因以實(shí)現(xiàn)問(wèn)責(zé)。
(六)保證人工智能教育測(cè)評(píng)的可問(wèn)責(zé)性
可問(wèn)責(zé)性既是對(duì)上述要求的重申,也是上述要求的保證。同時(shí),將教育測(cè)評(píng)權(quán)委托給人工智能本身就是一種人類選擇,屬于人類的責(zé)任范疇。這意味者開(kāi)發(fā)、使用人工智能教育測(cè)評(píng)所導(dǎo)致的結(jié)果或后果需要由人類承擔(dān),而不能推給機(jī)器,尤其是是在對(duì)學(xué)生造成不利影響時(shí)相關(guān)人員必須承擔(dān)責(zé)任。為了保證測(cè)評(píng)系統(tǒng)的可問(wèn)責(zé)性,首先,部署和使用人工智能測(cè)評(píng)前權(quán)衡,評(píng)估測(cè)評(píng)的收益和風(fēng)險(xiǎn),并明確權(quán)衡主體的責(zé)任。其次,使用過(guò)程中或使用后的評(píng)估,人工智能測(cè)評(píng)系統(tǒng)的整個(gè)生命周期需要由相關(guān)人員審核評(píng)估,評(píng)估師生或其他管理人員的使用情況以及后果,尤其是可能面臨風(fēng)險(xiǎn)或者可能對(duì)學(xué)生傷害時(shí)的責(zé)任承擔(dān)。比如某款人工智能測(cè)評(píng)系統(tǒng)有效性、公平性有偏差或者對(duì)學(xué)生產(chǎn)生了不利影響,需要確定到底是系統(tǒng)開(kāi)發(fā)者算法設(shè)計(jì)上的失誤、偏見(jiàn)?數(shù)據(jù)收集和訓(xùn)練中的歧視或包容性不夠?或者是學(xué)校在部署選用系統(tǒng)時(shí)沒(méi)有進(jìn)行充分的評(píng)估?還是教師在使用過(guò)程中沒(méi)有進(jìn)行適當(dāng)?shù)囊龑?dǎo)、監(jiān)督或干預(yù)?或者是屬于學(xué)生操作不當(dāng)?責(zé)任歸屬如何劃分,責(zé)任范圍如何界定,相關(guān)責(zé)任如何追究都需要明確的規(guī)定和監(jiān)督。最后,可問(wèn)責(zé)性還包括在人工智能教育測(cè)評(píng)的任何環(huán)節(jié),一旦涉嫌對(duì)學(xué)生造成了傷害或者侵權(quán),都應(yīng)該有迅速及時(shí)的補(bǔ)救措施。
人工智能教育測(cè)評(píng)的風(fēng)險(xiǎn)規(guī)避不會(huì)一蹴而就地解決,因?yàn)檫@些問(wèn)題不僅事關(guān)教育測(cè)評(píng)的理念、相關(guān)人員的認(rèn)知,還涉及人工智能技術(shù)難度以及各個(gè)要素之間的張力。但這并不能否認(rèn)解決這些問(wèn)題的緊迫性,本文希望對(duì)這些問(wèn)題的討論能喚起人們對(duì)人工智能教育測(cè)評(píng)應(yīng)用、風(fēng)險(xiǎn)及規(guī)避充分的關(guān)注和重視,這事關(guān)人工智能教育測(cè)評(píng)的未來(lái),也事關(guān)教育的未來(lái)。
International Perspective on Artificial Intelligence Education Assessment : Application,Risks,andMitigation
XU Xiang-he
(School of Education Science,Liaocheng University,Liaocheng 252ooo,China)
Abstract:Artificial intelligence assessment in education is a trend in the digital age for the development of educational assessment,including automated scoring systems,computer adaptive testing,process-based formative assessment and prediction,and integrity assurance mechanisms. Compared with traditional manual assessment,the advantages of artificial intelligence assessment in education are very obvious. However,it also faces many risks,specifically the risks of artificial intelligence assessment itself,the use of artificial inteligence assessment,and the risks common to both. In order to mitigate these risks,firstly, the design and use of artificial intelligence assessment in education need to assess its risks and benefits to students;secondly, privacy and other rights of students should be protected at all stages of assessment. Of course,these requirements can be achieved only if artificial intellgence assessment in education is centered on humans and aims to attach importance to the agency and autonomy of students. If there is any infringement or harm to students,relevant personnel can be held accountable and there should be timely remedial measures.
Key words:artificial intelligence assessment in education;risks;mitigation; international perspective
[責(zé)任編輯 治平]