丁 念 亮
當前全球正在經(jīng)歷新一輪科技革命,人工智能技術(shù)已成為推動教育變革的重要力量。教育部于2018年發(fā)布《教育信息化2.0行動計劃》,要求進一步推進人工智能教育的發(fā)展[1],表明我國教育信息化已進入一個新的階段。教育人工智能的理論探索、技術(shù)開發(fā)和生態(tài)構(gòu)建將是當前和未來教育研究的重要任務(wù)。在學(xué)習(xí)評價研究領(lǐng)域,人工智能的介入正深刻改變著傳統(tǒng)學(xué)習(xí)評價模式,但學(xué)習(xí)評價模式的智能化發(fā)展之路卻充滿了諸多挑戰(zhàn)。
人工智能是計算機系統(tǒng)的一種能力,它能夠完成本質(zhì)上具有人類特征的行為[2]。人工智能的概念源自Alan Turing的《計算機器與智能》,但其作為一個術(shù)語則是由麻省理工學(xué)院教授John McCarthy 等人首次提出[3]。這一術(shù)語本身具有較強的包容性,含有多個相互交叉重疊的概念,如預(yù)測分析、深度學(xué)習(xí)、機器學(xué)習(xí)、專家系統(tǒng)和社交機器人等。雖然人工智能是一個多維度概念,但其核心都是機器模仿人的一種或幾種智力活動[4]。
在學(xué)習(xí)評價中的人工智能可以包含上述一個或多個技術(shù)概念,這與學(xué)習(xí)評價的內(nèi)涵密切相關(guān)。學(xué)習(xí)評價一般理解為對學(xué)生學(xué)習(xí)成效的評價,其內(nèi)涵在歷史上也經(jīng)歷了若干變化,至今仍有不同的理解。Harlen將“對學(xué)習(xí)的評價(assessment of learning)”和“為學(xué)習(xí)的評價(assessment for learning)”做了區(qū)分,認為兩者的差異歸于其各自不同的評價目的[5]?!皩W(xué)習(xí)的評價”目的是終結(jié)性的,意在提供可靠的學(xué)生學(xué)業(yè)成績報告,評價過程是線性的;而“為學(xué)習(xí)的評價”本質(zhì)上是形成性的、不斷重復(fù)的循環(huán)過程,目的是從持續(xù)的學(xué)習(xí)活動中提取數(shù)據(jù)、形成反饋信息并指導(dǎo)學(xué)生下一步的學(xué)習(xí)。與上述兩種理解不同,Dann提出了“評價即學(xué)習(xí)(assessment as learning)”的概念[6]。這種學(xué)評融合的評價理念使學(xué)生全程置于評價之中,使教、學(xué)、評三者融為一體,評價不再是教和學(xué)的附屬品,而是與教和學(xué)一起構(gòu)成的相互關(guān)聯(lián)和滲透的統(tǒng)一體。學(xué)評融合模式的優(yōu)勢是能夠?qū)W(xué)習(xí)進行及時反饋和連續(xù)反饋,但限于傳統(tǒng)評價手段高昂的時間成本,這種評價模式似乎只是一種現(xiàn)實中難以實現(xiàn)的評價理想。當大數(shù)據(jù)、人工智能和區(qū)塊鏈技術(shù)日趨成熟并逐漸滲透到教育領(lǐng)域時,學(xué)評融合的評價模式也迎來了新的發(fā)展契機。
人工智能等信息技術(shù)與學(xué)評融合理念的結(jié)合可以實現(xiàn)學(xué)習(xí)與評價的同步。在過去的一二十年中,人工智能技術(shù)已經(jīng)在學(xué)習(xí)評價中得到越來越廣泛的應(yīng)用,如智能作文評分系統(tǒng)和智能教學(xué)系統(tǒng)等。智能學(xué)習(xí)評價利用人工智能技術(shù)對學(xué)習(xí)過程大數(shù)據(jù)進行分析并提供實時反饋。學(xué)習(xí)過程中產(chǎn)生的大量與學(xué)習(xí)相關(guān)的數(shù)字化信息被準確完整地記錄下來用于學(xué)習(xí)評價。這些數(shù)據(jù)既包括鼠標點擊次數(shù)和鍵盤操作情況,也涵蓋學(xué)習(xí)任務(wù)完成進度及正確率等信息。除此之外,通過精密傳感儀器甚至可以獲得學(xué)生的心率、微表情等所有個人活動信息數(shù)據(jù)。這些學(xué)習(xí)過程數(shù)據(jù)由系統(tǒng)預(yù)置的評價模型自動分析并生成實時反饋信息,指導(dǎo)進一步學(xué)習(xí)。理論上,智能學(xué)習(xí)評價能完全貫徹學(xué)評融合的評價思想,徹底改變傳統(tǒng)評價體系下無法連續(xù)評價和及時評價的尷尬局面。
智能學(xué)習(xí)系統(tǒng)從早期的智能專家系統(tǒng)逐漸向自適應(yīng)和智適應(yīng)學(xué)習(xí)系統(tǒng)過渡,不僅自動提供學(xué)科知識,對學(xué)習(xí)行為進行診斷評價[7],還可以憑借大數(shù)據(jù)和人工智能技術(shù)使其擁有媲美特級教師的教學(xué)能力[8]。通過基于大數(shù)據(jù)的量化自我學(xué)習(xí)算法,智能學(xué)習(xí)系統(tǒng)全面記錄學(xué)生學(xué)習(xí)行為,評估預(yù)設(shè)學(xué)習(xí)內(nèi)容是否掌握,最終實現(xiàn)學(xué)習(xí)評價的動態(tài)性、全程性和綜合性[9]。信息化時代背景下,智能學(xué)習(xí)評價的內(nèi)在價值決定了其存在和發(fā)展的合理性。
人工智能技術(shù)支持下的學(xué)習(xí)評價可以快速實現(xiàn)評價目標的個性化。依托智能學(xué)習(xí)系統(tǒng),設(shè)計者利用人工智能技術(shù)對學(xué)習(xí)大數(shù)據(jù)進行分析,可以得到學(xué)生學(xué)習(xí)行為的預(yù)測信息,進而形成基于學(xué)習(xí)內(nèi)容的個性化評價目標。在完成學(xué)習(xí)內(nèi)容后,系統(tǒng)可對目標達成情況向?qū)W生和教師進行反饋,推送新的學(xué)習(xí)內(nèi)容,形成新的評價目標,如此周而復(fù)始,引導(dǎo)每個學(xué)生完成預(yù)定的學(xué)習(xí)內(nèi)容。由于學(xué)生學(xué)習(xí)能力存在個體差異,學(xué)生的評價目標和學(xué)習(xí)進度是不一樣的。這與傳統(tǒng)學(xué)校教育中的評價體制相異,因而目前無法將人工智能學(xué)習(xí)系統(tǒng)大規(guī)模應(yīng)用到學(xué)校教學(xué)中,只能較多滿足自主學(xué)習(xí)者的需要。
傳統(tǒng)的紙筆評價方式只能進行數(shù)據(jù)抽樣或階段性測評,獲取學(xué)習(xí)數(shù)據(jù),完成評價和反饋。這種評價方式的不足在于評價過程的中斷。學(xué)習(xí)評價的理想狀態(tài)就是無間斷的全程評價。但全程評價方式會產(chǎn)生巨量數(shù)據(jù),傳統(tǒng)數(shù)據(jù)分析手段無法快速處理,當然也無法進行全程記錄、分析和評價。人工智能技術(shù)可以全程記錄學(xué)習(xí)行為數(shù)據(jù),并依據(jù)評價模型實現(xiàn)即時性全程性評價。除了學(xué)習(xí)行為之外,學(xué)生的心理狀態(tài)、運動情況、休息情況等都可以通過智能便攜設(shè)備進行全程記錄和分析評價。
學(xué)習(xí)評價系統(tǒng)能夠準確客觀地診斷學(xué)習(xí)表現(xiàn),幫助師生把握課程目標和教學(xué)策略[10]。學(xué)習(xí)過程大數(shù)據(jù)是學(xué)習(xí)行為的數(shù)字化體現(xiàn),排除了人工打分的個人偏好、隨意和誤差等不利因素。數(shù)據(jù)記錄精確即時,在評價模型成熟可靠的前提下,評價效果必然是客觀和精確的。因此,開發(fā)出可靠的評價模型是評價效果的重要保障。但評價模型的開發(fā)并非易事,需要融合先進的信息技術(shù)和科學(xué)的評價理念,經(jīng)過專業(yè)人員通力合作反復(fù)測試才能完成。
紙筆評價方式常以階段性評價為主,評價內(nèi)容圍繞本階段的學(xué)習(xí)表現(xiàn),可以包括單元測試、課堂表現(xiàn)、作業(yè)成績等主要學(xué)習(xí)行為。但除此以外的學(xué)生素質(zhì)評價則較為主觀和模糊,缺乏客觀精確的統(tǒng)計數(shù)據(jù)作為依據(jù)。造成這種困難的原因在于缺少一種可以容納全部可測項目的評價工具,僅依靠傳統(tǒng)人力無法完成如此龐大的數(shù)據(jù)處理工作。人工智能技術(shù)的介入使學(xué)生綜合素質(zhì)評價成為可能。綜合素質(zhì)可以進行測評項目分解,并向人工智能評價系統(tǒng)無限添加,對數(shù)據(jù)進行自動記錄、分析和匯總,最終得出評價結(jié)果和反饋建議。
智能評價系統(tǒng)往往與智能學(xué)習(xí)系統(tǒng)整合,成為智能學(xué)習(xí)系統(tǒng)的一部分,傳統(tǒng)評價中的教師評價、學(xué)生自評和互評部分被人工智能取代,智能評價系統(tǒng)扮演了教師和學(xué)生在傳統(tǒng)評價過程中的角色。原本由教育者和受教育者共同完成的教學(xué)評價活動,僅由人工智能便可完成[11],原有的評價參與者被排除在外。通過所謂的算法“黑匣子”,基于深度學(xué)習(xí)的人工智能所構(gòu)建的評價系統(tǒng)超出了人類監(jiān)控能力,導(dǎo)致無法對智能評價系統(tǒng)的準確性、客觀性和公正性做出科學(xué)評判。人類有可能從最初的系統(tǒng)設(shè)計者,轉(zhuǎn)變?yōu)閷W(xué)習(xí)評價的旁觀者;而人工智能評價系統(tǒng)則可能成為教育的隱形操控者。學(xué)習(xí)評價活動成為智能評價系統(tǒng)獨立掌控的壟斷事務(wù),普通教師對學(xué)生的評價和學(xué)生的自評互評,因為過于“主觀”或者過于繁瑣而無奈讓位于高效的智能評價。但智能評價系統(tǒng)的設(shè)計往往無法完全反映教育目標,如同情心、正義感、批判性思維能力等素質(zhì)指標。這種狹隘的智能評價系統(tǒng)一旦取代人類成為學(xué)習(xí)的評價者,教育將面臨被異化的風(fēng)險。
智能學(xué)習(xí)系統(tǒng)往往內(nèi)置評價系統(tǒng),在評價系統(tǒng)研發(fā)和測試階段往往需要教師的參與,把符合時代要求的評價思想融入評價模型,由信息技術(shù)專家將教學(xué)評價思想轉(zhuǎn)化為一串串代碼,最終實現(xiàn)學(xué)生學(xué)習(xí)行為的智能化評價。由此帶來的一個重要轉(zhuǎn)變就是教師職能的弱化。正常使用的智能評價系統(tǒng)已經(jīng)具備了全自動的評價流程,不需要教師的介入,教師失去話語權(quán),師生關(guān)系可能會逐漸淡化。雖然人機交互的自主學(xué)習(xí)模式已逐漸成為學(xué)校教育的重要輔助力量,但人工智能技術(shù)目前還不能完全模擬教師在教育中的情感職能。師生之間和生生之間融洽的人際關(guān)系對學(xué)生未來成長至關(guān)重要,去教師化的智能評價系統(tǒng)很難實現(xiàn)如人類之間的直接情感交流,由此可能導(dǎo)致學(xué)生的情感缺失和性格障礙,不利于學(xué)生的人際交往能力發(fā)展[12]。
新時期我國陸續(xù)發(fā)布的重大教育政策已經(jīng)明確了綜合素質(zhì)的重要性。國家近幾年大力推進的新高考改革方案加強了對學(xué)生核心價值和綜合能力的考核,并將綜合素質(zhì)評價作為高考錄取的重要參考。2020年10月,中共中央、國務(wù)院印發(fā)了《深化新時代教育評價改革總體方案》,要求“改革學(xué)生評價,促進德智體美勞全面發(fā)展”[13],探索通過信息化等手段記錄學(xué)生品行等日常表現(xiàn),并納入學(xué)生綜合素質(zhì)評價。這些都表明綜合素質(zhì)評價日益凸顯的重要性和創(chuàng)新評價手段的緊迫性。但目前的評價手段多為主觀評價,難以保證綜合素質(zhì)評價結(jié)果的客觀性和準確性。同時,利用過程數(shù)據(jù)進行的綜合素質(zhì)評價也面臨挑戰(zhàn)。首先,人們對綜合素質(zhì)的理解和界定存在一定的差異,對學(xué)習(xí)者的技能、信念、毅力、情感、態(tài)度等特質(zhì)尚缺乏清晰的界定和明確的維度,因而難以準確測量和評估。其次,在綜合素質(zhì)評價建模過程中,存在大量無標注數(shù)據(jù)。缺乏語義標簽的數(shù)據(jù)很難用于模型的構(gòu)建、訓(xùn)練和完善[14]。造成這一困難的原因在于相關(guān)實證研究的不足。墨爾本大學(xué)教育學(xué)院評價研究中心的桑德拉等認為,缺乏有效的實證研究數(shù)據(jù),就無法定義學(xué)習(xí)過程中學(xué)生的各項素質(zhì),難以實現(xiàn)學(xué)習(xí)評價的效度、效用和解釋力[15]??梢?,對學(xué)習(xí)過程要素進行明確的定義是構(gòu)建測量模型的關(guān)鍵步驟,而要對學(xué)習(xí)過程所涉及要素進行確切定義,只能依靠大量的實證研究。
傳統(tǒng)的學(xué)習(xí)評價目標較為單一,數(shù)據(jù)采集方式也較為簡單,評價內(nèi)容主要涉及課程學(xué)習(xí)本身,較少大規(guī)模采集學(xué)生的行為、情感或其他個人信息。因此,在傳統(tǒng)評價體系中,學(xué)生個人隱私泄露風(fēng)險和潛在危害較小。但隨著人工智能技術(shù)的介入,學(xué)生行為數(shù)據(jù)的實時采集成為現(xiàn)實。學(xué)生的日常學(xué)習(xí)行為,包括學(xué)習(xí)平臺登錄次數(shù)、使用資源情況、在線學(xué)習(xí)時長、作業(yè)提交情況等都被記錄在案。通過攝像頭和智能便攜設(shè)備,學(xué)生的地理位置、社交偏好、表情變化、運動和睡眠時長等私密性數(shù)據(jù)也可以實時記錄和查詢。在符合倫理并遵守法律的前提下合理使用這些數(shù)據(jù),可以極大地提高學(xué)習(xí)評價的準確性和客觀性,甚至可以幫助教師描繪出學(xué)生學(xué)習(xí)的數(shù)字全景圖,為客觀評價提供可靠的數(shù)據(jù)支持。但學(xué)生隱私數(shù)據(jù)實時采集往往伴隨著倫理和法律風(fēng)險。人工智能技術(shù)使學(xué)生可以被當作實驗對象時時處處暴露在放大鏡下等待評判,這種評價系統(tǒng)忽略了學(xué)生作為人的基本權(quán)利,違背了教育評價的本意。沒有約束的智能評價系統(tǒng)極有可能淪為“課堂間諜”[16],對學(xué)生的個人隱私構(gòu)成極大威脅。許多智能系統(tǒng)基于云端建設(shè),更增加了隱私數(shù)據(jù)濫用的潛在風(fēng)險。
傳統(tǒng)的學(xué)習(xí)評價方式以終結(jié)性評價為主,簡單易行,成本較低。即使采用形成性評價,教師也只是把評價過程粗略劃分為幾個大的類別,數(shù)據(jù)采集量不大,對數(shù)據(jù)處理能力要求不高。因此,傳統(tǒng)評價方式投入的人工和經(jīng)濟成本相對較低。與之相反,智能評價系統(tǒng)開發(fā)費用較高,且管理運行也需要較高的技術(shù)要求和成本投入。構(gòu)建大規(guī)模智能評價系統(tǒng)的成本難以準確估算,但通過其他大型人工智能項目動輒數(shù)億美元的巨大投入來看,構(gòu)建和維護一個智能學(xué)習(xí)評價系統(tǒng)的費用也會相當高昂[2]。桑德拉等指出,構(gòu)建學(xué)習(xí)評價系統(tǒng)的測量模型成本較高,不僅耗時費力而且需要技術(shù)和設(shè)備支持,小規(guī)模應(yīng)用時經(jīng)濟性也很差[15]。同時,學(xué)習(xí)行為數(shù)據(jù)采集需要硬件設(shè)施的支持才能實現(xiàn)。傳統(tǒng)學(xué)校平臺的數(shù)據(jù)采集功能十分有限,無法收集到學(xué)生平臺之外的學(xué)習(xí)信息。智能便攜設(shè)備盡管可以滿足這一要求,但人人佩戴目前尚不現(xiàn)實。
智能評價系統(tǒng)應(yīng)該體現(xiàn)正確的教育價值判斷,否則人工智能技術(shù)不僅無助于學(xué)習(xí)評價,反而會造成嚴重誤導(dǎo)。在現(xiàn)有的智能評價系統(tǒng)尚不能對學(xué)生情感和綜合素質(zhì)等方面做出整體評價的情況下,人工評價仍不可缺席。智能評價和人工評價應(yīng)該形成互補關(guān)系,共同服務(wù)于學(xué)習(xí)評價。教師不能一味地將自己的評價者角色讓位于日漸強大的人工智能,也不可完全否定人工智能在重復(fù)性技能型工作方面的客觀性和專業(yè)性。學(xué)習(xí)評價不僅僅是對學(xué)習(xí)成績和行為數(shù)據(jù)的統(tǒng)計和比較,還應(yīng)涵蓋復(fù)雜的思維活動和細膩的情感活動。目前即使最先進的人工智能系統(tǒng)也無法完全模擬和評價人類的情緒、意志和語言表達。人類評價者的參與可以關(guān)照學(xué)生的情商和語商等多個評價維度[14],防止評價維度單一而導(dǎo)致的片面性。同時,學(xué)習(xí)者不論是作為獨立的學(xué)習(xí)個體還是相互聯(lián)系的集體成員,學(xué)習(xí)評價都應(yīng)該包含學(xué)習(xí)者本人的自我評價和同伴互評,而不應(yīng)當使學(xué)習(xí)評價成為智能學(xué)習(xí)系統(tǒng)的壟斷行為。
科學(xué)的評價模型是有效實施學(xué)習(xí)評價的關(guān)鍵一環(huán),也是目前大數(shù)據(jù)時代亟待攻克的難題。學(xué)界應(yīng)當加強與商界的合作,開發(fā)大規(guī)模適用的智能學(xué)習(xí)評價系統(tǒng)。因為大數(shù)據(jù)本身并不能自動呈現(xiàn)教育的真相,應(yīng)當把大數(shù)據(jù)變成可理解的小數(shù)據(jù),才能對學(xué)習(xí)狀況進行科學(xué)測量和評價,進而提供合理反饋,提高學(xué)習(xí)質(zhì)量。這需要本學(xué)科教師、評價研究者、人工智能和大數(shù)據(jù)工程師的有效協(xié)作和努力。因此在一定意義上,科學(xué)的評價模型是智能化學(xué)習(xí)評價的核心與關(guān)鍵[17]。當把學(xué)習(xí)測量和學(xué)習(xí)評價分開看待時,它們的再次結(jié)合就變得不那么自然而然,而是需要使預(yù)先建構(gòu)的測量模型與評價內(nèi)容相適應(yīng),即測量模型須涵蓋評價內(nèi)容且體現(xiàn)評價者的價值判斷。這就要求評價者明確學(xué)習(xí)評價的價值導(dǎo)向,在構(gòu)建測量模型時確定“影響學(xué)習(xí)評價質(zhì)量的關(guān)鍵性假設(shè),并對其逐一檢驗”[15]。
學(xué)習(xí)評價系統(tǒng)中的數(shù)據(jù)采集內(nèi)容能夠包括學(xué)生全部學(xué)習(xí)行為??纱┐髟O(shè)備、人臉識別、智慧校園監(jiān)控等大量數(shù)據(jù)采集設(shè)備的應(yīng)用使學(xué)生時時刻刻都處在“第三只眼”的注視之下,毫無隱私可言。所收集到的數(shù)據(jù)如何管理一直是嚴肅的倫理問題。人工智能在教育應(yīng)用中的倫理風(fēng)險主要在于設(shè)計開發(fā)和實踐應(yīng)用兩個環(huán)節(jié)[11]。學(xué)習(xí)評價系統(tǒng)的設(shè)計人員在開發(fā)之初除了要有明確的教育價值理念指導(dǎo)之外,還要有嚴格的倫理規(guī)范作為約束。因此,制定符合社會倫理和技術(shù)倫理的制度規(guī)約是對學(xué)生學(xué)習(xí)行為數(shù)據(jù)進行管理、使用和保護的制度保障。在有效的倫理框架下開展學(xué)習(xí)行為評價,才能最大限度地保障學(xué)生權(quán)利,促進學(xué)生健康發(fā)展。在具體評價過程中,評價者能否遵守評價倫理制度需要由政策和法規(guī)加以強制約束。評價行為必須在法規(guī)框架內(nèi)進行,違反倫理法規(guī),侵犯、泄露、傳播學(xué)生隱私的行為應(yīng)受到法律制裁。學(xué)生提出質(zhì)疑或?qū)﹄[私有爭議時,應(yīng)該首先暫停數(shù)據(jù)采集,在獲得學(xué)生或家長同意之后,才能繼續(xù)使用。學(xué)生、家長和學(xué)校共同擁有學(xué)習(xí)數(shù)據(jù)的所有權(quán)和使用權(quán)。只有制定完整的隱私和倫理制度的具體規(guī)約,智能學(xué)習(xí)評價才能在更大規(guī)模上健康發(fā)展。
在我國現(xiàn)行的教育體制下,由政府推動的自上而下的評價模式改革更容易取得成效。除了加大研發(fā)和推廣的投入以外,政府應(yīng)順應(yīng)智能時代的發(fā)展趨勢,繼續(xù)強化政策導(dǎo)向,具體落實教育評價改革。事實上,我國已經(jīng)發(fā)布了若干政策文件,大力推動人工智能學(xué)習(xí)評價的落實。其中,2020年發(fā)布的《深化新時代教育評價改革總體方案》就指明了落實教育評價改革的創(chuàng)新路徑,強調(diào)充分利用“人工智能、大數(shù)據(jù)等現(xiàn)代信息技術(shù),探索開展學(xué)生各年級學(xué)習(xí)情況全過程縱向評價、德智體美勞全要素橫向評價”,“提高教育評價的科學(xué)性、專業(yè)性、客觀性”[13]。以此為導(dǎo)向,教育主管部門可結(jié)合人工智能、大數(shù)據(jù)和區(qū)塊鏈技術(shù)嘗試建立區(qū)域性乃至全國性的權(quán)威智能評價系統(tǒng),向所有學(xué)校開放,統(tǒng)一管理。這樣可以降低小規(guī)模開發(fā)和應(yīng)用造成的重復(fù)建設(shè)和資源浪費;也可以避免由于學(xué)校之間數(shù)據(jù)格式和評價標準的不統(tǒng)一,而無法橫向比較的弊端。
綜上所述,智能學(xué)習(xí)評價是新時期教育評價改革的重要組成部分,是智能時代 “識才”“育才”“選才”的重要手段。智能學(xué)習(xí)評價系統(tǒng)構(gòu)建過程中,探索智能評價建模方法和關(guān)鍵技術(shù)、正確處理智能評價和人工評價的關(guān)系、制定保護隱私合乎倫理的政策法規(guī)、注重頂層設(shè)計和基層建設(shè)的結(jié)合,既是實現(xiàn)智能學(xué)習(xí)評價的保證,也是教育改革的要求。