馬云云 劉新平
中共中央、國務(wù)院于2020年10月頒發(fā)了《深化新時代教育評價改革總體方案》,這是新中國第一個以中央名義下發(fā)的關(guān)于教育評價的文件,方案中明確要求:扭轉(zhuǎn)不科學(xué)的教育評價導(dǎo)向,堅決克服唯分?jǐn)?shù)、唯升學(xué)、唯文憑、唯論文、唯帽子的頑瘴痼疾??梢?,有關(guān)教育評價的改革及探索已成為全國教育界,特別是中小學(xué)關(guān)注的熱點。隨著大數(shù)據(jù)、人工智能技術(shù)的發(fā)展,教育評價必將轉(zhuǎn)向以服務(wù)為導(dǎo)向,智能化為特征的第五代變革,強(qiáng)化傳統(tǒng)評價功能,引領(lǐng)學(xué)生學(xué)習(xí)、教師教學(xué)、學(xué)校管理等向立體化評價過渡,即教師和學(xué)生不同學(xué)段學(xué)習(xí)、教學(xué)全過程的縱向評價,學(xué)生德智體美勞全要素的橫向評價,從而使教育評價更全面、更客觀、更科學(xué)。
方案中強(qiáng)調(diào),堅持把立德樹人作為根本標(biāo)準(zhǔn),突出評價的教育作用,突出評價的推動作用,突出評價的導(dǎo)向作用,突出評價的貫通作用。“改革學(xué)生評價”不僅僅是“改革學(xué)習(xí)評價”的一字之差,內(nèi)涵、外延和價值取向都相去甚遠(yuǎn)。
一、教育評價理論與方法概述
教育評價是當(dāng)今教育科學(xué)研究三大領(lǐng)域之一,是教育科學(xué)研究的方法論基礎(chǔ),是數(shù)量化方法在教育科學(xué)研究的直接滲透,是教育工作者,特別是中小學(xué)教育教學(xué)管理干部、教師必備的一種重要科學(xué)工具。
隨著中小學(xué)教育教學(xué)改革及教育科學(xué)研究,尤其是教育教學(xué)實驗及各類考試研究的不斷深入,教育評價理論和方法已列為各類中小學(xué)教師及教育教學(xué)管理干部培訓(xùn)的重要方面。通過全國許多省份中小學(xué)教師及教育教學(xué)管理干部舉辦的各類有關(guān)教育評價理論與方法的培訓(xùn),起到了很好的效果。教育評價理論包含三個學(xué)科:教育統(tǒng)計學(xué)、教育測量學(xué)、教育評價學(xué)。
“教育統(tǒng)計學(xué)”是運用數(shù)理統(tǒng)計方法去研究教育對象的一門應(yīng)用學(xué)科,研究如何收集、整理、分析、推斷教育現(xiàn)象中的數(shù)據(jù)。教育學(xué)與心理學(xué)中許多問題借助于統(tǒng)計學(xué)都可以予以量化,從而揭示教育規(guī)律和心理規(guī)律,這對改進(jìn)中小學(xué)教育教學(xué)管理干部的管理水平、培養(yǎng)中小學(xué)教師教育的科研能力、正確開展教育與心理實驗和提高教學(xué)質(zhì)量和實際工作效率都將是十分必要的。這門學(xué)科形成于20世紀(jì)初的美國,辛亥革命后傳入我國,被列為師范院校必修課程。20世紀(jì)20年代以后,這門學(xué)科主要處于描述性階段,即以圖表、計算均值、標(biāo)準(zhǔn)差、相關(guān)系數(shù)等描述收集到的數(shù)據(jù);20世紀(jì)40年代以后,隨著教育科學(xué)本身及統(tǒng)計學(xué)的進(jìn)一步發(fā)展,用抽樣的辦法,通過部分?jǐn)?shù)據(jù)的研究以最大的把握性來對整體的某些特征進(jìn)行統(tǒng)計推斷。20世紀(jì)60年代以后,隨著計算機(jī)的普及,人們從多方位、多指標(biāo)、多維度去分析教育現(xiàn)象,從而使教育統(tǒng)計已不限于簡單的描述性和推斷性統(tǒng)計,而是擴(kuò)充到與多元分析等許多新興學(xué)科相結(jié)合的綜合方向上,所涉及的工具更具多樣化、系統(tǒng)化。
“教育測量學(xué)”是依照某種法則,運用統(tǒng)計的工具,通過測驗對教育現(xiàn)象的屬性化性質(zhì)予以量化形成的學(xué)科。具體來說,隨著中高考及學(xué)校各類考試制度的逐步完善,運用教育測量的方法對中高考命題、施測、評卷、分?jǐn)?shù)報告及錄取的科學(xué)化分析取得了積極的進(jìn)展。其測評的方法也日趨多樣化、系統(tǒng)化,考試作為教育工作的重要環(huán)節(jié),中小學(xué)教師掌握考試命題技術(shù)、考試設(shè)計,運用 “四度”(難度、區(qū)分度、信度、效度)進(jìn)行考試質(zhì)量分析,已成為中小學(xué)教育教學(xué)改革的重要方面。
“教育評價學(xué)”是運用教育統(tǒng)計工具對測量結(jié)果的科學(xué)評判,如中小學(xué)教育工作的檢查和評定,教師的教學(xué)質(zhì)量和教材水平的評議,以及學(xué)生學(xué)業(yè)成就、智能水平、品德行為的評定等都要應(yīng)用教育評價的理論和方法。廣義的教育評價包括對教育活動的一切方面的評價,狹義的教育評價主要是對教學(xué)方面,特別是對學(xué)生學(xué)習(xí)質(zhì)量進(jìn)行評價。
隨著2022年4月義務(wù)教育新課標(biāo)的頒布,對當(dāng)前中小學(xué)課堂教學(xué)改革提出了更高的要求,“教學(xué)評”一體化已成為常規(guī),也是學(xué)校落實基于新課標(biāo)下教學(xué)改革的重點。從評價方式來看,在“形成性評價”基礎(chǔ)上發(fā)展起來的“學(xué)習(xí)性評價”“增值評價”正在中小學(xué)課堂評價中實踐,對促進(jìn)和幫助學(xué)生高效學(xué)習(xí)起到了極大的推動作用。
教育統(tǒng)計、教育測量與教育評價相對獨立,但又有一定聯(lián)系,教育統(tǒng)計是工具,教育測量是手段,教育評價是對教育測量結(jié)果的科學(xué)評判。20世紀(jì)60年代以后,隨著現(xiàn)代科學(xué)技術(shù)向現(xiàn)代教育科學(xué)研究領(lǐng)域的輻射、滲透和交叉,人們越來越多地使用了與現(xiàn)代教育研究方法相適應(yīng)的各種統(tǒng)計測評方法的拓廣和延伸。例如,在經(jīng)典測量理論(CTT)基礎(chǔ)上發(fā)展起來的題目反應(yīng)理論(IRT)等。評價方法已從多方位、多指標(biāo)、多維度的時空動態(tài)模式上去探討、去分析,使教育統(tǒng)計、測量及評價方法由簡單的、直觀的描述性方法和一元統(tǒng)計推斷方法擴(kuò)充到了與多元統(tǒng)計分析等諸多新興應(yīng)用學(xué)科相結(jié)合的綜合方向上。
二、教育評價理論與方法的實踐和探索
1.教育統(tǒng)計與測評用于教育教學(xué)管理
教育統(tǒng)計與測量是實現(xiàn)教育教學(xué)管理科學(xué)化、現(xiàn)代化的重要工具。近年來,隨著教育教學(xué)管理定量化研究的不斷深入,人們越來越多地認(rèn)識到教育教學(xué)管理作為一個系統(tǒng)其運動和變化的某種量的規(guī)律。如對于學(xué)校管理的重要環(huán)節(jié)教學(xué)和學(xué)生工作,利用統(tǒng)計模型探索出一套切合實際的工作程序。只有根據(jù)統(tǒng)計、測量提供的數(shù)據(jù),教育教學(xué)管理部門才能心中有數(shù),準(zhǔn)確客觀地分析出學(xué)校教育教學(xué)的基本情況,獲得指導(dǎo)管理工作的客觀依據(jù)。同時,結(jié)合定性化的分析,提出改進(jìn)的方法和措施。又如中小學(xué)教育評估問題,近年來我們經(jīng)常使用因素分析、聚類分析等方法建立評估模型;再如學(xué)生能力的評估,我們利用近鄰判別分析的方法建立學(xué)生的能力類別等,為社會輸送人才提供可供選擇的工作種類。
2.教育統(tǒng)計與測評用于高考命題研究
隨著高中新課程標(biāo)準(zhǔn)實施,依據(jù)國務(wù)院《關(guān)于深化考試招生制度改革實施意見》《深化新時代教育評價改革總體方案》以及《中國高考評價體系和說明》的要求,依據(jù)教育測量學(xué)基本理論,在高考命題中應(yīng)遵循以下基本原則,總體要求:深化高考內(nèi)容改革,堅持立德樹人,服務(wù)選拔,導(dǎo)向教學(xué),加強(qiáng)全面考查和引導(dǎo),增強(qiáng)基礎(chǔ)性、綜合性,優(yōu)化情境設(shè)計,增強(qiáng)試題開放性、靈活性,減少死記硬背,機(jī)械刷題,落實“重思維、重應(yīng)用、重創(chuàng)新”,使高考由“解答問題”向“解決問題”轉(zhuǎn)化。(1)考試設(shè)計要求:含題型設(shè)計、題量設(shè)計、考試目標(biāo)設(shè)計、試卷編制、命題細(xì)目表要求(兩個維度,一個配分),題型主客觀題按各科要求確定,題量一般控制在考生思考時間與答卷書寫時間為2∶1。(2)命題模式評價:除應(yīng)符合學(xué)生發(fā)展(育人方面的反映和表現(xiàn)),還應(yīng)體現(xiàn)反饋和修正(每套模擬試題考試結(jié)束后征集專家研討,聽取實踐主體學(xué)校教師、學(xué)生的意見和反饋信息),從而及時修正。(3)試卷“四度”要求:每套試卷具有較高信度、效度,必要的區(qū)分度和適當(dāng)?shù)碾y度。首先,命題具有較高信度(可信性、一致性程度,取值0-1之間),效度(有效性、準(zhǔn)確性程度,取值0-1之間,也可用定性內(nèi)容效度予以衡量)。其次,必要的區(qū)分度(區(qū)分鑒別能力的數(shù)量指標(biāo)),注意是必要的(這是由高考的選拔性、屬性來考慮的);適當(dāng)?shù)碾y度,注意是適當(dāng)?shù)模ㄐ赂呖几母飶?qiáng)調(diào)適當(dāng)降低難度),從測量學(xué)理論,一般整卷平均難度達(dá)到0.5即能保持最大的區(qū)分度,但從強(qiáng)調(diào)必要的區(qū)分度考慮,難度控制在0.6-0.65之間,不同的模擬試卷(三套)難度分別控制在0.65、0.62、0.6,以便于及時修正和調(diào)控。(4)命題考查目標(biāo):強(qiáng)調(diào)“必備知識、關(guān)鍵能力、學(xué)科素養(yǎng)、核心價值”,這一目標(biāo)較傳統(tǒng)的布魯姆考查目標(biāo)(識記、領(lǐng)會、綜合、分析、應(yīng)用、評價)有更深層次的內(nèi)涵和拓展。(5)體現(xiàn)新課改要求:命題既重視知識與技能,更重視過程與方法、情感與價值觀,從而引導(dǎo)教師的教學(xué)注重過程。(6)命題內(nèi)容維度:以“四層考查”(必備知識、關(guān)鍵能力、學(xué)科素養(yǎng)、核心價值)為目標(biāo),以“四翼考查”(基礎(chǔ)性、綜合性、應(yīng)用性、創(chuàng)新性)為基準(zhǔn)。(7)命題遵循原則:入門寬,深入難,開口大,出口小,主要是從區(qū)分度角度考慮,除了試題易、中、難比例(0.3、0.5、0.2),文理科略有差異,除難度的坡度設(shè)計外,每道題難度的起點一般不要太高,這就是入門寬,開口大,但進(jìn)入試題后不易,這就是深入難,出口小。
3.教育統(tǒng)計與測評用于各級各類學(xué)校試題試卷分析
各級各類學(xué)??荚嚨脑嚲矸治鲆彩切聲r代教育評價的重要內(nèi)容之一,科學(xué)地進(jìn)行試卷分析能夠有效地提高教育教學(xué)質(zhì)量。試卷分析通常有定性分析和定量分析,經(jīng)典教育測量理論(CTT)和方法通常用于定量分析,以“四度”(信度、效度、難度、區(qū)分度)為工具進(jìn)行考試質(zhì)量分析,已廣泛應(yīng)用于各類試卷的分析中,陜西師范大學(xué)通過對2021級教育碩士、師范類專業(yè)本科生有目標(biāo)地進(jìn)行培訓(xùn)后,撰寫了100多篇有關(guān)中小學(xué)的試題試卷分析報告,極大地提高了學(xué)生學(xué)習(xí)教育評價相關(guān)理論的積極性,西安醫(yī)學(xué)院、陜西師范大學(xué)、西安翻譯學(xué)院等單位應(yīng)用教育測量方法制定了試題試卷分析模板,通過對全校各學(xué)科期末考試的試卷分析,對促進(jìn)教育教學(xué)起到一定的推動作用,陜西省教育考試院利用試題試卷分析模版對每年高考、學(xué)業(yè)水平考試數(shù)據(jù)進(jìn)行統(tǒng)計分析,對考生和學(xué)校提供了有價值的參考。
三、當(dāng)今教育評價領(lǐng)域有待進(jìn)一步探討的問題
1.教育統(tǒng)計與測評課程建設(shè)
教育統(tǒng)計與測評作為一門教育類學(xué)科的重要課程,目前已廣泛在高校相關(guān)專業(yè)“教育學(xué)、心理學(xué)、小學(xué)教育、學(xué)前教育以及師范類各專業(yè)”的研究生、本科、??茖W(xué)生中開設(shè),并對各類中小學(xué)、幼兒園教育管理干部、教師進(jìn)行培訓(xùn)。陜西師范大學(xué)研究生教改項目《教育統(tǒng)計與測評課程建設(shè)及在研究生教育教學(xué)實踐中的應(yīng)用》已完成了“教育統(tǒng)計與測評”教學(xué)大綱的修訂意見,教學(xué)大綱、課程目標(biāo)達(dá)成評價分析報告,教學(xué)進(jìn)度及開課計劃等,無疑對這門課程的建設(shè)起到了積極的推動作用。
根據(jù)新時代教育評價理論,重新修訂的“教育統(tǒng)計與測評教學(xué)大綱,課程目標(biāo)達(dá)成評價分析報告”等較為系統(tǒng)地架構(gòu)了課程從理論、方法到實踐的各個環(huán)節(jié),結(jié)合新時代教育評價特點,在原有課程的基礎(chǔ)上,以劉新平、張運良主編的《教育統(tǒng)計與測評導(dǎo)論》(第三版)為教材版本,增加了多元、多層次教育統(tǒng)計分析,增值評價及各類中小學(xué)質(zhì)量檢測分析案例和部分理論與應(yīng)用研究成果,豐富了課程的資源,為各專業(yè)開設(shè)這門課程提供了有力支撐。通過對陜西師范大學(xué)來自全國各地中小學(xué)在職教師(教育碩士)(共11屆3000余人)開設(shè)“教育測量與評價”課程及實踐活動,有力地推動了教育評價理論和方法在中小學(xué)的實踐和應(yīng)用。
2.教育評價理論與方法的普及
教育統(tǒng)計與測評作為教育科學(xué)研究的方法論基礎(chǔ)有較強(qiáng)的實踐應(yīng)用背景,作為數(shù)量化方法的滲透,要有一定的數(shù)學(xué)及統(tǒng)計學(xué)基礎(chǔ),特別是教育評價已在大中小學(xué)及教科研機(jī)構(gòu)得到的廣泛關(guān)注,故這一領(lǐng)域的普及工作就顯得尤為重要,陜西省教育考試與評價研究會作為陜西省內(nèi)唯一的專業(yè)研究會,自2002年正式成立以來,至目前,研究會在高等教育、基礎(chǔ)教育、民辦教育、學(xué)前教育、職業(yè)教育等各個領(lǐng)域,通過各類課題、項目、講座、培訓(xùn)、研討等,為全省教育評價的普及工作起到了積極的推動作用,建議有條件的單位,特別是中小學(xué)組建相應(yīng)的教育評價研究中心或教育質(zhì)量監(jiān)測中心,集中或分散開展教育評價基礎(chǔ)知識的培訓(xùn),以適應(yīng)新時代教育評價的要求,這對于落實中央“深化新時代教育評價改革整體方案”具有重要意義。
3.教育評價實踐基地建設(shè)
按照中央“深化教育評價改革總體方案”以及破“五唯”精神,在普及教育測評的基礎(chǔ)上,加強(qiáng)教育測評實踐基地建設(shè)勢在必行,在高校普遍開設(shè)教育統(tǒng)計與測評課的同時,根據(jù)各中小學(xué)實際,組織學(xué)生利用寒暑假到實踐基地予以鍛煉,幫助學(xué)校進(jìn)行教育測評基礎(chǔ)知識培訓(xùn),既能提升學(xué)生實施教育評價的能力,又能對學(xué)校教育測評工作提供幫助(如高中考命題指導(dǎo)、學(xué)生生涯規(guī)劃、學(xué)校教育教學(xué)質(zhì)量監(jiān)測、試題試卷分析等),幫助學(xué)校完成教育評價研究課題,學(xué)生教育測評能力有了顯著提高,通過對西安市八十三中、陜西白河高級中學(xué)、陜西漢中龍崗中學(xué)、西安高新第一學(xué)校、漢中中學(xué)、武功觀音堂九年制學(xué)校等調(diào)查反饋,建議有條件的大學(xué)在完成教育統(tǒng)計與測評課程的同時,有針對性地在中小學(xué)建立實踐基地,這有助于教育評價的各項舉措落到實處。
展望未來,自中共中央、國務(wù)院2020年頒布《深化新時代教育評價改革總體方案》以來,教育評價已引起教育界的極大關(guān)注。教育評價已上升為政府主導(dǎo)下,引領(lǐng)教育教學(xué)改革與發(fā)展的政策導(dǎo)向,教育評價正呈現(xiàn)立體化(全過程的縱向評價、全要素的橫向評價)發(fā)展的趨勢。近期教育部印發(fā)了普通高中辦學(xué)質(zhì)量評價指南,進(jìn)一步明確了評價的主要內(nèi)容,加快建立以發(fā)展素質(zhì)教育為導(dǎo)向的普通高中學(xué)校辦學(xué)質(zhì)量評價體系,全面提高普通高中辦學(xué)質(zhì)量的格局正在逐步形成,這為新時代教育評價理論及其應(yīng)用指明了方向?;诮逃y(tǒng)計測評模型的教育實證研究、基于大數(shù)據(jù)的評價模型的逐步建立等,教育評價創(chuàng)新塑造教育未來的局面必將打開。
作者單位 延安大學(xué)西安創(chuàng)新學(xué)院? ?陜西師范大學(xué)