朱哲民 孔祥一
2020 年《深化新時代教育評價改革總體方案》提出,堅持科學(xué)有效,改進結(jié)果評價,強化過程評價,探索增值評價,健全綜合評價,充分利用信息技術(shù),提高教育評價的科學(xué)性、專業(yè)性、客觀性。[1]新時代的學(xué)業(yè)質(zhì)量監(jiān)測要以學(xué)生能力發(fā)展為觀測對象,根據(jù)學(xué)生的學(xué)業(yè)水平變化全面細致地診斷學(xué)情,查找教學(xué)的薄弱環(huán)節(jié),明確學(xué)生的學(xué)情弱點,通過增值評價促進教師的教與學(xué)生的學(xué)。
增值一詞源自經(jīng)濟領(lǐng)域,指產(chǎn)出與投入相比之后增加的部分。在教育學(xué)中,增值評價又稱成長評價,是對學(xué)生、教師或?qū)W校一段時間的進步進行測評,目前的增值評價研究集中于學(xué)業(yè)增值評價。傳統(tǒng)學(xué)業(yè)質(zhì)量評價多通過測驗分數(shù)衡量學(xué)生在學(xué)科整體以及各個維度的表現(xiàn),是對學(xué)生一個階段學(xué)習(xí)情況的檢測與總結(jié),本質(zhì)上是一種結(jié)果評價。與結(jié)果評價不同,增值評價著眼于學(xué)生學(xué)業(yè)水平的進步,而非學(xué)業(yè)成績排名。學(xué)業(yè)增值評價可以分為兩種情況:第一種是以學(xué)段為對象進行縱向增值評價,即對不同年份同一年級的學(xué)業(yè)質(zhì)量進行追蹤,如對每一屆的小學(xué)畢業(yè)生進行增值評價,尋找各屆學(xué)生學(xué)業(yè)水平差異及整體變化趨勢;第二種是以學(xué)生為對象進行學(xué)業(yè)水平追蹤,通過對同一批學(xué)生的持續(xù)追蹤獲取學(xué)生個體學(xué)業(yè)水平的增值信息,為教師客觀細致地了解學(xué)生學(xué)業(yè)水平變化提供依據(jù)。
增值評價不能簡單地理解為學(xué)生兩次學(xué)業(yè)分數(shù)的差值,也不能單純地使用分數(shù)變化評價學(xué)生的學(xué)業(yè)水平。使用增值評價必須對兩次測試進行等值處理,把兩次測試成績轉(zhuǎn)化到一個量尺上。基于分數(shù)的等值可以使用平均分等值法,即第二次考試的轉(zhuǎn)化分數(shù)=第二次考試的原始分數(shù)+(第一次考試的平均分數(shù)-第二次考試的平均分數(shù))?;诜謹?shù)的等值技術(shù)其實并不理想,一方面,為了評分方便,同一題型(如選擇題)無論難易如何賦分皆相同,不能準確描述學(xué)生能力水平;另一方面,學(xué)生的總分由不同題型獲得的分數(shù)相加而成,相當于默認不同題型中的“1 分”等值。這種刨除題目特征的計分方式雖然簡易但并不合理。分數(shù)本質(zhì)是一種有序變量,它只能對學(xué)生排序,不能全面反映學(xué)生的能力水平。此外,傳統(tǒng)考試的難度和區(qū)分度依賴于學(xué)生水平,這導(dǎo)致不同年份間學(xué)生水平的縱向?qū)Ρ群茈y進行等值化處理,不利于教育行政部門監(jiān)測學(xué)生學(xué)業(yè)水平的變化。綜上,本研究認為學(xué)業(yè)增值評價應(yīng)傾向于使用項目反應(yīng)理論(item response theory,IRT)。
IRT 是研究被試潛在特質(zhì)(能力)和項目參數(shù)之間反應(yīng)關(guān)系的測量理論,也是現(xiàn)今最先進、最年輕的教育測量理論。IRT 的優(yōu)勢在于首先它利用統(tǒng)計方法分析學(xué)生在考試中的反應(yīng),獲知學(xué)生的能力水平而非分數(shù),滿足克服唯分數(shù)的要求;其次,IRT 獲得的題目難度和題目區(qū)分度具有線性不變性(linear invariance),滿足等值轉(zhuǎn)換中唯一性、公平性、對稱性的要求,可以科學(xué)方便地完成不同考試間的等值轉(zhuǎn)換,便于對學(xué)生進行縱向研究。而經(jīng)典等值理論所認定的等值轉(zhuǎn)換關(guān)系,是假設(shè)能夠存在而不是必然能夠具有的。[2]因此,IRT 已逐漸成為目前學(xué)業(yè)質(zhì)量監(jiān)測的主要工具,也是進行分數(shù)等值轉(zhuǎn)換的理想工具。
等值轉(zhuǎn)換技術(shù)分為兩類,一類是“錨人”,即讓一組人接受不同的測驗版本,另一類是“錨題”,即不同測驗中含有共同的題目。對某一學(xué)段進行縱向增值評價可以采用“錨題”的方式進行鏈接??梢赃x用的IRT 等值方法包括Mean/Mean(MM)、Mean/Sigma(MS)和Stocking-Lord(SL)等多種方法,使用R程序包equateIRT①通過convert命令可以利用轉(zhuǎn)換系數(shù)把第一次測試的題目參數(shù)和學(xué)生能力轉(zhuǎn)換到第二次考試所對應(yīng)的量尺上。也可以使用chainec命令獲取轉(zhuǎn)換系數(shù),然后手動計算題目參數(shù),最后計算學(xué)生第二次的能力水平。
在對同一批學(xué)生的學(xué)習(xí)質(zhì)量進行追蹤時,基于IRT 的能力值可以不經(jīng)過分數(shù)轉(zhuǎn)換直接使用。這是因為IRT 假設(shè)學(xué)生能力屬于標準正態(tài)分布,實際操作中當樣本量較大時,可以認為學(xué)生的總體分布不存在較大差異。換言之,對于同一批學(xué)生,可以假設(shè)其總體能力分布不會隨著時間變化而變化。但個體能力在同一總體中的位置會產(chǎn)生變化,這一變化可以通過能力差進行衡量。
在參考國內(nèi)外關(guān)于學(xué)業(yè)質(zhì)量監(jiān)測的基礎(chǔ)上,筆者構(gòu)建了基于IRT 的數(shù)學(xué)學(xué)業(yè)監(jiān)測的流程化操作思路。(如圖1 所示)
圖1 基于IRT的數(shù)學(xué)學(xué)業(yè)監(jiān)測的流程化操作思路
基于兩次或多次學(xué)業(yè)考試中學(xué)生的能力差可以標定學(xué)生能力的變化,依據(jù)不同群體中學(xué)生在不同維度題目中體現(xiàn)的能力變化撰寫增值評價報告。增值評價報告可以分為兩類,一類是給教育行政部門的學(xué)生整體評價報告,一類是給教師和學(xué)生的個體評價報告。在新時代教育評價中,兩類報告都屬于診斷報告而非總結(jié)報告。面向教育行政部門的增值評價報告可以包括學(xué)生整體能力的變化,如學(xué)生能力均值、中位數(shù)、方差、百分位數(shù)等數(shù)據(jù)變化,學(xué)生在各子維度上的能力變化情況,學(xué)生能力存在差異的群體類別,存在中等以上差異的特定群體的能力變化情況等,以及根據(jù)這些信息提供的有針對性的意見。面向教師和學(xué)生的個體增值評價報告關(guān)注每位學(xué)生個體的能力變化,針對學(xué)生所屬的群體和個體在不同維度上的能力表現(xiàn)提供可視化數(shù)據(jù)圖表,建議使用表格和雷達圖相結(jié)合的形式制作個體增值評價報告。
2021 年,《義務(wù)教育質(zhì)量評價指南》正式發(fā)布,其中,縣域義務(wù)教育質(zhì)量評價指標體系針對“唯分數(shù)、唯升學(xué)”的傾向,提出了“不單純以升學(xué)率評價學(xué)校、校長和教師”的考查要點等,這為增值評價提供了土壤。但我國縣域教育工作者普遍缺乏教育測量技術(shù)的專業(yè)訓(xùn)練。為指導(dǎo)縣域教師學(xué)習(xí)增值評價技術(shù),科學(xué)測評縣域?qū)W生數(shù)學(xué)學(xué)業(yè)現(xiàn)狀,本研究項目組帶領(lǐng)一線教師對吉林省某縣的2020 屆六年級畢業(yè)生學(xué)業(yè)現(xiàn)狀進行調(diào)查。
傳統(tǒng)教育測量多通過總分判斷學(xué)生的學(xué)業(yè)水平,但現(xiàn)代研究傾向于建立多維度指標細化學(xué)生能力水平?;A(chǔ)知識、基本技能、基本思想和基本活動經(jīng)驗構(gòu)成的“四基”是發(fā)展學(xué)生核心素養(yǎng)的有效載體[3],本研究依據(jù)“四基”構(gòu)建試題評價的知識、技能、思想維度,參考《義務(wù)教育數(shù)學(xué)課程標準(2022 年版)》[4](以下簡稱《課程標準》)用認知維度替代不易測量的基本活動經(jīng)驗,形成數(shù)學(xué)試題評價的知識、認知、思想、技能四大維度,其具體指標劃分如下?!墩n程標準》中的數(shù)學(xué)課程內(nèi)容包括“數(shù)與代數(shù)”“圖形與幾何”“統(tǒng)計與概率”“綜合與實踐”4 個學(xué)習(xí)領(lǐng)域[4],本研究據(jù)此設(shè)計知識維度的評價指標。參照《課程標準》[4]對探索的解釋以及已有研究[5]對應(yīng)用和推理的定義,本研究構(gòu)建了認知維度以及了解、理解、應(yīng)用、探究4 個子維度。史寧中教授提出,數(shù)學(xué)基本思想包括抽象、推理、模型[6],為后續(xù)表達建模能力時更加清晰,本研究將“模型”調(diào)整為“建?!?,形成思想維度及其抽象、推理、建模3 個子維度。運算能力、空間想象能力、邏輯思維能力是數(shù)學(xué)的三大基礎(chǔ)能力[7],已有研究表明計算、定理定義的理解和掌握、用數(shù)學(xué)語言進行描述和表達、動手操作等都是數(shù)學(xué)能力的重要表現(xiàn)[8],本文基于以上研究構(gòu)建技能維度,并將其分為計算、語言理解、操作、數(shù)學(xué)表達、空間想象、基本定理定義6 個子維度。最終維度劃分見表1。
表1 數(shù)學(xué)試題維度及其指標劃分
項目組隨機選取吉林省某縣某校100 名被試,依據(jù)項目反應(yīng)理論,對初測試題進行篩選,僅保留區(qū)分度為正值且難度參數(shù)范圍在[-3,3]的題目,最終保留35 道題目。需要注意的是,每一道測試題都從知識維度、認知維度、思想維度、技能維度4 個維度進行標定,每一個維度下可以包含多個子維度。各維度具體試題考查比例見表2。
表2 小學(xué)6 年級數(shù)學(xué)試題目各維度的考查比例
正式測試共兩次,均發(fā)放學(xué)業(yè)測試卷246份,回收246 份,有效試卷246 份。第一次測試卷Alpha 信度為0.892,第二次測試卷Alpha 信度為0.920,說明兩套測試卷質(zhì)量較好。
IRT 是依托統(tǒng)計技術(shù)的現(xiàn)代測量方法,一般專業(yè)教育統(tǒng)計人員會選擇自編程序進行測量以方便隨時調(diào)整程序。教育測量人員多借助專業(yè)軟件測量,常用的IRT測量軟件有BICAL,RASCAL,MICRO-SCALE,ANCILLES,ASCAL,LOGIST,RIDA,BILOG-MG,STATA 等,也可使用R 程序包進行計算。
本研究使用STATA 軟件②進行測試。STATA是進行數(shù)據(jù)分析、數(shù)據(jù)管理以及繪制專業(yè)圖表的整合性統(tǒng)計軟件,IRT 只是其功能的一部分。STATA 中的IRT 模塊使用簡單方便,可以直接從Excel 錄入數(shù)據(jù),一鍵輸出結(jié)果。STATA 軟件能夠使用1PL模型(即Rasch 模型)、2PL模型、3PL模型或混合模型等常見IRT 模型進行估算,能夠繪制項目曲線和信息函數(shù)曲線。
最簡單的IRT 模型為1PL(單參數(shù)邏輯斯蒂克)模型,模型的數(shù)學(xué)表達式為:
其中θ是學(xué)生的能力,參數(shù)a和bi分別為區(qū)分度參數(shù)和第i個項目上的難度參數(shù)。傳統(tǒng)1PL模型中的區(qū)分度參數(shù)取值固定為1。但在STATA軟件中,1PL 模型的區(qū)分度參數(shù)是1 附近的一個需要估計的值。依據(jù)學(xué)生的能力和每道試題的參數(shù),可以計算學(xué)生在每道試題的正確反應(yīng)概率。反過來,依據(jù)學(xué)生在每道試題的作答反應(yīng)(正確或錯誤),可以利用統(tǒng)計軟件估計學(xué)生在對應(yīng)題目上體現(xiàn)出的能力和每道試題的具體參數(shù)。
獲取學(xué)生數(shù)學(xué)能力在各個維度上的增值,可以得到學(xué)生學(xué)業(yè)進步的細致信息,因此,本研究對學(xué)生在每個維度上的題目結(jié)果進行單獨分析。首先,提取考查同一子維度的題目,這些題目共同考查一個子維度,可以認為學(xué)生在這些題目上反映出的能力是共同子維度能力。其次,將同一維度題目的反應(yīng)(1 代表正確,0 代表錯誤)輸入Excel,錄入STATA 軟件。使用STATA 的IRT選項,利用1PL 模型對測試數(shù)據(jù)整體及各個子維度進行分析,獲得學(xué)生在各個子維度上的能力水平,以及這個維度上題目的基本信息?;?PL模型輸出的題目參數(shù)如表3。
表3 STATA軟件1PL模型下部分題目的參數(shù)輸出結(jié)果
表3 為STATA 軟件1PL 模型的輸出結(jié)果。第一列中A,B,C 代表試題,第二、三列輸出結(jié)果為題目參數(shù),其中Discrim為區(qū)分度參數(shù),本研究中的區(qū)分度參數(shù)為1.225001。Diff為難度參數(shù),其取值一般為-3 至+3,每個題目的難度參數(shù)都不相同,如果難度參數(shù)值為0,代表能力值為0的學(xué)生在這道題上的正確反應(yīng)概率為50%。題目A 的難度為-1.064208,說明能力值為-1.064208的學(xué)生有50%的概率做對這道題,這意味著能力值為0 的學(xué)生答對該題的概率高于50%,題目A比較容易;題目B 的難度為0.0843218,說明該題難度略微超過平均難度。依據(jù)以上題目參數(shù)可以清楚看出每道題適合哪個水平的學(xué)生。使用特定維度對應(yīng)的題目,還可以獲得學(xué)生對應(yīng)維度下的能力。STATA軟件中能力輸出結(jié)果形式見表4。
表4 STATA 軟件中部分學(xué)生能力水平輸出結(jié)果
IRT 中的學(xué)生能力基于標準正態(tài)分布,取值大多在-3 至+3 之間??忌? 的能力值為-0.0681094,低于平均水平(平均能力水平值為0);考生5 的能力值為1.8657600,高于平均水平,說明該學(xué)生數(shù)學(xué)學(xué)業(yè)能力水平較高。特別值得關(guān)注的是,IRT 是一種基于樣本估計總體的統(tǒng)計技術(shù),這里學(xué)生體現(xiàn)的能力水平并不是學(xué)生在測試樣本中的能力水平,而是經(jīng)過統(tǒng)計后,學(xué)生在整個群體中的能力水平表現(xiàn)情況。因此,和傳統(tǒng)的分數(shù)相比,基于IRT 的增值評價具有更好的解釋力。
獲取并匯報學(xué)生的數(shù)學(xué)學(xué)業(yè)能力水平而非分數(shù),是破除“唯分數(shù)”的有力途徑。通過參數(shù)估計,可以獲得每名學(xué)生在每道試題中不同維度的能力表現(xiàn),這些能力構(gòu)成了學(xué)生的個性化診斷依據(jù)?;诿棵麑W(xué)生的個性化診斷數(shù)據(jù)和學(xué)業(yè)信息,學(xué)生本人和教師可以直觀地認識學(xué)生在不同維度上的能力水平,從而有針對性地開展補救學(xué)習(xí)以及指導(dǎo)訓(xùn)練。表5 為兩名學(xué)生在知識維度上的能力水平表現(xiàn)。
從表5 可以看出,1 號學(xué)生和240 號學(xué)生的數(shù)學(xué)總能力在0 附近,絕對值均小于0.5,說明兩名學(xué)生處于中等學(xué)業(yè)水平,但具體表現(xiàn)各有差異。1 號學(xué)生在統(tǒng)計與概率維度上的能力值為-0.7724003,240 號學(xué)生在圖形和幾何維度上的能力值為-0.6787782,說明這兩名學(xué)生的數(shù)學(xué)學(xué)業(yè)表現(xiàn)均存在薄弱環(huán)節(jié),1 號學(xué)生需要著重學(xué)習(xí)統(tǒng)計與概率知識,而240 號學(xué)生需要加大圖形與幾何的學(xué)習(xí)投入。和以往單獨使用成績進行評價不同的是,本研究基于IRT 技術(shù)獲得學(xué)生學(xué)業(yè)更加細致的信息。一方面,基于知識維度可以了解學(xué)生學(xué)業(yè)表現(xiàn)的薄弱點,為學(xué)生學(xué)業(yè)提升提供方向;另一方面,使用傳統(tǒng)的計分法,即使學(xué)生做對的題目不同,其分數(shù)也可能相同,不過學(xué)生做對不同試題時的能力水平一定是不同的,IRT技術(shù)能為學(xué)生學(xué)業(yè)評價提供更加精確的數(shù)據(jù)支持。
表5 2 名學(xué)生在知識維度上的能力水平表現(xiàn)
表6 為2 名學(xué)生在技能維度上的能力水平表現(xiàn)。其中,22 號學(xué)生的推理、操作和空間想象能力值為負,低于平均水平,說明該學(xué)生的推理、操作能力和空間想象能力有待提升。122 號學(xué)生在推理、計算、操作、數(shù)學(xué)表達、空間想象等維度的表現(xiàn)較好,但抽象、建模、語言理解能力值為負,低于平均水平,說明該生無法抓住試題要點,在完整閱讀理解試題上存在困難,因“讀題”這種少見的非數(shù)學(xué)知識性能力不足而導(dǎo)致學(xué)業(yè)水平較低。這說明除了需要提升抽象、建模等傳統(tǒng)的數(shù)學(xué)能力,122 號學(xué)生還要加強語言理解、閱讀能力的訓(xùn)練。
表6 2 名學(xué)生在技能維度上的能力水平表現(xiàn)
基于IRT 的增值評價還能全維度展示個體學(xué)生學(xué)業(yè)水平。表7 中,學(xué)生探究維度的能力值為0.5382433,高于平均水平,說明他在面對傳統(tǒng)的“難題”時表現(xiàn)不俗,但在了解、理解、應(yīng)用3個維度上的能力值為負值,說明他在解答中等以下難度的試題時準確率不高??梢钥闯鲞@是一位數(shù)學(xué)學(xué)習(xí)“小聰明型”的學(xué)生,即這類學(xué)生在基礎(chǔ)題目上得分率不高,但在高水平題目上偶有建樹。進一步分析發(fā)現(xiàn),這位學(xué)生在基本定理定義和計算維度的能力值均為負值,基本定理定義和計算分別是“基礎(chǔ)知識”和“基本技能”的重要組成部分,低于平均水平,說明該生“雙基”薄弱。重視“雙基”是我國數(shù)學(xué)教育的優(yōu)良傳統(tǒng),大量的實踐研究證明了“雙基”的重要性。但該生“雙基”不牢,基本定理定義掌握較差、計算不準確,這可能是他總能力低于平均水平的重要原因。增值評價的直觀數(shù)據(jù)既有助于學(xué)生正確認識自己的學(xué)業(yè)水平,直觀審視自身能力上的薄弱環(huán)節(jié),也有助于教師進行有針對性的教學(xué)指引與補救。
表7 1 名學(xué)生在數(shù)學(xué)學(xué)業(yè)表現(xiàn)上的能力值
對學(xué)生在學(xué)業(yè)表現(xiàn)各維度的能力和背景信息進行差異分析,可以探索影響學(xué)生學(xué)業(yè)水平的各項因素。本研究主要關(guān)注非教學(xué)因素,具體包括性別、課后學(xué)習(xí)時間、是否寄宿、陪伴學(xué)習(xí)、父親學(xué)歷、母親學(xué)歷6 個維度。其中,性別分為男、女兩類;課后學(xué)習(xí)時間分為0~0.5 小時、0.5~1小時、1~2 小時、2 小時以上;是否寄宿分為寄宿和非寄宿兩類;陪伴學(xué)習(xí)分為父母陪伴、祖輩陪伴、其他親屬陪伴、自己獨立;父母學(xué)歷分為無、初中、初中以上。對以上6 個維度進行t檢驗和方差分析。獨立樣本t檢驗效應(yīng)量Cohen’sd大于0.8 時說明差異很大,0.5~0.8 為差異中等,0.2~0.5 說明差異較小。方差分析的效應(yīng)量使用μ2,μ2大于0.64 說明差異較大,在0.64~0.25 之間說明中等差異,小于0.25 說明差異很小。6 類非教學(xué)因素差異分析的效應(yīng)量計算結(jié)果見表8,空白代表沒有差異。
表8 非教學(xué)因素差異分析效應(yīng)量計算結(jié)果
由表8 可以看出,對學(xué)生數(shù)學(xué)學(xué)業(yè)成績影響較大的非教學(xué)因素包括課后學(xué)習(xí)時間、是否寄宿和母親學(xué)歷。學(xué)生的課后學(xué)習(xí)時間在多個維度上都存在差異,它影響所有的思想維度和技能維度,影響認知維度的理解和應(yīng)用。父親學(xué)歷在各個維度上都沒有差異,但是母親學(xué)歷在多個維度上存在差異。母親無學(xué)歷學(xué)生的平均能力最低,說明母親無學(xué)歷的學(xué)生數(shù)學(xué)學(xué)業(yè)表現(xiàn)最差,是需要關(guān)注的重點。寄宿和非寄宿學(xué)生也在多個維度上存在顯著差異,其中數(shù)學(xué)表達維度的效應(yīng)量(Cohens’d=0.580>0.50)存在中等差異。寄宿學(xué)生的學(xué)業(yè)能力低于非寄宿學(xué)生,寄宿生和非寄宿生中父親無學(xué)歷者的比例分別為3.4%和3.7%,但寄宿生和非寄宿生中母親無學(xué)歷者的比例分別為12.1%和2.7%。對于偏遠地區(qū)和農(nóng)村地區(qū)而言,很多無學(xué)歷的父母選擇讓子女在學(xué)校寄宿,但有些學(xué)校師資力量有限,寄宿管理相對薄弱,對學(xué)生約束不夠,最終導(dǎo)致學(xué)生學(xué)業(yè)表現(xiàn)不佳。
增值評價對同一批學(xué)生進行跟蹤測試,對其兩次測試成績進行等值轉(zhuǎn)化,使考試結(jié)果具有可比性。只有經(jīng)過等值轉(zhuǎn)換后的數(shù)據(jù)才能夠進行增值評價。
將個體兩次考試中的能力差值繪制雷達圖,輔以必要的個人信息、數(shù)據(jù)和文字說明,可以構(gòu)成個性化診斷增值評價報告。實際操作中發(fā)現(xiàn),學(xué)生家長對于負能力存在理解誤區(qū),為此在撰寫增值評價報告時,均對能力值做出處理(加5,并保留一位小數(shù)),這有助于家長和學(xué)生理解數(shù)值的具體含義。調(diào)整后各維度能力均值為5,最大值在10 以內(nèi),最小值為正值。
從表9 和圖2 可以看出,兩次測試間,某學(xué)生知識維度中的統(tǒng)計與概率能力略有退步,綜合與實踐能力、圖形與幾何能力略有上升,數(shù)與代數(shù)能力變化不大。其中,數(shù)與代數(shù)能力水平低于平均水平(5.0),說明該學(xué)生需要重點鞏固數(shù)與代數(shù)知識的學(xué)習(xí)。在思想維度,該生的推理能力進步最大,抽象能力和建模能力略有退步。由此可以推測,該生最擅長回答圖形與幾何中涉及推理能力的試題。在技能維度,學(xué)生的計算能力較好,有較大的進步,語言理解和數(shù)學(xué)表達能力低于平均水平。學(xué)生的語言理解能力不強、數(shù)學(xué)表達能力較弱,在面對字數(shù)較多的試題時易產(chǎn)生閱讀障礙,這可能是該生統(tǒng)計與概率能力不高的原因之一。在認知維度,學(xué)生的探究能力有所退步,且低于平均水平。綜上可以發(fā)現(xiàn),兩次考試中該生的主要問題都出現(xiàn)在語言理解和數(shù)學(xué)表達部分,說明他數(shù)學(xué)學(xué)業(yè)的薄弱環(huán)節(jié)是讀題和數(shù)學(xué)表述,而非計算或基礎(chǔ)知識。但與上次考試相比,該生的圖形與幾何、綜合與實踐、推理、計算等能力上有了較大的進步。根據(jù)以上分析,研究者可以給該學(xué)生提出有針對性的評價內(nèi)容、結(jié)論和建議,如表10。
表10 個人增值評價報告中的評價內(nèi)容、結(jié)論和建議
圖2 學(xué)業(yè)質(zhì)量增值評價個人能力雷達圖
表9 個性化學(xué)業(yè)質(zhì)量增值評價報告
本研究希望提供程序化的增值評價操作思路,經(jīng)過“手把手”式的教導(dǎo),幫助一線教師克服數(shù)據(jù)統(tǒng)計時的畏懼心理,獨立進行增值評價。研究發(fā)現(xiàn),增值評價提供的信息有助于教師對學(xué)生因材施教。在影響小學(xué)數(shù)學(xué)學(xué)業(yè)水平的非教學(xué)因素中,是否寄宿是一個需要重點關(guān)注的維度,教育行政部門應(yīng)該針對寄宿學(xué)生群體尤其是農(nóng)村寄宿學(xué)生制定幫扶政策。未來的增值評價既應(yīng)為教育行政部門提供資政報告,也要為學(xué)生提供詳細的增值診斷信息以及個性化的輔助教學(xué)建議。
智慧化是未來考試發(fā)展的趨勢。智慧化的前提是從考試中獲取多維化的信息,而多維化的基礎(chǔ)是評價指標結(jié)構(gòu)化。教育管理者在考試之初應(yīng)建立雙向細目表,科學(xué)設(shè)計評價指標的結(jié)構(gòu);在評價時不能以分數(shù)一言概之,需根據(jù)評價指標的不同維度分別進行評價,獲得學(xué)生的個性化診斷信息,指導(dǎo)教師改進教學(xué),引導(dǎo)學(xué)生提升學(xué)業(yè)水平。從技術(shù)發(fā)展來看,我國教育測量從服務(wù)選拔開始向個性化輔助培養(yǎng)轉(zhuǎn)變,構(gòu)建適合個人、更加開放靈活的教育是未來教育的發(fā)展趨勢。[9]但實踐中仍然有很多教師熱衷于使用傳統(tǒng)的總分進行結(jié)果評價。本文設(shè)計的增值評價基于結(jié)構(gòu)化的評價維度,可以發(fā)現(xiàn)學(xué)生學(xué)習(xí)盲點,從而有針對性地指導(dǎo)學(xué)生展開補救,提升學(xué)習(xí)效率,降低教師工作壓力。
增值評價的方法不是越復(fù)雜越好。為了便于一線教師更好地實施增值評價,需滿足以下3 個條件:第一,評價理論要簡易,數(shù)據(jù)解釋要清晰易懂,例如,在IRT 輸出能力的結(jié)果中,以0 為分界線,正值高于平均水平,負值低于平均水平,增值評價前后兩次數(shù)據(jù)的差值就是評價結(jié)果,數(shù)據(jù)變化代表能力水平的不同,這樣解釋增值評價是符合一線教師認知的;第二,評價模型要簡易,模型參數(shù)不宜過多,IRT 中的1PL 模型只包含個體能力、題目難度兩個參數(shù),能滿足一線教師的基本需求;第三,評價工具要好操作,有軟件可以直接應(yīng)用,一線教師普遍不具有專業(yè)統(tǒng)計軟件操作經(jīng)驗,像STATA 這樣“一鍵錄入、一鍵輸出”的軟件比較適合一線教師實際操作。此外,實踐發(fā)現(xiàn),與其給一線教師講解統(tǒng)計理論、增值評價方法或操作原理,不如帶領(lǐng)教師先操作后講解。本次調(diào)查中,許多一線教師表示本研究使用的方法是可接受的,實際操作也能獨立完成,但對于多元線性回歸模型、成長百分比模型等增值評價模型,他們普遍認為較難,不易接受。
增值評價結(jié)果是使用者直接看到的核心內(nèi)容。評價結(jié)果既要科學(xué)地呈現(xiàn)信息,還要吸引使用者的興趣。首先,評價結(jié)果要以圖為主、數(shù)據(jù)為輔。在評價結(jié)果顯示中盡量把雷達圖、折線圖等易于理解的統(tǒng)計圖作為主要的呈現(xiàn)手段,數(shù)據(jù)可不呈現(xiàn)或少呈現(xiàn)。其次,評價結(jié)果要分維度呈現(xiàn),在成績報告單中的不同位置清晰明了地呈現(xiàn)個體信息、雷達圖、評價建議等,有助于使用者一目了然地找到自己關(guān)心的信息。最后,評價結(jié)果的呈現(xiàn)要注重數(shù)據(jù)理解力、視覺點綴、設(shè)計與美學(xué)、視覺隱喻、數(shù)據(jù)可記憶性這5 個維度[10]的實際效果。應(yīng)然狀態(tài)下,家長和學(xué)生在面對個體信息時應(yīng)該會仔細研讀,學(xué)習(xí)如何讀取數(shù)據(jù)信息。但實然狀態(tài)下,大多數(shù)家長和學(xué)生對數(shù)據(jù)存在抵觸情緒。把增值結(jié)果通過圖的形式進行可視化處理,更加符合教師、家長和學(xué)生的需求。
①equateIRT 可以在https://cran.rstudio.com/web/packages/equateIRT/index.html 下載,具體操作案例見https://cran.rstudio.com/web/packages/equateIRT/equateIRT.pdf。
②目前STATA 最新版本號為16,官網(wǎng)網(wǎng)站為https://www.stata.com。同時官方提供了IRT 基本操作流程,詳見https://www.stata.com/features/irt/。