張敏強(qiáng)/華南師范大學(xué)心理學(xué)院教授、中國教育學(xué)會統(tǒng)計(jì)與測量分會理事長
凡細(xì)珍 /華南師范大學(xué)心理學(xué)院博士生
教育測評技術(shù)的發(fā)展及創(chuàng)新應(yīng)用
張敏強(qiáng)/華南師范大學(xué)心理學(xué)院教授、中國教育學(xué)會統(tǒng)計(jì)與測量分會理事長
凡細(xì)珍 /華南師范大學(xué)心理學(xué)院博士生
2014年 9 月 4 日,國務(wù)院頒布了《關(guān)于深化考試招生制度改革的實(shí)施意見》,明確提出“啟動高考綜合改革試點(diǎn)”,要“改革考試科目設(shè)置。增強(qiáng)高考與高中學(xué)習(xí)的關(guān)聯(lián)度……”為貫徹落實(shí)此改革意見,教育部先后頒布了《關(guān)于普通高中學(xué)業(yè)水平考試的實(shí)施意見》和《關(guān)于進(jìn)一步推進(jìn)高中階段學(xué)校考試招生制度改革的指導(dǎo)意見》兩個(gè)文件,正式拉開了新一輪招生考試制度改革的大幕。
在新一輪招生考試制度改革方案中,高考改革的關(guān)鍵詞是“多元錄取”“一年兩考”,探索基于統(tǒng)一高考和高中學(xué)業(yè)水平考試成績、參考綜合素質(zhì)評價(jià)的多元錄取機(jī)制??忌偝煽冇山y(tǒng)一高考的語文、數(shù)學(xué)、外語三個(gè)科目成績和高中學(xué)業(yè)水平考試三個(gè)科目成績組成。保持統(tǒng)一高考的語文、數(shù)學(xué)、外語科目不變、分值不變,不分文理科,外語科目提供兩次考試機(jī)會。高中學(xué)業(yè)水平考試科目,由考生根據(jù)報(bào)考高校要求和自身特長,在思想政治、歷史、地理、物理、化學(xué)、生物等科目中自主選擇。最新出臺的高中階段學(xué)校招生制度改革的關(guān)鍵詞是“兩考合一”,積極探索基于初中學(xué)業(yè)水平考試成績、結(jié)合綜合素質(zhì)評價(jià)的招生錄取模式。推行初中學(xué)業(yè)水平考試不是取消中考,而是將初中畢業(yè)考試與高中招生考試合二為一,一考多用,避免多次考試給學(xué)生造成負(fù)擔(dān)。
分析方案中的關(guān)鍵內(nèi)容,我們不難發(fā)現(xiàn),新一輪招生考試制度改革的根本宗旨在于改變過去“唯分?jǐn)?shù)論”“一考定終身”的弊端,形成分類考試、綜合評價(jià)、多元錄取的考試招生模式,堅(jiān)持全面考核,促進(jìn)學(xué)生完成國家規(guī)定的各門課程的學(xué)習(xí);堅(jiān)持自主選擇,為每個(gè)學(xué)生提供更多的選擇機(jī)會,促進(jìn)學(xué)生發(fā)展學(xué)科興趣與個(gè)性特長,繼續(xù)為提高教育質(zhì)量、提升國民素質(zhì)、促進(jìn)社會縱向流動、服務(wù)國家現(xiàn)代化建設(shè)發(fā)揮重要作用。
(一)教育大數(shù)據(jù)的處理問題
今天,社會各界都在講大數(shù)據(jù),實(shí)際上教育領(lǐng)域的數(shù)據(jù)更是大數(shù)據(jù),它實(shí)現(xiàn)了對學(xué)生數(shù)據(jù)的全方位、全過程采集,覆蓋了學(xué)生學(xué)業(yè)、知識技能、身心健康等各個(gè)方面。同時(shí),它又是動態(tài)發(fā)展的,匯集了學(xué)生從幼兒園到高中的發(fā)展全過程的縱向數(shù)據(jù)?!耙荒陜煽肌焙途C合評價(jià)都必然會帶來更多的教育數(shù)據(jù),這些數(shù)據(jù)在實(shí)際的處理和應(yīng)用中會產(chǎn)生不少問題和困難。
第一,教育大數(shù)據(jù)來源多樣,有來自不同區(qū)域、不同學(xué)校、不同學(xué)科測評的數(shù)據(jù),以及學(xué)生發(fā)展的不同方面及類型的數(shù)據(jù),這些都缺乏標(biāo)準(zhǔn)化的數(shù)據(jù)定義,不利于數(shù)據(jù)間的比較。
第二,數(shù)據(jù)類型多元,但不具有一致性,不利于數(shù)據(jù)間的比較與整合。綜合評價(jià)涉及到學(xué)業(yè)水平、身心健康、思想品德等各個(gè)方面,不同方面的數(shù)據(jù)可能是連續(xù)型數(shù)據(jù),也可能是類別型數(shù)據(jù),這給考試分?jǐn)?shù)和問卷數(shù)據(jù)的解釋與評價(jià)帶來困難。目前,教育行業(yè)對不同類型數(shù)據(jù)的整合不足,從而對學(xué)生各種指標(biāo)數(shù)據(jù)的解釋與評價(jià)尚顯不夠。
第三,縱向數(shù)據(jù)收集難度大,且對其分析欠缺。目前,教育測評注重對橫斷面數(shù)據(jù)的應(yīng)用分析,對數(shù)據(jù)進(jìn)行橫向比較,較少進(jìn)行縱向的追蹤與比較。
第四,數(shù)據(jù)容量大但深層挖掘不易,對數(shù)據(jù)的利用不夠充分。一是由于目前數(shù)據(jù)的收集缺乏規(guī)劃,不夠細(xì)致和到位;二是相關(guān)的教育工作者缺乏測量方面的專業(yè)知識,缺乏數(shù)據(jù)背后深層次的隱性信息的挖掘。
4)隨著網(wǎng)架高度增加,網(wǎng)架用鋼量變化不大,且正放四角錐網(wǎng)架和斜放四角錐網(wǎng)架用鋼量也基本相同,說明在一定范圍內(nèi)增加網(wǎng)架高度并不能顯著節(jié)省用鋼量。
第五,非學(xué)業(yè)數(shù)據(jù)的獲取和處理難度都更大。過去,我們一直以學(xué)業(yè)成績?yōu)橹鲗?dǎo),以“分”評價(jià)學(xué)業(yè)的優(yōu)劣,以“率”評價(jià)學(xué)校、區(qū)域的績效,而對學(xué)生成長的非學(xué)業(yè)因素,比如說思想品德、身心健康、興趣愛好等關(guān)注不夠。而綜合素養(yǎng)的評價(jià)作為錄取標(biāo)準(zhǔn)之一,重要前提是要對非學(xué)業(yè)數(shù)據(jù)進(jìn)行科學(xué)合理的處理。
(二)測評的實(shí)施與結(jié)果解釋
綜合評價(jià)的各大類指標(biāo)如何進(jìn)行綜合,才能公正、公平、合理,才能獲得使用這些評價(jià)結(jié)果的各個(gè)層面的認(rèn)可?多元錄取如何實(shí)現(xiàn),各“元”之間如何分配和綜合?高考外語一年兩考,兩次考試的成績?nèi)绾伪容^?這些都是非常實(shí)際而又無法避開的問題。招生考試制度的改革不僅僅是政策的頒布與貫徹,其背后的技術(shù)支撐如果不能跟上,改革的效果將得不到保障。因此,作為招生考試制度重要技術(shù)支撐的測評技術(shù)也應(yīng)隨之發(fā)展與創(chuàng)新。
(一)三大基本測評理論
經(jīng)典測評理論(Classical Test Theory, CTT)、項(xiàng)目反應(yīng)理論(Item Response Theory, IRT)、認(rèn)知診斷理論(Cognitive Diagnosis Theory, CDT)是測評領(lǐng)域應(yīng)用最廣泛的基本理論。CTT因其對題目和測驗(yàn)作統(tǒng)計(jì)分析的方法在計(jì)算上較為簡單,意義上也明了直觀,易于教育工作者理解和掌握,因此有著廣泛的應(yīng)用。但其也存在著較為明顯的缺陷——最突出的是“千人一卷”,不能實(shí)現(xiàn)“因人而測”。IRT是針對CTT的不足而發(fā)展起來的,它可以精確估計(jì)每個(gè)考生的能力水平,從而為實(shí)現(xiàn)“因人而測”的計(jì)算機(jī)自適應(yīng)測驗(yàn)(Computerized Adaptive Testing,CAT)提供了必要的條件。而CDT則實(shí)現(xiàn)了對個(gè)體知識結(jié)構(gòu)、加工技能或認(rèn)知過程的診斷評估,彌補(bǔ)了CTT和IRT只能提供一個(gè)測驗(yàn)分?jǐn)?shù)(或能力參數(shù))的不足,實(shí)現(xiàn)了對學(xué)生更為精細(xì)的診斷與區(qū)分。
這三大測評理論為多次考試的分?jǐn)?shù)比較、綜合評價(jià)指標(biāo)整合和計(jì)算機(jī)化的測驗(yàn)形式提供了基本的理論基礎(chǔ)。但僅有此是不夠的,測評技術(shù)還需在此基礎(chǔ)上進(jìn)一步發(fā)展和創(chuàng)新,才能解決當(dāng)前招生考試制度改革下的技術(shù)難題。
(二)測評技術(shù)的發(fā)展及創(chuàng)新應(yīng)用
在教育新形勢的推動下,測評技術(shù)也有了發(fā)展和創(chuàng)新,并在廣州市2015年的“中小學(xué)教育質(zhì)量陽光評價(jià)”中得到了應(yīng)用。這些創(chuàng)新應(yīng)用都為新的招生考試制度的具體實(shí)施提供了重要參考。
采用“學(xué)業(yè)測試+問卷調(diào)查+非學(xué)業(yè)量表”相結(jié)合的方式,可從多層面對學(xué)生進(jìn)行評價(jià):(1)對學(xué)生進(jìn)行學(xué)業(yè)測試,了解學(xué)生學(xué)業(yè)發(fā)展水平;(2)對學(xué)生進(jìn)行和學(xué)業(yè)測試配套的問卷調(diào)查,探討影響學(xué)生學(xué)業(yè)發(fā)展的相關(guān)因素;(3)對學(xué)生進(jìn)行非學(xué)業(yè)問卷調(diào)查,從多方面了解和評價(jià)學(xué)生的綜合素質(zhì)。
2.“大量表+小量表”整體評估非學(xué)業(yè)素養(yǎng)
綜合評價(jià)涉及多方面、多指標(biāo)。各個(gè)指標(biāo)與各個(gè)方面不應(yīng)割裂開來,應(yīng)該視為整體與局部的關(guān)系。但如果每一項(xiàng)指標(biāo)都分別用不同的量表測試,那么指標(biāo)間的整體關(guān)系將被破壞,無法合成一個(gè)綜合分?jǐn)?shù)用于整體評價(jià)。在廣州市的“教育質(zhì)量陽光評價(jià)”中,由華南師范大學(xué)心理學(xué)院教授組成的專家團(tuán)隊(duì)經(jīng)過研討,決定采用“大量表”形式實(shí)現(xiàn)測試,“大量表”統(tǒng)領(lǐng)“小量表”,量表間分工合作,不破壞它們之間的整體關(guān)系。測驗(yàn)結(jié)果表明,各小量表及大量表都達(dá)到了測量學(xué)標(biāo)準(zhǔn)。
3.基于潛變量模型的學(xué)生分類方法
傳統(tǒng)的依據(jù)學(xué)生分?jǐn)?shù)對學(xué)生進(jìn)行分層的方法,根據(jù)預(yù)先的假設(shè),把學(xué)生學(xué)業(yè)分?jǐn)?shù)上的量化差異進(jìn)行人為分類,這種方法不能確定不同組別的學(xué)生學(xué)業(yè)發(fā)展是否具有質(zhì)性差異。潛在剖面分析(Latent Profile Analysis,LPA)以學(xué)生為中心,依據(jù)學(xué)生的不同表現(xiàn),診斷學(xué)生潛在的質(zhì)性差異,把學(xué)生分成組內(nèi)一致、組間差異的組別,實(shí)現(xiàn)了對學(xué)生更為精準(zhǔn)的分層。
4.新一代多元概化理論框架下的分?jǐn)?shù)合成方法
綜合評價(jià)中一個(gè)突出的問題,是各指標(biāo)分?jǐn)?shù)的合成問題。由于指標(biāo)繁多,且獲取的數(shù)據(jù)類型可能并不一致,用經(jīng)典測量理論來進(jìn)行分?jǐn)?shù)合成會造成評估誤差。新一代多元概化理論(Multivariate Generalizability Theory,MGT)則很好地解決了這個(gè)問題,它可以同時(shí)考慮題目因素與維度因素,并且將每個(gè)維度固定起來各自作為一個(gè)“元”。
5.傳統(tǒng)紙筆測驗(yàn)+計(jì)算機(jī)線上測試雙模式并行
對學(xué)生進(jìn)行評價(jià)會增加教師工作量和學(xué)校的管理難度,從而給評價(jià)的實(shí)施和推廣帶來阻力。檔案袋評價(jià)沒能推廣開來,原因就在于此。因此,綜合評價(jià)的具體實(shí)施一定要考慮到一線教學(xué)和管理的便利。在廣州市的陽光評價(jià)中,我們同時(shí)采用了傳統(tǒng)的紙筆測驗(yàn)和計(jì)算機(jī)線上測驗(yàn),從而極大地減少了教師和學(xué)校的工作量,評價(jià)的推行也進(jìn)行順利。因此,在高中階段的綜合評價(jià)中也可以嘗試采用這種紙筆測驗(yàn)+計(jì)算機(jī)線上測試的雙模式。
考試招生制度的改革是一件關(guān)乎民生的大事,盡管挑戰(zhàn)重重,但只要社會各界,尤其是學(xué)界積聚力量,互相學(xué)習(xí)和交流,共同為提高國家教育質(zhì)量、促進(jìn)學(xué)生健康全面發(fā)展貢獻(xiàn)一份力量,一定能夠使我們的改革順利推行下去,實(shí)現(xiàn)我國教育改革發(fā)展的宏偉目標(biāo)。