文_張勇
評價理論和技術(shù)還需突破
文_張勇
張勇,中國教育學(xué)會中小學(xué)教育質(zhì)量綜合評價改革實驗區(qū)辦公室副主任,北京市公眾教育科學(xué)研究院院長
綜合我國相關(guān)政策及文件要求,以及國外先進的實踐經(jīng)驗,目前評價改革的基礎(chǔ)框架已基本確立了以“學(xué)業(yè)評價+綜合素質(zhì)評價+發(fā)展?jié)撃茉u價”為基礎(chǔ),輔以教育質(zhì)量監(jiān)測的結(jié)構(gòu)和模式。但是,結(jié)構(gòu)和模式的確立僅僅是解決基礎(chǔ)問題之一,依據(jù)2013年《意見》和《指標框架(試行)》的要求,本次中小學(xué)教育質(zhì)量綜合評價應(yīng)建設(shè)的評價指標、標準體系等,除教育質(zhì)量監(jiān)測之外,主要涉及學(xué)業(yè)評價、綜合素質(zhì)評價及發(fā)展?jié)撃茉u價三個領(lǐng)域。這三個領(lǐng)域都有其要解決的理論、技術(shù)與方法難題。對教育發(fā)展而言,教育評價具有重要的導(dǎo)向作用和驅(qū)動功能。教育評價的理論與技術(shù)改革與實質(zhì)性突破,將會直接倒逼課程、教學(xué)、育人等教育整體的突破與發(fā)展。
我國2001年的《基礎(chǔ)教育課程改革綱要(試行)》和2002年《教育部關(guān)于積極推進中小學(xué)評價與考試制度改革的通知》及相關(guān)文件,給出了“三維”學(xué)科教育目標和學(xué)科課程標準,學(xué)科教育目標不再是過去的“雙基”目標。
依據(jù)學(xué)科教育三維目標與學(xué)科課程標準的要求,學(xué)業(yè)評價應(yīng)解決學(xué)生、學(xué)校面向?qū)W科教育“三維目標”的測量與評價問題,而不再仍局限于“基礎(chǔ)知識、基本技能”的兩目標測量評價。
因此,就評價技術(shù)而言,要測量和獲取教育的活動、過程、結(jié)果三種數(shù)據(jù)和事實,并對三者做出價值判斷——這個基本定義的規(guī)定與學(xué)科教育三維目標評價同構(gòu)等效。
2013年《意見》明確提出:“將定量評價與定性評價相結(jié)合,注重全面客觀地收集信息,根據(jù)數(shù)據(jù)和事實進行分析判斷,改變過去主要依靠經(jīng)驗和觀察進行評價的做法。將形成性評價與終結(jié)性評價相結(jié)合,注重考查學(xué)生進步的程度和學(xué)校的努力程度,改變單純強調(diào)結(jié)果不關(guān)注發(fā)展變化的做法。將內(nèi)部評價與外部評價相結(jié)合,注重促進學(xué)校建立質(zhì)量內(nèi)控機制,改變過于依賴外部評價而忽視自我診斷、自我改進的做法”及“對評價內(nèi)容和關(guān)鍵性指標進行分析診斷,分項給出評價結(jié)論,提出改進建議,形成學(xué)校教育質(zhì)量綜合評價報告。綜合評價報告要注重對學(xué)校優(yōu)勢特色和存在的具體問題的反映,不簡單對學(xué)校教育質(zhì)量進行總體性的等級評價”的要求。這些要求清晰地指向了形成、過程、診斷、增值等評價方向。
學(xué)業(yè)評價量表舉例。學(xué)業(yè)評價需解決學(xué)科教育“三維目標”的測量和評價問題
潛能評價將為學(xué)生學(xué)業(yè)、職業(yè)生涯規(guī)劃提供依據(jù)和參考
這對現(xiàn)有的測量、統(tǒng)計分析、評價技術(shù)的研發(fā)提出了很大的挑戰(zhàn)。顯然,依靠單一的測量與評價理論方法、及單純依靠傳統(tǒng)的標準測驗理論與評價方法,已難以勝任。
傳統(tǒng)的標準測驗理論將所測的心理特質(zhì)視為一個心理學(xué)意義并不明晰的“統(tǒng)計結(jié)構(gòu)”,目的在于從宏觀層次給個體一個整體的評估。無論是經(jīng)典測量理論還是項目反應(yīng)理論及概化理論,存在的共同缺陷是,把所測心理特質(zhì)當(dāng)作一種純“統(tǒng)計結(jié)構(gòu)”,忽視對考生作答過程的考察,計量時只注重作答結(jié)果,忽視心理特質(zhì)的實質(zhì)內(nèi)容,對“測什么”和“為什么”的問題卻不能夠很好地解決,也就無法了解個體解答測驗的心理加工成分、策略、所需知識結(jié)構(gòu)等內(nèi)部心理機制,不能確定個體的強點和弱點。
因這種缺陷和局限,就需要引入相應(yīng)的測量理論和技術(shù)進行補充。我們需要引入能夠解決“測什么”和“為什么”的理論——即實現(xiàn)對個體知識結(jié)構(gòu)、加工技能或認知過程的診斷評估;需要引入多維項目反應(yīng)理論(即MIRT),把傳統(tǒng)項目反應(yīng)理論從單維發(fā)展到多維、從線性發(fā)展到非線性,更深入地了解被試;需要引入質(zhì)性評價理論,考察學(xué)生學(xué)習(xí)的整體情況,以及在具體情境中運用知識的能力,問題比較開放或為非結(jié)構(gòu)的,甚至難以找到標準答案。要求學(xué)生、教師、家長和同學(xué)共同參與評價過程,評價方法是動態(tài)的,多元的和情境化的。
所以就學(xué)業(yè)評價而言,測量與評價理論、標準、技術(shù)和方法的設(shè)計需要思考在以下幾個方面實現(xiàn)突破:
理論突破:要有機整合國際知名教育理論以及教育學(xué)、心理學(xué)等學(xué)科最新研究,建立多元、多維的測量、評價技術(shù)模型。
技術(shù)突破:要在試題賦分、計分和統(tǒng)計分析上,依據(jù)認知與思維等發(fā)生過程,設(shè)計新的多元、多維的分數(shù)結(jié)構(gòu)。
應(yīng)用突破:在成績報告方面,應(yīng)學(xué)習(xí)和借鑒國際大型標準化測試的報告系統(tǒng),不僅能提供數(shù)據(jù)多元、多維、多重比較結(jié)果,而且能提供面向不同群體的數(shù)據(jù)報告。
中小學(xué)生綜合素質(zhì)評價是本次教育評價改革實驗的重點內(nèi)容之一,也是難題之一。
綜合素質(zhì)評價發(fā)端于英國學(xué)者提出的質(zhì)性評價研究。質(zhì)性評價倡導(dǎo)通過自然的調(diào)查,全面提示和描述評價對象的各種特質(zhì),以彰顯其意義,達成理解,主張評價應(yīng)全面反映教育現(xiàn)象的真實情況,為改進教學(xué)提供真實可靠的依據(jù)。也就是說,評價應(yīng)關(guān)注學(xué)生的學(xué)習(xí)過程,及時發(fā)現(xiàn)問題加以糾正。
質(zhì)性評價的主要特點:一是自然性,質(zhì)性評價必須在自然的情境下進行,對評價對象在他的“學(xué)習(xí)世界”中的學(xué)習(xí)過程情況進行評價;二是解釋性,評價需要在自然的情境中進行,評價者了解評價對象在自然情境中的學(xué)習(xí)情況,即學(xué)習(xí)態(tài)度、學(xué)習(xí)思想、學(xué)習(xí)動機、思維水平等各種特質(zhì)。
質(zhì)性評價的方法,源自解釋主義哲學(xué),形成于建構(gòu)主義理論模型和評價模式。經(jīng)過三十多年發(fā)展,已積累了豐富的實踐經(jīng)驗和體系。
在這方面美國已有相當(dāng)豐富的經(jīng)驗值得借鑒,其主流有兩大類模式和方法——真實性評價和表現(xiàn)性評價。如以“檔案袋”評價法為代表的真實性評價和表現(xiàn)性評價,已成為美國教育評價和人才選拔中不可或缺的方法。
通過對比分析我國當(dāng)前學(xué)生綜合素質(zhì)評價領(lǐng)域中存在的問題,本次評價改革中,就學(xué)生綜合素質(zhì)評價而言,要考慮解決以下幾方面難題:
如何界定中小學(xué)生綜合素質(zhì)及其評價的概念;構(gòu)建中小學(xué)生綜合素質(zhì)評價的理論體系及模型;健全和完善中小學(xué)生綜合素質(zhì)評價的指標體系;健全和完善中小學(xué)生綜合素質(zhì)評價的測量與計量標準;健全和完善中小學(xué)生綜合素質(zhì)的評價標準;開發(fā)中小學(xué)生綜合素質(zhì)評價的評價工具;制定中小學(xué)生綜合素質(zhì)評價的工具操作標準;改進中小學(xué)生綜合素質(zhì)評價的結(jié)果呈現(xiàn)方式;建立中小學(xué)生綜合素質(zhì)評價的結(jié)果解釋及應(yīng)用系統(tǒng);設(shè)計中小學(xué)生綜合素質(zhì)評價實驗推廣模式;設(shè)計中小學(xué)生綜合素質(zhì)評價公信力保障系統(tǒng)。
標準化考試(發(fā)展?jié)撃茉u價、能力測試),作為人才評估與選拔的核心手段之一,也是本輪評價改革中需要解決和突破的重點難題。
在國家招生考試改革中規(guī)定“轉(zhuǎn)變過去知識型考試為能力型考試,考察學(xué)生分析解決問題的能力和應(yīng)用實踐能力”,這不但對統(tǒng)一考試給出了明確界定,也對教育評價提出了清晰要求——給出學(xué)生能力發(fā)展評價。
國際的選拔性考試,一般屬于傾向性(預(yù)測性、發(fā)展性)考試,這與中國過去的選拔性考試(成就性測驗)完全不同。而我國教育改革所指向的“分析解決問題的能力與應(yīng)用實踐能力”測試,則與目前歐美主流國家的大型標準化考試在目的、內(nèi)涵上基本一致。
2013年《意見》以及《指標框架(試行)》中明確提出“潛能發(fā)展”這一關(guān)鍵指標,要求對“學(xué)生在某些方面表現(xiàn)出的突出素質(zhì)和進一步發(fā)展的能力”進行評價──即發(fā)展?jié)撃茉u價。
發(fā)展?jié)撃?,又稱能力傾向,是一個人的潛在能力,予以訓(xùn)練后,容易使個人獲得某種知識、技能和能力。發(fā)展?jié)撃?,不但在評價改革非常重要,而且涉及人才發(fā)展規(guī)劃及教育改革和發(fā)展。
潛能測試,是選拔性(預(yù)測性)標準化考試的核心,主要用于通過測驗和評價學(xué)生的基本潛能,從而預(yù)測學(xué)生未來的發(fā)展方向、程度及競爭能力,美國的SAT、ACT就屬于這類考試。進入21世紀,因多元智能理論的巨大影響,國際的大型標準化考試從發(fā)端于智力測驗的潛能測試,逐步發(fā)展為潛能測試。此后對發(fā)展能力的評價,大多是基于潛能測試。
國外對學(xué)生發(fā)展?jié)撃艿臏y試較為普遍,其內(nèi)容大部分都涉及語言、言語、空間(圖形)、數(shù)字的理解和推理、判斷。發(fā)展?jié)撃茉u價主要是以人才培養(yǎng)為目標,通過測試學(xué)生潛在的能力,提供個體不同方面能力發(fā)展的狀況,使學(xué)生客觀地了解自己能力的特點,幫助學(xué)?;蚶蠋熻b別學(xué)生的學(xué)習(xí)能力、診斷學(xué)習(xí)中的問題,從而預(yù)測其能力發(fā)展的傾向或類型,為學(xué)生學(xué)業(yè)、職業(yè)生涯規(guī)劃提供依據(jù)和參考,為制定合理的人才培養(yǎng)計劃提供指導(dǎo)。
無論是基于智力理論的潛能測試,還是基于多元智能理論的潛能測試,在我國于理論研究和技術(shù)研究上都很薄弱,尤其缺乏長期實踐積累。這對這輪評價改革中的發(fā)展?jié)撃茉u價的研究與應(yīng)用提出了挑戰(zhàn)。
根據(jù)21世紀國際能力測試的發(fā)展主流,我們需要在多元智能理論基礎(chǔ)上,引入多維項目反應(yīng)理論,這種方法將為測驗中所涉及的每個維度引入能力和項目區(qū)分度參數(shù), 進而模擬測驗題目和被試之間的交互作用,通過數(shù)學(xué)模型推斷被試的多個特質(zhì),實現(xiàn)多元智能的測量與評價。這需要一個不斷實踐和積累過程,并需要解決如下問題:
首先要解決的難題是如何界定人才、學(xué)術(shù)型人才和技術(shù)型人才概念的問題;
其次,要解決不同類型的人才評估與選拔的理論和評價模型構(gòu)建的難題;
第三,解決不同類型人才評估與選拔指標體系構(gòu)建的難題;
第四,解決不同類型人才評估與選拔標準的難題。
教育質(zhì)量評價改革,是一個宏大而深刻的系統(tǒng)工程,除了思想、理念、理論、技術(shù)等突破外,還需要一個漫長的實踐修正和積累期。路漫漫其修遠兮,吾將上下而求索,這句話可能是對評價改革最好的描述。
(注:本文摘自張勇《教育評價改革反思與再認識》,曾發(fā)表于《光明日報》《新華文摘》等。有刪節(jié)。)