亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于效度證據(jù)的非紙筆測試設(shè)計

2023-09-03 13:35:14張建勇錢永芳

江蘇教育研究 2023年13期

張建勇錢永芳

摘要：測試效度是決定一個測試項目質(zhì)量高低的首要要素。非紙筆測試可通過內(nèi)容效度、效標效度、結(jié)構(gòu)效度三類效度證據(jù)確保測試效度。利用“以證據(jù)為中心的設(shè)計”框架，通過領(lǐng)域分析、領(lǐng)域建模、概念性測評框架、測評實施及測評發(fā)布5個層次和步驟設(shè)計非紙筆設(shè)計，能夠保障測試效度，為教育者做出正確推論和教育決策提供有效的方法。

關(guān)鍵詞：非紙筆測試；效度證據(jù)；小學(xué)語文教學(xué)

中圖分類號：G622 文獻標志碼：A 文章編號：1673-9094（2023）13-0081-06

*本文系江蘇省教育科學(xué)“十四五”規(guī)劃青年專項課題“優(yōu)勢探索：小學(xué)課堂積極評價研究”（C-c/2021/02/131）的階段研究成果。

作者簡介：張建勇，鹽城市天山路小學(xué)校長，高級教師，江蘇省“333高層次人才培養(yǎng)工程”培養(yǎng)對象，江蘇省卓越教師培養(yǎng)對象，鹽城市名教師，主要研究方向為小學(xué)語文教學(xué)；錢永芳，鹽城市天山路小學(xué)，高級教師，鹽城市學(xué)科帶頭人，主要研究方向為小學(xué)語文、思政教學(xué)。

學(xué)科核心素養(yǎng)集中體現(xiàn)了學(xué)科育人價值和學(xué)科目標，代表著學(xué)科的正確價值觀、必備品格和關(guān)鍵能力。由于它具備內(nèi)隱性和整體性特點，如何有效考察與評價，成為當下面臨的一項重要教育議題。非紙筆測試的提出是對這一議題的有效回應(yīng)。作為階段性評價的類別之一，非紙筆測試“旨在考查班級整體學(xué)習(xí)情況和學(xué)生階段性學(xué)習(xí)質(zhì)量”，獲得基于科學(xué)證據(jù)的推論，進而“對學(xué)生個體作出及時反饋和有效指導(dǎo)”[1]。有效度的教育評價會提高決策質(zhì)量，反之則會導(dǎo)致負面的結(jié)果。效度證據(jù)能夠幫助教育者判斷測試與欲測內(nèi)容之間的一致性。從效度證據(jù)視角，通過逆向思維方式設(shè)計非紙筆測試，能夠確保非紙筆測試的效度，進而使教師對學(xué)生進行精確的推斷。

一、非紙筆測試的三類效度證據(jù)

效度就是測試對欲測內(nèi)容的測量程度。測試本身并不具有效度，只是一種推斷學(xué)生學(xué)習(xí)水平的一種工具。非紙筆測試的效度，是基于分數(shù)或等級等多種證據(jù)做出推論的精確性。要判斷非紙筆測試是否有效，需要通過內(nèi)容效度、效標效度、結(jié)構(gòu)效度[2]54三類效度證據(jù)來考查。

（一）內(nèi)容效度：測試內(nèi)容與欲測目標的相關(guān)度

內(nèi)容效度指測試內(nèi)容對欲測課程目標的代表程度。此“內(nèi)容”不僅僅是事實性知識，還包含了學(xué)科的核心素養(yǎng)。需要注意的是，一次非紙筆測試的內(nèi)容主要指向某個特定時期內(nèi)要求學(xué)生掌握的學(xué)習(xí)目標。那怎樣表示非紙筆測試內(nèi)容代表預(yù)測課程目標的程度？可用五種圖式來表示不同的代表水平（如圖1）。

從圖1可知，“欲測課程目標”用矩形表示，“非紙筆測試內(nèi)容”以黑點指代。當兩者匹配程度越低時，內(nèi)容效度就越低。例如，圖1A，測試內(nèi)容均勻分布于矩形所代表的預(yù)測課程目標中，則完全匹配；圖1B，測試內(nèi)容中有一部分與預(yù)測課程目標不匹配；圖1C與1D，測試內(nèi)容包含于預(yù)測課程目標中，但覆蓋面非常有限；圖1E，測試內(nèi)容完全偏離預(yù)測課程目標。在實際測試中，如果教師設(shè)計的非紙筆測試內(nèi)容不能體現(xiàn)預(yù)測課程目標，那以此所得證據(jù)進行推論，作出教育決策，就有可能導(dǎo)致錯誤的認定、反饋與指導(dǎo)。

（二）效標效度：評價標準與學(xué)業(yè)水平的關(guān)聯(lián)度

效標效度指通過評價標準推論學(xué)生學(xué)習(xí)水平的準確程度。它決定了教師基于分數(shù)或等級等非紙筆測試結(jié)果，對學(xué)生在某一課程目標上掌握情況，做出何種推論和決策。

基于群體均數(shù)、常模參照的紙筆測試，評價標準指向測量結(jié)果的數(shù)值，追求測試結(jié)果的數(shù)量化、客觀化，忽視數(shù)字背后的意義，無助于推斷學(xué)生學(xué)習(xí)是否達到教育目標和達到教育目標的程度。非紙筆測試的價值在于促進學(xué)生的學(xué)習(xí)，注重對測試過程的觀察、記錄與分析，基于證據(jù)對學(xué)生個體作出及時反饋與指導(dǎo)。因此，非紙筆測試的評價標準并不是對“事情是什么”“事情如何進行”以及事物的某種“真實”狀態(tài)進行描述，而是提出有意義的解釋[3]。這種解釋是針對課程目標，基于測試中行為表現(xiàn)及結(jié)果，作出關(guān)于達成狀況的一個或多個描述。通過描述，支持教師準確推論和作出決策，讓學(xué)生明確“要去哪里”“現(xiàn)在在哪里”“下一步去哪里”，提高學(xué)生自我評價和自我反思的能力，引導(dǎo)學(xué)生合理運用評價結(jié)果改進學(xué)習(xí)。

（三）結(jié)構(gòu)效度：評價證據(jù)與素養(yǎng)結(jié)構(gòu)的效應(yīng)度

結(jié)構(gòu)效度指對某一假想性結(jié)構(gòu)的測驗準確程度。它指向預(yù)測課程目標中難以捉摸、隱蔽的知識結(jié)構(gòu)的測量。學(xué)科核心素養(yǎng)所包含的正確價值觀、必備品格和關(guān)鍵能力，除事實性知識外大部分評價變量是內(nèi)隱的，比如“數(shù)學(xué)能力”或“閱讀理解能力”。僅通過測試結(jié)果不能得到準確的推論，需要通過觀察學(xué)生在測試中的具體行為表現(xiàn)，收集相關(guān)經(jīng)驗性證據(jù)方能有效推測。這就需要教師充分理解內(nèi)隱欲測目標的假設(shè)性結(jié)構(gòu)的“運行機制”，設(shè)計相匹配的非紙筆測試任務(wù)，并對學(xué)生在測試上的行為表現(xiàn)作出一個或幾個正式的假設(shè)。如果從評價任務(wù)中得到的證據(jù)能夠驗證某種假設(shè)，就表明學(xué)生的學(xué)習(xí)結(jié)果得到了有效推測。

二、基于效度證據(jù)的非紙筆測試設(shè)計策略

基于效度證據(jù)的測試設(shè)計，梅斯雷弗等學(xué)者提出了“以證據(jù)為中心的設(shè)計”（evidence-centered design， ECD）框架[4]。ECD包括使用不同的表征方式刻畫測試要素，并將其轉(zhuǎn)化為測試的設(shè)計——測試任務(wù)、評分規(guī)則、統(tǒng)計建模等。它把測試設(shè)計和使用具體分為領(lǐng)域分析、領(lǐng)域建模、概念性測評框架、“測試實施”及測評發(fā)布5個層次[5]（見表1）。非紙筆測試作為測試的一種方式同樣適應(yīng)。

（一）領(lǐng)域分析

非紙筆測試設(shè)計，首先要進行評價領(lǐng)域的分析，搜集預(yù)測領(lǐng)域內(nèi)最重要、最關(guān)鍵的實質(zhì)性信息。它主要來自課程方案、課程目標等內(nèi)容標準，包括此領(lǐng)域內(nèi)的內(nèi)容、概念、術(shù)語、工具及表征形式。如“學(xué)習(xí)獨立識字”“學(xué)習(xí)圈點、批注等閱讀方法”“用口頭或圖文等方式整理、表達自己在活動中的見聞和想法”。

領(lǐng)域分析不是根據(jù)某種測評慣例和結(jié)構(gòu)來組織的，如語文學(xué)科的“字—詞—句—篇”，而需從證據(jù)鏈視角進行整理。即分析課程方案和課程目標，從中整合和提煉重要的、關(guān)鍵的、有價值的知識、知識結(jié)構(gòu)和關(guān)系，為非紙筆測試的設(shè)計提供學(xué)理依據(jù)和開發(fā)啟示。

（二）領(lǐng)域建模

領(lǐng)域分析后，要進行“測試要素陳述—關(guān)鍵知能匹配—預(yù)期結(jié)果表征”三項工作，從而形成測評結(jié)構(gòu)，這就是領(lǐng)域建模。它使領(lǐng)域分析從內(nèi)隱和抽象變得外顯和可操作，使測試領(lǐng)域要素、關(guān)鍵知能和預(yù)期行為表現(xiàn)和結(jié)果形成嚴謹?shù)淖C據(jù)鏈。領(lǐng)域建模的意義在于建構(gòu)非紙筆測試的測試藍圖或測試說明，保證“教–學(xué)–評”的一致性。這既有效區(qū)分了測試內(nèi)容的篩選和審查，也清晰表征出要素測試中“可見”的行為表現(xiàn)和結(jié)果制品，讓教師在精準的預(yù)測目標和確證的測試證據(jù)中進行有效、精準的推論。

（三）概念性測評框架

概念性測評框架主要是根據(jù)領(lǐng)域分析和領(lǐng)域建模的內(nèi)容展開非紙筆測試任務(wù)結(jié)構(gòu)的設(shè)計。它由一組緊密關(guān)聯(lián)、邏輯嚴謹?shù)?種模式組成：學(xué)生模式、證據(jù)模式、組合模式、任務(wù)模式、呈現(xiàn)模式和發(fā)布模式組成[6]。其指導(dǎo)著非紙筆測試開發(fā)與實施的過程步驟與操作細節(jié)。

學(xué)生模式主要回答“測什么”的問題，即測試的具體目標。它明確了教師希望通過非紙筆測試的結(jié)果做什么樣的推測，是領(lǐng)域建模中“知能匹配”的具體化，與欲測知識與能力等密切相關(guān)。證據(jù)模式主要回答“如何測”的問題，即非紙筆測試過程里不同的行為表現(xiàn)或呈現(xiàn)結(jié)果反映了不同的目標達成水平。它主要由“經(jīng)驗性證據(jù)鏈”的設(shè)定來完成。經(jīng)驗性證據(jù)鏈是教師針對預(yù)測目標，根據(jù)前測活動或?qū)＜医?jīng)驗，決定測試中重要的行為表現(xiàn)并設(shè)立賦分標準。組合模式主要回答“測多少”的問題，即非紙筆測試中對特定預(yù)測目標，設(shè)置的證據(jù)數(shù)量。通常，一個特定測試目標的考查，需要多個證據(jù)的組合來實現(xiàn)，以保障推論的精準性。組合模式就是要規(guī)限每個測試要點需要的證據(jù)數(shù)量。任務(wù)模式主要回答“用何測”的問題，即非紙筆測試的情境與任務(wù)。參照證據(jù)模式設(shè)定中相應(yīng)行為表現(xiàn)與呈現(xiàn)結(jié)果，研發(fā)與之相適配的情境與任務(wù)。呈現(xiàn)模式主要回答“怎么測”的問題，即非紙筆測試的呈現(xiàn)方式。它是根據(jù)預(yù)測目標的類型，確定相適應(yīng)的操作形式，如口頭提問、觀察、對話、紙筆測試、開放式問答以及表現(xiàn)性任務(wù)與項目等。發(fā)布模式描述了一次非紙筆測試從學(xué)生模式到呈現(xiàn)模式的整體關(guān)系，以及各模式間的協(xié)調(diào)動作過程。同時也描述各個過程中的安全、時間等外在因素。

（四）測評實施

本環(huán)節(jié)主要工作是根據(jù)前三個階段的要求，開展具體的非紙筆測試的實施工作，用以明確測試情境與任務(wù)的選擇標準，布置場地和設(shè)施，及收集、分析、解釋學(xué)生測試過程中的反應(yīng)數(shù)據(jù)。具體包括：確定預(yù)測目標與內(nèi)容、明確測試任務(wù)與典型性題目、表述測試規(guī)劃、制定評分規(guī)劃與標準、布置測試現(xiàn)場、安排測試評定、分析測量效度、報告測試結(jié)果與分析等。

（五）測評發(fā)布

測評發(fā)布回應(yīng)的是“學(xué)業(yè)成就水平描述”與“測試反饋與指導(dǎo)”兩方面問題。前面幾項環(huán)節(jié)，只涉及測試領(lǐng)域、目標、工具、組織、結(jié)果等潛在內(nèi)容。而測試的最終目的是根據(jù)測試中收集的證據(jù)，得出指向預(yù)測目標的有效推論。這就包含對學(xué)生現(xiàn)有學(xué)業(yè)成就水平的質(zhì)性描述，以及對下一階段學(xué)習(xí)提出針對性指導(dǎo)意見，讓他們既知道“我在哪里”，更知道“我如何去那里”。

三、ECD框架下非紙筆測試設(shè)計

下文以第一學(xué)段語文學(xué)科為例，討論如何基于效度證據(jù)，利用ECD框架來設(shè)計的一次階段性非紙筆測試。

（一）編寫測試說明

非紙筆測試的第一步是通過領(lǐng)域分析和領(lǐng)域建模編寫測試說明。主要過程是對課程標準中的學(xué)段要求及學(xué)業(yè)質(zhì)量描述部分進行分解與整合，從學(xué)科專業(yè)視角確立測試的內(nèi)容要素，并抽象為若干變量，以陳述形式呈現(xiàn)。第一學(xué)段語文測試以課程標準中學(xué)業(yè)質(zhì)量描述為藍本，通過測試類別、測試項目、測試內(nèi)容和測試要點的概括和提煉，形成以下測試說明（見表2）。

（二）界定測試范圍

測試說明完成后，要對學(xué)生模式中的變量進行厘析和選擇，也就是確定“測什么”。學(xué)生模式是在測試領(lǐng)域模型框架下，對知識、技能、能力等測試要素的變量集合。假定要測試“口語表達”中的“說清楚”，那要思考選用什么作為變量？這些變量能夠表現(xiàn)不同層次學(xué)生的何種表現(xiàn)？進而反推“說清楚”背后的知識、技能和能力要素。這個過程主要圍繞經(jīng)驗性證據(jù)展開，通過論著查詢、專家訪談、學(xué)生前測等方法擬定。根據(jù)多方經(jīng)驗性證據(jù)的整合，形成的關(guān)于“說清楚”的變量集合圖式結(jié)構(gòu)（如圖2）。

（三）確定評分規(guī)則

評分規(guī)則包括評分要點和賦分規(guī)則，兩者共同完成了證據(jù)模式，澄清了測試中的行為表現(xiàn)作為評價證據(jù)的邏輯。評分要點是將學(xué)生模式中的變量集合假設(shè)為一個或多個具體的可觀察行為，并以不同權(quán)重賦值；賦分規(guī)則是結(jié)合評分要點，制定衡量學(xué)生行為反應(yīng)的各種分值或等級指標，并說明是用整體評分還是分項評分方法。表3即為針對“說清楚”測試的分項評分規(guī)則。

（四）設(shè)立情境任務(wù)

《義務(wù)教育課程方案（2022年版）》提出“注重動手操作、作品展示、口頭報告等多種方式的綜合運用，關(guān)注典型行為表現(xiàn)，推進表現(xiàn)性評價”等要求[7]。因此，非紙筆測試的任務(wù)設(shè)計，更突出情境性與實踐性，要求根據(jù)學(xué)段特點和具體測試項目類別設(shè)計適配且完整的情境與任務(wù)，即確定任務(wù)模式。這個過程包括兩個步驟：匹配情境任務(wù)類別和設(shè)立具體情境任務(wù)。

匹配情境任務(wù)類別，就是根據(jù)測試項目內(nèi)容的知識類別，定制情境任務(wù)設(shè)置的向度。這一步驟需要明確三個問題：預(yù)測內(nèi)容歸屬事實性知識、概念性知識、程序性知識還是反省認知知識？不同的知識維度針對具體學(xué)生需要什么學(xué)習(xí)水平？需提供怎樣的測試任務(wù)或工具來支撐？根據(jù)分析，選擇相應(yīng)情境任務(wù)的類別，包括識別性任務(wù)、表達性任務(wù)、操作性任務(wù)和動作性任務(wù)。識別性任務(wù)測試的是學(xué)生對事實性知識的記憶、認知能力；表達性任務(wù)主要考查學(xué)生的語言交流能力，包含口頭表達和書面表達；操作性任務(wù)是為考查學(xué)生的實踐能力，要求完成一系列技能動作；動作性任務(wù)重點為表演、動作技能的評估[8]。

在明確情境任務(wù)類別后，再通過任務(wù)設(shè)置六元素，即目標、角色、對象、情境、組織、表現(xiàn)（制品）或標準，來設(shè)計完整的非紙筆測試任務(wù)。表4清晰地闡釋了“說清楚”的測試情境任務(wù)的設(shè)置過程。

（五）整合測試方案

針對各項測試要素的情境任務(wù)設(shè)置完成后，需要進行整合，即確定組合模式和呈現(xiàn)模式。整合是基于考查內(nèi)容的難度和完成時間，進行任務(wù)統(tǒng)整和數(shù)量擬定。任務(wù)統(tǒng)整是為整個測試方案中設(shè)定一個充滿趣味性、挑戰(zhàn)性的大主題，并圍繞大主題修正分項測試的各個情境任務(wù)，形成一個大情境任務(wù)下的分任務(wù)整體；數(shù)量擬定是為保障測試的信度與效度，部分測試要素需要多個證據(jù)予以確認，因此須包含一組任務(wù)或題目，以確保測試精度。

（六）發(fā)布測試結(jié)果方案

教師應(yīng)該評估學(xué)生的唯一理由是為了做出更好的教育決策[2]52。無論哪種測試形式都不過是一種評估工具，更重要的是依據(jù)測試證據(jù)得出的推論，進而給予學(xué)生更好的學(xué)習(xí)反饋與指導(dǎo)。所以如何描述學(xué)生與任務(wù)之間的互動表現(xiàn)及如何報告學(xué)生測試結(jié)果，相比測試過程設(shè)計更為重要。

非紙筆測試的結(jié)果發(fā)布，不是以甄別和認定為目的，而是以“預(yù)估和支持學(xué)生后期發(fā)展”為旨歸。因此，測試結(jié)果發(fā)布應(yīng)以“測試分析報告”為形式，用描述性語言，針對測試項目的各個類別，分別回應(yīng)三個問題：任務(wù)完成中的個人表現(xiàn)是怎樣的？優(yōu)勢存在與待提高學(xué)習(xí)要素是什么？后期需要完成什么任務(wù)或工作？通過這三個問題的敘事，讓教師調(diào)整教學(xué)進程和策略，使學(xué)生明確學(xué)習(xí)現(xiàn)狀與改進方法，從而讓非紙筆測試更好地促進學(xué)生學(xué)習(xí)。

參考文獻：

[1]中華人民共和國教育部.義務(wù)教育語文課程標準（2022年版）[M].北京：北京師范大學(xué)出版社，2022：48.

[2]詹姆斯·波帕姆.教師課堂教學(xué)評價指南（第5版）[M].王本陸，趙婧，譯.重慶：重慶大學(xué)出版社，2010.

[3]埃貢·G.古貝等.第四代評估[M].秦霖，蔣燕玲，等譯.北京：中國人民大學(xué)出版社，2008：2.

[4]陸一萍.實證中心設(shè)計模式及其對漢語水平考試設(shè)計的啟示[J].中國考試，2019（2）：9.

[5]BRENNAN L R.Educational measurement（4th Ed.）[M].Westport，C T：Praeger Publishers，2006：141.

[6]楊志明，林蘭蘭.基于效度證據(jù)的英語測驗研發(fā)[J].教育測量與評估，2021（8）：5.

[7]中華人民共和國教育部.義務(wù)教育課程方案（2022年版）[M].北京：北京師范大學(xué)出版社，2022：15.

[8]周文葉.中小學(xué)表現(xiàn)性評價的理論與技術(shù)[M].上海：華東師范大學(xué)出版社，2019：86.

責任編輯：賈凌燕