效度論證范式下的ECD測(cè)試設(shè)計(jì)框架
——我國(guó)教育考試國(guó)家題庫(kù)的升級(jí)路徑之一

2016-06-05 14:19:55戴一飛

中國(guó)考試 2016年11期

關(guān)鍵詞：模型教育

戴一飛

戴一飛

進(jìn)入效度整體觀時(shí)期，測(cè)試效度研究衍變?yōu)橛帽M可能多的“證據(jù)”支持考試的有效性，效度論證成為檢驗(yàn)效度的基礎(chǔ)?！耙宰C據(jù)為中心的測(cè)試設(shè)計(jì)”（ECD）本著一切服務(wù)于效度論證的宗旨，依托計(jì)算機(jī)技術(shù)與思維，以教育測(cè)量與統(tǒng)計(jì)原理為方法，將測(cè)試設(shè)計(jì)過(guò)程模塊化，最大程度地使圍繞測(cè)試效度的全部證據(jù)聯(lián)系在一起，成就測(cè)試的“證據(jù)鏈”。我國(guó)教育考試國(guó)家題庫(kù)的升級(jí)可參考ECD的效度論證框架，以效度為重、以證據(jù)為先，建立被試思維和模塊思維，從根本上提高教育考試的科學(xué)性。

效度；效度驗(yàn)證；ECD；題庫(kù)

題庫(kù)是個(gè)舶來(lái)品，20世紀(jì)60年代誕生于英國(guó)，是目前世界各大考試機(jī)構(gòu)普遍接受和采用的心理測(cè)量技術(shù)與工作方式。題庫(kù)，同樣也是改革我國(guó)考試事業(yè)，改進(jìn)評(píng)價(jià)機(jī)制，提升理論創(chuàng)新的“抓手”，是改造考試的“器”[1]。我國(guó)教育考試國(guó)家題庫(kù)建設(shè)始于2006年①我國(guó)從20世紀(jì)80年代開(kāi)始關(guān)注題庫(kù)，初期研究以題庫(kù)的技術(shù)原理與方法介紹為主，在醫(yī)學(xué)、計(jì)算機(jī)科學(xué)、外語(yǔ)等具體學(xué)科的教學(xué)實(shí)踐中，嘗試建立小規(guī)模題庫(kù)，這一階段的理論與實(shí)踐積累為國(guó)家題庫(kù)建設(shè)奠定了基礎(chǔ)。，以教育部考試中心承擔(dān)國(guó)家題庫(kù)建設(shè)項(xiàng)目為標(biāo)志。截至目前，包括高考、研究生考試、自考、成人高考在內(nèi)的國(guó)家教育統(tǒng)一考試的全部科目都被列入題庫(kù)建設(shè)當(dāng)中，已經(jīng)形成了一定規(guī)模的以試題形式儲(chǔ)存的A類(lèi)題庫(kù)和以試卷形式儲(chǔ)存的B類(lèi)題庫(kù)[2]29。不少考試項(xiàng)目的題庫(kù)儲(chǔ)備初具規(guī)模，命題已實(shí)現(xiàn)日?；芾恚L(fēng)險(xiǎn)應(yīng)對(duì)能力有明顯提升[2]2。然而，受政治、社會(huì)、安全等多方面因素制約，以高考為代表的高利害大規(guī)模教育考試，依舊采用傳統(tǒng)的“入闈”命題方式，命題者非到考試結(jié)束，不得“出闈”，“泄題”的風(fēng)險(xiǎn)管控以封閉為主。客觀地講，我國(guó)的題庫(kù)建設(shè)仍在初級(jí)階段，距離集管理試題、組配試卷和報(bào)告分?jǐn)?shù)于一體的現(xiàn)代題庫(kù)還有一定距離。嚴(yán)格說(shuō)來(lái)，題庫(kù)若缺乏效度標(biāo)準(zhǔn)，其輸出的考試產(chǎn)品是解釋不了分?jǐn)?shù)含義的，而我國(guó)題庫(kù)在效度方面的設(shè)計(jì)，確有提升空間。新一輪高考改革要求考試主要服務(wù)于本科院校的招生，突出能力和素養(yǎng)考查，調(diào)整科目數(shù)量，外語(yǔ)實(shí)現(xiàn)一年多考；研究生考試、自考等大規(guī)模教育考試目前也都處于改革期，調(diào)整思路正在醞釀，頂層設(shè)計(jì)一觸即發(fā)；網(wǎng)絡(luò)媒體迅猛發(fā)展，老百姓對(duì)于國(guó)家教育考試關(guān)注度之高前所未有，社會(huì)監(jiān)督的力量不容小覷。面對(duì)這些挑戰(zhàn)，國(guó)家題庫(kù)究竟能做些什么？又該怎樣做？

筆者認(rèn)為，改良與升級(jí)國(guó)家題庫(kù)，突破點(diǎn)不再是硬件的更新?lián)Q代或追求入庫(kù)試卷的倍量，而應(yīng)該回歸理論建構(gòu)上來(lái)，將效度、信度、等值、分?jǐn)?shù)解釋等重要的心理測(cè)量概念整合進(jìn)題庫(kù)，這之中，尤以效度觀念的建立最為迫切。一項(xiàng)沒(méi)有效度做保證的考試，其使用風(fēng)險(xiǎn)是極大的。關(guān)注效度，關(guān)注教育測(cè)量的統(tǒng)計(jì)屬性，關(guān)注以分?jǐn)?shù)解釋為出發(fā)點(diǎn)的論證過(guò)程，建設(shè)“理論驅(qū)動(dòng)”[3]的國(guó)家題庫(kù)，是下一階段教育考試題庫(kù)升級(jí)的目標(biāo)與意義所在，也正是本文研究的著眼點(diǎn)。效度理論目前已發(fā)展到新的階段，效度整體觀影響下的效度論證范式，引發(fā)眾多測(cè)試模型的提出，本文擬選擇目前指導(dǎo)美國(guó)教育考試服務(wù)中心（Educational Testing Service,ETS）考試與評(píng)價(jià)工作的以證據(jù)為中心的測(cè)試設(shè)計(jì)框架（Evidence-Centered Design,ECD）作為研究對(duì)象，通過(guò)分析其工作方式，剖析這一框架對(duì)于效度論證的作用，指出ECD所蘊(yùn)含的思想方法對(duì)于升級(jí)國(guó)家題庫(kù)的意義。

1 發(fā)展中的效度理論

一項(xiàng)測(cè)試是否有效測(cè)量了它所想要測(cè)量的東西，是評(píng)價(jià)這項(xiàng)測(cè)試最重要的指標(biāo)，稱(chēng)之為效度（va?lidity），而那個(gè)“東西”，即某種“概念或?qū)傩浴?，被稱(chēng)為構(gòu)念（construct）①對(duì)于construct的翻譯有多種，除“構(gòu)念”外，也常被譯為“構(gòu)想”“結(jié)構(gòu)”以及“建構(gòu)”。[4]11。如今，心理測(cè)量學(xué)的話語(yǔ)體系中已不再簡(jiǎn)單地描述“一項(xiàng)考試的效度”是多少，是高還是低，因?yàn)樵跊](méi)有前提、也未加限定的情況下，這種討論既不正確，也無(wú)意義。效度更多地與“程度”“評(píng)價(jià)”和“判斷”這些關(guān)鍵詞聯(lián)系在一起，效度驗(yàn)證（validation）逐步取代對(duì)靜態(tài)意義上效度的觀察?；仡櫺Ф壤碚摰陌l(fā)展，大體經(jīng)歷了三個(gè)階段：20世紀(jì)50年代以前的單一效度觀時(shí)期，20世紀(jì)50年代至80年代中期的分類(lèi)效度觀時(shí)期，以及20世紀(jì)80年代中期至今的效度整體觀時(shí)期[5]87。

持單一效度觀者，把效度等同于相關(guān)系數(shù)，系數(shù)越大，預(yù)測(cè)能力越強(qiáng)，效度也就越好。美國(guó)標(biāo)準(zhǔn)化考試運(yùn)動(dòng)期間，以GRE、LSAT等教育考試為對(duì)象的研究，通常都會(huì)報(bào)告被試得分與其一年級(jí)期末成績(jī)的相關(guān)度，以此說(shuō)明考試的有效性[6]。效度在當(dāng)時(shí)是以系數(shù)呈現(xiàn)出的客觀概念。20世紀(jì)50年代起，對(duì)效度的認(rèn)識(shí)進(jìn)入到“三分說(shuō)”（Trinitarian doc?trine）時(shí)期，效度被定義為內(nèi)容效度、效標(biāo)效度和構(gòu)念效度三種類(lèi)型。其中，效標(biāo)效度是對(duì)早先提出的預(yù)測(cè)效度和同時(shí)效度兩個(gè)概念的整合?！皹?gòu)念”第一次被作為效度類(lèi)型的識(shí)別標(biāo)準(zhǔn)。分類(lèi)效度觀對(duì)效度理論的后續(xù)發(fā)展影響頗為深遠(yuǎn)，三種“效度類(lèi)型”沿用至今。20世紀(jì)80年代中后期，對(duì)于效度的理解，進(jìn)入整體觀時(shí)期。起先，構(gòu)念效度在“三分說(shuō)”中占據(jù)上風(fēng)，進(jìn)而，構(gòu)念又將構(gòu)念效度取而代之?？寺“秃眨↙ee J.Cronbach）在第二版《教育測(cè)量》（Educational Measurement）中指出，“效度印證的不是測(cè)試本身，而是對(duì)具體施測(cè)過(guò)程中所形成數(shù)據(jù)的解釋”[7]。從此，效度內(nèi)涵已從單純的“某項(xiàng)考試的效度”轉(zhuǎn)為“分?jǐn)?shù)解釋的效度”。在1985年版《教育與心理測(cè)試標(biāo)準(zhǔn)》（Standards for Educational and Psychological Testing，下文簡(jiǎn)稱(chēng)《標(biāo)準(zhǔn)》）中，效度的定義被修訂為“依據(jù)分?jǐn)?shù)所做的推理是否適恰、是否富有意義、是否具備實(shí)用性。考試的效度驗(yàn)證就是搜集證據(jù)來(lái)支持上述推理的過(guò)程”[8]。值得注意的是，此時(shí)的“效度類(lèi)型”被“證據(jù)類(lèi)型”所取代，內(nèi)容證據(jù)與效標(biāo)證據(jù)被看作是對(duì)“與構(gòu)念有關(guān)的證據(jù)”的補(bǔ)充，信度也成為效度證據(jù)的一種。梅西克（Samuel J.Messick）是持效度整體觀的代表人物，他提出“經(jīng)驗(yàn)證據(jù)和理論依據(jù)在多大程度上指出基于測(cè)驗(yàn)分?jǐn)?shù)或是其他評(píng)估方式所做的推斷或采取的行動(dòng)是否充分和適當(dāng)？對(duì)這個(gè)問(wèn)題的綜合評(píng)價(jià)性判斷就是效度”[9][5]89。這一定義與2014版《標(biāo)準(zhǔn)》對(duì)效度的闡釋——“在具體使用測(cè)驗(yàn)時(shí)，證據(jù)與理論的積累對(duì)分?jǐn)?shù)解釋的支持程度”[4]225已十分接近。從此，效度研究的邏輯衍變?yōu)椤坝帽M可能多的證據(jù)去支持考試”[10]。

2 以論證為基礎(chǔ)的效度驗(yàn)證

用盡可能多的“證據(jù)”證明考試的有效性，成為效度驗(yàn)證的基礎(chǔ)，證據(jù)即為效度。在這種效度觀的影響下，效度驗(yàn)證的內(nèi)容也發(fā)生著變化：?jiǎn)我恍Ф扔^下的效度驗(yàn)證，是對(duì)相關(guān)系數(shù)的計(jì)算；分類(lèi)效度觀下的效度驗(yàn)證是多重標(biāo)準(zhǔn)的效度證明過(guò)程，有經(jīng)驗(yàn)意義上的，也有實(shí)證意義上的；整體效度觀下的效度驗(yàn)證則體現(xiàn)為對(duì)作為統(tǒng)一整體的效度的論證過(guò)程，關(guān)注的不僅是形式邏輯與數(shù)理推理，還包括對(duì)前提可接受性的反復(fù)拷問(wèn)與證成。

如果說(shuō)梅西克在第三版《教育測(cè)量》中對(duì)于效度的定義是效度理論的重大突破，那么第四版《教育測(cè)量》中，凱恩（Michael T.Kane）使用“效度驗(yàn)證”而非“效度”為標(biāo)題解釋效度理論，可以說(shuō)是對(duì)梅西克將效度問(wèn)題落腳到“評(píng)價(jià)”（evaluation）的進(jìn)一步發(fā)展[11]，即強(qiáng)調(diào)證據(jù)收集的過(guò)程性。凱恩指出，效度驗(yàn)證包含兩種論證，一是解釋性論證（interpretive argument），二是效度論證（validity argument），前者運(yùn)用“如果-那么”（If-Then）規(guī)則，對(duì)證據(jù)所支持的分?jǐn)?shù)解釋與運(yùn)用作出具體說(shuō)明，而后者則是對(duì)解釋性論證的評(píng)價(jià)，欲確認(rèn)對(duì)分?jǐn)?shù)的解釋或運(yùn)用是有效的，需首先認(rèn)定其解釋性論證具有相關(guān)性，推理依據(jù)具有合理性，假設(shè)前提具有可接受性[12]23。從形式邏輯來(lái)看，只要結(jié)論是按照邏輯規(guī)則得出的，推理就有效，解釋性論證運(yùn)用的就是這種推理邏輯，但問(wèn)題是解釋性論證論據(jù)的成立卻不僅僅依賴(lài)于形式邏輯，有時(shí)還會(huì)依據(jù)假設(shè)性推理或非形式邏輯推理[12]23。據(jù)此，效度驗(yàn)證則不僅要關(guān)照“分?jǐn)?shù)的合理解釋”，還需要考慮“分?jǐn)?shù)解釋的可接受性”[13]，對(duì)那些看似為真的前提作出論證。效度驗(yàn)證不再是一個(gè)封閉的步驟或環(huán)節(jié)，而是不斷收集多種證據(jù)，在結(jié)論與證據(jù)之間“來(lái)回審視”[14]的效度論證過(guò)程①在一定意義上，效度論證與法律論證有相似之處。此處借用德國(guó)法學(xué)家卡爾·恩吉施（Karl Engisch）對(duì)法律判斷形成中等置的描述：“等置是事實(shí)與規(guī)范相互關(guān)照,在事實(shí)與規(guī)范之間來(lái)回審視?！?。

基于效度驗(yàn)證中存在非形式邏輯的現(xiàn)實(shí)，心理測(cè)量學(xué)界開(kāi)始尋找效度論證的方法。非形式邏輯創(chuàng)始人圖爾敏（Stephen E.Toulmin）提出的論證模型為效度論證提供了依據(jù)。凱恩運(yùn)用圖爾敏模型構(gòu)建出具體的效度論證模型，嘗試解決證明推論理?yè)?jù)本身的成立問(wèn)題[12]27-28。圖爾敏認(rèn)為，在作出某種結(jié)論之前，必須充分證成這種結(jié)論，且當(dāng)結(jié)論受到挑戰(zhàn)時(shí)，能夠?qū)ζ渥鞒鲛q護(hù)。圖1展示的是圖爾敏模型的六個(gè)基本要素及其相互關(guān)系。

圖1

數(shù)據(jù)（Datum）是運(yùn)用該模型推衍結(jié)論（Claim）的起點(diǎn)，對(duì)考生作答情況的記錄即為數(shù)據(jù)，分?jǐn)?shù)即為結(jié)論。在考生的作答情況與分?jǐn)?shù)之間，存在一個(gè)正當(dāng)化的過(guò)程（Warrant），為正當(dāng)化提供支持的證據(jù)就是支援（Backing）。這一過(guò)程中，一方面需要通過(guò)限定（Qualifier）增強(qiáng)結(jié)論的可接受度，另一方面需要排除例外情形對(duì)結(jié)論造成的反駁（Rebuttal）。效度論證中的每一項(xiàng)解釋性論據(jù)都經(jīng)歷著若干次從數(shù)據(jù)到結(jié)論的論證過(guò)程，且前一次論證的結(jié)論將成為下一次論證的數(shù)據(jù)。

在凱恩等人所描繪的效度驗(yàn)證論據(jù)鏈基礎(chǔ)上[15]，語(yǔ)言測(cè)試專(zhuān)家巴赫曼（Lyle F.Bachman）增加了一項(xiàng)推論，即基于分?jǐn)?shù)的決策。在此，借用巴赫曼延伸后的論證鏈（圖2）[16-17]來(lái)說(shuō)明圖爾敏論證模型在效度論證中的具體運(yùn)用。

如何證明從考生作答情況的數(shù)據(jù)觀察推導(dǎo)出分?jǐn)?shù)以及分?jǐn)?shù)的使用是正當(dāng)?shù)?？從觀察分?jǐn)?shù)概括出全域分?jǐn)?shù)的正當(dāng)化理由，是統(tǒng)計(jì)意義上的從樣本均值到期望值的概括過(guò)程，對(duì)這一過(guò)程的支援包括具有代表性的樣本所提供的證據(jù)。從全域分?jǐn)?shù)外推出目標(biāo)分?jǐn)?shù)的正當(dāng)化理由，是回歸方程（regres?sion equation），對(duì)回歸方程的支援包括對(duì)于測(cè)試分?jǐn)?shù)與效標(biāo)分?jǐn)?shù)之間相互關(guān)系的實(shí)證研究。解釋分?jǐn)?shù)時(shí)的推理往往需要明確的限定，如標(biāo)準(zhǔn)誤差和置信區(qū)間，二者表明從觀察分?jǐn)?shù)到全域分?jǐn)?shù)推理過(guò)程的不確定性，再如從測(cè)試分?jǐn)?shù)到標(biāo)準(zhǔn)分?jǐn)?shù)的推演伴隨著相關(guān)系數(shù)的標(biāo)準(zhǔn)誤差?；谀繕?biāo)分?jǐn)?shù)的決策往往會(huì)通過(guò)限定來(lái)增強(qiáng)說(shuō)服力，例如為擇業(yè)提供的測(cè)試，同分班測(cè)試或是升學(xué)測(cè)試所需的限定就有很大差異。而在某些情況下，即使給出了限定，也無(wú)法實(shí)現(xiàn)從數(shù)據(jù)、正當(dāng)化再到結(jié)論的跳躍，于是反駁發(fā)生了[18]。從數(shù)據(jù)到結(jié)論的正當(dāng)化過(guò)程，即便已經(jīng)加了限定，依然不能被接受，此時(shí)對(duì)于分?jǐn)?shù)的解釋性論證就無(wú)法成立。

效度內(nèi)涵在不斷發(fā)展，以論證的方式進(jìn)行效度驗(yàn)證是未來(lái)的必然趨勢(shì)[16-17]。然而，僅有論證模型與概念性術(shù)語(yǔ)，并不足以具體設(shè)計(jì)和實(shí)施測(cè)試，考試機(jī)構(gòu)需要更加明確具體的“工具”，即用某種結(jié)構(gòu)或框架來(lái)整合論證模型和術(shù)語(yǔ)，使整個(gè)測(cè)試從設(shè)計(jì)到評(píng)價(jià)的全部過(guò)程更為清晰、操作性更強(qiáng)[19]1。ECD正是這樣一種框架性的方案選擇和思想方法。

圖2

3 ECD：效度論證的實(shí)施框架

ECD起初是ETS于1997年設(shè)立的一個(gè)研發(fā)項(xiàng)目，由梅斯雷弗（Robert J.Mislevy）、斯坦伯格（Lin?da S.Steinberg）以及阿蒙德（Russell G.Almond）三人負(fù)責(zé)[20]。該項(xiàng)目最直接的理論基礎(chǔ)來(lái)自1994年梅斯雷弗本人對(duì)于測(cè)試中證據(jù)與推理問(wèn)題所做的闡釋?zhuān)赋鰺o(wú)論何種類(lèi)型的教育評(píng)價(jià)，本質(zhì)上關(guān)注的是對(duì)學(xué)生知識(shí)、技能和成就作出一定的推理，評(píng)價(jià)可以看作“基于證據(jù)進(jìn)行推理”的過(guò)程[21-22]。隨后幾年，梅斯雷弗等人陸續(xù)發(fā)表針對(duì)該框架的研究成果，并作出更為系統(tǒng)的闡釋[19，23]。目前，ECD已成為美國(guó)教育評(píng)價(jià)領(lǐng)域主要的應(yīng)用模型之一[24]，也是指導(dǎo)ETS開(kāi)發(fā)和實(shí)施具體考試評(píng)價(jià)產(chǎn)品的平臺(tái)。梅西克以構(gòu)念為中心的效度觀對(duì)梅斯雷弗開(kāi)發(fā)ECD有直接影響，證據(jù)推理、統(tǒng)計(jì)模型、概率推理等理論發(fā)展，計(jì)算機(jī)技術(shù)在心理測(cè)量領(lǐng)域的應(yīng)用，令ECD的出現(xiàn)成為可能和必要。在整體效度觀的影響下，ECD試圖整合眾多證據(jù)，協(xié)調(diào)不同證據(jù)的銜接，以便讓所有證據(jù)都指向效度驗(yàn)證這個(gè)終極目標(biāo)。微觀上，ECD包含一個(gè)概念性框架和四個(gè)具體發(fā)布環(huán)節(jié)，概念性框架是六種模型的組合，發(fā)布環(huán)節(jié)是對(duì)各模型動(dòng)態(tài)嵌入不同測(cè)試運(yùn)行階段的描述；宏觀上，ECD還意味著由五部分組成的層級(jí)關(guān)系，以及將上述各項(xiàng)步驟與各種信息結(jié)合在一起的測(cè)試循環(huán)（Delivery Cycle）。

3.1 運(yùn)行方式①此部分內(nèi)容主要是指計(jì)算機(jī)輔助環(huán)境下的測(cè)試設(shè)計(jì)。

3.1.1 概念性測(cè)試框架

概念性測(cè)試框架（Conceptual Assessment Framework,CAF）[23]6-13反映的是一項(xiàng)測(cè)試的設(shè)計(jì)藍(lán)圖，具體包括六種模型，即考生模型（Student Mod?el）、證據(jù)模型（Evidence Model）、任務(wù)模型（Task Model）、組卷模型（Assembly Model）、呈現(xiàn)模型（Pre?sentation Model）和交付系統(tǒng)模型（Delivery SystemModel）。CAF的每個(gè)模型都是圍繞著“要測(cè)量什么”“怎樣測(cè)量所想要測(cè)量的東西”這兩個(gè)問(wèn)題展開(kāi)的。

考生模型是眾多無(wú)法直接觀察到的變量的集合，這些變量來(lái)自考生作答情況在概率上的實(shí)時(shí)調(diào)整?？忌趹?yīng)試狀態(tài)下對(duì)不同試題作出不同反饋，計(jì)算機(jī)再根據(jù)最新的反饋，給出下一個(gè)任務(wù)?？忌Ｐ吞峁┝丝忌谧鞔鸱矫娴臄?shù)據(jù)，體現(xiàn)為概率分布。

證據(jù)模型包含證據(jù)規(guī)則（Evidence Rules）與測(cè)量模型（Measurement Model）兩部分。證據(jù)規(guī)則規(guī)定如何從考生當(dāng)下的作答情況（可觀察變量）歸納考生的水平，屬于應(yīng)答評(píng)分的數(shù)據(jù)。測(cè)量模型提供的是有關(guān)考生模型變量與可觀察變量之間的關(guān)聯(lián)性信息。經(jīng)典測(cè)量理論、項(xiàng)目反應(yīng)理論、認(rèn)知診斷模型等都屬于測(cè)量模型，這些模型指導(dǎo)了總結(jié)性評(píng)分的過(guò)程，是對(duì)整個(gè)測(cè)試任務(wù)中各項(xiàng)證據(jù)的積累與整合。

任務(wù)模型解決的是如何向證據(jù)模型提供證據(jù)的問(wèn)題?？忌鷮⒖吹皆鯓拥臏y(cè)試任務(wù)、作答后將產(chǎn)生怎樣的結(jié)果都由任務(wù)模型來(lái)完成。任務(wù)模型包含不同的任務(wù)模型變量，體現(xiàn)為各項(xiàng)任務(wù)的屬性，以及這些屬性如何同考生看到的測(cè)試任務(wù)和作答后的反饋相關(guān)聯(lián)。任務(wù)模型可以幫助命題者寫(xiě)入試題內(nèi)容，幫助測(cè)量專(zhuān)家調(diào)配題量。不同的任務(wù)模型產(chǎn)生不同的任務(wù)組合，呈現(xiàn)出不同的試卷內(nèi)容。這種將任務(wù)模塊化的做法，系統(tǒng)控制了提供一套試卷所需試題的證據(jù)材料和統(tǒng)計(jì)參數(shù)，其優(yōu)勢(shì)在于，可以直接對(duì)這些任務(wù)組合進(jìn)行評(píng)價(jià)，并提供了開(kāi)放性設(shè)置任務(wù)組合的途徑。

組卷模型是將考生模型、證據(jù)模型和任務(wù)模型串接在一起。該模型以精準(zhǔn)測(cè)量考生模型變量為目的，在協(xié)調(diào)不同任務(wù)間相互關(guān)系的同時(shí)，恰當(dāng)?shù)胤从晨己藘?nèi)容的深度與廣度。該模型可以幫助計(jì)算機(jī)回答“需要對(duì)被試測(cè)量到什么程度”的問(wèn)題。

呈現(xiàn)模型規(guī)定了試卷的呈現(xiàn)方式。相同的考試內(nèi)容，既可以紙筆方式呈現(xiàn)，也可以通過(guò)計(jì)算機(jī)網(wǎng)絡(luò)呈現(xiàn)，區(qū)別在于前者只需要向打印機(jī)發(fā)出指令，而后者卻需要編寫(xiě)代碼來(lái)實(shí)現(xiàn)。

交付系統(tǒng)模型集學(xué)生、證據(jù)、任務(wù)、組卷以及呈現(xiàn)模型于一體，對(duì)各個(gè)模型的共性?xún)?nèi)容做了統(tǒng)一規(guī)定，如平臺(tái)、安全以及時(shí)間控制等，協(xié)助不同類(lèi)別的模型進(jìn)行搭配，以實(shí)現(xiàn)不同的測(cè)試目的。

依梅斯雷弗等人看來(lái)，這六種模型是溝通測(cè)試的效度論證與實(shí)操環(huán)節(jié)的橋梁。通過(guò)這些模型，一項(xiàng)考試所考核的知識(shí)水平與技能、測(cè)量條件、各種證據(jù)都得以具象化。圖3是交付系統(tǒng)模型的示意圖，直觀反映了各模型之間的關(guān)聯(lián)。

3.1.2 發(fā)布環(huán)節(jié)

圖3 交付系統(tǒng)模型示意圖

如果說(shuō)上述模型屬于測(cè)試設(shè)計(jì)的靜態(tài)框架，發(fā)布環(huán)節(jié)（Four-process Delivery Architecture for As?sessment Delivery）[19]25就是把靜態(tài)框架串聯(lián)起來(lái)的動(dòng)態(tài)過(guò)程。一項(xiàng)計(jì)算機(jī)自適應(yīng)測(cè)試的運(yùn)行離不開(kāi)以下四個(gè)環(huán)節(jié)，即呈現(xiàn)（Presentation Process）、證據(jù)識(shí)別（Evidence Identification，又稱(chēng)Response Process?ing）、證據(jù)匯總（Evidence Accumulation，又稱(chēng)Sum?mary Scoring）以及活動(dòng)選擇（Activity Selection），各環(huán)節(jié)同時(shí)與任務(wù)/證據(jù)合成庫(kù)（Task/Evidence Com?posite Library）發(fā)生聯(lián)系——接納數(shù)據(jù)和輸出數(shù)據(jù)?；顒?dòng)選擇環(huán)節(jié)負(fù)責(zé)從任務(wù)庫(kù)中選擇考試任務(wù)，然后將呈現(xiàn)該題目的指令發(fā)送給呈現(xiàn)環(huán)節(jié)，由該環(huán)節(jié)將試題展現(xiàn)給考生，而這些考試任務(wù)是由任務(wù)模型設(shè)計(jì)好的。呈現(xiàn)環(huán)節(jié)收集到考生的作答情況之后，將其傳遞給證據(jù)識(shí)別環(huán)節(jié)，由該環(huán)節(jié)根據(jù)證據(jù)模型所規(guī)定的方法來(lái)完成應(yīng)答過(guò)程，把所識(shí)別的作答結(jié)果通過(guò)證據(jù)模型定義的評(píng)價(jià)程序給出可觀察變量的值。這個(gè)值傳遞給證據(jù)匯總環(huán)節(jié)，由其通過(guò)考生模型變量的值更新概率分布，得到總結(jié)性評(píng)分反饋，立即儲(chǔ)存后用于下一次分?jǐn)?shù)報(bào)告。證據(jù)匯總向活動(dòng)選擇環(huán)節(jié)提供信息，幫助其判斷選擇何種考試任務(wù)。圖4反映了這四個(gè)環(huán)節(jié)的相互關(guān)系。

3.1.3 ECD層級(jí)

圖4 計(jì)算機(jī)自適應(yīng)測(cè)試的四個(gè)發(fā)布環(huán)節(jié)

表1 ECD層級(jí)匯總

ECD層級(jí)（ECD Layers）[19]6是2005年梅斯雷弗等人在ECD概念性測(cè)試框架和四個(gè)發(fā)布環(huán)節(jié)的基礎(chǔ)上提出的新概念，是對(duì)ECD框架的完善與拓展。根據(jù)表1，CAF與發(fā)布環(huán)節(jié)只是ECD層級(jí)中的兩個(gè)層級(jí)，CAF之前增加了內(nèi)容分析與內(nèi)容模型兩個(gè)層級(jí)，在CAF與測(cè)試發(fā)布之間，增加了測(cè)試實(shí)施這個(gè)層級(jí)。從表1所反映的各層級(jí)作用與核心內(nèi)容來(lái)看，內(nèi)容分析與內(nèi)容模型是同構(gòu)念效度以及效度論證理論相呼應(yīng)的，也間接同分?jǐn)?shù)的解釋發(fā)生關(guān)聯(lián)。內(nèi)容分析具體表現(xiàn)在考核內(nèi)容方面，由各專(zhuān)業(yè)領(lǐng)域的專(zhuān)家、學(xué)者作出規(guī)定，而內(nèi)容模型則主要由測(cè)試設(shè)計(jì)者負(fù)責(zé)，二者協(xié)同合作，確定測(cè)試的內(nèi)容與結(jié)構(gòu)。測(cè)試實(shí)施是將CAF所描繪的測(cè)試各個(gè)部分實(shí)際制造出來(lái)，包括命題者撰寫(xiě)考試任務(wù)、測(cè)試模型的匹配、評(píng)分細(xì)則的制定、仿真程序的編制等內(nèi)容。

3.2 設(shè)計(jì)特點(diǎn)

3.2.1 以證據(jù)為中心，一切設(shè)計(jì)服務(wù)于效度論證

在證據(jù)即效度這一觀念的影響下，對(duì)于測(cè)試效度的“計(jì)算”，轉(zhuǎn)變?yōu)閷?duì)于測(cè)試相關(guān)證據(jù)的收集、整理、解釋、論證，ECD的設(shè)計(jì)完全圍繞這個(gè)主題。ECD處理和整理證據(jù)的方式并非截然分開(kāi)，而是彼此支持，互為因果，為效度論證提供了完整的證據(jù)鏈。ECD是一種問(wèn)題導(dǎo)向的設(shè)計(jì)，即不斷地去解答以下這些問(wèn)題：最終要形成怎樣的成績(jī)報(bào)告？如何用分?jǐn)?shù)來(lái)說(shuō)明和解釋這份報(bào)告？說(shuō)明與解釋的理由是什么？證據(jù)有哪些？如何收集和處理這些證據(jù)？這些證據(jù)如何能支持結(jié)論？證據(jù)是否可靠？在不斷回答這些問(wèn)題的過(guò)程中，形成ECD的工作模型。

2014版《標(biāo)準(zhǔn)》列舉了五種效度證據(jù)：考試內(nèi)容（Test Content）、應(yīng)答過(guò)程（Response Processes）、試卷的內(nèi)部結(jié)構(gòu)（Internal Structure）、與其他變量的關(guān)系（Relations to Other Variables）以及測(cè)試的效度與社會(huì)效應(yīng)（Validity and Consequences of Testing）[4]14-21。ECD巧妙地將這五種證據(jù)關(guān)聯(lián)起來(lái)，并為每一種證據(jù)都提供了嵌入模型。

考試內(nèi)容是關(guān)于測(cè)量對(duì)象即構(gòu)念的證據(jù)，主要體現(xiàn)在任務(wù)模型當(dāng)中?？荚嚈C(jī)構(gòu)將規(guī)定好各種屬性的試題放入題庫(kù)，根據(jù)具體需求，對(duì)試題在數(shù)量上和類(lèi)型上進(jìn)行組合，向考生呈現(xiàn)試卷內(nèi)容?？荚噧?nèi)容能否充分反映某一類(lèi)專(zhuān)業(yè)能力，由專(zhuān)家進(jìn)行研判，與構(gòu)念形成對(duì)應(yīng)關(guān)系，在一定程度上反映與內(nèi)容有關(guān)的證據(jù)的有效性，但尚不足以建立起分?jǐn)?shù)解釋和效度論證的證據(jù)鏈。

ECD的證據(jù)模型可以提供應(yīng)答過(guò)程中產(chǎn)生的證據(jù)以及與試卷內(nèi)部結(jié)構(gòu)相關(guān)的證據(jù)?？忌膽?yīng)答過(guò)程反映出考生能力表現(xiàn)與構(gòu)念之間的匹配關(guān)系[4]15。具體來(lái)說(shuō)，考試收集的證據(jù)不是考生能否答對(duì)某一道試題，而是其究竟能否把試題所希望考查的能力水平體現(xiàn)出來(lái)。應(yīng)答環(huán)節(jié)可以收集包括寫(xiě)作習(xí)慣、作答時(shí)間、視線活動(dòng)的分配等證據(jù)，目前的計(jì)算機(jī)技術(shù)可以輕易地記錄下這些痕跡。應(yīng)答過(guò)程還可以佐證閱卷質(zhì)量，通過(guò)記錄閱卷習(xí)慣，判斷閱卷者是否嚴(yán)格按照評(píng)分標(biāo)準(zhǔn)打分。與試卷內(nèi)部結(jié)構(gòu)相關(guān)的證據(jù)體現(xiàn)為各試題之間以及試卷各部分的組合在多大程度上與分?jǐn)?shù)解釋的依據(jù)（即構(gòu)念）相符合[4]16。當(dāng)測(cè)試目的單一、構(gòu)念指向明確時(shí)，題目的同質(zhì)化程度相對(duì)就高，反之亦然。

基于考試同其他變量之間的關(guān)系獲得的證據(jù)，反映了這些關(guān)系同解釋分?jǐn)?shù)的構(gòu)念相一致的程度，主要包括聚合證據(jù)與區(qū)別證據(jù)（convergent and dis?criminant evidence）、與效標(biāo)之間的關(guān)聯(lián)性以及效度概化（validity generalization）。效度和社會(huì)效應(yīng)方面的證據(jù)主要體現(xiàn)為考試產(chǎn)生的社會(huì)后果是否同預(yù)期相吻合。ECD的應(yīng)答環(huán)節(jié)和總結(jié)性評(píng)分環(huán)節(jié)在測(cè)試實(shí)際運(yùn)行時(shí)，不斷收集即時(shí)性證據(jù)與結(jié)論性證據(jù)，各種數(shù)據(jù)的處理過(guò)程被完整記錄下來(lái)，當(dāng)需要同外部變量做相關(guān)分析時(shí)，可隨時(shí)調(diào)用。

3.2.2 以計(jì)算機(jī)技術(shù)與思維為依托，測(cè)試的設(shè)計(jì)過(guò)程模塊化

專(zhuān)家系統(tǒng)、軟件設(shè)計(jì)以及法律論證是ECD框架的主要技術(shù)與理論基礎(chǔ)[19]1。ECD是基于計(jì)算機(jī)輔助測(cè)試技術(shù)的設(shè)計(jì)框架，對(duì)于考試各個(gè)方面的理解都需要考慮計(jì)算機(jī)的應(yīng)用問(wèn)題。傳統(tǒng)上，考試工作包含命題、考務(wù)和評(píng)價(jià)三個(gè)方面。在命題環(huán)節(jié)，由命題者寫(xiě)題、組卷、保管；在考務(wù)環(huán)節(jié)，由考務(wù)人員儲(chǔ)存、運(yùn)送、監(jiān)考、回收、閱卷、發(fā)布成績(jī)；在評(píng)價(jià)環(huán)節(jié)，由評(píng)價(jià)者對(duì)試卷質(zhì)量做分析與評(píng)估。此種模式是按照工作性質(zhì)劃分的。ECD提供的是另一種測(cè)試設(shè)計(jì)思路，一開(kāi)始就以效度驗(yàn)證為工作核心，然后圍繞這個(gè)目標(biāo)將任務(wù)拆分為六大模塊，這些模塊是建立在計(jì)算機(jī)技術(shù)基礎(chǔ)之上的，命題、考務(wù)與評(píng)價(jià)三部門(mén)都可以使用不同的模塊進(jìn)行工作，也可以從不同的模塊中獲取數(shù)據(jù)與資源。由于考試設(shè)計(jì)任務(wù)已被盡可能細(xì)化為一個(gè)個(gè)計(jì)算機(jī)指令或程序，當(dāng)考試的某些方面修訂或更新時(shí)，只需要修改相應(yīng)模塊的具體內(nèi)容即可，不會(huì)影響到其他模塊的運(yùn)行，有利于更加便捷和高效地將各種新數(shù)據(jù)、新資料納入修訂后的考試當(dāng)中。ECD的效度驗(yàn)證過(guò)程基于不同的工作模塊展開(kāi)，具有開(kāi)放性與持續(xù)性。

4 ECD與我國(guó)教育考試國(guó)家題庫(kù)的升級(jí)

曾有專(zhuān)家在我國(guó)恢復(fù)高考30年時(shí)對(duì)考試技術(shù)的變革做過(guò)述評(píng)，總結(jié)出四項(xiàng)考試手段和技術(shù)方面的革新，即網(wǎng)上報(bào)名技術(shù)的興起、網(wǎng)上閱卷的實(shí)施、網(wǎng)絡(luò)化考試的實(shí)施以及電子考場(chǎng)監(jiān)控技術(shù)的運(yùn)用[25]。如今，高考恢復(fù)已近40年，我國(guó)在考試技術(shù)方面的發(fā)展仍然停留在這四個(gè)方面。在這四個(gè)方面當(dāng)中，網(wǎng)上報(bào)名、網(wǎng)上閱卷以及電子考場(chǎng)監(jiān)控都屬于考務(wù)技術(shù)，與命題、評(píng)價(jià)相關(guān)的僅有網(wǎng)絡(luò)化考試一項(xiàng)。盡管目前我國(guó)已有相當(dāng)多考試采用了網(wǎng)考技術(shù)，積攢了豐富的經(jīng)驗(yàn)，但以高考為代表的高利害的大規(guī)模教育考試幾乎無(wú)一采用網(wǎng)絡(luò)化考試技術(shù)。當(dāng)前，教育考試題庫(kù)已初具規(guī)模，高考等國(guó)家重大教育考試都在題庫(kù)技術(shù)的支持范圍之內(nèi)，如能真正地將計(jì)算機(jī)輔助考試、網(wǎng)絡(luò)化考試以及作為技術(shù)支持的題庫(kù)運(yùn)用到這些考試當(dāng)中，將從實(shí)質(zhì)上提升考試的質(zhì)量。

美國(guó)ETS所運(yùn)用的ECD測(cè)試設(shè)計(jì)框架，嚴(yán)格說(shuō)來(lái)，并不是題庫(kù)建設(shè)本身，而是在架構(gòu)上高于題庫(kù)的測(cè)試設(shè)計(jì)框架和統(tǒng)領(lǐng)測(cè)試設(shè)計(jì)的范式與思想。它將題庫(kù)納入其中，讓題庫(kù)在一個(gè)測(cè)試網(wǎng)或是測(cè)試循環(huán)[19]27中發(fā)揮作用。ECD框架與運(yùn)行方式可為我國(guó)的國(guó)家題庫(kù)建設(shè)提供以下三方面的啟示。

首先，建立效度思維，將效度論證納入題庫(kù)升級(jí)的設(shè)計(jì)考量。在現(xiàn)代教育和心理測(cè)量學(xué)中，效度是一個(gè)統(tǒng)一的概念，它需要有多方面的證據(jù)來(lái)支持根據(jù)考試結(jié)果對(duì)考生心理結(jié)構(gòu)所作出的推測(cè)；它關(guān)注的是考試結(jié)果的解釋?zhuān)皇强荚嚤旧?；它包含了?duì)考試結(jié)果使用所產(chǎn)生的社會(huì)后果的評(píng)價(jià)[26]33。效度是教育心理測(cè)量的基本要求，也是大規(guī)模教育考試科學(xué)屬性的基本要素之一[26]31。效度論證既是考試質(zhì)量的求證，也是考試質(zhì)量的說(shuō)明[27]。在分分必爭(zhēng)的今天，分?jǐn)?shù)以及分?jǐn)?shù)解釋的效力如何，要看考試的效度。題庫(kù)可以做很多事情，但最核心的功能是輔助命題，命題質(zhì)量的高低應(yīng)以效度為衡量標(biāo)準(zhǔn)，因而題庫(kù)的設(shè)計(jì)不僅應(yīng)該確保存儲(chǔ)試題的安全性，更應(yīng)該為確保試題的分?jǐn)?shù)可解釋性與可接受性服務(wù)。

其次，建立被試思維，題庫(kù)設(shè)計(jì)要從一元視角轉(zhuǎn)變?yōu)槎暯?。題庫(kù)的使用者是考試機(jī)構(gòu)，但題庫(kù)的服務(wù)對(duì)象卻絕非只是考試機(jī)構(gòu)。從手段來(lái)看，題庫(kù)是運(yùn)用科技手段命題的好方法，但從目的來(lái)看，題庫(kù)幫助下產(chǎn)出的試題，依然要面對(duì)考生，面對(duì)考生家長(zhǎng)，面對(duì)整個(gè)社會(huì)，這就不單單是一個(gè)方法問(wèn)題。如果題庫(kù)建設(shè)只站在考試機(jī)構(gòu)這一元的施考者視角，那么往往采用的是以效率與安全優(yōu)先的價(jià)值判斷，尤其是在我國(guó)的教育體制之下，考試的效度問(wèn)題容易被忽略。這種一元視角帶來(lái)的最大隱憂就是，經(jīng)不起社會(huì)的拷問(wèn)，一旦有人質(zhì)疑試卷的有效性，如何應(yīng)對(duì)會(huì)成為最為棘手的事情。且不說(shuō)完整地將整個(gè)效度論證的證據(jù)鏈連接起來(lái)，就連分?jǐn)?shù)意義的解釋都難以完成。建立施考者與被試的二元視角，對(duì)于題庫(kù)的升級(jí)非常關(guān)鍵。任何考試最終都要向被試報(bào)告成績(jī)或結(jié)果，這個(gè)結(jié)果對(duì)于考試機(jī)構(gòu)而言，往往最容易被忽略，卻恰恰是考生最為看重的。如果不能建立起被試思維，不從考生角度看待考試，考試恐怕只能稱(chēng)得上是一種行政任務(wù)，而非真正意義上的心理測(cè)量、教育評(píng)價(jià)。二元視角要求考試機(jī)構(gòu)在設(shè)計(jì)考試之初，就必須明確如何向考生解釋分?jǐn)?shù)以及怎樣使用分?jǐn)?shù)這些問(wèn)題。

第三，建立模塊思維，讓命題過(guò)程在題庫(kù)中模塊化。沒(méi)有科學(xué)的統(tǒng)計(jì)與測(cè)量分析功能支持的題庫(kù)并不是一個(gè)有價(jià)值的題庫(kù)[28]。ECD給出了一種用模塊思維來(lái)構(gòu)筑題庫(kù)的路徑選擇。正如前述所分析的，題庫(kù)所包含的各種模型，將測(cè)試設(shè)計(jì)的各個(gè)環(huán)節(jié)分解，一方面最大限度地將計(jì)算機(jī)技術(shù)應(yīng)用到心理測(cè)量領(lǐng)域，另一方面也將整個(gè)測(cè)試設(shè)計(jì)的思維過(guò)程換算為具體的運(yùn)行步驟，將對(duì)于測(cè)試效度的種種證明過(guò)程，都融入到了計(jì)算機(jī)運(yùn)算模型當(dāng)中。模塊思維的建立，對(duì)于應(yīng)對(duì)科技發(fā)展向考試機(jī)構(gòu)提出的挑戰(zhàn)具有特殊意義。

5 結(jié)語(yǔ)

如果說(shuō)，以高考為首的大規(guī)模教育考試目前依舊采用“入闈”來(lái)規(guī)避風(fēng)險(xiǎn)，命題者背對(duì)背預(yù)測(cè)試題難度，采用原始分?jǐn)?shù)“一刀切”劃定分?jǐn)?shù)線，以評(píng)價(jià)會(huì)的形式請(qǐng)專(zhuān)家論證考試的內(nèi)容效度，用輿論引導(dǎo)的方式疏通社會(huì)對(duì)于考試公平性的質(zhì)疑，那么，我們的考試仍舊難以稱(chēng)為科學(xué)的考試，我們的考試機(jī)構(gòu)也難以專(zhuān)業(yè)化考試機(jī)構(gòu)自居。西方的教育測(cè)量學(xué)已經(jīng)走了很遠(yuǎn)，從一開(kāi)始的相關(guān)系數(shù)到后來(lái)的幾種效度類(lèi)型，再到構(gòu)念的出現(xiàn)與整體效度觀的建立，人們對(duì)于考試的認(rèn)識(shí)已經(jīng)不再是一個(gè)分?jǐn)?shù)，而是整個(gè)考試過(guò)程，人們需要了解的是分?jǐn)?shù)背后的意義以及意義的有效性與可靠性，考試過(guò)程意味著證據(jù)積累的過(guò)程。ECD框架就是圍繞證據(jù)的收集設(shè)計(jì)的。之所以說(shuō)ECD框架可為我國(guó)的教育考試國(guó)家題庫(kù)建設(shè)所借鑒，在于其表達(dá)了一種以效度為重、以證據(jù)為先的測(cè)試設(shè)計(jì)思想方法，是一種從構(gòu)念出發(fā)，從考生出發(fā)，從目的出發(fā)的命題方式，一切以分?jǐn)?shù)最后的解釋力為核心，這些正是當(dāng)前國(guó)家題庫(kù)建設(shè)最需要樹(shù)立的觀念。

[1]劉芃.另一個(gè)角度看題庫(kù)[J].中國(guó)考試,2013（11）:4.

[2]李光明,等.教育考試國(guó)家題庫(kù)理論與實(shí)踐[M].北京:高等教育出版社,2014.

[3]楊向東.理論驅(qū)動(dòng)的心理與教育測(cè)量[M].上海:華東師范大學(xué)出版社,2014.

[4]AERA,APA,NAME.Standards for Educational and Psychological Testing[S].Washington,DC:American Educational Research Asso?ciation,2014.

[5]李清華.語(yǔ)言測(cè)試之效度理論發(fā)展五十年[J].現(xiàn)代外語(yǔ),2006（1）.

[6]CRAWFORD A B,GORHAM T J.The Yale Legal Aptitude Test[J]. The Yale Law Journal,1940,49（7）:1237-1249.

[7]THORNDIKE R L.Educational Measurement[C].Washington,DC: American Council on Education,1971:447.

[8]AERA,APA,NAME.Standards for Educational and Psychological Testing[S].Washington,DC:American Educational Research Asso?ciation,1985:9.

[9]MESSICK S J.Validity[A]//LINN R L.Educational Measurement. New York:Macmillan,1989:13.

[10]謝小慶.測(cè)驗(yàn)效度概念的新發(fā)展[J].考試研究,2013（3）:58.

[11]趙琪鳳.效度理論發(fā)展述評(píng)——基于四版《教育測(cè)量》異同的比較分析[J].中國(guó)考試，2012（7）:10.

[12]KANE M T.Validation[A]//BRENNAN R L.Educational Measure?ment.Lanham:Rowman&Littlefield Publishers,2006.

[13]謝小慶.效度：從分?jǐn)?shù)的合理解釋到可接受解釋[J].中國(guó)考試，2013（7）:7-8.

[14]鄭永流.法律判斷形成的模式[J].法學(xué)研究,2004（1）:147.

[15]KANE M T,CROOKS T,COHEN A.Validating Measures of Per?formance[J].Educational Measurement:Issues&Practice,1999, 18（2）.

[16]BACHMAN L F.Building and Supporting a Case for Test Use[J]. Language Assessment Quarterly,2005,2（1）.

[17]胥云.語(yǔ)言測(cè)試中基于論證的效度驗(yàn)證模式述評(píng)[J].外語(yǔ)教學(xué)理論與實(shí)踐,2011（4）:13.

[18]楊寧芳.圖爾敏論證邏輯思想研究[M].北京:人民出版社, 2012:71.

[19]MISLEVY R J,RICONSCENTE M M.Evidence-Centered Assess?ment Design:Layers,Structures,and Terminology[R/OL].[2016-09-01].http://padi.sri.com/downloads/aera/2005/symposium2/pa?pers/MislevyRicLayers.pdf.

[20]MISLEVY R J,STEINBERG L S,ALMOND R G.Evidence-Cen?tered Assessment Design[EB/OL].[2016-09-01].http://www.edu?cation.umd.edu/EDMS/mislevy/papers/ECD_overview.html.

[21]MISLEVY R J.Evidence and Inference in Educational Assessment [EB/OL].[2016-09-01].http://files.eric.ed.gov/fulltext/ED390888. pdf.

[22]馮翠典.“以證據(jù)為中心”的教育評(píng)價(jià)設(shè)計(jì)模式簡(jiǎn)介[J].上海教育科研,2012（8）:12.

[23]MISLEVY R J,ALMOND R G,LUKAS J F.A Brief Introduction to Evidence-Centered Design[EB/OL].[2016-09-01].http://www. ets.org/Media/Research/pdf/RR-03-16.pdf.

[24]柏毅,呂澤恩.美國(guó)教育評(píng)估系統(tǒng)的ECD模型[J].教育測(cè)量與評(píng)價(jià),2016（1）:35.

[25]王后雄,何家軍.恢復(fù)高考30年考試技術(shù)的變革述評(píng)[J].中國(guó)考試,2007（8）.

[26]雷新勇.大規(guī)模教育考試科學(xué)屬性之理論和實(shí)踐思考[J].教育與考試,2007（1）.

[27]陳寧.Toulmin推斷模型在考試效度論證中的應(yīng)用[J].中國(guó)考試,2012（4）:20.

[28]楊志明.題庫(kù)建設(shè)之統(tǒng)計(jì)與測(cè)量分析系統(tǒng)[J].教育測(cè)量與評(píng)價(jià), 2016（3）:4.

ECD as the Assessment Design Framework under the Paradigm of Validity Argument:An Approach to Upgrade National Educational Item Bank

DAI Yifei

Validity nowadays refers to the degree to which evidence support the interpretations of test scores for proposed uses of tests.Validity argument is the foundation of validation.Evidence-Centered Design（ECD）,guided by educational measurement and statistics，focuses on collecting validity evidence through computer technologies and divides test design into models which identify all kinds of evidence.ECD is to achieve an evidence chain for each test.To build a scientific and valid Chinese national educational item bank,it is essential to build the way of thinking tests as a process of evidence collection.Besides,the practice of ECD of modeling different evidence sets up a successful example to design the item bank technically and scientifically.

Validity;Validation;ECD;Item Bank

G405

1005-8427（2016）11-0028-10

（責(zé)任編輯：陳睿）

戴一飛，女，博士，教育部考試中心，助理研究員（北京 100084）

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

效度論證范式下的ECD測(cè)試設(shè)計(jì)框架——我國(guó)教育考試國(guó)家題庫(kù)的升級(jí)路徑之一

1 發(fā)展中的效度理論

2 以論證為基礎(chǔ)的效度驗(yàn)證

3 ECD：效度論證的實(shí)施框架

4 ECD與我國(guó)教育考試國(guó)家題庫(kù)的升級(jí)

5 結(jié)語(yǔ)

效度論證范式下的ECD測(cè)試設(shè)計(jì)框架
——我國(guó)教育考試國(guó)家題庫(kù)的升級(jí)路徑之一