亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

《語(yǔ)言評(píng)估實(shí)踐》述介

2013-03-27 01:45:50閔尚超

當(dāng)代外語(yǔ)研究 2013年2期

閔尚超

1.引言

對(duì)測(cè)試效度的驗(yàn)證是語(yǔ)言測(cè)試領(lǐng)域永恒的主題，眾多專家學(xué)者也相繼從不同角度提出了不同的理論與方法，試圖幫助測(cè)試開發(fā)者與使用者進(jìn)行效度驗(yàn)證。但是，以往的這些理論均過(guò)于籠統(tǒng)抽象，在實(shí)踐中可操作性不強(qiáng)。而Bachman與Palmer在其新著《語(yǔ)言評(píng)估實(shí)踐》一書中正式提出的“評(píng)估使用論據(jù)”（assessment use argument）方法則彌補(bǔ)了這一不足。在該書中，作者將其近幾年一直倡導(dǎo)的“評(píng)估使用論據(jù)”方法運(yùn)用于具體的評(píng)估實(shí)踐中，首次實(shí)現(xiàn)了對(duì)具體的評(píng)估進(jìn)行效度驗(yàn)證指導(dǎo)，突破了以往的效度驗(yàn)證理論僅在理論上有所指導(dǎo)這一局限，對(duì)語(yǔ)言測(cè)試?yán)碚撆c實(shí)踐的發(fā)展做出了重要貢獻(xiàn)。

2.內(nèi)容簡(jiǎn)介

全書共分為四大部分。第一部分提出了語(yǔ)言評(píng)估開發(fā)和使用的理論框架。作者首先厘清了幾個(gè)相關(guān)術(shù)語(yǔ)，指出在本書中對(duì)測(cè)試（test）和評(píng)估（assess）這兩個(gè)概念不做嚴(yán)格區(qū)分。作者接著介紹了貫穿本書的核心理論——“評(píng)估使用論據(jù)”。該理論主要基于Toulmin（2003）的“論據(jù)結(jié)構(gòu)模型”（argument structure model），并在該模型上有所拓展和創(chuàng)新。其論證結(jié)構(gòu)由五個(gè)部分組成，即，主張（claim）、理由（warrant）、依據(jù)（backing）、反證（rebuttal）以及數(shù)據(jù)（data），其中，主張為其理論框架的核心部分。通過(guò)四條主張，“評(píng)估使用論據(jù)”能有效地描述評(píng)估后效（consequences）、決定（decisions）、解釋（interpretations）、評(píng)估記錄（assessment records）以及考生表現(xiàn)（test taker's performance）這五者之間的線性循環(huán)關(guān)系。該部分還概述了語(yǔ)言使用和語(yǔ)言能力的本質(zhì)、語(yǔ)言使用任務(wù)的特點(diǎn)、如何證明對(duì)語(yǔ)言評(píng)估任務(wù)的使用是合理的，等等。作者認(rèn)為，對(duì)語(yǔ)言使用本質(zhì)的了解能夠幫助我們更好地理解如何把評(píng)估結(jié)果概推到某一具體語(yǔ)言使用場(chǎng)景；對(duì)語(yǔ)言能力本質(zhì)的了解則是不可缺少的，因?yàn)檎Z(yǔ)言能力是所有語(yǔ)言評(píng)估考查的對(duì)象；語(yǔ)言使用任務(wù)特點(diǎn)框架則為我們證明語(yǔ)言評(píng)估中的任務(wù)與現(xiàn)實(shí)生活中考生需要完成的任務(wù)具有一致性提供了一個(gè)衡量標(biāo)準(zhǔn)；向評(píng)估相關(guān)者證明對(duì)語(yǔ)言評(píng)估任務(wù)的使用或者根據(jù)評(píng)估結(jié)果所做的決定具有合理性是評(píng)估開發(fā)者和使用者的基本責(zé)任，而最好的證明方法則是采用“評(píng)估使用論據(jù)”。

第二部分引用多個(gè)實(shí)例全面介紹了構(gòu)建“評(píng)估使用論據(jù)”的全過(guò)程?！霸u(píng)估使用論據(jù)”的四條主張具體為：（1）評(píng)估后效以及決定對(duì)所有評(píng)估相關(guān)者均具有益性（beneficence）；（2）根據(jù)評(píng)估所做的決定考慮了已有的教育觀念、社會(huì)觀念以及法律要求，并且該決定對(duì)所有評(píng)估相關(guān)者均具有公平性（equitability）；（3）對(duì)所考查的能力的解釋具有意義性（meaningfulness）、公正性（impartiality）、概推性（generalizability）、相關(guān)性（relevance）以及充分性（sufficiency）；（4）在不同的評(píng)估任務(wù)、不同的評(píng)估程序中，不同的考生群體的評(píng)估記錄具有一致性（consistency）。該理論框架提供了步驟式的方法，明確指出，如果研究者是設(shè)計(jì)評(píng)估，則應(yīng)該從第一條主張開始，即，先探討使用該評(píng)估是否對(duì)社會(huì)具有有益性，然后再依次證明第二條、第三條、第四條主張；如果研究者是對(duì)評(píng)估進(jìn)行解釋和使用，則應(yīng)反向而行，即，從第四條主張開始，先證明考分的一致性，然后再依次證明第三條、第二條以及第一條主張。為了詳細(xì)闡述這四條主張以及支持各主張的理由在整個(gè)評(píng)估開發(fā)和使用中是如何發(fā)揮作用的，作者采用一項(xiàng)低風(fēng)險(xiǎn)形成性評(píng)估和一項(xiàng)高風(fēng)險(xiǎn)終結(jié)性評(píng)估作為例子，詳細(xì)探討了如何在具體的評(píng)估中，通過(guò)給出相關(guān)理由來(lái)證實(shí)主張的正確性，從而向評(píng)估相關(guān)者證明該評(píng)估的開發(fā)與使用都是合理的。同時(shí)，該部分指出，從具體操作實(shí)踐的角度看，語(yǔ)言評(píng)估的開發(fā)與使用可分為五個(gè)階段：初始計(jì)劃（initial planning）、設(shè)計(jì)（design）、操作（operationalization）、試測(cè)（trialing）和評(píng)估使用（assessment use）。這五個(gè)階段總體呈線性發(fā)展趨勢(shì)，但每個(gè)階段之間又相互影響。具體而言，在初始計(jì)劃階段，評(píng)估開發(fā)者根據(jù)一系列原則，做出選擇，決定是修改已有評(píng)估還是重新開發(fā)新的評(píng)估；在設(shè)計(jì)階段，評(píng)估開發(fā)者研制設(shè)計(jì)說(shuō)明，其主要作用是指導(dǎo)接下來(lái)的操作、試測(cè)和評(píng)估使用；在操作階段，評(píng)估開發(fā)者研制設(shè)計(jì)藍(lán)圖（blueprint），并根據(jù)該藍(lán)圖進(jìn)行命題，然后把已命好的題目組織成一項(xiàng)完整的評(píng)估；在試測(cè)階段，評(píng)估開發(fā)者對(duì)一群受試進(jìn)行試測(cè)，收集信息，分析并完善評(píng)估；在評(píng)估使用階段，評(píng)估使用者根據(jù)考生的評(píng)估記錄做出決定。

第三部分探討在真實(shí)世界中開發(fā)與使用語(yǔ)言評(píng)估的過(guò)程。由于評(píng)估相關(guān)者與評(píng)估場(chǎng)景的可變性、現(xiàn)實(shí)生活中的不確定性以及資源的有限性，評(píng)估開發(fā)者和使用者在實(shí)際操作中需考慮現(xiàn)實(shí)情況，有時(shí)不得不采取折中的辦法。該部分描述了真實(shí)世界中開發(fā)和設(shè)計(jì)語(yǔ)言評(píng)估項(xiàng)目的每個(gè)具體步驟，包括研制設(shè)計(jì)說(shuō)明、設(shè)計(jì)評(píng)估任務(wù)、記錄考生在評(píng)估中的表現(xiàn)、制訂命題細(xì)則、準(zhǔn)備考試指令、收集反饋信息等。同時(shí)，作者把“評(píng)估使用論據(jù)”貫穿于現(xiàn)實(shí)世界中開發(fā)與使用語(yǔ)言評(píng)估的具體步驟中，從而實(shí)現(xiàn)了理論與實(shí)踐在現(xiàn)實(shí)世界中的結(jié)合。該部分也討論了開發(fā)語(yǔ)言評(píng)估過(guò)程中合理分配和管理資源的問(wèn)題。作者指出，資源包括人力資源、物力資源以及時(shí)間。資源分配以及管理在評(píng)估開發(fā)過(guò)程中起到非常重要的作用，因?yàn)樗鼪Q定了整個(gè)評(píng)估的開發(fā)是否具有可行性。最后，作者強(qiáng)調(diào)評(píng)估開發(fā)者和使用者有責(zé)任保證評(píng)估的使用方式、根據(jù)評(píng)估所作的決定以及評(píng)估后效對(duì)所有評(píng)估相關(guān)者都具有公平性。

第四部分提供了三個(gè)不同的評(píng)估開發(fā)項(xiàng)目實(shí)例，即，幼兒園英語(yǔ)學(xué)習(xí)者口語(yǔ)與寫作評(píng)估、大學(xué)英語(yǔ)閱讀分級(jí)評(píng)估/豁兔評(píng)估（placement/exemption）、大學(xué)基礎(chǔ)漢語(yǔ)口語(yǔ)評(píng)估。前兩項(xiàng)評(píng)估為貫穿全書的兩個(gè)主要例子，即前文所提到的一項(xiàng)低風(fēng)險(xiǎn)形成性評(píng)估和一項(xiàng)高風(fēng)險(xiǎn)終結(jié)性評(píng)估。作者再次詳細(xì)提供這兩項(xiàng)評(píng)估的整個(gè)開發(fā)過(guò)程，目的在于給讀者參與實(shí)踐的機(jī)會(huì)，幫助讀者更好地理解不同評(píng)估在開發(fā)過(guò)程中所需考慮的不同方面，最終使讀者掌握如何在語(yǔ)言評(píng)估開發(fā)與使用過(guò)程中靈活地運(yùn)用本書中提供的“評(píng)估使用論據(jù)”方法。

3.簡(jiǎn)要評(píng)論

本書是Bachman與Palmer繼1996年推出《語(yǔ)言測(cè)試實(shí)踐》后的又一大力作。1996年的《語(yǔ)言測(cè)試實(shí)踐》以“測(cè)試有用性理論”（test usefulness theory）為框架，主要關(guān)注語(yǔ)言測(cè)試的開發(fā)過(guò)程以及分?jǐn)?shù)解釋，而本書則以“評(píng)估使用論據(jù)”為框架，其關(guān)注重點(diǎn)也不再局限于語(yǔ)言測(cè)試開發(fā)過(guò)程或分?jǐn)?shù)解釋，而是拓展到語(yǔ)言測(cè)試的使用。同時(shí)，作者在本書中，對(duì)Bachman（1990）以及Bachman與Palmer（1996）中提出的語(yǔ)言使用模型進(jìn)行了修正，語(yǔ)言使用任務(wù)特點(diǎn)框架進(jìn)行了完善，探討了現(xiàn)實(shí)世界中面臨資源的有限性時(shí)如何開發(fā)和使用測(cè)試，并且明確指出了測(cè)試開發(fā)者和使用者在測(cè)試開發(fā)與使用的各個(gè)階段各自應(yīng)承擔(dān)的主要責(zé)任和次要責(zé)任。

本書的最大貢獻(xiàn)在于第一次系統(tǒng)地提出“評(píng)估使用論據(jù)”這個(gè)理論框架。作者在本書中正式提出這個(gè)框架前對(duì)其進(jìn)行了九十次修改，足見(jiàn)作者的用心。該理論的提出對(duì)語(yǔ)言測(cè)試領(lǐng)域的巨大貢獻(xiàn)在于：

（1）以往的理論只是簡(jiǎn)單地列出語(yǔ)言測(cè)試的各個(gè)重要屬性，如，Messick（1989）的“整體效度觀”中的四項(xiàng)、Bachman與Palmer（1996）的“測(cè)試有用性理論”中的六項(xiàng)、Kunnan（1997）的“測(cè)試公平性理論”中的五項(xiàng)，均沒(méi)有闡述其各個(gè)屬性之間的關(guān)系，似乎表明這一系列屬性的簡(jiǎn)單相加就等于其所提倡的“效度”、“有用性”以及“公平性”。而“評(píng)估使用論據(jù)”則是通過(guò)具體的主張和理由把各個(gè)重要屬性有機(jī)地聯(lián)系起來(lái)，從而彌補(bǔ)了這一不足。

（2）以往的理論要么關(guān)注測(cè)試開發(fā)，如Mislevy等（2003）的“基于證據(jù)的方法”（evidence-centered design），要么關(guān)注測(cè)試使用，如Kane（2006）的“基于論據(jù)的理論”（argument-based theory），而沒(méi)有探討測(cè)試開發(fā)以及測(cè)試使用之間的關(guān)系。而“評(píng)估使用論據(jù)”不僅同時(shí)關(guān)注兩者，并且通過(guò)提供一個(gè)強(qiáng)大的理論框架以及一系列操作步驟，實(shí)現(xiàn)了對(duì)兩者的有機(jī)聯(lián)系。

（3）以往的理論均沒(méi)有明確區(qū)分測(cè)試使用中的“決定”和“后效”這兩個(gè)概念，而是把兩者混為一談，不利于進(jìn)行效度驗(yàn)證時(shí)更清楚地尋找各自的論據(jù)。而“評(píng)估使用論據(jù)”對(duì)這兩個(gè)概念進(jìn)行了細(xì)分，并且詳細(xì)闡述了兩者之間的關(guān)系。

（4）以往的理論主要源于定量主義的傳統(tǒng)，關(guān)注效度的心理計(jì)量層面，而忽略了定性方法對(duì)測(cè)試效度驗(yàn)證所能帶來(lái)的巨大益處。而本書通過(guò)“評(píng)估使用論據(jù)”指出，除量化的考分以外，質(zhì)性的描述也應(yīng)作為考生能力體現(xiàn)的證據(jù)，從而有利于把通過(guò)定性方法、自然主義方法以及記錄片方法等收集到的證據(jù)作為評(píng)估使用論據(jù)的一部分，突破了以往過(guò)度偏重于定量測(cè)量的做法。另外“評(píng)估使用論據(jù)”把測(cè)試的公平性（fairness）、問(wèn)責(zé)制（accountability）等效度的社會(huì)層面概念也融入到了其框架范圍中。

（5）以往的理論主要以信度、效度、真實(shí)度、后效等核心概念為基礎(chǔ)，但是這些概念均存在界定過(guò)寬或過(guò)窄的問(wèn)題，如，信度這一概念在過(guò)去的研究中常被研究者有意識(shí)或無(wú)意識(shí)地等同于Cronbachα系數(shù)，間接導(dǎo)致了對(duì)影響一致性的其他因素（如，考試說(shuō)明、施測(cè)步驟等）的忽略。換句話說(shuō)，信度這一概念不足以概括所有影響一致性的因素，存在定義過(guò)窄的問(wèn)題。而“評(píng)估使用論據(jù)”不再沿襲過(guò)去的這一系列概念，而是采用“一致性”取代“信度”，“意義性”和“概推性”取代“構(gòu)念效度”，等等，從而能夠更好地指導(dǎo)研究者在進(jìn)行效度驗(yàn)證時(shí)采用多方面的證據(jù)。

誠(chéng)然，本書也存在一定的不足之處。第一，作者在探討測(cè)試后效時(shí)忽略了測(cè)試開發(fā)和使用的政治環(huán)境。而事實(shí)上，測(cè)試與政治的關(guān)系密不可分，Shohamy（2001）甚至認(rèn)為考生是特定政治環(huán)境下的政治對(duì)象（political subjects）。本書如果能夠深入挖掘語(yǔ)言測(cè)試的政治層面，其所倡導(dǎo)的“評(píng)估使用論據(jù)”這一理論體系將更加完善。第二，作者在“評(píng)估使用論據(jù)”中，采用“相關(guān)性”、“充分性”以及“概推性”這三個(gè)概念取代了傳統(tǒng)的“真實(shí)性”。雖然從理論上看，對(duì)“真實(shí)性”的細(xì)分有利于更清楚地指導(dǎo)研究者尋找相關(guān)證據(jù)進(jìn)行效度驗(yàn)證，但是這三個(gè)概念本質(zhì)上并不存在區(qū)別，只是一個(gè)度的問(wèn)題。所以在實(shí)際效度驗(yàn)證操作中，支撐這三項(xiàng)的證據(jù)很可能為同一數(shù)據(jù)，因此會(huì)導(dǎo)致整個(gè)論證過(guò)程存在贅述的問(wèn)題。第三，作者完善后的語(yǔ)言知識(shí)框架仍忽略了語(yǔ)言的政治功能與倫理功能。而事實(shí)上，由于各國(guó)歷史文化傳統(tǒng)的差異性，對(duì)語(yǔ)言的本質(zhì)以及作用的理解是千差萬(wàn)別的。如，中國(guó)的《論語(yǔ)》中提到“一言興邦，一言喪邦”，“君子一言以為知，一言以為不知”，分別強(qiáng)調(diào)了語(yǔ)言的政治功能與倫理功能，這與西方認(rèn)為語(yǔ)言是用來(lái)改變他人行為的觀點(diǎn)是截然不同的。所以，本書關(guān)于語(yǔ)言功能的觀點(diǎn)是否能放之四海而皆準(zhǔn)還有待商榷。