閔尚超
對(duì)測(cè)試效度的驗(yàn)證是語(yǔ)言測(cè)試領(lǐng)域永恒的主題,眾多專家學(xué)者也相繼從不同角度提出了不同的理論與方法,試圖幫助測(cè)試開發(fā)者與使用者進(jìn)行效度驗(yàn)證。但是,以往的這些理論均過(guò)于籠統(tǒng)抽象,在實(shí)踐中可操作性不強(qiáng)。而Bachman與Palmer在其新著《語(yǔ)言評(píng)估實(shí)踐》一書中正式提出的“評(píng)估使用論據(jù)”(assessment use argument)方法則彌補(bǔ)了這一不足。在該書中,作者將其近幾年一直倡導(dǎo)的“評(píng)估使用論據(jù)”方法運(yùn)用于具體的評(píng)估實(shí)踐中,首次實(shí)現(xiàn)了對(duì)具體的評(píng)估進(jìn)行效度驗(yàn)證指導(dǎo),突破了以往的效度驗(yàn)證理論僅在理論上有所指導(dǎo)這一局限,對(duì)語(yǔ)言測(cè)試?yán)碚撆c實(shí)踐的發(fā)展做出了重要貢獻(xiàn)。
全書共分為四大部分。第一部分提出了語(yǔ)言評(píng)估開發(fā)和使用的理論框架。作者首先厘清了幾個(gè)相關(guān)術(shù)語(yǔ),指出在本書中對(duì)測(cè)試(test)和評(píng)估(assess)這兩個(gè)概念不做嚴(yán)格區(qū)分。作者接著介紹了貫穿本書的核心理論——“評(píng)估使用論據(jù)”。該理論主要基于Toulmin(2003)的“論據(jù)結(jié)構(gòu)模型”(argument structure model),并在該模型上有所拓展和創(chuàng)新。其論證結(jié)構(gòu)由五個(gè)部分組成,即,主張(claim)、理由(warrant)、依據(jù)(backing)、反證(rebuttal)以及數(shù)據(jù)(data),其中,主張為其理論框架的核心部分。通過(guò)四條主張,“評(píng)估使用論據(jù)”能有效地描述評(píng)估后效(consequences)、決定(decisions)、解釋(interpretations)、評(píng)估記錄(assessment records)以及考生表現(xiàn)(test taker's performance)這五者之間的線性循環(huán)關(guān)系。該部分還概述了語(yǔ)言使用和語(yǔ)言能力的本質(zhì)、語(yǔ)言使用任務(wù)的特點(diǎn)、如何證明對(duì)語(yǔ)言評(píng)估任務(wù)的使用是合理的,等等。作者認(rèn)為,對(duì)語(yǔ)言使用本質(zhì)的了解能夠幫助我們更好地理解如何把評(píng)估結(jié)果概推到某一具體語(yǔ)言使用場(chǎng)景;對(duì)語(yǔ)言能力本質(zhì)的了解則是不可缺少的,因?yàn)檎Z(yǔ)言能力是所有語(yǔ)言評(píng)估考查的對(duì)象;語(yǔ)言使用任務(wù)特點(diǎn)框架則為我們證明語(yǔ)言評(píng)估中的任務(wù)與現(xiàn)實(shí)生活中考生需要完成的任務(wù)具有一致性提供了一個(gè)衡量標(biāo)準(zhǔn);向評(píng)估相關(guān)者證明對(duì)語(yǔ)言評(píng)估任務(wù)的使用或者根據(jù)評(píng)估結(jié)果所做的決定具有合理性是評(píng)估開發(fā)者和使用者的基本責(zé)任,而最好的證明方法則是采用“評(píng)估使用論據(jù)”。
第二部分引用多個(gè)實(shí)例全面介紹了構(gòu)建“評(píng)估使用論據(jù)”的全過(guò)程?!霸u(píng)估使用論據(jù)”的四條主張具體為:(1)評(píng)估后效以及決定對(duì)所有評(píng)估相關(guān)者均具有益性(beneficence);(2)根據(jù)評(píng)估所做的決定考慮了已有的教育觀念、社會(huì)觀念以及法律要求,并且該決定對(duì)所有評(píng)估相關(guān)者均具有公平性(equitability);(3)對(duì)所考查的能力的解釋具有意義性(meaningfulness)、公正性(impartiality)、概推性(generalizability)、相關(guān)性(relevance)以及充分性(sufficiency);(4)在不同的評(píng)估任務(wù)、不同的評(píng)估程序中,不同的考生群體的評(píng)估記錄具有一致性(consistency)。該理論框架提供了步驟式的方法,明確指出,如果研究者是設(shè)計(jì)評(píng)估,則應(yīng)該從第一條主張開始,即,先探討使用該評(píng)估是否對(duì)社會(huì)具有有益性,然后再依次證明第二條、第三條、第四條主張;如果研究者是對(duì)評(píng)估進(jìn)行解釋和使用,則應(yīng)反向而行,即,從第四條主張開始,先證明考分的一致性,然后再依次證明第三條、第二條以及第一條主張。為了詳細(xì)闡述這四條主張以及支持各主張的理由在整個(gè)評(píng)估開發(fā)和使用中是如何發(fā)揮作用的,作者采用一項(xiàng)低風(fēng)險(xiǎn)形成性評(píng)估和一項(xiàng)高風(fēng)險(xiǎn)終結(jié)性評(píng)估作為例子,詳細(xì)探討了如何在具體的評(píng)估中,通過(guò)給出相關(guān)理由來(lái)證實(shí)主張的正確性,從而向評(píng)估相關(guān)者證明該評(píng)估的開發(fā)與使用都是合理的。同時(shí),該部分指出,從具體操作實(shí)踐的角度看,語(yǔ)言評(píng)估的開發(fā)與使用可分為五個(gè)階段:初始計(jì)劃(initial planning)、設(shè)計(jì)(design)、操作(operationalization)、試測(cè)(trialing)和評(píng)估使用(assessment use)。這五個(gè)階段總體呈線性發(fā)展趨勢(shì),但每個(gè)階段之間又相互影響。具體而言,在初始計(jì)劃階段,評(píng)估開發(fā)者根據(jù)一系列原則,做出選擇,決定是修改已有評(píng)估還是重新開發(fā)新的評(píng)估;在設(shè)計(jì)階段,評(píng)估開發(fā)者研制設(shè)計(jì)說(shuō)明,其主要作用是指導(dǎo)接下來(lái)的操作、試測(cè)和評(píng)估使用;在操作階段,評(píng)估開發(fā)者研制設(shè)計(jì)藍(lán)圖(blueprint),并根據(jù)該藍(lán)圖進(jìn)行命題,然后把已命好的題目組織成一項(xiàng)完整的評(píng)估;在試測(cè)階段,評(píng)估開發(fā)者對(duì)一群受試進(jìn)行試測(cè),收集信息,分析并完善評(píng)估;在評(píng)估使用階段,評(píng)估使用者根據(jù)考生的評(píng)估記錄做出決定。
第三部分探討在真實(shí)世界中開發(fā)與使用語(yǔ)言評(píng)估的過(guò)程。由于評(píng)估相關(guān)者與評(píng)估場(chǎng)景的可變性、現(xiàn)實(shí)生活中的不確定性以及資源的有限性,評(píng)估開發(fā)者和使用者在實(shí)際操作中需考慮現(xiàn)實(shí)情況,有時(shí)不得不采取折中的辦法。該部分描述了真實(shí)世界中開發(fā)和設(shè)計(jì)語(yǔ)言評(píng)估項(xiàng)目的每個(gè)具體步驟,包括研制設(shè)計(jì)說(shuō)明、設(shè)計(jì)評(píng)估任務(wù)、記錄考生在評(píng)估中的表現(xiàn)、制訂命題細(xì)則、準(zhǔn)備考試指令、收集反饋信息等。同時(shí),作者把“評(píng)估使用論據(jù)”貫穿于現(xiàn)實(shí)世界中開發(fā)與使用語(yǔ)言評(píng)估的具體步驟中,從而實(shí)現(xiàn)了理論與實(shí)踐在現(xiàn)實(shí)世界中的結(jié)合。該部分也討論了開發(fā)語(yǔ)言評(píng)估過(guò)程中合理分配和管理資源的問(wèn)題。作者指出,資源包括人力資源、物力資源以及時(shí)間。資源分配以及管理在評(píng)估開發(fā)過(guò)程中起到非常重要的作用,因?yàn)樗鼪Q定了整個(gè)評(píng)估的開發(fā)是否具有可行性。最后,作者強(qiáng)調(diào)評(píng)估開發(fā)者和使用者有責(zé)任保證評(píng)估的使用方式、根據(jù)評(píng)估所作的決定以及評(píng)估后效對(duì)所有評(píng)估相關(guān)者都具有公平性。
第四部分提供了三個(gè)不同的評(píng)估開發(fā)項(xiàng)目實(shí)例,即,幼兒園英語(yǔ)學(xué)習(xí)者口語(yǔ)與寫作評(píng)估、大學(xué)英語(yǔ)閱讀分級(jí)評(píng)估/豁兔評(píng)估(placement/exemption)、大學(xué)基礎(chǔ)漢語(yǔ)口語(yǔ)評(píng)估。前兩項(xiàng)評(píng)估為貫穿全書的兩個(gè)主要例子,即前文所提到的一項(xiàng)低風(fēng)險(xiǎn)形成性評(píng)估和一項(xiàng)高風(fēng)險(xiǎn)終結(jié)性評(píng)估。作者再次詳細(xì)提供這兩項(xiàng)評(píng)估的整個(gè)開發(fā)過(guò)程,目的在于給讀者參與實(shí)踐的機(jī)會(huì),幫助讀者更好地理解不同評(píng)估在開發(fā)過(guò)程中所需考慮的不同方面,最終使讀者掌握如何在語(yǔ)言評(píng)估開發(fā)與使用過(guò)程中靈活地運(yùn)用本書中提供的“評(píng)估使用論據(jù)”方法。
本書是Bachman與Palmer繼1996年推出《語(yǔ)言測(cè)試實(shí)踐》后的又一大力作。1996年的《語(yǔ)言測(cè)試實(shí)踐》以“測(cè)試有用性理論”(test usefulness theory)為框架,主要關(guān)注語(yǔ)言測(cè)試的開發(fā)過(guò)程以及分?jǐn)?shù)解釋,而本書則以“評(píng)估使用論據(jù)”為框架,其關(guān)注重點(diǎn)也不再局限于語(yǔ)言測(cè)試開發(fā)過(guò)程或分?jǐn)?shù)解釋,而是拓展到語(yǔ)言測(cè)試的使用。同時(shí),作者在本書中,對(duì)Bachman(1990)以及Bachman與Palmer(1996)中提出的語(yǔ)言使用模型進(jìn)行了修正,語(yǔ)言使用任務(wù)特點(diǎn)框架進(jìn)行了完善,探討了現(xiàn)實(shí)世界中面臨資源的有限性時(shí)如何開發(fā)和使用測(cè)試,并且明確指出了測(cè)試開發(fā)者和使用者在測(cè)試開發(fā)與使用的各個(gè)階段各自應(yīng)承擔(dān)的主要責(zé)任和次要責(zé)任。
本書的最大貢獻(xiàn)在于第一次系統(tǒng)地提出“評(píng)估使用論據(jù)”這個(gè)理論框架。作者在本書中正式提出這個(gè)框架前對(duì)其進(jìn)行了九十次修改,足見(jiàn)作者的用心。該理論的提出對(duì)語(yǔ)言測(cè)試領(lǐng)域的巨大貢獻(xiàn)在于:
(1)以往的理論只是簡(jiǎn)單地列出語(yǔ)言測(cè)試的各個(gè)重要屬性,如,Messick(1989)的“整體效度觀”中的四項(xiàng)、Bachman與Palmer(1996)的“測(cè)試有用性理論”中的六項(xiàng)、Kunnan(1997)的“測(cè)試公平性理論”中的五項(xiàng),均沒(méi)有闡述其各個(gè)屬性之間的關(guān)系,似乎表明這一系列屬性的簡(jiǎn)單相加就等于其所提倡的“效度”、“有用性”以及“公平性”。而“評(píng)估使用論據(jù)”則是通過(guò)具體的主張和理由把各個(gè)重要屬性有機(jī)地聯(lián)系起來(lái),從而彌補(bǔ)了這一不足。
(2)以往的理論要么關(guān)注測(cè)試開發(fā),如Mislevy等(2003)的“基于證據(jù)的方法”(evidence-centered design),要么關(guān)注測(cè)試使用,如Kane(2006)的“基于論據(jù)的理論”(argument-based theory),而沒(méi)有探討測(cè)試開發(fā)以及測(cè)試使用之間的關(guān)系。而“評(píng)估使用論據(jù)”不僅同時(shí)關(guān)注兩者,并且通過(guò)提供一個(gè)強(qiáng)大的理論框架以及一系列操作步驟,實(shí)現(xiàn)了對(duì)兩者的有機(jī)聯(lián)系。
(3)以往的理論均沒(méi)有明確區(qū)分測(cè)試使用中的“決定”和“后效”這兩個(gè)概念,而是把兩者混為一談,不利于進(jìn)行效度驗(yàn)證時(shí)更清楚地尋找各自的論據(jù)。而“評(píng)估使用論據(jù)”對(duì)這兩個(gè)概念進(jìn)行了細(xì)分,并且詳細(xì)闡述了兩者之間的關(guān)系。
(4)以往的理論主要源于定量主義的傳統(tǒng),關(guān)注效度的心理計(jì)量層面,而忽略了定性方法對(duì)測(cè)試效度驗(yàn)證所能帶來(lái)的巨大益處。而本書通過(guò)“評(píng)估使用論據(jù)”指出,除量化的考分以外,質(zhì)性的描述也應(yīng)作為考生能力體現(xiàn)的證據(jù),從而有利于把通過(guò)定性方法、自然主義方法以及記錄片方法等收集到的證據(jù)作為評(píng)估使用論據(jù)的一部分,突破了以往過(guò)度偏重于定量測(cè)量的做法。另外“評(píng)估使用論據(jù)”把測(cè)試的公平性(fairness)、問(wèn)責(zé)制(accountability)等效度的社會(huì)層面概念也融入到了其框架范圍中。
(5)以往的理論主要以信度、效度、真實(shí)度、后效等核心概念為基礎(chǔ),但是這些概念均存在界定過(guò)寬或過(guò)窄的問(wèn)題,如,信度這一概念在過(guò)去的研究中常被研究者有意識(shí)或無(wú)意識(shí)地等同于Cronbachα系數(shù),間接導(dǎo)致了對(duì)影響一致性的其他因素(如,考試說(shuō)明、施測(cè)步驟等)的忽略。換句話說(shuō),信度這一概念不足以概括所有影響一致性的因素,存在定義過(guò)窄的問(wèn)題。而“評(píng)估使用論據(jù)”不再沿襲過(guò)去的這一系列概念,而是采用“一致性”取代“信度”,“意義性”和“概推性”取代“構(gòu)念效度”,等等,從而能夠更好地指導(dǎo)研究者在進(jìn)行效度驗(yàn)證時(shí)采用多方面的證據(jù)。
誠(chéng)然,本書也存在一定的不足之處。第一,作者在探討測(cè)試后效時(shí)忽略了測(cè)試開發(fā)和使用的政治環(huán)境。而事實(shí)上,測(cè)試與政治的關(guān)系密不可分,Shohamy(2001)甚至認(rèn)為考生是特定政治環(huán)境下的政治對(duì)象(political subjects)。本書如果能夠深入挖掘語(yǔ)言測(cè)試的政治層面,其所倡導(dǎo)的“評(píng)估使用論據(jù)”這一理論體系將更加完善。第二,作者在“評(píng)估使用論據(jù)”中,采用“相關(guān)性”、“充分性”以及“概推性”這三個(gè)概念取代了傳統(tǒng)的“真實(shí)性”。雖然從理論上看,對(duì)“真實(shí)性”的細(xì)分有利于更清楚地指導(dǎo)研究者尋找相關(guān)證據(jù)進(jìn)行效度驗(yàn)證,但是這三個(gè)概念本質(zhì)上并不存在區(qū)別,只是一個(gè)度的問(wèn)題。所以在實(shí)際效度驗(yàn)證操作中,支撐這三項(xiàng)的證據(jù)很可能為同一數(shù)據(jù),因此會(huì)導(dǎo)致整個(gè)論證過(guò)程存在贅述的問(wèn)題。第三,作者完善后的語(yǔ)言知識(shí)框架仍忽略了語(yǔ)言的政治功能與倫理功能。而事實(shí)上,由于各國(guó)歷史文化傳統(tǒng)的差異性,對(duì)語(yǔ)言的本質(zhì)以及作用的理解是千差萬(wàn)別的。如,中國(guó)的《論語(yǔ)》中提到“一言興邦,一言喪邦”,“君子一言以為知,一言以為不知”,分別強(qiáng)調(diào)了語(yǔ)言的政治功能與倫理功能,這與西方認(rèn)為語(yǔ)言是用來(lái)改變他人行為的觀點(diǎn)是截然不同的。所以,本書關(guān)于語(yǔ)言功能的觀點(diǎn)是否能放之四海而皆準(zhǔn)還有待商榷。