張潤 鄒慶武
(河北經(jīng)貿(mào)大學(xué),石家莊 050061)
Bachman指出:“21世紀(jì)語言測試領(lǐng)域面臨的挑戰(zhàn),一方面源于半個世紀(jì)以來語言測試所取得的成就和進(jìn)步,另一方面源于目前的經(jīng)濟(jì)、社會和教育領(lǐng)域的變革。盡管測試界所研究的問題越來越廣泛,方法越來越多,但是本領(lǐng)域的一些基本問題仍亟待解決。比如,如何保證我們對測試結(jié)果的解讀是有意義的?如何能將基于測試結(jié)果的解讀推廣到語言應(yīng)用?如何能確保測試結(jié)果解讀及其影響會尊重個體的權(quán)利和相關(guān)群體的價值觀?”[1]Bachman所說的新挑戰(zhàn)、新問題實際上指出了語言測試領(lǐng)域關(guān)注焦點的變化:從關(guān)注測試準(zhǔn)確性、客觀性的結(jié)構(gòu)層面擴(kuò)大到關(guān)注其公平性的社會倫理層面。
語言測試一直以來都是學(xué)校等社會機(jī)構(gòu)進(jìn)行診斷、篩選和決策的手段之一,沒有哪種手段能比測試更為強(qiáng)大,更能引導(dǎo)決策[2]。通過這一手段,測試的使用者可以在受試者的教育、社會、職業(yè)甚至是個人生活等方面進(jìn)行決策。在某種意義上,語言測試已經(jīng)成為一種極為強(qiáng)大的武器,不但教師可以用,行政、經(jīng)濟(jì)、政治等多領(lǐng)域的決策者都可以使用[3],而基于語言測試合理使用的思考也引發(fā)了測試界對測試公平的討論和研究。
語言測試界對公平性的關(guān)注始于19世紀(jì)六七十年代,但是研究成果并不令人滿意[4]。這一論題真正成為談?wù)摵脱芯康闹攸c則是在20世紀(jì)80年代,伴隨著學(xué)界對語言測試倫理層面的日漸關(guān)注而成為熱點。國際語言測試協(xié)會(ILTA)1997年年會的主題便是“語言測試中的公平性”。不少學(xué)者認(rèn)為,測試界既要努力開發(fā)高質(zhì)量的測試形式,又要增強(qiáng)測試對教育、社會和政治等產(chǎn)生可能后果的敏感度,防止對測試的濫用[5]。進(jìn)入21世紀(jì),語言測試公平性的相關(guān)研究日漸增多,測試公平的概念越來越清晰。盡管不少研究仍處于起始階段,研究話題也存在不少爭議,但是公平性已經(jīng)成語言測試領(lǐng)域一個不可忽視的論題[6]。
盡管測試公平在理論和實踐中都很重要,但至今沒有一個被教育研究者、測試開發(fā)者、測試使用者和受試者廣為接受的概念[7]。從字面上說,公平就是沒有偏差、不實或不公,但是在測試領(lǐng)域,給公平下定義并非易事,不同的學(xué)者界定公平的角度有所不同。
Jensen認(rèn)為測試是有區(qū)分性的;如果缺乏區(qū)分性,測試將毫無用處。但是,如果測試僅針對特定的社會、種族或文化群體產(chǎn)生“區(qū)分性”,這一測試將被認(rèn)為出現(xiàn)了偏差,使用這一測試就是不公平的。因此,Jensen認(rèn)為公平多了些道德的意味,含有個人的主觀價值觀和判斷,公平的概念更屬于道德哲學(xué)層面而不是心理測量層面。另外,不同種族、社會和文化群體的人對公平標(biāo)準(zhǔn)的看法不一,因此公平不是一個可以用統(tǒng)計方式確定的概念。測試公平應(yīng)該從政策入手,全面考量哲學(xué)、法律和實用性等多方面因素[8]。
還有不少學(xué)者指出,一項測試,如果設(shè)計合理、使用得當(dāng)?shù)脑?,可以促進(jìn)教育、社會和經(jīng)濟(jì)等目標(biāo)的實現(xiàn)。人們常用測試手段對受試者進(jìn)行篩選或分類,Camilli認(rèn)為,測試中的公平是指如何看待分?jǐn)?shù)的解讀方式。測試是否公平要看測試的效度,要依靠一系列實證數(shù)據(jù),還需要法律、倫理、政治、哲學(xué)以及經(jīng)濟(jì)等多方面的推理分析[9]。
以標(biāo)準(zhǔn)的形式來約束測試行為,做得較早、較好的當(dāng)屬美國。1974年,美國教育研究協(xié)會(AERA)、美國心理學(xué)協(xié)會(APA)和美國國家教育測量協(xié)會(NCME)在整合幾個測試指導(dǎo)文件的基礎(chǔ)上形成了《教育和心理測試標(biāo)準(zhǔn)》(Standards for Educational and Psychological Testing)(以下簡稱《標(biāo)準(zhǔn)》),并在1985年、1999年和2014年連續(xù)修訂。該文件是測試界對測試應(yīng)遵循的準(zhǔn)則所形成的共識,盡管不具有法律的強(qiáng)制性,但對本領(lǐng)域的各項操作極具規(guī)范作用。
1999年版《標(biāo)準(zhǔn)》第二部分用了4個章節(jié)來討論測試中的公平問題,2014年修訂版雖然將測試公平調(diào)整為第一部分的一個章節(jié),但是把公平問題放在與效度、信度同一個層次來討論,足見公平問題的重要性。這兩版《標(biāo)準(zhǔn)》從4個方面對測試公平進(jìn)行闡釋:1)測試沒有偏向,試題設(shè)計本身以及測試的方式不會對不同群體產(chǎn)生不同的影響;2)測試環(huán)境、條件、評分方式和分?jǐn)?shù)使用對所有學(xué)生一視同仁;3)測試結(jié)果對不同群體具有可比性;4)面對同樣的測試內(nèi)容,考生應(yīng)具備同等的學(xué)習(xí)或備考機(jī)會[10-11]。
Kane將美國法律體系中的“程序性正當(dāng)程序”(procedural due process)和“實質(zhì)性正當(dāng)程序”(substantive due process)與1999年版《標(biāo)準(zhǔn)》中測試公平的定義相結(jié)合,提出了“程序性公平”(procedural fairness)和“實質(zhì)性公平”(substantive fairness)的概念。前者要求考生在相同或相似的條件下接受相同的考試,評價他們的表現(xiàn)要用同樣的程序和規(guī)則;后者要求對全體考生成績的解讀以及依照考分所做的決策要合理、恰當(dāng)[12]。
Brown從課堂的客觀、平等出發(fā),指出公平的測試應(yīng)能做到不偏不倚,同等對待每個學(xué)生。在這一背景下,教師一般會做到自己的個人情感不會影響對學(xué)生的公正評判,不會在賦分上有所偏頗。同樣,教師也會竭盡所能設(shè)計測試問題、嚴(yán)格考試過程、合理確定計分方法,使學(xué)生能最大限度地得到公平對待[13]。
同樣從教學(xué)各要素出發(fā)判定測試公平的學(xué)者還有Hamp-Lyons。她認(rèn)為確定一種理想的公平模式并不容易,但是可以在測試的各個環(huán)節(jié)做到更加公平。比如:1)每個學(xué)生的學(xué)習(xí)風(fēng)格不同,那么教師應(yīng)該設(shè)計適應(yīng)學(xué)生特點的試題,使每個學(xué)生都能選擇恰當(dāng)?shù)目己诵问剑浞终故咀约旱哪芰Α?)學(xué)生對自己的成績?nèi)狈ε袛嗄芰?,需要依靠教師。因此,教師在測試的過程中一定要做到標(biāo)準(zhǔn)恰當(dāng),評價客觀、穩(wěn)定。3)評分者各自的性格和賦分習(xí)慣不一樣,測試也應(yīng)該為他們提供不同的選擇,讓打分者能做到客觀、公平。4)教師的授課風(fēng)格各不相同,因此測試也應(yīng)該適應(yīng)教師的風(fēng)格。5)測試應(yīng)該考慮到家長,測試結(jié)果應(yīng)易于被家長理解,以便他們了解子女的學(xué)習(xí)情況[14]。
測試公平討論和研究開展以來,被廣為認(rèn)可的是Kunnan提出的“公平測試框架”(test fairness framework)。他以測試的倫理視角為理念驅(qū)動,結(jié)合美國測試實踐聯(lián)合委員會(JCTP)1988年提出的《教育測試實踐公平性準(zhǔn)則》(Code of Fair Testing Practices in Education),建立了較為全面的理論框架,認(rèn)為測試公平應(yīng)考慮測試效度、對被測者的便利性和公正性三個方面。測試效度主要考慮對分?jǐn)?shù)的解讀是否對來自不同性別、種族、專業(yè)領(lǐng)域、文化等群體的考生具有同等的效度,也就是考試沒有偏向性。便利性考慮的是無論考生經(jīng)濟(jì)條件、地理位置、個人情況、受教育條件、對考試環(huán)境及設(shè)備的熟悉程度如何,都應(yīng)有參加考試的便利。測試的公正性主要是從社會公正和法律的角度考慮,不能因考生屬于不同的社會群體而產(chǎn)生不同的結(jié)果[15]。
通過梳理語言測試公平的概念,可以看出測試不公平的產(chǎn)生離不開試題開發(fā)、考試實施和結(jié)果解釋與使用三個環(huán)節(jié)。
這一環(huán)節(jié)的不公平主要來自試題本身,一是試題效度和信度低,二是試題存在偏向性。Kunnan認(rèn)為,測試不公平首先是效度和信度問題。內(nèi)容效度低,試題不能很好反映考試內(nèi)容范圍;構(gòu)念效度低,測試內(nèi)容不能充分考查預(yù)定的能力和知識;標(biāo)準(zhǔn)效度低,測試的標(biāo)準(zhǔn)與學(xué)校相關(guān)年級的等級要求不一致,或試題給考生帶來無關(guān)的困難,如試題指示語的難度超過試題本身;信度低,不同環(huán)境、不同形式下考生成績不一致,或同一試題在不同的評分員之間結(jié)果不一樣[15]。
從性質(zhì)上說,偏向性可以被看作測試構(gòu)念中的干擾因素,它可使考試結(jié)果脫離正常范圍,降低考試效度。引起偏向性的原因很多,比如:1)試題對某一群體的考生(性別、種族、文化等)有冒犯性、區(qū)分性,或者同一試題在能力相當(dāng)而屬于不同群體的考生中間考試分?jǐn)?shù)不一致,考試成績受到了構(gòu)念之外的因素所干擾。2)考試環(huán)境會使部分考生產(chǎn)生焦慮、恐懼或被疏遠(yuǎn)的情緒,導(dǎo)致考生成績偏差。比如考試環(huán)境的舒適度、考生對考試設(shè)施的熟悉程度等都會對結(jié)果產(chǎn)生影響。這一現(xiàn)象在計算機(jī)進(jìn)入語言測試之后尤為受關(guān)注,不少學(xué)者發(fā)現(xiàn)考生接觸計算機(jī)的可能性大小、使用計算機(jī)的經(jīng)驗多少會影響他們在計算機(jī)輔助測試中的成績,導(dǎo)致成績偏差。3)考試技巧(test wiseness)是考試構(gòu)念之外的因素,卻可以使考生獲取高分。考試中學(xué)生常用的考試技巧有時間規(guī)劃、錯誤規(guī)避、猜測等。盡管學(xué)界對于考試技巧評價不一,但是一些有經(jīng)濟(jì)基礎(chǔ)的學(xué)生會尋求機(jī)會參加一些考試技能的訓(xùn)練,從長遠(yuǎn)看會造成考試的不公平。
這一環(huán)節(jié)包括測試對于考生的便利與否以及施考。由于地域、經(jīng)濟(jì)、教育等條件限制,部分考生沒有機(jī)會學(xué)習(xí)考試的內(nèi)容,不熟悉考試項目的形式,不熟悉考試環(huán)境;還有個人身體狀況,比如殘疾等原因,會造成考試結(jié)果不公平。
施考過程一要考慮考試的物理環(huán)境是否適宜,如光線、溫度以及其他考試設(shè)施的穩(wěn)定性;二要考慮考試的組織,不同考點之間考試形式是否一致,考試時間是否統(tǒng)一;三要考慮考試的安全性。以上三個方面做得不充分的話,都會導(dǎo)致測試結(jié)果的不公平。
Tyalor指出,測試的公平在于測試這一工具的使用,而不是工具本身。一項有偏向的測試可以使用得公平;同樣,一項無偏向的測試也可能在使用上欠公平。在教育領(lǐng)域,測試是必不可少的部分,而且相關(guān)人員(教師、學(xué)生、教育管理者、決策者)都會負(fù)有責(zé)任,責(zé)任需要靠權(quán)力來履行。從這一角度說,測試是具有權(quán)力的,也應(yīng)該具有權(quán)力的[16]。這種權(quán)力體現(xiàn)在:1)測試分?jǐn)?shù)的獲取和存檔是在施考者手中,考生處于被考查、監(jiān)控地位;2)測試產(chǎn)生的分?jǐn)?shù)是決策者推動和改進(jìn)教育的依據(jù)。因此,測試結(jié)果的解讀和使用意義甚至超越測試本身,如果在不同考生群體之間,使用不同的方式對分?jǐn)?shù)進(jìn)行解讀,勢必導(dǎo)致不公平的產(chǎn)生。
除教育領(lǐng)域外,測試在社會的其他領(lǐng)域同樣發(fā)揮著巨大的影響力,不少學(xué)者曾討論過測試在這些領(lǐng)域具有潛在的不公平。Hawthorne指出,澳大利亞一直將語言測試用于政治目的,外來技術(shù)移民需要通過英語語言測試。當(dāng)經(jīng)濟(jì)不景氣的時候,測試的分?jǐn)?shù)線就會提高,以減少入境移民的數(shù)量;當(dāng)經(jīng)濟(jì)復(fù)蘇,移民條件放松,考試的分?jǐn)?shù)線就會降低[17]。使用托??荚囎鳛檎Z言要求的國家也會利用提高分?jǐn)?shù)的方式來減少來自有政治分歧國家的學(xué)生數(shù)量。McNamara和Roever曾以大量例證展示了一些國家如何利用“口令”(Shibboleth)或土著語等語言測試來阻止移民或避難者入境。這些語言測試是否公平與測試本身無關(guān),與使用者和使用方式關(guān)系密切[18]。
自20世紀(jì)70年代,歐美國家的教育和考試機(jī)構(gòu)就將測試公平寫入了測試標(biāo)準(zhǔn)和規(guī)范,以約束各級、各類測試行為,從理論和實踐層面確保測試公平,比如《教育和心理測試標(biāo)準(zhǔn)》《教育測試實踐公平性準(zhǔn)則》《ETS質(zhì)量和公平標(biāo)準(zhǔn)》《ETS公平測試與溝通指南》、歐洲語言測試者協(xié)會(ALTE)頒布的《良好測試和評估行為準(zhǔn)則》以及劍橋大學(xué)外語考試部制訂的《良好行為指導(dǎo)原則》等。這些規(guī)范性文獻(xiàn)都從不同側(cè)面對測試的公平性問題進(jìn)行了闡釋和規(guī)范。綜合起來,測試公平要從以下三個環(huán)節(jié)做起。
這個環(huán)節(jié)包括考試目的確定、試題開發(fā)等環(huán)節(jié)。在此期間,試題的開發(fā)者需要解決考什么、怎么考、考什么人、考什么級別、怎么賦分等問題;說明考試內(nèi)容的來源和開發(fā)方式;確??荚嚨男哦群托Ф?,避免考試內(nèi)容或語言對特定群體的考生造成偏向;為考生提供測試樣題或練習(xí)題等備考資源,使他們有機(jī)會了解考試的形式和考查重點;能為有身體缺陷的考生提供可行的測試形式;做好不同群體之間的取樣預(yù)測分析,使不同群體考生之間的考試成績符合他們的實際能力。與此同時,施考者的責(zé)任是明確考試目的、考試內(nèi)容;組織專家對測試開發(fā)者提供的試題進(jìn)行評估,排除有可能引起不公平的與測試構(gòu)念無關(guān)的認(rèn)知、情感以及物理方面的干擾因素,最終確定考試內(nèi)容和形式。
考試開發(fā)者負(fù)責(zé)對考試的組織程序、答題規(guī)范、環(huán)境設(shè)施等方面的要求進(jìn)行細(xì)致說明;對有特殊要求的群體(如殘疾人或不同母語)的測試形式提出指導(dǎo)性調(diào)整方案;確保測試期間的試題安全;明確評分細(xì)則,指導(dǎo)評分員進(jìn)行準(zhǔn)確評價。施考者是考試的執(zhí)行者和公平的監(jiān)督者,要確保測試的順利實施,滿足特定考生和群體的實際要求;確保試卷安全,防止某些考生通過欺詐手段獲取答案;確保閱卷者閱卷準(zhǔn)確,避免偏差。
考試的施考者要通過認(rèn)真分析考試內(nèi)容、參照基準(zhǔn)和其他技術(shù)參數(shù)對結(jié)果進(jìn)行解釋,同時考慮測試的優(yōu)點和不足。要嚴(yán)格遵循試題設(shè)計的目的,避免對考試的使用脫離初衷,避免使用一次考試分?jǐn)?shù)來對考生進(jìn)行能力定性,要考慮學(xué)生的多方面表現(xiàn)。
Shohamy等指出,在傳統(tǒng)意義上,人們認(rèn)為語言測試有兩個構(gòu)件,一是“考什么”,二是“怎么考”[19]。如今,本領(lǐng)域又增加了一個新的構(gòu)件,測試的實踐以及測試的社會后果和意義。在新時期,測試界不但要研究和探索語言的本質(zhì),創(chuàng)新測試方式,更要研究如何使測試更包容、民主、公正、開放、公平、無偏差。20世紀(jì)60年代以來,語言測試領(lǐng)域的關(guān)注點從測試的科學(xué)和客觀性向公平性轉(zhuǎn)變,國際語言測試協(xié)會20世紀(jì)90年代的研討會大都圍繞“公平”和“倫理”等主題,《語言測試》(Language Testing)曾于2010年出版??懻撜Z言測試公平性,這些變化反映了時代對測試公平的要求。Kunnan公平測試?yán)碚摽蚣艿男纬梢约皣H測試機(jī)構(gòu)相關(guān)標(biāo)準(zhǔn)和規(guī)范的出臺表明測試公平已經(jīng)過渡到理論化和制度化。盡管測試公平的貫徹和實踐不無挑戰(zhàn),但如果公平理念能貫穿到試題開發(fā)、管理、解讀和使用等每一個環(huán)節(jié),那么測試給個人、社會所帶來的公平和公正將是必然的。
[1]BACHMAN L F.Ongoing Challenges in Language Assessment[C]//KUNNAN A J.The Companion to Language Assessment(Vol.Ⅲ).Boston,MA:John Wiley&Sons,Inc.,2014:1586-1603.
[2]SHOHAMY E.The Power of Tests:The Impact of Language Tests on Teaching and Learning[R].National Foreign Language Center Occasional Papers,1993:1-19.
[3]FARHADY H.Ethics in Language Testing[C]//Paper presented at the Summer Institute on the Social Responsibility of Language Testers.Ottawa,Canada:Carleton University,1998.
[4]COLE N S,ZIEKY M J.The New Faces of Fairness[J].Journal of Educational Measurement,2001,38(4):369-382.
[5]HAMP-LYONS L.Ethics in Language Testing[C]//CLAPHAM C,CORSON D.Encyclopedia of Language and Education(Vol.7):Language Testing and Assessment.Netherlands:Kluwer Academic Publishers,1997.
[6]KARAMI H.The Quest for Fairness in Language Testing[J].Educational Research and Evaluation,2013(19):158-169.
[7]SONG X.Test Fairness in a Large-scale High-stakes Language Test[D].Alberta:Queen’University,2014.
[8]JENSEN A R.Bias in Mental Testing[M].New York:The Free Press,1980:376.
[9]CAMILLI G.Test Fairness[C]//BRENNAN R.Educational Measurement.Westport,CT:American Council on Education and Praeger,2006:221-256.
[10]American Educational Research Association,American Psychological Association,National Council on Measurement in Education.Standards for Educational and Psychological Testing[M].Washington,DC:AERA,1999.
[11]American Educational Research Association,American Psychological Association,National Council on Measurement in Education,Joint Committee on Standards for Educational and Psychological Testing.Standards for Educational and Psychological Testing[M].Washington,DC:AERA,2014.
[12]KANE M.Validity and Fairness[J].Language Testing,2010,27(2):177-182.
[13]BROWN J D.Testing in Language Programs[M].Upper Saddle River,NJ:Prentice Hall,1996:31.
[14]HAMP-LYONS L.Fairness in Language Testing[C]//KUNNAN A J.Fairness and Validation in Language Assessment.Cambridge:Cambridge University Press,2000:30-34.
[15]KUNNAN A J.Test fairness[C]//MILANOVIC M,WEIR C.European Language Testing in a Global Context.Cambridge:CUP,2004:27-48.
[16]TAYLOR T R.Are You Testing Fairly?[R].Pretoria:Human Sciences Research Council,1990.
[17]HAWTHORNE L.The Politicisation of English:The Evolution of Language Testing[J].People&Place,1994,2(2):5-12.
[18]MCNAMARA T F,ROEVER C.Language Testing:The Social Dimension[M].Oxford:Blackwell,2006.
[19]SHOHAMY E,OR I,MAY S.Language Testing and Assessment[M].Cham,Switzerland:Springer,2017:xii.