亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

語言測試的公平性：概念溯源與實現(xiàn)路徑

2018-02-09 05:13:47張潤鄒慶武

中國考試 2018年3期

關(guān)鍵詞：語言

張潤鄒慶武

（河北經(jīng)貿(mào)大學(xué)，石家莊 050061）

Bachman指出：“21世紀(jì)語言測試領(lǐng)域面臨的挑戰(zhàn)，一方面源于半個世紀(jì)以來語言測試所取得的成就和進(jìn)步，另一方面源于目前的經(jīng)濟(jì)、社會和教育領(lǐng)域的變革。盡管測試界所研究的問題越來越廣泛，方法越來越多，但是本領(lǐng)域的一些基本問題仍亟待解決。比如，如何保證我們對測試結(jié)果的解讀是有意義的？如何能將基于測試結(jié)果的解讀推廣到語言應(yīng)用？如何能確保測試結(jié)果解讀及其影響會尊重個體的權(quán)利和相關(guān)群體的價值觀？”[1]Bachman所說的新挑戰(zhàn)、新問題實際上指出了語言測試領(lǐng)域關(guān)注焦點的變化：從關(guān)注測試準(zhǔn)確性、客觀性的結(jié)構(gòu)層面擴(kuò)大到關(guān)注其公平性的社會倫理層面。

語言測試一直以來都是學(xué)校等社會機(jī)構(gòu)進(jìn)行診斷、篩選和決策的手段之一，沒有哪種手段能比測試更為強(qiáng)大，更能引導(dǎo)決策[2]。通過這一手段，測試的使用者可以在受試者的教育、社會、職業(yè)甚至是個人生活等方面進(jìn)行決策。在某種意義上，語言測試已經(jīng)成為一種極為強(qiáng)大的武器，不但教師可以用，行政、經(jīng)濟(jì)、政治等多領(lǐng)域的決策者都可以使用[3]，而基于語言測試合理使用的思考也引發(fā)了測試界對測試公平的討論和研究。

語言測試界對公平性的關(guān)注始于19世紀(jì)六七十年代，但是研究成果并不令人滿意[4]。這一論題真正成為談?wù)摵脱芯康闹攸c則是在20世紀(jì)80年代，伴隨著學(xué)界對語言測試倫理層面的日漸關(guān)注而成為熱點。國際語言測試協(xié)會（ILTA）1997年年會的主題便是“語言測試中的公平性”。不少學(xué)者認(rèn)為，測試界既要努力開發(fā)高質(zhì)量的測試形式，又要增強(qiáng)測試對教育、社會和政治等產(chǎn)生可能后果的敏感度，防止對測試的濫用[5]。進(jìn)入21世紀(jì)，語言測試公平性的相關(guān)研究日漸增多，測試公平的概念越來越清晰。盡管不少研究仍處于起始階段，研究話題也存在不少爭議，但是公平性已經(jīng)成語言測試領(lǐng)域一個不可忽視的論題[6]。

1 語言測試的公平性

盡管測試公平在理論和實踐中都很重要，但至今沒有一個被教育研究者、測試開發(fā)者、測試使用者和受試者廣為接受的概念[7]。從字面上說，公平就是沒有偏差、不實或不公，但是在測試領(lǐng)域，給公平下定義并非易事，不同的學(xué)者界定公平的角度有所不同。

1.1 社會視角

Jensen認(rèn)為測試是有區(qū)分性的；如果缺乏區(qū)分性，測試將毫無用處。但是，如果測試僅針對特定的社會、種族或文化群體產(chǎn)生“區(qū)分性”，這一測試將被認(rèn)為出現(xiàn)了偏差，使用這一測試就是不公平的。因此，Jensen認(rèn)為公平多了些道德的意味，含有個人的主觀價值觀和判斷，公平的概念更屬于道德哲學(xué)層面而不是心理測量層面。另外，不同種族、社會和文化群體的人對公平標(biāo)準(zhǔn)的看法不一，因此公平不是一個可以用統(tǒng)計方式確定的概念。測試公平應(yīng)該從政策入手，全面考量哲學(xué)、法律和實用性等多方面因素[8]。

還有不少學(xué)者指出，一項測試，如果設(shè)計合理、使用得當(dāng)?shù)脑?，可以促進(jìn)教育、社會和經(jīng)濟(jì)等目標(biāo)的實現(xiàn)。人們常用測試手段對受試者進(jìn)行篩選或分類，Camilli認(rèn)為，測試中的公平是指如何看待分?jǐn)?shù)的解讀方式。測試是否公平要看測試的效度，要依靠一系列實證數(shù)據(jù)，還需要法律、倫理、政治、哲學(xué)以及經(jīng)濟(jì)等多方面的推理分析[9]。

1.2 標(biāo)準(zhǔn)或規(guī)范視角

以標(biāo)準(zhǔn)的形式來約束測試行為，做得較早、較好的當(dāng)屬美國。1974年，美國教育研究協(xié)會（AERA）、美國心理學(xué)協(xié)會（APA）和美國國家教育測量協(xié)會（NCME）在整合幾個測試指導(dǎo)文件的基礎(chǔ)上形成了《教育和心理測試標(biāo)準(zhǔn)》（Standards for Educational and Psychological Testing）（以下簡稱《標(biāo)準(zhǔn)》），并在1985年、1999年和2014年連續(xù)修訂。該文件是測試界對測試應(yīng)遵循的準(zhǔn)則所形成的共識，盡管不具有法律的強(qiáng)制性，但對本領(lǐng)域的各項操作極具規(guī)范作用。

1999年版《標(biāo)準(zhǔn)》第二部分用了4個章節(jié)來討論測試中的公平問題，2014年修訂版雖然將測試公平調(diào)整為第一部分的一個章節(jié)，但是把公平問題放在與效度、信度同一個層次來討論，足見公平問題的重要性。這兩版《標(biāo)準(zhǔn)》從4個方面對測試公平進(jìn)行闡釋：1）測試沒有偏向，試題設(shè)計本身以及測試的方式不會對不同群體產(chǎn)生不同的影響；2）測試環(huán)境、條件、評分方式和分?jǐn)?shù)使用對所有學(xué)生一視同仁；3）測試結(jié)果對不同群體具有可比性；4）面對同樣的測試內(nèi)容，考生應(yīng)具備同等的學(xué)習(xí)或備考機(jī)會[10-11]。

Kane將美國法律體系中的“程序性正當(dāng)程序”（procedural due process）和“實質(zhì)性正當(dāng)程序”（substantive due process）與1999年版《標(biāo)準(zhǔn)》中測試公平的定義相結(jié)合，提出了“程序性公平”（procedural fairness）和“實質(zhì)性公平”（substantive fairness）的概念。前者要求考生在相同或相似的條件下接受相同的考試，評價他們的表現(xiàn)要用同樣的程序和規(guī)則；后者要求對全體考生成績的解讀以及依照考分所做的決策要合理、恰當(dāng)[12]。

1.3 利益相關(guān)者視角

Brown從課堂的客觀、平等出發(fā)，指出公平的測試應(yīng)能做到不偏不倚，同等對待每個學(xué)生。在這一背景下，教師一般會做到自己的個人情感不會影響對學(xué)生的公正評判，不會在賦分上有所偏頗。同樣，教師也會竭盡所能設(shè)計測試問題、嚴(yán)格考試過程、合理確定計分方法，使學(xué)生能最大限度地得到公平對待[13]。

同樣從教學(xué)各要素出發(fā)判定測試公平的學(xué)者還有Hamp-Lyons。她認(rèn)為確定一種理想的公平模式并不容易，但是可以在測試的各個環(huán)節(jié)做到更加公平。比如：1）每個學(xué)生的學(xué)習(xí)風(fēng)格不同，那么教師應(yīng)該設(shè)計適應(yīng)學(xué)生特點的試題，使每個學(xué)生都能選擇恰當(dāng)?shù)目己诵问剑浞终故咀约旱哪芰Α?）學(xué)生對自己的成績?nèi)狈ε袛嗄芰?，需要依靠教師。因此，教師在測試的過程中一定要做到標(biāo)準(zhǔn)恰當(dāng)，評價客觀、穩(wěn)定。3）評分者各自的性格和賦分習(xí)慣不一樣，測試也應(yīng)該為他們提供不同的選擇，讓打分者能做到客觀、公平。4）教師的授課風(fēng)格各不相同，因此測試也應(yīng)該適應(yīng)教師的風(fēng)格。5）測試應(yīng)該考慮到家長，測試結(jié)果應(yīng)易于被家長理解，以便他們了解子女的學(xué)習(xí)情況[14]。

1.4 Kunnan的測試公平理論框架

測試公平討論和研究開展以來，被廣為認(rèn)可的是Kunnan提出的“公平測試框架”（test fairness framework）。他以測試的倫理視角為理念驅(qū)動，結(jié)合美國測試實踐聯(lián)合委員會（JCTP）1988年提出的《教育測試實踐公平性準(zhǔn)則》（Code of Fair Testing Practices in Education），建立了較為全面的理論框架，認(rèn)為測試公平應(yīng)考慮測試效度、對被測者的便利性和公正性三個方面。測試效度主要考慮對分?jǐn)?shù)的解讀是否對來自不同性別、種族、專業(yè)領(lǐng)域、文化等群體的考生具有同等的效度，也就是考試沒有偏向性。便利性考慮的是無論考生經(jīng)濟(jì)條件、地理位置、個人情況、受教育條件、對考試環(huán)境及設(shè)備的熟悉程度如何，都應(yīng)有參加考試的便利。測試的公正性主要是從社會公正和法律的角度考慮，不能因考生屬于不同的社會群體而產(chǎn)生不同的結(jié)果[15]。

2 影響語言測試公平性的原因

通過梳理語言測試公平的概念，可以看出測試不公平的產(chǎn)生離不開試題開發(fā)、考試實施和結(jié)果解釋與使用三個環(huán)節(jié)。

2.1 試題開發(fā)

這一環(huán)節(jié)的不公平主要來自試題本身，一是試題效度和信度低，二是試題存在偏向性。Kunnan認(rèn)為，測試不公平首先是效度和信度問題。內(nèi)容效度低，試題不能很好反映考試內(nèi)容范圍；構(gòu)念效度低，測試內(nèi)容不能充分考查預(yù)定的能力和知識；標(biāo)準(zhǔn)效度低，測試的標(biāo)準(zhǔn)與學(xué)校相關(guān)年級的等級要求不一致，或試題給考生帶來無關(guān)的困難，如試題指示語的難度超過試題本身；信度低，不同環(huán)境、不同形式下考生成績不一致，或同一試題在不同的評分員之間結(jié)果不一樣[15]。

從性質(zhì)上說，偏向性可以被看作測試構(gòu)念中的干擾因素，它可使考試結(jié)果脫離正常范圍，降低考試效度。引起偏向性的原因很多，比如：1）試題對某一群體的考生（性別、種族、文化等）有冒犯性、區(qū)分性，或者同一試題在能力相當(dāng)而屬于不同群體的考生中間考試分?jǐn)?shù)不一致，考試成績受到了構(gòu)念之外的因素所干擾。2）考試環(huán)境會使部分考生產(chǎn)生焦慮、恐懼或被疏遠(yuǎn)的情緒，導(dǎo)致考生成績偏差。比如考試環(huán)境的舒適度、考生對考試設(shè)施的熟悉程度等都會對結(jié)果產(chǎn)生影響。這一現(xiàn)象在計算機(jī)進(jìn)入語言測試之后尤為受關(guān)注，不少學(xué)者發(fā)現(xiàn)考生接觸計算機(jī)的可能性大小、使用計算機(jī)的經(jīng)驗多少會影響他們在計算機(jī)輔助測試中的成績，導(dǎo)致成績偏差。3）考試技巧（test wiseness）是考試構(gòu)念之外的因素，卻可以使考生獲取高分。考試中學(xué)生常用的考試技巧有時間規(guī)劃、錯誤規(guī)避、猜測等。盡管學(xué)界對于考試技巧評價不一，但是一些有經(jīng)濟(jì)基礎(chǔ)的學(xué)生會尋求機(jī)會參加一些考試技能的訓(xùn)練，從長遠(yuǎn)看會造成考試的不公平。

2.2 考試實施

這一環(huán)節(jié)包括測試對于考生的便利與否以及施考。由于地域、經(jīng)濟(jì)、教育等條件限制，部分考生沒有機(jī)會學(xué)習(xí)考試的內(nèi)容，不熟悉考試項目的形式，不熟悉考試環(huán)境；還有個人身體狀況，比如殘疾等原因，會造成考試結(jié)果不公平。

施考過程一要考慮考試的物理環(huán)境是否適宜，如光線、溫度以及其他考試設(shè)施的穩(wěn)定性；二要考慮考試的組織，不同考點之間考試形式是否一致，考試時間是否統(tǒng)一；三要考慮考試的安全性。以上三個方面做得不充分的話，都會導(dǎo)致測試結(jié)果的不公平。

2.3 結(jié)果解釋與使用

Tyalor指出，測試的公平在于測試這一工具的使用，而不是工具本身。一項有偏向的測試可以使用得公平；同樣，一項無偏向的測試也可能在使用上欠公平。在教育領(lǐng)域，測試是必不可少的部分，而且相關(guān)人員（教師、學(xué)生、教育管理者、決策者）都會負(fù)有責(zé)任，責(zé)任需要靠權(quán)力來履行。從這一角度說，測試是具有權(quán)力的，也應(yīng)該具有權(quán)力的[16]。這種權(quán)力體現(xiàn)在：1）測試分?jǐn)?shù)的獲取和存檔是在施考者手中，考生處于被考查、監(jiān)控地位；2）測試產(chǎn)生的分?jǐn)?shù)是決策者推動和改進(jìn)教育的依據(jù)。因此，測試結(jié)果的解讀和使用意義甚至超越測試本身，如果在不同考生群體之間，使用不同的方式對分?jǐn)?shù)進(jìn)行解讀，勢必導(dǎo)致不公平的產(chǎn)生。

除教育領(lǐng)域外，測試在社會的其他領(lǐng)域同樣發(fā)揮著巨大的影響力，不少學(xué)者曾討論過測試在這些領(lǐng)域具有潛在的不公平。Hawthorne指出，澳大利亞一直將語言測試用于政治目的，外來技術(shù)移民需要通過英語語言測試。當(dāng)經(jīng)濟(jì)不景氣的時候，測試的分?jǐn)?shù)線就會提高，以減少入境移民的數(shù)量；當(dāng)經(jīng)濟(jì)復(fù)蘇，移民條件放松，考試的分?jǐn)?shù)線就會降低[17]。使用托?？荚囎鳛檎Z言要求的國家也會利用提高分?jǐn)?shù)的方式來減少來自有政治分歧國家的學(xué)生數(shù)量。McNamara和Roever曾以大量例證展示了一些國家如何利用“口令”（Shibboleth）或土著語等語言測試來阻止移民或避難者入境。這些語言測試是否公平與測試本身無關(guān)，與使用者和使用方式關(guān)系密切[18]。

3 實現(xiàn)測試公平的路徑分析

自20世紀(jì)70年代，歐美國家的教育和考試機(jī)構(gòu)就將測試公平寫入了測試標(biāo)準(zhǔn)和規(guī)范，以約束各級、各類測試行為，從理論和實踐層面確保測試公平，比如《教育和心理測試標(biāo)準(zhǔn)》《教育測試實踐公平性準(zhǔn)則》《ETS質(zhì)量和公平標(biāo)準(zhǔn)》《ETS公平測試與溝通指南》、歐洲語言測試者協(xié)會（ALTE）頒布的《良好測試和評估行為準(zhǔn)則》以及劍橋大學(xué)外語考試部制訂的《良好行為指導(dǎo)原則》等。這些規(guī)范性文獻(xiàn)都從不同側(cè)面對測試的公平性問題進(jìn)行了闡釋和規(guī)范。綜合起來，測試公平要從以下三個環(huán)節(jié)做起。

3.1 試題開發(fā)與篩選

這個環(huán)節(jié)包括考試目的確定、試題開發(fā)等環(huán)節(jié)。在此期間，試題的開發(fā)者需要解決考什么、怎么考、考什么人、考什么級別、怎么賦分等問題；說明考試內(nèi)容的來源和開發(fā)方式；確?？荚嚨男哦群托Ф?，避免考試內(nèi)容或語言對特定群體的考生造成偏向；為考生提供測試樣題或練習(xí)題等備考資源，使他們有機(jī)會了解考試的形式和考查重點；能為有身體缺陷的考生提供可行的測試形式；做好不同群體之間的取樣預(yù)測分析，使不同群體考生之間的考試成績符合他們的實際能力。與此同時，施考者的責(zé)任是明確考試目的、考試內(nèi)容；組織專家對測試開發(fā)者提供的試題進(jìn)行評估，排除有可能引起不公平的與測試構(gòu)念無關(guān)的認(rèn)知、情感以及物理方面的干擾因素，最終確定考試內(nèi)容和形式。

3.2 考試管理與實施

考試開發(fā)者負(fù)責(zé)對考試的組織程序、答題規(guī)范、環(huán)境設(shè)施等方面的要求進(jìn)行細(xì)致說明；對有特殊要求的群體（如殘疾人或不同母語）的測試形式提出指導(dǎo)性調(diào)整方案；確保測試期間的試題安全；明確評分細(xì)則，指導(dǎo)評分員進(jìn)行準(zhǔn)確評價。施考者是考試的執(zhí)行者和公平的監(jiān)督者，要確保測試的順利實施，滿足特定考生和群體的實際要求；確保試卷安全，防止某些考生通過欺詐手段獲取答案；確保閱卷者閱卷準(zhǔn)確，避免偏差。

3.3 結(jié)果解釋和使用

考試的施考者要通過認(rèn)真分析考試內(nèi)容、參照基準(zhǔn)和其他技術(shù)參數(shù)對結(jié)果進(jìn)行解釋，同時考慮測試的優(yōu)點和不足。要嚴(yán)格遵循試題設(shè)計的目的，避免對考試的使用脫離初衷，避免使用一次考試分?jǐn)?shù)來對考生進(jìn)行能力定性，要考慮學(xué)生的多方面表現(xiàn)。

4 結(jié)語

Shohamy等指出，在傳統(tǒng)意義上，人們認(rèn)為語言測試有兩個構(gòu)件，一是“考什么”，二是“怎么考”[19]。如今，本領(lǐng)域又增加了一個新的構(gòu)件，測試的實踐以及測試的社會后果和意義。在新時期，測試界不但要研究和探索語言的本質(zhì)，創(chuàng)新測試方式，更要研究如何使測試更包容、民主、公正、開放、公平、無偏差。20世紀(jì)60年代以來，語言測試領(lǐng)域的關(guān)注點從測試的科學(xué)和客觀性向公平性轉(zhuǎn)變，國際語言測試協(xié)會20世紀(jì)90年代的研討會大都圍繞“公平”和“倫理”等主題，《語言測試》（Language Testing）曾于2010年出版?？懻撜Z言測試公平性，這些變化反映了時代對測試公平的要求。Kunnan公平測試?yán)碚摽蚣艿男纬梢约皣H測試機(jī)構(gòu)相關(guān)標(biāo)準(zhǔn)和規(guī)范的出臺表明測試公平已經(jīng)過渡到理論化和制度化。盡管測試公平的貫徹和實踐不無挑戰(zhàn)，但如果公平理念能貫穿到試題開發(fā)、管理、解讀和使用等每一個環(huán)節(jié)，那么測試給個人、社會所帶來的公平和公正將是必然的。

[1]BACHMAN L F.Ongoing Challenges in Language Assessment[C]//KUNNAN A J.The Companion to Language Assessment（Vol.Ⅲ）.Boston,MA:John Wiley&Sons,Inc.,2014:1586-1603.

[2]SHOHAMY E.The Power of Tests:The Impact of Language Tests on Teaching and Learning[R].National Foreign Language Center Occasional Papers,1993:1-19.

[3]FARHADY H.Ethics in Language Testing[C]//Paper presented at the Summer Institute on the Social Responsibility of Language Testers.Ottawa,Canada:Carleton University,1998.

[4]COLE N S,ZIEKY M J.The New Faces of Fairness[J].Journal of Educational Measurement,2001,38（4）:369-382.

[5]HAMP-LYONS L.Ethics in Language Testing[C]//CLAPHAM C,CORSON D.Encyclopedia of Language and Education（Vol.7）:Language Testing and Assessment.Netherlands:Kluwer Academic Publishers,1997.

[6]KARAMI H.The Quest for Fairness in Language Testing[J].Educational Research and Evaluation，2013（19）:158-169.

[7]SONG X.Test Fairness in a Large-scale High-stakes Language Test[D].Alberta:Queen’University,2014.

[8]JENSEN A R.Bias in Mental Testing[M].New York:The Free Press,1980：376.

[9]CAMILLI G.Test Fairness[C]//BRENNAN R.Educational Measurement.Westport,CT:American Council on Education and Praeger,2006:221-256.

[10]American Educational Research Association,American Psychological Association,National Council on Measurement in Education.Standards for Educational and Psychological Testing[M].Washington,DC:AERA,1999.

[11]American Educational Research Association,American Psychological Association,National Council on Measurement in Education,Joint Committee on Standards for Educational and Psychological Testing.Standards for Educational and Psychological Testing[M].Washington,DC:AERA,2014.

[12]KANE M.Validity and Fairness[J].Language Testing,2010,27（2）:177-182.

[13]BROWN J D.Testing in Language Programs[M].Upper Saddle River,NJ:Prentice Hall,1996:31.

[14]HAMP-LYONS L.Fairness in Language Testing[C]//KUNNAN A J.Fairness and Validation in Language Assessment.Cambridge:Cambridge University Press,2000:30-34.

[15]KUNNAN A J.Test fairness[C]//MILANOVIC M,WEIR C.European Language Testing in a Global Context.Cambridge:CUP,2004:27-48.

[16]TAYLOR T R.Are You Testing Fairly?[R].Pretoria:Human Sciences Research Council,1990.

[17]HAWTHORNE L.The Politicisation of English:The Evolution of Language Testing[J].People&Place,1994,2（2）:5-12.

[18]MCNAMARA T F,ROEVER C.Language Testing:The Social Dimension[M].Oxford:Blackwell,2006.

[19]SHOHAMY E,OR I,MAY S.Language Testing and Assessment[M].Cham,Switzerland:Springer,2017:xii.