羅 娟 肖云南
(湖南大學(xué), 長(zhǎng)沙 410082/中南林業(yè)科技大學(xué), 長(zhǎng)沙 410004;湖南大學(xué), 長(zhǎng)沙 410082)
提 要:大規(guī)模高風(fēng)險(xiǎn)測(cè)試對(duì)社會(huì)及利益相關(guān)者的影響極大,測(cè)試公平性檢驗(yàn)成為教育測(cè)量領(lǐng)域的研究重點(diǎn)。本文梳理語(yǔ)言測(cè)試界對(duì)公平性的定義及理論框架,從計(jì)量學(xué)與社會(huì)學(xué)兩個(gè)層面界定公平性的定義,并從測(cè)量公平與社會(huì)公平兩個(gè)維度構(gòu)建測(cè)試公平性的檢驗(yàn)框架。結(jié)合我國(guó)高考英語(yǔ),從實(shí)證角度明確從兩個(gè)維度進(jìn)行公平性檢驗(yàn)的具體內(nèi)容及步驟,并論證兩者間的關(guān)系,探討該檢驗(yàn)框架對(duì)我國(guó)大規(guī)模測(cè)試走向公平化的指導(dǎo)意義。
近年來, 語(yǔ)言測(cè)試工作者的研究重點(diǎn)逐步從提高語(yǔ)言測(cè)試信度與進(jìn)行效度驗(yàn)證轉(zhuǎn)向?qū)φZ(yǔ)言測(cè)試公平性問題的關(guān)注(何蓮珍 呂洲洋 2013:164),目前探討的熱點(diǎn)主要圍繞測(cè)試公平性的定義及檢驗(yàn)框架。雖然語(yǔ)言測(cè)試界認(rèn)識(shí)到測(cè)試公平對(duì)大規(guī)模測(cè)試的重要意義,但在很多方面未達(dá)成共識(shí)。本研究從測(cè)量公平與社會(huì)公平兩個(gè)維度構(gòu)建測(cè)試公平性檢驗(yàn)框架,明確兩者的關(guān)系,并以高考英語(yǔ)為例探討測(cè)試公平性檢驗(yàn)實(shí)踐。
對(duì)測(cè)試公平的定義隨不同的社會(huì)與政治環(huán)境而變化, 近年來研究重點(diǎn)逐步轉(zhuǎn)向語(yǔ)言測(cè)試對(duì)社會(huì)的影響,諸多學(xué)者開始從社會(huì)視角判斷測(cè)試公平性,探討其概念并嘗試構(gòu)建檢驗(yàn)框架。Kunnan(2000:1, 2004:27)基于考試心理測(cè)量學(xué)屬性, 對(duì)測(cè)試公平性定義從考試效度、機(jī)會(huì)均等、無偏差、施考條件與社會(huì)后果5個(gè)部分進(jìn)行拓展;并強(qiáng)調(diào)考試應(yīng)促進(jìn)社會(huì)公平, 減少測(cè)試帶來的負(fù)面影響。該框架提出迄今最為全面的公平性檢驗(yàn)框架,但操作性不強(qiáng),無法給研究人員的公平性檢驗(yàn)提供切實(shí)、有效的指導(dǎo)(Xi 2010:147)。將效度驗(yàn)證與公平性驗(yàn)證相互統(tǒng)一,并將公平性檢驗(yàn)的各個(gè)部分形成連貫的論證鏈,有助于深入理解測(cè)試分?jǐn)?shù)的使用情況及產(chǎn)生的社會(huì)后果。但該操作框架中,公平性檢驗(yàn)與效度驗(yàn)證存在明顯交叉(李清華 2016:549),讓研究者在實(shí)踐操作中無所適從。Walters(2012:469)提出從微觀分析與宏觀分析兩個(gè)方面檢驗(yàn)公平性。前者基于計(jì)量分析,依靠技術(shù)質(zhì)量檢測(cè);后者使用質(zhì)性方法,從社會(huì)視角來判斷。該模式提出的微觀和宏觀之分看似較為全面又具體,但實(shí)際上兩方面之間交叉較多,對(duì)實(shí)踐的指導(dǎo)意義有限。參照“語(yǔ)言測(cè)評(píng)使用論證”,李清華(2016:549)構(gòu)建的公平性檢驗(yàn)理論框架將公平性劃分為“測(cè)量公平性”與“社會(huì)公平性”兩部分,認(rèn)為公平性檢驗(yàn)既有技術(shù)屬性,又有社會(huì)屬性,并明確公平性檢驗(yàn)的具體步驟及研究問題,具有理論突破意義。
綜上所述,近年來語(yǔ)言測(cè)試界以更廣闊的視角從計(jì)量學(xué)與社會(huì)學(xué)兩個(gè)層面來界定測(cè)試公平性,逐漸將測(cè)試公平性研究從測(cè)試命題、施測(cè)、評(píng)分?jǐn)U展到分?jǐn)?shù)解釋、測(cè)試決策及產(chǎn)生的社會(huì)后果,著眼于整個(gè)測(cè)試始終。借鑒以上學(xué)者的觀點(diǎn),本文將測(cè)試公平定義為在測(cè)試命題、施測(cè)、分?jǐn)?shù)評(píng)定及進(jìn)行分?jǐn)?shù)解釋、作出測(cè)試決策、使用測(cè)試結(jié)果的一系列過程中,所有受試群體及個(gè)人得到相同的待遇,不存在有利/不利某受試個(gè)體/群體的現(xiàn)象?;谝陨隙x,本文嘗試從測(cè)量公平性與社會(huì)公平性兩個(gè)維度提出語(yǔ)言測(cè)試公平性檢驗(yàn)框架:
其中,測(cè)量公平性維度側(cè)重從測(cè)量學(xué)范疇檢驗(yàn)測(cè)試公平性的計(jì)量指標(biāo),體現(xiàn)為測(cè)試命題、施測(cè)、評(píng)分階段所有受試個(gè)體/群體接受無偏頗的評(píng)估內(nèi)容及形式、同等的評(píng)估條件及評(píng)分方式,不存在有利/不利某受試個(gè)體/群體的現(xiàn)象; 社會(huì)公正性維度注重從社會(huì)、政治視角對(duì)公平性進(jìn)行質(zhì)性檢驗(yàn),體現(xiàn)為測(cè)試的分?jǐn)?shù)解釋及測(cè)試決策使所有受試者得到同等待遇, 不存在有利/不利某受試個(gè)體/群體的現(xiàn)象,并且測(cè)試結(jié)果的使用對(duì)教育體系、社會(huì)環(huán)境產(chǎn)生系統(tǒng)、顯著的積極影響。
表1 語(yǔ)言測(cè)試公平性檢驗(yàn)框架
3.1 研究問題
測(cè)試公平性是一個(gè)較為主觀、相對(duì)的概念,必須置于特定社會(huì)、文化環(huán)境中進(jìn)行研究(McNamara, Roever 2006:197)。我國(guó)人口眾多, 教育發(fā)展不平衡,考生群體復(fù)雜,其他社會(huì)環(huán)境下建立的測(cè)試公平性理論并不一定完全適用于我國(guó)國(guó)情。基于我們已經(jīng)構(gòu)建的測(cè)試公平檢驗(yàn)框架,下文將以中國(guó)高風(fēng)險(xiǎn)測(cè)試——高考英語(yǔ)為例,結(jié)合我國(guó)國(guó)情從測(cè)量公平與社會(huì)公平兩個(gè)維度檢驗(yàn)分省命題下的測(cè)試公平,探討以下問題:(1)如何從測(cè)量公平與社會(huì)公平兩個(gè)維度檢驗(yàn)語(yǔ)言測(cè)試公平性;(2)如何看待兩者間的關(guān)系;(3)以上結(jié)論對(duì)改革我國(guó)測(cè)試現(xiàn)狀有何指導(dǎo)意義。
3.2 實(shí)驗(yàn)設(shè)計(jì)
自2000年,在分省命題政策下,各省根據(jù)教育部《全日制普通高級(jí)中學(xué)教學(xué)大綱》(以下簡(jiǎn)稱《教學(xué)大綱》)制定出十幾套高考試卷,試題內(nèi)容、題型各不相同,各省錄取分?jǐn)?shù)線也不相同。鑒于各年與各省的高考試卷與考生相互獨(dú)立,且高考實(shí)測(cè)數(shù)據(jù)的保密性,本文利用等值研究中的共同組設(shè)計(jì)(common-group design),通過高考模擬測(cè)試收集實(shí)驗(yàn)數(shù)據(jù)進(jìn)行計(jì)量分析回答研究問題(1),并基于分析結(jié)論對(duì)研究問題(2)及(3)展開探討①。
3.3 試卷結(jié)構(gòu)
經(jīng)過比較各省試卷,筆者發(fā)現(xiàn)上海卷與江西卷在試卷結(jié)構(gòu)與測(cè)試微技能等方面很相似,因而選取2008年上海卷(簡(jiǎn)稱卷A)、2009年上海卷(簡(jiǎn)稱卷B)、2009年江西卷(簡(jiǎn)稱卷C)用于實(shí)驗(yàn)。選擇2009年上海卷與2009年江西卷旨在檢驗(yàn)同年各省間高考英語(yǔ)的測(cè)試公平性,選擇2008年與2009年上海卷旨在探究同省歷年高考英語(yǔ)的測(cè)試公平性。
3.4 測(cè)試對(duì)象
依據(jù)高中統(tǒng)考成績(jī),本研究以高、中、低3個(gè)水平抽取湖南省3所高中1157名高三學(xué)生參加測(cè)試,3套試卷相隔1周施測(cè)1卷, 以保證考生能力的同質(zhì)性。該批考生處于高考備考階段,且模擬成績(jī)計(jì)入月考成績(jī),因此與高考測(cè)試群體在能力分布與測(cè)試動(dòng)機(jī)上有很高的同質(zhì)性。
測(cè)試的公平性首先體現(xiàn)在測(cè)量公平上,貫穿測(cè)試命題、施測(cè)與評(píng)分3個(gè)階段,本節(jié)側(cè)重從測(cè)試命題方面進(jìn)行試卷的計(jì)量分析。測(cè)量公平主要體現(xiàn)為測(cè)量有效、測(cè)量誤差小、分?jǐn)?shù)具有可比性和可解釋性等(楊惠中 2015:2) , 這樣測(cè)試才能為考生提供充分發(fā)揮能力的平等機(jī)會(huì)。測(cè)量有效是指測(cè)試不涉及與構(gòu)念效度無關(guān)的因素,誤差小要求測(cè)量信度高,可比性是指不同考次的測(cè)試分?jǐn)?shù)可直接比較,可解釋性是分?jǐn)?shù)表示的意義可以解釋,為用戶決策者提供依據(jù)。下文將從試卷效度、信度、分?jǐn)?shù)可比性方面對(duì)高考試卷進(jìn)行測(cè)量公平維度的計(jì)量分析。
4.1 構(gòu)念效度驗(yàn)證
在參詳《教學(xué)大綱》后,實(shí)驗(yàn)組3位語(yǔ)言測(cè)試專家以經(jīng)驗(yàn)判斷,卷A,B,C基本以此為準(zhǔn)編制試題,總體覆蓋考綱技能,測(cè)試內(nèi)容及結(jié)構(gòu)符合標(biāo)準(zhǔn)。經(jīng)Bartlett球度檢測(cè),3套試卷適合進(jìn)行因子分析(P<.01);然后采用主成分分析法顯示,卷A,B,C因子分析抽取的因子1的值較高,均能解釋該卷絕大部分方差(卷A:66%; 卷B:56%; 卷C:75%),按照《教學(xué)大綱》要求,高考英語(yǔ)應(yīng)強(qiáng)調(diào)英語(yǔ)綜合應(yīng)用能力,因此可認(rèn)定因子1即綜合英語(yǔ)應(yīng)用能力(分析表略)。
4.2 試卷信度
本文采用項(xiàng)目反應(yīng)理論(Item Response Theory,簡(jiǎn)稱IRT)首先對(duì)試題進(jìn)行參數(shù)估計(jì),同時(shí)估計(jì)試卷信息函數(shù)(test information function,簡(jiǎn)稱TIF),參數(shù)估計(jì)軟件為IRTPRO (Cai, Thissen, du Toit 2011)。在IRT理論中,采用TIF,也就是測(cè)驗(yàn)對(duì)受試能力估計(jì)所提供的信息量多少來表示測(cè)量的精度,并能估計(jì)不同能力受試的測(cè)量精度,代替?zhèn)鹘y(tǒng)的信度概念。
在高風(fēng)險(xiǎn)測(cè)試中,劃界分?jǐn)?shù)處的考生能力估計(jì)精度對(duì)測(cè)試決策的誤差大小產(chǎn)生關(guān)鍵影響,在此處測(cè)試應(yīng)具有較高的測(cè)量精度, 將劃界分?jǐn)?shù)附近的受試準(zhǔn)確區(qū)分,決定是否錄取, 將誤判率降到最低。筆者參考當(dāng)年全國(guó)高考錄取率(2008年57%,2009年62%),假設(shè)高考分?jǐn)?shù)呈正態(tài)分布, 對(duì)照正態(tài)分布表可見劃界分?jǐn)?shù)點(diǎn)的能力估計(jì)值在[-0.4,0]之間。在此區(qū)間,雖然3套試卷的TIF值均達(dá)到最高值,測(cè)量標(biāo)準(zhǔn)誤差為最低(見表2),但顯然存在差異:卷C的TIF值在該區(qū)間最高,在劃界分?jǐn)?shù)處的測(cè)量精度最高,而卷B則為最低。
表2 卷A、卷B、卷C測(cè)驗(yàn)信息值分布
4.3 試卷難度
基于IRT理論,我們對(duì)試卷的兩級(jí)計(jì)分選擇題用雙參數(shù)模型進(jìn)行項(xiàng)目參數(shù)估計(jì),除寫作題外的主觀題用等級(jí)評(píng)分模型分析,然后對(duì)全卷項(xiàng)目參數(shù)進(jìn)行描述性統(tǒng)計(jì),以比較3套試卷難度。
表3 卷A、卷B、卷C試題難度參數(shù)b描述性統(tǒng)計(jì)
表4 卷A、卷B、卷C試題區(qū)分度a描述性統(tǒng)計(jì)
由表3和表4可見,卷C的試題難度b及試題區(qū)分度a的均值在3卷中均為最高(bmean=.98;amean=1.17),在3套試卷中難度最大,區(qū)分度最好;卷B試題難度b及區(qū)分度a的均值(bmean=.37;amean=.24)均為最低, 難度最小,區(qū)分度欠佳; 而卷A的兩個(gè)指標(biāo)均值處于兩卷之間。由此可見,無論是同省跨年試卷, 還是同年跨省試卷,均出現(xiàn)試題難度、區(qū)分度不穩(wěn)定的現(xiàn)象。
4.4 測(cè)試分?jǐn)?shù)可比性
試卷間因難度差異對(duì)分?jǐn)?shù)可比性產(chǎn)生的影響, 一般通過等值將分?jǐn)?shù)轉(zhuǎn)換到統(tǒng)一量表后驗(yàn)證, 本文采用共同組設(shè)計(jì)的分?jǐn)?shù)等值,向參加實(shí)驗(yàn)的所有考生先后施測(cè)3套試卷后將卷面分進(jìn)行等值。高考為常模參照考試,依據(jù)考生成績(jī)?cè)诟魇】忌后w中的相對(duì)排名而非絕對(duì)的考試分?jǐn)?shù)擇優(yōu)錄取, 因而采用等百分位法(equipcentile me-thod)將分?jǐn)?shù)進(jìn)行等值。其等值原理為:兩個(gè)不同測(cè)驗(yàn)形式的分?jǐn)?shù),如它們的百分等級(jí)相同,即被認(rèn)為是等值的,實(shí)質(zhì)是基于在考生群體中的相對(duì)排名的等值方法。在3套試卷中,卷A的難度、區(qū)分度及信度都居中等,現(xiàn)將卷A定為基準(zhǔn)卷,采用經(jīng)過平滑處理的等百分位法進(jìn)行等值,將卷B、卷C分?jǐn)?shù)轉(zhuǎn)化到卷A上來。
圖1 3套試卷卷面分—百分位曲線對(duì)照表
圖1顯示,經(jīng)等值處理后,3套試卷的相同卷面分在考生群體中對(duì)應(yīng)的百分位差異顯著,卷C的卷面分對(duì)應(yīng)的百分位最高,卷B則最低。換言之,因試卷難度差異較大,3套試卷的相同卷面分表面上看似分值相等,但實(shí)質(zhì)反映考生的不同能力,因此,在考生中的相對(duì)排名截然不同。例如, 依據(jù)等值結(jié)果, 卷A的100分處于考生群體的百分位為58,而卷B與卷C的100分對(duì)應(yīng)的百分位分別為47與70。由此可見,各省、各年的高考分?jǐn)?shù)本身不具有直接可比性,并且各省考生的常模團(tuán)體不同, 如不經(jīng)等值依據(jù)各省考生排名制定錄取決策, 顯然對(duì)試卷偏易的考生群體有利,而對(duì)試卷偏難的考生群體不利。
由此可見, 在大規(guī)模測(cè)試的分?jǐn)?shù)解釋階段應(yīng)實(shí)現(xiàn)對(duì)不同測(cè)試群組間分?jǐn)?shù)的可比性,基于這一前提, 對(duì)各受試群組作出的測(cè)試決策才具有合理性(Kane 2010:177)。未經(jīng)過等值,測(cè)試成績(jī)間不具備可比性,評(píng)價(jià)標(biāo)準(zhǔn)也會(huì)因試卷難度差異的影響而對(duì)測(cè)試公平造成威脅(He, Qi 2010:359, Kobayashi, Negishi 2008:244)。
測(cè)試公平的另一維度是社會(huì)公平, 檢驗(yàn)在特定社會(huì)環(huán)境下,測(cè)試分?jǐn)?shù)的解釋、決策是否存在有利/不利某受試個(gè)體/群體的情況,測(cè)試結(jié)果的使用是否對(duì)教育系統(tǒng)產(chǎn)生系統(tǒng)、顯著的正面反撥(washback),是否發(fā)揮積極的社會(huì)性功能,對(duì)社會(huì)環(huán)境是否有正面后效。該維度涉及社會(huì)層面較廣,主要為測(cè)試用戶及利益相關(guān)群體,如政府機(jī)關(guān)、教育機(jī)構(gòu)、公司、考生、教師等,檢驗(yàn)方法以質(zhì)性研究為主。目前國(guó)內(nèi)外對(duì)于測(cè)試的社會(huì)公平性研究不多,相關(guān)研究以教學(xué)反撥為主探討其對(duì)教育體系的影響,對(duì)社會(huì)環(huán)境的影響關(guān)注不足。
5.1 分?jǐn)?shù)解釋及決策
雖然高考各省、各年試卷在計(jì)量指標(biāo)上存在明顯差異,且各省考生團(tuán)體常模存在差異,在分省命題政策下, 高考采用常模參照性評(píng)價(jià),根據(jù)考生原始分在各省常模中的相對(duì)位置轉(zhuǎn)化成標(biāo)準(zhǔn)分進(jìn)行分?jǐn)?shù)解釋??忌南鄬?duì)等級(jí)隨著用來比較的常模團(tuán)體的不同而變化,對(duì)高考分?jǐn)?shù)的解釋也會(huì)產(chǎn)生顯著、系統(tǒng)性的影響,所以處于教育欠發(fā)達(dá)地區(qū)的考生群體因此會(huì)受益,而對(duì)教育相對(duì)發(fā)達(dá)地區(qū)的考生群體不利。
在錄取政策上, 高考實(shí)際未經(jīng)各省試卷分?jǐn)?shù)等值, 采取地區(qū)配額制度實(shí)行全國(guó)招生,即高校擁有招生自主權(quán),獨(dú)立分配各省招生人數(shù),按照考生分?jǐn)?shù)在各省相對(duì)排名的先后擇優(yōu)錄取。地區(qū)配額招生制度表面上照顧到各省教育資源差異及教育發(fā)展不平衡的國(guó)情,但導(dǎo)致一系列負(fù)面社會(huì)影響:各大高校招生指標(biāo)分配明顯偏向于本地考生,嚴(yán)重歧視外地考生接受高等教育的平等權(quán)力。各省試題不一,分?jǐn)?shù)沒有可比性,高考就喪失統(tǒng)一衡量、平等選拔的功能, 因而掩蓋了全國(guó)高校錄取指標(biāo)分配不公的現(xiàn)實(shí),惡化了招生地域歧視,限制了廣大考生接受高等教育的平等權(quán)利。
5.2 教學(xué)反撥
縱觀近年來高考英語(yǔ)反撥效應(yīng)研究(董連忠 2014;朱明瑛 2012;陳麗珍 2009;洪小祥 2008;亓魯霞 2004,2007),高考英語(yǔ)對(duì)高中課程設(shè)置、教學(xué)內(nèi)容、教學(xué)方法、教學(xué)評(píng)估、師生教學(xué)態(tài)度等產(chǎn)生不同程度的影響,總體上呈現(xiàn)出對(duì)高中英語(yǔ)教學(xué)正面反撥作用增大、負(fù)面反撥效應(yīng)相對(duì)縮小的趨勢(shì)。盡管國(guó)內(nèi)高中的總體教學(xué)目標(biāo)向新課標(biāo)中“培養(yǎng)學(xué)生的綜合語(yǔ)言應(yīng)用能力”靠攏,但“應(yīng)試教育”現(xiàn)狀依然嚴(yán)重,尤其是畢業(yè)班。高考分?jǐn)?shù)被誤用作評(píng)估學(xué)校、師生的唯一量化指標(biāo),師生壓力較大??偠灾?,高考的反撥效應(yīng)在大體上有利于我國(guó)高中英語(yǔ)教學(xué),但負(fù)面反撥在畢業(yè)班的教學(xué)中較為明顯。
5.3 社會(huì)后效
高考是我國(guó)最有影響的高風(fēng)險(xiǎn)大規(guī)??荚嚕墙逃虒W(xué)和高等人才選拔的基本制度, 對(duì)于促進(jìn)教育發(fā)展與穩(wěn)定社會(huì)發(fā)揮著重要作用,但我們應(yīng)全面、客觀、公正地看待高考的社會(huì)性作用。
顯然, 高考改革歷程中的分省命題及地區(qū)配額招生制度引起一系列負(fù)面社會(huì)影響。首先,它造成大學(xué)生源的地方化和錄取標(biāo)準(zhǔn)的嚴(yán)重不公;然后,經(jīng)濟(jì)、文化發(fā)達(dá)地區(qū)形成高度集中的教育資源優(yōu)勢(shì),以低標(biāo)準(zhǔn)錄取當(dāng)?shù)乜忌?,增?qiáng)發(fā)達(dá)地區(qū)對(duì)人才與資源的吸引力,催生“高考移民”現(xiàn)象,導(dǎo)致該地區(qū)人才、物質(zhì)、財(cái)富更加集中,進(jìn)一步加劇資源配置失衡;其次,資源相對(duì)集中不利于全國(guó)范圍內(nèi)的人才流動(dòng),教育發(fā)達(dá)地區(qū)的畢業(yè)人才就業(yè)壓力過大,而欠發(fā)達(dá)地區(qū)則人才日益匱乏。如此惡性循環(huán),高校招生地方化只能進(jìn)一步擴(kuò)大城鄉(xiāng)差別,人才與資源不斷從農(nóng)村流向城市的形式日益嚴(yán)重。最后,高考招生制度飽受社會(huì)各階層詬病,成為社會(huì)不和諧的重要因素。據(jù)中國(guó)青年報(bào)調(diào)查顯示,89.3%的民眾認(rèn)為全國(guó)重點(diǎn)大學(xué)招生指標(biāo)分配不公平。高考招生歧視侵犯全國(guó)大多數(shù)地區(qū)考試的利益,引起公眾普遍不滿,容易激化地區(qū)矛盾,影響共建和諧社會(huì)。
基于本文構(gòu)建的測(cè)試公平性檢驗(yàn)框架,筆者對(duì)分省命題的3套高考英語(yǔ)試卷從測(cè)量公平與社會(huì)公平兩個(gè)維度進(jìn)行檢驗(yàn)。
首先,對(duì)高考命題的計(jì)量分析顯示,3套試卷在難度、區(qū)分度及信度方面存在較大差異,試卷難度的起伏無疑對(duì)考生的測(cè)試表現(xiàn)會(huì)造成系統(tǒng)性的影響, 并直接導(dǎo)致試卷分?jǐn)?shù)的不可比,試卷信度的差異也意味著測(cè)試對(duì)考生能力評(píng)估的準(zhǔn)確性存在差異。顯而易見,計(jì)量分析揭示出的命題缺陷,致使高考試題無法為考生提供發(fā)揮能力的平等機(jī)會(huì), 也直接影響測(cè)試決策的公平性。其次,高考的分?jǐn)?shù)解釋及地區(qū)配額招生決策違背所有受試享有接受高等教育平等權(quán)利的原則;高考結(jié)果的使用對(duì)教育反撥的負(fù)面影響雖然呈減少趨勢(shì),但引發(fā)一系列負(fù)面社會(huì)影響,妨礙社會(huì)公平的實(shí)現(xiàn)。
總而言之,分省命題下的高考英語(yǔ)在測(cè)量公平性與社會(huì)公平性兩個(gè)維度上有所欠缺,真正實(shí)現(xiàn)測(cè)試公平有待進(jìn)一步改革。
6.1 兩個(gè)維度的關(guān)系
本文圍繞大規(guī)模測(cè)試的公平性定義展開探討,從測(cè)量公平與社會(huì)公平兩個(gè)維度構(gòu)建測(cè)試公平性檢驗(yàn)框架?;谠摽蚣軐?duì)高考英語(yǔ)試卷的實(shí)證分析可見,兩個(gè)維度的公平性檢驗(yàn)貫穿測(cè)試的全過程, 兩者既有獨(dú)立要求, 又緊密聯(lián)系, 缺一不可。
首先,測(cè)量公平僅是測(cè)試公平性研究的一部分,是決定測(cè)試公平的前提與基礎(chǔ)。該維度主要由測(cè)試機(jī)構(gòu)及測(cè)試工作者負(fù)責(zé),涉及心理測(cè)量、教育學(xué)、心理學(xué)等多學(xué)科的交叉應(yīng)用,以技術(shù)性手段保證學(xué)術(shù)行為決定。測(cè)量公平先于社會(huì)公平, 只有實(shí)現(xiàn)測(cè)量公平才能談社會(huì)公平,才能保障社會(huì)公平(楊惠中 2015:2)。
然后,社會(huì)公平維度是測(cè)試公平性研究的重要方面,是體現(xiàn)測(cè)試社會(huì)功能的關(guān)鍵因素。該維度超出測(cè)試工作者能控制的范圍,主要由我國(guó)某些政府職能部門負(fù)責(zé),涉及政治、經(jīng)濟(jì)、道德及價(jià)值觀等多種復(fù)雜因素,公平性檢驗(yàn)多以質(zhì)性研究方法為主。有悖社會(huì)公平,將削弱測(cè)量公平的作用,最終阻礙測(cè)試公平的實(shí)現(xiàn)。
只有清晰地界定測(cè)試公平性研究的維度、明確各方在維護(hù)測(cè)試公平性中應(yīng)承擔(dān)的責(zé)任,才能最后形成連貫的、系統(tǒng)的測(cè)試公平性框架。要實(shí)現(xiàn)測(cè)試的公平性,不僅要確保測(cè)試開發(fā)機(jī)構(gòu)在考試過程中的專業(yè)行為,也要確保相關(guān)行政機(jī)構(gòu)對(duì)測(cè)試結(jié)果的解釋合理、決策得當(dāng),確保將促進(jìn)教學(xué)、促進(jìn)社會(huì)公平作為測(cè)試改革的基本價(jià)值取向。
6.2 對(duì)測(cè)試實(shí)踐的指導(dǎo)意義
測(cè)量有效、測(cè)量可信、分?jǐn)?shù)具有可比性與可解釋性是測(cè)量公平的基礎(chǔ)。我國(guó)諸多考試為超大規(guī)??荚? 參考人數(shù)眾多,考生群體復(fù)雜, 出于試題保密性和可操作性等原因,采用平行卷是常見做法。但眾多大規(guī)模測(cè)試未實(shí)現(xiàn)等值,如高考、高中會(huì)考、公務(wù)員考試等。為使考生間的分?jǐn)?shù)具有可比性,必須對(duì)平行卷進(jìn)行等值處理,并逐漸建立試題庫(kù)系統(tǒng),以克服命題的片面性、隨意性,從而實(shí)現(xiàn)命題標(biāo)準(zhǔn)化、施測(cè)標(biāo)準(zhǔn)化、評(píng)分標(biāo)準(zhǔn)化、分?jǐn)?shù)解釋標(biāo)準(zhǔn)化,為實(shí)現(xiàn)測(cè)試的測(cè)量公平性提供前提。
國(guó)內(nèi)大規(guī)模測(cè)試均由各級(jí)教育或考試主管部門實(shí)施,基于分?jǐn)?shù)進(jìn)行決策是行政行為多于學(xué)術(shù)行為,與測(cè)試開發(fā)者的預(yù)想存在一定脫節(jié),由此產(chǎn)生社會(huì)公平性問題是國(guó)內(nèi)語(yǔ)言測(cè)試公平性最突出的問題(李清華 2016:549)。由于其權(quán)威性,測(cè)試決策的公平性很少受到公開質(zhì)疑,相關(guān)行為無法得到有效監(jiān)督與約束。因此,一方面研究者關(guān)于測(cè)試使用的后效,如對(duì)教育體制、社會(huì)各層面影響的研究亟待加強(qiáng);另一方面,單靠測(cè)試機(jī)構(gòu)無法確保測(cè)試的社會(huì)公平性,應(yīng)委托獨(dú)立研究機(jī)構(gòu)進(jìn)行社會(huì)公平性檢驗(yàn),其研究報(bào)告應(yīng)向公眾公開。權(quán)威機(jī)構(gòu)也應(yīng)自覺將相關(guān)工作置于社會(huì)監(jiān)督之下,積極促進(jìn)考后分?jǐn)?shù)解釋的科學(xué)化、錄取政策的公開化、測(cè)試使用的科學(xué)化。
大規(guī)模高風(fēng)險(xiǎn)測(cè)試對(duì)考生、教育及社會(huì)的影響極大,其公平性檢驗(yàn)不容忽視。本文構(gòu)建的公平性檢驗(yàn)框架將促使語(yǔ)言測(cè)試界的研究重點(diǎn)從心理計(jì)量學(xué)范疇向社會(huì)學(xué)范疇延伸, 對(duì)兩者間關(guān)系的探討具有重要理論價(jià)值及現(xiàn)實(shí)意義:幫助測(cè)試機(jī)構(gòu)及測(cè)試工作者進(jìn)一步理解公平性的內(nèi)涵, 同時(shí)促使相關(guān)行政部門提高測(cè)試公平性意識(shí), 從政策上保障測(cè)試公平性, 減少測(cè)試結(jié)果的誤用及濫用。雙方的共同協(xié)作對(duì)于推動(dòng)我國(guó)語(yǔ)言測(cè)試的公平性及專業(yè)化進(jìn)程極為重要。
分省命題已成為高考改革歷程中的一個(gè)背影,但其弊端對(duì)促進(jìn)我國(guó)大規(guī)模測(cè)試的公平性提供諸多借鑒。2016年我國(guó)高考逐漸實(shí)現(xiàn)全國(guó)統(tǒng)考,是我國(guó)高風(fēng)險(xiǎn)測(cè)試走向公平化的一項(xiàng)重要舉措,標(biāo)志著新一輪考試招生改革的全面推進(jìn)。
注釋
①本文實(shí)驗(yàn)數(shù)據(jù)來自國(guó)家社科規(guī)劃項(xiàng)目“全國(guó)高考分省命題的英語(yǔ)分?jǐn)?shù)等值模型研究”。