曲永鋒
(遼寧工業(yè)大學(xué),遼寧 錦州 121000)
2008年,教育部實(shí)施大學(xué)英語(yǔ)四級(jí)機(jī)考試點(diǎn)改革。從此,大學(xué)英語(yǔ)四級(jí)無(wú)論是從形式上還是從內(nèi)容上都有了較大的變化。由于整個(gè)社會(huì)對(duì)大學(xué)英語(yǔ)四級(jí)的認(rèn)知度都比較高,而且考生只有在大學(xué)就學(xué)期間才可以參加這項(xiàng)考試。因此,各個(gè)學(xué)校的大學(xué)英語(yǔ)教學(xué)也紛紛以大學(xué)英語(yǔ)四級(jí)考試為目標(biāo),制定相應(yīng)的教學(xué)計(jì)劃,對(duì)教學(xué)活動(dòng)進(jìn)行調(diào)整。遼寧工業(yè)大學(xué)從2009年開(kāi)始,進(jìn)行大學(xué)英語(yǔ)網(wǎng)絡(luò)測(cè)試實(shí)踐以來(lái),已經(jīng)進(jìn)行了23 場(chǎng)全校范圍的測(cè)試,參加人數(shù)超過(guò)了二萬(wàn)人次。目前,已經(jīng)形成了較為完善的測(cè)試硬件系統(tǒng),和較為成熟的測(cè)試機(jī)制與體系。
基于以上背景,本文通過(guò)分析遼寧工業(yè)大學(xué)英語(yǔ)網(wǎng)絡(luò)測(cè)試的實(shí)施過(guò)程與結(jié)果,考察這項(xiàng)測(cè)試的效度與信度,為今后大學(xué)英語(yǔ)教學(xué)的組織與進(jìn)行,大學(xué)英語(yǔ)網(wǎng)絡(luò)測(cè)試的創(chuàng)新與完善提供相應(yīng)的依據(jù)。
大學(xué)英語(yǔ)四級(jí)考試是一項(xiàng)由專家團(tuán)隊(duì)精心打造的考試,經(jīng)過(guò)多年的驗(yàn)證,被社會(huì)廣泛認(rèn)可,可以當(dāng)之無(wú)愧地稱作“高質(zhì)量考試”。那么,遼寧工業(yè)大學(xué)的大學(xué)英語(yǔ)網(wǎng)絡(luò)測(cè)試,是否也是一項(xiàng)“高質(zhì)量考試”呢?
Bachman &Palmer 將以下六大要素作為決定測(cè)試質(zhì)量?jī)?yōu)劣條件,分別為信度(reliability)、效度(construct validity)、真實(shí)性(authenticity)、交互性(interactiveness)、影響性(impact)、可行性(practicality)。所謂真實(shí)性,是指考生在測(cè)試過(guò)程中能夠正確解答某個(gè)問(wèn)題,是否等于其在實(shí)際場(chǎng)合下也具備與之相對(duì)應(yīng)的能力。所謂交互性,是指考生在完成測(cè)試任務(wù)過(guò)程中個(gè)人特征的參與程度和形式。所謂影響性,是指測(cè)試對(duì)于這個(gè)社會(huì)、教育制度、或是此項(xiàng)制度中的個(gè)人所造成的影響,同時(shí)還包括測(cè)試的波及效應(yīng)(washback effect)。最后的可行性與前面幾項(xiàng)要素不同,它包括測(cè)試以何種方式實(shí)施、甚至于最初的測(cè)試能否能夠?qū)嵤┑膯?wèn)題。但是,正如Bachman &Palmer 所說(shuō),決定測(cè)試質(zhì)量的最主要因素應(yīng)屬信度和效度。
有關(guān)測(cè)試的信度,許多學(xué)者給出了它的定義。Bachman &Palmer(1996)將信度定義為“測(cè)試的一致性”,即具備從一次測(cè)試到另一次測(cè)試結(jié)果一致的機(jī)能。同樣,McNamara(2000年)在其論著中提到,信度是由測(cè)試所得出的個(gè)人測(cè)試結(jié)果的一致性,通常用信度指數(shù)表示。最后,Alderson et al.(1995年)說(shuō),測(cè)試的信度是指測(cè)試得分的一致性。信度高的測(cè)試,應(yīng)試者在應(yīng)試當(dāng)天和第二天會(huì)得到相同的測(cè)試結(jié)果。
綜上所述,所謂信度可以定義為,測(cè)試得分一致性的程度。如果某個(gè)應(yīng)試者為檢驗(yàn)?zāi)稠?xiàng)能力而參加測(cè)試,其在任何時(shí)間、任何地點(diǎn)、任何條件下所得出的結(jié)果都是一致的,那么我們就可以認(rèn)為這項(xiàng)測(cè)試是有信度的。
許多研究者對(duì)測(cè)試信度的測(cè)定方法進(jìn)行了研究,其中有代表性的方法為以下四種:
1)重測(cè)信度:用同一種測(cè)驗(yàn),對(duì)同一組被試,前后施測(cè)兩次,再根據(jù)被試兩次測(cè)驗(yàn)分?jǐn)?shù)計(jì)算其相關(guān)系數(shù),即得重測(cè)信度。這種信度能表示兩次測(cè)驗(yàn)結(jié)果有無(wú)變動(dòng),反映測(cè)驗(yàn)分?jǐn)?shù)的穩(wěn)定程度,故又稱穩(wěn)定性系數(shù)。
2)復(fù)本信度:復(fù)本信度指的是兩個(gè)平行的測(cè)驗(yàn)測(cè)量同一批被試所得結(jié)果的一致性程度,其大小等于同一批被試在兩個(gè)復(fù)本測(cè)驗(yàn)上所得分?jǐn)?shù)的皮爾遜積差相關(guān)系數(shù)。
3)分半信度:分半信度指的是將一個(gè)測(cè)驗(yàn)分成對(duì)等的兩半后,所有被試在這兩半上所得分?jǐn)?shù)的一致性程度。
4)同質(zhì)性信度:同質(zhì)性信度也叫內(nèi)部一致性系數(shù),它是指測(cè)驗(yàn)內(nèi)部所有題目間的一致性程度。根據(jù)Hughes(1989年)的觀點(diǎn),第三種方法也屬于此類。
效度的定義到底是什么,這里講迄今為止有關(guān)學(xué)者的代表性論述按時(shí)間順序作以總結(jié)。1985年由美國(guó)心理學(xué)會(huì)(APA)、美國(guó)教育研究協(xié)會(huì)(AERA)和美國(guó)國(guó)家教育測(cè)量協(xié)會(huì)(NCME)共同編制的《教育與心理測(cè)驗(yàn)及手冊(cè)的標(biāo)準(zhǔn)》第一章中,對(duì)測(cè)試效度做了定義。其中,效度反映已有證據(jù)(evidence)可以在多大程度上支持根據(jù)測(cè)驗(yàn)分?jǐn)?shù)所做出的推論。根據(jù)證據(jù)來(lái)源不同,證據(jù)被劃分為來(lái)自構(gòu)念(construct)、來(lái)自內(nèi)容和來(lái)自標(biāo)準(zhǔn)(criterion)三種,效度也被相應(yīng)地劃分為三種。多年來(lái),這種關(guān)于效度的定義和效度種類的劃分,一直成為教育與心理測(cè)量學(xué)界關(guān)于效度研究的基本框架。
有關(guān)結(jié)構(gòu)效度的定義,很多的研究學(xué)者給出了比較復(fù)雜且相對(duì)不同的定義。首先Alderson,et al.(1995)將結(jié)構(gòu)效度看作是“測(cè)試能夠在何種程度上檢測(cè)出某種特性或性質(zhì)”。所謂的構(gòu)成效度,并不是一個(gè)具體的東西,而是一個(gè)抽象的心理學(xué)概念。它所測(cè)試出的這種特性,是經(jīng)過(guò)多次實(shí)際考試,綜合分析考試結(jié)果與預(yù)測(cè)結(jié)果之后所得出的。
效度的概念曾經(jīng)一度被劃分為許多詳細(xì)的分支,現(xiàn)在有有被眾多學(xué)者的研究主流又轉(zhuǎn)變?yōu)閷⑵溥M(jìn)行統(tǒng)一。本文之前所提到的,APA、AERA 和NCME 聯(lián)合委員會(huì)的定義“Validity is a unitary concept.”換句話說(shuō),諸多被細(xì)分的效度概念我們可以用一個(gè)結(jié)構(gòu)效度來(lái)統(tǒng)一聯(lián)系起來(lái)。
目前,不同學(xué)者對(duì)結(jié)構(gòu)效度的驗(yàn)證方法有著不同的見(jiàn)解。比如,L.J.Cronbach 和P.E.Meehl 提出了五種驗(yàn)證方法,即分組區(qū)分法(group differences)、相關(guān)矩陣與因素分析法(correlation matrices and factor analysis)、內(nèi)部結(jié)構(gòu)研究(studies of internal structure)、不同場(chǎng)合下的變化研究(studies of change over occasions)、過(guò)程研究(studies of process)。
但是,大多數(shù)人都將《教育及心理測(cè)試標(biāo)準(zhǔn)》一書(shū)中的定義“試題的效度指證據(jù)和理論對(duì)測(cè)試分?jǐn)?shù)解釋的支持程度”作為理論依據(jù)。將試題的效度驗(yàn)證描述為為實(shí)現(xiàn)某些目標(biāo)而收集證據(jù)的過(guò)程。這些證據(jù)包括測(cè)試構(gòu)念、測(cè)試內(nèi)容、答題過(guò)程(response processes)。內(nèi)部結(jié)構(gòu)(internal structure),與其他變量關(guān)系(relations to other variables)以及預(yù)期結(jié)果和非預(yù)期結(jié)果(intended and unintended consequences)等。
關(guān)于考試的分類方法有很多,按照考試結(jié)果的使用目的進(jìn)行分類,可以將考試分為以下四種:能力考試(proficiency test)、學(xué)歷考試、診斷考試(diagnostic test)、職業(yè)考試等四個(gè)類型。
很顯然,大學(xué)英語(yǔ)網(wǎng)絡(luò)測(cè)試是作為一項(xiàng)以大學(xué)英語(yǔ)這門(mén)課程為基礎(chǔ)而進(jìn)行的考試。這項(xiàng)考試出題者為擔(dān)任大學(xué)英語(yǔ)教學(xué)的多位教師,考試的范圍緊扣大學(xué)英語(yǔ)教學(xué)大綱,并最終由擔(dān)任大學(xué)英語(yǔ)教學(xué)工作的教師進(jìn)行評(píng)閱。整個(gè)考試以統(tǒng)一的教材為基準(zhǔn)進(jìn)行出題,題型參考大學(xué)英語(yǔ)四級(jí)的出題形式,試卷的最終評(píng)閱工作由擔(dān)任大學(xué)英語(yǔ)教學(xué)的教師們擔(dān)任。答題過(guò)程為網(wǎng)絡(luò)機(jī)考,試題內(nèi)容有題庫(kù)產(chǎn)生并隨機(jī)發(fā)放,客觀題成績(jī)?cè)诮痪硭查g已經(jīng)生成。
較高的信度的考試應(yīng)具備以下特點(diǎn):首先,要保證試卷有一定的量,一般來(lái)說(shuō)題量越大信度就越高;其次,作為考試結(jié)果的分?jǐn)?shù)要有一定的離散度,要呈中間大,兩頭小的IF 態(tài)分布。這就意味著試卷的區(qū)分度要高,能將各種不同水平層次的應(yīng)試者區(qū)分開(kāi)來(lái)。試題的難度要適中,太難和太容易都不能區(qū)分應(yīng)試者的水平層次,試題不能有偏頗性。
分析我校大學(xué)英語(yǔ)網(wǎng)絡(luò)測(cè)試的信度,我們將測(cè)試中受主觀因素影響較大的作文題、翻譯題及簡(jiǎn)答題去除,只留下客觀題作為分析數(shù)據(jù)的來(lái)源。將每個(gè)級(jí)別的題庫(kù)中的1000 余道試題的答題情況進(jìn)行分析,得到的克朗巴哈系數(shù)(Cronbach’s α)均超過(guò)0.8,屬于信度較高的結(jié)果。
關(guān)于考試的難易度,我們將四次期末考試的成績(jī)?yōu)榛鶞?zhǔn)做以分析。四次考試中,正確率低于0.2 的問(wèn)題均不超過(guò)問(wèn)題總數(shù)的3%;正確率高于0.8 的問(wèn)題大概都在30%~40%之間。從整體來(lái)看,正確率較高的問(wèn)題數(shù)所占比例較大,這使得參加考試的學(xué)生平均得分較高。這一結(jié)果,如果以期待正確率平均分布的常模參照性測(cè)試(normreferenced test)標(biāo)準(zhǔn)來(lái)衡量也許并不令人滿意,但作為一項(xiàng)學(xué)校內(nèi)部的標(biāo)準(zhǔn)參照性測(cè)試(criterion-referenced test),是可以被認(rèn)可的。
綜合本文以上的分析,我校實(shí)施的大學(xué)英語(yǔ)網(wǎng)絡(luò)測(cè)試,在測(cè)試信度上,除了正確率較高這一項(xiàng)目指標(biāo)外,其他信度系數(shù)都很令人滿意,可以說(shuō)這是一項(xiàng)高信度的測(cè)試。此外,從多次測(cè)試結(jié)果的橫向比較來(lái)看,綜合數(shù)據(jù)的結(jié)果都十分相近,可見(jiàn)測(cè)試是能夠比較準(zhǔn)確地反映出學(xué)生的英語(yǔ)能力的,也可以說(shuō)這是一項(xiàng)效度較高的考試。
大學(xué)英語(yǔ)課程作為高等學(xué)校學(xué)生的必修課程之一,社會(huì)上各種各樣的英語(yǔ)考試也是五花八門(mén),這體現(xiàn)了社會(huì)對(duì)于這門(mén)課程的高度認(rèn)可,也說(shuō)明了學(xué)生學(xué)習(xí)英語(yǔ)的必要性。大學(xué)英語(yǔ)網(wǎng)絡(luò)測(cè)試的作用在于檢驗(yàn)大學(xué)英語(yǔ)的教學(xué)成果,通過(guò)對(duì)大學(xué)英語(yǔ)網(wǎng)絡(luò)測(cè)試的研究,來(lái)提高大學(xué)英語(yǔ)教學(xué)本身,是大學(xué)英語(yǔ)教師應(yīng)該時(shí)刻思考的問(wèn)題。