王丹妮
摘 要:測(cè)試的質(zhì)量保證一直以來都是出題專家非常重視的方面,包括很多領(lǐng)域和方面。本文僅針對(duì)其中一個(gè)方面:測(cè)試信度,進(jìn)行分析和說明。本文首先通過引用塔克(Tucker)相關(guān)定義對(duì)信度進(jìn)行解釋和說明。其次,列舉出可能影響信度的因素。最后,針對(duì)這些影響因素,提出一些解決方法。
關(guān)鍵詞:信度;效度;測(cè)試質(zhì)量;教與學(xué)
每個(gè)測(cè)試設(shè)計(jì)者都希望考試能夠達(dá)到公平、準(zhǔn)確和可信的標(biāo)準(zhǔn)。因此,許多出題專家對(duì)測(cè)試發(fā)展態(tài)勢(shì)作以研究,希望能夠平衡測(cè)試質(zhì)量的信度和效度(Reliability and Validity)、沖擊力和實(shí)用性(Impact and Practicality)的關(guān)系,實(shí)現(xiàn)整個(gè)試題的效度和效用,保證試題能夠?qū)ζ錅y(cè)試的領(lǐng)域真正有用。
傳統(tǒng)意義上,測(cè)試質(zhì)量的評(píng)價(jià)主要有兩個(gè)關(guān)鍵的決定因素:信度和效度。但是,巴赫曼(Bachman)和帕爾默(Palmer)(1996)將沖擊力和實(shí)用性也納入其中,認(rèn)為它們也決定著測(cè)試在其所測(cè)試領(lǐng)域的有效性。但不論如何,信度的重要性是不容置疑的。因此,測(cè)試以及子測(cè)試的信度就成為公平性的關(guān)鍵因素,也是參試者需要了解的內(nèi)容。
1 信度和效度
信度是為了使某一考試達(dá)到準(zhǔn)確性和分?jǐn)?shù)一致性的方法。可信度(Reliability)這一詞,用于日常生活中時(shí)涵義廣泛,可以是對(duì)朋友的忠誠(chéng),對(duì)質(zhì)量的承諾,對(duì)安全的保證等等。但是當(dāng)它用于測(cè)試這一專門意義時(shí),是指可以用于反復(fù)測(cè)試考生水平,而在反復(fù)使用后所得到的測(cè)試結(jié)果是非常相近的。但是,雖然信度是一份好試卷的必要條件,它并不是唯一條件。一份信度很高的試題,卻可能無法測(cè)試出考生其它方面,例如:考生的興趣——事實(shí)上,這份試題可能與考生的興趣毫無關(guān)系。因此,測(cè)試另一個(gè)重要方面:效度,就應(yīng)運(yùn)而生了——這份試題是用來測(cè)試我們想要測(cè)試的方面嗎?
雖然高信度是測(cè)試的一個(gè)關(guān)鍵因素,但是早在1945年就有人提出:“提高信度與測(cè)試水平的矛盾”(格利克森(Gulliksen),1945,塔克(Tucker),1946)。下文是摘自塔克的一段話:
如果統(tǒng)一所有試題的信度,就要統(tǒng)一所有的試題。那么,一名考生會(huì)做其中一個(gè)試題,他就會(huì)做其它所有試題;相反,如果一名考生不會(huì)做其中一個(gè)試題,那么,他就勢(shì)必不會(huì)做所有試題。這樣,唯一會(huì)出現(xiàn)的分?jǐn)?shù)就只能是一分或零分……難道人們希望一次測(cè)試中的所有試題難度都一樣,而最終只產(chǎn)生兩種分?jǐn)?shù)嗎?
——塔克,1946
其實(shí),塔克這里所指的“測(cè)試水平”在某種意義上就是效度。也就是說當(dāng)要同時(shí)提高信度和效度時(shí),二者之間是存在一定矛盾的。信度在一定程度上制約著效度的提高。
巴赫曼(Bachman)(1990, p 161)對(duì)信度是這樣解釋的:信度是為了使測(cè)試達(dá)到最小錯(cuò)誤率,而效度是為了使語言能力的測(cè)試達(dá)到最大效果。巴赫曼認(rèn)為信度和效度是“一般測(cè)試中互補(bǔ)的兩個(gè)方面——它們鑒定、評(píng)價(jià)和控制所有影響測(cè)試分?jǐn)?shù)的因素”(1990, p 160)。然而,他也指出,信度和效度之間明顯地存在著緊張關(guān)系(tension)。當(dāng)我們要采取各種手段實(shí)現(xiàn)高信度時(shí),例如:通過限制題型或限制測(cè)試范圍,這些限制同時(shí)也制約了測(cè)試的性能和目的,即:測(cè)試效度。
可以看出,很多學(xué)者都認(rèn)為用信度系數(shù)來評(píng)價(jià)測(cè)試質(zhì)量對(duì)測(cè)試范圍會(huì)帶來影響。因此,對(duì)一份試題信度的評(píng)估僅僅是管理特定應(yīng)試者們的行政手段,而并非試題本質(zhì)特征。有些試題的報(bào)考者們形形色色,水平參差不齊,因此很容易分級(jí)排名,類似于這樣的測(cè)試,與應(yīng)試者水平相近的測(cè)試相比,其信度系數(shù)要高很多。因此,當(dāng)我們比較不同測(cè)試的信度時(shí),例如考生水平差距等很多因素都必須考慮進(jìn)去。
2 信度的影響因素
考生之間的水平差距僅僅是可能影響信度的因素之一。除此之外,還有諸多其它因素:第一,考生本身的波動(dòng)(fluctuation),包括疲勞、遺忘、疾病、感情挫折、練習(xí)效應(yīng)等。第二,分?jǐn)?shù)波動(dòng),包括評(píng)分者本身的誤差偏差等。第三,測(cè)試管理波動(dòng),包括對(duì)考試指南的解釋、測(cè)試時(shí)間控制、監(jiān)考人員和考生的交流、作弊控制、考試剩余時(shí)間的告知、打擾、干涉、考試教室光線等。第四,試題特征:長(zhǎng)度、難度、鑒別力、速度等。第五,響應(yīng)特征:猜題能力、應(yīng)試能力等。
3 如何規(guī)避信度的影響因素
要解決以上五大影響信度的因素,最大程度上達(dá)到信度和效度的標(biāo)準(zhǔn),以下不失為一些好的方法:試題量要足夠:從某種意義上說,試題的數(shù)量越多,其可信度就越高;考試指南要清楚和詳細(xì):這樣是為了避免考生誤解考試指南;保證試卷排版合理清楚,字跡清晰;報(bào)考者應(yīng)熟知考試格式和測(cè)試技巧;試題本身要明確清楚;盡量直接比較報(bào)考者水平;提供詳細(xì)的評(píng)分標(biāo)準(zhǔn):指明正確答案,可能出現(xiàn)的部分正確的答案的給分標(biāo)準(zhǔn)也要明確說明;對(duì)評(píng)分人進(jìn)行培訓(xùn):尤其是主觀題的評(píng)分人;改卷之前統(tǒng)一不同答案的確切給分;提供統(tǒng)一良好的評(píng)分環(huán)境;試題本身應(yīng)該利于客觀評(píng)分:例如,自由問答題,其答案應(yīng)唯一和統(tǒng)一。
以劍橋大學(xué)的一系列考試為例,他們測(cè)試的是英語語言水平。這些考試的報(bào)考者大都在應(yīng)試前參加了預(yù)試班,并準(zhǔn)備繼續(xù)學(xué)習(xí)和參加劍橋大學(xué)的連續(xù)水平測(cè)試。和考試相關(guān)的書籍和資料有很多。因此,考生的水平基本在一個(gè)層次。所以,要保證較高的測(cè)試信度,應(yīng)該說難度還是很大的。劍橋大學(xué)考試體系在發(fā)展了十幾年的今天,根據(jù)不同語言測(cè)試水平的要求出臺(tái)了很多新考試。由于這些測(cè)試都是針對(duì)某一特定水平,測(cè)試的結(jié)果是以通過和未通過的形式公布的,其實(shí),這在一定程度上也保證的測(cè)試的信度。但是,其信度并沒有和效度分家,而是緊密的結(jié)合在一起的。例如,劍橋主流英語認(rèn)證(The Cambridge EFL Main Suite exams)以及商務(wù)英語證書(Business English Certificates)等考試的設(shè)計(jì)是為了通過鼓勵(lì)教和學(xué),并反對(duì)“應(yīng)試教育”來促進(jìn)語言學(xué)習(xí)。目的是告訴學(xué)者:備考就是要學(xué)好這門語言。每次對(duì)試題的修訂,劍橋大學(xué)都是為了體現(xiàn)他們當(dāng)前對(duì)語言教與學(xué)的觀點(diǎn)和看法。近期他們對(duì)測(cè)試的修訂是為了突出語言的交流作用,因此,試題設(shè)計(jì)傾向于語境的把握和篇章本質(zhì)的撲捉。
劍橋大學(xué)考試對(duì)測(cè)試信度和效度的研究有很多年,并根據(jù)信度和效度的要求對(duì)其考試作了很多修訂。即便如此,他們也不得不承認(rèn),測(cè)試信度和效度的一些負(fù)面影響因素還是很難避免的。但是,其在注重信度的同時(shí)不斷改進(jìn)試題,使其達(dá)到更高的效度,這種方法是劍橋大學(xué)給我們的一個(gè)寶貴經(jīng)驗(yàn)。
4 結(jié)論
總而言之,信度,作為測(cè)試質(zhì)量的重要因素,是用于評(píng)價(jià)測(cè)試結(jié)果是否真實(shí)的反映的考生的實(shí)際水平。它是反映測(cè)試是否受到非測(cè)試因素的影響,是反映測(cè)試客觀性和可靠性的指標(biāo)。信度和效度是相互補(bǔ)充、不可分割的。在注重和提高信度的過程中,無疑會(huì)對(duì)效度產(chǎn)生影響和制約。所以,要平衡好二者的關(guān)系,找到一個(gè)切合點(diǎn),才不失為是一份好的測(cè)試。不同測(cè)試,其信度高低的評(píng)估絕對(duì)不能不考慮諸多的影響因素。然而,作為一名測(cè)試的設(shè)計(jì)者,出題過程中也必須考慮并盡量避免這些影響因素。
參考文獻(xiàn)
[1]Hughes, A. 1989. Testing for Language Techers. Cambridge: CUP.
[2]Weir, C. 1988. Communicative Language Testing. UK: Prentice Hall International Ltd.
[3]Bachman, L F (1990): Fundamental considerations in language testing, Oxford: OUP
[4]Bachman, L F and Palmer, A (1996): Language testing in practice, Oxford: OUP
[5]Gulliksen, H (1945): The relation of item difficulty and inter-item correlation to test variance and reliability, Psychometrika 10 (2), 79-91
[6]Tucker, L R (1946): Maximum validity of a test with equivalent items, Psychometrika 11 (1), 1-13
[7]劉潤(rùn)清,韓寶成.語言測(cè)試和他的方法[M].北京:外語教學(xué)與研究出版社,1999.
[8]桂詩春,語言測(cè)試:新技術(shù)與新理論[J].外語教學(xué)與研究,1983,(3).