摘 要: 本文簡單地介紹了評估語言測試最為關(guān)鍵的兩個質(zhì)量指標:信度和效度,在論證了信度與效度的關(guān)系后,探索了如何達到信度和效度之間的平衡以獲得測試最大的總效用,并對語言測試的改革實踐提出了一些參考性建議。
關(guān)鍵詞: 語言測試 信度 效度
隨著語言學(xué)、語言心理學(xué)、社會語言學(xué)和教學(xué)測量學(xué)的發(fā)展,語言測試已成為一門科學(xué)性和實踐性都很強的新興學(xué)科。語言測試是對語言教學(xué)進行測量和評估的一個重要手段,越來越受到廣大外語教學(xué)工作者的重視。眾所周知,測試是教與學(xué)的向?qū)?,為了讓測試發(fā)揮出其向?qū)У淖饔?,并從測試中準確而客觀地評估教與學(xué)的效果,一份好的試卷是必不可少的。一般來說,評判一份試卷科學(xué)與否的標準是看這份試卷是否有信度、效度、區(qū)分度、實用性、全面性、公正性和后期效應(yīng)。而信度與效度則是這些標準中最重要的兩個因素。
一、語言測試中的信度與效度
1.語言測試的信度
語言測試的信度,又叫可靠性,是指考試結(jié)果的可靠性和穩(wěn)定性。也就是說一份試卷的測試結(jié)果在多大程度上具有一致性,即考試結(jié)果不受考試時間、監(jiān)考人員和考場等外在因素的影響。鄒申認為,考試信度簡單地說就是考分的一致性。從理論上講,如果一個考試要具有高信度的話,無論在什么情況下對同一學(xué)生測試多少次,該學(xué)生每次的考試成績都應(yīng)該是一致的;反之,如果該學(xué)生每次的成績忽上忽下很不穩(wěn)定,那么這次考試的信度就不是很高。
與考生能力無關(guān)卻又會影響測試信度的因素有很多,例如:自然條件差,天氣過熱或過冷,考場周圍嘈雜等;試題的量是否足夠大;題目是否屬于同一性質(zhì)或范疇;題目的區(qū)分度是否高;題目難易度是否適中;評分是否客觀;考生本人身體及心理狀態(tài)不好等因素都會影響測試的信度。所以,為了提高信度,我們必須對癥下藥,采取各種相應(yīng)的措施,其中統(tǒng)一規(guī)范的考試環(huán)境、規(guī)范的監(jiān)考和規(guī)范的試題要求都是必不可少的。
用來檢驗信度最常用的有三種方法:考后復(fù)測法、平行測試法和分半法??己髲?fù)測法是指在考試后讓學(xué)生做同一份試卷,如果幾次試驗的結(jié)果都是一致的,那么這份試卷就是有信度的。但是在實際操作過程中,考后復(fù)測法還是有一定的不足,因為學(xué)生在不斷地學(xué)習(xí)并提高,而且記憶的因素也會影響到復(fù)測的結(jié)果。平行測試法是指在設(shè)計試卷時,先設(shè)計兩份難度一樣的試卷,并在不同的時間給學(xué)生做,如果分數(shù)相當,則說明有信度。這種方法的弊端在于無法確定兩套試卷在難易程度和內(nèi)容范圍上是否完全相同。分半法是指只進行一次測試,然后將試題的題號按奇偶數(shù)分為兩半,計算兩半所得分數(shù)的高低排列的相關(guān)性。由于前兩種方法存在不足,在實際工作中人們往往采用試題分半法求得測試的信度。
2.語言測試的效度
效度,又稱有效性,是指一套測試所考的是否就是設(shè)計人想要考的內(nèi)容,或者說,在多大程度上考了想要考的。具體說來,效度就是指一份試卷能在多大程度上滿足考查的目的,它是針對某一目的正確解釋和使用分數(shù)的問題。假如一份試卷具體考查數(shù)種語言技能或考查內(nèi)容超出了考查目的,那么其效度就大大降低。效度是衡量語言測試最重要的指標,或者說是語言測試的基本出發(fā)點,一項效度很低的語言測試是沒有意義的。
提高效度常用的方法有:明確考試的目的、決定與考試目的相同的內(nèi)容、決定考試的方法和增加考試的信度。在設(shè)計一套試卷時,設(shè)計者首先要明白此次測試的目的,然后嚴格按照這個目的展開設(shè)計工作。考試的目的是什么,就要設(shè)計與目的想適應(yīng)的內(nèi)容,如果測試的內(nèi)容完全不符合測試目的,那么這個測試就稱不上有效度??荚嚨姆椒ㄒ彩翘岣咝Ф鹊囊粋€重要方面,有什么樣的考試方法就要設(shè)計什么樣的試卷。如果是閉卷考試,就應(yīng)該兼顧到所學(xué)的考試內(nèi)容,難易程度要適中;如果是開卷考試,試卷的設(shè)計就應(yīng)當突出重點和難點,要給學(xué)生思考和自由發(fā)揮的余地,而不是直接在書上可以找到答案??谠噾?yīng)側(cè)重什么而筆試又應(yīng)側(cè)重什么等一些問題都是在設(shè)計試卷過程中應(yīng)該考慮的??荚嚨男哦忍岣吡耍瑴y試的效度就會相應(yīng)提高,兩者是相輔相成的。
3.信度與效度的關(guān)系
信度和效度是衡量語言測試質(zhì)量的最重要的兩項指標,它們之間是既相互依存又相互排斥,既各有側(cè)重又相輔相成、密切聯(lián)系的關(guān)系。考試信度側(cè)重與考分的一致性,考試效度則強調(diào)考試達到其預(yù)期測試目的的程度??荚嚨母咝Ф戎荒芤钥荚嚨母咝哦葹榛A(chǔ),離開信度,效度就無法實現(xiàn)。在Bachman看來,信度和效度是緊密相連而且不可分割的。語言測試的目的是測量考生的語言能力,所以在設(shè)計試卷時,不能為了追求信度或效度而忽視另一方面,而應(yīng)采取一種積極平衡的態(tài)度,即研究并發(fā)現(xiàn)影響考生語言能力的因素,消除不利因素的影響,擴大有利因素的影響,這樣才能既保證效度又有信度。
二、在語言測試實踐中把握好信度和效度的平衡關(guān)系
作為評估測試質(zhì)量的兩個基本特性,信度和效度雖然在一定程度上是相互矛盾的,但完全可以通過相互協(xié)調(diào)達到適切的平衡,從而保證測試的總效用性最大化。因此,在語言測試的設(shè)計和命題中,不能絕對、片面、盲目地追求或強調(diào)某一方面而以失去另一方面為代價,只有綜合平衡二者的關(guān)系才能獲得最大的總效用。
1.考試內(nèi)容是否體現(xiàn)新的語言教學(xué)觀
語言測試隨著語言觀的發(fā)展而發(fā)展,也隨著教學(xué)理念和教學(xué)模式的更新而更新。二十世紀八十年代中期開始流行的交際功能觀和九十年代以后興起的任務(wù)教學(xué)法都對語言測試的改革提出了新的要求。現(xiàn)行的多種類型的考試題型還是以結(jié)構(gòu)主義語言測試理論為基礎(chǔ)的多選題為主,某些語言項目的測試與實際語言能力的相關(guān)性不高,很難體現(xiàn)當代語言教學(xué)觀提倡的英語交際運用能力方面的考查。因此,可以通過調(diào)整主觀題和客觀題的比例,多采用直接測試法,增加聽力和寫作測試的權(quán)重,加大口試考核力度,變化題型等手段提高考試的效度。也可以通過采取大題量小分值,細化評分標準,綜合使用整體評分法和分析評分法等措施提高考試信度。
2.語言測試能否產(chǎn)生正面反撥效應(yīng)
測試是教和學(xué)的導(dǎo)向,而在實際操作過程中,很多類型的考試長期以來采用固定不變的模式,客觀上造成了學(xué)生甚至是老師猜題和押題的現(xiàn)象,廣大教師更是偏向于應(yīng)試教學(xué),由此產(chǎn)生了不良的教學(xué)效果。Hughes提出了若干提高正面反撥效應(yīng)的建議:測試要培養(yǎng)能力;測試內(nèi)容要覆蓋面廣并具有一定的不可預(yù)測性;盡量使用直接測試法;成績測試要與教學(xué)目標相結(jié)合,使用尺度參照等。這些建議多數(shù)涉及效度,也與信度相關(guān)。信度和效度是影響反撥效應(yīng)的重要因素,正確處理好兩者的關(guān)系能使測試產(chǎn)生積極有利的反撥效應(yīng)。
三、結(jié)語
語言測試的信度和效度問題一直是語言專家關(guān)注的問題,也是廣大語言教師所關(guān)心的問題。了解語言測試中信度和效度這兩個重要的標準及其關(guān)系后,教師和試卷設(shè)計者應(yīng)重視語言測試理論的研究,掌握命題的原則,在試卷設(shè)計過程中把握好信度、效度及其它評價指標之間最佳的平衡關(guān)系,提高各類測試的質(zhì)量,從而真正達到測試的最終目的,這是服務(wù)于教學(xué)的這一宗旨。
參考文獻:
[1]鄒申.語言測試.上海外語教育出版社,2005.
[2]劉潤清,韓寶成.語言測試和它的方法.外語教學(xué)與研究出版社,1991.
[3]李筱菊.語言測試科學(xué)與藝術(shù).湖南教育出版社,1997.
[4]舒運祥.外語測試的理論與方法.世界圖書出版公司,1998.