鄒微++楊紓凡
【摘要】語言測試是檢驗(yàn)學(xué)生語言習(xí)得效果最直接的手段,是語言教學(xué)的有機(jī)組成部分。本文旨在對語言測試的信度和效度進(jìn)行分類闡釋,并分析影響語言測試信度與效度的主要因素,同時,對二者的關(guān)系進(jìn)行分析,以期為考題設(shè)計(jì)者命制考題提供借鑒和參考,使語言測試真正服務(wù)于語言教學(xué)。
【關(guān)鍵詞】語言測試 語言教學(xué) 信度 效度
一、引言
隨著語言教學(xué)的不斷推進(jìn),語言測試逐漸從應(yīng)用語言學(xué)中分離出來,成為一門獨(dú)立的學(xué)科。Bachman曾說“在教育程序中,語言測試的基本運(yùn)用是給教學(xué)評估提供重要的信息。”測試是檢驗(yàn)學(xué)生學(xué)習(xí)效果最直接的方式,有效、可靠的測試,其結(jié)果能夠幫助教師了解學(xué)生的學(xué)習(xí)水平,是因材施教的一個重要參照。同時,測試也是評估教師教學(xué)效果的重要手段之一,為教師下一步教學(xué)計(jì)劃的制定、教學(xué)方法的調(diào)整、教學(xué)重難點(diǎn)、目標(biāo)的明確提供了依據(jù)。評估一項(xiàng)測試的指標(biāo)主要有“信度、效度、區(qū)分度和實(shí)用性,其中以信度和效度最為重要?!?/p>
二、效度
效度,簡而言之就是測試的有效性,是指該測試是否測試出命題人想要檢測的內(nèi)容、達(dá)到命題人預(yù)期的測試目的。它是測試最基本的出發(fā)點(diǎn)。“波爾斯基和梅西克視效度為外語測試的主要問題,其范疇包括內(nèi)容效度、標(biāo)準(zhǔn)相關(guān)效度、構(gòu)卷效度和表面效度等?!?/p>
1.內(nèi)容效度。內(nèi)容效度,是指試題的內(nèi)容是否考查了出題人想要考查的語言技能及語言要素等。如,一個專項(xiàng)的語法考試,出題人需按照教學(xué)大綱的要求,大綱里規(guī)定有哪些語法是必考,那么出題人在出題的時候就必須考慮到這些語法點(diǎn),考題的內(nèi)容必須要覆蓋大綱里規(guī)定的所有必考點(diǎn),這樣的考試才能算的上是有內(nèi)容效度的。內(nèi)容效度是衡量測試效度的一把重要的尺子,在教學(xué)過程中,通過內(nèi)容效度較高的測試,教師能更好地制定教學(xué)計(jì)劃,了解教學(xué)的重難點(diǎn),進(jìn)而明確語言教學(xué)的方向。
2.標(biāo)準(zhǔn)相關(guān)效度。標(biāo)準(zhǔn)相關(guān)效度指的是“測試與某一個獨(dú)立并且相當(dāng)可靠的學(xué)生能力測量工具”之間的關(guān)聯(lián)程度?!比绻麅烧叩年P(guān)聯(lián)程度越高,就說明測試的標(biāo)準(zhǔn)相關(guān)效度越高。標(biāo)準(zhǔn)相關(guān)效度又分為共時效度和預(yù)測效度。共時效度是建立在差不多同時施考的兩個考試結(jié)果的比較之上的,如果兩組考分出現(xiàn)較高的一致性,就說明測試具有較高的共時效度。在這里,兩個測試中其一必須是公認(rèn)的、有較高效度的考試;而預(yù)測效度能測試出一個考生是否有勝任其未來角色的能力。如公務(wù)員考試,其考試內(nèi)容主要就是考查受試者的邏輯能力,思維分析能力及書面表達(dá)能力等,這些都和其以后的工作息息相關(guān)。
3.構(gòu)卷效度。構(gòu)卷效度指“試卷所反映的作為其基礎(chǔ)的相關(guān)理論假設(shè)的程度?!睓z驗(yàn)語言測試的構(gòu)卷效度就是要檢驗(yàn)語言測試的構(gòu)卷與語言學(xué)習(xí)、語言測試?yán)碚撌欠褚恢隆?/p>
4.表面效度。表面效度就是學(xué)生及其他相關(guān)人員對該試卷的感知。從表面看,考題難易,是否考察了應(yīng)該覆蓋的語法點(diǎn)、句型、詞匯等。如果是一個專項(xiàng)的法律英語的考試,而其考試內(nèi)容則全是和經(jīng)濟(jì)相關(guān)的,考生的合作性和積極性將會大打折扣。一份表面效度較高的試卷,是能引起老師和考生的注意力,對考生來講也就有了答題的興趣和動力,必將盡其所能答好這份考卷。從這個意義上來說,表面效度并非真正意義上的效度,而是外行人對考試的接受程度。
影響效度的因素主要有:
(1)題目過難或過易。如果一項(xiàng)考試在一開始題目難度較大,會導(dǎo)致考生灰心沮喪,從而失去了本來可以得分的題目??偟膩碚f,過難或過易的考試其效度都不高,僅通過測試,很難區(qū)分中等水平和高水平考生之間的差距。
(2)選擇項(xiàng)目區(qū)分度低。題目選項(xiàng)設(shè)計(jì)相近,考生很有可能被這些相似的選項(xiàng)弄昏頭腦,從而選出錯誤的選項(xiàng)。
(3)題干的指向性不明顯??忌^難讀懂題干要求,從而出現(xiàn)沒有按要求答題而失分的情況。
(4)題目數(shù)量過多或過少。一般來說,一項(xiàng)測試的題目數(shù)量是很考究的,如題目數(shù)量過大,考生會被海量的試題折磨得筋疲力盡,從而影響其真實(shí)水平的發(fā)揮;而題目數(shù)量過少的話又很難測量出考生的真實(shí)水平,所以在出題過程中,出題人必須把握好量,從而保障測試的表面效度。
測試具備有效性之后,就要考慮測試結(jié)果的可靠性,即測試的信度。
三、信度
信度,簡而言之,就是語言測試的可信度。一項(xiàng)好的測試,其信度較高,其測試結(jié)果能較為準(zhǔn)確地反映學(xué)生的學(xué)習(xí)效果和教師的教學(xué)水平。但是,出現(xiàn)信度為100%或完全沒有信度的情況是沒有的。評估測試信度的高低大致有以下幾種方式。
1.再測信度?!霸贉y信度是指用同一份試卷在相同的條件下對同一批考生在不同的時間內(nèi)進(jìn)行兩次測試,兩次考試結(jié)果的相關(guān)系數(shù)就是再測信度。”如果考生兩次測試的成績一致或相近,那么這項(xiàng)考試的信度就高。但是,在實(shí)際情況中,這個間隔的時間不好把握,間隔時間太短,考生對上一次的考題以及答案還有記憶,很有可能憑借自己的記憶重新作答;而間隔時間太長,考生通過在兩次間隔時間內(nèi)的進(jìn)一步學(xué)習(xí)、提升或者在這一時期內(nèi)厭學(xué)、退步,其學(xué)習(xí)成績必定會較以前發(fā)生變化。所以,從這個角度來說,通過再次測試考察一項(xiàng)考試的信度并不高。
2.平行測試信度。平行測試信度指的是通常,受試群在接受完一項(xiàng)測試以后,在短時間內(nèi)(通常為兩周),再次接受另一項(xiàng)與之相當(dāng)?shù)臏y試,兩次測試結(jié)果的相關(guān)系數(shù)就是該考試的信度,即平行測試信度。在設(shè)計(jì)與第一套考題平行的試卷時,其難度、題數(shù)、題型、考點(diǎn)都應(yīng)該與第一套考題相同。通過這對這兩套試題的測試,分析受試者的成績。如果考生在這兩次測試中取得的成績相同或相似,就說明這項(xiàng)測試的信度高。然而,在實(shí)際情況中,出題人對試題難易程度的一致性很難把握,要設(shè)計(jì)出兩套無論在難度、題數(shù)、題型、考點(diǎn)都完全一致的考題幾乎不可能。所以,從這點(diǎn)出發(fā),平行測試信度也較難實(shí)現(xiàn)。
3.閱卷人信度。通常,一項(xiàng)測試是由主觀題和客觀題兩種題型組成的。一般來說,客觀題的信度相對較高,不受閱卷人的主觀喜好、情緒的影響,且通常標(biāo)準(zhǔn)答案只有一個。而主觀題的作答一般不受標(biāo)準(zhǔn)答案的約束,受試者只要回答的內(nèi)容與標(biāo)準(zhǔn)答案的中心點(diǎn)相同或相似,便可得分。閱卷人信度對應(yīng)試卷中主觀題的評分,主觀題評分不可避免地會受到閱卷人主觀因素的影響,與閱卷人的對考題的理解、主觀情緒、喜好或?qū)W生的書寫質(zhì)量部分關(guān)聯(lián),由于閱卷人自身存在不穩(wěn)定性,故閱卷人信度也較難完全保證。
綜上,無論使用何種方法評估信度,它都是有其不穩(wěn)定的一面。評估語言測試信度的方式應(yīng)取決于測試者的目的、用途以及測試的類型等。
影響信度的因素主要有:
(1)考場環(huán)境的好壞是影響測試信度可靠與否的重要因素??忌诃h(huán)境臟亂、四周嘈雜的氛圍里,很難靜心答題。進(jìn)行聽力考試,考場內(nèi)音響設(shè)備的好壞直接影響考生考試成績的高低。
(2)測試的效度高低也是影響測試信度的不可忽視的因素。效度低的試卷(尤其指表面效度低),會影響考生答題的情緒和速度,進(jìn)而阻礙考生發(fā)揮自己的真實(shí)水平。
(3)考生對題型的熟悉和答題技巧的熟練程度也是影響信度的重要因素。如果考生對一項(xiàng)考試的題型不熟悉,答題前會花大量的時間去研究作答形式,從而影響其整個答題進(jìn)程。相反,考生答題技巧嫻熟,答題的速度會相對較快,作答完畢后會有較充裕的時間檢查以增加其答題的正確率。
(4)試卷的排版、印刷及質(zhì)量也能影響考生的答題情緒,所以在命制試卷前,為保障測試的信度,考題設(shè)計(jì)者應(yīng)考慮到上述因素。
四、信度和效度的關(guān)系
信度和效度是既統(tǒng)一又對立的兩個要素。一項(xiàng)好的測試,它必須具有較高的信度和效度。效度首當(dāng)其沖,沒有效度的考試是沒有意義的;而信度是一項(xiàng)測試的可靠性,沒有信度的測試,很難測量出考生的真實(shí)水平,從而測試的目的難以實(shí)現(xiàn)。然而,測試中很難出現(xiàn)信度和效度雙高的情況。這就需要命題人在設(shè)計(jì)考題時尋求這兩者的平衡,使測試的效度和信度都達(dá)到最優(yōu)。一般來說,效度高的考試其信度必然就高,而信度高的考試其效度不一定高。如,客觀題的信度相對較高,因?yàn)樗皇荛喚砣酥饔^因素的影響,且標(biāo)準(zhǔn)答案固定。但是一個只有客觀題的語言測試,雖然信度高,但實(shí)際測試的效度較難保證。不利于學(xué)生發(fā)揮自己的主觀能動性,所以考察學(xué)生思辨能力的主觀題必不可少,這樣才能更全面地檢測學(xué)生的學(xué)習(xí)效果。反之,試題中主觀題越多,測試的效度相對就越高。
五、結(jié)語
語言測試與語言教學(xué)是一個有機(jī)的整體,脫離語言教學(xué),語言測試毫無意義;反之,擯棄語言測試,語言教學(xué)工作者難以對語言教學(xué)的效果進(jìn)行評估,進(jìn)而影響其進(jìn)行下一步教學(xué)計(jì)劃的制定、把握下一階段教學(xué)的重難點(diǎn)。因此,在語言教學(xué)中,教師應(yīng)充分利用語言測試的反撥作用,根據(jù)學(xué)生測試結(jié)果,調(diào)整或改進(jìn)教學(xué)方法、手段,使語言教學(xué)的目標(biāo)、重點(diǎn)更為明確。
一項(xiàng)好的語言測試必須兼具效度和信度。效度是測試的根本,高效度的測試能達(dá)到命題人預(yù)期想要達(dá)到的測試目的,從而幫助其較為準(zhǔn)確地對考生的能力進(jìn)行評估,所以試卷的效度應(yīng)是考題設(shè)計(jì)者優(yōu)先考慮的因素;高信度的考試則能真實(shí)地反映學(xué)生的水平,是達(dá)到測試目的的保障。然而同時出現(xiàn)高效度和高信度的情況是幾乎沒有的。因而命題者在設(shè)計(jì)考題時應(yīng)根據(jù)教學(xué)大綱內(nèi)容、測試目的以及學(xué)生具體的情況,在測試的信度和效度之間尋求一個平衡點(diǎn),從而使語言測試結(jié)果更好地為語言教學(xué)服務(wù)。
參考文獻(xiàn):
[1]Lyle F.Bachman.Fundamental Considerations in Language Testing[M].Shanghai Foreign Language Education Press,2004.
[2]施麗娜,徐芝蘋.國內(nèi)十年語言測試信度與效度研究的統(tǒng)計(jì)分析[J].四川教育學(xué)院學(xué)報,2010(12):76-78.
[3]尹付.英語口語測試設(shè)計(jì)的效度分析[J].湖南醫(yī)科大學(xué)學(xué)報(社會科學(xué)版),2010(1):90-92.
[4]張蕾.英語語言測試的信度與效度[J].張家口職業(yè)技術(shù)學(xué)院學(xué)報,2008(1):48-49.
[5]趙玉閃,王志,盧敏.全國翻譯專業(yè)資格(水平)考試筆譯試題命制一致性研究報告[J].中國翻譯,2007(3):53-56.
[6]皇甫偉.二語習(xí)得試驗(yàn)中的信度和效度檢驗(yàn)方法研究[J].中國科技信息,2009(9):224-225.
作者簡介:
鄒微(1987—),女,漢族,四川廣元人,西南科技大學(xué)外國語學(xué)院助教,碩士,研究生方向:教學(xué)法,認(rèn)知語言學(xué),應(yīng)用語言學(xué)。
楊紓凡(1991—),女,漢族,四川綿陽人,西南科技大學(xué)外國語學(xué)院助教,碩士,研究方向:英語翻譯。