摘 要: 本文從語言測試理論的角度闡述語言測試對外語教學的影響,指出語言測試是衡量外語教與學的有效方法,好的測試題應具有效度、信度、實用性以及對學生的積極引導作用。許多研究表明高質量的測試必須滿足五個要求:效度、信度、區(qū)分度、實用性和反撥作用。眾所周知,有教學就要有考核和評估,作為考核和評估的一種手段,科學的、合理的測試會對教學產生正面的反撥效應;反之,則會帶來負面的影響。
關鍵詞: 英語語言測試 測試要素 基本策略
英語語言測試是英語教學活動中的有機組成部分,是英語教學過程的一個重要環(huán)節(jié)。測試與其他教學環(huán)節(jié)一樣,同樣負有培養(yǎng)人的責任。從二者之間的關系來講,它們既互相促進又彼此制約。因為語言教學從目標、內容、方法與手段等方面制約著測試,而語言測試又在目標、內容和方法上對教學起著重要的反撥作用(馬云桂,2002)。英語語言測試與英語教學有密切的關系在當今語言測試界已達成一種共識。而語言測試對教學的反撥作用是語言測試的最大用途之一。隨著對語言測試研究的不斷深入,語言測試的理論和方法日新月異。由于語言測試對教學具有指導和反撥作用,因此隨著語言測試重點的轉移,語言教學重點也相應發(fā)生了變化。下面就從語言測試要素及基本策略幾個方面談談如何進行語言測試。
一套好的測試題應具有效度、信度、區(qū)分度、實用性、反撥作用的特征。首先,一套試題檢測的應是考試大綱要求考查的某個內容或能力,這就是一次效度高的測試。其次,信度,即可靠性,或者說測試結果是否穩(wěn)定。信度的另一方面是評分因素。再者,一套好的試題應便于使用,要有可操作性。同樣,區(qū)分度也是語言測試的重要因素,即通過測試是否能夠區(qū)別出不同程度的考生或反映出每個考生答卷情況的差別。最后,一套測試題對學生的學習要有督促和積極引導作用。
1.語言測試的效度(validity)
測試的效度是一次考試對其所要測試的語言能力能夠測到的程度。效度側重的是測試的內容,它檢驗測試的目的是否一致(朱海燕,2004)。測試有各種不同的效度,總的來說可分為四種類型。
(1)卷面效度。也稱為表面效度,是指考試在表面上使考生及其他有關人員憑直覺感到的有效程度。Ingrem(1977:18)認為卷面效度指的是“考試的表面信譽或公眾對考試的接受程度”。如果測試項目表面上適合于測試者、受試者和教師,它就可被看作具有卷面效度。如果一份測試具有好的卷面效度,學習者的學習意愿就能得到激發(fā)和保持,因為研究表明大多數(shù)受試者在測試表現(xiàn)出適合于他們的時候會加倍努力;相反,如果受試者看到某一測試與測量其某一語言能力無關或者高出其語言能力水平,考生就容易喪失參與的積極性。
(2)內容效度。就是指考試內容對預測內容的代表性的程度。內容效度評價一個考試的出發(fā)點是看其內容是否與考試目的一致,在內容正確的基礎上,再看其內容是否具有代表性。內容的代表性與內容樣本量的充足性——考試的題量、主題覆蓋面等。如果一項詞匯測試只檢測考生介詞的能力,內容效度就很低;再如,一項聽力測試采用口語考試的形式進行,這類考試肯定缺乏內容效度。
(3)構卷效度。指測試題目反映出測試構建于某個理論本質方面的程度。如果一項測試能夠反映出與語言學習理論一致的一些具體特征,那它就有構卷效度。它要求測試的語言理論基礎要與最終的語言行為相符。它不僅要揭示現(xiàn)在的語言行為,而且應能揭示最終的語言行為。測試的設計者應根據(jù)語言學習者將來會如何使用語言的預見來設計試題。一種試題的編制要以某種語言行為理論和語言學習理論作為依據(jù)。如果以功能語法為基礎,認為語言習慣主要是通過語言環(huán)境和實際運用而獲得的,那么強調句型操練和語法分析的測試就失去了編制效度(陳志學,2003)。
(4)經驗效度。指一項測試的結果如果與一些外部測量標準相關聯(lián),這份測試就可以說具有經驗效度。經驗效度是通過把測試與一個或更多的標準測量相比較而得出的,這種比較可以通過兩種方式得到:共時效度和預測效度。①共時效度,即同時從外部而不是從內部通過某些方法論證考試的效度。它是通過定性與定量分析兩個方式來進行的。如,對共時效度的定量分析,是通過用一個得到公認的外部考試的方式與被評估的考試作比較,看求得的相關系數(shù)是否理想,如兩者之間的相關系數(shù)達到理想的數(shù)值,那么就表示被評估的考試與外部的考試具有同等效度。當測試結果在同一時期與其它測試結果相一致時,它可被看作具有共時效度。②預測效度,即考試成績要能夠預測考生以后的學習狀況。它的測量方法是將兩組數(shù)據(jù)進行相關比較,論證它們之間的關系。當測試結果與以后的其它測試結果或以后取得的其它行為標準相一致時,那么這個測試就可以說具有預測效度。
2.語言測試的信度(reliability)
語言測試的信度是指考試測量學生語言能力一致性、可靠性的程度。它是任何一個好的語言測試必備的特征,也是考試結果是否可靠的關鍵指標。一個測試的信度主要看該測試所要測量的東西是否達到前后一致的程度,即考試結果不受考試施考時間、監(jiān)考人員、場地等外部因素的影響。如果對同一個受試者連續(xù)進行兩次測試或試卷被不同的人批改而得到的結果相同或相似,這樣的測試就被看作是具有較高的信度。可靠性也可稱為一致性(consistency),這種可靠性或一致性是任何一種考試都不可缺少的一個重要特征,否則,考試成績將無法真實準確地反映出考生的被測試語言能力和水平。而且用不可靠的成績來決定,就會不可避免地造成一些失誤甚至是不可彌補的損失(郝利群,2002)。
影響信度的因素有:
(1)試卷編制。信度側重的是測試內容的覆蓋面是否大,是否具有代表性,項目是否均勻。采樣越多,測試的信度越高。郝利群認為,一套試卷無論是常模參照考試(norm-referenced),還是標準參照考試(criterion—referenced),長的要比短的更具可靠性。測試必須包含各種類型內容的試題。一種測試必須涵蓋本專業(yè)領域內盡可能多的內容,而且試題必須有一定的難度。測試提出的任務必須具有標準性。在試題庫中任意挑出的試題在難度、類型、形式上都必須基本一致。事實上,只要試卷中所使用的試題具有測試某種能力的代表性,這種試題越多,試卷對某種能力的反映就越充分和越可靠。因此越是重要的考試,題量越要充分。當然,題量也不能過大,否則考生的疲勞和厭倦就會影響考試的信度。
(2)測試的執(zhí)行。主要是涉及考試環(huán)境、試卷安排、時間分配、題意說明、考試方式、答題方式、評分標準等是否所有的考生對試題的要求都很清楚。是否相同的測試是在不同的受試對象之間,不同的條件下及不同的時間內進行的,這是決定信度的一個重要因素。如在一次聽力測試中,一組考生所聽到的錄音效果好,另一組考生聽到的錄音效果差,那么,這次聽力測試就無信度可言。試題說明在考生的答題中起著舉足輕重的作用。如果考生對題目要求的理解程度和他們對所要完成任務的清楚程度很高,他們就會積極地投入考試中去。相反,含糊不清的試題說明會直接影響考生的答題,降低測試結果的信度。所以試題說明一定要做到簡潔、準確、明了,試題說明所使用的語言應簡單清楚,避免考生不熟悉的術語出現(xiàn)。
(3)個人因素。受試者的個體因素如動機、情感、心理狀況、身體條件會對測試信度有很大的影響。這些因素包括考生考試前和考試中的心理或生理方面的波動或變化,如疾病、疲勞、缺乏考試動力、情緒波動等。這些因素會影響考生的正常發(fā)揮,從而降低測試結果的可靠性。盡管這些因素是不可預測的,也常常因一些意外而無法控制,但教師們也要有所作為,要設法將這些因素的影響降到最低點。同時閱卷員的評分也是影響信度的一個重要因素??陀^試題的評分基本沒有問題,信度較高,關鍵是對主題試題評分標準的把握。為減少評閱的誤差首先要制定詳細的評分標準,而且所有的閱卷人應統(tǒng)一進行培訓,讓大家選用一些例卷共同進行打分練習和討論,從而給出相近的分數(shù),使語言測試充分體現(xiàn)公平公正。
3.語言測試的區(qū)分度
區(qū)分度是指通過測試是否能夠區(qū)別出不同程度的考生或反映出每個考生答卷情況的差別。對整份試卷及每道大題、小題進行全面、系統(tǒng)地計算,可參照區(qū)分度的計算公式:
D=(Correct U-Correct L)/N
D:語言測試區(qū)分度,將被測試的考生按成績平均分成兩小組;N:每一小組的考生人數(shù);U:成績高的一組考生;L:成績差的一組考生。
一般認為,區(qū)分度應在0.3以上,才表示試題可以接受,因為它具有一定的鑒別考生優(yōu)劣的能力;若區(qū)分度在0.3以下,則試題對考試的區(qū)分作用不大。試題的區(qū)分度指試題區(qū)分好、中、差考生的程度。試題的區(qū)分度由區(qū)分度指標來顯示,其范圍在1—-1之間。區(qū)分度高,表明試題能完全區(qū)分不同能力的考生,即答對試題的是能力強的考生,答錯試題的是能力差的考生;反之,試題的區(qū)分度低,表明試題不能區(qū)分不同能力的考生,試題的區(qū)分度最低可為-1,此時,答對試題的是能力差的考生,而答錯試題的反而是能力強的考生,測試產生了反向區(qū)分的作用。即使評分百分之百客觀,這樣的測試也根本無客觀性和公正性可言。
4.語言測試實用性
主要指試卷設計和考場安排等考試實施過程中是否對測試的公正性和信度構成影響。這要求試題設計者和考務人員做到以下幾點:
(1)試題的題目、要求要清楚易懂,試題要設計得一目了然,無深奧難懂的術語,最好在試題要求下給出相應例子,試題要求無需監(jiān)考人員作口頭解釋。
(2)試卷必須整齊、干凈,盡量避免出現(xiàn)拼寫、打印等技術錯誤。
(3)考試輔助設備必須正常。如無線聽力系統(tǒng)、錄音機、計算機工作必須正常穩(wěn)定,考場座位必須具有舒適度,遠離外界干擾。
(4)答題紙的使用。答題紙大小和編排要與相應的題量相一致,滿足考生準確地書寫答案。同時它也必須能使教師清楚地看清答卷,以增加閱卷的準確性和閱卷速度。
5.語言測試反撥作用
一般來講,教學目標決定語言測試目標。因此語言測試目標必須為實現(xiàn)語言教學目標服務。然而,語言教學與語言測試的發(fā)展并非總是同步的。語言測試體系一經確定,它就具有一定時限的相對穩(wěn)定性,對語言教學產生積極或消極的反撥作用(馬云桂,2002)。語言測試目標對語言教學目標的反撥作用極其重要:如果語言測試目標科學、準確,就能夠科學有效地檢測教學目標,并積極地促進教學目標的實現(xiàn)或進一步修正。反之就不能科學檢測教學目標,同時阻礙后續(xù)教學目標的確定與實現(xiàn)。語言測試內容對語言教學內容的反撥作用,從理論上看,教學先于測試。教什么內容就檢測什么內容,這是一種理想的教學和測試的關系。然而,在具體的教學與測試實踐中往往是要考什么然后才教什么。這種語言測試與語言教學的邏輯倒置,我們可以看作是語言測試內容對語言教學內容的反撥作用。語言測試方法對語言教學方法也會產生重要的反撥作用。比如科學的考卷應采取多種題型,主客觀試題相結合的方法??茖W的語言測試對語言教學的各方面都應起著正面的引導作用。
語言測試應符合國際形勢與新時代經濟發(fā)展的需要,還應與專業(yè)設置、課程建設、教學過程與方法等緊密結合,應借鑒國際通行的評價體系,創(chuàng)新課堂教學模式,重視靈活教學,設計以學生為主體、學習和創(chuàng)造為核心的教學方法,大力提倡和運用各種現(xiàn)代手段,以科學靈活的考試培養(yǎng)學生的自主意識、創(chuàng)新精神和創(chuàng)造能力。然而在語言測試的具體實施過程中,由于受實用目的的影響,往往會出現(xiàn)一些偏差,比如語言測試純粹為鑒別語言水平等級為目的、純粹作為高一級學校錄取新生或用人單位錄用人才的尺度等(豐國欣,2004)。這樣,在理論上加劇了語言測試的信度和效度之間的矛盾,狹隘了語言測試的內涵;在實踐中,受試者或學生常常感到教學、學習同測試脫節(jié),提高語言技能同測試脫節(jié)。筆者在個人研究的基礎上,對語言測試設計的原則與實踐作一個理論上的探討,以便更清楚地認識語言測試本質,避免被語言測試的一些意義模糊了概念,更有效地把語言測試同教學、素質教育結合起來,最大限度地克服測試的負面反撥效應。
總之,有教學就必然要有測試,兩者缺一不可。教學通過測試了解學生的學習情況、問題的癥結,檢查教學的效果,而測試可以影響和促進教學的改進。通過對語言測試理論和方法的研究,測試本身會得到進一步的完善與提高,它將對英語教學起到積極的引導作用,對完善教學內容、課程設置、教材建設等具有極高的參考價值,對推動我國英語教學的改革及發(fā)展具有深遠的意義。
參考文獻:
[1]劉潤清.論大學英語教學[M].北京,外語教學與研究出版社,1999.
[2]朱海燕.語言測試的效度與信度[J].佳木新教育學院學報,2004,(3).
[3]豐國欣.語言測試設計的原則與實踐[J].周口師范學院學報,2004,(3).
[4]馬云桂.語言測試對語言教學的反撥作用[J].教育導刊,2002,(10).
[5]郝利群.影響語言測試信度的主要因素[J].錦州師范學院學報,2002,(6).
本論文為成都信息工程學院人才引進啟動資金項目“高校大學英語教師發(fā)展研究”系列成果之一。項目編號:KYTZ 200911