喬輝 劉慶思
關于口語考試和評判的思考
喬輝 劉慶思
本文通過介紹和總結外語口語考試的題型,分析了口語評判時應該注意的問題,在對口語進行評判時,除選用合適的評分標準進行評判以外,要綜合考慮包括口試題型、評分信度、口試效度以及后效作用等各種因素的影響。
口語評判;評分標準;評分信度;效度
在語音測試領域,關于口語測試的研究和實踐是測試領域內一個較為年輕的分支。隨著中國基礎教育的進一步發(fā)展,尤其是2001年教育部關于英語課程標準的推行,英語口語教學和測試都面臨新的挑戰(zhàn)。正因為口語有其獨特性,口語考試及其評判就顯得更加復雜和多變。本文將對口語的特性、口試的題型、口試的評分標準以及評判時應該注意的問題進行探討。
口試的評判對象是考生的口語。作為一種獨特的評判對象,口語有其獨特性。人們在說話時會自主地或非自主地用自己的言語向聽者塑造自己的形象。不同的說話速度、停頓、音調、音高的變化以及語調都是言語的一個很重要的特點。人們的言語或發(fā)音是有含義的,這也是口語考試的主要目的所在。(Luoma,2005:10)。
口語包括很多說話時的特征,比如單音的發(fā)音、音高、音量、語速、停頓、重音和語調等。所有這些都是口語評判時應該考慮的因素。這些因素能否都放在同一個標準中進行評判以及應該更看重考生的發(fā)音還是更看重考生的表述能力等問題一直是研究的熱點。
在外語學習中存在一種標準發(fā)音的說法往往受到質疑,一方面,是因為對于一門比較國際化的語言來說,很難定義哪一種發(fā)音是標準的、地道的。每一門語言都有其因地域不同而產生的差異性。有時甚至不同的目的也會造成一門語言發(fā)音的變化,而這也給口語評判造成了很大的困難;另一方面,對外語學習者的學習過程研究發(fā)現,無論一個外語學習者如何努力,只有為數極少的人的發(fā)音能夠達到說本族語的人的水平,但他們的言語作為交際來說卻已遠遠足夠。
一項初級層次外語口語考試經常包括朗讀、跟讀等題型,可以看出這些考試都注重對發(fā)音的考查。發(fā)音的準確度是口語考試中一個很重要的評判因素,但整個言語的可理解程度(包括語速、語調、重音和節(jié)奏)有時候顯得更為重要。
隨著測試研究者對口語考試的深入研究,考查口語的題型也越來越多樣化。一般來說,經常在口試中見到的題型包括:朗讀、重復句子、就一定的情景提問和回答問題、信息交換、連續(xù)性表達、角色扮演以及控制性訪談等(Fulcher,2003;Luoma,2004;武尊民,2002)。不同的題型在不同的口語考試中扮演著不同的角色,對保證整套試卷的信度和效度起到不同的作用。根據Luoma(2004:48-51)的研究,可以將口試題型劃分成兩大類:開放式(open-ended)題型和封閉式(structured)題型。
開放式題型的目的是要求考生能靈活使用所掌握的語言來完成一項任務,如演講和角色扮演等。開放式題型能讓考生綜合表現出自己的能力,且能準確地評判出考生的口語能力,但這類試題往往耗時較長,在評判時由于完全是人工評分,評分信度難以得到保證,受評分者的主觀性印象給分的影響較大。
封閉式題型中,考生的回答相對較短,朗讀題、簡答題等可以歸為這一類。封閉式試題由于題型的限制,考查的能力也相對比較單一,單憑一兩道試題很難看出考生的口語能力,在一份口語試卷中需要綜合使用。封閉式試題在評判時比開放式題型更為客觀,受人為因素影響較小。對于考查考生的語音語調和語法知識非常有效。
不同的考試會將不同的題型進行組合形成一套合理的口試試卷。交際語言能力強調交談是發(fā)生在特定的社會交往環(huán)境中,交談雙方有交際的目的和需求,這反映在口語試題上就是試題任務應與具體的交際情景緊密聯系在一起,考生之間因為有交談的需求,即“信息溝”,才會發(fā)生交談(Fulcher,2003:51)。
不同的題型在不同的口語考試中扮演著不同的角色。就目前來說,高考中經常采用的題型包括朗讀、就一定情景提問和回答問題以及連續(xù)性表達等;而大學英語四、六級考試等考查相對較高層次口語能力的考試則包含控制性訪談和討論等題型。
口語考試的效度較高,但口語考試的信度比較低,而且組織十分困難??谡Z考試采用主觀性試題,很難保證評分的客觀性和一致性;口語考試的規(guī)模也在很大程度上受到面試形式的制約。如同其他的考試成績一樣,口試成績必須是可信的,公平的,且對于其使用者來說是有用的,因此口語評判的評分標準、信度和效度顯得尤為重要。
在評分過程中,評分標準的要求應該與教學要求相吻合,應符合語言測試理論的基本原則。既要考慮到整個考試的信度、效度,又要考慮到考試的可操作性及后效作用(劉慶思,2009)??谡Z測試主要是主觀性測試,因此,如果幾個評分員對于評分標準的掌握有差異,或者持續(xù)長時間的工作使某位評分員評分不穩(wěn)定,都會給考試的信度帶來影響。評分標準是衡量考生考試表現的尺度。評分標準的文字說明應該跟撰寫公文一樣,在不需要參照任何其他的標準的情況下,做到簡潔、清楚、明確、易懂(Council of Europe,2001)。
目前國內外較有影響力的大型考試口試部分采用的評分方法大致可分為分項評分和綜合評分。文秋芳(1999)指出分項評分側重語言結構和語法規(guī)則的正確性,而綜合評分強調語言的交際功能和交際效果。分項評分的典范是美國的托福(TOEFL)考試口試部分,它所采用的評分標準包括語音、語法、流利度等,每一項分幾個等級。分項評分的信度較高,能向考生提供更加細化的反饋信息,但其同時忽略了考生的總體表現。綜合評分的代表是英國的雅思(IELTS)考試口試部分。雅思口試評分標準分為9級,對各等級水平的交際總體特征進行描述。綜合評分省時、快速,但其評分很大程度上依賴評分員的經驗和專業(yè)素養(yǎng)。我國全國英語等級考試(PETS)1~5級的口試采用分項評分和綜合評分相結合的評分方式,采用兩位口試教師面對兩名考生,由兩位口試教師對考生的口語能力進行評價的形式。主持口試的教師給出一個綜合分,不參與交談的教師根據分項評分標準給出分項分(教育部考試中心,2010a;教育部考試中心,2010b)。PETS所采用的綜合評分與分項評分相結合的方式可以在一定程度上避免口試成績受口試教師主觀性的影響,在一定程度上保證了口試評分的信度。
對于口語評判來說,很重要的兩個技術指標就是信度和效度(Luoma,2004)。
信度通常被定義為分數的一致性,指的是一項考試的分數是否可信。如果同一考生在相近的兩個時間段內參加相同的考試,他應該獲得相同的分數。Bachman和Palmer(1996)歸納了導致評分信度降低的三個因素:評分人員對評分標準的理解不同;評分人員嚴格程度不同;與評分不相關因素的干擾,如考生外形、口音、在一些問題上的立場等。口語考試的信度需要高質量的評判工具和評判過程來保證??荚嚱M織者往往使用以下幾種方式來保證考試的信度。
準備參加口試評判的教師在正式考試前會被考試組織者集中起來進行統一的培訓。培訓的主要內容為考試的要求和具體的評分標準。其目的是統一評分標準,使得所有參加過培訓并獲得資格的教師能夠按照所規(guī)定的評分標準公平地對考生的口語進行評判。培訓材料和使用的樣卷由考試組織者事先聘請相關專家給出分數并寫出具體的評注。經過培訓的教師會參與一些口試樣卷的評判,并根據打分表現決定其是否有能力進行正式閱卷。
標準設定是根據評分標準來確定及格分數和其他分數檔次。標準設定經常采用兩種方式;一種是根據同一檔次的成績較好和成績較差的兩組考生的表現來確定及格分數;另一種是通過讓學科專家描述不同水平的考生在各個檔次上的具體表現來確定及格分數。
通過監(jiān)控口試閱卷過程來保證口試評分的信度主要涉及兩個指標:評分員內部一致性(Intra-rat?er Consistency),即同一評分員在較長一段時間內對不同考生評判時對標準把握的一致性情況;評分員間的一致性(Inter-rater Consistency),即不同評分員評判不同的考生表現時的評分一致性情況。這兩個指標的高低都會直接影響到考試的信度。因此,保證評分信度的一項重要內容是以各種方法將這兩個指標控制在可接受的范圍之內。
效度是衡量一項考試是否充分考查到應考查內容的指標。在口語評判中,對評分標準的評估是一項考試效度研究的重要組成部分(Luoma,2004)。首先,評分標準必須與考試的目的、考試的能力構想以及試題任務相一致。Fulcher(2003)強調應將能力構想作為制定評分標準的核心。其次,評分標準應該意義明確、通俗易懂。評分標準是否經過不斷的修改和完善,評分尺度是否經過專家不斷地討論和修訂都是效度檢驗的重要參考資料。
在口語考試的效度檢驗過程中,考試的實施過程和評分過程也是不可或缺的一部分。這主要表現在考試實施和評分與考試內容架構的一致性和連貫性上。這方面的效驗數據包括評分員的評分報告、評分教師培訓資料、評分教師的資格認證等資料。
口語考試及其評判是一項很復雜的工作,需要考慮多方面的因素。如何針對不同的考試目的選擇合適的口試題型來組卷、采用哪種評分標準、如何保證評分信度等一系列的問題都需要做出綜合性的全面考慮。
口語評判是英語教學和測試中的一項日?;顒?,既需要評判人員準確地掌握相關的評分標準,更要求評判人員有足夠的責任心和耐心??谡Z評判方式方法的正確選定一方面有利于提高考試的質量,另一方面也會對英語教學產生良好的反撥作用。
[1]Luoma,Sari.Assessing Speaking[M].Cambridge:Cambridge Uni?versity Press.2004.
[2]Fulcher,G.Testing Second Language Speaking[M].London:Pear?son Education Limited.2003.
[3]武尊民.英語測試的理論與實踐[M].北京:外語教學與研究出版社.2002.
[4]劉慶思.關于中學生英語作文批判方法的思考.[J]中小學外語教學(中學篇),2009(3):1-4.
[5]Council of Europe.Common European Framework of Reference for languages:Learning,Teaching,Assessment[M].Cambridge Uni?versity Press.2001.
[6]文秋芳.英語口語測試與教學[M].上海:上海外語教育出版社.1999.
[7]教育部.全日制義務教育普通高級中學英語課程標準(實驗稿)[M].北京:北京師范大學出版社.2001.
[8]教育部考試中心.全國英語等級考試第一級考試大綱[M].北京:高等教育出版社.2006.
[9]Bachman&Palmer.language Testing in Practice[M].Oxford:Ox?ford University Press.1996.
Reflections on the Testing and Marking of Language Speaking
QIAO Hui and LIU Qingsi
Starting from the characteristics of language speaking,the paper introduces different test types of foreign language speaking tests and analyzes the issues concerning speaking tests marking:marking schemes,reliability and validity.It is pointed in the end that the marking of speaking tests is a complicated process which should take many factors into consideration,and which needs scorers’accurately understanding the marking schemes,their responsibility and patience.
Marking Speaking Tests;Marking Scheme;Reliability;Validity
G405
A
1005-8427(2012)06-0020-4
教育部考試中心