文 宇
(湛江師范學院 廣東湛江 524048)
口語測試量表設計方法的審視與思考
文 宇
(湛江師范學院 廣東湛江 524048)
從介紹的角度審視現(xiàn)成口語測試量表設計的主要種類和特點;對比量表設計的優(yōu)劣;探討合適的設計方法和可行性。
口語測試;口語測試;量表;設計方法
編寫口語測試量表并不容易,這主要是因為對口語學習過程缺乏確切的描述,而且把這些相關的特征言簡意賅的表述清楚以便測試時使用也并非易事。所以,口語測試時,英語教師常常選擇現(xiàn)成的量表對學生的口語水平進行考核(Luoma,2004)。這些量表通常都是受到主要的標準化考試體系(如IELTS、CET 等)青睞,從而更容易得到使用者們的信任。筆者通過審視一些現(xiàn)成的量表設計方法,探討和思考這些方法對本土英語口語教學測試的啟示。
自從 Clark and Clifford (1988) 提出 ILR 量表(Interagency Language Roundtable)以來,常見的口語測試量表有:芬蘭的National Certificate 量表, ACTFL量表,Test of Spoken English (TSE)量表,歐洲通用體系(CEF)口語量表, 墨爾本醫(yī)科學生診斷性口語量表(Melbourne medical students’diagnostic speaking scale) (分別參照ACTFL, 2012; ETS, 2001:29; Council of Europe, 2001; Grove and Brown,2001)。
近年,在我國高校英語口語教學研究領域對教學法的探討較多,對大規(guī)模考試用量表的討論也為數(shù)不少,但是對大學英語課口語測試評價系統(tǒng)的研究較少。這些圍繞大學英語考試(CET)的研究基本上都傾向于參考國外現(xiàn)成的評價量表,比如借鑒美國外語教育學會(ACTFL)語言能力量表(ACTFL,2012),按量表要求設定口語測試形式,讓測試等級參照值更加具體化和標準化(王鶯鶯,2008)。對于我國大學生口語測試,有學者并不贊同照搬現(xiàn)成的量表,認為有必要在對在校大學生口語學習現(xiàn)狀進行大規(guī)模的研究的基礎上進行綜合分析,提出了分析性口語評估體系(劉芹,2010)。
的確,在特定的教學背景下,現(xiàn)成量表未必是有效、合適而且是設計完美的(Luoma,2004)。例如,ACTFL (2012)的設計者把口語表現(xiàn)分為5大等(distinguished, superior, advanced, intermediate, novice),每一等分3個級別(high, mid, low),每個等級的描述平均字數(shù)大概300字之多,但自從1986年該量表發(fā)布以來,其效度是否來自其測試任務的順序抑或來自對被測語言表現(xiàn)的測試一直未有共識(Kramsch, 1986; Bachman, 1990)。筆者認為,在我國EAL/EFL的教學背景下,權衡各種量表設計的優(yōu)劣以及研究設計方法,有利于我國高??谡Z課堂建立合適和方便使用的測試工具。
1.直覺法。設計口語測驗或考試的時候,教師們最常使用的也許是直覺設計法(intuitive method)。教師通過參考自己的教學經(jīng)驗,從過往的測試活動中可歸納出一些參考值,以此來設計口語量表。雖然許多現(xiàn)成的量表的設計遵循的是直覺設計法,但缺乏必要的定量和定性分析,很難滿足實際測試的需要(Luoma, 2004)。但是這種方式的方便性是不言而喻的,但是面對數(shù)十人甚至上百人的一次考試,未受經(jīng)測試培訓的教師依靠教學或測試“經(jīng)驗”對學生進行評估時,往往會受到“印象”影響,測量結果可能有偏差。面對這種問題,可以考慮和其他設計實現(xiàn)交叉設計,優(yōu)勢互補。以下介紹兩種可以交叉使用的方法。
2.定性法。對比之下,定性設計法 (Qualitative method)的采用,也許能解決缺乏“權威標準”的難題。設計者通過讓語言教育專家參與描述、標準范例(sample)甚至每個等級的常見詞組的采樣收集工作 (Brown et al,2001)。被測者的表現(xiàn)可以被分為不同等級,此時,專家意見的統(tǒng)一顯得尤其重要。筆者認為,大學口語測試可以參考雅思(IELTS)口語考試的評分標準的定性設計(Alderson, 1991)。在英語課堂測試或考試時使用定性法,可以讓專家或資深的教學團隊組成設計小組,按照從大到小的順序,逐個級別劃分評分等級。次等級的多少將取決于設計者能否找到區(qū)分每個等級的語言表現(xiàn)。在討論語言表現(xiàn)的時候,最好筆錄重點和要點,這些討論對于最后設定等級描述的部分將提供參考 (Pollitt and Murray, 1996)。
3.定量法。如果評估者具備良好的統(tǒng)計學基礎,定量設計法(Quantitative method)可能是不錯的選擇。Fulcher(1996)曾為測量口語流利性而設計的量表,就是在大量話語分析(discourse analysis)基礎上,捕獲大量話語流利性(fluency)的表現(xiàn)特征,再用多元回歸分析(multiple regression analysis)歸納出與流利性相關的顯著的特征。這些特征便可以用來分級描述說話者的流利性。更深入和細化的測試分析來源于項目反應(IRT)理論,該理論包括了一系列心理統(tǒng)計學模型(參閱Rasch, 1980)。該IRT理論已被應用于包括CEF等口語量表(Council of Europe, 2001)中特征描述(descriptor)的編寫。不過,由于這種方式較費時,在當前高校英語教學測驗和考試的量表設計中很少見。
最近,也有學者建議在語料庫分析(corpus analysis)的基礎上測試口語(Barker, 2013)。筆者認為,在直覺法分析的基礎上進行專家組討論,讓設計小組成員從語料庫中選范例,進行定性設計;如果成員缺乏經(jīng)驗,和可以請具備統(tǒng)計學基礎的人員參與,在話語分析基礎上選擇定量設計。
一旦口語測試的量表制成,在口語課堂內往往被長期使用,這主要是出于設計時間和人力成本的考慮。因此,筆者認為,雖然口語教學人員未必能在短時間內編寫合適的量表,但可以在上述方法中尋找折中的方法,在參考現(xiàn)成量表時有所取舍。
由于篇幅所限,本文尚未涉及量表設計各方法中的細節(jié),僅僅嘗試做了幾種原則和思路的淺析,而由此制成的各種量表的效度與信度,以及設計過程中可能遇到的實際問題還有待進一步的研究。
[1] ACTFL. The ACTFL Proficiency Guidelines: Speaking [S]. Yonkers, NY:ACTFL. 2012.
[2] Alderson, J.C. Bands and scores [C]. In J. C. Alderson and B. North (eds), Language Testing in the 1990s, London: Macmillan, 1991.
[3] Bachman, L. F. Fundamental Considerations in Language Testing[M]. Oxford: OUP, 1990.
[4] Barker, F. Using Corpora to Design Assessment[J/ OL]. The Companion to Language Assessment[DB], 2013. DOI: 10.1002/9781118411360.wbcla102
[5] Brown,A.,McNamara,T.,Iwashita,N.,and O’Hagan, S. Investigating raters’ orientations in specific-purpose task-based oral assessment[R]. TOEFL 2000 Research and Development Project Report, Submitted June 2001.
[6] Clark, J.L.D. and Clifford, R.T. The FSI/ILR/ACTFL proficiency scales and testing techniques: development, current status and needed research[J]. Studies in Second Language Acquisition,1988.
[7] ETS. TSE and SPEAK score user guide. 2001-2002
[8] Kramsch, C. From language proficiency to interaction competence[J]. The Modern Language Journal,1986.
[9] Luoma, S. Assessing Speaking[M]. Cambridge: Cambridge University Press. 2004
[10] Rasch, G. Probabilistic Models for Some Intelligence and Attainment Tests[M]. Chicago: University of Chicago Press.1980.
[11] Pollitt, A. and Murray, N. What raters really pay attention to[C]. In M. Milanovic and N. Saville (eds), Performance Testing, Congnition and Assessment. Selected papers from the 15th Language Testing Research Colloqium, Cambridge and Arnhem. Cambridge: CUP,1996.
[12]劉芹.中國大學生英語口語分析性評估體系的構建與效驗[M].上海:復旦大學出版社,2010.
[13]王鶯鶯.ACTFL語言能力量表對構建CET口語測試評估新體系的啟示[J].長沙大學學報,2008(6).
Speculations and Thoughts on Methods of Designing Scales for Oral Tests
Wen Yu
(Zhanjiang Normal University, Zhanjiang Guangdong,524048, China)
This paper speculates on the kinds of current scales used for assessing speaking in terms of their particular features; Comparison between their advantages and disadvantages is made; Discussions also include methods of designing scales and their feasibility.
assessing speaking; oral test; scales; methods of designing scales
G442
A
1000-9795(2014)06-0388-01
[責任編輯:劉麗杰]
2014-03-08
文 宇(1979-),講師,從事英語教學方向的研究。