王 爽 王佶旻
語言測驗中的變量有三個:語言能力、刺激和反應[1]。語言測驗通常使用一定的刺激物,即測驗任務,得到被試的反應,也就是被試的答案。語言能力的屬性以及使用測驗任務在多大程度上測到了想要測驗的能力是語言測評研究者關注的重要問題。任何測量都存在誤差,語言測驗也不例外,使用測量任務得到語言學習者能力的反饋,這個過程是復雜的,包含許多的程序和步驟,每一步的小誤差都會增大最終結果的誤差。因此,語言測量研究者想要獲得語言能力的證據,就需要從語言測驗的整個過程進行考慮,包括測驗對象和測驗任務實施等。
語言測試開發(fā)需要確定測試的對象是什么,根據對語言能力定義的不同常??梢苑譃閮煞N模式:以能力構想為中心和以情景任務為中心。而TOEIC 口語考試是基于“以證據為中心”的評價模式(evidencedcentered design,簡稱ECD 模式)設計的,ECD 模式以尋找證據為中心任務,每部分層層相關和遞進,將整個評測過程統(tǒng)一起來,形成完成的測評框架。本文將對TOEIC 口語考試的任務設計模式進行介紹,并在此基礎上探討其對漢語口語測試的借鑒價值。
在口語測試開發(fā)的初始階段,對口語能力的界定是至關重要的,它還會影響后期的任務形式、評分方式等。通常對語言能力有兩種定義方式:一種是“現實法”,它會確定實際語言應用的特例構成的范圍,這個范圍里的應用特例被認為是特定語言行為的表現[2];另一種是“成分法”,這種方法在語言測試發(fā)展歷史上占有重要的地位,它會把語言能力分為若干個子能力。
在口語測試開發(fā)過程中,“現實法”會根據之前確定好的特定口語行為表現進行任務設計和評分方式設計,由于其特點通常會采用總體等級評分,但是這種評分方式對評分員的要求很高,評分信度通常難以保證[3]?!俺煞址ā眲t以口語能力的構想為中心,由于口語能力是不能直接觀察和測量的,仍舊需要設計任務對口語能力進行測量,然后根據這些任務進行推斷,因為口語能力會被分為某些確定的成分,如準確性、流利度,準確性會使用每個T-unit 的錯誤個數[4]等,流利度會使用停頓次數以及平均語流長度[5]等作為量化的客觀指標。
“現實法”將特定的口語行為表現作為其評價指標,但無法推斷被試在其他口語任務上的表現;“成分法”將口語能力作為重點,在評分方式上量化了各種指標,但操作復雜,常因為忽略實際情景而受到批評。兩種方式各有利弊,可以根據不同的考試目的選擇不同的定義方法,但無論是哪種方法,都需要設計測試任務來進行口語測量,而TOEIC 的口語考試設計將這兩種方式結合起來,能更好地完成口語測試。
TOEIC 口語考試是基于“以證據為中心”的評價模式,即ECD 模式設計的。ECD 模式是由Mislevy,R.J.等人于1997-1999 年在主持美國教育測量服務中 心(Educational Testing Service,ETS)工作時提 出的一項新的系統(tǒng)性評價設計研究項目,旨在開發(fā)評價設計框架,已被廣泛用于教育評價中。TOEIC 口語考試是在GRE 等考試之后使用ECD 模式進行開發(fā)設計的,在先前經驗的基礎上,其口語考試設計更加清晰明確具有代表性。
ECD 模式產生的背景,一方面是認知科學和學習科學的發(fā)展,促使我們對學習者的知識、技能等有了更深的認識;另一方面是統(tǒng)計模型的發(fā)展使得測驗能應用基于概率的推理,這樣能夠涉及觀察變量、具體情境以及與推論之間的推理鏈條。
其理論基礎來自Mislevy 對教育評價中推理和證據之間問題的看法。他認為,教育評價的對象是學生的知識、技能和成就,評價的過程可以看成是“基于證據進行推理”的過程,教育評價就是希望從學生所說和所做或做出的特定事物中推理出更廣泛的知識和能力推論[6]的過程??傮w來說,ECD 模式是基于證據對學習者的知識、技能等進行推理的模型框架。
Mislevy 等人還認為,評估確實可以收集復雜的數據來建立對復雜學生模型的基本推斷,并衡量復雜的學習或評估復雜的程序,但這是建立在從觀察到推理的全部推理鏈之上的,因此需要一個更加結構化的框架來提供通用術語和設計對象,使評估設計更為明確,并將設計元素與實際評估中固有的過程聯系起來,這樣的框架不僅使評估的基本證據結構更加明確,而且使評估的操作要素更易于重復使用和共享[7]。ECD 評價模式就是從構想的建立到分數的發(fā)布建立的有層次和結構的框架。
ECD 模式框架分為5 個層次,分別是領域分析、領域建模、概念性評價框架、評價執(zhí)行和評價發(fā)布[8]。ECD 模式能夠使測試開發(fā)者重點針對語言能力和任務以及它們之間的關系,5 個層次包含了測試開發(fā)的整個階段,每個層次都互相關聯,層層推進。
考試研發(fā)設計的第一階段是領域分析,包括對評估領域的已知內容的初步綜合,主要側重這些問題:在該領域取得成功的重要技能、知識和能力是什么?在哪些實際情況中學習者會使用這些技能、知識和能力?
第二階段是領域建模,這一階段要將第一階段領域分析收集的信息細化,用來指導接下來的與語言能力相對應的任務設計,包括三個相互關聯的部分:熟練程度范例-對考生能力要求的實質是什么?證據范例-考生表現中的哪些可觀察特征會提供數據來支持這些能力構想?任務范例-什么類型的任務能夠讓考生提供證明他們熟練性的證據?
第三個階段是概念性評價框架(CAF),在前兩個階段的草圖基礎上,它會提供評估操作要素的具體細節(jié)以確定最終的藍圖,包括5 個關聯的模型:學生模型、證據模型、任務模型、呈現模型和組合模型。概念性評價框架提供了一個正式的框架,用于指定要衡量的知識和技能、觀察的條件以及支持預期推斷而收集的證據的性質。
第四個階段的評價執(zhí)行就是具體執(zhí)行評價工作,包括創(chuàng)建CAF 結構中描述的評價部分,例如編寫任務、呈現任務、擬合測量模型、細化評分規(guī)則和提供實例、編程模擬、自動評分算法、收集反應、分析反應等。評價都需要一些程序,通過這些程序來挑選題目、運行考試、報道分數以及交流反饋。
最后一個階段是評價發(fā)布,是通過交付系統(tǒng)形成的,包括呈現程序、反應程序、總結評分程序、活動挑選程序和任務/證據組合庫。它描述了評估所需的學生、證據、任務等以及它們如何協(xié)同工作。
整個框架從語言能力構想到最終成績發(fā)布是一個具有邏輯的完整的系統(tǒng),其中概念性評價框架是整個框架的核心,可以說是整個框架的縮影,包含了語言能力構想、任務、評價標準等幾個考試的核心問題以及它們是如何互相作用的。領域分析和領域建模是進行測試開發(fā)的前期理論性定義階段,概念性評價框架是將這些能力更加詳細化地落到實際操作上。TOEIC 的口語任務設計一方面與理論性定義階段相關,一方面又關乎評價執(zhí)行和評價發(fā)布最后兩個階段,口語設計也遵循ECD 模式這種層層遞進的過程,每一步都有明確的步驟。
TOEIC(Test of English for International Communication),又被稱為托業(yè)考試,用于測試母語非英語人員在國際性環(huán)境中的日常英語能力[9]。TOEIC 考試雖然在20 世紀就已研發(fā)和實施,但最開始只有閱讀和聽力測試部分,不包括口語和寫作測試。2005 年,ETS 與來自日本(IIBC)和韓國(YBM/Sisa)的業(yè)務成員進行探討,決定增加TOEIC 系列的口語和寫作測試,并在考試設計方面做出要求,如希望可以有更多的等級;在考試時間方面,口語和寫作的時間約為90 分鐘。
ETS 在開發(fā)TOEIC 的口語和寫作測試之前已經將ECD 評價模式應用于托福考試中,鑒于此經驗,在研發(fā)中要考慮平行試題形式的開發(fā),而且必須有詳細的任務規(guī)范,這些規(guī)范能夠使命題者更加明晰口語能力和任務之間的關系,這也能夠使口語的理論性定義在實際操作中得到充分體現,做到理論性定義與操作性定義的統(tǒng)一。最終研發(fā)者確定了任務設計分析實施步驟,TOEIC 口語任務設計與ECD 模式的框架對應情況如表1[10]所示。
表1 基于ECD 設計的TOEIC 口語任務設計
TOEIC 口語任務設計首先按照領域分析和領域建模階段,對口語能力的整個理論和測試任務進行回顧,最后形成TOEIC 的口語能力構想以及對子能力的要求,列出與對應子能力相關的證據來源,以及影響任務難度的特征和評判標準。在此基礎上,構建了有具體細節(jié)的任務模型,用來形成測試任務的模板,包括測量的內容摘要和任務模型,具體見表2。
表2 TOEIC 口語任務模型框架
任務模型由四部分組成,包括固定元素、變量元素、評分標準或題目以及變體。固定元素指的是在該任務的不同實例中保持不變的一類任務的各個方面。例如要求測試者完成任務的內容,以及任務組件的順序和時間等。TOEIC 口語測試的固定元素包括刺激材料的確切長度;刺激、準備和反應的確切時間;并準確說明提示的性質。變量元素指的是可以在該任務的不同實例之間更改的任務類的方面,例如文本或主題的類型等,還包括這些元素的可能變體集。評分標準規(guī)定了評估考生回答的程序和標準。變體會定義好任務范圍和特定主題區(qū)域或文本類型或任務框架定義的任務示例。
一旦創(chuàng)建了任務設計和任務模型框架,命題專家就可以根據內容專業(yè)知識和業(yè)務要求商定標準評估框架,這樣可以維持同一類任務的多種變體的產生,有助于在測量某種口語子能力時,不會輕易被其他內容干擾。
任務設計與能力構想緊密相關,在進行任務設計之前要明確口語能力構想。漢語與英語口語不同,在語音、語調、語氣停頓等方面有著本身的特點,因此在漢語口語考試設計時要注意漢語的特點。
由于漢語口語水平考試的測試目的不同,在構建漢語口語能力構想時也不同。以商務漢語口語測試為例,與普通的漢語水平口語不同,商務漢語口語具有專業(yè)化、職業(yè)化的特點,其詞匯和語法等方面都有自己的特征,如語體相對較為正式、表現形式包括獨白和對話兩種[11]。因此不僅要考慮基本的口語交流能力,還需要對考生的商務漢語口語能力進行分析。在此分析基礎上,確定想要衡量的口語能力是被試 “能夠有效地在日常和商務交流中通過漢語進行口語交流的能力”。還可以對更詳細的商務漢語口語子能力進行要求,例如可以在特定的語境中談論某事的能力可以細分為考生能夠選擇適當的語言進行日常的社交和商業(yè)交流(如產品介紹、回答用戶的咨詢等)。
對口語能力的界定和細化能夠為接下來的任務設計等工作提供更好的幫助,而接下來的實際操作性工作也會進一步驗證或者修正理論。
口語任務設計是連接語言口語能力理論和最終分數呈現的橋梁,并與兩者息息相關,因此口語任務設計要在統(tǒng)一的結構框架中綜合考慮這些因素。
在領域建模階段,要根據口語能力構想和子能力進行任務設計,這些設計包括要列出相關證據的真實世界任務,例如在漢語口語能力的任務中,要求考生根據一些書面信息詢問或者回答漢語教師或其他人提出的問題;還包括確定可能影響任務難度的特征,這些特征包括漢語閱讀和聽力材料的特征,這些特征是刺激口語能力表現的不同來源;確定評估任務性能的標準,例如漢語口語的清晰度和節(jié)奏、連貫和銜接等,這些都是在進行最初的任務設計時要考慮的部分。
在任務設計時還有一個重要的步驟就是盡可能多地列出每種子能力要求的證據來源,支持判斷子能力所需的觀察,這可以用來判斷任務的適當性。傳統(tǒng)設置任務的方法是建立語言使用者需要的任務列表,從中選擇一些有代表性的任務,但是這些依賴特定領域中專家的知識、經驗、技巧,具有較強的主觀性,缺乏實際的證據來支持測驗題目和所要測量的心理結構之間的關系[12]。因此,在進行漢語口語任務設計時,應該結合漢語本身的知識以及認知心理的任務,提取子能力對應的漢語口語表現行為。另外,由于口語測驗任務是基于證據來源這樣的設計特點,受試者在某個技能或知識上的強弱能夠通過每項任務體現出來,學生和教師就能夠有針對性地強化,進而促進學生的學習和教師的教學。
基礎的任務設計完成后就需要將這些任務具體化,使用任務模型能夠將任務的特征展現出來,使命題以及評分更具邏輯性。 漢語口語命題者可以根據任務模型中要求的固定不變的任務性質選擇真實的口語材料, 在這個前提下可以選擇不同類型和主題的文本。 固定的任務性質決定了評分的規(guī)則, 那么每一項任務采用總體等級評分還是分項客觀指標評分或者其他方式就有了依據。
想要知道漢語口語水平測試在多大程度上測到了想要的口語能力,測驗任務是關鍵??谡Z測驗任務可以分為開放式任務和架構式任務[13],初級的漢語水平學習者口語又可以分為“聽-說”模式和口語獨白模式[14],從中可以看出測驗任務由于本身特點以及語言水平等相關因素具有復雜性,TOEIC 的口語任務設計提供了一個具有邏輯的框架,對漢語口語測試的開發(fā)具有重要的參考價值。