亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

機助口試理論模型、任務特征和評分標準研究——新托福網(wǎng)絡口試和PhonePassTMSET口試對比分析

2013-11-08 08:06:10李夢莉

中國考試 2013年8期

李夢莉范琳

隨著網(wǎng)絡時代的到來，信息技術(shù)已經(jīng)越來越多地為口語測試服務。在過去幾年中，計算機在兩個領域的進展使其能夠?qū)φZ言進行評估。一是語音識別軟件。計算機可以以毫秒為單位分析聲譜，較為精確地重現(xiàn)錄制的言語，分析口語表達的數(shù)量并提供數(shù)據(jù)信息。該軟件能夠?qū)⑷斯ぴu分時的“印象分”科學地加以量化。二是技術(shù)的發(fā)展使神經(jīng)網(wǎng)絡的應用成為可能，從而可以訓練計算機在參考數(shù)據(jù)庫的基礎上形成獨立的判斷能力（Cleary，2003：5）。本文將對當今頗具影響力的兩種機助口試—iBT TOEFL口試和PhonepassTMSET口試進行對比，從而對機助口試理論模型、任務特征、評分標準及過程進行分析。

1 口語本質(zhì)

任何類型的口語測試，都需要考慮口語的本質(zhì)特征。Bygate（1987）把口語特征歸納為兩點：加工性和互動性。加工性是指說和聽常常交織在一起，隨著時間不斷變化，具有短暫性。解決這一問題的方法是互動性。互動性指說話人和聽話人彼此應答，進行話輪轉(zhuǎn)換，共同完成言語交際任務。互動性幫助說話者解決口語的加工性問題，也是口頭交際的社會性，所使用話語和話輪轉(zhuǎn)換模式創(chuàng)造并反映說者與聽者的社會關系。此外，Bygate還把口語看成是說話者內(nèi)部的過程，他把口語分為三個加工過程：計劃、選擇、產(chǎn)出，同時把每個過程需要的口語能力從口語知識和口語技能分開論述。在計劃階段，學習者應該掌握的知識有信息知識、互動知識、話語類型知識，應該具有的口語技能有信息計劃、口語管理技能；在選擇階段，學習者需要詞匯、短語和語法資源方面的知識，需要的技能是意義協(xié)商技能；在產(chǎn)出階段，學習者需要的知識是語法規(guī)則和發(fā)音規(guī)則，需要的技能為輔助和補償技能、準確技能。這一模型用來評估口語學習情況非常有效。把口語技能劃分為計劃、選擇和產(chǎn)出技能，為組織口語學習活動和選擇培養(yǎng)這些技能的任務提供了明晰的依據(jù)。

理想的口語測試應該能夠反映口語的本質(zhì)特征：加工型和互動性?？谡Z測試任務應該體現(xiàn)口語活動的特點，具有交互性、目的性、準語言性、非語言性以及聽說不可分割性。傳統(tǒng)的口語測試采取考官與考生直接對話的模式，優(yōu)勢在于交互性高，具有很高的表面效度。但大量研究表明，考官提問的方式、考官與考生的熟悉程度、組隊口試和分組口試中其他考生的個人特征都可能影響受試者口語水平的發(fā)揮，進而影響評分員的評分。因此，諸多因素威脅著口語測試的信度。此外，傳統(tǒng)口語測試需要耗費大量的人力、物力，如考官培訓、考場設置等，這使得在同一時間進行大規(guī)模口語測試變得不可行。那么，機助口試是否能彌補傳統(tǒng)口試的不足，同時又體現(xiàn)以上口語特征和口語活動特點呢？

2 機助口試理論模型

iBT TOEFL和PhonePassTMSET均屬于水平測試。水平考試有兩大特點：第一，它是選拔性考試。第二，它的設計基礎是語言理論，即theory-based。水平考試根據(jù)語言理論所設計的標準來測試考生現(xiàn)有的語言能力。在設計口語測試時，我們希望分數(shù)與測試之外的某些東西相關。如果我們想測試受試者的口語交際能力，就需要一個參照框架來解釋什么是口語能力以及它與測試的關系。通常的做法是把測試與一種或幾種語言能力模型相聯(lián)系。理論模型有兩個用途：一是作為口語測試的理論支撐，二是為評分標準的結(jié)構(gòu)和措辭提供啟示。

iBT TOEFL口試的設計基于交際語言能力模型。Bachman&Palmer（1996：62-63）認為，語言使用是語言使用者和他們的語境之間的交互。該模型假設語言使用涉及五個部分：語言知識、話題知識、個人特征、策略能力和情感因素。他們的語言能力概念包括兩個部分：語言知識和策略能力。語言知識涵蓋結(jié)構(gòu)知識、語法知識、語篇知識、語用知識、功能知識和社會語言知識；策略能力涉及目標設定、評估和計劃。Bachman&Palmer的“語言知識”概念明確了與所有語言使用相關的知識構(gòu)成，這并不意味著他們的語言能力概念不適用于分析口語評估，相反，該語言能力模型中分析的知識和策略與各種口語情景相關。

新托福網(wǎng)絡考試具有以下特點：（1）采用了交際語言能力測試的模式，能對考生的語言交際能力進行直接評估；（2）采用了較多的問答題和適度的寫作與會話試題；（3）能直接測試綜合語言能力（即讀寫能力和聽說能力）；（4）還能提供更多的有關考生在學術(shù)氛圍中使用英語能力的信息（劉美華等，2007：56）。文秋芳（1999：43-44）將交際口試的特點歸納為真實性、功能性、交互性、情景性和綜合性。真實性指口試試題體現(xiàn)出交際的真實需要。功能性指口試試題突出使用語言的任務性，使用語言是為了完成某項功能。交互性指考生與考官、考生與考生之間不停交換聽說角色、進行好幾個回合的交流。情景性指將口語試題置于一個真實的情景中。綜合性指評分按照考生完成任務的綜合效果來評定成績。根據(jù)以上描述，iBTTOEFL口試除了在交互性方面是人機交互，沒有話輪外，完全滿足交際口試的其他特征，能夠測試交際語言能力。

PhonePassTMSET的理論模型是根據(jù)Levelt（1989）的言語產(chǎn)出模型改編。PhonePassTMSET測試口語能力——理解日常英語口語的能力和用可理解的英語進行恰當回應的能力。該口語能力構(gòu)念也可以表述為：及時容易地理解和產(chǎn)出得體英語口語。這種定義與口語交談的過程有關。要跟上會話進度，會話者必須識別說話內(nèi)容，提取言語意義，然后構(gòu)思和產(chǎn)出相關的可理解的回應。這個聽與說的過程可由圖1表示：

圖1 聽說過程中的會話加工成分（Pearson，2008：8）

PhonePassTMSET使用綜合型的聽說任務，這些任務要求對口語語言形式進行實時的接受性與產(chǎn)出性加工，同時不會涉及社會差異和高層次的認知功能。一個人參與日常本族語英語口語會話的能力能夠使其很好的理解和回答測試中的聽說任務。PhonePassTMSET測量對口頭語言實時的編碼和解碼，探究口頭語言表現(xiàn)的心理語言學元素而非交際過程中的社會、修辭和認知元素。編碼和解碼的意義線索包括陳述性信息、社會信息和話語標記；此外，世界知識、社會關系和行為知識也需要參與理解口語話輪以及構(gòu)想話輪內(nèi)容。然而，這些口頭交際的社會認知元素沒有被包括在PhonePassTMSET的理論模型中（Pearson，2008）。

3 機助口試任務特征

考生的口語能力最終落實在口試任務的完成上。因此，設計合適的口試任務的是口語評估的核心之一。口語任務可以被看作說話人在特定語境中使用語言以達到特定目標或者目的的活動（Luoma，2004：31）。在實際交際活動中，語境指除了特定時刻語言產(chǎn)出之外的言談情景中的一切因素，包括交談發(fā)生地點、語言使用經(jīng)驗、交際意圖等（Luoma，2004：30）。在口語測試過程中，語境的設計直接影響語言使用的數(shù)量和質(zhì)量。此外，口語任務從不同的視角可以分為不同的類型。

事實性交談與評價性交談。Bygate（1987）將口語任務分為以下兩種類型：事實性交談，包括描述、敘述、講授、比較；評價性交談，包括解釋、說理、預測、決策。他指出說話者在這些類別中的語言使用能力不同，如果某人擅長描述，并不意味著他自然也擅長比較、講故事或論證某個觀點。事實性交談和評價性交談可以分開測量，從而獲得學習者的不同技能。

測試宏觀能力還是微觀能力。從交際功能來看，歐盟委員會（Council of Europe）（2001：125）制定的《歐洲語言通用參照框架》將語言能力根據(jù)功能分為兩類：一是宏觀能力；二是微觀能力。宏觀能力是使用語塊描述、敘述、評論、解釋和示范的能力；微觀能力指個體言語行為，通常指在互動中完成一個話輪，如實施請求、道歉、邀請等語言能力?？谡Z測試設計應該考查這兩方面的能力。語言功能也是設計口語測試的一個重要元素。

基于構(gòu)念的評估與基于任務的評估。如果評估考生的口語能力是根據(jù)口語能力的構(gòu)念進行，這種評估就是基于構(gòu)念的評估。在這種口語評估中，確保分數(shù)真正反映口語或口頭交際技能，而不是閱讀和聽力技能非常重要。另一種評估是把測試任務和語言使用的語境整合起來，這就是基于任務的評估（Luoma，2004：42）?；谌蝿盏脑u估強調(diào)考生完成具體任務的程度。

單一型口語測試與綜合型口語測試。許多口語測試注重口頭交際或者口頭產(chǎn)出，避免在完成口語任務時涉及閱讀、寫作或者聽力活動，這就是單一型口語測試。在基于任務的評估活動中，既有語言使用情境，又有把閱讀、聽力、寫作結(jié)合起來的口頭活動，這就是綜合型評估，目的是使測試中的語言使用更加真實（Luoma，2004：42）。Brown etal.（2001）研究了單一型測試任務與綜合型測試任務的錄音口試，發(fā)現(xiàn)綜合型任務使評分員關注考生對輸入材料的理解以及它對流利性、質(zhì)量和內(nèi)容結(jié)構(gòu)的影響?？赡苡捎谟懈嗟恼J知負擔，考生在綜合型任務的表現(xiàn)不如單一型任務的表現(xiàn)。更加根本的評估問題在于，評分員間的最后打分一致性更低。Brown etal.（2001）將此視為信度問題，建議用更詳細的、基于特定任務的評分量表和評分員培訓，以便明確輸入的內(nèi)容如何體現(xiàn)在口試輸出中。

開放型任務與控制性任務。根據(jù)測試任務提供給測試話語的不同結(jié)構(gòu)，口試任務可分為開放型任務和控制型任務（Luoma，2004:48）。開放型任務引導討論但允許考生有用不同方式完成任務要求的自由。控制性任務清楚地規(guī)定考生應該說什么，經(jīng)常可以列出所有可接受的答案。兩種機助口試任務特征的異同如表1所示。

表1 兩種機助口試任務特征對比

兩種口試都體現(xiàn)了機助口試的任務特點：人機對話。iBT TOEFL的聽力為北美口音，正常語速。PhonePassTMSET自動播放錄音也是自然語速和語調(diào)的清晰的北美口音。測試目標、受試群體、評分方式不同導致測試任務不同。新托福想要測試的，是學生們在真實的校園和學術(shù)環(huán)境中進行交流的能力。新托?？谠嚹M了北美大學課堂的學術(shù)氣氛和學生在校生活的方方面面，要求考生能夠做課堂筆記、發(fā)表自己的意見和看法，有能夠處理校園生活中遇到的各種情況的能力。把聽說結(jié)合、讀說結(jié)合，考查學生綜合語言能力。除了考查日常會話能力，還考查學生學習專業(yè)知識的能力，如記筆記、復述等。

PhonePassTMSET測試非英語學習者理解英語口語和對所聽到的話語做出回應的能力。它同時也測試聽力水平，把聽力與口語結(jié)合起來考試。PhonePassTMSET測量考生對句子的掌握、詞匯的掌握、口語流利性和語音。系統(tǒng)同時測試通過“聽”認知語言的能力，重要的是測試實際聽說能力，試題模仿現(xiàn)實生活中聽與說的語言環(huán)境，進行實時考核。系統(tǒng)不僅測試聽力水平、口語能力以及回答的合理性，還要在接近人際交往的時間限制內(nèi)聽懂、說清楚并且表達準確。

iBTTOEFL的受試對象為申請去美國或加拿大等國家上大學或進入研究生院學習的非英語國家的學生。PhonePassTMSET主要的需求者是公司、大學、政府和非政府等各種機構(gòu)。由于是機器自動評分，PhonePassTMSET只能采用相對簡單機械的任務。iBT TOEFL口試有兩個以上的專業(yè)評分員評分，所以任務更具有綜合性、復雜性。

4 機助口試評分標準及過程

在考慮口語評分方法時應綜合考慮考試題目的類型、言語樣本的水平和評分誤差等因素。開放式題型產(chǎn)生的言語樣本不能預測，適合采用主觀等級評分。限制性題型能夠預測考生將要產(chǎn)生的言語樣本，可以采用客觀評分。從二語學習者口語水平的發(fā)展過程來看，學習者的口語表達經(jīng)歷了三個階段，即從詞語或言語表達到句子表達再到語段表達。對于高水平學生的言語樣本，主要的評分途徑是主觀等級評分，而對于詞語或句子，則可以采用客觀化評分。在評分誤差方面，評分員之間評分的不一致及評分員自身評分的不穩(wěn)定導致傳統(tǒng)主觀評分的主要誤差。減少這類誤差的方法一是加強對評分員的培訓，二是即時監(jiān)控評分過程。客觀化評分通過減少評分的主觀成分來控制評分誤差，因此必須加強評分標準的確定性（王佶，2007：29）。

盡管同為機助口試，iBT TOEFL和PhonePassTMSET在評分標準及過程方面有很大不同。iBT TOEFL口試采用主觀評分，具體來說采用總體等級評分。根據(jù)ETS（2009）官方公布的評分細則，iBT TOEFL口試有0～4分5個檔次，考生對話題的展開程度、口語的流利程度和發(fā)音的清晰程度以及回答內(nèi)容與話題的切合程度是評分的重點。評分員根據(jù)下列要素對回答進行評分：（1）表達能力。（2）語言運用。（3）話題的展開。口語考試中的Response經(jīng)過數(shù)字錄音被發(fā)送到ETS在線評估網(wǎng)絡。每個考生的考試錄音都至少有兩個以上的專業(yè)評分人員進行評估?？忌讷@取分數(shù)的同時將獲得分析性反饋。該反饋將用語言加以描述，會說明考生的語法怎么樣，程度怎么樣，口語有什么薄弱環(huán)節(jié)，有什么強項等，這些都是對評分信度極大的保障。因此，新托?？谠嚲哂休^高的信度。

PhonePassTMSET主要使用機器客觀評分。計算機通過聲譜對一段話的發(fā)音、措辭、語速及停頓進行十分精確的量化評分。但系統(tǒng)不僅測試講話的方式，也測試應試者對言談內(nèi)容的表達（Cleary，2003）。它可以將考試者的語音數(shù)字化，傳輸?shù)娇偛靠荚嚬芾韱T服務器上進行記分。計分是根據(jù)考生在測試期間的電話交談中實際使用的詞匯以及從所運用的短語和句子中體現(xiàn)出的語速、流利程度及發(fā)音情況來評估的。第一部分到第四部分的反饋由計算機錄音并評分，最后部分開放性問題的反饋被錄音但由專職評分員評分。PhonePassTMSET分數(shù)報告單包括總體分數(shù)和子項分數(shù)?？傮w分代表的是考生理解英語口語和就日常生活的話題以母語者的談話速度說英語的能力。分數(shù)從20分到80分，由四個診斷性子分數(shù)經(jīng)過相加權(quán)衡組合而成。子項分數(shù)包括：句子的掌握、詞匯、流利性和語音。

5 結(jié)語

盡管同為機助口試，iBTTOEFL口試和PhonepassTMSET在理論模型、任務特征、評分標準及過程方面具有很大不同。把兩種機助口試進行對比研究，有利于我們對機助口試做出客觀的評價。Chapelle&Douglas（2006）對機助語言測試的優(yōu)勢和劣勢做了總結(jié)，這些優(yōu)勢和劣勢的描述同樣適用于機助口試。歸納起來，機助口試的優(yōu)勢在于：（1）不受時空環(huán)境制約。機助口試可以隨時隨地為考生提供服務，大幅度提高測試的便捷性。如PhonePassTMSET方便自由，可在短時間內(nèi)完成。對于需要大規(guī)模對員工進行測試的公司很方便。對于受試者和管理者更大的優(yōu)勢在于，測試可以在任何時間，任何地點進行，測試分數(shù)可在測試完成后一小時內(nèi)獲得。因此，受試者可以在滿足他們的時間安排和需要的情況下進行測試，并在合理的時間內(nèi)得到結(jié)果。這種優(yōu)勢降低了受試者的焦慮，降低成本和紙張的使用，減少雇主、大學在行政管理上的失誤。測試實施起來效率較高；在不同地域?qū)嵤┑臏y試也具有可比性。（2）統(tǒng)一的測試指令。機助口試可以克服考官和其他考生因素的影響，大大增加測試公正性。采用人機對話模式，排除了考官對考生的影響和考生之間的相互影響，這大大提高了口試的公平性，在很大程度上提高了口試信度。（3）自動性評分。自然語言加工技術(shù)使計算機可以對復雜的答案自動評分，大幅度提高測試評分的靈活性和準確性。如PhonePassTMSET評分做到了自動化。

我們在強調(diào)機助口試優(yōu)勢的同時，機助口試的劣勢也不容忽略，比如說，人機對話不同于真實的面對面交流，有可能給考生造成心理壓力；一些技術(shù)要求的特殊細節(jié)會影響測試設計者對測試題的構(gòu)思，另外，機助口試不能測試聽說中的非語言因素；當考生的回答比較復雜的時候，計算機評分系統(tǒng)也許不能評估這種回答的相關性及重要性，因而會給出過高或過低的分數(shù)。完美的測試不可能存在，機助口試亦是如此。機助口試如何在信度、效度、可行性之間取得平衡，是一個永恒的話題。機助口試是否可以實現(xiàn)對受試者的口語交際或表達能力的客觀評價，機助口試與面對面的口試是否具有等效性，有待進一步研究。

[1]Bachman，L.F.&Palmer A.S.Language Testing Practice[M].Oxford:OUP，1996.

[2]Brown etal.Investigating Raters’Orientations in Specific-purpose Task-based Oral Assessment[R].TOEFL 2000 Research and Development project report.Submitted June2001.

[3]Bygate，M.Speaking[M].Oxford:OUP，1987.

[4]Chapelle，C，A.&D.Douglas.Assessing Language through Computer Technology[M].北京：外語教學與研究出版社.2006.

[5]Cleary，C.Complete Guide to the Phonepass Test[M].Beijing：Foreign Language Teachingand Research Press，2004.

[6]Council of Europe.Common European Framework of Reference for Languages:Learning，teaching，assessment[M].Cambridge:CUP，2001.

[7]ETS.The Official Guide to the TOEFL Test[M].北京：北京語言大學出版社.2009.

[8]Levelt，W，J，M.Speaking:From Intention to Articulation[M].Cambridge，MA:MITPress，1989.

[9]Luoma，S.Assessing Speaking[M].北京：外語教學與研究出版社.2010.

[10]PEARSON，VersantTMEnglish Test—Test Design and Validation Research[R].Pearson Education，Inc.or itsaffiliate（s），2008:1-26.

[11]劉美華，等.新托福網(wǎng)絡考試及其反饋作用[J].國外外語教學，2007（1）.

[12]文秋芳.英語口語測試與教學[M].上海：上海外語教育出版社.1999.

[13]王佶.第二語言口語考試評分方法述評[J].暨南大學華文學院學報，2007（1）.