鄔姝麗 孟 釗 古 明
(中國礦業(yè)大學,北京)
準確客觀地評估口譯質量是口譯測試非常重要的一項任務。對于英語專業(yè)口譯考試的評估,許多學者做過研究。劉和平教授(2005)在《口譯理論與教學》一書中提出了編寫口譯教學大綱。廈門大學英語系陳菁先后于2002和2003年在《中國翻譯》發(fā)表兩篇關于口譯測試的重要因素和口譯測試的具體操作的論文。對口譯評估步驟以及口譯測試的真實性提出了建議。近年來,隨著英語專業(yè)本科階段口譯課的開設呈大幅上升趨勢,且日趨穩(wěn)定,很多學者也開始關注口譯的質量評估。馮建中(2005)對國內部分高校所做的口譯考試進行了研究,發(fā)現大部分高校的口譯考試內容的合理性欠缺,選材量不足,評分具有主觀性,即口譯測試的信度和效度都不高。浙江大學的劉銀燕和張珊珊(2009)設計了“口譯測試評分表”,詳細列出評分項以及分數的分配值。以上學者的研究主要是細化評分標準,指出了評分因素,但并沒有涉及口譯測試中信度和效度所涵蓋的具體內容。盧敏、劉琛(2007)等就全國翻譯專業(yè)水平考試英語口譯試題命制一致性進行了研究,其中對口譯試題的信度和效度的具體內容進行研究,對于本文的研究有一定的參考性。
任何語言測試都要回答兩個問題,即信度和效度的問題。它們是語言測試中兩個最重要的概念,是關乎考試的測量結果分數是否穩(wěn)定和考試內容是否準確合理。Bachman和Palmer(1996: 19-38)提出語言測試有用性原則,包括信度、效度、真實性、互動性、后效作用以及可操作性,其中信度和效度是最重要的兩個指標。任何一次高質量的考試必須確保高信度和高效度。信度是指測量結果的一致性或測量結果的可靠性。為了提高分數的穩(wěn)定性和可靠性,一份試卷需要足夠的題量,考試的實施也要科學合理(包括考試時間的分配、考試指令),教師的評分需盡可能公正。信度高說明試卷分數比較真實地反映了學生的實際水平。效度是一份試卷是否測量了所要測量的內容或試卷是否成功實現了測試目的,它檢驗測試結果能否準確反映學生的實際水平。效度能夠體現測試的準確性和有效性,它包括構想效度、內容效度和表面效度。構想效度是指試卷是否按照語言學習理論和行為來測量某些具體的特征,檢驗口譯測試的構想效度就是檢驗口譯測試試卷是否與口譯測試理論和口譯教學大綱一致。內容效度是指一份試卷是否測量了所要測量的內容,它包括試卷內容的相關性和試卷樣本的代表性。表面效度是指從表面和外觀就能判斷出一份試卷是否在測試所要測試的知識或能力。筆者認為,口譯測試的真實性也是口譯效度的一個重要指標,將其放在表面效度這個維度進行分析。
口譯是一種涉及諸多知識層面的跨文化交際行為(鐘述孔,1991)??谧g測試是交際語言能力測試,它所遵循的原則是交際語言測試理論原則。交際法語言測試理論是Lyle Bachman(1990,1996)提出的具有較大影響的測試理論。Bachman(1990: 81-110)認為語言測試應包括語言能力、策略能力和心理生理機制三部分。語言能力又細分為組織篇章能力如詞匯、句法、銜接、組織等和語用能力如言語知識和社會語言知識。策略能力是一種綜合運用已有知識解決問題的一種心理能力。該理論的重要意義在于將語言的使用看成是一個動態(tài)過程,重視語言在具體語境下的交際??谧g恰恰是一種語際間的解釋行為,口譯的思維過程是原語聽辨與理解,經過瞬間記憶、轉換和表達的過程,是一種以傳遞信息意義為目的的交際過程??谧g的性質和其思維過程決定口譯的交際能力應包括知識能力、技能能力和心理能力。因此,交際法語言測試理論對口譯測試理論具有指導意義。
本次測試采取問卷調查的方式進行,有來自全國105所高校的口譯教師參與微信填寫。問卷采用五度量表,按完全不符合到非常符合這種遞升方式排序。共設計21道有關信度和效度的問題。信度涉及試題本身信度和評閱人信度。效度包括構想效度、內容效度和表面效度。
這些口譯教師所屬類型及人數分別是:文科類16人,理工科30人,外語類8人,師范類9人,綜合類42人。具體所在學校的比例請看下圖。
本文所探討的效度包括內容效度、構想和表面效度。信度分為內部信度和外部信度(閱卷人信度)。下面作者就每一部分數據進行分別討論:
在口譯測試中,構想效度是用來檢驗口譯試卷設計是否與大綱相符合。試卷效度與相關理論的主要方面一致性越高,說明試卷的構想效度越高??谧g教學大綱是指導口譯測試的參考標準,口譯試題應體現大綱所規(guī)定的相關口譯能力。檢驗口譯測試的構想效度就是檢驗口譯測試試卷有沒有參照口譯測試理論或大綱規(guī)定的口譯能力要求。
本研究中問卷所涉及的試題來源(問題1:口譯試題是否來自試題庫),大綱參考 (問題5),口譯技能(問題6)以及文化知識考察(問題8)是關于構想效度的。研究結果表明口譯試卷的構想效度較高,所采用的五度量表中,每一道題的均值分別是3.02、4.09、4.12和4.02,綜合起來構想效度的均值為3.85,這說明所調查的高校英語專業(yè)的口譯試題的構想效度雖然不是百分百令人滿意,但至少口譯試題與口譯大綱所規(guī)定的口譯技能及口譯理論相符或口譯試題參考指標與口譯大綱相符。這一結論是令人滿意的,說明在口譯測試日益發(fā)展的今天,口譯測試越來越規(guī)范,口譯理論和技能越來越受到重視。
口譯測試的內容效度體現在口譯試題的覆蓋度和得體性,具體來說就是口譯試題的命題難度、語篇長度、話題覆蓋面以及英譯漢和漢譯英試題所占的比例。本問卷所涉及的內容效度包括問題2(口譯試題是否包括英譯漢和漢譯英各兩段)、問題3(每段試題的字數在200—300之間)問題4(我的口譯試題考慮了難易度)和問題7(我的口譯試題包括不同場合的話題)。分析結果表明,每部分的均值分別是4.42、3.75、4.08和4.04,每部分的均值都高于平均分2.5,綜合起來內容效度的均值為4.07,接近五度量表最高值5,這表明所調查的各高校的口譯試卷的內容效度很高,口譯試題測量了所要測量的內容,試題覆蓋面合理,考察的內容全面,所截取的內容具有代表性。簡言之,題量和難度控制得不錯。英譯漢和漢譯英各兩段,每段字數控制在200—300之間,這能全面和均 衡地考察學生的口譯能力。在難易度方面,試題過難或過易都不能反映學生的真實水平。試題過難會讓學生產生畏懼情緒,太易則缺乏挑戰(zhàn)性,不能進一步激發(fā)學生的學習興趣。研究結果表明,高校英語口譯老師對試題的難易度和區(qū)分度掌控得不錯。對于成績測試來說,基于本校的口譯考試大體考了要考的內容。
表面效度除了指考試內容與口譯相符之外,筆者認為另一個測量口譯表面效度的指標則是口譯測試形式,即口譯測試的真實性。它是交際法語言測試的一個重要指標。Bachman和 Palmer(1996)把真實性定義為“ 既定語言測試任務的特征與目標語言使用任務的特征的一致性”,換句話說,應試者應試時所需完成的任務類似于現實生活的交際情景所需完成的任務。一致性越高,真實性越高。本問卷設計了這一點,問題11口譯測試是否是在多媒體教室錄音進行的。問卷統(tǒng)計表明該題的均值為4.3,這表明大部分高校口譯考試是在多媒體教室進行錄音,考察學生的基本口譯知識和能力??谧g測試的形式必須試用于口譯場合。此均值從另一方面表明了大多數高校的口譯考試的真實性差。陳菁(2002)認為“那種戴耳機聽錄音,然后錄下譯文的做法無法全面客觀地測試出應試者的知識能力、口譯能力和心理能力。測試時應試者必須在接近真實的交際情境中如記者招待會、商務談判、參觀訪問、電話口譯等完成交際任務”。陳菁(2003: 67)甚至提出模擬真實的口譯場合,學生輪流進場考試,這樣可以測量學生的心理能力和公共演說能力。雖然這一提法具有挑戰(zhàn)性,因為目前實施這種真實情境的口譯考試對于絕大多數高校難度大,但這是我們應該努力實現的目標,至少口譯測試的形式盡量接近真實。口譯教學是應盡可能在測試時營造口譯現場或讓學生直接參與口譯真實活動。
口譯課程測試信度是指口譯課程測試結果是否穩(wěn)定可靠。即口譯課程測式的成績是否真實地反映出學生的實際口譯水平??谧g課程的測試由口譯試題本身的信度和評閱信度兩部分構成。試題本身是否可靠取決于試題的長度(測試時間)、題目要求是否準確清楚、錄音間隔是否合理。本問卷關于信度的測量包括以上三個方面的問題,即試題字數、試題的覆蓋度、考試指令和錄音間隔。調查結果表明,除了試題字數不夠外,其他三項的信度都很高。劉和平(2005)提出,每段材料的口譯時間為3到5分鐘為宜,每分鐘160—200個字,也就是說三分鐘至少480個字左右。蔡小紅(2007)也提出“原則上語篇長度必須超過人記憶語言的能力,即2分鐘以上”。而我們的調查研究發(fā)現,絕大多數高校的口譯試題雖然包括英譯漢和漢譯英各兩段,但字數不夠,大多在200—300之間,亦即不足22分鐘。這樣一來,文章長度不夠,在陳菁(2003:67)看來,時間不足就無法衡量學生的交際能力,特別是語篇和運用能力?!眴柧碚{查結果顯示這道題的均值為3.75,因此,增加考試試題的長度是提高信度的一種有效方式。其他三項信度的構成部分分別是實體的覆蓋度、考試指令和錄音間隔。統(tǒng)計分析顯示,這三部分的均值分別是4.42、4.23和4.34,總體均值是4.33,這一均值數值表明這部分的信度很高,具體來說實體的覆蓋面廣,包括英漢和漢英各兩段,與國家級考試如全國翻譯專業(yè)資格口譯考試以及上海市英語中高級口譯崗位資格考試的試題覆蓋面大體一致。明確的考試指令會確??忌煜ゎ}型和測試技術,考生不會因為題目歧義而造成理解偏差。合理的段落之間的停頓便于給考生足夠時間整理筆記和錄音,這樣學生就不會因為停頓時間太短而不能充分發(fā)揮自己的口譯能力。Heaton(2008:162)指出,為了提高信度,使測試任務產生的分數更加可靠,更能體現學生的實際口譯能力,在測試時應選取足夠的測試樣本,提供相同的施考條件。Hughes(2003)更詳細地列出確保信度的幾點:選取足夠的行為樣本; 不允許考生有太多的選擇自由;題目無歧義;指令清晰明白;讓考生熟悉題型和測試技術; 提供相同無干擾的施考條件。參照Hughes以及Heaton提出的確保信度的有效手段,高校英語口譯教師大體上在試卷設計時考慮了提高分數穩(wěn)定性的方法。但他們忽略了一項最根本的保證,即試卷的長度,因為只有足夠的樣本才能真實反映出考生的口譯能力,對此各高校應給予重視,并進行改進。
信度的另一個維度是評分信度,它指閱卷者在多大程度上保證考試結果的可靠性。這與考試的公平性有直接關系。Weir(2005)就評分標準提出如下主要要求:(1)提供詳細的評分標準;(2)通過號碼而非名字識別考生;(3)使用多人獨立評分。關于口譯測試的評分標準,許多學者撰寫論文提出對口譯評分標準進行各種量化,引入不同的參數和權重。比如楊承淑(2000)將口譯評分標準劃為:忠實占50%,表達占30%,語言占20%。劉和平(2001)的標準為反應速度占15%,理解占35%,表達占35%,心理素質占15%。陳菁(2003)則把口譯測試標準定為知識能力占35%,技能占50%,心理能力占15%。這些學者提出的評分準則從微觀層面設定評分標準。本文暫不考慮詳細的評分標準,主要討論的是與信度有關的評分標準和評估方式,如是采用整體評分法還是分析評分法,是形成性評價還是終結性評價。除此之外,我們特別關注高??谧g教師在評閱學生時的公平性,所以設計了三個與此相關的問題,即是否匿名閱卷(問題12)、是否采用二人以上共同閱卷(問題13)、教師閱卷時是否會因學生生病等因素影響對學生的評價。下面作者就評閱信度分別進行分析和討論。
是否匿名閱卷的均值為3.50,共同批閱的評分值為3.08;提供詳細的評分標準這部分的均值是4.18;不會因為學生的個人因素(如緊張,生病等)影響對其客觀評判的均值是4.12。相比較而然,匿名閱卷和多人閱卷的均值偏低一些,在所用的五度量表中居中,這說明這一部分還需加強,以便保證考試結果的穩(wěn)定性以及考試的公平性。提供詳細的評分標準均值在4以上,說明高校口譯教師意識到這種詳細的評分標準可以保證評分的穩(wěn)定性和一致性,這也就確保了高信度。不受學生個人因素影響的評分體現了評分的公平性。
筆者多次參加人事部全國翻譯專業(yè)資格考試的口譯閱卷,了解口譯評分方法主要是分析法與整體印象法的結合,其中分析法占的比重大。此研究參照人事部口譯評分標準,設計了五個與評分方法有關的問題,即在口譯評分中,從整體上把握學生的口譯水平(綜合法);在評分時考慮口譯能力的各個要素,如語言能力、流利程度、技能能力等(分析法);在課程評價時只采用終結性評價方式;在課程評價時只采取形成性評價方式;在課程評價時采用終結性和形成性評價相結合的方式。從評分標準看,數據顯示,高??谧g教師在口譯評估時整體評分和分析式方法這兩種方法各占50%,綜合法的均值為4.24,分析法的數據平均值為4.25,這兩個數據幾乎相等。這與標準的國家級口譯水平考試在評分方法上有所不同,筆者認為這也許是高??谧g成績測試的一個特點,也是這次研究的一個新發(fā)現。
從評估方式看,我們設計了四個題目,為了是得到一個比較全面的答案。這四個問題分別是:(18)我給學生成績時會考慮到平時的訓練量;(19)在課程評價時我只采用終結性評價方式;(20)在課程評價時我只采取形成性評價方式;(21)在課程評價時我采用終結性和形成性評價相結合的方式。調查結果,單獨一種評價方式并不是高??谧g考試的主要方式,問題19和20的均值(2.64;3.02)都低于終結性和形成性評價這種相結合的方式(均值為4.37),這一結果恰好與問題18的均值比較接近(均值4.03),這兩個數值進一步表明高??谧g考核的特點即采用形成性與終結性相結合的方式,將學生平時口譯訓練量計算在期末考核中,體現了高校口譯測試獨特的一面。筆者贊成這一做法,因為高??谧g測試與國家標準化口譯考試不同的地方在于高校口譯考試是成績測試而非一次定終身的水平測試。口譯學習是一個循序漸進的過程,成績測試如果將口譯學習過程考慮在內,不僅會激發(fā)學生平時的學習積極性,也會照顧大多數學生,筆者認為這一評估過程也體現了口譯評估的科學性和公平性,是提高口譯信度行之有效的辦法,值得提倡。
本研究從口譯效度和信度兩個方面探討高??谧g測試與評估的核心問題。與以往的本科翻譯專業(yè)口譯教學的測試與評估不同,它突破了常規(guī)的理論描述或是單純的口譯評估量化分析。采用問卷調查這一實證研究方法,涉及全國多所開設口譯課的高校。得出的結論也與以往的研究不同,雖然發(fā)現了一些問題,也表明了高??谧g教學測試與評估的進步,口譯測試與評估正逐步科學化,口譯測試的信度和效度都有改進。我們需要進一步提高表面效度即口譯考試的真實性,此外,測試的整體信度較高,無論是內部信度還是評閱信度。不過內部信度方面需增加試題長度,保證足夠的試題量,這樣才能真正測量出學生的口譯實際能力和水平。在評閱信度方面,適當進行匿名閱卷和多人閱卷,有利于更好地保證分數的公平和可靠。值得一提的是,高??谧g評估方式較為合理,采用形成性與終結性相結合,這也是公平性與科學性的另一種表現。
[1]Bachman, L.1990.Fundamental Considerations in Language Testing[M].Oxford: OUP.
[2]Bachman, L.& A.Palmer.1996.Language Testing in Practice[M].Oxford: OUP.
[3]Heaton, J.2000.Writing English Language Tests[M].Beijing:Foreign Language and Research Press.
[4]Hughes, A.2003.Testing for Language Teachers[M].Cambridge: Cambridge University Press.
[5]Weir, C.2005.Language Testing and Validation: An Evidencebased Approach[M].New York: Palgrave Macmillan.
[6]蔡小紅.2007.口譯評估[M].北京:中國對外翻譯出版公司.
[7]陳菁.2002.從Bachman交際法語言測試理論模式看口譯測試中的重要因素[J].中國翻譯,(1):51-53.
[8]陳菁.2003.交際法員原則指導下的口譯測試的具體操作[J].中國翻譯,(1):67-71.
[9]馮建中.2005.論口譯測試的規(guī)范化[J].外語研究,(1):54-58.
[10]劉和平.2001.口譯技巧——思維科學與口譯推理教學法[M].北京:中國對外翻譯出版公司.
[11]劉和平.2005.口譯理論與教學[M].北京:中國對外翻譯出版公司.
[12]劉銀燕 張珊珊.2009.英語專業(yè)本科口譯教學結業(yè)測試設計與評估方法探索[J].外語研究,(4):74-78.
[13]盧敏 劉琛 鞏向飛.2007.全國翻譯專業(yè)資格(水平)考試英語口譯試題命題一致性研究報告[J].中國翻譯,(5):57-61.
[14]楊承淑.2000.口譯教學研究——理論與實踐[M].臺灣:輔仁大學出版社.
[15]鐘述孔.1991.實用口譯手冊[M].北京:中國對外翻譯出版公司.