閻莉 張瑋 向國(guó)華
摘 要:本研究以概化(G)理論作為分析框架,請(qǐng)12位評(píng)分者對(duì)11名大學(xué)生的漢譯英翻譯測(cè)試進(jìn)行評(píng)分,通過(guò)一系列的概化研究和決策研究,以檢驗(yàn)翻譯測(cè)試中的評(píng)分信度和構(gòu)建效度問(wèn)題。實(shí)驗(yàn)結(jié)果表明:以漢譯英段落翻譯進(jìn)行的測(cè)試能較好區(qū)分考生的翻譯能力;評(píng)分人效應(yīng)明顯,而題材效應(yīng)不明顯。同時(shí)決策研究的結(jié)果表明,適當(dāng)增加翻譯任務(wù)和評(píng)估者人數(shù)能提高翻譯測(cè)試的信度。
關(guān)鍵詞:概化理論;翻譯評(píng)分;評(píng)分信度;構(gòu)建效度
一、前言
隨著中國(guó)推進(jìn)“一帶一路”建設(shè)和中國(guó)文化“走出去”戰(zhàn)略,中國(guó)承擔(dān)了更多的國(guó)際責(zé)任,也對(duì)翻譯人才提出了更多要求。為順應(yīng)國(guó)家的需求和英語(yǔ)教育改革趨勢(shì),翻譯測(cè)試研究迫在眉睫。
翻譯測(cè)試屬于測(cè)量范疇。但凡測(cè)量都有誤差,產(chǎn)生測(cè)量誤差的原因是多種多樣的。根據(jù)不同的測(cè)量誤差,測(cè)量一般分為以下三大理論,分別是經(jīng)典測(cè)量理論(CTT)、概化理論(GT)和項(xiàng)目反應(yīng)理論(IRT)。經(jīng)典理論把測(cè)試的得分看成是真分?jǐn)?shù)和誤差分?jǐn)?shù)的線性組合,但經(jīng)典理論中的真分?jǐn)?shù)不能指明哪種誤差或在總誤差中各種誤差的相對(duì)大小如何,只能根據(jù)主試自己的理解去控制一些因素,針對(duì)性不強(qiáng)。項(xiàng)目反應(yīng)理論將被試特質(zhì)水平與被試在項(xiàng)目上的行為關(guān)聯(lián)起來(lái)并且將其參數(shù)化和模型化,是通過(guò)統(tǒng)計(jì)調(diào)整控制誤差的方法。若模型成立并且項(xiàng)目參數(shù)均已知,則模型在測(cè)驗(yàn)中為項(xiàng)目性質(zhì)調(diào)整數(shù)據(jù),可生成獨(dú)立于測(cè)驗(yàn)項(xiàng)目性質(zhì)的特質(zhì)水平測(cè)量。但項(xiàng)目反應(yīng)理論對(duì)被試數(shù)、項(xiàng)目數(shù)和模型有限制,適合較大規(guī)模和大樣本的測(cè)試。概化理論則是通過(guò)改進(jìn)經(jīng)典測(cè)驗(yàn)理論的數(shù)學(xué)模型、引進(jìn)方差分析技術(shù)等方法,把分?jǐn)?shù)變異細(xì)分為多種來(lái)源,為測(cè)驗(yàn)決策提供了系統(tǒng)的理論和方法。因此,概化理論是經(jīng)典測(cè)量理論與方差分析技術(shù)形成一種現(xiàn)代測(cè)量評(píng)價(jià)的理論[1]。該理論已構(gòu)成了現(xiàn)代人才測(cè)評(píng)的理論基石,應(yīng)用范圍涉及心理測(cè)試、語(yǔ)言測(cè)試、績(jī)效評(píng)估、醫(yī)學(xué)測(cè)量等多個(gè)領(lǐng)域[2-5]。
目前,我國(guó)概化理論主要用于高考標(biāo)準(zhǔn)、參照性測(cè)驗(yàn)、心理測(cè)試、普通話(huà)測(cè)試、教學(xué)評(píng)價(jià)評(píng)分一致性等研究中。學(xué)者們也嘗試將概化理論用于外語(yǔ)語(yǔ)言測(cè)試研究,如概化理論分析寫(xiě)作測(cè)試和口語(yǔ)測(cè)試[6-8]。研究發(fā)現(xiàn),通過(guò)概化理論可以為研究標(biāo)準(zhǔn)化和標(biāo)準(zhǔn)程度化不高的測(cè)試提出有效控制和改善測(cè)量精度的措施和方法。但以概化理論深入挖掘翻譯測(cè)試的可靠性和有效性的研究鮮有涉及。
二、概化理論:翻譯評(píng)估研究的框架
在國(guó)外教育與心理評(píng)價(jià)中,概化理論受到高度重視。美國(guó)教育研究會(huì)、心理學(xué)協(xié)會(huì)以及國(guó)家教育評(píng)價(jià)委員會(huì)聯(lián)合頒布的《教育和心理評(píng)價(jià)標(biāo)準(zhǔn)》明確提出,構(gòu)建觀察和教育評(píng)價(jià)程序的可靠度與效度時(shí),必須參照概化理論[9]。
概化理論(Generalizability Theory)是一種把測(cè)量誤差作為模型參數(shù)來(lái)處理的測(cè)量理論,也是一種統(tǒng)計(jì)方法。該方法可以識(shí)別得分方差和錯(cuò)誤的來(lái)源,并估計(jì)這些方差成分對(duì)評(píng)分一致性和準(zhǔn)確性的影響[10]。它將影響測(cè)試結(jié)果的多側(cè)面(Facet)及其交互影響納入測(cè)試全域(Universe),分析側(cè)面間結(jié)構(gòu)關(guān)系與作用模式,如在按考生和任務(wù)(p×t)的交叉設(shè)計(jì)中,某個(gè)考生(p)在某道題(t)上的得分受考生全域均分、個(gè)人效應(yīng)、題項(xiàng)效應(yīng)和殘差效應(yīng)(殘差包括學(xué)生與試題的交互作用,以及其他不確定誤差源)影響。
概化理論分析問(wèn)題的基本過(guò)程主要包括兩部分,即概化研究和決策研究。概化研究按照總差異百分比檢查設(shè)計(jì)中的每個(gè)差異成分。決策研究是對(duì)概化研究所得數(shù)據(jù)的轉(zhuǎn)換和解釋環(huán)節(jié),為實(shí)驗(yàn)?zāi)康奶峁┎煌男哦群托Ф戎笜?biāo)。具體來(lái)說(shuō),決策研究表明需要多少項(xiàng)任務(wù)和評(píng)估者數(shù)量才能達(dá)到特定的評(píng)分可靠性[11]。概化理論的概化研究和決策研究可以幫助人們針對(duì)具體誤差來(lái)源,提出有效控制和改善測(cè)量精度的措施和方法。因此,本文以概化理論為分析框架,開(kāi)展?jié)h英翻譯測(cè)試有效性的研究,不僅檢驗(yàn)翻譯測(cè)試評(píng)閱的信度和效度問(wèn)題,而且運(yùn)用決策研究結(jié)果構(gòu)建提高翻譯測(cè)試的有效性策略。
三、研究問(wèn)題和研究過(guò)程
(一)翻譯樣本的選擇
翻譯能力是譯者的語(yǔ)際轉(zhuǎn)換能力,即忠實(shí)通順地傳達(dá)原作意義的能力。Hatim & M ason(1990)對(duì)翻譯能力所下的定義——“成功翻譯的必要知識(shí)”[12]。本研究英語(yǔ)翻譯能力測(cè)試是依據(jù)2017教育部最新版大學(xué)英語(yǔ)教學(xué)指南對(duì)翻譯的基本要求,如果考生能借助詞典對(duì)題材熟悉、結(jié)構(gòu)清晰、語(yǔ)言難度較低的文章進(jìn)行英漢互譯,譯文基本準(zhǔn)確,無(wú)重大的理解和語(yǔ)言表達(dá)錯(cuò)誤,能有限地運(yùn)用翻譯技巧,那么考生具備一定的翻譯能力。于是,筆者選用大學(xué)英語(yǔ)四級(jí)真題作為翻譯測(cè)試題,因?yàn)橛⒄Z(yǔ)四級(jí)考試的目的就是以中國(guó)英語(yǔ)學(xué)習(xí)者為對(duì)象,為大學(xué)英語(yǔ)教學(xué)提供測(cè)評(píng)服務(wù)一項(xiàng)全國(guó)性的英語(yǔ)考試。
參加翻譯測(cè)試的對(duì)象來(lái)自湖北省屬高校非英語(yǔ)專(zhuān)業(yè)大二的學(xué)生。11名學(xué)生都參加過(guò)2019年6月的CET-4考試,其中,有10位學(xué)生通過(guò)了四級(jí)考試,有1位學(xué)生未通過(guò)四級(jí)考試。筆者本人為他們的大學(xué)英語(yǔ)任課教師,并確認(rèn)測(cè)試的翻譯任務(wù)均為學(xué)生未接觸過(guò)的試題,征得學(xué)生同意后,分配學(xué)生30分鐘時(shí)間,完成140-160個(gè)漢譯英段落翻譯,第一次為文化類(lèi)翻譯,第二次為經(jīng)濟(jì)類(lèi)翻譯。然后,這11名學(xué)生的22篇翻譯由12名評(píng)閱者按照CET-4翻譯考試評(píng)分標(biāo)準(zhǔn)進(jìn)行評(píng)分,即評(píng)閱人從準(zhǔn)確、連貫和語(yǔ)言三個(gè)方面對(duì)翻譯進(jìn)行綜合型評(píng)判。參加測(cè)試研究的12位評(píng)分員為有15年及以上教齡的高校專(zhuān)任英語(yǔ)教師,大部分教師曾多次參加過(guò)大學(xué)英語(yǔ)翻譯測(cè)試和校級(jí)翻譯選拔賽的評(píng)閱工作。
(二)研究設(shè)計(jì)
1. 翻譯測(cè)試中的準(zhǔn)確性和有效性依據(jù)
當(dāng)前的翻譯測(cè)試大都以文本測(cè)試為主,評(píng)分者依照評(píng)分標(biāo)準(zhǔn)作出主觀性評(píng)估。主觀性評(píng)估的準(zhǔn)確性對(duì)其有效性有很大影響,Messick(1989)將有效性描述為“綜合評(píng)價(jià)判斷經(jīng)驗(yàn)證據(jù)和根據(jù)考試成績(jī)理論基礎(chǔ)的程度,支持推理和行動(dòng)的充分性和適當(dāng)性”。從這個(gè)意義上說(shuō),翻譯任務(wù)的評(píng)估通常涉及一個(gè)或多個(gè)評(píng)估者,評(píng)估者依據(jù)個(gè)人經(jīng)驗(yàn)對(duì)任務(wù)進(jìn)行綜合評(píng)價(jià),判斷考生對(duì)翻譯理論基礎(chǔ)的掌握程度。在這種主觀性評(píng)估背景下,分?jǐn)?shù)會(huì)因許多因素而波動(dòng),任務(wù)和評(píng)估者將是影響準(zhǔn)確性的兩個(gè)潛在測(cè)量誤差源[13-14]。因此,本研究重點(diǎn)考察翻譯測(cè)試評(píng)估的兩個(gè)因素:任務(wù)和評(píng)分者。研究采用兩面交叉設(shè)計(jì)p×t×r,其中p是指學(xué)生的翻譯能力(測(cè)量目標(biāo)),t指翻譯不同題材翻譯,有2個(gè)水平;r指評(píng)估者,有12個(gè)水平,即12位評(píng)分員對(duì)11名學(xué)生每人二種不同題材的段落翻譯進(jìn)行評(píng)定,翻譯題材面和評(píng)估者面都為隨機(jī)。然后GENOVA軟件測(cè)量翻譯評(píng)分中的評(píng)分員效應(yīng)和題材效應(yīng),并對(duì)誤差構(gòu)成進(jìn)行分析研究。
作為評(píng)估測(cè)量精度的概化理論還提供了一種檢驗(yàn)測(cè)試結(jié)構(gòu)有效性的方法評(píng)估[14],即研究行為表現(xiàn)評(píng)估的結(jié)構(gòu)效度(聚合效度和區(qū)別效度)。通過(guò)分析測(cè)試中得出的每個(gè)方差成分的相對(duì)大小,來(lái)檢驗(yàn)構(gòu)造的有效性[15]。在任務(wù)和評(píng)分者隨機(jī)交叉設(shè)計(jì)中,學(xué)生翻譯分?jǐn)?shù)的變化即可分為以下七個(gè)方差分量:考生(p),任務(wù)(t),評(píng)分者(r),考生*任務(wù)(pxt),考生*評(píng)分者(pxr),任務(wù)*評(píng)分者(txr),考生*任務(wù)*評(píng)分者(pxtxr)。為了檢驗(yàn)考生測(cè)量的有效性,每個(gè)方差分量都需要單獨(dú)考慮。由考生引起的變化不構(gòu)成誤差變化,因?yàn)榭忌呛饬康膶?duì)象,他們的表現(xiàn)會(huì)有所不同。因此,考生的方差分量大,測(cè)量對(duì)象表明聚合效度足夠大[16];評(píng)估者方差成分以及評(píng)估者與其他方差成分(即,任務(wù)和評(píng)分者)之間的交互作用應(yīng)較小,以表示區(qū)別有效性,因?yàn)樗羞@些方差成分均會(huì)導(dǎo)致測(cè)量誤差[16]。所以任務(wù)和評(píng)分者之間的交互作用方差成分組成部分可以判斷區(qū)分度。如果認(rèn)為翻譯能力是一維結(jié)構(gòu),任務(wù)和評(píng)分者之間的交互作用方差成分較小,則表明區(qū)分度好;但如果測(cè)試的能力為多維結(jié)構(gòu),那么其他變異來(lái)源例如考生*評(píng)分者(pxr),任務(wù)*評(píng)分者(txr),考生*任務(wù)*評(píng)分者(pxtxr)等的組成部分應(yīng)該很小以支持判別有效性,因?yàn)樗鼈兛赡軐?dǎo)致錯(cuò)誤,因此無(wú)法測(cè)量學(xué)生的翻譯能力[16]。
2. 研究問(wèn)題
使用概化理論作為框架,以下三個(gè)研究問(wèn)題指導(dǎo)了這項(xiàng)研究:
(1)大學(xué)英語(yǔ)漢英翻譯任務(wù)的分?jǐn)?shù)的得分變異性的來(lái)源是什么?
(2)大學(xué)英語(yǔ)漢英翻譯測(cè)試的構(gòu)造效度(及聚合效度和區(qū)別效度)如何?
(3)大學(xué)英語(yǔ)漢英翻譯任務(wù)的成績(jī)可靠性是什么?
3. 數(shù)據(jù)分析
首先,進(jìn)行描述性靜態(tài)分析和配對(duì)樣本t檢驗(yàn)。其次,一個(gè)隨機(jī)效應(yīng)任務(wù)、評(píng)估人和考生(pxtxr)的概化研究和兩個(gè)評(píng)估人交叉考生(pxr)的概化研究(一個(gè)用于第一篇翻譯任務(wù),另一個(gè)用于第二篇翻譯任務(wù))。從這些概化研究獲得的信息用于檢查評(píng)分變異貢獻(xiàn)來(lái)源和考生翻譯分?jǐn)?shù)的結(jié)構(gòu)效度。最后,產(chǎn)生一個(gè)影響評(píng)估人、任務(wù)和考生(pxtxr)決策研究。決策研究獲得的結(jié)果用于檢驗(yàn)翻譯測(cè)試成績(jī)的可靠性。概化和決策研究均使用計(jì)算機(jī)程序GENOVA[15]。
四、研究結(jié)果和分析
(一)翻譯的得分的差異
表1匯總了由11位中國(guó)大學(xué)生翻譯的22篇翻譯的得分的統(tǒng)計(jì)結(jié)果(即均值和標(biāo)準(zhǔn)差)。結(jié)果顯示,11名學(xué)生翻譯能力差異較大。文化類(lèi)翻譯任務(wù)中的得分明顯高于經(jīng)濟(jì)類(lèi)翻譯任務(wù)。
(二)配對(duì)樣本t檢驗(yàn)結(jié)果
此外,配對(duì)樣本t檢驗(yàn)結(jié)果(見(jiàn)表2)顯示,除學(xué)生6在翻譯任務(wù)1和任務(wù)2得分一致外,文化類(lèi)型的翻譯的得分明顯高于經(jīng)濟(jì)類(lèi)翻譯得分。此外,如表2顯示,三名考生(即考生2、4和6)在文化類(lèi)翻譯任務(wù)中的得分明顯高于第一篇(p<0.05)。其他學(xué)生的翻譯分?jǐn)?shù)沒(méi)有顯著差異。這兩個(gè)翻譯任務(wù)滿(mǎn)分為15分,學(xué)生分?jǐn)?shù)覆蓋5-12分,說(shuō)明11名學(xué)生的翻譯能力有很大差異。
(三)概化研究(Generalizability Studies)
本研究采用了兩面交叉設(shè)計(jì)p×t×r,這種設(shè)計(jì)可以得到學(xué)生翻譯能力、篇章類(lèi)型、評(píng)估者三種主效應(yīng)(p,t,r),四種交互效應(yīng)(pt,pr,tr,ptr)。各效應(yīng)的方差成分如表3。
表3結(jié)果可以看到,作為測(cè)量對(duì)象的考生(p)產(chǎn)生了最大的方差分量(2.972),占據(jù)總方差的50.24%,表明11個(gè)選定的考生,翻譯能力差異很大。與評(píng)分者相關(guān)的(r)和(pr)約占總方差的30%,說(shuō)明由評(píng)估者因素給分?jǐn)?shù)變異帶來(lái)的誤差相當(dāng)大。而題材類(lèi)型(t)屬于同一題型,只有題目?jī)?nèi)容的變化,其方差成分(0.244)很小,它僅占分?jǐn)?shù)總變異的4.12%,說(shuō)明不同題材類(lèi)型對(duì)學(xué)生能力測(cè)試不會(huì)造成很大差別。
表4顯示兩種不同翻譯任務(wù)的考生*評(píng)分人pxr隨機(jī)效應(yīng)概化研究結(jié)果。不同題材的翻譯段落看作單面交叉設(shè)計(jì)p×r,本研究所用的兩篇不同內(nèi)容的翻譯分別代表了兩個(gè)單面設(shè)計(jì)??忌?評(píng)分者(pxr)隨機(jī)效應(yīng)產(chǎn)生以下方差分量:考生(p),評(píng)估者(r)和考生交叉評(píng)估者效應(yīng)(pr)。如表4所示,文化類(lèi)翻譯的結(jié)果表明,測(cè)量對(duì)象人(p)解釋了最大的得分差異(占總差異的58.87%),表明這11名大學(xué)生差異很大,翻譯任務(wù)很好的衡量的學(xué)生的翻譯能力。殘差是由于評(píng)估者和考生之間相互作用引起的可變性以及其他無(wú)法解釋的系統(tǒng)性和非系統(tǒng)性的來(lái)源錯(cuò)誤占第二大得分方差(占總方差的29.57%)。評(píng)分者(r)產(chǎn)生了第三大方差成分(占總方差的17.63%),表明評(píng)分者在評(píng)估翻譯任務(wù)方面存在很大差異。
經(jīng)濟(jì)類(lèi)翻譯的結(jié)果表明,測(cè)量對(duì)象人(p)解釋了最大的得分差異(占總差異50.60%),表明這11名大學(xué)生翻譯能力差異很大,翻譯任務(wù)很好的衡量的學(xué)生的翻譯能力。殘差是由于評(píng)估者和考生之間相互作用引起的可變性以及其他無(wú)法解釋的系統(tǒng)性和非系統(tǒng)性的來(lái)源錯(cuò)誤占第二大得分方差(占總方差的29.57%)。評(píng)分者(r)產(chǎn)生了第三大方差成分(占總方差的17.31%),這表明評(píng)分者在評(píng)估翻譯任務(wù)方面存在很大差異。
(四)翻譯測(cè)試的構(gòu)造效度結(jié)果
為了檢驗(yàn)翻譯測(cè)試的構(gòu)造效度(及聚合效度和區(qū)別效度),對(duì)隨機(jī)效應(yīng)評(píng)估人、任務(wù)和考生(pxtxr)的方差分析概化研究(參見(jiàn)表3)和兩個(gè)考生*評(píng)分者(p x r)隨機(jī)效應(yīng)的概化研究(一個(gè)用于第一篇翻譯任務(wù),另一個(gè)用于第二篇翻譯任務(wù))來(lái)檢查結(jié)構(gòu)的有效性(參見(jiàn)表4)。
如表3所示,作為測(cè)試對(duì)象的翻譯能力解釋了總變異的50.24%,這說(shuō)明用漢譯英段落翻譯測(cè)試考生的翻譯能力,聚合效度可以接受。另外,本研究在翻譯任務(wù)中使用了兩個(gè)題材的翻譯任務(wù),因此學(xué)生的翻譯能力可以被視為多維結(jié)構(gòu)。較大的值表示足夠的區(qū)別效度。但是任務(wù)、考生*任務(wù)和任務(wù)*考生*任務(wù)的差異占總分差的4.12%、1.21%和11.59%說(shuō)明區(qū)分效度不明顯。
如表4所示,文化類(lèi)翻譯比經(jīng)濟(jì)類(lèi)翻譯任務(wù)的測(cè)試對(duì)象p分別占總方差的58.87%和50.60%,表明文化類(lèi)的翻譯比經(jīng)濟(jì)類(lèi)的翻譯聚合效度高,考生和評(píng)分者(pr)的方差分別占占總方差的23.20%和29.57%,這表明第二項(xiàng)經(jīng)濟(jì)類(lèi)的翻譯任務(wù)更具有區(qū)別效度。
(五)決策研究(Decision Studies)
根據(jù)概化研究所估計(jì)出來(lái)的各種方差成分,我們可以考察不同決策研究下概化系數(shù)(Generalizability Coefficient,簡(jiǎn)稱(chēng)G系數(shù))的變化。固定一個(gè)面的決策研究不僅增加面的水平能提高測(cè)量精度,固定一個(gè)面也能改進(jìn)測(cè)量的可靠性。
概化系數(shù)大于0.80說(shuō)明信度優(yōu)秀。如圖5所示,固定一個(gè)翻譯測(cè)試題,如果這一道翻譯測(cè)試題由一名評(píng)估者來(lái)評(píng)分,概化系數(shù)為0.636,兩名評(píng)估者可靠性為0.762,三名評(píng)估者可靠性為0.816,達(dá)到0.80的優(yōu)秀水平;而如果有兩道翻譯測(cè)試題一名評(píng)估者來(lái)評(píng)分,概化系數(shù)為0.699,兩名評(píng)估者可靠性為0.814,達(dá)到優(yōu)秀水平。
五、討論和結(jié)論
基于以上檢驗(yàn)、分析。本研究得到以下結(jié)論:
首先,考生*評(píng)分人*任務(wù)的概化研究結(jié)果表明,與評(píng)分者相關(guān)的(r)和(pr)約占總方差的30%,題材類(lèi)型(t)其方差成分占分?jǐn)?shù)總變異的4.12%,在影響翻譯評(píng)分的各種因素中,評(píng)分者因素產(chǎn)生的誤差最大,這一結(jié)果跟Huang[17]的發(fā)現(xiàn)一致。而題材類(lèi)型對(duì)學(xué)生能力測(cè)試不會(huì)造成很大影響。但相同條件下,經(jīng)濟(jì)類(lèi)翻譯測(cè)試誤差最大,而文化類(lèi)翻譯測(cè)試誤差較小。
其次,翻譯測(cè)試的構(gòu)造效度(聚合效度和區(qū)別效度),作為測(cè)試對(duì)象的翻譯能力解釋了總變異的50.24%,這說(shuō)明用漢譯英段落翻譯測(cè)試考生的翻譯能力,聚合效度可以接受。但是任務(wù)、考生*任務(wù)和任務(wù)*考生*任務(wù)的差異占總分差的4.12%、1.21%和11.59%說(shuō)明區(qū)分效度不明顯。本研究在翻譯任務(wù)中使用了兩個(gè)不同題材的段落,但都屬于同一題型的文本翻譯,說(shuō)明測(cè)試中使用同一題型不同題材的文本對(duì)翻譯測(cè)試產(chǎn)生的誤差沒(méi)有影響。相對(duì)而言,文化類(lèi)翻譯比經(jīng)濟(jì)類(lèi)翻譯任務(wù)的測(cè)試對(duì)象p分別占總方差的58.87%和50.60%,表明文化類(lèi)的翻譯比經(jīng)濟(jì)類(lèi)的翻譯聚合效度高,考生和評(píng)分者(pr)的方差分別占占總方差的23.20%和29.57%,經(jīng)濟(jì)類(lèi)的翻譯任務(wù)更具有區(qū)別效度。這個(gè)結(jié)果可能與大學(xué)英語(yǔ)強(qiáng)調(diào)英語(yǔ)文化重要性有關(guān),在大學(xué)英語(yǔ)通識(shí)教材中學(xué)生接觸經(jīng)濟(jì)類(lèi)型的文本比文化類(lèi)型的文本要少。所以,學(xué)生發(fā)現(xiàn)文化類(lèi)翻譯比經(jīng)濟(jì)類(lèi)翻譯更難。與文化類(lèi)翻譯相比,評(píng)估者在經(jīng)濟(jì)類(lèi)的評(píng)分一致性也稍差。
最后,翻譯測(cè)試分?jǐn)?shù)的可靠性決策研究結(jié)果表明,增加翻譯任務(wù)和評(píng)估者人數(shù)能提高翻譯測(cè)試的信度。
因此,為了提高翻譯測(cè)試的有效性,測(cè)試機(jī)構(gòu)的主管部門(mén)一是要穩(wěn)定測(cè)試評(píng)分者隊(duì)伍,減少評(píng)分人員變更;特別是大型測(cè)試中,如果條件允許情況下,增加評(píng)分員人數(shù),雙人評(píng)閱;二是在翻譯能力測(cè)試中,試卷分卷或多卷測(cè)試時(shí),翻譯篇章類(lèi)型盡可能統(tǒng)一,盡可能用采用多篇翻譯進(jìn)行測(cè)量,才能更好保證測(cè)試的公正性。
當(dāng)然,實(shí)驗(yàn)中考生和評(píng)分者的行為可能與實(shí)際測(cè)試條件下的行為有所不同。而且參與者和寫(xiě)作樣本的樣本量相對(duì)較小,可能會(huì)限制調(diào)查結(jié)果對(duì)整個(gè)翻譯評(píng)估的概括。在后期研究中,我們將通過(guò)定性方法對(duì)翻譯評(píng)估者及評(píng)分過(guò)程采取進(jìn)一步研究,來(lái)明確影響翻譯評(píng)分中的隱藏性因素。
參考文獻(xiàn):
[1] 陳社育,余嘉元.經(jīng)典真分?jǐn)?shù)理論與概化理論信度觀評(píng)析 [J].心理學(xué)動(dòng)態(tài),2001,(3):258-263.
[2] Brennan,R.L.Generalizability Theory[M].New York: Springer,2001.
[3] Gebril,A.Score generalizability of academic writing tasks: Does one test method fit it all?[J].Language Testing,2009,29(4):507-531.
[4] Sawaki,Y.Construct validation of analytic rating scales in speaking assessment: Reporting a score profile and a composite[J].Language Testing,2007,24(3):355-390.
[5] Huang, J. (2012). Using generalizability theory to examine the accuracy and validity of large-scale ESL writing[J].Assessing Writing, 17(3), 123-139.
[6] 趙琪鳳.HSK寫(xiě)作測(cè)試評(píng)分信度考查——基于對(duì)新老評(píng)分員的個(gè)案調(diào)查[J].課程與教學(xué)論,2010-10:13-19.
[7] 基于概化理論和多層面Rasch模型的計(jì)算機(jī)化英語(yǔ)聽(tīng)說(shuō)考試評(píng)分研究[J].徐鷹,曾用強(qiáng).電化教育研究,2015,(3):89-95.
[8] 孫海洋,韓寶成.概化理論在口語(yǔ)考試設(shè)計(jì)中的應(yīng)用研究[J].外語(yǔ)教學(xué),2011,(6):61-65.
[9] AERA,APA & NCME.Standards for Educational and Psychological Testing[Z].Washington,DC: American Educational Research Association,1999,2014.
[10] Huang, J. (2011). Generalizability theory as evidence of concerns about fairness in large-scale ESL writing assessments[J]. TESOL Journal, 2(4), 423-443.
[11] 趙必華.概化理論及其在標(biāo)準(zhǔn)參照測(cè)驗(yàn)信度中的應(yīng)用[J];內(nèi)蒙古師范大學(xué)學(xué)報(bào)(教育科學(xué)版) 2002(5):21-23.
[12] Hatim,B. & Mason, I Discourse and the Translator [M]. London: Longman, 1990.
[13] Messick S.Validity .In:R. L.inn ?(Ed.).Educational Measurement (3rd Edition)[C].New York: Mac-millan,1989.13-104.
[14] Shavelson, R. J., & Webb, N. M. (1991). Generalizability theory: A premier[M].Newbury Park, CA: Sage.
[15] Brennan, R. L. (2001). Statistics for social science and public policy: Generalizability theory[M].New York: Springer-Verlag.
[16] Kraiger, K., & Teachout, M. S. (1990). Generalizability theory as construct-related evidence of the validity of performance ratings[J].Human Performance, 3, 19-35.
[17] Huang, J. (2011). Generalizability theory as evidence of concerns about fairness in large-scale ESL writing assessments[J]. TESOL Journal, 2(4), 423-443.
湖北經(jīng)濟(jì)學(xué)院學(xué)報(bào)·人文社科版2021年11期