亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        概化理論下英語(yǔ)翻譯測(cè)試評(píng)分者的信度研究

        2020-07-07 12:52:12
        關(guān)鍵詞:概化方差分量

        閻 莉

        (武漢工程大學(xué) 外語(yǔ)學(xué)院 湖北 武漢:430073)

        翻譯測(cè)試是翻譯教學(xué)中的一個(gè)重要環(huán)節(jié),也是國(guó)內(nèi)外多種外語(yǔ)水平考試中常用的考試題型。翻譯測(cè)試是在外語(yǔ)教學(xué)和翻譯教學(xué)中用來(lái)評(píng)估學(xué)生語(yǔ)言能力和翻譯能力的重要方法及手段[1]。但翻譯作為主觀型測(cè)試,受試者翻譯能力的判斷取決于評(píng)分者按照評(píng)分標(biāo)準(zhǔn)得出的分?jǐn)?shù),由于評(píng)分者之間的差異,評(píng)分可能存在不一致性,而評(píng)分者的信度是衡量測(cè)試質(zhì)量、保證其公平公正的主要指標(biāo)[2]。因此,評(píng)分者因素已成為可能影響課堂和標(biāo)準(zhǔn)化評(píng)估環(huán)境中評(píng)估翻譯的分?jǐn)?shù)有效性和可靠性的因素。

        目前,許多學(xué)者在翻譯測(cè)試的構(gòu)建上已有較為深入的理論思考[3-4];在測(cè)試方法和評(píng)分標(biāo)準(zhǔn)、評(píng)分量表、評(píng)分信度等方面也展開相關(guān)研究[5-7]。但是,以概化理論深入挖掘翻譯測(cè)試的有效性和可靠性的研究鮮有涉及,尤其是評(píng)閱人培訓(xùn)背景對(duì)英語(yǔ)翻譯評(píng)估的影響研究較少。

        鑒于此,本研究運(yùn)用概化理論(Generalizability Theory)對(duì)兩組不同背景評(píng)分人進(jìn)行檢驗(yàn),通過(guò)概化(Generalizability,G)和決策(Decision,D)研究,審視不同培訓(xùn)背景評(píng)分者對(duì)英語(yǔ)翻譯測(cè)試的可靠性影響。

        1 概化理論:翻譯評(píng)估研究的框架

        概化理論是經(jīng)典測(cè)量理論與方差分析技術(shù)形成一種現(xiàn)代測(cè)量評(píng)價(jià)的理論。概化理論也是一種統(tǒng)計(jì)方法,可以識(shí)別得分方差和錯(cuò)誤的來(lái)源,并估計(jì)這些方差成分對(duì)評(píng)分一致性和準(zhǔn)確性的影響[8]。研究人員在ESL/EFL主觀性評(píng)估中廣泛使用了概化理論來(lái)檢驗(yàn)評(píng)分的信度或結(jié)構(gòu)效度[9-10]。概化理論分析問題的基本過(guò)程主要包括兩部分,即概化(G)研究和決策(D)研究。概化(G)研究按照總差異百分比檢查設(shè)計(jì)中的每個(gè)差異成分。例如,在按考生、任務(wù)和評(píng)分者(p×t×r)的交叉設(shè)計(jì)中,G研究可以提供以下七個(gè)方差成分的信息:考生(p),任務(wù)(t),評(píng)分者(r),考生和任務(wù)的交互作用(p×t),考生和評(píng)分者的交互作用(p×r),任務(wù)和評(píng)分者的交互作用(t×r)和評(píng)分者、任務(wù)和考生之間的交互作用(p×t×r)(即殘差,為評(píng)分者、任務(wù)和考生之間無(wú)法解釋的系統(tǒng)和非系統(tǒng)錯(cuò)誤源); 決策(D)研究是對(duì)概化(G)研究所得數(shù)據(jù)的轉(zhuǎn)換和解釋環(huán)節(jié),為實(shí)驗(yàn)?zāi)康奶峁┎煌男哦群托Ф戎笜?biāo)。具體來(lái)說(shuō),D研究表明需要多少項(xiàng)任務(wù)和評(píng)估者數(shù)量才能達(dá)到特定的評(píng)分可靠性(即分別用于規(guī)范參考和標(biāo)準(zhǔn)參考解釋的概化系數(shù)和可靠性系數(shù))。

        在過(guò)去的三十年中,概化理論被越來(lái)越多地用作指導(dǎo)主觀性評(píng)估研究的理論框架[9-12]。概化理論為翻譯評(píng)估研究提供了非常強(qiáng)大的理論框架。因此,本文應(yīng)用概化理論為指導(dǎo)框架,采用隨機(jī)交叉設(shè)計(jì)來(lái)探索評(píng)分者對(duì)英漢翻譯評(píng)估的影響,對(duì)翻譯的評(píng)分信度進(jìn)行檢驗(yàn)。

        2 研究過(guò)程

        2.1 翻譯樣本的選擇

        參加本研究的翻譯樣本來(lái)自湖北某大學(xué)非英語(yǔ)專業(yè)大二的學(xué)生。11名學(xué)生都參加過(guò)2018年6月的CET-4考試,其中,有9位學(xué)生通過(guò)了四級(jí)考試,有2位學(xué)生未通過(guò)四級(jí)考試。筆者本人為他們的大學(xué)英語(yǔ)任課教師,并確認(rèn)測(cè)試的漢譯英段落翻譯任務(wù)均為學(xué)生未接觸過(guò)的試題,征得學(xué)生同意后,在2019年6月CET-4考試結(jié)束的后兩周,分配學(xué)生30分鐘時(shí)間,進(jìn)行翻譯測(cè)試,第一次為文化類翻譯,第二次為經(jīng)濟(jì)類翻譯。然后,筆者按照CET-4翻譯考試評(píng)分標(biāo)準(zhǔn)進(jìn)行初評(píng),學(xué)生的初評(píng)分?jǐn)?shù)覆蓋了5分檔(4-6分)、8分檔(7-9分)、11分檔(10-12分)和14分檔(13-15分)4個(gè)分?jǐn)?shù)檔。最后這11名學(xué)生的22篇翻譯由20名不同培訓(xùn)背景評(píng)分者進(jìn)行評(píng)分。

        2.2 評(píng)分者的信息

        參與本項(xiàng)研究的評(píng)分者來(lái)自省屬3所不同高校,均為大學(xué)英語(yǔ)課程專任教師。20名參與者包括10名受聘于四級(jí)評(píng)閱中心的評(píng)分員和10名在職但無(wú)改卷培訓(xùn)經(jīng)歷的老師。大部分的參與者年齡在35至50歲之間,20名參與者包括2名本科教育背景教師,16名碩士教育背景教師和2位博士教育背景教師。

        有培訓(xùn)背景的評(píng)分員指參加過(guò)大學(xué)英語(yǔ)考試委員會(huì)四級(jí)翻譯閱卷培訓(xùn)經(jīng)歷的老師。評(píng)分員在每次大學(xué)英語(yǔ)四級(jí)閱卷前,培訓(xùn)組的組長(zhǎng)會(huì)仔細(xì)解讀翻譯的測(cè)評(píng)標(biāo)準(zhǔn),評(píng)分員在熟悉標(biāo)準(zhǔn)之后進(jìn)行網(wǎng)上試評(píng)閱卷,評(píng)分員先獨(dú)立完成A組試評(píng),然后網(wǎng)上閱卷系統(tǒng)會(huì)給出這個(gè)評(píng)分員的評(píng)分情況和專家的統(tǒng)一評(píng)分,以幫助評(píng)分員更好地了解熟悉評(píng)分細(xì)則,掌握評(píng)分的依據(jù)。通過(guò)了A組試評(píng)以后,那么評(píng)分員再進(jìn)入B組進(jìn)行進(jìn)一步的試評(píng)。通過(guò)兩輪培訓(xùn)后,在閱卷組長(zhǎng)和專家們的監(jiān)控下,達(dá)到評(píng)閱的標(biāo)準(zhǔn),才可進(jìn)入真正的閱卷工作。

        而另一組是沒有經(jīng)過(guò)正式閱卷培訓(xùn)的老師,但這些英語(yǔ)老師長(zhǎng)期在大學(xué)英語(yǔ)教學(xué)一線工作,且有十年以上的工作經(jīng)驗(yàn),多次參與校級(jí)大學(xué)生英語(yǔ)選拔比賽或省級(jí)翻譯大賽等相關(guān)翻譯的評(píng)閱工作,對(duì)大學(xué)英語(yǔ)四級(jí)翻譯題型及評(píng)分規(guī)則也十分熟悉。

        2.3 研究問題

        使用概化理論作為理論框架,研究以下三個(gè)問題:

        (1)評(píng)分者的培訓(xùn)背景對(duì)評(píng)估翻譯分?jǐn)?shù)的顯著差異?

        (2)翻譯測(cè)試評(píng)分變化貢獻(xiàn)的來(lái)源是什么?

        (3)大學(xué)英語(yǔ)翻譯測(cè)試的成績(jī)可靠性是什么?

        2.4 評(píng)分程序

        因?yàn)檠芯康臉颖緸榧堎|(zhì)手寫版本,22個(gè)翻譯樣本由筆者去除考生姓名和學(xué)號(hào)等個(gè)人信息后,掃描成電子版本發(fā)送給評(píng)分者,評(píng)分者有20位,其中10位評(píng)分者接受了CET-4翻譯評(píng)分的培訓(xùn),還有10位評(píng)分者沒有培訓(xùn)背景。為了研究需要,要求所有評(píng)分者嚴(yán)格遵循CET-4翻譯標(biāo)準(zhǔn),具體來(lái)說(shuō),每位評(píng)分者以0-15分的標(biāo)準(zhǔn)對(duì)22篇翻譯試題進(jìn)行整體評(píng)分。整體評(píng)分有四個(gè)主要標(biāo)準(zhǔn),這些標(biāo)準(zhǔn)包括:(1)表達(dá)原文意思;(2)用詞貼切;(3)行文流暢;(4)沒有語(yǔ)言錯(cuò)誤。

        2.5 數(shù)據(jù)分析

        首先,數(shù)據(jù)進(jìn)行描述性靜態(tài)分析和配對(duì)樣本t檢驗(yàn)。其次,一個(gè)隨機(jī)效應(yīng)評(píng)估人、任務(wù)和考生(p×t×r)的G研究和兩個(gè)評(píng)估人交叉考生(p×r)的G研究(一個(gè)用于第一篇翻譯任務(wù),另一個(gè)用于第二篇翻譯任務(wù))。從這些概化(G)研究獲得的信息用于檢查評(píng)分變異貢獻(xiàn)來(lái)源。最后,產(chǎn)生一個(gè)影響評(píng)估人、任務(wù)和考生(p×t×r)決策(D)研究。決策(D)研究獲得的結(jié)果用于檢驗(yàn)評(píng)分者評(píng)分成績(jī)的可靠性。概化(G)和決策(D)研究均使用計(jì)算機(jī)程序GENOVA[8,13]。

        3 數(shù)據(jù)結(jié)果

        表1匯總了11位中國(guó)大學(xué)生翻譯的22篇段落測(cè)試的得分統(tǒng)計(jì)結(jié)果。表1顯示,有培訓(xùn)背景的評(píng)分者第一篇翻譯測(cè)試平均分為8.49,第二篇翻譯測(cè)試平均分為7.98,兩篇翻譯評(píng)分嚴(yán)格控制在8分檔(7-9分),都在及格檔位;而沒有培訓(xùn)背景的評(píng)分者分?jǐn)?shù)分別為10.05和9.44,評(píng)閱均分普遍較高,介于及格檔(7-9分)和良好檔(10-12分)之間。這表明有培訓(xùn)背景的評(píng)分者對(duì)評(píng)分檔位的控制較一致,換句話說(shuō),有培訓(xùn)背景的評(píng)分者比無(wú)培訓(xùn)背景的評(píng)分者更為嚴(yán)格;另一方面也說(shuō)明不同背景評(píng)分人對(duì)高分的規(guī)定評(píng)分理解有所不同,評(píng)分標(biāo)準(zhǔn)存在差異。

        表1 兩組不同背景評(píng)分者的評(píng)分結(jié)果

        3.1 配對(duì)樣本t檢驗(yàn)結(jié)果

        配對(duì)樣本t檢驗(yàn)結(jié)果見表2。表2顯示有培訓(xùn)背景的評(píng)分者與無(wú)培訓(xùn)背景的評(píng)分者之間平均得分有顯著差異。不同培訓(xùn)背景評(píng)分者在評(píng)閱兩篇翻譯的平均得分顯著值為0.000(p<0.01),表明評(píng)分者的培訓(xùn)背景以及不同類型的翻譯任務(wù)確實(shí)影響翻譯測(cè)試的評(píng)分。

        表2 配對(duì)樣本t檢驗(yàn)測(cè)試結(jié)果

        *相關(guān)在1%水平上顯著(雙尾檢驗(yàn))

        3.2 概化理論分析結(jié)果

        為了更好了解不同培訓(xùn)背景的評(píng)估者得分變化貢獻(xiàn)來(lái)源,本研究進(jìn)行了考生和評(píng)分者(嵌入背景中)混合效應(yīng)分析。研究了有培訓(xùn)背景評(píng)分者和無(wú)培訓(xùn)背景評(píng)分者隨機(jī)效果的結(jié)果,隨后為其提供G(概化)研究(詳見表3)。考生和評(píng)分者(嵌套在背景中)混合效果G研究中,混合效應(yīng)得出以下五種變異來(lái)源:考生(p),背景(e),評(píng)分者嵌套在背景(r:e),考生交叉背景(pe),考生交叉評(píng)估者(嵌套背景中)(pr:e)。表3中的結(jié)果表明殘差(pr:e)測(cè)量得出最大方差分量(占比45.76%)。這是由于隨機(jī)交叉產(chǎn)生無(wú)法解釋的系統(tǒng)性和非系統(tǒng)性錯(cuò)誤來(lái)源??忌?p)產(chǎn)生第二大方差分量,占總方差的32.91%,表明選定的翻譯樣本在質(zhì)量上有很大差異。批分者背景(e)和評(píng)分者在背景中嵌套(r:e)產(chǎn)生了第三大方差分量(占比14.26%)和第四大方差分量(占比7.05%),表明翻譯分?jǐn)?shù)可能存在很大差異歸因于評(píng)分者的批閱背景,而且不同培訓(xùn)背景的評(píng)分者在評(píng)分的嚴(yán)厲程度方面不同。

        表3 考生*評(píng)分者:培訓(xùn)背景混合效應(yīng)方差分量的概化(G)結(jié)果

        考生*評(píng)分者(p×r)隨機(jī)效應(yīng)產(chǎn)生以下方差分量:考生(p),評(píng)估者(r)和考生交叉評(píng)估者效應(yīng)。表4列出了這兩項(xiàng)G研究的結(jié)果。

        表4 考生*評(píng)分者(p×r)隨機(jī)效應(yīng)方差分量的 G-study結(jié)果

        對(duì)于有無(wú)批改培訓(xùn),考生和評(píng)分者隨機(jī)效應(yīng)G研究結(jié)果,如表4所示,殘差產(chǎn)生了最大的方差分量(57.12%),殘差是由于評(píng)分者和考生之間相互作用引起的可變性以及其他無(wú)法解釋的系統(tǒng)性和非系統(tǒng)性的來(lái)源錯(cuò)誤。結(jié)果顯示考生(p)產(chǎn)生第二大方差(占比41.57%)。表明翻譯樣本的質(zhì)量差異極大。但是,評(píng)分者(r)方差分量為總方差的1.31%,表明有培訓(xùn)背景的評(píng)分者一致性相當(dāng)高,翻譯測(cè)試評(píng)分信度好。

        如表4所示,無(wú)評(píng)閱背景評(píng)分者的結(jié)果顯示考生(p)產(chǎn)生最大的方差分量(占比53.58%),表明翻譯的質(zhì)量差異非常大。殘差(由于評(píng)分者之間的相互作用以及其他無(wú)法解釋的系統(tǒng)和非系統(tǒng)的錯(cuò)誤來(lái)源)產(chǎn)生第二大方差(占比27.75%)。然而,評(píng)分人(r)方差分量產(chǎn)生第三大方差分量(18.67%)的總方差。這一結(jié)果表明沒有培訓(xùn)背景的評(píng)分者在測(cè)試評(píng)分上不太一致,對(duì)翻譯評(píng)分存在較大差異。

        3.3 翻譯分?jǐn)?shù)可靠性結(jié)果

        為了檢查翻譯任務(wù)分?jǐn)?shù)的可靠性,分別對(duì)有無(wú)培訓(xùn)背景的評(píng)分者進(jìn)行了隨機(jī)效果D研究,結(jié)果列于表5。

        表5 評(píng)分者、任務(wù)和考生(p×t×r)設(shè)計(jì)決策研究概化系數(shù)

        概化系數(shù)大于0.80說(shuō)明信度優(yōu)秀。如表5所示,在一般翻譯測(cè)試中,每位考生只需要完成一道漢譯英篇章翻譯題,如果一道翻譯測(cè)試題由一名評(píng)分者來(lái)評(píng)分,有培訓(xùn)背景評(píng)分者的可靠性系數(shù)為0.659,兩名評(píng)分者可靠性系數(shù)為0.794,接近于0.80的優(yōu)秀水平;而對(duì)于一名有著豐富教學(xué)經(jīng)驗(yàn)但沒有培訓(xùn)背景的老師的可靠性系數(shù)為0.421遠(yuǎn)遠(yuǎn)低于優(yōu)秀值,且需要增加到6名老師測(cè)試的可靠性才能達(dá)到優(yōu)秀。

        4 結(jié)論

        基于以上檢驗(yàn)、分析,本研究得到以下結(jié)論:

        (1)本研究在有培訓(xùn)背景的評(píng)分者和經(jīng)驗(yàn)豐富但沒有正式培訓(xùn)背景評(píng)分者之間進(jìn)行分析,研究表明,沒有培訓(xùn)背景的評(píng)分者評(píng)分方面對(duì)評(píng)分標(biāo)準(zhǔn)把握不一致,有培訓(xùn)背景的評(píng)分者對(duì)翻譯分?jǐn)?shù)檔位控制較好,而且不同背景評(píng)分者對(duì)高分的規(guī)定評(píng)分理解有所不同,評(píng)分標(biāo)準(zhǔn)存在差異。

        (2)對(duì)于翻譯測(cè)試得分差異的來(lái)源,結(jié)果表明,殘差產(chǎn)生了最大的方差分量(57.12%),殘差是由于評(píng)估者和考生之間相互作用引起的可變性以及其他無(wú)法解釋的系統(tǒng)性和非系統(tǒng)性的來(lái)源錯(cuò)誤,表明翻譯測(cè)試評(píng)分差異來(lái)源于更多不明原因??忌a(chǎn)生第二大方差,表明翻譯樣本的質(zhì)量差異會(huì)導(dǎo)致評(píng)分的不同。評(píng)分者方差分量表明,有無(wú)培訓(xùn)背景的評(píng)分者對(duì)考生得分造成影響。最后,分析結(jié)果表明,有培訓(xùn)背景的評(píng)分者得分一致性相當(dāng)高,翻譯測(cè)試評(píng)分信度好,而沒有培訓(xùn)背景的評(píng)分者在測(cè)試評(píng)分上不太一致,對(duì)翻譯評(píng)分存在較大差異。

        (3)最后在評(píng)分者分?jǐn)?shù)的可靠性決策研究結(jié)果表明,有培訓(xùn)背景的評(píng)分者比沒有培訓(xùn)背景評(píng)分者更一致且更可靠。

        當(dāng)然本研究?jī)H考察了評(píng)分者教育背景對(duì)漢譯英翻譯評(píng)估的影響。許多研究表明,多種因素共同影響主觀性的評(píng)估[14]。對(duì)其他因素的忽視可能導(dǎo)致概化理論分析中的大殘差方差分量,存在很大的無(wú)法解釋的變異性。而大的殘余效應(yīng)可以表明隱藏性[8]。后期研究中,我們將進(jìn)一步明確隱藏方面更大的殘差[12]。

        總而言之,在真實(shí)環(huán)境中,教師對(duì)學(xué)生進(jìn)行評(píng)分通常不會(huì)接受正規(guī)培訓(xùn),翻譯評(píng)分公正性主要靠評(píng)估者的經(jīng)驗(yàn)來(lái)兌現(xiàn)。作為主觀性考試的翻譯,評(píng)分標(biāo)準(zhǔn)的科學(xué)性、嚴(yán)密性、評(píng)分員對(duì)標(biāo)準(zhǔn)的一致性尤為重要。因此,在翻譯測(cè)試前,實(shí)施嚴(yán)格的評(píng)估培訓(xùn),使評(píng)分者自身和內(nèi)部的差異最小化,這將有助于提高翻譯評(píng)分的準(zhǔn)確性和一致性。

        猜你喜歡
        概化方差分量
        方差怎么算
        概率與統(tǒng)計(jì)(2)——離散型隨機(jī)變量的期望與方差
        帽子的分量
        一物千斤
        智族GQ(2019年9期)2019-10-28 08:16:21
        計(jì)算方差用哪個(gè)公式
        論《哈姆雷特》中良心的分量
        方差生活秀
        分量
        基于MIKE21二維數(shù)值模擬的不同橋墩概化方式下河道壅水計(jì)算結(jié)果對(duì)比分析
        結(jié)構(gòu)化面試中多源變異的概化分析
        亚洲日本国产一区二区三区| 亚洲国产综合精品 在线 一区 | 国产禁区一区二区三区| 天天鲁在视频在线观看| 麻豆91免费视频| 日韩精品一区二区三区在线观看的 | 国产欧美亚洲另类第一页| 国产黄片一区二区三区| 午夜精品久久久久久久久| 精品日韩欧美一区二区在线播放 | 久久久www成人免费精品| 欧美一区波多野结衣第一页| 成人影院免费观看在线播放视频| 精品一区中文字幕在线观看| 性欧美老人牲交xxxxx视频| 日韩成人精品在线| 高清少妇一区二区三区| 亚洲精品乱码久久久久久 | 中文亚洲av片在线观看不卡| 国产桃色精品网站| 午夜免费观看日韩一级片| 亚洲一区二区三区av无码| 伊人网视频在线观看| 少妇久久高潮不断免费视频| 97精品人妻一区二区三区蜜桃| 人人妻人人妻人人片av| 国产妇女乱一性一交| 日韩女优一区二区在线观看| 国产成人小视频| 国产98在线 | 免费| 亚洲免费人成网站在线观看| 中文字幕亚洲乱码熟女1区| 亚洲精品字幕| 九一成人AV无码一区二区三区| 国产极品大秀在线性色| 东京热久久综合久久88| 毛片免费在线播放| 免费观看18禁无遮挡真人网站| 草莓视频成人| 成人女同av免费观看| 日本边添边摸边做边爱|