亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        大學(xué)英語配對(duì)口語測(cè)試中評(píng)分員傾向?qū)υu(píng)分行為的影響

        2012-05-08 09:10:05史天化
        大理大學(xué)學(xué)報(bào) 2012年2期
        關(guān)鍵詞:外向一致性偏差

        史天化

        (福建工程學(xué)院外語系,福州 350108)

        大學(xué)英語配對(duì)口語測(cè)試中評(píng)分員傾向?qū)υu(píng)分行為的影響

        史天化

        (福建工程學(xué)院外語系,福州 350108)

        多面Rasch模型(MFRM)被運(yùn)用來分析大學(xué)英語配對(duì)口語測(cè)試中評(píng)分員傾向?qū)υu(píng)分寬嚴(yán)度和一致性的影響。采用SPSS和MFRM分析4名有經(jīng)驗(yàn)的評(píng)分員對(duì)10對(duì)考生的評(píng)價(jià)數(shù)據(jù),結(jié)果表明不同性格特征的評(píng)分員在寬嚴(yán)度方面存在差異,內(nèi)向的比外向的評(píng)分員更嚴(yán)格;而內(nèi)、外向評(píng)分員在自身一致性方面沒有明顯的差別。

        多面Rasch模型;配對(duì)口語評(píng)分;評(píng)分傾向

        在語言測(cè)試領(lǐng)域,對(duì)口語評(píng)分的研究一直是口試研究的重點(diǎn)之一。我國外語教學(xué)中很多考試也都包含口語測(cè)試部分,以檢查考生口語表達(dá)能力。其中,評(píng)分的信度如何,評(píng)分是否合理、公平等問題是語言教學(xué)和測(cè)試研究的重點(diǎn)課題之一。目前,口語研究多側(cè)重于3人以上的小組測(cè)試模式,比如Berry〔1〕,Ockey〔2〕等,很少有對(duì)雙人配對(duì)口語測(cè)試中個(gè)性因素對(duì)評(píng)分影響的研究。本研究以英語在中國高校作為一門重要公共必修課為背景,結(jié)合新建應(yīng)用型本科院校的特點(diǎn),以某工科院校非英語專業(yè)大學(xué)生為實(shí)驗(yàn)對(duì)象,對(duì)雙人配對(duì)口語測(cè)試中評(píng)分員傾向?qū)υu(píng)分影響進(jìn)行實(shí)證研究。

        一、相關(guān)研究

        在過去二十多年里,國外諸多學(xué)者專家們,如Iwashita〔3〕,Orr〔4〕,Lyn May〔5〕,等等,就不同配對(duì)模式,學(xué)生外語水平,性格情感特征,學(xué)生學(xué)習(xí)風(fēng)格偏好與學(xué)生性別,專業(yè)及母語類型等因素對(duì)口語產(chǎn)出產(chǎn)生的影響進(jìn)行了一系列的研究。相比國外,國內(nèi)在外語教學(xué)中的口語測(cè)試和口語測(cè)試領(lǐng)域的研究都要晚得多。目前影響最廣的大學(xué)英語四、六級(jí)考試和高校英語專業(yè)四、八級(jí)考試長(zhǎng)久以來并不包含口語測(cè)試部分,直至1994年英語專業(yè)四級(jí)考試才開始進(jìn)行錄音口試試點(diǎn)(文秋芳〔6〕),1999年大學(xué)英語四、六級(jí)考試才開始有條件的口語測(cè)試(考生筆試成績(jī)達(dá)到一定分?jǐn)?shù)才有資格參加)。而在口語測(cè)試領(lǐng)域,研究課題主要來自國外研究的啟發(fā)和國內(nèi)口語測(cè)試的實(shí)踐,包括測(cè)試形式(盛越,管博〔7〕),口試真實(shí)性(鄒申〔8〕)以及大學(xué)英語口試(熊敦禮等〔9〕)和英語專業(yè)四級(jí)考試(文秋芳)的效度等。

        二、研究問題

        口語評(píng)分屬主觀性評(píng)分,往往通過讓考生完成一項(xiàng)指定任務(wù),展示其在問題解決中的推理、判斷和表達(dá)等方面的技能,然后評(píng)分員依據(jù)既定的標(biāo)準(zhǔn)對(duì)考生的表現(xiàn)進(jìn)行綜合評(píng)定。其中,評(píng)分者的個(gè)人特征,如知識(shí)背景、經(jīng)驗(yàn)閱歷、情緒高低、疲勞程度以及性格特征等都會(huì)對(duì)評(píng)分的信度、效度產(chǎn)生影響。這就是測(cè)試中所謂的評(píng)分者偏差。Skehan〔10〕提出,在配對(duì)口語中,口語評(píng)分是多重因素互相影響的結(jié)果,這些因素包括考生之間、任務(wù)特點(diǎn)、評(píng)分標(biāo)準(zhǔn)以及評(píng)分員等。如圖1所示,examiners(評(píng)分員)和task characteristics(任務(wù)特點(diǎn))會(huì)影響到受試的performance(表現(xiàn)),而評(píng)分員又按照評(píng)分標(biāo)準(zhǔn)進(jìn)行評(píng)分,最終得出考生的口語成績(jī)。雖然圖型很簡(jiǎn)單,但是在實(shí)際操作過程中卻很復(fù)雜。

        依據(jù)Skehan的口語評(píng)分模型,本研究要探討的研究問題是:①內(nèi)、外向評(píng)分員在配對(duì)口語測(cè)試的評(píng)分過程中評(píng)分寬嚴(yán)度是否有差異?②內(nèi)、外向評(píng)分員能否保持自身一致性?

        圖1 Skehan口語評(píng)分?jǐn)U展模型

        三、研究設(shè)計(jì)

        (一)實(shí)驗(yàn)對(duì)象

        共有20名學(xué)生參加該實(shí)驗(yàn),年齡為19~21歲,系福建某學(xué)院一年級(jí)學(xué)生,從3個(gè)工科專業(yè)中隨機(jī)挑選出來。考生任務(wù)設(shè)計(jì)按照學(xué)院期末口語考試模式。首先,考生2人1組,共10組,接著從12個(gè)備選題目中抽取試題,準(zhǔn)備3分鐘,然后要求考生依據(jù)題目要求在3~5分鐘時(shí)間內(nèi)完成口語對(duì)話??忌目谡Z產(chǎn)出全部通過計(jì)算機(jī)口語考試系統(tǒng)自動(dòng)錄音。20名考生的音頻文件全部轉(zhuǎn)寫為文本文件。

        (二)評(píng)分

        評(píng)分員是4位具有副教授職稱,有口語評(píng)分經(jīng)驗(yàn)的大學(xué)英語專業(yè)教師。其中性格偏內(nèi)向和外向各2人,其內(nèi)、外向人格傾向和特征事先經(jīng)“艾森克人格問卷量表”檢測(cè)。評(píng)分員依據(jù)語言準(zhǔn)確性和范圍,話語的長(zhǎng)度和連貫性,語言靈活性和適切性以及兩人的交互等5個(gè)方面對(duì)20名考生進(jìn)行評(píng)分。

        四、結(jié)果和討論

        本實(shí)驗(yàn)采用SPSS和Rasch模型(Linacre〔11〕)對(duì)數(shù)據(jù)進(jìn)行分析。Rasch模型可以看作是包含考生能力和項(xiàng)目難度層面的雙層模型。該模型是丹麥數(shù)學(xué)家Rasch提出的,以其統(tǒng)計(jì)上的優(yōu)點(diǎn)和參數(shù)估計(jì)的便利性而著稱。多面Rasch模型可以獨(dú)立估計(jì)評(píng)分者寬嚴(yán)程度、考生能力和項(xiàng)目難度等,校正主觀評(píng)分中各因素對(duì)評(píng)分結(jié)果的影響,提高評(píng)分結(jié)果的信度。以上因素在模型中都被設(shè)定為獨(dú)立的參數(shù),以logits(洛基量尺)作為單位。本研究采用此模型,分析在配對(duì)口語測(cè)試中評(píng)分員性格特征對(duì)評(píng)分寬嚴(yán)度和一致性產(chǎn)生的影響及評(píng)估員的評(píng)分偏差問題。

        (一)評(píng)分者的寬嚴(yán)度與一致性

        根據(jù)表1,第三列為評(píng)分寬嚴(yán)度(使用洛基量尺),大多數(shù)學(xué)者認(rèn)為評(píng)分嚴(yán)格度在-2~+2之間是可接受的范圍。

        表1 評(píng)分者寬嚴(yán)度Facets估計(jì)

        表1顯示,4位評(píng)分員的評(píng)分嚴(yán)格度都在可接受范圍。其中評(píng)分者D的logit值為-0.39,是最寬松的評(píng)分者,評(píng)分者B的logit值為0.88,是最嚴(yán)格的評(píng)分者。評(píng)分者B和D之間的差異為1.27個(gè)logits。第五列為內(nèi)適合度均方,反映評(píng)分員評(píng)分行為自身一致性的信息。通常Rasch模型容許評(píng)分者的一致性在一定范圍內(nèi)波動(dòng),但是某個(gè)評(píng)分者如果波動(dòng)的幅度過大,則說明該評(píng)分者評(píng)分穩(wěn)定性差,缺乏一致性。通常專家們認(rèn)為在0.8~1.2之間是可接受的(Davies〔12〕等)。Fit(適合度)值小于0.8或者大于1.2都表示該評(píng)分者在評(píng)分過程中沒有能夠正確地使用評(píng)分標(biāo)準(zhǔn),缺乏自身一致性。從表1中看出,評(píng)分員A的Fit值小于0.8,則表明該評(píng)分員在評(píng)分過程中小于模型預(yù)期的變化幅度。也就是說該評(píng)分者在評(píng)分過程中使用了安全策略,自身表現(xiàn)出過度的一致性,未能對(duì)考生作出很好的區(qū)別和區(qū)分;而評(píng)分員C的Fit值為1.44,說明該評(píng)分員評(píng)分的變異性大于模型預(yù)期的變異程度。表明該評(píng)分員在評(píng)分過程中變異過大,自身缺乏一致性。因此,評(píng)分員A和C都缺乏自身一致性;而評(píng)分員B和D的Fit值處在0.8~1.2之間,其自身一致性較好。第六列為標(biāo)準(zhǔn)差(Standard Error),是評(píng)分者寬嚴(yán)度估計(jì)值的標(biāo)準(zhǔn)差,0.10表明了該估計(jì)值的精確程度。

        (二)評(píng)分偏差

        表2列出了4位評(píng)分者的評(píng)分與考生實(shí)際口語能力之間的偏差。由于篇幅所限,在此只列出前五位和最后五位。

        表2 偏差分析

        表2中第三列為模型對(duì)考生能力的預(yù)估,第四列是考生的所得分?jǐn)?shù),第五列是模型經(jīng)過分析后得出的考生應(yīng)得的分?jǐn)?shù),第六列為均值,第七列是偏差值,第八列是誤差,最后一列是顯示偏差度的Z分?jǐn)?shù)。偏差度的可接受范圍是-2~+2,大于+2表示該評(píng)分員評(píng)分時(shí)過于嚴(yán)格,比如評(píng)分員A在評(píng)價(jià)五號(hào)受試時(shí),偏差度的Z分?jǐn)?shù)為2.07,表明該評(píng)分偏差較大,屬無效評(píng)分。除此以外,其他的評(píng)分都是在統(tǒng)計(jì)上有意義的分?jǐn)?shù)。從表2中可以看出,前五位考生的期望值均大于觀察值,說明這5位考生的實(shí)際能力均高于他們的實(shí)際得分,即評(píng)分員評(píng)分過于嚴(yán)格。而后五位的期望值均低于觀察值,評(píng)分員過于寬松。以19號(hào)考生為例,模型對(duì)該考生的能力評(píng)估為0.32,而實(shí)際分?jǐn)?shù)為3分,這一分?jǐn)?shù)比模型對(duì)該考生預(yù)期的分?jǐn)?shù)2.7高,這表明評(píng)分員D在評(píng)分時(shí)有些寬松,存在偏差。

        總之,評(píng)分員的性格特征會(huì)對(duì)評(píng)分過程產(chǎn)生影響,通常內(nèi)向的比外向的評(píng)分員更嚴(yán)格,而在評(píng)分一致性上,內(nèi)、外向的評(píng)分員并沒有表現(xiàn)出明顯的差別。

        五、結(jié)語

        本研究在配對(duì)口語評(píng)分中引入多面Rasch模型,分析了內(nèi)向和外向評(píng)分員在評(píng)分過程中的評(píng)分偏差、寬嚴(yán)度及一致性問題,為以后口語測(cè)試中評(píng)分員的培訓(xùn)提供借鑒和依據(jù),進(jìn)而為傾向于犯不同類型的評(píng)分者偏差的評(píng)分員提供有針對(duì)性的培訓(xùn)和反饋。不過這個(gè)問題還需要從評(píng)分員評(píng)分過程中的認(rèn)知方面作進(jìn)一步探討,詳細(xì)地了解評(píng)分員在口語評(píng)分過程中關(guān)注的那些具體評(píng)分標(biāo)準(zhǔn)以及一些非評(píng)分標(biāo)準(zhǔn)相關(guān)的信息。因此,以后研究中可以采用有聲思維等方法從信息處理的方面繼續(xù)深入研究。

        〔1〕Berry V.A study of the interaction between individual personality differences and oral performance test facets〔J〕. Unpublished doctoral dissertation,2004(1):25.

        〔2〕Ockey G J.Is the oral interview superior to the group oral?〔J〕Working Papers on Language Acquisition and Education,2009,17:165-167.

        〔3〕Iwashita N.The validity of the paired interview in oral performance assessment〔J〕.Melbourne Papers in Language Testing,1998(5):51-65.

        〔4〕Orr M.The FCE Speaking test:using rater reports to help interpret test scores〔J〕.System,2002(30):143-154.

        〔5〕May L.Assessment of oral proficiency in EAP programs:A case forpairinteraction〔J〕.Language and Communication Review,2009(9):13-19.

        〔6〕文秋芳.英語口語測(cè)試與教學(xué)〔M〕.上海:上海外語教育出版社,2000.

        〔7〕盛越,管博.配對(duì)形式在口語考試中的作用:從劍橋第一證書口試看配對(duì)形式的作用〔J〕.蘭州鐵道學(xué)院學(xué)報(bào):社會(huì)科學(xué)版,2000,19(5):130-131.

        〔8〕鄒申.試論口語測(cè)試的真實(shí)性〔J〕.外語界,2001(3):74-78.

        〔9〕熊敦禮,陳玉紅,劉澤華,等.大學(xué)英語大規(guī)模錄音口語測(cè)試研究〔J〕.外語教學(xué)與研究,2002,34(4):283-287.

        〔10〕Skehan P.A cognitive approach to language learning〔M〕.Oxford:Oxford University Press,1998:172.

        〔11〕Linacre J M.A User's Guide to FACETS:Rasch-Model Computer Program〔M〕.Chicago:MESA Press,2005:59-61.

        〔12〕Davies.Dictionary of Language Testing〔M〕.Cambridge:Cambridge University Press,1999.

        (責(zé)任編輯 黨紅梅)

        Influence of Rater Orientation on Rating in Paired Oral Test

        SHI Tianhua
        (Department of Foreign Languages,Fujian University of Technology,Fuzhou 350108,China)

        Many-Facet Rasch Model(MFRM)was adopted to investigate whether rater personality types had observable effect on the severity and internal self-consistency of rating.Four experienced raters and 10 paired candidates were selected and evaluation data were analyzed by SPSS and MFRM.The results showed that raters with different personality types had rated differently: introverted raters were more severe than extroverted ones;and in terms of the self-consistency in rating,there were no significant difference between them.

        Many-Facet Rasch Model;paired oral scoring;rating bias

        G642.475

        A

        1672-2345(2012)02-0040-04

        2010年福建工程學(xué)院教育科學(xué)規(guī)劃課題(GB-K-10-18)

        2011-12-10

        史天化,講師,主要從事語言測(cè)試和二語習(xí)得研究.

        猜你喜歡
        外向一致性偏差
        為什么你的朋友更外向
        關(guān)注減污降碳協(xié)同的一致性和整體性
        公民與法治(2022年5期)2022-07-29 00:47:28
        注重教、學(xué)、評(píng)一致性 提高一輪復(fù)習(xí)效率
        IOl-master 700和Pentacam測(cè)量Kappa角一致性分析
        如何走出文章立意偏差的誤區(qū)
        兩矩形上的全偏差
        你的性格是內(nèi)向還是外向
        What Statistics Show about Study Abroad Students
        關(guān)于均數(shù)與偏差
        基于事件觸發(fā)的多智能體輸入飽和一致性控制
        玖玖资源站亚洲最大的网站| 国产成人精品日本亚洲专区6| 欧美xxxxx精品| 麻豆成人久久精品一区| 国产av久久久久精东av| 成人av在线久色播放| 欧美亅性猛交内射| 国内揄拍国内精品少妇| 六月婷婷久香在线视频| 午夜高清福利| 亚洲AⅤ樱花无码| 亚洲长腿丝袜中文字幕| 亚洲久悠悠色悠在线播放| 成年免费a级毛片免费看| 中文字幕有码无码av| 国产午夜亚洲精品一级在线| 国产精品久久国产精品久久| 亚洲成人av在线第一页| 国产成本人片无码免费2020| 无码国产精品一区二区免费97| 中文字幕午夜AV福利片| 中国亚洲av第一精品| 女人18片毛片60分钟| 中文字幕av无码一区二区三区| 中文字幕无码免费久久99| 亚洲精品国产主播一区二区 | 偷看农村妇女牲交| 青青青国产精品一区二区| 伊人精品无码AV一区二区三区| 99热高清亚洲无码| 熟妇人妻精品一区二区视频免费的| 精品亚洲成a人无码成a在线观看| 一本一道久久综合狠狠老| 国产在视频线精品视频www666| 国产精品三级自产拍av| 亚洲精品国产一二三区| 亚洲高潮喷水无码av电影| 亚洲日本无码一区二区在线观看| 日韩亚洲国产中文字幕| 免费无码又爽又高潮视频| 97久久久久人妻精品专区|