亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

大學(xué)英語配對(duì)口語測(cè)試中評(píng)分員傾向?qū)υu(píng)分行為的影響

2012-05-08 09:10:05史天化

大理大學(xué)學(xué)報(bào) 2012年2期

關(guān)鍵詞：外向一致性偏差

史天化

（福建工程學(xué)院外語系，福州 350108）

大學(xué)英語配對(duì)口語測(cè)試中評(píng)分員傾向?qū)υu(píng)分行為的影響

史天化

（福建工程學(xué)院外語系，福州 350108）

多面Rasch模型（MFRM）被運(yùn)用來分析大學(xué)英語配對(duì)口語測(cè)試中評(píng)分員傾向?qū)υu(píng)分寬嚴(yán)度和一致性的影響。采用SPSS和MFRM分析4名有經(jīng)驗(yàn)的評(píng)分員對(duì)10對(duì)考生的評(píng)價(jià)數(shù)據(jù)，結(jié)果表明不同性格特征的評(píng)分員在寬嚴(yán)度方面存在差異，內(nèi)向的比外向的評(píng)分員更嚴(yán)格；而內(nèi)、外向評(píng)分員在自身一致性方面沒有明顯的差別。

多面Rasch模型；配對(duì)口語評(píng)分；評(píng)分傾向

在語言測(cè)試領(lǐng)域，對(duì)口語評(píng)分的研究一直是口試研究的重點(diǎn)之一。我國外語教學(xué)中很多考試也都包含口語測(cè)試部分，以檢查考生口語表達(dá)能力。其中，評(píng)分的信度如何，評(píng)分是否合理、公平等問題是語言教學(xué)和測(cè)試研究的重點(diǎn)課題之一。目前，口語研究多側(cè)重于3人以上的小組測(cè)試模式，比如Berry〔1〕，Ockey〔2〕等，很少有對(duì)雙人配對(duì)口語測(cè)試中個(gè)性因素對(duì)評(píng)分影響的研究。本研究以英語在中國高校作為一門重要公共必修課為背景，結(jié)合新建應(yīng)用型本科院校的特點(diǎn)，以某工科院校非英語專業(yè)大學(xué)生為實(shí)驗(yàn)對(duì)象，對(duì)雙人配對(duì)口語測(cè)試中評(píng)分員傾向?qū)υu(píng)分影響進(jìn)行實(shí)證研究。

一、相關(guān)研究

在過去二十多年里，國外諸多學(xué)者專家們，如Iwashita〔3〕，Orr〔4〕，Lyn May〔5〕，等等，就不同配對(duì)模式，學(xué)生外語水平，性格情感特征，學(xué)生學(xué)習(xí)風(fēng)格偏好與學(xué)生性別，專業(yè)及母語類型等因素對(duì)口語產(chǎn)出產(chǎn)生的影響進(jìn)行了一系列的研究。相比國外，國內(nèi)在外語教學(xué)中的口語測(cè)試和口語測(cè)試領(lǐng)域的研究都要晚得多。目前影響最廣的大學(xué)英語四、六級(jí)考試和高校英語專業(yè)四、八級(jí)考試長(zhǎng)久以來并不包含口語測(cè)試部分，直至1994年英語專業(yè)四級(jí)考試才開始進(jìn)行錄音口試試點(diǎn)（文秋芳〔6〕），1999年大學(xué)英語四、六級(jí)考試才開始有條件的口語測(cè)試（考生筆試成績(jī)達(dá)到一定分?jǐn)?shù)才有資格參加）。而在口語測(cè)試領(lǐng)域，研究課題主要來自國外研究的啟發(fā)和國內(nèi)口語測(cè)試的實(shí)踐，包括測(cè)試形式（盛越，管博〔7〕），口試真實(shí)性（鄒申〔8〕）以及大學(xué)英語口試（熊敦禮等〔9〕）和英語專業(yè)四級(jí)考試（文秋芳）的效度等。

二、研究問題

口語評(píng)分屬主觀性評(píng)分，往往通過讓考生完成一項(xiàng)指定任務(wù)，展示其在問題解決中的推理、判斷和表達(dá)等方面的技能，然后評(píng)分員依據(jù)既定的標(biāo)準(zhǔn)對(duì)考生的表現(xiàn)進(jìn)行綜合評(píng)定。其中，評(píng)分者的個(gè)人特征，如知識(shí)背景、經(jīng)驗(yàn)閱歷、情緒高低、疲勞程度以及性格特征等都會(huì)對(duì)評(píng)分的信度、效度產(chǎn)生影響。這就是測(cè)試中所謂的評(píng)分者偏差。Skehan〔10〕提出，在配對(duì)口語中，口語評(píng)分是多重因素互相影響的結(jié)果，這些因素包括考生之間、任務(wù)特點(diǎn)、評(píng)分標(biāo)準(zhǔn)以及評(píng)分員等。如圖1所示，examiners（評(píng)分員）和task characteristics（任務(wù)特點(diǎn)）會(huì)影響到受試的performance（表現(xiàn)），而評(píng)分員又按照評(píng)分標(biāo)準(zhǔn)進(jìn)行評(píng)分，最終得出考生的口語成績(jī)。雖然圖型很簡(jiǎn)單，但是在實(shí)際操作過程中卻很復(fù)雜。

依據(jù)Skehan的口語評(píng)分模型，本研究要探討的研究問題是：①內(nèi)、外向評(píng)分員在配對(duì)口語測(cè)試的評(píng)分過程中評(píng)分寬嚴(yán)度是否有差異？②內(nèi)、外向評(píng)分員能否保持自身一致性？

圖1 Skehan口語評(píng)分?jǐn)U展模型

三、研究設(shè)計(jì)

（一）實(shí)驗(yàn)對(duì)象

共有20名學(xué)生參加該實(shí)驗(yàn)，年齡為19～21歲，系福建某學(xué)院一年級(jí)學(xué)生，從3個(gè)工科專業(yè)中隨機(jī)挑選出來。考生任務(wù)設(shè)計(jì)按照學(xué)院期末口語考試模式。首先，考生2人1組，共10組，接著從12個(gè)備選題目中抽取試題，準(zhǔn)備3分鐘，然后要求考生依據(jù)題目要求在3～5分鐘時(shí)間內(nèi)完成口語對(duì)話?？忌目谡Z產(chǎn)出全部通過計(jì)算機(jī)口語考試系統(tǒng)自動(dòng)錄音。20名考生的音頻文件全部轉(zhuǎn)寫為文本文件。

（二）評(píng)分

評(píng)分員是4位具有副教授職稱，有口語評(píng)分經(jīng)驗(yàn)的大學(xué)英語專業(yè)教師。其中性格偏內(nèi)向和外向各2人，其內(nèi)、外向人格傾向和特征事先經(jīng)“艾森克人格問卷量表”檢測(cè)。評(píng)分員依據(jù)語言準(zhǔn)確性和范圍，話語的長(zhǎng)度和連貫性，語言靈活性和適切性以及兩人的交互等5個(gè)方面對(duì)20名考生進(jìn)行評(píng)分。

四、結(jié)果和討論

本實(shí)驗(yàn)采用SPSS和Rasch模型（Linacre〔11〕）對(duì)數(shù)據(jù)進(jìn)行分析。Rasch模型可以看作是包含考生能力和項(xiàng)目難度層面的雙層模型。該模型是丹麥數(shù)學(xué)家Rasch提出的，以其統(tǒng)計(jì)上的優(yōu)點(diǎn)和參數(shù)估計(jì)的便利性而著稱。多面Rasch模型可以獨(dú)立估計(jì)評(píng)分者寬嚴(yán)程度、考生能力和項(xiàng)目難度等，校正主觀評(píng)分中各因素對(duì)評(píng)分結(jié)果的影響，提高評(píng)分結(jié)果的信度。以上因素在模型中都被設(shè)定為獨(dú)立的參數(shù)，以logits（洛基量尺）作為單位。本研究采用此模型，分析在配對(duì)口語測(cè)試中評(píng)分員性格特征對(duì)評(píng)分寬嚴(yán)度和一致性產(chǎn)生的影響及評(píng)估員的評(píng)分偏差問題。

（一）評(píng)分者的寬嚴(yán)度與一致性

根據(jù)表1，第三列為評(píng)分寬嚴(yán)度（使用洛基量尺），大多數(shù)學(xué)者認(rèn)為評(píng)分嚴(yán)格度在-2～+2之間是可接受的范圍。

表1 評(píng)分者寬嚴(yán)度Facets估計(jì)

表1顯示，4位評(píng)分員的評(píng)分嚴(yán)格度都在可接受范圍。其中評(píng)分者D的logit值為-0.39，是最寬松的評(píng)分者，評(píng)分者B的logit值為0.88，是最嚴(yán)格的評(píng)分者。評(píng)分者B和D之間的差異為1.27個(gè)logits。第五列為內(nèi)適合度均方，反映評(píng)分員評(píng)分行為自身一致性的信息。通常Rasch模型容許評(píng)分者的一致性在一定范圍內(nèi)波動(dòng)，但是某個(gè)評(píng)分者如果波動(dòng)的幅度過大，則說明該評(píng)分者評(píng)分穩(wěn)定性差，缺乏一致性。通常專家們認(rèn)為在0.8～1.2之間是可接受的（Davies〔12〕等）。Fit（適合度）值小于0.8或者大于1.2都表示該評(píng)分者在評(píng)分過程中沒有能夠正確地使用評(píng)分標(biāo)準(zhǔn)，缺乏自身一致性。從表1中看出，評(píng)分員A的Fit值小于0.8，則表明該評(píng)分員在評(píng)分過程中小于模型預(yù)期的變化幅度。也就是說該評(píng)分者在評(píng)分過程中使用了安全策略，自身表現(xiàn)出過度的一致性，未能對(duì)考生作出很好的區(qū)別和區(qū)分；而評(píng)分員C的Fit值為1.44，說明該評(píng)分員評(píng)分的變異性大于模型預(yù)期的變異程度。表明該評(píng)分員在評(píng)分過程中變異過大，自身缺乏一致性。因此，評(píng)分員A和C都缺乏自身一致性；而評(píng)分員B和D的Fit值處在0.8～1.2之間，其自身一致性較好。第六列為標(biāo)準(zhǔn)差（Standard Error），是評(píng)分者寬嚴(yán)度估計(jì)值的標(biāo)準(zhǔn)差，0.10表明了該估計(jì)值的精確程度。

（二）評(píng)分偏差

表2列出了4位評(píng)分者的評(píng)分與考生實(shí)際口語能力之間的偏差。由于篇幅所限，在此只列出前五位和最后五位。

表2 偏差分析

表2中第三列為模型對(duì)考生能力的預(yù)估，第四列是考生的所得分?jǐn)?shù)，第五列是模型經(jīng)過分析后得出的考生應(yīng)得的分?jǐn)?shù)，第六列為均值，第七列是偏差值，第八列是誤差，最后一列是顯示偏差度的Z分?jǐn)?shù)。偏差度的可接受范圍是-2～+2，大于+2表示該評(píng)分員評(píng)分時(shí)過于嚴(yán)格，比如評(píng)分員A在評(píng)價(jià)五號(hào)受試時(shí)，偏差度的Z分?jǐn)?shù)為2.07，表明該評(píng)分偏差較大，屬無效評(píng)分。除此以外，其他的評(píng)分都是在統(tǒng)計(jì)上有意義的分?jǐn)?shù)。從表2中可以看出，前五位考生的期望值均大于觀察值，說明這5位考生的實(shí)際能力均高于他們的實(shí)際得分，即評(píng)分員評(píng)分過于嚴(yán)格。而后五位的期望值均低于觀察值，評(píng)分員過于寬松。以19號(hào)考生為例，模型對(duì)該考生的能力評(píng)估為0.32，而實(shí)際分?jǐn)?shù)為3分，這一分?jǐn)?shù)比模型對(duì)該考生預(yù)期的分?jǐn)?shù)2.7高，這表明評(píng)分員D在評(píng)分時(shí)有些寬松，存在偏差。

總之，評(píng)分員的性格特征會(huì)對(duì)評(píng)分過程產(chǎn)生影響，通常內(nèi)向的比外向的評(píng)分員更嚴(yán)格，而在評(píng)分一致性上，內(nèi)、外向的評(píng)分員并沒有表現(xiàn)出明顯的差別。

五、結(jié)語

本研究在配對(duì)口語評(píng)分中引入多面Rasch模型，分析了內(nèi)向和外向評(píng)分員在評(píng)分過程中的評(píng)分偏差、寬嚴(yán)度及一致性問題，為以后口語測(cè)試中評(píng)分員的培訓(xùn)提供借鑒和依據(jù)，進(jìn)而為傾向于犯不同類型的評(píng)分者偏差的評(píng)分員提供有針對(duì)性的培訓(xùn)和反饋。不過這個(gè)問題還需要從評(píng)分員評(píng)分過程中的認(rèn)知方面作進(jìn)一步探討，詳細(xì)地了解評(píng)分員在口語評(píng)分過程中關(guān)注的那些具體評(píng)分標(biāo)準(zhǔn)以及一些非評(píng)分標(biāo)準(zhǔn)相關(guān)的信息。因此，以后研究中可以采用有聲思維等方法從信息處理的方面繼續(xù)深入研究。

〔1〕Berry V.A study of the interaction between individual personality differences and oral performance test facets〔J〕. Unpublished doctoral dissertation，2004（1）：25.

〔2〕Ockey G J.Is the oral interview superior to the group oral?〔J〕Working Papers on Language Acquisition and Education，2009，17：165-167.

〔3〕Iwashita N.The validity of the paired interview in oral performance assessment〔J〕.Melbourne Papers in Language Testing，1998（5）：51-65.

〔4〕Orr M.The FCE Speaking test：using rater reports to help interpret test scores〔J〕.System，2002（30）：143-154.

〔5〕May L.Assessment of oral proficiency in EAP programs：A case forpairinteraction〔J〕.Language and Communication Review，2009（9）：13-19.

〔6〕文秋芳.英語口語測(cè)試與教學(xué)〔M〕.上海：上海外語教育出版社，2000.

〔7〕盛越，管博.配對(duì)形式在口語考試中的作用：從劍橋第一證書口試看配對(duì)形式的作用〔J〕.蘭州鐵道學(xué)院學(xué)報(bào)：社會(huì)科學(xué)版，2000，19（5）：130-131.

〔8〕鄒申.試論口語測(cè)試的真實(shí)性〔J〕.外語界，2001（3）：74-78.

〔9〕熊敦禮，陳玉紅，劉澤華，等.大學(xué)英語大規(guī)模錄音口語測(cè)試研究〔J〕.外語教學(xué)與研究，2002，34（4）：283-287.

〔10〕Skehan P.A cognitive approach to language learning〔M〕.Oxford：Oxford University Press，1998：172.

〔11〕Linacre J M.A User's Guide to FACETS：Rasch-Model Computer Program〔M〕.Chicago：MESA Press，2005：59-61.

〔12〕Davies.Dictionary of Language Testing〔M〕.Cambridge：Cambridge University Press，1999.

（責(zé)任編輯黨紅梅）

Influence of Rater Orientation on Rating in Paired Oral Test

SHI Tianhua
（Department of Foreign Languages,Fujian University of Technology,Fuzhou 350108,China）

Many-Facet Rasch Model（MFRM）was adopted to investigate whether rater personality types had observable effect on the severity and internal self-consistency of rating.Four experienced raters and 10 paired candidates were selected and evaluation data were analyzed by SPSS and MFRM.The results showed that raters with different personality types had rated differently: introverted raters were more severe than extroverted ones;and in terms of the self-consistency in rating,there were no significant difference between them.

Many-Facet Rasch Model;paired oral scoring;rating bias

G642.475

1672-2345（2012）02-0040-04

2010年福建工程學(xué)院教育科學(xué)規(guī)劃課題（GB-K-10-18）

2011-12-10

史天化，講師，主要從事語言測(cè)試和二語習(xí)得研究.

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

大學(xué)英語配對(duì)口語測(cè)試中評(píng)分員傾向?qū)υu(píng)分行為的影響

一、相關(guān)研究

二、研究問題

三、研究設(shè)計(jì)

四、結(jié)果和討論

五、結(jié)語

二、研究問題

三、研究設(shè)計(jì)

四、結(jié)果和討論

五、結(jié)語