亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        來(lái)華留學(xué)預(yù)科漢語(yǔ)考試作文評(píng)分研究
        ——基于概化理論和多面Rasch模型

        2022-07-14 07:16:40孔傅鈺
        考試研究 2022年4期
        關(guān)鍵詞:作文能力模型

        孔傅鈺

        一、引言

        中國(guó)政府獎(jiǎng)學(xué)金本科來(lái)華留學(xué)生預(yù)科教育結(jié)業(yè)漢語(yǔ)綜合統(tǒng)一考試(以下簡(jiǎn)稱漢語(yǔ)預(yù)科考試),旨在評(píng)價(jià)來(lái)華留學(xué)生在接受了一學(xué)年預(yù)科教育后,其漢語(yǔ)水平是否達(dá)到了進(jìn)入我國(guó)本科專業(yè)學(xué)習(xí)的要求。不同于一般的語(yǔ)言水平考試,預(yù)科考試既要測(cè)量學(xué)生的日常語(yǔ)言交際能力,又要考查其學(xué)習(xí)本科專業(yè)知識(shí)時(shí)的漢語(yǔ)運(yùn)用能力[1]。其中,作文是重要的組成部分,其目的是考查學(xué)生書面敘述一件事情或簡(jiǎn)單說(shuō)明一個(gè)問(wèn)題的能力,而對(duì)考生寫作能力的判斷則以評(píng)分員評(píng)判的分?jǐn)?shù)為基礎(chǔ),因此,作文評(píng)分質(zhì)量問(wèn)題一直備受關(guān)注。一般來(lái)說(shuō),在整體評(píng)分中,評(píng)分員數(shù)量越多,越有可能減少因個(gè)體認(rèn)知差異而產(chǎn)生的評(píng)分偏差。然而,受人力和經(jīng)濟(jì)等條件的限制,實(shí)際操作時(shí)需要在評(píng)分員數(shù)量和評(píng)分信度之間尋找平衡。早期的研究多在經(jīng)典測(cè)量理論(Classical Test Theory,CTT)的框架下進(jìn)行,主要聚焦評(píng)分的一致性,然而CTT依賴具體測(cè)試樣本且無(wú)法解釋評(píng)分者數(shù)量、試題形式等因素帶來(lái)的誤差。概化理論(Generalizability Theory,GT)和多面Rasch 模型(Many-Facet Rasch Model,MFRM)則在一定程度上能夠?qū)@些誤差來(lái)源進(jìn)行有效評(píng)估,因而成為目前探討作文評(píng)分問(wèn)題的主要理論方法。本研究將使用這兩種方法,以5名評(píng)分員對(duì)120 份漢語(yǔ)預(yù)科考試作文實(shí)測(cè)卷的評(píng)分結(jié)果為樣本展開(kāi)信度研究。

        二、研究現(xiàn)狀

        概化理論(GT)整合了經(jīng)典測(cè)量理論與方差分析技術(shù),將隨機(jī)誤差分解為不同的來(lái)源成分納入到影響測(cè)試結(jié)果的模型中。GT 通常包含兩個(gè)研究階段:G 研究(概化研究)和D 研究(決策研究)。前者主要估計(jì)不同的測(cè)量側(cè)面及其交互作用對(duì)考試分?jǐn)?shù)的影響,后者則是對(duì)G 研究階段所得分?jǐn)?shù)的轉(zhuǎn)換與解釋。當(dāng)涉及作文評(píng)分時(shí),GT 可以從總體、宏觀的角度審視數(shù)據(jù),提供測(cè)量目標(biāo)與不同側(cè)面各自的主效應(yīng)以及交互效應(yīng)[2]。此外,相較于CTT,GT 的優(yōu)勢(shì)在于能夠識(shí)別得分方差和誤差的來(lái)源,同時(shí)估計(jì)這些方差成分對(duì)評(píng)分一致性和準(zhǔn)確性的影響[3]。

        Rasch 模型是項(xiàng)目反應(yīng)理論(IRT)的模型之一,其中考生能力和試題參數(shù)完全獨(dú)立。其不足之處在于只考慮了項(xiàng)目難度參數(shù),對(duì)多種誤差來(lái)源的解釋效果欠佳?;诖?,多面Rasch 模型(MFRM)將多個(gè)層面納入評(píng)估框架中。根據(jù)不同的考試以及研究需要,可以對(duì)MFRM 進(jìn)行拓展。拓展之后的MFRM 可將考生能力、題目難度、評(píng)分員嚴(yán)厲度、評(píng)分量表中相鄰等級(jí)的階梯難度等多個(gè)層面納入同一個(gè)數(shù)學(xué)模型,共同決定考生取得某一分值的概率大小[4]。假設(shè)考試中的寫作部分由某個(gè)特定的項(xiàng)目(如一篇作文)組成,同時(shí)考慮不同的評(píng)分員具有不同的評(píng)分嚴(yán)厲度,則MFRM方程表示為:

        在上述方程式中,Pnijk表示考生n 在項(xiàng)目i 上被評(píng)分者j評(píng)為k的概率,Pnij(k-1)表示考生n在項(xiàng)目i上被評(píng)分者j評(píng)為k-1的概率。Bn代表考生n的能力參數(shù),Di代表項(xiàng)目i 的難度參數(shù),Cj是評(píng)分者的嚴(yán)厲程度,F(xiàn)k是評(píng)分等級(jí)k相對(duì)于k-1的難度。MFRM 可以使各層面相互分離,即考生的能力值不受其他層面的影響。同時(shí),它不僅能夠判斷層面內(nèi)部的因素(如考生能力)是否具有顯著差異,還能夠檢驗(yàn)各層面是否具有交互作用,如評(píng)分員是否對(duì)某一群體的考生特別嚴(yán)格或?qū)捤伞4送?,通過(guò)擬合度統(tǒng)計(jì)參數(shù),可以發(fā)現(xiàn)異常的原始分?jǐn)?shù),也可以發(fā)現(xiàn)其他各個(gè)面上的異質(zhì)點(diǎn)[5]??傊?,MFRM 在研究寫作評(píng)分方面具有極大的優(yōu)勢(shì)。

        目前,考試寫作評(píng)分的信度及誤差評(píng)估方法主要有三種。第一,基于概化理論的評(píng)分研究。Gebril 將新型綜合寫作和傳統(tǒng)獨(dú)立式寫作進(jìn)行了對(duì)比,對(duì)測(cè)量結(jié)構(gòu)組合的搭建提出建議[6]。朱宇等人估計(jì)了試題、評(píng)分員、評(píng)卷速度效應(yīng)及其交互效應(yīng)的方差分量,考察了HSK5 級(jí)書寫成績(jī)的可靠性[7]。第二,利用多面Rasch 模型進(jìn)行評(píng)分研究。李清華等對(duì)TEM-4 寫作新分項(xiàng)式評(píng)分標(biāo)準(zhǔn)質(zhì)量進(jìn)行了檢驗(yàn)[8];張文星等則從嚴(yán)厲度、集中趨勢(shì)、隨機(jī)效應(yīng)等角度探究了TEM-4 作文評(píng)分員的評(píng)分效應(yīng)[9]。第三,考慮到概化理論和多面Rasch 模型各自的特點(diǎn)以及它們的互補(bǔ)性,越來(lái)越多的寫作評(píng)分研究將這兩種方法結(jié)合起來(lái)。李航對(duì)CET-6 實(shí)考作文的結(jié)果進(jìn)行了分析,GT 發(fā)現(xiàn)評(píng)分員層面以及包含評(píng)分員與考生之間交互作用的殘差占有一定的比重,MFRM 則發(fā)現(xiàn)評(píng)分員在嚴(yán)厲度上存在較大差異[10]。關(guān)丹丹研究了碩士入學(xué)考試能力測(cè)試的寫作評(píng)分,GT 表明評(píng)分者和題目對(duì)評(píng)分準(zhǔn)確性影響不大,MFRM 顯示評(píng)分者之間在寬嚴(yán)度上不存在顯著差異,但在特定考生特定題目上表現(xiàn)出特殊偏向[11]。徐鷹對(duì)CET-4 模擬作文的分?jǐn)?shù)進(jìn)行了分析,GT 表明考生能力是測(cè)試總變異的主要來(lái)源,MFRM 表明評(píng)分人嚴(yán)厲度差異性顯著,但自我一致性較好[12]。林椿等探究了漢語(yǔ)母語(yǔ)與英語(yǔ)母語(yǔ)評(píng)分員在寫作評(píng)分信度和評(píng)分行為上的差異,GT 和MFRM 分別證明了在趨中度方面,兩類評(píng)分員的評(píng)分質(zhì)量無(wú)差別,而在信度系數(shù)、評(píng)分員一致性、對(duì)評(píng)分量表的把握等方面,前者的評(píng)分質(zhì)量更高一些[13]。

        總的來(lái)說(shuō),上述研究已經(jīng)對(duì)影響寫作評(píng)分信度的各個(gè)方面及其交互作用進(jìn)行了一定的探索,同時(shí)意識(shí)到概化理論和多面Rasch 模型可以分別從測(cè)量組別和個(gè)體層面對(duì)信度檢驗(yàn)的過(guò)程進(jìn)行說(shuō)明和互補(bǔ),后者還能夠?qū)Ω呕碚摰难芯拷Y(jié)果進(jìn)行驗(yàn)證,這在一定程度上提高了研究結(jié)果的科學(xué)性。然而,國(guó)內(nèi)的相關(guān)研究多集中于英語(yǔ)測(cè)試,對(duì)漢語(yǔ)測(cè)試的關(guān)注度不足。漢語(yǔ)預(yù)科考試對(duì)留學(xué)生而言是一項(xiàng)高利害測(cè)試,考試成績(jī)對(duì)他們是否有資格進(jìn)入中國(guó)大學(xué)進(jìn)行本科學(xué)習(xí)具有較大影響,而作文分?jǐn)?shù)①預(yù)科試卷構(gòu)成:聽(tīng)力理解45題、綜合閱讀65題、書面表達(dá)11題(寫漢字10題、看圖作文1題),共計(jì)121題。聽(tīng)力和閱讀為客觀題,每題計(jì)1 分;寫漢字每題滿分1.5 分;看圖作文滿分為15 分。試卷總分為140 分。作文分?jǐn)?shù)約占總分的11%,占書面表達(dá)的50%。也直接影響著總體得分,因此作文評(píng)分的質(zhì)量顯得十分重要。目前尚未有人綜合運(yùn)用上述兩種方法來(lái)探討預(yù)科考試作文評(píng)分情況,對(duì)其評(píng)分信度的研究顯得尤為必要。

        三、研究設(shè)計(jì)

        本研究對(duì)漢語(yǔ)預(yù)科考試作文的評(píng)分信度進(jìn)行實(shí)證研究。該部分共計(jì)1 題,題型為運(yùn)用關(guān)鍵詞,根據(jù)圖片寫作文??忌柙?5 分鐘內(nèi)完成一篇不少于60 字的作文,滿分為15 分。根據(jù)字?jǐn)?shù)、理解度和準(zhǔn)確度,每3 分形成一個(gè)檔次,共有5 個(gè)檔次。具體的評(píng)分標(biāo)準(zhǔn)見(jiàn)表1。

        在正式評(píng)分階段,每篇作文由兩位評(píng)分員進(jìn)行獨(dú)立評(píng)分,當(dāng)他們的分差不大于3 分時(shí),取其平均分;當(dāng)其分差大于3 分時(shí),則請(qǐng)第三位專家評(píng)分員獨(dú)立給出最終分?jǐn)?shù)。

        (一)研究問(wèn)題

        本研究基于概化理論和多面Rasch模型展開(kāi),研究問(wèn)題分為兩部分。在概化理論階段,主要分析以下兩個(gè)問(wèn)題:

        (1)考生面、評(píng)分員面以及兩者交互作用的殘差對(duì)測(cè)量總變異有什么影響?

        (2)增加評(píng)分人數(shù)將會(huì)在多大程度上改變?cè)u(píng)分信度?

        多面Rasch模型將回答另外兩個(gè)問(wèn)題:

        (1)評(píng)分員嚴(yán)厲度、內(nèi)在一致性以及和考生的偏差情況如何?

        (2)評(píng)分量表的表現(xiàn)如何?

        (二)研究樣本

        本研究的作文均來(lái)自2019 年6 月在17 個(gè)考點(diǎn)施測(cè)的漢語(yǔ)預(yù)科考試試卷。為確保研究效果,從實(shí)測(cè)卷中分層隨機(jī)抽取了120 份試卷用作實(shí)驗(yàn)樣本。為了讓作文分?jǐn)?shù)覆蓋所有的評(píng)分檔位,根據(jù)實(shí)測(cè)各分?jǐn)?shù)段的比例,9分以下抽取了36份,9-12分抽取了48 份,13-15 分抽取了36 份。對(duì)上述樣本的描述性統(tǒng)計(jì)分析顯示,1-15 分均有涉及,平均分為9.93,標(biāo)準(zhǔn)差為3.776。

        (三)評(píng)分員

        本研究聘請(qǐng)了5 位評(píng)分員參與實(shí)驗(yàn),他們均具有至少一次的預(yù)科作文正式評(píng)分的經(jīng)驗(yàn),其中一位為預(yù)科作文評(píng)分組長(zhǎng)。評(píng)分之前,所有評(píng)分員都接受了與正式評(píng)分階段無(wú)異的培訓(xùn),進(jìn)一步熟悉并理解評(píng)分標(biāo)準(zhǔn)。培訓(xùn)之后進(jìn)行了試評(píng),效果良好。所有評(píng)分員均在3小時(shí)內(nèi)完成了評(píng)分工作。

        (四)測(cè)量設(shè)計(jì)

        漢語(yǔ)預(yù)科考試的作文試題只有1 題,鑒于此,本研究采用概化理論最基礎(chǔ)的p*r隨機(jī)單面交叉模式。p 為考生的寫作能力,r 為評(píng)分員,共有5 個(gè)水平。在G 研究階段,主要探索考生、評(píng)分員側(cè)面、以及這兩者之間交互作用和隨機(jī)誤差的殘差的方差分量對(duì)測(cè)量總變異的影響。在D 研究階段,主要討論評(píng)分員數(shù)量與G 系數(shù)之間的關(guān)系。多面Rasch 模型研究則包含考生和評(píng)分員兩個(gè)層面,同時(shí)還將對(duì)考生和評(píng)分員層面的偏差及評(píng)分量表的表現(xiàn)進(jìn)行分析。

        (五)統(tǒng)計(jì)軟件

        本研究采用EduG(瑞士教育研究學(xué)會(huì)教育測(cè)量研究小組設(shè)計(jì),可通過(guò)https://www.irdp.ch/institut/english-program - 1968. html 免費(fèi)下載使用)和MINIFAC 軟件進(jìn)行數(shù)據(jù)處理。Facets 軟件是進(jìn)行多面Rasch 模型分析的主流軟件,由John Michael Linacre 于20 世紀(jì)90 年代研發(fā)。MINIFAC 是Facets的縮減版本,它擁有Facets 的全部功能,但處理的數(shù)據(jù)量上限為2000,可通過(guò)官方網(wǎng)站免費(fèi)下載使用(https://www.winsteps.com/minifac.htm)。

        四、研究結(jié)果

        (一)概化理論的分析結(jié)果

        概化理論的G 研究估算了考生、評(píng)分員和他們的交互作用的殘差方差分量以及占總方差的百分比,詳見(jiàn)表2。

        表2 方差分析

        考生面的方差分量所占的比例最大,為83.1%,這屬于全域分?jǐn)?shù)的方差分量,說(shuō)明得分變異的最大部分來(lái)自考生本身的漢語(yǔ)寫作能力,目標(biāo)測(cè)量的準(zhǔn)確性較高。評(píng)分員面的方差分量?jī)H占5.2%,代表評(píng)分員因素給分?jǐn)?shù)變異帶來(lái)的誤差不大,但也有可能在評(píng)分的寬嚴(yán)方面存在一定的差別。考生與評(píng)分員交互效應(yīng)的方差成分雖遠(yuǎn)遠(yuǎn)不及考生層面,但仍占11.8%,意味著評(píng)分者可能在自身一致性方面存在一定的問(wèn)題,如評(píng)分時(shí)對(duì)某些考生趨于嚴(yán)格,對(duì)某些考生又趨于寬松。

        概化理論的D 研究階段,通過(guò)對(duì)評(píng)分人數(shù)量的操控來(lái)觀察相對(duì)概化系數(shù)和絕對(duì)概化系數(shù)的變化,詳見(jiàn)表3。

        表3 評(píng)分員數(shù)量與概化系數(shù)之間的變化

        相對(duì)概化系數(shù)涉及相對(duì)誤差(測(cè)量對(duì)象與其他側(cè)面之間交互產(chǎn)生的誤差),用于常模參照的測(cè)驗(yàn),絕對(duì)概化系數(shù)則涉及絕對(duì)誤差(除了測(cè)量對(duì)象之外的所有誤差),用于標(biāo)準(zhǔn)性參照測(cè)驗(yàn)。兩者的取值范圍都在0~1 之間,由于涉及誤差的不同,絕對(duì)概化系數(shù)一般小于相對(duì)概化系數(shù)。漢語(yǔ)預(yù)科考試屬于標(biāo)準(zhǔn)性參照測(cè)驗(yàn),因此本研究參考絕對(duì)概化系數(shù)。從研究結(jié)果來(lái)看,只有1 名評(píng)分員的情況下,絕對(duì)概化系數(shù)就已經(jīng)達(dá)到了0.8306,如果兩位評(píng)分員進(jìn)行評(píng)分,則能夠達(dá)到0.90746。將評(píng)分員個(gè)數(shù)分別增加到3、4、5 個(gè)的時(shí)候,系數(shù)均不斷增大,但不及由1 名評(píng)分員增至2 名時(shí)明顯。上述結(jié)果表明,在一評(píng)條件下,評(píng)分信度已經(jīng)達(dá)到比較理想的狀態(tài),雙評(píng)的結(jié)果更好。在正式的預(yù)科作文閱卷過(guò)程中,采用的就是雙評(píng)的規(guī)則,在實(shí)際可行的條件下保證了最大化的評(píng)分信度。

        (二)多面Rasch模型的分析結(jié)果

        1. 總體分析

        有關(guān)考生、評(píng)分員和評(píng)分維度這三者的綜合信息詳見(jiàn)圖1。圖中共有4 列,左起分別為:邏輯量尺(logit,模型所使用的測(cè)試單位,平均值設(shè)為0,下文的能力數(shù)值單位均為logit)、考生的寫作能力、評(píng)分員信息、評(píng)分維度的表現(xiàn)??忌鷮懽髂芰χ档姆秶鸀?5.06 至6.42,基本呈正態(tài)分布。對(duì)考生而言,度量值越大,能力越強(qiáng)。與考生相反的是,評(píng)分員方面的數(shù)值是負(fù)向的,即度量值越大,評(píng)分員越嚴(yán)厲。5位評(píng)分員的取值范圍為-0.73至1.08,除4號(hào)評(píng)分員,其他評(píng)分員都集中在量尺0 的附近,說(shuō)明評(píng)分員們掌握評(píng)分標(biāo)準(zhǔn)的尺度基本較一致。最右列中的橫線代表相鄰兩個(gè)分值的臨界能力值,能力值大于該臨界值的容易被評(píng)為更高的分?jǐn)?shù),反之則可能被得到更低的分?jǐn)?shù)。

        圖1 評(píng)分總體信息

        2. 考生層面

        在多面Rasch模型中,測(cè)試的信度可參考個(gè)人分隔信度(person separation reliability)和個(gè)人分隔指數(shù)(person separation index),兩者的數(shù)值越大,信度則越高。一般來(lái)說(shuō),分隔指數(shù)大于2 時(shí)被認(rèn)為具有顯著差異[14]。本研究考生層面的分隔指數(shù)為6.58,分隔信度為0.98,卡方檢驗(yàn)值為6053.2(df=119,p=0.00),表明考生之間的成績(jī)存在統(tǒng)計(jì)上的顯著差異性,此次作文考試的區(qū)分度很好??忌芰Ψ植嫉目ǚ街禐?16.5(df=118,p=0.52),說(shuō)明考生的能力呈正態(tài)分布。

        在所有考生中,能力最強(qiáng)的是85 號(hào)(6.42),能力最弱的是82 號(hào)(-5.07),兩者相差了11.84。平均能力值為1.64,標(biāo)準(zhǔn)差為2.8,標(biāo)準(zhǔn)誤平均值為0.41,標(biāo)準(zhǔn)差為0.08??忌募訖?quán)均方擬合度(Infit MnSq)平均值為0.97,標(biāo)準(zhǔn)差為0.8。Infit 值通??梢宰鳛榕袛鄠€(gè)體是否擬合模型的依據(jù),一般來(lái)說(shuō),對(duì)其取值范圍沒(méi)有嚴(yán)格的規(guī)定。這里采用Myford & Wolfe 提出的判斷標(biāo)準(zhǔn),當(dāng)Infit 值>3.0 時(shí),為非擬合,即評(píng)分之間的差異顯著大于模型預(yù)測(cè)值,Infit 值<0.5 時(shí),為過(guò)度擬合(overfitting),即評(píng)分之間的差異顯著小于模型預(yù)測(cè)值[15]。據(jù)此,共有13 號(hào)(4.51)、120 號(hào)(3.91)、37 號(hào)(3.25)這3 位考生存在非擬合問(wèn)題。值得注意的是,這3 名考生都屬于評(píng)分員與考生交互存在顯著偏差的例子,說(shuō)明這些考生的分?jǐn)?shù)受到了評(píng)分員評(píng)分偏差的影響。過(guò)度擬合的考生人數(shù)則高達(dá)37名。此外,|Z|>2也被認(rèn)為是超出可接受的范圍[16]。3名非擬合考生的Z 值均大于2,為顯著非擬合;在過(guò)度擬合的37 名考生中,有4 名的Z 值小于-2,為顯著過(guò)度擬合。上述結(jié)果表明,考生分?jǐn)?shù)只存在輕微的非擬合問(wèn)題,而過(guò)度擬合的現(xiàn)象相較稍多,這意味著評(píng)分員可能一定程度上有評(píng)分趨中的傾向。

        3. 評(píng)分員層面

        評(píng)分員層面的數(shù)據(jù)詳見(jiàn)表4。從整體上看,5 位評(píng)分員的分隔指數(shù)為8.26。分隔信度為0.99,卡方檢驗(yàn)值為262.9(df=4,p=0.00),平均嚴(yán)厲度為0.00,標(biāo)準(zhǔn)差為0.67,這說(shuō)明評(píng)分員在嚴(yán)厲度方面有顯著差異。在所有的評(píng)分員中,最嚴(yán)厲的是4 號(hào)(1.09),最寬松的為1號(hào)(-0.74),二者的嚴(yán)厲度相差了1.83。

        表4 評(píng)分員層面的結(jié)果

        通過(guò)觀察加權(quán)均方擬合度,可以得出評(píng)分員自身一致性的信息。Bonk & Ockey 提出,Infit 的取值范圍在0.7~1.3 之間可以認(rèn)為評(píng)分員具有較好的自身一致性[17];Lincare 和Weigle 則認(rèn)為該范圍也可以適當(dāng)擴(kuò)大至0.6~1.4 或者0.5~1.5[18-19]??紤]到漢語(yǔ)預(yù)科考試是一項(xiàng)重要的標(biāo)準(zhǔn)化考試,故采取0.7~1.3這一更嚴(yán)格的標(biāo)準(zhǔn)。據(jù)此,3 號(hào)評(píng)分員(Infit=1.5,Z=3.2)和1 號(hào)評(píng)分員(Infit=0.56,Z=-3.7)未達(dá)標(biāo),前者自身一致性較差,后者評(píng)分差異性過(guò)小,評(píng)分具有一定的趨于中性。此外,還需要關(guān)注評(píng)分員的點(diǎn)二列相關(guān)系數(shù),若在平均值±2SD 內(nèi)則視為可接受[20]。本研究的可接受范圍是(0.91,0.99),3號(hào)評(píng)分員剛好處于最低值的臨界點(diǎn)(0.91),這意味著與其他評(píng)分員相比,該評(píng)分員評(píng)分時(shí)具有輕微的隨機(jī)性,使用某些分?jǐn)?shù)段時(shí)有不一致的情況。

        上述對(duì)評(píng)分員的分析顯示,評(píng)分員在嚴(yán)厲度方面有顯著差異,有個(gè)別評(píng)分員在自身一致性方面存在問(wèn)題,有一定的隨機(jī)性,還有個(gè)別評(píng)分員存在評(píng)分趨中的問(wèn)題。需要關(guān)注的是,上文在概化理論的G研究階段發(fā)現(xiàn)評(píng)分員的方差分量占有少量比例(5.2%),但Rasch 模型的研究結(jié)果表明,不存在非擬合和過(guò)度擬合狀態(tài)的評(píng)分員(Infit 均在0.5 至3.0 之間),換言之,評(píng)分員層面的嚴(yán)厲度差異不會(huì)對(duì)測(cè)試分?jǐn)?shù)產(chǎn)生整體影響[21]。

        4. 評(píng)分量表的使用情況

        多面Rasch模型能對(duì)評(píng)分量表進(jìn)行有效的分析,如檢驗(yàn)各評(píng)分員是否使用了評(píng)分標(biāo)準(zhǔn)的所有分值,各分值是否能體現(xiàn)相應(yīng)的能力以及是否具有足夠的區(qū)分度[17]。漢語(yǔ)預(yù)科作文評(píng)分量表0-15分的使用情況詳見(jiàn)表5。

        表5 評(píng)分量表的使用結(jié)果

        第一,計(jì)數(shù)和百分比顯示了各分?jǐn)?shù)的使用頻率,每個(gè)分值均有涉及,7-14各分?jǐn)?shù)的使用頻率相當(dāng),在10%左右,總體不存在對(duì)某一分?jǐn)?shù)過(guò)度使用的情況。第二,實(shí)際得分平均度量值(Avge Meas)從低到高依次遞增(-4.55至5.44),與Linacre 提出的評(píng)分標(biāo)準(zhǔn)質(zhì)量的基本要求相符[22],這也表明了評(píng)分員整體上能夠較準(zhǔn)確地使用各分?jǐn)?shù)來(lái)區(qū)分不同能力的考生。第三,未加權(quán)均方擬合度(Outfit MnSq)也是分值使用情況的檢驗(yàn)指標(biāo)。若該值>2.0,則表明得到該分值的考生其預(yù)測(cè)分?jǐn)?shù)和實(shí)際分?jǐn)?shù)之間有較大差距,即該分?jǐn)?shù)不能準(zhǔn)確地反映考生的水平[23]。表5 中所有分?jǐn)?shù)的未加權(quán)均方擬合度都小于2,基本處于1 附近,從這個(gè)角度來(lái)看,各分值可以區(qū)分不同能力的考生。第四,分階校準(zhǔn)值顯示了各分?jǐn)?shù)的起始值。除3、4、5、6、11、12分之外,其余分?jǐn)?shù)都呈現(xiàn)由低到高遞增的趨勢(shì)。3、4、5分使用的頻率較少,模型估計(jì)的誤差相應(yīng)地也會(huì)增加,起始值的無(wú)序性可能就是由此導(dǎo)致的。同時(shí),相鄰分?jǐn)?shù)的間隔數(shù)值也應(yīng)作為參考,如表6所示。

        表6 相鄰分?jǐn)?shù)的間隔數(shù)值

        Linacre認(rèn)為各分?jǐn)?shù)的間隔應(yīng)該在1.4~5之間[23],除了2-1、5-4、7-6、8-7、11-10分之間的起始值間隔達(dá)到了該標(biāo)準(zhǔn),其他分?jǐn)?shù)未滿足,即這些分?jǐn)?shù)之間的區(qū)別并不十分明顯。漢語(yǔ)預(yù)科作文考試的評(píng)分標(biāo)準(zhǔn)共有5檔,每檔包含3個(gè)分值(詳見(jiàn)表1)。評(píng)分時(shí)先定檔,然后在相應(yīng)的檔位里選擇合適的分?jǐn)?shù)。此時(shí)取每個(gè)檔位的中位數(shù),對(duì)各檔位之間起始值的間隔進(jìn)行計(jì)算,結(jié)果見(jiàn)表6。2檔與1檔、4檔與3檔的間隔值落在了1.4~5 內(nèi),說(shuō)明這些檔位的差別很明確。3 檔與2檔、5檔與4檔的結(jié)果則相反,它們之間的差別不太明顯。綜合上述分析,評(píng)分檔次之間以及總體相鄰分?jǐn)?shù)差別的準(zhǔn)確性有待提高,這也在一定程度上解釋了個(gè)別評(píng)分員具有評(píng)分隨意性的問(wèn)題。

        此外,還應(yīng)關(guān)注各分值概率曲線,如圖2所示。

        圖2 評(píng)分量表各分?jǐn)?shù)段概率曲線圖

        圖中的每個(gè)波形對(duì)應(yīng)一個(gè)分值,各波形的交點(diǎn)即相鄰分值的臨界點(diǎn)。若概率曲線有獨(dú)立的且有一定間隔的波峰,說(shuō)明每個(gè)分?jǐn)?shù)值各自對(duì)應(yīng)一個(gè)明顯的能力區(qū)域,在此區(qū)域內(nèi)的考生最容易獲得該分值[24]。圖2 顯示,除了兩端有較明顯的獨(dú)立波峰,其余能力段考生的概率曲線處于重疊狀態(tài),尤其是中間偏左側(cè)(3 分到5 分)和中間偏右側(cè)(11 分到12分),這說(shuō)明該評(píng)分標(biāo)準(zhǔn)需要改進(jìn),如合并某些分值。

        5. 偏差分析

        偏差分析可以用來(lái)判斷各個(gè)面之間的交互作用。通過(guò)比較觀測(cè)值和模型期望值之間的差異來(lái)對(duì)評(píng)分員與考生之間的偏差進(jìn)行分析。評(píng)分員與考生之間的實(shí)驗(yàn)偏差項(xiàng)目(empirically bias terms)共有600 個(gè)。若Z 值>2,則該評(píng)分員對(duì)該考生更為嚴(yán)厲;若Z 值<-2,則該評(píng)分員對(duì)該考生更為寬松。本研究共存在16 個(gè)顯著偏差,10 個(gè)偏嚴(yán)格,6 個(gè)偏寬松,共占所有偏差項(xiàng)目(600)的2.67%,符合偏差比率在5%之內(nèi)的要求[20]。表7 顯示了評(píng)分員與考生之間的顯著偏差信息。

        表7 評(píng)分員與考生之間的偏差分析

        5 位評(píng)分員均表現(xiàn)出了一定的偏差性,其中3 號(hào)評(píng)分員的偏差情況最為嚴(yán)重,與5 個(gè)不同能力值范圍(每1logit 間隔算一個(gè)能力范圍)的考生發(fā)生了7次偏差。能力值在0之上的5個(gè)考生,評(píng)分全部偏嚴(yán)格,能力值在0 之下的2 個(gè)考生,評(píng)分全部偏寬松。實(shí)際得分為8 的5 號(hào)、46 號(hào)這兩位考生之間的能力值、期望得分都相差甚遠(yuǎn),7 號(hào)、13 號(hào)考生也是相同的情況,這也印證了4.2.1小節(jié)中的結(jié)果,即3號(hào)評(píng)分員自身一致性偏差,評(píng)分存在隨機(jī)性,使用分?jǐn)?shù)時(shí)存在前后標(biāo)準(zhǔn)不一的問(wèn)題。

        總體來(lái)看,評(píng)分偏嚴(yán)格的情況多于偏寬松的情況。在8 個(gè)不同的考生能力區(qū)間中,分?jǐn)?shù)顯著偏嚴(yán)覆蓋了6 個(gè)區(qū)間,其中有5 個(gè)區(qū)間相互聯(lián)結(jié),即1 至6。分?jǐn)?shù)顯著寬松覆蓋了4 個(gè)區(qū)間(-3 至-2、-1 至0、1 至2、3 至4),彼此之間沒(méi)有聯(lián)結(jié)。由此,共有11 個(gè)顯著偏差(68.75%)發(fā)生在1至6之間,可能是因?yàn)樗锌忌泄灿?7.5%的人屬于這個(gè)能力區(qū)間,二者比例接近。這一結(jié)果也表明了顯著偏差出現(xiàn)在能力較高考生中的比例高于能力一般和較差的考生,評(píng)分員在對(duì)前者進(jìn)行評(píng)分時(shí),出現(xiàn)偏差的概率更大。同時(shí),評(píng)分員總體呈現(xiàn)出對(duì)較高能力考生評(píng)分嚴(yán)格而對(duì)較低能力考生評(píng)分寬松的趨勢(shì)。上述研究結(jié)果表明,一方面要提醒所有的評(píng)分員注意對(duì)高、低能力考生進(jìn)行評(píng)分時(shí)的嚴(yán)厲度差異,另一方面要加強(qiáng)對(duì)類似3 號(hào)的評(píng)分員群體的培訓(xùn),關(guān)注評(píng)分結(jié)果并糾正其隨意性。

        五、結(jié)論

        基于概化理論和多面Rasch 模型研究了5 名評(píng)分員對(duì)120 份漢語(yǔ)預(yù)科實(shí)測(cè)作文考卷的評(píng)分結(jié)果,對(duì)其信度進(jìn)行了檢驗(yàn)。綜合上述分析,可以得到以下結(jié)論。

        第一,概化理論的G 研究階段提供了考生、評(píng)分員以及二者交互作用所占的方差分量??忌芰Σ町愂强傋儺惖闹饕獊?lái)源(83.1%),評(píng)分員層面占比5.2%,總體表現(xiàn)較為穩(wěn)定。評(píng)分員與考生之間的交互作用占比11.8%,評(píng)分員在評(píng)分嚴(yán)厲度上存在差異,對(duì)某些考生的評(píng)分存在前后不一致的情況。

        第二,在概化理論的D 研究階段發(fā)現(xiàn),一位評(píng)分員評(píng)分時(shí)就能達(dá)到可接受的概化系數(shù)(0.83),具有較高的信度,而采用雙評(píng)則可以將系數(shù)提高到0.91,隨著評(píng)分員的繼續(xù)增多,系數(shù)也在逐步提高,但幅度不大,所以在正式評(píng)分時(shí)應(yīng)保持目前的兩位評(píng)分員評(píng)分的狀態(tài)。

        第三,多面Rasch模型對(duì)考生、評(píng)分員、考生及評(píng)分員的交互作用、評(píng)分量表這四個(gè)方面進(jìn)行了詳細(xì)的解釋,主要有以下發(fā)現(xiàn):(1)漢語(yǔ)預(yù)科作文考試能有效地區(qū)分不同能力的考生;(2)評(píng)分員在嚴(yán)厲度方面存在顯著差異,總體一致性較好,有兩位評(píng)分員未達(dá)標(biāo),3 號(hào)評(píng)分員評(píng)分時(shí)具有一定的隨機(jī)性,1 號(hào)評(píng)分員存在評(píng)分趨中的問(wèn)題;(3)考生與評(píng)分員的交互作用表明,評(píng)分偏嚴(yán)格的情況比偏寬松的情況要多,較高能力考生出現(xiàn)顯著評(píng)分偏差的概率更大,評(píng)分員總體對(duì)該群體更嚴(yán)格,對(duì)能力一般及較差的考生更寬松,對(duì)3 號(hào)評(píng)分員的探討也進(jìn)一步證明了其存在的評(píng)分問(wèn)題,需要重點(diǎn)關(guān)注;(4)評(píng)分量表大致可以區(qū)分不同能力的考生,評(píng)分員整體上也能夠較準(zhǔn)確地使用各分?jǐn)?shù)來(lái)達(dá)到此目的,然而有兩組評(píng)分檔位之間以及各相鄰分?jǐn)?shù)的差別不太明顯,其準(zhǔn)確性有待提高。

        總的來(lái)說(shuō),概化理論和多面Rasch模型從不同的角度對(duì)評(píng)分信度進(jìn)行了考察,具有較好的互補(bǔ)性。需要明確的是,作文評(píng)分屬于一項(xiàng)復(fù)雜的心理活動(dòng),評(píng)分員表現(xiàn)出來(lái)的嚴(yán)厲度傾向、一致性差異都是正常的現(xiàn)象,偏差顯著的交互作用同樣無(wú)法避免?;诖嘶菊J(rèn)知和研究結(jié)果,可以通過(guò)加強(qiáng)對(duì)評(píng)分員的培訓(xùn)、檢測(cè)并糾正評(píng)分員的評(píng)分活動(dòng)、改進(jìn)評(píng)分量表等行為來(lái)減小偏差,同時(shí)采用質(zhì)性手段來(lái)印證并補(bǔ)充數(shù)據(jù)分析的結(jié)果,從而最大化地保證評(píng)分信度。

        猜你喜歡
        作文能力模型
        一半模型
        消防安全四個(gè)能力
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        大興學(xué)習(xí)之風(fēng) 提升履職能力
        你的換位思考能力如何
        紅批有聲作文
        紅批有聲作文
        紅批作文
        紅批作文
        狠狠躁天天躁无码中文字幕图| 久久伊人少妇熟女大香线蕉| 精品www日韩熟女人妻| 特级毛片a级毛片在线播放www | 无码人妻av免费一区二区三区| 欧美国产日产一区二区| 91尤物在线看| 成人黄色片久久久大全| 色噜噜亚洲男人的天堂| 中文字幕精品久久久久人妻| 亚洲不卡无码高清视频| 成年人视频在线播放麻豆| 亚洲美女av二区在线观看| 精品一区中文字幕在线观看| 久久精品国产亚洲av高清热| 国产99久久精品一区二区| 在线精品无码一区二区三区| 大岛优香中文av在线字幕| 亚洲精品在线国产精品| 色噜噜狠狠一区二区三区果冻| 国产成人av综合亚洲色欲| av免费在线观看在线观看| 2021国产精品视频网站| 亚洲av无码不卡久久| 黑人巨大精品欧美在线观看| 自拍视频国产在线观看| 日本av天堂一区二区三区| 情人伊人久久综合亚洲| 国产亚洲婷婷香蕉久久精品| 国产亚洲一区二区三区夜夜骚| 日本免费一区二区在线视频播放| 久久视频在线| 亚洲AV毛片无码成人区httP| 极品新娘高清在线观看| 999zyz玖玖资源站永久| 久久精品无码中文字幕 | 久久久久免费精品国产| 18成人片黄网站www| 一级片久久| 国产精品不卡免费版在线观看| 99视频在线精品免费观看6|