亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于多面Rasch模型的大學(xué)教師課堂教學(xué)能力評價(jià)量表優(yōu)化研究

        2015-09-21 04:45:22盛艷燕喻秋山
        高教探索 2015年9期
        關(guān)鍵詞:優(yōu)化

        盛艷燕+喻秋山

        摘要:文章利用多面Rasch模型從量表使用者角度研究了大學(xué)教師課堂教學(xué)能力評價(jià)量表的優(yōu)化問題。實(shí)證研究發(fā)現(xiàn),量表具有單維性,但2個(gè)題項(xiàng)存在性別上的不公平、7個(gè)題項(xiàng)存在分?jǐn)?shù)能力“倒掛”現(xiàn)象。訪談和扎根編碼分析后發(fā)現(xiàn),量表內(nèi)容、尺度和形式是產(chǎn)生分?jǐn)?shù)能力“倒掛”的原因。因此,基于多面Rasch模型的假設(shè)和功能,量表優(yōu)化應(yīng)以多面Rasch模型檢驗(yàn)結(jié)果為依據(jù),采取簡化題項(xiàng)內(nèi)容、分離尺度與權(quán)重并細(xì)化評分等級的措施。

        關(guān)鍵詞:多面Rasch模型;課堂教學(xué)能力評價(jià)量表;優(yōu)化

        大學(xué)教師課堂教學(xué)能力評價(jià)是提高教學(xué)質(zhì)量的重要手段,其活動的開展離不開課堂教學(xué)能力評價(jià)量表這個(gè)載體。①目前,大學(xué)教師課堂教學(xué)能力評價(jià)量表在教學(xué)管理中得到了廣泛應(yīng)用,卻沒有表現(xiàn)出管理方所期待的價(jià)值:分?jǐn)?shù)能夠區(qū)分教師的課堂教學(xué)能力,兼顧課程難度和評委差異。產(chǎn)生這種現(xiàn)象的原因不能僅僅歸結(jié)于評委誤差,課堂教學(xué)能力評價(jià)量表的設(shè)計(jì)也是其中一個(gè)重要的影響因素。如何優(yōu)化量表、提高量表的應(yīng)用價(jià)值成為管理方迫切需要解決的問題。

        已有研究者試圖通過評價(jià)指標(biāo)的優(yōu)化來解決大學(xué)教師課堂教學(xué)能力評價(jià)量表優(yōu)化問題,其研究包括三個(gè)方面。第一,引入平衡計(jì)分卡、產(chǎn)出分解法確定初始指標(biāo)。[1][2]第二,通過克隆巴赫系數(shù)檢驗(yàn)量表的信度、因子分析法檢驗(yàn)指標(biāo)的構(gòu)建效度,改進(jìn)權(quán)重設(shè)計(jì)等方法來優(yōu)化量表。[3][4][5]第三,通過評價(jià)結(jié)果的反饋、數(shù)據(jù)標(biāo)準(zhǔn)化處理和選擇教學(xué)和管理經(jīng)驗(yàn)豐富、公平、公正的評教專家等方式提高量表的應(yīng)用價(jià)值。[6][7][8]

        上述研究成果大多數(shù)從指標(biāo)本身出發(fā)研究大學(xué)教師課堂教學(xué)能力評價(jià)量表優(yōu)化問題,忽視了量表的使用者。面試?yán)碚撜J(rèn)為,面對相同的評分標(biāo)準(zhǔn),評委對評分標(biāo)準(zhǔn)的理解和使用往往是不一致的 [9],評委并未完全按照評分標(biāo)準(zhǔn)評分[10],不同形式的評分標(biāo)準(zhǔn)影響評分的一致性[11]。語言學(xué)研究發(fā)現(xiàn),評分標(biāo)準(zhǔn)的內(nèi)容、尺度和形式在一定程度上能解釋評委評分差異。[12][13]在大學(xué)教師課堂教學(xué)能力評價(jià)中,Wang 和Cheng利用多面Rasch模型分析了中山大學(xué)293名學(xué)生對30名任課教師表現(xiàn)的評分,發(fā)現(xiàn)學(xué)生嚴(yán)苛程度、難度和教師效能之間存在線性關(guān)系,評價(jià)者對評價(jià)結(jié)果的影響是顯著的。[14]因此,從量表使用者角度分析大學(xué)教師課堂教學(xué)能力評價(jià)量表的設(shè)計(jì)內(nèi)容、尺度和形式對評價(jià)結(jié)果的影響,進(jìn)而優(yōu)化量表是非常有必要的。

        多面Rasch模型為量表優(yōu)化提供了可行的方法,在大學(xué)教師課堂教學(xué)能力評價(jià)中應(yīng)用非常少。本文將多面Rasch模型引入大學(xué)教師課堂教學(xué)能力評價(jià)量表的優(yōu)化,在已有研究成果基礎(chǔ)上作出了三點(diǎn)創(chuàng)新:第一,研究角度創(chuàng)新。研究角度從量表本身轉(zhuǎn)向量表的使用者,拓展了研究的角度。第二,研究對象創(chuàng)新。利用訪談和扎根編碼技術(shù)探討了評委評分的心理過程,分析量表內(nèi)容、尺度和形式對評分的影響。第三,研究結(jié)論創(chuàng)新。本文基于多面Rasch模型的假設(shè)和功能提出了量表優(yōu)化的方法,具有普遍適用性。

        一、理論模型與研究假設(shè)

        能力測評理論可以分為經(jīng)典測量理論和潛在特質(zhì)理論。經(jīng)典測量理論假設(shè)評委評分的行為像“打分機(jī)器”一樣完全相同[15],測量誤差相互獨(dú)立,被測心理特質(zhì)可以用原始分?jǐn)?shù)來表示[16]。潛在特質(zhì)理論認(rèn)為能力是制約人們完成某一任務(wù)的若干潛在特質(zhì),正確做答的概率是個(gè)人潛在特質(zhì)水平的函數(shù)[17],評委評分是考生能力和評委特點(diǎn)的函數(shù)[18]。因此,做答概率、個(gè)人能力和題目難度被定義在同一尺度上,評委具有各自獨(dú)特的評分行為,測量的結(jié)果使得能力獨(dú)立于特定的題目和評委。

        潛在特質(zhì)理論更適合用來評價(jià)大學(xué)教師的課堂教學(xué)能力。在大學(xué)教師課堂教學(xué)能力評價(jià)中,評委往往依據(jù)評分標(biāo)準(zhǔn)獨(dú)立評分,有的評委評分明顯寬松,有的評委正好相反。如果教師擔(dān)任的課程難度比較大,又遇到了評分嚴(yán)格的評委,分?jǐn)?shù)就會明顯偏低;相反,如果教師擔(dān)任的課程難度比較小,評委評分比較寬松,分?jǐn)?shù)就會明顯偏高。因此,原始分?jǐn)?shù)不足以代表教師的課堂教學(xué)能力,矯正任務(wù)難度和評委差異后的結(jié)果能更加準(zhǔn)確地表示教師的課堂教學(xué)能力。

        多面Rasch模型是一種潛在特質(zhì)理論模型,可以用來實(shí)現(xiàn)量表的優(yōu)化。首先,多面Rasch模型可以用來識別量表的構(gòu)念。多面Rasch模型的假設(shè)前提是單維性,意思是指所有題項(xiàng)測量了同一種潛在特質(zhì)。如果量表是單維的,說明所有題項(xiàng)從不同的方面測量了同一個(gè)構(gòu)念,分?jǐn)?shù)能夠加總并可以相互比較。[19]如果量表不是單維的,說明至少有部分題項(xiàng)測量的構(gòu)念與其他題項(xiàng)不同,需要將部分題項(xiàng)排除或設(shè)計(jì)量表單獨(dú)測量。[20]其次,多面Rasch模型可以用來檢驗(yàn)量表的公平性。如果相同能力的群體由于不同的群體特征導(dǎo)致在同一題目上具有不同的正確作答概率[21],測驗(yàn)就產(chǎn)生了不公平。多面Rasch模型提供了項(xiàng)目功能差異檢驗(yàn)的方法,可以針對不同題項(xiàng)檢驗(yàn)是否存在不公平。最后,多面Rasch模型可以識別評分異常的題項(xiàng)。多面Rasch模型將原始分?jǐn)?shù)分解為能力估計(jì)值、評委寬嚴(yán)度、題項(xiàng)難度和等級難度,能夠分析每個(gè)題項(xiàng)對應(yīng)的能力估計(jì)值、每個(gè)分值對應(yīng)的能力估計(jì)值,識別評分產(chǎn)生異常的題項(xiàng),為量表優(yōu)化提供依據(jù)。

        基于以上分析,本文提出如下假設(shè):多面Rasch模型適合用于大學(xué)教師課堂教學(xué)能力評價(jià)量表的優(yōu)化。

        二、課堂教學(xué)能力評價(jià)量表存在問題的多面Rasch分析

        (一)樣本與數(shù)據(jù)來源

        本次研究從某高校的一個(gè)學(xué)院抽取了2014年11月至12月的107份課堂教學(xué)評價(jià)表,量表內(nèi)容見表1。評委共有6位,被聽課的教師有23位。其中,有2位評委分別只對兩位不同的教師進(jìn)行了評分,因評分次數(shù)太少而被剔除,其余4位評委的評分?jǐn)?shù)據(jù)被保留。在被剔除的2位評委的評分?jǐn)?shù)據(jù)中,1位教師只被評分一次,而沒有被其他評委評分。因此,該教師的評分表也被剔除。

        按照教師編號對22位教師的課堂教學(xué)評價(jià)數(shù)據(jù)進(jìn)行分類整理。評委的編號為A、B、C、D,教師的編號為1、2、3…22。18位教師分別被4位相同的評委評分,其他4位教師被若干不同的評委評分。若同一位評委對某位教師多次評分,該教師的得分用這個(gè)評委評分的均值表示。例如,編號為1的教師被編號為A的評委評分兩次,編號為A的評委對該教師的評分按照兩次評分的平均值計(jì)算,教師最后的分?jǐn)?shù)等于多位評委評分的均值。經(jīng)過整理,我們得到了4位評委對22位教師的評分?jǐn)?shù)據(jù)共77個(gè),形成本次研究的樣本。

        (二)研究方法與工具

        本次研究采用的工具是Winsteps3.72.3軟件和Facets3.71.4軟件。Winsteps軟件和Facets軟件都是多面Rasch模型分析工具,其原理是一致的。[22]Winsteps軟件能實(shí)現(xiàn)單維性檢驗(yàn)和項(xiàng)目功能差異性檢驗(yàn),F(xiàn)acets軟件則不能實(shí)現(xiàn)這兩項(xiàng)功能。Facets軟件能將評委、課程和被評價(jià)人作為三個(gè)單獨(dú)的面進(jìn)行分析,體現(xiàn)課程差異和評委差異,Winsteps軟件則將評委、課程和被評價(jià)人作為一個(gè)面來分析。因此,多面Rasch模型分析可以同時(shí)使用Winsteps軟件和Facets軟件來實(shí)現(xiàn)多種功能。

        在運(yùn)用多面Rasch模型之前,首先要對數(shù)據(jù)的整體擬合程度進(jìn)行檢驗(yàn)。運(yùn)用Winsteps軟件進(jìn)行單維性檢驗(yàn),運(yùn)用Facets軟件計(jì)算樣本誤差均值和標(biāo)準(zhǔn)誤。如果數(shù)據(jù)滿足單維性假設(shè),并且樣本誤差均值接近于0、標(biāo)準(zhǔn)誤接近于1,說明數(shù)據(jù)的整體擬合程度比較高,可以運(yùn)用多面Rasch模型對數(shù)據(jù)進(jìn)行分析。[23]其次,證明數(shù)據(jù)擬合多面Rasch模型后,我們可以利用Winsteps軟件進(jìn)行項(xiàng)目功能差異檢驗(yàn)。本文針對性別進(jìn)行項(xiàng)目功能差異檢驗(yàn),用于識別產(chǎn)生項(xiàng)目功能差異的題項(xiàng)。最后,利用Facets軟件分析能力與分?jǐn)?shù)之間的關(guān)系,用于識別產(chǎn)生評分異常的題項(xiàng)。

        (三)多面Rasch模型適用性檢驗(yàn)

        單維性檢驗(yàn)用于檢驗(yàn)問卷題項(xiàng)是否測量了相同的潛在特質(zhì),這是多面Rasch模型能夠應(yīng)用的前提。大學(xué)教師課堂教學(xué)能力評價(jià)量表一共有8個(gè)題項(xiàng),總分按照8個(gè)題項(xiàng)得分加總計(jì)算。如果這8個(gè)題項(xiàng)可以歸屬于同一個(gè)潛在特質(zhì),可以認(rèn)為這8個(gè)題項(xiàng)測量從不同角度測量了同一種教師課堂教學(xué)能力,總分可以用來表示教師課堂教學(xué)能力的高低。反之,則說明至少有部分題項(xiàng)與其它題項(xiàng)測量的并不是同一種能力,需要將部分題項(xiàng)排除或設(shè)計(jì)量表單獨(dú)測量。[24]

        Winsteps軟件提供了殘差主成分分析法來檢驗(yàn)量表的單維性,檢驗(yàn)結(jié)果見表2。如果剔除多面Rasch模型可解釋部分后,殘差仍有若干共同的潛在特質(zhì)并且特征值(未解釋的變異)大于2,說明存在第二個(gè)維度,量表不具有單維性。五個(gè)維度中未解釋變異的特征值分別為1.8、1.6、1.3、1和0.8,都沒有超過2,說明量表具有單維性。[22]因此,8個(gè)題項(xiàng)從不同的角度測量了教師的課堂教學(xué)能力。

        Facets軟件檢驗(yàn)結(jié)果顯示數(shù)據(jù)對Rasch模型的擬合程度比較高,結(jié)果見表3。樣本觀察值21.83,模型期望值為20.14,誤差均值為0。樣本標(biāo)準(zhǔn)差為3.96,模型擬合值的標(biāo)準(zhǔn)差為3.64,全樣本標(biāo)準(zhǔn)誤為1。因此,從樣本誤差均值和全樣本標(biāo)準(zhǔn)誤來判斷,采用多面Rasch模型來分析數(shù)據(jù)是適合的。

        (四)課堂教學(xué)能力評價(jià)量表存在的問題

        1.2個(gè)題項(xiàng)存在性別上的不公平

        測驗(yàn)的公平性可以用項(xiàng)目功能差異檢驗(yàn)的結(jié)果來表示。如果教師課堂教學(xué)能力評價(jià)量表在性別上存在項(xiàng)目功能差異,可能會對處于劣勢的群體不公平,影響他們提高教學(xué)質(zhì)量的積極性。因此,測驗(yàn)開發(fā)和使用者需要進(jìn)行項(xiàng)目功能差異檢驗(yàn),識別可能產(chǎn)生項(xiàng)目功能差異的題項(xiàng),以便對量表進(jìn)行優(yōu)化。

        Winsteps軟件可以實(shí)現(xiàn)項(xiàng)目功能差異檢驗(yàn),檢驗(yàn)結(jié)果見表4。DIF 表示項(xiàng)目功能差異檢驗(yàn),DIF MEASURE表示某個(gè)群組答對特定題項(xiàng)的難度,DIF S.E表示標(biāo)準(zhǔn)誤。DIF MEASURE越大,說明該群組答對該題的難度越大。DIF CONTRAST是兩個(gè)群組答對特定題目的難度差異,Welch T和Prob表示難度差異的顯著程度。男性組中第1個(gè)題項(xiàng)最難,第6個(gè)題項(xiàng)最容易。女性組中第5個(gè)題項(xiàng)最難,第8個(gè)題項(xiàng)最容易。第1題的DIF CONTRAST=-0.81Logits(t=-2.48,Prob=0.0155<0.05)、第4題的DIF CONTRAST=0.47Logits(t=2.12,Prob=0.0378<0.05),說明男性和女性在第1題上和第4題上難度有顯著差異,可能存在因性別導(dǎo)致的不公平。

        2.7個(gè)題項(xiàng)出現(xiàn)分?jǐn)?shù)能力“倒掛”

        測量學(xué)原理認(rèn)為,分?jǐn)?shù)代表能力,分?jǐn)?shù)越高代表能力越強(qiáng)。多面Rasch模型假設(shè)隨分?jǐn)?shù)增加,能力呈“S”型曲線。[25]如果某個(gè)題項(xiàng)出現(xiàn)了較低分?jǐn)?shù)代表的能力值高于較高分?jǐn)?shù)代表的能力值,說明該題項(xiàng)出現(xiàn)了分?jǐn)?shù)能力“倒掛”的現(xiàn)象。

        Facets軟件可以用來檢驗(yàn)?zāi)芰κ欠耠S分?jǐn)?shù)增加而提高,并用*標(biāo)記出現(xiàn)“倒掛”的題項(xiàng)。結(jié)果顯示,除了題項(xiàng)1,其余的題項(xiàng)都出現(xiàn)了分?jǐn)?shù)能力“倒掛”現(xiàn)象。題項(xiàng)2和8出現(xiàn)了3次“倒掛”,題項(xiàng)4、6和7出現(xiàn)了2次“倒掛”,題項(xiàng)3和5出現(xiàn)了1次“倒掛”。

        以題項(xiàng)2為例進(jìn)行分析,見表5。26分使用的次數(shù)最多,其次是24分和28分,28分使用了8次,22分使用了4次,25分使用了2次,20分、29分和30分只使用了2次,21分和23分沒有被使用過。22分對應(yīng)的能力值低于20分所對應(yīng)的能力值,25分的能力均值低于24分的能力均值,30分的能力均值低于29分的能力均值。從等級間距來看,每增加一分所需能力值并不相等。通常原始分?jǐn)?shù)直接比較時(shí),我們認(rèn)為一分代表相同的能力。但實(shí)際情況是,從25分增加到26分所需能力值最小,從28分增加到29分所需能力值最大。說明在不同的評分等級,一分代表了不同的能力,同時(shí)評委過多地使用了24、26和28分,對分?jǐn)?shù)所代表的能力差異理解和把握不夠準(zhǔn)確。

        三、課堂教學(xué)評價(jià)量表存在問題的原因分析

        項(xiàng)目功能差異檢驗(yàn)和識別評分異常的題項(xiàng)為量表優(yōu)化提供了依據(jù),但不能分析產(chǎn)生項(xiàng)目功能差異和評分異常的原因。因此,本文對評委進(jìn)行了訪談,利用扎根編碼技術(shù)分析產(chǎn)生評分異常的原因,提出了量表優(yōu)化的方法。

        (一)訪談提綱的設(shè)計(jì)

        1.訪談提綱設(shè)計(jì)的依據(jù)

        影響評委評分的因素是多方面的,評分量表對評委評分影響的研究非常少見,未發(fā)現(xiàn)有關(guān)大學(xué)教師課堂教學(xué)能力評價(jià)量表對評委評分影響的文獻(xiàn)。在教學(xué)能力評價(jià)中,評委依據(jù)評分量表收集信息,并對信息進(jìn)行解釋、歸納、演繹并給出分?jǐn)?shù),與之接近的研究是有關(guān)面試的研究和英語作文評分的研究。因此,本文以面試和英語作文評分的研究成果為依據(jù)來設(shè)計(jì)訪談提綱。

        評分量表對評委評分影響的研究主要分為三類。第一類是評分量表內(nèi)容對評委評分影響的研究。有關(guān)面試的研究表明,測評要素越多,每個(gè)測評要素內(nèi)部包含的屬性越多,量表的使用效果越差。[26][27]第二類是評分量表尺度對評委評分的影響。英語作文評分的研究發(fā)現(xiàn),小尺度評分量表的評分一致性要高于大尺度評分量表的一致性。[28]第三類是評分量表形式對評委評分影響的研究。面試研究發(fā)現(xiàn),為每個(gè)評分等級提供典型行為描述,盡量通過媒介促使行為可視化能夠提高評委評分的一致性程度和評價(jià)的準(zhǔn)確性。[29][30]由此可以假設(shè),教學(xué)能力評價(jià)量表題項(xiàng)太多、每個(gè)題項(xiàng)包括了不同的測量內(nèi)容,每個(gè)題項(xiàng)分值過大、評分等級描述不夠清晰會影響評委對量表的理解和把握程度。

        2.訪談對象與訪談提綱內(nèi)容

        訪談提綱的內(nèi)容圍繞量表的內(nèi)容、尺度和形式展開,要求評委講述他們在評分過程中是如何使用量表的。評委以一門課程為例,先對照評分表記錄表的課堂內(nèi)容對該教師的教學(xué)能力作出整體評價(jià),再對量表合理與不合理的地方進(jìn)行評價(jià),最后對每個(gè)題項(xiàng)給出評分的理由。

        研究者需要了解三個(gè)方面的問題。在評分量表內(nèi)容方面,包括您覺得8個(gè)題項(xiàng)多不多?您覺得這8個(gè)題項(xiàng)意思表達(dá)是否明確,是否會干擾您的評分?有什么可以改進(jìn)的地方?在評分尺度方面,訪談的問題有:您覺得哪些題項(xiàng)分值設(shè)置是合理的,哪些是不合理的,原因是什么?在評分量表形式方面,訪談的問題有:您在這個(gè)題項(xiàng)給了××分,為什么不多給幾分,或少給幾分呢?您覺得將該題項(xiàng)劃分成幾個(gè)分?jǐn)?shù)段,您是否會使用這些分?jǐn)?shù)段去區(qū)分不同教師的能力?

        訪談的對象是4位曾經(jīng)擔(dān)任過課堂教學(xué)評價(jià)的老師,包括前面提供評分?jǐn)?shù)據(jù)的4位評委中的2位。如果能對4位評委進(jìn)行訪談,研究結(jié)果更為可靠。由于條件的限制,無法對4位評委進(jìn)行訪談,只能選擇具有多年教學(xué)評價(jià)經(jīng)驗(yàn)的教師進(jìn)行類比,這也是在缺乏數(shù)據(jù)的情況下不得不采取的辦法。

        (二)訪談內(nèi)容整理與編碼

        本次研究采取開放式訪談和研究者提問相結(jié)合的方式。評委先圍繞量表的合理性作出評價(jià),然后對每個(gè)題項(xiàng)給出評分理由,對于評分量表內(nèi)容、尺度和形式方面沒有涉及的問題由研究者提問作為補(bǔ)充。

        編碼采用扎根編碼技術(shù)。評分量表內(nèi)容編碼為a1,a2…,其影響編碼為a1-1,a2-2…,依次類推。量表尺度編碼為b1,b2…,其影響編碼為b1-1,b2-2等。量表形式編碼為c1,c2…,其影響編碼為c1-1,c2-2等。

        經(jīng)過整理后,部分訪談內(nèi)容和編碼摘錄如下。

        我在聽別人上課時(shí),先在量表上記錄板書提綱。課程快結(jié)束時(shí),我會在心理形成一個(gè)整體判斷。我給分一般在82分到92分之間。(c1)我覺得分給太少了不好意思,都是同事。分也不能太高,92分已經(jīng)很高了,再高的話有點(diǎn)不切實(shí)際。我一般分為三個(gè)檔次,最好的90-92分,其次是85-89分,最后是82-84分。(c1)我在心理給他定位后,再分題項(xiàng)給分,保證他所得的分?jǐn)?shù)在我給他劃定的檔次之內(nèi)。(c2)我覺得表現(xiàn)好的就在該檔次內(nèi)給一個(gè)高點(diǎn)的分?jǐn)?shù)。(c1-1,c2-2)每個(gè)題項(xiàng)的給分也基本按照這個(gè)思路。沒有人告訴我每個(gè)題項(xiàng)什么樣子可以給15分,什么樣子可以給12分,我只能根據(jù)我的經(jīng)驗(yàn)判斷。(c3)如果我對該課程很熟悉,我覺得判斷還比較準(zhǔn)確。如果我對該課程不熟悉,我只能看學(xué)生的表現(xiàn)和老師講課的熟練程度、邏輯性,也是外行看熱鬧吧。(c3-3)我覺得題項(xiàng)2“思路清晰,重難點(diǎn)突出”是最重要的,也是最不好把握的。(a1)如果這方面表現(xiàn)比較好,我認(rèn)為其他方面也不會太差。(c3)這個(gè)題項(xiàng)只有15分,和其他題項(xiàng)分?jǐn)?shù)差異不大,沒有突出其重要地位,這顯然是不合適的。(b1)他在這一項(xiàng)上得分不高,但考慮到很重要,就多給了幾分。(b1-1)很多題項(xiàng)表達(dá)都不是太合理,例如治學(xué)嚴(yán)謹(jǐn),究竟是指“思路清晰”、“教案準(zhǔn)備充分”還是“課堂紀(jì)律良好”、“課堂教學(xué)充實(shí)”和“信息量大”,實(shí)際上是同一個(gè)問題,卻分屬題項(xiàng)3和4。(a2)題項(xiàng)3中還有“講授內(nèi)容熟練”,那我就不知道題項(xiàng)3和題項(xiàng)4究竟按照哪個(gè)標(biāo)準(zhǔn)評分了。(a2-2)同樣的問題也出現(xiàn)在題項(xiàng)5和題項(xiàng)7,題項(xiàng)5究竟是要對老師的語言表達(dá)能力進(jìn)行評價(jià),還是對教學(xué)方法進(jìn)行評價(jià)(a3),我只能選擇我認(rèn)為重要的那個(gè)。(a1-1,a3-3)8個(gè)題項(xiàng)并不多,關(guān)鍵是題項(xiàng)之間的關(guān)系不明確,量表不方便評委使用。

        訪談編碼結(jié)束后,對訪談編碼進(jìn)行匯總。將訪談?wù)咛岬降膬?nèi)容按量表內(nèi)容、量表尺度和量表形式歸類,找出原因和結(jié)果的對應(yīng)關(guān)系,見表6。

        (三)量表對評分的影響分析

        1.量表內(nèi)容對評委評分的影響

        題項(xiàng)的測量內(nèi)容和性質(zhì)影響評委評分。如果一個(gè)題項(xiàng)同時(shí)包含兩個(gè)測量內(nèi)容,評委既可能選擇他

        認(rèn)為重要的測量內(nèi)容(a2-2),也可能隨意選擇一個(gè)測量內(nèi)容(a1-1),導(dǎo)致多個(gè)評委評價(jià)的對象是不一致的,甚至同一個(gè)評委對不同的教師選擇了不同的測量內(nèi)容進(jìn)行評價(jià)。如果測量的內(nèi)容本身不好把握(a1),評委對課程不熟悉、缺乏可參考的依據(jù)(c3),可能評委就選擇他認(rèn)為重要的測量內(nèi)容對教師的整體表現(xiàn)進(jìn)行評分,而不會按題項(xiàng)的測量內(nèi)容給分。題項(xiàng)2和題項(xiàng)8出現(xiàn)分?jǐn)?shù)能力“倒掛”現(xiàn)象的次數(shù)最多,題項(xiàng)3和5出現(xiàn) “倒掛”次數(shù)最少,可能與該題項(xiàng)測量內(nèi)容容易觀察有關(guān)。

        2.量表尺度對評委評分的影響

        評委給出的評分不僅僅體現(xiàn)了教師的能力,還受到題項(xiàng)重要性程度的影響。一般情況下,題項(xiàng)越重要,題項(xiàng)分值越高。如果評委認(rèn)為某教師在一個(gè)題項(xiàng)上的表現(xiàn)非常好,足夠給最高分,而該題項(xiàng)只有10分,那么評委也只能給10分。如果某教師在另外一個(gè)題項(xiàng)上表現(xiàn)一般,該題項(xiàng)最高分是15分,評委可能給出了12分,這個(gè)分?jǐn)?shù)不僅僅是教師的能力,還包括了評委對該題項(xiàng)重要性程度的認(rèn)可,結(jié)果是評委附加了新的評分標(biāo)準(zhǔn)(b1-1)。特別是評委認(rèn)為重要的題項(xiàng),分值比較低時(shí),評委可能給表現(xiàn)不夠好的教師高于評委心理預(yù)期的分?jǐn)?shù)(b1),而非常好的教師分?jǐn)?shù)也得不到較高的分?jǐn)?shù),分?jǐn)?shù)區(qū)分度不夠。題項(xiàng)6和8的分值為15分,是所有題項(xiàng)中分值最高的,也是分?jǐn)?shù)能力“倒掛”次數(shù)最多的。

        3.量表形式對評委評分的影響

        量表只給出了各個(gè)題項(xiàng)的內(nèi)容和尺度,未設(shè)置評分等級導(dǎo)致評委評分缺乏依據(jù)。評委有一個(gè)“心理量尺”(c1),評委用“心理量尺”給題項(xiàng)評分(c2),具體給出什么分?jǐn)?shù)可能受到其他因素的影響(c1-1,c2-2),例如“人情”、“出場順序”等。由于記憶容量有限和背景差異,評委可能根據(jù)他認(rèn)為重要的題項(xiàng)來確定心理量尺(a1-1,a3-3),評委的“心理量尺”可能存在差異,評委之間缺乏統(tǒng)一的評分依據(jù)。加上外界因素的影響,同一個(gè)評委對不同的教師可能使用了不同的“心理量尺”,每個(gè)分?jǐn)?shù)應(yīng)對的能力實(shí)際上是不同的,就可能出現(xiàn)分?jǐn)?shù)能力“倒掛”現(xiàn)象。

        四、課堂教學(xué)能力評價(jià)量表優(yōu)化的建議

        (一)利用多面Rasch模型對量表進(jìn)行檢驗(yàn)

        1.構(gòu)念效度檢驗(yàn)

        根據(jù)單維性來判斷量表的構(gòu)念效度。如果檢驗(yàn)結(jié)果顯示量表具有單維性,說明量表的題項(xiàng)可以用于教學(xué)能力評價(jià)。如果檢驗(yàn)結(jié)果顯示量表不具有單維,說明量表中有部分題項(xiàng)不能用于教學(xué)能力評價(jià),需要把部分題項(xiàng)剔除或?qū)⑦@些題項(xiàng)單獨(dú)測量。本次研究的量表具有單維性,現(xiàn)有題項(xiàng)可以保留。

        2.性別功能差異檢驗(yàn)

        性別功能差異檢驗(yàn)用于檢驗(yàn)量表的公平性。如果量表具有性別功能差異,我們需要分析產(chǎn)生性別功能差異的原因。如果是男性和女性本身能力差異造成的,我們需要設(shè)置不同的評分標(biāo)準(zhǔn)。如果是群體特征差異造成的,我們需要剔除產(chǎn)生性別功能差異的題項(xiàng)或設(shè)置不同的題項(xiàng)。在本次研究的量表中,題項(xiàng)1和4具有性別功能差異,需要進(jìn)一步分析產(chǎn)生性別功能差異的原因,本次研究沒有涉及到這個(gè)內(nèi)容。

        3.評分異常檢驗(yàn)

        評分異常的表現(xiàn)形式之一是分?jǐn)?shù)能力“倒掛”。本次研究顯示,部分題項(xiàng)出現(xiàn)了分?jǐn)?shù)能力“倒掛”,需要從量表的內(nèi)容、尺度和形式三個(gè)方面分析產(chǎn)生這種現(xiàn)象的原因。

        (二)課堂教學(xué)能力評價(jià)量表優(yōu)化的具體措施

        1.簡化每個(gè)題項(xiàng)的測量內(nèi)容

        研究結(jié)果顯示,每個(gè)題項(xiàng)包括多個(gè)測量內(nèi)容,題項(xiàng)之間測量內(nèi)容交叉可能導(dǎo)致分?jǐn)?shù)能力“倒掛”現(xiàn)象出現(xiàn)。因此,簡化每個(gè)題項(xiàng)的測量內(nèi)容,盡量保證一個(gè)題項(xiàng)只有一個(gè)測量內(nèi)容,按測量內(nèi)容的屬性歸類排列,便于評委明確評價(jià)對象,提高量表的使用效果。

        2.分離尺度與權(quán)重

        當(dāng)題項(xiàng)的尺度包括權(quán)重在內(nèi)時(shí),評委的評分同時(shí)考慮了權(quán)重和能力。研究結(jié)果顯示,如果評委不認(rèn)同量表的尺度時(shí),評委就會各自在內(nèi)心重新設(shè)置尺度,評分時(shí)綜合考慮“內(nèi)心重新設(shè)置的尺度”與能力,分?jǐn)?shù)與能力的偏離會更大。因此,分離尺度和權(quán)重是必要的??梢苑抡阵w育評分的辦法,每個(gè)題項(xiàng)的尺度都是相同的,但權(quán)重另外設(shè)置。例如所有題項(xiàng)都設(shè)置為10分,評委只在0-10范圍內(nèi)評分,每個(gè)題目的分值按照權(quán)重和尺度加權(quán)計(jì)算。

        3.細(xì)化評分等級

        研究結(jié)果顯示,評委評分有自己的“心理量尺”,并未嚴(yán)格按照量表進(jìn)行評分。由于評委之間的“心理量尺”存在差異和外界因素的影響,評委的“心理量尺”失去了可比性。因此,細(xì)化評分等級,為評委評分提供相互比較的依據(jù),有利于減少分?jǐn)?shù)能力“倒掛”現(xiàn)象。對于容易觀察的測量內(nèi)容,可以對每個(gè)評分等級進(jìn)行關(guān)鍵行為描述。對于不容易觀察的測量內(nèi)容,可以對每個(gè)評分等級進(jìn)行總體描述。在此基礎(chǔ)上,管理方可以分類選擇一些課程建立可視化的模擬培訓(xùn)庫[26],加強(qiáng)對評委的培訓(xùn)和反饋。

        注釋:

        ①本文的量表均指大學(xué)教師課堂教學(xué)能力評價(jià)量表,教師均指大學(xué)教師。

        參考文獻(xiàn):

        [1]李長青.構(gòu)建平衡計(jì)分卡理論的高校教學(xué)質(zhì)量評價(jià)指標(biāo)體系[J].高教探索,2014(6):137-141.

        [2]呂少柳,劉曉.基于行動導(dǎo)向教學(xué)觀的課堂教學(xué)質(zhì)量[J].學(xué)理論,2010(31):242-243.

        [3]錢存陽,李丹青,潘 嵐.課堂教學(xué)質(zhì)量評價(jià)中的效度和信度分析[J].中國計(jì)量學(xué)院學(xué)報(bào),2004(2):164-167.

        [4]丁家玲,葉金華.層次分析法和模糊綜合評判在教師課堂教學(xué)質(zhì)量評價(jià)中的應(yīng)用[J].武漢大學(xué)學(xué)報(bào)(社會科學(xué)版),2003(3):241-245.

        [5]劉偉,孫林.基于支持向量機(jī)的課堂教學(xué)質(zhì)量評價(jià)[J].合肥工業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版),2010(7):968-971.

        [6]紀(jì)紅.課堂教學(xué)質(zhì)量評價(jià)的誤區(qū)與對策[J].中州大學(xué)學(xué)報(bào),2004(7):87-89.

        [7]張克非.課堂教學(xué)質(zhì)量評價(jià)數(shù)據(jù)客觀性處理及反饋機(jī)制探究[J].教學(xué)與管理,2014(3):44-47.

        [8]畢菁華.建立課堂教學(xué)質(zhì)量評價(jià)體系的實(shí)踐性探索[J].北京大學(xué)學(xué)報(bào)(哲學(xué)社會科學(xué)版),2007(5):295-297.

        [9]Posthuma R A,Morgeson Frederick P,Campion M A.Beyond Employment Interview Validity:A Comprehensive Narrative Review of Recent Research and Trends [J].Personnel Psychology,2002(55):1-82.

        [10][30]Uggerslev K L,Sulsky L M.Using Frame of Reference Training to Understand the Implications Rater Idiosyncrasy for Rating Accuracy [J].Journal of Applied Psychology,2008,93(3):711-719.

        [11]Melchiers K G,Lienhardt N. Is More Structure Reality Better? ?A Comparison of Frame of Reference Training and Descriptively Anchored Rating Scales to Improve Interviewers Rating Quality [J].Personnel Psychology,2011(64):53-87.

        [12][28]關(guān)丹丹.兩種評分量表的評分效應(yīng)比較研究[J].教育研究與實(shí)驗(yàn),2011(4):92-96.

        [13]李航.評分員與評分量表間的交互作用對EFL作文評分結(jié)果與過程的影響[D].杭州:浙江大學(xué),2012.

        [14]Wang WC,Cheng Y Y.Measurement Issues in Screening Outstanding Teachers [J].Journal of Applied Measurement,2001(2):171-186.

        [15] [23][25]Linacre J M.A Users Guide to Facets Rasch-Model Computer Programs[M].Chicago,2014:279,185,204.

        [16]漆書青,張厚粲.現(xiàn)代教育與心理測量學(xué)原理[M].北京:高等教育出版社,1998:33.

        [17]L·赫林,F(xiàn)·德雷斯哥,K·帕森斯.項(xiàng)目反應(yīng)理論在心理測量中的應(yīng)用[M].東北師范大學(xué)教育咨詢中心,譯.武漢:湖北教育出版社,1990:15.

        [18]Cason G J,Cason C L.A Deterministic Theory of Clinical Performance Rating[J].Evaluation and the Health Professions,1984(7):221-247.

        [19]Wu M,Adams ?R.Applying the Rasch Model to Psycho-social Measurement:A Practical Approach[M].Melbourne,2007:21-23.

        [20][24]王文中.Rasch測量理論與其在教育和心理之應(yīng)用[J].教育與心理研究,2004(4):637-694.

        [21]Holland P,Thayer D.Differential Item Performance and the Mantel-Haenszel procedure[C]//Paper Presented at the American Educational Research Association Annual Meeting.Francisco,1986.

        [22]Linacre J M.A Users Guide to Winsteps Rasch-Model Computer Programs[M].Chicago,2011: 601-602.

        [26]Sanchez J I,DeLa T P.A Second Look at the Relationship Between Rating and Behavioral Accuracy in Performance Appraisal [J]. Journal of Applied Psychology,1996,81(1):3-10.

        [27]陳社育.國家公務(wù)員錄用面試的效度研究[J].甘肅社會科學(xué),2002(2):40-44.

        [29]Powell D M,Goffin R D.Assessing Personality in the Employment Interview:the Impact of Training on Rater Accuracy[J].Human Performance,2009(22):450-465.

        猜你喜歡
        優(yōu)化
        超限高層建筑結(jié)構(gòu)設(shè)計(jì)與優(yōu)化思考
        PEMFC流道的多目標(biāo)優(yōu)化
        能源工程(2022年1期)2022-03-29 01:06:28
        民用建筑防煙排煙設(shè)計(jì)優(yōu)化探討
        關(guān)于優(yōu)化消防安全告知承諾的一些思考
        一道優(yōu)化題的幾何解法
        由“形”啟“數(shù)”優(yōu)化運(yùn)算——以2021年解析幾何高考題為例
        圍繞“地、業(yè)、人”優(yōu)化產(chǎn)業(yè)扶貧
        事業(yè)單位中固定資產(chǎn)會計(jì)處理的優(yōu)化
        4K HDR性能大幅度優(yōu)化 JVC DLA-X8 18 BC
        幾種常見的負(fù)載均衡算法的優(yōu)化
        電子制作(2017年20期)2017-04-26 06:57:45
        久久精品无码专区免费青青| 亚州终合人妖一区二区三区| 亚洲av永久无码精品一福利| 天堂а√在线中文在线新版| 欧美日韩区1区2区3区| 国产一区二区三区乱码在线| 一区二区三区国产在线视频| 少妇私密会所按摩到高潮呻吟| 丰满多毛少妇做爰视频| 国产对白刺激在线观看| 开心五月骚婷婷综合网| 久9re热视频这里只有精品| 色婷婷欧美在线播放内射| 中日无码精品一区二区三区| 日本免费久久高清视频| 天天摸夜夜摸夜夜狠狠摸| 国产日韩成人内射视频| 亚洲24小时在线免费视频网站| 不卡视频在线观看网站| 亚洲av日韩综合一区二区三区| 国产午夜成人久久无码一区二区| 国产三级在线观看性色av | 国产一区二区a毛片色欲 | 婷婷一区二区三区在线| 中文乱码字幕在线亚洲av| 人人人妻人人澡人人爽欧美一区| 亚洲av国产av综合av| 亚洲av熟女天堂系列| 视频在线观看免费一区二区| 成年免费视频黄网站zxgk| 亚洲精品一二区| 国产美女一区三区在线观看| 人妻少妇精品久久久久久| 国产熟妇搡bbbb搡bb七区| 日本一区二区亚洲三区| 蜜臀av一区二区三区免费观看| 亚洲国产精品久久久久婷婷老年| 国产乱人伦真实精品视频| 激情亚洲不卡一区二区| 久久精品国产亚洲av无码娇色| 一区二区三区日韩亚洲中文视频 |