基于多面Rasch模型的大學(xué)教師課堂教學(xué)能力評(píng)價(jià)量表優(yōu)化研究

2015-09-21 04:45:22盛艷燕喻秋山

高教探索 2015年9期

關(guān)鍵詞：優(yōu)化

盛艷燕+喻秋山

摘要：文章利用多面Rasch模型從量表使用者角度研究了大學(xué)教師課堂教學(xué)能力評(píng)價(jià)量表的優(yōu)化問題。實(shí)證研究發(fā)現(xiàn)，量表具有單維性，但2個(gè)題項(xiàng)存在性別上的不公平、7個(gè)題項(xiàng)存在分?jǐn)?shù)能力“倒掛”現(xiàn)象。訪談和扎根編碼分析后發(fā)現(xiàn)，量表內(nèi)容、尺度和形式是產(chǎn)生分?jǐn)?shù)能力“倒掛”的原因。因此，基于多面Rasch模型的假設(shè)和功能，量表優(yōu)化應(yīng)以多面Rasch模型檢驗(yàn)結(jié)果為依據(jù)，采取簡(jiǎn)化題項(xiàng)內(nèi)容、分離尺度與權(quán)重并細(xì)化評(píng)分等級(jí)的措施。

關(guān)鍵詞：多面Rasch模型;課堂教學(xué)能力評(píng)價(jià)量表;優(yōu)化

大學(xué)教師課堂教學(xué)能力評(píng)價(jià)是提高教學(xué)質(zhì)量的重要手段，其活動(dòng)的開展離不開課堂教學(xué)能力評(píng)價(jià)量表這個(gè)載體。①目前，大學(xué)教師課堂教學(xué)能力評(píng)價(jià)量表在教學(xué)管理中得到了廣泛應(yīng)用，卻沒有表現(xiàn)出管理方所期待的價(jià)值：分?jǐn)?shù)能夠區(qū)分教師的課堂教學(xué)能力，兼顧課程難度和評(píng)委差異。產(chǎn)生這種現(xiàn)象的原因不能僅僅歸結(jié)于評(píng)委誤差，課堂教學(xué)能力評(píng)價(jià)量表的設(shè)計(jì)也是其中一個(gè)重要的影響因素。如何優(yōu)化量表、提高量表的應(yīng)用價(jià)值成為管理方迫切需要解決的問題。

已有研究者試圖通過評(píng)價(jià)指標(biāo)的優(yōu)化來解決大學(xué)教師課堂教學(xué)能力評(píng)價(jià)量表優(yōu)化問題，其研究包括三個(gè)方面。第一，引入平衡計(jì)分卡、產(chǎn)出分解法確定初始指標(biāo)。[1][2]第二，通過克隆巴赫系數(shù)檢驗(yàn)量表的信度、因子分析法檢驗(yàn)指標(biāo)的構(gòu)建效度，改進(jìn)權(quán)重設(shè)計(jì)等方法來優(yōu)化量表。[3][4][5]第三，通過評(píng)價(jià)結(jié)果的反饋、數(shù)據(jù)標(biāo)準(zhǔn)化處理和選擇教學(xué)和管理經(jīng)驗(yàn)豐富、公平、公正的評(píng)教專家等方式提高量表的應(yīng)用價(jià)值。[6][7][8]

上述研究成果大多數(shù)從指標(biāo)本身出發(fā)研究大學(xué)教師課堂教學(xué)能力評(píng)價(jià)量表優(yōu)化問題，忽視了量表的使用者。面試?yán)碚撜J(rèn)為，面對(duì)相同的評(píng)分標(biāo)準(zhǔn)，評(píng)委對(duì)評(píng)分標(biāo)準(zhǔn)的理解和使用往往是不一致的 [9]，評(píng)委并未完全按照評(píng)分標(biāo)準(zhǔn)評(píng)分[10]，不同形式的評(píng)分標(biāo)準(zhǔn)影響評(píng)分的一致性[11]。語(yǔ)言學(xué)研究發(fā)現(xiàn)，評(píng)分標(biāo)準(zhǔn)的內(nèi)容、尺度和形式在一定程度上能解釋評(píng)委評(píng)分差異。[12][13]在大學(xué)教師課堂教學(xué)能力評(píng)價(jià)中，Wang 和Cheng利用多面Rasch模型分析了中山大學(xué)293名學(xué)生對(duì)30名任課教師表現(xiàn)的評(píng)分，發(fā)現(xiàn)學(xué)生嚴(yán)苛程度、難度和教師效能之間存在線性關(guān)系，評(píng)價(jià)者對(duì)評(píng)價(jià)結(jié)果的影響是顯著的。[14]因此，從量表使用者角度分析大學(xué)教師課堂教學(xué)能力評(píng)價(jià)量表的設(shè)計(jì)內(nèi)容、尺度和形式對(duì)評(píng)價(jià)結(jié)果的影響，進(jìn)而優(yōu)化量表是非常有必要的。

多面Rasch模型為量表優(yōu)化提供了可行的方法，在大學(xué)教師課堂教學(xué)能力評(píng)價(jià)中應(yīng)用非常少。本文將多面Rasch模型引入大學(xué)教師課堂教學(xué)能力評(píng)價(jià)量表的優(yōu)化，在已有研究成果基礎(chǔ)上作出了三點(diǎn)創(chuàng)新：第一，研究角度創(chuàng)新。研究角度從量表本身轉(zhuǎn)向量表的使用者，拓展了研究的角度。第二，研究對(duì)象創(chuàng)新。利用訪談和扎根編碼技術(shù)探討了評(píng)委評(píng)分的心理過程，分析量表內(nèi)容、尺度和形式對(duì)評(píng)分的影響。第三，研究結(jié)論創(chuàng)新。本文基于多面Rasch模型的假設(shè)和功能提出了量表優(yōu)化的方法，具有普遍適用性。

一、理論模型與研究假設(shè)

能力測(cè)評(píng)理論可以分為經(jīng)典測(cè)量理論和潛在特質(zhì)理論。經(jīng)典測(cè)量理論假設(shè)評(píng)委評(píng)分的行為像“打分機(jī)器”一樣完全相同[15]，測(cè)量誤差相互獨(dú)立，被測(cè)心理特質(zhì)可以用原始分?jǐn)?shù)來表示[16]。潛在特質(zhì)理論認(rèn)為能力是制約人們完成某一任務(wù)的若干潛在特質(zhì)，正確做答的概率是個(gè)人潛在特質(zhì)水平的函數(shù)[17]，評(píng)委評(píng)分是考生能力和評(píng)委特點(diǎn)的函數(shù)[18]。因此，做答概率、個(gè)人能力和題目難度被定義在同一尺度上，評(píng)委具有各自獨(dú)特的評(píng)分行為，測(cè)量的結(jié)果使得能力獨(dú)立于特定的題目和評(píng)委。

潛在特質(zhì)理論更適合用來評(píng)價(jià)大學(xué)教師的課堂教學(xué)能力。在大學(xué)教師課堂教學(xué)能力評(píng)價(jià)中，評(píng)委往往依據(jù)評(píng)分標(biāo)準(zhǔn)獨(dú)立評(píng)分，有的評(píng)委評(píng)分明顯寬松，有的評(píng)委正好相反。如果教師擔(dān)任的課程難度比較大，又遇到了評(píng)分嚴(yán)格的評(píng)委，分?jǐn)?shù)就會(huì)明顯偏低;相反，如果教師擔(dān)任的課程難度比較小，評(píng)委評(píng)分比較寬松，分?jǐn)?shù)就會(huì)明顯偏高。因此，原始分?jǐn)?shù)不足以代表教師的課堂教學(xué)能力，矯正任務(wù)難度和評(píng)委差異后的結(jié)果能更加準(zhǔn)確地表示教師的課堂教學(xué)能力。

多面Rasch模型是一種潛在特質(zhì)理論模型，可以用來實(shí)現(xiàn)量表的優(yōu)化。首先，多面Rasch模型可以用來識(shí)別量表的構(gòu)念。多面Rasch模型的假設(shè)前提是單維性，意思是指所有題項(xiàng)測(cè)量了同一種潛在特質(zhì)。如果量表是單維的，說明所有題項(xiàng)從不同的方面測(cè)量了同一個(gè)構(gòu)念，分?jǐn)?shù)能夠加總并可以相互比較。[19]如果量表不是單維的，說明至少有部分題項(xiàng)測(cè)量的構(gòu)念與其他題項(xiàng)不同，需要將部分題項(xiàng)排除或設(shè)計(jì)量表單獨(dú)測(cè)量。[20]其次，多面Rasch模型可以用來檢驗(yàn)量表的公平性。如果相同能力的群體由于不同的群體特征導(dǎo)致在同一題目上具有不同的正確作答概率[21]，測(cè)驗(yàn)就產(chǎn)生了不公平。多面Rasch模型提供了項(xiàng)目功能差異檢驗(yàn)的方法，可以針對(duì)不同題項(xiàng)檢驗(yàn)是否存在不公平。最后，多面Rasch模型可以識(shí)別評(píng)分異常的題項(xiàng)。多面Rasch模型將原始分?jǐn)?shù)分解為能力估計(jì)值、評(píng)委寬嚴(yán)度、題項(xiàng)難度和等級(jí)難度，能夠分析每個(gè)題項(xiàng)對(duì)應(yīng)的能力估計(jì)值、每個(gè)分值對(duì)應(yīng)的能力估計(jì)值，識(shí)別評(píng)分產(chǎn)生異常的題項(xiàng)，為量表優(yōu)化提供依據(jù)。

基于以上分析，本文提出如下假設(shè)：多面Rasch模型適合用于大學(xué)教師課堂教學(xué)能力評(píng)價(jià)量表的優(yōu)化。

二、課堂教學(xué)能力評(píng)價(jià)量表存在問題的多面Rasch分析

（一）樣本與數(shù)據(jù)來源

本次研究從某高校的一個(gè)學(xué)院抽取了2014年11月至12月的107份課堂教學(xué)評(píng)價(jià)表，量表內(nèi)容見表1。評(píng)委共有6位，被聽課的教師有23位。其中，有2位評(píng)委分別只對(duì)兩位不同的教師進(jìn)行了評(píng)分，因評(píng)分次數(shù)太少而被剔除，其余4位評(píng)委的評(píng)分?jǐn)?shù)據(jù)被保留。在被剔除的2位評(píng)委的評(píng)分?jǐn)?shù)據(jù)中，1位教師只被評(píng)分一次，而沒有被其他評(píng)委評(píng)分。因此，該教師的評(píng)分表也被剔除。

按照教師編號(hào)對(duì)22位教師的課堂教學(xué)評(píng)價(jià)數(shù)據(jù)進(jìn)行分類整理。評(píng)委的編號(hào)為A、B、C、D，教師的編號(hào)為1、2、3…22。18位教師分別被4位相同的評(píng)委評(píng)分，其他4位教師被若干不同的評(píng)委評(píng)分。若同一位評(píng)委對(duì)某位教師多次評(píng)分，該教師的得分用這個(gè)評(píng)委評(píng)分的均值表示。例如，編號(hào)為1的教師被編號(hào)為A的評(píng)委評(píng)分兩次，編號(hào)為A的評(píng)委對(duì)該教師的評(píng)分按照兩次評(píng)分的平均值計(jì)算，教師最后的分?jǐn)?shù)等于多位評(píng)委評(píng)分的均值。經(jīng)過整理，我們得到了4位評(píng)委對(duì)22位教師的評(píng)分?jǐn)?shù)據(jù)共77個(gè)，形成本次研究的樣本。

（二）研究方法與工具

本次研究采用的工具是Winsteps3.72.3軟件和Facets3.71.4軟件。Winsteps軟件和Facets軟件都是多面Rasch模型分析工具，其原理是一致的。[22]Winsteps軟件能實(shí)現(xiàn)單維性檢驗(yàn)和項(xiàng)目功能差異性檢驗(yàn)，F(xiàn)acets軟件則不能實(shí)現(xiàn)這兩項(xiàng)功能。Facets軟件能將評(píng)委、課程和被評(píng)價(jià)人作為三個(gè)單獨(dú)的面進(jìn)行分析，體現(xiàn)課程差異和評(píng)委差異，Winsteps軟件則將評(píng)委、課程和被評(píng)價(jià)人作為一個(gè)面來分析。因此，多面Rasch模型分析可以同時(shí)使用Winsteps軟件和Facets軟件來實(shí)現(xiàn)多種功能。

在運(yùn)用多面Rasch模型之前，首先要對(duì)數(shù)據(jù)的整體擬合程度進(jìn)行檢驗(yàn)。運(yùn)用Winsteps軟件進(jìn)行單維性檢驗(yàn)，運(yùn)用Facets軟件計(jì)算樣本誤差均值和標(biāo)準(zhǔn)誤。如果數(shù)據(jù)滿足單維性假設(shè)，并且樣本誤差均值接近于0、標(biāo)準(zhǔn)誤接近于1，說明數(shù)據(jù)的整體擬合程度比較高，可以運(yùn)用多面Rasch模型對(duì)數(shù)據(jù)進(jìn)行分析。[23]其次，證明數(shù)據(jù)擬合多面Rasch模型后，我們可以利用Winsteps軟件進(jìn)行項(xiàng)目功能差異檢驗(yàn)。本文針對(duì)性別進(jìn)行項(xiàng)目功能差異檢驗(yàn)，用于識(shí)別產(chǎn)生項(xiàng)目功能差異的題項(xiàng)。最后，利用Facets軟件分析能力與分?jǐn)?shù)之間的關(guān)系，用于識(shí)別產(chǎn)生評(píng)分異常的題項(xiàng)。

（三）多面Rasch模型適用性檢驗(yàn)

單維性檢驗(yàn)用于檢驗(yàn)問卷題項(xiàng)是否測(cè)量了相同的潛在特質(zhì)，這是多面Rasch模型能夠應(yīng)用的前提。大學(xué)教師課堂教學(xué)能力評(píng)價(jià)量表一共有8個(gè)題項(xiàng)，總分按照8個(gè)題項(xiàng)得分加總計(jì)算。如果這8個(gè)題項(xiàng)可以歸屬于同一個(gè)潛在特質(zhì)，可以認(rèn)為這8個(gè)題項(xiàng)測(cè)量從不同角度測(cè)量了同一種教師課堂教學(xué)能力，總分可以用來表示教師課堂教學(xué)能力的高低。反之，則說明至少有部分題項(xiàng)與其它題項(xiàng)測(cè)量的并不是同一種能力，需要將部分題項(xiàng)排除或設(shè)計(jì)量表單獨(dú)測(cè)量。[24]

Winsteps軟件提供了殘差主成分分析法來檢驗(yàn)量表的單維性，檢驗(yàn)結(jié)果見表2。如果剔除多面Rasch模型可解釋部分后，殘差仍有若干共同的潛在特質(zhì)并且特征值（未解釋的變異）大于2，說明存在第二個(gè)維度，量表不具有單維性。五個(gè)維度中未解釋變異的特征值分別為1.8、1.6、1.3、1和0.8，都沒有超過2，說明量表具有單維性。[22]因此，8個(gè)題項(xiàng)從不同的角度測(cè)量了教師的課堂教學(xué)能力。

Facets軟件檢驗(yàn)結(jié)果顯示數(shù)據(jù)對(duì)Rasch模型的擬合程度比較高，結(jié)果見表3。樣本觀察值21.83，模型期望值為20.14，誤差均值為0。樣本標(biāo)準(zhǔn)差為3.96，模型擬合值的標(biāo)準(zhǔn)差為3.64，全樣本標(biāo)準(zhǔn)誤為1。因此，從樣本誤差均值和全樣本標(biāo)準(zhǔn)誤來判斷，采用多面Rasch模型來分析數(shù)據(jù)是適合的。

（四）課堂教學(xué)能力評(píng)價(jià)量表存在的問題

1.2個(gè)題項(xiàng)存在性別上的不公平

測(cè)驗(yàn)的公平性可以用項(xiàng)目功能差異檢驗(yàn)的結(jié)果來表示。如果教師課堂教學(xué)能力評(píng)價(jià)量表在性別上存在項(xiàng)目功能差異，可能會(huì)對(duì)處于劣勢(shì)的群體不公平，影響他們提高教學(xué)質(zhì)量的積極性。因此，測(cè)驗(yàn)開發(fā)和使用者需要進(jìn)行項(xiàng)目功能差異檢驗(yàn)，識(shí)別可能產(chǎn)生項(xiàng)目功能差異的題項(xiàng)，以便對(duì)量表進(jìn)行優(yōu)化。

Winsteps軟件可以實(shí)現(xiàn)項(xiàng)目功能差異檢驗(yàn)，檢驗(yàn)結(jié)果見表4。DIF 表示項(xiàng)目功能差異檢驗(yàn)，DIF MEASURE表示某個(gè)群組答對(duì)特定題項(xiàng)的難度，DIF S.E表示標(biāo)準(zhǔn)誤。DIF MEASURE越大，說明該群組答對(duì)該題的難度越大。DIF CONTRAST是兩個(gè)群組答對(duì)特定題目的難度差異，Welch T和Prob表示難度差異的顯著程度。男性組中第1個(gè)題項(xiàng)最難，第6個(gè)題項(xiàng)最容易。女性組中第5個(gè)題項(xiàng)最難，第8個(gè)題項(xiàng)最容易。第1題的DIF CONTRAST=-0.81Logits（t=-2.48，Prob=0.0155<0.05）、第4題的DIF CONTRAST=0.47Logits（t=2.12，Prob=0.0378<0.05），說明男性和女性在第1題上和第4題上難度有顯著差異，可能存在因性別導(dǎo)致的不公平。

2.7個(gè)題項(xiàng)出現(xiàn)分?jǐn)?shù)能力“倒掛”

測(cè)量學(xué)原理認(rèn)為，分?jǐn)?shù)代表能力，分?jǐn)?shù)越高代表能力越強(qiáng)。多面Rasch模型假設(shè)隨分?jǐn)?shù)增加，能力呈“S”型曲線。[25]如果某個(gè)題項(xiàng)出現(xiàn)了較低分?jǐn)?shù)代表的能力值高于較高分?jǐn)?shù)代表的能力值，說明該題項(xiàng)出現(xiàn)了分?jǐn)?shù)能力“倒掛”的現(xiàn)象。

Facets軟件可以用來檢驗(yàn)?zāi)芰κ欠耠S分?jǐn)?shù)增加而提高，并用*標(biāo)記出現(xiàn)“倒掛”的題項(xiàng)。結(jié)果顯示，除了題項(xiàng)1，其余的題項(xiàng)都出現(xiàn)了分?jǐn)?shù)能力“倒掛”現(xiàn)象。題項(xiàng)2和8出現(xiàn)了3次“倒掛”，題項(xiàng)4、6和7出現(xiàn)了2次“倒掛”，題項(xiàng)3和5出現(xiàn)了1次“倒掛”。

以題項(xiàng)2為例進(jìn)行分析，見表5。26分使用的次數(shù)最多，其次是24分和28分，28分使用了8次，22分使用了4次，25分使用了2次，20分、29分和30分只使用了2次，21分和23分沒有被使用過。22分對(duì)應(yīng)的能力值低于20分所對(duì)應(yīng)的能力值，25分的能力均值低于24分的能力均值，30分的能力均值低于29分的能力均值。從等級(jí)間距來看，每增加一分所需能力值并不相等。通常原始分?jǐn)?shù)直接比較時(shí)，我們認(rèn)為一分代表相同的能力。但實(shí)際情況是，從25分增加到26分所需能力值最小，從28分增加到29分所需能力值最大。說明在不同的評(píng)分等級(jí)，一分代表了不同的能力，同時(shí)評(píng)委過多地使用了24、26和28分，對(duì)分?jǐn)?shù)所代表的能力差異理解和把握不夠準(zhǔn)確。

三、課堂教學(xué)評(píng)價(jià)量表存在問題的原因分析

項(xiàng)目功能差異檢驗(yàn)和識(shí)別評(píng)分異常的題項(xiàng)為量表優(yōu)化提供了依據(jù)，但不能分析產(chǎn)生項(xiàng)目功能差異和評(píng)分異常的原因。因此，本文對(duì)評(píng)委進(jìn)行了訪談，利用扎根編碼技術(shù)分析產(chǎn)生評(píng)分異常的原因，提出了量表優(yōu)化的方法。

（一）訪談提綱的設(shè)計(jì)

1.訪談提綱設(shè)計(jì)的依據(jù)

影響評(píng)委評(píng)分的因素是多方面的，評(píng)分量表對(duì)評(píng)委評(píng)分影響的研究非常少見，未發(fā)現(xiàn)有關(guān)大學(xué)教師課堂教學(xué)能力評(píng)價(jià)量表對(duì)評(píng)委評(píng)分影響的文獻(xiàn)。在教學(xué)能力評(píng)價(jià)中，評(píng)委依據(jù)評(píng)分量表收集信息，并對(duì)信息進(jìn)行解釋、歸納、演繹并給出分?jǐn)?shù)，與之接近的研究是有關(guān)面試的研究和英語(yǔ)作文評(píng)分的研究。因此，本文以面試和英語(yǔ)作文評(píng)分的研究成果為依據(jù)來設(shè)計(jì)訪談提綱。

評(píng)分量表對(duì)評(píng)委評(píng)分影響的研究主要分為三類。第一類是評(píng)分量表內(nèi)容對(duì)評(píng)委評(píng)分影響的研究。有關(guān)面試的研究表明，測(cè)評(píng)要素越多，每個(gè)測(cè)評(píng)要素內(nèi)部包含的屬性越多，量表的使用效果越差。[26][27]第二類是評(píng)分量表尺度對(duì)評(píng)委評(píng)分的影響。英語(yǔ)作文評(píng)分的研究發(fā)現(xiàn)，小尺度評(píng)分量表的評(píng)分一致性要高于大尺度評(píng)分量表的一致性。[28]第三類是評(píng)分量表形式對(duì)評(píng)委評(píng)分影響的研究。面試研究發(fā)現(xiàn)，為每個(gè)評(píng)分等級(jí)提供典型行為描述，盡量通過媒介促使行為可視化能夠提高評(píng)委評(píng)分的一致性程度和評(píng)價(jià)的準(zhǔn)確性。[29][30]由此可以假設(shè)，教學(xué)能力評(píng)價(jià)量表題項(xiàng)太多、每個(gè)題項(xiàng)包括了不同的測(cè)量?jī)?nèi)容，每個(gè)題項(xiàng)分值過大、評(píng)分等級(jí)描述不夠清晰會(huì)影響評(píng)委對(duì)量表的理解和把握程度。

2.訪談對(duì)象與訪談提綱內(nèi)容

訪談提綱的內(nèi)容圍繞量表的內(nèi)容、尺度和形式展開，要求評(píng)委講述他們?cè)谠u(píng)分過程中是如何使用量表的。評(píng)委以一門課程為例，先對(duì)照評(píng)分表記錄表的課堂內(nèi)容對(duì)該教師的教學(xué)能力作出整體評(píng)價(jià)，再對(duì)量表合理與不合理的地方進(jìn)行評(píng)價(jià)，最后對(duì)每個(gè)題項(xiàng)給出評(píng)分的理由。

研究者需要了解三個(gè)方面的問題。在評(píng)分量表內(nèi)容方面，包括您覺得8個(gè)題項(xiàng)多不多？您覺得這8個(gè)題項(xiàng)意思表達(dá)是否明確，是否會(huì)干擾您的評(píng)分？有什么可以改進(jìn)的地方？在評(píng)分尺度方面，訪談的問題有：您覺得哪些題項(xiàng)分值設(shè)置是合理的，哪些是不合理的，原因是什么？在評(píng)分量表形式方面，訪談的問題有：您在這個(gè)題項(xiàng)給了××分，為什么不多給幾分，或少給幾分呢？您覺得將該題項(xiàng)劃分成幾個(gè)分?jǐn)?shù)段，您是否會(huì)使用這些分?jǐn)?shù)段去區(qū)分不同教師的能力？

訪談的對(duì)象是4位曾經(jīng)擔(dān)任過課堂教學(xué)評(píng)價(jià)的老師，包括前面提供評(píng)分?jǐn)?shù)據(jù)的4位評(píng)委中的2位。如果能對(duì)4位評(píng)委進(jìn)行訪談，研究結(jié)果更為可靠。由于條件的限制，無法對(duì)4位評(píng)委進(jìn)行訪談，只能選擇具有多年教學(xué)評(píng)價(jià)經(jīng)驗(yàn)的教師進(jìn)行類比，這也是在缺乏數(shù)據(jù)的情況下不得不采取的辦法。

（二）訪談內(nèi)容整理與編碼

本次研究采取開放式訪談和研究者提問相結(jié)合的方式。評(píng)委先圍繞量表的合理性作出評(píng)價(jià)，然后對(duì)每個(gè)題項(xiàng)給出評(píng)分理由，對(duì)于評(píng)分量表內(nèi)容、尺度和形式方面沒有涉及的問題由研究者提問作為補(bǔ)充。

編碼采用扎根編碼技術(shù)。評(píng)分量表內(nèi)容編碼為a1，a2…，其影響編碼為a1-1，a2-2…，依次類推。量表尺度編碼為b1，b2…，其影響編碼為b1-1，b2-2等。量表形式編碼為c1，c2…，其影響編碼為c1-1，c2-2等。

經(jīng)過整理后，部分訪談內(nèi)容和編碼摘錄如下。

我在聽別人上課時(shí)，先在量表上記錄板書提綱。課程快結(jié)束時(shí)，我會(huì)在心理形成一個(gè)整體判斷。我給分一般在82分到92分之間。（c1）我覺得分給太少了不好意思，都是同事。分也不能太高，92分已經(jīng)很高了，再高的話有點(diǎn)不切實(shí)際。我一般分為三個(gè)檔次，最好的90-92分，其次是85-89分，最后是82-84分。（c1）我在心理給他定位后，再分題項(xiàng)給分，保證他所得的分?jǐn)?shù)在我給他劃定的檔次之內(nèi)。（c2）我覺得表現(xiàn)好的就在該檔次內(nèi)給一個(gè)高點(diǎn)的分?jǐn)?shù)。（c1-1，c2-2）每個(gè)題項(xiàng)的給分也基本按照這個(gè)思路。沒有人告訴我每個(gè)題項(xiàng)什么樣子可以給15分，什么樣子可以給12分，我只能根據(jù)我的經(jīng)驗(yàn)判斷。（c3）如果我對(duì)該課程很熟悉，我覺得判斷還比較準(zhǔn)確。如果我對(duì)該課程不熟悉，我只能看學(xué)生的表現(xiàn)和老師講課的熟練程度、邏輯性，也是外行看熱鬧吧。（c3-3）我覺得題項(xiàng)2“思路清晰，重難點(diǎn)突出”是最重要的，也是最不好把握的。（a1）如果這方面表現(xiàn)比較好，我認(rèn)為其他方面也不會(huì)太差。（c3）這個(gè)題項(xiàng)只有15分，和其他題項(xiàng)分?jǐn)?shù)差異不大，沒有突出其重要地位，這顯然是不合適的。（b1）他在這一項(xiàng)上得分不高，但考慮到很重要，就多給了幾分。（b1-1）很多題項(xiàng)表達(dá)都不是太合理，例如治學(xué)嚴(yán)謹(jǐn)，究竟是指“思路清晰”、“教案準(zhǔn)備充分”還是“課堂紀(jì)律良好”、“課堂教學(xué)充實(shí)”和“信息量大”，實(shí)際上是同一個(gè)問題，卻分屬題項(xiàng)3和4。（a2）題項(xiàng)3中還有“講授內(nèi)容熟練”，那我就不知道題項(xiàng)3和題項(xiàng)4究竟按照哪個(gè)標(biāo)準(zhǔn)評(píng)分了。（a2-2）同樣的問題也出現(xiàn)在題項(xiàng)5和題項(xiàng)7，題項(xiàng)5究竟是要對(duì)老師的語(yǔ)言表達(dá)能力進(jìn)行評(píng)價(jià)，還是對(duì)教學(xué)方法進(jìn)行評(píng)價(jià)（a3），我只能選擇我認(rèn)為重要的那個(gè)。（a1-1，a3-3）8個(gè)題項(xiàng)并不多，關(guān)鍵是題項(xiàng)之間的關(guān)系不明確，量表不方便評(píng)委使用。

訪談編碼結(jié)束后，對(duì)訪談編碼進(jìn)行匯總。將訪談?wù)咛岬降膬?nèi)容按量表內(nèi)容、量表尺度和量表形式歸類，找出原因和結(jié)果的對(duì)應(yīng)關(guān)系，見表6。

（三）量表對(duì)評(píng)分的影響分析

1.量表內(nèi)容對(duì)評(píng)委評(píng)分的影響

題項(xiàng)的測(cè)量?jī)?nèi)容和性質(zhì)影響評(píng)委評(píng)分。如果一個(gè)題項(xiàng)同時(shí)包含兩個(gè)測(cè)量?jī)?nèi)容，評(píng)委既可能選擇他

認(rèn)為重要的測(cè)量?jī)?nèi)容（a2-2），也可能隨意選擇一個(gè)測(cè)量?jī)?nèi)容（a1-1），導(dǎo)致多個(gè)評(píng)委評(píng)價(jià)的對(duì)象是不一致的，甚至同一個(gè)評(píng)委對(duì)不同的教師選擇了不同的測(cè)量?jī)?nèi)容進(jìn)行評(píng)價(jià)。如果測(cè)量的內(nèi)容本身不好把握（a1），評(píng)委對(duì)課程不熟悉、缺乏可參考的依據(jù)（c3），可能評(píng)委就選擇他認(rèn)為重要的測(cè)量?jī)?nèi)容對(duì)教師的整體表現(xiàn)進(jìn)行評(píng)分，而不會(huì)按題項(xiàng)的測(cè)量?jī)?nèi)容給分。題項(xiàng)2和題項(xiàng)8出現(xiàn)分?jǐn)?shù)能力“倒掛”現(xiàn)象的次數(shù)最多，題項(xiàng)3和5出現(xiàn) “倒掛”次數(shù)最少，可能與該題項(xiàng)測(cè)量?jī)?nèi)容容易觀察有關(guān)。

2.量表尺度對(duì)評(píng)委評(píng)分的影響

評(píng)委給出的評(píng)分不僅僅體現(xiàn)了教師的能力，還受到題項(xiàng)重要性程度的影響。一般情況下，題項(xiàng)越重要，題項(xiàng)分值越高。如果評(píng)委認(rèn)為某教師在一個(gè)題項(xiàng)上的表現(xiàn)非常好，足夠給最高分，而該題項(xiàng)只有10分，那么評(píng)委也只能給10分。如果某教師在另外一個(gè)題項(xiàng)上表現(xiàn)一般，該題項(xiàng)最高分是15分，評(píng)委可能給出了12分，這個(gè)分?jǐn)?shù)不僅僅是教師的能力，還包括了評(píng)委對(duì)該題項(xiàng)重要性程度的認(rèn)可，結(jié)果是評(píng)委附加了新的評(píng)分標(biāo)準(zhǔn)（b1-1）。特別是評(píng)委認(rèn)為重要的題項(xiàng)，分值比較低時(shí)，評(píng)委可能給表現(xiàn)不夠好的教師高于評(píng)委心理預(yù)期的分?jǐn)?shù)（b1），而非常好的教師分?jǐn)?shù)也得不到較高的分?jǐn)?shù)，分?jǐn)?shù)區(qū)分度不夠。題項(xiàng)6和8的分值為15分，是所有題項(xiàng)中分值最高的，也是分?jǐn)?shù)能力“倒掛”次數(shù)最多的。

3.量表形式對(duì)評(píng)委評(píng)分的影響

量表只給出了各個(gè)題項(xiàng)的內(nèi)容和尺度，未設(shè)置評(píng)分等級(jí)導(dǎo)致評(píng)委評(píng)分缺乏依據(jù)。評(píng)委有一個(gè)“心理量尺”（c1），評(píng)委用“心理量尺”給題項(xiàng)評(píng)分（c2），具體給出什么分?jǐn)?shù)可能受到其他因素的影響（c1-1，c2-2），例如“人情”、“出場(chǎng)順序”等。由于記憶容量有限和背景差異，評(píng)委可能根據(jù)他認(rèn)為重要的題項(xiàng)來確定心理量尺（a1-1，a3-3），評(píng)委的“心理量尺”可能存在差異，評(píng)委之間缺乏統(tǒng)一的評(píng)分依據(jù)。加上外界因素的影響，同一個(gè)評(píng)委對(duì)不同的教師可能使用了不同的“心理量尺”，每個(gè)分?jǐn)?shù)應(yīng)對(duì)的能力實(shí)際上是不同的，就可能出現(xiàn)分?jǐn)?shù)能力“倒掛”現(xiàn)象。

四、課堂教學(xué)能力評(píng)價(jià)量表優(yōu)化的建議

（一）利用多面Rasch模型對(duì)量表進(jìn)行檢驗(yàn)

1.構(gòu)念效度檢驗(yàn)

根據(jù)單維性來判斷量表的構(gòu)念效度。如果檢驗(yàn)結(jié)果顯示量表具有單維性，說明量表的題項(xiàng)可以用于教學(xué)能力評(píng)價(jià)。如果檢驗(yàn)結(jié)果顯示量表不具有單維，說明量表中有部分題項(xiàng)不能用于教學(xué)能力評(píng)價(jià)，需要把部分題項(xiàng)剔除或?qū)⑦@些題項(xiàng)單獨(dú)測(cè)量。本次研究的量表具有單維性，現(xiàn)有題項(xiàng)可以保留。

2.性別功能差異檢驗(yàn)

性別功能差異檢驗(yàn)用于檢驗(yàn)量表的公平性。如果量表具有性別功能差異，我們需要分析產(chǎn)生性別功能差異的原因。如果是男性和女性本身能力差異造成的，我們需要設(shè)置不同的評(píng)分標(biāo)準(zhǔn)。如果是群體特征差異造成的，我們需要剔除產(chǎn)生性別功能差異的題項(xiàng)或設(shè)置不同的題項(xiàng)。在本次研究的量表中，題項(xiàng)1和4具有性別功能差異，需要進(jìn)一步分析產(chǎn)生性別功能差異的原因，本次研究沒有涉及到這個(gè)內(nèi)容。

3.評(píng)分異常檢驗(yàn)

評(píng)分異常的表現(xiàn)形式之一是分?jǐn)?shù)能力“倒掛”。本次研究顯示，部分題項(xiàng)出現(xiàn)了分?jǐn)?shù)能力“倒掛”，需要從量表的內(nèi)容、尺度和形式三個(gè)方面分析產(chǎn)生這種現(xiàn)象的原因。

（二）課堂教學(xué)能力評(píng)價(jià)量表優(yōu)化的具體措施

1.簡(jiǎn)化每個(gè)題項(xiàng)的測(cè)量?jī)?nèi)容

研究結(jié)果顯示，每個(gè)題項(xiàng)包括多個(gè)測(cè)量?jī)?nèi)容，題項(xiàng)之間測(cè)量?jī)?nèi)容交叉可能導(dǎo)致分?jǐn)?shù)能力“倒掛”現(xiàn)象出現(xiàn)。因此，簡(jiǎn)化每個(gè)題項(xiàng)的測(cè)量?jī)?nèi)容，盡量保證一個(gè)題項(xiàng)只有一個(gè)測(cè)量?jī)?nèi)容，按測(cè)量?jī)?nèi)容的屬性歸類排列，便于評(píng)委明確評(píng)價(jià)對(duì)象，提高量表的使用效果。

2.分離尺度與權(quán)重

當(dāng)題項(xiàng)的尺度包括權(quán)重在內(nèi)時(shí)，評(píng)委的評(píng)分同時(shí)考慮了權(quán)重和能力。研究結(jié)果顯示，如果評(píng)委不認(rèn)同量表的尺度時(shí)，評(píng)委就會(huì)各自在內(nèi)心重新設(shè)置尺度，評(píng)分時(shí)綜合考慮“內(nèi)心重新設(shè)置的尺度”與能力，分?jǐn)?shù)與能力的偏離會(huì)更大。因此，分離尺度和權(quán)重是必要的?？梢苑抡阵w育評(píng)分的辦法，每個(gè)題項(xiàng)的尺度都是相同的，但權(quán)重另外設(shè)置。例如所有題項(xiàng)都設(shè)置為10分，評(píng)委只在0-10范圍內(nèi)評(píng)分，每個(gè)題目的分值按照權(quán)重和尺度加權(quán)計(jì)算。

3.細(xì)化評(píng)分等級(jí)

研究結(jié)果顯示，評(píng)委評(píng)分有自己的“心理量尺”，并未嚴(yán)格按照量表進(jìn)行評(píng)分。由于評(píng)委之間的“心理量尺”存在差異和外界因素的影響，評(píng)委的“心理量尺”失去了可比性。因此，細(xì)化評(píng)分等級(jí)，為評(píng)委評(píng)分提供相互比較的依據(jù)，有利于減少分?jǐn)?shù)能力“倒掛”現(xiàn)象。對(duì)于容易觀察的測(cè)量?jī)?nèi)容，可以對(duì)每個(gè)評(píng)分等級(jí)進(jìn)行關(guān)鍵行為描述。對(duì)于不容易觀察的測(cè)量?jī)?nèi)容，可以對(duì)每個(gè)評(píng)分等級(jí)進(jìn)行總體描述。在此基礎(chǔ)上，管理方可以分類選擇一些課程建立可視化的模擬培訓(xùn)庫(kù)[26]，加強(qiáng)對(duì)評(píng)委的培訓(xùn)和反饋。

注釋：

①本文的量表均指大學(xué)教師課堂教學(xué)能力評(píng)價(jià)量表，教師均指大學(xué)教師。

參考文獻(xiàn)：

[1]李長(zhǎng)青.構(gòu)建平衡計(jì)分卡理論的高校教學(xué)質(zhì)量評(píng)價(jià)指標(biāo)體系[J].高教探索，2014（6）：137-141.

[2]呂少柳，劉曉.基于行動(dòng)導(dǎo)向教學(xué)觀的課堂教學(xué)質(zhì)量[J].學(xué)理論，2010（31）：242-243.

[3]錢存陽(yáng)，李丹青，潘嵐.課堂教學(xué)質(zhì)量評(píng)價(jià)中的效度和信度分析[J].中國(guó)計(jì)量學(xué)院學(xué)報(bào)，2004（2）：164-167.

[4]丁家玲，葉金華.層次分析法和模糊綜合評(píng)判在教師課堂教學(xué)質(zhì)量評(píng)價(jià)中的應(yīng)用[J].武漢大學(xué)學(xué)報(bào)（社會(huì)科學(xué)版），2003（3）：241-245.

[5]劉偉，孫林.基于支持向量機(jī)的課堂教學(xué)質(zhì)量評(píng)價(jià)[J].合肥工業(yè)大學(xué)學(xué)報(bào)（自然科學(xué)版），2010（7）：968-971.

[6]紀(jì)紅.課堂教學(xué)質(zhì)量評(píng)價(jià)的誤區(qū)與對(duì)策[J].中州大學(xué)學(xué)報(bào)，2004（7）：87-89.

[7]張克非.課堂教學(xué)質(zhì)量評(píng)價(jià)數(shù)據(jù)客觀性處理及反饋機(jī)制探究[J].教學(xué)與管理，2014（3）：44-47.

[8]畢菁華.建立課堂教學(xué)質(zhì)量評(píng)價(jià)體系的實(shí)踐性探索[J].北京大學(xué)學(xué)報(bào)（哲學(xué)社會(huì)科學(xué)版），2007（5）：295-297.

[9]Posthuma R A，Morgeson Frederick P，Campion M A.Beyond Employment Interview Validity：A Comprehensive Narrative Review of Recent Research and Trends [J].Personnel Psychology，2002（55）：1-82.

[10][30]Uggerslev K L，Sulsky L M.Using Frame of Reference Training to Understand the Implications Rater Idiosyncrasy for Rating Accuracy [J].Journal of Applied Psychology，2008，93（3）：711-719.

[11]Melchiers K G，Lienhardt N. Is More Structure Reality Better？ ?A Comparison of Frame of Reference Training and Descriptively Anchored Rating Scales to Improve Interviewers Rating Quality [J].Personnel Psychology，2011（64）：53-87.

[12][28]關(guān)丹丹.兩種評(píng)分量表的評(píng)分效應(yīng)比較研究[J].教育研究與實(shí)驗(yàn)，2011（4）：92-96.

[13]李航.評(píng)分員與評(píng)分量表間的交互作用對(duì)EFL作文評(píng)分結(jié)果與過程的影響[D].杭州：浙江大學(xué)，2012.

[14]Wang WC，Cheng Y Y.Measurement Issues in Screening Outstanding Teachers [J].Journal of Applied Measurement，2001（2）：171-186.

[15] [23][25]Linacre J M.A Users Guide to Facets Rasch-Model Computer Programs[M].Chicago，2014：279，185，204.

[16]漆書青，張厚粲.現(xiàn)代教育與心理測(cè)量學(xué)原理[M].北京：高等教育出版社，1998：33.

[17]L·赫林，F(xiàn)·德雷斯哥，K·帕森斯.項(xiàng)目反應(yīng)理論在心理測(cè)量中的應(yīng)用[M].東北師范大學(xué)教育咨詢中心，譯.武漢：湖北教育出版社，1990：15.

[18]Cason G J，Cason C L.A Deterministic Theory of Clinical Performance Rating[J].Evaluation and the Health Professions，1984（7）：221-247.

[19]Wu M，Adams ?R.Applying the Rasch Model to Psycho-social Measurement：A Practical Approach[M].Melbourne，2007：21-23.

[20][24]王文中.Rasch測(cè)量理論與其在教育和心理之應(yīng)用[J].教育與心理研究，2004（4）：637-694.

[21]Holland P，Thayer D.Differential Item Performance and the Mantel-Haenszel procedure[C]//Paper Presented at the American Educational Research Association Annual Meeting.Francisco，1986.

[22]Linacre J M.A Users Guide to Winsteps Rasch-Model Computer Programs[M].Chicago，2011： 601-602.

[26]Sanchez J I，DeLa T P.A Second Look at the Relationship Between Rating and Behavioral Accuracy in Performance Appraisal [J]. Journal of Applied Psychology，1996，81（1）：3-10.

[27]陳社育.國(guó)家公務(wù)員錄用面試的效度研究[J].甘肅社會(huì)科學(xué)，2002（2）：40-44.

[29]Powell D M，Goffin R D.Assessing Personality in the Employment Interview：the Impact of Training on Rater Accuracy[J].Human Performance，2009（22）：450-465.

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于多面Rasch模型的大學(xué)教師課堂教學(xué)能力評(píng)價(jià)量表優(yōu)化研究