楊宏博 羅成禹 楊 卓
2018 年1 月,中共中央國務院發(fā)布了《關(guān)于全面深化新時代教師隊伍建設改革的意見》。 《意見》是對習近平總書記關(guān)于打造 “四有教師” 隊伍要求的具體落實,是新時代教師隊伍建設的行動指南。 《意見》強調(diào),要完善教師資格考試政策,嚴格教師準入,提高入職標準,重視思想政治素質(zhì)和業(yè)務能力。 中小學教師資格考試秉承這一宗旨, 致力于考查申請教師資格人員是否具備從事教師職業(yè)所必需的教育教學基本素質(zhì)和能力,以遴選樂教、適教、善教的優(yōu)秀人才進入教師隊伍[1]。
截至2019 年下半年,中小學教師資格考試已經(jīng)拓展到全國28 個?。ㄊ小⒆灾螀^(qū)),累計參加筆試考生2227 萬人次,面試考生866 萬人次。 中小教師資格考試《語文學科知識與教學能力》(初級中學、高級中學) 是中學類別報考人數(shù)最多的科目之一,僅2019 年下半年就有32.3 萬人報考。 該科目重點考查申請者四個方面的基本能力[2],分別是運用語文學科知識的能力、語文教學設計能力、語文教學實施能力和語文教學評價能力。 從測量的角度分析,對《語文學科知識與教學能力》科目的試卷質(zhì)量進行研究,具有典型參考價值, 有助于完善中小學教師資格考試的科學性以及考查內(nèi)容和考查策略的合理性。
經(jīng)典測量理論(Classical Test Theory,簡稱CTT),又稱為真分數(shù)理論,因其易于被人理解和接受,并且具有較強的適應性, 在20 世紀前葉迅速發(fā)展起來。毫無疑問,經(jīng)典測量理論是體系最成熟的測量理論。它在各行各業(yè)測量中的成功應用使其在新的測量理論崛起的今天,仍具有不可替代的地位和作用[3]。 利用經(jīng)典測量理論,本文統(tǒng)計了2019 年下半年中小學教師資格考試《語文知識與教學能力(初級中學)》科目的148986 份有效筆試試卷(去除零分卷和違紀考卷),全卷平均分為91.5 分,難度為0.61,試卷難度較為合理。 同時,對每一道試題利用經(jīng)典測量理論進行統(tǒng)計分析,詳情如表1 所示。
通過表1 可以發(fā)現(xiàn), 中檔題占整份試卷的比例超過80%,區(qū)分度優(yōu)良的題目占比為76%。試卷難度中等,結(jié)構(gòu)合理,區(qū)分度較好,具有較高的命題質(zhì)量。
表1 2019 年下半年《語文知識與教學能力(初級中學)》筆試試卷質(zhì)量分析
當然, 經(jīng)典測量理論也具有許多不可避免的缺陷和不足,例如不能對測量結(jié)果進行推廣、模型的若干假設與實際不符等[3]。 相對于考試首次試點以來,一直采用的經(jīng)典測量理論的質(zhì)量監(jiān)測方法, 概化理論(Generalizability Theory,GT)重點討論考生能力水平與考試題目之間的實質(zhì)性關(guān)系, 能夠達到區(qū)分考生、評估應考者真實水平的目的,并能較好地控制測評誤差。
概化理論的基本原理是運用實驗設計的思想,分析影響測驗分數(shù)差異的各項因素 (如考生個體水平的差異、題目難度等);并運用方差分析技術(shù),分別估計各因素對分數(shù)總變異的貢獻 (以方差分量為指標)。 根據(jù)不同研究目的的需要,分別考察研究目標在分數(shù)總變異中所占的比重。 測量信度的概念在概化理論中用概化系數(shù)或可靠性系數(shù)來代替[4]。
概化理論用方差分析的方法估計各種方差成分的相對大小,并可直接比較其大??;不僅能估計出主效應,也能估計出交互作用效應,并能對各估計值的大小進行直接比較。 在概化理論中,理論估出各方差成分相對大小的過程,稱為概化理論的G 研究。 在G研究的基礎上,可通過實驗性研究,進一步考察不同測驗設計條件下概化系數(shù)的變化情況, 如試題容量變化對于概化系數(shù)的影響等, 從而尋找最佳的控制誤差的方法,作出最佳的設計決策,為改進測驗的內(nèi)容和方式方法提供有價值的信息。 這一階段稱為概化理論的D 研究。
多元概化理論(Multivariate Generalizability Theory,MGT)在概化理論的基礎上,深入研究測量目標具有多個全域分數(shù)等方面的問題(如總測驗可以分解為多個不同維度的分測驗), 主要可應用于測試多門學科或多種能力的綜合測驗。 近些年來,高考、研究生考試、高等教育自學考試等大規(guī)模測驗為加強測驗信度檢驗,開始廣泛應用這一理論進行研究設計[5-7]。
多年來,雖然山區(qū)群眾種植核桃的積極性高,但由于重栽輕管、管理粗放,缺乏科學的管理技術(shù)。加之山區(qū)社會綜合發(fā)展水平不高,經(jīng)濟基礎薄弱、農(nóng)村外出務工人員增多,農(nóng)村勞動力減少,農(nóng)民文化技術(shù)素質(zhì)低、資金投入嚴重不足等因素阻礙了核桃產(chǎn)業(yè)發(fā)展。
《語文學科知識與教學能力》是考查考生多種基本素養(yǎng)和能力的綜合性測試,根據(jù)其考試目標,可以將其分解為多個分測驗, 因此對其測驗信度進行研究適宜采用多元概化理論的原理和方法。 通過多元概化模型分析中小學教師資格考試 《語文教學知識與能力》 試卷, 探討各模塊及全卷的測量精度 (信度),考察內(nèi)容模塊樣本容量變化對考試信度(概化系數(shù))的影響,分析各模塊對總測驗的貢獻率,以期為優(yōu)化試卷、提高命題質(zhì)量提供參考。
2019 年下半年中小學教師資格考試《語文知識與教學能力 (初級中學)》 科目的全國考生人數(shù)為176615(教育部考試中心,2019),從中隨機抽取3500份有效試卷(去除零分卷和違紀考卷)。 依據(jù)考試大綱,將學科知識、教學設計、教學實施、教學評價四個內(nèi)容模塊作為四個測量分項,分別以V1、V2、V3、V4表示。 試卷總題量為 21 題,滿分 150 分。 V1 包括 8題,29 分;V2 包括 2 題,45 分;V3 包括 6 題,52 分;V4 包括 5 道題目,24 分(見表 2)。
本研究將考試的內(nèi)容設計為四內(nèi)容因子的單面交叉設計 p×i 多元概化模型, 其中 p 代表考生,i 代表試題。 運用多元概化模型,完成G 研究和D 研究的數(shù)據(jù)統(tǒng)計與分析;采用Brennan 開發(fā)的mGENOVA軟件完成多元概化理論相關(guān)數(shù)據(jù)的計算[8,9]。
表2 《語文知識與教學能力(初級中學)》試卷測量內(nèi)容
根據(jù)理論模型,編寫涉及四個分測驗的mGENOVA 程序, 分別對整個試卷及四個模塊進行G 研究,以估計整個測驗和各個模塊的測量信度。 同時,利用有關(guān)信息評價各個模塊對總測驗的貢獻程度。G研究采用p×i 四因子隨機單面交叉設計, 可以得到各效應在四個因子上的方差和協(xié)方差變量估計矩陣,如表 3 所示,其中 V1 表示 “學科知識” 模塊,V2表示 “教學設計” 模塊,V3 表示 “教學實施” 模塊,V4表示 “教學評價” 模塊。
由表3 可知,V1 相對于其他因子的協(xié)方差分量較小,這說明考生在 “學科知識” 模塊中的得分高低順序與他們在其他模塊中的順序不太一致, 即這個模塊中的題目在區(qū)分考生能力方面功能較弱。 在效應p 上,V2 因子的方差分量最大,而V4 因子的方差分量最低,表明在本次考試中,“教學設計” 模塊對考生的區(qū)分能力較強,而 “教學評價” 模塊對考生的區(qū)分能力相對較弱。
D 研究采用p×i 四因子隨機單面交叉設計,基于G 研究估計的方差與協(xié)方差矩陣, 進一步估計考生在四個因子上的全域分數(shù)及相應誤差項的方差分量,進而估計概化系數(shù)與可靠性指數(shù),如表4 所示。
由表4 可知, 四因子中全域分數(shù)方差分量從高到低依次為 “教學設計 V2”、 “教學實施 V3”、“學科知識 V1”、 “教學評價 V4”。 考慮到各分量誤差方差的因素, 測量信度最高的因子是V2 (概化系數(shù)為0.599)。 結(jié)果表明本次考試中,“教學設計” 模塊的測量信度相對較高。
表3 各效應在四因子的方差與協(xié)方差分量估計
表4 四因子全域分數(shù)各項指標的估計
(2)全域合成分數(shù)的測量精度
本研究按照各測量分項試題量所占比例來確定權(quán)系數(shù) b,V1 至 V4 四個因子的權(quán)系數(shù)分別是:0.381,0.095,0.286,0.238。 對四因子全域分數(shù)進行合成,可以得到全域總分的方差為0.255,全域合成分數(shù)相對誤差方差為0.127,全域合成分數(shù)絕對誤差方差為0.589,進而可計算出全域合成分數(shù)的概化系數(shù)為0.668,可靠性系數(shù)為0.302。
可見, 此次初中語文試卷的總體測量信度較高。 全域合成分數(shù)的概化系數(shù)較高,而四因子未進行全域分數(shù)合成時,各因子全域分數(shù)的概化系數(shù)及可靠性系數(shù)均較低, 在全域分數(shù)合成總分后測量精度顯著提高,因此對四個分測驗的分數(shù)進行合成是合理的。
(3)各因子對總方差的貢獻比例
為了考察四個分測驗對試卷總分方差的實際影響程度, 可使用mGENOVA 程序同時估計出各模塊對考試總分方差的實際貢獻率(比例),如表5 所示。
表5 各模塊方差貢獻比例與試卷賦分比例的比較
由表5 可知,因子V1、V2 對全域總分方差的貢獻比例較試卷賦分比例略高,而因子V3、V4 對全域總分方差貢獻的比例較試卷賦分比例略低??傮w而言,四個因子的總體方差貢獻比例與設計的賦分比例較接近,說明各分測驗基本達到考試的預期測量目的。
(4)各因子樣本容量對測量信度的影響
為了改善測驗方法,進一步改進測量信度,本研究考察了各因子樣本容量變化對各分測驗自身及試卷總分測量信度(采用總分概化系數(shù)作為信度指標)的影響情況,如表6 所示。
由表6 可知,當各因子樣本容量為2 倍模式時,全域總分的概化系數(shù)可增至0.801;當各因子樣本容量為3 倍模式時, 全域總分的概化系數(shù)可增至0.858。而當各因子的樣本容量都減少為1 道題目時,全域總分的概化系數(shù)下降至0.425,這樣的信度對于教師資格考試這樣大規(guī)模的國家教育考試是不可接受的。 但是,提高樣本容量使題目數(shù)量增加為2 倍、3倍時,測量信度將大幅度提高。
當分別固定四因子中的三個因子的樣本容量,只變化其中一個因子的樣本容量時, 表6 中列出的20 種情況,增加樣本容量均能提高測量信度。
由于V1、V3、V4 因子的全域分數(shù)誤差方差相對較小,因此,提升這幾部分的題量對整卷的概化系數(shù)的影響并不顯著。 V2 因子的全域分數(shù)誤差方差相對較大,因此,提升這一部分的題量對整卷的概化系數(shù)的影響較顯著。尤其是當 V2 因子 “教學設計” 題量增至3 題時,總分概化系數(shù)增長最為明顯。
表6 各因子樣本容量與總分概化系數(shù)的變化關(guān)系
圖1 各因子樣本容量與總分概化系數(shù)的變化關(guān)系
通過應用經(jīng)典測量理論和多元概化理論對2019年下半年《語文學科知識與教學能力(初級中學)》試卷進行分析,可以得到以下結(jié)論:
(1)本次考試所使用的試卷質(zhì)量較好。 試卷總體測量信度屬中上水平, 分測驗對于全域總分方差的貢獻比例與試卷命制時的賦分意圖基本一致。
(2) 現(xiàn)行試卷所考查的各個能力模塊比重和題量設置比較合理。 尤其是賦分比例最高的 “教學設計” 部分,區(qū)分度較強,信度較高,難度適宜(0.6),能夠滿足對中學語文教師進行選拔的目的和要求。
(3)可嘗試通過提高 V2 “教學設計” 分測驗的題量來獲得更高的測量信度。 若綜合考量作答時間等因素的限制, 可考慮減少信度較低的客觀題試題數(shù)量,或 V4 “教學評價” 分測驗的試題數(shù)量,同時增加V2 “教學設計” 分測驗的試題數(shù)量,從而提高全卷的測量信度。
表7 基于CTT“學科知識V1”客觀題部分統(tǒng)計分析
結(jié)合經(jīng)典測量理論可以發(fā)現(xiàn),“V1 學科知識” 的選擇題第1 題、第2 題、第 15 題難度均在0.8 以上,區(qū)分度在0.2 以下(見表7),試題過于簡單、區(qū)分度較低;而第7 題難度僅為0.16,屬于難題,區(qū)分度也較低。 可以考慮刪除這幾道試題,適當提高 “學科知識” 客觀題整體難度,增加區(qū)分度,從而達到提高測量信度的目的。
引入多元概化理論, 對于評價中小學教師資格考試質(zhì)量提供了更多的角度, 同時提供了有效提高試卷信度的方案。 本文將經(jīng)典測量理論與多元概化理論相結(jié)合, 提供了現(xiàn)有大綱要求的模塊結(jié)構(gòu)下的精細化調(diào)整方案, 得到了更為準確的試題單題質(zhì)量和整卷質(zhì)量改進方案。 今后,可以將多種測量理論結(jié)合在一起,形成一套完整、嚴謹、合理的試卷質(zhì)量評價模式, 并進一步推廣至教師資格考試其他筆試科目的分析和研究,為未來考試大綱的修訂提供思路,為政策決策部門提供參考, 不斷提升考試的科學化水平,維護國家教育考試的公信力。