宋學玲 梁正妍
(1 教育部教育考試院,北京 100084) (2 華南師范大學心理學院,廣州 510631)
全國碩士研究生招生考試(簡稱“研究生招生考試”)是國家高層次人才選拔的主渠道。多年來,研究生招生考試形成了“初試+復試”的成熟模式,初試“篩”的質(zhì)量極大地影響著復試“選”的質(zhì)量,其重要性不言而喻,而命題質(zhì)量則是影響初試質(zhì)量的最關(guān)鍵因素。從人才評價與選拔的角度來看,只有當試卷的難度與考生的能力水平真正匹配時,才能測量出考生最真實的能力水平,進而有利于選拔出最合適的考生。因此,對研究生招生考試初試的命題質(zhì)量進行分析,探究其與測試目標群體的匹配程度是考試管理的重要環(huán)節(jié)。
教育與心理測量理論為考試質(zhì)量評價提供了理論基礎(chǔ)和實現(xiàn)路徑,當前主要采用的是經(jīng)典測量理論(classical test theory, CTT)和項目反應理論(item response theory, IRT)。CTT的數(shù)學模型簡單易懂,但卻存在著樣本依賴和測驗依賴的缺點,其信度指標對測驗可靠性的估計也較粗略。IRT克服了這些缺點,建立了考生能力水平與正確作答概率間的聯(lián)系,并引入了信息函數(shù)來對測量誤差進行精確估計。項目反應模型可以分為二級計分模型和多級計分模型。二級計分模型主要有Rasch模型、單參數(shù)Logistic模型、雙參數(shù)Logistic模型、三參數(shù)Logistic模型等。多級計分模型主要有稱名反應模型、評定量表模型、等級反應模型、分部評分模型、拓廣分部評分模型等,其中,拓廣分部評分模型多用于“按步驟給分”的題目,但各步驟間的難度未必逐步遞增(胡姍, 2015; 紀凌開,2002; 羅照盛, 2012; 漆書青 等, 1998; Muraki, 1992)。
近年來,許多學者就IRT在考試質(zhì)量評價方面的應用開展了研究。在國外,Gon?alves等人(2023)提出了貝葉斯IRT模型,并運用該模型對巴西某大規(guī)模教育考試的數(shù)據(jù)進行了分析。Strachan等人(2022)結(jié)合美國大學入學考試(ACT)數(shù)學測試20道選擇題的作答數(shù)據(jù),對單維IRT模型如何逼近多維潛在空間中的線性復合方向進行了研究。Rahim和Haryanto(2021)采用Rasch模型對某數(shù)學期末考試進行了質(zhì)量評價,發(fā)現(xiàn)將40道選擇題精簡為35道基本不影響測量效果。Lahner等人(2020)研究了瑞士3所醫(yī)學院5個年級32次高風險期末考試,發(fā)現(xiàn)在通過分數(shù)線上IRT的條件信度顯著高于CTT。Lee和von Davier(2020)研究了PISA財經(jīng)素養(yǎng)量表的時間和國別測量不變性,并利用項目反應模型對量表進行了調(diào)整,顯著提高了一國國內(nèi)測量的準確性。在國內(nèi),沈勵和萬雅奇(2022)結(jié)合CTT和IRT對高中學業(yè)水平等級考適應性測試的數(shù)據(jù)進行了分析。閆培香(2021)采用IRT對高考英語分數(shù)進行了可比性研究,對平行試卷分數(shù)的等值處理進行了分析。莊然等人(2020)對某醫(yī)學院6年間的免疫學試題進行了質(zhì)量評價,通過IRT對不同年份的試題、考生能力等進行了比較分析。閆成海等人(2014)以某地高考數(shù)學考后數(shù)據(jù)為基礎(chǔ),基于CTT與IRT對試題質(zhì)量進行了分析,認為IRT在試題評價方面更具優(yōu)越性。趙守盈等人(2013)對某地高考英語模擬考試的選擇題進行了質(zhì)量分析,證實了IRT相較CTT的諸多優(yōu)點。趙守盈等人(2012)應用Rasch模型對研究生入學考試心理學科目的選擇題質(zhì)量進行了分析。
雖然已有的文獻為IRT在命題質(zhì)量評價方面的應用提供了有價值的研究結(jié)果,但是落實在研究生招生考試的命題質(zhì)量評價上仍然存在一些問題。首先,國內(nèi)外的相關(guān)研究多是針對二級計分題開展的,而研究生招生考試的統(tǒng)考科目一般采用的是混合題型的標準化測驗,既有選擇題又有主觀題,二級計分模型不能完全適用。其次,與高考相比,國內(nèi)對研究生招生考試命題質(zhì)量評價的關(guān)注度不夠,研究成果不多。過往教育部教育考試院對于研究生招生考試的質(zhì)量評價多采用CTT,也有部分學者采用Rasch模型對其進行了研究(趙守盈 等, 2012)。CTT的缺點眾所周知,而其中涉及Rasch模型的研究也僅對心理學科目的選擇題進行了質(zhì)量分析。同時,Rasch模型假定所有試題的區(qū)分度參數(shù)一致,而實際上不同試題的區(qū)分度難以保持一致,且區(qū)分度參數(shù)對于評價試卷質(zhì)量十分重要。綜上,本研究采用項目反應理論中的雙參數(shù)Logistic模型和拓廣分部評分模型對研究生招生考試的整套試卷開展命題質(zhì)量評價是非常必要的。
本研究擬采用IRT對2022年全國碩士研究生招生考試《心理學專業(yè)基礎(chǔ)(312)》科目的全部試題質(zhì)量進行評價,通過對試題質(zhì)量參數(shù)及考生能力參數(shù)的分析來反映考試的整體質(zhì)量,并通過信息函數(shù)對試題和試卷的測量精度進行探討,以期拓寬研究生招生考試的命題質(zhì)量評價路徑,并為后續(xù)考試大綱的完善和命題質(zhì)量的提高提供心理測量學上的參考。
在2022年《心理學專業(yè)基礎(chǔ)(312)》科目的作答數(shù)據(jù)中,隨機抽取22,953份樣本,剔除827份小題得分數(shù)據(jù)缺失的樣本,實際研究可用作答樣本為22,126份。
《心理學專業(yè)基礎(chǔ)(312)》是研究生招生考試心理學學術(shù)學位碩士研究生(簡稱“學碩”)的統(tǒng)考科目。試卷由教育部教育考試院組織學科專家根據(jù)考試大綱統(tǒng)一命制,考查內(nèi)容涵蓋心理學導論、發(fā)展與教育心理學、實驗心理學、心理統(tǒng)計與測量四個知識板塊。2022年試卷的具體結(jié)構(gòu)見下表1,各知識板塊的題型、題量、分值比例與考試大綱中的要求完全一致。
本研究中的數(shù)據(jù)分析均采用SPSS21.0以及R軟件來完成。
單維性假設指的是假設考試只考查了考生的某一種能力,而忽略其他能力對考試結(jié)果的影響。根據(jù)考生作答矩陣,采用因子分析法進行單維性檢驗,當抽取的第一個公共因子解釋的變異為第二個公共因子的3倍及以上時,即可認為考試是單維的(趙守盈等, 2013)。本次考試因子分析的結(jié)果如表2所示,第一個因子解釋的方差占總方差的84.73%,第二個因子解釋的方差僅占6.45%,可以認為該次考試是單維的。
表2 單維性檢驗解釋總方差表
試卷共包含83道試題,其中選擇題75道;簡答題5道,每題10分;綜合題3道,每題30分。簡答題分5個步驟,每步2分,分成5個類級:難度1~5。綜合題分10個步驟,每步3分,分成10個類級:難度1~10?;陧椖糠磻碚?,可以估計出項目參數(shù)和考生能力水平參數(shù)。一般而言,項目難度參數(shù)的實際取值范圍為[-3, 3],項目區(qū)分度參數(shù)的實際取值范圍為[0, 3](羅照盛, 2012)。針對選擇題和主觀題(簡答題、綜合題),分別采用雙參數(shù)Logistic模型和拓廣分部評分模型對試題進行參數(shù)估計。各個知識板塊均選取了部分代表性的結(jié)果進行呈現(xiàn),部分結(jié)果如表3和表4所示。
表3 項目參數(shù)表 (部分選擇題)
表4 項目參數(shù)表 (部分簡答題、綜合題)
就難度而言,難度參數(shù)值越高,試題難度越大。本套試卷中絕大多數(shù)試題難度都在[-3, 3]的范圍之內(nèi),但是難度小于-0.5的試題偏多,特別是第45、67題難度極低,難度值均小于-4。針對簡答題和綜合題,從平均難度來看,各試題難度都不超過0.5,其中僅有第78、80、83題的平均難度大于0;從各級難度來看,除了第80、83題之外,其余試題均是負數(shù)多、正數(shù)少??梢姶颂自嚲黼y度中等偏易。
根據(jù)項目區(qū)分度參數(shù)的劃分標準:大于等于1.5為優(yōu)級試題,[1.0, 1.5)為良級試題,[0.5, 1.0)為中級試題,小于0.5為差級試題(涂冬波 等, 2011),本套試卷的試題可以分為四個等級。優(yōu)級和良級的試題(區(qū)分度大于等于1)共有43道,占總題量的51.81%。但是,試卷中仍有10道差級試題,中級試題占比也偏高,試題質(zhì)量仍需改進。特別是,本套試卷的簡答題和綜合題整體區(qū)分度表現(xiàn)一般,僅第80題區(qū)分度超過1。此外,第37、45、67題區(qū)分度異常,其中第45、67題可能是試題難度過低造成的。
差級試題在試卷中的內(nèi)容分布如表5所示。結(jié)合具體試題內(nèi)容分析,可以發(fā)現(xiàn):這類試題要么識記屬性明顯,要么難度參數(shù)較為極端。比如,第1題的識記屬性很明顯;第67題的難度參數(shù)(-5.06)過小,該題考查了算法策略,但選項設計可以從實際生活經(jīng)驗中獲得;第74題的難度參數(shù)(5.57)過大,該多選題對假設檢驗進行了深入考查,對考生能力要求很高。
表5 差級試題的內(nèi)容分布
本研究對考生能力參數(shù)進行了估計,繪制了考生的能力密度曲線圖,如圖1所示。
由圖1可知,考生在該科目上的能力范圍分布較廣,主要分布在[-2, 2]的區(qū)間范圍內(nèi),其中能力水平在0.5左右的考生人數(shù)最多。
圖1 考生能力密度曲線
信息函數(shù)是IRT中反映考試分數(shù)對考生能力估計精度的指標,函數(shù)值越大,估計越精確。項目及測驗信息函數(shù)值隨考生能力水平的不同而變化,同時,項目在某一能力水平上所能提供的信息量還受項目自身特性的影響。測驗信息函數(shù)等于所含全部項目的信息函數(shù)之和(羅照盛 等, 2008;熊建華 等, 2002)。
試題的期望信息量是理想情況下各試題應達到的信息量值,其計算方式為試題滿分占試卷滿分的比例乘以5,所以本套試卷中單選題、多選題、簡答題、綜合題的期望信息量分別為:0.03、0.05、0.17、0.50。試題應提供的信息量比例等于試題的滿分值占試卷滿分的百分比,實際提供的最大信息量比例等于試題信息量的最大值占所有試題信息量最大值的百分比(沈勵, 萬雅奇, 2022)。經(jīng)計算可知,整套試卷中絕大多數(shù)試題的最大信息量都高于期望信息量,沒有達到期望信息量僅有9道題(第 1、33、41、44、45、64、66、67、74 題),而這9道題,除第66題外均為表5中的差級試題。從四個知識板塊的信息量表現(xiàn)來看,各板塊的平均最大信息量均遠大于平均期望信息量,心理學導論、發(fā)展與教育心理學實際提供的最大信息量比例低于應提供的信息量比例,實驗心理學、心理統(tǒng)計與測量實際提供的最大信息量比例則高于應提供的信息量比例,詳見表6。
表6 各知識板塊信息量
圖2為測驗信息函數(shù)曲線。按照ETS的標準,測驗信息量10對應CTT中的信度約為0.9,屬于高測驗信度(Young et al., 2013)。由圖2可見,對絕大多數(shù)考生而言,測驗信息量都是滿足要求的(>10)。但是,測驗信息函數(shù)曲線整體偏左,信息量的最大值所對應的考生能力參數(shù)約為-0.8,在此點上測量誤差最小,區(qū)分度最好??梢?,試卷對能力水平中等稍偏下的考生群體區(qū)分表現(xiàn)更好。
圖2 測驗信息函數(shù)曲線
IRT將考生能力水平和試題參數(shù)放在同一坐標系下進行考量,并用信息量來刻畫試題和試卷對考生能力水平的解釋程度,能夠為命題質(zhì)量評價提供更加全面客觀的信息。
從試題層面來看,IRT對試題的評價比CTT更靈敏、精細。CTT對試題的評價指標主要是難度和區(qū)分度,而IRT除了難度和區(qū)分度之外,還有項目信息函數(shù)。結(jié)合教育部教育考試院2022年基于CTT的研究,本研究繪制了全部83道試題在CTT和IRT下試題的難度及區(qū)分度對照圖,見圖3。
由圖3可見,CTT和IRT下的難度折線基本呈高低鏡像關(guān)系,即二者對試題的難易評價相似,同時兩條區(qū)分度折線走勢基本一致,但是IRT下的參數(shù)變化更加靈敏,更加容易被觀測到。此外,在CTT和IRT下,第37、45、67題的區(qū)分度表現(xiàn)均異常,這一點在IRT中已經(jīng)從試題難度屬性、具體考核內(nèi)容等方面做出了分析。下面以第67題為例,再從IRT下試題參數(shù)與考生能力的匹配性及項目信息函數(shù)方面對該試題進行更精細的分析。通過考查第67題的項目特征曲線和信息函數(shù)曲線,可以發(fā)現(xiàn)其項目特征函數(shù)和信息函數(shù)都是單調(diào)遞減的。這說明隨著考生能力水平的提高,該試題的正確作答概率反而在降低,且試題提供的信息量隨著考生能力水平的提高也在降低,這完全不符合選拔人才的試題要求,需要命題人員重新審視。
圖3 CTT和IRT下試題的難度和區(qū)分度對照圖
以往采用CTT或Rasch模型的相關(guān)研究均缺乏對知識板塊層面的分析,本研究基于IRT做出了嘗試。從知識板塊層面來看,心理學導論、發(fā)展與教育心理學的試題在區(qū)分度表現(xiàn)上差于實驗心理學、心理統(tǒng)計與測量,這與心理學導論在整個心理學專業(yè)基礎(chǔ)中的基底性地位密切相關(guān),另外發(fā)展與教育心理學也歷來重視基礎(chǔ)和核心概念的考查。教育心理學的第29題將新冠疫情與親社會行為相結(jié)合對“相關(guān)類屬學習”進行了考查,從作答情況來看,大部分考生不能準確把握“相關(guān)類屬學習”和“派生類屬學習”的概念內(nèi)涵,但高分考生作答相對更好。這類試題雖然難度和區(qū)分度可能表現(xiàn)都一般,但是卻靈活地考查了相關(guān)的基礎(chǔ)知識,屬于有必要保留的試題。實驗心理學板塊試題的區(qū)分度整體表現(xiàn)較好,但仍有部分差級試題,鑒于其自身的實踐屬性,許多知識點不易以紙筆形式的單題進行考查,所以質(zhì)量不高。在選擇題中以“先用材料呈現(xiàn)心理學實驗,再后接數(shù)道小題”的“串題”形式進行考查是命題改革的一個可行思路。心理統(tǒng)計與測量的試題質(zhì)量整體相對較好,但是也存在部分試題難度過大、區(qū)分度過低的情況。從各知識板塊的信息量表現(xiàn)來看,平均最大信息量均遠大于期望信息量,但是心理學導論、發(fā)展與教育心理學實際提供的信息量比例低于應提供的信息量比例,而實驗心理學、心理統(tǒng)計與測量實際提供的信息量比例則高于應提供的信息量比例。為提高人才選拔的有效性,建議適當增大實驗心理學、心理統(tǒng)計與測量在試卷中的分數(shù)和題量占比,但是如何提高這部分考核內(nèi)容對高能力水平考生的鑒別力也是亟待命題專家解決的問題。以心理統(tǒng)計與測量為例,為強化對學碩學術(shù)潛能的考查,建議適當降低計算在統(tǒng)計測量類試題中的比重,可以更加側(cè)重對方法的考查和對考生數(shù)據(jù)解讀能力的考查。另外將心理實驗與統(tǒng)計測量相結(jié)合的考查方式也是一條可行的思路。
從整套試卷來看,試卷結(jié)構(gòu)與考試大綱的要求完全一致,對絕大多數(shù)考生而言,測驗信息量都滿足要求,測驗信度高,這與CTT研究下的α信度為0.90相一致。但測驗信息函數(shù)曲線整體偏左,試卷對能力水平中等稍偏下的考生群體區(qū)分表現(xiàn)更好。這一方面與大部分試題的考查知識點過于基礎(chǔ)有關(guān),另一方面也是由考試大綱中所規(guī)定的考試性質(zhì)和考查目標決定的,大綱中規(guī)定“測試考生掌握心理學學科大學本科階段專業(yè)基礎(chǔ)知識、基本理論、基本方法的水平和分析問題、解決問題的能力,評價的標準是高等學校心理學學科優(yōu)秀本科畢業(yè)生所能達到的及格或及格以上水平”。因此,建議在后續(xù)修訂大綱時,應在考查內(nèi)容中適當加入心理學研究的新進展,在堅持“三基”考查的基礎(chǔ)上,加入對學碩必備專業(yè)素養(yǎng)和科研創(chuàng)新能力的考查,適當調(diào)整各知識板塊考試分數(shù)和題量占比,以更好地實現(xiàn)研究生招生考試初試“篩”的目的,從而為復試“選”出德才兼?zhèn)涞母邔哟稳瞬艤p輕壓力。
此外,本研究所采用的研究方法可推廣至研究生招生考試的全部24個統(tǒng)考科目,形成質(zhì)量評價報告,供研究生招生考試服務部門參考使用。評價的結(jié)果不僅能為試題的命制提供理論和經(jīng)驗支持,也能為今后研究生招生考試機考題庫的建立奠定基礎(chǔ)。
本研究采用雙參數(shù)Logistic模型和拓廣分部評分模型對《心理學專業(yè)基礎(chǔ)(312)》科目開展了命題質(zhì)量評價,通過考生的作答反應,對項目參數(shù)及考生能力水平進行了估計,同時,通過信息函數(shù)對考試的精確度進行了分析。本研究的主要結(jié)論如下:(1)本套試卷整體質(zhì)量良好,試卷結(jié)構(gòu)與考試大綱中的要求完全一致;各種題型對知識點的考查均偏重基礎(chǔ);考生能力范圍分布較廣;測驗信息量基本滿足要求,測驗精確度高。(2)從難度來看,試卷難度中等偏易;從區(qū)分度來看,仍有部分差級試題,中級試題占比也偏高,試題質(zhì)量仍需改進。(3)從信息函數(shù)來看,絕大多數(shù)試題的最大信息量都高于期望信息量;各知識板塊的平均最大信息量均遠大于平均期望信息量,其中實驗心理學、心理統(tǒng)計與測量實際提供的最大信息量比例高于應提供的信息量比例;測驗信息函數(shù)曲線整體偏左,對于優(yōu)秀考生的篩選精度不夠,客觀上加大了復試的選拔壓力。