涂文記,趙峻,徐薇薇,張勤
1.中國醫(yī)學(xué)科學(xué)院北京協(xié)和醫(yī)學(xué)院教務(wù)處,北京 100730;2.中國醫(yī)學(xué)科學(xué)院北京協(xié)和醫(yī)院教育處,北京 100730;3.中國醫(yī)學(xué)科學(xué)院北京協(xié)和醫(yī)院黨委,北京 100730
國務(wù)院于2020 年頒布了《深化新時(shí)代教育評(píng)價(jià)改革總體方案》,明確提出要?jiǎng)?chuàng)新學(xué)生評(píng)價(jià),完善德智體美勞過程性評(píng)價(jià),并健全綜合素質(zhì)評(píng)價(jià)體系。為改善醫(yī)學(xué)生評(píng)價(jià)體系,北京協(xié)和醫(yī)學(xué)院針對(duì)長學(xué)制八年制臨床醫(yī)學(xué)生設(shè)計(jì)了“以勝任力為導(dǎo)向的醫(yī)學(xué)測評(píng)綜合體系”[1]。醫(yī)學(xué)培養(yǎng)是一個(gè)漫長的過程,特別是對(duì)于八年制長學(xué)制醫(yī)學(xué)生而言。目前我國臨床醫(yī)學(xué)多為分段式培養(yǎng),分為臨床前和臨床階段的學(xué)習(xí)。北京協(xié)和醫(yī)學(xué)院的臨床醫(yī)學(xué)八年制培養(yǎng)模式一直沿襲創(chuàng)校初期的三段式,即預(yù)科階段、基礎(chǔ)醫(yī)學(xué)階段和臨床階段。這種培養(yǎng)模式旨在讓學(xué)生逐步從基礎(chǔ)知識(shí)學(xué)習(xí)過渡到臨床實(shí)踐,為未來的醫(yī)生職業(yè)打下堅(jiān)實(shí)的基礎(chǔ)。從總體上看,當(dāng)前臨床醫(yī)學(xué)專業(yè)教育存在以下核心問題:①學(xué)生報(bào)考醫(yī)學(xué)院的心理準(zhǔn)備不足。許多高中畢業(yè)生在報(bào)考醫(yī)學(xué)院時(shí),并未充分認(rèn)識(shí)到醫(yī)學(xué)專業(yè)的挑戰(zhàn)性和長期學(xué)習(xí)的艱辛。部分學(xué)生是由于家庭成員的影響而選擇醫(yī)學(xué)專業(yè),他們對(duì)醫(yī)學(xué)并無深刻了解,更未培養(yǎng)出對(duì)醫(yī)學(xué)的深厚興趣。還有一部分學(xué)生對(duì)醫(yī)學(xué)的了解僅限于一些理想化的概念,他們?cè)诿鎸?duì)實(shí)際醫(yī)學(xué)學(xué)習(xí)的困難和挑戰(zhàn)時(shí),往往感到迷茫和動(dòng)搖。②預(yù)科教育與醫(yī)學(xué)教育的銜接有待改善。當(dāng)前,基礎(chǔ)醫(yī)學(xué)和臨床醫(yī)學(xué)之間的脫節(jié)現(xiàn)象仍然存在。這種脫節(jié)不僅表現(xiàn)在課程設(shè)置和教學(xué)內(nèi)容上,還反映在學(xué)生的思維方式和學(xué)習(xí)習(xí)慣上。這種現(xiàn)象給學(xué)生的學(xué)習(xí)帶來了困擾,也給他們的專業(yè)成長帶來了障礙。③醫(yī)學(xué)生的分流出口制度不完善。為此,北京協(xié)和醫(yī)學(xué)院針八年制醫(yī)學(xué)生設(shè)計(jì)了“預(yù)科”與“基礎(chǔ)”銜接綜合測試,包括多站迷你面試(Multiple Mini-interview, MMI)的考核形式,希望通過“以考促學(xué)”的方式促進(jìn)學(xué)生學(xué)習(xí)。目前國內(nèi)較少對(duì)多站迷你面試進(jìn)行應(yīng)用實(shí)踐研究,對(duì)考試質(zhì)量的研究更多采用經(jīng)典測量理論(classical test theory, CTT)。為了更好地分析考試的質(zhì)量,本研究采用概化理論分析考試的質(zhì)量。
概化理論是一種現(xiàn)代心理測量理論,廣泛應(yīng)用于心理與教育測量領(lǐng)域[2]。其優(yōu)點(diǎn)在于能夠精確定位測量誤差的多個(gè)來源,從而更好地理解測量結(jié)果的準(zhǔn)確性。概化研究的目的是在明確測量目標(biāo)和測量側(cè)面的前提下,盡可能探明研究設(shè)計(jì)中各種測量誤差的來源和結(jié)構(gòu)[3]。這有助于提高測量的精度和可靠性,為研究和應(yīng)用提供更準(zhǔn)確的數(shù)據(jù)支持。概化系數(shù)是指從一個(gè)測驗(yàn)的被試得分拓廣到測驗(yàn)程序同等接受度的條件全域中,被試均分估計(jì)的準(zhǔn)確性[4]。這個(gè)系數(shù)被定義為全域分?jǐn)?shù)方差與其和相對(duì)誤差方差兩者之和的比率,它反映了測量結(jié)果的精確度和可靠性。通過計(jì)算概化系數(shù),可以對(duì)不同測驗(yàn)程序下被試得分的差異進(jìn)行比較,進(jìn)一步評(píng)估測量程序的優(yōu)劣和改進(jìn)方向[5]。計(jì)算表達(dá)式為:
在公式1 中,Eρ2代表的是概化系數(shù),而δ2(p)則表示全域分?jǐn)?shù)的方差分量,即測量目標(biāo)的方差。同時(shí),δ2(δ)表示的是相對(duì)誤差方差,它是由與測量目標(biāo)相關(guān)的測量側(cè)面交互作用所產(chǎn)生的方差之和。
概化理論分為概化研究(G study)和決策研究(D study)。決策研究旨在根據(jù)特定的決策需求,通過概化研究得到的方差分量估計(jì)值來調(diào)整測量過程中的各方面關(guān)系。這包括調(diào)整不同側(cè)面的樣本水平、調(diào)整各個(gè)側(cè)面之間的關(guān)系、改變不同變量的權(quán)重等,以探索如何控制和調(diào)節(jié)測量誤差[6]。楊志明等[7]的研究表明,多元概化理論為提高考試測量效果、降低測量誤差提供了新的視角和方法,尤其在研究涉及多個(gè)相關(guān)學(xué)科因子的綜合考試方面具有獨(dú)特優(yōu)勢。
本文旨在運(yùn)用多元概化理論評(píng)估臨床醫(yī)學(xué)生的MMI 的可靠性。通過評(píng)估,可以進(jìn)一步優(yōu)化考試設(shè)計(jì),發(fā)現(xiàn)并解決考試過程中可能存在的問題,為改進(jìn)MMI 的藍(lán)圖設(shè)計(jì)和考站評(píng)分方案提供參考依據(jù),從而確保更高質(zhì)量的考試效果。
選取已實(shí)施的4 個(gè)考站MMI 的為研究對(duì)象,考試主題有:溝通交流能力(中、英文)、自我管理能力(模擬場景)、幫助他人的意愿與能力(愛傷)。考試藍(lán)圖見表1,考試結(jié)果詳見表2。
表1 八年制醫(yī)學(xué)生多站迷你面試藍(lán)圖
表2 醫(yī)學(xué)生MMI 考試成績及描述統(tǒng)計(jì)
計(jì)算采用瑞士教育研究學(xué)會(huì)教育測量研究小組設(shè)計(jì)(Swiss Society for Research in Education Working Group)的概化理論軟件EduG -6e,根據(jù)概化理論的原理及軟件使用說明,把醫(yī)學(xué)生(Participant)作為測量目標(biāo),考試分成平行的2 組(G)作為測量側(cè)面1,4 人/輪/組開展,作為測量側(cè)面2,考站(Station 考站序號(hào)與評(píng)分者(Rater)分別作為測量側(cè)面3和4。兩組考生同時(shí)進(jìn)行考試,考站(Station)共有四個(gè)。考生與組別之間存在一種嵌套關(guān)系,可以表示為R:C:G。在每個(gè)考站,由兩位??漆t(yī)生作為評(píng)分者,這表明考官與考站之間也存在相互嵌套的關(guān)系,記為R:S,概括而言,考試的設(shè)計(jì)為[學(xué)生(P):輪次(C):組別(G)]×[考官(R):考站(S)]多元概化理論分析,見表3。
表3 多元概化理論研究設(shè)計(jì)
按照研究設(shè)計(jì),將各個(gè)考站的原始分錄入EduG 軟件中,運(yùn)行之后得到小組(G)、同組內(nèi)不同輪次(C:G)、學(xué)生(在組內(nèi)輪轉(zhuǎn)的學(xué)生P:C:G)、考站(S)、小組與考站(GS)、不同小組的考官與考站之間(GD:S)、不同輪次的考站與組別之間(CS:G)、不同輪次的考官及不同組別的考站之間(CR:GS)、考生與考官及輪次及組別之間(PS:C:G)、考生與考官及輪次及不同組別的考站之間(PR:C:GS)交互作用的方差估計(jì)矩陣,見表4。
表4 方差分析(Analysis of variance)結(jié)果
最終計(jì)算絕對(duì)概化系數(shù)為0.92,信度系數(shù)較高,見表5。
EduG 提供了G-Facets 分析的功能,它可以評(píng)估當(dāng)移除某個(gè)考站后,整體考試的信度變化情況。如果移除其他任何一個(gè)考站,考試的相對(duì)信度系數(shù)仍然在0.90 以上。見表6。因此,可以得出結(jié)論,該考試的設(shè)計(jì)具有較高的可靠性,并且可以有效地評(píng)估考生的能力水平。
表6 去掉某個(gè)考站后信度分析
D 研究結(jié)果表明,現(xiàn)有的5 個(gè)考站的考試方式已經(jīng)具備了較高的考試信度,相對(duì)G 系數(shù)達(dá)到0.95。進(jìn)一步增加考試站點(diǎn)會(huì)導(dǎo)致考試信度略有提升。當(dāng)站點(diǎn)數(shù)目增加至6 個(gè)時(shí),相對(duì)G 系數(shù)將提高至0.96,見表7。
表7 D 研究
概化理論是對(duì)經(jīng)典測量理論的升華,它借助實(shí)驗(yàn)設(shè)計(jì)和方差分析技術(shù),以實(shí)現(xiàn)對(duì)測評(píng)情境中各類誤差的細(xì)致分解與有效控制。該理論框架包括G研究和D 研究兩個(gè)部分。其中,G 研究主要關(guān)注測量目標(biāo)與測量方面的關(guān)聯(lián),而D 研究則在此基礎(chǔ)上,通過巧妙轉(zhuǎn)化隨機(jī)方面為固定方面,從而獲取最高的概化系數(shù),以便優(yōu)選最佳的測量方案。概化理論在解決許多現(xiàn)實(shí)能力測評(píng)問題方面具有廣泛的應(yīng)用價(jià)值,尤其在醫(yī)學(xué)領(lǐng)域的臨床技能多情景考試評(píng)價(jià)中表現(xiàn)突出。
本研究借助多元概化理論深入剖析了長學(xué)制醫(yī)學(xué)生MMI 考試。此次考試具有較高的信度,其相對(duì)G 系數(shù)達(dá)到了0.95,絕對(duì)G 系數(shù)為0.92,充分證明了該長學(xué)制設(shè)置的合理性。方差估計(jì)的結(jié)果顯現(xiàn),兩個(gè)小組之間的考生成績存在較大差異??忌姆讲钬暙I(xiàn)率最為突出,這再次證實(shí)了考生間在考試能力上存在較大差異,而非考試本身的影響。進(jìn)一步的研究發(fā)現(xiàn),不同組之間的考生與考站交互作用對(duì)誤差的貢獻(xiàn)率最大(56.9%),這表明兩組考生在面對(duì)相同的考站時(shí),表現(xiàn)出的能力存在顯著的差異。另外,從組別與考站之間的交互作用對(duì)誤差的貢獻(xiàn)率為26.5%來看,也再次證明了兩組考生之間在能力上存在一定差距,其中一組考生的總體能力似乎更勝一籌。為了真正達(dá)到以考促學(xué)的目的,針對(duì)這一結(jié)果,可以對(duì)兩組考生進(jìn)行更為深入的分析,探究導(dǎo)致差異的原因。此外,考慮到提高考試信度,將考站數(shù)量增設(shè)為6 個(gè)是必要的,這將使考試的相對(duì)概化系數(shù)提高至0.96。
醫(yī)學(xué)是一門實(shí)踐性很強(qiáng)的學(xué)科,為了更好地促進(jìn)即將進(jìn)入基礎(chǔ)醫(yī)學(xué)學(xué)習(xí)階段的學(xué)生了解臨床醫(yī)學(xué)在實(shí)際實(shí)踐中所應(yīng)具備的溝通能力、隨機(jī)應(yīng)變能力、時(shí)間和空間管理能力,在學(xué)生從綜合性大學(xué)進(jìn)入醫(yī)學(xué)院學(xué)習(xí)基礎(chǔ)醫(yī)學(xué)知識(shí)增加一次“銜接”MMI考試非常的有必要。MMI 主要考察非認(rèn)知方面的職能,以考察醫(yī)學(xué)生所應(yīng)具備的綜合素質(zhì)。傳統(tǒng)的筆試在評(píng)估醫(yī)學(xué)生的醫(yī)學(xué)素養(yǎng)方面存在諸多局限性,因此,如何科學(xué)客觀地評(píng)價(jià)MMI 考核指標(biāo)體系的有效性和科學(xué)性成為了當(dāng)前醫(yī)學(xué)教育評(píng)估中的重要問題。本文運(yùn)用多元概化理論對(duì)長學(xué)制醫(yī)學(xué)生MMI 結(jié)果進(jìn)行了深入研究。多元概化理論能夠客觀科學(xué)地評(píng)估長學(xué)制醫(yī)學(xué)生MMI 考試結(jié)果,同時(shí)對(duì)于提升和優(yōu)化醫(yī)學(xué)生醫(yī)學(xué)素養(yǎng)的考核質(zhì)量具有積極的推動(dòng)作用。