張東海,徐德穎,馬秀華*,趙留莊,剛 君,劉 雙
(1.首都醫(yī)科大學(xué)大興醫(yī)院,北京 100069;2.首都醫(yī)科大學(xué),北京 100069)
結(jié)業(yè)試卷分析的基本方法及應(yīng)用舉例
張東海1,徐德穎2,馬秀華1*,趙留莊1,剛 君1,劉 雙1
(1.首都醫(yī)科大學(xué)大興醫(yī)院,北京 100069;2.首都醫(yī)科大學(xué),北京 100069)
介紹結(jié)業(yè)試卷分析的一般分析方法、基本程序及如何應(yīng)用。從試卷出題時就要考慮評價、檢驗試卷,試題要具體、標(biāo)準(zhǔn)化、能夠客觀評價,即需要對測驗結(jié)果進(jìn)行信度、效度、難度、區(qū)分度檢驗。用Excel 2000建立數(shù)據(jù)庫,將題號、分值和學(xué)生成績等數(shù)據(jù)錄入計算機進(jìn)行統(tǒng)計處理,分析計算學(xué)生測驗成績、分值范圍分布,必要時可以制作曲線圖。通過舉例介紹試卷分析的基本方法。
結(jié)業(yè);試卷分析;信度;難度系數(shù);區(qū)分度
考試作為一種基本檢測手段,不僅可以檢驗學(xué)生的學(xué)習(xí)效果,而且可以評價教師的教學(xué)質(zhì)量、發(fā)現(xiàn)教學(xué)中存在的問題[1-3]。一般認(rèn)為[4],考試的功能包括:檢查和鞏固學(xué)習(xí)、辨別智愚、選拔人才、對比實驗(如:不同教學(xué)法的對比)、考查學(xué)生學(xué)習(xí)努力程度、預(yù)測能力、指導(dǎo)就業(yè)、課程評價。如何檢驗與評價考試的科學(xué)性、合理性等,這就需要進(jìn)行試卷分析。我們對北京地區(qū)“3+ 2”助理全科醫(yī)生培訓(xùn)結(jié)業(yè)考試進(jìn)行了試卷分析工作[5-6],對課程建設(shè)起到了一定的推進(jìn)作用,現(xiàn)將工作中的體會以及試卷分析的基本程序做一簡單介紹。
測量是根據(jù)法則給事物分派數(shù)字。廣義角度的教育測量就是對于教育領(lǐng)域內(nèi)的事物或現(xiàn)象,根據(jù)一定的客觀標(biāo)準(zhǔn)進(jìn)行縝密考核,并按一定的規(guī)則將考核結(jié)果予以數(shù)量的描述。狹義的教育測量是指對學(xué)生某些學(xué)科經(jīng)過學(xué)習(xí)和訓(xùn)練后所獲得的知識、技能的測量,又稱成就測量、學(xué)業(yè)成績測量或?qū)W科測量。它是按教育測量的規(guī)則,對學(xué)生掌握某些學(xué)科的知識、技能予以數(shù)的描述。
通俗地講,測驗是指編制試卷并施測,再根據(jù)測驗結(jié)果評估考生的學(xué)業(yè)、智力等的全部過程。即測驗是教育測量的工具。
一般認(rèn)為,測驗的作用包括:檢查和鞏固學(xué)習(xí)、辨別智愚、選拔人才、對比實驗(如:不同教學(xué)法的對比)、考查學(xué)生學(xué)習(xí)努力程度、預(yù)測能力、指導(dǎo)就業(yè)、課程評價。如何做到較為客觀地評價,這就需要進(jìn)行試卷分析。評價考試質(zhì)量常用的指標(biāo):主要涉及試卷質(zhì)量的指標(biāo):信度、效度、難度、區(qū)分度;主要體現(xiàn)學(xué)生成績的指標(biāo):平均分?jǐn)?shù)、標(biāo)準(zhǔn)差、分布狀態(tài)、成績。
2.1出題時就要明確考試目標(biāo)
對于一般意義上的考試,試卷要符合考試的目的(根據(jù)考試目的,將考試分為常和目)。
常模參照性考試是依據(jù)測驗集體的常模(平均分、標(biāo)準(zhǔn)差等)來解釋分?jǐn)?shù)的測驗。其目的在于把個體的成績與他人做出比較,著眼于集體中學(xué)生成績的區(qū)分(如:高考、競賽),即區(qū)別性考試、選拔性考試(如:高考、競賽),要注意加強試題的區(qū)分度與試題難度。
目標(biāo)參照性考試是以某種目標(biāo)為依據(jù)進(jìn)行命題和分?jǐn)?shù)解釋的考試,其及格的參照是最基本的教學(xué)要求水平,其分?jǐn)?shù)解釋是依據(jù)達(dá)標(biāo)情況和能力水平進(jìn)行的,達(dá)標(biāo)程度愈高則分?jǐn)?shù)愈高(如:結(jié)業(yè)考試、畢業(yè)考試),主要是了解知識的掌握程度。但出題要有依據(jù),經(jīng)常采用的依據(jù)就是教學(xué)大綱??砂凑諜z驗的目的不同,分別對掌握、熟悉、了解內(nèi)容采取不同的比例。對于結(jié)業(yè)性測驗,加大掌握與熟悉部分內(nèi)容的比例,試題主要圍繞基本知識點展開。如果平均成績低于總分的70%,說明試題較難,或教學(xué)存在問題;高于總分的90%則說明試題過易,起不到考查的作用。尤其是后者,對優(yōu)秀學(xué)生不公平,對后進(jìn)學(xué)生起不到督導(dǎo)、激發(fā)學(xué)習(xí)熱情的作用。
2.2測量材料、測量實施、評分計分等要標(biāo)準(zhǔn)化
2.2.1測量材料標(biāo)準(zhǔn)化 可以理解為所有測試對象采用統(tǒng)一(同一)試卷。
2.2.2測量實施標(biāo)準(zhǔn)化 一般要求采用統(tǒng)一的教材、教學(xué)大綱、測驗時間、環(huán)境等。
2.2.3評分計分標(biāo)準(zhǔn)化 即要求采用統(tǒng)一的評分標(biāo)準(zhǔn)。
2.2.4測量分?jǐn)?shù)解釋標(biāo)準(zhǔn)化 即測驗分?jǐn)?shù)必須用統(tǒng)一的標(biāo)準(zhǔn)加以解釋。例如:按照每門課程的學(xué)時分配測驗分?jǐn)?shù),而不是隨意安排。按照同樣的標(biāo)準(zhǔn)制訂給分標(biāo)準(zhǔn),如采取多選題時每個問題(試題)給分標(biāo)準(zhǔn)是一樣的[5-6]。例如:在首都醫(yī)科大學(xué)全科醫(yī)學(xué)與繼續(xù)教育學(xué)院主導(dǎo)的北京地區(qū)“3+2助理全科醫(yī)師規(guī)范化培訓(xùn)”[10]的臨床綜合課程結(jié)業(yè)測試中(以下舉例均為臨床綜合課程結(jié)業(yè)測試),每屆學(xué)員的結(jié)業(yè)考試試題均由聯(lián)合教研室制訂統(tǒng)一原則,由各教學(xué)單位承擔(dān)課程的教師提供,建立題庫,然后隨機抽題組卷。課程負(fù)責(zé)人只負(fù)責(zé)組卷,不負(fù)責(zé)出題。試卷中的試題共計100題,每題分值1分,按照教學(xué)大綱內(nèi)容、教學(xué)課時統(tǒng)一分配各章節(jié)知識點試題所占分?jǐn)?shù),平均每學(xué)時2分。鑒于學(xué)生的培養(yǎng)目標(biāo)與將來的工作性質(zhì),對人文教育課程與全科醫(yī)學(xué)概論每學(xué)時各分配4分。考試由聯(lián)合教研室統(tǒng)一組織、同一時間舉行。試卷統(tǒng)一印刷,在考試前發(fā)放到各單位,考生就位后同時開始答題。考試結(jié)束后各考點將試卷交回教務(wù)處統(tǒng)一組織流水閱卷。試題事先列出標(biāo)準(zhǔn)答案。
2.3測驗評價要具備客觀性
即需要對測驗結(jié)果進(jìn)行信度、效度、難度、區(qū)分度檢驗。信度是指測量的可靠性;效度是用于評判測量的正確性、有效性;難度是用于評判試題的難易程度,一般要求同時分析試題的難度系數(shù)、試卷的難度系數(shù);區(qū)分度,即優(yōu)秀生與差生的鑒別程度,一般也要求同時分析試題的區(qū)分度、試卷的區(qū)分度。
2.4要選擇合適的題型
考試題型一般包括選擇題(是非題、多項選擇題、配合題)與供答題(填充題、簡答題、論文題)兩大類[4]。理論上講,試卷分析可應(yīng)用于所有題型,但在實際操作上簡答題、論文題受閱卷教師主觀因素影響。填充題、是非題猜測機會較大,一般占用試卷的比例較小,但可以分析。多項選擇題與配合題則較為相似。根據(jù)多數(shù)教育學(xué)家的評價及其所收集到的學(xué)生反饋意見,多項選擇題有利于擴大測試范圍、用多選題形式進(jìn)行學(xué)習(xí)的學(xué)生學(xué)習(xí)比較深入,因此,它是標(biāo)準(zhǔn)化測驗較多采用的方法,但是也有命題困難、存在猜測因素的缺點。
臨床綜合課程涉及人文以及內(nèi)、外、婦、兒等多個專業(yè)學(xué)科,因此多選題就成為最佳的選擇,可達(dá)到題目數(shù)量較多、測驗內(nèi)容覆蓋面較大、題目取樣范圍較廣的目的。因此,從2015級開始,我們對北京地區(qū)“3+2”助理全科醫(yī)生培訓(xùn)結(jié)業(yè)考試全部采用多選題組卷。
3.1用Excel 2000建立數(shù)據(jù)庫
將各題的編號、分值和每名學(xué)生的成績等數(shù)據(jù)錄入計算機,利用Excel 2000進(jìn)行統(tǒng)計處理。
3.2分析計算學(xué)生測驗成績
統(tǒng)計得出班級的應(yīng)得總分與實際總分、最高分與最低分、平均分與標(biāo)準(zhǔn)差以及分值范圍分布,必要時可以制作曲線圖。如果要比較多個班級之間的差異,則需要分別計算,并且要與總成績進(jìn)行比較;同時也可以進(jìn)行不同班級成績之間的比較。
3.3測驗的客觀性評價
在測驗后,要評價試卷是否適合本次測驗,此時需要評價試卷的質(zhì)量指標(biāo),即信度、效度、難度、區(qū)分度。例如:在對2015級學(xué)員進(jìn)行“3+2”助理全科醫(yī)生培訓(xùn)結(jié)業(yè)考試,目的是目標(biāo)參照性考試而非區(qū)別性考試,因此在試題選用上期望最終平均分為80分且不要求過高的區(qū)分度。檢驗結(jié)果:(1)試卷的難度系數(shù)為0.73,區(qū)分度為0.27,屬于相對較易試卷,試卷設(shè)計基本符合考查目的及培訓(xùn)課程目標(biāo)。(2)本次試卷信度為0.79,試卷信度較高,適合于專業(yè)理論與能力的測驗。(3)試卷試題滿分為100分,116名學(xué)員中最高分為93分,最低分為52分。本次考試成績主要分布于65分~75分之間,平均得分(72.2±9.2)分,低于平均80分的期望值,說明部分試題難度略大,下次測驗需要注意。
3.4比較分析試題難度系數(shù)(P)與區(qū)分度的關(guān)系
比較分析試卷總的難度系數(shù)與區(qū)分度的關(guān)系,就要了解難度系數(shù)較小的試題學(xué)生的掌握情況,以評判應(yīng)該掌握的教學(xué)內(nèi)容學(xué)生是否掌握。P值越大提示試題難度越小,測驗內(nèi)容為多數(shù)學(xué)生掌握,則區(qū)分度較差;P值越小說明試題難度越大,大部分學(xué)生未掌握,區(qū)分度也較差;難度適中的試題區(qū)分度則較好。難度系數(shù)≥0.7的試題屬于較易題;0.4≤難度系數(shù)<0.7屬于中等難度題;難度系數(shù)<0.4則屬較難題。
3.5比較不同班級學(xué)生試題得分的差別
若是采用統(tǒng)一的教學(xué)大綱、教材,但課程實施有多個考生單位(多個班級)且由不同的教師上課,那就需要比較不同班級學(xué)生各試題的得分差異。舉例(見表1):下表中有6個班級在8道試題上出現(xiàn)差異,其中4道試題(試題1、試題9、試題11、試題50)有3~4個班級得分低于平均分;有2道試題(試題5、試題48)各有1個班級得分低于平均分;試題11則僅有1個班級正確率較高;試題15整體答題正確率較低。提示教師教學(xué)存在差異,有的薄弱部分需要加強。而試題2、試題15則提示是教學(xué)難點,需要組織集體備課。
表1 不同單位的考生20道A型題的答題結(jié)果分析(%)
3.6調(diào)查與反饋
測試結(jié)果需要通過適當(dāng)?shù)姆绞椒答伣o教師,然后收集教師以及教學(xué)管理部門的意見與建議,對下一次考題進(jìn)行調(diào)整;對出現(xiàn)的問題按照不同情況開展分層次集體備課等。
4.1第一個層面:是教研室需要重點掌握的內(nèi)容
(1)教研室要評價試卷是否適合本次測驗,主要要對考試成績與試卷做整體分析比較;(2)要分析試卷總的信度、難度、區(qū)分度,評價此次測驗所用試卷試題質(zhì)量是否適合要求;(3)要分析試卷總的難度系數(shù)與區(qū)分度指數(shù)的關(guān)系,從整體方面評價教學(xué)效果;(4)同時也要比較不同教學(xué)單位之間的差異以及具體環(huán)節(jié),必要時要對薄弱環(huán)節(jié)組織集體備課。具體來說,要分析不同教學(xué)單位之間存在的考試成績差異;要思考為什么存在差異?對教學(xué)管理者有什么提示?對授課教師有什么意義?對促進(jìn)教學(xué)工作、教學(xué)水平有什么作用?對學(xué)生的學(xué)習(xí)過程有什么作用?同時要提出解決的對策。
4.2第二個層面:是教研室、各個教學(xué)單位管理部門需要共同關(guān)注的問題
本門課程中哪一部分學(xué)生掌握較好,哪一部分是薄弱環(huán)節(jié),這就要求教研室與各個教學(xué)單位管理部門共同探討,分析原因,如教師的原因、學(xué)生的原因等。要達(dá)到上述目的,各單位就必須對本單位學(xué)生試卷進(jìn)行分析。
4.3第三個層面:是各個教學(xué)單位管理部門需要關(guān)注的問題
各個教學(xué)單位管理部門要與教研室取得聯(lián)系,了解班級本次測驗水平,組織教師進(jìn)行集體備課,交流教學(xué)體會、教學(xué)方法;同時收集教師與學(xué)生的意見與建議。對于高分學(xué)生與低分學(xué)生要有不同的側(cè)重點。
4.3.1高分學(xué)生 重點了解其未掌握的內(nèi)容,分析是個別情況還是整體情況,若是整體情況(即全部或大多數(shù)學(xué)生答錯),需要了解別的班級(教學(xué)單位)是否也如此,若別的班級也如此則由教研室拿出解決方案;若僅本班級如此,那就需要從教師處入手,分析教法、教學(xué)內(nèi)容、教學(xué)能力等,必要時要對學(xué)生進(jìn)行補課。
4.3.2低分學(xué)生(1)總體分析:首先看這部分學(xué)生共同掌握的內(nèi)容,再看共同答錯的內(nèi)容,即首先了解整體情況。如果學(xué)生的問題是共性的,原因大致同上;如果學(xué)生的問題是無規(guī)律可循的,就組織教師和學(xué)生一起分析原因。
(2)個體分析:具體對每位學(xué)生進(jìn)行分析。如果學(xué)生在每門課程均屬于低分組,那班主任就要給予更多關(guān)注,分析原因。要重點分析低分(組)學(xué)生對難度系數(shù)低的試題的答題情況,即必須掌握的內(nèi)容該生是否掌握?能否達(dá)到“助理全科醫(yī)師”的基本要求。
4.4第四個層面:是每位教師和學(xué)生均需要注意的問題
要將考試結(jié)果及時反饋給教師與學(xué)生,同時收集教師與學(xué)生的反饋意見。
(1)教學(xué)過程是“教”與“學(xué)”的過程,需要“教”與“學(xué)”兩方面的互動。該過程中教師起主導(dǎo)作用,這個作用不僅在授課過程中發(fā)揮,還要持續(xù)到課程結(jié)束后,將測驗結(jié)果向?qū)W生反饋,包括試卷講評。教師要了解自己對課程的教授效果,不斷提高教學(xué)質(zhì)量。
(2)測驗不是目的,而是了解學(xué)生是否掌握本門課程知識的手段。學(xué)生要反思自己的學(xué)習(xí)效果,尋找薄弱環(huán)節(jié)進(jìn)行補課。
綜上所述,結(jié)業(yè)試卷分析在出題前就要進(jìn)行,測驗后除了計算總分、平均分、標(biāo)準(zhǔn)差,必要時還需進(jìn)行分布狀態(tài)分析,評價試卷質(zhì)量,檢驗試卷的信度、難度系數(shù)以及區(qū)分度,教研室以及各個教學(xué)單位的教學(xué)管理部門要將分析結(jié)果及時反饋給每位教師以及學(xué)生,以促進(jìn)教學(xué)效果不斷提高。
[1]張正祥,劉國慶,王廷慧,等.延安大學(xué)醫(yī)學(xué)院藥理學(xué)試卷分析[J].中華醫(yī)學(xué)教育雜志,2008,28(4):120-122.
[2]孫敏,王錦帆,祖勤,等.醫(yī)學(xué)生學(xué)習(xí)中期評估測試實效分析[J].中華醫(yī)學(xué)教育雜志,2013,33(4):617-620.
[3]盧燕,王培玉,劉寶花.北京大學(xué)醫(yī)學(xué)部八年制疾病預(yù)防醫(yī)學(xué)期末考試試卷分析[J].中華醫(yī)學(xué)教育雜志,2013,33(5):791-793.
[4]王孝玲.教育測量[M].2版.上海:華東師范大學(xué)出版社,2005.
[5]馬秀華,張東海,黃東明,等.“3+2”助理全科醫(yī)師培訓(xùn)臨床綜合課程結(jié)業(yè)試卷評價及相關(guān)因素分析[J].中國醫(yī)學(xué)教育技術(shù),2015,29(2):213-217.
[6]馬秀華,張東海,徐德穎,等.“3+2”助理全科醫(yī)師培訓(xùn)臨床綜合課程結(jié)業(yè)試卷分析評價[J].中華醫(yī)學(xué)教育探索雜志,2016,15(5):445-450.
[7]高衛(wèi)紅,任俊峰.利用教育統(tǒng)計學(xué)原理進(jìn)行考試質(zhì)量分析方法初探[J].武警醫(yī)學(xué)院學(xué)報,2004,13(3):214-218.
[8]彭斌.試卷質(zhì)量定量分析系統(tǒng)中的幾個參數(shù)及其應(yīng)用[J].醫(yī)學(xué)教育探索,2004,3(4):52-54.
[9]劉新平.教育統(tǒng)計與測評導(dǎo)論[M].北京:科學(xué)出版社,2003.
[10]黃艷,線福華,趙麗莉,等.“3+2”助理全科醫(yī)師培養(yǎng)模式的探索與實踐[J].中華醫(yī)學(xué)教育雜志,2014,34(2):31-33.
(*通訊作者:馬秀華)
G40-03
A
1671-1246(2017)06-0026-03
北京市教委“2016年度首都全科醫(yī)學(xué)研究專項”基金資助課題(16QK12)