馬俊紅,楊曉征,續(xù)巖
(北京大學醫(yī)學部教育處,北京100191)
·醫(yī)苑·
改良客觀結(jié)構(gòu)化臨床考試在本科畢業(yè)考試中的應(yīng)用效果研究
馬俊紅,楊曉征,續(xù)巖
(北京大學醫(yī)學部教育處,北京100191)
為檢驗改良客觀結(jié)構(gòu)化臨床考試(OSCE)在臨床醫(yī)學專業(yè)本科畢業(yè)考試中應(yīng)用的有效性,本研究通過統(tǒng)計北京大學醫(yī)學部臨床醫(yī)學專業(yè)本科畢業(yè)考試成績,分析OSCE信度、效度、難易度及區(qū)分度;通過調(diào)查問卷了解考生對OSCE的認可程度。結(jié)果表明:本次OSCE內(nèi)部一致性信度系數(shù)為0.671,與專業(yè)理論考試成績的相關(guān)系數(shù)為0.561(P=0.000),總體難度0.81,區(qū)分度0.21;71.43%的學生認為OSCE能客觀全面地反映自身的臨床技能水平。因此,改良OSCE考核結(jié)果可靠、有效,可用于本科畢業(yè)考試中對學生臨床基本技能的評估。
客觀結(jié)構(gòu)化臨床考試;畢業(yè)考試;信度;效度
客觀結(jié)構(gòu)化臨床考試(The Objective Structured Clinical Examination,OSCE)是最初由Harden R.M.等人于1975年提出的一種預先設(shè)計的、結(jié)構(gòu)化的、客觀的考核方式,旨在考核被評估者采集病史、體格檢查、有效溝通、閱讀輔助檢查、綜合分析信息等能力[1]。經(jīng)典的OSCE具有三個主要特征:對臨床表現(xiàn)的直接觀察、使用高度結(jié)構(gòu)化的量表對考生表現(xiàn)進行評估、用標準化病人(Standardized Patients,SP)模擬臨床真實情景[2]。40年來,此種考核方法被廣泛應(yīng)用于醫(yī)學教育領(lǐng)域,并被認為是評估醫(yī)學生臨床能力的“金標準”[3]。
2005年,北京大學醫(yī)學部將OSCE引入臨床醫(yī)學專業(yè)本科畢業(yè)考試,并在實踐中不斷調(diào)整優(yōu)化考試設(shè)計方案。該校現(xiàn)行OSCE減少了SP考站的比例,適當增加了病例分析及臨床溝通的內(nèi)容,更關(guān)注對學生臨床思維能力的評價;同時,各考站評分表以直接打分的方式替代高度結(jié)構(gòu)化的量表,增加了評分的靈活程度。為檢驗改良OSCE在畢業(yè)考試中應(yīng)用的有效性,筆者從考生評價及心理測量學主、客觀兩個維度對OSCE評價效果進行實證研究。
1.1 研究對象
北京大學醫(yī)學部臨床醫(yī)學專業(yè)本科畢業(yè)考試包括專業(yè)理論、臨床技能兩部分,均為百分制,60分為及格線,通過者準予本科畢業(yè)。專業(yè)理論考試包括內(nèi)、外、婦產(chǎn)、兒科四個學科內(nèi)容,臨床技能考核采取改良OSCE方式,考核內(nèi)容亦涉及內(nèi)、外、婦產(chǎn)、兒、精神病學等學科。
OSCE共設(shè)置17個考站,包括病例分析及病例分析準備各4站,技能操作3站,體格檢查2站,問診、臨床溝通技巧、輔助檢查、精神檢查各1站,具體設(shè)置情況如表1所示。其中體格檢查、問診、臨床溝通技巧、精神檢查考站均為SP考站,除體格檢查站外,其余3個考站SP均參與評分,SP與考官的平均分為考生此站得分。輔助檢查考站為客觀選擇題,內(nèi)容包括心電圖、影像、產(chǎn)程或胎心監(jiān)護圖、實驗室檢查結(jié)果等的閱讀判斷。每個考站10分鐘,總考核時間170分鐘。13個計分考站,每站滿分10分,各考站總分折換成百分制即為考生臨床技能考核成績。
2014年共有152名學生參加本科畢業(yè)考試,考生被隨機分配至5家考點醫(yī)院,同時進行臨床技能考核,5個考點共用一套試題。
表1 北京大學醫(yī)學部臨床醫(yī)學本科畢業(yè)考試OSCE考站設(shè)置
1.2 研究方法
統(tǒng)計152名考生臨床技能及專業(yè)理論成績,使用SPSS19.0對OSCE進行信、效度檢驗,并分析考試的難度、區(qū)分度,從心理測量學角度判斷OSCE的有效性及考核結(jié)果的可靠程度。
通過考試結(jié)束后對所有考生進行問卷調(diào)查,獲得考生對本次考試的主觀評價,了解其對考核方式的認可程度。
152名考生臨床技能成績呈正態(tài)分布(K-S法P= 0.2),平均分為81.90±4.977,各考站平均成績?nèi)绫?所示。
表2 北京大學醫(yī)學部2014屆臨床醫(yī)學本科畢業(yè)考試OSCE平均成績
2.1 OSCE信度及效度
2.1.1 信度所有考站內(nèi)部一致性信度Cronbach's α系數(shù)為0.671,體格檢查類、技能操作類、病例分析類考站內(nèi)部一致性系數(shù)分別為0.368、0.325、0.461,提示OSCE內(nèi)部一致性信度一般。
分別將5個考點問診、臨床溝通技巧、精神檢查考站SP與考官的評分進行組內(nèi)相關(guān)分析,結(jié)果見表3。5個考點臨床溝通技巧、精神檢查考站的評分者組內(nèi)相關(guān)系數(shù)為0.616-0.962,顯著正相關(guān);各考點問診站SP與考官評分之間的相關(guān)系數(shù)差異較大,雖均為正相關(guān),但僅有考點2和考點4的相關(guān)性顯著。
2.1.2 效度將考生OSCE總成績與專業(yè)理論考試成績進行Pearson相關(guān)分析(r=0.561,P=0.000),發(fā)現(xiàn)二者顯著正相關(guān);除臨床溝通技巧站以外,其他類別考站均與專業(yè)理論成績顯著正相關(guān)(表4),提示OSCE具有較好的效標效度。
不同類別考站間的Pearson相關(guān)分析結(jié)果見表5,所有類別之間均呈正相關(guān)關(guān)系,其中技能操作類與其
他各類考站(體格檢查類除外)顯著相關(guān),其余6個類別考站僅部分之間存在統(tǒng)計學意義的相關(guān)關(guān)系。各類別考站與臨床技能總成績相關(guān)系數(shù)為0.353-0.752,P=0.000。以上說明各考站與總成績相關(guān)性較好,但不同類別考站之間的關(guān)聯(lián)性欠佳,OSCE的整體結(jié)構(gòu)效度不高。
表3 北京大學醫(yī)學部2014屆臨床醫(yī)學本科畢業(yè)考試OSCE評分者組內(nèi)相關(guān)分析(ICC)
表4 北京大學醫(yī)學部2014屆臨床醫(yī)學本科畢業(yè)考試OSCE各類別考站與專業(yè)理論成績相關(guān)分析
表5 北京大學醫(yī)學部2014屆臨床醫(yī)學本科畢業(yè)考試OSCE考站間Pearson相關(guān)分析
2.2 OSCE難度及區(qū)分度
13個考站難度系數(shù)為0.67-0.91,OSCE總體難度為0.81,說明對于本屆考生而言,OSCE試題偏簡單。13個考站的區(qū)分度為0.14-0.4,OSCE總體區(qū)分度為0.21,說明本次OSCE對不同能力考生有一定區(qū)分,但鑒別力不強。
2.3 不同考點對考生成績的影響
對5個不同考點考生的OSCE成績進行方差齊性檢驗及單向方差分析,不同考點之間無統(tǒng)計學差異,F(xiàn)= 1.602,P=0.177(表6)。說明在不同考點考核、由不同考官評分,對考生成績無影響。
2.4 考生問卷調(diào)查
考后對所有考生進行問卷調(diào)查,回收有效問卷133份,有效率87.5%,問卷結(jié)果見表7。
71.43 %的學生認為“OSCE能客觀全面地反映自身對臨床基本技能的掌握程度”。62.41%的學生認為“OSCE設(shè)置13個考核考站(不包括病例分析準備站)比較合適”,32.33%的學生認為考站偏多,其中有24人建
議減少至10-12站。58.65%的學生認為“170分鐘的考核時間比較合適”,另有24.81%的學生覺得時間偏長,其中20人建議將時間減至120分鐘。
對于問診及精神檢查考站SP模擬臨床病人的真實程度,分別有85.72%、82.71%的學生認為“真實”或“比較真實”。
表7 北京大學醫(yī)學部2014屆臨床醫(yī)學本科畢業(yè)考試OSCE考生問卷調(diào)查結(jié)果
3.1 本科畢業(yè)考試中OSCE的信度一般,仍有提升空間
信度是評價考試結(jié)果準確性、可靠性的重要指標,考站內(nèi)部一致性、評分者內(nèi)部一致性是評價OSCE信度的最常用方法。
對于考試的內(nèi)部一致性,雖然有研究指出,職業(yè)資格考試的信度系數(shù)不得低于0.90,結(jié)課考試的信度系數(shù)應(yīng)在0.80-0.89之間,小測驗等的信度系數(shù)可在0.70-0.79之間[4];對于比較嚴格的通過性考試,OSCE的內(nèi)部一致性信度至少需達到0.8[5-6]。但國外許多關(guān)于OSCE內(nèi)部一致性信度的研究結(jié)果都難于達到上述標準,除非大量增加考站數(shù)量[5,7-8]。國內(nèi)鄒揚等學者將OSCE應(yīng)用于臨床本科及長學制畢業(yè)考試中,內(nèi)、外、婦、兒四個模塊考站內(nèi)部一致性系數(shù)為0.1-0.671,并認為在0.12-0.9之間均為可接受信度[9]。
本研究中OSCE內(nèi)部一致性信度為0.671,體格檢查、技能操作、病例分析三個類別考站的內(nèi)部一致性在0.3-0.5之間,與其他研究結(jié)果相似,處于可接受的信度范圍。但畢業(yè)考試作為通過性考試,直接決定學生能否順利畢業(yè),故仍需進一步提高OSCE信度,盡量達到0.8的標準。
影響OSCE信度的因素主要來自于考站設(shè)計和考生表現(xiàn)兩個方面,故為了提高考試信度,需適當增加總考站數(shù)量或考核內(nèi)容相似的考站數(shù)量,也可通過增加考站內(nèi)評分表條目、延長考試時間、增加每個考站考官數(shù)量、單獨設(shè)置書面測驗考站等來提高OSCE的可靠性[10-13]。以上提高信度的方法多是以增加考試的經(jīng)濟成本和時間成本為代價的。也有學者為了控制成本,試圖通過縮減考核范圍來提高OSCE的信度,但未償所愿[14]。本研究也分別計算排除問診、精神檢查、臨床溝通技巧等考站后的內(nèi)部一致性信度,發(fā)現(xiàn)結(jié)果均小于原整體信度系數(shù)。為盡量減少考試財務(wù)支出,同時避免過長考試時間增加考生及考官的負擔,可通過適當增加每一考站的分值并細化評分項目來實現(xiàn)OSCE信度的提升。
本次OSCE分別在5家醫(yī)院進行,雖然5個考點考生的平均分之間無統(tǒng)計學意義上的差異,但同一考站有多個考官參與評分,亦可能影響考試結(jié)果的一致性。故加強考官評分標準的培訓,或集中考核,同一考站盡量由相同考官評分,會在一定程度上提高考試的信度。
對于評分者內(nèi)部一致性,本研究中僅有問診、臨床溝通技巧、精神檢查考站分別由SP及考官評分,問診站兩位評分者內(nèi)部一致性較差,另兩個考站評分者內(nèi)部一致性較好。分析原因如下:一方面,問診站SP與考官的評分表內(nèi)容不完全一致,前者的評分內(nèi)容以病史采集的相應(yīng)項目為主,后者的評分表中病史采集部分占2/5,另3/5是對問診技巧及臨床思維的評價;另一方面,問診站SP為各醫(yī)院招募并培訓的非醫(yī)學專業(yè)人員,各醫(yī)院對SP培訓重視程度不同,有些SP未完全掌握評分標準。臨床溝通技巧和精神檢查考站的SP均由相應(yīng)學科臨床醫(yī)生擔任,經(jīng)學校統(tǒng)一培訓,且SP與考官評分表相同,故二者評分的相關(guān)性更好。未來需進一步加強問診站SP的遴選及培訓工作,強調(diào)評分規(guī)則,以提高評分者之間的一致性。
3.2 本科畢業(yè)考試中OSCE具有較好的效度
效度是評價考試有效性的重要指標,效標效度及結(jié)構(gòu)效度為常用效度檢驗方法。
本研究中考生的OSCE成績與其專業(yè)理論成績呈顯著正相關(guān),說明OSCE具有較好的效標效度。專業(yè)理論以考核學生臨床學科知識、診療分析能力為主,故與OSCE的病例分析類、輔助檢查類的相關(guān)性更高,而與臨床溝通技巧無相關(guān)。為進一步檢驗OSCE的效標效度,尚需與其他類似的臨床能力考試如基于Mini-CEX(Mini-Clinical Evaluation Exercise)的臨床技能考核等相比較。
OSCE重在從不同方面考核學生的臨床能力,而不刻意強調(diào)各種考核內(nèi)容之間的相關(guān)聯(lián)程度,且考生在不同類別考站的表現(xiàn)也不盡相同,故考核難以達到較高的結(jié)構(gòu)效度,這也是為何國內(nèi)外關(guān)于OSCE結(jié)構(gòu)效度的研究很少的原因所在。Wessel曾對理療領(lǐng)域OSCE的應(yīng)用進行效度研究,結(jié)果顯示考站間的相關(guān)系數(shù)為-0.14-0.33[15]。本研究也將不同類別考站進行相關(guān)分析,結(jié)果證實,OSCE的結(jié)構(gòu)效度并不高,但基于上述原因,不能否定OSCE在臨床能力評價中的有效性。
3.3 本次本科畢業(yè)考試OSCE整體難度及區(qū)分度偏低
難度和區(qū)分度是檢驗試題及試卷質(zhì)量的主要參考指標。OSCE作為主觀考核形式,考試的難度、區(qū)分度受影響因素較多,難以達到預期的中等難度、高區(qū)分度的結(jié)果。從考試目標出發(fā),畢業(yè)考試OSCE各考站內(nèi)容均依據(jù)本科教學大綱命制,以本科生需掌握的基本知識及技能為主,故整體偏易,同時也導致OSCE的區(qū)分度較低。但對于本科畢業(yè)通過性考試,此難度及區(qū)分度均為可接受范圍。為進一步提高考試的科學性,建議未來考試命題時適當增加OSCE考站內(nèi)容的難度,盡量將區(qū)分度提高至0.3以上。
3.4 大部分考生認可OSCE考核方式
考生問卷調(diào)查結(jié)果顯示,大部分學生認為OSCE能全面客觀地反映自己的臨床技能水平,考站數(shù)量及考核總時間比較合適,并認可問診站和精神檢查考站SP角色扮演的真實程度,說明大部分考生從主觀上比較認同OSCE的設(shè)置及考核結(jié)果。
但也有近1/3的學生認為本次OSCE不能客觀評價自身水平,原因主要為:“考試節(jié)奏快,有些考站時間較短(如內(nèi)科病例分析),與臨床實際有差異,不能發(fā)揮正常水平”;“考題隨機性強,無法涵蓋所有內(nèi)容”。同時也有部分考生認為考站偏多、考試時間偏長,一些學生建議將考核時間控制在120分鐘之內(nèi)。雖然考站數(shù)量是影響考試信度的重要因素,但考試設(shè)計者應(yīng)充分考慮到過長的考核時間對考生造成的身心壓力亦會影響考生的正常發(fā)揮,影響考試結(jié)果的客觀準確。建議可根據(jù)考核內(nèi)容酌情調(diào)整每站考核時間,或者將OSCE按學科或能力類別進行分段考核,可有效避免一次考核時間過長的情況。
總之,本研究通過心理測量學和考生評價兩個角度分析證實了改良OSCE在臨床醫(yī)學專業(yè)本科畢業(yè)考試中應(yīng)用的有效性,OSCE能全面評價學生的臨床基本技能。為進一步提高考試結(jié)果的有效及可靠程度,尚需綜合考慮學科維度和能力維度,對考站時間、考站數(shù)量、不同考核內(nèi)容的比例、評分細則等進行優(yōu)化完善。
[1]HARDEN R M,STEVENSON M,DOWNIE W W,WILSON G M.Assessment of clinical competence using objective structured examination[J].Br Med J,1975(1):447-451.
[2]REZNICK R K,SMEE S,BAUMBER J S,et al.Guidelines for estimeting the real cost of an objective structured clinical examination[J].Academic Medicine,1993,68(7):513-517.
[3]HODGES B.Validity and the OSCE[J].Medical Teacher,2003,25(7):250-254.
[4]DOWNING S M.Reliability:on the reproducibility of assessment data[J].Medical Education,2004,38(9):1006-1012.
[5]ROBERTS C,NEWBLE D,JOLLY B,et al.Assuring the quality of high-stakes undergraduate assessments of clinical competence[J]. Medical Teacher,2006,28:535-543.
[6]MUNOZ L Q,O'BYRNE C,PUGSLEY J,AYUSTIN Z. Reliability,validity,and generalizability of an objective structured clinical examination(OSCE)for assessment of entry-to-practice in pharmacy[J].American Journal of Pharmaceutical Education,2005,5(1):33-43.
[7]SINGER P A,ROBB A,COHEN R,NORMAN G,TURNBULL J.Evaluation of a multicenter ethics objective structured c1inical examination[J].Journal of General Internal Medicine,1994,9(12):690-692.
[8]SINGER P A,ROBB A,COHEN R,NORMAN G,TURNBULL J.Performance-based assessment of clinical ethics using an objective structured clinical examination[J].Academic Medicine,1996,71(5):495-498.
[9]鄒揚,繆青,蘆開芳,等.本科和長學制畢業(yè)考試中客觀結(jié)構(gòu)化臨床考試的應(yīng)用[J].上海交通大學學報(醫(yī)學版),2008,28(S1):71-75.
[10]VERHOEVEN B H,HAMERS J G,SCHERPBIER A J,HOOGENBOOM R J,VAN DER VLEUTEN C P.The effect on reliability of adding a separate written assessment component to an objective structured clinical Examination[J].Medical Education,2000,34:525-529.
[11]BRANNICK M T,EROL-KORKMAZ H T,PREWETT M.A systematic review of the reliability of objective structured clinical examination scores[J].Medical Education,2011,45(12):1181-1189.
[12]VARKEY P,NATT N,LESNICK T,et al.Validity evidence for an OSCE to assess competency in systems-based practice and practice-based learning and improvement:a preliminary investigation[J].Academic Medicine,2008,83(8):775-780.
[13]高鐳,李曉松,萬學紅等.客觀結(jié)構(gòu)化臨床考核的多元概化模型研究[J].中國高等醫(yī)學教育,2004,(3):46-49.
[14]NORMAN G R,TUGWELL P,F(xiàn)EIGHTNER J W,MUZZIN L J,JACOBY L L.Knowledge and c1inical problem solving ability [J].Medical Education,1985,19(5):344-356.
[15]WESSEL J,WILLIAMS R,F(xiàn)INCH E,GEMUS M.Reliability and Validity of an Objective Structured Clinical Examination for Physical Therapy Students[J].Journal of Allied Health,2003,32(4):266-269.
The Application Effect of Modified Objective Structured Clinical Examination in College Graduation Examination
MA Jun-hong,YANG Xiao-zheng,XU Yan
(Education Department,Health Science Center,Peking University,Beijing 100191,China)
To study the effectiveness of the application of modified objective structured clinical examination (OSCE)in the graduation examination in clinicalmedicine,the reliability,validity,difficulty and discrimination of OSCE are analyzed by gathering scores ofgraduation examination for undergraduates majored in clinicalmedicine. Questionnaire is used to get the opinions on the OSCE from examinees.It is found that the internal consistency reliability coefficient is 0.671 and the Pearson correlation coefficient between the OSCE and the theory test is 0.561(P=0.000).The overalldifficulty and discrimination are 0.81 and 0.21 separately.71.43 percentofstudents maintain that OSCE could reflect the level of their clinical skills objectively and comprehensively.Therefore,the modified OSCE results are reliable and effective,which can be used for the evaluation ofstudents'clinicalskills in college graduation examination.
Objective Structured Clinical Examination;Graduation Examination;Reliability;Validity
2015-08-09
馬俊紅,1974年生,女,漢族,內(nèi)蒙古人,北京大學醫(yī)學部教育處助理研究員,主要從事臨床教學管理工作。