王曉華
基于標準教育考試的目的是判斷參加測驗考生是否具備某種技能、掌握某種知識,以及具備這種知識和技能的熟練水平。由于考試獲得的結(jié)果是考生的考試成績,因而必須根據(jù)考試大綱中對知識和能力熟練程度等第的描述,將其映射到某次具體考試的成績上。這樣一個映射的過程就是標準設(shè)置,標準設(shè)置中獲得的該等第分數(shù)下限就稱為該等第的劃界分數(shù)。依據(jù)劃界分數(shù)就可以方便地對考生做出分類決策,如高等教育自學考試和課程結(jié)業(yè)考試需要將考生劃分為合格和不合格兩類,以便決定學生是否達到課程的學習要求,如果被劃為不合格,學生需要重修課程,再次參加考試;而學業(yè)水平考試需要做出更多的分類,如優(yōu)秀、良好、合格和不合格,或者A、B、C、D和E等等第,以便根據(jù)課程的表現(xiàn)性標準對學生的學業(yè)水平做出評價。
然而,我國基于標準的教育考試的分類標準比較混亂,存在諸多爭議,其科學性也受到質(zhì)疑[1]。就高等教育自學考試和課程結(jié)業(yè)考試來說,傳統(tǒng)上都是以60分作為劃界分數(shù),低于60分為不合格,高于等于60分為合格。至于60分以下的內(nèi)涵究竟是什么,為什么59分就不合格,60分以下的問題在哪里,以60分為劃界分數(shù)的分類誤差是多少,誰也說不清?,F(xiàn)在各省市實施的學業(yè)水平考試大多也是以百分位分數(shù)作為分類的依據(jù),這實際上采用的是常模參照考試的做法,本質(zhì)上是將學生的表現(xiàn)與其他學生進行比較,完全違背了基于標準的教育考試的初衷。
國外歐美發(fā)達國家基于標準的教育考試一般都是根據(jù)考試的結(jié)果,采用“標準設(shè)置”的方法對學生進行分類決策。所謂“標準設(shè)置”是按照規(guī)定的程序和方法來設(shè)定表現(xiàn)類型或?qū)W業(yè)水平邊界(即劃界分數(shù))的過程。規(guī)定程序和方法的目的就是要保證“標準設(shè)置”確定的劃界分數(shù)有效、經(jīng)得起檢驗。這個規(guī)定的程序和方法包括[2]:①確定標準設(shè)置的方法;②準備或熟悉表現(xiàn)類型或?qū)W業(yè)水平描述;③組成“標準設(shè)置”專家小組;④對參與“標準設(shè)置”的專家進行培訓;⑤向“標準設(shè)置”專家提供相關(guān)的反饋信息;⑥評價和記錄過程的有效性。其中,“標準設(shè)置”專家小組的任務(wù)是要依據(jù)自己的專業(yè)判斷,將學業(yè)水平的定性描述,轉(zhuǎn)換為考試的連續(xù)分數(shù)量表上具體的劃界分數(shù)的位置。
Bookmark法是近年來特別是在美國的K-12教育評價中得到廣泛應(yīng)用的標準設(shè)置方法。與Angoff法基于經(jīng)典測量理論所不同的是Bookmark法是基于項目反應(yīng)理論,在進行專家評價之前,需要進行大量的項目反應(yīng)分析和計算。由于項目反應(yīng)理論在我國考試機構(gòu)或其他基于標準的教育考試的執(zhí)行機構(gòu)尚未得到很好的掌握和應(yīng)用,因而我國熟悉和掌握Bookmark標準設(shè)置方法的人不多,實際應(yīng)用較少,國內(nèi)在這方面的研究文獻也比較少見。
Bookmark法的優(yōu)點在于評判專家進行評判的次數(shù)比Angoff法要少得多,對評判專家也相對比較容易,而且適用性好,既適合于客觀題,也適用于主觀題。特別是在題量很大的考試中,Bookmark法優(yōu)勢明顯[3][4][5][6][7][8]。
Bookmark法是采用項目反應(yīng)理論(IRT)對試題進行項目反應(yīng)分析,將試題按照項目反應(yīng)理論難度從易到難排列,每道試題放置一頁,組成像書一樣的題冊,然后邀請有關(guān)學科專家以考試試題材料的難度參數(shù)值為基礎(chǔ),按照試題冊的順序討論每道題目,判斷等第中最低能力的考生答對所討論題目的概率是否在2/3以上,如果低于2/3,則評判專家在相應(yīng)的題目上放置書簽,以此作為設(shè)置劃界分數(shù)的依據(jù),從而確定一個或多個劃界分數(shù)。
Bookmark法的理論依據(jù)是將項目反應(yīng)理論的題目難度跟被試特質(zhì)水平定義在同一度量系統(tǒng)上,題目難度跟被試水平可直接比較。更重要的是,IRT描述了考生答對概率跟被試特質(zhì)水平之間的定量聯(lián)系。當某測驗確能恰當代表某一特質(zhì)領(lǐng)域時,考生在該領(lǐng)域掌握的百分比就是他在該測驗全部題目上期望分數(shù)的平均數(shù)。
作為以IRT為基礎(chǔ)的方法,當不同測驗的樣本來自同一總體時,Bookmark法能將多個測驗的題目放在同一題目手冊中排序,然后合并為一個測驗,達到為多種類型的測驗設(shè)置單一劃界分數(shù)的目的。此外,Bookmark法能夠在一次測驗中設(shè)置合格、良、優(yōu)等多重劃界分數(shù)線。
Bookmark法的標準設(shè)置可以分為兩個階段,第一個階段稱為評判前的準備階段,這個階段需要運用項目反應(yīng)理論對試題進行分析,獲得試題的難度參數(shù)、考生的能力參數(shù)(量表分數(shù))以及能力參數(shù)與原始分數(shù)轉(zhuǎn)換對照表;運用項目反應(yīng)理論模型分析計算正確應(yīng)答或獲得相應(yīng)分數(shù)的概率為2/3時所要求的能力值;準備標準設(shè)置用的按照試題難度排序的試題冊和書簽記錄表。第二個階段是評判專家執(zhí)行標準設(shè)置過程,獲得劃界分數(shù)的階段,包括對評判專家進行培訓、執(zhí)行第一輪標準設(shè)置、計算劃界分數(shù)、反饋第一輪標準設(shè)置結(jié)果、執(zhí)行第二輪標準設(shè)置等。
某市2011年統(tǒng)考的高等教育課程《高等數(shù)學》的試卷結(jié)構(gòu)如表1所示。
從表1可以看出,試卷中題型分為四種:單項選擇題、填空題、計算題和證明與應(yīng)用題。試卷總題量為25道,滿分為100分。
3.1.1 運用項目反應(yīng)理論獲得試題參數(shù)和考生能力參數(shù)
表2所示為采用兩參數(shù)項目反應(yīng)理論模型計算獲得的試題區(qū)分度和難度參數(shù),選擇題和填空題(1~15題)要么得分,要么不得分,因而它們只有一個難度等級。而主觀題(16~25題)可能的得分為1~6分,相應(yīng)的有六個難度等級,而且難度隨著得分增加而增大。
表1 高等教育課程《高等數(shù)學》試卷結(jié)構(gòu)
表2 試題區(qū)分度和難度參數(shù)值
由于劃界分數(shù)最后仍然是以原始分數(shù)表示的,并且評判專家對考生的能力參數(shù)(量表分數(shù))不大習慣,因而需要將能力參數(shù)和原始分數(shù)相互轉(zhuǎn)換,進行一一對應(yīng)。我們將獲得的考生能力參數(shù)和對應(yīng)的原始分數(shù)輸入計算機,利用SPSS軟件進行線性回歸,獲得的轉(zhuǎn)換方程如式(1)所示:
式(1)中Y代表原始分數(shù),L表示量表分數(shù)。利用轉(zhuǎn)換方程可以制作原始分數(shù)與量表分數(shù)的對照表。表3所示即為原始分數(shù)1~100分與相對應(yīng)的量表分數(shù)的互換關(guān)系。
3.1.2 計算正確應(yīng)答或獲得相應(yīng)分數(shù)的概率為2/3時所要求的能力值
在Bookmark法中,對于每道客觀試題,評判專家需要判斷最低能力考生做出正確應(yīng)答的概率;而對于主觀試題,則需要判斷考生獲得某一分數(shù)或更高分數(shù)的概率,如果該概率等于或低于某一確定的概率值,那么就可以將書簽放置在這道題的位置,這一確定的概率值就稱為Bookmark法的決策規(guī)則。有研究表明對于兩參數(shù)項目反應(yīng)理論模型,最佳決策規(guī)則是將概率值確定為2/3。在Bookmark法實踐中,目前多數(shù)都將決策點定為2/3。因而本研究也將決策規(guī)則中的概率值定為2/3。
表3 原始分數(shù)與量表分數(shù)(考生能力參數(shù))互換表
按照2/3決策規(guī)則,令
根據(jù)式(3)中考生能力參數(shù)θ與區(qū)分度a、難度參數(shù)b之間的關(guān)系式,可以計算出考生正確應(yīng)答概率為2/3時所需要的能力值。
主觀題采用的是兩參數(shù)部分評分模型:
式(4)中,i表示試題號,mi為該題的滿分,ai為該題的區(qū)分度,δis為該題的步驟難度,j表示考生的等級分數(shù)。由式(4)可以計算出考生在主觀題上獲得各個等級分數(shù)的概率為2/3時所需要的能力值。
表4即為按照式(3)和式(4)計算得出的考生獲得試題相應(yīng)等級分數(shù)在決策點為2/3的時候所要求的能力值。表中,16-1的意義是表示考生在第16題獲得1分,其他以此類推。
3.1.3 準備試題題冊
試題題冊是Bookmark法中評判專家依據(jù)的主要工具,它由一系列的試題頁組成,對于客觀題,每個試題頁包含一道試題的信息;而對于主觀題,每個試題頁包含一個分數(shù)步驟的信息,即對于主觀題,若滿分為6分,就相應(yīng)地有6個試題頁。圖1所示為客觀題試題頁所包含的信息。
圖1 客觀題試題頁所包含的信息
圖1中,第一行“試題15”為該試題在考試試卷中的題號;第二行為試題的難度參數(shù);第三行為對試題做出正確應(yīng)答的概率為2/3時所要求的能力值;接下來是試題、參考答案、試題考核的知識點以及試題的認知層次;最后一行是該試題頁在試題冊中的頁碼。
表4 試題在決策點2/3處所要求的考生能力值
圖2 主觀題試題頁所包含的信息
圖2所示為主觀題試題頁所包含的信息。第一行“試題17-3”中17仍然是該試題在考試試卷中的題號,其后的數(shù)字“-3”代表該試題頁說明的是獲得3分分數(shù)等級的信息;第二行表示的是該分數(shù)等級或應(yīng)答步驟的難度參數(shù);第三行表示的是考生在該試題上獲得3分的概率為2/3時所要求的能力值;接下來是試題、參考答案、試題考核的知識點以及試題的認知層次;最后一行是該試題頁在試題冊中的頁碼。
3.2.1 評判專家的組成
評判專家由10位數(shù)學系的教師組成,他們來自某市的四所大學,其中,教育部直屬重點高校兩所,某市市屬高校兩所。他們都曾經(jīng)或者正在教這門課程,對考生相對比較熟悉。有部分教師參加了命題階段的工作,對命題的思路和過程比較了解;還有部分教師參與了考后的評卷工作,對考生的答題情況也比較了解。
3.2.2 培訓
專門召開培訓會議對評判專家進行培訓,主要內(nèi)容有:
(1)明確本次Bookmark法標準設(shè)置的目的是獲得優(yōu)秀、良好、合格和不合格四個等第的劃界分數(shù)
(2)熟悉《高等數(shù)學》課程考試大綱、試卷、答案及評分參考、試題的考核內(nèi)容和認知層次。
(3)介紹試題冊中的內(nèi)容、含義以及試題的排序規(guī)則。特別是客觀試題的難度或主觀試題的分數(shù)等級難度以及考生對客觀題做出正確應(yīng)答概率為2/3,或者在主觀題上獲得某等級分數(shù)的概率為2/3時,所要求的能力值。
(4)講解項目反應(yīng)理論的難度、能力參數(shù)、區(qū)分度等概念。
(5)說明Bookmark法的決策規(guī)則和書簽記錄表的使用,以及在評判中不能肯定放置書簽時應(yīng)該遵循的問題解決程序。
3.2.3 執(zhí)行Bookmark法標準設(shè)置程序
本次標準設(shè)置一共進行了兩輪。
(1)執(zhí)行第一輪標準設(shè)置
①評判專家從試題冊第一試題頁開始,逐頁判斷合格水平最低能力的考生對該試題做出正確應(yīng)答的概率或者獲得相應(yīng)等級分數(shù)的概率是否落在2/3以下,如果回答是否定的,那么進入下一試題頁進行判斷;否則,就將書簽安放在本頁,并在書簽記錄表中填寫相應(yīng)的試題頁頁碼。
②確定合格等第的劃界分數(shù)后,接下來逐頁判斷良好水平最低能力的考生對后面試題頁的試題做出正確應(yīng)答的概率或者獲得該試題等級分數(shù)的概率是否落在2/3以下,如果評判專家認為不會低于2/3,那么進入下一頁判斷;否則,在相應(yīng)的試題頁安放書簽,并在書簽記錄表中記錄試題頁頁碼。
③同理,在試題頁中放置優(yōu)秀等第的書簽,并記錄試題頁頁碼。
④收集和統(tǒng)計評判結(jié)果,獲得初始劃界分數(shù)。如表5所示。
表5列出了每個評判專家確定的試題冊中代表優(yōu)秀、良好、合格等第下界的試題頁頁碼。需要指出的是劃界分數(shù)是書簽安放頁的上一頁標注的能力值,如果書簽安放在第25頁,則劃界分數(shù)采用的是第24頁標注的能力值。這是因為評判專家安放書簽的某一試題頁表示該評判專家認為該等第最低能力的考生做出應(yīng)答的概率或者獲得等級分數(shù)的概率不足2/3,而之前的試題頁都大于或等于2/3。劃界分數(shù)表示的是等第最低能力的考生做出正確應(yīng)答或獲得等級分數(shù)的概率應(yīng)大于等于2/3,因而該等第的下界分數(shù)應(yīng)取安放書簽的上一頁標注的能力值。
表6列出了以量表分數(shù)和原始分數(shù)表示的評判結(jié)果的描述性統(tǒng)計量。量表分數(shù)描述性統(tǒng)計量包括評判專家評判結(jié)果的平均值、中數(shù)、標準差、最高值、最低值以及平均值上下移動一個標準差時的劃界分數(shù);原始分數(shù)也給出了對應(yīng)的描述統(tǒng)計量。在表6中,如果采取平均值作為劃界分數(shù),則合格、良好、優(yōu)秀的劃界分數(shù)分別為41.06分、55.85分和75.52分。
⑤反饋和討論統(tǒng)計信息。
第一輪評判結(jié)束后,向評判專家反饋在確定三個劃界分數(shù)的過程中,安放書簽的頁碼范圍,評判專家可以據(jù)此比較自己安放的書簽頁碼與其他專家安放的書簽頁碼的差異。一般要求評判專家在下一輪評判中,在第一輪安放了書簽的頁碼范圍內(nèi)調(diào)整評判。
另外,將表5和表6所包含的信息完整地反饋給評判專家,比如以量表分數(shù)表示的劃界分數(shù)范圍與以原始分數(shù)表示的劃界分數(shù)范圍的對應(yīng)關(guān)系;比較平均分與中位數(shù)表示的劃界分數(shù),哪一個更合適?每一等第的標準差是否合適?
表5 《高等數(shù)學》課程考試標準設(shè)置第一輪評判結(jié)果
表6 第一輪評判中以量表分數(shù)和原始分數(shù)表示的評判結(jié)果描述統(tǒng)計量
經(jīng)過討論,評判專家認為:以平均分表示的劃界分數(shù)比較符合實際;各等第的標準差偏大,需要進一步縮小。
(2)執(zhí)行第二輪標準設(shè)置
第二輪標準設(shè)置的過程與第一輪基本相同,第二輪標準設(shè)置評判專家的評判結(jié)果統(tǒng)計如表7所示。由表7可見,采取平均值作為劃界分數(shù),則合格、良好、優(yōu)秀的劃界分數(shù)分別為44.95分、56.75分和79.64分,最終可取三個劃界分數(shù)分別為45分、57分和80分。按照這個劃界分數(shù),不合格、合格、良好和優(yōu)秀各等第的人數(shù)比例分別為55.1%,19%,20.5%和5.4%。
表7與表6相比較可知,在第二輪評判中,評判專家的評判在各個等級上的標準差都有所降低,這說明評判專家的評判更趨于一致,且各等級的劃界分數(shù)都有所提高。
我國傳統(tǒng)上以60分、70分、80分和90分作為合格、一般、良好和優(yōu)秀的劃界分數(shù),而不管考試考了什么?考試的難度如何?盡管這種傳統(tǒng)的劃分等第的方法操作方便,但缺乏科學依據(jù),沒有說服力,也嚴重損害了考試的效度和信度。
在我國目前大力推行基于標準的學業(yè)水平考試的情況下,停止采用傳統(tǒng)的、粗糙的等第劃界方法,轉(zhuǎn)而在考后采取科學的方法進行標準設(shè)置已經(jīng)勢在必行。事實上,“標準設(shè)置”已經(jīng)成為教育測量界公認的對學生進行分類決策所必需的過程,其測量學特征可以保證分類決策依據(jù)高質(zhì)量的數(shù)據(jù),并保證數(shù)據(jù)是以系統(tǒng)、可重復(fù)、客觀、可檢驗的方式組合和呈現(xiàn)。
表7 第二輪評判中以量表分數(shù)和原始分數(shù)表示的評判結(jié)果描述統(tǒng)計量
Bookmark法是一種比較新的重要的標準設(shè)置方法,在國外已經(jīng)得到較為廣泛的應(yīng)用。然而在國內(nèi)的考試機構(gòu)中,掌握這種標準設(shè)置方法的人不多,研究文獻和實際應(yīng)用也較少。因而本文開展這方面的應(yīng)用研究具有十分重要的價值和意義。
[1] 雷新勇.學業(yè)標準——基于標準的教育改革必須補上的一環(huán)[J].上海教育科研,2009(6):15-18.
[2] 雷新勇.基于標準的教育考試——命題、標準設(shè)置和學業(yè)評價[M].上海:上??茖W技術(shù)出版社,2011.
[3] 陳夢竹,張敏強.Bookmark法設(shè)置劃界分數(shù)的研究述評[J].心理科學,2009,5(17),102-110.
[4] 何懼,等.Angoff法及其衍生方法在資格考試合格線設(shè)定中的比較研究[J].中國考試,2007(6):23-26.
[5] 余嘉元.Angoff方法有效性的檢驗研究[J].教育研究與實驗,2008(1):54-57.
[6] 催麗娟,趙鑫.用安戈夫(Angoff)方法對網(wǎng)絡(luò)成癮的標準設(shè)定[J].心理科學,2004,27(3):72l-723.
[7] 汪存友,余嘉元.調(diào)和Angoff法在設(shè)定執(zhí)業(yè)醫(yī)師資格考試分數(shù)線中的應(yīng)用[J].中國考試,2011(10):38-43.
[8] 汪存友,余嘉元.關(guān)于兩種Angoff法比較的模擬實驗研究[J].心理科學,2010,33(1):159-161.