李瑛
經典測量理論(Classical Test Theory,CTT)和項目反應理論(Item Response Theory,IRT)是當前測量領域中的兩大理論[1]。無論是CTT還是IRT,都把題目難度作為重要參數之一。CTT將考生的通過率或得分率作為難度指標,以0、1計分的題目為例,答對某題的人數占被試總人數的比值叫做該題的難度值,非以0、1計分的題目,所有被試學生的平均分占該題總分的比值叫做該題的難度值,在這種定義下,難度值越大,說明該題越容易,這種計算得到的難度值依賴于樣本的群體能力水平;IRT是建立在潛在特質理論之上的,難度等題目參數是獨立于考生樣本的,反映的是題目固有的屬性,因此更能反應題目的固有屬性和考生的能力水平。由于項目反應理論對數學模型與實測數據的擬合程度要求較高,且建立在嚴格的假設之上,所以目前在國內大規(guī)模的考試中,經典測量理論的應用較為廣泛。高考是常模參照考試,其難度指標常用考生的通過率來表示,考生的通過率也即相對難度,是試題對考生知識和能力水平合適程度的指標,是由參與測試的考生整體水平來決定的。
在現實條件下,由于各地教育資源的不均衡,尤其是優(yōu)質教育資源較少的情況下,高考的難度問題仍然十分敏感,難度的不正常波動,不僅引起當年高考考生及社會的反應,也會給中學教學帶來一定的影響。題目太難,會讓中學教學應試痕跡越來越深,教師和學生的負擔愈重;題目太易,也可能不能有效地區(qū)分各類考生,達不到選拔的目的。所以在命題過程中,科學調控高考試題難度尤為重要,既要保持相對平穩(wěn),也不能一味降低難度,而失去高考選拔的本質功能。
試題難度一般是指試題的整體平均難度和各題的難度(結構難度),科學調控試題難度應該包含對試題整體平均難度和結構難度進行合理的預測和有效控制兩個方面,從而達到科學區(qū)分的效果。如何對試題難度進行有效預測,美國的SAT和ACT在試題命制過程中都有試題試測的環(huán)節(jié),SAT是運用錨題,作為不計分的實驗部分放在正式考題中,取得當次考題難度等方面的信息;ACT試題在正式使用前雖不像SAT那樣放在正式的考題中進行試測,但其每道試題都會在一些能夠代表總體的樣本考生中進行試測,以了解這些試題的難度水平是否適宜,以及是否能正確地發(fā)揮測量功能。無論是SAT還是ACT,都是在考試之前進行大規(guī)模的試測,通過項目反應理論將試題難度等參數進行等值,從而用于建立和充實題庫。在我國目前的高考命題實踐中,由于考試題型的不同(不完全是多項選擇題)、組卷方式的差異(絕大部分不是直接來源于題庫),考試安全因素的影響,不可能如美國SAT和ACT的模式那樣對考題進行大規(guī)模的試測,以獲得難度等方面的指標。目前,命題實踐者在有限的條件下對試卷的難度預測進行了各種探索,大部分依據命題專家多年的經驗來進行,有的是在專家經驗基礎上建立預估模型或難度常模,取得了一定的經驗和預期的效果,為高考質量的保證起到了積極的重要的作用。
為了保證命題的科學性,在無法事先對試題進行大規(guī)模的試測情形下,抽取少量樣本在保密的前提下對試題進行事先試測,利用試測環(huán)節(jié)中的實測數據對試題難度進行預測,并和專家的估計相結合,從而達到有效調控試題難度的目的,也是命題實踐中的一種探索。
本文擬結合測量理論,通過試測生的有效選擇、試測生考試數據的利用等方面就高考試卷送審稿(正式審題和付印之前的高考試卷,下同)的難度預測過程和有效調控進行探討。
在測量學理論中,預測(試測)是測驗的技術分析與鑒定程序中的一個重要部分,尤其是在大型的重要考試中更是必不可少的方法和步驟。這種操作必須滿足下列條件和要求:預測對象必須是將來正式測驗施測對象全體的一個代表性樣本,且樣本數不必太多,亦不能太少;預測的實施過程和情境力求和將來正式測驗時的情況近似;時限最好使每個被試將題目答完,以搜集充分的反應資料,從而使統計分析的結果更為可靠;在預測過程中,應將被試反應情況隨時加以記錄,如一般被試完成預測所花費的時間、題意有何不清之處、被試態(tài)度等;預測要有高度保密性[2]。所以試測過程必須最大限度滿足以上條件和要求。
在研究過程中,由于要用到平均值等值(Mean Equating)和等百分位等值(Equipercentile Equating)等方法和相關的其他測量學理論,所以還需盡量達到以下要求和假設:
①試測生源學校近幾年高考成績分布基本一致;
②所選試測生各科成績均衡,沒有較明顯的偏科現象,且與參照的年份所選試測生的能力水平分布基本一致;
③高考試卷送審稿難度變化與高考成績狀態(tài)分布變化呈正相關;
④試測生成績穩(wěn)定,不同學習水平的試測生能代表相應能力水平的考生群;
⑤近幾年的高考題型穩(wěn)定,考試內容、測試目標、教學方式等變化不大,同一學科考查的能力分布幾乎相同,與上一年相比,考生整體水平也沒產生較大差異;
⑥由平均值之差預測的試卷量表之差與試卷各個點的成績分布之差相同。
試測生是指參加考試試測的學生樣本群體,此樣本必須是將來正式測驗施測對象全體的代表性樣本,且樣本數適中。Kolen和Brennan認為,在傳統等值和線性等值中通常每個測驗需要400各樣本,等百分位等值需要略多于1 500的樣本量[3]。但由于我國高考的特殊性質以及高度保密的需要,不可能抽取較多的樣本,通常是在參加當年高考的考生群體中抽取12~20名參加試測,其中文理科各一半。由于樣本較少,所以需對樣本的性質作嚴格要求,才會保證結果推測的更加有效。除上文提到的要求以外,每一樣本需是中等偏上的能力水平,一方面考生能客觀準確提供答題方面信息,另一方面這部分學生一般具有較穩(wěn)定的反應傾向,能力水平較穩(wěn)定,應試狀況較正常,可以有效避免測試結果的誤差。
將上一年試測生的成績,分別按文、理科總分從高到低進行排序,并依據上一年本省錄取高考分數線將學生進行分類(等級),比如本一(分數達到一本線以上的)、本二(分數在二本線以上、一本線以下的)或是本三(分數在最低本科線以上、二本線以下的),這種分類的方法近似于將學生按能力分成不同的群體,也即不同的能力分布。以該群體文科考生為例,對照表1,A群體是2009年的試測生,該群體6位學生的能力分布為3個本一、2個本二、1個本三。因為近幾年湖南省錄取率大體穩(wěn)定,這種分類可作為當年試測生選擇的依據。
表1 試測生對照選擇表(文科)
首先是找出B群體所在學校上一年總分的頻數分布表,將A群體的分數視為B群體需對應的百分點,根據此百分點在B群體所在學校的頻數分布表中找到對應的百分等級,如表1所示,A群體甲校三位學生分數和能力層級分別是600分(本一)、580分(本一)、568分(本二),此3個分數視為B群體的3個百分點,根據這3個百分點在B群體所在學校頻數分布表中找到相應的百分等級分別是4.03%、16%、26.7%,根據B群體2009年各批次錄取率判定,這三個百分等級分別落在相應的本一或本二層次內,與A群體能力分布吻合。所以這3個百分等級就是將要參加本年度試測的樣本群體(B群體)需要對應的百分等級,也是我們選擇B群體的標準。
由于選擇群體用的是百分位常模,百分位常模只是順序量表,而非等距量表,測驗分數也是呈常態(tài)分布,所以在兩個群體中可能很難找到完全對應的百分等級和百分點,只要是所在層次(錄取批次)相同,百分等級略微在附近應該是影響不大的。如表1,讓丙校按較大比例(一般是1∶4左右)推薦愿意參加試測的相應層次的學生作為B群體的備選項,分別是本一層次3.6%、9.5%、9.7%、15.3%、15.5%,本二層次25.5%、36.1%,以上百分等級是丙校根據學生最近幾次模考成績排名得來的。根據丙校提供的B群體備選項的百分等級和該校上一年的高考總分頻數分布表找出各個備選項百分等級所對應的百分點,確定B群體及準確位置(層次、百分等級、百分點),如表1,分別是考生1(本一,3.6%、601分)、考生2(本一、15.3%、581分)、考生3(本二、25.5%、570分)。同樣步驟,選出乙校對應丁校的B群體中3位學生及準確位置,如表1,分別是考生1(本一,0.7%、598分)、考生2(本二、8.4%、552分)、考生3(本三、53%、496分)。
我們對等百分位等值原理可以理解為:如果考生既參加模塊A的考試又參加模塊B的考試,我們比較考生在模塊A和模塊B的表現,就可以將兩個模塊中相同的分數作為是等值的,這樣就實現了模塊A和模塊B的分數等值[4]。利用等百分位原理,因為近幾年試測生水平大致相當,我們可以假設參加試測的每一樣本都參加了2007年、2008年、2009年的高考,可以根據考生B群體的百分等級以及所在學校的三年成績總分頻次表,用等百分位映射方法可以找出每一樣本在三年的百分點,通過所在學校相應年份相關層次的各科總分、各學科分數的平均分進行加權分析,預測出試測生在相應年份各科應達到的分數。(因為湖南省自主命題科目是語文、數學、英語三科,本文僅對這三科的難度預測進行探討)
以考生1為例(參考表1、表2),該生在學校的綜合排名為前3.6%(百分等級),為本一層次。
第1步,找對應百分點(總分)。根據該生所在學校2007~2009年文科各學科總分的頻數分布表(1分段表)找到3.6%對應的百分點,分別是596分(2007年)、573分(2008年)、601分(2009年),對照這三年湖南省本一層次的錄取線及該生所在丙校的錄取率,百分位及對應的百分點都在本一范圍內,可初步驗證此判斷方向正確。
第2步,找出考生1所在丙校某一年本一以上與本二以上(含本一)所在層次語文、數學、英語及總分的平均分及兩層次相同學科之間的差值,算出該層次三科變化在總分變化中所占的權重。以2007年為例,兩校本一以上層次語文、數學、英語及總分的平均分分別為112.1分、106.85分、123.98分、586.24分,本二以上層次(含本一)語文、數學、英語及總分的平均分分別為109.33分、101.15分、117.81分、561.23分,計算兩個層次各科及總分對應差值分別為2.77、5.7、6.17、25.01,可理解為三科在總分變化25.01的權重分別為11%、22.8%、24.7%。
第3步,推測出在各年總分下對應各學科的分數。如,2007年考生1的總分是596分,該校本一層次當年總分的平均分是586.24分,超出平均分9.76分,將9.76分別與權重11%、22.8%、24.7%相乘,得到分數的變化應是分別上升1.07、2.23、2.41,這樣可以預測出596分的總分對應的各學科分數是113.17分、109.08分、126.39分。
同理,可以預測出考生1對應2008年、2009年的各科成績以及其他考生在各年度的各科成績。
第4步,推斷出與各年等值情況下今年考生群體應該達到的平均分。以文科6個考生為例,假設今年各科送審稿的難度和2007年大體一致,根據每位試測生的百分等級在試測生所在學校2007年的總分頻次表中找到對應的百分點,按照上述方法推算對應各學科的分數,從而得出今年三科的總分和、平均分分別為:語文,總分644.55分(平均分107.43分);文科數學,總分620.28分(平均分103.38分);英語,總分667.27分(平均分111.2分)。假設今年難度與2008年難度大體相當,則三科的總分和平均分分別為:語文652.11分(108.69分)、文科數學633.64分(105.61分)、英語661.01分(110.17分)。假設今年難度與2009年難度大體相當,則三科的總分和平均分分別為:語文,總分648.77分(平均分108.13分);文科數學,總分704.34分(平均分117.4分);英語,總分700.41分(平均分116.74分)。
同樣方法和步驟,可推算出假如今年試卷和某年試卷等值情況下所有試測學生相應學科的分數,從而得出試測生群體在相應情形下各學科應達到的平均分。
以上算法的前提是試測生所在學校近幾年學生的水平相對穩(wěn)定,且該年所選試測生各科學習水平大體平衡,每位學生沒有偏科現象。
表2 試測生各科分值推測(文科)
因為試測生的選擇和結果分析用到了等百分位等值(Equipercentile Equating)和平均值等值(Mean Equating)等方法,而要將兩個不同的考試等值,還必須滿足如下條件:兩個測驗的信度相同,且都是測量同一心理特質的測驗[5]。所以要將試測的結果與高考相比,應在保證都是測量同一心理特質的前提下,試測過程和情境必須和高考的情形近似,以保證測驗的信度。比如,可以對試測過程作以下幾方面要求:
①按高考的要求布置考室和進行組考,考前對試卷進行嚴格保密;
②試卷題型和題量與高考一致;
③作答時限和正式高考的時限一樣,能讓學生答完全卷;
④在學生作答時,將每題花費的時間隨時加以記錄;
⑤測驗完成后,通過與考生交談了解更多被試反應情況,如題意的理解等;
⑥評卷標準和程序嚴格按高考評卷的要求進行。
在以上這種嚴格程序下,試測實施過程才是真實可靠的。
對命題工作的全過程而言,試題分析是其中的重要環(huán)節(jié)。試題分析通常包含兩個方面的過程和步驟,首先是內容效度方面的評價和分析,如整卷是否有一定的覆蓋面,考查目標是否明確,各題考查的能力層級描述是否與考綱一致,對主干知識的考查力度等;其次是量的統計和分析,如各題的難度、區(qū)分度、信度、標準差以及各題分數分組分析等,形式一般是以圖或表的方式。試題分析的目的主要是對試卷的總體質量和存在的問題作出客觀判斷和分析,從而對下一步命題提供改進意見和建議。
對試測結果的統計和分析也是為了達到以上所描述的目的,讓學生按照高考的要求和場景答完試卷送審稿,對學生的作答總體及各題分數進行統計和分析,其效度分析的主要步驟之一是對照雙向細目表,將考試內容和考試能力層級等一一對應驗證。由于試測的樣本較少,相對全樣本來說,在區(qū)分度、信度等方面的評價準確度可能會較弱,但從近些年的命題實踐經驗來看,對試測生的實測成績進行統計、分析及過后的調整對穩(wěn)定試卷難度起到了很大的作用。
這里所提及的試測結果的統計和分析主要包括對試測生整體各科成績的統計和分析、試測生個體各科成績的比較和分析、每道題目總體和個體的答題情況及分析等。通過各種分析和比較可發(fā)現以下幾方面的問題和結論:首先是可以直觀的發(fā)現考生答題的異常,比如預測高分值的考生(根據平常成績可以拿高分的考生)在某道較易選擇題的選答上出現問題,而預測較低分值學生反而答對,說明該題可能容易被猜或是選項有迷惑性不夠、不同質等問題,需要進一步改進;其次是可發(fā)現整卷難度分布狀況,如果某一題型的得分不是從易到難的分布,則需對該題型的題目順序進行調整;再則是將試測生的實測結果和之前預測的試測生的各科成績進行比較,可為下一步預測和調控試卷難度提供數據支撐。同樣是因為樣本較少的問題,難度曲線圖對分析預測全樣本的難度分布準確性不夠,所以一般也不用。
平均值等值(Mean Equating)方法,是將兩份試卷比較,計算平均分之差,然后將兩年的試卷進行等值比較,將一份試卷的成績加上或減去平均值之差,從而將兩份試卷放在同一量表上。如果樣本很穩(wěn)定,可以認為平均值之差是試卷的不同而產生的。這種方法的前提是:首先是樣本穩(wěn)定,再則是由平均值之差預測的試卷量表之差與試卷各個點的成績分布之差是相同的,這個假設在成績分布的中心部分是比較合理的,但在高分和低分段范圍內,并不總是符合條件[6]。
在用試測來預測試卷難度的實踐中,特別注意的是試測生的選聘條件,即整體成績位于中等偏上,且相鄰年份之間試測生的成績很穩(wěn)定,下一年的選擇標準是參照上一年試測生的成績來選擇的,這樣,將兩份試卷放在同一量表上進行比較則比較合理。
表3是2010年高考命題過程中將送審稿試測后對試卷難度的預測數據表,此數據表分為三個部分,以第一部分為例,是將2010年送審稿與2007年高考試卷放在同一量表上,從而預估出2010年送審稿的難度。以語文學科為例,首先根據本文第4部分所述方法得出假設2010年難度與2007年一致的情況下,試測生的語文平均成績應是105.78分(成績一),而2010年試測生的實測平均分為108.08分(成績二),成績一和成績二比較,后者比前者高出2.3分,由此推出2010年與2007年的試卷的量表之差就是2.3,已知2007年全樣本的平均值是87.73分,則2010年全樣本平均分的預估值應是90.03分(87.83+2.3)。同樣,可以推算出在將2007年的試卷與2010年試卷放在同一量表下其他三科(文數、理數、英語)試卷平均分的預估值,分別是81.59分、87分、89.32分。
在表3中,之所以將2010年的試卷與2007年、2008年、2009年等不同年份的數據分別進行等值處理,然后進行綜合分析,是為了求證這種計算方法結論的更加可靠和穩(wěn)定性,也避免了某一年樣本稍有偏差,如有個別虛報成績的差生或偏科生等情況而造成影響判斷的情況。
通過試測生的實測數據,可以了解試卷的難度結構分布,推測全樣本的整卷難度,從而根據事先設計的難度藍圖對試卷的難度進行調整,這是難度調控的基本思路。比如2010年難度藍圖是:語文90~95分,文科數學是70~75分,理科數學是80~85分,英語是80~85分(參照上一年數據和當年的錄取率確定),從表3中數據得出,文科數學和英語偏易,需要調整難度,語文、理科數學剛好在預設區(qū)間,只要根據試測生答題情況進行微調就行。
在命題過程中,其實還會用到另一個預測難度的方法,即學科專家對難度的預估。學科專家將歷年高考試題分題型、內容按難度值的大小分布集合起來,形成一個類似的難度常模,對照難度常模,根據該門學科試題難度影響因素,分析得出每道題的預估難度,然后經過加權處理得到整卷的難度。試測推算和專家預估數據的結合和綜合分析,實際也是試測后難度調控的一項重要內容。
值得注意的是,對試卷難度的調整不是對每道題的難度進行調整,而是需根據試測生在每道題的作答反應、作答結果等情況的觀察和分析,對比往年試題難度分布進行決策的。定了調整方向后,根據影響題目難度的各種因素對試題進行調難或易的操作。
表3 難度預測數據表
由于各種條件的限制,在目前不可能像國外那樣進行題庫建設,在題目正式入庫之前進行考試前期的大型試測情形下,選取少量的樣本全入闈進行試測是命題實踐的一種探索。少量樣本提前試測,對觀察不同層次考生答題反應、發(fā)現陳題等起著很重要的作用,但由于樣本偏少,往往認為不足以對難度等參數做出確切判斷。但從幾年的命題實踐可以得出:只要嚴格把好試測生選擇條件,即試測生水平在中等以上,且相鄰兩年試測生學習水平大體一致等假設條件(文中第二部分提到的研究假設)基本成立的話,文中這種預測方法和過程可以較好把握難度調控的方向(調難或易、調控的幅度大?。@種方法和命題教師的主觀預估結合,相互佐證,對命題難度的調控起到了很好的效果。
[1]Van der linden,W.J.and R.K.Hambleton.Handboo of Modern Itemresponse Theory[M].New York:Springer.1996.
[2][5]張敏強.教育測量學[M].北京:人民教育出版社.1998.
[3]Kolen,M.J.,&Brennan,R.L.,Test Equating,Scaling,and Linking methodsand Practices,2nd ed,Springer.2004.
[4]溫忠麟,羅冠忠.模塊化科目考試的分數轉換——以香港中學文憑考試為例[J].中國考試,2012(9):3-7.
[6][美]約瑟夫·M.瑞安.基于經典測量理論和項目反應理論的等值和連接——等值設計和經典測量理論等值程序[J].考試研究,2011(2):83-95.