侯躍平 關(guān)廣鵬
【摘要】由于目前教師、學(xué)校,甚至教育研究部門(mén)對(duì)學(xué)科測(cè)驗(yàn)質(zhì)量分析存在誤區(qū),所以筆者提出,對(duì)中學(xué)化學(xué)教學(xué)評(píng)價(jià)過(guò)程中所使用的非標(biāo)準(zhǔn)化試卷的質(zhì)量分析時(shí),首先要對(duì)試卷進(jìn)行具體情況的分析,然后要收集試卷的統(tǒng)計(jì)數(shù)據(jù),而重要的是對(duì)測(cè)試題目的質(zhì)量分析(難度分析、區(qū)分度分析)和測(cè)驗(yàn)的質(zhì)量分析(信度分析、效度分析)。
【關(guān)鍵詞】中學(xué)化學(xué)試卷;質(zhì)量分析;難度;區(qū)分度;信度;效度
中學(xué)化學(xué)試卷的質(zhì)量分析是中學(xué)化學(xué)教學(xué)評(píng)價(jià)的重要內(nèi)容,高質(zhì)量的中學(xué)化學(xué)試卷分析對(duì)提高中學(xué)化學(xué)教學(xué)質(zhì)量和提高化學(xué)試題的命題質(zhì)量具有特別重要的意義。同時(shí),也是教育主管部門(mén)、教育研究部門(mén)獲取教育教學(xué)質(zhì)量信息、提出改進(jìn)教學(xué)建議的重要途徑。
一、中學(xué)化學(xué)試卷的質(zhì)量分析存在誤區(qū)
據(jù)筆者調(diào)查了解,目前教師、學(xué)校,甚至市、縣教育研究部門(mén)的學(xué)科測(cè)驗(yàn)質(zhì)量分析,僅僅是對(duì)學(xué)生考試成績(jī)的情況分析,也就是考試結(jié)果分析。這對(duì)于了解學(xué)生學(xué)習(xí)情況,鑒別學(xué)生學(xué)業(yè)成績(jī)、為改進(jìn)教學(xué)、提高教學(xué)質(zhì)量提供反饋信息是非常重要的。但這種分析是建立在學(xué)科測(cè)驗(yàn)(試卷)本身是沒(méi)有任何質(zhì)量問(wèn)題的測(cè)量工具基礎(chǔ)之上的,嚴(yán)格講這只能稱(chēng)為被試的質(zhì)量分析,而不能稱(chēng)為試卷的質(zhì)量分析。特別是使用沒(méi)有經(jīng)過(guò)標(biāo)準(zhǔn)化的教師自編學(xué)科測(cè)驗(yàn)時(shí),在沒(méi)有對(duì)試卷這一測(cè)量工具的質(zhì)量進(jìn)行有效的分析評(píng)價(jià)之前,對(duì)測(cè)試結(jié)果的分析是沒(méi)有意義的。
學(xué)科測(cè)驗(yàn)質(zhì)量分析的方法包括定性分析和定量分析。從認(rèn)識(shí)論角度講,人們對(duì)事物、現(xiàn)象的認(rèn)識(shí)首先獲得一定的質(zhì)的認(rèn)識(shí),然后在此基礎(chǔ)上進(jìn)一步去考察量,以求對(duì)事物的質(zhì)有更清晰、更準(zhǔn)確的把握,這就是認(rèn)識(shí)的深化與精細(xì)化。也就是說(shuō),定量分析的目的是為了精確地、深入地對(duì)事物、現(xiàn)象的質(zhì)的認(rèn)識(shí),這就要求必須正確理解、評(píng)價(jià)、解釋、運(yùn)用在定量分析中所使用的各種統(tǒng)計(jì)指標(biāo)。但據(jù)筆者調(diào)查了解,在目前的對(duì)非標(biāo)準(zhǔn)化學(xué)科測(cè)驗(yàn)的質(zhì)量分析中,定性分析較多,定量分析較少。定性分析往往缺乏足夠的依據(jù),而在一些簡(jiǎn)單的定量分析之后,相關(guān)指標(biāo)的評(píng)價(jià)標(biāo)準(zhǔn)界定不明確,相關(guān)指標(biāo)的解釋、理解不全面,指標(biāo)的運(yùn)用不充分。
二、對(duì)試卷的基本情況的分析
這項(xiàng)工作主要是分析試題范圍及知識(shí)點(diǎn),試題性質(zhì)、題型及數(shù)量以及有關(guān)命題依據(jù)等方面的內(nèi)容。
1試題范圍及知識(shí)點(diǎn)
是否是在化學(xué)教材及課程標(biāo)準(zhǔn)要求的范圍內(nèi),覆蓋面如何。試題內(nèi)容是否源于課本,并根據(jù)學(xué)生生活背景知識(shí)適當(dāng)拓寬加深,有無(wú)難題、偏題、怪題及超過(guò)課標(biāo)要求的拔高。試題跨度是否注意到適當(dāng)增加學(xué)科內(nèi)或者學(xué)科間知識(shí)的交叉滲透,體現(xiàn)綜合性特征。試題是否科學(xué)合理、比例是否恰當(dāng)。文字、圖像、圖表、數(shù)據(jù)等信息資源是否準(zhǔn)確。試題陳述是否科學(xué)準(zhǔn)確、表達(dá)是否清晰,備選答案是否明確。試題之間是否具備獨(dú)立性,即相互間有無(wú)提示現(xiàn)象。試題是否注意到與社會(huì)實(shí)際和學(xué)生生活實(shí)際的聯(lián)系,注重對(duì)學(xué)生能力的考查。
2試題性質(zhì)、題型及數(shù)量
試題按性質(zhì)分為客觀性試題和主觀性試題。那么試卷中客觀性試題和主觀性試題各為多少道,分別為多少分。在目前,試題按題型(除高三模擬題外)一般分為選擇題(單選或多選)、填空題、簡(jiǎn)答題、實(shí)驗(yàn)探究與設(shè)計(jì)題、計(jì)算題等種類(lèi)。試題數(shù)量指選擇題的備選答案數(shù)、填空題空格數(shù)、實(shí)驗(yàn)探究與設(shè)計(jì)和計(jì)算題得分點(diǎn)數(shù)、回答要點(diǎn)數(shù),以及教材、課程標(biāo)準(zhǔn)和考試要點(diǎn)要求的知識(shí)涉及程度、知識(shí)點(diǎn)覆蓋面(%)。
3命題依據(jù)
是否依據(jù)教材及課程標(biāo)準(zhǔn);是否對(duì)基礎(chǔ)知識(shí)、主干知識(shí)和基本能力的測(cè)試;是否關(guān)注探究過(guò)程和方法、聯(lián)系實(shí)際選取素材,這對(duì)“教”和“學(xué)”具有導(dǎo)向作用。
三、試卷的統(tǒng)計(jì)數(shù)據(jù)
中學(xué)化學(xué)試卷的統(tǒng)計(jì)數(shù)據(jù),可以按題型與按每道小題,進(jìn)行全樣本分析或抽樣分析(隨機(jī)抽樣分析,樣本容量適中)除了要統(tǒng)計(jì)最高分、最低分、平均分、優(yōu)良率、及格率、錯(cuò)誤率、得分率外,更主要的是要做好學(xué)生典型錯(cuò)誤或創(chuàng)新解答統(tǒng)計(jì)及原因分析。在此只談一下選擇題的試題作答率的統(tǒng)計(jì)分析。
試題作答率是以全體受試學(xué)生中,每一個(gè)選項(xiàng)的作答人數(shù)占總?cè)藬?shù)的百分比值。每一選項(xiàng)的作答率,可以作為篩選或進(jìn)一步修改不恰當(dāng)?shù)脑囶}、以及分析學(xué)生作答情形之用,藉以了解學(xué)生是否有一些錯(cuò)誤或迷失概念。
選擇題的結(jié)構(gòu)是由兩部分組成:包括題干與選項(xiàng),題干就是問(wèn)題本身;選項(xiàng)包括一個(gè)正確選項(xiàng)(最佳答案)和三個(gè)誘答選項(xiàng)。正確選項(xiàng)必須要能吸引較多具備該評(píng)量能力的受試者去選擇;而誘答選項(xiàng)則應(yīng)具似真實(shí)性或合理性,會(huì)吸引較多不具備該評(píng)量能力者或是概念不正確者去選擇。選項(xiàng)的設(shè)計(jì)與選擇題題目的難易程度有密切關(guān)系。如某一試題有4個(gè)選項(xiàng),正確選項(xiàng)A作答率為0.89,選項(xiàng)B作答率為0.11,顯示該選項(xiàng)具有誘答力,有約11%的學(xué)生有此錯(cuò)誤概念;選項(xiàng)C及選項(xiàng)D作答率為0,顯示該選項(xiàng)不具有誘答力,或受試者沒(méi)有此錯(cuò)誤概念,可考慮修改此選項(xiàng)。
四、測(cè)試題目的質(zhì)量分析
任何測(cè)驗(yàn)都是由若干測(cè)驗(yàn)題目構(gòu)成的。非標(biāo)準(zhǔn)化測(cè)驗(yàn)的質(zhì)量分析,首先應(yīng)該是對(duì)組成測(cè)驗(yàn)的各個(gè)測(cè)驗(yàn)題目進(jìn)行質(zhì)量分析,只有保證了構(gòu)成測(cè)驗(yàn)的所有試題的質(zhì)量達(dá)到規(guī)定的標(biāo)準(zhǔn),才能保證一個(gè)測(cè)驗(yàn)的整體質(zhì)量。測(cè)驗(yàn)題目質(zhì)量分析的目的,首先是為了鑒定測(cè)驗(yàn)題目,并為進(jìn)一步修改測(cè)驗(yàn)試題提供有效的依據(jù),前述的選擇題作答率統(tǒng)計(jì)就屬于此;其次,有助于提高老師編制測(cè)驗(yàn)的技能和技巧,有助于建立測(cè)驗(yàn)題庫(kù);當(dāng)然,最為重要的還是為了保證一個(gè)測(cè)驗(yàn)的信度和效度。測(cè)驗(yàn)題目的質(zhì)量分析主要包括題目的難度分析和區(qū)分度分析。
(一)、難度分析
難度又稱(chēng)難易度、難度系數(shù)(P)是試題對(duì)學(xué)生知識(shí)和能力水平的適合程度的指標(biāo),是一個(gè)相對(duì)概念,難度的高低與被試者的水平直接相關(guān)。難度的取值范圍為0≤P≤1,P值愈大,表示該試題愈容易,愈多數(shù)學(xué)生答對(duì)該試題;P值愈小,表示該試題愈困難,愈少數(shù)學(xué)生答對(duì)該試題。
1難度的計(jì)算
對(duì)于二分法記分的客觀試題,通常以答對(duì)或通過(guò)該題目人數(shù)的百分比來(lái)表示難度:P=R/N(P:題目難度;N:全體被試人數(shù);R:答對(duì)或通過(guò)該題目的人數(shù))。
當(dāng)被試人數(shù)較多時(shí),可采用極端分組法,即先將被試按測(cè)驗(yàn)總分從高到低排列,取總分最高的27%被試為高分組,總分最低的27%被試為低分組,分別計(jì)算高分組和低分組的通過(guò)率,然后再求題目的難度:P=(PH+PL)/N(PH、PL分別表示高分組和低分組的通過(guò)率)。
主觀題的難度一般用參加測(cè)試考生在該題的平均得分與該題分值之比,即P=X/K(X表示所有考生在該題的平均得分,K表示該得分值)。
試卷的平均難度:P=∑Pi/N(Pi代表每道題的難度值,N代表試卷的題目總數(shù))。也可用P=∑PiWi/W表示(Pi代表每道題目的難度值,Wi代表每道題目的分值,W代表試卷的總分值)。還可以用P=X/W表示(X為總平均分,W代表試卷的總分值,P代表試卷的平均難度)。
當(dāng)被試人數(shù)較多時(shí),也可采用極端分組法計(jì)算難度:P=(XH+XL-2NL)/2N(H-L)(XH、XL分別為高分組、低分組的總分;H、L分別為最高分、最低分;N為總?cè)藬?shù)的25%)。
2難度分析
難度分析的主要目的是為了鑒定、篩選和修改題目。題目的難度水平通常取決于測(cè)驗(yàn)的目的、題目的形式以及測(cè)驗(yàn)的性質(zhì)。一般情況下,測(cè)驗(yàn)的平均難度要適中,應(yīng)在0.50左右;如果測(cè)驗(yàn)是為了了解被試在某方面知識(shí)、技能的掌握情況,可以不必過(guò)多地考慮試題的難度。
難度對(duì)于測(cè)驗(yàn)的影響,首先表現(xiàn)在測(cè)驗(yàn)分?jǐn)?shù)的分布形態(tài)上。若測(cè)驗(yàn)題目的難度普遍較大,則分?jǐn)?shù)呈正偏態(tài)分布;若測(cè)驗(yàn)題目難度普遍較小,則分?jǐn)?shù)呈負(fù)偏態(tài)分布;只有當(dāng)測(cè)驗(yàn)題目的難度適中時(shí),分?jǐn)?shù)分布才呈近似正態(tài)分布。其次表現(xiàn)在測(cè)驗(yàn)分?jǐn)?shù)的離散程度上。太難或太易的測(cè)驗(yàn)題目,都會(huì)導(dǎo)致測(cè)驗(yàn)分?jǐn)?shù)相對(duì)地集中在低分端或高分端,離散程度較?。划?dāng)難度適中時(shí),分?jǐn)?shù)分布范圍大,離散程度較大。這是用標(biāo)準(zhǔn)差σ來(lái)表示的,因篇幅關(guān)系,在此不加贅述。
只有當(dāng)分?jǐn)?shù)的分布范圍較大時(shí),測(cè)驗(yàn)的信度才可能較高,反之信度較低。可見(jiàn),測(cè)驗(yàn)題目的難度以集中在0.50左右為最佳,以集中在兩極端為最差。在非標(biāo)準(zhǔn)化學(xué)科測(cè)驗(yàn)中,組成測(cè)驗(yàn)的各試題的難度系數(shù)應(yīng)當(dāng)以0.50為均值(各個(gè)試題難度均勻分布在0.2~0.8之間為好),這樣有利于最大程度區(qū)分不同程度學(xué)生,使試題產(chǎn)生區(qū)分學(xué)生的最大效果,分?jǐn)?shù)將呈正態(tài)分布,但允許有少量的高難度和低難度的測(cè)驗(yàn)題目。
(二)、區(qū)分度分析
試題區(qū)分度又稱(chēng)區(qū)分度指數(shù)(D),是衡量試題對(duì)不同知識(shí)和能力水平考生的鑒別程度的指標(biāo)。具有良好區(qū)分度的測(cè)驗(yàn),實(shí)際水平高的該得高分,實(shí)際水平低的該得低分,它是評(píng)價(jià)試題質(zhì)量、篩選試題的主要指標(biāo)和依據(jù)。
1區(qū)分度計(jì)算
鑒別指數(shù)法。對(duì)于二分法記分的客觀性試題,從總分分布的兩端各選擇27%的被試組成高分組和低分組,分別計(jì)算高分組和低分組的通過(guò)率,二者之差就是鑒別指數(shù):D=PH-PL。
主觀題的區(qū)分度,一般從總分分布的兩端各選擇27%的被試組成高分組和低分組,分別計(jì)算各組總分和測(cè)驗(yàn)最高分、最低分。再按下面公式計(jì)算:D=(XH-XL)/N(H-L)(公式中各符號(hào)含義與難度計(jì)算時(shí)相同)。
其它復(fù)雜的計(jì)算,在此從略。
2區(qū)分度分析
如果一個(gè)題目的測(cè)試結(jié)果使水平高的考生答對(duì)(得高分),而水平低的考生答錯(cuò)(得低分),它的區(qū)分就很強(qiáng)。鑒別指數(shù)是鑒別題目測(cè)量有效性的指標(biāo),鑒別指數(shù)越高,題目越有效。一般認(rèn)為,鑒別指數(shù)在0.40以上的為很好;鑒別指數(shù)在0.30~0.39的為良好,修改會(huì)更好;鑒別指數(shù)在0.20~0.29的為尚可,仍需修改;鑒別指數(shù)在0.19以下的為差,必須淘汰。
任何一種測(cè)驗(yàn),其所有的測(cè)驗(yàn)題目,都應(yīng)該具有良好以上的區(qū)分度。否則,將無(wú)法保證測(cè)驗(yàn)的有效性。
五、測(cè)驗(yàn)的質(zhì)量分析
當(dāng)由若干質(zhì)量達(dá)到要求的測(cè)試題目構(gòu)成一個(gè)測(cè)驗(yàn)時(shí),還必須對(duì)整個(gè)測(cè)驗(yàn)的可靠性和有效性進(jìn)行技術(shù)鑒定,這就是通常所說(shuō)的試卷分析。試卷分析最根本的含義是指對(duì)試卷的質(zhì)量進(jìn)行系統(tǒng)的分析,目的是評(píng)價(jià)作為鑒別學(xué)業(yè)成績(jī)的測(cè)量工具的質(zhì)量。對(duì)于標(biāo)準(zhǔn)化測(cè)驗(yàn)來(lái)說(shuō),有一整套完整而成熟的質(zhì)量技術(shù)分析指標(biāo)。非標(biāo)準(zhǔn)化測(cè)驗(yàn)在測(cè)驗(yàn)結(jié)束后,也可以通過(guò)抽樣的方法,借助這些指標(biāo)來(lái)進(jìn)行試卷的質(zhì)量分析,也就是要明確一個(gè)測(cè)驗(yàn)的信度和效度。
(一)信度分析
信度是指測(cè)驗(yàn)結(jié)果的穩(wěn)定性、一致性和可靠性的指標(biāo)。信度是測(cè)量過(guò)程中隨機(jī)誤差大小的反映,如果信度低,則隨機(jī)誤差大,測(cè)驗(yàn)的結(jié)果就會(huì)與真分?jǐn)?shù)發(fā)生較大的偏差。一個(gè)成功的測(cè)驗(yàn)必須具有較高的信度,也就是說(shuō),只要遵守操作規(guī)則,測(cè)驗(yàn)的結(jié)果就不應(yīng)該隨工具的使用者或使用時(shí)間、地點(diǎn)等因素的變化而發(fā)生較大變化。
測(cè)驗(yàn)信度的種類(lèi)較多。如反映測(cè)驗(yàn)穩(wěn)定性的重測(cè)信度、檢驗(yàn)等值性的復(fù)本信度以及描述內(nèi)部一致性的分半信度、同質(zhì)性信度等。在非標(biāo)準(zhǔn)化學(xué)科測(cè)驗(yàn)的信度分析中,最適合使用的應(yīng)該是分半信度。
分半信度是將一個(gè)測(cè)驗(yàn)分成對(duì)等的兩半,然后分析同一組被試在兩個(gè)半份的一致性程度。計(jì)算分半信度的關(guān)鍵在于如何將一個(gè)測(cè)驗(yàn)分成兩半,常用的分半方法有完全隨機(jī)分半、奇偶題目序號(hào)分半等。計(jì)算分半信度的方法,就是求被試在兩個(gè)半份測(cè)驗(yàn)上得分的相關(guān)系數(shù),當(dāng)然,由于只是半個(gè)測(cè)驗(yàn)的信度,所以必須進(jìn)行校正。校正公式為r=2r0/(1+r0)(r為信度,r0為兩個(gè)半卷上分?jǐn)?shù)的相關(guān)系數(shù))。
測(cè)驗(yàn)信度通常用來(lái)解釋個(gè)人測(cè)驗(yàn)分?jǐn)?shù)的意義,也可用來(lái)進(jìn)行兩種測(cè)驗(yàn)分?jǐn)?shù)的比較分析。測(cè)驗(yàn)信度高,說(shuō)明測(cè)驗(yàn)結(jié)果比較一致,測(cè)量工具具有穩(wěn)定性、一致性和等值性,被試的能力水平受被試狀態(tài)和施測(cè)環(huán)境變化的影響較??;若信度低,則說(shuō)明測(cè)驗(yàn)的隨機(jī)誤差較大,測(cè)驗(yàn)結(jié)果不可靠。鑒別信度系數(shù)的高低,需要對(duì)計(jì)算的各種相關(guān)系數(shù)進(jìn)行顯著性檢驗(yàn)。
要提高測(cè)驗(yàn)的信度,可適當(dāng)增加測(cè)驗(yàn)的長(zhǎng)度,并使測(cè)驗(yàn)中所有試題的難度系數(shù)接近正態(tài)分布,并控制在中等水平;必須保證測(cè)驗(yàn)題目具有較高的區(qū)分度,并盡量使用同質(zhì)的測(cè)驗(yàn)內(nèi)容題目;另外,還必須強(qiáng)調(diào)測(cè)驗(yàn)評(píng)分的客觀性,并提高測(cè)驗(yàn)程序的統(tǒng)一性。
(二)效度分析
效度指一個(gè)測(cè)驗(yàn)實(shí)際測(cè)量的結(jié)果與所要測(cè)量的能力水平之間的吻合程度,是測(cè)驗(yàn)的有效性或正確性的指標(biāo)。效度是隨機(jī)誤差和系統(tǒng)誤差的綜合反映,效度的估計(jì)就是多方尋找證據(jù)來(lái)證明一個(gè)測(cè)驗(yàn)有效性程度的過(guò)程。由于效度是就測(cè)量結(jié)果達(dá)到測(cè)量目的的程度而言的,所以測(cè)驗(yàn)的效度估計(jì)在很大程度是取決于人們對(duì)測(cè)量目的的解釋。常見(jiàn)的解釋有三種:一是用測(cè)量的內(nèi)容來(lái)說(shuō)明目的;二是用心理學(xué)上某種理論結(jié)構(gòu)來(lái)說(shuō)明目的;三是用實(shí)際實(shí)效來(lái)說(shuō)明目的。于是,就有內(nèi)容效度、結(jié)構(gòu)效度和實(shí)證效度之分。
在非標(biāo)準(zhǔn)化學(xué)科測(cè)驗(yàn)的效度分析中,最適合使用的是內(nèi)容效度。
內(nèi)容效度指一個(gè)測(cè)驗(yàn)實(shí)際測(cè)到的內(nèi)容與所要測(cè)的內(nèi)容之間的吻合程度,也即試卷內(nèi)容對(duì)于所要考查的課程內(nèi)容的代表性如何。估計(jì)內(nèi)容效度的核心問(wèn)題,一是要測(cè)的內(nèi)容范圍是否明確,二是在明確的內(nèi)容范圍內(nèi)題目的取樣是否具有代表性。
確定內(nèi)容效度的方法主要是邏輯分析法。其工作思路是請(qǐng)有關(guān)專(zhuān)家對(duì)測(cè)試題目與原定內(nèi)容范圍的吻合程度作出判斷分析,所以又稱(chēng)專(zhuān)家判斷法。這需要依據(jù)在編制測(cè)驗(yàn)時(shí)制作的“化學(xué)學(xué)科雙向細(xì)目表”。
要提高測(cè)驗(yàn)的效度,首先,要精心編制測(cè)驗(yàn)試題,避免出現(xiàn)系統(tǒng)誤差;其次,要妥善組織測(cè)驗(yàn),控制好隨機(jī)誤差;第三,要合理處理好信度與效度的關(guān)系,信度不高的測(cè)驗(yàn)不可能具有很高的測(cè)驗(yàn)效度。
另外,還要做好被試團(tuán)體的質(zhì)量分析和被試個(gè)體的質(zhì)量分析,因篇幅關(guān)系,在此從略。
綜上所述,非標(biāo)準(zhǔn)化學(xué)科測(cè)驗(yàn)的質(zhì)量分析,可借助于標(biāo)準(zhǔn)化測(cè)驗(yàn)的質(zhì)量分析指標(biāo)體系,通過(guò)抽樣進(jìn)行一定的定量分析,在此基礎(chǔ)上,對(duì)測(cè)驗(yàn)所作的定性分析才有充分的依據(jù)。也只有在試卷的質(zhì)量分析基礎(chǔ)上,被試的質(zhì)量分析才有其實(shí)際意義。
(作者單位:遼寧省丹東市第二中學(xué))