楊文陽(yáng)
考試質(zhì)量分析是學(xué)校日常教學(xué)管理工作之一,是評(píng)價(jià)學(xué)生學(xué)習(xí)效果和教師教學(xué)質(zhì)量的重要依據(jù),更是教學(xué)質(zhì)量分析和監(jiān)控的重要環(huán)節(jié)。[1]長(zhǎng)期以來(lái),一般的考試質(zhì)量分析簡(jiǎn)單化,甚至流于形式,而網(wǎng)絡(luò)技術(shù)的發(fā)展為突破傳統(tǒng)的考試質(zhì)量分析方式提供了技術(shù)支持。在線測(cè)試系統(tǒng)是傳統(tǒng)考場(chǎng)的延伸,它可以利用網(wǎng)絡(luò)的無(wú)限廣闊空間,隨時(shí)隨地地對(duì)學(xué)生進(jìn)行測(cè)試,大大簡(jiǎn)化了傳統(tǒng)測(cè)試的過(guò)程。[2]本研究主要從理論和實(shí)踐兩個(gè)方面研究考試質(zhì)量評(píng)估體系,期望在定量的基礎(chǔ)上揭示影響考試的因素對(duì)結(jié)果的影響程度和鏈接關(guān)系,使考試能最大化地反映學(xué)生的真實(shí)水平,達(dá)到優(yōu)化教學(xué)結(jié)構(gòu)和教學(xué)過(guò)程的目的。
目前的考試體系通常是由教師出題,學(xué)生直接作答,然后評(píng)分得出成績(jī),做出評(píng)價(jià)。一般更多關(guān)心考試的分?jǐn)?shù)而忽視了考試的其他指標(biāo),這就造成了對(duì)學(xué)生學(xué)習(xí)水平的過(guò)高或過(guò)低的估計(jì)和評(píng)價(jià)。目前,國(guó)內(nèi)關(guān)于成績(jī)分析軟件以及成績(jī)分析系統(tǒng)或多或少地存在以下缺陷:(1)缺乏指導(dǎo)性和實(shí)用性;(2)重結(jié)果性評(píng)價(jià)輕形成性評(píng)價(jià);(3)可靠性很低,對(duì)學(xué)生發(fā)展不利;(4)生成報(bào)表格式相對(duì)固定,不能滿足教師的實(shí)際需求;(5)缺乏共享和多任務(wù)機(jī)制。因此,需要開(kāi)發(fā)適合某地區(qū)的成績(jī)分析軟件。通過(guò)軟件,了解學(xué)生的真正需求。
該考試質(zhì)量測(cè)評(píng)系統(tǒng)建立在評(píng)價(jià)研究的理論基礎(chǔ)上,采用的方法基本是評(píng)價(jià)的研究方法。
1.評(píng)價(jià)內(nèi)容
(1)評(píng)價(jià)對(duì)象。這里指被評(píng)價(jià)、被研究的人或事物。在該系統(tǒng)中,評(píng)價(jià)對(duì)象是學(xué)生的學(xué)習(xí)效果(考試成績(jī))。
(2)評(píng)價(jià)指標(biāo)體系。它是評(píng)價(jià)研究的工具,通過(guò)它有目的地進(jìn)行資料的搜集、整理、分析;同時(shí),它又是評(píng)價(jià)依據(jù),依據(jù)它做出有價(jià)值的評(píng)價(jià)。在本評(píng)價(jià)體系中,評(píng)價(jià)指標(biāo)體系包括最高分、最低分、平均分、標(biāo)準(zhǔn)差、方差、頻數(shù)分布、成績(jī)分布、偏度、峰度、信度、效度、區(qū)分度。
(3)評(píng)價(jià)者。評(píng)價(jià)者理論上包括組織機(jī)關(guān)領(lǐng)導(dǎo)、研究人員、專家、同行、教師、學(xué)生、評(píng)價(jià)對(duì)象自身等。而本軟件的評(píng)判者是教師。評(píng)價(jià)研究的三要素及關(guān)系如圖1所示。
圖1 評(píng)價(jià)研究的要素
2.評(píng)價(jià)研究的基本步驟
在進(jìn)行評(píng)價(jià)研究時(shí)首先要建立評(píng)價(jià)指標(biāo)體系,這包括評(píng)價(jià)要素、評(píng)價(jià)指標(biāo)和指標(biāo)加權(quán)。其次是收集資料,該評(píng)價(jià)系統(tǒng)收集資料的方法是通過(guò)在線考試系統(tǒng)來(lái)獲得學(xué)生的考試成績(jī),作為研究的最基本信息。再次是鑒別資料,由于要對(duì)考試成績(jī)做信度和效度的測(cè)評(píng),所以資料的鑒別將在這兩項(xiàng)指標(biāo)中得到體現(xiàn)。最后是價(jià)值判斷和評(píng)價(jià)結(jié)果的綜述,對(duì)本系統(tǒng)而言,價(jià)值判斷就是根據(jù)上述評(píng)價(jià)指標(biāo)的算法進(jìn)行運(yùn)算和估計(jì),做出價(jià)值等級(jí)的歸屬。綜合各個(gè)要素的值及其權(quán)重,得出評(píng)價(jià)總分,并根據(jù)總分和各要素的得分,做出等級(jí)評(píng)定或差異比較,或達(dá)標(biāo)程度,或發(fā)展程度的價(jià)值性描述和判斷。[3]本測(cè)評(píng)系統(tǒng)評(píng)價(jià)研究的基本步驟如圖2所示。
圖2 評(píng)價(jià)的基本步驟
1.信度系數(shù)的估計(jì)
一種合理的、有效的測(cè)試,其測(cè)試數(shù)據(jù)(得分)應(yīng)具備一定的特性。在這些特性中,最重要的是信賴性(信度)和妥當(dāng)性(效度)。在考試質(zhì)量分析中,學(xué)生的成績(jī)分布是重要的分析基礎(chǔ)和診斷依據(jù)。
影響考試效度的原因很多,效度數(shù)值一般不高,該值只能作為教師定性分析的參考,最重要的是內(nèi)容效度(試題內(nèi)容與教學(xué)內(nèi)容和教學(xué)大綱一致性)分析。內(nèi)容效度是試卷定性分析中不可或缺的重要部分??荚嚱Y(jié)果是多個(gè)復(fù)雜因素綜合作用的結(jié)果,抽象化的統(tǒng)計(jì)指標(biāo)數(shù)據(jù)只能反映一般的統(tǒng)計(jì)特征,這些特征所蘊(yùn)含的內(nèi)在規(guī)律要借助于對(duì)試卷的定性分析才有所依附,因此,以上評(píng)價(jià)標(biāo)準(zhǔn)只能作為教師定性分析的參考,而不能作為定論。
在該系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)中,一般的考試質(zhì)量量度,如最高分、最低分、平均分、標(biāo)準(zhǔn)差、方差、頻數(shù)分布、成績(jī)分布、偏度、峰度等是很容易實(shí)現(xiàn)的,其理論基礎(chǔ)和實(shí)現(xiàn)方法都已經(jīng)相當(dāng)成熟,并已廣泛運(yùn)用,而評(píng)估試卷質(zhì)量的診斷性指標(biāo)(信度、效度、區(qū)分度)很少運(yùn)用,因?yàn)樗鼈儾蝗菀妆涣炕磉_(dá)測(cè)出,因此,該系統(tǒng)的設(shè)計(jì)中,著重設(shè)計(jì)實(shí)現(xiàn)一種方法來(lái)量化信度、效度、區(qū)分度指標(biāo),并進(jìn)行測(cè)量分析,使教師能很直觀地得到這些信息的量度。
2.效度系數(shù)(妥當(dāng)性)的估計(jì)
妥當(dāng)性是表示測(cè)試結(jié)果心理特性的概念和量度。妥當(dāng)性用于表示測(cè)試結(jié)果與測(cè)試目的間的匹配程度,即通過(guò)測(cè)試的結(jié)果在多大程度上能達(dá)到預(yù)定測(cè)試目的的要求。妥當(dāng)性是測(cè)試的一種基本的特性。測(cè)試的妥當(dāng)性往往以效度所表示。影響測(cè)驗(yàn)信度的因素主要有題目的數(shù)量、分?jǐn)?shù)的分布、題目的難度等。
3.測(cè)試的誤差
測(cè)試過(guò)程中會(huì)產(chǎn)生一定的誤差。其原因是多方面的,有心理的因素、有測(cè)試實(shí)施的因素、有測(cè)試環(huán)境的因素、有評(píng)分標(biāo)準(zhǔn)的因素,也有評(píng)分人員的因素等等。由于誤差只能減小,不可能消除,因此,只討論理論誤差和系統(tǒng)誤差,其他不可預(yù)見(jiàn)性誤差和人為誤差不做討論。
在軟件設(shè)計(jì)時(shí)采用二參數(shù)邏輯斯蒂模型,其中已經(jīng)包含了理論誤差,因此可不必討論。而系統(tǒng)誤差則采取擴(kuò)大試題庫(kù)的方法和多次測(cè)試的方法來(lái)減小誤差,理論上只要這些足夠大,誤差就可忽略不計(jì)。因此,在測(cè)試系統(tǒng)中建議教師的單科題目在100道以上,測(cè)試2次以上。
(1) 二參數(shù)邏輯斯諦模型。具有難度參數(shù)和區(qū)分度參數(shù)的二參數(shù)邏輯斯諦模型如下所示。[4]130-133
式中,P(θ)為被測(cè)試者正確應(yīng)答(簡(jiǎn)稱正答)的概率;D為常數(shù),稱之為量表因子,且有D=1.7;θ為被測(cè)試者的能力參數(shù);a為區(qū)分度參數(shù);b為難度參數(shù);exp(y)為ex的另一表示形式。
圖3 邏輯斯諦模型實(shí)例
圖3給出了這種邏輯斯諦模型的一個(gè)實(shí)例。從圖可知,當(dāng)被測(cè)試者的能力參數(shù)正向逐漸增加時(shí),項(xiàng)目的正答率逐漸增加,最后趨近于1。反之,隨著被測(cè)試者的能力參數(shù)逐漸減小,項(xiàng)目的正答率亦隨之減小,并逐漸趨近于0。圖4所示的曲線為項(xiàng)目反應(yīng)曲線。該項(xiàng)目反應(yīng)曲線表示了項(xiàng)目的正答率隨被測(cè)試者能力參數(shù)的高低而上、下變化,且這種變化是按指數(shù)曲線的規(guī)律變化的。
圖4 兩條難度參數(shù)不同的項(xiàng)目反應(yīng)曲線
圖4給出了兩條難度參數(shù)不同的項(xiàng)目反應(yīng)曲線,從中可以看出難度參數(shù)對(duì)項(xiàng)目反應(yīng)曲線的影響。如圖4所表示的那樣,項(xiàng)目1的難度參數(shù)b=-1.2,項(xiàng)目2的難度參數(shù)b=1.2,顯然,項(xiàng)目1較為容易,項(xiàng)目2較為困難。對(duì)于項(xiàng)目1,能力參數(shù)θ較低的被測(cè)試者(只要θ≥-1.2),其正答概率就可達(dá)到0.5。對(duì)于項(xiàng)目2,只有能力參數(shù)較高的被測(cè)試者(θ≥1.2),其正答概率才能達(dá)到0.5。由于難度參數(shù)b的增加,項(xiàng)目反應(yīng)曲線沿能力參數(shù)θ增加的方向平移。它表示難度參數(shù)高的項(xiàng)目,需要能力參數(shù)高的被測(cè)試者才能給出正確的應(yīng)答。
(2)區(qū)分度參數(shù)。項(xiàng)目的區(qū)分度表示了在一定難度參數(shù)的情況下,由于被測(cè)試者能力參數(shù)的不同,其正答概率有很大程度的不同。顯然,這種不同的程度越高,項(xiàng)目對(duì)不同能力參數(shù)的被測(cè)試者的區(qū)分度亦越高。
(3) 局部獨(dú)立性與單因子性。項(xiàng)目反應(yīng)理論具有局部獨(dú)立性和單因子性的假設(shè)。所謂局部獨(dú)立性是指能力參數(shù)θ一定時(shí),被測(cè)試者對(duì)各個(gè)項(xiàng)目的應(yīng)答是統(tǒng)計(jì)的獨(dú)立。設(shè)xj表示對(duì)項(xiàng)目j應(yīng)答的二值變量,當(dāng)被測(cè)試者的應(yīng)答正確時(shí),xj=1,否則,xj=0。當(dāng)測(cè)試滿足局部獨(dú)立性假設(shè)時(shí),該測(cè)試是一種單因子的測(cè)試,即測(cè)試是一種僅由θ這種單因子決定的一維測(cè)試。反之,測(cè)試在θ一定時(shí),是一種多維性的測(cè)試。它表示測(cè)試過(guò)程中,不僅被測(cè)試者的能力參數(shù)影響其應(yīng)答的結(jié)果,還存在著除θ以外的其他能力和因子影響被測(cè)試者的應(yīng)答。
4.能力參數(shù)與項(xiàng)目參數(shù)的估計(jì)
能力參數(shù)估計(jì)是一種在測(cè)試的各種項(xiàng)目參數(shù)已知的情況下,對(duì)被測(cè)試者能力參數(shù)的估計(jì),其主要方法有最大似然法和貝葉斯法。由于以上兩種方法都要求有較大范圍的樣本,測(cè)試項(xiàng)目不能低于30項(xiàng),被測(cè)試者不能小于400人,因此不適用本系統(tǒng)。本系統(tǒng)采用教師通過(guò)平時(shí)學(xué)習(xí)經(jīng)驗(yàn)估計(jì)或考試測(cè)評(píng)能力參數(shù)所得的數(shù)據(jù)進(jìn)行比較估計(jì)。
5.以項(xiàng)目反應(yīng)理論為基礎(chǔ)的試題庫(kù)設(shè)計(jì)與優(yōu)化
(1)項(xiàng)目庫(kù)及其應(yīng)用。在項(xiàng)目反應(yīng)理論的應(yīng)用過(guò)程中,涉及項(xiàng)目及其估計(jì)值的數(shù)量較多,我們將它稱之為項(xiàng)目群或項(xiàng)目組。實(shí)際使用過(guò)程中,除項(xiàng)目參數(shù)外,還應(yīng)了解包括測(cè)試項(xiàng)目的制作者、制作時(shí)間與項(xiàng)目相關(guān)的事項(xiàng)及被測(cè)試者的應(yīng)答信息等各種信息。為了使用方便,我們應(yīng)將這些信息置入數(shù)據(jù)庫(kù)進(jìn)行管理,這樣的數(shù)據(jù)庫(kù)稱為項(xiàng)目數(shù)據(jù)庫(kù)。根據(jù)測(cè)試的要求和目的的不同,可利用項(xiàng)目數(shù)據(jù)編輯出相應(yīng)的測(cè)試試卷。此外,也可以根據(jù)項(xiàng)目反應(yīng)理論,將基于測(cè)試結(jié)果的能力參數(shù)估計(jì)值與以往測(cè)試結(jié)果進(jìn)行比較。在編輯測(cè)試項(xiàng)目時(shí),信息函數(shù)具有重要的意義。在θ軸上,測(cè)試信息函數(shù)較高,表示在該范圍內(nèi),能力參數(shù)估計(jì)值的精度較高[4]114-118。因此,如果利用計(jì)算機(jī)及其相應(yīng)的軟件,當(dāng)給出相應(yīng)的θ范圍、測(cè)試信息函數(shù)I(θ)的大小和測(cè)試的項(xiàng)目數(shù)后,計(jì)算機(jī)就能很快地編輯出接近這些要求的測(cè)試試卷,實(shí)時(shí)生成試卷,進(jìn)行測(cè)試。其過(guò)程見(jiàn)圖5。
(2)自適應(yīng)測(cè)試。一般的測(cè)試中,對(duì)被測(cè)試者而言,不僅包括難度適中的測(cè)試項(xiàng)目,也包括某種過(guò)難,或過(guò)易的測(cè)試項(xiàng)目。為了避免這類問(wèn)題的產(chǎn)生,可采用自適應(yīng)測(cè)試。利用計(jì)算機(jī)可以實(shí)現(xiàn)自適應(yīng)測(cè)試。這種自適應(yīng)測(cè)試是測(cè)試項(xiàng)目對(duì)被測(cè)試者能力的自適應(yīng)。自適應(yīng)測(cè)試是這樣進(jìn)行的:由測(cè)試項(xiàng)目的應(yīng)答結(jié)果對(duì)被測(cè)試者的能力水平進(jìn)行估計(jì)(或估計(jì)值的修正)。根據(jù)估計(jì)的能力水平,從項(xiàng)目數(shù)據(jù)庫(kù)中檢索出與之匹配的、適宜的測(cè)試項(xiàng)目。
圖5 系統(tǒng)設(shè)計(jì)流程圖
為了提高測(cè)試的效率,應(yīng)做到以較少的測(cè)試項(xiàng)目,實(shí)現(xiàn)被測(cè)試者能力的高精度估計(jì)。根據(jù)所估計(jì)的能力水平,對(duì)項(xiàng)目庫(kù)中的測(cè)試項(xiàng)目進(jìn)行檢索時(shí),應(yīng)基于項(xiàng)目的信息函數(shù)Ij(θ)進(jìn)行選擇。一般總是選擇那些Ij(θ)最大的項(xiàng)目,它對(duì)被測(cè)試者具有最好的分辨能力。 與此同時(shí),還應(yīng)考慮項(xiàng)目的難度水平,應(yīng)在測(cè)試精度高、難度適中的要求下決定用于測(cè)試的項(xiàng)目。自適應(yīng)測(cè)試中,應(yīng)根據(jù)不同的測(cè)試者提供相應(yīng)版本的測(cè)試,利用項(xiàng)目反應(yīng)理論,對(duì)不同測(cè)試者的能力水平實(shí)現(xiàn)有效的比較。綜合以上理論基礎(chǔ)設(shè)計(jì)了該測(cè)評(píng)系統(tǒng)的流程圖(如圖5)。
6.考試質(zhì)量在線測(cè)評(píng)系統(tǒng)總體功能結(jié)構(gòu)設(shè)計(jì)
本系統(tǒng)的開(kāi)發(fā)總目標(biāo)是通過(guò)在線測(cè)試系統(tǒng)和成績(jī)?cè)u(píng)價(jià)系統(tǒng)實(shí)現(xiàn)管理員對(duì)用戶信息的管理;實(shí)現(xiàn)教師對(duì)試卷和學(xué)生的管理,主要是生成試卷、修改試卷、瀏覽試卷以及查詢考生成績(jī);實(shí)現(xiàn)學(xué)生在線測(cè)試與成績(jī)查詢。該在線測(cè)試系統(tǒng)概括3個(gè)子系統(tǒng),分別是學(xué)生子系統(tǒng)、教師子系統(tǒng)、管理員子系統(tǒng),這3大模塊都采用框架的設(shè)計(jì)方案來(lái)搭建。系統(tǒng)總體設(shè)計(jì)框架結(jié)構(gòu)圖如圖6所示。
圖6 系統(tǒng)總體功能框架
(1)密碼保護(hù)模塊:根據(jù)不同ID的權(quán)限進(jìn)入不同的界面,進(jìn)行相應(yīng)權(quán)限的操作。
(2)基本信息錄入模塊:包括登錄權(quán)限設(shè)定、考試名稱、年級(jí)、科目、學(xué)生基本信息、考試成績(jī) 、成績(jī)輸出、考試成績(jī)?cè)u(píng)價(jià)等。
(3)成績(jī)錄入模塊:通過(guò)軟件實(shí)現(xiàn)多學(xué)科的成績(jī)錄入,提高分?jǐn)?shù)采集的效率。
(4)班主任分析模塊:根據(jù)班主任的需求生成班級(jí)的基本學(xué)生分?jǐn)?shù)統(tǒng)計(jì)表,包括每位學(xué)生的總分、平均分、名次等;為每位學(xué)生生成成績(jī)分析單,包括成績(jī)折線圖、各科分?jǐn)?shù)、各科的最低分和最高分、班主任的個(gè)性化評(píng)語(yǔ)或圖片等內(nèi)容。
(5)任課教師分析模塊:對(duì)學(xué)科考試分析統(tǒng)計(jì),即生成相應(yīng)的校、區(qū)各種分析報(bào)表,如:統(tǒng)計(jì)各班各分?jǐn)?shù)段人數(shù)、平均分、及格率、優(yōu)秀率等;可以根據(jù)教師點(diǎn)選的平均分、及格率等生成各種折線、柱狀圖等分析圖表??梢愿鶕?jù)教師點(diǎn)選的班級(jí)、大題及小題等生成卷面等統(tǒng)計(jì)分析表,可以比較不同班不同學(xué)生的得分情況,為教師針對(duì)性地講題提供依據(jù),為教師今后的命題提供參考。
(6) 查詢與打印模塊:實(shí)現(xiàn)“報(bào)表生成模塊”各種相應(yīng)成績(jī)的查詢和輸出功能。
(7) 成績(jī)分析:實(shí)現(xiàn)對(duì)成績(jī)的分析,包括最高分、最低分、及格率、優(yōu)秀率、方差、標(biāo)準(zhǔn)差、難度、效度、信度的評(píng)定和輸出。
考試質(zhì)量在線測(cè)評(píng)系統(tǒng)是教學(xué)質(zhì)量監(jiān)控的重要環(huán)節(jié)之一,但考試質(zhì)量分析畢竟是事后監(jiān)控,如果考試的目的、方法本身出了問(wèn)題,不能與人才培養(yǎng)目標(biāo)相適應(yīng),不能促進(jìn)學(xué)生創(chuàng)新能力和應(yīng)用能力的發(fā)展,即便試卷的質(zhì)量參數(shù)顯示良好,也不能算是一次高質(zhì)量的考試。另外還要把形成性考核與終結(jié)性考試結(jié)合起來(lái),形成性考核與終結(jié)性考試是教學(xué)過(guò)程中學(xué)習(xí)測(cè)評(píng)的兩個(gè)最重要的環(huán)節(jié), 要科學(xué)把握好兩者之間的相關(guān)性。[5]提高教育考試質(zhì)量的前提是要進(jìn)行考試改革,采用與人才培養(yǎng)規(guī)格相適應(yīng)的考試方式,特別是在以培養(yǎng)應(yīng)用型人才為主的高校,更要通過(guò)考試促進(jìn)學(xué)生應(yīng)用能力的提高。教學(xué)管理者在建立考試質(zhì)量在線測(cè)評(píng)系統(tǒng)的同時(shí),必須注重推動(dòng)考試改革研究和實(shí)踐,從源頭抓起,關(guān)注事前監(jiān)控,充分發(fā)揮教育考試的作用,全面提高教育教學(xué)質(zhì)量。
[1] 胡中鋒. 教育測(cè)量與評(píng)價(jià)[M].廣州:廣東高等教育出版社,1999:31-35.
[2] 張琴珠.計(jì)算機(jī)輔助教育[M].北京:高等教育出版社, 2003:155-157.
[3] 何克抗. 教育技術(shù)學(xué)研究方法[M]. 北京:北京師范大學(xué)出版社,2003:38-40.
[4] 傅德榮,章慧敏.教育信息處理[M].北京:北京師范大學(xué)出版社,2001.
[5] 教學(xué)督導(dǎo)辦公室.開(kāi)放教育終結(jié)性考試的調(diào)查與分析[J].江蘇廣播電視大學(xué)學(xué)報(bào),2008(4):10-13.