汪 鳳
(安慶師范大學(xué)教育學(xué)院,安徽 安慶 246133)
Davies(1968)曾說“好的測(cè)試就如一個(gè)忠實(shí)的仆人”“the good test is an obedient servant since it follows and apes the teaching.”,這個(gè)比喻形象的說明了測(cè)試最終是服務(wù)于教學(xué)的。[1]語言測(cè)試隨著語言和語言教學(xué)的發(fā)展,現(xiàn)在已經(jīng)成為一門獨(dú)立的學(xué)科進(jìn)行發(fā)展和研究,基于此,也可以說沒有語言教學(xué)也就沒有語言測(cè)試;當(dāng)然,隨著評(píng)價(jià)方式和教育改革的發(fā)展,語言教學(xué)評(píng)價(jià)方式豐富多維,這又從另一方面證明了語言測(cè)試作為評(píng)價(jià)方式的一種促進(jìn)了語言教學(xué)。通過對(duì)學(xué)生語言能力及其運(yùn)用能力的培養(yǎng)和檢測(cè),并且通過對(duì)學(xué)生的系統(tǒng)抽樣,借以科學(xué)的評(píng)價(jià)和解釋,得出其能力的綜述。語言測(cè)試作為現(xiàn)在基礎(chǔ)教育的常規(guī)評(píng)價(jià)方式,占據(jù)著不可替代的作用。語言測(cè)試本身也經(jīng)歷了三個(gè)階段:命題設(shè)計(jì)、實(shí)施測(cè)試以及考后分析,這三個(gè)階段無一不與語言教學(xué)息息相關(guān),相互反饋。
Alderson在命題設(shè)計(jì)這一概念中說過,命題設(shè)計(jì)包括制定考試內(nèi)容規(guī)范、公布考試大綱、規(guī)定考試內(nèi)容和試卷構(gòu)成及試題形式以及確定計(jì)分體制。[2]這里就涉及了所測(cè)量的語言能力和結(jié)構(gòu)效度,也是語言測(cè)試的理論基礎(chǔ),更是使分?jǐn)?shù)具有可解釋性的依據(jù)。為此命題之前特制訂了明細(xì)表如表1所示。
完成了考試內(nèi)容規(guī)范,還要設(shè)計(jì)相應(yīng)的試卷,本組成員基于課程標(biāo)準(zhǔn)對(duì)初二學(xué)生的
表1 期中考試明細(xì)表
能力要求以及大綱的標(biāo)準(zhǔn)規(guī)范,緊密聯(lián)系教材,突出重點(diǎn),突破難點(diǎn)。除此之外,組內(nèi)各成員牢記所命練習(xí)題的適用范圍,以免出現(xiàn)超綱現(xiàn)象,造成學(xué)生對(duì)于測(cè)試產(chǎn)生心理壓力,試卷總共分為四大部分,具體結(jié)構(gòu)和分值可從明細(xì)表中得知。
實(shí)施測(cè)試階段嚴(yán)格按照安慶市第十四中學(xué)的考試規(guī)范和標(biāo)準(zhǔn)進(jìn)行,確保語言測(cè)試項(xiàng)目的科學(xué)性和可檢測(cè)性。
考后詳細(xì)準(zhǔn)確的成績分析報(bào)告,其中包括了分?jǐn)?shù)的頻數(shù)分布、集中量以及差異量,信度效度難易度區(qū)分度等等,并且盡可能地找出存在的問題因素和方法,以便改進(jìn)教學(xué),對(duì)正常的英語教學(xué)產(chǎn)生積極的反撥作用。故本次筆者使用IBM SPSS Statistics v23 x64對(duì)試卷各題項(xiàng)、整套試卷做了全面的數(shù)據(jù)分析。希望對(duì)實(shí)驗(yàn)班級(jí)的英語教學(xué)提供科學(xué)的測(cè)試反饋和可靠的教學(xué)根據(jù)。
通過對(duì)成績的具體分析,我們能夠得到量化的信息反饋,這對(duì)進(jìn)一步完善教學(xué),提高考試質(zhì)量等都大有裨益。(鄒申,2011)[3]
頻數(shù)分布是整理雜亂無序的數(shù)據(jù)的重要手段,是分析考試成績時(shí)做的第一項(xiàng)工作。下面我將列舉本次期中考試一個(gè)班級(jí)52名初二學(xué)生的成績頻數(shù)分布(圖1所示):
圖1 成績頻率分布圖
由圖1的頻率分布圖以及直方圖可見,100分-110分區(qū)間人數(shù)分布最多,人數(shù)基本集中在75分—125分區(qū)間中。根據(jù)偏態(tài)分布的解釋,偏態(tài)分布指頻數(shù)分布的高峰位于一側(cè),尾部向另一側(cè)延伸的分布。它分為正偏態(tài)分布和負(fù)偏態(tài)分布,由直方圖可以判斷,此次成績總分呈負(fù)偏態(tài)分布,由此就可以說明此次測(cè)驗(yàn)難度較小,群體測(cè)驗(yàn)的成績多為高分,也說明師生雙方積極努力,大多數(shù)學(xué)生掌握了教學(xué)大綱的基本內(nèi)容。
分?jǐn)?shù)經(jīng)過歸組整理和列表,其分布面貌和特征已經(jīng)基本反應(yīng)出來了,然而為了得到更確切的數(shù)據(jù),還需要進(jìn)一步的分析研究,下面將從算數(shù)平均數(shù)、中位數(shù)以及眾數(shù)三個(gè)維度來展開闡述。
1.算數(shù)平均數(shù)
算數(shù)平均數(shù)的公式是:M=Σ X/ N,M=平均分,X=分?jǐn)?shù),∑=總和,N=人數(shù),當(dāng)然通過 IBM SPSS Statistics v23 x64軟件,快速準(zhǔn)確的計(jì)算出平均分為97.26分,算數(shù)平均分是最有效、簡捷的集中量。這里通過SPSS 23繼續(xù)生成了各題型的平均分,如表2所示:
表2成績集中量分布表
由各類型題目的均分來看,可以得出聽力和單詞拼寫全班得分普遍不高,分析是聽力設(shè)備和題目偏難造成。
2.中位數(shù)
中位數(shù)是位于按一定順序排列的一組數(shù)據(jù)中央位置的數(shù)值,各有一半頻數(shù)分布在中位數(shù)的上下。也就是說,中位數(shù)是把按順序排列的數(shù)據(jù)一分為二的數(shù)值,它也是集中量的一個(gè)指標(biāo)。通過SPSS 23軟件計(jì)算,結(jié)果如表2,所以可以得出結(jié)論,學(xué)生成績的中間力量是高于平均分的。
3.眾數(shù)
眾數(shù)是一組數(shù)值中頻數(shù)最高的數(shù)值,計(jì)算簡便,簡單易懂,同時(shí)不受兩端極端數(shù)值的影響,然而它卻不具備集中量的基本要求: 準(zhǔn)確和穩(wěn)定(鄒申,2011)。這里通過SPPS 23軟件的統(tǒng)計(jì)分析,此次檢測(cè)成績眾數(shù)不止一個(gè),從低到高依次是91分,102.5分,106分以及108分,眾數(shù)數(shù)據(jù)和算數(shù)平均數(shù)、中位數(shù)三者一起能粗略地判斷頻數(shù)分布,這一點(diǎn)是眾數(shù)的有利之處。
上面講述了集中量來描述一組分?jǐn)?shù),然而僅僅采用集中量還無法全面地反映分?jǐn)?shù)全貌,因?yàn)槠渲荒苊枋龇謹(jǐn)?shù)的平均水平或者可以稱之為典型趨勢(shì),無法反映分?jǐn)?shù)之間存在的差異和分別。故將從全距、標(biāo)準(zhǔn)差及差異系數(shù)來分析成績的差異量。
1.全距
全距是一組分?jǐn)?shù)中最高分與最低分之差。其特點(diǎn)是概念清楚,計(jì)算簡便。本次考試,總分最高分為133分,最低分為38.5分通過計(jì)算,本次期中測(cè)試全距為94.5,可以看出離散度較大。但是,由于全距作為差異量容易受極端數(shù)據(jù)的影響,這里筆者所作結(jié)論比較表面。
2.標(biāo)準(zhǔn)差
標(biāo)準(zhǔn)差主要顯示一組分?jǐn)?shù)距離平均分的程度,它可以表明所有分?jǐn)?shù)的分布情況,因此在體現(xiàn)分布情況時(shí),與全距相比,它能夠更詳細(xì)地描述一組分?jǐn)?shù)的差異特征。計(jì)算標(biāo)準(zhǔn)差的公式為:SD=√((Σd^2)/N),d=離差,∑=總和,N=總頻數(shù),這套試卷的標(biāo)準(zhǔn)差是23.5067。
3.差異系數(shù)
一套試卷設(shè)計(jì)好并付諸實(shí)踐之后,怎樣才能知道這份試卷的質(zhì)量呢?這就需要對(duì)試卷的質(zhì)量進(jìn)行評(píng)估和檢驗(yàn),一般要從四個(gè)維度來看,即效度、信度、難易度和區(qū)分度。(劉潤清,韓寶成,1999)[4]
效度作為衡量測(cè)試的有效程度的標(biāo)尺,是進(jìn)行測(cè)試報(bào)告和反饋時(shí)必然要進(jìn)行衡量的一個(gè)維度。這里筆者采用軟件側(cè)重對(duì)校標(biāo)效度的測(cè)量,效標(biāo)效度是指測(cè)驗(yàn)結(jié)果與效標(biāo)之間的一致性程度,利用積差相關(guān)法( Pearson 法) 求效標(biāo)效度。具體操作為,在 SPSS23.0中單擊分析相關(guān)( C)雙變量( B),選擇總分和平時(shí)成績字段進(jìn)入表達(dá)式,然后在相關(guān)系數(shù)中單擊皮爾遜( N)得到結(jié)果。分析效標(biāo)關(guān)聯(lián)效度的通常作法是對(duì)試卷測(cè)量結(jié)果與有效標(biāo)準(zhǔn)進(jìn)行相關(guān)分析,相關(guān)系數(shù)越大表示試卷的效標(biāo)關(guān)聯(lián)效度越好, 一般認(rèn)為相關(guān)系數(shù)在0.4~0.8比較理想。通常情況下通過以下取值范圍判斷變量的相關(guān)強(qiáng)度: 相關(guān)系數(shù)0.8~1.0表示極強(qiáng)相關(guān),0.6~0.8表示強(qiáng)相關(guān),0.4~0.6表示中等程度相關(guān),而0.2~0.4表示弱相關(guān),至于0~0.2則顯示出極弱相關(guān)或無相關(guān)(表3所示)。[5]
表3 效度相關(guān)性表
根據(jù)SPSS 23軟件分析結(jié)果顯示,本次校標(biāo)效度是0.912,具有較強(qiáng)的相關(guān)性,換言之,效度較高。
信度表達(dá)的是測(cè)試結(jié)果的可靠性、穩(wěn)定性與一致性。信度越高表示該測(cè)試的可靠性越高,測(cè)試的結(jié)果越穩(wěn)定,被測(cè)試者在不同時(shí)間的測(cè)試成績?cè)节呌谝恢?楊端和,2004)。在SPSS 中單擊 分析→標(biāo)度(A)→可靠性分析(R),屆時(shí)選擇 Alpha 模型。通過信度分析可知,本次考試信度系數(shù)0.838,如表4所示。
表4信度表
0.60一般被認(rèn)為是信度的臨界值。若低于0.60,該測(cè)試就沒有實(shí)際應(yīng)用價(jià)值,本次考試數(shù)據(jù)顯示,具有較好的可靠性。
難度是衡量試題與試卷難易程度的指標(biāo),以難度系數(shù)( 記為 P) 來衡量。一般情況下,試題的難度系數(shù)即為該試題的平均得分率,答對(duì)的人數(shù)越多,平均得分率越高,P 值越大,難度越低; 答對(duì)的人數(shù)越少,平均得分率越低,P 值越小難度越高??梢姡y度實(shí)際上表示的是一種易度,與試題的實(shí)際困難程度剛好相反(鄒申,2011)。通常用下面公式求試題各題型的難度系數(shù): P = X/W( 其中 P 為難度值,X 為全體學(xué)生該題實(shí)得均值,W 為該題滿分值) 。結(jié)果如表5所示:
表5 難易度表
難度是指測(cè)驗(yàn)項(xiàng)目的難易程度。在教育測(cè)量中,一般是以能夠正確回答試題的人數(shù)與參加測(cè)驗(yàn)的總?cè)藬?shù)之比,作為難度指標(biāo)。難度是測(cè)驗(yàn)中項(xiàng)目分析的重要內(nèi)容,測(cè)驗(yàn)項(xiàng)目的難度對(duì)測(cè)驗(yàn)的信度和效度都產(chǎn)生直接影響(朱德全,2001: 227)。一般難度系數(shù)處于0.5左右范圍的具有較好的難易度,大于0.8太容易,小于0.3太難。難度系數(shù)P 值的分析顯示: 本試卷各題型的難度系數(shù)基本集中在0.5-0.75之間,比較恰當(dāng)合理,值得注意的是,單詞拼寫難易度只有0.29,說明很難,學(xué)生不能全部掌握相關(guān)知識(shí)和應(yīng)用能力。一份試卷應(yīng)該由不同難度的題目按一定比例組成,因此本套試題從難易度來看,具有一定的合理性和科學(xué)性。
區(qū)分度在對(duì)考生的鑒別能力上具有不可替代的測(cè)量作用,所以在進(jìn)行區(qū)分度測(cè)量時(shí),常以考試總分作為被測(cè)試對(duì)象的實(shí)際能力水平,而把被測(cè)試對(duì)象在某題上的得分與總分之間的相關(guān)系數(shù)作為該題的區(qū)分度。對(duì)于客觀題在此使用斯皮爾曼( Spearman) 等級(jí)進(jìn)行相關(guān)分析; 對(duì)于主觀題來說,采用皮爾遜( Pearson)等級(jí)進(jìn)行相關(guān)分析。[6]在 SPSS 中單擊分析→相關(guān)(C)→雙變量(B),將客觀題及總分選入變量(V)對(duì)話框,選擇斯皮爾曼(Spearman),將主觀題及總分選入變量對(duì)話框,選擇皮爾遜( Pearson),得區(qū)分度結(jié)果。結(jié)果如表6所示:
單詞拼寫作文總分單詞拼寫作文總分皮爾遜相關(guān)性1.598**.761**顯著性(雙尾).000.000個(gè)案數(shù)525252皮爾遜相關(guān)性.598**1.728**顯著性(雙尾).000.000個(gè)案數(shù)525252皮爾遜相關(guān)性.761**.728**1顯著性(雙尾).000.000個(gè)案數(shù)525252
由客觀題和主觀題區(qū)分表可以看出,各題型區(qū)分度分別為:聽力0.689,單項(xiàng)選擇0.744,完形填空0.911,閱讀理解0.910,單詞拼寫0.761,作文0.728,一般認(rèn)為區(qū)分度最好大于0.3,由此可以得出,各題型區(qū)分度較好。
從數(shù)據(jù)結(jié)果可以總結(jié)出,部分題目的難度過高或很低;難度過低,都不能很好地區(qū)分不同水平的個(gè)體。因而當(dāng)題目的難度為中等時(shí),區(qū)分度是最高的也是最可靠的。
通過運(yùn)用SPSS 23軟件對(duì)初二下學(xué)期期中英語試題的進(jìn)行從離散到聚合以及單項(xiàng)到整體的分析,得出其信度效度比較可靠,總結(jié)來說是一套比較合理的試卷,同時(shí)也希望能給初中英語教師提供科學(xué)的數(shù)據(jù)和參考,以便其在以后的教學(xué)工作中有針對(duì)性的改進(jìn)教學(xué)方法,從而指導(dǎo)學(xué)生更有針對(duì)性地面對(duì)每次考試。
但是,必須清楚的是,由于團(tuán)隊(duì)成員中存在部分在讀應(yīng)屆生,沒有實(shí)際教學(xué)經(jīng)歷,對(duì)于大綱的整體把握以及受試群體缺乏實(shí)際有效的了解;并且,在進(jìn)行部分?jǐn)?shù)據(jù)統(tǒng)計(jì)和分析時(shí),采用單一的SPSS軟件進(jìn)行單維度分析,在合理性和科學(xué)性上稍打折扣。
最后,基于試題編制以及數(shù)據(jù)結(jié)果的分析和報(bào)告,對(duì)于今后的英語教學(xué)和命題提出些許不成熟的建議。
期中考試作為學(xué)期中間階段的評(píng)價(jià)階段和手段,其對(duì)教學(xué)的作用不言而喻。 這種測(cè)試,不僅能夠讓學(xué)生在心理上有階段感、輕松感,而且能使學(xué)生進(jìn)行反思和進(jìn)步。期中考試作為學(xué)期學(xué)習(xí)生活的承上啟下階段,要體現(xiàn)教學(xué)大綱,突出重點(diǎn)項(xiàng)目,在隨堂測(cè)試的基礎(chǔ)上,還要具備一定的綜合性和系統(tǒng)性,設(shè)計(jì)的題目要能引導(dǎo)學(xué)生去對(duì)事實(shí)或者規(guī)則進(jìn)行綜合分析, 從而在更高的水平上認(rèn)識(shí)和掌握期中考試。