亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于SPSS軟件的英語期中試卷統(tǒng)計(jì)與分析

2018-11-15 06:33:28汪鳳

文化學(xué)刊 2018年10期

汪鳳

(安慶師范大學(xué)教育學(xué)院，安徽安慶 246133)

一、測(cè)試與教學(xué)

Davies(1968)曾說“好的測(cè)試就如一個(gè)忠實(shí)的仆人”“the good test is an obedient servant since it follows and apes the teaching.”，這個(gè)比喻形象的說明了測(cè)試最終是服務(wù)于教學(xué)的。[1]語言測(cè)試隨著語言和語言教學(xué)的發(fā)展，現(xiàn)在已經(jīng)成為一門獨(dú)立的學(xué)科進(jìn)行發(fā)展和研究，基于此，也可以說沒有語言教學(xué)也就沒有語言測(cè)試；當(dāng)然，隨著評(píng)價(jià)方式和教育改革的發(fā)展，語言教學(xué)評(píng)價(jià)方式豐富多維，這又從另一方面證明了語言測(cè)試作為評(píng)價(jià)方式的一種促進(jìn)了語言教學(xué)。通過對(duì)學(xué)生語言能力及其運(yùn)用能力的培養(yǎng)和檢測(cè)，并且通過對(duì)學(xué)生的系統(tǒng)抽樣，借以科學(xué)的評(píng)價(jià)和解釋，得出其能力的綜述。語言測(cè)試作為現(xiàn)在基礎(chǔ)教育的常規(guī)評(píng)價(jià)方式，占據(jù)著不可替代的作用。語言測(cè)試本身也經(jīng)歷了三個(gè)階段：命題設(shè)計(jì)、實(shí)施測(cè)試以及考后分析，這三個(gè)階段無一不與語言教學(xué)息息相關(guān)，相互反饋。

(一)命題設(shè)計(jì)與教學(xué)

Alderson在命題設(shè)計(jì)這一概念中說過，命題設(shè)計(jì)包括制定考試內(nèi)容規(guī)范、公布考試大綱、規(guī)定考試內(nèi)容和試卷構(gòu)成及試題形式以及確定計(jì)分體制。[2]這里就涉及了所測(cè)量的語言能力和結(jié)構(gòu)效度，也是語言測(cè)試的理論基礎(chǔ)，更是使分?jǐn)?shù)具有可解釋性的依據(jù)。為此命題之前特制訂了明細(xì)表如表1所示。

完成了考試內(nèi)容規(guī)范，還要設(shè)計(jì)相應(yīng)的試卷，本組成員基于課程標(biāo)準(zhǔn)對(duì)初二學(xué)生的

表1 期中考試明細(xì)表

能力要求以及大綱的標(biāo)準(zhǔn)規(guī)范，緊密聯(lián)系教材，突出重點(diǎn)，突破難點(diǎn)。除此之外，組內(nèi)各成員牢記所命練習(xí)題的適用范圍，以免出現(xiàn)超綱現(xiàn)象，造成學(xué)生對(duì)于測(cè)試產(chǎn)生心理壓力，試卷總共分為四大部分，具體結(jié)構(gòu)和分值可從明細(xì)表中得知。

實(shí)施測(cè)試階段嚴(yán)格按照安慶市第十四中學(xué)的考試規(guī)范和標(biāo)準(zhǔn)進(jìn)行，確保語言測(cè)試項(xiàng)目的科學(xué)性和可檢測(cè)性。

(二)測(cè)試分析與語言教學(xué)

考后詳細(xì)準(zhǔn)確的成績(jī)分析報(bào)告，其中包括了分?jǐn)?shù)的頻數(shù)分布、集中量以及差異量，信度效度難易度區(qū)分度等等，并且盡可能地找出存在的問題因素和方法，以便改進(jìn)教學(xué)，對(duì)正常的英語教學(xué)產(chǎn)生積極的反撥作用。故本次筆者使用IBM SPSS Statistics v23 x64對(duì)試卷各題項(xiàng)、整套試卷做了全面的數(shù)據(jù)分析。希望對(duì)實(shí)驗(yàn)班級(jí)的英語教學(xué)提供科學(xué)的測(cè)試反饋和可靠的教學(xué)根據(jù)。

二、試卷成績(jī)分析

通過對(duì)成績(jī)的具體分析，我們能夠得到量化的信息反饋，這對(duì)進(jìn)一步完善教學(xué)，提高考試質(zhì)量等都大有裨益。(鄒申，2011)[3]

(一)分?jǐn)?shù)的頻數(shù)分布

頻數(shù)分布是整理雜亂無序的數(shù)據(jù)的重要手段，是分析考試成績(jī)時(shí)做的第一項(xiàng)工作。下面我將列舉本次期中考試一個(gè)班級(jí)52名初二學(xué)生的成績(jī)頻數(shù)分布(圖1所示)：

圖1 成績(jī)頻率分布圖

由圖1的頻率分布圖以及直方圖可見，100分-110分區(qū)間人數(shù)分布最多，人數(shù)基本集中在75分—125分區(qū)間中。根據(jù)偏態(tài)分布的解釋，偏態(tài)分布指頻數(shù)分布的高峰位于一側(cè)，尾部向另一側(cè)延伸的分布。它分為正偏態(tài)分布和負(fù)偏態(tài)分布，由直方圖可以判斷，此次成績(jī)總分呈負(fù)偏態(tài)分布，由此就可以說明此次測(cè)驗(yàn)難度較小，群體測(cè)驗(yàn)的成績(jī)多為高分，也說明師生雙方積極努力，大多數(shù)學(xué)生掌握了教學(xué)大綱的基本內(nèi)容。

分?jǐn)?shù)經(jīng)過歸組整理和列表，其分布面貌和特征已經(jīng)基本反應(yīng)出來了，然而為了得到更確切的數(shù)據(jù)，還需要進(jìn)一步的分析研究，下面將從算數(shù)平均數(shù)、中位數(shù)以及眾數(shù)三個(gè)維度來展開闡述。

1.算數(shù)平均數(shù)

算數(shù)平均數(shù)的公式是：M=Σ X/ N，M=平均分，X=分?jǐn)?shù)，∑=總和，N=人數(shù)，當(dāng)然通過 IBM SPSS Statistics v23 x64軟件，快速準(zhǔn)確的計(jì)算出平均分為97.26分，算數(shù)平均分是最有效、簡(jiǎn)捷的集中量。這里通過SPSS 23繼續(xù)生成了各題型的平均分，如表2所示：

表2成績(jī)集中量分布表

由各類型題目的均分來看，可以得出聽力和單詞拼寫全班得分普遍不高，分析是聽力設(shè)備和題目偏難造成。

2.中位數(shù)

中位數(shù)是位于按一定順序排列的一組數(shù)據(jù)中央位置的數(shù)值，各有一半頻數(shù)分布在中位數(shù)的上下。也就是說，中位數(shù)是把按順序排列的數(shù)據(jù)一分為二的數(shù)值，它也是集中量的一個(gè)指標(biāo)。通過SPSS 23軟件計(jì)算，結(jié)果如表2，所以可以得出結(jié)論，學(xué)生成績(jī)的中間力量是高于平均分的。

3.眾數(shù)

眾數(shù)是一組數(shù)值中頻數(shù)最高的數(shù)值，計(jì)算簡(jiǎn)便，簡(jiǎn)單易懂，同時(shí)不受兩端極端數(shù)值的影響，然而它卻不具備集中量的基本要求：準(zhǔn)確和穩(wěn)定(鄒申，2011)。這里通過SPPS 23軟件的統(tǒng)計(jì)分析，此次檢測(cè)成績(jī)眾數(shù)不止一個(gè)，從低到高依次是91分，102.5分，106分以及108分，眾數(shù)數(shù)據(jù)和算數(shù)平均數(shù)、中位數(shù)三者一起能粗略地判斷頻數(shù)分布，這一點(diǎn)是眾數(shù)的有利之處。

(二)分?jǐn)?shù)的差異量

上面講述了集中量來描述一組分?jǐn)?shù)，然而僅僅采用集中量還無法全面地反映分?jǐn)?shù)全貌，因?yàn)槠渲荒苊枋龇謹(jǐn)?shù)的平均水平或者可以稱之為典型趨勢(shì)，無法反映分?jǐn)?shù)之間存在的差異和分別。故將從全距、標(biāo)準(zhǔn)差及差異系數(shù)來分析成績(jī)的差異量。

1.全距

全距是一組分?jǐn)?shù)中最高分與最低分之差。其特點(diǎn)是概念清楚，計(jì)算簡(jiǎn)便。本次考試，總分最高分為133分，最低分為38.5分通過計(jì)算，本次期中測(cè)試全距為94.5，可以看出離散度較大。但是，由于全距作為差異量容易受極端數(shù)據(jù)的影響，這里筆者所作結(jié)論比較表面。

2.標(biāo)準(zhǔn)差

標(biāo)準(zhǔn)差主要顯示一組分?jǐn)?shù)距離平均分的程度，它可以表明所有分?jǐn)?shù)的分布情況，因此在體現(xiàn)分布情況時(shí)，與全距相比，它能夠更詳細(xì)地描述一組分?jǐn)?shù)的差異特征。計(jì)算標(biāo)準(zhǔn)差的公式為：SD=√((Σd^2)/N)，d=離差，∑=總和，N=總頻數(shù)，這套試卷的標(biāo)準(zhǔn)差是23.5067。

3.差異系數(shù)

三、試卷質(zhì)量

一套試卷設(shè)計(jì)好并付諸實(shí)踐之后，怎樣才能知道這份試卷的質(zhì)量呢？這就需要對(duì)試卷的質(zhì)量進(jìn)行評(píng)估和檢驗(yàn)，一般要從四個(gè)維度來看，即效度、信度、難易度和區(qū)分度。(劉潤(rùn)清，韓寶成，1999)[4]

(一)效度

效度作為衡量測(cè)試的有效程度的標(biāo)尺，是進(jìn)行測(cè)試報(bào)告和反饋時(shí)必然要進(jìn)行衡量的一個(gè)維度。這里筆者采用軟件側(cè)重對(duì)校標(biāo)效度的測(cè)量，效標(biāo)效度是指測(cè)驗(yàn)結(jié)果與效標(biāo)之間的一致性程度，利用積差相關(guān)法( Pearson 法) 求效標(biāo)效度。具體操作為，在 SPSS23.0中單擊分析相關(guān)( C)雙變量( B)，選擇總分和平時(shí)成績(jī)字段進(jìn)入表達(dá)式，然后在相關(guān)系數(shù)中單擊皮爾遜( N)得到結(jié)果。分析效標(biāo)關(guān)聯(lián)效度的通常作法是對(duì)試卷測(cè)量結(jié)果與有效標(biāo)準(zhǔn)進(jìn)行相關(guān)分析，相關(guān)系數(shù)越大表示試卷的效標(biāo)關(guān)聯(lián)效度越好，一般認(rèn)為相關(guān)系數(shù)在0.4～0.8比較理想。通常情況下通過以下取值范圍判斷變量的相關(guān)強(qiáng)度：相關(guān)系數(shù)0.8～1.0表示極強(qiáng)相關(guān)，0.6～0.8表示強(qiáng)相關(guān)，0.4～0.6表示中等程度相關(guān)，而0.2～0.4表示弱相關(guān)，至于0～0.2則顯示出極弱相關(guān)或無相關(guān)(表3所示)。[5]

表3 效度相關(guān)性表

根據(jù)SPSS 23軟件分析結(jié)果顯示，本次校標(biāo)效度是0.912，具有較強(qiáng)的相關(guān)性，換言之，效度較高。

(二)信度

信度表達(dá)的是測(cè)試結(jié)果的可靠性、穩(wěn)定性與一致性。信度越高表示該測(cè)試的可靠性越高，測(cè)試的結(jié)果越穩(wěn)定，被測(cè)試者在不同時(shí)間的測(cè)試成績(jī)?cè)节呌谝恢?楊端和，2004)。在SPSS 中單擊分析→標(biāo)度(A)→可靠性分析(R)，屆時(shí)選擇 Alpha 模型。通過信度分析可知，本次考試信度系數(shù)0.838，如表4所示。

表4信度表

0.60一般被認(rèn)為是信度的臨界值。若低于0.60，該測(cè)試就沒有實(shí)際應(yīng)用價(jià)值，本次考試數(shù)據(jù)顯示，具有較好的可靠性。

(三)難易度

難度是衡量試題與試卷難易程度的指標(biāo)，以難度系數(shù)( 記為 P) 來衡量。一般情況下，試題的難度系數(shù)即為該試題的平均得分率，答對(duì)的人數(shù)越多，平均得分率越高，P 值越大，難度越低; 答對(duì)的人數(shù)越少，平均得分率越低，P 值越小難度越高。可見，難度實(shí)際上表示的是一種易度，與試題的實(shí)際困難程度剛好相反(鄒申，2011)。通常用下面公式求試題各題型的難度系數(shù): P = X/W( 其中 P 為難度值，X 為全體學(xué)生該題實(shí)得均值，W 為該題滿分值) 。結(jié)果如表5所示：

表5 難易度表

難度是指測(cè)驗(yàn)項(xiàng)目的難易程度。在教育測(cè)量中，一般是以能夠正確回答試題的人數(shù)與參加測(cè)驗(yàn)的總?cè)藬?shù)之比，作為難度指標(biāo)。難度是測(cè)驗(yàn)中項(xiàng)目分析的重要內(nèi)容，測(cè)驗(yàn)項(xiàng)目的難度對(duì)測(cè)驗(yàn)的信度和效度都產(chǎn)生直接影響(朱德全，2001: 227)。一般難度系數(shù)處于0.5左右范圍的具有較好的難易度，大于0.8太容易，小于0.3太難。難度系數(shù)P 值的分析顯示: 本試卷各題型的難度系數(shù)基本集中在0.5-0.75之間，比較恰當(dāng)合理，值得注意的是，單詞拼寫難易度只有0.29，說明很難，學(xué)生不能全部掌握相關(guān)知識(shí)和應(yīng)用能力。一份試卷應(yīng)該由不同難度的題目按一定比例組成，因此本套試題從難易度來看，具有一定的合理性和科學(xué)性。

(四)區(qū)分度

區(qū)分度在對(duì)考生的鑒別能力上具有不可替代的測(cè)量作用，所以在進(jìn)行區(qū)分度測(cè)量時(shí)，常以考試總分作為被測(cè)試對(duì)象的實(shí)際能力水平，而把被測(cè)試對(duì)象在某題上的得分與總分之間的相關(guān)系數(shù)作為該題的區(qū)分度。對(duì)于客觀題在此使用斯皮爾曼( Spearman) 等級(jí)進(jìn)行相關(guān)分析; 對(duì)于主觀題來說，采用皮爾遜( Pearson)等級(jí)進(jìn)行相關(guān)分析。[6]在 SPSS 中單擊分析→相關(guān)(C)→雙變量(B)，將客觀題及總分選入變量(V)對(duì)話框，選擇斯皮爾曼(Spearman)，將主觀題及總分選入變量對(duì)話框，選擇皮爾遜( Pearson)，得區(qū)分度結(jié)果。結(jié)果如表6所示：

單詞拼寫作文總分單詞拼寫作文總分皮爾遜相關(guān)性1.598**.761**顯著性(雙尾).000.000個(gè)案數(shù)525252皮爾遜相關(guān)性.598**1.728**顯著性(雙尾).000.000個(gè)案數(shù)525252皮爾遜相關(guān)性.761**.728**1顯著性(雙尾).000.000個(gè)案數(shù)525252

由客觀題和主觀題區(qū)分表可以看出，各題型區(qū)分度分別為：聽力0.689，單項(xiàng)選擇0.744，完形填空0.911，閱讀理解0.910，單詞拼寫0.761，作文0.728，一般認(rèn)為區(qū)分度最好大于0.3，由此可以得出，各題型區(qū)分度較好。

從數(shù)據(jù)結(jié)果可以總結(jié)出，部分題目的難度過高或很低；難度過低，都不能很好地區(qū)分不同水平的個(gè)體。因而當(dāng)題目的難度為中等時(shí)，區(qū)分度是最高的也是最可靠的。

四、總結(jié)和建議

(一)總結(jié)

通過運(yùn)用SPSS 23軟件對(duì)初二下學(xué)期期中英語試題的進(jìn)行從離散到聚合以及單項(xiàng)到整體的分析，得出其信度效度比較可靠，總結(jié)來說是一套比較合理的試卷，同時(shí)也希望能給初中英語教師提供科學(xué)的數(shù)據(jù)和參考，以便其在以后的教學(xué)工作中有針對(duì)性的改進(jìn)教學(xué)方法，從而指導(dǎo)學(xué)生更有針對(duì)性地面對(duì)每次考試。

但是，必須清楚的是，由于團(tuán)隊(duì)成員中存在部分在讀應(yīng)屆生，沒有實(shí)際教學(xué)經(jīng)歷，對(duì)于大綱的整體把握以及受試群體缺乏實(shí)際有效的了解；并且，在進(jìn)行部分?jǐn)?shù)據(jù)統(tǒng)計(jì)和分析時(shí)，采用單一的SPSS軟件進(jìn)行單維度分析，在合理性和科學(xué)性上稍打折扣。

最后，基于試題編制以及數(shù)據(jù)結(jié)果的分析和報(bào)告，對(duì)于今后的英語教學(xué)和命題提出些許不成熟的建議。

(二)建議

期中考試作為學(xué)期中間階段的評(píng)價(jià)階段和手段，其對(duì)教學(xué)的作用不言而喻。這種測(cè)試，不僅能夠讓學(xué)生在心理上有階段感、輕松感，而且能使學(xué)生進(jìn)行反思和進(jìn)步。期中考試作為學(xué)期學(xué)習(xí)生活的承上啟下階段，要體現(xiàn)教學(xué)大綱，突出重點(diǎn)項(xiàng)目，在隨堂測(cè)試的基礎(chǔ)上，還要具備一定的綜合性和系統(tǒng)性，設(shè)計(jì)的題目要能引導(dǎo)學(xué)生去對(duì)事實(shí)或者規(guī)則進(jìn)行綜合分析，從而在更高的水平上認(rèn)識(shí)和掌握期中考試。