秦鈺娟
(西南大學(xué),重慶 400715)
通過對(duì)葡萄牙兩所學(xué)校的學(xué)生數(shù)學(xué)成績(jī)分析,了解可能影響學(xué)生成績(jī)的因素并建立模型,試圖為預(yù)測(cè)其他具有相似背景學(xué)生的成績(jī)提供依據(jù)。
隨著社會(huì)競(jìng)爭(zhēng)增大,對(duì)學(xué)生來說成績(jī)愈發(fā)重要,有大量的文章研究過影響學(xué)生成績(jī)的因素,主觀幸福感對(duì)學(xué)生數(shù)學(xué)成績(jī)有積極的影響作用,性格特征對(duì)學(xué)生不同學(xué)科有不同影響,除了這些主觀心理因素,生源省份,任課教師,所在學(xué)院等客觀因素對(duì)學(xué)生成績(jī)也有影響。本文探討的指標(biāo)更客觀也更容易推廣。
本論文使用的數(shù)據(jù)是由葡萄牙米尼奧大學(xué)的Paulo Cortez 和Alice Silva收集的。表格包含395名葡萄牙中學(xué)生的數(shù)學(xué)成績(jī)以及可能影響學(xué)生成績(jī)的30個(gè)指標(biāo)。
該數(shù)據(jù)利用學(xué)校報(bào)告和問卷調(diào)查收集了兩所葡萄牙中學(xué)學(xué)生各方面信息,變量都被整理成為有兩個(gè)或五個(gè)分類的的數(shù)字,如表1。
該文采用方差分析模型。為簡(jiǎn)明闡述模型,假設(shè)自變量有母親教育程度,學(xué)校,更高的教育,戀愛與否。其相應(yīng)的數(shù)學(xué)模型為:
其中母親教育水平的5個(gè)程度依次為0,1,2,3,4,以教育水平為4為基準(zhǔn)。其他變量以此類推。
方差分析模型的整體顯著性,統(tǒng)計(jì)學(xué)上用以下的方法檢驗(yàn)該假設(shè)??紤]兩個(gè)不同的模型:
模型A:G3=母親教育程度+學(xué)校+更高的教育+戀愛與否+隨機(jī)擾動(dòng)
模型B:G3=學(xué)校+更高的教育+戀愛與否+隨機(jī)擾動(dòng)
這兩個(gè)模型所產(chǎn)生的殘差平方和分別記為RSS和RSS,構(gòu)造如下F-統(tǒng)計(jì)量:
在原假設(shè)成立的條件下,該F統(tǒng)計(jì)量服從一個(gè)自由度為(df,n-p-1)的F分布。若拒絕原假設(shè),則母親教育程度這個(gè)因素是重要的。類似可檢驗(yàn)其他因素的顯著性。
隨機(jī)選取數(shù)據(jù)的80%建立學(xué)生第三學(xué)年數(shù)學(xué)成績(jī)G3關(guān)于各個(gè)因素的回歸模型。方差分析結(jié)果表明學(xué)校,性別等一些因素不顯著(假設(shè)5%的顯著水平),將其剔除后再做方差回歸分析結(jié)果如表2。
精密量取供試品溶液1 mL,置于100 mL量瓶中,用溶劑稀釋至刻度,搖勻,精密量取5 mL稀釋液置于100 mL量瓶中,用溶劑稀釋至刻度,搖勻,作為靈敏度溶液。
模型的F檢驗(yàn)拒絕原假設(shè),說明建立的模型是顯著的;調(diào)整判決系數(shù)為0.15,因?yàn)樗械淖兞恐心苤苯佑绊慓3的很少,但這同時(shí)也是我們能將這個(gè)模型應(yīng)用到每個(gè)學(xué)生的原因,如果有可以很直接影響G3的變量,可能模型的判決系數(shù)會(huì)很高,可這同時(shí)也影響了模型的推廣。
表1 數(shù)據(jù)介紹
接下來我們形依次分析各個(gè)通過模型檢驗(yàn)的變量對(duì)G3的影響。
家庭地址在城市和鄉(xiāng)村的學(xué)生分別有307人和88人,城市學(xué)生成績(jī)明顯高于農(nóng)村。
母親教育程度為0的學(xué)生成績(jī)反而要好,這是因?yàn)樵摲诸愊聦W(xué)生只有3人,樣本數(shù)量太少不具代表性。隨著母親教育程度的提高,學(xué)生的成績(jī)有些許上升的趨勢(shì)。
每周學(xué)習(xí)時(shí)間小于2小時(shí)和2-5小時(shí)的學(xué)生分別有105人和198人,占總?cè)藬?shù)的78%。隨著學(xué)習(xí)時(shí)間的增加,學(xué)生成績(jī)有上升的幅度。
學(xué)生掛科數(shù)目為0,1,2,3的人數(shù)分別為312,50,17和16。隨著掛科次數(shù)的增加,學(xué)生成績(jī)明顯呈下降趨勢(shì)。
隨著學(xué)生外出時(shí)間由非常少到非常多,學(xué)生成績(jī)有先上升后下降的趨勢(shì)。
學(xué)生年齡從15到22歲人數(shù)依次為82,104,98,82,24,3,1,1。排除樣本量小的分類,在前四個(gè)年齡中學(xué)生成績(jī)隨年齡增加稍有下滑。
選取剩下20%數(shù)據(jù)應(yīng)用到模型中并采用相對(duì)預(yù)測(cè)誤差預(yù)測(cè)和檢驗(yàn)?zāi)P汀<?/p>
表2 對(duì)訓(xùn)練集的第二次方差分析
但是學(xué)生成績(jī)預(yù)測(cè)出來有可能為0,因此在分母上加上0.1。用R求得該相對(duì)誤差大約為33%。
由我們建立的統(tǒng)計(jì)模型可以得出以下結(jié)論:在控制其他因素不變時(shí),可以得到如下結(jié)論:
(1)年齡的增加會(huì)帶來數(shù)學(xué)成績(jī)的增加,平均年齡增加一歲,數(shù)學(xué)成績(jī)?cè)黾?.04分;
(2)位于城市的學(xué)生的數(shù)學(xué)成績(jī)比農(nóng)村的平均高出0.77分;
(3)隨著母親教育程度的增加,學(xué)生的數(shù)學(xué)成績(jī)呈上升趨勢(shì)。這與家庭環(huán)境影響學(xué)生學(xué)習(xí)成績(jī)調(diào)查研究結(jié)論一致,母親受教育程度是家庭環(huán)境的一部分;
(4)學(xué)生成績(jī)隨著學(xué)習(xí)時(shí)間的增加而增加;
(5)隨著掛科次數(shù)的增多,學(xué)生成績(jī)呈下降趨勢(shì);
(6)不談戀愛的學(xué)生比談戀愛的平均成績(jī)高出1.3分;
(7)適度的外出可以增加學(xué)生的成績(jī)。
這篇文章探究了學(xué)生的數(shù)學(xué)成績(jī)同學(xué)生自身的一些指標(biāo)的關(guān)系。模型的判決系數(shù)為15%,相對(duì)預(yù)測(cè)誤差為0.33。雖然模型的判決系數(shù)并非十分理想,但是鑒于實(shí)際情況如:樣本量的大小、某些重要的決定性變量未收集等條件等的限制,依舊選擇接受該結(jié)果。在未來后續(xù)的研究中可以從如下方面進(jìn)行改進(jìn):第一,收集一些直接決定學(xué)生成績(jī)的因素如:學(xué)生的智商水平,學(xué)生自身對(duì)課程的喜愛程度等。第二,增大樣本量收集更多的學(xué)生成績(jī)樣本。