楊 超
(遼寧民族師范高等專科學(xué)校 民族文化與職業(yè)教育系,遼寧 沈陽 110032)
學(xué)生成績作為檢驗(yàn)教師教學(xué)效果的產(chǎn)物,直接反映學(xué)生對知識的掌握情況及教師的教學(xué)水平.近些年,有關(guān)教學(xué)的探索更多關(guān)注于新的教學(xué)手段,針對教學(xué)效果的分析,尤其是有關(guān)分析方法的研究較少.隨著人工智能和大數(shù)據(jù)時代的到來,為教師利用數(shù)據(jù)統(tǒng)計分析手段,從大量的學(xué)生成績中提取重要數(shù)據(jù),發(fā)現(xiàn)成績中隱藏的問題,提高學(xué)生成績,提供了新的思路.本文中嘗試引入R語言對學(xué)生成績進(jìn)行統(tǒng)計分析[1-3],為教學(xué)人員探索新的統(tǒng)計方法提供參考.
數(shù)據(jù)分析是指采用合適方法對從海量數(shù)據(jù)中收集的大量數(shù)據(jù)進(jìn)行分析、整理、歸納,抽取有價值的信息的過程.R語言作為一種強(qiáng)大的編程語言,不僅可提供大量多樣的數(shù)據(jù)統(tǒng)計分析方式,還可生成圖例,其主要特點(diǎn)有:
(1)開源免費(fèi)的軟件可從官網(wǎng)下載,安裝簡單快捷,而且其強(qiáng)大的R語言包均可根據(jù)需要從網(wǎng)上下載,支持多操作系統(tǒng)環(huán)境;
(2)具有強(qiáng)大可自定義樣式的繪圖功能,可利用函數(shù)將統(tǒng)計分析的計算數(shù)據(jù)生成想要的圖,并根據(jù)修改函數(shù)中的參數(shù),自定義圖樣式;
(3)操作流程簡單,無需編寫大量代碼,用戶只要了解所需函數(shù)的參數(shù)意義,即可生成對應(yīng)圖例.
數(shù)據(jù)源是R語言進(jìn)行統(tǒng)計分析的核心資源.考慮到大學(xué)課程成績存在一定主觀性,相比之下小學(xué)期末考試更嚴(yán)格、更真實(shí),成績趨于客觀,因此本研究選擇沈陽市某小學(xué)四年級期末考試成績作為數(shù)據(jù)源進(jìn)行統(tǒng)計分析.
根據(jù)教學(xué)人員的需要,從眾多列成績中選取主要數(shù)據(jù)信息,包括序號(num)、姓名(name)、班級(class)、數(shù)學(xué)(math)、語文(chn)、英語(eng),將收集的數(shù)據(jù)存為.xls文件或.csv文件.收集數(shù)據(jù)時,出現(xiàn)的缺失值可刪除或按空缺值等方式處理.
R語言支持.xls、.csv和.txt等多種文件類型導(dǎo)入.導(dǎo)入文件前需要加載對應(yīng)的R語言包,編寫代碼時需將導(dǎo)入文件賦值給變量,導(dǎo)入的變量類型以數(shù)據(jù)框形式存在.本文以導(dǎo)入.xls文件為例,利用R語言read_excel()函數(shù)實(shí)現(xiàn)導(dǎo)入代碼如下:
library(read_excel)
scores<- read_excel(scoresdata.xlsx)
導(dǎo)入后查看數(shù)據(jù),見圖1.
數(shù)據(jù)共105行,查看變量內(nèi)容時R語言僅顯示10行,隱藏95行.每列除顯示導(dǎo)入數(shù)據(jù)時填寫的列名外,還顯示屬性類型,其中name為字符型,其余均為數(shù)據(jù)框.
讀入數(shù)據(jù)后,需對有用數(shù)據(jù)進(jìn)行提取運(yùn)算.例如,在統(tǒng)計分析成績時,姓名、序號、班級等屬性不應(yīng)參加統(tǒng)計分析,但無這些屬性就無法進(jìn)行歸類統(tǒng)計分析,在眾多數(shù)據(jù)中提取所要數(shù)據(jù),可應(yīng)用R語言中c()函數(shù)將所需數(shù)據(jù)連接在一起,通過如下代碼提取數(shù)據(jù):
> scores.data <- scores[c(4:6)]
> scores.data
“scores[c(4:6)]”表示提取scores變量中4~6列的數(shù)據(jù)賦值給變量scores.data.
學(xué)生成績是反映教學(xué)成果的客觀數(shù)據(jù).目前,大多數(shù)學(xué)校采取Excel錄入、匯總、計算的方式管理與分析學(xué)生成績,雖能計算出需要的最終數(shù)據(jù),但是缺乏對成績的客觀分析與直觀反映.針對這一問題,本文提出了基于R語言的統(tǒng)計分析方法以提高教學(xué)效果[4-6].
3.1.1 統(tǒng)計成績信息
傳統(tǒng)數(shù)據(jù)計算一般通過Excel表格分列對各科進(jìn)行求和、求平均值、求最大值和最小值的分類計算,工作略顯繁瑣.這里以沈陽某小學(xué)四年級成績?yōu)槔瑢?3名學(xué)生成績導(dǎo)入R語言環(huán)境中,導(dǎo)入的數(shù)據(jù)變量以數(shù)據(jù)框的形式存在.R語言可通過summary()函數(shù)完成各科成績的初步計算,實(shí)現(xiàn)代碼如下:
summary(scores[c(4:6)])
生成的計算數(shù)據(jù)見圖2.
通過生成數(shù)據(jù)可直觀看到,在整個四年級數(shù)學(xué)、語文和英語三科考試成績中,除最大值、最小值和平均值外,還計算出科目成績的中間值(Median)、1/4位數(shù)(1st Qu.)和3/4位數(shù)(3st Qu.),為分析、了解學(xué)生整體情況提供了便捷的數(shù)據(jù)計算服務(wù),提高了教學(xué)決策的準(zhǔn)確性.
3.1.2 繪制成績箱形圖
為更加直觀地向決策者提供數(shù)據(jù)依據(jù),R語言boxplot()函數(shù)可根據(jù)導(dǎo)入的成績數(shù)據(jù)生成箱形圖,即根據(jù)數(shù)據(jù)的分布情況生成統(tǒng)計圖.上述通過summary()函數(shù)計算出各科成績的重要屬性值,生成的箱形圖如圖3所示,實(shí)現(xiàn)運(yùn)行代碼如下:
boxplot(math~ class, data=scores)
boxplot(chn ~ class, data=scores)
boxplot(eng~ class, data=scores)
箱形圖將計算得到的描述性統(tǒng)計量進(jìn)行更直觀地展示.圖3中分別顯示各班級數(shù)學(xué)、語文、英語成績與班級的信息:長方形外部的上下兩條橫線分別表示該班級的最高分和最低分,長方形的上下邊框分別表示該班級成績的1/4位數(shù)(1st Qu.)和3/4位數(shù)(3st Qu.),長方形內(nèi)部黑橫線表示該班級成績的中間數(shù),圖形中的空心白圓點(diǎn)表示異常數(shù)據(jù).除箱形圖規(guī)定的線形和圖形含義外,還可從圖形中看到隱藏的信息,例如長方形的面積大小決定該班級本科目成績是否在某成績段集中,如果面積過大表示成績涉及范圍較大.
3.1.3 繪制成績直方圖
R語言的強(qiáng)大不僅體現(xiàn)在便捷的數(shù)據(jù)計算,還體現(xiàn)在可依據(jù)頻數(shù)生成可視的直方圖[7].根據(jù)導(dǎo)入的數(shù)學(xué)、語文和英語成績,利用R語言的hist()函數(shù)、lines()函數(shù)和rug()函數(shù)生成整體成績直方圖,如圖4所示,運(yùn)行代碼如下:
hist(math, freq=FALSE)
lines(density(math), col='blue')
rug(jitter(math))
通過成績直方圖可直觀看出,橫坐標(biāo)為成績段,縱坐標(biāo)為密度,各科成績圖形及密度曲線由分?jǐn)?shù)段人數(shù)決定.數(shù)學(xué)成績除個別學(xué)生,大部分均已及格,并且在及格人數(shù)中很多學(xué)生的成績集中在85分以上,90分以上偏多;語文成績雖呈正態(tài)分布趨勢,但是存在一些成績不及格的學(xué)生,大部分學(xué)生在65~90分之間,80分以上偏多;英語成績分布呈現(xiàn)兩極化,成績不及格和90分以上的均偏多,60~80分之間學(xué)生較少.
成績是檢驗(yàn)教學(xué)成果的重要指標(biāo).有效利用技術(shù)手段從大量的成績中發(fā)現(xiàn)科目之間的關(guān)聯(lián),挖掘隱藏信息,是提升成績、提高教學(xué)效果的重要方式.利用R語言cor()函數(shù),可從導(dǎo)入的數(shù)據(jù)中發(fā)現(xiàn)科目之間的相關(guān)性,為決策者提供分析依據(jù).運(yùn)行代碼如下:
cor(scores[,subjects])
生成的相關(guān)性數(shù)據(jù)見圖5.
通常認(rèn)為,數(shù)學(xué)成績好的小學(xué)生語文和英語的成績都不會很差.通過R語言各科成績的相關(guān)性分析看出,數(shù)學(xué)與語文、數(shù)學(xué)與英語的相關(guān)系數(shù)均超過了0.6,根據(jù)統(tǒng)計學(xué)的規(guī)定,相關(guān)系數(shù)區(qū)域0.6~0.8屬于有很強(qiáng)的相關(guān)性,說明在該年級中數(shù)學(xué)學(xué)得好的學(xué)生,其數(shù)學(xué)成績與語文成績、英語成績存在一定的相關(guān)性.通過R語言生成的成績相關(guān)性如圖6所示,運(yùn)行代碼如下:
pairs(scores[,subjects])
利用starts()函數(shù)可根據(jù)學(xué)生的成績生成星圖,教學(xué)人員通過星圖可直觀了解學(xué)生是否偏科、是否優(yōu)秀.本文中生成的星圖如圖7所示,運(yùn)行代碼如下:
stars(scores)
星圖一般表示多個相互獨(dú)立的變量個體,每個連接角與中心點(diǎn)的軸線越長,數(shù)值就越大,生成的星圖就越大,各科成績分別對著數(shù)據(jù)的維度.圖7中,第一排第二個學(xué)生、第二排第二個學(xué)生,以及第八排第二個到第七個學(xué)生,這些學(xué)生成績相對優(yōu)異;第三排第五個和最后一排第一個學(xué)生存在偏科問題.
R語言是對數(shù)據(jù)進(jìn)行統(tǒng)計分析的技術(shù)手段,從文中小學(xué)四年級成績統(tǒng)計分析結(jié)果來看,軟件的應(yīng)用既可滿足教學(xué)人員對數(shù)據(jù)的計算需求,也可生成直觀視圖為教學(xué)人員提供參考依據(jù),同時所生成的視圖還顯示了數(shù)據(jù)中的隱藏信息.從應(yīng)用與實(shí)際需求的角度來看,采用R語言統(tǒng)計分析學(xué)生成績的應(yīng)用策略可行,對教學(xué)未來發(fā)展方向起到一定指導(dǎo)作用.