欒若星
摘 要:考試成績(jī)反映出學(xué)生一定的能力,對(duì)學(xué)習(xí)過(guò)程和課程教學(xué)給出有價(jià)值的意義反饋,并且作為評(píng)估試題質(zhì)量的數(shù)據(jù)依據(jù)對(duì)制定更加完善的考試方案具有參考價(jià)值。因此,提出基于R語(yǔ)言的成績(jī)分析方法,使用R的基本統(tǒng)計(jì)量計(jì)算和顯示數(shù)據(jù)分布的繪圖函數(shù),實(shí)現(xiàn)成績(jī)統(tǒng)計(jì)性分析和試題質(zhì)量評(píng)估;使用R的arules添加包執(zhí)行Apriori算法實(shí)現(xiàn)關(guān)聯(lián)規(guī)則挖掘,發(fā)現(xiàn)成績(jī)中隱含的有價(jià)值信息。以C語(yǔ)言程序設(shè)計(jì)課程期末考試成績(jī)作為數(shù)據(jù)樣本,分析了學(xué)生整體成績(jī)水平和差異、試題的難度、信度、區(qū)分度和效度以及影響學(xué)生成績(jī)的主要因素。
關(guān)鍵詞:R語(yǔ)言; 考試成績(jī); 試題質(zhì)量; 關(guān)聯(lián)規(guī)則
Abstract: Examination results should reveal students' real academic level and give valid feedback to students and teachers, for helping them improve learning abilities and teaching quality. The quality analysis of examination paper can offer meaningful reference for making more consummated exam plan. Based on the above considerations, the paper puts forward a method of examination results analysis, using R basic statistics and plotting functions to perform statistical analysis, and using Apriori algorithm from arulets package to excavate association rules for searching valuable information which is hidden in papers. Taking final exam scores of "C language programming" course as example, the paper gives analysis results of students' overall level and differences, makes a quantitative evaluation on difficulty、credibility、discrimination and validity, and finds the key factors influencing student achievement.
Key words: R language; examination scores; quality analysis of examination paper; association rules
引言
考試是檢驗(yàn)學(xué)習(xí)水平和教學(xué)質(zhì)量的一種手段,而考試成績(jī)從某種意義上反映出學(xué)生的學(xué)習(xí)能力和水平,揭示其學(xué)習(xí)過(guò)程中的薄弱點(diǎn),幫助教師發(fā)現(xiàn)教學(xué)中存在的問(wèn)題,進(jìn)而提升教學(xué)質(zhì)量。因此,對(duì)考試成績(jī)進(jìn)行分析是學(xué)校教學(xué)進(jìn)程中必不可少的環(huán)節(jié)。比較典型的方法是使用Excel、SAS或SPSS等統(tǒng)計(jì)軟件進(jìn)行數(shù)據(jù)分析,這類(lèi)軟件操作簡(jiǎn)單,能夠快速生成統(tǒng)計(jì)結(jié)果,但無(wú)法獲取數(shù)據(jù)隱含的信息。隨著數(shù)據(jù)挖掘成為研究熱點(diǎn),如何將數(shù)據(jù)挖掘技術(shù)應(yīng)用于成績(jī)分析是研究這類(lèi)問(wèn)題的新思路[1-2],可利用基于關(guān)聯(lián)規(guī)則的機(jī)器學(xué)習(xí)算法提取成績(jī)數(shù)據(jù)中有價(jià)值信息[3-4]。
R是一種編程語(yǔ)言,也是用于數(shù)據(jù)統(tǒng)計(jì)分析和繪圖的自由軟件環(huán)境[5],其強(qiáng)大的功能在于自身所擁有的統(tǒng)計(jì)分析、機(jī)器學(xué)習(xí)、生物信息學(xué)、繪圖等多種功能包。基于R語(yǔ)言對(duì)考試成績(jī)進(jìn)行分析,主要使用R的基本統(tǒng)計(jì)量函數(shù)獲取成績(jī)統(tǒng)計(jì)數(shù)據(jù)和試卷質(zhì)量的各項(xiàng)指標(biāo);使用R的arules添加包實(shí)現(xiàn)Apriori算法[6],挖掘成績(jī)數(shù)據(jù)中的規(guī)則和模式。
1 數(shù)據(jù)處理
1.1 數(shù)據(jù)選取
以2017-2018學(xué)年第一學(xué)期“C語(yǔ)言程序設(shè)計(jì)”課程的期末考試成績(jī)作為樣本,總記錄數(shù)為891條。成績(jī)單為xls文件,從中選取所需的數(shù)據(jù)列 (包括學(xué)號(hào)(num)、程序設(shè)計(jì)題得分(program)、程序改錯(cuò)題得分(error)、程序填空題得分(fill)、總分(score) ),存儲(chǔ)為csv文件(scores.csv)。如果有缺失值,可以采用人工填寫(xiě)空缺值或忽略元組等方式處理。
1.2 數(shù)據(jù)讀入
使用R處理數(shù)據(jù)之前,需要將外部數(shù)據(jù)文件讀入數(shù)據(jù)框。數(shù)據(jù)框通過(guò)類(lèi)似于Excel表格形式整理要處理的數(shù)據(jù),各列中保存觀測(cè)值的名稱(chēng),各行中保存實(shí)際的觀測(cè)值。成績(jī)單完全可以使用數(shù)據(jù)框進(jìn)行保存。R的read.csv()函數(shù)可以將csv文件讀入數(shù)據(jù)框,代碼如下:
> (score<-read.csv (“scores.csv”) )
部分輸出結(jié)果如下:
num program [KG-*2]error fill score
1 170101001 20.0 34.6 38.0 92.6
2 170101002 20.0 40.0 40.0 100.0
3 170101003 16.6 29.3 27.3 73.2
4 170101004 15.8 32.0 33.3 81.1
5 170101005 20.0 37.3 40.0 97.3
6 170101006 12.4 24.0 30.6 67.0
2 成績(jī)統(tǒng)計(jì)性分析
2.1 統(tǒng)計(jì)量計(jì)算
使用R的基本統(tǒng)計(jì)量函數(shù)計(jì)算各題型和總分的平均值、方差及標(biāo)準(zhǔn)差(見(jiàn)表1)。平均分反映成績(jī)的整體水平;標(biāo)準(zhǔn)差反映全部分?jǐn)?shù)的離散情況,標(biāo)準(zhǔn)差越大,差異越大。
2.2 成績(jī)分布趨勢(shì)
直方圖(histogram)可以反映每個(gè)值范圍出現(xiàn)的頻率,是了解數(shù)據(jù)分布的一種常用圖形[4]。使用R的hist()函數(shù)繪制直方圖,其分布特征可以反映試題的難度水平,對(duì)試題質(zhì)量分析具有一定的參考價(jià)值。由于繪制直方圖時(shí),根據(jù)所選條形寬度的不同,繪出的形狀可能完全不同。采用密度圖能夠解決這一問(wèn)題,使用R的density()函數(shù)繪制核密度圖,將直方圖與密度圖結(jié)合使用。
5 結(jié)束語(yǔ)
基于R語(yǔ)言對(duì)考試成績(jī)的統(tǒng)計(jì)分析、關(guān)聯(lián)規(guī)則挖掘,以及對(duì)試題質(zhì)量的評(píng)估,充分發(fā)揮了R在數(shù)據(jù)統(tǒng)計(jì)與機(jī)器學(xué)習(xí)上的優(yōu)勢(shì),并利用其繪圖功能實(shí)現(xiàn)了數(shù)據(jù)可視化。使用R語(yǔ)言還可以對(duì)多門(mén)課程成績(jī)進(jìn)行分析,從學(xué)生專(zhuān)業(yè)和教師的角度進(jìn)行教學(xué)效果比較與分析,以及通過(guò)對(duì)機(jī)考組卷進(jìn)行評(píng)估來(lái)完善題庫(kù)建設(shè)。
參考文獻(xiàn)
[1] 李巧君,李偉. 數(shù)據(jù)挖掘技術(shù)在學(xué)生成績(jī)分析中的應(yīng)用研究[J]. 微型電腦應(yīng)用,2015,31(4):35-36,40.
[2] 王海榮. 數(shù)據(jù)挖掘在學(xué)生成績(jī)分析中的應(yīng)用[J]. 電子設(shè)計(jì)工程,2013,21(4):54-56,60.
[3] 顧輝,楊青,蔣成功,等. 關(guān)聯(lián)規(guī)則在成績(jī)分析中的研究及應(yīng)用[J]. 計(jì)算機(jī)應(yīng)用,2015,35(S1):149-151,198.
[4] 王華,劉萍. 改進(jìn)的關(guān)聯(lián)規(guī)則算法在學(xué)生成績(jī)預(yù)警中的應(yīng)用[J]. 計(jì)算機(jī)工程與設(shè)計(jì),2015,36(3):679-682,752.
[5] 徐珉久. R語(yǔ)言與數(shù)據(jù)分析實(shí)戰(zhàn)[M]. 北京:人民郵電出版社,2017.
[6] Raghav Bali, Dipanjan Sarkar. R語(yǔ)言機(jī)器學(xué)習(xí):實(shí)用案例分析[M]. 北京:機(jī)械工業(yè)出版社,2017.
[7] 李玉桃,宋長(zhǎng)利. 對(duì)考試成績(jī)和試題質(zhì)量的科學(xué)分析與評(píng)價(jià)[J]. 現(xiàn)代教育科學(xué),2006(S2):138-139.
[8] 崔妍,包志強(qiáng). 關(guān)聯(lián)規(guī)則挖掘綜述[J]. 計(jì)算機(jī)應(yīng)用研究,2016,33(2):330-334.
[9] 張啟徽. 關(guān)聯(lián)規(guī)則挖掘中查找頻繁項(xiàng)集的改進(jìn)算法[J]. 統(tǒng)計(jì)與決策,2015(4):32-35.