楊杉
摘要:根據(jù)四川省某高校在校學(xué)生的一卡通數(shù)據(jù)、教務(wù)系統(tǒng)數(shù)據(jù)、圖書(shū)館數(shù)據(jù),將學(xué)生分為理工科類(lèi)、文科類(lèi)、藝術(shù)類(lèi)三個(gè)類(lèi)別,分別對(duì)這三類(lèi)學(xué)生的消費(fèi)、學(xué)習(xí)、晚歸等情況做出了全面的分析,通過(guò)多維數(shù)據(jù)交叉對(duì)比,將數(shù)據(jù)進(jìn)行重組并創(chuàng)新性地應(yīng)用于學(xué)生分類(lèi)培養(yǎng)和教學(xué)管理中,為高校的辦學(xué)質(zhì)量的改進(jìn)和提高提供了有效的數(shù)據(jù)支撐,也為高校進(jìn)行個(gè)性化教育提供了借鑒。
關(guān)鍵詞:大數(shù)據(jù);分類(lèi)培養(yǎng);個(gè)性化教育;數(shù)據(jù)分析;教學(xué)管理
中圖分類(lèi)號(hào):G642 ? ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2020)34-0148-05
Abstract: Based on card data, teaching system data, and library data of students in a college in Sichuan Province, this paper divides students into three categories: science and engineering, liberal and art. The three types of students are consumed and studied respectively. A comprehensive analysis was made on the situation of consumption, study, and late return. Through multi-dimensional data cross-contrast, the data was reorganized and creatively applied to the classification training and management of students, which provided data support for the improvement of the quality of running colleges and universities. In addition, it provides a personalized education reference for college.
Keywords: big data;classified training;personalized education;data analysis;teaching management
1 引言
隨著教育事業(yè)日新月異的發(fā)展,科學(xué)有效地提高高校的教學(xué)質(zhì)量,有針對(duì)性地培養(yǎng)社會(huì)需要的各類(lèi)人才是高校面臨的一大重要問(wèn)題。利用大數(shù)據(jù)技術(shù)[1],通過(guò)全面細(xì)致的數(shù)據(jù)分析和數(shù)據(jù)挖掘,一方面可以幫助高校教師更好地了解學(xué)生的特點(diǎn)及情況,對(duì)學(xué)生實(shí)施行之有效的個(gè)性化教育和培養(yǎng),完善自己的教學(xué)管理方法,提升自己的工作能力[2],另一方面也有利于學(xué)校清晰地了解到當(dāng)前在校學(xué)生的實(shí)際情況和學(xué)校教育管理中存在的問(wèn)題,為學(xué)生創(chuàng)造一個(gè)更優(yōu)越的學(xué)習(xí)環(huán)境,完善學(xué)校的教學(xué)管理制度和教學(xué)管理環(huán)境[3]。
本文以四川省某高校在校學(xué)生2013.01.01~2019.12.31的一卡通數(shù)據(jù)、教務(wù)系統(tǒng)數(shù)據(jù)、圖書(shū)館數(shù)據(jù)為依托,將學(xué)生分為理工科類(lèi)、文科類(lèi)、藝術(shù)類(lèi)三個(gè)類(lèi)別,進(jìn)行了全面的數(shù)據(jù)分析,針對(duì)學(xué)生分類(lèi)培養(yǎng)和管理給出了有價(jià)值的結(jié)論和建議。
2 數(shù)據(jù)準(zhǔn)備
2.1數(shù)據(jù)來(lái)源
數(shù)據(jù)來(lái)源于四川省某高校在校學(xué)生2013.01.01~2019.12.31的一卡通、圖書(shū)館、教務(wù)系統(tǒng)數(shù)據(jù),原始數(shù)據(jù)9000余萬(wàn)條。
2.2數(shù)據(jù)清洗
利用該高校計(jì)算機(jī)學(xué)院云計(jì)算平臺(tái)的HADOOP集群進(jìn)行數(shù)據(jù)清洗,清洗步驟如下:
(1)從學(xué)校教務(wù)處、圖書(shū)館、后勤處等部門(mén)獲得原始數(shù)據(jù)17G,98061839條;
(2)在云平臺(tái)上采用SHELL腳本方案對(duì)數(shù)據(jù)進(jìn)行初步清理,去除本次分析暫不涉及的字段、刪除不合法數(shù)據(jù)、完成特殊數(shù)據(jù)轉(zhuǎn)換;
(3)在HADOOP集群平臺(tái)上,采用MAP/REDUCE技術(shù)[4-6],完成數(shù)據(jù)的拼接、計(jì)數(shù)、邏輯篩選、排序等功能[7-8];
(4)MAP/REDUCE過(guò)程中采用“學(xué)號(hào)+年份”作為KEY,根據(jù)各個(gè)文件的內(nèi)容作為對(duì)應(yīng)的VALUE并增加對(duì)應(yīng)關(guān)鍵字,在REDUCE根據(jù)VALUE的關(guān)鍵字完成數(shù)據(jù)按格式輸出到分布式文件系統(tǒng)HDFS上;
(5)按照數(shù)據(jù)分析組的格式要求將數(shù)據(jù)從分布式文件系統(tǒng)HDFS從下載到本地,最終完成數(shù)據(jù)交互。
3 數(shù)據(jù)分析
3.1理工科類(lèi)學(xué)生的數(shù)據(jù)分析
對(duì)理工科學(xué)生的圖書(shū)館借書(shū)量、平均成績(jī)、年飯卡消費(fèi)額、22點(diǎn)和23點(diǎn)后的晚歸數(shù)據(jù)進(jìn)行了細(xì)致的分類(lèi)分析。
理科類(lèi)學(xué)生年借書(shū)總量平均為6.24本,最低借書(shū)量為0,最高借書(shū)量為22本,超過(guò)8000位學(xué)生借書(shū)量為0,說(shuō)明大部分同學(xué)的借書(shū)量遠(yuǎn)遠(yuǎn)不夠。
理科類(lèi)學(xué)生平均成績(jī)約為73.82分,最低的為0分,最高的為94.1分,學(xué)生年成績(jī)平均分為0的約有250人左右,可能是錯(cuò)誤數(shù)據(jù),也有可能是缺考、作弊等導(dǎo)致;且大多數(shù)學(xué)生年平均成績(jī)主要集中在70~90分之間,77分左右的人數(shù)最多。
理科類(lèi)學(xué)生年均消費(fèi)為2648.59元,最低消費(fèi)為0,最高消費(fèi)為71542元。年飯卡消費(fèi)金額為0的接近3000人,可能是飯卡丟失或不使用飯卡進(jìn)行消費(fèi)等原因;正常情況下,學(xué)生年均飯卡消費(fèi)金額主要集中在1000~5000之間。
理科類(lèi)學(xué)生22點(diǎn)之后晚歸次數(shù)平均為4.99次,最少晚歸次數(shù)為0,最多晚歸次數(shù)為317次,22點(diǎn)之后晚歸次數(shù)為0次的接近9800條數(shù)據(jù),占總數(shù)據(jù)的67%以上,說(shuō)明大部分學(xué)生基本不在22點(diǎn)之后晚歸;其中晚歸的學(xué)生,年晚歸次數(shù)集中在10次以?xún)?nèi)。
理科類(lèi)學(xué)生23點(diǎn)之后晚歸次數(shù)約為2.93次,最少晚歸次數(shù)為0,最多晚歸次數(shù)為155次,23點(diǎn)之后晚歸次數(shù)為0的數(shù)據(jù)接近8500條,占總數(shù)據(jù)的58%以上,說(shuō)明大多學(xué)生基本不在23點(diǎn)之后晚歸;23點(diǎn)之后晚歸的學(xué)生也多集中在8次之內(nèi)。
理科類(lèi)學(xué)生借書(shū)總量為22332本,借書(shū)類(lèi)型排列第一的為[T]工業(yè)技術(shù)類(lèi),所占比例高達(dá)25% ;第二為[I]文學(xué)類(lèi),所占比例高達(dá)21%;第三為[F]經(jīng)濟(jì)類(lèi)所占比率高達(dá)10%;
借書(shū)類(lèi)型較少的是:[A]馬克思主義、列寧主義、毛澤東思想、鄧小平理論、[X]環(huán)境科學(xué),安全科學(xué)[V]航空、航天[S]農(nóng)業(yè)科學(xué)、[N]自然科學(xué)總論;
以上結(jié)果說(shuō)明:理科類(lèi)學(xué)生借書(shū)類(lèi)型較為豐富,不僅喜歡閱讀技術(shù)性較強(qiáng),邏輯性較強(qiáng),探索性較強(qiáng)的圖書(shū),也喜歡閱讀文學(xué)性較強(qiáng)的圖書(shū),這可能與他們的專(zhuān)業(yè),興趣有關(guān),也可能與圖書(shū)館的圖書(shū)數(shù)量及圖書(shū)位置的擺放有關(guān)。
3.2文科類(lèi)學(xué)生的數(shù)據(jù)分析
對(duì)文科學(xué)生的圖書(shū)館借書(shū)量、平均成績(jī)、年飯卡消費(fèi)額、22點(diǎn)和23點(diǎn)后的晚歸數(shù)據(jù)進(jìn)行了細(xì)致的分類(lèi)分析。
文科類(lèi)學(xué)生年借書(shū)總量約為3.86本,最少的為0本,最多的有117本,接近12000人左右的學(xué)生年借書(shū)總量為0本,學(xué)生年借書(shū)總量多為0~20本之間。
文科類(lèi)學(xué)生平均成績(jī)約為77.31分,最低的為0分,最高的為95分,學(xué)生年成績(jī)平均分為0的約有300人,可能是錯(cuò)誤數(shù)據(jù),也有可能是缺考、作弊等導(dǎo)致;且大多數(shù)學(xué)生年平均成績(jī)主要集中在70~90分之間,80分左右的人數(shù)最多。
文科類(lèi)學(xué)生年飯卡消費(fèi)金額約為2360.34元,年飯卡消費(fèi)金額為0的接近3000人,可能是飯卡丟失或不使用飯卡進(jìn)行消費(fèi)等原因;正常情況下,學(xué)生年均飯卡消費(fèi)金額主要集中在1000~5000之間。
文科類(lèi)學(xué)生22點(diǎn)之后晚歸次數(shù)約為4.72次,22點(diǎn)之后晚歸次數(shù)為0次的接近13000條數(shù)據(jù),占總數(shù)據(jù)的50%以上,說(shuō)明超過(guò)一半的學(xué)生基本不在22點(diǎn)之后晚歸;其中晚歸的學(xué)生,年晚歸次數(shù)集中在30次以?xún)?nèi)。
文科類(lèi)學(xué)生23點(diǎn)之后晚歸次數(shù)約為2.39次,23點(diǎn)之后晚歸次數(shù)為0的數(shù)據(jù)接近20000條,占總數(shù)據(jù)的68%以上,說(shuō)明大多學(xué)生基本不在23點(diǎn)之后晚歸;23點(diǎn)之后晚歸的學(xué)生也多集中在15次之內(nèi)。
文科類(lèi)學(xué)生借書(shū)總量為29438本,借書(shū)類(lèi)型排列第一的為[I]文學(xué)類(lèi),所占比例高達(dá)29% ;第二為[F]經(jīng)濟(jì)類(lèi),所占比例高達(dá)16%;第三為[H]語(yǔ)言類(lèi)所占比率高達(dá)11%;
借書(shū)類(lèi)型較少的是:[A]馬克思主義、列寧主義、毛澤東思想、鄧小平理論;[Z]綜合類(lèi)圖書(shū);[X]環(huán)境科學(xué),安全科學(xué)[V]航空、航天[U]交通工具;[S]農(nóng)業(yè)科學(xué);[R]醫(yī)學(xué),衛(wèi)生;[Q]生物科學(xué);[P]天文學(xué)、地球科學(xué);[N]自然科學(xué)總論;
以上結(jié)果說(shuō)明:文科類(lèi)學(xué)生借書(shū)類(lèi)型較為單一,喜歡閱讀文學(xué)性較強(qiáng),故事性較強(qiáng),情感較為豐富,想象力豐富的圖書(shū)。這可能與他們的專(zhuān)業(yè),興趣和一直以來(lái)的閱讀習(xí)慣有關(guān)。
3.3 藝術(shù)類(lèi)學(xué)生的數(shù)據(jù)分析
對(duì)藝術(shù)類(lèi)學(xué)生的圖書(shū)館借書(shū)量、平均成績(jī)、年飯卡消費(fèi)額、22點(diǎn)和23點(diǎn)后的晚歸數(shù)據(jù)進(jìn)行了細(xì)致的分類(lèi)分析。
藝術(shù)類(lèi)學(xué)生年借書(shū)總量約為2.52本,最少的為0本,最多的有100本,學(xué)生年借書(shū)總量多為0~20本之間,有接近2800人左右的學(xué)生年借書(shū)總量為0本,占總?cè)藬?shù)的50%以上,說(shuō)明藝術(shù)類(lèi)學(xué)生的借書(shū)量還不夠。
藝術(shù)類(lèi)學(xué)生平均成績(jī)約為69.24分,最低的為0分,最高的為100分,學(xué)生年成績(jī)平均分為0的約有380人左右,可能是錯(cuò)誤數(shù)據(jù),也有可能是缺考、作弊等導(dǎo)致;且大多數(shù)學(xué)生年平均成績(jī)主要集中在70~85分之間,77分左右的人數(shù)最多。
藝術(shù)類(lèi)學(xué)生年均消費(fèi)為1632.36元,最低消費(fèi)為0,最高消費(fèi)為12620元。年飯卡消費(fèi)金額為0的接近1010人,可能是飯卡丟失或不使用飯卡進(jìn)行消費(fèi)等原因;正常情況下,學(xué)生年均飯卡消費(fèi)金額主要集中在1000~4000之間。
藝術(shù)類(lèi)學(xué)生22點(diǎn)之后晚歸次數(shù)平均為3.69次,最少晚歸次數(shù)為0,最多晚歸次數(shù)為109次,22點(diǎn)之后晚歸次數(shù)為0次的接近2700條數(shù)據(jù),占總數(shù)據(jù)的60%以上,說(shuō)明大部分學(xué)生基本不在22點(diǎn)之后晚歸;其中晚歸的學(xué)生,年晚歸次數(shù)集中在8次以?xún)?nèi)。
藝術(shù)類(lèi)學(xué)生23點(diǎn)之后晚歸次數(shù)平均為4.05次,最少晚歸次數(shù)為0,最多晚歸次數(shù)為151次,23點(diǎn)之后晚歸次數(shù)為0次的接近3100條數(shù)據(jù),占總數(shù)據(jù)的68%以上,說(shuō)明大部分學(xué)生基本不在23之后晚歸;其中晚歸的學(xué)生,年晚歸次數(shù)集中在15次以?xún)?nèi)。藝術(shù)類(lèi)學(xué)生借書(shū)總量為3492本,借書(shū)類(lèi)型排列第一的為[I]文學(xué)類(lèi),所占比例高達(dá)33% ;第二為[I]藝術(shù)類(lèi),所占比例高達(dá)19%;第三為[H]語(yǔ)言類(lèi)和[K]歷史,地理類(lèi)所占比率高達(dá)8%;
借書(shū)類(lèi)型較少的是:[A]馬克思主義、列寧主義、毛澤東思想、鄧小平理論;[Z]綜合類(lèi)圖書(shū);[X]環(huán)境科學(xué),安全科學(xué)[V]航空、航天[U]交通工具;[S]農(nóng)業(yè)科學(xué);[O]數(shù)理科學(xué);[R]醫(yī)學(xué),衛(wèi)生;[Q]生物科學(xué);[P]天文學(xué)、地球科學(xué);[N]自然科學(xué)總論;
以上結(jié)果說(shuō)明:藝術(shù)類(lèi)借書(shū)類(lèi)型比較單一,借書(shū)數(shù)量比較少,喜歡閱讀情感較為豐富,想象力豐富,具有一定創(chuàng)造性的圖書(shū)。這可能與他們的專(zhuān)業(yè),興趣,愛(ài)好,生活習(xí)慣和學(xué)習(xí)習(xí)慣有關(guān)。
4結(jié)論及建議
通過(guò)前面的數(shù)據(jù)分析,得出了以下結(jié)論:
第一,學(xué)習(xí)成績(jī)?cè)絻?yōu)秀的學(xué)生借書(shū)越多,借書(shū)類(lèi)型也更豐富,并且學(xué)習(xí)成績(jī)良好的學(xué)生借書(shū)更偏好文科類(lèi)書(shū)籍,學(xué)習(xí)成績(jī)一般的學(xué)生借書(shū)更偏好理工科類(lèi)書(shū)籍。這說(shuō)明:學(xué)習(xí)成績(jī)?cè)胶玫膶W(xué)生對(duì)不同類(lèi)型的書(shū)籍涉獵越多,不同學(xué)習(xí)成績(jī)的學(xué)生對(duì)書(shū)籍類(lèi)型的偏好不一樣,這很有可能是因?yàn)楦魅搜a(bǔ)短處不同;