石慧 宋世濤 肖揚(yáng)
摘? 要:伴隨著我國(guó)教育大數(shù)據(jù)研究的全面開(kāi)展,學(xué)生表現(xiàn)受多方面影響,傳統(tǒng)方法面向單尺度、單方面對(duì)學(xué)生表現(xiàn)進(jìn)行模型建立與預(yù)測(cè)分析具有一定片面性,由于影響因素往往來(lái)源于不同尺度不同特征因素,因此本文綜合學(xué)生、教師、成績(jī)等多方面進(jìn)行特征融合提取,建立多尺度特征融合預(yù)測(cè)模型對(duì)學(xué)生表現(xiàn)進(jìn)行預(yù)測(cè),取得較好的效果。
關(guān)鍵詞:教育大數(shù)據(jù)? 眼科? 成績(jī)預(yù)測(cè)? 學(xué)生行為特征
中圖分類號(hào):G642? ? ? ? ? ? ? ? ? ? ? ? ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A? ? ? ? ? ? ? ? ? ? 文章編號(hào):1674-098X(2020)11(c)-0214-05
Research on Big Data of Multiscale Feature Fusion for Student of Ophthalmology Performance Prediction in Education
SHI Hui1? SONG Shitao2? XIAO Yang2
(1. The First Hospital of Jilin University, Changchun, Jilin Province, 130021 China;? 2.Jilin Jianzhu University, Changchun, Jilin Province, 130118 China)
Abstract: With the comprehensive development of education big data research in China, student performance is affected by many aspects, and the traditional method of modeling and prediction analysis of student performance on a single scale and unilaterally has a certain one-sidedness. As the influencing factors often come from different scale and different feature factors, this paper integrates the characteristics of students, teachers, grades and other aspects for feature fusion extraction, and establishes a multi-scale feature fusion prediction model to predict the performance of students, achieving good results.
Key Words: Big data on education; Ophthalmology; Performance prediction; The characteristics of students' behavior
近年來(lái),隨著信息產(chǎn)業(yè)的飛速發(fā)展,各行業(yè)數(shù)據(jù)量也成幾何級(jí)數(shù)增長(zhǎng),在這些海量數(shù)據(jù)中蘊(yùn)藏著無(wú)數(shù)寶貴的資源和價(jià)值信息,而人工分析、手動(dòng)提取的方法已經(jīng)逐步退出歷史舞臺(tái),而隨著機(jī)器學(xué)習(xí)、大數(shù)據(jù)挖掘技術(shù)的快速崛起,如何智能化、科學(xué)化、將這些信息資源進(jìn)行有效的整合、提取、分析,并作為各種決策、改革的有效數(shù)據(jù)支撐已經(jīng)成為各行業(yè)熱門(mén)的研究方向,而作為各行業(yè)的基石-高等教育如何挖掘?qū)W生、教師、學(xué)科、成績(jī)等方面的關(guān)聯(lián)性成為教育改革、發(fā)展的重要需求和急需解決的首要問(wèn)題。我國(guó)也早在2015年就提出要大力發(fā)展建設(shè)教育大數(shù)據(jù)平臺(tái),而其他發(fā)達(dá)國(guó)家也先后針對(duì)教育數(shù)據(jù)挖掘和分析提出了相關(guān)的要求和政策扶持,以致越來(lái)越多的高校和教育研究機(jī)構(gòu)把教育大數(shù)據(jù)的分析成果引入到教學(xué)改革與教學(xué)管理之中[1-2]。
1? 存在問(wèn)題
教育行業(yè)關(guān)心的首要問(wèn)題就是教學(xué)質(zhì)量,而學(xué)生的學(xué)業(yè)表現(xiàn)是反映教學(xué)質(zhì)量的首要指標(biāo),我校作為國(guó)內(nèi)外知名大學(xué)近年來(lái)學(xué)生人數(shù)不斷增多,課堂規(guī)模、授課形式逐步擴(kuò)大,而作為一線教師,面向眾多學(xué)生和教學(xué)任務(wù)、科研任務(wù)的情況下,除了在完成日常教學(xué)工作和科研任務(wù)很難做到追蹤并了解每位學(xué)生的學(xué)習(xí)情況,甚至及時(shí)、有效、有針對(duì)性地調(diào)整授課計(jì)劃,優(yōu)化教學(xué)策略,配置教學(xué)資源、改進(jìn)教學(xué)方法,以致于出現(xiàn)部分學(xué)生突然成績(jī)下滑、留級(jí)、退學(xué)等現(xiàn)象,這在一定程度上影響了我校的教學(xué)質(zhì)量,因此利用機(jī)器學(xué)習(xí)和大數(shù)據(jù)分析構(gòu)建學(xué)生學(xué)習(xí)表現(xiàn)預(yù)測(cè)模型就尤為重要,通過(guò)預(yù)測(cè)模型提前對(duì)“風(fēng)險(xiǎn)學(xué)生”進(jìn)行預(yù)警并關(guān)注,避免學(xué)生失去學(xué)習(xí)興趣以致最終無(wú)法繼續(xù)學(xué)業(yè)成為重要的研究課題[3-4]。
2? 研究現(xiàn)狀
針對(duì)學(xué)生成績(jī)表現(xiàn)預(yù)測(cè)國(guó)內(nèi)外眾多學(xué)者已有一定成果,例如早期數(shù)據(jù)來(lái)源多采用調(diào)查問(wèn)卷的形式,并且調(diào)查內(nèi)容也主要從教育學(xué)和心理學(xué)角度,包括學(xué)生的學(xué)習(xí)動(dòng)機(jī)、性別、年齡、家庭背景等方面,Poropat[5]提出的人格因素與學(xué)生表現(xiàn)的相關(guān)性。隨著教學(xué)手段的不斷發(fā)展,產(chǎn)生了眾多的慕課、微課等教育平臺(tái),信息逐漸偏向收集學(xué)生的在線課堂表現(xiàn)如在線時(shí)間、在線次數(shù)、完成作業(yè)情況、在線討論等數(shù)據(jù)特征提取,Ren、Macfady[6-7]等學(xué)者在這方面做出了一定的研究成果。隨著機(jī)器學(xué)習(xí)的飛速發(fā)展很多學(xué)者如蔣卓軒[8]等采用機(jī)器學(xué)習(xí)分類方法預(yù)測(cè)學(xué)生是否能夠順利完成學(xué)業(yè)。Huang[9]等人綜合90個(gè)學(xué)生信息采用決策樹(shù)的分來(lái)方法預(yù)測(cè)學(xué)生后續(xù)課程的完成度,但此類研究多受數(shù)據(jù)體量和種類所限,很難將眾多數(shù)據(jù)進(jìn)行多尺度融合進(jìn)行綜合分析,這在一定程度上影響了預(yù)測(cè)結(jié)果的可信度,而本研究得到學(xué)校的支持,通過(guò)已經(jīng)建立的大數(shù)據(jù)分析平臺(tái),很多復(fù)雜的工作得到簡(jiǎn)化,數(shù)據(jù)內(nèi)容大量增加,數(shù)據(jù)格式統(tǒng)一減少了前期數(shù)據(jù)處理的巨大工作量,使得實(shí)驗(yàn)?zāi)軌蝽樌M(jìn)行。
3? 學(xué)生表現(xiàn)模型構(gòu)建
3.1 樣本表達(dá)
由于教育大數(shù)據(jù)研究方向和研究?jī)?nèi)容較多,本文主要針對(duì)建立學(xué)生綜合表現(xiàn)(GPA即平均成績(jī)點(diǎn)數(shù))建立學(xué)生表現(xiàn)預(yù)測(cè)模型,從而研究并預(yù)測(cè)學(xué)生的學(xué)習(xí)狀態(tài)并為后續(xù)教學(xué)改革提供數(shù)據(jù)支撐。學(xué)生樣本表示直接關(guān)系到模型的特征提取,是構(gòu)建準(zhǔn)確預(yù)測(cè)模型的重要前提,傳統(tǒng)的學(xué)生表現(xiàn)預(yù)測(cè)方法只考慮本門(mén)課程或本學(xué)期課程的特征信息,沒(méi)有考慮課程之間的關(guān)聯(lián)性,以及課程、教師與學(xué)生行為之間的關(guān)聯(lián)性忽略三者之間存在的內(nèi)在聯(lián)系,影響最終預(yù)測(cè)精度,而本文提出一種面向多角色、多角度的學(xué)習(xí)算法實(shí)現(xiàn)多種數(shù)據(jù)統(tǒng)一在同一模型框架下進(jìn)行統(tǒng)一建模能夠進(jìn)一步提高預(yù)測(cè)的可信度。
本研究以吉林大學(xué)白求恩醫(yī)學(xué)部臨床醫(yī)學(xué)專業(yè)4屆學(xué)生共980人作為研究對(duì)象,數(shù)據(jù)來(lái)源包括線上、線下、校園一卡通3部分構(gòu)成,線下數(shù)據(jù)主要是多年積累的線下數(shù)據(jù)包括學(xué)生個(gè)人基本信息(包括性別、年齡、家庭情況、民族、生活收入水平、生源省份、學(xué)習(xí)動(dòng)機(jī)、是否為第一志愿等)、課堂表現(xiàn)信息(包括出勤、課堂討論、隨堂測(cè)試等)、成績(jī)信息(入學(xué)成績(jī)、各學(xué)期單科平時(shí)成績(jī)、期末成績(jī)、英語(yǔ)等級(jí)考試成績(jī)、計(jì)算機(jī)等級(jí)考試成績(jī)等)、學(xué)生校園行為信息(主要圖書(shū)借閱信息、圖書(shū)管等場(chǎng)所的出入信息、食堂就餐信息、超市消費(fèi)信息等)、專業(yè)課程信息(包括專業(yè)課程開(kāi)設(shè)的學(xué)期、課程學(xué)分、課程性質(zhì)、課程開(kāi)設(shè)順序等)、相關(guān)專業(yè)教師信息(包括教師學(xué)歷、職稱、年齡、性別、所學(xué)專業(yè)、科研情況、教齡等)。線上數(shù)據(jù)包括今年疫情期間進(jìn)行的線上教學(xué)信息、多年來(lái)學(xué)生在吉林大學(xué)網(wǎng)課平臺(tái)的學(xué)生活動(dòng)日志等統(tǒng)計(jì)信息(包括視頻觀看時(shí)間、相關(guān)專業(yè)課程觀看種類、觀看次數(shù)、討論數(shù)量、線上測(cè)驗(yàn)成績(jī)、登錄時(shí)長(zhǎng)等),由于篇幅所限僅列出表1中部分?jǐn)?shù)據(jù)。
本研究對(duì)象由于分析目標(biāo)對(duì)象特征類型較多,所以首先采用皮爾森相關(guān)系數(shù)分析法從4類標(biāo)簽中分別提取對(duì)學(xué)生表現(xiàn)相關(guān)特征影響最大的,生成高相關(guān)特征的數(shù)據(jù)集,然后利用Kaggle平臺(tái)上表現(xiàn)優(yōu)異的Xgboost框架進(jìn)行模型構(gòu)建,最后結(jié)合特征工程處理,取得良好的訓(xùn)練預(yù)測(cè)效果。對(duì)照組中將學(xué)生、教師、課程等因素聯(lián)動(dòng)性影響因素融合原數(shù)據(jù)生成訓(xùn)練集,完成特征擴(kuò)充。
3.2 特征提取
數(shù)據(jù)集由37個(gè)特征和4個(gè)標(biāo)簽構(gòu)成,由于目標(biāo)對(duì)象的復(fù)雜性導(dǎo)致很難用單標(biāo)簽的方式進(jìn)行直接分類和解釋,所以采用多標(biāo)簽分類原理模型。由于多標(biāo)簽問(wèn)題的復(fù)雜性一般從待預(yù)測(cè)值關(guān)系可分為依賴關(guān)系和獨(dú)立關(guān)系兩類,本研究4個(gè)標(biāo)簽之間存在依賴關(guān)系,所以采用的策略轉(zhuǎn)換為Classifier Chains,此方法的核心思想是將多標(biāo)簽分類問(wèn)題進(jìn)行分解,將其轉(zhuǎn)換成一個(gè)二元分類鏈的形式,后一個(gè)分類是在前一個(gè)分類的基礎(chǔ)上進(jìn)行的,即后一個(gè)輸入時(shí)前一個(gè)分類的輸出,模型公式如下所示
X,Y=[y1,y2,y3,y4](1)
shuffle:X,Y=[y2,y3,y4](2)
然后在構(gòu)建下一個(gè)模型
shuffle_sorted{1,2……,m}? ? ? ? ? ? ? ? ? ? ? ?(3)
對(duì)m個(gè)分類進(jìn)行打亂
(4)
(5)
評(píng)估標(biāo)準(zhǔn)與相關(guān)系數(shù)計(jì)算
本文利用Pandas中的corr()方法,其中常見(jiàn)的方法有圖示法、Pearson相關(guān)系數(shù)Sperman相關(guān)系數(shù)法,由于樣本數(shù)據(jù)不滿足連續(xù)數(shù)據(jù),正態(tài)分布,線性關(guān)系,所以本研究采用Sperman相關(guān)系數(shù)是最恰當(dāng),該算法通過(guò)衡量預(yù)測(cè)值和實(shí)際值的Spearman相關(guān)性,如果計(jì)算結(jié)果為[0,1]之間的值,值越大,表示越相關(guān),預(yù)測(cè)就越準(zhǔn)確。那么對(duì)于普通樣本模型之間沒(méi)有相同秩序采用如下公式
(6)
而對(duì)于有相同秩序存在,就需要計(jì)算秩序之間的Pearson的現(xiàn)行相關(guān)系數(shù),公式如下所示。
(7)
4? 實(shí)驗(yàn)過(guò)程
實(shí)驗(yàn)過(guò)程包括數(shù)據(jù)預(yù)處理、拆分、訓(xùn)練、預(yù)測(cè)與評(píng)估幾個(gè)主要步驟。
4.1 數(shù)據(jù)預(yù)處理
(1)首先將采集的數(shù)據(jù)源結(jié)構(gòu)化。對(duì)于簡(jiǎn)單的數(shù)據(jù)類型例如學(xué)生性別、學(xué)位英語(yǔ)等級(jí)、課程性質(zhì)等直接采用0表示yes,1表示no將文本數(shù)據(jù)量化,例如課程性質(zhì)為必修課表示為1,選修課表示為0;而對(duì)于一些多種類的文本型字段,如期末成績(jī)、學(xué)分、教師職稱、家庭收入等可以結(jié)合業(yè)務(wù)場(chǎng)景來(lái)抽象,比如說(shuō)如果教師職稱高級(jí)就表示為1,其他職稱表示為0,抽象后這個(gè)特征的意義就是表示教師教學(xué)水平相關(guān)程度。對(duì)于部分復(fù)雜目標(biāo)列,我們按照多等級(jí)抽象分為1,2,3….,擬通過(guò)訓(xùn)練找出相關(guān)度高的進(jìn)行擬合訓(xùn)練。
(2)此外預(yù)處理還包括部分屬性缺失,由于本文采用的是xgboost框架算法,可以有效地處理對(duì)特征影響不大的缺失值并自動(dòng)進(jìn)行填充,默認(rèn)將缺失值設(shè)置成missing=-9999。
(3)通過(guò)人工篩查和describe方法對(duì)單個(gè)屬性分析清洗部分非相關(guān)性屬性數(shù)據(jù),分析結(jié)果包括平均值,最值,標(biāo)準(zhǔn)差等。
4.2 數(shù)據(jù)歸一化
由于本研究對(duì)象屬性眾多內(nèi)容復(fù)雜,需將已有數(shù)據(jù)進(jìn)行歸一化,將所有的字段都轉(zhuǎn)換成0~1之間,去除字段間大小不均衡帶來(lái)的影響,部分結(jié)果如表2所示。
4.3 訓(xùn)練集和驗(yàn)證集拆分
將數(shù)據(jù)集按照7:3拆分,70%用來(lái)訓(xùn)練模型,30%的用來(lái)預(yù)測(cè)。
4.4 各屬性與成績(jī)的相關(guān)性分析
常用的編碼方式分為標(biāo)簽編碼方式和獨(dú)熱編碼,對(duì)于只有2個(gè)唯一值得特征采用標(biāo)簽編碼,如果分類變量具有許多類多個(gè)值則采用獨(dú)熱編碼方式,本研究采用后者,然后分別計(jì)算各個(gè)屬性與最終預(yù)測(cè)值Y學(xué)生表現(xiàn)的相關(guān)性,將相關(guān)性高的屬性進(jìn)行保留作為模型訓(xùn)練的數(shù)據(jù)輸入。
4.5 預(yù)測(cè)模型訓(xùn)練
最終選取框架提供的六種模型,分別為:線性回歸、ElasticNet回歸、隨機(jī)森林、極端隨機(jī)數(shù)、支持向量機(jī)(SVM)、梯度提升樹(shù),進(jìn)行預(yù)測(cè)模型訓(xùn)練對(duì)比效果如表3所示。
5? 結(jié)語(yǔ)
本研究采集了線下學(xué)生信息、學(xué)生個(gè)人情況屬性信息、線上學(xué)習(xí)統(tǒng)計(jì)信息、學(xué)生行為特征和教師行為特征等數(shù)據(jù)作為研究對(duì)象的特征,運(yùn)用特征分析和特征選擇,選取了37個(gè)特征構(gòu)成的特征子集表示每一個(gè)研究對(duì)象。最終利用xgboost框架算法,采用6種機(jī)器學(xué)習(xí)算法,構(gòu)造了不同的學(xué)習(xí)成績(jī)預(yù)測(cè)模型。通過(guò)比較模型的準(zhǔn)確度、召回率、F值,誤分類樣本數(shù)量和精確度,通過(guò)分析,發(fā)現(xiàn)影響學(xué)習(xí)成績(jī)的主要因素是學(xué)生行為特征、教師行為特征、基礎(chǔ)課程的成績(jī)表現(xiàn),為提高學(xué)生表現(xiàn)GPA,教學(xué)過(guò)程中應(yīng)該隨時(shí)關(guān)注學(xué)生行為特征相關(guān)屬性的變化,并配合教師行為特征進(jìn)行適當(dāng)?shù)氖谡n計(jì)劃調(diào)整,激發(fā)學(xué)生教師的內(nèi)在動(dòng)力,積極關(guān)注基礎(chǔ)課程的學(xué)生成績(jī)變化,預(yù)測(cè)學(xué)生的學(xué)習(xí)表現(xiàn),并針對(duì)預(yù)測(cè)結(jié)果實(shí)施相應(yīng)的授課計(jì)劃調(diào)整,為教學(xué)改革提供參考。
參考文獻(xiàn)
[1] 蘇國(guó)曦.基于特征表示的終身機(jī)器學(xué)習(xí)算法研究[D].廣州:華南理工大學(xué),2018.
[2] 肖逸楓.數(shù)據(jù)挖掘技術(shù)用于高校學(xué)生留級(jí)預(yù)警的研究[D].重慶:重慶大學(xué),2018.
[3] 謝娟英,張宜,陳恩紅. 學(xué)生成績(jī)關(guān)鍵因素挖掘與成績(jī)預(yù)測(cè)[J].南京信息工程大學(xué)學(xué)報(bào):自然科學(xué)版, 2019,11(3):316-325.
[4] 馬玉玲.基于機(jī)器學(xué)習(xí)的高校學(xué)生成績(jī)預(yù)測(cè)方法研究[D].濟(jì)南:山東大學(xué),2020.
[5] Arthur E Poropat. A meta-analysis of the five-factor model of personality and academic performance[J]. Psychological Bulletin, 2009, 135(2): 322.
[6] Leah P. Macfadyen,Shane Dawson. Mining lms data to develop an early warning system for educators: A proof of concept[J]. Computers & Education, 2010, 52(2):588-599.
[7] Zhiyun Ren,Huzefa Rangwala,Aditya Johri, Predicting performance on mooc assessments using multi-regression models[C].//In Proceedings of the 9th International Conference on Educatinal Data Mining, 2016.
[8] 蔣卓軒,張巖,李曉明. 基于mooc數(shù)據(jù)的學(xué)習(xí)行為分析與預(yù)測(cè)[J].計(jì)算機(jī)研究與發(fā)展,2015,52(3):614-628.
[9] Shaobo Huang,Ning Fang. Predicting student academic performance in an engineering dynamics course :A comparison fo four types of predictive mathematical models[J]. Computers &Education, 2013,61(1):133-145.
科技創(chuàng)新導(dǎo)報(bào)2020年33期