孫美娟,張 俊,2,年 梅
(1.新疆師范大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,新疆 烏魯木齊 830054;2.中國(guó)科學(xué)院新疆理化技術(shù)研究所)
隨著數(shù)字化校園建設(shè)的推進(jìn),高校積累了大量師生基本信息、生活消費(fèi)、學(xué)習(xí)讀書等動(dòng)/靜態(tài)數(shù)據(jù)[1],收集和整理這些歷史數(shù)據(jù),構(gòu)建分類模型,建立學(xué)生標(biāo)簽,可以實(shí)現(xiàn)學(xué)生畫像,從而全方位了解學(xué)生,為個(gè)性化教學(xué)提供支持。
國(guó)內(nèi)已有一些關(guān)于學(xué)生畫像的研究,如翟鳴宇等人采用基于漢明距離與歐氏距離混合度量的Kprototype 聚類算法,針對(duì)包含類別數(shù)據(jù)與數(shù)值數(shù)據(jù)的教育大數(shù)據(jù),全面分析學(xué)生行為數(shù)據(jù),構(gòu)建學(xué)生畫像[1]。高語(yǔ)蔚等人基于校園一卡通數(shù)據(jù),主要考慮“早起”和“吃早飯”的情況,探討大學(xué)生成績(jī)與其消費(fèi)行為之間的關(guān)系[2]。
高校教育大數(shù)據(jù)中,校園一卡通消費(fèi)記錄能如實(shí)反映學(xué)生在校食堂、超市的消費(fèi)情況。通過對(duì)其分析能夠獲取學(xué)生基本生活行為信息,而成績(jī)數(shù)據(jù)體現(xiàn)了學(xué)生學(xué)習(xí)情況。為了分析學(xué)生消費(fèi)行為和成績(jī)之間的關(guān)系,本研究利用K-means 算法對(duì)高校學(xué)生的校園一卡通數(shù)據(jù)與成績(jī)數(shù)據(jù)進(jìn)行聚類分析與關(guān)聯(lián)挖掘處理,構(gòu)建學(xué)生畫像,從而幫助高校教育管理人員全面認(rèn)識(shí)學(xué)生,精準(zhǔn)預(yù)測(cè)學(xué)生的學(xué)習(xí)情況,提前制訂從各方面優(yōu)化個(gè)性化學(xué)習(xí)的措施。
本研究數(shù)據(jù)集為某高校計(jì)算機(jī)科學(xué)技術(shù)學(xué)院本科生的校園卡消費(fèi)數(shù)據(jù)和成績(jī)數(shù)據(jù),校園卡消費(fèi)數(shù)據(jù)包括食堂消費(fèi)、超市消費(fèi)及洗澡消費(fèi)數(shù)據(jù)。為保護(hù)學(xué)生個(gè)人隱私,上述數(shù)據(jù)均經(jīng)過脫敏處理,原始數(shù)據(jù)中包含2018~2019 學(xué)年計(jì)算機(jī)科學(xué)技術(shù)學(xué)院本科生的六十五萬(wàn)條消費(fèi)記錄和成績(jī)數(shù)據(jù)。消費(fèi)記錄字段如表1。
表1 校園一卡通消費(fèi)數(shù)據(jù)字段
本文數(shù)據(jù)集中的一卡通消費(fèi)數(shù)據(jù)和學(xué)生成績(jī)數(shù)據(jù)格式不統(tǒng)一,并且存在缺失現(xiàn)象。首先對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理,提高數(shù)據(jù)集的質(zhì)量。數(shù)據(jù)預(yù)處理包括數(shù)據(jù)合并、數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換等步驟[3]。為保證數(shù)據(jù)的完整性,成績(jī)數(shù)據(jù)集中,對(duì)休學(xué)、缺考、及交換生等因素造成的數(shù)據(jù)缺失,需要?jiǎng)h除對(duì)應(yīng)的成績(jī)數(shù)據(jù),其他學(xué)生成績(jī)?yōu)橐荒甑某煽?jī)平均值。對(duì)一卡通消費(fèi)數(shù)據(jù),采用統(tǒng)計(jì)方法進(jìn)行數(shù)據(jù)轉(zhuǎn)換。例如以月份為周期,統(tǒng)計(jì)學(xué)生月均消費(fèi)額、月均消費(fèi)次數(shù)、月均早中晚餐消費(fèi)次數(shù)、月均早晚餐消費(fèi)金額、消費(fèi)峰值等指標(biāo)。學(xué)生各項(xiàng)特征屬性如表2所示。
表2 學(xué)生各項(xiàng)指標(biāo)
本文選取K-means 算法對(duì)學(xué)生一卡通數(shù)據(jù)和成績(jī)數(shù)據(jù)進(jìn)行分類,了解學(xué)生的消費(fèi)行為與成績(jī)之間的關(guān)系,為學(xué)生標(biāo)注標(biāo)簽的設(shè)置提供數(shù)據(jù)基礎(chǔ)。聚類首先需要確定最佳初始聚類中心數(shù)K,故本文利用肘部法作用于預(yù)處理數(shù)據(jù)集,根據(jù)不同k 的誤差平方和(sum of the squared errors,SSE)確定最佳聚類中心值K[4]。實(shí)驗(yàn)結(jié)果如圖1所示。
圖1 不同k值下聚類結(jié)果的SSE
從圖1 可以看出,隨著聚類數(shù)K 的增大,簇的聚合程度提高,誤差平方和SSE 逐漸減小。當(dāng)K>=5,SSE的減小幅度非常小,基本不變,故選擇K=5 為拐點(diǎn)。即本文聚類K-means 分析時(shí)將按照K=5 進(jìn)行,最終得到A、B、C、D、E 五個(gè)聚簇。大學(xué)生是否正常就餐能體現(xiàn)學(xué)生是否具有良好的生活習(xí)慣,本數(shù)據(jù)集聚類的結(jié)果如表3 所示。五個(gè)簇分別體現(xiàn)了月均消費(fèi)金額、月均消費(fèi)次數(shù)和三餐就餐率方面的五種聚類結(jié)果。
表3 學(xué)生成績(jī)和一卡通數(shù)據(jù)聚類結(jié)果
通過本數(shù)據(jù)集,挖掘?qū)W生日常消費(fèi)行為與成績(jī)之間的關(guān)聯(lián)關(guān)系。通過K-means 分別將學(xué)生早、中、晚三餐的消費(fèi)次數(shù),消費(fèi)金額,日均消費(fèi)額,月均消費(fèi)額聚集成高、中、低三類,根據(jù)成績(jī)分布特征將成績(jī)聚類成優(yōu)、良、中、差四類,將兩者關(guān)聯(lián),從而將學(xué)生的消費(fèi)信息和成績(jī)信息聚類,聚類后的特征見表4。
表4 整理后的學(xué)生特征
最后繼續(xù)使用Apriori算法對(duì)學(xué)生消費(fèi)行為和成績(jī)進(jìn)行關(guān)聯(lián)分析,設(shè)置最小支持度閾值Smin=0.1,最小置信度閾值Cmin=0.3,關(guān)聯(lián)分析的部分規(guī)則見表5。
表5 部分挖掘規(guī)則
由表5 中規(guī)則1、2 可知,早餐以及三餐去食堂就餐次數(shù)較多的學(xué)生成績(jī)平均分高,規(guī)則3說明,部分成績(jī)平均分高的學(xué)生生活比較節(jié)儉,規(guī)則4、5 可以看出早餐、午餐的就餐次數(shù)高低會(huì)影響月均食堂消費(fèi)次數(shù)的高低,即可說明早餐、午餐對(duì)學(xué)生生活規(guī)律度會(huì)產(chǎn)生影響。
對(duì)數(shù)據(jù)集通過K-means 算法得到聚類結(jié)果,再使用Apriori算法對(duì)學(xué)生消費(fèi)行為和成績(jī)進(jìn)行關(guān)聯(lián)分析,結(jié)合實(shí)驗(yàn)結(jié)果,對(duì)學(xué)生標(biāo)注特征標(biāo)簽,實(shí)現(xiàn)了對(duì)各類學(xué)生群體詳細(xì)統(tǒng)計(jì)。結(jié)果如表6所示。
表6將學(xué)生劃分為A、B、C、D、E五個(gè)類別,分別對(duì)五個(gè)類別的數(shù)據(jù)分析如下。
A 組類別學(xué)生占學(xué)生總數(shù)28%,是五組中人數(shù)最多的類別,成績(jī)平均分中等,月消費(fèi)金額在五組類別中等,說明此類學(xué)生符合大部分正常學(xué)生的消費(fèi)情況和學(xué)習(xí)情況。
B 組類別學(xué)生占學(xué)生總數(shù)6%,是五組類別中最少的類別,在校消費(fèi)次數(shù)最少,說明很少在食堂吃飯,可能經(jīng)常點(diǎn)外賣或外出就餐。月消費(fèi)金額最高,單筆消費(fèi)高,這類學(xué)生很少早起,生活不規(guī)律,屬于懶癌患者且平均成績(jī)差[4]。其符合小富群體,老師也應(yīng)重點(diǎn)關(guān)注此類別的學(xué)生能否順利完成學(xué)業(yè)。
C 組類別學(xué)生占學(xué)生總數(shù)21%,人數(shù)處于五組類別中間,在校消費(fèi)次數(shù)較少,一般規(guī)律,單筆交費(fèi)高,成績(jī)差。C 組學(xué)生情況與B 組學(xué)生相似,但C 組人數(shù)是B 組的兩倍多,所以學(xué)校也應(yīng)提前重點(diǎn)關(guān)注此類學(xué)生的學(xué)業(yè)情況,及時(shí)進(jìn)行預(yù)警,提醒這些學(xué)生及時(shí)糾正不良習(xí)慣,避免無法畢業(yè)或者就業(yè)。
D 組類別學(xué)生占學(xué)生總數(shù)19%,類別人數(shù)在五組類別中次低,成績(jī)優(yōu)秀,生活規(guī)律,月均消費(fèi)最低,就餐率最高,單筆消費(fèi)低,生活節(jié)儉,學(xué)院可結(jié)合其他數(shù)據(jù)進(jìn)一步判斷是否為貧困生。此類別學(xué)生有著優(yōu)秀的成績(jī)、良好的生活及消費(fèi)習(xí)慣,是學(xué)校優(yōu)秀群體。
E 組類別學(xué)生占學(xué)生總數(shù)26%,人數(shù)在五組中排第二,此類別學(xué)生消費(fèi)水平中等,生活規(guī)律,成績(jī)良好,僅次于D 類別學(xué)生,學(xué)校也應(yīng)及時(shí)督促此類別學(xué)生,幫助其設(shè)置長(zhǎng)短期學(xué)習(xí)目標(biāo),使這些學(xué)生具備上進(jìn)的動(dòng)力和激情。
構(gòu)建學(xué)生群體畫像,可以使用可視化的方式展示學(xué)生的特征,通過對(duì)學(xué)生消費(fèi)數(shù)據(jù)和成績(jī)數(shù)據(jù)使用Kmeans 聚類分析和關(guān)聯(lián)分析,結(jié)合學(xué)生的基本信息,采用詞云圖的方法對(duì)學(xué)生群體畫像進(jìn)行刻畫[5]。針對(duì)不同類別群體學(xué)生畫像進(jìn)行舉例展示,如圖2所示。圖2的詞云圖反映了不同類別學(xué)生的差異情況。
圖2 學(xué)生畫像詞云圖
本文基于新疆某高校計(jì)算機(jī)科學(xué)技術(shù)學(xué)院本科生校園一卡通消費(fèi)數(shù)據(jù)和成績(jī)數(shù)據(jù),通過SSE 科學(xué)的確定聚類數(shù)目后,采用K-means 算法進(jìn)行聚類分析。根據(jù)聚類結(jié)果,為學(xué)生群體賦予了特征標(biāo)簽[6],構(gòu)建了五類學(xué)生群體畫像,為學(xué)生教育管理者提供相應(yīng)的決策支持。
本文研究受到數(shù)據(jù)來源的限制,僅對(duì)學(xué)生一卡通消費(fèi)數(shù)據(jù)和成績(jī)數(shù)據(jù)進(jìn)行分析,后續(xù)還可以廣泛收集學(xué)生的其他教育大數(shù)據(jù)和上網(wǎng)行為數(shù)據(jù),不斷增加數(shù)據(jù)分析的維度和內(nèi)容[7],構(gòu)建更全面的學(xué)生畫像,為學(xué)校進(jìn)行個(gè)性化教育和學(xué)生管理提供基礎(chǔ)。