楊子天 溫上海
摘 ?要:學(xué)生在校期間產(chǎn)生的數(shù)據(jù),可用以分析和挖掘與學(xué)風(fēng)建設(shè)有關(guān)的因素,并有針對性地對學(xué)生加以引導(dǎo),從而提升高校在學(xué)風(fēng)建設(shè)和管理方面的成效。在高校智慧校園建設(shè)的基礎(chǔ)上,通過基于關(guān)聯(lián)分析模型的數(shù)據(jù)挖掘方法,對高校一卡通、教務(wù)信息系統(tǒng)、學(xué)生工作數(shù)據(jù)等多個源渠道的數(shù)據(jù)信息進行分析,為高校的學(xué)風(fēng)建設(shè)提供精準(zhǔn)的技術(shù)支撐和決策輔助。
關(guān)鍵詞:數(shù)據(jù)挖掘;關(guān)聯(lián)分析;學(xué)風(fēng)建設(shè)
中圖分類號:TP311.13 文獻標(biāo)識碼:A文章編號:2096-4706(2021)14-0127-03
Abstract: The data generated by students in school can be used to analyze and mine the factors related to the construction of study style, and give targeted guidance to students, so as to improve the effectiveness of the construction of study style and management in colleges and universities. Based on the construction of wisdom campus in Colleges and universities, through the data mining method based on association analysis model, this paper analyzes the data information of multiple source channels such as college all-in-one card, educational administration information system and student work data, so as to provide accurate technical support and decision-making assistance for the construction of study style in colleges and universities.
Keywords: data mining; association analysis; the construction of study style
0 ?引 ?言
高校學(xué)風(fēng)建設(shè)是高校辦學(xué)目標(biāo)中的重要內(nèi)容之一,是體現(xiàn)高校辦學(xué)質(zhì)量的重要所在。大數(shù)據(jù)技術(shù)的快速發(fā)展,使得高校各項工作都得到很大提升。高校學(xué)風(fēng)建設(shè)可以借助信息技術(shù)發(fā)展的紅利,改變以往通過學(xué)生學(xué)習(xí)成績和課堂上的表現(xiàn)來制定學(xué)風(fēng)建設(shè)方案的模式,提升對學(xué)生、學(xué)院、學(xué)校學(xué)習(xí)風(fēng)氣的把握,針對性地制定學(xué)風(fēng)建設(shè)方案,使高校辦學(xué)質(zhì)量進一步精進。傳統(tǒng)模式下,高校在制定學(xué)風(fēng)建設(shè)方案時往往借助以往經(jīng)驗和學(xué)生成績,這種方式會忽略一些很難直觀發(fā)現(xiàn)的問題和影響學(xué)風(fēng)的因素,也會忽略高校所產(chǎn)生的大量有價值的信息,如一卡通、教務(wù)、學(xué)工等各業(yè)務(wù)系統(tǒng)產(chǎn)生的數(shù)據(jù)。
為了準(zhǔn)確掌握學(xué)校學(xué)風(fēng)情況和針對性調(diào)整學(xué)風(fēng)建設(shè)方案,各高校都在研究如何使用大數(shù)據(jù)技術(shù)和挖掘技術(shù)來解決學(xué)風(fēng)相關(guān)信息獲取和決策的制定問題,如使用Apriori關(guān)聯(lián)規(guī)則算法、BP神經(jīng)網(wǎng)絡(luò)算法、貝葉斯分類算法、K-Means聚類算法、SVM(支持向量機)等算法模型獲取影響學(xué)風(fēng)建設(shè)的因素和學(xué)風(fēng)建設(shè)效果。本文采用Apriori關(guān)聯(lián)規(guī)則算法獲取影響學(xué)風(fēng)建設(shè)的因素。Apriori是挖掘頻繁項集中最常用、最經(jīng)典的算法,其核心思想是通過連接產(chǎn)生候選項及其支持度,然后通過剪枝生成頻繁項集。在一個數(shù)據(jù)集中找出項之間的關(guān)系,比如學(xué)風(fēng)優(yōu)良的學(xué)生中有40%的學(xué)生可能每周去圖書館兩次及以上。
1 ?基于Apriori關(guān)聯(lián)規(guī)則算法的關(guān)聯(lián)模型
Apriori算法是經(jīng)典的用于關(guān)聯(lián)規(guī)則和挖掘頻繁項集的挖掘算法,也是最經(jīng)典的數(shù)據(jù)挖掘算法。Apriori算法利用逐層搜索的方式找出數(shù)據(jù)項集中的項集關(guān)系,形成規(guī)則,主要方式包括連接操作和剪枝操作。關(guān)聯(lián)規(guī)則的挖掘主要分為兩個過程:找出所有的頻繁項集(支持度大于最小支持度的項集,即頻繁項集),由頻繁項集產(chǎn)生關(guān)聯(lián)規(guī)則(規(guī)則必須滿足最小支持度和最小可信度)。
在挖掘頻繁項集的過程中,關(guān)聯(lián)規(guī)則必須滿足最小支持度(min_sup)和最小可信度(min_conf)即S(A→B)>min_sup且C(A→B)>min_conf支持度和可信度的計算公式為和。
1.1 ?學(xué)風(fēng)建設(shè)相關(guān)因素特征的選擇和提取
學(xué)風(fēng)建設(shè)是高校發(fā)展的重要因素之一,根據(jù)本校學(xué)風(fēng)建設(shè)情況,課題組構(gòu)建了科學(xué)、全面的關(guān)聯(lián)模型,遵循客觀、科學(xué)、全面、可行的原則,確定了模型所需的各項指標(biāo)數(shù)據(jù),如表1所示,其中包括學(xué)生基本信息、課堂考勤、消費數(shù)據(jù)、上網(wǎng)統(tǒng)計數(shù)據(jù)、圖書館數(shù)據(jù)等。
本次采集的數(shù)據(jù)來自于2019級大二某專業(yè)學(xué)生共71人(已去除留級、休學(xué)、入伍等情況導(dǎo)致數(shù)據(jù)不全的學(xué)生),截至2021年7月,學(xué)校已完成成績登記和統(tǒng)計工作,所以以2019級該專業(yè)大二學(xué)生整學(xué)年的數(shù)據(jù)作為數(shù)據(jù)挖掘的數(shù)據(jù)集。由于本次關(guān)聯(lián)分析的因素大部分為分類變量,所以本次數(shù)據(jù)預(yù)處理時需要進行大量的統(tǒng)計以及將數(shù)值數(shù)據(jù)合理轉(zhuǎn)化為分類數(shù)據(jù)的計算。如圖書館借書量,大部分學(xué)生都少于五本,所以將0本到3本分為A到D檔,4本及以上為E檔。在計算周消費金額時,采用Min-max Scaling方法,公式為,其中X為各分類變量值,Xmax為變量值中的最大值,Xmin為最小值,這樣所有的變量值都分布在0和1之間,然后均勻地將區(qū)間分為5份,對應(yīng)于A到E。原始數(shù)據(jù)如圖1所示,數(shù)據(jù)中有些學(xué)生某一項數(shù)據(jù)為空,則用0或者對應(yīng)等級代替。
1.2 ?算法計算與分析
通過數(shù)據(jù)挖掘軟件,引入Generate Transaction Data部件、apriori部件、Create Association Rules部件,模型如圖2所示,按照實際需求調(diào)整參數(shù)進行挖掘。根據(jù)數(shù)據(jù)特點和挖掘內(nèi)容對min number of itemsets頻繁項集的最小個數(shù)、max number of retiries最大嘗試次數(shù)進行設(shè)定。
通過apriori算法對某一專業(yè)學(xué)生的基本信息和行為數(shù)據(jù)進行關(guān)聯(lián)挖掘,得到與學(xué)生學(xué)業(yè)成績相關(guān)的部分因素,如表2所示(因挖掘二元頻繁項集過多,根據(jù)實際需求進行了刪減)。
從挖掘結(jié)果和因素表中可以發(fā)現(xiàn),績點高學(xué)生(N=A)的成績與很多因素有關(guān)。例如地區(qū)為中東部、民族為漢族學(xué)生績點高的概率更大,主要是因為中東部地區(qū)教育更發(fā)達,且該專業(yè)中漢族人數(shù)眾多,所占比例高達97.2%。除一些根據(jù)常識即可獲取的知識外,挖掘中還有跟想象中不同的額外知識,可供學(xué)校用來把握學(xué)風(fēng)建設(shè),引導(dǎo)學(xué)風(fēng)風(fēng)向。如第四條,成績優(yōu)秀的學(xué)生,日均上網(wǎng)量屬于第二檔,平均每天上網(wǎng)時間在三個小時以上。
1.3 ?算法應(yīng)用與拓展
在大數(shù)據(jù)時代背景下,通過數(shù)據(jù)挖掘技術(shù)挖掘?qū)W風(fēng)建設(shè)相關(guān)信息促進學(xué)校學(xué)風(fēng)建設(shè),引導(dǎo)學(xué)生養(yǎng)成良好的學(xué)習(xí)習(xí)慣獲取想要得到的知識,但卻無法形成長效機制。通過學(xué)風(fēng)建設(shè)平臺提供學(xué)生學(xué)習(xí)和行為數(shù)據(jù)的可視化與挖掘分析,可為教師在引導(dǎo)和教育學(xué)生上提供所需數(shù)據(jù)和決策依據(jù),建立起長效機制。平臺作用的發(fā)揮來自于學(xué)生校園行為大數(shù)據(jù),而數(shù)據(jù)的采集則來自于軟硬件的結(jié)合。圖3為學(xué)風(fēng)建設(shè)管理平臺,當(dāng)前顯示頁面為學(xué)業(yè)特征。
首先,根據(jù)不同數(shù)據(jù)源提供的數(shù)據(jù)格式,采用不同的采集方式。對于定時抽取的且數(shù)據(jù)庫開放的批量數(shù)據(jù)源,采用ETL進行數(shù)據(jù)的初始化,通過腳本調(diào)度+ETL組合的方式,采集定期批量更新的增量數(shù)據(jù);對于實時流式數(shù)據(jù),定義源數(shù)據(jù)通訊的數(shù)據(jù)報文格式,采用kafka+zookeeper+MQ組合技術(shù),采集實時的流式數(shù)據(jù),以消息服務(wù)方式傳輸至中心;對于網(wǎng)頁數(shù)據(jù),則采用網(wǎng)絡(luò)爬蟲技術(shù),定期抓取目標(biāo)網(wǎng)址的文字和圖片等內(nèi)容;對于電子類數(shù)據(jù)(如文檔、圖片等),采用socket接口分類定義不同的模板,獲取電子化數(shù)據(jù)。其次,數(shù)據(jù)采集服務(wù)以集群方式部署,采用keeplived+LVS技術(shù),支持多任務(wù)并發(fā),自動負載均衡,支持大數(shù)據(jù)量的抽取轉(zhuǎn)換處理。
通過數(shù)據(jù)可視化、圖形化的方式呈現(xiàn)學(xué)業(yè)行為數(shù)據(jù)和預(yù)測結(jié)果,為學(xué)校對學(xué)生進行學(xué)風(fēng)把握以及進行精準(zhǔn)化的學(xué)風(fēng)管理與引導(dǎo)提供重要依據(jù)。平臺展示如圖3所示,通過匯聚海量行為和學(xué)業(yè)數(shù)據(jù),對其數(shù)據(jù)進行多維度建模(認知模型、加權(quán)模型、一分四率模型、離均值模型、進步率模型、偏科模型等)和跟蹤,以圖形可視化方式呈現(xiàn)教學(xué)和學(xué)業(yè)數(shù)據(jù)的分析結(jié)果,為教師發(fā)現(xiàn)問題、肯定優(yōu)勢、改進教學(xué)以及為學(xué)生的學(xué)習(xí)指明了方向;為校長及時發(fā)現(xiàn)問題,掌握動態(tài)教育發(fā)展規(guī)律、推動教育改革,實現(xiàn)素質(zhì)教育管理與決策提供量化數(shù)據(jù)依據(jù)。
2 ?模型應(yīng)用與效果
本次關(guān)聯(lián)分析模型,采取學(xué)生基本信息、一卡通數(shù)據(jù)、上網(wǎng)時長統(tǒng)計數(shù)據(jù)和教務(wù)成績數(shù)據(jù),通過數(shù)據(jù)清洗和預(yù)處理,從數(shù)據(jù)中提取20個特征點,通過傳統(tǒng)和主成分分析等方法,采用其中14個主要特征點,將數(shù)據(jù)引入關(guān)聯(lián)分析模型中,得到與績點相關(guān)的頻繁項集并從中獲取知識,符合對該模型的預(yù)期。通過該模型,可以對學(xué)生的學(xué)業(yè)等相關(guān)數(shù)據(jù)進行匯總,分類展示,獲取成績對比、排名、選課統(tǒng)計等直觀數(shù)據(jù)可視化,挖掘分析知識形成互補,方便學(xué)校從學(xué)生、班級、專業(yè)、學(xué)院等角度做出學(xué)風(fēng)建設(shè)相關(guān)決策。
3 ?結(jié) ?論
引入新興技術(shù)包括大數(shù)據(jù)和信息技術(shù),打造智慧校園框架體系,輔助高校學(xué)生管理。在高校智慧校園建設(shè)的基礎(chǔ)上,綜合利用高校一卡通、教務(wù)信息系統(tǒng)、學(xué)生工作數(shù)據(jù)等多個源渠道,基于數(shù)據(jù)挖掘方法,為高校在學(xué)風(fēng)建設(shè)上提供精準(zhǔn)管理的技術(shù)支撐和決策輔助。通過完善學(xué)風(fēng)建設(shè)平臺的建設(shè),其提供的精準(zhǔn)化管理、精準(zhǔn)化服務(wù),并不是針對個人而設(shè)計,而是對不同場景、不同群體,包括畢業(yè)生群體,大一新生群體等提供分類精準(zhǔn)化服務(wù)。根據(jù)普適性學(xué)風(fēng)建設(shè)平臺和大數(shù)據(jù)挖掘技術(shù),可以準(zhǔn)確把握高校學(xué)風(fēng)狀態(tài),及時對學(xué)生予以教育和引導(dǎo)。
參考文獻:
[1] 白娟.基于大數(shù)據(jù)分析的學(xué)風(fēng)建設(shè)以及學(xué)生管理工作探析 [J].無線互聯(lián)科技,2020,17(9):74-76.
[2] 曹陽,張小恒.數(shù)據(jù)挖掘在學(xué)風(fēng)量化評價中的應(yīng)用 [J].科學(xué)咨詢(科技·管理),2018(8):85.
[3] 王寧,孟倩玉.基于學(xué)風(fēng)數(shù)據(jù)分析的高校學(xué)生學(xué)風(fēng)建設(shè)對策研究 [J].同行,2016(5):136.
[4] SRIDHAR R S,PRASAD M V N K,BALAKRISHNAN R. Spatio-Temporal association rule based deep annotation-free clustering(STAR-DAC)for unsupervised person re-identification [J].Pattern Recognition,2021,122:1082-1087.
[5] 王曉翠,高雅奇,蘇亞萍.大數(shù)據(jù)助力高校學(xué)風(fēng)建設(shè)研究——以北京第二外國語學(xué)院為例 [J].信息技術(shù)與信息化,2021(2):205-207+212.
作者簡介:楊子天(1984.07—),男,漢族,江蘇連云港人,實驗師,碩士,研究方向:計算機技術(shù)、信息系統(tǒng);溫上海(1991.02—),男,漢族,江蘇徐州人,工程師,碩士,研究方向:數(shù)據(jù)挖掘、信息系統(tǒng)。