孫永香 于群 朱紅梅
(山東農(nóng)業(yè)大學(xué) 信息科學(xué)與工程學(xué)院,山東 泰安 271018)
在信息時代,數(shù)據(jù)就像人類的血液深入到了我們的生產(chǎn)、生活的方方面面。數(shù)據(jù)挖掘就是在這些海量數(shù)據(jù)中發(fā)現(xiàn)潛在的、有價值的規(guī)律和模式,為人們的決策和管理提供支撐依據(jù)[1]。近幾年,隨著各高校校園一卡通的普及和智慧校園建設(shè)的不斷深入,學(xué)校積累了大量的學(xué)生數(shù)據(jù),涵蓋了課業(yè)成績、評獎評優(yōu)、生活軌跡、校園消費(fèi)、圖書借閱和畢業(yè)去向等,為運(yùn)用大數(shù)據(jù)技術(shù)分析高校學(xué)生的學(xué)習(xí)生活規(guī)律提供了數(shù)據(jù)基礎(chǔ)[2-3]。綜合利用互聯(lián)網(wǎng)、大數(shù)據(jù)和人工智能技術(shù)開展對教育教學(xué)活動和學(xué)生行為數(shù)據(jù)的收集、分析和應(yīng)用,為推動學(xué)生個性化學(xué)習(xí)、改革教學(xué)方法、優(yōu)化學(xué)生評價機(jī)制、健全心理健康輔導(dǎo)、改善后勤服務(wù)等學(xué)校管理工作提供科學(xué)支持,是創(chuàng)新高校教育教學(xué)管理工作的主要手段[4]。
根據(jù)高校學(xué)生行為數(shù)據(jù)的特征和要研究的問題要求,設(shè)計的數(shù)據(jù)挖掘流程如圖1所示,主要包括學(xué)生行為數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、行為數(shù)據(jù)挖掘、模式評估和知識可視化表達(dá)5個階段[5]。
圖1 高校學(xué)生行為數(shù)據(jù)挖掘流程圖
(1)學(xué)生行為數(shù)據(jù)采集。學(xué)生行為包括學(xué)習(xí)、消費(fèi)、運(yùn)動、社交、上網(wǎng)和借閱等,可以通過與之相關(guān)的校園一卡通的日志數(shù)據(jù)、教務(wù)管理系統(tǒng)、學(xué)工管理系統(tǒng)、辦公自動化系統(tǒng)(OA)等獲取學(xué)生行為數(shù)據(jù)。
(2)數(shù)據(jù)預(yù)處理。數(shù)據(jù)預(yù)處理包括數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)規(guī)約等過程。通過數(shù)據(jù)預(yù)處理將不同來源的原始數(shù)據(jù)進(jìn)行加工,去除與研究目標(biāo)不相關(guān)的數(shù)據(jù),減少數(shù)據(jù)冗余,確保數(shù)據(jù)格式的規(guī)范性和一致性,為后續(xù)的數(shù)據(jù)挖掘提供基礎(chǔ)保障[6]。
(3)行為數(shù)據(jù)挖掘?;趯W(xué)生的學(xué)業(yè)預(yù)警、消費(fèi)能力預(yù)測、情感趨勢等研究目標(biāo),選用合理的數(shù)據(jù)挖掘算法,以建構(gòu)模型的方式對數(shù)據(jù)進(jìn)行知識提取,從現(xiàn)有的數(shù)據(jù)中發(fā)現(xiàn)潛在的規(guī)律和趨勢。數(shù)據(jù)挖掘的算法有很多,主要有聚類分析、關(guān)聯(lián)規(guī)則分析、分類與回歸算法等[7-8]。
(4)模式評估。從大量數(shù)據(jù)中挖掘出來的反映學(xué)生行為的知識、模式或規(guī)律,并不一定與學(xué)生實際情況相一致,需要進(jìn)行模式評估,去除冗余或無關(guān)的模式,從而提取有價值、可理解的數(shù)據(jù)模式。
(5)知識可視化表達(dá)。挖掘出的知識、模式或規(guī)律往往是一系列數(shù)據(jù)的展示,需要借助可視化技術(shù),以直觀、清晰的形式展示給用戶,方便用戶理解。
基于數(shù)據(jù)挖掘的高校學(xué)生行為分析平臺的總體架構(gòu)由底層到頂層可以分為:數(shù)據(jù)獲取層、數(shù)據(jù)處理與存儲層、數(shù)據(jù)分析層、數(shù)據(jù)服務(wù)層和數(shù)據(jù)應(yīng)用層,如圖2所示。
圖2 平臺架構(gòu)圖
(1)數(shù)據(jù)獲取層。數(shù)據(jù)獲取層依托一卡通系統(tǒng)、教務(wù)系統(tǒng)、圖書借閱系統(tǒng)和學(xué)工系統(tǒng)等校內(nèi)一系列的管理系統(tǒng)或平臺,收集學(xué)生的日常學(xué)習(xí)、生活等實時數(shù)據(jù),為后期的數(shù)據(jù)分析和挖掘提供數(shù)據(jù)支撐。
(2)數(shù)據(jù)處理與存儲層。根據(jù)研究目標(biāo),將獲取的不同數(shù)據(jù)源的學(xué)生行為數(shù)據(jù)進(jìn)行清洗、集成、轉(zhuǎn)換和規(guī)約,然后按照約定邏輯將其存儲在數(shù)據(jù)倉庫中,方便借助數(shù)據(jù)算法分析學(xué)生行為。同時,建立能夠?qū)?shù)據(jù)挖掘進(jìn)行支持的模型庫[9]。
(3)數(shù)據(jù)分析層。數(shù)據(jù)分析層的功能是根據(jù)用戶的請求和數(shù)據(jù)預(yù)處理得到的數(shù)據(jù)結(jié)構(gòu),選擇合適的數(shù)據(jù)挖掘算法,探尋、分析數(shù)據(jù)間的內(nèi)部關(guān)系,并構(gòu)建相應(yīng)的預(yù)測模型。
(4)數(shù)據(jù)服務(wù)層。數(shù)據(jù)服務(wù)層主要為學(xué)校各部門、各類用戶使用數(shù)據(jù)挖掘的結(jié)果提供接口服務(wù),服務(wù)的內(nèi)容包括可視化表達(dá)、預(yù)測預(yù)警、信息智能推送和各類行為主題庫。
(5)數(shù)據(jù)應(yīng)用層。學(xué)校各部門通過網(wǎng)頁和智慧校園APP使用數(shù)據(jù)服務(wù)層提供的各類服務(wù),包括學(xué)業(yè)預(yù)警、心理健康預(yù)測、異常行為分析、貧困生篩選、就業(yè)精準(zhǔn)指導(dǎo)、校園輿情態(tài)勢感知等,為學(xué)校管理的精準(zhǔn)化提供科學(xué)支撐。
高校學(xué)生行為數(shù)據(jù)分析平臺是在高校學(xué)生行為數(shù)據(jù)基礎(chǔ)上,實現(xiàn)對學(xué)生學(xué)習(xí)、消費(fèi)、軌跡、社交等行為的分析,推測學(xué)生的日常生活規(guī)律、學(xué)習(xí)習(xí)慣、消費(fèi)能力和心理狀態(tài)等。其主要功能包括功能數(shù)據(jù)管理、行為分析、預(yù)測預(yù)警、信息發(fā)布、平臺管理和用戶登錄,如圖3所示。
圖3 平臺模塊結(jié)構(gòu)圖
(1)數(shù)據(jù)管理。數(shù)據(jù)管理主要涵蓋數(shù)據(jù)采集、處理、分析和監(jiān)控四個方面。首先對采集到的原始數(shù)據(jù)進(jìn)行加工處理,存儲到數(shù)據(jù)庫中,然后對數(shù)據(jù)進(jìn)行聚類、關(guān)聯(lián)、回歸等分析,挖掘出符合實際的學(xué)生行為特征屬性,并將結(jié)果存入平臺數(shù)據(jù)庫中。數(shù)據(jù)監(jiān)控是對采集實時數(shù)據(jù)的接口進(jìn)行監(jiān)控,當(dāng)出現(xiàn)異常情況時,要及時通知管理人員解決。
(2)行為分析。學(xué)生行為分析主要對學(xué)生的學(xué)習(xí)、消費(fèi)、借閱、生活、社交等各類行為進(jìn)行分析。基于學(xué)生的學(xué)習(xí)成績、門禁數(shù)據(jù)、校園軌跡、圖書借閱、消費(fèi)數(shù)據(jù)等,進(jìn)行行為偏好、行為屬性和行為序列的多維分析,勾畫出學(xué)生的個人特征、學(xué)習(xí)現(xiàn)狀、生活規(guī)律、消費(fèi)能力、興趣愛好和交友情況[10]。
(3)預(yù)測預(yù)警。預(yù)測預(yù)警是根據(jù)平臺數(shù)據(jù)挖掘分析結(jié)果,判斷學(xué)生是否存在行為異常,預(yù)測一些潛在的問題,并給出相應(yīng)預(yù)警、警告信息,提醒學(xué)校相關(guān)人員及時進(jìn)行干預(yù)和處理。比如,根據(jù)消費(fèi)水平推測貧困生,根據(jù)學(xué)習(xí)行為給出掛科預(yù)警。在進(jìn)行預(yù)測預(yù)警時,根據(jù)不同的目標(biāo),選擇合適的算法模型。例如,采用XGboost回歸預(yù)測模型進(jìn)行學(xué)業(yè)預(yù)警,采用K-means算法進(jìn)行貧困生篩選,采用Apriori算法進(jìn)行心理預(yù)警。
(4)信息發(fā)布。信息發(fā)布是對平臺發(fā)布的信息進(jìn)行管理。根據(jù)信息的具體內(nèi)容設(shè)置不同的用戶權(quán)限,包括學(xué)校、學(xué)院、教師和學(xué)生四類用戶權(quán)限,信息發(fā)布之前均需要審核。
(5)平臺管理。平臺管理主要包括用戶管理、角色管理、日志管理和參數(shù)設(shè)置。用戶管理是對使用平臺的校級人員、院級人員、教師和學(xué)生的四類用戶進(jìn)行管理。因為學(xué)生行為分析平臺對接學(xué)校統(tǒng)一身份認(rèn)證平臺,因此平臺不需要對用戶基礎(chǔ)信息進(jìn)行管理,只需要配置每個用戶的角色。角色管理為每一個用戶設(shè)置一個唯一的角色,不同角色對應(yīng)的數(shù)據(jù)權(quán)限和功能權(quán)限是不同的,主要有管理員、學(xué)校、學(xué)院、教師和學(xué)生五類角色。日志管理是記錄所有用戶的在平臺上登錄和操作的詳情。參數(shù)設(shè)置是對平臺中所用參數(shù)進(jìn)行設(shè)置,包括行為分析和預(yù)測預(yù)警中用到的閾值。
為實現(xiàn)高校學(xué)生行為數(shù)據(jù)分析平臺的功能,平臺設(shè)計的核心數(shù)據(jù)表有系統(tǒng)表和業(yè)務(wù)表兩大類。系統(tǒng)表主要有角色表(ROLE)、功能菜單表(MENU)、角色權(quán)限表(ROLE_MENU)、系統(tǒng)用戶表(USER)、用戶角色表(USER_ROLE)、系統(tǒng)部門表(DEPARTMENT)、登錄日志表(LOGIN_LOG)、操作日志表(OPERATION_LOG)、字典表(DICTIONARY)、字典類型表(DICTIONARY_TYPE)和參數(shù)設(shè)置表(CONFIG)等;業(yè)務(wù)表主要有學(xué)生基本信息表(STUDENT_INFOR)、學(xué)院信息表(COLLEGE_INFOR)、課程信息表(COURSE_INFOR)、學(xué)生成績表(GRADE_INFOR)、學(xué)生學(xué)業(yè)信息表(STUDIES_INFOR)、學(xué)生獲獎信息表(AWARD_INFOR)、消費(fèi)流水表(COST_FLOW)、消費(fèi)信息表(COST_INFOR)、圖書借閱信息表(BOOK_BORROWING)、勤工助學(xué)信息表(PART-TIME_WORK)、學(xué)生就業(yè)表(STUDENT_EMP)、貧困生信息表(STUDENT_POOR)、門禁信息表(ACCESS_CONTROL)、生活軌跡表(STUDENT_TRACK)、學(xué)生行為標(biāo)簽信息表(BEHAVIOR_LABEL)、預(yù)警信息表(WARNING_INFOR)等。
以預(yù)警信息表為例,介紹數(shù)據(jù)庫表結(jié)構(gòu)的設(shè)計。預(yù)警信息表用于保存每條預(yù)警信息涉及的學(xué)生學(xué)號、預(yù)警時間、預(yù)警類型(0——學(xué)業(yè);1——心理;2——消費(fèi);3——貧困;4——失聯(lián);5——其他)、預(yù)警等級(0——一般;1——緊急;2——特緊急)、預(yù)警內(nèi)容和是否智能推送(0——是;1——否),其表結(jié)構(gòu)如表1所示。
表1 預(yù)警信息表
平臺基于Web的B/S架構(gòu),在Windows環(huán)境下開發(fā)。開發(fā)采用了遵循MVC設(shè)計模式的Django框架結(jié)構(gòu),選擇MySQL作為數(shù)據(jù)庫管理系統(tǒng),開發(fā)語言采用了JavaScript和Python,程序編寫借助Hbuilder和PyCharm環(huán)境。
Django是一個由Python語言寫成、開放源代碼的Web應(yīng)用框架,可以為用戶提供生動形象的HTML反饋頁面,使用它可以快速、便捷地開發(fā)高性能、易維護(hù)的Web應(yīng)用程序。
平臺開發(fā)用到了Python提供的許多經(jīng)典的擴(kuò)展庫,包括NumPy、Matplotlib和Pyechart等。NumPy是Python的科學(xué)計算庫,借助它實現(xiàn)了K-Means算法、Apriori算法、ID3算法和XGboost算法等數(shù)據(jù)挖掘算法;Matplotlib是Python的繪圖庫,它與NumPy搭配使用實現(xiàn)了數(shù)據(jù)分析結(jié)果的可視化;PyEcharts是Python與Echarts相結(jié)合產(chǎn)生的、功能強(qiáng)大的數(shù)據(jù)可視化工具,它不僅具有豐富的可視化類型、精美的圖表設(shè)計和良好的交互性,還可輕松集成至Django框架中,嵌入Web頁面。
在瀏覽器中輸入平臺地址以后,系統(tǒng)會跳轉(zhuǎn)到統(tǒng)一身份認(rèn)證界面,進(jìn)行統(tǒng)一身份認(rèn)證,如圖4所示。登錄成功,進(jìn)入平臺首頁如圖5所示。
圖4 統(tǒng)一身份認(rèn)證界面
首頁主要是學(xué)生行為數(shù)據(jù)的可視化展示,圖5展示的是從校園卡中采集的部分測試數(shù)據(jù),經(jīng)過數(shù)據(jù)預(yù)處理后保留了三個月的學(xué)生就餐數(shù)據(jù)、圖書館自習(xí)時長數(shù)據(jù)和上網(wǎng)時長數(shù)據(jù),使用K-Means算法進(jìn)行了聚類分析。
圖5 平臺首頁界面
左上是就餐地點(diǎn)與就餐次數(shù)統(tǒng)計表,它可以輔助后勤管理部門了解各食堂就餐情況,優(yōu)化飲食服務(wù);右上是學(xué)生在圖書館自習(xí)累計時長占比展示圖,直接反映學(xué)生最近一段時間內(nèi)的學(xué)習(xí)狀態(tài);右下是2021年4月份與2020年4月份上網(wǎng)時間對比圖,體現(xiàn)學(xué)生娛樂時間的變化;左下是將學(xué)生日常行為信息統(tǒng)籌分類,2021同比2020年由K-Means算法程序得到的聚類結(jié)果,映射了學(xué)生日常表現(xiàn)與學(xué)習(xí)成績之間存在的潛在聯(lián)系。
本文采用Django框架研發(fā)了基于數(shù)據(jù)挖掘的高校學(xué)生行為分析平臺,實現(xiàn)了學(xué)生行為數(shù)據(jù)的采集、處理、分析和預(yù)測預(yù)警等功能,并借助Python提供的擴(kuò)展庫完成了數(shù)據(jù)分析結(jié)果的可視化。平臺挖掘出的學(xué)生學(xué)習(xí)現(xiàn)狀、生活規(guī)律、消費(fèi)能力、興趣愛好和交友情況,為學(xué)校教育教學(xué)管理的科學(xué)化、精準(zhǔn)化提供了有力工具。