摘 要:高職學(xué)校內(nèi)通常存在多個與學(xué)生相關(guān)的信息系統(tǒng),每個系統(tǒng)都由不同部門管理,數(shù)據(jù)格式和標(biāo)準(zhǔn)不統(tǒng)一,導(dǎo)致學(xué)生信息分散在各個孤立的系統(tǒng)中,難以整合。因此,本文設(shè)計了一種基于大數(shù)據(jù)技術(shù)的高職學(xué)生信息管理系統(tǒng)。闡述了系統(tǒng)的總體架構(gòu),分為多數(shù)據(jù)源采集學(xué)生信息的數(shù)據(jù)采集層、采用分布式存儲的數(shù)據(jù)存儲層、對數(shù)據(jù)進(jìn)行清洗和挖掘的數(shù)據(jù)處理與分析層、為不同用戶提供服務(wù)的應(yīng)用服務(wù)層以及保障數(shù)據(jù)和系統(tǒng)安全的安全保障層。測試試驗表明,該系統(tǒng)能滿足高職學(xué)校日常辦公和高峰業(yè)務(wù)時期的學(xué)生信息管理需求,為高職教育管理提供高效、穩(wěn)定的信息管理方案。
關(guān)鍵詞:大數(shù)據(jù)技術(shù);高職學(xué)生;信息管理;系統(tǒng)設(shè)計
中圖分類號:TP 399" " 文獻(xiàn)標(biāo)志碼:A
高職教育作為高等教育的重要組成部分,其學(xué)生規(guī)模持續(xù)擴(kuò)大,學(xué)生信息管理面臨前所未有的挑戰(zhàn)[1]。高職學(xué)生信息管理的質(zhì)量和效率直接關(guān)系學(xué)校教學(xué)質(zhì)量、學(xué)生培養(yǎng)以及日常管理等一系列重要工作的開展。一方面,隨著信息化程度加深,高職學(xué)校內(nèi)部的信息系統(tǒng)日益繁雜,在線教育平臺、實習(xí)就業(yè)平臺等外部數(shù)據(jù)源產(chǎn)生了大量與學(xué)生相關(guān)的數(shù)據(jù),在接入學(xué)校信息管理體系時困難重重,包括數(shù)據(jù)格式轉(zhuǎn)換、安全合規(guī)等問題[2]。另一方面,數(shù)據(jù)質(zhì)量問題層出不窮,人工錄入的信息存在錯誤,例如姓名、學(xué)號的混淆以及成績、獎懲記錄的不準(zhǔn)確,現(xiàn)有數(shù)據(jù)完整性欠佳,往往只涵蓋部分維度,無法全面勾勒學(xué)生的真實狀態(tài)。因此,構(gòu)建基于大數(shù)據(jù)技術(shù)的高職學(xué)生信息管理系統(tǒng)迫在眉睫,該系統(tǒng)整合學(xué)生在學(xué)業(yè)、生活、社交等多方面的數(shù)據(jù),挖掘有價值的信息,為學(xué)校的教學(xué)管理、學(xué)生管理等決策提供有力支持,以期更好地服務(wù)教師、輔導(dǎo)員和學(xué)生,提高信息管理的效率和準(zhǔn)確性。
1 高職學(xué)生信息管理系統(tǒng)總框架設(shè)計
基于大數(shù)據(jù)技術(shù)的高職學(xué)生信息管理系統(tǒng)可以整合高職學(xué)生的各類信息,包括學(xué)業(yè)、生活、社交等,形成全面的學(xué)生信息畫像,具體的框架設(shè)計如圖1所示。
在該系統(tǒng)中,數(shù)據(jù)采集層從內(nèi)部的教務(wù)系統(tǒng)(課程、成績、選課信息)、學(xué)生工作管理系統(tǒng)(基本、獎懲、社團(tuán)信息)、校園一卡通系統(tǒng)(消費、門禁數(shù)據(jù))采集信息,也可從外部在線學(xué)習(xí)平臺(學(xué)習(xí)時長等)、社交平臺(授權(quán)情況下的社交關(guān)系等)采集信息。數(shù)據(jù)處理與分析層進(jìn)行數(shù)據(jù)清洗與預(yù)處理(缺失值、異常值處理和數(shù)據(jù)標(biāo)準(zhǔn)化),并通過學(xué)業(yè)、行為、心理和社交分析挖掘價值。應(yīng)用服務(wù)層包括學(xué)生信息查詢和展示,教師、輔導(dǎo)員、學(xué)生從各自端口查詢相關(guān)信息;同時為管理決策支持服務(wù),教學(xué)和學(xué)生管理部門據(jù)此優(yōu)化課程、制定政策。安全保障層注重數(shù)據(jù)安全(訪問控制、數(shù)據(jù)加密)和系統(tǒng)安全(防火墻與入侵檢測、備份與恢復(fù)),保證系統(tǒng)穩(wěn)定運行。
2 系統(tǒng)各層級設(shè)計
2.1 學(xué)生信息采集層
學(xué)生信息采集層可以確定采集范圍和計劃,明確學(xué)生在學(xué)校教務(wù)系統(tǒng)、學(xué)生管理系統(tǒng)、校園一卡通系統(tǒng)等內(nèi)部系統(tǒng)以及合法授權(quán)的外部在線學(xué)習(xí)平臺等產(chǎn)生的相關(guān)數(shù)據(jù)都在采集范圍內(nèi)[3]。針對不同數(shù)據(jù)源制定詳細(xì)計劃,例如針對教務(wù)系統(tǒng),根據(jù)其數(shù)據(jù)庫結(jié)構(gòu)和數(shù)據(jù)更新周期確定采集頻率和方式。針對外部在線學(xué)習(xí)平臺,根據(jù)平臺提供的數(shù)據(jù)獲取協(xié)議確定采集方法。使用JDBC數(shù)據(jù)庫連接技術(shù),通過編寫SQL查詢語句從教務(wù)系統(tǒng)數(shù)據(jù)庫中提取學(xué)生學(xué)號、姓名、課程名稱、課程學(xué)分、平時成績、考試成績、補(bǔ)考標(biāo)記等數(shù)據(jù)。針對學(xué)生管理系統(tǒng)和一卡通系統(tǒng)等其他內(nèi)部系統(tǒng),也采用類似的數(shù)據(jù)庫連接和查詢技術(shù)獲取相應(yīng)數(shù)據(jù)。針對一些以特定格式存儲的數(shù)據(jù)文件(例如學(xué)生基本信息的CSV文件),使用文件讀取和解析技術(shù)。如果CSV文件中每行數(shù)據(jù)格式為(student_id,student_name,gender,birth_date,...),就通過讀取每行并按逗號分割字符串來獲取數(shù)據(jù)。
如果平臺允許,可使用網(wǎng)絡(luò)爬蟲技術(shù)(需要遵循平臺的使用規(guī)則和robots.txt文件),根據(jù)平臺網(wǎng)頁結(jié)構(gòu)編寫爬蟲程序來獲取數(shù)據(jù)。如果平臺提供API,就通過調(diào)用API獲取指定學(xué)生的學(xué)習(xí)數(shù)據(jù),包括課程學(xué)習(xí)時長、學(xué)習(xí)頻率、作業(yè)提交時間和成績、討論區(qū)參與情況等。在數(shù)據(jù)采集過程中,同時進(jìn)行完整性檢查,設(shè)采集的有效數(shù)據(jù)量為Nv,應(yīng)采集的數(shù)據(jù)總量為Nt,數(shù)據(jù)完整性比率CR如公式(1)所示。
(1)
通過計算來衡量完整性,如果CR接近100%,說明采集順利;如果CR比率低,就需要檢查采集環(huán)節(jié)是否有遺漏。將采集的成績數(shù)據(jù)與學(xué)校官方成績登記冊進(jìn)行對比驗證,將經(jīng)過檢查的數(shù)據(jù)傳輸?shù)脚R時存儲區(qū)域,等待進(jìn)一步處理,確保數(shù)據(jù)在傳輸過程中的穩(wěn)定性和完整性,可使用SFTP數(shù)據(jù)傳輸協(xié)議進(jìn)行傳輸。
2.2 數(shù)據(jù)處理分析層
數(shù)據(jù)處理分析層首先對采集的學(xué)生信息數(shù)據(jù)進(jìn)行缺失值檢查,針對數(shù)值型數(shù)據(jù)(例如成績),如果某學(xué)生的某門課程成績?nèi)笔?,可通過計算該課程其他學(xué)生成績的均值來填充;針對非數(shù)值型數(shù)據(jù)(例如家庭住址),如果缺失,可根據(jù)學(xué)生的班級、籍貫等相關(guān)信息進(jìn)行合理推測或標(biāo)記為缺失值待后續(xù)處理。接著進(jìn)行異常值處理,針對成績數(shù)據(jù),可通過箱線圖法確定異常值范圍,超出此范圍的值視為異常值,對其進(jìn)行檢查,如果為數(shù)據(jù)錄入錯誤,就修正;如果為特殊情況(例如免考等),就進(jìn)行標(biāo)注。經(jīng)過缺失值和異常值處理后,數(shù)據(jù)的質(zhì)量得到提高,減少因數(shù)據(jù)問題導(dǎo)致的分析偏差,使后續(xù)分析結(jié)果更可靠。針對不同范圍的數(shù)值型數(shù)據(jù)(例如成績數(shù)據(jù)可能是0分~100分,而消費金額數(shù)據(jù)范圍差異大),使用標(biāo)準(zhǔn)化公式將數(shù)據(jù)轉(zhuǎn)換為均值為0,標(biāo)準(zhǔn)差為1的標(biāo)準(zhǔn)正態(tài)分布數(shù)據(jù),具體如公式(2)所示。
(2)
式中:x為原始數(shù)據(jù);μ為均值;σ為標(biāo)準(zhǔn)差。
當(dāng)對標(biāo)準(zhǔn)化后的數(shù)據(jù)進(jìn)行數(shù)據(jù)分析和模型建立時,不同變量具有相同的尺度,避免了某些變量因數(shù)值范圍大而對結(jié)果產(chǎn)生過大影響。數(shù)據(jù)挖掘過程中,為進(jìn)行學(xué)業(yè)分析,可以使用K-Means算法,如公式(3)所示。
(3)
式中:E為誤差平方和;k為聚類數(shù);ci為第i個聚類;μi為第i個聚類的中心。
通過不斷迭代最小化來確定聚類,將學(xué)生按學(xué)習(xí)成績和能力聚類成不同層次(優(yōu)秀、良好、中等、較差)。另外,關(guān)聯(lián)規(guī)則挖掘可通過Apriori算法使用學(xué)生的課程成績、選課情況等數(shù)據(jù)進(jìn)行分析。通過聚類分析可以了解學(xué)生整體的學(xué)業(yè)水平分布,為個性化教學(xué)提供依據(jù),關(guān)聯(lián)規(guī)則挖掘能幫助優(yōu)化課程設(shè)置和教學(xué)安排。時間序列分析可對一卡通的消費時間、門禁進(jìn)出時間等數(shù)據(jù)進(jìn)行分析,例如使用自回歸移動平均模型(ARMA)頻繁模式挖掘可通過FP-Growth算法等挖掘?qū)W生經(jīng)常出沒的場所和活動路徑(通過計算項集的支持度,找出頻繁項集),及時發(fā)現(xiàn)學(xué)生的異常行為,例如作息時間的突然改變、異常的活動路徑等,為校園安全管理和學(xué)生關(guān)懷提供支持。
對數(shù)據(jù)分析和挖掘得到的結(jié)果進(jìn)行整合,包括學(xué)業(yè)分析結(jié)果、行為分析結(jié)果、心理與社交分析結(jié)果等。將整合后的結(jié)果存儲到專門的數(shù)據(jù)庫或數(shù)據(jù)倉庫中,可使用關(guān)系型MySQL數(shù)據(jù)庫存儲結(jié)構(gòu)化的分析結(jié)果,針對一些復(fù)雜的分析結(jié)果(例如社交網(wǎng)絡(luò)關(guān)系圖等),可使用NoSQL數(shù)據(jù)庫存儲,方便后續(xù)的應(yīng)用服務(wù)層對分析結(jié)果進(jìn)行查詢和使用,為學(xué)校管理決策提供有力支持。
2.3 應(yīng)用服務(wù)層
在應(yīng)用服務(wù)層,學(xué)生信息查詢與展示在不同用戶端有不同情況。教師端從成績數(shù)據(jù)庫、考勤數(shù)據(jù)庫、作業(yè)管理數(shù)據(jù)庫查詢學(xué)號、姓名、課程成績、出勤次數(shù)、作業(yè)完成情況,借助成績分布和出勤統(tǒng)計了解學(xué)習(xí)狀態(tài),從而調(diào)整教學(xué)策略;輔導(dǎo)員端通過關(guān)聯(lián)學(xué)生基本信息表、獎懲情況表、心理測評表等,查詢基本信息、生活情況、獎懲情況、心理狀態(tài),利用綜合評估報告發(fā)現(xiàn)學(xué)生問題;學(xué)生端從成績數(shù)據(jù)庫、課程表數(shù)據(jù)庫、一卡通消費數(shù)據(jù)庫查詢學(xué)號、姓名、已修課程成績、課程安排、消費記錄,以此獲取個性化建議和生活提示。
教師登錄認(rèn)證后,根據(jù)權(quán)限查詢所教班級學(xué)生信息,包括成績、出勤和作業(yè)情況等。通過界面展示相關(guān)數(shù)據(jù),例如成績分布、出勤率等,輔助教師調(diào)整教學(xué)策略。輔導(dǎo)員登錄認(rèn)證后,獲取負(fù)責(zé)學(xué)生全面信息(基本、獎懲、心理等),以報表形式查看綜合評估結(jié)果,以此發(fā)現(xiàn)學(xué)生問題。學(xué)生登錄后可查看自身學(xué)業(yè)成績、課程安排和消費記錄等,系統(tǒng)還會根據(jù)這些信息提供個性化學(xué)習(xí)建議和生活提示。
管理決策支持板塊中,教學(xué)管理人員登錄系統(tǒng)后,獲取學(xué)業(yè)分析報告、課程關(guān)聯(lián)分析結(jié)果等,這些結(jié)果存儲在數(shù)據(jù)倉庫特定表中。使用學(xué)業(yè)分析中的成績分布、及格率、課程關(guān)聯(lián)關(guān)系數(shù)據(jù)以及教師教學(xué)評價數(shù)據(jù),通過可視化工具直觀了解教學(xué)情況,根據(jù)不及格率、課程關(guān)聯(lián)分析結(jié)果決定教學(xué)調(diào)整策略,例如調(diào)整教學(xué)內(nèi)容或更換教師。學(xué)生管理決策可以在學(xué)生管理部門人員登錄系統(tǒng)后,根據(jù)學(xué)生行為分析、心理分析結(jié)果制定決策,包括作息規(guī)律、門禁數(shù)據(jù)異常情況、心理測評和情感分析結(jié)果。使用行為分析中的一卡通消費數(shù)據(jù)、門禁數(shù)據(jù),心理分析中的心理測評數(shù)據(jù)、社交平臺情感分析數(shù)據(jù)等。根據(jù)分析結(jié)果開展心理健康教育活動、合理安排宿舍管理和校園安全檢查等工作。
2.4 安全保障層
在安全保障層中,高職學(xué)生信息數(shù)據(jù)安全流程中要先進(jìn)行訪問控制,為系統(tǒng)中的不同用戶(教師、輔導(dǎo)員、學(xué)生等)創(chuàng)建獨立的賬號體系。當(dāng)用戶注冊或創(chuàng)建賬號時,收集必要信息(例如姓名、工號/學(xué)號、聯(lián)系方式等),并要求用戶設(shè)置密碼,當(dāng)用戶登錄系統(tǒng)時進(jìn)行身份認(rèn)證。通過驗證用戶名(或工號/學(xué)號)和密碼的匹配性來確認(rèn)用戶身份,將用戶輸入的密碼進(jìn)行SHA-256哈希處理后與存儲在數(shù)據(jù)庫中的哈希值進(jìn)行比對。根據(jù)用戶角色(存儲在用戶信息表中的角色字段,例如role字段值為teacher、counselor、student)進(jìn)行授權(quán)管理。不同角色具有不同的權(quán)限,教師可以訪問所教班級學(xué)生信息,輔導(dǎo)員可訪問其管理范圍內(nèi)學(xué)生更全面信息,學(xué)生只能訪問自己的個人信息。這種權(quán)限信息存儲在權(quán)限表中,通過關(guān)聯(lián)用戶表和權(quán)限表來確定每個用戶的具體權(quán)限。通過身份認(rèn)證和授權(quán)管理,有效防止非法用戶訪問系統(tǒng)數(shù)據(jù),保障數(shù)據(jù)的保密性和完整性,確保只有合法授權(quán)用戶能夠獲取和操作相應(yīng)的數(shù)據(jù)。
針對存儲在數(shù)據(jù)庫和文件系統(tǒng)中的敏感數(shù)據(jù)(例如學(xué)生的身份證號碼、家庭住址、銀行卡信息等),采用AES對稱加密算法,在對稱加密中,使用一個密鑰對數(shù)據(jù)進(jìn)行加密和解密。非對稱加密使用一對密鑰(公鑰和私鑰),公鑰用于加密數(shù)據(jù),私鑰用于解密,向服務(wù)器發(fā)送敏感數(shù)據(jù)時,客戶端使用服務(wù)器的公鑰對數(shù)據(jù)進(jìn)行加密,服務(wù)器收到后使用自己的私鑰解密。針對數(shù)據(jù)傳輸過程,采用HTTPS加密協(xié)議,通過SSL/TLS協(xié)議在客戶端和服務(wù)器之間建立安全通道,對傳輸?shù)臄?shù)據(jù)進(jìn)行加密。數(shù)據(jù)加密確保即使數(shù)據(jù)在存儲或傳輸過程中被非法獲取,攻擊者也無法直接獲取明文信息,大大提高了數(shù)據(jù)的安全性,可以保護(hù)學(xué)生的隱私。
3 系統(tǒng)測試
3.1 試驗環(huán)境
本次試驗準(zhǔn)備主要涵蓋測試環(huán)境搭建與測試工具。在測試環(huán)境搭建的硬件方面,服務(wù)器選用戴爾PowerEdge R740xd,其英特爾至強(qiáng)金牌6248R CPU主頻2.5GHz、40核,搭配512GB DDR4內(nèi)存和10TB RAID 5陣列硬盤,用于部署高職學(xué)生信息管理系統(tǒng)和大數(shù)據(jù)組件??蛻舳藙t是5臺聯(lián)想ThinkPad E15筆記本,酷睿i7-1165G7 CPU(2.8GHz、4核8線程)、16GB內(nèi)存和1TB SSD硬盤,模擬用戶操作。網(wǎng)絡(luò)設(shè)備為華為S5735-S48T4X-AI交換機(jī),保障1000Mbit/s帶寬的網(wǎng)絡(luò)連接。服務(wù)器安裝CentOS 7.9操作系統(tǒng),客戶端安裝Windows 10專業(yè)版。
3.2 試驗結(jié)果
在本次基于大數(shù)據(jù)技術(shù)的高職學(xué)生信息管理系統(tǒng)性能測試中,選擇50、150、300、450和600并發(fā)用戶數(shù)節(jié)點,性能測試結(jié)果見表1。
在響應(yīng)速度方面,低并發(fā)(50用戶)時平均響應(yīng)時間僅0.35s,為用戶帶來極佳操作體驗,日常輕負(fù)載下系統(tǒng)響應(yīng)迅速。高并發(fā)(600用戶)下雖響應(yīng)時間升至3.05s,但未出現(xiàn)無響應(yīng)或嚴(yán)重卡頓,顯示系統(tǒng)應(yīng)對高負(fù)載的設(shè)計能力,在高壓環(huán)境下仍能維持基本可用性,保障用戶正常使用。處理能力上,低并發(fā)(50)時TPS達(dá)120.50,體現(xiàn)處理少量請求的高效性。隨著并發(fā)用戶數(shù)增多TPS逐漸降低,但系統(tǒng)始終保持相對穩(wěn)定處理能力,600并發(fā)時TPS為65.30,這表明系統(tǒng)能在不同負(fù)載下持續(xù)處理大量業(yè)務(wù)操作,具備良好適應(yīng)性和業(yè)務(wù)處理能力,可滿足多樣化業(yè)務(wù)場景。傳輸速率方面,從50并發(fā)時的110.25Mbit/s到600并發(fā)時的80.50Mbit/s,雖然數(shù)值下降,但一直保持較高水平,說明系統(tǒng)在網(wǎng)絡(luò)傳輸方面優(yōu)化到位,能保證不同負(fù)載下的數(shù)據(jù)高效傳輸,有效避免用戶受網(wǎng)絡(luò)傳輸問題干擾。
4 結(jié)語
本文設(shè)計的基于大數(shù)據(jù)技術(shù)的高職學(xué)生信息管理系統(tǒng)為高職學(xué)生信息管理提供了一種全面且高效的解決方案。通過各層級的精心設(shè)計和大數(shù)據(jù)技術(shù)的應(yīng)用,系統(tǒng)在性能和功能上都展現(xiàn)出良好的特性。然而,隨著技術(shù)不斷發(fā)展和高職教育環(huán)境變化,系統(tǒng)仍有持續(xù)改進(jìn)和優(yōu)化的空間。未來可進(jìn)一步探索更先進(jìn)的數(shù)據(jù)挖掘算法和人工智能技術(shù)在系統(tǒng)中的應(yīng)用,以更好地滿足高職教育管理日益增長的需求,為高職學(xué)生的成長和發(fā)展提供更優(yōu)質(zhì)的信息服務(wù)保障。
參考文獻(xiàn)
[1]王海峰,張德文,朱仁杰.基于大數(shù)據(jù)的高職學(xué)生網(wǎng)格化管理模式構(gòu)建探究[J].吉林省教育學(xué)院學(xué)報,2024,40(7):167-171.
[2]葉夢霞.基于“互聯(lián)網(wǎng)+”背景探討高職學(xué)生管理信息化建設(shè)路徑[J].現(xiàn)代職業(yè)教育,2024(20):157-160.
[3]唐昊霞,李力,劉錦江.ChatGPT在高職院校MySQL數(shù)據(jù)庫教學(xué)中的應(yīng)用研究[J].物聯(lián)網(wǎng)技術(shù),2024,14(6):156-158.