浙江農(nóng)業(yè)商貿(mào)職業(yè)學(xué)院 錢濤 陳樹偉 徐朝鋼
隨著高校智慧校園建設(shè)[1]的不斷推進(jìn),以及相關(guān)業(yè)務(wù)系統(tǒng)逐步上線,校園信息化環(huán)境中積累的數(shù)據(jù)也在逐漸膨脹,已經(jīng)形成了一個比較完整的校園大數(shù)據(jù)環(huán)境[2],校園一卡通系統(tǒng)作為智慧校園的重要組成部分,是高校核心業(yè)務(wù)系統(tǒng)之一,記錄了學(xué)生校園生活當(dāng)中的行為痕跡,通過對消費(fèi)數(shù)據(jù)分析,了解當(dāng)前學(xué)生的消費(fèi)水平與在校生活情況,為提升學(xué)校管理決策能力提供了數(shù)據(jù)基礎(chǔ)。
校園一卡通(架構(gòu)如圖1所示)作為智慧校園建設(shè)下基礎(chǔ)業(yè)務(wù)系統(tǒng)[3],整合學(xué)校的資源,將學(xué)生在校的各類消費(fèi)行為、學(xué)習(xí)行為、生活行為等功能集中于一張IC卡上,將學(xué)生在校的各類信息與資源進(jìn)行有效的整合與集成,方便了學(xué)生的生活與學(xué)校的管理。
圖1 一卡通架構(gòu)圖
一般來說,高校的一卡通系統(tǒng)均包含以下功能:金融服務(wù)功能、身份認(rèn)證功能、信息服務(wù)功能、整合服務(wù)功能。
(1)金融服務(wù)功能:包含日常消費(fèi)、充值功能(在線)、電子錢包的圈存、繳費(fèi)管理功能等,實(shí)現(xiàn)了校園內(nèi)貨幣結(jié)算的數(shù)字化和電子化。
(2)身份認(rèn)證功能:包含簽到功能、會議簽到功能、圖書借閱功能、樓宇門禁、上機(jī)認(rèn)證等,用于識別在校人員身份的基本功能。
(3)信息服務(wù)功能:包括流水查詢功能、線上查詢功能(公眾號、APP)等。
(4)整合服務(wù)功能:主要目的是實(shí)現(xiàn)各不同系統(tǒng)與部門之間數(shù)據(jù)共享、數(shù)據(jù)對接等要求,通過校園一卡通系統(tǒng)實(shí)現(xiàn)與圖書系統(tǒng)、教務(wù)系統(tǒng)之間的數(shù)據(jù)整合。
這四類功能系統(tǒng)在發(fā)揮作用的同時產(chǎn)生了大量的數(shù)據(jù),比如消費(fèi)數(shù)據(jù)、學(xué)校門禁數(shù)據(jù)、計算機(jī)上機(jī)數(shù)據(jù)等,這些數(shù)據(jù)通過一卡通系統(tǒng)平臺最終進(jìn)入數(shù)據(jù)庫之中,形成了一個龐大的數(shù)據(jù)資源。
本文的數(shù)據(jù)來源于浙江農(nóng)業(yè)商貿(mào)職業(yè)學(xué)院校園一卡通及其相關(guān)系統(tǒng),研究對象是2018學(xué)年上半學(xué)期的800個學(xué)生的一卡通使用數(shù)據(jù),其中包含學(xué)生的基本信息數(shù)據(jù)、一卡通消費(fèi)記錄數(shù)據(jù)(食堂、超市、洗浴)、圖書館借閱數(shù)據(jù)和寢室門禁數(shù)據(jù)。通過編寫SQL語句,將所需要的數(shù)據(jù)從數(shù)據(jù)庫(SQL Server 2008)中篩選出來,以csv文件導(dǎo)出,作為學(xué)生消費(fèi)行為數(shù)據(jù)挖掘的原始數(shù)據(jù)。
要進(jìn)行大數(shù)據(jù)分析,需對一卡通原始數(shù)據(jù)進(jìn)行預(yù)處理轉(zhuǎn)換成統(tǒng)計數(shù)據(jù),預(yù)處理一般包含數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)轉(zhuǎn)換三個部分。
(1)數(shù)據(jù)清洗:是指發(fā)現(xiàn)并糾正數(shù)據(jù)文件中可能存在錯誤的過程,包括缺失值數(shù)據(jù)(不完整數(shù)據(jù))的處理和噪聲數(shù)據(jù)的清理。如原始數(shù)據(jù)中退學(xué)、休學(xué)的學(xué)生消費(fèi)數(shù)據(jù)就是噪聲數(shù)據(jù),需將其剔除,實(shí)現(xiàn)數(shù)據(jù)降噪。
(2)數(shù)據(jù)集成:學(xué)生的成績數(shù)據(jù),圖書借閱數(shù)據(jù),一卡通消費(fèi)和數(shù)據(jù)在經(jīng)過數(shù)據(jù)清理后得到各自維度的數(shù)據(jù),利用相關(guān)中間件技術(shù)將各維數(shù)據(jù)進(jìn)行整合,如通過學(xué)生證號碼的唯一性將已處理好圖書借閱信息進(jìn)行累加、消費(fèi)金額進(jìn)行加權(quán)平均等操作。
(3)數(shù)據(jù)轉(zhuǎn)換:數(shù)據(jù)轉(zhuǎn)換是將已經(jīng)經(jīng)過數(shù)據(jù)清理和數(shù)據(jù)集成兩步之后的數(shù)據(jù)格式和結(jié)構(gòu)進(jìn)行轉(zhuǎn)化的過程,這一過程使數(shù)據(jù)具有一致性,適合數(shù)據(jù)挖掘。
經(jīng)過上述數(shù)據(jù)處理環(huán)節(jié),我們選取了相對全面、完整的學(xué)生行為特征字段(如表1所示),形成基礎(chǔ)數(shù)據(jù)集之后我們針對具體問題的分析選擇這個基礎(chǔ)數(shù)據(jù)集中特定的字段。
表1 學(xué)生行為特征數(shù)據(jù)選取
本文將采用數(shù)據(jù)挖掘中的K-means聚類分析算法,K-means是一種使用最為廣泛的基于劃分的聚類方法。它以特征距離作為標(biāo)準(zhǔn),即數(shù)據(jù)對象間的距離越小,則它們的相似性越高,它們劃分在同一類的可能性越大。K-means聚類算法[4]的偽代碼,如表2所示。
表2 K-means算法的偽代碼
表3 聚類功能的python代碼
本文使用的分析語言為Python,使用的環(huán)境python3.6+eclipse4.7+PyDev5.7。表3為計算元素與聚類中心之間歐式距離功能的Python代碼。
通過選取預(yù)處理后的學(xué)生消費(fèi)行為數(shù)據(jù)中的相關(guān)字段,對學(xué)生的行為數(shù)據(jù)、消費(fèi)數(shù)據(jù)分別進(jìn)行K-means聚類分析,表4、表5分別展示學(xué)生行為數(shù)據(jù)聚類結(jié)果和學(xué)生消費(fèi)數(shù)據(jù)聚類結(jié)果。
表4 學(xué)生行為聚類—五種聚類中心結(jié)果
從上述行為數(shù)據(jù)聚類的結(jié)果中來看,第一類學(xué)生:早餐的頻率較低,中餐、晚餐比較正常,說明該類學(xué)生可能存在晚起的現(xiàn)象,作息不太規(guī)律;第二類學(xué)生:三餐規(guī)律,基本在食堂就餐,圖書借閱、打水和洗浴頻率也較正常,說明該類學(xué)生生活比較規(guī)律;第三類學(xué)生,早餐和晚餐就餐頻率極低,打水、洗浴無相關(guān)記錄,說明該類學(xué)生不住校,應(yīng)該以走讀為主,較少參加班級活動;第四類學(xué)生,三餐次數(shù)和打水、洗浴次數(shù)較第二類同學(xué)略少,說明該類同學(xué)可能周末經(jīng)?;丶遥坏谖孱悓W(xué)生,打水次數(shù)較低,可能存在違規(guī)電器,三餐在食堂就餐頻率較少,晚餐叫外賣的可能性比較大,說明該學(xué)生生活不規(guī)律。
表5 消費(fèi)數(shù)據(jù)—五種聚類中心結(jié)果
從上述消費(fèi)數(shù)據(jù)的聚類結(jié)果來看,第一類學(xué)生:消費(fèi)總額、午餐均價、消費(fèi)總次數(shù)均接近樣本總量均值,說明該類學(xué)生消費(fèi)水平中等,消費(fèi)穩(wěn)定,校內(nèi)消費(fèi)占整體消費(fèi)水平較高;第二類學(xué)生:超市消費(fèi)占總消費(fèi)比例較高,消費(fèi)總次數(shù)偏低,可能較多的校外消費(fèi)(外出就餐、外賣等);第三類學(xué)生:消費(fèi)總金額和食堂消費(fèi)金額兩項(xiàng)水平高,說明該類學(xué)生校內(nèi)消費(fèi)水平較高,生活水平較好;第四類學(xué)生:消費(fèi)水平居中,消費(fèi)總金額較少,該類學(xué)生可能走讀或者存在大量的校外消費(fèi)。第五類學(xué)生:各項(xiàng)消費(fèi)指數(shù)均低于均值,該類學(xué)生消費(fèi)水平較低或者生活比較節(jié)儉。
筆者通過學(xué)生一卡通數(shù)據(jù)進(jìn)行清洗、集成、轉(zhuǎn)換等數(shù)據(jù)預(yù)處理手段,將原始數(shù)據(jù)轉(zhuǎn)化成包含學(xué)生行為特征字段的統(tǒng)計數(shù)據(jù),結(jié)合數(shù)據(jù)挖掘技術(shù),使用K-means算法將學(xué)生分為 5個群體,分析不同類別學(xué)生的行為特征和消費(fèi)特征。然而本文在對行為數(shù)據(jù)分析的過程中,研究對象所在的學(xué)生行為數(shù)據(jù)還不是很完善,并未包含其他業(yè)務(wù)系統(tǒng)數(shù)據(jù)(教務(wù)系統(tǒng)、學(xué)工系統(tǒng)等),所以將在后續(xù)的研究中獲取更加全面的數(shù)據(jù),對學(xué)生的在校行為更加精準(zhǔn)的判斷,有利于對行為分析更好的研究。