朱丹妮
(延安職業(yè)技術(shù)學院 陜西 延安 716000)
隨著高校信息化的建設與發(fā)展,高校建立了數(shù)字化系統(tǒng)以提升學校的管理水平。 校園一卡通作為高校信息化建設的核心部分,存儲了海量的學生消費支出等數(shù)據(jù),其中,消費數(shù)據(jù)可以很大程度地反映學生的行為。 因此分析學生的消費數(shù)據(jù),對于把握學生行為,輔助管理者制定高效的管理策略具有重要意義。
目前,對于學生消費數(shù)據(jù)的研究主要是利用聚類算法分析學生行為[1-2]。 游香薷等[3]通過優(yōu)化初始聚類中心改進了K-means 聚類算法,研究分析了一體機的消費數(shù)據(jù)。 Agrawal 等[4]利用K-means 和K-medoids 對學生的學業(yè)進度進行聚類分析,構(gòu)建了學生成績信息檢測模型。Hou 等[5]首先通過K-means 聚類得到學生消費群體的分類,然后利用BP 神經(jīng)網(wǎng)絡模型對學生消費群體進行預測。 Bao 等[6]提出一種基于K-mediods 聚類和Eclat 分類算法,綜合分析影響學生行為的因素。 董新科等[7]利用常見的幾種聚類算法對校園一卡通消費數(shù)據(jù)進行實驗比較,發(fā)現(xiàn)K-means 算法最適合對消費數(shù)據(jù)進行聚類分析。 因此,本文采用K-means 算法對校園一卡通學生消費數(shù)據(jù)進行聚類分析,以把握學生消費行為,再通過SVM 算法構(gòu)建分類模型,以分析學生所屬消費群體,從而輔助指導對學校貧困生認定工作。
本文的研究是基于延安職業(yè)技術(shù)學院2018—2021 級所有在校生的校園一卡通消費數(shù)據(jù)為數(shù)據(jù)源,其原始數(shù)據(jù)一共包含全校師生228 194 條消費數(shù)據(jù)。 首先在一卡通平臺抽取學生信息數(shù)據(jù)以及相應消費數(shù)據(jù),然后對抽取的數(shù)據(jù)進行清洗,接著對清洗后的數(shù)據(jù)進行標準化處理,最后根據(jù)標準化的數(shù)據(jù)構(gòu)建消費水平分析模型為學生管理提供建議。 校園一卡通的數(shù)據(jù)主要包括學號/工號、消費時間、消費金額、消費地點等13 個屬性,本次研究只抽取學號/工號、消費時間、消費金額、消費地點4 個屬性。
根據(jù)對校園一卡通系統(tǒng)數(shù)據(jù)的觀察,發(fā)現(xiàn)該系統(tǒng)抽取的原始數(shù)據(jù)不僅包括學生的消費數(shù)據(jù),還包含學校教職工的消費數(shù)據(jù)。 利用學生學號的長度與教師工號長度的不同,篩選學生的消費數(shù)據(jù)。 主要采用2018—2021 級所有在校生在2021 年9 月—2021 年12 月和2022 年3 月—2022 年6 月時段的消費數(shù)據(jù)作為研究對象。
校園一卡通消費數(shù)據(jù)聚類特征主要基于以下假設[8]:①貧困生在校使用校園一卡通的刷卡頻率比非貧困生的高。 ②貧困生在校刷一卡通的總消費額比非貧困生多。③貧困生在校刷一卡通的次均消費金額比非貧困生的少。基于以上假設,本文將學生在不同時間、不同地點的消費數(shù)據(jù)進行數(shù)據(jù)整合,獲得總消費額、單筆消費均值和總消費次數(shù)。
在使用消費數(shù)據(jù)前,先對預處理后的數(shù)據(jù)進行數(shù)據(jù)清洗。 對學生的消費數(shù)據(jù)樣本分析,發(fā)現(xiàn)數(shù)據(jù)集中包含學生的充值數(shù)據(jù)和消費數(shù)據(jù)2 大類,篩選掉充值數(shù)據(jù),只保留消費數(shù)據(jù)。 此外,數(shù)據(jù)集中部分學生的消費記錄較少,可能由于這些學生在校外消費較多,因此這些學生的消費數(shù)據(jù)不具有代表性,而且會影響后續(xù)聚類的結(jié)果,在此引入必要消費次數(shù)[9]的概念。 其可以表示為公式(1):
式(1)中,t為學期必要消費次數(shù),T為全部學生學期平均消費次數(shù),f為必要消費控制因子。 一般地,必要消費控制因子的范圍在0.75 ~0.85 之間,為了保留更多的有效數(shù)據(jù),選取必要消費因子為0.75。 通過計算,篩選并過濾學生總消費次數(shù)小于學期必要消費次數(shù)的數(shù)據(jù)。
在聚類分析中,要求所選擇的聚類變量之間不能高度相關(guān),因此對總消費額、單筆消費均值和總消費次數(shù)3 個變量進行相關(guān)性分析。 本文利用總體皮爾遜相關(guān)系數(shù)分析各變量間的相關(guān)性[10]。
總體皮爾遜相關(guān)系數(shù)通常用來反映2 個隨機變量之間的線性相關(guān)程度。 對于2 組變量X:{X1,X2,…,Xn}和Y:{Y1,Y2,…,Yn},總體皮爾遜相關(guān)系數(shù)可以表示為公式(2):
式(2)中,σX,σY分別為變量X和變量Y的標準差,E(X),E(Y) 分別為變量X和變量Y的均值。ρXY取值為1時,表示2 組變量之間呈完全正相關(guān);取值為-1 時,表示2組變量之間呈完全負相關(guān);取值為0 時,表示2 組變量之間線性無關(guān)。
圖1利用總體皮爾遜相關(guān)系數(shù)矩陣分析各變量的相關(guān)關(guān)系,由圖1 可知,消費總額與總消費次數(shù)之間的相關(guān)性為-0.90,消費總額與單筆消費均值之間的相關(guān)性為0.22,總消費次數(shù)與單筆消費均值之間的相關(guān)性為0.17,因此選擇相關(guān)性較小的2 組聚類變量,故選擇總消費次數(shù)與單筆消費均值作為聚類變量。
圖1 各變量相關(guān)關(guān)系的可視化
由于聚類分析容易受到聚類變量的測量單位的影響,其中單筆消費均值和總消費次數(shù)這2 項指標的量綱和數(shù)量級不同,為了便于決策評價,將原始數(shù)據(jù)轉(zhuǎn)化為無量綱數(shù)據(jù),即對這2 項指標進行極差規(guī)格化處理。
極差規(guī)格化變換[11]是數(shù)據(jù)矩陣第j列的第i個原始數(shù)據(jù)xij中減去該列中的最小值,再除以第j列的極差(即第j列的最大值和最小值之差),可獲得第j列的極差規(guī)格化數(shù)據(jù),其可以表示為公式(3):
通過極差規(guī)格化變換后的第j列數(shù)據(jù)的最大值為1,最小值為0,其余數(shù)據(jù)取值均在0 和1 之間;而且變換后的數(shù)據(jù)都不再具備量綱,便于不同變量之間的比較。 標準化后的總消費次數(shù)與單筆消費均值數(shù)據(jù)分別記為Index1 和Index2。
本文所提出基于校園一卡通數(shù)據(jù)的學生消費水平分析模型總體流程如圖2 所示。 其流程主要分為3 部分,即消費數(shù)據(jù)的提取及預處理、構(gòu)建消費聚類模型、構(gòu)建消費分類模型。
圖2 基于校園一卡通數(shù)據(jù)的學生消費水平分析模型總體流程
(1)消費數(shù)據(jù)的提取及預處理。 在消費數(shù)據(jù)的提取及預處理過程中,首先在一卡通平臺抽取消費數(shù)據(jù),然后將抽取的數(shù)據(jù)進行預處理和標準化,接著對處理后的數(shù)據(jù)提取屬性特征。 將消費屬性特征數(shù)據(jù)分為訓練數(shù)據(jù)和測試數(shù)據(jù)。
(2)構(gòu)建消費聚類模型。 在構(gòu)建消費聚類模型階段,對于消費屬性特征數(shù)據(jù)進行聚類,得到不同消費群體的聚類標簽數(shù)據(jù)。
(3)構(gòu)建消費分類模型。 通過具有消費屬性特征的訓練數(shù)據(jù)與訓練數(shù)據(jù)所對應的聚類標簽數(shù)據(jù)共同構(gòu)建分類模型,具有消費屬性特征測試數(shù)據(jù)輸入到構(gòu)建好的分類模型,可獲得具有消費屬性特征測試數(shù)據(jù)中的學生所在消費群體類別。
采用K-means 算法對第1 部分構(gòu)建的數(shù)據(jù)集進行聚類分析。 K-means 算法中,聚類簇數(shù)k是一個重要參數(shù),通過肘部法或輪廓系數(shù)法確定合適的聚類簇數(shù)k。 其中,輪廓系數(shù)的取值范圍為[-1,1],系數(shù)越大,聚類效果越好。 本文根據(jù)輪廓系數(shù)法,從2 類到9 類依次進行Kmeans 聚類,同時計算相應的輪廓系數(shù),以確定最佳的k值,其結(jié)果如圖3 所示。 根據(jù)圖3 可知,最佳聚類簇數(shù)k選擇3。
圖3 K-means 輪廓系數(shù)
在確定最佳聚類簇數(shù)為3 后,對標準化后的Index1 和Index2 進行K-means 聚類分析,聚類可視化結(jié)果如圖4 所示。 由于1.2 部分數(shù)據(jù)清洗和1.4 部分數(shù)據(jù)標準化,圖4中,Index1 為0 的數(shù)據(jù)屬于極差規(guī)格化的最小值。
圖4 K-means 聚類可視化結(jié)果
根據(jù)圖4 可分析出學生經(jīng)濟狀況,第0 類學生經(jīng)常在學校消費且單筆消費額較低,可以認定為家庭條件貧困,第1 類學生單筆消費額較高,可以認定為家庭條件一般,第2 類學生在學校單筆消費額較高且消費次數(shù)較少,可以認定為家庭條件良好。
支持向量機(support vector machines,SVM)在中小型數(shù)據(jù)規(guī)模的分類任務上有著卓越的效果。 本研究采用SVM 構(gòu)建學生消費水平分析模型。 具體的:首先將2.1 中的Index1 和Index2 作為數(shù)據(jù)集的特征數(shù)據(jù),其次,根據(jù)Index1 和Index2 建立的聚類模型得到數(shù)據(jù)集中所有學生低、中、高3 種不同的消費類別,將數(shù)據(jù)集中的消費類別作為標簽,最后利用SVM 算法構(gòu)建學生消費水平分析模型。其中,SVM 分類模型的2 個重要參數(shù)C 和gamma 通過網(wǎng)格搜索法(GridSearchCV)進行調(diào)參,其他參數(shù)均采用默認參數(shù)。
為了評價所構(gòu)建的學生消費水平分類模型,采用平均準確率和kappa系數(shù)2 個指標來衡量分類結(jié)果。 平均準確率和kappa系數(shù)兩指標均是數(shù)值越大,模型性能越優(yōu)。實驗中,將數(shù)據(jù)集劃分為訓練集和測試集兩部分,分別隨機選取數(shù)據(jù)集的30%、40%、50%、60%、70%作為訓練集數(shù)據(jù),剩余的部分作為測試集數(shù)據(jù)進行分類實驗。 表1 為不同訓練集數(shù)據(jù)構(gòu)建的學生消費水平分析模型評價指標。由表1 可知,隨著訓練集數(shù)據(jù)比例的增加,測試集的平均準確率和kappa系數(shù)2 個性能指標也隨之增加,實驗結(jié)果表明,本模型在所構(gòu)建的數(shù)據(jù)集上具有良好的性能。
表1 不同比例訓練集構(gòu)建的學生消費水平分類模型評價指標
綜上所述,本文的研究基于延安職業(yè)技術(shù)學院校園一卡通學生消費數(shù)據(jù),利用K-means 聚類算法與SVM 分類算法構(gòu)建學生消費水平分析模型。 實驗結(jié)果表明,此學生消費水平分析模型在所構(gòu)建的數(shù)據(jù)集上具有較好的性能。此外,今后模型的改進可以從兩方面考慮:第一,模型的訓練標簽只考慮了消費數(shù)據(jù)聚類的結(jié)果,應與輔導員及學工部溝通全面評估貧困生界定標準以確保分類模型中訓練標簽的準確性;第二,由于此模型的性能不僅受到分類模型性能的影響,還依賴于聚類模型性能,因此,未來的研究可以選擇更適合于消費數(shù)據(jù)的聚類和分類模型進行模型優(yōu)化。