范媛 蔡敏
摘要:該研究以中國石油大學(北京)的校園卡系統(tǒng)消費數據為數據源,建立數據倉庫,通過數據清洗和數據挖掘得到學生在食堂的消費數據。通過使用聚類算法對學生消費數據進行分類,進而將學生的消費水平分為四類。以馬氏距離作為判別距離建立學生消費水平判別分析模型,利用該模型判斷學生的消費水平,通過對學生消費水平的分析研究,可以在學校有關部門進行決策時提供有效依據。
關鍵詞:校園卡系統(tǒng);大數據;聚類算法;判別分析;消費模型
中圖分類號:TP311 文獻標識碼:A
文章編號:1009-3044(2020)08-0005-03
開放科學(資源服務)標識碼(OSID):
校園卡系統(tǒng)具有身份識別和電子錢包等功能,實現了校內統(tǒng)一身份認證和消費統(tǒng)一管理,校園卡使用數據完全記錄了使用者在校內的消費情況和行為軌跡,通過對校園卡數據的挖掘分析,對高校數據決策具有十分重要的意義。目前各大高校均展開了對校園卡大數據的挖掘分析,來為有關部門進行學生管理提供真實、有效的數據支撐[1]。校園卡系統(tǒng)內積累的大量消費數據,對其進行挖掘分析可以掌握學生在校消費的偏好和規(guī)律,將對學校優(yōu)化資源配置、數據化決策等提供重要參考。該研究通過建立學生消費水平判別模型,將學生消費水平分為4類,可為貧困生認定提供判定依據[2],為深入研究學生消費水平提供有效方法。
1 數據倉庫建立
該研究用于進行分析的數據是以中國石油大學(北京)2018級本科生消費數據作為數據源,抽取學生就餐率較高的2018年11月、12月和2019年3月份的消費數據共計32萬多條進行分析,由于數據量龐大,為了不增加數據庫的壓力并且滿足數據分析和數據挖掘的需求,數據分析過程不與校園卡系統(tǒng)數據庫直接建立關系,而是通過soL數據庫建立數據倉庫[3]進行分析。
1.1 數據源確認
通過采集校園卡系統(tǒng)內學生消費數據作為數據源進行分析,進而可以掌握學生的消費習慣,消費水平等情況,在不增加校園卡系統(tǒng)數據庫壓力的前提下將學生的消費流水數據提取到指定數據庫中,把數據處理成可用的數據。
1.2數據預處理
校園卡消費數據中包含了大量信息,包括時間、地點、商戶、消費金額、人賬信息等,根據分析需求對消費數據進行清洗,去除包含噪聲的無意義數據以及無用的字段,并對清洗后的數據進行數據轉換[4]。
1.3 建立數據倉庫概念模型
對校園卡系統(tǒng)內學生消費數據進行分析,一般按照消費次數、消費金額、消費時間、消費地點等字段進行分析,建立的數據倉庫所需要的數據包括:學生基本信息、消費信息、校園卡系統(tǒng)終端數據,數據挖掘的關鍵性能指標是學生校園卡消費流水信息。
1.4 建立邏輯模型
邏輯模型的建立主要用于劃分數據維度,對學生基本信息、消費流水、消費終端信息等數據進行分類儲存、數據簡化、同屬類別歸并。邏輯模型如圖1所示。
1.5 建立物理模型
建立物理模型的目的是構建合理的數據庫物理結構,通過合理規(guī)劃數據庫的結構、字段、索引、存儲等,來實現模型的建立,從而可以清楚地對學生消費數據進行分析。物理模型如表1所示。
2 數據挖掘
在此次學生消費水平分析中,通過對校園卡消費數據進行數據清洗,抽取出分析所需的字段,再通過數據清洗與轉換將抽取出的數據進行處理轉換為用于數據挖掘的形式[5]。
數據來源于校園卡系統(tǒng)學生消費數據,將數據中可壓縮的、可合并的、含噪聲的以及可刪除的字段進行數據清洗與數據合并,通過約減相關性保持數據原貌,達到盡可能地減少數據量的目標[6j。在不同的應用場景中,按照不同的關鍵詞進行數據合并,在分析學生的消費水平時,選取學號作為關鍵詞進行數據合并。該研究利用MATLAB對消費數據進行處理,得到了學生在3個月的月消費數據。
3 建立學生消費水平模型
3.1 聚類分析
K-means聚類算法是聚類分析中應用最廣泛的聚類算法之一,是一種發(fā)現給定數據集k個簇的算法[7-8]。
針對學生消費水平的研究中,取學生平均單筆消費額和總消費次數為評價指標如表2所示。由于這兩項指標的量綱和數量級不同,為了便于決策評價,故對原始數據進行極差規(guī)格化變換處理。
極差規(guī)格化變換是從數據矩陣的每一個變量中找出其最大值和最小值,這兩者之差稱為極差,然后從每個變量的每個原始數據中減去該變量中的最小值,再除以極差,就得到規(guī)格化數據。即:
經過規(guī)格化變換后,數據矩陣中的每列即每個變量的最大數值為1,最小值為0,其余數值取值均在0-1之間;并且變換后的數據都不再具有量綱。根據上述公式變換后的評價指標數據如表3所示。
通過聚類算法對極差規(guī)格化變換后評價指標進行聚類。確實聚類數目為4,得到各類的中心結果以及各類的類內元素與中心的距離和(如表4所示)學生消費水平的分類結果(如表5所示),聚類結果示意圖如圖2所示。
通過聚類分析結果可得類別A的學生消費水平特點為:消費次數低于均值,但平均消費金額高于均值;B類的學生消費水平特點為:消費次數處于均值水平,平均消費金額低于均值;C類的學生消費水平特點為:消費次數高于均值,平均消費金額低于均值水平;D類的學生消費水平特點為:消費次數高于均值,平均消費金額高于均值水平。由此可推斷出學生家庭經濟狀況,A類消費水平的學生很少在食堂吃飯,并且單筆消費金額高,可認定為家庭條件良好,B類消費水平的學生經常在食堂吃飯,但單筆消費金額較低,認定為家庭條件一般貧困,C類消費水平的學生基本在食堂消費,單筆消費金額低于平均水平,認定為家庭條件貧困,D類消費水平的學生在食堂消費次數高于均值,且單筆消費金額較高,認定為家庭條件較好。
3.2 判別分析模型
根據距離判別分析原理,選用馬氏距離作為判別距離[9],針對學生在校食堂消費水平建立了學生消費水平距離判別的分析模型,利用該模型判別學生的消費水平。
式(8)即是學生消費水平判別分析模型,通過該模型可對學生消費情況進行判別。將學生消費水平數據代入式(8)中,即可判斷其所屬類別。將訓練樣本數據回代判斷結果如表6中所示。選取10組學生消費數據作為待判樣本,以此模型對待判樣本進行判別,得到結果如表7所示。
(5)判別準則評價
通過3.2.4中訓練樣本回代,樣本總量為80組,正確判別數為78,誤判數為2,計算得到誤判概率為2.5%,可見此模型合理,達到了對學生消費水平進行有效分類的效果。
4 結論
該研究通過構建數據倉庫,得到有效的學生校園卡消費數據。通過聚類算法將學生的消費水平分為四類,可根據消費水平判定學生家庭經濟情況.為貧困生資助提供數據支持;利用以馬氏距離作為判別距離的判別算法建立學生學費水平判別模型,用以判別學生消費水平的分類是否有效。
參考文獻:
[1]張艷分,盧小清,劉禹等.基于大數據平臺的大學生校園行為探析[J].中國教育信息化,2019(1):39-42,46.
[2]張林.基于差分隱私保護技術的高校貧困生認定系統(tǒng)設計[J].計算機技術與自動化,2017(3):151-156.
[3]田雨露.基于校園一卡通系統(tǒng)的決策支持和數據分析研究[D].北京化工大學,2018.
[4]萬曉燕.基于聚類劃分的大數據處理方法研究[J].智庫時代,2019(39):280,283.
[5] Nguyen T V,Zhou L,Loong A Y,et al-Predicting customerdemand for remanufactured products:A data-mining approach[J]. European Journal of Operational Research, 2019(8): InPress.
[6]潘曉英,趙倩,趙普.時空屬性關系標簽的頻繁軌跡模式挖掘[J].計算機工程與應用,2019,55(10):83-89.
[7]陸近,郭躍近.一種含噪聲處理的K-means聚類算法[J].計算機應用于軟件,2015,32(10):265-268.
[8]鄒晨紅,袁滿.模糊綜合評判的系統(tǒng)聚類算法研究[J].吉林大學學報:信息科學版,2018,36(5):441-448
[9]張華平.常用判別分析方法的綜合比較[J].統(tǒng)計與決策,2015(22):77-78.
[10] Wang B X,Zou H.A Multicategory Kernel Distance Weight-ed Discrimination Method for Multiclass Classification[J].Technometrics,2019,61(3).
[11] LIN T,Chen G,Ouyang W L.et al-Hyper-spherical dis-tance discrimination: A novel data description method foraero-engme rolling bearing fault detection[J].Mechanical Sys-tems and Signal Processing,2018,109(9).
[12]相詩堯,邢會敏,徐東晶.空間點所屬空間體的距離判別法分析[J].測繪科學,2016,41(6):40-43,112.
【通聯(lián)編輯:王力】
作者簡介:范媛(1980-),女,河北南和人,碩士,工程師,主要從事高校一卡通和信息化建設;蔡敏(1995-),女,甘肅慶陽人,碩士在讀,化工過程機械專業(yè)。