文/吳領(lǐng)航 王默玉 申曉留 王璐 梁如霞
近年來,高校相繼建立并投入使用了大量信息系統(tǒng)和大數(shù)據(jù)應(yīng)用平臺(tái)。一卡通消費(fèi)系統(tǒng)是綜合了大數(shù)據(jù)技術(shù)、云計(jì)算技術(shù)、信息安全技術(shù)、數(shù)據(jù)加密技術(shù)的平臺(tái),不僅可以方便學(xué)生和教師掌握自己在學(xué)校的消費(fèi)情況,也可以更好地安排自身的工作和學(xué)習(xí)。
高校在數(shù)字化校園建設(shè)的大潮下,學(xué)生一卡通系統(tǒng)在實(shí)際應(yīng)用場(chǎng)景中會(huì)產(chǎn)生海量數(shù)據(jù),這些數(shù)據(jù)記錄了學(xué)生的消費(fèi)情況、圈存情況等,是消費(fèi)預(yù)警的重要依據(jù)。本文重點(diǎn)研究一卡通消費(fèi)數(shù)據(jù)的月變化值和家庭經(jīng)濟(jì)困難學(xué)生的困難程度的相關(guān)關(guān)系。以家庭經(jīng)濟(jì)困難學(xué)生的月消費(fèi)金額為研究對(duì)象,劃分消費(fèi)區(qū)間,從中總結(jié)并研究出規(guī)律,判斷是否存在家庭經(jīng)濟(jì)困難學(xué)生消費(fèi)數(shù)據(jù)異常,進(jìn)一步挖掘出困難程度變化較大的學(xué)生數(shù)據(jù)。采用數(shù)據(jù)挖掘技術(shù)分析家庭經(jīng)濟(jì)困難學(xué)生的一卡通消費(fèi)金額數(shù)據(jù),采用聚類算法劃分消費(fèi)金額的不同區(qū)間,根據(jù)區(qū)間使用一元離群點(diǎn)檢測(cè)算法檢測(cè)出消費(fèi)數(shù)據(jù)異常的學(xué)生,進(jìn)行家庭經(jīng)濟(jì)困難學(xué)生消費(fèi)預(yù)警,檢測(cè)所得結(jié)果為家庭經(jīng)濟(jì)困難學(xué)生認(rèn)定提供輔助參考,進(jìn)一步提升精準(zhǔn)資助。
本文選取的數(shù)據(jù)來源于某高校一卡通消費(fèi)平臺(tái)和家庭經(jīng)濟(jì)困難學(xué)生認(rèn)定系統(tǒng)平臺(tái)。高校一卡通消費(fèi)平臺(tái)記錄了全校學(xué)生的總消費(fèi)金額、有效交易次數(shù)、平均消費(fèi)金額。家庭經(jīng)濟(jì)困難認(rèn)定系統(tǒng)中記錄了高校家庭經(jīng)濟(jì)困難學(xué)生的經(jīng)濟(jì)狀況數(shù)據(jù)。在數(shù)據(jù)分析前先進(jìn)行數(shù)據(jù)審計(jì)、數(shù)據(jù)清洗、數(shù)據(jù)脫敏等數(shù)據(jù)預(yù)處理工作,保證數(shù)據(jù)的完整性和有效性。一卡通消費(fèi)平臺(tái)上的消費(fèi)數(shù)據(jù)表結(jié)構(gòu)如表1所示。
2.2.1 Pearson相關(guān)系數(shù)
相關(guān)分析是對(duì)變量之間關(guān)系密切程度的度量,是對(duì)總體中具有聯(lián)系的標(biāo)志進(jìn)行分析。Pearson相關(guān)系數(shù),用于度量兩個(gè)變量之間的相關(guān)性。一般采用樣本相關(guān)系數(shù)(r)進(jìn)行相關(guān)性分析。
兩個(gè)變量間的Pearson相關(guān)系數(shù)定義為兩個(gè)變量之間的協(xié)方差和標(biāo)準(zhǔn)差的商:
2.2.2 聚類分析
聚類是對(duì)大量未知標(biāo)注的數(shù)據(jù)集,按照數(shù)據(jù)的內(nèi)在相似性將數(shù)據(jù)集劃分為多個(gè)類別,使類別內(nèi)的數(shù)據(jù)相似度較大而類別間的數(shù)據(jù)相似度較小。聚類的基本思想對(duì)于給定的類別數(shù)目k,首先給出初始劃分,通過迭代改變樣本和簇的隸屬度關(guān)系,使得每一次改進(jìn)后的劃分方案都較前一次好。
聚類分析常用于對(duì)數(shù)值型數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘。運(yùn)用聚類分析的方法研究學(xué)生消費(fèi)數(shù)據(jù)可實(shí)現(xiàn)以下2個(gè)方面的作用:
(1)掌握在校生消費(fèi)的實(shí)際情況。這是開展家庭經(jīng)濟(jì)困難學(xué)生消費(fèi)預(yù)警工作的重要環(huán)節(jié)。
(2)劃分消費(fèi)區(qū)間。運(yùn)用數(shù)據(jù)挖掘技術(shù)對(duì)學(xué)生一卡通消費(fèi)數(shù)據(jù)進(jìn)行數(shù)據(jù)分析,因此選取總消費(fèi)金額,有效交易次數(shù),平均消費(fèi)金額,總消費(fèi)次數(shù)四個(gè)指標(biāo)參數(shù)對(duì)學(xué)生數(shù)據(jù)進(jìn)行聚類分析,從而劃分出學(xué)生消費(fèi)區(qū)間。
2.2.3 k-means算法
k-means算法被稱為k-平均或k-均值,是一個(gè)經(jīng)典的聚類算法,它開始輸入?yún)?shù)k,然后將n個(gè)數(shù)據(jù)對(duì)象劃分為k個(gè)聚類,使同一聚類中的對(duì)象之間的相似度較高,不同聚類中的對(duì)象之間的相似度較小。其中“聚類相似度”是利用各聚類中對(duì)象的均值所獲得的一個(gè)“中心對(duì)象”的方式計(jì)算。當(dāng)k=2時(shí),k-means算法的步驟可視化如圖1所示。
假定輸入樣本為S=x1,x2,x3……,xm,則算法步驟為:
(1)選擇初始的k個(gè)類別中心u1u2u3…uk
表1
表2:相關(guān)性結(jié)果
表3:高校學(xué)生消費(fèi)數(shù)據(jù)聚類分析結(jié)果
表4:正態(tài)性檢驗(yàn)
(2)對(duì)于每個(gè)樣本xi,將其標(biāo)記為距離類別中心最近的類別,即:
(3)將每個(gè)類別中心更新為隸屬該類別的所有樣本的均值
(4)重復(fù)最后兩步,直到類別中心的變化小于某閾值。
通過Pearson相關(guān)系數(shù)來分別分析高校學(xué)生平均每天消費(fèi)金額、每月消費(fèi)總金額、有效交易天數(shù)、月消費(fèi)次數(shù)之間的相關(guān)性。本文選取2000名高校學(xué)生某個(gè)月的一卡通消費(fèi)數(shù)據(jù)。選用spss軟件中的Pearson相關(guān)系數(shù)進(jìn)行相關(guān)性分析,結(jié)果如表2所示。
表中指定的顯著性水平為0.01,統(tǒng)計(jì)檢驗(yàn)的概率小于0.01(表中顯示為“0.00”),可以看出各個(gè)指標(biāo)間的相關(guān)性十分顯著,具有較強(qiáng)的相關(guān)性。針對(duì)4個(gè)指標(biāo)作k-means聚類分析,便于進(jìn)一步劃分消費(fèi)金額區(qū)間。
根據(jù)Pearson相關(guān)性分析得出,學(xué)生的平均消費(fèi)金額、總消費(fèi)金額、總消費(fèi)次數(shù)、有效交易天數(shù)之間具有較強(qiáng)的相關(guān)性。因此選取上述4個(gè)指標(biāo)數(shù)據(jù)進(jìn)行k-means聚類分析。通過家庭經(jīng)濟(jì)困難認(rèn)定系統(tǒng)平臺(tái)上獲取全校2820名家庭經(jīng)濟(jì)困難學(xué)生的有效數(shù)據(jù)。按照聚類數(shù)3類、4類、5類進(jìn)行聚類分析,層間檢驗(yàn)均呈顯著性差異。表3顯示了快速聚類結(jié)果中各簇屬性和個(gè)數(shù),涵蓋了各簇包含的示例。
實(shí)驗(yàn)結(jié)果分析:
分析平均消費(fèi)額,按三層來劃分消費(fèi)區(qū)間,各層的“平均消費(fèi)金額”為14、21、31。按照四層來劃分,各層的“平均消費(fèi)金額”為14、20、26、35。按照五層來劃分,各層的“平均消費(fèi)金額”為10、17、26、31、38。以上k-means快速聚類的分類結(jié)果和高校之前的人工劃分消費(fèi)區(qū)間的情況有所不一致,說明了之前的劃分消費(fèi)區(qū)間更多是主觀的,缺少數(shù)據(jù)和理論的支持。
以聚類數(shù)3分類,各層人數(shù)比為843:1313:664,各層人數(shù)較多,層內(nèi)差異較大,不利于家庭經(jīng)濟(jì)困難學(xué)生的精準(zhǔn)資助且消費(fèi)區(qū)間劃分不夠詳細(xì),各層的“平均消費(fèi)金額”分別為14元、21元、31元,總體覆蓋的范圍比較小,不能夠較為準(zhǔn)確的說明學(xué)生的消費(fèi)情況。
圖2:正態(tài)性檢驗(yàn)
圖3:平均消費(fèi)數(shù)據(jù)分布直方圖
分析有效交易天數(shù),在聚類數(shù)為4的情況下,第一層內(nèi)學(xué)生的有效交易天數(shù)為23天,平均消費(fèi)金額為14元,可能存在交易天數(shù)少而使得消費(fèi)金額較低的情況,不能夠很好的視為家庭經(jīng)濟(jì)困難學(xué)生的消費(fèi)行為。而聚類數(shù)為5時(shí),學(xué)生的有效交易天數(shù)為28天,平均每天消費(fèi)金額10元,這更能說明學(xué)生貧困的情況屬實(shí)。
根據(jù)實(shí)驗(yàn)的結(jié)果可劃分學(xué)生的消費(fèi)區(qū)間劃分為5個(gè)。學(xué)生日平均消費(fèi)金額在10元以下,日消費(fèi)金額在10元-20元之間,日消費(fèi)金額在21元-26元之間,日消費(fèi)金額在27元-31元之間,日消費(fèi)金額在32元-38元之間。
本文采用spss軟件進(jìn)行正態(tài)分布的檢驗(yàn)。選取學(xué)生的平均消費(fèi)金額作為正態(tài)性檢驗(yàn)的依據(jù)。正態(tài)性檢驗(yàn)結(jié)果如表4和圖2所示,表4以K-S結(jié)果為準(zhǔn),sig.=0.2>0.05,圖2中的點(diǎn)都圍繞著一條直線,兩者都顯示服從正態(tài)分布。
采用2018-2019學(xué)年的部分家庭經(jīng)濟(jì)困難學(xué)生作為樣本數(shù)據(jù),在2018年度的認(rèn)定過程中,2018級(jí)學(xué)生有622名同學(xué)被認(rèn)定為家庭經(jīng)濟(jì)困難學(xué)生。從中隨機(jī)抽取600名同學(xué)的平均消費(fèi)金額,共抽取4次,有4組訓(xùn)練數(shù)據(jù)。則樣本xi的概率函數(shù)為求似然函數(shù)得到:
根據(jù)4組樣本數(shù)據(jù)進(jìn)行求解,得出均值近似于20.1。由3.2中的正態(tài)性檢驗(yàn)可知,學(xué)生的平均消費(fèi)金額數(shù)據(jù)滿足正態(tài)分布。
擴(kuò)大樣本數(shù)據(jù)后,針對(duì)全校2820名家庭經(jīng)濟(jì)困難學(xué)生采用基于正態(tài)分布的一元離群點(diǎn)監(jiān)測(cè)算法進(jìn)行異常點(diǎn)的檢測(cè)。根據(jù)分析樣本消費(fèi)數(shù)據(jù)的標(biāo)準(zhǔn)差為6.08,均值為20.36,與4組樣本數(shù)據(jù)計(jì)算得出的均值十分接近。
結(jié)合樣本數(shù)據(jù)來進(jìn)一步分析,低于2元的同學(xué)有3人,高于38元的同學(xué)有9人。3位消費(fèi)數(shù)據(jù)低于2元的同學(xué)由于消費(fèi)數(shù)據(jù)太低,需要輔導(dǎo)員去深入了解情況。9位高于38元的同學(xué)由于本身是已被認(rèn)定為家庭經(jīng)濟(jì)困難學(xué)生,但消費(fèi)水平已經(jīng)大大超出正常家庭經(jīng)濟(jì)困難學(xué)生的消費(fèi)水平,要作為異常點(diǎn)進(jìn)行分析。相對(duì)應(yīng)的學(xué)號(hào)可以提交學(xué)校資助中心工作人員,對(duì)消費(fèi)異常數(shù)據(jù)的同學(xué)進(jìn)行更深入的了解和評(píng)定。如圖3所示。
本文從數(shù)據(jù)挖掘的技術(shù)入手,從中選擇了k-means算法和一元離群點(diǎn)算法應(yīng)用于高校學(xué)生在校消費(fèi)的數(shù)據(jù)挖掘中,利用聚類分析的方法劃分出家庭經(jīng)濟(jì)困難學(xué)生的消費(fèi)區(qū)間,并針對(duì)家庭經(jīng)濟(jì)困難學(xué)生樣本采用基于正態(tài)分布的一元離群點(diǎn)算法進(jìn)行消費(fèi)異常情況的檢測(cè)。實(shí)驗(yàn)表明,采用Pearson相關(guān)性分析法能夠有效的挖掘?qū)W生消費(fèi)金額與有效交易天數(shù)的內(nèi)在關(guān)聯(lián),為聚類分析提供理論的依據(jù)。利用k-means聚類算法將學(xué)生的消費(fèi)區(qū)間劃分為5類,同時(shí)消費(fèi)數(shù)據(jù)分布滿足正態(tài)分布,更加科學(xué)地表明了困難程度與消費(fèi)情況的關(guān)系。一元離群點(diǎn)檢測(cè)算法檢測(cè)所得結(jié)果便于開展消費(fèi)預(yù)警工作。但基于一卡通大數(shù)據(jù)的家庭經(jīng)濟(jì)困難學(xué)生消費(fèi)預(yù)警研究方法還可以進(jìn)一步的優(yōu)化和改進(jìn),首先,數(shù)據(jù)來源于一卡通消費(fèi)平臺(tái),該研究方法對(duì)于一卡通消費(fèi)數(shù)據(jù)依賴性較強(qiáng),可能存在學(xué)生外出實(shí)習(xí)導(dǎo)致消費(fèi)數(shù)據(jù)較低的情況。其次,目前研究的對(duì)象是家庭經(jīng)濟(jì)困難學(xué)生,將來可以將研究對(duì)象的范圍擴(kuò)大,實(shí)現(xiàn)資助更加精準(zhǔn)。再者,本文是基于一卡通消費(fèi)大數(shù)據(jù)這一角度進(jìn)行消費(fèi)預(yù)警的研究,采用數(shù)據(jù)挖掘的算法,為輔導(dǎo)員開展家庭經(jīng)濟(jì)困難學(xué)生消費(fèi)預(yù)警工作提供理論支撐,也為實(shí)現(xiàn)精準(zhǔn)資助提供理論基礎(chǔ),但要進(jìn)一步實(shí)現(xiàn)消費(fèi)預(yù)警的科學(xué)性,還需結(jié)合高校的家庭經(jīng)濟(jì)困難認(rèn)定系統(tǒng)和模型,完善研究工作。