南京市第九中學 馬樂之
近年來,隨著學校信息化建設(shè)的飛速發(fā)展,校園一卡通系統(tǒng)得到了廣泛應(yīng)用,也累積了海量的信息,通過對這些數(shù)據(jù)進行深入的用戶行為分析,可以為教學、科研、后勤和管理等多個部門提供有價值的參考意見[1][2]。以某高中校園一卡通數(shù)據(jù)為例,由于卡中最為頻繁、交易量最大的消費行為是在校高中生的食堂消費,其隱含的信息量也最為豐富,故本文針校園一卡通的食堂消費記錄進行數(shù)據(jù)分析和挖掘。
以2016年9月至2017年1月,某高中秋季學期的一卡通食堂消費記錄作為數(shù)據(jù)來源,按期初考、第一次月考、期中考、第二次月考、期末考的順序,將該學期劃分為四個時間段,將每個時間段均至少有一次外賣記錄的2015級70名學生作為研究對象。
為便于后續(xù)處理,根據(jù)不同編號窗口所售食品的種類將售賣窗口分為兩大類:若某個編號的窗口專售各種中式套餐,由于所用餐具需回收,據(jù)此推測,購買者必須堂食,不會外帶,故將該窗口稱為堂食窗口;而另一編號的窗口專售漢堡、飲料等快餐食品,采用紙質(zhì)或塑料包裝,便于攜帶,據(jù)觀察,凡只購買此類食品的學生,一般都是將食品直接帶回教室,故將該窗口稱為外賣窗口;如果在同一餐次中,堂食窗口和外賣窗口均產(chǎn)生消費記錄,則劃歸為堂食。據(jù)此,可得到該用戶每日三餐的就餐方式(堂食或外賣),并統(tǒng)計出日外賣次數(shù)。
聚類的用途很廣,典型作用是挖掘數(shù)據(jù)中的一些深層信息,并概括出每一類的特點,或者把注意力放在某一個特定的類上,以作進一步的分析。時間序列是一條由n個實數(shù)變量組成的有序序列,其中對象點以時間先后排列、并且時間間隔相等?;跁r間序列的聚類挖掘是一種常用的基礎(chǔ)性數(shù)據(jù)處理和分析方法[3][4]。
在本文研究中,考慮到不同用戶選擇堂食或外賣的原因各不相同:也許是隨機的,例如下課時間延遲、身體不適等,也許是出于其他某種特定的需求,而后者可能與相應(yīng)的上課日期即時間因素有關(guān)。因此,時間因素是就餐行為模式聚類分析的關(guān)鍵。在上述任意一個統(tǒng)計時間段內(nèi),可以通過任意兩個用戶日外賣次數(shù)逐日變化規(guī)律的相似度度量進行聚類分析。
基于以上設(shè)想,構(gòu)建該時間段內(nèi)每個用戶的日外賣次數(shù)時間序列,即:
K-means聚類算法是典型的基于距離的非層次聚類算法,在最小化誤差函數(shù)的基礎(chǔ)上將數(shù)據(jù)劃分為預(yù)定的類數(shù)K,采用距離作為相似性的評價指標,即認為兩個對象的距離越近,其相似度就越大[2]。這里以歐式距離作為聚類距離的度量,即:[3]
分別取聚類數(shù)K=2、3、4進行分析。經(jīng)試驗,當聚類數(shù)K=3時,聚類結(jié)果最佳,如表1所示。結(jié)合實際情況分析,認為本次聚類結(jié)果劃分為三類相對合理。
表1 K=3時的聚類結(jié)果
以橫坐標表示該月正常上課日期,以縱坐標表示人均日外賣次數(shù),分別畫出表1中三個簇的人均日外賣次數(shù)在某時間段內(nèi)的變化情況,如圖1所示。
圖1 三個簇的人均日外賣次數(shù)變化情況
由圖1可知,第I類人群的人均日外賣次數(shù)在時間軸的分布上不均勻,后兩周顯著增加;第II類人群的人均日外賣次數(shù)較少,且比較隨機;第III類人群的人均日外賣次數(shù)最多,在時間軸上的分布基本比較均勻,但最后1周有增加。
以上三個簇代表了三種不同特點的就餐行為模式。
關(guān)聯(lián)規(guī)則分析是數(shù)據(jù)挖掘中最活躍的研究方法之一,目的是在一個數(shù)據(jù)集里找出各項之間的關(guān)聯(lián)關(guān)系。Apriori算法是經(jīng)典的挖掘頻繁項集的算法,其主要思想是找出存在于事物數(shù)據(jù)集里最大的頻繁項集,利用得到的最大頻繁項集與預(yù)先設(shè)定的最小置信度閾值生成強關(guān)聯(lián)規(guī)則[3][4]。
為方便利用Apriori算法進行關(guān)聯(lián)分析,結(jié)合上述三類學生的考試成績(通過總分排名反映),對數(shù)據(jù)進行離散化處理。選擇最小支持度閾值為5%,最小置信度閾值為20%,經(jīng)計算得到關(guān)聯(lián)規(guī)則,如表2所示。
表2 關(guān)聯(lián)規(guī)則計算結(jié)果
由規(guī)則1可知,第I類與排名位于1~20名同時發(fā)生的概率為11.4%、第I類中排名位于1~20名的概率為50%,說明第I類學生中約半數(shù)成績優(yōu)秀;由規(guī)則2和規(guī)則3可知,第I類與排名位于21~50名或51~70名同時發(fā)生的概率均為5.7%、第I類中排名位于21~50名或51~70名的概率均為25%,說明第I類學生中的另一半成績中等或較差。這可能是因為,第I類上游和中游的學生其學習自覺性和緊迫感隨著考試的臨近而加強,因此選擇外賣的次數(shù)越來越頻繁,意味著用餐時間的縮短、復(fù)習備考時間的延長。
由規(guī)則4可知,第III類與排名位于1~20名同時發(fā)生的概率為12.8%、第III類中排名位于1~20名的概率為56.3%;由規(guī)則5可知,第III類與排名位于51~70名同時發(fā)生的概率為8.6%、第III類中排名位于51~70名的概率為37.5%。以上數(shù)據(jù)說明,第III類學生的學習成績具有兩極分化傾向,一部分名列前茅,另一部分趨于下游??赡艿脑蛟谟?,表面上兩者均經(jīng)常性地購買外賣,但前者的目的是以快餐的方式擠出完成作業(yè)的時間,從而提高學習效率;而后者的目的主要是為了能有更多的時間消遣在手機游戲等娛樂活動上。因此,看似相似的行為模式卻導(dǎo)致了截然不同的結(jié)果。
本文利用基于時間序列的K-means聚類算法進行了就餐行為模式的聚類分析,并在此基礎(chǔ)上運用Apriori算法研究不同模式與其學習成績之間的關(guān)聯(lián)規(guī)則,所做工作對于今后進一步深入挖掘校園一卡通消費數(shù)據(jù)具有實際意義和應(yīng)用價值。教學管理部門可以以相關(guān)分析結(jié)論為參考,對重要的階段性考試進行考前預(yù)測和考后綜合評估,從而提高學習成效評價的準確性和時效性,并對部分有可能成績下滑的學生發(fā)出預(yù)警。
[1]陳鋒.基于校園一卡通系統(tǒng)的高校用戶就餐消費行為分析與數(shù)據(jù)挖掘[J].中國教育信息化,2014(5).
[2]董新科,等.基于校園一卡通消費數(shù)據(jù)的幾種聚類算法的分析比較[J].計算機系統(tǒng)應(yīng)用,2014(1).
[3]張良均,楊坦,等.MATLAB數(shù)據(jù)分析與挖掘?qū)崙?zhàn)[M].北京:機械工業(yè)出版社,2015,6.
[4]周英,卓金武,等.大數(shù)據(jù)挖掘系統(tǒng)方法與實例分析[M].北京:機械工業(yè)出版社,2016,4.