劉訓(xùn)星 姜峰 龔勇
摘要:隨著智慧校園的建設(shè),一卡通在校園中發(fā)揮重要的作用,在一卡通中存放大量數(shù)據(jù),本文中使用weka調(diào)用Apriori算法,分析我校貧困生消費(fèi)情況,同時(shí)對(duì)全校消費(fèi)額占比分析和刷卡次數(shù)占比分析,為學(xué)校管理層在降低學(xué)生生活成本和提供高效服務(wù)兩方面提供數(shù)據(jù)支持。
關(guān)鍵詞:智慧校園;一卡通;消費(fèi)行為分析
一、引言
宣城職業(yè)技術(shù)學(xué)院經(jīng)過(guò)這幾年的快速發(fā)展,信息化技術(shù)得到長(zhǎng)足的發(fā)展,隨著德處項(xiàng)目不斷推進(jìn),學(xué)校在基礎(chǔ)建設(shè)、管理多方面將得到很大提高,其中智慧校園建設(shè)是德處項(xiàng)目的重要組成部分,校園一卡通將是智慧校園建設(shè)實(shí)現(xiàn)的基礎(chǔ),包含學(xué)生大量信息,具有消費(fèi)功能和身份識(shí)別功能。
本文通過(guò)對(duì)宣城職業(yè)技術(shù)學(xué)院校園一卡通產(chǎn)生的數(shù)據(jù)獲取、處理、分析,獲取當(dāng)前學(xué)生消費(fèi)行為,通過(guò)關(guān)聯(lián)性因素挖掘分析,獲得有效數(shù)據(jù),可以依據(jù)對(duì)數(shù)據(jù)挖掘分析的結(jié)果,有助與學(xué)生管理、有助于提高服務(wù)水平,為我校智慧校園的建設(shè)提供更有價(jià)值的數(shù)據(jù)。
二、消費(fèi)行為分析
Apriori算法能夠通過(guò)對(duì)數(shù)據(jù)的分析挖掘出強(qiáng)關(guān)聯(lián),在Apriori算法中支持度是重要指標(biāo)用來(lái)表示集中項(xiàng)一同出現(xiàn)的概率大小,當(dāng)概率小時(shí)說(shuō)明兩個(gè)數(shù)據(jù)集間的關(guān)聯(lián)小,當(dāng)概率為百分之百時(shí)前一個(gè)項(xiàng)集直接影響后面一個(gè)項(xiàng)集。Apriori算法在關(guān)聯(lián)規(guī)則挖掘重要算法,主要任務(wù)有頻繁項(xiàng)集產(chǎn)生和關(guān)聯(lián)規(guī)則產(chǎn)生。
三、算法介紹
(一)Apriori關(guān)聯(lián)規(guī)則指標(biāo)
從樣本中能挖掘大量的關(guān)聯(lián)規(guī)則,現(xiàn)實(shí)中在大量關(guān)聯(lián)規(guī)則中只有部分關(guān)聯(lián)規(guī)則是有效的。造成無(wú)效的原因主要在兩個(gè)方面:一個(gè)是沒(méi)有達(dá)到足以信服程度,另一個(gè)是所產(chǎn)生的規(guī)則只能很小范圍使用。所以我在判斷一條挖掘的規(guī)則是否有價(jià)值,有不少衡量指標(biāo),在這其中支持度和置信度是兩條重要衡量指標(biāo)。
(二)Apriori關(guān)聯(lián)規(guī)則操作步驟
(1)頻繁項(xiàng)集的產(chǎn)生與發(fā)現(xiàn)。步驟一:構(gòu)建單元素項(xiàng)集列表,可以通過(guò)構(gòu)造相應(yīng)的數(shù)據(jù),然后將數(shù)據(jù)元素轉(zhuǎn)換位不可變的集合,并將其存儲(chǔ)到列表里;步驟二選擇滿足支持度要求數(shù)據(jù)集合,創(chuàng)建頻繁項(xiàng)集同時(shí)記錄任意元素支持度并存放到字典中,刪除不符合支持度要求的元素;步驟三尋找符合支持度要求組合集合,創(chuàng)建頻繁我們所需項(xiàng)集列表,找出符合支持度要求集合列表。
(2)頻繁項(xiàng)集發(fā)現(xiàn)關(guān)聯(lián)規(guī)則。
(三)實(shí)驗(yàn)的數(shù)據(jù)獲取
從宣城職業(yè)技術(shù)學(xué)院校園一卡通數(shù)據(jù)存放數(shù)據(jù)庫(kù)中將最新數(shù)據(jù)導(dǎo)出,從而用于實(shí)驗(yàn)。打開(kāi)存放數(shù)據(jù)服務(wù)器的sql server 2005,從中找到存放數(shù)據(jù)的數(shù)據(jù)庫(kù)。
從數(shù)據(jù)庫(kù)找到存放數(shù)據(jù)的表,從中我們就能看到一卡通在使用過(guò)程中產(chǎn)生的數(shù)據(jù)了。
為了使得獲取的數(shù)據(jù)有助于數(shù)據(jù)挖掘過(guò)程中的的使用,將存放在服務(wù)器中一卡通的數(shù)據(jù)以.csv格式導(dǎo)出數(shù)據(jù)。在SQL Server Management Studio窗口中找到新建查詢命令,打開(kāi)新建查詢窗口,在窗口中輸入查詢SQL語(yǔ)句;執(zhí)行查詢命令;將查詢結(jié)果另存為制定格式文件(.csv)。
三、一卡通中學(xué)生消費(fèi)數(shù)據(jù)的分析和挖掘
在服務(wù)器中獲取9257條一卡通原始消費(fèi)數(shù)據(jù)。
(一)按消費(fèi)場(chǎng)所的角度分析
通過(guò)獲取2018年9月1日-2018年12月31日一卡通數(shù)據(jù),通過(guò)分析處理:①在此期間一共消費(fèi)1539678.41元;②消費(fèi)額占總比前三位的是食堂一樓、超市、食堂二樓。為此供學(xué)校管理層提供基礎(chǔ)數(shù)據(jù),嚴(yán)格管理食堂與超市,有助于降低學(xué)生生活費(fèi),特別是生活困難的學(xué)生;③一卡通共刷卡次數(shù)為1048575次。④刷卡次數(shù)前三位是二樓浴室、一樓浴室、開(kāi)水房。有助于管理層,重視熱水供應(yīng)過(guò)程中安全問(wèn)題,同時(shí)注意浴室設(shè)施設(shè)備是否安全夠用,設(shè)備是否需要更新,改善學(xué)生生活水平;⑤二號(hào)樓門面八和二號(hào)樓門面十二刷卡次數(shù)和消費(fèi)額都比較低,有助于管理層引進(jìn)更加有競(jìng)爭(zhēng)力服務(wù)商,從而更好為學(xué)校師生提供服務(wù)。
(二)使用軟件weka3.8.0挖掘數(shù)據(jù)
(1)數(shù)據(jù)預(yù)處理。在眾多數(shù)據(jù)中有少數(shù)一卡通消費(fèi)次數(shù)和消費(fèi)額都非常低,可能是走讀生或卡片丟失重新補(bǔ)辦,同時(shí)目前數(shù)據(jù)量比較大,為了防止這些數(shù)據(jù)對(duì)后面挖掘結(jié)果的影響,我們刷卡次數(shù)低于等于100,同時(shí)消費(fèi)額低于300元數(shù)據(jù)刪除,處理之后還保留2546條有效數(shù)據(jù)。
(2)數(shù)據(jù)離散化處理。由于在進(jìn)行關(guān)聯(lián)規(guī)則分析時(shí),不能處理為Numeric型數(shù)據(jù),所以必要的Numeric型數(shù)據(jù)進(jìn)行離散化處理,將刷卡次數(shù)分為B_H、B_M、B_L,將消費(fèi)金額分為C_H、C_M、C_L。
(3)將經(jīng)過(guò)預(yù)處理后的數(shù)據(jù)轉(zhuǎn)換為.csv格式存放,用weka軟件打開(kāi).csv格式數(shù)據(jù),并保存為.arff格式數(shù)據(jù)。在weka中打開(kāi) ? ? .arff格式數(shù)據(jù),由于一卡通卡號(hào)對(duì)后面數(shù)據(jù)處理沒(méi)有意義,故在進(jìn)行關(guān)聯(lián)規(guī)則分析前將其刪除。
(4)Apriori算法的使用。將參數(shù)metrictype設(shè)為Confidence,此處共三個(gè)可選擇分別是杠桿率、提升度、確信度。將參數(shù)numRules設(shè)為6,目的是通過(guò)管理規(guī)則算法產(chǎn)生6條規(guī)則,其它參數(shù)設(shè)置如圖3所示。
(5)關(guān)聯(lián)規(guī)則分析結(jié)果。通過(guò)上述6條規(guī)則,我們能獲得以下結(jié)論:第一個(gè):消費(fèi)水平為C_H的有624張卡,有621張卡不是貧困生,可信度是100%;第二個(gè):消費(fèi)水平為C_M的有873張卡,有863張卡不是貧困生,可信度是99%;通過(guò)對(duì)規(guī)則4、5分析我校貧困生比較節(jié)約,非常珍惜來(lái)之不易的補(bǔ)助。第三個(gè):刷卡次數(shù)為B_H且消費(fèi)金額為C_H有304張卡,有304張卡不是貧困生,可信度是100%;第四個(gè):刷卡次數(shù)為B_H且消費(fèi)金額為C_M有261張卡,有260張卡不是貧困生,可信度是100%。通過(guò)對(duì)規(guī)則2、3分析我校貧困生消費(fèi)比較控制。
四、結(jié)語(yǔ)
關(guān)聯(lián)規(guī)則能夠真實(shí)反應(yīng)學(xué)生消費(fèi)情況,通過(guò)數(shù)據(jù)挖掘不難發(fā)現(xiàn)存在規(guī)律,這些規(guī)律有助于管理者作出恰當(dāng)決策。
學(xué)生貧困等級(jí)劃分時(shí),有清晰界限,然而在消費(fèi)時(shí)界限還比較模糊。前期對(duì)數(shù)據(jù)處理進(jìn)行大量處理工作,雖然食堂、浴室和超市都使用便捷Pos終端,但是依然有不少同學(xué)使用微信和支付寶支付。在消費(fèi)額會(huì)存在一定程度的偏差。本文只在數(shù)據(jù)挖掘一個(gè)方面進(jìn)行研究,在數(shù)據(jù)挖掘還有許多挖掘算法,能進(jìn)一步提高挖掘數(shù)據(jù)的準(zhǔn)確性。在未來(lái)尋找性能更加優(yōu)秀的挖掘模型。
參考文獻(xiàn):
[1]丁榮,孫曉輝,李智勇.基于校園一卡通的高校貧困生消費(fèi)行為分析[J].網(wǎng)絡(luò)與信息工程,2016(18):78-79.
[2]張紅蕾.數(shù)據(jù)挖掘在校園卡消費(fèi)中的研究與應(yīng)用[D].蘭州:蘭州交通大學(xué),2016.
作者簡(jiǎn)介:
劉訓(xùn)星(1981.11-),男,安徽宣城人,講師,碩士,主要研究方向:數(shù)據(jù)挖掘和教育技術(shù)信息化。
姜峰(1986.10-),男,安徽池州人,初級(jí)職稱,大學(xué)本科。
龔勇(1982-),男,安徽宣城人,碩士,講師,主要研究方向:人工智能。
基金項(xiàng)目:
2018年度安徽省高等學(xué)校省級(jí)質(zhì)量工程計(jì)算機(jī)教研室項(xiàng)目,編號(hào):2018jyssf087,負(fù)責(zé)人:劉訓(xùn)星。