姜 楠 許維勝
(同濟(jì)大學(xué)電子與信息工程學(xué)院,上海 201804)
基于數(shù)據(jù)挖掘技術(shù)的學(xué)生校園消費(fèi)行為分析
姜 楠 許維勝
(同濟(jì)大學(xué)電子與信息工程學(xué)院,上海 201804)
校園一卡通系統(tǒng)通過(guò)對(duì)各種信息、資源的有效集成、整合和優(yōu)化,能夠?qū)崿F(xiàn)學(xué)校對(duì)信息的有效配置和充分利用。文章采用數(shù)據(jù)挖掘技術(shù)針對(duì)學(xué)生校園消費(fèi)活動(dòng)的管理分析方面進(jìn)行深入研究,首先通過(guò)數(shù)據(jù)預(yù)處理技術(shù)提取相關(guān)消費(fèi)特征,并采用一種優(yōu)化的K-means聚類(lèi)算法,將學(xué)生分為幾類(lèi),分析行為特征,以便高校學(xué)生工作人員分門(mén)別類(lèi)的進(jìn)行學(xué)生管理,最后將聚類(lèi)結(jié)果輸入決策樹(shù)分類(lèi)模型進(jìn)行評(píng)估,以評(píng)價(jià)聚類(lèi)結(jié)果。
數(shù)據(jù)挖掘;k-means算法;一卡通消費(fèi)數(shù)據(jù);行為特征;決策樹(shù)
隨著學(xué)校數(shù)字化和信息化的深入發(fā)展,校園一卡通系統(tǒng)得到了廣泛應(yīng)用和高度重視,是高校信息化程度的重要標(biāo)志。高校管理是以學(xué)生為主體的一種客戶(hù)關(guān)系管理,通過(guò)提取一卡通數(shù)據(jù)庫(kù)中相關(guān)學(xué)生數(shù)據(jù)進(jìn)行用戶(hù)行為分析,來(lái)挖掘其中潛在有用的信息和知識(shí),極大地推動(dòng)了學(xué)生管理工作的高效運(yùn)行,且實(shí)現(xiàn)了校園各種信息和資源的高度集中和融合。數(shù)據(jù)挖掘作為一種從海量數(shù)據(jù)中挖掘潛在知識(shí)的技術(shù),已經(jīng)在科學(xué)研究、商業(yè)等很多領(lǐng)域得到廣泛應(yīng)用。將數(shù)據(jù)挖掘技術(shù)應(yīng)用于高校人力資源管理,能充分發(fā)揮現(xiàn)有數(shù)據(jù)的作用為決策服務(wù)。國(guó)外對(duì)學(xué)生一卡通數(shù)據(jù)分析起步較早,且進(jìn)展迅速。例如加拿大湖首大學(xué)的學(xué)生行為分析系統(tǒng),可以根據(jù)學(xué)生最近發(fā)生的行為定期向?qū)W生發(fā)送一封郵件來(lái)指導(dǎo)學(xué)生下一步的學(xué)習(xí)計(jì)劃和生活計(jì)劃,該系統(tǒng)已經(jīng)可以高效的對(duì)學(xué)生行為進(jìn)行分析并及時(shí)報(bào)告輔導(dǎo)員進(jìn)行處理。而就國(guó)內(nèi)來(lái)說(shuō),已經(jīng)有學(xué)者將數(shù)據(jù)挖掘技術(shù)運(yùn)用于商業(yè),如梁穎等人基于數(shù)據(jù)挖掘技術(shù)對(duì)消費(fèi)者進(jìn)行行為的分析[1],廖珣提出基于K-means算法和CBR方法對(duì)高校就業(yè)預(yù)測(cè)的分析[2],葉煉對(duì)電信客戶(hù)進(jìn)行基于數(shù)據(jù)倉(cāng)庫(kù)的行為分析[3],曾智等人對(duì)YOUCITY網(wǎng)站用戶(hù)行為進(jìn)行分析,通過(guò)模式識(shí)別方法對(duì)固定的模型去分析用戶(hù),得到最接近用戶(hù)的模型就是用戶(hù)的類(lèi)別[4]。廣大高校內(nèi)部所用的學(xué)生管理系統(tǒng)大部分沒(méi)有針對(duì)學(xué)生數(shù)據(jù)進(jìn)行集成,而針對(duì)高校學(xué)生行為分析的方案也較少。
K-means聚類(lèi)算法作為一種經(jīng)典的數(shù)據(jù)挖掘算法,也存在其固有缺陷,比如K值的確定和初始聚類(lèi)中心的確定。目前,已有Kanfman L等通過(guò)輪廓系數(shù)來(lái)測(cè)量不同類(lèi)的分離度。楊善林運(yùn)用距離代價(jià)函數(shù)作為空間聚類(lèi)有效性檢驗(yàn)函數(shù),即當(dāng)距離代價(jià)函數(shù)達(dá)到最小值時(shí),空間聚類(lèi)結(jié)果為最優(yōu)[5]。Huang提出一種基于K-means的變量自動(dòng)加權(quán)聚類(lèi)算法,使得聚類(lèi)問(wèn)題中的變量選擇得到改進(jìn)。Dhillon等人則通過(guò)調(diào)整迭代過(guò)程中重新計(jì)算聚類(lèi)中心的方法使其性能得到提高[6]。
某大學(xué)校園一卡通系統(tǒng)的數(shù)據(jù)庫(kù)采用的是分布式處理和“客戶(hù)端/服務(wù)器”架構(gòu),大量數(shù)據(jù)經(jīng)由不同客戶(hù)端上傳到服務(wù)器的數(shù)據(jù)庫(kù)中,包含消費(fèi)數(shù)據(jù)、門(mén)禁數(shù)據(jù)、成績(jī)數(shù)據(jù)等不同的子數(shù) 庫(kù)。本文針對(duì)消費(fèi)數(shù)據(jù)庫(kù)中的數(shù)據(jù)采用數(shù)據(jù)挖掘的技術(shù)進(jìn)行消費(fèi)習(xí)慣分析,數(shù)據(jù)處理流程如圖1所示。
圖1 數(shù)據(jù)處理流程
原始消費(fèi)數(shù)據(jù)儲(chǔ)存于oracle數(shù)據(jù)庫(kù)中,從概念上分析包含:商戶(hù)和管理帳戶(hù)數(shù)據(jù)字典,全局設(shè)置數(shù)據(jù)字典,系統(tǒng)管理和運(yùn)行環(huán)境設(shè)置數(shù)據(jù)字典,流水帳戶(hù)數(shù)據(jù)字典,報(bào)表部分?jǐn)?shù)據(jù)字典五大項(xiàng)。因此需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,包括數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)歸約,將所得結(jié)果構(gòu)成一個(gè)小型數(shù)據(jù)倉(cāng)庫(kù),便于后續(xù)聚類(lèi)分析。
本篇針對(duì)消費(fèi)數(shù)據(jù)庫(kù)中的消費(fèi)相關(guān)數(shù)據(jù)采用K-means聚類(lèi)方法對(duì)學(xué)生消費(fèi)習(xí)慣劃分類(lèi)別,通過(guò)相關(guān)屬性分析,采用圖2中屬性作為K-means算法的輸入屬性。
K-means算法有兩個(gè)初始參數(shù):初始聚類(lèi)中心和聚類(lèi)數(shù)目K,其中初始聚類(lèi)中心的選擇直接影響聚類(lèi)結(jié)果的好壞。
圖2 K-means輸入屬性
本文采用了一種解決初始聚類(lèi)中心選擇的優(yōu)化方法,這種方法是通過(guò)改變初始聚類(lèi)中心來(lái)尋求一個(gè)類(lèi)內(nèi)密集程度最高的情況作為分析結(jié)果,類(lèi)內(nèi)密集程度越高,說(shuō)明類(lèi)內(nèi)點(diǎn)越密集,聚類(lèi)結(jié)果越好。
將類(lèi)內(nèi)點(diǎn)的密度程度作為目標(biāo)函數(shù),計(jì)算公式如下:
p是所有數(shù)據(jù)的平方誤差總和,從而使同一聚類(lèi)中的對(duì)象相似度較高;而不同聚類(lèi)中的對(duì)象相似度較小。
最終經(jīng)過(guò)優(yōu)化的K-means算法的主要流程如下:
(1)選擇數(shù)據(jù)質(zhì)量較好的訓(xùn)練樣本空間數(shù)據(jù)集;
(2)輸入K值和選取初始聚類(lèi)中心參數(shù);
(3)執(zhí)行傳統(tǒng)的K-means算法模型;
(4)依據(jù)模型驗(yàn)證計(jì)算ip;
(5)改變初始聚類(lèi)中心參數(shù),重復(fù)步3、4 直到p值最小,輸出與最小p值相對(duì)應(yīng)的結(jié)果,即類(lèi)內(nèi)密集程度。
3.1 輸入數(shù)據(jù)
本篇通過(guò)上文所述數(shù)據(jù)預(yù)處理技術(shù)將原始消費(fèi)數(shù)據(jù)進(jìn)行了一系列的轉(zhuǎn)換與篩選,最終得到可供K-means算法輸入的待測(cè)數(shù)據(jù),男生數(shù)據(jù)393組,女生數(shù)據(jù)111組。
圖3 原始數(shù)據(jù)不同屬性分布情況
由圖3可以看出,男生用卡次數(shù)、食堂消費(fèi)均值均高于女生,但女生超市消費(fèi)額比男生高,且男生、女生就餐地點(diǎn)也不同,因此本文將男、女生分開(kāi)進(jìn)行分析是必要且可行的。此外,額外飲品消費(fèi)情況略少,不足以作為特征,因此刪掉該屬性更利于聚類(lèi)結(jié)果。本文采用一種優(yōu)化的K-means聚類(lèi)算法,離散化的輸入數(shù)據(jù)更有利于產(chǎn)生較優(yōu)的結(jié)果。根據(jù)直方圖均衡化的無(wú)指導(dǎo)離散法將屬性按值域劃分出五個(gè)區(qū)間,即很高(2)、高(1)、中(0)、低(-1)、很低(-2)五種水平,轉(zhuǎn)換為離散值,作為輸入數(shù)據(jù),便于分析。由圖4可以看出,待輸入數(shù)據(jù)分布情況均符合高斯分布。
圖4 待測(cè)女生數(shù)據(jù)不同屬性分布情況
3.2 結(jié)果分析
經(jīng)實(shí)驗(yàn),K=4,聚類(lèi)結(jié)果最好,輸入K,改變初始聚類(lèi)中心循環(huán)直到p值最小結(jié)束。在本文中改變隨機(jī)初始聚類(lèi)中心的參數(shù)可以改變隨機(jī)初始中心,最終對(duì)應(yīng)p最小的結(jié)果(類(lèi)內(nèi)密集程度最大)即為最優(yōu)的聚類(lèi)結(jié)果, p即所有數(shù)據(jù)樣本的平方誤差總和。
表1 尋求最優(yōu)聚類(lèi)結(jié)果(男)
表2 尋求最優(yōu)聚類(lèi)結(jié)果(女)
從表1得出,男生數(shù)據(jù)第一組結(jié)果最佳,迭代次數(shù)為6,所有樣本數(shù)據(jù)的總方差p為最小值,因此最終采用第一組聚類(lèi)結(jié)果。從表2得出,女生數(shù)據(jù)第四組結(jié)果最好,迭代次數(shù)為6,方差之和p為最小值,因此最終采用第四組聚類(lèi)結(jié)果。所得聚類(lèi)中心點(diǎn)如表3和表4所示,聚類(lèi)中心點(diǎn)特征代表該類(lèi)別人群特征的均值水平。男生數(shù)據(jù)394組,女生數(shù)據(jù)111組。
表3 聚類(lèi)中心(男)
男生聚類(lèi)結(jié)果分析:
第I類(lèi):該類(lèi)人群常去就餐地點(diǎn)為食堂代碼24,即學(xué)苑食堂,用卡次數(shù)處于正常水平偏上水平,即食堂就餐次數(shù)較多,但食堂消費(fèi)額水平最低,超市、水果店等消費(fèi)水平在四種類(lèi)群中屬于正常水平。
第II類(lèi):該類(lèi)人群常去就餐地點(diǎn)也為學(xué)苑食堂,用卡次數(shù)最少,食堂消費(fèi)額屬于正常水平,但超市消費(fèi)額屬于四類(lèi)人群中最高水平。
第III類(lèi):該類(lèi)人群常去就餐地點(diǎn)也為學(xué)苑食堂,用卡次數(shù)屬于四類(lèi)人群中最高水平,食堂消費(fèi)額也位于最高水平,應(yīng)屬于常在食堂消費(fèi)的人群,相反,超市消費(fèi)額最少。
第IV類(lèi):該類(lèi)人群常去就餐地點(diǎn)為食堂代碼20,即西區(qū)食堂,不同于其他三類(lèi)人群,用卡次數(shù)處于四類(lèi)人群中正常偏下水平,食堂消費(fèi)額正常,超市消費(fèi)額略多。
表4 聚類(lèi)中心(女)
女生聚類(lèi)結(jié)果分析:
第I類(lèi):該類(lèi)人群常去就餐地點(diǎn)偏向食堂代碼24,即學(xué)苑食堂,用卡次數(shù)最多,且食堂消費(fèi)額與超市消費(fèi)額都處于最低水平。
第II類(lèi):該類(lèi)人群常去就餐地點(diǎn)平均值處于20與24中間,即一四食堂和學(xué)苑食堂,不同與其他人群,用卡次數(shù)最少,但食堂消費(fèi)額和超市消費(fèi)額均屬于四類(lèi)人群中最高水平。
第III類(lèi):該類(lèi)人群常去就餐地點(diǎn)為學(xué)苑食堂,用卡次數(shù)屬于四類(lèi)人群中最低水平,食堂消費(fèi)額處于正常水平,超市消費(fèi)額處于最少水平。
第IV類(lèi):該類(lèi)人群常去就餐地點(diǎn)為學(xué)苑食堂,不同于其他三類(lèi)人群,用卡次數(shù)處于正常水平,食堂消費(fèi)額正常,但超市消費(fèi)額略多,僅次于第二類(lèi)人群。
將男生聚類(lèi)后數(shù)據(jù),即含有類(lèi)標(biāo)的數(shù)據(jù)輸入到?jīng)Q策樹(shù)模型中,并采用十折交叉驗(yàn)證法得出正確分類(lèi)率為99.4924%,輸入女生數(shù)據(jù)得到正確分類(lèi)率為99.0991%,由決策樹(shù)模型驗(yàn)證得知,所得聚類(lèi)結(jié)果較好。
4.2 解決方法
(1)針對(duì)上述PC硬件性能問(wèn)題,經(jīng)測(cè)試,我們加強(qiáng)筆記本PC配置:8G DDR3內(nèi)存+Intel i5 CPU,再升級(jí)加裝千元以下的SSD固態(tài)硬盤(pán)。將虛擬機(jī)文件置于SSD固態(tài)硬盤(pán)中,VMWARE虛擬機(jī)開(kāi)啟(平均分配512MB內(nèi)存)4臺(tái)左右,同時(shí)Dynamips虛擬網(wǎng)絡(luò)設(shè)備開(kāi)啟10臺(tái)(平均分配128MB內(nèi)存)左右,對(duì)真實(shí)PC及虛擬機(jī)的性能影響在可承受范圍內(nèi)。
另外,利用軟件橋接特性,直接橋接物理網(wǎng)絡(luò),便可將虛擬機(jī)分布在多臺(tái)真實(shí)PC上,減少單臺(tái)真實(shí)PC的硬件資源負(fù)擔(dān)。
(2)針對(duì)網(wǎng)絡(luò)設(shè)備虛擬軟件的版本問(wèn)題,本文使用的軟件其實(shí)能夠滿(mǎn)足絕大部分網(wǎng)絡(luò)原理的實(shí)驗(yàn)需求。有理由相信,隨著部分虛擬化軟件開(kāi)源化,軟件研發(fā)人員會(huì)推陳出新、將軟件拓展得更強(qiáng)大。
虛擬化技術(shù)存在于企業(yè)級(jí)高端應(yīng)用中,也可以存在于眾人工作學(xué)習(xí)的PC上。虛擬化技術(shù),依托的是虛擬化軟件來(lái)實(shí)現(xiàn)功能。利用現(xiàn)有資源PC,在主機(jī)虛擬化軟件虛擬實(shí)現(xiàn)的windows/linux/unix等guest os上部署各種“真實(shí)”應(yīng)用,依托網(wǎng)絡(luò)設(shè)備虛擬化軟件虛擬創(chuàng)建路由器、交換機(jī)、安全設(shè)備等,按照實(shí)際需求,并基于現(xiàn)實(shí)、仿照現(xiàn)實(shí)對(duì)主機(jī)/網(wǎng)絡(luò)設(shè)備完成各種參數(shù)調(diào)試,把各種虛擬網(wǎng)絡(luò)整合起來(lái),得到一套精簡(jiǎn)的、功能完善的、與現(xiàn)實(shí)相似的虛擬網(wǎng)絡(luò)系統(tǒng)集成環(huán)境、虛擬實(shí)驗(yàn)室。利用單臺(tái)真實(shí)PC,可在搭建的虛擬實(shí)驗(yàn)室中進(jìn)行技能學(xué)習(xí)、知識(shí)培訓(xùn)、技術(shù)原理實(shí)驗(yàn)、方案演練、對(duì)整個(gè)IT系統(tǒng)環(huán)境模擬仿真、為進(jìn)軍企業(yè)級(jí)高端虛擬化技術(shù)夯實(shí)基礎(chǔ)。PC虛擬化具有眾多優(yōu)勢(shì),對(duì)IT入門(mén)者來(lái)說(shuō),無(wú)疑是個(gè)低投資高回饋的選擇方案。
[1] 馬博峰.VMware.Citrix和Microsoft虛擬化技術(shù)詳解與應(yīng)用實(shí)踐[M].北京:機(jī)械工業(yè)出版社,2012.
[2] (美)呂斯特.虛擬化技術(shù)指南[M].北京:機(jī)械工業(yè)出版社, 2011.
[3] 梁廣民,王隆杰.思科網(wǎng)絡(luò)實(shí)驗(yàn)室CCNA(路由技術(shù))實(shí)驗(yàn)指南[M].北京:電子工業(yè)出版社, 2009.
[4] 蔡延榮.網(wǎng)絡(luò)協(xié)議分析[M].北京:機(jī)械工業(yè)出版社,2009.
Students consumption behavior analysis based on the data mining technologies
With effective integration and optimization to variety of resources, the campus card system (CCS) makes efficient allocation and full use of campus information. management analysis of students’ consumption activities is studied through data mining. We use date preprocessing techniques to extract relevant consumer characteristics and an optimized k-means clustering algorithm to divide students into several categories. At last we use the decision tree algorithm to judge the clustering results. The analysis of the behavior characteristics can lead to a better management of students for college staffs.
Data mining; k-means; e-card consumer data; behavior characteristics; decision tree
TP311.13
A
1008-1151(2015)01-0026-03
2014-12-15
姜楠(1989-),女,同濟(jì)大學(xué)電子與信息工程學(xué)院控制工程專(zhuān)業(yè)2012級(jí)碩士,意大利博洛尼亞大學(xué)工程學(xué)院自動(dòng)化專(zhuān)業(yè)2012級(jí)碩士,研究方向?yàn)閿?shù)據(jù)分析與數(shù)據(jù)挖掘;許維勝(1966-),男,同濟(jì)大學(xué)電子與信息工程學(xué)院博士生導(dǎo)師,研究方向?yàn)橹悄茏詣?dòng)化理論及應(yīng)用。