蘇兆兆 欒靜
摘要:目前高校本科生的身體素質(zhì)普遍下降,大學(xué)生除了加強(qiáng)體育鍛煉外,還需要在日常飲食上注意養(yǎng)成良好的習(xí)慣。校園卡是高校智能化管理的重要手段和媒介,學(xué)生在校園內(nèi)的各項(xiàng)活動(dòng)都能通過(guò)校園卡后臺(tái)管理系統(tǒng)反映出來(lái),將學(xué)生消費(fèi)數(shù)據(jù)從數(shù)據(jù)庫(kù)中提取出來(lái),分析學(xué)生的三餐消費(fèi)情況,通過(guò)關(guān)聯(lián)分析不同消費(fèi)屬性之間的關(guān)聯(lián)強(qiáng)度得到學(xué)生的就餐習(xí)慣。對(duì)不在食堂就餐的學(xué)生,應(yīng)重點(diǎn)關(guān)注這類(lèi)學(xué)生的就餐問(wèn)題,確保學(xué)生按時(shí)就餐,不節(jié)食。
關(guān)鍵詞:本科生;校園卡;飲食消費(fèi);數(shù)據(jù)挖掘;關(guān)聯(lián)規(guī)則
1引言
隨著經(jīng)濟(jì)的快速發(fā)展和物質(zhì)生活水平的提高,很多高校大學(xué)生的身體素質(zhì)卻在下降,根據(jù)《國(guó)民體質(zhì)監(jiān)測(cè)公報(bào)(2014)》調(diào)查顯示,與前幾年相比,學(xué)生體質(zhì)與健康狀況總體改善,中小學(xué)生身體素質(zhì)繼續(xù)呈現(xiàn)穩(wěn)中向好趨勢(shì),而大學(xué)生身體素質(zhì)繼續(xù)呈現(xiàn)下降趨勢(shì)。很多高校對(duì)學(xué)生的體育課程數(shù)量作了添加,以期提高學(xué)生的身體素質(zhì)。除了體育鍛煉外,是不是存在部分學(xué)生因?yàn)轱嬍巢灰?guī)律而導(dǎo)致身體素質(zhì)下降?如男生熬夜玩游戲?qū)е聸](méi)有時(shí)間吃早餐,女生為了瘦身節(jié)食等情況。本論文通過(guò)對(duì)在校本科生的消費(fèi)挖掘分析,得到學(xué)生的就餐情況,對(duì)飲食不規(guī)律的學(xué)生,校方和老師要加強(qiáng)管理,及時(shí)解決存在的問(wèn)題,培養(yǎng)良好的飲食習(xí)慣。
2數(shù)據(jù)預(yù)處理
數(shù)據(jù)預(yù)處理的目的是提高數(shù)據(jù)質(zhì)量,通過(guò)對(duì)所收集的不同來(lái)源數(shù)據(jù)的審核、清理、補(bǔ)充完善等一系列操作,保證數(shù)據(jù)的挖掘和分析結(jié)果。
2.1數(shù)據(jù)收集
數(shù)據(jù)收集是根據(jù)目的需求,收集所需數(shù)據(jù)到單個(gè)位置以便挖掘分析。由于本校的校園卡管理系統(tǒng)覆蓋各個(gè)層面,包括多個(gè)應(yīng)用平臺(tái),因此本論文的數(shù)據(jù)分別來(lái)源于校園卡管理平臺(tái)下的綜合業(yè)務(wù)管理子系統(tǒng)(留學(xué)生餐廳、馕房消費(fèi))、商務(wù)子系統(tǒng)(昆侖校區(qū)食堂、商店消費(fèi))、第三方對(duì)接子系統(tǒng)(國(guó)際教育大廈水控、商店、休閑吧消費(fèi))、POS子系統(tǒng)(溫泉校區(qū)漢餐及清餐充值、消費(fèi))等不同子系統(tǒng)。整理匯總后,本論文從校園卡后臺(tái)數(shù)據(jù)庫(kù)獲取的2016-2017學(xué)年第一學(xué)期138天的消費(fèi)流水?dāng)?shù)據(jù)量約801萬(wàn)條。
2.2數(shù)據(jù)清理
數(shù)據(jù)清理是通過(guò)約簡(jiǎn)數(shù)據(jù)和屬性、糾正錯(cuò)誤、填寫(xiě)缺失值等可行性操作來(lái)保證數(shù)據(jù)的質(zhì)量。本論文對(duì)匯總后801萬(wàn)條消費(fèi)流水?dāng)?shù)據(jù)進(jìn)行審核后,發(fā)現(xiàn)不同子系統(tǒng)平臺(tái)下的數(shù)據(jù)格式不同,各屬性列所占存儲(chǔ)空間也不同,為提高數(shù)據(jù)的一致性,本論文將采用下列四種不同方式的數(shù)據(jù)清理。
2.2.1約簡(jiǎn)數(shù)據(jù)
本論文的分析主體為在校本科生,因此約簡(jiǎn)了外國(guó)留學(xué)生、教職工、研究生等15項(xiàng)與本論文研究無(wú)關(guān)人員的數(shù)據(jù),約簡(jiǎn)后的數(shù)據(jù)量為538萬(wàn)條。
2.2.2約簡(jiǎn)屬性
本論文的分析主題為在校本科生的飲食消費(fèi),因此約簡(jiǎn)了開(kāi)戶(hù)單位、賬戶(hù)類(lèi)型、操作員、流水狀態(tài)、交易單位等16項(xiàng)與學(xué)生消費(fèi)無(wú)關(guān)的屬性。
2.2.3糾正錯(cuò)誤
本論文審核數(shù)據(jù)時(shí)發(fā)現(xiàn)由于業(yè)務(wù)操作員的誤拼或者輸入法的切換沖突等,導(dǎo)致民族學(xué)生姓名中的分隔符“·”,錯(cuò)誤顯示為“?”或“-”等,因此在導(dǎo)人數(shù)據(jù)庫(kù)之后糾正錯(cuò)誤信息,糾正為正確的“·”。
2.2.4填寫(xiě)缺失值
因?yàn)閷W(xué)?,F(xiàn)有三個(gè)校區(qū),當(dāng)學(xué)生在三個(gè)校區(qū)之間活動(dòng)時(shí),偶爾會(huì)因?yàn)榫W(wǎng)絡(luò)延遲或者不同子系統(tǒng)間上傳數(shù)據(jù)而產(chǎn)生亂碼,本論文將亂碼數(shù)據(jù)分別歸類(lèi)填寫(xiě)到相應(yīng)的屬性列中。
3數(shù)據(jù)挖掘分析思路及方法
確定分析思路主要是為了準(zhǔn)確、全面分析學(xué)生的就餐情況。本論文將從三餐消費(fèi)維度切人對(duì)在校本科生的消費(fèi)情況作統(tǒng)計(jì)、挖掘分析。
3.1三餐分析
每日三餐是學(xué)生在校內(nèi)學(xué)習(xí)和生活的基礎(chǔ)保障,也是學(xué)生自我管理的體現(xiàn),通過(guò)對(duì)在校本科生的一日三餐統(tǒng)計(jì)分析,了解學(xué)生的飲食情況,幫助老師規(guī)范學(xué)生飲食習(xí)慣。本論文從日常的消費(fèi)流水?dāng)?shù)據(jù)中,將學(xué)生的三餐根據(jù)對(duì)應(yīng)的時(shí)間段分別統(tǒng)計(jì),每餐的所有刷卡次數(shù)和金額累計(jì)為該餐的一次消費(fèi)和金額,統(tǒng)計(jì)出三餐的就餐天數(shù)后計(jì)算三餐的就餐率,根據(jù)各餐的頻繁性得到學(xué)生的就餐習(xí)慣。
3.2算法選擇
算法是對(duì)問(wèn)題解決方案的準(zhǔn)確而完整的描述,確定分析維度之后,將數(shù)據(jù)收斂到與分析主題相關(guān)的范圍,提高數(shù)據(jù)的處理速度與準(zhǔn)確性,然后選擇合適、高效的算法來(lái)分析。
3.2.1統(tǒng)計(jì)分析
統(tǒng)計(jì)分析是應(yīng)用最廣泛的數(shù)據(jù)處理技術(shù),通常三個(gè)步驟即可完成對(duì)數(shù)據(jù)的操作,即收集-整理-分析。本論文將不同來(lái)源的食堂消費(fèi)流水?dāng)?shù)據(jù)收集整理后,對(duì)學(xué)生三餐消費(fèi)數(shù)據(jù)進(jìn)行分析,如統(tǒng)計(jì)出各餐的消費(fèi)人數(shù)及天數(shù),查看隨著時(shí)間的增加,學(xué)生的消費(fèi)天數(shù)是否增加,有多少學(xué)生能保證規(guī)律性就餐,學(xué)生的就餐趨勢(shì)是遞增還是遞減。
3.2.2關(guān)聯(lián)分析
關(guān)聯(lián)規(guī)則挖掘的主要目的在于發(fā)現(xiàn)數(shù)據(jù)中有意義的關(guān)聯(lián)關(guān)系。本論文通過(guò)創(chuàng)建關(guān)聯(lián)矩陣,查看所有學(xué)生的消費(fèi)金額、天數(shù)與總金額之間的關(guān)聯(lián)強(qiáng)度。前面通過(guò)統(tǒng)計(jì)的方式分別計(jì)算機(jī)出學(xué)生的三餐消費(fèi)天數(shù)和消費(fèi)金額、學(xué)期總消費(fèi)次數(shù)和總金額,利用關(guān)聯(lián)分析查看每個(gè)學(xué)生的三餐對(duì)總消費(fèi)的影響和支持度,哪些餐次頻繁出現(xiàn)、在學(xué)生總消費(fèi)中所占權(quán)重最大,學(xué)生的消費(fèi)習(xí)慣是否一樣,這些都將通過(guò)各屬性之間的關(guān)聯(lián)系數(shù)體現(xiàn)出來(lái)。
關(guān)聯(lián)系數(shù)位于矩陣中,它是表示關(guān)系強(qiáng)度的一種指標(biāo),取值范圍在±0至±1之間,所有介于0到1之間的關(guān)聯(lián)系數(shù)都表示正關(guān)聯(lián),所有介于0到-1之間的關(guān)聯(lián)系數(shù)都表示負(fù)關(guān)聯(lián)。在屬性與自身相交的位置,關(guān)聯(lián)系數(shù)為“1”,因?yàn)槿魏问挛镌谂c自身進(jìn)行比較時(shí)都具有完全匹配的關(guān)系,所有其他屬性對(duì)的關(guān)聯(lián)系數(shù)都小于1。
3.3工具選擇
3.3.1統(tǒng)計(jì)工具
本論文對(duì)校園卡消費(fèi)流水?dāng)?shù)據(jù)的統(tǒng)計(jì)分析使用了SQLServer 2012數(shù)據(jù)庫(kù),SQL Server是關(guān)系數(shù)據(jù)庫(kù)管理系統(tǒng),支持存儲(chǔ)過(guò)程、ODBC等,且自身包含的SQL語(yǔ)言操作方便。由于數(shù)據(jù)量大,且存儲(chǔ)過(guò)程具有執(zhí)行數(shù)度快,代碼可重用、共享等優(yōu)點(diǎn),本論文使用存儲(chǔ)過(guò)程來(lái)實(shí)現(xiàn)對(duì)數(shù)據(jù)的操作。
3.3.2挖掘工具
本論文使用的數(shù)據(jù)挖掘工具是RapidMiner Studio開(kāi)源工具,RapidMiner是目前世界上開(kāi)源工具中比較可靠、先進(jìn)的數(shù)據(jù)挖掘工具,軟件自帶1500多個(gè)函數(shù),無(wú)需編程,拖拽建模,并且可連接多個(gè)類(lèi)型的數(shù)據(jù)庫(kù),能實(shí)現(xiàn)完整的建模步驟,從數(shù)據(jù)的加載、匯集到轉(zhuǎn)化,再到分析和預(yù)測(cè)。
本論文將RapidMiner和SQL Server數(shù)據(jù)庫(kù)連接起來(lái),在左下角的數(shù)據(jù)源窗口選擇DB(數(shù)據(jù)庫(kù))將數(shù)據(jù)源拖拽到界面正中的主流程(main process)工作區(qū),在左上角的算子(operator)窗口選擇所需的算子,拖入至流程中,在右側(cè)參數(shù)選項(xiàng)(Parameters)中對(duì)具體參數(shù)進(jìn)行設(shè)置,選擇上方工具欄中的運(yùn)行,即可在結(jié)果視圖(Result Overview)中看到關(guān)聯(lián)分析結(jié)果。
4數(shù)據(jù)挖掘分析
本論文在對(duì)計(jì)算機(jī)學(xué)院508名學(xué)生的數(shù)據(jù)進(jìn)行分析時(shí),為保證數(shù)據(jù)的穩(wěn)定性和精確性,約簡(jiǎn)了外出實(shí)習(xí)的93名畢業(yè)班學(xué)生和46天節(jié)假日期間的消費(fèi)數(shù)據(jù),分析了415名學(xué)生92個(gè)工作日的三餐消費(fèi)情況。
4.1學(xué)生三餐就餐情況
如圖1所示,本論文對(duì)計(jì)算機(jī)學(xué)院學(xué)生的三餐就餐天數(shù)、人數(shù)分析后得到如下結(jié)果:
1)早餐就餐人數(shù)遠(yuǎn)低于午餐和晚餐,且人數(shù)隨時(shí)間的增加而遞減。
2)所有學(xué)生都在食堂吃過(guò)午餐,且大部分學(xué)生在食堂就餐天數(shù)高于45天。
3)晚餐時(shí)段的學(xué)生人數(shù)分三段:第一部分是就餐天數(shù)在5-25天,第二部分是就餐天數(shù)在25-55天,第三部分是就餐天數(shù)在55-85天。其中,第二階段的學(xué)生人數(shù)占多數(shù)。
根據(jù)分析結(jié)果可推斷出:
1)早餐就餐人數(shù)過(guò)少,可能存在部分學(xué)生購(gòu)買(mǎi)零食代替早餐,因此需對(duì)學(xué)生的早餐就餐隋況作進(jìn)一步分析。
2)午餐就餐人數(shù)較高且比較穩(wěn)定的原因可能是午休時(shí)間較短且下午要上課,學(xué)生選擇在食堂就餐比較方便、快捷。
3)晚餐就餐人數(shù)低于午餐的原因可能是晚上時(shí)間充裕,學(xué)生選擇何種方式就餐的形式多種多樣,如外出就餐、叫外賣(mài)、吃零食或者減肥不吃等。
4.2學(xué)生早餐就餐情況
由于學(xué)生早餐在食堂就餐人數(shù)過(guò)少,本論文提取了早餐時(shí)間段內(nèi)在商店購(gòu)買(mǎi)零食的消費(fèi)數(shù)據(jù)來(lái)對(duì)比分析,根據(jù)圖1早餐消費(fèi)的變化曲線,分為五個(gè)時(shí)間段,結(jié)果如圖2所示:
根據(jù)對(duì)圖2的數(shù)據(jù)對(duì)比分析可知:
1)僅有8%的學(xué)生能規(guī)律性的在食堂吃早餐,就餐天數(shù)在66-92天內(nèi),17%的學(xué)生就餐天數(shù)在45-65天內(nèi),21%的學(xué)生就餐天數(shù)在24-44天內(nèi),48%的學(xué)生就餐天數(shù)在1-23天內(nèi),8%的學(xué)生從來(lái)沒(méi)去食堂吃過(guò)早餐。
2)計(jì)算機(jī)學(xué)院的學(xué)生在商店買(mǎi)零食的人數(shù)并不多,并沒(méi)有學(xué)生每天去買(mǎi)零食代替早餐,1%的學(xué)生購(gòu)買(mǎi)天數(shù)為45-65天,9%的學(xué)生購(gòu)買(mǎi)天數(shù)在24-44天內(nèi),82%的學(xué)生購(gòu)買(mǎi)天數(shù)在1-23天內(nèi),8%的學(xué)生購(gòu)買(mǎi)天數(shù)為0。
3)通過(guò)賬戶(hù)對(duì)比發(fā)現(xiàn)經(jīng)常在食堂吃早餐的8%的學(xué)生與從不在商店買(mǎi)零食的8%的學(xué)生為一類(lèi)學(xué)生,符合實(shí)際情況。
對(duì)學(xué)生早餐分析的結(jié)果,可以得到如下結(jié)論:
1)學(xué)生在食堂吃早餐的人數(shù)確實(shí)過(guò)少,可能存在部分學(xué)生認(rèn)為食堂飯菜不合口味。
2)在早餐時(shí)間段內(nèi)學(xué)生購(gòu)買(mǎi)零食代替早餐的人數(shù)也不多,推測(cè)可能存在部分學(xué)生提前備好零食和干糧,如牛奶、面包、馕、奶茶等,對(duì)這類(lèi)學(xué)生老師要適當(dāng)引導(dǎo)學(xué)生去食堂吃新鮮、熱乎的早餐,且食堂的早餐價(jià)格要低于零食的花費(fèi)。
3)可能存在部分學(xué)生直接空腹上課,對(duì)這類(lèi)學(xué)生老師應(yīng)重點(diǎn)關(guān)注。
4.3學(xué)生消費(fèi)情況關(guān)聯(lián)分析
為探索和證實(shí)學(xué)生的三餐消費(fèi)情況,本論文在RapidMiner中創(chuàng)建了一個(gè)包含九個(gè)屬性的關(guān)聯(lián)矩陣對(duì)學(xué)生的消費(fèi)情況進(jìn)行挖掘分析,得到各屬性之間的關(guān)聯(lián)系數(shù)如圖3所示:
根據(jù)各屬性之間的關(guān)聯(lián)系數(shù)值可知:
1)早餐消費(fèi)金額、消費(fèi)天數(shù)占學(xué)生的學(xué)期消費(fèi)金額及天數(shù)的權(quán)重為0.507和0.746,屬于有些關(guān)聯(lián)關(guān)系。
2)午餐消費(fèi)金額、消費(fèi)天數(shù)占學(xué)生的學(xué)期消費(fèi)金額及天數(shù)的權(quán)重為0.921和0.912,屬于強(qiáng)關(guān)聯(lián)關(guān)系。
3)晚餐消費(fèi)金額、消費(fèi)天數(shù)占學(xué)生的學(xué)期消費(fèi)金額及天數(shù)的權(quán)重為0.866和0.848,屬于較強(qiáng)關(guān)聯(lián)關(guān)系。
根據(jù)挖掘結(jié)果,可得到如下結(jié)論:
1)早餐就餐率太低,無(wú)論是哪種原因,都應(yīng)該重視起來(lái),避免有學(xué)生長(zhǎng)期不吃早餐出現(xiàn)頭暈、惡心等突發(fā)狀況。
2)午餐就餐率很好,晚餐就餐率略低于午餐,但總體呈現(xiàn)良好發(fā)展趨勢(shì)。
3)早餐消費(fèi)金額最低,午餐的消費(fèi)金額與晚餐的消費(fèi)金額相差不大,與食堂飯菜價(jià)格相符。
4)學(xué)生在食堂的消費(fèi)習(xí)慣是平均每天就餐兩次,早餐被大部分學(xué)生忽略。
5總結(jié)與展望
本論文通過(guò)對(duì)在校本科生飲食消費(fèi)數(shù)據(jù)的挖掘分析,得到學(xué)生的消費(fèi)情況及就餐習(xí)慣,通過(guò)分析和減少部分學(xué)生的飲食不合理現(xiàn)象,既能加強(qiáng)學(xué)校和老師對(duì)學(xué)生的了解,同時(shí)也能引導(dǎo)學(xué)生加強(qiáng)自我管理。
學(xué)生的消費(fèi)數(shù)據(jù)仍待進(jìn)一步挖掘分析和利用,如通過(guò)分析各類(lèi)學(xué)生的消費(fèi)金額作為甄選貧困生的標(biāo)準(zhǔn)之一,對(duì)這些數(shù)據(jù)的每一次深入分析,都是管理學(xué)生向前邁進(jìn)的一大步。