摘要:大學(xué)食堂的數(shù)據(jù)信息分析系統(tǒng)采用WAKE數(shù)據(jù)分析工具,數(shù)據(jù)庫(kù)采用MYSQL進(jìn)行設(shè)計(jì),采用面向?qū)ο蟮某绦蛟O(shè)計(jì)方法。設(shè)計(jì)過(guò)程中采用組件的方法尋找合適的分析算法,將其嵌入到WAKE中去,討論建立合適的模型。對(duì)學(xué)生飲食情況能夠?qū)崟r(shí)掌握,了解,能夠更好的為學(xué)生提供服務(wù),保證學(xué)生有更好的身體情況,更充分精力來(lái)學(xué)習(xí)。
關(guān)鍵詞:數(shù)據(jù)挖掘;數(shù)據(jù)倉(cāng)庫(kù);食堂信息;CRISP-DM
中圖分類號(hào):TP311文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2008)30-0543-02
Based on the Information Canteens Preliminary Design Data Mining Application
LIU Chao,LI Ming-dong, HUANG Xiao-yan
(School of Computer,China West Normal University,Nanchong 637002,China)
Abstract: University canteen data analysis system used WAKE data analysis tool, used MYSQL database design, using object-oriented programming methods. Components used in the design process to find a suitable method analysis algorithm, its embedded into WAKE, so as to discuss the establishment of a suitable model. The students can immediately grasp the situation diet, understanding, can provide better services for students, ensure that the students have better physical condition, more energy to learning.
Key words: Data Mining; Data Warehouse;Information Canteen;CRISP-DM
1 簡(jiǎn)介
數(shù)據(jù)挖掘已經(jīng)有了很長(zhǎng)的發(fā)展時(shí)間,現(xiàn)在已在各行各業(yè)有了很多的應(yīng)用,像檢測(cè)欺騙,評(píng)估風(fēng)險(xiǎn),產(chǎn)品零售,醫(yī)療,氣象等方面,尋找有效的分類和大量數(shù)據(jù)之間的聯(lián)系。在國(guó)家安全領(lǐng)域,數(shù)據(jù)挖掘作為一種工具可以識(shí)別潛在洗錢信息,可以通過(guò)旅途記錄或移居信息跟蹤有可能的恐怖襲擊。數(shù)據(jù)挖掘作為一個(gè)先進(jìn)的工具在使用過(guò)程中有很多的限制,一個(gè)是數(shù)據(jù)挖掘可以揭示部分間的聯(lián)系,但他不能告訴用戶的這些部分的價(jià)值和意義,這些部分的決定必須依靠用戶。第二個(gè)是可以證明交易和變量之間的聯(lián)系,但無(wú)法證明不經(jīng)意的聯(lián)系。
數(shù)據(jù)挖掘過(guò)程中我們應(yīng)盡可能的注意以下幾個(gè)方面的問(wèn)題,數(shù)據(jù)質(zhì)量在分析中的的作用,能不能代表實(shí)際情況,噪聲大不大,能不能顯示意外情況;還有就是數(shù)據(jù)挖掘軟件和數(shù)據(jù)倉(cāng)庫(kù)的協(xié)調(diào)問(wèn)題,他們很多都是使用了不同的代理;數(shù)據(jù)挖掘的問(wèn)題延伸,使用數(shù)據(jù)庫(kù)得到的目的發(fā)現(xiàn)偏離本來(lái)的目的,即在工程進(jìn)行中發(fā)現(xiàn)了更有價(jià)值的目標(biāo);第四個(gè)方面是隱私方面的問(wèn)題,會(huì)不會(huì)產(chǎn)生影響個(gè)人生活的問(wèn)題,比如國(guó)家的安全部門會(huì)使用商業(yè)數(shù)據(jù),到處安裝的攝像頭對(duì)一部分人來(lái)說(shuō)就很不習(xí)慣。
2 系統(tǒng)需求分析
現(xiàn)在的高校食堂逐步走向社會(huì),壟斷地位開(kāi)始動(dòng)搖,提高服務(wù),爭(zhēng)強(qiáng)競(jìng)爭(zhēng)力的任務(wù)刻不容緩。高校食堂與學(xué)生的生活,學(xué)習(xí)息息相關(guān),從中發(fā)現(xiàn)與學(xué)生的問(wèn)題或相關(guān)聯(lián)的方面應(yīng)該成為提高學(xué)生素質(zhì)的一個(gè)重要參考方面。
我們針對(duì)學(xué)校食堂出現(xiàn)的很多問(wèn)題,比如學(xué)生在高峰時(shí)間排隊(duì)時(shí)間過(guò)長(zhǎng),但上千萬(wàn)的學(xué)生天天,月月如此,累加時(shí)間巨大不能忽略,如果此時(shí)間能有20%轉(zhuǎn)化為學(xué)習(xí)時(shí)間,類比與工時(shí),將會(huì)創(chuàng)造出巨大的財(cái)富。食堂信息系統(tǒng)與學(xué)生信息數(shù)據(jù)庫(kù)連接,嘗試是否能夠發(fā)現(xiàn)學(xué)生的飲食與成績(jī)之間的關(guān)系,學(xué)生的飲食習(xí)慣對(duì)學(xué)生的學(xué)業(yè)等各方面是否會(huì)造成直接的影響;根據(jù)學(xué)生的在食堂的就餐情況嘗試能否發(fā)現(xiàn)學(xué)生是否出現(xiàn)異常情況,如果開(kāi)始一個(gè)階段飲食比較差,但后來(lái)提高上去了,可能是該學(xué)生有了工作機(jī)會(huì);反之,如果原來(lái)比較好,后來(lái)水平降了下去,可能就是有問(wèn)題出現(xiàn)了,這時(shí)可能就需要特別的關(guān)注,學(xué)生比較多,輔導(dǎo)員不可能面面俱到,但我們通過(guò)該生的飲食變化就可以發(fā)現(xiàn)問(wèn)題。
3 系統(tǒng)架構(gòu)
我們擬用SQL Server 2005建立關(guān)系型的的數(shù)據(jù)倉(cāng)庫(kù),因?yàn)樗臄?shù)據(jù)庫(kù)引擎包含一些對(duì)數(shù)據(jù)倉(cāng)庫(kù)樣式應(yīng)用程序設(shè)計(jì)和維護(hù)大有幫助的功能。并且還有很多功能,比如:
1) 對(duì)于超大型的表而言,表分區(qū)可快速數(shù)據(jù)的加載速度,并簡(jiǎn)化維護(hù)過(guò)程;2) 輕松創(chuàng)建報(bào)告服務(wù)器;3) Transact-SQL 方面的改進(jìn)包括新增的數(shù)據(jù)類型和新增的分析功能;4) 聯(lián)機(jī)索引操作;5) 細(xì)化備份/還原操作;6) 快速初始化文件。
做接口和界面時(shí)我們使用VC作為開(kāi)發(fā)工具,效率比較高。運(yùn)行系統(tǒng)為WINDOWS XP 個(gè)人版。
4 數(shù)據(jù)挖掘過(guò)程
在數(shù)據(jù)挖掘項(xiàng)目實(shí)施的過(guò)程中,業(yè)界有一個(gè)公認(rèn)的方法論CRISP-DM(Cross Industry Standard Process for Data Ming,跨行業(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程),從名稱上可以看到,此模型的定義比較通用 ,CRISP-DM流程模型包括了六個(gè)步驟,涵蓋了數(shù)據(jù)挖掘的整個(gè)過(guò)程,它們是:商業(yè)理解、數(shù)據(jù)理解、數(shù)據(jù)準(zhǔn)備、建立模型、模型評(píng)估、模型部署。我們依此過(guò)程來(lái)對(duì)食堂信息進(jìn)行數(shù)據(jù)挖掘。
4.1 商業(yè)理解(Business Understanding)
即為進(jìn)行更詳盡的需求分析,最初的階段集中在理解項(xiàng)目目標(biāo)和從業(yè)務(wù)的角度理解需求,同時(shí)將這個(gè)知識(shí)轉(zhuǎn)化為數(shù)據(jù) ,挖掘問(wèn)題的定義和完成目標(biāo)的初步計(jì)劃。
這個(gè)過(guò)程主要是對(duì)需求的分析,在這個(gè)過(guò)程中我們確定我們的目標(biāo)是獲取從食堂信息中得到的關(guān)于學(xué)生的就餐信息,以方便以后改進(jìn)服務(wù)質(zhì)量等。
4.2 數(shù)據(jù)理解 (Data Understanding)
數(shù)據(jù)理解階段從初始的數(shù)據(jù)收集開(kāi)始,通過(guò)一些活動(dòng)的處理,目的是熟悉數(shù)據(jù),識(shí)別數(shù)據(jù)的質(zhì)量問(wèn)題,首次發(fā)現(xiàn)數(shù)據(jù)的內(nèi)部屬性,或是探測(cè)引起興趣的子集去形成隱含信息的假設(shè)。
我們從搜集到的數(shù)據(jù)發(fā)現(xiàn)其中只有卡號(hào),交易日期,交易金額,交易設(shè)備號(hào),余額等幾個(gè)有用的信息,數(shù)據(jù)比較高,很完整,沒(méi)有缺少某個(gè)屬性的現(xiàn)象。
4.3 數(shù)據(jù)準(zhǔn)備 (Data Preparation)
數(shù)據(jù)準(zhǔn)備階段包括從未處理數(shù)據(jù)中構(gòu)造最終數(shù)據(jù)集的所有活動(dòng)。這些數(shù)據(jù)將是模型工具的輸入值。這個(gè)階段的任務(wù)有個(gè)能執(zhí)行多次,沒(méi)有任何規(guī)定的順序。任務(wù)包括表、記錄和屬性的選擇,以及為模型工具轉(zhuǎn)換和清洗數(shù)據(jù)。
我們使用SSIS(SQL Server Integration Services Samples)對(duì)數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗,SSIS提供了多個(gè)組件對(duì)數(shù)據(jù)清洗,這里我們采用C#編寫自定義組件,然后嵌入SSIS工具箱,這樣功能比較強(qiáng)大,而且靈活。
4.4 建模(Modeling)
在這個(gè)階段可以選擇和應(yīng)用不同的模型技術(shù),模型參數(shù)被調(diào)整到最佳的數(shù)值。有些技術(shù)在數(shù)據(jù)形成上有特殊要求,因此需要經(jīng)常跳回到數(shù)據(jù)準(zhǔn)備階段。
這個(gè)過(guò)程中我們使用powerdesigner進(jìn)行建模,微軟的Visio也挺易用,不過(guò)用的較少。這個(gè)過(guò)程不是一步完成的,建成后需要使用評(píng)分函數(shù)進(jìn)行反復(fù)評(píng)估,多次對(duì)模型進(jìn)行改造,使用不同的數(shù)據(jù)樣本對(duì)模型進(jìn)行評(píng)測(cè),直到得出最適合的模型。
4.5 評(píng)估(Evaluation)
到項(xiàng)目的這個(gè)階段,你已經(jīng)從數(shù)據(jù)分析的角度建立了一個(gè)高質(zhì)量顯示的模型。在開(kāi)始最后部署模型之前,重要的事情是徹底地評(píng)估模型,檢查構(gòu)造模型的步驟,確保模型可以完成業(yè)務(wù)目標(biāo)。
我們使用預(yù)測(cè)型評(píng)分函數(shù)對(duì)模型進(jìn)行評(píng)估,在這個(gè)過(guò)程中我們對(duì)所建立的模型進(jìn)行評(píng)估,看是否能達(dá)到我們所需要的程度,關(guān)鍵目的是確定是否有重要業(yè)務(wù)問(wèn)題沒(méi)有被充分的考慮。在這個(gè)階段結(jié)束后,一個(gè)數(shù)據(jù)挖掘結(jié)果使用的決定必須達(dá)成。
4.6 模型部署 (Deployment)
通常,模型的創(chuàng)建不是項(xiàng)目的結(jié)束。模型的作用是從數(shù)據(jù)中找到知識(shí),獲得的知識(shí)需要便于用戶使用的方式重新組織和展現(xiàn)。根據(jù)需求,這個(gè)階段可以產(chǎn)生簡(jiǎn)單的報(bào)告,或是實(shí)現(xiàn)一個(gè)比較復(fù)雜的、可重復(fù)的數(shù)據(jù)挖掘過(guò)程。在很多案例中,這個(gè)階段是由客戶而不是數(shù)據(jù)分析人員承擔(dān)部署的工作。
此時(shí)我們生成圖形化的表示方式,以便能直觀的看到我們對(duì)數(shù)據(jù)的分析結(jié)果。
5 數(shù)據(jù)挖掘結(jié)果分析處理
根據(jù)得出的圖形結(jié)果我們發(fā)現(xiàn)很多問(wèn)題,比如從結(jié)果中我們能看到在某一時(shí)間段內(nèi),某臺(tái)設(shè)備對(duì)應(yīng)了很多卡號(hào),得出此處浪費(fèi)了比較多的時(shí)間,這時(shí)候就需要食堂方面做一些分流工作,以便學(xué)生能節(jié)約較多的時(shí)間。
我們還可以得到平時(shí)飲食消費(fèi)在中等的同學(xué)學(xué)習(xí)成績(jī)比較好一點(diǎn),根據(jù)食堂的消費(fèi)標(biāo)準(zhǔn),我們可以發(fā)現(xiàn)用這種消費(fèi)屬于飲食上葷素搭配比較均勻的那一種,由此我們可以指導(dǎo)學(xué)生進(jìn)行科學(xué)就餐。
同樣,我們甚至可以通過(guò)就餐的消費(fèi)來(lái)確定貧困生的補(bǔ)助,因?yàn)橹挥胸毨艜?huì)經(jīng)常性的在食堂打消費(fèi)額很低的飯菜,或者關(guān)注偶爾來(lái)食堂打飯,同樣消費(fèi)額很低的學(xué)生,這部分可能都沒(méi)有經(jīng)濟(jì)條件來(lái)食堂吃飯。
食堂方面根據(jù)食堂的消費(fèi)額的變化可以發(fā)現(xiàn)食堂那個(gè)窗口出了問(wèn)題,可能是此窗口的飯菜不和學(xué)生口味,或者此窗口的工作人員態(tài)度不好引起反感,導(dǎo)致此窗口效益下降,從而能都有針對(duì)性的提高服務(wù)質(zhì)量。
6 總結(jié)
在此初步設(shè)計(jì)過(guò)程中,我們發(fā)現(xiàn)了需要很多方面的綜合知識(shí),其中在需求分析中與食堂管理人員的交流,征求他們的對(duì)問(wèn)題的態(tài)度意見(jiàn)是此項(xiàng)目成功的關(guān)鍵開(kāi)始。而且在考慮到以后做評(píng)分函數(shù)時(shí)所需要設(shè)定的參數(shù)值,和專業(yè)管理人員的交流顯得尤其重要。在開(kāi)發(fā)過(guò)程中全部使用微軟開(kāi)發(fā)的技術(shù),避免兼容,格式轉(zhuǎn)化等一些額外的問(wèn)題。
本文是在開(kāi)發(fā)初始階段對(duì)項(xiàng)目過(guò)程的設(shè)計(jì),在開(kāi)發(fā)過(guò)程中會(huì)遇到更多的問(wèn)題,比如三個(gè)方面的數(shù)據(jù)整合,屬性的值得設(shè)定就是比較困難的地方。可以想像該項(xiàng)目的復(fù)雜性及困難性,在開(kāi)發(fā)過(guò)程中需要各方面的支持與幫助。作為一個(gè)信息分析,輔助決策系統(tǒng),更是需要在以后的應(yīng)用中不斷進(jìn)行更新,不斷的完善。
注:本文中所涉及到的圖表、注解、公式等內(nèi)容請(qǐng)以PDF格式閱讀原文