亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于數據挖掘的校園一卡通數據應用研究
        ——以石家莊學院為例

        2017-06-01 12:38:00馮玖李俊玲張海霞郭鵬趙峰謝通
        石家莊學院學報 2017年3期
        關鍵詞:數據挖掘關聯(lián)分析

        馮玖,李俊玲,張海霞,郭鵬,趙峰,謝通

        (石家莊學院a.信息中心;b.圖書館,河北石家莊050035)

        基于數據挖掘的校園一卡通數據應用研究
        ——以石家莊學院為例

        馮玖a,李俊玲a,張海霞a,郭鵬b,趙峰a,謝通a

        (石家莊學院a.信息中心;b.圖書館,河北石家莊050035)

        分析了石家莊學院一卡通的整體使用情況,隨后對學生就餐消費數據進行了統(tǒng)計分析,詳細了解了學生的就餐行為規(guī)律,最后選取某專業(yè)學生,對其就餐數據與學習成績進行了關聯(lián)分析.通過一卡通數據的研究,為學校決策者和相關管理部門提供決策支持.

        一卡通;數據挖掘;關聯(lián)分析

        0 引言

        隨著校園一卡通的廣泛普及和深入應用,一卡通數據庫已經積累了越來越多的數據,借助相關分析方法和工具對其進行分析,可以從多角度精確了解學生的相關行為,從而幫助學校相關部門掌握學生的學習、消費及作息規(guī)律,做出科學決策.

        1 數據預處理

        1.1 數據來源

        為了反映數據的全面性,選取石家莊學院全體在校生1個學期的數據進行統(tǒng)計分析.從一卡通系統(tǒng)中抽取2015-2016學年第2學期(2016年3-6月)共計2 086 203條刷卡記錄,教務系統(tǒng)中抽取全體在校生基本信息及其學習成績等數據.圖1為一卡通中的原始數據.

        1.2 數據預處理

        由于人為錯誤、設備故障或傳輸錯誤等會產生噪聲、冗余數據,并且數據來源于不同的部門和系統(tǒng),難免存在數據類型或結構等不一致性.因此,必須對數據進行預處理后才能進行后續(xù)的數據挖掘和分析等工作.數據預處理的方法有很多,本研究采用比較常見的幾種,包括數據清理、數據集成、數據變換和數據規(guī)約[1].

        1.2.1 數據清理

        進行數據清理的方法有缺失值的處理、噪聲數據的處理等[2].首先分析一卡通中的數據,該系統(tǒng)存儲了教職工、學生、臨時工、外來人員等各種人員的數據,由于教職工、臨時工和外來人員在學校的消費行為具有很強的離散性和不確定性,如果將他們的數據也加入到后續(xù)挖掘分析中,會影響分析的結果,所以只對所有在校上課的學生進行考察.經過處理后刷卡記錄減少了5萬余條.學生基本信息部分的數據存儲在教務系統(tǒng)中,日常的教務教學都以此為標準,數據的準確性比較高,針對本次數據挖掘分析,需要對數據缺失的部分進行處理,比如服兵役、休學、開除、退學、缺考等原因引起的,從數據樣本中刪除該部分學生信息,經處理后大大提高了數據質量.

        圖1 一卡通數據庫中的原始數據

        1.2.2 數據集成

        本研究使用的數據分別來自一卡通中間庫和教務系統(tǒng),需要進行數據集成.為了方便數據分析,決定將不同數據源的數據按要求抽取后生成excel文件再導入到目標數據庫中.在數據集成的過程中,不同源數據屬性相同的列存在部分冗余的可能性,在此以教務系統(tǒng)中數據為準,校正一卡通中的部分數據.數據庫由不同的設計者設計,采用數據類型也不盡相同,比如學生學號為11位,但一卡通中對應卡號存在部分不規(guī)范數據(如圖1中的KH列和SALARYNO列),需要對該部分數據進行更新,保持數據格式和內容的一致性.

        1.2.3 數據變換

        為了提高挖掘的效率和維度,對學生消費記錄中的就餐時間格式進行拆分,轉換為刷卡的日期、時間、上下午、星期等詳細屬性,如圖2所示.

        1.2.4 數據規(guī)約

        本次數據挖掘的目標主要是對學生食堂消費數據進行挖掘分析,因此有很多屬性與挖掘目標不存在相關性或弱關聯(lián),選擇放棄這些屬性,比如學生基本信息表中的性別、班級、身份證號;消費記錄中的卡號、余額、月份、年代;學生成績信息中的課程名稱、課程代碼等信息.

        通過以上數據處理,使得待挖掘分析的數據干凈并且合乎要求,為以后的數據挖掘分析奠定了基礎.

        圖2 就餐時間拆分圖

        2 一卡通數據總體分析

        2.1 刷卡類別統(tǒng)計

        通過以上的數據預處理工作,得到了待挖掘的數據.按一卡通使用類型對所有刷卡記錄進行分類統(tǒng)計,合并種類相似的記錄,經匯總得出圖3信息,從中可以明顯看出,有近9成的數據量為食堂就餐消費,其他依次分別為超市和商戶、上機、洗浴等.

        2.2 按年級統(tǒng)計刷卡次數

        從教務系統(tǒng)中得出各年級學生人數在5 000左右,人數基本相同,按年級對刷卡數據進行匯總求和得出數據,如圖4所示.

        由圖4可以明顯看出隨著年級的增長,學生的刷卡量呈遞減趨勢:其中,大一新生將近80萬次,隨后大二、大三以20萬左右的刷卡量減少,大四畢業(yè)班已不足20萬次,在學生人數基本持平的情況下,學生刷卡次數存在明顯減少的趨勢.以上統(tǒng)計結果和對學生的實際調查情況基本對應:大一學生由于初到新學校,環(huán)境相對陌生,生活、學習主要在校內,隨著活動半徑增大,陸續(xù)有學生到校外就餐、兼職,大四畢業(yè)班中大量學生開始找工作或進入企業(yè)實習、培訓等,造成了刷卡數量的急劇減少.

        圖3 各類刷卡信息比例餅圖

        3 就餐數據分析

        3.1 貧困生預測

        由于食堂飯菜相對校外較便宜,通過分析學生就餐刷卡次數、消費金額等數據,可以在一定程度上為貧困生的評選提供參考[3].分別從學生的刷卡次數、平均每次刷卡金額、消費總金額3個角度進行考察,限制條件如下:學期刷卡總次數高于350次、平均每次刷卡額低于2元、消費總金額低于1 000元.經統(tǒng)計匯總得出了在食堂就餐次數較多但消費金額較少的部分學生信息,如圖5所示.

        3.2 售飯口刷卡次數統(tǒng)計

        食堂售飯口刷卡次數可以反映其飯菜質量、性價比等信息,對食堂所有售飯口刷卡次數進行統(tǒng)計排序,分別列出前后10名信息,如圖6所示.通過圖6可以看出,前10位售飯口都接近或超過5萬次,其中以第2食堂第6檔口遙遙領先,接近30萬次,可見其火爆程度;后10位售飯口刷卡數都在8千次以下,最少的為土豆粉30號檔口,不足千次.基于以上統(tǒng)計數據,說明部分售飯口的飯菜口味或價格等得不到學生的認同,導致就餐人數較少.

        圖4 各年級學生人數與刷卡數對比

        圖5 貧困生預測部分數據截圖

        圖6 售飯口刷卡總次數前后10名統(tǒng)計圖

        3.3 就餐時間分布統(tǒng)計

        為了考察學生早、中、晚三餐時間分布,以小時為單位進行統(tǒng)計,生成就餐時間分布圖見圖7,由圖7可以看出,三餐刷卡總次數大致相同,介于40-50萬之間,三餐刷卡峰值區(qū)間分別為7-8點、11-13點、17-20點,早餐時間相對比較集中,午餐和晚餐呈分散趨勢.圖中8點至10點之間還有將近20萬次的刷卡量,說明部分學生沒有第一節(jié)課或者遲到,就餐較晚.

        圖7 在校生就餐次數分布

        4 就餐習慣與學習成績關聯(lián)分析

        本節(jié)考察學生就餐習慣與其學習成績之間的關聯(lián)程度,采用關聯(lián)規(guī)則中常用的兩個參數支持度和置信度[4],定義如下:

        支持度:P(A∪B),即A和B這兩個項集在事務集D中同時出現(xiàn)的概率.

        置信度:P(B|A),即在出現(xiàn)項集A的事務集D中,項集B也同時出現(xiàn)的概率.

        經調研發(fā)現(xiàn),北校區(qū)學生校內就餐比例高于南校區(qū),因此,選取北校區(qū)某專業(yè)共70名學生的就餐信息進行分析.

        就餐習慣參數設定[5]:參數1:早餐總次數;參數2:及時就餐數(早7∶40之前就餐);參數3:本學期平均每次刷卡額;參數4:日刷卡數在3次以上的天數.

        學生成績參數設定:由于采用學分制,每個學生所修課程數不同,所以學生成績采用平均學分績點按公式(1)計算結果進行考核,按分數高低設為優(yōu)、良、中、差4個等級.

        本研究采用數據挖掘軟件RapidMiner Studio 6.5,該軟件具有拖拽操作、無需編程、運算速度快、開源等優(yōu)點,挖掘流程如圖8所示.

        圖8 RapidMiner關聯(lián)規(guī)則挖掘流程圖

        Retrieve過程:從數據庫中獲取待挖掘的數據集,輸出到Preprocessing過程.

        Preprocessing過程:對輸入的數據集進行預處理,將數據集劃分為若干個子數據集,降低了數據集的復雜性,使其便于管理、理解和修改.

        FPGrowth過程:采用被稱作FP-growth,又稱為FP-增長算法來高效發(fā)現(xiàn)頻繁項集.

        AssociationRuleGenerator過程:根據輸入的頻繁項集生成有效的關聯(lián)規(guī)則.

        將學生就餐-成績數據集應用到以上挖掘流程,得出如下關聯(lián)規(guī)則,如圖9所示.圖9中每個參數值按學生人數平均劃分為5個取值范圍,形式為:參數值=rangeX[a-b],即參數值介于區(qū)間[a,b].選取Confidence(置信度)>0.889以上的關聯(lián)規(guī)則.

        圖9 學生就餐數據集挖掘結果

        1)由前提(101)可推出評級“差”的置信度為1.

        即“及時就餐數”在(-∞,0.5],“日刷卡數在3次以上的天數”在(-∞,7.5],“早餐總次數”在(-∞,3.5],“平均每次刷卡額”在[4.740,∞)區(qū)間的學生,成績評級為“差”的概率為100%.

        2)由前提(76)可推出評級“優(yōu)”的置信度為0.889.

        即“早餐總次數”在[71.5,∞),“及時就餐數”在[52.5,∞)區(qū)間的學生,成績評級為“優(yōu)”的概率為88.9%.

        通過以上分析,可以得出學生的學習成績和早餐習慣之間存在一定的關系:早餐次數多并且及時就餐的學生,其成績相對較好(置信度為88.9%);相反,早餐次數少、不及時就餐、每次刷卡額偏高的學生其成績評級為差的可能性偏高(置信度最多為100%),反映了差等生的成績與就餐習慣之間的關聯(lián)程度更高.圖9的Support(支持度)偏低,說明雖然優(yōu)等生和差等生的成績和就餐習慣關聯(lián)程度高,但該部分學生所占比例并不高.圖10為學生就餐與成績對照圖,為了便于對比,在不影響總體排名情況下,采用總學分績點代替平均學分績點,由圖中可以看出:成績中等的學生早餐次數和及時就餐數都存在較大的起伏,所占比例達到70%.

        5 合理化建議

        根據以上對一卡通刷卡信息進行了初步的統(tǒng)計、挖掘分析,現(xiàn)給出相應建議:

        1)由于刷卡量中就餐消費占比很大,可根據實際情況適當增加一卡通充值點,豐富一卡通充值渠道,保證一卡通的高效使用.

        2)對于刷卡量較少的售飯點,可調查實際情況,建議改進飯菜質量、豐富飯菜口味等,以提高飲食服務的滿意度.

        圖10 學生就餐與成績對照圖

        3)對不在正常時間段就餐的學生(比如上午8-10點之間的刷卡信息),可根據課表進行比對,從側面反映其出勤率情況.

        4)鑒于學生成績與其就餐習慣之間的強關聯(lián)性,除了要對早餐的重要性進行宣傳外,還要適當增加早餐的飯菜種類、適當降低飯菜價格等,吸引更多學生及時就餐,提高學生的飲食規(guī)律性.

        6 總結與展望

        隨著一卡通系統(tǒng)在石家莊學院的深入使用,未來會有越來越多的相關數據進入系統(tǒng)后臺數據庫,比如上機上網、醫(yī)院診療、洗澡、理發(fā)等消費類數據;圖書借閱、門禁出入、學生考勤等管理類數據,基于這些數據可以進行多角度、深層次的大數據分析,開發(fā)相應的數據分析與預警系統(tǒng),為學校的科學管理與決策提供支持.最后,在進行大數據處理的過程中,要做好相關的身份認證、權限分級、網絡隔離、數據備份等防護工作,以保證數據的安全性.

        [1]TANPN,STEINBACHM,KUMARV.數據挖掘導論[M].北京:人民郵電出版社,2012:27-38.

        [2]徐劍.基于一卡通數據的消費行為與成績的關聯(lián)性研究分析[D].南昌:南昌大學,2010.

        [3]宋德昌.基于校園卡的學生經濟狀況評價方法研究[J].中山大學學報(自然科學版),2009,48(3),9-11.

        [4]吳紹函,余昭平.數據挖掘中關聯(lián)規(guī)則的研究[J].微計算機信息,2008,1(3),185-186.

        [5]張林紅,劉紅梅.基于一卡通數據分析的學生早餐習慣與成績關聯(lián)規(guī)則挖掘[J].阜陽師范學院學報(自然科學版),2014,31(4),92-95.

        (責任編輯王穎莉)

        A Research on Application of Digital Campus Card Data Based on Data Mining

        FENG Jiu1,LI Jun-ling1,ZHANG Hai-xia1,GUO Peng2,ZHAO Feng1,XIE Tong1
        (1.Information Center;2.Library,Shijiazhuang University,Shijiazhuang,Hebei 050035,China)

        Based on the overall use of the school card,the paper makes a statistical analysis of the student dining consumption data,and has a detailed understanding of the law of student dining behavior.Then,it discusses the relationship of dining data and academic performance of selected students.The study of the card data would provide decision support for school decision makers and relevant management departments.

        one card solution;data mining;correlation analysis

        TP393

        A

        1673-1972(2017)03-0053-06

        2016-12-22

        石家莊學院科研啟動基金(16YB015)

        馮玖(1982-),男,河北辛集人,工程師,主要從事數據挖掘、數據分析研究.

        猜你喜歡
        數據挖掘關聯(lián)分析
        “苦”的關聯(lián)
        當代陜西(2021年17期)2021-11-06 03:21:36
        探討人工智能與數據挖掘發(fā)展趨勢
        隱蔽失效適航要求符合性驗證分析
        電力系統(tǒng)不平衡分析
        電子制作(2018年18期)2018-11-14 01:48:24
        奇趣搭配
        基于并行計算的大數據挖掘在電網中的應用
        電力與能源(2017年6期)2017-05-14 06:19:37
        智趣
        讀者(2017年5期)2017-02-15 18:04:18
        電力系統(tǒng)及其自動化發(fā)展趨勢分析
        一種基于Hadoop的大數據挖掘云服務及應用
        基于GPGPU的離散數據挖掘研究
        中文字幕丰满人妻有码专区| 国产91久久精品成人看网站| 亚洲av成人一区二区| 男性av天堂一区二区| 97se亚洲国产综合在线| 久久久久国产精品熟女影院| 99久久国产亚洲综合精品| 亚洲香蕉久久一区二区| 完整版免费av片| 国产亚洲精品bt天堂精选| 欧美日韩国产专区| 一区二区三区熟妇人妻18| 丰满少妇在线播放bd| 日日碰狠狠添天天爽| 亚洲伊人久久大香线蕉综合图片 | 大桥未久av一区二区三区| 亚洲色无码国产精品网站可下载| 亚洲熟女网站| 亚洲中文字幕亚洲中文| 18禁止进入1000部高潮网站| 国产亚洲av综合人人澡精品| 亚洲熟妇大图综合色区| 亚洲精品美女中文字幕久久| 国产亚洲美女精品久久久2020| 宝贝把腿张开我要添你下边动态图 | 亚洲无人区乱码中文字幕能看| 亚洲成在人线av品善网好看| 国产精品密播放国产免费看| 按摩师玩弄少妇到高潮hd| 美丽的小蜜桃在线观看| 日韩av精品国产av精品| 国产精品18久久久久网站| 日本少妇又色又紧又爽又刺激| 国产婷婷色一区二区三区| 国产裸体歌舞一区二区| 色偷偷av一区二区三区人妖| 爆操丝袜美女在线观看| 国产亚洲精品bt天堂精选| 中文精品久久久久中文| 国内自拍偷拍一区二区| 国产精品视频亚洲二区|