亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        大數據背景下學生消費水平分析模型的建立

        2020-05-13 14:15:23范媛蔡敏
        電腦知識與技術 2020年8期
        關鍵詞:聚類算法大數據

        范媛 蔡敏

        摘要:該研究以中國石油大學(北京)的校園卡系統(tǒng)消費數據為數據源,建立數據倉庫,通過數據清洗和數據挖掘得到學生在食堂的消費數據。通過使用聚類算法對學生消費數據進行分類,進而將學生的消費水平分為四類。以馬氏距離作為判別距離建立學生消費水平判別分析模型,利用該模型判斷學生的消費水平,通過對學生消費水平的分析研究,可以在學校有關部門進行決策時提供有效依據。

        關鍵詞:校園卡系統(tǒng);大數據;聚類算法;判別分析;消費模型

        中圖分類號:TP311 文獻標識碼:A

        文章編號:1009-3044(2020)08-0005-03

        開放科學(資源服務)標識碼(OSID):

        校園卡系統(tǒng)具有身份識別和電子錢包等功能,實現了校內統(tǒng)一身份認證和消費統(tǒng)一管理,校園卡使用數據完全記錄了使用者在校內的消費情況和行為軌跡,通過對校園卡數據的挖掘分析,對高校數據決策具有十分重要的意義。目前各大高校均展開了對校園卡大數據的挖掘分析,來為有關部門進行學生管理提供真實、有效的數據支撐[1]。校園卡系統(tǒng)內積累的大量消費數據,對其進行挖掘分析可以掌握學生在校消費的偏好和規(guī)律,將對學校優(yōu)化資源配置、數據化決策等提供重要參考。該研究通過建立學生消費水平判別模型,將學生消費水平分為4類,可為貧困生認定提供判定依據[2],為深入研究學生消費水平提供有效方法。

        1 數據倉庫建立

        該研究用于進行分析的數據是以中國石油大學(北京)2018級本科生消費數據作為數據源,抽取學生就餐率較高的2018年11月、12月和2019年3月份的消費數據共計32萬多條進行分析,由于數據量龐大,為了不增加數據庫的壓力并且滿足數據分析和數據挖掘的需求,數據分析過程不與校園卡系統(tǒng)數據庫直接建立關系,而是通過soL數據庫建立數據倉庫[3]進行分析。

        1.1 數據源確認

        通過采集校園卡系統(tǒng)內學生消費數據作為數據源進行分析,進而可以掌握學生的消費習慣,消費水平等情況,在不增加校園卡系統(tǒng)數據庫壓力的前提下將學生的消費流水數據提取到指定數據庫中,把數據處理成可用的數據。

        1.2數據預處理

        校園卡消費數據中包含了大量信息,包括時間、地點、商戶、消費金額、人賬信息等,根據分析需求對消費數據進行清洗,去除包含噪聲的無意義數據以及無用的字段,并對清洗后的數據進行數據轉換[4]。

        1.3 建立數據倉庫概念模型

        對校園卡系統(tǒng)內學生消費數據進行分析,一般按照消費次數、消費金額、消費時間、消費地點等字段進行分析,建立的數據倉庫所需要的數據包括:學生基本信息、消費信息、校園卡系統(tǒng)終端數據,數據挖掘的關鍵性能指標是學生校園卡消費流水信息。

        1.4 建立邏輯模型

        邏輯模型的建立主要用于劃分數據維度,對學生基本信息、消費流水、消費終端信息等數據進行分類儲存、數據簡化、同屬類別歸并。邏輯模型如圖1所示。

        1.5 建立物理模型

        建立物理模型的目的是構建合理的數據庫物理結構,通過合理規(guī)劃數據庫的結構、字段、索引、存儲等,來實現模型的建立,從而可以清楚地對學生消費數據進行分析。物理模型如表1所示。

        2 數據挖掘

        在此次學生消費水平分析中,通過對校園卡消費數據進行數據清洗,抽取出分析所需的字段,再通過數據清洗與轉換將抽取出的數據進行處理轉換為用于數據挖掘的形式[5]。

        數據來源于校園卡系統(tǒng)學生消費數據,將數據中可壓縮的、可合并的、含噪聲的以及可刪除的字段進行數據清洗與數據合并,通過約減相關性保持數據原貌,達到盡可能地減少數據量的目標[6j。在不同的應用場景中,按照不同的關鍵詞進行數據合并,在分析學生的消費水平時,選取學號作為關鍵詞進行數據合并。該研究利用MATLAB對消費數據進行處理,得到了學生在3個月的月消費數據。

        3 建立學生消費水平模型

        3.1 聚類分析

        K-means聚類算法是聚類分析中應用最廣泛的聚類算法之一,是一種發(fā)現給定數據集k個簇的算法[7-8]。

        針對學生消費水平的研究中,取學生平均單筆消費額和總消費次數為評價指標如表2所示。由于這兩項指標的量綱和數量級不同,為了便于決策評價,故對原始數據進行極差規(guī)格化變換處理。

        極差規(guī)格化變換是從數據矩陣的每一個變量中找出其最大值和最小值,這兩者之差稱為極差,然后從每個變量的每個原始數據中減去該變量中的最小值,再除以極差,就得到規(guī)格化數據。即:

        經過規(guī)格化變換后,數據矩陣中的每列即每個變量的最大數值為1,最小值為0,其余數值取值均在0-1之間;并且變換后的數據都不再具有量綱。根據上述公式變換后的評價指標數據如表3所示。

        通過聚類算法對極差規(guī)格化變換后評價指標進行聚類。確實聚類數目為4,得到各類的中心結果以及各類的類內元素與中心的距離和(如表4所示)學生消費水平的分類結果(如表5所示),聚類結果示意圖如圖2所示。

        通過聚類分析結果可得類別A的學生消費水平特點為:消費次數低于均值,但平均消費金額高于均值;B類的學生消費水平特點為:消費次數處于均值水平,平均消費金額低于均值;C類的學生消費水平特點為:消費次數高于均值,平均消費金額低于均值水平;D類的學生消費水平特點為:消費次數高于均值,平均消費金額高于均值水平。由此可推斷出學生家庭經濟狀況,A類消費水平的學生很少在食堂吃飯,并且單筆消費金額高,可認定為家庭條件良好,B類消費水平的學生經常在食堂吃飯,但單筆消費金額較低,認定為家庭條件一般貧困,C類消費水平的學生基本在食堂消費,單筆消費金額低于平均水平,認定為家庭條件貧困,D類消費水平的學生在食堂消費次數高于均值,且單筆消費金額較高,認定為家庭條件較好。

        3.2 判別分析模型

        根據距離判別分析原理,選用馬氏距離作為判別距離[9],針對學生在校食堂消費水平建立了學生消費水平距離判別的分析模型,利用該模型判別學生的消費水平。

        式(8)即是學生消費水平判別分析模型,通過該模型可對學生消費情況進行判別。將學生消費水平數據代入式(8)中,即可判斷其所屬類別。將訓練樣本數據回代判斷結果如表6中所示。選取10組學生消費數據作為待判樣本,以此模型對待判樣本進行判別,得到結果如表7所示。

        (5)判別準則評價

        通過3.2.4中訓練樣本回代,樣本總量為80組,正確判別數為78,誤判數為2,計算得到誤判概率為2.5%,可見此模型合理,達到了對學生消費水平進行有效分類的效果。

        4 結論

        該研究通過構建數據倉庫,得到有效的學生校園卡消費數據。通過聚類算法將學生的消費水平分為四類,可根據消費水平判定學生家庭經濟情況.為貧困生資助提供數據支持;利用以馬氏距離作為判別距離的判別算法建立學生學費水平判別模型,用以判別學生消費水平的分類是否有效。

        參考文獻:

        [1]張艷分,盧小清,劉禹等.基于大數據平臺的大學生校園行為探析[J].中國教育信息化,2019(1):39-42,46.

        [2]張林.基于差分隱私保護技術的高校貧困生認定系統(tǒng)設計[J].計算機技術與自動化,2017(3):151-156.

        [3]田雨露.基于校園一卡通系統(tǒng)的決策支持和數據分析研究[D].北京化工大學,2018.

        [4]萬曉燕.基于聚類劃分的大數據處理方法研究[J].智庫時代,2019(39):280,283.

        [5] Nguyen T V,Zhou L,Loong A Y,et al-Predicting customerdemand for remanufactured products:A data-mining approach[J]. European Journal of Operational Research, 2019(8): InPress.

        [6]潘曉英,趙倩,趙普.時空屬性關系標簽的頻繁軌跡模式挖掘[J].計算機工程與應用,2019,55(10):83-89.

        [7]陸近,郭躍近.一種含噪聲處理的K-means聚類算法[J].計算機應用于軟件,2015,32(10):265-268.

        [8]鄒晨紅,袁滿.模糊綜合評判的系統(tǒng)聚類算法研究[J].吉林大學學報:信息科學版,2018,36(5):441-448

        [9]張華平.常用判別分析方法的綜合比較[J].統(tǒng)計與決策,2015(22):77-78.

        [10] Wang B X,Zou H.A Multicategory Kernel Distance Weight-ed Discrimination Method for Multiclass Classification[J].Technometrics,2019,61(3).

        [11] LIN T,Chen G,Ouyang W L.et al-Hyper-spherical dis-tance discrimination: A novel data description method foraero-engme rolling bearing fault detection[J].Mechanical Sys-tems and Signal Processing,2018,109(9).

        [12]相詩堯,邢會敏,徐東晶.空間點所屬空間體的距離判別法分析[J].測繪科學,2016,41(6):40-43,112.

        【通聯(lián)編輯:王力】

        作者簡介:范媛(1980-),女,河北南和人,碩士,工程師,主要從事高校一卡通和信息化建設;蔡敏(1995-),女,甘肅慶陽人,碩士在讀,化工過程機械專業(yè)。

        猜你喜歡
        聚類算法大數據
        數據挖掘算法性能優(yōu)化的研究與應用
        K—Means聚類算法在MapReduce框架下的實現
        軟件導刊(2016年12期)2017-01-21 14:51:17
        基于K?均值與AGNES聚類算法的校園網行為分析系統(tǒng)研究
        大數據環(huán)境下基于移動客戶端的傳統(tǒng)媒體轉型思路
        新聞世界(2016年10期)2016-10-11 20:13:53
        基于大數據背景下的智慧城市建設研究
        科技視界(2016年20期)2016-09-29 10:53:22
        數據+輿情:南方報業(yè)創(chuàng)新轉型提高服務能力的探索
        中國記者(2016年6期)2016-08-26 12:36:20
        基于改進的K_means算法在圖像分割中的應用
        大規(guī)模風電場集中接入對電力系統(tǒng)小干擾穩(wěn)定的影響分析
        科技視界(2016年8期)2016-04-05 18:39:39
        基于暫態(tài)特征聚類的家用負荷識別
        国产精品一区二区久久久av| 无码av免费永久免费永久专区| 中国精品久久久久国产| 亚洲欧美国产日韩天堂在线视 | 日韩一二三四区免费观看| 国产流白浆视频在线观看| 亚洲一区二区三区四区五区六| 99久久精品国产一区二区蜜芽| 91情侣在线精品国产免费| 久久综合激情的五月天| 青青草视频在线观看色| 亚洲精品夜夜夜妓女网 | 国产欧美日韩视频一区二区三区 | 成人av在线久色播放| 孕妇特级毛片ww无码内射| 免费一级特黄欧美大片久久网| 国产不卡一区二区三区视频| 加勒比精品视频在线播放| 午夜福利av无码一区二区| 人妻 日韩精品 中文字幕| 国产欧美日韩不卡一区二区三区| 国产激情视频在线观看首页| 日韩欧美在线综合网另类| 性一乱一搞一交一伦一性| 爆乳无码AV国内| 亚洲国产综合精品中久| 99热爱久久99热爱九九热爱| 国产精品18禁久久久久久久久| 女同久久精品国产99国产精| av在线免费观看蜜桃| 中文人妻av久久人妻18| 成人无码a级毛片免费| 一二三四在线观看视频韩国| 成年女人粗暴毛片免费观看| 日韩第四页| 日韩人妻大奶子生活片| 亚洲欧洲成人精品香蕉网| 亚洲中文无码av在线| av网址大全在线播放| 激情人妻另类人妻伦| 亚洲欧美日韩国产精品专区|