亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于改進的K-means算法在高校學生消費數(shù)據(jù)中的應用

        2016-12-28 01:10:37馬幸飛李引
        關鍵詞:數(shù)據(jù)挖掘校園學生

        馬幸飛,李引

        (無錫商業(yè)職業(yè)技術學院教育信息化中心,江蘇無錫 214153)

        基于改進的K-means算法在高校學生消費數(shù)據(jù)中的應用

        馬幸飛,李引

        (無錫商業(yè)職業(yè)技術學院教育信息化中心,江蘇無錫 214153)

        校園一卡通系統(tǒng)作為數(shù)字化校園建設的重要組成部分,集多種功能為一體,并代替?zhèn)鹘y(tǒng)的消費管理模式,能更好處理噪聲和孤立點。文章采用新距離標準的K-均值算法對學生三餐消費、商鋪營業(yè)等情況進行聚類分析,并將結果應用于校內貧困生的評定工作及經營單位的產品、服務定位。

        校園一卡通;數(shù)據(jù)挖掘;聚類分析;新距離標準;K-均值算法

        隨著校園信息化建設進程的不斷發(fā)展,校園一卡通系統(tǒng)在高校中的應用越來越成熟,數(shù)字化校園建設日益完善?!靶@一卡通”[1]基于一個數(shù)據(jù)中心集中存放所有數(shù)據(jù),實現(xiàn)數(shù)據(jù)整合、信息共享及資源的綜合利用,同時為高校人員提供具有開放性、靈活性的管理平臺。

        目前校園一卡通所覆蓋的校園業(yè)務非常廣泛,包括食堂消費、超市消費、醫(yī)療消費、洗浴消費、水果休閑吧消費、圖書借閱等。其中食堂消費數(shù)據(jù)最穩(wěn)定、準確、全面,能夠很好地反映大學生在校的消費行為。一卡通消費數(shù)據(jù)均為流水數(shù)據(jù),記錄學生在校的每一筆消費。這些流水數(shù)據(jù),不僅提供了學生消費行為特征,而且反映了經營單位的營業(yè)狀況。

        一、數(shù)據(jù)挖掘技術

        數(shù)據(jù)挖掘[2-4]是一門新興的交叉學科,從廣義上講,數(shù)據(jù)挖掘是指從大量的、不完全的、有噪聲的、模糊的實際應用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又具有潛在使用價值的信息和知識的過程。狹義上的數(shù)據(jù)挖掘是知識發(fā)現(xiàn)過程中的一個步驟,即利用分析工具發(fā)現(xiàn)模式的子過程。按照挖掘的知識類型分類,數(shù)據(jù)挖掘可分為特征規(guī)則挖掘、聚類規(guī)則挖掘、關聯(lián)規(guī)則挖掘等。

        二、聚類分析

        聚類分析[5]作為數(shù)據(jù)挖掘技術中的重要方法,是將數(shù)據(jù)對象按相似性標準劃分到不同的類或者簇的過程,使得屬于同類別的數(shù)據(jù)相似度盡量高,而不同類別的數(shù)據(jù)差異性盡量大。聚類分析是一個無監(jiān)督的學習過程,它不僅是數(shù)據(jù)挖掘的一項獨立工具,也是其他知識發(fā)現(xiàn)算法的預處理基礎。聚類分析已經廣泛應用于多個領域,包括市場營銷、圖像處理、模式識別等,目前學者和專家提出了眾多的、典型的算法。例如:基于距離的K-均值和K-中心聚類算法;基于層次的凝聚和分裂算法;基于密度的DBSCAN算法;基于網(wǎng)格的STING 和CLIQUE算法等,各個獨立的算法都有其代表性。但到目前為止,仍然沒有一個通用算法,能夠同時包含超強的聚類能力、超高的執(zhí)行效率和簡單的參數(shù)設置等優(yōu)勢。因此一般情況下,學者們會根據(jù)數(shù)據(jù)類型、簇形、噪聲、孤立點、高低緯度等提出不同的聚類算法,使得算法具有可伸縮性、可用性、可解釋性等特點。

        (一)K-均值聚類算法

        k-均值,也被稱為硬C-均值聚類算法[6],是一種基于距離的劃分聚類算法,目前已在多個領域廣泛使用。K-均值算法的基本原則是:對于給定的數(shù)據(jù)對象集X,以數(shù)據(jù)對象到聚類中心點的距離和作為聚類準則函數(shù),通過求準則函數(shù)的極小值方法進行迭代,把數(shù)據(jù)對象劃分到聚類個數(shù)為c的類中,并使得每個類內部的數(shù)據(jù)對象相似程度最大,而不同類的數(shù)據(jù)對象不相關程度最大。

        (二)基于新距離的K-均值聚類算法

        在基本的K-均值聚類算法的平方誤差和準則函數(shù)中運用了歐氏距離,使得其聚類過程會受到噪聲、孤立點數(shù)據(jù)的影響。使用已給出的一種新距離度量標準取代歐氏距離,應用在K-均值聚類算法中,能夠適應噪聲和孤立點的處理,具有較強的魯棒性特性,提高了整個聚類性能。

        使得新目標函數(shù)達到最小的必要條件是其中心向量公式更新為:

        通過相關的仿真實驗證明:不同于基本HCM聚類算法,AHCM聚類算法對處理具有不同大小和密度的圖形或有噪聲存在的環(huán)境數(shù)據(jù),有較小的誤差。

        三、實驗與結論

        (一)校園消費數(shù)據(jù)預處理

        學生在校消費的特點存在實時性、冗余性,而且易使校園一卡通消費數(shù)據(jù)大量存儲在數(shù)據(jù)庫中,長期積累下來,這些數(shù)據(jù)往往是含噪聲、空值、孤立點等,不適合直接進行數(shù)據(jù)分析,挖掘內部規(guī)則,需要對原始數(shù)據(jù)進行選擇、清洗、轉換等預處理來保證數(shù)據(jù)的準確和完整。

        一卡通消費數(shù)據(jù)均為流水數(shù)據(jù),實時記錄學生在校的每一筆消費,包括學生學號、姓名、消費日期、當前消費金額、消費類型、消費檔口名稱等信息。以無錫商業(yè)職業(yè)技術學院為例,校園一卡通后臺程序代碼運行在校內虛擬服務器的Oracle數(shù)據(jù)庫上,每天產生的實時數(shù)據(jù)量達到十萬以上。因此為了得到一個好的聚類結果,針對流水數(shù)據(jù)選擇能夠反映學生消費行為特征的關鍵字段作為原始數(shù)據(jù),同時可以設置數(shù)據(jù)的時間等約束條件。

        (二)新算法應用到高校學生消費數(shù)據(jù)中的結果對比與分析

        本實驗采用的軟件環(huán)境:開發(fā)平臺使用Matlab7.9,在Windows8操作系統(tǒng)下完成。硬件環(huán)境:CPU Inter(R)Core(TM)i5-4570,4GB內存。

        本論文的實驗數(shù)據(jù)集來源于無錫商業(yè)職業(yè)技術學院一卡通數(shù)據(jù)平臺,其中學生三餐消費數(shù)據(jù)以數(shù)字媒體學院14級學生的3月份早、中、晚餐消費情況為研究樣本,校內商鋪營業(yè)數(shù)據(jù)以全校師生的3月、11月、12月的消費情況為研究樣本。具體實驗參數(shù)設置如表1所示。

        仿真實驗一,用學生三餐消費數(shù)據(jù)集比較兩種算法(K-均值算法、改進的K-均值算法)在聚類上的性能,其中目標函數(shù)分別選用公式(1)和(3),各運行100次,實驗結果取目標函數(shù)、類內距離及運行時間三項指標的平均值,所得的結果如表2所示。

        從表2可以看出:數(shù)字媒體學院2014級學生三餐消費數(shù)據(jù)使用新距離標準進行聚類,相較于基本K-均值算法得出的目標函數(shù)值小,且聚類之間差異性較大;兩種算法收斂速度都很快,能達到相同的量級。

        表1 實驗數(shù)據(jù)集簡單描述及參數(shù)設置

        表2 數(shù)字媒體學院2014級學生三餐消費數(shù)據(jù)的聚類結果對比

        圖1 校內商鋪營業(yè)數(shù)據(jù)聚類結果比較

        圖2 校內商鋪營業(yè)數(shù)據(jù)改進的聚類結果分析

        改進的K-均值算法把學生三餐消費分成五類時,付出的時間代價不高,得到的聚類中心也最符合實際。將此聚類效果應用于數(shù)字媒體學院2014級的貧困生評定工作,如果某學生的早、中、晚餐消費均值金額分別為4.63元、6.88元、4.29元,與聚類中心最低類(3.5438,7.3606,4.9365)距離最近,那么該學生可評定為特困生。因此,聚類效果可以為相關部門學生資助工作提供決策依據(jù),并實現(xiàn)有效監(jiān)管。

        仿真實驗二,兩種算法應用于校內商鋪營業(yè)數(shù)據(jù)集,其聚類結果比較如圖1所示。

        從圖1、圖2可以看出:各算法所得出的聚類中心點代表該類別商鋪營業(yè)的均值水平,其中改進的K-均值聚類中心較符合實際情況。如一餐廳三樓炒菜、砂鍋,二餐廳二樓麻辣燙三個窗口的消費均值分別為9.29元、8.87元及9.21元,這三個窗口歸類于高消費窗口較為合適。

        四、結論

        在基本K-均值算法中,新的度量標準取代歐幾里得標準,仿真實驗證明新度量標準的健壯性。本文基于高校學生消費數(shù)據(jù),利用數(shù)據(jù)挖掘技術,對消費群體進行聚類分析,將結果應用于校內貧困生的評定工作,為相關部門提供學生資助的輔助管理決策依據(jù),實現(xiàn)有效監(jiān)管。同時,依據(jù)各商鋪的營業(yè)月均值數(shù)據(jù),分析各商鋪窗口的營業(yè)狀況,幫助商鋪合理定位,為提高服務質量提供數(shù)據(jù)依據(jù)。

        [1]劉志龍.校園一卡通數(shù)據(jù)分析系統(tǒng)的設計與實現(xiàn)[D].上海:華東師范大學,2007.

        [2]Jiawei Han,Micheline Kamber.Data Mining:Concepts and Techniques[M].Morgan Kaufmann Publishers,2007.

        [3]梁循.數(shù)據(jù)挖掘算法與應用[M].北京:北京大學出版社,2006.

        [4]朱明.數(shù)據(jù)挖掘[M].合肥:中國科學技術大學出版社,2008.

        [5]Everitt B.,Landau S.,Leesse M.Cluster Analysis[M]. London,2001.

        [6]Sulaiman,S.N Adaptive fuzzy-K-means clustering algorithmforimagesegemen-tation[C].IEEE Transactions on Consumer Elect-ronics,2010(4):2661-2668.

        [7]Wu Kuo-lung,YangMiinshen.Alternative c-means clustering algorithms[J].Pattern Recognition,2002(35):2267-2278.

        (編輯:林鋼)

        Application of Campus card Consumption data based on Improved K-means Algorithm

        MA Xing-feiLI Yin
        (Educational Informatization Centre,Wuxi Institute of Commerce,Wuxi 214153,china)

        As an important part of digital urban construction,campus card system is more and more to a wide range,through the effective integration of various resources.It has replaced the traditional consumption management pattern.The paper proposes a novel K-means clustering algorithm based on a new metric,which canθenhance the ability of dealing with the abnormal data.This algorithm has been adopted in analysis of students'consuming data and business data.It can provide scientific and effective data in proverty stricken students'assessment system and the product orientation process.

        campus card system;Data mining;cluster analysis;a new metric;K-means clustering algorithm

        G 647.4

        A

        1671-4806(2016)06-0082-04

        2016-10-10

        無錫商業(yè)職業(yè)技術學院教科研課題(SYKJ15B13)

        馬幸飛(1982—),男,江蘇宜興人,助理實驗師,研究方向計算機系統(tǒng)設計、信息化管理;李引(1987—),女,安徽碭山人,助理實驗師,碩士,研究方向計算機系統(tǒng)設計、數(shù)據(jù)分析。

        猜你喜歡
        數(shù)據(jù)挖掘校園學生
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        趕不走的學生
        基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應用
        電力與能源(2017年6期)2017-05-14 06:19:37
        校園的早晨
        琴童(2017年3期)2017-04-05 14:49:04
        春滿校園
        學生寫話
        學生寫的話
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務及應用
        開心校園
        爆笑校園
        亚洲精品熟女国产| 国产a级午夜毛片| 美女裸体自慰在线观看| 亚洲男人天堂网站| 狠狠丁香激情久久综合| 国产国语一级免费黄片| 国产精品亚洲av无人区一区香蕉| 无码一区二区三区亚洲人妻 | 久久婷婷国产剧情内射白浆| 这里只有久久精品| 一区二区三区内射视频在线观看| 2022AV一区在线| 精品国产3p一区二区三区| 国产一区亚洲二区三区| 国产精品无码午夜福利| 综合色久七七综合尤物| 极品新娘高清在线观看| 国产精品天天看天天狠| 午夜福利一区二区三区在线观看| 国产成人v爽在线免播放观看| 免费国产黄片视频在线观看| 中文字幕一区二区va| 天堂网av在线免费看| 免费人成视频网站在线不卡| 中文无码伦av中文字幕| a人片在线观看苍苍影院| 国产成人精品日本亚洲专区6| 伊人狼人大香线蕉手机视频| 日本视频一区二区三区一| 人妻丰满熟妇av无码区不卡| 国产精品主播视频| 一区二区三区四区亚洲综合| 青青久久精品一本一区人人| 91九色老熟女免费资源| 日本成本人三级在线观看| 欧美日韩a级a| 一本之道加勒比在线观看| 欧美日本精品一区二区三区| 激情 人妻 制服 丝袜| 97人妻视频妓女网| 亚洲高清激情一区二区三区|