亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于SSAS的高校學(xué)生報(bào)到數(shù)據(jù)分析

        2017-10-12 03:23:07宋薇韓育芳南陽理工學(xué)院軟件學(xué)院南陽473000山西戲劇職業(yè)學(xué)院太原03000
        微型電腦應(yīng)用 2017年9期
        關(guān)鍵詞:聯(lián)機(jī)數(shù)據(jù)倉庫數(shù)據(jù)挖掘

        宋薇, 韓育芳(.南陽理工學(xué)院 軟件學(xué)院, 南陽 473000; .山西戲劇職業(yè)學(xué)院, 太原 03000)

        基于SSAS的高校學(xué)生報(bào)到數(shù)據(jù)分析

        宋薇1, 韓育芳2
        (1.南陽理工學(xué)院 軟件學(xué)院, 南陽 473000; 2.山西戲劇職業(yè)學(xué)院, 太原 030002)

        隨著信息化的普及,各高校招生部門積累了大量的考生報(bào)考和報(bào)到數(shù)據(jù)。如何充分利用這些數(shù)據(jù),獲取其中蘊(yùn)藏的價(jià)值,已經(jīng)成為大數(shù)據(jù)時(shí)代面臨的主要任務(wù)?;赟SAS(SQL Server Analysis Services)對某高校的部分招生數(shù)據(jù)進(jìn)行分析,主要包括數(shù)據(jù)預(yù)處理、數(shù)據(jù)倉庫創(chuàng)建、多維數(shù)據(jù)集創(chuàng)建、數(shù)據(jù)分析、數(shù)據(jù)挖掘等步驟。

        數(shù)據(jù)分析; 數(shù)據(jù)倉庫; 多維數(shù)據(jù)集; 數(shù)據(jù)挖掘

        Abstract: With the popularization of information technology, the university admissions departments have accumulated a large number of data of candidates application and register. How to make full use of these data, access to the hidden value, have become the main task of the era of big data. This paper uses SSAS to analyze a certain college admissions data, including data preprocessing, data warehouse creation, multidimensional data set creation, data analysis, data mining and other steps.

        Keywords: Data analysis; Data warehouse; Multidimensional data set; Data mining

        0 引言

        隨著信息化的普及,各高校招生部門積累了大量的考生報(bào)考和報(bào)到數(shù)據(jù)。海量的數(shù)據(jù)隱藏著很多重要的信息,如何充分利用這些數(shù)據(jù),獲取其中蘊(yùn)藏的價(jià)值,順利擺脫“數(shù)據(jù)豐富,信息貧乏”的困境,已經(jīng)成為大數(shù)據(jù)時(shí)代面臨的主要任務(wù)。實(shí)際招生工作中,招生人員往往在時(shí)間較短的期限里依靠經(jīng)驗(yàn)和感覺進(jìn)行招生,缺乏科學(xué)指導(dǎo)[1-2]。如何充分利用已有的招生信息資源,以使高校在每年的招生宣傳、招生計(jì)劃投放、學(xué)院專業(yè)設(shè)置、生源選擇等方面做出正確的決策,是擺在高職院校面前的緊迫課題[3]。

        1 SSAS簡介

        SQL Server提供了很多新的和增強(qiáng)的商務(wù)智能功能,包括利用SSIS集成服務(wù)整合多種數(shù)據(jù)源,利用SSAS分析服務(wù)使數(shù)據(jù)內(nèi)容更豐富并且建立復(fù)雜的商業(yè)分析,以及利用SSRS報(bào)表服務(wù)編輯,管理,和提交豐富的報(bào)表[4]。SSAS是Microsoft BI解決方案的核心服務(wù),它為數(shù)據(jù)倉庫提供了存儲(chǔ)和查詢OLAP多維數(shù)據(jù)集的機(jī)制,提供了精密的OLAP多維數(shù)據(jù)集開發(fā)人員和管理人員界面。SSAS還可以用來創(chuàng)建包含數(shù)據(jù)挖掘模型的數(shù)據(jù)挖掘結(jié)構(gòu)[5]。

        2 招生數(shù)據(jù)分析

        2.1 數(shù)據(jù)預(yù)處理

        隨著數(shù)據(jù)庫技術(shù)的廣泛應(yīng)用,企業(yè)信息系統(tǒng)產(chǎn)生了大量的數(shù)據(jù),如何從這些海量數(shù)據(jù)中提取對決策分析有用的信息成為決策管理人員所面臨的重要難題[6-7]。傳統(tǒng)的管理信息系統(tǒng)即聯(lián)機(jī)事務(wù)處理系統(tǒng)作為數(shù)據(jù)管理手段,主要是基本的、日常的事務(wù)處理,但它對分析處理的支持一直不能令人滿意。OLAP是數(shù)據(jù)倉庫系統(tǒng)的主要應(yīng)用,支持復(fù)雜的分析操作,側(cè)重決策支持,并且提供直觀易懂的查詢結(jié)果。數(shù)據(jù)倉庫的應(yīng)用包括聯(lián)機(jī)在線分析處理和數(shù)據(jù)挖掘。通過對數(shù)據(jù)倉庫中的多維數(shù)據(jù)的鉆取、切片、旋轉(zhuǎn)等分析動(dòng)作,可以完成決策支持需要的查詢和報(bào)表。通過數(shù)據(jù)挖掘可以發(fā)現(xiàn)隱藏在數(shù)據(jù)中的潛在規(guī)則。

        本文的源數(shù)據(jù)來自招生的業(yè)務(wù)數(shù)據(jù),因此需要對數(shù)據(jù)進(jìn)行預(yù)處理并加載到數(shù)據(jù)倉庫中。源數(shù)據(jù)主要是考生的報(bào)考信息及報(bào)到數(shù)據(jù),主要是考生的考生類別、畢業(yè)類別、政治面貌、成績信息、籍貫信息、學(xué)校信息、報(bào)考專業(yè)、批次信息以及考生報(bào)到和錄取專業(yè)信息等。數(shù)據(jù)倉庫是面向主題的,根據(jù)招生主題設(shè)計(jì)維度表和事實(shí)表,并將數(shù)據(jù)進(jìn)行預(yù)處理導(dǎo)入數(shù)據(jù)倉庫中。數(shù)據(jù)倉庫的維度表主要分為學(xué)校維度、系別、專業(yè)、學(xué)生、批次等,事實(shí)表主要記錄學(xué)生是否報(bào)到,學(xué)生報(bào)考專業(yè)以及錄取專業(yè),錄取批次等信息。數(shù)據(jù)倉庫的關(guān)系圖,如圖1所示。

        數(shù)據(jù)預(yù)處理主要是對數(shù)據(jù)進(jìn)行清理,整合,然后處理為維度表和事實(shí)表中所需的數(shù)據(jù)。以地理位置信息的處理為例,本文中的地理維度數(shù)據(jù)源數(shù)據(jù)是考生報(bào)到數(shù)據(jù)文件中dqmc列,描述的是地區(qū)名稱,其數(shù)據(jù)為“德城區(qū)”,“鄧州市鄧州市”,“安陽市市區(qū)”等。數(shù)據(jù)處理的難度一方面是源數(shù)據(jù)中對于地區(qū)信息的描述不夠完整,例如德城區(qū)沒有指明其省份和城市,另外是對于地區(qū)省市區(qū)縣等信息表達(dá)方式不統(tǒng)一,造成數(shù)據(jù)冗余。維度表一般是有主鍵的,代表該類物質(zhì)的一個(gè)單一個(gè)體,其他的字段一般都是有層次關(guān)系。因此地理緯度表存儲(chǔ)著GeoKey地區(qū)編碼,country國家,area地區(qū),province省份,city城市,region區(qū)或者縣。通過對數(shù)據(jù)預(yù)處理上例案例中“碧江區(qū)”在維度表中存儲(chǔ)為“36 中國 華東 山東 德州市 德城區(qū)”。

        圖1 數(shù)據(jù)倉庫關(guān)系圖

        2.2 數(shù)據(jù)分析

        聯(lián)機(jī)分析處理是數(shù)據(jù)倉庫的重要數(shù)據(jù)分析工具,可以處理共享多維信息的快速分析,建立聯(lián)機(jī)分析處理的基礎(chǔ)是多維數(shù)據(jù)模型。對多維數(shù)據(jù)分析操作主要包括:切片、切塊、旋轉(zhuǎn)、鉆取等。本文的數(shù)據(jù)分析主要是基于SSAS實(shí)現(xiàn),建立Analysis Service項(xiàng)目,在項(xiàng)目中定義數(shù)據(jù)源、數(shù)據(jù)源視圖、維度、多維數(shù)據(jù)集。通過查看多維數(shù)據(jù)集的數(shù)據(jù)查看學(xué)生報(bào)到情況,例如分省份、分專業(yè)、分批次的報(bào)到情況,以及學(xué)生報(bào)到和錄取專業(yè)等情況。查看各省市區(qū)報(bào)到學(xué)生數(shù)量,通過查看報(bào)到數(shù)據(jù)的分布情況,可以為學(xué)院領(lǐng)導(dǎo)和相關(guān)部門提供決策依據(jù),例如在哪些省份需要加強(qiáng)招生宣傳等,如圖2所示。

        圖2 各省市區(qū)縣報(bào)到人數(shù)分布

        查看學(xué)生報(bào)到和錄取本科專業(yè)等情況,根據(jù)這些可以指導(dǎo)專業(yè)方向發(fā)展,如圖3所示。

        圖3 學(xué)生報(bào)到和錄取專業(yè)人數(shù)分布

        查看不同成績區(qū)間和本科,??频蠕浫∪藬?shù)分布,有助于了解生源情況,如圖4所示。

        2.3 數(shù)據(jù)挖掘

        數(shù)據(jù)挖掘和聯(lián)機(jī)分析處理都是數(shù)據(jù)分析工具,但是它們處理的問題不同,數(shù)據(jù)分析的深度不同。數(shù)據(jù)挖掘是一種挖掘性質(zhì)的數(shù)據(jù)分析,能夠自動(dòng)地發(fā)現(xiàn)事物間潛在的關(guān)系和特征模式,并且利用這些特征模式進(jìn)行有效的預(yù)測分析。兩者相鋪相成,數(shù)據(jù)挖掘能發(fā)現(xiàn)聯(lián)機(jī)分析處理不能發(fā)現(xiàn)的更為復(fù)雜和細(xì)致的問題,而聯(lián)機(jī)分析處理能夠迅速告訴我們系統(tǒng)過去和現(xiàn)在是怎樣的,從而更好的理解數(shù)據(jù),加快知識(shí)發(fā)現(xiàn)的過程,迅速驗(yàn)證數(shù)據(jù)挖掘發(fā)現(xiàn)的結(jié)果是否合理。SSAS提供了10種算法來作為數(shù)據(jù)挖掘工具,包括決策樹算法、聚類分析算法、na?ve bayes算法、關(guān)聯(lián)算法、順序分析算法、聚類分析算法、時(shí)序算法、神經(jīng)網(wǎng)絡(luò)算法、邏輯回歸算法、線性回歸算法、文本挖掘算法[8]。其中在定量分析的實(shí)際研究中,回歸分析方法是流行的一種分析方法,可用來預(yù)測未來的值,線性回歸是最簡單的回歸形式。許多科學(xué)問題的觀察,都只是分類而非連續(xù)的。對于分類問題,線性回歸不能解決問題,需要使用邏輯回歸。決策樹算法主要是一種分類算法,它從數(shù)據(jù)中選出已經(jīng)分好類的訓(xùn)練集,在該訓(xùn)練集上運(yùn)用數(shù)據(jù)挖掘分類的技術(shù),建立分類模型,對沒有分類的數(shù)據(jù)進(jìn)行分類,同時(shí)也可以用于預(yù)測。聚類是對記錄分組,把相似的記錄在一個(gè)聚集里。貝葉斯分類器是一個(gè)統(tǒng)計(jì)分類器,它們能預(yù)測類別所屬的概率。聚類和分類的區(qū)別聚類不依賴于預(yù)先定義好的類,不需要訓(xùn)練集,其目的不是為了預(yù)測。關(guān)聯(lián)分析的目的找出數(shù)據(jù)庫中隱藏的關(guān)聯(lián)網(wǎng)[9、10]。

        圖4 不同成績區(qū)間和本科,??频蠕浫∪藬?shù)分布

        本文通過關(guān)聯(lián)分析、邏輯回歸等模型來挖掘影響學(xué)生報(bào)到的重要因素。挖掘時(shí)輸入項(xiàng)是畢業(yè)類別,層次名稱,城市,科目名稱,考生類別,批次名稱,專業(yè)名稱等信息,預(yù)測目標(biāo)為是否報(bào)到,其中輸入項(xiàng)的選擇是根據(jù)模型計(jì)算數(shù)據(jù)相關(guān)度推薦的字段,如圖5所示。

        圖5 關(guān)聯(lián)分析結(jié)果

        通過關(guān)聯(lián)分析模型挖掘出潛在的規(guī)則。通過這樣的規(guī)則,可以從中分析出對高校招生有價(jià)值的信息。由挖掘結(jié)果可見,對于不同批次的學(xué)生,某些專業(yè)的報(bào)到率較高以及對于某些城市某些批次的學(xué)生報(bào)到率較高,以及什么情況下學(xué)生報(bào)到率較低,如圖6所示。

        通過邏輯回歸分析,對于高中畢業(yè),報(bào)考本科理科的學(xué)生什么情況下傾向于報(bào)到,什么情況下傾向于不報(bào)到。通過

        圖6 邏輯回歸分析結(jié)果

        這樣的挖掘分析可以為學(xué)院領(lǐng)導(dǎo)和相關(guān)部門提供決策依據(jù),進(jìn)而更好地開展招生工作。

        3 總結(jié)

        本文主要圍繞基于SSAS對學(xué)生報(bào)到數(shù)據(jù)進(jìn)行分析和挖掘,主要從數(shù)據(jù)預(yù)處理、數(shù)據(jù)倉庫創(chuàng)建、多維數(shù)據(jù)集創(chuàng)建、數(shù)據(jù)分析、數(shù)據(jù)挖掘等方面展開。本文以某高校某院系某年的招生數(shù)據(jù)為例進(jìn)行分析,下一步可以完善數(shù)據(jù),增加時(shí)間維度和專業(yè)維度,對更多專業(yè)更多年份的招生歷史數(shù)據(jù)進(jìn)行分析挖掘。

        [1] 黃榮堅(jiān). 數(shù)據(jù)挖掘在高職院校招生中的應(yīng)用研究[D]. 廣州:中山大學(xué), 2014.

        [2] 胡海員. 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)在招生決策中的應(yīng)用研究[D]. 南京:東南大學(xué), 2006.

        [3] 王炳堃. 基于OLAP民辦高校招生數(shù)據(jù)智能分析系統(tǒng)的開發(fā)與實(shí)現(xiàn)[D]. 廈門:廈門大學(xué), 2016.

        [4] 蘭吉特張猛, 楊越, 朗亞妹. SQL Server 2008商業(yè)智能完美解決方案[M]. 北京:人民郵電出版社, 2010.

        [5] Brian Larson. Microsoft SQL Server 2005商業(yè)智能實(shí)現(xiàn)[M]. 北京:清華大學(xué)出版社, 2008.

        [6] 潘華,項(xiàng)同德. 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘原理、工具及應(yīng)用[M]. 北京:中國電力出版社, 2016.

        [7] 閔建虎. 基于數(shù)據(jù)倉庫的決策支持系統(tǒng)設(shè)計(jì)研究[J]. 微型電腦應(yīng)用, 2010, 26(4):48-50.

        [8] 謝邦昌, 鄭宇庭, 蘇志雄. SQL Server 2008 R2數(shù)據(jù)挖掘與商業(yè)智能基礎(chǔ)及高級案例實(shí)戰(zhàn)[M]. 北京:中國水利水電出版社, 2011.

        [9] 毛國君, 段立娟. 數(shù)據(jù)挖掘原理與算法[M]. 北京:清華大學(xué)出版社, 2016.

        [10] 陳倬. 數(shù)據(jù)挖掘中聚類算法的研究[J]. 黑龍江科技信息, 2016(3):133-133.

        AnalysisofCollegeStudentRegistrationDatabasedonSSAS

        Song Wei1, Han Yufang2
        (1. School of Software, Nanyang Institute of Technology, Nanyang 473000, China;2. Shanxi Drama Vocational College, Taiyuan 030002, China)

        TP311

        A

        2017.05.15)

        宋薇(1987-),女,南陽人,碩士,講師,研究方向:數(shù)據(jù)挖掘. 韓育芳(1986-),女,高平人,碩士,助教,研究方向:虛擬現(xiàn)實(shí)技術(shù)及其應(yīng)用.

        1007-757X(2017)09-0057-03

        猜你喜歡
        聯(lián)機(jī)數(shù)據(jù)倉庫數(shù)據(jù)挖掘
        多聯(lián)機(jī)安裝施工技術(shù)探討
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        基于數(shù)據(jù)倉庫的住房城鄉(xiāng)建設(shè)信息系統(tǒng)整合研究
        基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        分布式存儲(chǔ)系統(tǒng)在液晶面板制造數(shù)據(jù)倉庫中的設(shè)計(jì)
        電子制作(2016年15期)2017-01-15 13:39:15
        探析電力系統(tǒng)調(diào)度中數(shù)據(jù)倉庫技術(shù)的應(yīng)用
        高溫多聯(lián)機(jī)空調(diào)系統(tǒng)的控制方式研究
        CALIS聯(lián)機(jī)合作編目中的授權(quán)影印書規(guī)范著錄
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        基于數(shù)據(jù)倉庫的數(shù)據(jù)分析探索與實(shí)踐
        一区二区三区在线观看日本视频| 国产成人综合色在线观看网站| 欧洲色综合| 亚洲24小时在线免费视频网站| 国产一区二区三区青青草| 久久久中日ab精品综合| 夜夜揉揉日日人人| av一区二区三区人妻少妇| 久久99欧美| 黑丝国产精品一区二区| 亚洲国产成人久久精品不卡| 一区二区三区国产| 中文字幕乱码人妻无码久久麻豆| 亚州韩国日本区一区二区片| 国产亚洲精品97在线视频一| 三年在线观看免费大全下载| 亚洲欧洲精品成人久久曰不卡| 国产三级精品三级在线| 无码专区一ⅴa亚洲v天堂 | 午夜福利视频男同女同| 亚洲精品天堂日本亚洲精品| 色综合久久中文娱乐网| 亚洲中文久久精品无码ww16 | 伊人色综合视频一区二区三区| 久久视频在线视频精品| 亚洲一区二区在线观看免费视频 | 国精产品一区二区三区| 国产美女亚洲精品一区| 亚洲一区二区三区精品| 无码人妻久久一区二区三区免费 | 中文字幕无线码一区二区| 亚洲爆乳少妇无码激情| 极品av在线播放| 国产一区二区三区我不卡 | 波多野结衣aⅴ在线| 情色视频在线观看一区二区三区| 日本av一区二区三区在线| 亚洲av永久无码国产精品久久| 久久久久一| 久久综合另类激情人妖| 亚洲成av人片在线观看www|