亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Hadoop與Spark的高校校園大數(shù)據(jù)平臺(tái)研究

        2018-08-15 10:01:34劉萍
        軟件工程 2018年5期
        關(guān)鍵詞:大數(shù)據(jù)

        劉萍

        摘 要:對(duì)校園大數(shù)據(jù)分析是校園信息化發(fā)展的新思路。Hadoop是Apache基金會(huì)開(kāi)發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu),它是集分布式計(jì)算、存儲(chǔ)和管理為一體的生態(tài)系統(tǒng)。目前流行的Spark框架是與Hadoop生態(tài)系統(tǒng)中的MapReduce類似的一個(gè)分布式計(jì)算平臺(tái),Spark比MapReduce的速度更快且提供的功能更豐富。本文以數(shù)據(jù)采集、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)分析、數(shù)據(jù)展現(xiàn)為主線,結(jié)合大數(shù)據(jù)領(lǐng)域最流行的Hadoop框架與Spark框架提出了高校校園大數(shù)據(jù)平臺(tái)架構(gòu),詳細(xì)闡述了架構(gòu)各層次的具體功能,并對(duì)架構(gòu)中關(guān)系數(shù)據(jù)庫(kù)數(shù)據(jù)的采集存儲(chǔ)進(jìn)行了詳細(xì)介紹,最后設(shè)計(jì)校園大數(shù)據(jù)分析原型系統(tǒng)來(lái)驗(yàn)證架構(gòu)的可行性。

        關(guān)鍵詞:大數(shù)據(jù);Hadoop;Spark;校園大數(shù)據(jù)平臺(tái)

        中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A

        Abstract:The analysis of campus big data is a new way of campus information development.Hadoop is a distributed system infrastructure developed by Apache Foundation,which is an ecosystem integrating distributed computing,storage and management.The current popular Spark framework is a distributed computing platform similar to MapReduce in the Hadoop ecosystem,and Spark is faster and more functional than MapReduce.With the main line of data collection,data storage,data analysis and data presentation,this paper puts forward the big data platform architecture of university campus in combination with the most popular Hadoop framework and Spark framework in big data fields,and expounds the specific functions of the architecture at all levels in detail,and gives a detailed description of the data collection and storage of the related coefficients in the architecture.Finally,the campus big data analysis prototype system is designed to verify the feasibility of the architecture.

        Keywords:big data;Hadoop;Spark;campus big data platform

        1 引言(Introduction)

        隨著云計(jì)算、物聯(lián)網(wǎng)、WEB搜索、電子商務(wù)、個(gè)性化信息服務(wù)和社交網(wǎng)絡(luò)的高速發(fā)展,產(chǎn)生了大量的數(shù)據(jù),其中蘊(yùn)含的巨大價(jià)值成為大數(shù)據(jù)分析的強(qiáng)大動(dòng)力。大數(shù)據(jù)技術(shù)也推動(dòng)了高校校園信息化建設(shè)由數(shù)字化校園逐漸向智慧化校園轉(zhuǎn)變,在持續(xù)建設(shè)過(guò)程中,校園各個(gè)階段建設(shè)了一系列上層應(yīng)用系統(tǒng),例如學(xué)生管理系統(tǒng)、教務(wù)系統(tǒng)、科研系統(tǒng)、招生系統(tǒng)、就業(yè)系統(tǒng)、財(cái)務(wù)系統(tǒng)、人事系統(tǒng)、圖書(shū)管理系統(tǒng)、后勤管理系統(tǒng)和校園一卡通等,積累的校園數(shù)據(jù)也在迅猛增加,已初步形成校園大數(shù)據(jù)環(huán)境。搭建大數(shù)據(jù)平臺(tái),對(duì)海量校園數(shù)據(jù)進(jìn)行分析,集成各個(gè)時(shí)期開(kāi)發(fā)的各種信息系統(tǒng)中的結(jié)構(gòu)化數(shù)據(jù),并對(duì)校園網(wǎng)頁(yè)等非結(jié)構(gòu)化數(shù)據(jù),以及實(shí)時(shí)的流數(shù)據(jù)進(jìn)行采集分析,實(shí)現(xiàn)校園中信息的互聯(lián)互通,并對(duì)師生進(jìn)行個(gè)性化服務(wù),為學(xué)生學(xué)業(yè)提供預(yù)警,如提前一年畢業(yè)資格審核,發(fā)送審核報(bào)告給學(xué)生,對(duì)學(xué)校教師和科研數(shù)據(jù)進(jìn)行分析,為學(xué)校管理者制定教學(xué)管理方針提供可靠的數(shù)據(jù)依據(jù),有著重要的意義。

        2 Hadoop與Spark介紹(Hadoop and Spark

        introduction)

        目前以Hadoop為核心的大數(shù)據(jù)解決方案占大數(shù)據(jù)市場(chǎng)95%以上的份額。Hadoop是一個(gè)集分布式計(jì)算、存儲(chǔ)和管理為一體的生態(tài)系統(tǒng),它為大規(guī)模并行數(shù)據(jù)處理算法提供運(yùn)行環(huán)境。Hadoop生態(tài)系統(tǒng)的核心是分布式文件系統(tǒng)(Hadoop Distributed File System,簡(jiǎn)稱HDFS)和MapReduce框架,HDFS為海量數(shù)據(jù)提供了高容錯(cuò)性和高吞吐量的數(shù)據(jù)存儲(chǔ),MapReduce框架為海量數(shù)據(jù)提供并行計(jì)算[1]。

        Spark是專為大規(guī)模數(shù)據(jù)處理而設(shè)計(jì)的快速通用的內(nèi)存計(jì)算框架。Spark可以認(rèn)為是MapReduce的替代方案。Spark中數(shù)據(jù)被高度抽象且存儲(chǔ)在彈性分布式數(shù)據(jù)集(Resilient Distributed Dataset,簡(jiǎn)稱RDD)中。它將數(shù)據(jù)加載到節(jié)點(diǎn)內(nèi)存中,然后在內(nèi)存中完成計(jì)算。Spark有許多內(nèi)置操作,可以將一個(gè)RDD轉(zhuǎn)換為另一個(gè)RDD,RDD的持久化操作,可以將它緩存在工作節(jié)點(diǎn)的內(nèi)存中,這樣中間結(jié)果可以保存在內(nèi)存,從而不再需要讀寫(xiě)HDFS。后續(xù)重用數(shù)據(jù)時(shí),直接從內(nèi)存讀取。它能夠快速訪問(wèn)數(shù)據(jù),有效提高了迭代執(zhí)行的時(shí)間效率[2]。而MapReduce在計(jì)算過(guò)程中要將中間結(jié)果寫(xiě)入HDFS,這樣就需要大量的磁盤I/O操作。

        Hadoop的容錯(cuò)方式與Spark很不一樣,Hadoop通過(guò)復(fù)制備份多份數(shù)據(jù)進(jìn)行容錯(cuò)。而Spark無(wú)需備份數(shù)據(jù),RDD為Spark提供了良好的容錯(cuò)性能,Spark記錄RDD上執(zhí)行的一系列操作,構(gòu)建一個(gè)有向非循環(huán)DAG圖,若數(shù)據(jù)出錯(cuò)或丟失,就依據(jù)DAG追溯重算[3]。Spark比MapReduce有諸多的優(yōu)勢(shì)[4],特別適用于批處理、迭代計(jì)算(如機(jī)器學(xué)習(xí)、圖計(jì)算等)、交互式處理(如數(shù)據(jù)挖掘)和流式處理(如點(diǎn)擊日志分析)等[5]。

        Spark僅僅是計(jì)算框架,它的生態(tài)系統(tǒng)并沒(méi)有提供資源管理系統(tǒng),因此需要使用Hadoop YARN,為上層應(yīng)用提供統(tǒng)一資源管理和調(diào)度,它為集群在利用率、資源統(tǒng)一管理和數(shù)據(jù)共享等方面帶來(lái)了巨大好處[6]。Spark本身也并沒(méi)有提供分布式文件系統(tǒng),Spark的分析大多依賴Hadoop的分布式文件系統(tǒng)HDFS,它可兼容HDFS和Hive等分布式存儲(chǔ)層,可融入Hadoop生態(tài)系統(tǒng)[7]。因此下文結(jié)合Hadoop與Spark構(gòu)建高校校園大數(shù)據(jù)平臺(tái)。

        3 基于Hadoop與Spark的校園大數(shù)據(jù)平臺(tái)架構(gòu)

        (Campus big data platform architecture based on

        Hadoop and Spark)

        對(duì)學(xué)校各階段開(kāi)發(fā)使用的應(yīng)用系統(tǒng)中的結(jié)構(gòu)化數(shù)據(jù)進(jìn)行收集存儲(chǔ),對(duì)校園內(nèi)海量的半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)也進(jìn)行統(tǒng)一管理和存儲(chǔ),能夠?qū)崿F(xiàn)學(xué)生、教師、科研、招生、就業(yè)、財(cái)務(wù)、人事、圖書(shū)、后勤、一卡通等信息的統(tǒng)一采集、存儲(chǔ)、處理、分析。研究科研數(shù)據(jù),分析最近幾年學(xué)院的科研動(dòng)態(tài),對(duì)科研發(fā)展方向進(jìn)行預(yù)測(cè);研究教師數(shù)據(jù),及時(shí)關(guān)注學(xué)校的教學(xué)動(dòng)態(tài),為學(xué)校教育教學(xué)方針政策的制定提供數(shù)據(jù)依據(jù),通過(guò)關(guān)聯(lián)規(guī)則分析教務(wù)系統(tǒng)中教師的教學(xué)工作量與科研系統(tǒng)中教師的科研進(jìn)展之間的關(guān)系;研究學(xué)生數(shù)據(jù),分析學(xué)生的學(xué)習(xí)狀況、食宿消費(fèi)、圖書(shū)借閱等行為,對(duì)學(xué)生畢業(yè)資格提前進(jìn)行審核,對(duì)可能無(wú)法正常畢業(yè)的學(xué)生進(jìn)行預(yù)警。對(duì)校園一卡通的消費(fèi)記錄進(jìn)行分析,得出學(xué)生的消費(fèi)水平和消費(fèi)習(xí)慣,為學(xué)院助學(xué)金政策的制定和實(shí)施提供有效的數(shù)據(jù)支撐[8]。

        下文結(jié)合伯克利APM實(shí)驗(yàn)室打造的Spark生態(tài)圈(BDAS),因其是在算法(Algorithms)、機(jī)器(Machines)和人(People)之間通過(guò)大規(guī)模集成來(lái)展現(xiàn)大數(shù)據(jù)應(yīng)用的一個(gè)平臺(tái)。該生態(tài)圈已涉及機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、信息檢索、數(shù)據(jù)庫(kù)、自然語(yǔ)言處理和語(yǔ)音識(shí)別等領(lǐng)域。但該生態(tài)圈并沒(méi)有提供分布式文件系統(tǒng),因此Spark的分析可借助與Hadoop的分布式文件系統(tǒng)HDFS;Spark還可以使用Hadoop生態(tài)系統(tǒng)中的Yarn進(jìn)行集群資源管理和調(diào)度[9]。因此結(jié)合Hadoop和Spark技術(shù),提出了基于Hadoop與Spark的校園大數(shù)據(jù)平臺(tái)架構(gòu),如圖1所示。

        3.1 校園大數(shù)據(jù)平臺(tái)架構(gòu)分析

        針對(duì)校園大數(shù)據(jù)平臺(tái)架構(gòu)的各層次功能實(shí)現(xiàn)給出如下闡釋:

        數(shù)據(jù)源該層包括結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)和實(shí)時(shí)流數(shù)據(jù),結(jié)構(gòu)化數(shù)據(jù)主要包括高校校園信息化建設(shè)過(guò)程中的各應(yīng)用系統(tǒng)中的數(shù)據(jù),如學(xué)生管理系統(tǒng)、教務(wù)系統(tǒng)、科研系統(tǒng)、招生系統(tǒng)、就業(yè)系統(tǒng)、財(cái)務(wù)系統(tǒng)、人事系統(tǒng)、圖書(shū)管理系統(tǒng)、后勤管理系統(tǒng)、資產(chǎn)管理和校園一卡通等;非結(jié)構(gòu)化數(shù)據(jù)一般包括網(wǎng)頁(yè)、微博、微信等;實(shí)時(shí)流數(shù)據(jù)主要包括監(jiān)控、門禁等。

        大數(shù)據(jù)采集與存儲(chǔ),該層實(shí)現(xiàn)從數(shù)據(jù)源中抽取數(shù)據(jù)到HDFS中進(jìn)行數(shù)據(jù)分析。數(shù)據(jù)采集中采用Sqoop將關(guān)系數(shù)據(jù)庫(kù),如Oracle、MySQL等中的數(shù)據(jù)導(dǎo)入Hadoop的HDFS或HBase中,當(dāng)然也可將HDFS的數(shù)據(jù)導(dǎo)出到關(guān)系數(shù)據(jù)庫(kù)中。Sqoop通過(guò)Hadoop的MapReduce導(dǎo)入導(dǎo)出,因此整個(gè)平臺(tái)擁有很高的并行性,以及良好的容錯(cuò)性。在HDFS上儲(chǔ)存時(shí),文件會(huì)分成64MB為一單位的數(shù)據(jù)集合,通過(guò)冗余鏡像的方式在計(jì)算機(jī)集群中進(jìn)行分布式儲(chǔ)存。對(duì)于結(jié)構(gòu)化明顯的數(shù)據(jù)可以進(jìn)行集中儲(chǔ)存,對(duì)于結(jié)構(gòu)化不明顯的數(shù)據(jù)以文件和目錄方式進(jìn)行分布式儲(chǔ)存。對(duì)于非結(jié)構(gòu)化數(shù)據(jù)和流數(shù)據(jù)通過(guò)專業(yè)的工具,如網(wǎng)絡(luò)爬蟲(chóng)等,收集教師、學(xué)生的數(shù)據(jù),如教學(xué)過(guò)程、教育管理過(guò)程產(chǎn)生的視頻、文檔、PPT、教案,學(xué)生的作業(yè)、試卷等信息,以及物聯(lián)網(wǎng)產(chǎn)生的信息如監(jiān)控、門禁信息等,這其中包含了大量的文件、照片、視頻等數(shù)據(jù)。

        大數(shù)據(jù)分析,該層使用內(nèi)存計(jì)算框架Spark,Spark提供了大量的庫(kù),包括Spark SQL、Spark MLlib、Spark GraphX、Spark Streaming、DataFrames等。本平臺(tái)將無(wú)縫組合使用這些庫(kù)。使用Spark SQL讀取HDFS,并進(jìn)行分布式數(shù)據(jù)查詢操作,使用Spark Streaming將流式數(shù)據(jù)轉(zhuǎn)換成RDD,使用Spark GraphX解析運(yùn)行圖計(jì)算,使用Spark MLlib設(shè)計(jì)和實(shí)現(xiàn)機(jī)器學(xué)習(xí)算法。運(yùn)用它協(xié)同實(shí)現(xiàn)校園大數(shù)據(jù)的分類、聚類、關(guān)聯(lián)規(guī)則等數(shù)據(jù)挖掘算法。部分使用MapReduce進(jìn)行離線分析。

        數(shù)據(jù)應(yīng)用展示,該層為用戶提供個(gè)性化服務(wù)定制功能,可以為用戶進(jìn)行信息推送,用戶可以查詢分析結(jié)果,可以展示科研數(shù)據(jù)分析、學(xué)生數(shù)據(jù)分析、教師數(shù)據(jù)分析,以及學(xué)生畢業(yè)資格審核等。通過(guò)建立校園大數(shù)據(jù)平臺(tái)得到有價(jià)值的信息并以可視化方式,例如通過(guò)門戶網(wǎng)站、移動(dòng)APP等展現(xiàn)給用戶,并為學(xué)生提供學(xué)習(xí)情況和消費(fèi)情況分析、為老師提供教科研分析等,分析結(jié)果以曲線、二維圖像或文件報(bào)告等方式展現(xiàn)。大數(shù)據(jù)分析結(jié)果也可在其他系統(tǒng)中展示和應(yīng)用[10]。

        3.2 關(guān)系數(shù)據(jù)庫(kù)數(shù)據(jù)導(dǎo)入HDFS

        由于校園大數(shù)據(jù)平臺(tái)中很大一部分?jǐn)?shù)據(jù)是來(lái)源于各個(gè)階段開(kāi)發(fā)的各類信息系統(tǒng),下面介紹一下在本文提出的校園大數(shù)據(jù)平臺(tái)架構(gòu)中如何將關(guān)系數(shù)據(jù)庫(kù)導(dǎo)入到HDFS文件系統(tǒng)中,以O(shè)racle數(shù)據(jù)庫(kù)為例,其他關(guān)系數(shù)據(jù)庫(kù)類似。

        使用Sqoop將關(guān)系數(shù)據(jù)庫(kù)數(shù)據(jù)遷移到HDFS中,首先下載Sqoop壓縮包上傳到Hadoop集群的節(jié)點(diǎn)上,將它解壓縮即可使用,然后將連接Oracle的驅(qū)動(dòng)包拷貝到Sqoop目錄下的lib目錄中,并配置好Oracle數(shù)據(jù)庫(kù)的遠(yuǎn)程連接。準(zhǔn)備工作完成后,使用如下步驟和命令把關(guān)系型數(shù)據(jù)庫(kù)中數(shù)據(jù)導(dǎo)入HDFS中。

        (1)設(shè)置Oracle的連接字符串,包括Oracle的主機(jī)地址、SID和端口號(hào)。

        CONNECTURL=jdbc:oracle:thin:@192.168.14.253:1521:ORCL

        (2)訪問(wèn)Oracle數(shù)據(jù)庫(kù)的用戶名和密碼。

        ORACLENAME=lp ORACLEPASSWORD=123456

        (3)設(shè)置需要從Oracle數(shù)據(jù)庫(kù)中導(dǎo)入的表名,例如此處導(dǎo)入學(xué)生表信息。

        oralceTableName=Student

        (4)需要從Oracle中導(dǎo)入的學(xué)生表的字段名。

        columns=studentId,studentName,sex,age,classId,

        telephone

        (5)將Oracle中的數(shù)據(jù)導(dǎo)入到HDFS中的存放路徑。

        hdfsPath=apps/as/hive/$oralceTableName

        (6)執(zhí)行sqoop導(dǎo)入邏輯,將Oracle中的數(shù)據(jù)導(dǎo)入到HDFS中。

        sqoop import--connect$CONNECTURL--username $ORACLENAME--password$ORACLEPASSWORD --target-dir$hdfsPath--num-mappers 1--table $oralceTableName--columns$columns--fields-terminated-by'\001'

        4 原型系統(tǒng)(Protosystem)

        為驗(yàn)證校園大數(shù)據(jù)平臺(tái)架構(gòu)的合理可行性,基于Hadoop集群和Spark集群構(gòu)建大數(shù)據(jù)處理平臺(tái),并采用JavaEE平臺(tái)的Struts框架和Hibernate框架進(jìn)行原型系統(tǒng)開(kāi)發(fā)。下面以原型系統(tǒng)中的畢業(yè)資格審核模塊為例,來(lái)驗(yàn)證平臺(tái)架構(gòu)的合理性。

        學(xué)生在畢業(yè)前一年,通過(guò)原型系統(tǒng)的畢業(yè)資格審核模塊進(jìn)行畢業(yè)資格的提前預(yù)審,并以郵件的形式發(fā)送報(bào)告給學(xué)生,對(duì)有科目未通過(guò),或其他影響畢業(yè)的問(wèn)題的學(xué)生進(jìn)行提前預(yù)警,以便讓學(xué)生可以好好利用最后一學(xué)年查漏補(bǔ)缺,爭(zhēng)取正常畢業(yè)。用戶通過(guò)瀏覽器訪問(wèn)原型系統(tǒng),可按系部、班級(jí)進(jìn)行整班查詢畢業(yè)資格預(yù)審,也可具體到某個(gè)學(xué)生,通過(guò)學(xué)號(hào)或姓名等查詢某學(xué)生畢業(yè)資格預(yù)審情況,如圖2所示,查詢出來(lái)的結(jié)果集里包含學(xué)生基本信息、課程成績(jī)是否全部通過(guò),若有未通過(guò)課程,給出未通過(guò)課程名稱;學(xué)生考證情況,會(huì)給出具體考了哪幾個(gè)證書(shū);學(xué)生獎(jiǎng)懲情況和積點(diǎn)情況,積點(diǎn)若未通過(guò),會(huì)給出具體缺多少;還會(huì)對(duì)學(xué)費(fèi)繳納情況、圖書(shū)借閱情況、體育器材借閱情況等進(jìn)行說(shuō)明,這些都會(huì)影響畢業(yè)證書(shū)的領(lǐng)取,這些信息分別來(lái)源于高校招生系統(tǒng)、教務(wù)系統(tǒng)、學(xué)生管理系統(tǒng)、財(cái)務(wù)系統(tǒng)、圖書(shū)管理系統(tǒng)等,原來(lái)這些信息是分別存在于各個(gè)應(yīng)用系統(tǒng)中的,這些應(yīng)用系統(tǒng)之間數(shù)據(jù)冗余,不統(tǒng)一,存在一個(gè)個(gè)“信息孤島”,不能實(shí)現(xiàn)數(shù)據(jù)共享。通過(guò)本文設(shè)計(jì)的大數(shù)據(jù)平臺(tái)架構(gòu),把各個(gè)應(yīng)用系統(tǒng)的數(shù)據(jù)都被抽取到了HDFS文件系統(tǒng),然后通過(guò)大數(shù)據(jù)分析統(tǒng)一處理,實(shí)踐表明,該本文提出的大數(shù)據(jù)平臺(tái)架構(gòu)是可行的,也是合理的。

        5 結(jié)論(Conclusion)

        研究大數(shù)據(jù)技術(shù)Hadoop和Spark在教育信息化領(lǐng)域的應(yīng)用,進(jìn)一步豐富數(shù)字化校園和智慧校園的技術(shù)體系,提出校園大數(shù)據(jù)平臺(tái)架構(gòu),利用大數(shù)據(jù)技術(shù),對(duì)校園信息進(jìn)行綜合的分析整理,更好幫助教師管理學(xué)生。在提出的校園大數(shù)據(jù)平臺(tái)中采用HDFS完成龐大數(shù)據(jù)的分布式存儲(chǔ)。該平臺(tái)基于開(kāi)放架構(gòu),具備較好的擴(kuò)展處理能力,能為多種數(shù)據(jù)源提供全面可靠的處理。通過(guò)該大數(shù)據(jù)平臺(tái)對(duì)學(xué)生歷史數(shù)據(jù)和實(shí)時(shí)數(shù)據(jù)進(jìn)行分析,對(duì)學(xué)生異常狀態(tài)進(jìn)行預(yù)警,尤其可以對(duì)學(xué)生提前進(jìn)行畢業(yè)資格預(yù)審,可以促使更多的學(xué)生按時(shí)畢業(yè)。研究科研數(shù)據(jù),分析學(xué)??蒲袆?dòng)態(tài)發(fā)展;研究教師數(shù)據(jù),關(guān)注學(xué)校教學(xué)動(dòng)態(tài),為教學(xué)方針政策的合理制定提供依據(jù)。該平臺(tái)能夠充分集成院校不同階段使用的各信息系統(tǒng)。下一步將重點(diǎn)研究大數(shù)據(jù)相關(guān)算法,例如對(duì)圖書(shū)館的圖書(shū)研究推薦算法,讀者可以輕松獲取與本人興趣相關(guān)的推薦圖書(shū)等,以及架構(gòu)中數(shù)據(jù)利用過(guò)程中的安全問(wèn)題和隱私保護(hù)問(wèn)題??傊?,本文提出的校園大數(shù)據(jù)平臺(tái)可以加快推進(jìn)智慧校園的建設(shè)。

        參考文獻(xiàn)(References)

        [1] 常濤.改進(jìn)型MapReduce框架的研究與設(shè)計(jì)[D].北京:北京郵電大學(xué),2011:19-22.

        [2] Koliopoulos A K,Yiapanis P,Tekiner F,et al.A parallel distributed weka framework for big data mining using Spark[J].2015,26(7):9-16.

        [3] 閆夢(mèng)潔,羅軍,劉建英,等.IABS:一個(gè)基于Spark的Apriori改進(jìn)算法[J].計(jì)算機(jī)應(yīng)用研究,2017,34(8):2274-2277.

        [4] Gao Yanjie.Data Processing with Spark[M].Beijing:China Machine Press,2015.

        [5] 李濤,劉斌.Spark平臺(tái)下的高效Web文本分類系統(tǒng)的研究[J].計(jì)算機(jī)應(yīng)用與軟件,2016,33(11):33-36.

        [6] Landset S,Khoshgoftaar T M,Richter A N,et al.A survey of open source tools for machine learning with big data in the Hadoop ecosystem[J].Journal of Big Data,2015,2(1):24.

        [7] 毛國(guó)君,胡殿軍,謝松燕.基于分布式數(shù)據(jù)流的大數(shù)據(jù)分類模型和算法[J].計(jì)算機(jī)學(xué)報(bào),2017(1):161-175.

        [8] 何清,李寧,羅文娟,等.大數(shù)據(jù)下的機(jī)器學(xué)習(xí)算法綜述[J].模式識(shí)別與人工智能,2014,27(4):327-336.

        [9] Shan S.Big data classification:problems and challenges in network intrusion prediction with machine learning[J].ACM Sigmetrics Performance Evaluation Review,2014,41(4):70-73.

        [10] 潘奇.基于Hadoop技術(shù)的高校學(xué)生行為分析系統(tǒng)研究與實(shí)現(xiàn)[D].北京:北京郵電大學(xué)碩士論文,2014:1-2.

        作者簡(jiǎn)介:

        劉 萍(1982-),女,碩士,講師.研究領(lǐng)域:軟件工程,系統(tǒng)集成,大數(shù)據(jù)分析.

        猜你喜歡
        大數(shù)據(jù)
        大數(shù)據(jù)環(huán)境下基于移動(dòng)客戶端的傳統(tǒng)媒體轉(zhuǎn)型思路
        新聞世界(2016年10期)2016-10-11 20:13:53
        基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
        科技視界(2016年20期)2016-09-29 10:53:22
        數(shù)據(jù)+輿情:南方報(bào)業(yè)創(chuàng)新轉(zhuǎn)型提高服務(wù)能力的探索
        亚洲一区二区三区在线高清中文| 中文字幕人妻av一区二区| 夹得好湿真拔不出来了动态图| 亚洲三区在线观看内射后入| 免费国产在线精品一区| 国产精品 人妻互换| 国产精品 高清 尿 小便 嘘嘘| 日韩欧美精品有码在线观看| yw193.can尤物国产在线网页| 一区二区黄色素人黄色| 久久少妇高潮免费观看| 亚洲精品国产av日韩专区| 精品无码av一区二区三区不卡| 亚洲国产美女精品久久久久∴| 麻豆果冻传媒在线观看| 国产精品久久久久久久久免费观看| av永久天堂一区二区三区蜜桃| 国产日韩精品视频一区二区三区| 中文av字幕一区二区三区| 欧美老妇交乱视频在线观看| 在线精品无码字幕无码av| 熟女性饥渴一区二区三区| 无码人妻精一区二区三区| 亚洲高潮喷水中文字幕| 亚洲中文字幕诱惑第一页| 在线播放草猛免费视频| 一边摸一边做爽的视频17国产| 天天躁日日躁狠狠躁欧美老妇| 亚洲的天堂av无码| 亚洲精品国产精品av| 日本高清人妻一区二区| 免费久久久一本精品久久区| 一边摸一边抽搐一进一出视频| 免费人妻无码不卡中文字幕18禁 | 97人妻无码免费专区| 成人男性视频在线观看| 日韩在线精品视频一区| 性生交片免费无码看人| 99久久人妻精品免费二区| 久久婷婷综合色拍亚洲| 黑人巨大亚洲一区二区久|