亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Hadoop的高校網(wǎng)絡(luò)日志分析平臺(tái)設(shè)計(jì)與實(shí)現(xiàn)

        2017-12-27 00:28:32楊洪嬌天津外國(guó)語大學(xué)
        數(shù)碼世界 2017年8期
        關(guān)鍵詞:數(shù)據(jù)源校園網(wǎng)日志

        楊洪嬌 天津外國(guó)語大學(xué)

        基于Hadoop的高校網(wǎng)絡(luò)日志分析平臺(tái)設(shè)計(jì)與實(shí)現(xiàn)

        楊洪嬌 天津外國(guó)語大學(xué)

        高校網(wǎng)絡(luò)資源不斷增加,大數(shù)據(jù)分析和應(yīng)用的不斷發(fā)展,如何充分利用高校網(wǎng)絡(luò)環(huán)境中的日志增強(qiáng)網(wǎng)絡(luò)管理水平,提高信息化服務(wù)能力成為研究方向,本文對(duì)高校網(wǎng)絡(luò)環(huán)境中的日志信息進(jìn)行分析,設(shè)計(jì)了網(wǎng)絡(luò)日志分析平臺(tái),對(duì)不同類型的日志提出了采集、存儲(chǔ)、分析的處理方案,實(shí)際部署表明該平臺(tái)適用場(chǎng)景廣泛,可為高校網(wǎng)絡(luò)日志分析提供良好的基礎(chǔ),為基于大數(shù)據(jù)的日志應(yīng)用提供可靠支撐。

        Hadoop 網(wǎng)絡(luò)日志 數(shù)據(jù)分析

        近年來高校信息化建設(shè)不斷發(fā)展,信息系統(tǒng)及校園網(wǎng)流量也日益增長(zhǎng)。各類網(wǎng)絡(luò)設(shè)備和信息系統(tǒng)的運(yùn)行日志、訪問日志等數(shù)量急劇增加,大量各類日志數(shù)據(jù)所蘊(yùn)含的信息如何有效利用,為各種高校管理及信息化建設(shè)提供優(yōu)化成為不得不考慮的問題,構(gòu)建一個(gè)高校網(wǎng)絡(luò)日志綜合分析平臺(tái),有助于為日志大數(shù)據(jù)分析利用提供基礎(chǔ)服務(wù),支撐未來資源優(yōu)化及信息化業(yè)務(wù)發(fā)展。

        1 Hadoop技術(shù)與高校網(wǎng)絡(luò)日志

        Hadoop技術(shù)是Apache基金會(huì)下的一個(gè)項(xiàng)目,旨在為大數(shù)據(jù)集提供一個(gè)分布式的計(jì)算框架,同時(shí)提供了簡(jiǎn)單易用的可編程模型。Hadoop技術(shù)有一系列相關(guān)項(xiàng)目實(shí)現(xiàn),包括HDFS文件系統(tǒng)、YARN作業(yè)調(diào)度系統(tǒng)、MapReduce并行計(jì)算系統(tǒng)等。

        1.1 HDFS文件系統(tǒng)與Hive數(shù)據(jù)庫(kù)

        HDFS是Hadoop分布式文件系統(tǒng),與現(xiàn)有其他分布式文件系統(tǒng)不同的是,HDFS具有高容錯(cuò)率和低成本的優(yōu)點(diǎn)。HDFS使用master/slave架構(gòu),NameNode作為master管理文件系統(tǒng)并控制客戶端訪問。DateNode作為slave響應(yīng)用戶的讀寫請(qǐng)求,HDFS文件存儲(chǔ)以block為單位,由DataNode存儲(chǔ)數(shù)據(jù)并執(zhí)行NameNode對(duì)block的創(chuàng)建、刪除、復(fù)制操作。

        Hive數(shù)據(jù)倉(cāng)庫(kù)可使用SQL命令管理位于分布式存儲(chǔ)上的大量數(shù)據(jù),作為Hadoop項(xiàng)目的成員,Hive可集成HDFS文件系統(tǒng)中的文件,同時(shí)引入SQL語句高效地支持應(yīng)用開發(fā),降低了大數(shù)據(jù)應(yīng)用的開發(fā)難度。

        1.2 MapReduce計(jì)算框架

        MapReduce為快速進(jìn)行大數(shù)據(jù)并行計(jì)算提供了計(jì)算框架,MapReduce將計(jì)算任務(wù)分為Map階段和Reduce階段,Map階段將并行執(zhí)行讀取數(shù)據(jù)并計(jì)算,Hadoop對(duì)Map階段的輸出進(jìn)行合并和排序,輸出給Reduce階段計(jì)算并最終得到并行計(jì)算的結(jié)果。

        MapReduce也 采 用 master/slave架 構(gòu),ResourceManager作為master管 理MapReduce計(jì) 算,NodeManager作為slave位于各計(jì)算節(jié)點(diǎn)。用戶在使用時(shí)只需制定處理的數(shù)據(jù)并提供Map及Reduce階段的計(jì)算程序即可。

        1.3 Flume數(shù)據(jù)采集

        Flume是一個(gè)分布式的大量日志采集與管理服務(wù),對(duì)異構(gòu)日志提供多種解決方案。結(jié)構(gòu)上,F(xiàn)lume采用Source、Channel、Sink的設(shè)計(jì),由Source響應(yīng)所配置數(shù)據(jù)源的日志事件,并將信息發(fā)送至Channel中,根據(jù)配置,與Channel相連的Sink將處理該Channel中的日志信息。Flume與Hadoop可以方便地進(jìn)行整合,Sink原生支持將日志信息存儲(chǔ)入HDFS中,為數(shù)據(jù)清洗及分析做準(zhǔn)備。

        1.4 高校網(wǎng)絡(luò)日志分類

        根據(jù)高校校園網(wǎng)絡(luò)環(huán)境及分析需求,高校網(wǎng)絡(luò)日志類型可分為如下兩大類:

        (1)IT基礎(chǔ)設(shè)施日志。包括高校網(wǎng)絡(luò)中的軟硬件設(shè)備的運(yùn)行日志,如服務(wù)器硬件日志、服務(wù)器故障信息、網(wǎng)絡(luò)設(shè)備運(yùn)行狀態(tài)、Windows日志、Linux日志等。

        (2)用戶行為日志。包括用戶使用校園網(wǎng)過程中產(chǎn)生的日志信息,如網(wǎng)站訪問日志、校園網(wǎng)連接記錄、校園一卡通使用日志等。

        針對(duì)以上各種日志類型設(shè)計(jì)合理的日志采集與分析方案,并能整合各類日志,滿足日志快速增長(zhǎng)的需求,才能為后續(xù)日志綜合利用、精細(xì)化管理提供支撐。

        2 分析平臺(tái)架構(gòu)設(shè)計(jì)

        2.1 日志采集

        針對(duì)以上各類日志信息,日志采集模塊主要利用Flume進(jìn)行日志采集,F(xiàn)lume的Source模塊支持多種日志數(shù)據(jù)源。針對(duì)不同日志類型設(shè)計(jì)不同的采集方案。

        對(duì)于網(wǎng)站訪問日志,可直接在網(wǎng)站服務(wù)器操作系統(tǒng)中部署FlumeAgent進(jìn)行日志采集,可以采用Flume的Exec數(shù)據(jù)源,使用自定義命令指定網(wǎng)站服務(wù)的日志文件,以監(jiān)聽日志文件的變化,實(shí)時(shí)生成日志事件進(jìn)行Flume采集。

        對(duì)于操作系統(tǒng)日志及支持syslog的硬件設(shè)備,可以配置操作系統(tǒng)或硬件設(shè)備將日志以syslog格式發(fā)送至專用的FlumeAgent服務(wù),配置Flume的Source為Syslog模式即可。

        對(duì)于不支持syslog格式的設(shè)備,需要根據(jù)情況進(jìn)行日志格式采集與轉(zhuǎn)換,如對(duì)SNMP協(xié)議信息采集可將SNMP數(shù)據(jù)采集后轉(zhuǎn)換為需要的格式通過網(wǎng)絡(luò)發(fā)送給指定的FlumeAgent,實(shí)現(xiàn)數(shù)據(jù)采集。

        其他自定義設(shè)備和服務(wù),或需要采集特定業(yè)務(wù)的日志信息的服務(wù),可以采用開發(fā)自定義日志采集程序,對(duì)接FlumeAgent的模式,F(xiàn)lume支持Netcat數(shù)據(jù)源,可在指定端口上進(jìn)行數(shù)據(jù)監(jiān)聽,對(duì)收到的數(shù)據(jù)進(jìn)行日志采集。

        2.2 日志數(shù)據(jù)清洗

        利用Flume采集的網(wǎng)絡(luò)日志信息將存儲(chǔ)在HDFS中,但日志文件數(shù)據(jù)源眾多,數(shù)據(jù)格式多樣,需要對(duì)日志數(shù)據(jù)按照日志類型進(jìn)行分類整理并清理其中的錯(cuò)誤日志。

        對(duì)網(wǎng)站訪問日志,首先對(duì)日志數(shù)據(jù)進(jìn)行建模,對(duì)需要的字段還需從原始日志中計(jì)算生成。然后清理日志數(shù)據(jù)的錯(cuò)誤信息。網(wǎng)站訪問日志模型的主要字段包括日志類型、源IP地址、請(qǐng)求日期、請(qǐng)求時(shí)間、返回類型、返回長(zhǎng)度、訪問的頁面。數(shù)據(jù)清洗環(huán)節(jié)主要使用MapReduce技術(shù),設(shè)計(jì)程序主要在Map階段對(duì)采集的日志進(jìn)行篩選和過濾,首先篩選出網(wǎng)站訪問日志,然后主要對(duì)日志的返回類型字段進(jìn)行過濾,只有返回類型是200的日志被記錄,其他異常類型被清洗掉。

        對(duì)操作系統(tǒng)及硬件設(shè)備日志,其日志模型的主要字段包括日志類型、設(shè)備IP地址、事件日期、事件時(shí)間、事件級(jí)別、事件來源、詳細(xì)信息。數(shù)據(jù)清洗環(huán)節(jié)主要對(duì)數(shù)據(jù)中關(guān)鍵字段內(nèi)容不全的信息進(jìn)行過濾,保證日志數(shù)據(jù)的完整性。

        2.3 日志存儲(chǔ)分析

        日志存儲(chǔ)分析主要利用Hive數(shù)據(jù)庫(kù)進(jìn)行日志管理,同時(shí)保留HDFS日志文件,以同時(shí)支持SQL數(shù)據(jù)分析和MapReduce自定義程序的多種分析方法。Hive數(shù)據(jù)庫(kù)數(shù)據(jù)存儲(chǔ)建立在HDFS存儲(chǔ)之上。通過Hive根據(jù)日志數(shù)據(jù)建模的結(jié)果進(jìn)行數(shù)據(jù)表創(chuàng)建,將不同類別的日志數(shù)據(jù)存儲(chǔ)到對(duì)應(yīng)的數(shù)據(jù)表中。在將日志導(dǎo)入到Hive數(shù)據(jù)庫(kù)的過程中需要程序讀取Flume傳輸?shù)紿DFS上的日志文件,對(duì)數(shù)據(jù)清洗后的日志文件進(jìn)行格式解析,判斷日志類型并存儲(chǔ)到相應(yīng)的數(shù)據(jù)表中。

        2.4 分析展示

        在網(wǎng)絡(luò)日志分析系統(tǒng)中最直觀的用戶呈現(xiàn)方式便是可視化展示,由于日志分析的展示需求在展示時(shí)間、展示形式等方面多種多樣,本文網(wǎng)絡(luò)日志分析平臺(tái)針對(duì)便捷使用和定制開發(fā)的不同需求,采用Tableau商業(yè)化數(shù)據(jù)可視化方案和Echarts可視化庫(kù)的方案。通過部署TableauServer服務(wù),對(duì)日常日志監(jiān)控和統(tǒng)計(jì)分析可以方便地進(jìn)行可視化配置,快速發(fā)布日志的分析內(nèi)容。針對(duì)需要定制化分析,采用業(yè)務(wù)程序開發(fā)加Echarts可視化庫(kù)的方式,對(duì)業(yè)務(wù)程序分析的結(jié)果定制Echarts展示圖表,靈活適用不用網(wǎng)絡(luò)日志的分析需求。

        3 分析平臺(tái)實(shí)現(xiàn)與應(yīng)用場(chǎng)景

        對(duì)本文設(shè)計(jì)的網(wǎng)絡(luò)日志分析平臺(tái)進(jìn)行部署實(shí)現(xiàn),在校園網(wǎng)數(shù)據(jù)中心內(nèi)采用兩臺(tái)服務(wù)器部署Hadoop平臺(tái),配置采用4核CPU,32G內(nèi)存,500G存儲(chǔ),兩臺(tái)設(shè)備均作為DataNode,其中一臺(tái)配置為Name Node。在數(shù)據(jù)采集上,使用Flume1.7版部署于校園網(wǎng)三臺(tái)網(wǎng)站服務(wù)器上,采集的網(wǎng)站訪問日志包括Apache和Tomcat服務(wù)的網(wǎng)絡(luò)訪問日志,同時(shí)采集服務(wù)器的操作系統(tǒng)日志。Flume將不同類型的日志文件存儲(chǔ)于HDFS不同的目錄下,為下一步日志清洗和Hive存儲(chǔ)提供便利。

        數(shù)據(jù)可視化方面,通過在服務(wù)器上部署TableauServer服務(wù),配置數(shù)據(jù)源及相關(guān)數(shù)據(jù)表信息,方便地實(shí)現(xiàn)大量日志數(shù)據(jù)的日常匯總和分析展示。

        網(wǎng)絡(luò)日志分析平臺(tái)支撐的數(shù)據(jù)分析能力和應(yīng)用場(chǎng)景較多,在高校校園網(wǎng)管理中,典型的應(yīng)用場(chǎng)景包括故障監(jiān)測(cè)、網(wǎng)絡(luò)流量趨勢(shì)及用戶行為分析等方面。網(wǎng)絡(luò)流量趨勢(shì)分析主要針對(duì)校園網(wǎng)大量二級(jí)網(wǎng)站的訪問情況,通過統(tǒng)計(jì)分析,對(duì)不同時(shí)間尺度的網(wǎng)絡(luò)流量趨勢(shì)進(jìn)行展現(xiàn),結(jié)合流量分布、時(shí)間分布等不同角度的統(tǒng)計(jì)分析,對(duì)網(wǎng)絡(luò)管理人員提供網(wǎng)絡(luò)優(yōu)化指導(dǎo)。用戶行為分析綜合用戶使用校園網(wǎng)的各種日志數(shù)據(jù),包括整合多網(wǎng)站訪問日志,網(wǎng)絡(luò)認(rèn)證日志等內(nèi)容,對(duì)用戶網(wǎng)絡(luò)訪問路徑計(jì)算分析,利用用戶行為分析算法對(duì)用戶偏好等信息進(jìn)行展示,為提升用戶體驗(yàn)及產(chǎn)品優(yōu)化提供指導(dǎo)。

        4 總結(jié)

        本文在在高校信息化建設(shè)不斷發(fā)展及數(shù)據(jù)應(yīng)用越來越受到重視的背景下,利用當(dāng)前流行的Hadoop等大數(shù)據(jù)分析工具,對(duì)高校網(wǎng)絡(luò)中主要的日志進(jìn)行分類并提出了相應(yīng)的日志采集存儲(chǔ)分析方案,可為日志分析甚至未來業(yè)務(wù)數(shù)據(jù)分析展示提供基礎(chǔ),實(shí)際部署實(shí)施表明該平臺(tái)可提升高校網(wǎng)絡(luò)日志利用效率。下一步的工作主要包括進(jìn)一步細(xì)化網(wǎng)絡(luò)日志分析的服務(wù)內(nèi)容,尤其是高校網(wǎng)絡(luò)環(huán)境中的用戶行為分析進(jìn)行業(yè)務(wù)開發(fā),增強(qiáng)用戶體驗(yàn)和學(xué)生服務(wù)等方面的信息化服務(wù)水平。

        [1]于兆良,張文濤,葛慧,等.基于Hadoop平臺(tái)的日志分析模型[J].計(jì)算機(jī)工程與設(shè)計(jì),2016,37(2):338-344

        [2]張春生,郭長(zhǎng)杰,尹兆濤.基于大數(shù)據(jù)技術(shù)的IT基礎(chǔ)設(shè)施日志分析系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J].微型電腦應(yīng)用,2016,32(6):49-52

        [3]宋夢(mèng)馨,繆紅萍,王溯,等.基于Hadoop平臺(tái)的網(wǎng)站日志分析[J].信息系統(tǒng)工程,2015(12):35-36

        猜你喜歡
        數(shù)據(jù)源校園網(wǎng)日志
        一名老黨員的工作日志
        數(shù)字化校園網(wǎng)建設(shè)及運(yùn)行的幾點(diǎn)思考
        甘肅教育(2020年18期)2020-10-28 09:05:54
        扶貧日志
        心聲歌刊(2020年4期)2020-09-07 06:37:14
        試論最大匹配算法在校園網(wǎng)信息提取中的應(yīng)用
        電子制作(2019年10期)2019-06-17 11:45:26
        Web 大數(shù)據(jù)系統(tǒng)數(shù)據(jù)源選擇*
        游學(xué)日志
        NAT技術(shù)在校園網(wǎng)中的應(yīng)用
        電子制作(2017年8期)2017-06-05 09:36:15
        基于不同網(wǎng)絡(luò)數(shù)據(jù)源的期刊評(píng)價(jià)研究
        基于真值發(fā)現(xiàn)的沖突數(shù)據(jù)源質(zhì)量評(píng)價(jià)算法
        VPN在校園網(wǎng)中的集成應(yīng)用
        久久久国产精品ⅤA麻豆| 青青草成人原视频在线播放视频| 国产亚洲精品综合一区二区| 成人性生交大片免费看l| 国产高清成人午夜视频| 国产精品无码一区二区三区在| 女局长白白嫩嫩大屁股| 欧美亚洲精品一区二区| 久久精品中文字幕极品| 丝袜人妻无码中文字幕综合网 | 亚洲日本精品国产一区二区三区| √新版天堂资源在线资源| 中文人妻av久久人妻18| 亚洲区在线| 无码AV午夜福利一区| av免费在线观看网站大全| 懂色av一区二区三区尤物 | 久久丫精品国产亚洲av不卡 | 长腿丝袜在线观看国产| 亚洲av丰满熟妇在线播放| 97在线观看播放| 国产乱视频| 亚洲视一区二区三区四区| 久久成人国产精品一区二区| 国产色在线 | 亚洲| 久久精品国产自清天天线| 国产精品亚洲片夜色在线| 亚洲国产精品色婷婷久久| 精品女厕偷拍视频一区二区 | 日本韩国一区二区高清| 伊人久久这里只有精品| 国产suv精品一区二区883| 99久久精品无码专区无| 91九色极品探花内射| 日本真人做人试看60分钟| 日日人人爽人人爽人人片av| 国产精品国产三级国产在线观 | 久久婷婷色香五月综合缴缴情 | 亚洲日韩成人无码| 一本大道久久香蕉成人网| 99热这里只有精品国产66|