亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于大數(shù)據(jù)技術的日志分析體系結構的研究

        2018-05-07 03:27:26張建東
        現(xiàn)代計算機 2018年9期
        關鍵詞:流式離線海量

        張建東

        (樂山師范學院計算機科學學院,樂山 614000)

        0 引言

        隨著網(wǎng)絡應用的爆發(fā)式增長,以及用戶使用量的增加,網(wǎng)絡流量增長越來越快,這也導致日志數(shù)據(jù)的爆炸式增長,如何更好地分析日志數(shù)據(jù),并從中找出用戶的行為模式,以及發(fā)現(xiàn)用戶的異常模式以便更好地為用戶服務,同時找出網(wǎng)絡異常方便管理員對網(wǎng)絡進行維護升級和發(fā)現(xiàn)安全隱患,成了一個亟待解決的問題。大數(shù)據(jù)指的是無法在規(guī)定時間內用現(xiàn)有的常規(guī)軟件工具進行收集、存儲和處理的數(shù)據(jù)集合,通常指10TB以上規(guī)模數(shù)據(jù)。大數(shù)據(jù)技術是能突破常規(guī)軟件限制,對大數(shù)據(jù)進行收集、存儲和處理技術的統(tǒng)稱。大數(shù)據(jù)的主要特征有:數(shù)據(jù)體量巨大,數(shù)據(jù)類型繁多,價值密度低,處理速度快。從以上分析可以看到目前的網(wǎng)絡日志數(shù)據(jù)滿足大數(shù)據(jù)的特征。

        當日志數(shù)據(jù)量比較小的時候,主要是采用單機進行數(shù)據(jù)分析,隨著數(shù)據(jù)的增長,單機分析日益不能滿足要求。目前常用的日志分析方法有ELK日志分析平臺,ELK 是由 ElasticSearch、Logstash、Kibana組成的開源日志處理平臺解決方案。ELK能實現(xiàn)日志收集,存儲,統(tǒng)計分析并使用Web頁面顯示等功能,可以起到實時系統(tǒng)監(jiān)測、網(wǎng)絡安全事件管理等功能[1]。但是ELK提供的分析技術相對較簡單,還需要設計輔助程序來滿足特定系統(tǒng)和環(huán)境的分析要求。Chukwa是Hadoop項目中開源的分布式系統(tǒng)數(shù)據(jù)收集和分析工具,包含了包括數(shù)據(jù)收集、重組、分析和展示的完整流程,但是Chukwa不能應用于所有的數(shù)據(jù)分析場景。傳統(tǒng)的日志分析技術不能滿足具有大數(shù)據(jù)特征的海量網(wǎng)絡日志數(shù)據(jù)的處理[2],將大數(shù)據(jù)分析技術用于日志分析是目前研究的熱點。

        1 大數(shù)據(jù)分析體系結構

        數(shù)據(jù)分析的步驟:

        (1)明確分析的目的和分析思路。

        (2)收集數(shù)據(jù),根據(jù)分析的目的來收集不同數(shù)據(jù)源的數(shù)據(jù)。

        (3)存儲數(shù)據(jù),對海量數(shù)據(jù)可以使用Hadoop的HDFS存儲系統(tǒng)。

        (4)對數(shù)據(jù)進行處理,包括數(shù)據(jù)預處理、數(shù)據(jù)清洗,數(shù)據(jù)轉換等。

        (5)數(shù)據(jù)計算。分析邏輯的實現(xiàn),常用的計算技術MapReduce、Spark、Storm 等。

        (6)展示結果,包括Web展示,撰寫報告等。

        圖1為數(shù)據(jù)分析的主要步驟。

        數(shù)據(jù)分析的主要內容包括三個方面:

        (1)現(xiàn)狀:過去發(fā)生了什么,通過歷史數(shù)據(jù)的統(tǒng)計可以實現(xiàn)。

        (2)原因:某一現(xiàn)象為什么發(fā)生,這部分要結合具體的業(yè)務來分析。

        (3)預測:預測將來會發(fā)生什么。

        圖1 數(shù)據(jù)分析的主要步驟

        當數(shù)據(jù)海量增長的時候,單機處理能力已經(jīng)不能滿足需求,就需要用集群技術來解決。在Hadoop出現(xiàn)之前,海量數(shù)據(jù)存儲和分析都非常困難。只有少數(shù)公司掌握著高效的分布式計算、分布式存儲的核心技術[3]。Hadoop是一個提供可伸縮、可信賴的分布式計算的開源項目,支持Google的MapReduce編程模型,能夠將作業(yè)分割成許多小的任務,并將這些任務放到任何集群節(jié)點上執(zhí)行,用戶可以在不了解分布式系統(tǒng)底層細節(jié)的情況下,開發(fā)分布式應用程序,實現(xiàn)大規(guī)模分布式并行計算、存儲和管理海量數(shù)據(jù)。Hadoop的核心是分布式文件系統(tǒng)HDFS(Hadoop Distributed File System)、MapReduce計算框架和分布式資源調度框架YARN。HDFS對海量數(shù)據(jù)提供高可靠性、高容錯性、高可擴展性、高吞吐的存儲方案。MapReduce是一種用來處理海量數(shù)據(jù)的并行編程模型和計算框架,用于對大規(guī)模數(shù)據(jù)集進行并行計算。

        數(shù)據(jù)分析分為實時數(shù)據(jù)分析和離線數(shù)據(jù)分析,實時數(shù)據(jù)分析在金融,電子商務等領域的使用較多,往往要求在數(shù)秒內返回上億行數(shù)據(jù)的分析結果,從而達到不影響用戶體驗的目的。對時間沒有那么敏感的數(shù)據(jù)分析任務,如數(shù)據(jù)挖掘、搜索引擎索引計算、推薦系統(tǒng)、機器學習等場景,往往需要對海量數(shù)據(jù)做復雜的多維度的計算,這些計算所需要的時間較長,常常是幾小時甚至幾天,對這種類型的數(shù)據(jù)分析任務,可以采用離線數(shù)據(jù)分析的方式[4]。

        日志分析采用最多的處理技術是離線數(shù)據(jù)處理方式。圖2是離線大數(shù)據(jù)技術分析步驟。

        圖2 離線大數(shù)據(jù)技術分析步驟

        有部分應用需要實時分析產生的數(shù)據(jù),可以采用流式大數(shù)據(jù)分析技術,圖3是流式大數(shù)據(jù)技術分析步驟。Flume用來獲取數(shù)據(jù);Kafka用來臨時保存數(shù)據(jù);Strom用來計算數(shù)據(jù);Redis是個內存數(shù)據(jù)庫,用來保存數(shù)據(jù)。

        圖3 流式大數(shù)據(jù)技術分析步驟

        2 大數(shù)據(jù)技術在日志分析中的應用

        2.1 日志分析的體系結構

        日志就是按照一定的規(guī)則將操作系統(tǒng)、應用程序、網(wǎng)絡設備中發(fā)生的事件記錄下來,日志已成為系統(tǒng)管理中不可或缺的工具。日志的主要應用主要表現(xiàn)在一下幾方面:對用戶行為進行審計,監(jiān)控惡意行為,對入侵行為的檢測,系統(tǒng)資源的監(jiān)控,幫助恢復系統(tǒng),評估造成的損失,計算機犯罪的取證,生成調查報告等。

        由于日志不僅數(shù)據(jù)海量,格式和存儲方式不統(tǒng)一,而且不同類型的日志間相互聯(lián)系,使得對日志的分析變得更加困難。如果網(wǎng)絡管理員能了解日志的含義,知道如何分析和使用日志,那么日志用于網(wǎng)絡安全管理和決策支持的價值將無法估量。

        根據(jù)不同的應用場景,日志的分析可以分為離線分析和實時分析,圖4給出了日志分析的體系結構。體系結構主要包括三個部分:日志的收集和預處理;日志數(shù)據(jù)的存儲;日志的分析、展示和使用[5]。

        2.2 基于大數(shù)據(jù)技術的日志分析方法

        (1)離線分析日志文件:

        為了對日志進行深度的數(shù)據(jù)分析和挖掘,以及對一些后臺操作記錄進行追溯,需要對海量的日志信息進行持久化存儲,Apache的Hadoop項目提供了解決方案,并在數(shù)據(jù)持久化存儲和分析中得到了廣泛的應用。對不需要進行實時分析的海量數(shù)據(jù),可以將其保存在分布式文件系統(tǒng)HDFS上,然后通過MapReduce或者Hive SQL進行數(shù)據(jù)分析和挖掘,對需要進行實時展示的內容,則可以將其保存在HBase上,HBase是高可靠、高性能、可伸縮的列式存儲系統(tǒng),支持數(shù)據(jù)表的自動分區(qū),避免了傳統(tǒng)關系型數(shù)據(jù)庫單表容量的局限性,能支持海量數(shù)據(jù)的存儲。離線日志分析的特征是:批量獲取數(shù)據(jù)、批量傳輸數(shù)據(jù)、周期性批量計算數(shù)據(jù)、數(shù)據(jù)展示。

        圖4 日志分析體系結構

        常用的日志分析方法有關聯(lián)分析、序列分析、聚類分析[6]。

        關聯(lián)分析又稱關聯(lián)挖掘,用于發(fā)現(xiàn)存在于數(shù)據(jù)集中的頻繁模式、關聯(lián)、相關性或因果結構,從而描述一個事物中某些屬性同時出現(xiàn)的規(guī)律和模式。計算機系統(tǒng)多種日志之間存在著隱蔽的關聯(lián),通過關聯(lián)分析可以找出不同日志間關聯(lián)的事件,典型的應用是可以進行系統(tǒng)故障的溯源。常用的關聯(lián)分析算法有Apriori算法、LIG算法、FP算法等,其中Apriori算法最為經(jīng)典,眾多算法均給予該算法改進。文獻[7]中分析了使用Apriori算法挖掘用戶頻繁訪問頁面在Hadoop上的應用。

        序列分析:關聯(lián)分析是在忽略事物間在時間維度上的關系的前提下發(fā)現(xiàn)同一事物中的項之間存在的某種聯(lián)系。然而在日志分析中某一系統(tǒng)故障可能是另一系統(tǒng)故障的引發(fā)的,網(wǎng)絡入侵事件也具有相似的特征,因此事件發(fā)生的時間也非常重要。研究者經(jīng)常利用時間對日志進行關聯(lián)以完成日志的序列分析,來達到網(wǎng)絡攻擊的預測及防范、系統(tǒng)故障的溯源等。

        聚類分析是把數(shù)據(jù)劃分為有意義的組或簇,目標是同一組對象間的相似度最大,不同組中對象間的相似度最小。聚類分析是數(shù)據(jù)分析的一種重要技術,應用十分廣泛。聚類分析是數(shù)據(jù)分析的起點,對劃分成組的日志數(shù)據(jù)還要進一步結合具體的應用進行分析。

        要深度分析日志數(shù)據(jù),可以把文本日志轉換為離散的結構化的事件,然后進行日志依賴性挖掘,根據(jù)事件的依賴關系對系統(tǒng)故障進行溯源[8-9]。

        (2)實時日志分析技術

        流式數(shù)據(jù)的特征是數(shù)據(jù)會源源不斷地從各個地方匯集過來,來源眾多,格式復雜,且數(shù)據(jù)量巨大。對于流式數(shù)據(jù)的處理,有這樣的一種觀點,數(shù)據(jù)的價值隨著時間的流逝而降低,因此數(shù)據(jù)生成后要盡快處理,而不是等到數(shù)據(jù)累積后再定期地進行處理。這樣,對應的數(shù)據(jù)處理工具必須具備高性能、實時性、分布式和易用性等特征。對于流式數(shù)據(jù)的處理,更多關心的是數(shù)據(jù)的整體價值,而非數(shù)據(jù)的局部特征。在很多應用中需要分析實時日志數(shù)據(jù),比如實時分析線上應用的負載、網(wǎng)絡流量、磁盤I/O等系統(tǒng)信息,異常日志的檢測。

        流式計算的特征是:數(shù)據(jù)實時產生、數(shù)據(jù)實時傳輸、數(shù)據(jù)實時計算、實時展示。實時日志分析中需要多個大數(shù)據(jù)分析工具:Flume實時獲取數(shù)據(jù),Kafka實時數(shù)據(jù)存儲,Storm實時數(shù)據(jù)計算,Redis實時結果緩存,MySQL實現(xiàn)持久化存儲。將源源不斷產生的數(shù)據(jù)實時收集并實時計算,盡可能快的得到計算結果,用來支持實時決策。

        Flume作為數(shù)據(jù)傳輸工具獲取新增加的日志,并把新增的數(shù)據(jù)傳輸?shù)街付ǖ奈恢?。Storm是Twitter公司開源的分布式實時流處理框架,可以實現(xiàn)單節(jié)點百萬級的數(shù)據(jù)處理與運算。

        實時日志分析的過程是:使用Flume監(jiān)聽日志文件,并實時把每一條日志信息抓取下來存入Kafka消息系統(tǒng)中,再由Strom消費Kafka中的消息,接下來使用用戶定義的Storm Topology進行日志的分析并輸出到Redis緩存數(shù)據(jù)庫中,最后由應用程序讀取緩存數(shù)據(jù)庫的內容并顯示,也可以把結果持久化的存儲在MySQL中。在Flume和Storm中加一個Kafka消息系統(tǒng)是為了防止Flume和Storm的處理速度不匹配而丟失數(shù)據(jù)。

        (3)結果報表

        常見的結果報表有:1)進行各種數(shù)據(jù)統(tǒng)計,這是最典型的報表形式,方便管理人員了解網(wǎng)絡的使用情況。2)分析某一現(xiàn)象為什么發(fā)生,為了進一步找出原因,可能需要和領域專家進行溝通,設計進一步的數(shù)據(jù)分析方案。3)通過歷史數(shù)據(jù)的分析,可以使用分析報告給出未來的趨勢,提供給管理人員與決策者作為決策的參考。Highcharts是一個主流的JavaScript圖表庫,主要為Web站點提供直觀的、交互式的圖表體驗,支持線圖、條形圖、曲面圖、條形曲面圖、柱狀圖、餅圖、散布圖等圖表樣式。使用Highcharts可以生產直觀的報表。

        3 結語

        本文介紹數(shù)據(jù)分析和網(wǎng)絡日志分析的背景及常用分析技術。分析了大數(shù)據(jù)的特征,以及大數(shù)據(jù)分析的步驟及兩種典型的大數(shù)據(jù)分析模型。目前的日志數(shù)據(jù)滿足大數(shù)據(jù)的特征,以前的常規(guī)分析方法不再有效,根據(jù)使用場景構建了實時和離線的大數(shù)據(jù)日志分析體系結構。進一步的研究工作是要通過深入挖掘日志文件的隱含信息,并利用日志信息進行信息系統(tǒng)的故障溯源。

        參考文獻:

        [1]趙迦琪,張彩云,牛永紅.ELK日志分析平臺在系統(tǒng)運維中的應用[J].電子技術與軟件工程,2017(06):182-183.

        [2]馮興杰,王文超.Hadoop與Spark應用場景研究[J].計算機應用研究,2018(09):1-8.

        [3]彭敏佳林勇吳翀嚴盟.MapReduce技術在日志分析中的研究應用[J].計算機時代,2017(06):26-28.

        [4]陳康賢.大型分布式網(wǎng)站架構設計與實踐[M].北京:電子工業(yè)出版社,2014.

        [5]李濤.網(wǎng)絡安全中的數(shù)據(jù)挖掘技術[M].清華大學出版社,2017.

        [6]薛文娟.基于層次聚類的日志分析技術研究[D].山東師范大學,2013.

        [7]陳愛民,盛昀瑤.基于MapReduce的Web日志挖掘算法研究[J].現(xiàn)代計算機(專業(yè)版),2017(16):14-18.

        [8]Tang Liang,Li Tao.LogTree:A Framework for Generating System Events from Raw Textual Logs[C].Data Mining(ICDM),2010 IEEE 10th International Conference on,2010:491-500

        [9]Tang Liang,Li Tao,Perng Chang-Shing.LogSig:Generating System Events from Raw Textual Logs[C].Proceedings of the 20th ACM International Conference on Information and Knowledge Management,2011:785-794

        猜你喜歡
        流式離線海量
        一種傅里葉域海量數(shù)據(jù)高速譜聚類方法
        異步電機離線參數(shù)辨識方法
        防爆電機(2021年4期)2021-07-28 07:42:46
        呼吸閥離線檢驗工藝與評定探討
        淺談ATC離線基礎數(shù)據(jù)的準備
        輻流式二沉池的結構優(yōu)化研究
        工程與建設(2019年5期)2020-01-19 06:22:38
        海量快遞垃圾正在“圍城”——“綠色快遞”勢在必行
        當代陜西(2019年14期)2019-08-26 09:42:00
        離線富集-HPLC法同時測定氨咖黃敏膠囊中5種合成色素
        中成藥(2018年2期)2018-05-09 07:20:09
        微球測速聚類分析的流式液路穩(wěn)定性評估
        一個圖形所蘊含的“海量”巧題
        自調流式噴管型ICD的設計與數(shù)值驗證
        正在播放国产多p交换视频| 中文字幕一区二区三区综合网| 成年女人午夜特黄特色毛片免| 国产不卡在线播放一区二区三区| 风韵人妻丰满熟妇老熟| 亚洲av中文字字幕乱码软件| 成人一区二区三区国产| 在厨房拨开内裤进入毛片| 久久亚洲精品成人无码| 亚洲色欲色欲综合网站| 巨大欧美黑人xxxxbbbb| 妺妺窝人体色www聚色窝韩国| 中文字幕亚洲精品人妻| 极品精品视频在线观看| 国产精品美女久久久网av| 人人妻人人爽人人澡欧美一区| 亚洲学生妹高清av| 四虎精品免费永久在线| 91在线无码精品秘 入口九色十| 国产三级精品和三级男人| 成人无码av免费网站| 国产又爽又黄又刺激的视频| 国产熟女高潮视频| 国产一级三级三级在线视| 国产亚洲亚洲精品视频| 久久精品国产亚洲av一般男女| 亚洲综合天堂av网站在线观看| 无码国产午夜福利片在线观看| 欧美视频第一页| 色妞一区二区三区免费视频| 亚洲国产精品成人久久久| 亚洲第一se情网站| 亚洲 欧美 综合 另类 中字| 日本经典中文字幕人妻| 一区二区三区日本高清| 日本精品无码一区二区三区久久久| 久热这里只有精品99国产| 美女被射视频在线观看91| 久久精品国产自产对白一区| 亚洲av成人片色在线观看 | 伊人蕉久中文字幕无码专区|