亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Hadoop的Linux系統(tǒng)日志分析平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)

        2018-12-28 20:41:40劉亮
        科學(xué)與財(cái)富 2018年30期

        摘要:本文以Hadoop大數(shù)據(jù)框架為基礎(chǔ),將Hadoop框架與關(guān)聯(lián)規(guī)則分析法相結(jié)合,對(duì)Linux系統(tǒng)的日志文件進(jìn)行挖掘與分析,對(duì)于提高Linux系統(tǒng)日志的存儲(chǔ)能力、分析效率具有重要意義。

        關(guān)鍵詞:Linux系統(tǒng);Hadoop平臺(tái);日志分析平臺(tái)

        一、引言

        Linux系統(tǒng)是當(dāng)前主流的操作系統(tǒng)之一,因其功能強(qiáng)大、性能穩(wěn)定而成為大型服務(wù)器、數(shù)據(jù)庫(kù)服務(wù)器的主要支撐性操作系統(tǒng)。Linux系統(tǒng)具有非常強(qiáng)大且靈活的日志功能,無(wú)論是用戶的操作還是系統(tǒng)內(nèi)核與程序所產(chǎn)生的各類信息,均能夠以日志的形式記錄下來(lái),為用戶查詢歷史操作以及管理員全面掌控Linux系統(tǒng)的運(yùn)行狀態(tài)提供重要依據(jù)[1]。Linux系統(tǒng)的日志隨著系統(tǒng)的長(zhǎng)時(shí)間運(yùn)行而不斷累積,其增長(zhǎng)速度非??欤鄯e的日志文件會(huì)占用大量的系統(tǒng)硬盤存儲(chǔ)空間,而Linux系統(tǒng)中的syslog只負(fù)責(zé)將操作記錄與日志信息接收并存儲(chǔ)在日志文件中,無(wú)法對(duì)日志文件進(jìn)行精細(xì)化管理與深度化應(yīng)用,一方面會(huì)導(dǎo)致日志文件中的記錄不斷新增會(huì)導(dǎo)致日志文件過(guò)大,日志文件的存儲(chǔ)、組織與管理存在難度;另一方面日志中記錄的累加給傳統(tǒng)數(shù)據(jù)挖掘分析方法帶來(lái)了大數(shù)據(jù)量的挑戰(zhàn),管理員或用戶在檢索、挖掘分析與應(yīng)用日志文件時(shí)存在越來(lái)越大的難度[2]。Hadoop是當(dāng)前應(yīng)對(duì)大數(shù)據(jù)存儲(chǔ)、管理與應(yīng)用的平臺(tái),其HDFS為大數(shù)據(jù)存儲(chǔ)提供方法支撐,MapReduce為大數(shù)據(jù)分析與挖掘提供平臺(tái)支撐,將Hadoop應(yīng)用到Linux系統(tǒng)日志文件管理與分析中,可以提高Linux系統(tǒng)日志的存儲(chǔ)能力與管理效率。

        二、基于Hadoop的Linux系統(tǒng)日志分析平臺(tái)需求分析

        Linux系統(tǒng)的日志文件中全面記錄了系統(tǒng)的運(yùn)行狀態(tài)、錯(cuò)誤信息等,對(duì)于挖掘與診斷Linux系統(tǒng)中存在的問題、解決系統(tǒng)存在的問題具有重要價(jià)值,為L(zhǎng)inux系統(tǒng)的故障診斷與信息挖掘提供“有據(jù)可查”的綜合性線索。利用Hadoop大數(shù)據(jù)平臺(tái)存儲(chǔ)與管理Linux系統(tǒng)的日志文件,可以有效存儲(chǔ)Linux系統(tǒng)海量的日志文件,快速挖掘分析Linux系統(tǒng)日志文件中的潛在規(guī)律,當(dāng)Linux系統(tǒng)遭到攻擊時(shí),可以借助系統(tǒng)日志文件以及Hadoop系統(tǒng)快速尋找到攻擊者留下的痕跡[3]。基于Hadoop的Linux日志分析平臺(tái)需要能夠?qū)?dǎo)入到Hadoop平臺(tái)的日志數(shù)據(jù)進(jìn)行清洗與過(guò)濾,對(duì)日志數(shù)據(jù)進(jìn)行關(guān)聯(lián)規(guī)則分析,并對(duì)日志數(shù)據(jù)挖掘與分析結(jié)果進(jìn)行數(shù)據(jù)展示。

        三、基于Hadoop的Linux系統(tǒng)日志分析平臺(tái)設(shè)計(jì)

        基于Hadoop的Linux系統(tǒng)日志分析平臺(tái)總體架構(gòu)包括如下:

        (1)基礎(chǔ)設(shè)施層

        基礎(chǔ)設(shè)施層為存儲(chǔ)各類Linux系統(tǒng)日志文件數(shù)據(jù)以及Hadoop大數(shù)據(jù)平臺(tái)運(yùn)行提供所依賴的基礎(chǔ)軟硬件環(huán)境與基礎(chǔ)硬件設(shè)備設(shè)施,包括存儲(chǔ)系統(tǒng)、網(wǎng)絡(luò)環(huán)境等。

        (2)數(shù)據(jù)資源層

        數(shù)據(jù)資源層為基于Hadoop的Linux系統(tǒng)日志分析平臺(tái)中的各類數(shù)據(jù),包括用戶日志、程序日志、內(nèi)核與系統(tǒng)日志等。數(shù)據(jù)資源層為基于Hadoop的Linux系統(tǒng)日志分析平臺(tái)提供豐富的數(shù)據(jù)支撐。

        (3)服務(wù)資源層

        服務(wù)資源層是基于Hadoop的Linux系統(tǒng)日志分析平臺(tái)的基礎(chǔ)服務(wù)支撐層,用于連接數(shù)據(jù)層與應(yīng)用層,包括資源服務(wù)總線、各類服務(wù)接口、接口構(gòu)建工具[4]?;贖adoop的Linux系統(tǒng)日志分析平臺(tái)的服務(wù)資源層基于數(shù)據(jù)資源層提供的數(shù)據(jù)支撐,向應(yīng)用層提供查詢檢索、統(tǒng)計(jì)分析等基礎(chǔ)服務(wù)。

        四、基于Hadoop的Linux系統(tǒng)日志分析平臺(tái)實(shí)現(xiàn)

        基于Hadoop的Linux系統(tǒng)日志分析平臺(tái)工作流程如圖1所示。

        基于Hadoop的Linux系統(tǒng)日志分析平臺(tái)中主要的兩個(gè)核心功能包括日志數(shù)據(jù)預(yù)處理功能與關(guān)聯(lián)規(guī)則挖掘分析功能,其具體實(shí)現(xiàn)如下:

        (1)日志數(shù)據(jù)預(yù)處理

        Linux系統(tǒng)的Syslog協(xié)議提供了一種傳輸方式,允許一臺(tái)主機(jī)通過(guò)IP 網(wǎng)絡(luò)發(fā)送事件給事件的接收者(Syslog服務(wù)器)。Syslog的消息內(nèi)容沒有一個(gè)統(tǒng)一的格式。Syslog協(xié)議是發(fā)送者與接收者之間的通信,不需要額外的協(xié)調(diào)機(jī)制。Syslog消息格式由三部分組成,如下是一個(gè)Syslog消息[5]:

        <30>Oct 9 22:33:20 hlfedoraauditd[1787]: The audit daemon is exiting.

        其中:

        “<30>”是PRI 部分;

        “Oct 9 22:33:20 hlfedora”是HEADER部分;

        “auditd[1787]: The audit daemon is exiting.”是MSG部分。

        由于各個(gè)日志記錄描述事件的格式不同,從日志記錄收集到的事件,經(jīng)過(guò)解析后,必須要采用統(tǒng)一的格式,以便于進(jìn)一步數(shù)據(jù)挖掘處理??梢圆捎脤?duì)日志分類編號(hào)的方法,對(duì)安全設(shè)備與其產(chǎn)生的日志統(tǒng)一進(jìn)行標(biāo)號(hào),每一中日志的分類號(hào)為Signature ID,該安全設(shè)備的日志編號(hào)為Normalized ID。從而日志進(jìn)行統(tǒng)一(Normalization)后的格式為:事件觸發(fā)時(shí)間(Frist time)、事件結(jié)束時(shí)間(Last time)、源地址(Source IP )、目的地址(Dest. IP)、源端口(Source Port)、目的端口(Dest. Port)、事件嚴(yán)重級(jí)別(Event Subtype)、唯一事件號(hào)(Signature ID),事件類別編號(hào)(Normalized ID)等等。使用對(duì)日志分類編號(hào)的統(tǒng)一化方法,可以簡(jiǎn)化日志分析,避免針對(duì)日志內(nèi)容分類的復(fù)雜性。

        (2)關(guān)聯(lián)規(guī)則分析

        關(guān)聯(lián)分析是在大規(guī)模數(shù)據(jù)集中尋找有趣關(guān)系的任務(wù)。這些關(guān)系可以有兩種形式:頻繁項(xiàng)集、關(guān)聯(lián)規(guī)則,頻繁項(xiàng)集(frequent item sets)是經(jīng)常出現(xiàn)在一塊的信息日志集合,關(guān)聯(lián)規(guī)則(association rules)暗示兩種日志之間可能存在很強(qiáng)的關(guān)系。關(guān)聯(lián)分析的目標(biāo)包括兩項(xiàng):發(fā)現(xiàn)頻繁項(xiàng)集和發(fā)現(xiàn)關(guān)聯(lián)規(guī)則。首先需要找到頻繁項(xiàng)集,然后才能獲得關(guān)聯(lián)規(guī)則(正如前文所講,計(jì)算關(guān)聯(lián)規(guī)則的可信度需要用到頻繁項(xiàng)集的支持度)。Apriori算法是發(fā)現(xiàn)頻繁項(xiàng)集的一種方法。Apriori算法的兩個(gè)輸入?yún)?shù)分別是最小支持度和數(shù)據(jù)集。

        五、結(jié)論

        日志文件對(duì)于診斷和解決系統(tǒng)中的問題很有幫助,因?yàn)樵贚inux系統(tǒng)中運(yùn)行的程序通常會(huì)把系統(tǒng)消息和錯(cuò)誤消息寫入相應(yīng)的日志文件,這樣系統(tǒng)一旦出現(xiàn)問題就會(huì)“有據(jù)可查”。此外,當(dāng)主機(jī)遭受攻擊時(shí),日志文件還可以幫助尋找攻擊者留下的痕跡,本文對(duì)基于Hadoop的Linux系統(tǒng)日志分析平臺(tái)的功能需求、總體框架設(shè)計(jì)以及主要功能的實(shí)現(xiàn)進(jìn)行詳細(xì)闡述,為基于Hadoop的Linux系統(tǒng)日志分析平臺(tái)設(shè)計(jì)與實(shí)現(xiàn)提供參考。

        參考文獻(xiàn):

        [1]王全民,王蕊,趙欽.Linux環(huán)境下的日志分析系統(tǒng)LASL[J].北京工業(yè)大學(xué)學(xué)報(bào),2005(04):420-422.

        作者簡(jiǎn)介;;劉亮,長(zhǎng)沙民政職業(yè)技術(shù)學(xué)院助教,研究生,碩士,研究方向:大數(shù)據(jù)技術(shù)與應(yīng)用。

        97无码人妻福利免费公开在线视频| 蜜桃臀av一区二区三区| 久久婷婷国产综合精品| 最近中文字幕视频完整版在线看| 欧美日韩色| 免费一区二区三区av| 日本免费在线不卡一区二区| 97久久超碰国产精品旧版| 国产天堂网站麻豆| 搡老女人老妇女老熟妇69| 校园春色日韩高清一区二区| 国产免费一区二区三区免费视频| 大胆欧美熟妇xxbbwwbw高潮了| 亚洲人成网站18男男| 国产高清一区二区三区三州| 又嫩又硬又黄又爽的视频| 荡女精品导航| 蜜桃视频一区二区三区在线| 色久悠悠婷婷综合在线| 韩日午夜在线资源一区二区| 欧美一级色图| 国产自产在线视频一区| 日本边添边摸边做边爱| 中国老妇女毛茸茸bbwbabes | 国产激情久久久久影院老熟女 | 日本久久精品视频免费| 蜜桃av抽搐高潮一区二区| 亚洲天堂第一区| 亚洲av男人免费久久| 日本欧美大码a在线观看| 国产午夜三级一区二区三| 久久国产香蕉一区精品天美| 一级黄色一区二区三区| 无码国产福利av私拍| 欧美人与禽交zozo| 精品蜜桃av免费观看| 曰韩无码无遮挡a级毛片| AV无码最在线播放| 男女搞黄在线观看视频| 中文字幕人妻丝袜成熟乱| 亚洲av无码一区二区三区网站|