亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于多元日志分析的智能安全感知研究

        2020-08-26 05:14:22吳麗瓊黃曉波肖建毅唐亮亮
        機電工程技術 2020年7期
        關鍵詞:日志基線差分

        吳麗瓊,黃曉波,唐 樂,肖建毅,唐亮亮

        (廣東電力信息科技有限公司,廣州 510000)

        0 引言

        隨著科技的發(fā)展與網(wǎng)絡的普及,社會中越來越多的工作能夠通過網(wǎng)絡應用實現(xiàn)。在這個過程中,網(wǎng)絡管理員和系統(tǒng)管理員需要重點關注的是如何避免網(wǎng)絡應用當中存在的安全漏洞被黑客所挖掘和利用,破壞網(wǎng)絡連接或影響應用運行。結合系統(tǒng)運維實際工作可知,運維人員可通過日志記錄系統(tǒng)和運行狀態(tài),定位和分析運行故障,審計和回溯操作記錄。日志文件數(shù)據(jù)具有豐富而有效的信息量,但同時也具有巨大的信息體量。

        在實際工作當中,日志類型豐富、存儲格式多樣、獲取方式復雜,為了對日志數(shù)據(jù)進行關聯(lián)分析以從大量繁雜的日志數(shù)據(jù)中提取有價值的信息,系統(tǒng)運維實現(xiàn)日志集中化管理、規(guī)范化清理和關鍵字搜索的需求日漸增長。同時,對于系統(tǒng)優(yōu)化來說,用戶增長分析、產(chǎn)品優(yōu)化體驗等也能夠從業(yè)務日志數(shù)據(jù)中獲取業(yè)務鏈關聯(lián)分析數(shù)據(jù)和用戶行為分析數(shù)據(jù),能夠有效地完善系統(tǒng)功能,提升用戶體驗。

        針對以上問題,本文提出一種基于大數(shù)據(jù)日志智能分析模型的日志審計分析平臺,從網(wǎng)絡安全和系統(tǒng)運維的需求出發(fā),提出基于多元日志分析的智能安全感知算法,擁有日志切割提取、可視化多維分析等核心功能,采用B/S 架構,通過JDBC及SSH采集提取網(wǎng)絡、中間件、數(shù)據(jù)庫、設備等機器的實時日志數(shù)據(jù),通過前端WEB界面進行分析與展示,實現(xiàn)統(tǒng)一管理、隱患分析、故障定位、安全預警等分析功能,收集多元日志數(shù)據(jù)并充分利用IT設備基礎結構日志和和安全日志進行數(shù)據(jù)分析和挖掘,給運維人員提供價值最大化的日志數(shù)據(jù)信息。

        1 系統(tǒng)框架設計

        1.1 日志的自動化識別和提取

        針對操作系統(tǒng)和軟件的差異這一問題,日志審計分析平臺內置了識別算法,利用flume框架進行日志抽取的,該框架能夠根據(jù)相關特征對不同系統(tǒng)以及不同的軟件運行產(chǎn)生的日志文件進行智能識別,實現(xiàn)快速模版匹配,實現(xiàn)高效的字段切割提取。例如,自動識別庫功能,保障日志自動識別入庫,目前均已支持了常見的IT設備日志,具體如表1所示。

        1.2 數(shù)據(jù)的快速檢索

        ElasticSearch 算法是一種基于Lucene 的開源分布式算法,可以實現(xiàn)實時的數(shù)據(jù)搜索與分析,基于ElasticSearch算法開發(fā)除了支持全文檢索,還可以使用字段、數(shù)值范圍檢索,指定時間范圍查詢的大數(shù)據(jù)檢索,使2億條數(shù)據(jù)可以達到秒級響應。

        日志審計分析平臺為數(shù)據(jù)的快速檢索設計了強大的搜索函數(shù),可以支持復雜的統(tǒng)計語句及強大的管理搜索功能,利用文本高效的讀寫性能和大數(shù)據(jù)的分布式架構,實現(xiàn)對數(shù)十億的數(shù)據(jù)、任意關鍵字的秒級搜索。支持在搜索結果界面直接展示分布圖,對結果進行圖形化的下鉆展示和取樣等操作。針對文本分析設計的函數(shù)搜索分析語言,支持相關邏輯表達式的關聯(lián)運算,同時也支持聚合函數(shù)的運算(如count和sum)、字符串、數(shù)字、時間操作函數(shù)。提供業(yè)界強大的分析統(tǒng)計功能,同時系統(tǒng)還支持自定義的換行規(guī)則,包括自動,正則表達式、原始換行幾種方式,支持大小寫區(qū)分和不區(qū)分的短語搜索、多詞搜索以及實時模式等功能,滿足日志管理搜索查詢的所有需求??梢暬缑嫒鐖D1所示。日志審計分析平臺為了方便不同用戶的搜索需求,開發(fā)了支持多種應用模式的信息檢索功能。

        表1 支持設備列表

        圖1 搜索函數(shù)

        1.3 可視化字段切割提取

        日志審計分析平臺可以根據(jù)特殊字符對存儲的日志進行可視化切割,特殊字符包括空格、豎線或用戶根據(jù)自己的需要自定義的字符等進行自動切割,也可以通過劃詞的方式自動生成正則表達式的方式對日志進行切割提取。此外,對于xml、json、API 接口等日志數(shù)據(jù)也可以實現(xiàn)自動快速的切割接入。日志審計分析平臺采用的是自主研發(fā)的切割算法,支持隨時自定義和二次切割,能夠充分根據(jù)客戶要求進行定制,實現(xiàn)特定需求。

        1.4 其他功能

        日志審計分析平臺支持多維度日志分析,支持可視化拖拽組合報表生成。同時,平臺支持對數(shù)據(jù)按多種不同維度進行切片,便于用戶按需對數(shù)據(jù)進行抽取和分析處理。

        系統(tǒng)支持通過字段進行配置報表功能,支持多種圖形選擇,并且可以對報表進行修改、分享給其他用戶使用,可以將報表放置到儀表盤上進行大屏展示,通過執(zhí)行計劃可以定期將報表內容通過郵件的方式發(fā)送給用戶。如圖2所示。

        支持對多個日志數(shù)據(jù)進行關聯(lián)分析,通過配置關聯(lián)字段進行展示分析,系統(tǒng)內置對日志按照時間軸的方式進行分析。除了針對日志的關鍵字進行搜索和分析外,用戶還可以通過調用函數(shù)搜索語句中的函數(shù)實現(xiàn)各種靈活的邏輯判斷和數(shù)據(jù)統(tǒng)計,為用戶帶來可以自定義的告警能力,滿足企業(yè)級用戶對各種特定場景的不同需求。除了最基礎的閾值和關鍵字告警以外,還分別支持針對事件數(shù)、字段數(shù)、連續(xù)統(tǒng)計和基線對比等高級告警功能。

        圖2 報表

        2 系統(tǒng)算法

        2.1 閾值告警與基線告警

        日志審計分析平臺使用基線預測相關算法,涉及ARIMA模型,下面將展開闡述。一個完整的基線告警由基線計算,容忍線計算和產(chǎn)生警告的方法三部分組成。其中,基線的計算是整個流程的基礎,基線計算的流程如圖3所示。

        圖3 基線計算流程圖

        基線,即數(shù)據(jù)變化的基準線,用來描述某個數(shù)據(jù)的正常的變化范圍和波動空間,如圖4 所示?;€告警也稱基線范圍,用來設置判定異常的界限,同時它是以基線為基礎,上下浮動所指定的值[1]。關于浮動值的設定,可選擇百分比和絕對值。

        基線的設置是以設備運行的過程中所產(chǎn)生的數(shù)據(jù)為標準,這個標準理論上是不會發(fā)生變化的,除非根據(jù)實際需求進行人為更改。但是基線也并非是一成不變的,比如某網(wǎng)站的訪問量可能在其搞活動期間會大幅度上升,CPU 和內存的利用率必然會有所提升,如果利用同樣的基線作為告警的標準,則可能會出現(xiàn)誤判,引起不必要的人力和資源的消耗。所以根據(jù)實際情況,將告警的基線進行改進[3],改進后的基線如圖5、6所示。

        圖4 某個數(shù)據(jù)正常的變化范圍和波動空間

        圖5 基于告警線的改進圖

        圖6 動態(tài)基線改進圖

        首先利用用戶系統(tǒng)所產(chǎn)生的日志文件對要計算的樣本進行數(shù)據(jù)采集,然后將采集到的數(shù)據(jù)進行降噪處理,除去多余的噪音,提高數(shù)據(jù)的純度。根據(jù)數(shù)據(jù)的分布情況進行線性回歸分析,最終得到的那條回歸曲線即為基線[2]。

        動態(tài)基線告警的實現(xiàn)為服務器、中間件及數(shù)據(jù)庫的CPU、內存利用率提供了一種專門且高效的管理方法,提高了各類軟件相互通信的支撐系統(tǒng)的可靠性,動態(tài)基線告警系統(tǒng)將傳統(tǒng)1天2次的人工巡檢升級為系統(tǒng)7天24 h全天候智能監(jiān)控,故障監(jiān)控平均發(fā)現(xiàn)時間由之前的1.5 h 縮短為1 min 以內,這樣不僅增強了系統(tǒng)的可用性,也提高了運維人員的工作效率。

        2.2 ARIMA模型

        2.2.1 ARIMA模型簡介

        ARIMA 模型全稱為自回歸積分滑動平均模型(Autoregressive Integrated Moving Average Model,簡記 ARIMA),AR是自回歸,p 為自回歸項;MA 為移動平均,q 為移動平均項數(shù),d 為時間序列成為平穩(wěn)時所做的差分次數(shù)[4]。ARIMA模型在預測過程中不僅考慮了某一現(xiàn)象在時間序列上的依存性,又考慮了隨機波動的干擾性,對于某一現(xiàn)象運行短期趨勢的預測準確率較高,是應用廣泛的時間序列預測方法之一[5-6]。

        下面簡單介紹一下ARIMA模型中涉及到的幾個概念。

        (1)平穩(wěn)隨機過程

        若一個隨機過程m 階以下的矩的取值全部與時間無關,則稱該過程為m 階平穩(wěn)過程。通常使用一階平穩(wěn)過程,即隨機過程xt的均值mt不隨時間變化。

        (2)自回歸過程

        式中:φi為自回歸參數(shù),ut為白噪聲過程。

        則稱xt為p階自回歸過程,用AR(p)表示。

        (3)移動平均過程

        式中:θi為自回歸參數(shù),ut為白噪聲過程。

        則稱式(2)為q階移動平均過程,記為MA(q)。之所以成為移動平均,是因為xt是由q+1 個ut及其滯后項加權構成的。

        (4)自回歸移動平均過程

        如果一個剔除均值和確定成分的線性隨機過程由自回歸和移動平均兩部分共同構成,則稱其為自回歸移動平均過程,記為ARMA(p,q),表示如下:

        (5)差分

        時間序列變量的本期值與其滯后值相減的運算稱為差分:

        其中Δ 稱為一階差分算子。

        二次一階差分表示為:

        2.2.2 數(shù)據(jù)的平穩(wěn)性處理和白噪聲檢驗

        ARIMA 模型在建立時通常會先用ADF(Augmented Dickey-Fuller)單位根檢驗來判斷數(shù)據(jù)的平穩(wěn)性。對于非平穩(wěn)性的時間序列,可以采取取對數(shù)處理或者進行差分處理,然后再對修正后的數(shù)據(jù)進行平穩(wěn)性的判斷。也可以采取差分的形式,而差分的次數(shù)就是ARIMA(p,d,q)模型中的階數(shù)d。差分的過程中的階數(shù)的選擇要適當,一般情況下差分的次數(shù)不會超過2次。處理完成的數(shù)據(jù)由原來的ARIMA(p,d,q)模型就轉化為ARIMA(p,q)模型[7]。若采集到的數(shù)據(jù)為時間序列之間彼此無關聯(lián)的平穩(wěn)時間序列,應采取不同的方法。此時序列為純隨機序列,又被稱為白噪聲序列,它具有兩個非常重要的性質:(1)純隨機性;(2)方差齊性。純隨機性是判斷信息是否被提取完整的重要依據(jù),方差齊性則是指數(shù)據(jù)序列當中所有的變量方差相等。只有當方差齊性成立的時候,用最小二乘法得到的未知參數(shù)估計值才會準確有效,否則無法準確的估計參數(shù)值。純隨機性通常采用構造檢驗統(tǒng)計量,一般為Q 統(tǒng)計量。異方差的檢驗方法采用懷特檢驗法[8]。

        2.2.3 參數(shù)分析

        分析確定ARIMA 模型參數(shù)p、d、q 的方法有兩種:(1)方法一是通過分析人員對時間序列的充分了解,根據(jù)日志記錄數(shù)據(jù)所呈現(xiàn)出的趨勢確定差分次數(shù)d,使ARIMA 模型中的時間序列平穩(wěn)化,然后再使用自回歸函數(shù)圖來確定滑動過程中平均的階數(shù)q,用偏自回歸函數(shù)圖來確定自回歸過程的階數(shù)p;(2)方法二直接使用擬合得到的信息準則法確定階數(shù),這里的信息準側有赤池信息準則(AIC,Akaike Information Criterion)和貝葉斯信息準則(BIC,Bayesian Information Criterion),它們的分析原理都是擬合殘差最小的階數(shù)p 和q 就是最合適的。

        方法一確定模型參數(shù)p、d、q的方法要求分析者對時間序列的數(shù)據(jù)背景,以及對ARIMA模型原理都非常熟悉,才能夠確定出合適的參數(shù)結果;方法二則可以借助SPSS等統(tǒng)計分析工具快速嘗試各種p、d、q 的數(shù)值組合,然后比較AIC 或BIC兩種信息準則,確定最終的ARIMA模型參數(shù)[8]。

        對比兩種方法,方法一需要操作人員對數(shù)據(jù)和ARIMA模型原理有十分深入的了解,因此結果一般都更為精準,但是時間成本相對較大,時間成本也相對較高;方法二則通過借助計算機軟件輔助,快速得到結果,但是可能會遺漏一些重要信息,造成與真實結果的些許偏差。當然最好是在分析的過程將兩種方法結合使用,先用計算機快速獲得結果,再對該結果進行改進確認,以實現(xiàn)參數(shù)的最優(yōu)解[8]。

        3 結束語

        日志審計分析平臺使用基于多元日志分析的智能安全感知算法,并結合經(jīng)典的ARIMA模型使平臺能夠對多種系統(tǒng)產(chǎn)生的多元日志從精準的分段切割,數(shù)據(jù)的檢索分析到對未來的數(shù)據(jù)進行預測估計,可以以圖表的形式形象地將結果呈現(xiàn)在用戶面前,避免了原來純文字或數(shù)據(jù)所帶來的抽象。目前平臺已經(jīng)實現(xiàn)智能化的運維分析,進一步將日志審計分析平臺繼續(xù)研發(fā)優(yōu)化,從智能和安全的角度出發(fā),完善系統(tǒng)功能,以求滿足廣大用戶多樣的需求,進一步提升智能化運維和保障運維安全性。

        猜你喜歡
        日志基線差分
        一名老黨員的工作日志
        華人時刊(2021年13期)2021-11-27 09:19:02
        數(shù)列與差分
        適用于MAUV的變基線定位系統(tǒng)
        高技術通訊(2021年3期)2021-06-09 06:57:46
        航天技術與甚長基線陣的結合探索
        科學(2020年5期)2020-11-26 08:19:14
        扶貧日志
        心聲歌刊(2020年4期)2020-09-07 06:37:14
        游學日志
        一種改進的干涉儀測向基線設計方法
        基于差分隱私的大數(shù)據(jù)隱私保護
        相對差分單項測距△DOR
        太空探索(2014年1期)2014-07-10 13:41:50
        技術狀態(tài)管理——對基線更改的控制
        航天器工程(2014年5期)2014-03-11 16:35:50
        青娱乐极品视觉盛宴国产视频 | 国产在线精品一区二区不卡| 在线观看一区二区女同| 中文亚洲第一av一区二区| 黑人老外3p爽粗大免费看视频| 亚洲一区免费视频看看| 精品一二三四区中文字幕| 精品少妇人妻av无码专区| 国产一级片毛片| 中文字幕久久熟女人妻av免费 | 丁香婷婷激情俺也去俺来也| 久久精品人妻一区二三区| 精品国产一区二区三区2021| 国产96在线 | 欧美| 911国产在线观看精品| 日本国产一区二区在线| 亚洲一区二区三区影院| 亚洲精品国偷拍自产在线观看蜜臀 | 91日本在线精品高清观看| 亚洲捆绑女优一区二区三区| 亚洲 欧美 国产 制服 动漫| 品色堂永远的免费论坛| 精品国产福利久久久| av免费网站不卡观看| 亚洲熟妇av一区二区三区| 丰满少妇高潮惨叫正在播放| 99国产精品无码专区| 中文字幕亚洲精品专区| 精品视频无码一区二区三区| 欧美日韩亚洲国内综合网| 国产丰满老熟女重口对白| 亚洲黄色在线看| av资源在线永久免费观看| 国产美女主播视频一二三区| 品色永久免费| 欧美高h视频| 李白姓白白又白类似的套路| av无码人妻中文字幕| 伊人亚洲综合网色AV另类| 亚洲精品不卡av在线免费| 亚洲成a人无码|