亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于二次滑動窗口機制的日志異常檢測方法

        2022-03-18 07:45:04宋涵何俊江王運鵬
        網(wǎng)絡安全技術與應用 2022年3期
        關鍵詞:查準率日志特征提取

        ◆宋涵 何俊江 王運鵬

        基于二次滑動窗口機制的日志異常檢測方法

        ◆宋涵 何俊江 王運鵬

        (四川大學 網(wǎng)絡空間安全學院 四川 610065)

        針對日志異常檢測的傳統(tǒng)特征提取方法往往選取一定數(shù)量的日志進行特征提取,在程序并發(fā)和網(wǎng)絡時延波動較大等導致日志順序混亂的場景下,傳統(tǒng)方法效果不夠理想。本文提出一種基于二次滑動窗口機制的日志異常檢測方法,首先基于正則表達式和日志解析方法提取出日志時間戳和模板信息,再先后兩次采用滑動窗口方法獲取特征提取的序列對象。其中初次滑動窗口基于日志數(shù)量進行定長滑動,二次滑動窗口基于時間間隔進行變長滑動,以此優(yōu)化特征提取粒度,有效篩選出時空關聯(lián)性較強的日志集合。最后基于長短期記憶網(wǎng)絡LSTM搭建判別模型解決異常日志的多分類問題。本文在開源數(shù)據(jù)集AIT-Log上開展對比實驗,研究了兩種滑動窗口機制、滑動窗口尺寸以及判別模型等因素對檢測效果的影響。實驗表明,相對于傳統(tǒng)滑動窗口機制,所提方法有效提升了各模型檢測效果,其中LSTM的查準率和查全率均提升3%左右。研究窗口尺寸對比實驗結果可以發(fā)現(xiàn),檢測效果與滑動窗口尺寸成正相關,但當窗口大小到達一定臨界點時檢測效果將不再提升。在模型對比實驗中,LSTM各項指標均優(yōu)于傳統(tǒng)機器學習算法,并且在輸入數(shù)據(jù)維度增加時模型性能基本沒有損失,可以看出LSTM的時空特征提取能力和非線性擬合能力都優(yōu)于傳統(tǒng)機器學習模型。

        日志特征提取;日志異常檢測;滑動窗口機制;長短期記憶網(wǎng)絡

        1 引言

        現(xiàn)代計算機系統(tǒng)和應用程序在運行過程中往往產(chǎn)生大量日志文件,日志文件可以在入侵檢測、故障處理、電子取證等諸多方面提供幫助[1]。日志分析已經(jīng)在控制臺、網(wǎng)絡應用、存儲系統(tǒng)、并發(fā)系統(tǒng)以及一般系統(tǒng)等廣泛應用[2]。

        現(xiàn)有研究在提取日志數(shù)據(jù)的特征時,通常提取出日志的模板序列或文本向量作為特征,雖然利用了日志在日志文件中的序列特征,但忽略了程序并發(fā)和網(wǎng)絡時延導致的局部日志亂序問題,并且現(xiàn)有日志異常檢測模型通常將日志分為正常與異常兩種,無法滿足更精細的分類需求。

        針對上述日志異常檢測現(xiàn)存問題,本文基于日志事件序列和時間戳序列進行二次滑動窗口操作,優(yōu)化日志特征提取的粒度,并構建基于長短期記憶網(wǎng)絡LSTM算法的判別模型,實現(xiàn)了對多種日志異常類型的分類。本文主要工作如下:

        (1)分析歸納日志數(shù)據(jù)的特征,提出基于二次滑動窗口的特征提取方法。

        (2)構建了基于長短期記憶網(wǎng)絡LSTM算法的多分類判別模型,能夠判別日志文件中的多種異常類型。

        (3)研究了窗口值大小、特征提取方法以及判別模型等因素對分類效果的影響,并用大量實驗驗證了本文方法的有效性。

        2 相關研究

        Du等人[3]基于雙向長短時記憶循環(huán)神經(jīng)網(wǎng)絡Bi-LSTM(Bi-directional Long Short-Term Memory)構建根據(jù)任務分類的工作流模型,對日志異常實施在線檢測達到92%的正確率。Xia等人[4]提出基于生成對抗網(wǎng)絡的日志異常檢測模型LogGAN,但是該模型在生成器的構造中僅僅使用了淺層的深度神經(jīng)網(wǎng)絡,不能有效地提取日志序列的特征。CausalConvLSTM[5]是一種新型混合模型,它利用卷積神經(jīng)網(wǎng)絡(CNN)的優(yōu)勢,可以有效地提取并行方式中的空間特征,并通過長短期記憶(LSTM)網(wǎng)絡來捕獲順序關系。該模型可以有效解決異常檢測中概念漂移的問題。2020年,梅御東等[6]對CNN絡卷積核形狀進行半定長調(diào)整,同時調(diào)整滑動窗口的滑動方向,使之適用于應用到系統(tǒng)日志文本分析中,進行系統(tǒng)異常的判別。

        由于深度學習方法更多關注連續(xù)事件之間的關系,不再僅針對單一離散事件進行分析,并且對特征工程依賴性較低,在日志檢測相關領域有著越來越多的應用和研究。

        3 本文方法

        圖1 檢測方法架構圖

        本文工作框架如圖1所示,首先基于正則表達式匹配和日志模板提取算法從原始日志序列中提取日志事件序列和時間戳序列,再分別依據(jù)日志數(shù)量和時間間隔進行先后兩次滑動窗口操作,得到特征提取的單位日志序列,并基于獨熱編碼的方式對其得到日志特征的向量表達,最后將向量化的日志特征作為LSTM等判別模型的輸入數(shù)據(jù)進行訓練和測試。本節(jié)后續(xù)內(nèi)容將從日志解析,基于二次滑動窗口機制的特征提取方法以及基于LSTM的日志多分類判別模型三個方面對上述內(nèi)容進行詳細介紹。

        3.1 日志解析

        一條日志主要由三部分組成:時間戳、模板、參數(shù)。日志時間戳記錄日志產(chǎn)生的時刻,可以為日志對應事件的順序排列提供依據(jù)。模板記錄了同一類型事件的日志的不變的部分,在部分文獻中也被稱為“日志鍵”、“日志常量”等,是日志檢測的重要判定依據(jù)。需要注意的是,現(xiàn)代系統(tǒng)通常運行線程、進程乃至協(xié)程級的并發(fā)程序,正常運行時所產(chǎn)生日志的順序在短時間內(nèi)具有一定隨機性,并且網(wǎng)絡時延的存在也會導致日志在日志文件中的順序與原始順序不一致[7]。

        圖2 日志解析流程

        如圖2所示的原始日志首先通過正則表達式匹配,提取出時間戳文本并進行格式化。對于剩余文本,再次進行正則表達式匹配找出IP地址參數(shù)、純數(shù)字參數(shù)等特殊格式參數(shù)并用對應的通配符替換,然后采用drain日志解析算法[10]對如上處理后的日志進行模板提取。

        其中F為日志模板集合到日志事件集合的滿射,基于專業(yè)知識和語義分析完成。H為獨熱編碼,將離散的事件序號轉化為向量,便于后續(xù)模型的利用。

        3.2 基于二次滑動窗口機制的特征提取方法

        研究日志文件可發(fā)現(xiàn),系統(tǒng)通常在較短時間內(nèi)同時生成多條相關性較強的日志對事件進行記錄,可考慮將這些日志作為集合進行分析。此外,由于一個日志文件中可能記錄多個并發(fā)進程和線程的事件以及網(wǎng)絡波動的原因,導致短時間內(nèi)日志先后順序混亂,此時以單條日志作為序列元素的傳統(tǒng)滑動窗口方法效果將顯著下降。

        考慮上述問題,本文提出基于二次滑動窗口機制的日志特征提取方法,如圖3所示,在傳統(tǒng)滑動窗口機制的基礎上,基于日志的時間戳屬性進行第二次滑動窗口操作,將間隔小于一定閾值的日志作為集合進行特征提取,以此利用日志的時間關聯(lián)性,同時解決短時內(nèi)日志亂序的問題。下面闡述詳細過程。

        圖3 二次滑動窗口機制示意圖

        3.3 基于LSTM的日志多分類判別模型

        長短期記憶網(wǎng)絡LSTM在傳統(tǒng)時序模型循環(huán)神經(jīng)網(wǎng)絡RNN的基礎上,通過為神經(jīng)元設置輸入門、遺忘門以及輸出門的方式,解決RNN無法學習過長間隔的歷史信息的問題,同時避免RNN權值矩陣循環(huán)相乘導致的梯度消失和梯度爆炸。

        多層LSTM結構能夠發(fā)掘更多潛在的歷史信息,但是模型復雜度提升會導致過擬合問題[7]。如圖4所示,本文模型結構主要由兩層堆疊LSTM結構組成,能夠從數(shù)據(jù)中提取不同深度特征,然后將處理后的樣本特征進行融合分析,再繼續(xù)傳遞到下一層網(wǎng)絡結構中進行分析利用。經(jīng)過Dropout與Dense處理,適當削弱梯度消失的弱點,將處理后的結果作為Softmax函數(shù)的輸入,實現(xiàn)對樣本分類。

        圖4 LSTM模型結構圖

        4 實驗驗證與分析

        4.1 數(shù)據(jù)集與評價指標

        本文所用的實驗數(shù)據(jù)取自公開數(shù)據(jù)集AIT-Log[8],該數(shù)據(jù)集包含從4個運行郵件服務和CMS內(nèi)容管理系統(tǒng)的Web服務器上收集的操作系統(tǒng)日志和應用日志共計兩億多條,包括正常用戶行為生成的正常日志、漏洞掃描、暴力破解和Webshell上傳等惡意行為生成的異常日志。由于日志數(shù)據(jù)量龐大,本文選取記錄用戶行為的user.log和Web訪問日志apache-access.log共計60萬條作為實驗數(shù)據(jù),標簽及對應數(shù)量,如表1所示。由于各類型樣本數(shù)量不均衡,本文采取對正常樣本欠采樣、對異常樣本過采樣的方式保證訓練集中稀有標簽滿足實驗需求,隨機抽樣并組合成十組不同的訓練集和測試集,最終采用十次實驗的平均值作為最終結果。

        表1 數(shù)據(jù)集中的日志類型和數(shù)量信息

        本文使用的評價模型包括傳統(tǒng)機器學習模型樸素貝葉斯、邏輯回歸、隨機森林和決策樹,以及深度學習模型LSTM。本文選用的評價指標包括準確率(Accuracy)、召回率(Recall)、查準率(Precision)以及宏平均F1值(macro-F1),計算方式如下所示,其中macro F1是所有類別F1值的算數(shù)平均值,適用于異常樣本數(shù)量稀少的應用場景。

        上述指標中,Accuracy越高表明分類器總體性能越好;Recall較低則反映了有較大量正樣本被模型預測為負樣本;Precision較低則反映了模型將較大量負樣本預測為正樣本;macro F1可綜合反映Recall與Precision的狀態(tài),macro F1值越接近1,模型檢測性能越好。

        4.2 實驗結果分析

        圖5展示了窗口大小對LSTM模型實驗結果的影響。圖5的橫坐標表示初次窗口尺寸,縱坐標表示Precision和Recall的大小,并且用折線顏色區(qū)分指標類型,用折線形狀區(qū)分實驗數(shù)據(jù)集。

        圖5 初次窗口尺寸對模型效果的影響

        由圖5可見,隨著窗口值的增大,LSTM模型表現(xiàn)效果逐漸提升,并且對于user日志,窗口值達到40時F1值不再提升;對于apache_access日志,窗口值為40時F1值達到最大值。本對比實驗說明間隔超過40條日志所提供的信息對于當前日志的判定影響不大,因此后續(xù)需要控制變量的實驗中均設置初次滑動窗口尺寸為40。

        圖6 各模型表現(xiàn)效果對比

        圖6展示了各模型在apache-access.log數(shù)據(jù)集上的表現(xiàn)效果。由于apache-access.log日志中包含更多類型事件,經(jīng)過獨熱編碼后的輸入數(shù)據(jù)維度較高,導致傳統(tǒng)機器學習模型檢測效果相對較差。在傳統(tǒng)機器學習模型中,RF綜合表現(xiàn)最好,因此主要將RF模型表現(xiàn)作為參照來評估長短期記憶網(wǎng)絡LSTM的效果。在user.log數(shù)據(jù)集中,LSTM查準率與RF持平,而查全率提升了4%;在apache-access.log數(shù)據(jù)集中,LSTM查準率略高于RF,查準率提升了12%。本輪對比試驗的具體結果可見表3和表4,可以看出,LSTM在不同的評價標準下的表現(xiàn)均優(yōu)于傳統(tǒng)機器學習模型。

        本節(jié)實驗研究了LSTM模型與傳統(tǒng)機器學習模型在不同初次滑動窗口尺寸情況下的實驗結果,并將本文二次滑動窗口方法(DW)與傳統(tǒng)滑動窗口方法(SW)進行對比,結果如表3所示。實驗中初次滑動窗口尺寸共選取了從10至45范圍內(nèi)步長為5的8種情況,由于篇幅限制,選擇較有代表性的10、20、30、40四組進行制表。

        從表3和表4可以看出,因為初次滑動窗口尺寸決定了輸入模型的歷史信息量,不論是SW還是DW方法,各模型效果均隨著窗口的增大而有所提升,并且這種提升的幅度隨著窗口的增大而減緩。各模型使用DW方法后各項指標均有提升,以LSTM為例,當初次滑動窗口尺寸取40時,查準率提升了3%,并且查全率提升了4%。總體而言,上述對比實驗結果說明DW方法作為改進后的特征提取方法,不僅能有效提升深度學習模型LSTM的檢測性能,也能在一定程度上提升NB、LR等機器學習模型的效果。

        表3 user日志實驗結果對比

        表4 apache-access日志實驗結果對比

        5 結論

        在初次滑動窗口尺寸對比實驗中,LSTM模型的檢測效果隨窗口增大而提升,當超過某個臨界值時各項評價指標將趨于穩(wěn)定甚至有所下降,表明間隔過大的歷史日志對檢測效果有一定負面影響,在后續(xù)研究與應用中應注意窗口大小不超過該臨界值。在模型對比實驗中,研究各模型在apache-access.log數(shù)據(jù)集上的檢測效果可以發(fā)現(xiàn),LSTM是惟一查準率和查全率均超過94%的模型,體現(xiàn)了深度學習模型對高緯度特征數(shù)據(jù)的信息提取能力。對比傳統(tǒng)滑動窗口方法,本文提出的二次滑動窗口特征提取方法優(yōu)化了日志特征提取的粒度,充分利用多條日志的時間關聯(lián)性,能夠有效提升LSTM等各模型對日志異常的檢測效果。

        [1]廖湘科,李姍姍,董威,等.大規(guī)模軟件系統(tǒng)日志研究綜述[J].軟件學報,2016,27(08):1934-1947.

        [2]Adam J. Oliner et al.Advances and challenges in log analysis[J].Communications of The ACM,2012(55):55-61.

        [3]Min Du,et al. “DeepLog:Anomaly Detection and Diagnosis from System Logs through Deep Learning[J].Computer and Communications Security,2017.

        [4]Bin Xia,et al. LogGAN:A Sequence-Based Generative Adversarial Network for Anomaly Detection Based on System Logs[J].2019.

        [5]Steven Yen,et al.CausalConvLSTM: Semi-Supervised Log Anomaly Detection Through Sequence Modeling[J].International Conference on Machine Learning and Applications,2019.

        [6]梅御東,陳旭,孫毓忠,等.一種基于日志信息和CNN-text的軟件系統(tǒng)異常檢測方法[J].計算機學報,2020,43(02):366-380.

        [7]Kai Zhang,et al. Spatio-Temporal Data Mining for Aviation Delay Prediction[C].International Performance,Computing,and Communications Conference,2020.

        [8]Max Landauer,et al. Have it Your Way:GeneratingCustomized Log Datasets With a Model-Driven Simulation Testbed[J].IEEE Transactions on Reliability 2021(70):402-415.

        國家重點研發(fā)計劃(2020YFB1805400);國家自然科學基金(U1736212、U19A2068、62002248、62032002);四川省重點研發(fā)(20ZDYF3145)

        猜你喜歡
        查準率日志特征提取
        一名老黨員的工作日志
        華人時刊(2021年13期)2021-11-27 09:19:02
        扶貧日志
        心聲歌刊(2020年4期)2020-09-07 06:37:14
        基于Daubechies(dbN)的飛行器音頻特征提取
        電子制作(2018年19期)2018-11-14 02:37:08
        基于數(shù)據(jù)挖掘技術的網(wǎng)絡信息過濾系統(tǒng)設計
        大數(shù)據(jù)環(huán)境下的文本信息挖掘方法
        游學日志
        基于深度特征分析的雙線性圖像相似度匹配算法
        Bagging RCSP腦電特征提取算法
        基于MED和循環(huán)域解調(diào)的多故障特征提取
        一種基于粗集和SVM的Web日志挖掘模型
        亚洲av套图一区二区| 中文字幕有码在线视频| 久久婷婷是五月综合色狠狠 | 色优网久久国产精品| 国产视频在线播放亚洲| 日韩在线一区二区三区中文字幕| av日本一区不卡亚洲午夜| 最新国产一区二区三区| 国产精品成人av大片| 肉色丝袜足j视频国产| 狠狠色婷婷久久一区二区三区| 国产人妻无码一区二区三区免费 | 91精品国产丝袜在线拍| 99久久精品国产片| 日韩av水蜜桃一区二区三区| 777精品出轨人妻国产| 色一情一乱一伦一区二区三区日本 | 成人午夜视频一区二区无码| 新久久久高清黄色国产| 日本免费在线一区二区三区| 天天夜碰日日摸日日澡性色av| 中文字幕精品久久久久人妻红杏ⅰ| 99这里只有精品| 天天插天天干天天操| av成人综合在线资源站| 手机在线看片| 天堂国精产品2023年| 免费看一级a女人自慰免费| 日韩精品国产一区二区| 亚洲熟女乱一区二区三区| 蜜臀久久99精品久久久久久| 真实单亲乱l仑对白视频| 国产丝袜在线精品丝袜不卡 | 欧美大片va欧美在线播放| 中文字幕乱偷无码av先锋蜜桃| 国产人成无码中文字幕| 国产av大片在线观看| 一本色道久久综合亚洲精品不| 曰韩内射六十七十老熟女影视| 亚洲av无码精品色午夜果冻不卡| 亚洲国产精品国语在线|