亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

高性能計算環(huán)境中日志模式提煉方法的研究

2022-10-16 05:50:44王曉東趙一寧肖海力王小寧遲學斌

計算機與生活 2022年10期

王曉東，趙一寧，肖海力，王小寧，遲學斌

1.中國科學院計算機網(wǎng)絡信息中心，北京100190

2.中國科學院大學，北京100049

中國國家高性能計算環(huán)境是由國內(nèi)眾多超算中心和高校的計算集群組成的國家級大型高性能計算環(huán)境，采用中國科學院計算機網(wǎng)絡信息中心自主研發(fā)的網(wǎng)格環(huán)境中間件SCE聚合了大量的通用計算資源，為全國眾多高校和研究機構的用戶提供了優(yōu)質(zhì)的計算服務。為了保障環(huán)境的穩(wěn)定運行，搜集環(huán)境中產(chǎn)生的日志并且實時分析解決環(huán)境中出現(xiàn)的異常是非常必要的。然而隨著環(huán)境中計算資源和用戶的增多，各節(jié)點產(chǎn)生的日志也越來越多，使用傳統(tǒng)的人工手動分析大量日志的方法已經(jīng)成為了非常耗時耗力并且容易出錯的方法，因此如何進行自動化日志分析對于環(huán)境的正常運行和安全保障具有極其重要的意義。

為了解決日志自動化分析的問題，近年來許多研究人員都采用各種數(shù)據(jù)挖掘的方法對日志進行分析并診斷異常。比如Xu等就通過主成分分析法對控制臺日志數(shù)據(jù)進行異常診斷，Lou等通過不變量挖掘方法對在系統(tǒng)中的日志進行異常診斷，Lin等通過聚類方法從在線服務器中的日志中尋找異常，Du等通過深度學習的方法從系統(tǒng)日志中發(fā)現(xiàn)并診斷異常。上述這些方法都在自動化日志分析上取得了比較好的效果。但是，所有自動化分析時的原始日志消息通常是非結構化的，這是因為程序在實際開發(fā)時是靈活多變的，開發(fā)人員習慣使用自由文本記錄日志消息。而為了能夠自動挖掘非結構化日志，第一步需要解決的問題就是日志模式提煉，通過該步驟將非結構化的原始日志消息轉(zhuǎn)換為結構化日志消息后才能在后續(xù)使用不同數(shù)據(jù)挖掘算法來自動化分析各種異常。

具體來說，日志模式提煉的目標是將一條日志中非結構化的部分分類并將同一類模式的日志拆分成常量部分和變量部分。比如高性能計算集群中Linux 的一條系統(tǒng)日志如下：

Sep,30,03:50:55,client51,sshd,32019,Invalid user UserName from 192.168.0.1

如果按照逗號分開，可以看出這條日志的前三個字段代表時間，中間三個字段分別代表主機名、守護進程名稱和PID號。這些字段屬于日志的結構化部分，使用簡單的正則表達式就能提取出來，而日志模式提煉主要關注的是最后一個字段的內(nèi)容，通過日志模式提煉算法需要把最后一個字段的內(nèi)容抽象成：

其中，Invalid user from 是日志的常量部分，通配符<*>代表日志的變量部分。在對高性能計算環(huán)境日志進行模式提煉的研究上，Zhao等提出了算法Match，該算法通過單詞匹配率來確定兩條日志的相似程度，并以此來確定日志所屬的模式，同時還提出了樹匹配的算法來實現(xiàn)日志模式提煉算法。之后在文獻[7]中描述了算法Lmatch（longest common subsequence match algorithm），該算法改進了單詞匹配率算法，即將日志中的每一個單詞作為一個基本單元，然后通過兩條日志的最長公共子序列來計算單詞的匹配數(shù)目，最后與兩條日志的總單詞數(shù)進行比較來計算單詞匹配率。雖然以上方法取得了比較好的效果，然而其中仍然有需要改進的地方：

首先，在使用最長公共子序列進行日志模式提煉時，僅僅能夠得到日志模式，并沒有進一步將模式抽象成常量部分和變量部分，將日志拆分成常量部分和變量部分有以下優(yōu)勢：當使用日志進行下游任務的分析時，日志模板的變量部分可以和實時日志進行匹配，通過將匹配到的變量提取出來可以得到相同變量的日志在事件上的關聯(lián)關系，對后續(xù)進行日志分析具有重要作用。其次，在日志模式的儲存結構上，原文使用基于首個單詞的散列表進行存儲，由于日志復雜多變，可能出現(xiàn)首個單詞種類過多的問題，同時當首個單詞屬于日志變量部分的情況下只能通過人工處理。最后，日志模式提煉算法的調(diào)參方式不夠明確。

基于以上問題，本文詳細描述了日志模式提煉算法LDmatch（longest common subsequence dictionary match algorithm）。該算法通過確定兩條待比較日志的最長公共子序列作為常量部分，待比較日志的其余部分作為變量部分來確定一條日志的模式，同時該方法還支持實時增量的在線運行并提取日志模式。在日志模式的存儲結構上，使用日志的首字母作為散列函數(shù)的輸入，從而約束了散列函數(shù)字典的長度上限。在整個算法的參數(shù)優(yōu)化上，使用大量的實驗進行調(diào)整，最終為多種不同類別的日志模式提煉確定了最佳參數(shù)?？傮w來說，本文有以下兩個貢獻點：

（1）進一步優(yōu)化了國家高性能計算環(huán)境中使用的日志模式提煉算法，為后續(xù)自動化異常檢測分析提供了支持；

（2）該日志模式提煉算法在開源日志數(shù)據(jù)集以及國家高性能計算環(huán)境中產(chǎn)生的真實日志數(shù)據(jù)集上進行多維度的實驗分析，實驗結果證明了該方法的優(yōu)勢。

1 相關工作

本章簡要介紹日志模式匹配算法近年來在不同方向的研究進展。

1.1 基于頻繁模式的日志模式提煉算法

Vaarandi在對日志文件數(shù)據(jù)進行模式分類時使用了一個名叫SLCT（simple logfile clustering tool）的聚類算法，該聚類算法是基于Apriori 頻繁項集的算法，因此需要使用者手動輸入調(diào)整支持閾值。SLCT會對日志進行兩次整體的掃描：第一次對日志中所有的單詞進行詞頻的統(tǒng)計，在第二次掃描時根據(jù)第一次掃描時得到的詞頻建立起日志的模式集群。經(jīng)過兩次掃描后，該算法最終根據(jù)建立的集群為每一個集群生成一個日志模板。Nagappan 等人也提出了一個基于頻繁模式挖掘的日志模式提煉方法LFA（abstraction of log lines），該算法與SLCT 不同的地方在于考慮了每條日志消息中的單詞的頻率分布，而不是對整個日志數(shù)據(jù)進行罕見日志消息的解析。

1.2 基于聚類的日志模式提煉算法

Fu 等人使用LKE（log keys)方法對日志進行模式提煉，該方法結合使用了聚類算法和啟發(fā)式規(guī)則法，一共有三個步驟：第一步是日志聚類，聚類時使用了自定義加權編輯距離作為衡量兩條日志之間的距離度量，然后使用了層次聚類算法對原始日志消息進行聚類；第二步是聚類結果拆分，執(zhí)行基于啟發(fā)式規(guī)則法來進一步拆分聚類結果；第三步是日志模板生成，該步驟為每個聚類的群集生成日志模板，類似1.1 節(jié)中所描述的SLCT 算法的最后一步。Tang 等人提出了LogSig 算法來提煉日志模式，該算法的工作流程也可分為三個步驟：第一步生成單詞對，將每個日志消息轉(zhuǎn)換為一組單詞對，然后對該單詞及其位置信息進行編碼。第二步進行了日志聚類，該聚類算法基于單詞對，為每個日志消息計算一個潛在的值，從而確定日志消息可能屬于的集群。經(jīng)過多次迭代后，最終就可以得到聚類之后的日志消息集群。第三步是日志模板的生成，即利用每個日志集群中的一系列日志消息為每個集群都生成一個日志模板。Mizutani提出SHISO（scalable handler for incremental system log）算法，通過構造一個結構化的樹結構得到日志模板，該算法屬于在線算法，并且不需要任何先驗知識就能得到結果。

1.3 基于其他方法的日志模式提煉算法

Messaoudi 等人提出了MoLFI（multi-objective log message format identification）算法，該算法將日志解析建模為一個多目標優(yōu)化問題，并用進化算法進行日志模式生成。Dai等人提出了一種自動的日志解析方法Logram，該算法利用n-gram 字典來實現(xiàn)日志解析。Nedelkoski 等人將日志模式分類任務應用于深度學習中的掩碼語言模型（masked language model,MLM）中，在日志解析的過程中，該模型以向量嵌入的形式從日志中提取關鍵信息，通過反向傳播訓練后，最終模型可以輸出日志模板。Zhao 等人提出了模式提煉算法Match 來確定兩條日志的相似程度，該算法基于兩條日志的單詞匹配率。同上述提到的其他算法相比，該算法的最大優(yōu)勢是可以實時計算，也不需要預先提煉模式，因此該算法利于線上的日志模式提煉分析。之后該作者又在文獻[7]中對Match 算法進行改進而得到Lmatch 算法，該算法將兩條日志固定位置的一對一匹配改進成根據(jù)最長公共子序列進行匹配，這樣做可以有效解決相同模式的兩條日志在常量部分位置不同的問題。

大多數(shù)基于頻繁模式的算法和基于聚類的日志模式提取算法都是離線算法，因為這些算法需要在第一步掃描所有的歷史日志，而本文方法可以在線處理日志解析，更適合生產(chǎn)實踐。另一方面，基于深度學習的方法雖然能夠取得較好的精度，但是運行時參數(shù)過多，對于實時的日志分析來說過于繁重，因此不適合高性能計算環(huán)境中日志模式提煉的場景。

2 日志模式提煉算法

本章首先介紹國家高性能計算環(huán)境中的日志分析框架以及在日志解析時需要解決的關鍵性問題，然后針對該問題，詳細介紹本文提出的日志模式提煉算法和相關改進工作。

2.1 問題背景描述

國家高性能計算環(huán)境的網(wǎng)格環(huán)境日志分析框架（log analysing framework in grid environment，LARGE）是針對中科院超級計算環(huán)境中各類日志進行分析處理的框架式結構，它定義了框架內(nèi)各模塊的工作內(nèi)容以及整個日志分析流程的數(shù)據(jù)傳輸流向和處理步驟。其基本結構和工作流程圖如圖1 所示。

圖1 LARGE 系統(tǒng)結構Fig.1 System structure of LARGE

從圖1 中可以看出，國家高性能計算環(huán)境中的日志搜集到需要進行分析的日志主要包括SCE 日志和系統(tǒng)日志。SCE 日志是由SCE 網(wǎng)格環(huán)境中間件生成的事件日志，該類日志格式固定，因此非常有利于機器讀取并分類。而系統(tǒng)日志格式就比較復雜，比如引言中的日志示例?？梢钥闯鲈撊罩镜那叭齻€字段很容易得到，然而最后一個字段才是需要重點關注的信息，該字段的內(nèi)容雖然是人類可以閱讀的英文句子，然而這種人類容易理解的句子屬于非結構化的數(shù)據(jù)，這種數(shù)據(jù)反而不利于機器識別，因此日志模式提煉的主要關注點是日志的非結構化部分。如何使用合理的模式匹配算法對日志該部分的信息進行分類是國家高性能計算環(huán)境日志分析首先要解決的問題。另一方面，日志模式提煉算法總體來說分為線上方法和線下方法。線下方法通常需要有歷史的日志數(shù)據(jù)，然后經(jīng)過一輪遍歷對歷史日志進行聚類，之后為每一類日志提取出一個模板。這種方法雖然直觀，但是在實際應用時對于一條新的日志如果不滿足已知類別的情況就沒法實時形成新的類別。因此實際應用的時候還是線上日志分類方法比較有價值。國家高性能計算環(huán)境中日志的類別數(shù)量無法提前確定，因此需要使用線上方法進行分類。為了使線上日志分類算法可以在新日志出現(xiàn)時更新已有模板，同時還能在新日志進行匹配時效率有所提升，該算法還需要對模板的實時更新方法以及日志模板倉庫的存儲方式進行優(yōu)化。面對以上問題，后續(xù)詳細介紹線上日志分類算法以及相關優(yōu)化方案。

2.2 日志模式提煉算法與線上日志分析流程

對于如何確定兩條日志是否屬于同一個模式的問題，最直觀的方法就是確定兩條日志匹配的單詞是否足夠多，因此本文使用單詞匹配率來確定日志的模式。該算法將日志中的每一個單詞作為一個基本單元，然后對其進行匹配。具體來說，假設待匹配的兩條日志分別為′和，其包含的單詞數(shù)量分別為和，則兩條日志的單詞匹配率的計算公式如下：

其中，|(,′)|代表兩條日志對應位置一對一匹配單詞數(shù)目。然而該算法無法處理兩條日志的常量部分位置不同的問題。因此改進的單詞匹配率的計算公式如下：

其中，|(,′)|代表兩條日志使用最長公共子序列進行匹配時匹配到的單詞數(shù)目。比如以下三條日志：

分別記作a、b、c，并且假設閾值為0.45，則其中a和b這兩條日志的前兩個字符和第四個字符相匹配，這兩條日志都有五個字符，因此根據(jù)式（1），可以計算得到(,)=3×2/(5+5)=0.6＞0.45，說明a、b為同一種模式的日志，同理可以計算出a和c這兩條日志的單詞匹配率(,)=0.18 ＜0.45，說明a、c為不同模式的日志。

有了單詞匹配率的定義，就可以得到整個日志模式提煉模塊的處理流程，具體步驟如下：

（1）讀入一條新的日志，然后與日志模式倉庫中已有的日志模式,,…,l分別計算出單詞匹配率(,),(,),…,(,l)；

（2）從這些計算出來的結果中找到最大的單詞匹配率=max{(,),(,),…,(,l)}以及計算該單詞匹配率對應的日志模式l；

（3）將與提前設定好的閾值進行對比；

（4）如果＞，則將該日志與對應日志模式l進行模板提取并更新該日志模式；

（5）如果＜，則使用該條日志生成新的日志模式l并加入到日志模式倉庫中。

整個日志模式提煉模塊的處理流程圖如圖2 所示，其中閾值在3.3 節(jié)的實驗中確定，日志模板提取算法將在2.3 節(jié)中詳細介紹。

圖2 日志模式提煉算法流程圖Fig.2 Flowchart of log pattern extracting algorithms

2.3 日志模板提取以及日志模式倉庫的優(yōu)化

上一節(jié)已經(jīng)構建了日志模式提煉算法的整體流程，本節(jié)將進一步改進本文算法，使得該算法可以實時提煉并更新日志的模式。除此之外，日志倉庫的存儲類型也在本節(jié)中改進以提高整個算法的準確度和效率，最終構建出完善的LDmatch 算法。

為了滿足基于最長公共子序列的日志模式提煉算法的實時性，生成的模式必須滿足一些條件，即可以自動將兩條日志的匹配部分作為最終模板的常量部分，非匹配部分作為最終模板的變量部分。要想滿足這一點，需要首先計算出兩條待匹配日志的最長公共子序列，然后進行后續(xù)操作。具體來說，日志模式提煉算法流程如算法1。

1 計算日志模板算法

根據(jù)算法1 所示，可以看出當一條日志進入日志類型倉庫中時，首先計算日志模板和日志的最長公共子序列，然后反轉(zhuǎn)最長公共子序列，之后對待比較日志的單詞進行遍歷：如果該單詞與最長公共子序列第一個單詞一樣，則說明該單詞屬于日志的常量部分，此時在日志模板中加入該單詞；否則說明該單詞屬于變量部分，此時在日志模板中加入變量匹配符“<*>”。加入成功后，則將最長公共子序列中該單詞刪除，然后進行下一次判斷，直到最長公共子序列為空時退出該循環(huán)。最后，如果待匹配日志后續(xù)還有單詞，說明都是變量，因此直接加入變量匹配符“<*>”。按照上述算法流程，就能對日志倉庫中已有的日志模板進行實時更新。同時這個算法也滿足兩條日志非結構化的公共部分是模板的常量，而不同的部分是模板的變量。

回顧日志模式提煉算法的流程可以發(fā)現(xiàn)，每當有新的日志出現(xiàn)，該處理流程都需要分別計算新日志和日志倉庫中所有日志模式的最長公共子序列。隨著日志模式的增加，計算開銷就會越來越大，因此如果縮減比較次數(shù)就能顯著提高算法的整體效率?；谝陨嫌懻?，LDmatch 算法使用哈希表存儲日志模式，哈希表的輸入為日志的第一個字母，這樣可以保證哈希表不會無限增大。如果日志的第一個字符不是字母，則統(tǒng)一存儲到通配符<*>開頭的哈希表中。這樣構造的日志模式倉庫的示意圖見圖3。

圖3 日志模式倉庫Fig.3 Log patterns warehouse

在圖3 中，可以看到只要按照這種哈希表的存儲格式進行日志倉庫的保存，就能使得新的一條日志進行匹配時，先根據(jù)日志開頭信息進入日志模式倉庫的對應子集，然后新日志僅需要和該子集中的所有日志模板進行比較即可，從而大大減少了日志的比較次數(shù)。

最后，將改進的日志倉庫加入日志模式提煉算法的流程中，就得到了LDmatch 算法。下一章將會通過實驗證明該算法的優(yōu)勢。

3 實驗結果與分析

本章先通過實驗確定LDmatch 算法對高性能計算環(huán)境中的日志進行模式提煉時的最優(yōu)參數(shù)，然后通過與其他多種方法對比來證明本文算法在準確度、魯棒性以及效率上的優(yōu)勢。

3.1 實驗數(shù)據(jù)

本文使用以下兩個數(shù)據(jù)集對實驗中所有涉及的方法進行分析評價：

A.Zhu 等人在論文中公布了一個開源的數(shù)據(jù)集Loghub，里面包含16 種不同系統(tǒng)和平臺產(chǎn)生的日志，每種日志都經(jīng)過隨機挑選2 000 條日志，并且經(jīng)過專業(yè)人員手動標注并得到對應的日志模式。

B.國家高性能計算環(huán)境系統(tǒng)在實際工作中產(chǎn)生的系統(tǒng)日志。本文選取系統(tǒng)在2018 年9 月整個月產(chǎn)生日志中的secure類別日志作為實驗數(shù)據(jù)。

3.2 評價方法

為了對本文方法做盡可能詳細的驗證，本文通過以下評價指標進行實驗。

準確度：正確解析的日志模式與日志模式總數(shù)的比率。解析后，每個日志消息都有一個事件模板，該事件模板對應于同一模板會得到一組消息。當且僅當這一組消息與真實的人工標記數(shù)據(jù)對應的一組日志消息完全相同時，才認為該條日志模式的解析結果是正確的。

為了避免實驗產(chǎn)生的隨機誤差，本文對每組實驗結果都經(jīng)過多次計算并取得平均值。所有實驗都是在一臺裝有英特爾第三代酷睿i5-3230M 的處理器、8 GB 內(nèi)存以及Windows 7 旗艦版64 位系統(tǒng)的計算機上進行的。

3.3 參數(shù)確定實驗分析

本節(jié)進行日志模式提煉算法關鍵參數(shù)確定的實驗。其中，閾值參數(shù)在取值范圍內(nèi)每隔0.5 進行一次準確度計算的實驗，因為該閾值是為了應用于國家高性能計算環(huán)境，所以本實驗選擇A 數(shù)據(jù)集中包含模式類別已經(jīng)被人工標注好的Linux 數(shù)據(jù)集。實驗的結果如圖4。

圖4 閾值-準確度Fig.4 Threshold and accuracy

由圖4 可以看出，LDmatch 算法在Linux 數(shù)據(jù)集中的準確度在閾值為0.5 以下都比較高，超過0.5 則迅速下降，說明Linux 系統(tǒng)日志中的變量部分占比較大，基本超過50%，因此不能使用太大的閾值進行模式提煉。當閾值取0.45 時，準確度最大。因此后續(xù)在高性能計算環(huán)境中使用該模式提煉算法時，就使用=0.45 作為參數(shù)進行其他相關實驗。

3.4 不同模式提煉方法對比分析

本節(jié)將本文的LDmatch 算法和其他模式提煉算法在Linux 日志數(shù)據(jù)上進行準確度的對比，因此本實驗選擇A 數(shù)據(jù)集中的Linux 數(shù)據(jù)集作為實驗對象。本節(jié)對比的方法包含基于頻繁模式的模式提煉算法SLCT和LFA，基于聚類的模式提煉算法LKE和LogSig，以及其他類別的模式提煉算法MoLFI、Match和Lmatch。經(jīng)過實驗得到準確度的結果如圖5 所示。

圖5 不同模式提煉方法下的準確度Fig.5 Accuracy in different pattern extracting methods

由圖5 可以看出，在Linux 數(shù)據(jù)集上，基于頻繁模式的模式提煉算法SLCT 和LFA 的精確度較低，基于聚類的模式提煉算法LKE 和LogSig 各有好壞，而其他類方法中的Match 和Lmatch 算法精確度都比較高，說明了基于單詞匹配率算法的模式提煉方法的優(yōu)勢。而LDmatch 所得的精確度是最高的，由此可見，本文方法非常適用于Linux 系統(tǒng)日志的數(shù)據(jù)。根據(jù)2.1 節(jié)的介紹可知，國家高性能計算環(huán)境的日志分析框架LARGE 中需要重點解析的日志就是Linux 系統(tǒng)中的日志，和普通Linux 系統(tǒng)日志的區(qū)別在于日志結構化部分的主機名字段來源于環(huán)境中的不同節(jié)點，因此該字段會出現(xiàn)不同主機名，而對于日志模式提煉算法所關注的日志的非結構化部分沒有影響。綜上所述，該數(shù)據(jù)集上的實驗結果可以證明本文方法也適用于國家高性能計算環(huán)境中日志的解析步驟。

3.5 魯棒性分析

為了驗證本文方法的魯棒性，本節(jié)將使用本文方法LDmatch 在不同種類的日志數(shù)據(jù)集上進行準確度的實驗，因此本實驗選擇A 數(shù)據(jù)集中所包含的16種不同系統(tǒng)和平臺產(chǎn)生的日志進行實驗。同時本文也使用基于單詞匹配率算法的模式提煉方法Match和Lmatch 進行對比。最終的實驗結果如表1 所示。

由表1 可以看出，Match 方法在所有數(shù)據(jù)集上得到的準確度都相對較低，這說明一對一的字符匹配算法在日志模式提煉上并沒有優(yōu)勢，也證明了日志中常量部分的位置通常情況下并不相同。Lmatch 的精確度比Match 整體高出很多，說明了最長公共子序列在日志模式提煉中的應用價值是很高的。而本文方法LDmatch 達到了最高的精度，說明基于哈希表的存儲結構不僅優(yōu)化了日志的匹配效率，還在一定程度上對日志模式提煉準確度有促進作用。表格中還給出了LDmatch 在不同種類日志數(shù)據(jù)集下的最優(yōu)參數(shù)以供參考。可以看出，同一種日志模式提煉算法在不同數(shù)據(jù)集下的最優(yōu)參數(shù)差別比較大，這不僅說明了不同種類的日志在常量部分和變量部分的比重差別較大，也說明了調(diào)整閾值的參數(shù)對于日志模式提煉算法具有重要作用。

表1 不同種類日志上的實驗結果Table 1 Experimental results on different kinds of logs

3.6 效率分析

為了驗證本文方法LDmatch 在效率上的優(yōu)勢，本文使用高性能計算環(huán)境中實際產(chǎn)生的日志數(shù)據(jù)集B進行本輪實驗。首先將B 數(shù)據(jù)集拆分成1 000、5 000、10 000、50 000、100 000 條日志，然后分別在這些不同大小的日志上進行日志模式提煉的實驗。作為對比，本文還將Match以及Lmatch算法進行了相同的實驗，最后記錄每組實驗的完成時間，實驗結果見圖6。

圖6 不同日志數(shù)量下模式提煉方法消耗的時間Fig.6 Time consumed by pattern extracting methods under different number of logs

由圖6 可以看出，當日志數(shù)量比較小的時候，三種算法在進行日志模式提煉時所用的時間差別不大。但是隨著日志規(guī)模的增大，Match 算法所用的時間顯著上升，說明該算法在處理較多的日志時得到的模式增加較快，因此每次比較的次數(shù)增多而導致消耗的時間快速上升。而Lmatch 算法相比來說時間增加得緩慢，說明了基于最長公共子序列的模式提煉算法對日志進行模式提煉的合理性。而LDmatch 算法所用的時間最短，因為LDmatch 算法的時間復雜度是(())，其中是當前搜索到的哈希表節(jié)點內(nèi)所包含的日志模板的數(shù)量。和分別代表進行匹配的兩條日志的單詞數(shù)量。很明顯，其中的、是常量。相對整體算法進行時日志條數(shù)的增長來說也是常量，因為模板的數(shù)量本身就遠小于日志的總量，同時又經(jīng)過哈希表的劃分，每一個字母鍵下存儲的模板數(shù)量就更少了。通過以上討論，可以看出LDmatch 算法具有()級別的時間復雜度。上述討論和實驗結果也說明了引入了哈希表的模式提煉算法雖然增加了日志模式倉庫存儲的復雜性，但是在效率上具有較大的優(yōu)勢。

4 結束語

本文主要對日志模式提煉算法進行了分析和研究，對以往的模式提煉算法進行了改進，在日志的匹配方式上和匹配規(guī)則上進行了優(yōu)化，最后通過多組實驗驗證了本文方法在準確度、魯棒性和效率上的提升。本文只是針對日志模式提煉做了一些前期探索工作，未來還有很多值得關注的研究點。今后工作的主要重點是將該日志模式提煉算法應用到國家高性能計算環(huán)境中的日志流量分析中，從而進行異常日志流量檢測以及日志類型序列的關聯(lián)性分析等。