亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于邏輯回歸監(jiān)督學(xué)習(xí)的大樣本日志異常檢測優(yōu)化方法①

        2022-11-06 06:06:10申罕驥付翔李俊
        高技術(shù)通訊 2022年8期
        關(guān)鍵詞:方法模型

        申罕驥 付翔 李俊

        (*中國科學(xué)院計算機(jī)網(wǎng)絡(luò)信息中心 北京100190)

        (**中國科學(xué)院大學(xué) 北京100049)

        (***北京藍(lán)天前沿科技創(chuàng)新中心 北京100085)

        0 引言

        隨著信息時代的轉(zhuǎn)變,信息系統(tǒng)的數(shù)據(jù)量呈現(xiàn)爆炸式增長,而基于分布式系統(tǒng),由于其組件的異構(gòu)性、開放性(允許增加或替換組件)、安全性、可伸縮性(用戶數(shù)量增加時能正常運(yùn)行的能力)、故障處理及組件的并發(fā)性,越來越受到業(yè)界重視,其產(chǎn)生的日志數(shù)據(jù)使傳統(tǒng)的人工日志檢測及分析方法已不可接受。檢測手段的日益更新,例如機(jī)器學(xué)習(xí)的應(yīng)用,使得從大量的日志中檢測異常日志變得可行,檢測效率及準(zhǔn)確率等得到不同程度的提高。

        本文的主要貢獻(xiàn)和創(chuàng)新點是:(1)針對大數(shù)據(jù)平臺日志數(shù)據(jù)集特點,提出一種新的思路對數(shù)據(jù)特征分布不平衡的日志進(jìn)行一系列處理,設(shè)計了基于邏輯回歸監(jiān)督學(xué)習(xí)的大樣本日志異常檢測優(yōu)化方法。該方法易理解、處理流程較簡單,能廣泛應(yīng)用于大數(shù)據(jù)平臺日志。(2)針對大樣本日志異常檢測效率問題,通過正則表達(dá)式、向量化處理和邏輯回歸監(jiān)督學(xué)習(xí)算法實現(xiàn)對異常檢測模型的訓(xùn)練和優(yōu)化,并采用真實數(shù)據(jù)集和不同的測試指標(biāo)對模型進(jìn)行了參數(shù)訓(xùn)練,實驗驗證此方法獲取的模型能夠達(dá)到較優(yōu)的檢測結(jié)果。(3)經(jīng)實驗對比,本文最終的模型方法在召回率、精確率、F1 值方面呈現(xiàn)較好的結(jié)果。

        1 國內(nèi)外研究現(xiàn)狀

        1.1 日志解析技術(shù)

        目前日志模板抽取研究主要有兩種類型技術(shù)路線:基于聚類思想和基于啟發(fā)式的方法。

        1.1.1 基于聚類思想的日志解析

        聚類分析的目的是通過分析日志特點,把日志劃分為不同的分組,組內(nèi)中的日志相似度越大越好,組間的日志相似度越小越好,聚類屬于無監(jiān)督學(xué)習(xí)。Lighari 和Hussain[1]提出了一種離線和在線日志解析的新方法LPV(log parser based on vectorization),與現(xiàn)有的日志解析方法相比,LPV 具有很好的性能。其方法是先將日志信息轉(zhuǎn)化為向量,通過向量之間的距離度量兩條日志信息之間的相似度,然后通過向量的聚類對日志信息進(jìn)行聚類,并從聚類結(jié)果中提取日志模板。在線日志解析為日志模板分配了一些平均向量,這樣傳入的日志消息和每個日志模板之間的相似度也可以通過兩個向量之間的距離來衡量。

        Ren 等人[2]提出了一種在圖形處理器(graph processing unit,GPU)上利用獨特的層次索引結(jié)構(gòu)計算加權(quán)編輯距離的并行方法。該方法使用LKE(log key extraction)可以減少處理大規(guī)模日志所需的時間。實驗表明,利用GPU 計算加權(quán)編輯距離的LKE解析器在HDFS 數(shù)據(jù)集和海洋信息數(shù)據(jù)集上具有較高的效率和準(zhǔn)確性。文獻(xiàn)[3-5]研究了一系列的日志分析方法,其中文獻(xiàn)[4]提出的IPLoM(iterative partitioning log mining)方法把每條日志轉(zhuǎn)換成詞對的集合,基于具有公共詞對的數(shù)量進(jìn)行聚類,根據(jù)專家領(lǐng)域知識人工指定類簇的個數(shù),對每一類進(jìn)行模板提取,該方法不受日志格式的限制。Ning 等人[6]提出的HLAer(heterogeneous log analyzer)是一個異構(gòu)的日志分析系統(tǒng),首先采用層次聚類把異構(gòu)日志依據(jù)格式信息進(jìn)行分類并索引,然后針對每一種日志類型進(jìn)行自然語言處理中常用的分詞處理,并構(gòu)建日志間的距離函數(shù),應(yīng)用基于密度的方法進(jìn)行聚類,進(jìn)而提取日志模板。

        1.1.2 基于啟發(fā)式的日志解析

        基于啟發(fā)式的日志模板抽取方法是根據(jù)日志的格式信息或日志中的詞信息得到適合日志的啟發(fā)式算法并提取模板。Du 和Li[7]提出的Spell(a structured streaming parser for event logs using an longest common subsequence)方法是基于流模式的最長公共子序列匹配的思想提取出日志模板,解決了日志模板的在線提取問題。實驗結(jié)果表明,該方法和其之前的離線算法相比,在準(zhǔn)確度和效率上都有明顯提升。He 等人[8]提出的Drain(a fixed depth tree based online log parsing)方法是以流的工作方式,在領(lǐng)域知識的基礎(chǔ)上對相同類型日志建立正則表達(dá)式,對原始日志預(yù)處理,根據(jù)日志長度把日志分組,并把日志長度作為樹結(jié)構(gòu)的第一層節(jié)點。對于新的一條原始日志,首先預(yù)處理,然后遍歷第一層節(jié)點,找到其所屬的長度分組,根據(jù)預(yù)處理后日志的第一個標(biāo)識符遍歷樹結(jié)構(gòu)的第二層。以此類推,樹的葉子節(jié)點是當(dāng)前具有相似日志結(jié)構(gòu)的日志集合,遍歷到葉子節(jié)點層時,計算新日志和已知日志模板的相似度,比較其和事先定義閾值的大小,確定所屬分組。

        1.2 日志異常檢測算法

        邏輯回歸是廣泛應(yīng)用于分類的統(tǒng)計模型,通過訓(xùn)練得到邏輯函數(shù),該函數(shù)可以計算問題中所有狀態(tài)的概率,概率最大的狀態(tài)即所屬分類。近年來,國內(nèi)外關(guān)于邏輯回歸的研究成果主要集中在數(shù)據(jù)預(yù)處理、標(biāo)簽噪聲問題、算法的優(yōu)化(如梯度下降法、坐標(biāo)下降法及自適應(yīng)隨機(jī)梯度下降法)及并行化實現(xiàn)。Farshchi 等人[9]采用基于回歸的分析技術(shù)來查找操作活動日志與操作活動對云資源的影響之間的相關(guān)性,然后將相關(guān)模型用于導(dǎo)出聲明規(guī)范,該聲明規(guī)范可用于對運(yùn)行中的操作及其對資源的影響進(jìn)行運(yùn)行時驗證。在實驗時注入了隨機(jī)故障,該方法有效地對隨機(jī)注入的故障發(fā)出了警報,能用于對云應(yīng)用操作進(jìn)行異常檢測。

        決策樹(decision tree)常用于數(shù)據(jù)領(lǐng)域的分類和回歸,是一種流行的機(jī)器學(xué)習(xí)手段。Rochmawati等人[10]使用臨床癥狀數(shù)據(jù)集,利用J48 and Hoeffding Tree 決策樹對癥狀進(jìn)行分類,并取得較好結(jié)果。Gavankar 和Sawarkar[11]提出了一種新的算法Eage 決策樹,該算法在訓(xùn)練時構(gòu)造一個單一的預(yù)測模型,該模型考慮了測試數(shù)據(jù)中未知屬性值的所有可能性。它很自然地解決了決策樹歸納法中測試數(shù)據(jù)未知值的處理問題。Sahu 等人[12]提出了一種貪婪的啟發(fā)式二值化策略,以配分函數(shù)作為可分性測度。與大多數(shù)主要的多類支持向量機(jī)(support vector machines,SVM)分類器相比,該方法具有較高的分類精度和較少的計算開銷。Erfani 等人[13]提出了一種混合模型,用無監(jiān)督的深度置信網(wǎng)絡(luò)(deep belief networks,DBNs)提取通用的基礎(chǔ)特征,然后從DBNs 學(xué)習(xí)的特征中訓(xùn)練一類SVM。混合模型不會造成精度損失,且具有可伸縮性。Lin 等人[14]設(shè)計了LogCluster 聚類方法用來識別在線系統(tǒng)問題。Azevedo 等人[15]使用聚類算法檢測衛(wèi)星系統(tǒng)中的異常。Wurzenberger 等人[16]引入了日志數(shù)據(jù)增量聚類的半監(jiān)督概念,它不依賴于日志的語法和語義,通用性較強(qiáng),為基于日志數(shù)據(jù)流的在線異常檢測解決方案奠定了基礎(chǔ)。Rehman 等人[17]通過對主成分分析(principal component analysis,PCA)、稀疏PCA、核PCA 和增量PCA 等不同特征提取算法性能的評價,尋找最優(yōu)的特征提取算法。這些算法與機(jī)器學(xué)習(xí)模型相結(jié)合,提高了高頻預(yù)測的精度。通過對克利夫蘭心衰數(shù)據(jù)庫的分析,評價了這些綜合模型的性能。該實驗結(jié)果表明,核主成分分析算法與線性判別分析模型相結(jié)合,稀疏主成分分析算法與高斯樸素貝葉斯(Gaussian naive Bayes,GNB)模型相結(jié)合,可獲得91.11%的高頻分類準(zhǔn)確率。

        2 架構(gòu)設(shè)計及實現(xiàn)

        2.1 系統(tǒng)框架流程圖

        本文設(shè)計基于邏輯回歸監(jiān)督學(xué)習(xí)的大樣本日志異常檢測優(yōu)化方法,系統(tǒng)框架流程如下。

        (1)對日志使用正則表達(dá)式對所有日志進(jìn)行解析,得到一系列日志模板。

        (2)對每個日志模板,使用獨熱(One-Hot) 編碼進(jìn)行映射,并且在任意時候,其中只有一位有效。

        (3)將所有原始日志以其BlockID 為關(guān)鍵字進(jìn)行分類,相同的BlockID 聚合成日志序列,再利用日志編碼將日志序列進(jìn)行向量化處理,得到一個完整的向量。

        (4)將取得的向量進(jìn)行標(biāo)準(zhǔn)化處理,用邏輯回歸模型進(jìn)行訓(xùn)練,并使用正則化,以使模型能進(jìn)行特征向量的一定取舍,使訓(xùn)練結(jié)果有更佳的性能以及更好的泛化能力。

        (5)對訓(xùn)練所得的模型用測試數(shù)據(jù)進(jìn)行檢測,以檢測本次方法。

        系統(tǒng)架構(gòu)如圖1 所示。

        圖1 基于邏輯回歸監(jiān)督學(xué)習(xí)的大樣本日志異常檢測模型

        2.2 日志解析

        2.2.1 原始日志

        選用Amazon EC2 平臺上的203 節(jié)點集群收集的日志數(shù)據(jù)集,該HDFS 數(shù)據(jù)集屬于大規(guī)模分布式系統(tǒng)產(chǎn)生的日志,是Amazon 公開的生產(chǎn)環(huán)境日志,具有一定的研究價值,可作為日志異常檢測的方法及模型的參考標(biāo)準(zhǔn)。該日志數(shù)據(jù)集HDFS 包含38.7 h的11 175 629 條原始日志記錄,大小為1.6 GB,包含的數(shù)據(jù)塊有575 061 個,其中異常數(shù)據(jù)塊有16 838個。HDFS 日志為每個工作執(zhí)行分配唯一的ID 號,以每個塊ID 劃分為一個時域窗口,每個唯一的塊ID 將日志劃分為一組日志序列,該序列對應(yīng)一系列塊操作,例如分配、寫入、復(fù)制、刪除等。

        2.2.2 日志特征

        (1)日志格式為日期+時間+時間參數(shù)+日志級別(INFO 和WARN) +數(shù)據(jù)操作者+具體信息。具體示例為081110 123628 11303 INFO dfs.DataNode $ PacketResponder: Received block blk88601410 04676523018 of size 67108864 from/10.250.13.240。

        (2) 每條日志都有數(shù)據(jù)塊的號碼,如blk_8860141004676523018。

        (3)有些數(shù)據(jù)塊日志數(shù)量極少,僅有2 條日志3418 個數(shù)據(jù)塊。

        (4)日志中出現(xiàn)的詞的字?jǐn)?shù)統(tǒng)計分布極其不平衡,日志信息中單詞頻繁度的不平衡特征會影響傳統(tǒng)文本挖掘技術(shù)對日志進(jìn)行研究的效果。如基于頻繁項日志挖掘算法和聚類算法。

        (5)日志記錄的語法結(jié)構(gòu)非常弱,但是字段及其參數(shù)之間仍然有相當(dāng)?shù)倪壿嬯P(guān)系和語義關(guān)系。

        (6)日志冗余信息較多,許多日志異常檢測算法利用此特點,根據(jù)不同的窗口定義方法,得到以相同日志出現(xiàn)次數(shù)為特征的特征矩陣。

        (7)相同源的日志數(shù)據(jù)有相同的結(jié)構(gòu),不同源的日志數(shù)據(jù)有不同的結(jié)構(gòu),大多數(shù)現(xiàn)有的日志數(shù)據(jù)聚類算法隱式地或明確地利用了日志結(jié)構(gòu)的這一特點。

        (8)日志還有明顯的時序特征,時序數(shù)據(jù)由時間戳、標(biāo)簽和指標(biāo)三要素組成。時間戳表明數(shù)據(jù)發(fā)生的時間;標(biāo)簽為屬性信息,表明數(shù)據(jù)屬于的設(shè)備/模塊,不隨著時間變化;指標(biāo)為統(tǒng)計數(shù)據(jù)、狀態(tài)指標(biāo)。

        2.2.3 日志預(yù)處理

        (1)日志解析

        日志解析通常作為后續(xù)日志分析任務(wù)的第一步,是訓(xùn)練機(jī)器學(xué)習(xí)模型的必要數(shù)據(jù)預(yù)處理步驟。將文本日志消息解析為結(jié)構(gòu)化格式可以有效地搜索、過濾、分組、計數(shù)和進(jìn)行復(fù)雜的日志挖掘。

        數(shù)據(jù)清洗:通過對大量的日志事件進(jìn)行觀察發(fā)現(xiàn),一些標(biāo)記變量通常都是以數(shù)字、IP 地址、端口號、塊大小等形式出現(xiàn),或者這些標(biāo)記中包含了大括號、中括號、圓括號,再或者標(biāo)記中有下劃線、斜線、反斜線等。這些標(biāo)記在事件消息中非常容易辨認(rèn),可以使用規(guī)則定義的方法進(jìn)行識別。因此,通過定義顯式的規(guī)則表達(dá)來描述這些典型的標(biāo)記變量,并將這些標(biāo)記變量使用空來表示。這一步驟之后,剩下的標(biāo)記為候選的標(biāo)記常量?;谝陨先罩镜奶攸c及日志分析的目的,本次預(yù)處理只提取具體信息部分,日志開頭的日期時間及日志級別均不作提取,且對于每條日志的信息部分,本次用正則表達(dá)式來進(jìn)行解析。

        算法:以每條日志為單位,將其中的關(guān)鍵字(非關(guān)鍵字及數(shù)字等除外)保留,以作為依據(jù)判斷為某個特征語句。而其中的非關(guān)鍵字,即日志中的日期、時間、級別直接刪除,IP 地址、端口號、塊大小等帶數(shù)字信息標(biāo)記為變量,以“*”代替。示例如下:

        (2)日志模板提取

        提取日志模板是處理海量系統(tǒng)日志十分有效的方法。其對所有日志進(jìn)行處理,得到一個不含任何參數(shù)信息的通用日志,并進(jìn)行去重處理,最后得出相互獨立的日志,且每種格式代表不同種類的日志消息,這些日志就稱為日志模板,由這些模板可以組成各種各樣的日志。

        算法:根據(jù)上一步的日志解析方法,將所有日志解析成不帶參數(shù)的通用日志,然后將得到的日志進(jìn)行去重處理,最后得到的日志即為需要的日志模板。

        優(yōu)勢:由于該算法使用正則表達(dá)式,能準(zhǔn)確提取出日志的關(guān)鍵字,且手動去重解析后的日志比其他算法(如基于聚類思想和基于啟發(fā)式)的準(zhǔn)確率高。在相對不復(fù)雜的日志結(jié)構(gòu)中,是一個比較理想的選擇。

        算法偽碼如算法1~算法3 所示。

        用正則表達(dá)式即可提取出日志模板,得到一個非重復(fù)的日志模板,如表1 所示。

        表1 本數(shù)據(jù)集日志模板

        2.3 特征處理

        2.3.1 日志向量化處理

        算法:將54 條日志用一個54 個行列的單位矩陣表示,矩陣每行表示一條日志,且單位矩陣中的每個向量是正交關(guān)系,即每個向量相互獨立,所以每條日志也是相互獨立。

        每個日志模板與一個單位向量形成一一對應(yīng)的關(guān)系,且單位向量兩兩正交,所以日志之間無關(guān)聯(lián),即不會相互影響。

        獲得的文件包括日志模板及每個模板的向量。

        2.3.2 樣本特征向量化

        算法:將所有日志依據(jù)不同的BlockID 創(chuàng)建一個log 文件(如沒有該文件),相同的BlockID 則放入相同的文件中,然后再根據(jù)每個文件,讀出所有的日志。根據(jù)上述中的日志解析方法解析出日志后,對比日志模板中的向量表,找出該條日志的向量,并相加于該BlockID 的向量,如此循環(huán),直到日志讀取完畢,得到的向量即為該BlockID 的向量。

        算法偽碼如算法6 和算法7 所示。

        得到每個BlockID 與其日志序列相對應(yīng)的向量表,該表可作為后續(xù)模型訓(xùn)練直接使用的數(shù)據(jù)樣本。

        2.3.3 日志標(biāo)簽處理

        算法:將每個block 的標(biāo)簽加到對應(yīng)的每個BlockID 的額外向量中,即數(shù)據(jù)+標(biāo)簽,其中最后一維為標(biāo)簽。

        算法偽碼如算法8 所示。

        得到一個數(shù)據(jù)文件,該文件不含表頭,但包含每個樣本值及對應(yīng)的標(biāo)簽值。同時,該文件可作為后續(xù)監(jiān)督學(xué)習(xí)模型的直接輸入數(shù)據(jù)樣本。

        2.4 異常檢測

        2.4.1 樣本選擇

        本次訓(xùn)練按照經(jīng)典的比例選擇訓(xùn)練和測試樣本。

        訓(xùn)練樣本:575 061×75%=431 300。

        測試樣本:575 061×25%=143 761。

        2.4.2 數(shù)據(jù)處理技術(shù)

        (1)數(shù)據(jù)標(biāo)準(zhǔn)化處理

        此樣本中有些特征的方差過大,會主導(dǎo)目標(biāo)函數(shù)從而使參數(shù)估計器無法正確地學(xué)習(xí)其他特征,所以需要對數(shù)據(jù)作標(biāo)準(zhǔn)化處理。標(biāo)準(zhǔn)化處理有兩個好處,一個是提升模型精度,標(biāo)準(zhǔn)化/歸一化使不同維度的特征在數(shù)值上更具比較性,提高分類器的準(zhǔn)確性;另一個是提升收斂速度,對于線性模型,數(shù)據(jù)歸一化使梯度下降過程更加平緩,更易正確地收斂到最優(yōu)解。

        其算法適用于本身服從正態(tài)分布的數(shù)據(jù),所以本次使用標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化算法對向量進(jìn)行預(yù)處理,用來去均值和方差歸一化,且針對每一個特征維度,而不是針對樣本。標(biāo)準(zhǔn)化的縮放通過方差和每個點都相關(guān),即每個點都作出了貢獻(xiàn)。

        (2)數(shù)據(jù)正則化處理

        邏輯回歸算法中添加多項式項后,可以對非線性數(shù)據(jù)進(jìn)行分類。添加多項式項后,模型變得復(fù)雜,容易出現(xiàn)過擬合現(xiàn)象。在算法中加入正則化項能在一定程度上避免過擬合問題。見式(1)~(6)。

        回歸函數(shù):

        選擇L2 正則化方法時,代價函數(shù):

        選擇L1 正則化方法時,代價函數(shù):

        選用彈性網(wǎng)絡(luò)函數(shù)時,代價函數(shù):

        其中,ρ控制L1 與L2 的強(qiáng)度,C值表示懲罰值。

        假定目標(biāo)yi在測試時應(yīng)屬于集合[-1,1],可以發(fā)現(xiàn)彈性網(wǎng)絡(luò)函數(shù)在ρ=1 時與L1 正則化等價,在ρ=0 時與L2 正則化等價。

        C值是對錯誤預(yù)測的懲罰值。C值越大,分類器的準(zhǔn)確性越高,但容錯率會越低,泛化能力變差。相反,如果C值較小,分類器則具有較好的容錯率,其泛化能力較好。

        正則化的目的是L1 正則化將系數(shù)w的L1 范數(shù)作為懲罰項加到損失函數(shù)上,由于正則項非零,這就迫使那些弱的特征所對應(yīng)的系數(shù)變成0。因此L1正則化往往會使學(xué)到的模型很稀疏(系數(shù)w經(jīng)常為0),這個特性使得L1 正則化成為一種很好的特征選擇方法。L2 正則化將系數(shù)向量的L2 范數(shù)添加到損失函數(shù)中。由于L2 懲罰項中系數(shù)是二次方的,這使得L2 和L1 有著諸多差異,最明顯的一點是L2正則化會讓系數(shù)的取值變得平均。對于關(guān)聯(lián)特征,這意味著它們能夠獲得更相近的對應(yīng)系數(shù)。

        總的來說,L2 正則化可以防止模型過擬合(overfitting),但一定程度上,L1 也可以防止過擬合。如果特征量很大,數(shù)據(jù)維度很高,傾向于使用L1 正則化;如果目的只是為了防止過擬合,選擇L2 就足夠了。

        3 實驗

        3.1 實驗環(huán)境與實驗數(shù)據(jù)集

        實驗環(huán)境采用華為服務(wù)器FusionServer 2288H V5(CentOS 7.6 系統(tǒng),Intel gold 6248 處理器,384 GB DDR4 內(nèi)存),數(shù)據(jù)集采用Amazon EC2 平臺上的HDFS 原始日志數(shù)據(jù)集,再隨機(jī)抽取其中一部分?jǐn)?shù)據(jù)(所屬數(shù)據(jù)塊有142 730 個)進(jìn)行實驗。所抽取的數(shù)據(jù)中異常數(shù)據(jù)塊的比例與整個數(shù)據(jù)塊一致,以保證該數(shù)據(jù)訓(xùn)練的模型盡可能反映整個數(shù)據(jù)集的特征。

        3.2 實驗指標(biāo)

        (1)精確度(precision)是正確預(yù)測為正的占全部預(yù)測為正的比例,即TP/(TP+FP)。

        (2)召回率(recall)是正確預(yù)測為正的占全部實際為正的比例,即TP/(TP+FN)。

        (3)F1-score 是精確率和召回率的調(diào)和平均數(shù),即2×precision×recall/(precision+recall)。

        (4)準(zhǔn)確率(accuracy)是正確預(yù)測占所有樣本的比例,即(TP+TN)/(TP+TN+FP+FN)。

        (5)受試者工作特性(receiver operating characteristic,ROC)曲線是反映敏感性和特異性的綜合指標(biāo)。

        (6) AUC(area under curve)為ROC 曲線下的面積大小,它能夠量化地反映基于ROC 曲線衡量出的模型性能。

        3.3 實驗方案

        本次通過Amazon EC2 平臺上的HDFS 原始日志數(shù)據(jù)集,使用Python 開發(fā)語言,采用scikit-learn模型庫進(jìn)行實驗。根據(jù)引言中的系統(tǒng)架構(gòu)圖,從原始日志經(jīng)過數(shù)據(jù)解析、特征提取、模型訓(xùn)練后得到相關(guān)參數(shù),并比較模型測試指標(biāo)得到參數(shù)的最優(yōu)解。其實驗步驟如下。

        (1)將日志解析后生成模板。

        (2)模板向量化及特征提取。

        (3)日志序列向量化。

        (4)標(biāo)簽數(shù)字化處理及加入數(shù)據(jù)樣本中。

        (5)數(shù)據(jù)標(biāo)準(zhǔn)化處理。

        (6)使用不同的正則化強(qiáng)度、迭代次數(shù)來進(jìn)行參數(shù)的優(yōu)化。

        (7)得出使得參數(shù)最優(yōu)化的模型。

        本次比較不同的C值(正則化強(qiáng)度相關(guān)參數(shù))及迭代次數(shù)與準(zhǔn)確率、召回率(精確度)、耗時及AUC 的關(guān)系,從中找到使精確度與耗時得到平衡的最佳參數(shù)值。

        3.4 實驗結(jié)果

        3.4.1 迭代次數(shù)選擇

        訓(xùn)練模型時,通常迭代次數(shù)越多,得到的模型越好。但迭代次數(shù)和時間消耗是一對矛盾體,二者不可兼得。此時需要在模型好壞與時間消耗上找到一個平衡點,既能得到盡可能好的模型,又使消耗的時間較少。

        本節(jié)通過比較不同的迭代次數(shù),查看各個不同性能指標(biāo)對變化。

        圖2 和圖3 分別是準(zhǔn)確率、召回率、精確率及F1 值隨著迭代次數(shù)變化的關(guān)系圖。

        圖2 準(zhǔn)確率與迭代次數(shù)的關(guān)系圖

        圖3 召回率、精確率及F1 值與迭代次數(shù)的關(guān)系圖

        實驗結(jié)果表明,當(dāng)?shù)螖?shù)超過80 次時,模型在L1 和L2 正則化方法下均能達(dá)到99.9%以上的準(zhǔn)確率,F1 值達(dá)到99.73%以上,性能指標(biāo)情況見表2。此時訓(xùn)練得到的邏輯回歸模型參數(shù)較好。

        表2 迭代次數(shù)80 次以上時性能指標(biāo)情況

        3.4.2 正則化強(qiáng)度選擇

        邏輯回歸的代價函數(shù)中,加入正則化項后,其代價函數(shù)中參數(shù)C為正則化強(qiáng)度的倒數(shù),為正數(shù),其值更小代表更強(qiáng)的正則化。

        本節(jié)通過比較不同的正則化強(qiáng)度相關(guān)參數(shù),查看各個不同性能指標(biāo)對變化。

        圖4 和圖5 分別是準(zhǔn)確率、召回率、精確率及F1 值隨著C值變化的關(guān)系圖。

        圖4 準(zhǔn)確率與C 值的關(guān)系圖

        圖5 召回率、精確率及F1 值與迭代次數(shù)的關(guān)系圖

        實驗結(jié)果表明,當(dāng)C值約為0.8 時,模型在L1和L2 正則化方法下均能達(dá)到99.9%以上的準(zhǔn)確率,F1 值達(dá)到99.64%以上,性能指標(biāo)情況見表3。此時訓(xùn)練得到的邏輯回歸模型參數(shù)較好。

        表3 C 值約0.8 時性能指標(biāo)情況

        綜上實驗可知,當(dāng)?shù)螖?shù)為80 次,C值約為0.8 時,本模型訓(xùn)練所需時間與模型的性能均能得到較理想的結(jié)果。

        3.4.3 算法對比

        針對已訓(xùn)練的模型參數(shù),選取PCA、DeepLog 算法進(jìn)行對比實驗,其中DeepLog 選用top-2 判斷為預(yù)測正確。實驗結(jié)果見圖6,通過實驗發(fā)現(xiàn)本文訓(xùn)練的邏輯回歸監(jiān)督學(xué)習(xí)方法在召回率、精確率、F1 值方面呈現(xiàn)較好的結(jié)果。

        圖6 PCA、DeepLog 與邏輯回歸監(jiān)督學(xué)習(xí)算法對比

        4 結(jié)論

        針對大數(shù)據(jù)平臺日志數(shù)據(jù)集特點,本文提出一種新的思路對數(shù)據(jù)特征分布不平衡的日志進(jìn)行一系列處理。即用正則表達(dá)式準(zhǔn)確提出日志模板,將日志作為一個詞向量,以BlockID 作為時間窗口域,將屬于每個BlockID 的日志對應(yīng)的向量相加得到該Block 的日志序列化向量;然后使用數(shù)據(jù)標(biāo)準(zhǔn)化處理算法將樣本數(shù)據(jù)進(jìn)行歸一化,再選擇邏輯回歸及正則化進(jìn)行模型訓(xùn)練;最后用測試樣本對訓(xùn)練后的模型進(jìn)行測試,得到使得模型最優(yōu)的參數(shù)及最終的模型。該方法易理解、處理流程較簡單,能廣泛應(yīng)用于大數(shù)據(jù)平臺日志。

        猜你喜歡
        方法模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        學(xué)習(xí)方法
        可能是方法不對
        3D打印中的模型分割與打包
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        賺錢方法
        久久丫精品国产亚洲av不卡| 久久亚洲免费精品视频| 一区二区三区美女免费视频| 中字幕人妻一区二区三区| 亚洲日韩乱码中文无码蜜桃臀| 亚洲老熟妇愉情magnet| 亚洲熟女av在线观看| 中文字幕人妻伦伦| 亚洲aⅴ无码成人网站国产app| 99久久99久久精品免观看| 国产三级不卡在线观看视频| 亚洲精品国偷拍自产在线| 成人看片黄a免费看那个网址| 色欲AV无码久久精品有码| 在线视频精品少白免费观看| 无遮挡1000部拍拍拍免费| 无遮挡边摸边吃奶边做视频免费| 91精品国产免费青青碰在线观看| 在线观看高清视频一区二区三区| 亚洲av色影在线| 韩国精品一区二区三区无码视频| 一本加勒比hezyo无码视频| av免费在线国语对白| 久久久久亚洲精品无码蜜桃| 国产成人精品日本亚洲18| 亚洲乱码中文字幕综合| 日本高清一级二级三级 | 品色永久免费| 国产中文字幕乱码在线| 久久成人精品国产免费网站| 国产黄大片在线观看画质优化 | 亚洲av色香蕉一区二区三区老师| 久久国产精品久久精品国产| 久久高潮少妇视频免费| 女女同恋一区二区在线观看| 蜜臀av 国内精品久久久| 国产美女高潮流白浆在线观看| 精品人妻一区二区三区狼人 | 亚洲精品国产美女久久久| 日本亚洲欧美在线观看| 色小姐在线视频中文字幕|