亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Hadoop 平臺(tái)的快速日志挖掘方法?

        2020-10-09 02:47:56
        關(guān)鍵詞:單詞實(shí)驗(yàn)

        昂 鑫 徐 建 張 宏

        (南京理工大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院 南京 210094)

        1 引言

        隨著互聯(lián)網(wǎng)和電子商務(wù)的不斷發(fā)展,越來(lái)越多的人選擇網(wǎng)上購(gòu)物,這些用戶(hù)訪問(wèn)、交易的過(guò)程和系統(tǒng)狀態(tài)都會(huì)以日志的形式記錄下來(lái)。顯然這些日志數(shù)據(jù)是異構(gòu)的,且數(shù)量巨大,并且,其中蘊(yùn)含著很多有價(jià)值的信息。比如,通過(guò)挖掘Web 日志,可以統(tǒng)計(jì)分析出服務(wù)器在不同時(shí)段的用戶(hù)訪問(wèn)量,訪問(wèn)者IP 地址的分布情況,訪問(wèn)網(wǎng)頁(yè)的時(shí)間等,然后給用戶(hù)定向推送相關(guān)產(chǎn)品信息和廣告。再比如,可通過(guò)日志分析某網(wǎng)站訪問(wèn)量是否異常,進(jìn)而判斷是否有黑客攻擊或者非法鏈接請(qǐng)求等,所以,日志挖掘是非常有意義的工作。然而,一個(gè)可接受的日志標(biāo)準(zhǔn)還沒(méi)有被開(kāi)發(fā),因此,如何快速解析來(lái)自不同系統(tǒng)的日志數(shù)據(jù)是一個(gè)極具挑戰(zhàn)性的問(wèn)題。

        目前已知的日志模式發(fā)現(xiàn)方法主要分為兩大類(lèi):基于正則表達(dá)式的日志匹配方法,基于聚類(lèi)算法的日志模式識(shí)別。許多公司開(kāi)發(fā)了日志分析工具,如:Splunk,Sumo Logic,loggly,LogEntries 等,還有一些開(kāi)源軟件包也被用于日志分析,如Elastic-Search[1],OSSIM[2]等。這些工具和軟件包大多使用正則表達(dá)式來(lái)匹配日志數(shù)據(jù),僅支持監(jiān)督匹配,不適用于大量異構(gòu)日志。此外,正則表達(dá)式的編寫(xiě)過(guò)程復(fù)雜、容易產(chǎn)生沖突的特點(diǎn)給日志分析工作帶來(lái)了很大的困難。尤其,過(guò)度泛化的正則表達(dá)式規(guī)則降低了日志數(shù)據(jù)的處理效率。Vaarandi[3]開(kāi)發(fā)了簡(jiǎn)單的日志文件聚類(lèi)工具SLCT。SLCT 本質(zhì)上是基于頻繁單詞的聚類(lèi)算法,即具有相同頻繁單詞的日志會(huì)被聚集在一起。SLCT 利用了日志中單詞的高度傾斜分布的特點(diǎn)進(jìn)行聚類(lèi),該特點(diǎn)也被很多日志挖掘聚類(lèi)算法應(yīng)用。Makanju 等[4~6]在日志數(shù)據(jù)分析方面開(kāi)展了一系列工作。在文獻(xiàn)[6]中,作者提出了IPLoM,這是一種迭代的日志聚類(lèi)算法,實(shí)驗(yàn)證明了該算法優(yōu)于其他日志聚類(lèi)算法,比如上文提到的SLCT。但是IPLoM 易生成小的、沒(méi)有統(tǒng)計(jì)意義的簇碎片,簇質(zhì)量也難以控制。尤其是,IPLoM假設(shè)等長(zhǎng)的日志具有相同格式,使得它不適合在大量異構(gòu)日志中使用。C.Xu 等[7]提出了一種無(wú)自定義參數(shù)的聚類(lèi)Web日志的算法,然而該算法的時(shí)間復(fù)雜度為O(n3),其中n 是日志的數(shù)量,不能擴(kuò)展到大數(shù)據(jù)集。Xia Ning 等[8]研究了一種無(wú)監(jiān)督的HLAer 框架,該框架用于自動(dòng)解析異源日志數(shù)據(jù),對(duì)異構(gòu)日志具有健壯性,由于運(yùn)行需要大量的內(nèi)存開(kāi)銷(xiāo),所以也不可擴(kuò)展。以上的算法或工具的共同問(wèn)題在于:無(wú)法擴(kuò)展到大量異構(gòu)日志數(shù)據(jù)集中。

        近年來(lái),Hadoop 平臺(tái)在處理大數(shù)據(jù)集上表現(xiàn)出了優(yōu)異的性能,MapReduce 是Hadoop 平臺(tái)的計(jì)算框架。李洋等[9]研究了基于Hadoop 與Storm 的日志實(shí)時(shí)處理系統(tǒng),實(shí)驗(yàn)證明了在四個(gè)節(jié)點(diǎn)的集群環(huán)境下提取相同頻繁項(xiàng)集的運(yùn)行時(shí)間比單機(jī)大約減少了一半。吳潔明等[10]提出了一種基于Hadoop的Web 應(yīng)用日志挖掘算法,該算法能準(zhǔn)確進(jìn)行日志模式發(fā)現(xiàn),并在效率方面較單節(jié)點(diǎn)模式有著極大的提升。許抗震等[11]研究了基于Hadoop的網(wǎng)絡(luò)日志挖掘方案的設(shè)計(jì),實(shí)驗(yàn)表明了Hadoop 集群擁有良好的計(jì)算擴(kuò)展性,通過(guò)增加節(jié)點(diǎn)的方式,且不需進(jìn)行很多復(fù)雜的配置就能解決海量日志數(shù)據(jù)的處理問(wèn)題。

        因此,本文提出了基于Hadoop 平臺(tái)的快速日志模式發(fā)現(xiàn)方法,該方法在分布式平臺(tái)下,通過(guò)掃描一次日志,就可快速將日志聚類(lèi)并提取相應(yīng)的日志模式。本文主要工作概述如下:1)描述一個(gè)完整的日志模式發(fā)現(xiàn)的框架;2)描述在Hadoop 平臺(tái)下進(jìn)行日志聚類(lèi)和模式發(fā)現(xiàn)算法;3)將本文提出的日志模式發(fā)現(xiàn)方法與HLAer進(jìn)行對(duì)比實(shí)驗(yàn)。

        2 快速的日志模式發(fā)現(xiàn)

        日志來(lái)源于特定的用于系統(tǒng)監(jiān)測(cè)或狀態(tài)感知的組件,通常是基于特定模板產(chǎn)生的,因此具有明確的格式,當(dāng)然產(chǎn)生于不同組件的日志格式不盡相同。本文所提出的快速的日志模式發(fā)現(xiàn)方法就充分考慮了產(chǎn)生日志消息的模板是有限的,不同的日志消息可能源于相同的模板,它們之間存在相關(guān)性的這一特性。這顯然有別于傳統(tǒng)的聚類(lèi)方法,它們將每個(gè)樣本都視為獨(dú)立對(duì)象,并不考慮相互之間的關(guān)系。下文首先通過(guò)一個(gè)實(shí)例闡述日志數(shù)據(jù)的特性,而后設(shè)計(jì)用于快速日志模式發(fā)現(xiàn)的框架,在此基礎(chǔ)上提出一種分布式的日志聚類(lèi)和模式發(fā)現(xiàn)方法。

        2.1 日志實(shí)例和特性分析

        圖1 給出了一個(gè)jenkins 可持續(xù)集成系統(tǒng)的日志作為示例用于闡述日志特性。與文檔,網(wǎng)頁(yè)等同樣采用自然語(yǔ)言的數(shù)據(jù)相比,日志數(shù)據(jù)具有以下特點(diǎn):

        1)日志數(shù)據(jù)的語(yǔ)法結(jié)構(gòu)弱。為了記錄應(yīng)用程序或系統(tǒng)的運(yùn)行狀態(tài),日志通常是簡(jiǎn)短的,且不遵循標(biāo)準(zhǔn)的語(yǔ)法結(jié)構(gòu),因此NLP解析器無(wú)法在日志中識(shí)別有意義的語(yǔ)法。

        2)日志的詞匯量有限,但詞匯統(tǒng)計(jì)呈偏斜分布,某些詞出現(xiàn)的頻率高,有長(zhǎng)尾現(xiàn)象。

        3)基于模板生成日志。由于日志記錄從源代碼生成,具有明確的格式,使得日志數(shù)據(jù)比其他文本數(shù)據(jù)更容易聚類(lèi)。

        4)類(lèi)型相同的日志會(huì)有冗余。日志記錄的冗余是日志數(shù)據(jù)與傳統(tǒng)文本數(shù)據(jù)的主要差異,當(dāng)日志記錄用于管理時(shí),相同類(lèi)型的日志會(huì)重復(fù)多次出現(xiàn),因此,可以對(duì)相同類(lèi)型的日志數(shù)據(jù)進(jìn)行下采樣,以減少內(nèi)存和CPU使用的負(fù)擔(dān),也可提高日志分析的效率。

        圖1 jenkins可持續(xù)集成系統(tǒng)的日志

        圖2 日志模式發(fā)現(xiàn)框架

        2.2 框架

        圖2 給出了日志模式發(fā)現(xiàn)的框架,聚焦于分布式日志模式發(fā)現(xiàn)組件。首先,通過(guò)flume和kafka等構(gòu)成的日志匯集組件將分布式環(huán)境中的日志匯聚到Hadoop 平臺(tái)。然后,對(duì)日志進(jìn)行預(yù)處理,采用聚類(lèi)方法將相似的日志聚集在一起,再利用日志模式識(shí)別方法提取每個(gè)簇的模式。最后,將這些模式傳遞給故障預(yù)測(cè)模型等應(yīng)用。本質(zhì)上,產(chǎn)生的日志模式是將原始日志的特征空間進(jìn)行了降維,且保留了關(guān)鍵特征。最后,根據(jù)模型的預(yù)測(cè)效果,重新選取參數(shù)迭代進(jìn)行日志聚類(lèi)、模式識(shí)別、模型訓(xùn)練等操作,以獲得最佳效果。本文將重點(diǎn)闡述分布式日志模式發(fā)現(xiàn)部分。

        2.3 分布式的日志模式發(fā)現(xiàn)方法

        日志數(shù)據(jù)具有明確的格式,在大量異構(gòu)日志源的情況下,相同日志源的日志很相似,大多只是同類(lèi)型字段的數(shù)值不同,在高維空間中,會(huì)形成完全分離和高度密集的區(qū)域。因此,我們可以充分利用這個(gè)性質(zhì),先將日志數(shù)據(jù)預(yù)處理,再采用One-Pass日志聚類(lèi)方法,只掃描一次日志就可將所有日志準(zhǔn)確聚類(lèi),而不必像傳統(tǒng)聚類(lèi)算法一樣,需要多次迭代尋找簇中心。最后,對(duì)于每個(gè)簇,順序合并日志以生成日志模式。

        2.3.1 標(biāo)記和類(lèi)型檢測(cè)

        首先通過(guò)空格分隔每條日志數(shù)據(jù)來(lái)進(jìn)行預(yù)處理,然后,定義一組類(lèi)型,如date,time,IP,number和URL 等,再用正則表達(dá)式匹配日志和定義的類(lèi)型,并用類(lèi)型值替換實(shí)際值。例如,用date 替換2018-07-09,用IP 替換192.168.1.115。雖然這個(gè)步驟不是強(qiáng)制性的,但是,經(jīng)過(guò)預(yù)處理,日志的相似性度量更加準(zhǔn)確。否則,兩條日志會(huì)因?yàn)橥?lèi)型字段的數(shù)值不同獲得低相似性。因此,為避免產(chǎn)生多余的日志模式,需要進(jìn)行標(biāo)記化和類(lèi)型檢測(cè)。

        2.3.2 日志的相似性度量

        其次,給出日志的相似性度量方法,如果簡(jiǎn)單地從兩條日志的第一個(gè)單詞開(kāi)始按順序比較是否相同,那么就忽略了日志原來(lái)的模板。為了完全捕獲日志的結(jié)構(gòu)和內(nèi)容的相似性,需要先對(duì)齊日志,再計(jì)算相似度。這里采用Smith Waterman[12]算法,它利用動(dòng)態(tài)規(guī)劃的思想從兩條日志的第一個(gè)單詞開(kāi)始向后遞歸地比較,直到最后一個(gè)單詞結(jié)束,期望獲得最大的相似性得分,以此可將日志對(duì)齊,并用一個(gè)得分矩陣記錄當(dāng)前位置日志對(duì)齊的最高分?jǐn)?shù)。得分函數(shù)如式(1):

        其中,L1(i)表示第一條日志的第i個(gè)單詞,L2(j)表示第二條日志的第j個(gè)單詞。S1表示第一條日志的第i個(gè)單詞與第二條日志的第j個(gè)單詞對(duì)齊;S2表示第二條日志的第j 個(gè)單詞與間隙對(duì)齊,相當(dāng)于在第一條日志的第i個(gè)單詞后面添加了一個(gè)間隙;同理,S3表示第一條日志的第i個(gè)單詞與間隙對(duì)齊。如此向前迭代并更新得分矩陣,最終通過(guò)回溯得分矩陣得到對(duì)齊的日志,回溯的路徑長(zhǎng)度就是對(duì)齊后日志的長(zhǎng)度。對(duì)齊時(shí),為了減少添加間隙,設(shè)定單詞與間隙匹配的得分為0。對(duì)齊后兩條日志長(zhǎng)度相同,將Sim歸一化可得相似度,歸一化表達(dá)式如式(2):

        其中Align(L1)表示對(duì)齊后的第一條日志。

        現(xiàn)在,我們還要定義match 函數(shù)。如果只考慮單詞是否相同,而不考慮語(yǔ)義相似性是不準(zhǔn)確的。例如,在日志中,單詞“mistake”和“error”的含義是相似的,不考慮語(yǔ)義相似性的情況下,相似性度量結(jié)果為0,顯然是不合理的。YH Wang 等[13]使用Word2Vec 模型來(lái)計(jì)算詞向量用于口語(yǔ)檢測(cè),Word2Vec 是用神經(jīng)網(wǎng)絡(luò)把one-hot 形式的詞向量映射為分布式詞向量,分布式詞向量隱含了詞語(yǔ)的信息,兩個(gè)向量夾角的余弦值可以表示詞語(yǔ)的相關(guān)性。于是,這里采用Google 訓(xùn)練好的Word2Vec 模型獲得兩個(gè)單詞的詞向量,若詞向量夾角的余弦值大于閾值MinSim,得分為1,否則為0。match 函數(shù)定義如式(3):

        其中Vec(L1(i))表示第一條日志第i 個(gè)詞向量,Vec(L2(j))表示第二條日志的第j個(gè)詞向量。

        于是,日志間的距離可定義為

        2.3.3 日志聚類(lèi)

        接著,闡述基于One-Pass 的日志聚類(lèi)過(guò)程。定義參數(shù)MaxDistance 來(lái)表示簇中任何日志數(shù)據(jù)與簇中心之間的最大距離。因此,同一簇中任意兩條日志之間的最大距離為2 倍的MaxDistance。算法從第一條日志數(shù)據(jù)開(kāi)始,逐個(gè)處理所有日志,直到最后一條。每個(gè)簇都有一個(gè)簇中心,它也是該簇的第一個(gè)成員。當(dāng)任意新的日志和簇中心之間的距離小于等于MaxDistance 時(shí),則將它插入該簇中,若與所有簇中心都不相似,就創(chuàng)建一個(gè)新簇并將其作為該簇的中心。

        由于內(nèi)存中的每個(gè)簇只需保留一個(gè)簇中心,因此可以用少量的內(nèi)存來(lái)處理大量日志。One-Pass聚類(lèi)算法的時(shí)間復(fù)雜度為O(n),其中n 為日志總數(shù)。由于相同簇的日志數(shù)據(jù)相似度極高,而且大多由同一應(yīng)用程序的同一段代碼生成,因此在準(zhǔn)確聚類(lèi)的前提下,算法忽略了大量的日志。當(dāng)參數(shù)MaxDistance 較小時(shí),使用One-Pass 聚類(lèi)算法可以生成高密度的日志簇。One-Pass 聚類(lèi)算法對(duì)日志數(shù)據(jù)的順序(通常是時(shí)間順序)具有很強(qiáng)的依賴(lài)性,尤其是在聚類(lèi)的早期,當(dāng)每個(gè)模式的第一條日志出現(xiàn)時(shí),就會(huì)形成一個(gè)簇,這樣,短時(shí)間內(nèi)易形成多個(gè)簇,而剩余的日志將必須與多個(gè)簇中心進(jìn)行比較。然而,來(lái)自同一應(yīng)用程序的日志數(shù)據(jù)往往同時(shí)出現(xiàn)多條,這樣更有利于One-Pass聚類(lèi)。

        One-Pass 可以在map-reduce 框架下并行執(zhí)行。在map 函數(shù)中,對(duì)于每條日志,創(chuàng)建一個(gè)鍵值對(duì),鍵為固定值(可以為1),這是為了最終在reduce函數(shù)合并成一個(gè)日志列表,列表中的每條日志都是一個(gè)簇中心。值是經(jīng)過(guò)預(yù)處理的日志列表(初始大小為1,只有一條日志)。在reduce 函數(shù)中,合并兩個(gè)日志列表,具體來(lái)說(shuō),把包含日志多的的列表作為基本列表,然后將另一列表中的日志逐條與基本列表中的每條日志對(duì)比,當(dāng)日志與基本列表中所有日志都不相似時(shí)則可作為新的簇中心添加到基本列表中,否則,忽略該日志。最后,基本列表即為合并結(jié)果。由于需要為每條日志創(chuàng)建一個(gè)鍵值對(duì),因此map-reduce實(shí)現(xiàn)的空間復(fù)雜度是O(n),n是日志總數(shù)。

        Reduce函數(shù):

        2.3.4 日志的模式發(fā)現(xiàn)

        最后,給出完整的日志模式發(fā)現(xiàn)算法,將簇中的所有日志生成一個(gè)模式。我們可以先合并兩條日志,再推廣到一組日志。由于之前聚類(lèi)時(shí)將每條日志依次與所有簇中心對(duì)齊,再度量距離,以確定其所屬的簇。為了避免當(dāng)前日志的對(duì)齊影響后續(xù)日志的度量,所以,度量距離后,簇中心和對(duì)比的日志都應(yīng)當(dāng)還原。那么,在合并兩條日志時(shí),仍然需要先采用Smith Waterman 算法對(duì)齊日志,對(duì)齊后,兩條日志的長(zhǎng)度相同。然后,將它們按序匹配對(duì)應(yīng)位置的字段,并生成模式。若兩個(gè)字段完全相同,那么取其中一個(gè)作為模式當(dāng)前位置的字段,如果兩個(gè)字段類(lèi)型相同,則取該類(lèi)型作為模式當(dāng)前位置的字段,否則取通配符作為模式當(dāng)前位置的字段,具體算法偽代碼如下。

        由于簇中日志高度聚集的特性,合并的順序不會(huì)影響模式生成的結(jié)果。因此,我們可以從簇的第一條日志開(kāi)始,將它依次與第二、第三,直到最后一條日志合并,最終生成該簇的日志模式。這同樣可以采用map-reduce 框架并行合并日志。由于日志模式發(fā)現(xiàn)是在聚類(lèi)之后進(jìn)行的,因此我們知道每條日志的所屬簇。在map函數(shù)中,為每條日志創(chuàng)建一個(gè)鍵值對(duì),鍵是日志的簇編號(hào),值是日志本身。在reduce 函數(shù)中,將來(lái)自同一個(gè)簇的兩條日志合并。reduce 階段的最終輸出是每個(gè)簇的日志模式。如果忽略map-reduce 框架的開(kāi)銷(xiāo),在m 個(gè)機(jī)器上完全并行運(yùn)行該算法,時(shí)間復(fù)雜度為,其中n是日志數(shù),t為每個(gè)日志的平均單詞數(shù)。

        3 實(shí)驗(yàn)

        3.1 實(shí)驗(yàn)環(huán)境及數(shù)據(jù)

        本文完成了三個(gè)實(shí)驗(yàn)。因?yàn)镠LAer 能非常準(zhǔn)確地發(fā)現(xiàn)日志模式,所以,實(shí)驗(yàn)一是將HLAer 框架作為標(biāo)準(zhǔn),驗(yàn)證本文算法的準(zhǔn)確性。HLAer 使用OPTICS[14]算法聚類(lèi)日志和UPGMA[15]算法生成日志模式。OPTICS 是基于分層的聚類(lèi)算法,有兩個(gè)參數(shù):∈和MinPts。它確保最終的簇至少有MinPts個(gè)對(duì)象,并且簇中任意兩個(gè)對(duì)象之間的最大距離小于等于∈。OPTICS 需要為每條日志計(jì)算MinPts 個(gè)最近鄰,時(shí)間復(fù)雜度為O(n2),它是高度精確的聚類(lèi)算法,可以在高維空間中找到任意形狀和密度的簇。UPGMA 是一個(gè)自下而上的層次聚類(lèi)算法,通過(guò)找到合并日志的最佳順序,從而合并日志生成日志模式。如果有n 條日志,每條日志平均有t 個(gè)字段,則UPGMA 的時(shí)間復(fù)雜度為O(n2t2)。由于HLAer是單機(jī)算法,為了保證比較公平性,實(shí)驗(yàn)中,我們的算法也在相同配置的單機(jī)上運(yùn)行。實(shí)驗(yàn)環(huán)境為Windows 7,64 位操作系統(tǒng),內(nèi)存8GB,硬盤(pán)500GB,CPU 為Inter(R)Core(TM)i5-4570 @3.20GHZ。采用四個(gè)不同的日志集,D1:2000 條Hadoop 集群日志,D2:2000 條jenkins 可持續(xù)集成系統(tǒng)的日志,D3:10000 條企業(yè)web 系統(tǒng)日志。D4:10000條企業(yè)計(jì)費(fèi)系統(tǒng)日志。

        實(shí)驗(yàn)二比較在單機(jī)與分布式平臺(tái)下運(yùn)行本文算法的時(shí)間,實(shí)驗(yàn)采用三個(gè)節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)的環(huán)境為Ubuntu16.04 操作系統(tǒng),內(nèi)存8GB,硬盤(pán)500GB,CPU 為Inter(R)Core(TM)i5-4570 @3.20GHZ。實(shí)驗(yàn)數(shù)據(jù)是按照時(shí)間順序依次選取2000 條、5000 條和10000條Hadoop集群日志,以確保實(shí)驗(yàn)有效性。

        實(shí)驗(yàn)三比較在不同個(gè)數(shù)的節(jié)點(diǎn)下運(yùn)行算法的時(shí)間,實(shí)驗(yàn)環(huán)境與實(shí)驗(yàn)二相同,實(shí)驗(yàn)數(shù)據(jù)是10000條Hadoop集群日志。

        實(shí)驗(yàn)中為了保證模式發(fā)現(xiàn)的準(zhǔn)確性,默認(rèn)將參數(shù)MaxDistance設(shè)定為0.1,MinSim設(shè)定為0.7。

        3.2 評(píng)價(jià)指標(biāo)

        3.2.1 聚類(lèi)的準(zhǔn)確性

        給定n 條日志數(shù)據(jù)S={L1,L2,…,Ln},利用OPTICS 算法進(jìn)行聚類(lèi),得到r 個(gè)簇X={X1,X2,…,Xr},運(yùn)行One-Pass 聚類(lèi)算法,得到s 個(gè)簇Y={Y1,Y2,…,Ys}。OPTICS每個(gè)簇的日志條數(shù)為a={a1,a2,…,ar},One-Pass 算法每個(gè)簇的日志條數(shù)為b={b1,b2,…,b}s,記其中i∈1,...,r, j∈1,...,s,表示被放入在X 中第i 個(gè)類(lèi)且在Y 中第j 個(gè)類(lèi)的日志條數(shù),那么,聚類(lèi)的準(zhǔn)確性定義為

        3.2.2 模式發(fā)現(xiàn)的準(zhǔn)確性

        我們通過(guò)OPTICS 和One-Pass 對(duì)日志數(shù)據(jù)進(jìn)行聚類(lèi),然后給每個(gè)簇用UPGMA 和順序合并的模式發(fā)現(xiàn)算法分別生成一個(gè)模式。我們逐個(gè)字段比較兩個(gè)算法生成的模式。模式發(fā)現(xiàn)的準(zhǔn)確性定義為

        其中,Acci是第i 個(gè)簇的模式發(fā)現(xiàn)的準(zhǔn)確度,是兩個(gè)算法在第i個(gè)簇上生成的兩個(gè)模式之間匹配成功的字段占所有字段的比率,Sizei是第i 個(gè)簇中的日志數(shù)量。

        3.3 實(shí)驗(yàn)結(jié)果及分析

        為了驗(yàn)證本文提出的One-Pass 聚類(lèi)算法和順序合并日志生成模式的準(zhǔn)確性,快速以及內(nèi)存高效,利用上述日志集做出了相關(guān)實(shí)驗(yàn)。

        1)由表1可見(jiàn),基于One-Pass思想的日志聚類(lèi)和順序合并的模式發(fā)現(xiàn)方法與HLAer的OPTICS及UPGMA 相比,在D1,D2 兩個(gè)2000 條的日志集上聚類(lèi)準(zhǔn)確率高達(dá)98%以上,模式發(fā)現(xiàn)的準(zhǔn)確率也在97%以上,在D3,D4 兩個(gè)10000 條日志集上聚類(lèi)準(zhǔn)確率在96%左右,模式發(fā)現(xiàn)的準(zhǔn)確率在94%左右,且內(nèi)存開(kāi)銷(xiāo)遠(yuǎn)遠(yuǎn)低于HLAer,運(yùn)行時(shí)間大約是HLAer 的10%。說(shuō)明本文提出的算法準(zhǔn)確、快速、內(nèi)存高效。

        2)由表2 可見(jiàn),在不同規(guī)模的日志集上,采用三個(gè)節(jié)點(diǎn)搭建的Hadoop 分布式集群運(yùn)行算法。當(dāng)只有2000 條日志時(shí),執(zhí)行算法本身所需的時(shí)間不長(zhǎng),由于Map-Ruduce框架的開(kāi)銷(xiāo),分布式環(huán)境相比單機(jī)來(lái)說(shuō),在運(yùn)行時(shí)間上優(yōu)勢(shì)不明顯;隨著數(shù)據(jù)量的增大,分布式環(huán)境在執(zhí)行效率上體現(xiàn)出了優(yōu)勢(shì)。

        3)由圖3 可見(jiàn),在相同規(guī)模的日志集上,隨著節(jié)點(diǎn)數(shù)目的增加,算法的執(zhí)行效率也得到了相應(yīng)的提高。但是,當(dāng)節(jié)點(diǎn)數(shù)目超過(guò)8 個(gè)以后,執(zhí)行效率提高的越來(lái)越少,由此可見(jiàn),為了最大化資源利用率,需根據(jù)數(shù)據(jù)集的大小選擇合適的節(jié)點(diǎn)數(shù)目。

        表1 單機(jī)版的順序日志聚類(lèi)和模式識(shí)別算法與HLAer算法比較

        表2 單機(jī)與分布式環(huán)境下算法的運(yùn)行時(shí)間(單位:s)

        圖3 不同個(gè)數(shù)節(jié)點(diǎn)的運(yùn)行時(shí)間

        4 結(jié)語(yǔ)

        本文針對(duì)大量異構(gòu)日志進(jìn)行聚類(lèi)和模式發(fā)現(xiàn)的主要挑戰(zhàn),根據(jù)日志數(shù)據(jù)的特點(diǎn),提出了一種基于Hadoop 平臺(tái)的日志模式發(fā)現(xiàn)方法,在四個(gè)不同規(guī)模的日志數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明了該方法在準(zhǔn)確聚類(lèi)和模式發(fā)現(xiàn)的前提下,內(nèi)存開(kāi)銷(xiāo)和運(yùn)行時(shí)間大大降低。該方法具有無(wú)監(jiān)督、可擴(kuò)展、快速,內(nèi)存高效且準(zhǔn)確的特點(diǎn),可為企業(yè)處理大規(guī)模日志數(shù)據(jù)提供一種可行的解決方案。當(dāng)然,在預(yù)處理階段,對(duì)于大量異構(gòu)日志,該方法仍然需要先驗(yàn)知識(shí)和人工干預(yù),這個(gè)問(wèn)題有待進(jìn)一步的研究。

        猜你喜歡
        單詞實(shí)驗(yàn)
        What’s This?
        Exercise 1
        記一次有趣的實(shí)驗(yàn)
        微型實(shí)驗(yàn)里看“燃燒”
        單詞連一連
        做個(gè)怪怪長(zhǎng)實(shí)驗(yàn)
        看圖填單詞
        看完這些單詞的翻譯,整個(gè)人都不好了
        NO與NO2相互轉(zhuǎn)化實(shí)驗(yàn)的改進(jìn)
        實(shí)踐十號(hào)上的19項(xiàng)實(shí)驗(yàn)
        太空探索(2016年5期)2016-07-12 15:17:55
        国产精品又爽又粗又猛又黄 | 免费国产h视频在线观看86| 日本一区二区啪啪视频 | 人妻插b视频一区二区三区| 无码人妻精品一区二区三18禁| 国产成人cao在线| 亚洲中文字幕在线第六区| 亚洲夜夜性无码| 精品国产18久久久久久| 国内视频一区| 国产人妖视频一区二区| 亚洲av无码专区在线观看下载| 国产成人精品成人a在线观看| 亚洲精品日本| 日本乱熟人妻中文字幕乱码69| 朝鲜女人大白屁股ass孕交| 国产美女在线精品免费观看网址| 亚洲a人片在线观看网址| 色婷婷亚洲精品综合影院| 久久精品国产清自在天天线| 亚洲免费人成在线视频观看| 日韩人妻无码精品二专区| 熟女人妻在线中文字幕| 无码中文字幕免费一区二区三区 | 91精品啪在线观看国产18| 国产午夜精品av一区二区三| 人人妻人人澡人人爽人人精品浪潮| 亚洲综合无码无在线观看| 亚洲国产一区二区三区在线视频| 加勒比av在线一区二区| 人成午夜免费视频无码| 欧韩视频一区二区无码| 国产精品久久夜伦鲁鲁| 国产亚洲精品久久午夜玫瑰园| 少妇人妻偷人精品免费视频| 午夜国产精品久久久久| 成年网站在线91九色| 日本入室强伦姧bd在线观看| 久久精品国产免费观看99| 亚洲国产av高清一区二区三区| 99久久99久久精品免费看蜜桃|