亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于日志信息的大規(guī)模網(wǎng)絡(luò)異常讀數(shù)檢測方法

        2022-11-29 13:24:14金景峰
        計(jì)算機(jī)仿真 2022年10期
        關(guān)鍵詞:檢測信息方法

        薛 瑩,金景峰

        (1. 陜西警官職業(yè)學(xué)院,陜西 西安 710021;2. 陸軍裝備部裝備項(xiàng)目管理中心,北京 100072)

        1 引言

        異常讀數(shù)是與同一數(shù)據(jù)集中絕大多數(shù)讀數(shù)偏離的數(shù)據(jù),通常與常規(guī)數(shù)據(jù)表現(xiàn)出不同的屬性[1],可由執(zhí)行錯誤、度量誤差、數(shù)據(jù)變異等眾多原因造成。異常讀數(shù)檢測是在大量數(shù)據(jù)中提取極少部分?jǐn)?shù)據(jù)的操作,但這部分?jǐn)?shù)據(jù)能夠提供極高價值,其中包含的信息在網(wǎng)絡(luò)入侵檢測[2]、疾病診斷、災(zāi)害預(yù)測、金融欺詐等多種領(lǐng)域中均具有重要作用[3],在新事物、新規(guī)律的分析與掌握中也是不容忽視的存在。目前國內(nèi)外業(yè)界學(xué)者在異常讀數(shù)檢測中投入極大的關(guān)注,對異常讀數(shù)檢測深入研究十分必要。

        張倩倩[4]等人引入孤立度模塊和放大因子優(yōu)化傳統(tǒng)AP聚類算法,采用優(yōu)化后的APO算法,放大異常讀數(shù)與正常數(shù)據(jù)之間的差別,完成數(shù)據(jù)離群點(diǎn)檢測。張忠平[5]等人結(jié)合熵權(quán)距離和自然鄰居估計(jì)網(wǎng)絡(luò)讀數(shù)的高斯核密度,采用相對距離檢測讀數(shù)偏離鄰域的程度,加入相對熵權(quán)密度離群因子檢測網(wǎng)絡(luò)異常讀數(shù)。邱華[6]等人采用極限學(xué)習(xí)機(jī)訓(xùn)練網(wǎng)絡(luò)數(shù)據(jù),獲取局部離群因子閾值,應(yīng)用該閾值聚類處理數(shù)據(jù),完成網(wǎng)絡(luò)異常讀數(shù)檢測。以上方法沒有在檢測異常讀數(shù)前對大規(guī)模數(shù)據(jù)加以處理,導(dǎo)致存在準(zhǔn)確率和檢測率低、誤判率高、檢測時間長的問題。

        為了解決上述方法中存在的問題,提出基于日志信息的大規(guī)模網(wǎng)絡(luò)異常讀數(shù)檢測方法。

        2 日志信息預(yù)處理

        由于網(wǎng)絡(luò)日志信息大規(guī)模、高維度、強(qiáng)時間關(guān)聯(lián)、非結(jié)構(gòu)化等特性,使其在直接用于網(wǎng)絡(luò)異常讀數(shù)檢測時存在一定困難,預(yù)處理網(wǎng)絡(luò)日志信息能夠降低后續(xù)檢測難度。

        2.1 日志信息提取與融合

        由于網(wǎng)絡(luò)日志信息并非統(tǒng)一格式,若單獨(dú)分析全部格式,會導(dǎo)致工作量大幅度提升,造成大量時間和資源的浪費(fèi),因此引入抽象算法合并不同格式日志信息并提取其中統(tǒng)一的網(wǎng)絡(luò)事件,從而提高日志信息的可靠性,減少冗余信息造成的工作量。提取網(wǎng)絡(luò)事件需要建立包括對象和時間的提取目標(biāo)并采用該目標(biāo)搜尋相關(guān)日志信息,抽象化網(wǎng)絡(luò)事件。

        1)建立事件提取源Q搜尋準(zhǔn)則:對于日志信息集合中的任意信息,若該信息同時具有不同記錄時間、源位置和目標(biāo)位置[7],則認(rèn)為該信息的結(jié)構(gòu)為一個Q。依據(jù)搜尋準(zhǔn)則,若成功實(shí)現(xiàn)Q的提取,則執(zhí)行步驟2),反之算法結(jié)束;

        (1)

        其中,t、src和des分別表示Ui和Q對應(yīng)的時間、源位置和目標(biāo)位置指標(biāo)。

        3)通過δi和λi計(jì)算時間t對應(yīng)的安全系數(shù)SQ如下所示

        (2)

        (3)

        5)根據(jù)步驟1)到4),得到新事件,由參數(shù)SQ和Lr構(gòu)成;

        6)采用全部構(gòu)成新事件集合{}。

        通過以上方法,將日志信息統(tǒng)一為規(guī)范的事件。

        由于算法的局限性,對網(wǎng)絡(luò)事件提取后,仍有冗余數(shù)據(jù)存在,因此還需對事件融合處理[8]。設(shè)定融合距離,若事件a與事件b之間的距離小于融合距離,則融合事件a與事件b為新事件。事件融合具體流程如下所示:

        1)設(shè)置計(jì)數(shù)器a=0、b=1和融合距離φ;

        2){}中共包含m個新事件,若m>b,則計(jì)算a與b之間距離φ,反之結(jié)束計(jì)算;

        3)若φ<φ,則執(zhí)行步驟4),若φ≥φ,則執(zhí)行步驟5);

        5)a+1,b+1,返回步驟1)。

        通過以上方法融合日志信息中較為相似的網(wǎng)絡(luò)事件,減輕后續(xù)計(jì)算負(fù)擔(dān)。

        2.2 日志信息降維

        在日志信息中存在“維數(shù)災(zāi)難”的問題,解決該問題的必要途徑就是降維[9],從而提高樣本密度,降低信息損失。引入核主成分分析算法對提取融合后的日志信息降維處理[10],用gk表示屬性空間m個數(shù)據(jù)中的第k個數(shù)據(jù),Ψ(gk)和Ψ(gj)分別表示gk和gj在高維空間中映射的像,計(jì)算中心化后數(shù)據(jù)協(xié)方差矩陣[11]

        (4)

        用τ和ξ分別表示H的特征值和特征向量,ck表示gk的數(shù)據(jù)中心,τ和ξ存在如下關(guān)系

        τH=ξH

        (5)

        將另一像Ψ(gi),i∈[1,m]與式(5)作內(nèi)積,得到

        (6)

        用ε表示gk和gj的核,Φ表示核矩陣,計(jì)算方式如下所示

        (7)

        常用核函數(shù)主要為高斯核函數(shù)ε(gk,gj)1和多項(xiàng)式核函數(shù)ε(gk,gj)2[12],對應(yīng)表達(dá)式如下所示

        (8)

        式中,σ為高斯核帶寬,σ>0,r為[1,m]中的整數(shù)。根據(jù)以上計(jì)算,得到日志信息數(shù)據(jù)在低維空間中的投影,完成數(shù)據(jù)降維。

        3 大規(guī)模網(wǎng)絡(luò)異常讀數(shù)檢測

        為了檢測日志信息的大規(guī)模網(wǎng)絡(luò)異常讀數(shù),提出結(jié)合時空關(guān)聯(lián)性的分階段計(jì)算與過濾異常讀數(shù)檢測算法。

        (9)

        (10)

        通過式(10)可以獲取讀數(shù)相異程度,設(shè)定閾值k,選取式(10)計(jì)算結(jié)果中前k個讀數(shù)建立候選異常讀數(shù)集W,具體流程如下所示:

        1)在第一個時間區(qū)間T1內(nèi),利用式(9)分別求解ω、gmin和gmax,通過式(10)計(jì)算γ(·)并保存前k個(k

        (11)

        利用式(11)和式(10)分別計(jì)算增量和距離,若候選異常讀數(shù)集中距離最小值小于γ(·),則采用新讀數(shù)替換原候選異常讀數(shù)。

        存儲讀數(shù)并發(fā)送至空間鄰居,重復(fù)步驟2),直至完成全部時間區(qū)間內(nèi)的讀數(shù)計(jì)算。

        (12)

        式中,σ取值越大,則γ(·)所占比例越高,γ′占比越低,μ的主要作用是檢測候選異常讀數(shù)點(diǎn)集中某點(diǎn)是否為真正異常讀數(shù),通常σ∈[0,0.5)。

        在M個讀數(shù)集中,采用μ最大的k個讀數(shù)構(gòu)成局部異常讀數(shù)點(diǎn)集。

        網(wǎng)絡(luò)節(jié)點(diǎn)通過網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)傳遞k個局部異常讀數(shù)點(diǎn)至sink節(jié)點(diǎn),傳遞采用多跳通信方式,sink節(jié)點(diǎn)將全部收到局部異常讀數(shù)μ排序,其中最大的k個讀數(shù)即為全局異常讀數(shù)。

        通過以上計(jì)算,完成基于日志信息的大規(guī)模網(wǎng)絡(luò)異常讀數(shù)檢測。

        4 實(shí)驗(yàn)與結(jié)果

        為了驗(yàn)證基于日志信息的大規(guī)模網(wǎng)絡(luò)異常讀數(shù)檢測方法整體有效性,需要對其加以測試。

        4.1 實(shí)驗(yàn)數(shù)據(jù)與評價指標(biāo)

        采用4個不同日志信息集作為實(shí)驗(yàn)數(shù)據(jù)對比所提方法、文獻(xiàn)[4]方法和文獻(xiàn)[5]方法的大規(guī)模網(wǎng)絡(luò)異常讀數(shù)檢測效果,日志信息數(shù)據(jù)特征如表1所示:

        表1 日志信息數(shù)據(jù)特征

        對日志信息集1、日志信息集2、日志信息集3和日志信息集4展開實(shí)驗(yàn),以準(zhǔn)確率、檢測率、誤報率和檢測時間為指標(biāo)統(tǒng)計(jì)實(shí)驗(yàn)結(jié)果對比3種方法的有效性。

        用NTP表示異常讀數(shù)被正確判定為異常的數(shù)量,NTN表示非異常讀數(shù)被正確判定為非異常的數(shù)量,NFP表示非異常讀數(shù)被錯誤判定為異常的數(shù)量,NFN表示異常讀數(shù)被錯誤判定為非異常的數(shù)量,準(zhǔn)確率ACC、檢測率DR、誤報率FAR的計(jì)算公式如下所示

        (13)

        4.2 實(shí)驗(yàn)結(jié)果分析

        統(tǒng)計(jì)實(shí)驗(yàn)結(jié)果并加以計(jì)算,得到準(zhǔn)確率、檢測率和誤報率實(shí)驗(yàn)結(jié)果如圖1、圖2和圖3所示。

        由圖1可以看出,所提方法在4個日志信息集的實(shí)驗(yàn)中,準(zhǔn)確率均高于文獻(xiàn)[4]方法和文獻(xiàn)[5]方法,在日志信息集1中準(zhǔn)確率最高,達(dá)到93%以上,在日志信息集2中為4次實(shí)驗(yàn)最低,但仍保持在88%以上,而文獻(xiàn)[4]方法和文獻(xiàn)[5]方法的準(zhǔn)確率大部分在70%到85%之間,僅有文獻(xiàn)[4]方法在日志信息集1中的檢測結(jié)果高于90%,可見文獻(xiàn)[4]方法和文獻(xiàn)[5]方法對異常讀數(shù)檢測的準(zhǔn)確率均低于所提方法,因?yàn)樗岱椒ㄔ跈z測網(wǎng)絡(luò)異常讀數(shù)前對大量日志信息提取、融合并降維處理,降低后續(xù)異常讀數(shù)檢測的復(fù)雜度,提高檢測準(zhǔn)確率。

        圖1 準(zhǔn)確率實(shí)驗(yàn)結(jié)果

        圖2 檢測率實(shí)驗(yàn)結(jié)果

        由圖2可以看出,對于檢測率而言,所提方法的檢測率均高于88%,最高達(dá)到97%左右,文獻(xiàn)[4]方法最高為84%左右,最低未達(dá)到60%,文獻(xiàn)[5]方法最高為85%左右,最低在65%左右,兩者檢測率均低于所提方法,說明所提方法對異常讀數(shù)檢測具有更高的廣泛性,能夠適用于多類型日志信息。

        分析圖3可知,所提方法具有明顯低于文獻(xiàn)[4]方法和文獻(xiàn)[5]方法的誤報率,即所提方法對異常讀數(shù)的判定更為準(zhǔn)確,有效性更高,有助于提取更準(zhǔn)確的異常讀數(shù)用于后續(xù)數(shù)據(jù)分析,更適合應(yīng)用于實(shí)際的網(wǎng)絡(luò)異常讀數(shù)檢測之中。

        圖3 誤報率實(shí)驗(yàn)結(jié)果

        統(tǒng)計(jì)三種方法在4個日志信息集中檢測異常讀數(shù)所用時間,實(shí)驗(yàn)結(jié)果如圖4所示。由圖4可以看出,所提方法在4個日志信息集中的檢測時間均少于文獻(xiàn)[4]方法和文獻(xiàn)[5]方法,即所提方法在相同條件下具有更高的效率,完成同樣工作能夠節(jié)省更多的時間,可以有效避免時間和精力的浪費(fèi)。

        圖4 檢測時間實(shí)驗(yàn)結(jié)果

        5 結(jié)束語

        在傳統(tǒng)數(shù)據(jù)預(yù)處理中,通常會在處理時舍棄異常讀數(shù),或?qū)惓Wx數(shù)作為噪聲對其去噪處理,或?qū)⑵淦交幚恚档推鋵?shù)據(jù)集的影響,但異常讀數(shù)并非無意義數(shù)據(jù),其中蘊(yùn)含著重要的信息,異常讀數(shù)檢測在數(shù)據(jù)挖掘中占據(jù)重要位置。為了解決目前準(zhǔn)確率和檢測率低、誤判率高、檢測時間長的問題,提出基于日志信息的大規(guī)模網(wǎng)絡(luò)異常讀數(shù)檢測方法,預(yù)處理原始日志信息,獲取更利于計(jì)算的低冗余低維度數(shù)據(jù),結(jié)合時空關(guān)聯(lián)性分段檢測大規(guī)模網(wǎng)絡(luò)異常讀數(shù)。該方法能夠有效地提高準(zhǔn)確率和檢測率、降低誤報率、節(jié)省檢測時間,有助于更好的挖掘網(wǎng)絡(luò)異常讀數(shù)用于研究之中。

        猜你喜歡
        檢測信息方法
        “不等式”檢測題
        “一元一次不等式”檢測題
        “一元一次不等式組”檢測題
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        可能是方法不對
        小波變換在PCB缺陷檢測中的應(yīng)用
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        捕魚
        展會信息
        中外會展(2014年4期)2014-11-27 07:46:46
        中文AV怡红院| 色哟哟精品视频在线观看| 曝光无码有码视频专区| 青春草国产视频| 在线一区二区三区免费视频观看| 少妇免费av一区二区三区久久| 国产综合在线观看| 男人扒开女人双腿猛进女人机机里 | 免费国产自拍在线观看| 人妻激情另类乱人伦人妻| 手机看片福利日韩| 男女搞黄在线观看视频 | 久久亚洲精品中文字幕蜜潮| 日本精品视频一区二区三区四区| аⅴ资源天堂资源库在线| 小12箩利洗澡无码视频网站 | 色噜噜狠狠色综合中文字幕| 91精品蜜桃熟女一区二区| 欧美颜射内射中出口爆在线| 麻豆亚洲av永久无码精品久久| 亚洲精品国产老熟女久久| 亚洲av狠狠爱一区二区三区| 国产98色在线 | 国产| 国产 国语对白 露脸| 北岛玲精品一区二区三区| 国产自拍在线观看视频| 亚洲va久久久噜噜噜久久男同| 日本a在线看| 精品av一区二区在线| 色窝窝无码一区二区三区| 亚洲av无码国产剧情| 国产激情久久久久久熟女老人| 中文字幕人妻久久久中出| 亚洲精品无码久久久影院相关影片| 欧美在线专区| av成人资源在线观看 | 韩日午夜在线资源一区二区| 精品国产18禁久久久久久久| 蜜桃视频永久免费在线观看| 久久性爱视频| 18禁免费无码无遮挡网站|