亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于自動(dòng)編碼器的內(nèi)部威脅檢測(cè)技術(shù)

        2022-10-17 13:53:04孫小雙
        關(guān)鍵詞:用戶(hù)檢測(cè)方法

        孫小雙,王 宇

        (1.航天工程大學(xué) 研究生院,北京 101416;2.航天工程大學(xué) 航天信息學(xué)院,北京 101416)

        0 引 言

        相比于外部威脅,內(nèi)部威脅具有隱蔽性、多樣性及高危性。內(nèi)部威脅活動(dòng)通常分布在大量正常行為中,而且內(nèi)部威脅需要處理和分析大量不同類(lèi)型的數(shù)據(jù),從網(wǎng)絡(luò)流量、文件訪(fǎng)問(wèn)日志、電子郵件記錄,到員工信息等,如何從海量數(shù)據(jù)中挖掘關(guān)聯(lián)信息、識(shí)別內(nèi)部威脅依然是內(nèi)部威脅檢測(cè)技術(shù)面臨的難題。

        基于行為特征的內(nèi)部威脅檢測(cè)主要是從數(shù)據(jù)中提取行為特征向量或者對(duì)行為序列建模,在此基礎(chǔ)上進(jìn)行異常檢測(cè)。由于異常行為和異常用戶(hù)具有未知性,異常檢測(cè)方法通常采用無(wú)監(jiān)督學(xué)習(xí)方法。而傳統(tǒng)的無(wú)監(jiān)督機(jī)器學(xué)習(xí)方法受到特征維度限制,本文提出基于自動(dòng)編碼器的內(nèi)部威脅檢測(cè)方法,旨在通過(guò)深度學(xué)習(xí)模型從廣泛的審計(jì)數(shù)據(jù)中學(xué)習(xí)非線(xiàn)性相關(guān)性,檢測(cè)異常行為。

        1 相關(guān)研究

        內(nèi)部威脅檢測(cè)相關(guān)研究較為豐富。文獻(xiàn)[1-3]從不同視角梳理了內(nèi)部威脅的發(fā)展歷程、技術(shù)研究和挑戰(zhàn)等。內(nèi)部威脅檢測(cè)技術(shù)發(fā)展過(guò)程中運(yùn)用的主要方法包括基于規(guī)則的方法、統(tǒng)計(jì)分析法、圖算法、機(jī)器學(xué)習(xí)等。統(tǒng)計(jì)分析法運(yùn)用數(shù)學(xué)方式建立模型,不需要與領(lǐng)域相關(guān)的先驗(yàn)知識(shí),對(duì)異常事件較為敏感,但是由于主觀確定閾值存在有限性和靜態(tài)性?;谝?guī)則的方法利用專(zhuān)家?guī)焐梢?guī)則識(shí)別內(nèi)部惡意人員,在結(jié)果固定且類(lèi)別較少的分類(lèi)中是很有意義的,但是它嚴(yán)重依賴(lài)領(lǐng)域知識(shí),需要不斷對(duì)規(guī)則庫(kù)進(jìn)行更新以應(yīng)對(duì)新威脅。圖算法通過(guò)數(shù)據(jù)間的關(guān)聯(lián)關(guān)系構(gòu)建圖結(jié)構(gòu),根據(jù)圖結(jié)構(gòu)的變化識(shí)別惡意行為。例如,Gamachchi等[4]提出了一個(gè)基于圖形化和異常檢測(cè)技術(shù)的惡意用戶(hù)隔離框架。該架構(gòu)主要由圖形處理單元(GPU)和異常檢測(cè)單元(ADU)兩部分組成,將多維數(shù)據(jù)源的數(shù)據(jù)格式化并送入GPU,GPU生成網(wǎng)絡(luò)信息資產(chǎn)關(guān)系圖,并為每個(gè)用戶(hù)計(jì)算圖參數(shù)。然后將計(jì)算圖和時(shí)變數(shù)據(jù)輸入ADU,執(zhí)行隔離森林算法,輸出每個(gè)用戶(hù)的異常分?jǐn)?shù)作為判斷標(biāo)準(zhǔn)。文獻(xiàn)[5-9]采用淺層機(jī)器學(xué)習(xí)的方法,例如K-means、Support Vector Machine(SVM)、Isolation Forest等,機(jī)器學(xué)習(xí)是在統(tǒng)計(jì)學(xué)的理論基礎(chǔ)上發(fā)展起來(lái)的,相比于統(tǒng)計(jì)分析法,機(jī)器學(xué)習(xí)會(huì)犧牲可解釋性獲得強(qiáng)大的預(yù)測(cè)能力,在實(shí)際應(yīng)用中具有更高的準(zhǔn)確度;而相比基于規(guī)則的算法,機(jī)器學(xué)習(xí)可以不斷學(xué)習(xí)新的規(guī)則,不需要人工更新規(guī)則庫(kù)。但是面對(duì)體量龐大且結(jié)構(gòu)日益復(fù)雜的審計(jì)數(shù)據(jù),傳統(tǒng)機(jī)器學(xué)習(xí)方法受到特征維度等因素的限制,研究者又將目光轉(zhuǎn)向深度學(xué)習(xí)。

        目前,應(yīng)用于內(nèi)部威脅檢測(cè)的深度學(xué)習(xí)模型[10-14]包括卷積神經(jīng)網(wǎng)絡(luò)模型(CNN)、長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)模型(LSTM)、自動(dòng)編碼器神經(jīng)網(wǎng)絡(luò)模型(auto-encoder)等及其改進(jìn)或組合模型。文獻(xiàn)[10]使用卷積層從輸入樣本中捕獲局部特征,然后使用LSTM層考慮這些給定特征的順序。文獻(xiàn)[14]利用集成的深度自編碼器對(duì)重構(gòu)誤差進(jìn)行學(xué)習(xí)實(shí)現(xiàn)異常檢測(cè)。文獻(xiàn)[14]采用LSTM模型和多頭注意力機(jī)制來(lái)檢測(cè)異常網(wǎng)絡(luò)行為模式,并利用Dempster條件規(guī)則對(duì)信念進(jìn)行更新,用于融合證據(jù),實(shí)現(xiàn)增強(qiáng)預(yù)測(cè)。與傳統(tǒng)機(jī)器學(xué)習(xí)相比,深度學(xué)習(xí)不需要復(fù)雜的特征工程,算法適應(yīng)性強(qiáng);而且隨著數(shù)據(jù)量的增大,深度學(xué)習(xí)在學(xué)習(xí)能力和檢測(cè)指標(biāo)上有著更好的表現(xiàn)。

        2 基于自動(dòng)編碼器的內(nèi)部威脅檢測(cè)模型

        基于自動(dòng)編碼器的內(nèi)部威脅檢測(cè)模型采用樹(shù)結(jié)構(gòu)分析方法,從大量審計(jì)日志中分析并構(gòu)建基于樹(shù)結(jié)構(gòu)的用戶(hù)行為特征圖,并將樹(shù)節(jié)點(diǎn)表示為用戶(hù)特征向量。采用自動(dòng)編碼器模型對(duì)特征向量進(jìn)行學(xué)習(xí),將輸入和輸出之間的重建誤差作為異常分?jǐn)?shù),利用Z-score方法判斷異常等級(jí)。其整體工作流程如圖1所示。

        2.1 基于樹(shù)結(jié)構(gòu)分析的特征向量生成

        由于審計(jì)數(shù)據(jù)體量大、數(shù)據(jù)類(lèi)型多樣、結(jié)構(gòu)復(fù)雜,本文采用樹(shù)結(jié)構(gòu)方法[15]分析用戶(hù)審計(jì)數(shù)據(jù)。通過(guò)層層屬性分析,形成樹(shù)形結(jié)構(gòu),建立的樹(shù)節(jié)點(diǎn)可以用特征向量表示。其優(yōu)勢(shì)在于分析速度快,具有良好的擴(kuò)展性,而且為所有用戶(hù)提供了行為特征的一致性表示。

        如圖2所示,先按照時(shí)間域和行為域?qū)γ織l行為記錄分類(lèi)。時(shí)間域從工作時(shí)間與非工作時(shí)間上進(jìn)行劃分,工作時(shí)間和非工作時(shí)間是通過(guò)學(xué)習(xí)用戶(hù)日常上下班時(shí)間得到的。行為域包括用戶(hù)的登錄行為、網(wǎng)站訪(fǎng)問(wèn)、郵件收發(fā)、文件操作、設(shè)備使用等,不同行為域的活動(dòng)變化反映了用戶(hù)不同的意圖??梢愿鶕?jù)實(shí)際情況對(duì)行為域進(jìn)行擴(kuò)展,從而更全面地刻畫(huà)用戶(hù)行為特征。

        在行為域下,行為記錄接著按照設(shè)備-活動(dòng)-屬性的樹(shù)結(jié)構(gòu)進(jìn)行分析。設(shè)備是指用戶(hù)登錄的設(shè)備型號(hào);活動(dòng)是指用戶(hù)在某行為域下的具體操作,例如文件的復(fù)制、粘貼、刪除等;屬性指操作行為附帶的特征,例如收發(fā)郵件的附件大小、數(shù)量等。

        通過(guò)樹(shù)結(jié)構(gòu)分析,如果得到的節(jié)點(diǎn)在原樹(shù)結(jié)構(gòu)中存在,則節(jié)點(diǎn)的計(jì)數(shù)值增加,如果不存在,則插入該新節(jié)點(diǎn),最后得到用戶(hù)在一段時(shí)間內(nèi)的基于樹(shù)結(jié)構(gòu)的行為特征圖。行為特征圖可以編碼為特征向量,長(zhǎng)度取決于樹(shù)結(jié)構(gòu)分析中的節(jié)點(diǎn)數(shù)目。由于不同節(jié)點(diǎn)間存在時(shí)間或行為的關(guān)聯(lián)關(guān)系,可以通過(guò)對(duì)不同節(jié)點(diǎn)進(jìn)行組合獲取新的特征向量,例如非工作時(shí)間的活動(dòng)頻率為不同行為域下非工作時(shí)間活動(dòng)頻率的總和。

        2.2 基于自動(dòng)編碼器的異常檢測(cè)

        2.2.1 模型原理及算法

        內(nèi)部威脅檢測(cè)屬于異常檢測(cè)的一類(lèi),通常采用無(wú)監(jiān)督學(xué)習(xí)方法,而傳統(tǒng)的機(jī)器學(xué)習(xí)方法受特征維度限制,隨著維度數(shù)升高,檢測(cè)性能受到影響。本文選擇基于自動(dòng)編碼器的異常檢測(cè)方法,它是一種基于神經(jīng)網(wǎng)絡(luò)的無(wú)監(jiān)督學(xué)習(xí)算法,是PCA類(lèi)型的模型的非線(xiàn)性擴(kuò)展,適用于高維數(shù)據(jù)。通過(guò)訓(xùn)練正常數(shù)據(jù),自動(dòng)編碼器學(xué)習(xí)到正常數(shù)據(jù)的有效特征和內(nèi)在聯(lián)系,在對(duì)異常數(shù)據(jù)進(jìn)行重構(gòu)時(shí)會(huì)產(chǎn)生較大誤差,有利于檢測(cè)未知攻擊。

        設(shè)D維樣本x(n)∈RD, 1≤n≤N, 自動(dòng)編碼器將數(shù)據(jù)映射到特征空間,得到樣本的編碼z(n)∈RM, 1≤n≤N, 并通過(guò)這組編碼重構(gòu)原來(lái)的樣本。最簡(jiǎn)單的自動(dòng)編碼器是兩層神經(jīng)網(wǎng)絡(luò)。其中,輸入層到隱藏層用來(lái)編碼,隱藏層到輸出層用來(lái)解碼,層與層之間是全連接關(guān)系,自動(dòng)編碼器的網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。編解碼過(guò)程中,隱藏層的活性值z(mì)為x的編碼,x′為自動(dòng)編碼器的輸出重構(gòu)數(shù)據(jù),即

        z=f(W(1)x+b(1))

        (1)

        x′=g(W(2)x+b(2))

        (2)

        其中,W(1)、W(2)為權(quán)重矩陣,b(1)、b(2)為偏置,f、g為激活函數(shù)。令W(1)=W(2)T, 通過(guò)捆綁權(quán)重的方式減少自動(dòng)編碼器的參數(shù),易于學(xué)習(xí),并在一定程度上起到正則化的作用。

        當(dāng)特征向量輸入到自動(dòng)編碼器中,編碼器通過(guò)學(xué)習(xí)將數(shù)據(jù)有效壓縮至低維空間,解碼器將有效特征重構(gòu)出與輸入特征相近的擬合數(shù)據(jù),擬合數(shù)據(jù)與輸入數(shù)據(jù)的差值為重構(gòu)誤差(reconstruction error)。自動(dòng)編碼器正是通過(guò)最小化重構(gòu)誤差來(lái)有效學(xué)習(xí)網(wǎng)絡(luò)參數(shù)的,即重構(gòu)數(shù)據(jù)趨近于真實(shí)數(shù)據(jù)。異常檢測(cè)中把重構(gòu)誤差作為異常分?jǐn)?shù)來(lái)識(shí)別異常用戶(hù)。其計(jì)算方法如下所示

        (3)

        基于自動(dòng)編碼器的異常檢測(cè)算法步驟如下:

        輸入:按時(shí)間順序依次輸入某用戶(hù)第i天的行為特征向量xi=[xi,1,xi,2,…,xi,m],m為特征向量的長(zhǎng)度。

        步驟1 初始化函數(shù)。

        步驟2 對(duì)特征向量進(jìn)行歸一化處理。

        步驟3 輸入訓(xùn)練數(shù)據(jù),通過(guò)反向傳播學(xué)習(xí)確定參數(shù)W、b。

        步驟4 輸入測(cè)試數(shù)據(jù),計(jì)算重構(gòu)誤差。

        輸出:按時(shí)間順序依次輸出某用戶(hù)第i天的行為特征向量的重構(gòu)誤差。

        2.2.2 模型體系結(jié)構(gòu)及參數(shù)

        自動(dòng)編碼器體系結(jié)構(gòu)的設(shè)計(jì)對(duì)自動(dòng)編碼器的性能有重要影響。主要需要考慮以下幾個(gè)方面:

        (1)神經(jīng)網(wǎng)絡(luò)深度。神經(jīng)網(wǎng)絡(luò)深度加深能增強(qiáng)特征的抽象程度和網(wǎng)絡(luò)的表達(dá)能力,但同時(shí)網(wǎng)絡(luò)中的超參數(shù)會(huì)增多,從而提高計(jì)算復(fù)雜度和訓(xùn)練難度。本文通過(guò)實(shí)驗(yàn)對(duì)比不同網(wǎng)絡(luò)結(jié)構(gòu)的自動(dòng)編碼器,既可以得到良好的特征表達(dá),又能降低計(jì)算復(fù)雜度;

        (2)損失函數(shù)。為了最大化正常和異常用戶(hù)行為之間的可分性,選擇損失函數(shù)來(lái)懲罰結(jié)構(gòu)差異。因此,與熵相關(guān)的損失函數(shù),如交叉熵?fù)p失函數(shù)(cross-entropy loss function)等,可能優(yōu)于傳統(tǒng)的距離度量指標(biāo),如均方誤差(mean squared error)等。而且,交叉熵?fù)p失函數(shù)在誤差大時(shí)權(quán)重更新快,誤差小時(shí)權(quán)重更新慢,可以解決均方誤差損失函數(shù)權(quán)重更新過(guò)慢的問(wèn)題;

        (3)dropout rate。在輸入層和隱藏層后分別加入dropout層,使輸入數(shù)據(jù)和隱藏層神經(jīng)單元按一定概率隨機(jī)從網(wǎng)絡(luò)中暫時(shí)丟棄,相當(dāng)于減少中間特征的數(shù)量,增加每層特征之間的正交性,防止模型的過(guò)擬合,增強(qiáng)模型的泛化能力。

        2.3 基于Z-score方法的異常等級(jí)分類(lèi)

        Z-score是一種低維特征空間中的參數(shù)異常檢測(cè)方法。它假定數(shù)據(jù)服從于高斯分布,異常值通常是分布尾部的數(shù)據(jù)點(diǎn),遠(yuǎn)離數(shù)據(jù)的平均值。距離的遠(yuǎn)近取決標(biāo)準(zhǔn)差分?jǐn)?shù)zi和設(shè)定閾值z(mì)th間的關(guān)系

        (4)

        其中,μ為原始數(shù)據(jù)的均值,σ為原始數(shù)據(jù)的標(biāo)準(zhǔn)差,zi表示了給定數(shù)據(jù)距離其均值的相差的標(biāo)準(zhǔn)差個(gè)數(shù)。這種方式將數(shù)據(jù)歸一化,提高了數(shù)據(jù)的可比性。

        內(nèi)部威脅行為類(lèi)別多樣,異常分?jǐn)?shù)與正常行為的分?jǐn)?shù)差值也大小不一。部分異常行為隱藏在大量正常行為中,其經(jīng)過(guò)異常檢測(cè)所得的異常分?jǐn)?shù)與正常行為差較小,如果閾值設(shè)置過(guò)高可能會(huì)忽略這部分異常行為,而閾值設(shè)置過(guò)低則會(huì)導(dǎo)致誤判率升高,所以本文中的zth選取了1、2、3這3個(gè)不同的閾值,對(duì)用戶(hù)異常行為進(jìn)行了等級(jí)劃分,根據(jù)不同異常等級(jí)的行為出現(xiàn)的頻次綜合判定用戶(hù)是否異常。

        3 實(shí)驗(yàn)分析

        3.1 實(shí)驗(yàn)準(zhǔn)備

        3.1.1 實(shí)驗(yàn)設(shè)計(jì)

        通過(guò)相關(guān)理論研究,本文對(duì)autoencoder的神經(jīng)網(wǎng)結(jié)構(gòu)和各項(xiàng)參數(shù)進(jìn)行實(shí)驗(yàn)設(shè)計(jì),并將結(jié)果進(jìn)行對(duì)比。另外,分別對(duì)PCA、isolation forest、autoencoder等異常檢測(cè)方法進(jìn)行實(shí)驗(yàn)設(shè)計(jì),并將結(jié)果進(jìn)行對(duì)比。通過(guò)準(zhǔn)確率、精確率、召回率、ROC曲線(xiàn)和PR曲線(xiàn)對(duì)以上方法進(jìn)行評(píng)估。

        3.1.2 環(huán)境配置

        實(shí)驗(yàn)環(huán)境信息描述如下:系統(tǒng)環(huán)境為Windows操作系統(tǒng);硬件配置為Inter(R)Core(TM)i7-7700H CPU@2.7 GHz,NVIDIA GeForce GTX1060,16 G內(nèi)存IT硬盤(pán);實(shí)驗(yàn)框架為T(mén)ensorFlow 2.1深度學(xué)習(xí)框架;開(kāi)發(fā)語(yǔ)言為Python。

        3.1.3 數(shù)據(jù)集選取

        內(nèi)部威脅數(shù)據(jù)在檢測(cè)算法的研究中至關(guān)重要,沒(méi)有可靠合適的數(shù)據(jù),任何檢測(cè)技術(shù)都很難達(dá)到預(yù)期的效果。本文采用卡耐基梅隆大學(xué)CERT項(xiàng)目的內(nèi)部威脅數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。

        該數(shù)據(jù)集數(shù)據(jù)類(lèi)型豐富,包括了主機(jī)日志、網(wǎng)絡(luò)日志、員工心理評(píng)價(jià)以及人力資源信息等,包含了1000名用戶(hù)502天時(shí)間里的320 770 727條行為記錄,是一個(gè)比較全面的內(nèi)部威脅檢測(cè)數(shù)據(jù)集,其具體內(nèi)容見(jiàn)表1。

        表1 CERT-IT數(shù)據(jù)集

        CERT-r4.2數(shù)據(jù)集從真實(shí)企業(yè)環(huán)境中采集,并加入了人工制造的攻擊行為,例如數(shù)據(jù)泄露、系統(tǒng)破壞等。其所包含的攻擊場(chǎng)景概括如下:

        (1)用戶(hù)開(kāi)始在非工作時(shí)間登錄賬戶(hù),使用可移動(dòng)存儲(chǔ)設(shè)備,并向某些網(wǎng)站上傳數(shù)據(jù),存在數(shù)據(jù)泄露的風(fēng)險(xiǎn);

        (2)用戶(hù)頻繁瀏覽求職網(wǎng)站,并頻繁使用可移動(dòng)存儲(chǔ)設(shè)備拷貝數(shù)據(jù),存在竊取數(shù)據(jù)并跳槽的風(fēng)險(xiǎn);

        (3)用戶(hù)下載一個(gè)鍵盤(pán)記錄程序,然后用可移動(dòng)存儲(chǔ)設(shè)備把它傳送到他上司的設(shè)備上。根據(jù)收集到的鍵盤(pán)日志,以上司的身份登錄賬戶(hù),并群發(fā)郵件,在組織中引起恐慌。

        3.2 評(píng)價(jià)標(biāo)準(zhǔn)

        本文采用準(zhǔn)確率(accuracy)、精確率(precision)、召回率(recall/TPR)、ROC曲線(xiàn)和PR曲線(xiàn)作為評(píng)測(cè)指標(biāo)。準(zhǔn)確率、精準(zhǔn)率和召回率是根據(jù)混淆矩陣中的TP(true positives)、FP(false positives)、TN(true negatives)、FN(false negatives) 等計(jì)算得到的,見(jiàn)表2。

        表2 混淆矩陣

        準(zhǔn)確率表示預(yù)測(cè)正確的樣本在總樣本中的比例,精確率表示真陽(yáng)性樣本占預(yù)測(cè)為正樣本的比例,召回率表示真陽(yáng)性樣本占實(shí)際為正的樣本的比例,計(jì)算公式如下

        (5)

        (6)

        (7)

        (8)

        ROC曲線(xiàn)是分類(lèi)問(wèn)題的一種性能度量,AUC則是曲線(xiàn)下的面積,表示分離度,AUC值越大,模型的分類(lèi)效果越好。但是,當(dāng)數(shù)據(jù)樣本不平衡時(shí),ROC曲線(xiàn)不能很好地反映模型性能,而PR曲線(xiàn)能解決這個(gè)問(wèn)題。PR曲線(xiàn)展示的是以精確率為橫坐標(biāo)、以召回率為縱坐標(biāo)的曲線(xiàn),PR曲線(xiàn)與ROC曲線(xiàn)的相同點(diǎn)是都采用了TPR,都可以用AUC來(lái)衡量分類(lèi)器的效果。不同點(diǎn)是ROC曲線(xiàn)使用了FPR,而PR曲線(xiàn)使用了精確率,因此PR曲線(xiàn)的兩個(gè)指標(biāo)都聚焦于正例。由于數(shù)據(jù)不平衡問(wèn)題中主要關(guān)心正例,所以在此情況下,PR曲線(xiàn)被廣泛認(rèn)為優(yōu)于ROC曲線(xiàn)。

        3.3 實(shí)驗(yàn)結(jié)果及分析

        通過(guò)對(duì)用戶(hù)數(shù)據(jù)的樹(shù)結(jié)構(gòu)分析生成了用戶(hù)每日的特征向量,對(duì)特征向量求和即得該用戶(hù)當(dāng)日的活動(dòng)頻率。如圖4所示,左圖展示了用戶(hù)CCL0068在268天時(shí)間中的活動(dòng)頻率變化(為方便觀察,數(shù)據(jù)中不包含周六、周日的活動(dòng)),從圖中可以觀察到用戶(hù)大致在第250天左右的活動(dòng)頻率增加,表明該用戶(hù)可能存在異常行為。

        將特征向量按時(shí)間順序輸入自動(dòng)編碼器中,得到用戶(hù)每日的異常分?jǐn)?shù),異常分?jǐn)?shù)越高表示用戶(hù)行為異常的可能性越大。右圖展示了用戶(hù)CCL0068的異常分?jǐn)?shù)變化情況。從圖中可以觀察到第250天左右的異常分?jǐn)?shù)明顯偏高,說(shuō)明該用戶(hù)存在異常行為,其異常行為的具體時(shí)間域需要進(jìn)一步分析。

        但是,由于內(nèi)部人員具有合法身份,內(nèi)部攻擊行為可能只有幾個(gè)細(xì)微的異常動(dòng)作,并隱藏在大量正常行為中,難以發(fā)現(xiàn);而且內(nèi)部人員熟悉系統(tǒng)的安全防護(hù)機(jī)制,可以有效規(guī)避安全防護(hù)檢測(cè)。如圖5所示,左圖展示了用戶(hù)BSS0369在219天時(shí)間中的活動(dòng)頻率變化,幾乎很難從活動(dòng)頻率的變化中發(fā)現(xiàn)異常情況,但在右圖展示的該用戶(hù)的異常分?jǐn)?shù)變化中,可以明顯看出該用戶(hù)某幾天的行為中存在異常,需要進(jìn)一步對(duì)其各項(xiàng)活動(dòng)進(jìn)行分析。

        為了驗(yàn)證基于自動(dòng)編碼器的異常檢測(cè)方法的有效性,本文將自動(dòng)編碼器與PCA方法[15]進(jìn)行了對(duì)比,其中PCA中的n_components值為3,自動(dòng)編碼器的具體參數(shù)見(jiàn)表3。前期,對(duì)特征向量進(jìn)行歸一化處理,使兩種方法具有相同的輸入值,比較兩種方法的ROC曲線(xiàn)和PR曲線(xiàn)及其覆蓋面積大小。

        兩種方法的ROC曲線(xiàn)和PR曲線(xiàn)對(duì)比如圖6、圖7所示,曲線(xiàn)覆蓋面積對(duì)比見(jiàn)表4,從面積覆蓋值中可以看出,自動(dòng)編碼器的檢測(cè)效果要好于PCA方法。

        由于內(nèi)部威脅行為類(lèi)別多樣,異常分?jǐn)?shù)的判別閾值也不是固定的。從實(shí)驗(yàn)中可以發(fā)現(xiàn)固定判別閾值,如果閾值設(shè)置過(guò)高可能會(huì)忽略部分異常行為,而閾值設(shè)置過(guò)低則會(huì)導(dǎo)致誤判率升高,所以本文采用Z-score方法,其中Zth選取了1、2、3這3個(gè)不同的閾值,對(duì)用戶(hù)異常行為進(jìn)行了等級(jí)劃分,1、2、3分別表示了低、中、高3個(gè)異常等級(jí),結(jié)合其出現(xiàn)的頻率判斷異常用戶(hù)。

        表3 實(shí)驗(yàn)參數(shù)設(shè)置

        表4 曲線(xiàn)覆蓋面積對(duì)比

        實(shí)驗(yàn)中,將70名異常用戶(hù)和剩余正常用戶(hù)中隨機(jī)挑選的70名用戶(hù)混合進(jìn)行測(cè)試,結(jié)果如圖8所示。其中,正常用戶(hù)與異常用戶(hù)均判斷正確,7名疑似用戶(hù)需要進(jìn)一步結(jié)合其它數(shù)據(jù)進(jìn)行分析。

        4 結(jié)束語(yǔ)

        本文采用基于自動(dòng)編碼器的內(nèi)部威脅檢測(cè)方法,首先對(duì)用戶(hù)數(shù)據(jù)進(jìn)行樹(shù)結(jié)構(gòu)分析,對(duì)于大量多源異構(gòu)數(shù)據(jù)的處理速度快且可擴(kuò)展性高。樹(shù)結(jié)構(gòu)分析得到的特征向量輸入異常檢測(cè)模型中,異常檢測(cè)模型將自動(dòng)編碼器和Z-score方法相結(jié)合,通過(guò)自動(dòng)編碼器得到異常分?jǐn)?shù),采用Z-score方法對(duì)異常分?jǐn)?shù)分級(jí)后判斷異常用戶(hù)。自動(dòng)編碼器能學(xué)習(xí)到正常數(shù)據(jù)的有效特征和內(nèi)在聯(lián)系,且隨著特征擴(kuò)展,也適用于高維數(shù)據(jù)。實(shí)驗(yàn)結(jié)果表明,該方法是一種有效的檢測(cè)方法。

        下一步工作將擴(kuò)展內(nèi)部威脅檢測(cè)中的行為特征,對(duì)上述實(shí)驗(yàn)中的疑似用戶(hù)進(jìn)行進(jìn)一步判斷,提高準(zhǔn)確率并降低誤判率;進(jìn)一步研究用戶(hù)行為特征間的關(guān)聯(lián)關(guān)系,對(duì)用戶(hù)的攻擊行為和攻擊意圖進(jìn)行全面分析,結(jié)合用戶(hù)畫(huà)像技術(shù)對(duì)用戶(hù)的攻擊行為建立畫(huà)像模型。

        猜你喜歡
        用戶(hù)檢測(cè)方法
        “不等式”檢測(cè)題
        “一元一次不等式”檢測(cè)題
        “一元一次不等式組”檢測(cè)題
        關(guān)注用戶(hù)
        可能是方法不對(duì)
        關(guān)注用戶(hù)
        小波變換在PCB缺陷檢測(cè)中的應(yīng)用
        關(guān)注用戶(hù)
        用對(duì)方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        午夜一区二区在线视频| 亚洲精品一区二区三区大桥未久 | 国产精品一区二区三区黄片视频| 中国少妇久久一区二区三区| 免费a级毛片无码a∨中文字幕下载 | 日韩精品一区二区在线视| 久久精品国产亚洲av麻豆瑜伽| 国产一区二区三区四区五区加勒比| 国产日韩欧美亚洲精品中字| 国语精品视频在线观看不卡| 亚洲日韩乱码中文无码蜜桃臀| 亚洲av中文aⅴ无码av不卡| 不卡免费在线亚洲av| 少妇久久久久久被弄高潮| 日日碰狠狠添天天爽超碰97| 最新国产成人在线网站| 精品一区二区三区牛牛| 免费人成在线观看| 精品国产一区二区三区av 性色| 蜜桃在线播放免费一区二区三区 | 4hu四虎永久在线观看| 四虎在线播放免费永久视频| 手机在线观看亚洲av| 亚洲国产av无码精品无广告| 熟妇的荡欲色综合亚洲| 国产一区二区三区精品久久呦| 男人的天堂av你懂得| 久久精品国产精品亚洲| 韩国三级中文字幕hd久久精品| 熟妇与小伙子露脸对白| 一区二区三区四区在线观看日本| 人妻熟女一区二区三区app下载| 高清国产日韩欧美| 青青草视频在线播放81| 久久综合伊人77777麻豆| 色老头在线一区二区三区| 中文亚洲AV片在线观看无码| 青青草成人在线播放视频| 亚洲人午夜射精精品日韩| 九九久久国产精品大片| 午夜理论片日本中文在线|