鄭黎黎,方菽蘭,許德鵬,張偉峰
(1.成都賽博思安科技有限公司,四川 成都 610000;2.四川鼎誠(chéng)司法鑒定中心,四川 成都 610011)
互聯(lián)網(wǎng)發(fā)展至今,各種網(wǎng)絡(luò)應(yīng)用技術(shù)日趨完善,內(nèi)容更是涵蓋生活的方方面面,人們工作生活也越來越依賴網(wǎng)絡(luò)。中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心發(fā)布的第41次《中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》顯示,截至2017年12月,中國(guó)網(wǎng)民規(guī)模達(dá)到7.72億人,互聯(lián)網(wǎng)普及率為55.8%,超過全球平均水平4.1個(gè)百分點(diǎn)。我國(guó)網(wǎng)民規(guī)模增長(zhǎng)也日益穩(wěn)定,互聯(lián)網(wǎng)行業(yè)持續(xù)穩(wěn)健發(fā)展,互聯(lián)網(wǎng)已成為推動(dòng)我國(guó)經(jīng)濟(jì)社會(huì)發(fā)展的重要力量[1]。隨著互聯(lián)網(wǎng)應(yīng)用規(guī)模的擴(kuò)大,網(wǎng)絡(luò)安全問題越來越受到人們的重視。目前的網(wǎng)絡(luò)入侵檢測(cè)與防御設(shè)備如防火墻、IPS、IDS等設(shè)備大都使用基于規(guī)則的方式進(jìn)行入侵檢測(cè)和攻擊防御,在面對(duì)未知威脅時(shí)表現(xiàn)乏力。針對(duì)上述問題,通過對(duì)網(wǎng)絡(luò)用戶的行為進(jìn)行分析來檢測(cè)用戶和其行為是否異常的方法逐漸成為了網(wǎng)絡(luò)入侵防御方面的研究熱點(diǎn)。本文利用RC-HsMM算法和嵌套One-class SVM算法,設(shè)計(jì)出一種基于用戶行為的Web異常檢測(cè)系統(tǒng)。
對(duì)于用戶請(qǐng)求行為的異常檢測(cè),模型采用速率異常檢測(cè)與基于HsMM的模式異常檢測(cè)相結(jié)合的異常檢測(cè)策略。用戶請(qǐng)求序列首先進(jìn)行速率的異常檢測(cè),一旦發(fā)現(xiàn)異常即可告警,進(jìn)行用戶標(biāo)記,之后將通過速率異常檢測(cè)算法輸出的數(shù)據(jù)輸入到基于改進(jìn)HsMM算法構(gòu)建的用戶訪問模式異常檢測(cè)模塊進(jìn)行用戶訪問模式異常檢測(cè),發(fā)現(xiàn)異常即可告警。
HsMM算法的實(shí)現(xiàn)采用Python的開源pyhsmm包,通過設(shè)定部分超參數(shù)來創(chuàng)建一個(gè)HsMM算法框架,之后使用訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練從而得到模型參數(shù)。而對(duì)于駐留時(shí)間概率分布擬合的實(shí)現(xiàn),模型采用了Python中的開源科學(xué)計(jì)算包scipy來實(shí)現(xiàn)。
對(duì)于用戶身份異常的檢測(cè),模型使用兩層One-class SVM模型嵌套的檢測(cè)策略進(jìn)行用戶身份異常檢測(cè)。首先,利用用戶瀏覽行為數(shù)據(jù)中的頁面行為數(shù)據(jù)來訓(xùn)練One-class SVM算法得到頁面One-class SVM算法模型,利用該算法模型檢測(cè)頁面行為的異常程度得到頁面行為異常度。其次,將頁面行為異常度與會(huì)話行為數(shù)據(jù)一起作為會(huì)話One-class SVM算法模型的輸入,最后通過訓(xùn)練與檢測(cè)得到最終的用戶身份異常檢測(cè)結(jié)果。
對(duì)于身份異常檢測(cè),使用嵌套One-class SVM算法進(jìn)行多方面的身份檢測(cè)。其關(guān)鍵的地方是2個(gè)算法的核函數(shù)的選擇,模型需要從數(shù)據(jù)集中訓(xùn)練來判定選擇2個(gè)核函數(shù)的類型。One-class SVM算法是由scikit-learn中的OneClassSVM函數(shù)來實(shí)現(xiàn)的。
為了正確評(píng)價(jià)算法模型的優(yōu)劣,本文引入了相關(guān)的評(píng)價(jià)指標(biāo)(見表1)。其中,TP表示真實(shí)的類別為正常行為,算法評(píng)估結(jié)果為正常行為;FN表示真實(shí)的類別為正常行為,算法評(píng)估結(jié)果為異常行為;FP表示真實(shí)的類別為異常行為,算法評(píng)估結(jié)果為正常行為;TN真實(shí)的類別為異常行為,算法評(píng)估結(jié)果為異常行為。
表1 評(píng)價(jià)指標(biāo)
評(píng)估算法模型的指標(biāo)有準(zhǔn)確率、召回率、F1值等。對(duì)于異常檢測(cè)模型,主要關(guān)注異常行為檢測(cè)是否準(zhǔn)確與是否檢測(cè)完全,所以重點(diǎn)是對(duì)檢測(cè)準(zhǔn)確率與漏檢率的考核。
檢測(cè)準(zhǔn)確率ACC:
(1)
漏檢率FPR:
(2)
將S3、S4、S5三個(gè)數(shù)據(jù)集用于速率異常檢測(cè)算法的測(cè)試,三個(gè)數(shù)據(jù)集中主要包含有應(yīng)用層DoS和暴力破解口令數(shù)據(jù),分別計(jì)算速率異常檢測(cè)算法的準(zhǔn)確率和漏檢率(見表2)。對(duì)于請(qǐng)求速率異常的檢測(cè),算法模型的檢測(cè)率可以達(dá)到95%以上,漏檢率在7%左右。
表2 速率異常檢測(cè)算法評(píng)估
首先是對(duì)用戶請(qǐng)求行為的檢測(cè),模型系統(tǒng)采用的請(qǐng)求速率異常檢測(cè)與HsMM算法相結(jié)合的RC-HsMM檢測(cè)算法,提高了HsMM算法自身對(duì)重復(fù)模式的檢測(cè)率,同時(shí)也增強(qiáng)了模型系統(tǒng)對(duì)用戶請(qǐng)求異常行為檢測(cè)的能力。從對(duì)比實(shí)驗(yàn)結(jié)果可以看出,在用戶請(qǐng)求異常檢測(cè)方面,RC-HsMM算法相較其他比較的機(jī)器學(xué)習(xí)算法更適合本文提出的基于用戶行為的Web異常檢測(cè)模型。
對(duì)于用戶身份異常檢測(cè),模型算法具有很好的檢測(cè)效果,但其前提是需要收集大量的用戶歷史數(shù)據(jù)用于訓(xùn)練。此外,用戶的異常操作數(shù)據(jù)量越大,模型的檢測(cè)率就越高,漏檢率就越小。所以在實(shí)際應(yīng)用中,需要對(duì)用戶的異常操作數(shù)據(jù)進(jìn)行一定時(shí)間的收集才可以使用模型進(jìn)行檢測(cè)。基于嵌套的One-class SVM算法比其他機(jī)器學(xué)習(xí)算法在基于用戶瀏覽行為的身份異常檢測(cè)方面更具優(yōu)勢(shì)。
經(jīng)過以上的實(shí)驗(yàn)與對(duì)比實(shí)驗(yàn)的結(jié)果分析,可以得出基于用戶行為的Web異常檢測(cè)模型系統(tǒng)具有很好的應(yīng)用性與檢測(cè)效果。
當(dāng)今社會(huì)網(wǎng)絡(luò)安全技術(shù)發(fā)展迅速,網(wǎng)絡(luò)安全態(tài)勢(shì)依然嚴(yán)峻。本文研究基于用戶行為的Web異常檢測(cè)模型可以有效地檢測(cè)由用戶入侵產(chǎn)生的異常行為,然而,模型仍然存在著一些不足需要改進(jìn),在今后的工作中需要進(jìn)一步優(yōu)化。
1)在用戶請(qǐng)求異常檢測(cè)中,RC-HsMM模型輸入序列的長(zhǎng)度是由用戶請(qǐng)求速率控制的會(huì)話切分策略決定的,其存在一定的延時(shí)且穩(wěn)定性較差,需要進(jìn)一步改進(jìn)。
2)在用戶身份異常檢測(cè)過程中,用戶瀏覽行為與會(huì)話行為的特征相對(duì)較少。在今后的改進(jìn)中,可進(jìn)一步增加用戶瀏覽行為屬性。
3)在今后的研究中,可進(jìn)一步對(duì)檢測(cè)出來的異常進(jìn)行分類,從而確定異常用戶的目的。