亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于深度學(xué)習(xí)的跨站腳本攻擊檢測(cè)

2022-03-24 08:29:28丁雪川張偉峰方菽蘭鄭黎黎

技術(shù)與市場(chǎng) 2022年3期

丁雪川，張偉峰，方菽蘭，鄭黎黎

(1.成都市公安局，四川成都 610000；2.成都賽博思安科技有限公司，四川成都 610000)

0 引言

由于腳本語(yǔ)言具有靈活多變的特性以及不同瀏覽器之間存在的差異性，導(dǎo)致XSS攻擊的利用方式復(fù)雜多變，傳統(tǒng)的基于規(guī)則匹配的檢測(cè)方法難以有效地進(jìn)行XSS攻擊檢測(cè)和防御。隨著機(jī)器學(xué)習(xí)的不斷發(fā)展，已經(jīng)有很多研究團(tuán)隊(duì)將機(jī)器學(xué)習(xí)算法引入XSS攻擊檢測(cè)中[1-4]。然而傳統(tǒng)的機(jī)器學(xué)習(xí)算法很大程度上依賴(lài)于特征的選擇提取，由于人工提取特征具有不可避免的局限性，基于傳統(tǒng)機(jī)器學(xué)習(xí)的檢測(cè)方法難以有效地滿(mǎn)足具有混淆、復(fù)雜、多變等特征的XSS攻擊檢測(cè)需求。

深度學(xué)習(xí)算法可以自動(dòng)化提取攻擊載荷特征，從而避免人為提取特征所不可避免的局限性問(wèn)題，因此將深度學(xué)習(xí)算法應(yīng)用于Web攻擊檢測(cè)必然成為研究的趨勢(shì)。針對(duì)編碼混淆的XSS攻擊難以檢測(cè)的問(wèn)題，本文構(gòu)建了一個(gè)基于深度學(xué)習(xí)的跨站腳本攻擊檢測(cè)模型，有效提高XSS攻擊檢測(cè)的準(zhǔn)確率。

1)提出一種基于深度學(xué)習(xí)的跨站腳本攻擊檢測(cè)模型。該模型基于Word2Vec提取輸入數(shù)據(jù)保留語(yǔ)義特征的詞向量，并基于LSTM深度神經(jīng)網(wǎng)絡(luò)算法自動(dòng)提取XSS攻擊的深層次特征，有效地檢測(cè)跨站腳本攻擊。此外，針對(duì)經(jīng)過(guò)編碼混淆的XSS檢測(cè)困難的問(wèn)題，提出循環(huán)解碼器還原其原始形態(tài)，進(jìn)一步提升檢測(cè)效果。

2)搭建實(shí)驗(yàn)環(huán)境測(cè)試檢測(cè)模型，在真實(shí)數(shù)據(jù)集上，通過(guò)與傳統(tǒng)機(jī)器學(xué)習(xí)算法和常見(jiàn)安全防護(hù)軟件進(jìn)行對(duì)比，實(shí)驗(yàn)結(jié)果驗(yàn)證了檢測(cè)模型的有效性。

1 基于深度學(xué)習(xí)的跨站腳本攻擊檢測(cè)方法

針對(duì)編碼混淆的XSS攻擊難以檢測(cè)的問(wèn)題，本文構(gòu)建了一個(gè)基于深度學(xué)習(xí)的跨站腳本攻擊檢測(cè)模型。首先，根據(jù)XSS常見(jiàn)的編碼混淆技術(shù)，提出基于循環(huán)解碼器的數(shù)據(jù)清洗，將經(jīng)過(guò)復(fù)雜編碼混淆后的攻擊向量解碼還原其原始數(shù)據(jù)狀態(tài)；其次，基于Word2Vec對(duì)預(yù)處理后的數(shù)據(jù)進(jìn)行詞向量提取，將輸入數(shù)據(jù)構(gòu)建為含有語(yǔ)義信息的詞向量序列表示；將跨站腳本攻擊檢測(cè)轉(zhuǎn)化為二分類(lèi)，基于LSTM深度學(xué)習(xí)算法構(gòu)架分類(lèi)模型，根據(jù)惡意樣本和正常樣本訓(xùn)練跨站腳本攻擊分類(lèi)器作為攻擊檢測(cè)模型，實(shí)現(xiàn)跨站腳本檢測(cè)。

1.1 基于循環(huán)解碼器的數(shù)據(jù)清洗

跨站腳本攻擊常用的編碼混淆技術(shù)包括：URL編碼、HTML編碼、Base64編碼、UTF-7編碼、Unicode編碼等，提出一種循環(huán)解碼器，循環(huán)解碼器對(duì)編碼混淆的輸入數(shù)據(jù)進(jìn)行循環(huán)解碼處理，直到解碼后的結(jié)果不再變化為止，從而將經(jīng)過(guò)混淆的攻擊向量還原為其原始的數(shù)據(jù)形式。

1.2 基于Word2Vector的詞向量提取

深度學(xué)習(xí)檢測(cè)算法不能直接處理文本形式的輸入，需要將原始URL請(qǐng)求文本數(shù)據(jù)轉(zhuǎn)化為詞向量的輸入形式。圖1是將文本輸入轉(zhuǎn)換為詞向量的流程圖，主要包括循環(huán)解碼、范化、分詞和量化幾個(gè)步驟。

圖1 詞向量提取流程

其中，循環(huán)解碼處理過(guò)程基于上一小節(jié)中提出的循環(huán)解碼器；范化處理的目的是降低無(wú)意義信息對(duì)檢測(cè)結(jié)果的影響，并減少分詞數(shù)量，主要包括：將函數(shù)輸入?yún)?shù)替換為“param_string”，將URL鏈接替換為“http://website”，數(shù)字替換為“0”；基于跨站腳本攻擊的語(yǔ)法特征，設(shè)計(jì)相應(yīng)的正則表達(dá)式進(jìn)行分詞提取，分詞類(lèi)別主要包括開(kāi)始標(biāo)簽、結(jié)束標(biāo)簽、觸發(fā)事件、標(biāo)簽屬性、函數(shù)名稱(chēng)、腳本類(lèi)型以及特殊字符等，量化過(guò)程則是基于Word2Vec進(jìn)行詞向量表示，從而得到輸入文本的詞向量。

2 實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析

2.1 實(shí)驗(yàn)過(guò)程

基于跨站腳本攻擊惡意樣本數(shù)據(jù)構(gòu)建攻擊詞典，將惡意樣本數(shù)據(jù)分詞后按照詞頻降序排序后取詞。隨著取詞數(shù)量的增長(zhǎng)，樣本覆蓋率隨之增加，當(dāng)取詞頻率達(dá)到TOP10000后，對(duì)應(yīng)的樣本覆蓋率已經(jīng)達(dá)到93.1%，但隨著取詞數(shù)量的成倍增長(zhǎng)，后續(xù)樣本覆蓋率僅少量提升。最終設(shè)定樣本取詞頻為T(mén)OP10000的惡意樣本，從而構(gòu)建跨站腳本攻擊的攻擊詞典。

為了客觀地選擇最優(yōu)的Word2Vec訓(xùn)練參數(shù)，對(duì)Size、Iter、Window、Nagative參數(shù)進(jìn)行調(diào)優(yōu)實(shí)驗(yàn)。通過(guò)控制變量法，每次僅修改一個(gè)參數(shù)，并對(duì)比不同參數(shù)對(duì)LSTM檢測(cè)模型的召回率、精確率、準(zhǔn)確率和F1值的影響，從而確定Word2Vec訓(xùn)練參數(shù)。

2.2 實(shí)驗(yàn)結(jié)果與分析

為了客觀地評(píng)估論文提出的檢測(cè)模型，將檢測(cè)模型與WangRui[18]等人提出的基于AdTree和AdaBoost傳統(tǒng)機(jī)器學(xué)習(xí)算法檢測(cè)XSS進(jìn)行對(duì)比實(shí)驗(yàn)，該方法采用了和本文相同的XSS惡意樣本數(shù)據(jù)集和正常樣本數(shù)據(jù)集，此外還選擇了網(wǎng)站安全狗[19](版本：Apache版V4.0)和XSSChop[20](版本：b6d98f6更新日期：2019-01-25)進(jìn)行對(duì)比實(shí)驗(yàn)。

基于LSTM的跨站腳本攻擊檢測(cè)模型的準(zhǔn)確率為99.5%、召回率為97.9%和F1值為98.7%。在精確率、召回率和F1值三個(gè)方面的表現(xiàn)均優(yōu)于ADTree和AdaBoost傳統(tǒng)機(jī)器學(xué)習(xí)算法的檢測(cè)模型；論文提出的檢測(cè)模型在精確率方面雖然略低于網(wǎng)站安全狗和XSSChop，但三者的精確率均超過(guò)了99.5%；且論文提出的LSTM檢測(cè)模型在召回率和F1值方面都優(yōu)越于網(wǎng)站安全狗和XSSChop。

綜上所述，論文提出的基于LSTM的檢測(cè)模型在精確率、召回率和F1值等方面具有明顯的優(yōu)勢(shì)，證明了該模型能夠有效地識(shí)別跨站腳本攻擊。

3 結(jié)語(yǔ)

針對(duì)編碼混淆的XSS攻擊難以檢測(cè)的問(wèn)題，本文構(gòu)建了一個(gè)基于深度學(xué)習(xí)的跨站腳本攻擊檢測(cè)模型，并證明其有效性。但是該研究仍然存在著一些問(wèn)題和步驟，進(jìn)一步研究和改進(jìn)內(nèi)容如下。

1)將檢測(cè)模型封裝為應(yīng)用編程接口(API)，提供可視化的Web檢測(cè)平臺(tái)。

2)深度研究其他跨站腳本攻擊編碼混淆方式，進(jìn)一步豐富循環(huán)解碼器支持解碼的類(lèi)型，優(yōu)化解碼效率。

3)擴(kuò)展應(yīng)用場(chǎng)景，將基于深度學(xué)習(xí)的攻擊檢測(cè)模型應(yīng)用到其他網(wǎng)絡(luò)安全領(lǐng)域，如SQL注入攻擊檢測(cè)和DDOS攻擊檢測(cè)等。