亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于機(jī)器學(xué)習(xí)的端口掃描入侵檢測(cè)*

        2020-03-26 08:26:18郭楚栩
        通信技術(shù) 2020年2期
        關(guān)鍵詞:特征檢測(cè)模型

        郭楚栩,施 勇,薛 質(zhì)

        (上海交通大學(xué) 電子信息與電氣工程學(xué)院,上海 200240)

        0 引 言

        在第三次工業(yè)革命——計(jì)算機(jī)及信息技術(shù)革命發(fā)展了50年的今天,第四次工業(yè)革命帶著人工智能、清潔能源、機(jī)器人技術(shù)、量子信息技術(shù)、可控核聚變、虛擬現(xiàn)實(shí)以及生物技術(shù)等新興技術(shù),已經(jīng)漸漸滲透到了人們的生活。無(wú)論是第三次還是第四次工業(yè)革命,都是依托于互聯(lián)網(wǎng)進(jìn)行信息交互與交流,可見(jiàn)不管現(xiàn)在還是未來(lái),對(duì)互聯(lián)網(wǎng)的研究都不會(huì)停止。在程序員積極為這個(gè)信息世界構(gòu)建一磚一瓦的同時(shí),有一部分人利用網(wǎng)絡(luò)漏洞對(duì)他人的計(jì)算機(jī)信息系統(tǒng)、基礎(chǔ)設(shè)施、計(jì)算機(jī)網(wǎng)絡(luò)或個(gè)人計(jì)算機(jī)設(shè)備進(jìn)行攻擊。在計(jì)算機(jī)和計(jì)算機(jī)網(wǎng)絡(luò)中,破壞、揭露、修改、使軟件或服務(wù)失去功能、在沒(méi)有得到授權(quán)的情況下偷取或訪問(wèn)任何一計(jì)算機(jī)的數(shù)據(jù),都被視為對(duì)計(jì)算機(jī)和計(jì)算機(jī)網(wǎng)絡(luò)的攻擊[1]。常見(jiàn)的網(wǎng)絡(luò)攻擊可以分為4種類型:拒絕服務(wù)攻擊、利用型攻擊、信息收集型攻擊和假消息攻擊[2]。其中,信息收集型攻擊并不對(duì)目標(biāo)本身造成危害,但往往被用來(lái)進(jìn)一步入侵提供有用的信息。所以,信息收集型攻擊一般是網(wǎng)絡(luò)攻擊的初始步驟。信息收集型攻擊中最常見(jiàn)的是端口掃描。通常使用一些軟件向大范圍的主機(jī)連接一系列的TCP端口,掃描軟件報(bào)告它成功與主機(jī)所開(kāi)放的端口進(jìn)行連接。有網(wǎng)絡(luò)攻擊的存在時(shí),會(huì)有其采取對(duì)應(yīng)的防御措施。端口掃描的防御措施十分簡(jiǎn)單,即檢測(cè)到哪個(gè)端口被端口掃描所攻擊,就關(guān)閉該端口來(lái)阻斷后續(xù)攻擊的繼續(xù)實(shí)行。但是,如何檢測(cè)是否被端口掃描,如何在一系列流量中區(qū)分攻擊流量和一般流量,成為一個(gè)值得研究的問(wèn)題,即需要建立一個(gè)端口掃描的入侵檢測(cè)系統(tǒng)。

        入侵檢測(cè)(Intrusion Detection),顧名思義是對(duì)入侵行為的發(fā)覺(jué)。它通過(guò)對(duì)計(jì)算機(jī)網(wǎng)絡(luò)或計(jì)算機(jī)系統(tǒng)中若干關(guān)鍵點(diǎn)收集信息并對(duì)其進(jìn)行分析,從中發(fā)現(xiàn)網(wǎng)絡(luò)或系統(tǒng)中是否有違反安全策略的行為和被攻擊的跡象。入侵檢測(cè)在網(wǎng)絡(luò)防御過(guò)程中發(fā)揮著至關(guān)重要的作用,旨在幫助安全管理員預(yù)先了解入侵、攻擊和惡意軟件等惡意行為。擁有入侵檢測(cè)系統(tǒng)是保護(hù)關(guān)鍵網(wǎng)絡(luò)免受不斷增加的侵入性活動(dòng)問(wèn)題的強(qiáng)制性防線。

        第四次工業(yè)革命的悄然發(fā)展,帶來(lái)了一項(xiàng)新興技術(shù)——人工智能。在人工智能技術(shù)發(fā)展的同時(shí),使AI不斷學(xué)習(xí)的方法稱作機(jī)器學(xué)習(xí)。它最基本的做法是使用算法解析數(shù)據(jù)、從中學(xué)習(xí),然后對(duì)真實(shí)數(shù)據(jù)集中的事件做出決策和預(yù)測(cè)。與傳統(tǒng)的為解決特定任務(wù)、硬編碼的軟件程序不同,機(jī)器學(xué)習(xí)是用大量的數(shù)據(jù)來(lái)“訓(xùn)練”,通過(guò)各種算法從數(shù)據(jù)中學(xué)習(xí)如何完成任務(wù)。如何在一系列流量中區(qū)分攻擊流量和一般流量,可以使用機(jī)器學(xué)習(xí)的方法。簡(jiǎn)單來(lái)說(shuō),就是從訓(xùn)練集中提取端口掃描攻擊的流量特征,再讓計(jì)算機(jī)對(duì)真實(shí)數(shù)據(jù)集中的各種流量進(jìn)行匹配,判斷其是否符合特定特征,進(jìn)而判斷該流量是否為端口掃描攻擊。

        1 端口掃描基本知識(shí)

        1.1 端口掃描的分類

        按照不同的分類標(biāo)準(zhǔn),端口掃描可以有不同的分類方法[1]。

        1.1.1 水平掃描

        水平掃描是指對(duì)某一端口有一定目的性的掃描,對(duì)不同計(jì)算機(jī)的同一端口進(jìn)行多次掃描,如圖1所示。

        圖1 水平掃描

        1.1.2 垂直掃描

        垂直掃描是指對(duì)某一計(jì)算機(jī)有一定目的性的掃描,對(duì)同一計(jì)算機(jī)的不同端口進(jìn)行多次掃描,如圖2所示。

        圖2 垂直掃描

        1.2 端口掃描檢測(cè)方法

        端口掃描大體上可以分為水平掃描與垂直掃描兩種,而這兩種掃描方式都有明顯的特征,所以能依照這些特征檢測(cè)這兩類端口掃描。

        對(duì)于水平掃描,由于是對(duì)不同主機(jī)的同一端口進(jìn)行掃描,所以在掃描過(guò)程中目的主機(jī)IP數(shù)與目的端口數(shù)的比值遠(yuǎn)大于1,即:

        對(duì)于水平掃描,由于是對(duì)同一主機(jī)的不同端口進(jìn)行掃描,所以在掃描過(guò)程中目的主機(jī)IP數(shù)與目的端口數(shù)的比值遠(yuǎn)小于1,即:

        以這兩種掃描檢測(cè)的思路為基礎(chǔ),延伸出了多種檢測(cè)方法,如基于閾值的掃描檢測(cè)、算法類型掃描檢測(cè)、基于規(guī)則的掃描檢測(cè)以及可視化手段的掃描檢測(cè)等[2]。

        2 基于機(jī)器學(xué)習(xí)的端口掃描檢測(cè)

        常規(guī)檢測(cè)方法均依賴于人工對(duì)算法的調(diào)參或者是對(duì)圖像的觀察,費(fèi)時(shí)費(fèi)力,而興起的機(jī)器學(xué)習(xí)算法能解決該問(wèn)題。2018年,Daniel Fraunholz等人提出了如圖3所示的模型[3]。

        圖3 Daniel Fraunholz等人提出的入侵檢測(cè)模型

        該入侵檢測(cè)模型主要分為嗅探器和分類器兩個(gè)大模塊。其中,分類器就是使用機(jī)器學(xué)習(xí)算法對(duì)嗅探器處理好的流量進(jìn)行入侵檢測(cè),該檢測(cè)包括端口掃描以及其他異常流量如DDos攻擊等。該模型將正常流量和異常流量整合為序列進(jìn)行訓(xùn)練與測(cè)試,而本文僅在流量中檢測(cè)端口掃描的異常流量,所以只需要簡(jiǎn)單地對(duì)流量包本身進(jìn)行訓(xùn)練與測(cè)試即可。建立端口掃描檢測(cè)系統(tǒng)流程,如圖4所示。

        圖4 端口掃描檢測(cè)系統(tǒng)流程

        2.1 pcap數(shù)據(jù)包生成

        目前,對(duì)入侵檢測(cè)系統(tǒng)的研究已經(jīng)比較全面且廣泛,相關(guān)算法也較為齊全,但是絕大部分研究?jī)H僅是對(duì)從pcap文件提取的特征進(jìn)行分析分類,如對(duì)KDD Cup 99數(shù)據(jù)集進(jìn)行分類[4],而基于原始pcap文件進(jìn)行檢測(cè)的研究甚少。為了實(shí)現(xiàn)對(duì)流量進(jìn)行分析的功能,需要收集PortScan流量和正常流量,并基于此進(jìn)行分析。

        但是,盡管現(xiàn)有的入侵流量的特征數(shù)據(jù)集數(shù)量很多,但是這些數(shù)據(jù)集中的數(shù)據(jù)僅僅是已提取好的特征,卻無(wú)法獲得其原始pcap文件。通過(guò)調(diào)研找到CICIDS2017數(shù)據(jù)集[5],此數(shù)據(jù)集為加拿大信息安全研究所于2017年收集所得,其中記錄了5天內(nèi)各種入侵行為的流量包,并以pcap文件形式呈現(xiàn)。它的端口掃描以NMAP進(jìn)行實(shí)施,包括多種端口掃描形式,涵蓋項(xiàng)目要求的端口掃描類型。

        在CICIDS2017中,端口掃描流量集中于周五,且在特定的兩個(gè)IP間進(jìn)行端口掃描(攻擊源IP為172.16.0.1,攻擊目標(biāo)IP為192.168.10.50)。提取CICIDS2017文件中的端口掃描時(shí)間段的流量,此流量中包括了正常流量和端口掃描流量。但是,鑒于端口掃描僅存在于兩個(gè)固定IP間的通信中,且此兩IP在此期間的全部通信均為端口掃描,因此提取端口掃描流量較為容易。

        2.2 tshark指令過(guò)濾數(shù)據(jù)

        考慮到pcap文件為二進(jìn)制文件,機(jī)器學(xué)習(xí)算法對(duì)此文件很難進(jìn)行直接處理。借鑒大多數(shù)入侵檢測(cè)及其相關(guān)研究,大多入侵檢測(cè)系統(tǒng)處理對(duì)象為不同特征組成的流量序列,而非pcap文件。因此,對(duì)于端口掃描流量和正常流量的最初處理為從pcap文件中提取相應(yīng)特征。

        利用wireshark及其命令行操作,可提取pcap流量文件中各條流量包的基本特征,包括IP、端口和協(xié)議等。因此,利用wireshark對(duì)流量的基本特征進(jìn)行提取,命令行命令如下:

        tshark -r PortScan.pcap -T fields -e ip.src -e ip.dst -e tcp.srcport -e tcp.dstport -e udp.srcport-e udp.dstport -e ip.proto -e frame.time -e frame.time_epoch -e _ws.col.Length -e frame.time_delta >PortScan.csv

        命令行中提取特征的中英對(duì)照表如表1所示。

        表1 命令行中特征提取中英對(duì)照表

        2.3 對(duì)數(shù)據(jù)處理

        2.3.1 特征初步處理

        考慮到pcap文件的流量協(xié)議不同,提取出的特征集存在特征缺失的情況,十分不利于后續(xù)的分析。因此,對(duì)于從pcap轉(zhuǎn)換而來(lái)的特征序列,需要對(duì)數(shù)據(jù)進(jìn)行清洗。

        清洗主要包括兩個(gè)方面:

        (1)根據(jù)流量的協(xié)議,確定相應(yīng)的IP端口;

        (2)提出特征存在缺失的流量,特別是IP缺失的流量。

        2.3.2 流量的整合

        由于某兩IP及其相應(yīng)端口間的通信往往是連續(xù)的且多次的,因此將單個(gè)流量包作為一次通信行為是不可取的。本系統(tǒng)將間隔不超過(guò)某一時(shí)間段的兩個(gè)相同IP和端口組合的主機(jī)之間的流量視為同一通信行為。此時(shí)間段(time_epoch)可根據(jù)實(shí)際情況進(jìn)行限制(代碼中time_epoch=1.2)。

        2.3.3 ICMP協(xié)議分析

        由于TCP、UDP均工作在傳輸層,而ICMP工作在網(wǎng)絡(luò)層,因此將是否有ICMP協(xié)議工作視為一種特征加以考慮。

        2.3.4 基于主機(jī)和時(shí)間的統(tǒng)計(jì)特征

        主要根據(jù)一般端口掃描行為的特點(diǎn),即同一源IP持續(xù)對(duì)同一目的IP的不同端口進(jìn)行訪問(wèn)。據(jù)此,檢查某一經(jīng)過(guò)整合的目標(biāo)流量包,對(duì)此目標(biāo)流量包之前的1 000個(gè)(單位個(gè)數(shù))流量包進(jìn)行檢查分析,檢測(cè)是否具有相同的源IP和目的IP,并檢查端口和協(xié)議情況,從而得到統(tǒng)計(jì)特征。同時(shí),由于IDS僅防衛(wèi)某一主機(jī)的安全,因此僅對(duì)目標(biāo)包的目的IP為此主機(jī)IP的目標(biāo)包進(jìn)行檢測(cè),具體特征如下。

        line_same_src:?jiǎn)挝粩?shù)量的流量包中,目的IP為此主機(jī)IP的流量數(shù)量;

        line_same_src_not_protocol:與目標(biāo)包有相同的目的IP、不同的目的端口、相同的源IP、不同的協(xié)議的包的數(shù)量(且目的端口不可重復(fù));

        line_same_src_not_protocol_repeat:與目標(biāo)包有相同的目的IP、不同的目的端口、相同的源IP、不同的協(xié)議的包的數(shù)量(且目的端口可重復(fù));

        line_same_src_same_protocol:與目標(biāo)包有相同的目的IP、不同的目的端口、相同的源IP、相同的協(xié)議的包的數(shù)量(目的端口不可重復(fù));

        line_same_src_same_protocol_repeat:與目標(biāo)包有相同的目的IP、不同的目的端口、相同的來(lái)源IP、相同的協(xié)議的包的數(shù)量(目的端口可重復(fù))。

        為了進(jìn)一步檢查目標(biāo)流量與之前流量間的統(tǒng)計(jì)關(guān)系,并且考慮慢掃描情況,再對(duì)目標(biāo)流量前2 s內(nèi)(單位時(shí)間)的流量包進(jìn)行檢測(cè)。其他具體內(nèi)容和規(guī)則與單位個(gè)數(shù)內(nèi)的檢測(cè)一致,具體特征如下。

        second_same_src:?jiǎn)挝粫r(shí)間的流量包中,目的IP為此主機(jī)IP的流量數(shù)量;

        second_same_src_not_protocol:與目標(biāo)包有相同的目的IP、不同的目的端口、相同的源IP、不同的協(xié)議的包的數(shù)量(且目的端口不可重復(fù));

        second_same_src_not_protocol_repeat:與目標(biāo)包有相同的目的IP、不同的目的端口、相同的源IP、不同的協(xié)議的包的數(shù)量(且目的端口可重復(fù));

        second_same_src_same_protocol:與目標(biāo)包有相同的目的IP、不同的目的端口、相同的源IP、相同的協(xié)議的包的數(shù)量(目的端口不可重復(fù));

        second_same_src_same_protocol_repeat:與目標(biāo)包有相同的目的IP、不同的目的端口、相同的來(lái)源IP、相同的協(xié)議的包的數(shù)量(目的端口可重復(fù))。

        綜上,目前提取的特征共15個(gè),如表2所示。

        表2 整合后的特征中英對(duì)照

        2.4 訓(xùn)練模型

        基于以上所得特征,利用機(jī)器學(xué)習(xí)算法對(duì)以上特征形成的特征向量進(jìn)行分類。本代碼生成的特征數(shù)量有限,特征總數(shù)為15??紤]到深度學(xué)習(xí)主要適用于圖像語(yǔ)音等單個(gè)大型文件的分類。對(duì)于特征較少的單一文件,使用傳統(tǒng)機(jī)器學(xué)習(xí)方法即可。因此,整理統(tǒng)計(jì)數(shù)據(jù)并送入分類模型中進(jìn)行檢測(cè),其中模型包括樸素貝葉斯、決策樹(shù)、隨機(jī)森林和邏輯回歸。

        將70%的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),30%的數(shù)據(jù)作為測(cè)試數(shù)據(jù)。分類測(cè)試效果如表3所示,其中Decision Tree較好,所以之后的測(cè)試均使用該機(jī)器學(xué)習(xí)算法。

        表3 各種機(jī)器學(xué)習(xí)模型的測(cè)試效果表

        需要注意,本次模型訓(xùn)練使用的是一小部分CICIDS2017數(shù)據(jù),之后進(jìn)行測(cè)試時(shí)使用的是完整CICIDS2017數(shù)據(jù)所建立的模型。

        2.5 測(cè)試數(shù)據(jù)

        使用兩臺(tái)均為Ubuntu18.04 64位虛擬機(jī),其中一臺(tái)作為攻擊主機(jī)使用Nmap工具對(duì)另一臺(tái)被攻擊主機(jī)進(jìn)行端口掃描(采用各種不同的攻擊方式),被攻擊主機(jī)使用wireshark工具采集流量,同時(shí)打開(kāi)網(wǎng)頁(yè)觀看視頻與文章,以此產(chǎn)生正常流量來(lái)作端口掃描流量的背景流量。對(duì)于采集好的流量,放入之前訓(xùn)練好的機(jī)器學(xué)習(xí)模型中進(jìn)行測(cè)試,測(cè)試結(jié)果如表4所示。

        表4 對(duì)于各種掃描類型的測(cè)試效果

        可見(jiàn),不管是何種掃描類型,該模型檢測(cè)能力均表現(xiàn)優(yōu)良。

        3 結(jié) 語(yǔ)

        近年來(lái),互聯(lián)網(wǎng)領(lǐng)域中機(jī)器學(xué)習(xí)日益火熱,而端口掃描檢測(cè)為基本的信息安全防御手段,將兩者相結(jié)合是未來(lái)發(fā)展的必然趨勢(shì)。本文基于2018年Daniel Fraunholz等人提出了的入侵檢測(cè)模型,提出了一種基于機(jī)器學(xué)習(xí)的端口掃描檢測(cè)系統(tǒng)。系統(tǒng)的特征提取參考了KDD Cup 99數(shù)據(jù)集中數(shù)據(jù)的特征提取,其中的模型訓(xùn)練集基于CICIDS2017數(shù)據(jù)集,最后模型測(cè)試結(jié)果優(yōu)良,能夠廣泛運(yùn)用到多種不同類型的掃描檢測(cè)中。然而,對(duì)慢掃描[8]與分布式掃描等在短時(shí)間內(nèi)無(wú)大流量的掃描方式還缺乏檢測(cè)手段,將會(huì)是一下階段嘗試攻克的課題。

        猜你喜歡
        特征檢測(cè)模型
        一半模型
        “不等式”檢測(cè)題
        “一元一次不等式”檢測(cè)題
        “一元一次不等式組”檢測(cè)題
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        如何表達(dá)“特征”
        不忠誠(chéng)的四個(gè)特征
        抓住特征巧觀察
        3D打印中的模型分割與打包
        亚洲一级无码片一区二区三区| 色婷婷一区二区三区77| 精品亚洲乱码一区二区三区| 少妇人妻系列中文在线| 国产剧情av麻豆香蕉精品| 亚洲av无码专区国产不卡顿| 久久精品国产亚洲av网站| 中文字幕在线观看亚洲日韩| 国产啪精品视频网站| 国产一区二区三区四区五区vm| 在线观看av手机网址| 丝袜人妻无码中文字幕综合网| 丁香婷婷激情俺也去俺来也| 亚洲综合一区中文字幕| 亚洲国产精品综合久久网各| 最近中文字幕在线mv视频在线 | 色婷婷综合激情| 国产精品自线在线播放| 少妇人妻出水中文字幕乱码| 日韩av水蜜桃一区二区三区| 中文字幕在线亚洲三区| 亚洲精品国产一区二区| 麻豆精品久久久久久久99蜜桃| 97久久久久人妻精品专区| 精品福利一区| 久久久亚洲日本精品一区| 国产人妻久久精品二区三区老狼| 无码无套少妇毛多18pxxxx| 久久久久久国产精品无码超碰动画| 人伦片无码中文字幕| 日产精品毛片av一区二区三区| 国产a级毛片久久久精品毛片| 藏春阁福利视频| 国产一级做a爱视频在线| 日本午夜a级理论片在线播放| 国产熟女一区二区三区不卡| 99久久久无码国产精品秋霞网| 国产日产高清欧美一区| 国产一区二区三区白浆在线观看| 中文字幕高清视频婷婷| 久久国产加勒比精品无码|