亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

物聯網異常流量檢測算法研究

2019-03-08 10:26:12鄧海勤

網絡安全與數據管理 2019年2期

鮑捷，牛頡，張勇，鄧海勤

(1.北京郵電大學電子工程學院，北京 100876；2.愛動超越人工智能科技(北京)有限責任公司，北京 100007)

0 引言

隨著當前物聯網在全球各領域的廣泛應用與快速發(fā)展，作為一種信息承載工具，物聯網已經成為人們生活中不可缺少的一部分。物聯網網絡安全問題越來越成為廣受關注的焦點。出于不良目的所產生的異常流量影響著物聯網的正常運轉，用戶主機面臨新的安全隱患，進一步影響了廣大人民群眾的日常工作與生活。

傳統(tǒng)的通過靜態(tài)規(guī)則匹配的網絡異常檢測方法在動態(tài)、復雜的網絡環(huán)境中難以檢測出未知異常和攻擊類型，不能滿足網絡安全檢測的要求。機器學習具有自學習、自演化的特性，可以適應復雜多變的網絡環(huán)境，能夠檢測出未知異常，滿足實時準確檢測的需求。因此，使用機器學習的方法檢測網絡中海量的流量，對于物聯網領域的發(fā)展具有重要的意義。本文借鑒傳統(tǒng)網絡中異常流量檢測技術加以改進，從而識別物聯網中異常流量。因為在實時網絡流量異常檢測中無法得到大量帶標記的樣本記錄，所以從機器學習的無監(jiān)督學習算法中選取One-class SVM、Isolation Forest、K-means等方法進行網絡異常流量檢測，對相關技術進行分析和比較。

1 網絡異常流量檢測技術

傳統(tǒng)的預防網絡安全的技術主要有防火墻、病毒的查殺軟件等，這些措施只能夠發(fā)現一些簡單的網絡入侵，對于一些設計較為嚴密的入侵則較難判斷。新形勢下的互聯網異常流量已經變得比以往更加復雜多變，因此傳統(tǒng)的預防網絡安全的技術只是在特定的范圍中或是一定的程度上起到作用。文獻[1]主要是從分類、聚類、統(tǒng)計、信息理論四個角度來總結異常流量檢測技術。文獻[2]介紹利用數據挖掘的異常流量檢測技術，主要從分類和結合數據挖掘、聚類、關聯分析的多種算法來歸納。張楠等在文獻[3]總結了當前有哪些主流的異常流量檢測技術和檢測過程中的技術和關鍵問題。文獻[4]從入侵檢測方法中的三個方面入手，介紹了異常檢測的方法和技術類型等。文獻[5]從動態(tài)網絡的異常檢測出發(fā)，歸納了動態(tài)網絡中的四種異常類型。雖然有很多機器學習的算法被應用到異常流量檢測中，但是都沒有從機器學習的角度全面地介紹網絡異常流量檢測。

基于監(jiān)督機器學習的方法是利用標記的數據集將分類器輸出的結果與實際結果進行連續(xù)比較，然后調整參數直至訓練出最優(yōu)模型。早在2005年，樸素貝葉斯被摩爾等人引入并進行流量的識別與分類，之后貝葉斯網絡再一次被奧爾德等人應用，并在性能上加以提高，使用效率優(yōu)于從前。另一種較為常見的監(jiān)督算法是C4.5決策樹，應用于K-Nearest Neighbor(KNN)以及流量的識別。但是，這些方法整體傾向于局部優(yōu)化。支持向量機是有監(jiān)督的算法，可以避免局部優(yōu)化，在識別流量方面顯示出高度的準確性，并檢測異常流量。文獻[6]使用KNN算法來實現異常行為的檢測，文獻[7]把KNN和K-means融合在一起形成一個新的方法，文獻[8]針對冗余特征和樣本數據高維度等問題，使用KNN和改進的人工魚群算法來選擇特征向量，提高異常檢測的效率和正確率。文獻[9]是采用的決策樹來實現網絡異常流量檢測。

無監(jiān)督的算法旨在聚類，即根據統(tǒng)計特征來聚合相似的流量，分離不相似的流量并建立群集和網絡應用之間的映射。在2004年，期望最大化(Expectancy Maximum，EM)被McGregor應用于流量分類。但是，它只能識別未知流量，不能識別出流量的具體應用。然后，Zander st.通過利用EM構建無監(jiān)督貝葉斯分類器提出了AutoClass。盡管AutoClass可以識別某種類型的流量，但仍然很難識別其他類型的流量。通常，非監(jiān)督方法比識別特定類型更適合在動態(tài)環(huán)境中查找新的應用程序類型。文獻[10]提出了一種改進的K-means的方法，將多次劃分的數據集相交直至結果收斂，減少迭代次數、加快了算法的速度。

2 無監(jiān)督機器學習算法

無監(jiān)督學習相比較于監(jiān)督學習是在數據不知道任何標簽的情況下，按照偏好所訓練出的算法，這種方法將所有的數據與不同的標簽映射。

2.1 One-class SVM算法

One-class SVM指的是訓練數據只有一類的數據，學習到這類數據的邊界，然后導入測試集，在此范圍內的數據標簽為1，之外的標簽為-1。例如：假如對工廠的產品進行檢查，往往知道的大多數數據都是合格產品的參數，這個時候可以通過合格產品的參數訓練一個一類分類器，超出這個邊界的便可標記為不合格產品。

它的求解模型如下：

(1)

subject to (w·Φ(xi))≥ρ-ξi,ξi≥0

(2)

2.2 K-means算法

K-means是一種聚類算法，聚類是針對大量未知標簽的數據集，按照數據內部存在的數據特征劃分為不同的類別，使類別內的數據比較相似，類別之間的數據相似度比較大，屬于無監(jiān)督學習算法。輸入的是樣本集，聚類的簇數是l，最大迭代次數N的輸出是簇劃分。

算法流程：

1.選擇K個點作為初始質心;2.將每個點對應到最近的質心,形成K個簇;3.重新計算每個簇的質心;4.重復上述步驟;5.直到達到最大迭代次數或者是簇不發(fā)生變化。

尋找使誤差準則函數最小的簇是K-means算法的目的。簇與簇之間的區(qū)別在潛在的簇形狀為凸面的時候比較明顯，而且當簇的大小差不多時，通常情況下會產生比較理想的聚類結果。時間復雜度為O(tKmn)的該算法是與樣本數量呈線性相關的，所以在處理大數據集合的時候效率非常高，并且在處理時也具有很好的伸縮性。除了對初始聚類中心較為敏感以及需要事先確定簇數K之外，算法的結束通常是采取局部最優(yōu)的方法，并且對孤立點和“噪聲”比較敏感，該方法實際上不適于尋找凸面形狀的簇或者大小差別很小的簇。

2.3 Isolation Forest算法

Isolation Forest是隨機采樣一部分數據構造每一顆iTree，保證不同樹之間的差異性，iTree的構造需要首先隨機選擇一個屬性，然后隨機選擇這個屬性的一個值，把小于這個值的作為左孩子，大于等于的作為右孩子，一般直到傳入的數據集的樹的高度達到了限定高度，iForest具有線性時間復雜度，對全局稀疏點敏感。

算法流程：

1.選擇一個屬性Attr;2.選擇該屬性的一個值Value;3.Attr對每條記錄進行分類,把Attr小于Value的記錄歸為左孩子,把大于等于Value的記錄歸為右孩子;4.遞歸的構造左孩子和右孩子,直至滿足以下的兩個條件之一:(1)傳入的數據集只有一條記錄或者有多條一樣的記錄;(2)樹的高度達到了限定高度。

把iTree構建好之后就可以預測數據了，預測的過程如下：先在iTree上運行一下訓練數據集，看通過測試之后得到的記錄落在哪個葉子節(jié)點。iTree能有效檢測異常的假設是：網絡流量異常點一般來說都是十分稀少的，所以在iTree中會很快找到這樣的葉子節(jié)點，葉子節(jié)點到根節(jié)點的路徑用h(x)來表示，可以用這個參數的長度判斷一條記錄x是否是異常點。對于一個包含n條記錄的數據集，其構造的樹的高度最小值為log(n)，最大值為n-1，歸一化公式如下：

(3)

c(n)=2H(n-1)-(2(n-1)/n)

(4)

其中H(k)=ln(k)+ξ,ξ=0.577 215 664 9 為歐拉常數。

s(x,n)是記錄x在由n個樣本的訓練數據構成的iTree的異常指數，s(x,n)取值范圍為[0,1]異常情況的判斷分以下幾種情況：

(1)越接近1表示是異常點的可能性高；

(2)越接近0表示是正常點的可能性比較高；

(3)如果大部分的訓練樣本的s(x,n)都接近于0.5，說明整個數據集都沒有明顯的異常值。

iForest和Random Forest的方法有些類似，都是隨機采樣一部分數據集去構造每一棵樹，保證不同樹之間的差異性，不過iForest與RF不同，采樣的數據量Psi不需要等于n，可以遠遠小于n。

算法流程如下：

輸入:輸入數據X,iTree的數量,樣本大小ψ 輸出:iForest1.初始化Forest;2.設置限制高度;3.對于每個分支構造iTree并賦給Forest;4.返回iForest。

Isolation Forest算法主要有兩個參數：一個是二叉樹的個數；另一個是訓練單棵iTree時候抽取樣本的數目。實驗表明，當設定為100棵樹，抽樣樣本數為256條時，IF在大多數情況下已經可以取得不錯的效果，體現了算法的簡單、高效。

Isolation Forest是無監(jiān)督的異常檢測算法，在實際應用時，并不需要黑白標簽。需要注意的是：(1)如果訓練樣本中異常樣本的比例比較高，違背了先前提到的異常檢測的基本假設，可能最終的效果會受影響；(2)異常檢測與具體的應用場景緊密相關，算法檢測出的“異常”不一定符合場景實際。比如，在識別虛假交易時，異常的交易未必就是虛假的交易。所以，在特征選擇時，可能需要過濾不相關的特征，以免識別出一些不相關的“異?！?。

3 實驗與分析

本文中pcap流量包使用開源數據集CICIDS2017[11]，CICIDS2017數據集包含良性和最新的常見攻擊，類似于真實的真實數據(PCAP)。還包括使用CICFlowMeter進行網絡流量分析的結果，該流量分析具有基于時間戳、源和目標IP、源和目標端口、協議和攻擊(CSV文件)的標記流。使用wireshark對pcap流量包進行解析、預處理操作，最后得到41維的.csv文件作為本文使用的數據集。對三種結果數據整理、計算，可得到正確率、誤報率、漏報率、效率，如表1所示。

表1 實驗結果分析

從表中可以看出，K-means在正確率、誤報率、漏報率、效率方面要優(yōu)于Isolation Forest和One-class SVM。綜合來看，K-means表現要優(yōu)于其他兩種無監(jiān)督機器學習算法。

4 結論

使用三種不同的無監(jiān)督機器學習算法對物聯網異常流量進行檢測，通過結果對比可以得到K-means算法要優(yōu)于其他兩種算法，Isolation Forest算法表現最差。希望為無監(jiān)督機器學習算法檢測物聯網流量研究提供借鑒。