張露露,束 宇
(1.馬鞍山學院 騰訊云大數(shù)據(jù)學院,安徽 馬鞍山 243000;2.安徽商貿(mào)職業(yè)技術(shù)學院電子商務學院,安徽 蕪湖 241000)
網(wǎng)絡時代,互聯(lián)網(wǎng)技術(shù)不斷發(fā)展并應用到人類社會的各個方面,改變著人類生產(chǎn)、溝通、學習等方式.基于互聯(lián)網(wǎng),以物聯(lián)網(wǎng)為核心的智慧校園,給我們呈現(xiàn)出一個以安全為前提,以穩(wěn)定為基礎(chǔ),以環(huán)保、節(jié)能為目標的校園網(wǎng)絡環(huán)境[1].智慧校園網(wǎng)絡為學校師生提供智慧消息、智慧學習、智慧生活、智慧辦公等服務,其網(wǎng)絡的安全對智慧校園有效運作至關(guān)重要.
智慧校園網(wǎng)絡入侵檢測系統(tǒng)就是要分析并識別異常流量中入侵攻擊流量的特征,利用流量處理來過濾異常流量并測試當前聚積流量的擁塞控制特性,恢復被誤判的流量[2].入侵檢測系統(tǒng)最重要的就是構(gòu)建一個適用于智慧校園網(wǎng)絡的入侵檢測流量分析算法,根據(jù)流量分析算法建立一個分布式流量監(jiān)測原型:基于網(wǎng)絡流量在正?;虍惓顩r下所表現(xiàn)出的不同狀態(tài),結(jié)合試驗環(huán)境進行流量分析,從而建立一個可以實時處理網(wǎng)絡內(nèi)部多臺關(guān)鍵服務器及電腦異常流量的流量監(jiān)測系統(tǒng).
隨著互聯(lián)網(wǎng)技術(shù)日益提升,網(wǎng)絡入侵手段日新月異,入侵檢測系統(tǒng)存在漏報現(xiàn)象和誤報率高等問題.筆者引入數(shù)據(jù)挖掘技術(shù),將基于自適應的遺傳優(yōu)化K-means聚類算法引入智慧校園網(wǎng)絡入侵檢測系統(tǒng),在相同的環(huán)境條件下獲得更佳的檢測效果.
網(wǎng)絡流量隨時間變化呈現(xiàn)一定的規(guī)律性,而回歸分析預算法是研究一個應變量對一個或多個自變量的依賴關(guān)系,通過給定自變量值來估計和預測應變量均值的一種預測方法.因此,可以借助回歸分析預算法,隨著時間軸后移來預測將要產(chǎn)生的流量.
網(wǎng)絡流量預測是隨著時間軸后移來預測流量這個波動值,其數(shù)據(jù)模型符合一元非線性回歸函數(shù),因此通過適當?shù)淖兞孔儞Q,可將其化為一元非線性回歸來處理.流量是一個波動的數(shù)值,其函數(shù)類型和s型曲線非常相似.所以以s型曲線作為其預測模型(設x為自變量,其中y為隨機誤差,a,b為回歸系數(shù)).
(1)
通過網(wǎng)絡數(shù)據(jù)包捕獲模塊獲得網(wǎng)絡流量,并按時間片劃分采樣區(qū)間,利用非線性回歸算法預測后續(xù)時間片的網(wǎng)絡流量,再與實際網(wǎng)絡流量對比.基于網(wǎng)絡流量的非線性回歸算法的異常預測測試結(jié)果見表1.以20 min內(nèi)的網(wǎng)絡流量為數(shù)據(jù)樣本,每2 min為一個時間片,共劃分10個時間片,以前5個時間片作為采樣依據(jù)推測后5個時間的網(wǎng)絡流量,并與采樣的后5個時間片實際網(wǎng)絡流量進行對比,分析其誤差率(見表1).
表1 非線性回歸算法異常預測
根據(jù)非線性回歸算法異常預測(圖1),預測流量變化趨勢符合實際流量變化,但是預測流量值與實際網(wǎng)絡流量值存在較大誤差.
圖1 非線性算法實驗結(jié)果
在入侵檢測系統(tǒng)的基礎(chǔ)上,引入聚類分析模塊,構(gòu)建基于自適應的遺傳優(yōu)化K-means聚類算法[3]的入侵檢測系統(tǒng)模型,如圖2所示.
圖2 基于自適應的遺傳優(yōu)化K-means聚類算法的入侵檢測系統(tǒng)模型
K-means是經(jīng)典聚類算法,算法思想簡單,有效而且快捷,但是也存在以下不足之處:這種方法對初始種群值和輸入順序敏感,容易陷入局部最優(yōu)[4].筆者引入自適應的遺傳優(yōu)化策略,通過自適應策略調(diào)整的Pc和Pm可以在適當?shù)臅r候擴張種群,保持種群多樣性,使算法獲得良好的聚類效果.
K-means算法是一種分割聚類算法,它以平均值作為類中心,以相似性作為聚類原則,把數(shù)據(jù)對象劃分到與其最相似的簇中,使簇中每個數(shù)據(jù)對象到該簇中心的關(guān)系最緊密,從而使生成的簇盡可能地緊湊和獨立[5].
算法要求用戶對于給定的n個數(shù)據(jù)對象集,首先確定最終要劃分的聚類數(shù)目k,然后從n個對象中任意選取k個點作為聚類中心,分別計算剩余的n-k個數(shù)據(jù)對象到k個聚類中心的距離,根據(jù)就近原則劃分對象,把每個對象劃分到最近的聚類中[6].根據(jù)當前聚類結(jié)果計算新聚類中心,通過聚類目標函數(shù)評價聚類效果.依據(jù)聚類目標函數(shù)值進行迭代,每一次迭代結(jié)果的目標函數(shù)值減小,每一次迭代得到的類更加緊湊密集,并且類內(nèi)對象的相似性更大,類間對象的相似性更小.
該聚類算法思想簡單,有效而且快捷,但是也存在不足之處,這種方法對初始種群值和輸入順序敏感,容易陷入局部最優(yōu)[7].
雖然遺傳算法可以優(yōu)化K-means聚類算法,但在實際優(yōu)化中仍然存在一些問題,如容易陷入早熟等問題.針對這些問題,筆者采用自適應策略動態(tài)調(diào)整參數(shù),使算法有效地執(zhí)行[8].
自適應算法能夠在算法執(zhí)行過程中適時地動態(tài)地調(diào)整遺傳算法的交叉概率Pc和變異概率Pm.如果群體中某個體的適應度值高于群體的平均適應度值,要將該個體的Pc和Pm調(diào)整到比較低,將該個體基因直接保留到下一代中;如果某個體的適應度值低于群體的平均適應度值,要將該個體的Pc和Pm調(diào)整到比較高,將該個體淘汰,不讓其進入下一代中.由此可見,通過自適應策略調(diào)整的Pc和Pm可以在適當?shù)臅r候擴張種群,保持種群多樣性,進而保證遺傳算法避免出現(xiàn)早熟問題.
交叉概率自適應調(diào)整策略如下:
(2)
變異概率自適應調(diào)整策略如下:
(3)
對引入自適應的遺傳優(yōu)化K-means聚類算法的智慧校園網(wǎng)絡入侵檢測系統(tǒng)進行實驗測試,測試結(jié)果見表2.同樣以20 min內(nèi)的網(wǎng)絡流量為數(shù)據(jù)樣本,每2 min為一個時間片,共劃分10個時間片,以前5個時間片作為采樣依據(jù)推測后5個時間片的網(wǎng)絡流量,并與采樣的后5個時間片實際網(wǎng)絡流量進行對比,分析其誤差率(見圖3).
圖3 基于自適應的遺傳優(yōu)化K-means聚類算法實驗結(jié)果
根據(jù)自適應的遺傳優(yōu)化K-means聚類算法預測(圖3),預測流量變化趨勢符合實際流量變化,同時預測流量值誤差小.與非線性回歸算法異常預測相比,具有更有效的網(wǎng)絡流量預測能力,不論是預測流量趨勢還是預測流量值均符合實際網(wǎng)絡流量情況.
對比上述兩個實驗結(jié)果,發(fā)現(xiàn)引入自適應的遺傳優(yōu)化K-means聚類算法后,入侵檢測系統(tǒng)所預測的流量始終是緊接著采樣空間的那個時間段的流量,預測出的網(wǎng)絡流量要更加準確.
智慧校園網(wǎng)絡入侵檢測系統(tǒng)基本上都是基于異常檢測技術(shù)或誤用檢測技術(shù)的,由于異常檢測技術(shù)和誤用檢測技術(shù)都有不可克服的缺點,入侵檢測效果有限.筆者提出基于自適應的遺傳優(yōu)化 K-means聚類算法的模型很好地克服了它們的缺點,較好地解決了問題.