張吉生 吳旻榮 黨引 任東曉 沈青
摘 要: 針對網絡入侵的特征,提出一種基于SVM支持向量機的入侵危險識別模型。利用支持向量機SVM模型,混合人工蜂群HABC優(yōu)化的方式,克服算法中存在早熟收斂和局部極小的問題。通過該模型實現對網絡入侵信息系統(tǒng)自適應識別出攻擊效果,有效得到網絡入侵的信息系統(tǒng)風險評估。驗證結果表明,HABC優(yōu)化的SVM模型比傳統(tǒng)危險入侵識別模型的準確度更高,收斂速度快,泛化能力增強,說明了該方法的可行性、有效性。
關鍵詞: 安全監(jiān)測; 混合人工蜂群算法; 支持向量機; 信息安全; 風險評估
中圖分類號: TN915.08?34; V249 文獻標識碼: A 文章編號: 1004?373X(2017)07?0081?04
An adaptive monitoring and evaluation method of information system security
ZHANG Jisheng, WU Minrong, DANG Yin, REN Dongxiao, SHEN Qing
(Information and Communication Company, State Grid Ningxia Electric Power Company, Yinchuan 750000, China)
Abstract: Aiming at the characteristics of the network intrusion, an intrusion risk identification model based on support vector machine (SVM) is proposed. The SVM model and the optimization method of the hybrid artificial bee colony (HABC) are used to overcome the problems of premature convergence and local minimum existing in the algorithm. The attack effect of the network intrusion information system can be recognized automatically with this model, and the information system risk assessment of network intrusion can be obtained effectively. The experimental results show that the SVM model optimized with HABC has higher accuracy than that of the traditional danger intrusion identification models, faster convergence rate and stronger genera?lization ability, and the feasibility and effectiveness of the proposed method are verified.
Keywords: safety monitoring; hybrid artificial bee colony algorithm; support vector machine; information security; risk assessment
0 引 言
隨著國家電網SG186、SGERP、三集五大等信息化建設不斷深化,電力業(yè)務越來越依賴于信息通信系統(tǒng),信息通信系統(tǒng)的安全性和可靠性將直接影響到電網企業(yè)數據信息的安全保密性[1]。然而,國家電網數據資源中往往包含大量的敏感信息,一旦泄露或遭到非法利用,將會給個人甚至是國家?guī)頍o法彌補的損失。相關數據表明,僅2015年CNVD就通報了將近136個信息系統(tǒng)漏洞,占信息安全漏洞總數的1.8%。多個公司的上千萬條數據從數據庫中泄露[2]。另一方面,入侵手段越來越豐富,短時間內入侵的監(jiān)測數據產生速度越來越快,入侵的數據量飛速增長,能夠達到PB量級[3],傳統(tǒng)的監(jiān)測技術面對如此大容量的數據進行逐項監(jiān)測分析,工作量會大大提高,很難有效地處理與解決入侵問題。
本文利用人工蜂群算法結合細菌趨藥性算法得到的混合人工蜂群算法對支持向量機SVM的參數進行尋優(yōu),再用優(yōu)化后的SVM對信息系統(tǒng)的操作進行識別分類,判斷其是否為危險入侵。同時采用密度估計算法對模型分類得到的正常操作數據進行安全范圍的閾值計算,獲取正常范圍。在正常閾值的基礎上,利用SVM模型分類出異常與正常數值,進行信息系統(tǒng)風險評估,實現危險程度的量化。算法識別準確度得到了大量的提升,同時算法的收斂速度快,泛化性能強,魯棒性高,具有較好的工程指導價值。
1 SVM基本原理
支持向量機(Support Vector Machine,SVM)像多層感知器網絡和徑向基函數網絡一樣,可用于模式分類和非線性回歸。
為了確保在異常入侵的任何情況下都可以將訓練數據映射到足夠高的維度,使它們成為線性可分的,需要在非線性硬間隔分類機的基礎上引入線性軟間隔分類機中的松弛變量。從而分類問題可描述為:
映射:[T=x′1,y1,x′2,y2,…,x′l,yl]
其中:[x′i=?(xi)]
分類平面:[w?x+b=0]
[minw,b12w2+Ci=1lξi]
[s.t. yi((w?x′i)+b)+1≥1-ξi, i=1,2,…,l]
對于非線性求解問題,SVM主要采用如下思想解決:通過事先選擇的某種非線性映射將輸入向量[x]映射到一個高維特征空間[Z,]從而在這個高維特征空間[Z]中構造最優(yōu)分類超平面。支持向量機SVM的體系結構如圖1所示。
2 混合人工蜂群HABC優(yōu)化算法
大數據信息系統(tǒng)異常入侵實際上是多分類問題,支持向量機SVM的分類性能與其參數息息相關,對于SVM參數訓練而言,單個參數[(C[i],g[i])]的提高并不一定就意味著系統(tǒng)性能的提升,但從統(tǒng)計意義上來說,避免每個[(C[i],g[i])]陷入較差的局部最優(yōu)解有利于整個系統(tǒng)性能的提高,因此對SVM參數進行全局優(yōu)化訓練。
2.1 人工蜂群算法
本文對模型的全局搜索采用人工蜂群ABC(ArtificialBee Colony)[4]算法。如果用[E]表示蜂蜜能量,[T]表示花費的時間,則它們的目標函數[Fobj]可寫為[5]:
[maxFobj=ET]
目的是搜索目標函數[F(θ)]的最大值,[θi]表示第[i]個食物源的位置,[F(θi)]就可以比作是第[i]個食物源所處位置的蜂蜜數量。某個食物源位置[θi]對應的目標函數值[F(θi)]越大,觀察蜂決定跟隨去開采的概率就越大。因此,每個觀察蜂被招募的概率可以表示為:
[pi=F(θi)k=1sF(θk)]
2.2 細菌趨藥算法
本文引入細菌趨藥算法(Hybird Search),在人工蜂群算法中加入局部搜索策略,提高種群的多樣性,避免早熟收斂,使用自適應Bohzmann概率調整不同搜索階段的選擇壓力從而提高算法的整體性能。
假設細菌的總數為[Sn,]每個細菌的位置代表問題的一個可能解,可表示為[D]維空間中的一個向量[θi=[θi1,θi2,…,θiD],][i=1,2,…,Sn。]若用符號[θi(j)]表示第[i]個細菌經過第[j]次趨藥行為后所處的位置,那么下一次趨藥步驟之后,所處的位置可表示為:
[θi(j+1)=θi(j)+C(i)??(j)]
式中:[C(i)]為正常數,表示細菌[i]每次向前游動的步長單位;[?(j)]表示細菌翻滾后隨機選中的另一個前進方向。
同時引入自適應Bohzmann概率,其相應的概率公式表示如下:
[pi=exp(fitiT)j=1SNexp(fitiT)]
式中:[fiti]為第[i]個食物源的適應度函數;[T]為一個參數可控制選擇壓力。
基于ABC算法的思想,本文提出基于人工蜂群優(yōu)化算法(ABC)和細菌趨藥法(Hybird)的HABC算法描述,其算法流程如圖2所示。
3 大數據科目樣本質量提升
對信息系統(tǒng)的實時信息數據進行監(jiān)控,會產生大數據量的樣本信息。為了提高識別危險異常入侵行為的精度,本文需要對大數據進行分布式的數據質量提升。
本文監(jiān)控采用的是信通數據庫后臺大量的審計日志數據,包含CPU利用率,內存利用率IO,操作用戶,操作時間,操作終端,操作行為,操作對象,返回碼等。其中返回碼有多種取值,其中0表示成功,具體的非0數值代表該操作失敗的具體原因,因此返回碼將所有返回非0值的失敗操作統(tǒng)一置為1。返回值的處理見表1。
4 信息系統(tǒng)安全的自適應監(jiān)測與評估方法
4.1 安全監(jiān)測識別與評估的全局流程
本文利用模型對實時監(jiān)測的操作數據進行異常入侵識別,同時用關聯度對危險程度進行評估,全局整體流程如圖3所示。
4.2 安全監(jiān)測評估的研究方法
本文對危險程度進行具體的評估,評估值的大小反映了入侵用戶對信息系統(tǒng)的危險程度IV,評估值越大,對信息系統(tǒng)安全性起到的危險程度越高。
實驗數據使用的是信通公司持續(xù)收集2個月,共9周時間的網絡連接和系統(tǒng)審計日志,其中前6周的數據都是正常數據,后3周的數據中包含各種攻擊手段。數據在開始設定的協議下都被標記為正常與攻擊。仿真中包含各種攻擊手段,共計2億條訓練數據記錄和0.4億條測試數據。
本文以[Xin=(X1,X2,…,Xm)]為輸入訓練變量,[Zouti=][Zi,]對應的正常與攻擊為輸出變量,真實值與預測的正則均方差[6]NMSE用來衡量模型的識別精度。
對測試集中的前6周正常數據采用密度估計算法得到正常的閾值范圍。
定義1:設[x1,x2,…,xn]為取值[R]的獨立同分布隨機變量,其服從的分布密度函數為[f(x),]定義函數:
[fh(x)=1nhi=1nKxi-xh, x∈R]
這里采用的核函數為高斯核函數。
[K(u)=12πeu22]
該式稱為密度函數[f(x)]的閾值估計,[h]為預先給定的正數,通常稱為窗寬或光滑參數。
本文對通過混合蜂群優(yōu)化的SVM識別模型識別出的每一條危險記錄數據都采用一種關聯度的算法進行信息系統(tǒng)風險評估。
定義2:危險程度IV為:
[IV0i=miniminkx0(j)-xi(k)+ρmaximaxkx0(j)-xi(k)x0(j)-xi(k)+ρmaximaxkx0(j)-xi(k)]
式中:[ρ]為分辨系數,[0<ρ<1,]根據不同背景要求取值,通常取[ρ=0.5。]
最終通過識別模型,一旦達到工程發(fā)現的危險,就可以通過危險程度算法實現信息系統(tǒng)的風險評估。
5 實例結果分析
選取9周時間收集到的網絡連接和審計日志數據作為原始數據,選取2億條的數據作為訓練集,0.4億條的數據作為測試集,最后將危險識別結果與真實情況的結果對比。
原始的監(jiān)測數據首先經過分布式的計算平臺進行偽數據剔除、協調分析去噪、濾波、數據清理、數據歸一化,代入模型中,采用經過混合人工蜂群HABC優(yōu)化過的SVM模型進行危險識別,最終以危險異常點的識別準確率作為評判的標準。
將訓練數據集代入到模型,再將預測數據集代入,通過計算正則均方差得到模型的識別準確率。HABC優(yōu)化后的SVM與未優(yōu)化SVM危險異常識別準確率的對比,如圖4所示。
對HABC?SVM識別出的正常數據采用本文定義的密度估算得到正常范圍的閾值后,再將實時的預測數據代入上述模型中,通過分類識別模型可以自適應發(fā)現危險,并且識別出來,具體如圖5所示。
一旦發(fā)現用戶的危險入侵操作,就對危險識別操作的結果通過危險程度算法實現危險程度的評估,具體結果如圖6所示。
6 結 論
工程實際中,信息系統(tǒng)的安全往往關系到一個企業(yè)的核心利益,不斷發(fā)展與變化的網絡信息技術和網絡入侵攻擊技術越來越表現出不確定性、復雜性、多樣性等特點。本文圍繞大數據信息系統(tǒng)的安全進行自適應監(jiān)測與評估方法的研究,主要創(chuàng)新點在于:
(1) 將人工蜂群算法與細菌趨藥性算法結合起來,形成了混合人工蜂群算法HABC,有效地提高了全局參數的尋優(yōu)性能。
(2) 將支持向量機SVM與混合人工蜂群算法HABC結合起來,該模型泛化性能強,魯棒性高,同時有效地提高了入侵危險的識別準確度。
(3) 采用密度估計算法,將HABC?SVM模型識別出的正常范圍數據形成安全閾值,同時模型識別出的危險入侵能夠有效地實現信息系統(tǒng)風險評估。
參考文獻
[1] 王繼業(yè),程志華,彭林,等.云計算綜述及電力應用展望[J].中國電力,2014,47(7):108?112.
[2] BERGEMANN D, WAMBACH A. Sequential information disclosure in auctions [J]. Journal of economic theory, 2015, 159: 1074?1095.
[3] MARZ N, WARREN J. Big data: principles and best practices of scalable realtime data systems [M]. Greenwich: Manning Publications Co., 2015.
[4] OZTURK C, HANCER E, KARABOGA D. Dynamic cluste?ring with improved binary artificial bee colony algorithm [J]. Applied soft computing, 2015, 28: 69?80.
[5] 胡艷,韓璞.間接型目標函數對控制品質的影響[J].計算機仿真,2016,33(4):287?291.
[6] 顧燕萍,趙文杰,吳占松.最小二乘支持向量機魯棒回歸算法研究[J].清華大學學報(自然科學版),2015,55(4):396?402.