鐘姍姍, 周健勇
(上海理工大學(xué) 管理學(xué)院,上海 200093)
隨著網(wǎng)絡(luò)信息技術(shù)的發(fā)展,網(wǎng)絡(luò)應(yīng)用中潛在的信息安全問題也在不斷增多.各類針對(duì)系統(tǒng)的入侵行為的破壞程度不容忽視,其中程度嚴(yán)重的破壞可造成相當(dāng)于戰(zhàn)爭(zhēng)行為的危害.在1980年Anderson[1]將入侵行為定義為是具有潛在可能性,在未經(jīng)授權(quán)情況之下,企圖進(jìn)行如下操作:
a.訪問信息;
b.操作信息;
c.導(dǎo)致系統(tǒng)不可靠或無法使用.
為防范此類諸多的入侵行為,不同的防范措施應(yīng)運(yùn)而生.根據(jù)有關(guān)統(tǒng)計(jì)資料表明,30%的入侵行為發(fā)生在有防火墻的情況之下,因而作為防火墻的合理補(bǔ)充的入侵檢測(cè)系統(tǒng)應(yīng)運(yùn)而生.受到生物系統(tǒng)啟發(fā)的人工免疫原理被證明對(duì)防范入侵行為具有高效性、自組織性、高適應(yīng)性和魯棒性,符合入侵檢測(cè)的需求.本文從樹突狀細(xì)胞功能原理中受到啟發(fā),通過應(yīng)用人工免疫原理中的危險(xiǎn)理論和樹突狀細(xì)胞算法對(duì)入侵檢測(cè)方法進(jìn)行研究.
免疫系統(tǒng)是一個(gè)由免疫活性分子、免疫細(xì)胞、免疫組織和器官組成,分布于人體各個(gè)部分的復(fù)雜、自適應(yīng)系統(tǒng).自1891年Ehrlich建立免疫學(xué)概念以來,對(duì)于免疫原理的研究主要集中于自我非自我(self-non-self,SNS)免疫學(xué)古典學(xué)說,即通過細(xì)胞選擇來區(qū)分“自體”與“非自體”蛋白分子.但這一學(xué)說對(duì)有些問題仍然無法解釋,比如,在免疫系統(tǒng)只對(duì)非自體作出應(yīng)答情況下,為何會(huì)出現(xiàn)自身免疫性疾病,以及為何在腸道環(huán)境中數(shù)以百萬計(jì)的細(xì)菌并沒有觸發(fā)免疫應(yīng)答.對(duì)于這些SNS學(xué)說無法解釋的問題,免疫學(xué)家 Matzinge[2]給出了解答,在1994年他提出免疫系統(tǒng)的本質(zhì)并非在于區(qū)分“自體”與“非自體”,而是根據(jù)細(xì)胞是否受到損傷的信號(hào)來作出反應(yīng).這一理論即被稱為危險(xiǎn)理論,該理論表明免疫系統(tǒng)是依據(jù)細(xì)胞異常死亡而產(chǎn)生的危險(xiǎn)信號(hào)來作出應(yīng)答.
危險(xiǎn)理論(danger theory,DT)[2]包含對(duì)免疫應(yīng)答的激活和抑制,即在機(jī)體組織內(nèi)出現(xiàn)的危險(xiǎn)信號(hào)足以激活免疫系統(tǒng),而另一類非危險(xiǎn)信號(hào)可以防止免疫反應(yīng).這種抑制機(jī)制是由細(xì)胞凋亡引起的結(jié)果,是細(xì)胞從人體中遷移出去的正常行為.在一個(gè)細(xì)胞發(fā)生這種細(xì)胞凋亡的過程中,它會(huì)向周圍環(huán)境釋放出各種信號(hào).樹突狀細(xì)胞(DC)也對(duì)這類信號(hào)的濃度變化異常敏感,并能夠?qū)ξkU(xiǎn)和安全信號(hào)進(jìn)行信息融合,以確定機(jī)體組織環(huán)境內(nèi)遇險(xiǎn)還是工作正常.危險(xiǎn)理論認(rèn)為,免疫系統(tǒng)只在危險(xiǎn)出現(xiàn)時(shí)進(jìn)行響應(yīng)或者處于積極抑制狀態(tài).
在危險(xiǎn)理論中相關(guān)信號(hào)是由樹突狀細(xì)胞進(jìn)行提呈.樹突狀細(xì)胞作為最強(qiáng)專職抗原提呈細(xì)胞(APC),負(fù)責(zé)對(duì)機(jī)體組織內(nèi)的病原體相關(guān)分子模式(PAMP)進(jìn)行收集、識(shí)別、分析與處理,最后提呈給免疫細(xì)胞.顯見,樹突狀細(xì)胞對(duì)整個(gè)誘導(dǎo)特異性免疫應(yīng)答過程起到了至關(guān)重要的作用.
樹突狀細(xì)胞算法(dendritic cells algorithm,DCA)[3-4]主要是針對(duì) DC細(xì)胞運(yùn)作過程的仿生原理而設(shè)計(jì),其單個(gè)DC決策作用如圖1所示.該算法通過信號(hào)與抗原入侵的雙重刺激,確認(rèn)入侵行為.在細(xì)胞受損或細(xì)菌入侵產(chǎn)生病原相關(guān)分子模式之后,未成熟DC(iDC)開始采集抗原群和信號(hào)集,即安全信號(hào)(SS)、危險(xiǎn)信號(hào)(DS)、病原相關(guān)分子模式.Th為閥值,k為成熟信號(hào).
圖1 DCA流程Fig.1 DCA flow chart
式中,Oj為輸出信號(hào)CSM、SemiDC、finDC的輸出值;W1j為對(duì)應(yīng)于輸出信號(hào)j的輸入信號(hào)PAMPs的權(quán)值;W2j為對(duì)應(yīng)于輸出信號(hào)j的輸入信號(hào)DS的權(quán)值;W3j為對(duì)應(yīng)于輸出信號(hào)j的輸入信號(hào)SS的權(quán)值;S1為輸入信號(hào)PAMPs的值;S2為輸入信號(hào)DS的值;S3為輸入信號(hào)SS的值.
表1 DCA權(quán)值表Tab.1 Weights used for signal processing
表1是經(jīng)多次生物實(shí)驗(yàn)后所得出的輸入信號(hào)與輸出信號(hào)之間的具體權(quán)值.根據(jù)式(1)計(jì)算得出O1,即協(xié)同刺激信號(hào)(CSM)值,當(dāng)O1大于閾值Th時(shí),則發(fā)生狀態(tài)轉(zhuǎn)移;反之,則重新開始采集抗原群與信號(hào)集.如圖1所示,對(duì)遷移后的抗原根據(jù)式(1)計(jì)算成熟信號(hào)k.若DC釋放的成熟狀態(tài)信號(hào)k>0,則提呈抗原為半成熟DC(semiDC)轉(zhuǎn)成熟狀態(tài);反之,則提呈為成熟DC(finDC)轉(zhuǎn)半成熟狀態(tài).
同種抗體濃度[8]是受到控制的,濃度高的抗體系統(tǒng)要對(duì)其進(jìn)行抑制,同樣,濃度低的抗體則要繁殖以保持多樣性.記憶抗體集與抗原的分布關(guān)系有兩種極端情況:
式中,Φ為空集;Abi,Abj代表抗體子集;Ag為抗原全集,即抗體子集的并為抗原全集,交為空集;或者抗體子集的并為該抗體子集j,且交為該抗體子集j.前者高度獨(dú)立,當(dāng)任一抗體子集失效,其它子集將不能有效檢測(cè)到失效抗體子集所覆蓋區(qū)域,這將給系統(tǒng)帶來極大危險(xiǎn)性.而后者抗體重疊,存在大量冗余和不必要的資源浪費(fèi).所以,抗體子集間存在適度的交叉,能夠很好地提高系統(tǒng)多樣性,并防止魯棒性退化.對(duì)抗體濃度進(jìn)行度量,旨在保持抗體多樣性的同時(shí),不至于收斂到某一區(qū)域.
在非空系統(tǒng)集合S上,通過計(jì)算抗體Abi的Euclid距離,判斷抗體間是否相似,其基于距離的濃度函數(shù)為
式中,C(Abi)為抗原在抗原集中的濃度.
抗體親和度[8]表征抗原和抗體親和力的擬合度,高親和度代表抗體和抗原發(fā)生親和作用的可能性高.抗原和抗體的親和度函數(shù)為
式中,D(Abi)為抗體與抗原間的親和度;f(Abi)為抗體i的適應(yīng)度值;fmax,fmin為適應(yīng)度最大值和最小值.
理想的抗體集應(yīng)同時(shí)具有高親和度、低濃度,即
式中,E(Abi)max為抗體與抗原間親和度同抗原在抗原集中濃度的最大比值.
采用不同的數(shù)據(jù)集分割方式進(jìn)行檢測(cè),會(huì)給檢測(cè)結(jié)果帶來很大差異.動(dòng)態(tài)DCA算法(DDCA)有別于現(xiàn)在普遍使用的基于時(shí)間分割數(shù)據(jù)集的檢測(cè)算法,而采用基于抗原分割數(shù)據(jù)集的方式.基于抗原分割來進(jìn)行檢測(cè)能確保對(duì)數(shù)據(jù)集的分析具有更好的解釋性,所以,DDCA采用基于抗原分割,該算法流程如圖2所示.
為了創(chuàng)建DDCA算法,有必要對(duì)初始抗原進(jìn)行定義,計(jì)算其親和度與濃度比值以選定抗體集.首先,算法仍然需要輸入信號(hào),以及抗原的提呈過程.兩類輸入信號(hào)分別為抑制信號(hào)和激活信號(hào),即SS信號(hào)和DS信號(hào).抗原提呈以動(dòng)態(tài)設(shè)定的閾值和計(jì)算所得的輸出信號(hào)值O1為提呈標(biāo)準(zhǔn).樹突狀細(xì)胞群內(nèi)的每個(gè)樹突狀細(xì)胞具有相同抗原的輸入信號(hào),用同一方式處理這些信號(hào).在整個(gè)樹突狀細(xì)胞群中的輸出信號(hào)僅計(jì)算一次.通過計(jì)算抗原親和度與濃度比值動(dòng)態(tài)選定抗體集,確定閾值,所以,對(duì)信號(hào)處理結(jié)果有穩(wěn)定、優(yōu)化作用.
圖2 DDCA流程Fig.2 DDCA flow chart
DDCA的主要框架思想是以E(Abi)max為衡量標(biāo)準(zhǔn)來動(dòng)態(tài)確定抗體集合,E(Abi)max可以有效避免抗體集的收斂,同時(shí)保證抗體集合的多樣性.對(duì)于原DCA中的閾值參數(shù),則動(dòng)態(tài)地采用抗體集合中最小的N個(gè)CSM的均值和親和度值作為閾值參數(shù).動(dòng)態(tài)設(shè)定閾值參數(shù)使抗體能更好地適應(yīng)抗原的多樣性,具有強(qiáng)魯棒性.
仿真實(shí)驗(yàn)選用標(biāo)準(zhǔn)的美國威斯康星大學(xué)醫(yī)學(xué)院的乳腺癌數(shù)據(jù)集(UCI)[9]作為實(shí)驗(yàn)數(shù)據(jù),UCI數(shù)據(jù)集包含699條數(shù)據(jù),包含Class類在內(nèi)的10個(gè)屬性,其中,458條屬于良性數(shù)據(jù)集,241條屬于惡性數(shù)據(jù)集.如圖3所示(見下頁),采用DDCA的檢測(cè)結(jié)果比樸素貝葉斯算法(Nbayes)和K平均算法(KMeans)的結(jié)果的準(zhǔn)確率高,錯(cuò)警率低,說明該算法具有有效性.
將所有數(shù)據(jù)分割為上、中、下3個(gè)部分,每個(gè)部分各含有233條數(shù)據(jù).分別以3個(gè)不同部分作為訓(xùn)練集,進(jìn)行模擬實(shí)驗(yàn).每1條數(shù)據(jù)視為1個(gè)乳腺癌細(xì)胞,根據(jù)9個(gè)屬性分布情況,選?。踓ell size]、[cell shape]、[bare nuclei]、[bland chromatin]、[bland chromatin]、[normal nucleoli]各個(gè)屬性所對(duì)應(yīng)的良性數(shù)據(jù)集均值與抗原屬性值之間的絕對(duì)偏差作為危險(xiǎn)信號(hào),[clump thickness]偏離良性數(shù)據(jù)集均值作為安全信號(hào)、病原體相關(guān)分子模式,結(jié)果如表2所示.
圖3 Nbayes、K-Means、DCA、DDCA準(zhǔn)確率、錯(cuò)警率Fig.3 Detection rates and FP rates of Nbayes,K-Means,DCA and DDCA
表2 DDCA檢測(cè)結(jié)果Tab.2 DetectionresultsofDDCA
由表2可知,DDCA在采用不同數(shù)據(jù)段作為訓(xùn)練集時(shí),數(shù)據(jù)準(zhǔn)確率保持在96.5%以上,而錯(cuò)警率也較低,在1.5%左右,顯見檢測(cè)結(jié)果穩(wěn)定,算法具有魯棒性.
討論了樹突狀細(xì)胞性能和現(xiàn)有免疫學(xué)危險(xiǎn)理論在入侵檢測(cè)中的應(yīng)用,并提出了一種動(dòng)態(tài)DCA算法,且通過實(shí)驗(yàn)進(jìn)行了驗(yàn)證.在算法中,通過對(duì)樹突狀細(xì)胞運(yùn)作進(jìn)行模擬,動(dòng)態(tài)地確定危險(xiǎn)抗原進(jìn)行警報(bào).實(shí)驗(yàn)結(jié)果表明,算法實(shí)現(xiàn)了預(yù)期的效果,具有高效性、魯棒性.但模型中仍然存在許多問題,在以后的研究中將繼續(xù)進(jìn)行探索.
[1]Anderson J P.Computer security threat monitoring and surveillance[R].Fort Washington:James P Anderson Company,1980.
[2]郭晨,梁家榮,夏潔武.基于危險(xiǎn)理論的人工免疫原理與應(yīng)用[J].計(jì)算機(jī)應(yīng)用研究,2007,24(6):18-21.
[3]Aickelin U,Greensmith J.Sensing danger:innate immunology for intrusion detection[J].Information Security Technical Report,2007,12(4):218-227.
[4]Greensmith J,Aickelin U,Tedesco G.Information fusion for anomaly detection with the dendritic cell algorithm[J].Information Fusion,2010,11(1):21-34.
[5]羅超,郭晨,梁家榮.確定性樹突狀細(xì)胞算法的異常檢測(cè)系統(tǒng)[J].江西師 范大學(xué)學(xué)報(bào),2011,35(2):170-172.
[6]楚赟,戴英俠,萬國龍.一個(gè)基于免疫的分布式入侵檢測(cè)系 統(tǒng) 模 型 [J].計(jì) 算 機(jī) 應(yīng) 用,2005,25(5):1153-1157.
[7]楊向榮,沈鈞毅,羅浩.人工免疫原理在網(wǎng)絡(luò)入侵檢測(cè)中的應(yīng)用[J].計(jì)算機(jī)工程,2003,29(6):27-29.
[8]劉韜.人工免疫系統(tǒng)及其數(shù)據(jù)挖掘應(yīng)用研究[M].徐州:中國礦業(yè)大學(xué)出版社,2010.
[9]李光,張鳳斌.基于樹突狀細(xì)胞算法的分類方法研究[J].電腦知識(shí)與技術(shù),2010,6(31):8798-8800.