趙思佳 尹 婷
(湖南環(huán)境生物職業(yè)技術(shù)學(xué)院,湖南 衡陽(yáng) 421005)
網(wǎng)絡(luò)將原本分離的世界連接為一體,信息的傳輸與共享得到史無(wú)前例的發(fā)展,知識(shí)的獲取更為便捷,人類社會(huì)的進(jìn)步借助于網(wǎng)絡(luò)實(shí)現(xiàn)了第三次革命。網(wǎng)絡(luò)改變了人類文明的發(fā)展模式和進(jìn)程[1]。但是,任何事物都是具有兩面性的。網(wǎng)絡(luò)在為科技進(jìn)步、社會(huì)發(fā)展提供高速運(yùn)轉(zhuǎn)平臺(tái)的同時(shí),也有可能成為部分別有用心者竊取信息、破壞秩序等犯罪活動(dòng)的工具,因此網(wǎng)絡(luò)的安全必須與網(wǎng)絡(luò)的建設(shè)同步開展,保證網(wǎng)絡(luò)安全的技術(shù)水平、防護(hù)能力始終處于領(lǐng)先地位?;诙嘁蛩靥卣鞣治觯词窃诰C合考慮各方面因素的情況下,針對(duì)各個(gè)因素的典型代表特征進(jìn)行甄別,準(zhǔn)確識(shí)別網(wǎng)絡(luò)傳輸數(shù)據(jù)中的安全隱患,保護(hù)網(wǎng)絡(luò)的安全[2]?;诙嘁蛩靥卣鞣治龅木W(wǎng)絡(luò)安全防護(hù)方法可以在相對(duì)低虛警的限定條件下,準(zhǔn)確識(shí)別竊取、攻擊行為,不會(huì)因?yàn)檫^(guò)于嚴(yán)格的核查規(guī)則影響網(wǎng)絡(luò)的正常使用,也不會(huì)因?yàn)閷挿旱臄?shù)據(jù)審計(jì)而漏過(guò)網(wǎng)絡(luò)破壞行為[3]。鑒于多因素特征分析優(yōu)秀的網(wǎng)絡(luò)防護(hù)能力,需要在該基礎(chǔ)上深入開發(fā),在更廣闊的范圍內(nèi)使用該技術(shù),保護(hù)網(wǎng)絡(luò)安全。因此建立基于多因素特征分析的網(wǎng)絡(luò)安全數(shù)據(jù)處理模型,以模塊化的流程建立標(biāo)準(zhǔn)的網(wǎng)絡(luò)安全數(shù)據(jù)處理算法,實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)安全的深度防護(hù)。
基于多因素特征分析的網(wǎng)絡(luò)安全數(shù)據(jù)處理模型能夠在實(shí)際應(yīng)用時(shí)實(shí)現(xiàn)自動(dòng)化處理,以提高流式數(shù)據(jù)的處理能力和計(jì)算效率[4]。該模型通過(guò)重新設(shè)計(jì)數(shù)據(jù)輸入、輸出以及數(shù)據(jù)計(jì)算節(jié)點(diǎn),以在線分布式實(shí)時(shí)監(jiān)控的工作模式對(duì)數(shù)據(jù)進(jìn)行監(jiān)控,增加對(duì)遠(yuǎn)程字典數(shù)據(jù)庫(kù)的訪問(wèn)節(jié)點(diǎn),在該節(jié)點(diǎn)中完成對(duì)數(shù)據(jù)的內(nèi)容審查,以完成對(duì)實(shí)時(shí)流式數(shù)據(jù)的處理工作。整個(gè)模型的架構(gòu)不給主干線路增加數(shù)據(jù)負(fù)擔(dān),以旁路工作的模式實(shí)現(xiàn)數(shù)據(jù)的輸入和輸出。如圖1所示。
圖1 實(shí)時(shí)流數(shù)據(jù)處理流程圖
從模型的模式圖可以看出,遠(yuǎn)程字典數(shù)據(jù)庫(kù)作為數(shù)據(jù)交換的中心,負(fù)責(zé)特征信息的存儲(chǔ)和維護(hù),整個(gè)數(shù)據(jù)流的處理邏輯在計(jì)算節(jié)點(diǎn)集群中實(shí)現(xiàn)。網(wǎng)絡(luò)傳輸?shù)臄?shù)據(jù)先通過(guò)遠(yuǎn)程字典通道(RIDIS)進(jìn)入遠(yuǎn)程字典服務(wù)器,然后編排工具使用計(jì)算節(jié)點(diǎn)訂閱對(duì)應(yīng)通道的數(shù)據(jù),并將數(shù)據(jù)發(fā)送到計(jì)算節(jié)點(diǎn)集群進(jìn)行數(shù)據(jù)計(jì)算,對(duì)比網(wǎng)傳數(shù)據(jù)和典型特征數(shù)據(jù)的相似度,作為判據(jù)之一。計(jì)算節(jié)點(diǎn)集群生成中間結(jié)果集,通過(guò)遠(yuǎn)程字典節(jié)點(diǎn)發(fā)送到遠(yuǎn)程字典服務(wù)器進(jìn)行統(tǒng)計(jì)[5]。遠(yuǎn)程字典服務(wù)器完成計(jì)算后,遠(yuǎn)程字典輸出節(jié)點(diǎn)將取出的中間結(jié)果集進(jìn)行二次處理,做進(jìn)一步的數(shù)據(jù)封裝,按照標(biāo)準(zhǔn)格式封裝成前端可視化模塊所需的數(shù)據(jù)格式,實(shí)現(xiàn)歸一化處理。最后,通過(guò)遠(yuǎn)程字典輸出節(jié)點(diǎn)將處理后的最終計(jì)算結(jié)果發(fā)布到指定的遠(yuǎn)程字典通道備查,前端可視化模塊即可從指定通道訂閱數(shù)據(jù)在控制端可視化顯示。
在原有的物聯(lián)網(wǎng)編配工具中沒(méi)有節(jié)點(diǎn)可以與遠(yuǎn)程字典交互,所以添加了遠(yuǎn)程字典節(jié)點(diǎn)。為了使用戶能夠自定義數(shù)據(jù)處理邏輯,引入了功能節(jié)點(diǎn),節(jié)點(diǎn)間功能獨(dú)立但是互相連通,計(jì)算結(jié)果互相可引用,多個(gè)功能節(jié)點(diǎn)構(gòu)成整個(gè)流程計(jì)算節(jié)點(diǎn)組。通過(guò)這些節(jié)點(diǎn)的分布式處理,可以在操作工具中快速方便地編寫流數(shù)據(jù)處理業(yè)務(wù)代碼。為了提高開發(fā)標(biāo)準(zhǔn),減少重復(fù)勞動(dòng)量,也方便移植以及投入使用后的維護(hù),節(jié)點(diǎn)中的業(yè)務(wù)代碼采用模塊化設(shè)計(jì),一次編寫,多點(diǎn)共用。
模型中的功能節(jié)點(diǎn)是操作工具的重要元素。該工具中有3個(gè)基本節(jié)點(diǎn):數(shù)據(jù)輸入節(jié)點(diǎn)(信息錄入功能)、輸出節(jié)點(diǎn)(信息發(fā)布功能)和數(shù)據(jù)處理(算法校驗(yàn)功能)節(jié)點(diǎn)[6]。操作工具識(shí)別和處理節(jié)點(diǎn)的方法是以字符串匹配,為了保證節(jié)點(diǎn)識(shí)別的準(zhǔn)確性,需要做到節(jié)點(diǎn)定義中帶有名稱的字符串必須與節(jié)點(diǎn)文件名保持一致,否則操作工具將無(wú)法解析。操作工具的節(jié)點(diǎn)本身主要包括js文件和HTML文件兩種。其中js文件用于定義功能節(jié)點(diǎn)的主要功能,即具體任務(wù)執(zhí)行流程;HTML文件用于定義節(jié)點(diǎn)的屬性、節(jié)點(diǎn)編輯框格式以及交互幫助等輔助功能。HTML文件包括三部分內(nèi)容:(1)節(jié)點(diǎn)的定義,規(guī)定節(jié)點(diǎn)的屬性、用途、數(shù)據(jù)處理的流程以及在瀏覽器中的顯示風(fēng)格,為一個(gè)可執(zhí)行的JavaScript代碼;(2)節(jié)點(diǎn)的編輯模板,即標(biāo)準(zhǔn)化的節(jié)點(diǎn)數(shù)據(jù)形式,用于生成用戶編輯節(jié)點(diǎn);(3)節(jié)點(diǎn)的幫助信息,注釋部分,提供使用該節(jié)點(diǎn)的說(shuō)明[7]。
在操作工具中安裝部署新節(jié)點(diǎn)后,可在操作工具前端編輯界面中使用該節(jié)點(diǎn)進(jìn)行數(shù)據(jù)處理。操作工具的強(qiáng)大擴(kuò)展性在于,用戶可以在操作工具中設(shè)計(jì)節(jié)點(diǎn)的功能,完成特定的任務(wù)。
多因素特征數(shù)據(jù)處理節(jié)點(diǎn)的最核心設(shè)計(jì)原則是全面覆蓋性,即需要?jiǎng)?chuàng)建節(jié)點(diǎn)來(lái)對(duì)輸入的各種類型的數(shù)據(jù)進(jìn)行必要的處理,即使有些類型不是節(jié)點(diǎn)所需要的,這是保證節(jié)點(diǎn)設(shè)計(jì)正確性和有效性的基礎(chǔ)保障[8]。在這一原則指導(dǎo)下,節(jié)點(diǎn)具備了向原始數(shù)據(jù)添加額外信息的能力,同時(shí)也方便了節(jié)點(diǎn)的升級(jí)擴(kuò)展。
還需要設(shè)置自檢測(cè)節(jié)點(diǎn),對(duì)模型的準(zhǔn)確度進(jìn)行自我檢驗(yàn)。設(shè)置綜合評(píng)價(jià)指標(biāo)L。其表達(dá)式如下。
式中:TP是被劃分到正例的樣本數(shù)量,F(xiàn)P是本身屬性為負(fù)例,但是被誤判而劃分到正例中的樣本數(shù)量。FN是本身屬性為正例,但被誤判劃分到負(fù)例中的樣本數(shù)量。通過(guò)加權(quán)計(jì)算,得出判定正確的樣本數(shù)量在加權(quán)后的總樣本數(shù)量中的比值,比值越接近于1,表明模型的準(zhǔn)確度越高。
建立了功能節(jié)點(diǎn)后,需要對(duì)節(jié)點(diǎn)的構(gòu)成進(jìn)行分析。采用主成分分析法,這是一種將數(shù)據(jù)進(jìn)行降維的計(jì)算方法,使用線性代數(shù)的相關(guān)定義將數(shù)據(jù)的高維屬性降為很多個(gè)主成分。這種方法很適用于高維數(shù)據(jù),可以分析信息量龐雜的數(shù)據(jù)[9]。一組龐雜的數(shù)據(jù)包括了非常多的屬性特征,研究這樣的數(shù)據(jù)就可以使用主成分分析法對(duì)數(shù)據(jù)進(jìn)行屬性簡(jiǎn)化,幾個(gè)主成分實(shí)際上是屬性特征的簡(jiǎn)單性表示,也方便之后的圖像提取工作。
當(dāng)處理對(duì)象為高維數(shù)據(jù)時(shí),由于數(shù)據(jù)自身屬性較多,數(shù)據(jù)一般會(huì)存在冗余。主成分分析可以在保持?jǐn)?shù)據(jù)有效性的同時(shí),將高維數(shù)據(jù)轉(zhuǎn)換為低維數(shù)據(jù)。主成分分析的缺點(diǎn)如下。主成分分析采用數(shù)據(jù)壓縮的方法,它可以從一定的角度反映一定的數(shù)據(jù)信息。但在降維過(guò)程中,重要信息可能是線性表示的,計(jì)算方式也較之高維數(shù)據(jù)有所不同,這種方式可能沒(méi)有那么優(yōu)越。聚類分析是數(shù)據(jù)挖掘中的經(jīng)典算法之一。
該文基于多因素特征分析建立的模型主要應(yīng)用的就是聚類分析方法。就是先對(duì)數(shù)據(jù)進(jìn)行主成分分析,再進(jìn)行聚類分析。這種方式是將兩種算法結(jié)合起來(lái),也能結(jié)合了兩種算法的優(yōu)勢(shì)。將兩種思路融合起來(lái),先對(duì)數(shù)據(jù)進(jìn)行降維的主成分算法,然后對(duì)幾個(gè)主成分分別進(jìn)行聚類分析。主成分聚類模型如圖2所示。
圖2 主成分聚類模型
基于數(shù)據(jù)處理模型,流程主要包括如下環(huán)節(jié):1)對(duì)原始數(shù)據(jù)進(jìn)行主成分分析。為簡(jiǎn)化數(shù)據(jù)處理復(fù)雜度,對(duì)數(shù)據(jù)標(biāo)準(zhǔn)化處理;求得與屬性信息數(shù)據(jù)有關(guān)的相關(guān)系數(shù)數(shù)據(jù)集合;得到特征值、總方差以及累積的貢獻(xiàn)率;往復(fù)循環(huán),計(jì)算得到每個(gè)主成分的數(shù)據(jù)。2)將得到的所有主成分?jǐn)?shù)據(jù)進(jìn)行聚類分析。隨機(jī)選擇K個(gè)對(duì)象的屬性為初始的聚類中心;根據(jù)每個(gè)聚類對(duì)象的均值,計(jì)算每個(gè)對(duì)象與這些中心對(duì)象的距離;并根據(jù)最小距離重新對(duì)相應(yīng)對(duì)象進(jìn)行劃分;重新計(jì)算每個(gè)聚類的中心,循環(huán)直到每個(gè)聚類對(duì)象不再發(fā)生變化為止。主成分聚類分析模型綜合利用了主成分分析和聚類分析的優(yōu)點(diǎn),既將數(shù)據(jù)進(jìn)行降維,得到主成分,利用聚類分析的特點(diǎn),將數(shù)據(jù)進(jìn)行聚類。
綜上所述,基于多因素特征分析的網(wǎng)絡(luò)安全數(shù)據(jù)處理模型構(gòu)建完成。
為了驗(yàn)證處理模型的準(zhǔn)確度,該文設(shè)置了對(duì)比實(shí)驗(yàn),對(duì)模型的數(shù)據(jù)處理的自適應(yīng)度、漏報(bào)率、誤報(bào)率進(jìn)行檢測(cè)。
首先進(jìn)行數(shù)據(jù)采集。設(shè)定研究對(duì)象為行業(yè)統(tǒng)計(jì)的網(wǎng)絡(luò)數(shù)據(jù)。將數(shù)據(jù)輸入計(jì)算機(jī)中,將這些數(shù)據(jù)按照行業(yè)地區(qū)的數(shù)據(jù)進(jìn)行聚類分析,建立起數(shù)據(jù)分析模型。
該文設(shè)計(jì)的模型主要應(yīng)用的是多因素特征分析方法中的主成分分析和聚類分析方法。先將收集到的行業(yè)數(shù)據(jù)進(jìn)行主成分分析,再將簡(jiǎn)化屬性之后的主成分進(jìn)行聚類分析。
實(shí)驗(yàn)的數(shù)據(jù)具體處理步驟如下:首先將樣本數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化預(yù)處理,處理后可以得到研究數(shù)據(jù)樣本,將其中30組樣本人工植入破壞性代碼,作為假想黑客數(shù)據(jù),使用該文設(shè)計(jì)的數(shù)據(jù)處理模型進(jìn)行數(shù)據(jù)處理并與其他數(shù)據(jù)處理方式進(jìn)行對(duì)比,驗(yàn)證多因素特征分析的網(wǎng)絡(luò)安全數(shù)據(jù)處理模型識(shí)別攻擊的能力。
將該文設(shè)計(jì)的多因素特征分析的網(wǎng)絡(luò)安全數(shù)據(jù)處理模型命名為DYS模型。將DYS模型設(shè)置為實(shí)驗(yàn)組,選取已經(jīng)投入應(yīng)用的CAN、HG_G等七種數(shù)據(jù)處理模型進(jìn)行對(duì)比。性能測(cè)試結(jié)果體現(xiàn)了輸入數(shù)據(jù)樣本的平均檢測(cè)準(zhǔn)確率、自適應(yīng)、誤報(bào)率、漏報(bào)率以及綜合評(píng)定準(zhǔn)確率的達(dá)到情況。其檢測(cè)結(jié)果如表1所示。
表1 實(shí)驗(yàn)結(jié)果表
從表中結(jié)果可以看出,該文設(shè)計(jì)的數(shù)據(jù)處理模型的準(zhǔn)確率指標(biāo)結(jié)果為95.7%,高出處于第二的Firefl近3%,效果明顯優(yōu)于對(duì)比方法。對(duì)已知攻擊,多因素特征分析數(shù)據(jù)處理模型在自適應(yīng)和漏報(bào)率指標(biāo)上的結(jié)果分別為97.2%和2.6%,分別高出次優(yōu)結(jié)果約5%和0.4%,效果均優(yōu)于對(duì)比方法;同時(shí),該文模型在誤報(bào)率指標(biāo)上的結(jié)果與最優(yōu)結(jié)果相差不到0.1%,效果較為良好。對(duì)未知攻擊,該文的數(shù)據(jù)處理模型的自適應(yīng)指標(biāo)為87.2%,誤報(bào)率指標(biāo)為0.3%,分別高于次優(yōu)結(jié)果約0.1%和1.2%,漏報(bào)率指標(biāo)為16%比最優(yōu)結(jié)果低1%左右,因此效果也較為良好。對(duì)變動(dòng)網(wǎng)絡(luò)數(shù)據(jù)集,DYS模型取得的檢測(cè)準(zhǔn)確率指標(biāo)將近95%,高出處于第二的SVM-約1%,效果均優(yōu)于對(duì)比方法。通過(guò)綜合對(duì)比各項(xiàng)指標(biāo)的結(jié)果,該文設(shè)計(jì)的數(shù)據(jù)處理模型DYS在已知、未知攻擊檢測(cè)的準(zhǔn)確率、誤報(bào)率及漏報(bào)率等指標(biāo)上都可以超過(guò)其他模型,對(duì)網(wǎng)絡(luò)攻擊和隱蔽破壞行為具有防護(hù)能力,可以切實(shí)保障網(wǎng)絡(luò)安全。
網(wǎng)絡(luò)已經(jīng)成為社會(huì)發(fā)展和現(xiàn)代生活不可或缺的工具,在某種意義上理解,網(wǎng)絡(luò)資源已經(jīng)成為戰(zhàn)略資源,因此網(wǎng)絡(luò)安全的重要意義不言而喻。在建立網(wǎng)絡(luò)安全的研究領(lǐng)域,雖然前人已經(jīng)做出了卓有成效的工作,但是面對(duì)手段越發(fā)復(fù)雜和隱蔽的攻擊行為和竊取技術(shù),任何改進(jìn)都是必要的,并且需要持續(xù)、深入地研究下去,為網(wǎng)絡(luò)安全提供技術(shù)防范手段。結(jié)合多因素特征分析的數(shù)據(jù)處理模型,站在網(wǎng)絡(luò)數(shù)據(jù)傳輸?shù)慕嵌?,?duì)數(shù)據(jù)進(jìn)行篩查,通過(guò)不同類型數(shù)據(jù)的多種因素典型特征值對(duì)比分析,發(fā)現(xiàn)潛在的危險(xiǎn)因素,發(fā)出報(bào)警并同步采取控制措施,保障網(wǎng)絡(luò)安全。不過(guò)這種技術(shù)手段也存在薄弱之處,在面對(duì)大規(guī)模網(wǎng)絡(luò)流量攻擊和惡意加密流量攻擊等問(wèn)題時(shí),存在計(jì)算能力不足的問(wèn)題,因此還需要深入研究,持續(xù)改進(jìn)。網(wǎng)絡(luò)安全防護(hù)的技術(shù)手段研發(fā)一直在路上,需要業(yè)界共同努力,保障網(wǎng)絡(luò)的實(shí)體安全。希望通過(guò)分享研究成果,為業(yè)界的技術(shù)進(jìn)步提供啟發(fā),共同維護(hù)網(wǎng)絡(luò)的安全環(huán)境。